内容推荐 薛志东主编的《大数据技术基础》系统、全面地介绍了大数据技术的基础知识,期望读者通过对本书的学习和实践了解大数据技术的概貌,掌握Hadoop生态圈大数据技术中最为基础和关键的知识。本书主要内容包括大数据概述、大数据软件基础、大数据存储技术、MapReduce分布式编程、数据采集与预处理、数据仓库与联机分析处理、大数据分析与挖掘技术、Spark分布式内存计算框架、数据可视化技术、大数据安全。 本书可作为数据科学与大数据、软件工程、计算机科学与技术等专业的大数据概论课程的教材,也可供大数据工程技术人员阅读使用。 作者简介 薛志东,博士,研究员,华中科技大学软件学院数据科学中心主任,湖北省运筹学会数据科学与大数据专委会主任委员。先后讲授Java面向对象技术、数字图像处理、虚拟现实等课程;在NAR、Bioinformatics等国际一流期刊上发表论文10余篇。目前主要从事大数据处理及应用、康复游戏研发等工作,具有丰富的软件研发经验。 目录 第1章 大数据概述 1.1 大数据的相关概念 1.2 大数据处理的基础技术 1.2.1 大数据处理流程 1.2.2 分布式计算 1.2.3 分布式文件系统 1.2.4 分布式数据库 1.2.5 数据库与数据仓库 1.2.6 云计算与虚拟化技术 1.2.7 虚拟化产品介绍 1.3 流行的大数据技术 1.4 大数据解决方案 1.5 大数据发展现状和趋势 1.5.1 大数据现状分析 1.5.2 大数据发展趋势 1.6 教学建议及教辅资料 习题 第2章 大数据软件基础 2.1 Linux基础 2.1.1 Linux简介 2.1.2 Linux基本操作 2.1.3 网络配置管理 2.1.4 其他常用网络命令 2.2 Java基础 2.2.1 面向对象与泛型 2.2.2 集合类 2.2.3 内部类与匿名类 2.2.4 反射 2.3 SQL语言基础 2.4 在VirtualBox上安装Linux集群 2.4.1 master节点的安装 2.4.2 配置Virtualbox网络及虚拟机 网卡 2.4.3 slave节点的安装与配置 2.4.4 Java环境的安装 2.4.5 MySQL服务 2.4.6 SSH免密钥登录 2.4.7 配置时钟同步 习题 第3章 大数据存储技术 3.1 理解HDFS分布式文件系统 3.1.1 HDFS简介 3.1.2 HDFS的体系结构 3.1.3 HDFS中的数据流 3.2 NoSQL数据库 3.2.1 键值数据库Redis 3.2.2 列存储数据库HBase 3.2.3 文档数据库MongoDB 3.2.4 图数据库Neo4j 3.3 Hadoop的安装与配置 3.3.1 Hadoop的配置部署 3.3.2 启动Hadoop集群 3.4 HDFS文件管理 3.4.1 命令行访问HDFS 3.4.2 使用JavaAPI访问HDFS 3.5 HBase的安装与配置 3.5.1 解压并安装HBase 3.5.2 配置HBase 3.6 HBase的使用 3.6.1 HBase-shell 3.6.2 JavaAPI 习题 第4章 MapReduce分布式编程 第5章 数据采集与预处理 第6章 数据仓库与联机分析处理 第7章 大数据分析与挖掘技术 第8章 Spark分布式内存计算框架 第9章 数据可视化技术 第10章 大数据安全
|