![]()
内容推荐 本书为一本大数据技术的入门书籍,介绍Hadoop大数据平台和Spark大数据平台及相关工具的原理,以及如何进行部署和简单开发。 全书包含13章:第1、2章介绍如何为深入学习Hadoop和Spark做环境准备,包括VMware虚拟机的创建和CentOS操作系统安装。第3~6章介绍Hadoop大数据平台的基本原理,包括HDFS、MapReduce计算模型、HBase数据库,以及Hive数据仓库的原理、部署方法和开发技术。第7~11章介绍Spark大数据平台的基本原理,包括弹性分布式数据集、转换与动作操作、宽依赖与窄依赖、有向无环图表达的作业及其处理过程等,并且介绍了Spark Core、Spark SQL、Spark MLlib、Spark GraphX的部署和开发技术。最后两章介绍了Flume(第12章)和Kafka(第13章)两个工具,Flume用于大量日志的收集和处理,Kafka用于对大量快速到达的数据进行及时、可靠、暂时的存储。 本书适合高等院校高年级本科生以及硕士研究生使用,也可以供非计算机专业学生及相关领域技术人员参考。 作者简介 覃雄派,中国人民大学信息学院计算机系副教授。2009年毕业于中国人民大学信息学院,获得工学博士学位。目前主要从事高性能数据库、大数据分析、信息检索等方面的研究工作,主持1项国家自然科学基金面上项目,参与多项国家“863”计划、“973”计划及国家自然科学基金项目,在国内外期刊和会议上发表论文30余篇。 目录 第1章 VMware 与虚拟机 1.1 VMware简介 1.2 VMware的安装 1.3 VMware的网络配置 1.3.1 VMnet0网卡配置 1.3.2 VMnet1网卡配置 1.3.3 VMnet8网卡配置 1.4 Windows环境下对VMnet8的DNS进行配置 1.5 利用管理员权限编辑网卡 1.6 总结 1.7 思考题 参考文献 第2章 CentOS操作系统安装 2.1 新建VMware虚拟机 2.2 安装CentOS 2.3 配置Yum 2.4 为CentOS安装图形用户界面 2.5 CentOS的网络配置 2.5.1 虚拟机的网络配置 2.5.2 在CentOS操作系统里对网卡进行设置 2.6 Samba配置 2.7 配置SSHD 2.8 重新启动虚拟机需要执行的命令 2.9 思考题 第3章 Hadoop入门 3.1 Hadoop简介 3.2 HDFS 3.2.1 写文件 3.2.2 读文件 3.2.3 Secondary NameNode介绍 3.3 MapReduce 工作原理 3.3.1 MapReduce 执行引擎 3.3.2 MapReduce 计算模型 3.3.3Hadoop 1.0 的应用 3.4 Hadoop 生态系统 3.5 Hadoop 2 3.5.1Hadoop 1.0 的优势和局限 3.5.2 从Hadoop 1.0 到Hadoop 2.0 3.5.3 YARN原理 3.5.4 YARN的优势 3.6 思考题 第4章 Hadoop安装与HDFS、MapReduce实验 4.1 安装JDK 4.2 新建虚拟机集群 4.2.1 网络配置小结 4.2.2 配置各个虚拟机别名 4.2.3 配置各个虚拟机的/etc/hosts文件 4.3 无密码SSH登录 4.4 Hadoop 安装、配置和启动 4.4.1 core-site.xml配置文件 4.4.2 hdfs-site.xml配置文件 4.4.3 mapred-site.xml配置文件 4.4.4 yarn-site.xml配置文件 4.4.5 配置hadoop-env.sh脚本文件 4.4.6 配置yarn-env.sh脚本文件 4.4.7 主机配置 4.5 格式化HDFS 4.6 启动Hadoop 4.7 报告HDFS的基本信息 4.8 使用日志 4.9 Hadoop 管理界面 4.10 Hadoop测试 4.10.1 HDFS常用文件操作命令 4.10.2 测试WordCount程序 4.11 配置History Server 4.12 若干问题解决 4.13 HDFSJava程序分析 4.14 WordCount程序代码简单分析 4.15 MapReduce Sort 4.16 MapReduce Java开发环境配置 4.17 思考题 参考文献 第5章 HBase简介、部署与开发 5.1 HBase简介 5.2 HBase 访问接口 5.3 HBase的数据模型 5.4 HBase系统架构 5.5 HBase存储格式 5.6 在HBase系统上运行MapReduce 5.7 HBase安装、配置与运行 5.8 启动HBase并且测试 5.9 使用HBase Shell 5.10 HBase Java实例分析 5.11 若干问题解决 5.12 思考题 参考文献 第6章 Hive 数据仓库 6.1 Hive简介 6.2 Hive数据模型 6.3 Hive安装、配置和运行 6.3.1 使用MySQL进行元信息管理 6.3.2 安装和配置Hive 6.3.3 启动Hive 6.4 若干问题解决 6.5 hiveserver2与 beeline 6.6 Hive安装问题 6.7 HWI服务 6.8 Metastore 服务 6.9 Hive的Java开发 6.10 Tez简介 6.10.1 Hadoop 2.0上的交互式查询引擎Hive on Tez 6.10.2 把数据处理逻辑建模成一个DAG连接起来的任务 6.11 Hadoop平台上的列存储技术 6.11.1 列存储的优势 6.11.2 Parquet列存储格式 6.12 思考题 参考文献 第7章 Spark及其生态系统 7.1 Spark简介 7.1.1 Spark软件架构 7.1.2 Spark的主要优势 7.2 Hadoop的局限和Spark的诞生 7.3 Spark的特性 7.4 Spark生态系统 7.5 RDD及其处理 7.5.1 DAG、宽依赖与窄依赖 7.5.2 DAG的调度执行 7.6 Spark的部署 7.7 Spark SQL 7.8 Spark的应用案例 7.9 总结 7.10 思考题 参考文献 第8章 Spark的安装、部署与运行 8.1 Spark的安装、配置与运行 8.2 启动Spark 8.2.1 启动spark-sql shell 运行SQL 8.2.2 启动pyspark shell 运行SQL 8.2.3 用pyspark shell 进行数据处理 8.2.4 启动scala shell运行 WordCount 8.2.5 启动scala shell运行SQL(本地文件) 8.2.6 启动scala shell运行SQL(HDFS文件) 8.2.7 配置和启动Thrift Server 8.2.8 错误分析 8.3 在Windows上用Eclipse调试Spark Java程序 8.4 在Windows 上安装Maven和配置Eclipse 8.5 思考题 参考文献 第9章 Spark SQL 9.1 Spark SQL简介 9.2 查询本地文件、HDFS文件以及HDFS Parquet列存储格式文件 9.3 内置实例分析与Java开发 9.3.1 通过SQL Explorer插件存取 Spark SQL 9.3.2 JDBCJava编程 9.4 思考题 参考文献 第10章 Spark MLlib 10.1 MLlib简介 10.2 启动平台软件 10.3 分类实例 10.4 聚类实例 10.5 线性回归 10.6 协同过滤推荐 10.7 思考题 |