内容推荐 本书详细阐述了与Hadoop 3相关的基础知识,主要包括Hadoop 3简介、深入理解Hadoop分布式文件系统、YARN资源管理器、MapReduce内部机制、Hadoop中的SQL、实时处理引擎、Hadoop生态圈组件、定义Hadoop中的应用程序、Hadoop中的实时流处理、Hadoop中的机器学习、云端中的Hadoop、Hadoop集群分析、Hadoop中的角色及其执行内容、网络和数据安全、监测Hadoop等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。 目录 第1部分 Hadoop 3简介 第1章 Hadoop 3简介 1.1 Hadoop起源和时间轴 1.1.1 Hadoop的起源 1.1.2 时间轴 1.2 Hadoop 3及其特性 1.3 Hadoop逻辑视图 1.4 Hadoop发行版本 1.4.1 本地版本 1.4.2 云版本 1.5 回顾 1.6 本章小结 第2章 深入理解Hadoop分布式文件系统 2.1 技术需求 2.2 定义HDFS 2.3 深入研究HDFS体系结构 2.3.1 HDFS逻辑结构 2.3.2 数据分组的概念 2.3.3 HDFS通信体系结构 2.4 NameNode内部机制 2.5 数据本地性和机架感知 2.6 DataNode内部机制 2.7 Quorum Journal Manager(QJM) 2.8 Hadoop 3.x中的高可用性 2.9 数据管理 2.9.1 元数据管理 2.9.2 使用二级NameNode的检查点 2.9.3 数据集成 2.9.4 HDFS快照 2.9.5 数据平衡机制 2.9.6 均衡器的最佳应用方案 2.10 HDFS写入、读取操作 2.10.1 写入工作流 2.10.2 读取工作流 2.10.3 短路读取 2.11 管理Hadoop 3.x中的磁盘倾斜数据 2.12 HDFS中的延迟持久化写入操作 2.13 Hadoop 3.x中的纠删码 2.13.1 纠删码的优点 2.13.2 纠删码的缺点 2.14 HDFS公共接口 2.14.1 HDFS读取操作 2.14.2 HDFS写入操作 2.14.3 HDFSFileSystemWrite.java文件 2.14.4 HDFS删除操作 2.15 HDFS命令参考 2.15.1 文件系统命令 2.15.2 分布式复制 2.15.3 管理命令 2.16 回顾 2.17 本章小结 第3章 YARN资源管理器 3.1 YARN体系结构 3.1.1 资源管理器组件 3.1.2 节点管理器核心 3.2 YARN作业调度机制简介 3.3 FIFO调度器 3.4 计算能力调度器 3.5 公平调度器 3.5.1 调度队列 3.5.2 配置公平调度器 3.6 资源管理器的高可用性 3.6.1 资源管理器高可用性的体系结构 3.6.2 配置资源管理器高可用性 3.7 节点标记 3.8 Hadoop 3.x中的YARN时间轴服务器 3.9 Hadoop 3.x中的机会型容器 3.10 YARN中的Docker容器 3.10.1 配置Docker容器 3.10.2 运行Docker镜像 3.10.3 运行容器 3.11 YARN REST API 3.11.1 资源管理API 3.11.2 节点管理器REST API 3.12 YARN命令参考 3.12.1 用户命令 3.12.2 应用程序命令 3.12.3 日志命令 3.12.4 管理员命令 3.13 本章小结 第4章 MapReduce内部机制 4.1 技术需求 4.2 深入了解Hadoop MapReduce框架 4.3 YARN和MapReduce 4.4 Hadoop框架中的MapReduce工作流 4.5 常见的MapReduce模式 4.5.1 求和模式 4.5.2 过滤模式 4.5.3 连接模式 4.5.4 复合连接 4.6 MapReduce用例 4.6.1 MovieRatingMapper 4.6.2 MovieRatingReducer 4.6.3 MovieRatingDriver 4.7 优化MapReduce 4.7.1 硬件配置 4.7.2 操作系统调试 4.7.3 优化技术 4.7.4 运行期配置 4.7.5 文件系统优化 4.8 本章小结 第2部分 Hadoop生态圈 第5章 Hadoop中的SQL 5.1 技术需求 5.2 Presto 5.2.1 Presto体系结构 5.2.2 安装Presto并执行基本的查询操作 5.2.3 函数 5.2.4 Presto连接器 5.3 Hive 5.3.1 Apache Hive体系结构 5.3.2 安装和运行Hive 5.3.3 Hive查询 5.3.4 选择文件格式 5.3.5 HCatalog简介 5.3.6 HiveServer2简介 5.3.7 Hive UDF 5.3.8 理解Hive中的ACID 5.3.9 分区机制和分桶机制 5.3.10 最佳实践 5.4 Impala 5.4.1 Impala体系结构 5.4.2 了解Impala接口和查询 5.4.3 Impala实战 5.4.4 加载CSV文件中的数据 5.4.5 最佳实践方案 5.5 本章小结 第6章 实时处理引擎 6.1 技术需求 6.2 Spark 6.2.1 Apache Spark内部机制 6.2.2 弹性分布式数据集 6.2.3 安装并运行第一个Spark作业 6.2.4 累加器和广播变量 6.2.5 理解数据框和数据集 6.2.6 Spark集群管理器 6.2.7 最佳实践 6.3 Apache Flink 6.3.1 Flink体系结构 6.3.2 Apache Flink生态圈组件 6.3.3 数据流和数据集API 6.3.4 表API 6.3.5 最佳实践 6.4 Storm/Heron 6.4.1 Storm/Heron体系结构 6.4.2 理解Storm Trident 6.4.3 Storm集成 |