![]()
内容推荐 本书是为所有热爱大数据、打算从事大数据相关工作的读者编写的,适合有Java编程基础的学习者参考使用。本书全面介绍了大数据技术生态圈,更在此基础上全景展现了Hadoop大数据分布式系统集群平台的搭建、大数据分布式文件系统HDFS、大数据分布式并行计算框架MapReduce、Hadoop大数据仓库工具Hive和海量日志采集工具Flume等大数据实用技术。本书通俗易懂、结构清晰,着重于分析解决问题的思路和具体实施过程。 本书适合作为高等院校计算机相关专业的程序设计教材,也可作为Hadoop技术的培训图书。 目录 第1章 初识Hadoop及HDFS分布式系统 1.1 初识Hadoop 1.1.1 大数据概述 1.1.2 大数据技术 1.1.3 Hadoop简介 1.2 分布式文件系统(HDFS) 1.2.1 分布式文件系统 1.2.2 HDFS的定义 1.3 Hadoop伪分布式环境搭建 1.3.1 Hadoop安装的三种模式 1.3.2 搭建的准备工作 1.3.3 Hadoop相关配置 1.3.4 启动Hadoop 1.4 HDFS常用命令与应用 1.4.1 HDFS命令行基本操作 1.4.2 HDFSJavaAPI的核心类和接口 1.4.3 基于JavaAPI的编程实例 小结 习题 第2章 分布式协调服务——ZooKeeper和HDFS高可用性 2.1 ZooKeeper的作用和基本概念 2.1.1 分布式应用概述 2.1.2 分布式应用的优缺点 2.1.3 ZooKeeper的概念和特点 2.1.4 ZooKeeper的主要应用 2.1.5 ZooKeeper的架构 2.1.6 数据模型与层次命名空间 2.1.7 Znode的类型 2.2 ZooKeeper集群的搭建 2.3 ZooKeeper操作与API编程 2.3.1 服务端常用命令 2.3.2 客户端连接ZooKeeper的相关操作 2.3.3 使用JavaAPI访问ZooKeeper 2.3.4 使用JavaAPI编程——入门案例 2.3.5 使用JavaAPI编程——官方案例解读 2.4 ZooKeeper原理分析 2.4.1 一致性协议——Zab协议 2.4.2 Leader选举 2.5 高可用 2.6 HDFS缓存 2.7 HDFS完全分布式搭建 2.8 HDFS高可用架构搭建 2.8.1 HDFS的基本架构 2.8.2 HDFS高可用架构 2.8.3 高可用架构搭建思路 小结 习题 第3章 分布式并行计 3.1 MapReduce介绍 3.1.1 MapReduce的概念 3.1.2 MapReduce适合及不适合的应用场景 3.1.3 MapReduce的运行原理 3.2 MapReduce快速入门 3.2.1 WordCount案例——需求分析 3.2.2 WordCount案例_原理与实现步骤 3.3 MapReduce应用开发详解 3.4 MapReduce的工作机制 …… 第4章 Hadoop集群资源管理和数据序列化 第5章 Hadoop大数据仓库工具Hive 第6章 Hadoop大数据仓库工具Hive深入 第7章 海量日志采集工具Flume 第8章 Sqoop和Azkaban高度系统 第9章 Hive数据仓库项目实战 附录 |