章 大数据概述
1.1 大数据概念及价值
1.2 大数据数据源
1.3 大数据技术应用场景
1.4 大数据处理流程及技术
1.5 大数据与云计算的关系
1.6 大数据与人工智能的关系
本章小结
习题一
第2章 Hadoop介绍
2.1 Hadoop简介
2.1.1 Hadoop由来
2.1.2 Hadoop发展历程
2.1.3 Hadoop生态系统
2.2 Hadoop的体系架构
2.2.1 分布式文件系统HDFS
2.2.2 分布式计算框架MapReduce
2.2.3 分布式资源调度系统YARN
2.3 Hadoop依赖的技术基础
2.3.1 Java编程基础
2.3.2 web可视化技术基础
2.3.3 关系数据库基础
2.3.4 Linux基础
2.4 Hadoop2.O集群搭建
2.4.1 伪分布式安装部署
2.4.2 全分布式安装部署
本章小结
习题二
第3章 分布式文件系统HDFS
3.1 HDFS简介
3.2 HDFS的设计目标
3.3 HDFS的体系架构
3.3.1 主从架构
3.3.2 HDFS高可用性架构
3.4 HDFS的核心设计
3.4.1 数据复制
3.4.2 健壮性设计
3.4.3 数据组织
3.4.4 存储空间回收机制
3.4.5 可访问性
3.5 HDFS中数据流的读写
3.5.1 RPC实现流程
3.5.2 文件的读取
3.5.3 文件的写入
3.5.4 一致性模型
3.6 HDFs的联邦机制
本章小结
习题三
第4章 访问HDFS的常用接口
4.1 HDFS常用命令接口
4.2 HDFS编程环境准备
4.2.1 IDEA的安装配置及特性
4.2.2 Mayen的安装配置
4.3 Java接口
4.3.1 在本地Windows机器上配置Hadoop环境变量
4.3.2 编写Java客户端程序
本章小结
习题四
第5章 分布式计算框架MapReduce
5.1 MapReduce编程模型简介
5.1.1 产生背景
5.1.2 MapReduce编程模型
5.1.3 MapReduce工作流程
5.1.4 MapRedLlee两个版本比较
5.2 MapRedLice入门编程
5.2.1 认识Map和Reduce
5.2.2 MapTask阶段
5.2.3 RedLiceTask阶段
本章小结
习题五
第6章 MapReduce基础编程
6.1 MapReduce编程设计
6.1.1 MapReduce分布式计算模型
6.1.2 MapReduce分布式编程框架
6.2 MapReduee编程实例wordcount
6.2.1 wordcount开发需求分析
6.2.2 编程环境准备
6.2.3 编写Mapper类
6.2.4 编写RedLJeer类
6.2.5 MapReduce程序在YARN集群的运行机制
6.2.6 编写YARN的客户端
6.2.7 YARN集群的配置、作业打包和启动
本章小结
习题六
第7章 分布式资源管理系统YARN
7.1 YARN简介
7.2 发展史
7.2.1 Hadoop
7.2.2 Hadoop2.0和Hadoop1.0的区别
7.2.3 MapReduce计算框架的演变
7.3 YARN的架构
7.4 YARN集群执行应用程序的工作流程
7.5 Hadoop如何使用YARN运行一个Job
7.6 YARN的调度策略
7.7 YARN的重要概念总结
本章小结
习题七
第8章 MapReduce不错编程
8.1 Combiner
8.2 Partitioner
8.3 计数器
8.4 排序
8.5 Join连接
8.6 倒排索引
8.7 求平均值和数据去重
本章小结
习题八
第9章 分布式锁服务ZooKeeper
9.1 ZooKeeper基本概念介绍
9.1.1 ZooKeeper的定义
9.1.2 Z00Keeper的基本原理和应用场景
9.1.3 ZooKeeper的选举机制
9.1.4 ZooKeeper的存储机制
9.2 ZooKeeper集群部署
9.3 ZooKeeper编程实例
9.3.1 ZooKeeper API基础知识
9.3.2 ZooKeeper API介绍及编程实例
本章小结
习题九
0章 Hadoop高可用集群搭建
10.1 HDFS高可用的工作机制
10.2 集群规划
10.3 Hadoop HA集群搭建
10.3.1 前期准备
10.3.2 安装Z00Keeper集群
10.3.3 安装Hadoop集群
10.3.4 启动集群
10.3.5 测试
本章小结
习题十
参考文献