前言
第1章 Hadoop概述
1.1 Hadoop的前世今生
1.1.1 Hadoop是什么
1.1.2 项目起源
1.1.3 发展历程
1.1.4 名字起源
1.2 Hadoop生态系统简介
1.3 Hadoop的优势及应用领域
1.3.1 Hadoop的优势
1.3.2 Hadoop的应用领域
1.4 Hadoop与云计算
1.4.1 云计算的概念及特点
1.4.2 Hadoop与云计算之间的关系
1.5 Hadoop与Spark
1.5.1 Spark的概念及特点
1.5.2 Hadoop与Spark之间的关系
1.6 Hadoop与传统关系型数据库
1.6.1 传统关系型数据库的概念及特点
1.6.2 Hadoop与传统数据库之间的关系
本章小结
本章习题
第2章 Hadoop开发及运行环境搭建
2.1 Hadoop集群环境搭建概述
2.1.1 虚拟机的安装部署
2.1.2 Linux操作系统的安装部署
2.1.3 Hadoop的运行模式
2.2 Hadoop伪分布式集群环境搭建
2.2.1 关闭防火墙和禁用SELNUX
2.2.2 配置hostname与IP地址之间的对应关系
2.2.3 创建用户和用户组
2.2.4 配置SSH免密码登录
2.2.5 JDK安装
2.2.6 Hadoop伪分布式集群的安装配置
2.2.7 测试运行Hadoop集群
2.3 搭建MyEclipse开发环境
2.3.1 JDK的安装配置
2.3.2 安装MyEclipse
2.3.3 在MyEclipse上安装Hadoop插件
2.3.4 Hadoop环境配置
2.3.5 构建MapReduce项目
本章小结
本章习题
第3章 HDFS分布式文件系统
3.1 HDFS体系结构详解
3.1.1 什么是文件系统
3.1.2 什么是分布式文件系统
3.1.3 HDFS分布式文件系统概述
3.2 HDFS的Shell操作
3.2.1 HDFS基本Shell操作命令
3.2.2 Hadoop管理员常用的Shell操作命令
3.3 HDFS的Java API操作
3.3.1 获取HDFS文件系统
3.3.2 文件/目录的创建与删除
3.3.3 获取文件
3.3.4 上传/下载文件
3.3.5 获取HDFS集群节点信息
3.4 HDFS的新特性——HA
3.4.1 HA机制产生背景
3.4.2 HDFS的HA机制
3.4.3 HDFS的HA架构
3.5 实战:小文件合并程序的编写及运行
本章小结
本章习题
第4章 MapReduce分布式计算框架
4.1 初识MapReduce
4.1.1 MapReduce概述
4.1.2 MapReduce的基本设计思想
4.1.3 MapReduce的优缺点
4.2 MapReduce编程模型
4.2.1 MapReduce编程模型简介
4.2.2 深入剖析MapReduce编程模型——以WordCount为例
4.3 MapReduce运行框架
……
第5章 Hadoop的文件I/O
第6章 YARN资源管理器
第7章* Zookeeper分布式协调服务
第8章 Hadoop分布式集群搭建与管理
第9章 Hive数据仓库
第10章 HBase分布式数据库
第11章 Hadoop生态系统常用开发技术
第12章 项目实践:广电收视率数据统计分析
第13章* 项目实践:视频网站爬虫系统开发
参考文献