内容推荐 本书以任务为导向,较为全面地介绍Hadoop大数据技术及其生态系统组件Hive、HBase的相关知识。全书共8章,具体内容包括Hadoop介绍、Hadoop集群的搭建及配置、Hadoop基础操作、MapReduce入门编程、MapReduce进阶编程、Hive数据仓库、HBase分布式数据库,以及一个项目案例(电影网站用户影评分析)。本书的第2~7章包含实训与课后习题,读者可通过练习和操作实践,巩固所学的内容。 本书可用于“1+X”证书制度试点工作中的大数据应用开发(Python)职业技能等级证书(中级)的教学和培训,也可以作为高校大数据技术相关专业的教材和大数据技术爱好者的自学用书。 目录 第1章 Hadoop介绍 任务1.1 认识Hadoop框架 1.1.1 什么是Hadoop 1.1.2 了解Hadoop的发展历史 1.1.3 了解Hadoop的特点 任务1.2 了解Hadoop核心组件 1.2.1 了解分布式文件系统——HDFS 1.2.2 了解分布式计算框架——MapReduce 1.2.3 了解集群资源管理器——YARN 任务1.3 了解Hadoop生态系统 任务1.4 了解Hadoop应用场景 小结 课后习题 第2章 Hadoop集群的搭建及配置 任务2.1 安装及配置虚拟机 2.1.1 创建Linux虚拟机 2.1.2 设置固定IP地址 2.1.3 远程连接虚拟机 2.1.4 配置本地YUM源及安装常用软件 任务2.2 搭建Hadoop完全分布式集群 2.2.1 在Linux下安装Java 2.2.2 修改配置文件 2.2.3 克隆虚拟机 2.2.4 配置SSH免密码登录 2.2.5 配置时间同步服务 2.2.6 启动和关闭Hadoop集群 2.2.7 监控Hadoop集群 小结 实训 实训1 修改master虚拟机的IP地址 实训2 编写Shell脚本同步集群时间 课后习题 第3章 Hadoop基础操作 任务3.1 认识Hadoop安全模式 3.1.1 了解Hadoop安全模式 3.1.2 查看、解除和开启Hadoop安全模式 任务3.2 查看Hadoop集群的基本信息 3.2.1 查询集群的存储系统信息 3.2.2 查询集群的计算资源信息 任务3.3 上传文件到HDFS目录 3.3.1 了解HDFS 3.3.2 HDFS的基本操作 3.3.3 任务实现 任务3.4 运行首个MapReduce任务 3.4.1 了解Hadoop官方的示例程序包 3.4.2 提交MapReduce任务给集群运行 任务3.5 管理多个MapReduce任务 3.5.1 查询MapReduce任务 3.5.2 中断MapReduce任务 …… 第4章 MapReduce入门编程 第5章 MapReduce进阶编程 第6章 Hive数据仓库 第7章 HBase分布式数据库 第8章 项目案例:电影网站用户影评分析 附录A Linux常用操作命令 附录B Hadoop集群组件的常用端口及其说明 |