![]()
内容推荐 本书以Hadoop 3.x为主线,全面介绍Hadoop及其生态体系中常用的大数据开源项目的安装和使用。全书共11章,分别讲解大数据概念、Hadoop基础知识、Hadoop集群部署、HDFS、MapReduce、YARN、ZooKeeper、Hive、Flume、Azkaban和Sqoop,并在最后开发一个完整的网站流量日志分析系统,帮助读者巩固前面所学的内容。 本书附有配套视频、教学课件、教学设计、测试题等资源;同时,为了帮助初学者更好地学习本书的内容,还提供在线答疑,欢迎读者关注。 本书可作为高等教育本科院校数据科学与大数据技术及相关专业的教材,并适合大数据开发初学者、大数据运维人员以及大数据分析与挖掘领域的从业者阅读。 作者简介 黑马程序员,传智播客旗下高端教育品牌,成立于2006年,它是由中国Java培训先行者张孝祥老师发起,联合中文IT社区CSDN、中关村软件园共同创办的一家专业教育机构。办学至今,我们一直坚守着“为千万人少走弯路而著书,为中华软件之崛起而讲课”的办学理念,坚持培养优秀软件应用工程师的宏伟目标,在累计培养的十万余名学员中。 目录 第1章 初识Hadoop 1.1 大数据概述 1.1.1 什么是大数据 1.1.2 大数据的数据类型 1.1.3 大数据的特征 1.1.4 研究大数据的意义 1.2 大数据的应用场景 1.2.1 医疗行业的应用 1.2.2 金融行业的应用 1.2.3 零售行业的应用 1.3 Hadoop概述 1.3.1 Hadoop的前世今生 1.3.2 Hadoop的优点 1.3.3 Hadoop的缺点 1.3.4 Hadoop的生态体系 1.3.5 Hadoop架构变迁 1.4 本章小结 1.5 课后习题 第2章 部署Hadoop 2.1 安装准备 2.1.1 创建虚拟机 2.1.2 克隆虚拟机 2.1.3 配置虚拟机 2.1.4 安装JDK 2.2 Hadoop集群部署模式 2.3 基于伪分布式模式部署Hadoop 2.4 基于完全分布式模式部署Hadoop 2.5 案例——词频统计 2.6 本章小结 2.7 课后习题 第3章 HDFS分布式文件系统 3.1 文件系统的分类 3.2 HDFS简介 3.2.1 HDFS架构 3.2.2 HDFS的特点 3.3 HDFS的文件读写流程 3.4 HDFS的健壮性 3.5 HDFS的Shell操作 3.5.1 HDFS Shell介绍 3.5.2 案例——通过Shell脚本定时采集数据到HDFS 3.6 HDFS的Java API操作 3.6.1 HDFS的Java API介绍 3.6.2 案例——使用Java API操作HDFS 3.7 Federation机制 3.7.1 Federation机制的实现原理 3.7.2 Federation机制的特点 3.7.3 Fedet-ation机制的实现 3.8 Erasure Coding 3.9 本章小结 3.10 课后习题 …… 第4章 MapReduce分布式计算框架 第5章 ZooKeeper分布式协调服务 第6章 Hadoop高可用集群 第7章 Hive数据仓库 第8章 Flume日志采集系统 第9章 Azkaban工作流管理器 第10章 Sqoop数据迁移 第11章 综合项目——网站流量日志数据分析系统 |