网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | Hadoop大数据处理技术基础与实践 第2版 微课版 |
分类 | |
作者 | 安俊秀,靳宇倡,郭英 编 |
出版社 | 人民邮电出版社 |
下载 | ![]() |
简介 | 内容推荐 全书共有12章,从Hadoop概述开始,介绍了Hadoop的安装与配置管理,并对Hadoop的生态体系架构进行了介绍,包括HDFS技术、YARN技术、MapReduce技术、Hadoop I/O操作、海量数据库技术HBase、ZooKeeper技术、分布式数据仓库技术Hive、分布式数据分析工具Pig,以及数据迁移工具Sqoop,很后对大数据实时处理技术做了简单介绍,旨在让读者了解当前其他的大数据处理技术。本书除了介绍Hadoop的理论外,还介绍了如何使用各组件,但因为只是介绍基础的使用,没有涉及底层的不错内容,所以本书只是起引导作用,旨在让读者了解Hadoop并能够使用Hadoop的基本功能,并不是学习Hadoop的接近手册。本书适合作为高等院校、高等职业院校大数据、物联网、云计算及其他计算机相关专业的教材,也可供云计算与大数据技术相关的培训班使用。 作者简介 安俊秀,教授,成都信息工程大学教师。2004年7月从西安交通大学计算机科学与技术专业毕业,获工学硕士学位。中国计算机学会不错会员;中国电子学会不错会员;成都市科技攻关计划评审专家;成都军区项目评审专家;汕尾市科技顾问团首席顾问。 目录 章 Hadoop概述1 1.1Hadoop简介1 1.2Hadoop体系架构3 1.3Hadoop与分布式开发4 1.4Hadoop行业应用案例分析6 1.4.1Hadoop在门户网站的应用6 1.4.2Hadoop在搜索引擎中的应用6 1.4.3Hadoop在电商平台中的应用7 习题7 第2章 Hadoop的安装与配置管理8 2.1实验准备8 2.2配置一个单节点环境9 2.2.1运行一个虚拟环境CentOS9 2.2.2配置网络11 2.2.3创建新的用户组和用户14 2.2.4上传文件到CentOS并配置Java和Hadoop环境15 2.2.5修改Hadoop2.7配置文件18 2.2.6修改CentOS主机名21 2.2.7绑定hostname与IP21 2.2.8关闭防火墙22 2.3节点之间的免密码通信22 2.3.1什么是SSH22 2.3.2复制虚拟机节点23 2.3.3配置SSH免密码登录24 2.4Hadoop的启动和测试26 2.4.1格式化文件系统26 2.4.2启动HDFS27 2.4.3启动YARN28 2.4.4启动JobHistoryServer28 2.4.5集群验证29 2.4.6需要了解的默认配置30 2.5动态管理节点31 2.5.1动态增加和删除DataNode31 2.5.2动态修改TaskTracker32 习题33 第3章 HDFS技术35 3.1HDFS的特点35 3.2HDFS架构36 3.2.1数据块36 3.2.2NameNode与DataNode38 3.2.3辅助NameNode39 3.2.4安全模式41 3.2.5负载均衡41 3.2.6垃圾回收42 3.3HDFSShell命令42 3.3.1文件处理命令43 3.3.2dfsadmin命令48 3.3.3NameNode命令49 3.3.4fsck命令50 3.3.5pipes命令50 3.3.6job命令51 3.4HDFS中JavaAPI的使用52 3.4.1上传文件52 3.4.2新建文件54 3.4.3查看文件详细信息55 3.4.4下载文件56 3.5RPC通信57 3.5.1反射机制57 3.5.2代理模式与动态代理60 3.5.3HadoopRPC机制与源码分析62 习题66 第4章 YARN技术67 4.1YARN概述67 4.1.1YARN产生背景——MRv1的局限性67 4.1.2YARN的通信协议68 4.2YARN基本框架69 4.2.1RM进程69 4.2.2NM进程70 4.2.3AM进程70 4.2.4YARN的资源表示模型Container70 4.3YARN资源调度器71 4.3.1FIFO调度器71 4.3.2Capacity调度器71 4.3.3Fair调度器72 4.4YARN的工作流程72 4.5YARN的实战案例74 习题77 第5章 MapReduce技术78 5.1什么是MapReduce78 5.2MapReduce编程模型79 5.2.1MapReduce简介79 5.2.2MapReduce简单模型79 5.2.3MapReduce复杂模型80 5.2.4MapReduce编程实例——WordCount81 5.3MapReduce数据流82 5.3.1分片并格式化原始数据(InputFormat)82 5.3.2Map过程84 5.3.3Shuffle过程84 5.3.4Reduce过程89 5.3.5按指定格式写入文件(OutputFormat)89 5.4MapReduce任务流程90 5.5MapReduce的Streaming和Pipe91 5.5.1HadoopStreaming91 5.5.2HadoopPipe92 5.6MapReduce性能调优94 5.7MapReduce实战96 5.7.1快速入门96 5.7.2简单使用Eclipse插件107 习题115 第6章 HadoopI/O操作116 6.1HDFS数据完整性116 6.1.1校验和116 6.1.2运行后台进程来检测数据块117 6.2基于文件的数据结构118 6.2.1SequenceFile的存储118 6.2.2MapFile的存储122 6.2.3SequenceFile转换为MapFile124 6.3压缩125 6.3.1认识压缩126 6.3.2Codec126 6.3.3本地库128 6.3.4如何选择压缩格式129 6.4序列化130 6.4.1认识序列化130 6.4.2Writable接口131 6.4.3WritableComparable接口132 6.4.4HadoopWritable基本类型133 6.4.5自定义Writable类型138 习题139 第7章 海量数据库技术HBase140 7.1初识HBase140 7.2HBase表视图141 7.2.1概念视图141 7.2.2物理视图142 7.3HBase物理存储模型143 7.4安装HBase149 7.4.1HBase单节点安装149 7.4.2HBase伪分布式安装151 7.4.3HBase完全分布式安装152 7.5HBaseShell154 7.5.1HBaseShell的命令154 7.5.2general操作156 7.5.3DDL操作157 7.5.4DML操作159 习题161 第8章 ZooKeeper技术162 8.1分布式协调技术及其实现者162 8.1.1分布式协调技术162 8.1.2实现者163 8.2ZooKeeper基本架构163 8.2.1角色163 8.2.2选举机制164 8.3ZooKeeper数据模型164 8.3.1Znode164 8.3.2ZooKeeper中的时间165 8.3.3ZooKeeper节点属性166 8.3.4watch触发器166 8.4ZooKeeper集群安装168 8.5ZooKeeper的主要Shell操作169 8.6典型运用场景171 8.6.1数据发布与订阅171 8.6.2统一命名服务172 8.6.3分布通知/协调172 习题173 第9章 分布式数据仓库技术Hive174 9.1Hive出现的原因174 9.2Hive服务的组成174 9.3Hive的安装176 9.3.1Hive基本安装176 9.3.2MySQL的安装176 9.3.3Hive的配置177 9.4HiveShell180 9.5HQL181 9.5.1认识HQL181 9.5.2Hive管理数据方式182 9.5.3Hive表的DDL操作183 9.5.4Hive表的DML操作192 习题196 0章 分布式数据分析工具Pig197 10.1Pig的安装和配置197 10.2Pig的基本概念198 10.3Pig的保留关键字199 10.4使用Pig201 10.4.1Pig命令行选项201 10.4.2Pig的运行模式202 10.4.3Pig相关Shell命令202 10.4.4Pig程序运行方式206 10.4.5Pig的输入与输出208 10.5Pig模式(Schemas)210 10.6Pig相关函数217 习题221 1章 Hadoop与RDBMS数据迁移工具Sqoop222 11.1Sqoop简介及基本安装222 11.2Sqoop的配置223 11.3Sqoop的相关功能224 11.3.1Sqoop的工具命令224 11.3.2Sqoop与MySQL225 11.3.3sqoop-import操作226 11.3.4sqoop-import-all-tables操作231 11.3.5sqoop-export操作232 11.3.6sqoop-list-databases和sqoop-list-tables操作234 11.4Hive、Pig和Sqoop三者之间的关系235 习题236 2章 大数据实时处理技术237 12.1Storm大数据实时处理技术237 12.1.1ApacheStorm的组成结构237 12.1.2数据流与分组238 12.1.3Storm-Yarn产生的背景240 12.1.4Storm-Yarn的功能240 12.2Spark大数据实时处理技术241 12.2.1ApacheSpark架构241 12.2.2ApacheSpark的扩展功能243 12.3Storm与Spark的异同245 习题246 附录A使用Eclipse提交Hadoop任务时相关错误的修复247 附录B常用Pig内置函数249 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。