1.本书是华为HCIA-Big Data认证的官方教材,内容专业、可靠。
2.本书采用大量的实践案例,并结合了行业典型应用。
3.本书从基础概念到核心技术,再到解决方案,全方位覆盖大数据知识体系。
4.本书介绍前沿技术如ClickHouse与ElasticSearch,拓宽读者视野,紧跟技术发展趋势。
5.本书提供丰富的教学资源,如电子课件等。
网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | HCIA-BIG DATA学习指南 |
分类 | 教育考试-考试-计算机类 |
作者 | 华为技术有限公司 |
出版社 | 人民邮电出版社 |
下载 | ![]() |
简介 | 编辑推荐 1.本书是华为HCIA-Big Data认证的官方教材,内容专业、可靠。 2.本书采用大量的实践案例,并结合了行业典型应用。 3.本书从基础概念到核心技术,再到解决方案,全方位覆盖大数据知识体系。 4.本书介绍前沿技术如ClickHouse与ElasticSearch,拓宽读者视野,紧跟技术发展趋势。 5.本书提供丰富的教学资源,如电子课件等。 内容推荐 本书以大数据为中心,对大数据及其相关技术、产品和实践案例进行了详细的讲解。全书共分9章,从大数据概述、华为大数据产品入手,详细介绍了开源的分布式计算框架——Hadoop,以及Hadoop生态圈的多个组件:Flume、Kafka、HDFS、Zookeeper、MapReduce、YARN、HBase、Hive、Spark以及Flink;除上述组件外,还介绍了ElasticSearch和ClickHouse。 本书适合正在准备考取华为HCIA-Big Data认证的人员、从事大数据工作的专业人员阅读,也可作为高等院校相关专业师生的参考书。 目录 第 1章 大数据概述\t2 1.1 什么是大数据\t4 1.1.1 大数据的来源\t4 1.1.2 大数据的发展历程\t6 1.2 大数据的数据特征及数据类型\t7 1.3 华为鲲鹏大数据\t12 1.4 大数据的发展趋势\t14 1.5 华为DataArts Studio\t15 1.5.1 什么是DataArts Studio\t16 1.5.2 DataArts Studio产品功能\t16 1.5.3 DataArts Studio应用场景\t18 1.6 华为云大数据服务——MRS\t21 习题\t24 第 2章 大数据采集与分布式流处理平台\t26 2.1 大数据采集技术\t28 2.2 Flume\t29 2.2.1 Flume简介及框架\t29 2.2.2 Flume的关键特性\t32 2.2.3 Flume应用举例\t33 2.3 Kafka\t33 2.3.1 Kafka简介\t34 2.3.2 Kafka的架构与功能\t36 2.3.3 Kafka数据管理\t40 习题\t42 第3章 大数据分布式处理概述\t44 3.1 大数据开发与分布式技术简介\t46 3.1.1 大数据开发\t47 3.1.2 分布式管理技术\t49 3.2 Hadoop——分布式大数据系统\t50 3.2.1 Hadoop简介\t50 3.2.2 Hadoop 3.x\t53 3.3 Hadoop的体系架构\t55 3.4 Hadoop与分布式开发\t58 3.5 Hadoop的生态系统\t60 习题\t68 第4章 HDFS分布式文件系统和ZooKeeper\t70 4.1 分布式文件系统\t72 4.1.1 分布式文件系统的设计思路\t72 4.1.2 最早的分布式文件系统\t73 4.1.3 大数据环境下分布式文件系统的优化思路\t75 4.2 HDFS的体系架构及特点\t76 4.2.1 HDFS的体系架构\t76 4.2.2 HDFS的特点\t78 4.3 HDFS的完整性\t79 4.3.1 校验和\t79 4.3.2 运行后台进程来检测数据块\t79 4.4 HDFS数据的读/写流程\t80 4.5 HDFS的常用工具\t83 4.5.1 FsShell实现\t83 4.5.2 DFSAdmin实现\t84 4.6 ZooKeeper分布式协调服务\t86 4.6.1 ZooKeeper概述\t86 4.6.2 ZooKeeper的体系结构\t87 4.6.3 ZooKeeper奇数节点和偶数节点\t89 习题\t90 第5章 分布式计算——MapReduce和YARN\t92 5.1 什么是MapReduce\t94 5.2 MapReduce编程模型\t95 5.2.1 MapReduce简单模型\t96 5.2.2 MapReduce复杂模型\t97 5.2.3 WordCount案例\t98 5.3 MapReduce数据流及任务流\t101 5.3.1 MapReduce数据流\t101 5.3.2 MapReduce任务流\t104 5.4 YARN概述\t106 5.5 YARN的基本框架\t107 5.6 YARN的工作流程\t110 习题\t112 第6章 分布式数据库技术——HBase\t114 6.1 海量数据与NoSQL\t116 6.1.1 关系数据库的局限\t116 6.1.2 CAP理论\t116 6.1.3 NoSQL\t118 6.2 HBase简介\t119 6.3 HBase表视图\t122 6.3.1 HBase逻辑视图\t122 6.3.2 HBase物理视图\t123 6.4 HBase物理存储模型\t126 6.5 HBase的基本操作\t127 6.5.1 HBase Shell的命令\t127 6.5.2 general操作\t128 6.5.3 DDL(数据定义语言)操作\t129 习题\t131 第7章 分布式数据仓库技术——Hive\t134 7.1 什么是Hive\t136 7.1.1 Hive的本质\t136 7.1.2 Hive的基础架构\t137 7.2 Hive的安全性\t140 7.2.1 默认授权模式\t140 7.2.2 基于存储的授权模式\t140 7.2.3 基于SQL标准的授权模式\t141 7.3 Hive Shell\t141 7.4 Hive的性能调优\t145 7.4.1 分区表\t146 7.4.2 存储优化\t147 7.4.3 矢量化查询优化\t148 7.5 HQL简介\t149 7.5.1 认识HQL\t149 7.5.2 Hive管理数据的方式\t150 习题\t151 第8章 ClickHouse与ElasticSearch分布式搜索\t152 8.1 ClickHouse概述\t154 8.2 ClickHouse的架构及其基本特性\t155 8.2.1 ClickHouse的架构\t155 8.2.2 ClickHouse的基本特性\t157 8.3 ClickHouse的使用案例\t159 8.4 ElasticSearch简介\t166 8.5 ElasticSearch的架构及其基本特性\t170 8.5.1 ElasticSearch的架构\t170 8.5.2 ElasticSearch的基本特性\t172 8.6 ElasticSearch的使用案例\t173 习题\t179 第9章 大数据实时处理技术\t182 9.1 Spark——分布式技术\t184 9.1.1 Spark概述与架构\t184 9.1.2 弹性分布式数据集\t186 9.1.3 Spark的扩展功能\t188 9.1.4 Spark的应用举例\t190 9.2 Flink——分布式实时处理引擎\t192 9.2.1 Flink的原理与架构\t193 9.2.2 Flink的运行架构\t195 9.2.3 Flink应用举例\t197 习题\t202 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。