内容推荐 本书分为5篇,包括11章和3个附录。大数据基础篇包括第1章(绪论);大数据存储篇包括第2~3章(HDFS分布式文件系统、NoSQL及其HBase分布式数据库系统);大数据计算篇包括第4~7章(MapReduce分布式计算、大数据的Spark内存计算、大数据的流计算、大数据的图计算);大数据管理、查询分析及可视篇包括第8~10章(Hadoop的数据整合、集群管理与维护,大数据的查询分析技术,R语言与可视化技术);大数据发展及应用篇包括第11章(大数据应用——人工智能深度学习)。 本书体现了校际联盟、校企合作的建设成果,将理论与实践相结合,突出实践应用。本书配套的教学资源丰富,包括PPT、教学大纲、实验指导书、习题、模拟考试试卷等,读者在可以登录华信教育资源网(www.hxedu.com.cn)注册后免费下载。 本书可以作为应用型本科院校、高等职业院校计算机专业、大数据专业、人工智能专业的教材,也可以作为相关培训机构的教材,还可以作为软件开发和应用从业人员的参考书。 目录 第一篇 大数据基础篇 第1章 绪 论 1.1 大数据概述 1.1.1 三次信息化浪潮、大数据的兴起与影响 1.1.2 大数据的概念及特征 1.1.3 大数据的计算模式 1.1.4 大数据的关键技术 1.2 大数据的Hadoop解决方案 1.2.1 Hadoop的由来与发展 1.2.2 Hadoop的特性、运行原理和生态环境 1.2.3 Hadoop的企业级开发架构、技术与落地应用 1.3 大数据各时期的热点与数据使用发展趋势 1.3.1 数据架构各时期的演变 1.3.2 Hadoop的YARN计算框架 1.3.3 大数据的实时交互式分析 1.3.4 数据使用发展趋势 习题 第二篇 大数据存储篇 第2章 HDFS分布式文件系统 2.1 HDFS及其设计思路和架构 2.1.1 HDFS及其设计思路 2.1.2 HDFS的架构与基本存储单元 2.1.3 HDFS的存/取流程 2.2 HDFS Shell的基本操作 2.3 HDFS的命令行操作 2.3.1 HDFS文件访问权限 2.3.2 通过Web浏览HDFS文件 2.3.3 HDFS的接口(API)使用 习题 第3章 NoSQL及其HBase分布式数据库系统 3.1 大数据环境中的NoSQL 3.1.1 NoSQL应运而生 3.1.2 NoSQL的类型 3.1.3 NoSQL的三大基石 3.2 HBase的设计思路与架构 3.2.1 HBase的系统架构与组件 3.2.2 HBase的数据模型、物理存储与查找 3.2.3 HBase的数据读/写流程 3.3 HBase的操作与数据管理 3.3.1 HBase的Shell操作 3.3.2 Java API 与非Java访问 3.3.3 HBase的编程实例 3.4 从RDBMS到HBase 3.5 为应用程序选择合适的Hadoop数据存储机制 习题 第三篇 大数据计算篇 第4章 MapReduce分布式计算 4.1 MapReduce的架构与源码分析 4.1.1 MapReduce的架构与执行过程 4.1.2 MapReduce的输入与输出 4.1.3 MapReduce的Job类 4.2 MapReduce任务的异常处理与失败处理 4.2.1 MapReduce任务的异常处理方式 4.2.2 MapReduce任务的失败处理方式 4.3 在HBase上运行MapReduce 4.4 MapReduce程序开发实例 4.5 基于MapReduce的数据挖掘应用 4.5.1 数据挖掘与高级分析库Mahout 4.5.2 矩阵乘法 4.5.3 相似度计算 习题 第5章 大数据的Spark内存计算 5.1 Spark概述 5.1.1 Spark及其架构 5.1.2 Spark的特点及性能 5.1.3 Spark的基本原理及计算方法 5.1.4 Spark与MapReduce、Hive对比 5.1.5 Spark在国内的现状以及未来的展望 5.2 Spark的RDD 5.2.1 Spark的核心概念——RDD 5.2.2 RDD基本操作 5.2.3 Spark提供的Transformation实现与Action实现 5.3 Spark的运行模式 5.3.1 Spark的程序框架 5.3.2 独立(Standalone)模式 5.3.3 Spark YARN的模式 5.4 Spark应用程序 5.4.1 Scala语言简介 5.4.2 Spark程序设计 5.5 Spark SQL 5.5.1 Spark SQL简介 5.5.2 DataFrame 5.5.3 Datasets 5.5.4 使用数据源 习题 第6章 大数据的流计算 6.1 流计算概述 6.1.1 无界数据及流数据 6.1.2 流计算概念 6.1.3 流计算框架 6.1.4 流计算的价值与应用 6.2 流计算处理流程 6.2.1 概述 6.2.2 数据实时采集 6.2.3 数据实时计算 6.2.4 实时查询服务 6.3 开源流计算框架Flink 6.3.1 Flink简介 6.3.2 Flink的基本架构 6.3.3 Flink编程 习题 第7章 大数据的图计算 7.1 大数据的图计算概述 7.2 Spark GraphX 7.2.1 Spark GraphX简介 7.2.2 Spark GraphX的实现分析 7.2.3 Spark GraphX实例 7.3 Pregel 7.3.1 Pregel简介 7.3.2 Pregel图计算模型 7.3.3 Pregel的体系结构 7.3.4 PageRank算法及其实现 习题 第四篇 大数据管理、查询分析及可视篇 第8章 Hadoop的数据整合、集群管理与维护 8.1 Hadoop数据整合 8.1.1 Hadoop计算环境中的数据整合问题 8.1.2 数据库整合工具Sqoop(导入、导出数据) 8.1.3 Hadoop平台内部数据整合工具——HCatalog 8.2 Hadoop集群管理与维护 8.2.1 云计算平台的管理体系 8.2.2 集群中的配置管理与协调者——ZooKeeper 8.2.3 Hadoop集群部署与监控集成工具——Ambari 8.2.4 基于Kerberos的Hadoop安全管理 8.2.5 Hadoop集群管理工具分析 习题 第9章 大数据的查询分析技术 9.1 大数据对传统分析处理的挑战 9.2 查询 |