内容推荐 本书围绕大数据采集、汇聚、存储、计算、分析、挖掘、可视化等处理全过程,基于Flume、Kafka、HDFS、HBase、MapReduce、Spark、Hive、ECharts等主流软件全面介绍大数据的基础原理和核心技术,以及人工智能、云计算和物联网等大数据相关内容,并在此基础上进一步阐述政务、商业等行业大数据,以及文本、图像、音频、视频等媒体大数据的应用现状和**进展。本书内容丰富,深入浅出,同时配有大量实操代码和应用案例,可作为学习大数据的入门和进阶教材。 本书可供高校相关专业高年级本科生或研究生使用,也可供有志于从事大数据相关工作的各界社会人士学习使用。 目录 第1章 大数据概述 1.1 大数据发展历程 1.2 大数据主要特征 1.3 大数据与云计算、人工智能和物联网 1.4 大数据发展现状和趋势 习题 第2章 大数据采集 2.1 大数据采集概述 2.1.1 大数据的来源 2.1.2 大数据的采集 2.2 海量日志采集系统Flume 2.2.1 Flume简介 2.2.2 Flume的组成 2.2.3 Flume的工作流程 2.2.4 Flume的数据流模型 2.2.5 Flume实战 2.3 分布式发布订阅消息系统Kafka 2.3.1 Kafka简介 2.3.2 Kafka的架构 2.3.3 Kafka的应用场景 2.3.4 Kafka实战 习题 第3章 大数据存储基础 3.1 HDFS简介 3.1.1 HDFS的设计目标 3.1.2 HDFS的局限性 3.2 HDFS的体系架构 3.2.1 数据块 3.2.2 名称节点和数据节点 3.2.3 第二名称节点 3.3 HDFS运行原理 3.3.1 副本机制 3.3.2 数据出错与恢复 3.3.3 HDFS文件读流程 3.3.4 HDFS文件写流程 3.4 HDFS编程实践 3.4.1 利用Shell命令与HDFS进行交互 3.4.2 利用Web界面管理HDFS 3.4.3 使用Java API访问HDFS 习题 第4章 大数据存储进阶 4.1 从关系型数据库到NoSQL数据库 4.1.1 关系型数据库 4.1.2 NoSQL简介 4.1.3 NoSQL的基础理论 4.1.4 NoSQL的四大类型 4.2 分布式数据库HBase概述 4.2.1 HBase简介 4.2.2 HBase数据模型 4.2.3 HBase体系结构 4.2.4 HBase工作原理 4.3 HBase编程实践 4.3.1 安装HBase 4.3.2 HBase配置 4.3.3 HBase Shell命令 习题 第5章 大数据计算 5.1 MapReduce概述 5.1.1 MapReduce来源 5.1.2 MapReduce设计思想 5.1.3 MapReduce的优缺点 5.2 MapReduce工作流程 5.2.1 MapReduce基本架构 5.2.2 MapReduce运行机制 5.2.3 MapReduce内部逻辑 5.3 MapReduce实例分析 5.3.1 WordCount设计思路 5.3.2 WordCount数据处理流程 5.3.3 WordCount编程实现 5.4 Spark概述 5.4.1 Spark简介 5.4.2 Spark生态圈 5.5 Spark工作流程 5.5.1 基本概念 5.5.2 架构设计 5.5.3 运行流程 5.5.4 RDD算子 习题 第6章 多维大数据分析 6.1 多维数据模型 6.1.1 数据立方体 6.1.2 多维数据模型 6.1.3 概念分层 6.1.4 多维数据模型中的OLAP操作 6.1.5 多维数据模型的优缺点 6.2 多维分析工具Hive 6.2.1 Hive简介 6.2.2 数据仓库与数据库 6.2.3 Hive的架构及工作原理 6.2.4 Hive的数据类型 6.2.5 Hive的数据模型 6.2.6 Hive实战 习题 第7章 大数据挖掘 7.1 数据挖掘概述 7.1.1 数据挖掘简介 7.1.2 数据预处理 7.1.3 数据挖掘任务 7.2 分类 7.2.1 分类模型 7.2.2 决策树 7.2.3 支持向量机 7.3 回归 7.3.1 回归模型 7.3.2 线性回归 7.3.3 多项式回归 7.4 聚类 7.4.1 聚类模型 7.4.2 k均值算法 7.4.3 DBSCAN算法 7.5 关联分析 7.5.1 关联分析模型 7.5.2 Apriori算法 7.5.3 FP-growth算法 习题 第8章 大数据可视化 8.1 数据可视化概述 8.1.1 数据可视化简介 8.1.2 数据可视化的发展历程 8.1.3 数据可视化的作用 8.2 数据可视化方法 8.2.1 高维大数据可视化 8.2.2 网络和层次大数据可视化 8.2.3 时空大数据可视化 8.2.4 文本大数据可视化 8.3 数据可视化工具 8.3.1 ECharts 8.3.2 Tableau 8.3.3 D 习题 第9章 大数据与人工智能 9.1 人工智能概述 9.1.1 人工智能简介 9.1.2 人工智能核心技术 9.1.3 人工智能与大数据的应用 9.1.4 人工智能与大数据的关系 9.1.5 大数据领域的人工智能展望 9.2 机器学习与大数据 9.2.1 大规模机器学习优化算法 9.2.2 大数据下的机器学习 9.3 深度学习与大数据 9.3.1 典型深度学习算法 9.3.2 大数据下的深度学习 习题 第10章 政务大数据 10.1 智慧政务概述 10.1.1 政务信息化发展历史 10.1.2 智慧政务内涵 10.1.3 “最多跑一次”改革 10.2 政务大数据体系架构 10.2.1 政务大数据概述 10.2.2 政务大数据总体架构 10.2.3 政务大数据安全 10.3 政务大数据与区块链 10.3.1 区块链概述 10.3.2 推动政务数据“上链” 10.3.3 基于区块链的政务大数据共享和交换 习题 第11章 商业大数据 11.1 商业智能与大数据 11.1.1 传统商业智能 11.1.2 大数据时代的商业智能 11.1.3 商业智 |