![]()
内容推荐 本书从大数据技术相关概念出发,系统介绍了构建大数据平台的相关技术,并在此基础上进行离线数据分析和在线数据分析。全书共三篇,分为7章,内容包括技术基础篇、分布式集群篇、平台构建篇,第一篇包括大数据技术概述、大数据分析技术,第二篇包括Linux技术基础、Hadoop技术基础及构建Hadoop集群、Spark技术基础及构建Spark集群,第三篇包括构建基于Spark的实时交易数据统计平台、构建基于Hadoop的离线电商大数据分析平台。 本书以理论为基础,以实例为引导,完整阐述了如何从无到有搭建大数据平台,并在此平台基础上进行应用。本书配套资源丰富,包括教学PPT、所有程序的源代码、相关集群虚拟机、扩展学习视频、课后练习题及答案,可方便授课教师教学及学生自学。 本书可作为高校数据科学与大数据技术等相关专业的教材,也可作为对大数据技术感兴趣的相关人员的参考用书。 本书配有授课教学资源,需要的教师可登录www.cmpedu.com免费注册,审核通过后下载,或联系编辑索取(微信:15910938545,电话:010-88379739)。 目录 前言 第一篇 技术基础篇 第1章 大数据技术概述 1.1 大数据的基本概念 1.1.1 大数据的产生阶段 1.1.2 大数据的特征 1.1.3 大数据在各个领域的应用 1.1.4 大数据的核心技术和计算模式 1.2 分布式技术与集群 1.2.1 分布式技术概述 1.2.2 分布式大数据集群概述 1.3 大数据技术生态圈 1.3.1 Linux操作系统 1.3.2 Hadoop生态系统 1.3.3 Spark对Hadoop的完善 本章小结 本章练习 第2章 大数据分析技术 2.1 大数据分析流程及相关技术 2.1.1 数据采集与预处理 2.1.2 大数据存储 2.1.3 大数据分析与挖掘 2.1.4 数据可视化 2.2 大数据分析常用方法 2.2.1 数理统计分析 2.2.2 聚类分析 2.2.3 分类分析 2.2.4 回归分析 2.3 数据分析基础工具 2.3.1 数据采集工具——Selenium和PhantomJS 2.3.2 数据清洗工具——Kettle 2.3.3 数据存储工具——MongoDB和MySQL 2.3.4 机器学习工具——Scikit-learn 2.3.5 数据可视化工具——Matplotlib、PyEcharts、Superset 本章小结 本章练习 第二篇 分布式集群篇 第3章 Linux技术基础 3.1 用户与组管理 3.1.1 用户管理相关命令 3.1.2 组管理相关命令 3.1.3 其他命令 3.2 文件与目录管理 3.2.1 常用文件操作命令 3.2.2 目录操作命令 3.2.3 改变文件或目录访问权限 3.2.4 文件备份和压缩 3.3 进程管理与作业控制 3.3.1 进程查看 3.3.2 进程调度 3.4 磁盘存储管理 3.4.1 磁盘管理命令 3.4.2 存取命令 3.5 系统管理与常用网络命令 3.5.1 系统管理 3.5.2 常用网络命令 3.6 在线帮助系统 3.7 实践:Linux操作系统的安装与部署 3.7.1 Linux的安装和卸载 3.7.2 局域网主机间远程复制文件 3.7.3 XML文件介绍 3.7.4 VMware安装及CentOS系统环境准备 3.7.5 克隆虚拟机 3.7.6 配置主机名 3.7.7 配置网络IP地址 本章小结 本章练习 第4章 Hadoop技术基础及构建Hadoop集群 4.1 Hadoop技术基础 4.1.1 Hadoop的组成 4.1.2 Hadoop的运行模式 4.1.3 HDFS文件的存取 4.1.4 Hadoop集群的环境配置 4.1.5 Hadoop集群的搭建 4.1.6 启动Hadoop集群 4.2 ZooKeeper技术基础及部署 4.2.1 ZooKeeper简介 4.2.2 ZooKeeper的安装部署 4.2.3 Leader选举机制 4.2.4 ZooKeeper客户端访问集群(命令行操作方式) 4.3 HDFS与YARN高可用技术基础 4.3.1 HDFS高可用的工作机制 4.3.2 HDFS高可用配置 4.3.3 YARN高可用的工作机制 4.3.4 YARN高可用配置 4.4 实践:HDFS及MapReduce的应用示例 4.4.1 读写HDFS文件 4.4.2 MapReduce操作1:二次排序 4.4.3 MapReduce操作2:计数器 4.4.4 MapReduce操作3:Join操作 本章小结 本章练习 第5章 Spark技术基础及构建Spark集群 5.1 Spark核心机制 5.1.1 Spark基本原理 5.1.2 Spark系统架构 5.1.3 SparkShell操作 5.2 Hive原理及实践 5.2.1 Hive定义 5.2.2 Hive架构 5.2.3 Hive表分类及查询操作 5.3 HBase原理及实践 5.3.1 HBase定义 5.3.2 HBase集群架构 5.3.3 HBase数据模型 5.4 Kafka原理及实践 5.4.1 Kafka定义 5.4.2 Kafka消息队列 5.4.3 Kafka基础架构 5.5 Flume原理及实践 5.5.1 Flume简介 5.5.2 Flume基础架构 5.6 实践:搭建基于Spark的实时大数据平台 5.6.1 Spark安装部署 5.6.2 MySQL安装部署 5.6.3 Hive安装部署 5.6.4 HBase安装部署 5.6.5 Kafka安装部署 5.6.6 Flume安装部署 5.6.7 Spark集群典型应用 本章小结 本章练习 第三篇 平台构建篇 第6章 构建基于Spark的实时交易数据统计平台 6.1 系统需求与架构 6.1.1 系统背景介绍 6.1.2 系统功能需求 6.1.3 系统架构设计 6.2 Redis简介 6.2.1 Redis数据库的作用 6.2.2 Redis部署与启动 6.2.3 Redis常用命令 6.3 系统开发流程 6.4 数据获取模块实现 6.4.1 模拟订单数据 6.4.2 向Kafka集群发送订单数据 6.5 数据分析与处理模块实现 6.5.1 分析订单数据 6.5.2 生成结果 6.6 |