内容推荐 本书主要围绕大数据处理技术展开编写,配套教学资源完善(包含录制的操作性较强的视频微课和教师授课PPT资料)。全书共分8章,第1章概述了大数据;第2章介绍了大数据平台部署的详细过程;第3章介绍了Hadoop应用开发、使甩Java操作HDFS和认识MapReduce;第4章介绍了Hive数据仓库开发、Hive开发环境的搭建租Hive高级操作;第5章介绍了Flume开发应用、安装Flume、Flume自定义实现;第6章介绍了Kafka开发应用、Kafka的安装与配置、Kafka监控和编程实现;第7章介绍了PySpark开发应用、PySpark配置和PySpark案例;第8章介绍了Flink开发应用、Flink部署和Flink案例。 本书项目案例通俗易懂,大数据开发技术采用的是目前行业主流技术。实训环境部署简单,学习案例步骤完备。可作为高等职业院校大数据专业核心课程的教学用书,也可作为大数据处理技术爱好者的参考用书。 目录 第1章 大数据概述 1.1 大数据简介 1.1.1 大数据的发展历程 1.1.2 大数据的特征 1.1.3 大数据思维 1.2 大数据应用开发流程 1.2.1 数据采集 1.2.2 数据预处理 1.2.3 数据存储 1.2.4 数据分析 1.2.5 数据可视化 1.3 Hadoop生态体系 1.3.1 什么是Hadoop 1.3.2 Hadoop体系 1.4 本章小结 1.5 课后习题 第2章 Hadoop平台部署 2.1 安装准备 2.1.1 虚拟机安装 2.1.2 安装CentoS 7操作系统 2.1.3 centos 7常用指令 2.1.4 网络配置 2.1.5 SSH服务配置 2.2 Hadoop核心组件 2.2.1 HDFS 2.2.2 MapReduce 2.2.3 YARN 2.3 Hadoop的搭建 2.3.1 配置准备 2.3.2 关闭防火墙 2.3.3 本地模式的环境搭建 2.3.4 伪分布式模式 2.3.5 全分布式模式 2.4 MapReduce开发环境的搭建 2.4.1 安装IDK 2.4.2 安装IDEA 2.4.3 配置IDEA及新建测试项目 2.5 本章小结 2.6 课后习题 第3章 Hadoop应用开发 3.1 使用HDFS的shell指令 3.2 使用Java操作HDFS 3.2.1 导入Hadoop开发包 3.2.2 HDFS文件列表 3.2.3 HDFS上传文件 3.2.4 读取HDFS文件数据 3.2.5 新建HDFS目录 3.2.6 删除HDFS文件、目录 3.3 认识MapReduce 3.3.1 MapReduce结构 3.3.2 MapReduce基本数据类型 3.3.3 MapReduce案例:WordCount 3.4 本章小结 3.5 课后习题 第4章 Hive数据仓库开发 4.1 Hive概述 4.1.1 Hive简介 4.1.2 Hive的特点 4.1.3 Hive体系结构 4.1.4 Hive和普通关系型数据库的异同 4.2 Hive开发环境的搭建 4.2.1 下栽与安装Hive 4.2.2 安装元数据库 4.2.3 配置Hive 4.3 Hive基本操作 4.3.1 Hive数据类型 4.3.2 Hive常见函数 4.3.3 Hive表操作 4.4 Hive高级操作 4.4.1 排序 4.4.2 分组 4.5 本章小结 4.6 课后习题 第5章 Flume开发应用 5.1 Flume概述 5.2 Flume行业应用 5.2.1 华为云日志服务 5.2.2 企业核心集成 5.3 安装Flume 5.3.1 下载Flume源码 5.3.2 安装Agent 5.3.3 数据获取 5.3.4 数据组合 5.3.5 环境配置 5.4 配置过滤器 5.4.1 过滤器的常见用法 5.4.2 环境变量过滤器 5.4.3 外部进程配置过滤器 5.4.4 Hadoop存储配置过滤器 5.5 Flume自定义实现 5.5.1 RPC客户端 5.5.2 安全RPC客户端 5.5.3 故障转移客户端 5.5.4 负载均衡RPC客户端 5.5.5 Transaction接口 5.5.6 Sink 5.5.7 Source 5.6 本章小结 5.7 课后习题 第6章 Kafka开发应用 6.1 Kafka概述 6.1.1 Kafka简介 6.1.2 Kafka企业聚能 6.2 Kafka的安装与配置 6.2.1 资源包下载 6.2.2 集群环境 6.2.3 支持软件安装 6.2.4 Kafka安装 6.2.5 Kafka命令行操作 6.2.6 Consumer基础配置 6.2.7 Producer基础配置 6.3 Kafka API简介 6.3.1 Kafka API Producer 6.3.2 Kafka API Consumer 6.3.3 体系架构 6.3.4 Kafka技术实现 6.4 Kafka监控 6.4.1 Kafka Eagle版本介绍 6.4.2 Kafka Eagle安装 6.4.3 Kafka Eagle访问 6.5 Kafka编程 6.5.1 Kafka消息发送流程 6.5.2 Kafka同步发送API 6.5.3 Kafka Consumer 6.5.4 Kafka手动提交offset 6.6 本章小结 6.7 课后习题 第7章 PySpark开发应用 7.1 PySpark概述 7.1.1 PySpark简介 7.1.2 PySpark与生活 7.2 PySpark配置 7.2.1 下载Spark 7.2.2 安装配置 7.3 PySpark常用接口 7.3.1 RDD 7.3.2 SQLSI擎 7.4 PySpark案例 7.4.1 聚类分析 7.4.2 数据处理 7.4.3 PageRank算法 7.5 本章小结 7.6 课后习题 第8章 Flink开发应用 8.1 Flink概述 8.1.1 Flink简介 8.1.2 Flink与电商 8.2 Flink部署 8.2.1 Flink架构简介 8.2.2 输入流程 8.2.3 环境搭建 8.2.4 Flink Web用户界面介绍 8.3 Flink API 8.3.1 常用API介绍 8.3.2 Watermark策略 8.3.3 Keyed DataStream 8.4 Flink案例 8.4.1 项目案例简介 8.4.2 MySQL配置文件 8.4.3 创建读取配置文件的工具类 8.4.4 Json解析工具类 8.4.5 创建Druid连接池 8.4.6 创建MySQL的代理类 8.4.7 访问人数统计 8.4.8 实时统计 8.4.9 实时统计商品 8.4.10 实时数据统计 8.5 本章小结 8.6 课后习题 参考文献 |