内容推荐 赵红艳、许桂秋主编的《Spark大数据技术与应用(数据科学与大数据技术专业系列规划教材)》采用理论与实践相结合的方式,介绍了Spark大数据分析计算框架的基础知识,培养读者使用Spark解决实际问题的能力。本书内容包括:Spark简介与运行原理、Spark的环境搭建、使用Python开发spark应用、Spark RDD、DataFrame与Spark SQL、Spark Streaming、Spark机器学习库、GraphFrames图计算,并给出了两个综合案例:出租车数据分析、图书推荐系统。 本书可作为高等院校计算机、数据科学与大数据技术等相关专业的教材,也可作为spark开发人员的参考用书。 目录 第1章 Spark简介与运行原理 1.1 Spark是什么 1.1.1 Spark的版本发展历程 1.1.2 Spark与Hadoop的区别与联系 1.1.3 Spark的应用场景 1.2 Spark的生态系统 1.3 Spark的架构与原理 1.3.1 Spark架构设计 1.3.2 Spark作业运行流程 1.3.3 Spark分布式计算流程 1.4 Spark 2.X新特性 1.4.1 精简的API 1.4.2 Spark作为编译器 1.4.3 智能化程度 1.5 小结 习题 第2章 Spark的环境搭建 2.1 环境搭建前的准备 2.2 Spark相关配置 2.2.1 安装SSH 2.2.2 SSH免密码登录 2.2.3 修改访问权限 2.2.4 修改profile文件 2.2.5 修改Spark配置文件 2.3 Spark集群启动与关闭 2.4 Spark应用提交到集群 2.5 Spark Web监控页面 2.6 小结 习题 第3章 使用Python开发Spark应用 3.1 Python编程语言 3.1.1 Python语言介绍 3.1.2 PySpark是什么 3.2 PySpark的启动与日志设置 3.2.1 PySpark的启动方式 3.2.2 日志输出内容控制 3.3 PySpark开发包的安装 3.3.1 使用pip命令安装 3.3.2 使用离线包安装 3.4 使用PyCharm编写Spark应用 3.4.1 PyCharm的安装与基本配置 3.4.2 编写Spark应用 3.5 小结 习题 第4章 Spark RDD 4.1 弹性分布式数据集 4.1.1 RDD的定义 4.1.2 RDD的特点 4.1.3 RDD的创建 4.1.4 RDD的操作 4.2 transform算子 4.2.1 map转换 4.2.2 flatMap转换 4.2.3 filter转换 4.2.4 union转换 4.2.5 intersection转换 4.2.6 distinct转换 4.2.7 sortBy转换 4.2.8 mapPartitions转换 4.2.9 mapPartitionsWithIndex转换 4.2.10 partitionBy转换 4.3 action算子 4.3.1 reduce(f)动作 4.3.2 collect( )动作 4.3.3 count( )动作 4.3.4 take(num)动作 4.3.5 first( )动作 4.3.6 top(num)动作 4.3.7 saveAsTextFile( )动作 4.3.8 foreach(f)动作 4.3.9 foreachPartition(f)动作 4.4 RDD Key-Value转换算子 4.4.1 mapValues(f)操作 4.4.2 flatMapValues(f)操作 4.4.3 combineByKey操作 4.4.4 reduceByKey操作 4.4.5 groupByKey操作 4.4.6 sortByKey操作 4.4.7 keys( )操作 4.4.8 values( )操作 4.4.9 join操作 4.4.10 leftOuterJoin操作 4.4.11 rightOuterJoin操作 4.5 RDD Key-Value动作运算 4.5.1 collectAsMap( )操作 4.5.2 countByKey( )操作 4.6 共享变量 4.6.1 累加器 4.6.2 广播变量 4.7 依赖关系 4.7.1 血统 4.7.2 宽依赖与窄依赖 4.7.3 shuffle 4.7.4 DAG的生成 4.8 Spark RDD的持久化 4.8.1 持久化使用方法 4.8.2 持久化存储等级 4.8.3 检查点 4.9 小结 习题 第5章 DataFrame与Spark SQL 5.1 DataFrame 5.1.1 DataFrame介绍 5.1.2 DataFrame创建 5.2 Spark SQL 5.2.1 Spark SQL介绍 5.2.2 Spark SQL的执行原理 5.2.3 Spark SQL的创建 5.3 Spark SQL、DataFrame的常用操作 5.3.1 字段计算 5.3.2 条件查询 5.3.3 数据排序 5.3.4 数据去重 5.3.5 数据分组统计 5.3.6 数据连接 5.3.7 数据绘图 5.4 小结 习题 第6章 Spark Streaming 6.1 Spark Streaming介绍 6.1.1 什么是Spark Streaming 6.1.2 Spark Streaming工作原理 6.2 流数据加载 6.2.1 初始化StreamingContext 6.2.2 Discretized Stream离散化流 6.2.3 Spark Streaming数据源 6.3 DStream输出操作 6.4 DStream转换操作 6.4.1 map转换 6.4.2 flatMap转换 6.4.3 filter转换 6.4.4 reduceByKey转换 6.4.5 count转换 6.4.6 updateStateByKey转换 6.4.7 其他转换 6.5 DataFrame与SQL操作 6.6 实时WordCount实验 6.7 小结 习题 第7章 Spark机器学习库 7.1 Spark机器学习库 7.1.1 机器学习简介 7.1.2 Spark机器学习库的构成 7.2 准备数据 7.2.1 获取数据 7.2.2 数据预处理 7.2.3 数据探索 7.3 使用MLlib机器学习库 7.3.1 搭建环境 7.3.2 加载数据 7.3.3 探索数据 7.3.4 预测婴儿生存机会 7.4 使用ML机器学习库 7.4.1 转换器、评估器和管道 7.4.2 预测婴儿生存率 7.5 小结 习题 第8章 GraphFrames图计算 8.1 图 8.1.1 度 8.1.2 路径和环 8.1.3 二分图 8.1.4 多重图和伪图 8.2 GraphF |