Spark大数据分析刘景泽电子工业出版社豆瓣PDF电子书bt网盘迅雷下载教育考试-考试-计算机类-霍普软件下载网

=篇准备
-
章认识大数据和Spark\t2
1.1 大数据的介绍\t2
1.2 Apache Spark能做什么\t3
1.3 其他分布式数据处理框架\t4
1.4 如何使用本书\t4
？1.4.1 需要提前具备的基础\t4
？1.4.2 准备相关开发环境\t4
？1.4.3 如何学习本书\t5
-
第2章安装与配置Spark集群\t6
2.1 下载Spark安装包\t6
2.2 检查与准备集群环境\t7
2.3 了解目前集群中已经部署的框架服务\t11
2.4 部署Spark集群\t12
？2.4.1 实例1：基于Standalone模式部署Spark集群\t12
？2.4.2 实例2：部署Spark的历史服务――Spark History Server\t16
？2.4.3 实例3：基于Standalone模式部署高可用的Master服务\t18
？2.4.4 实例4：基于YARN模式部署Spark集群\t20
？2.4.5 Standalone模式与YARN模式的特点\t22
2.5 本章小结\t23
-
第3章个Spark程序\t24
3.1 运行个Spark程序\t24
？3.1.1 实例5：基于Standalone模式运行个Spark程序\t24
？3.1.2 实例6：基于YARN模式运行个Spark程序\t27
？3.1.3 提交Spark程序时的参数规范\t30
3.2 使用spark-shell编写并运行WordCount程序\t30
？3.2.1 实例7：启动spark-shell\t31
？3.2.2 实例8：在spark-shell中编写WordCount程序\t32
3.3 使用IDEA编写并运行WordCount程序\t34
？3.3.1 实例9：准备开发环境，并构建代码工程\t34
？3.3.2 实例10：使用IDEA编写WordCount程序\t41
？3.3.3 实例11：在IDEA中本地运行WordCount程序\t44
？3.3.4 实例12：在IDEA中远程运行WordCount程序\t46
？3.3.5 实例13：打包程序，并提交至集群运行\t48
3.4 本章小结\t49
=
第2篇入门
-
第4章读写分布式数据――基于Spark Core\t52
4.1 RDD的诞生\t52
4.2 进一步理解RDD\t53
？4.2.1 数据存储\t53
？4.2.2 数据分析\t55
？4.2.3 程序调度\t56
4.3 读取数据并生成RDD\t57
？4.3.1 实例14：读取普通文本数据\t58
？4.3.2 实例15：读取JSON格式的数据\t59
？4.3.3 实例16：读取CSV、TSV格式的数据\t61
？4.3.4 实例17：读取SequenceFile格式的数据\t62
？4.3.5 实例18：读取Object格式的数据\t64
？4.3.6 实例19：读取HDFS中的数据――显式调用Hadoop API\t66
？4.3.7 实例20：读取MySQL数据库中的数据\t68
4.4 保存RDD中的数据到外部存储\t70
？4.4.1 实例21：保存成普通文本文件\t70
？4.4.2 实例22：保存成JSON文件\t71
？4.4.3 实例23：保存成CSV、TSV文件\t73
？4.4.4 实例24：保存成SequenceFile文件\t74
？4.4.5 实例25：保存成Object文件\t75
？4.4.6 实例26：保存成HDFS文件――显式调用Hadoop API的方式\t76
？4.4.7 实例27：写入MySQL数据库\t78
4.5 本章小结\t80
-
第5章处理分布式数据――基于Spark Core\t81
5.1 RDD的转换（transformations）操作――转换数据形态\t81
？5.1.1 实例28：基础转换操作\t81
？5.1.2 实例29：键值对转换操作\t103
5.2 RDD的行动（actions）操作――触发执行任务计划\t115
？5.2.1 实例30：基础行动操作\t116
？5.2.2 实例31：键值对行动操作\t125
？5.2.3 实例32：数值行动操作\t127
5.3 本章小结\t128
=
第3篇进阶
-
第6章 RDD的不错操作\t130
6.1 缓存RDD\t130
？6.1.1 缓存RDD的基础知识\t130
？6.1.2 实例33：缓存与释放RDD\t133
6.2 RDD的检查点（Checkpoint）机制\t139
？6.2.1 了解Checkpoint机制\t139
？6.2.2 实例34：使用Checkpoint机制\t141
？6.2.3 Checkpoint机制的工作流程\t144
6.3 RDD的依赖关系\t145
？6.3.1 窄依赖（narrow dependencies）\t145
？6.3.2 宽依赖（wide/shuffle dependencies）\t148
？6.3.3 实例35：让子RDD混合依赖依赖多个父RDD\t151
？6.3.4 实例36：词频统计――总结运算过程涉及的概念\t153
6.4 累加器（Accumulator）\t155
？6.4.1 认识累加器\t155
？6.4.2 实例37：使用系统累加器1――长整数、双精度浮点数累加器\t156
？6.4.3 实例38：使用系统累加器2――集合累加器\t159
？6.4.4 实例39：自定义累加器\t160
6.5 广播（Broadcast）――将数据块缓存到所有节点\t164
？6.5.1 认识广播\t165
？6.5.2 实例40：使用广播补全数据\t165
6.6 本章小结\t168
-
第7章用SQL语法分析结构化数据――基于Spark SQL\t169
7.1 为什么会产生Spark SQL\t169
7.2 认识DataFrame与Dataset数据类型\t170
？7.2.1 认识DataFrame\t170
？7.2.2 认识Dataset\t171
7.3 实例41：通过Dataset、DataFrame分析用户数据\t172
？7.3.1 用spark-shell编写程序\t172
？7.3.2 用IDEA编写程序\t175
7.4 不同Spark版本的操作差异\t177
？7.4.1 认识SQLContext与HiveContext\t178
？7.4.2 认识SparkSession\t178
7.5 DataFrame、Dataset的基本操作\t179
？7.5.1 DSL与SQL的语法风格\t179
？7.5.2 使用临时视图的注意事项\t181
？7.5.3 实例42：读取JSON、CSV格式的数据\t183
？7.5.4 实例43：读取Parquet格式的数据\t185
？7.5.5 实例44：读取代码中动态生成的数据\t185
？7.5.6 实例45：读取关系型数据库中的数据\t188
？7.5.7 实例46：输出Dataset、DataFrame中的数据\t189
？7.5.8 实例47：RDD、DataFrame、Dataset之间的相互转换\t192
7.6 用户自定义函数\t195
？7.6.1 实例48：实现“一进一出”的UDF\t195
？7.6.2 实例49：实现“多进一出”的UDAF\t198
？7.6.3 实例50：实现“一进多出”的UDTF\t208
7.7 集成Spark SQL与Hive\t211
？7.7.1 已经部署Hive框架\t211
？7.7.2 尚未部署Hive框架\t215
7.8 本章小结\t215
-
第8章实时处理流式数据――基于Spark Streaming\t216
8.1 为什么会产生Spark Streaming\t216
8.2 个Spark Streaming程序\t216
？8.2.1 实例51：用spark-shell编写程序\t216
？8.2.2 实例52：用IDEA编写程序\t221
8.3 什么是DStream\t222
？8.3.1 认识DStream\t222
？8.3.2 认识DStreamGraph\t223
8.4 读取数据到DStream中\t227
？8.4.1 实例53：读取HDFS文件夹中的数据\t227
？8.4.2 实例54：读取RDD组成的数据队列\t229
？8.4.3 实例55：实时读取Flume中的数据\t230
？8.4.4 实例56：用高阶API实时读取Kafka中的数据\t235
？8.4.5 实例57：用低阶API实时读取Kafka中的数据\t242
8.5 Spark Streaming中的几个时间概念\t251
？8.5.1 批处理间隔\t251
？8.5.2 窗口时间宽度与滑动时间宽度\t252
？8.5.3 实例58：使用窗口操作，每两秒钟统计10秒内的平均温度\t254
8.6 DStream的操作总结\t259
？8.6.1 DStream的操作说明\t259
？8.6.2 实例59：直接面向DStream中的RDD进行数据分析\t261
？8.6.3 实例60：将DStream中的数据实时输出至外部存储系统\t263
？8.6.4 实例61：对Dstream进行join操作\t267
8.7 DStream中的转换分类\t269
？8.7.1 无状态转换\t269
？8.7.2 有状态转换\t270
？8.7.3 实例：用有状态转换做全局词频统计\t270
8.8 在Spark Streaming中的缓存与Checkpoint\t272
？8.8.1 认识Spark Streaming中的Checkpoint\t273
？8.8.2 实例62：使用Spark Streaming中的Checkpoint\t273
8.9 Spark Streaming中的累加器与广播变量\t276
？8.9.1 认识累加器与广播变量\t276
？8.9.2 实例63：自定义累加器，并结合无状态转换，实现实时的全局词频统计\t276
8.10 关闭Spark Streaming程序\t280
？8.10.1 关闭程序的方案\t281
？8.10.2 实例64：合理关闭一个运行中的Spark Streaming程序\t281
8.11 本章小结\t284
=
第4篇高阶
-
第9章实时处理流式数据――基于Structured Streaming\t286
9.1 为什么会产生Structured Streaming\t286
9.2 个Structured Streaming程序\t287
？9.2.1 实例65：用spark-shell编写程序\t287
？9.2.2 实例66：用IDEA编写程序\t289
9.3 Structured Streaming的编程模型\t291
9.4 输入数据――生成Streaming Dataset、 Streaming DataFrame\t292
？9.4.1 实例67：根据文件生成工作流\t292
？9.4.2 实例68：根据文件、文件夹生成自动分区的工作流\t295
？9.4.3 实例69：根据Kafka以Streaming模式生成工作流\t297
？9.4.4 实例70：以Kafka为数据源，通过Batch方式生成工作流\t300
？9.4.5 实例71：根据指定速率生成工作流\t304
9.5 基于事件时间的窗口操作\t305
？9.5.1 事件时间窗口的工作方式\t305
？9.5.2 实例72：事件时间窗口的生成规则\t307
？9.5.3 实例73：基于事件时间窗口实现词频统计\t311
9.6 基于Watermark处理延迟数据\t314
？9.6.1 Watermark的作用\t314
？9.6.2 实例74：基于Update模式实现词频统计，并结合Watermark处理延迟数据\t314
？9.6.3 实例75：基于Append模式实现词频统计，并结合Watermark处理延迟数据\t320
？9.6.4 Watermark的底层工作原理\t322
？9.6.5 总结：Watermark机制与输出模式\t329
9.7 实例76：在处理流式数据时去除重复数据\t330
9.8 Structured Streaming中的join操作\t332
？9.8.1 实例77：在Stream-Static模式下的inner join操作\t333
？9.8.2 实例78：在Stream-Stream模式下的inner join操作\t335
？9.8.3 总结：已经支持的join操作\t340
9.9 在Structured Streaming中实现数据分组，并手动维护分组状态\t341
？9.9.1 实例79：通过mapGroupsWithState实现数据分组，并手动维护分组状态\t341
？9.9.2 实例80：通过flatMapGroupsWithState实现数据分组，并手动维护分组状态\t347
？9.9.3 总结：手动维护状态与Watermark的使用技巧\t352
9.10 输出分析结果\t353
？9.10.1 输出模式（Output Mode）的使用场景\t353
？9.10.2 实例81：基于File Sink输出数据\t354
？9.10.3 实例82：基于Kafka Sink，以Streaming方式输出数据\t356
？9.10.4 实例83：基于Kafka Sink，以Batch方式输出数据\t358
？9.10.5 实例84：基于Console Sink输出数据\t360
？9.10.6 实例85：基于Memory Sink输出数据\t360
？9.10.7 实例86：基于Foreach Sink输出数据\t362
？9.10.8 实例87：基于ForeachBatch Sink输出数据\t367
？9.10.9 总结：不同Sink所适用的输出模式\t369
9.11 Trigger触发器的分类\t370
9.12 管理与监控工作流\t370
？9.12.1 管理工作流\t370
？9.12.2 监控工作流\t372
9.13 Structured Streaming中的Checkpoint机制\t372
9.14 连续处理模式――Continuous Processing\t373
9.15 本章小结\t374
-
0章 Spark的相关优化\t375
10.1 优化Spark程序\t375
？10.1.1 实例88：尽可能减少或避免出现Shuffle过程\t375
？10.1.2 实例89：使用Kryo作为序列化方案\t377
？10.1.3 尽可能批量操作数据\t381
？10.1.4 合理设置分区数\t381
？10.1.5 合理设置批处理间隔\t381
10.2 优化数据\t382
？10.2.1 关于数据倾斜\t382
？10.2.2 实例90：使用自定义Partitioner缓解数据倾斜\t383
？10.2.3 关于数据补全\t387
10.3 调优资源\t388
10.4 本章小结\t390
=
第5篇商业项目实战
-
1章实战：学生学习情况分析系统\t392
11.1 项目概述\t392
？11.1.1 业务背景\t392
？11.1.2 划分业务模块\t392
11.2 开发环境说明\t393
11.3 项目实现\t394
？11.3.1 构建工程\t394
？11.3.2 模拟数据\t395
？11.3.3 实时发送数据到Kafka\t399
？11.3.4 实时分析平台答题数据\t402
？11.3.5 构建推荐模型\t405
？11.3.6 实时推荐题目\t411
？11.3.7 离线学情分析\t415
11.4 本章小结\t422

书名	Spark大数据分析
分类	教育考试-考试-计算机类
作者	刘景泽
出版社	电子工业出版社
下载
简介	作者简介 "刘景泽全栈工程师，长期从事大数据的研发工作，拥有丰富的大数据开发经验。曾担任多家知名企的主力研发，并负责大数据云服务组件开发。精通Java、Scala、Python等多种编程语言，擅长大数据生态圈的研发、算法、逆向工程等技术。为多家企业提供技术支持，并长期面向企业一线开发人员分享实战经验。 " 目录 =篇准备 - 章认识大数据和Spark\t2 1.1 大数据的介绍\t2 1.2 Apache Spark能做什么\t3 1.3 其他分布式数据处理框架\t4 1.4 如何使用本书\t4 ？1.4.1 需要提前具备的基础\t4 ？1.4.2 准备相关开发环境\t4 ？1.4.3 如何学习本书\t5 - 第2章安装与配置Spark集群\t6 2.1 下载Spark安装包\t6 2.2 检查与准备集群环境\t7 2.3 了解目前集群中已经部署的框架服务\t11 2.4 部署Spark集群\t12 ？2.4.1 实例1：基于Standalone模式部署Spark集群\t12 ？2.4.2 实例2：部署Spark的历史服务――Spark History Server\t16 ？2.4.3 实例3：基于Standalone模式部署高可用的Master服务\t18 ？2.4.4 实例4：基于YARN模式部署Spark集群\t20 ？2.4.5 Standalone模式与YARN模式的特点\t22 2.5 本章小结\t23 - 第3章个Spark程序\t24 3.1 运行个Spark程序\t24 ？3.1.1 实例5：基于Standalone模式运行个Spark程序\t24 ？3.1.2 实例6：基于YARN模式运行个Spark程序\t27 ？3.1.3 提交Spark程序时的参数规范\t30 3.2 使用spark-shell编写并运行WordCount程序\t30 ？3.2.1 实例7：启动spark-shell\t31 ？3.2.2 实例8：在spark-shell中编写WordCount程序\t32 3.3 使用IDEA编写并运行WordCount程序\t34 ？3.3.1 实例9：准备开发环境，并构建代码工程\t34 ？3.3.2 实例10：使用IDEA编写WordCount程序\t41 ？3.3.3 实例11：在IDEA中本地运行WordCount程序\t44 ？3.3.4 实例12：在IDEA中远程运行WordCount程序\t46 ？3.3.5 实例13：打包程序，并提交至集群运行\t48 3.4 本章小结\t49 = 第2篇入门 - 第4章读写分布式数据――基于Spark Core\t52 4.1 RDD的诞生\t52 4.2 进一步理解RDD\t53 ？4.2.1 数据存储\t53 ？4.2.2 数据分析\t55 ？4.2.3 程序调度\t56 4.3 读取数据并生成RDD\t57 ？4.3.1 实例14：读取普通文本数据\t58 ？4.3.2 实例15：读取JSON格式的数据\t59 ？4.3.3 实例16：读取CSV、TSV格式的数据\t61 ？4.3.4 实例17：读取SequenceFile格式的数据\t62 ？4.3.5 实例18：读取Object格式的数据\t64 ？4.3.6 实例19：读取HDFS中的数据――显式调用Hadoop API\t66 ？4.3.7 实例20：读取MySQL数据库中的数据\t68 4.4 保存RDD中的数据到外部存储\t70 ？4.4.1 实例21：保存成普通文本文件\t70 ？4.4.2 实例22：保存成JSON文件\t71 ？4.4.3 实例23：保存成CSV、TSV文件\t73 ？4.4.4 实例24：保存成SequenceFile文件\t74 ？4.4.5 实例25：保存成Object文件\t75 ？4.4.6 实例26：保存成HDFS文件――显式调用Hadoop API的方式\t76 ？4.4.7 实例27：写入MySQL数据库\t78 4.5 本章小结\t80 - 第5章处理分布式数据――基于Spark Core\t81 5.1 RDD的转换（transformations）操作――转换数据形态\t81 ？5.1.1 实例28：基础转换操作\t81 ？5.1.2 实例29：键值对转换操作\t103 5.2 RDD的行动（actions）操作――触发执行任务计划\t115 ？5.2.1 实例30：基础行动操作\t116 ？5.2.2 实例31：键值对行动操作\t125 ？5.2.3 实例32：数值行动操作\t127 5.3 本章小结\t128 = 第3篇进阶 - 第6章 RDD的不错操作\t130 6.1 缓存RDD\t130 ？6.1.1 缓存RDD的基础知识\t130 ？6.1.2 实例33：缓存与释放RDD\t133 6.2 RDD的检查点（Checkpoint）机制\t139 ？6.2.1 了解Checkpoint机制\t139 ？6.2.2 实例34：使用Checkpoint机制\t141 ？6.2.3 Checkpoint机制的工作流程\t144 6.3 RDD的依赖关系\t145 ？6.3.1 窄依赖（narrow dependencies）\t145 ？6.3.2 宽依赖（wide/shuffle dependencies）\t148 ？6.3.3 实例35：让子RDD混合依赖依赖多个父RDD\t151 ？6.3.4 实例36：词频统计――总结运算过程涉及的概念\t153 6.4 累加器（Accumulator）\t155 ？6.4.1 认识累加器\t155 ？6.4.2 实例37：使用系统累加器1――长整数、双精度浮点数累加器\t156 ？6.4.3 实例38：使用系统累加器2――集合累加器\t159 ？6.4.4 实例39：自定义累加器\t160 6.5 广播（Broadcast）――将数据块缓存到所有节点\t164 ？6.5.1 认识广播\t165 ？6.5.2 实例40：使用广播补全数据\t165 6.6 本章小结\t168 - 第7章用SQL语法分析结构化数据――基于Spark SQL\t169 7.1 为什么会产生Spark SQL\t169 7.2 认识DataFrame与Dataset数据类型\t170 ？7.2.1 认识DataFrame\t170 ？7.2.2 认识Dataset\t171 7.3 实例41：通过Dataset、DataFrame分析用户数据\t172 ？7.3.1 用spark-shell编写程序\t172 ？7.3.2 用IDEA编写程序\t175 7.4 不同Spark版本的操作差异\t177 ？7.4.1 认识SQLContext与HiveContext\t178 ？7.4.2 认识SparkSession\t178 7.5 DataFrame、Dataset的基本操作\t179 ？7.5.1 DSL与SQL的语法风格\t179 ？7.5.2 使用临时视图的注意事项\t181 ？7.5.3 实例42：读取JSON、CSV格式的数据\t183 ？7.5.4 实例43：读取Parquet格式的数据\t185 ？7.5.5 实例44：读取代码中动态生成的数据\t185 ？7.5.6 实例45：读取关系型数据库中的数据\t188 ？7.5.7 实例46：输出Dataset、DataFrame中的数据\t189 ？7.5.8 实例47：RDD、DataFrame、Dataset之间的相互转换\t192 7.6 用户自定义函数\t195 ？7.6.1 实例48：实现“一进一出”的UDF\t195 ？7.6.2 实例49：实现“多进一出”的UDAF\t198 ？7.6.3 实例50：实现“一进多出”的UDTF\t208 7.7 集成Spark SQL与Hive\t211 ？7.7.1 已经部署Hive框架\t211 ？7.7.2 尚未部署Hive框架\t215 7.8 本章小结\t215 - 第8章实时处理流式数据――基于Spark Streaming\t216 8.1 为什么会产生Spark Streaming\t216 8.2 个Spark Streaming程序\t216 ？8.2.1 实例51：用spark-shell编写程序\t216 ？8.2.2 实例52：用IDEA编写程序\t221 8.3 什么是DStream\t222 ？8.3.1 认识DStream\t222 ？8.3.2 认识DStreamGraph\t223 8.4 读取数据到DStream中\t227 ？8.4.1 实例53：读取HDFS文件夹中的数据\t227 ？8.4.2 实例54：读取RDD组成的数据队列\t229 ？8.4.3 实例55：实时读取Flume中的数据\t230 ？8.4.4 实例56：用高阶API实时读取Kafka中的数据\t235 ？8.4.5 实例57：用低阶API实时读取Kafka中的数据\t242 8.5 Spark Streaming中的几个时间概念\t251 ？8.5.1 批处理间隔\t251 ？8.5.2 窗口时间宽度与滑动时间宽度\t252 ？8.5.3 实例58：使用窗口操作，每两秒钟统计10秒内的平均温度\t254 8.6 DStream的操作总结\t259 ？8.6.1 DStream的操作说明\t259 ？8.6.2 实例59：直接面向DStream中的RDD进行数据分析\t261 ？8.6.3 实例60：将DStream中的数据实时输出至外部存储系统\t263 ？8.6.4 实例61：对Dstream进行join操作\t267 8.7 DStream中的转换分类\t269 ？8.7.1 无状态转换\t269 ？8.7.2 有状态转换\t270 ？8.7.3 实例：用有状态转换做全局词频统计\t270 8.8 在Spark Streaming中的缓存与Checkpoint\t272 ？8.8.1 认识Spark Streaming中的Checkpoint\t273 ？8.8.2 实例62：使用Spark Streaming中的Checkpoint\t273 8.9 Spark Streaming中的累加器与广播变量\t276 ？8.9.1 认识累加器与广播变量\t276 ？8.9.2 实例63：自定义累加器，并结合无状态转换，实现实时的全局词频统计\t276 8.10 关闭Spark Streaming程序\t280 ？8.10.1 关闭程序的方案\t281 ？8.10.2 实例64：合理关闭一个运行中的Spark Streaming程序\t281 8.11 本章小结\t284 = 第4篇高阶 - 第9章实时处理流式数据――基于Structured Streaming\t286 9.1 为什么会产生Structured Streaming\t286 9.2 个Structured Streaming程序\t287 ？9.2.1 实例65：用spark-shell编写程序\t287 ？9.2.2 实例66：用IDEA编写程序\t289 9.3 Structured Streaming的编程模型\t291 9.4 输入数据――生成Streaming Dataset、 Streaming DataFrame\t292 ？9.4.1 实例67：根据文件生成工作流\t292 ？9.4.2 实例68：根据文件、文件夹生成自动分区的工作流\t295 ？9.4.3 实例69：根据Kafka以Streaming模式生成工作流\t297 ？9.4.4 实例70：以Kafka为数据源，通过Batch方式生成工作流\t300 ？9.4.5 实例71：根据指定速率生成工作流\t304 9.5 基于事件时间的窗口操作\t305 ？9.5.1 事件时间窗口的工作方式\t305 ？9.5.2 实例72：事件时间窗口的生成规则\t307 ？9.5.3 实例73：基于事件时间窗口实现词频统计\t311 9.6 基于Watermark处理延迟数据\t314 ？9.6.1 Watermark的作用\t314 ？9.6.2 实例74：基于Update模式实现词频统计，并结合Watermark处理延迟数据\t314 ？9.6.3 实例75：基于Append模式实现词频统计，并结合Watermark处理延迟数据\t320 ？9.6.4 Watermark的底层工作原理\t322 ？9.6.5 总结：Watermark机制与输出模式\t329 9.7 实例76：在处理流式数据时去除重复数据\t330 9.8 Structured Streaming中的join操作\t332 ？9.8.1 实例77：在Stream-Static模式下的inner join操作\t333 ？9.8.2 实例78：在Stream-Stream模式下的inner join操作\t335 ？9.8.3 总结：已经支持的join操作\t340 9.9 在Structured Streaming中实现数据分组，并手动维护分组状态\t341 ？9.9.1 实例79：通过mapGroupsWithState实现数据分组，并手动维护分组状态\t341 ？9.9.2 实例80：通过flatMapGroupsWithState实现数据分组，并手动维护分组状态\t347 ？9.9.3 总结：手动维护状态与Watermark的使用技巧\t352 9.10 输出分析结果\t353 ？9.10.1 输出模式（Output Mode）的使用场景\t353 ？9.10.2 实例81：基于File Sink输出数据\t354 ？9.10.3 实例82：基于Kafka Sink，以Streaming方式输出数据\t356 ？9.10.4 实例83：基于Kafka Sink，以Batch方式输出数据\t358 ？9.10.5 实例84：基于Console Sink输出数据\t360 ？9.10.6 实例85：基于Memory Sink输出数据\t360 ？9.10.7 实例86：基于Foreach Sink输出数据\t362 ？9.10.8 实例87：基于ForeachBatch Sink输出数据\t367 ？9.10.9 总结：不同Sink所适用的输出模式\t369 9.11 Trigger触发器的分类\t370 9.12 管理与监控工作流\t370 ？9.12.1 管理工作流\t370 ？9.12.2 监控工作流\t372 9.13 Structured Streaming中的Checkpoint机制\t372 9.14 连续处理模式――Continuous Processing\t373 9.15 本章小结\t374 - 0章 Spark的相关优化\t375 10.1 优化Spark程序\t375 ？10.1.1 实例88：尽可能减少或避免出现Shuffle过程\t375 ？10.1.2 实例89：使用Kryo作为序列化方案\t377 ？10.1.3 尽可能批量操作数据\t381 ？10.1.4 合理设置分区数\t381 ？10.1.5 合理设置批处理间隔\t381 10.2 优化数据\t382 ？10.2.1 关于数据倾斜\t382 ？10.2.2 实例90：使用自定义Partitioner缓解数据倾斜\t383 ？10.2.3 关于数据补全\t387 10.3 调优资源\t388 10.4 本章小结\t390 = 第5篇商业项目实战 - 1章实战：学生学习情况分析系统\t392 11.1 项目概述\t392 ？11.1.1 业务背景\t392 ？11.1.2 划分业务模块\t392 11.2 开发环境说明\t393 11.3 项目实现\t394 ？11.3.1 构建工程\t394 ？11.3.2 模拟数据\t395 ？11.3.3 实时发送数据到Kafka\t399 ？11.3.4 实时分析平台答题数据\t402 ？11.3.5 构建推荐模型\t405 ？11.3.6 实时推荐题目\t411 ？11.3.7 离线学情分析\t415 11.4 本章小结\t422 内容推荐本书讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark，它带领读者快速掌握用Spark收集、计算、简化和保存海量数据的方法，学会交互、迭代和增量式分析，解决分区、数据本地化和自定义序列化等问题。
随便看	护理药理(供护理助产等专业使用全国高等卫生职业教育护理专业双证书人才培养十二五规划教材) 人物形象设计--美甲篇(高职高专艺术设计类十二五规划教材) 财务会计软件应用(高等学校实训系列教材) 篮球运动教学与训练(普通高等院校体育单项精品教材) 企业法律实务(全国高等学校应用型人才培养系列规划教材) 世界500强企业培训精粹数控电火花加工技术(全国高职高专机械设计制造类工学结合十二五规划系列教材) 病理学(供护理助产等专业使用全国高等卫生职业教育护理专业双证书人才培养十二五规划教材) 光学基础教程(光电技术信息类职业技术教育十二五课程改革规划教材) 线性代数教程同步辅导(普通高等院校数学精品教材) 足球运动教学与训练(普通高等院校体育单项精品教材) 建筑节能设备环境检测(湖北省建设工程质量检测人员培训教材) 电力系统自动装置(高职高专电气工程类专业十二五规划系列教材) 立体构成(应用型本科艺术与设计专业十二五规划精品教材) 企业品牌与文化(全国高等学校应用型人才培养企业行政管理专业系列规划教材) 应用文写作(高等学校应用型本科经管类基础课十二五规划教材) 法学导引财务报告编制实训(高等学校实训系列教材) 字体改革(精) 建设工程经济(土建类高职高专创新型规划教材) 让心中的太阳发光--促进心理健康的自助方法(第2版) 对日软件开发基础(高等学校日语教材) 追根溯源(对契斯恰科夫素描教学体系的再认识)/艺术学博士文丛至尊私邸--顶级别墅(精) 造景世界(5)(精) ESET SysInspector(系统诊断工具) v1.3.5.0 Boxoft Duplicate File Finder(重复文件清理工具) v1.1.0 创新声卡kx3552驱动机架吾爱破解 v5.10.00.3552 IObit Driver Booster(硬件驱动更新软件) v8.2.0.314 福牛盒子 v1.0.0 弹窗助手 v1.0 SimeJi-EE(桌面宠物软件) v1.1.0.3 野猫哔哩哔哩vip登录器 v1.1.1 淮自启 v1.0 iStonsoft iOS Manager(iOS管理工具) v2.1.110 《(+限)手机游戏软件下载之死(Lust \'n Dead)》V1.0.15官方中文版[俄网fitgirl 2024.11.13更新5.21G] 《法利恩战记(Furion Chronicles)》V.Latest官方中文版[俄网Пиратка 2020.11.24更新1.72G] 《蒂维妮娅编年史-甘缇遗物(Divinia Chronicles Relics Of Gan Ti)》Build11014175+Dlcs官方中文版[俄网pirate 2023.04.21更新1.83 《DEX》V7.0.0.0官方中文版[俄网r.g-mekhaniki 2020.05.20更新2.08G] 《婴儿蓝调噩梦-幼儿恐怖游戏(Baby Blues Nightmares-Toddler Horror Game)》V1.1官方版[俄网GOG 2024.12.01更新1.06G] 《主权辛迪加(Sovereign Syndicate)》V1.1.11(Build16505639)官方版[俄网portable 2024.12.01更新6.27G] 《僚机计划(Project Wingman)》V2.1.0+Dlcs官方中文版[俄网Пиратка 2024.12.01更新7.46G] 《沉降VR(Subside VR)》V1.1.2官方中文版[俄网Portable 2024.12.01更新5.96G] 《光夜寻凶(LumineNight)》Build16577268官方版[俄网Пиратка 2024.12.01更新3.4G] 《宠物大陆(Pet Lands)》Build16197056官方中文版[俄网Пиратка 2024.12.01更新4.79G] allusive alluvium ally alma mater almanac almighty almond almond paste almost alms 恋恋红尘暗刃觉醒童时爱上你童時愛上你黑话律师我的队长不对劲鸣龙少年人生之路若你说出愿望瞄准你的未来非常律师禹英禑《原神》平民新手向神里绫人培养心得《艾尔登法环》魂系咒术师Build分享《搜救》发布先导预告甄子丹极寒禁区舍身救子《侏罗纪世界3》曝传承特辑 “博士三人组”出镜全国影院营业率回升新增复工城市东莞台州惠州《神奇动物3》发布片段初代“邓布利多军”集结《坏蛋联盟》曝特辑！配音天团演绎坏蛋转型之旅《精灵旅社4》发布预告德古拉体验“做人好难” 《邓小平小道》发布终极海报历史大片催人泪下《边缘行者》七大看点抢先看！双“任”巅峰相聚