内容推荐 本书以大数据处理引擎Spark的稳定版本1.6.x为基础,从应用案例、原理、源码、流程、调优等多个角度剖析Spark上的实时计算框架SparkStreaming。在勾勒出SparkStreaming架构轮廓的基础上,从基本源码开始进行剖析,由浅入深地引导已具有Spark和Spark Streaming基础技术知识的读者进行Spark Streaming的进阶学习,理解Spark Streaming的原理和运行机制,为流数据处理的决策和应用提供了技术参考;结合Spark Streaming的深入应用的需要,对Spark Streaming的性能调优进行了分析,也对Spark Streaming功能的改造和扩展提供了指导。 本书适合大数据领域CTO、架构师、不错软件工程师,尤其是Spark领域已有Spark Streaming基础知识的从业人员阅读,也可供需要深入学习Spark、Spark Streaming的高校研究生和高年级本生参考。 作者简介 王家林:中国有名的Spark培训专家,ApacheSpark、Android技术中国区布道师,DT大数据梦工厂创始人和首席专家,Android软硬整合专家。有效研究了Spark从0.5.0到2.1.028个版本的Spark源码,目前致力于开发优化的Spark中国版本。尤其擅长Spark在生产环境下各种类型和场景故障的排除和解决,痴迷于Spark生产环境下任意类型(例如Shuffle和各种内存问题及数据倾斜问题等)的Spark程序的深度性能优化。从2014年6月24日起,已开启免费的Spark公开课《决胜大数据时代Spark100期公益大讲堂》。在2015年6月27日成立DT大数据梦工厂,开启IMF行动,率先在优选开展以Spark为核心的,免费为社会培养100万企业级实战不错大数据人才行动计划,截止目前已有数千人参与到这个行动之中。 夏阳,系统架构师,从事平台和应用软件研发工作多年,行业阅历丰富,对行业技术发展有独到见解和精准判断,近几年先后就职于中创中间件公司、蚁坊软件公司、任子行网络技术股份有限公司,从事大数据相关的技术研发工作。对大数据处理、机器学习、图计算、文本处理等技术领域有丰富工作经验和浓厚兴趣。 目录 章SparkStreaming应用概述 1.1SparkStreaming应用案例 1.2SparkStreaming应用剖析 第2章SparkStreaming基本原理 2.1SparkCore简介 2.2SparkStreaming设计思想 2.3SparkStreaming整体架构 2.4编程接口 第3章SparkStreaming运行流程详解 3.1从StreamingContext的初始化到启动 3.2数据接收 3.3数据处理 3.4数据清理 3.5容错机制 3.5.1容错原理 3.5.2Driver容错机制 3.5.3Executor容错机制 3.6NoReceiver方式 3.7输出不重复 3.8消费速率的动态控制 3.9状态操作 3.10窗口操作 3.11页面展示 3.12SparkStreaming应用程序的停止 第4章SparkStreaming性能调优机制 4.1并行度解析 4.1.1数据接收的并行度 4.1.2数据处理的并行度 4.2内存 4.3序列化 4.4BatchInterval 4.5Task 4.6JVMGC 第5章Spark2.0中的流计算 5.1连续应用程序 5.2无边界表unboundedtable 5.3增量输出模式 5.4API简化 5.5其他改进 |