![]()
内容推荐 利用分析工具可以快速获取商业洞察,为此你需要了解如何对数据进行实时处理。通过这本实用指南,对于熟悉Apache Spark的读者来说,你们将了解如何将这个内存框架应用于流数据。你会发现Spark让你几乎可以像面对批处理作业一样来开发流处理作业。 本书介绍了Apache Spark的理论基础。这本综合指南通过两个部分比较了Spark支持的流处理API:早期Spark Streaming和后来的Structured Streaming。 作者简介 杰拉德·马斯是Lightbend的首席工程师,致力于将结构化流和其他可伸缩流处理技术无缝集成到Lightbend平台中。 目录 序 前言 第一部分 Apache Spark流处理的基本原理 第1章 流处理概述 什么是流处理 批处理与流处理 流处理中的时间概念 不确定性因素 流处理案例 可扩展的数据处理能力 扩展性与容错性 分布式流处理 Apache Spark概述 第一波浪潮:函数式API 第二波浪潮:SQL 统一的引擎 Spark组件 Spark Streaming Structured Streaming 接下来? 第2章 流处理模型 数据源与接收器 不可变流 转换与聚合 窗口聚合 滚动窗口 滑动窗口 无状态处理与有状态处理 有状态的流 案例:Scala中的本地状态计算 无状态流,还是有状态流? 时间效应 带时间戳的事件计算 通过时间戳来定义时间概念 事件时间与处理时间 使用水位线计算 小结 第3章 流处理架构 数据平台的组件 体系模型 在流处理应用中使用批处理组件 流处理架构参考 Lambda架构 Kappa架构 …… 第二部分 Structured Streaming 第三部分 Spark Streaming 第四部分 Spark Streaming高级技巧 第五部分 Apache Spark之外的世界 参考文献 作者介绍 封面介绍 |