内容推荐 本书以核心概念和基本应用为脉络,介绍Flink的核心待性(如检查点机制、时间与窗口、混洗机制等)、任务部署、DataSream API、DataSet API.Table API的应用以及运行时原理等内容。每章先对概念进行基本介绍,然后基于应用实例详细分析Flink的设计思想和源码实现,逐步引领读者掌握定制化的开发特性并提升性能,让读者对Flink的理解有质的飞跃,本书内容是作者多年工作实践的总结,能够帮助读者实现真实的企业级需求。 本书适合想要学习Fink设计原理并希望对Fink进行定制化开发的平台开发工程师,需要进行架构设计和技术选型的架构师与项目经理,以及计算机相关专业的学生阅读。 作者简介 黄伟哲,约翰斯·霍普金斯大学硕士,架构师、软件开发工程师、咨询师,Spark Contributor,《人工智能技术与大数据》译者,目前就职于美团。在开源大数据框架的应用与特性开发方面有丰富的经验。 目录 第一部分 设计思想篇 第1章 序篇 1.1 Flink的诞生与发展 1.1.1 Stratosphere项目 1.1.2 Apache Flink的发展 1.2 Flink的应用场景 1.2.1 事件驱动型应用 1.2.2 数据分析型应用 1.2.3 数据管道型应用 1.3 Flink的核心特性与架构 1.3.1 核心特性 1.3.2 架构 1.4 准备工作 1.5 总结 第2章 Flink编程 2.1 API层级 2.2 DataStream API 2.2.1 DataStream版本的WordCount 2.2.2 数据源 2.2.3 数据的转换操作 2.2.4 数据的输出 2.2.5 重分区 2.3 DataSet API 2.3.1 DataSet版本的WordCount 2.3.2 数据源 2.3.3 数据的转换操作 2.3.4 数据的输出 2.3.5 重分区 2.4 Table API 2.4.1 Table API版本的WordCount 2.4.2 初始化执行环境 2.4.3 获取Table对象 2.4.4 Table API中的转换操作及输出 2.5 SQL 2.6 总结 第3章 Flink API层的实现原理 3.1 DataStream API 3.1.1 StreamExecutionEnvironment执行环境 3.1.2 Function接口分析 3.1.3 StreamOperator算子分析 3.1.4 转换操作分析 3.1.5 数据流相关类分析 3.2 DataSet API 3.2.1 ExecutionEnvironment执行环境 3.2.2 InputFormat和OutputFormat 3.2.3 数据集相关类分析 3.3 Table API和SQL 3.4 总结 第4章 Flink的执行图 4.1 StreamGraph的生成 4.1.1 StreamGraphGenerator分析 4.1.2 StreamGraph分析 …… 第二部分 特性开发篇 |