网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 Spark SQL内核剖析
分类
作者 朱锋//张韶全//黄明
出版社 电子工业出版社
下载
简介
内容推荐
Spark SQL是Spark技术体系中较有影响力的应用(Killer application),也是SQL-on-Hadoop解决方案中举足轻重的产品。朱锋、张韶全、黄明著的《Spark SQL内核剖析》由11章构成,从源码层面深入介绍Spark SQL内部实现机制,以及在实际业务场景中的开发实践,其中包括SQL编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregation算子和Join算子的实现与执行、Tungsten优化技术、生产环境中的一些改造优化经验等。
本书不属于入门级教程,需要读者对基本概念有一定的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读本书。
目录
第1章 Spark SQL背景
1.1 大数据与Spark系统
1.2 关系模型与SQL语言
1.3 Spark SQL发展历程
1.4 本章小结
第2章 Spark基础知识介绍
2.1 RDD编程模型
2.2 DataFrame与Dataset
2.3 本章小结
第3章 Spark SQL执行全过程概述
3.1 从SQL到RDD:一个简单的案例
3.2 重要概念
3.2.1 InternalRow体系
3.2.2 TreeNode体系
3.2.3 Expression体系
3.3 内部数据类型系统
3.4 本章小结
第4章 Spark SQL编译器Parser
4.1 DSL工具之ANTLR简介
4.1.1 基于ANTLR 4的计算器
4.1.2 访问者模式
4.2 SparkSqlParser之AstBuilder
4.3 常见SQL生成的抽象语法树概览
4.4 本章小结
第5章 Spark SQL逻辑计划(LogicalPlan)
5.1 Spark SQL逻辑计划概述
5.2 LogicalPlan简介
5.2.1 QueryPlan概述
5.2.2 LogicalPlan基本操作与分类
5.2.3 LeafNode类型的LogicalPlan
5.2.4 UnaryNode类型的LogicalPlan
5.2.5 BinaryNode类型的LogicalPlan
5.2.6 其他类型的LogicalPlan
5.3 AstBuilder机制:Unresolved LogicalPlan生成
5.4 Analyzer机制:Analyzed LogicalPlan生成
5.4.1 Catalog体系分析
5.4.2 Rule体系
5.4.3 Analyzed LogicalPlan生成过程
5.5 Spark SQL优化器Optimizer
5.5.1 Optimizer概述
5.5.2 Optimizer规则体系
5.5.3 Optimized LogicalPlan的生成过程
5.6 本章小结
第6章 Spark SQL物理计划(PhysicalPlan)
6.1 Spark SQL物理计划概述
6.2 SparkPlan简介
6.2.1 LeafExecNode类型
6.2.2 UnaryExecNode类型
6.2.3 BinaryExecNode类型
6.2.4 其他类型的SparkPlan
6.3 Metadata与Metrics体系
6.4 Partitioning与Ordering体系
6.4.1 Distribution与Partitioning的概念
6.4.2 SparkPlan的常用分区排序操作
6.5 SparkPlan生成
6.5.1 物理计划Strategy体系
6.5.2 常见Strategy分析
6.6 执行前的准备
6.6.1 PlanSubqueries规则
6.6.2 EnsureRequirements规则
6.7 本章小结
第7章 Spark SQL之Aggregation实现
7.1 Aggregation执行概述
7.1.1 文法定义
7.1.2 聚合语句Unresolved LogicalPlan生成
7.1.3 从逻辑算子树到物理算子树
7.2 聚合函数(AggregateFunction)
7.2.1 聚合缓冲区与聚合模式(AggregateMode)
7.2.2 DeclarativeAggregate聚合函数
7.2.3 ImperativeAggregate聚合函数
7.2.4 TypedImperativeAggregate聚合函数
7.3 聚合执行
7.3.1 执行框架AggregationIterator
7.3.2 基于排序的聚合算子SortAggregateExec
7.3.3 基于Hash的聚合算子HashAggregateExec
7.4 窗口(Window)函数
7.4.1 窗口函数定义与简介
7.4.2 窗口函数相关表达式
7.4.3 窗口函数的逻辑计划阶段与物理计划阶段
7.4.4 窗口函数的执行
7.5 多维分析
7.5.1 OLAP多维分析背景
7.5.2 Spark SQL多维查询
7.5.3 多维分析LogicalPlan阶段
7.5.4 多维分析PhysicalPlan与执行
7.6 本章小结
第8章 Spark SQL之Join实现
8.1 Join查询概述
8.2 文法定义与抽象语法树
8.3 Join查询逻辑计划
8.3.1 从AST到Unresolved LogicalPlan
8.3.2 从Unresolve LogicalPlan到Analyzed LogicalPlan
8.3.3 从Analyzed LogicalPlan到Optimized LogicalPlan
8.4 Join查询物理计划
8.4.1 Join物理计划的生成
8.4.2 Join物理计划的选取
8.5 Join查询执行
8.5.1 Join执行基本框架
8.5.2 BroadcastJoinExec执行机制
8.5.3 ShuffledHashJoinExec执行机制
8.5.4 SortMergeJoinExec执行机制
8.6 本章小结
第9章 Tungsten技术实现
9.1 内存管理与二进制处理
9.1.1 Spark内存管理基础
9.1.2 Tungsten内存管理优化基础
9.1.3 Tungsten内存优化应用
9.2 缓存敏感计算(Cache-aware computation)
9.3 动态代码生成(Code generation)
9.3.1 漫谈代码生成
9.3.2 Janino编译器实践
9.3.3 基本(表达式)代码生成
9.3.4 全阶段代码生成(WholeStageCodegen)
9.4 本章小结
第10章 Spark SQL连接Hive
10.1 Spark SQL连接Hive概述
10.2 Hive相关的规则和策略
10.2.1 HiveSessionCatalog体系
10.2.2 Analyzer之Hive-Specific分析规则
10.2.3 SparkPlanner之Hive-Specific转换策略
10.2.4 Hive相关的任务执行
10.3 Spark SQL与Hive数据类型
10.3.1 Hive数据类型与SerDe框架
10.3.2 DataTypeToInspector与Data Wrapping
10.3.3 Inspecto
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/1/31 20:18:25