高性能Spark(美)霍顿·卡劳//雷切尔·沃伦中国电力出版社豆瓣PDF电子书bt网盘迅雷下载-霍普软件下载网

前言
第1章高性能Spark介绍
1.1 Spark是什么以及性能的重要性
1.2 你可以从本书中得到什么
1.3 Spark版本
1.4 为什么是Scala？
1.4.1 成为一名Spark专家必须要学习一点Scala
1.4.2 Spark的Scala API比Java API更好用
1.4.3 Scala比Python更高效
1.4.4 为什么不用Scala？
1.4.5 学习Scala
1.5 小结
第2章 Spark运行原理
2.1 Spark如何融入大数据生态系统
2.2 Spark并行计算模型：RDD
2.2.1 惰性求值
2.2.2 内存持久化和内存管理
2.2.3 不可变性和RDD接口
2.2.4 RDD的类型
2.2.5 RDD上的函数：转换与行动
2.2.6 宽依赖和窄依赖
2.3 Spark作业调度
2.3.1 应用程序间的资源分配
2.3.2 Spark应用程序
2.4 SparkJob剖析
2.4.1 有向无环图（DAG）
2.4.2 作业（Job）
2.4.3 阶段（Stage）
2.4.4 任务（Task）
2.5 小结
第3章 DataFrame、Dataset和SparkSQL
3.1 从SparkSession（或者HiveContext和SQLContext）入门
3.2 SparkSQL依赖
3.2.1 管理Spark依赖
3.2.2 避免使用 Hive JAR
3.3 schema基础
3.4 DataFrame API
3.4.1 转换
3.4.2 基于多个DataFrame的转换
3.4.3 普通的SQL查询以及与Hive数据交互
3.5 DataFrame和Dataset中的数据表示
3.6 数据加载和保存函数
3.6.1 DataFrameWriter和DataFrameReader
3.6.2 格式
3.6.3 保存模式
3.6.4 分区（发现和写入）
3.7 Dataset
3.7.1 与RDD、DataFrame和本地集合的互操作性
3.7.2 编译时强类型
3.7.3 简易函数式转换操作（类似RDD）
3.7.4 关系型转换操作
3.7.5 多 Dataset关系转换操作
3.7.6 Dataset的分组操作
3.8 使用用户自定义的函数和聚合函数（UDF、UDAF）进行扩展
3.9 查询优化器
3.9.1 逻辑和物理计划
3.9.2 代码生成
3.9.3 大型查询计划和迭代算法
3.10 调试 SparkSQL查询
3.11 JDBC/ODBC服务器
3.12 小结
第4章 Join (SQL 和SparkCore)
4.1 SparkCore中的Join
4.1.1 选择Join类型
4.1.2 选择执行计划
4.2 SparkSQL中的Join
4.2.1 DataFrame的Join
4.2.2 Dataset的Join
4.3 小结
第5章高效的转换
5.1 窄转换与宽转换
5.1.1 对于性能的影响
5.1.2 对于容错的影响
5.1.3 coalesce的特殊情况
5.2 转换会返回什么类型的RDD
5.3 最小化对象创建成本
5.3.1 重用现有对象
5.3.2 使用更小的数据结构
5.4 mapPartitions迭代器到迭代器的转换
5.4.1 什么是迭代器到迭代器的转换
5.4.2 空间和时间优势
5.4.3 案例
5.5 集合操作
5.6 降低初始化开销
5.6.1 共享变量
5.6.2 广播变量
5.6.3 累加器
5.7 重用 RDD
5.7.1 重用的案例
5.7.2 判断重新计算是否足够划算
5.7.3 重用类型：缓存、持久化、检查点、shuffle文件
5.7.4 Alluxio（之前的Tachyon）
5.7.5 LRU缓存
5.7.6 繁忙集群的注意事项
5.7.7 与累加器交互
5.8 小结
第6章处理键值对数据
6.1 金发女孩案例
6.1.1 金发女孩之版本 0：迭代方案
6.1.2 如何使用PairRDDFunctions和OrderedRDDFunctions
6.2 键值对上的行动操作
6.3 groupByKey函数有什么风险
6.3.1 金发女孩之版本 1：groupByKey方案
6.3.2 为什么groupByKey会失败
6.4 选择聚合操作
6.5 涉及多个RDD的操作
6.6 分区器和键值对数据
6.6.1 使用Spark的分区器对象
6.6.2 哈希分区
6.6.3 范围分区
6.6.4 自定义分区
6.6.5 保留跨不同转换的分区信息
6.6.6 利用协同位置（Co-located）和协同分区（Co-Partitioned）的RDD
6.6.7 PairRDDFunctions中关于映射和分区函数的字典
6.7 OrderedRDDFunctions字典
6.8 二级排序和repartitionAndSortWithinPartitions
6.8.1 在按键分组和按值排序的函数中利用
repartitionAndSortWithinPartitions
6.8.2 如何不按照两个排序键排序
6.8.3 金发女孩之版本 2：二级排序
6.8.4 金发女孩问题的另外一种不同解法
6.8.5 金发女孩之版本 3：对单元格值排序
6.9 掉队检测与不均衡数据
6.9.1 再次回到金发女孩问题
6.9.2 金发女孩之版本 4：在每个分区上归并为不同值
6.10 小结
第7章 Scala之外
7.1 JVM之内、Scala之外
7.2 Scala之外、JVM之外
7.2.1 PySpark工作原理
7.2.2 SparkR工作原理
7.2.3 Spark.jl（Julia Spark）
7.2.4 Eclair JS工作原理
7.2.5 Spark基于公共语言运行时（CLR），C#

书名	高性能Spark
分类
作者	(美)霍顿·卡劳//雷切尔·沃伦
出版社	中国电力出版社
下载
简介	内容推荐通过本书，你可以了解到：Spark SQL的新接口如何为SQL的RDD数据结构提升性能。Spark Core与Spark SQL中数据join的不同选择方式。充分利用标准RDD转换的技术。如何解决Spark中键值范式的性能问题。不借助Scala或其他JVM语言来编写高性能的Spark代码。采用改进建议后，如何来测试其功能及性能情况。使用Spark MLlib和Spark ML机器学习库。Spark的流处理组件、外部的社区扩展包。目录前言第1章高性能Spark介绍 1.1 Spark是什么以及性能的重要性 1.2 你可以从本书中得到什么 1.3 Spark版本 1.4 为什么是Scala？ 1.4.1 成为一名Spark专家必须要学习一点Scala 1.4.2 Spark的Scala API比Java API更好用 1.4.3 Scala比Python更高效 1.4.4 为什么不用Scala？ 1.4.5 学习Scala 1.5 小结第2章 Spark运行原理 2.1 Spark如何融入大数据生态系统 2.2 Spark并行计算模型：RDD 2.2.1 惰性求值 2.2.2 内存持久化和内存管理 2.2.3 不可变性和RDD接口 2.2.4 RDD的类型 2.2.5 RDD上的函数：转换与行动 2.2.6 宽依赖和窄依赖 2.3 Spark作业调度 2.3.1 应用程序间的资源分配 2.3.2 Spark应用程序 2.4 SparkJob剖析 2.4.1 有向无环图（DAG） 2.4.2 作业（Job） 2.4.3 阶段（Stage） 2.4.4 任务（Task） 2.5 小结第3章 DataFrame、Dataset和SparkSQL 3.1 从SparkSession（或者HiveContext和SQLContext）入门 3.2 SparkSQL依赖 3.2.1 管理Spark依赖 3.2.2 避免使用 Hive JAR 3.3 schema基础 3.4 DataFrame API 3.4.1 转换 3.4.2 基于多个DataFrame的转换 3.4.3 普通的SQL查询以及与Hive数据交互 3.5 DataFrame和Dataset中的数据表示 3.6 数据加载和保存函数 3.6.1 DataFrameWriter和DataFrameReader 3.6.2 格式 3.6.3 保存模式 3.6.4 分区（发现和写入） 3.7 Dataset 3.7.1 与RDD、DataFrame和本地集合的互操作性 3.7.2 编译时强类型 3.7.3 简易函数式转换操作（类似RDD） 3.7.4 关系型转换操作 3.7.5 多 Dataset关系转换操作 3.7.6 Dataset的分组操作 3.8 使用用户自定义的函数和聚合函数（UDF、UDAF）进行扩展 3.9 查询优化器 3.9.1 逻辑和物理计划 3.9.2 代码生成 3.9.3 大型查询计划和迭代算法 3.10 调试 SparkSQL查询 3.11 JDBC/ODBC服务器 3.12 小结第4章 Join (SQL 和SparkCore) 4.1 SparkCore中的Join 4.1.1 选择Join类型 4.1.2 选择执行计划 4.2 SparkSQL中的Join 4.2.1 DataFrame的Join 4.2.2 Dataset的Join 4.3 小结第5章高效的转换 5.1 窄转换与宽转换 5.1.1 对于性能的影响 5.1.2 对于容错的影响 5.1.3 coalesce的特殊情况 5.2 转换会返回什么类型的RDD 5.3 最小化对象创建成本 5.3.1 重用现有对象 5.3.2 使用更小的数据结构 5.4 mapPartitions迭代器到迭代器的转换 5.4.1 什么是迭代器到迭代器的转换 5.4.2 空间和时间优势 5.4.3 案例 5.5 集合操作 5.6 降低初始化开销 5.6.1 共享变量 5.6.2 广播变量 5.6.3 累加器 5.7 重用 RDD 5.7.1 重用的案例 5.7.2 判断重新计算是否足够划算 5.7.3 重用类型：缓存、持久化、检查点、shuffle文件 5.7.4 Alluxio（之前的Tachyon） 5.7.5 LRU缓存 5.7.6 繁忙集群的注意事项 5.7.7 与累加器交互 5.8 小结第6章处理键值对数据 6.1 金发女孩案例 6.1.1 金发女孩之版本 0：迭代方案 6.1.2 如何使用PairRDDFunctions和OrderedRDDFunctions 6.2 键值对上的行动操作 6.3 groupByKey函数有什么风险 6.3.1 金发女孩之版本 1：groupByKey方案 6.3.2 为什么groupByKey会失败 6.4 选择聚合操作 6.5 涉及多个RDD的操作 6.6 分区器和键值对数据 6.6.1 使用Spark的分区器对象 6.6.2 哈希分区 6.6.3 范围分区 6.6.4 自定义分区 6.6.5 保留跨不同转换的分区信息 6.6.6 利用协同位置（Co-located）和协同分区（Co-Partitioned）的RDD 6.6.7 PairRDDFunctions中关于映射和分区函数的字典 6.7 OrderedRDDFunctions字典 6.8 二级排序和repartitionAndSortWithinPartitions 6.8.1 在按键分组和按值排序的函数中利用 repartitionAndSortWithinPartitions 6.8.2 如何不按照两个排序键排序 6.8.3 金发女孩之版本 2：二级排序 6.8.4 金发女孩问题的另外一种不同解法 6.8.5 金发女孩之版本 3：对单元格值排序 6.9 掉队检测与不均衡数据 6.9.1 再次回到金发女孩问题 6.9.2 金发女孩之版本 4：在每个分区上归并为不同值 6.10 小结第7章 Scala之外 7.1 JVM之内、Scala之外 7.2 Scala之外、JVM之外 7.2.1 PySpark工作原理 7.2.2 SparkR工作原理 7.2.3 Spark.jl（Julia Spark） 7.2.4 Eclair JS工作原理 7.2.5 Spark基于公共语言运行时（CLR），C#
随便看	闫峰死了三朵玫瑰绯影酒吧流年偶然流浪的兔子 [鼠猫]月舞星河最后的魔王男孩，女孩，胆小鬼我爱的人永远是你你丫闭嘴！ DF 冤家，别跑！磋砣还珠格格之此情可问天不许不爱我冰也会溶化友情宝贝无敌一派青朦ss 雪融情仇一世缘 dreaming under the moon sy 秋风絮腾讯游戏木马专杀腾讯qq音乐内网安全管理软件霓虹灯字体诺顿企业版特殊使命牌匾字体坦克英雄锁定现代空战2 索菲亚的复苏破晓传说奥尔芬重新装备破损面具MOD v1.10 怪物猎人世界冰原BoneSmasher重制金属MOD v2.39 怪物猎人世界冰原铂金盔甲MOD v1.31 造梦西游3艾艾修改器 V1.6 绿色版拿破仑全面战争修改器+8 V1.0.0.0 绿色版蓝色警戒修改器(8项属性修改器) V2.2 绿色版暗黑破坏神2重制版修改器(修改装备) v2021.10.02 破晓传说紫罗兰希侬面部外观美化MOD v1.63 心灵杀手重制版七项修改器 v2021.10.06 怒龙战记3修改器+2 V1.0 绿色版 gastroenteritis gastrointestinal gastronome gastronomic gastronomy gastropod gastropub gasworks gate gateau [BT下载][秘密入侵][全6集][WEB-MKV/12.16G][简繁英字幕][1080P][Disney+][流媒体][ZeroTV] 剧集 2023 美国剧情打包 [BT下载][转生贵族靠着鉴定技能一飞冲天][第08集][WEB-MKV/0.23G][简繁英字幕][1080P][流媒体][ZeroTV] 剧集 2024 日本剧情连载 [BT下载][转生贵族靠着鉴定技能一飞冲天][第08集][WEB-MP4/0.36G][中文字幕][1080P][流媒体][ZeroTV] 剧集 2024 日本剧情连载 [BT下载][转生贵族靠着鉴定技能一飞冲天][第08集][WEB-MKV/1.20G][中文字幕][1080P][流媒体][ZeroTV] 剧集 2024 日本剧情连载 [BT下载][转生贵族靠着鉴定技能一飞冲天][第08集][WEB-MKV/0.85G][简繁英字幕][4K-2160P][流媒体][ZeroTV] 剧集 2024 日本剧情连载 [BT下载][超级语文课第三季][第01-12集][WEB-MKV/41.59G][国语配音/中文字幕][4K-2160P][H265][流媒体][Lelve 剧集 2024 大陆其它连载 [BT下载][青春环游记第五季][第02集][WEB-MKV/4.90G][国语配音/中文字幕][4K-2160P][H265][流媒体][LelveTV] 剧集 2024 大陆其它连载 [BT下载][碧蓝档案 The Animation][第08集][WEB-MP4/0.41G][中文字幕][1080P][流媒体][ZeroTV] 剧集 2024 日本动画连载 [BT下载][碧蓝档案 The Animation][第08集][WEB-MP4/0.41G][中文字幕][1080P][流媒体][ZeroTV] 剧集 2024 日本动画连载 [BT下载][碧蓝档案 The Animation][第08集][WEB-MP4/0.41G][中文字幕][1080P][流媒体][ZeroTV] 剧集 2024 日本动画连载古剑奇谭木语人水10挂机如何打?古剑奇谭木语人水10挂机打法攻略古剑奇谭木语人偃甲如何升星?古剑奇谭木语人偃甲升星攻略古剑奇谭木语人末那怎么样?古剑奇谭木语人末那优缺点分析古剑奇谭木语人赤夜怎么样?古剑奇谭木语人赤夜优缺点分析古剑奇谭木语人单体最强输出是谁?古剑奇谭木语人单体最强输出推荐古剑奇谭木语人逃课神卡有哪些?古剑奇谭木语人逃课神卡推荐古剑奇谭木语人单体输出角色哪些厉害?古剑奇谭木语人最强单体输出角色推荐古剑奇谭木语人困难永夜天怎么打?古剑奇谭木语人攻略古剑奇谭木语人崔淏怎么样?古剑奇谭木语人崔淏技能强度介绍古剑奇谭木语人赤夜装备怎样搭配?古剑奇谭木语人赤夜装备搭配推荐