网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 高性能Spark |
分类 | |
作者 | (美)霍顿·卡劳//雷切尔·沃伦 |
出版社 | 中国电力出版社 |
下载 | |
简介 | 内容推荐 通过本书,你可以了解到:Spark SQL的新接口如何为SQL的RDD数据结构提升性能。Spark Core与Spark SQL中数据join的不同选择方式。充分利用标准RDD转换的技术。如何解决Spark中键值范式的性能问题。不借助Scala或其他JVM语言来编写高性能的Spark代码。采用改进建议后,如何来测试其功能及性能情况。使用Spark MLlib和Spark ML机器学习库。Spark的流处理组件、外部的社区扩展包。 目录 前言 第1章 高性能Spark介绍 1.1 Spark是什么以及性能的重要性 1.2 你可以从本书中得到什么 1.3 Spark版本 1.4 为什么是Scala? 1.4.1 成为一名Spark专家必须要学习一点Scala 1.4.2 Spark的Scala API比Java API更好用 1.4.3 Scala比Python更高效 1.4.4 为什么不用Scala? 1.4.5 学习Scala 1.5 小结 第2章 Spark运行原理 2.1 Spark如何融入大数据生态系统 2.2 Spark并行计算模型:RDD 2.2.1 惰性求值 2.2.2 内存持久化和内存管理 2.2.3 不可变性和RDD接口 2.2.4 RDD的类型 2.2.5 RDD上的函数:转换与行动 2.2.6 宽依赖和窄依赖 2.3 Spark作业调度 2.3.1 应用程序间的资源分配 2.3.2 Spark应用程序 2.4 SparkJob剖析 2.4.1 有向无环图(DAG) 2.4.2 作业(Job) 2.4.3 阶段(Stage) 2.4.4 任务(Task) 2.5 小结 第3章 DataFrame、Dataset和SparkSQL 3.1 从SparkSession(或者HiveContext和SQLContext)入门 3.2 SparkSQL依赖 3.2.1 管理Spark依赖 3.2.2 避免使用 Hive JAR 3.3 schema基础 3.4 DataFrame API 3.4.1 转换 3.4.2 基于多个DataFrame的转换 3.4.3 普通的SQL查询以及与Hive数据交互 3.5 DataFrame和Dataset中的数据表示 3.6 数据加载和保存函数 3.6.1 DataFrameWriter和DataFrameReader 3.6.2 格式 3.6.3 保存模式 3.6.4 分区(发现和写入) 3.7 Dataset 3.7.1 与RDD、DataFrame和本地集合的互操作性 3.7.2 编译时强类型 3.7.3 简易函数式转换操作(类似RDD) 3.7.4 关系型转换操作 3.7.5 多 Dataset关系转换操作 3.7.6 Dataset的分组操作 3.8 使用用户自定义的函数和聚合函数(UDF、UDAF)进行扩展 3.9 查询优化器 3.9.1 逻辑和物理计划 3.9.2 代码生成 3.9.3 大型查询计划和迭代算法 3.10 调试 SparkSQL查询 3.11 JDBC/ODBC服务器 3.12 小结 第4章 Join (SQL 和SparkCore) 4.1 SparkCore中的Join 4.1.1 选择Join类型 4.1.2 选择执行计划 4.2 SparkSQL中的Join 4.2.1 DataFrame的Join 4.2.2 Dataset的Join 4.3 小结 第5章 高效的转换 5.1 窄转换与宽转换 5.1.1 对于性能的影响 5.1.2 对于容错的影响 5.1.3 coalesce的特殊情况 5.2 转换会返回什么类型的RDD 5.3 最小化对象创建成本 5.3.1 重用现有对象 5.3.2 使用更小的数据结构 5.4 mapPartitions迭代器到迭代器的转换 5.4.1 什么是迭代器到迭代器的转换 5.4.2 空间和时间优势 5.4.3 案例 5.5 集合操作 5.6 降低初始化开销 5.6.1 共享变量 5.6.2 广播变量 5.6.3 累加器 5.7 重用 RDD 5.7.1 重用的案例 5.7.2 判断重新计算是否足够划算 5.7.3 重用类型:缓存、持久化、检查点、shuffle文件 5.7.4 Alluxio(之前的Tachyon) 5.7.5 LRU缓存 5.7.6 繁忙集群的注意事项 5.7.7 与累加器交互 5.8 小结 第6章 处理键值对数据 6.1 金发女孩案例 6.1.1 金发女孩之版本 0:迭代方案 6.1.2 如何使用PairRDDFunctions和OrderedRDDFunctions 6.2 键值对上的行动操作 6.3 groupByKey函数有什么风险 6.3.1 金发女孩之版本 1:groupByKey方案 6.3.2 为什么groupByKey会失败 6.4 选择聚合操作 6.5 涉及多个RDD的操作 6.6 分区器和键值对数据 6.6.1 使用Spark的分区器对象 6.6.2 哈希分区 6.6.3 范围分区 6.6.4 自定义分区 6.6.5 保留跨不同转换的分区信息 6.6.6 利用协同位置(Co-located)和协同分区(Co-Partitioned)的RDD 6.6.7 PairRDDFunctions中关于映射和分区函数的字典 6.7 OrderedRDDFunctions字典 6.8 二级排序和repartitionAndSortWithinPartitions 6.8.1 在按键分组和按值排序的函数中利用 repartitionAndSortWithinPartitions 6.8.2 如何不按照两个排序键排序 6.8.3 金发女孩之版本 2:二级排序 6.8.4 金发女孩问题的另外一种不同解法 6.8.5 金发女孩之版本 3:对单元格值排序 6.9 掉队检测与不均衡数据 6.9.1 再次回到金发女孩问题 6.9.2 金发女孩之版本 4:在每个分区上归并为不同值 6.10 小结 第7章 Scala之外 7.1 JVM之内、Scala之外 7.2 Scala之外、JVM之外 7.2.1 PySpark工作原理 7.2.2 SparkR工作原理 7.2.3 Spark.jl(Julia Spark) 7.2.4 Eclair JS工作原理 7.2.5 Spark基于公共语言运行时(CLR),C# |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。