大数据处理框架Apache Spark设计与实现豆瓣PDF电子书bt网盘迅雷下载电子书下载-霍普软件下载网

第一部分大数据处理框架的基础知识
第1章大数据处理框架概览
1.1 大数据及其带来的挑战
1.2 大数据处理框架
1.3 大数据应用及编程模型
1.4 大数据处理框架的四层结构
1.4.1 用户层
1.4.2 分布式数据并行处理层
1.4.3 资源管理与任务调度层
1.4.4 物理执行层
1.5 错误容忍机制
1.6 其他大数据处理框架
1.7 本章小结
1.8 扩展阅读
第2章 Spark系统部署与应用运行的基本流程
2.1 Spark安装部署
2.2 Spark系统架构
2.3 Spark应用例子
2.3.1 用户代码基本逻辑
2.3.2 逻辑处理流程
2.3.3 物理执行计划
2.3.4 可视化执行过程
2.4 Spark编程模型
2.5 本章小结
第二部分 Spark大数据处理框架的核心理论
第3章 Spark逻辑处理流程
3.1 Spark逻辑处理流程概览
3.2 Spark逻辑处理流程生成方法
3.2.1 根据应用程序如何产生RDD，产生什么样的RDD
3.2.2 如何建立RDD之间的数据依赖关系
3.2.3 如何计算RDD中的数据
3.3 常用transformation()数据操作
3.4 常用action()数据操作
3.5 对比MapReduce，Spark的优缺点
3.6 本章小结
3.7 扩展阅读
第4章 Spark物理执行计划
4.1 Spark物理执行计划概览
4.2 Spark物理执行计划生成方法
4.3 常用数据操作生成的物理执行计划
4.4 本章小结
4.5 扩展阅读
第三部分典型的Spark应用
第5章迭代型Spark应用
5.1 迭代型Spark应用的分类及特点
5.2 迭代型机器学习应用SparkLR
5.2.1 应用描述
5.2.2 算法原理
5.2.3 基于Spark的并行化实现
5.2.4 深入讨论
5.3 迭代型机器学习应用——广义线性模型
5.3.1 算法原理
5.3.2 基于Spark的并行化实现
5.3.3 深入讨论
5.4 迭代型图计算应用——PageRank
5.4.1 应用描述
5.4.2 基于Spark的并行化实现
5.4.3 深入讨论
5.5 本章小结
第四部分大数据处理框架性能和可靠性保障机制
第6章 Shuffle机制
6.1 Shuffle的意义及设计挑战
6.2 Shuffle的设计思想
6.2.1 解决数据分区和数据聚合问题
6.2.2 解决map()端combine问题
6.2.3 解决sort问题
6.2.4 解决内存不足问题
6.3 Spark中Shuffle框架的设计
6.3.1 Shuffle Write框架设计和实现
6.3.2 Shuffle Read框架设计和实现
6.4 支持高效聚合和排序的数据结构
6.4.1 AppendOnlyMap的原理
6.4.2 ExternalAppendOnlyMap
6.4.3 PartitionedAppendOnlyMap
6.4.4 PartitionedPairBuffer
6.5 与Hadoop MapReduce的Shuffle机制对比
6.6 本章小结
第7章数据缓存机制
7.1 数据缓存的意义
7.2 数据缓存机制的设计原理
7.2.1 决定哪些数据需要被缓存
7.2.2 包含数据缓存操作的逻辑处理流程和物理执行计划
7.2.3 缓存级别
7.2.4 缓存数据的写入方法
7.2.5 缓存数据的读取方法
7.2.6 用户接口的设计
7.2.7 缓存数据的替换与回收方法
7.3 与Hadoop MapReduce的缓存机制进行对比
7.4 本章小结
第8章错误容忍机制
8.1 错误容忍机制的意义及挑战
8.2 错误容忍机制的设计思想
8.3 重新计算机制
8.3.1 重新计算是否能够得到与之前一样的结果
8.3.2 从哪里开始重新计算
8.3.3 重新计算机制小结
8.4 checkpoint机制的设计与实现
8.4.1 哪些数据需要使用checkpoint机制
8.4.2 checkpoint数据的写入及接口
8.4.3 checkpoint时机及计算顺序
8.4.4 checkpoint数据的读取
8.4.5 checkpoint数据写入和读取的实现细节
8.4.6 checkpoint语句位置的影响
8.4.7 cache+checkpoint
8.5 checkpoint与数据缓存的区别
8.6 本章小结
第9章内存管理机制
9.1 内存管理机制问题及挑战
9.2 应用内存消耗来源及影响因素
9.2.1 内存消耗来源1：用户代码
9.2.2 内存消耗来源2：Shuffle机制中产生的中间数据
9.2.3 内存消耗来源3：缓存数据
9.3 Spark框架内存管理模型
9.3.1 静态内存管理模型
9.3.2 统一内存管理模型
9.4 Spark框架执行内存消耗与管理
9.4.1 ShuffleWrite阶段内存消耗及管理
9.4.2 ShuffleRead阶段内存消耗及管理
9.5 数据缓存空间管理
9.5.1 RDD缓存数据
9.5.2 广播数据
9.5.3 task的计算结果
9.6 本章小结
参考文献

近年来，以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心，总结了大数据处理框架的基础知识、核心理论、典型的Spark应用，以及相关的性能和可靠性问题。本书分9章，主要包含四部分内容。
第一部分大数据处理框架的基础知识（第1～2章）：介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作，并以一个典型的Spark应用为例概述Spark应用的执行流程。
第二部分Spark大数据处理框架的核心理论（第3～4章）：介绍Spark框架将应用程序转化为逻辑处理的流程，进而转化为可并行执行的物理执行计划的一般过程及方法。
第三部分典型的Spark应用（第5章）：介绍迭代型的Spark机器学习应用和图计算应用。
第四部分大数据处理框架性能和可靠性保障机制（第6～9章）：介绍Spark框架的Shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。
本书将帮助大数据系统的用户、开发者、研究人员等从理论层和实现层深入理解大数据处理框架，也帮助其对大数据处理框架进一步优化改进。

电子书	大数据处理框架Apache Spark设计与实现
分类	电子书下载
作者	许利杰//方亚芬
出版社	电子工业出版社
下载		暂无下载资源
介绍	目录第一部分大数据处理框架的基础知识第1章大数据处理框架概览 1.1 大数据及其带来的挑战 1.2 大数据处理框架 1.3 大数据应用及编程模型 1.4 大数据处理框架的四层结构 1.4.1 用户层 1.4.2 分布式数据并行处理层 1.4.3 资源管理与任务调度层 1.4.4 物理执行层 1.5 错误容忍机制 1.6 其他大数据处理框架 1.7 本章小结 1.8 扩展阅读第2章 Spark系统部署与应用运行的基本流程 2.1 Spark安装部署 2.2 Spark系统架构 2.3 Spark应用例子 2.3.1 用户代码基本逻辑 2.3.2 逻辑处理流程 2.3.3 物理执行计划 2.3.4 可视化执行过程 2.4 Spark编程模型 2.5 本章小结第二部分 Spark大数据处理框架的核心理论第3章 Spark逻辑处理流程 3.1 Spark逻辑处理流程概览 3.2 Spark逻辑处理流程生成方法 3.2.1 根据应用程序如何产生RDD，产生什么样的RDD 3.2.2 如何建立RDD之间的数据依赖关系 3.2.3 如何计算RDD中的数据 3.3 常用transformation()数据操作 3.4 常用action()数据操作 3.5 对比MapReduce，Spark的优缺点 3.6 本章小结 3.7 扩展阅读第4章 Spark物理执行计划 4.1 Spark物理执行计划概览 4.2 Spark物理执行计划生成方法 4.3 常用数据操作生成的物理执行计划 4.4 本章小结 4.5 扩展阅读第三部分典型的Spark应用第5章迭代型Spark应用 5.1 迭代型Spark应用的分类及特点 5.2 迭代型机器学习应用SparkLR 5.2.1 应用描述 5.2.2 算法原理 5.2.3 基于Spark的并行化实现 5.2.4 深入讨论 5.3 迭代型机器学习应用——广义线性模型 5.3.1 算法原理 5.3.2 基于Spark的并行化实现 5.3.3 深入讨论 5.4 迭代型图计算应用——PageRank 5.4.1 应用描述 5.4.2 基于Spark的并行化实现 5.4.3 深入讨论 5.5 本章小结第四部分大数据处理框架性能和可靠性保障机制第6章 Shuffle机制 6.1 Shuffle的意义及设计挑战 6.2 Shuffle的设计思想 6.2.1 解决数据分区和数据聚合问题 6.2.2 解决map()端combine问题 6.2.3 解决sort问题 6.2.4 解决内存不足问题 6.3 Spark中Shuffle框架的设计 6.3.1 Shuffle Write框架设计和实现 6.3.2 Shuffle Read框架设计和实现 6.4 支持高效聚合和排序的数据结构 6.4.1 AppendOnlyMap的原理 6.4.2 ExternalAppendOnlyMap 6.4.3 PartitionedAppendOnlyMap 6.4.4 PartitionedPairBuffer 6.5 与Hadoop MapReduce的Shuffle机制对比 6.6 本章小结第7章数据缓存机制 7.1 数据缓存的意义 7.2 数据缓存机制的设计原理 7.2.1 决定哪些数据需要被缓存 7.2.2 包含数据缓存操作的逻辑处理流程和物理执行计划 7.2.3 缓存级别 7.2.4 缓存数据的写入方法 7.2.5 缓存数据的读取方法 7.2.6 用户接口的设计 7.2.7 缓存数据的替换与回收方法 7.3 与Hadoop MapReduce的缓存机制进行对比 7.4 本章小结第8章错误容忍机制 8.1 错误容忍机制的意义及挑战 8.2 错误容忍机制的设计思想 8.3 重新计算机制 8.3.1 重新计算是否能够得到与之前一样的结果 8.3.2 从哪里开始重新计算 8.3.3 重新计算机制小结 8.4 checkpoint机制的设计与实现 8.4.1 哪些数据需要使用checkpoint机制 8.4.2 checkpoint数据的写入及接口 8.4.3 checkpoint时机及计算顺序 8.4.4 checkpoint数据的读取 8.4.5 checkpoint数据写入和读取的实现细节 8.4.6 checkpoint语句位置的影响 8.4.7 cache+checkpoint 8.5 checkpoint与数据缓存的区别 8.6 本章小结第9章内存管理机制 9.1 内存管理机制问题及挑战 9.2 应用内存消耗来源及影响因素 9.2.1 内存消耗来源1：用户代码 9.2.2 内存消耗来源2：Shuffle机制中产生的中间数据 9.2.3 内存消耗来源3：缓存数据 9.3 Spark框架内存管理模型 9.3.1 静态内存管理模型 9.3.2 统一内存管理模型 9.4 Spark框架执行内存消耗与管理 9.4.1 ShuffleWrite阶段内存消耗及管理 9.4.2 ShuffleRead阶段内存消耗及管理 9.5 数据缓存空间管理 9.5.1 RDD缓存数据 9.5.2 广播数据 9.5.3 task的计算结果 9.6 本章小结参考文献内容推荐近年来，以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心，总结了大数据处理框架的基础知识、核心理论、典型的Spark应用，以及相关的性能和可靠性问题。本书分9章，主要包含四部分内容。第一部分大数据处理框架的基础知识（第1～2章）：介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作，并以一个典型的Spark应用为例概述Spark应用的执行流程。第二部分Spark大数据处理框架的核心理论（第3～4章）：介绍Spark框架将应用程序转化为逻辑处理的流程，进而转化为可并行执行的物理执行计划的一般过程及方法。第三部分典型的Spark应用（第5章）：介绍迭代型的Spark机器学习应用和图计算应用。第四部分大数据处理框架性能和可靠性保障机制（第6～9章）：介绍Spark框架的Shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。本书将帮助大数据系统的用户、开发者、研究人员等从理论层和实现层深入理解大数据处理框架，也帮助其对大数据处理框架进一步优化改进。
截图
随便看	《司马林读毛选全套珍藏版》无删减[PDF] 《咸的玩笑》2025 刘震云新书推荐[PDF] 《迫在眉睫：美國五角大廈研究不明異常現象的絕密內幕》[MOBI] 《段永平系列合集》书籍演讲文章[PDF] 《全国各地县志古籍合集》[PDF] 《690+款虚拟演播厅绿幕背景素材合集》直播绿幕必备20G+素材[MP4] 《1221新书四本》[EPUB] 《道教超度亡安魂科仪》[PDF] 《梁品周易：周易有答案》人真的能算出自己的命运吗?[PDF] 《Python学习精品书籍和课程》[PDF] 《戒掉你的弱者气息》自我成长必读[PDF] 《电脑报》2025年第46期[pdf] 《私人珍藏的畅销好书合集五》100本套装[zip][3G] 《天下名物大观丛书》[PDF] 《个人收藏电子书185》[PDF] 《豆瓣读书历年榜单》(2020-2025合集)[PDF] 《大唐盛世》大唐崛起全解读 [PDF] 《人性的深渊：吴谢宇案》[EPUB] 《全网VIP小说排行榜Top100》必读热门网文书单合集[TXT] 《道家阴阳符箓》[PDF] 《中国古代八大兵书》[PDF] 《600+套沙雕动画绿幕素材来了！最新购买，全中文分类》支持一键绿幕抠出使用[MP4] 《奉系军阀档案史料汇编》[PDF] 《永不放弃：尖兵成长法则》顾靖著[pdf] 《美女ASMR纯中文助眠第三期》小一熟了吗周童潼坏空空不二丸叽小小奶瓶儿一酱33[MP4] 《武功秘籍-中华武术精华书籍》[PDF] 《251222套装书合集》[EPUB] 《量子位智库_2025年度AI十大趋势报告》[pdf] 《个人收藏电子书184》[PDF] 《金庸江湖的另一面》[PDF]