网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | Spark权威指南 |
分类 | |
作者 | (美)比尔·尚贝尔//马特·扎哈里亚 |
出版社 | 中国电力出版社 |
下载 | ![]() |
简介 | 内容推荐 ?大数据技术和Spark概述。?通过实例学习DataFrame、SQL、Dataset等Spark的核心API。?了解Spark的低级API实现,包括RDD以及SQL和DataFrame的执行过程。?了解Spark如何在集群上运行。?Spark集群和应用程序的调试、监控、和调优。?学习Spark强大的流处理引擎——结构化流处理。?学习MLlib并了解如何应用它解决包括分类、推荐,以及其他多种实际问题。 目录 目录前言1第Ⅰ部分 大数据与Spark概述章 Spark是什么? 9Apache Spark的设计哲学 10背景: 大数据问题12Spark的历史 12Spark的现状和未来 14运行Spark 14第2章 Spark浅析 18Spark的基本架构18Spark API的多语言支持 20Spark的API21启动Spark 21转换操作 24动作操作 25Spark用户接口26一个完整的例子 27小结35第3章 Spark工具集介绍 36运行生产应用程序37Dataset: 类型安全的结构化API 38结构化流处理39机器学习和不错数据分析 43低级API48SparkR 49Spark的生态系统和工具包50小结50第Ⅱ部分 结构化API——DataFrame、SQL和Dataset第4章 结构化API概述 53DataFrame类型和Dataset类型 54Schema 54结构化Spark类型概述 54结构化API执行概述 61小结63第5章 基本的结构化操作 64模式65列和表达式66记录和行 69DataFrame转换操作70小结86第6章 处理不同的数据类型 87在哪里查找API87转换成Spark类型89处理布尔类型89处理数值类型92处理字符串类型 96处理日期和时间戳类型 101处理数据中的空值 106处理JSON类型 113用户自定义函数 115小结 119第7章 聚合操作 120聚合函数 122分组 128window函数 130分组集 133用户自定义的聚合函数 138小结 139第8章 连接操作 140连接表达式 140连接类型 140内连接 142外连接 143左外连接 143右外连接 144左半连接 144左反连接 145自然连接 146交叉连接(笛卡尔连接) 146连接操作常见问题与解决方案 147小结 152第9章 数据源 153数据源 API 的结构 154CSV 文件 156JSON 文件 161Parquet文件 163ORC文件 164SQL数据库 165文本文件 173不错I/O概念 174小结 1770章 Spark SQL 178什么是 SQL? 178大数据和SQL: Apache Hive 178大数据和SQL: Spark SQL 179如何运行Spark SQL 查询 180Catalog 182视图 187数据库 188选择语句 189不错主题 190其他功能 194小结 1951章 Dataset 196何时使用Dataset 197创建Dataset 197动作操作 199转换操作 199连接 201分组和聚合 202小结 203第Ⅲ部分 低级API2章 弹性分布式数据集 207什么是低级API? 207关于RDD 208创建RDD 210操作RDD 212转换操作 213动作操作 215保存文件 218缓存 219检查点 220通过pipe方法调用系统命令操作RDD 220小结 2223章 不错RDD 223Key-Value基础 (Key-Value RDD)224聚合操作 226CoGroups 230连接操作 231控制分区 232自定义序列化 235小结 2364章 分布式共享变量 237广播变量 237累加器 239小结 243第Ⅳ部分 生产与应用5章 Spark如何在集群上运行 247Spark应用程序的体系结构 247Spark应用程序的生命周期( Spark外部) 250Spark应用程序的生命周期( Spark内部) 253执行细节 258小结 2596章 开发Spark应用程序 260编写Spark应用程序 260测试Spark应用程序 265开发过程 268启动应用程序 268配置应用程序 271小结 2787章 部署Spark 279在哪里部署Spark集群 280集群管理器 282其他注意事项 288小结 2898章 监控与调试 290监控级别 290要监视什么 291Spark日志 292Spark UI 293调试和Spark抢救方案 301小结 3119章 性能调优 312间接性能优化 313直接性能优化 320小结 325第Ⅴ部分 流处理第20章 流处理基础 329什么是流处理? 330流处理设计要点 334Spark的流处理API 336小结 338第21章 结构化流处理基础 339结构化流处理概述 339核心概念 340结构化流处理实例 343结构化流上的转换操作 347聚合 348输入和输出 349流式Dataset API 358小结 359第22章 事件时间和有状态处理 360事件时间 360有状态处理 362任意有状态处理 362事件时间基础知识 363事件时间的窗口 363在流中删除重复项 370任意有状态处理 371小结 380第23章 生产中的结构化流处理 381容错和检查点 381更新应用程序 382度量和监视 384警报 386使用流侦听器进行不错监视 387小结 388第Ⅵ部分 不错分析与机器学习第24章 不错分析和机器学习概览 391不错分析简介 392Spark的不错分析工具包 399不错MLlib概念 400MLlib的执行 402部署模式 412小结 413第25章 预处理和特征工程 414根据应用场景格式化模型 414转换器 416预处理的估计器 417不错转换器 418处理连续型特征 422使用类别特征 428文本数据转换器 431特征操作 440特征选择 442不错主题 443编写自定义转换器 444小结 445第26章 分类 446应用场景 446分类的类型 446MLlib中的分类模型 447逻辑回归 449决策树 452随机森林和梯度提升树 454朴素贝叶斯 456分类评估器和自动化模型校正 457One-vs-Rest分类 459多层感知器 459小结 459第27章 回归 460应用场景 460MLlib中的回归模型 461线性回归 462广义线性回归 464决策树 466随机森林和梯度提升树 467不错方法 468评估器和自动化模型校正 469度量标准 470小结 471第28章 推荐系统 472应用场景 472基于交替最小二乘法的协同过滤 473推荐系统的评估器 476度量指标 477频繁模式挖掘 479小结 479第29章 无监督学习 480应用场景 480模型的可扩展性 481k-means 482二分k-means 484高斯混合模型 485LDA主题模型 487小结 490第30章 图分析 491构建图 493查询图 495模式发现 496图算法 498小结 504第31章 深度学习 505什么是深度学习? 505在Spark中使用深度学习 506深度学习库 508Deep Learning Pipelines的一个简单示例 510小结 514第Ⅶ部分 生态系统第32章 语言支持: Python(PySpark)和R(SparkR和Sparklyr) 517PySpark 518Spark 中的R 519小结 529第33章 生态系统和社区 530Spark软件包 530社区 533小结 534 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。