网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 Spark快速大数据分析(第2版)/图灵程序设计丛书
分类
作者 (美)朱尔斯·S.达米吉//布鲁克·韦尼希//(印)泰瑟加塔·达斯//(美)丹尼·李
出版社 人民邮电出版社
下载
简介
内容推荐
本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API,利用Spark SQL进行交互式查询,掌握Spark应用的优化之道,用Spark和Delta Lake等开源工具构建可靠的数据湖,并用MLlib库实现机器学习流水线。随着Spark从2.x版本升级到3.0版本,本书第2版做了全面的更新,以体现Spark生态系统在机器学习、流处理技术等方面的发展,另新增一章详解Spark 3.0引入的新特性。
本书面向希望利用Spark处理海量数据的读者,包括数据工程师、数据科学家、机器学习工程师等。
作者简介
王道远,阿里云智能平台EMR团队技术专家,主要从事Spark、Hadoop、Hive等开源项目的开发优化工作,帮助中小企业客户实现云上大数据解决方案。他是Apache Spark项目的活跃贡献者,出版了多本Spark相关书籍和译著。加入阿里之前,他是英特尔大数据技术中心的资深工程师。
目录
译者序
对本书的赞誉

前言
第1章 Apache Spark简介:一站式分析引擎
1.1 Spark的起源
1.1.1 谷歌的大数据和分布式计算
1.1.2 雅虎的Hadoop
1.1.3 Spark在AMPLab崭露头角
1.2 什么是Spar
1.2.1 快速
1.2.2 易用
1.2.3 模块化
1.2.4 可扩展
1.3 一站式数据分析
1.3.1 由Spark组件组成的一站式软件栈
1.3.2 Spark的分布式执行
1.4 开发者体验
1.4.1 哪些人用Spark,用它做什么
1.4.2 社区接受度与社区发展
第2章 下载并开始使用Apache Spark
2.1 第1 步:下载Spark
2.2 第2 步:使用Scala shell或PySpark shell
2.3 第3 步:理解Spark应用的相关概念
2.3.1 Spark 应用与SparkSession
2.3.2 Spark 作业
2.3.3 Spark 执行阶段
2.3.4 Spark 任务
2.4 转化操作、行动操作以及惰性求值
2.5 Spark UI
2.6 第一个独立应用
2.6.1 统计M&M巧克力豆
2.6.2 用Scala构建独立应用
2.7 小结
第3章 Apache Spark的结构化数据API
3.1 RDD的背后是什么
3.2 Spark支持结构化数据
3.3 DataFrame API
3.3.1 Spark的基本数据类型
3.3.2 Spark中结构化的复杂数据类型
3.3.3 表结构与DataFrame
3.3.4 列与表达式
3.3.5 行
3.3.6 常见的DataFrame操作
3.3.7 完整的DataFrame示例
3.4 Dataset API
3.4.1 有类型对象、无类型对象,以及普通行
3.4.2 创建Dataset
3.4.3 Dataset操作
3.4.4 完整的Dataset示例
3.5 对比DataFrame和Dataset
3.6 Spark SQL及其底层引擎
3.7 小结
第4章 Spark SQL与DataFrame:内建数据源概览
4.1 在Spark应用中使用Spark SQL
4.2 SQL 表和视图
4.2.1 有管理表和无管理表
4.2.2 创建SQL数据库和SQL表
4.2.3 创建视图
4.2.4 查看元数据
4.2.5 缓存SQL表
4.2.6 将表读取为DataFrame
4.3 DataFrame和SQL表的数据源
4.3.1 DataFrameReader
4.3.2 DataFrameWriter
4.3.3 Parquet
4.3.4 JSON
4.3.5 CSV
4.3.6 Avro
4.3.7 ORC
4.3.8 图像
4.3.9 二进制文件
4.4 小结
第5章 Spark SQL与DataFrame:读写外部数据源
5.1 Spark SQL与Apache Hive
5.2 用Spark SQL shell、Beeline和Tableau查询
5.2.1 使用Spark SQL shell
5.2.2 使用Beeline
5.2.3 使用Tableau
5.3 外部数据源
5.3.1 JDBC和SQL数据库
5.3.2 PostgreSQL
5.3.3 MySQL
5.3.4 Azure Cosmos DB
5.3.5 MS SQL Server
5.3.6 其他外部数据源
5.4 DataFrame和Spark SQL的高阶函数
5.4.1 方式1:打散再重组
5.4.2 方式2:用户自定义函数
5.4.3 针对复杂数据类型的内建函数
5.4.4 高阶函数
5.5 常用的DataFrame操作和Spark SQL操作
5.5.1 联合
5.5.2 连接
5.5.3 窗口
5.5.4 修改
5.6 小结
第6章 Spark SQL与Dataset
6.1 Java 与Scala共用一套API
6.2 操作Dataset
6.2.1 创建示例数据
6.2.2 转化示例数据
6.3 Dataset与DataFrame的内存管理
6.4 Dataset编码器
6.4.1 Spark内部格式与Java对象格式
6.4.2 序列化与反序列化
6.5 使用Dataset的开销
6.6 小结
第7章 Spark应用的优化与调优
7.1 为效率而优化与调优
7.1.1 查看与设置Spark配置
7.1.2 为大型作业扩展Spark
7.2 数据的缓存与持久化
7.2.1 DataFrame.cache()
7.2.2 DataFrame.persist()
7.2.3 什么时候应该缓存和持久化
7.2.4 什么时候不应该缓存和持久化
7.3 Spark 的各种连接算法
7.3.1 广播哈希连接
7.3.2 混洗排序合并连接
7.4 查看Spark UI
7.5 小结
第8章 结构化流处理
8.1 Spark流处理引擎的演进过程
8.1.1 以微型批模拟的流处理
8.1.2 从DStream获取的经验教训
8.1.3 Structured Streaming的设计哲学
8.2 Structured Streaming的编程模型
8.3 Structured Streaming查询
8.3.1 五步定义流式查询
8.3.2 探究活跃的流式查询
8.3.3 失败恢复与“精确一次”语义
8.3.4 监控活跃的查询
8.4 流式数据源与数据池
8.4.1 文件
8.4.2 Kafka
8.4.3 自定义流式数据源与数据池
8.5 数据转化
8.5.1 增量执行与流处理状态
8.5.2 无状态转化操作
8.5.3 有状态转化操作
8.6 有状态的流式聚合
8.6.1 不根据时间维度进行聚合
8.6.2 使用事件时间窗口进行聚合
8.7 流式连接
8.7.1 流与静态表连接
8.7.2 流与流连接
8.8 任
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/4/26 18:55:15