内容推荐 Spark数据处理引擎是一个惊人的分析工厂:输入原始数据,输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线,并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。 本书帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力,同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识,就可以通过构建机器学习管道,并配合Python、pandas和PySpark代码,探索PySpark的全面多功能特性。 作者简介 乔纳森·里乌,作为一家数据驱动软件公司的ML总监,Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。 目录 第1章 介绍 1.1 什么是PySpark 1.1.1 从头开始:什么是Spark 1.1.2 PySpark=Spark+Python 1.1.3 为什么选择PySpark 1.2 PySpark的工作原理 1.2.1 使用集群管理器进行物理规划 1.2.2 懒惰的主管成就工厂的高效 1.3 你将从本书学到什么 1.4 我们将如何开始 1.5 本章小结 第Ⅰ部分 介绍:PySpark的第一步 第2章 使用PySpark编写的第一个数据处理程序 2.1 设置pysparkshell 2.1.1 SparkSession入口点 2.1.2 配置PySpark的日志级别 2.2 映射程序 2.3 采集和探索:为数据转换奠定基础 2.3.1 用spark.read将数据读入数据帧 2.3.2 从结构到内容:使用show()探索数据帧 2.4 简单的列转换:将句子拆解为单词列表 2.4.1 使用select()选择特定的列 2.4.2 转换列:将字符串拆分为单词列表 2.4.3 重命名列:alias和withColumnRenamed 2.4.4 重塑数据:将list分解成行 2.4.5 处理单词:更改大小写并删除标点符号 2.5 筛选记录 2.6 本章小结 2.7 扩展练习 第3章 提交并扩展你的第一个PySpark程序 3.1 对记录进行分组:计算词频 3.2 使用orderBy对结果排序 3.3 保存数据帧中的数据 3.4 整合所有内容:计数 3.4.1 使用PySpark的导入约定简化依赖 3.4.2 通过方法链简化程序 3.5 使用spark-submit以批处理模式启动程序 3.6 本章未涉及的内容 3.7 扩展词频程序 3.8 本章小结 3.9 扩展练习 第4章 使用pyspark.sql分析表格数据 4.1 什么是表格数据 4.2 使用PySpark分析和处理表格数据 4.3 在PySpark中读取和评估带分隔符的数据 4.3.1 第一次使用专门处理CSV文件的SparkReader 4.3.2 自定义SparkReader对象来读取CSV数据文件 4.3.3 探索数据世界的轮廓 …… 第Ⅱ部分 进级:将你的想法转化为代码 第Ⅲ部分 使用PySpark进行机器学习 附录A 习题答案 附录B 安装PySpark 附录C 一些有用的Python内容 |