网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 Python和PySpark数据分析(数据科学与大数据技术)
分类
作者 (加)乔纳森·里乌
出版社 清华大学出版社
下载
简介
内容推荐
Spark数据处理引擎是一个惊人的分析工厂:输入原始数据,输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线,并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。
本书帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力,同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识,就可以通过构建机器学习管道,并配合Python、pandas和PySpark代码,探索PySpark的全面多功能特性。
作者简介
乔纳森·里乌,作为一家数据驱动软件公司的ML总监,Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。
目录
第1章 介绍
1.1 什么是PySpark
1.1.1 从头开始:什么是Spark
1.1.2 PySpark=Spark+Python
1.1.3 为什么选择PySpark
1.2 PySpark的工作原理
1.2.1 使用集群管理器进行物理规划
1.2.2 懒惰的主管成就工厂的高效
1.3 你将从本书学到什么
1.4 我们将如何开始
1.5 本章小结
第Ⅰ部分 介绍:PySpark的第一步
第2章 使用PySpark编写的第一个数据处理程序
2.1 设置pysparkshell
2.1.1 SparkSession入口点
2.1.2 配置PySpark的日志级别
2.2 映射程序
2.3 采集和探索:为数据转换奠定基础
2.3.1 用spark.read将数据读入数据帧
2.3.2 从结构到内容:使用show()探索数据帧
2.4 简单的列转换:将句子拆解为单词列表
2.4.1 使用select()选择特定的列
2.4.2 转换列:将字符串拆分为单词列表
2.4.3 重命名列:alias和withColumnRenamed
2.4.4 重塑数据:将list分解成行
2.4.5 处理单词:更改大小写并删除标点符号
2.5 筛选记录
2.6 本章小结
2.7 扩展练习
第3章 提交并扩展你的第一个PySpark程序
3.1 对记录进行分组:计算词频
3.2 使用orderBy对结果排序
3.3 保存数据帧中的数据
3.4 整合所有内容:计数
3.4.1 使用PySpark的导入约定简化依赖
3.4.2 通过方法链简化程序
3.5 使用spark-submit以批处理模式启动程序
3.6 本章未涉及的内容
3.7 扩展词频程序
3.8 本章小结
3.9 扩展练习
第4章 使用pyspark.sql分析表格数据
4.1 什么是表格数据
4.2 使用PySpark分析和处理表格数据
4.3 在PySpark中读取和评估带分隔符的数据
4.3.1 第一次使用专门处理CSV文件的SparkReader
4.3.2 自定义SparkReader对象来读取CSV数据文件
4.3.3 探索数据世界的轮廓
……
第Ⅱ部分 进级:将你的想法转化为代码
第Ⅲ部分 使用PySpark进行机器学习
附录A 习题答案
附录B 安装PySpark
附录C 一些有用的Python内容
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/1/19 3:10:06