Python和PySpark数据分析(数据科学与大数据技术)豆瓣PDF电子书bt网盘迅雷下载电子书下载-霍普软件下载网

网站首页   软件下载   游戏下载   翻译软件   电子书下载   电影下载   电视剧下载   教程攻略   音乐专区

请输入您要查询的图书:

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

电子书 Python和PySpark数据分析(数据科学与大数据技术)
分类 电子书下载
作者 (加)乔纳森·里乌
出版社 清华大学出版社
下载 暂无下载
介绍
内容推荐
Spark数据处理引擎是一个惊人的分析工厂:输入原始数据,输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线,并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。
本书帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力,同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识,就可以通过构建机器学习管道,并配合Python、pandas和PySpark代码,探索PySpark的全面多功能特性。
作者简介
乔纳森·里乌,作为一家数据驱动软件公司的ML总监,Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。
目录
第1章 介绍
1.1 什么是PySpark
1.1.1 从头开始:什么是Spark
1.1.2 PySpark=Spark+Python
1.1.3 为什么选择PySpark
1.2 PySpark的工作原理
1.2.1 使用集群管理器进行物理规划
1.2.2 懒惰的主管成就工厂的高效
1.3 你将从本书学到什么
1.4 我们将如何开始
1.5 本章小结
第Ⅰ部分 介绍:PySpark的第一步
第2章 使用PySpark编写的第一个数据处理程序
2.1 设置pysparkshell
2.1.1 SparkSession入口点
2.1.2 配置PySpark的日志级别
2.2 映射程序
2.3 采集和探索:为数据转换奠定基础
2.3.1 用spark.read将数据读入数据帧
2.3.2 从结构到内容:使用show()探索数据帧
2.4 简单的列转换:将句子拆解为单词列表
2.4.1 使用select()选择特定的列
2.4.2 转换列:将字符串拆分为单词列表
2.4.3 重命名列:alias和withColumnRenamed
2.4.4 重塑数据:将list分解成行
2.4.5 处理单词:更改大小写并删除标点符号
2.5 筛选记录
2.6 本章小结
2.7 扩展练习
第3章 提交并扩展你的第一个PySpark程序
3.1 对记录进行分组:计算词频
3.2 使用orderBy对结果排序
3.3 保存数据帧中的数据
3.4 整合所有内容:计数
3.4.1 使用PySpark的导入约定简化依赖
3.4.2 通过方法链简化程序
3.5 使用spark-submit以批处理模式启动程序
3.6 本章未涉及的内容
3.7 扩展词频程序
3.8 本章小结
3.9 扩展练习
第4章 使用pyspark.sql分析表格数据
4.1 什么是表格数据
4.2 使用PySpark分析和处理表格数据
4.3 在PySpark中读取和评估带分隔符的数据
4.3.1 第一次使用专门处理CSV文件的SparkReader
4.3.2 自定义SparkReader对象来读取CSV数据文件
4.3.3 探索数据世界的轮廓
……
第Ⅱ部分 进级:将你的想法转化为代码
第Ⅲ部分 使用PySpark进行机器学习
附录A 习题答案
附录B 安装PySpark
附录C 一些有用的Python内容
截图
随便看

免责声明
本网站所展示的内容均来源于互联网,本站自身不存储、不制作、不上传任何内容,仅对网络上已公开的信息进行整理与展示。
本站不对所转载内容的真实性、完整性和合法性负责,所有内容仅供学习与参考使用。
若您认为本站展示的内容可能存在侵权或违规情形,请您提供相关权属证明与联系方式,我们将在收到有效通知后第一时间予以删除或屏蔽。
本网站对因使用或依赖本站信息所造成的任何直接或间接损失概不承担责任。联系邮箱:101bt@pm.me