Python大数据处理库PySpark实战汪明清华大学出版社豆瓣PDF电子书bt网盘迅雷下载-霍普软件下载网

我国提出新基建概念，要加快大数据中心、人工智能等新型基础设施的建设进度，这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理，降低大数据学习门槛，本书正是一本PySpark入门教材，适合有一定Python基础的读者学习使用。
本书分为7章，第1章介绍大数据的基本概念、常用的大数据分析工具；第2章介绍Spark作为大数据处理的特点和算法；第3章介绍Spark实战环境的搭建，涉及Windows和Linux操作系统；第4章介绍如何灵活应用PySpark对数据进行操作；第5章介绍PySpark ETL处理，涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容；第6章介绍PySpark如何利用MLlib库进行分布式机器学习（Titanic幸存者预测）；第7章介绍一个PySpark和Kafka结合的实时项目。
本书内容全面、示例丰富，可作为广大PySpark入门读者必备的参考书，同时能作为大中专院校师生的教学参考书，也可作为高等院校计算机及相关专业的大数据技术教材使用。

第1章大数据时代
1.1 什么是大数据
1.1.1 大数据的特点
1.1.2 大数据的发展趋势
1.2 大数据下的分析工具
1.2.1 Hadoop
1.2.2 Hive
1.2.3 HBase
1.2.4 Apache Phoenix
1.2.5 Apache Drill
1.2.6 Apache Hudi
1.2.7 Apache Kylin
1.2.8 Apache Presto
1.2.9 ClickHouse
1.2.10 Apache Spark
1.2.11 Apache Flink
1.2.12 Apache Storm
1.2.13 Apache Druid
1.2.14 Apache Kafka
1.2.15 TensorFlow
1.2.16 PyTorch
1.2.17 Apache Superset
1.2.18 Elasticsearch
1.2.19 Jupyter Notebook
1.2.20 Apache Zeppelin
1.3 小结
第2章大数据的瑞士军刀——Spark
2.1 Hadoop与生态系统
2.1.1 Hadoop概述
2.1.2 HDFS体系结构
2.1.3 Hadoop生态系统
2.2 Spark与Hadoop
2.2.1 Apache Spark概述
2.2.2 Spark和Hadoop比较
2.3 Spark核心概念
2.3.1 Spark软件栈
2.3.2 Spark运行架构
2.3.3 Spark部署模式
2.4 Spark基本操作
2.5 SQL in Spark
2.6 Spark与机器学习
2.6.1 决策树算法
2.6.2 贝叶斯算法
2.6.3 支持向量机算法
2.6.4 随机森林算法
2.6.5 人工神经网络算法
2.6.6 关联规则算法
2.6.7 线性回归算法
2.6.8 KNN算法
2.6.9 K-Means算法
2.7 小结
第3章 Spark实战环境设定
3.1 建立Spark环境前提
3.1.1 CentOS 7安装
3.1.2 FinalShell安装
3.1.3 PuTTY安装
3.1.4 JDK安装
3.1.5 Python安装
3.1.6 Visual Studio Code安装
3.1.7 PyCharm安装
3.2 一分钟建立Spark环境
3.2.1 Linux搭建Spark环境
3.2.2 Windows搭建Spark环境
3.3 建立Hadoop集群
3.3.1 CentOS配置
3.3.2 Hadoop伪分布模式安装
3.3.3 Hadoop完全分布模式安装
3.4 安装与配置Spark集群
3.5 安装与配置Hive
3.5.1 Hive安装
3.5.2 Hive与Spark集成
3.6 打造交互式Spark环境
3.6.1 Spark Shell
3.6.2 PySpark
3.6.3 Jupyter Notebook安装
3.7 小结
第4章活用PySpark
4.1 Python 语法复习
4.1.1 Python基础语法
4.1.2 Python变量类型
4.1.3 Python运算符
4.1.4 Python控制语句
4.1.5 Python函数
4.1.6 Python模块和包
4.1.7 Python面向对象
4.1.8 Python异常处理
4.1.9 Python JSON处理
4.1.10 Python日期处理
4.2 用PySpark建立第一个Spark RDD
4.2.1 PySpark Shell 建立RDD
4.2.2 VSCode编程建立RDD
4.2.3 Jupyter 编程建立RDD
4.3 RDD的操作与观察
4.3.1 first操作
4.3.2 max操作
4.3.3 sum操作
4.3.4 take操作
4.3.5 top操作
4.3.6 count操作
4.3.7 collect操作
4.3.8 collectAsMap操作
4.3.9 countByKey操作
4.3.10 countByValue操作
4.3.11 glom操作
4.3.12 coalesce操作
4.3.13 combineByKey操作
4.3.14 distinct操作
4.3.15 filter操作
4.3.16 flatMap操作
4.3.17 flatMapValues操作
4.3.18 fold操作
4.3.19 foldByKey操作
4.3.20 foreach操作
4.3.21 foreachPartition操作
4.3.22 map操作
4.3.23 mapPartitions操作
4.3.24 mapPartitionsWithIndex操作
4.3.25 mapValues操作
4.3.26 groupBy操作
4.3.27 groupByKey操作
4.3.28 keyBy操作
4.3.29 keys操作
4.3.30 zip操作
4.3.31 zipWithIndex操作
4.3.32 values操作
4.3.33 union操作
4.3.34 takeOrdered操作
4.3.35 takeSample操作
4.3.36 subtract操作
4.3.37 subtractByKey操作
4.3.38 stats操作
4.3.39 sortBy操作
4.3.40 sortByKey操作
4.3.41 sample操作
4.3.42 repartition操作
4.3.43 reduce操作
4.3.44 reduceByKey操作
4.3.45 randomSplit操作
4.3.46 lookup操作
4.3.47 join操作
4.3.48 intersection操作
4.3.49 fullOuterJoin操作
4.3.50 leftOuterJoin与rightOuterJoin操作
4.3.51 aggregate操作
4.3.52 aggregateByKey操作
4.3.53 cartesian操作
4.3.54 cache操作
4.3.55 saveAsTextFile操作
4.4 共享变数
4.4.1 广播变量
4.4.2 累加器
4.5 DataFrames与Spark SQL
4.5.1 DataFrame建立
4.5.2 Spark SQL基本用法
4.5.3 DataFrame基本操作
4.6

书名	Python大数据处理库PySpark实战
分类
作者	汪明
出版社	清华大学出版社
下载
简介	内容推荐我国提出新基建概念，要加快大数据中心、人工智能等新型基础设施的建设进度，这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理，降低大数据学习门槛，本书正是一本PySpark入门教材，适合有一定Python基础的读者学习使用。本书分为7章，第1章介绍大数据的基本概念、常用的大数据分析工具；第2章介绍Spark作为大数据处理的特点和算法；第3章介绍Spark实战环境的搭建，涉及Windows和Linux操作系统；第4章介绍如何灵活应用PySpark对数据进行操作；第5章介绍PySpark ETL处理，涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容；第6章介绍PySpark如何利用MLlib库进行分布式机器学习（Titanic幸存者预测）；第7章介绍一个PySpark和Kafka结合的实时项目。本书内容全面、示例丰富，可作为广大PySpark入门读者必备的参考书，同时能作为大中专院校师生的教学参考书，也可作为高等院校计算机及相关专业的大数据技术教材使用。作者简介汪明，硕士，毕业于中国矿业大学，徐州软件协会副理事长，某创业公司合伙人。从事软件行业十余年，发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。目录第1章大数据时代 1.1 什么是大数据 1.1.1 大数据的特点 1.1.2 大数据的发展趋势 1.2 大数据下的分析工具 1.2.1 Hadoop 1.2.2 Hive 1.2.3 HBase 1.2.4 Apache Phoenix 1.2.5 Apache Drill 1.2.6 Apache Hudi 1.2.7 Apache Kylin 1.2.8 Apache Presto 1.2.9 ClickHouse 1.2.10 Apache Spark 1.2.11 Apache Flink 1.2.12 Apache Storm 1.2.13 Apache Druid 1.2.14 Apache Kafka 1.2.15 TensorFlow 1.2.16 PyTorch 1.2.17 Apache Superset 1.2.18 Elasticsearch 1.2.19 Jupyter Notebook 1.2.20 Apache Zeppelin 1.3 小结第2章大数据的瑞士军刀——Spark 2.1 Hadoop与生态系统 2.1.1 Hadoop概述 2.1.2 HDFS体系结构 2.1.3 Hadoop生态系统 2.2 Spark与Hadoop 2.2.1 Apache Spark概述 2.2.2 Spark和Hadoop比较 2.3 Spark核心概念 2.3.1 Spark软件栈 2.3.2 Spark运行架构 2.3.3 Spark部署模式 2.4 Spark基本操作 2.5 SQL in Spark 2.6 Spark与机器学习 2.6.1 决策树算法 2.6.2 贝叶斯算法 2.6.3 支持向量机算法 2.6.4 随机森林算法 2.6.5 人工神经网络算法 2.6.6 关联规则算法 2.6.7 线性回归算法 2.6.8 KNN算法 2.6.9 K-Means算法 2.7 小结第3章 Spark实战环境设定 3.1 建立Spark环境前提 3.1.1 CentOS 7安装 3.1.2 FinalShell安装 3.1.3 PuTTY安装 3.1.4 JDK安装 3.1.5 Python安装 3.1.6 Visual Studio Code安装 3.1.7 PyCharm安装 3.2 一分钟建立Spark环境 3.2.1 Linux搭建Spark环境 3.2.2 Windows搭建Spark环境 3.3 建立Hadoop集群 3.3.1 CentOS配置 3.3.2 Hadoop伪分布模式安装 3.3.3 Hadoop完全分布模式安装 3.4 安装与配置Spark集群 3.5 安装与配置Hive 3.5.1 Hive安装 3.5.2 Hive与Spark集成 3.6 打造交互式Spark环境 3.6.1 Spark Shell 3.6.2 PySpark 3.6.3 Jupyter Notebook安装 3.7 小结第4章活用PySpark 4.1 Python 语法复习 4.1.1 Python基础语法 4.1.2 Python变量类型 4.1.3 Python运算符 4.1.4 Python控制语句 4.1.5 Python函数 4.1.6 Python模块和包 4.1.7 Python面向对象 4.1.8 Python异常处理 4.1.9 Python JSON处理 4.1.10 Python日期处理 4.2 用PySpark建立第一个Spark RDD 4.2.1 PySpark Shell 建立RDD 4.2.2 VSCode编程建立RDD 4.2.3 Jupyter 编程建立RDD 4.3 RDD的操作与观察 4.3.1 first操作 4.3.2 max操作 4.3.3 sum操作 4.3.4 take操作 4.3.5 top操作 4.3.6 count操作 4.3.7 collect操作 4.3.8 collectAsMap操作 4.3.9 countByKey操作 4.3.10 countByValue操作 4.3.11 glom操作 4.3.12 coalesce操作 4.3.13 combineByKey操作 4.3.14 distinct操作 4.3.15 filter操作 4.3.16 flatMap操作 4.3.17 flatMapValues操作 4.3.18 fold操作 4.3.19 foldByKey操作 4.3.20 foreach操作 4.3.21 foreachPartition操作 4.3.22 map操作 4.3.23 mapPartitions操作 4.3.24 mapPartitionsWithIndex操作 4.3.25 mapValues操作 4.3.26 groupBy操作 4.3.27 groupByKey操作 4.3.28 keyBy操作 4.3.29 keys操作 4.3.30 zip操作 4.3.31 zipWithIndex操作 4.3.32 values操作 4.3.33 union操作 4.3.34 takeOrdered操作 4.3.35 takeSample操作 4.3.36 subtract操作 4.3.37 subtractByKey操作 4.3.38 stats操作 4.3.39 sortBy操作 4.3.40 sortByKey操作 4.3.41 sample操作 4.3.42 repartition操作 4.3.43 reduce操作 4.3.44 reduceByKey操作 4.3.45 randomSplit操作 4.3.46 lookup操作 4.3.47 join操作 4.3.48 intersection操作 4.3.49 fullOuterJoin操作 4.3.50 leftOuterJoin与rightOuterJoin操作 4.3.51 aggregate操作 4.3.52 aggregateByKey操作 4.3.53 cartesian操作 4.3.54 cache操作 4.3.55 saveAsTextFile操作 4.4 共享变数 4.4.1 广播变量 4.4.2 累加器 4.5 DataFrames与Spark SQL 4.5.1 DataFrame建立 4.5.2 Spark SQL基本用法 4.5.3 DataFrame基本操作 4.6 导语 PySpark可以对大数据进行分布式处理，降低了大数据的学习门槛。本书是一本PySpark入门教材，重点讲述PySpark安装、PySpark用法、ETL数据处理、PySpark机器学习及其实战，最后给出一个综合实战案例。本书逻辑线索清晰，内容体系合理，适合有一定Python基础的大数据分析和处理人员学习使用。
随便看	罪案往事我的求学之路(记于大学毕业五十周年之际)(精)/中国工程院院士文集村落效应中学生百科英语(延伸阅读1清华中学英语分级读物) 小眼睛里的世界建筑工程测量(高职高专土建类专业十三五规划教材) 雅线意彩/兰阇文丛向日葵趣味游戏园：紧急冒险如何准备ACP考试冰与火之歌(纪念版卷2列王的纷争)(精) 中华人民共和国档案法个人道德与社会改造(精)/民国西学要籍汉译文献电动汽车非车载充放电装置技术条件科学拓展阅读(4下彩色版)/悦读书系家庭养花一本通(彩图版) HSK标准教程(附光盘5上练习册) 电视民生新闻--成长与转型旅游政策与法规(第3版) 千家诗/中华国学启蒙经典鸽病防治图谱(精) 水电水利工程预应力锚杆用水泥锚固剂技术规程 2018全国硕士研究生招生考试临床医学综合能力<西医西医综合>真题解析(1992-2017) 太阳神庙事件 3 中国智慧广告营销策划方案安全隐患排查登记表安全生产责任制考核记录表安全责任制考核表校园安全排查记录表安全值班表食品安全自查记录表幼儿园食品安全自查记录表食品安全记录表幼儿园安全检查记录表范本生死狙击XK辅助 v1.13 QQ农牧菲佣 v1.1.7 GTA5雷诺Clio消防车MOD v2.4 求生之路2MP5的Freshboy5000S纹理MOD v1.56 怪物猎人世界冰原太刀纳刀MOD v1.20 我的世界1.10.2耐久度警告MOD v2.6 腐烂国度2主宰版紅爪技能增強版MOD 1.4.11 DNFSaber风格个人信息和物品栏界面补丁 v2.3 骑马与砍杀2可摧毁的攻城塔和冲车MOD v3.35 GTA5魔法战队魔术红MOD v2.3 shock troops shock wave shod shoddy shoe shoehorn shoelace shoestring shoestring potatoes shoetree [BT下载][夜限照相馆][第31-32集][WEB-MKV/4.00G][中文字幕][1080P][流媒体][BlackTV] 剧集 2024 韩国剧情连载 [BT下载][unmet 某脑外科医的日记][第04集][WEB-MKV/2.55G][中文字幕][1080P][流媒体][BlackTV] 剧集 2024 日本剧情连载 [BT下载][无名记忆][第05集][WEB-MKV/1.34G][简繁英字幕][1080P][流媒体][ZeroTV] 剧集 2024 日本动画连载 [BT下载][无名记忆][第05集][WEB-MP4/0.28G][中文字幕][1080P][流媒体][ZeroTV] 剧集 2024 日本动画连载 [BT下载][小绿和小蓝第三季][第09集][WEB-MP4/0.11G][国语配音/中文字幕][1080P][流媒体][ZeroTV] 剧集 2023 大陆剧情连载 [BT下载][小绿和小蓝第三季][第09集][WEB-MP4/0.41G][国语配音/中文字幕][4K-2160P][流媒体][ZeroTV] 剧集 2023 大陆剧情连载 [BT下载][我和春天约在清溪][第01-04集][WEB-MP4/2.79G][国语配音/中文字幕][1080P][流媒体][LelveTV] 剧集 2024 大陆其它连载 [BT下载][暗河传][第16集][WEB-MP4/1.02G][国语配音/中文字幕][4K-2160P][H265][流媒体][ZeroTV] 剧集 2023 大陆动作连载 [BT下载][炼气十万年][第129集][WEB-MP4/0.13G][国语配音/中文字幕][1080P][H265][流媒体][ZeroTV] 剧集 2023 大陆动作连载 [BT下载][背着善在跑吧][第10集][WEB-MKV/0.84G][中文字幕][1080P][流媒体][BlackTV] 剧集 2024 韩国爱情连载《原神》5.7版本前瞻节目兑换码及内容汇总原神5.7更新了什么《原神》5.7新角色塔利雅技能简介塔利雅有什么技能《原神》5.7新角色丝柯克技能简介丝柯克有什么技能《匹诺曹的谎言》序曲DLC解锁方法序曲DLC怎么进入《匹诺曹的谎言》序曲DLC全支线任务指南全NPC支线完成方法《匹诺曹的谎言》序曲DLC全探索图文流程攻略 DLC全武器、服装收集指南《原神》5.7前瞻内容与兑换码分享 5.7前瞻特别节目回顾长图《原神》5.7前瞻内容汇总与兑换码一览 5.7前瞻兑换码是多少《匹诺曹的谎言》序曲DLC全武器图鉴全武器数据及获取方法一览《原神》5.7前瞻原石兑换码分享 5.7前瞻节目汇总与原石获取统计