PySpark大数据分析实战/大数据科学丛书机械工业出版社豆瓣PDF电子书bt网盘迅雷下载-霍普软件下载网

本书是PySpark大数据分析的入门读物，适合有一定Python基础的读者学习使用。本书基于最新版本的PySpark 3.4.x编写，全书共11章，系统地介绍了PySpark大数据分析的方法和技巧，内容涵盖了大数据的相关技术、PySpark的基本概念、Spark环境搭建、数据分析的基本概念及相关工具、开发工具的选择、Spark核心编程和Spark SQL操作等基础知识和核心技术，以及Spark流式数据处理、Spark机器学习库MLlib和基于协同过滤的图书推荐系统等高级主题。本书通过多个实战案例，带领读者掌握使用Python和Spark进行大数据分析的方法和技巧，从而提高读者的数据处理能力和业务价值。
本书内容全面、示例丰富、讲解清晰，读者可以直接应用书中的案例。本书适合自学，也可作为计算机、软件工程、数据科学与大数据等专业的教学参考书，用于指导大数据分析编程实践，还可供相关技术人员参考。

前言
第1章初识PySpark
1.1 关于数据
1.2 了解Hadoop
1.2.1 分布式文件系统HDFS
1.2.2 分布式计算框架MapReduce
1.2.3 资源调度管理框架YARN
1.3 了解Hive
1.4 了解Spark
1.4.1 Spark是什么
1.4.2 Spark的发展历程
1.4.3 Spark的特点
1.4.4 Spark的生态系统
1.4.5 Spark的部署模式
1.4.6 Spark的运行架构
1.5 PySpark库介绍
1.6 本章小结
第2章 Spark环境搭建
2.1 安装环境准备
2.1.1 操作系统准备
2.1.2 Java环境准备
2.1.3 Python环境准备
2.1.4 Spark安装包下载
2.1.5 Hadoop安装包下载
2.2 Spark本地模式安装
2.2.1 使用交互式pyspark运行代码
2.2.2 宽窄依赖和阶段划分
2.2.3 使用spark-submit提交代码
2.3 Spark独立集群安装
2.3.1 配置并启动Spark集群
2.3.2 使用spark-submit提交代码
2.3.3 Spark History Server历史服务
2.3.4 独立集群模式的代码运行流程
2.4 Spark on YARN模式安装
2.4.1 安装Hadoop集群
2.4.2 格式化NameNode
2.4.3 启动Hadoop集群
2.4.4 配置Spark运行在YARN上
2.4.5 使用spark-submit提交代码
2.4.6 Spark on YARN模式代码运行流程
2.5 云服务模式Databricks介绍
2.5.1 Databricks基本概念
2.5.2 创建集群
2.5.3 数据集成
2.5.4 创建笔记本
2.5.5 运行案例
2.5.6 创建作业
2.5.7 运行作业
2.5.8 其他类型的作业
2.6 本章小结
第3章数据分析基础
3.1 什么是数据分析
3.2 Python数据分析工具介绍
3.2.1 数学计算库NumPy介绍
3.2.2 数据分析库Pandas介绍
3.3 数据分析图表介绍
3.4 Python数据可视化工具介绍
3.4.1 Matplotlib介绍
3.4.2 Seaborn介绍
3.4.3 Pyecharts介绍
3.4.4 三种可视化工具的对比
3.5 本章小结
第4章选择合适的开发工具
4.1 使用Databricks探索数据
4.1.1 使用笔记本开发代码
4.1.2 【实战案例】阿凡达电影评价分析
4.2 使用JupyterLab探索数据
4.2.1 创建虚拟环境
4.2.2 安装JupyterLab
4.2.3 集成Spark引擎
4.2.4 【实战案例】二手房数据分析
4.3 使用PyCharm探索数据
4.3.1 安装PyCharm
4.3.2 安装Python
4.3.3 创建PyCharm项目
4.3.4 PyCharm插件介绍
4.3.5 【实战案例】招聘信息数据分析
4.4 本章小结
第5章核心功能Spark Core
5.1 SparkContext介绍
5.2 RDD介绍
5.3 RDD的特性
5.4 RDD的创建
5.4.1 通过并行化本地集合创建RDD
5.4.2 通过外部文件系统数据创建RDD
5.4.3 通过已存在的RDD衍生新的RDD
5.5 RDD的算子
5.5.1 什么是算子
5.5.2 算子的分类
5.6 常用的Transformation算子
5.6.1 基本算子
5.6.2 二元组相关的算子
5.6.3 分区相关的算子
5.7 常用的Action算子
5.7.1 基本算子
5.7.2 Executor端执行的算子
5.8 RDD的持久化
5.8.1 缓存
5.8.2 缓存的特点
5.8.3 检查点
5.8.4 缓存和检查点的比较
5.9 共享变量
5.9.1 广播变量
5.9.2 累加器
5.10 【实战案例】共享单车租赁数据分析
5.10.1 数据集成
5.10.2 不同月份的租赁数据分析
5.10.3 不同时间的租赁数据分析
5.10.4 不同周期的租赁数据分析
5.10.5 不同维度的租赁数据分析
5.10.6 天气对租赁需求的影响
5.10.7 温度、风速对租赁需求的影响
5.11 本章小结
第6章结构化数据处理Spark SQL
6.1 Spark SQL概述
6.1.1 什么是Spark SQL
6.1.2 Spark SQL的特点
6.2 Spark SQL的发展历程
6.2.1 从HDFS到Hive
6.2.2 从Hive到Shark
6.2.3 从Shark到Spark SQL
6.3 SparkSession介绍
6.4 DataFrame概述
6.4.1 什么是DataFrame
6.4.2 DataFrame的组成
6.5 DataFrame的创建
6.5.1 通过RDD创建
6.5.2 通过Pandas的DataFrame创建
6.5.3 通过外部数据创建
6.6 DataFrame的基本操作
6.6.1 DSL语法风格
6.6.2 Spark Join策略介绍
6.6.3 SQL语法风格
6.7 DataFrame的函数操作
6.7.1 内置函数
6.7.2 窗口函数
6.7.3 自定义函数
6.8 DataFrame的数据清洗
6.8.1 删除重复行
6.8.2 缺失值的处理
6.9 DataFrame的持久化
6.10 DataFrame的数据写出
6.10.1 写出数据到文件
6.10.2 写出数据到数据库
6.11 【实战案例】世界杯数据可视化分析
6.11.1 世界杯成绩汇总信息分析
6.11.2 世界杯

书名	PySpark大数据分析实战/大数据科学丛书
分类
作者
出版社	机械工业出版社
下载
简介	内容推荐本书是PySpark大数据分析的入门读物，适合有一定Python基础的读者学习使用。本书基于最新版本的PySpark 3.4.x编写，全书共11章，系统地介绍了PySpark大数据分析的方法和技巧，内容涵盖了大数据的相关技术、PySpark的基本概念、Spark环境搭建、数据分析的基本概念及相关工具、开发工具的选择、Spark核心编程和Spark SQL操作等基础知识和核心技术，以及Spark流式数据处理、Spark机器学习库MLlib和基于协同过滤的图书推荐系统等高级主题。本书通过多个实战案例，带领读者掌握使用Python和Spark进行大数据分析的方法和技巧，从而提高读者的数据处理能力和业务价值。本书内容全面、示例丰富、讲解清晰，读者可以直接应用书中的案例。本书适合自学，也可作为计算机、软件工程、数据科学与大数据等专业的教学参考书，用于指导大数据分析编程实践，还可供相关技术人员参考。目录前言第1章初识PySpark 1.1 关于数据 1.2 了解Hadoop 1.2.1 分布式文件系统HDFS 1.2.2 分布式计算框架MapReduce 1.2.3 资源调度管理框架YARN 1.3 了解Hive 1.4 了解Spark 1.4.1 Spark是什么 1.4.2 Spark的发展历程 1.4.3 Spark的特点 1.4.4 Spark的生态系统 1.4.5 Spark的部署模式 1.4.6 Spark的运行架构 1.5 PySpark库介绍 1.6 本章小结第2章 Spark环境搭建 2.1 安装环境准备 2.1.1 操作系统准备 2.1.2 Java环境准备 2.1.3 Python环境准备 2.1.4 Spark安装包下载 2.1.5 Hadoop安装包下载 2.2 Spark本地模式安装 2.2.1 使用交互式pyspark运行代码 2.2.2 宽窄依赖和阶段划分 2.2.3 使用spark-submit提交代码 2.3 Spark独立集群安装 2.3.1 配置并启动Spark集群 2.3.2 使用spark-submit提交代码 2.3.3 Spark History Server历史服务 2.3.4 独立集群模式的代码运行流程 2.4 Spark on YARN模式安装 2.4.1 安装Hadoop集群 2.4.2 格式化NameNode 2.4.3 启动Hadoop集群 2.4.4 配置Spark运行在YARN上 2.4.5 使用spark-submit提交代码 2.4.6 Spark on YARN模式代码运行流程 2.5 云服务模式Databricks介绍 2.5.1 Databricks基本概念 2.5.2 创建集群 2.5.3 数据集成 2.5.4 创建笔记本 2.5.5 运行案例 2.5.6 创建作业 2.5.7 运行作业 2.5.8 其他类型的作业 2.6 本章小结第3章数据分析基础 3.1 什么是数据分析 3.2 Python数据分析工具介绍 3.2.1 数学计算库NumPy介绍 3.2.2 数据分析库Pandas介绍 3.3 数据分析图表介绍 3.4 Python数据可视化工具介绍 3.4.1 Matplotlib介绍 3.4.2 Seaborn介绍 3.4.3 Pyecharts介绍 3.4.4 三种可视化工具的对比 3.5 本章小结第4章选择合适的开发工具 4.1 使用Databricks探索数据 4.1.1 使用笔记本开发代码 4.1.2 【实战案例】阿凡达电影评价分析 4.2 使用JupyterLab探索数据 4.2.1 创建虚拟环境 4.2.2 安装JupyterLab 4.2.3 集成Spark引擎 4.2.4 【实战案例】二手房数据分析 4.3 使用PyCharm探索数据 4.3.1 安装PyCharm 4.3.2 安装Python 4.3.3 创建PyCharm项目 4.3.4 PyCharm插件介绍 4.3.5 【实战案例】招聘信息数据分析 4.4 本章小结第5章核心功能Spark Core 5.1 SparkContext介绍 5.2 RDD介绍 5.3 RDD的特性 5.4 RDD的创建 5.4.1 通过并行化本地集合创建RDD 5.4.2 通过外部文件系统数据创建RDD 5.4.3 通过已存在的RDD衍生新的RDD 5.5 RDD的算子 5.5.1 什么是算子 5.5.2 算子的分类 5.6 常用的Transformation算子 5.6.1 基本算子 5.6.2 二元组相关的算子 5.6.3 分区相关的算子 5.7 常用的Action算子 5.7.1 基本算子 5.7.2 Executor端执行的算子 5.8 RDD的持久化 5.8.1 缓存 5.8.2 缓存的特点 5.8.3 检查点 5.8.4 缓存和检查点的比较 5.9 共享变量 5.9.1 广播变量 5.9.2 累加器 5.10 【实战案例】共享单车租赁数据分析 5.10.1 数据集成 5.10.2 不同月份的租赁数据分析 5.10.3 不同时间的租赁数据分析 5.10.4 不同周期的租赁数据分析 5.10.5 不同维度的租赁数据分析 5.10.6 天气对租赁需求的影响 5.10.7 温度、风速对租赁需求的影响 5.11 本章小结第6章结构化数据处理Spark SQL 6.1 Spark SQL概述 6.1.1 什么是Spark SQL 6.1.2 Spark SQL的特点 6.2 Spark SQL的发展历程 6.2.1 从HDFS到Hive 6.2.2 从Hive到Shark 6.2.3 从Shark到Spark SQL 6.3 SparkSession介绍 6.4 DataFrame概述 6.4.1 什么是DataFrame 6.4.2 DataFrame的组成 6.5 DataFrame的创建 6.5.1 通过RDD创建 6.5.2 通过Pandas的DataFrame创建 6.5.3 通过外部数据创建 6.6 DataFrame的基本操作 6.6.1 DSL语法风格 6.6.2 Spark Join策略介绍 6.6.3 SQL语法风格 6.7 DataFrame的函数操作 6.7.1 内置函数 6.7.2 窗口函数 6.7.3 自定义函数 6.8 DataFrame的数据清洗 6.8.1 删除重复行 6.8.2 缺失值的处理 6.9 DataFrame的持久化 6.10 DataFrame的数据写出 6.10.1 写出数据到文件 6.10.2 写出数据到数据库 6.11 【实战案例】世界杯数据可视化分析 6.11.1 世界杯成绩汇总信息分析 6.11.2 世界杯
随便看	广告统计学基础危机解释与厦门突围/2009厦门社科丛书单人床上的忏悔虚拟的世界/酷科学丛书上帝不会掷骰子/酷科学丛书好玩的读心术/酷科学丛书不可思议的判决/酷科学丛书大人物的大秘密/酷科学丛书新托福写作30核心话题及真题回忆大全(附光盘) 原创阅读理解完形写作听力每日练+周周测(附光盘高2上) 心机/汪宛夫官场系列中国经典年画/民间经典文化书系河是时间的故乡(精) 反贪在行动中国经典石器/民间经典文化书系中国社会的一千个细节(2) 草莽刀客/蹚将刀客身影系列高山流水（古琴）心印(那些与西藏的前世今生) 乔斯坦·贾德名作(共3册) 蒋经国日记(1925-1949) 会展德语(附光盘口译与笔译会展策划与实务岗位资格考试系列教材) 一个投资高手的炒股心得升职(职场明规则) 花鸟画法(社区学校特色课程系列教材) UserLock v3.51 XTyFTP v7.2 龙帝IE小助手 v1.3 PodSpider Premium Edition v1.6.0.8 ChangeIP v1.1.1.2 TuTu下载 v1.0.6 Beta X-Scan v3.3 简体中文版 NeteaseBar 网易搜霸 v2.0.1808.2 Unipage Unifier v1.0 RC5 Alumni v0.1.4 b0701 简体中文版天涯明月刀叶南天捏脸数据帅脸永远百搭 v1.3 环世界墙壁标志v1.2MOD v2.64 腐烂国度2全自动BML40枪MOD v2.19 新华夏BOSS提醒器 v2.3 红警副本 v1.5 模拟人生4男性洒脱头发MOD v1.26 只狼自用多风格画面补丁 v2.17 GTA5中国铁路25T型列车客车火车MOD v2.4 祈云多键连发程序 v0.7 剑网3重制版正太镇墓兽捏脸数据 v2.3 golliwog golly gonad gondola gondolier gone goner gong gonna gonorrhoea [BT下载][企鹅人][第05集][WEB-MKV/0.33G][中文字幕][1080P][H265][流媒体][ZeroTV] [BT下载][企鹅人][第01-02集][WEB-MKV/2.69G][中文字幕][4K-2160P][H265][流媒体][ZeroTV] [BT下载][似锦][第35集][WEB-MP4/0.45G][国语配音/中文字幕][1080P][流媒体][ZeroTV] [BT下载][卿卿日常][全40集][WEB-MKV/29.15G][国语音轨/简繁英字幕][4K-2160P][H265][流媒体][MiniTV] [BT下载][妻子的浪漫旅行.国际季][第05集][WEB-MP4/1.92G][国语配音/中文字幕][1080P][流媒体][ZerTV] [BT下载][宗门里除了我都是卧底][第41集][WEB-MP4/0.20G][国语配音/中文字幕][1080P][流媒体][ZerTV] [BT下载][宗门里除了我都是卧底][第41集][WEB-MP4/0.35G][国语配音/中文字幕][4K-2160P][H265][流媒体][ZerTV] [BT下载][将军府来了个小厨娘之落难千金][短剧][第20集][WEB-MP4/0.13G][国语配音/中文字幕][1080P][流媒体][ZeroTV] [BT下载][廉石传奇][第01-06集][WEB-MKV/15.07G][国语配音/中文字幕][1080P][流媒体][ZeroTV] [BT下载][我本千金][第01-03集][WEB-MKV/2.64G][国语配音/中文字幕][1080P][流媒体][ZeroTV] 如何在开启人人影视下载完成提示音？人人影视开启下载完成提示音的方法怎么在potplayer播放器调整播放速度？potplayer播放器调整播放速度的方法如何制作电子相册视频？迅捷电子相册来帮你！ wma格式怎么转换成mp3？迅捷音频转换器将wma转换成mp3的方法怎么在搜狐影音播放器打开弹幕？搜狐影音播放器打开弹幕的方法完美游戏平台怎么下载安装游戏？闪电PDF编辑器创建表格后怎么删除单元格？如何在腾讯文档添加水印？腾讯文档添加水印的方法 win7升级win10数据是否会丢失？如何修改暴风影音影片同时下载最大任务数？