网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 PySpark大数据分析实战/大数据科学丛书
分类
作者
出版社 机械工业出版社
下载
简介
内容推荐
本书是PySpark大数据分析的入门读物,适合有一定Python基础的读者学习使用。本书基于最新版本的PySpark 3.4.x编写,全书共11章,系统地介绍了PySpark大数据分析的方法和技巧,内容涵盖了大数据的相关技术、PySpark的基本概念、Spark环境搭建、数据分析的基本概念及相关工具、开发工具的选择、Spark核心编程和Spark SQL操作等基础知识和核心技术,以及Spark流式数据处理、Spark机器学习库MLlib和基于协同过滤的图书推荐系统等高级主题。本书通过多个实战案例,带领读者掌握使用Python和Spark进行大数据分析的方法和技巧,从而提高读者的数据处理能力和业务价值。
本书内容全面、示例丰富、讲解清晰,读者可以直接应用书中的案例。本书适合自学,也可作为计算机、软件工程、数据科学与大数据等专业的教学参考书,用于指导大数据分析编程实践,还可供相关技术人员参考。
目录
前言
第1章 初识PySpark
1.1 关于数据
1.2 了解Hadoop
1.2.1 分布式文件系统HDFS
1.2.2 分布式计算框架MapReduce
1.2.3 资源调度管理框架YARN
1.3 了解Hive
1.4 了解Spark
1.4.1 Spark是什么
1.4.2 Spark的发展历程
1.4.3 Spark的特点
1.4.4 Spark的生态系统
1.4.5 Spark的部署模式
1.4.6 Spark的运行架构
1.5 PySpark库介绍
1.6 本章小结
第2章 Spark环境搭建
2.1 安装环境准备
2.1.1 操作系统准备
2.1.2 Java环境准备
2.1.3 Python环境准备
2.1.4 Spark安装包下载
2.1.5 Hadoop安装包下载
2.2 Spark本地模式安装
2.2.1 使用交互式pyspark运行代码
2.2.2 宽窄依赖和阶段划分
2.2.3 使用spark-submit提交代码
2.3 Spark独立集群安装
2.3.1 配置并启动Spark集群
2.3.2 使用spark-submit提交代码
2.3.3 Spark History Server历史服务
2.3.4 独立集群模式的代码运行流程
2.4 Spark on YARN模式安装
2.4.1 安装Hadoop集群
2.4.2 格式化NameNode
2.4.3 启动Hadoop集群
2.4.4 配置Spark运行在YARN上
2.4.5 使用spark-submit提交代码
2.4.6 Spark on YARN模式代码运行流程
2.5 云服务模式Databricks介绍
2.5.1 Databricks基本概念
2.5.2 创建集群
2.5.3 数据集成
2.5.4 创建笔记本
2.5.5 运行案例
2.5.6 创建作业
2.5.7 运行作业
2.5.8 其他类型的作业
2.6 本章小结
第3章 数据分析基础
3.1 什么是数据分析
3.2 Python数据分析工具介绍
3.2.1 数学计算库NumPy介绍
3.2.2 数据分析库Pandas介绍
3.3 数据分析图表介绍
3.4 Python数据可视化工具介绍
3.4.1 Matplotlib介绍
3.4.2 Seaborn介绍
3.4.3 Pyecharts介绍
3.4.4 三种可视化工具的对比
3.5 本章小结
第4章 选择合适的开发工具
4.1 使用Databricks探索数据
4.1.1 使用笔记本开发代码
4.1.2 【实战案例】阿凡达电影评价分析
4.2 使用JupyterLab探索数据
4.2.1 创建虚拟环境
4.2.2 安装JupyterLab
4.2.3 集成Spark引擎
4.2.4 【实战案例】二手房数据分析
4.3 使用PyCharm探索数据
4.3.1 安装PyCharm
4.3.2 安装Python
4.3.3 创建PyCharm项目
4.3.4 PyCharm插件介绍
4.3.5 【实战案例】招聘信息数据分析
4.4 本章小结
第5章 核心功能Spark Core
5.1 SparkContext介绍
5.2 RDD介绍
5.3 RDD的特性
5.4 RDD的创建
5.4.1 通过并行化本地集合创建RDD
5.4.2 通过外部文件系统数据创建RDD
5.4.3 通过已存在的RDD衍生新的RDD
5.5 RDD的算子
5.5.1 什么是算子
5.5.2 算子的分类
5.6 常用的Transformation算子
5.6.1 基本算子
5.6.2 二元组相关的算子
5.6.3 分区相关的算子
5.7 常用的Action算子
5.7.1 基本算子
5.7.2 Executor端执行的算子
5.8 RDD的持久化
5.8.1 缓存
5.8.2 缓存的特点
5.8.3 检查点
5.8.4 缓存和检查点的比较
5.9 共享变量
5.9.1 广播变量
5.9.2 累加器
5.10 【实战案例】共享单车租赁数据分析
5.10.1 数据集成
5.10.2 不同月份的租赁数据分析
5.10.3 不同时间的租赁数据分析
5.10.4 不同周期的租赁数据分析
5.10.5 不同维度的租赁数据分析
5.10.6 天气对租赁需求的影响
5.10.7 温度、风速对租赁需求的影响
5.11 本章小结
第6章 结构化数据处理Spark SQL
6.1 Spark SQL概述
6.1.1 什么是Spark SQL
6.1.2 Spark SQL的特点
6.2 Spark SQL的发展历程
6.2.1 从HDFS到Hive
6.2.2 从Hive到Shark
6.2.3 从Shark到Spark SQL
6.3 SparkSession介绍
6.4 DataFrame概述
6.4.1 什么是DataFrame
6.4.2 DataFrame的组成
6.5 DataFrame的创建
6.5.1 通过RDD创建
6.5.2 通过Pandas的DataFrame创建
6.5.3 通过外部数据创建
6.6 DataFrame的基本操作
6.6.1 DSL语法风格
6.6.2 Spark Join策略介绍
6.6.3 SQL语法风格
6.7 DataFrame的函数操作
6.7.1 内置函数
6.7.2 窗口函数
6.7.3 自定义函数
6.8 DataFrame的数据清洗
6.8.1 删除重复行
6.8.2 缺失值的处理
6.9 DataFrame的持久化
6.10 DataFrame的数据写出
6.10.1 写出数据到文件
6.10.2 写出数据到数据库
6.11 【实战案例】世界杯数据可视化分析
6.11.1 世界杯成绩汇总信息分析
6.11.2 世界杯
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/1/19 10:28:30