网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 Spark SQL入门与数据分析实践
分类 教育考试-大中专教材-大学教材
作者 杨虹 等
出版社 人民邮电出版社
下载
简介
编辑推荐
1、本书由Spark项目经验丰富的作者编写,作者之一为加米谷大数据公司张安文(国家大数据标准组成员、大数据架构师,大数据实战开发者),项目开发经验丰富。
2、本书主要讲Spark SQL的深度理论知识及实践,市面上关于Spark的书籍绝大多数讲整个Spark的知识,在有广度的情况下很难兼顾到深度。本书的特点是只关注Spark整套理论中的Spark SQL细分技术领域,关于Spark SQL的所有知识点会进行讲解,并有针对性的代码实践,从理论到实践让读者掌握深层次的Spark SQL技术,做到精通这门技术。
3、本书的读者更多会针对大数据领域数据分析方向的从业人员,使读者能够使用Spark SQL的知识来解决企业中遇到的问题,书中会有大量的实践内容,包括代码及相关项目中的实践,做到理论与实践相结合。
本书编写立足于浅显易懂而又不失深度,从0起步让读者了解、熟悉并掌握该技术,读者适用群体广泛。
内容推荐
Spark SQL是Spark用于处理结构化数据的一个模块。本书将由浅入深地讲解Spark SQL的基础知识、安装部署、编程基础、编程进阶、函数、性能调优技巧以及编程实践等知识。通过本书的学习,读者能够掌握SparkSQL核心技术。
本书可作为髙等学校大数据、计算机、统计相关专业大数据进阶课程的教材,也可供相关技术人员学习参考。
目录
第1章Spark SQL基础知识1
1.1Spark SQL背景1
1.2Spark SQL简介1
1.2.1Spark SQL的特点2
1.2.2Spark SQL的用途2
1.2.3Spark SQL的使用场景2
1.3为什么要学习Spark SQL3
1.4Spark SQL的原理3
1.4.1传统SQL的运行原理3
1.4.2Spark SQL的运行原理4
1.4.3Spark SQL的开发步骤6
1.5Spark SQL的运行模式7
1.5.1Local模式7
1.5.2Standalone模式7
1.5.3OnYarn模式8
小结11
习题11
第2章Spark SQL安装部署12
2.1运行环境说明12
2.1.1操作系统说明12
2.1.2Java版本说明12
2.1.3Scala版本说明12
2.1.4操作系统客户端工具说明13
2.2运行环境准备13
2.2.1依赖下载13
2.2.2安装Java14
2.2.3安装Scala14
2.3部署Spark SQL15
2.3.1下载安装包15
2.3.2单机部署15
2.3.3集群部署16
2.3.4运行环境参数21
小结23
习题23
第3章个Spark SQL应用程序24
3.1搭建开发环境24
3.1.1下载开发工具24
3.1.2安装IDEA25
3.2编写Spark SQL应用程序26
3.2.1Spark SQL应用程序的编写步骤27
3.2.2编写个Spark SQL应用程序27
3.2.3运行个Spark SQL应用程序38
小结44
习题44
第4章Spark SQL编程基础45
4.1RDD概述45
4.1.1RDD的优缺点45
4.1.2RDD模型介绍46
4.2深入剖析RDD47
4.2.1Spark相关专业术语定义47
4.2.2SparkApplication的构成55
4.2.3Spark运行的基本流程55
4.2.4Spark运行架构的特点56
4.2.5Spark核心原理58
4.3创建RDD62
4.4RDD操作65
4.4.1RDD转换操作65
4.4.2RDD控制操作72
4.4.3RDD行动操作73
4.5RDD持久化76
4.5.1持久化优势77
4.5.2持久化策略77
4.6RDD容错机制78
4.6.1lineage机制78
4.6.2checkpoint机制79
小结81
习题81
第5章Spark SQL编程进阶82
5.1概述82
5.2SparkSession82
5.2.1SparkSession介绍82
5.2.2创建SparkSession82
5.2.3SparkSession参数设置85
5.2.4SparkSession元信息读取85
5.3DataFrame85
5.3.1深入理解DataFrame86
5.3.2DataFrame的优缺点86
5.3.3DataFrame的演变过程87
5.3.4DataFrame的使用形式89
5.3.5创建DataFrame89
5.3.6DataFrame操作102
5.3.7DataFrame持久化114
5.3.8DataFrame实例117
5.4DataSet120
5.4.1深入理解DataSet120
5.4.2DataSet的优点120
5.4.3创建DataSet121
5.4.4DataSet操作121
5.4.5DataSet持久化122
5.5数据抽象的共性与区别122
5.5.13种数据抽象的共性123
5.5.23种数据抽象的区别123
5.6数据抽象的相互转换123
5.6.1将RDD转换为DataFrame124
5.6.2将DataFrame转换为DataSet124
5.6.3将DataSet转换为DataFrame124
小结125
习题125
第6章Spark SQL函数126
6.1用户定义函数126
6.1.1注册UDF126
6.1.2使用UDF126
6.1.3UDF实例127
6.2用户定义聚合函数128
6.2.1注册UDAF129
6.2.2使用UDAF129
6.2.3UDAF实例129
6.3常用内置函数131
小结131
习题131
第7章Spark SQL性能调优133
7.1概述133
7.1.1木桶原理133
7.1.2阿姆达尔定律134
7.2并行度调优134
7.2.1什么是并行度134
7.2.2为什么需要对并行度进行调优134
7.2.3如何合理设置并行度135
7.3内存调优135
7.3.1为什么需要对内存进行调优136
7.3.2如何充分使用内存136
7.4磁盘I/O调优137
7.4.1为什么需要对磁盘I/O进行调优137
7.4.2如何充分使用磁盘I/O138
7.5网络I/O调优139
7.5.1为什么需要对网络I/O进行调优139
7.5.2如何充分使用网络I/O139
小结140
习题140
第8章Spark SQL编程实践141
8.1Spark SQL实践一——学生考试信息分析141
8.2Spark SQL实践二——生鲜电商交易数据分析142
8.3Spark SQL实践三——四川省新生婴儿信息分析144
小结152
附录153
附录1常用内置函数153
附录1.1常用聚合函数153
附录1.2常用排序函数156
附录1.3常用字符串函数157
附录1.4常用时间函数162
附录1.5常用数学函数167
附录1.6常用集合函数170
附录1.7其他常用函数172
附录2常用高阶函数173
附录2.1transform函数173
附录2.2aggregate函数174
附录2.3filter函数174
附录2.4exists函数175
附录2.5zip_with函数175
附录3术语解释175
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/2/22 6:25:25