网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 Spark大数据处理与分析
分类 教育考试-考试-计算机类
作者 雷擎
出版社 清华大学出版社
下载
简介
编辑推荐
介绍大数据发展趋势和基于Spark的生态环境,全面系统地提供Spark开发的基础知识,提供基于Docker容器开发环境和编程实例,引导Spark技术学习者快速入门,系统的掌握Spark的编程技术。
内容推荐
本书对Spark应用程序开发的基本概念和技术进行了系统的介绍,并通过简单易懂的实例说明了其具体实现过程。通过本书的学习,读者可以掌握Spark编程技术的基本概念、原理和编程方法,通过灵活的实践运用,能够进行应用程序的实际开发。本书适用于Spark程序设计的初学者,可作为高等学校计算机专业的教材,也可作为Spark程序设计的培训教材。
目录
章Spark生态环境/1
1.1平台设计1
1.2Spark简介5
1.2.1技术特性6
1.2.2数据格式9
1.2.3编程语言12
1.3虚拟环境*18
1.3.1发展历史19
1.3.2技术特征20
1.3.3技术架构21
1.3.4管理命令24
1.4HBase技术*30
1.4.1系统架构31
1.4.2存储机制33
1.4.3常用命令35
1.5环境部署46
1.6小结46
第2章理解Spark/47
2.1数据处理48
2.1.1MapReduce48
2.1.2工作机制51
2.2认识RDD54
2.3操作RDD57
2.3.1转换57
2.3.2动作62
2.4Scala编程66
2.4.1面向对象编程66
2.4.2函数式编程83
2.4.3集合类88
2.5案例分析96
2.5.1启动交换界面97
2.5.2SparkContext和SparkSession98
2.5.3加载数据99
2.5.4应用操作100
2.5.5缓存处理103
2.6小结106
第3章键值对与分区/107
3.1键值对RDD107
3.1.1创建108
3.1.2转换111
3.1.3动作123
3.2分区和洗牌124
3.2.1分区125
3.2.2洗牌131
3.3共享变量133
3.3.1广播变量133
3.3.2累加器136
3.4Scala不错语法139
3.4.1高阶函数139
3.4.2泛型类145
3.4.3隐式转换150
3.5案例分析152
3.5.1检查事件数据153
3.5.2reduceByKey和groupByKey155
3.5.3三种连接转换159
3.5.4执行几个动作161
3.5.5跨节点分区162
3.6小结164
第4章关系型数据处理/166
4.1SparkSQL概述167
4.1.1Catalyst优化器168
4.1.2DataFrame与DataSet169
4.1.3创建结构化数据171
4.2结构化数据操作181
4.2.1选取列182
4.2.2选择语句(select、selectExpr)184
4.2.3操作列(withColumn、withColumnRenamed、drop)186
4.2.4条件语句(where、filter)187
4.2.5去除重复(distinct、dropDuplicates)189
4.2.6排序语句(sort、orderBy)190
4.2.7操作多表(union、join)191
4.2.8聚合操作198
4.2.9用户定义函数202
4.3案例分析204
4.3.1创建DataFrame204
4.3.2操作DataFrame209
4.3.3按年份组合211
4.4小结213
第5章数据流的操作/214
5.1处理范例215
5.1.1至少一次215
5.1.2最多一次216
5.1.3恰好一次216
5.2理解时间218
5.3离散化流219
5.3.1一个例子220
5.3.2StreamingContext222
5.3.3输入流223
5.4离散流的操作228
5.4.1基本操作229
5.4.2transform230
5.4.3连接操作232
5.4.4SQL操作232
5.4.5输出操作233
5.4.6窗口操作235
5.4.7有状态转换237
5.5结构化流242
5.5.1一个例子242
5.5.2工作机制245
5.5.3窗口操作251
5.6案例分析255
5.6.1探索数据256
5.6.2创建数据流260
5.6.3转换操作267
5.6.4窗口操作268
5.7小结271
第6章分布式的图处理/272
6.1理解图的概念272
6.2图并行系统276
6.3一个例子279
6.4创建和探索图283
6.4.1属性图284
6.4.2构建器287
6.4.3创建图288
6.4.4探索图296
6.5图运算符298
6.5.1属性运算符300
6.5.2结构运算符301
6.5.3联结运算符305
6.5.4点和边操作311
6.5.5收集相邻信息314
6.6Pregel**317
6.6.1一个例子318
6.6.2Pregel运算符320
6.6.3标签传播算法321
6.6.4PageRank算法322
6.7案例分析325
6.7.1定义点326
6.7.2定义边328
6.7.3创建图329
6.7.4PageRank331
6.7.5Pregel332
6.8小结334
第7章机器学习*/335
7.1MLlib335
7.2数据类型336
7.2.1局部向量336
7.2.2标签向量337
7.2.3局部矩阵338
7.2.4分布矩阵340
7.3统计基础344
7.3.1相关分析344
7.3.2假设检验346
7.3.3摘要统计347
7.4算法概述348
7.4.1有监督学习349
7.4.2无监督学习350
7.4.3多种算法介绍351
7.4.4协同过滤353
7.5交叉验证354
7.6机器学习管道**355
7.6.1概念介绍356
7.6.2Spark管道357
7.6.3模型选择364
7.7实例分析371
7.7.1预测用户偏好371
7.7.2分析飞行延误377
7.8小结384
第8章特征工程**/385
8.1特征提取385
8.1.1TF-IDF385
8.1.2Word2Vec388
8.1.3CountVectorizer390
8.2特征转换392
8.2.1Tokenizer392
8.2.2StopWordsRemover394
8.2.3n-gram395
8.2.4Binarizer396
8.2.5PCA396
8.2.6PolynomialExpansion397
8.2.7DiscreteCosine
Transform398
8.2.8StringIndexer400
8.2.9IndexToString402
8.2.10OneHotEncoder405
8.2.11VectorIndexer406
8.2.12Interaction408
8.2.13Normalizer411
8.2.14StandardScaler413
8.2.15MinMaxScaler415
8.2.16MaxAbsScaler417
8.2.17Bucketizer418
8.2.18ElementwiseProduct419
8.2.19SQLTransformer420
8.2.20VectorAssembler421
8.2.21QuantileDiscretizer423
8.2.22Imputer424
8.3特征选择426
8.3.1VectorSlicer426
8.3.2RFormula428
8.3.3ChiSqSelector430
8.4局部敏感哈希433
8.4.1局部敏感哈希操作433
8.4.2局部敏感哈希算法434
8.5小结439
第9章算法汇总**/440
9.1决策树和集成树440
9.1.1决策树440
9.1.2集成树447
9.2分类和回归461
9.2.1线性方法462
9.2.2分类463
9.2.3回归487
9.3聚集505
9.3.1K均值505
9.3.2潜在狄利克雷分配506
9.3.3二分K均值509
9.3.4高斯混合模型510
9.4小结5120章Spark应用程序**/513
10.1SparkContext与SparkSession513
10.2构建应用519
10.3部署应用527
10.3.1集群架构531
10.3.2集群管理534
10.4小结542
1章监视和优化**/543
11.1工作原理543
11.1.1依赖关系544
11.1.2划分阶段547
11.1.3实例分析548
11.2洗牌机制553
11.3内存管理555
11.4优化策略558
11.4.1数据序列化558
11.4.2内存调优559
11.4.3其他方面561
11.5最佳实践563
11.5.1系统配置563
11.5.2程序调优569
11.6案例分析576
11.6.1执行模型576
11.6.2监控界面578
11.6.3调试优化583
11.7小结585
参考文献/586
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/3/29 22:26:48