Spark实战/计算机科学先进技术译丛(美)彼得·泽斯维奇//马可·波纳奇机械工业出版社豆瓣PDF电子书bt网盘迅雷下载-霍普软件下载网

本书介绍了Spark应用程序及更高级应用的工作流程，主要从使用角度进行了描述，每个具体内容都有对应的代码。本书涵盖了Apache Spark和它丰富的API，构成Spark的组件（包括Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX），在Spark standalone、 Hadoop YARN以及 Mesos clusters上运行Spark应用程序的部署和安装。通过对应的实例全面、详细地介绍了整个Spark实战开发的流程。最后，还介绍了Spark的高级应用，包括Spark流应用程序及可扩展和快速的机器学习框架H2O。
本书可以作为高等院校计算机、软件工程、数据科学与大数据技术等专业的大数据课程材料，可用于指导Spark编程实践，也可供相关技术人员参考使用。

译者序
致谢
前言
关于本书
关于作者
关于封面
第1部分第1步
第1章 Apache Spark介绍
1.1 什么是Spark
1.1.1 Spark革命
1.1.2 MapReduce的缺点
1.1.3 Spark带来了什么有价值的东西
1.2 Spark组件
1.2.1 Spark核心
1.2.2 Spark SQL
1.2.3 Spark Streaming
1.2.4 Spark MLlib
1.2.5 Spark GraphX
1.3 Spark程序流
1.4 Spark生态系统
1.5 建立spark-in-action虚拟机
1.5.1 下载启动虚拟机
1.5.2 停止虚拟机
1.6 总结
第2章 Spark基础
2.1 使用spark-in-action虚拟机
2.1.1 复制Spark in Action GitHub存储库
2.1.2 找到java
2.1.3 用虚拟机的Hadoop安装
2.1.4 检查虚拟机的Spark安装
2.2 用Spark shell（壳）编写第一个Spark程序
2.2.1 启动Spark shell
2.2.2 第一个Spark代码示例
2.2.3 弹性分布式数据集的概念
2.3 基础RDD行为和转换
2.3.1 使用用map转换
2.3.2 使用distinct和flatMap转换
2.3.3 使用sample、take和takeSample操作获取RDD的元素
2.4 Double RDD功能
2.4.1 Double RDD基本统计
2.4.2 使用直方图可视化数据分布
2.4.3 近似求和与平均值
2.5 总结
第3章编写Spark应用程序
3.1 在Eclipse上生成一个新的Spark项目
3.2 开发应用程序
3.2.1 准备 GitHub档案数据
3.2.2 加载 JSON
3.2.3 从Eclipse运行应用
3.2.4 数据汇总
3.2.5 排除非公司员工
3.2.6 广播变量
3.2.7 使用整个数据集
3.3 提交应用程序
3.3.1 建立uberjar
3.3.2 调整应用程序
3.3.3 使用spark-submit
3.4 总结
第4章深入Spark API
4.1 使用键值对RDD
4.1.1 创建键值对RDD
4.1.2 键值对RDD的基本功能
4.2 了解数据分区和减少数据混排
4.2.1 使用spark数据分区器
4.2.2 了解和避免不必要的数据混排
4.2.3 RDD重新分区
4.2.4 在分区中映射数据
4.3 连接、排序、分组数据
4.3.1 连接数据
4.3.2 数据排序
4.3.3 数据分组
4.4 理解RDD依赖
4.4.1 RDD依赖和Spark执行
4.4.2 Spark阶段和任务
4.4.3 使用检查点保存Spark谱系
4.5 使用累加器和广播变量与spark执行器进行沟通
4.5.1 使用累加器从执行器获取数据
4.5.2 使用广播变量将数据发送数据到执行器
4.6 总结
第2部分认识Spark家族
第5章 Spark SQL查询
5.1 使用DataFrames
5.1.1 从RDD创建DataFrames
5.1.2 DataFrame API 基础知识
5.1.3 用SQL函数执行数据计算
5.1.4 使用缺失值
5.1.5 将DataFrames转换为RDD
5.1.6 分组和连接数据
5.1.7 执行连接
5.2 超越DataFrames：引入DataSet
5.3 使用SQL命令
5.3.1 表目录和Hive metastore
5.3.2 执行SQL查询
5.3.3 通过Thrift服务器连接到Spark SQL
5.4 保存并加载DataFrame数据
5.4.1 内置数据源
5.4.2 保存数据
5.4.3 加载数据
5.5 Catalyst优化器
5.6 Tungsten性能改进
5.7 总结
第6章使用Spark Streaming提取数据
6.1 编写Spark Streaming应用程序
6.1.1 介绍示例程序
6.1.2 创建流上下文
6.1.3 创建离散流
6.1.4 使用离散流
6.1.5 把结果保存到文档
6.1.6 启动和停止流计算
6.1.7 随着保存计算状态
6.1.8 使用窗口操作进行限制计算
6.1.9 检查其他内置输入流
6.2 使用外部数据源
6.2.1 设置kafka
6.2.2 使用kafka更改流应用程序
6.3 Spark Streaming任务的性能
6.3.1 获得良好的性能
6.3.2 实现容错
6.4 结构化流
6.4.1 创建流式DataFrame
6.4.2 输出流数据
6.4.3 检查流执行
6.4.4 结构化流的未来方向
6.5 总结
第7章使用MLlib变聪明
7.1 机器学习简介
7.1.1 机器学习的定义
7.1.2 机器学习算法分类
7.1.3 使用Spark进行机器学习
7.2 Spark中的线性代数
7.2.1 本地向量与矩阵实现
7.2.2 分布式矩阵
7.3 线性回归
7.3.1 有关线性回归
7.3.2 简单的线性回归
7.3.3 将模型扩展到多元线性回归
7.4 分析和准备数据
7.4.1 分析数据分布
7.4.2 分析列余弦相似性
7.4.3 协方差矩阵的计算
7.4

书名	Spark实战/计算机科学先进技术译丛
分类
作者	(美)彼得·泽斯维奇//马可·波纳奇
出版社	机械工业出版社
下载
简介	内容推荐本书介绍了Spark应用程序及更高级应用的工作流程，主要从使用角度进行了描述，每个具体内容都有对应的代码。本书涵盖了Apache Spark和它丰富的API，构成Spark的组件（包括Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX），在Spark standalone、 Hadoop YARN以及 Mesos clusters上运行Spark应用程序的部署和安装。通过对应的实例全面、详细地介绍了整个Spark实战开发的流程。最后，还介绍了Spark的高级应用，包括Spark流应用程序及可扩展和快速的机器学习框架H2O。本书可以作为高等院校计算机、软件工程、数据科学与大数据技术等专业的大数据课程材料，可用于指导Spark编程实践，也可供相关技术人员参考使用。目录译者序致谢前言关于本书关于作者关于封面第1部分第1步第1章 Apache Spark介绍 1.1 什么是Spark 1.1.1 Spark革命 1.1.2 MapReduce的缺点 1.1.3 Spark带来了什么有价值的东西 1.2 Spark组件 1.2.1 Spark核心 1.2.2 Spark SQL 1.2.3 Spark Streaming 1.2.4 Spark MLlib 1.2.5 Spark GraphX 1.3 Spark程序流 1.4 Spark生态系统 1.5 建立spark-in-action虚拟机 1.5.1 下载启动虚拟机 1.5.2 停止虚拟机 1.6 总结第2章 Spark基础 2.1 使用spark-in-action虚拟机 2.1.1 复制Spark in Action GitHub存储库 2.1.2 找到java 2.1.3 用虚拟机的Hadoop安装 2.1.4 检查虚拟机的Spark安装 2.2 用Spark shell（壳）编写第一个Spark程序 2.2.1 启动Spark shell 2.2.2 第一个Spark代码示例 2.2.3 弹性分布式数据集的概念 2.3 基础RDD行为和转换 2.3.1 使用用map转换 2.3.2 使用distinct和flatMap转换 2.3.3 使用sample、take和takeSample操作获取RDD的元素 2.4 Double RDD功能 2.4.1 Double RDD基本统计 2.4.2 使用直方图可视化数据分布 2.4.3 近似求和与平均值 2.5 总结第3章编写Spark应用程序 3.1 在Eclipse上生成一个新的Spark项目 3.2 开发应用程序 3.2.1 准备 GitHub档案数据 3.2.2 加载 JSON 3.2.3 从Eclipse运行应用 3.2.4 数据汇总 3.2.5 排除非公司员工 3.2.6 广播变量 3.2.7 使用整个数据集 3.3 提交应用程序 3.3.1 建立uberjar 3.3.2 调整应用程序 3.3.3 使用spark-submit 3.4 总结第4章深入Spark API 4.1 使用键值对RDD 4.1.1 创建键值对RDD 4.1.2 键值对RDD的基本功能 4.2 了解数据分区和减少数据混排 4.2.1 使用spark数据分区器 4.2.2 了解和避免不必要的数据混排 4.2.3 RDD重新分区 4.2.4 在分区中映射数据 4.3 连接、排序、分组数据 4.3.1 连接数据 4.3.2 数据排序 4.3.3 数据分组 4.4 理解RDD依赖 4.4.1 RDD依赖和Spark执行 4.4.2 Spark阶段和任务 4.4.3 使用检查点保存Spark谱系 4.5 使用累加器和广播变量与spark执行器进行沟通 4.5.1 使用累加器从执行器获取数据 4.5.2 使用广播变量将数据发送数据到执行器 4.6 总结第2部分认识Spark家族第5章 Spark SQL查询 5.1 使用DataFrames 5.1.1 从RDD创建DataFrames 5.1.2 DataFrame API 基础知识 5.1.3 用SQL函数执行数据计算 5.1.4 使用缺失值 5.1.5 将DataFrames转换为RDD 5.1.6 分组和连接数据 5.1.7 执行连接 5.2 超越DataFrames：引入DataSet 5.3 使用SQL命令 5.3.1 表目录和Hive metastore 5.3.2 执行SQL查询 5.3.3 通过Thrift服务器连接到Spark SQL 5.4 保存并加载DataFrame数据 5.4.1 内置数据源 5.4.2 保存数据 5.4.3 加载数据 5.5 Catalyst优化器 5.6 Tungsten性能改进 5.7 总结第6章使用Spark Streaming提取数据 6.1 编写Spark Streaming应用程序 6.1.1 介绍示例程序 6.1.2 创建流上下文 6.1.3 创建离散流 6.1.4 使用离散流 6.1.5 把结果保存到文档 6.1.6 启动和停止流计算 6.1.7 随着保存计算状态 6.1.8 使用窗口操作进行限制计算 6.1.9 检查其他内置输入流 6.2 使用外部数据源 6.2.1 设置kafka 6.2.2 使用kafka更改流应用程序 6.3 Spark Streaming任务的性能 6.3.1 获得良好的性能 6.3.2 实现容错 6.4 结构化流 6.4.1 创建流式DataFrame 6.4.2 输出流数据 6.4.3 检查流执行 6.4.4 结构化流的未来方向 6.5 总结第7章使用MLlib变聪明 7.1 机器学习简介 7.1.1 机器学习的定义 7.1.2 机器学习算法分类 7.1.3 使用Spark进行机器学习 7.2 Spark中的线性代数 7.2.1 本地向量与矩阵实现 7.2.2 分布式矩阵 7.3 线性回归 7.3.1 有关线性回归 7.3.2 简单的线性回归 7.3.3 将模型扩展到多元线性回归 7.4 分析和准备数据 7.4.1 分析数据分布 7.4.2 分析列余弦相似性 7.4.3 协方差矩阵的计算 7.4
随便看	很老很老的老偏方--对症药茶药酒药膳方/大彩生活读库髋部骨折(精) 四川省社会艺术水平钢琴考级演奏指南(附光盘五至七级2012版) 四川省社会艺术水平钢琴考级演奏指南(附光盘二至四级2012版) 四川省社会艺术水平钢琴考级演奏指南(八至十级2012版) 365夜寓言故事(附光盘)/亲亲乐读系列远古的霸主--恐龙翼龙鱼龙/远古生命的探索在家做豆腐豆浆豆花/健康爱家系列使用频率最高的7000德语单词实战擒庄股票易占交易系统 SPSS19.0<中文版>在生物统计中的应用(第3版) 考古文物历史文化流民问题与近代社会/近代国家与社会丛书宏福速记(秘书证书考试参考教材) 人的全面发展与社会主义核心价值体系建设研究高校思想政治理论课教学管理机制创新的理论与实践行走宣城张易生水彩画新作(精) 红十字--近代战争灾难中的人道主义/红十字文化丛书人文科学与现代性/新人文丛书侦探一上来就死了天国恶魔(星际争霸) 开往伍德斯托克的末班车/莫尔斯探长系列棺材舞者 DVD转3GP转换器 DVD转iPod转换器 DVD转PSP转换器莫顿企业文件管理软件高校科研管理系统上海世博会网上游 123 Flash Chat Software for Mac 莫顿知识管理系统胜威客户电话管理系统 MOA外贸客户开发与管理系统我的世界1.7.2MOD龙骑士整合包 v2.5 上古卷轴5简单的布眼罩MOD v2.3 求生之路2火箭逃离地图 v2.4 真三国无双8朴素王元姫格子肚兜MOD v2.6 模拟人生4吊带棉质连衣裙MOD v2.34 实况足球2016七项修改器 v1.0-v1.07 无人深空减少起飞钚元素消耗MOD v2.3 饥荒海难神棍MOD v2.3 怪物猎人世界冰原力量与技术任务MOD v1.49 鬼鬼QQ游戏连连看机器人 v1.4 doctor doctorate doctor's orders doctrinaire doctrinal doctrine docudrama document documentary documentation [BT下载][樱桃琥珀][第19-20集][WEB-MP4/2.12G][国语配音/中文字幕][4K-2160P][H265][流媒体][DeePTV] [BT下载][樱桃琥珀][第19-20集][WEB-MP4/2.12G][国语配音/中文字幕][4K-2160P][H265][流媒体][ColorTV] [BT下载][龙族.第二季][第04集][WEB-MKV/0.11G][国语配音/中文字幕][1080P][H265][流媒体][DeePTV] [BT下载][龙族.第二季][第04集][WEB-MKV/0.31G][国语配音/中文字幕][4K-2160P][H265][流媒体][DeePTV] [BT下载][樱桃琥珀][第18-19集][WEB-MKV/3.74G][国语音轨/简繁英字幕][1080P][Netflix][流媒体][DeePTV] [BT下载][一饭封神][第06集][WEB-MP4/0.46G][国语配音/中文字幕][1080P][流媒体][ColorTV] [BT下载][战至巅峰.第四季][第01集][WEB-MKV/0.44G][国语配音/中文字幕][1080P][H265][流媒体][DeePTV] [BT下载][战至巅峰.第四季][第01集][WEB-MKV/1.92G][国语配音/中文字幕][4K-2160P][H265][流媒体][DeePTV] [BT下载][扫毒风暴][第28集][WEB-MP4/3.22G][国语配音/中文字幕][1080P][H265][流媒体][ColorTV] [BT下载][斗罗大陆2：绝世唐门][第111集][WEB-MP4/0.54G][国语配音/中文字幕][1080P][流媒体][ColorTV] 《火影忍者手游》11月3日版本更新讲解暴怒带土、疾风咒印佐助被削《原神》冒险家试炼第一关活动指南《DOTA2》TI11本子第二部分饰品展示冰女身心与不朽2视频一览《使命召唤19现代战争2》卡斯托夫762配装视频推荐《女神异闻录5皇家版》全流程图文攻略全COOP收集图文攻略《原神》3.2版心草万菲全能队伍搭配分享《原神》雷电将军+纳西妲挂雷超激化配队《暖雪》烬梦DLC隐藏见闻录获取教程莫闻天的手记怎么获得《暖雪》烬梦DLC万剑流Build讲解《原神》尘歌壶童话物语精灵之乡搭配分享