Spark GraphX实战(精)(美)迈克尔·S.马拉克//罗宾·伊斯特电子工业出版社豆瓣PDF电子书bt网盘迅雷下载-霍普软件下载网

序言

致谢

关于本书

关于封面插图

第1部分 Spark和图

1 两项重要的技术：Spark和图

1.1 Spark：超越Hadoop MapReduce

1.1.1 模糊的大数据定义

1.1.2 Hadoop：Spark之前的世界

1.1.3 Spark：内存中的 MapReduce处理

1.2 图：挖掘关系中的含义

1.2.1 图的应用

1.2.2 图数据的类型

1.2.3 普通的关系型数据库在图方面的不足

1.3 把快如闪电的图处理放到一起：Spark GraphX

1.3.1 图的属性：增加丰富性

1.3.2 图的分区：当图变为大数据集时

1.3.3 GraphX允许选择：图并行还是数据并行

1.3.4 GraphX支持的各种数据处理方式

1.3.5 GraphX与其他图系统

1.3.6 图存储：分布式文件存储与图数据库

1.4 小结

2 GraphX快速入门

2.1 准备开始并准备数据

2.2 用Spark Shell做GraphX交互式查询

2.3 PageRank算法示例

2.4 小结

3 基础知识

3.1 Scala-Spark的原生编程语言

3.1.1 Scala的理念：简洁和表现力

3.1.2 函数式编程

3.1.3 类型推断

3.1.4 类的声明

3.1.5 map和reduce

3.1.6 一切皆是“函数”

3.1.7 与Java的互操作性

3.2 Spark

3.2.1 分布式内存数据：RDD

3.2.2 延迟求值

3.2.3 集群要求和术语解释

3.2.4 序列化

3.2.5 常用的RDD操作

3.2.6 Spark和SBT初步

3.3 图术语解释

3.3.1 基础

3.3.2 RDF图和属性图

3.3.3 邻接矩阵

3.3.4 图查询系统

3.4 小结

第2部分连接顶点

4 GraphX基础

4.1 顶点对象与边对象

4.2 mapping操作

4.2.1 简单的图转换

4.2.2 Map/Reduce

4.2.3 迭代的Map/Reduce

4.3 序列化/反序列化

4.3.1 读/写二进制格式的数据

4.3.2 JSON格式

4.3.3 Gephi可视化软件的GEXF格式

4.4 图生成

4.4.1 确定的图

4.4.2 随机图

4.5 Pregel API

4.6 小结

5 内置图算法

5.1 找出重要的图节点：网页排名

5.1.1 PageRank算法解释

5.1.2 在GraphX中使用PageRank

5.1.3 个性化的PageRank

5.2 衡量连通性：三角形数

5.2.1 三角形关系的用法

5.2.2 Slashdot朋友和反对者的用户关系示例

5.3 查找最少的跳跃：最短路径

5.4 找到孤岛人群：连通组件

5.4.1 预测社交圈子

5.5 受欢迎的回馈：增强连通组件

5.6 社区发现算法：标签传播

5.7 小结

6 其他有用的图算法

6.1 你自己的GPS：有权值的最短路径

6.2 旅行推销员问题：贪心算法

6.3 路径规划工具：最小生成树

6.3.1 基于Word2Vec的推导分类法和最小生成树

6.4 小结

7 机器学习

7.1 监督、无监督、半监督学习

7.2 影片推荐：SVDPlusPlus

7.2.1 公式解释

7.3 在MLlib中使用GraphX

7.3.1 主题聚类：隐含狄利克雷分布

7.3.2 垃圾信息检测：LogisticRegressionWithSGD

7.3.3 使用幂迭代聚类进行图像分割（计算机视觉）

7.4 穷人（简化版）的训练数据：基于图的半监督学习

7.4.1 K近邻图构建

7.4.2 半监督学习标签传播算法

7.5 小结

第3部分更多内容

8 缺失的算法

8.1 缺失的基本图操作

8.1.1 通用意义上的子图

8.1.2 图合并

8.2 读取RDF图文件

8.2.1 顶点匹配以及图构建

8.2.2 使用IndexedRDD和RDD HashMap来提升性能

8.3 穷人（简化版）的图同构：找到Wikipedia缺失的信息

8.4 全局聚类系数：连通性比较

8.5 小结

9 性能和监控

9.1 监控Spark应用

9.1.1 Spark如何运行应用

9.1.2 用Spark监控来了解你的应用的运行时信息

9.1.3 history server

9.2 Spark配置

9.2.1 充分利用全部CPU资源

9.3 Spark性能调优

9.3.1 用缓存和持久化来加速Spark

9.3.2 checkpointing

9.3.3 通过序列化降低内存压力

9.4 图分区

9.5 小结

10 更多语言以及工具

10.1 在GraphX中使用除Scala外的其他语言

10.1.1 在GraphX中使用Java 7

10.1.2 在GraphX中使用Java 8

10.1.3 未来GraphX是否会支持Python或者R

10.2 其他可视化工具：Apache Zeppelin和d3.js

10.3 类似一个数据库：Spark Job Server

10.3.1 示例：查询Slashdot好友的分离程度

10.3.2 更多使用Spark Job Server的例子

10.4 通过GraphFrames在Spark的图上使用SQL

10.4.1 GraphFrames和GraphX的互操作性

10.4.2 使用 SQL进行便捷、高性能的操作

10.4.3 使用 Cypher语言的子集来进行顶点搜索

10.4.4 稍微复杂一些的YAGO图同构搜索

10.5 小结

附录A 安装Spark

附录B Gephi可视化软件

附录C 更多资源

附录D 本书中的Scala小贴士

书名	Spark GraphX实战(精)
分类
作者	(美)迈克尔·S.马拉克//罗宾·伊斯特
出版社	电子工业出版社
下载
简介	编辑推荐 GraphX是Apache Spark的一个功能强大的图处理APl，用于分析大型数据集。GraphX为你提供了前所未有的速度和能力，可用于运行大规模并行图算法和机器学习算法。由美国迈克尔·S.马拉克和罗宾·伊斯特所合著、时金魁和黄光远共同翻译的《Spark GraphX实战(精)》一开始描绘了图计算的应用场景，提供了一些基础示例教你如何交互式地使用GraphX。本书还清晰地介绍了如何从常规数据构建大图，然后研究了一些问题及如何用图算法和图架构解决这些问题。通过阅读本书，你将了解到用于增强应用程序的实用技术及如何将机器学习算法应用于图数据。本书包括：◎了解图技术；◎使用GraDhX API；◎为大图开发图算法；◎用于图的机器学习算法；◎图的可视化。通过阅读本书，即使读者没有Spark和Scala基础也可以很自然地写出应用代码。内容推荐由美国迈克尔·S.马拉克和罗宾·伊斯特所合著、时金魁和黄光远共同翻译的《Spark GraphX实战(精)》是一本Spark GraphX入门书籍。前5章为基础内容，即使读者对Spark、GraphX、Scala不熟悉，也能快速上手；后5章为图计算进阶，主要是图算法和机器学习算法的相关内容。专门讲图计算的书很少，本书在第2、3、4章介绍了图的基础知识、GraphX基础知识、GraphX内置的图算法。第6章到第10章，主要介绍了GraphX之外的图算法、机器学习、图工具、GraphX监控和优化、GraphX的能力增强等实用技能。第9章和第10章主要介绍性能调优和监控，主要面向生产环境，有不少可以借鉴的技巧。本书面向对图计算感兴趣的读者，旨在帮助读者掌握Spark GraphX的相关知识及其应用。目录序言致谢关于本书关于封面插图第1部分 Spark和图 1 两项重要的技术：Spark和图 1.1 Spark：超越Hadoop MapReduce 1.1.1 模糊的大数据定义 1.1.2 Hadoop：Spark之前的世界 1.1.3 Spark：内存中的 MapReduce处理 1.2 图：挖掘关系中的含义 1.2.1 图的应用 1.2.2 图数据的类型 1.2.3 普通的关系型数据库在图方面的不足 1.3 把快如闪电的图处理放到一起：Spark GraphX 1.3.1 图的属性：增加丰富性 1.3.2 图的分区：当图变为大数据集时 1.3.3 GraphX允许选择：图并行还是数据并行 1.3.4 GraphX支持的各种数据处理方式 1.3.5 GraphX与其他图系统 1.3.6 图存储：分布式文件存储与图数据库 1.4 小结 2 GraphX快速入门 2.1 准备开始并准备数据 2.2 用Spark Shell做GraphX交互式查询 2.3 PageRank算法示例 2.4 小结 3 基础知识 3.1 Scala-Spark的原生编程语言 3.1.1 Scala的理念：简洁和表现力 3.1.2 函数式编程 3.1.3 类型推断 3.1.4 类的声明 3.1.5 map和reduce 3.1.6 一切皆是“函数” 3.1.7 与Java的互操作性 3.2 Spark 3.2.1 分布式内存数据：RDD 3.2.2 延迟求值 3.2.3 集群要求和术语解释 3.2.4 序列化 3.2.5 常用的RDD操作 3.2.6 Spark和SBT初步 3.3 图术语解释 3.3.1 基础 3.3.2 RDF图和属性图 3.3.3 邻接矩阵 3.3.4 图查询系统 3.4 小结第2部分连接顶点 4 GraphX基础 4.1 顶点对象与边对象 4.2 mapping操作 4.2.1 简单的图转换 4.2.2 Map/Reduce 4.2.3 迭代的Map/Reduce 4.3 序列化/反序列化 4.3.1 读/写二进制格式的数据 4.3.2 JSON格式 4.3.3 Gephi可视化软件的GEXF格式 4.4 图生成 4.4.1 确定的图 4.4.2 随机图 4.5 Pregel API 4.6 小结 5 内置图算法 5.1 找出重要的图节点：网页排名 5.1.1 PageRank算法解释 5.1.2 在GraphX中使用PageRank 5.1.3 个性化的PageRank 5.2 衡量连通性：三角形数 5.2.1 三角形关系的用法 5.2.2 Slashdot朋友和反对者的用户关系示例 5.3 查找最少的跳跃：最短路径 5.4 找到孤岛人群：连通组件 5.4.1 预测社交圈子 5.5 受欢迎的回馈：增强连通组件 5.6 社区发现算法：标签传播 5.7 小结 6 其他有用的图算法 6.1 你自己的GPS：有权值的最短路径 6.2 旅行推销员问题：贪心算法 6.3 路径规划工具：最小生成树 6.3.1 基于Word2Vec的推导分类法和最小生成树 6.4 小结 7 机器学习 7.1 监督、无监督、半监督学习 7.2 影片推荐：SVDPlusPlus 7.2.1 公式解释 7.3 在MLlib中使用GraphX 7.3.1 主题聚类：隐含狄利克雷分布 7.3.2 垃圾信息检测：LogisticRegressionWithSGD 7.3.3 使用幂迭代聚类进行图像分割（计算机视觉） 7.4 穷人（简化版）的训练数据：基于图的半监督学习 7.4.1 K近邻图构建 7.4.2 半监督学习标签传播算法 7.5 小结第3部分更多内容 8 缺失的算法 8.1 缺失的基本图操作 8.1.1 通用意义上的子图 8.1.2 图合并 8.2 读取RDF图文件 8.2.1 顶点匹配以及图构建 8.2.2 使用IndexedRDD和RDD HashMap来提升性能 8.3 穷人（简化版）的图同构：找到Wikipedia缺失的信息 8.4 全局聚类系数：连通性比较 8.5 小结 9 性能和监控 9.1 监控Spark应用 9.1.1 Spark如何运行应用 9.1.2 用Spark监控来了解你的应用的运行时信息 9.1.3 history server 9.2 Spark配置 9.2.1 充分利用全部CPU资源 9.3 Spark性能调优 9.3.1 用缓存和持久化来加速Spark 9.3.2 checkpointing 9.3.3 通过序列化降低内存压力 9.4 图分区 9.5 小结 10 更多语言以及工具 10.1 在GraphX中使用除Scala外的其他语言 10.1.1 在GraphX中使用Java 7 10.1.2 在GraphX中使用Java 8 10.1.3 未来GraphX是否会支持Python或者R 10.2 其他可视化工具：Apache Zeppelin和d3.js 10.3 类似一个数据库：Spark Job Server 10.3.1 示例：查询Slashdot好友的分离程度 10.3.2 更多使用Spark Job Server的例子 10.4 通过GraphFrames在Spark的图上使用SQL 10.4.1 GraphFrames和GraphX的互操作性 10.4.2 使用 SQL进行便捷、高性能的操作 10.4.3 使用 Cypher语言的子集来进行顶点搜索 10.4.4 稍微复杂一些的YAGO图同构搜索 10.5 小结附录A 安装Spark 附录B Gephi可视化软件附录C 更多资源附录D 本书中的Scala小贴士
随便看	西风凋碧树(大宋帝国的衰亡)/王朝的终结丛书白日薄西山(大汉帝国的衰亡)/王朝的终结丛书 Microsoft Office Word2003专业级认证教程(附光盘微软办公软件国际认证指定教程) Microsoft Office Word2003专家级认证教程(附光盘微软办公软件国际认证指定教程) 爆笑姻缘米脂婆姨绥德汉别处生活(20幅平民肖像) 揭秘埃及(权杖之谜)/鲁滨孙世界历史探险记美国的108(上下)/曹德谦作品集一休本来是情僧搭地铁游香港(第2版)/搭地铁系列高频电子线路(21世纪高等院校信息与通信工程规划教材) 口才启蒙书/完美素质家教启蒙全书情商启蒙书/完美素质家教启蒙全书安全启蒙书/完美素质家教启蒙全书致亲爱的自己丛林故事(彩绘本)/万国儿童文学经典文库小狗杰西卡(彩绘本)/万国儿童文学经典文库材料力学教学实验/同济大学力学实验丛书理论创新50例--从十六大到十七大司法前沿的逻辑与实证机关党的工作实用手册青少年的家庭治疗(打破对抗与控制的循环怪圈)/家庭治疗经典译丛 1895大清帝国大变局街道背后--海上地名寻踪韩语入门字母发音工具 V1.0 韩语视频学习软件(VideoCast SF) V2.1.11 绿色版新飓风视频加密工具 V2015 绿色版飓风视频加密工具 V10.4 绿色专业版 360安全卫士 V12.1.0.1001 官方安装版猫和老鼠表情包免费版新媒通 V9.18.0709.1632 联展通在线客服系统官方版 V1.0 卡脆TV V5.2 影视屏王 V8.93.1530 白金版模拟人生4女性毛衣吊带背心MOD v3.28 世仇狂野西部战术汉化补丁 v1.0 赛博朋克2077莫克斯帮夹克MOD v3.70 模拟人生4简单的圆环耳环MOD v1.50 赛博朋克2077真实感的眼睛MOD v3.52 模拟人生4渐变色的情人节长裙MOD v1.38 赛博朋克2077帅气定制武士夹克MOD v1.47 鬼谷八荒6红剑仙超凡女初始存档 v3.16 赛博朋克2077演示风格明亮肤色MOD v1.38 鬼谷八荒诱惑妲己捏脸MOD v3.4 teacher-training college tea chest teach-in teaching tea cloth tea cosy teacup tea garden tea-house teak [BT下载][幸存者 Survivor 第四十五季][更新至02集][英语中字][MKV][720P/1080P][多版剧集 2023 美国真人追更 [BT下载][寻找灵魂伴侣：逃离双生火焰宇宙 Desperately 第一季][全03集][英语中字][MKV][720P/1080P][NETFLIX 剧集 2023 美国纪录全集 [BT下载][恶补青春 Everything Now 第一季][全08集][英语中字][MKV][720P/1080P][NETFLIX 剧集 2023 英国喜剧全集 [BT下载][金融恶魔/Devils 第二季][全08集][英语中字][MKV][720P/1080P][WEB+中文字幕] 剧集 2022 意大利犯罪全集 [BT下载][一路朝阳][全36集][WEB-MP4/9.91G][国语配音/中文字幕][1080P][SeeWEB] 剧集 2023 大陆剧情打包 [BT下载][黑镜/Black Mirror 第四季][全06集打包][英语无字][WEBRip-MKV][2160P][片源] 剧集 2017 英国悬疑打包 [BT下载][那些回不去的年少时光][更至25集][国语中字][HD-MP4][1080P] 剧集 2023 大陆剧情连载 [BT下载][特工任务][更至33集][国语中字][HD-MP4][1080P] 剧集 2023 大陆剧情连载 [BT下载][流光之下][更至31集][国语中字][HD-MP4][1080P] 剧集 2023 大陆剧情连载 [BT下载][穴界风云][更新至06集][日语中字][MP4][1080P][多版] 剧集 2023 日本剧情追更冒险开启！《哆啦A梦：大雄的绘画奇遇记》曝预告一起平静发疯！卷福、奥姨《玫瑰》发布正式海报《艾尔登法环》游改电启动《机械姬》导演持导筒山田洋次执导！木村拓哉《东京出租车》首曝预告《寻秦记》2025贺岁档上映！古天乐林峯穿越秦朝《绝区零》2.0前瞻内容整理与兑换码一览 2.0前瞻直播兑换码分享《炉石传说》灌注龙骑卡组分享《幻想生活i转圈圈的龙和偷取时间的少女》新手游玩攻略职业选择与练级方法分享《幻想生活i》5月23日兑换码分享《幻想生活i转圈圈的龙和偷取时间的少女》修改器及用法说明风灵月影修改器下载