网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 Spark大数据算法
分类
作者 (美)马哈默德·帕瑞斯安
出版社 中国电力出版社
下载
简介
内容推荐
Apache Spark不仅速度快,易于使用,还提供了丰富的分析能力和多语言支持,掌握这个集群计算框架的实用知识已经成为数据工程师和数据科学家的必备技能。利用这本实用指南,想要了解Spark的人能从中学到实用的PySpark算法和示例。
每一章中,本书作者会向你展示如何用一组Spark转换和算法解决一个数据问题。你会了解如何应对涉及ETL、设计模式、机器学习算法、数据分区和基因组分析的问题。每个技巧都提供了利用PySpark驱动器的PySpark算法和shell脚本。
作者简介
马哈默德·帕瑞斯安(Mahmoud Parsian),计算机科学博士,是一位热衷于实践的软件专家,作为开发人员、设计人员、架构师和作者,他有30多年的软件开发经验。目前领导着Illumina的大数据团队,在过去15年间,他主要从事Java(服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBC Recipes》和《JDBC Metadata,MySQL,and Oracle Recipes》等书(均由Apress出版)。
目录

前言
第Ⅰ部分 基础知识
第1章 Spark和PySpark简介
1.1 为什么使用Spark完成数据分析
1.1.1 Spark生态系统
1.1.2 Spark架构
1.2 PySpark的能力
1.3 Spark数据抽象
1.3.1 RDD示例
1.3.2 Spark RDD操作
1.3.3 DataFrame示例
1.4 使用PySpark Shell
1.4.1 启动PySpark Shell
1.4.2 由集合创建RDD
1.4.3 聚合和合并键的值
1.4.4 过滤RDD的元素
1.4.5 对类似的键分组
1.4.6 聚合类似键的值
1.5 使用 DataFrame的ETL示例
1.5.1 抽取
1.5.2 转换
1.5.3 加载
1.6 小结
第2章 转换实战
2.1 DNA碱基计数示例
2.1.1 DNA碱基计数问题
2.1.2 FASTA格式
2.1.3 示例数据
2.2 DNA碱基计数解决方案1
2.2.1 步骤1:由输入创建一个RDD[String]
2.2.2 步骤2:定义一个映射器函数
2.2.3 步骤3:得出DNA字母频度
2.2.4 解决方案1的优缺点
2.3 DNA碱基计数解决方案2
2.3.1 步骤1:由输入创建一个RDD[String]
2.3.2 步骤2:定义一个映射器函数
2.3.3 步骤3:得出 DNA字母频度
2.3.4 解决方案2的优缺点
2.4 DNA碱基计数解决方案3
2.4.1 mapPartitions()转换
2.4.2 步骤1:由输入创建一个RDD[String]
2.4.3 步骤2:定义函数处理一个分区
2.4.4 步骤3:对各个分区应用自定义函数
2.4.5 解决方案3的优缺点
2.5 小结
第3章 映射器转换
3.1 数据抽象和映射器
3.2 转换是什么
3.2.1 懒转换
3.2.2 map()转换
……
第Ⅱ部分 处理数据
第Ⅲ部分 数据设计模式
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/2/23 3:07:54