Hadoop & Spark大数据开发实战肖睿,雷刚跃主编中国水利水电出版社豆瓣PDF电子书bt网盘迅雷下载教育考试-考试-计算机类-霍普软件下载网

大数据让我们以一种靠前的方式，通过对海量数据进行分析，获得有巨大价值的产品和服务，很终形成变革之力。本书围绕Hadoop和Spark这两个主流技术进行讲解，主要内容包括Hadoop环境配置、分布式文件系统HDFS、分布式计算框架MapReduce、资源调度框架YARN与Hadoop新特性、大数据数据仓库Hive、离线处理辅助系统、Spark Core、 Spark SQL、Spark Streaming等知识。为保证很优学习效果，本书紧密结合实际应用，利用大量案例说明和实践，提炼含金量十足的开发经验。本书使用Hadoop和Spark进行大数据开发，并配以完善的学习资源和支持服务，包括视频教程、案例素材下载、学习交流社区、讨论组等终身学习内容，为开发者带来多方面的学习体验。

前言
关于引用作品版权说明
章初识Hadoop
本章任务
任务1大数据概述
1.1.1大数据基本概念
1.1.2大数据对于企业带来的挑战
任务2Hadoop概述
1.2.1Hadoop简介
1.2.2Hadoop生态系统
1.2.3大数据应用案例
任务3Hadoop环境搭建
1.3.1虚拟机安装
1.3.2Linux系统安装
1.3.3Hadoop伪分布式环境搭建
本章总结
本章作业
第2章分布式文件系统HDFS
本章任务
任务1初识HDFS
2.1.1HDFS概述
2.1.2HDFS基本概念
2.1.3HDFS体系结构
任务2HDFS操作
2.2.1HDFS shell访问
2.2.2Java API访问
任务3HDFS运行机制
2.3.1HDFS文件读写流程
2.3.2HDFS副本机制
2.3.3数据负载均衡
2.3.4机架感知
任务4HDFS进阶
2.4.1Hadoop序列化
2.4.2基于文件的数据结构SequenceFile
2.4.3基于文件的数据结构MapFile
本章总结
本章作业
第3章分布式计算框架
MapReduce
本章任务
任务1MapReduce编程模型
3.1.1MapReduce概述
3.1.2MapReduce编程模型
3.1.3MapReduce WordCount编程实例
任务2MapReduce进阶
3.2.1MapReduce类型
3.2.2MapReduce输入格式
3.2.3MapReduce输出格式
3.2.4Combiner
3.2.5Partitioner
3.2.6RecordReader
任务3MapReduce不错编程
3.3.1Join的MapReduce实现
3.3.2排序的MapReduce实现
3.3.3二次排序的MapReduce实现
3.3.4合并小文件的MapReduce实现
本章总结
本章作业
第4章YARN与Hadoop新特性
本章任务
任务1初识资源调度框架YARN
4.1.1YARN产生背景
4.1.2初识YARN
4.1.3YARN运行机制
任务2HDFS新特性
4.2.1HDFS NameNode HA
4.2.2HDFS NameNode Federation
4.2.3HDFS SnapShots
4.2.4WebHDFS RESTAPI
4.2.5DistCp
任务3YARN新特性
4.3.1ResaurceManager Restart
4.3.2ResaurcaManager HA
本章总结
本章作业
第5章大数据数据仓库Hive
本章任务
任务1初识Hive
5.1.1Hive简介
5.1.2Hive架构
5.1.3Hive与Hadoop的关系
5.1.4Hive与传统关系型数据库对比
5.1.5Hive数据存储
5.1.6Hive环境部署
任务2Hive基本操作
5.2.1DDL操作
5.2.2DML操作
5.2.3Hive shell操作
任务3Hive进阶
5.3.1Hive函数
5.3.2Hive常用调优策略
本章总结
本章作业
第6章离线处理辅助系统
本章任务
任务1使用Sqoop完成数据迁移
6.1.1Sqoop简介
6.1.2导入MySQL数据到HDFS
6.1.3导出HDFS数据到MySQL
6.1.4导入MySQL数据到Hive
6.1.5Sqoop中Job的使用
任务2工作流调度框架Azkaban
6.2.1Azkaban简介
6.2.2Azkaban部署
6.2.3Azkaban实战
本章总结
本章作业
第7章Spark入门
本章任务
任务1初识Spark
7.1.1Spark概述
7.1.2Spark优点
7.1.3Spark生态系统BDAS
任务2Scala入门
7.2.1Scala介绍
7.2.2Scala函数
7.2.3Scala面向对象
7.2.4Scala集台
7.2.5Scala进阶
任务3获取Spark源码并进行编译
7.3.1获取Spark源码
7.3.2Spark源码编译
任务4次与Spark亲密接触
7.4.1Spark环境部署
7.4.2Spark完成词频统计分析
本章总结
本章作业
第8章SparkCore
本章任务
任务1Spark的基石RDD
8.1.1RDD概述
8.1.2RDD常用创建方式
8.1.3RDD的转换
8.1.4RDD的动作
8.1.5RDD的依赖
任务2RDD进阶
8.2.1RDD缓存
8.2.2共享变量（Shared Variables）
8.2.3Spark核心概念
8.2.4Spark运行架构
任务3基于RDD的Spark编程
8.3.1开发前置准备
8.3.2使用Spark Cora开发词频计数WordCount
8.3.3使用Spark Core进行年龄统计
本章总结
本章作业
第9章SparkSQL
本章任务
任务1Spark SQL前世今生
9.1.1为什么需要SQL
9.1.2常用的SQL on Hadoop框架
9.1.3Spark SQL概述
任务2Spark SQL编程
9.2.1Spark SQL编程入口
9.2.2DataFrame是什么
9.2.3DataFrame编程
任务3Spark SQL进阶
9.3.1Spark SQL外部数据源操作
9.3.2Spark SQL函数的使用
9.3.3Spark SQL常用调优
本章总结
本章作业
0章Spark Streaming
本章任务
任务1初始流处理框架及Spark Streaming
10.1.1流处理框架概述
10.1.2Spark Streaming概述
任务2Spark Streaming编程
10.2.1Spark Streaming核心概念
10.2.2使用Spark Streaming编程
任务3Spark Streaming进阶
10.3.1Spark Streaming整合Flume
10.3.2Spark Streaming整合Kafka
10.3.3Spark Streaming常用优化策略
本章总结
本章作业

书名	Hadoop & Spark大数据开发实战
分类	教育考试-考试-计算机类
作者	肖睿,雷刚跃主编
出版社	中国水利水电出版社
下载
简介	内容推荐大数据让我们以一种靠前的方式，通过对海量数据进行分析，获得有巨大价值的产品和服务，很终形成变革之力。本书围绕Hadoop和Spark这两个主流技术进行讲解，主要内容包括Hadoop环境配置、分布式文件系统HDFS、分布式计算框架MapReduce、资源调度框架YARN与Hadoop新特性、大数据数据仓库Hive、离线处理辅助系统、Spark Core、 Spark SQL、Spark Streaming等知识。为保证很优学习效果，本书紧密结合实际应用，利用大量案例说明和实践，提炼含金量十足的开发经验。本书使用Hadoop和Spark进行大数据开发，并配以完善的学习资源和支持服务，包括视频教程、案例素材下载、学习交流社区、讨论组等终身学习内容，为开发者带来多方面的学习体验。作者简介肖睿，北京大学教育学博士，课工场创始人，总经理。长期服务于中国IT职业教育领军企业北大青鸟Aptech，现任北大青鸟Aptech副总裁，职业教育研究院院长。肖睿先生曾就读于吉林大学少年班，专攻人工智能专家系统方向，作为靠前很好软件技术专家，早期曾领导北大方正核心软件产品研发，并受聘为北京大学软件学院特约讲师、北京创客总部创业导师、专业和课程评审专家、人力资源和社会保障部岗位标准评审专家。拥有20年IT职业教育产品管理和企业管理经验，是中国IT职业教育领军人物。目录前言关于引用作品版权说明章初识Hadoop 本章任务任务1大数据概述 1.1.1大数据基本概念 1.1.2大数据对于企业带来的挑战任务2Hadoop概述 1.2.1Hadoop简介 1.2.2Hadoop生态系统 1.2.3大数据应用案例任务3Hadoop环境搭建 1.3.1虚拟机安装 1.3.2Linux系统安装 1.3.3Hadoop伪分布式环境搭建本章总结本章作业第2章分布式文件系统HDFS 本章任务任务1初识HDFS 2.1.1HDFS概述 2.1.2HDFS基本概念 2.1.3HDFS体系结构任务2HDFS操作 2.2.1HDFS shell访问 2.2.2Java API访问任务3HDFS运行机制 2.3.1HDFS文件读写流程 2.3.2HDFS副本机制 2.3.3数据负载均衡 2.3.4机架感知任务4HDFS进阶 2.4.1Hadoop序列化 2.4.2基于文件的数据结构SequenceFile 2.4.3基于文件的数据结构MapFile 本章总结本章作业第3章分布式计算框架 MapReduce 本章任务任务1MapReduce编程模型 3.1.1MapReduce概述 3.1.2MapReduce编程模型 3.1.3MapReduce WordCount编程实例任务2MapReduce进阶 3.2.1MapReduce类型 3.2.2MapReduce输入格式 3.2.3MapReduce输出格式 3.2.4Combiner 3.2.5Partitioner 3.2.6RecordReader 任务3MapReduce不错编程 3.3.1Join的MapReduce实现 3.3.2排序的MapReduce实现 3.3.3二次排序的MapReduce实现 3.3.4合并小文件的MapReduce实现本章总结本章作业第4章YARN与Hadoop新特性本章任务任务1初识资源调度框架YARN 4.1.1YARN产生背景 4.1.2初识YARN 4.1.3YARN运行机制任务2HDFS新特性 4.2.1HDFS NameNode HA 4.2.2HDFS NameNode Federation 4.2.3HDFS SnapShots 4.2.4WebHDFS RESTAPI 4.2.5DistCp 任务3YARN新特性 4.3.1ResaurceManager Restart 4.3.2ResaurcaManager HA 本章总结本章作业第5章大数据数据仓库Hive 本章任务任务1初识Hive 5.1.1Hive简介 5.1.2Hive架构 5.1.3Hive与Hadoop的关系 5.1.4Hive与传统关系型数据库对比 5.1.5Hive数据存储 5.1.6Hive环境部署任务2Hive基本操作 5.2.1DDL操作 5.2.2DML操作 5.2.3Hive shell操作任务3Hive进阶 5.3.1Hive函数 5.3.2Hive常用调优策略本章总结本章作业第6章离线处理辅助系统本章任务任务1使用Sqoop完成数据迁移 6.1.1Sqoop简介 6.1.2导入MySQL数据到HDFS 6.1.3导出HDFS数据到MySQL 6.1.4导入MySQL数据到Hive 6.1.5Sqoop中Job的使用任务2工作流调度框架Azkaban 6.2.1Azkaban简介 6.2.2Azkaban部署 6.2.3Azkaban实战本章总结本章作业第7章Spark入门本章任务任务1初识Spark 7.1.1Spark概述 7.1.2Spark优点 7.1.3Spark生态系统BDAS 任务2Scala入门 7.2.1Scala介绍 7.2.2Scala函数 7.2.3Scala面向对象 7.2.4Scala集台 7.2.5Scala进阶任务3获取Spark源码并进行编译 7.3.1获取Spark源码 7.3.2Spark源码编译任务4次与Spark亲密接触 7.4.1Spark环境部署 7.4.2Spark完成词频统计分析本章总结本章作业第8章SparkCore 本章任务任务1Spark的基石RDD 8.1.1RDD概述 8.1.2RDD常用创建方式 8.1.3RDD的转换 8.1.4RDD的动作 8.1.5RDD的依赖任务2RDD进阶 8.2.1RDD缓存 8.2.2共享变量（Shared Variables） 8.2.3Spark核心概念 8.2.4Spark运行架构任务3基于RDD的Spark编程 8.3.1开发前置准备 8.3.2使用Spark Cora开发词频计数WordCount 8.3.3使用Spark Core进行年龄统计本章总结本章作业第9章SparkSQL 本章任务任务1Spark SQL前世今生 9.1.1为什么需要SQL 9.1.2常用的SQL on Hadoop框架 9.1.3Spark SQL概述任务2Spark SQL编程 9.2.1Spark SQL编程入口 9.2.2DataFrame是什么 9.2.3DataFrame编程任务3Spark SQL进阶 9.3.1Spark SQL外部数据源操作 9.3.2Spark SQL函数的使用 9.3.3Spark SQL常用调优本章总结本章作业 0章Spark Streaming 本章任务任务1初始流处理框架及Spark Streaming 10.1.1流处理框架概述 10.1.2Spark Streaming概述任务2Spark Streaming编程 10.2.1Spark Streaming核心概念 10.2.2使用Spark Streaming编程任务3Spark Streaming进阶 10.3.1Spark Streaming整合Flume 10.3.2Spark Streaming整合Kafka 10.3.3Spark Streaming常用优化策略本章总结本章作业
随便看	默默兮兮卿石仙语 HP之炼丹世家评《亚特兰蒂斯》死宅的战士肆意天下评《小花鼓》穸兮我一直很爱你半夏合欢师哥师弟请爱我好吗火影炙热挽不住时光的沙秀悠然天涯何处兮芳草青只欠一句我爱你晋薇尽微问世间情为何物死神之漫卷诗书岁月印迹的伤锦瑟木兰落接触一辈子到底有多长筑业标书制作软件系统常用软件检测更新工具(Patch My PC) 理想EX9050打印机驱动 wetool微信管理软件睿备份 oracle 视频播放器(mpc-be)X64 99听战歌网在线播放器 USB宝盒客户端 java api 1.9中文版 pdf编辑器中文版免费版孤岛危机2全属性超级修改器 v1.14 欧洲卡车模拟2依维卡车750hp引擎MOD v4.3 我的世界颜色字快捷键MOD v2.29 星露谷物语更好的稻草人MOD v2.3 求生之路2高清爆炸痕迹MOD v2.3 我的世界收获稻草人MOD v2.83 无主之地2汉化补丁 v2.4 噬血代码杰克发型MOD v1.86 上古卷轴5重制版徒手力量攻击动画MOD v1.52 上古卷轴5重制版女性圣骑士百褶裙MOD v1.18 cobnut COBOL cobra cobweb Coca Cola cocaine coccyx cochineal cochlea cock [BT下载][跟我走吧][第01-07集][WEB-MP4/10.56G][国语配音/中文字幕][1080P][流媒体][ZeroTV] [BT下载][跟我走吧][第07集][WEB-MP4/1.30G][国语配音/中文字幕][1080P][流媒体][LelveTV] [BT下载][跟我走吧][第07集][WEB-MKV/2.36G][国语配音/中文字幕][4K-2160P][H265][流媒体][LelveTV] [BT下载][跳进地理书的旅行第三季][第00集][WEB-MP4/0.59G][国语配音/中文字幕][1080P][流媒体][ZeroTV] [BT下载][这个世界漏洞百出][第06集][WEB-MKV/0.55G][中文字幕][1080P][流媒体][ParkTV] [BT下载][这！就是街舞第四季][全29集][WEB-MKV/105.94G][国语配音/中文字幕][1080P][流媒体][ZeroTV] [BT下载][进击的巨人][第01-10集][WEB-MKV/7.63G][中文字幕][1080P][流媒体][ParkTV] [BT下载][逆天至尊][第327集][WEB-MP4/0.17G][国语配音/中文字幕][1080P][H265][流媒体][ZeroTV] [BT下载][逆天至尊][第327集][WEB-MKV/0.51G][国语配音/中文字幕][4K-2160P][H265][流媒体][ZeroTV] [BT下载][邂逅她的少女时代][第02-13集][WEB-MP4/2.07G][国语配音/中文字幕][1080P][流媒体][ParkTV] 学习通怎么开启NFC设置-学习通开启NFC设置的方法学习通怎么开启全屏模式-学习通开启全屏模式的方法学习通怎么开启活动优惠-学习通开启活动优惠的方法学习通如何查看尔雅资讯-学习通查看尔雅资讯的方法学习通如何查看示范教学包-学习通查看示范教学包的方法极限竞速：地平线5电台怎么关闭-电台的关闭方法极限竞速：地平线5卷饼推车在哪-卷饼推车位置介绍极限竞速：地平线5藏宝图怎么触发-藏宝图触发攻略极限竞速：地平线5怎么设置音频-设置音频的方法极限竞速：地平线5怎么重置游戏-重置游戏的方法