网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 Hadoop大数据分析实战
分类
作者 (美)斯里达尔·奥拉
出版社 清华大学出版社
下载
简介
目录
第1章 Hadoop简介
1.1 Hadoop分布式文件系统
1.1.1 高可用性
1.1.2 内部DataNode均衡器
1.1.3 纠删码
1.1.4 端口号
1.2 MapReduce框架
1.3 YARN
1.3.1 机会型容器
1.3.2 YARN时间轴服务v.2
1.4 其他变化内容
1.4.1 最低Java版本
1.4.2 Shell脚本重写
1.4.3 覆盖客户端的JAR
1.5 安装Hadoop 3
1.5.1 准备条件
1.5.2 下载
1.5.3 安装
1.5.4 设置无密码ssh
1.5.5 设置NameNode
1.5.6 启动HDFS
1.5.7 设置YARN服务
1.5.8 纠删码
1.5.9 内部DataNode平衡器
1.5.10 安装时间轴服务v.2
1.6 本章小结
第2章 大数据分析概述
2.1 数据分析简介
2.2 大数据简介
2.2.1 数据的多样性
2.2.2 数据的速度
2.2.3 数据的容量
2.2.4 数据的准确性
2.2.5 数据的可变性
2.2.6 可视化
2.2.7 数值
2.2 使用Apache Hadoop的分布式计算
2.4 MapReduce框架
2.5 Hive
2.5.1 下载并解压Hive二进制文件
2.5.2 安装Derby
2.5.3 使用Hive
2.5.4 SELECT语句的语法
2.5.5 INSET语句的语法
2.4.6 原始类型
2.5.7 复杂类型
2.5.8 内建运算符和函数
2.5.9 语言的功能
2.6 Apache Spark
2.7 基于Tableau的可视化操作
2.8 本章小结
第3章 基于MapReduce的大数据处理
3.1 MapReduce框架
3.1.1 数据集
3.1.2 记录读取器
3.1.3 映射
3.1.4 组合器
3.1.5 分区器
3.1.6 混洗和排序
3.1.7 reducer任务
3.1.8 输出格式
3.2 MapReduce作业类型
3.2.1 SingleMapper作业
3.2.2 SingleMapperReducer作业
3.2.3 MultipleMappersReducer作业
3.2.4 SingleMapperReducer作业
3.2.5 应用场景
3.3 MapReduce模式
3.3.1 聚合模式
3.3.2 过滤模式
3.3.3 连接模式
3.4 本章小结
第4章 Python-Hadoop科学计算和大数据分析
第5章 R-Hadoop统计数据计算
第6章 Apache Spark批处理分析
第7章 Apache Spark实时数据分析
第8章 Apache Flink批处理分析
第9章 Apache Flink流式处理
第10章 大数据可视化技术
第11章 云计算简介
第12章 使用亚马逊Web服务
导语
本书旨在令读者具备Hadoop 3生态系统的分析能力,并能够构建强大的解决方案来执行大数据分析,同时毫不费力地从大数据分析结果中获得敏锐的洞察力。本书涉及R语言、Python语言、Spark、Flink、Hadoop的综合运用,同时实现了大数据分析的可视化结果。
序言
Apache Hadoop是一类流行的大数据处理平台,并可
与大多数大数据工具集成,以构建功能强大的数据分析方
案。本书将围绕这一点对相关软件展开讨论,同时辅以大
量的操作实例。
在本书阅读过程中,读者将会系统学习HDFS、
MapReduce、YARN方面的知识,以及如何实现快速、高效
的大数据处理方案。此外,本书还将Hadoop与其他开源工
具集成,例如Python和R语言,进而分析和可视化数据,同
时针对大数据进行统计计算。一旦读者掌握了这些内容,
即可尝试在Apache Spark和Apache Flink的基础上应用
Hadoop,最终实现实时数据分析和流式处理。除此之外,
本书还将讨论如何在云端和端到端管道上利用Hadoop构建
数据分析方案,并通过操作实例执行大数据分析任务。
在阅读完本书后,读者将具备基于Hadoop生态系统的
分析能力,同时可构建强大的解决方案执行大数据分析,
并拥有自己的技术观点。
适用读者
如果读者希望使用Hadoop 3的强大功能为企业或业务
构建高性能的分析解决方案,或者您是一名大数据分析新
手,那么本书将十分适合于您。另外,本书需要读者具备
Java编程方面的基础知识。
本书内容
第1章将介绍Hadoop环境及其核心组件,包括HDFS和
MapReduce。
第2章将讨论大型数据集的检测处理过程,从中发现数
据的模式,生成相应的报告并采集有价值的内容。
第3章将讨论MapReduce,这也是大多数计算/处理系
统中的基本概念。
第4章探讨Python语言,并在此基础上通过Hadoop对
大数据进行分析。
第5章介绍了R语言,同时阐述了如何使用R语言并借助
于Hadoop执行大数据统计计算。
第6章将考查Apache Spark,同时根据批处理模型使
用Spark进行大数据分析。
第7章将对Apache Spark的流式处理模型进行分析,
以及如何打造基于流式的实时分析应用程序。
第8章主要介绍Apache Flink,及其基于批处理模型
的、针对大数据分析的应用方式。
第9章讨论DataStream API和基于Flink的流处理。其
中,Flink用于接收和处理实时事件流,并在Hadoop集群
中存储聚合和结果。
第10章考查数据可视化问题,并通过各种工具和技术
实现这一功能,例如Tableau。
第11章讲述云计算以及各种概念,例如IaaS、PaaS和
SaaS。除此之外,本章还将对云供应商加以简要介绍。
第12章介绍AWS和AWS中的各种服务,这些服务使用
Elastic MapReduce(EMR)在AWS云中建立Hadoop集群,
这对执行大数据分析非常有用。
软件和硬件环境
本书示例是在64位Linux上使用Scala、Java、R和
Python语言实现的。另外,还应在机器上安装下列内容(
建议使用最新版本):
Spark 2.3.0(或更高版本)。
Hadoop 3.1(或更高版本)。
Flink 1.4。
Java(JDK和JRE)1.8+。
Scala 2.11.x(或更高版本)。
Python 2.7+/3.4+。
R 3.1+和RStudio 1.0.143。
Eclipse Mars或Idea IntelliJ(最新版本)。
关于操作系统,最好使用Linux发行版(包括Debian
、Ubuntu、Fedora、RHEL和CentOS)。具体来说,例如,
对于Ubuntu,建议使用完整的14.04(LTS)64位安装、
VMWare player 12或Virtual box。此外,还可在
Windows(XP/7/8/10)或者macOS X(10.4.7+)上运行代
码。
关于硬件配置,可采用Core i3、Core i5(推荐)~
Core i7(获得最佳效果)。然而,多核处理将提供更快的
数据处理以及较好的可伸缩性。另外,对于单系统模式,
至少使用8GB RAM(推荐);单个VM至少使用32GB RAM;
对于集群,则至少使用32GB RAM。足够的存储空间可运行
繁重的任务(取决于将要处理的数据集大小),最好至少
包含50GB的空闲磁盘存储空间(用于独立系统和SQL仓库)

资源下载
读者可访问http://www.packtpub.com并通过个人账
户下载示例代码文件。另外,
http://www.packtpub.com/support,注册成功后,我们
将以电子邮件的方式将相关文件发与读者。
读者可根据下列步骤下载代码文件:
(1)登录www.packtpub.com并注册我们的网站。
(2)选择SUPPORT选项卡。
(3)单击Code Downloads & Errata。
(4)在Search文本框中输入书名并执行后续命令。
当文件下载完毕后,确保使用下列最新版本软件解压
文件夹:
Windows系统下的WinRAR/7-Zip。
Mac系统下的Zipeg/iZip/UnRarX。
Linux系统下的7-Zip/PeaZip。
另外,读者还可访问GitHub获取本书的代码包,对应
网址为https://github.com/PacktPublishing/Big-
Data-Analytics-with-Hadoop-3。代码与GitHub存储库
将实现同步更新。
此外,读者还可访问
https://github.com/PacktPublishing/以了解丰富的代
码和视频资源。
除此之外,我们还提供了PDF文件,其中包含了本书所
用截图/图表的彩色图像。读者访问
http://www.packtpub.com/sites/default/files/downl
oads/BigDataAnalyticswithHadoop3_ ColorImages.pdf
进行下载。
本书约定
代码块则通过下列方式设置:
hdfs dfs -copyFromLocal
temperatures.csv/user/normal
代码中的重点内容则采用黑体表示:
Map-Reduce Framework -- output average
temperature per city name
Map input records=35
Map output records=33
Map output bytes=208
Map output materialized bytes=286
命令行输入或输出如下所示:
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub ))
~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
图标表示较为重要的说明事项。
图标则表示提示信息和操作技巧。
读者反馈和客户支持
欢迎读者对本书的建议或意见予以反馈。
对此,读者可向feedback@packtpub.com发送邮件,
并以书名作为邮件标题。若读者对本书有任何疑问,均可
发送邮件至questions@packtpub.com,我们将竭诚为您服
务。
勘误表
尽管我们在最大程度上做到尽善尽美,但错误依然在
所难免。如果读者发现谬误之处,无论是文字错误抑或是
代码错误,还望不吝赐教。对此,读者可访问
http://www.packtpub.com/submit-errata,选取对应书
籍,单击Errata Submission Form超链接,并输入相关问
题的详细内容。
版权须知
一直以来,互联网上的版权问题从未间断,Packt出版
社对此类问题异常重视。若读者在互联网上发现本书任意
形式的副本,请告知网络地址或网站名称,我们将对此予
以处理。关于盗版问题,读者可发送邮件至
copyright@packtpub.com。
若读者针对某项技术具有专家级的见解,抑或计划撰
写书籍或完善某部著作的出版工作,则可访问
www.packtpub.com/authors。
问题解答
若读者对本书有任何疑问,均可发送邮件至
questions@packtpub.com,我们将竭诚为您服务。
内容推荐
本书详细阐述了与Hadoop 3大数据分析相关的基本解决方案,主要包括Hadoop简介、大数据分析概述、基于MapReduce的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处理、大数据可视化技术、云计算简介、使用亚马逊Web服务等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。
本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/3/24 15:16:46