本书以Hadoop大数据技术生态圈主流框架的应用为主线,介绍了数据处理与分析中典型软件的使用和基础编程方法。
全书共包含七个基础实训和两个综合案例,内容涵盖操作系统(Linux)、开发工具(IDEA和Maven)以及大数据相关软件(Hadoop、HDFS、HBase、Hive、MapReduce、Spark、MySQL)等,可以较好地满足大数据实践教学需求。
本书适合作为高等学校大数据技术及相关专业的教材,也可作为教学辅助用书与其他大数据教材配套使用。
网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | Hadoop大数据基础实训教程 |
分类 | 教育考试-大中专教材-大学教材 |
作者 | 彭梅 胡必波等 |
出版社 | 中国铁道出版社 |
下载 | |
简介 | 内容简介 本书以Hadoop大数据技术生态圈主流框架的应用为主线,介绍了数据处理与分析中典型软件的使用和基础编程方法。 全书共包含七个基础实训和两个综合案例,内容涵盖操作系统(Linux)、开发工具(IDEA和Maven)以及大数据相关软件(Hadoop、HDFS、HBase、Hive、MapReduce、Spark、MySQL)等,可以较好地满足大数据实践教学需求。 本书适合作为高等学校大数据技术及相关专业的教材,也可作为教学辅助用书与其他大数据教材配套使用。 目录 实训1 Linux操作系统的安装 1.1 实训目的 1.2 实训要求 1.3 实训原理 1.3.1 虚拟化技术 1.3.2 Linux 1.3.3 Xmanager 1.3.4 JDK 1.3.5 SSH免密登录 1.3.6 同步时钟 1.4 实训步骤 1.4.1 安装和配置Linux虚拟机 1.4.2 安装和配置Linux系统 1.4.3 搭建Linux集群 实训2 Hadoop的安装和配置 2.1 实训目的 2.2 实训要求 2.3 实训原理 2.3.1 Hadoop 2.3.2 Ambari 2.3.3 Docker 2.4 实训步骤 2.4.1 手工搭建方式 2.4.2 Ambari自动化搭建方式 2.4.3 使用Docker搭建Hadoop分布式集群 实训3 HDFS操作方法和基础编程 3.1 实训目的 3.2 实训要求 3.3 实训原理 3.3.1 HDFS 3.3.2 HDFS Shell 3.3.3 HDFS Java API 3.3.4 HDFS运行原理 3.4 实训步骤 3.4.1 HDFS Shell基本操作 3.4.2 Java API基本操作 3.4.3 Java API 读写数据 实训4 HBase与Hive的安装和配置 4.1 实训目的 4.2 实训要求 4.3 实训原理 4.3.1 HBase 4.3.2 Hive 4.4 实训步骤 4.4.1 安装Zookeeper 4.4.2 安装HBase 4.4.3 安装Hive 实训5 MapReduce 基础编程 5.1 实训目的 5.2 实训要求 5.3 实训原理 5.3.1 MapReduce编程思想 5.3.2 单词频数统计 5.3.3 YARN框架 5.4 实训步骤 实训6 Spark的安装和配置 6.1 实训目的 6.2 实训要求 6.3 实训原理 6.3.1 Zookeeper 6.3.2 Spark 6.3.3 Spark 编程原理 6.4 实训步骤 6.4.1 搭建Zookeeper分布式集群 6.4.2 搭建Spark分布式集群 6.4.3 运行Spark分布式集群 实训7 Hadoop开发环境的安装和部署 7.1 实训目的 7.2 实训要求 7.3 实训原理 7.3.1 IntelliJ IDEA 7.3.2 Eclipse 7.3.3 Maven 7.3.4 Tomcat 7.3.5 MySQL 7.4 实训步骤 7.4.1 部署 IDEA 7.4.2 部署 Eclipse 7.4.3 部署 Scala SDK 7.4.4 部署 Maven 7.4.5 部署Tomcat服务器 7.4.6 部署MySQL服务器 实训8 综合案例1——电信流量大数据分析统计 8.1 案例背景 8.2 优化词频统计项目 8.3 使用Spark 的local模式进行数据清洗ETL实战 实训9 综合案例2——基于Hadoop的云盘信息管理系统的设计与实现 9.1 案例背景 9.2 系统开发工具与技术 9.2.1 HDFS 9.2.2 JSP技术 9.2.3 Apache Tomcat 服务器 9.2.4 MySQL数据库 9.3 搭建开发环境 9.3.1 搭建Hadoop开发环境 9.3.2 安装和配置开发工具 9.4 系统分析 9.5 系统设计 9.6 部分模块代码实现 编辑推荐 1.以实际案例来驱动学习,让学生真正地实现边实操边学习,在教与学的过程的中弱化“教”,深化“做”与“学”,达到“老师轻松教,学生高效学,实验简单做”的目的。 2.两个综合案例有助于读者全方面理解大数据工程的实施。 作者简介 彭梅,硕士,副教授,广州工商学院计算机科学与工程系副主任,骨干教师,获得“正保教育杯第五界全国ITAT教育工程技能大赛”优秀指导老师奖、指导第五届“蓝桥杯”全国软件和信息技术专业人才大赛广东赛区JAVA软件开发高职高专组优秀奖等荣誉。研究方向:软件工程、计算机应用。主持及参加省部级科研项目5项,公开发表论文10余篇,主编教材4部,参编教材2部。胡必波,本科,副教授,广州工商学院大数据专业带头人,主讲课程:大数据,数据库,数据结构,研究方向大数据及应用。李满,本科,副教授,广州工商学院工学院副院长,主讲课程python、虚拟现实,主编教材多部,研究方向大数据及应用。 前言 近年来,大数据已成为国家和企业的重要战略资源。大数据相关产业已成为我国未来科技创新和经济结构转型的战略性支柱产业之一,在国民经济的方方面面发挥着重要的作用。大数据技术的广泛应用也带来了巨大的人才缺口,各行各业都亟需大量掌握大数据处理技术的人才。要培养大数据人才,建设和完善大数据课程体系成为各高校的迫切任务。面对这种情况,高校需及时建立和完善大数据课程体系。 Hadoop作为开源的大数据平台是大数据课程教学和企业大数据应用中的重要内容。从实践教学的教学过程和反馈来看,Hadoop大数据技术课程具备较强的应用性和综合性特征,学生反映实践难度较大。为推进高校大数据课程体系的完善,满足高校实践教学的需求,加强课程中 Hadoop大数据实践环节的训练,减少学生搭建大数据实训环境的障碍,我们组织编写了本书。 本书以 Hadoop 大数据技术生态圈主流框架的应用为主线,从搭建初始化的Linux 集群到Hadoop完全分布式集群入手,重点阐述分布式文件系统 HDFS、分布式并行计算框架 MapReduce 基础编程方法,详细介绍分布式数据库 HBase、数据仓库 Hive 的安装和部署方法,拓展介绍基于内存的分布式并行计算框架 Spark 安装和部署方法以及Hadoop 应用开发环境配置过程,便于学生为后续大数据开发学习做好准备。 通过学习本书,学生即使没有任何大数据基础,也可以对照书中的步骤成功搭建属于自己的大数据集群并独立完成项目开发,从而降低学习大数据的门槛。 本书共九个实训,包括七个基础实训和两个综合案例。基础实训部分详细介绍系统和软件的安装、使用以及基础编程方法。综合案例部分侧重于系统培养学生大数据处理设计开发、编程测试、部署调优等能力,使学生加深对知识的理解。 各实训主要内容如下∶ 实训 1介绍 Linux 系统的安装。 实训2介绍分布式计算框架 Hadoop的安装和配置。实训 3介绍分布式文件系统 HDFS的操作方法和基础编程。 实训4介绍分布式数据库HBase和基干Hadoop的数据仓库 Hive 的安装和配置。实训5介绍如何编写基本的 MapReduce 程序。 实训 6介绍基于内存的分布式并行计算框架 Spark 的安装和部署。实训7介绍 Hadoop 应用开发环境的安装和部署。 实训 8 为综合案例—电信流量大数据分析统计,介绍电信流量大数据分析统计,让学生掌握 Hadoop+Spark 数据分析处理的实战应用。 实训9为综合案例——基于 Hadoop的云盘信息管理系统的设计与实现,介绍基于Hadoop的云信息管理系统的设计与实现,让学生掌握 Hadoop结合 Java Web 技术的实战应用。 本书中大数据软件之间的相互关系,由底向上简要说明如下; ①操作系统层,采用 Linux 操作系统作为基础平台。 ②数据存储与管理层,主要包括分布式文件系统 HDFS、分布式数据库 HBase 等,其中 HBase借助HDFS作为底层存储。 ③数据处理与分析层,主要包括分布式计算框架 MapReduce、数据仓库 Hive、基于内存的分布式计算框架Spark等,其中数据仓库 Hiye既可以作为数据分析工具,也可以作为数据存储和管理工具。用户可以直接编写 MapReduce程序,也可以先编写 Hive SQL 查询语句再自动转换成 MapReduce 程序执行,实现对数据存储与管理层中的数据的处理和分析。 ④Hadoop 应用开发环境,与 Java 应用开发环境类似。IDEA作为一种集成化开发工具,支持 Java、Scala 等面向对象语言,让用户既可以编写 MapReduce、Spark 等应用程序,实现数据分析和处理,也可以编写 Hadoop Java API程序实现数据存储与管理操作。 本书由广州粤嵌科技股份有限公司一线工程师和广州工商学院多年从事大数据专业教学和科研的一线教师合作编写而成。其中彭梅、胡必以波、李满任主编. 刘晓娟、左文涛、蔡敏、刘钟凌、冯毅鹏任副主编。 本书实践内容由浅到深,循序渐进,凸显学习的认知规律,着重介绍当前全新的知识和主流技术,保证学生所学知识和技术都与行业联系密切,让学生能够学以致用。 本书适合作为高等学校大数据技术及相关专业的教材,也可作为教学辅助用书与其他大数据教材配套使用。 尽管我们力求精益求精,但由干编者水平有限。书中难免存在不足及疏漏之处,敬请广大读者批评指正。 编 者2021年9月 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。