网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 Hadoop大数据技术应用实践
分类 教育考试-大中专教材-大学教材
作者 李凤莲,郑洪宾
出版社 北京师范大学出版社
下载
简介
内容推荐
本书以大数据技术中的经典实现方法Hadoop应用实践为核心、以提高学生的大数据基础理论水平和解决实践问题的能力为出发点、以培养大数据时代具有创新精神和实践能力的人才为目的。本书系统阐述了Hadoop大数据技术应用实践的原理、方法和应用相关知识,同时给出了每一章内容对应的实现指令或源程序。全书共九章内容。内容由浅入深,分为基础篇及提高篇两部分,其中第1章到第4章为基础篇,内容涵盖Hadoop初识简介、Hadoop基础环境搭建、分布式存储HDFS介绍以及MapReduce编程模型等知识,提高篇包括Hadoop数据仓库Hive、Hadoop数据库Hbase、Pig语言、Hadoop项目案例以及Mahout项目案例等较深入的知识。本书理论结合实际,每一个章节都包含有相关内容的实践部分,以便读者在了解相关知识后,能及时进行项目的实践,有助于提高读者动手实践的能力。每章提供适量习题,进一步加深对内容的理解。本书内容全面,详略得当,在简单阐述原理的基础上,重点阐述Hadoop应用实践的详细实现过程,可读性强。本书可以作为高等院校大数据技术相关专业和计算机技术、信息管理、人工智能、电子信息工程、通信工程、自动控制等专业本科生及高职院校相关课程的教材,也可供从事大数据相关研究的技术人员参考。
目录
第1章 Hadoop初识简介
1.1 Hadoop介绍
1.1.1 Hadoop简述
1.1.2 Hadoop的特点
1.1.3 Hadoop的发展
1.2 Hadoop体系架构
1.2.1 HDFS结构
1.2.2 MapReduce结构
1.2.3 HBase结构
1.2.4 Hive结构
1.2.5 Mahout介绍
1.3 Hadoop软件安装及配置
1.3.1 编译安装与基础介绍
1.3.2 Linux环境下安装
1.3.3 安装配置环境变量
1.3.4 设置免密码登陆
1.3.5 配置时间同步
本章习题
第2章 Hadoop开源项目及伪分布式实现
2.1 Zookeeper简介
2.1.1 Zookeeper介绍
2.1.2 Zookeeper用途及特点
2.1.3 Zookeeper安装使用
2.2 单节点伪分布式安装
2.2.1 Hadoop配置文件说明
2.2.2 格式化HDFS文件系统
2.2.3 进程管理
本章习题
第3章 分布式存储HDFS
3.1 HDFS分布式文件系统安装
3.1.1 HDFS介绍
3.1.2 HDFS的安装过程
3.1.3 HDFS常用的一些简单的Shell命令
3.2 HDFS的相关概念
3.2.1 块及数据分片
3.2.1 名称节点NameNode和数据节点DataNode
3.2.3 第二个名称节点SecondaryNameNode
3.3 HDFS的文件存储机制
3.3.1 文件存储机制概述
3.3.2 HDFS的命名空间
3.3.3 客户端
3.3.4 通信协议
3.4 HDFS的数据存储管理
3.4.1 数据冗余存储
3.4.2 数据存取策略
3.4.3 数据错误与恢复
3.5 HDFS的数据读写过程
3.5.1 读取数据过程
3.5.2 写入数据过程
3.6 分布式及RPC通信简介
3.6.1 什么是RPC
3.6.2 如何实现一个RPC框架
3.6.3 Hadoop的RPC框架
3.6.4 实验过程
3.7 创建HDFS项目
3.7.1 Hadoop的Shell命令
3.7.2 利用Java API与HDFS进行人机交互
本章习题
第4章 MapReduce编程模型
4.1 MapReduce简介
4.1.1 MapReduce产生
4.1.2 MapReduce的数据类型
4.2 MapReduce架构
4.2.1 MapReduce的执行过程
4.2.2 Mapper过程
4.2.3 Reducer过程
4.2.4 Shuffle过程
4.3 MapReduce接口类
4.3.1 输入的处理类
4.3.2 输出的处理类
4.4 MapReduce编程模型实现
4.4.1 创建项目
4.4.2 编写MapReduce程序代码
4.4.3 本地运行测试
4.4.4 Jar打包
4.5 MapReduce典型案例-WordCount
4.5.1 WordCount任务目标
4.5.2 基于MapReduce的WordCount设计思路
4.5.3 任务执行
4.5.4 实例演示
4.6 分布式资源调度系统YARN的安装
4.6.1 YARN的概念
4.6.2 YARN的运行机制
4.6.3 YARN资源调度方式
4.6.4 YARN的安装配置
4.7 MapReduce和YARN命令
4.7.1 Hadoop的shell脚本
4.7.2 集群上运行介绍
4.7.3 实验过程
本章习题
第5章 Hadoop数据仓库Hive
5.1 Hive简介
5.1.1 Hive设计特点
5.1.2 Hive系统架构
5.1.3 Hive数据模型
5.1.4 Hive安装
5.2 Hive DDL
5.2.1 DDL基本格式
5.2.2 Hive数据类型
5.2.3 使用Hive创建数据库
5.3 Hive DML
5.3.1 数据操纵语言DML操作
5.3.2 类型
5.3.3 向Hive插入数据
5.3.4 Hive的其他语句
5.4 基于Hive的UDF V1.0
5.4.1 UDF的使用介绍
5.4.2 实验操作
5.5 Hive数据清洗项目
5.5.1 数据清洗介绍
5.5.2 用户关系模型介绍
5.5.3 挖掘用户的基本问题
5.5.4 Hive数据清洗项目使用
5.6 Hive统计UV项目
5.6.1 PV统计(页面访问量)
5.6.2 UV统计(独立访客)
5.6.3 Hive统计UV项目的使用
本章习题
第6章 Hadoop数据库HBase
6.1 HBase简介
6.2 HBase的shell应用v2.0
6.2.1 HBase体系架构
6.2.2 HBase逻辑视图
6.2.3 HBase的使用操作
6.3 使用Hive操作HBase
6.3.1 Hive整合HBase原理
6.3.2 操作使用
6.4 HBase的JavaAPI应用
6.4.1 创建连接
6.4.2 实验步骤
6.5 HBase学生选课案例
6.5.1 学生选课案例简介
6.5.2 学生选课案例讲解与操作
6.6 HBase微博案例
6.6.1 微博案例简介
6.6.2 微博案例讲解与操作
本章练习
第7章 Pig语言
7.1 Pig简介
7.1.1 认识Pig
7.1.2 Pig和MapReduce的区别
7.1.3 Pig的用途
7.1.4 Pig和Hive
7.2 Pig的安装与运行
7.2.1 Pig包的下载
7.2.2 Pig的安装
7.3 命令行交互工具Grunt
7.3.1 Grunt介绍
7.3.2 Grunt中输入Pig Latin脚本
7.3.3 Grunt中使用HDFS命令
7.3.4 Grunt中控制Pig
7.3.5 实验案例
7.4 Pig数据模型
7.4.1 数据类型
7.4.2 模式
7.4.3 数据模型的使用
7.5 Pig Latin基础知识
7.5.1 Pig Latin介绍
7.5.2 输入和输出
7.5.3 Pig Latin的使用
7.6 Pig Latin关系操作
7.6.1 Foreach数据转换
7.6.2 Filter过滤
7.6.3 Group分组
7.6.7 Order
7.6.5 Distinct
7.6.6 Join
7.6.7 Limit by排序
7.6.8 Sample
7.6.9 Parallel
7.6.10 运行Pig程序示例
7.7 Pig Latin高级应用
7.7.1 Group应用
7.7.2 Cross应用
7.7.3 Distinct应用
7.7.4 Filter应用
7.7.5 Foreach应用
7.7.6 复杂关系应用
7.7.7 在Pig中集成遗留代码和MapReduce程序
7.7.8 非线性数据流
7.7.9 执行过程控制
7.7.10 Pig Latin预处理器
7.7.11 运行Pig程序示例
本章练习
第8章 Hadoop项目案例
8.1 QQ好友推荐算法
8.1.1 实现思路
8.1.2 代码实现
8.2 PageRank算法
8.2.1 PageRank算法简介
8.2.2 PageRank原理介绍
8.2.3 PageRank简单计算
8.3 TF-IDF算法
8.3.1 TF-IDF简介
8.3.2 TF-IDF实现
8.3.3 TF-IDF应用
8.3.4 权重
8.4 数据关联案例
8.4.1 常用思路
8.4.2 编码思路
8.4.3 实验
8.5 ETL案例
8.5.1 数据ETL
8.5.2 实验
8.6 PV、UV统计案例
8.6.1 针对某一类网址的PV、UV
8.6.2 得到PV、UV的后续处理
8.6.3 实验
8.7 用户流失和新增分析案例
8.8 Hadoop总结
8.8.1 打包作业
8.8.2 启动作业
8.8.3 提交命令封装
本章习题
第9章 Mahout项目案例
9.1 Mahout环境配置
9.1.1 单机环境配置
9.1.2 基于Hadoop集群的Mahout环境配置
9.2 协同过滤推荐算法
9.2.1 Taste简介
9.2.2 基于用户的协同过滤算法
9.2.3 基于项目的协同过滤算法
9.2.4 基于ALS的矩阵分解算法
9.2.5 基于SVD的推荐算法
9.3 聚类算法
9.3.1 Canopy聚类
9.3.2 K-Means聚类
9.3.3 Fuzzy K-Means聚类算法
9.3.4 Streaming K-Means聚类
9.3.5 Spectral谱聚类算法类
9.4 分类算法
9.4.1 Logistic回归算法
9.4.2 朴素贝叶斯分类器
9.4.3 随机森林
9.4.4 隐马尔科夫模型
本章习题
参考文献
附录
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/1/31 21:38:37