网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 数据清洗与ETL技术/大数据系列丛书
分类
作者
出版社 清华大学出版社
下载
简介
内容推荐
本书为大数据时代下的产物,由浅入深地介绍大数据及其相关知识,在大数据的背景下着重介绍ETL数据处理技术,同时引入数据清洗的知识,理论与实际相结合,突出所长。在理论上,本书突出重点与难点,较为系统地介绍大数据的各项基本技术。在实践操作上,本书贴近生活,切实理解,紧跟实验进行,并从中萃取精华。同时本书还介绍ETL技术的主流工具,结合当下一些项目进行运用,并综合课后思考题,使读者在学习中体会大数据的乐趣,翱游在大数据的海洋中。
本书可作为高校新兴专业——数据科学专业的配套教材,也可作为其他专业的选修课教材,还可作为初学者的学习教程。
目录
第1章 从大数据到ETL
1.1 大数据概述
1.1.1 大数据的定义
1.1.2 大数据的基本性质
1.1.3 大数据的影响
1.1.4 大数据带来的挑战
1.2 科学处理数据
1.3 ETL简介
1.3.1 ETL的基本定义
1.3.2 ETL的基本过程
1.3.3 ETL的架构体系
1.3.4 ETL的必要性
1.3.5 ETL的分类
1.3.6 基本ETL过程与数据清理的区别
1.3.7 ETL现状与发展
1.4 数据抽取
1.4.1 数据抽取的概念
1.4.2 分类抽取
1.4.3 数据抽取的原则和方法
1.5 数据转换
1.5.1 数据转换的概念
1.5.2 类型转换
1.6 数据加载
1.6.1 数据加载的概念
1.6.2 数据加载方式
1.7 实验任务——处理论文的年份
1.8 小结
1.9 习题
第2章 数据抽取
2.1 数据源
2.1.1 关系数据库
2.1.2 非关系数据库
2.1.3 通用程序库
2.2 数据抽取方式
2.2.1 全量抽取
2.2.2 增量抽取
2.2.3 增量抽取的比较分析
2.3 Hadoop的数据抽取
2.3.1 Hadoop简介
2.3.2 Hadoop研究现状
2.3.3 环境搭建
2.3.4 数据采集
2.4 Web文件的数据抽取
2.4.1 Web文件简介
2.4.2 主要工作
2.4.3 主要工具——Connotate
2.4.4 应用分析——基于页面标签的Web结构化数据抽取
2.5 数据库的数据抽取
2.5.1 数据库简介
2.5.2 主要应用——基于ETL工具软件的数据抽取
2.6 文本文件的数据抽取
2.6.1 文本文件数据抽取及应用领域
2.6.2 网络爬虫
2.7 实验任务——MySQL环境搭建及数据抽取
2.7.1 MySQL在windows下的搭建
2.7.2 MySQL在Linux下的搭建
2.7.3 案例分析
2.8 小结
2.9 习题
第3章 数据转换
3.1 数据转换
3.1.1 数据转换的概念
3.1.2 数据转换的标准
3.1.3 数据转换的方法
3.1.4 数据之间的关联
3.2 数据清洗
3.2.1 数据清洗的主要内容
3.2.2 数据清洗研究现状
3.2.3 数据清洗的必要性
3.2.4 数据清洗的问题
3.2.5 数据清洗对工具的要求
3.2.6 数据清洗的流程
3.2.7 数据清洗的原理
3.2.8 数据清洗的方法
3.3 Python下的数据清洗
3.3.1 Python概述
3.3.2 Python的特点
3.3.3 Python Pandas——数据清洗
3.4 数据转换工具
3.4.1 Data Stage
3.4.2 Kettle
3.4.3 Informatica PowerCenter
3.4.4 ETL Automation
3.4.5 SSIS
3.4.6 几种工具之间的比较
3.5 实验任务——Kettle的分类安装及案例分析
3.5.1 Kettle的分类安装
3.5.2 案例分析——利用Kettle处理错误代码行
3.6 小结
3.7 习题
第4章 数据加载
4.1 数据加载
4.1.1 数据加载的概念
4.1.2 数据加载机制
4.2 数据加载技术
4.2.1 加载技术
4.2.2 全量数据加载流程
4.3 数据仓库
4.3.1 数据仓库基本内容
4.3.2 数据仓库架构
4.3.3 数据仓库设计
4.3.4 数据仓库的规划和需求分析
4.3.5 数据仓库的建模
4.3.6 数据仓库的物理模型分析
4.3.7 数据仓库的物理模型设计
4.4 加载SQL
4.4.1 SQL的基本内容
4.4.2 MySQL集群体
4.5 加载MyCat
4.5.1 MyCat简介
4.5.2 MyCat的关键特性
4.5.3 拓扑结构
4.5.4 MyCat的功能描述
4.5.5 MyCat下载安装
4.6 加载数据流
4.6.1 流概述
4.6.2 数据流的基本性质
4.6.3 数据流的基本操作
4.6.4 数据流的描述方法
4.7 小结
4.8 习题
第5章 大数据ETL实现
5.1 Spark的分布式ETL实现
5.1.1 Spark概述
5.1.2 Spark数据模型——RDD
5.1.3 Spark的安装配置
5.1.4 分布式ETL总体架构
5.1.5 分布式转换引擎的实现
5.1.6 SparkStreaming的实时同步实现
5.2 Spark完成在ETL时的相关技术
5.2.1 SparkApplication提交逻辑分析
5.2.2 Spark交互模式
5.2.3 使用Spark实现ETL
5.2.4 小结
5.3 Hive的ETL实现
5.3.1 Hive简介
5.3.2 Hadoop伪分布式集群搭建
5.3.3 Hive的安装配置
5.3.4 Hive的基本操作
5.4 Sqoop的ETL实现
5.4.1 Sqoop简介
5.4.2 Sqoop的安装部署
5.4.3 Sqoop的常用命令
5.4.4 案例分析——利用Sqoop进行ETL操作
5.5 小结
5.6 习题
第6章 案例分析
6.1 校园大数据建设
6.1.1 校园大数据建设背景
6.1.2 校园大数据检索需求
6.1.3 总体目标
6.1.4 建设内容
6.1.5 数据抽取
6.1.6 数据转换
6.1.7 数据仓库的建设
6.1.8 项目效益
6.2 反洗钱
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/3/4 13:10:09