第 1 章 概述 1
1.1 背景 1
1.1.1 大数据时代下的数据增长 1
1.1.2 上层应用对数据服务的需求 4
1.2 DaaS 8
1.2.1 DaaS 的历史 8
1.2.2 DaaS 的定义 10
1.2.3 服务 11
1.2.4 服务的分类 13
1.2.5 数据服务 14
1.2.6 数据服务及其架构 16
1.2.7 数据服务的关键技术 18
1.2.8 DaaS 的特点 19
1.3 DaaS 面临的问题 19
参考文献 21
第 2 章 多源异构数据处理关键技术 22
2.1 多源异构数据的产生与收集 22
2.1.1 多源异构数据的产生 22
2.1.2 多源异构数据的收集 24
2.2 多源异构数据的存储 46
2.2.1 多源异构数据的类型 46
2.2.2 多源异构数据存储的关键技术 47
2.3 数据仓库 72
2.3.1 数据仓库的定义及特点 73
1
数据虚拟化:多源异构数据集成之道
2.3.2 数据仓库的体系结构 74
2.4 多源异构数据的组织管理 77
2.5 多源异构数据的分析 87
2.5.1 分类算法 88
2.5.2 回归算法 94
2.5.3 聚类算法 98
2.5.4 关联规则算法 99
2.5.5 神经网络算法 102
2.6 数据分析平台 113
2.6.1 Hadoop 114
2.6.2 Spark 116
2.6.3 Storm 117
2.6.4 机器学习框架 120
参考文献 122
第 3 章 数据虚拟化 124
3.1 背景 124
3.2 数据虚拟化概述 126
3.2.1 数据虚拟化的定义 128
3.2.2 数据虚拟化及其相关概念 129
3.3 数据虚拟化的技术优点 133
3.4 数据虚拟化的不同实现方式 137
3.5 数据虚拟化的应用 138
参考文献 144
第 4 章 数据虚拟化系统架构 146
4.1 数据虚拟化系统架构概述 146
4.2 数据虚拟化系统详细模型 149
4.2.1 应用层 150
4.2.2 数据虚拟化层 150
4.2.3 源数据层 151
4.3 数据虚拟化研究的问题 152
参考文献 156
2
目 录
第 5 章 数据虚拟化平面 159
5.1 数据映射层 159
5.1.1 源表格、虚拟表格、映射、封装的定义 159
5.1.2 虚拟表格和映射的例子 165
5.2 元数据组织层 174
5.2.1 元数据的基本概念 174
5.2.2 元数据的组织方法 178
5.3 数据服务层 188
5.3.1 虚拟表格的发布 188
5.3.2 虚拟表格和数据建模 193
5.3.3 数据安全:认证和授权 215
5.4 查询响应层 217
5.4.1 缓存技术 217
5.4.2 查询优化 224
参考文献 235
第 6 章 数据虚拟化的管理平面 237
6.1 源表格、封装表格、虚拟表格的同步 237
6.2 元数据组织层的管理