![]()
内容推荐 本书中文版分为基础篇和进阶篇,深入探讨了数据挖掘的各个方面,从基础知识到复杂的数据类型及其应用,捕捉了数据挖掘的各种问题领域。它超越了传统上对数据挖掘问题的关注,引入了高级数据类型,例如文本、时间序列、离散序列、空间数据、图数据和社交网络数据。到目前为止,还没有一本书以如此全面和综合的方式探讨所有这些主题。 本书是基础篇,详细介绍了针对数据挖掘的四个主要问题(聚类、分类、关联模式挖掘和异常分析)的各种解决方法、用于文本数据领域的特定挖掘方法,以及对于数据流的挖掘应用。 本书在直观解释和数学细节上取得了很好的平衡,既包含研究人员需要的数学公式,又以简单直观的方式呈现出来,方便学生和从业人员(包括数学背景有限的人)阅读。本书包括大量插图、示例和练习,并把重点放在语义可解释的示例上,特别适合作为入门级数据挖掘课程的教材。 作者简介 查鲁·C.阿加沃尔(Charu C.Aggarwal),IBM T.J.Watson研究中心杰出研究人员(DRSM),于1996年在MIT获得博士学位。他对数据挖掘领域有着广泛的研究。在国际会议和期刊上发表了300余篇论文。申请了90余项专利。他曾三次被评为IBM的“杰出发明人”(Master Inventor)。并曾获得IBM公司奖(IBM Corporate Award,2003)、IBM杰出创新奖和两项IBM杰出技术成就奖(2009,2015)。他因为提出基于冷凝的数据挖掘中的隐私保护技术而获得EDBT2014的时间检验奖(Test of Time Award)。他还获得了IEEE ICDM研究贡献奖(2015),这是数据挖掘领域对具有突出贡献的研究的两项最高奖项之一。 他曾多次担任ACM/IEEE知名国际学术会议的主席或程序委员会主席。并担任大数据相关多个知名期刊的主编或编委。由于在知识发现和数据挖掘算法上的贡献,他入选SIAM、ACM和IEEE的会士。 目录 出版者的话 译者序 前言 第1章 数据挖掘导论 1.1 引言 1.2 数据挖掘过程 1.2.1 数据预处理阶段 1.2.2 分析阶段 1.3 基本数据类型 1.3.1 非依赖型数据 1.3.2 依赖型数据 1.4 主要数据挖掘模块总览 1.4.1 关联模式挖掘 1.4.2 数据聚类 1.4.3 异常检测 1.4.4 数据分类 1.4.5 复杂数据类型对问题定义的影响 1.5 可扩展性问题和数据流场景 1.6 应用案例浅述 1.6.1 商店商品布局 1.6.2 客户推荐 1.6.3 医疗诊断 1.6.4 Web日志异常检测 1.7 小结 1.8 文献注释 1.9 练习题 第2章 数据准备 2.1 引言 2.2 特征提取和类型转换 2.2.1 特征提取 2.2.2 数据类型转换 2.3 数据清洗 2.3.1 缺失项的处理 2.3.2 错误项和不一致项的处理 2.3.3 缩放与标准化 2.4 数据约简和转换 2.4.1 采样 2.4.2 特征子集选取 2.4.3 基于坐标轴旋转的维度约简 2.4.4 基于类型转换的降维 2.5 小结 2.6 文献注释 2.7 练习题 第3章 相似度和距离 3.1 引言 3.2 多维数据 3.2.1 定量型数据 3.2.2 类别型数据 3.2.3 定量型和类别型的混合数据 3.3 文本相似性度量 3.4 时态的相似性度量 3.4.1 时间序列相似性度量 3.4.2 离散序列相似性度量 3.5 图的相似性度量 3.5.1 单个图中两个节点之间的相似度 3.5.2 两个图之间的相似度 3.6 有监督的相似度函数 3.7 小结 3.8 文献注释 3.9 练习题 第4章 关联模式挖掘 4.1 引言 4.2 频繁模式挖掘模型 4.3 关联规则的生成框架 4.4 频繁项集挖掘算法 4.4.1 暴力算法 4.4.2 Apriori算法 4.4.3 枚举树算法 4.4.4 递归的基于后缀的模式生长方法 4.5 替代模型:有趣模式 4.5.1 统计相关系数 4.5.2 χ2度量 4.5.3 兴趣比率 4.5.4 对称置信度 4.5.5 列的余弦系数 4.5.6 Jaccard系数和min-hash技巧 4.5.7 集体强度 4.5.8 与负模式挖掘的关系 4.6 有用的元算法 4.6.1 采样方法 4.6.2 数据划分集成法 4.6.3 推广到其他数据类型 4.7 小结 4.8 文献注释 4.9 练习题 第5章 关联模式挖掘:高级概念 5.1 引言 5.2 模式汇总 5.2.1 最大模式 5.2.2 闭包模式 5.2.3 近似频繁模式 5.3 模式查询 5.3.1 一次预处理多次查询 5.3.2 把限制条件放入模式挖掘 5.4 关联模式挖掘的应用 5.4.1 与其他数据挖掘问题的关系 5.4.2 购物篮分析 5.4.3 用户信息分析 5.4.4 推荐和协同过滤 5.4.5 Web日志分析 5.4.6 生物信息学 5.4.7 应用于其他复杂数据类型 5.5 小结 5.6 文献注释 5.7 练习题 第6章 聚类分析 6.1 引言 6.2 聚类的特征选取 6.2.1 过滤模型 6.2.2 包装模型 6.3 基于代表点的算法 6.3.1 k-means算法 6.3.2 k-means内核算法 6.3.3 k-medians算法 6.3.4 k-medoids算法 6.4 层次聚类算法 6.4.1 自底向上凝聚的方法 6.4.2 自顶向下分裂的方法 6.5 基于概率模型的算法 6.6 基于网格和基于密度的算法 6.6.1 基于网格的算法 6.6.2 DBSCAN 6.6.3 DENCLUE 6.7 基于图的算法 6.8 非负矩阵分解 6.9 聚类验证 6.9.1 内部验证度量 6.9.2 外部验证度量 6.9.3 评价 6.10 小结 6.11 文献注释 6.12 练习题 第7章 聚类分析:高级概念 7.1 引言 7.2 类别型数据的聚类 7.2.1 基于代表点的算法 7.2.2 层次算法 7.2.3 概率算法 7.2.4 基于图的算法 7.3 可扩展的数据聚类 7.3.1 CLARANS 7.3.2 BIRCH 7.3.3 CURE 7.4 高维数据聚类 7.4.1 CLIQUE 7.4.2 PROCLUS 7.4.3 ORCLUS 7.5 半监督聚类 7.5.1 单点监督 7.5.2 成对监督 7.6 用户监督聚类与可视化监督聚类 7.6.1 现有聚类算法的变体 7.6.2 可视化聚类 7.7 集成聚类 7.7.1 选择不同的集成组件 7.7.2 组合不同的集成组件 7.8 聚类应用 7.8.1 应用到其他数据挖掘问题 7.8.2 客户分类与协同过滤 7.8.3 文本应用 7.8.4 多媒体应用 7.8.5 时态与序列应用 7.8.6 社交网络分析 7.9 小结 7.10 文献注释 7.11 练习题 第8章 异常分析 8.1 引言 8.2 极值分析 8.2.1 单变量极值分析 8.2.2 多变量极值 8.2.3 基于深度的方法 8.3 概率模型 8.4 异常检测的聚类方法 8.5 基于距离的异常检测 导语 本书可以同时用于初级和高级数据挖掘课程。到目前为止,还没有一本书用这种全面、综合的方式来覆盖所有这些话题。 本书假设读者已经有了一些概率统计和线性代数方面的基础知识,一般掌握了理工科本科时期学习的相关内容就足够了。对业界的从业者来说,只要对这些基础知识有一定的实际经验,就可以使用本书。较强的数学背景对学习那些高级话题的章节显然会有所帮助,但并不是必需的。有些章节专门介绍特殊的数据挖掘场景,比如文本数据、时序数据、离散序列、图数据等,这种专门的处理是为了更好地展示数据挖掘在多种应用领域有用武之地。 |