![]()
内容推荐 《数据挖掘原理(第3版)》深入探讨重要的数据挖掘技术。所谓数据挖掘,即从数据中自动提取隐含和潜在有用的信息;该技术正越来越多地用于商业、科学和其他应用领域。本书浓墨重彩地描述分类、关联规则挖掘和聚类。 普通读者可通过本书自学数据挖掘“黑匣子”内部的基本原理,并了解如何合理地选择商业数据挖掘包。学者和资深科研人员可通过本书了解最前沿技术并进一步推动该领域的发展。 本书在第2版的基础上进行扩展,透彻讲解适用于平稳数据的H-Tree算法,以及适用于时间相关数据(概念漂移)的CDH-Tree算法。 本书在详明实例的引导下,清晰阐述每个主题,将重点放在算法上;本书详细解释所涉及的数学基础知识,这样,即便你没有很强的数学或统计学背景,同样可理解本书的内容。 每章末尾提供练习题,供读者检验自己的知识掌握水平。附录中列出完整的术语表。 本书面向计算机科学、商业研究、市场营销、人工智能、生物信息学和法医学专业的学生,可用作本科和研究生教材。 作者简介 麦克斯·布拉默是英国朴次茅斯大学信息技术系荣誉教授、IFIP副主席、英国计算机学会AI专家组主席。 自从 “数据挖掘”“数据库中的知识发现”“大数据”和“预测分析”等技术兴起以来,Max积极参与了多个数据挖掘项目,尤其是与数据自动分类相关的项目。Max发表了大量技术文章,曾撰写Research and Development in Intelligent Systems等著作。Max具有多年的本科和研究生教学经验。 目录 第1章 数据挖掘简介 1.1 数据爆炸 1.2 知识发现 1.3 数据挖掘的应用 1.4 标签和无标签数据 1.5 监督学习:分类 1.6 监督学习:数值预测 1.7 无监督学习:关联规则 1.8 无监督学习:聚类 第2章 用于挖掘的数据 2.1 标准制定 2.2 变量的类型 2.3 数据准备 2.4 缺失值 2.4.1 丢弃实例 2.4.2 用最频繁值/平均值替换 2.5 减少属性个数 2.6 数据集的UCI存储库 2.7 本章小结 2.8 自我评估练习 第3章 分类简介:朴素贝叶斯和最近邻算法 3.1 什么是分类 3.2 朴素贝叶斯分类器 3.3 最近邻分类 3.3.1 距离测量 3.3.2 标准化 3.3.3 处理分类属性 3.4 急切式和懒惰式学习 3.5 本章小结 3.6 自我评估练习 第4章 使用决策树进行分类 4.1 决策规则和决策树 4.1.1 决策树:高尔夫示例 4.1.2 术语 4.1.3 degrees数据集 4.2 TDIDT算法 4.3 推理类型 4.4 本章小结 4.5 自我评估练习 第5章 决策树归纳:使用熵进行属性选择 5.1 属性选择:一个实验 5.2 替代决策树 5.2.1 足球/无板篮球示例 5.2.2 匿名数据集 5.3 选择要分裂的属性:使用熵 5.3.1 lens24数据集 5.3.2 熵 5.3.3 使用熵进行属性选择 5.3.4 信息增益最大化 5.4 本章小结 5.5 自我评估练习 第6章 决策树归纳:使用频率表进行属性选择 6.1 实践中的熵计算 6.1.1 等效性证明 6.1.2 关于零值的说明 6.2 其他属性选择标准:多样性基尼指数 6.3 χ2属性选择准则 6.4 归纳偏好 6.5 使用增益比进行属性选择 6.5.1 分裂信息的属性 6.5.2 总结 6.6 不同属性选择标准生成的规则数 6.7 缺失分支 6.8 本章小结 6.9 自我评估练习 第7章 估计分类器的预测精度 7.1 简介 7.2 方法1:将数据划分为训练集和测试集 7.2.1 标准误差 7.2.2 重复训练和测试 7.3 方法2:k-折交叉验证 7.4 方法3:N -折交叉验证 7.5 实验结果I 7.6 实验结果II:包含缺失值的数据集 7.6.1 策略1:丢弃实例 7.6.2 策略2:用最频繁值/平均值替换 7.6.3 类别缺失 7.7 混淆矩阵 7.8 本章小结 7.9 自我评估练习 第8章 连续属性 8.1 简介 8.2 局部与全局离散化 8.3 向TDIDT添加局部离散化 8.3.1 计算一组伪属性的信息增益 8.3.2 计算效率 8.4 使用ChiMerge算法进行全局离散化 8.4.1 计算期望值和χ 8.4.2 查找阈值 8.4.3 设置minIntervals和maxIntervals 8.4.4 ChiMerge算法:总结 8.4.5 对ChiMerge算法的评述 8.5 比较树归纳法的全局离散化和局部离散化 8.6 本章小结 8.7 自我评估练习 第9章 避免决策树的过度拟合 9.1 处理训练集中的冲突 9.2 关于过度拟合数据的更多规则 9.3 预剪枝决策树 9.4 后剪枝决策树 9.5 本章小结 9.6 自我评估练习 第10章 关于熵的更多信息 10.1 简介 10.2 使用位的编码信息 10.3 区分值 10.4 对“非等可能”的值进行编码 10.5 训练集的熵 10.6 信息增益必须为正数或零 10.7 使用信息增益来简化分类任务的特征 10.7.1 示例1:genetics数据集 10.7.2 示例2:bcst96数据集 10.8 本章小结 10.9 自我评估练习 第11章 归纳分类的模块化规则 11.1 规则后剪枝 11.2 冲突解决 11.3 决策树的问题 11.4 Prism算法 11.4.1 基本Prism算法的变化 11.4.2 将Prism算法与TDIDT算法进行比较 11.5 本章小结 11.6 自我评估练习 第12章 度量分类器的性能 12.1 真假正例和真假负例 12.2 性能度量 12.3 真假正例率与预测精度 12.4 ROC图 12.5 ROC曲线 12.6 寻找最佳分类器 12.7 本章小结 12.8 自我评估练习 第13章 处理大量数据 13.1 简介 13.2 将数据分发到多个处理器 13.3 案例研究:PMCRI 13.4 评估分布式系统PMCRI的有效性 13.5 逐步修改分类器 13.6 本章小结 13.7 自我评估练习 第14章 集成分类 14.1 简介 14.2 估计分类器的性能 14.3 为每个分类器选择不同的训练集 14.4 为每个分类器选择一组不同的属性 14.5 组合分类:替代投票系统 14.6 并行集成分类器 14.7 本章小结 14.8 自我评估练习 第15章 比较分类器 15.1 简介 15.2 配对t检验 15.3 为比较评估选择数据集 15.4 抽样 15.5 “无显著差异”的结果有多糟糕? 15.6 本章小结 15.7 自我评估练习 第16章 关联规则挖掘I 16.1 简介 16.2 规则兴趣度的衡量标准 16.2.1 Piatetsky-Shapiro标准和RI度量 16.2.2 规则 序言 前 言 《数据挖掘原理(第3版)》面向计算机科学、商业研究 、市场营销、人工智能、生物信息学和法医学专业的学生 ,可用作本科生或硕士研究生的入门教材。同时,对于那 些希望进一步提高自身能力的技术或管理人员来说,《数 据挖掘原理(第3版)》也是一本极佳的自学书籍。《数据挖 掘原理(第3版)》所涉及的内容远超一般的数据挖掘入门书 籍。与许多其他书籍不同的是,在学习过程中你不需要拥 有太多的数学知识即可理解相关内容。数学是一种可以表 达复杂思想的语言。遗憾的是,99%的人都无法很好地掌 握这门语言;很多人很早就开始在学校学习一些基础知识 ,但学习过程往往充满曲折。《数据挖掘原理(第3版)》涉 及数学公式较少,将重点介绍相关概念。但遗憾的是,完 全不使用数学符号是不可能的。附录A给出开始学习《数据 挖掘原理(第3版)》需要掌握的所有内容。对于那些在学校 学习数学的人来说,这些内容应该是非常熟悉的。掌握这 些内容后,其他内容就较好理解了。如果觉得某些数学符 号难以理解,通常可放心地忽略它们,只需要关注结果和 给出的详细示例即可。而对于那些希望更深入理解数据挖 掘的数学基础知识的人来说,可参考附录C中列出的内容。 过去,没有一本关于数据挖掘的入门书可使你具备该领域 的研究水平——但现在,这样的日子已经过去了。《数据 挖掘原理(第3版)》的重点是介绍基本技术,而不是展示当 今最新的数据挖掘技术,因为大多数情况下,当拿到一《 数据挖掘原理(第3版)》时,书中介绍的技术可能已被其他 更新的技术取代了。一旦掌握了基本技术,你可通过多种 渠道来了解该领域的最新进展。附录C列出一些常用资源, 而其他附录包括有关《数据挖掘原理(第3版)》示例中使用 的主要数据集的信息,供你在自己的项目中使用。此外附 录D包括技术术语表。为便于检查对所学知识的掌握情况, 每章都包含自我评估练习。参考答案见附录E。另外说明一 下,《数据挖掘原理(第3版)》涉及大量数据集、属性和值 ,也涉及不少数学公式,字母繁多,格式复杂。为保证全 书的科学性和严谨性,中文书中,字母的正斜体与英文原 书基本保持统一。书末列出全书各章正文中引用的参考文 献。读者在阅读正文时,会不时看到引用;引用的形式为 [*],其中*为数字编号。遇到此类引用时,读者可跳转到 书末,查阅相关信息。 |