内容推荐 本书解释、探索了数据挖掘的主要技术,可以从数据中自动提取隐式和潜在有用的信息。数据挖掘越来越多地用于商业、科学和其他应用领域,它侧重于分类、关联规则挖掘和聚类。 书中对每个主题都进行了清晰的解释,重点是算法而不是数学公式,并通过详细的有效示例加以说明。本书是为没有强数学或统计学背景的读者写的,并详细解释了使用的所有公式。 本书适合作为本科生或研究生层次的教材,适用专业包括计算机科学、商业研究、市场营销、人工智能、生物信息学和法医学。 为了帮助读者自学,本书旨在帮助普通读者理解什么是“黑盒”,这样他们就可以有差别地使用商业数据挖掘包,高级读者或学术研究者可以对未来该领域的技术进步做出贡献。 书中每一章都有实践练习,让读者检查自己的进度。附录还包括所使用的技术术语的完整术语表。 数据挖掘原理包括对流数据分类算法的介绍,包括平稳数据(底层模型是固定的)和依赖时间的数据(底层模型不时变化)——这种现象称为概念漂移。 本书提供了前馈神经网络与反向传播的详细描述,并显示它如何可以用于分类。 作者简介 麦克斯·布拉默是英国朴次茅斯大学信息技术系荣誉教授、IFIP副主席、英国计算机学会AI专家组主席。 自从 “数据挖掘”“数据库中的知识发现”“大数据”和“预测分析”等技术兴起以来,Max积极参与了多个数据挖掘项目,尤其是与数据自动分类相关的项目。Max发表了大量技术文章,曾撰写Research and Development in Intelligent Systems等著作。Max具有多年的本科和研究生教学经验。 目录 第1章 数据挖掘简介 1.1 数据爆炸 1.2 知识发现 1.3 数据挖掘的应用 1.4 标签数据和无标签数据 1.5 监督学习:分类 1.6 监督学习:数值预测 1.7 无监督学习:关联规则 1.8 无监督学习:聚类 第2章 用于挖掘的数据 2.1 标准制定 2.2 变量的类型 2.3 数据准备 2.4 缺失值 2.4.1 丢弃实例 2.4.2 用最频繁值/平均值替换 2.5 减少属性个数 2.6 数据集的UCI存储库 2.7 本章小结 2.8 自我评估练习 第3章 分类简介:朴素贝叶斯和最近邻算法 3.1 什么是分类 3.2 朴素贝叶斯分类器 3.3 最近邻分类 3.3.1 距离测量 3.3.2 标准化 3.3.3 处理分类属性 3.4 急切式和懒惰式学习 3.5 本章小结 3.6 自我评估练习 第4章 使用决策树进行分类 4.1 决策规则和决策树 4.1.1 决策树:高尔夫示例 4.1.2 术语 4.1.3 degrees数据集 4.2 TDIDT算法 4.3 推理的类型 4.4 本章小结 4.5 自我评估练习 第5章 决策树归纳:使用熵进行属性选择 5.1 属性选择:一个实验 5.2 替代决策树 5.2.1 足球/无板篮球示例 5.2.2 匿名数据集 5.3 选择要分裂的属性:使用熵 …… 第6章 决策树归纳:使用频率表进行属性选择 第7章 估计分类器的预测精度 第8章 连续属性 第9章 避免决策树的过度拟合 第10章 关于熵的更多信息 第11章 归纳分类的模块化规则 第12章 度量分类器的性能 第13章 处理大量数据 第14章 集成分类 第15章 比较分类器 第16章 关联规则挖掘Ⅰ 第17章 关联规则挖掘Ⅱ 第18章 关联规则挖掘Ⅲ:频繁模式树 第19章 聚类 第20章 文本挖掘 第21章 分类流数据 第22章 分类流数据Ⅱ:时间权关数据 第23章 神经网络概论 附录A 基本数学知识 附录B 数据集 附录C 更多信息来源 附录D 词汇表和符号 附录E 自我评估练习题答案 |