本书为北京大学光华管理学院教材。全书共分十章,主要内容包括数据理解和数据准备,多元统计中的降维方法,预测性建模的一些基本方法,神经网络,决策树,模型评估等。本书实例丰富,并附有相应SAS程序,以便于学生尽快理解相关内容并用以解决实际问题。
本书全面地介绍了数据挖掘的相关主题,包括数据理解与数据准备、关联规则挖掘、多元统计中的降维方法、聚类分析、神经网络、决策树方法、模型评估等内容。全书体系完整,文字精炼,注重对数据挖掘方法的直觉理解及其应用;同时,保持了一定的严谨性,为学生理解和运用这些方法提供了坚实的基础。
本书实例丰富,并附有相应SAS程序,以便于学生尽快理解相关内容并用以解决实际问题。
本书配有教辅,可以免费提供给任课教师使用。如需要,欢迎填写书后的“教师反馈及课件申请表”索取。
第一章 数据挖掘概述/1
1.1 什么是数据挖掘/2
1.2 数据挖掘的应用/2
1.3 数据挖掘方法论/8
第二章 数据理解和数据准备/12
2.1 数据理解/14
2.2 数据准备/16
2.3 使用SAS进行数据理解和数据准备:FNBA信用卡数据/29
第三章 关联规则挖掘/39
3.1 关联规则的实际意义/40
3.2 关联规则的基本概念及Apriori算法/41
3.3 负关联规则/45
3.4 序列关联规则/47
3.5 使用SAS进行关联规则挖掘/48
第四章 多元统计中的降维方法/52
4.1 主成分分析/53
4.2 探索性因子分析/59
4.3 多维标度分析/65
第五章 聚类分析/70
5.1 距离与相似度的度量/72
5.2 k均值聚类法/76
5.3 层次聚类法/79
第六章 预测性建模的一些基本方法/85
6.1 判别分析/86
6.2 朴素贝叶斯分类算法/88
6.3 k近邻法/89
6.4 线性模型与广义线性模型/91
第七章 神经网络/99
7.1 神经网络架构及基本组成/100
7.2 误差函数/106
7.3 神经网络训练算法/110
7.4 提高神经网络模型的可推广性/114
7.5 数据预处理/116
7.6 使用SAS建立神经网络模型/117
7.7 自组织图/129
第八章 决策树/136
8.1 决策树简介/137
8.2 决策树的生长与修剪/139
8.3 对缺失数据的处理/145
8.4 变量选择/146
8.5 决策树的优缺点/147
第九章 模型评估/158
9.1 因变量为二分变量的情形/159
9.2 因变量为多分变量的情形/169
9.3 因变量为连续变量的情形/170
9.4 使用SAS评估模型/171
第十章 模型组合与两阶段模型/175
10.1 模型组合/176
10.2 随机森林/180
10.3 两阶段模型/182
参考文献/184