内容推荐 张俊妮著的这本《数据挖掘与应用(以SAS和R为工具第2版)》是数据挖掘领域的经典教材,基于北京大学光华管理学院“数据挖掘与应用”课程。本书系统、全面地介绍了数据挖掘领域的理论、技术工具以及实践方法。主要内容包括:数据准备、缺失数据、关联规则挖掘、多元统计降维、聚类分析、预测性建模、回归模型规则化、神经网络、卷积神经网络、决策树、支持向量机、模型评估、模型组合、协同过滤,并辅以大量医疗、金融、营销、保险、政府部门等应用案例。每种数据挖掘技术均配有视频课程,读者可通过扫描相应二维码免费观看,并下载数据及代码。 第二版更新 在第一版的基础上,增加5章:缺失数据、回归模型中的规则化和变量选择、卷积神经网络、支持向量机、协同过滤。已有各章亦增加了新的内容和示例。近年来,R因为其自由、免费、开源,已经发展为数据分析领域最强大的软件之一。因此,本书除了继续展示SAS程序,还增加了R程序。 作者简介 张俊妮,美国哈佛大学统计学博士,现任北京大学光华管理学院商务统计及经济计量系副教授。研究领域包括:因果推断、贝叶斯分析、蒙特卡洛方法、数据挖掘以及统计在经济、金融、营销中的应用。在Journal of American Statistical Association、Statistica Sinica、Journal of Educational and Behacioral Statistics、《经济学(季刊)》《数理统计与管理》《管理世界》等期刊上发表十余篇论文。曾获北京大学教学优秀奖,其课程曾获得光华管理学院优秀课程奖。 目录 第1章 数据挖掘概述 1.1 什么是数据挖掘 1.2 统计思想在数据挖掘中的重要性 1.3 数据挖掘的应用案例 1.4 CRISP—DM数据挖掘方法论 1.5 SEMMA数据挖掘方法论 第2章 数据理解和数据准备 2.1 数据理解 2.2 数据准备 2.3 数据理解和数据准备示例:FNBA信用卡数据 第3章 缺失数据 3.1 缺失数据模式和缺失数据机制 3.2 缺失数据机制对数据分析的影响 3.3 缺失值插补 3.4 缺失数据插补及分析示例:纽约空气质量 第4章 关联规则挖掘 4.1 关联规则的实际意义 4.2 关联规则的基本概念及Apriori算法 4.3 序列关联规则 4.4 关联规则挖掘示例 4.5 关联规则挖掘的其他讨论 第5章 多元统计中的降维方法 5.1 主成分分析 5.2 探索性因子分析 5.3 多维标度分析 第6章 聚类分析 6.1 距离与相似度的度量 6.2 k均值聚类算法 6.3 层次聚类法 第7章 预测性建模的一些基本方法 7.1 判别分析 7.2 朴素贝叶斯分类算法 7.3 后近邻法 7.4 线性回归 7.5 广义线性模型 第8章 回归模型中的规则化和变量选择 8.1 线性回归中的规则化和变量选择 8.2 广义线性模型中的规则化和变量选择 第9章 神经网络的基本方法 9.1 神经网络架构及基本组成 9.2 误差函数 9.3 神经网络训练算法 9.4 提高神经网络模型的可推广性 9.5 数据预处 9.6 神经网络建模示例 9.7 自组织图 第10章 卷积神经网络 10.1 深度神经网络 10.2 卷积神经网络架构 10.3 卷积神经网络示例:Fashion-MNIST数据 第11章 决策树 11.1 决策树简介 11.2 决策树的生长与修剪 11.3 对缺失数据的处 11.4 变量选择 11.5 决策树的优缺点 第12章 支持向量机 12.1 支持向量机用于二分类问题 12.2 支持向量机用于多分类问题 12.3 支持向量机用于回归问题 第13章 模型评估 13.1 因变量为二分变量的情形 13.2 因变量为多分变量的情形 13.3 因变量为连续变量的情形 13.4 模型评估示例:德国信用数据的模型评估 第14章 模型组合与两阶段模型 14.1 模型组合 14.2 随机森林 14.3 两阶段模型 第15章 协同过滤 15.1 基于用户(User—based)的协同过滤 15.2 基于物品(Item—based)的协同过滤 15.3 基于SVD的协同过滤 15.4 基于:Fhnk SVD的协同过滤 15.5 协同过滤示例:动漫片推荐 参考文献
|