![]()
内容推荐 本书系统讲授数据挖掘的原理、主要方法及其Python实现,共分三部分:第一部分包含第1~2章,介绍数据挖掘的基本概念、流程和数据预处理;第二部分包含第3~11章,介绍经典的分类算法(包括朴素贝叶斯分类器、决策树、k-近邻、支持向量机等)、经典的聚类分析、关联分析、人工神经网络和Web挖掘等方法;第三部包含第12~14章,共有3个综合案例,包括泰坦尼克号生存数据分析、心脏病预测分析和旅游评论倾向性分析。 本书可作为信息管理与信息系统、电于商务、大数据管理与应用等专业本科生和研究生的数据挖掘、大数据分析等课程的入门教材,同时也可作为数据挖掘爱好者及各研究机构或公司的研究人员和应用开发人员的参考书。 目录 第1章 绪论 1.1 数据挖掘的含义 1.2 数据挖掘、机器学习与人工智能 1.3 数据挖掘基本任务 1.3.1 分类与预测 1.3.2 聚类分析 1.3.3 关联分析 1.3.4 异常检测 1.3.5 其他任务 1.4 数据挖掘流程 1.4.1 明确目标 1.4.2 数据收集 1.4.3 数据探索 1.4.4 数据预处理 1.4.5 挖掘建模 1.4.6 模型评价 1.5 数据挖掘常用工具及其比较 1.5.1 Python 1.5.2 R 1.5.3 Weka 1.5.4 SPSS Modeler 1.5.5 RapidMiner 1.6 Python的安装及使用 1.6.1 WinPython 1.6.2 Anaconda 1.6.3 集成开发环境 1.7 本章小结 思考题 习题 本章参考文献 第2章 数据预处理 2.1 概述 2.2 缺失值的处理 2.2.1 缺失值的查找 2.2.2 缺失值的删除 2.2.3 缺失值的填充 2.3 异常值的处理 2.4 数据的标准化 2.4.1 Z-score标准化 2.4.2 将特征变量缩放到指定范围 2.4.3 考虑异常值的标准化 2.5 数据的正则化 2.6 自定义转换器 2.7 生成多项式和交互特征 2.8 本章小结 思考题 习题 第3章 朴素贝叶斯分类器 3.1 朴素贝叶斯分类算法相关的统计学知识 3.2 极大似然估计 3.3 贝叶斯估计 3.4 朴素贝叶斯分类算法的Python实现 3.5 本章小结 思考题 习题 本章参考文献 第4章 决策树 4.1 决策树分类算法概述 4.2 熵与信息增益 4.3 ID3算法 4.4 C4.5算法 4.5 CART算法 4.6 过拟合与决策树剪枝 4.6.1 过拟合 4.6.2 决策树剪枝 4.7 分类模型的评估 4.7.1 混淆矩阵 4.7.2 ROC曲线 4.8 实例:决策树的Python实现 4.9 本章小结 4.9.1 决策树ID3、C4.5和CART算法比较 4.9.2 决策树算法优缺点 思考题 习题 本章参考文献 第5章 集成学习 5.1 集成学习的思想 5.2 集成学习模型:结合策略 5.2.1 集成回归模型的结合策略 5.2.2 集成分类模型的结合策略 5.3 Bagging方法与随机森林 5.3.1 Bagging方法 5.3.2 随机森林 5.4 Boosting方法与Adaboost 5.4.1 Boosting方法 5.4.2 Adaboost 5.5 集成学习模型的Python实现 5.6 实例:信用卡还贷情况预测 5.7 本章小结 思考题 习题 本章参考文献 第6章 k-近邻 6.1 数据在不同维度上分布的分类表现 6.2 算法原理 6.3 相似度与距离 6.3.1 二维向量空间的KNN分类 6.3.2 多维向量空间的KNN分类 6.4 k值的选择 6.5 分类决策规则 6.6 KNN算法 6.7 kd树 6.8 实例:鸢尾花分类 思考题 习题 本章参考文献 第7章 支持向量机 7.1 SVM算法介绍 7.2 线性可分支持向量机 7.2.1 原始问题 7.2.2 对偶问题 7.2.3 算法过程 7.3 线性不可分支持向量机 7.3.1 原始问题 7.3.2 对偶问题 7.3.3 算法过程 7.4 非线性支持向量机 7.4.1 对偶问题 7.4.2 算法过程 7.5 实例:鸢尾花分类 思考题 习题 本章参考文献 第8章 人工神经网络 8.1 神经网络的基本概念 8.2 神经网络的发展过程 8.2.1 神经元 8.2.2 单层神经网络(感知器) 8.2.3 两层神经网络(多层感知器) 8.2.4 神经网络训练(反向传播) 8.3 实例:mnist手写数字识别 思考题 习题 本章参考文献 第9章 聚类分析 9.1 聚类问题 9.1.1 聚类问题的定义 9.1.2 聚类的依据:距离的定义 9.2 基于原型的聚类方法:k-均值聚类 9.2.1 k-均值聚类的原理和过程 9.2.2 k-均值聚类的特点 9.3 基于密度的聚类方法:DBSCAN 9.3.1 DBSCAN聚类方法的原理 9.3.2 DBSCAN聚类方法的特点 9.4 基于层次的聚类方法:AGNES 9.4.1 AGNES聚类方法的原理 9.4.2 AGNES聚类方法的特点 9.5 聚类结果的评价 9.6 使用Python进行聚类分析 9.7 实例:城市发展潜力评估 9.8 本章小结 思考题 习题 本章参考文献 第10章 关联分析 10.1 关联分析的基本概念 10.1.1 问题定义 10.1.2 关联分析的基本步骤 10.2 Apriori关联分析算法 10.2.1 寻找频繁项集 10.2.2 生成关联规则 10.3 FP增长算法 10.3.1 生成FP增长树 10.3.2 寻找频繁项集 10.4 使用Python进行关联分析 10.5 实例:电影观看记录信息挖掘 10.6 本章小结 思考题 习题 本章参考文献 第11章 Web挖掘 11.1 Web挖掘概述 11.1.1 Web挖掘的概念 11.1.2 Web挖掘的特点 11.1.3 Web挖掘的分类 11.2 Web挖掘技术实现 11.2.1 关联规则挖掘技术 |