网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 PYTHON数据挖掘与机器学习(第2版·微课视频版)
分类 教育考试-大中专教材-大学教材
作者 魏伟一 张国治 张志昌 编著
出版社 清华大学出版社
下载
简介
内容推荐
"本书主要介绍数据挖掘与机器学习的基本概念和方法,包括绪论、Python数据分析与挖掘
基础、
认识数据、数据预处理、
回归
分析、关联规则挖掘、分类、聚类、神经网络与深度学习、离群点检测
、文本和时序数据挖掘、数据挖掘案例
等内容。
各章力求原理叙述清晰,易于理解,突出理论联系实际,
辅以Python代码实践与指导,引领读者更好地理解与应用算法,快速迈进数据挖掘领域
,掌握机器学习算法的理论和应用。

本书可作为高等学校计算机科学与技术、数据科学与大数据技术等相关专业的教材,也可作为科研人员、工程师和大数据爱好者的参考书。
"
目录
扫一扫





源码下载
第1章 绪论\t………………………………………………………………………………\t1
1.1 数据挖掘简介\t…………………………………………………………………\t1
1.2 数据分析与数据挖掘\t…………………………………………………………\t2
1.3 数据挖掘的主要任务\t…………………………………………………………\t3
1.3.1 关联分析\t………………………………………………………………\t3
1.3.2 数据建模预测\t…………………………………………………………\t3
1.3.3 聚类分析\t………………………………………………………………\t4
1.3.4 离群点检测\t……………………………………………………………\t5
1.4 数据挖掘的数据源\t………………………………………………………………\t6
1.4.1 数据库数据\t……………………………………………………………\t6
1.4.2 数据仓库\t………………………………………………………………\t6
1.4.3 事务数据库\t……………………………………………………………\t7
1.4.4 其他类型数据\t…………………………………………………………\t7
1.5 数据挖掘使用的技术\t…………………………………………………………\t7
1.5.1 统计学\t…………………………………………………………………\t7
1.5.2 机器学习\t………………………………………………………………\t7
1.5.3 数据库管理系统与数据仓库\t…………………………………………\t9
1.6 数据挖掘存在的主要问题 \t……………………………………………………… \t9
1.7 数据挖掘建模的常用工具 \t…………………………………………………… \t10
1.7.1 商用工具 \t……………………………………………………………… \t10
1.7.2 开源工具 \t……………………………………………………………… \t11
1.8 为何选用 Python进行数据挖掘 \t……………………………………………… \t12
1.9 Python数据挖掘常用库 \t……………………………………………………… \t12
1.10 JupyterNotebook的使用 \t………………………………………………… \t14
1.11 小结 \t…………………………………………………………………………… \t16
习题1 \t………………………………………………………………………………… \t17
第2章 Python数据分析与挖掘基础 …………………………………………………… 18
2.1 Python程序概述 \t…………………………………………………………… \t18
2.1.1 基础数据类型 \t………………………………………………………… \t18




2.1.2 变量和赋值 \t…………………………………………………………… \t18
2.1.3 运算符和表达式 \t……………………………………………………… \t19
2.1.4 字符串 \t………………………………………………………………… \t19
2.1.5 流程控制 \t……………………………………………………………… \t20
2.1.6 函数 \t…………………………………………………………………… \t22
2.2 内建数据结构 \t……………………………………………………………… \t23
2.2.1 列表 \t…………………………………………………………………… \t23
2.2.2 元组 \t…………………………………………………………………… \t25
2.2.3 字典 \t…………………………………………………………………… \t25
2.2.4 集合 \t…………………………………………………………………… \t26
2.3 NumPy数值运算基础 \t………………………………………………………… \t27
2.3.1 创建数组对象\t………………………………………………………\t27
2.3.2 ndarray对象属性和数据转换\t………………………………………\t29
2.3.3 生成随机数\t……………………………………………………………\t30
2.3.4 数组变换\t……………………………………………………………\t31
2.3.5 数组的索引和切片\t…………………………………………………\t33
2.3.6 数组的运算\t……………………………………………………………\t34
2.3.7 NumPy中的数据统计与分析\t……………………………………\t37
2.4 Pandas统计分析基础\t…………………………………………………………\t40
2.4.1 Pandas中的数据结构\t……………………………………………\t40
2.4.2 索引对象\t……………………………………………………………\t42
2.4.3 查看 DataFrame的常用属性\t…………………………………………\t44
2.4.4 DataFrame的数据查询与编辑\t……………………………………\t45
2.4.5 Pandas数据运算………………………………………………………\t48
2.4.6 函数应用与映射\t……………………………………………………\t49
2.4.7 排序\t……………………………………………………………………\t50
2.4.8 汇总与统计\t……………………………………………………………\t51
2.4.9 数据分组与聚合\t……………………………………………………\t52
2.4.10 Pandas数据读取与存储\t…………………………………………\t57
2.5 Matplotlib图表绘制基础………………………………………………………\t59
2.5.1 Matplotlib简介\t………………………………………………………\t59
2.5.2 Matplotlib绘图基础\t………………………………………………\t60
2.5.3 设置pyplot的动态rc参数\t………………………………………\t62
2.5.4 文本注解\t………………………………………………………………\t64
2.5.5 pyplot中的常用绘图\t………………………………………………\t65
2.6 scikit-learn\t…………………………………………………………………\t71
2.6.1 scikit-learn简介 \t……………………………………………………… \t71
2.6.2 scikit-learn中的数据集 \t……………………………………………… \t72




2.6.3 scikit-learn的主要功能 \t……………………………………………… \t72
2.7 小结 \t…………………………………………………………………………… \t73
习题2 \t………………………………………………………………………………… \t74
本章实训:体检数据分析与可视化 \t………………………………………………… \t74
第3章 认识数据 ………………………………………………………………………… 77
3.1 属性及其类型 \t……………………………………………………………… \t77
3.1.1 属性 \t…………………………………………………………………… \t77
3.1.2 属性类型 \t……………………………………………………………… \t77
3.2 数据的基本统计描述 \t……………………………………………………… \t79
3.2.1 中心趋势度量 \t………………………………………………………… \t79
3.2.2 数据散布度量 \t………………………………………………………… \t81
3.3 数据可视化 \t………………………………………………………………… \t83
3.3.1 基于像素的可视化技术 \t……………………………………………… \t83
3.3.2 几何投影可视化技术 \t………………………………………………… \t83
3.3.3 基于图符的可视化技术 \t……………………………………………… \t85
3.3.4 层次可视化技术 \t……………………………………………………… \t87
3.3.5 可视化复杂对象和关系 \t……………………………………………… \t87
3.3.6 高维数据可视化 \t……………………………………………………… \t87
3.3.7 Python可视化………………………………………………………… \t88
3.4 数据对象的相似性度量 \t…………………………………………………… \t89
3.4.1 数据矩阵和相异性矩阵 \t……………………………………………… \t90
3.4.2 标称属性的相似性度量 \t……………………………………………… \t90
3.4.3 二元属性的相似性度量 \t……………………………………………… \t90
3.4.4 数值属性的相似性度量 \t……………………………………………… \t92
3.4.5 序数属性的相似性度量 \t……………………………………………… \t92
3.4.6 混合类型属性的相似性 \t……………………………………………… \t93
3.4.7 余弦相似性 \t…………………………………………………………… \t93
3.4.8 距离度量 Python实现\t………………………………………………\t94
3.5 小结\t……………………………………………………………………………\t95
习题3\t…………………………………………………………………………………\t95
本章实训:数据探索性分析\t…………………………………………………………\t96
第4章 数据预处理\t……………………………………………………………………\t100
4.1 数据预处理的必要性\t………………………………………………………\t100
4.1.1 原始数据中存在的问题\t……………………………………………\t100
4.1.2 数据质量要求\t………………………………………………………\t101
4.2 数据清洗\t………………………………………………………………………\t101
4.2.1 数据清洗方法\t……………………………………………………\t102
4.2.2 利用 Pandas进行数据清洗\t………………………………………\t103




4.3 数据集成 \t……………………………………………………………………… \t112
4.3.1 数据集成过程中的关键问题\t……………………………………\t112
4.3.2 利用 Pandas合并数据\t……………………………………………\t114
4.4 数据标准化\t……………………………………………………………………\t119
4.4.1 离差标准化数据\t……………………………………………………\t119
4.4.2 标准差标准化数据\t…………………………………………………\t119
4.5 数据归约\t……………………………………………………………………\t120
4.5.1 维归约\t………………………………………………………………\t120
4.5.2 数量归约\t……………………………………………………………\t124
4.5.3 数据压缩\t……………………………………………………………\t125
4.6 数据变换与数据离散化\t……………………………………………………\t125
4.6.1 数据变换的策略\t……………………………………………………\t125
4.6.2 Python数据变换与离散化\t…………………………………………\t127
4.7 利用scikit-learn进行数据预处理……………………………………………\t130
4.8 小结\t……………………………………………………………………………\t137
习题4\t………………………………………………………………………………\t137
本章实训:用电量数据预处理………………………………………………………\t138
第5章 回归分析\t………………………………………………………………………\t141
5.1 回归分析概述\t………………………………………………………………\t141
5.1.1 回归分析的定义与分类\t……………………………………………\t141
5.1.2 回归分析的过程\t……………………………………………………\t142
5.1.3 回归算法的评价\t……………………………………………………\t142
5.2 一元线性回归分析\t…………………………………………………………\t144
5.2.1 一元线性回归方法\t…………………………………………………\t144
5.2.2 一元线性回归模型的参数估计\t……………………………………\t145
5.2.3 一元线性回归模型的误差方差估计\t………………………………\t146
5.2.4 一元回归模型的主要统计检验\t……………………………………\t146
5.2.5 一元线性回归的 Python实现\t………………………………………\t147
5.3 多元线性回归\t………………………………………………………………\t149
5.3.1 多元线性回归模型\t…………………………………………………\t149
5.3.2 多元线性回归模型的参数估计\t……………………………………\t150
5.3.3 多元线性回归的假设检验及其评价\t………………………………\t150
5.3.4 多元线性回归的 Python实现\t………………………………………\t150
5.4 逻辑回归\t……………………………………………………………………\t152
5.4.1 逻辑回归模型\t………………………………………………………\t152
5.4.2 逻辑回归的 Python实现\t……………………………………………\t154
5.5 其他回归分析\t………………………………………………………………\t155
5.5.1 多项式回归\t…………………………………………………………\t155




5.5.2 岭回归\t………………………………………………………………\t158
5.5.3 Lasso回归\t……………………………………………………………\t160
5.5.4 弹性网络回归\t………………………………………………………\t161
5.5.5 逐步回归\t……………………………………………………………\t161
5.6 小结\t……………………………………………………………………………\t162
习题5\t………………………………………………………………………………\t162
本章实训:糖尿病数据的回归分析…………………………………………………\t163
第6章 关联规则挖掘\t…………………………………………………………………\t168
6.1 关联规则分析概述\t…………………………………………………………\t168
6.2 频繁项集、闭项集和关联规则\t……………………………………………\t169
6.3 频繁项集挖掘方法\t……………………………………………………………\t171
6.3.1 Apriori算法\t………………………………………………………\t171
6.3.2 由频繁项集产生关联规则\t…………………………………………\t172
6.3.3 提高 Apriori算法的效率\t……………………………………………\t173
6.3.4 频繁模式增长算法\t………………………………………………\t174
6.3.5 使用垂直数据格式挖掘频繁项集\t…………………………………\t176
6.4 关联模式评估方法\t…………………………………………………………\t177
6.4.1 强关联规则不一定是有趣的\t………………………………………\t178
6.4.2 从关联分析到相关分析\t……………………………………………\t178
6.5 Apriori算法应用\t……………………………………………………………\t179
6.6 小结\t……………………………………………………………………………\t181
习题6\t………………………………………………………………………………\t181
本章实训:毒蘑菇特征分析…………………………………………………………\t183
第7章 分类\t……………………………………………………………………………\t185
7.1 分类概述\t……………………………………………………………………\t185
7.2 决策树归纳\t……………………………………………………………………\t185
7.2.1 决策树原理\t………………………………………………………\t186
7.2.2 ID3算法\t…………………………………………………………\t186
7.2.3 C4.5算法\t……………………………………………………………\t190
7.2.4 CART 算法\t…………………………………………………………\t191
7.2.5 树剪枝\t………………………………………………………………\t191
7.2.6 决策树应用\t…………………………………………………………\t192
7.3 K 近邻算法\t…………………………………………………………………\t194
7.3.1 算法原理\t……………………………………………………………\t194
7.3.2 Python算法实现\t……………………………………………………\t195
7.4 支持向量机\t…………………………………………………………………\t196
7.4.1 算法原理\t……………………………………………………………\t196
7.4.2 Python算法实现\t……………………………………………………\t200




7.5 贝叶斯分类方法\t……………………………………………………………\t200
7.5.1 算法原理\t……………………………………………………………\t201
7.5.2 朴素贝叶斯分类\t……………………………………………………\t201
7.5.3 高斯朴素贝叶斯分类\t………………………………………………\t201
7.5.4 多项式朴素贝叶斯分类\t……………………………………………\t202
7.5.5 朴素贝叶斯分类应用\t………………………………………………\t203
7.6 模型评估与选择\t……………………………………………………………\t204
7.6.1 分类器性能的度量\t…………………………………………………\t204
7.6.2 模型选择\t……………………………………………………………\t208
7.7 组合分类\t……………………………………………………………………\t211
7.7.1 组合分类方法简介\t…………………………………………………\t211
7.7.2 袋装\t…………………………………………………………………\t211
7.7.3 提升和 AdaBoost\t……………………………………………………\t212
7.7.4 随机森林\t……………………………………………………………\t215
7.8 小结\t……………………………………………………………………………\t217
习题7\t………………………………………………………………………………\t217
本章实训:乳腺癌预测………………………………………………………………\t218
第8章 聚类\t……………………………………………………………………………\t222
8.1 聚类分析概述\t………………………………………………………………\t222
8.1.1 聚类分析的概念\t……………………………………………………\t222
8.1.2 聚类算法分类\t………………………………………………………\t222
8.2 K-Means聚类\t……………………………………………………………\t223
8.2.1 算法原理\t……………………………………………………………\t223
8.2.2 算法改进\t……………………………………………………………\t224
8.2.3 K-Means算法实现\t…………………………………………………\t225
8.3 层次聚类\t……………………………………………………………………\t227
8.3.1 算法原理\t……………………………………………………………\t227
8.3.2 簇间的距离度量\t……………………………………………………\t228
8.3.3 凝聚层次聚类\t………………………………………………………\t228
8.3.4 分裂层次聚类\t………………………………………………………\t229
8.3.5 层次聚类应用\t………………………………………………………\t230
8.4 基于密度的聚类\t……………………………………………………………\t231
8.4.1 算法原理\t……………………………………………………………\t231
8.4.2 算法改进\t……………………………………………………………\t232
8.4.3 DBSCAN 算法实现\t…………………………………………………\t232
8.5 其他聚类方法\t…………………………………………………………………\t234
8.5.1 STING 聚类\t…………………………………………………………\t235
8.5.2 概念聚类\t……………………………………………………………\t235




8.5.3 模糊聚类\t…………………………………………………………\t235
8.5.4 高斯混合模型聚类\t…………………………………………………\t237
8.5.5 近邻传播聚类\t………………………………………………………\t239
8.6 聚类评估\t……………………………………………………………………\t241
8.6.1 聚类趋势的估计\t……………………………………………………\t242
8.6.2 聚类簇数的确定\t……………………………………………………\t243
8.6.3 聚类质量的测定\t……………………………………………………\t244
8.7 小结\t……………………………………………………………………………\t246
习题8\t………………………………………………………………………………\t247
本章实训:鸢尾花数据聚类分析……………………………………………………\t247
第9章 神经网络与深度学习\t…………………………………………………………\t252
9.1 神经网络基础\t………………………………………………………………\t252
9.1.1 神经元模型\t…………………………………………………………\t252
9.1.2 感知机与多层网络\t…………………………………………………\t254
9.2 BP神经网络\t………………………………………………………………\t255
9.2.1 多层前馈神经网络\t…………………………………………………\t255
9.2.2 后向传播算法\t………………………………………………………\t256
9.2.3 BP神经网络应用\t……………………………………………………\t259
9.3 深度学习\t………………………………………………………………………\t262
9.3.1 深度学习概述\t………………………………………………………\t262
9.3.2 常用的深度学习算法\t………………………………………………\t263
9.4 小结 \t…………………………………………………………………………… \t265
习题9 \t……………………………………………………………………………… \t265
本章实训:应用BP神经网络实现鸢尾花分类 \t…………………………………… \t266
第10章 离群点检测 …………………………………………………………………… 268
10.1 离群点概述 \t……………………………………………………………… \t268
10.1.1 离群点的概念 \t…………………………………………………… \t268
10.1.2 离群点的类型 \t…………………………………………………… \t269
10.1.3 离群点检测的挑战 \t……………………………………………… \t270
10.2 离群点的检测 \t…………………………………………………………… \t270
10.2.1 基于统计学的离群点检测 \t……………………………………… \t271
10.2.2 基于邻近性的离群点检测 \t……………………………………… \t271
10.2.3 基于聚类的离群点检测 \t………………………………………… \t273
10.2.4 基于分类的离群点检测 \t………………………………………… \t274
10.3 scikit-learn中的异常检测方法 \t…………………………………………… \t274
10.4 小结 \t………………………………………………………………………… \t276
习题10 \t…………………………………………………………………………… \t277
本章实训:离群点检测 …………………………………………………………… 277




第11章 文本和时序数据挖掘 \t………………………………………………………… \t281
11.1 文本数据挖掘 \t……………………………………………………………… \t281
11.1.1 文本挖掘概述 \t…………………………………………………… \t281
11.1.2 文本挖掘的过程与任务 \t………………………………………… \t281
11.1.3 文本分析与挖掘的主要方法 \t…………………………………… \t282
11.2 时序数据挖掘 \t……………………………………………………………… \t291
11.2.1 时间序列和时间序列数据分析 \t………………………………… \t291
11.2.2 时间序列平稳性和随机性判定 \t………………………………… \t292
11.2.3 自回归滑动平均模型(ARMA)………………………………… \t296
11.2.4 差分整合移动平均自回归模型(ARIMA) \t…………………… \t297
11.2.5 季节性差分自回归移动平均模型(SARIMA)………………… \t301
11.3 小结 \t………………………………………………………………………… \t302
习题11 \t…………………………………………………………………………… \t303
第12章 数据挖掘案例 ………………………………………………………………… 304
12.1 泰坦尼克号乘客生还预测 \t………………………………………………… \t304
12.2 使用逻辑回归、SVM 和 BP神经网络进行手写体数字识别\t……………\t307
12.3 客户数据聚类分析\t…………………………………………………………\t310
12.4 图像的聚类分割\t……………………………………………………………\t313
12.5 小结\t…………………………………………………………………………\t315
参考文献\t…………………………………………………………………………………\t316
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/1/31 13:55:53