![]()
内容推荐 本书基于Python语言,结合实际的数据集,介绍如何使用机器学习与深度学习算法,对数据进行实战分析。本书在内容上循序渐进,先介绍了Python的基础内容,以及如何利用Python中的第三方库对数据进行预处理和探索可视化的相关操作,然后结合实际数据集,分章节介绍了机器学习与深度学习的相关算法应用。 本书为读者提供了源程序和使用的数据集,方便读者在阅读时同步运行程序,在增强学习效果的同时为读者节省了编写程序的时间。源程序使用Notebook的形式进行组织,每个小节注释清晰,讲解透彻。同时为程序配备了相应的视频讲解,辅助读者对程序能很好地理解和消化。本书在简明扼要地介绍算法原理的同时,更加注重实战应用和对结果的解读。 本书适合需要掌握机器学习与深度学习基础的读者,学习完本书后,读者将会具备选择合适算法,完成对自有数据集的预处理、建模分析与预测的能力,并且会对机器学习与深度学习算法有更深的理解。 作者简介 余本国,博士,副教授,硕士研究生导师。2001年毕业于石河子大学数学系,同年到中北大学(原华北工学院)任教,主讲线性代数、高等数学、微积分、概率统计、数学实验、Python语言、大数据分析基础等课程。2012年到加拿大York University做访问学者。现工作于海南医学院生物医学信息与工程学院。出版有个人著作《感受加拿大游学周记》《Python数据分析基础》《基于Python的大数据分析基础及实战》《Python在机器学习中的应用》等。 目录 第1章 Python机器学习入门 1.1 机器学习简介 1.1.1 机器学习是什么 1.1.2 机器学习算法分类 1.2 安装Anaconda(Python) 1.2.1 Spyder 1.2.2 Jupyter Notebook 1.2.3 JupyterLab 1.3 Python快速入门 1.3.1 列表、元组和字典 1.3.2 条件判断、循环和函数 1.4 Python基础库入门实战 1.4.1 NumPy库应用入门 1.4.2 pandas库应用入门 1.4.3 Matplotlib库应用入门 1.5 机器学习模型初探 1.6 本章小结 第2章 数据探索与可视化 2.1 缺失值处理 2.1.1 简单的缺失值处理方法 2.1.2 复杂的缺失值填充方法 2.2 数据描述与异常值发现 2.2.1 数据描述统计 2.2.2 发现异常值的基本方法 2.3 可视化分析数据关系 2.3.1 连续变量间关系可视化分析 2.3.2 分类变量间关系可视化分析 2.3.3 连续变量和分类变量间关系可视化分析 2.3.4 其他类型数据可视化分析 2.4 数据样本间的距离 2.5 本章小结 第3章 特征工程 3.1 特征变换 3.1.1 数据的无量纲化处理 3.1.2 数据特征变换 3.2 特征 3.2.1 分类特征重新编码 3.2.2 数值特征重新编码 3.2.3 文本数据的特征构建 3.3 特征选择 3.3.1 基于统计方法 3.3.2 基于递归消除特征法 3.3.3 基于机器学习的方法 3.4 特征提取和降维 3.4.1 主成分分析 3.4.2 核主成分分析 3.4.3 流形学习 3.4.4 t-SNE 3.4.5 多维尺度分析 3.5 数据平衡方法 3.5.1 基于过采样算法 3.5.2 基于欠采样算法 3.5.3 基于过采样和欠采样的综合算法 3.6 本章小结 第4章 模型选择和评估 4.1 模型拟合效果 4.1.1 欠拟合与过拟合表现方式 4.1.2 避免欠拟合与过拟合的方法 4.2 模型训练技巧 4.2.1 交叉验证 4.2.2 参数网络搜索 4.3 模型的评价指标 4.3.1 分类效果评价 4.3.2 回归效果评价 4.3.3 聚类效果评价 4.4 本章小结 第5章 假设检验和回归分析 5.1 假设检验 5.1.1 数据分布检验 5.1.2 t检验 5.1.3 方差分析 5.2 一元回归 5.2.1 一元线性回归 5.2.2 一元非线性回归 5.3 多元回归 5.3.1 多元线性回归 5.3.2 逐步回归 5.3.3 多元自适应回归样条 5.4 正则化回归分析 5.4.1 Ridge回归分析 5.4.2 LASSO回归分析 5.4.3 弹性网络回归 5.5 Logistic回归分析 5.5.1 数据准备与可视化 5.5.2 逻辑回归分类 5.6 本章小结 第6章 时间序列分析 6.1 时间序列数据的相关检验 6.1.1 白噪声检验 6.1.2 平稳性检验 6.1.3 自相关分析和偏自相关分析 6.2 移动平均算法 6.2.1 简单移动平均法 6.2.2 简单指数平滑法 6.2.3 霍尔特线性趋势法 6.2.4 Holt-Winters季节性预测模型 6.3 ARIMA模型 6.3.1 AR模型 6.3.2 ARMA模型 6.3.3 ARIMA模型 6.4 SARIMA模型 6.5 Prophet模型预测时间序列 6.5.1 数据准备 6.5.2 模型建立与数据预测 6.6 多元时间序列ARIMAX模型 6.6.1 数据准备与可视化 6.6.2 ARIMAX模型建立与预测 6.7 时序数据的异常值检测 6.7.1 数据准备与可视化 6.7.2 时序数据异常值检测 6.8 本章小结 第7章 聚类算法与异常值检测 7.1 模型简介 7.1.1 常用的聚类算法 7.1.2 常用的异常值检测算法 7.2 数据聚类分析 7.2.1 K-均值与K-中值聚类算法 7.2.2 层次聚类 7.2.3 谱聚类与模糊聚类 7.2.4 密度聚类(DBSCAN) 7.2.5 高斯混合模型聚类 7.2.6 亲和力传播聚类 7.2.7 BIRCH聚类 7.3 数据异常值检测分析 7.3.1 LOF和COF算法 7.3.2 带有异常值的高维数据探索 7.3.3 基于PCA与SOD的异常值检测方法 7.3.4 孤立森林异常值检测 7.3.5 支持向量机异常值检测 7.4 本章小结 第8章 决策树和集成学习 8.1 模型简介与数据准备 8.1.1 决策树与集成学习算法思想 8.1.2 数据准备和探索 8.2 决策树模型 8.2.1 决策树模型数据分类 8.2.2 决策树模型数据回归 8.3 随机森林模型 8.3.1 随机森林模型数据分类 8.3.2 随机森林模型数据回归 8.4 AdaBoost模型 8.4.1 AdaBoost模型数据分类 8.4.2 AdaBoost模型数据回归 8.5 梯度提升树(GBDT) 8.5.1 GBDT模型数据分类 8.5.2 GBDT模型数据回归 8.6 本章小结 第9章 贝叶斯算法和K-近邻算法 9.1 模型简介 9.2 贝叶斯分类算法 9.2.1 文本数据准备与可视化 9.2.2 朴素贝叶斯文本分 |