内容推荐 统计学习是机器学习的重要分支,本书兼顾了数学上的理解和代码实践,内容主要包括基础知识和统计学习模型。第1章、第2章结合VC维介绍过拟合的本质,并介绍手动特征选择的办法;第3章、第4章从最简单的线性模型出发经过概率统计的解读而得到分类和回归算法;第5章讨论了不依赖于假设分布的非参数模型;第6章将核方法作为一种非线性拓展的技巧介绍如何将该方法应用到很多算法中,并且引出了著名的高斯过程;第7章以混合高斯作为软分配聚类的代表性方法,从而引出著名的EM算法;第8章讨论了机器学习的集成算法;第9章介绍的线性和非线性降维方法将会解决维度灾难问题,并且不同于单纯的特征选择;第10章讨论了不依赖于独立同分布假设的时间序列算法。 本书适合对于统计学习感兴趣的大学生、工程师阅读参考。阅读本书需要具备基础的Python编程技术和基本的数学知识。 目录 第1章 防止过拟合 1.1 过拟合和欠拟合的背后 1.2 性能度量和损失函数 1.3 假设空间和VC维 1.4 偏差方差分解的意义 1.5 正则化和参数绑定 1.6 使用scikit-learn 第2章 特征选择 2.1 包裹法Warpper 2.2 过滤法Filter 2.3 嵌入法Embedded 2.4 使用scikit-learn 第3章 回归算法中的贝叶斯 3.1 快速理解判别式模型和生成式模型 3.2 极大似然估计和平方损失 3.3 最大后验估计和正则化 3.4 贝叶斯线性估计 3.5 使用scikit-learn 第4章 分类算法中的贝叶斯 4.1 广义线性模型下的sigmoid函数和softmax函数 4.2 对数损失和交叉熵 4.3 逻辑回归的多项式拓展和正则化 4.4 朴素贝叶斯分类器 4.5 拉普拉斯平滑和连续特征取值的处理方法 4.6 使用scikit-learn 第5章 非参数模型 5.1 K近邻与距离度量 5.2 K近邻与kd树 5.3 决策树和条件嫡 5.4 决策树的剪枝 5.5 连续特征取值的处理方法和基尼指数 5.6 回归树 5.7 使用scikit-learn 第6章 核方法 6.1 核方法的本质 6.2 对偶表示和拉格朗日乘子法 6.3 常见算法的核化拓展 6.4 高斯过程 6.5 使用scikit-learn 第7章 混合高斯:比高斯分布更强大 7.1 聚类的重要问题 7.2 潜变量与K均值 7.3 混合高斯和极大似然估计的失效 7.4 EM算法的核心步骤 7.5 使用scikit-learn 第8章 模型组合策略 8.1 Bagging和随机森林 8.2 Boosting的基本框架 8.3 Adaboost 8.4 GBDT和XGBoost 8.5 使用scikit-learn 第9章 核化降维和学习流形 9.1 线性降维 9.2 核化线性降维 9.3 流形学习 9.4 使用scikit-learn 第10章 处理时间序列 10.1 概率图模型和隐变量 10.2 高阶马尔可夫模型 10.3 隐马尔可夫模型 10.4 隐马尔可夫模型的EM算法 10.5 使用scikit-learn 参考文献 |