网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 机器学习(Python+sklearn+TensorFlow2.0微课视频版)/大数据与人工智能技术丛书 |
分类 | |
作者 | 王衡军 |
出版社 | 清华大学出版社 |
下载 | |
简介 | 作者简介 王衡军,博士,战略支援部队信息工程大学副教授,硕士研究生导师,获得多项军队科技进步奖,近年来从事机器学习领域研究工作。 目录 源码资源 下载 第1章 绪论 1.1 机器学习是什么 1.2 机器学习算法 1.2.1 机器学习算法分类 1.2.2 机器学习算法的术语 1.3 本书的学习之路 1.4 编程环境及工具包 第2章 聚类 2.1 k均值聚类算法及应用示例 2.1.1 算法及实现 2.1.2 在手机机主身份识别中的应用示例 2.1.3 进一步讨论 2.1.4 改进算法 2.2 聚类算法基础 2.2.1 聚类任务 2.2.2 样本点常用距离度量 2.2.3 聚类算法评价指标 2.2.4 聚类算法分类 2.3 DBSCAN及其派生算法 2.3.1 相关概念及算法流程 2.3.2 邻域参数ε和MinPts的确定 2.3.3 OPTICS算法 2.4 AGNES算法 2.4.1 簇之间的距离度量 2.4.2 算法流程 2.5 练习题 第3章 回归 3.1 回归任务、评价与线性回归模型 3.1.1 回归任务 3.1.2 线性回归模型与回归评价指标 3.1.3 最小二乘法求解线性回归模型 3.2 机器学习中的最优化方法 3.2.1 最优化模型 3.2.2 迭代法 3.2.3 梯度下降法 3.2.4 全局最优与凸优化 3.2.5 牛顿法 3.3 多项式回归 3.4 过拟合与泛化 3.4.1 欠拟合、过拟合与泛化能力 3.4.2 泛化能力评估方法 3.4.3 过拟合抑制 3.5 向量相关性与岭回归 3.5.1 向量的相关性 3.5.2 岭回归算法 3.6 局部回归 3.6.1 局部加权线性回归 3.6.2 K近邻法 3.7 练习题 第4章 分类 4.1 决策树、随机森林及其应用 4.1.1 决策树分类算法 4.1.2 随机森林算法 4.1.3 在O2O优惠券使用预测示例中的应用 4.1.4 进一步讨论 4.1.5 回归树 4.2 分类算法基础 4.2.1 分类任务 4.2.2 分类模型的评价指标 4.3 逻辑回归 4.3.1 平面上二分类的线性逻辑回归 4.3.2 逻辑回归模型 4.3.3 多分类逻辑回归 4.4 Softmax回归 4.4.1 Softmax函数 4.4.2 Softmax回归模型 4.4.3 进一步讨论 4.5 集成学习与类别不平衡问题 4.5.1 装袋方法及应用 4.5.2 提升方法及应用 4.5.3 投票方法及应用 4.5.4 类别不平衡问题 4.6 练习题 第5章 特征工程、降维与超参数调优 5.1 特征工程 5.1.1 数据总体分析 5.1.2 数据可视化 5.1.3 数据预处理 5.2 线性降维 5.2.1 奇异值分解 5.2.2 主成分分析 5.3 超参数调优 5.3.1 网格搜索 5.3.2 随机搜索 5.4 练习题 第6章 概率模型与标注 6.1 概率模型 6.1.1 分类、聚类和标注任务的概率模型 6.1.2 生成模型和判别模型 6.1.3 概率模型的简化假定 6.2 逻辑回归模型的概率分析 6.3 朴素贝叶斯分类 6.3.1 条件概率估计难题 6.3.2 特征条件独立假定 6.3.3 朴素贝叶斯法的算法流程及示例 6.3.4 朴素贝叶斯分类器 6.4 EM算法与高斯混合聚类 6.4.1 EM算法示例 6.4.2 EM算法及其流程 6.4.3 高斯混合聚类 6.5 隐马尔可夫模型 6.5.1 马尔可夫链 6.5.2 隐马尔可夫模型及示例 6.5.3 前向后向算法 6.5.4 维特比算法 6.6 条件随机场模型 6.7 练习题 第7章 神经网络 7.1 神经网络模型 7.1.1 神经元 7.1.2 神经网络 7.1.3 分类、聚类、回归、标注任务的神经网络模型 7.2 多层神经网络 7.2.1 三层感知机的误差反向传播学习示例 7.2.2 误差反向传播学习算法 7.2.3 多层神经网络常用损失函数 7.2.4 多层神经网络常用优化算法 7.2.5 多层神经网络中过拟合的抑制 7.2.6 进一步讨论 7.3 竞争学习和自组织特征映射网络 7.3.1 竞争学习 7.3.2 自组织特征映射网络的结构与学习 7.4 练习题 第8章 深度学习 8.1 概述 8.2 卷积神经网络 8.2.1 卷积神经网络示例 8.2.2 卷积层 8.2.3 池化层和Flatten层 8.2.4 批标准化层 8.2.5 典型卷积神经网络 8.3 循环神经网络 8.3.1 基本单元 8.3.2 网络结构 8.3.3 长短时记忆网络 8.3.4 双向循环神经网络和深度循环神经网络 8.3.5 序列标注示例 8.4 练习题 参考文献 精彩页 第3章回归 与分簇、分类和标注任务不同,回归(Regression)任务预测的不是有限的离散的标签值,而是无限的连续值。回归任务的目标是通过对训练样本的学习,得到从样本特征集到连续值之间的映射。如天气预测任务中,预测天气是冷还是热是分类问题,而预测精确的温度值则是回归问题。 本章从较容易理解的线性回归入手,分别讨论了线性回归、多项式回归、岭回归和局部回归等算法。 本章引入了最优化计算、过拟合处理、向量相关性度量等机器学习基础知识。 某些神经网络也可完成回归任务,有关神经网络的算法将在后文有关章节中统一讨论。 视频 3.1回归任务、评价与线性回归模型 3.1.1回归任务 设样本集S={s1,s2,…,sm}包含m个样本,样本si=(xi,yi)包括一个实例xi和一个实数标签值yi,实例由n维特征向量表示,即xi=(x(1)i,x(2)i,…,x(n)i)。回归任务可分为学习过程和预测过程,如图31所示。 图31回归任务的模型 在学习过程,基于损失函数最小的思想,学习得到一个模型,该模型是从实例特征向量到实数的映射,用决策函数Y=f(X)来表示,X是定义域,它是所有实例特征向量的集合,Y是值域R。 记测试样本为x=(x(1),x(2),…,x(n))。在预测过程,利用学习到的模型来得到测试样本x的预测值y^。 误差和误差平方是回归模型的评价指标,常作为损失函数,在下文结合线性回归进行讨论。 回归常表现为用曲线或曲面(二维或高维)去逼近分布于空间中的各样本点,因此也称为拟合。直线和平面可视为特殊的曲线和曲面。 3.1.2线性回归模型与回归评价指标 当用输入样本的特征的线性组合作为预测值时,就是线性回归(Linear Regression)。 记样本为s=(x,y),其中x为样本的实例,x=(x(1),x(2),…,x(n)),x(j)为实例x的第j维特征,也直接称为该样本的第j维特征,y为样本的标签,在回归问题中,y是一个无限的连续值。 定义一个包含n个实数变量的集合{w(1),w(2),…,w(n)}和一个实数变量b,将样本的特征进行线性组合: f(x)=w(1)·x(1)+w(2)·x(2)+…+w(n)·x(n)+b (31) 就得到了线性回归模型,用向量表示为 f(x)=W·xT+b(32) 其中,向量W=(w(1)w(2)…w(n))称为回归系数,负责调节各特征的权重,标量b称为偏置,负责调节总体的偏差。显然,在线性回归模型中,回归系数和偏置就是要学习的知识。 当只有1个特征时: f(x)=w(1)·x(1)+b(33) 式(33)中,只有一个自变量,一个因变量,因此它可看作是二维平面上的直线。 下面介绍一个二维平面上的线性回归模型的例子。当温度处于15~40℃时,某块草地上小花的数量和温度值的数据如表31所示。现在要来找出这些数据中蕴含的规律,用来预测其他未测温度时的小花的数量。 表31线性回归示例温度值和小花数量 温度/℃152025303540 小花数量/朵136140155160157175 以温度为横坐标,小花数量为纵坐标作出如图32所示的点和折线图。容易看出可以用一条直线来近似该折线。在二维平面上,用直线来逼近数据点,就是线性回归的思想,类似可以推广到高维空间中,如在三维空间中,用平面来逼近数据点。那么,如何求出线性回归模型中的回归系数W和偏置b呢?在此例中,也就是如何求出该直线的斜率和截距。要求出回归系数和偏置,首先要解决评价的问题,也就是哪条线才是最逼近所有数据点的最佳直线。只有确定了标准才能有目的地寻找回归系数和偏置。 图32线性回归示例(见彩插) 对于二维平面上的直线,有两个不重合的点即可确定,仅有一个点无法确定。现在的问题是,点不是少了,而是多了,那怎么解决此问题?一个思路是,让这条直线尽可能地贴近所有点。那怎么来衡量这个“贴近”呢? 在二维平面上,让一条线去尽可能地贴近所有点,直接的想法是使所有点到该直线的距离和最小,使之最小的直线被认为是最“好”的。 距离l计算起来比较麻烦,一般采用更容易计算的残差s: si= |yi-f(xi)|(34) 图33距离和残差 式中,f(x)是拟采用的直线,如图33所示。容易理解,残差s与距离l之间存在等比例关系。因此,可以用所有点与该直线的残差和∑si代替距离和∑li作为衡量“贴近”程度的标准。 式(34)中,f(xi)即为预测值y^i。因为残差需要求绝对值,后续计算时比较麻烦,尤其是在一些需要求导的场合,因此常采用残差的平方作为衡量“贴近”程度的指标: s2i=(yi-y^i)2(35) 以上分析过程是基于线性回归模型的。非线性回归模型也采用式(35)所示的评价指标。 如同轮廓系数和DB指数等是分簇模型的评价指标,残差和残差平方是回归模型的常用评价指标。 残差称为绝对误差(Absolute Loss),残差平方称为误差平方(Squared Loss)。误差平方对后续计算比较为: 139,145和161。 第8行中,当把步长设为0.0005时,则会因为步长太 导语 本书讲解细致准确,案例易于理解,全书讲述了机器学习常见任务模型的算法及应用,实用性强。 序言 前言 本书讨论了机器学习的基本问题和基本算法。从方 便学习的目的出发,本书主要以聚类任务、回归任务、 分类任务、标注任务、概率模型、神经网络模型、深度 学习模型七个主题对相关内容进行组织。前四个主题以 机器学习的四个主要任务为核心,讨论相关算法及基础 知识。概率类模型和神经网络类模型可以完成聚类、回 归、分类和标注等多类任务,但它们各有自成体系的基 础知识,因此各设一个主题进行集中讨论,更方便读者 理解。深度学习模型属于神经网络模型,是机器学习领 域的后起之秀,对机器学习的兴起起到了至关重要的推 动作用,单独设一个主题来讨论。此外,还单独设立一 个主题对机器学习在工程应用中的特征工程、降维和超 参数调优等问题进行讨论。 本书面向的读者是初学者,在讨论具体算法时,采 用以示例入手、逐步推进的方式,并尽量给出详尽的推 导。本书没有采用伪代码的方式来介绍算法流程,而是 用文字说明加示例程序的方式。通过文字说明,读者可 以从总体上理解算法运行过程。通过运行示例程序,读 者可以精准地把握算法运行的细节、理解数据的变化过 程。本书的示例代码基于Python 3语言实现,并按需使 用了ScikitLearn(sklearn)机器学习和 TensorFlow 2.0深度学习等模块。本书不要求读者具有 深厚的数学基础,但应理解导数、矩阵、概率等基本概 念。读者还应具备基本的编程能力,能够探索运行本书 的配套示例程序。由于时间有限,书中如有错误,望读 者和专家不吝赐教。 作者2020年8月 内容推荐 本书讨论了机器学习的基本问题和基本算法。从方便学习的目的出发,本书主要以聚类任务、回归任务、分类任务、标注任务、概率模型、神经网络模型、深度学习模型七个主题对相关内容进行组织。前四个主题以机器学习的四个主要任务为核心讨论相关算法及基础知识。概率类模型和神经网络类模型可以完成聚类、回归、分类和标注等多类任务,但它们各有自成体系的基础知识,因此各设一个主题进行集中讨论,可能更方便读者理解。深度学习模型属于神经网络模型,但它具有明显的特征和广泛的应用,是机器学习领域的后起之秀 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。