内容推荐 本书是一本为机器学习初学者打造的通用教材,主要介绍回归、分类、聚类和密度估计等机器学习模型所涉及的必备数学基础知识,旨在建立微积分、线性代数、概率论与数理统计和机器学习课程的衔接,从而帮助读者理解机器学习所蕴含的数学原理、所涉及的算法与应用。 本书首先介绍机器学习的矩阵代数基础,包括线性代数基础、范数理论与投影映射、矩阵分解及应用、梯度矩阵;然后介绍机器学习的概率与优化基础,包含概率统计与信息论基础、凸函数、优化理论、迭代算法;最后介绍几个经典的机器学习模型。阅读本书需要微积分、线性代数和概率论与数理统计的基础知识。 本书可作为数学、会计、统计、计算机、金融等相关专业的高年级本科生和研究生的教学用书或参考书。 目录 前言 符号说明 第1章 线性代数基础 1.1 向量空间 1.1.1 研究对象与向量 1.1.2 群 1.1.3 向量空间的定义 1.1.4 生成集和基 1.1.5 子空间的交与和 1.2 线性映射 1.2.1 线性映射的定义 1.2.2 线性映射的矩阵表示 1.2.3 基变换 1.2.4 像集与核 1.3 内积空间 1.3.1 内积空间的定义 1.3.2 常见概念与相关结论 1.3.3 四个基本子空间 1.4 仿射子空间与仿射映射 1.4.1 仿射子空间 1.4.2 仿射映射 习题1 第2章 范数理论与投影映射 2.1 向量范数 2.1.1 向量范数的定义 2.1.2 常用的向量范数 2.1.3 向量序列的收敛性 2.1.4 向量范数的对偶范数 2.2 矩阵范数 2.2.1 矩阵范数的定义和性质 2.2.2 几种常用的矩阵范数 2.2.3 由向量范数诱导的矩阵范数 2.3 范数的一些应用 2.3.1 谱半径与矩阵范数 2.3.2 线性方程组解的扰动分析 2.4 投影映射 2.4.1 投影映射 2.4.2 正交投影的几个应用 习题2 第3章 矩阵分解及应用 3.1 方阵的两个重要数字特征 3.1.1 行列式 3.1.2 迹函数 3.2 LU分解 3.2.1 LU分解 3.2.2 平方根分解 3.3 QR分解 3.3.1 Gram-Schmidt正交化算法与QR分解 3.3.2 Householder变换法与QR分解 3.3.3 Givens旋转和QR分解 3.3.4 QR分解的应用 3.4 奇异值分解 3.4.1 特征值分解 3.4.2 奇异值分解的定义 3.4.3 奇异值分解的几何解释与性质 3.5 矩阵的低秩逼近 3.5.1 秩k逼近 3.5.2 低秩逼近的应用 习题3 第4章 梯度矩阵 4.1 标量函数的梯度矩阵 4.1.1 标量函数的梯度定义 4.1.2 标量函数对向量的梯度 4.1.3 标量函数对矩阵的梯度 4.2 矩阵函数的梯度矩阵 4.2.1 向量函数的梯度矩阵 4.2.2 矩阵函数的梯度矩阵 4.3 矩阵微分 4.3.1 矩阵微分的定义与性质 4.3.2 标量函数的矩阵微分 4.3.3 矩阵函数的矩阵微分 4.4 链式法则 4.5 标量函数的可微性 4.5.1 Fréchet可微与Gateaux可微 4.5.2 多元函数的Taylor公式 习题4 第5章 概率统计与信息论基础 5.1 概率分布、期望和方差 5.1.1 一维随机变量的概率分布 5.1.2 二维随机变量的联合分布 5.1.3 期望与方差 5.1.4 协方差矩阵与相关系数 5.1.5 样本期望与方差 5.1.6 蒙特卡罗模拟 5.2 矩和重要不等式 5.2.1 矩 5.2.2 重要不等式 5.3 多元高斯分布和加权最小二乘法 5.3.1 多元高斯分布 5.3.2 最小二乘估计 5.4 马尔可夫链 5.4.1 离散时间的马尔可夫链 5.4.2 连续时间的马尔可夫链 5.5 熵 5.5.1 离散随机变量的熵 5.5.2 连续型随机变量的微分熵 5.6 KL散度与互信息 5.6.1 KL散度 5.6.2 互信息 习题5 第6章 凸函数 6.1 凸集 6.1.1 集合的基本拓扑概念 6.1.2 仿射集合 6.1.3 凸集 6.1.4 凸集的内部与闭包 6.2 凸集的保凸运算 6.2.1 交集 6.2.2 仿射函数 6.2.3 透视函数 6.3 凸函数 6.3.1 凸函数的定义 6.3.2 水平集和上图 6.3.3 Jensen不等式 6.3.4 凸函数的极值 6.4 保凸运算与可微性条件 6.4.1 保凸运算 6.4.2 可微性与凸性 6.5 凸分离 6.5.1 投影定理 6.5.2 分离和超支撑平面的定义 6.5.3 凸分离定理 6.5.4 择一定理与不等式 6.6 拟凸函数与伪凸函数 6.6.1 拟凸函数 6.6.2 伪凸函数 6.7 次梯度 6.7.1 次梯度的定义 6.7.2 次梯度的性质与重要结论 习题6 第7章 优化理论 7.1 最优化问题 7.1.1 局部极值的最优化条件 7.1.2 最优化问题的一般形式 7.2 非光滑优化与光滑优化 7.2.1 非光滑优化 7.2.2 光滑优化 7.3 对偶理论 7.3.1 对偶问题 7.3.2 强对偶 习题7 第8章 迭代算法 8.1 线搜索方法 8.1.1 线搜索算法 8.1.2 步长的选择 8.2 梯度下降法 8.2.1 梯度下降法 8.2.2 梯度下降法的收敛性 8.2.3 随机梯度下降法 8.2.4 次梯度算法 8.3 牛顿法 8.3.1 经典牛顿法 8.3.2 牛顿法的收敛性 8.3.3 修正的牛顿法 8.3.4 拟牛顿算法 8.4 共轭梯度法 8.4.1 共轭方向 8.4.2 共轭梯度法 习题8 第9章 机器学习模型 9.1 线性模型 9.1.1 线性回归 9.1.2 逻辑回归 9.1.3 正则化 9.2 支持向量机 9.2.1 最大分类间隔分类器 9.2.2 对偶问题 9.2.3 软间隔分类器 9.3 神经网络 |