![]()
内容推荐 统计学习方法即机器学习方法,是计算机及其应用领域的一门重要学科。本书分为监督学习和无监督学习两篇,全面系统地介绍了统计学习的主要方法。包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场,以及聚类方法、奇异值分解、主成分分析、潜在语义分析、概率潜在语义分析、马尔可夫链蒙特卡罗法、潜在狄利克雷分配和PageRank算法等。 本书是统计机器学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供计算机应用等专业的研发人员参考。 作者简介 李航 日本京都大学电气工程系毕业,日本东京大学计算机科学博士。曾任日本NEC公司中央研究所研究员,微软亚洲研究院高级研究员及主任研究员,华为诺亚方舟实验室主任、首席科学家,现任字节跳动人工智能实验室总监。北京大学、南京大学客座教授。研究方向为信息检索、自然语言处理、统计机器学习及数据挖掘等。 目录 第1篇 监督学习 第1章 统计学习及监督学习概论 1.1 统计学习 1.2 统计学习的分类 1.2.1 基本分类 1.2.2 按模型分类 1.2.3 按算法分类 1.2.4 按技巧分类 1.3 统计学习方法三要素 1.3.1 模型 1.3.2 策略 1.3.3 算法 1.4 模型评估与模型选择 1.4.1 训练误差与测试误差 1.4.2 过拟合与模型选择 1.5 正则化与交叉验证 1.5.1 正则化 1.5.2 交叉验证 1.6 泛化能力 1.6.1 泛化误差 1.6.2 泛化误差上界 1.7 生成模型与判别模型 1.8 监督学习应用 1.8.1 分类问题 1.8.2 标注问题 1.8.3 回归问题 本章概要 继续阅读 习题 参考文献 第2章 感知机 2.1 感知机模型 2.2 感知机学习策略 2.2.1 数据集的线性可分性 2.2.2 感知机学习策略 2.3 感知机学习算法 2.3.1 感知机学习算法的原始形式 2.3.2 算法的收敛性 2.3.3 感知机学习算法的对偶形式 本章概要 继续阅读 习题 参考文献 第3章 k近邻法 3.1 k近邻算法 3.2 k近邻模型 3.2.1 模型 3.2.2 距离度量 3.2.3 k值的选择 3.2.4 分类决策规则 3.3 k近邻法的实现:kd树 3.3.1 构造kd树 3.3.2 搜索kd树 本章概要 继续阅读 …… 第2篇 无监督学习
序言 第2版序言 《统计学习方法》第 1版于 2012年出版,讲述了统 计机器学习方法,主要是一些常用的监督学习方法。第 2 版增加了一些常用的无监督学习方法,由此本书涵盖了传 统统计机器学习方法的主要内容。 在撰写《统计学习方法》伊始,对全书内容做了初步 规划。第 1版出版之后,即着手无监督学习方法的写作。 由于写作是在业余时间进行,常常被主要工作打断,历经 六年多时间才使这部分工作得以完成。犹未能加入深度学 习和强化学习等重要内容,希望今后能够增补,完成整本 书的写作计划。 《统计学习方法》第 1版的出版正值大数据和人工智 能的热潮,生逢其时,截至 2019年 4月本书共印刷 25次 ,152000册,得到了广大读者的欢迎和支持。有许多读者 指出本书对学习和掌握机器学习技术有极大的帮助,也有 许多读者通过电子邮件、微博等方式指出书中的错误,提 出改进的建议和意见。一些高校将本书作为机器学习课程 的教材或参考书。有的同学在网上发表了读书笔记,有的 同学将本书介绍的方法在计算机上实现。清华大学深圳研 究生院袁春老师精心制作了第 1版十二章的课件,在网上 公布,为大家提供教学之便。众多老师、同学、读者的支 持和鼓励,让作者深受感动和鼓舞。在这里向所有的老师 、同学、读者致以诚挚的谢意! 能为中国的计算机科学、人工智能领域做出一点微薄 的贡献,感到由衷的欣慰,同时也感受到作为知识传播者 的重大责任,让作者决意把本书写好。也希望大家今后不 吝指教,多提宝贵意见,以帮助继续提高本书的质量。在 写作中作者也深切体会到教学相长的道理,经常发现自己 对基础知识的掌握不够扎实,通过写作得以对相关知识进 行了深入的学习,受益匪浅。 本书是一部机器学习的基本读物,要求读者拥有高等 数学、线性代数和概率统计的基础知识。书中主要讲述统 计机器学习的方法,力求系统全面又简明扼要地阐述这些 方法的理论、算法和应用,使读者能对这些机器学习的基 本技术有很好的掌握。针对每个方法,详细介绍其基本原 理、基础理论、实际算法,给出细致的数学推导和具体实 例,既帮助读者理解,也便于日后复习。 第 2版增加的无监督学习方法,王泉、陈嘉怡、柴琛 林、赵程绮等帮助做了认真细致的校阅,提出了许多宝贵 意见,在此谨对他们表示衷心的感谢。清华大学出版社的 薛慧编辑一直对本书的写作给予非常专业的指导和帮助, 在此对她表示衷心的感谢! 由于本人水平有限,本书一定存在不少错误,恳请各 位专家、老师和同学批评指正。 李航 2019年 4月
导语 随着人工智能和大数据在社会各行各业的广泛应用,统计学习方法已经成为人们急需了解与掌握的热门知识与技术。本书为具有高等数学、线性代数和概率统计基础知识的人们提供了一本统计机器学习的基本读物。2012年的第一版叙述了一批重要和常用的主要是监督学习的方法,受到广大读者的欢迎,已加印十三万多册。第二版主要增加了无监督学习的内容,包括近十种统计学习方法,使读者能够更好地了解和掌握统计机器学习这门新兴学科。 精彩页 第 1章统计学习及监督学习概论 本书第 1篇讲述监督学习方法。监督学习是从标注数据中学习模型的机器学习问题,是统计学习或机器学习的重要组成部分。 本章简要叙述统计学习及监督学习的一些基本概念。使读者对统计学习及监督学习有初步了解。 本章 1.1节叙述统计学习或机器学习的定义、研究对象与方法; 1.2节叙述统计学习的分类,基本分类是监督学习、无监督学习、强化学习; 1.3节叙述统计学习方法的三要素:模型、策略和算法; 1.4节至 1.7节相继介绍监督学习的几个重要概念,包括模型评估与模型选择、正则化与交叉验证、学习的泛化能力、生成模型与判别模型;最后 1.8节介绍监督学习的应用:分类问题,标注问题与回归问题。 1.1统计学习 1.统计学习的特点 统计学习( statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习 (statistical machine learning)。 统计学习的主要特点是:(1)统计学习以计算机及网络为平台,是建立在计算机及网络上的;(2)统计学习以数据为研究对象,是数据驱动的学科;(3)统计学习的目的是对数据进行预测与分析;(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。 赫尔伯特·西蒙( Herbert A. Simon)曾对“学习”给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。 ”按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。现在,当人们提及机器学习时,往往是指统计机器学习。所以可以认为本书介绍的是机器学习方法。 2.统计学习的对象 统计学习研究的对象是数据( data)。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。 统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库中的数据等。由于它们具有统计规律性,所以可以用概率统计方法处理它们。比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。在统计学习中,以变量或变量组表示数据。数据分为由连续变量和离散变量表示的类型。本书以讨论离散变量的方法为主。另外,本书只涉及利用数据构建模型及利用模型对数据进行分析与预测,对数据的观测和收集等问题不作讨论。 3.统计学习的目的 统计学习用于对数据的预测与分析,特别是对未知新数据的预测与分析。对数据的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高;对数据的分析可以让人们获取新的知识,给人们带来新的发现。 对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。 4.统计学习的方法 统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。统计学习由监督学习( supervised learning)、无监督学习( unsupervised learning)和强化学习( reinforcement learning)等组成。 本书第 1篇讲述监督学习,第 2篇讲述无监督学习。可以说监督学习、无监督学习方法是最主要的统计学习方法。 统计学习方法可以概括如下:从给定的、有限的、用于学习的训练数据( training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间( hypothesis space);应用某个评价准则( evaluation criterion),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据( test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。称其为统计学习方法的三要素,简称为模型( model)、策略( strategy)和算法( algorithm)。 实现统计学习方法的步骤如下: (1)得到一个有限的训练数据集合; 1.2统计学习的分类 5 (2)确定包含所有可能的模型的假设空间,即学习模型的集合; (3)确定模型选择的准则,即学习的策略; (4)实现求解最优模型的算法,即学习的算法; (5)通过学习方法选择最优模型; (6)利用学习的最优模型对新数据进行预测或分析。 本书第 1篇介绍监督学习方法,主要包括用于分类、标注与回归问题的方 |