网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 支持向量机数据扰动分析
分类
作者 蔡春
出版社 清华大学出版社
下载
简介
内容推荐
本书的内容包括支持向量机概述、支持向量分类机模型、加权支持向量分类机算法、线性支持向量分类机数据扰动分析、非线性支持向量分类机数据扰动分析、线性支持向量回归机的数据扰动分析。
本书内容丰富,深入浅出。为使数学基础不同的读者都能较好地对本门知识建立起概貌,结合自己的领域实际应用该门知识,本书特别重视的是:结合简单、典型的实例,讲清楚支持向量分类机数据扰动分析理论的产生背景,系统论述了支持向量分类机数据扰动分析体系。本书不仅可作为理工科人工智能方面研究生的扩充资料,也可供数学基础较强但对本方面知识有强烈学习愿望的其他各类读者自学之用,还可作为有关专业教师和科研人员的参考书。
目录
第1章 概论
1.1 从机器学习到支持向量分类机
1.2 支持向量分类机思想
1.2.1 分类问题的提出
1.2.2 分类问题的困难
1.2.3 支持向量分类机的基本思想
1.3 支持向量分类机已有研究
1.3.1 支持向量分类机模型研究现状
1.3.2 支持向量分类机算法研究现状
1.3.3 支持向量分类机的应用
1.4 主要研究内容
1.5 组织结构
第2章 支持向量分类机算法及预备知识
2.1 线性支持向量分类机
2.1.1 线性可分问题的线性分划
2.1.2 线性不可分问题的线性分划
2.2 标准支持向量分类机
2.3 v-支持向量分类机
2.4 最优化理论
2.5 实用的非线性规划灵敏度分析理论
2.6 小结
第3章 加权支持向量分类机算法
3.1 加权支持向量分类机
3.1.1 原始问题
3.1.2 对偶问题及其与原始问题的关系
3.2 加权支持向量分类机阈值求解
3.2.1 参数b的详细推导过程
3.2.2 参数b的定理
3.3 加权支持向量分类机阈值唯一化
3.4 小结
第4章 加权线性支持向量分类机数据扰动分析
4.1 加权线性支持向量分类机数据扰动分析预备工作
4.2 加权线性支持向量分类机数据扰动分析基本定理
4.3 线性v-支持向量分类机数据扰动分析基本定理
4.4 加权线性支持向量分类机数据扰动分析算法
4.4.1 数据扰动分析算法
4.4.2 数据扰动分析算法的应用
4.5 数值试验
4.6 小结
第5章 非线性支持向量分类机数据扰动分析
5.1 预备工作
5.2 基本定理
5.3 小结
第6章 线性支持向量回归机的数据扰动分析
6.1 线性支持向量回归机表述
6.2 线性支持向量回归机数据扰动分析定理
6.3 小结
参考文献
序言
支持向量机(support vector machines,SVM)最
初是20世纪90年代由万普尼克(Vapnik)提出。万普尼克
等人在20世纪60年代开始研究有限样本情况下的机器学习
问题,提出统计学习理论(statistical learning
theory,SLT),支持向量机就是在统计学习理论框架下发
展起来的,其理论研究和应用方面都取得了突破性进展,
开始成为数据挖掘的一种新技术,而且是一种很重要的新
技术。
解决分类问题的支持向量机模型称为支持向量分类
(support vector classification,SVC)或支持向量
分类机,解决回归问题的支持向量机模型称为支持向量回
归(support vector regression,SVR)或支持向量回归
机。支持向量分类机在统计学习理论这一理论框架下产生
,在应用中表现出令人满意的结果,它已初步表现出很多
优于已有方法的性能,成为一种新的通用机器学习方法。
利用支持向量分类机构造出的分类器可以自动寻找那些对
分类有较好区分能力的支持向量、最大化两类样本点的间
隔,因而支持向量分类机有较好的推广性能和较高的分类
准确率,在解决小样本机器学习问题中表现出特有的优势
,开始成为克服“维数灾难”和“过学习”等传统困难的
有力手段。SVC正在成为继人工神经网络(artificial
neural network,ANN)研究之后新的研究热点,并将有
力地推动机器学习理论和技术的发展。
对于分类问题有两类:一类是线性可分问题,另一类
是线性不可分问题。对于线性可分问题,支持向量分类机
的基本思想就是最大化两类“间隔”,据此构造最优化模
型,求解模型可以得到可分的线性平面;对于新的样本点
的类别进行预测,就是把新样本点的数值代入所得到的线
性平面,根据这个平面算出的值的正负性进行类别判断。
对于线性不可分问题,理论上利用一个映射把原来的输入
空间Rn映射到希尔伯特(Hilbert)空间(简记为H空间)
,引入超平面的思想;而这些想法就可以通过引入核函数
来实现。核函数实质是卷积,求解原问题的沃尔夫(Wolfe
)对偶问题而建立起决策函数,全部操作仍是在原来的输
入空间Rn上进行,而不管上述概念中的H具体是什么内积空
间。
本书是关于支持向量分类机及回归机数据扰动分析的
导论性专著,它着重于训练数据误差对分类平面的影响方
面。本书简要概述了支持向量分类机的模型,支持向量分
类机决策函数阈值,重点围绕线性支持向量分类机数据扰
动分析,非线性支持向量分类机数据扰动分析理论体系进
行论述。本书试图自我包容,只需要具备数学最优化理论
的基础知识,所需的概念在每一章中均加以给出。
本书共分6章:概论、支持向量分类机算法及预备知识
、加权支持向量分类机算法、加权线性支持向量分类机数
据扰动分析、非线性支持向量分类机数据扰动分析、线性
支持向量回归机的数据扰动分析。
本书的写作受到中国农业大学理学院教授邓乃扬、北
京理工大学理学院教授刘宝光、中国农业大学理学院教授
陈奎孚、加拿大曼尼托巴大学统计学院教授王熙逵的大力
支持,在研究的具体开展中,我的同事吕书强老师也给我
提出了很好的建议,在此表示感谢。另外也以此书献给我
的家人、朋友,是他们给予我很多关心和厚爱,我才有精
力完成此书。此外还要感谢清华大学出版社的刘颖老师,
他深厚的数学功底,精心的编辑才保证此书顺利出版。
本书的出版得到北京联合大学学术出版的资助和北京
市青年拔尖人才项目的资助(项目号CIT&TCD201404080)
。在此一并感谢!
蔡春北京联合大学
2019年2月
精彩页
第1章 概论
数据挖掘源于数据库技术的发展,现在数据库可以存储海量数据,数据的快速增加与数据分析方法滞后的矛盾越来越突出,人们希望对已有的海量数据进行科学分析,得到有价值的知识,这就促使了数据挖掘的产生。数据挖掘的方法很多,经典的是统计估计方法,比如回归分析、判别分析、聚类分析等。与经典统计方法相对的是新的学习方法即机器学习方法。目前机器学习方法的主流方法是支持向量机方法。
追溯支持向量机的知识背景,就要了解另一个比较新的概念——数据挖掘[1],数据挖掘即从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。数据挖掘的任务很多,“分类”是其中一项重要的任务,即在已知类别的样本集合上(训练集)建立分类模型,求解分类模型得到决策函数,利用决策函数对未知类别的样本(待测试样本)进行分类。SVM最初是20世纪90年代由万普尼克(Vapnik)提出[2],近年来在其理论研究和应用方面都取得了突破性进展,开始成为数据挖掘的一种新技术,而且是一种很重要的新技术。目前关于支持向量机已经出版了许多著作和会议论文集[3~6]。它在许多领域都获得了成功的应用,如:模式识别[7~9],回归、函数拟合[10~19]等,现也被国内推广到经济预测[20,21]、文本分类[22~25]、人脸识别[26,27]、工程应用[28~37]、医学应用[38~40]等领域,逐渐成为国内外新的研究热点。
数据的获得有多种渠道,有用仪器测量的数据如医疗数据、建筑数据,有调查问卷获得的数据如消费数据,有各个单位报表的数据如企业数据,但无论如何,数据或多或少都有部分失真,对于部分失真的数据进行分析,我们就得考虑到数据的扰动对分析方法的影响。
本章首先介绍研究背景、提出问题,其次介绍支持向量分类机的基本思想,再次介绍支持向量分类机的发展历史、研究现状,最后对本书的研究内容、结构以及结论进行概述。
1.1从机器学习到支持向量分类机
1.1从机器学习到支持向量分类机
数据挖掘的方法很多,其中机器学习是数据挖掘的一种主流方法。基于数据的机器学习问题是人类智能研究的主要问题,它通过对已知事实的分析,总结规律,预测不能直接观测的规律。在机器学习过程中,统计学起着基础性的作用,但传统的统计学所研究的主要是渐近理论,即当样本趋向于无穷多时的统计性质。而在现实的问题中,我们所面对的样本数目通常是有限的,因此一些理论上很优秀的学习方法在实际中的表现却可能不尽如人意;虽然人们实际上一直知道这一点,但传统上仍以样本数目无穷多为假设来推导各种算法,希望这样得到的算法在样本较少时也能有较好的(至少是可接受的)表现。然而,相反的情况却经常出现,人们对于解决此类问题的努力一直在进行。
万普尼克等人在20世纪60年代开始研究有限样本情况下的机器学习问题[41],提出统计学习理论。在统计学习理论建立过程中遇到了经验风险最小化与期望风险最小化不一致的情形,为了研究机器学习过程的一致性,万普尼克和切夫耐基(Chervonenkis)于1971年[42]提出了支持向量机的重要的基础理论——VC维(VapnikChervonenkis dimension)理论。VC维是描述函数集复杂性的一个指标,VC维越大学习机器越复杂,学习机器越复杂推广能力就越难把握,为此直到20世纪90年代初期,VC维理论还没有得到很好的应用[43]。到20世纪90年代中期,随着其理论的不断发展和成熟,也由于神经网络(Neural Network,NN)等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。
万普尼克[44]进一步提出了具有划时代意义的原则——结构风险最小化(structural risk minimization,SRM)原则。在此基础上,20世纪90年代万普尼克和他的At&TBell实验室小组提出了支持向量分类机方法,该方法体现了结构风险最小化[45]原则的基本思想,进一步丰富和发展了统计学习理论,使抽象的学习理论转化为通用的实际算法。
1992年,博瑟(Boser)、吉翁(Guyon)和万普尼克在文献[45]中,提出了最优间隔分类器。1993年,科特斯(Cortes)和万普尼克在文献[46]中,进一步探讨了非线性软间隔的分类问题。1995年,万普尼克在文献[47]中,完整地提出了SVM分类方法。
SVM分类方法在统计学习理论这一理论框架下产生,在应用中表现出令人满意的结果,它已初步表现出很多优于已有方法的性能,成为一种新的通用机器学习方法[48]。利用SVM分类方法构造出的分类器可以自动寻找那些对分类有较好区分能力的支持向量、最大化两类样本点的间隔[49],因而有较好的推广性能和较高的分类准确率,在解决小样本机器学习问题中表现出特有的优势,开始成为克服“维数灾难”和“过学习”等传统困难的有力手段。SVM正在成为继人工神经网络研究之后新的研究热点,并将有力地推动机器学习理论和技术的发展。
支持向量机是解决数据挖掘问题之一——分类问题的一种重要方法,其通过求
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/3/25 7:29:37