内容推荐 这本书所涉及的是代表统计领域发展很快的部分,也是对传统统计提出很重大挑战的部分,这就是在数据挖掘实践中发展的新方法。而本书所着重说明的前沿问题是:数据挖掘方法中很普遍应用的分类和回归中成为近年来发展热点的组合方法。 随着人类活动的不断发展,各个领域产生了不断增加的大量数据。由于许多数据的数据量很大,而且数据的结构曰趋复杂,传统的统计方法无法满足分析这些数据的需要,这就产生了数据挖掘的实践,以及所产生的大量新型算法。在数据挖掘中也应用一些传统统计的方法,但这些方法的理解和检验与传统统计有所不同。更重要的是在数据挖掘中产生了许多新方法,它们从任何角度来看,都接近不同于传统统计的方法。由于这些新方法和传统统计的理念接近不同,在很初只有少数统计学家感兴趣,而大多为计算机领域的工作者所开发。因此,以数据分析为宗旨的统计学科损失了大量的机会、领域和人才。很近十多年来,不断有很好的统计学家加入到数据挖掘的行列里来,数据挖掘也成为美国许多统计系的必修课程,数据挖掘因此进入了一个计算机算法和统计思维相结合的新时期。 目录 第1章数据挖掘概论 1.1引言 1.2统计学家和计算机学家从不同角度看数据挖掘 1.3数据源 1.4数据挖掘的应用 第2章传统统计面对的挑战 2.1统计的黑匣子特性 2.2统计从数学继承了什么 2.3传统的数据建模在应用中所遇到的问题 2.4算法建模 2.5回到统计的最初宗旨 第3章常用算法建模概述 3.1引言 3.2关联规则分析 3.3 最近邻方法 3.4 人工神经网络 3.5支持向量机 3.6 VC维数和误差界限
…… 精彩页 数据挖掘的数据源可以是大的数据(data),或者数据库(database),或者数据仓库(datawarehouse),或者数据集市(datamart)。当然,这些都是从外部世界收集的原始数据被存储的地方。数据挖掘需要保证可靠和方便的数据源,这意味着有大量的涉及数据库的工作要做。对数据进行分析之前,还必须根据需要来筛选,预处理和净化数据。 特别设计的为了用计算机快速搜寻和提取的数据或信息的集合称为数据库。数据库的构造使得在各种数据过程操作中可以很方便地存人、提取、修改和删除数据。数据库能够存储在磁盘、磁带、光盘或其他二级存储设备中。比如,电讯部门所有的通讯记录、银行所有业务的记录都形成了不断变化的数据库。而数据仓库则是一个面向目标的、整合的、只能够读的数据集合,是为了管理决策而建立的。对于一个企业来说,数据仓库把整个企业的各种不同的数据库整合起来,易于查询,易于对和既定目标有关的数据作出分析。而数据集市则是数据仓库的子集。比如,数据仓库是针对整个企业或总体战略的,而数据集市则可能是针对具体部门或者某一项目标的。
…… |