金融数据挖掘/量化投资方法丛书中国经济出版社豆瓣PDF电子书bt网盘迅雷下载经济金融-金融会计-金融-霍普软件下载网

书名

金融数据挖掘/量化投资方法丛书

分类

经济金融-金融会计-金融

作者

出版社

中国经济出版社

下载

简介

编辑推荐

这本由刘振亚、李伟编著的《金融数据挖掘》以生动简明的理论陈述和案例演示，细致地介绍新颖的金融数据挖掘方法，抛砖引玉，推动金融数据挖掘系统化的研究。

本书是一本入门性读物，书中的例子也十分简单，目的是向广大读者介绍统计学习的主要方法。这里需要特别指出的是，由于投资行为受政策、环境、市场结构等诸多因素的影响，因此，对此类数据进行建模分析的难度极高，希望本书能够起到抛砖引玉的效果。

内容推荐

由刘振亚、李伟编著的《金融数据挖掘》从金融数据挖掘的数据整理(cluster and classification)和重抽样方法(resampling)开始，介绍了模型的筛选方法(selection methods)、克服高维灾难(disaster of dimensionality)的方法，以及非线性模型(non-linear models)、非参数估计(unsupervised estimation)、决策树(tree-based methods)和支持向量机(support vector machines)等数据挖掘方法，并在后面介绍了R语言的基本操作。

本书的案例均采用股票市场数据来进行数据挖掘分析，利用简明实用的一些数据挖掘方法来诠释金融数据挖掘的魅力，以期每一名本书的读者都够掌握一些本书介绍的方法，并应用于股票市场投资当中去。当然，正像所有投资书籍及投资机构都会提到的一样，本书也必须指出，“投资有风险，挖掘需谨慎”。

导言

第一章有监督的金融数据分类分析——Logit、LDA、QDA与KNN

第一节 Logistic分类法

第二节 LDA、QDA与KNN分类法

一、LDA分类法(Linear Discriminant Analysis)

二、QDA分类法(Quadratic Discriminant Analysis)

三、KNN分类法(K Nearest Neghors)

四、小结

第三节案例1：上证综合指数涨跌预测

第二章无监督的金融数据分类分析——聚类分析

第一节系统聚类法和K—means聚类法

一、系统聚类法

二、K—means聚类法

第二节案例2：系统聚类分析法的应用——股指状态阶段的判断与划分

第三节案例3：应用K—means聚类法分析月度股指数据

第三章金融数据重抽样

第一节交叉验证方法(cross—Validation)

一、基础交叉验证法

二、改进方法

三、分类问题中的交叉验证法

第二节拔靴法(Bootstrap)

第三节案例4：重抽样方法下的股指涨跌预测模型的再分析

第四章线性模型筛选

第一节子集筛选法(subset selection Methods)

一、最优子集筛选(Best subset selection)

二、逐步选择(stepwise selection)

三、选择最优模型的标准

第二节收缩筛选法(shrinkage selection Methods)

一、岭回归(Ridge Regression)

二、LaSSO方法

第三节案例5：regsubsets函数在股指涨跌预测模型筛选中的用法

一、最优子集筛选法

二、向前筛选法(Forward Selection Method)

三、向后筛选法

第五章克服维数灾难

第一节主成分分析法

一、主成分分析法的原理

二、主成分得分法与主成分回归法

第二节部分最小二乘法

一、提取方向

二、部分回归

三、主成分回归法和部分最小二乘法的优缺点

四、高维度问题小结

第三节案例6：主成分分析法在选股中的应用

结果分析

第六章决策树

第一节决策树的分类和基本知识

一、回归树(Regression Tree)

二、分类树(Classification Tree)

三、树与线性模型的对比

四、树状模型的优缺点

第二节三种提高树状模型预测精度的方法

一、Bagging

二、Random Forest

三、Boosting

第三节案例7：决策树方法在股指涨跌预测中的应用

第四节案例8：Bagging、Random Forest和Boosting

方法在决策树模型中的应用

第七章支持向量机

第一节最大边际分类器与支持向量分类器

一、最大边际分类器(The Maximal Margin Classifier)

二、支持向量分类器(Support Vector Classifier)

第二节支持向量机

一、非线性决定边界的分类法

二、支持向量机

三、SVM与岭回归、Lasso和逻辑回归的关系

第三节案例9：基于SVM方法的上证指数涨跌预测

一、判断样本点的可分性

二、SVM在实际数据中的应用的效果

三、结事爸

第八章 R语言及制图

第一节基本操作

一、向量和矩阵输入

二、数据变换和生成随机数

三、数据索引(寻址)

四、载入数据

五、其他常用函数

第二节 R环境下的线性回归

一、一元线性回归

二、多元回归

三、构造函数

第三节分类法

一、logistic回归

二、LDA模型

三、QDA模型

四、K最近邻法

第四节重采样方法

一、布尔值

二、除一交叉验证法

三、k组交叉验证法

四、Bootstrap

第五节模型的选择和调整

一、最优子集选择

二、岭回归和Lasso

第六节 R制图

一、绘图区域的布局

二、字体和颜色

三、数据点符号和线形

四、坐标轴、图例和标题

五、图形函数

试读章节

第二节案例2：系统聚类分析法的应用——股指状态阶段的判断与划分

下面用上证综合指数1990年12月至2013年12月的月度数据进行系统聚类分析。这里使用的距离都是欧氏距离，但对类与类之间的距离的定义是不同的，本案例中涉及5种距离的定义，分别是最近距离(Single)、最远距离(Complete)、中位距离(Median)、平均距离(Average)和离差平方和距离(ward)。首先我们使用最近距离定义来进行系统聚类分析，看各月股指的分类结果如何。

从图2—1中只能看到，第185号样本(2006年10月)为一类，第178号样本(2006年3月)为一类，剩下所有的样本为一类。这个聚类分析的结果就没有太大的意义了，只能说明2006年3月和2006年10月的股指与样本期内的其他月份处于不同的状态。但是这两个月份从股指走势图上却看不出有什么与其他月份股指不同的地方(见图2—2、图2—3)。

这两个月份的股指均处于2007年大牛市之前，从1990年12月至2013年12月的样本期间来看，它们虽然是低点，但均不是最低点。从原始数据上无法解释为什么这两个样本点被各自分为了一类，看不出它们与其他样本点的显著差别到底在哪里。但是有一点可以肯定的是，这两个月份都是买人的绝佳时机，因为它们的收盘价是比较低的，一个是1837点，另一个是1298点。虽然不能解释机理，但是如果将这种聚类方法的结果作为买人的依据，进而制定量化投资策略，还是有一定的实战价值的。此外，为了检验是否是距离定义方法的不同导致了这种结果，我们又使用了其他4种距离定义(最远距离、中位距离、平均距离、离差平方和距离)进行了系统聚类分析，结果变化不大，依旧能将第185号样本和178号样本区别出来。

接着，我们再使用1990—2013年的年度数据来进行聚类分析，以寻求更为明确的分析结果，这一次将5种距离定义下的聚类结果都展示出来：

从以上聚类分析结果图中可以看出，在最近距离法下，上证综合指数所经历的的年份大致可以分为六类：第一类为17号样本，即2006年；第二类为18号样本，即2007年；第三类为19号样本，即2008年；第四类为1、2号样本，即1990年、1991年；第五类为20～24号样本，即2009—2013年；第六类为其余样本，即1992—2005年。这一聚类结果具有的重要意义是：说明中国股市从2009年以来，已经处于一个新的状态，既不同于2006—2007年时的大牛市，也不同于2007—2008年的大熊市，另外，与2005年之前的股市状态也不一样，所以在分析2014年股市走向时，尽可能地应当参考2009—2013年的股市状况，而不是2008年及之前的股市状况。

下面为了进一步弄清楚2009—2013年股市状况，我们使用这一时段各月股指做聚类分析，结果如下：

聚类效果并不明显，只是发现5号样本(2009年5月)与其他样本不同，可以单独分为一类，其余分为一类。2009年5月的上证综指情形如图2—10所示：

可以看到，如果将股指视为一只股票的话，那么2009年5月的股指仍处于可以买人的位置，而且应该算是2009—2013年中比较不错的买人时机。之后在2010年中还有同样的一次买人时机，但是之后股指上涨幅度远不及2009年5月之后的那次上涨，再之后，股指基本上就整体呈现出一种下跌趋势了。

P38-44

序言

数据挖掘(Data Mining)是人们在早期对该学科的称呼，现在，学界将其称为“统计学习”(Statistical Learning)。这可能主要是由于早期很多不当的应用，使得数据挖掘的声誉受到很大的损害。但鉴于国内目前的流行叫法，本书仍采用数据挖掘之名。

统计学习是指对复杂数据集合进行分析和建模的工具。它结合了统计学和计算机科学(尤其是机器学习)的最新发展。这个领域的覆盖面很广，包括很多方面，比如岭回归(LASSO Regression)、分类回归、回归树以及支持向量机(SVM)等。

近年来，随着互联网的迅速发展，如何处理大数据(Big Data)是人们急需解决的问题。因此，统计学习近年来成为人们十分关注的研究领域。基于这些大数据，统计学习很快在市场营销、传统金融行业(银行、保险)等诸多领域得到广泛应用，并取得了很好的效果。因此，很多人需要了解和掌握统计学习领域的一些基本方法和模型。

有关统计学习最早的一本书是由斯坦福大学统计系的Hastie、Tibshirani和Friendman三位教授合写的《The Elements of Statistical Learning》(简称：ELS)，我曾指导我的博士生认真研读此书。该书对数学的要求高，主要是写给那些有较好数学背景的人士。另外一本是2014年底James等人合写的《An Introduction to Statistical Learning》 (简称：IEL)一书。当然，还有很多其他很好的有关统计学习的参考书，这里就不一一列出。

本书是根据我这些年为中国人民大学财金学院硕士研究生授课的讲稿整理、精简而成。我的博士生李博为此书的编辑出版做了很多工作。

由于作者水平所限，本书的缺点和错误之处在所难免，恳请广大读者批评指正。

刘振亚

于英国伯明翰大学J.G.Smith楼

2015年6月

书评(媒体评论)

刘振亚教授主编的量化投资方法丛书，一定会对中国基金业未来发展注入新的活力！

——中国证券投资基金业协会原会长孙杰

量化投资是现代资产管理的重要手段。随着中国证券和期货市场的逐步成熟，量化投资的理念和方法必将成为市场的主流之一。

——摩根大通期货有限公司董事长周小雄

刘振亚教授从事量化投资研究和实践多年，终于将研究成果付梓，由衷地感到高兴！

——中国人民大学金融与证券研究所所长吴晓求

随便看

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。