![]()
内容推荐 本书的宗旨是既要介绍传统的回归和分类方法,又要引入大量更加有效的机器学习方法,并且通过实际例子,运用R和Python两种软件来让读者理解各种方法的意义和实践,能够自主做数据分析并得到结论。本书主要内容包括:经典线性回归、广义线性模型、混合效应模型(分层模型)、机器学习回归方法(决策树、bagging、随机森林、各种boosting方法、人工神经网络、支持向量机、k很近邻方法)、生存分析及Cox模型、经典判别分析与logistic回归分类、机器学习分类方法(决策树、bagging、随机森林、AdAboost、人工神经网络、支持向量机、k很近邻方法)。其中,混合效应模型、生存分析及Cox模型的内容可根据需要选用。 目录 章引言 1.1作为科学的统计 1.1.1统计是科学 1.1.2模型驱动的历史及数据驱动的未来 1.1.3数据中的信息是由观测值数目及相关变量的数目决定的 1.2传统参数模型和机器学习算法模型 1.2.1参数模型比算法模型容易解释是伪命题 1.2.2参数模型的竞争模型的对立性和机器学习不同模型的协和性 1.2.3评价和对比模型 1.3数理统计中显著性检验及置信区间本质的启示 1.3.1关于正态均值肛的显著性检验的逻辑过程 1.3.2显著性检验的逻辑错误 1.3.3关于正态均值肛的置信区间与相应假设检验的等价性 1.3.4究竟有没有必要花那么大功夫去研究均值? 第2章经典线性回归 2.1模型形式 2.1.1自变量为一个数量变量的情况 2.1.2自变量为多个数量变量的情况 2.1.3“线性”是对系数而言 2.2用最小二乘法估计线性模型 2.2.1一个数量自变量的情况 2.2.2指数变换 2.2.3多个数量自变量的情况 2.2.4自变量为定性变量的情况 2.3回归系数的大小没有可解释性 2.3.1“皇帝的新衣” 2.3.2最小二乘线性回归仅仅是回归方法之一,过多的延伸是浪费 2.4关于线性回归系数的性质和推断* 2.4.1基本假定 2.4.2关于H0:βi=0?H1:βi≠0的t检验 2.4.3关于多自变量系数复合假设F检验及方差分析表 2.4.4定性变量的显著性必须从方差分析表看出 2.4.5关于残差的检验及点图 2.5通过一个“教科书数据”来理解简单最小二乘回归 2.5.1几种竞争的线性模型 2.5.2孤立看模型可能会产生多个模型都“正确”的结论 2.5.3多个模型相比较以得到相对较好的模型 2.5.4对嘌呤霉素数据(例2.5)的6个模型做预测精度的交叉验证 2.6一个“非教科书数据”的例子 2.6.1线性回归的尝试 2.6.2和其他方法的交叉验证比较 2.7处理线性回归多重共线性的经典方法* 2.7.1多重共线性 2.7.2逐步回归 2.7.3岭回归 2.7.4lasso回归 2.7.5适应性lasso回归 2.7.6偏最小二乘回归 2.7.7糖尿病数据(例2.7):比较几种方法的预测性 2.8损失函数及分位数回归简介 2.8.1损失函数 2.8.2恩格尔数据例子的分位数回归 2.9本章Python运行代码 2.9.1例2.1汽车数据 2.9.2例2.2岩心数据 2.9.3例2.4植物生长数据 2.9.4例2.5嘌呤霉素数据 2.9.5例2.6混凝土强度数据 …… 第3章广义线性模型 第4章机器学习回归方法 第5章经典分类:判别分析 第6章机器学习分类方法 第7章混合效应模型* 第8章生存分析及Cox模型* 第9章基本软件:R和Python 参考文献 |