本书着重介绍分布式计算的思想及其在统计学以及机器学习中的应用,将传统统计学与机器学习中的经典方法和现代分布式算法相结合,强化学生的分布式统计计算的编程能力和对相关方法的理解,努力在统计计算和分布式计算之间搭建起一座桥梁。本书亦围绕统计学中的不同问题提供了丰富的实际案例以及详细的实现代码,帮助使用者快速理解相关分布式的核心思想,提升编程能力,进而可以熟练地进行大数据的统计分析和研究。
本书可作为统计学与数据科学相关专业高年级本科生与研究生教材,也可供相关大数据分析方向从业者与研究者参考。
网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 分布式统计计算(应用统计硕士新编21世纪研究生系列教材) |
分类 | 科学技术-自然科学-数学 |
作者 | |
出版社 | 中国人民大学出版社 |
下载 | |
简介 | 内容推荐 本书着重介绍分布式计算的思想及其在统计学以及机器学习中的应用,将传统统计学与机器学习中的经典方法和现代分布式算法相结合,强化学生的分布式统计计算的编程能力和对相关方法的理解,努力在统计计算和分布式计算之间搭建起一座桥梁。本书亦围绕统计学中的不同问题提供了丰富的实际案例以及详细的实现代码,帮助使用者快速理解相关分布式的核心思想,提升编程能力,进而可以熟练地进行大数据的统计分析和研究。 本书可作为统计学与数据科学相关专业高年级本科生与研究生教材,也可供相关大数据分析方向从业者与研究者参考。 作者简介 冯兴东,上海财经大学统计与管理学院院长、统计学教授、博士生导师。研究领域为数据降维、稳健方法、分位数回归以及在经济问题中的应用、大数据统计计算、强化学习等,在国际顶级统计学期刊Journal of the American Statistical Association,Anmals of Statistics,Journal of the Royal Statistical Society-Series B,Biometrika以及人工智能顶会NeurIPS上发表论文多篇。2018年入选国际统计学会推选会员(Elected member),2019年担任全国青年统计学家协会副会长以及全国统计教材编审委员会第七届委员会专业委员(数据科学与大数据应用组),2020年担任第八届国务院学科评议组(统计学)成员,2022年担任全国应用统计专业硕士教指委委员,兼任国际统计学权威期刊Annals of Applied Statistics编委(Associate Editor)以及国内统计学权威期刊《统计研究》编委。 目录 第1章 Apache Spark简介 1.1 Apache Spark的历史与现状 1.2 安装和运行Apache Spark 1.3 Apache Spark编程简介 1.4 Scala语言简介 1.4.1 Scala开发环境配置及IntelliJIDEA 1.4.2 Scala编程简介 1.4.3 PySpark编程简介 1.5 Spark编程 1.5.1 Spark系统简介 1.5.2 弹性分布式数据集 1.5.3 RDD文件上的操作 1.5.4 Spark中两个抽象概念 1.6 公共数据集 第2章 Breeze程序包 2.1 创建向量、矩阵及其简单计算 2.2 整行或整列的运算 2.3 常用数学计算 2.4 常用分布 2.5 基于Breeze包的分布式计算 第3章 随机模拟和统计推断 3.1 随机数的产生 3.1.1 逆累积分布函数法 3.1.2 拒绝法 3.1.3 示例:从回归模型中模拟数据 3.2 EM优化 3.2.1 EM算法 3.2.2 收敛性分析 3.2.3 分布式EM算法 3.2.4 示例:高斯混合模型 第4章 马尔科夫链蒙特卡洛方法 4.1 Metropolis-Hastings算法 4.2 Slice取样法 4.3 Gibbs取样法 第5章 优化算法 5.1 数值计算方法 5.1.1 (随机)梯度下降算法 5.1.2 示例:分布式的线性回归估计 5.2 近端梯度算法 5.2.1 算法介绍 5.2.2 示例:基于近端梯度算法的分布式Lasso回归参数估计 5.3 交替方向乘子法 5.3.1 算法介绍 5.3.2 示例:分位数回归分布式参数估计 5.4 有限内存BFGS算法 第6章 自举法 6.1 自由自举法 6.2 子集合自举法 第7章 常用统计机器学习方法 7.1 聚类分析 7.1.1 K组中心法 7.1.2 隐狄利克雷分配法 7.1.3 功效迭代聚类法 7.2 分类分析 7.2.1 逻辑回归 7.2.2 线性支持向量机 7.2.3 线性判别分析 7.2.4 决策树 7.3 数据降维 7.3.1 基于正则化的稀疏性方法 7.3.2 示例:SCAD、MCP等正则化项的Scala代码实现 7.3.3 主成分分析 7.3.4 奇异值分解 7.3.5 示例:基于分布式计算的主成分分析 7.4 集成学习方法 7.4.1 基于Bagging算法——以随机森林为例 7.4.2 基于Boosting算法——以AdaBoost为例 7.4.3 基于树的集成学习算法 7.4.4 示例:航班延误预删分类 第8章 主流分布式算法简介 8.1 分治法 8.1.1 算法思想介绍 8.1.2 分治法在统计学习中的应用 8.1.3 示例:线性支持向量机 8.2 基于梯度更新的分布式算法 8.2.1 算法介绍 8.2.2 示例:基于近端梯度算法的Lasso问题求解 8.2.3 示例:非参数岭回归 8.3 联邦学习算法简介 8.3.1 算法分类 8.3.2 联邦平均算法介绍 8.3.3 安全联邦线性回归 第9章 案例集 9.1 案例一:基于MM算法和EM算法的负二项分布参数估计 9.1.1 负二项分布 9.1.2 MM算法的负二项分布参数估计求解 9.1.3 EM算法的负二项分布参数估计求解 9.1.4 数值模拟 9.1.5 实证分析 9.1.6 结论 9.1.7 源码附录 9.2 案例二:基于EM算法的混合指数分布参数估计 9.2.1 混合指数分布简介 9.2.2 EM算法 9.2.3 Spark实现 9.2.4 效果评估 9.2.5 源码附录 9.3 案例三:基于EM算法的有限混合泊松分布的参数估计 9.3.1 有限混合泊松分布简介 9.3.2 参数估计的EM算法 9.3.3 EM加速算法——均方外推算法 9.3.4 实验设计 9.3.5 SQUAREM加速算法比较 9.3.6 源码附录 9.4 案例四:基于不同优化算法的逻辑回归模型参数的估计 9.4.1 常用优化算法简介 9.4.2 逻辑回归模型简介 9.4.3 模拟数据应用不同优化算法的分布式实现及比较 9.4.4 源码附录 参考文献 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。