简介 |
内容推荐 从统计学科与计算机科学的性质认知,大数据是指那些超过传统数据系统处理能力、超出经典统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合,对于这一数据集合,在一定的条件下和合理的时间内,我们可以通过现代计算机技术和创新的统计方法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中的有价值的模式和知识。 《大数据:统计理论、方法与应用》共分五章,其内容包括大数据下的统计理论体系、大数据下的数据集整合分析、大数据下的高维变量选择方法、大数据下的统计方法并行计算和大数据下的统计方法应用——网络舆情分析。 本书内容新颖,取材国内外资料,同时认真总结了作者近年来的科研成果,重点反映统计学对大数据发展的影响,突出五大特点: (1)充分体现学科融合; (2)拓展统计研究对象; (3)丰富统计计算规范; (4)改进统计研究方式; (5)扩展统计应用范围。 本书对从事大数据挖掘、机器学习、人工智能和数据分析的科技人员具有重要的参考价值,可以用作统计学、计算机技术、人工智能和大数据管理等专业或研究方向博士生、硕士生的教材。 目录 第一章 大数据下的统计理论体系 1.1 背景与意义 1.1.1 研究背景 1.1.2 研究意义 1.2 文献回顾与评述 1.2.1 大数据下的统计理论体系研究 1.2.2 大数据下的数据集综合分析 1.2.3 大数据下的高维变量选择方法 1.2.4 大数据下的统计并行计算方法 1.2.5 文本数据挖掘与特征提取方法 1.3 大数据及其对统计学科的影响 1.3.1 引言 1.3.2 大数据时代 1.3.3 大数据概念的辨析 1.3.4 数据分析的转变 1.3.5 统计学科的发展 1.3.6 小结 1.4 从统计学到数据科学范式的兴起 1.4.1 引言 1.4.2 统计学视角下的数据科学 .1.4.3 数据科学的统计学内涵 1.4.4 数据科学对统计过程的影响 1.4.5 小结 1.5 大数据背景下的统计学科建设 1.5.1 引言 1.5.2 调查方案设计 1.5.3 调查精度控制 1.5.4 课程设置的需求侧分析 1.5.5 课程设置的供给侧分析 1.5.6 小结 1.6 总结与展望 1.6.1 大数据给统计学带来的变革与挑战 1.6.2 大数据给统计学带来的机遇与发展 1.6.3 大数据时代下对统计学的几点反思 参考文献 第二章 大数据下的数据集整合分析 2.1 背景和意义 2.2 综述 2.2.1 模型基本形式 2.2.2 惩罚整合分析方法 2.2.3 计算问题 2.3 AFT在异构性模型上的整合分析 2.3.1 引言 2.3.2 模型结构与求解 2.3.3 模拟分析 2.3.4 新农合家庭医疗支出数据分析 2.3.5 肺癌基因数据分析 2.3.6 小结 2.4 对癌症结果中多维度组学数据的整合分析 2.4.1 引言 2.4.2 整合分析方法 2.4.3 模拟分析 2.4.4 TCGA数据的分析 2.4.5 小结 2.5 多亚型癌症预后数据整合分析 2.5.1 引言 2.5.2 基于异构性模型的整合分析 2.5.3 标示识别 2.5.4 数值模拟 2.5.5 非霍奇金淋巴瘤基因关联数据分析 2.5.6 小结 2.5.7 补充材料 2.6 基于对比惩罚的高通量癌症研究整合分析 2.6.1 引言 2.6.2 整合分析 2.6.3 对比惩罚 2.6.4 模拟分析 2.6.5 数据分析 2.6.6 小结 2.7 总结与展望 2.7.1 总结 2.7.2 展望 参考文献 第三章 大数据下的高维变量选择方法 3.1 背景和意义 3.2 高维数据的群组变量选择方法 3.2.1 引言 3.2.2 处理高度相关数据的组变量选择方法 3.2.3 仅能选择组变量的方法 3.2.4 双层变量选择方法 3.2.5 方法应用 3.2.6 小结 3.3 基于自适应稀疏组Lasso的双层变量选择 3.3.1 引言 3.3.2 AdSGL 3.3.3 模拟 3.3.4 家庭医疗保健支出数据分析 3.3.5 小结 3.4 基于网络结构Logistic模型的企业信用风险预警 3.4.1 引言 3.4.2 网络结构Logistic模型 3.4.3 模拟实验 3.4.4 企业信用风险预警分析 3.4.5 小结 3.5 用惩罚方法来识别两部分模型的比例结构 3.5.1 引言 3.5.2 用惩罚函数来识别比例结构 3.5.3 模拟 3.5.4 数据分析 3.5.5 论述 3.5.6 附录 3.6 总结与展望 3.6.1 总结 3.6.2 展望 参考文献 第四章 大数据下的统计方法并行计算 4.1 背景和意义 4.2 综述 4.2.1 重点内容 4.2.2 研究框架 4.3 基于Map—RedLice的马尔可夫毯贝叶斯网络学习 4.3.1 引言 4.3.2 条件独立性检验 4.3.3 MBBN 4.3.4 算法复杂度分析 4.3.5 数据实验对比 4.3.6 小结 4.4 基于Hadoop的并行关联规则挖掘方法 4.4.1 引言 4.4.2 云计算平台 4.4.3 并行关联规则数据挖掘算法(ABH) 4.4.4 算法分析 4.4.5 小结 4.5 基于分类问题的特征排序算法 4.5.1 引言 4.5.2 MRMD维度下降算法 4.5.3 实验分析 4.5.4 小结 4.6 模糊时间序列预测模型 4.6.1 引言 4.6.2 概念综述 4.6.3 高阶自回归模糊时间序列模型 4.6.4 ACO分区算法 4.6.5 实验结果 4.6.6 小结 4.7 精准营销决策框架 4.7.1 引言 4.7.2 相关工作 4.7.3 决策框架 4.7.4 实验结果 4.7.5 小结 4.8 总结与展望 参考文献 第五章 大数据下的统计方法应用——网络舆情分析 5.1 背景和意义 5.2 网络舆情分析的研究方法 5.2.1 引言 5.2.2 舆情信息收集与预处理 5.2.3 分析模型构建 5.2.4 评价与解释 5.2.5 小结 5.3 网络舆情分析中的主题发现 5.3.1 引言 5.3.2 LDA主题模型 5.3.3 静态主题模型 5.3.4 动态主题建模 5.3.5 小结 5.4 网络舆情 |