吴昱等编著的《大数据精准挖掘》力求以翔实全面的篇章结构,全面阐述大数据理论和相关的数学模型;同时也以解剖多例大数据挖掘成功案例的全过程为抓手,深入浅出地阐述大数据精准挖掘的数学方法、挖掘原理、具体操作步骤以及检验验证等方面的系统知识。
本书力求能够涵盖目前大数据产业的宏观大势和当下最为实用成熟的数据挖掘理论和具体操作方法,力求理论与实践的密切结合。通过对本书的学习,可以掌握当下大数据所涉及的主要数学分析模型的要点,并比较相互的特点;同时能够学会实用的数据挖掘专门技术及经历数据挖掘的全部过程。由于本书所介绍的技术与我国目前大数据运用的领军行业金融、保险、电信、电子商务等密切相连,故本书具有很强的实用性,能达到学以致用的效果。
吴昱等编著的《大数据精准挖掘》以新兴的大数据时代最实用的技术为支撑,以广阔的科技视野和扎实的专业功底,全面介绍了大数据时代的由来和背景,阐述了与大数据分析相关的理论和数学模型。特别难能可贵的是,本书从蕴含大数据技术的精准数据挖掘工具入手,结合实际的成功案例,将数据精准挖掘的全过程和详细步骤,包括结果验证等方面内容,详详细细并非常专业地展现给读者。本书理论和实践密切结合,文字流畅,深入浅出,通俗易懂。
通过本书的学习,可以掌握当下大数据所涉及的主要数学分析模块的要点,并比较相互的特点。同时,能够学会实用的数据挖掘专门技术及经历数据挖掘的全过程。由于本书所介绍的技术与我国目前大数据运用的领军行业金融、保险、电信、电子商务等密切相连,故本书有很强的实用性,能达到学以致用、边学边用的效果。
《大数据精准挖掘》适合我国IT业的科研机构、相关企业的专业技术人员的学习之用;本书还可以作为政府部门制定大数据发展战略时的参考。本书也适合全国高等院校的大学生和研究生学习使用;由于本书将理论与具体操作合二为一,故也能作为全国大专院校开设大数据实验课程的教材。
第1篇 基础篇
第1章 大数据时代下的数据挖掘3
1.1 大数据的基础4
1.1.1 大数据呈现出了数据的新价值4
1.1.2 数据采集、存储与提取技术信息化5
1.1.3 数据挖掘技术是大数据时代最本质特征5
1.2 大数据的特点6
1.2.1 数据规模大6
1.2.2 数据类型多6
1.2.3 价值密度低,但总体的数据价值高7
1.2.4 数据处理有速度要求7
1.3 大数据的作用7
1.3.1 数据已渗透到社会每个角落8
1.3.2 数据成为竞争的新元素8
1.3.3 数据创造新价值9
1.3.4 大数据地位不断跃升9
1.4 大数据与数据挖掘10
1.4.1 数据挖掘技术是大数据时代的灵魂和核心10
1.4.2 数据挖掘技术涉及多种多类的知识节点10
1.4.3 选择最好的数据挖掘工具10
1.5 令人期待的大数据时代11
1.6 本章小结11
第2章 大数据与云计算13
2.1 大数据与云计算13
2.1.1 大数据与云计算关系13
2.1.2 大数据扩展了云计算服务类型14
2.1.3 云计算数据存储系统得到推广14
2.1.4 追求集成一体化技术14
2.1.5 大数据和云计算缺一不可15
2.2 云计算的定义与特点15
2.2.1 云计算的定义15
2.2.2 云计算的特点15
2.3 云计算的基本架构16
2.3.1 云计算架构的基本层次16
2.3.2 云计算架构的服务层次16
2.4 云计算的关键技术17
2.4.1 虚拟化技术17
2.4.2 数据存储技术19
2.4.3 资源管理技术19
2.4.4 云计算中的编程模型20
2.4.5 集成一体化技术21
2.4.6 自动化技术21
2.5 云计算的商业模式21
2.5.1 商业模式是云计算的基石21
2.5.2 云计算的市场规模22
2.5.3 云计算商业模式分析22
2.6 本章小结23
第2篇 理论篇
第3章 数据挖掘的主要方法及工具27
3.1 数据挖掘主要方法27
3.1.1 决策树分类27
3.1.2 神经网络33
3.1.3 Logistic回归方法37
3.1.4 聚类分析38
3.1.5 数据挖掘方法比较39
3.1.6 分类器的评估与选择40
3.2 流行数据分析平台及数据挖掘工具介绍46
3.3 本章小结52
第4章 Logistic回归模型53
4.1 多元线性回归模型53
4.2 Logistic回归模型55
4.3 Logistic回归模型的参数估计56
4.4 Logistic回归模型中回归系数的意义58
4.5 Logistic回归模型的拟合优度63
4.6 Logistic回归系数的显著性检验72
4.7 Logistic回归模型的预测准确性75
4.8 回归变量的选择与逐步回归77
4.9 本章小结83
第5章 数据挖掘建模过程86
5.1 CRISPDM86
5.2 SAS数据挖掘方法论——SEMMA88
5.3 数据挖掘经验谈89
5.4 本章小结89
第3篇 应用篇
第6章 金融行业应用1——信用评分93
6.1 国内信用卡业务现状93
6.2 信用评分模型的起源、类别和发展94
6.3 信用评分的步骤95
6.4 实例演示97
6.4.1 二元变量预测建模98
6.4.2 图形版建模输出讲解1——效果评价101
6.4.3 图形版建模输出讲解2——评分卡文件103
6.5 本章小结109
第7章 金融行业应用2——信用卡催收评分110
7.1 信用卡催收评分模型背景介绍110
7.2 实例演示112
7.2.1 图形版连续变量预测建模112
7.2.2 图形版建模输出114
7.3 本章小结116
第8章 保险电销应用——寻找目标客户117
8.1 背景介绍117
8.2 案例数据展示及分析118
8.2.1 业务目标118
8.2.2 数据展示118
8.3 数据挖掘与分析过程120
8.3.1 数据预处理120
8.3.2 造变量122
8.3.3 生成挖掘表123
8.3.4 建立响应模型125
8.3.5 建模结果分析125
8.4 数据挖掘结果的运用129
8.5 本章小结129
第9章 电信行业应用——客户流失预测131
9.1 背景介绍131
9.2 案例数据展示及分析131
9.2.1 商业理解131
9.2.2 数据理解132
9.2.3 数据准备132
9.3 建立打分模型133
9.4 分析建模结果134
9.5 数据挖掘结果的运用136
9.6 本章小结137
第10章 商品零售行业应用——购物篮分析138
10.1 某连锁零售公司的背景介绍138
10.2 购物篮分析的基本内容139
10.2.1 同次购买的基本概念139
10.2.2 同次购买的关联规则质量的衡量140
10.2.3 购买分析的实现141
10.2.4 下次购买的基本概念142
10.2.5 下次购买行为预测142
10.3 购物篮分析——MBA工具的使用145
10.3.1 MBA工具的用途145
10.3.2 MBA工具的使用146
10.3.3 MBA工具的输出146
10.4 本章小结149
第11章 实战项目——交叉销售150
11.1 背景介绍150
11.2 案例数据展示及分析151
11.2.1 数据展示151
11.2.2 业务目标及分析要求152
11.3 数据挖掘过程152
11.3.1 数据预处理152
11.3.2 划分数据集及生成目标变量153
11.3.3 生成衍生变量154
11.3.4 生成挖掘表159
11.4 建立打分模型160
11.5 结果分析161
11.6 本章小结162
第12章 收益预测163
12.1 背景介绍163
12.2 数据展示163
12.2.1 原始数据集展示163
12.2.2 数据挖掘表的生成165
12.3 图形版建模166
12.3.1 建模过程166
12.3.2 模型输出166
12.3.3 为新数据集打分168
12.4 本章小结170
参考文献172