编辑推荐 本书创造性地汇编了数据挖掘技术,将统计数据挖掘和机器学习数据挖掘进行了区分,对经典和现代统计方法框架进行了扩展,以用于预测建模和大数据分析。本书为数据挖掘领域新晋的数据科学家所面临的共同问题提供了适当的解决方案,并侧重于数据科学家的需求,提供了实用且强大、简单而富有洞察力的量化技术,其中大部分使用了受新机器学习影响改进的“旧”统计方法。 在这本畅销书的新版里,作者大幅修改并重新组织章节内容,新增了一些富有创意且用途广泛的机器学习数据挖掘技术方面的内容。简单而有针对性的量化处理方法使得本书在数据挖掘图书领域别具一格。 内容推荐 本书创造性地汇编了数据挖掘技术,将统计数据挖掘和机器学习数据挖掘进行了区分,对经典和现代统计方法框架进行了扩展,以用于预测建模和大数据分析。本书在第2版的基础上新增了13章,内容涵盖数据科学发展历程、市场份额估算、无抽样调研数据预测钱包份额、潜在市场细分、利用缺失数据构建统计回归模型、十分位分析评估数据的预测能力,以及一个无须精通自然语言处理就能使用的文本挖掘工具。本书适合数据挖掘从业者以及对机器学习数据挖掘感兴趣的人阅读。 目录 第3版前言 第2版前言 致谢 关于作者 第1章 引论 1 1.1 个人计算机与统计学 1 1.2 统计学和数据分析 2 1.3 EDA简介 3 1.4 EDA范式 4 1.5 EDA的弱点 5 1.6 小数据和大数据 5 1.6.1 数据规模特征 6 1.6.2 数据规模:个人观点 7 1.7 数据挖掘范式 7 1.8 统计学和机器学习 8 1.9 统计数据挖掘 9 参考资料 9 第2章 数据处理相关学科:统计学和数据科学 11 2.1 引言 11 2.2 背景 11 2.3 统计学与数据科学的比较 12 2.4 讨论:统计学与数据科学的不同之处 18 2.5 本章小结 19 2.6 结语 19 参考资料 19 第3章 变量评估的两种基本数据挖掘方法 21 3.1 引言 21 3.2 相关系数 21 3.3 散点图 22 3.4 数据挖掘 24 3.4.1 示例3.1 24 3.4.2 示例3.2 24 3.5 平滑散点图 25 3.6 一般关联性检验 27 3.7 本章小结 28 参考资料 29 第4章 用于评估成对变量的基于CHAID的数据挖掘方法 30 4.1 引言 30 4.2 散点图 30 4.3 平滑散点图 31 4.4 CHAID入门 32 4.5 用更平滑的散点图进行基于CHAID的数据挖掘 33 4.6 本章小结 36 参考资料 37 第5章 校直数据的简单性和可取性对建模十分重要 38 5.1 引言 38 5.2 数据的直度和对称度 38 5.3 数据挖掘是高级概念 39 5.4 相关系数 39 5.5 (xx3,yy3)散点图 40 5.6 挖掘(xx3,yy3)关系 41 5.7 基于遗传算法的数据挖掘如何处理数据 43 5.8 校直多个变量 43 5.9 本章小结 44 参考资料 44 第6章 排序数据对称化:提高数据预测能力的统计数据挖掘方法 45 6.1 引言 45 6.2 量度范围 45 6.3 茎叶图 47 6.4 箱线图 47 6.5 排序数据对称处理方法的图示 47 6.5.1 示例1 48 6.5.2 示例2 50 6.6 本章小结 56 参考资料 56 第7章 主成分分析:多变量评估的统计数据挖掘方法 57 7.1 引言 57 7.2 EDA重新表述范式 57 7.3 关键点 58 7.4 PCA基础 58 7.5 示例详解 58 7.6 PCA的代数特征 59 7.7 一个不常见示例 60 7.7.1 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析 61 7.7.2 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析结果 61 7.8 用PCA构造准交互变量 62 7.9 本章小结 66 第8章 市场份额估算:一个特殊的数据挖掘案例 67 8.1 引言 67 8.2 背景 67 8.3 一个特殊的数据挖掘案例 68 8.4 构建RAL的YUM市场份额模型 69 8.4.1 市场份额模型的十分位分析 76 8.4.2 YUM_3mos市场份额模型的结论 76 8.5 本章小结 77 附录8.A 生成 PROMO_Code哑变量 77 附录8.B PROMO_Code哑变量的PCA 77 附录8.C PROMO_Code哑变量上的逻辑斯谛回归YUM_3mos 78 附录8.D 生成YUM_3mos_wo_PROMO_CodeEff 78 附录 8.E 将变量标准化为位于[0, 1]内 78 参考资料 79 第9章 相关系数在[-1,+1]内取值,是这样吗 80 9.1 引言 80 9.2 相关系数的基础知识 80 9.3 计算相关系数 81 9.4 重新配对 82 9.5 计算经调整的相关系数 84 9.6 重新配对的意义 84 9.7 本章小结 84 第10章 逻辑斯谛回归:回应建模方法 85 10.1 引言 85 10.2 逻辑斯谛回归模型 86 10.2.1 示例 86 10.2.2 为LRM打分 87 10.3 案例分析 88 10.4 logit值和logit散点图 89 10.5 校直数据的重要性 90 10.6 校直数据的重述 91 10.6.1 幂阶梯法 91 10.6.2 突起规则 91 10.6.3 测量校直数据 92 10.7 校直示例数据 92 10.7.1 FD2_OPEN的重述 93 10.7.2 INVESTMENT的重述 94 10.8 在突起规则不适用的情况下选用的技术 95 10.8.1 拟合logit值散点图 95 10.8.2 平滑预测值与实际值散点图 96 10.9 MOS_OPEN的重述 96 10.10 评估变量的重要性 99 10.10.1 计算G统计量 99 10.10.2 单变量的重要性 100 10.10.3 变量子集合的重要性 100 10.10.4 不同变量子集合的重要性比较 100 10.11 案例的重要变量 101 10.12 变量的相对重要性 102 10.13 案例变量的很好子集合 103 10.14 模型预测准确性的可视化指标 104 10.14.1 得分组的平滑残差散点图 104 10.14.2 基于十分位组的平滑预测与实际值散点图 106 10.14.3 基于得分组的平滑预测与实际值散点图 108 10.15 评估数据挖掘工作 110 10.15.1 基于得分组的平滑残差分布图:EDA模型与非EDA模型对比 110 10.15.2 基于十分位组的平滑预测与实际值散点图:EDA模型与非EDA模型对比 112 10.15.3 基于得分组的平滑预测与实际值散点图:EDA模型与非EDA模型对比 113 10.15.4 数据挖掘工作小结 113 10.16 平滑一个类别变量 114 10.16.1 用CHAID平滑FD_TYPE 115 10.16.2 CH_FTY_1和CH_FTY_2的重要性 116 10.17 本案例的其他数据挖掘工作 117 10.17.1 基于得分组的平滑残差散点图:4变量EDA模型与3变量EDA模型对比 117 10.17.2 基于十分位组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比 119 10.17.3 基于得分组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比 120 10.17.4 其他数据挖掘工作的总结 121 10.18 本章小结 121 第11章 无抽样调研数据预测钱包份额 122 11.1 引言 122 11.2 背景 122 11.3 SOW_q计算过程 123 11.3.1 有趣的问题 124 11.3.2 金额和总金额 124 11.4 为AMPECS构建SOW_q模型 126 11.5 SOW_q模型的定义 127 11.6 本章小结 129 附录11.A 六步法 129 附录11.B 七步法 131 参考资料 134 第12章 普通回归:利润建模的强大工具 135 12.1 引言 135 12.2 普通回归模型 135 12.2.1 说明 135 12.2.2 为OLS利润模型评分 136 12.3 迷你案例 137 12.3.1 校直迷你案例的数据 137 12.3.2 平滑预测值散点图与实际值散点图 141 12.3.3 评估变量的重要性 142 12.4 迷你案例的重要变量 144 12.4.1 变量的相对重要性 144 12.4.2 选择很好子集合 144 12.5 案例变量的很好子集合 145 12.5.1 用gINCOME和AGE构建PROFIT模型 146 12.5.2 很好PROFIT模型 148 12.6 抑制变量AGE 148 12.7 本章小结 149 参考资料 149 第13章 回归变量选择方法:可忽略的问题和重要解决方案 150 13.1 引言 150 13.2 背景 150 13.3 常用的变量选择方法 152 13.4 分步法的缺陷 153 13.5 改进的变量选择方法 154 13.6 本章小结 155 参考资料 155 第14章 用CHAID解读逻辑斯谛回归模型 157 14.1 引言 157 14.2 逻辑斯谛回归模型 157 14.3 数据库营销回应模型案例研究 158 14.4 CHAID 159 14.5 多变量CHAID树 161 14.6 CHAID市场细分 165 14.7 CHAID树状图 165 14.8 本章小结 168 第15章 回归系数的重要性 169 15.1 引言 169 15.2 普通回归模型 169 15.3 四个问题 169 15.4 重要预测变量 170 15.5 p值与大数据 171 15.6 回到问题1 171 15.7 预测变量对预测结果的影响 171 15.8 提示 172 15.9 回到问题2 173 15.10 按照对预测的影响对预测变量排序 173 15.11 回到问题3 174 15.12 回到问题4 175 15.13 本章小结 175 参考资料 176 第16章 相关系数均值:评估预测模型和预测变量重要性的统计数据挖掘指标 177 16.1 引言 177 16.2 背景 177 16.3 可靠度和效度的区别 178 16.4 可靠度和效度的关系 178 16.5 平均相关系数 179 16.5.1 图示LTV5模型的平均相关系数 179 16.5.2 LTV5模型的平均相关系数 183 16.5.3 LTV5模型比较 183 16.6 本章小结 184 参考资料 184 第17章 交互变量指定CHAID模型 185 17.1 引言 185 17.2 交互变量 185 17.3 交互变量建模策略 185 17.4 基于特殊点的策略 186 17.5 交互变量的回应模型示例 186 17.6 用CHAID找出关系 187 17.7 指定模型的CHAID 188 17.8 探索 191 17.9 数据库含义 191 17.10 本章小结 192 参考资料 193 第18章 市场细分:逻辑斯谛回归建模 194 18.1 引言 194 18.2 二值逻辑斯谛回归 194 18.3 多分类逻辑斯谛回归模型 195 18.4 使用PLR建模 196 18.5 市场细分的分类模型 196 18.5.1 移动电话用户调研 196 18.5.2 CHAID分析 197 18.5.3 CHAID树状图 199 18.5.4 市场细分分类模型 201 18.6 本章小结 202 第19章 市场细分:时间序列数据LCA 203 19.1 引言 203 19.2 背景 203 19.2.1 k均值聚类分析 203 19.2.2 主成分分析 204 19.2.3 因素分析 204 19.2.4 LCA与FA图示 205 19.3 LCA 206 19.4 LCA与k均值聚类分析 208 19.5 用LCA对时间序列数据进行市场细分 210 19.5.1 目标 210 19.5.2 很好LCA模型 212 19.6 本章小结 216 附录19.A 建立UNITS的趋势3 217 附录19.B POS-ZER-NEG建立趋势4 219 参考资料 220 第20章 市场细分:理解细分群体的便捷途径 221 20.1 引言 221 20.2 背景 221 20.3 示例 221 20.4 解读各个细分市场 222 20.5 本章小结 223 附录 20.A SAMPLE数据集 223 附录 20.B 分类变量的均值 224 附录 20.C 指数化数据 224 参考资料 225 第21章 统计回归模型:理解模型的简单方法 226 21.1 引言 226 21.2 背景 226 21.3 用于逻辑斯谛回归模型的EZ法 227 21.4 逻辑斯谛回归的EZ法示例的讨论 228 21.5 本章小结 231 附录21.A 基于M65分布的X10~X14均值 231 附录21.B 建立10个数据集(每个十分位区间一个) 232 附录21.C 十分位的指数化信息 233 第22章 CHAID:填充缺失值的方法 238 22.1 引言 238 22.2 数据缺失问题 238 22.3 与数据缺失相关的假设 240 22.4 CHAID填充法 241 22.5 示例 242 22.5.1 连续变量的CHAID均值填充 242 22.5.2 面向连续变量的大量缺失值CHAID均值填充 243 22.5.3 LIFE_DOL的回归树填充 244 22.6 CHAID面向单个类别变量的优选似然类别填充 246 22.6.1 填充性别变量的CHAID优选似然类别法 246 22.6.2 填充性别变量的分类树法 248 22.7 本章小结 250 参考资料 251 第23章 大数据建模 252 23.1 引言 252 23.2 背景 252 23.3 CCA-PCA分析法:具体案例 253 23.4 用完整数据集构建回应模型 255 23.5 用不完整数据集构建回应模型 256 23.6 基于PCA-BICA数据构建回应模型 258 23.6.1 基于主成分分析并经二值转换的不完整数据回应模型分析结果 259 23.6.2 综合CCA与PCA-BICA的回应模型结果 259 23.7 本章小结 260 附录23.A NMISS 261 附录23.B 测试完整样本分析法的样本大小 261 附录23.C CCA-CIA数据集 261 附录23.D 1和0 262 参考资料 262 第24章 艺术、科学、数字和诗歌 263 24.1 引言 263 24.2 零和一 264 24.3 思考的力量 264 24.4 统计黄金法则:衡量统计实践的艺术和科学 266 24.5 本章小结 268 参考资料 268 第25章 识别很好客户:描述性、预测性和相似性描述 269 25.1 引言 269 25.2 相关概念 269 25.3 对有缺陷的客户进行描述 269 25.4 清晰有效的客户定位 270 25.5 预测性分析 272 25.6 连续变量树状图 275 25.7 相似人群扩展分析 277 25.8 相似树状图的特点 279 25.9 本章小结 279 第26章 营销模型评估 281 26.1 引言 281 26.2 回应模型的准确度 281 26.3 利润模型的准确度 282 26.4 回应模型的十分位分析与累积提升度 283 26.5 利润模型的十分位分析与累积提升度 284 26.6 回应模型的准确度 286 26.7 利润模型的准确度 287 26.8 回应模型和利润模型的分离性 288 26.9 累积提升度、HL/SWMAD指数以及离散系数的应用指南 288 26.10 本章小结 289 第27章 十分位分析:视角与效果 290 27.1 引言 290 27.2 背景 290 27.3 性能评估:回应模型与随机选择 293 27.4 性能评估:十分位分析 293 27.5 本章小结 298 附录 27.A 计算准确度收益:模型与随机 298 附录27.B 计算准确度收益:模型与随机 300 附录27.C 回应模型PROB_est值的十分位分析 301 附录27.D 2×2 十分位表 302 参考资料 305 第28章 T-C净提升度模型:评估试验组与对照组的营销效果 306 28.1 引言 306 28.2 背景 306 28.3 试验营销与对照营销回应模型的建模 308 28.3.1 试验组回应模型建模 308 28.3.2 对照组回应模型建模 310 28.4 T-C净提升度模型 311 28.5 本章小结 315 附录28.A 用Xs做TEST Logistic 315 附录28.B 用Xs做CONTROL Logistic 318 附录28.C 合并计算 320 附录28.D T-C净提升度十分位分析 321 参考资料 325 第29章 自助法在营销中的应用:一种新的模型验证方法 327 29.1 引言 327 29.2 传统模型验证 327 29.3 示例 327 29.4 三个问题 329 29.5 自助法 329 29.6 如何使用自助法 330 29.7 自助法十分位分析验证 332 29.8 其他问题 333 29.9 用自助法评估模型性能 334 29.10 用自助法评估模型效力 337 29.11 本章小结 338 参考资料 339 第30章 用自助法验证逻辑斯谛回归模型 340 30.1 引言 340 30.2 逻辑斯谛回归模型 340 30.3 如何用自助法进行验证 340 30.4 本章小结 341 参考资料 341 第31章 营销模型可视化:用数据深度挖掘模型 342 31.1 引言 342 31.2 图形简史 342 31.3 星形图基础 343 31.4 单变量星形图 345 31.5 多变量星形图 346 31.6 剖面曲线法 346 31.6.1 剖面曲线基础 347 31.6.2 剖面分析 347 31.7 示例 348 31.7.1 回应模型的剖面曲线 349 31.7.2 十分位组剖面曲线 351 31.8 本章小结 353 附录31.A 十分位各人口变量的星形图 353 附录31.B 人口变量各十分位的星形图 355 附录31.C 剖面曲线:各十分位 358 参考资料 360 第32章 预测贡献系数:预测重要性的度量 361 32.1 引言 361 32.2 背景 361 32.3 判定规则示例 362 32.4 预测贡献系数 364 32.5 预测贡献系数的计算 365 32.6 预测贡献系数的另一示例 366 32.7 本章小结 369 参考资料 369 第33章 建模是艺术、科学与诗的结合 370 33.1 引言 370 33.2 灵感来源于莎士比亚的诗 370 33.3 解读 371 33.4 本章小结 373 参考资料 373 第34章 献给数据狂的数据分析12步法 375 34.1 引言 375 34.2 背景 375 34.3 步骤 376 34.4 标记 376 34.5 本章小结 377 附录34.A 数据集IN 377 附录34.B Samsize+ 378 附录34.C 可粘贴副本 378 附录34.D 缺失数据 378 参考资料 379 第35章 遗传回归模型与统计回归模型 380 35.1 引言 380 35.2 背景 380 35.3 目标 380 35.4 GenIQ模型:遗传逻辑斯谛回归 381 35.5 遗传编程法的发展 383 35.6 GenIQ模型的目标及重要特性 384 35.7 GenIQ模型工作原理 385 35.8 本章小结 387 参考资料 388 第36章 数据重用:GenIQ模型的强大数据挖掘技术 389 36.1 引言 389 36.2 数据重用 389 36.3 示例 389 36.3.1 GenIQ利润模型 390 36.3.2 数据重用变量简介 391 36.3.3 数据重用变量GenIQvar_1和GenIQvar_2 392 36.4 调整数据重用定义:GenIQ强化版回归模型 393 36.5 本章小结 395 第37章 数据挖掘技术——离群值的调整 396 37.1 引言 396 37.2 背景 396 37.3 离群值的调整 397 37.3.1 调整离群值的示例 397 37.3.2 GenIQ模型在调整离群值中的作用 399 37.4 本章小结 399 参考资料 399 第38章 过拟合的全新解决方案 400 38.1 引言 400 38.2 背景 400 38.3 利用GenIQ模型解决过拟合问题 402 38.3.1 RANDOM_SPLIT的GenIQ模型 403 38.3.2 RANDOM_SPLIT的GenIQ模型十分位分析 404 38.3.3 类N层分析 405 38.4 本章小结 406 第39章 回顾:为何校直数据如此重要 407 39.1 引言 407 39.2 重申校直数据的重要性 407 39.3 回顾:重述收入变量 408 39.4 回顾:挖掘(xx3,yy3)关系 409 39.5 本章小结 410 第40章 GenIQ 模型的定义与应用 411 40.1 引言 411 40.2 何为优化 411 40.3 何为遗传建模 412 40.4 遗传建模示例 412 40.4.1 复制 414 40.4.2 交叉 414 40.4.3 突变 415 40.5 控制遗传模型运行的参数 416 40.6 遗传建模的优势与 416 40.7 营销建模的目标 416 40.8 GenIQ回应模型 417 40.9 GenIQ利润模型 417 40.10 案例研究:回应模型 418 40.11 案例研究:利润模型 420 40.12 本章小结 423 参考资料 423 第41章 如何为营销模型选择很好变量 424 41.1 引言 424 41.2 背景 424 41.3 变量选择方法的缺陷 425 41.4 营销模型的目标 427 41.5 用GenIQ进行变量选择 427 41.5.1 GenIQ建模 429 41.5.2 GenIQ模型结构的辨别 430 41.5.3 GenIQ模型变量选择 433 41.6 逻辑斯谛回归模型的非线性替代方法 434 41.7 本章小结 436 参考资料 437 第42章 解读无系数模型 438 42.1 引言 438 42.2 线性回归系数 438 42.2.1 简单普通回归模型示例 439 42.2.2 简单逻辑斯谛回归模型示例 439 42.3 简单回归模型的准回归系数 440 42.3.1 简单回归模型的准回归系数示例 440 42.3.2 简单逻辑斯谛回归模型的准回归系数示例 440 42.3.3 非线性预测中的准回归系数示例 441 42.4 偏准回归系数 443 42.4.1 普适型偏回归系数的计算方法 443 42.4.2 多元逻辑斯谛回归模型示例 444 42.5 无系数模型的准回归系数 449 42.6 本章小结 454 第43章 文本挖掘:入门、示例及TXTDM软件 455 43.1 引言 455 43.2 背景 455 43.3 文本挖掘入门 457 43.4 与文本相关的统计量 458 43.5 文本转换中的二进制数据集 459 43.6 TXTDM文本挖掘程序示例 459 43.7 对文本挖掘模型GenIQ_FAVORED的分析 467 43.7.1 用文字描述更喜欢GenIQ模型的受访者 468 43.7.2 用文字描述更喜欢其他两种模型的受访者 468 43.8 对TXTDM程序加权 469 43.9 文档聚类 469 43.10 本章小结 475 附录43.A 加载Corpus TEXT数据集 476 附录43.B 创建二进制词的中间步骤 476 附录43.C 创建最终的二进制词 477 附录43.D 计算统计量TF、DF、NUM_DOCS和N 478 附录43.E 将GenIQ_FAVORED加入WORDS数据集 479 附录43.F GenIQ_FAVORED的逻辑斯谛分析模型 480 附录43.G 计算字词之间的关系数均值 481 附录43.H 创建TF-IDF 482 附录43.I 用WORDS和TF-IDF的Concat计算WORD_TF-IDF权重 484 附录43.J WORD_RESP与WORD_TF-IDF RESP 485 附录43.K 词干提取 486 附录43.L WORD乘以TF-IDF 486 附录43.M 用剖面的字词对数据集赋权 487 附录43.N 两类法VARCLUS 487 附录43.O 双集群法VARCLUS 488 附录43.P 集群1字词的指向 489 附录43.Q 比较GenIQ模型和随机模型的表现 490 附录43.R 比较自由集群模型和随机模型的表现 491 参考资料 491 第44章 一些我比较喜欢的统计子程序 492 44.1 子程序列表 492 44.2 第5章的平滑散点图(平均值和中位数)—X1和X2 492 44.3 第10章的平滑散点图—logit值和概率 496 44.4 第16章的平均相关系数—变量Var1、Var2、Var3 499 44.5 第29章的自助法十分位分析—数据来自表23.4(表44.2) 500 44.6 第42章的H幅度共有区域 508 44.7 选项排序、垂直输出的相关性分析 510 44.8 回应模型十分位分析 511 44.9 利润模型十分位分析 515 44.10 平滑时间序列分析数据(三变量的动态中位数) 518 44.11 大量高偏度变量的分析 522 译后记 524 |