内容推荐 本书的主体内容包括机器学习概念与特征工程、机器学习技术、模型关系管理,其中,模型关系管理部分主要介绍了弱集成学习、强集成学习和混合专家模型。 弱集成学习是指使用机器学习中的弱分类器实现模型准确度和稳定性之间的平衡。 强集成学习是指协同特征工程与强分类器形成强集成学习环境。 混合专家模型是指通过神经网络集成和网络结构设计形成深度学习框架。 本书以案例分析为主线介绍不同的集成学习方法,首先阐述弱集成学习如何解决项目痛点问题,然后以痛点为起点,集中讨论强集成学习如何解构子项目问题,最后通过深度学习分析非结构化数据。在每个案例中,归因问题是分析的核心,提供了解析归因问题的一系列方法,以作者多年的项目经验为基础,展示Python数据分析的强大之处。 作者简介 丁亚军,自由职业者,兼CDA数据科学研究院研究员、电子工业出版社大数据专家委员会成员、学习路径图国际技术中心顾问、经管之家培训中心讲师。研究方向:统计软件与数据分析、市场调查研究、电商CRM数据挖掘、银行申请与行为评分卡。 目录 第1部分 机器学习概念与特征工程 第1章 机器学习的基础概念 1.1 数据源 1.1.1 数值:单元格 1.1.2 图像:像素点 1.1.3 文本:词向量 1.2 模型的基本形式:回归 1.2.1 文氏图:方差分解 1.2.2 分布图:分布与随机 1.2.3 角色:监督与非监督 1.2.4 模型应用:归因与预测 1.3 模型与算法 1.3.1 模型进化:从1.0到4.0 1.3.2 算法驱动:参数与超参数 1.4 SMD学习技术 1.4.1 统计学习:线性回归 1.4.2 机器学习:支持向量机 1.4.3 深度学习:神经网络 1.5 机器学习误差源 1.5.1 误差源 1.5.2 偏差与方差窘境 1.6 模型拟合诊断 1.6.1 模型拟合 1.6.2 模型的评估指标 1.7 数据分区技术 1.7.1 数据分区:训练与评估 1.7.2 交叉验证:分区的升级 1.8 集成学习方法 1.8.1 强分类器:特征工程+模型 1.8.2 弱分类器:模型+模型 1.8.3 混合专家:神经网络 1.9 运算加速度 1.9.1 大数据挑战 1.9.2 数据的高效运算 第2章 特征工程技术 2.1 数据变换 2.1.1 特征规范化:对中处理 2.1.2 样本规范化:距离相似度 2.2 数据编码 2.2.1 独热编码:无序性 2.2.2 数据分箱:业务标签 2.3 缺失值填补 2.3.1 中位数填补:稳健 2.3.2 最近邻填补:高维 2.3.3 随机森林填补:“贤内助” 2.4 异常值诊断 2.4.1 单变量异常值:描述 2.4.2 多变量异常值:监督 2.4.3 多变量异常值:非监督 2.4.4 非结构式异常值:自编码器 2.5 共线性的危害 2.5.1 双变量共线:新特征 2.5.2 多变量共线:特征分解 2.5.3 特征组合技术 2.6 特征筛选技术 2.6.1 经验:“站在谁的肩膀上” 2.6.2 相关:相关系数 2.6.3 回归:特征筛选 2.6.4 降维:线性与非线性 2.6.5 工具:“指南针” 2.7 聚类技术:市场细分 第2部分 机器学习技术 第3章 机器学习准备 3.1 机器学习的数学基础 3.1.1 微积分基础 3.1.2 向量运算:相关分析 3.1.3 矩阵运算:回归模型 3.1.4 张量运算:神经网络 3.2 机器学习理解 3.2.1 连续型因变量:线性回归 3.2.2 分类型因变量:逻辑回归 3.3 机器学习算法 3.3.1 最小二乘法:准确度 3.3.2 最大似然估计法:测量 3.3.3 随机梯度下降法:大数据 第4章 统计学:回归“进化” 4.1 大数据与回归模型 4.1.1 统计学的烦恼 4.1.2 线性回归的进化 4.2 正则化约束 4.2.1 正则化技术的原理 4.2.2 LASSO 回归与岭回归 4.2.3 弹性网的特征 4.3 案例:随机梯度下降回归与归因解释 第5章 神经网络模型:预测 5.1 感知器模型 5.1.1 与或四门通往何方 5.1.2 感知器=线性回归 5.1.3 激活函数为何是非线性的 5.1.4 感知器=CPU 5.2 神经网络模型 5.2.1 感知器集成:网络结构 5.2.2 前向传播技术:联立方程 5.2.3 反向传播技术:自动微分 5.2.4 网络结构设计:隐含层 5.2.5 神经网络专题1:特征工程 5.2.6 神经网络专题2:维度灾难 5.3 案例:数据分析流与神经网络 第6章 决策树:归因与可视化 6.1 决策树模型原理 6.1.1 熵与相关性 6.1.2 决策树概览 6.1.3 特征分叉运算 6.1.4 特征选择运算 6.1.5 决策树与剪枝 6.2 树模型的特征 6.3 两类归因:决策树与逻辑回归 6.3.1 树形图解释 6.3.2 S形图解释 第7章 支持向量机:高维数据 7.1 支持向量机简介 7.1.1 超平面 7.1.2 点距超平面 7.2 线性支持向量机 7.2.1 硬间隔:严格边界 7.2.2 软间隔:松弛边界 7.3 非线性与核技巧 7.3.1 理解核技巧 7.3.2 核函数及其应用 7.3.3 支持向量机:经验汇总 7.4 支持向量机模型运算 7.5 案例:图像识别与预测分类 第8章 关联分析 8.1 数据源格式 8.1.1 标准数据格式 8.1.2 概念的层级性 8.2 关联规则与度量指标 8.2.1 关联规则度量 8.2.2 频繁项集 8.2.3 Apriori算法 8.2.4 强关联规则 8.3 案例:商品关联过滤与营销推荐 第3部分 模型关系管理 第9章 集成学习方法:弱集成 9.1 集成学习:弱分类器 9.1.1 自抽样法 9.1.2 套袋法与随机森 |