内容推荐 人工智能被广泛应用和普及,极大地提高了人们学习和工作的效率。而要深入理解人工智能,必须全面理解底层各类机器学习算法的基本原理。只有全面掌握机器学习的基础知识,才能更好地理解、提高和驾驭人工智能的各种应用。 本书分为13章,前7章为原理篇,重点讨论了机器学习模型建模的全部流程、各类常用的机器学习算法原理、深度学习和强化学习、机器学习涉及的最优化原理,以及自然语言处理算法原理;后6章为实践篇,重点讨论了信用卡客户细分、保险公司时间序列生活事件预测、电商网站交易欺诈预测、信用卡和信用贷款风险预测、美国旧金山房屋成交价格预测,以及股票短期回报率预测等多个实际应用场景。 本书内容系统、全面,理论知识覆盖面广,且保留了推导过程。实践案例中,深入浅出地讲解和展示了机器学习应用的具体流程。本书适合在各行业工作的数据科学家、在校学习人工智能和数据科学专业的学生、科技公司的管理者和决策者,以及人工智能的初学者和爱好者阅读。 作者简介 刘春雷,毕业于中国科学技术大学近代物理系,本科毕业后,前往美国留学深造,并获得了美国卡内基梅隆大学机器学习专业硕士学位和美国匹兹堡大学物理专业博士学位。在研究生和博士阶段的学习过程中,结合数据挖掘、机器学习理论知识和大数据技术,在应用物理领域做出了杰出的贡献和成就。经过多年博士及博士后阶段的学习和研究工作后,作者又先后在美国智库型研究公司和华尔街商业银行工作,积累了大量将机器学习和数据科学技术应用到实践中的经验。 目录 第1章 人工智能应用场景——金融风控 1.1 反欺诈与信用评估 1.2 信用评估模型介绍 1.3 客户营销与风控管理 1.4 建模中的拒绝推断 1.4.1 简单扩张法(硬截断法) 1.4.2 加权扩张法(模糊扩张法) 1.4.3 分段扩张法 1.5 评分卡模型 1.5.1 评分卡模型种类 1.5.2 评分卡模型与WOE计算 1.5.3 评分卡模型与逻辑回归 第2章 人工智能中的机器学习和模型评价 2.1 机器学习预测结果推广性理论 2.2 机器学习问题的分类 2.3 二分类模型的评价方法 2.3.1 混淆矩阵的定义和使用 2.3.2 ROC曲线及其应用 2.3.3 Lift分析方法 2.4 多分类模型的评价方法 2.5 回归模型的评价方法 第3章 机器学习建模重要步骤 3.1 数据收集 3.1.1 从数据源方面考虑 3.1.2 从数据格式方面考虑 3.1.3 从数据存储方面考虑 3.2 数据清洗转换和预处理 3.2.1 数据偏度和峰度 3.2.2 数据归一化 3.2.3 数据缺失值的处理 3.2.4 数据不平衡的处理 3.3 特征工程 3.3.1 分类变量编码技术 3.3.2 特征筛选技术 3.4 模型的选择和建立 3.4.1 建模数据分割技术 3.4.2 模型的选择 3.5 模型的监控 第4章 机器学习常用算法原理 4.1 回归算法 4.1.1 线性回归算法 4.1.2 Lasso和Ridge回归算法 4.1.3 逻辑回归算法 4.2 梯度下降优化 4.3 朴素贝叶斯、支持向量机和决策树算法 4.3.1 朴素贝叶斯算法 4.3.2 支持向量机算法 4.3.3 决策树算法 4.4 集成算法、随机森林算法和梯度增强机算法 4.4.1 集成算法 4.4.2 随机森林算法 4.4.3 梯度增强机算法 4.5 无监督学习算法 4.5.1 聚类算法 4.5.2 主成分分析算法 4.6 神经网络算法 4.6.1 神经网络基本结构 4.6.2 神经网络算法参数求解 第5章 深度学习和强化学习 5.1 深度学习算法 5.1.1 深度学习中的逐层训练 5.1.2 激活函数和梯度消失 5.1.3 深度学习“深度”的原因 5.1.4 卷积神经网络 5.1.5 循环神经网络 5.2 强化学习算法 5.2.1 强化学习的定义 5.2.2 强化学习的优化算法之ValueIteration 5.2.3 强化学习的优化算法之Q-Learning 5.2.4 深度学习和Q-Learning 第6章 机器学习和最优化 6.1 最优化理论和机器学习的关系 6.1.1 典型的最优化问题 6.1.2 机器学习中的最优化问题 6.2 最优化理论的分类和理解 6.2.1 线搜索和信任域 6.2.2 凸优化和非凸优化 6.2.3 约束最优化 6.2.4 线性规划最优化 6.2.5 最优化中的微分求导 6.3 机器学习算法中最优化应用 6.3.1 梯度下降的多种形式 6.3.2 拟牛顿法 6.3.3 Adam方法 第7章 自然语言处理算法原理 7.1 文本数据处理和NLP基础 7.1.1 文本数据处理 7.1.2 NLP任务流程和基本概念 7.1.3 NLP中的分词算法 7.2 机器学习算法在NLP中的应用 7.2.1 主题模型 7.2.2 文本总结模型 7.2.3 word2vec 7.2.4 文本分类模型 7.3 深度学习在NLP中的应用 7.3.1 Sequence to Sequence模型 7.3.2 Attention模型 7.3.3 Self Attention机制和Transformer模型 第8章 信用卡客户细分 8.1 EDA探索性数据分析 8.1.1 数据维度的含义和基本性质 8.1.2 数据维度直方图 8.1.3 数据维度二维图 8.2 数据预处理和特征工程 8.2.1 维度缺失值处理 8.2.2 维度归一化处理 8.3 K-Means聚类建模和分组个数选择 8.3.1 K-Means惯性值 8.3.2 Silhouette轮廓系数 8.4 建模结果可视化和分析 8.4.1 K-Means聚类结果可视化 8.4.2 K-Means聚类结果的行业相关分析 第9章 保险公司时间序列生活事件预测 9.1 朴素贝叶斯算法和马尔可夫链算法应用 9.1.1 EDA探索性数据分析 9.1.2 朴素贝叶斯算法的应用 9.1.3 马尔可夫链算法的应用 9.2 时间序列特征工程和梯度增强机算法 9.2.1 特征工程方法的改进 9.2.2 梯度增强机算法的应用 9.3 深度学习算法的应用 9.3.1 特征变量嵌入和填充 9.3.2 LSTM神经网络结构设计 9.3.3 LSTM模型训练和测试 9.3.4 LSTM模型的其他网络结构设计介绍 第10章 电商网站交易欺诈预测 10.1 EDA探索性数据分析 10.1.1 数据原始特征变量的初步理解和分析 10.1.2 具体变量的探索性分析 10.2 模型选择 10.2.1 梯度增强机模型和框架选择 10.2.2 模型训练中的交叉验证 10.3 数据特征工程 10.3.1 特征变量预处理 10.3.2 衍生变量 10.3.3 特征筛选 10.4 模型结果讨论 10 |