第1章 基础知识
1.1 准备数据
1.1.1 数据格式
1.1.2 变量类型
1.1.3 变量选择
1.1.4 特征工程
1.1.5 缺失数据
1.2 选择算法
1.2.1 无监督学习
1.2.2 监督学习
1.2.3 强化学习
1.2.4 注意事项
1.3 参数调优
1.4 评价模型
1.4.1 分类指标
1.4.2 回归指标
1.4.3 验证
1.5 小结
第2章 k均值聚类
2.1 找出顾客群
2.2 示例:影迷的性格特征
2.3 定义群组
2.3.1 有多少个群组
2.3.2 每个群组中有谁
2.4 局限性
2.5 小结
第3章 主成分分析
3.1 食物的营养成分
3.2 主成分
3.3 示例:分析食物种类
3.4 局限性
3.5 小结
第4章 关联规则
4.1 发现购买模式
4.2 支持度、置信度和提升度
4.3 示例:分析杂货店的销售数据
4.4 先验原则
4.4.1 寻找具有高支持度的项集
4.4.2 寻找具有高置信度或高提升度的关联规则
4.5 局限性
4.6 小结
第5章 社会网络分析
5.1 展现人际关系
5.2 示例:国际贸易
5.3 Louvain方法
5.4 PageRank算法
5.5 局限性
5.6 小结
第6章 回归分析
6.1 趋势线
6.2 示例:预测房价
6.3 梯度下降法
6.4 回归系数
6.5 相关系数
6.6 局限性
6.7 小结
第7章 k最近邻算法和异常检测
7.1 食品检测
7.2 物以类聚,人以群分
7.3 示例:区分红白葡萄酒
7.4 异常检测
7.5 局限性
7.6 小结
第8章 支持向量机
8.1 医学诊断
8.2 示例:预测心脏病
8.3 勾画最佳分界线
8.4 局限性
8.5 小结
第9章 决策树
9.1 预测灾难幸存者
9.2 示例:逃离泰坦尼克号
9.3 生成决策树
9.4 局限性
9.5 小结
第10章 随机森林
10.1 集体智慧
10.2 示例:预测犯罪行为
10.3 集成模型
10.4 自助聚集法
10.5 局限性
10.6 小结
第11章 神经网络
11.1 建造人工智能大脑
11.2 示例:识别手写数字
11.3 神经网络的构成
11.4 激活规则
11.5 局限性
11.6 小结
第12章 A/B测试和多臂老虎机
12.1 初识A/B测试
12.2 A/B测试的局限性
12.3 epsilon递减策略
12.4 示例:多臂老虎机
12.5 胜者为先
12.6 epsilon递减策略的局限性
12.7 小结
附录A 无监督学习算法概览
附录B 监督学习算法概览
附录C 调节参数列表
附录D 更多评价指标
术语表
关于作者