第1章 数据挖掘入门
1.1 什么是数据挖掘
1.2 使用 Python 和 Jupyter Notebook
1.2.1 安装 Python
1.2.2 安装 Jupyter Notebook
1.2.3 安装 scikit-learn
1.3 亲和性分析的简单示例
1.4 商品推荐
1.4.1 用NumPy 加载数据集
1.4.2 实现规则的简单排序
1.4.3 挑选最佳规则
1.5 分类的简单示例
1.6 什么是分类
1.6.1 准备数据集
1.6.2 实现 OneR 算法
1.6.3 测试算法功能
1.7 本章小结
第2章 用 scikit-learn 估计器 解决分类问题
2.1 scikit-learn 估计器
2.1.1 最近邻算法
2.1.2 距离度量
2.1.3 加载数据集
2.1.4 形成标准的工作流程
2.1.5 运行算法
2.1.6 设置参数
2.2 预处理
2.2.1 标准预处理
2.2.2 组装成型
2.3 流水线
2.4 本章小结
第3章 用决策树预测获胜球队
3.1 加载数据集
3.1.1 收集数据
3.1.2 用 pandas 加载数据集
3.1.3 清洗数据集
3.1.4 提取新特征
3.2 决策树
3.2.1 决策树的参数
3.2.2 决策树的使用
3.3 体育赛事结果预测
3.4 随机森林
3.4.1 集成学习原理
3.4.2 设置随机森林的参数
3.4.3 应用随机森林
3.4.4 创建特征
3.5 本章小结
第4章 用亲和性分析推荐电影
4.1 亲和性分析
4.1.1 亲和性分析算法
4.1.2 总体方法
4.2 电影推荐问题
4.3 Apriori 算法的原理与实现
4.3.1 Apriori 算法的基本思路
4.3.2 实现 Apriori 算法
4.3.3 提取关联规则
4.3.4 评估关联规则
4.4 本章小结
第5章 特征与 scikit-learn 转换器
5.1 特征提取
5.1.1 用模型表述现实
5.1.2 常见的特征模式
5.1.3 创建好的特征
5.2 特征的选取
5.3 特征创建
5.4 主成分分析
5.5 创建自己的转换器
5.5.1 转换器 API
5.5.2 实现转换器
5.6 单元测试
5.7 组装成型
5.8 本章小结
第6章 用朴素贝叶斯算法探索社交媒体
6.1 消歧
6.2 从社交媒体下载数据
6.2.1 加载数据集并分类
6.2.2 创建可重现的 Twitter 数据集