内容推荐 本书是《Scikit-learn机器学习详解》(潘风文编著)的进阶篇,讲解了Sklearn(Scikit-learn)机器学习框架的各种高级应用技术,包括数据集导入工具、集成学习、模型选择和交叉验证、异常检测、管道、信号分解、模型持久化以及Sklearn系统高级配置。通过本书的学习,读者可快速掌握Sklearn框架的高级知识,迈入人工智能殿堂的大门。 本书适合有志于从事机器学习、人工智能技术开发的人员或爱好者使用,也可作为相关专业的教材。 目录 1 机器学习概述 1.1 有监督学习 1.2 无监督学习 1.3 半监督学习 1.4 Sklearn概述 2 数据集导入工具 2.1 通用数据集导入API 2.1.1 数据集加载器 2.1.2 数据集提取器 2.1.3 数据集生成器 2.1.4 文件导入方法 2.2 专用数据集导入API 2.2.1 加载样本图像数据集 2.2.2 加载svmlight/libsvm格式数据集 2.2.3 从openml.org下载数据集 2.3 加载外部数据集 2.3.1 列表式数据读取 2.3.2 多媒体文件读取 3 集成学习 3.1 自助抽样(bootstrap) 3.2 自助聚合算法(bagging) 3.2.1 标准自助聚合算法(Bagging) 3.2.2 随机森林(Random Forest) 3.2.3 极端随机树(Extremely randomized trees) 3.3 加速提升算法(boosting) 3.3.1 自适应提升算法(Adaboost) 3.3.2 梯度提升树算法(GBDT) 3.4 投票集成算法(voting) 3.5 堆栈泛化(stacking) 4 模型选择和交叉验证 4.1 交叉验证评估器 4.1.1 交叉验证 4.1.2 交叉验证生成器 4.1.3 使用交叉验证 4.2 度量指标和评估(评分) 4.2.1 评分参数scoring的设置 4.2.2 哑分类评估器和哑回归评估器 4.3 模型超参数调优 4.3.1 穷尽网格超参数搜索 4.3.2 随机超参数搜索 4.3.3 非暴力参数搜索方法 4.3.4 贝叶斯优化 4.4 验证曲线 4.4.1 交叉验证曲线 4.4.2 学习曲线 5 异常检测 5.1 新颖点检测 5.2 离群点检测 5.2.1 椭圆包络线算法 5.2.2 孤立森林算法 5.2.3 局部离群点因子算法 6 管道 6.1 概念介绍 6.1.1 评估器(estimator) 6.1.2 转换器(transformer) 6.1.3 管道(pipeline) 6.2 管道机制概述 6.3 中间评估器及子管道 6.3.1 获取中间评估器 6.3.2 获取子管道对象 6.3.3 设置评估器参数 6.4 特征聚合转换器 6.5 列转换机制 6.5.1 数据泄露 6.5.2 列转换器 6.6 模型选择 7 信号分解 7.1 主成分分析PCA 7.2 核主成分分析KPCA 7.3 字典学习 7.3.1 预置字典编码 7.3.2 通用字典学习 7.4 因子分析 7.5 其他信号分解 7.5.1 独立成分分析 7.5.2 非负矩阵分解 7.5.3 隐含狄利克雷分布 8 模型持久化 8.1 针对Python对象的序列化 8.1.1 使用模块pickle序列化 8.1.2 使用模块joblib序列化 8.2 模型互操作方式 9 Sklearn系统配置 9.1 系统环境变量 9.2 运行时环境变量 后记 |