网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 机器学习项目交付实战 |
分类 | 教育考试-考试-计算机类 |
作者 | (美)本·威尔逊 |
出版社 | 清华大学出版社 |
下载 | ![]() |
简介 | 编辑推荐 既然发现了学习和教学中的缺陷,就应该去改进。我在网络上查找了很多书,发现由Ben Wilson编写的Machine Learning Engineering in Action是一本很不错的介绍机器学习工程学的书。他通过亲身经历,介绍了如何在机器学习和数据科学的工作中使用工程学技术,让你成为一名“受欢迎”的数据科学家和机器学习工程师。本书的内容与我之前使用过(作为教材)或翻译过的关于机器学习的书都不-样,没有大篇幅的代码解释和具体的技术介绍,而是以一个项目为主线,从头介绍如何完成一个成功的机器学习项目,并且在书中介绍了很多有趣的示例,从冰淇淋优惠券的高效投递,到给狗狗做美味的意大利面。如果你是数据科学家或机器学习工程师,我推荐你阅读这本有趣的书。读完本书之后,你可能就会理解为什么在以往的项目中,业务部门]的领导对数据科学家辛苦做出的成果不屑一顾,隔壁组的软件开发人员抱怨机器学习工程师给出的解决方案让他们不得不加班到深夜。本书没有介绍花哨的技术实现,但通过Ben介绍他在工作中走过的弯路和踩过的深坑,可以让你避免犯他曾经犯过的错误,成为公司中受欢迎的数据科学家。 内容推荐 《机器学习项目交付实战》将介绍如何从模型和数据中获取很好性能,帮助你构建稳定的数据管道。通过高效的可复用技术集合,来确保应用程序工作流程的顺利执行,以及提高模型的可维护性。基于数十年的良好软件工程实践,机器学习工程可确保你的机器学习系统具有弹性、适应性和可执行性。《机器学习项目交付实战》将介绍设计、构建和交付成功的机器学习项目的核心原则和上佳实践。你将了解很多软件工程技术,例如对原型进行实验和实施模块化设计,从而产生弹性架构和一致的跨团队沟通。基于作者丰富的经验,本书中的每一种方法都被成功地用于解决现实世界中的问题。 目录 第Ⅰ部分机器学习工程简介 第1章什么是机器学习工程3 1.1为什么使用机器学习工程4 1.2机器学习工程的核心原则7 1.2.1规划7 1.2.2范围界定和研究9 1.2.3实验11 1.2.4研发12 1.2.5部署15 1.2.6评估18 1.3机器学习工程的目标20 1.4本章小结21 第2章数据科学工程23 2.1用提高项目成功率的过程增强复杂的专业24 2.2简单的基础25 2.3敏捷软件工程的工作原则27 2.3.1沟通与合作28 2.3.2拥抱并期待改变30 2.4机器学习工程的基础31 2.5本章小结32 第3章在建模之前:规划和确定项目范围33 3.1规划:你要我预测什么36 3.1.1项目的基本规划40 3.1.2首次会议45 3.1.3规划演示——进行大量演示47 3.1.4通过解决方案构建进行实验:磨刀不误砍柴工49 3.2实验范围:设定预期和界限51 3.2.1什么是实验范围52 3.2.2机器学习团队的实验范围:研究52 3.2.3机器学习团队的实验范围:实验54 3.3本章小结63 第4章建模之前:项目的沟通与逻辑65 4.1沟通:定义问题67 4.1.1理解问题68 4.1.2设置严格的讨论界限78 4.2不要浪费时间:与跨职能团队交流84 4.2.1实验变更会议:我们知道自己在做什么吗85 4.2.2SME评审/原型评审:我们能解决这个问题吗86 4.2.3开发进度评审:这会奏效吗87 4.2.4MVP评审:是否生成了我们要求的内容88 4.2.5预投产评审:我们真希望没有搞砸89 4.3为实验设定90 4.3.1设置时限90 4.3.2可以投入生产吗?你想维护它吗92 4.3.3机器学习项目的TDD、RDD、PDD和CDD93 4.4为混乱的业务规则做计划96 4.4.1通过计划“拥抱混乱”96 4.4.2“人机回环”设计98 4.4.3你的备选方案是什么99 4.5对结果进行讨论99 4.6本章小结101 第5章进行实验:规划和研究机器学习项目103 5.1设计实验104 5.1.1进行基础的研究和规划105 5.1.2扔掉博客——仔细阅读API文档108 5.1.3抽签决定内部黑客马拉松112 5.1.4公平竞争环境113 5.2执行实验准备工作114 5.2.1执行数据分析115 5.2.2从脚本转向可重用代码121 5.2.3为实验构建可重用代码的最后说明128 5.3本章小结131 第6章进行实验:测试与评估133 6.1测试想法135 6.1.1在代码中设置准则136 6.1.2运行快速预测测试143 6.2减少可能性158 6.2.1正确评估原型159 6.2.2决定前进的方向161 6.2.3接下来做什么163 6.3本章小结164 第7章实践实验:从原型到MVP165 7.1调整:自动化那些恼人的过程166 7.1.1调优选项168 7.1.2Hyperopt入门172 7.1.3使用Hyperopt调优复杂的预测问题175 7.2为平台和团队选择合适的技术179 7.2.1使用Spark的理由181 7.2.2用SparkTrials处理来自Driver的调优183 7.2.3用pandas_udf处理来自Worker的调优186 7.2.4为团队使用新范式:平台和技术190 7.3本章小结191 第8章动手实战:使用MLflow和运行时优化实现MVP193 8.1日志记录:代码、指标和结果194 8.1.1MLflow跟踪194 8.1.2不要通过打印记录日志196 8.1.3版本控制、分支策略和与他人合作198 8.2可伸缩性和并发性200 8.2.1什么是并发200 8.2.2哪些内容可以(或不可以)异步运行203 8.3本章小结203 第Ⅱ部分为投产做准备:创建可维护的机器学习项目 第9章机器学习中的模块化:编写可测试且易读的代码207 9.1单片脚本及其缺点209 9.1.1“巨石”是如何形成的210 9.1.2文本墙210 9.1.3单片脚本的注意事项213 9.2调试文本墙215 9.3对机器学习代码进行模块化设计221 9.4机器学习的测试驱动开发222 9.5本章小结226 第10章编码标准和创建可维护的机器学习代码227 10.1机器学习的代码异味228 10.2命名、结构和代码体系结构230 10.2.1命名约定和结构231 10.2.2别耍小聪明232 10.2.3代码体系结构233 10.3元组解包和可维护的替代方案235 10.3.1元组解包示例235 10.3.2元组解包的可靠替代方案237 10.4对问题视而不见:“饮食异常”和其他不良做法239 10.4.1精准使用try/catch239 10.4.2精心设计的异常处理241 10.4.3正确处理错误242 10.5使用全局可变对象244 10.5.1易变性会如何伤害你245 10.5.2封装以防止可变性带来的副作用246 10.6过多的嵌套的逻辑248 10.7本章小结254 第11章模型测量及其重要性255 11.1测量模型归因256 11.1.1测量预测性能258 11.1.2明确相关性与因果关系264 11.2利用A/B检验进行归因计算268 11.2.1A/B检验基础268 11.2.2连续评估指标271 11.2.3使用替代显示和检验276 11.2.4评估分类指标280 11.3本章小结283 第12章通过观察漂移以保持你的收益285 12.1检测漂移285 12.2解决漂移问题296 12.2.1我们可以做些什么296 12.2.2应对漂移298 12.3本章小结299 第13章机器学习中的开发“傲慢”301 13.1优雅的复杂性与过度设计302 13.1.1轻量级脚本风格(命令式)304 13.1.2“精心设计”的混乱307 13.2无意混淆:如果不是你写的,你能否读懂311 13.2.1关于混淆311 13.2.2总结不良编码习惯322 13.3不成熟的泛化、不成熟的优化以及其他显示你有多聪明的糟糕方式323 13.3.1泛化和框架:除非不得已,否则不要使用它们323 13.3.2过早优化325 13.4你真的想作为“煤矿中的金丝雀”吗?Alpha测试和开源“煤矿”中的危险332 13.5技术驱动的开发与解决方案驱动的开发335 13.6本章小结337 第Ⅲ部分开发生产机器学习代码 第14章编写生产代码341 14.1你见到了你的数据吗342 14.1.1确保你有数据344 14.1.2检查数据来源345 14.1.3找到真相的来源并与之保持一致348 14.1.4不要将数据清理嵌入生产代码中349 14.2监控你的特征351 14.3监控模型生命周期中的所有其他内容355 14.4保持一切尽可能简单359 14.4.1问题定义的简洁性361 14.4.2简单的实现361 14.5机器学习项目的线框图363 14.6避免机器学习中的货物崇拜行为368 14.7本章小结373 第15章质量和验收测试375 15.1数据一致性376 15.1.1训练和推理偏差376 15.1.2特征存储简介378 15.1.3过程胜于技术379 15.1.4数据孤岛的危险380 15.2回退和冷启动382 15.2.1严重依赖现有技术383 15.2.2冷启动问题385 15.3最终用户与内部使用测试387 15.3.1有偏见的测试390 15.3.2自己公司的员工测试自研的产品(dogfooding)391 15.3.3SME评估392 15.4模型的可解释性393 15.4.1Shapley加法解释394 15.4.2使用shap包396 15.5本章小结401 第16章生产环境基础设施403 16.1工件管理404 16.1.1MLflow的模型注册405 16.1.2使用模型注册进行连接407 16.2特征库412 16.2.1特征库的用途413 16.2.2使用特征库415 16.2.3评估特征库418 16.3预测服务体系结构419 16.3.1确定服务需求421 16.3.2批量外部交付427 16.3.3微批量流式传输429 16.3.4实时服务器端430 16.3.5集成模型(边缘部署)433 16.4本章小结434 附录ABigO以及如何考虑运行时性能435 附录B设置开发环境461 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。