编辑推荐 本书的内容及特点可以简要概括为以下几点。 第一,兼顾前沿与经典,带领读者进行启发式思考。本书总结与剖析前沿的系统和人工智能相结合的研究与工程工作,包括Systems for AI和AI for Systems,帮助读者更好地寻找、定义有意义的系统研究与工程问题。同时兼顾系统经典问题,从时间跨度上让读者感受经典系统问题与方法久经考验的魅力。本书既介绍了人工智能系统领域解决方法和优化,又阐述了系统问题的抽象和定义,希望可以启发读者思考,鼓励读者开展新的系统研究与工程工作。 第二,做中学。通过穿插于书中的练习实验,并通过操作及应用主流的框架、平台、工具等,鼓励读者动手实现、实际优化,而不仅仅是停留在理论层面或只了解工具的使用方法,进而提高解决实际问题的能力。本书不仅介绍了业界主流的人工智能系统研究工作,还借助了来自微软亚洲研究院的研究员和工程师在人工智能和计算机系统交叉领域的研究成果、开源系统与实践经验。 第三,体系化。本书围绕深度学习系统全栈进行阐述,同时涵盖深度学习系统的设计原则、工作综述、方法论和工程实践等。通过问题与场景导向,打破计算机子领域界限,各章节涉及计算机、软件工程、人工智能等多学科知识点,让读者能够更加熟悉计算机系统子领域之间的关系,形成跨算法系统和软硬件栈的视角。 内容推荐 近年来人工智能特别是深度学习技术得到了飞速发展,这背后离不开计算机硬件和软件系统的不断进步。在可见的未来,人工智能技术的发展仍将依赖于计算机系统和人工智能相结合的共同创新模式。本书介绍了前沿的系统和人工智能相结合的研究工作,包括AI for Systems和Systems for AI,以帮助读者更好地寻找和定义有意义的研究问题。同时,本书从系统研究的角度出发设计实验课程,通过操作和应用主流及近期新的框架、平台和工具来鼓励读者动手实现和优化系统模块,以提高解决实际问题的能力,而不仅仅是了解工具使用。 本书主要面向相关领域的本科生、研究生、教师、工程师和研究员,帮助他们完整地了解支持深度学习的计算机系统架构,并通过解决实际问题来学习深度学习完整生命周期下的系统设计。 目录 推荐序一 推荐序二 推荐序三 前言 致谢 第1章人工智能系统概述1 本章简介1 内容概览2 1.1 深度学习的历史、现状与发展2 1.1.1 深度学习的广泛应用2 1.1.2 深度学习方法4 1.1.3 神经网络基本理论的奠定5 1.1.4 深度学习算法、模型的现状和趋势9 1.1.5 小结与讨论12 1.1.6 参考文献12 1.2 算法、框架、体系结构与算力的进步13 1.2.1 大数据和分布式系统13 1.2.2 深度学习算法的进步15 1.2.3 计算机体系结构和计算能力的进步17 1.2.4 计算框架的进步18 1.2.5 小结与讨论21 1.2.6 参考文献21 1.3 深度学习系统的组成与生态22 1.3.1 深度学习系统的设计目标22 1.3.2 深度学习系统的大致组成24 1.3.3 深度学习系统的生态27 1.3.4 小结与讨论29 1.3.5 参考文献29 1.4 深度学习样例背后的系统问题29 1.4.1 一个深度学习样例与其中的系统问题30 1.4.2 模型算子实现中的系统问题33 1.4.3 框架执行深度学习模型的生命周期36 1.4.4 更广泛的人工智能系统生态40 1.4.5 深度学习框架及工具入门实验41 1.4.6 小结与讨论44 1.4.7 参考文献44 1.5 影响深度学习系统设计的理论、原则与假设44 1.5.1 抽象层次化表示与解释45 1.5.2 摩尔定律与算力发展趋势49 1.5.3 局部性原则与内存层次结构52 1.5.4 线性代数计算与模型缺陷容忍特性59 1.5.5 并行加速与阿姆达尔定律优化上限64 1.5.6 冗余与可靠性67 1.5.7 小结与讨论68 1.5.8 参考文献68 第2章神经网络基础70 本章简介70 内容概览70 2.1 神经网络的基本概念70 2.1.1 神经元的数学模型71 2.1.2 神经网络的主要功能72 2.1.3 激活函数73 2.1.4 小结与讨论78 2.2 神经网络训练78 2.2.1 基本训练流程78 2.2.2 损失函数80 2.2.3 梯度下降82 2.2.4 反向传播85 2.2.5 小结与讨论85 2.3 解决回归问题85 2.3.1 提出问题86 2.3.2 万能近似定理86 2.3.3 定义神经网络结构87 2.3.4 前向计算88 2.3.5 反向传播89 2.3.6 运行结果91 2.3.7 小结与讨论92 2.4 解决分类问题92 2.4.1 提出问题92 2.4.2 定义神经网络结构93 2.4.3 前向计算94 2.4.4 反向传播95 2.4.5 运行结果96 2.4.6 小结与讨论96 2.5 深度神经网络97 2.5.1 抽象与设计97 2.5.2 权重矩阵初始化98 2.5.3 批量归一化99 2.5.4 过拟合101 2.5.5 小结与讨论103 2.6 梯度下降优化算法103 2.6.1 随机梯度下降算法103 2.6.2 动量算法104 2.6.3 Adam算法105 2.6.4 小结与讨论105 2.7 卷积神经网络105 2.7.1 卷积神经网络的能力105 2.7.2 卷积神经网络的典型结构106 2.7.3 卷积核的作用107 2.7.4 卷积后续的运算109 2.7.5 卷积神经网络的特性110 2.7.6 卷积类型111 2.7.7 小结与讨论115 2.8 循环神经网络115 2.8.1 循环神经网络的发展简史115 2.8.2 循环神经网络的结构和典型用途117 2.8.3 小结与讨论118 2.9 Transformer模型118 2.9.1 序列到序列模型119 2.9.2 注意力机制120 2.9.3 Transformer122 2.9.4 小结与讨论125 第3章深度学习框架基础126 本章简介126 内容概览126 3.1 基于数据流图的深度学习框架126 3.1.1 深度学习框架发展概述126 3.1.2 编程范式:声明式和命令式128 3.1.3 数据流图129 3.1.4 张量和张量操作130 3.1.5 自动微分基础131 3.1.6 数据流图上的自动微分135 3.1.7 数据流图的调度与执行136 3.1.8 单设备算子间调度136 3.1.9 图切分与多设备执行137 3.1.10 小结与讨论138 3.1.11 参考文献138 3.2 神经网络计算中的控制流139 3.2.1 背景139 3.2.2 静态图:向数据流图中添加控制流原语141 3.2.3 动态图:复用宿主语言控制流语句143 3.2.4 动态图转换为静态图144 3.2.5 小结与讨论145 3.2.6 参考文献145 第4章矩阵运算与计算机体系结构147 本章简介147 内容概览147 4.1 深度学习的历史、现状与发展148 4.1.1 全连接层148 4.1.2 卷积层148 4.1.3 循环网络层149 4.1.4 注意力机制层149 4.1.5 小结与讨论150 4.1.6 参考文献150 4.2 计算机体系结构与矩阵运算150 4.2.1 CPU体系结构151 4.2.2 CPU实现高效计算矩阵乘152 4.2.3 在CPU上实现一个矩阵乘法算子实验154 4.2.4 小结与讨论155 4.3 GPU体系结构与矩阵运算155 4.3.1 GPU体系结构155 4.3.2 GPU编程模型156 4.3.3 GPU实现一个简单的计算157 4.3.4 在GPU上实现一个矩阵乘法算子实验159 4.3.5 小结与讨论160 4.4 面向深度学习的专有硬件加速器与矩阵运算160 4.4.1 深度学习计算的特点与硬件优化方向160 4.4.2 脉动阵列与矩阵计算162 4.4.3 小结与讨论163 第5章深度学习的编译与优化164 本章简介164 内容概览164 5.1 深度神经网络编译器164 5.1.1 前端166 5.1.2 后端167 5.1.3 中间表达167 5.1.4 优化过程168 5.1.5 小结与讨论168 5.2 计算图优化168 5.2.1 算术表达式化简169 5.2.2 公共子表达式消除169 5.2.3 常数传播170 5.2.4 矩阵乘自动融合171 5.2.5 算子融合171 5.2.6 子图替换和随机子图替换172 5.2.7 小结与讨论173 5.3 内存优化173 5.3.1 基于拓扑序的最小内存分配174 5.3.2 张量换入换出174 5.3.3 张量重计算175 5.3.4 小结与讨论176 5.3.5 参考文献176 5.4 内核优化与生成176 5.4.1 算子表达式176 5.4.2 算子表示与调度逻辑的分离177 5.4.3 自动调度搜索与代码生成179 5.4.4 白盒代码生成179 5.4.5 小结与讨论180 5.4.6 参考文献181 5.5 跨算子的全局调度优化181 5.5.1 任意算子的融合181 5.5.2 编译时全局算子调度183 5.5.3 小结与讨论183 5.5.4 参考文献183 第6章分布式训练算法与系统184 本章简介184 内容概览184 6.1 分布式深度学习计算简介185 6.1.1 串行计算到并行计算的演进185 6.1.2 并行计算加速定律187 6.1.3 深度学习的并行化训练188 6.1.4 小结与讨论190 6.1.5 参考文献191 6.2 分布式训练算法分类191 6.2.1 数据并行191 6.2.2 模型并行193 6.2.3 流水并行194 6.2.4 并行方式的对比分析196 6.2.5 小结与讨论196 6.2.6 参考文献196 6.3 深度学习并行训练同步方式197 6.3.1 同步并行197 6.3.2 异步并行198 6.3.3 半同步并行198 6.3.4 小结与讨论199 6.3.5 参考文献199 6.4 分布式深度学习训练系统简介199 6.4.1 基于数据流图的深度学习框架中的分布式支持199 6.4.2 PyTorch中的分布式支持201 6.4.3 通用的数据并行系统Horovod203 6.4.4 分布式训练任务实验206 6.4.5 小结与讨论208 6.4.6 参考文献209 6.5 分布式训练的通信协调209 6.5.1 通信协调的硬件210 6.5.2 通信协调的软件213 6.5.3 AllReduce的实现和优化实验214 6.5.4 小结与讨论217 6.5.5 参考文献217 第7章异构计算集群调度与资源管理系统218 本章简介218 内容概览218 7.1 异构计算集群管理系统简介219 7.1.1 多租环境运行的训练作业219 7.1.2 作业生命周期222 7.1.3 集群管理系统架构223 7.1.4 小结与讨论227 7.1.5 参考文献227 7.2 训练作业、镜像与容器228 7.2.1 深度学习作业228 7.2.2 环境依赖:镜像231 7.2.3 运行时资源隔离:容器233 7.2.4 从操作系统视角看GPU技术栈238 7.2.5 人工智能作业开发体验241 7.2.6 小结与讨论246 7.2.7 参考文献246 7.3 调度247 7.3.1 调度问题优化目标247 7.3.2 单作业调度——群调度249 7.3.3 作业间调度——主导资源公平DRF调度250 7.3.4 组间作业调度——容量调度252 7.3.5 虚拟集群机制254 7.3.6 抢占式调度255 7.3.7 深度学习调度算法实验与模拟研究256 7.3.8 小结与讨论257 7.3.9 参考文献257 7.4 面向深度学习的集群管理系统257 7.4.1 深度学习工作负载的需求258 7.4.2 异构硬件的多样性258 7.4.3 深度学习平台的管理与运维需求259 7.4.4 深度学习负载与异构硬件下的调度设计260 7.4.5 开源和云异构集群管理系统简介268 7.4.6 部署异构资源集群管理系统实验270 7.4.7 小结与讨论279 7.4.8 参考文献279 7.5 存储280 7.5.1 沿用大数据平台存储路线281 7.5.2 沿用高性能计算平台存储路线287 7.5.3 面向深度学习的存储288 7.5.4 小结与讨论294 7.5.5 参考文献294 7.6 开发与运维294 7.6.1 平台功能模块与敏捷开发295 7.6.2 监控体系构建296 7.6.3 测试300 7.6.4 平台DevOps303 7.6.5 平台运维305 7.6.6 小结与讨论307 7.6.7 参考文献307 第8章深度学习推理系统308 本章简介308 内容概览308 8.1 推理系统简介308 8.1.1 对比推理与训练过程309 8.1.2 推理系统的优化目标与约束313 8.1.3 小结与讨论316 8.1.4 参考文献316 8.2 模型推理的离线优化317 8.2.1 通过程序理解推理优化动机317 8.2.2 推理延迟319 8.2.3 层间与张量融合320 8.2.4 目标后端自动调优322 8.2.5 模型压缩324 8.2.6 低精度推理326 8.2.7 小结与讨论327 8.2.8 参考文献327 8.3 部署328 8.3.1 可靠性和可扩展性329 8.3.2 部署灵活性330 8.3.3 模型转换与开放协议333 8.3.4 移动端部署334 8.3.5 推理系统简介338 8.3.6 配置镜像与容器进行云上训练、推理与压测实验339 8.3.7 小结与讨论340 8.3.8 参考文献341 8.4 推理系统的运行期优化341 8.4.1 推理系统的吞吐量341 8.4.2 加速器模型并发执行342 8.4.3 动态批尺寸343 8.4.4 多模型装箱345 8.4.5 内存分配策略调优347 8.4.6 深度学习模型内存分配算法实验与模拟研究349 8.4.7 小结与讨论351 8.4.8 参考文献351 8.5 开发、训练与部署的全生命周期管理——MLOps351 8.5.1 MLOps的生命周期351 8.5.2 MLOps工具链353 8.5.3 线上发布与回滚策略364 8.5.4 MLOps的持续集成与持续交付364 8.5.5 MLOps工具与服务367 8.5.6 小结与讨论367 8.5.7 参考文献367 8.6 推理专有芯片368 8.6.1 推理芯片架构对比369 8.6.2 神经网络推理芯片的动机和由来373 8.6.3 数据中心推理芯片375 8.6.4 边缘推理芯片377 8.6.5 芯片模拟器377 8.6.6 小结与讨论378 8.6.7 参考文献378 第9章自动机器学习系统379 本章简介379 内容概览379 9.1 自动机器学习379 9.1.1 超参数优化380 9.1.2 神经网络结构搜索384 9.1.3 小结与讨论388 9.1.4 参考文献388 9.2 自动机器学习系统与工具389 9.2.1 自动机器学习系统与工具概述389 9.2.2 探索式训练过程391 9.2.3 自动机器学习编程范式392 9.2.4 自动机器学习系统优化前沿394 9.2.5 自动机器学习工具概述与实例分析395 9.2.6 自动机器学习系统实验398 9.2.7 小结与讨论400 9.2.8 参考文献400 第10章强化学习系统401 本章简介401 内容概览401 10.1 强化学习概述401 10.1.1 强化学习的定义402 10.1.2 强化学习的基本概念402 10.1.3 强化学习的作用404 10.1.4 强化学习与传统机器学习的区别405 10.1.5 强化学习与自动机器学习的区别405 10.1.6 小结与讨论406 10.1.7 参考文献406 10.2 分布式强化学习算法407 10.2.1 分布式强化学习算法的基本概念408 10.2.2 分布式强化学习算法的发展409 10.2.3 小结与讨论414 10.2.4 参考文献414 10.3 分布式强化学习对系统提出的需求和挑战415 10.3.1 强化学习系统面临的挑战和机器学习系统的区别415 10.3.2 强化学习对框架的需求417 10.3.3 小结与讨论419 10.3.4 参考文献419 10.4 分布式强化学习框架419 10.4.1 代表性分布式强化学习框架419 10.4.2 小结与讨论424 10.4.3 参考文献425 第11章模型压缩与加速426 本章简介426 内容概览426 11.1 模型压缩简介426 11.1.1 模型压缩的背景427 11.1.2 模型压缩方法429 11.1.3 小结与讨论433 11.1.4 参考文献434 11.2 基于稀疏化的模型压缩434 11.2.1 人类大脑的稀疏性434 11.2.2 深度神经网络的稀疏性435 11.2.3 小结与讨论438 11.2.4 参考文献439 11.3 模型压缩与硬件加速439 11.3.1 深度学习专用硬件439 11.3.2 稀疏模型硬件加速440 11.3.3 量化模型硬件加速443 11.3.4 小结与讨论443 第12章人工智能安全与隐私444 本章简介444 内容概览445 12.1 人工智能内在安全与隐私445 12.1.1 内在安全问题445 12.1.2 内在隐私问题447 12.1.3 小结与讨论449 12.1.4 参考文献450 12.2 人工智能训练安全与隐私450 12.2.1 训练安全问题450 12.2.2 训练隐私问题452 12.2.3 联邦学习453 12.2.4 小结与讨论455 12.2.5 参考文献455 12.3 人工智能服务安全与隐私456 12.3.1 服务时安全456 12.3.2 服务时的用户隐私458 12.3.3 服务时的模型隐私459 12.3.4 小结与讨论460 12.3.5 参考文献460 第13章人工智能优化计算机系统462 本章简介462 内容概览462 13.1 系统设计的范式转移462 13.1.1 学习增强系统463 13.1.2 小结与讨论464 13.2 学习增强系统的应用464 13.2.1 流媒体系统464 13.2.2 数据库索引467 13.2.3 系统性能和参数调优468 13.2.4 芯片设计470 13.2.5 预测性资源调度472 13.2.6 小结与讨论474 13.2.7 参考文献474 13.3 学习增强系统的落地挑战475 13.3.1 系统数据475 13.3.2 系统模型476 13.3.3 系统动态性477 13.3.4 系统正确性477 13.3.5 小结与讨论479 13.3.6 参考文献479 |