大模型动力引擎——PYTORCH性能与显存优化手册张爱玲、杨占略清华大学出版社豆瓣PDF电子书bt网盘迅雷下载教育考试-考试-计算机类-霍普软件下载网

目录
第1章欢迎来到这场大模型竞赛\t1
1.1 模型规模带来的挑战\t2
1.2 数据规模带来的挑战\t3
1.3 模型规模与数据增长的应对方法\t4
第2章深度学习推荐的硬件知识\t6
2.1 CPU与内存\t7
2.1.1 内存\t7
2.1.2 CPU\t9
2.2 硬盘\t11
2.3 GPU\t13
2.3.1 CPU的局限性\t13
2.3.2 GPU的硬件结构\t14
2.3.3 GPU编程模型及其硬件对应\t18
2.3.4 GPU的关键性能指标\t19
2.3.5 显存与内存间的数据传输\t19
2.4 分布式系统\t22
2.4.1 单机多卡的通信\t22
2.4.2 多机多卡的通信\t24
2.4.3 分布式系统的数据存储\t24
第3章深度学习推荐的PyTorch知识\t26
3.1 PyTorch 的张量数据结构\t27
3.1.1 张量的基本属性及创建\t27
3.1.2 访问张量的数据\t28
3.1.3 张量的存储方式\t29
3.1.4 张量的视图\t32
3.2 PyTorch中的算子\t33
3.2.1 PyTorch的算子库\t33
3.2.2 PyTorch算子的内存分配\t35
3.2.3 算子的调用过程\t36
3.3 PyTorch的动态图机制\t38
3.4 PyTorch的自动微分系统\t41
3.4.1 什么是自动微分\t41
3.4.2 自动微分的实现\t42
3.4.3 Autograd 扩展自定义算子\t46
3.5 PyTorch的异步执行机制\t47
第4章定位性能瓶颈的工具和方法\t51
4.1 配置性能分析所需的软硬件环境\t52
4.1.1 减少无关程序的干扰\t52
4.1.2 提升PyTorch 程序的可重复性\t53
4.1.3 控制GPU频率\t58
4.1.4 控制CPU的性能状态和工作频率\t59
4.2 准确测量程序运行时间\t60
4.2.1 计量CPU程序的运行时间\t60
4.2.2 程序预热和多次运行取平均\t61
4.2.3 计量GPU程序的运行时间\t62
4.2.4 准确计量GPU的运行时间\t63
4.3 PyTorch性能分析器\t64
4.3.1 性能分析\t65
4.3.2 显存分析\t66
4.3.3 可视化性能图谱\t67
4.3.4 如何定位性能瓶颈\t67
4.4 GPU 专业分析工具\t71
4.4.1 Nsight Systems\t71
4.4.2 Nsight Compute\t71
4.5 CPU 性能分析工具\t75
4.5.1 Py-Spy\t75
4.5.2 strace\t77
4.6 本章小结\t78
第5章数据加载和预处理专题\t80
5.1 数据接入的准备阶段\t81
5.2 数据集的获取和预处理\t82
5.2.1 获取原始数据\t82
5.2.2 原始数据的清洗\t82
5.2.3 数据的离线预处理\t84
5.2.4 数据的存储\t86
5.2.5 PyTorch与第三方库的交互\t88
5.3 数据集的加载和使用\t89
5.3.1 PyTorch 的 Dataset 封装\t90
5.3.2 PyTorch 的 DataLoader 封装\t92
5.4 数据加载性能分析\t93
5.4.1 充分利用CPU的多核资源\t94
5.4.2 优化CPU上的计算负载\t95
5.4.3 减少不必要的CPU线程\t96
5.4.4 提升磁盘效率\t98
5.5 本章小结\t99
第6章单卡性能优化专题\t100
6.1 提高数据任务的并行度\t101
6.1.1 增加数据预处理的并行度\t101
6.1.2 使用异步接口提交数据传输任务\t104
6.1.3 数据传输与GPU计算任务并行\t106
6.2 提高GPU计算任务的效率\t109
6.2.1 增大BatchSize\t109
6.2.2 使用融合算子\t113
6.3 减少CPU和GPU间的同步\t116
6.4 降低程序中的额外开销\t118
6.4.1 避免张量的创建开销\t119
6.4.2 关闭不必要的梯度计算\t121
6.5 有代价的性能优化\t123
6.5.1 使用低精度数据进行设备间拷贝\t123
6.5.2 使用性能特化的优化器实现\t125
6.6 本章小结\t128
第7章单卡显存优化专题\t129
7.1 PyTorch的显存管理机制\t130
7.2 显存的分析方法\t131
7.2.1 使用PyTorch API查询当前显存状态\t132
7.2.2 使用PyTorch的显存分析器\t133
7.3 训练过程中的显存占用\t135
7.4 通用显存复用方法\t139
7.4.1 使用原位操作算子\t139
7.4.2 使用共享存储的操作\t141
7.5 有代价的显存优化技巧\t142
7.5.1 跨批次梯度累加\t142
7.5.2 即时重算前向张量\t144
7.5.3 将GPU显存下放至CPU内存\t145
7.5.4 降低优化器的显存占用\t147
7.6 优化Python代码以减少显存占用\t149
7.6.1 Python 垃圾回收机制\t150
7.6.2 避免出现循环依赖\t150
7.6.3 谨慎使用全局作用域\t152
7.7 本章小结\t153
第8章分布式训练专题\t155
8.1 分布式策略概述\t157
8.2 集合通信原语\t158
8.3 应对数据增长的并行策略\t161
8.3.1 数据并行策略\t161
8.3.2 手动实现数据并行算法\t162
8.3.3 PyTorch的DDP封装\t165
8.3.4 数据并行的性价比\t167
8.3.5 其他数据维度的切分\t169
8.4 应对模型增长的并行策略\t169
8.4.1 静态显存切分\t170
8.4.2 动态显存切分\t172
8.5 本章小结\t176
第9章高级优化方法专题\t178
9.1 自动混合精度训练\t179
9.1.1 浮点数的表示方法\t179
9.1.2 使用低精度数据类型的优缺点\t181
9.1.3 PyTorch 自动混合精度训练\t182
9.2 自定义高性能算子\t185
9.2.1 自定义算子的封装流程\t185
9.2.2 自定义算子的后端代码实现\t186
9.2.3 自定义算子导入Python\t188
9.2.4 自定义算子导入PyTorch\t189
9.2.5 在Python中使用自定义算子\t190
9.3 基于计算图的性能优化\t191
9.3.1 torch.compile的使用方法\t192
9.3.2 计算图的提取\t194
9.3.3 图的优化和后端代码生成\t196
9.4 本章小结\t198
第10章 GPT-2优化全流程\t199
10.1 GPT模型结构简介\t200
10.2 实验环境与机器配置\t203
10.3 显存优化\t203
10.3.1 基准模型\t204
10.3.2 使用跨批次梯度累加\t204
10.3.3 开启即时重算前向张量\t205
10.3.4 使用显存友好的优化器模式\t205
10.3.5 使用分布式方法降低显存占用—FSDP\t206
10.3.6 显存优化小结\t207
10.4 性能优化\t208
10.4.1 基准模型\t209
10.4.2 增加 BatchSize\t209
10.4.3 增加数据预处理的并行度\t210
10.4.4 使用异步接口完成数据传输\t211
10.4.5 使用计算图优化\t211
10.4.6 使用float16混合精度训练\t212
10.4.7 （可选）使用自定义算子\t213
10.4.8 使用单机多卡加速训练\t213
10.4.9 使用多机多卡加速训练\t214
10.4.10 性能优化小结\t215
结语\t216

书名	大模型动力引擎——PYTORCH性能与显存优化手册
分类	教育考试-考试-计算机类
作者	张爱玲、杨占略
出版社	清华大学出版社
下载
简介	内容推荐本书致力于探索如何在大规模深度学习模型训练中，**限度地提高性能和优化显存使用。本书面向深度学习从业者，尤其是希望深入了解并提升模型训练效率的工程师与研究人员。随着深度学习模型和数据规模的迅速增长，如何高效利用硬件资源，减少训练时间，成为当前AI系统工程的关键挑战。本书从硬件和软件的基础知识入手，逐步引导读者理解和掌握PyTorch的优化技巧。内容涵盖从单机到分布式训练，从显存管理到性能分析的多种优化策略，力求通过丰富的代码实例和深入的原理讲解，使读者能够在实践中灵活应用这些方法。目录目录第1章欢迎来到这场大模型竞赛\t1 1.1 模型规模带来的挑战\t2 1.2 数据规模带来的挑战\t3 1.3 模型规模与数据增长的应对方法\t4 第2章深度学习推荐的硬件知识\t6 2.1 CPU与内存\t7 2.1.1 内存\t7 2.1.2 CPU\t9 2.2 硬盘\t11 2.3 GPU\t13 2.3.1 CPU的局限性\t13 2.3.2 GPU的硬件结构\t14 2.3.3 GPU编程模型及其硬件对应\t18 2.3.4 GPU的关键性能指标\t19 2.3.5 显存与内存间的数据传输\t19 2.4 分布式系统\t22 2.4.1 单机多卡的通信\t22 2.4.2 多机多卡的通信\t24 2.4.3 分布式系统的数据存储\t24 第3章深度学习推荐的PyTorch知识\t26 3.1 PyTorch 的张量数据结构\t27 3.1.1 张量的基本属性及创建\t27 3.1.2 访问张量的数据\t28 3.1.3 张量的存储方式\t29 3.1.4 张量的视图\t32 3.2 PyTorch中的算子\t33 3.2.1 PyTorch的算子库\t33 3.2.2 PyTorch算子的内存分配\t35 3.2.3 算子的调用过程\t36 3.3 PyTorch的动态图机制\t38 3.4 PyTorch的自动微分系统\t41 3.4.1 什么是自动微分\t41 3.4.2 自动微分的实现\t42 3.4.3 Autograd 扩展自定义算子\t46 3.5 PyTorch的异步执行机制\t47 第4章定位性能瓶颈的工具和方法\t51 4.1 配置性能分析所需的软硬件环境\t52 4.1.1 减少无关程序的干扰\t52 4.1.2 提升PyTorch 程序的可重复性\t53 4.1.3 控制GPU频率\t58 4.1.4 控制CPU的性能状态和工作频率\t59 4.2 准确测量程序运行时间\t60 4.2.1 计量CPU程序的运行时间\t60 4.2.2 程序预热和多次运行取平均\t61 4.2.3 计量GPU程序的运行时间\t62 4.2.4 准确计量GPU的运行时间\t63 4.3 PyTorch性能分析器\t64 4.3.1 性能分析\t65 4.3.2 显存分析\t66 4.3.3 可视化性能图谱\t67 4.3.4 如何定位性能瓶颈\t67 4.4 GPU 专业分析工具\t71 4.4.1 Nsight Systems\t71 4.4.2 Nsight Compute\t71 4.5 CPU 性能分析工具\t75 4.5.1 Py-Spy\t75 4.5.2 strace\t77 4.6 本章小结\t78 第5章数据加载和预处理专题\t80 5.1 数据接入的准备阶段\t81 5.2 数据集的获取和预处理\t82 5.2.1 获取原始数据\t82 5.2.2 原始数据的清洗\t82 5.2.3 数据的离线预处理\t84 5.2.4 数据的存储\t86 5.2.5 PyTorch与第三方库的交互\t88 5.3 数据集的加载和使用\t89 5.3.1 PyTorch 的 Dataset 封装\t90 5.3.2 PyTorch 的 DataLoader 封装\t92 5.4 数据加载性能分析\t93 5.4.1 充分利用CPU的多核资源\t94 5.4.2 优化CPU上的计算负载\t95 5.4.3 减少不必要的CPU线程\t96 5.4.4 提升磁盘效率\t98 5.5 本章小结\t99 第6章单卡性能优化专题\t100 6.1 提高数据任务的并行度\t101 6.1.1 增加数据预处理的并行度\t101 6.1.2 使用异步接口提交数据传输任务\t104 6.1.3 数据传输与GPU计算任务并行\t106 6.2 提高GPU计算任务的效率\t109 6.2.1 增大BatchSize\t109 6.2.2 使用融合算子\t113 6.3 减少CPU和GPU间的同步\t116 6.4 降低程序中的额外开销\t118 6.4.1 避免张量的创建开销\t119 6.4.2 关闭不必要的梯度计算\t121 6.5 有代价的性能优化\t123 6.5.1 使用低精度数据进行设备间拷贝\t123 6.5.2 使用性能特化的优化器实现\t125 6.6 本章小结\t128 第7章单卡显存优化专题\t129 7.1 PyTorch的显存管理机制\t130 7.2 显存的分析方法\t131 7.2.1 使用PyTorch API查询当前显存状态\t132 7.2.2 使用PyTorch的显存分析器\t133 7.3 训练过程中的显存占用\t135 7.4 通用显存复用方法\t139 7.4.1 使用原位操作算子\t139 7.4.2 使用共享存储的操作\t141 7.5 有代价的显存优化技巧\t142 7.5.1 跨批次梯度累加\t142 7.5.2 即时重算前向张量\t144 7.5.3 将GPU显存下放至CPU内存\t145 7.5.4 降低优化器的显存占用\t147 7.6 优化Python代码以减少显存占用\t149 7.6.1 Python 垃圾回收机制\t150 7.6.2 避免出现循环依赖\t150 7.6.3 谨慎使用全局作用域\t152 7.7 本章小结\t153 第8章分布式训练专题\t155 8.1 分布式策略概述\t157 8.2 集合通信原语\t158 8.3 应对数据增长的并行策略\t161 8.3.1 数据并行策略\t161 8.3.2 手动实现数据并行算法\t162 8.3.3 PyTorch的DDP封装\t165 8.3.4 数据并行的性价比\t167 8.3.5 其他数据维度的切分\t169 8.4 应对模型增长的并行策略\t169 8.4.1 静态显存切分\t170 8.4.2 动态显存切分\t172 8.5 本章小结\t176 第9章高级优化方法专题\t178 9.1 自动混合精度训练\t179 9.1.1 浮点数的表示方法\t179 9.1.2 使用低精度数据类型的优缺点\t181 9.1.3 PyTorch 自动混合精度训练\t182 9.2 自定义高性能算子\t185 9.2.1 自定义算子的封装流程\t185 9.2.2 自定义算子的后端代码实现\t186 9.2.3 自定义算子导入Python\t188 9.2.4 自定义算子导入PyTorch\t189 9.2.5 在Python中使用自定义算子\t190 9.3 基于计算图的性能优化\t191 9.3.1 torch.compile的使用方法\t192 9.3.2 计算图的提取\t194 9.3.3 图的优化和后端代码生成\t196 9.4 本章小结\t198 第10章 GPT-2优化全流程\t199 10.1 GPT模型结构简介\t200 10.2 实验环境与机器配置\t203 10.3 显存优化\t203 10.3.1 基准模型\t204 10.3.2 使用跨批次梯度累加\t204 10.3.3 开启即时重算前向张量\t205 10.3.4 使用显存友好的优化器模式\t205 10.3.5 使用分布式方法降低显存占用—FSDP\t206 10.3.6 显存优化小结\t207 10.4 性能优化\t208 10.4.1 基准模型\t209 10.4.2 增加 BatchSize\t209 10.4.3 增加数据预处理的并行度\t210 10.4.4 使用异步接口完成数据传输\t211 10.4.5 使用计算图优化\t211 10.4.6 使用float16混合精度训练\t212 10.4.7 （可选）使用自定义算子\t213 10.4.8 使用单机多卡加速训练\t213 10.4.9 使用多机多卡加速训练\t214 10.4.10 性能优化小结\t215 结语\t216
随便看	小儿膏方辨证(精) 教育管理概论工业生产过程自控工程设计(高等学校自动化类专业系列教材) 名侦探之化学探秘(APTX4869的秘密)/名侦探带你学科学广东省虚拟现实产业发展报告(2022-2023) 数据库原理与实践(MySQL版普通高等教育十四五系列教材) 那一粒灯火英语口语必备小蓝书(高频口语表达200例) 园林美学建设工程合同管理历年真题解析及预测(2024)/全国监理工程师职业资格考试红宝书网络对抗的前世今生(信息安全知识赋能工程) 税收筹划理论与实务(中央财经大学研究生精品教材) 固体废弃物制备泡沫混凝土/大宗工业固体废弃物制备绿色建材技术研究丛书中国民族发展报告(2021民族地区社会发展)/民族发展蓝皮书新能源发电作业危险点分析及控制(海上风电分册) 草原保险研究孤独症学生融合学校环境创设与教学规划小龙虾优质高效养殖技术/现代养殖业实用技术系列创意包装(爆款单品设计实战指南)(精) 物质状态(气体液体和固体)/有趣的化学基础百科生命的逻辑(整合子生命观概论) 电子商务英语 Windows Server服务器配置与管理标准教程(实战微课版)/清华电脑学堂演讲与口才巢峰先生纪念文集 KSA-Kanxue Security Access v2.64 ultimate vocal remover5 v2.56 Ultimate Vocal Remover GUI v5.4.0 Soft4Boost Any Audio Grabber vAny 拼多多评论采集 V2.49 KSA-Kanxue Security Access v2.64 ultimate vocal remover5 v2.56 Ultimate Vocal Remover GUI v5.4.0 Soft4Boost Any Audio Grabber vAny 拼多多评论采集 V2.49 上古卷轴5项目优化MOD v2.3 魔女之泉R CE修改器 v1.70 消失的地平线修改器 v2.3 星空光环5斯巴达猎人套装MOD v3.80 怪物猎人世界冰原看破精灵加护满足感MOD v1.19 动物园之星黑鬃狼MOD v1.45 以撒的结合胎衣7天的七美德mod v2.3 骑马与砍杀2恐惧MOD v1.48 巫师3非开启控制台MOD v2.3 DNF血槽优化添加名誉经验条全体出战界面补丁 v2.3 touchline touchpad touchpaper touch screen touchstone Touch-Tone touch-type touchy touchy-feely touché [BT下载][再见，怦然心动][第16-17集][WEB-MP4/2.21G][国语配音/中文字幕][4K-2160P][H265][流媒体][ZeroTV] [BT下载][再见，怦然心动][第15-16集][WEB-MKV/0.70G][国语配音/中文字幕][1080P][流媒体][ParkTV] [BT下载][再见，怦然心动][第15-16集][WEB-MKV/0.57G][国语配音/中文字幕][1080P][流媒体][MiniTV] [BT下载][再见，怦然心动][第16-17集][WEB-MP4/0.55G][国语配音/中文字幕][1080P][流媒体][ZeroTV] [BT��][�ټ��Ȼ�Ķ�][��16-17��][WEB-MKV/15.18G][��/��Ļ][4K-2160P][��][H265][��ý� [BT��][�ټ��Ȼ�Ķ�][��15��][WEB-MKV/6.42G][��/��Ļ][4K-2160P][��][60֡��][H265][� [BT下载][再见，怦然心动][第16-17集][WEB-MKV/2.21G][国语配音/中文字幕][4K-2160P][H265][流媒体][ParkTV] [BT下载][再见，怦然心动][第15-17集][WEB-MKV/3.77G][国语配音/中文字幕][4K-2160P][60帧率][H265][流媒体 [BT下载][凌晨两点的灰姑娘][第05-08集][WEB-MKV/15.00G][国语音轨/简繁字幕][1080P][流媒体][ParkTV] [BT下载][凡人修仙传：星海飞驰篇][第119-123集][WEB-MP4/10.02G][国语配音/中文字幕][4K-2160P][流媒体][ParkTV] 怎么在WPS表格中插入Flash wps2016表格怎么固定首行和首列? wps2016堆积柱形图怎么做 wps2016抢鲜版组织架构图去哪了? wps演示2016怎么设置自动播放? WPS2016文字怎么插入书签? WPS表格2016单元格线条颜色如何修改? wps2016文档丢失找不到了怎么办? WPS2016抢鲜版更新了哪些功能? wps2016同名文件被覆盖怎么备份恢复?