(1)作者背景权威:作者是湖南国家应用数学中心副主任、湘潭大学的博导、科技部国家重点子课题(大模型相关)的负责人,是资深的大模型技术专家和布道者。
(2)作者经验丰富:作者在司法、工业设计等多个领域成功实现了开源大模型向垂直领域的迁移,有丰富的实战经验。
(3)涵盖全部技术栈:从迁移方式、低算力微调、推理优化到开源基座模型的选择指标等,本书详细介绍了构建垂直领域大模型需要的全部技术栈。
(4)涵盖构建全流程:从垂直大模型的迁移、微调到部署和性能优化,本书详细讲解了构建垂直领域大模型的全流程
网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 大模型垂直领域低算力迁移:微调、部署与优化 |
分类 | 教育考试-考试-计算机类 |
作者 | 程戈 |
出版社 | 机械工业出版社 |
下载 | |
简介 | 编辑推荐 (1)作者背景权威:作者是湖南国家应用数学中心副主任、湘潭大学的博导、科技部国家重点子课题(大模型相关)的负责人,是资深的大模型技术专家和布道者。 (2)作者经验丰富:作者在司法、工业设计等多个领域成功实现了开源大模型向垂直领域的迁移,有丰富的实战经验。 (3)涵盖全部技术栈:从迁移方式、低算力微调、推理优化到开源基座模型的选择指标等,本书详细介绍了构建垂直领域大模型需要的全部技术栈。 (4)涵盖构建全流程:从垂直大模型的迁移、微调到部署和性能优化,本书详细讲解了构建垂直领域大模型的全流程 内容推荐 内容简介 本书是一本深度探讨大模型在低算力环境下实现迁移与微调的实践指南,并深入讲解了大模型的部署与优化策略。书中结合多个垂直领域的应用场景,从理论到技术实现,全程详尽讲解了如何应对大模型在行业落地中的技术挑战,帮助读者逐步掌握大模型的迁移与微调核心技术。 通过阅读本书,你将能够: (1)全面理解垂直领域迁移方式与技术选型 深入了解开源大模型向垂直领域迁移的核心方式,包括提示工程、检索增强生成、参数高效微调与全参数微调等技术路径,并灵活应对低算力场景下的迁移技术挑战。 (2)快速获取高质量领域数据的低成本方案 学习通过指令自举、无监督标注、自我策展等方法构建高质量数据集,同时掌握数据清洗、去重和质量过滤等关键技术,显著降低数据获取成本。 (3) 掌握低算力环境下的训练与推理优化技术 全面掌握低算力训练与微调方法(如LoRA和QLoRA),并结合推理优化技术(如量化、剪枝和模型编译),高效实现低成本的大模型训练与推理。 (4)精通大模型的生产环境部署与优化 系统学习生产环境中大模型的部署方案,涵盖服务器推理加速、分布式集群架构和多平台适配技术,确保模型在实际应用中的高效、安全运行。 无论你是大模型开发者、人工智能研究人员,还是对垂直领域AI应用感兴趣的行业专家,本书都将带你深入大模型的核心领域,提供从构建、优化到部署的全流程指导,助你掌握这一前沿技术的实践精髓。 目录 CONTENTS<br />目 录<br />前言<br />第1章 垂直领域大模型的行业<br />变革与机遇1<br />1.1 大模型下的行业变革1<br />1.1.1 大模型的iPhone时刻1<br />1.1.2 大模型的全行业重塑3<br />1.1.3 劳动力市场的变革7<br />1.2 垂直领域大模型迁移的动机7<br />1.2.1 商业价值7<br />1.2.2 行业技术护城河9<br />1.2.3 领域数据优势9<br />1.3 垂直领域大模型迁移的机遇10<br />第2章 垂直领域迁移技术栈11<br />2.1 垂直领域迁移的方式11<br />2.1.1 提示工程12<br />2.1.2 检索增强生成15<br />2.1.3 参数高效微调17<br />2.1.4 全参数微调18<br />2.1.5 从头预训练19<br />2.1.6 垂直领域迁移低算<br />力技术选型20<br />2.2 低算力微调20<br />2.3 推理优化22<br />2.3.1 模型编译23<br />2.3.2 模型压缩24<br />2.3.3 模型分区25<br />第3章 大模型的开源生态27<br />3.1 大模型的开源社区27<br />3.1.1 Meta27<br />3.1.2 Hugging Face28<br />3.1.3 微软31<br />3.1.4 英伟达32<br />3.2 开源生态下基座模型选择的<br />关键指标33<br />3.2.1 参数规模33<br />3.2.2 训练Token34<br />3.2.3 上下文窗口35<br />3.2.4 综合评测36<br />3.2.5 商业许可37<br />3.3 开源基座模型LLaMA系列38<br />3.3.1 LLaMA 238<br />3.3.2 LLaMA 340<br />3.3.3 商用40<br />第4章 自举领域数据的获取42<br />4.1 指令自举标注42<br />4.2 自举无监督标注44<br />4.2.1 指令生成阶段44<br />4.2.2 答案生成阶段46<br />4.2.3 过滤和修剪阶段47<br />4.3 自我策展47<br />4.3.1 初始化阶段48<br />4.3.2 自我增强阶段49<br />4.3.3 自我策展阶段49<br />4.4 自我奖励50<br />4.4.1 种子数据51<br />4.4.2 自我指令创建51<br />4.4.3 指令遵循训练52<br />4.4.4 迭代训练53<br />第5章 数据处理54<br />5.1 数据处理的挑战54<br />5.2 数据质量55<br />5.2.1 文本提取56<br />5.2.2 数据去重56<br />5.2.3 质量过滤58<br />5.2.4 内容毒性过滤59<br />5.3 高效数据集访问60<br />5.3.1 数据集来源60<br />5.3.2 列式内存格式61<br />5.3.3 向量化计算63<br />5.3.4 零复制数据交换64<br />5.3.5 虚拟内存65<br />第6章 大模型抽象66<br />6.1 计算图66<br />6.2 静态计算图69<br />6.3 动态计算图70<br />6.4 算子优化与调度73<br />6.4.1 计算图与算子优化73<br />6.4.2 计算图与算子调度74<br />6.4.3 串行调度与并行调度74<br />6.5 大模型中的张量与算子76<br />6.5.1 输入层77<br />6.5.2 自注意力层78<br />6.5.3 前馈网络层79<br />6.5.4 输出层79<br />6.6 大模型的序列化80<br />6.6.1 序列化文件的类型80<br />6.6.2 TensorFlow模型序列化81<br />6.6.3 PyTorch模型序列化84<br />6.6.4 Safetensors序列化格式86<br />第7章 LoRA低算力微调89<br />7.1 LoRA的原理89<br />7.2 LoRA的重参数化方法91<br />7.3 秩的选择92<br />7.4 LoRA的多任务处理策略93<br />7.5 LoRA量化版本QLoRA94<br />7.6 LoRA微调类型95<br />7.6.1 继续预训练95<br />7.6.2 RLHF96<br />7.6.3 DPO97<br />第8章 大模型的分布式训练99<br />8.1 分布式训练的挑战99<br />8.1.1 算力与内存瓶颈99<br />8.1.2 分布式训练系统的<br />设计挑战100<br />8.2 分布式集群架构102<br />8.2.1 GPU集群架构102<br />8.2.2 集合通信算子104<br />8.2.3 通信拓扑108<br />8.3 分布式训练的通信架构109<br />8.3.1 基于参数服务器的架构109<br />8.3.2 基于归约的架构111<br />8.4 并行模式113<br />8.4.1 数据并行113<br />8.4.2 张量并行115<br />8.4.3 流水线并行116<br />8.4.4 并行模式的对比117<br />8.5 大模型的张量并行118<br />8.5.1 输入层118<br />8.5.2 输出层120<br />8.5.3 多层感知机121<br />8.5.4 自注意力122<br />8.6 数据并行的内存优化123<br />8.6.1 设备内存占用124<br />8.6.2 ZeRO技术125<br />8.6.3 ZeRO-Offload技术128<br />第9章 推理优化技术131<br />9.1 计算加速131<br />9.1.1 算子融合131<br />9.1.2 并行推理134<br />9.2 内存优化135<br />9.2.1 KV缓存135<br />9.2.2 页注意力137<br />9.2.3 快速注意力139<br />9.3 吞吐量优化143<br />9.3.1 内存I/O瓶颈143<br />9.3.2 静态批处理143<br />9.3.3 连续批处理144<br />9.3.4 动态分割融合145<br />9.4 量化147<br />9.4.1 量化的动机147<br />9.4.2 量化的原理148<br />9.4.3 LLM.int8()150<br />9.4.4 GPTQ152<br />第10章 大模型的编译优化156<br />10.1 深度学习编译与大模型编译156<br />10.1.1 深度学习编译156<br />10.1.2 多级渐进优化158<br />10.1.3 硬件优化偏好159<br />10.1.4 大模型的编译特点161<br />10.2 深度学习框架与编译优化162<br />10.2.1 深度学习框架162<br />10.2.2 不同阶段的编译优化163<br />10.3 训练阶段的编译优化165<br />10.3.1 训练前优化165<br />10.3.2 训练优化库166<br />10.4 端侧部署的编译优化166<br />10.4.1 深度学习框架的<br /> 端侧部署工具167<br />10.4.2 第三方编译工具168<br />10.4.3 大模型的手动<br /> 编译优化170<br />10.5 服务器端部署的编译优化171<br />第11章 大模型部署的非性能需求173<br />11.1 内容安全173<br />11.1.1 内容安全的分类173<br />11.1.2 应对策略176<br />11.2 水印177<br />11.2.1 主要检测技术的对比177<br />11.2.2 大模型水印框架179<br />11.2.3 水印攻击技术181<br />11.3 监控184<br />11.3.1 监控流程184<br />11.3.2 大模型基线185<br />11.3.3 监控架构187<br />11.4 评估188<br />11.4.1 评估维度189<br />11.4.2 评估数据集190<br />11.4.3 评估方法192<br />第12章 垂直领域大模型的<br /> 服务器端部署194<br />12.1 服务器端部署架构194<br />12.1.1 服务器端部署的挑战194<br />12.1.2 公有云与私有云196<br />12.1.3 服务器端部署流程与<br /> 优化198<br />12.2 运行库优化199<br />12.2.1 运行库优化与编译<br /> 优化199<br />12.2.2 TensorRT运行库架构199<br />12.2.3 TensorRT运行库优化与<br /> 推理201<br />12.2.4 TensorRT-LLM204<br />12.3 TGI生产环境解决方案204<br />12.3.1 TGI的架构204<br />12.3.2 TGI推理加速技术206<br />12.3.3 TGI的其他特性207 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。