![]()
内容推荐 本书基于作者多年的研究成果,详细介绍了跨数据中心机器学习的训练系统设计和通信优化技术。本书面向多数据中心间的分布式机器学习系统,针对多数据中心间有限的传输带宽、动态异构资源,以及异构数据分布三重挑战,自底向上讨论梯度传输协议、流量传送调度、高效通信架构、压缩传输机制、同步优化算法、异构数据优化算法六个层次的优化技术,旨在提升分布式机器学习系统的训练效率和模型性能,突破跨数据中心机器学习的通信瓶颈和数据壁垒,实现多数据中心算力和数据资源的高效整合。 本书可作为跨数据中心机器学习的参考资料,供人工智能及分布式计算领域的科研和工程人员阅读。 目录 第1章 跨数据中心机器学习概述 1.1 分布式机器学习 1.1.1 基本概念 1.1.2 国内外发展现状 1.1.3 并行模式 1.1.4 通信范式 1.1.5 通信优化技术 1.2 跨数据中心分布式机器学习 1.2.1 产业发展背景及需求 1.2.2 基本架构 1.2.3 面临的关键挑战 1.3 本书的章节结构 本章参考文献 第2章 高效通信架构 2.1 分层参数服务器通信架构 2.1.1 架构设计方案 2.1.2 运行流程与通信模型 2.1.3 主要操作原语 2.2 部署模式与适用场景 2.3 实验与性能评估 2.4 本章小结 本章参考文献 第3章 同步优化算法 3.1 系统模型与基础同步优化算法 3.1.1 系统模型 3.1.2 全同步通信算法 3.1.3 实验与性能评估 3.2 面向受限域间通信资源的同步算法 3.2.1 研究现状 3.2.2 内同步累积的低频同步通信算法 3.2.3 实验与性能评估 3.3 面向异构计算与通信资源的同步算法 3.3.1 研究现状 3.3.2 延迟补偿的混合同步算法 3.3.3 迭代次数自适应的同步算法 3.3.4 实验与性能评估 3.4 本章小结 本章参考文献 第4章 压缩传输机制 4.1 稀疏化与量化基本概念 4.2 双向梯度稀疏化技术 4.2.1 梯度稀疏化技术 4.2.2 稀疏同步技术 4.2.3 冗余梯度修正技术 4.3 混合精度传输技术 4.4 实验与性能评估 4.5 本章小结 本章参考文献 第5章 梯度传输协议 5.1 研究动机 5.2 协议设计及其挑战 5.3 近似梯度分类算法 5.3.1 算法设计 5.3.2 分类阈值动态衰减技术 5.4 差异化梯度传输协议的设计 5.4.1 基于优先级的差异化传输 5.4.2 差异化接收方法 5.5 实现和部署 5.5.1 DGT通信中间件的功能实现 5.5.2 DGT通信中间件的跨数据中心部署 5.6 实验与性能评估 5.7 本章小结 本章参考文献 第6章 流量传送调度 6.1 基于动态通信调度的通信覆盖机制 6.1.1 研究动机 6.1.2 问题建模 6.1.3 通信覆盖机制设计 6.1.4 实现和部署 6.1.5 实验与性能评估 6.2 光广域网中的在线流量调度 6.2.1 研究动机 6.2.2 任务内调度 6.2.3 任务间调度 6.2.4 算法性能分析 6.2.5 仿真结果与分析 6.3 本章小结 本章参考文献 第7章 异构数据优化算法 7.1 研究现状 7.2 系统模型 7.3 联邦组同步算法设计与实现 7.3.1 算法设计动机 7.3.2 算法设计与实现 7.4 组节点选择算法设计与实现 7.4.1 问题建模与分析 7.4.2 算法设计与实现 7.5 算法的收敛性与效率分析 7.5.1 算法收敛性分析 7.5.2 算法效率分析 7.6 实验与性能评估 7.7 本章小结 本章参考文献 第8章 总结与展望 附录A 缩略语对照表 |