本书介绍了异构计算系统的发展历程、当下主流的异构计算系统所使用的程序设计模型以及若干典型的异构计算应用。本书主要以CPU-GPU异构计算系统为代表进行介绍,同时在第8章中简要介绍了FPGA异构计算系统,以使读者了解不同类型的异构计算系统之间的差异。书中具体讨论了用于CPU-GPU异构计算系统的线程池模型的设计与实现。
本书适合GPU程序设计、高性能计算、计算机体系结构等相关领域的从业人员和科研人员使用,也适合对异构计算感兴趣并具有一定基础知识的读者阅读。
网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 异构计算及其应用 |
分类 | 教育考试-考试-计算机类 |
作者 | 李涛//张帅//董前琨 |
出版社 | 科学出版社 |
下载 | ![]() |
简介 | 内容推荐 本书介绍了异构计算系统的发展历程、当下主流的异构计算系统所使用的程序设计模型以及若干典型的异构计算应用。本书主要以CPU-GPU异构计算系统为代表进行介绍,同时在第8章中简要介绍了FPGA异构计算系统,以使读者了解不同类型的异构计算系统之间的差异。书中具体讨论了用于CPU-GPU异构计算系统的线程池模型的设计与实现。 本书适合GPU程序设计、高性能计算、计算机体系结构等相关领域的从业人员和科研人员使用,也适合对异构计算感兴趣并具有一定基础知识的读者阅读。 目录 第1章 概述 1.1 计算与计算工具 1.2 处理器 1.2.1 微处理器 1.2.2 协处理器 1.3 异构计算简介 1.3.1 GPGPU计算 1.3.2 异构计算应用 本章小结 第2章 异构计算系统结构 2.1 GPU体系结构 2.2 CPU-GPU异构计算系统 2.2.1 体系结构视角的CPU-GPU异构计算系统 2.2.2 单结点单GPU异构计算系统 2.2.3 单结点多GPU异构计算系统 2.3 GPU与AI计算 本章小结 第3章 异构计算编程模型 3.1 CUDA程序设计模型 3.1.1 CUDA线程模型 3.1.2 CUDA存储模型 3.1.3 CUDA编译流程 3.2 CUDA相关软件库 3.3 CUDA性能分析工具 本章小结 第4章 线程池计算模型 4.1 模型设计 4.1.1 线程池模型 4.1.2 基本设计原理和优点 4.1.3 模型结构设计 4.1.4 支持单结点多GPU的CAGTP模型 4.2 模型运行机制 4.2.1 CAGTP模型构造 4.2.2 分配任务槽 4.2.3 计算线程块级任务调度 4.2.4 启动任务复用Kernel函数 4.3 程序设计接口 4.4 模型扩展变体 4.4.1 无任务队列的CAGTP模型 4.4.2 带有轮转双任务槽的CAGTP模型 4.4.3 支持流多处理器划分的CAGTP模型 4.5 模型性能测试与分析 4.5.1 模型讨论 4.5.2 性能分析 4.5.3 微基准测试 本章小结 第5章 线性代数算法实现 5.1 通用稠密矩阵乘 5.1.1 概述 5.1.2 GEMM的CAGTP实现 5.1.3 GEMM在CAGTP上的性能分析 5.2 批量细粒度GEMM的CAGTP实现与性能分析 5.3 Cholesky分解 5.3.1 Cholesky分解介绍 5.3.2 Cholesky分解的CAGTP实现 5.3.3 Cholesky分解在CAGTP上的性能分析 5.4 混合任务计算 5.4.1 SPMV与Black Scholes算法介绍 5.4.2 混合任务计算的CAGTP实现 5.4.3 混合任务计算在CAGTP上的性能分析 5.5 多GPU支持 5.5.1 多GPU GEMM的CAGTP实现 5.5.2 多GPU GEMM在CAGTP上的性能分析 本章小结 第6章 机器学习算法实现 6.1 T近邻谱聚类 6.1.1 T近邻谱聚类介绍 6.1.2 T近邻步骤的CAGTP实现 6.1.3 T近邻步骤在CAGTP上的性能分析 6.2 K-means算法 6.2.1 K-means介绍 6.2.2 K-means的CAGTP实现 6.2.3 K-means在CAGTP上的性能分析 6.3 支持向量机 6.3.1 支持向量机介绍 6.3.2 SVM的CPU-GPU异构协作实现 6.3.3 SVM异构实现的性能分析 本章小结 第7章 高光谱图像分类算法实现 7.1 高光谱图像分类模型 7.1.1 高光谱图像分类简介 7.1.2 高光谱图像分类模型 7.2 高光谱图像分类模型实现 7.2.1 模型训练 7.2.2 模型并行分析 7.2.3 模型的GPU映射 7.3 实验结果及分析 7.3.1 实验准备 7.3.2 数据预处理分析 7.3.3 模型训练分析 7.3.4 资源利用分析 本章小结 第8章 FPGA异构计算 8.1 概述 8.2 FPGA结构与编程 8.2.1 FPGA结构 8.2.2 VHDL和高层次综合技术HLS 8.3 FPGA计算及应用 8.3.1 卷积神经网络及应用 8.3.2 基于FPGA的应用设计 8.3.3 FPGA异构卷积神经网络模型系统 8.4 实验结果及分析 8.4.1 实验平台 8.4.2 实验结果分析 本章小结 参考文献 序言 在计算机领域,科学与工程应用及其算法的复杂性 增长引发对计算能力需求的不断提升。自从2006年GPU 从早期的Fermi架构发展到现在的Ampere架构,计算、 存储和通信能力都得到了显著提升。与CPU面向延迟优 化的设计理念不同,GPU主要面向吞吐量的设计目标, 通过大量的流处理器提升密集计算的性能,同时简化了 对控制流程的处理。CPU擅长复杂的控制逻辑处理,而 GPU则以CPU协处理器的方式专注于密集计算能力提升, 由此GPU与CPU优势互补形成了一种新的计算模式——异 构计算,并成为主流的计算方式。近年来,FPGA的计算 性能也得以快速提升,Intel公司已经向特定客户提供 了集成FPGA加速器的Xeon可升级处理器。以天河系列超 级计算机为代表的众多高性能集群系统也都采用CPU与 GPU或者是其他协处理器构成的异构计算模式,在计算 性能与能耗方面达到了更好的平衡。 以GPU为代表的加速器性能的快速提高,进一步推 动了科学与工程计算、人工智能等应用领域的快速拓展 ,促进了以深度学习为代表的人工智能技术向多个领域 的成功应用,比如图像分类、语音识别、自然语言处理 和基因序列分析等。GPU已经成为当前深度学习的主要 算力来源,TensorFlow、Pytorch等开源深度学习框架 ,以及PaddlePaddle、MindSpore等国产框架都进行了 GPU适配,GPU对于当前人工智能大规模复杂模型的高效 训练起到了重要支撑作用。 本书总结了主流的CPU-GPU异构计算系统编程模型 及其典型应用,重点介绍了用于CPU-GPU异构系统的线 程池模型的设计与实现,并面向线性代数、机器学习两 类较为通用的算法以及高光谱图像分类问题进行了异构 计算实现与分析。另外,本书还介绍了基于FPGA的异构 计算及其应用,并简要给出了异构计算系统的发展趋势 。 本书共8章。李涛负责策划和统稿,并撰写第1、6 、7章,张帅撰写第2、4、5章,董前琨撰写第3、8章。 本书得到国家重点研发计划课题(No. 2018YFB0204304)、国家自然科学基金面上项目(No. 61872200)、中国科学院计算技术研究所计算机体系结 构国家重点实验室开放课题(CARCH201905)和之江实 验室开放课题(2022PG0AB05)的资助。 本书在撰写过程中,收到了多位教授和专家学者提 出的宝贵意见,同时得到了硕士研究生董晗、靳宗明、 马生鸿等同学的支持和帮助,在此一并表示衷心的感谢 。 书中难免存在不足之处,恳请各位读者批评指正。 作者于南开园 2022年9月 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。