网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 混合架构超算并行程序设计与应用(新工科建设之路计算机类专业系列教材) |
分类 | |
作者 | |
出版社 | 电子工业出版社 |
下载 | ![]() |
简介 | 内容推荐 本书面向国产E级超算的体系结构和高性能计算领域,关注近年来出现的新超算硬件和新软件技术(如神威E级超算编程模式、DCU编程模式)。本书涵盖神威、曙光等超算的硬件架构与编程方法,深度结合国产超算体系结构特点,以实例的形式探讨异构超算上的高性能算法设计、优化技术及高性能软件的开发和优化方法。本书可作为高等院校计算机科学与技术、软件工程等专业本科生或研究生的教材,使其在掌握通用计算机程序设计的基础上,进一步提升在该领域的理论知识水平和程序优化实践技能,也可作为从事高性能计算和体系结构研究的科研工作者与工程技术人员的参考资料,同时也能为关注高性能计算与超算技术发展的读者提供有益参考。 目录 第1章 绪论 1.1 高性能计算应用需求和意义 1.2 混合架构超算发展趋势 1.3 如何进行异构混合架构上的程序设计 1.4 本书的内容和安排 第2章 异构混合架构概述 2.1 国际国内超算现状 2.1.1 超算发展历程 2.1.2 超算发展现状 2.1.3 我国超算发展现状 2.2 典型的混合架构计算机 2.2.1 CPU+GPU架构:以Frontier、Summit、Aurora为代表 2.2.2 ARM架构:日本富岳 2.2.3 CPU+DCU:曙光超算 2.2.4 神威主从核架构:新一代神威超算 2.2.5 新一代天河超算 2.3 混合架构程序设计语言与框架概述 2.3.1 OpenMP 2.3.2 MPI 2.3.3 CUDA/HIP 2.3.4 OpenACC 2.3.5 Athread 2.3.6 OpenCL 2.3.7 oneAPI 习题 参考文献 第3章 异构混合架构性能分析理论 3.1 并行程序的时间开销 3.2 相对性能 3.3 绝对性能 3.4 性能瓶颈 3.4.1 计算密度 3.4.2 访存密集与计算密集 3.4.3 roofline性能模型 3.4.4 roofline分析示例:SpMV 习题 参考文献 第4章 CPU高性能程序设计 4.1 内存模型与OpenMP、MPI并行编程方法 4.2 OpenMP并行编程简介 4.2.1 OpenMP的Hello World 4.2.2 编译制导指令 4.2.3 运行时库函数 4.2.4 环境变量 4.2.5 OpenMP offload 4.3 MPI并行编程简介 4.3.1 MPI基本函数 4.3.2 MPI通信模式 4.4 SIMD向量化 4.4.1 CPU向量化指令集发展 4.4.2 向量化编程实践 4.5 性能分析工具 4.5.1 perf工具 4.5.2 gprof工具 4.5.3 IPM工具 4.5.4 Score-P工具 习题 第5章 神威异构众核程序设计 5.1 神威超算及编程环境概述 5.1.1 神威超算的背景及历史 5.1.2 神威·太湖之光超算架构 5.1.3 新一代神威超算架构 5.1.4 神威编程环境 5.1.5 访存层次 5.2 神威众核编程 5.2.1 众核程序结构 5.2.2 从核函数 5.2.3 第一个并行程序 5.2.4 示例:stencil计算优化 5.3 神威SIMD 5.3.1 SIMD简介 5.3.2 SIMD示例 习题 第6章 面向DCU架构的程序设计与优化 6.1 曙光超算及编程环境概述 6.1.1 曙光超算简介 6.1.2 曙光超算节点架构 6.1.3 ROCm/DTK编程环境 6.2 HIP编程方法 6.2.1 HIP与CUDA 6.2.2 曙光DCU编程模型 6.2.3 HIP编程 6.3 利用LDS进行数据共享 6.3.1 LDS概念 6.3.2 LDS使用实例 6.4 线程间通信 6.4.1 Block级线程通信 6.4.2 wavefront级线程通信 6.5 reduce优化 习题 第7章 异构混合架构上的算法设计 7.1 DCU上的前缀和 7.1.1 Prefix Sum简介 7.1.2 并行难点 7.1.3 wavefront Scan算法 7.1.4 Block Scan算法 7.1.5 全局Scan算法 7.1.6 更高效的Scan算法 7.2 通用矩阵乘 7.2.1 GEMM简介 7.2.2 并行难点 7.2.3 面向DCU的GEMM优化 7.2.4 BENCHMARK 7.3 DCU上的稀疏矩阵向量乘 7.3.1 概述 7.3.2 稀疏矩阵CSR存储格式 7.3.3 并行难点 7.3.4 高效SpMV算法实现 习题 第8章 异构混合架构常用算法库 8.1 算法库介绍 8.1.1 常见算法库层次 8.1.2 国内外典型超算上的算法库 8.2 稠密矩阵计算库:rocBLAS、cuBLAS、swBLAS 8.2.1 BLAS接口介绍 8.2.2 rocBLAS 8.2.3 cuBLAS 8.3 稀疏矩阵计算库:rocSPARSE、cuSPARSE、swSPARSE 8.3.1 常用的稀疏矩阵的存储格式 8.3.2 rocSPARSE 8.3.3 cuSPARSE 8.3.4 swSPARSE 8.4 LAPACK线性代数计算库:特征值、LU 8.4.1 LAPACK介绍 8.4.2 rocSOLVER 8.4.3 cuSOLVER 8.5 线性方程组求解 8.5.1 常用的求解算法 8.5.2 PETSc的层次架构 习题 第9章 异构混合架构上并行应用程序开发示例 9.1 MISA-MD分子动力学模拟程序异构优化 9.1.1 分子动力学模拟概述 9.1.2 面向DCU的MD优化的挑战性及优化思路 9.1.3 主机-设备间通信及其优化 9.1.4 并行计算策略 9.1.5 其他访存优化技术 9.2 SUMMER-CD 9.2.1 软件介绍 9.2.2 物理模型 9.2.3 三层并行模型 9.2.4 自适应异构数据传输 9.2.5 基于Stream的计算通信重叠 9.3 有限体积法求解圣维南方程组在神威·太湖之光上的优化 9.3.1 物理模型简介 9.3.2 使用Athread线程库加速 9.3.3 SIMD 9.3.4 双缓冲机制 9.3.5 优化效果 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。