编辑推荐 CUDA是目前用于GPU编程的主流工具,而GPU是近几十年来最令人振奋的硬件发展成果之一。通过CUDA,你可以用台式计算机去完成原本需要大型计算机集群或高性能计算设施才能完成的工作。因此CUDA在整个科学、技术、工程和数学界的科学计算方面变得越来越重要,包括从医学物理学到金融建模,再到大数据应用等领域。 本书汇集了作者长期开发和使用计算机来获取和分析科学数据的丰富经验,内容翔实。同时,本书也是一本具有创新性的著作,相较于其他同类GPU计算相关的图书,本书提供了更为丰富的示例。作者非常注重紧凑、优雅和高效的C++编码风格,本书配套的示例代码库和支持材料都可以在线获取,读者可以基于这些去构建自己的项目。 通过阅读本书,你将能够: 迅速掌握GPU与CUDA的基础及编程模型。 学习并行编程及背后的思想。 掌握CUDA程序的调试与性能分析技巧。 了解如何将CUDA应用于实战项目中。 提升解决并行计算问题的能力。 内容推荐 本书是一本深入浅出的CUDA编程实践指南。由CUDA编程领域的资深专家撰写,主要介绍使用C++对NVIDIA GPU进行编程,覆盖了GPU内核与硬件、并行思维与编程、warp和协作组、并行模板、纹理、蒙特卡罗应用等内容,旨在帮助读者快速掌握CUDA编程的核心技能。书中详细介绍了CUDA的基本概念、架构和编程模型,并通过丰富的实战案例和详细解析,指导读者如何编写、优化和调试CUDA程序。本书注重理论与实践相结合,旨在培养读者解决实际问题的能力。无论读者是初学者还是有一定经验的开发者,都能从本书中获益。掌握CUDA编程技能将为读者的职业发展增添重要竞争力,助力读者在科学研究、工程开发、数据分析等领域中脱颖而出。 目录 目 录 Contents<br /><br />译者序<br />前言<br />第1章 GPU内核与硬件介绍1<br />1.1?背景1<br />1.2?第一个CUDA示例2<br />1.3?CPU架构9<br />1.4?CPU的计算能力10<br />1.5?CPU内存管理:利用缓存隐藏延迟11<br />1.6?CPU:并行指令集13<br />1.7?GPU架构13<br />1.7.1?回顾历史13<br />1.7.2 NVIDIA的GPU型号14<br />1.8?Pascal架构14<br />1.9?GPU内存类型16<br />1.10?warp和wave17<br />1.11?线程块与网格18<br />1.12 占用率19<br />第1章尾注20<br />第2章 并行思维与编程21<br />2.1?Flynn分类法21<br />2.2 内核函数调用语法28<br />2.3 启动三维内核函数29<br />2.4 延迟隐藏和占用率35<br />2.5 并行模式36<br />2.6 并行归约37<br />2.7 共享内存48<br />2.8 矩阵乘法51<br />2.9 分块矩阵乘法58<br />2.10 BLAS62<br />第2章尾注66<br />第3章 warp和协作组68<br />3.1 协作组中的CUDA对象71<br />3.2 分块分区75<br />3.3 向量加载81<br />3.4 warp级内部函数和子warp84<br />3.5 线程分歧和同步85<br />3.6 避免死锁87<br />3.7 协同组91<br />3.8 HPC特性97<br />第3章尾注98<br />第4章 并行模板100<br />4.1 二维模板100<br />4.2 二维模板的级联计算112<br />4.3 三维模板116<br />4.4 数字图像处理119<br />4.5 Sobel滤波器127<br />4.6 中值滤波器127<br />第4章尾注132<br />第5章 纹理133<br />5.1 图像插值134<br />5.2 GPU纹理135<br />5.3 图像旋转137<br />5.4 lerp函数138<br />5.5 纹理硬件141<br />5.6 彩色图像146<br />5.7 图像查看148<br />5.8 立体图像的仿射变换151<br />5.9 三维图像配准156<br />5.10 图像配准结果164<br />第5章尾注166<br />第6章 蒙特卡罗应用167<br />6.1 简介167<br />6.2 cuRAND库173<br />6.2.1 cuRAND的主机API173<br />6.2.2 cuRAND的设备API178<br />6.3 生成其他分布184<br />6.4 伊辛模型186<br />第6章尾注194<br />第7章 使用CUDA流和事件的<br /> 并发196<br />7.1 并发内核函数执行196<br />7.2 CUDA管道示例198<br />7.3 thrust与cudaDeviceReset202<br />7.4 管道示例的结果203<br />7.5 CUDA事件205<br />7.6 磁盘的开销212<br />7.7 CUDA图219<br />第7章尾注224<br />第8章 PET扫描仪的应用225<br />8.1 PET简介225<br />8.2 数据存储和扫描仪的几何结构<br /> 的定义227<br />8.3 模拟PET扫描仪233<br />8.4 建立系统矩阵244<br />8.5 PET重建246<br />8.6 结果250<br />8.7 OSEM的实现252<br />8.8 交互作用的深度254<br />8.9 使用交互作用的深度的PET<br /> 结果257<br />8.10 块探测器258<br />8.11 Richardson-Lucy图像去模糊268<br />第8章尾注273<br />第9章 扩展276<br />9.1 GPU的选型278<br />9.2 CUDA统一虚拟寻址281<br />9.3 CUDA的P2P访问282<br />9.4 CUDA零拷贝内存284<br />9.5 统一内存285<br />9.6 MPI的简要介绍295<br />第9章尾注305<br />第10章 性能分析和调试工具306<br />10.1 gpulog示例306<br />10.2 使用nvprof进行分析311<br />10.3 用NVIDIA Visual Profiler进行<br /> 分析314<br />10.4 Nsight Systems316<br />10.5 Nsight Compute319<br />10.6 Nsight Compute部分320<br />10.6.1 GPU光速320<br />10.6.2 计算工作负载分析321<br />10.6.3 内存工作负载分析322<br />10.6.4 调度器统计信息323<br />10.6.5 warp状态统计323<br />10.6.6 指令统计信息324<br />10.6.7 启动统计信息324<br />10.6.8 占用率326<br />10.6.9 源计数器327<br />10.7 使用printf进行调试328<br />10.8 通过Microsoft Visual Studio<br /> 进行调试330<br />10.9 调试内核函数代码332<br />10.10 内存检查334<br />10.10.1 cuda-memcheck334<br />10.10.2 Linux工具336<br />10.10.3 CUDA计算过滤器336<br />第10章尾注337<br />第11章 张量核心338<br />11.1 张量核心与FP16338<br />11.2 warp矩阵函数340<br />11.3 支持的数据类型345<br />11.4 张量核心的归约算法346<br />11.5 结论351<br />第11章尾注351<br />附录352<br />附录A CUDA简史352<br />附录B 原子操作361<br />附录C NVCC编译器366<br />附录D AVX与Intel编译器372<br />附录E 数字格式380<br />附录F CUDA文档和库384<br />附录G CX头文件387<br />附录H AI和Python410<br />附录I C++的主题413 |