大规模并行处理器程序设计(英文版原书第3版)/经典原版书库豆瓣PDF电子书bt网盘迅雷下载电子书下载-霍普软件下载网

大卫·B. 柯克（David B. Kirk）美国国家工程院院士，NVIDIA Fellow，曾任NVIDIA公司首席科学家。他领导了NVIDIA图形技术的开发，并且是CUDA技术的创始人之一。2002年，他荣获ACM SIGGRAPH计算机图形成就奖，以表彰其在把高性能计算机图形系统推向大众市场方面做出的杰出贡献。他拥有加州理工学院计算机科学博士学位。胡文美（Wen-mei W. Hwu）美国伊利诺伊大学厄巴纳-香槟分校电气与计算机工程系AMD Jerry Sanders讲席教授，并行计算研究中心首席科学家，领导IMPACT团队和CUDA很好中心的研究工作。他在编译器设计、计算机体系结构、微体系结构和并行计算方面做出了很好贡献，是IEEE Fellow、ACM Fellow，荣获了包括ACM SigArch Maurice Wilkes Award在内的众多奖项。他还是MulticoreWare公司的联合创始人兼CTO。他拥有加州大学伯克利分校计算机科学博士学位。

Preface Acknowledgements CHAPTER.1 Introduction.................................................................................1 1.1 Heterogeneous Parallel Computing................................................2 1.2 Architecture of a Modern GPU.......................................................6 1.3 Why More Speed or Parallelism?...................................................8 1.4 Speeding Up Real Applications....................................................10 1.5 Challenges in Parallel Programming ............................................12 1.6 Parallel Programming Languages and Models.............................12 1.7 Overarching Goals........................................................................14 1.8 Organization of the Book..............................................................15 References ............................................................................................18 CHAPTER.2 Data Parallel Computing.......................................................19 2.1 Data Parallelism............................................................................20 2.2 CUDA C Program Structure.........................................................22 2.3 A Vector Addition Kernel .............................................................25 2.4 Device Global Memory and Data Transfer...................................27 2.5 Kernel Functions and Threading...................................................32 2.6 Kernel Launch...............................................................................37 2.7 Summary.......................................................................................38 Function Declarations...................................................................38 Kernel Launch...............................................................................38 Built-in (Predefined) Variables .....................................................39 Run-time API................................................................................39 2.8 Exercises.......................................................................................39 References ............................................................................................41 CHAPTER.3 Scalable Parallel Execution................................................43 3.1 CUDA Thread Organization.........................................................43 3.2 Mapping Threads to Multidimensional Data................................47 3.3 Image Blur: A More Complex Kernel ..........................................54 3.4 Synchronization and Transparent Scalability ...............................58 3.5 Resource Assignment....................................................................60 3.6 Querying Device Properties..........................................................61 3.7 Thread Scheduling and Latency Tolerance...................................64 3.8 Summary.......................................................................................67 3.9 Exercises.......................................................................................67 CHAPTER.4 Memory and Data Locality ...................................................71 4.1 Importance of Memory Access Efficiency....................................72 4.2 Matrix Multiplication....................................................................73 4.3 CUDA Memory Types..................................................................77 4.4 Tiling for Reduced Memory Traffic..............................................84 4.5 A Tiled Matrix Multiplication Kernel...........................................90 4.6 Boundary Checks..........................................................................94 4.7 Memory as a Limiting Factor to Parallelism................................97 4.8 Summary.......................................................................................99 4.9 Exercises...........................................

电子书	大规模并行处理器程序设计(英文版原书第3版)/经典原版书库
分类	电子书下载
作者	(美)大卫·B.柯克//胡文美
出版社	机械工业出版社
下载		暂无下载资源
介绍	内容推荐本书介绍并行编程和GPU架构的基本概念，详细探索了构建并行程序的各种技术，涵盖性能、浮点格式、并行模式和动态并行等主题，适合专业人士及学生阅读。书中通过案例研究展示了开发过程，从计算思维的细节着手，*终给出了高效的并行程序示例。新版更新了关于CUDA的讨论，包含CuDNN等新的库，同时将不再重要的内容移到附录中。新版还增加了关于并行模式的两个新章节，并更新了案例研究，以反映当前的行业实践。作者简介大卫·B. 柯克（David B. Kirk）美国国家工程院院士，NVIDIA Fellow，曾任NVIDIA公司首席科学家。他领导了NVIDIA图形技术的开发，并且是CUDA技术的创始人之一。2002年，他荣获ACM SIGGRAPH计算机图形成就奖，以表彰其在把高性能计算机图形系统推向大众市场方面做出的杰出贡献。他拥有加州理工学院计算机科学博士学位。胡文美（Wen-mei W. Hwu）美国伊利诺伊大学厄巴纳-香槟分校电气与计算机工程系AMD Jerry Sanders讲席教授，并行计算研究中心首席科学家，领导IMPACT团队和CUDA很好中心的研究工作。他在编译器设计、计算机体系结构、微体系结构和并行计算方面做出了很好贡献，是IEEE Fellow、ACM Fellow，荣获了包括ACM SigArch Maurice Wilkes Award在内的众多奖项。他还是MulticoreWare公司的联合创始人兼CTO。他拥有加州大学伯克利分校计算机科学博士学位。目录 Preface Acknowledgements CHAPTER.1 Introduction.................................................................................1 1.1 Heterogeneous Parallel Computing................................................2 1.2 Architecture of a Modern GPU.......................................................6 1.3 Why More Speed or Parallelism?...................................................8 1.4 Speeding Up Real Applications....................................................10 1.5 Challenges in Parallel Programming ............................................12 1.6 Parallel Programming Languages and Models.............................12 1.7 Overarching Goals........................................................................14 1.8 Organization of the Book..............................................................15 References ............................................................................................18 CHAPTER.2 Data Parallel Computing.......................................................19 2.1 Data Parallelism............................................................................20 2.2 CUDA C Program Structure.........................................................22 2.3 A Vector Addition Kernel .............................................................25 2.4 Device Global Memory and Data Transfer...................................27 2.5 Kernel Functions and Threading...................................................32 2.6 Kernel Launch...............................................................................37 2.7 Summary.......................................................................................38 Function Declarations...................................................................38 Kernel Launch...............................................................................38 Built-in (Predefined) Variables .....................................................39 Run-time API................................................................................39 2.8 Exercises.......................................................................................39 References ............................................................................................41 CHAPTER.3 Scalable Parallel Execution................................................43 3.1 CUDA Thread Organization.........................................................43 3.2 Mapping Threads to Multidimensional Data................................47 3.3 Image Blur: A More Complex Kernel ..........................................54 3.4 Synchronization and Transparent Scalability ...............................58 3.5 Resource Assignment....................................................................60 3.6 Querying Device Properties..........................................................61 3.7 Thread Scheduling and Latency Tolerance...................................64 3.8 Summary.......................................................................................67 3.9 Exercises.......................................................................................67 CHAPTER.4 Memory and Data Locality ...................................................71 4.1 Importance of Memory Access Efficiency....................................72 4.2 Matrix Multiplication....................................................................73 4.3 CUDA Memory Types..................................................................77 4.4 Tiling for Reduced Memory Traffic..............................................84 4.5 A Tiled Matrix Multiplication Kernel...........................................90 4.6 Boundary Checks..........................................................................94 4.7 Memory as a Limiting Factor to Parallelism................................97 4.8 Summary.......................................................................................99 4.9 Exercises...........................................
截图
随便看	《英文原著小说集》（1000多本）[提升英语阅读能力][PDF] 《2025-最新大模型全套资料》[MP4] 《AI提效手册：豆包即梦剪映飞书扣子5合1实操指南》+《豆包AI赚钱手册》[PDF] 《我在精神病院学斩神》[小说]（精校版全本）作者：三九音域 [epub + txt] [42.4MB] 《个人收藏电子书238》[PDF] 《豆包AI指令宝藏库：上百款提示词》覆盖自媒体、公文、论文、职场等[PDF] 《AI人工智能2.0：每个人的人工智能课：从现在开始学习AI》[MP4] 《从红月开始》[小说]‌(校对版全本）作者：黑山老鬼 [epub + mobi + azw3 + txt] [29.4MB] 《伊藤润二漫画系列合集》日本恐怖漫画[PDF] 《韩国ASMR美女主播Nareun12个哄睡助眠超清无水印合集持续更新》[MP4][4.5G] 《经典科普书籍合集30套近300部》完美精校全插图收藏版[PDF] 《个人收藏电子书237》[PDF] 《deepseek 为你推荐10本人文社科领域的经典书籍》[EPUB] 《基于Python玩转人工智能最火框架-TensorFlow应用实践》[MP4] 《2026 AI 掘金黑客·全套实战体系》（含教程+工具+指令+赠品）[MP4+PDF] 《韩国ASMR美女主播Yeonchu哄睡助眠高清无水印合集》持续更新[MP4][4.5G] 《上千本网络小说超级合集》精整分类[epub] 《每日好书推荐 260228》（总第1836期）[PDF] 《生财有术大航海资料合集》[PDF] 《新书推荐20260308》（10本）[EPUB] 《12000+AI绘画关键词》[PDF] 《中国皇室秘方大全》[PDF] 《历史大视野精品书系》[PDF] 《中华书局出版社精选500册》[EPUB] 《军火女王》漫画（11卷全）作者：高桥庆太郎东立出版[MOBI+EPUB] [2.06G] 《9000+张的RAW摄影原片》摄影修图学习必备素材[JPG] 《宝藏付费播客合集》(169G)[MP3] 《最新热门抖音付费课程合集》[MP4][150GB] 《个人收藏电子书240》[PDF] 《男性生活化减脂》[健身]B站付费课程-课程瘦了30斤的秘诀[MP4]