并行编程方法与优化实践/高性能计算系列丛书刘文志机械工业出版社豆瓣PDF电子书bt网盘迅雷下载教育考试-考试-计算机类-霍普软件下载网

前言

第1章 X86 SSE/AVX指令集

1.1 SSE内置函数

1.1.1 算术运算

1.1.2 逻辑运算

1.1.3 比较

1.1.4 加载和存储

1.2 AVX内置函数

1.2.1 算术运算

1.2.2 逻辑运算

1.2.3 比较

1.2.4 加载和存储

1.3 优化实例及分析

1.3.1 如何测得CPU的浮点峰值性能

1.3.2 积分计算圆周率π

1.3.3 稀疏矩阵向量乘法

1.3.4 二维单通道图像离散卷积

1.4 本章小结

第2章 ARM NEON SIMD指令优化

2.1 NEON指令集综述

2.2 ARM A15处理器性能

2.3 NEON支持的操作

2.3.1 基本算术运算

2.3.2 基本比较运算

2.3.3 基本数据类型转换及舍入运算

2.3.4 基本位运算

2.3.5 基本逻辑运算

2.3.6 基本设置加载存储操作

2.3.7 特殊操作

2.4 应用实例

2.4.1 彩色图像转灰度图像

2.4.2 矩阵转置

2.4.3 矩阵乘

2.5 本章小结

第3章 OpenMP程序设计

3.1 OpenMP编程模型

3.1.1 OpenMP执行模型

3.1.2 OpenMP存储器模型

3.2 环境变量

3.3 函数

3.3.1 普通函数

3.3.2 锁函数

3.4 OpenMP编译制导语句

3.4.1 常用的OpenMP构造

3.4.2 常用的OpenMP子句

3.5 OpenMP异构并行计算

3.6 OpenMP程序优化

3.6.1 OpenMP程序优化准则

3.6.2 OpenMP并行优化实例

3.7 本章小结

第4章基于GPU的异构并行计算环境：CUDA与OpenCL

4.1 GPU计算概述

4.1.1 GPU计算历史

4.1.2 CUDA概述

4.1.3 OpenCL概述

4.2 异构并行计算模型

4.2.1 平台模型

4.2.2 执行模型

4.2.3 存储器模型

4.2.4 编程模型

4.3 C语言接口

4.3.1 OpenCL C语言

4.3.2 CUDA C语言

4.4 基于GPU的异构并行计算性能优化

4.4.1 总体优化准则

4.4.2 全局存储器优化

4.4.3 合并访问

4.4.4 局部存储器

4.4.5 存储体冲突

4.4.6 常量存储器优化

4.4.7 CUDA纹理存储器优化

4.4.8 寄存器及私有存储器优化

4.4.9 工作组数目及大小

4.4.10 占用率

4.4.11 指令优化

4.4.12 分支优化

4.4.13 数据传输优化

4.5 GPU与CPU精度差别

4.6 矩阵转置

4.6.1 初次实现

4.6.2 满足合并访问的实现

4.6.3 没有存储体冲突的实现

4.7 矩阵乘法

4.7.1 初次实现

4.7.2 矩阵分块实现

4.8 本章小结

第5章 OpenACC

5.1 OpenACC编程模型

5.1.1 执行模型

5.1.2 存储器模型

5.2 编译制导语句

5.2.1 kernels构造

5.2.2 parallel构造

5.2.3 线程配置相关子句

5.2.4 data构造

5.2.5 loop构造

5.2.6 atomic构造

5.2.7 dtype子句

5.2.8 reduction子句

5.2.9 变量可见性子句

5.2.10 if子句

5.2.11 async和wait

5.3 OpenACC和CUDA协作

5.3.1 CUDA使用OpenACC生产的数据

5.3.2 OpenACC使用CUDA生产的数据

5.4 两小时性能提升10倍

5.5 本章小结

第6章多核向量处理器架构及OpenCL程序映射

6.1 多核向量处理器架构

6.1.1 Intel Haswell CPU架构

6.1.2 ARM A15多核向量处理器架构

6.1.3 AMD GCN GPU架构

6.1.4 NVIDIA Kepler和 Maxwell GPU架构

6.2 OpenCL程序在多核向量处理器上的映射

6.2.1 OpenCL程序在多核向量CPU上的映射

6.2.2 OpenCL程序在NVIDIA GPU上的映射

6.2.3 OpenCL程序在AMD GCN上的映射

6.3 本章小结

第7章利用多种技术优化图像处理中的算法性能

7.1 图像滤波

7.1.1 均值滤波

7.1.2 中值滤波

7.2 图像直方图

7.2.1 OpenMP实现

7.2.2 CUDA实现

7.3 曼德勃罗集

7.3.1 串行算法

7.3.2 不适合进行向量化

7.3.3 OpenMP实现

7.3.4 CUDA实现

7.4 本章小结

第8章利用多种技术优化线性代数中的算法性能

8.1 两向量距离

8.1.1 串行代码

8.1.2 循环展开代码

8.1.3 AVX指令加速

8.1.4 NEON实现

8.1.5 CUDA实现

8.2 稠密矩阵与向量乘法

8.2.1 串行算法

8.2.2 AVX指令加速

8.2.3 NEON实现

8.2.4 CUDA实现

8.2.5 OpenMP实现

8.3 本章小结

书名	并行编程方法与优化实践/高性能计算系列丛书
分类	教育考试-考试-计算机类
作者	刘文志
出版社	机械工业出版社
下载
简介	编辑推荐刘文志编著的这本《并行编程方法与优化实践》是“并行计算与性能优化”系列的第2本，主要讲解了如何利用主流的C语言向量化扩展和并行库在X86、ARM和GPU平台上向量化代码，使软件开发人员跳出烦琐的Intel和ARM参考资料（通常无示例），了解其概要。第1本和第3本则涵盖了并行优化和并行计算相关的理论、算法设计及高层次的实践经验，以及科学计算与企业级应用的并行优化等重要主题，这些内容被许多顶级开发人员视为“不传之秘”。本书作者是国内顶尖的并行计算专家，曾任英伟达并行计算工程师和百度在线高级研发工程师，在该领域的经验和修为极为深厚，他毫不吝啬地将自己多年的积累呈现在了这3本书中，得到了百度深度学习研究院“杰出科学家”吴韧的高度评价和强烈推荐。内容推荐近两三年来，在互联网企业中，代码优化、并行计算和GPU的使用越来越受到重视。无论是国外的Google、Facebook还是国内的百度、腾讯、阿里和360，都在使用代码优化、并行计算和GPU来完成以前不能完成的任务？而现在中小型企业也在使用代码优化和并行化技术来提升产品的使用体验。对于软件开发人员来说，如果不掌握并行计算和代码性能优化技术，在不久的将来就会被淘汰。刘文志编著的《并行编程方法与优化实践》不但涵盖主流的现代多核处理器平台架构、并行指令集和编译制导语句，还介绍了常见并行程序设计语言、图像处理和线性代数算法的代码性能优化，OpenCL程序如何在AMD、GCN、GPU和NVIDIA GPU上的编程执行，以及CUDA和OpenCL在GPU上的执行区别等。目录前言第1章 X86 SSE/AVX指令集 1.1 SSE内置函数 1.1.1 算术运算 1.1.2 逻辑运算 1.1.3 比较 1.1.4 加载和存储 1.2 AVX内置函数 1.2.1 算术运算 1.2.2 逻辑运算 1.2.3 比较 1.2.4 加载和存储 1.3 优化实例及分析 1.3.1 如何测得CPU的浮点峰值性能 1.3.2 积分计算圆周率π 1.3.3 稀疏矩阵向量乘法 1.3.4 二维单通道图像离散卷积 1.4 本章小结第2章 ARM NEON SIMD指令优化 2.1 NEON指令集综述 2.2 ARM A15处理器性能 2.3 NEON支持的操作 2.3.1 基本算术运算 2.3.2 基本比较运算 2.3.3 基本数据类型转换及舍入运算 2.3.4 基本位运算 2.3.5 基本逻辑运算 2.3.6 基本设置加载存储操作 2.3.7 特殊操作 2.4 应用实例 2.4.1 彩色图像转灰度图像 2.4.2 矩阵转置 2.4.3 矩阵乘 2.5 本章小结第3章 OpenMP程序设计 3.1 OpenMP编程模型 3.1.1 OpenMP执行模型 3.1.2 OpenMP存储器模型 3.2 环境变量 3.3 函数 3.3.1 普通函数 3.3.2 锁函数 3.4 OpenMP编译制导语句 3.4.1 常用的OpenMP构造 3.4.2 常用的OpenMP子句 3.5 OpenMP异构并行计算 3.6 OpenMP程序优化 3.6.1 OpenMP程序优化准则 3.6.2 OpenMP并行优化实例 3.7 本章小结第4章基于GPU的异构并行计算环境：CUDA与OpenCL 4.1 GPU计算概述 4.1.1 GPU计算历史 4.1.2 CUDA概述 4.1.3 OpenCL概述 4.2 异构并行计算模型 4.2.1 平台模型 4.2.2 执行模型 4.2.3 存储器模型 4.2.4 编程模型 4.3 C语言接口 4.3.1 OpenCL C语言 4.3.2 CUDA C语言 4.4 基于GPU的异构并行计算性能优化 4.4.1 总体优化准则 4.4.2 全局存储器优化 4.4.3 合并访问 4.4.4 局部存储器 4.4.5 存储体冲突 4.4.6 常量存储器优化 4.4.7 CUDA纹理存储器优化 4.4.8 寄存器及私有存储器优化 4.4.9 工作组数目及大小 4.4.10 占用率 4.4.11 指令优化 4.4.12 分支优化 4.4.13 数据传输优化 4.5 GPU与CPU精度差别 4.6 矩阵转置 4.6.1 初次实现 4.6.2 满足合并访问的实现 4.6.3 没有存储体冲突的实现 4.7 矩阵乘法 4.7.1 初次实现 4.7.2 矩阵分块实现 4.8 本章小结第5章 OpenACC 5.1 OpenACC编程模型 5.1.1 执行模型 5.1.2 存储器模型 5.2 编译制导语句 5.2.1 kernels构造 5.2.2 parallel构造 5.2.3 线程配置相关子句 5.2.4 data构造 5.2.5 loop构造 5.2.6 atomic构造 5.2.7 dtype子句 5.2.8 reduction子句 5.2.9 变量可见性子句 5.2.10 if子句 5.2.11 async和wait 5.3 OpenACC和CUDA协作 5.3.1 CUDA使用OpenACC生产的数据 5.3.2 OpenACC使用CUDA生产的数据 5.4 两小时性能提升10倍 5.5 本章小结第6章多核向量处理器架构及OpenCL程序映射 6.1 多核向量处理器架构 6.1.1 Intel Haswell CPU架构 6.1.2 ARM A15多核向量处理器架构 6.1.3 AMD GCN GPU架构 6.1.4 NVIDIA Kepler和 Maxwell GPU架构 6.2 OpenCL程序在多核向量处理器上的映射 6.2.1 OpenCL程序在多核向量CPU上的映射 6.2.2 OpenCL程序在NVIDIA GPU上的映射 6.2.3 OpenCL程序在AMD GCN上的映射 6.3 本章小结第7章利用多种技术优化图像处理中的算法性能 7.1 图像滤波 7.1.1 均值滤波 7.1.2 中值滤波 7.2 图像直方图 7.2.1 OpenMP实现 7.2.2 CUDA实现 7.3 曼德勃罗集 7.3.1 串行算法 7.3.2 不适合进行向量化 7.3.3 OpenMP实现 7.3.4 CUDA实现 7.4 本章小结第8章利用多种技术优化线性代数中的算法性能 8.1 两向量距离 8.1.1 串行代码 8.1.2 循环展开代码 8.1.3 AVX指令加速 8.1.4 NEON实现 8.1.5 CUDA实现 8.2 稠密矩阵与向量乘法 8.2.1 串行算法 8.2.2 AVX指令加速 8.2.3 NEON实现 8.2.4 CUDA实现 8.2.5 OpenMP实现 8.3 本章小结
随便看	乐高幻影忍者漫画故事(18钛之忍者) 图案人(精) 费曼物理学讲义习题集(新千年版) 十题突破初中数学重难点巴塞特郡纪事(2巴彻斯特大教堂)(精)/特罗洛普文集靠自己的努力获得成功(彩绘注音版)/汤姆猫成长同行记作品增值利益的要素分配/知识产权专题研究书系梦境与杂种(精)/莫言中篇小说精品系列曾康霖(笃信致远)(精) 国学讲义(精)/大师国学课胡桃木小姐(赠英文版)(汉英对照)/双语译林壹力文库体验商务英语综合教程(2第3版十二五普通高等教育本科国家级规划教材) 固定收益数学(分析与统计技术第4版)/法博齐精选系列/高级金融学译丛宁夏农作物病害让孩子着迷的第一堂自然课——史前恐龙让孩子着迷的第一堂自然课——动物感官童眼识天下百问百答.走遍世界小顽童科绘馆（套装共6册）中国历史穿越报：朝代卷（全10册）智慧公主马小岚（套装共12册）爸爸故事时间：春猫王国·暗黑王国.4，魔法绽放猫王国·暗黑王国.6，永夜传说中国传统文化启蒙仿古读本——百家姓中国传统文化启蒙仿古读本——弟子规复制记录器（CopyRecoder） v1.0 Nikon Camera Control Pro v2.5 三笔全能笔画输入法鼠标输入法平台 v1.0 全能输入法 v1.0 小鹤双拼 v2.8 传统版 Liquid Story Binder XE v4.21 MySQL Front v5.1 Build 3.57 咚咚锵迷你通讯录 v1.06 RAID Reconstructor v4.40 PowerArchiver 2010 v11.50 简体中文版高贵的命运七项修改器 v2022.04.19 柯南快快十项修改器 v2022.03.02 艾尔登法环乌木浪人套装MOD v2.68 最终幻想7：重制版银河战士科幻手臂大炮MOD v1.6 艾尔登法环APEX恶灵替换黑刀套装MOD v2.68 退休模拟器二十六项修改器 v0.6.15170 艾尔登法环玛莲妮亚的义手刀水鸟乱舞增强MOD v2.85 艾尔登法环改善尸山血海武器模型MOD v1.82 七日杀更真实的霰弹枪装弹音效MOD v2.1 最终幻想7：重制版爱丽丝cos美少女战士月野兔MOD v2.76 corporeal corps corps de ballet corpse corpulent corpus corpuscle corral correct correction [BT下载][万界独尊第二季][第133集][WEB-MP4/0.12G][国语配音/中文字幕][1080P][H265][DDHDTV] 剧集 2022 大陆动作连载 [BT下载][万界独尊第二季][第133集][WEB-MKV/0.28G][国语配音/中文字幕][4K-2160P][H265][DDHDTV] 剧集 2022 大陆动作连载 [BT下载][中国救护][第06-07集][WEB-MKV/5.81G][国语配音/中文字幕][4K-2160P][DDHDTV] 剧集 2023 大陆其它连载 [BT下载][乐游原][第24集][WEB-MKV/1.44G][国语音轨/简繁英字幕][4K-2160P][H265][SeeWEB] 剧集 2023 大陆剧情连载 [BT下载][五行战神][第46集][WEB-MP4/0.22G][国语配音/中文字幕][1080P][DDHDTV] 剧集 2023 大陆动作连载 [BT下载][似火流年][第01-11集][WEB-MP4/2.97G][国语配音/中文字幕][1080P][BlackTV] 剧集 2023 大陆剧情连载 [BT下载][似火流年][第01-11集][WEB-MP4/58.50G][国语配音/中文字幕][4K-2160P][高码版][H265][BlackTV] 剧集 2023 大陆剧情连载 [BT下载][似火流年][第01-11集][WEB-MP4/12.43G][国语配音/中文字幕][4K-2160P][H265][BlackTV] 剧集 2023 大陆剧情连载 [BT下载][冰火魔厨][第117集][WEB-MP4/0.89G][国语配音/中文字幕][4K-2160P][H265][DDHDTV] 剧集 2021 大陆动画连载 [BT下载][南波万的聚会第二季][第03-04集][WEB-MP4/2.35G][国语配音/中文字幕][1080P][DDHDTV] 剧集 2023 大陆其它连载 caj文件怎么转换成pdf？这几个caj格式转换方法大公开 epub转换pdf的5个简单方法介绍，快来试试 gif动图如何压缩变小？这6个gif压缩方法一定要学会（全） ofd转pdf的免费软件有哪些？推荐这4个在线工具 ofd转换成pdf怎么操作？值得一试的5个简单方法（全新） pdf拆分成多个文件的5个简单方法，建议收藏学习 pdf分割技巧：这些PDF分割工具简单又实用，值得一试 pdf解密工具有哪些？这几个pdf解密方法帮助你 pdf密码怎么解除？简单易懂的8个pdf解密方法分享，2分钟搞定 icloud网页版入口_icloud网页版入口官网_华军软件园