片上多处理器(chip multiprocessor),又称多核微处理器或简称CMP,已成为构造现代高性能微处理器的唯一技术途径。本书在简单介绍了片上多处理器的基本概念后,着重于从提高吞吐率和缩短响应时延两方面探讨片上多处理器的基本技术与设计方法。同时介绍了多核处理器的编程技巧,包括线程级猜测和事务型内存等热点技术。通过阅读本书,读者可以在较短时间内熟悉和掌握片上多处理器研究的主流技术和最新的研究成果,为片上多处理器领域的科研和应用带来新的思路和灵感。
网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 片上多处理器体系结构(改善吞吐率饿延迟的技术)/计算机科学丛书 |
分类 | |
作者 | (美)奥鲁克顿 |
出版社 | 机械工业出版社 |
下载 | ![]() |
简介 | 编辑推荐 片上多处理器(chip multiprocessor),又称多核微处理器或简称CMP,已成为构造现代高性能微处理器的唯一技术途径。本书在简单介绍了片上多处理器的基本概念后,着重于从提高吞吐率和缩短响应时延两方面探讨片上多处理器的基本技术与设计方法。同时介绍了多核处理器的编程技巧,包括线程级猜测和事务型内存等热点技术。通过阅读本书,读者可以在较短时间内熟悉和掌握片上多处理器研究的主流技术和最新的研究成果,为片上多处理器领域的科研和应用带来新的思路和灵感。 内容推荐 由于受诸多因素的影响,片上多处理器(chip multiprocessor),又称多核微处理器或简称CMP,已成为构造现代高性能微处理器的唯一技术途径。传统超标量指令发射技术无法从典型程序指令流中发掘出足够多的并行性,使得单核微处理器的性能再无法有效扩展。另外,处理器的功耗与散热问题日趋严重,除非使用水冷散热系统,否则很难继续依靠简单提高时钟频率的方法来改善微处理器性能。综合这些问题可以得到一个简单结论:目前单个微处理器芯片集成了数量空前的晶体管,如果继续保持每年或两年就完成新一代更大规模处理器的设计与调试工作,将会使成本直线上升以至无法完成设计工作。 CMP通过在单个芯片中放入多个结构相对简单的处理器内核而不是使用一个巨大的处理器内核避免了上述问题。CMP内核既可采用简单流水线结构,又可以使用中度复杂的超标量处理器,无论选定哪种内核,CMP系统都可以随着半导体工艺的进步,在每一代新版处理器芯片中加入更多数量的高速处理器内核,来有效扩展处理器性能。此外,并行程序将多线程任务分发给CMP系统中几个内核并行执行,与单内核处理器相比可以取得显著的性能提升。尽管在许多实用的应用负载中并行线程已经非常常见,但仍有一些很重要的应用负载很难被划分为几个线程来并行执行。与传统多处理器系统相比,CMP系统中内核之间的通信延迟更低,从而使更多应用负载适于并行执行。但是某些关键应用中缺乏足够的并行度,可能成为这些系统中推广CMP应用的主要障碍。 通过对比CMP与传统单处理器的优缺点,本书仔细研究了如何针对两种常见但截然不同的工作负载来更好地设计CMP;并行度较高且对吞吐率敏感的应用和并行度较低且对延迟敏感的应用。对吞吐率敏感的应用,如可迅速处理多个独立事务的服务器工作负载,需要综合考虑CMP中所有可能限制吞吐率的部件,如处理器核心、片上缓存和片外存储器接口。书中展示了在几个研究与实例系统(如Sun Niagara)中如何进行设计折中。对延迟较敏感的应用,如桌面应用,其关注的焦点是如何降低内核之间的通信延迟,以及如何帮助程序员简化已有程序代码多线程化。本书介绍了多种可用于CMP系统的并行编程简化技术,并重点讨论了斯坦福大学在该领域的相关研究工作。为了证明CMP的潜在优势,书中给出了一些典型例子来加以说明。本书的其它关注焦点还包括线程级猜测(thread-level speculation,简称TLS)和事务型内存(transactional memory)。线程级猜测是一种将标准的串行程序自动切分成CMP上多个并行线程的方法。事务型内存模型使用硬件而非传统软件锁机制来保证一段指令的原子代码执行,可以显著简化并行编程工作量,有效降低并行代码的出错概率。 目录 出版者的话 译考序 摘要 第1章 CMP简介 1.1 一个新途径:片上多处理器 1.2 应用程序的并行性图景 1.3 一个简单的例子:超标量与CMP 1.4 本书:超越基本的CMP 参考文献 第2章 吞吐率优化技术 2.1 简单内核与服务器应用 2.1.1 处理器内部对多线程的需求 2.1.2 最大化单个芯片上的处理器内核数量 2.1.3 提供足够的缓存和主存访问带宽 2.2 与吞吐率有关的片上多处理器案例研究 2.2.1 案例1:Piranha服务器CMP 2.2.2 案例2:Niagara服务器CMP 2.2.3 案例3:Niagara-2服务器CMP 2.2.4 基于简单内核的CMP系统的局限性 2.3 通用服务器CMP分析 2.3.1 模拟大规模设计空间 2.3.2 选择设计要点 2.3.3 实验结果 2.3.4 讨论 参考文献 笫3章 自动的延迟优化技术 3.1 伪并行:“帮手”线程 3.2 采用线程级猜测实现自动并行 3.3 TLS系统的一个实例:Hydra 3.3.1 Hydra基础设计 3.3.2 在Hydra中加入TLS 3.3.3 使用冲突统计获得的反馈信息 3.3.4 性能分析 3.3.5 完全自动化的TLS支持:Jrpm系统 3.4 自动并行化的总结思考 参考文献 第4章 基于手工并行编程的延迟优化技术 4.1 使用TLS支持事务型内存 4.1.1 一个例子:使用TLS对堆排序进行并行化 4.1.2 使用TLS对SPEC2000进行并行化 4.2 事务型一致性:更普遍的事务型内存 4.2.1 TCC硬件 4.2.2 TCC软件 4.2.3 TCC性能 4.3 事务型内存与常规共享内存的混合方案 参考文献 第5章 一个多核的世界:CMP的未来 参考文献 作者介绍 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。