出版者的话
赞誉
译者序
前言
作者简介
章计算机抽象及相关技术1
1.1引言1
1.1.1传统的计算应用分类及其特点2
1.1.2欢迎来到后PC时代3
1.1.3你能从本书中学到什么4
1.2计算机体系结构中的8个伟大思想6
1.2.1面向摩尔定律的设计6
1.2.2使用抽象简化设计7
1.2.3加速经常性事件7
1.2.4通过并行提高性能7
1.2.5通过流水线提高性能7
1.2.6通过预测提高性能7
1.2.7存储层次7
1.2.8通过冗余提高可靠性7
1.3程序表象之下8
1.4箱盖后的硬件10
1.4.1显示器11
1.4.2触摸屏12
1.4.3打开机箱13
1.4.4数据安全16
1.4.5与其他计算机通信16
1.5处理器和存储制造技术17
1.6性能20
1.6.1性能的定义21
1.6.2性能的度量23
1.6.3CPU性能及其度量因素24
1.6.4指令性能25
1.6.5经典的CPU性能公式26
1.7功耗墙28
1.8沧海巨变:从单处理器向多处理器转变30
1.9实例:评测IntelCorei732
1.9.1SPECCPU基准评测程序33
1.9.2SPEC功耗基准评测程序34
1.10谬误与陷阱35
1.11本章小结37
1.12历史视角和拓展阅读38
1.13练习38
第2章指令:计算机的语言43
2.1引言43
2.2计算机硬件的操作45
2.3计算机硬件的操作数47
2.3.1存储器操作数48
2.3.2常数或立即数操作数51
2.4有符号数与无符号数52
2.5计算机中的指令表示57
2.6逻辑操作62
2.7用于决策的指令65
2.7.1循环66
2.7.2边界检查的简便方法67
2.7.3case/switch语句68
2.8计算机硬件对过程的支持68
2.8.1使用更多的寄存器69
2.8.2嵌套过程71
2.8.3在栈中为新数据分配空间73
2.8.4在堆中为新数据分配空间74
2.9人机交互76
2.10对大立即数的RISC-V编址和寻址79
2.10.1大立即数79
2.10.2分支中的寻址80
2.10.3RISC-V寻址模式总结82
2.10.4机器语言译码83
2.11指令与并行性:同步85
2.12翻译并启动程序87
2.12.1编译器87
2.12.2汇编器87
2.12.3链接器89
2.12.4加载器91
2.12.5动态链接库91
2.12.6启动Java程序93
2.13以C排序程序为例的汇总整理94
2.13.1swap过程94
2.13.2sort过程95
2.14数组与指针100
2.14.1用数组实现clear100
2.14.2用指针实现clear101
2.14.3比较两个版本的clear102
2.15不错专题:编译C语言和解释Java语言102
2.16实例:MIPS指令103
2.17实例:x86指令104
2.17.1Intelx86的演变104
2.17.2x86寄存器和寻址模式106
2.17.3x86整数操作107
2.17.4x86指令编码109
2.17.5x86总结110
2.18实例:RISC-V指令系统的剩余部分111
2.19谬误与陷阱112
2.20本章小结113
2.21历史视角和扩展阅读115
2.22练习115
第3章计算机的算术运算121
3.1引言121
3.2加法和减法121
3.3乘法124
3.3.1串行版的乘法算法及其硬件实现124
3.3.2带符号乘法127
3.3.3快速乘法127
3.3.4RISC-V中的乘法127
3.3.5总结128
3.4除法128
3.4.1除法算法及其硬件实现128
3.4.2有符号除法131
3.4.3快速除法131
3.4.4RISC-V中的除法132
3.4.5总结132
3.5浮点运算133
3.5.1浮点表示134
3.5.2例外和中断135
3.5.3IEEE754浮点数标准135
3.5.4浮点加法138
3.5.5浮点乘法141
3.5.6RISC-V中的浮点指令144
3.5.7精确算术148
3.5.8总结150
3.6并行性与计算机算术:子字并行151
3.7实例:x86中的SIMD扩展和不错向量扩展151
3.8加速:子字并行和矩阵乘法153
3.9谬误与陷阱155
3.10本章小结158
3.11历史视角和拓展阅读159
3.12练习159
第4章处理器163
4.1引言163
4.1.1一种基本的RISC-V实现164
4.1.2实现概述164
4.2逻辑设计的一般方法166
4.3建立数据通路169
4.4一个简单的实现方案175
4.4.1ALU控制175
4.4.2设计主控制单元176
4.4.3数据通路操作180
4.4.4控制的结束182
4.4.5为什么现在不使用单周期实现182
4.5流水线概述183
4.5.1面向流水线的指令系统设计187
4.5.2流水线冒险187
4.5.3总结193
4.6流水线数据通路和控制194
4.6.1流水线的图形化表示203
4.6.2流水线控制205
4.7数据冒险:前递与停顿208
4.8控制冒险218
4.8.1假设分支不发生218
4.8.2缩短分支延迟219
4.8.3动态分支预测221
4.8.4流水线总结223
4.9例外223
4.9.1RISC-V体系结构中如何处理例外224
4.9.2流水线实现中的例外225
4.10指令间的并行性228
4.10.1推测的概念229
4.10.2静态多发射230
4.10.3动态多发射处理器234
4.10.4不错流水线和能效237
4.11实例:ARMCortex-A53和IntelCorei7流水线结构238
4.11.1ARMCortex-A53238
4.11.2IntelCorei7920240
4.11.3IntelCorei7处理器的性能242
4.12加速:指令级并行和矩阵乘法243
4.13不错专题:数字设计概述——使用硬件设计语言进行流水线建模以及更多流水线示例246
4.14谬误与陷阱246
4.15本章小结247
4.16历史视角和拓展阅读247
4.17练习247
第5章大而快:层次化存储258
5.1引言258
5.2存储技术262
5.2.1SRAM存储技术262
5.2.2DRAM存储技术262
5.2.3闪存264
5.2.4磁盘264
5.3cache基础266
5.3.1cache访问268
5.3.2处理cache失效272
5.3.3处理写操作273
5.3.4cache实例:IntrinsityFastMATH处理器275
5.3.5总结276
5.4cache的性能评估和改进277
5.4.1使用更为灵活的替换策略降低cache失效率279
5.4.2在cache中查找数据块283
5.4.3选择替换的数据块284
5.4.4使用多级cache减少失效代价285
5.4.5通过分块进行软件优化287
5.4.6总结291
5.5可靠的存储器层次291
5.5.1失效的定义291
5.5.2纠正1位错、检测2位错的汉明编码293
5.6虚拟机296
5.6.1虚拟机监视器的必备条件297
5.6.2指令系统体系结构(缺乏)对虚拟机的支持297
5.6.3保护和指令系统体系结构298
5.7虚拟存储298
5.7.1页的存放和查找301
5.7.2缺页失效303
5.7.3支持大虚拟地址空间的虚拟存储304
5.7.4关于写305
5.7.5加快地址转换:TLB306
5.7.6IntrinsityFastMATHTLB307
5.7.7集成虚拟存储、TLB和cache309
5.7.8虚拟存储中的保护311
5.7.9处理TLB失效和缺页失效312
5.7.10总结314
5.8存储层次结构的一般框架315
5.8.1问题一:块可以被放在何处315
5.8.2问题二:如何找到块316
5.8.3问题三:当cache发生失效时替换哪一块317
5.8.4问题四:写操作如何处理317
5.8.53C:一种理解存储层次结构的直观模型318
5.9使用有限状态自动机控制简单的cache320
5.9.1一个简单的cache320
5.9.2有限状态自动机321
5.9.3使用有限状态自动机作为简单的cache控制器322
5.10并行和存储层次结构:cache一致性324
5.10.1实现一致性的基本方案325
5.10.2监听协议325
5.11并行与存储层次结构:廉价磁盘冗余阵列327
5.12不错专题:实现缓存控制器327
5.13实例:ARMCortex-A53和IntelCorei7的存储层次结构327
5.14实例:RISC-V系统的其他部分和特殊指令331
5.15加速:cache分块和矩阵乘法331
5.16谬误与陷阱333
5.17本章小结336
5.18历史视角和拓展阅读337
5.19练习337
第6章并行处理器:从客户端到云348
6.1引言348
6.2创建并行处理程序的难点350
6.3SISD、MIMD、SIMD、SPMD和向量机354
6.3.1x86中的SIMD:多媒体扩展355
6.3.2向量机355
6.3.3向量与标量356
6.3.4向量与多媒体扩展357
6.4硬件多线程359
6.5多核及其他共享内存多处理器362
6.6GPU简介365
6.6.1NVIDIAGPU体系结构简介366
6.6.2NVIDIAGPU存储结构367
6.6.3对GPU的展望368
6.7集群、仓储级计算机和其他消息传递多处理器370
6.8多处理器网络拓扑简介374
6.9与外界通信:集群网络376
6.10多处理器测试基准和性能模型377
6.10.1性能模型379
6.10.2Roofline模型380
6.10.3两代Opteron的比较381
6.11实例:评测IntelCorei7960和NVIDIATeslaGPU的Roofline模型384
6.12加速:多处理器和矩阵乘法388
6.13谬误与陷阱390
6.14本章小结391
6.15历史视角和拓展阅读393
6.16练习394
附录A逻辑设计基础402
术语表460
网络内容
附录B图形处理单元
附录C将控制映射至硬件
附录D精简指令系统体系结构计算机
扩展阅读