编辑推荐 1.本书由Israel Koren和C. Mani Krishna两位教授结合他们在容错计算领域多年的教学经验和工程实践的基础上编写而成,是第一本采用系统方法介绍软硬件容错设计技术的书籍,极大弥补了近几年容错计算领域在教材更新上的不足。全书共分11章,系统全面的介绍了容错的基本概念和分析方法,软硬件容错设计技术,容错网络及VLSI电路中的缺陷容忍等内容,还给出一些实际案例分析以帮助读者理解容错技术的应用。 2.书中配有大量习题,它们可以配合课堂教学,帮助读者准确理解有关概念,掌握设计方法和技巧。 3.本书适合电子、计算机工程以及计算机科学领域的学生和从业人员学习如何设计与分析可靠的容错计算机系统。 内容推荐 容错系统(第2版)是利用系统方法进行计算机系统容错设计的第1本教科书,这本书全面涵盖了容错硬件和软件的设计,使用容错技术来提高生产制造产量,以及网络的设计和分析。结合10多个不同计算机系统经典设计案例,分析容错技术在这些系统设计中的实现,该书内容还包括用于防范安全威胁的加密子系统的方法。 本文更新的内容将有助于电气、计算机工程和计算机科学的学生和从业者学习如何设计可靠的计算系统,以及如何分析容错计算系统。 目录 <br />目录<br /><br />FaultTolerant Systems,Second Edition<br /><br /><br />译者序<br /><br />前言<br /><br />第1章 预备知识1<br /><br />1.1 故障的分类1<br /><br />1.2 冗余类型2<br /><br />1.3 容错机制的基本评测指标4<br /><br />1.3.1 常用评测指标4<br /><br />1.3.2 网络系统的评测指标5<br /><br />1.4 本书主要内容6<br /><br />1.5 延伸阅读7<br /><br />参考文献8<br /><br /><br />第2章 硬件容错技术9<br /><br />2.1 硬件失效率9<br /><br />2.2 失效率、可靠度和平均无故障运行时间10<br /><br />2.3 硬件失效机制12<br /><br />2.3.1 电迁移12<br /><br />2.3.2 应力迁移13<br /><br />2.3.3 负偏压温度不稳定性13<br /><br />2.3.4 热载流子注入14<br /><br />2.3.5 时间依赖的电介质击穿14<br /><br />2.3.6 综合考虑多种失效机制15<br /><br />2.4 共模失效15<br /><br />2.5 典型容错结构16<br /><br />2.5.1 串联与并联系统16<br /><br />2.5.2 非串联/并联系统17<br /><br />2.5.3 M-of-N系统19<br /><br />2.5.4 表决器21<br /><br />2.5.5 NMR的变体21<br /><br />2.5.6 双模系统24<br /><br />2.6 其他可靠性评估技术26<br /><br />2.6.1 泊松过程26<br /><br />2.6.2 马尔可夫模型28<br /><br />2.7 处理器级容错技术30<br /><br />2.7.1 看门狗处理器31<br /><br />2.7.2 面向容错的同步多线程32<br /><br />2.8 时序故障的容错33<br /><br />2.9 拜占庭故障的容错35<br /><br />2.9.1 基于消息签名的拜占庭协议38<br /><br />2.10 延伸阅读39<br /><br />2.11 练习题40<br /><br />参考文献42<br /><br /><br />第3章 信息冗余45<br /><br />3.1 编码45<br /><br />3.1.1 奇偶校验码46<br /><br />3.1.2 校验和51<br /><br />3.1.3 M-of-N编码51<br /><br />3.1.4 伯格码52<br /><br />3.1.5 循环码52<br /><br />3.1.6 算术编码57<br /><br />3.1.7 局部软判决与硬判决60<br /><br />3.2 冗余磁盘系统65<br /><br />3.2.1 RAID 166<br /><br />3.2.2 RAID 267<br /><br />3.2.3 RAID 367<br /><br />3.2.4 RAID 468<br /><br />3.2.5 RAID 569<br /><br />3.2.6 层次化RAID系统69<br /><br />3.2.7 相关故障模型71<br /><br />3.2.8 基于固态硬盘的RAID技术73<br /><br />3.3 数据复制74<br /><br />3.3.1 表决的非层次化方法75<br /><br />3.3.2 表决的层次化方法79<br /><br />3.3.3 主备方法80<br /><br />3.4 基于算法的容错83<br /><br />3.5 延伸阅读84<br /><br />3.6 练习题85<br /><br />参考文献87<br /><br /><br />第4章 容错网络90<br /><br />4.1 网络弹性评测90<br /><br />4.1.1 基于图论的评测指标90<br /><br />4.1.2 计算机网络的评测指标91<br /><br />4.2 常见网络拓扑结构及其弹性分析92<br /><br />4.2.1 多级互连网络和扩展多级互连网络92<br /><br />4.2.2 纵横交叉开关网络96<br /><br />4.2.3 矩形网格网络和填隙网格网络98<br /><br />4.2.4 超立方体网络100<br /><br />4.2.5 带环超立方体网络103<br /><br />4.2.6 环状网络104<br /><br />4.2.7 树状网络105<br /><br />4.2.8 AD HOC点对点网络107<br /><br />4.3 容错路由109<br /><br />4.3.1 超立方体网络容错路由110<br /><br />4.3.2 网格中基于源节点的路由策略111<br /><br />4.4 片上网络113<br /><br />4.4.1 路由器容错114<br /><br />4.4.2 连接容错116<br /><br />4.4.3 发生失效后的路由选择116<br /><br />4.5 无线传感器网络117<br /><br />4.5.1 基础知识117<br /><br />4.5.2 传感器网络的失效118<br /><br />4.5.3 传感器网络中的容错118<br /><br />4.6 延伸阅读120<br /><br />4.7 练习题122<br /><br />参考文献124<br /><br /><br />第5章 软件容错127<br /><br />5.1 可接受性测试127<br /><br />5.2 单版本软件容错128<br /><br />5.2.1 封装器128<br /><br />5.2.2 软件抗衰130<br /><br />5.2.3 数据多样性133<br /><br />5.2.4 软件实现的硬件容错134<br /><br />5.3 N版本编程136<br /><br />5.3.1 一致性比较问题136<br /><br />5.3.2 版本独立性138<br /><br />5.3.3 N版本编程的其他问题141<br /><br />5.4 恢复块方法142<br /><br />5.4.1 基本思想143<br /><br />5.4.2 成功概率的计算143<br /><br />5.4.3 分布式恢复块144<br /><br />5.5 前置条件、后置条件和断言145<br /><br />5.6 异常处理146<br /><br />5.6.1 异常处理程序的要求146<br /><br />5.6.2 异常和异常处理的基础知识146<br /><br />5.6.3 语言支持148<br /><br />5.7 软件可靠性模型148<br /><br />5.7.1 JelinskiMoranda模型149<br /><br />5.7.2 LittlewoodVerrall模型149<br /><br />5.7.3 MusaOkumoto模型150<br /><br />5.7.4 OstrandWeyukerBell故障模型151<br /><br />5.7.5 模型选择和参数估计152<br /><br />5.8 远程过程调用的容错技术152<br /><br />5.8.1 主备容错方法152<br /><br />5.8.2 马戏团方法153<br /><br />5.9 延伸阅读154<br /><br />5.10 练习题155<br /><br />参考文献157<br /><br /><br />第6章 检查点技术160<br /><br />6.1 什么是检查点技术161<br /><br />6.1.1 为什么检查点很重要162<br /><br />6.2 检查点层次163<br /><br />6.3 很优检查点:分析模型163<br /><br />6.3.1 检查点之间的间隔时间:一阶近似值164<br /><br />6.3.2 很优检查点放置165<br /><br />6.3.3 检查点之间的间隔时间:一个更准确的模型166<br /><br />6.3.4 减少开销167<br /><br />6.3.5 减少延迟167<br /><br />6.4 缓存辅助的回滚错误恢复机制168<br /><br />6.5 在分布式系统中的检查点技术168<br /><br />6.5.1 多米诺骨牌效应与活锁169<br /><br />6.5.2 协作检查点设置算法170<br /><br />6.5.3 基于时间的同步机制171<br /><br />6.5.4 无盘检查点设置172<br /><br />6.5.5 消息日志172<br /><br />6.6 共享内存系统中的检查点技术175<br /><br />6.6.1 基于总线的缓存一致性协议176<br /><br />6.6.2 基于目录的一致性协议176<br /><br />6.7 实时系统中的检查点技术177<br /><br />6.8 云计算工具下的检查点技术179<br /><br />6.9 新的挑战:千万亿次计算和百亿亿次计算180<br /><br />6.10 检查点技术的其他用途180<br /><br />6.11 延伸阅读181<br /><br />6.12 练习题182<br /><br />参考文献183<br /><br /><br />第7章 信息物理融合系统186<br /><br />7.1 CPS的结构186<br /><br />7.2 受控设备状态空间188<br /><br />7.3 传感器190<br /><br />7.3.1 校准191<br /><br />7.3.2 传感器故障检测192<br /><br />7.3.3 区间置信度197<br /><br />7.4 网络平台198<br /><br />7.4.1 任务隔离199<br /><br />7.4.2 减载200<br /><br />7.4.3 超时任务的吸收201<br /><br />7.5 执行器201<br /><br />7.6 延伸阅读203<br /><br />7.7 练习题204<br /><br />参考文献205<br /><br /><br />第8章 案例研究207<br /><br />8.1 航空航天系统207<br /><br />8.1.1 辐射防护207<br /><br />8.1.2 飞控系统:波音777客机207<br /><br />8.2 NonStop服务器系统209<br /><br />8.2.1 系统架构210<br /><br />8.2.2 维护和修理辅助211<br /><br />8.2.3 软件212<br /><br />8.2.4 NonStop架构的改进213<br /><br />8.3 Stratus容错计算机系统214<br /><br />8.4 Cassini指令与数据子系统215<br /><br />8.5 IBM POWER8处理器217<br /><br />8.6 IBM G5处理器218<br /><br />8.7 IBM sysplex集群219<br /><br />8.8 英特尔服务器221<br /><br />8.8.1 安腾处理器221<br /><br />8.8.2 至强处理器222<br /><br />8.9 Oracle SPARC M8服务器223<br /><br />8.10 云计算224<br /><br />8.10.1 针对实时定价的检查点225<br /><br />8.10.2 主动虚拟机迁移225<br /><br />8.10.3 容错即服务225<br /><br />8.11 延伸阅读226<br /><br />参考文献227<br /><br /><br />第9章 模拟技术229<br /><br />9.1 写一个模拟程序229<br /><br />9.2 参数估计231<br /><br />9.2.1 点估计与区间估计231<br /><br />9.2.2 矩估计232<br /><br />9.2.3 优选似然法233<br /><br />9.2.4 参数估计的贝叶斯方法236<br /><br />9.2.5 置信区间237<br /><br />9.3 方差缩减方法240<br /><br />9.3.1 对偶变量240<br /><br />9.3.2 使用控制变量241<br /><br />9.3.3 分层抽样242<br /><br />9.3.4 重要性抽样243<br /><br />9.4 拆分249<br /><br />9.5 随机数生成253<br /><br />9.5.1 均匀随机数生成器253<br /><br />9.5.2 测试均匀随机数生成器255<br /><br />9.5.3 生成其他分布258<br /><br />9.6 故障注入261<br /><br />9.6.1 故障注入技术类型262<br /><br />9.6.2 故障注入应用和工具263<br /><br />9.7 延伸阅读264<br /><br />9.8 练习题265<br /><br />参考文献267<br /><br /><br />第10章 VLSI电路设计中的缺陷容错269<br />10.1 制造缺陷与电路故障269<br /><br />10.2 失效概率与临界面积270<br /><br />10.3 基本的成品率模型272<br /><br />10.3.1 泊松和复合泊松成品率模型272<br /><br />10.3.2 简单成品率模型的变化273<br /><br />10.4 基于冗余设计的成品率提高方法275<br /><br />10.4.1 具有冗余设计的芯片成品率预测275<br /><br />10.4.2 具有冗余设计的存储器阵列278<br /><br />10.4.3 具有冗余设计的逻辑集成电路282<br /><br />10.4.4 调整芯片布局规划284<br /><br />10.5 延伸阅读286<br /><br />10.6 练习题287<br /><br />参考文献289<br /><br /><br />第11章 加密系统中的故障检测292<br /><br />11.1 密码算法概述292<br /><br />11.1.1 对称密钥加密292<br /><br />11.1.2 公钥密码298<br /><br />11.2 通过故障注入进行安全攻击299<br /><br />11.2.1 对称密钥加密中的故障攻击300<br /><br />11.2.2 公钥(非对称密钥)加密中的故障攻击301<br /><br />11.3 防御措施301<br /><br />11.3.1 空间和时间复制302<br /><br />11.3.2 检错码302<br /><br />11.3.3 这些防御手段够用吗304<br /><br />11.3.4 最后一点说明306<br /><br />11.4 延伸阅读306<br /><br />11.5 练习题307<br /><br />参考文献307<br /> |