网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | SRE实践手册:软件组织如何规模化实施站点可靠性工程 |
分类 | 教育考试-考试-计算机类 |
作者 | [德]弗拉迪斯拉夫·乌基斯(Vladyslav Ukis)著 周靖 译 |
出版社 | 清华大学出版社 |
下载 | ![]() |
简介 | 内容推荐 《SRE实践手册:软件组织如何规模化实施站点可靠性工程》基于作者在西门子医疗的SRE转型经历,为读者提供了SRE落地实践过程,主题涉及如何从基础设施、组织文化和流程等层面,从全景的角度实际导入和实施SRE工程过程。《SRE实践手册:软件组织如何规模化实施站点可靠性工程》共15章,实用性强,可操作性强,指导性强,适合想要启动SRE实践的组织和团队阅读与参考。 目录 简明目录 Ⅰ 基础知识 第1章 SRE概述\t3 第2章 面临的挑战\t18 第3章 SRE基本概念\t36 第4章 评估现状\t54 Ⅱ 启动转型 第5章 取得组织的认同\t75 第6章 奠定基础\t114 第7章 响应SLO违反警报\t151 第8章 警报分派\t183 第9章 实现事故响应\t198 第10章 设置错误预算策略\t265 第11章 实现基于错误预算的决策\t284 第12章 实现组织结构\t340 Ⅲ 度量和维持转型 第13章 度量SRE转型\t405 第14章 持续推进SRE运动\t411 第15章 未来之路\t424 附录 主题快速参考\t430 详细目录 第Ⅰ部分 基础知识 第1章 SRE概述\t3 1.1 为什么要选择SRE\t3 1.1.1 ITIL\t3 1.1.2 COBIT\t4 1.1.3 建模\t5 1.1.4 DevOps\t5 1.1.5 关于SRE\t6 1.1.6 比较不同的方法\t7 1.2 使用SRE进行协同\t12 1.3 SRE为什么有用\t15 1.4 小结\t17 第2章 面临的挑战\t18 2.1 种种不协同\t18 2.2 集体所有权\t20 2.3 SRE应用场景下的所有权\t21 2.3.1 产品开发\t21 2.3.2 产品运营\t23 2.3.3 产品管理\t27 2.3.4 效益和成本\t30 2.4 挑战声明\t32 2.5 教练\t33 2.6 小结\t35 第3章 SRE基本概念\t36 3.1 服务水平指标\t36 3.2 服务水平目标\t37 3.3 错误预算\t39 3.3.1 可用性错误预算的例子\t40 3.3.2 错误预算为零\t41 3.3.3 延迟错误预算的例子\t43 3.4 错误预算策略\t44 3.5 SRE概念金字塔\t46 3.6 使用SRE概念金字塔进行协同\t49 3.7 小结\t53 第4章 评估现状\t54 4.1 组织现状\t54 4.1.1 组织结构 \t54 4.1.2 组织协同 \t56 4.1.3 正式和非正式领导 \t57 4.2 人员现状 \t58 4.3 技术现状 \t59 4.4 文化现状 \t63 4.4.1 是否高度合作 \t64 4.4.2 培训 \t64 4.4.3 是否共担风险 \t65 4.4.4 是否鼓励交流 \t65 4.4.5 失败后是否可以追根溯源 \t65 4.4.6 是否接纳新的想法 \t66 4.5 过程现状 \t66 4.6 SRE成熟度模型 \t68 4.7 提出假设 \t70 4.8 小结 \t72 第Ⅱ部分 启动转型 第5章 取得组织的认同\t75 5.1 取得组织内部对SRE的认同\t75 5.2 SRE营销漏斗\t77 5.2.1 认识SRE\t78 5.2.2 兴趣\t79 5.2.3 理解\t80 5.2.4 共识\t80 5.2.5 参与\t81 5.3 SRE教练\t82 5.3.1 特质\t82 5.3.2 责任\t83 5.4 自上而下认同\t84 5.4.1 利益相关者图表\t85 5.4.2 与开发主管接触\t87 5.4.3 与运营主管接触\t92 5.4.4 和产品管理主管接触\t93 5.4.5 实现联合认同\t95 5.4.6 让SRE进入项目组合\t97 5.5 自下而上认同\t99 5.5.1 与运营团队接触\t99 5.5.2 与开发团队接触\t100 5.6 横向认同\t103 5.7 交错认同\t104 5.8 团队辅导\t104 5.9 跨组织\t106 5.9.1 组织的分组\t106 5.9.2 组织穿越与SRE基础设施需求\t108 5.9.3 接触各个团队的时机\t108 5.10 组织辅导\t111 5.11 小结\t112 第6章 奠定基础\t114 6.1 团队导入对话\t114 6.2 传达基础知识\t115 6.2.1 SLO作为契约\t115 6.2.2 SLO作为客户满意度的代理度量\t116 6.2.3 用户画像\t117 6.2.4 用户故事地图\t119 6.2.5 对SLO被违反情况进行修复的积极性\t121 6.2.6 SLO和技术问题无关\t123 6.2.7 SLO违反的原因\t123 6.2.8 值班应对违反SLO的情况\t125 6.3 SLI标准化\t125 6.3.1 应用程序性能管理设施\t127 6.3.2 可用性\t128 6.3.3 延迟\t129 6.3.4 优先级排序\t130 6.4 启用日志记录\t132 6.5 日志查询语言的培训\t133 6.6 定义初始SLO\t134 6.6.1 什么是好的SLO\t135 6.6.2 SLO迭代过程\t136 6.6.3 修订SLO\t139 6.7 默认SLO\t140 6.8 提供基本的基础设施\t141 6.8.1 仪表盘\t142 6.8.2 警报内容\t143 6.9 与拥护者接触\t144 6.10 和反对者打交道\t144 6.10.1 人们为什么会反对\t145 6.10.2 警报的问题\t145 6.10.3 工具的问题\t146 6.10.4 产品负责人的问题\t147 6.10.5 团队激励的问题\t147 6.11 创建文档\t148 6.12 宣传成功\t148 6.13 小结\t150 第7章 响应SLO违反警报\t151 7.1 环境选择\t151 7.2 责任\t153 7.2.1 开发责任与运营责任\t153 7.2.2 运营责任\t154 7.2.3 划分运营责任\t154 7.3 工作模式\t156 7.3.1 基于中断的工作模式\t156 7.3.2 基于专注的工作模式\t160 7.4 设置轮流值班\t160 7.4.1 初始轮换周期\t161 7.4.2 单人值班\t161 7.4.3 双人值班\t162 7.4.4 三人值班\t162 7.5 值班管理工具\t163 7.5.1 发布SLO违反\t163 7.5.2 排班\t165 7.5.3 专业值班管理工具\t165 7.6 非工作时间进行值班\t167 7.6.1 使用可用性目标和产品需求\t168 7.6.2 取舍\t168 7.7 系统化的知识共享\t170 7.7.1 知识共享需求\t172 7.7.2 知识共享金字塔\t173 7.7.3 值班培训\t175 7.7.4 运行手册\t176 7.7.5 内部Stack Overflow工具\t178 7.7.6 SRE实践社区\t179 7.8 宣传成功\t180 7.9 小结\t182 第8章 警报分派\t183 8.1 警报升级\t184 8.2 定义警报升级策略\t186 8.3 定义利益相关者分组\t187 8.4 触发利益相关者通知\t189 8.5 定义利益相关者环\t190 8.6 定义有效的利益相关者通知\t193 8.7 允许利益相关者订阅\t195 8.7.1 使用值班管理工具订阅\t196 8.7.2 使用其他方式订阅的可行性\t196 8.8 宣传成功\t196 8.9 小结\t197 第9章 实现事故响应\t198 9.1 事故响应基础\t198 9.2 事故优先级\t199 9.2.1 SLO违反与事故\t200 9.2.2 在事故期间更改事故优先级\t202 9.2.3 定义通用事故优先级\t203 9.2.4 将SLO映射到事故优先级\t205 9.2.5 将错误预算映射到事故优先级\t207 9.2.6 将基于资源的警报映射到事故优先级\t208 9.2.7 发现事故优先级的新用例\t209 9.2.8 根据利益相关者的反馈来调整事故优先级\t210 9.2.9 扩展SLO定义过程\t211 9.2.10 基础设施\t212 9.2.11 消除重复\t213 9.3 协调复杂事故\t215 9.3.1 什么是复杂事故\t215 9.3.2 现有的事故协调系统\t216 9.3.3 事故分类\t217 9.3.4 定义通用事故严重性\t217 9.3.5 事故分类的社会维度\t219 9.3.6 事故优先级与事故严重性\t220 9.3.7 定义角色\t221 9.3.8 事故严重性分别对应哪些角色\t223 9.3.9 值班角色\t223 9.3.10 事故响应过程评估\t224 9.3.11 事故响应过程动态\t225 9.3.12 事故响应团队的幸福感\t228 9.4 事后回顾\t232 9.5 有效事后回顾的标准\t233 9.5.1 发起事后回顾\t234 9.5.2 事后回顾的生命周期\t235 9.5.3 事后回顾之前\t236 9.5.4 事后回顾会议\t238 9.5.5 事后回顾之后\t244 9.5.6 分析事后回顾过程\t245 9.5.7 事后回顾模板\t250 9.5.8 促进从事后回顾中学习\t252 9.5.9 成功的事后回顾实践\t252 9.5.10 事后回顾实例\t253 9.6 工具整合\t254 9.6.1 与值班管理工具连接\t254 9.6.2 其他工具之间的连接\t256 9.6.3 移动集成\t257 9.6.4 示例工具搭配\t258 9.7 服务状态广播\t259 9.8 撰写事故响应过程文档\t261 9.9 宣传成功\t262 9.10 小结\t263 第10章 设置错误预算策略\t265 10.1 动机\t265 10.2 术语\t267 10.3 错误预算策略的结构\t267 10.4 错误预算策略的条件\t269 10.5 错误预算策略的后果\t270 10.6 错误预算策略治理体系\t271 10.7 扩展错误预算策略\t273 10.8 签署错误预算策略\t277 10.9 存储错误预算策略\t278 10.10 实行错误预算策略\t279 10.11 审查错误预算策略\t280 10.12 相关概念\t281 10.13 小结\t282 第11章 实现基于错误预算的决策\t284 11.1 可靠性决策的分类法\t284 11.2 实现SRE指标\t287 11.2.1 SRE指标的维度\t287 11.2.2 “按服务划分的SLO”指标\t288 11.2.3 “SLO遵守情况”指标\t289 11.2.4 “SLO错误预算消耗”指标\t290 11.2.5 “SLO错误预算过早耗尽”指标\t295 11.2.6 “按服务划分的SLA”指标\t299 11.2.7 “SLA错误预算消耗”指标\t300 11.2.8 “SLA遵守情况”指标\t303 11.2.9 “客户支持工单趋势”指标\t304 11.2.10 “团队轮流值班”指标\t308 11.2.11 “事故恢复时间趋势”指标\t309 11.2.12 “最不可用服务端点”指标\t311 11.2.13 “最慢服务端点”指标\t312 11.3 过程指标(而非人员的KPI)\t313 11.4 决策与指标\t314 11.5 决策工作流\t316 11.5.1 “使用API”决策工作流\t316 11.5.2 “收紧依赖项的SLO”决策工作流\t319 11.5.3 “功能与可靠性优先级排序”工作流\t321 11.5.4 “设置SLO”决策工作流\t325 11.5.5 “设置SLA”决策工作流\t329 11.5.6 “为团队分配SRE能力”决策工作流\t331 11.5.7 “选择混沌工程假设”工作流\t334 11.6 小结\t338 第12章 实现组织结构\t340 12.1 SRE原则与组织结构\t341 12.2 谁构建,谁运行\t342 12.2.1 “谁构建,谁运行?”谱系\t343 12.2.2 混合模式\t344 12.2.3 改善可靠性的动力\t344 12.2.4 模式比较标准\t347 12.2.5 模式比较\t349 12.3 “你构建,你运行”\t350 12.4 “你构建,你和SRE运行”\t352 12.4.1 开发组织内的SRE团队\t352 12.4.2 运营组织内的SRE团队\t354 12.4.3 专门的SRE组织内部的SRE团队\t355 12.4.4 对比\t357 12.4.5 SRE团队的激励、身份和自豪感\t358 12.4.6 SRE团队的人数和预算\t359 12.4.7 SRE团队成本核算\t362 12.4.8 SRE团队KPI\t363 12.5 你构建,SRE运行\t365 12.5.1 开发组织内的SRE团队\t366 12.5.2 运营组织内的SRE团队\t367 12.5.3 专门的SRE组织内部的SRE团队\t367 12.6 成本优化\t368 12.7 团队拓扑结构\t370 12.7.1 报告线\t371 12.7.2 SRE身份三角\t372 12.7.3 合弄制:无报告线\t374 12.8 选择一个模式\t375 12.8.1 模式转换选项\t375 12.8.2 决策维度\t376 12.8.3 报告选项\t378 12.8.4 SRE组织的定位\t379 12.8.5 将价值传达给管理层\t381 12.9 一个新的角色:SRE\t382 12.9.1 为什么需要一个新角色\t382 12.9.2 角色定义\t384 12.9.3 角色命名\t387 12.9.4 角色分配\t388 12.9.5 角色履行\t390 12.10 SRE职业道路\t391 12.10.1 SRE角色发展\t392 12.10.2 SRE角色转换\t394 12.10.3 文化的重要性\t395 12.11 就所选模式进行沟通\t396 12.12 导入所选的模式\t397 12.12.1 组织变化\t398 12.12.2 报告结构的变化\t400 12.12.3 角色变化\t401 12.13 小结\t401 第Ⅲ部分 度量和维持转型 第13章 度量SRE转型\t405 13.1 测试转型假设\t405 13.2 内部未检测到的故障\t406 13.3 过早耗尽错误预算的服务\t407 13.4 管理层的看法\t408 13.5 用户和合作伙伴对可靠性的看法\t409 13.6 小结\t410 第14章 持续推进SRE运动\t411 14.1 建立成熟的SRE CoP\t411 14.2 SRE时间\t411 14.3 可用性新闻简报\t412 14.4 工程博客中的SRE专栏\t413 14.5 推广SRE维基页面长文\t413 14.6 SRE的宣发\t414 14.7 结合SRE和CD指标\t415 14.7.1 对比CD与SRE指标\t416 14.7.2 瓶颈分析\t417 14.8 SRE反馈回路\t418 14.9 新的假设\t419 14.10 提供学习机会\t420 14.11 为SRE教练提供支持\t421 14.12 小结\t423 第15章 未来之路\t424 15.1 服务目录\t425 15.2 SLA\t426 15.3 监管合规\t426 15.4 SRE基础设施\t427 15.5 游戏日\t428 附录 主题快速参考\t430 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。