网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 SRE实践手册:软件组织如何规模化实施站点可靠性工程
分类 教育考试-考试-计算机类
作者 [德]弗拉迪斯拉夫·乌基斯(Vladyslav Ukis)著 周靖 译
出版社 清华大学出版社
下载
简介
内容推荐
《SRE实践手册:软件组织如何规模化实施站点可靠性工程》基于作者在西门子医疗的SRE转型经历,为读者提供了SRE落地实践过程,主题涉及如何从基础设施、组织文化和流程等层面,从全景的角度实际导入和实施SRE工程过程。《SRE实践手册:软件组织如何规模化实施站点可靠性工程》共15章,实用性强,可操作性强,指导性强,适合想要启动SRE实践的组织和团队阅读与参考。
目录
简明目录

Ⅰ 基础知识
第1章 SRE概述\t3
第2章 面临的挑战\t18
第3章 SRE基本概念\t36
第4章 评估现状\t54

Ⅱ 启动转型
第5章 取得组织的认同\t75
第6章 奠定基础\t114
第7章 响应SLO违反警报\t151
第8章 警报分派\t183
第9章 实现事故响应\t198
第10章 设置错误预算策略\t265
第11章 实现基于错误预算的决策\t284
第12章 实现组织结构\t340

Ⅲ 度量和维持转型
第13章 度量SRE转型\t405
第14章 持续推进SRE运动\t411
第15章 未来之路\t424

附录 主题快速参考\t430





详细目录
第Ⅰ部分 基础知识
第1章  SRE概述\t3
1.1 为什么要选择SRE\t3
1.1.1 ITIL\t3
1.1.2 COBIT\t4
1.1.3 建模\t5
1.1.4 DevOps\t5
1.1.5 关于SRE\t6
1.1.6 比较不同的方法\t7
1.2 使用SRE进行协同\t12
1.3 SRE为什么有用\t15
1.4 小结\t17
第2章 面临的挑战\t18
2.1 种种不协同\t18
2.2 集体所有权\t20
2.3 SRE应用场景下的所有权\t21
2.3.1 产品开发\t21
2.3.2 产品运营\t23
2.3.3 产品管理\t27
2.3.4 效益和成本\t30
2.4 挑战声明\t32
2.5 教练\t33
2.6 小结\t35
第3章 SRE基本概念\t36
3.1 服务水平指标\t36
3.2 服务水平目标\t37
3.3 错误预算\t39
3.3.1 可用性错误预算的例子\t40
3.3.2 错误预算为零\t41
3.3.3 延迟错误预算的例子\t43
3.4 错误预算策略\t44
3.5 SRE概念金字塔\t46
3.6 使用SRE概念金字塔进行协同\t49
3.7 小结\t53
第4章 评估现状\t54
4.1 组织现状\t54
4.1.1 组织结构 \t54
4.1.2 组织协同 \t56
4.1.3 正式和非正式领导 \t57
4.2 人员现状 \t58
4.3 技术现状 \t59
4.4 文化现状 \t63
4.4.1 是否高度合作 \t64
4.4.2 培训 \t64
4.4.3 是否共担风险 \t65
4.4.4 是否鼓励交流 \t65
4.4.5 失败后是否可以追根溯源 \t65
4.4.6 是否接纳新的想法 \t66
4.5 过程现状 \t66
4.6 SRE成熟度模型 \t68
4.7 提出假设 \t70
4.8 小结 \t72
第Ⅱ部分 启动转型
第5章 取得组织的认同\t75
5.1 取得组织内部对SRE的认同\t75
5.2 SRE营销漏斗\t77
5.2.1 认识SRE\t78
5.2.2 兴趣\t79
5.2.3 理解\t80
5.2.4 共识\t80
5.2.5 参与\t81
5.3 SRE教练\t82
5.3.1 特质\t82
5.3.2 责任\t83
5.4 自上而下认同\t84
5.4.1 利益相关者图表\t85
5.4.2 与开发主管接触\t87
5.4.3 与运营主管接触\t92
5.4.4 和产品管理主管接触\t93
5.4.5 实现联合认同\t95
5.4.6 让SRE进入项目组合\t97
5.5 自下而上认同\t99
5.5.1 与运营团队接触\t99
5.5.2 与开发团队接触\t100
5.6 横向认同\t103
5.7 交错认同\t104
5.8 团队辅导\t104
5.9 跨组织\t106
5.9.1 组织的分组\t106
5.9.2 组织穿越与SRE基础设施需求\t108
5.9.3 接触各个团队的时机\t108
5.10 组织辅导\t111
5.11 小结\t112
第6章 奠定基础\t114
6.1 团队导入对话\t114
6.2 传达基础知识\t115
6.2.1 SLO作为契约\t115
6.2.2 SLO作为客户满意度的代理度量\t116
6.2.3 用户画像\t117
6.2.4 用户故事地图\t119
6.2.5 对SLO被违反情况进行修复的积极性\t121
6.2.6 SLO和技术问题无关\t123
6.2.7 SLO违反的原因\t123
6.2.8 值班应对违反SLO的情况\t125
6.3 SLI标准化\t125
6.3.1 应用程序性能管理设施\t127
6.3.2 可用性\t128
6.3.3 延迟\t129
6.3.4 优先级排序\t130
6.4 启用日志记录\t132
6.5 日志查询语言的培训\t133
6.6 定义初始SLO\t134
6.6.1 什么是好的SLO\t135
6.6.2 SLO迭代过程\t136
6.6.3 修订SLO\t139
6.7 默认SLO\t140
6.8 提供基本的基础设施\t141
6.8.1 仪表盘\t142
6.8.2 警报内容\t143
6.9 与拥护者接触\t144
6.10 和反对者打交道\t144
6.10.1 人们为什么会反对\t145
6.10.2 警报的问题\t145
6.10.3 工具的问题\t146
6.10.4 产品负责人的问题\t147
6.10.5 团队激励的问题\t147
6.11 创建文档\t148
6.12 宣传成功\t148
6.13 小结\t150
第7章 响应SLO违反警报\t151
7.1 环境选择\t151
7.2 责任\t153
7.2.1 开发责任与运营责任\t153
7.2.2 运营责任\t154
7.2.3 划分运营责任\t154
7.3 工作模式\t156
7.3.1 基于中断的工作模式\t156
7.3.2 基于专注的工作模式\t160
7.4 设置轮流值班\t160
7.4.1 初始轮换周期\t161
7.4.2 单人值班\t161
7.4.3 双人值班\t162
7.4.4 三人值班\t162
7.5 值班管理工具\t163
7.5.1 发布SLO违反\t163
7.5.2 排班\t165
7.5.3 专业值班管理工具\t165
7.6 非工作时间进行值班\t167
7.6.1 使用可用性目标和产品需求\t168
7.6.2 取舍\t168
7.7 系统化的知识共享\t170
7.7.1 知识共享需求\t172
7.7.2 知识共享金字塔\t173
7.7.3 值班培训\t175
7.7.4 运行手册\t176
7.7.5 内部Stack Overflow工具\t178
7.7.6 SRE实践社区\t179
7.8 宣传成功\t180
7.9 小结\t182
第8章 警报分派\t183
8.1 警报升级\t184
8.2 定义警报升级策略\t186
8.3 定义利益相关者分组\t187
8.4 触发利益相关者通知\t189
8.5 定义利益相关者环\t190
8.6 定义有效的利益相关者通知\t193
8.7 允许利益相关者订阅\t195
8.7.1 使用值班管理工具订阅\t196
8.7.2 使用其他方式订阅的可行性\t196
8.8 宣传成功\t196
8.9 小结\t197
第9章 实现事故响应\t198
9.1 事故响应基础\t198
9.2 事故优先级\t199
9.2.1 SLO违反与事故\t200
9.2.2 在事故期间更改事故优先级\t202
9.2.3 定义通用事故优先级\t203
9.2.4 将SLO映射到事故优先级\t205
9.2.5 将错误预算映射到事故优先级\t207
9.2.6 将基于资源的警报映射到事故优先级\t208
9.2.7 发现事故优先级的新用例\t209
9.2.8 根据利益相关者的反馈来调整事故优先级\t210
9.2.9 扩展SLO定义过程\t211
9.2.10 基础设施\t212
9.2.11 消除重复\t213
9.3 协调复杂事故\t215
9.3.1 什么是复杂事故\t215
9.3.2 现有的事故协调系统\t216
9.3.3 事故分类\t217
9.3.4 定义通用事故严重性\t217
9.3.5 事故分类的社会维度\t219
9.3.6 事故优先级与事故严重性\t220
9.3.7 定义角色\t221
9.3.8 事故严重性分别对应哪些角色\t223
9.3.9 值班角色\t223
9.3.10 事故响应过程评估\t224
9.3.11 事故响应过程动态\t225
9.3.12 事故响应团队的幸福感\t228
9.4 事后回顾\t232
9.5 有效事后回顾的标准\t233
9.5.1 发起事后回顾\t234
9.5.2 事后回顾的生命周期\t235
9.5.3 事后回顾之前\t236
9.5.4 事后回顾会议\t238
9.5.5 事后回顾之后\t244
9.5.6 分析事后回顾过程\t245
9.5.7 事后回顾模板\t250
9.5.8 促进从事后回顾中学习\t252
9.5.9 成功的事后回顾实践\t252
9.5.10 事后回顾实例\t253
9.6 工具整合\t254
9.6.1 与值班管理工具连接\t254
9.6.2 其他工具之间的连接\t256
9.6.3 移动集成\t257
9.6.4 示例工具搭配\t258
9.7 服务状态广播\t259
9.8 撰写事故响应过程文档\t261
9.9 宣传成功\t262
9.10 小结\t263
第10章 设置错误预算策略\t265
10.1 动机\t265
10.2 术语\t267
10.3 错误预算策略的结构\t267
10.4 错误预算策略的条件\t269
10.5 错误预算策略的后果\t270
10.6 错误预算策略治理体系\t271
10.7 扩展错误预算策略\t273
10.8 签署错误预算策略\t277
10.9 存储错误预算策略\t278
10.10 实行错误预算策略\t279
10.11 审查错误预算策略\t280
10.12 相关概念\t281
10.13 小结\t282
第11章 实现基于错误预算的决策\t284
11.1 可靠性决策的分类法\t284
11.2 实现SRE指标\t287
11.2.1 SRE指标的维度\t287
11.2.2 “按服务划分的SLO”指标\t288
11.2.3 “SLO遵守情况”指标\t289
11.2.4 “SLO错误预算消耗”指标\t290
11.2.5 “SLO错误预算过早耗尽”指标\t295
11.2.6 “按服务划分的SLA”指标\t299
11.2.7 “SLA错误预算消耗”指标\t300
11.2.8 “SLA遵守情况”指标\t303
11.2.9 “客户支持工单趋势”指标\t304
11.2.10 “团队轮流值班”指标\t308
11.2.11 “事故恢复时间趋势”指标\t309
11.2.12 “最不可用服务端点”指标\t311
11.2.13 “最慢服务端点”指标\t312
11.3 过程指标(而非人员的KPI)\t313
11.4 决策与指标\t314
11.5 决策工作流\t316
11.5.1 “使用API”决策工作流\t316
11.5.2 “收紧依赖项的SLO”决策工作流\t319
11.5.3 “功能与可靠性优先级排序”工作流\t321
11.5.4 “设置SLO”决策工作流\t325
11.5.5 “设置SLA”决策工作流\t329
11.5.6 “为团队分配SRE能力”决策工作流\t331
11.5.7 “选择混沌工程假设”工作流\t334
11.6 小结\t338
第12章 实现组织结构\t340
12.1 SRE原则与组织结构\t341
12.2 谁构建,谁运行\t342
12.2.1 “谁构建,谁运行?”谱系\t343
12.2.2 混合模式\t344
12.2.3 改善可靠性的动力\t344
12.2.4 模式比较标准\t347
12.2.5 模式比较\t349
12.3 “你构建,你运行”\t350
12.4 “你构建,你和SRE运行”\t352
12.4.1 开发组织内的SRE团队\t352
12.4.2 运营组织内的SRE团队\t354
12.4.3 专门的SRE组织内部的SRE团队\t355
12.4.4 对比\t357
12.4.5 SRE团队的激励、身份和自豪感\t358
12.4.6 SRE团队的人数和预算\t359
12.4.7 SRE团队成本核算\t362
12.4.8 SRE团队KPI\t363
12.5 你构建,SRE运行\t365
12.5.1 开发组织内的SRE团队\t366
12.5.2 运营组织内的SRE团队\t367
12.5.3 专门的SRE组织内部的SRE团队\t367
12.6 成本优化\t368
12.7 团队拓扑结构\t370
12.7.1 报告线\t371
12.7.2 SRE身份三角\t372
12.7.3 合弄制:无报告线\t374
12.8 选择一个模式\t375
12.8.1 模式转换选项\t375
12.8.2 决策维度\t376
12.8.3 报告选项\t378
12.8.4 SRE组织的定位\t379
12.8.5 将价值传达给管理层\t381
12.9 一个新的角色:SRE\t382
12.9.1 为什么需要一个新角色\t382
12.9.2 角色定义\t384
12.9.3 角色命名\t387
12.9.4 角色分配\t388
12.9.5 角色履行\t390
12.10 SRE职业道路\t391
12.10.1 SRE角色发展\t392
12.10.2 SRE角色转换\t394
12.10.3 文化的重要性\t395
12.11 就所选模式进行沟通\t396
12.12 导入所选的模式\t397
12.12.1 组织变化\t398
12.12.2 报告结构的变化\t400
12.12.3 角色变化\t401
12.13 小结\t401
第Ⅲ部分 度量和维持转型
第13章 度量SRE转型\t405
13.1 测试转型假设\t405
13.2 内部未检测到的故障\t406
13.3 过早耗尽错误预算的服务\t407
13.4 管理层的看法\t408
13.5 用户和合作伙伴对可靠性的看法\t409
13.6 小结\t410
第14章 持续推进SRE运动\t411
14.1 建立成熟的SRE CoP\t411
14.2 SRE时间\t411
14.3 可用性新闻简报\t412
14.4 工程博客中的SRE专栏\t413
14.5 推广SRE维基页面长文\t413
14.6 SRE的宣发\t414
14.7 结合SRE和CD指标\t415
14.7.1 对比CD与SRE指标\t416
14.7.2 瓶颈分析\t417
14.8 SRE反馈回路\t418
14.9 新的假设\t419
14.10 提供学习机会\t420
14.11 为SRE教练提供支持\t421
14.12 小结\t423
第15章 未来之路\t424
15.1 服务目录\t425
15.2 SLA\t426
15.3 监管合规\t426
15.4 SRE基础设施\t427
15.5 游戏日\t428
附录 主题快速参考\t430
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/3/16 0:50:23