![]()
内容推荐 大大小小的企业和机构已经开始意识到系统和应用程序的可靠性对他们的业务的重要性。他们还发现,以市场需求的速度进行迭代的同时还要保持可靠性有多么困难。站点可靠性工程(SRE)是应对这一挑战的行之有效的方法。 SRE是一个广泛而丰富的讨论话题。Google凭借《Site Reliability Engineering》一书推动着SRE向前发展。这是一本非常成功的O'Reilly图书,它描述了能让Google成功运维超大规模平台的SRE指导思想和实施细节。受Google早期工作的启发,本书试图发掘SRE领域非常不同的部分。本书用30多章的篇幅带你进入SRE领域正在进行的一些重要对话。 聆听工程师和该领域的其他领导人讨论: 在各种环境中实现SRE及其指导思想的不同方法。 SRE与其他方法(例如DevOps)的关系。 最前沿的专业技术很快将在SRE中十分常见。 简化实现SRE的最佳实践和技术。 重要但很少有人探索的SRE人性的一面。 作者简介 戴维·N.布兰克-埃德尔曼(David N.Blank-Edelman)在大型多平台环境中的SRE、DevOps、系统管理领域拥有超过30年的经验。他目前就职于Microsoft,是高级云平台运维布道师,专注于站点可靠性工程。他是USENIX在全球举办的广受欢迎的SREcon会议的联合创始人之一,同时还是O'Reilly水獭书(《Automating Systems Administration with Perl》)的作者。 目录 绪论 第一部分 SRE实施 第1章 SRE中的上下文与控制 第2章 面试站点可靠性工程师 面试101 谁参与 行业与大学 偏见 漏斗 SRE漏斗 电话筛查 现场面试 带回家的问题 面试SRE的最终思考 延伸阅读 第3章 你想建立一个SRE团队吗 出于正确的原因选择SRE 面向数据驱动方法 对SRE的承诺 做出关于SRE的决定 第4章 使用事件指标在规模上提高SRE 救援到良性循环:你需要测量 指标回顾:如果指标无法找到 代理指标 修复债务 虚拟修复债务:在机器中驱除幽灵 实时仪表板:SRE的面包和黄油 学习:终身学习 延伸阅读 第5章 与第三方合作的艺术 自建、购买或采用? 建立重要性 确定利益相关者 做出决策 承认现实 第三方作为“一等公民” 当他们倒下时,你也倒下 像服务一样运行黑匣子 服务级别指标、服务级别目标和SLA 行动手册:从预发布到生产 总结想法 第6章 如何在没有专用SRE团队的情况下应用SRE原则 向SRE求救(以及他们如何失败) 按员工人数计算的规模问题 嵌入式SRE …… 第7章 无SRE的SRE模式:Spotify案例研究 第8章 大型企业SRE的介绍 第9章 从系统管理员到SRE 第10章 为企业中的SRE扫清道路 第11章 SRE模式深受DevOps的热爱 第12章 DevOps和SRE:来自社区的声音 第13章 Facebook的生产工程师 第二部分 SRE前沿领域 第14章 起初,有混沌 第15章 可靠性与隐私的交集 第16章 数据库可靠性工程 第17章 数据耐久性工程 第18章 SRE机器学习概述 第三部分 SRE最佳实践和技术 第19章 使文档更好:将文档集成到工作流程中 第20章 主动教学和自学 第21章 服务级别目标的艺术与科学 第22章 SRE作为一种成功文化 第23章 SRE反模式 第24章 不变的基础架构和SRE 第25章 可编写脚本的负载均衡器 第26章 服务网格化:微服务的牧人? 第四部分 SRE的人性化一面 第27章 SRE的心理安全 第28章 SRE认知工作 第29章 胜过倦怠 第30章 反对轮值:一次论战 第31章 复杂系统的挽歌 第32章 运维与社会活动之间的交集 第33章 结语 作者介绍 封面介绍 |