![]()
内容推荐 在2016年,Google出版的第一本网站可靠性工程(SRE)书籍引起了行业的大范围讨论,当今生产环境服务运营意味这什么?为何可靠性方面的考虑是服务设计的基础?现在,编写上一本SRE畅销书的Google工程师们为我们隆重推出了本书,这是一本充满真实案例的实战参考手册,展示了如何在生产环境中运维SRE的原则和实践。 在这本全新的SRE工作手册中,提供的实践案例不但源于Google的经验,还来自那些经历过SRE旅程的Google公有云的用户。值得注意的是,本书还包括Evernote、The Home Depot、纽约时报和其他公司总结的来之不易的第一手经验。 无论你所在公司规模的大小,都可以深入研究这本工作手册,通过学习尝试完善你们自己的SRE实践。 作者简介 贝特西(Betsy Beyer)是Google纽约SRE部门的一位技术作家。她以前曾为Google数据中心和硬件运维团队撰写文档。在移居纽约之前,Betsy曾在Stanford大学担任技术写作讲师。她曾经学习国际关系与英国文学,并从Stanford和Tulane获得学位。 目录 序言Ⅰ 序言Ⅱ 前言 第1章 SRE与DevOps的关系 SRE是Devops的一种实现方式 关于DevOps的背景情况 不再各自为政 意外乃兵家常事 变更要小步快跑 工具与文化休戚与共 准确的度量至关重要 关于SRE的背景情况 运维痛点也是软件问题 以服务质量目标(SL0)为准绳 尽量减少琐事 生产的智慧 确定本年度要自动化的工作 故障解决得越快,进度就越快 与开发人员同舟共济(share ownership) 岗位虽不同,工具可统一 比较与对照 因地制宜才能事半功倍 片面、刻板的激励机制会阻碍成功 解铃还须系铃人,勿怨他人 维护可靠性是专业化角色 毋庸斟酌是否,只需推敲时机 尽量在职业发展和物质激励上一视同仁 小结 第Ⅰ部分 基础篇 第2章 实施SLO SRE为何需要SLO 入门 可靠性目标和错误预算 面向SLI的度量 范例系统分析 SLI从规范到实现 度量SLI 使用SLI计算初始的SLO 选择合适的时间窗口 获取利益干系者的认同 建立错误预算策略 SL0和错误预算策略的文档 仪表板和报表 SL0目标持续改进 改进SL0质量 基于SL0和错误预算的决策 进阶主题 第Ⅱ部分 实践篇 第Ⅲ部分 流程 结论 附录A SLO示例文档 附录B 错误预算策略示例 附录C 事后总结分析结果 作者介绍 封面介绍 |