![]()
内容推荐 站点可靠性工程(Site Reliability Engineering,简称SRE)是一个令人兴奋的新兴领域,它专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型,深入浅出地介绍了关于SRE的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计,以及贯穿其中的沟通技巧。 本书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。 目录 1 简介 SRE简史 SRE是什么 关于这本书 以SRE作为新项目的框架 小结 2 监控 为什么要监控 检测应用程序 度量什么 SLIs、SLOs和错误预算简介 错误预算 收集和保存监控数据 轮询应用程序 推送应用程序 展示监控信息 任意查询 图表 仪表板 聊天机器人 管理和维护监控数据 沟通 他们知道有监控吗 小结 参考资料 3 事故响应 什么是事故 什么是事故响应 警报 什么时候发起警报 怎么发出警报 向谁发出警报 随时待命 沟通 事故指挥系统 在哪里沟通 恢复系统 警报解除 小结 4 事后回顾 什么是事后回顾 为什么写事后回顾报告 何时写事后回顾报告 开展事故分析 如何写事后回顾报告 总结 影响 时间 根本原因 行动项 附录 停止事后指责 举行事后回顾会议 分析以往的事后回顾报告 MTTR与MTBF 警报疲劳 讨论过去的服务中断 小结 参考资料 5 测试和发布 测试 测试内容 发布 何时发布 回滚 自动化 持续 小结 6 容量规划 企业财务简介 为什么需要规划 风险管理与期望管理 定义一个规划 当前的容量是多少 何时达到容量极限 应该如何更改容量 执行规划 架构——性能变化的根源 技术作为利润中心和采购 小结 7 构建工具 寻找项目 定义项目 RDD 设计文档 项目计划 例子 回顾会与站会 工作分配 构建项目 关于编写代码的建议 关注点分离 长期工作 笔记本 文档与维护项目 小结 8 用户体验 设计和用户体验简介 现实世界的交互设计 用户测试 挑选一种体验 设计测试 寻找要测试的人 开发者体验 工具经验 绩效预算 安全性 身份认证 授权 风险概况 网络钓鱼 ACM道德准则 小结 参考资料 9 网络基础 互联网 发送一个HTTP请求 DNS 以太网和TCP/IP HTTP curl与wget 网络监控工具 netstat nc tcpdump 小结 参考资料 10 Linux和云基础 Linux基础 一切皆是文件 进程是什么 syscalls 构建自己的工具 云基础 虚拟机 容器 负载均衡 自动伸缩 存储 队列与发布/订阅 伸缩单元 架构面试示例 小结 参考资料 |