网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 SRE生存指南(系统中断响应与正常运行时间最大化)
分类 教育考试-考试-计算机类
作者 (美)纳特·韦尔奇
出版社 电子工业出版社
下载
简介
内容推荐
站点可靠性工程(Site Reliability Engineering,简称SRE)是一个令人兴奋的新兴领域,它专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型,深入浅出地介绍了关于SRE的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计,以及贯穿其中的沟通技巧。
本书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。
目录
1 简介
SRE简史
SRE是什么
关于这本书
以SRE作为新项目的框架
小结
2 监控
为什么要监控
检测应用程序
度量什么
SLIs、SLOs和错误预算简介
错误预算
收集和保存监控数据
轮询应用程序
推送应用程序
展示监控信息
任意查询
图表
仪表板
聊天机器人
管理和维护监控数据
沟通
他们知道有监控吗
小结
参考资料
3 事故响应
什么是事故
什么是事故响应
警报
什么时候发起警报
怎么发出警报
向谁发出警报
随时待命
沟通
事故指挥系统
在哪里沟通
恢复系统
警报解除
小结
4 事后回顾
什么是事后回顾
为什么写事后回顾报告
何时写事后回顾报告
开展事故分析
如何写事后回顾报告
总结
影响
时间
根本原因
行动项
附录
停止事后指责
举行事后回顾会议
分析以往的事后回顾报告
MTTR与MTBF
警报疲劳
讨论过去的服务中断
小结
参考资料
5 测试和发布
测试
测试内容
发布
何时发布
回滚
自动化
持续
小结
6 容量规划
企业财务简介
为什么需要规划
风险管理与期望管理
定义一个规划
当前的容量是多少
何时达到容量极限
应该如何更改容量
执行规划
架构——性能变化的根源
技术作为利润中心和采购
小结
7 构建工具
寻找项目
定义项目
RDD
设计文档
项目计划
例子
回顾会与站会
工作分配
构建项目
关于编写代码的建议
关注点分离
长期工作
笔记本
文档与维护项目
小结
8 用户体验
设计和用户体验简介
现实世界的交互设计
用户测试
挑选一种体验
设计测试
寻找要测试的人
开发者体验
工具经验
绩效预算
安全性
身份认证
授权
风险概况
网络钓鱼
ACM道德准则
小结
参考资料
9 网络基础
互联网
发送一个HTTP请求
DNS
以太网和TCP/IP
HTTP
curl与wget
网络监控工具
netstat
nc
tcpdump
小结
参考资料
10 Linux和云基础
Linux基础
一切皆是文件
进程是什么
syscalls
构建自己的工具
云基础
虚拟机
容器
负载均衡
自动伸缩
存储
队列与发布/订阅
伸缩单元
架构面试示例
小结
参考资料
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/3/25 16:10:12