网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 高性能之道(SRE视角下的运维架构实践)
分类 教育考试-考试-计算机类
作者 王力
出版社 电子工业出版社
下载
简介
内容推荐
本书从实践出发,包括了作者参与并主导的3家电商互联网公司架构从0到1的构建经历,从多个角度讲解稳定、性能、效率、成本四大职责落地经验,并结合Mikey金字塔进行了部分创新,很多内容都可以直接复用于实际工作。本书分为7篇,分别是开端篇、监控篇、故障篇、容量篇、全局视角篇、性能篇和扩展篇。 本书适合互联网行业内的运维人员、SRE和DevOps工程师、架构师、技术团队负责人及关注用户体验的相关开发者阅读,也适合掌握了一定的SRE方法论但在实践中无从下手的读者阅读。
目录
开端篇 弱化边界感
第1章 引言
1.1 运维架构和SRE
1.2 理解业务,技术为业务服务
1.3 不设边界
1.4 SRE金字塔
1.5 总结
第2章 重视测试环境和预发布环境
2.1 提效和维稳的第一道门槛——测试环境
2.1.1 低级错误
2.1.2 提效分析
2.2 “守门员”——预发布环境
2.2.1 低级错误
2.2.2 提效分析
2.3 两大环境问题根本原因溯源
2.4 微拍堂测试环境治理思路介绍
2.5 总结
监控篇 底层逻辑的艺术
第3章 浅谈监控系统设计
3.1 梳理监控体系
3.2 梳理监控指标
3.3 变更监控
3.4 准实时系统监控
3.5 短时进程追踪工具
3.6 全链路监控
3.7 商业监控平台的选用建议
3.8 监控方式:白盒监控与黑盒监控
3.9 从监控数据中总结规律
3.10 黄金指标
3.11 总结
第4章 云原生可观测性开源工具——Kindling
4.1 行业现状
4.2 Kindling解决方案——关联内核可观测性数据的Trace
4.3 Kindling探针的架构设计理念
4.4 Kindling探针架构
4.4.1 内核态程序:drivers
4.4.2 用户态C/C++程序:kindling-probe
4.4.3 用户态Go程序:kindling-collector
4.4.4 程序间通信方式
4.5 在线Demo介绍
4.6 案例分享
4.6.1 安装
4.6.2 功能介绍
4.6.3 稳定性价值
4.7 总结
第5章 高阶实战——打造可持续维护的闭环流程
5.1 案例:动态观测SQL质量流程设计
5.1.1 分析规范难以落地的原因
5.1.2 监督与管控流程设计
5.1.3 通知和统计
5.2 案例:WebP格式图片的规范和落地实践
5.2.1 规范无法持续推广
5.2.2 成本和用户体验上的双赢
5.2.3 计划实施
5.2.4 管控机制
5.2.5 采集数据信息和数据加工处理
5.2.6 巡检平台之规范化监督
5.3 案例:管道通信规范化实践
5.3.1 我们每天都在使用管道
5.3.2 管道示例场景及性能说明
5.3.3 如何规范管道使用场景
5.4 标准和规范治理平台
5.4.1 现状
5.4.2 设计思路
5.5 总结
第6章 挖掘Nginx的监控价值
6.1 URI指纹服务设计
6.2 Nginx日志分析指南
6.2.1 参数白名单
6.2.2 URI的响应时间和HTTP状态监控
6.2.3 URI响应字节数波动分析
6.2.4 查询URL请求的项目
6.2.5 注意HTTPS的透传
6.2.6 利用Nginx完成动态全链路比例调整
6.3 总结
故障篇 故障的生命周期
第7章 事前治理的方法论
7.1 从故障中总结经验
7.2 从系统资源层面和日志中巡检异常
7.3 从标准和规范中寻找闭环之路
7.4 从业务中挖掘基础服务的使用问题
7.5 技术风险防控运营成本
7.6 总结
第8章 变更管控设计思路
8.1 变更管控
8.1.1 变更对象
8.1.2 变更发布
8.1.3 变更可灰度
8.1.4 变更可回滚
8.1.5 变更可监控
8.1.6 配置项变更
8.1.7 变更管控思路
8.2 JumpServer使用的艺术及工单交互
8.3 变更三板斧:运维团队的可监控、可灰度、可回滚实践
8.3.1 案例:云服务器资源伸缩稳定性
8.3.2 案例:CDN OpenResty的变更策略
8.4 总结
第9章 轮值的设计思路
9.1 值班模式探究
9.1.1 让开发人员参与其中
9.1.2 制定KPI
9.1.3 值班人员的边界探讨
9.2 值班机器人
9.3 提升值班价值——SRE需求池设计
9.3.1 结合日常巡检与非值班时间
9.3.2 在烦琐的工作中收集需求
9.4 总结
第10章 故障演练与应急预案
10.1 故障演练缘由
10.1.1 更好地面对系统规模增长带来的复杂性
10.1.2 提升故障的排查速度
10.1.3 验证应急预案的正确性
10.1.4 验证基础设施的稳定性
10.1.5 验证监控感知能力
10.1.6 验证应急流程的顺畅度
10.2 故障演练流程
10.2.1 故障演练场景关键要素
10.2.2 故障演练预期
10.3 应急预案
10.3.1 应急场景标准化
10.3.2 梳理应急预案清单
10.4 总结
第11章 应急响应流程实践
11.1 收拢故障上报来源
11.1.1 从技术体系内部发现
11.1.2 从技术体系外部发现
11.2 建立应急小组
11.2.1 人多力量弱
11.2.2 稳定性接口人和岗位权限
11.2.3 完善客诉标准化术语
11.3 故障噪点治理
11.3.1 报警治理
11.3.2 设计外部反馈阈值
11.3.3 收集第三方抖动事件
11.4 控制应急节奏
11.4.1 舍小保大
11.4.2 “优先止血”,后续定位根本原因
11.4.3 及时同步信息,减少信息差
11.5 应急“止血”的常见操作
11.5.1 代码回滚
11.5.2 重启
11.5.3 时序监控下的限流、熔断、扩容
11.5.4 业务降级
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/2/22 17:46:34