公告
经过数年的编写和修订,《SRE实践白皮书》RC2 正式版终于发布了。这是一本关于SRE实践的白皮书,是SRE实践的指导手册,是SRE实践的最佳实践。
更新内容
白皮书的目录结构如下:
- 1 SRE整体介绍 1
- 1.1 前言 1
- 1.2 SRE发展历程 2
- 1.3 SRE的目标 3
- 2 SRE的组织架构 4
- 3 SRE的流程 8
- 3.1 可靠性构架设计 8
- 3.1.2 基础设施保障 11
- 3.1.3 数据灾备 12
- 3.2 研发保障 12
- 3.2.1 代码可靠性 12
- 3.2.2 代码仓库可靠性 24
- 3.2.3 构建可靠性 30
- 3.2.4 制品可靠性 34
- 3.3 入网控制 38
- 3.3.1 运行环境适配 38
- 3.3.2 运行环境交付 48
- 3.3.3 测试策略 54
- 3.3.7 变更评审 64
- 3.4 发布管理 73
- 3.4.1 发布准备 74
- 3.4.2 发布实施 87
- 3.4.3 发布总结 94
- 3.5 故障应急 95
- 3.5.1 故障发现 95
- 3.5.2 故障诊断 98
- 3.5.3 故障恢复 104
- 3.5.4 故障复盘 106
- 3.6 上线后持续优化工作(运营期持续优化) 115
- 3.6.1 用户体验优化 115
- 3.6.2 重大技术保障 119
- 3.6.3 运维琐事的日常管理及优化 140
- 3.6.4 业务全生命周期工具建设 145
- 3.6.5 运营成本分析及优化 150
- 3.6.6 混沌工程 160
- 3.6.7 应用服务SLI/SLO 165
- 3.6.8 持续改进 171
- 3.7 平台工程 179
- 3.7.1 标准应用平台工程建设 179
- 3.7.2 异构应用平台工程建设 199
- 4 附录 223
- 4.1 参考文献 223
- 4.2 术语 224
反馈和沟通
如果您有任何问题或建议,点这里联系我们。