
SRE



混沌工程 GameDay 实战指南:从第一次演练到常态化故障注入
·1243 字·6 分钟
别把混沌工程理解成随便 kill pod。真正有价值的是一套假设驱动的演练方法论:演练前写下假设,演练中验证,复盘后改进系统和流程。

On-Call 工程实践:从告警响应到 Runbook 设计
·849 字·4 分钟
好的 On-Call 体系不是让人 24 小时盯着屏幕,而是让每一次叫醒都有价值。从告警质量到 Runbook 设计,从轮班制度到数据驱动改进,这篇文章是我们团队在生产环境打磨 3 年的实践总结。

SRE 故障管理全生命周期:从响应到复盘
·754 字·4 分钟
故障处理不只是技术问题,更是协作和信息流问题。这篇文章完整梳理了从故障触发到 Post-Mortem 归档的每个环节,包括 IC 角色的意义、15 分钟定界框架,以及如何让 Post-Mortem 真正推动改进而不是走过场。
