跳过正文

可靠性

SRE 故障管理全生命周期:从响应到复盘

SRE 故障管理全生命周期:从响应到复盘

·754 字·4 分钟
故障处理不只是技术问题,更是协作和信息流问题。这篇文章完整梳理了从故障触发到 Post-Mortem 归档的每个环节,包括 IC 角色的意义、15 分钟定界框架,以及如何让 Post-Mortem 真正推动改进而不是走过场。
SRE 核心理念:从运维思维到可靠性工程

SRE 核心理念:从运维思维到可靠性工程

·679 字·4 分钟
SRE 不是给运维换了个更好听的名字。它是一套用软件工程思维解决可靠性问题的方法论。本文从 Error Budget 切入,覆盖 SLI/SLO 制定、Toil 识别、On-call 设计、故障复盘文化,以及从传统运维转型 SRE 的实际路径。