故障响应与 Blameless 复盘:让每一次事故都变成组织资产2025-09-10·1240 字·6 分钟事故响应不是英雄主义,是一套可重复的流程。把流程、模板、文化讲清楚,让每次事故都能沉淀成组织资产。
On-Call 工程实践:从告警响应到 Runbook 设计2025-07-08·849 字·4 分钟好的 On-Call 体系不是让人 24 小时盯着屏幕,而是让每一次叫醒都有价值。从告警质量到 Runbook 设计,从轮班制度到数据驱动改进,这篇文章是我们团队在生产环境打磨 3 年的实践总结。