基于 Error Budget 的 Prometheus 告警设计——燃烧率告警实战2025-12-25·981 字·5 分钟错误率告警有一个致命问题:它不告诉你问题有多紧急。1% 的错误率,持续 2 小时和持续 10 分钟,对 SLO 的威胁完全不同。燃烧率告警从 Error Budget 消耗速度出发,让每一次告警都携带"紧急程度"信息。
SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战2025-08-01·1096 字·6 分钟从 SLI 指标选取到 Error Budget 消耗速率告警,系统讲解 SRE 可靠性工程体系的落地实践,包括 Prometheus recording rules 计算 SLI、多窗口 burn rate 告警规则配置、SLO 违规复盘流程,以及与开发团队的协作策略。