跳过正文

SRE

USE Method:系统性能分析方法论

USE Method:系统性能分析方法论

·1442 字·7 分钟
随机尝试是性能排查的大敌。USE Method 用一个三维框架(使用率/饱和度/错误)把所有系统资源纳入统一分析体系,本文从原理到实战全面解析这套方法论,并提供 K8s 环境下的 PromQL 映射和工具链速查表。
如何设计一个好的告警体系

如何设计一个好的告警体系

·570 字·3 分钟
从真实的告警噪音泛滥经历出发,分享如何用 SLI/SLO 重新设计告警体系,包括告警分级、规则设计原则、路由策略和复盘机制。
混沌工程实战:Chaos Mesh 在 K8s 中注入故障

混沌工程实战:Chaos Mesh 在 K8s 中注入故障

·809 字·4 分钟
混沌工程不是破坏系统,而是在可控环境中提前暴露脆弱点。本文记录了我用 Chaos Mesh 在生产级 K8s 集群中设计并执行混沌演练的完整过程,包括安装、实验配置、Workflow 编排和游戏日流程设计。
SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战

SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战

·1096 字·6 分钟
从 SLI 指标选取到 Error Budget 消耗速率告警,系统讲解 SRE 可靠性工程体系的落地实践,包括 Prometheus recording rules 计算 SLI、多窗口 burn rate 告警规则配置、SLO 违规复盘流程,以及与开发团队的协作策略。