跳过正文

Prometheus

SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战

SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战

·1096 字·6 分钟
从 SLI 指标选取到 Error Budget 消耗速率告警,系统讲解 SRE 可靠性工程体系的落地实践,包括 Prometheus recording rules 计算 SLI、多窗口 burn rate 告警规则配置、SLO 违规复盘流程,以及与开发团队的协作策略。
可观测性三支柱实战:Metrics/Logs/Traces 联动

可观测性三支柱实战:Metrics/Logs/Traces 联动

·1110 字·6 分钟
监控告诉你系统挂了,可观测性告诉你为什么挂。本文从三支柱的核心差异出发,讲透 Prometheus+Loki+Tempo 的联动排障流程,覆盖 OpenTelemetry 采集标准、Exemplar 原理与配置,以及可观测性建设的优先级策略。
Alertmanager Webhook 开发:自定义告警处理与 API 集成

Alertmanager Webhook 开发:自定义告警处理与 API 集成

·1346 字·7 分钟
Alertmanager 内置的通知渠道不支持钉钉、飞书等国内工具,Webhook 是扩展告警通知的标准方式。本文用 Python Flask 实现完整的 Webhook 接收器,涵盖消息格式化、降噪去重、Alertmanager API 集成和 K8s 部署。
可观测性建设:从 Prometheus 采集到 Grafana 告警联动

可观测性建设:从 Prometheus 采集到 Grafana 告警联动

·861 字·5 分钟
可观测性不是装几个监控工具,而是让系统在出问题时能快速定位根因。这篇文章从采集架构到 PromQL 到告警路由,覆盖我们在生产环境中实际遇到的 cardinality 爆炸、告警噪音等问题。