Playbook:多云告警体系合并实战 —— 从 200 条规则混战到统一治理2026-04-30·4308 字·21 分钟做告警最常见的状态不是没告警,而是有两套甚至三套并行运行的告警系统,渠道交叉、规则重叠、silence 写得到处都是。本文给出从混乱状态收敛成统一治理的完整路径,包含可直接 1:1 复制部署的全量 yaml、脚本与配置。
基于 Error Budget 的 Prometheus 告警设计——燃烧率告警实战2025-12-25·981 字·5 分钟错误率告警有一个致命问题:它不告诉你问题有多紧急。1% 的错误率,持续 2 小时和持续 10 分钟,对 SLO 的威胁完全不同。燃烧率告警从 Error Budget 消耗速度出发,让每一次告警都携带"紧急程度"信息。
告警带图实战:Grafana Render + 钉钉推送趋势图2025-12-23·1160 字·6 分钟收到告警只有一行数字,还要登录 Grafana 才能看趋势图——这是告警体验最大的痛点之一。本文介绍如何将 Grafana Image Renderer 与 Alertmanager Webhook 结合,实现告警消息自动附带趋势图的完整方案。
On-Call 工程实践:从告警响应到 Runbook 设计2025-07-08·849 字·4 分钟好的 On-Call 体系不是让人 24 小时盯着屏幕,而是让每一次叫醒都有价值。从告警质量到 Runbook 设计,从轮班制度到数据驱动改进,这篇文章是我们团队在生产环境打磨 3 年的实践总结。
Alertmanager Webhook 开发:自定义告警处理与 API 集成2025-03-25·1346 字·7 分钟Alertmanager 内置的通知渠道不支持钉钉、飞书等国内工具,Webhook 是扩展告警通知的标准方式。本文用 Python Flask 实现完整的 Webhook 接收器,涵盖消息格式化、降噪去重、Alertmanager API 集成和 K8s 部署。
Alertmanager 完全指南:路由、抑制、静默与多渠道通知2025-03-22·1332 字·7 分钟告警太多和告警太少一样有害。Alertmanager 的路由、抑制、分组机制是控制告警噪声的核心手段,本文从一个真实的多环境告警体系出发,讲清楚每个配置的意图和陷阱。