跳过正文

告警

告警带图实战:Grafana Render + 钉钉推送趋势图

告警带图实战:Grafana Render + 钉钉推送趋势图

·1160 字·6 分钟
收到告警只有一行数字,还要登录 Grafana 才能看趋势图——这是告警体验最大的痛点之一。本文介绍如何将 Grafana Image Renderer 与 Alertmanager Webhook 结合,实现告警消息自动附带趋势图的完整方案。
如何设计一个好的告警体系

如何设计一个好的告警体系

·570 字·3 分钟
从真实的告警噪音泛滥经历出发,分享如何用 SLI/SLO 重新设计告警体系,包括告警分级、规则设计原则、路由策略和复盘机制。
On-Call 工程实践:从告警响应到 Runbook 设计

On-Call 工程实践:从告警响应到 Runbook 设计

·849 字·4 分钟
好的 On-Call 体系不是让人 24 小时盯着屏幕,而是让每一次叫醒都有价值。从告警质量到 Runbook 设计,从轮班制度到数据驱动改进,这篇文章是我们团队在生产环境打磨 3 年的实践总结。
Alertmanager Webhook 开发:自定义告警处理与 API 集成

Alertmanager Webhook 开发:自定义告警处理与 API 集成

·1346 字·7 分钟
Alertmanager 内置的通知渠道不支持钉钉、飞书等国内工具,Webhook 是扩展告警通知的标准方式。本文用 Python Flask 实现完整的 Webhook 接收器,涵盖消息格式化、降噪去重、Alertmanager API 集成和 K8s 部署。