SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战2025-08-01·1096 字·6 分钟从 SLI 指标选取到 Error Budget 消耗速率告警,系统讲解 SRE 可靠性工程体系的落地实践,包括 Prometheus recording rules 计算 SLI、多窗口 burn rate 告警规则配置、SLO 违规复盘流程,以及与开发团队的协作策略。
VictoriaMetrics:比 Prometheus 更省资源的监控存储方案2025-07-28·516 字·3 分钟Prometheus 撑不住了?本文对比 VictoriaMetrics 与 Prometheus 的核心差异,介绍 remote_write 无缝迁移方案,以及 VM 在资源占用、压缩率、查询性能上的实际提升。
Thanos 实战:多 K8s 集群 Prometheus 统一监控与长期存储2025-07-26·931 字·5 分钟记录我们将三套 EKS 集群的独立 Prometheus 迁移到 Thanos 统一监控体系的全过程,重点覆盖选型决策、生产配置和踩坑总结。
可观测性三支柱实战:Metrics/Logs/Traces 联动2025-07-14·1110 字·6 分钟监控告诉你系统挂了,可观测性告诉你为什么挂。本文从三支柱的核心差异出发,讲透 Prometheus+Loki+Tempo 的联动排障流程,覆盖 OpenTelemetry 采集标准、Exemplar 原理与配置,以及可观测性建设的优先级策略。
Grafana Mimir 长期指标存储实战:从单集群 Prometheus 到 10 亿级 series2025-06-18·1681 字·8 分钟从一套 Prometheus HA pair 起步,一路扩到跨三地多活 Mimir,把 series 数从千万推到十亿级。本文把架构、配置、监控、事故按顺序讲清楚。
Alertmanager Webhook 开发:自定义告警处理与 API 集成2025-03-25·1346 字·7 分钟Alertmanager 内置的通知渠道不支持钉钉、飞书等国内工具,Webhook 是扩展告警通知的标准方式。本文用 Python Flask 实现完整的 Webhook 接收器,涵盖消息格式化、降噪去重、Alertmanager API 集成和 K8s 部署。
Alertmanager 完全指南:路由、抑制、静默与多渠道通知2025-03-22·1332 字·7 分钟告警太多和告警太少一样有害。Alertmanager 的路由、抑制、分组机制是控制告警噪声的核心手段,本文从一个真实的多环境告警体系出发,讲清楚每个配置的意图和陷阱。
Prometheus 服务发现深度解析:kubernetes_sd_configs 实战2025-03-15·1137 字·6 分钟在 K8s 环境里手动维护 Prometheus scrape targets 是不现实的,kubernetes_sd_configs 配合 relabel_configs 是解决这个问题的核心机制。本文从原理到实践,把这套体系讲透。
可观测性建设:从 Prometheus 采集到 Grafana 告警联动2024-12-06·861 字·5 分钟可观测性不是装几个监控工具,而是让系统在出问题时能快速定位根因。这篇文章从采集架构到 PromQL 到告警路由,覆盖我们在生产环境中实际遇到的 cardinality 爆炸、告警噪音等问题。
Python 对接 Prometheus:查询监控数据与告警状态自动化2024-11-25·855 字·5 分钟用 Python 直接调 Prometheus HTTP API,实现服务存活巡检、可用率日报生成,最后接入钉钉每日自动推送集群健康摘要。