Prometheus 高基数治理实战:从 8 亿 series 到可控增长2025-09-28·1581 字·8 分钟高基数是 Prometheus 生态里最常见的性能杀手。这篇把「为什么发生、怎么发现、怎么治理」讲清楚,并给出一套可推广的组织治理方案。
Grafana Mimir 长期指标存储实战:从单集群 Prometheus 到 10 亿级 series2025-06-18·1681 字·8 分钟从一套 Prometheus HA pair 起步,一路扩到跨三地多活 Mimir,把 series 数从千万推到十亿级。本文把架构、配置、监控、事故按顺序讲清楚。