Playbook:多云告警体系合并实战 —— 从 200 条规则混战到统一治理2026-04-30·4308 字·21 分钟做告警最常见的状态不是没告警,而是有两套甚至三套并行运行的告警系统,渠道交叉、规则重叠、silence 写得到处都是。本文给出从混乱状态收敛成统一治理的完整路径,包含可直接 1:1 复制部署的全量 yaml、脚本与配置。
告警带图实战:Grafana Render + 钉钉推送趋势图2025-12-23·1160 字·6 分钟收到告警只有一行数字,还要登录 Grafana 才能看趋势图——这是告警体验最大的痛点之一。本文介绍如何将 Grafana Image Renderer 与 Alertmanager Webhook 结合,实现告警消息自动附带趋势图的完整方案。
Prometheus 进程监控:process-exporter 实战与告警配置2025-12-18·914 字·5 分钟K8s 有完善的 Pod 监控体系,但裸机和 VM 上运行的进程如何监控?本文介绍 process-exporter 的部署与配置实践,覆盖进程组匹配、核心指标、告警规则设计及实际踩坑经验。
Prometheus 高基数治理实战:从 8 亿 series 到可控增长2025-09-28·1581 字·8 分钟高基数是 Prometheus 生态里最常见的性能杀手。这篇把「为什么发生、怎么发现、怎么治理」讲清楚,并给出一套可推广的组织治理方案。
Kiali 服务网格可观测性实战:从拓扑图到告警联动2025-08-12·1061 字·5 分钟Kiali 不只是画拓扑图的工具,它是服务网格的诊断中心。本文把 Kiali 2.x 在生产中的配置、用法、踩坑都写清楚。
Cilium Hubble 实战:用 eBPF 看透 Kubernetes 网络2025-07-30·1261 字·6 分钟Cilium Hubble 是 Kubernetes 下最接近交换机镜像端口的东西。本文讲清楚它的架构、关键配置和生产上如何读 flow 定位网络问题。
VictoriaMetrics:比 Prometheus 更省资源的监控存储方案2025-07-28·516 字·3 分钟Prometheus 撑不住了?本文对比 VictoriaMetrics 与 Prometheus 的核心差异,介绍 remote_write 无缝迁移方案,以及 VM 在资源占用、压缩率、查询性能上的实际提升。
Thanos 实战:多 K8s 集群 Prometheus 统一监控与长期存储2025-07-26·931 字·5 分钟记录我们将三套 EKS 集群的独立 Prometheus 迁移到 Thanos 统一监控体系的全过程,重点覆盖选型决策、生产配置和踩坑总结。
OpenTelemetry 落地实践:统一采集 Traces、Metrics、Logs2025-07-20·794 字·4 分钟从为什么选 OpenTelemetry 讲起,给出 DaemonSet + Gateway 的 Collector 部署架构、关键配置和实际踩坑记录。
Grafana Tempo 大规模分布式追踪实战:从 OTel 接入到 TraceQL 调优2025-07-16·1563 字·8 分钟Tempo 是目前最便宜的分布式追踪后端。本文把架构、接入、TraceQL、tail sampling、成本优化、事故案例都串起来,供团队直接抄作业。