可观测性三支柱实战:Metrics/Logs/Traces 联动2025-07-14·1110 字·6 分钟监控告诉你系统挂了,可观测性告诉你为什么挂。本文从三支柱的核心差异出发,讲透 Prometheus+Loki+Tempo 的联动排障流程,覆盖 OpenTelemetry 采集标准、Exemplar 原理与配置,以及可观测性建设的优先级策略。
分布式链路追踪实战:Jaeger 与 Tempo 选型对比2025-07-10·2304 字·11 分钟系统梳理 Jaeger 与 Tempo 的架构差异与适用场景,结合 OpenTelemetry SDK 插桩、TraceQL 查询、采样策略和 Traces/Metrics/Logs 关联,给出可落地的生产实战方案。
Pyroscope 持续性能剖析生产实战:给每一行代码一个性能画像2025-07-02·1433 字·7 分钟为什么 metrics/logs/traces 之外还需要 profiling,它解决的是什么问题,Pyroscope 的架构是什么,怎样以 2%~5% overhead 把它铺到整个 K8s 集群。
Grafana Mimir 长期指标存储实战:从单集群 Prometheus 到 10 亿级 series2025-06-18·1681 字·8 分钟从一套 Prometheus HA pair 起步,一路扩到跨三地多活 Mimir,把 series 数从千万推到十亿级。本文把架构、配置、监控、事故按顺序讲清楚。
Loki 架构深度解析:从写入路径到 PB 级日志查询优化2025-06-05·1619 字·8 分钟围绕 Loki 3.x 架构拆解写入、索引、查询三条链路,给出 schema_config、compactor、bloom、TSDB 的可直接复用配置,并复盘两次线上事故带来的调参经验。
Alertmanager Webhook 开发:自定义告警处理与 API 集成2025-03-25·1346 字·7 分钟Alertmanager 内置的通知渠道不支持钉钉、飞书等国内工具,Webhook 是扩展告警通知的标准方式。本文用 Python Flask 实现完整的 Webhook 接收器,涵盖消息格式化、降噪去重、Alertmanager API 集成和 K8s 部署。
Alertmanager 完全指南:路由、抑制、静默与多渠道通知2025-03-22·1332 字·7 分钟告警太多和告警太少一样有害。Alertmanager 的路由、抑制、分组机制是控制告警噪声的核心手段,本文从一个真实的多环境告警体系出发,讲清楚每个配置的意图和陷阱。
Grafana API 自动化:用代码管理 Dashboard、数据源和告警2025-03-18·1550 字·8 分钟手动点 UI 管理 Grafana Dashboard 在多环境场景下是噩梦。用 API 把 Dashboard 代码化,实现版本控制和环境同步,才是正确姿势。本文提供完整的 Python 工具脚本和实战踩坑。
Prometheus 服务发现深度解析:kubernetes_sd_configs 实战2025-03-15·1137 字·6 分钟在 K8s 环境里手动维护 Prometheus scrape targets 是不现实的,kubernetes_sd_configs 配合 relabel_configs 是解决这个问题的核心机制。本文从原理到实践,把这套体系讲透。
EFK 日志系统实战:Fluent Bit + Fluentd + Elasticsearch 完整部署2025-03-05·1039 字·5 分钟讲清楚为什么要 Fluent Bit + Fluentd 两层架构,给出可直接参考的完整 ConfigMap 配置和 ES 索引模板设计。