Cilium Hubble 实战:用 eBPF 看透 Kubernetes 网络2025-07-30·1261 字·6 分钟Cilium Hubble 是 Kubernetes 下最接近交换机镜像端口的东西。本文讲清楚它的架构、关键配置和生产上如何读 flow 定位网络问题。
VictoriaMetrics:比 Prometheus 更省资源的监控存储方案2025-07-28·516 字·3 分钟Prometheus 撑不住了?本文对比 VictoriaMetrics 与 Prometheus 的核心差异,介绍 remote_write 无缝迁移方案,以及 VM 在资源占用、压缩率、查询性能上的实际提升。
Thanos 实战:多 K8s 集群 Prometheus 统一监控与长期存储2025-07-26·931 字·5 分钟记录我们将三套 EKS 集群的独立 Prometheus 迁移到 Thanos 统一监控体系的全过程,重点覆盖选型决策、生产配置和踩坑总结。
OpenTelemetry 落地实践:统一采集 Traces、Metrics、Logs2025-07-20·794 字·4 分钟从为什么选 OpenTelemetry 讲起,给出 DaemonSet + Gateway 的 Collector 部署架构、关键配置和实际踩坑记录。
Grafana Tempo 大规模分布式追踪实战:从 OTel 接入到 TraceQL 调优2025-07-16·1563 字·8 分钟Tempo 是目前最便宜的分布式追踪后端。本文把架构、接入、TraceQL、tail sampling、成本优化、事故案例都串起来,供团队直接抄作业。
可观测性三支柱实战:Metrics/Logs/Traces 联动2025-07-14·1110 字·6 分钟监控告诉你系统挂了,可观测性告诉你为什么挂。本文从三支柱的核心差异出发,讲透 Prometheus+Loki+Tempo 的联动排障流程,覆盖 OpenTelemetry 采集标准、Exemplar 原理与配置,以及可观测性建设的优先级策略。
分布式链路追踪实战:Jaeger 与 Tempo 选型对比2025-07-10·2304 字·11 分钟系统梳理 Jaeger 与 Tempo 的架构差异与适用场景,结合 OpenTelemetry SDK 插桩、TraceQL 查询、采样策略和 Traces/Metrics/Logs 关联,给出可落地的生产实战方案。
Pyroscope 持续性能剖析生产实战:给每一行代码一个性能画像2025-07-02·1433 字·7 分钟为什么 metrics/logs/traces 之外还需要 profiling,它解决的是什么问题,Pyroscope 的架构是什么,怎样以 2%~5% overhead 把它铺到整个 K8s 集群。
Grafana Mimir 长期指标存储实战:从单集群 Prometheus 到 10 亿级 series2025-06-18·1681 字·8 分钟从一套 Prometheus HA pair 起步,一路扩到跨三地多活 Mimir,把 series 数从千万推到十亿级。本文把架构、配置、监控、事故按顺序讲清楚。
Loki 架构深度解析:从写入路径到 PB 级日志查询优化2025-06-05·1619 字·8 分钟围绕 Loki 3.x 架构拆解写入、索引、查询三条链路,给出 schema_config、compactor、bloom、TSDB 的可直接复用配置,并复盘两次线上事故带来的调参经验。