Prometheus + Grafana + Loki 可观测性体系建设2025-12-08·1780 字·9 分钟记录在多套 K8s 集群上建立统一可观测性平台的实践经验,包含 Prometheus 采集配置、告警规则设计、Grafana Dashboard 组织方式,以及跨集群日志聚合的 Loki 部署方案。
OpenTelemetry 落地实践:统一采集 Traces、Metrics、Logs2025-07-20·794 字·4 分钟从为什么选 OpenTelemetry 讲起,给出 DaemonSet + Gateway 的 Collector 部署架构、关键配置和实际踩坑记录。
可观测性三支柱实战:Metrics/Logs/Traces 联动2025-07-14·1110 字·6 分钟监控告诉你系统挂了,可观测性告诉你为什么挂。本文从三支柱的核心差异出发,讲透 Prometheus+Loki+Tempo 的联动排障流程,覆盖 OpenTelemetry 采集标准、Exemplar 原理与配置,以及可观测性建设的优先级策略。
Loki 架构深度解析:从写入路径到 PB 级日志查询优化2025-06-05·1619 字·8 分钟围绕 Loki 3.x 架构拆解写入、索引、查询三条链路,给出 schema_config、compactor、bloom、TSDB 的可直接复用配置,并复盘两次线上事故带来的调参经验。
多集群 Kubernetes 运维:跨集群管理与统一可观测2025-05-21·1202 字·6 分钟从单集群到多集群,运维复杂度不是线性增加,而是指数级。这篇文章总结了我们管理跨地域、跨环境多套 K8s 集群的实际经验:如何用 ArgoCD ApplicationSet 统一部署、如何用 Thanos 聚合多集群指标、以及一次真实的跨集群迁移过程。
Kubernetes 日志采集方案选型:从技术对比到生产落地2025-02-25·668 字·4 分钟记录我们团队从无到有建立 Kubernetes 日志采集系统的完整历程,最终选择 Fluent Bit + Fluentd + Elasticsearch 方案的技术依据,以及生产环境踩过的那些坑。