跳过正文

Loki

Prometheus + Grafana + Loki 可观测性体系建设

·1780 字·9 分钟
记录在多套 K8s 集群上建立统一可观测性平台的实践经验,包含 Prometheus 采集配置、告警规则设计、Grafana Dashboard 组织方式,以及跨集群日志聚合的 Loki 部署方案。
可观测性三支柱实战:Metrics/Logs/Traces 联动

可观测性三支柱实战:Metrics/Logs/Traces 联动

·1110 字·6 分钟
监控告诉你系统挂了,可观测性告诉你为什么挂。本文从三支柱的核心差异出发,讲透 Prometheus+Loki+Tempo 的联动排障流程,覆盖 OpenTelemetry 采集标准、Exemplar 原理与配置,以及可观测性建设的优先级策略。
多集群 Kubernetes 运维:跨集群管理与统一可观测

多集群 Kubernetes 运维:跨集群管理与统一可观测

·1202 字·6 分钟
从单集群到多集群,运维复杂度不是线性增加,而是指数级。这篇文章总结了我们管理跨地域、跨环境多套 K8s 集群的实际经验:如何用 ArgoCD ApplicationSet 统一部署、如何用 Thanos 聚合多集群指标、以及一次真实的跨集群迁移过程。