Thanos 实战:多 K8s 集群 Prometheus 统一监控与长期存储2025-07-26·931 字·5 分钟记录我们将三套 EKS 集群的独立 Prometheus 迁移到 Thanos 统一监控体系的全过程,重点覆盖选型决策、生产配置和踩坑总结。
多集群 Kubernetes 运维:跨集群管理与统一可观测2025-05-21·1202 字·6 分钟从单集群到多集群,运维复杂度不是线性增加,而是指数级。这篇文章总结了我们管理跨地域、跨环境多套 K8s 集群的实际经验:如何用 ArgoCD ApplicationSet 统一部署、如何用 Thanos 聚合多集群指标、以及一次真实的跨集群迁移过程。
Karmada 多集群联邦实战:PropagationPolicy、OverridePolicy 与 FailOver 的真实用法2025-03-02·1262 字·6 分钟如果你有 2 个以上 Kubernetes 集群,跨集群发同一个应用这件事迟早成为你的日常。Karmada 是 CNCF 孵化项目里做多集群联邦最完整的一个,但它的 CRD 设计比较克制,生产要用得好,得理清资源分发、差异覆盖、调度和 failover 四层语义。