Kafka 运维实战:消息堆积排查、分区再平衡与监控体系2025-04-07·876 字·5 分钟系统梳理 Kafka 运维核心技能:消费者延迟监控告警、消息堆积根因分析、分区扩容规划、Rebalance 风暴处理,以及 KEDA 基于 lag 自动扩缩的配置实践。
Grafana API 自动化:用代码管理 Dashboard、数据源和告警2025-03-18·1550 字·8 分钟手动点 UI 管理 Grafana Dashboard 在多环境场景下是噩梦。用 API 把 Dashboard 代码化,实现版本控制和环境同步,才是正确姿势。本文提供完整的 Python 工具脚本和实战踩坑。
Prometheus 服务发现深度解析:kubernetes_sd_configs 实战2025-03-15·1137 字·6 分钟在 K8s 环境里手动维护 Prometheus scrape targets 是不现实的,kubernetes_sd_configs 配合 relabel_configs 是解决这个问题的核心机制。本文从原理到实践,把这套体系讲透。
Kubernetes 日志采集方案选型:从技术对比到生产落地2025-02-25·668 字·4 分钟记录我们团队从无到有建立 Kubernetes 日志采集系统的完整历程,最终选择 Fluent Bit + Fluentd + Elasticsearch 方案的技术依据,以及生产环境踩过的那些坑。
可观测性建设:从 Prometheus 采集到 Grafana 告警联动2024-12-06·861 字·5 分钟可观测性不是装几个监控工具,而是让系统在出问题时能快速定位根因。这篇文章从采集架构到 PromQL 到告警路由,覆盖我们在生产环境中实际遇到的 cardinality 爆炸、告警噪音等问题。