RabbitMQ 运维实战:集群部署、消费者可靠性与监控体系2025-04-22·1852 字·9 分钟系统梳理 RabbitMQ 运维核心技能:Quorum Queue 集群部署与镜像队列对比、生产配置调优、消费者 prefetch 与死信队列配置、基于 Management API 和 rabbitmq_exporter 的监控体系,以及消息堆积、脑裂等常见故障的处理方案。
Celery 异步任务详解:任务队列、重试策略与分布式部署2025-04-22·803 字·4 分钟从 Celery 架构到 K8s 部署,覆盖任务定义、重试策略、队列路由、Beat 定时任务和 Flower 监控,附完整的生产部署配置。
Kafka 运维实战:消息堆积排查、分区再平衡与监控体系2025-04-07·876 字·5 分钟系统梳理 Kafka 运维核心技能:消费者延迟监控告警、消息堆积根因分析、分区扩容规划、Rebalance 风暴处理,以及 KEDA 基于 lag 自动扩缩的配置实践。
KEDA 事件驱动弹性伸缩实战:从 HPA 的尽头到真正按业务信号扩缩2025-02-08·1559 字·8 分钟HPA 只能看 CPU/内存,但生产环境真正的扩缩信号往往是 Kafka lag、RabbitMQ 队列深度、Prometheus 自定义指标、甚至 cron。本文把 KEDA 的架构、核心 CRD、常见 scaler 的坑和运维动作写成一份资深工程师的备忘录,不讲理论,只讲什么样的配置能在凌晨 3 点把你从告警里救出来。