跳过正文

Kafka

Playbook:AWS MSK Serverless 迁回 Provisioned——什么时候、为什么、怎么迁

Playbook:AWS MSK Serverless 迁回 Provisioned——什么时候、为什么、怎么迁

·3870 字·19 分钟
MSK Serverless 看似按用量付费,实际上有一个常被忽视的最低消费层级:每个集群每月固定 $540 起、每个活跃消费者 IAM principal 还要按小时另收。对于流量长期 « 1MB/s 的非生产环境,月费可以是同等吞吐 Provisioned 集群的 5-7 倍。本文记录将 4 个非生产环境从 MSK Serverless 迁回 Provisioned(kafka.t3.small × 2)的完整流程:成本计算脚本、aws kafka create-cluster 完整 JSON、IRSA 三 role 拆分、Java/Go/Python 三栈客户端配置、双集群双写五阶段切换、Schema Registry 导出导入、回滚脚本,以及踩过的多 IRSA、sarama、broker 数不可缩、Schema Registry 漏迁五个坑。
Playbook:新建子环境的隔离 checklist——一次 ID 撞车污染 10 万条数据的事故复盘

Playbook:新建子环境的隔离 checklist——一次 ID 撞车污染 10 万条数据的事故复盘

·4626 字·22 分钟
一个共用 RabbitMQ broker、共用 Aurora cluster、自增 id 都从 1 起步的新子环境上线 24 天,向已有环境的老用户项目里灌入了约 10 万条不属于他们的消息。本文复盘事故根因(4 件套同时成立才会爆雷),对比三种隔离方案的成本与风险,给出推荐架构(独立中间件 + 共享集群 + ID 起点错开),并把 7 条强制 checklist 沉淀为新子环境上线门槛,附完整可执行的 aws cli / kubectl / SQL / Go 中间件代码。
多云中间件横向速查与跨环境隔离实战

多云中间件横向速查与跨环境隔离实战

·1781 字·9 分钟
做多云运维最容易的事就是把 AWS 那套思维原样搬到阿里云,然后在某次故障里发现选型完全错位。本文整理了一份 AWS↔阿里云中间件横向对照表,附上跨环境隔离强制 checklist 和高频运维命令速查,是我自己工作中反复回查的一份速记。
Zookeeper 运维实战:集群部署、调优与故障排查

Zookeeper 运维实战:集群部署、调优与故障排查

·2381 字·12 分钟
系统梳理 Zookeeper 生产运维核心技能:ZNode 类型与 Watcher 机制、ZAB 选举算法、3/5 节点集群部署配置、JVM 与 zoo.cfg 调优、四字命令实战诊断、常见故障处理,以及与 Kafka KRaft 模式的关系和云原生场景下的定位。