多云中间件横向速查与跨环境隔离实战2026-04-18·1781 字·9 分钟做多云运维最容易的事就是把 AWS 那套思维原样搬到阿里云,然后在某次故障里发现选型完全错位。本文整理了一份 AWS↔阿里云中间件横向对照表,附上跨环境隔离强制 checklist 和高频运维命令速查,是我自己工作中反复回查的一份速记。
故障排查实录:Terway CRD IPAM IP 泄漏导致 Pod 无法调度2026-04-07·1002 字·5 分钟一次真实的连锁故障:节点磁盘告警 → Pod 被驱逐 → Terway IPAM IP 未正常回收 → 节点 ENI IP 耗尽 → 新 Pod 无法调度。排查链路、根因分析与修复方案完整记录。
阿里云 SDK 运维自动化:ECS/ACK/RDS 资源管理与巡检脚本2025-12-04·1220 字·6 分钟用阿里云 Python SDK 实现 ECS 实例查询与监控、ACK 节点状态检查、RDS 慢查询巡检,整合成 HTML 格式巡检报告自动推送钉钉。
OpenTofu 实战:开源 Terraform 管理 AWS 和阿里云基础设施2025-06-18·1106 字·6 分钟Terraform 改协议了,OpenTofu 是开源的替代。本文介绍 OpenTofu 核心概念,并给出创建 AWS EKS 和阿里云 ACK 的完整配置示例,以及 State 管理、Module 复用和 Atlantis GitOps 集成方案。