Istio Ambient Mode 无 Sidecar 服务网格实践2025-11-08·1464 字·7 分钟Sidecar 模式已经陪我们走了六七年,但它的问题也越来越难以忽视。Ambient Mode 不是缝缝补补,而是从架构层面重新设计了服务网格的数据面。本文从实际运维视角深入拆解 ztunnel + Waypoint 两层架构,并给出从 Sidecar 迁移到 Ambient 的完整路径。
eBPF 可观测性实践:Cilium 网络监控与 Tetragon 安全审计2025-09-17·580 字·3 分钟eBPF 正在重塑云原生可观测性的底层基础。本文记录在 K8s 集群中落地 Cilium + Hubble 网络监控和 Tetragon 安全审计的实践经验。
Crossplane:用 GitOps 方式管理云资源(AWS/阿里云)2025-06-26·655 字·4 分钟Crossplane 把 AWS RDS、S3、EKS 变成 K8s CRD,用 GitOps 方式持续协调云资源状态。记录从概念到落地的实践过程和踩坑经验。
Karmada 多集群联邦实战:PropagationPolicy、OverridePolicy 与 FailOver 的真实用法2025-03-02·1262 字·6 分钟如果你有 2 个以上 Kubernetes 集群,跨集群发同一个应用这件事迟早成为你的日常。Karmada 是 CNCF 孵化项目里做多集群联邦最完整的一个,但它的 CRD 设计比较克制,生产要用得好,得理清资源分发、差异覆盖、调度和 failover 四层语义。
ExternalDNS 多云 DNS 同步实战:从 Route53 到 Cloudflare 再到阿里云 DNS2025-02-22·1206 字·6 分钟手工在 Cloudflare 控制台点 DNS 记录这件事,随着集群和业务增长最终必然崩溃。ExternalDNS 就是把 Kubernetes 资源当 source-of-truth、DNS provider 当执行器的一个 controller。但真要用好,你得理解 txtOwnerId、policy、provider 各自的限制以及跨集群共享 zone 的几个坑。
cert-manager 生产级实战:从 Let's Encrypt 到企业内网 PKI 的完整路线2025-02-15·1569 字·8 分钟cert-manager 几乎是每个 Kubernetes 集群的标配,但真正跑到生产的团队都会遇到:Let’s Encrypt 限流被打爆、通配符证书续期失败、内部服务想要私有 CA、Istio / Gateway API 的证书怎么发。这篇把一年里我在 5 个集群上做 cert-manager 运维踩过的坑写成一份实操手册。
KEDA 事件驱动弹性伸缩实战:从 HPA 的尽头到真正按业务信号扩缩2025-02-08·1559 字·8 分钟HPA 只能看 CPU/内存,但生产环境真正的扩缩信号往往是 Kafka lag、RabbitMQ 队列深度、Prometheus 自定义指标、甚至 cron。本文把 KEDA 的架构、核心 CRD、常见 scaler 的坑和运维动作写成一份资深工程师的备忘录,不讲理论,只讲什么样的配置能在凌晨 3 点把你从告警里救出来。