Istio Ambient Mode 无 Sidecar 服务网格实践2025-11-08·1464 字·7 分钟Sidecar 模式已经陪我们走了六七年,但它的问题也越来越难以忽视。Ambient Mode 不是缝缝补补,而是从架构层面重新设计了服务网格的数据面。本文从实际运维视角深入拆解 ztunnel + Waypoint 两层架构,并给出从 Sidecar 迁移到 Ambient 的完整路径。
Kubernetes GPU 调度实战:AI 训练与推理基础设施2025-11-05·1926 字·10 分钟GPU 是 AI 基础设施的核心资源,如何在 Kubernetes 上高效调度和管理 GPU 直接影响训练效率和推理成本。本文从底层驱动安装到上层调度策略,完整覆盖 K8s GPU 基础设施的搭建、监控和优化实践。
Cilium NetworkPolicy 与 L7 过滤生产落地实战2025-10-31·1646 字·8 分钟一份基于 Cilium 1.16+ 的生产落地笔记:讲清楚 Kubernetes NetworkPolicy 的局限、CiliumNetworkPolicy 的扩展能力、L7 HTTP/Kafka/DNS 过滤的真实用法、Hubble 可观测性、策略开发方法论,以及多集群 ClusterMesh 场景下的策略治理。
CoreDNS 深度排障:K8s DNS 问题完全指南2025-10-29·1064 字·5 分钟DNS 问题是 K8s 中最难定位的问题之一,因为它的失败往往是间歇性的、有延迟的,看起来像网络问题,实际上是 DNS 超时。本文记录了我在生产环境排查过的多类 DNS 故障,附详细的抓包分析和调优配置。
TCP/IP 网络排障:抓包与连接问题诊断2025-10-21·1238 字·6 分钟网络问题排查的核心是「眼见为实」,没有抓包的排障都是猜测。本文系统梳理了 tcpdump 的实战用法、TCP 连接状态机分析、conntrack 追踪,以及 Kubernetes 中 NodePort/LoadBalancer 的典型网络故障定位方法。
Elasticsearch 集群部署实战:ECK 在 K8s 上的生产级配置2025-09-19·873 字·5 分钟从集群角色规划到 ECK Operator 落地,结合生产环境踩坑经验,完整讲解 Elasticsearch 在 Kubernetes 上的生产级部署方案。
eBPF 可观测性实践:Cilium 网络监控与 Tetragon 安全审计2025-09-17·580 字·3 分钟eBPF 正在重塑云原生可观测性的底层基础。本文记录在 K8s 集群中落地 Cilium + Hubble 网络监控和 Tetragon 安全审计的实践经验。
混沌工程实战:Chaos Mesh 在 K8s 中注入故障2025-09-13·809 字·4 分钟混沌工程不是破坏系统,而是在可控环境中提前暴露脆弱点。本文记录了我用 Chaos Mesh 在生产级 K8s 集群中设计并执行混沌演练的完整过程,包括安装、实验配置、Workflow 编排和游戏日流程设计。
OPA/Kyverno:K8s 准入控制策略实战2025-09-11·895 字·5 分钟没有准入控制的 K8s 集群就像一个没有门卫的机房——任何人都能随意进出。本文记录了我在多个生产集群部署 Kyverno 策略的实战经验,涵盖资源限制强制、镜像来源白名单、标签规范、以及与 OPA Gatekeeper 的对比选型思路。
供应链安全:Trivy 镜像扫描 + Cosign 签名验证实践2025-09-06·727 字·4 分钟你的镜像安全吗?本文梳理容器供应链的主要攻击面,手把手演示 Trivy 扫描、Cosign 签名、K8s 准入控制三层防护的搭建过程,并给出 GitLab CI 集成示例。