跳过正文

Kubernetes

Istio Ambient Mode 无 Sidecar 服务网格实践

Istio Ambient Mode 无 Sidecar 服务网格实践

·1464 字·7 分钟
Sidecar 模式已经陪我们走了六七年,但它的问题也越来越难以忽视。Ambient Mode 不是缝缝补补,而是从架构层面重新设计了服务网格的数据面。本文从实际运维视角深入拆解 ztunnel + Waypoint 两层架构,并给出从 Sidecar 迁移到 Ambient 的完整路径。
Kubernetes GPU 调度实战:AI 训练与推理基础设施

Kubernetes GPU 调度实战:AI 训练与推理基础设施

·1926 字·10 分钟
GPU 是 AI 基础设施的核心资源,如何在 Kubernetes 上高效调度和管理 GPU 直接影响训练效率和推理成本。本文从底层驱动安装到上层调度策略,完整覆盖 K8s GPU 基础设施的搭建、监控和优化实践。
Cilium NetworkPolicy 与 L7 过滤生产落地实战

Cilium NetworkPolicy 与 L7 过滤生产落地实战

·1646 字·8 分钟
一份基于 Cilium 1.16+ 的生产落地笔记:讲清楚 Kubernetes NetworkPolicy 的局限、CiliumNetworkPolicy 的扩展能力、L7 HTTP/Kafka/DNS 过滤的真实用法、Hubble 可观测性、策略开发方法论,以及多集群 ClusterMesh 场景下的策略治理。
CoreDNS 深度排障:K8s DNS 问题完全指南

CoreDNS 深度排障:K8s DNS 问题完全指南

·1064 字·5 分钟
DNS 问题是 K8s 中最难定位的问题之一,因为它的失败往往是间歇性的、有延迟的,看起来像网络问题,实际上是 DNS 超时。本文记录了我在生产环境排查过的多类 DNS 故障,附详细的抓包分析和调优配置。
TCP/IP 网络排障:抓包与连接问题诊断

TCP/IP 网络排障:抓包与连接问题诊断

·1238 字·6 分钟
网络问题排查的核心是「眼见为实」,没有抓包的排障都是猜测。本文系统梳理了 tcpdump 的实战用法、TCP 连接状态机分析、conntrack 追踪,以及 Kubernetes 中 NodePort/LoadBalancer 的典型网络故障定位方法。
混沌工程实战:Chaos Mesh 在 K8s 中注入故障

混沌工程实战:Chaos Mesh 在 K8s 中注入故障

·809 字·4 分钟
混沌工程不是破坏系统,而是在可控环境中提前暴露脆弱点。本文记录了我用 Chaos Mesh 在生产级 K8s 集群中设计并执行混沌演练的完整过程,包括安装、实验配置、Workflow 编排和游戏日流程设计。
OPA/Kyverno:K8s 准入控制策略实战

OPA/Kyverno:K8s 准入控制策略实战

·895 字·5 分钟
没有准入控制的 K8s 集群就像一个没有门卫的机房——任何人都能随意进出。本文记录了我在多个生产集群部署 Kyverno 策略的实战经验,涵盖资源限制强制、镜像来源白名单、标签规范、以及与 OPA Gatekeeper 的对比选型思路。