Kubernetes

Kubernetes Operator 开发实战:Go + controller-runtime 完全指南
·2251 字·11 分钟
用 Go + controller-runtime 开发生产级 Kubernetes Operator 的完整实战指南。以 DatabaseCluster Operator 为例,深入讲解 CRD 设计、Reconcile 模式、Status Conditions、Finalizer 防孤儿资源、Leader Election、指标暴露、Webhook 验证,以及 envtest + Kind 测试策略。

Kubernetes 多租户方案深度对比:vCluster vs Capsule vs HNC
·1374 字·7 分钟
Namespace 级隔离远不够用。本文深入剖析 vCluster、Capsule、HNC 三种主流多租户方案的架构差异,给出完整的部署配置示例、隔离能力横向对比,以及 SaaS 平台、内部平台、开发环境三种场景下的选型建议。

零信任网络改造:从公网暴露到 Headscale VPN
·756 字·4 分钟
从发现公网暴露的安全隐患开始,到用 Headscale 自建零信任网络,替代跳板机体系,实现 kubectl 和运维系统的 VPN 接入。


Kubernetes GPU 调度实战:AI 训练与推理基础设施
·1926 字·10 分钟
GPU 是 AI 基础设施的核心资源,如何在 Kubernetes 上高效调度和管理 GPU 直接影响训练效率和推理成本。本文从底层驱动安装到上层调度策略,完整覆盖 K8s GPU 基础设施的搭建、监控和优化实践。

CoreDNS 深度排障:K8s DNS 问题完全指南
·1064 字·5 分钟
DNS 问题是 K8s 中最难定位的问题之一,因为它的失败往往是间歇性的、有延迟的,看起来像网络问题,实际上是 DNS 超时。本文记录了我在生产环境排查过的多类 DNS 故障,附详细的抓包分析和调优配置。

混沌工程实战:Chaos Mesh 在 K8s 中注入故障
·809 字·4 分钟
混沌工程不是破坏系统,而是在可控环境中提前暴露脆弱点。本文记录了我用 Chaos Mesh 在生产级 K8s 集群中设计并执行混沌演练的完整过程,包括安装、实验配置、Workflow 编排和游戏日流程设计。

OPA/Kyverno:K8s 准入控制策略实战
·895 字·5 分钟
没有准入控制的 K8s 集群就像一个没有门卫的机房——任何人都能随意进出。本文记录了我在多个生产集群部署 Kyverno 策略的实战经验,涵盖资源限制强制、镜像来源白名单、标签规范、以及与 OPA Gatekeeper 的对比选型思路。

Kubernetes 成本优化实战:系统性降本的四条路径
·1066 字·6 分钟
真实的降本案例:从发现成本异常到分析根因,通过 Karpenter 节点弹性伸缩、资源请求规格治理、大机型收敛等手段,系统性降低 AWS EC2 成本。包含具体配置和执行思路。
