跳过正文

Kubernetes

自研 Kubernetes Admission Webhook 开发实战:从零到生产

自研 Kubernetes Admission Webhook 开发实战:从零到生产

·1805 字·9 分钟
Kubernetes 的 admission 体系是一个强大但脆弱的扩展点。webhook 挂了能让集群所有 Pod 创建卡死。写一个能上生产的 webhook 不难,但要让它在面对各种怪异请求、证书轮换、集群升级、大流量突发时都不挂,就是另一回事了。这是一份从零到生产的工程笔记。
Cluster API 实战:用声明式的方式管理 Kubernetes 集群的生命周期

Cluster API 实战:用声明式的方式管理 Kubernetes 集群的生命周期

·1629 字·8 分钟
用 Terraform 建集群是起手式,但集群一旦多起来 Terraform 的代码量和状态管理开始爆炸。Cluster API 把’集群’本身做成了 Kubernetes CRD——你在 Management Cluster 里 kubectl apply 一个 Cluster 对象,就能得到一个新集群。这是 Kubernetes 治理 Kubernetes 的一种优雅解法。
KubeVirt 生产实战:在 Kubernetes 上跑虚拟机的完整路线

KubeVirt 生产实战:在 Kubernetes 上跑虚拟机的完整路线

·1682 字·8 分钟
Broadcom 吃掉 VMware 之后,VMware 替代方案成了所有基础设施团队的议题。KubeVirt 1.8 已经是个相当成熟的选择,能在 Kubernetes 里跑真正的 VM——不是轻量容器、不是 microVM,是完整的 Windows/Linux VM。这是一年多的实战笔记。
Descheduler 深度实战:Kubernetes 自动再平衡的正确打开方式

Descheduler 深度实战:Kubernetes 自动再平衡的正确打开方式

·1507 字·8 分钟
kube-scheduler 只在 Pod 创建那一刻做决策,之后集群状态变了它就不管了。几个月下来,你的集群会变成 hot node + cold node 混杂、同一个 Deployment 的 Pod 全挤在一个 node、failure-domain 完全失衡。Descheduler 就是把调度决策后置、周期性重新评估的那只手。
Kueue 批处理调度实战:让 Kubernetes 真正承担 AI/HPC 工作负载

Kueue 批处理调度实战:让 Kubernetes 真正承担 AI/HPC 工作负载

·1566 字·8 分钟
把 AI 训练任务塞进 Kubernetes,第一天你会发现原生调度器完全不够用:没有队列、没有 quota、没有 gang scheduling、没有公平共享、preemption 语义一塌糊涂。Kueue 是 sig-scheduling 官方给出的答案,它比 Volcano 更贴近 Kubernetes 原生、比自研 controller 更成熟。这是一份真实的生产笔记。
vcluster 虚拟集群实战:比 namespace 强一百倍的多租户方案

vcluster 虚拟集群实战:比 namespace 强一百倍的多租户方案

·1391 字·7 分钟
namespace 不是隔离边界,它只是一层命名约定。ClusterRole、CRD、webhook、LimitRange 全都穿透 namespace。真正的多租户需要每个租户有自己的 kube-apiserver。vcluster 让这件事便宜到几乎免费——一个 namespace 里起一个完整的 Kubernetes 控制平面。