跳过正文

Kubernetes

Kubernetes 存储体系生产实践:PV/PVC/StorageClass 全解

Kubernetes 存储体系生产实践:PV/PVC/StorageClass 全解

·1000 字·5 分钟
从存储基础概念到生产实战,覆盖 StorageClass 动态供给配置、AWS EBS 和 EFS CSI 驱动安装、StatefulSet 存储管理、PVC 在线扩容操作、跨 AZ 挂载失败排查,以及有状态服务数据迁移方案。
自研 Kubernetes Admission Webhook 开发实战:从零到生产

自研 Kubernetes Admission Webhook 开发实战:从零到生产

·1805 字·9 分钟
Kubernetes 的 admission 体系是一个强大但脆弱的扩展点。webhook 挂了能让集群所有 Pod 创建卡死。写一个能上生产的 webhook 不难,但要让它在面对各种怪异请求、证书轮换、集群升级、大流量突发时都不挂,就是另一回事了。这是一份从零到生产的工程笔记。
Descheduler 深度实战:Kubernetes 自动再平衡的正确打开方式

Descheduler 深度实战:Kubernetes 自动再平衡的正确打开方式

·1507 字·8 分钟
kube-scheduler 只在 Pod 创建那一刻做决策,之后集群状态变了它就不管了。几个月下来,你的集群会变成 hot node + cold node 混杂、同一个 Deployment 的 Pod 全挤在一个 node、failure-domain 完全失衡。Descheduler 就是把调度决策后置、周期性重新评估的那只手。
Kueue 批处理调度实战:让 Kubernetes 真正承担 AI/HPC 工作负载

Kueue 批处理调度实战:让 Kubernetes 真正承担 AI/HPC 工作负载

·1566 字·8 分钟
把 AI 训练任务塞进 Kubernetes,第一天你会发现原生调度器完全不够用:没有队列、没有 quota、没有 gang scheduling、没有公平共享、preemption 语义一塌糊涂。Kueue 是 sig-scheduling 官方给出的答案,它比 Volcano 更贴近 Kubernetes 原生、比自研 controller 更成熟。这是一份真实的生产笔记。