自研 Kubernetes Admission Webhook 开发实战:从零到生产2025-04-12·1805 字·9 分钟Kubernetes 的 admission 体系是一个强大但脆弱的扩展点。webhook 挂了能让集群所有 Pod 创建卡死。写一个能上生产的 webhook 不难,但要让它在面对各种怪异请求、证书轮换、集群升级、大流量突发时都不挂,就是另一回事了。这是一份从零到生产的工程笔记。
Cluster API 实战:用声明式的方式管理 Kubernetes 集群的生命周期2025-04-05·1629 字·8 分钟用 Terraform 建集群是起手式,但集群一旦多起来 Terraform 的代码量和状态管理开始爆炸。Cluster API 把’集群’本身做成了 Kubernetes CRD——你在 Management Cluster 里 kubectl apply 一个 Cluster 对象,就能得到一个新集群。这是 Kubernetes 治理 Kubernetes 的一种优雅解法。
KubeVirt 生产实战:在 Kubernetes 上跑虚拟机的完整路线2025-03-29·1682 字·8 分钟Broadcom 吃掉 VMware 之后,VMware 替代方案成了所有基础设施团队的议题。KubeVirt 1.8 已经是个相当成熟的选择,能在 Kubernetes 里跑真正的 VM——不是轻量容器、不是 microVM,是完整的 Windows/Linux VM。这是一年多的实战笔记。
Descheduler 深度实战:Kubernetes 自动再平衡的正确打开方式2025-03-22·1507 字·8 分钟kube-scheduler 只在 Pod 创建那一刻做决策,之后集群状态变了它就不管了。几个月下来,你的集群会变成 hot node + cold node 混杂、同一个 Deployment 的 Pod 全挤在一个 node、failure-domain 完全失衡。Descheduler 就是把调度决策后置、周期性重新评估的那只手。
Kueue 批处理调度实战:让 Kubernetes 真正承担 AI/HPC 工作负载2025-03-15·1566 字·8 分钟把 AI 训练任务塞进 Kubernetes,第一天你会发现原生调度器完全不够用:没有队列、没有 quota、没有 gang scheduling、没有公平共享、preemption 语义一塌糊涂。Kueue 是 sig-scheduling 官方给出的答案,它比 Volcano 更贴近 Kubernetes 原生、比自研 controller 更成熟。这是一份真实的生产笔记。
Prometheus 服务发现深度解析:kubernetes_sd_configs 实战2025-03-15·1137 字·6 分钟在 K8s 环境里手动维护 Prometheus scrape targets 是不现实的,kubernetes_sd_configs 配合 relabel_configs 是解决这个问题的核心机制。本文从原理到实践,把这套体系讲透。
vcluster 虚拟集群实战:比 namespace 强一百倍的多租户方案2025-03-08·1391 字·7 分钟namespace 不是隔离边界,它只是一层命名约定。ClusterRole、CRD、webhook、LimitRange 全都穿透 namespace。真正的多租户需要每个租户有自己的 kube-apiserver。vcluster 让这件事便宜到几乎免费——一个 namespace 里起一个完整的 Kubernetes 控制平面。
EFK 日志系统实战:Fluent Bit + Fluentd + Elasticsearch 完整部署2025-03-05·1039 字·5 分钟讲清楚为什么要 Fluent Bit + Fluentd 两层架构,给出可直接参考的完整 ConfigMap 配置和 ES 索引模板设计。
Karmada 多集群联邦实战:PropagationPolicy、OverridePolicy 与 FailOver 的真实用法2025-03-02·1262 字·6 分钟如果你有 2 个以上 Kubernetes 集群,跨集群发同一个应用这件事迟早成为你的日常。Karmada 是 CNCF 孵化项目里做多集群联邦最完整的一个,但它的 CRD 设计比较克制,生产要用得好,得理清资源分发、差异覆盖、调度和 failover 四层语义。
Kubernetes 日志采集方案选型:从技术对比到生产落地2025-02-25·668 字·4 分钟记录我们团队从无到有建立 Kubernetes 日志采集系统的完整历程,最终选择 Fluent Bit + Fluentd + Elasticsearch 方案的技术依据,以及生产环境踩过的那些坑。