K8s Gateway API:告别 Ingress,拥抱下一代流量路由2025-05-12·593 字·3 分钟Gateway API 已经 GA,是时候认真考虑从 Ingress 迁移了。本文梳理 Gateway API 的设计理念、实际配置示例和迁移注意事项。
Kubernetes 存储体系生产实践:PV/PVC/StorageClass 全解2025-05-06·1000 字·5 分钟从存储基础概念到生产实战,覆盖 StorageClass 动态供给配置、AWS EBS 和 EFS CSI 驱动安装、StatefulSet 存储管理、PVC 在线扩容操作、跨 AZ 挂载失败排查,以及有状态服务数据迁移方案。
从 Nginx Ingress 迁移到 Traefik:为什么换,怎么换2025-04-27·643 字·4 分钟从实际痛点出发,讲清楚 Traefik 和 Nginx Ingress 的本质区别,给出可直接参考的迁移路径和配置示例。
ETCD 运维实战:部署、备份恢复与 K8s 集群数据管理2025-04-13·1158 字·6 分钟ETCD 是 Kubernetes 的命脉,所有集群状态都存储在这里。本文从实际运维角度梳理部署、备份、恢复和配置动态更新的完整操作链路,包含多个踩坑经验。
自研 Kubernetes Admission Webhook 开发实战:从零到生产2025-04-12·1805 字·9 分钟Kubernetes 的 admission 体系是一个强大但脆弱的扩展点。webhook 挂了能让集群所有 Pod 创建卡死。写一个能上生产的 webhook 不难,但要让它在面对各种怪异请求、证书轮换、集群升级、大流量突发时都不挂,就是另一回事了。这是一份从零到生产的工程笔记。
Descheduler 深度实战:Kubernetes 自动再平衡的正确打开方式2025-03-22·1507 字·8 分钟kube-scheduler 只在 Pod 创建那一刻做决策,之后集群状态变了它就不管了。几个月下来,你的集群会变成 hot node + cold node 混杂、同一个 Deployment 的 Pod 全挤在一个 node、failure-domain 完全失衡。Descheduler 就是把调度决策后置、周期性重新评估的那只手。
Kueue 批处理调度实战:让 Kubernetes 真正承担 AI/HPC 工作负载2025-03-15·1566 字·8 分钟把 AI 训练任务塞进 Kubernetes,第一天你会发现原生调度器完全不够用:没有队列、没有 quota、没有 gang scheduling、没有公平共享、preemption 语义一塌糊涂。Kueue 是 sig-scheduling 官方给出的答案,它比 Volcano 更贴近 Kubernetes 原生、比自研 controller 更成熟。这是一份真实的生产笔记。
Kubernetes 日志采集方案选型:从技术对比到生产落地2025-02-25·668 字·4 分钟记录我们团队从无到有建立 Kubernetes 日志采集系统的完整历程,最终选择 Fluent Bit + Fluentd + Elasticsearch 方案的技术依据,以及生产环境踩过的那些坑。
Kubernetes RBAC 安全加固实战:最小权限到 NetworkPolicy2025-01-24·971 字·5 分钟从真实安全事件出发,系统讲解 Kubernetes RBAC 最小权限设计、ClusterRole 与 Role 的适用场景、审计日志分析 RBAC 问题的方法,以及 NetworkPolicy 实现命名空间和 Pod 级别的网络隔离。
Kubernetes YAML 工程化:常用资源模板与生产最佳实践2025-01-19·951 字·5 分钟写好 Kubernetes YAML 不只是语法问题,更多是工程经验的沉淀。本文梳理了生产环境中常见的 YAML 反模式,并给出各类资源的完整可用模板。