用 Go 写 K8s 运维工具:client-go 实战2025-08-25·1372 字·7 分钟kubectl 能解决 80% 的日常问题,剩下 20% 需要你自己写工具。本文用实际可运行的 Go 代码,展示如何用 client-go 构建批量重启 Deployment、Pod 资源报告、过期 ConfigMap 清理等运维工具,并用 cobra 封装成 CLI。
AWS EKS 生产实践:网络、安全与多集群管理2025-08-22·792 字·4 分钟管理多套 EKS 集群两年下来,踩了不少坑。本文系统整理网络选型、IAM 权限、节点管理、集群升级、安全加固和成本控制这六个核心话题,每个话题都有具体配置示例和实际遇到的问题。
Kubernetes 成本优化实战:系统性降本的四条路径2025-08-18·1066 字·6 分钟真实的降本案例:从发现成本异常到分析根因,通过 Karpenter 节点弹性伸缩、资源请求规格治理、大机型收敛等手段,系统性降低 AWS EC2 成本。包含具体配置和执行思路。
云原生转型实践:从传统运维到 K8s 的迁移经验2025-08-14·653 字·4 分钟这是一篇个人经验向的文章,记录了从传统虚拟机运维转向 Kubernetes 的全过程:为什么要迁移、迁移中踩了哪些坑、团队如何度过学习曲线,以及回头看哪些事情当时做对了。
平台工程实践:构建 Internal Developer Platform2025-08-10·1055 字·5 分钟平台工程不是给 DevOps 换个名字,而是把基础设施能力产品化——让开发者像用 SaaS 一样消费平台能力。这篇文章记录我们团队从 0 到 MVP 的六个月实践,包括 Backstage 落地、黄金路径设计、以及用 DORA 指标验证平台价值。
Cilium Hubble 实战:用 eBPF 看透 Kubernetes 网络2025-07-30·1261 字·6 分钟Cilium Hubble 是 Kubernetes 下最接近交换机镜像端口的东西。本文讲清楚它的架构、关键配置和生产上如何读 flow 定位网络问题。
Thanos 实战:多 K8s 集群 Prometheus 统一监控与长期存储2025-07-26·931 字·5 分钟记录我们将三套 EKS 集群的独立 Prometheus 迁移到 Thanos 统一监控体系的全过程,重点覆盖选型决策、生产配置和踩坑总结。
Kubernetes NetworkPolicy 网络隔离实战2025-06-15·2505 字·12 分钟系统讲解 Kubernetes NetworkPolicy 的工作机制与生产实战配置,覆盖 deny-all 基础模板、常见隔离场景、Cilium 扩展、多租户设计、测试验证方法及常见陷阱。
Helm 工程化实践:从 Chart 设计到多环境管理2025-06-14·1169 字·6 分钟基于生产踩坑经验,系统梳理 Helm Chart 结构设计、_helpers.tpl 复用技巧、多环境 values 管理策略、私有 Harbor 仓库推送流程,以及 –atomic 升级与回滚的正确姿势。
Karpenter 深度解析:下一代 K8s 节点自动扩缩2025-06-11·842 字·4 分钟从 Cluster Autoscaler 迁移到 Karpenter 之后,集群扩容速度和节点利用率都有明显提升。本文详细拆解 Karpenter 的核心机制、关键配置项,以及在多套生产集群运行中踩过的坑。