云原生转型实践:从传统运维到 K8s 的迁移经验2025-08-14·653 字·4 分钟这是一篇个人经验向的文章,记录了从传统虚拟机运维转向 Kubernetes 的全过程:为什么要迁移、迁移中踩了哪些坑、团队如何度过学习曲线,以及回头看哪些事情当时做对了。
平台工程实践:构建 Internal Developer Platform2025-08-10·1055 字·5 分钟平台工程不是给 DevOps 换个名字,而是把基础设施能力产品化——让开发者像用 SaaS 一样消费平台能力。这篇文章记录我们团队从 0 到 MVP 的六个月实践,包括 Backstage 落地、黄金路径设计、以及用 DORA 指标验证平台价值。
DORA 指标与平台工程效能度量:用数据驱动 DevOps 改进2025-07-12·747 字·4 分钟DORA 四个指标不是考核工具,是诊断工具。从 CI/CD 流水线和 Incident 系统采集数据,找到部署频率低、前置时间长的真实原因,然后用平台工程手段系统性改进。本文给出采集方案、Grafana 看板设计和常见误用陷阱。
OpenTofu 实战:开源 Terraform 管理 AWS 和阿里云基础设施2025-06-18·1106 字·6 分钟Terraform 改协议了,OpenTofu 是开源的替代。本文介绍 OpenTofu 核心概念,并给出创建 AWS EKS 和阿里云 ACK 的完整配置示例,以及 State 管理、Module 复用和 Atlantis GitOps 集成方案。
Helm 工程化实践:从 Chart 设计到多环境管理2025-06-14·1169 字·6 分钟基于生产踩坑经验,系统梳理 Helm Chart 结构设计、_helpers.tpl 复用技巧、多环境 values 管理策略、私有 Harbor 仓库推送流程,以及 –atomic 升级与回滚的正确姿势。
GitOps 落地实战:ArgoCD + Kustomize 多环境管理2025-06-03·730 字·4 分钟GitOps 不只是「把配置放 Git 里」,真正落地需要解决 overlay 结构设计、ApplicationSet 管理多集群、image updater 自动化,以及 sync wave、resource hook 这些细节。这篇文章记录我们团队从传统 CI/CD 迁移到 GitOps 的实际过程。
业务上云实战:传统应用容器化迁移的踩坑与经验2025-05-19·913 字·5 分钟把一批跑在虚拟机上的 Java 应用迁移到 Kubernetes,踩过的坑比想象中多。本文记录整个迁移过程的关键决策和教训。
从 Nginx Ingress 迁移到 Traefik:为什么换,怎么换2025-04-27·643 字·4 分钟从实际痛点出发,讲清楚 Traefik 和 Nginx Ingress 的本质区别,给出可直接参考的迁移路径和配置示例。
Harbor 镜像仓库生产运维:高可用、安全扫描与 CI/CD 集成2025-02-18·2347 字·12 分钟从 Harbor 架构原理出发,系统梳理生产环境中高可用部署方案、镜像安全扫描策略、跨区域复制配置、权限体系设计,以及与 Jenkins/GitLab CI 的集成实践,附故障排查手册与 Prometheus 监控配置。
Ansible 批量运维自动化:从临时命令到 Role 工程化2025-02-12·1338 字·7 分钟Ansible 无 Agent、SSH 推送、幂等性三大特性让它成为 Linux 批量运维的利器。本文从入门用法到 Role 工程化实践,梳理了日常运维中高频场景的完整操作思路和踩坑经验。