职业时间线#
| 时间 | 阶段 | 关键词 |
|---|---|---|
| 2019 | 入行运维,从装系统开始 | Linux、Shell、手动部署 |
| 2020 | 接触容器化,第一次部署 K8s 集群 | Docker、Kubernetes、自建集群踩坑 |
| 2021 | 上云,开始管理 AWS EKS | EKS、ECS、IAM、EC2 费用第一次超预算 |
| 2022 | 引入 GitOps,基础设施开始版本化 | ArgoCD、Kustomize、多环境配置管理 |
| 2023 | 规模化:双云架构 + 多集群治理 | AWS + 阿里云 ACK、Karpenter 降本 |
| 2024 | 安全与可观测性补课,9 月开博客开始系统沉淀 | Cilium、gVisor、Loki 跨集群、零信任改造、Hugo 博客 |
| 2025 | AI 工具全面融入工作流 | Claude Code CLI、Cursor、LLM 运维自动化 |
| 2026 | 平台工程 + AI Agent 落地探索 | Platform Engineering、Agent 自动化运维 |
技术栈#
容器与编排#
Kubernetes Docker Helm Karpenter ArgoCD Kustomize Istio Argo Rollouts
云平台#
AWS EKS / EC2 / EFS / S3 / IAM 阿里云 ACK / RDS / OSS
CI/CD & GitOps#
GitHub Actions 云效 Flow GitOps ArgoCD ApplicationSet
可观测性#
Prometheus Grafana Loki Thanos OpenTelemetry
中间件 & 存储#
Kafka RabbitMQ Redis / Valkey MySQL PostgreSQL OpenSearch Neo4j Milvus
网络 & 安全#
Cilium Terway gVisor (runsc) Headscale OPA / Kyverno Vault
编程语言#
Go Python Shell / Bash
AI 工具(日常在用)#
Claude Code CLI Cursor LangChain LangGraph Dify RAG 工程化 Prompt Engineering
AI 模型(会用,懂选型)#
Claude Sonnet 4.6 / Opus 4.6 GPT-5.4 Gemini 2.5 Pro
做过什么#
多集群 K8s 管理(US + CN 双云) 同时维护生产、预发、QA 多套 Kubernetes 集群,覆盖 AWS EKS(us-west-2 + ap-southeast-1)与阿里云 ACK,管理数十个微服务的发布与稳定性。出过故障,也深夜扛过流量洪峰。
GitOps 体系从零到落地 主导设计基于 ArgoCD + Kustomize + ApplicationSet 的完整 GitOps 工作流,实现 base/overlay 多环境配置版本化管理,所有变更可追溯、可回滚。部署不再依赖人肉执行,而是 Git commit 驱动。
降本优化,有数字说话 通过 Karpenter 弹性节点策略 + 资源规格治理 + Spot 实例混用,单月云成本节省超 $2,000。同步推进 FinOps 意识,让每一台机器的账单都有据可查。
CI/CD 流水线,多场景多云 从零搭建并维护覆盖 GitHub Actions + 云效 Flow 的发版体系,支持 US / CN 独立部署链路、多分支策略、镜像 tag 版本化,彻底解决跨云竞态问题。
跨集群可观测性 基于 Grafana + Loki 构建跨 6 套集群的统一日志查询系统,支持并行多集群查询,告警覆盖核心服务。Prometheus + Thanos 实现指标聚合,不再靠肉眼看 terminal 判断集群健康。
网络安全治理 & 零信任改造 梳理全部公网暴露资产清单,规划并推进 Headscale VPN 零信任收敛方案;调研 Cilium 网络策略替代 kube-proxy,收紧生产环境东西向流量边界。
gVisor 沙箱隔离 在多租户 sandbox 环境落地基于 gVisor(runsc)的容器网络隔离方案,结合 Cilium CCNP 实现 workload 级别的网络隔离,验证可行性并提交 GitOps PR。
AI 工具落地 & 运维自动化 将 Claude Code CLI 深度集成进日常运维工作流,覆盖:故障排查自动化、跨集群日志分析、K8s 配置审查。基于 LLM 构建每日运维技术简报自动生成系统,14 个主题轮换,每天推送到钉钉群。
工程哲学#
好的基础设施应该像空气一样,存在但不被感知。
可观测优先于可靠性 — 你无法修复你看不见的东西。在写代码之前先想清楚怎么 debug 它。
配置即代码,Git 是唯一真相 — 任何不在 Git 里的变更都是定时炸弹,包括那条你"临时"改的 Nacos 配置。
自动化的边界是人的判断 — 能自动化的都应该自动化,但报警触发之后"要不要回滚"这件事,还是要人拍板。
降本不是省钱,是减少浪费 — 每一块钱都应该知道花在哪里;闲置资源是技术债,不是备用容量。
工具选型要有退出路径 — 引入任何新工具之前,先想好怎么摘掉它。依赖一个你无法替换的组件,不叫技术选型,叫赌博。
当前在关注的方向#
- AI Agent 运维落地 — LLM 不只是聊天框,正在探索 Agent 自主执行运维操作(故障定位 → 修复建议 → GitOps PR 自动提交)的完整链路
- eBPF 可观测性 — Cilium Hubble、Tetragon 在内核层面的追踪能力,比传统 sidecar 方案侵入性低一个量级
- 平台工程(Platform Engineering) — 把运维能力封装成内部开发者平台,让研发可以自助而不是等待工单
- LLM 与运维工具链融合 — 不是让 AI 替代运维,是让运维工程师用 AI 把能力放大 10 倍
关于这个博客#
建站于 2024 年 9 月,两个用途,都是真的:
技术笔记本 — 把踩过的坑、研究过的方案、写过的脚本沉淀下来。人的记忆是不可靠的,尤其是凌晨两点刚解完故障之后。
技术展示 — 记录真实的工作内容,证明这些年没白过。如果你是 HR 或 Hiring Manager,这里有比简历更诚实的东西。
内容方向:Kubernetes 运维、云原生实践、CI/CD 工程化、基础设施降本、AI 工具落地、踩坑实录。
一些真实信息#
- 有在深夜为一行 YAML 缩进而抓狂的经历,不止一次
- 对
kubectl get pods | grep CrashLoop有条件反射 - 坚信
--dry-run=client是世界上最好的安全网之一 - 用 Claude Code CLI 写运维脚本,并且觉得这完全合理
- 会因为一个优雅的 Kustomize patch 设计感到满足
联系方式#
- GitHub:github.com/socake
- Email:17691281867@163.com
欢迎聊技术问题,尤其是 K8s 运维、云原生架构、或者 AI 工具怎么用到工程里。
如果你读到这里还没关掉页面,说明我们大概率可以聊得来。


