DORA 指标与平台工程效能度量:用数据驱动 DevOps 改进2025-07-12·747 字·4 分钟DORA 四个指标不是考核工具,是诊断工具。从 CI/CD 流水线和 Incident 系统采集数据,找到部署频率低、前置时间长的真实原因,然后用平台工程手段系统性改进。本文给出采集方案、Grafana 看板设计和常见误用陷阱。
On-Call 工程实践:从告警响应到 Runbook 设计2025-07-08·849 字·4 分钟好的 On-Call 体系不是让人 24 小时盯着屏幕,而是让每一次叫醒都有价值。从告警质量到 Runbook 设计,从轮班制度到数据驱动改进,这篇文章是我们团队在生产环境打磨 3 年的实践总结。
SRE 故障管理全生命周期:从响应到复盘2025-07-05·754 字·4 分钟故障处理不只是技术问题,更是协作和信息流问题。这篇文章完整梳理了从故障触发到 Post-Mortem 归档的每个环节,包括 IC 角色的意义、15 分钟定界框架,以及如何让 Post-Mortem 真正推动改进而不是走过场。
SRE 核心理念:从运维思维到可靠性工程2025-06-26·679 字·4 分钟SRE 不是给运维换了个更好听的名字。它是一套用软件工程思维解决可靠性问题的方法论。本文从 Error Budget 切入,覆盖 SLI/SLO 制定、Toil 识别、On-call 设计、故障复盘文化,以及从传统运维转型 SRE 的实际路径。
多集群 Kubernetes 运维:跨集群管理与统一可观测2025-05-21·1202 字·6 分钟从单集群到多集群,运维复杂度不是线性增加,而是指数级。这篇文章总结了我们管理跨地域、跨环境多套 K8s 集群的实际经验:如何用 ArgoCD ApplicationSet 统一部署、如何用 Thanos 聚合多集群指标、以及一次真实的跨集群迁移过程。
Kubernetes 集群升级策略:零停机升级的完整实践指南2025-05-14·855 字·5 分钟K8s 集群升级听起来简单,实际操作中坑很多:API 弃用导致的 Helm 失败、Admission Webhook 拦截升级流量、PDB 配置不当导致服务中断。这篇文章从真实的升级经验出发,给出一套可复用的零停机升级方案。
Alertmanager 完全指南:路由、抑制、静默与多渠道通知2025-03-22·1332 字·7 分钟告警太多和告警太少一样有害。Alertmanager 的路由、抑制、分组机制是控制告警噪声的核心手段,本文从一个真实的多环境告警体系出发,讲清楚每个配置的意图和陷阱。
运维工程师的技术成长:从执行者到架构者的路径规划2024-12-22·413 字·2 分钟运维工程师的成长不是工具的堆砌,而是认知层次的跃迁。这篇文章记录了我对这条路的观察和思考——哪些时机会让人真正进阶,哪些惯性思维会让人原地踏步。
SRE 实践心得:从运维到 SRE 的思维转变2024-12-11·531 字·3 分钟SRE 不是换了个头衔的运维,而是一套用软件工程思维解决可靠性问题的方法论。这篇文章记录了我在实践过程中最有感触的几个转变。