跳过正文

运维

SRE 核心理念:从运维思维到可靠性工程

SRE 核心理念:从运维思维到可靠性工程

·679 字·4 分钟
SRE 不是给运维换了个更好听的名字。它是一套用软件工程思维解决可靠性问题的方法论。本文从 Error Budget 切入,覆盖 SLI/SLO 制定、Toil 识别、On-call 设计、故障复盘文化,以及从传统运维转型 SRE 的实际路径。
Kubernetes 集群升级策略:零停机升级的完整实践指南

Kubernetes 集群升级策略:零停机升级的完整实践指南

·855 字·5 分钟
K8s 集群升级听起来简单,实际操作中坑很多:API 弃用导致的 Helm 失败、Admission Webhook 拦截升级流量、PDB 配置不当导致服务中断。这篇文章从真实的升级经验出发,给出一套可复用的零停机升级方案。
RabbitMQ 运维实战:集群部署、消费者可靠性与监控体系

RabbitMQ 运维实战:集群部署、消费者可靠性与监控体系

·1852 字·9 分钟
系统梳理 RabbitMQ 运维核心技能:Quorum Queue 集群部署与镜像队列对比、生产配置调优、消费者 prefetch 与死信队列配置、基于 Management API 和 rabbitmq_exporter 的监控体系,以及消息堆积、脑裂等常见故障的处理方案。