跳过正文

运维

Nacos 一文通:从零基础到生产精通的配置中心与服务发现实战

Nacos 一文通:从零基础到生产精通的配置中心与服务发现实战

·1624 字·8 分钟
Nacos 同时承担配置中心和服务注册发现两个核心职责,是 Spring Cloud Alibaba 生态的基石。本文系统梳理 Nacos 的数据模型、一致性协议、长轮询推送机制、临时实例健康检查、生产集群部署、多语言 SDK 接入、灰度发布、权限控制、常见故障排查(配置不生效/密码漂移/集群脑裂)以及云原生时代的定位,适合从入门到生产运维的完整参考。
运维工程师的 AI 工具实践

运维工程师的 AI 工具实践

·642 字·4 分钟
从写 Shell 脚本、解读错误信息到辅助故障排查,分享运维工程师真实使用 AI 工具的高效场景、无效场景和 Prompt 技巧,以及各工具的适合场景。
多模态大模型实践:图像理解与视觉分析

多模态大模型实践:图像理解与视觉分析

·986 字·5 分钟
覆盖主流多模态模型选型对比、图像理解API调用方式、OCR/文档理解/图表解析等实际场景,以及一个完整的运维场景实战:用多模态模型自动分析Grafana截图并生成告警摘要。
MCP 协议实战:给 AI Agent 接上运维工具

MCP 协议实战:给 AI Agent 接上运维工具

·1016 字·5 分钟
Model Context Protocol 让 AI 能够标准化地调用外部工具。本文用 Python 实现一个运维 MCP Server,接入 kubectl、Prometheus、Loki,让 AI 直接查集群状态。

发版回滚 SOP

·811 字·4 分钟
涵盖回滚判断标准、K8s/ArgoCD/配置各层回滚操作、数据库变更的前向修复 vs 回滚取舍,以及完整的值班人员操作 SOP 模板。

Kubernetes 集群升级实践

·1554 字·8 分钟
K8s 集群升级全流程:从版本兼容性检查、etcd 备份、EKS 托管升级命令,到节点蓝绿替换、PDB 配置、pluto 工具检测废弃 API,再到常见升级问题处理。

Kubernetes 故障排查 SOP

·1491 字·7 分钟
从现象到根因的 K8s 故障排查全流程:Pod 异常状态、Node NotReady、Service 不通、存储挂载失败等场景的系统化排查方法。