↓ 跳过正文

运维

Nacos 一文通：从零基础到生产精通的配置中心与服务发现实战

Nacos 一文通：从零基础到生产精通的配置中心与服务发现实战

2026-04-18·1624 字·8 分钟

Nacos 同时承担配置中心和服务注册发现两个核心职责，是 Spring Cloud Alibaba 生态的基石。本文系统梳理 Nacos 的数据模型、一致性协议、长轮询推送机制、临时实例健康检查、生产集群部署、多语言 SDK 接入、灰度发布、权限控制、常见故障排查（配置不生效/密码漂移/集群脑裂）以及云原生时代的定位，适合从入门到生产运维的完整参考。

运维工程师的 AI 工具实践

2026-04-03·642 字·4 分钟

从写 Shell 脚本、解读错误信息到辅助故障排查，分享运维工程师真实使用 AI 工具的高效场景、无效场景和 Prompt 技巧，以及各工具的适合场景。

Ollama 在 K8s 上跑大模型：本地 LLM 的运维实践

Ollama 在 K8s 上跑大模型：本地 LLM 的运维实践

2026-03-30·786 字·4 分钟

在 Kubernetes 上部署 Ollama 运行本地大模型，从 GPU 调度到 CPU 推理降级，再到运维场景的实际集成，记录完整的踩坑与实践过程。

多模态大模型实践：图像理解与视觉分析

多模态大模型实践：图像理解与视觉分析

2026-03-09·986 字·5 分钟

覆盖主流多模态模型选型对比、图像理解API调用方式、OCR/文档理解/图表解析等实际场景，以及一个完整的运维场景实战：用多模态模型自动分析Grafana截图并生成告警摘要。

MCP 协议实战：给 AI Agent 接上运维工具

MCP 协议实战：给 AI Agent 接上运维工具

2026-02-27·1016 字·5 分钟

Model Context Protocol 让 AI 能够标准化地调用外部工具。本文用 Python 实现一个运维 MCP Server，接入 kubectl、Prometheus、Loki，让 AI 直接查集群状态。

大模型赋能运维：LLM 在故障排查和自动化中的实际应用

大模型赋能运维：LLM 在故障排查和自动化中的实际应用

2026-01-31·992 字·5 分钟

LLM 不能替代运维工程师，但确实能把重复性、低价值的工作自动化掉。本文分享我在实际工作中用 Claude 落地的几个场景。

Prometheus 进程监控：process-exporter 实战与告警配置

Prometheus 进程监控：process-exporter 实战与告警配置

2025-12-18·914 字·5 分钟

K8s 有完善的 Pod 监控体系，但裸机和 VM 上运行的进程如何监控？本文介绍 process-exporter 的部署与配置实践，覆盖进程组匹配、核心指标、告警规则设计及实际踩坑经验。

发版回滚 SOP

2025-12-09·811 字·4 分钟

涵盖回滚判断标准、K8s/ArgoCD/配置各层回滚操作、数据库变更的前向修复 vs 回滚取舍，以及完整的值班人员操作 SOP 模板。

Kubernetes 集群升级实践

2025-12-09·1554 字·8 分钟

K8s 集群升级全流程：从版本兼容性检查、etcd 备份、EKS 托管升级命令，到节点蓝绿替换、PDB 配置、pluto 工具检测废弃 API，再到常见升级问题处理。

Kubernetes 故障排查 SOP

2025-12-09·1491 字·7 分钟

从现象到根因的 K8s 故障排查全流程：Pod 异常状态、Node NotReady、Service 不通、存储挂载失败等场景的系统化排查方法。