Nacos 一文通:从零基础到生产精通的配置中心与服务发现实战2026-04-18·1624 字·8 分钟Nacos 同时承担配置中心和服务注册发现两个核心职责,是 Spring Cloud Alibaba 生态的基石。本文系统梳理 Nacos 的数据模型、一致性协议、长轮询推送机制、临时实例健康检查、生产集群部署、多语言 SDK 接入、灰度发布、权限控制、常见故障排查(配置不生效/密码漂移/集群脑裂)以及云原生时代的定位,适合从入门到生产运维的完整参考。
运维工程师的 AI 工具实践2026-04-03·642 字·4 分钟从写 Shell 脚本、解读错误信息到辅助故障排查,分享运维工程师真实使用 AI 工具的高效场景、无效场景和 Prompt 技巧,以及各工具的适合场景。
Ollama 在 K8s 上跑大模型:本地 LLM 的运维实践2026-03-30·786 字·4 分钟在 Kubernetes 上部署 Ollama 运行本地大模型,从 GPU 调度到 CPU 推理降级,再到运维场景的实际集成,记录完整的踩坑与实践过程。
多模态大模型实践:图像理解与视觉分析2026-03-09·986 字·5 分钟覆盖主流多模态模型选型对比、图像理解API调用方式、OCR/文档理解/图表解析等实际场景,以及一个完整的运维场景实战:用多模态模型自动分析Grafana截图并生成告警摘要。
MCP 协议实战:给 AI Agent 接上运维工具2026-02-27·1016 字·5 分钟Model Context Protocol 让 AI 能够标准化地调用外部工具。本文用 Python 实现一个运维 MCP Server,接入 kubectl、Prometheus、Loki,让 AI 直接查集群状态。
大模型赋能运维:LLM 在故障排查和自动化中的实际应用2026-01-31·992 字·5 分钟LLM 不能替代运维工程师,但确实能把重复性、低价值的工作自动化掉。本文分享我在实际工作中用 Claude 落地的几个场景。
Prometheus 进程监控:process-exporter 实战与告警配置2025-12-18·914 字·5 分钟K8s 有完善的 Pod 监控体系,但裸机和 VM 上运行的进程如何监控?本文介绍 process-exporter 的部署与配置实践,覆盖进程组匹配、核心指标、告警规则设计及实际踩坑经验。
Kubernetes 集群升级实践2025-12-09·1554 字·8 分钟K8s 集群升级全流程:从版本兼容性检查、etcd 备份、EKS 托管升级命令,到节点蓝绿替换、PDB 配置、pluto 工具检测废弃 API,再到常见升级问题处理。
Kubernetes 故障排查 SOP2025-12-09·1491 字·7 分钟从现象到根因的 K8s 故障排查全流程:Pod 异常状态、Node NotReady、Service 不通、存储挂载失败等场景的系统化排查方法。