MCP 协议实战:给 AI Agent 接上运维工具2026-02-27·1016 字·5 分钟Model Context Protocol 让 AI 能够标准化地调用外部工具。本文用 Python 实现一个运维 MCP Server,接入 kubectl、Prometheus、Loki,让 AI 直接查集群状态。
自动化发版实战:semantic-release、release-please、changesets 对比选型2026-02-25·1698 字·8 分钟手动维护 CHANGELOG.md、手动打 git tag、手动写 release notes——这些都是十年前的工作方式。现代发版应该是:每次合并 PR 时工具自动决定下一个版本号、自动生成 changelog、自动打 tag、自动发布。本文讲清楚三种方案的差异和选型。
Renovate 依赖升级机器人:从零到生产配置2026-02-19·1362 字·7 分钟Dependabot 足够简单但能力单薄,Snyk 聚焦安全漏洞。Renovate 是介于两者之间的中庸选择:能升级一切、能分组、能调度、能自动合并、能 self-host。本文是完整的生产配置指南。
阿里云 SDK 运维自动化:ECS/ACK/RDS 资源管理与巡检脚本2025-12-04·1220 字·6 分钟用阿里云 Python SDK 实现 ECS 实例查询与监控、ACK 节点状态检查、RDS 慢查询巡检,整合成 HTML 格式巡检报告自动推送钉钉。
Python 操作 Elasticsearch:从索引管理到复杂聚合查询2025-11-04·744 字·4 分钟从客户端初始化到批量操作、scroll 查询、聚合统计,一篇文章搞定 Python 操作 Elasticsearch 的高频场景。
Python 定时任务工程化:APScheduler 与 Celery Beat 实战对比2025-11-01·758 字·4 分钟APScheduler 和 Celery Beat 是 Python 定时任务的两大主流方案。本文从使用场景出发,对比两者的架构差异、适用边界,并介绍 K8s CronJob 作为第三条路的价值,帮你在项目里选对工具。
Grafana API 自动化:用代码管理 Dashboard、数据源和告警2025-03-18·1550 字·8 分钟手动点 UI 管理 Grafana Dashboard 在多环境场景下是噩梦。用 API 把 Dashboard 代码化,实现版本控制和环境同步,才是正确姿势。本文提供完整的 Python 工具脚本和实战踩坑。
Ansible 批量运维自动化:从临时命令到 Role 工程化2025-02-12·1338 字·7 分钟Ansible 无 Agent、SSH 推送、幂等性三大特性让它成为 Linux 批量运维的利器。本文从入门用法到 Role 工程化实践,梳理了日常运维中高频场景的完整操作思路和踩坑经验。
CI/CD 流水线设计:从代码提交到自动部署的工程化实践2025-02-09·671 字·4 分钟一条好的 CI/CD 流水线不只是「能跑」,而是快、可靠、边界清晰。本文从构建缓存到 GitOps 分工,从多分支策略到故障排查,整理了在实际项目中反复用到的工程化实践。
Python 对接 Prometheus:查询监控数据与告警状态自动化2024-11-25·855 字·5 分钟用 Python 直接调 Prometheus HTTP API,实现服务存活巡检、可用率日报生成,最后接入钉钉每日自动推送集群健康摘要。