阿里云 SDK 运维自动化:ECS/ACK/RDS 资源管理与巡检脚本2025-12-04·1220 字·6 分钟用阿里云 Python SDK 实现 ECS 实例查询与监控、ACK 节点状态检查、RDS 慢查询巡检,整合成 HTML 格式巡检报告自动推送钉钉。
Python 操作 Elasticsearch:从索引管理到复杂聚合查询2025-11-04·744 字·4 分钟从客户端初始化到批量操作、scroll 查询、聚合统计,一篇文章搞定 Python 操作 Elasticsearch 的高频场景。
Python 定时任务工程化:APScheduler 与 Celery Beat 实战对比2025-11-01·758 字·4 分钟APScheduler 和 Celery Beat 是 Python 定时任务的两大主流方案。本文从使用场景出发,对比两者的架构差异、适用边界,并介绍 K8s CronJob 作为第三条路的价值,帮你在项目里选对工具。
用 Go 写 K8s 运维工具:client-go 实战2025-08-25·1372 字·7 分钟kubectl 能解决 80% 的日常问题,剩下 20% 需要你自己写工具。本文用实际可运行的 Go 代码,展示如何用 client-go 构建批量重启 Deployment、Pod 资源报告、过期 ConfigMap 清理等运维工具,并用 cobra 封装成 CLI。
Celery 异步任务详解:任务队列、重试策略与分布式部署2025-04-22·803 字·4 分钟从 Celery 架构到 K8s 部署,覆盖任务定义、重试策略、队列路由、Beat 定时任务和 Flower 监控,附完整的生产部署配置。
Python 对接 Prometheus:查询监控数据与告警状态自动化2024-11-25·855 字·5 分钟用 Python 直接调 Prometheus HTTP API,实现服务存活巡检、可用率日报生成,最后接入钉钉每日自动推送集群健康摘要。
Python 异步编程实战:asyncio 在 AI 应用中的使用2024-11-22·1613 字·8 分钟AI 应用天然是 I/O 密集型的:等 LLM 响应、等向量数据库检索、等多个工具调用返回。同步写法在这里是性能杀手。这篇文章从 event loop 原理讲到实际的 AI 应用模式,重点是 asyncio.gather 并发调用、SSE 流式输出处理和常见陷阱排查。
Python 自动化运维:从脚本到完整工具的工程化实践2024-11-12·1559 字·8 分钟系统梳理 Python 运维自动化的工程化方法:boto3 操作 AWS 资源、Kubernetes Python SDK 使用、Click/Typer CLI 框架选型、数据库批量运维脚本、钉钉 Webhook 集成,以及类型注解与错误处理的实践经验。