监控 · 黄文卓 | DevOps Engineer

Prometheus 进程监控：process-exporter 实战与告警配置

2025-12-18·914 字·5 分钟

K8s 有完善的 Pod 监控体系，但裸机和 VM 上运行的进程如何监控？本文介绍 process-exporter 的部署与配置实践，覆盖进程组匹配、核心指标、告警规则设计及实际踩坑经验。

2025-12-09·1260 字·6 分钟

覆盖 top/htop/mpstat/vmstat/iostat/sar 等核心命令，结合 iowait/softirq/CPU 窃取等指标含义，提供完整排查流程和组合命令速查。

2025-12-08·1780 字·9 分钟

记录在多套 K8s 集群上建立统一可观测性平台的实践经验，包含 Prometheus 采集配置、告警规则设计、Grafana Dashboard 组织方式，以及跨集群日志聚合的 Loki 部署方案。

2025-10-08·826 字·4 分钟

Kibana 内置的 Stack Monitoring 免费功能有限，告警媒介也受商业授权约束。我们最终选择 Prometheus + Grafana 方案监控 ELK 集群，这篇文章记录完整的落地过程和踩坑。

2025-07-28·516 字·3 分钟

Prometheus 撑不住了？本文对比 VictoriaMetrics 与 Prometheus 的核心差异，介绍 remote_write 无缝迁移方案，以及 VM 在资源占用、压缩率、查询性能上的实际提升。

2024-12-06·861 字·5 分钟

可观测性不是装几个监控工具，而是让系统在出问题时能快速定位根因。这篇文章从采集架构到 PromQL 到告警路由，覆盖我们在生产环境中实际遇到的 cardinality 爆炸、告警噪音等问题。

2024-11-25·855 字·5 分钟

用 Python 直接调 Prometheus HTTP API，实现服务存活巡检、可用率日报生成，最后接入钉钉每日自动推送集群健康摘要。