Prometheus 进程监控:process-exporter 实战与告警配置2025-12-18·914 字·5 分钟K8s 有完善的 Pod 监控体系,但裸机和 VM 上运行的进程如何监控?本文介绍 process-exporter 的部署与配置实践,覆盖进程组匹配、核心指标、告警规则设计及实际踩坑经验。
Linux 系统性能排查手册2025-12-09·1260 字·6 分钟覆盖 top/htop/mpstat/vmstat/iostat/sar 等核心命令,结合 iowait/softirq/CPU 窃取等指标含义,提供完整排查流程和组合命令速查。
Prometheus + Grafana + Loki 可观测性体系建设2025-12-08·1780 字·9 分钟记录在多套 K8s 集群上建立统一可观测性平台的实践经验,包含 Prometheus 采集配置、告警规则设计、Grafana Dashboard 组织方式,以及跨集群日志聚合的 Loki 部署方案。
ELK 集群监控:用 Prometheus + Grafana 监控 Elasticsearch 健康2025-10-08·826 字·4 分钟Kibana 内置的 Stack Monitoring 免费功能有限,告警媒介也受商业授权约束。我们最终选择 Prometheus + Grafana 方案监控 ELK 集群,这篇文章记录完整的落地过程和踩坑。
VictoriaMetrics:比 Prometheus 更省资源的监控存储方案2025-07-28·516 字·3 分钟Prometheus 撑不住了?本文对比 VictoriaMetrics 与 Prometheus 的核心差异,介绍 remote_write 无缝迁移方案,以及 VM 在资源占用、压缩率、查询性能上的实际提升。
可观测性建设:从 Prometheus 采集到 Grafana 告警联动2024-12-06·861 字·5 分钟可观测性不是装几个监控工具,而是让系统在出问题时能快速定位根因。这篇文章从采集架构到 PromQL 到告警路由,覆盖我们在生产环境中实际遇到的 cardinality 爆炸、告警噪音等问题。
Python 对接 Prometheus:查询监控数据与告警状态自动化2024-11-25·855 字·5 分钟用 Python 直接调 Prometheus HTTP API,实现服务存活巡检、可用率日报生成,最后接入钉钉每日自动推送集群健康摘要。