跳过正文

监控

Linux 系统性能排查手册

·1260 字·6 分钟
覆盖 top/htop/mpstat/vmstat/iostat/sar 等核心命令,结合 iowait/softirq/CPU 窃取等指标含义,提供完整排查流程和组合命令速查。

Prometheus + Grafana + Loki 可观测性体系建设

·1780 字·9 分钟
记录在多套 K8s 集群上建立统一可观测性平台的实践经验,包含 Prometheus 采集配置、告警规则设计、Grafana Dashboard 组织方式,以及跨集群日志聚合的 Loki 部署方案。
可观测性建设:从 Prometheus 采集到 Grafana 告警联动

可观测性建设:从 Prometheus 采集到 Grafana 告警联动

·861 字·5 分钟
可观测性不是装几个监控工具,而是让系统在出问题时能快速定位根因。这篇文章从采集架构到 PromQL 到告警路由,覆盖我们在生产环境中实际遇到的 cardinality 爆炸、告警噪音等问题。