bpftrace 实战:线上问题排查的瑞士军刀2026-04-12·1804 字·9 分钟strace 太重、perf 太原始、BCC 工具集要装一堆依赖——bpftrace 是这三者之间的平衡点。本文用四个真实场景讲清楚 bpftrace 的工作方式,帮你把它变成日常排查工具。
Langfuse:LLM 应用可观测性平台实战2026-02-14·836 字·4 分钟讲清楚为什么LLM应用必须要可观测性,以及如何用Langfuse从链路追踪、Prompt版本管理、评估实验到成本分析做到全覆盖,包含Docker自托管部署和Python SDK完整集成示例。
告警带图实战:Grafana Render + 钉钉推送趋势图2025-12-23·1160 字·6 分钟收到告警只有一行数字,还要登录 Grafana 才能看趋势图——这是告警体验最大的痛点之一。本文介绍如何将 Grafana Image Renderer 与 Alertmanager Webhook 结合,实现告警消息自动附带趋势图的完整方案。
Prometheus 进程监控:process-exporter 实战与告警配置2025-12-18·914 字·5 分钟K8s 有完善的 Pod 监控体系,但裸机和 VM 上运行的进程如何监控?本文介绍 process-exporter 的部署与配置实践,覆盖进程组匹配、核心指标、告警规则设计及实际踩坑经验。
Prometheus + Grafana + Loki 可观测性体系建设2025-12-08·1780 字·9 分钟记录在多套 K8s 集群上建立统一可观测性平台的实践经验,包含 Prometheus 采集配置、告警规则设计、Grafana Dashboard 组织方式,以及跨集群日志聚合的 Loki 部署方案。
Prometheus 高基数治理实战:从 8 亿 series 到可控增长2025-09-28·1581 字·8 分钟高基数是 Prometheus 生态里最常见的性能杀手。这篇把「为什么发生、怎么发现、怎么治理」讲清楚,并给出一套可推广的组织治理方案。
eBPF 可观测性实践:Cilium 网络监控与 Tetragon 安全审计2025-09-17·580 字·3 分钟eBPF 正在重塑云原生可观测性的底层基础。本文记录在 K8s 集群中落地 Cilium + Hubble 网络监控和 Tetragon 安全审计的实践经验。
Kiali 服务网格可观测性实战:从拓扑图到告警联动2025-08-12·1061 字·5 分钟Kiali 不只是画拓扑图的工具,它是服务网格的诊断中心。本文把 Kiali 2.x 在生产中的配置、用法、踩坑都写清楚。
SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战2025-08-01·1096 字·6 分钟从 SLI 指标选取到 Error Budget 消耗速率告警,系统讲解 SRE 可靠性工程体系的落地实践,包括 Prometheus recording rules 计算 SLI、多窗口 burn rate 告警规则配置、SLO 违规复盘流程,以及与开发团队的协作策略。