跳过正文

可观测性

bpftrace 实战:线上问题排查的瑞士军刀

bpftrace 实战:线上问题排查的瑞士军刀

·1804 字·9 分钟
strace 太重、perf 太原始、BCC 工具集要装一堆依赖——bpftrace 是这三者之间的平衡点。本文用四个真实场景讲清楚 bpftrace 的工作方式,帮你把它变成日常排查工具。
Langfuse:LLM 应用可观测性平台实战

Langfuse:LLM 应用可观测性平台实战

·836 字·4 分钟
讲清楚为什么LLM应用必须要可观测性,以及如何用Langfuse从链路追踪、Prompt版本管理、评估实验到成本分析做到全覆盖,包含Docker自托管部署和Python SDK完整集成示例。
告警带图实战:Grafana Render + 钉钉推送趋势图

告警带图实战:Grafana Render + 钉钉推送趋势图

·1160 字·6 分钟
收到告警只有一行数字,还要登录 Grafana 才能看趋势图——这是告警体验最大的痛点之一。本文介绍如何将 Grafana Image Renderer 与 Alertmanager Webhook 结合,实现告警消息自动附带趋势图的完整方案。

Prometheus + Grafana + Loki 可观测性体系建设

·1780 字·9 分钟
记录在多套 K8s 集群上建立统一可观测性平台的实践经验,包含 Prometheus 采集配置、告警规则设计、Grafana Dashboard 组织方式,以及跨集群日志聚合的 Loki 部署方案。
如何设计一个好的告警体系

如何设计一个好的告警体系

·570 字·3 分钟
从真实的告警噪音泛滥经历出发,分享如何用 SLI/SLO 重新设计告警体系,包括告警分级、规则设计原则、路由策略和复盘机制。
SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战

SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战

·1096 字·6 分钟
从 SLI 指标选取到 Error Budget 消耗速率告警,系统讲解 SRE 可靠性工程体系的落地实践,包括 Prometheus recording rules 计算 SLI、多窗口 burn rate 告警规则配置、SLO 违规复盘流程,以及与开发团队的协作策略。