跳过正文
Posts

博客文章

共 220 篇 · 记录真实实践,不水文章

2026

云原生

多云中间件横向速查与跨环境隔离实战

做多云运维最容易的事就是把 AWS 那套思维原样搬到阿里云,然后在某次故障里发现选型完全错位。本文整理了一份 AWS↔阿里云中间件横向对照表,附上跨环境隔离强制 …

· 9 分钟 · 1781 字
性能优化

USE Method:系统性能分析方法论

随机尝试是性能排查的大敌。USE Method 用一个三维框架(使用率/饱和度/错误)把所有系统资源纳入统一分析体系,本文从原理到实战全面解析这套方法论,并提供 …

· 7 分钟 · 1442 字
Kubernetes

Kubernetes cgroup v2 迁移实践

K8s 1.25+ 默认启用 cgroup v2,MemoryQoS 和 PSI 等新特性只在 v2 支持。本文给出完整的节点迁移操作流程和常见问题解决方案。

· 8 分钟 · 1682 字
博客

运维工程师的 AI 工具实践

从写 Shell 脚本、解读错误信息到辅助故障排查,分享运维工程师真实使用 AI 工具的高效场景、无效场景和 Prompt 技巧,以及各工具的适合场景。

· 4 分钟 · 642 字
大模型

Langfuse:LLM 应用可观测性平台实战

讲清楚为什么LLM应用必须要可观测性,以及如何用Langfuse从链路追踪、Prompt版本管理、评估实验到成本分析做到全覆盖,包含Docker自托管部署和 …

· 4 分钟 · 836 字

2025

Kubernetes

如何设计一个好的告警体系

从真实的告警噪音泛滥经历出发,分享如何用 SLI/SLO 重新设计告警体系,包括告警分级、规则设计原则、路由策略和复盘机制。

· 3 分钟 · 570 字
云原生

Istio Ambient Mode 无 Sidecar 服务网格实践

Sidecar 模式已经陪我们走了六七年,但它的问题也越来越难以忽视。Ambient Mode 不是缝缝补补,而是从架构层面重新设计了服务网格的数据面。本文从实 …

· 7 分钟 · 1464 字
Kubernetes

CoreDNS 深度排障:K8s DNS 问题完全指南

DNS 问题是 K8s 中最难定位的问题之一,因为它的失败往往是间歇性的、有延迟的,看起来像网络问题,实际上是 DNS 超时。本文记录了我在生产环境排查过的多类 …

· 5 分钟 · 1064 字
运维工具

k6 压测实战:从脚本编写到性能分析

压测不是跑一个脚本看能不能撑住,而是通过有设计的负载模型暴露系统瓶颈。本文记录了我用 k6 做生产级性能测试的完整实践:脚本设计、阈值配置、与 Grafana …

· 6 分钟 · 1091 字
Linux

TCP/IP 网络排障:抓包与连接问题诊断

网络问题排查的核心是「眼见为实」,没有抓包的排障都是猜测。本文系统梳理了 tcpdump 的实战用法、TCP 连接状态机分析、conntrack 追踪,以及 …

· 6 分钟 · 1238 字
Kubernetes

OPA/Kyverno:K8s 准入控制策略实战

没有准入控制的 K8s 集群就像一个没有门卫的机房——任何人都能随意进出。本文记录了我在多个生产集群部署 Kyverno 策略的实战经验,涵盖资源限制强制、镜像 …

· 5 分钟 · 895 字
AWS

AWS EKS 生产实践:网络、安全与多集群管理

管理多套 EKS 集群两年下来,踩了不少坑。本文系统整理网络选型、IAM 权限、节点管理、集群升级、安全加固和成本控制这六个核心话题,每个话题都有具体配置示例和 …

· 4 分钟 · 792 字
SRE

SRE 故障管理全生命周期:从响应到复盘

故障处理不只是技术问题,更是协作和信息流问题。这篇文章完整梳理了从故障触发到 Post-Mortem 归档的每个环节,包括 IC 角色的意义、15 分钟定界框架 …

· 4 分钟 · 754 字

2024

博客

故障排查方法论:从现象到根因

好的排查不靠直觉,靠方法。这篇文章总结了我在多次生产故障中提炼出的排查框架:从时间线构建到假设优先级,再到认知陷阱的识别与规避。

· 3 分钟 · 622 字