Shell 脚本实战:Bash 自动化运维从入门到工程化2024-10-02·1697 字·8 分钟Shell 脚本是 SRE 的第一生产力工具。本文从语法精要出发,覆盖批量操作、日志轮转、健康检查等常用运维模式,再到 getopts、trap 信号处理和脚本工程化思路,最后总结引号地狱、变量作用域等经典踩坑。
Linux 系统管理精要——DevOps 工程师必知的系统层知识2024-09-16·926 字·5 分钟做了多年 DevOps,我越来越觉得 Linux 系统层的知识是一切排障的基础。当 Kubernetes Pod 莫名被杀、Java 服务突然无响应、磁盘 IO 飙高导致整机卡顿——最终都要落到系统层来定位。这篇文章把我在生产中最常用的系统管理技能系统梳理一遍。
Linux 性能调优实战:CPU、内存、IO 瓶颈的系统排查方法2024-09-08·906 字·5 分钟从工具链选择到实战排查,梳理 Linux 性能调优的完整方法论:CPU 上下文切换与软中断分析、OOM 日志解读、IO 调度器选择、TCP TIME_WAIT 处理,以及容器环境下 cgroup 限制的特殊影响。