记录博客的内容更新、结构调整和功能改动,按时间倒序排列。
2026-04#
新增 2 篇
- 运维工程师的 AI 工具实践
- 故障排查实录:Terway CRD IPAM IP 泄漏导致 Pod 无法调度
2026-03#
新增 9 篇 · AI 工具专题
- OpenAI API 工程化实践
- Prompt Engineering 完全指南
- 多模态大模型实践:图像理解与视觉分析
- Dify 私有化部署与 RAG 应用构建实战
- FastGPT 知识库问答系统
- ComfyUI + Stable Diffusion 工作流自动化
- Cursor AI 编程助手深度使用指南
- GitHub Copilot 工程化使用
- Ollama 在 K8s 上跑大模型
2026-02#
新增 9 篇 · AI 工程化专题
- Advanced RAG:超越 Naive RAG 的高级检索增强技术
- RAG 评估体系:RAGAS 指标与幻觉检测
- LangChain 从入门到实战
- Langfuse:LLM 应用可观测性平台实战
- LangGraph 工作流编排:构建有状态的 AI 应用
- Embedding 模型选型与优化实战
- Claude API 开发完全指南
- Claude Code CLI 使用指南
- MCP 协议实战:给 AI Agent 接上运维工具
2026-01#
新增 8 篇 · 大模型基础专题
- 2026 大模型全景:主力模型横评与选型指南
- LLM 生产服务化:vLLM 部署与 GPU 推理优化实战
- LLM 微调入门:LoRA 让大模型适配私有场景
- LLM Tool Use 完全指南:Function Calling 设计模式与生产实践
- LLM 成本优化实战:从 Token 预算到模型路由
- LLM 应用安全:Prompt Injection 防御与 AI Guardrails 实战
- AI Agent 设计模式:从单步到复杂工作流
- 大模型赋能运维:LLM 在故障排查和自动化中的实际应用
2025-12#
新增 8 篇 · 站点升级
- 站点技术栈升级:切换到 Hugo + Blowfish 主题,全文搜索、RSS 上线
- 网站导航、书单、赞助页上线
- 阿里云 SDK 运维自动化:ECS/ACK/RDS 资源管理与巡检脚本
- DevOps/运维工程师面试题精选
- 高级运维/DevOps 工程师面试题精选
- Kibana 实战:日志查询到 Dashboard 可视化
- Prometheus 进程监控:process-exporter 实战与告警配置
- 告警带图实战:Grafana Render + 钉钉推送趋势图
- 基于 Error Budget 的 Prometheus 告警设计——燃烧率告警实战
2025-11#
新增 9 篇 · AI 基础 + 安全专题
- K8s GPU 调度实战:AI 训练与推理基础设施
- Milvus 向量数据库实战
- RAG 系统设计与实战:检索增强生成完全指南
- 大模型核心概念:工程师需要理解的 LLM 基础
- 如何设计一个好的告警体系
- 零信任网络改造:从公网暴露到 Headscale VPN
- 基础设施即代码:Terraform 入门与实践
- Python 定时任务工程化:APScheduler 与 Celery Beat 实战对比
- Python 操作 Elasticsearch:从索引管理到复杂聚合查询
2025-10#
新增 8 篇 · Elasticsearch 系列 + 工具专题
- Elasticsearch 查询实战:从 URI Search 到 DSL 复杂聚合
- Elasticsearch 备份与恢复:快照管理与跨集群迁移
- ELK 集群监控:Prometheus + Grafana 监控 ES 健康
- Filebeat + Logstash 日志采集管道:大规模日志处理实战
- Vector 日志处理管道:高性能日志采集与转换
- TCP/IP 网络排障:抓包与连接问题诊断
- k6 压测实战:从脚本编写到性能分析
- CoreDNS 深度排障:K8s DNS 问题完全指南
2025-09#
新增 7 篇 · 安全治理 + Elasticsearch 专题
- 供应链安全:Trivy 镜像扫描 + Cosign 签名验证实践
- OPA/Kyverno:K8s 准入控制策略实战
- Backstage 开发者门户实战:构建内部开发者平台
- 混沌工程实战:Chaos Mesh 在 K8s 中注入故障
- eBPF 可观测性实践:Cilium 网络监控与 Tetragon 安全审计
- Elasticsearch 集群部署实战:ECK 在 K8s 上的生产级配置
- Elasticsearch 索引策略:ILM 生命周期管理与写入性能优化
2025-08#
新增 8 篇 · 平台工程 + 云原生专题
- SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战
- 平台工程实践:构建 Internal Developer Platform
- 云原生转型实践:从传统运维到 K8s 的迁移经验
- Kubernetes 成本优化实战:系统性降本的四条路径
- DevSecOps 安全左移实践:从代码到生产的全链路安全
- AWS EKS 生产实践:网络、安全与多集群管理
- 用 Go 写 K8s 运维工具:client-go 实战
- 供应链安全前置:镜像扫描与签名验证
2025-07#
新增 8 篇 · SRE + 可观测性专题
- SRE 故障管理全生命周期:从响应到复盘
- On-Call 工程实践:从告警响应到 Runbook 设计
- 分布式链路追踪实战:Jaeger 与 Tempo 选型对比
- DORA 指标与平台工程效能度量
- 可观测性三支柱实战:Metrics/Logs/Traces 联动
- OpenTelemetry 落地实践:统一采集 Traces、Metrics、Logs
- Thanos 实战:多 K8s 集群 Prometheus 统一监控与长期存储
- VictoriaMetrics:比 Prometheus 更省资源的监控存储方案
2025-06#
新增 8 篇 · GitOps + 服务网格专题
- GitOps 落地实战:ArgoCD + Kustomize 多环境管理
- Istio Service Mesh 落地实战:从 Sidecar 注入到灰度发布
- Karpenter 深度解析:下一代 K8s 节点自动扩缩
- Helm 工程化实践:从 Chart 设计到多环境管理
- Kubernetes NetworkPolicy 网络隔离实战
- OpenTofu 实战:开源 Terraform 管理 AWS 和阿里云基础设施
- Crossplane:用 GitOps 方式管理云资源
- SRE 核心理念:从运维思维到可靠性工程
2025-05#
新增 6 篇 · K8s 生产实践专题
- Kubernetes 存储体系生产实践:PV/PVC/StorageClass 全解
- K8s Gateway API:告别 Ingress,拥抱下一代流量路由
- Kubernetes 集群升级策略:零停机升级的完整实践指南
- 业务上云实战:传统应用容器化迁移的踩坑与经验
- 多集群 Kubernetes 运维:跨集群管理与统一可观测
- ArgoCD 高级模式:ApplicationSet、Sync Waves 与 GitOps 企业级实践
2025-04#
新增 6 篇 · 中间件专题
- Kafka 运维实战:消息堆积排查、分区再平衡与监控体系
- 数据库运维实践:MySQL 高可用与 PostgreSQL 调优经验
- ETCD 运维实战:部署、备份恢复与 K8s 集群数据管理
- Celery 异步任务详解:任务队列、重试策略与分布式部署
- RabbitMQ 运维实战:集群部署、消费者可靠性与监控体系
- 从 Nginx Ingress 迁移到 Traefik:为什么换,怎么换
2025-03#
新增 8 篇 · 日志 + 监控告警专题
- EFK 日志系统实战:Fluent Bit + Fluentd + Elasticsearch 完整部署
- Elastic Agent + Fleet:下一代统一日志采集管理实践
- Prometheus 服务发现深度解析:kubernetes_sd_configs 实战
- Grafana API 自动化:用代码管理 Dashboard、数据源和告警
- PostgreSQL 运维实战:配置调优、连接池、慢查询与高可用
- Alertmanager 完全指南:路由、抑制、静默与多渠道通知
- Alertmanager Webhook 开发:自定义告警处理与 API 集成
- Zookeeper 运维实战:集群部署、调优与故障排查
2025-02#
新增 7 篇 · CI/CD + 基础设施专题
- GitLab CI/CD + Kubernetes:从代码提交到生产部署全流程
- CI/CD 流水线设计:从代码提交到自动部署的工程化实践
- Ansible 批量运维自动化:从临时命令到 Role 工程化
- Consul 服务注册与发现:从入门到生产级健康检查
- Harbor 镜像仓库生产运维:高可用、安全扫描与 CI/CD 集成
- Secret 管理实战:HashiCorp Vault + External Secrets Operator
- Kubernetes 日志采集方案选型:从技术对比到生产落地
2025-01#
新增 5 篇 · Kubernetes 深度系列
- Kubernetes 网络深度解析:CNI、kube-proxy、NetworkPolicy 完全指南
- Kubernetes 资源管理实战:QoS、ResourceQuota、VPA 体系化实践
- Kubernetes YAML 工程化:常用资源模板与生产最佳实践
- Kubernetes RBAC 安全加固实战:最小权限到 NetworkPolicy
- Jenkins + Kubernetes:动态 Agent 构建与流水线最佳实践
2024-12#
新增 4 篇 · SRE 方法论
- 可观测性建设:从 Prometheus 采集到 Grafana 告警联动
- SRE 实践心得:从运维到 SRE 的思维转变
- 故障排查方法论:从现象到根因
- 运维工程师的技术成长:从执行者到架构者的路径规划
2024-11#
新增 5 篇 · 数据库 + Python 自动化
- MySQL 备份与恢复实战:从 mysqldump 到 XtraBackup 的完整方案
- Redis 运维实践:持久化配置、集群模式与生产监控
- Python 自动化运维:从脚本到完整工具的工程化实践
- Python 异步编程实战:asyncio 在 AI 应用中的使用
- Python 对接 Prometheus:查询监控数据与告警状态自动化
2024-10#
新增 4 篇 · 基础工具链
- Shell 脚本实战:Bash 自动化运维从入门到工程化
- Git 工作流实战:分支策略与团队协作规范
- Kubernetes 从零开始:工程师视角的入门指南
- Nginx 运维完全指南:反向代理、负载均衡、HTTPS 与限流
2024-09#
博客建站(2024-09-08)· 发布 4 篇
- Linux 性能调优实战:CPU、内存、IO 瓶颈的系统排查方法
- Linux 系统管理精要:DevOps 工程师必知的系统层知识
- Docker 最佳实践:从 Dockerfile 到生产部署
- Docker Compose 本地开发工作流:多服务环境搭建最佳实践
有建议或发现内容错误?欢迎在文章评论区留言,或前往 GitHub 提 Issue。


