跳过正文

更新日志

630 字·
目录

记录博客的内容更新、结构调整和功能改动,按时间倒序排列。


2026-04
#

新增 2 篇

  • 运维工程师的 AI 工具实践
  • 故障排查实录:Terway CRD IPAM IP 泄漏导致 Pod 无法调度

2026-03
#

新增 9 篇 · AI 工具专题

  • OpenAI API 工程化实践
  • Prompt Engineering 完全指南
  • 多模态大模型实践:图像理解与视觉分析
  • Dify 私有化部署与 RAG 应用构建实战
  • FastGPT 知识库问答系统
  • ComfyUI + Stable Diffusion 工作流自动化
  • Cursor AI 编程助手深度使用指南
  • GitHub Copilot 工程化使用
  • Ollama 在 K8s 上跑大模型

2026-02
#

新增 9 篇 · AI 工程化专题

  • Advanced RAG:超越 Naive RAG 的高级检索增强技术
  • RAG 评估体系:RAGAS 指标与幻觉检测
  • LangChain 从入门到实战
  • Langfuse:LLM 应用可观测性平台实战
  • LangGraph 工作流编排:构建有状态的 AI 应用
  • Embedding 模型选型与优化实战
  • Claude API 开发完全指南
  • Claude Code CLI 使用指南
  • MCP 协议实战:给 AI Agent 接上运维工具

2026-01
#

新增 8 篇 · 大模型基础专题

  • 2026 大模型全景:主力模型横评与选型指南
  • LLM 生产服务化:vLLM 部署与 GPU 推理优化实战
  • LLM 微调入门:LoRA 让大模型适配私有场景
  • LLM Tool Use 完全指南:Function Calling 设计模式与生产实践
  • LLM 成本优化实战:从 Token 预算到模型路由
  • LLM 应用安全:Prompt Injection 防御与 AI Guardrails 实战
  • AI Agent 设计模式:从单步到复杂工作流
  • 大模型赋能运维:LLM 在故障排查和自动化中的实际应用

2025-12
#

新增 8 篇 · 站点升级

  • 站点技术栈升级:切换到 Hugo + Blowfish 主题,全文搜索、RSS 上线
  • 网站导航、书单、赞助页上线
  • 阿里云 SDK 运维自动化:ECS/ACK/RDS 资源管理与巡检脚本
  • DevOps/运维工程师面试题精选
  • 高级运维/DevOps 工程师面试题精选
  • Kibana 实战:日志查询到 Dashboard 可视化
  • Prometheus 进程监控:process-exporter 实战与告警配置
  • 告警带图实战:Grafana Render + 钉钉推送趋势图
  • 基于 Error Budget 的 Prometheus 告警设计——燃烧率告警实战

2025-11
#

新增 9 篇 · AI 基础 + 安全专题

  • K8s GPU 调度实战:AI 训练与推理基础设施
  • Milvus 向量数据库实战
  • RAG 系统设计与实战:检索增强生成完全指南
  • 大模型核心概念:工程师需要理解的 LLM 基础
  • 如何设计一个好的告警体系
  • 零信任网络改造:从公网暴露到 Headscale VPN
  • 基础设施即代码:Terraform 入门与实践
  • Python 定时任务工程化:APScheduler 与 Celery Beat 实战对比
  • Python 操作 Elasticsearch:从索引管理到复杂聚合查询

2025-10
#

新增 8 篇 · Elasticsearch 系列 + 工具专题

  • Elasticsearch 查询实战:从 URI Search 到 DSL 复杂聚合
  • Elasticsearch 备份与恢复:快照管理与跨集群迁移
  • ELK 集群监控:Prometheus + Grafana 监控 ES 健康
  • Filebeat + Logstash 日志采集管道:大规模日志处理实战
  • Vector 日志处理管道:高性能日志采集与转换
  • TCP/IP 网络排障:抓包与连接问题诊断
  • k6 压测实战:从脚本编写到性能分析
  • CoreDNS 深度排障:K8s DNS 问题完全指南

2025-09
#

新增 7 篇 · 安全治理 + Elasticsearch 专题

  • 供应链安全:Trivy 镜像扫描 + Cosign 签名验证实践
  • OPA/Kyverno:K8s 准入控制策略实战
  • Backstage 开发者门户实战:构建内部开发者平台
  • 混沌工程实战:Chaos Mesh 在 K8s 中注入故障
  • eBPF 可观测性实践:Cilium 网络监控与 Tetragon 安全审计
  • Elasticsearch 集群部署实战:ECK 在 K8s 上的生产级配置
  • Elasticsearch 索引策略:ILM 生命周期管理与写入性能优化

2025-08
#

新增 8 篇 · 平台工程 + 云原生专题

  • SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战
  • 平台工程实践:构建 Internal Developer Platform
  • 云原生转型实践:从传统运维到 K8s 的迁移经验
  • Kubernetes 成本优化实战:系统性降本的四条路径
  • DevSecOps 安全左移实践:从代码到生产的全链路安全
  • AWS EKS 生产实践:网络、安全与多集群管理
  • 用 Go 写 K8s 运维工具:client-go 实战
  • 供应链安全前置:镜像扫描与签名验证

2025-07
#

新增 8 篇 · SRE + 可观测性专题

  • SRE 故障管理全生命周期:从响应到复盘
  • On-Call 工程实践:从告警响应到 Runbook 设计
  • 分布式链路追踪实战:Jaeger 与 Tempo 选型对比
  • DORA 指标与平台工程效能度量
  • 可观测性三支柱实战:Metrics/Logs/Traces 联动
  • OpenTelemetry 落地实践:统一采集 Traces、Metrics、Logs
  • Thanos 实战:多 K8s 集群 Prometheus 统一监控与长期存储
  • VictoriaMetrics:比 Prometheus 更省资源的监控存储方案

2025-06
#

新增 8 篇 · GitOps + 服务网格专题

  • GitOps 落地实战:ArgoCD + Kustomize 多环境管理
  • Istio Service Mesh 落地实战:从 Sidecar 注入到灰度发布
  • Karpenter 深度解析:下一代 K8s 节点自动扩缩
  • Helm 工程化实践:从 Chart 设计到多环境管理
  • Kubernetes NetworkPolicy 网络隔离实战
  • OpenTofu 实战:开源 Terraform 管理 AWS 和阿里云基础设施
  • Crossplane:用 GitOps 方式管理云资源
  • SRE 核心理念:从运维思维到可靠性工程

2025-05
#

新增 6 篇 · K8s 生产实践专题

  • Kubernetes 存储体系生产实践:PV/PVC/StorageClass 全解
  • K8s Gateway API:告别 Ingress,拥抱下一代流量路由
  • Kubernetes 集群升级策略:零停机升级的完整实践指南
  • 业务上云实战:传统应用容器化迁移的踩坑与经验
  • 多集群 Kubernetes 运维:跨集群管理与统一可观测
  • ArgoCD 高级模式:ApplicationSet、Sync Waves 与 GitOps 企业级实践

2025-04
#

新增 6 篇 · 中间件专题

  • Kafka 运维实战:消息堆积排查、分区再平衡与监控体系
  • 数据库运维实践:MySQL 高可用与 PostgreSQL 调优经验
  • ETCD 运维实战:部署、备份恢复与 K8s 集群数据管理
  • Celery 异步任务详解:任务队列、重试策略与分布式部署
  • RabbitMQ 运维实战:集群部署、消费者可靠性与监控体系
  • 从 Nginx Ingress 迁移到 Traefik:为什么换,怎么换

2025-03
#

新增 8 篇 · 日志 + 监控告警专题

  • EFK 日志系统实战:Fluent Bit + Fluentd + Elasticsearch 完整部署
  • Elastic Agent + Fleet:下一代统一日志采集管理实践
  • Prometheus 服务发现深度解析:kubernetes_sd_configs 实战
  • Grafana API 自动化:用代码管理 Dashboard、数据源和告警
  • PostgreSQL 运维实战:配置调优、连接池、慢查询与高可用
  • Alertmanager 完全指南:路由、抑制、静默与多渠道通知
  • Alertmanager Webhook 开发:自定义告警处理与 API 集成
  • Zookeeper 运维实战:集群部署、调优与故障排查

2025-02
#

新增 7 篇 · CI/CD + 基础设施专题

  • GitLab CI/CD + Kubernetes:从代码提交到生产部署全流程
  • CI/CD 流水线设计:从代码提交到自动部署的工程化实践
  • Ansible 批量运维自动化:从临时命令到 Role 工程化
  • Consul 服务注册与发现:从入门到生产级健康检查
  • Harbor 镜像仓库生产运维:高可用、安全扫描与 CI/CD 集成
  • Secret 管理实战:HashiCorp Vault + External Secrets Operator
  • Kubernetes 日志采集方案选型:从技术对比到生产落地

2025-01
#

新增 5 篇 · Kubernetes 深度系列

  • Kubernetes 网络深度解析:CNI、kube-proxy、NetworkPolicy 完全指南
  • Kubernetes 资源管理实战:QoS、ResourceQuota、VPA 体系化实践
  • Kubernetes YAML 工程化:常用资源模板与生产最佳实践
  • Kubernetes RBAC 安全加固实战:最小权限到 NetworkPolicy
  • Jenkins + Kubernetes:动态 Agent 构建与流水线最佳实践

2024-12
#

新增 4 篇 · SRE 方法论

  • 可观测性建设:从 Prometheus 采集到 Grafana 告警联动
  • SRE 实践心得:从运维到 SRE 的思维转变
  • 故障排查方法论:从现象到根因
  • 运维工程师的技术成长:从执行者到架构者的路径规划

2024-11
#

新增 5 篇 · 数据库 + Python 自动化

  • MySQL 备份与恢复实战:从 mysqldump 到 XtraBackup 的完整方案
  • Redis 运维实践:持久化配置、集群模式与生产监控
  • Python 自动化运维:从脚本到完整工具的工程化实践
  • Python 异步编程实战:asyncio 在 AI 应用中的使用
  • Python 对接 Prometheus:查询监控数据与告警状态自动化

2024-10
#

新增 4 篇 · 基础工具链

  • Shell 脚本实战:Bash 自动化运维从入门到工程化
  • Git 工作流实战:分支策略与团队协作规范
  • Kubernetes 从零开始:工程师视角的入门指南
  • Nginx 运维完全指南:反向代理、负载均衡、HTTPS 与限流

2024-09
#

博客建站(2024-09-08)· 发布 4 篇

  • Linux 性能调优实战:CPU、内存、IO 瓶颈的系统排查方法
  • Linux 系统管理精要:DevOps 工程师必知的系统层知识
  • Docker 最佳实践:从 Dockerfile 到生产部署
  • Docker Compose 本地开发工作流:多服务环境搭建最佳实践

有建议或发现内容错误?欢迎在文章评论区留言,或前往 GitHub 提 Issue。

Wenzhuo Huang
作者
Wenzhuo Huang
搞运维的工程师,写代码的运维人。专注 Kubernetes、AWS、GitOps 与基础设施可靠性。这个博客既是我的技术笔记本,也是我踩过的坑的受害者档案。

相关文章