跳过正文

Kubernetes

Playbook:每个 PR 一个独立环境——X-env header 路由 + 三层清理保障(深度版)

Playbook:每个 PR 一个独立环境——X-env header 路由 + 三层清理保障(深度版)

·4425 字·21 分钟
QA 共享环境是并行开发的最大瓶颈。本 Playbook 给出一套已经在多个业务服务上线、跑通端到端真实代码改动验证的 PR 隔离方案:feature 分支推送即触发 deploy.py 在独立 namespace 拉起 PR Pod,入口域名继续用 QA 域名,HTTPRoute 按 X-env header 把流量切到对应 PR Pod,关闭 PR + 24h cron + 容量水位三层清理避免泄漏。本版(v2 深度版)相对 v1 重点强化了可执行性:所有 yaml 是完整 manifest(含 namespace / RBAC / Secret),所有脚本都能 chmod +x 直接跑,每步含前置 / 执行 / 验证 / 回滚四件套,配 5 个完整踩坑修复 + 2 张 mermaid 图。
Playbook:中等规模公司的完整 DevOps 流程——从代码提交到生产部署的全链路设计

Playbook:中等规模公司的完整 DevOps 流程——从代码提交到生产部署的全链路设计

·3992 字·19 分钟
中等规模公司的 DevOps 体系最常见的两个症状:工具碎片化(GitLab + Jenkins + 手工 kubectl)和阶段衔接断裂(PR 慢、合并后部署延迟、监控滞后)。本文不讲入门概念,给一份真实可落地的全流程蓝图:开发者本机 → Git 提交 → 云效 / GitHub Actions CI(含 Schema Check 双 Stage)→ ECR/ACR → GitOps 仓库自动更新镜像 tag → ArgoCD 自动 sync → K8s 多集群部署 → Prometheus + Loki + 钉钉告警。每个环节标注用什么工具具体到版本号,关键集成点(ApplicationSet / Kustomize overlay / deploy.py)给完整可执行配置,配三个真实坑(GitOps 闭环缺口、deploy.py path-mode 切换混乱、多 ArgoCD 凭据路由),并给出 DORA 风格的 before/after 对比与采集脚本。可以把这篇当成整个 Playbook 系列的目录页。
OpenCost 实战:Kubernetes 成本可见性与多团队费用分摊

OpenCost 实战:Kubernetes 成本可见性与多团队费用分摊

·1780 字·9 分钟
Kubernetes 成本不透明是 FinOps 落地的最大障碍。本文通过 OpenCost 构建完整的成本可见性体系,涵盖部署集成、云厂商价格接入、按团队分摊、Grafana 看板、超预算告警和自动周报推送,提供可直接复用的配置。
Linux 火焰图实战:从采集到定位问题

Linux 火焰图实战:从采集到定位问题

·1745 字·9 分钟
CPU 飙高、响应慢、内存泄漏——这三类问题用火焰图都能快速定位。本文从怎么读火焰图开始,讲到 perf、async-profiler、py-spy 各自的适用场景,最后用一个真实的 Go 服务案例走完完整排查流程。
USE Method:系统性能分析方法论

USE Method:系统性能分析方法论

·1442 字·7 分钟
随机尝试是性能排查的大敌。USE Method 用一个三维框架(使用率/饱和度/错误)把所有系统资源纳入统一分析体系,本文从原理到实战全面解析这套方法论,并提供 K8s 环境下的 PromQL 映射和工具链速查表。
Kubernetes cgroup v2 迁移实践

Kubernetes cgroup v2 迁移实践

·1682 字·8 分钟
K8s 1.25+ 默认启用 cgroup v2,MemoryQoS 和 PSI 等新特性只在 v2 支持。本文给出完整的节点迁移操作流程和常见问题解决方案。
Argo Workflows 工作流实战:批处理与 ML Pipeline

Argo Workflows 工作流实战:批处理与 ML Pipeline

·2301 字·11 分钟
Argo Workflows 是 Kubernetes 原生的工作流引擎,适合批处理和 ML Pipeline 场景。本文涵盖与 Airflow/Temporal 的选型对比、核心资源模型、三个完整实战(DAG 数据处理、ML 训练 Pipeline、定时备份)、资源管控(Semaphore/Node Selector)、Argo Events 事件驱动触发,以及 Prometheus 监控和常见问题处理。
Service Mesh 技术选型:Istio vs Cilium vs Linkerd 深度对比

Service Mesh 技术选型:Istio vs Cilium vs Linkerd 深度对比

·1050 字·5 分钟
Istio、Cilium Service Mesh、Linkerd 三种方案各有侧重:Istio 功能最全但最重,Cilium 基于 eBPF 性能最优,Linkerd 最轻量最易运维。本文从架构、性能、功能、运维四个维度全面拆解,帮助架构师做出有数据支撑的选型决策。