跳过正文

CI/CD

Playbook:让 DDL 风险在合并前可见——CI/CD 双 Stage Schema Check 设计

Playbook:让 DDL 风险在合并前可见——CI/CD 双 Stage Schema Check 设计

·4038 字·19 分钟
很多团队把 schema diff 接进流水线后仍然出 DDL 事故——绿色构建 + warning 通知,没人读,等于没装。本文记录一套已经在 5 条主流水线(MySQL / PostgreSQL)上线两周的双 Stage 设计:pre stage 在 PR 阶段以 warning 模式跑,给开发者『提前修』的窗口;post stage 在合并到 PRE 后以 fail 模式跑,缺表/破坏性 DDL 直接阻塞 PRE → PROD 推进。给出完整 schema_check.py、ignore-rules.yaml、双 stage 云效 Flow YAML、GitHub Actions 等价实现、PR 评论机器人脚本、5 种 DDL 危险场景的 unit test、跨服务依赖图脚本,以及五个踩坑的完整修复与复现脚本。
Playbook:CI/CD 流水线模板化——3 个标准模板覆盖 80% 服务的端到端实战

Playbook:CI/CD 流水线模板化——3 个标准模板覆盖 80% 服务的端到端实战

·5048 字·24 分钟
在 80+ 条流水线的体量下,每条服务自己拷一份 yaml 是工程债:字段命名漂移、改一次通知模板要改 80 处、新人不知道照哪条抄。本文把方案从「思路」推进到「拿来即用」:每个标准模板给完整 YAML(含 anchors / 变量组绑定 / 审批节点)、对应 GitHub Actions reusable workflow、Jenkins shared library;附 create-pipeline.sh 端到端脚本、变量组管理 API 调用、模板回归测试 dry-run;7 个云效官方文档不写的硬约束(schedule 不工作 / step envs 失效 / stage 间永远线性渲染等)每个含完整修复 + 通用结论。
Playbook:中等规模公司的完整 DevOps 流程——从代码提交到生产部署的全链路设计

Playbook:中等规模公司的完整 DevOps 流程——从代码提交到生产部署的全链路设计

·3992 字·19 分钟
中等规模公司的 DevOps 体系最常见的两个症状:工具碎片化(GitLab + Jenkins + 手工 kubectl)和阶段衔接断裂(PR 慢、合并后部署延迟、监控滞后)。本文不讲入门概念,给一份真实可落地的全流程蓝图:开发者本机 → Git 提交 → 云效 / GitHub Actions CI(含 Schema Check 双 Stage)→ ECR/ACR → GitOps 仓库自动更新镜像 tag → ArgoCD 自动 sync → K8s 多集群部署 → Prometheus + Loki + 钉钉告警。每个环节标注用什么工具具体到版本号,关键集成点(ApplicationSet / Kustomize overlay / deploy.py)给完整可执行配置,配三个真实坑(GitOps 闭环缺口、deploy.py path-mode 切换混乱、多 ArgoCD 凭据路由),并给出 DORA 风格的 before/after 对比与采集脚本。可以把这篇当成整个 Playbook 系列的目录页。
Flagger 渐进式交付实战:金丝雀、蓝绿、A/B 与 Istio/NGINX/Gateway API 集成

Flagger 渐进式交付实战:金丝雀、蓝绿、A/B 与 Istio/NGINX/Gateway API 集成

·4105 字·20 分钟
传统的 kubectl apply 发布方式让风险集中在发布那一刻。Flagger 通过指标驱动的渐进式切流(Canary Analysis),把风险摊到整个发布过程,异常自动回滚。本文基于官方文档,系统讲解 Canary CR 的完整字段、三种策略的配置模板、与 Istio/NGINX Ingress/Gateway API 的集成、自定义指标分析、自动化回滚机制,以及与 Argo Rollouts 的选型对比。
FluxCD vs ArgoCD 深度对比与迁移实战:架构、语义、多租户与选型决策

FluxCD vs ArgoCD 深度对比与迁移实战:架构、语义、多租户与选型决策

·4855 字·23 分钟
GitOps 的两条主流路线——FluxCD 与 ArgoCD——在架构、语义、运维成本和扩展性上有显著差异。本文基于官方文档和生产实战,按同步模型、应用抽象、多租户隔离、Helm 支持、可观测性、扩展机制逐项对比,给出选型决策树,并提供一套可复用的从 ArgoCD 迁移到 FluxCD 的操作手册。
容器镜像构建优化:BuildKit、多阶段构建与供应链安全

容器镜像构建优化:BuildKit、多阶段构建与供应链安全

·1603 字·8 分钟
深入剖析容器镜像构建优化的每个环节:BuildKit 并行构建与 Secrets 注入、Go/Python/Node.js 多阶段 Dockerfile 模板、–mount=type=cache 与远程缓存、Distroless vs Alpine 选型、dive 分析层内容,以及完整的供应链安全闭环(syft SBOM + Cosign 签名 + K8s 准入控制验签)。
Dagger 实战:用代码而不是 YAML 编写 CI/CD

Dagger 实战:用代码而不是 YAML 编写 CI/CD

·1653 字·8 分钟
每次迁移 CI 平台(Jenkins → GitLab → GitHub Actions → Tekton),业务流水线都要重写一遍。Dagger 的思路是:把流水线写成可移植的代码(Go/Python/TS),底层引擎负责执行和缓存,CI 平台只是调用方。本文讲清楚它怎么工作、什么时候值得引入。
Tekton Pipelines 企业级落地:从 Task 抽象到供应链签名

Tekton Pipelines 企业级落地:从 Task 抽象到供应链签名

·1901 字·9 分钟
Jenkins 扛不动 K8s Native 的调度压力,GitLab Runner 又太 monolithic。Tekton 把 ‘CI job’ 拆成 Task + Pipeline + PipelineRun 三层 CRD,所有执行都是 Pod,天然贴合 K8s。本文讲清楚它在企业里该怎么用——以及怎么避免把它用成 YAML 地狱。

发版回滚 SOP

·811 字·4 分钟
涵盖回滚判断标准、K8s/ArgoCD/配置各层回滚操作、数据库变更的前向修复 vs 回滚取舍,以及完整的值班人员操作 SOP 模板。

多环境发版策略设计

·806 字·4 分钟
覆盖环境划分标准、分支策略(GitFlow vs Trunk-based)、镜像 tag 策略、自动/手动审批节点、金丝雀发布、蓝绿部署,以及发版后验证 checklist。