跳过正文

批处理

Argo Workflows 工作流实战:批处理与 ML Pipeline

Argo Workflows 工作流实战:批处理与 ML Pipeline

·2301 字·11 分钟
Argo Workflows 是 Kubernetes 原生的工作流引擎,适合批处理和 ML Pipeline 场景。本文涵盖与 Airflow/Temporal 的选型对比、核心资源模型、三个完整实战(DAG 数据处理、ML 训练 Pipeline、定时备份)、资源管控(Semaphore/Node Selector)、Argo Events 事件驱动触发,以及 Prometheus 监控和常见问题处理。
Kueue 批处理调度实战:让 Kubernetes 真正承担 AI/HPC 工作负载

Kueue 批处理调度实战:让 Kubernetes 真正承担 AI/HPC 工作负载

·1566 字·8 分钟
把 AI 训练任务塞进 Kubernetes,第一天你会发现原生调度器完全不够用:没有队列、没有 quota、没有 gang scheduling、没有公平共享、preemption 语义一塌糊涂。Kueue 是 sig-scheduling 官方给出的答案,它比 Volcano 更贴近 Kubernetes 原生、比自研 controller 更成熟。这是一份真实的生产笔记。