Triton Inference Server 生产部署:模型编排、动态批处理与多框架混部2026-03-11·2056 字·10 分钟把 Triton 从一个陌生的 NVIDIA 推理服务器讲清楚:model repository、backend、动态批处理、ensemble、BLS、Python backend、生产监控和踩坑实录。
Kubernetes GPU 调度实战:AI 训练与推理基础设施2025-11-05·1926 字·10 分钟GPU 是 AI 基础设施的核心资源,如何在 Kubernetes 上高效调度和管理 GPU 直接影响训练效率和推理成本。本文从底层驱动安装到上层调度策略,完整覆盖 K8s GPU 基础设施的搭建、监控和优化实践。