Ollama 在 K8s 上跑大模型:本地 LLM 的运维实践2026-03-30·786 字·4 分钟在 Kubernetes 上部署 Ollama 运行本地大模型,从 GPU 调度到 CPU 推理降级,再到运维场景的实际集成,记录完整的踩坑与实践过程。
Volcano 批调度实战:AI 训练集群的 Gang Scheduling、队列与抢占2026-03-25·1782 字·9 分钟K8s 默认调度器对 AI 训练极不友好。Volcano 把 HPC 调度理念搬进 K8s:Gang Scheduling、Queue、Fairshare、Preemption、拓扑亲和。这篇讲清楚它在 AI 训练集群的落地。
LLM 生产服务化:vLLM 部署与 GPU 推理优化实战2026-01-13·865 字·5 分钟团队把 Ollama 搬上生产后,高峰期请求排队超过 30 秒,用户纷纷反映 AI 功能不可用。这篇文章记录我们迁移到 vLLM 的全过程,包括 PagedAttention、Continuous Batching 原理,以及 Kubernetes GPU 部署的完整配置。
Kubernetes GPU 调度实战:AI 训练与推理基础设施2025-11-05·1926 字·10 分钟GPU 是 AI 基础设施的核心资源,如何在 Kubernetes 上高效调度和管理 GPU 直接影响训练效率和推理成本。本文从底层驱动安装到上层调度策略,完整覆盖 K8s GPU 基础设施的搭建、监控和优化实践。