推理

LLM 生产服务化：vLLM 部署与 GPU 推理优化实战

2026-01-13·865 字·5 分钟

团队把 Ollama 搬上生产后，高峰期请求排队超过 30 秒，用户纷纷反映 AI 功能不可用。这篇文章记录我们迁移到 vLLM 的全过程，包括 PagedAttention、Continuous Batching 原理，以及 Kubernetes GPU 部署的完整配置。