vLLM 多机多卡分布式推理:Tensor Parallel 调优与踩坑实录2026-03-03·1959 字·10 分钟从单机 8 卡讲到多机多卡,把 vLLM 的 TP/PP 拆分、Ray 启动方式、NCCL 调优、PagedAttention 显存核算和常见翻车场景串成一条完整的落地路径。