SGLang 结构化生成实战:RadixAttention、约束解码与多轮对话优化2026-03-14·1759 字·9 分钟SGLang 是被低估的 LLM 推理框架,RadixAttention 对多轮对话和 Agent 场景收益巨大。本文讲清 SGLang 的核心机制、前端 DSL、约束解码、部署方式和踩坑。
vLLM 多机多卡分布式推理:Tensor Parallel 调优与踩坑实录2026-03-03·1959 字·10 分钟从单机 8 卡讲到多机多卡,把 vLLM 的 TP/PP 拆分、Ray 启动方式、NCCL 调优、PagedAttention 显存核算和常见翻车场景串成一条完整的落地路径。