推理部署

SGLang 结构化生成实战：RadixAttention、约束解码与多轮对话优化

2026-03-14·1759 字·9 分钟

SGLang 是被低估的 LLM 推理框架，RadixAttention 对多轮对话和 Agent 场景收益巨大。本文讲清 SGLang 的核心机制、前端 DSL、约束解码、部署方式和踩坑。

2026-03-03·1959 字·10 分钟

从单机 8 卡讲到多机多卡，把 vLLM 的 TP/PP 拆分、Ray 启动方式、NCCL 调优、PagedAttention 显存核算和常见翻车场景串成一条完整的落地路径。