TensorRT-LLM

TensorRT-LLM 推理加速实战：从 engine 编译到 kernel 调优

2026-03-07·2152 字·11 分钟

TensorRT-LLM 是 NVIDIA 端到端推理栈的关键一环，这篇把 engine 编译流程、plugin 机制、量化策略、inflight batching、kernel 调优和生产踩坑都梳理清楚。