TensorRT-LLM 推理加速实战:从 engine 编译到 kernel 调优2026-03-07·2152 字·11 分钟TensorRT-LLM 是 NVIDIA 端到端推理栈的关键一环,这篇把 engine 编译流程、plugin 机制、量化策略、inflight batching、kernel 调优和生产踩坑都梳理清楚。