CUDA on 黄文卓 | DevOps Engineer

CUDA on 黄文卓 | DevOps Engineerhttps://socake.github.io/tags/cuda/Recent content in CUDA on 黄文卓 | DevOps EngineerHugo -- gohugo.iozh-CN17691281867@163.com (Wenzhuo Huang)17691281867@163.com (Wenzhuo Huang)© 2026 Wenzhuo HuangSat, 07 Mar 2026 14:20:00 +0800TensorRT-LLM 推理加速实战：从 engine 编译到 kernel 调优https://socake.github.io/posts/tensorrt-llm-inference/Sat, 07 Mar 2026 14:20:00 +080017691281867@163.com (Wenzhuo Huang)https://socake.github.io/posts/tensorrt-llm-inference/TensorRT-LLM 是 NVIDIA 端到端推理栈的关键一环，这篇把 engine 编译流程、plugin 机制、量化策略、inflight batching、kernel 调优和生产踩坑都梳理清楚。