Triton

Unsloth 高效微调实战：单卡 QLoRA 的极致性能与内部原理

2026-03-22·1493 字·8 分钟

Unsloth 用手写 Triton kernel 把单卡 LoRA 微调速度和显存压到极致。本文讲清 Unsloth 的原理、和 LLaMA Factory/TRL 的组合用法，以及真实使用的坑。

2026-03-11·2056 字·10 分钟

把 Triton 从一个陌生的 NVIDIA 推理服务器讲清楚：model repository、backend、动态批处理、ensemble、BLS、Python backend、生产监控和踩坑实录。