NVIDIA on 黄文卓 | DevOps Engineer

NVIDIA on 黄文卓 | DevOps Engineerhttps://socake.github.io/tags/nvidia/Recent content in NVIDIA on 黄文卓 | DevOps EngineerHugo -- gohugo.iozh-CN17691281867@163.com (Wenzhuo Huang)17691281867@163.com (Wenzhuo Huang)© 2026 Wenzhuo HuangWed, 11 Mar 2026 10:00:00 +0800Triton Inference Server 生产部署：模型编排、动态批处理与多框架混部https://socake.github.io/posts/triton-inference-server-production/Wed, 11 Mar 2026 10:00:00 +080017691281867@163.com (Wenzhuo Huang)https://socake.github.io/posts/triton-inference-server-production/把 Triton 从一个陌生的 NVIDIA 推理服务器讲清楚：model repository、backend、动态批处理、ensemble、BLS、Python backend、生产监控和踩坑实录。Kubernetes GPU 调度实战：AI 训练与推理基础设施https://socake.github.io/posts/kubernetes-gpu-scheduling/Wed, 05 Nov 2025 14:00:00 +080017691281867@163.com (Wenzhuo Huang)https://socake.github.io/posts/kubernetes-gpu-scheduling/GPU 是 AI 基础设施的核心资源，如何在 Kubernetes 上高效调度和管理 GPU 直接影响训练效率和推理成本。本文从底层驱动安装到上层调度策略，完整覆盖 K8s GPU 基础设施的搭建、监控和优化实践。