<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>LLM on 黄文卓 | DevOps Engineer</title><link>https://socake.github.io/tags/llm/</link><description>Recent content in LLM on 黄文卓 | DevOps Engineer</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>17691281867@163.com (Wenzhuo Huang)</managingEditor><webMaster>17691281867@163.com (Wenzhuo Huang)</webMaster><copyright>© 2026 Wenzhuo Huang</copyright><lastBuildDate>Mon, 30 Mar 2026 09:08:00 +0800</lastBuildDate><atom:link href="https://socake.github.io/tags/llm/index.xml" rel="self" type="application/rss+xml"/><item><title>Ollama 在 K8s 上跑大模型：本地 LLM 的运维实践</title><link>https://socake.github.io/posts/ollama-kubernetes-llm/</link><pubDate>Mon, 30 Mar 2026 09:08:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/ollama-kubernetes-llm/</guid><description>在 Kubernetes 上部署 Ollama 运行本地大模型，从 GPU 调度到 CPU 推理降级，再到运维场景的实际集成，记录完整的踩坑与实践过程。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/ollama-kubernetes-llm/featured.jpg"/></item><item><title>LLaMA Factory 微调工具链实战：从数据准备到 LoRA 合并的全流程</title><link>https://socake.github.io/posts/llamafactory-finetuning/</link><pubDate>Wed, 18 Mar 2026 11:20:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/llamafactory-finetuning/</guid><description>LLaMA Factory 把大模型微调的很多 trick 工程化了。本文按一个完整项目的节奏讲：数据、SFT、LoRA、DPO、合并、评估和常见坑。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/llamafactory-finetuning/featured.jpg"/></item><item><title>SGLang 结构化生成实战：RadixAttention、约束解码与多轮对话优化</title><link>https://socake.github.io/posts/sglang-structured-generation/</link><pubDate>Sat, 14 Mar 2026 16:45:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/sglang-structured-generation/</guid><description>SGLang 是被低估的 LLM 推理框架，RadixAttention 对多轮对话和 Agent 场景收益巨大。本文讲清 SGLang 的核心机制、前端 DSL、约束解码、部署方式和踩坑。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/sglang-structured-generation/featured.jpg"/></item><item><title>Prompt Engineering 完全指南：从入门到工程化</title><link>https://socake.github.io/posts/prompt-engineering-guide/</link><pubDate>Mon, 09 Mar 2026 11:37:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/prompt-engineering-guide/</guid><description>Prompt Engineering 不是玄学，而是有规律可循的工程实践。从基础技巧到企业级工程化，本文覆盖提示词设计的完整方法论，包括 A/B 测试、版本管理、失效模式分析，以及在生产系统中管理提示词的最佳实践。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/prompt-engineering-guide/featured.jpg"/></item><item><title>vLLM 多机多卡分布式推理：Tensor Parallel 调优与踩坑实录</title><link>https://socake.github.io/posts/vllm-multi-node-distributed/</link><pubDate>Tue, 03 Mar 2026 09:30:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/vllm-multi-node-distributed/</guid><description>从单机 8 卡讲到多机多卡，把 vLLM 的 TP/PP 拆分、Ray 启动方式、NCCL 调优、PagedAttention 显存核算和常见翻车场景串成一条完整的落地路径。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/vllm-multi-node-distributed/featured.jpg"/></item><item><title>Langfuse：LLM 应用可观测性平台实战</title><link>https://socake.github.io/posts/langfuse-llm-observability/</link><pubDate>Sat, 14 Feb 2026 11:44:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/langfuse-llm-observability/</guid><description>讲清楚为什么LLM应用必须要可观测性，以及如何用Langfuse从链路追踪、Prompt版本管理、评估实验到成本分析做到全覆盖，包含Docker自托管部署和Python SDK完整集成示例。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/langfuse-llm-observability/featured.jpg"/></item><item><title>LangChain 从入门到实战：构建 LLM 应用的工程框架</title><link>https://socake.github.io/posts/langchain-practical-guide/</link><pubDate>Mon, 09 Feb 2026 11:01:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/langchain-practical-guide/</guid><description>LangChain 是构建 LLM 应用最流行的框架，但也是踩坑最多的框架之一。本文从 LCEL 表达式、ReAct Agent、LangGraph 工作流到生产部署，梳理真正有用的部分，并指出哪些功能实际工程中应该避免。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/langchain-practical-guide/featured.jpg"/></item><item><title>大模型赋能运维：LLM 在故障排查和自动化中的实际应用</title><link>https://socake.github.io/posts/aiops-llm-devops/</link><pubDate>Sat, 31 Jan 2026 12:06:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/aiops-llm-devops/</guid><description>LLM 不能替代运维工程师，但确实能把重复性、低价值的工作自动化掉。本文分享我在实际工作中用 Claude 落地的几个场景。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/aiops-llm-devops/featured.jpg"/></item><item><title>LLM 应用安全：Prompt Injection 防御与 AI Guardrails 实战</title><link>https://socake.github.io/posts/llm-security-guardrails/</link><pubDate>Fri, 23 Jan 2026 11:01:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/llm-security-guardrails/</guid><description>我们的 AI 客服系统曾被一个用户用一句话绕过所有限制，让它泄露了内部知识库的敏感信息。这篇文章系统梳理 LLM 应用的安全威胁模型，以及我们在生产系统中实施的防御层次。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/llm-security-guardrails/featured.jpg"/></item><item><title>LLM 成本优化实战：从 Token 预算到模型路由</title><link>https://socake.github.io/posts/llm-cost-optimization/</link><pubDate>Mon, 19 Jan 2026 13:03:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/llm-cost-optimization/</guid><description>我们的 AI 功能上线第一个月，LLM API 账单是 $18,000。通过模型路由、Prompt Caching 和 Batch API，第三个月降到了 $3,200。这篇文章记录具体怎么做到的。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/llm-cost-optimization/featured.jpg"/></item><item><title>LLM 生产服务化：vLLM 部署与 GPU 推理优化实战</title><link>https://socake.github.io/posts/llm-production-serving-vllm/</link><pubDate>Tue, 13 Jan 2026 13:36:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/llm-production-serving-vllm/</guid><description>团队把 Ollama 搬上生产后，高峰期请求排队超过 30 秒，用户纷纷反映 AI 功能不可用。这篇文章记录我们迁移到 vLLM 的全过程，包括 PagedAttention、Continuous Batching 原理，以及 Kubernetes GPU 部署的完整配置。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/llm-production-serving-vllm/featured.jpg"/></item><item><title>2026 大模型全景：主力模型横评与选型指南</title><link>https://socake.github.io/posts/llm-landscape-2025/</link><pubDate>Fri, 09 Jan 2026 13:50:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/llm-landscape-2025/</guid><description>GPT-5.4、Claude Opus 4.6、Gemini 2.5 Pro、Llama 4 Scout、DeepSeek V3.2——2026年4月的大模型格局已经和一年前完全不同。本文从工程师视角梳理当前主力模型的真实规格与适用边界，给出场景化选型矩阵，并讨论开源追平闭源、推理模型标配化、agent workload 崛起这三个2026年的核心判断。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/llm-landscape-2025/featured.jpg"/></item><item><title>大模型核心概念：工程师需要理解的 LLM 基础</title><link>https://socake.github.io/posts/llm-core-concepts/</link><pubDate>Mon, 17 Nov 2025 11:37:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/llm-core-concepts/</guid><description>同事第一次用 GPT-4 API 写代码时问我：为什么我发了一段中文，token 消耗比英文多那么多？为什么模型有时候会一本正经地胡说八道？这篇文章把我认为工程师必须理解的 LLM 概念系统整理了一遍，不涉及 Transformer 数学，只讲对你写代码有帮助的部分。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/llm-core-concepts/featured.jpg"/></item><item><title>Python 异步编程实战：asyncio 在 AI 应用中的使用</title><link>https://socake.github.io/posts/python-async-programming/</link><pubDate>Fri, 22 Nov 2024 12:44:00 +0800</pubDate><author>17691281867@163.com (Wenzhuo Huang)</author><guid>https://socake.github.io/posts/python-async-programming/</guid><description>AI 应用天然是 I/O 密集型的：等 LLM 响应、等向量数据库检索、等多个工具调用返回。同步写法在这里是性能杀手。这篇文章从 event loop 原理讲到实际的 AI 应用模式，重点是 asyncio.gather 并发调用、SSE 流式输出处理和常见陷阱排查。</description><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://socake.github.io/posts/python-async-programming/featured.jpg"/></item></channel></rss>