Ollama 在 K8s 上跑大模型:本地 LLM 的运维实践2026-03-30·786 字·4 分钟在 Kubernetes 上部署 Ollama 运行本地大模型,从 GPU 调度到 CPU 推理降级,再到运维场景的实际集成,记录完整的踩坑与实践过程。
LLaMA Factory 微调工具链实战:从数据准备到 LoRA 合并的全流程2026-03-18·1605 字·8 分钟LLaMA Factory 把大模型微调的很多 trick 工程化了。本文按一个完整项目的节奏讲:数据、SFT、LoRA、DPO、合并、评估和常见坑。
SGLang 结构化生成实战:RadixAttention、约束解码与多轮对话优化2026-03-14·1759 字·9 分钟SGLang 是被低估的 LLM 推理框架,RadixAttention 对多轮对话和 Agent 场景收益巨大。本文讲清 SGLang 的核心机制、前端 DSL、约束解码、部署方式和踩坑。
Prompt Engineering 完全指南:从入门到工程化2026-03-09·721 字·4 分钟Prompt Engineering 不是玄学,而是有规律可循的工程实践。从基础技巧到企业级工程化,本文覆盖提示词设计的完整方法论,包括 A/B 测试、版本管理、失效模式分析,以及在生产系统中管理提示词的最佳实践。
vLLM 多机多卡分布式推理:Tensor Parallel 调优与踩坑实录2026-03-03·1959 字·10 分钟从单机 8 卡讲到多机多卡,把 vLLM 的 TP/PP 拆分、Ray 启动方式、NCCL 调优、PagedAttention 显存核算和常见翻车场景串成一条完整的落地路径。
Langfuse:LLM 应用可观测性平台实战2026-02-14·836 字·4 分钟讲清楚为什么LLM应用必须要可观测性,以及如何用Langfuse从链路追踪、Prompt版本管理、评估实验到成本分析做到全覆盖,包含Docker自托管部署和Python SDK完整集成示例。
LangChain 从入门到实战:构建 LLM 应用的工程框架2026-02-09·1045 字·5 分钟LangChain 是构建 LLM 应用最流行的框架,但也是踩坑最多的框架之一。本文从 LCEL 表达式、ReAct Agent、LangGraph 工作流到生产部署,梳理真正有用的部分,并指出哪些功能实际工程中应该避免。
大模型赋能运维:LLM 在故障排查和自动化中的实际应用2026-01-31·992 字·5 分钟LLM 不能替代运维工程师,但确实能把重复性、低价值的工作自动化掉。本文分享我在实际工作中用 Claude 落地的几个场景。
LLM 应用安全:Prompt Injection 防御与 AI Guardrails 实战2026-01-23·1010 字·5 分钟我们的 AI 客服系统曾被一个用户用一句话绕过所有限制,让它泄露了内部知识库的敏感信息。这篇文章系统梳理 LLM 应用的安全威胁模型,以及我们在生产系统中实施的防御层次。
LLM 成本优化实战:从 Token 预算到模型路由2026-01-19·1312 字·7 分钟我们的 AI 功能上线第一个月,LLM API 账单是 $18,000。通过模型路由、Prompt Caching 和 Batch API,第三个月降到了 $3,200。这篇文章记录具体怎么做到的。