运维工程师的 AI 工具实践2026-04-03·642 字·4 分钟从写 Shell 脚本、解读错误信息到辅助故障排查,分享运维工程师真实使用 AI 工具的高效场景、无效场景和 Prompt 技巧,以及各工具的适合场景。
Ollama 在 K8s 上跑大模型:本地 LLM 的运维实践2026-03-30·786 字·4 分钟在 Kubernetes 上部署 Ollama 运行本地大模型,从 GPU 调度到 CPU 推理降级,再到运维场景的实际集成,记录完整的踩坑与实践过程。
Embedding 模型选型与优化实战:从 BGE 到 OpenAI Embedding2026-02-21·940 字·5 分钟系统对比 2026 年主流 Embedding 模型,从原理到工程实践,覆盖选型决策、缓存设计和批量优化
Advanced RAG:超越 Naive RAG 的高级检索增强技术2026-02-04·1214 字·6 分钟系统拆解 Naive RAG 的三类失败模式,提供混合检索、HyDE、查询改写、Parent-Child 分块等高级技术的完整实现
大模型赋能运维:LLM 在故障排查和自动化中的实际应用2026-01-31·992 字·5 分钟LLM 不能替代运维工程师,但确实能把重复性、低价值的工作自动化掉。本文分享我在实际工作中用 Claude 落地的几个场景。
LLM 应用安全:Prompt Injection 防御与 AI Guardrails 实战2026-01-23·1010 字·5 分钟我们的 AI 客服系统曾被一个用户用一句话绕过所有限制,让它泄露了内部知识库的敏感信息。这篇文章系统梳理 LLM 应用的安全威胁模型,以及我们在生产系统中实施的防御层次。
LLM 成本优化实战:从 Token 预算到模型路由2026-01-19·1312 字·7 分钟我们的 AI 功能上线第一个月,LLM API 账单是 $18,000。通过模型路由、Prompt Caching 和 Batch API,第三个月降到了 $3,200。这篇文章记录具体怎么做到的。
LLM Tool Use 完全指南:Function Calling 设计模式与生产实践2026-01-18·1521 字·8 分钟从工程视角深入 LLM Tool Use:覆盖 OpenAI 与 Claude API 差异、工具 Schema 设计、并发调用、错误恢复,附完整运维助手代码示例
LLM 生产服务化:vLLM 部署与 GPU 推理优化实战2026-01-13·865 字·5 分钟团队把 Ollama 搬上生产后,高峰期请求排队超过 30 秒,用户纷纷反映 AI 功能不可用。这篇文章记录我们迁移到 vLLM 的全过程,包括 PagedAttention、Continuous Batching 原理,以及 Kubernetes GPU 部署的完整配置。