AI/机器学习

Embedding 模型选型与优化实战：从 BGE 到 OpenAI Embedding

2026-02-21·940 字·5 分钟

系统对比 2026 年主流 Embedding 模型，从原理到工程实践，覆盖选型决策、缓存设计和批量优化

2026-02-04·1214 字·6 分钟

系统拆解 Naive RAG 的三类失败模式，提供混合检索、HyDE、查询改写、Parent-Child 分块等高级技术的完整实现

2026-01-23·1010 字·5 分钟

我们的 AI 客服系统曾被一个用户用一句话绕过所有限制，让它泄露了内部知识库的敏感信息。这篇文章系统梳理 LLM 应用的安全威胁模型，以及我们在生产系统中实施的防御层次。

2026-01-19·1312 字·7 分钟

我们的 AI 功能上线第一个月，LLM API 账单是 $18,000。通过模型路由、Prompt Caching 和 Batch API，第三个月降到了 $3,200。这篇文章记录具体怎么做到的。

2026-01-18·1521 字·8 分钟

从工程视角深入 LLM Tool Use：覆盖 OpenAI 与 Claude API 差异、工具 Schema 设计、并发调用、错误恢复，附完整运维助手代码示例

2026-01-13·865 字·5 分钟

团队把 Ollama 搬上生产后，高峰期请求排队超过 30 秒，用户纷纷反映 AI 功能不可用。这篇文章记录我们迁移到 vLLM 的全过程，包括 PagedAttention、Continuous Batching 原理，以及 Kubernetes GPU 部署的完整配置。