RAG 评估体系:RAGAS 指标与幻觉检测实践2026-02-05·1391 字·7 分钟RAG 系统上线后,‘感觉回答质量还不错’不是一个可持续的评估方式。RAGAS 提供了一套可量化的评估框架,让你能追踪 Faithfulness、Answer Relevancy 等指标随时间的变化,并在每次改动后自动验证系统质量没有退化。
大模型核心概念:工程师需要理解的 LLM 基础2025-11-17·786 字·4 分钟同事第一次用 GPT-4 API 写代码时问我:为什么我发了一段中文,token 消耗比英文多那么多?为什么模型有时候会一本正经地胡说八道?这篇文章把我认为工程师必须理解的 LLM 概念系统整理了一遍,不涉及 Transformer 数学,只讲对你写代码有帮助的部分。
Python 异步编程实战:asyncio 在 AI 应用中的使用2024-11-22·1613 字·8 分钟AI 应用天然是 I/O 密集型的:等 LLM 响应、等向量数据库检索、等多个工具调用返回。同步写法在这里是性能杀手。这篇文章从 event loop 原理讲到实际的 AI 应用模式,重点是 asyncio.gather 并发调用、SSE 流式输出处理和常见陷阱排查。