用 AI Agent 做知识库问答质检：证据、过期和误答复盘

知识库问答系统最容易让人误判。答案写得很顺，语气也像客服，但真正核对来源时，可能引用了过期文档、漏掉限制条件，或者把相邻产品的规则混在一起。只看命中率和用户满意度，往往发现不了这些问题。

用 AI Agent 做知识库问答质检，重点不是再生成一个答案，而是把“问题、答案、证据、错误类型、修复建议”整理出来。它可以接上知识库过期巡检、证据链设计和 Agent 评估指标，形成持续改进闭环。

先建立抽样问题池

质检不能只挑几个标准问题。真实用户会用错别字、简称、反问、混合需求和不完整描述。问题池最好包括高频问题、低频高风险问题、历史投诉问题、客服手动改答问题和近期新增文档相关问题。

Agent 可以从客服记录、搜索词、站内留言和表单反馈里整理问题池，再按栏目、产品、风险等级抽样。这样质检更接近真实使用场景，而不是只验证理想问法。

问答质检的关键不是“这个答案看起来对不对”，而是“它有没有被证据支持”。Agent 应该检查回答中每个关键事实是否能回到知识库片段，尤其是价格、时间、权限、限制条件、版本差异和操作步骤。

如果答案没有证据，或者证据来自旧版本，就应该标记为高风险。这里不要让模型用语气弥补证据缺口，找不到就是找不到。

误答不只有一种。常见类型包括检索不到、检索错文档、证据过期、答案过度推断、遗漏限制条件、把多个产品混写、没有提示人工咨询。不同错误对应不同修复方式。

比如检索错文档，可能要改标题、标签和分段；证据过期，可能要归档旧文档；遗漏限制条件，则要补充 FAQ 或把规则写得更明确。质检输出最好直接给到改写建议，而不是只打一个分。

一次质检没有太大意义。真正有用的是持续看趋势：哪些栏目误答率高，哪些问题经常需要人工改答，哪些文档被错误引用，哪些新版内容没有被检索到。运营团队才能据此安排更新优先级。

如果知识库问答已经接入业务系统，输出前还要参考 AI Agent 输出校验，避免错误答案直接进入客户通知或内部审批。

用 AI Agent 做知识库问答质检，价值在于把流畅答案拆回证据和错误类型。抽样问题要真实，答案要能回点，误答要能分类，修复建议要能进入运营节奏。只看命中率，很容易漏掉真正危险的错误。