知识库问答系统最容易让人误判。答案写得很顺,语气也像客服,但真正核对来源时,可能引用了过期文档、漏掉限制条件,或者把相邻产品的规则混在一起。只看命中率和用户满意度,往往发现不了这些问题。
用 AI Agent 做知识库问答质检,重点不是再生成一个答案,而是把“问题、答案、证据、错误类型、修复建议”整理出来。它可以接上 知识库过期巡检、证据链设计 和 Agent 评估指标,形成持续改进闭环。
先建立抽样问题池
质检不能只挑几个标准问题。真实用户会用错别字、简称、反问、混合需求和不完整描述。问题池最好包括高频问题、低频高风险问题、历史投诉问题、客服手动改答问题和近期新增文档相关问题。
Agent 可以从客服记录、搜索词、站内留言和表单反馈里整理问题池,再按栏目、产品、风险等级抽样。这样质检更接近真实使用场景,而不是只验证理想问法。
每个答案都要回到证据片段
问答质检的关键不是“这个答案看起来对不对”,而是“它有没有被证据支持”。Agent 应该检查回答中每个关键事实是否能回到知识库片段,尤其是价格、时间、权限、限制条件、版本差异和操作步骤。
如果答案没有证据,或者证据来自旧版本,就应该标记为高风险。这里不要让模型用语气弥补证据缺口,找不到就是找不到。
误答类型要分清
误答不只有一种。常见类型包括检索不到、检索错文档、证据过期、答案过度推断、遗漏限制条件、把多个产品混写、没有提示人工咨询。不同错误对应不同修复方式。
比如检索错文档,可能要改标题、标签和分段;证据过期,可能要归档旧文档;遗漏限制条件,则要补充 FAQ 或把规则写得更明确。质检输出最好直接给到改写建议,而不是只打一个分。
质检结果要进入运营看板
一次质检没有太大意义。真正有用的是持续看趋势:哪些栏目误答率高,哪些问题经常需要人工改答,哪些文档被错误引用,哪些新版内容没有被检索到。运营团队才能据此安排更新优先级。
如果知识库问答已经接入业务系统,输出前还要参考 AI Agent 输出校验,避免错误答案直接进入客户通知或内部审批。
总结
用 AI Agent 做知识库问答质检,价值在于把流畅答案拆回证据和错误类型。抽样问题要真实,答案要能回点,误答要能分类,修复建议要能进入运营节奏。只看命中率,很容易漏掉真正危险的错误。