知识库问答上线后,很多团队只看回答是否顺口。这个标准太松了。一个答案写得很自然,不代表它引用了正确资料;一个答案看起来完整,也可能把旧政策、新流程和用户猜测混在一起。
AI Agent 做知识库问答抽检,重点不是替人工打分,而是把每次回答背后的证据链留出来。这个流程可以和 知识更新节奏、失败回放样本库 和 回归评估 连起来。
先准备真实问题样本
抽检样本最好来自真实渠道:客服工单、销售问答、内部群消息、用户搜索词、产品反馈。不要只用团队自己写的标准问题,因为标准问题往往太整齐,测不出知识库在真实表达里的问题。
样本要按场景分组,比如价格、权限、售后、集成、合同、故障、操作步骤。每组保留少量高频问题和少量边界问题,就能看出 Agent 是否只会回答简单场景。
命中资料要和答案一起保存
抽检时不能只保存最终答案。要把检索命中的资料标题、版本、更新时间、来源链接和片段一并保存。这样人工复核时才能判断:答案错,是因为模型理解错了,还是检索先拿错了资料。
如果多个资料互相冲突,也要记录下来。知识库冲突不是模型能完全解决的问题,它需要负责人合并、下线或标注有效范围。
拒答也是质量信号
有些问题 Agent 不该硬答。资料缺失、来源不确定、需要法务确认、涉及客户隐私、要求执行高风险动作,都应该触发拒答或转人工。抽检时要把拒答率和拒答原因单独列出来。
这和 意图识别置信度 的思路一致。低把握请求不要直接进入执行链路,知识库问答也不要为了显得能回答而编造。
人工修正要反哺样本库
抽检发现问题后,最重要的是把人工修正留下来。正确答案是什么,应该引用哪份资料,原答案哪里错,是否需要更新知识库,这些都要进入样本库。
后续每次改提示词、改检索策略、更新知识库,都可以拿这批样本重跑。这样知识库问答不是凭感觉优化,而是有一组持续增长的质量样本。
总结
用 AI Agent 做知识库问答抽检,不能只看回答像不像人话,还要看来源准不准、拒答是否合理、人工修正能否沉淀。答案只是表面,证据链才是知识库质量的核心。