用 AI Agent 做知识库问答抽检：重点看来源准不准

知识库问答上线后，很多团队只看回答是否顺口。这个标准太松了。一个答案写得很自然，不代表它引用了正确资料；一个答案看起来完整，也可能把旧政策、新流程和用户猜测混在一起。

AI Agent 做知识库问答抽检，重点不是替人工打分，而是把每次回答背后的证据链留出来。这个流程可以和知识更新节奏、失败回放样本库和回归评估连起来。

先准备真实问题样本

抽检样本最好来自真实渠道：客服工单、销售问答、内部群消息、用户搜索词、产品反馈。不要只用团队自己写的标准问题，因为标准问题往往太整齐，测不出知识库在真实表达里的问题。

样本要按场景分组，比如价格、权限、售后、集成、合同、故障、操作步骤。每组保留少量高频问题和少量边界问题，就能看出 Agent 是否只会回答简单场景。

抽检时不能只保存最终答案。要把检索命中的资料标题、版本、更新时间、来源链接和片段一并保存。这样人工复核时才能判断：答案错，是因为模型理解错了，还是检索先拿错了资料。

如果多个资料互相冲突，也要记录下来。知识库冲突不是模型能完全解决的问题，它需要负责人合并、下线或标注有效范围。

有些问题 Agent 不该硬答。资料缺失、来源不确定、需要法务确认、涉及客户隐私、要求执行高风险动作，都应该触发拒答或转人工。抽检时要把拒答率和拒答原因单独列出来。

这和意图识别置信度的思路一致。低把握请求不要直接进入执行链路，知识库问答也不要为了显得能回答而编造。

抽检发现问题后，最重要的是把人工修正留下来。正确答案是什么，应该引用哪份资料，原答案哪里错，是否需要更新知识库，这些都要进入样本库。

后续每次改提示词、改检索策略、更新知识库，都可以拿这批样本重跑。这样知识库问答不是凭感觉优化，而是有一组持续增长的质量样本。

用 AI Agent 做知识库问答抽检，不能只看回答像不像人话，还要看来源准不准、拒答是否合理、人工修正能否沉淀。答案只是表面，证据链才是知识库质量的核心。