知识库改版以后,最容易出现的不是系统完全不能用,而是答案悄悄漂移。旧问题以前能答对,现在引用了另一份资料;原来应该拒答的问题,现在被模型拼了一个听起来合理的答案。要发现这些问题,回放测试比人工随便问几句更可靠。
这套流程可以接上 知识库问答质检、引用冲突处理、知识库过期巡检。质检发现问题,回放验证改动,过期巡检决定哪些资料要下线。
先整理一批旧问题
旧问题最好来自真实用户或团队历史问答,不要只用标准 FAQ。可以保留客户常问问题、内部流程问题、边界问题、曾经答错的问题和应该拒答的问题。
每个问题旁边要保留当时的期望答案、关键引用来源和风险等级。只有问题没有标准,回放时就会变成新的主观判断。
新答案要和旧标准逐条对齐
回放时不要只看答案是否顺滑,而要逐条看:结论有没有变,引用来源是不是正确,是否带出过期口径,是否遗漏人工确认提醒,是否把内部备注写进对外答案。
如果新答案更好,也要记录为什么更好。比如来源更新了、适用范围更清楚了、拒答条件更稳了。这样后续复盘时才知道改版带来了什么收益。
引用来源要单独检查
很多 RAG 问答的问题不在生成,而在检索。答案看起来对,但引用的是旧资料;或者引用来源对,但只截取了片段,漏掉了限制条件。
因此回放表里要有来源标题、更新时间、命中段落和适用范围。涉及合同、价格、隐私、售后承诺的问题,最好再经过人工确认。
回放结果要生成更新清单
回放不是为了得到一个分数,而是为了形成下一步动作:哪些文档要下线,哪些问题要加拒答,哪些提示词要补充,哪些样本要加入 Agent 评估集。
如果回放发现工具调用或权限问题,也要同步到 运行看板,否则知识库修好了,执行链路仍然可能出错。
总结
用 AI Agent 做知识库回放测试,重点是把旧问题、新答案、引用来源、拒答条件、人工纠错和更新清单逐条对齐。知识库每次改版都能回放,答案才不会在不知不觉中漂移。