AI Agent 知识库回放测试：旧问题、新答案和引用来源

知识库改版以后，最容易出现的不是系统完全不能用，而是答案悄悄漂移。旧问题以前能答对，现在引用了另一份资料；原来应该拒答的问题，现在被模型拼了一个听起来合理的答案。要发现这些问题，回放测试比人工随便问几句更可靠。

这套流程可以接上知识库问答质检、引用冲突处理、知识库过期巡检。质检发现问题，回放验证改动，过期巡检决定哪些资料要下线。

先整理一批旧问题

旧问题最好来自真实用户或团队历史问答，不要只用标准 FAQ。可以保留客户常问问题、内部流程问题、边界问题、曾经答错的问题和应该拒答的问题。

每个问题旁边要保留当时的期望答案、关键引用来源和风险等级。只有问题没有标准，回放时就会变成新的主观判断。

回放时不要只看答案是否顺滑，而要逐条看：结论有没有变，引用来源是不是正确，是否带出过期口径，是否遗漏人工确认提醒，是否把内部备注写进对外答案。

如果新答案更好，也要记录为什么更好。比如来源更新了、适用范围更清楚了、拒答条件更稳了。这样后续复盘时才知道改版带来了什么收益。

很多 RAG 问答的问题不在生成，而在检索。答案看起来对，但引用的是旧资料；或者引用来源对，但只截取了片段，漏掉了限制条件。

因此回放表里要有来源标题、更新时间、命中段落和适用范围。涉及合同、价格、隐私、售后承诺的问题，最好再经过人工确认。

回放不是为了得到一个分数，而是为了形成下一步动作：哪些文档要下线，哪些问题要加拒答，哪些提示词要补充，哪些样本要加入 Agent 评估集。

如果回放发现工具调用或权限问题，也要同步到运行看板，否则知识库修好了，执行链路仍然可能出错。

用 AI Agent 做知识库回放测试，重点是把旧问题、新答案、引用来源、拒答条件、人工纠错和更新清单逐条对齐。知识库每次改版都能回放，答案才不会在不知不觉中漂移。