AI Agent 回归评估：提示词、工具和知识库改完都要重跑

很多团队做 AI Agent 评估，只在第一次上线前认真测一轮。后面改提示词、换模型、补知识库、加工具权限时，觉得只是“小调整”，没有重新跑样本。问题往往就出在这里：小调整改变了行为路径，旧任务开始出现新错误。

回归评估的作用，是在每次关键变更后回答一个问题：以前能做对的事，现在还做得对吗？它要接上 Agent 评估集、知识库回放测试、数据质量门禁，不能只看新功能是否跑通。

哪些变更必须重跑

只要会改变 Agent 判断路径，就应该重跑回归样本。常见情况包括：系统提示词调整、模型切换、工具清单变化、工具权限放大、知识库更新、输出模板修改、阈值规则变化和人工确认点调整。

不要只把代码发布当成变更。对 Agent 来说，提示词、工具和知识库同样会改变生产行为。它们都需要版本记录和复测证据。

回归评估不能只拿历史失败样本。历史成功样本也要保留，因为它们能发现“原来稳定的流程被新配置破坏了”。

建议把样本分成三类：高频任务、历史失败、边界场景。高频任务看基本盘是否稳定；历史失败看修复是否有效；边界场景看 Agent 有没有在模糊输入、权限不足、资料冲突时乱跑。

有些回归问题，最后答案看起来没错，但中间路径已经变危险了。比如 Agent 开始调用更高权限工具，绕过数据质量门禁，或者不再引用权威知识库。

所以回归评估要看最终结果、工具路径、引用来源、人工修改率、成本变化和异常标记。这些字段可以进入审计日志和运行看板。

复测不是为了生成一个分数，而是为了决定能不能发布。上线门槛可以写得很具体：关键字段不能错，高风险工具不能新增未审批调用，引用来源必须可追溯，成本不能异常上升，历史失败样本必须通过。

如果有样本没有通过，不一定必须阻断所有发布。可以按风险选择灰度、只读上线、暂停写入节点，或者退回上一版。

AI Agent 回归评估的核心，是把每次提示词、工具和知识库变更都当成会影响生产行为的发布。样本重跑、路径复核、门槛明确，团队才能避免“新配置修好一个问题，又悄悄弄坏三个旧流程”。