很多团队做 AI Agent 评估,只在第一次上线前认真测一轮。后面改提示词、换模型、补知识库、加工具权限时,觉得只是“小调整”,没有重新跑样本。问题往往就出在这里:小调整改变了行为路径,旧任务开始出现新错误。
回归评估的作用,是在每次关键变更后回答一个问题:以前能做对的事,现在还做得对吗?它要接上 Agent 评估集、知识库回放测试、数据质量门禁,不能只看新功能是否跑通。
哪些变更必须重跑
只要会改变 Agent 判断路径,就应该重跑回归样本。常见情况包括:系统提示词调整、模型切换、工具清单变化、工具权限放大、知识库更新、输出模板修改、阈值规则变化和人工确认点调整。
不要只把代码发布当成变更。对 Agent 来说,提示词、工具和知识库同样会改变生产行为。它们都需要版本记录和复测证据。
样本要覆盖旧成功和旧失败
回归评估不能只拿历史失败样本。历史成功样本也要保留,因为它们能发现“原来稳定的流程被新配置破坏了”。
建议把样本分成三类:高频任务、历史失败、边界场景。高频任务看基本盘是否稳定;历史失败看修复是否有效;边界场景看 Agent 有没有在模糊输入、权限不足、资料冲突时乱跑。
结果要看路径而不只看答案
有些回归问题,最后答案看起来没错,但中间路径已经变危险了。比如 Agent 开始调用更高权限工具,绕过数据质量门禁,或者不再引用权威知识库。
所以回归评估要看最终结果、工具路径、引用来源、人工修改率、成本变化和异常标记。这些字段可以进入 审计日志 和 运行看板。
上线门槛要提前写清
复测不是为了生成一个分数,而是为了决定能不能发布。上线门槛可以写得很具体:关键字段不能错,高风险工具不能新增未审批调用,引用来源必须可追溯,成本不能异常上升,历史失败样本必须通过。
如果有样本没有通过,不一定必须阻断所有发布。可以按风险选择灰度、只读上线、暂停写入节点,或者退回上一版。
总结
AI Agent 回归评估的核心,是把每次提示词、工具和知识库变更都当成会影响生产行为的发布。样本重跑、路径复核、门槛明确,团队才能避免“新配置修好一个问题,又悄悄弄坏三个旧流程”。