AI Agent 出问题以后,最常见也最没用的复盘结论,是“模型答错了”。这句话看似抓到了原因,实际把很多关键问题都盖住了:输入是不是清楚,知识库是不是过期,工具返回是不是异常,权限是不是给大了,人工确认是不是缺位。
事故复盘要接上 运行日志、异常分级、质量评估。日志提供证据,异常分级决定处理动作,质量评估负责把事故样本沉淀成后续测试。
先还原触发入口
复盘第一步不是评价答案,而是还原任务从哪里来。是用户在聊天里触发,还是表单、Webhook、定时任务、外部系统事件触发?入口不同,责任边界也不同。
如果入口信息本身就不完整,Agent 后面再努力也可能误判。比如用户没有提供客户编号,系统却默认匹配了同名客户,这就不是单纯的模型错误,而是输入校验和确认流程没有设计好。
工具调用路径要单独复盘
Agent 的最终结果可能错,也可能结果没错但路径有风险。它是否调用了正确工具,是否用了过期知识库,是否跳过了更权威的数据源,是否对失败返回做了重试或降级,这些都要单独看。
这部分可以对照 工具输出校验 和 最小权限。如果工具返回缺字段却仍继续生成结论,问题在校验;如果只读任务调用了写入工具,问题在权限边界。
影响范围要写业务语言
事故影响不要只写“1 次任务失败”。要写清影响了谁、影响到什么流程、是否产生外部动作、是否需要补救。内部草稿写错和自动发给客户写错,严重程度完全不同。
如果事故已经影响客户、财务、权限、合同或公开内容,就要记录补救动作:撤回、通知、重发、人工复核、权限回收或流程暂停。
纠正措施要能验证
“优化提示词”“加强审核”这类措施太空。更好的纠正措施是可验证的:新增输入必填字段、加入工具返回字段校验、把某类动作改成人工确认、将事故样本加入回放测试、降低某个工具权限。
复盘后还要做一次 回放测试。同一个事故样本在新规则下能否被拦住,比复盘会上说了多少次重视更重要。
总结
AI Agent 事故复盘的目标,不是找一句“模型答错了”来结束讨论,而是把触发入口、上下文、工具、权限、人工接管、影响范围和纠正措施连起来。只有根因能落到流程层,下一次事故才有机会被提前拦住。