AI Agent 异常分级：可重试、需确认和必须熔断

AI Agent 跑任务时一定会遇到异常。真正拉开差距的，不是有没有报错，而是系统能不能判断这个异常该忽略、该重试、该找人确认，还是必须马上停下来。很多自动化事故，都是把所有异常都当成“再试一次”处理，结果把小问题放大成连续错误。

异常分级要和运行日志、工具输出校验、熔断暂停机制放在一起看。日志负责留下证据，校验负责发现坏数据，分级负责决定下一步动作。

先把可忽略异常剥离出来

不是每个异常都值得打断流程。比如某个补充字段暂时为空、非关键资料链接失效、第三方接口返回了不影响主任务的提示，这些可以进入低优先级记录，不必立刻升级给人。

但“可忽略”不能靠感觉判断。每类任务都要写清哪些字段是核心字段，哪些只是辅助信息。否则 Agent 很容易把真正影响结论的缺失内容也当成小问题跳过去。

网络超时、限流、临时服务不可用，可以进入自动重试。但重试一定要有次数、间隔和退出条件。连续失败三次还继续重试，往往只是在消耗额度和制造噪音。

这部分可以复用失败重试与幂等设计的思路：只对幂等、可恢复、不会重复写入的动作重试。涉及发送、付款、改权限、写 CRM 的动作，不应该默认自动重试。

很多异常不是技术失败，而是业务判断不够确定。比如客户需求和合同条款冲突、工具返回两组不一致数据、知识库里出现新旧口径，这时 Agent 不应该装作已经判断清楚。

更好的做法是把异常整理成一张确认单：问题是什么，影响哪个字段，已查过哪些来源，建议下一步是什么，需要谁确认。它和人工接管队列是同一个方向。

有些异常不能等人工慢慢看。比如连续写入失败、权限异常、凭证疑似泄露、同一任务重复触发、输出校验连续不通过，都应该触发熔断，暂停同类任务或同一工具调用。

熔断不是失败，而是把风险控制在小范围内。暂停后再通过回放测试和复盘记录判断是否恢复，比带着不确定继续跑更稳。

AI Agent 异常分级的价值，是让系统在出错时仍然有秩序。可忽略、可重试、需确认、必须熔断和需要复盘的异常分清以后，团队才能减少误重试、漏升级和自动化事故扩大。