AI Agent 工作流上线以后,很多团队只盯成功率。成功率平时很好看,不代表出问题时能稳住。真正要验证的是:工具失败、权限拒绝、数据异常、外部系统限流、人工不在线时,流程会不会乱跑。
事故演练不是大型企业才需要。哪怕只是一个内容发布、客户通知或知识库维护 Agent,也可以用小样本演练。它和 工具失败分类、人工接管、长任务检查点 是同一套生产能力。
先写清哪些情况算事故
不要等事故发生后再争论严重程度。可以提前列出触发条件:连续失败次数、错误写入、超预算、重复发送通知、引用来源缺失、敏感数据外露、人工确认超时。
每个触发条件都要对应处理动作:暂停、重试、降级、人工接管、撤回通知、回滚数据或只记录观察。这样演练时才有判断标准。
演练样本要贴近真实流程
演练不要只造一个明显错误。真实事故往往是半对半错:资料能查到但不是最新,接口返回成功但字段缺失,Agent 生成了看似合理却没有来源的结论。
可以从 知识库回放测试 和 评估集 里抽样,把历史失败、边界样本和高风险动作放进演练。
角色分工要提前写好
事故演练至少要分清三类人:谁判断是否暂停,谁负责技术排查,谁负责对外沟通。小团队可以一人多岗,但不能没有角色。
如果 Agent 涉及客户通知、合同、权限或数据写入,还要提前确认负责人不在线时由谁接手。否则真正出问题时,大家会先找人,再找日志,最后才处理影响。
复盘结论要变成配置修改
演练结束后,不要只写“流程基本可控”。真正有用的结论应该变成配置修改:新增一个阈值、补一个日志字段、收紧一个工具权限、增加一个人工确认点,或者调整一条回滚规则。
这些改动可以进入 月度复核表,下次复核时再看是否降低了重复风险。
总结
用 AI Agent 做事故演练,重点不是制造紧张感,而是在真实事故前验证暂停、接管、恢复和复盘能力。触发条件、演练样本、角色分工和改进清单提前准备好,Agent 工作流才有韧性。