AI Agent 上线以后,最容易出现一种错觉:只要没有用户投诉,就说明流程运行稳定。实际情况往往相反。很多错误会被人工默默修掉,很多失败会被重试掩盖,很多回答看起来完整,却没有真正完成业务动作。
所以生产监控不能只看调用量和响应时间。它要接上 运行看板、审计日志 和 回归评估,把“有没有跑起来”升级成“有没有稳定完成真实任务”。
任务成功率要按业务结果算
很多系统会把模型正常返回当成成功,但这对 Agent 来说不够。用户让它创建工单,模型回了一段解释,不等于工单已经创建;用户让它整理报价材料,生成了草稿,也不等于材料能直接给客户。
更可靠的成功率要按业务结果定义:任务是否完成,关键字段是否齐全,工具是否执行成功,用户或审核人是否接受结果。这个口径一开始就要写清楚,否则后面看到 98% 成功率,也不知道它成功在哪里。
工具失败要单独拆出来
Agent 的失败不一定来自模型。连接器超时、权限拒绝、空结果、参数错误、外部系统限流,都会让最终结果变差。如果只看总失败率,就很难判断应该改提示词、修工具,还是调整权限。
这部分可以接着看 OpenClaw 工具失败分类。生产监控里至少要把模型理解失败、工具调用失败、数据质量失败和人工拒绝分开统计。
失败回放比失败截图更有用
发现失败以后,团队需要能重放当时的上下文:用户输入是什么,检索到了哪些资料,模型做了什么计划,调用了哪个工具,返回了什么错误,人工后来怎么修正。
如果只留下截图或一句“系统异常”,后面很难复盘。失败回放样本还可以进入 Agent 评估集,下次改模型、改提示词、改工具时,用同一批失败样本验证有没有真的变好。
告警样本要少而准
告警不是越多越好。失败率短时波动、成本突然升高、人工接管变多、高风险动作被拒绝、同一工具连续超时,这些才值得优先提醒。没有行动价值的提醒,会很快变成噪音。
可以参考 异常阈值 的做法:每条告警都要写清触发条件、影响范围、建议处理人和暂停策略。这样告警不是吓人,而是把人带到该看的地方。
总结
AI Agent 生产监控的核心,是把成功率、工具失败、失败回放、告警样本和人工接管分开看。只有指标能还原真实任务链路,团队才知道下一步该优化模型、工具、权限,还是业务流程。