AI Agent 生产监控指标：成功率、失败回放和告警样本

AI Agent 上线以后，最容易出现一种错觉：只要没有用户投诉，就说明流程运行稳定。实际情况往往相反。很多错误会被人工默默修掉，很多失败会被重试掩盖，很多回答看起来完整，却没有真正完成业务动作。

所以生产监控不能只看调用量和响应时间。它要接上运行看板、审计日志和回归评估，把“有没有跑起来”升级成“有没有稳定完成真实任务”。

任务成功率要按业务结果算

很多系统会把模型正常返回当成成功，但这对 Agent 来说不够。用户让它创建工单，模型回了一段解释，不等于工单已经创建；用户让它整理报价材料，生成了草稿，也不等于材料能直接给客户。

更可靠的成功率要按业务结果定义：任务是否完成，关键字段是否齐全，工具是否执行成功，用户或审核人是否接受结果。这个口径一开始就要写清楚，否则后面看到 98% 成功率，也不知道它成功在哪里。

Agent 的失败不一定来自模型。连接器超时、权限拒绝、空结果、参数错误、外部系统限流，都会让最终结果变差。如果只看总失败率，就很难判断应该改提示词、修工具，还是调整权限。

这部分可以接着看 OpenClaw 工具失败分类。生产监控里至少要把模型理解失败、工具调用失败、数据质量失败和人工拒绝分开统计。

发现失败以后，团队需要能重放当时的上下文：用户输入是什么，检索到了哪些资料，模型做了什么计划，调用了哪个工具，返回了什么错误，人工后来怎么修正。

如果只留下截图或一句“系统异常”，后面很难复盘。失败回放样本还可以进入 Agent 评估集，下次改模型、改提示词、改工具时，用同一批失败样本验证有没有真的变好。

告警不是越多越好。失败率短时波动、成本突然升高、人工接管变多、高风险动作被拒绝、同一工具连续超时，这些才值得优先提醒。没有行动价值的提醒，会很快变成噪音。

可以参考异常阈值的做法：每条告警都要写清触发条件、影响范围、建议处理人和暂停策略。这样告警不是吓人，而是把人带到该看的地方。

AI Agent 生产监控的核心，是把成功率、工具失败、失败回放、告警样本和人工接管分开看。只有指标能还原真实任务链路，团队才知道下一步该优化模型、工具、权限，还是业务流程。