AI Agent 运行监控：成功率、人工接管和成本指标

AI Agent 上线以后，最容易被忽略的一件事，是持续运行监控。很多团队上线前做了测试，也设计了权限和回滚，但上线后只看“有没有人投诉”。这太晚了。真正的运行监控，应该在问题扩大之前就能看见信号。

运行监控要和上线准入清单、运行日志、事故复盘连起来。准入决定能不能发布，日志保留证据，监控负责告诉团队现在是否还稳定。

成功率不能只看完成状态

很多系统会把任务状态分成成功和失败，但 Agent 的“成功”经常很复杂。它可能完成了流程，却用了错误来源；也可能生成了答案，但被人工大幅修改；还可能成功发送了通知，但业务负责人认为时机不对。

因此任务成功率至少要拆成系统完成率、人工验收率和用户采纳率。系统完成只是第一层，真正值得关注的是结果有没有被人接受，是否需要反复返工。

失败原因不能只写“调用失败”或“模型错误”。更可用的分类包括输入缺失、权限拒绝、工具超时、知识库无来源、上下文冲突、人工未确认和外部系统异常。

这些分类可以接到异常分级。可重试的问题自动处理，需判断的问题进入人工接管，高风险问题暂停工作流。

人工接管不是坏事。生产级 Agent 本来就应该知道什么时候停下来找人。真正需要警惕的是两种情况：接管率突然升高，说明输入、工具或规则发生变化；接管率长期过低，可能说明 Agent 在不该自动的地方继续执行。

接管记录最好包含接管原因、接管人、处理时间和最终结果。这样才能判断问题来自 Agent 能力、流程设计，还是业务规则变化。

只看总调用成本，很难判断是否值得。更合理的是按任务类型看单位成本：一次客服问答、一次合同核对、一次日报生成、一次数据分析分别消耗多少模型调用和工具调用。

如果某类任务成本持续上升，就要回看是否检索太宽、上下文太长、重试太多，或者工具返回质量太差。这和工具输出校验是同一条线。

AI Agent 运行监控不是摆一张漂亮看板，而是把成功率、失败原因、人工接管、工具调用、成本和用户反馈放在一起。只有这些指标能互相解释，团队才知道 Agent 是真的稳定，还是只是暂时没有暴露问题。