AI Agent 评估指标怎么定：成功率、成本和复盘

评估 AI Agent 时，很多团队最容易盯着一个问题：它回答得像不像人。这个指标当然有用，但如果只看表达质量，很容易把一个“会说”的系统误判成“能做事”的系统。真正要上线到业务流程里的 Agent，必须看任务是否完成、成本是否可控、失败能不能追溯。

这也是为什么本站前面讲 AI Agent 任务规划和 AI Agent 工具调用时，一直强调执行链路。Agent 的价值不在于多写几句解释，而在于把目标拆开、调用工具、产出可验证结果。

第一类指标：任务成功率

任务成功率是最核心的指标。它回答的是：用户交给 Agent 的任务，有多少真的按要求完成了。这里的“完成”不能只靠模型自评，而要有验收条件。比如周报有没有覆盖指定信息源，客服回复有没有命中正确政策，资料整理有没有保留来源链接。

一个实用做法是把任务分成简单、中等、复杂三档，分别记录成功率。否则平均数会掩盖问题：简单问答几乎都对，复杂流程却频繁失败，最后看起来还像一个不错的 Agent。

人工接管率不是坏指标，它反而能说明系统边界是否清楚。客服、销售、内容审核、权限操作这类场景，都不应该追求完全无人值守。关键是接管发生在该发生的时候，而不是 Agent 卡住、答错之后才被迫补救。

比如昨天写的客服 FAQ 做成 AI Agent 前的 6 类问题，其中很多高风险问题就应该主动转人工。评估时要看 Agent 能不能识别边界，而不是一味把所有问题都接下来。

Agent 的成本不只是模型 token。它可能会搜索网页、读取知识库、调用数据库、生成图片、发送消息，每一步都有时间和费用。一个看似聪明的 Agent，如果每次回答都反复查十几个来源，真实成本可能比人工还高。

所以评估时要记录每个任务的平均调用次数、失败重试次数和总耗时。低频高价值任务可以接受高成本，高频客服问答就必须压低调用链路。

可复盘性决定 Agent 能不能越用越稳。至少要能看到用户输入、计划步骤、工具调用、非敏感参数、工具返回和最终输出。没有这些信息，出了问题只能说“模型不靠谱”，很难继续优化。

这部分可以接着看 OpenClaw 日志复盘方法。只要日志能还原链路，很多问题都会从抽象抱怨变成具体修复项：提示词不清、资料过期、工具权限不足，或者验收条件写得太松。

AI Agent 评估不该停在“回答是否自然”。更稳的指标组合是任务成功率、人工接管率、工具调用成本和日志可复盘性。只有这些指标都站得住，Agent 才适合从演示走向真实业务。