很多团队评估 AI Agent 时,只看最后答案对不对。这个指标当然重要,但它不够。Agent 进入真实流程后,结果正确、路径错误也可能埋风险;答案看起来顺,但人工每次都要改很多,也说明系统没有真正稳定。
质量评估要和 运行日志、回放测试、工具输出校验 放在一起看。日志留下过程,回放提供样本,校验负责把坏数据挡在前面,评估才有依据。
正确率要拆到业务字段
不要只给整篇输出打一个“正确”或“不正确”。更稳的做法,是把业务字段拆开评估:客户名称是否正确,风险等级是否合理,负责人是否匹配,截止日期有没有算错,证据来源是否可信。
字段级评估可以帮助团队定位问题。如果正文表达不错,但风险等级经常错,问题可能在规则和知识库;如果字段都对但格式混乱,问题更可能在输出模板。
工具调用路径要单独看
Agent 有时能得到正确答案,但用了不该用的工具,或者绕过了更可靠的数据源。短期看结果没出错,长期看会带来权限、成本和审计问题。
比如同一个客户信息,Agent 本来应该查 CRM,却去读旧会议纪要;本来只需要只读查询,却调用了可写工具。这类问题要结合 最小权限 和 任务输入表单 一起检查。
人工修改率比满意度更硬
满意度容易受语气和预期影响,人工修改率更接近真实工作量。每次输出后,人改了哪些字段、删了哪些结论、补了哪些证据,都应该被记录下来。
如果一个 Agent 的结果经常被大幅修改,它也许不是“可用”,只是把工作从从零开始改成从半成品开始改。质量评估要敢于暴露这种差异。
失败原因要能反哺优化
评估表里不要只写失败。要进一步拆成输入不清、知识库过期、工具返回异常、权限不足、提示词版本问题、业务规则缺失、人工确认缺位。不同原因对应不同修法。
这些失败样本可以进入 异常看板,也可以沉淀到回放测试集里。下次改提示词、改工具或改规则时,就用这些真实样本重新跑一遍。
总结
AI Agent 质量评估不是为了做一张漂亮分数表,而是判断系统能不能稳定进入业务流程。正确率、工具路径、人工修改率、失败原因和业务影响一起看,团队才知道该继续扩大使用,还是先补治理底座。