AI Agent 质量评估：正确率、路径和人工修改率

很多团队评估 AI Agent 时，只看最后答案对不对。这个指标当然重要，但它不够。Agent 进入真实流程后，结果正确、路径错误也可能埋风险；答案看起来顺，但人工每次都要改很多，也说明系统没有真正稳定。

质量评估要和运行日志、回放测试、工具输出校验放在一起看。日志留下过程，回放提供样本，校验负责把坏数据挡在前面，评估才有依据。

正确率要拆到业务字段

不要只给整篇输出打一个“正确”或“不正确”。更稳的做法，是把业务字段拆开评估：客户名称是否正确，风险等级是否合理，负责人是否匹配，截止日期有没有算错，证据来源是否可信。

字段级评估可以帮助团队定位问题。如果正文表达不错，但风险等级经常错，问题可能在规则和知识库；如果字段都对但格式混乱，问题更可能在输出模板。

Agent 有时能得到正确答案，但用了不该用的工具，或者绕过了更可靠的数据源。短期看结果没出错，长期看会带来权限、成本和审计问题。

比如同一个客户信息，Agent 本来应该查 CRM，却去读旧会议纪要；本来只需要只读查询，却调用了可写工具。这类问题要结合最小权限和任务输入表单一起检查。

满意度容易受语气和预期影响，人工修改率更接近真实工作量。每次输出后，人改了哪些字段、删了哪些结论、补了哪些证据，都应该被记录下来。

如果一个 Agent 的结果经常被大幅修改，它也许不是“可用”，只是把工作从从零开始改成从半成品开始改。质量评估要敢于暴露这种差异。

评估表里不要只写失败。要进一步拆成输入不清、知识库过期、工具返回异常、权限不足、提示词版本问题、业务规则缺失、人工确认缺位。不同原因对应不同修法。

这些失败样本可以进入异常看板，也可以沉淀到回放测试集里。下次改提示词、改工具或改规则时，就用这些真实样本重新跑一遍。

AI Agent 质量评估不是为了做一张漂亮分数表，而是判断系统能不能稳定进入业务流程。正确率、工具路径、人工修改率、失败原因和业务影响一起看，团队才知道该继续扩大使用，还是先补治理底座。