AI Agent 看起来变强了,常常只是演示问题变顺了。真正要判断一个 Agent 是否适合继续上线、扩容或改版,需要一套稳定的评估集。它不追求题目多,而是要覆盖真实任务、失败样本和人工判断标准。
评估集可以接住站内已经写过的 上线准入清单、运行监控、月度复核。上线前看它能不能过关,上线后看它有没有退步,改版时看新旧版本差异。
先从真实任务里抽样
评估集不要从脑子里编十个问题。最可靠的来源,是历史工单、客户问题、内部问答、销售跟进、合同检查和知识库维护记录。真实任务里会有缺字段、错别字、口径不清和边界条件,这些才是 Agent 在生产环境里会遇到的东西。
抽样时可以按任务类型分组:常规高频、低频高风险、容易误判、需要人工确认、涉及敏感信息。每组不必很多,但要能代表真实使用压力。
失败样本比成功样本更值钱
很多团队只保留成功案例,导致后续改版时看不出风险。真正有价值的是失败样本:曾经答错的问题、引用过期资料的问题、工具调用失败的问题、人工接管的问题和用户明确不采纳的问题。
这些样本应该和 事故复盘、知识库引用冲突 放在一起。失败样本不是丢脸记录,而是以后避免重复犯错的基线。
人工标准要写得足够具体
评估集不能只写“答案正确”。更好的标准是:必须引用哪类来源,不能输出哪些敏感字段,遇到冲突资料是否拒答,工具写入前是否请求确认,结论是否能被业务负责人直接采用。
如果人工标准写不清,模型再强也只能猜。标准越具体,自动评分和人工复核才越有一致性。
每次改版都要回放
提示词、模型、工具参数、知识库和权限一旦调整,就应该跑一遍核心评估集。结果不只看通过率,还要看失败原因是否变化、成本是否上升、人工接管是否增加。
这一步和 OpenClaw 变更审批流 很适合配合:没有通过评估集的版本,不应该直接进入生产。
总结
AI Agent 评估集的价值,是让团队用同一批真实任务持续比较。真实任务、失败样本、人工标准、知识库来源和回放结果一起保留,Agent 的稳定性才不会只停留在演示感觉上。