AI Agent 评估集：真实任务、失败样本和人工标准

AI Agent 看起来变强了，常常只是演示问题变顺了。真正要判断一个 Agent 是否适合继续上线、扩容或改版，需要一套稳定的评估集。它不追求题目多，而是要覆盖真实任务、失败样本和人工判断标准。

评估集可以接住站内已经写过的上线准入清单、运行监控、月度复核。上线前看它能不能过关，上线后看它有没有退步，改版时看新旧版本差异。

先从真实任务里抽样

评估集不要从脑子里编十个问题。最可靠的来源，是历史工单、客户问题、内部问答、销售跟进、合同检查和知识库维护记录。真实任务里会有缺字段、错别字、口径不清和边界条件，这些才是 Agent 在生产环境里会遇到的东西。

抽样时可以按任务类型分组：常规高频、低频高风险、容易误判、需要人工确认、涉及敏感信息。每组不必很多，但要能代表真实使用压力。

很多团队只保留成功案例，导致后续改版时看不出风险。真正有价值的是失败样本：曾经答错的问题、引用过期资料的问题、工具调用失败的问题、人工接管的问题和用户明确不采纳的问题。

这些样本应该和事故复盘、知识库引用冲突放在一起。失败样本不是丢脸记录，而是以后避免重复犯错的基线。

评估集不能只写“答案正确”。更好的标准是：必须引用哪类来源，不能输出哪些敏感字段，遇到冲突资料是否拒答，工具写入前是否请求确认，结论是否能被业务负责人直接采用。

如果人工标准写不清，模型再强也只能猜。标准越具体，自动评分和人工复核才越有一致性。

提示词、模型、工具参数、知识库和权限一旦调整，就应该跑一遍核心评估集。结果不只看通过率，还要看失败原因是否变化、成本是否上升、人工接管是否增加。

这一步和 OpenClaw 变更审批流很适合配合：没有通过评估集的版本，不应该直接进入生产。

AI Agent 评估集的价值，是让团队用同一批真实任务持续比较。真实任务、失败样本、人工标准、知识库来源和回放结果一起保留，Agent 的稳定性才不会只停留在演示感觉上。