OpenClaw 流程上线以后,失败不可怕,真正可怕的是失败没有被留下来。今天人工修好了,明天换一个模型、换一段提示词、换一个连接器,同样的问题可能再次出现。没有样本库,团队只能靠记忆排查。
失败回放样本库的作用,是把每次真实失败变成可复测资产。它可以接上 Agent 评估集、回归评估 和 审计日志,让质量改进不再停留在“感觉这次好多了”。
先保存原始输入
样本库第一列应该是原始输入,不要只保存整理后的描述。用户原话里的模糊、错别字、缺字段、口语表达,往往正是 Agent 失败的原因。清洗过的输入太漂亮,复测时就会失真。
如果输入包含敏感信息,可以做脱敏,但要保留结构。比如把客户名称替换成占位符,把金额区间化,而不是直接删掉整段上下文。
上下文片段要能还原当时环境
同一句用户请求,在不同知识库版本、不同权限范围、不同工具返回下,结果可能完全不同。样本库里要保存当时检索到的资料片段、工具返回、任务配置和模型版本。
这和 知识库更新闭环 关系很大。知识库改完以后,要用旧失败样本重跑,看看问题是修好了,还是只是换了一种回答方式。
工具报错不要只写失败
工具调用失败要保留具体类型:超时、权限拒绝、参数缺失、空结果、外部系统错误、重复写入、格式不匹配。只写“调用失败”,后面无法判断该修代码还是改权限。
如果团队已经按 工具失败分类 做过拆分,样本库可以直接复用这些标签。失败标签越稳定,后面统计趋势越有价值。
人工修正是最重要的答案
很多样本库只保存错误输入和错误输出,却忘了保存人工最后怎么改。真正有训练和评估价值的是人工修正:正确答案是什么,哪些字段被补了,哪些动作被取消,为什么需要接管。
人工修正还要标明处理人角色。法务、客服、运维、销售负责人对同一个失败的修正标准可能不同,后续评估时不能混在一起。
总结
OpenClaw 失败回放样本库要同时保存原始输入、上下文片段、工具报错、模型输出、人工修正和复测结果。把失败留成样本,团队才有办法持续改进,而不是反复处理同一类问题。