OpenClaw 失败回放样本库：报错、上下文和人工修正

OpenClaw 流程上线以后，失败不可怕，真正可怕的是失败没有被留下来。今天人工修好了，明天换一个模型、换一段提示词、换一个连接器，同样的问题可能再次出现。没有样本库，团队只能靠记忆排查。

失败回放样本库的作用，是把每次真实失败变成可复测资产。它可以接上 Agent 评估集、回归评估和审计日志，让质量改进不再停留在“感觉这次好多了”。

先保存原始输入

样本库第一列应该是原始输入，不要只保存整理后的描述。用户原话里的模糊、错别字、缺字段、口语表达，往往正是 Agent 失败的原因。清洗过的输入太漂亮，复测时就会失真。

如果输入包含敏感信息，可以做脱敏，但要保留结构。比如把客户名称替换成占位符，把金额区间化，而不是直接删掉整段上下文。

同一句用户请求，在不同知识库版本、不同权限范围、不同工具返回下，结果可能完全不同。样本库里要保存当时检索到的资料片段、工具返回、任务配置和模型版本。

这和知识库更新闭环关系很大。知识库改完以后，要用旧失败样本重跑，看看问题是修好了，还是只是换了一种回答方式。

工具调用失败要保留具体类型：超时、权限拒绝、参数缺失、空结果、外部系统错误、重复写入、格式不匹配。只写“调用失败”，后面无法判断该修代码还是改权限。

如果团队已经按工具失败分类做过拆分，样本库可以直接复用这些标签。失败标签越稳定，后面统计趋势越有价值。

很多样本库只保存错误输入和错误输出，却忘了保存人工最后怎么改。真正有训练和评估价值的是人工修正：正确答案是什么，哪些字段被补了，哪些动作被取消，为什么需要接管。

人工修正还要标明处理人角色。法务、客服、运维、销售负责人对同一个失败的修正标准可能不同，后续评估时不能混在一起。

OpenClaw 失败回放样本库要同时保存原始输入、上下文片段、工具报错、模型输出、人工修正和复测结果。把失败留成样本，团队才有办法持续改进，而不是反复处理同一类问题。