AI Agent 进入生产以后,改动会越来越频繁:提示词调一句,知识库换一批文档,工具多开放一个写入动作,模型切到新版本。每一次看起来都不大,但累计起来,Agent 的行为可能已经和上周完全不同。
所以变更复盘不能只看“成功率有没有上升”。成功率是结果指标,但它解释不了为什么变好,也发现不了一些更隐蔽的风险。它应该和 变更窗口、上线准入清单、质量门禁 连在一起。
先把改动拆成三类
复盘第一步,是区分这次到底改了什么。提示词变更影响判断风格,工具变更影响执行边界,知识库变更影响事实来源。三类改动混在一起看,最后很难判断问题来自哪里。
比如本周人工退回下降,可能是提示词更清楚,也可能是高风险工具暂时没有触发;知识库命中率上升,可能是资料补齐,也可能是旧资料被更频繁地检索出来。拆清改动类型,复盘才有意义。
失败样本要重跑
一次变更如果没有拿旧失败样本重跑,就很难判断它是否真的修好了问题。尤其是低置信度、资料冲突、工具超时、人工拒绝、格式异常这些样本,最能看出 Agent 的生产稳定性。
前面写过 失败回放样本库,它的价值就在这里。样本库不是事故档案,而是每次变更后的回归测试资产。
人工退回要看原因
人工退回率下降不一定是好事。如果质量门禁放松,退回率也会下降;如果审批人太忙,退回率也可能下降。复盘时要把退回原因拆开:证据不足、权限不清、口径错误、语气不合适、动作风险过高。
这部分可以接上 OpenClaw 审批队列。审批结果越结构化,变更复盘越容易知道哪些问题被真正修掉了。
要看业务影响,不只看模型指标
Agent 的改动最终要回到业务影响。客服回复是否更快,客户状态有没有误改,知识库维护是否减少重复劳动,成本是否因为重试下降而变低,这些都比单一成功率更接近真实价值。
如果一次变更让成功率上升,但成本、人工确认和高风险写入也明显增加,就不能简单判定为成功。它可能只是把风险推到了后面。
总结
AI Agent 变更复盘要看提示词、工具、知识库、失败样本、人工退回和业务影响。改完以后只盯成功率,很容易错过权限扩大、证据变弱和回滚困难这些生产风险。