AI Agent 变更复盘：提示词、工具和知识库改完看什么

AI Agent 进入生产以后，改动会越来越频繁：提示词调一句，知识库换一批文档，工具多开放一个写入动作，模型切到新版本。每一次看起来都不大，但累计起来，Agent 的行为可能已经和上周完全不同。

所以变更复盘不能只看“成功率有没有上升”。成功率是结果指标，但它解释不了为什么变好，也发现不了一些更隐蔽的风险。它应该和变更窗口、上线准入清单、质量门禁连在一起。

先把改动拆成三类

复盘第一步，是区分这次到底改了什么。提示词变更影响判断风格，工具变更影响执行边界，知识库变更影响事实来源。三类改动混在一起看，最后很难判断问题来自哪里。

比如本周人工退回下降，可能是提示词更清楚，也可能是高风险工具暂时没有触发；知识库命中率上升，可能是资料补齐，也可能是旧资料被更频繁地检索出来。拆清改动类型，复盘才有意义。

一次变更如果没有拿旧失败样本重跑，就很难判断它是否真的修好了问题。尤其是低置信度、资料冲突、工具超时、人工拒绝、格式异常这些样本，最能看出 Agent 的生产稳定性。

前面写过失败回放样本库，它的价值就在这里。样本库不是事故档案，而是每次变更后的回归测试资产。

人工退回率下降不一定是好事。如果质量门禁放松，退回率也会下降；如果审批人太忙，退回率也可能下降。复盘时要把退回原因拆开：证据不足、权限不清、口径错误、语气不合适、动作风险过高。

这部分可以接上 OpenClaw 审批队列。审批结果越结构化，变更复盘越容易知道哪些问题被真正修掉了。

Agent 的改动最终要回到业务影响。客服回复是否更快，客户状态有没有误改，知识库维护是否减少重复劳动，成本是否因为重试下降而变低，这些都比单一成功率更接近真实价值。

如果一次变更让成功率上升，但成本、人工确认和高风险写入也明显增加，就不能简单判定为成功。它可能只是把风险推到了后面。

AI Agent 变更复盘要看提示词、工具、知识库、失败样本、人工退回和业务影响。改完以后只盯成功率，很容易错过权限扩大、证据变弱和回滚困难这些生产风险。