AI Agent 上线准入清单：测试样本、权限和回滚方案

AI Agent 从试点走到生产环境时，最危险的状态是“看起来已经能跑”。演示场景顺利，不代表它能处理真实输入、权限边界、异常分支和人工接管。上线准入清单的价值，就是在发布前把这些风险逐项摊开。

这张清单应该和质量评估、权限复核、事故复盘放在一起。质量评估看它准不准，权限复核看它能不能做，事故复盘反过来补齐下一版准入标准。

测试样本不能只用成功案例

上线前最容易犯的错误，是只拿标准输入测试 Agent。真实用户不会总按模板提问，外部系统也不会总返回完整字段。准入测试里要包含正常样本、边界样本、缺字段样本、冲突样本和历史事故样本。

如果 Agent 只在干净样本上表现好，进入生产后就会把风险交给用户发现。更稳的做法，是把回放测试作为准入门槛，同一批样本在新版本里必须能稳定复现或被拦截。

准入清单里不能只写“已配置权限”。要写清楚每个任务场景需要哪些工具、哪些是只读、哪些是写入、哪些必须人工确认。权限给大了，上线后很难靠提示词补救。

这一步可以直接复用 OpenClaw 权限复核清单的结构。任务、工具、数据范围和审批人对齐后，准入才不是一句口头确认。

很多团队上线前会加一个确认按钮，但确认人看不到输入来源、工具返回、变更字段和影响范围。这样的确认只是把责任转给人，并没有提升判断质量。

准入标准应该规定：高风险动作必须展示证据包，包括原始输入、关键引用、工具调用结果、风险提示和拟执行动作。确认人能看见这些信息，才谈得上真正确认。

上线准入还要问一个朴素问题：如果这版 Agent 出错，怎么停？是关闭某个工具、暂停某条工作流、撤回已发送通知，还是把任务切回人工队列？这些动作不能等事故发生后再临时讨论。

回滚方案也要有负责人。可以参考 OpenClaw 责任矩阵，把触发人、审批人、异常接管人和复盘负责人分开。

AI Agent 上线准入清单不是为了增加流程负担，而是让团队知道这个 Agent 是否真的准备好进入生产。测试样本、权限、人工确认、日志、回滚和负责人一起检查，试点成功才更可能变成稳定运行。