AI Agent 从试点走到生产环境时,最危险的状态是“看起来已经能跑”。演示场景顺利,不代表它能处理真实输入、权限边界、异常分支和人工接管。上线准入清单的价值,就是在发布前把这些风险逐项摊开。
这张清单应该和 质量评估、权限复核、事故复盘 放在一起。质量评估看它准不准,权限复核看它能不能做,事故复盘反过来补齐下一版准入标准。
测试样本不能只用成功案例
上线前最容易犯的错误,是只拿标准输入测试 Agent。真实用户不会总按模板提问,外部系统也不会总返回完整字段。准入测试里要包含正常样本、边界样本、缺字段样本、冲突样本和历史事故样本。
如果 Agent 只在干净样本上表现好,进入生产后就会把风险交给用户发现。更稳的做法,是把 回放测试 作为准入门槛,同一批样本在新版本里必须能稳定复现或被拦截。
权限和任务场景要一一对应
准入清单里不能只写“已配置权限”。要写清楚每个任务场景需要哪些工具、哪些是只读、哪些是写入、哪些必须人工确认。权限给大了,上线后很难靠提示词补救。
这一步可以直接复用 OpenClaw 权限复核清单 的结构。任务、工具、数据范围和审批人对齐后,准入才不是一句口头确认。
人工确认要有可见证据
很多团队上线前会加一个确认按钮,但确认人看不到输入来源、工具返回、变更字段和影响范围。这样的确认只是把责任转给人,并没有提升判断质量。
准入标准应该规定:高风险动作必须展示证据包,包括原始输入、关键引用、工具调用结果、风险提示和拟执行动作。确认人能看见这些信息,才谈得上真正确认。
回滚方案要提前演练
上线准入还要问一个朴素问题:如果这版 Agent 出错,怎么停?是关闭某个工具、暂停某条工作流、撤回已发送通知,还是把任务切回人工队列?这些动作不能等事故发生后再临时讨论。
回滚方案也要有负责人。可以参考 OpenClaw 责任矩阵,把触发人、审批人、异常接管人和复盘负责人分开。
总结
AI Agent 上线准入清单不是为了增加流程负担,而是让团队知道这个 Agent 是否真的准备好进入生产。测试样本、权限、人工确认、日志、回滚和负责人一起检查,试点成功才更可能变成稳定运行。