AI Agent 证据链设计：输入、工具、判断和人工改动留痕

AI Agent 进入真实流程以后，最怕的不是一次回答不完美，而是出错以后没人说得清它为什么会这样做。用户给了什么输入，检索到了哪些资料，调用过哪些工具，模型做了什么判断，人又改了哪里，如果这些都散在不同系统里，复盘就会变成猜谜。

所以证据链不是合规部门才关心的东西，而是 Agent 生产化的基础能力。前面写过 Agent 观测性、工具权限模型和任务状态机，证据链就是把这些运行痕迹串成一条能被人读懂的线。

先保留原始输入

很多团队只保存最后答案，却不保存用户最初怎么问。这样一旦结果有争议，就没法判断问题来自用户表达、知识库检索，还是 Agent 自己推理。原始输入至少要保留时间、发起人、任务入口、附件和关键上下文。

如果输入来自聊天、表单、邮件或工单系统，还要保存来源链接或记录编号。不要只存一段被整理过的摘要，因为摘要本身也可能丢掉判断所需的细节。

Agent 读取知识库、网页、表格或内部系统时，返回给模型的片段要带来源。来源不只是一个标题，最好包含文档 ID、段落位置、更新时间和检索关键词。这样后面发现答案引用了旧资料时，才能知道该修知识库还是改检索规则。

这和 AI Agent 的记忆、知识库过期巡检是连在一起的。资料如果没有时效和来源，长期记忆和知识库都会慢慢变成黑箱。

只记录“调用了某个工具”还不够。更有用的是记录为什么调用、传了什么安全参数、工具返回什么、是否失败、是否重试、是否触发了人工确认。尤其是写入型工具，必须能还原写入前后的状态。

如果工具失败后自动重试，证据链也要保留每次重试的原因和结果。否则成本复盘时只看到最后成功，却看不到中间消耗了多少资源，这会影响 Agent 成本预算的判断。

很多流程把人工修改当成最后润色，不再记录。实际上一旦人频繁修改同一类输出，就说明提示词、知识库、权限或流程设计可能有问题。人工改动应该记录修改人、修改位置、修改类型和退回原因。

这些数据比单纯满意度更有价值。比如 30% 的内容都被改事实，说明来源校验有问题；如果大多被改格式，可能只是输出结构需要稳定下来。

AI Agent 证据链设计的核心，是把输入、来源、工具、判断、人工改动和最终结果放在同一条可追踪路径里。它不会让 Agent 永远不出错，但能让团队知道错在哪里、谁接过手、下一次该修哪一层。