AI Agent 意图识别置信度：低把握请求不要直接执行

AI Agent 做任务分流时，最容易被忽略的不是分类标签，而是分类把握。模型给出一个“计费问题”“资料查询”“系统故障”的判断，并不代表它真的足够确定。把低把握请求直接送进执行链路，后面就可能误调用工具、误派队列，甚至错误写入系统。

所以意图识别不应该只有结果，还要有置信度和处理策略。它可以接上 AI Agent 任务路由、人工接管策略和 Agent 评估集，让入口判断从“猜一个分类”变成“按把握程度决定下一步”。

高把握请求可以自动进入低风险流程

高把握不等于什么都能自动做。它只说明当前输入和某个意图匹配度高，仍然要看任务风险。比如“查询发票下载入口”可以直接给教程，“请帮我修改客户合同金额”即使识别很准，也不能直接执行。

更稳的设计是：高把握加低风险，进入自动处理；高把握加中高风险，进入建议或审批执行。置信度解决“是不是这类事”，风险等级解决“能不能自动办”。

很多用户输入本来就模糊，比如“系统又不行了”“这个客户怎么处理”“帮我把资料改一下”。这类请求如果直接分类，Agent 往往会把上下文补成自己以为合理的样子。

中等把握时，最好的动作通常不是执行，而是追问一两个关键字段：对象是谁、期望结果是什么、是否允许写入系统、是否有截止时间。追问得到的答案，也要进入后续日志和评估样本。

低把握请求最危险的地方，是系统为了显得流畅而硬着头皮继续。生产环境里应该反过来：只要识别不到清楚意图，默认不给高权限工具，默认不写入，默认转人工或生成待确认草稿。

这一步可以和审计日志连起来，记录原始请求、候选意图、置信度、追问内容和最终处理结果。后面复盘误判时，才能知道问题出在输入、标签还是阈值。

不要凭感觉设置 0.8 或 0.9。不同业务场景、不同模型、不同标签体系下，置信度分布都不一样。团队应该拿历史任务跑一遍，看高把握样本的误判率、中等把握样本的追问收益、低把握样本的人工处理成本。

这和回归评估是同一条线。每次修改提示词、标签或路由规则后，都要重新看置信度是否还可靠。

AI Agent 意图识别置信度的价值，是让入口判断有缓冲。高把握低风险可以自动处理，中等把握先追问，低把握和高风险动作进入人工或审批。把这个门槛设好，后面的工具调用、队列分派和写入动作才更稳。