很多团队刚开始做 AI Agent 时,成本问题容易被一句“先跑起来再说”带过去。等任务变多、工具接多、重试次数上来,账单才突然变得刺眼。更麻烦的是,你可能只知道总费用上涨,却不知道到底是模型 token、外部工具、重复执行,还是人工返工在烧钱。
AI Agent 成本预算不是财务表格里的事,而是运行设计的一部分。前面讲过 Agent 观测性、任务状态机 和 失败重试与幂等设计,这些能力都应该服务于一个问题:这条自动化链路到底值不值得继续扩大。
成本不只是模型 token
token 成本最容易看见,但它只是其中一部分。Agent 还会调用搜索、数据库、浏览器、表格、邮件、图像生成、向量检索和内部接口。有些工具按调用计费,有些按时间计费,有些本身免费,却会带来人工审核和失败返工成本。
所以预算表至少要分成四类:模型消耗、工具调用、基础设施、人工处理。对内容运营 Agent 来说,模型生成正文只是一段成本,事实核验、封面生成、媒体上传、SEO 字段补齐和发布失败重跑都要算进去。
先按任务类型设预算
不要只给整个团队一个月度总预算。更有用的是按任务类型设上限:一篇文章生成最多多少轮,一次资料检索最多查几个来源,一次旧文体检最多扫描多少篇,一次发布失败最多自动重试几次。
任务预算和状态机应该绑定。queued、running、waiting_for_review、failed 每个状态都能记录已消耗成本,超过阈值就暂停或转人工。这样不会出现一个卡住的任务在后台无限重试。
重试要算入 ROI
自动重试看起来省心,但失败越多,成本越容易被隐藏。一次写入失败后重试三次,如果最后仍然需要人工处理,那这条链路的真实成本就不是一次调用,而是多次调用加一次人工接手。
这也是为什么幂等键很重要。发送邮件、更新 CRM、发布文章这类动作,重复执行的代价可能比失败更高。成本预算要同时记录重试次数和重复风险,而不是只看最终有没有成功。
人工复核不是免费资源
很多团队会把人工确认当成“安全兜底”,但很少给它计成本。如果每个 Agent 输出都需要人重新读一遍、改一遍、查一遍,那自动化可能只是把工作换了个入口。
更合理的做法是记录人工复核时间和退回原因。退回集中在事实错误,就补知识库和来源检查;退回集中在格式问题,就改输出模板;退回集中在权限风险,就补 人工确认节点 和审计规则。
总结
AI Agent 成本预算的核心,是把 token、工具调用、重试、人工复核和失败返工放到同一张账里。只有任务级成本可见,团队才能判断哪些流程值得放大,哪些流程应该先降复杂度或重新设计。