爆发式增长:从1.24万亿到13.95万亿
全球大模型Token调用量在过去一年经历了惊人的爆发式增长。根据OpenRouter平台的数据,2025年3月3日至9日当周,该平台前十大模型的周调用量仅为1.24万亿Token。而到2026年2月中旬,这一数字已飙升至13.95万亿Token,短短不到一年时间增长了超过10倍。
这种爆发式增长标志着AI技术已从早期探索阶段,快速进入大规模商业应用阶段。
市场格局转变:从美国主导到中国崛起
2025年,美国模型是市场增长的主要动力,其Token周调用量一度占据平台前十大模型总量的近七成,而同期的中国模型占比则不到两成。
然而,进入2026年,市场格局发生了根本性转变。美国模型的增速开始显露疲态,而中国模型则开启了”狂飙”模式:
- 2月第一周(2日至8日):中国模型调用量跃升至2.27万亿Token
- 2月第二周(9日至15日):中国模型调用量达4.12万亿Token,正式超越美国
- 2月第三周(16日至22日):中国模型调用量冲高至5.16万亿Token,三周增长127%
Token通胀:AI使用模式的根本性转变
Token消耗量的指数级攀升,表面看是用户规模与使用时长的增长,但其背后更深层次的驱动力,是用户对AI使用模式的根本性转变。
国联民生证券在近期发布的研报中,提出了”Token通胀”这一概念,并将这一现象归因于三大核心趋势:
1. 从”问答”转向”干活”
用户的核心需求正在从浅层的”问答”转向深度的”干活”,即越来越多地利用AI来重构代码、改写文件、生成文档和跑测试。编程场景天然具有”长上下文、多轮迭代、大量输出”的特征,会大量消耗Token。
2. AI Agent技术的兴起
AI Agent技术的兴起和普及,放大了Token的消耗。Agent会主动规划、检索、执行、反思,多次调用模型,Token消耗自然按步骤累加。
3. 推理强度上升
更多深度思考、更长链路推理会显著提高输出与中间过程的Token消耗。但对开发者而言,这往往带来更高成功率与更少返工,用户反而愿意”增加Token投入来换取效率”。
Token:从”流量”到”燃料”
这一系列转变意味着,Token不是传统互联网时代边际成本几乎为零的”流量”,而是执行生产任务时必不可少的”燃料”。
这一趋势与全球顶尖芯片制造商的判断不谋而合。英伟达CEO黄仁勋在2月26日的业绩电话会上,反复向市场强调一个核心观点:”计算即收入””推理即收入”。
他指出,没有算力,就无法生成Token;没有Token,就无法带来收入增长。在AI时代,推理性能直接决定了客户的收入能力,而推理的核心,正是高效地生成可被商业化的Token。
商业模式演进:从”按量计费”到”燃料+成果”
在全球数据中心电力瓶颈日益凸显的今天,”性能/瓦特”(Performance per Watt)已成为衡量AI服务效率与收入能力的关键指标。
AI服务的商业模式正从过去单纯的”按量计费”,向”燃料+成果”的混合模式演进。一方面,作为”燃料”的Token,其单价会随着技术进步和规模效应持续下降;另一方面,随着AI从”问答”工具向”干活”的生产力工具转变,企业将更愿意为直接的”成果”付费,这将催生出更多基于订阅制的商业模式。
未来展望
摩根大通预测,从2025年到2030年,中国Token消耗量的年复合增长率将达到惊人的330%,在短短5年间实现370倍的增长。
这一预测充分表明,AI技术正在深刻改变各行各业的生产方式,Token作为AI时代的”燃料”,其战略价值和商业价值正在被重新定义和释放。