中美大反转：中国AI调用量首超美国，背后的深层原因是什么？

中国AI调用量首次超越美国

2026年2月的一个数据点引起了关注。OpenRouter平台的数据显示，中国AI模型的调用量在这一周首次超过了美国。具体来看，中国模型调用了4.12万亿Token，而美国模型为2.94万亿。

这个趋势还在持续。到2月16日至22日当周，中国模型的周调用量增长到5.16万亿Token，三周时间增长127%。同期美国模型调用量则降至2.7万亿Token。

2026年2月16日至22日的周榜单显示，全球调用量排名前五的模型中，有四款来自中国厂商，分别是MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5以及DeepSeek的V3.2。这四款模型占了Top5总调用量的85.7%。

具体来看，MiniMax于2026年2月13日发布的M2.5模型，上线不足一周便登顶周调用量榜首。在2月9日至15日当周，OpenRouter平台总调用量激增的3.21万亿Token中，仅M2.5这一款模型就贡献了1.44万亿Token的新增量。

中国模型能在短时间内赢得开发者青睐，技术层面的改变是一个原因。弗若斯特沙利文中国总监李庆提到，中国厂商大量采用”混合专家（Mixture-of-Experts, MoE）”架构。这种架构可以降低推理成本。

MoE架构的思路是：把大模型拆成多个小模型（专家网络）和一个门控网络。虽然模型的总参数量可能很大，保证了知识储备和能力上限，但在实际处理一个任务时，门控网络会判断该任务的性质，并只激活其中一部分最相关的专家网络参与计算。

这种”按需激活”而非”全体动员”的模式，相较于传统的稠密模型（每次计算都调用全部参数），减少了计算量和对硬件资源的需求。数据显示，采用MoE架构可以让推理时的显存占用降低60%，推理吞吐量（单位时间内处理的Token数量）提升高达19倍。

除了性能上达到或超越国际顶尖模型，中国模型的成本是另一个优势。以OpenRouter平台公示的价格为例，中国模型的成本优势很明显。

在模型处理输入信息（Input）的环节，MiniMax的M2.5与智谱的GLM-5，其价格均为0.3美元每百万Token。作为对比，海外主流的对标产品Claude Opus4.6的价格则高达5美元/百万Token，是中国这两款模型的约16.7倍。

在模型生成内容（Output）的环节，成本差异更大。MiniMax M2.5的输出价格为1.1美元/百万Token，智谱GLM-5为2.55美元/百万Token，而Claude Opus4.6的价格则飙升至25美元/百万Token，分别是前两者的约22.7倍和9.8倍。

除了算法架构的革新，中国AI厂商还在探索”垂直整合”的路径，以进一步压缩每一个Token背后的成本。这条路径的核心思想是：将上层的模型算法、中层的云计算基础设施和底层的AI芯片进行深度的、一体化的协同设计与优化。

李庆以阿里巴巴的”通义-云-芯”体系为例说明，这种从上到下的垂直整合模式，可以通过极致的算力调度算法，实现对底层硬件资源的最高效利用，从而大幅降低了AI服务背后的基础设施成本。这种系统级的优化，使得Token的生成成本得以进一步降低。

这一系列转变意味着，Token不是传统互联网时代边际成本几乎为零的”流量”，而是执行生产任务时必不可少的”燃料”。

摩根大通在其研报中对中国市场做出了乐观的预测，预计从2025年到2030年，中国Token消耗量的年复合增长率将达到惊人的330%，在短短5年间实现370倍的增长。

英伟达CEO黄仁勋在2月26日的业绩电话会上也强调了一个核心观点：”计算即收入””推理即收入”。

他指出，没有算力，就无法生成Token；没有Token，就无法带来收入增长。在AI时代，推理性能直接决定了客户的收入能力，而推理的核心，正是高效地生成可被商业化的Token。

相关文章推荐：