小智资讯百科 今日头条 中美大反转:中国AI调用量首超美国,背后的深层原因是什么?

中美大反转:中国AI调用量首超美国,背后的深层原因是什么?

中国AI调用量首次超越美国

2026年2月的一个数据点引起了关注。OpenRouter平台的数据显示,中国AI模型的调用量在这一周首次超过了美国。具体来看,中国模型调用了4.12万亿Token,而美国模型为2.94万亿。

这个趋势还在持续。到2月16日至22日当周,中国模型的周调用量增长到5.16万亿Token,三周时间增长127%。同期美国模型调用量则降至2.7万亿Token。

四款中国模型进入全球前五

2026年2月16日至22日的周榜单显示,全球调用量排名前五的模型中,有四款来自中国厂商,分别是MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5以及DeepSeek的V3.2。这四款模型占了Top5总调用量的85.7%。

具体来看,MiniMax于2026年2月13日发布的M2.5模型,上线不足一周便登顶周调用量榜首。在2月9日至15日当周,OpenRouter平台总调用量激增的3.21万亿Token中,仅M2.5这一款模型就贡献了1.44万亿Token的新增量。

混合专家架构降低了推理成本

中国模型能在短时间内赢得开发者青睐,技术层面的改变是一个原因。弗若斯特沙利文中国总监李庆提到,中国厂商大量采用”混合专家(Mixture-of-Experts, MoE)”架构。这种架构可以降低推理成本。

MoE架构的思路是:把大模型拆成多个小模型(专家网络)和一个门控网络。虽然模型的总参数量可能很大,保证了知识储备和能力上限,但在实际处理一个任务时,门控网络会判断该任务的性质,并只激活其中一部分最相关的专家网络参与计算。

这种”按需激活”而非”全体动员”的模式,相较于传统的稠密模型(每次计算都调用全部参数),减少了计算量和对硬件资源的需求。数据显示,采用MoE架构可以让推理时的显存占用降低60%,推理吞吐量(单位时间内处理的Token数量)提升高达19倍。

成本优势明显

除了性能上达到或超越国际顶尖模型,中国模型的成本是另一个优势。以OpenRouter平台公示的价格为例,中国模型的成本优势很明显。

在模型处理输入信息(Input)的环节,MiniMax的M2.5与智谱的GLM-5,其价格均为0.3美元每百万Token。作为对比,海外主流的对标产品Claude Opus4.6的价格则高达5美元/百万Token,是中国这两款模型的约16.7倍。

在模型生成内容(Output)的环节,成本差异更大。MiniMax M2.5的输出价格为1.1美元/百万Token,智谱GLM-5为2.55美元/百万Token,而Claude Opus4.6的价格则飙升至25美元/百万Token,分别是前两者的约22.7倍和9.8倍。

垂直整合进一步降低成本

除了算法架构的革新,中国AI厂商还在探索”垂直整合”的路径,以进一步压缩每一个Token背后的成本。这条路径的核心思想是:将上层的模型算法、中层的云计算基础设施和底层的AI芯片进行深度的、一体化的协同设计与优化。

李庆以阿里巴巴的”通义-云-芯”体系为例说明,这种从上到下的垂直整合模式,可以通过极致的算力调度算法,实现对底层硬件资源的最高效利用,从而大幅降低了AI服务背后的基础设施成本。这种系统级的优化,使得Token的生成成本得以进一步降低。

摩根大通的预测

这一系列转变意味着,Token不是传统互联网时代边际成本几乎为零的”流量”,而是执行生产任务时必不可少的”燃料”。

摩根大通在其研报中对中国市场做出了乐观的预测,预计从2025年到2030年,中国Token消耗量的年复合增长率将达到惊人的330%,在短短5年间实现370倍的增长。

英伟达CEO黄仁勋在2月26日的业绩电话会上也强调了一个核心观点:”计算即收入””推理即收入”。

他指出,没有算力,就无法生成Token;没有Token,就无法带来收入增长。在AI时代,推理性能直接决定了客户的收入能力,而推理的核心,正是高效地生成可被商业化的Token。

上一篇
下一篇

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

返回顶部