导读:2026年3月5日,OpenAI发布GPT-5.4,这不仅是技术参数的升级,更是AI从”聊天工具”向”数字员工”跨越的里程碑。在计算机操作能力测试中,GPT-5.4首次超越了人类平均水平——这意味着什么?
一、GPT-5.4的核心突破:AI真的会操作电脑了
过去我们使用AI,大多是提问-回答的模式。ChatGPT可以写文章、编代码、解数学题,但它始终是一个”对话框里的助手”。GPT-5.4改变了这一点。
这是OpenAI首个具备原生计算机使用能力的通用模型。在OSWorld-Verified权威评测中,GPT-5.4取得了75%的任务成功率,首次超过72.4%的人类平均水平。
OSWorld-Verified测试什么?它让AI通过截图观察、鼠标键盘操作来完成真实任务,包括文件管理、网页浏览、办公软件、多应用协作等369个场景。简单说,就是测试AI能不能像人一样真正”使用”电脑。
另一项评估GDPval的结果更令人惊讶:GPT-5.4在83%的任务中表现等于或优于人类专家,尤其在投行级电子表格建模、演示文稿生成和法律文书等任务上,领先优势明显。
二、不止于操作:100万token上下文意味着什么
GPT-5.4的另一项重大升级是支持100万token的上下文窗口。这是什么概念?
大致相当于可以一次性处理3000页文档,或者整本书的内容。对于律师审阅合同、分析师处理财报、程序员阅读大型代码库来说,这意味着工作效率的质变——不再需要分段输入,AI可以理解完整的上下文。
再加上幻觉率下降25%、SimpleQA准确率提升至62.5%(较GPT-4o提升24%),GPT-5.4在专业工作场景的可靠性大幅提高。
三、哪些岗位最先受到冲击
当AI比人类更会操作电脑,什么样的工作最危险?
第一类:重复性电脑操作工作
数据录入、表格整理、文档格式化、基础报表制作……这些需要熟练操作Office但创造性较低的工作,GPT-5.4已经可以胜任。一个指令就能生成投行级别的Excel模型,传统”表哥表姐”的价值将大幅缩水。
第二类:初级知识工作者
法律助理、初级分析师、行政文员……这类工作需要处理信息、制作文档,但不需要太高的专业判断。GPT-5.4在法律文书和演示文稿上的表现已经超越人类专家,意味着企业可能不再需要那么多”入门级”白领。
第三类:客服与技术支持
虽然GPT-5.4不是专为对话设计,但其工具调用和多步骤任务执行能力,让AI可以独立完成更复杂的客户服务流程——查询订单、处理退款、协调各部门……传统客服的”传话筒”角色正在被取代。
四、OpenClaw的影子:GPT-5.4的”小龙虾风格”
有趣的是,GPT-5.4的多项特性与OpenClaw高度相似:原生电脑操控、100万token上下文、工具搜索带来的成本优化。
这并非巧合。今年2月,OpenAI CEO山姆·奥特曼宣布OpenClaw创始人彼得·斯坦伯格加入OpenAI,致力于推动下一代个人智能体的研发。OpenClaw的火爆(GitHub 24.5万星登顶)证明了”AI操控电脑”这个方向的巨大需求,而GPT-5.4正是OpenAI在这个方向的正式回应。
五、冷静看待:GPT-5.4并非全能
尽管GPT-5.4在电脑操控上取得突破,但它并非”最强AI”。
在编程能力上,它仍落后于Claude Opus 4.6;在科学推理上,不及Google Gemini 3.1 Pro(后者在ARC-AGI-2测试中得分77.1%,推理能力翻倍);在医疗健康领域甚至出现了小幅退步。
更重要的是,价格是一个现实的门槛。GPT-5.4的输入价格达到30美元/百万tokens,是Claude Opus 4.6的6倍、Gemini 3.1 Pro的15倍。说一句”嗨”让模型思考5分钟,可能就要花掉80美元。对于大部分个人用户和小企业来说,这仍是一笔不小的开支。
六、大模型进入差异化竞争时代
三年前,各大模型还在同一条跑道上比拼通用能力。如今,已经很难用同一把标尺来衡量”各怀绝技”的大模型了。
想操控电脑、做PPT、跑知识工作?选GPT-5.4。想写代码、跑智能体、做复杂开发?选Claude Opus 4.6。想要最强推理、图片视频理解、最大上下文、最低价格?选Gemini 3.1 Pro。
正如上海人工智能研究院技术中心主任林圆圆所言,大模型竞争最终将归于算力。今年全国两会提出在电网、算力网、新型通信网等”六张网”重点领域投入超过7万亿元,这一布局意义重大。
结语
GPT-5.4的发布标志着AI从”能说”到”能做”的关键跨越。对于打工人来说,与其担心被取代,不如思考如何让AI成为放大自身价值的工具。毕竟,会用GPT-5.4的人,和不会用的人,差距可能比人和AI的差距还要大。
本文基于2026年3月公开信息整理,观点仅供参考。