GPT-5.4重磅发布：AI首次比人类更会操作电脑，这些岗位危险了

导读：2026年3月5日，OpenAI发布GPT-5.4，这不仅是技术参数的升级，更是AI从”聊天工具”向”数字员工”跨越的里程碑。在计算机操作能力测试中，GPT-5.4首次超越了人类平均水平——这意味着什么？

一、GPT-5.4的核心突破：AI真的会操作电脑了

过去我们使用AI，大多是提问-回答的模式。ChatGPT可以写文章、编代码、解数学题，但它始终是一个”对话框里的助手”。GPT-5.4改变了这一点。

这是OpenAI首个具备原生计算机使用能力的通用模型。在OSWorld-Verified权威评测中，GPT-5.4取得了75%的任务成功率，首次超过72.4%的人类平均水平。

OSWorld-Verified测试什么？它让AI通过截图观察、鼠标键盘操作来完成真实任务，包括文件管理、网页浏览、办公软件、多应用协作等369个场景。简单说，就是测试AI能不能像人一样真正”使用”电脑。

另一项评估GDPval的结果更令人惊讶：GPT-5.4在83%的任务中表现等于或优于人类专家，尤其在投行级电子表格建模、演示文稿生成和法律文书等任务上，领先优势明显。

GPT-5.4的另一项重大升级是支持100万token的上下文窗口。这是什么概念？

大致相当于可以一次性处理3000页文档，或者整本书的内容。对于律师审阅合同、分析师处理财报、程序员阅读大型代码库来说，这意味着工作效率的质变——不再需要分段输入，AI可以理解完整的上下文。

再加上幻觉率下降25%、SimpleQA准确率提升至62.5%（较GPT-4o提升24%），GPT-5.4在专业工作场景的可靠性大幅提高。

当AI比人类更会操作电脑，什么样的工作最危险？

第一类：重复性电脑操作工作

数据录入、表格整理、文档格式化、基础报表制作……这些需要熟练操作Office但创造性较低的工作，GPT-5.4已经可以胜任。一个指令就能生成投行级别的Excel模型，传统”表哥表姐”的价值将大幅缩水。

第二类：初级知识工作者

法律助理、初级分析师、行政文员……这类工作需要处理信息、制作文档，但不需要太高的专业判断。GPT-5.4在法律文书和演示文稿上的表现已经超越人类专家，意味着企业可能不再需要那么多”入门级”白领。

第三类：客服与技术支持

虽然GPT-5.4不是专为对话设计，但其工具调用和多步骤任务执行能力，让AI可以独立完成更复杂的客户服务流程——查询订单、处理退款、协调各部门……传统客服的”传话筒”角色正在被取代。

有趣的是，GPT-5.4的多项特性与OpenClaw高度相似：原生电脑操控、100万token上下文、工具搜索带来的成本优化。

这并非巧合。今年2月，OpenAI CEO山姆·奥特曼宣布OpenClaw创始人彼得·斯坦伯格加入OpenAI，致力于推动下一代个人智能体的研发。OpenClaw的火爆（GitHub 24.5万星登顶）证明了”AI操控电脑”这个方向的巨大需求，而GPT-5.4正是OpenAI在这个方向的正式回应。

尽管GPT-5.4在电脑操控上取得突破，但它并非”最强AI”。

在编程能力上，它仍落后于Claude Opus 4.6；在科学推理上，不及Google Gemini 3.1 Pro（后者在ARC-AGI-2测试中得分77.1%，推理能力翻倍）；在医疗健康领域甚至出现了小幅退步。

更重要的是，价格是一个现实的门槛。GPT-5.4的输入价格达到30美元/百万tokens，是Claude Opus 4.6的6倍、Gemini 3.1 Pro的15倍。说一句”嗨”让模型思考5分钟，可能就要花掉80美元。对于大部分个人用户和小企业来说，这仍是一笔不小的开支。

三年前，各大模型还在同一条跑道上比拼通用能力。如今，已经很难用同一把标尺来衡量”各怀绝技”的大模型了。

想操控电脑、做PPT、跑知识工作？选GPT-5.4。想写代码、跑智能体、做复杂开发？选Claude Opus 4.6。想要最强推理、图片视频理解、最大上下文、最低价格？选Gemini 3.1 Pro。

正如上海人工智能研究院技术中心主任林圆圆所言，大模型竞争最终将归于算力。今年全国两会提出在电网、算力网、新型通信网等”六张网”重点领域投入超过7万亿元，这一布局意义重大。

GPT-5.4的发布标志着AI从”能说”到”能做”的关键跨越。对于打工人来说，与其担心被取代，不如思考如何让AI成为放大自身价值的工具。毕竟，会用GPT-5.4的人，和不会用的人，差距可能比人和AI的差距还要大。

本文基于2026年3月公开信息整理，观点仅供参考。