OpenAI 发布 GPT-5.4,强化知识工作与计算机操作能力
在近期因与五角大楼合作引发部分用户流失的背景下,OpenAI 加快了产品迭代步伐,正式推出了 GPT-5.4 系列模型(包括 GPT-5.4 Thinking 和 GPT-5.4 Pro)。此次更新聚焦于提升模型在知识工作和计算机使用任务上的实用性,旨在巩固其在激烈竞争中的市场地位。
核心能力升级:从推理到视觉
GPT-5.4 Thinking 模型在推理过程中展现出更透明的思考路径。根据 OpenAI 的说法,当用户在 ChatGPT 中发起提示时,该模型会预先展示更多推理步骤,并允许在推理中途接受指令以调整方向。这种改进有助于维持长上下文中的逻辑连贯性,使其更适用于长期任务(如复杂研究或项目规划)和网络调研。
同时,模型在token效率上有所提升,这意味着用户能在达到使用限制前处理更多内容。API 端的上下文窗口已扩展至 100 万 token,与 Google 和 Anthropic 的同类产品看齐。视觉理解能力也得到增强:模型现在能更细致地分析最高 1024 万像素的图像(最大维度达 6000 像素),为图像分析类应用提供了更扎实的基础。
瞄准计算机操作与事实准确性
OpenAI 特别指出,这是其首个明确针对计算机使用任务设计的模型。与竞争对手类似,GPT-5.4 能够基于定期截取的桌面或应用程序屏幕截图,模拟键盘或鼠标输入,从而辅助用户完成自动化操作或界面交互任务。此外,公司声称该模型的回答中事实错误率降低了 18%,这对于依赖高准确性输出的知识工作场景尤为重要。
竞争背景下的战略意图
此次更新正值 OpenAI 面临用户流失压力之际。近期,公司因与五角大楼达成合作而引发争议,部分用户转向了 Anthropic 和 Google 的竞品。尽管尚不清楚具体流失规模(ChatGPT 用户基数已超 9 亿),但 Anthropic 借机将原本仅限订阅者的记忆功能向免费用户开放,并推出了外部记忆导入工具,宣称 3 月 2 日是其单日新增注册量最高的一天。
面对竞争,OpenAI 必须在能力、成本和效率上保持优势。GPT-5.4 的发布正是这一策略的体现:通过强化推理透明度、扩展上下文窗口、提升视觉理解和事实准确性,来满足专业用户对可靠知识工作助手的需求。
小结:AI 助手进入“深度赋能”阶段
GPT-5.4 的推出标志着大型语言模型正从通用对话向专业化、工具化方向演进。其改进不仅体现在参数规模或速度上,更聚焦于实际应用场景——如长文档处理、自动化操作和精准信息检索。在 Anthropic 等对手紧追不舍的当下,OpenAI 能否凭借此类迭代稳住阵脚,将取决于用户对“更聪明、更可靠助手”的持续认可。
