OpenAI 发布 GPT-5.4,推出 Pro 与 Thinking 版本,专为专业工作打造
OpenAI 于周四正式发布了 GPT-5.4,这款新基础模型被定位为“我们最强大、最高效的专业工作前沿模型”。除了标准版本外,GPT-5.4 还提供了推理模型(GPT-5.4 Thinking)和针对高性能优化的版本(GPT-5.4 Pro)。API 版本将支持高达 100 万 tokens 的上下文窗口,这是 OpenAI 迄今为止提供的最大上下文窗口。
核心能力提升
OpenAI 强调了 GPT-5.4 在 token 效率上的显著改进,表示它能够用比前代模型更少的 tokens 解决相同问题。新模型在多项基准测试中表现突出,包括在计算机使用基准 OSWorld-Verified 和 WebArena Verified 中创下纪录分数。在 OpenAI 的知识工作任务测试 GDPval 中,GPT-5.4 获得了 83% 的纪录高分。
专业领域表现
根据 Mercor CEO Brendan Foody 的声明,GPT-5.4 在 Mercor 的 APEX-Agents 基准测试 中领先,该测试旨在评估法律和金融领域的专业技能。Foody 表示:“GPT-5.4 擅长创建长期交付成果,如幻灯片演示、财务模型和法律分析,在运行速度更快、成本低于竞争前沿模型的同时,提供顶级性能。”
减少幻觉与错误
GPT-5.4 延续了 OpenAI 减少幻觉和事实错误的努力。OpenAI 表示,与 GPT-5.2 相比,新模型在单个声明中出错的可能性降低了 33%,整体响应包含错误的可能性降低了 18%。
API 更新与工具调用
作为发布的一部分,OpenAI 重新设计了 GPT-5.4 API 版本的工具调用管理方式,引入了名为 Tool Search 的新系统。此前,系统提示会详细说明工具调用流程,新系统旨在优化这一过程,提升开发者和企业用户的集成效率。
行业背景与意义
GPT-5.4 的发布标志着 AI 模型在专业工作场景中的进一步深化。随着上下文窗口扩展至 100 万 tokens,模型能处理更长的文档和复杂任务,这为法律、金融、咨询等行业提供了更强大的自动化工具。同时,token 效率的提升和错误率的降低,有助于降低企业部署 AI 的成本和风险,推动 AI 从实验性技术向规模化应用转型。
潜在挑战与展望
尽管 GPT-5.4 在性能上有所突破,但 AI 模型在专业领域的落地仍面临数据隐私、伦理合规和用户接受度等挑战。OpenAI 需持续优化模型的可解释性和安全性,以赢得更多行业信任。未来,随着更多定制化版本的出现,AI 有望成为专业工作流中不可或缺的助手,但这也可能加剧行业竞争,促使其他厂商加速创新。
总的来说,GPT-5.4 的推出不仅是技术迭代,更是 OpenAI 在专业 AI 市场的一次重要布局,有望重塑知识工作的效率边界。