OpenAI GPT-5.4 发布：专业工作前沿模型，支持百万 tokens

OpenAI 于周四正式发布了 GPT-5.4，这款新基础模型被定位为“我们最强大、最高效的专业工作前沿模型”。除了标准版本外，GPT-5.4 还提供了推理模型（GPT-5.4 Thinking）和针对高性能优化的版本（GPT-5.4 Pro）。API 版本将支持高达 100 万 tokens 的上下文窗口，这是 OpenAI 迄今为止提供的最大上下文窗口。

核心能力提升

OpenAI 强调了 GPT-5.4 在 token 效率上的显著改进，表示它能够用比前代模型更少的 tokens 解决相同问题。新模型在多项基准测试中表现突出，包括在计算机使用基准 OSWorld-Verified 和 WebArena Verified 中创下纪录分数。在 OpenAI 的知识工作任务测试 GDPval 中，GPT-5.4 获得了 83% 的纪录高分。

专业领域表现

根据 Mercor CEO Brendan Foody 的声明，GPT-5.4 在 Mercor 的 APEX-Agents 基准测试 中领先，该测试旨在评估法律和金融领域的专业技能。Foody 表示：“GPT-5.4 擅长创建长期交付成果，如幻灯片演示、财务模型和法律分析，在运行速度更快、成本低于竞争前沿模型的同时，提供顶级性能。”

减少幻觉与错误

GPT-5.4 延续了 OpenAI 减少幻觉和事实错误的努力。OpenAI 表示，与 GPT-5.2 相比，新模型在单个声明中出错的可能性降低了 33%，整体响应包含错误的可能性降低了 18%。

API 更新与工具调用

作为发布的一部分，OpenAI 重新设计了 GPT-5.4 API 版本的工具调用管理方式，引入了名为 Tool Search 的新系统。此前，系统提示会详细说明工具调用流程，新系统旨在优化这一过程，提升开发者和企业用户的集成效率。

行业背景与意义

GPT-5.4 的发布标志着 AI 模型在专业工作场景中的进一步深化。随着上下文窗口扩展至 100 万 tokens，模型能处理更长的文档和复杂任务，这为法律、金融、咨询等行业提供了更强大的自动化工具。同时，token 效率的提升和错误率的降低，有助于降低企业部署 AI 的成本和风险，推动 AI 从实验性技术向规模化应用转型。

潜在挑战与展望

尽管 GPT-5.4 在性能上有所突破，但 AI 模型在专业领域的落地仍面临数据隐私、伦理合规和用户接受度等挑战。OpenAI 需持续优化模型的可解释性和安全性，以赢得更多行业信任。未来，随着更多定制化版本的出现，AI 有望成为专业工作流中不可或缺的助手，但这也可能加剧行业竞争，促使其他厂商加速创新。

总的来说，GPT-5.4 的推出不仅是技术迭代，更是 OpenAI 在专业 AI 市场的一次重要布局，有望重塑知识工作的效率边界。

OpenAI 发布 GPT-5.4，推出 Pro 与 Thinking 版本，专为专业工作打造