OpenAI GPT-5.4 测试领先人类83%，错误率降18%

OpenAI 最新发布的 GPT-5.4 模型在专业级工作测试中表现惊人，据称其表现优于人类专业人士的比例高达 83%。这一数据基于涵盖 9 个行业、44 种真实职业 的广泛测试得出，标志着 AI 在复杂专业任务上的能力迈入新阶段。

与上一代 GPT-5.2 相比，GPT-5.4 在可靠性方面有显著改进：

OpenAI 将 GPT-5.4 描述为“针对复杂专业工作最强大、最高效的前沿模型”。在 ChatGPT 中，该模型被称为 GPT 5.4 Thinking，突显其增强的推理与思考能力。

测试范围不仅限于通用对话，还深入到了 编码、工具使用和计算机控制 等具体领域。通过模拟真实职业场景，GPT-5.4 在多项任务中展现出接近或超越人类专家的水平。

关键应用场景包括：

GPT-5.4 将通过 API 接口 在发布后次日提供，并逐步向 ChatGPT 付费层级 和 Codex 用户推送。这意味着企业开发者与高级用户将能优先体验到新模型的增强能力。

值得注意的是，OpenAI 跳过了 GPT-5.3 的版本命名，直接推出 5.4，这或许反映了其技术迭代的加速与对命名策略的调整。

GPT-5.4 的发布不仅是技术指标的提升，更可能重塑专业工作方式：

然而，这也带来了新的挑战，如 职业替代风险、伦理监管需求 以及 模型偏见控制 等问题，需要行业与社会共同应对。

从 GPT-5.2 到 GPT-5.4 仅间隔不到三个月，显示出 OpenAI 在模型优化上的快速进展。随着错误率降低与专业任务表现提升，GPT-5.4 有望在更多高价值场景中落地，推动 AI 从“智能助手”向“专业协作者”角色转变。未来，如何平衡技术创新与社会影响，将成为行业发展的关键议题。

OpenAI GPT-5.4 在专业级任务测试中碾压人类，领先幅度达83%