SheepNav
精选今天0 投票

想过头了:大型推理模型在答对后继续推理反而有害

大型推理模型(LRM)通过增加测试时计算来生成显式的中间推理链,从而提升性能,但“推理越长越好”这一假设正受到挑战。最新研究不仅发现模型会“过度思考”,更首次揭示了“有害过度思考”现象——模型在已经得出正确答案后,继续推理反而会偏离正确轨迹。

来自arXiv的一篇新论文(编号2606.02835)提出了前缀级轨迹评估协议,以推理充分性为基准,定义模型首次生成正确答案所需的最小推理预算。通过这一方法,研究者将过度思考区分为两类:

  • 冗余过度思考:多余推理不改变结果,只是浪费算力;
  • 有害过度思考:继续推理导致正确结果被破坏。

实验基于多模态基准进行,结果显示:许多被认为需要大量推理的任务,实际只需很少的推理步骤。更关键的是,如果在模型首次给出正确答案时立即停止,准确率可比完整推理提升高达21%。这意味着当前LRM的瓶颈不仅在于推理能力不足,更在于不知道何时该停止

研究还发现,常见的效率策略如早停法能显著减少冗余过度思考(最高减少50%),但对有害过度思考几乎无效。错误分析表明,正确答案偏离主要由逻辑漂移视觉重解释引起。此外,该现象在纯语言推理基准中同样存在,表明有害过度思考是更广泛的可靠性风险。

对AI行业的启示

这项研究直接挑战了“更多计算=更好结果”的主流思路。对于部署LRM的开发者来说,单纯增加推理预算可能适得其反。未来模型设计需要引入自省机制,让模型学会在确认答案后主动终止推理,而非无休止地自我怀疑。

目前代码已开源,相关结论为构建更高效、更可靠的推理系统提供了新方向——有时,少想一步反而更聪明。

延伸阅读

  1. 碰撞驱动:三种新方法探索游戏敌人形态的自动生成
  2. Traj-Evolve:自我进化的多智能体系统,助力肺癌早期筛查中的患者轨迹建模
  3. ChatHealthAI:对齐电子健康记录与大型语言模型,实现可解释的临床推理
查看原文