精选今天0 投票
想过头了:大型推理模型在答对后继续推理反而有害
大型推理模型(LRM)通过增加测试时计算来生成显式的中间推理链,从而提升性能,但“推理越长越好”这一假设正受到挑战。最新研究不仅发现模型会“过度思考”,更首次揭示了“有害过度思考”现象——模型在已经得出正确答案后,继续推理反而会偏离正确轨迹。
来自arXiv的一篇新论文(编号2606.02835)提出了前缀级轨迹评估协议,以推理充分性为基准,定义模型首次生成正确答案所需的最小推理预算。通过这一方法,研究者将过度思考区分为两类:
- 冗余过度思考:多余推理不改变结果,只是浪费算力;
- 有害过度思考:继续推理导致正确结果被破坏。
实验基于多模态基准进行,结果显示:许多被认为需要大量推理的任务,实际只需很少的推理步骤。更关键的是,如果在模型首次给出正确答案时立即停止,准确率可比完整推理提升高达21%。这意味着当前LRM的瓶颈不仅在于推理能力不足,更在于不知道何时该停止。
研究还发现,常见的效率策略如早停法能显著减少冗余过度思考(最高减少50%),但对有害过度思考几乎无效。错误分析表明,正确答案偏离主要由逻辑漂移和视觉重解释引起。此外,该现象在纯语言推理基准中同样存在,表明有害过度思考是更广泛的可靠性风险。
对AI行业的启示
这项研究直接挑战了“更多计算=更好结果”的主流思路。对于部署LRM的开发者来说,单纯增加推理预算可能适得其反。未来模型设计需要引入自省机制,让模型学会在确认答案后主动终止推理,而非无休止地自我怀疑。
目前代码已开源,相关结论为构建更高效、更可靠的推理系统提供了新方向——有时,少想一步反而更聪明。