大型推理模型过度思考有害：答对后继续推理反而降低准确率

大型推理模型（LRM）通过增加测试时计算来生成显式的中间推理链，从而提升性能，但“推理越长越好”这一假设正受到挑战。最新研究不仅发现模型会“过度思考”，更首次揭示了“有害过度思考”现象——模型在已经得出正确答案后，继续推理反而会偏离正确轨迹。

来自arXiv的一篇新论文（编号2606.02835）提出了前缀级轨迹评估协议，以推理充分性为基准，定义模型首次生成正确答案所需的最小推理预算。通过这一方法，研究者将过度思考区分为两类：

实验基于多模态基准进行，结果显示：许多被认为需要大量推理的任务，实际只需很少的推理步骤。更关键的是，如果在模型首次给出正确答案时立即停止，准确率可比完整推理提升高达21%。这意味着当前LRM的瓶颈不仅在于推理能力不足，更在于不知道何时该停止。

研究还发现，常见的效率策略如早停法能显著减少冗余过度思考（最高减少50%），但对有害过度思考几乎无效。错误分析表明，正确答案偏离主要由逻辑漂移和视觉重解释引起。此外，该现象在纯语言推理基准中同样存在，表明有害过度思考是更广泛的可靠性风险。

对AI行业的启示

这项研究直接挑战了“更多计算=更好结果”的主流思路。对于部署LRM的开发者来说，单纯增加推理预算可能适得其反。未来模型设计需要引入自省机制，让模型学会在确认答案后主动终止推理，而非无休止地自我怀疑。

目前代码已开源，相关结论为构建更高效、更可靠的推理系统提供了新方向——有时，少想一步反而更聪明。