精选18天前0 投票
形式追随功能:递归主干模型(RSM)革新递归推理训练范式
在人工智能推理领域,递归模型如**分层推理模型(HRM)和微型递归模型(TRM)**已证明,通过迭代精炼潜在状态,小型、权重共享的网络能够解决计算密集型甚至NP难题。然而,这些模型的训练通常依赖于深度监督和/或长展开,这不仅增加了实际训练时间成本,还可能导致模型偏向贪婪的中间行为。
近日,研究人员在arXiv上发布了一篇题为《形式追随功能:递归主干模型》的论文,提出了递归主干模型(Recursive Stem Model, RSM)。这是一种全新的递归推理方法,它在保留TRM风格主干网络的同时,从根本上改变了训练契约,使网络能够学习一个稳定、与深度无关的转移算子。
核心创新:解耦训练与推理
RSM的核心思想在于完全解耦训练过程中的隐藏状态历史。具体而言,它将早期迭代视为独立的“热身”步骤,并仅在最终步骤应用损失函数。这种设计使得模型在训练时不再被中间状态的“正确性”所束缚,从而避免了因深度监督导致的贪婪行为偏差。
此外,RSM独立地增长外部递归深度($H$)和内部计算深度($L$),并采用随机外部转移方案(在$H$上应用随机深度)来缓解深度增加时的不稳定性。这带来了两个关键能力:
- 训练效率大幅提升:与TRM相比,RSM实现了超过20倍的训练加速,同时提高了准确性(错误率降低了约5倍)。
- 测试时无限扩展:在推理阶段,模型可以运行任意多的精炼步骤(例如,测试时$H_{\text{test}} \sim 20,000$,远大于训练时的$H_{\text{train}} \sim 20$),从而实现“无需重新训练的额外思考”。
卓越的性能表现
在具体任务上,RSM展现出了强大的解决能力:
- 在Sudoku-Extreme(数独极难版)任务中,RSM在单个A100 GPU上仅训练约1小时后,通过测试时计算,达到了97.5%的精确准确率。
- 在Maze-Hard(30x30的困难迷宫)任务中,采用基于注意力的实例化,RSM在约40分钟内达到了约80%的精确准确率。
内在的可靠性信号与防幻觉机制
由于RSM本质上实现了一个迭代稳定过程,其收敛行为提供了一个简单、架构原生的可靠性信号:
- 非稳定轨迹可以警告模型尚未达到可行的解决方案,这可以作为一种防止幻觉(hallucination)的防护机制。
- 稳定的不动点则可以与领域验证器配对,进行实际正确性检查。
行业意义与展望
RSM的提出,标志着递归推理模型在训练范式上的一次重要突破。它不仅解决了传统方法训练成本高、易产生偏差的痛点,更通过测试时无限扩展的能力,为模型提供了“持续思考”的潜力。其内在的收敛性作为可靠性指标的设计,也为构建更可信、可解释的AI系统提供了新思路。在追求更高推理效率与可靠性的AI发展道路上,RSM无疑是一个值得关注的重要进展。


