递归主干模型RSM：训练加速20倍，推理可无限扩展

在人工智能推理领域，递归模型如**分层推理模型（HRM）和微型递归模型（TRM）**已证明，通过迭代精炼潜在状态，小型、权重共享的网络能够解决计算密集型甚至NP难题。然而，这些模型的训练通常依赖于深度监督和/或长展开，这不仅增加了实际训练时间成本，还可能导致模型偏向贪婪的中间行为。

近日，研究人员在arXiv上发布了一篇题为《形式追随功能：递归主干模型》的论文，提出了递归主干模型（Recursive Stem Model, RSM）。这是一种全新的递归推理方法，它在保留TRM风格主干网络的同时，从根本上改变了训练契约，使网络能够学习一个稳定、与深度无关的转移算子。

核心创新：解耦训练与推理

RSM的核心思想在于完全解耦训练过程中的隐藏状态历史。具体而言，它将早期迭代视为独立的“热身”步骤，并仅在最终步骤应用损失函数。这种设计使得模型在训练时不再被中间状态的“正确性”所束缚，从而避免了因深度监督导致的贪婪行为偏差。

此外，RSM独立地增长外部递归深度（$H$）和内部计算深度（$L$），并采用随机外部转移方案（在$H$上应用随机深度）来缓解深度增加时的不稳定性。这带来了两个关键能力：

训练效率大幅提升：与TRM相比，RSM实现了超过20倍的训练加速，同时提高了准确性（错误率降低了约5倍）。
测试时无限扩展：在推理阶段，模型可以运行任意多的精炼步骤（例如，测试时$H_{\text{test}} \sim 20,000$，远大于训练时的$H_{\text{train}} \sim 20$），从而实现“无需重新训练的额外思考”。

卓越的性能表现

在具体任务上，RSM展现出了强大的解决能力：

在Sudoku-Extreme（数独极难版）任务中，RSM在单个A100 GPU上仅训练约1小时后，通过测试时计算，达到了97.5%的精确准确率。
在Maze-Hard（30x30的困难迷宫）任务中，采用基于注意力的实例化，RSM在约40分钟内达到了约80%的精确准确率。

内在的可靠性信号与防幻觉机制

由于RSM本质上实现了一个迭代稳定过程，其收敛行为提供了一个简单、架构原生的可靠性信号：

非稳定轨迹可以警告模型尚未达到可行的解决方案，这可以作为一种防止幻觉（hallucination）的防护机制。
稳定的不动点则可以与领域验证器配对，进行实际正确性检查。

行业意义与展望

RSM的提出，标志着递归推理模型在训练范式上的一次重要突破。它不仅解决了传统方法训练成本高、易产生偏差的痛点，更通过测试时无限扩展的能力，为模型提供了“持续思考”的潜力。其内在的收敛性作为可靠性指标的设计，也为构建更可信、可解释的AI系统提供了新思路。在追求更高推理效率与可靠性的AI发展道路上，RSM无疑是一个值得关注的重要进展。

形式追随功能：递归主干模型（RSM）革新递归推理训练范式

核心创新：解耦训练与推理

卓越的性能表现

内在的可靠性信号与防幻觉机制

行业意义与展望

延伸阅读

相关资讯