PROGRS框架优化LLM数学推理，过程奖励提升准确性

大语言模型数学推理的奖励机制演进

在大型语言模型的数学推理能力训练中，强化学习结合可验证奖励已成为主流方法。通过自动检查最终答案，系统能生成可靠的训练信号。然而，传统方法仅优化结果正确性，这在处理多步骤、长推理链问题时面临挑战：反馈稀疏，且对中间推理错误缺乏有效指导。

过程奖励模型的引入与局限

为应对这一挑战，研究者引入了过程奖励模型来评估中间步骤，提供更密集的监督。PRM能对推理过程中的每一步进行评分，理论上可引导模型生成更合理的中间推导。但在实际应用中，PRM评分常与最终正确性不完全一致，可能导致模型生成局部流畅但最终错误的推理路径。若将PRM分数作为绝对奖励进行优化，可能强化“流畅失败”模式，甚至引发奖励黑客行为——模型学会迎合评分标准而非真正解决问题。

PROGRS框架：以结果为主导的过程奖励优化

针对上述问题，来自arXiv:2604.02341的研究提出了PROGRS框架。该框架的核心创新在于：

保持结果正确性的主导地位：PROGRS将过程奖励视为结果组内的相对偏好，而非绝对目标。
结果条件中心化：将错误轨迹的PRM分数在每个提示组内调整为零均值，消除系统性偏差，同时保留信息性排名。
集成多尺度一致性评估器：结合冻结的分位数回归PRM，评估推理链的连贯性。

技术实现与实验效果

PROGRS将处理后的过程奖励融入组相对策略优化中，无需额外可训练组件或辅助目标。在MATH-500、AMC、AIME、MinervaMath和OlympiadBench等多个数学推理基准测试中，PROGRS均显著优于仅优化结果的基线模型，以更少的采样次数实现了更强的性能表现。

关键优势：

安全性：通过结果条件中心化，有效避免奖励黑客和流畅失败模式的放大。
效率：减少训练所需的采样次数，提升数据利用效率。
通用性：框架设计简洁，易于集成到现有强化学习流程中。

行业意义与未来展望

PROGRS框架的提出，标志着大语言模型推理训练从单纯追求结果正确性，向精细化过程监督迈出了重要一步。在数学、逻辑推理等需要多步骤推导的领域，该方法有望提升模型的可靠性和可解释性。

随着AI模型在科研、教育、工程等领域的深入应用，对中间推理步骤的质量控制将变得越来越重要。PROGRS提供了一种平衡结果导向与过程优化的可行路径，为未来更复杂任务的模型训练提供了新思路。

PROGRS框架：利用过程奖励优化LLM数学推理，以结果为导向提升步骤准确性

大语言模型数学推理的奖励机制演进

过程奖励模型的引入与局限

PROGRS框架：以结果为主导的过程奖励优化

技术实现与实验效果

行业意义与未来展望

延伸阅读

相关资讯