新上线今天0 投票
PROGRS框架:利用过程奖励优化LLM数学推理,以结果为导向提升步骤准确性
大语言模型数学推理的奖励机制演进
在大型语言模型的数学推理能力训练中,强化学习结合可验证奖励已成为主流方法。通过自动检查最终答案,系统能生成可靠的训练信号。然而,传统方法仅优化结果正确性,这在处理多步骤、长推理链问题时面临挑战:反馈稀疏,且对中间推理错误缺乏有效指导。
过程奖励模型的引入与局限
为应对这一挑战,研究者引入了过程奖励模型来评估中间步骤,提供更密集的监督。PRM能对推理过程中的每一步进行评分,理论上可引导模型生成更合理的中间推导。但在实际应用中,PRM评分常与最终正确性不完全一致,可能导致模型生成局部流畅但最终错误的推理路径。若将PRM分数作为绝对奖励进行优化,可能强化“流畅失败”模式,甚至引发奖励黑客行为——模型学会迎合评分标准而非真正解决问题。
PROGRS框架:以结果为主导的过程奖励优化
针对上述问题,来自arXiv:2604.02341的研究提出了PROGRS框架。该框架的核心创新在于:
- 保持结果正确性的主导地位:PROGRS将过程奖励视为结果组内的相对偏好,而非绝对目标。
- 结果条件中心化:将错误轨迹的PRM分数在每个提示组内调整为零均值,消除系统性偏差,同时保留信息性排名。
- 集成多尺度一致性评估器:结合冻结的分位数回归PRM,评估推理链的连贯性。
技术实现与实验效果
PROGRS将处理后的过程奖励融入组相对策略优化中,无需额外可训练组件或辅助目标。在MATH-500、AMC、AIME、MinervaMath和OlympiadBench等多个数学推理基准测试中,PROGRS均显著优于仅优化结果的基线模型,以更少的采样次数实现了更强的性能表现。
关键优势:
- 安全性:通过结果条件中心化,有效避免奖励黑客和流畅失败模式的放大。
- 效率:减少训练所需的采样次数,提升数据利用效率。
- 通用性:框架设计简洁,易于集成到现有强化学习流程中。
行业意义与未来展望
PROGRS框架的提出,标志着大语言模型推理训练从单纯追求结果正确性,向精细化过程监督迈出了重要一步。在数学、逻辑推理等需要多步骤推导的领域,该方法有望提升模型的可靠性和可解释性。
随着AI模型在科研、教育、工程等领域的深入应用,对中间推理步骤的质量控制将变得越来越重要。PROGRS提供了一种平衡结果导向与过程优化的可行路径,为未来更复杂任务的模型训练提供了新思路。