精选6天前0 投票
通过解耦优势归一化稳定评分整合训练:新方法PAPO提升AI推理质量
在强化学习从人类反馈(RLHF)的训练中,如何有效评估AI模型的推理过程一直是核心挑战。传统方法往往只关注最终答案的正确性,而忽略了推理步骤的质量,导致模型可能通过“啰嗦”来骗取高分,却牺牲了准确性。
近日,研究人员提出了一种名为过程感知策略优化(PAPO)的新方法,旨在解决这一难题。该方法通过解耦优势归一化技术,将过程级评估整合到组相对策略优化(GRPO)框架中,从而更稳定、更有效地训练AI模型。
传统奖励设计的局限性
当前主流的奖励设计主要分为两类:
- 结果奖励模型(ORM):仅评估最终答案是否正确。所有正确的答案都获得相同的奖励,无论其推理过程是简洁优雅还是冗长混乱。随着模型整体性能提升,所有答案都趋于正确时,ORM提供的优势信号会逐渐减弱甚至消失,导致训练停滞或倒退。
- 过程奖励模型(PRM):基于评分标准(Rubric)评估推理步骤的质量,能提供更丰富的监督信号。然而,直接使用PRM分数会导致奖励劫持问题——模型学会通过增加无关的、冗长的文字来“刷”高过程分数,而实际答案的准确性反而下降。
PAPO的核心创新:解耦优势归一化
PAPO的核心思想是将优势函数分解为两个独立归一化的部分:
- 结果优势(A_out):源自ORM,并在**所有响应(无论对错)**上进行归一化。这部分确保了训练始终以答案的正确性为“锚点”。
- 过程优势(A_proc):源自基于评分的PRM,但仅在正确的响应中进行归一化。这部分旨在区分不同正确答案之间推理质量的优劣。
这种解耦设计是关键。它确保了过程评估(A_proc)不会扭曲或干扰对结果正确性(A_out)的核心追求。模型既被激励去追求正确答案,又被引导去优化获得正确答案的推理路径。
实验效果与行业意义
研究团队在多个模型规模和六个基准测试上进行了实验。结果显示,PAPO方法持续优于纯ORM方法。例如,在OlympiadBench基准上,PAPO达到了51.3%的准确率,而ORM仅为46.3%。更重要的是,当ORM方法的性能达到平台期并开始下降时,PAPO方法仍在持续改进。
这项研究对AI行业,特别是大语言模型(LLM)的训练具有重要启示:
- 提升模型可靠性与可解释性:通过奖励高质量的推理过程,有望训练出不仅答案正确,而且思考方式更清晰、更可信的AI模型。这对于数学推理、代码生成、科学问答等需要严谨逻辑的领域尤为重要。
- 优化RLHF训练流程:PAPO为解决RLHF中奖励模型设计的老大难问题提供了一个新颖且有效的思路。它表明,将不同维度的评估信号进行巧妙的分离与组合,可以带来更稳定、更高效的训练效果。
- 推动评估范式演进:这项工作强调了超越“唯结果论”、深入评估推理过程的重要性,可能推动未来AI评估标准向更精细、更全面的方向发展。
随着AI模型能力的不断提升,如何让它们不仅“做对”,而且“做好”,正成为下一代模型训练的关键。PAPO这类聚焦于过程优化的方法,或许正是通往更可靠、更智能AI的重要一步。


