精选2个月前0 投票

通过解耦优势归一化稳定评分整合训练：新方法PAPO提升AI推理质量

在强化学习从人类反馈（RLHF）的训练中，如何有效评估AI模型的推理过程一直是核心挑战。传统方法往往只关注最终答案的正确性，而忽略了推理步骤的质量，导致模型可能通过“啰嗦”来骗取高分，却牺牲了准确性。

近日，研究人员提出了一种名为过程感知策略优化（PAPO）的新方法，旨在解决这一难题。该方法通过解耦优势归一化技术，将过程级评估整合到组相对策略优化（GRPO）框架中，从而更稳定、更有效地训练AI模型。

传统奖励设计的局限性

当前主流的奖励设计主要分为两类：

结果奖励模型（ORM）：仅评估最终答案是否正确。所有正确的答案都获得相同的奖励，无论其推理过程是简洁优雅还是冗长混乱。随着模型整体性能提升，所有答案都趋于正确时，ORM提供的优势信号会逐渐减弱甚至消失，导致训练停滞或倒退。
过程奖励模型（PRM）：基于评分标准（Rubric）评估推理步骤的质量，能提供更丰富的监督信号。然而，直接使用PRM分数会导致奖励劫持问题——模型学会通过增加无关的、冗长的文字来“刷”高过程分数，而实际答案的准确性反而下降。

PAPO的核心创新：解耦优势归一化

PAPO的核心思想是将优势函数分解为两个独立归一化的部分：

结果优势（A_out）：源自ORM，并在**所有响应（无论对错）**上进行归一化。这部分确保了训练始终以答案的正确性为“锚点”。
过程优势（A_proc）：源自基于评分的PRM，但仅在正确的响应中进行归一化。这部分旨在区分不同正确答案之间推理质量的优劣。

这种解耦设计是关键。它确保了过程评估（A_proc）不会扭曲或干扰对结果正确性（A_out）的核心追求。模型既被激励去追求正确答案，又被引导去优化获得正确答案的推理路径。

实验效果与行业意义

研究团队在多个模型规模和六个基准测试上进行了实验。结果显示，PAPO方法持续优于纯ORM方法。例如，在OlympiadBench基准上，PAPO达到了51.3%的准确率，而ORM仅为46.3%。更重要的是，当ORM方法的性能达到平台期并开始下降时，PAPO方法仍在持续改进。

这项研究对AI行业，特别是大语言模型（LLM）的训练具有重要启示：

提升模型可靠性与可解释性：通过奖励高质量的推理过程，有望训练出不仅答案正确，而且思考方式更清晰、更可信的AI模型。这对于数学推理、代码生成、科学问答等需要严谨逻辑的领域尤为重要。
优化RLHF训练流程：PAPO为解决RLHF中奖励模型设计的老大难问题提供了一个新颖且有效的思路。它表明，将不同维度的评估信号进行巧妙的分离与组合，可以带来更稳定、更高效的训练效果。
推动评估范式演进：这项工作强调了超越“唯结果论”、深入评估推理过程的重要性，可能推动未来AI评估标准向更精细、更全面的方向发展。

随着AI模型能力的不断提升，如何让它们不仅“做对”，而且“做好”，正成为下一代模型训练的关键。PAPO这类聚焦于过程优化的方法，或许正是通往更可靠、更智能AI的重要一步。

延伸阅读

相关资讯

中国脑植入芯片雄心：全球首个侵入式脑机接口获批，下一步是什么？

中国批准全球首款侵入式脑机接口芯片，下一步将走向何方？

Open Caffeine：让 Mac 保持清醒的小工具

Folk：你的消息中能搞定事情的AI