SheepNav
精选19天前0 投票

先思考,再扩散:通过自回归计划条件化提升扩散语言模型的推理能力

扩散语言模型在推理任务上的短板

扩散大语言模型(dLLMs)通过迭代去噪生成文本,但在多步推理任务上一直表现不佳。最新研究指出,这一性能差距源于一个协调问题:自回归(AR)模型逐个令牌构建连贯性,而扩散模型必须同时协调所有位置。

计划条件化:无需训练的解决方案

研究人员提出了一种名为计划条件化的训练免费方法。该方法的核心思路是:在扩散模型的提示前,附加一个由AR模型生成的简短(约100个令牌)自然语言计划。这个计划作为一个冻结的脚手架,从第一个去噪步骤开始,每个令牌位置都能关注到这个全局可见的上下文。

显著性能提升

在数学推理基准GSM8K上,计划条件化将LLaDA-8B-Instruct的准确率从75.6%提升至87.2%,增加了11.6个百分点,与同尺寸的AR模型(LLaMA 3.1 8B,87.7%)表现相当,尽管其基线性能弱了6.4个百分点。在代码生成基准HumanEval上,增益达到+12.8个百分点(从37.2%到50.0%),表明计划能泛化到代码任务。

验证协调问题假设

有趣的是,相同的计划对LLaMA模型的提升较小:在GSM8K上仅+5.7个百分点,在HumanEval上仅+1.3个百分点。这意味着扩散模型从计划中获益是AR模型的2到10倍,这直接支持了协调问题的假设。

稳定性和机制分析

  • 稳定性:在5个随机种子下,计划条件化的GSM8K准确率标准差为零,使扩散推理高度稳定。
  • 策略依赖:消融实验显示,模型遵循计划策略(错误策略计划导致-16.3个百分点下降),但对计划中的数值扰动相对稳健(扰动数字仅导致-1.1个百分点下降)。
  • 计划质量阈值:计划质量存在明显阈值——较小的Llama级计划会损害性能(-1.6到-6.8个百分点),而前沿计划能提供全部提升。

注意力机制验证

注意力分析证实了其工作机制:在早期去噪阶段,计划令牌获得1.8倍的过度关注,随着完成令牌的固化,关注度逐渐降至均匀水平。

实用性与成本

计划条件化的成本约为每个问题0.002美元,并增加约2秒的延迟。这种方法为提升扩散语言模型的推理能力提供了一条高效路径,无需重新训练模型,即可显著缩小与自回归模型在复杂任务上的性能差距。

行业意义

这项研究不仅解决了扩散模型在推理任务上的固有弱点,还展示了混合模型架构的潜力。通过结合自回归模型的序列规划能力和扩散模型的并行生成优势,未来可能催生更高效、更强大的语言模型,特别是在需要高可靠性和多步推理的应用场景中,如代码生成、复杂问题解答和科学计算。

延伸阅读

  1. Donut Browser:开源反检测浏览器,支持无限用户配置文件
  2. Klick AI 相机助手:实时 AI 相机,现场指导构图
  3. Vista:macOS 本该内置的图片查看器
查看原文