扩散语言模型推理提升：计划条件化方法解析

扩散语言模型在推理任务上的短板

扩散大语言模型（dLLMs）通过迭代去噪生成文本，但在多步推理任务上一直表现不佳。最新研究指出，这一性能差距源于一个协调问题：自回归（AR）模型逐个令牌构建连贯性，而扩散模型必须同时协调所有位置。

计划条件化：无需训练的解决方案

研究人员提出了一种名为计划条件化的训练免费方法。该方法的核心思路是：在扩散模型的提示前，附加一个由AR模型生成的简短（约100个令牌）自然语言计划。这个计划作为一个冻结的脚手架，从第一个去噪步骤开始，每个令牌位置都能关注到这个全局可见的上下文。

显著性能提升

在数学推理基准GSM8K上，计划条件化将LLaDA-8B-Instruct的准确率从75.6%提升至87.2%，增加了11.6个百分点，与同尺寸的AR模型（LLaMA 3.1 8B，87.7%）表现相当，尽管其基线性能弱了6.4个百分点。在代码生成基准HumanEval上，增益达到+12.8个百分点（从37.2%到50.0%），表明计划能泛化到代码任务。

验证协调问题假设

有趣的是，相同的计划对LLaMA模型的提升较小：在GSM8K上仅+5.7个百分点，在HumanEval上仅+1.3个百分点。这意味着扩散模型从计划中获益是AR模型的2到10倍，这直接支持了协调问题的假设。

稳定性和机制分析

稳定性：在5个随机种子下，计划条件化的GSM8K准确率标准差为零，使扩散推理高度稳定。
策略依赖：消融实验显示，模型遵循计划策略（错误策略计划导致-16.3个百分点下降），但对计划中的数值扰动相对稳健（扰动数字仅导致-1.1个百分点下降）。
计划质量阈值：计划质量存在明显阈值——较小的Llama级计划会损害性能（-1.6到-6.8个百分点），而前沿计划能提供全部提升。

注意力机制验证

注意力分析证实了其工作机制：在早期去噪阶段，计划令牌获得1.8倍的过度关注，随着完成令牌的固化，关注度逐渐降至均匀水平。

实用性与成本

计划条件化的成本约为每个问题0.002美元，并增加约2秒的延迟。这种方法为提升扩散语言模型的推理能力提供了一条高效路径，无需重新训练模型，即可显著缩小与自回归模型在复杂任务上的性能差距。

行业意义

这项研究不仅解决了扩散模型在推理任务上的固有弱点，还展示了混合模型架构的潜力。通过结合自回归模型的序列规划能力和扩散模型的并行生成优势，未来可能催生更高效、更强大的语言模型，特别是在需要高可靠性和多步推理的应用场景中，如代码生成、复杂问题解答和科学计算。

先思考，再扩散：通过自回归计划条件化提升扩散语言模型的推理能力