S³:扩散语言模型中的分层缩放搜索,无需训练即可提升推理性能
在AI模型部署中,一个常见挑战是:如何在不重新训练模型的前提下,仅通过增加推理时的计算资源来提升生成质量?传统方法如最佳K采样(best-of-K sampling) 虽然简单,但存在根本性局限——它反复从同一个基础扩散分布中采样,而该分布的高概率区域往往与高质量输出不对齐。
近日,一篇题为《S³: Stratified Scaling Search for Test-Time in Diffusion Language Models》的论文提出了一种创新解决方案:S³(分层缩放搜索)。这是一种经典的验证器引导搜索方法,通过在去噪过程中重新分配计算资源,而非仅在最终输出阶段进行优化,从而显著提升生成效果。
S³ 的核心机制
S³ 的核心思想是将计算资源动态分配到最有希望的生成路径上。具体而言,它在每个去噪步骤中:
- 扩展多个候选轨迹:从当前状态生成多个可能的后续序列。
- 轻量级验证器评估:使用一个无需参考的轻量级验证器快速评估这些候选的质量。
- 选择性重采样:根据评估结果,有选择性地对前景看好的候选进行重采样,同时保持搜索前沿的多样性。
这一过程有效地近似了一个奖励倾斜的采样分布,该分布更倾向于高质量输出,同时仍锚定在模型先验上。这意味着S³能够在不过度偏离原始模型行为的前提下,引导生成过程朝向更优解。
实验验证与性能提升
研究团队在 LLaDA-8B-Instruct 模型上进行了广泛实验,测试基准包括 MATH-500、GSM8K、ARC-Challenge 和 TruthfulQA。实验结果表明:
- S³ 在所有基准测试中均能一致提升性能。
- 在数学推理任务(如MATH-500和GSM8K)上取得了最显著的增益。
- 所有这些提升都是在不改变底层模型参数和预训练解码调度的情况下实现的。
这证明了,通过对去噪轨迹进行经典搜索,可以为扩散语言模型(DLM)提供一种实用的测试时缩放机制。
行业意义与潜在影响
S³ 的提出,为AI模型的推理阶段优化开辟了新思路。在当前大模型训练成本高昂、部署资源受限的背景下,这种无需额外训练即可提升性能的方法具有重要价值:
- 成本效益:企业无需投入巨资进行模型再训练或微调,仅通过优化推理策略即可获得性能提升。
- 灵活性:该方法与特定模型架构解耦,理论上可应用于各种扩散语言模型。
- 可扩展性:随着计算资源的增加,S³ 有望通过更精细的搜索带来进一步的性能改进。
然而,该方法也面临一些挑战,例如验证器的设计与校准、搜索效率与计算开销的平衡等,这些将是未来研究的重要方向。
小结
S³ 通过将经典搜索算法与扩散生成过程相结合,提供了一种高效、实用的测试时缩放方案。它不仅突破了传统最佳K采样的局限,还为扩散模型在复杂任务(如数学推理)上的应用提供了新的性能提升途径。随着研究的深入,这类方法有望在更多场景中发挥关键作用,推动AI模型在资源受限环境下的高效部署。