SheepNav
新上线今天0 投票

FoLoRA:用广义瑞利商优化实现基础模型微调与能力保持的平衡

微调基础模型的两难困境

大型基础模型(如LLaMA、GPT等)在预训练阶段积累了广泛的能力,但在针对特定下游任务进行微调时,往往会遗忘预训练阶段学到的非目标能力。例如,一个擅长数学推理的模型,经过指令微调后可能数学能力下降。现有方法通过特殊初始化或固定约束来缓解遗忘,但无法在训练过程中动态调节适配与保持的权衡。

FoLoRA:基于广义瑞利商的遗忘感知优化框架

来自德克萨斯大学奥斯汀分校和微软的研究团队提出FoLoRA(Foundation Preserving LoRA),这是一种遗忘感知优化框架,核心创新在于将广义瑞利商引入微调过程。FoLoRA通过以下步骤实现适配与保持的平衡:

  1. 定义两个关键指标

    • 遗忘惩罚:基于预训练代理激活(通过从预训练模型采样构建的校准数据计算)衡量更新方向对非目标能力的损害;
    • 任务效用:基于下游任务激活衡量更新方向对目标任务的贡献。
  2. 广义瑞利商评分:将每个更新方向的得分定义为“任务效用/遗忘惩罚”,即每单位遗忘惩罚带来的任务效用。得分高的方向表示在遗忘较少的情况下提升目标任务。

  3. 谱坐标系统与门控Adam更新:利用广义瑞利商构建谱坐标系统,对低效用-高惩罚的方向进行衰减(即门控),从而在Adam优化器中动态调整更新强度。

创新校准数据构建

FoLoRA另一个亮点是预训练代理校准数据的生成:不依赖单一代理数据集,而是从预训练模型本身采样。这种方法更具通用性,避免了代理数据集偏差,同时降低了对外部数据的依赖。

实验效果

数学、代码和指令跟随三个适配场景下的实验表明,FoLoRA在保持非目标能力(如通用知识、推理)方面显著优于现有基线方法(如LoRA、DARE等),同时目标任务性能也有提升。例如,在数学适配中,FoLoRA在GSM8K上保持高准确率的同时,代码生成能力下降幅度最小。

行业意义

FoLoRA为基础模型持续学习多能力平衡提供了新思路。随着模型在垂直领域(如医疗、法律)的广泛应用,如何在不破坏通用能力的前提下进行高效适配,成为关键挑战。FoLoRA的动态门控机制代理数据采样策略具有实用价值,可集成到现有LoRA微调流程中,为开发者提供更安全的微调方案。

小结

FoLoRA通过广义瑞利商优化,将遗忘惩罚和任务效用统一到一个数学框架中,实现了微调过程中适配与保持的精细调节。该方法在多个任务上展示了优越性,有望成为基础模型适配的标准工具之一。未来工作可能包括扩展到更大模型和更多模态,以及探索更高效的代理数据构建方式。

延伸阅读

  1. 世界模型全面综述:架构、方法论、推理范式与应用全景
  2. 自动可微非线性张量网络:实现深度神经网络指数级压缩的新路径
  3. 现代大语言模型与人类脑电共享一条情绪效价轴:饱和规律揭示
查看原文