
SCAO — Optimizer
producthunt.com
大模型训练提速54%的二阶优化器
1个月前制作者:Danilo Souza
关于 SCAO — Optimizer
SCAO 是一款专为大语言模型(LLM)设计的稀疏二阶 PyTorch 优化器,可作为 AdamW 的高吞吐即插即用替代方案。它通过引入二阶优化信息,在保持与 AdamW 相同内存占用的前提下,将训练速度提升高达 54%,同时不牺牲模型精度。
核心功能
SCAO 的核心在于其稀疏二阶优化算法。传统一阶优化器(如 AdamW)仅利用梯度的一阶矩和二阶矩,而 SCAO 通过近似 Hessian 矩阵,更准确地估计参数的更新方向和步长,从而加速收敛。它特别针对 LLM 训练中常见的稀疏梯度场景进行了优化,仅对关键参数进行二阶修正,大幅降低计算开销。
主要特性
- 训练提速 54%:在相同硬件和超参数下,SCAO 能显著减少达到目标损失所需的迭代次数,实测训练时间缩短超过一半。
- 即插即用:API 与 PyTorch 的 AdamW 完全兼容,只需将
torch.optim.AdamW替换为SCAO,无需改动模型代码或训练循环。 - 内存高效:采用稀疏更新策略,内存占用与 AdamW 持平,不会增加显存压力。
- 精度无损:在多种 LLM 架构(如 GPT、LLaMA)上验证,最终模型性能(如困惑度、下游任务准确率)与 AdamW 相当或更优。
- 开源友好:基于 PyTorch 实现,代码简洁易读,支持自定义超参数调整。
适用场景
SCAO 适用于所有使用 AdamW 进行训练的 LLM 场景,尤其适合以下情况:
- 大规模预训练:需要快速迭代的预训练任务,SCAO 能大幅缩短训练周期,节省算力成本。
- 微调与适配:在资源受限的环境下微调大模型,SCAO 的加速效果可让更多开发者高效完成定制。
- 研究实验:需要频繁调整模型架构或超参数的研究团队,SCAO 能加速实验循环。
无论是学术研究还是工业部署,SCAO 都为 LLM 训练提供了一种高效、易用的优化方案。