SCAO — Optimizer

producthunt.com

大模型训练提速54%的二阶优化器

1个月前制作者：Danilo Souza

关于 SCAO — Optimizer

SCAO 是一款专为大语言模型（LLM）设计的稀疏二阶 PyTorch 优化器，可作为 AdamW 的高吞吐即插即用替代方案。它通过引入二阶优化信息，在保持与 AdamW 相同内存占用的前提下，将训练速度提升高达 54%，同时不牺牲模型精度。

核心功能

SCAO 的核心在于其稀疏二阶优化算法。传统一阶优化器（如 AdamW）仅利用梯度的一阶矩和二阶矩，而 SCAO 通过近似 Hessian 矩阵，更准确地估计参数的更新方向和步长，从而加速收敛。它特别针对 LLM 训练中常见的稀疏梯度场景进行了优化，仅对关键参数进行二阶修正，大幅降低计算开销。

主要特性

训练提速 54%：在相同硬件和超参数下，SCAO 能显著减少达到目标损失所需的迭代次数，实测训练时间缩短超过一半。
即插即用：API 与 PyTorch 的 AdamW 完全兼容，只需将 torch.optim.AdamW 替换为 SCAO，无需改动模型代码或训练循环。
内存高效：采用稀疏更新策略，内存占用与 AdamW 持平，不会增加显存压力。
精度无损：在多种 LLM 架构（如 GPT、LLaMA）上验证，最终模型性能（如困惑度、下游任务准确率）与 AdamW 相当或更优。
开源友好：基于 PyTorch 实现，代码简洁易读，支持自定义超参数调整。

适用场景

SCAO 适用于所有使用 AdamW 进行训练的 LLM 场景，尤其适合以下情况：

大规模预训练：需要快速迭代的预训练任务，SCAO 能大幅缩短训练周期，节省算力成本。
微调与适配：在资源受限的环境下微调大模型，SCAO 的加速效果可让更多开发者高效完成定制。
研究实验：需要频繁调整模型架构或超参数的研究团队，SCAO 能加速实验循环。

无论是学术研究还是工业部署，SCAO 都为 LLM 训练提供了一种高效、易用的优化方案。

所属分类

人工智能 GitHub

相关工具

Brila

用真实谷歌地图评论生成单页网站

Fundraisly

AI融资代理，精准匹配投资人并安排会议

Brew

专为邮件营销设计的Claude

Unabyss

AI的自我更新上下文层

Stitch 2.0 by Google

秒速生成精美、生产就绪的UI设计

Kilo Code v7 for VS Code

并行代理、差异审查与多模型对比