SheepNav
新上线今天0 投票

大步长梯度下降如何恢复多路径深度线性网络的对称性?ICML 2026研究揭秘

背景:多路径网络中的“赢家通吃”与对称性破缺

在深度学习中,多路径网络(multi-pathway networks)是一种常见架构,例如具有多个并行子网络的模型。这类网络的一个经典现象是路径对称性破缺:在训练过程中,不同的特征会“专业化”地集中到某一条路径上,形成“赢家通吃”(winner-takes-all)的格局。此前基于梯度流(Gradient Flow, GF)的理论分析预测了这一趋势,认为对称性一旦破缺,网络就会稳定在单路径主导的解上。

新发现:离散梯度下降的“反直觉”行为

来自韩国团队的研究(arXiv:2606.05219,已被ICML 2026接收)挑战了这一传统认知。他们发现,当使用离散梯度下降(GD)步长较大时,情况完全不同。

  • 单路径解是尖锐极小值:论文从数学上证明,单路径的解(即所有信号集中到一条路径)是尖锐极小值(sharp minima),其损失函数曲率较大。
  • 多路径分布降低尖锐度:将信号分散到多条路径上,会降低极小值的尖锐度。降低的倍数与路径数量网络深度成反比——路径越多、网络越深,分散信号带来的平滑效果越显著。

训练动态:从对称性破缺到重新平衡

研究揭示了训练过程中两个阶段的动态变化:

  1. 早期阶段:与梯度流预测一致,深度驱动的对称性破缺导致信号向单路径集中。
  2. 后期阶段:当训练进入“稳定性边缘”(Edge of Stability)——即梯度下降的步长大到足以引起损失震荡的区域——震荡效应会覆盖之前的破缺趋势,促使网络进入重新平衡阶段,信号重新在多条路径间均匀分布。

理论意义与启示

这项工作的核心贡献在于:

  • 澄清了深度在多路径竞争中的双重作用:深度既在早期强化对称性破缺,又在后期通过调节尖锐度促进重新平衡。
  • 解释了为什么大学习率的梯度下降更倾向于学习共享表示(shared representations),而不是让单一路径垄断特征。这为实践中使用大学习率训练多分支网络(如Mixture of Experts)提供了理论依据。

结论:步长大小决定对称性命运

简而言之,梯度流预测了对称性破缺,而大步长的离散梯度下降却能恢复对称性。这一发现提醒我们:连续时间近似(梯度流)与离散优化(梯度下降)之间存在本质差异,尤其是在学习率较大时。对于追求特征复用和鲁棒性的多路径网络,采用大学习率可能是一种简单而有效的正则化策略。

延伸阅读

  1. Differentiable Efficient Operator Search
  2. 状态承诺学习:训练语言模型区分计算与记忆
  3. 大语言模型中的时间偏好概念及其功能
查看原文