大步长梯度下降恢复多路径网络对称性 | ICML 2026

背景：多路径网络中的“赢家通吃”与对称性破缺

在深度学习中，多路径网络（multi-pathway networks）是一种常见架构，例如具有多个并行子网络的模型。这类网络的一个经典现象是路径对称性破缺：在训练过程中，不同的特征会“专业化”地集中到某一条路径上，形成“赢家通吃”（winner-takes-all）的格局。此前基于梯度流（Gradient Flow, GF）的理论分析预测了这一趋势，认为对称性一旦破缺，网络就会稳定在单路径主导的解上。

新发现：离散梯度下降的“反直觉”行为

来自韩国团队的研究（arXiv:2606.05219，已被ICML 2026接收）挑战了这一传统认知。他们发现，当使用离散梯度下降（GD） 且步长较大时，情况完全不同。

单路径解是尖锐极小值：论文从数学上证明，单路径的解（即所有信号集中到一条路径）是尖锐极小值（sharp minima），其损失函数曲率较大。
多路径分布降低尖锐度：将信号分散到多条路径上，会降低极小值的尖锐度。降低的倍数与路径数量和网络深度成反比——路径越多、网络越深，分散信号带来的平滑效果越显著。

训练动态：从对称性破缺到重新平衡

研究揭示了训练过程中两个阶段的动态变化：

早期阶段：与梯度流预测一致，深度驱动的对称性破缺导致信号向单路径集中。
后期阶段：当训练进入“稳定性边缘”（Edge of Stability）——即梯度下降的步长大到足以引起损失震荡的区域——震荡效应会覆盖之前的破缺趋势，促使网络进入重新平衡阶段，信号重新在多条路径间均匀分布。

理论意义与启示

这项工作的核心贡献在于：

澄清了深度在多路径竞争中的双重作用：深度既在早期强化对称性破缺，又在后期通过调节尖锐度促进重新平衡。
解释了为什么大学习率的梯度下降更倾向于学习共享表示（shared representations），而不是让单一路径垄断特征。这为实践中使用大学习率训练多分支网络（如Mixture of Experts）提供了理论依据。

结论：步长大小决定对称性命运

简而言之，梯度流预测了对称性破缺，而大步长的离散梯度下降却能恢复对称性。这一发现提醒我们：连续时间近似（梯度流）与离散优化（梯度下降）之间存在本质差异，尤其是在学习率较大时。对于追求特征复用和鲁棒性的多路径网络，采用大学习率可能是一种简单而有效的正则化策略。

大步长梯度下降如何恢复多路径深度线性网络的对称性？ICML 2026研究揭秘

背景：多路径网络中的“赢家通吃”与对称性破缺

新发现：离散梯度下降的“反直觉”行为

训练动态：从对称性破缺到重新平衡

理论意义与启示

结论：步长大小决定对称性命运

延伸阅读

相关资讯