深度学习中优化器的SGD with Layer-wise Adaptive Rate (LARS) 算法原理与自适应学习率机制
**深度学习中优化器的SGD with Layer-wise Adaptive Rate (LARS) 算法原理与自适应学习率机制**
### 题目描述
LARS(Layer-wise Adaptive Rate Scaling)是一种针对大规模深度学习训练的优化算法,特别适用于分布式训练和大批量(large-batch)场景。传统优化器如SGD对所有参数使用统一学习率,而LARS通过分析每层参数的梯度与权重范数之比,为不同网络层自适应调整学习率,解决大批量训练时梯度爆炸/消失和训练不稳定的问
2025-11-22 12:05:55
0