深度学习中优化器的SGD with Polyak Averaging算法原理与实现细节
**深度学习中优化器的SGD with Polyak Averaging算法原理与实现细节**
**题目描述**
SGD with Polyak Averaging(又称Polyak-Ruppert平均)是一种在随机梯度下降(SGD)基础上引入参数平均机制的优化算法。其核心思想是:在SGD的迭代过程中,不仅记录当前参数,还计算参数轨迹的算术平均值作为最终模型参数。这种方法通过平滑优化路径的波动,显著提升收敛稳定性和泛化性能,特别适用于非凸优化问题。本题目将详细解析该算法的理论动机、实现细节
2025-11-04 00:30:23
0