深度学习中的优化器之SGD with Polyak Averaging算法原理与实现细节
**深度学习中的优化器之SGD with Polyak Averaging算法原理与实现细节**
**题目描述**
SGD with Polyak Averaging是一种结合随机梯度下降与参数平均化的优化技术。其核心思想是在模型训练过程中,对历史参数值进行加权平均,而非直接使用最新的参数。这种方法能有效平滑优化路径,提升模型在测试集上的泛化能力,特别适用于非凸优化问题中振荡收敛的场景。
**解题过程循序渐进讲解**
**1. 基础SGD的局限性分析**
- 标准SGD每次迭代按负
2025-11-13 22:38:14
0