深度学习中的自适应学习率预热与余弦退火学习率调度算法原理与实现细节
1. 题目描述
在深度学习训练中,学习率调度对模型收敛速度和最终性能至关重要。自适应学习率预热与余弦退火是两种常用的学习率调度策略,它们分别解决训练初期的稳定性和训练后期的精细调优问题。
自适应学习率预热在训练初期逐步提高学习率,避免初始梯度更新过大导致模型不稳定;余弦退火则模拟余弦函数衰减学习率,在训练后期缓慢降低学习率,有助于模型收敛到更优的局部最小值。
本题将详细讲解这两种学习率调度算法的原理、数学形式、实现步骤,并结合实际代码示例说明其应用。
2. 学习率调度的重要性
- 学习率过大:梯度更新震荡,难以收敛。
- 学习率过小:收敛速度慢,易陷入局部最优点。
- 动态调整学习率可平衡收敛速度与稳定性,提升模型泛化能力。
3. 自适应学习率预热(Adaptive Learning Rate Warmup)
3.1 核心思想
训练初期,模型参数随机分布,直接使用较大的学习率可能导致梯度更新方向不稳定。预热阶段(通常在前几个epoch或若干step内)逐步从较小的学习率增加到预设的初始学习率,使模型“温和”地进入训练状态。
3.2 数学形式
假设预设的初始学习率为 \(\eta_{\text{base}}\),当前训练步数为 \(t\),总预热步数为 \(T_{\text{warmup}}\),则预热阶段的学习率 \(\eta_t\) 计算为:
线性预热(最常用):
\[\eta_t = \frac{t}{T_{\text{warmup}}} \cdot \eta_{\text{base}} \]
- 当 \(t=0\) 时,\(\eta_0 = 0\)。
- 当 \(t = T_{\text{warmup}}\) 时,\(\eta_t = \eta_{\text{base}}\)。
指数预热(较少用,但可更平滑):
\[\eta_t = \eta_{\text{base}} \cdot \left(1 - e^{-5t/T_{\text{warmup}}}\right) \]
3.3 作用机制
- 梯度稳定性:避免初期梯度方差大导致更新方向剧烈变化。
- 优化器适应性:对Adam等自适应优化器,其动量估计(如一阶矩、二阶矩)在初期可能不准确,预热可帮助其平稳初始化。
4. 余弦退火(Cosine Annealing)
4.1 核心思想
模拟余弦函数,从初始学习率平滑衰减到最小值(甚至零),使学习率在训练后期缓慢变化,帮助模型跳出尖锐的局部最小值,收敛到更平坦(泛化更好)的区域。
4.2 数学形式
设总训练步数为 \(T_{\text{total}}\),当前步数 \(t\),初始学习率 \(\eta_{\text{base}}\),最小学习率 \(\eta_{\text{min}}\)(通常设为0或 \(\eta_{\text{base}} \times 0.1\)),则:
基本余弦退火:
\[\eta_t = \eta_{\text{min}} + \frac{1}{2}(\eta_{\text{base}} - \eta_{\text{min}}) \left(1 + \cos\left(\frac{t}{T_{\text{total}}} \cdot \pi\right)\right) \]
- 当 \(t=0\) 时,\(\eta_0 = \eta_{\text{base}}\)。
- 当 \(t = T_{\text{total}}\) 时,\(\eta_t = \eta_{\text{min}}\)。
带热重启的余弦退火(Cosine Annealing with Warm Restarts):
- 将训练分为多个周期,每个周期内独立应用余弦退火,并在周期结束时突然将学习率重置为初始值(即“热重启”),帮助模型跳出局部最优。
- 设每个周期步数为 \(T_i\),则第 \(i\) 个周期的学习率为:
\[\eta_t = \eta_{\text{min}} + \frac{1}{2}(\eta_{\text{base}} - \eta_{\text{min}}) \left(1 + \cos\left(\frac{t_{\text{local}}}{T_i} \cdot \pi\right)\right) \]
其中 \(t_{\text{local}}\) 是当前周期内的步数。
4.3 作用机制
- 平滑衰减:避免阶梯式下降(如StepLR)可能错失更优点。
- 热重启:周期性重置学习率,增加模型探索能力,常用于图像分类、检测等任务。
5. 结合使用:预热 + 余弦退火
实际训练中常先预热、再余弦退火。整体学习率变化曲线分为三个阶段:
- 预热阶段:线性增加至 \(\eta_{\text{base}}\)。
- 余弦退火阶段:从 \(\eta_{\text{base}}\) 平滑衰减至 \(\eta_{\text{min}}\)。
- (可选)热重启:重复阶段1和2。
6. 实现步骤与代码示例(PyTorch)
6.1 定义结合策略的调度器
import torch
import torch.optim as optim
import math
from torch.optim.lr_scheduler import _LRScheduler
class WarmupCosineAnnealingLR(_LRScheduler):
def __init__(self, optimizer, T_total, warmup_steps, eta_min=0, last_epoch=-1):
"""
optimizer: 优化器(如Adam)
T_total: 总训练步数(预热+余弦退火)
warmup_steps: 预热步数
eta_min: 最小学习率
"""
self.T_total = T_total
self.warmup_steps = warmup_steps
self.eta_min = eta_min
super().__init__(optimizer, last_epoch)
def get_lr(self):
if self.last_epoch < self.warmup_steps:
# 线性预热
return [base_lr * (self.last_epoch + 1) / self.warmup_steps
for base_lr in self.base_lrs]
else:
# 余弦退火
progress = (self.last_epoch - self.warmup_steps) / (self.T_total - self.warmup_steps)
progress = min(progress, 1.0) # 防止超出总步数
return [self.eta_min + (base_lr - self.eta_min) *
(1 + math.cos(math.pi * progress)) / 2
for base_lr in self.base_lrs]
# 示例:在训练循环中使用
model = torch.nn.Linear(10, 2)
optimizer = optim.Adam(model.parameters(), lr=0.001) # 初始学习率
scheduler = WarmupCosineAnnealingLR(optimizer, T_total=1000, warmup_steps=100, eta_min=1e-6)
for epoch in range(100):
for batch_idx, (data, target) in enumerate(train_loader):
optimizer.zero_grad()
output = model(data)
loss = torch.nn.functional.mse_loss(output, target)
loss.backward()
optimizer.step()
scheduler.step() # 每个step更新学习率
current_lr = scheduler.get_lr()[0]
print(f"Step: {scheduler.last_epoch}, LR: {current_lr:.6f}")
6.2 可视化学习率曲线
import matplotlib.pyplot as plt
# 模拟1000步,预热100步
lrs = []
scheduler.last_epoch = -1
for _ in range(1000):
scheduler.step()
lrs.append(scheduler.get_lr()[0])
plt.plot(lrs)
plt.xlabel("Training Step")
plt.ylabel("Learning Rate")
plt.title("Warmup + Cosine Annealing Schedule")
plt.grid()
plt.show()
曲线特征:前100步线性上升,之后按余弦曲线平滑下降至 eta_min。
7. 关键细节与注意事项
- 预热步数设置:通常为总步数的1%~10%,或2~5个epoch对应的步数。
- 初始学习率选择:需根据任务和模型调整,常用范围在 \(10^{-4}\) 到 \(10^{-2}\) 之间。
- 余弦退火的最小学习率:可设为0,但实践中设为初始学习率的1%~10%有助于最终微调。
- 热重启周期:重启周期可逐渐增长(如SGDR策略),以平衡探索与收敛。
8. 总结
- 自适应预热:提升训练初期稳定性,尤其适合自适应优化器和大规模模型(如Transformer)。
- 余弦退火:平滑衰减学习率,有助于收敛到更平坦的极值点,结合热重启可增强模型跳出局部最优的能力。
- 组合策略:在多种SOTA模型(如ResNet、ViT、BERT)中广泛应用,显著提升收敛速度和泛化性能。
通过合理设计预热与退火策略,可显著减少训练调参成本,使模型更快、更稳定地达到最优性能。