基于深度学习的图像超分辨率算法:RCAN(残差通道注意力网络)
题目描述
图像超分辨率(Super-Resolution, SR)是指从低分辨率(LR)图像重建出高分辨率(HR)图像的技术。RCAN是一种基于深度学习的超分辨率算法,其核心创新在于引入了残差中的残差(Residual in Residual, RIR)结构和通道注意力(Channel Attention, CA)机制。RIR结构通过堆叠多个残差组(Residual Group, RG)和长跳跃连接(Long Skip Connection, LSC)来构建极深的网络(如400层),缓解梯度消失问题;通道注意力机制则让网络自适应地重新校准通道特征,突出对重建有益的信息。RCAN在峰值信噪比(PSNR)和视觉质量上均显著超越了之前的超分辨率模型。
解题过程
- 问题建模与网络整体架构
- 目标:学习一个映射函数 \(F\),将低分辨率图像 \(I_{LR}\) 重建为高分辨率图像 \(I_{SR}\):
\[ I_{SR} = F(I_{LR}) + I_{LR} \uparrow \]
其中 $ I_{LR} \uparrow $ 表示通过双三次插值上采样到目标尺寸的LR图像(作为全局残差学习的基准)。
- RCAN的架构包含四部分:
- 浅层特征提取:使用一个卷积层从 \(I_{LR}\) 提取浅层特征 \(F_0\):
\[ F_0 = H_{SF}(I_{LR}) \]
$ H_{SF} $ 通常是一个3×3卷积。
- **深层特征提取**:通过RIR结构学习残差特征 $ F_{DF} $:
\[ F_{DF} = H_{RIR}(F_0) \]
- **上采样模块**:使用亚像素卷积(Sub-pixel Convolution)将深层特征上采样到目标尺寸。
- **重建层**:用一个卷积层生成最终的超分辨率图像 $ I_{SR} $。
- 残差中的残差(RIR)结构设计
- 残差组(Residual Group, RG):每个RG包含多个残差通道注意力块(RCAB)和一个局部跳跃连接(Local Skip Connection, LSC)。第 \(i\) 个RG的计算为:
\[ F_{i} = H_{RG_i}(F_{i-1}) = F_{i-1} + H_{RCABs}(F_{i-1}) \]
其中 $ H_{RCABs} $ 表示多个RCAB的串联。
- 长跳跃连接(LSC):多个RG之间添加长跳跃连接,将浅层特征直接传递到深层,进一步缓解梯度消失:
\[ F_{DF} = F_0 + \sum_{i=1}^{G} H_{RG_i}(F_{i-1}) \]
这里 $ G $ 是RG的数量(例如10个组),每个RG内可能包含20个RCAB,总深度可达200~400层。
- 通道注意力(CA)机制
- 每个RCAB包含卷积层、激活函数(如ReLU)和通道注意力模块。
- 给定输入特征 \(X \in \mathbb{R}^{C \times H \times W}\),CA模块的操作如下:
- 全局平均池化:对每个通道的空间维度(H×W)压缩,得到通道统计量 \(z \in \mathbb{R}^C\):
\[ z_c = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} X_c(i, j) \]
- **自适应重校准**:通过全连接层和Sigmoid函数生成通道权重 $ s \in \mathbb{R}^C $:
\[ s = \sigma(W_2 \delta(W_1 z)) \]
其中 $ W_1 \in \mathbb{R}^{C/r \times C} $、$ W_2 \in \mathbb{R}^{C \times C/r} $ 为可学习参数,$ r $ 是缩减比率(如16),$ \delta $ 为ReLU激活函数。
- **特征重加权**:将权重 $ s $ 与原始特征逐通道相乘,得到增强后的特征 $ \tilde{X} $:
\[ \tilde{X}_c = s_c \cdot X_c \]
通道注意力使网络能自动强调高频细节相关的通道(如边缘、纹理),抑制冗余信息。
- 上采样与重建
- 使用亚像素卷积进行高效上采样:通过卷积和像素重排(Pixel Shuffle)将特征图从LR空间转换到HR空间。例如,对2倍上采样,卷积输出通道数为 \(4 \times C\),再重排为 \(C \times 2H \times 2W\)。
- 最终的重建层将上采样后的特征与插值图像相加:
\[ I_{SR} = H_{REC}(F_{UP}) + I_{LR} \uparrow \]
其中 $ H_{REC} $ 是一个卷积层,用于融合特征。
- 损失函数与训练细节
- RCAN使用L1损失函数(而非L2),因为L1损失对边缘重建更友好且训练稳定:
\[ L(\theta) = \frac{1}{N} \sum_{i=1}^{N} \| I_{SR}^{(i)} - I_{HR}^{(i)} \|_1 \]
- 训练时通常先预处理HR图像:通过下采样和上采样生成LR-HR配对数据。数据增强(如旋转、翻转)可提升泛化能力。
总结
RCAN通过RIR结构构建极深网络,利用长跳跃连接保障梯度流动,并结合通道注意力动态优化特征表达,实现了超越前代模型的超分辨率性能。其设计思想对后续的注意力机制和深层网络研究产生了重要影响。