基于Transformer的图像去噪算法:Restormer
字数 1639 2025-11-11 14:22:27
基于Transformer的图像去噪算法:Restormer
题目描述
图像去噪是计算机视觉中的基础任务,旨在从被噪声污染的观测图像中恢复出干净的原始图像。Restormer(Transformer-based Residual Network)是一种基于Transformer架构的高效图像去噪算法,它通过引入多尺度分层设计和通道注意力机制,在保持计算效率的同时显著提升了去噪性能,尤其擅长处理真实世界中的复杂噪声。
解题过程
1. 问题建模与核心挑战
- 问题建模:将含噪图像y建模为干净图像x与噪声n的叠加:y = x + n。去噪目标是从y中估计x。
- 核心挑战:
- 真实噪声(如传感器噪声、低光照噪声)具有空间变异性和信号依赖性,传统去噪器泛化能力有限。
- Transformer的自注意力机制能捕获长程依赖,但直接应用于高分辨率图像会导致计算复杂度随图像尺寸平方增长,难以处理大图。
2. Restormer的整体架构
Restormer采用编码器-解码器结构,包含以下关键模块:
- 多尺度分层设计:通过渐进式下采样(编码器)和上采样(解码器)构建金字塔结构,在不同尺度捕获局部细节和全局上下文。
- Transformer块:替换标准卷积块,核心是门控-转置注意力(Gated-Dconv Feed-Forward Network, GDFN) 和多头转置注意力(Multi-Dconv Head Transposed Attention, MDTA)。
- 跳跃连接:在编码器和解码器对应层级间添加跳跃连接,促进梯度流动和细节恢复。
3. 关键模块详解
3.1 多头转置注意力(MDTA)
- 动机:标准自注意力计算所有像素对之间的关联,复杂度为O(H²W²C)。MDTA通过两个优化降低计算量:
- 通道维度注意力:对特征图X∈R^(H×W×C),先通过1×1卷积生成Query(Q)、Key(K)、Value(V),维度为R^(H×W×Ĉ),其中Ĉ << C(通常Ĉ = C/8)。注意力在通道维度计算,而非空间维度。
- 转置操作:将Q、K、V的维度从H×W×Ĉ转置为Ĉ×H×W,使注意力权重矩阵尺寸从H²W²降至Ĉ²,复杂度降为O(Ĉ²HW)。
- 公式:
Attention(Q, K, V) = V · Softmax(K · Q / √d),其中d为缩放因子。 - 作用:高效捕获跨通道的全局依赖,突出重要特征通道。
3.2 门控-转置前馈网络(GDFN)
- 动机:标准前馈网络使用全连接层,参数量大。GDFN采用门控机制和深度可分离卷积:
- 双路径设计:将输入特征同时送入两个深度卷积(Dconv)分支,一支保留高频细节,一支学习上下文信息。
- 门控融合:使用逐元素乘法对两支输出进行门控,公式为:GDFN(X) = ϕ₁(X) ⊗ σ(ϕ₂(X)),其中ϕ为Dconv,σ为Sigmoid函数,⊗为逐元素乘。
- 作用:局部特征增强与跨通道信息交互平衡,提升细节恢复能力。
4. 训练与优化
- 损失函数:采用Charbonnier损失(L1损失的平滑变体),对噪声残留更鲁棒:
L = √(||x - y||² + ε²),ε常设为10⁻³。 - 数据增强:添加合成噪声(如高斯噪声、泊松噪声)或使用真实噪声数据集(如SIDD)。
- 多阶段训练:先在合成数据上预训练,再在真实噪声数据上微调,提升泛化性。
5. 性能优势
- 高效性:MDTA和GDFN显著降低计算复杂度,支持处理高分辨率图像。
- 有效性:在多个基准(如SIDD、DND)上超越同期算法,尤其在真实噪声去除上表现突出。
- 泛化性:多尺度设计和通道注意力使其适应不同噪声类型,无需针对特定噪声调整。
总结
Restormer通过Transformer架构的创新设计,解决了高分辨率图像去噪中的计算瓶颈,同时利用多尺度层次化和通道注意力机制有效提升去噪质量,成为图像复原领域的代表性工作。