基于Transformer的图像去噪算法:Uformer
字数 1845 2025-11-13 15:12:20
基于Transformer的图像去噪算法:Uformer
题目描述:
Uformer是一种基于Transformer架构的图像去噪算法,它通过构建分层U形结构来有效捕获局部和全局依赖关系。与传统的卷积神经网络不同,Uformer利用Transformer的自注意力机制在多个尺度上建模长距离依赖关系,同时通过局部增强模块优化局部特征提取。该算法在图像去噪任务中表现出色,特别是在处理复杂噪声模式时具有优越的性能。
解题过程:
-
问题分析:
- 图像去噪的目标是从含噪图像中恢复出干净图像,传统方法如DnCNN主要依赖卷积操作,但卷积的感受野有限,难以捕获全局上下文。
- Transformer的自注意力机制能有效建模图像中的长距离依赖,但直接应用于图像会因计算复杂度高而受限(复杂度与图像尺寸平方成正比)。
- Uformer需解决两个核心问题:降低Transformer的计算成本,同时融合多尺度特征以提升去噪效果。
-
整体架构设计:
- Uformer采用编码器-解码器结构,形如U-Net,包含下采样(编码)和上采样(解码)路径。
- 编码器逐步减少特征图尺寸以捕获全局信息,解码器逐步恢复空间分辨率并融合多尺度特征。
- 关键组件:局部增强窗口Transformer块(LeWin Transformer Block)和跳跃连接,确保局部细节和全局结构的有效整合。
-
局部增强窗口Transformer块(LeWin Block):
- 动机:标准Transformer的自注意力计算复杂度为O((H×W)²),对高分辨率图像不适用。LeWin Block将图像分割为非重叠窗口,在窗口内计算自注意力,降低复杂度至O(H×W×M²)(M为窗口大小)。
- 步骤:
a. 输入特征图划分为M×M的窗口。
b. 在每个窗口内应用层归一化(LayerNorm)和多头自注意力(MSA),捕获局部依赖。
c. 添加残差连接,防止梯度消失。
d. 通过前馈网络(FFN)进行非线性变换,进一步提取特征。 - 作用:平衡计算效率与特征提取能力,避免全局自注意力的高开销。
-
下采样编码器:
- 编码器由多个阶段组成,每个阶段包含LeWin Block和下采样层。
- 下采样通过步幅为2的卷积实现,将特征图尺寸减半,通道数加倍(例如,从H×W×C到H/2×W/2×2C)。
- 过程示例:输入图像(如256×256×3)经过4个阶段后,特征图尺寸降至16×16×8C,逐步捕获从局部边缘到全局语义的信息。
-
上采样解码器:
- 解码器对称于编码器,每个阶段包含上采样层和LeWin Block。
- 上采样通过转置卷积或像素重排实现,将特征图尺寸加倍,通道数减半(例如,从H/2×W/2×2C到H×W×C)。
- 跳跃连接将编码器对应阶段的特征与解码器特征拼接,传递细节信息(如边缘、纹理),避免下采样中的信息丢失。
-
瓶颈层与全局特征细化:
- 编码器和解码器之间的瓶颈层由多个LeWin Block组成,在最低分辨率特征图上建模全局依赖。
- 由于特征图尺寸已显著减小(如16×16),可高效应用自注意力,捕获图像整体结构,无需窗口划分。
-
损失函数与训练:
- 使用L1损失函数:\(L = \frac{1}{N} \sum_{i=1}^{N} |Y_i - \hat{Y}_i|\),其中 \(Y_i\) 为干净图像,\(\hat{Y}_i\) 为去噪输出。
- L1损失对噪声更鲁棒,鼓励输出稀疏误差,优于L2损失(MSE)。
- 训练时,采用Adam优化器,学习率衰减策略,在合成噪声数据集(如BSD500加高斯噪声)或真实噪声数据集(如SIDD)上训练。
-
创新点总结:
- 分层U形结构:融合多尺度特征,增强局部和全局建模。
- LeWin Transformer Block:通过窗口自注意力降低计算复杂度,保留局部细节。
- 跳跃连接:促进编码器-解码器间的信息流动,提升细节恢复能力。
-
性能优势:
- 在基准数据集(如SIDD、DND)上,Uformer在PSNR和SSIM指标上优于传统CNN方法(如DnCNN)和早期Transformer方法(如IPT)。
- 能有效处理高斯噪声、泊松噪声及真实噪声,在边缘保护和纹理恢复方面表现突出。
通过以上步骤,Uformer成功将Transformer的全局建模能力与U-Net的多尺度优势结合,为图像去噪提供了高效解决方案。实际应用中,可调整窗口大小M或网络深度以平衡效率与性能。