基于Transformer的图像去噪算法:Restormer
字数 1639 2025-11-11 14:22:27

基于Transformer的图像去噪算法:Restormer

题目描述
图像去噪是计算机视觉中的基础任务,旨在从被噪声污染的观测图像中恢复出干净的原始图像。Restormer(Transformer-based Residual Network)是一种基于Transformer架构的高效图像去噪算法,它通过引入多尺度分层设计和通道注意力机制,在保持计算效率的同时显著提升了去噪性能,尤其擅长处理真实世界中的复杂噪声。

解题过程

1. 问题建模与核心挑战

  • 问题建模:将含噪图像y建模为干净图像x与噪声n的叠加:y = x + n。去噪目标是从y中估计x。
  • 核心挑战
    • 真实噪声(如传感器噪声、低光照噪声)具有空间变异性和信号依赖性,传统去噪器泛化能力有限。
    • Transformer的自注意力机制能捕获长程依赖,但直接应用于高分辨率图像会导致计算复杂度随图像尺寸平方增长,难以处理大图。

2. Restormer的整体架构
Restormer采用编码器-解码器结构,包含以下关键模块:

  • 多尺度分层设计:通过渐进式下采样(编码器)和上采样(解码器)构建金字塔结构,在不同尺度捕获局部细节和全局上下文。
  • Transformer块:替换标准卷积块,核心是门控-转置注意力(Gated-Dconv Feed-Forward Network, GDFN)多头转置注意力(Multi-Dconv Head Transposed Attention, MDTA)
  • 跳跃连接:在编码器和解码器对应层级间添加跳跃连接,促进梯度流动和细节恢复。

3. 关键模块详解
3.1 多头转置注意力(MDTA)

  • 动机:标准自注意力计算所有像素对之间的关联,复杂度为O(H²W²C)。MDTA通过两个优化降低计算量:
    • 通道维度注意力:对特征图X∈R^(H×W×C),先通过1×1卷积生成Query(Q)、Key(K)、Value(V),维度为R^(H×W×Ĉ),其中Ĉ << C(通常Ĉ = C/8)。注意力在通道维度计算,而非空间维度。
    • 转置操作:将Q、K、V的维度从H×W×Ĉ转置为Ĉ×H×W,使注意力权重矩阵尺寸从H²W²降至Ĉ²,复杂度降为O(Ĉ²HW)。
  • 公式
    Attention(Q, K, V) = V · Softmax(K · Q / √d),其中d为缩放因子。
  • 作用:高效捕获跨通道的全局依赖,突出重要特征通道。

3.2 门控-转置前馈网络(GDFN)

  • 动机:标准前馈网络使用全连接层,参数量大。GDFN采用门控机制和深度可分离卷积:
    • 双路径设计:将输入特征同时送入两个深度卷积(Dconv)分支,一支保留高频细节,一支学习上下文信息。
    • 门控融合:使用逐元素乘法对两支输出进行门控,公式为:GDFN(X) = ϕ₁(X) ⊗ σ(ϕ₂(X)),其中ϕ为Dconv,σ为Sigmoid函数,⊗为逐元素乘。
  • 作用:局部特征增强与跨通道信息交互平衡,提升细节恢复能力。

4. 训练与优化

  • 损失函数:采用Charbonnier损失(L1损失的平滑变体),对噪声残留更鲁棒:
    L = √(||x - y||² + ε²),ε常设为10⁻³。
  • 数据增强:添加合成噪声(如高斯噪声、泊松噪声)或使用真实噪声数据集(如SIDD)。
  • 多阶段训练:先在合成数据上预训练,再在真实噪声数据上微调,提升泛化性。

5. 性能优势

  • 高效性:MDTA和GDFN显著降低计算复杂度,支持处理高分辨率图像。
  • 有效性:在多个基准(如SIDD、DND)上超越同期算法,尤其在真实噪声去除上表现突出。
  • 泛化性:多尺度设计和通道注意力使其适应不同噪声类型,无需针对特定噪声调整。

总结
Restormer通过Transformer架构的创新设计,解决了高分辨率图像去噪中的计算瓶颈,同时利用多尺度层次化和通道注意力机制有效提升去噪质量,成为图像复原领域的代表性工作。

基于Transformer的图像去噪算法:Restormer 题目描述 图像去噪是计算机视觉中的基础任务,旨在从被噪声污染的观测图像中恢复出干净的原始图像。Restormer(Transformer-based Residual Network)是一种基于Transformer架构的高效图像去噪算法,它通过引入多尺度分层设计和通道注意力机制,在保持计算效率的同时显著提升了去噪性能,尤其擅长处理真实世界中的复杂噪声。 解题过程 1. 问题建模与核心挑战 问题建模 :将含噪图像y建模为干净图像x与噪声n的叠加:y = x + n。去噪目标是从y中估计x。 核心挑战 : 真实噪声(如传感器噪声、低光照噪声)具有空间变异性和信号依赖性,传统去噪器泛化能力有限。 Transformer的自注意力机制能捕获长程依赖,但直接应用于高分辨率图像会导致计算复杂度随图像尺寸平方增长,难以处理大图。 2. Restormer的整体架构 Restormer采用编码器-解码器结构,包含以下关键模块: 多尺度分层设计 :通过渐进式下采样(编码器)和上采样(解码器)构建金字塔结构,在不同尺度捕获局部细节和全局上下文。 Transformer块 :替换标准卷积块,核心是 门控-转置注意力(Gated-Dconv Feed-Forward Network, GDFN) 和 多头转置注意力(Multi-Dconv Head Transposed Attention, MDTA) 。 跳跃连接 :在编码器和解码器对应层级间添加跳跃连接,促进梯度流动和细节恢复。 3. 关键模块详解 3.1 多头转置注意力(MDTA) 动机 :标准自注意力计算所有像素对之间的关联,复杂度为O(H²W²C)。MDTA通过两个优化降低计算量: 通道维度注意力 :对特征图X∈R^(H×W×C),先通过1×1卷积生成Query(Q)、Key(K)、Value(V),维度为R^(H×W×Ĉ),其中Ĉ < < C(通常Ĉ = C/8)。注意力在通道维度计算,而非空间维度。 转置操作 :将Q、K、V的维度从H×W×Ĉ转置为Ĉ×H×W,使注意力权重矩阵尺寸从H²W²降至Ĉ²,复杂度降为O(Ĉ²HW)。 公式 : Attention(Q, K, V) = V · Softmax(K · Q / √d),其中d为缩放因子。 作用 :高效捕获跨通道的全局依赖,突出重要特征通道。 3.2 门控-转置前馈网络(GDFN) 动机 :标准前馈网络使用全连接层,参数量大。GDFN采用门控机制和深度可分离卷积: 双路径设计 :将输入特征同时送入两个深度卷积(Dconv)分支,一支保留高频细节,一支学习上下文信息。 门控融合 :使用逐元素乘法对两支输出进行门控,公式为:GDFN(X) = ϕ₁(X) ⊗ σ(ϕ₂(X)),其中ϕ为Dconv,σ为Sigmoid函数,⊗为逐元素乘。 作用 :局部特征增强与跨通道信息交互平衡,提升细节恢复能力。 4. 训练与优化 损失函数 :采用Charbonnier损失(L1损失的平滑变体),对噪声残留更鲁棒: L = √(||x - y||² + ε²),ε常设为10⁻³。 数据增强 :添加合成噪声(如高斯噪声、泊松噪声)或使用真实噪声数据集(如SIDD)。 多阶段训练 :先在合成数据上预训练,再在真实噪声数据上微调,提升泛化性。 5. 性能优势 高效性 :MDTA和GDFN显著降低计算复杂度,支持处理高分辨率图像。 有效性 :在多个基准(如SIDD、DND)上超越同期算法,尤其在真实噪声去除上表现突出。 泛化性 :多尺度设计和通道注意力使其适应不同噪声类型,无需针对特定噪声调整。 总结 Restormer通过Transformer架构的创新设计,解决了高分辨率图像去噪中的计算瓶颈,同时利用多尺度层次化和通道注意力机制有效提升去噪质量,成为图像复原领域的代表性工作。