基于Transformer的图像去噪算法:Restormer
字数 1524 2025-11-09 07:59:49

基于Transformer的图像去噪算法:Restormer

题目描述
图像去噪是计算机视觉中的基础任务,旨在从受噪声污染的图像中恢复出干净的图像。传统方法依赖于手工设计的先验,而深度学习方法则通过数据驱动的方式学习从噪声图像到干净图像的映射。Restormer是一种高效的Transformer架构,专门为图像恢复任务(尤其是去噪)设计。它通过引入关键改进(如多头转置注意力机制)来克服标准Transformer在计算效率和图像局部结构建模上的局限性,实现在保持高性能的同时降低计算复杂度。

解题过程

  1. 问题分析

    • 图像噪声通常分为加性高斯噪声、椒盐噪声等,Restormer主要针对加性噪声(如高斯噪声)。
    • 核心挑战:如何在复杂噪声下保留图像细节,同时避免传统Transformer的计算爆炸问题(例如,直接应用自注意力会导致像素序列过长,计算量随图像尺寸平方增长)。
  2. 关键创新:多头转置注意力(MDTA)

    • 动机:标准自注意力在图像上计算所有像素对的关联,但图像噪声具有局部相关性,全局计算冗余度高。
    • 解决方案
      • 转置注意力机制:不再沿空间维度计算注意力,而是沿通道维度计算。具体步骤:
        1. 对输入特征图 \(X \in \mathbb{R}^{H \times W \times C}\)(H、W、C分别为高、宽、通道数),通过线性变换生成Query(Q)、Key(K)、Value(V),但Q和K的通道数被压缩为原始通道数的分数(如C/2)。
        2. 计算通道维度的注意力图:\(\text{Attention}(Q,K,V) = \text{Softmax}(QK^T / \sqrt{d})V\),其中注意力权重在通道间计算,而非空间位置间。
      • 优势
        • 计算复杂度从 \(O(H^2W^2C)\) 降至 \(O(HWC^2)\),更适合高分辨率图像。
        • 通道注意力能有效建模跨通道的全局依赖,捕捉噪声分布的统计特性。
  3. 整体网络架构

    • 多尺度设计:采用编码器-解码器结构,中间加入对称的跳跃连接,逐步降低分辨率以扩大感受野,再上采样恢复细节。
      • 编码器:通过步长卷积进行下采样,每层包含多个Restormer块。
      • 解码器:通过转置卷积上采样,与编码器跳跃连接融合多尺度特征。
    • 核心模块:Restormer块
      • 顺序包含:
        1. 层归一化(Layer Norm):稳定训练。
        2. MDTA模块:捕获全局通道依赖。
        3. 门控前馈网络(Gated-Dconv Feed-Forward Network, GDFN)
          • 引入门控机制:将输入拆分为两个并行分支,分别通过卷积和门控单元(如GELU激活函数),再逐元素相乘,增强局部特征建模能力。
  4. 训练与优化

    • 损失函数:采用L1损失(\(\|Y_{\text{clean}} - Y_{\text{pred}}\|_1\)),比L2损失对噪声更鲁棒,避免过度平滑。
    • 数据增强:添加高斯噪声合成训练数据,噪声水平可随机设置以增强泛化性。
    • 优化技巧:使用Adam优化器,逐步调整学习率,避免局部最优。
  5. 性能优势

    • 在基准数据集(如DND、SIDD)上,Restormer在PSNR和SSIM指标上超越传统去噪算法(如BM3D)及CNN-based方法(如DnCNN),同时减少约40%的计算量。
    • 对真实噪声和复杂纹理的恢复效果显著,如恢复毛发、文字边缘等细节。

总结
Restormer通过转置注意力机制和多尺度门控设计,平衡了全局依赖建模与计算效率,成为Transformer在图像去噪领域的代表性工作。其核心思想是通过维度转换和局部-全局特征交互,解决高分辨率图像处理中的计算瓶颈问题。

基于Transformer的图像去噪算法:Restormer 题目描述 图像去噪是计算机视觉中的基础任务,旨在从受噪声污染的图像中恢复出干净的图像。传统方法依赖于手工设计的先验,而深度学习方法则通过数据驱动的方式学习从噪声图像到干净图像的映射。Restormer是一种高效的Transformer架构,专门为图像恢复任务(尤其是去噪)设计。它通过引入关键改进(如多头转置注意力机制)来克服标准Transformer在计算效率和图像局部结构建模上的局限性,实现在保持高性能的同时降低计算复杂度。 解题过程 问题分析 图像噪声通常分为加性高斯噪声、椒盐噪声等,Restormer主要针对加性噪声(如高斯噪声)。 核心挑战:如何在复杂噪声下保留图像细节,同时避免传统Transformer的计算爆炸问题(例如,直接应用自注意力会导致像素序列过长,计算量随图像尺寸平方增长)。 关键创新:多头转置注意力(MDTA) 动机 :标准自注意力在图像上计算所有像素对的关联,但图像噪声具有局部相关性,全局计算冗余度高。 解决方案 : 转置注意力机制:不再沿空间维度计算注意力,而是沿通道维度计算。具体步骤: 对输入特征图 \( X \in \mathbb{R}^{H \times W \times C} \)(H、W、C分别为高、宽、通道数),通过线性变换生成Query(Q)、Key(K)、Value(V),但Q和K的通道数被压缩为原始通道数的分数(如C/2)。 计算通道维度的注意力图:\( \text{Attention}(Q,K,V) = \text{Softmax}(QK^T / \sqrt{d})V \),其中注意力权重在通道间计算,而非空间位置间。 优势 : 计算复杂度从 \( O(H^2W^2C) \) 降至 \( O(HWC^2) \),更适合高分辨率图像。 通道注意力能有效建模跨通道的全局依赖,捕捉噪声分布的统计特性。 整体网络架构 多尺度设计 :采用编码器-解码器结构,中间加入对称的跳跃连接,逐步降低分辨率以扩大感受野,再上采样恢复细节。 编码器:通过步长卷积进行下采样,每层包含多个Restormer块。 解码器:通过转置卷积上采样,与编码器跳跃连接融合多尺度特征。 核心模块:Restormer块 : 顺序包含: 层归一化(Layer Norm) :稳定训练。 MDTA模块 :捕获全局通道依赖。 门控前馈网络(Gated-Dconv Feed-Forward Network, GDFN) : 引入门控机制:将输入拆分为两个并行分支,分别通过卷积和门控单元(如GELU激活函数),再逐元素相乘,增强局部特征建模能力。 训练与优化 损失函数 :采用L1损失(\( \|Y_ {\text{clean}} - Y_ {\text{pred}}\|_ 1 \)),比L2损失对噪声更鲁棒,避免过度平滑。 数据增强 :添加高斯噪声合成训练数据,噪声水平可随机设置以增强泛化性。 优化技巧 :使用Adam优化器,逐步调整学习率,避免局部最优。 性能优势 在基准数据集(如DND、SIDD)上,Restormer在PSNR和SSIM指标上超越传统去噪算法(如BM3D)及CNN-based方法(如DnCNN),同时减少约40%的计算量。 对真实噪声和复杂纹理的恢复效果显著,如恢复毛发、文字边缘等细节。 总结 Restormer通过转置注意力机制和多尺度门控设计,平衡了全局依赖建模与计算效率,成为Transformer在图像去噪领域的代表性工作。其核心思想是通过维度转换和局部-全局特征交互,解决高分辨率图像处理中的计算瓶颈问题。