基于Transformer的图像实例分割算法:Mask2Former
字数 2271 2025-12-14 11:54:15
基于Transformer的图像实例分割算法:Mask2Former
题目描述:
Mask2Former是一种基于Transformer架构的通用图像分割模型,能够统一处理语义分割、实例分割和全景分割任务。与传统的卷积神经网络(CNN)分割方法不同,Mask2Transformer摒弃了基于区域提议(如Mask R-CNN)或稠密预测(如FCN)的范式,转而采用“掩码分类”的新思路。其核心思想是将分割任务重新定义为掩码预测和类别预测问题:模型为每个可能的对象或区域生成一组二值掩码,并为每个掩码分配一个类别标签。这个设计使得同一模型能够灵活应对不同分割任务,同时在多个基准数据集上取得领先性能。
解题过程循序渐进讲解:
下面我将逐步拆解Mask2Former的工作原理,从整体架构到关键模块,并解释其如何实现高效、统一的图像分割。
步骤1:任务理解与范式转换
- 传统分割方法的局限:
- 语义分割(如FCN):为每个像素分类,无法区分同一类别的不同实例。
- 实例分割(如Mask R-CNN):依赖区域提议生成候选框,再预测掩码,流程复杂且难以端到端优化。
- 全景分割:需结合语义分割和实例分割,通常需要多个子模块拼接。
- 掩码分类新范式:
- 将图像分割视为“预测N个掩码-类别对”的问题。模型输出N个二值掩码(每个掩码覆盖图像中一个区域)和N个类别概率分布。
- 例如,对一张包含“猫”和“狗”的图,模型可能输出两个掩码(一个覆盖猫区域,一个覆盖狗区域)及对应类别(猫、狗)。
- 优势:统一了分割任务形式,无需针对不同任务设计特定头模块。
步骤2:模型整体架构
Mask2Former包含三个核心组件,以Transformer的编码器-解码器结构为基础:
- 主干网络(Backbone):
- 输入图像(如3×H×W)通过CNN(如ResNet)或视觉Transformer(如Swin Transformer)提取多尺度特征图。通常输出4个层级的特征,分辨率从原图的1/32到1/4。
- 作用:将图像编码为富含语义信息的特征金字塔。
- 像素解码器(Pixel Decoder):
- 一个轻量化的FPN(特征金字塔网络)结构,逐步融合主干网络的多尺度特征,输出高分辨率特征图(如原图1/4大小)。
- 作用:增强特征的空间细节,为后续生成掩码提供像素级表征。
- Transformer解码器(Transformer Decoder):
- 这是Mask2Former的核心创新。它接收一组可学习的“对象查询”向量,并通过对像素解码器输出的特征进行交叉注意力计算,逐步解码出N个掩码嵌入向量。
- 输出:N个掩码嵌入向量,每个向量对应一个潜在的对象或区域。
步骤3:掩码注意力机制(关键创新)
Mask2Former的核心改进在于解码器的注意力设计:
- 跨尺度可变形注意力:
- 传统Transformer解码器(如DETR)对全局特征做注意力,计算开销大且难以捕捉小物体细节。
- Mask2Former改用“可变形注意力”:每个对象查询只关注特征图上的一组稀疏采样点(如4个点),而非全部像素。
- 同时,注意力在多个尺度的特征图上进行(例如从1/32到1/4分辨率),使模型能同时利用深层语义特征和浅层细节特征。
- 流程详解:
- 输入:L个对象查询向量(可学习参数,如100个)、像素解码器输出的多尺度特征图。
- 对每个查询,计算其在每个尺度特征图上的可变形注意力:
a. 通过线性层预测一组参考点坐标(对应特征图上的位置)。
b. 以参考点为中心,预测一组偏移量,得到采样点位置。
c. 对采样点处的特征值加权求和,更新查询向量。 - 经过多层解码器层迭代后,得到N个精炼后的查询向量(即掩码嵌入向量)。
步骤4:掩码预测与分类
- 掩码生成:
- 将像素解码器输出的高分辨率特征图(如1/4尺度)与每个掩码嵌入向量分别点乘,通过一个小的全卷积网络(通常是2层卷积),生成N个二值掩码图(每个图大小H/4×W/4)。
- 掩码图通过双线性上采样还原到原图尺寸,表示图像中某个区域的覆盖情况。
- 类别预测:
- 每个掩码嵌入向量通过一个线性分类头,预测类别概率分布(包括一个“无对象”类别)。
- 训练时的匹配与损失:
- 由于模型预测N个掩码(如100个),但图像中真实掩码数量较少(如3个物体),需将预测掩码与真实掩码一对一匹配。
- 使用匈牙利算法,基于类别概率和掩码相似度(Dice系数)计算最优匹配。
- 损失函数:匹配后,对类别用交叉熵损失,对掩码用Dice损失和二进制交叉熵损失。
步骤5:任务统一推理
得益于掩码分类范式,Mask2Former在不同任务上仅需调整后处理:
- 语义分割:将所有掩码按类别概率加权融合,生成逐像素类别图。
- 实例分割:保留非“无对象”的掩码,按类别概率过滤,得到每个实例的掩码和标签。
- 全景分割:结合前两者,对“物体”按实例分割处理,对“背景”类别(如天空、道路)按语义分割处理。
总结:
Mask2Former通过掩码分类范式统一分割任务,利用跨尺度可变形注意力高效解码对象特征,避免了传统方法中区域提议、锚框设计等复杂步骤。其核心优势在于:
- 高效性:可变形注意力大幅降低计算量,适合高分辨率图像。
- 通用性:单一模型在语义、实例、全景分割任务上均达到先进水平。
- 强细节捕捉:多尺度特征融合与高分辨率掩码生成,能准确分割小物体和复杂边界。
这个设计标志着图像分割从CNN时代向Transformer时代的演进,为后续研究提供了简洁而强大的基准框架。