基于深度学习的图像语义分割算法:HRNet(高分辨率网络)
字数 1346 2025-10-31 22:46:15
基于深度学习的图像语义分割算法:HRNet(高分辨率网络)
题目描述
图像语义分割的目标是为每个像素分配一个语义类别标签。传统方法(如U-Net、FCN)通常通过编码器-解码器结构逐步降低分辨率以提取高级特征,再上采样恢复细节。但多次下采样可能导致空间信息丢失,影响分割精度(尤其是边界细节)。HRNet提出了一种并行多分辨率子网络结构,始终维持高分辨率表征,同时逐步融合多尺度特征,在人体姿态估计、分割等任务中实现了更精细的结果。
解题过程
1. 核心思想
HRNet的核心创新在于避免过早降低分辨率。它通过以下方式保持高分辨率信息:
- 并行多分支结构:网络包含多个分辨率不同的分支(如高、中、低分辨率),分支间反复进行特征融合。
- 重复多尺度融合:每个阶段(Stage)都会跨分支交换信息,使高分辨率特征包含更多语义上下文,低分辨率特征保留空间细节。
2. 网络结构详解
HRNet的结构分为多个阶段,逐步增加分支数量并深化特征融合:
阶段1(单高分辨率分支)
- 输入图像经过一个卷积层生成初始高分辨率特征图(如原图的1/4大小)。
- 此时仅有一个高分辨率分支(记为HR分支)。
阶段2(增加中分辨率分支)
- 从HR分支通过步长为2的卷积下采样,生成一个中分辨率分支(分辨率减半)。
- 两个分支并行处理:
- HR分支:通过残差块提取细节特征。
- 中分辨率分支:通过残差块提取更具全局信息的特征。
- 跨分支融合:
- HR分支的特征会下采样后加到中分辨率分支(补充细节)。
- 中分辨率分支的特征会上采样后加到HR分支(补充语义上下文)。
阶段3及以上(扩展更多低分辨率分支)
- 每进入新阶段,通过下采样新增一个分辨率更低的分支(如1/8、1/16分辨率)。
- 所有分支间进行全连接融合:每个分支接收其他分支上采样或下采样后的特征,通过相加或卷积整合。
3. 特征融合机制
以四分支为例(分辨率从高到低为H1、H2、H3、H4):
- 下采样融合:高分辨率分支(H1)的特征经过3×3卷积(步长2)下采样,与低分辨率分支(H2)的特征相加。
- 上采样融合:低分辨率分支(H4)的特征通过双线性插值上采样,与高分辨率分支(H3)的特征相加。
- 同级融合:相同分辨率的分支直接相加特征。
4. 输出与损失函数
- 最终从所有分支上采样回原图大小, concatenate 后通过1×1卷积输出分割图。
- 损失函数通常使用交叉熵损失,结合Dice损失优化类别不平衡问题:
\[ \mathcal{L} = \mathcal{L}_{CE} + \lambda \mathcal{L}_{Dice} \]
其中Dice损失鼓励模型关注区域重叠度。
5. 优势分析
- 细节保持:高分辨率分支始终参与计算,边界分割更准确。
- 多尺度上下文:低分辨率分支提供全局感知,避免局部误判。
- 在Cityscapes、PASCAL VOC等数据集上,HRNet在复杂场景中显著优于U-Net等模型。
总结
HRNet通过并行多分辨率分支和重复跨尺度融合,解决了语义分割中细节丢失的痛点。其设计强调高分辨率特征的持续性和多尺度特征的互补性,为后续研究(如HRNetV2、SegHRNet)提供了基础框架。