CN110263833A

CN110263833A - 基于编码-解码结构的图像语义分割方法

Info

Publication number: CN110263833A
Application number: CN201910503595.5A
Authority: CN
Inventors: 韩慧慧
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-09-20

Abstract

本发明公开了一种基于编码‑解码结构的图像语义分割方法。其特征包括：首先通过改进结构的ResNet‑101网络对待分割图片提取特征图集合；然后利用多尺度信息融合模块对所提取的特征图进行多尺度信息捕获；并且，利用空间信息提取模块在ResNet‑101的浅层提取丰富的空间信息；接着，将深层的多尺度信息和浅层的空间信息融合后，利用一个多核卷积块对融合后的特征图进行细化；最终，通过数据依赖的上采样操作得到分割结果。本发明主要致力于提高图像分割准确性，属图像处理技术领域，特别适用于医学图像分析、自动驾驶、虚拟现实、驾驶员辅助、机器人传感、室内环境重建、无人机等。

Description

基于编码-解码结构的图像语义分割方法

技术领域

本发明属图像处理技术领域，尤其是涉及基于编码-解码结构的图像语义分割方法，特别适用于医学图像分析、自动驾驶、室内环境重建、无人机等任务。

背景技术

语义分割是图像处理中一个重要研究领域，其目标是对图像上的每个像素点进行密集预测并标注上对应物体或区域的类别。随着深度卷积神经网络的不断发展，特别是全卷机神经网络的出现，语义分割技术实现了质的飞跃。为了进一步提高语义分割结果，各国研究人员从不同的角度出发，设计出了多种多样的模型架构。

为了防止连续的下采样和池化操作导致的空间分辨率降低的现象，在Chen等人提出的Deeplabv2、 Deeplabv3和Deeplabv3+，和Zhao等人提出的PSPNet模型中，采用了扩张卷积，其可以有效地扩大滤波器的感受野，减少空间细节的损失。而且，编码-解码结构也可以防止空间信息丢失的现象。例如， Badrinarayanan等人提出的SegNet利用编码-解码结构来捕获更多的空间信息。为了在浅层捕获更多的空间信息，帮助模型恢复目标细节，DeepLabv3+在DeepLabv3模型中添加了一个简单而有效的解码模块。除此之外，在Chao等人提出的GCN、Yu等人提出的DFN和Li等人提出的PAN模型中应用了u型结构，以逐步融合骨干网中不同层次的特征图，提高空间分辨率，弥补空间细节的丢失。GCN利用“大核”来扩大接受域，保持空间信息。

为了捕获更丰富的多尺度上下文信息，很多工作已经取得了一定成果。Deeplabv2提出了扩张空间金字塔池化模块来捕获多尺度上下文信息。Yuan等人提出的OCNet模型通过使用金字塔对象上下文或扩张的空间金字塔对象上下文来捕获多尺度上下文信息。此外，Yang等人提出的DenseASPP模型运用一组扩张卷积层来生成多尺度特征图。Lin等人提出的Refinenet和Ronneberger等人提出的U-net采用编码-解码结构对不同层次的特征图进行融合，获得丰富的上下文信息。Byeon等人以二维LSTM网络为基础，提出了一种基于标签的复杂空间依赖关系捕获模型。为了捕获局部特征上丰富的上下文依赖关系，Shuai等人设计了一个有向无环图的递归神经网络。在Liu等人提出的SPN模型中设计了一个行/列线性传播模型，该模型可以提取场景图像中密集的全局成对关系。在Zhao等人提出的PSANet模型中，通过双向信息传播来学习自适应的点向上下文。

发明内容

为避免现有技术所存在的缺陷与不足，本发明提出一种基于编码-解码结构的图像语义分割方法，以解决在图像语义分割任务中存在的两个挑战：1)多尺度物体的存在导致错误分类；2)空间信息的丢失导致小物体识别不出。

为实现上述发明目的，本发明采用如下技术方案：

本发明基于编码-解码结构的图像语义分割方法是按如下步骤进行

步骤1、制作含有M张图片数据集，其分为三个子集：训练集，验证集和测试集，其中训练集和验证集被准确地进行像素级标注；

步骤2、对基于编码-解码结构的图像语义分割模型进行训练

步骤2.1、首先对训练集图片进行数据增强，即随机水平翻转、10到-10度的随机旋转和0.5到2倍的随机缩放；

步骤2.2、将所述数据增强后训练集图片X∈{x₁，x₂，…，x_n}送入改进结构的ResNet-101骨干中以提取出丰富的特征图集合E∈{e₁，e₂，…，e_m}；

步骤2.3、将所述特征图E∈{e₁，e₂，…，e_m}喂给多尺度信息融合模块，以捕获含有区分力强且多尺度信息丰富的特征图集合T∈{t₁，t₂，…，t_a}；

步骤2.4、运用空间信息捕获模块，从所述改进结构的ResNet-101骨干的浅层提取具有丰富空间信息的特征图Q∈{q₁，q₂，…，q_d}，以补偿在改进结构的ResNet-101骨干中因连续的池化和下采样操作带来的空间分辨率的损失；

步骤2.5、将所述含有丰富多尺度信息的特征图T∈{t₁，t₂，…，t_a}和含有丰富空间信息的特征图 Q∈{q₁，q₂，…，q_d}融合后得到具有丰富信息的特征图集合P∈{p₁，p₂，…，p_z}，再利用一个多核卷积块细化特征图P∈{p₁，p₂，…，p_z}，接着通过数据依赖的上采样操作得到图像分割结果，然后，利用Softmax 回归分类器得到输出误差，再利用交叉熵损失函数对结果进行评估，最后利用反向传播算法优化误差进行训练，得到分割模型；

步骤3、通过步骤2.1-2.5，利用训练集对所述图像语义分割模型进行训练后，利用验证集对训练后的模型进行评估其性能；

步骤4、针对测试样本，经过步骤2.2-2.5后可得最终图像分割结果图。

本发明中基于编码-解码结构的图像语义分割方法，其特点在于所述改进结构的ResNet-101骨干具有如下结构：

设置改进结构的ResNet-101骨干包括5组卷积：第一组卷积r₁含有核尺寸为7×7且个数为64的卷积，卷积步长stride＝2；第二组卷积r₂含有核尺寸为2×2且步长为stride＝2的池化卷积和3个相同结构的卷积层，每个卷积层有如下结构：conv_{2_1}卷积核尺寸为1×1且个数为64，conv_{2_2}卷积核尺寸为3×3且个数为64，conv_{2_3}卷积核尺寸为1×1且个数为256；第三组卷积r₃中含有4个相同结构的卷积层，每个卷积层有如下结构：conv_{3_1}卷积核尺寸为1×1且个数为128，conv_{3_2}卷积核尺寸为3×3且个数为128， conv_{3_3}卷积核尺寸为1×1且个数为512；第四组卷积r₄中含有23个相同结构的卷积层，每个卷积扩张率 rate＝2，卷积步长stride＝1且每个卷积层有如下结构：conv_{4_1}卷积核尺寸为1×1且个数为256，conv_{4_2}卷积核尺寸为3×3且个数为256，conv_{4_3}卷积核尺寸为1×1且个数为1024；第五组卷积r₅中含有3个相同结构的克罗内克卷积层，每个克罗内克卷积中内部扩张因子κ₁＝4和内部共享因子κ₁＝3且每个克罗内克卷积层有如下结构：conv_{5_1}卷积核尺寸为1×1且个数为512，conv_{5_2}卷积核尺寸为3×3且个数为512， conv_{5_3}卷积核尺寸为1×1且个数为2048。

本发明中基于编码-解码结构的图像语义分割方法，其特点在于所述多尺度信息融合模块结构及提取区分力强且多尺度信息丰富的特征图集合是按如下步骤进行：

设置多尺度信息融合模块有输入层，多尺度信息提取层，输出层。首先，从骨干提取的特征图 E∈{e₁，e₂，…，e_m}被送到含有批量归一化(BN)、修正线性单元(ReLU)和1×1的卷积的模块以降低特征图个数。然后，特征图被送入多尺度信息提取层提取多尺度信息。多尺度信息提取层含有三条平行结构的主路，每条主路含有一个克罗内克卷积块，每个克罗内克卷积块由克罗内克卷积、BN和ReLU组成。不同的克罗内克卷积含有不同的内部扩张因子和内部共享因子，以最大程度的扩大感受野捕获丰富的多尺度信息。此外，有三条平行结构的支路，每条支路含有相同的全局注意力模块。全局注意力模块由全局平均池化层和Sigmoid激活函数组成。利用全局注意力模块生成注意力向量对由克罗内克卷积块提取的含有多尺度信息的特征图进行重标定，以选取出区分力强且多尺度信息丰富的特征图。利用三个1×1的卷积对从三条主路上选出的特征图进行降低通道处理，以减少复杂计算和节省时间。最终三条主路中的特征图融合在一起，输出新的特征图集合T∈{t₁，t₂，…，t_a}。

本发明中基于编码-解码结构的图像语义分割方法，其特点在于所述空间信息捕获模块结构及提取丰富空间信息的特征图集合是按如下步骤进行：

空间信息捕获模块含有三条支路，每条支路含有1×1的卷积以减少特征图个数。从改进结构的ResNet-101骨干的第二组卷积得到的特征图G∈{g₁，g₂，…，g_l}经过三个1×1的卷积处理后得到三个新的特征图集合Ξ∈{μ₁，μ₂，…，μ_s}，和ξ∈{η₁，η₂，…，η_k}，其中Ξ，Ψ分别进行变形后进行了矩阵乘法，之后利用Softmax操作来计算空间注意力向量利用计算出的空间注意力向量对特征图ξ在空间维度上进特征重标，并引入一个尺度因子来指导模型逐步学会将局部区域的权值赋给全局位置，最终输出含有丰富空间信息的特征图集合Q∈{q₁，q₂，…，q_d}。

式(1)中，表示为位置i对位置j的影响，为尺度参数，初始化为0。

本发明中基于编码-解码结构的图像语义分割方法，其特点也在于所述多核卷积块具有如下结构：

两个卷积并行连接，卷积核大小分别为3×3和5×5。

附图说明

图1为本发明的总体结构图示意图；

图2为本发明中设计出的多尺度信息融合模块示意图；

图3为本发明中设计出的空间信息捕获模块示意图；

图4为本发明仿真实验输出的部分样本图像示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整的描述。本实施例中基于编码-解码结构的图像语义分割方法是按如下步骤进行：

步骤2、对基于编码-解码结构的图像语义分割模型进行训练

步骤2.2、将所述数据增强后训练集图片X∈{x₁，x₂，…，x_n}送入改进结构的ResNet-101骨干中以提取出丰富的特征图集合E∈{e₁，e₂，…，e_m}，如图1所示；

步骤2.3、将所述特征图E∈{e₁，e₂，…，e_m}喂给多尺度信息融合模块，以捕获含有区分力强且多尺度信息丰富的特征图集合T∈{t₁，t₂，…，t_a}，如图2所示；

步骤2.4、运用空间信息捕获模块，从所述改进结构的ResNet-101骨干的浅层提取具有丰富空间信息的特征图Q∈{q₁，q₂，…，q_d}，以补偿在改进结构的ResNet-101骨干中因连续的池化和下采样操作带来的空间分辨率的损失，如图3所示；

步骤4、针对测试样本，经过步骤2.2-2.5后可得最终图像分割结果图，如图4所示。

本实施例中针对所述改进结构的ResNet-101骨干具有如下结构：

本实施例中针对所述多尺度信息融合模块结构及提取区分力强且多尺度信息丰富的特征图集合是按如下步骤进行：

如图2所示，设置多尺度信息融合模块有输入层，多尺度信息提取层，输出层。首先，从骨干提取的特征图E∈{e₁，e₂，…，e_m}被送到含有批量归一化(BN)、修正线性单元(ReLU)和1×1的卷积的模块以降低特征图个数。然后，特征图被送入多尺度信息提取层提取多尺度信息。多尺度信息提取层含有三条平行结构的主路，每条主路含有一个克罗内克卷积块，每个克罗内克卷积块由克罗内克卷积、BN和ReLU 组成。不同的克罗内克卷积含有不同的内部扩张因子和内部共享因子，以最大程度的扩大感受野捕获丰富的多尺度信息。此外，有三条平行结构的支路，每条支路含有相同的全局注意力模块。全局注意力模块由全局平均池化层和Sigmoid激活函数组成。利用全局注意力模块生成注意力向量对由克罗内克卷积块提取的含有多尺度信息的特征图进行重标定，以选取出区分力强且多尺度信息丰富的特征图。利用三个1×1的卷积对从三条主路上选出的特征图进行降低通道处理，以减少复杂计算和节省时间。最终三条主路中的特征图融合在一起，最终输出新的特征图集合T∈{t₁，t₂，…，t_a}。

本实施例中针对所述空间信息捕获模块结构及提取丰富空间信息的特征图集合是按如下步骤进行：

如图3所示，空间信息捕获模块含有三条支路，每条支路含有1×1的卷积以减少特征图个数。从改进结构的ResNet-101骨干的第二组卷积得到的特征图G∈{g₁，g₂，…，g_l}经过三个1×1的卷积处理后得到三个新的特征图集合Ξ∈{μ₁，μ₂，…，μ_s}，和ξ∈{η₁，η₂，…，η_k}，其中Ξ，Ψ分别进行变形后进行了矩阵乘法，之后利用Softmax操作来计算空间注意力向量利用计算出的空间注意力向量对特征图ξ在空间维度上进特征重标，并利用一个尺度因子来指导模型逐步学会将局部区域的权值赋给全局位置，最终输出含有丰富空间信息的特征图集合Q∈{q₁，q₂，…，q_d}。

本实施例中针对所述多核卷积块具有如下结构：

两个卷积并行连接，卷积核大小分别为3×3和5×5。

Claims

1.一种基于编码-解码结构的图像语义分割方法，其特征是按如下步骤进行：

步骤2、对基于编码-解码结构的图像语义分割模型进行训练

步骤2.5、将所述含有丰富多尺度信息的特征图T∈{t₁，t₂，…，t_a}和含有丰富空间信息的特征图Q∈{q₁，q₂，…，q_d}融合后得到具有丰富信息的特征图集合P∈{p₁，p₂，…，p_z}，再利用一个多核卷积块细化特征图P∈{p₁，p₂，…，p_z}，接着通过数据依赖的上采样操作得到图像分割结果，然后，利用Softmax回归分类器得到输出误差，再利用交叉熵损失函数对结果进行评估，最后利用反向传播算法优化误差进行训练，得到分割模型；

2.根据权利要求1所述的基于编码-解码结构的图像语义分割方法，其特征是，

所述改进结构的ResNet-101骨干具有如下结构：

设置改进结构的ResNet-101骨干包括5组卷积：第一组卷积r₁含有核尺寸为7×7且个数为64的卷积，卷积步长stride＝2；第二组卷积r₂含有核尺寸为2×2且步长为stride＝2的池化卷积和3个相同结构的卷积层，每个卷积层有如下结构：conv_{2_1}卷积核尺寸为1×1且个数为64，conv_{2_2}卷积核尺寸为3×3且个数为64，conv_{2_3}卷积核尺寸为1×1且个数为256；第三组卷积r₃中含有4个相同结构的卷积层，每个卷积层有如下结构：conv_{3_1}卷积核尺寸为1×1且个数为128，conv_{3_2}卷积核尺寸为3×3且个数为128，conv_{3_3}卷积核尺寸为1×1且个数为512；第四组卷积r₄中含有23个相同结构的卷积层，每个卷积扩张率rate＝2，卷积步长stride＝1且每个卷积层有如下结构：conv_{4_1}卷积核尺寸为1×1且个数为256，conv_{4_2}卷积核尺寸为3×3且个数为256，conv_{4_3}卷积核尺寸为1×1且个数为1024；第五组卷积r₅中含有3个相同结构的克罗内克卷积层，每个克罗内克卷积中内部扩张因子κ₁＝4和内部共享因子κ₁＝3且每个克罗内克卷积层有如下结构：conv_{5_1}卷积核尺寸为1×1且个数为512，conv_{5_2}卷积核尺寸为3×3且个数为512，conv_{5_3}卷积核尺寸为1×1且个数为2048。

3.根据权利要求1所述的基于编码-解码结构的图像语义分割方法，其特征是，

所述多尺度信息融合模块结构及提取区分力强且多尺度信息丰富的特征图集合是按如下步骤进行：

设置多尺度信息融合模块有输入层，多尺度信息提取层，输出层。首先，从骨干提取的特征图E∈{e₁，e₂，…，e_m}被送到含有批量归一化(BN)、修正线性单元(ReLU)和1×1的卷积的模块以降低特征图个数。然后，特征图被送入多尺度信息提取层提取多尺度信息。多尺度信息提取层含有三条平行结构的主路，每条主路含有一个克罗内克卷积块，每个克罗内克卷积块由克罗内克卷积、BN和ReLU组成。不同的克罗内克卷积含有不同的内部扩张因子和内部共享因子，以最大程度的扩大感受野捕获丰富的多尺度信息。此外，有三条平行结构的支路，每条支路含有相同的全局注意力模块。全局注意力模块由全局平均池化层和Sigmoid激活函数组成。利用全局注意力模块生成注意力向量对由克罗内克卷积块提取的含有多尺度信息的特征图进行重标定，以选取出区分力强且多尺度信息丰富的特征图。利用三个1×1的卷积对从三条主路上选出的特征图进行降低通道处理，以减少复杂计算和节省时间。最终三条主路中的特征图融合在一起，输出新的特征图集合T∈{t₁，t₂，…，t_a}。

4.根据权利要求1所述的基于编码-解码结构的图像语义分割方法，其特征是，

所述空间信息捕获模块结构及提取丰富空间信息的特征图集合是按如下步骤进行：

5.根据权利要求1所述的基于编码-解码结构的图像语义分割方法，其特征是，

所述多核卷积块具有如下结构：

两个卷积并行连接，卷积核大小分别为3×3和5×5。