CN111401379A

CN111401379A - 基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法

Info

Publication number: CN111401379A
Application number: CN202010212874.9A
Authority: CN
Inventors: 王海荣; 刘�文
Original assignee: North Minzu University
Current assignee: North Minzu University
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-10

Abstract

本发明公开了基于编解码结构的DeepLabv3plus‑IRCNet图像语义分割算法，基于DeepLabv3plus，由引入深度可分离卷积的倒置残差模块串联组成的深度卷积神经网络来提取图片特征，并在1/16分辨率下引入特征图切分模块，然后将各个切分特征图分别放大到切分前的大小后，通过参数共享的方式来提取特征，把每个输出的特征图进行对应位置拼接后与解码阶段放大到相同尺寸的特征图进行融合，来提高模型对小目标物体特征的提取能力，有效解决了图像下采样过程中特征图分辨率逐渐下降致使小目标丢失问题。

Description

基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法

技术领域

本发明涉及计算机视觉领域，尤其涉及基于编解码结构的 DeepLabv3plus-IRCNet图像语义分割算法。

背景技术

图像语义分割是计算机视觉领域中的基本研究课题之一，其目标是为图像中的每个像素分配语义标签。当前基于深度卷积神经网络 (DNCCs)的语义分割模型的发展，主要得益于全卷积神经网络(FCN) 的提出，它把卷积神经网络后面的的全连接层全部换成卷积层，上采样使用双线性插值算法，输出与输入尺寸分割图。但是当时FCN存在两个问题：1)特征图的分辨率不断缩小，导致丢失了部分小目标的像素；2)没有充分考虑图像上下文信息(像素与像素之间的关系)，无法充分利用丰富的空间位置信息。因此后来研究者们在FCN的基础上提出了一系列新方法，可以分为三类：基于优化卷积结构的方法、基于编码器-解码器的方法、基于特征融合的方法。

这些方法都是为了让模型能够更好的提取中间层不同分辨率下的特征信息，它们都是直接在整张特征图上进行操作，但是在一张图像中的某一局部区域中经常存在有极小的目标，普通卷积操作不能很好的提取到小目标物体的特征，难以获得较好的语义分割效果。

发明内容

针对上述存在的问题，本发明旨在提供一种能够提高对小目标物体特征的提取能力的算法，即DeepLabv3plus-IRCNet图像语义分割算，所述算法是在DeepLabv3plus的基础上加入了倒置残差(Inverted Residual)模块和特征图切分(Cut)模块，并且本文算法名称取其每个单词的首字母。

为了实现上述目的，本发明所采用的技术方案如下：

基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法，基于DeepLabv3plus网络结构，其特征在于，包括以下步骤：

S1：输入预处理图片；

S2：在编码阶段，采用由普通卷积层和多个倒置残差模块串联组成的深度卷积神经网络来提取特征；

S3：将提取到的特征输入到空洞空间金字塔池化模块中，然后用 1x1卷积得到目标特征图的输出张量；

S4：在解码阶段，采用双线性插值法进行上采样，将编码器中所提取的特征恢复到输入图片尺寸的大小，输出最终的图像语义分割图。

进一步地，步骤S2中所述的倒置残差模块中使用深度可分离卷积代替普通卷积，在下采样过程中用深度可分离卷积中的步长大小降低图片的分辨率，当特征图的分辨率下降到输入图片的1/16大小时，在最后一个倒置残差模块中引入空洞率为2的空洞卷积，同时引入特征图切分模块提取特征。

进一步地，所述倒置残差模块与通常的残差模块是相反的，是先经过1*1的卷积核把特征图的通道数进行“扩张”，最后再经过1*1 的卷积核对通道数进行“压缩”。

进一步地，所述空洞卷积的一维数学表达形式为公式

其中，x[i]表示一个一维输入信号，y[i]表示一个输出信号，w[k]表示一个长度为K、空洞率为r的卷积核。

进一步地，所述的特征图切分模块提取特征的具体操作步骤为：

S21：将1/16分辨率下的特征图在空间维度(w，h)上进行切分，w、h分别为特征图的宽度、高度，设n为切分比率，每个特征图被切分为n*n个切分模块，并且n≥1；

S22：将所述每个切分模块分别上采样到切分前的尺寸大小；

S23：对每个恢复到切分前的尺寸大小的特征图采用特征提取网络进行特征提取；

S24：然后将每个输出特征图进行对应位置拼接，将拼接后的特征图与解码阶段上采样到相同尺寸的特征图进行融合。

进一步地，步骤S24中所述的特征提取网络提取特征的具体步骤为：

S241：对放大后的每个特征图都采用1*1大小的卷积核进行降维，将通道数都降为原来的1/2，降低模型参数量，得到两个分支；

S242：在其中任一个分支中，串联2次大小为3*3的空洞卷积，且2次空洞卷积的空洞率分别设置为2和4，然后依次对特征图进行特征提取；

S243：将两个分支所提取的特征在通道维度上进行拼接，对拼接后的特征图做一次全局池化操作，再与拼接后特征进行点乘操作，提取出最后的特征，输出特征图。

进一步地，步骤S3中所述ASPP模块中采用空洞率为{6,12,18} 的空洞卷积序列。

进一步地，步骤S4的具体操作步骤为：

S41：采用双线性插值进行对编码阶段输出的目标特征上采样2 倍；

S42：与所述特征切分模块的输出特征进行融合；

S43：将融合后的特征再进行2次3x3的深度可分离卷积，重新定义特征；

S44：最后再采用双线性插值进行上采样，将编码器输出的特征图恢复到输入图片尺寸的大小；

S45：输出与输入尺寸大小相同的图像语义分割图。

本发明的有益效果是：

1、本发明中在DeepLabv3plus模型中编码器阶段对输入图进行特征提取时，当特征图下采样时分辨率降低到输入图片的1/16大小时，在深度卷积中引入了空洞卷积，空洞卷积增大了卷积核对特征图的感受野，降低了特征图分辨率变小的速度，缓解了下采样导致信息丢失的问题，让每个卷积的输出能包含更多的空间信息，还未增加额外的参数量，同时保持了相似(或更好)的性能；

2、本发明中提出倒置残差模块先把特征图的通道数进行“扩张”，提升了通道数，获得更多特征，最后再对通道数进行“压缩”；

3、本发明中提出的特征切分模块将特征图切分为不同模块，每一个切分的模块代表图像中不同的位置，每个位置包含了不同的局部空间信息，最后将切分后的每个模块分别上采样到切分前的尺寸大小，相当于将切分前的一些小目标物体放大成了大物体，让模型能够更好地关注特征切分后局部区域内小目标物体的特征，最后对放大后的特征图进行特征提取，此时能更好的抓取之前处于图片某局部区域中的小目标，从而提高语义分割图的分割精度；

4、当前对中间层特征图的提取特征方式都比较简单，一般采用跳跃结构来融合不同层之间的特征图，或者通过简单的卷积操作来提取特征，但是这些方式并不能很好地提高模型对放大后的小目标物体特征的提取力度，而本发明设计了更为合理的特征图提取网络，更好的提取到放大后的小目标物体。

综上所述，针对图片中小规模的目标，深度卷积神经网络(DCNNs) 不易提取出其语义信息，难以获得较好的语义分割效果。因此，本文基于DeepLabv3+算法，提出了基于编解码结构的 DeepLabv3plus-IRCNet图像语义分割改进算法。当特征图的分辨率下降到输入图片的1/16大小时，引入特征图切分操作，然后将各个切分特征图放大到切分之前大小后来提取特征，让模型能够更好地提取特征切分后局部区域内小目标物体的特征，有效提高了对小目标物体特征提取能力。

附图说明

图1为本发明网络总体结构图。

图2为空洞深度可分离卷积。

图3为倒置残差与传统残差的区别。

图4为编码器阶段对输入图片进行特征提取的详细设计结构图。

图5为特征图切分示意图。

图6为特征提取网络结构图。

图7为本文算法在CamVid训练集和验证集上的准确度和损失值曲线图。

图8 CamVid测试集上分割出路灯的可视化结果。

图9 CamVid测试集上分割出指示牌的可视化结果。

图10 CamVid测试集上分割出灌木树的可视化结果

图11 CamVid测试集上分割出广告牌的可视化结果

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

S1：输入预处理图片；

根据自己设计的网络结构调整输入图片的尺寸大小，本发明中输入的预处理图片尺寸为320x320；

具体地，本发明在编码器中，通过“short cut连接”来进行残差学习，但是本发明中的残差模块与传统的残差模块不同，参考附图 3，通常的残差模块是经过一个1*1的卷积核，把特征图的通道数“压”下来，再经过3*3的卷积核来提取特征，最后经过一个1*1的卷积核，再将特征图的通道数再“扩张”回去；而本发明中的倒置残差与传统残差相比是倒过来的，是先经过1*1的卷积核把特征图的通道数进行“扩张”，目的是为了提升通道数，获得更多特征，最后再经过1*1 的卷积核对通道数进行“压缩”；在编码器阶段，本发明使用深度卷积神经网络对输入图片进行特征提取的详细设计结构图可参考附图2；

本发明中使用深度可分离卷积代替普通卷积，其中深度可分离卷积是将标准卷积分解为深度卷积和逐点卷积两步进行，本发明采用深度可分离卷积中的步长大小来降低分辨率，当特征图的分辨率下降到输入图片的1/16大小时，在最后一个倒置残差模块中引入空洞率为2 的空洞卷积，增大卷积核对特征图的感受野，让每个卷积输出都包含较大范围的信息，因为与普通卷积相比，空洞卷积多了一个空洞率，普通卷积的空洞率为1。空洞卷积的一维数学表达形式为公式：

其中，x[i]表示一个一维输入信号，y[i]表示一个输出信号，w[k]表示一个长度为K、空洞率为r的卷积核；

进一步地，当特征图的分辨率下降到输入图片的1/16大小时，同时引入特征图切分模块提取特征，所述特征图切分模块可以分为两步：

其一，特征切分操作，具体地是将1/16分辨率下的特征图在空间维度(w,h)上进行切分，设置切分比率n，n的取值为1、2、3、4 甚至更大，参考附图5可知当n分别设置为2和3时的切分情况，其中图5(a)对应的是n＝2时切分情况，图5(b)对应的是n＝3时的切分情况；由此可以得知，根据切分比率n，特征图被切分为n*n个模块，每一个切分的模块代表图像中不同的位置，每个位置包含了不同的局部空间信息，然后将切分后的每个模块分别上采样到切分前的尺寸大小，这相当于将切分前的一些小目标物体放大成了大物体；

其二，特征提取网络，参考附图6可知，对切分后的每个模块放大到切分前的大小后，首先对放大后的每个特征图都采用1*1大小的卷积核进行降维，将通道数都降为原来的1/2，这样能大大降低模型的参数量，得到了两个分支，在其中一个分支上串联2次大小为3*3的空洞卷积，并依次对特征图进行特征提取，将空洞卷积中的空洞率第一次设置为2，第二次设置为4。空洞卷积增大了卷积核对特征图的感受野，降低了特征图分辨率变小的速度，缓解了下采样导致信息丢失的问题，让每个卷积的输出能包含更多的空间结构信息，还没增加额外的参数量；最后将两个分支所提取的特征在通道维度上进行拼接，对拼接后的特征图做一次全局池化操作，再与拼接后特征进行点乘操作，通过这种操作能够在不同的切分区域提取对应区域下的语义类别信息，提供了更具空间区域性质的上下文信息和全局信息，从而能够提高模型对放大后的小目标物特征的提取，提升最终的分割精度；

S3：将提取到的特征输入到空洞空间金字塔池化模块(ASPP) 中，然后用1x1卷积得到目标特征图的输出张量；

具体地，在主网络上，将提取的特征图输入到空洞空间金字塔池化模块(ASPP)中，来捕获图像中多尺度的上下文内容信息，且在 ASPP模块中采用空洞率为{6,12,18}的空洞卷积序列，然后用1x1卷积得到目标特征图的输出张量。

S4：在解码阶段，采用双线性插值法进行上采样，将编码器中所提取的特征恢复到输入图片尺寸的大小；

具体地，在解码器部分，先采用双线性插值对编码阶段输出的目标特征才采样2倍，然后与编码器中特征切分模块的输出特征图进行融合，再进行若干个3x3的深度可分离卷积重新定义特征，最后再采用双线性插值进行上采样，将编码器输出的特征恢复原始大小，最终输出与输入尺寸相同的图像语义分割图。

实施例：

1、数据集选择：本发明使用CamVid数据集，它是一个用来做城市道路场景理解的分割数据集，包含了367张训练图片、100张验证图片以及233张测试图片。每张图片分辨率为360x480像素，所有图片包含11个语义类别。

2、评价标准：为了评价图像语义分割结果的精度，本文采用 mIoU这个指标作为评价标准，其公式为：

3、实施过程：基于Keras深度学习框架，使用NVIDIA GeForce MX150 GPU进行计算，cuDnn7.0库加速。在训练网络过程中，采用数据增强策略。在进入模型训练之前，先将训练数据集和验证数据集的尺寸都调为320x320，并采用数据增强策略，将训练数据集和验证数据集的最小批尺寸(mini-batch size)均设置为8，采用adadelta 优化器方法来跟新网络的训练权重，训练轮数设定为500次，在编码器部分，使用深度卷积神经网络、特征切分模块、空间金字塔池化 ASPP模块对输入图像进行编码，而在解码器部分，采用双线性插值方法进行上采样，得到最终的图像语义分割图。在CamVid数据集上使用公共评判标准mIoU为指标对比分析。

在本实施例中，本发明算法DeepLabv3plus-IRCNet在CamVid 训练集上随着迭代次数的增加准确度和损失值变化情况如图7所示。其中，图7(a)和图7(b)分别是本发明模型在CamVid训练集上随着迭代次数的增加准确度和损失值的曲线图，而图7(a1)和图7 (b1)本发明在CamVid验证集上随着迭代次数的增加准确度和损失值的曲线图。

并且在CamVid测试集上的实验结果如表1所示，通过观察表1 可知，本发明的DeepLabv3plus-IRNet算法与模型SegNet、 DeepLabv2、DeepLabv3、DeepLabv3+相比，本发明取得了有竞争性的结果，获得了87.4％的分割性能，与DeepLabv3plus相比，增加了大约1.5个百分点。

表1各类方法在CamVid测试集上的结果

参考附图8-11可以看出，采用本发明的DeepLabv3plus-IRNet算法与DeepLabv3plus算法在CamVid测试集上的一些可视化效果的区别。针对测试集上不同图片的可视化效果，具体参考附图8、附图9、附图10以及附图11来说明：

其一，参考附图8可以看出，图8(a)为原始图片、图8(b) 为标注图片、图8(c)为DeepLabv3plus的分割结果、图8(d)为本发明中的算法DeepLabv3plus-IRNet的分割结果。由附图8中的(c) 和(d)毫无疑义可以看出，本发明的算法清晰的分割出了路灯的类别，此类别在图片中属于较小的物体，但是DeepLabv3+只是分割出了路灯的很少一部分；

其二，参考附图9可以看出，图9(a1)为原始图片、图9(b1) 为标注图片、图9(c1)为DeepLabv3plus的分割结果、图9(d1) 为本发明中的算法DeepLabv3plus-IRNet的分割结果。由附图9中的 (c1)和(d1)可以看出，本发明算法分割出了指示牌类别，此类别在图片中同样属于较小的物体，但是DeepLabv3+只是分割出了指示牌的一小部分；

其三，参考附图10可以看出，图10(a2)为原始图片、图10 (b2)为标注图片、图10(c2)为DeepLabv3plus的分割结果、图 10(d2)为本发明中的算法DeepLabv3plus-IRNet的分割结果。由附图10中的(c2)和(d2)可以看出，本发明算法分割出了门前的灌木树，此类别在图片中同样属于较小的物体，但是DeepLabv3+只是分割出了灌木树的一小部分；

其四，参考附图11可以看出，图11(a3)为原始图片、图11(b3) 为标注图片、图11(c3)为DeepLabv3plus的分割结果、图11(d3) 为本发明中的算法DeepLabv3plus-IRNet的分割结果。由附图11中的(c3)和(d3)可以看出，本发明算法分割出了高处的广告牌，此类别在图片中同样属于较小的物体，但是DeepLabv3+只是分割出了广告牌的一小部分；

综上所述，本发明提出的基于DeepLabv3+算法，基于编解码结构的DeepLabv3plus-IRCNet图像语义分割改进算法是实际可行的，且具有一定的有益效果。首先，当特征图的分辨率下降到输入图片的 1/16大小时，引入特征图切分操作，然后将各个切分特征图放大到切分之前大小后提取特征，让模型能够更好地提取特征切分后局部区域内小目标物体的特征。其次，将每个输出特征图进行对应位置拼接，将拼接后的特征图用于跟编码阶段相同尺寸的特征图进行融合，最后在解码阶段通过上采样输出最终的语义分割图。实验表明，本发明提出算法确实提高了模型提取图片中小物体特征的能力。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法，基于DeepLabv3plus网络结构，在DeepLabv3plus的基础上加入了倒置残差模块和特征图切分模块，其特征在于，包括以下步骤：

S1：输入预处理后的图片；

S3：将提取到的特征输入到空洞空间金字塔池化模块中，然后用1x1卷积得到目标特征图的输出张量；

2.根据权利要求1所述的基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法，其特征在于：步骤S2中所述的倒置残差模块中使用深度可分离卷积代替普通卷积，在下采样过程中用深度可分离卷积中的步长大小降低图片的分辨率，当特征图的分辨率下降到输入图片的1/16大小时，在最后一个倒置残差模块中引入空洞率为2的空洞卷积，同时引入特征图切分模块提取特征。

3.根据权利要求2所述的基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法，其特征在于：所述倒置残差模块与通常的残差模块是相反的，是先经过1*1的卷积核把特征图的通道数进行“扩张”，最后再经过1*1的卷积核对通道数进行“压缩”。

4.根据权利要求2所述的基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法，其特征在于：所述空洞卷积的一维数学表达形式为公式

5.根据权利要求2所述的基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法，其特征在于：所述的特征图切分模块提取特征的具体操作步骤为：

S22：将所述每个切分模块分别上采样到切分前的尺寸大小；

6.根据权利要求5所述的基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法，其特征在于：步骤S24中所述的特征提取网络提取特征的具体步骤为：

S242：在其中一个分支中，串联2次大小为3*3的空洞卷积，且2次空洞卷积的空洞率分别设置为2和4，然后依次对特征图进行特征提取；

7.根据权利要求1所述的基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法，其特征在于：步骤S3中所述ASPP模块采用DeepLabv3plus中空洞率为{6,12,18}的空洞卷积序列。

8.根据权利要求1所述的基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法，其特征在于：步骤S4的具体操作步骤为：

S41：采用双线性插值进行对编码阶段输出的目标特征上采样2倍；

S42：与所述特征切分模块的输出特征进行融合；

S44：最后再采用双线性插值进行上采样，将编码器输出的特征恢复原始大小；

S45：输出与输入尺寸大小相同的图像语义分割图。