CN110472631B

CN110472631B - 基于序列预测的实时语义分割方法

Info

Publication number: CN110472631B
Application number: CN201910630980.6A
Authority: CN
Inventors: 纪荣嵘; 吴继鹏
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2022-05-03
Anticipated expiration: 2039-07-12
Also published as: CN110472631A

Abstract

基于序列预测的实时语义分割方法，涉及图像分割。对于图像库中的图像，随机选取一部分图像作为训练集；设计合适的网络用于训练，抽取相应的图像特征，包括修改后的Resnet和Xception网络；编码器和解码器的每个模块都输出一个预测结果；上一个模块的预测结果用于辅助下一个模块的预测，并且每个预测结果做为主干网络的一部分来优化整个网络；在解码器部分设计多种预测结果融合方法；将Resnet中的残差卷积改为上下文残差卷积，在只增加少量计算量的同时，增大感受野的大小。提高语义分割的准确性，利用循环促进的方法减少了网络传输过程中造成的信息损失，提升了网络精度。

Description

基于序列预测的实时语义分割方法

技术领域

本发明涉及图像分割，具体是涉及一种基于序列预测的实时语义分割方法。

背景技术

近年来，尽管深度学习在语义分割领域取得了极大的进展，但现有方法大都只考虑精度，而无法实际应用。一些快速语义分割的工作，却只得到较低的精度。

传统的语义分割存在网络模型大，未考虑到速度，无法在实际场景中使用的问题。之前的一些语义分割工作，只在解码阶段添加监督信息，从而忽略网络编码层的潜能。在边缘检测上已有人提出在encode阶段添加监督信息，然而这些方法将每个模块的预测结果直接上采样至原分辨率大小，级联后再通过卷积层输出最后的预测结果，对语义分割而言并非有效，且极其耗时。

发明内容

本发明的目的在于针对现有技术存在的上述问题，在只增加少量计算量的同时，充分降低网络传输过程中造成的信息损失，从而进一步提升网络精度的一种基于序列预测的实时语义分割方法。

本发明包括以下步骤：

1)对于图像库中的图像，随机选取一部分图像作为训练集；

2)设计合适的网络用于训练，抽取相应的图像特征，包括修改后的Resnet和Xception网络；

3)编码器和解码器的每个模块都输出一个预测结果；

4)上一个模块的预测结果用于辅助下一个模块的预测，并且每个预测结果做为主干网络的一部分来优化整个网络；

5)在解码器部分设计多种预测结果融合方法；

6)将Resnet中的残差卷积改为上下文残差卷积，在只增加少量计算量的同时，极大增大感受野的大小。

在步骤2)中，所述抽取相应的图像特征的具体方法可为：使用修改后的Resnet和Xception网络，对训练集中的每幅图像提取原图像同样大小的h×w×n维的特征，其中，n表示训练集中的类别的个数，h和w分别代表输入图像的长和宽的大小。

在步骤3)中，所述编码器和解码器的每个模块都输出一个预测结果的具体方法可为：对于每个模块都输出一个预测结果，大小为h_i×w_i×n维的图像特征，i表示第i个模块，h_i和w_i分别代表第i个模块的长和宽。

在步骤4)中，所述优化整个网络的具体方法可为：

(1)上一个模块的预测结果做为下一个模块预测结果输入的一部分，来指导下一次模块的预测；

(2)上一个模块的预测结果做为下一个模块输入结果的一部分，充分利用现有网络，提升网络性能；

(3)梯度更新时候优化前向网络的参数，进而优化先前的预测结果。

在步骤6)中，所述将Resnet中的残差卷积改为上下文残差卷积的具体步骤包括：

(1)使用3×3卷积和7×7卷积来提取特征，其中，3×3卷积使用较高的通道数量来提取特征，7×7卷积使用较小通道数量来获取更大的感受野；

(2)使用1维卷积来替换2维卷积，如1×3和3×1卷积用于替换3×3卷积。

本发明提出了一种的序列预测网络(SPNet)，该网络基于端到端的编码器解码器架构，用于实现高精度的实时语义分割。其中，编码器用于解决下采样和通道减少时信息丢失的问题，解码器用于上采样时来恢复空间位置信息和边缘信息。该网络在只增加一些额外计算量的同时，极大地提高语义分割的准确性。本发明利用循环促进的方法减少了网络传输过程中造成的信息损失，提升了网络精度。

附图说明

图1为基于序列预测的实时语义分割网络结构图。

图2为基于序列预测的实时语义分割模块图。在图2中，(a)和(b)是编码器模块，分别称为SPNet_EnC1和SPNet_EnC2；(c)是解码器模块，称为SPNet_DeC3；(a)用于图像降采样过程，(c)用于图像重建过程。

图3为在解码阶段的4种融合策略图。在图3中，(a)表示级联策略；(b)表示相加策略；(c)表示attention策略；(d)表示级联+attention策略。

图4为上下文残差卷积的设计。在图4中，(a)表示传统残差卷积，(b)表示上下文残差卷积。

具体实施方式

以下实施例将结合附图对本发明作详细的说明。

本发明实施例包括以下步骤：

1)利用ResNet或Xception做为主干网络来设计SPNet。如图1，SPNet主要包括三种模块，即SPNet_EnC1，SPNet_EnC2和SPNet_DeC3。在编码阶段使用SPNet_EnC1和SPNet_EnC2来提取精确的类别信息，在解码阶段使用SPNet DeC3将图像特征由低分辨率向高分辨率重建。本发明将级联方法集成到编码模块中，并进一步在解码模块中应用多种融合策略。

2)设计编码器。图2(a)显示SPNet_EnC1主要包括2个上下文残差卷积，一个1×1卷积和步长等于2的3×3卷积，2个上下文残差卷积用于学习更精确的类别信息，1×1卷积用于控制输出通道的数量，图2(a)中的19表示当前数据库的类别数量，步长为2的3×3卷积将输出特征图像的长宽均减少为输入图像的一半，而使用3×3卷积的目的是在图像特征分辨率减小时降低信息的丢失。在通过2个上下文残差卷积后，得到图像特征f_i，将上一模块的预测结果p_i-1与f_i级联，并使用1×1卷积，输出当前模块的预测结果p_i，并引入GroundTruth,使用Softmax交叉熵损失函数，计算当前预测结果的前向网络的损失。其中，i表示第i个模块。本模块的预测结果不仅用于降低在图像分辨率和通道发生变化时候造成的损失，并且前一个预测结果也将作为后一个预测结果输入的一部分，用于指导后一个模块的预测。具体做法是，具体做法是将当前模块的预测结果p_i与f_i级联，并通过步长为2的3×3卷积，得到当前模块的输出。因输出图像特征的分辨率减半，所以，本发明使用一个3×3的Max-pooling将当前模块预测结果的分辨率减半。

图2(b)显示了SPNet_EnC2的设计，该模块结构上与SPNet_EnC1大致相似，同样是编码器部分的模块，不同的是SPNet_EnC1用于处理图像分辨率减小的模块，SPNet_EnC2用于处理图像分辨率的模块。故SPNet_EnC2与SPNet_EnC1在设计上有2处不同之处，其一是SPNet_EnC2使用步长为1的1×1卷积替换掉步长2的3×3卷积，该方法可极大降低网络的计算量，其二是把当前模块的预测结果用来指导下一模块的预测，因为该模块输入输出图像分辨率大小一致。

3)设计解码器：之前的一些语义分割工作直接将编码器得到的图像特征直接上采样至原图像大小，但该操作导致预测出来的图像会丢失很多空间信息，造成边缘模糊。本发明设计了一种解码器模块SPNet_DeC3将图像特征从低分辨率重建至高分辨率，但由于在高分辨图像上计算量激增，为均衡速度和精度，只将从解码器得到的图像特征从原图像的1/32重建至原图像的1/4，再上采样至原图像大小。

SPNet_DeC3主要包括一个步长为2的3×3反卷积，一个上下文残差卷积和一个1×1卷积。步长为2的3×3反卷积用于恢复图像分辨率，上下文残差卷积用于学习更精确的类别信息，同编码器模块相比，SPNet_DeC3只使用一个上下文残差卷积以减少网络的计算量。Skip connect获取底层的空间位置信息，来恢复重建结果的空间位置信息。在通过一个步长为2的3×3反卷积和一个上下文残差卷积后，得到图像特征f_i。将底层特征f_j与高层图像特征f_i级联，再通过一个1×1卷积，得到当前模块的预测结果p_i。其中，底层特征f_j是编码器中与f_i具有相同分辨率的最后一层特征，底层特征f_j用于提供当前分辨率的空间位置信息，高层图像特征f_i用于提供更精确的类别信息。最后，p_i与f_i级联，直接作为下一模块的输入。

4)解码器部分设置不同的融合策略：为进一步在本***的实验中扩展相互促进策略，本***设计了几种预测结果的融合方法，如图3所示(a)是级联策略，同编码器的设计相似，将上一个模块的预测结果同当前模块的特征层级联，用来指导当前模块的预测。(b)是相加策略，表示将上一个模块的预测结果同当前模块预测结果直接相加。(c)是attention策略，通过一个门运算，用于筛选上一层预测结果中有用的信息。具体做法是将当前预测结果通过一个sigmoid运算，得到gate，该gate的分辨率和通道数量与预测结果一致。接着把上一模块预测结果与gate点乘后，与当前模块的预测结果直接相加。(d)表示级联+attention的组合策略，如图3(d)所示，即先进行(a)的级联操作，再进行(c)的attention预算。此外，在重建过程中，图像分辨率在不断增加，因此需将上一模块的预测结果上采样至当前模块的分辨率下，再进行融合。

5)设计上下文卷积：残差卷积的提出极大程度上解决了梯度下降问题，但传统的残差卷积，受限于卷积设计，只能获取局部区域的感受野，若使用5×5或7×7卷积，则会导致卷积计算量过大。本发明一种上下文残差卷积，在只增加少量计算量的同时，能够获取更大感受野的上下文信息。如图4(b)所示，上下文残差卷积共有2个分支，第一个分支与图4(a)的传统卷积设计相似，用于计算局部区域的类别信息，第二个分支则是用来提取更大范围的上下文信息。与传统残差卷积不同的是，本发明设计的上下文残差卷积共有以下几个特点。1)本发明使用非对称残差卷积，即使用1×3、3×1、1×7和7×1分别来代替3×3或7×7卷积，该操作极大程度上减少了卷积的计算量，尤其是对于7×7卷积而言。2)对于第二个分支，先通过1×1卷积将通道减少至原图像的1/16，再使用1×7和7×1卷积，该操作同样在极大程度上减少计算量的同时，能够获取更大感受野的上下文卷积。3)使用扩张卷积来代替传统卷积，在不增加计算量的同时，就能提升感受野的大小。4)使用Leak Relu来代替Relu，能够在一定程度上减少信息丢失。

6)实时语义分割***实现：本发明实现了三个速度下语义分割，均达到了state-of-art的效果，每一类的IoU和每个速度下的mIoU如表1和表2所见，本发明在精度上更优于同级速度下的快速语义分割方法，SPNet-A的精度甚至更优于大多数不考虑速度的语义分割方法。

表1 Cityscapes测试集合上每一类的IoU及每个方法的mIoU

表2 Cityscapes测试集上，三种SPNet方法在速度、参数和精度上与其他State-of-art方法的对比

为进一步验证SPNet中各个方法的有效性，本发明对每一个方法分别进行了消融实验。表三显示了上下文残差卷积的消融实验，SPNet-A和SPNet-B分别使用ResNet50和ResNet22作为主干网络，2个网络在使用残差卷积后，分别在只增加5.7％和10.2％参数量的同时，精度上分别有了2.34％和2.72％的提升。

表3上下文残差卷积的消融实验

表4显示了SPNet编码器解码器的消融实验，在编码网络中，SPNet-A和SPNet-B在增加5.88％和14.4％参数量的同时，精度上有了2％的提升，而SPNet-Xception在只增加6％参数量的同时，精度上有了3.75％的提升。在解码网络中，SPNet-A、SPNet-B和SPNet-Xception在增加1.08％、4.12％和1.98％参数量的同时，精度上分别提升了1.47％、1.19％和2.61％。实验结果证明，在增加相同计算量的时候，在解码部分使用序列预测能提升更大的精度，这是因为在网络中设计中，decode部分的损失函数使用了更大的权值。最终，在网络的编解码部分全部使用序列预测，SPNet-A、SPNet-B和SPNet-Xception分别增加了3.11％，2.72％和4.52％的精度。

表4 SPNet种编码器解码器的消融实验

表5不同融合策略的消融实验

表5显示了SPNet解码器部分预测结果不同融合策略的消融实验，包括Cascade、Sum、Attension和Cascade+Attension 4种融合策略。可见，直接将预测结果相加会使得精度下降，而使用Cascade和Attention策略会提升精度。在基本上只增加很少计算量的同时，使用Cascade策略在SPNet-A、SPNet-B和SPNet-Xception最终分别有0.62％，0.52％和0.50的提升，使用Attention策略分别有0.68％，0.41％和0.38％的提升，而使用Cascade+Attension分别有0.86％，1.19％和0.77％的提升，最终SPNet-A、SPNet-B和SPNet-Xception在Cityscape的验证集上分别达到了70.21％、60.92和66.40％的mIoU，速度分别为每秒18.5帧、每秒109帧和每秒64.9帧。

本发明利用循环促进的方法来减少网络传输过程中造成的信息损失。在编码器和解码器的每个块，都引入Ground Truth作为监督信息，通过softmax交叉熵损失函数，计算每个块的损失。接着，前一个模块的预测结果将作为监督信息来减小后一个模块在分辨率或通道发生变化时候造成的损失，并且前一个预测结果也将作为后一个预测结果输入的一部分，用于指导后一个模块的预测，而后一个模块预测在梯度更新时也将修正预测结果前的网络参数。为了获得更丰富的上下文，本发明还提供了一个新的上下文残差卷积。本发明在几个开源的数据集上，没有使用预训练模型的情况下都达到现有的实时语义分割state-of-art的性能。

Claims

1.基于序列预测的实时语义分割方法，其特征在于包括以下步骤：

1)对于图像库中的图像，随机选取一部分图像作为训练集；

2)利用ResNet或Xception做为主干网络设计SPNet，SPNet包括三种模块，即SPNet_EnC1，SPNet_EnC2和SPNet_DeC3；在编码阶段使用SPNet_EnC1和SPNet_EnC2提取类别信息，在解码阶段使用SPNet DeC3将图像特征由低分辨率向高分辨率重建；SPNet_EnC1包括2个上下文残差卷积，一个1×1卷积和步长等于2的3×3卷积，2个上下文残差卷积用于学习类别信息，1×1卷积用于控制输出通道的数量，步长为2的3×3卷积将输出特征图像的长宽均减少为输入图像的一半；SPNet_EnC2同样是编码器部分的模块，不同的是SPNet_EnC1用于处理图像分辨率减小的模块，SPNet_EnC2用于处理图像分辨率的模块；SPNet_DeC3将图像特征从低分辨率重建至高分辨率，SPNet_DeC3包括一个步长为2的3×3反卷积，一个上下文残差卷积和一个1×1卷积；步长为2的3×3反卷积用于恢复图像分辨率，上下文残差卷积用于学习类别信息；

3)编码器和解码器的每个模块都输出一个预测结果，具体方法为：

对于每个模块都输出一个预测结果，大小为h_i×w_i×n维的图像特征，i表示第i个模块，h_i和w_i分别代表第i个模块的长和宽；

所述优化整个网络的具体方法为：

(3)梯度更新时候优化前向网络的参数，进而优化先前的预测结果；

5)在解码器部分设计多种预测结果融合方法；

6)将Resnet中的残差卷积改为上下文残差卷积，增大感受野的大小，具体步骤为：

(1)使用3×3卷积和7×7卷积来提取特征，其中，3×3卷积使用高的通道数量来提取特征，7×7卷积使用小通道数量来获取更大的感受野；

(2)使用1维卷积来替换2维卷积。

2.如权利要求1所述基于序列预测的实时语义分割方法，其特征在于在步骤2)中，抽取相应的图像特征的具体方法为：使用修改后的Resnet和Xception网络，对训练集中的每幅图像提取原图像同样大小的h×w×n维的特征，其中，n表示训练集中的类别的个数，h和w分别代表输入图像的长和宽的大小。