CN110084274A

CN110084274A - 实时图像语义分割方法及***、可读存储介质和终端

Info

Publication number: CN110084274A
Application number: CN201910247530.9A
Authority: CN
Inventors: 周全; 王雨; 从德春; 卢竞男; 刘嘉
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-08-02
Anticipated expiration: 2039-03-29
Also published as: CN110084274B

Abstract

一种实时图像语义分割方法及***、可读存储介质和终端，所述方法包括：编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器；所述解码器采用注意力金字塔网络模型对所述编码器的输出特征图像进行密集的特征提取，并将所提取的特征向分割类别进行映射，最后将分割结果上采样到输入的原始特征图像分辨率。上述的方案，在使用有限的计算资源进行实时图像语义分割时，提高分割的准确性。

Description

实时图像语义分割方法及***、可读存储介质和终端

技术领域

本发明属于图像处理技术领域，特别是涉及一种实时图像语义分割方法及***、可读存储介质和终端。

背景技术

最近，构建更大更深的卷积神经网络(CNNs，Convolutional Neural Networks)成为解决场景理解任务的主要趋势。最准确的CNNs通常具有数百个卷积层和数千个特征通道，尽管取得了更高的性能，但这些进步还是牺牲了模型的运行时间和速度。特别是在诸如增强现实，机器人和自动驾驶汽车等许多现实场景的背景下，通常需要在资源受限的条件下对网络进行实时预测与评估。因此，那些需要大量资源的精确网络，不适用于计算能力、存储容量、能量开销等资源有限的移动平台(例如，无人机，机器人和智能手机)。而这种限制在计算繁重的图像语义分割任务中特别突出，其目标是为图像中的每个像素分配语义类别标签。

为了克服这个问题，许多轻量级网络被设计用来平衡分割准确性和实现效率，大致可以分为两类：网络压缩和卷积分解。尽管这些工作已经对轻量级网络架构进行了初步研究，但在非常有限的计算预算中追求最佳准确性仍然是实时语义分割任务的一个开放性研究问题，这也是当前CNNs在解决图像语义分割问题时亟待解决的问题。

发明内容

本发明解决的技术问题是如何在使用有限的计算资源进行实时图像语义分割时，提高分割的准确性。

为了达到上述目的，本发明提供一种实时图像语义分割方法，所述方法包括：

编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器；

所述解码器采用注意力金字塔网络模型对所述编码器的输出特征图像进行密集的特征提取，并将所提取的特征向分割类别进行映射，最后将分割结果上采样到输入的原始特征图像分辨率。

可选地，所述对输入的原始特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征，包括：

获取分辨率为所述原始特征图像一半的下采样图像；

采用由两个并行分支组成的下采样单元对所述下采样图像进行两倍下采样操作，并将两并行分支得到的特征图进行通道叠加，得到对应的第一特征图像；所述并行分支中的第一分支采用的卷积核大小为3×3，卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数，卷积核步长为2的卷积层对所述下采样图像进行下采样操作；第二分支对所述下采样图像进行最大池化操作；

对所述第一特征图像，利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次，得到第二特征图像；所述第二特征图像的分辨率与特征通道数与所述第一特征图像相同；

对所述第二特征图像，再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作，得到第三特征图像；所述第三特征图像的特征通道数为所述第二特征图像的两倍；

对所述第三特征图像，利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作两次，得到第四特征图像；所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同；

对所述第四特征图像，再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作，得到第五特征图像；所述第五特征图像的特征通道数为所述第四特征图像的两倍；

对所述第五特征图像，利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作八次，且八次基于特征通道的拆分和重排的卷积操作中的扩张系数依次为1-2-5-9、2-5-9-17，输出分辨率不变，卷积核个数为128，最后得到特征通道数为128的特征图像，作为所述编码器的输出。

可选地，所述基于特征通道的拆分和重排的卷积单元，包括：

对输入的特征图像进行通道拆分，得到对应的第一分支特征图像和第二分支特征图像；

采用卷积核分别为3x1、1x3、3x1和1x3的第一级联结构对所述第一分支特征图像执行卷积操作，得到第三分支特征图像；所述第一级联结构中第三级采用带孔或扩张的卷积操作；

采用卷积核分别为1x3、3x1、1x3和3x1的第二级联结构对所述第二分支特征图像执行卷积操作，得到第四分支特征图像；所述第二级联结构中的第三级采用带孔或扩张的卷积操作；

将所述第三分支特征图像与所述第四分支特征图像进行通道叠加，得到第五分支特征图像；

将所述第五分支特征图像与所述输入的特征图像进行相加并执行特征重排，得到对应的输出特征图像。

所述解码器采用注意力金字塔网络模型对所述编码器的输出图像进行密集的特征提取，包括：

采用大小分别为7x7、5x5、3x3且步长为2的卷积核对所述编码器输出的特征图像执行逐层下采样，分别得到第六特征图像、第七特征图像和第八特征图像；采用大小分别为7x7、5x5、3x3且步长为1的卷积核对第六特征图像、第七特征图像和第八特征图像执行卷积操作，分别得到第九特征图像、第十特征图像和第十一特征图像；对所述第十一特征图像进行两倍上采样，得到第十二特征图像，并将所述第十二特征图像与所述第十特征图像进行逐像素点相加，得到第十三特征图像；对所述第十三特征图像进行两倍上采样，得到第十四特征图像，并将所述第十四特征图像与所述第九特征图像进行逐像素点相加，得到第十五特征图像；对所述第十五特征图像进行两倍上采样，得到第十六特征图像，即为生成的像素注意力掩码；

采用大小为1x1、步长为1、通道数为20的卷积核对编码器输出的特征图像进行卷积，得到第十七特征图像，将所述第十七特征图像与生成的所述像素注意力掩码进行逐像素点相乘，得到第十八特征图像，即为生成的带有上下文先验的像素注意力特征图像；

对所述编码器输出的特征图像执行平均池化，得到第十九特征图像；采用大小为1x1、步长为1且通道数为20的卷积核对第十九特征图像执行卷积操作得到第二十特征图像；将所述第二十特征图像进行2倍上采样得到第二十一特征图像，将所述第二十一特征图像与所述带有上下文先验的像素注意力特征图像做逐像素点相加，生成第二十二特征图像，作为对所述编码器的输出图像进行密集的特征提取后的结果；然后将第二十二特征图像上采样到与编码器输入图像分辨率相同大小，即解码器的输出。

本发明实施例还提供了一种实时图像语义分割***，所述***包括相互耦接的编码器和解码器；

所述编码器，适于对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器；

所述解码器，适于采用注意力金字塔网络模型对所述编码器的输出图像进行密集的特征提取，并将所提取的特征向分割类别进行映射，最后将分割结果上采样到输入的原始特征图像分辨率。

可选地，所述编码器适于获取分辨率为所述原始特征图像一半的下采样图像；采用由两个并行分支组成的下采样单元对所述下采样图像进行两倍下采样操作并进行通道叠加，得到对应的第一特征图像；所述并行分支中的第一分支采用的卷积核为大小3×3，卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数，卷积核步长为2的卷积层对所述下采样图像进行下采样操作；第二分支对所述下采样图像进行最大池化操作；对所述第一特征图像，利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次，得到第二特征图像；所述第二特征图像的分辨率与特征通道数均所述第一特征图像相同；对所述第二特征图像，再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作，得到第三特征图像；所述第三特征图像的特征通道数为所述第二特征图像的两倍；对所述第三特征图像，利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作两次，得到第四特征图像；所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同；对所述第四特征图像，再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作，得到第五特征图像；所述第五特征图像的特征通道数为所述第四特征图像的两倍；对所述第五特征图像，利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作八次，且八次基于特征通道的拆分和重排的卷积操作中的扩张系数依次为1-2-5-9、2-5-9-17，输出分辨率不变，卷积核个数为128，最后得到特征通道数为128的特征图像，作为所述编码器的输出。

可选地，所述编码器适于对输入的特征图像进行通道拆分，得到对应的第一分支特征图像和第二分支特征图像；采用卷积核分别为3x1、1x3、3x1和1x3的第一级联结构对所述第一分支特征图像执行卷积操作，得到第三分支特征图像；所述第一级联结构中第三级采用带孔或扩张的卷积操作；采用卷积核分别为1x3、3x1、1x3和3x1的第二级联结构对所述第二分支特征图像执行卷积操作，得到第四分支特征图像；所述第二级联结构中的第三级采用带孔或扩张的卷积操作；将所述第三分支特征图像与所述第四分支特征图像进行通道叠加，得到第五分支特征图像；将所述第五分支特征图像与所述输入的特征图像进行相加并执行特征重排，得到对应的输出特征图像。

所述解码器适于采用大小分别为7x7、5x5、3x3且步长为2的卷积核对所述编码器输出的特征图像执行逐层下采样，分别得到第六特征图像、第七特征图像和第八特征图像；采用大小分别为7x7、5x5、3x3且步长为1的卷积核对第六特征图像、第七特征图像和第八特征图像执行卷积操作，分别得到第九特征图像、第十特征图像和第十一特征图像；对所述第十一特征图像进行两倍上采样，得到第十二特征图像，并将所述第十二特征图像与所述第十特征图像进行逐像素点相加，得到第十三特征图像；对所述第十三特征图像进行两倍上采样，得到第十四特征图像，并将所述第十四特征图像与所述第九特征图像进行逐像素点相加，得到第十五特征图像；对所述第十五特征图像进行两倍上采样，得到第十六特征图像，即为生成的像素注意力掩码；采用大小为1x1、步长为1、通道数为20的卷积核对编码器输出的特征图像进行卷积，得到第十七特征图像，将所述第十七特征图像与生成的所述像素注意力掩码进行逐像素点相乘，得到第十八特征图像，即为生成的带有上下文先验的像素注意力特征图像；对所述编码器输出的特征图像执行平均池化，得到第十九特征图像；采用大小为1x1、步长为1且通道数为20的卷积核对第十九特征图像执行卷积操作得到第二十特征图像；将所述第二十特征图像进行2倍上采样得到第二十一特征图像，将所述第二十一特征图像与所述带有上下文先验的像素注意力特征图像做逐像素点相加，生成第二十二特征图像，作为对所述编码器的输出图像进行密集的特征提取后的结果；然后将第二十二特征图像上采样到与编码器输入图像分辨率相同大小，即解码器的输出。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一项所述的实时语义图像分割方法的步骤。

本发明实施例还提供了一种终端，其特征在于，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任一项所述的实时语义图像分割方法的步骤。

与现有技术相比，本发明的有益效果为：

上述的方案，采用编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器，并由解码器采用注意力金字塔网络模型对编码器的输出特征图像进行密集的特征提取，并将所提取的特征向分割类别进行映射，最后将分割结果上采样到输入的原始特征图像分辨率。通过引入特征通道的拆分和重排两新的操作，可以以一种特征重用的方式增强了特征通道间的信息交互，故可以在使用有限的计算资源进行实时图像语义分割时，提高分割的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种实时图像语义分割***的结构示意图；

图2是本发明实施例中的一种实时图像语义分割方法的流程示意图；

图3是本发明实施例中的采用注意力金字塔网络模型对所述编码器的输出图像进行特征提取的方法的示意图；

图4是本发明实施例中的一种编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征的方法的流程示意图；

图5是本发明实施例中的基于特征通道的拆分和重排的卷积单元进行卷积操作的流程示意图；

图6是本发明实施例中的一种实时图像语义分割方法的应用实例示意图；

图7是本发明实施例中的一种实时图像语义分割方法与现有的其他方法的性能比较示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

如背景技术所述，现有技术中许多轻量级网络被设计用来平衡分割准确性和实现效率，大致分为两类：网络压缩和卷积分解。第一类方法主要是通过压缩预训练模型来减少冗余，加快模型推理速度，包括哈希，减枝和量化。为了进一步降低卷积神经网络的冗余，还有一些基于稀疏编码理论的方法。相反，基于卷积分解原理(CFP，ConvolutionFactorization Principle)，即将标准卷积分解为组卷积和深度可分离卷积，第二类方法主要是直接训练较小尺寸的网络。例如，ENet(Efficient Neural Network)使用ResNet(Residual Neural Network)作为骨干来执行有效的推理；ICNet(Image CascadeNetwork)提出图像级联框架来逐步细化分割预测；还有一些采用对称编码器-解码器网络(Encoder-Decoder Network)架构等。

尽管目前已经对轻量级网络架构进行了初步研究，但是，如何在非常有限的计算预算中追求最佳准确性，仍然是实时语义分割任务的一个开放性研究问题，这也是当前CNNs在解决图像语义分割问题时亟待解决的问题。

本发明的技术方案通过采用编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器，并由解码器采用注意力金字塔网络模型对编码器的输出特征图像进行密集的特征提取，并将所提取的特征向分割类别进行映射，最后将分割结果上采样到输入的原始特征图像分辨率。通过引入特征通道的拆分和重排两个新的操作，以一种特征重用的方式增强了特征通道间的信息交互，故可以在使用有限的计算资源进行实时图像语义分割时，提高分割的准确性。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

为了便于理解，下面首先对本发明实施例中的实时图像语义分割***进行介绍。

图1是本发明实施例的一种实时图像语义分割***的结构示意图。参见图1，一种实时图像语义分割***，可以包括编码器101和解码器102。其中，编码器101与解码器102相互耦接。

下面将对图1所示的实时图像语义分割***的工作原理进行介绍。

图2是本发明实施例的一种实时图像语义分割方法的流程示意图。参见图2，一种实时图像语义分割方法，具体可以包括如下的步骤：

步骤S201：编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器。

在具体实施中，所述编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积时，采用了和全卷积网络(Fully Convolutional Networks，FCN)类似的网络结构，其核心是一个新颖的残差模块，称为拆分-重排-瓶颈模块(SS-bt，Split-Shuffle-bottleneck)，引入了特征通道的拆分和重排(Channel Split and ChannelShuffle)两个新的操作，以一种特征重用的方式增强了特征信道间的信息交互，具体请参见图4中的详细介绍。

步骤S202：所述解码器采用注意力金字塔网络模型对所述编码器的输出特征图像进行密集的特征提取，并将所提取的特征向分割类别进行映射，最后将分割结果上采样到输入的原始特征图像分辨率。

在具体实施中，解码器通过设计的注意力金字塔网络(APN，Attention PyramidNetwork)模块，以提取密集的特征，由于注意力金字塔网络模块所采用的空间金字塔结构可以扩大感受野且不会显着增加计算消耗，再将由APN模块提取的特征向分割类别进行映射，最后将分割结果直接上采样到输入图像分辨率大小，可以进一步降低整个网络的复杂度。

参见图3，在本发明实施例中，在采用注意力金字塔网络模型对所述编码器的输出图像进行特征提取时，首先，采用大小分别为7x7、5x5、3x3且步长为2的卷积核对所述编码器输出的特征图像执行逐层下采样，分别得到第六特征图像⑥、第七特征图像⑦和第八特征图像⑧；采用大小分别为7x7、5x5、3x3且步长为1的卷积核对第六特征图像⑥、第七特征图像⑦和第八特征图像⑧执行卷积操作，分别得到第九特征图像⑨、第十特征图像和第十一特征图像对所述第十一特征图像进行两倍上采样，得到第十二特征图像并将所述第十二特征图像与所述第十特征图像进行逐像素点相加，得到第十三特征图像对所述第十三特征图像进行2倍上采样，得到第十四特征图像并将所述第十四特征图像与所述第九特征图像⑨进行逐像素点相加，得到第十五特征图像对所述第十五特征图像进行2倍上采样，得到第十六特征图像即为生成的像素注意力掩码。

采用大小为1x1、步长为1、通道数为20的卷积核对编码器输出的特征图像进行卷积，得到第十七特征图像将所述第十七特征图像与生成的所述像素注意力掩码进行逐像素点相乘，得到第十八特征图像即为生成的带有上下文先验的像素注意力特征图像。

对所述编码器输出的特征图像执行平均池化，得到第十九特征图像采用大小为1x1、步长为1且通道数为20的卷积核对第十九特征图像执行卷积操作得到第二十特征图像将所述第二十特征图像进行2倍上采样得到第二十一特征图像将所述第二十一特征图像与所述带有上下文先验的像素注意力特征图像X做逐像素点相加，生成第二十二特征图像作为对所述编码器的输出图像进行密集的特征提取后的结果；然后将第二十二特征图像上采样到与编码器输入图像分辨率相同大小即解码器的输出。

图4是本发明实施例的一种编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征的方法的流程示意图。参见图4，一种编码器通过对输入的原始特征图像进行特征通道的拆分和重排进行卷积提取图像特征的方法，具体可以包括如下的步骤：

步骤S401：获取分辨率为所述原始特征图像一半的下采样图像。

在具体实施中，通过对所述原始图像进行两倍的下采样可以得到分辨率为所述原始特征图像一半的下采样图像。

步骤S402：采用由两个并行分支组成的下采样单元对所述下采样图像进行两倍下采样操作，并将两并行分支得到的特征图进行通道叠加，得到对应的第一特征图像。

在具体实施中，所述并行分支中的第一分支采用的卷积核大小为3×3，卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数，卷积核步长为2的卷积层对所述下采样图像进行下采样操作；第二分支采用最大池化(max pooling)对所述下采样图像进行下采样操作。

步骤S403：对所述第一特征图像，利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次，得到第二特征图像。

参见图5，在具体实施中，所述基于特征通道的拆分和重排的卷积单元进行卷积操作具体可以包括：

首先，对输入的特征图像进行通道拆分(Channel Split)，得到对应的第一分支特征图像和第二分支特征图像。对于输入的第一特征图像引入特征通道的拆分操作，将特征通道一分为二，如图中所示，且通道拆分操作并不引入任何参数。

接着，采用卷积核分别为3x1(3x1Cov)、1x3(1x3Cov)、3x1(3x1Cov)和1x3(1x3Cov)的第一级联结构对所述第一分支特征图像执行卷积操作，得到第三分支特征图像；所述第一级联结构中第三级采用带孔或扩张的卷积操作，且采用卷积核分别为1x3(1x3Cov)、3x1(3x1Cov)、1x3(1x3Cov)和3x1(3x1Cov)的第二级联结构对所述第二分支特征图像执行卷积操作，得到第四分支特征图像；所述第二级联结构中的第三级采用带孔或扩张的卷积操作。拆分后的第一分支特征图像和第二分支特征图像前馈分别进入主分支的两条支路，两条支路设置基本保持相同，由于引入了分解卷积的操作方式，即将普通的两层3x3卷积拆分成了3x1、1x3的级联结构，降低了参数量，并且在层与层之间设置有对应的激活函数(如，修正线性单元ReLU，Rectified Linear Unit)和批量归一化(BN，Batch Normalization)。同时，这里由普通的3x3卷积拆分出来的一对3x1、1x3卷积使用的是带孔的或者是扩张卷积(dilated convolution，or atrous convolution)，扩大了神经元的感受野(receptivefield，即卷积神经网络每一层输出的特征图上每个像素点在原始图像上映射的区域大小)。值得注意的是，当扩张率dilation rate＝1时，扩张卷积方式和普通卷积没有区别，当扩张率dilation rate>1时，扩张卷积是在普通卷积的卷积核的每个值(神经元)之间引入了间隔，即相邻两个神经元之间***(dilation rate–1)个零值，在相同的计算条件下，扩张卷积提供了更大的感受野。本发明实施例中的扩张卷积的扩张率dilation rate如不做特殊说明时，默认设置为1，即与普通卷积相同。

最后，将所述第三分支特征图像与所述第四分支特征图像进行通道叠加，得到第五分支特征图像，并将所述第五分支特征图像与所述输入的特征图像进行相加并执行特征重排，得到对应的输出特征图像。主支路两个分支输出的特征图在通道上做连接(Concat，Concatenate)，保持与整个结构单元输入的通道数相一致。由于主分支的两个支路将卷积运算限定在了支路内，所以在结构单元中引入了特征通道重排(Channel Shuffle)操作，使得两条支路之间的信息得以交互。同时，引入了捷径连接(shortcut connection)，可以加速网络的训练过程。

直观上看，基于特征通道的拆分和重排的卷积单元中有两个分支，相比单个分支会大大增加计算量，但由于将主分支特征信道拆成两半，并在每个分支中均采用分解卷积方式，故可以进一步减少了计算量。并且，由于卷积网络中前一层卷积得到的特征图，经过一次上述的基于特征通道的拆分和重排的卷积操作后就流入执行下一次的基于特征通道的拆分和重排的卷积操作，以及双分支结构、通道重排操作，从该角度看，这些操作以一种特征重用的方式加强了信息之间的交互，且没有引入较多的参数，进一步增强了网络的特征表达能力。

在具体实施中，对所述第一特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次，生成的所述第二特征图像的分辨率与特征通道数与所述第一特征图像相同。

步骤S404：对所述第二特征图像采用由两个并行分支组成的下采样单元以执行两倍下采样操作，得到第三特征图像。

在具体实施中，所述第三特征图像的特征通道数为所述第二特征图像的两倍。例如，当第二特征图像的通道数为32时，生成的第三特征图像的特征通道数64。

步骤S405：对所述第三特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作两次，得到第四特征图像。

在具体实施中，所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同。

该步骤中的基于特征通道的拆分和重排的卷积单元具体操作请参见图4中的详细介绍，不再赘述。

步骤S406：对所述第四特征图像采用由两个并行分支组成的下采样单元以执行两倍下采样操作，得到第五特征图像。

在具体实施中，所述第五特征图像的特征通道数为所述第四特征图像的两倍。

步骤S407：对所述第五特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作八次，且八次基于特征通道的拆分和重排的卷积操作中的扩张系数依次为1-2-5-9、2-5-9-17，输出分辨率不变，卷积核个数为128，最后得到特征通道数为128的特征图像，作为所述编码器的输出。

例如，参见图6，当所述大小为原始特征图像一半的下采样图像的特征通道数为3，所需得到的第一特征图像的特征通道数为32时，并行分支中的一支所采用的卷积核大小为3×3，卷积核个数为32-3＝29，步长为2，输出图像的特征通道数为32-3＝29；另一支采用最大池化Max-pooling，该分支的输出信道数保持为输入通道数，即为3，然后将两个分支得到的特征图(feature map)在通道上做连接，即通道叠加，输出通道数为32的特征图，即为对应的第一特征图像601。

接着，对特征通道数为32的第一特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次，得到通道数为32的第二特征图像602。

随之，对所述通道数为32的第二特征图像采用由两个并行分支组成的下采样单元以执行两倍下采样操作，得到特征通道数为64的第三特征图像603。

之后，对所述征通道数为64第三特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作两次，得到特征通道数为64的第四特征图像604。

然后，对所述特征通道数为64的第四特征图像采用由两个并行分支组成的下采样单元以执行两倍下采样操作，得到特征通道数为128第五特征图像605。

最后，对所述第五特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作八次，且八次基于特征通道的拆分和重排的卷积操作中的扩张系数依次为1-2-5-9、2-5-9-17，输出分辨率不变，卷积核个数为128，最后得到特征通道数为128的特征图像606，作为所述编码器的输出。

图7是本发明设计的网络模型在Cityscapes数据集(它包含一个带有精细标注(gtFine，ground truth Fine annotation)的数据集，其训练集/验证集/测试集分别包含图像数目为2975/500/1525张，它还包含一个带有粗略标注(gtCoarse，ground truthCoarse annotation)的数据集，其包含20k张粗略标注的图像。在训练时设定分割类别数为20，即19个目标类别附加1个背景类别)上训练后，与其它模型输出的分割结果定性比较。本发明设计的模型LEDNet(在Cityscapes Fine Annotation训练集上进行训练)在测试集上的IoUclass和IoUcategory分别为69.2％、86.8％；在同时使用Fine和Coarse的Cityscapes标注数据条件下，所设计的LEDNet在测试集上的IoUclass和IoUcategory分别为70.6％、87.1％，在很大程度上已经超过了很多先进的模型。为了评估分割性能，评估指标采用标准的杰卡德系数(Jaccard Index)，通常也被称为PASCAL VOC交叉联合(或交并比)度量，下面为IoU(Intersection-over-Union)的计算公式：

其中，TP、FP、FN分别代表在整个Cityscapes测试集上确定的真正类(TruePositive)、假正类(False Positive)、假负类(False Negative)像素点的个数。

从图中可以看出LEDNet相比于SegNet，ENet，ERFNet(Efficient ResidualFactorized Network)，ESPNet(Efficient Spatial Pyramid Network)，ICNet及CGNet(Context Guided Network)的分割结果，前者在分割的准确性和效率之间实现了最优折中。在效率方面，LEDNet模型大小比SegNet小30倍多且速度快5倍多，在分割精度方面，尽管ENet是比较高效的网络，但精度比我们低10％。实验结果表明，与多个基准网络相比，本发明设计的LEDNet不仅可以正确地对不同尺度的物体进行分类，而且可以为所有类别生成一致的定性结果。无论从定量还定性的比较，充分说明了本发明在实时图像语义分割任务中的优越性。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的实时语义图像分割方法的步骤。其中，所述实时语义图像分割方法请参见前述部分的详细介绍，不再赘述。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的实时语义图像分割方法的步骤。其中，所述实时语义图像分割方法请参见前述部分的详细介绍，不再赘述。

采用本发明实施例中的上述方案，编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器，并由解码器采用注意力金字塔网络模型对所述编码器的输出图像进行密集的特征提取，将所提取的特征向分割类别进行映射，最后将分割结果上采样到输入的原始特征图像分辨率。由于引入了特征通道的拆分和重排两个新的操作，以一种特征重用的方式增强了特征通道间的信息交互，故可以在使用有限的计算资源进行实时图像语义分割时，提高分割的准确性。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

Claims

1.一种实时图像语义分割方法，其特征在于，包括：

2.根据权利要求1所述的实时图像语义分割方法，其特征在于，对输入的原始特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征，包括：

获取分辨率为所述原始特征图像一半的下采样图像；

3.根据权利要求1所述的实时图像语义分割方法，其特征在于，所述基于特征通道的拆分和重排的卷积单元，包括：

4.根据权利要求1所述的实时图像语义分割方法，其特征在于，所述解码器采用注意力金字塔网络模型对所述编码器的输出图像进行密集的特征提取，包括：

采用大小分别为7x7、5x5、3x3且步长为2的卷积核对所述编码器输出的特征图像执行逐层下采样，分别得到第六特征图像、第七特征图像和第八特征图像；采用大小分别为7x7、5x5、3x3且步长为1的卷积核对第六特征图像、第七特征图像和第八特征图像执行卷积操作，分别得到第九特征图像、第十特征图像和第十一特征图像；对所述第十一特征图像进行两倍上采样，得到第十二特征图像，并将所述第十二特征图像与所述第十特征图像进行逐像素点相加，得到第十三特征图像；对所述第十三特征图像进行两倍上采样，得到第十四特征图像，并将所述第十四特征图像与所述第九特征图像进行逐像素点相加，得到第十五特征图像；对所述第十五特征图像进行两倍上采样，得到第十六特征图像，即为生成的像素注意力掩码；采用大小为1x1、步长为1、通道数为20的卷积核对编码器输出的特征图像进行卷积，得到第十七特征图像，将所述第十七特征图像与生成的所述像素注意力掩码进行逐像素点相乘，得到第十八特征图像，即为生成的带有上下文先验的像素注意力特征图像；

5.一种实时图像语义分割***，其特征在于，包括相互耦接的编码器和解码器；

6.根据权利要求5所述的实时图像语义分割***，其特征在于，所述编码器适于获取分辨率为所述原始特征图像一半的下采样图像；采用由两个并行分支组成的下采样单元对所述下采样图像进行两倍下采样操作并进行通道叠加，得到对应的第一特征图像；所述并行分支中的第一分支采用的卷积核为大小3×3，卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数，卷积核步长为2的卷积层对所述下采样图像进行下采样操作；第二分支对所述下采样图像进行最大池化操作；对所述第一特征图像，利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次，得到第二特征图像；所述第二特征图像的分辨率与特征通道数均所述第一特征图像相同；对所述第二特征图像，再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作，得到第三特征图像；所述第三特征图像的特征通道数为所述第二特征图像的两倍；对所述第三特征图像，利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作两次，得到第四特征图像；所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同；对所述第四特征图像，再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作，得到第五特征图像；所述第五特征图像的特征通道数为所述第四特征图像的两倍；对所述第五特征图像，利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作八次，且八次基于特征通道的拆分和重排的卷积操作中的扩张系数依次为1-2-5-9、2-5-9-17，输出分辨率不变，卷积核个数为128，最后得到特征通道数为128的特征图像，作为所述编码器的输出。

7.根据权利要求5所述的实时图像语义分割***，其特征在于，所述编码器适于对输入的特征图像进行通道拆分，得到对应的第一分支特征图像和第二分支特征图像；采用卷积核分别为3x1、1x3、3x1和1x3的第一级联结构对所述第一分支特征图像执行卷积操作，得到第三分支特征图像；所述第一级联结构中第三级采用带孔或扩张的卷积操作；采用卷积核分别为1x3、3x1、1x3和3x1的第二级联结构对所述第二分支特征图像执行卷积操作，得到第四分支特征图像；所述第二级联结构中的第三级采用带孔或扩张的卷积操作；将所述第三分支特征图像与所述第四分支特征图像进行通道叠加，得到第五分支特征图像；将所述第五分支特征图像与所述输入的特征图像进行相加并执行特征重排，得到对应的输出特征图像。

8.根据权利要求5所述的实时图像语义分割***，其特征在于，所述解码器适于采用大小分别为7x7、5x5、3x3且步长为2的卷积核对所述编码器输出的特征图像执行逐层下采样，分别得到第六特征图像、第七特征图像和第八特征图像；采用大小分别为7x7、5x5、3x3且步长为1的卷积核对第六特征图像、第七特征图像和第八特征图像执行卷积操作，分别得到第九特征图像、第十特征图像和第十一特征图像；对所述第十一特征图像进行两倍上采样，得到第十二特征图像，并将所述第十二特征图像与所述第十特征图像进行逐像素点相加，得到第十三特征图像；对所述第十三特征图像进行两倍上采样，得到第十四特征图像，并将所述第十四特征图像与所述第九特征图像进行逐像素点相加，得到第十五特征图像；对所述第十五特征图像进行两倍上采样，得到第十六特征图像，即为生成的像素注意力掩码；采用大小为1x1、步长为1、通道数为20的卷积核对编码器输出的特征图像进行卷积，得到第十七特征图像，将所述第十七特征图像与生成的所述像素注意力掩码进行逐像素点相乘，得到第十八特征图像，即为生成的带有上下文先验的像素注意力特征图像；对所述编码器输出的特征图像执行平均池化，得到第十九特征图像；采用大小为1x1、步长为1且通道数为20的卷积核对第十九特征图像执行卷积操作得到第二十特征图像；将所述第二十特征图像进行2倍上采样得到第二十一特征图像，将所述第二十一特征图像与所述带有上下文先验的像素注意力特征图像做逐像素点相加，生成第二十二特征图像，作为对所述编码器的输出图像进行密集的特征提取后的结果；然后将第二十二特征图像上采样到与编码器输入图像分辨率相同大小，即解码器的输出。

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至4任一项所述的实时语义图像分割方法的步骤。

10.一种终端，其特征在于，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行权利要求1至4任一项所述的实时语义图像分割方法的步骤。