CN116993987A

CN116993987A - 一种基于轻量级神经网络模型的图像语义分割方法及***

Info

Publication number: CN116993987A
Application number: CN202311095088.5A
Authority: CN
Inventors: 石敏; 林绍文; 骆爱文; 温热晖
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-03

Abstract

本发明公开了一种基于轻量级神经网络模型的图像语义分割方法及***，涉及人工智能领域。所述方法包括：所述轻量级神经网络模型包括初始化模块、空间分支、语义分支和多尺度特征融合解码器；所述图像语义分割方法包括：响应于待处理图像的处理指令，基于初始化模块对待处理图像进行特征提取，得到第一特征图；基于空间分支提取第一特征图的空间信息；基于语义分支提取第一特征图的多尺度特征信息，并融合多尺度特征信息和空间信息，得到增强特征图；基于多尺度特征融合解码器，将第一特征图与增强特征图进行融合，并进行图像尺寸恢复，得到图像语义分割结果。相较于现有技术，本发明在分割精度与实时性之间实现更好的性能均衡。

Description

一种基于轻量级神经网络模型的图像语义分割方法及***

技术领域

本发明涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等领域，更具体地，涉及一种基于轻量级神经网络模型的图像语义分割方法及***。

背景技术

图像语义分割方法，用于对图像中的不同对象进行区分及分类，是近年来人工智能领域的技术研究重点，可应用在自动驾驶、安防监控、医学成像、人脸识别、遥感图像等场景中；如在自动驾驶场景中，可利用图像语义分割方法实现环境信息的处理，一个高水平的道路场景的语义分割方法可以为智能车辆提供快速且准确的路况信息，使其做出正确的路线规划，保证自动驾驶汽车能够安全行驶。

传统的图像语义分割算法因为其计算复杂度不高，通常在分割时拥有较快的处理速度和较低的分割精度，以自动驾驶场景为例，该类算法虽然能满足道路场景分割的实时性要求，却容易出现道路目标误分割的情况，这对于行驶中的智能车辆有着严重的影响。现有技术已提出了基于深度网络的图像学习语义分割方法，通常通过使用大量可训练的权重组成卷积操作来构建神经网络，然后通过大规模的图像样本训练网络，从而使网络自动学习并完成分割任务，凭借端对端、拟合能力强等优点，在准确率上取得了显著进展，弥补了传统图像算法的分割精度短板，但其存在参数量和计算量庞大的缺点，对于实施算法部署的边缘设备有着极高的硬件资源和计算资源要求。这类计算规模庞大的高准确率语义分割方法难以被部署至边缘设备上，如何在保证实时性的同时实现轻量化的图像语义分割方法已成为现代计算机科学的一个重要研究方向，以适应信息化时代下日益提高的时效性要求。

现有的具有实时性的图像语义分割方法普遍采用瓶颈结构作为图像语义分割网络中编码器的基本组成单元来实现轻量化，但其导致了图像特征丢失和破坏的问题，进而影响分割精度。

发明内容

本发明为克服上述现有技术所述的基于神经网络模型的图像语义分割任务中，在保证实时性和轻量化的同时无法保证分割精度的缺陷，提供一种基于轻量级神经网络模型的图像语义分割方法及***。

为解决上述技术问题，本发明的技术方案如下：

第一方面，一种基于轻量级神经网络模型的图像语义分割方法，所述轻量级神经网络模型包括初始化模块、空间分支、语义分支和多尺度特征融合解码器；

所述图像语义分割方法包括：

响应于待处理图像的处理指令，基于所述初始化模块对所述待处理图像进行特征提取，得到第一特征图；

基于所述空间分支提取所述第一特征图的空间信息；

基于所述语义分支提取所述第一特征图的多尺度特征信息，并融合所述多尺度特征信息和所述空间信息，得到增强特征图；

基于所述多尺度特征融合解码器，将所述第一特征图与所述增强特征图进行融合解码，并进行图像尺寸恢复，得到图像语义分割结果。

第二方面，一种图像语义分割***，应用第一方面所述方法，包括：

接收单元，用于获取待处理图像；

处理单元，用于搭载轻量级神经网络模型；还用于对所述待处理图像进行处理，得到图像语义分割结果；其中，

所述轻量级神经网络模型包括：

初始化模块，用于对所述待处理图像进行特征提取，得到第一特征图；

空间分支，用于提取所述第一特征图的空间信息；

语义分支，用于提取所述第一特征图的多尺度特征信息；还用于融合所述多尺度特征信息和所述空间信息，得到增强特征图；

多尺度特征融合解码器，用于将所述第一特征图与所述增强特征图进行融合解码，并进行图像尺寸恢复，得到所述图像语义分割结果。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供了一种基于轻量级神经网络模型的图像语义分割方法及***，其中，所述方法通过轻量级神经网络模型的多分支结构，以低代价经空间分支提取第一特征图的空间信息、经语义分支提取第一特征图的多尺度特征信息并将其与空间信息进行融合，实现对多尺度特征信息的空间信息补充，随后通过多尺度融合解码器将第一特征图与空间信息补充后的多尺度特征信息(即增强特征图)进行融合，并对图像进行精度恢复(即图像尺寸恢复)，可在参数量相对较小的轻量级图像语义分割网络模型中保证图像语义分割结果的精度(Precision)和准确率(Accuracy)，提高模型的推理速度(Inference Speed)。相较于现有技术，本发明不仅提高了图像内目标的分割精度(以mIoU来衡量)，还实现了图像的快速语义分割，并保持了的轻量化的特性，最终在分割精度与实时性之间实现很好的性能均衡，可同时满足实际应用场景对时效性与准确性的需求，便于部署在边缘设备中，特别适用于自动驾驶、安防监控、医学成像、人脸识别、遥感图像等应用场景。

附图说明

图1为实施例1中图像语义分割方法的流程示意图；

图2为实施例1中图像语义分割网络模型的结构示意图；

图3为实施例1中FEB的结构示意图；

图4为实施例1中DAB的结构示意图；

图5为实施例1中多尺度特征融合解码器的结构示意图；

图6为实施例2基于不同图像语义分割模型的图像语义分割方法的实验结果对比图；

图7为实施例3图像语义分割***的结构示意图；

其中，附图标记包括：

101-初始化模块；102-空间分支；103-语义分支；104-多尺度特征融合解码器；

1021-第一空间分支；1022第二空间分支；

1031-第一语义分支；1032-第二语义分支；

1041-空间注意力模块。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；相同或相似的标号对应相同或相似的部件；

对于本领域的普通技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

以下将结合附图和实施例对本发明的技术方案做进一步的说明，本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例1

本实施例提出一种基于轻量级神经网络模型的图像语义分割方法，参阅图1所示的流程示意图和图2所示的结构示意图，所述轻量级神经网络模型包括初始化模块101、空间分支102、语义分支103和多尺度特征融合解码器104；

则，所述图像语义分割方法包括：

S1：响应于待处理图像的处理指令，基于所述初始化模块101对所述待处理图像进行特征提取，得到第一特征图；

S2：基于所述空间分支102提取所述第一特征图的空间信息；

S3：基于所述语义分支103提取所述第一特征图的多尺度特征信息，并融合所述多尺度特征信息和所述空间信息，得到增强特征图；其中，所述语义分支103基于瓶颈结构实现所述多尺度特征信息的提取；

S4：基于所述多尺度特征融合解码器(Feature Fusion Decoder，FFD)104，将所述第一特征图与所述增强特征图进行融合，并进行图像尺寸恢复，得到图像语义分割结果。

本实施例中构建的用于图像语义分割的轻量级神经网络模型为快速超轻量双边网络(Fast Ultra-lightweight Bilateral Network，FUBNet)，该网络模型采用多分支结构(即空间分支102和语义分支103)，从第一特征图中提取出空间信息和多尺度特征信息，并融合得到增强特征图，完成对多尺度特征信息的空间信息补充，增强和保留了空间信息，保证编码侧空间特征的恢复；此外，在解码侧，通过多尺度特征融合解码器104，将所述第一特征图与所述增强特征图进行融合，再进行图像尺寸恢复，可准确快速地提高所述网络模型图像的空间细节恢复能力，进而在保障实时性的同时提高图像语义分割结果的分割精度，相较于现有技术可充分利用关于待处理图像的多尺度特征信息。

本领域技术人员应当理解，轻量级神经网络为参数量小的网络；具体地，所述轻量级神经网络的参数量小于50M。

在一优选实施例中，所述空间分支包括第一空间分支和第二空间分支；所述基于所述空间分支提取所述第一特征图的空间信息，包括：

基于所述第一空间分支1021，得到关于所述第一特征图的第一空间信息压缩特征图；

基于所述第二空间分支1022，得到关于所述第一特征图的第二空间信息压缩特征图；

所述语义分支包括第一语义分支1031、第一叠加器、第二语义分支1032和第二叠加器；所述基于所述语义分支提取所述第一特征图的多尺度特征信息，并融合所述多尺度特征信息和所述空间信息，包括：

基于所述第一语义分支1031，对所述第一特征图进行语义特征提取，得到第一尺度语义特征图；

通过所述第一叠加器，将所述第一尺度语义特征图与所述第一空间信息压缩特征图进行融合，得到第一增强特征图；

基于所述第二语义分支1032，对所述第一增强特征图进行语义特征提取，得到第二尺度语义特征图；

通过所述第二叠加器，将所述第二尺度语义特征图与所述第二空间信息压缩特征图进行融合，得到第二增强特征图。

该优选实施例通过第一空间分支1021和第二空间分支1022对第一特征图进行空间信息提取，分别得到第一空间信息压缩特征图和第二空间信息压缩特征图；通过第一语义分支1031和第二语义分支1032对第一特征图进行多尺度特征信息提取，分别得到第一尺度语义特征图和第二尺度语义特征图，并分别通过第一叠加器和第二叠加器，将第一尺度语义特征图与第一空间信息压缩特征图、第二尺度语义特征图与第二空间信息压缩特征图进行融合，得到增强特征图(即第一增强特征图和第二增强特征图)。

在一可选实施例中，所述第一空间分支1021包括第一多通道卷积层和第一单通道卷积层；所述第二空间分支1022包括第二多通道卷积层和第二单通道卷积层；

所述基于所述第一空间分支1021，得到关于所述第一特征图的第一空间信息压缩特征图，包括：

利用所述第一多通道卷积层对所述第一特征图进行空间信息提取，得到第一空间信息特征图；

利用所述第一单通道卷积层对所述第一空间信息特征图进行通道压缩，得到第一空间信息压缩特征图；

以及，所述基于所述第二空间分支1022，得到关于所述第一特征图的第二空间信息压缩特征图，包括：

利用所述第二多通道卷积层对所述第一空间信息特征图进行空间信息提取，得到第二空间信息特征图；

利用所述第二单通道卷积层对所述第二空间信息特征图进行通道压缩，得到第二空间信息压缩特征图。

该可选实施中，通过第一多通道卷积层和第二多通道卷积层分别进行空间信息提取，保证处理效率的同时防止过多非线性操作导致空间信息的破坏，分别得到第一空间信息特征图和第二空间信息特征图；通过第一单通道卷积层和第二单通道卷积层分别进行通道压缩，防止额外参数消耗，分别得到第一空间信息压缩特征图和第二空间信息压缩特征图。

应当理解，所述第一多通道卷积层、第一单通道卷积层、第二多通道卷积层以及第二单通道卷积层的大小和/或通道数由本领域技术人员根据实际情况自行确定，如根据所处理的特征图的大小和/或通道数确定。

在一些示例中，所述第一多通道卷积层和/或第二多通道卷积层为大小3×3、通道数32的标准卷积层；

在一些示例中，所述第一单通道卷积层和/或第二单通道卷积层为大小3×3、通道数1的标准卷积层。

在一可选实施例中，所述第一语义分支1031与所述第二语义分支1032均包括依次连接的下采样层、若干个特征增强层、拼接层和点卷积层；所述下采样层的输出端还与所述拼接层的输入端连接，用于将不同深度的特征图信息进行融合；

所述基于所述第一语义分支1031，对所述第一特征图进行语义特征提取，得到第一尺度语义特征图，包括：

利用所述下采样层对所述第一特征图进行下采样操作，得到第一下采样特征图；

利用若干个依次连接的所述特征增强层对所述第一下采样特征图进行特征提取，得到第一尺度特征图；

利用拼接层对所述第一下采样特征图和所述第一尺度特征图进行拼接融合操作，并通过一个点卷积层对所述拼接层输出的特征图的各个通道信息进行融合和通道压缩，得到所述第一尺度语义特征图；

以及，所述基于所述第二语义分支1032，对所述第一增强特征图进行语义特征提取，得到第二尺度语义特征图，包括：

利用下采样层对所述第一增强特征图进行下采样操作，得到第二下采样特征图；

利用若干个依次连接的特征增强层对所述第二下采样特征图进行特征提取，得到第二尺度特征图；

利用拼接层(Concat)对所述第二下采样特征图和所述第二尺度特征图进行拼接融合操作，并通过一个点卷积层对拼接层输出的特征图的各个通道信息进行融合和通道压缩，得到所述第二尺度语义特征图。

该可选实施例通过有感受野差异的并行双分支(即第一语义分支1031和第二语义分支1032)对特征图(即第一特征图和第一增强特征图)进行处理，产生不同尺度的特征图(即第一尺度特征图和第二尺度特征图)；分别通过第一叠加器和第二叠加器将空间信息(即第一空间信息压缩特征图和第二空间信息压缩特征图)以加法操作融合至前述不同尺度的特征图上，以空间掩膜的方法对多尺度特征图的空间信息进行补充，提高了图像语义分割结果的准确率(视为轻量级神经网络模型的准确率)。

需要说明的是，所述第一语义分支1031中的点卷积层和所述第二语义分支中1032的点卷积层的大小和/或通道数由本领域技术人员根据实际场景中对模型精度和模型大小的需要而进行调整。

在一些示例中，所述第一语义分支中的点卷积层为大小1×1、通道数64的标准卷积层；

在一些示例中，所述第二语义分支中的点卷积层为大小1×1、通道数128的标准卷积层。

进一步地，所述特征增强层包括DAB(Depth-wise Asymmetric Bottleneck，深度非对称瓶颈)模块、FEB(Feature Enhancement Bottleneck，特征增强瓶颈)模块和ResNet残差瓶颈模块中的至少之一；

其中，如图3所示，所述FEB模块包括：

第一深度卷积层，用于通过独立的二维卷积核分别对输入的特征图的各个通道进行卷积运算，得到第一深度特征图；

第一点卷积层，用于通过预设数量的点卷积核对所述第一深度特征图进行通道融合，得到对应的通道压缩特征图；

第二深度卷积层，用于利用独立的二维卷积核分别对所述通道压缩特征图的各个通道进行卷积运算，得到与所述通道压缩特征图的通道数相等的第二深度特征图；

深度空洞卷积层(Depthwise Dilated Convolution，DDConv)，用于利用独立的二维卷积核并根据预设的空洞率，分别对所述通道压缩特征图的各个通道进行深度卷积操作，得到深度空洞特征图；

第一融合层(Addition)，用于将所述通道压缩特征图、所述第二深度特征图与所述深度空洞特征图的对应元素值进行相加，得到第一语义特征融合特征图；

第一三维卷积层，用于利用若干个三维卷积核分别对所述第一语义特征融合特征图的各个通道的空间特征和通道特征进行混合，分别得到一个输出通道的特征图；还用于将各个输出通道的特征图组合得到第一组合特征图；

第二点卷积层，用于利用预设数量的点卷积核分别对所述组合特征图的通道特征进行融合，分别得到一个输出通道的特征图；还用于将各个输出通道的特征图组合得到第二组合特征图；

第二融合层(Addition)，用于将输入所述第一深度卷积层的特征图，与所述第二组合特征图的对应元素进行相加，得到当前特征增强层输出的基础特征图。

需要说明的是，上述实施例通过瓶颈结构形式的特征增强层实现了所述轻量级神经网络模型编码层的轻量化，并实现所述多尺度特征信息的提取，若干个依次连接的所述特征增强层构成瓶颈结构模块。还需要说明的是，采用空间分支对第一特征图进行空间信息提取，可解决瓶颈结构形式的特征增强层易导致特征丢失和破坏的问题。

本领域技术人员应当理解，所述ResNet残差模块采用了不同大小的卷积层构成瓶颈结构以减少参数量，包括采用一个1×1卷积层进行降维、再采用一个3×3卷积层进行卷积、最后采用一个1×1卷积层进行升维。本实施例所述DAB模块结合了ResNet残差模块和多种卷积技术，如图4所示的DAB的结构示意图，采用一个通过3×3卷积压缩通道至二分之一的瓶颈结构，该结构比ResNet残差模块在压缩时保留更多通道以进行特征提取，后续的特征提取则采用深度卷积技术和非对称卷积技术以限制参数规模膨胀，通过两个带有不同空洞率的分支(其中一个分支包括两个依次连接的非对称的深度卷积层，即图4中的3×1DConv和1×3DConv；另一个分支包括两个依次连接的非对称深度空洞卷积层，即图4中的3×1DDConv和1×3DDConv)来获取不同尺度的信息。

在一些示例中，采用若干个依次连接的ResNet残差模块组合为瓶颈结构模块；

在一些示例中，采用若干个依次连接的DAB组合为瓶颈结构模块；

在一些示例中，采用若干个依次连接的FEB组合为瓶颈结构模块；

在另一些示例中，采用若干个FEB和DAB组合为瓶颈结构模块。

对于FEB模块，需要说明的是，所述二维卷积核表示只有长和宽。

本领域技术人员应当理解，所述第一语义分支/第二语义分支中，最后一个FEB模块中的第二融合层输出的基础特征图即为第一尺度语义特征图/第二尺度语义特征图。

在一些示例中，所述第一深度卷积层的卷积核大小为3×3；

在一些示例中，所述第一点卷积层的卷积核大小为1×1；

在一些示例中，所述第二深度卷积层的卷积核大小为3×3；

在一些示例中，所述深度空洞卷积层的卷积核大小为3×3；

在一些示例中，所述第一三维卷积层采用大小为3×3×C/2的标准卷积核进行运算。

需要说明的是，通过控制点卷积核的数量可恢复输出特征图的通道数。例如，参阅图3，所述第二点卷积层中的点卷积核尺寸为1×1×C，其中C为当前FEB模块的输入特征图的通道数，点卷积核的个数C1是输出的特征图的通道数，当控制点卷积核个数C1为C/2，所述第二点卷积层的输出特征图的通道数C2为C1的两倍(即C2＝C)；整个FEB模块的输入和输出特征图的通道数相同。需要说明的是，放置在神经网络的不同位置时的FEB模块可采用不同的输入/输出通道数，需要与当前网络层的下采样层所分配的通道数相匹配。

还需要说明的是，所述FEB模块遵循瓶颈结构和多分支的思想，引入了双分支有感受野差异的不同空洞率的卷积支路(即用于处理通道压缩特征图的第二深度卷积层和深度空洞卷积层)，分别获取短距离特征和长距离特征，产生不同尺度的特征图，通过第一融合层实现信息聚合，再通过一个第一三维卷积层进行特征加强，得到多尺度增强特征图(即第一组合特征图)，有效提升了轻量级神经网络模型的多尺度特征捕获能力，提高轻量级神经网络模型对不同尺度目标的分割能力；此外，应当理解，所述第一三维卷积层、第二点卷积层的卷积核大小和/或通道数由本领域技术人员根据实际情况自行确定。

在一些示例中，采用Cityscapes数据集对仅基于不同特征增强层的网络模型进行了评估实验，实验结果如下：

表1不同特征增强层的实验结果

可以看出，三类特征增强层均具有较高的准确率。其中，基于ResNet残差模块构建的网络模型只需花费0.23M的参数，并实现了294.6fps(帧每秒)的推理速度，其分割性能表现达到50.2％mIoU；而基于FEB构建的网络模型在mIoU指标上比ResNet残差模块高出20.6％，这是由于FEB利用双分支的感受野差异来捕获多尺度特征信息，利用不同加权范围的卷积窗口对同一输入特征图进行计算，将不同窗口计算得到的像素加权值进一步融合和进行特征加强，使得FEB能够同时考虑小范围、短距离的稠密特征点以及大范围、长距离的稀疏特征点之间的关系，进而有效提高语义分支的多尺度特征提取能力。需要强调的是，尽管FEB通道压缩倍率较小于ResNet残差模块，参数量略有提升，处理效率有一定降低，但本领域技术人员应当理解，在当前硬件算力不断提升的情况下，为了换取准确率的巨额提升而牺牲一定的处理效率是完全可接受的。

此外，基于DAB的网络模型能够达到69.6％mIoU，参数量达到0.68M。需要说明的是，FEB与DAB二者采用了不同的卷积技术作为瓶颈结构的入口：FEB采用了深度可分离卷积，DAB采用了标准卷积；此外FEB在后续处理中采用了一个第一三维卷积层实现特征增强卷积，以进一步提高语义提取能力。相较于DAB，FEB采用更稀疏的卷积技术依然维持较高分割精度，FEB模块采取的第一深度卷积层和特征增强卷积两者的参数量之和比DAB模块在入口采用的标准卷积的参数量还低，获得了更轻量又更有效的效果，基于FEB构建的语义分支具有轻量、高准确率的特点。

更进一步地，在一个所述FEB模块中，所述第一深度卷积层、所述第二深度卷积层、所述深度空洞卷积层、所述第一三维卷积层、所述第二点卷积层的输出端，以及所述第一深度卷积层的输入端均依次连接有BN(Batch Normalization，批标准化)层和PReLU激活层。

本领域技术人员应当理解，所述BN层用于对特征图的数据进行标准化，在一定程度上抑制了梯度消失和梯度***的问题，加快了模型的收敛速度，并提升了模型的泛化能力；所述PReLU激活层可避免神经元失活问题的出现，并可自适应地从特征图数据中学习参数。

进一步地，所述第一语义分支与所述第二语义分支中的所述特征增强层的数量不同；以及，所述第一语义分支和所述第二语义分支中，各个特征增强层的特征图空间尺寸和通道数相同。

需要说明的是，第一语义分支和第二语义分支中的各个特征增强层的特征图空间尺寸和通道数相同；本领域技术人员应当理解，特征图空间尺度和通道数均可通过对应语义分支(即第一语义分支或第二语义分支)中的下采样层进行调整控制。

在一可选实施例中，参阅图5，所述多尺度特征融合解码器包括第一深度可分离卷积层、第二深度可分离卷积层、第五点卷积层、上采样层和第六点卷积层；

所述基于所述多尺度特征融合解码器，将所述第一特征图与所述增强特征图进行融合解码，并进行图像尺寸恢复，包括：

通过所述第一深度可分离卷积层对所述第一特征图进行卷积处理，得到第一待解码特征图；其中，所述第一深度可分离卷积层包括依次连接的第三深度卷积层和第三点卷积层，所述第三深度卷积层的卷积核数量与所述第一特征图的通道数相同，所述第三点卷积层的卷积核数量与所述第一增强特征图的通道数相同；

通过所述第二深度可分离卷积层对所述第一增强特征图进行卷积处理，得到第二待解码特征图；其中，所述第二深度可分离卷积层包括第四深度卷积层和第四点卷积层，且所述第四深度卷积层和所述第四点卷积层的卷积核数量，均与所述第一增强特征图的通道数相同；

通过所述第五点卷积层对所述第二增强特征图进行通道信息合并与通道压缩，将所述第二增强特征图的通道数恢复至与所述第一增强特征图的通道数相同，再通过上采样层恢复空间尺寸，得到第三待解码特征图；

将所述第一待解码特征图、所述第二待解码特征图和所述第三待解码特征图进行相加融合操作，得到最终融合特征图；

通过所述第六点卷积层对所述最终融合特征图进行图像尺寸恢复和像素级分类，得到所述图像语义分割结果。

需要说明的是，所述多尺度特征融合解码器中，第一深度可分离卷积层、第二深度可分离卷积层、第五点卷积层和第六点卷积层的大小和/或通道数由本领域技术人员根据实际情况自行确定。

还需要说明的是，所述第六点卷积层的通道数与所述待检测图像经图像语义分割后可得到的目标类别的数量相同。本领域技术人员应当理解，所述轻量级神经网络模型在训练时所采用的训练集标注有目标类别标签，每个目标类别标签对应一类目标对象，这意味着所述第六点卷积层的通道数与训练集中标注的待识别目标类别标签的总量一致。

在一些示例中，所述目标类别包括但不限于汽车、指示牌、道路线、行人、自行车、建筑物、路牙。

在一些示例中，用于处理第一特征图的第一深度可分离卷积层所采用的卷积核大小为3×3；

在一些示例中，用于处理第一增强特征图的第二深度可分离卷积层所采用的卷积核大小为3×3；

在一些示例中，所述第五点卷积层为大小1×1、通道数64的标准卷积层；

在一些示例中，所述第六点卷积层为大小1×1的标准卷积层。

在一些示例中，所述上采样层中的上采样操作采用双线性插值上采样方法实现。

进一步地，所述多尺度特征融合解码器中，在将所述第一待解码特征图、所述第二待解码特征图和所述第三待解码特征图进行相加融合操作的过程中引入空间注意力机制，包括：

通过空间注意力模块1041对所述第一待解码特征图进行加权关注，得到空间注意力特征图；

将所述空间注意力特征图、所述第一待解码特征图、所述第二待解码特征图及所述第三最待解码特征图进行相加融合操作，得到所述最终融合特征图。

需要说明的是，上述实施例通过引入空间注意力机制对图像空间区域中的重要信息进行加权关注，对非重要信息进行抑制，在资源开销低的基础上有效地提升解码器对不同尺度物体的恢复精度，进而提升模型性能，提高图像语义分割结果的分割精度。

更进一步地，所述空间注意力模块1041包括第七点卷积层、单通道的第二三维卷积层、Sigmoid激活层和乘法加权层；

所述通过空间注意力模块1041对所述第一待解码特征图进行加权关注，包括：

将所述第一待解码特征图依次经过所述第七点卷积层和所述第二三维卷积层进行卷积处理，得到压缩空间信息特征图；

通过所述Sigmoid激活层对所述压缩空间信息特征图中的各个元素进行权重分配，得到空间注意力掩模图；

利用所述乘法加权层，对所述第一待解码特征图和所述空间注意力掩模图中的对应元素进行乘法加权，得到所述空间注意力特征图。

需要说明的是，所述空间注意力模块1041遵循空间注意力机制的一般范式；所述第七点卷积层和所述第二三维卷积层的大小和/或通道数由本领域技术人员根据实际情况自行确定。

在一些示例中，所述第七点卷积层为大小1×1、通道数64的标准卷积层；

在一些示例中，所述第二三维卷积层为大小3×3、通道数1的标准卷积层。

在一优选实施例中，所述初始化模块中，所述对所述待处理图像进行特征提取，具体为：将所述待处理图像依次经过至少三层第九标准卷积层处理，得到第一特征图。

在一优选实施例中，所述轻量级神经网络模型的训练策略包括：

构建初始的轻量级神经网络模型，采用网络参数初始化方法从头开始训练，并采用随机梯度下降(Stochastic Gradient Descent，SGD)优化器或Adam优化器作为优化策略；

所述训练策略还包括以下至少之一：

采用多项式衰减学习率策略；

在随机梯度下降优化器中嵌入在线困难样本挖掘(Online Hard ExampleMining，OHEM)机制；

对训练集中的图像进行预处理，所述预处理包括随机训练顺序、随机水平翻转、均值减法、随机缩放操作和/或随机裁剪。

本领域技术人员应当理解，神经网络模型需要经过训练优化后才可使用，其训练的终止条件可由本领域技术人员根据实际情况自行设定。

示范性地，本发明所述FUBNet的训练可在损失函数收敛至预设阈值时或者训练轮次达到预设值时终止。

在一些示例中，所述FUBNet在集成有CUDA 11.4和cuDNN V8的RTX 3090GPU上，基于Pytorch平台进行训练，训练过程中采用Cityscapes数据集和/或CamVid数据集作为训练集。

需要说明的是，该优选实施例中采用多项式衰减学习率策略可避免学习率的设置不合理。

作为非限制性示例，采用SGD优化器作为模型训练的优化策略，如果学习率过大容易导致梯度下降过大而出现损失抖动过大，而学习率过小梯度下降太慢也容易导致网络难以收敛，为避免这些问题，此时可以采用多项式衰减学习率策略；

在一具体实施过程中，采用Cityscapes数据集作为训练集，采用“poly”学习率衰减策略，其中初始学习率设置为4.5e-2，幂次为0.9。为了保证合适的动量衰减以在梯度下降过程中考虑对历史梯度信息的加权，动量和动量的权重衰减系数分别设置为0.9和1e-4。

作为非限制性示例，采用CamVid数据集作为训练集，采用Adam优化器作为模型训练的优化策略：对应的初始学习率和权重衰减系数分别设置为1e-3和1e-4；对于数据集采用的每批量大小为8，如果剩余图片数不足8则跳过该批次，并设置最多训练1000个轮次。

在一些示例中，采用的预处理操作包括随机缩放操作；其中随机缩放因子分别设置为{0.75，1.0，1.25，1.5，1.75，2.0}；

在一些示例中，采用的预处理操作包括随机裁剪，如对Cityscapes数据集中的图片数据随机裁剪成512×1024分辨率；抑或对CamVid数据集中的图片数据随机裁剪成720×960和360×480两种图像分辨率。

在一些示例中，采用的预处理操作包括随机训练顺序、随机水平翻转、均值减法和随机缩放操作。

还需要说明的是，OHEM机制可以被采取用来缓解训练过程中难易样本不平衡问题。

在一些示例中，还采用了类别加权方案以缓解数据集的类别不平衡问题。

实施例2

为验证本发明，本实例对实施例1所述方法进行了实验，具体如下：

(一)在Cityscapes数据集上评估空间分支配合不同语义分支的实验

采用Cityscapes数据集进行实验，在模型编码侧用同样的网络宽度和结构，以ResNet残差模块、DAB和FEB分别构建三种不同的语义分支，分别对不同语义分支在添加空间分支前后的实验结果进行记录如下：

表2基于不同特征增强层的语义分支配合空间分支的实验结果

如表2所示，可以看出，对于采用ResNet残差模块的语义分支，在添加空间分支以补充空间细节信息后，mIoU(平均交并比)提升了0.5％，Speed(前向推理速度)下降了23fps；对于采用DAB的语义分支，在添加空间分支后，整个模型的Params(权重参数量)增加了0.02M，Speed下降了11fps，但获得了0.6％mIoU的精度增益；对于采用FEB的语义分支，在添加空间分支后，在和DAB模块类似的代价下，获得了1.2％mIoU的精度增益。整体而言，空间分支对于不同网络带来的额外计算消耗是相似的，其提升精度的效果和模型编码侧的本身特性相关，在基于FEB模块的网络中效果最好。

(二)在Cityscapes数据集上评估FFD配合不同语义分支的实验

采用Cityscapes数据集进行实验，以ResNet残差模块、DAB和FEB分别构建三种不同的语义分支，分别对不同语义分支在采用FFD前后的实验结果进行记录如下：

表3基于不同特征增强层的语义分支配合FFD的实验结果

FFD是一个三分支解码器，其通道宽度由三个输入特征图的通道宽度决定，而且三个输入对应了模型编码侧三个阶段的输出，不同语义分支对应的FFD的网络宽度相同，换句话说，FFD带来的额外参数消耗是一样的，都是0.04M，如表3所示；此外，由于FFD的宽度相同，三个语义分支对应不同的FFD增加的额外处理时间也是一样的，表3中采用Speed指标衡量网络每秒钟处理图片的数量，可以看出，FFD引起的不同语义分支的速度变化是不一样的。基于ResNet残差模块的编码器加上FFD后，处理速度下降了40fps，DAB编码器下降17fps左右，FEB编码器下降14fps，本领域技术人员应当理解，这个速度代价是值得的，在增加FFD后，三个语义分支的精度提升分别是0.7％、0.6％和0.7％mIoU，尤其是基于FEB的语义分支在添加FFD后，达到了72.7％mIoU的分割精度，这对于实时语义分割任务来说是非常优秀的表现。总体来看，该实验表明了FFD具有良好的空间信息恢复能力，并且具有超轻量、高效等优点，因此非常适用于超轻量的实时语义分割场景。

(三)在Cityscapes和CamVid数据集上评估基于不同模型的图像语义分割方法的实验

分别采用Cityscapes数据集和CamVid数据集进行实验，对基于不同轻量级神经网络模型的图像语义分割方法进行实验，包括FUBNet、SegNet、ENet、SQNet、ESPNet、ESPNetV2、CGNet、EDANet、LEDNet、DABNet、ESNet、DFANet、MiniNet-v2、AGLNet、MSCFNet，实验结果记录如下：

表4不同模型的图像语义分割方法在Cityscapes数据集的实验结果比较

从表4可以看出，当输入图像分辨率为512×1024时，FUBNet在Cityscapes验证集上的mIoU高达72.7％，在所有网络模型中表现最佳；而在Cityscapes测试集上，FUBNet的mIoU达到了72.4％，也是最优效果。ENet和ESPNet是参数量最小的网络，二者的网络规模仅仅具有0.36M参数，比提出的FUBNet少0.21M，几乎只有其一半的网络规模，二者的mIoU分别比FUBNet低了10％以上。本领域技术人员应当理解，在实际应用场景下，对于已经少于1M的超轻量模型，0.21M的参数差距对于应用部署而言相差不大，而10％的mIoU差别则可以产生非常大的效果差异。对于一些和FUBNet规模相当的网络，如0.50M的CGNet和MiniNet-v2，由于网络规模增大带来的表达能力提升，它们取得更高的分割精度，但是仍然比FUBNet分别低了7.6％和1.9％的mIoU。对于更大一些的模型，如0.76M的DABNet和0.95M的LEDNet，FUBNet依然取得2.3％以上的精度优势。对于网络规模约为1M的网络，如AGLNet和MSCFNet等网络模型，它们取得了71％mIoU以上的分割精度，这类实时语义分割网络在精度和网络规模之间取得了一定的平衡，但是，FUBNet显然取得了更优秀的平衡。整体来看，FUBNet在计算复杂度和前向推理速度方面取得了中等水平的成绩，但在参数规模和精度方面则属于领先水平。这些结果表明，FUBNet实现了三个指标之间的一个新平衡点，并且在众多实时语义分割模型当中表现出色。

表5不同模型的图像语义分割方法在CamVid数据集上的实验结果比较

从表5可以看出，在CamVid数据集上，当输入分辨率为360×480时，FUBNet的mIoU比LEDNet高1.1％，而且网络规模仅为LEDNet的60％，相比于参数量最小的ENet和ESPNet，FUBNet的分割精度高出了10％以上；当图像输入分辨率为720×960时，FUBNet还可以达到高达71.3％mIoU的精度，比MiNiNet-v2和MSCFNet的精度分别高出了2.3％和2.0％mIoU。在计算量方面，FUBNet的FLOPs只有19.6GFLOPs，比大多数轻量级神经网络模型要低。对于一些如FPENet和ESPNet等低计算量网络，尽管这些网络在降低计算量方面取得了一定成效，但它们往往会在分割性能上有所牺牲。相比之下，FUBNet在平衡效率和精度方面的表现更加出色。总的来说，即使在CamVid数据集上，FUBNet依然表现优秀，不仅在效率上可以和现有的多数实时语义分割相媲美，而且取得了更高的分割精度，其优异的性能表现能够为实际应用场景提供更高的分割质量保障。

(四)在视觉方面评估基于不同模型的图像语义分割方法得到的分割结果采用Cityscapes数据集进行实验，对基于不同图像语义分割模型的图像语义分割方法进行实验，包括FUBNet、LEDNet、ERFNet、DABNet，得到的图像语义分割结果如图6所示；其中，方框框出部分为基于不同轻量级神经网络得到图像语义分割结果的差异部分。

可以看出，在图6中第一列图片，方框圈出部分为远处的草坪，这是一个极小的目标，图像中提供的像素信息十分有限。对于这个草丛部分，FUBNet在该对应的位置识别出并能够比较完整地呈现了出来，而其他网络要么没有识别出该部分，要么识别的面积很小，说明FUBNet具有较强的对小尺度物体的识别能力。第二列图片主要观察不同轻量级神经网络模型对于真实类别的辨别能力，方框框出的是一个公交车和小车的重叠区域。前两个轻量级神经网络模型均出现了公交车识别成小车或者卡车的问题和小车识别成公交车的问题，这是由于大感受野内的信息过于复杂，正确分割的难度大；LEDNet对于目标中心分割正确率较高，但其对于小车的轮廓分割严重失真；FUBNet则是对于两个车有不错的辨别效果，只是小车的轮廓稍微失真。第三列图的目标是形状比较简单的墙，所有网络均出现了墙中分类为草坪的分类错误现象，而且边界也出现一些不理想的情况，而FUBNet表现依旧比较突出。第四列图中标出的物体是栅栏，其目标较小，又被遮挡，十分容易被误判，只有LEDNet和FUBNet能比较正确和完整地识别出来。第五列图是一个完整的指示牌，该物体包括三角形的指示牌以及配套的细长杆子；其中，ERFNet分割出来的三角形指示牌效果最差；DABNet和LEDNet分割出比较完整的三角形指示牌，却都没处理好指示牌配套的杆子；而FUBNet能够完整地分割出整体的指示牌和杆子。

整体来看，FUBNet具有优秀的精度、准确率和推理速度，说明基于FUBNet的图像语义分割方法可以在保证实时性和轻量化的同时保证分割精度。

实施例3

本实施例提出一种图像语义分割***，参阅图7，应用实施例1所述图像语义分割方法，包括：

接收单元，用于获取待处理图像；

所述轻量级神经网络模型包括：

空间分支，用于提取所述第一特征图的空间信息；

可以理解，本实施例的***对应于上述实施例1的方法，上述实施例1中的可选项同样适用于本实施例，故在此不再重复描述。

优选地，所述图像语义分割***配置有图2所示的神经网络模型。

实施例4

本实施例提出一种计算机可读存储介质，所述存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，使得所述处理器执行实施例1中所述方法的部分或全部步骤。

可以理解，所述存储介质可以是瞬时性的，也可以是非瞬时性的。示范性地，所述存储介质包括但不限于U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机访问存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

示范性地，所述处理器可以为中央处理器(Central Processing Unit，CPU)、微处理器(Microprocessor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

在一些示例中提供一种计算机程序产品，具体可以通过硬件、软件或其结合的方式实现。作为非限制性示例，所述计算机程序产品可以体现为所述存储介质，还可以体现为软件产品，例如SDK(Software Development Kit，软件开发包)等。

在一些示例中提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现所述方法中的部分或全部步骤。

本实施例还提出一种电子设备，包括存储器和处理器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述处理器执行所述至少一条指令、至少一段程序、代码集或指令集时实现如实施例1中所述方法的部分或全部步骤。

在一些示例中提供一种所述电子设备的硬件实体，包括：处理器、存储器和通信接口；其中，所述处理器通常控制所述电子设备的总体操作；所述通信接口用于使所述电子设备通过网络与其他终端或服务器通信；所述存储器配置为存储由处理器可执行的指令和应用，还可以缓存待处理器以及电子设备中各模块待处理或已经处理的数据(包括但不限于图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(RAM，Random Access Memory)实现。

进一步地，处理器、通信接口和存储器之间可以通过总线进行数据传输，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。

可以理解，上述实施例1中的可选项同样适用于本实施例，故在此不再重复描述。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。应理解，在本公开的各种实施例中，上述各步骤/过程的序号的大小并不意味着执行顺序的先后，各步骤/过程的执行顺序应以其功能和内在逻辑确定，而不应对实施例的实施过程构成任何限定。还应理解，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于轻量级神经网络模型的图像语义分割方法，其特征在于，所述轻量级神经网络模型包括初始化模块、空间分支、语义分支和多尺度特征融合解码器；

所述图像语义分割方法包括：

基于所述空间分支提取所述第一特征图的空间信息；

2.根据权利要求1所述的一种基于轻量级神经网络模型的图像语义分割方法，其特征在于，所述空间分支包括第一空间分支和第二空间分支；所述基于所述空间分支提取所述第一特征图的空间信息，包括：

基于所述第一空间分支，得到关于所述第一特征图的第一空间信息压缩特征图；

基于所述第二空间分支，得到关于所述第一特征图的第二空间信息压缩特征图；

所述语义分支包括第一语义分支、第一叠加器、第二语义分支和第二叠加器；所述基于所述语义分支提取所述第一特征图的多尺度特征信息，并融合所述多尺度特征信息和所述空间信息，包括：

基于所述第一语义分支，对所述第一特征图进行语义特征提取，得到第一尺度语义特征图；

基于所述第二语义分支，对所述第一增强特征图进行语义特征提取，得到第二尺度语义特征图；

3.根据权利要求2所述的一种基于轻量级神经网络模型的图像语义分割方法，其特征在于，所述第一空间分支包括第一多通道卷积层和第一单通道卷积层；所述第二空间分支包括第二多通道卷积层和第二单通道卷积层；

所述基于所述第一空间分支，得到关于所述第一特征图的第一空间信息压缩特征图，包括：

以及，所述基于所述第二空间分支，得到关于所述第一特征图的第二空间信息压缩特征图，包括：

4.根据权利要求2所述的一种基于轻量级神经网络模型的图像语义分割方法，其特征在于，所述第一语义分支与所述第二语义分支均包括依次连接的下采样层、若干个特征增强层、拼接层和点卷积层；所述下采样层的输出端还与所述拼接层的输入端连接，用于将不同深度的特征图信息进行融合；

所述基于所述第一语义分支，对所述第一特征图进行语义特征提取，得到第一尺度语义特征图，包括：

以及，所述基于所述第二语义分支，对所述第一增强特征图进行语义特征提取，得到第二尺度语义特征图，包括：

利用拼接层对所述第二下采样特征图和所述第二尺度特征图进行拼接融合操作，并通过一个点卷积层对拼接层输出的特征图的各个通道信息进行融合和通道压缩，得到所述第二尺度语义特征图。

5.根据权利要求4所述的一种基于轻量级神经网络模型的图像语义分割方法，其特征在于，所述特征增强层包括DAB模块、FEB模块和ResNet残差模块中的至少之一；

其中，所述FEB模块包括：

深度空洞卷积层，用于利用独立的二维卷积核并根据预设的空洞率，分别对所述通道压缩特征图的各个通道进行深度卷积操作，得到深度空洞特征图；

第一融合层，用于将所述通道压缩特征图、所述第二深度特征图与所述深度空洞特征图的对应元素值进行相加，得到第一语义特征融合特征图；

第二融合层，用于将输入所述第一深度卷积层的特征图，与所述第二组合特征图的对应元素进行相加，得到当前特征增强层输出的基础特征图。

6.根据权利要求4所述的一种基于轻量级神经网络模型的图像语义分割方法，其特征在于，所述第一语义分支与所述第二语义分支中的所述特征增强层的数量不同；以及，所述第一语义分支和所述第二语义分支中，各个特征增强层的特征图的空间尺寸和通道数相同。

7.根据权利要求2所述的一种基于轻量级神经网络模型的图像语义分割方法，其特征在于，所述多尺度特征融合解码器包括第一深度可分离卷积层、第二深度可分离卷积层、第五点卷积层、上采样层和第六点卷积层；

8.根据权利要求7所述的一种基于轻量级神经网络模型的图像语义分割方法，其特征在于，所述多尺度特征融合解码器中，在将所述第一待解码特征图、所述第二待解码特征图和所述第三待解码特征图进行相加融合操作的过程中引入空间注意力机制，包括：

通过空间注意力模块对所述第一待解码特征图进行加权关注，得到空间注意力特征图；

9.根据权利要求8所述的一种基于轻量级神经网络模型的图像语义分割方法，其特征在于，所述空间注意力模块包括第七点卷积层、单通道的第二三维卷积层、Sigmoid激活层和乘法加权层；

所述通过空间注意力模块对所述第一待解码特征图进行加权关注，包括：

10.一种图像语义分割***，应用权利要求1-9任一项所述的基于轻量级神经网络模型的图像语义分割方法，其特征在于，包括：

接收单元，用于获取待处理图像；

处理单元，用于搭载轻量级神经网络模型；还用于对所述待处理图像进行处理，得到图像语义分割结果；其中，所述轻量级神经网络模型包括：

空间分支，用于提取所述第一特征图的空间信息；