CN116884005B

CN116884005B - 一种结合卷积网络与图特征的快速语义分割方法与***

Info

Publication number: CN116884005B
Application number: CN202311158791.6A
Authority: CN
Inventors: 夏雪; 尤佳榆; 鄢杰斌; 方玉明
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-11-07
Anticipated expiration: 2043-09-08
Also published as: CN116884005A

Abstract

本发明提出一种结合卷积网络与图特征的快速语义分割方法与***，该方法包括：获取彩色自然图像，以彩色自然图像作为输入；基于空洞卷积构建主干网络，提取彩色自然图像的不同层级基础语义内容；自适应地融合不同层级的基础语义内容，以获得带有全局注意力的融合语义内容；利用融合语义内容建模语义特征图的节点关系与通道关系，分别获得基于节点关系的图语义与基于通道关系的空间语义；将空间语义与图语义聚合为类别特征图，将类别特征图上采样为语义类别图，以语义类别图作为最终的语义分割结果。本发明通过基于空洞卷积构建主干网络，以达到轻量化目的，再捕获空间语义信息和全局上下文信息提高分割精度，在降低参数量的同时达到较优的精度。

Description

一种结合卷积网络与图特征的快速语义分割方法与***

技术领域

本发明涉及深度学习与计算机视觉分析领域，特别涉及一种结合卷积网络与图特征的快速语义分割方法与***。

背景技术

为了确保语义分割结果能够支持下游任务，比如场景理解和自动驾驶，分割的准确性是至关重要的，且近年来，语义分割模型在移动设备上的应用需求在迅速增加。然而许多精心设计的语义分割模型需要大量的可学习参数或矩阵乘法运算来获得先进的性能，这会带来较高的计算消耗。如果这些语义分割过程花费太多时间在计算掩码或在内存中存储参数上，很可能会阻碍这些任务的实际应用。

目前现有的语义分割方法中，大多数精度高的网络都存在参数量过大的问题，因此在移动设备上高效运行是当前语义分割任务面临的主要挑战之一。

基于卷积的神经网络能很好的捕获局部信息，但无法直接获取长距离信息。使用自注意力机制的方法可以有效解决这个问题，因此将卷积与注意力机制相结合能够较好的融合局部信息与全局上下文信息，但是自注意力机制的计算量较大，会使得模型的参数量骤增，影响其可用性。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种结合卷积网络与图特征的快速语义分割方法与***，以解决上述技术问题。

本发明提供了一种结合卷积网络与图特征的快速语义分割方法，所述方法包括如下步骤：

步骤1、获取彩色自然图像，以彩色自然图像作为输入；

步骤2、基于空洞卷积构建主干网络，提取彩色自然图像的不同层级基础语义内容；

步骤3、自适应地融合不同层级的基础语义内容，以获得带有全局注意力的融合语义内容；

步骤4、利用融合语义内容建模语义特征图的节点关系与通道关系，从而分别获得基于节点关系的图语义与基于通道关系的空间语义；

步骤5、将空间语义与图语义聚合为类别特征图，将类别特征图上采样为语义类别图，以语义类别图作为最终的语义分割结果。

在本发明通过使用基于空洞卷积的内容提取模块获得基础语义内容达到轻量化目的，再通过捕获空间语义信息和全局上下文信息提高分割精度，以解决现有大模型高精度但参数量过大的问题，在降低参数量的同时达到较优的精度。

本发明还提出一种结合卷积网络与图特征的快速语义分割***，所述***包括：

内容提取模块，用于获取彩色自然图像，以彩色自然图像作为输入，基于空洞卷积构建主干网络，提取彩色自然图像的不同层级基础语义内容：

层级内容融合模块，用于自适应地融合不同层级的基础语义内容，以获得带有全局注意力的融合语义内容；

自注意力头部模块，用于利用融合语义内容建模语义特征图的节点关系与通道关系，从而分别获得基于节点关系的图语义与基于通道关系的空间语义；

语义类别输出模块，用于将空间语义与图语义聚合为类别特征图，将类别特征图上采样为语义类别图，以语义类别图作为最终的语义分割结果。

与目前的语义分割网络相比，本发明的有益效果主要在于：

本发明基于深度学习技术、注意力机制与图结构；所设计的基于轻量注意力的层级内容融合模块能够在不增加太多参数量的前提下，提取出网络中不同层级的特征去捕获长距离信息和全局上下文信息，融合低层级特征内容以最大化进行信息复用；并且能够通过图结构建模出特征图的节点关系，通过注意力结构建模出通道关系，获取较为复杂的空间信息；将所获得的图语义与网络深层级特征图相融合，辅助形成最终的语义类别图。经对比实验验证，本发明在语义分割任务上都有良好表现，并且可为场景分析、自动驾驶、看图说话等下游应用任务提供图像内容线索。

本发明的附加方面与优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的一种结合卷积网络与图特征的快速语义分割方法的流程图；

图2为本发明一种结合卷积网络与图特征的快速语义分割方法的总体架构图；

图3为本发明自注意力头部模块的结构图；

图4为本发明提出的一种结合卷积网络与图特征的快速语义分割***的框架图；

图中，表示逐元素相乘，/>表示逐元素相加。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。

请参阅图1至图3，本发明实施例提供了一种结合卷积网络与图特征的快速语义分割方法，所述方法包括如下步骤：

步骤1、获取彩色自然图像，以彩色自然图像作为输入；

本实施例中采用PASCAL-Person-Part数据集作为训练图像输入到网络中，所有图像都为固定尺寸。

在上述方案中，采用了一种轻量级主干网络以提取输入图像不同层级的基础语义内容；主干网络包括27层卷积层，主干网络的浅层包括有3层普通卷积层和4层空洞卷积层，其中第7层输出浅层级特征，主干网络的中层包括有9层空洞卷积层，其中第12层和第17层分别输出中层级特征/>和中层级特征/>，主干网络的深层包括有10层空洞卷积层，其中第23层和第27层分为输出高层级特征/>和高层级特征/>，浅层级特征/>、中层级特征/>、中层级特征/>、高层级特征/>和高层级特征/>构成多层级基础语义内容。

进一步的，本步骤的具体方法如下：

将中层级特征、中层级特征/>与高层级特征/>进行注意力计算，得到全局注意力，全局注意力存在如下关系式：

；

其中，、/>、/>表示分别作用于/>、/>、/>的卷积层，且卷积层的输出与通道相等，/>表示张量转置，/>表示沿着特征通道的归一化操作，/>代表融合不同层级基础语义的全局注意力；

将全局注意力与浅层级特征/>融合并进行卷积，将卷积结果与高层级特征融合，得到带有全局注意力的融合语义内容/>，带有全局注意力的融合语义内容/>存在如下关系式：

；

其中，表示大小为1x1的卷积层，且输出通道数与高层级特征/>通道数相等。

利用融合语义内容建模语义特征图的节点关系与通道关系，从而分别获得基于节点关系的图语义与基于通道关系的空间语义的方法具体包括如下步骤：

利用图卷积操作提取带有全局注意力的融合语义内容的节点关系，获取节点关系的过程存在如下关系式：

；

其中，表示邻接矩阵，/>表示图卷积参数，且邻接矩阵/>与图卷积参数/>通过学***滑的单位矩阵，/>表示/>归一化操作，图特征的图结构构建方法存在如下关系式：

；

其中，是特征变换的卷积层，/>表示包含所有节点信息的图特征；

利用节点关系获取基于节点关系的图语义，基于节点关系的图语义获取过程存在如下关系式：

；

其中，表示基于节点关系的图语义特征计算，/>表示本路径所输出的基于节点关系的图语义；

对融合语义内容进行降维，以减少计算量，获得降维语义内容，根据降维语义内容，采用自注意力的方式计算全局通道注意力，进而获取通道关系，计算全局通道注意力过程存如下关系式：

；

其中，表示降维语义内容，/>和/>分别表示不同的卷积层，/>表示通道关系，降维语义内容存在如下关系式：

；

其中，表示特征降维操作，/>表示降维语义内容；

根据通道关系，获取基于通道关系的空间语义，获取基于通道关系的空间语义过程存在如下关系式：

；

其中，表示卷积层，/>表示本路径输出的基于通道关系的空间语义。

将空间语义与图语义聚合为类别特征图，将类别特征图上采样为语义类别图，以语义类别图作为最终的语义分割结果，语义类别图生成过程存在如下关系式：

；

其中，表示聚合后的语义类别图；/>表示上采样层，/>表示上采样后的语义类别图，即为语义分割结果。

在上述方案中，上采样层包括卷积层与双线性插值操作，卷积层的输出通道数量等于语义类别数。

请参阅图4，本发明实施例还提供了一种结合卷积网络与图特征的快速语义分割***，所述***包括：

为了证明本发明相较于现有技术具备优异的性能，本实施例中将本发明与现有模型进行测试对比，本次测试采用两种数据集，测试结果如表1所示，其中，测试集1为PASCAL-Person-Part数据集，测试集2为Cityscapes数据集。评价指标分别为参数量与平均分割交并比(mIoU: Mean Intersectio over Union)。其中前者为计算模型量级的指标，参数值小代表网络更轻；后者为对应类别成分分割准确度指标，体现模型定位与识别的精确度，值越大代表模型分割性能越好。

表1 本发明与现有技术测试对比实例

为了证明本发明各模块的有效性，将本发明不同模块拆分后在Cityscapes数据集上测试，结果如表2所示，评价指标为平均分割交并比。

在表2中，主干网络部分为本发明基于空洞卷积构建的27层卷积层的主干网络；+层级内容融合模块则表示在主干网络基础上增加层级内容融合模块，以自适应融合不同层级的基础语义内容；+自注意力头部模块表示在增加层级内容融合模块部分的基础上进一步增加自注意力头部模块，以获取图语义与空间语义。

表2 本发明的评价指标

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种结合卷积网络与图特征的快速语义分割方法，其特征在于，所述方法包括如下步骤：

步骤1、获取彩色自然图像，以彩色自然图像作为输入；

2.根据权利要求1所述的一种结合卷积网络与图特征的快速语义分割方法，其特征在于，在所述步骤2中，主干网络包括27层卷积层，主干网络的浅层包括有3层普通卷积层和4层空洞卷积层，其中第7层输出浅层级特征，主干网络的中层包括有9层空洞卷积层，其中第12层和第17层分别输出中层级特征/>和中层级特征/>，主干网络的深层包括有10层空洞卷积层，其中第23层和第27层分为输出高层级特征/>和高层级特征/>，浅层级特征/>、中层级特征/>、中层级特征/>、高层级特征/>和高层级特征/>构成多层级基础语义内容。

3.根据权利要求2所述的一种结合卷积网络与图特征的快速语义分割方法，其特征在于，在所述步骤3中，自适应地融合不同层级的基础语义内容，以获得带有全局注意力的融合语义内容的方法具体包括如下步骤：

；

将全局注意力与浅层级特征/>融合并进行卷积，将卷积结果与高层级特征/>融合，得到带有全局注意力的融合语义内容/>，带有全局注意力的融合语义内容/>存在如下关系式：

；

其中，表示大小为 1x1 的卷积层，且输出通道数与高层级特征/>通道数相等。

4.根据权利要求3所述的一种结合卷积网络与图特征的快速语义分割方法，其特征在于，在所述步骤4中，利用融合语义内容建模语义特征图的节点关系与通道关系，从而分别获得基于节点关系的图语义与基于通道关系的空间语义的方法具体包括如下步骤：

；

其中，表示邻接矩阵，/>表示图卷积参数，且邻接矩阵/>与图卷积参数/>通过学***滑的单位矩阵，/>表示/>归一化操作；

；

对融合语义内容进行降维，获得降维语义内容，根据降维语义内容，采用自注意力的方式计算全局通道注意力，进而获取通道关系，计算全局通道注意力过程存如下关系式：

；

其中，表示降维语义内容，/>和/>分别表示不同的卷积层，/>表示通道关系；

；

5.根据权利要求4所述的一种结合卷积网络与图特征的快速语义分割方法，其特征在于，图特征的图结构构建方法存在如下关系式：

；

其中，是特征变换的卷积层，/>表示包含所有节点信息的图特征。

6.根据权利要求5所述的一种结合卷积网络与图特征的快速语义分割方法，其特征在于，降维语义内容存在如下关系式：

；

其中，表示特征降维操作，/>表示降维语义内容。

7.根据权利要求6所述的一种结合卷积网络与图特征的快速语义分割方法，其特征在于，在所述步骤5中，将空间语义与图语义聚合为类别特征图，将类别特征图上采样为语义类别图，以语义类别图作为最终的语义分割结果，语义类别图生成过程存在如下关系式：

；

8.根据权利要求7所述的一种结合卷积网络与图特征的快速语义分割方法，其特征在于，上采样层包括卷积层与双线性插值操作，卷积层的输出通道数量等于语义类别数。

9.一种结合卷积网络与图特征的快速语义分割***，其特征在于，所述***应用如上述权利要求1至8任意一项所述的一种结合卷积网络与图特征的快速语义分割方法，所述***包括：