CN111444923A

CN111444923A - 自然场景下图像语义分割方法和装置

Info

Publication number: CN111444923A
Application number: CN202010286607.6A
Authority: CN
Inventors: 李硕豪; 张军; 何华; 周浩; 王风雷
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-07-24

Abstract

本申请涉及一种自然场景下图像语义分割方法和装置。所述方法包括：通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵，通过池化层分别计算初步特征矩阵感受野中像素的最大值和平均值，根据最大值和平均值的差异信息，得到初步特征矩阵的边缘梯度特征，根据边缘梯度特征和初步特征矩阵，得到融合特征，并且根据预先设置的深度残差网络对融合特征进行特征融合与提取，得到深度特征，建立深度特征中各个像素之间的长依赖关系，得到依赖特征图，通过输出层对依赖特征图进行分类，得到每个像素所对应的分类。采用本方法能够提高图像语义分割的准确率。

Description

自然场景下图像语义分割方法和装置

技术领域

本申请涉及机器学习技术领域，特别是涉及一种自然场景下图像语义分割方法和装置。

背景技术

与高级计算机视觉的图像级处理不同，图像语义分割是低级计算机视觉中的基础和难点。属于像素级图像处理，图像分割将每个像素划分为特定的语义标签。它可以使计算机方便地了解场景并准确地找到相应的对象位置。图像语义分割在计算机视觉和人工智能领域，如自动驾驶、机器人环境感知和医院图像测量中扮演着重要的角色。

在现有的图像语义分割技术中，主要通过深度卷积网络(DCNNs)来提取图像的特征和像素的分类，但是深度卷积网络不仅会降低图像中目标对象的特征分辨率和定位精度，并且在目标对象具有不同的尺度的情况下通常会导致部分部件的丢失。因此，图像语义分割的主流解决方案是增加特征分辨率。通过对现有模型的分析，目标边缘，边界的清晰度会极大的影响图像分割结果。在DCNNs的结构中，目标边界精度主要受两个因素的影响。一方面，在卷积层和池化层中通过下采样降低特征映射的空间分辨率，导致边界模糊和偏移。另一方面，对象的多尺度可能导致大的对象部件丢失而小的对象分类错误等一系列问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决深度卷积网络进行图像语义分割不准确问题的自然场景下图像语义分割方法和装置。

一种自然场景下图像语义分割方法方法，所述方法包括：

通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵；

通过池化层分别计算所述初步特征矩阵感受野中像素的最大值和平均值，根据所述最大值和所述平均值的差异信息，得到所述初步特征矩阵的边缘梯度特征；

根据所述边缘梯度特征和所述初步特征矩阵，得到融合特征，并且根据预先设置的深度残差网络对所述融合特征进行特征融合与提取，得到深度特征；

建立所述深度特征中各个像素之间的长依赖关系，得到依赖特征图；

通过输出层对所述依赖特征图进行分类，得到每个像素所对应的分类。

在其中一个实施例中，还包括：通过卷积神经网络的卷积层对预设尺寸的待语义分割图像进行特征提取，并且通过批量标准化层处理之后，得到目标尺寸的初步特征矩阵。

在其中一个实施例中，还包括：通过最大池化层计算感受野中像素的最大值，通过平均池化层计算感受野中像素的平均值。

在其中一个实施例中，还包括：通过Eltwise层计算所述最大值和所述平均值的差值，得到所述差异信息，根据所述差异信息得到边缘梯度特征；通过设置的Eltwise层的参数，将所述边缘梯度特征和所述初步特征矩阵进行融合，得到融合特征。

在其中一个实施例中，还包括：分别通过金字塔池化层和孔卷积金字塔层建立所述深度特征中各个像素之间的长依赖关系，得到依赖特征图。

在其中一个实施例中，还包括：通过金字塔池化层获取多级池化输出，采用双线性插值对所述多级池化输出进行采样，得到与所述深度特征相同大小的二维特征矩阵；将所述二维特征矩阵进行融合，得到先验特征，将所述先验特征与所述深度特征进行融合，得到融合特征图；将所述融合特征图输入所述孔卷积金字塔层，得到与所述深度特征相同大小的多个孔特征矩阵；所述孔卷积金字塔层包括多个卷积核相同，且卷积核间隔不同的池化层；采用双线性插值对所述孔特征矩阵进行采样，得到依赖特征图。

在其中一个实施例中，还包括：通过softmax层对所述依赖特征图进行分类，得到每个像素所对应的分类。

一种自然场景下图像语义分割装置，所述装置包括：

初步特征提取模块，用于通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵；

边缘特征提取模块，用于通过池化层分别计算所述初步特征矩阵感受野中像素的最大值和平均值，根据所述最大值和所述平均值的差异信息，得到所述初步特征矩阵的边缘梯度特征；

深度特征提取模块，用于根据所述边缘梯度特征和所述初步特征矩阵，得到融合特征，并且根据预先设置的深度残差网络对所述融合特征进行特征融合与提取，得到深度特征；

依赖建立模块，用于建立所述深度特征中各个像素之间的长依赖关系，得到依赖特征图；

分类模块，用于通过输出层对所述依赖特征图进行分类，得到每个像素所对应的分类。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述自然场景下图像语义分割方法、装置、计算机设备和存储介质，通过将深度神经网络、边缘梯度理论和长距离依赖原理相结合，当输入图像到深度神经网络时，可以直接得出最终的图像语义分割结果。因此，本发明能实现端对端的图像语义分割，并能够对图像中特定对象的边缘进行更加精确的判别，同时能够克服对象多尺度问题的影响，对图像中大的对象和小的对象都能够实现更好的分割。

附图说明

图1为一个实施例中自然场景下图像语义分割方法的流程示意图；

图2为一个实施例中边缘梯度特征提取的设计框架图；

图3为另一个实施例中全连接条件随机场和孔卷积金字塔层的关系示意图；

图4为一个实施例中金字塔池化层和孔卷积金字塔层的长距离依赖的设计框架图；

图5为一个实施例中自然场景下图像语义分割方法的总体流程图；

图6为一个实施例中自然场景下图像语义分割装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种自然场景下图像语义分割方法，包括以下步骤：

步骤102，通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵。

卷积层是卷积神经网络中的一层，通过卷积层可以对实现对待语义分割图像进行采样。

待语义分割图像可以是自然场景下的图片，例如通过手机、相机等拍摄的照片，又或者是艺术家通过手绘并存储在计算机设备中的图片。待语义分割图像可以是彩色图像又可以是灰度图片。

初步特征矩阵中包含了待语义分割图像中的初步信息，暂不能通过初步特征矩阵确定像素的所属分类。

步骤104，通过池化层分别计算初步特征矩阵感受野中像素的最大值和平均值，根据最大值和平均值的差异信息，得到初步特征矩阵的边缘梯度特征。

感受野指的是池化层中卷积核大小覆盖的像素区域，例如：卷积核为2×2，则感受野中包括4个像素。通过不同的池化层，可以获得初步特征矩阵感受野中像素的最大值和平均值。

以上述卷积核为2×2为例，通过池化层模拟Roberts算子，实现对特征的边缘梯度提取。Roberts算子的梯度计算如下：

其中G表示梯度。感受野中的像素值为a₁₁,a₁₂,a₂₁,a₂₂，假设a₁₁≥a₂₂,a₁₂≥a₂₁，将四个像素值代入Roberts算子梯度公式后，可以将梯度公式表示为：

其中，a_max＝max(a₁₁,a₁₂,a₂₁,a₂₂)，a_mean＝mean(a₁₁,a₁₂,a₂₁,a₂₂)，从推导中可以发现，梯度可以通过感受野中像素最大值和平均值的差异进行计算。当梯度G(x,y)较小时，感受野中的最大值和平均值差值较小，表明这些像素值相似，并且该区域中边缘的可能性较小。当梯度G(x,y)较大时，感受野中的最大值和平均值差值较大，表明这些像素值的变化很大，并且该区域中存在边缘的概率很高。因此，像素之间的梯度可以由感受野中统计的最大值和平均值代替。这样的优点是可以检测每个方向的边缘，而不仅仅是Roberts算子中的垂直方向。

步骤106，根据边缘梯度特征和所述初步特征矩阵，得到融合特征，并且根据预先设置的深度残差网络对所述融合特征进行特征融合与提取，得到深度特征。

深度残差网络可以通过ResNet结构的网络实现，通过融合与提取，可以进一步将深度特征的尺寸减小。

步骤108，建立深度特征中各个像素之间的长依赖关系，得到依赖特征图。

长依赖关系指的是各个像素的内在联系，通过建立像素之间的依赖，可以进一步提升像素分类的准确性。

步骤110，通过输出层对依赖特征图进行分类，得到每个像素所对应的分类。

上述自然场景下图像语义分割方法中，通过将深度神经网络、边缘梯度理论和长距离依赖原理相结合，当输入图像到深度神经网络时，可以直接得出最终的图像语义分割结果。因此，本发明能实现端对端的图像语义分割，并能够对图像中特定对象的边缘进行更加精确的判别，同时能够克服对象多尺度问题的影响，对图像中大的对象和小的对象都能够实现更好的分割。

在其中一个实施例中，通过卷积神经网络的卷积层对预设尺寸的待语义分割图像进行特征提取，并且通过批量标准化层处理之后，得到目标尺寸的初步特征矩阵。

具体的，在接收到待语义分割图像之后，将待语义分割图像转化为预设尺寸，例如：预设尺寸设置为321×321，然后一层卷积层和一层批量标准化层对输入图像进行特征提取。例如：设置卷积层的参数为卷积核大小设置为7、滑动间隔设置为2和扩充大小设置为3，则得到的初步矩阵大小为161×161。其中，批量标准化层的目的是调整中间结果数据的分布，没有参数。

在其中一个实施例中，通过最大池化层计算感受野中像素的最大值，通过平均池化层计算感受野中像素的平均值。

本实施例中，可以采用DCNN模型中的最大池化层和平均池化层来完成计算。

在其中一个实施例中，通过Eltwise层计算最大值和平均值的差值，得到差异信息，根据差异信息得到边缘梯度特征，通过设置的Eltwise层的参数，将边缘梯度特征和初步特征矩阵进行融合，得到融合特征。

本实施例中，Eltwise层的操作包括：product(点乘)，sum(相加减)和max(取大值)。因此，在计算得到最大值和平均值之后，可以通过Eltwise层完成差异信息的计算。

具体的，如图2所示，最大池化层和平均池化层的尺寸大小为2×2，滑动间隔设置为1，Eltwise层的两个参数分别设置为2和-1，表示在初步外观特征的基础上额外的增加图像中的边缘梯度特征作为补充，最后通过一个卷积层将初步外观特征和边缘特征进行融合。

在得到融合特征之后，还需要对融合特征进行进一步融合和提取，得到深度特征，具体可以通过深度残差网络实现。

具体的，深度残差网络采用常用的部分深度残差网络ResNet，部分深度残差网络ResNet的结构从输入到输出依次为：(卷积层1，批量标准化层1，Scale层1，Relu层1，卷积层2，批量标准化层2，Scale层2，Relu层2，卷积层3，批量标准化层3，Scale层3，Eltwise层1，Relu层3)×3，其中三个卷积层的卷积核大小分别为：1×1×64，3×3×64，1×1×256；(卷积层4，批量标准化层4，Scale层4，Relu层4，卷积层5，批量标准化层5，Scale层5，Relu层5，卷积层6，批量标准化层6，Scale层6，Eltwise层6，Relu层6)×4，其中三个卷积层的卷积核大小分别为：1×1×128，3×3×128，1×1×512；(卷积层7，批量标准化层7，Scale层7，Relu层7，卷积层8，批量标准化层8，Scale层8，Relu层8，卷积层9，批量标准化层9，Scale层9，Eltwise层9，Relu层9)×6，其中三个卷积层的卷积核大小分别为：1×1×256，3×3×256，1×1×1024；(卷积层10，批量标准化层10，Scale层10，Relu层10，卷积层11，批量标准化层11，Scale层11，Relu层11，卷积层12，批量标准化层12，Scale层12，Eltwise层12，Relu层12)×3，其中三个卷积层的卷积核大小分别为：1×1×512，3×3×512，1×1×2048。特征在输入到ResNet部分结构之前的分辨率为161×161，在ResNet部分结构的特征融合和精炼之后获得的特征分辨率大小为41×41。值得说明的是，上述具体数值是在融合特征大小为161×161，深度特征的目标尺寸为41×41而设置的，不代表本发明仅有这一种设置方式，在融合特征小和目标尺寸任一发生改变，参数的设置也随之发生改变。

在其中一个实施例中，分别通过金字塔池化层和孔卷积金字塔层建立深度特征中各个像素之间的长依赖关系，得到依赖特征图。

金字塔池化层中包括多级池化层，每一级的卷积核不同，孔卷积金字塔层包括多个卷积层，每一层卷积核大小相同，但是卷积核间隔不同，如图3所示。

在另一个实施例中，通过金字塔池化层获取多级池化输出，采用双线性插值对多级池化输出进行采样，得到与深度特征相同大小的二维特征矩阵，将二维特征矩阵进行融合，得到先验特征，将先验特征与深度特征进行融合，得到融合特征图，将融合特征图输入孔卷积金字塔层，得到与深度特征相同大小的多个孔特征矩阵，孔卷积金字塔层包括多个卷积核相同，且卷积核间隔不同的池化层，采用双线性插值对孔特征矩阵进行采样，得到依赖特征图。

本实施例中，本发明利用金字塔池化层和空卷积金字塔层组合形成一个简化版的全连接条件随机场，通过建立各个节点之间的长距离依赖来解决对象的多尺度问题和对象各部分之间的上下文建模。金字塔池化层模块采用平均池化获得分层的全局先验，并将多个局部上下文信息与全局上下文信息相结合，求解多尺度对象问题。孔卷积金字塔层可以对各个节点之间的关系进行建模，建立节点之间的长距离依赖，从而实现对对象中各部分之间关系的结构化建模。条件随机场的能量函数E_centre如下：

其中Φ表示势函数，

表示一元势函数，

表示二元势函数。而在本发明中，通过金字塔池化层和孔卷积金字塔层的组合，也能够对各节点之间建立长距离依赖连接。孔卷积金字塔层(卷积核：3×3；孔设置为r)的势函数F^(r)可以表示为：

因此，金字塔池化层和孔卷积金字塔层的能量函数E_centre可以表示为：

以深度特征的尺寸为41×41为例进行说明，如图4所示，基于以上推导，该发明在DCNN的最后一个特征图之后添加了金字塔池化层，它由四个平均池化层组成，其核大小分别为1，2，4，5，四个平均池化层的输出分别为41×41，21×21，11×11和9×9。然后利用双线性插值对这四级输出分别进行上采样，并获得四个分辨率为41×41的二维特征矩阵，以融合为全局先验，并将它们与输入特征矩阵连接起来。接下来，通过孔卷积金字塔层对对象中各部分之间关系的结构化建模。孔卷积金字塔层包含五个卷积核大小为3×3的卷积层组成，但是卷积核之间的孔大小不同。本发明中卷积核间隔分别设置为0，6，12，18，24，滑动步长设置为1，从而获得5个分辨率为41×41的特征矩阵。本发明通过融合5个特征矩阵，并通过双线性插值方法上采样获得分辨率大小为321×321特征图，最后通过输出层进行分类并获得每一个像素的类别。

在其中一个实施例中，通过softmax层对所述依赖特征图进行分类，得到每个像素所对应的分类。

综上，本发明实施例的总体流程如图5所示，图5中，将自然场景中的图像语义分割方法分为初步特征提取、边缘特征提取、特征融合和精炼、长距离依赖的建立和上下文特征的提取四个步骤。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种自然场景下图像语义分割装置，包括：初步特征提取模块602、边缘特征提取模块604、深度特征提取模块606、依赖建立模块608和分类模块610，其中：

初步特征提取模块602，用于通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵；

边缘特征提取模块604，用于通过池化层分别计算所述初步特征矩阵感受野中像素的最大值和平均值，根据所述最大值和所述平均值的差异信息，得到所述初步特征矩阵的边缘梯度特征；

深度特征提取模块606，用于根据所述边缘梯度特征和所述初步特征矩阵，得到融合特征，并且根据预先设置的深度残差网络对所述融合特征进行特征融合与提取，得到深度特征；

依赖建立模块608，用于建立所述深度特征中各个像素之间的长依赖关系，得到依赖特征图；

分类模块610，用于通过输出层对所述依赖特征图进行分类，得到每个像素所对应的分类。

在其中一个实施例中，初步特征提取模块602还用于通过卷积神经网络的卷积层对预设尺寸的待语义分割图像进行特征提取，并且通过批量标准化层处理之后，得到目标尺寸的初步特征矩阵。

在其中一个实施例中，边缘特征提取模块604还用于通过最大池化层计算感受野中像素的最大值，通过平均池化层计算感受野中像素的平均值。

在其中一个实施例中，深度特征提取模块606还用于通过Eltwise层计算所述最大值和所述平均值的差值，得到所述差异信息，根据所述差异信息得到边缘梯度特征；通过设置的Eltwise层的参数，将所述边缘梯度特征和所述初步特征矩阵进行融合，得到融合特征。

在其中一个实施例中，依赖建立模块608还用于分别通过金字塔池化层和孔卷积金字塔层建立所述深度特征中各个像素之间的长依赖关系，得到依赖特征图。

在其中一个实施例中，依赖建立模块608还用于通过金字塔池化层获取多级池化输出，采用双线性插值对所述多级池化输出进行采样，得到与所述深度特征相同大小的二维特征矩阵；将所述二维特征矩阵进行融合，得到先验特征，将所述先验特征与所述深度特征进行融合，得到融合特征图；将所述融合特征图输入所述孔卷积金字塔层，得到与所述深度特征相同大小的多个孔特征矩阵；所述孔卷积金字塔层包括多个卷积核相同，且卷积核间隔不同的池化层；采用双线性插值对所述孔特征矩阵进行采样，得到依赖特征图。

在其中一个实施例中，分类模块610还用于通过softmax层对所述依赖特征图进行分类，得到每个像素所对应的分类。

关于自然场景下图像语义分割装置的具体限定可以参见上文中对于自然场景下图像语义分割方法的限定，在此不再赘述。上述自然场景下图像语义分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储待语义分割图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种自然场景下图像语义分割方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的实施例。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的实施例。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种自然场景下图像语义分割方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵，包括：

通过卷积神经网络的卷积层对预设尺寸的待语义分割图像进行特征提取，并且通过批量标准化层处理之后，得到目标尺寸的初步特征矩阵。

3.根据权利要求1所述的方法，其特征在于，所述通过池化层分别计算所述初步特征矩阵感受野中像素的最大值和平均值，包括：

通过最大池化层计算感受野中像素的最大值，通过平均池化层计算感受野中像素的平均值。

4.根据权利要求1所述的方法，其特征在于，根据所述边缘梯度特征和所述初步特征矩阵，得到融合特征，包括：

通过Eltwise层计算所述最大值和所述平均值的差值，得到所述差异信息，根据所述差异信息得到边缘梯度特征；

通过设置的Eltwise层的参数，将所述边缘梯度特征和所述初步特征矩阵进行融合，得到融合特征。

5.根据权利要求1至4任一项所述的方法，其特征在于，建立所述深度特征中各个像素之间的长依赖关系，得到依赖特征图，包括：

分别通过金字塔池化层和孔卷积金字塔层建立所述深度特征中各个像素之间的长依赖关系，得到依赖特征图。

6.根据权利要求5所述的方法，其特征在于，所述分别通过金字塔池化层和孔卷积金字塔层建立所述深度特征中各个像素之间的长依赖关系，得到依赖特征图，包括：

通过金字塔池化层获取多级池化输出，采用双线性插值对所述多级池化输出进行采样，得到与所述深度特征相同大小的二维特征矩阵；

将所述二维特征矩阵进行融合，得到先验特征，将所述先验特征与所述深度特征进行融合，得到融合特征图；

将所述融合特征图输入所述孔卷积金字塔层，得到与所述深度特征相同大小的多个孔特征矩阵；所述孔卷积金字塔层包括多个卷积核相同，且卷积核间隔不同的池化层；

采用双线性插值对所述孔特征矩阵进行采样，得到依赖特征图。

7.根据权利要求1至4任一项所述的方法，其特征在于，通过输出层对所述依赖特征图进行分类，得到每个像素所对应的分类，包括：

通过softmax层对所述依赖特征图进行分类，得到每个像素所对应的分类。

8.一种自然场景下图像语义分割装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。