CN110059698B

CN110059698B - 用于街景理解的基于边缘稠密重建的语义分割方法及***

Info

Publication number: CN110059698B
Application number: CN201910359119.0A
Authority: CN
Inventors: 陈羽中; 林洋洋; 柯逍; 黄腾达
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2022-12-23
Anticipated expiration: 2039-04-30
Also published as: CN110059698A

Abstract

本发明涉及一种用于街景理解的基于边缘稠密重建的语义分割方法及***，该方法包括：对训练集输入图像进行预处理，使图像标准化并获取相同尺寸的预处理图像；用卷积网络提取通用特征，再获取三级上下文空间金字塔融合特征，以这两部分级联作为编码网络提取编码特征；利用编码特征获取半输入尺寸编码特征，基于卷积网络获取边缘特征，结合半输入尺寸编码特征，以融合边缘特征的稠密网为解码网络，重建图像分辨率，获取解码特征；计算语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标对深度神经网络进行训练；利用深度神经网络模型对待分割图像进行语义分割，输出分割结果。该方法及***有利于提高图像语义分割的准确性和鲁棒性。

Description

用于街景理解的基于边缘稠密重建的语义分割方法及***

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种用于街景理解的基于边缘稠密重建的语义分割方法及***。

背景技术

图像语义分割是人工智能领域中计算机视觉的一个重要分支，是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别，使其与图像本身的视觉表示内容一致，所以图像语义分割任务也被称为像素级的图像分类任务。

由于图像语义分割与图像分类有一定的相似性，所以各式各样的图像分类网络常常在剔除最后的全连接层后，作为图像语义分割网络的主干网，并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征，最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下，图像语义分割的难度要更高，因为它不仅需要全局的上下文信息，还需要结合精细的局部信息来确定每个像素点的类别，所以常常利用主干网来提取较为全局的特征，然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征，所以常常把前者称为编码网络，后者称为解码网络。同时在编码过程中，为了能更好捕获不同大小物体的特征，常常结合不同感受野和尺度信息，比如带孔空间金字塔池化技术，但是该技术扩大了卷积核的间隔，忽略了内部像素点，同时也没能结合更为全局的上下文信息来弥补自身表达能力的不足。同时，在现有的语义分割方法中，解码过程中常常只是简单地基于前一级特征来恢复分辨率，然后结合对应尺寸的浅层特征来弥补编码过程中的信息丢失，既没能有效地对分辨率重建过程中的有效特征进行重用，也没能针对性地解决图像分辨率重建后物体边界模糊的问题。

发明内容

本发明的目的在于提供一种用于街景理解的基于边缘稠密重建的语义分割方法及***，该方法及***有利于提高图像语义分割的准确性和鲁棒性。

为实现上述目的，本发明的技术方案是：一种用于街景理解的基于边缘稠密重建的语义分割方法，包括以下步骤：

步骤A：对训练集输入图像进行预处理，首先让图像减去其图像均值使其标准化，然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像；

步骤B：用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取三级上下文空间金字塔融合特征F_tspp，用于捕获多尺度上下文信息，然后以这两部分级联作为编码网络提取编码特征F_encoder；

步骤C：扩大编码特征F_encoder尺寸到输入图像尺寸的一半，获取半输入尺寸编码特征F_us，从所述卷积网络中选取中间层特征

计算边缘特征

结合半输入尺寸编码特征F_us，以融合边缘特征

的稠密网为解码网络，进行图像分辨率重建，计算解码特征F_decoder；

步骤D：用解码特征F_decoder和边缘特征

分别获取语义分割概率图和边缘概率图，以训练集中的语义图像标注计算边缘图像标注，利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标来对整个深度神经网络进行训练；

步骤E：利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果。

进一步地，所述步骤B中，用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取三级上下文空间金字塔融合特征F_tspp，然后以这两部分级联作为编码网络提取编码特征F_encoder，包括以下步骤：

步骤B1：使用卷积网络对预处理图像提取通用特征F_backbone；

步骤B2：使用1×1卷积对特征F_backbone进行特征降维，得到特征

步骤B3：对F_backbone整张图像进行平均池化，然后再使用最近邻插值恢复到原尺寸，再经过1×1卷积得到图像级特征F_image；

步骤B4：用孔率为r_as的卷积核对F_backbone进行带孔卷积得到特征

然后拼接三级上下文特征

F_image和

后使用1×1卷积进行特征融合，得到孔率为r_as的三级上下文融合特征

卷积过程中使用批标准化来保持输入的同分布，用线性整流函数作为激活函数；其中，带孔卷积计算公式如下：

其中，

表示在输出坐标m_as位置的使用孔率为r_as的带孔卷积的处理结果，x_as[m_as+r_as·k_as]表示输入x_as在坐标m_as位置上于孔率为r_as且带孔卷积核坐标为k_as时所对应的输入参考像素，w_as[k_as]表示在带孔卷积核作为k_as位置的权重；

步骤B5：使用不同的孔率重复上一步骤，直至获得n_tspp个特征，然后将这n_tspp个特征与

和F_image进行拼接，得到三级上下文空间金字塔融合特征F_tspp；

步骤B6：使用1×1卷积对特征F_tspp进行降维，然后再用深度学习中的dropout进行正则化，得到最后的编码特征F_encoder。

进一步地，所述步骤C中，扩大编码特征F_encoder尺寸到输入图像尺寸的一半，获取半输入尺寸编码特征F_us，从所述卷积网络中选取中间层特征

计算边缘特征

结合半输入尺寸编码特征F_us，以融合边缘特征

的稠密网为解码网络，进行图像分辨率重建，计算解码特征F_decoder，包括以下步骤：

步骤C1：定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅，使用最近邻插值处理编码特征F_encoder，得到输出步幅为2的特征图F_us；

步骤C2：从提取通用特征的卷积网络中选取输出步幅为os的中间层特征

先使用1×1卷积进行降维，然后使用双线性插值扩大

倍得到边缘特征

步骤C3：拼接特征F_us和

使用1×1卷积降维后，再使用3×3卷积提取特征得到解码特征F_decoder；

步骤C4：选取比步骤C2中更小的输出步幅os，如果全部输出步幅处理完成，则解码特征提取完成，否则拼接F_us和F_decoder作为新的F_us，并重复步骤C2至C3。

进一步地，所述步骤D中，用解码特征F_decoder和边缘特征

分别获取语义分割概率图和边缘概率图，以训练集中的语义图像标注计算边缘图像标注，利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标来对整个深度神经网络进行训练，包括以下步骤：

步骤D1：用双线性插值将特征F_decoder和所有的特征

缩放到与输入图像的尺寸相同，并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率和边缘概率，softmax计算公式如下：

其中，σ_c为c类别的概率，e为自然指数，γ_c和γ_k分别表示类别为c和k的未激活特征值，C为总类别数；

步骤D2：将训练集的语义分割标注进行独热编码，然后计算获取边缘标注，边缘标注计算公式如下：

其中，y_edge(i,j,c)和

为坐标(i,j)位置c类的边缘标注和语义标注，(i_u,j_u)表示(i,j)坐标下的8邻域U₈中的一组坐标，sgn()为符号函数；

步骤D3：利用语义分割和边缘两者的概率图与其对应标注，分别计算像素级的交叉熵，得到对应语义分割损失L_s和辅助监督的边缘损失

然后计算加权和损失L：

其中，

为边缘特征

对应的损失值，α_os为

在最终损失中所占的权重；

最后通过随机梯度下降优化方法，利用反向传播迭代更新模型参数，以最小化加权和损失L来训练整个深度神经网络，得到最后的深度神经网络模型。

本发明还提供了一种用于街景理解的基于边缘稠密重建的语义分割***，包括：

预处理模块，用于对训练集输入图像进行预处理，包括让图像减去其图像均值使其标准化，以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像；

编码特征提取模块，用于用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取三级上下文空间金字塔融合特征F_tspp，用于捕获多尺度上下文信息，然后以这两部分级联作为编码网络提取编码特征F_encoder；

解码特征提取模块，用于扩大编码特征F_encoder尺寸到输入图像尺寸的一半，获取半输入尺寸编码特征F_us，从所述卷积网络中选取中间层特征

计算边缘特征

结合半输入尺寸编码特征F_us，以融合边缘特征

的稠密网为解码网络，进行图像分辨率重建，提取解码特征F_decoder；

神经网络训练模块，用于用解码特征F_decoder和边缘特征

分别获取语义分割概率图和边缘概率图，以训练集中的语义图像标注计算边缘图像标注，利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标来对整个深度神经网络进行训练，得到深度神经网络模型；以及

语义分割模块，用于利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果。

相较于现有技术，本发明的有益效果是：首先在编码网络中的主干网过后的多尺度特征捕获中使用了三级上下文空间金字塔融合特征，针对性地利用内部特征和全局特征来优化原来不同感受野的特征，从而丰富了编码特征表达能力。然后在解码网络结合由中间层特征派生而来且辅以监督的边缘特征，针对性地对特征分辨率重建过程中容易产生偏差的边缘部分进行调整，优化不同物体间的语义分割结果，同时用稠密网的方式进行特征的分辨率重建以更好地对重建特征进行重用。与现有方法相比，本发明能在编码后获得更强大上下文信息表达能力，解码过程中结合边缘监督能更有效修正物体间的边界模糊问题，同时利用稠密网结构的重用性能对特征进行更有效的利用，使网络更易于训练，从而最后能得到更精确的语义分割结果。

附图说明

图1是本发明实施例的方法实现流程图。

图2是本发明实施例的***结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明提供了一种用于街景理解的基于边缘稠密重建的语义分割方法，如图1所示，包括以下步骤：

步骤A：对训练集输入图像进行预处理，首先让图像减去其图像均值使其标准化，然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像。

步骤B：用通用的卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取三级上下文空间金字塔融合特征F_tspp，用于捕获多尺度上下文信息，然后以步骤B中所述这两部分级联作为编码网络提取编码特征F_encoder；具体包括以下步骤：

步骤B1：使用通用的卷积网络(本实施例采用deeplabv3+网络中提供的xception网络)对预处理图像提取通用特征F_backbone；

步骤B2：使用1×1卷积对特征F_backbone进行特征降维，得到特征

然后拼接三级上下文特征

F_image和

其中，

步骤B5：使用不同的孔率重复上一步骤，直至获得n_tspp个特征(本实施例为3个特征，孔率分别为6，12，18)，然后将这n_tspp个特征与

计算边缘特征

结合半输入尺寸编码特征F_us，以融合边缘特征

的稠密网为解码网络，进行图像分辨率重建，计算解码特征F_decoder；具体包括以下步骤：

先使用1×1卷积进行降维，然后使用双线性插值扩大

倍得到边缘特征

步骤C3：拼接特征F_us和

步骤D：用解码特征F_decoder和边缘特征

分别获取语义分割概率图和边缘概率图，以训练集中的语义图像标注计算边缘图像标注，利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标来对整个深度神经网络进行训练；具体包括以下步骤：

步骤D1：用双线性插值将特征F_decoder和所有的特征

其中，y_edge(i,j,c)和

然后计算加权和损失L：

其中，

为边缘特征

对应的损失值，α_os为

在最终损失中所占的权重，α_os满足

且各α_os相等；

本发明还提供了用于实现上述方法的用于街景理解的语义分割***，如图2所示，包括：

计算边缘特征

结合半输入尺寸编码特征F_us，以融合边缘特征

神经网络训练模块，用于用解码特征F_decoder和边缘特征

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种用于街景理解的基于边缘稠密重建的语义分割方法，其特征在于，包括以下步骤：

步骤B：用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取三级上下文空间金字塔融合特征F_tspp，用于捕获多尺度上下文信息，然后提取编码特征F_encoder；

计算边缘特征

结合半输入尺寸编码特征F_us，以融合边缘特征

步骤D：用解码特征F_decoder和边缘特征

步骤E：利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果；

所述步骤B中，用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取三级上下文空间金字塔融合特征F_tspp，然后提取编码特征F_encoder，包括以下步骤：

步骤B1：使用卷积网络对预处理图像提取通用特征F_backbone；

步骤B2：使用1×1卷积对特征F_backbone进行特征降维，得到特征

然后拼接三级上下文特征

F_image和

其中，

步骤B6：使用1×1卷积对特征F_tspp进行降维，然后再用深度学习中的dropout进行正则化，得到最后的编码特征F_encoder；

所述步骤C中，扩大编码特征F_encoder尺寸到输入图像尺寸的一半，获取半输入尺寸编码特征F_us，从所述卷积网络中选取中间层特征

计算边缘特征

结合半输入尺寸编码特征F_us，以融合边缘特征

先使用1×1卷积进行降维，然后使用双线性插值扩大

倍得到边缘特征

步骤C3：拼接特征F_us和

2.根据权利要求1所述的用于街景理解的基于边缘稠密重建的语义分割方法，其特征在于，所述步骤D中，用解码特征F_decoder和边缘特征

步骤D1：用双线性插值将特征F_decoder和所有的特征

其中，y_edge(i,j,c)和

然后计算加权和损失L：

其中，α_os为

在最终损失中所占的权重；

3.一种用于实现如权利要求1所述方法的用于街景理解的基于边缘稠密重建的语义分割***，其特征在于，包括：

编码特征提取模块，用于用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取三级上下文空间金字塔融合特征F_tspp，用于捕获多尺度上下文信息，然后提取编码特征F_encoder；

计算边缘特征

结合半输入尺寸编码特征F_us，以融合边缘特征

神经网络训练模块，用于用解码特征F_decoder和边缘特征