CN111210443B

CN111210443B - 基于嵌入平衡的可变形卷积混合任务级联语义分割方法

Info

Publication number: CN111210443B
Application number: CN202010004799.7A
Authority: CN
Inventors: 陈玫玫; 王健; 吴金洋; 曾博义; 赖子轩
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2022-09-13
Anticipated expiration: 2040-01-03
Also published as: CN111210443A

Abstract

本发明设计了一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法,用于实现图像目标识别和语义的分割，包含：将裁剪后的图像输入到已预训练的神经网络中；通过特征金字塔网络将两个采样映射到相同的尺度空间；对来自不同层级之间提取的语义特征进行信息融合；采用卷积层预测像素级分割结果；在特征金字塔网络的卷积和池化部分采用可变形卷积神经网络，对输入图像进行特征提取，得到特征图；将特征图划分为相同大小的部分，将经过特征金字塔网络后得到的特征图输入到区域候选网络用于训练该网络，区域候选网络包含目标检测分类器和候选框定位分类器两部分，目标检测分类器输出目标识别结果和预测准确率，候选框定位分类器能够给出候选区域精准定位，输出多个候选区域的候选边框。本发明提高语义分割定位的精准度及分割的精确度。

Description

基于嵌入平衡的可变形卷积混合任务级联语义分割方法

技术领域

本发明设计了一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法,用于实现图像目标识别和语义的分割。

背景技术

传统语义分割中将语义分割任务定义为将图像分为几个不相交的部分，且这些部分有着各自的语义，即分割出的部分仅包含一类目标或物体。传统语义分割中，基于用户交互的语义分割方法有大量的研究工作。该类方法往往通过用户选定一个区域，再通过其它区域与选定区域的颜色相似性、纹理相似性以及边缘特征来作为这些区域的连接权重，最后使用条件随机场(ConditionalRandom Fields,CRF)或者图割(Graph-Cut)的方式来对图像进行分割，这类方法中的很多思想依旧被沿用，且很多制图软件中仍在使用。但这类方法存在一定弊端：对于图像中存在多个目标时，需要人为参与，自适应性较低。另外一类方法为非参数方法，这类方法通常通过检索的方式去将需要分割的图像或图像中的一部分与数据集中的图像进行匹配，再将数据集中的标签迁移到目标图像的分割图像中，最后经过一系列后处理如马尔科夫随机场(Markov Random Field,MRF)得到最终的分割图像。这类方法虽不需人工参与，但匹配的结果优劣与数据集的多样性相关，也与匹配的方式有很大的关系。在目标检测方法如可变形部件模型(Deformable Part Model,DPM)的出现后，很多方法开始尝试先使用低层特征如颜色和纹理来获得图像中的联通区域，再使用检测的方法来对图像中的目标进行检测，最后结合图像中每个像素位置的检测结果以及图像的联通区域来获得语义分割的结果。

随着诸如智能手机以及平板电脑等智能终端的普及，以及对应的低功耗芯片的运算能力的增强，对于效果好且占用资源少的计算机视觉技术的需求将越来越大。

发明内容

本发明的目的为了提高语义分割定位的精准度及分割的精确度，提出了基于深度学习的图像计算机视觉处理方法。

本发明采用如下技术方案：

一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法，所述方法包含：

将裁剪后的图像输入到已预训练的神经网络中；

通过特征金字塔网络的采用3×3卷积核和池化操作，对输入的图像进行降维处理；对低级特征映射进行上采样，将高级特征映射下采样，并将两个采样映射到相同的尺度空间；对来自不同层级之间提取的语义特征进行信息融合；采用卷积层预测像素级分割结果；

在特征金字塔网络的卷积和池化部分采用可变形卷积神经网络，对输入图像进行特征提取；所述可变形卷积神经网络起始端的卷积层为可变形卷积层，感兴趣区域的池化层为可变形感兴趣区域池化，得到特征图；将特征图划分为相同大小的部分，其数量即为输出的维度；

将经过特征金字塔网络后得到的特征图输入到区域候选网络用于训练该网络，区域候选网络包含目标检测分类器和候选框定位分类器两部分，目标检测分类器输出目标识别结果和预测准确率，候选框定位分类器能够给出候选区域精准定位，输出多个候选区域的候选边框。

进一步地，对所述区域候选网络进行训练过程中，采用平衡的L1损失函数，调整多个任务各自L1损失函数的权重，所述多个任务包括目标检测、与候选框生成。

进一步地，训练过程中需导入样本，根据重叠度平衡采样，通过间隔采样将可变形感兴趣区域均匀地分成K个区间，并将N个困难样本平均分配到上述每个区间，然后从中均匀地选取样本区间。

进一步地，将特征图输入到区域候选网络用于候选框定位分类，包括：为特征图中的每个像素点设定9个候选可变形感兴趣区域，利用分类器将这些可变形感兴趣区域区分为前景和背景，同时利用回归器初步调整这些可变形感兴趣区域的位置，进行非极大值抑制，根据分类的得分对这些可变形感兴趣区域进行排序，选择其中的前N个可变形感兴趣区域，得到候选边框。

进一步地，将区域候选网络生成的可变形感兴趣区域映射到特征金字塔网络提取的特征图上，获得与特征图对应的7×7特征映射，进行可变形感兴趣区域对齐。

进一步地，采用循环语义分割网络对每个对齐后的可变形感兴趣区域经过全卷积神经网络，预测生成像素级的掩模；经过全卷积神经网络得到目标分割图像后，若目标分割交并比不理想，需要将结果重新输入全卷积神经网络，进行训练，直到得到需要的交并比结果。

进一步地，对循环语义分割网络进行训练，采用平衡的L1损失函数，调整任务的L1损失函数的权重，所述任务包括语义分割。

进一步地，所有过程中的卷积前对图像周围补一圈0的填充操作。

进一步地，所有过程中的卷积后衔接一个修正的线性单元(Rectified LinearUnit,ReLU)。

本发明的有效增益为：

本发明提出了一种嵌入平衡的可变形卷积混合任务级联语义分割方法，较之于传统此类方法具有显著的进步性。本发明通过结合解码端和解码端的特征图，充分地利用了网络的上下文信息，在一定程度上提高了最终的准确率，通过嵌入平衡的可变形卷积混合任务级联框架，一种用于实例分割的新级联架构，将Mask RCNN和Cascade RCNN级联起来，通过每个阶段的结合级联和多任务来改善信息流，并利用空间背景来进一步提高准确性。通过在每个阶段目标识别、边界框回归和掩模预测都以多任务方式组合。在提取特征的主干网络，采用嵌入可变形卷积和池化的特征金字塔网络进行特征提取。此外，本方法集成了IoU平衡采样、平衡特征金字塔和平衡L1损失函数，分别用于减少样本、特征和目标水平的不平衡，从整体平衡设计中受益。此框架显著地提升了分割的准确性。

本发明基于Cascade RCNN模型的一系列卷积操作和最大池化操作来提取特征，并且将卷积后特征图的通道数加倍、最大池化后特征图的长和宽减半。为提高对图像特征的敏感度，引入了两个新的模块来增强CNN的转换建模能力，即可变形卷积和可变形感兴趣区域。可变形卷积和可变形感兴趣区域能够增加模块中的空间采样位置以及额外空间信息偏移，并学习目标任务的空间信息偏移，而无需额外的监督。新模块可以取代现有卷积神经网络中的普通模块，并且可以通过标准的反向传播进行端到端的训练，从而产生可变形的卷积网络。因此，在可变形特征图像上，应用规则卷积可以更有效地反映复杂结构。

本发明方法充分利用目标检测(边界框回归)和语义分割(掩模预测)之间的信息关联性。在每个阶段，通过并行的边界框回归和掩模预测，来获取它们之间的相互关系，从而进一步改善RCNN中的信息流。在目标分割过程中，去除空间背景，剩余的前景部分即是图片中的目标物体。在CNN中采用完全卷积分支获取空间背景，借助此手段，有助于区分复杂背景中难以分辩的前景部分，进一步提高目标分割的准确性。

附图说明

图1为基于卷积神经网络的视频语义分割方法详细结构图；

图2为平衡特征金字塔原理图；

图3为基于卷积神经网络的视频语义分割方法框图；

图4为基于卷积神经网络的视频语义分割方法原理图；

图5为Mask RCNN和Cascade级联原理图；

图6为可变形卷积原理图(Deformable Convolutional Networks,DCN)；

图7多种简单场景下模型分割效果图；

图8复杂场景下(光照背景颜色等)模型分割效果图；

具体实施方式

下面结合说明书附图，本发明进行进一步详细说明。

图1结合图5，本发明针对当前已有技术的不足与弊端，创新提出了一种全新的语义图像分割方法，通过对Cascade RCNN和Mask RCNN改进，称之为基于嵌入平衡的可变形卷积混合任务级联语义分割方法(Destructive Convolution Hybrid Task CascadingSemantic Segmentation Method Based on Embedded Balance)相比于其他方法，此方法能更好的兼顾局部和全局信息，最终得到的分割图中物体的形状和边界更清晰，分类更准确。

包括三个部分：嵌入平衡的可变形卷积神经网络、循环语义分割网络、级联式稀疏化RoI分类与回归网络。

参见图2，本发明将裁剪后的图像输入到已预训练的神经网络中，从而从大量的图片中提取出不同目标的重要特征，获得特征图。特征提取网络50层的深度残差网络(DeepResidual Network,ResNet)和特征金字塔网络(Feature Pyramid Network，FPN)。特征金字塔网络FPN将每层特征图上采样和浅层融合后进行预测，然后采用嵌入平衡的特征融合操作，进一步提高微小目标的识别率。本发明方法需要对特征金字塔网络进行训练，在训练过程中采用平衡的L1损失函数通过调整每个任务平衡的L1损失函数的权重，实现多个任务的平衡。训练过程中需导入样本，根据重叠度平衡采样，将采样间隔均匀地分成K个区间，并将N个困难样本平均分配到每个区间，然后从中均匀地选取样本区间，进行交并比平衡采样。与模型体系结构相比，训练过程对于目标检测模型的性能有着至关重要的影响，通常模型的检测部分的训练容易受到样本水平、特征水平和目标水平的平衡限制。为了减轻由此引起的不利影响，提出了嵌入平衡的FPN结构，该结构有利于模型的均衡学***衡采样和平衡L1损失函数，分别用于减少在样本、提取特征和目标检测三方面的不平衡，突破整体模型的平衡限制，并得到平衡特征融合提取图。参见图6所示，采用嵌入可变形卷积和池化的FPN进行特征提取，引入可变形的卷积和可变形池化模块增强卷积神经网络(Convolutional Networks,CNN)的转换建模能力。新模块易于取代现有CNN中的普通模块，并且可以通过标准的反向传播轻松地进行端到端的训练。可变形卷积神经网络起始端的卷积层为可变形卷积层，感兴趣区域的池化层为可变形感兴趣区域池化；将上述网络得到的特征图(Feature Map)划分为相同大小的部分，其数量即为输出的维度，利用可变形采样位置，然后通过将每个像素的相邻类似结构信息压缩为固定网格，创建可变形特征图像，在可变形特征图像上应用规则卷积能够更有效地反映图像的复杂结构，进一步提高对微小目标的敏感度。

本方法在卷积后加入了填充操作，即在最***扩充0值像素，虽然填充可能会引入微弱噪声，但此操作能使输出的分割图和原始图像分辨率相同，有利于面临密集小目标分割问题时，准确预测每个像素的类别。由于神经网络结构越深，空间信息丢失的越多，小尺度物体很难从低分辨率的特征图中恢复出来，卷积网络中运用S-Dropout修剪网络结构，并去掉最后一个池化层及其跟随的卷积层，使网络具有稀疏化特性，并降低训练中的过拟合。

本发明将特征图输入到区域候选网络(Region Proposal Network，RPN)用于目标识别分类和候选框回归。RPN的本质是基于滑窗的目标检测器，它是一个树状结构，树干是一个3×3的卷积层，树枝是两个1×1的卷积层。RPN分类器(1×1的卷积层)将与真实目标重叠并且其重叠区域大于0.5的RoI划分为前景，将不与任何目标重叠或者其重叠区域小于0.1的RoI划分为背景。RPN回归器(1×1的卷积层)计算这些前景RoI与真实目标之间的边框的偏差值，然后进行非极大值抑制，即根据分类的得分对这些RoI进行排序，选择其中的前N个RoI，得到RPN Box候选框。接下来，整合分类结果及回归得到的候选框即可得到候选区(Proposal)。这里RPN网络使用的损失函数为分类误差与回归误差的和。

将每个生成的RoI映射到FPN网络提取的卷积特征图(Feature Map)上，获得与其对应的7×7特征映射。RoI对齐包括两个过程：首先将原图和特征图的像素点对应，然后再将特征图和特征映射对应。因为特征提取网络中的池化层会导致特征图比原图缩小一定比例(与池化层的个数和大小有关)，通过双线性插值和池化来避免粗糙量化操作引入识别误差的问题，即充分利用原图中虚拟点四周的四个真实存在的像素值来共同决定目标图中的一个像素值，使原图中的像素和特征映射中的像素是精准对齐的，这不仅会提高目标检测的准确度，同时也有利于目标分割。

循环语义分割网络，对RoI对齐后的特征图进行全卷积网络(FullyConvolutional Network，FCN)操作，预测生成像素级的掩模(Mask)。掩膜生成网络使用的损失函数为目标检测分类误差+边界框回归误差+语义分割误差。在FCN之前的“Head层”，主要作用是将RoI对齐输出的维度扩大，这样在预测掩膜时会更加精确。经过FCN得到目标分割图像后，若目标分割交并比不理想，说明特征提取的感受野(Receptive Field)过小，不利于小目标的精确分割，需要将结果重新输入Head层，与卷积层中的感受野层融合，再经过FCN进行再次分割，直到得到较为精确的交并比结果。这里感受野的定义是卷积神经网络每一层输出的特征图上每个像素点在原始图像(网络的输入图像)上映射的区域大小。

本方法较目前的目标检测具有显著的精确性及敏感性。在前人基础上，我们重新定义了网络结构，通过结合嵌入平衡FPN与可变形卷积提取特征，并在语义分割引入循环机制提高感受野敏感度，以及采用网络级联方式提高候选定位框的分类及定位精确度，通过不同层的特征融合，充分地利用了网络的各层信息，在一定程度上提高了最终的准确率，使得图片分割的结果更加平滑，分类及定位结果更加精确，充分现示了本发明在语义分割及目标检测方面的创新性及优越性。

参见图1结合图2和图3以及图4，在一个实施例中，本发明方法包含：

S1、首先，将一张任意大小的图像输入由13个卷积层、13个线性修正单元(Rectified Linear Unit,ReLU)层、4个池化层构成的主干网络，用于提取图片特征。首先，输入为整张图片，特征金字塔网络的每个级别通过1×1卷积层进行降维处理。其次，对低级特征映射进行上采样，并将高级特征映射下采样到相同的尺度空间，其中步幅设置为8。从实验中发现，该设置足以对整个图像进行精确的像素级预测。然后，对来自不同层级之前提取的语义特征进行信息融合；同时，在结构上添加四个卷积层进一步增强提取语义特征泛化能力。最后，采用卷积层预测像素级分割结果,输出特征图(Feature Maps)。在特征金字塔网络的卷积和池化部分采用可变形卷积神经网络，对输入图像进行特征提取；所述可变形卷积神经网络起始端的卷积层为可变形卷积层，感兴趣区域的池化层为可变形感兴趣区域池化，得到特征图；将特征图划分为相同大小的部分，其数量即为输出的维度；

S2、对于每个图像而言，经过S1操作后，将得到的所有特征图(Feature Maps)都将输入区域候选网络(Region Proposal Network,RPN)，进行训练。首先进入3×3的卷积层，然后进入两个1×1的兄弟卷积层(Sibling layer)，最后用Softmax层进行分类，给候选区域精准定位，并推选候选区域。区域候选网络包含目标检测分类器和候选框定位分类器两部分，目标检测分类器输出目标识别结果和预测准确率，候选框定位分类器能够给出候选区域精准定位，输出多个候选区域的候选边框。训练过程中需导入样本，根据重叠度平衡采样，通过间隔采样将可变形感兴趣区域均匀地分成K个区间，并将N个困难样本平均分配到上述每个区间，然后从中均匀地选取样本区间。

将特征图输入到区域候选网络用于候选框定位分类，包括：为特征图中的每个像素点设定9个候选可变形感兴趣区域，利用分类器将这些可变形感兴趣区域区分为前景和背景，同时利用回归器初步调整这些可变形感兴趣区域的位置，进行非极大值抑制，根据分类的得分对这些可变形感兴趣区域进行排序，选择其中的前N个可变形感兴趣区域，得到候选边框。

采用循环语义分割网络对每个对齐后的可变形感兴趣区域经过全卷积神经网络，预测生成像素级的掩模；经过全卷积神经网络得到目标分割图像后，若目标分割交并比不理想，需要将结果重新输入全卷积神经网络，进行训练，直到得到需要的交并比结果。

S3、以真实目标框(Ground Truth Box)最大的交并比的锚点(Anchors)作为正训练样本，训练区域候选网络。区域候选网络的L1损失函数定义如下：

其中，i表示小批量处理(mini-batch)中第i个Anchor，p_i表示第i个Anchor是前景目标的概率，当第i个Anchor是前景目标时p*为1，反之为0，t_i表示预测的边界框(BoundingBox)的坐标，t_i*为真实目标(Ground Truth)的坐标。

对循环语义分割网络进行训练，采用平衡的L1损失函数，调整任务的L1损失函数的权重，所述任务包括语义分割。

S4、经过S3操作，进行RoI对齐，根据输入图像，将RoI映射到步骤S1的特征图(Feature Map)对应位置；将映射后的区域划分为相同大小的部分，其数量与输出的维度相同；对每个部分进行最大池化操作，这样可以从不同大小的方框得到固定大小的特征图。

S5、分类和回归，这一层的输出是最终的目的，输出候选区域所属类别和候选区域在图像中精确的位置。

其中需要在每一次卷积前对图像***填补0值像素的填充操作。在每一次卷积后衔接一个ReLU。以及卷积核的大小和个数任意可选。

参见图7和图8所示，为采用本发明方法的处理的多种简单场景下模型分割效果图，在一定程度上提高了最终的准确率，使得图片分割的结果更加精确和平滑，综上实例结合图示的详细描述可见，本发明的语义图像分割方法的提出并应用，较之于传统此类方法具有显著的进步性本发明重新定义了网络结构，通过结合解码端和解码端的特征图，无论从定量还定性的比较，充分展现了本发明在语义图像分割方面的优越性。通过不同层的特征融合，充分地利用了网络的各层信息，在一定程度上提高了最终的准确率，使得图片分割的结果更加精确和平滑。

以上详细描述了本发明的优选实施方式，但是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内进行修改或者等同变换，均应包含在本发明的保护范围之内。

Claims

1.一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法，其特征在于，所述方法包含：

将裁剪后的图像输入到已预训练的神经网络中；

将经过特征金字塔网络后得到的特征图输入到区域候选网络用于训练该网络，区域候选网络包含目标检测分类器和候选框定位分类器两部分，目标检测分类器输出目标识别结果和预测准确率，候选框定位分类器能够给出候选区域精准定位，输出多个候选区域的候选边框；

对所述区域候选网络进行训练过程中，采用平衡的L1损失函数，调整多个任务各自L1损失函数的权重，所述多个任务包括目标检测、与候选框生成；

训练过程中需导入样本，根据重叠度平衡采样，通过间隔采样将可变形感兴趣区域均匀地分成K个区间，并将N个困难样本平均分配到上述每个区间，然后从中均匀地选取样本区间。

2.按照权利要求1所述的方法，其特征在于，将特征图输入到区域候选网络用于候选框定位分类，包括：为特征图中的每个像素点设定9个候选可变形感兴趣区域，利用分类器将这些可变形感兴趣区域区分为前景和背景，同时利用回归器初步调整这些可变形感兴趣区域的位置，进行非极大值抑制，根据分类的得分对这些可变形感兴趣区域进行排序，选择其中的前N个可变形感兴趣区域，得到候选边框。

3.按照权利要求2所述的方法，其特征在于，将区域候选网络生成的可变形感兴趣区域映射到特征金字塔网络提取的特征图上，获得与特征图对应的7×7特征映射，进行可变形感兴趣区域对齐。

4.按照权利要求3所述的方法，其特征在于，采用循环语义分割网络对每个对齐后的可变形感兴趣区域经过全卷积神经网络，预测生成像素级的掩模；经过全卷积神经网络得到目标分割图像后，若目标分割交并比不理想，需要将结果重新输入全卷积神经网络，进行训练，直到得到需要的交并比结果。

5.按照权利要求4所述的方法，其特征在于，对循环语义分割网络进行训练，采用平衡的L1损失函数，调整任务的L1损失函数的权重，所述任务包括语义分割。

6.按照权利要求1所述的方法，其特征在于，所有过程中的卷积前对图像周围补一圈0的填充操作。

7.按照权利要求1所述的方法，其特征在于，所有过程中的卷积后衔接一个修正的线性单元。