CN115019039A

CN115019039A - 一种结合自监督和全局信息增强的实例分割方法及***

Info

Publication number: CN115019039A
Application number: CN202210582668.6A
Authority: CN
Inventors: 高榕; 沈加伟; 邵雄凯
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-09-06
Anticipated expiration: 2042-05-26
Also published as: CN115019039B

Abstract

本发明公开了一种结合自监督和全局信息增强的实例分割方法及***，其中的构建方法首先通过基于ResNet网络和FPN模块的特征提取网络来得到特征金字塔以及进行特征图融合；然后采用基于Fastformer的全局信息增强网络来对特征图进行像素之间的交互关系进行建模，提取全局信息；接着通过预测网络进行实例分割，其中，类别预测网络用于对感兴趣的实例进行多标签分类，掩码预测网络用于对实例所在区域进行像素值分类，生成实例掩码；此外还加入了一个自监督学习网络，用于对图中实例之间进行对比学习，加强模型对图片的理解能力以增强泛化性。本发明的方法能够解决对遮挡以及不完整物体检测性能不高的问题，同时加强模型的泛化能力，提高在噪声较多的场景中的分割性能。

Description

一种结合自监督和全局信息增强的实例分割方法及***

技术领域

本发明涉及人工智能和计算机视觉技术领域，更具体地，涉及一种结合自监督和全局信息增强的实例分割方法及***。

背景技术

实例分割是计算机视觉领域中一项相对于目标检测更具有挑战性的任务，包含了目标检测和语义分割的工作。它首先将图像中感兴趣的物体进行定位和分类操作，然后对于实例进行语义分割分离出前景和背景。随着智能驾驶和医学图像分割等技术的高速发展，实例分割算法的性能和实时性也被提出了更高的要求。但是传统的自上而下的基于目标检测的实例分割方法及***和自下而上的基于语义分割的方法在实时性和性能上仍然难以达到目前智能驾驶等领域对于实例分割算法的要求。

如何增强实例分割算法的性能，缩短前向推理时间就具有重大意义。近年来，一些优秀的单阶段实例分割算法被提出，缓解了这些问题，达到了较为理想的效果。尽管如此，这些算法仍存在着一些缺陷：基于卷积的特征提取网络在信息提取的时候缺乏全局信息，导致对于不完整或有遮挡的物体的检测效果较差；此外，有监督的训练方式导致训练出来的模型泛化能力较差，对于噪声较大的场景便难以发挥出算法的性能。

发明内容

针对现有技术的缺陷，本发明的目的是提供一种结合自监督和全局信息增强的实例分割方法及***，旨在解决现有实例分割方法及***存在特征提取阶段缺乏全局信息，且泛化能力较差，对于噪声较大场景分割效果差的问题。

为实现上述目的，本发明提供了一种结合自监督和全局信息增强的实例分割方法及***，包括：

步骤S1：建立实例分割模型；

所述实例分割模型包括特征提取网络、全局信息增强网络、自监督学习网络、类别预测网络和掩码预测网络；

所述特征提取网络包括ResNet网络和FPN网络，ResNet用于通过叠加多个卷积层、Relu层和normalization层以及残差连接，得到图片金字塔。FPN用于结合特征金字塔中上层特征图丰富的语义信息和下层特征图精确的位置信息，进行特征融合；

所述全局信息增强网络由Fastformer模块构成，用于对特征图中每一像素点之间的交互关系进行建模，提取上下文信息，增强特征图的全局信息；

所述自监督学习网络，用于对图片中的实例进行对比学习，加强对图片的理解能力，增强模型泛化能力；

所述类别预测网络，用于对感兴趣的实例进行多标签分类，得到每一实例的对应类别；

所述掩码预测网络，用于对选取的实例区域中的像素点进行二分类，区分前景和背景，生成实例的掩码。

步骤S2：实例分割模型训练；

输入选取的训练数据集，包括图片数据和对应的标签文件。首先提取特征图，再进行特征图融合。然后增强全局信息，输入到预测网络进行预测，与标签文件比对得出损失函数，通过损失函数进行反向传播，引导模型训练方向。

步骤S3：实例分割

将图片分成S×S个网络，每个网格负责预测中心点落在该位置的实例。即以该网格为中心，预测对应实例的类别和掩码。

可选的，所述特征提取网络为ResNet-50和FPN网络。

进一步地，所述全局信息增强模块为基于加性注意力的Fastformer网络。

所述加性注意力根据输入的特征序列E∈R^N×d(N为序列长度，d为隐藏维数)进行线性变换分别得出查询矩阵、键矩阵和值矩阵，记为Q,K,V∈R^N×d。

对所述的查询矩阵Q采用加性注意力生成权重矩阵，与Q相加得到全局查询矩阵。然后将全局查询向量Q与键向量K进行点乘，对它们的相互关系进行建模。

进一步地，采用相同的操作生成全局键向量，与值向量V进行交互建模，最后得出包含丰富全局语义信息的特征向量。

所述的自监督学习网络首先利用bounding box标签信息得到所有实例特征表示，对于随机选取的样本实例A，其余实例作为候选池，计算它与候选池的相似度得分。

可选的，所述相似度得分计算过程如下：

进一步地，按照相似度得分对实例进行排序，取top-k作为查询集Q，然后利用查询集在候选池中挖掘伪正例。

所述挖掘伪正例过程包括：

(1)计算Q中每个实例与候选池中实例之间的相似度。候选池每个实例I都得到N个相似度得分(N为查询集Q中实例个数)。

(2)将这些相似度得分进行聚合操作，排序，取top-k且超过阈值的实例作为伪正例，加入查询集Q中。

(3)继续利用更新后的查询集Q进行伪正例挖掘，直至挖掘到的伪正例低于阈值。将查询集作为伪正例集，候选池中剩余实例作为负例集。

(4)利用softmax函数得到样本A与伪正例集中每个实例的相似度得分：

其中，p_i为伪正例集中实例，N_n为负样本数量，n_i为负例集中实例。

可选的，对上述相似度得分取负对数，得到对比学习损失函数：

进一步地，所述类别预测网络采用Focal loss，通过预测每个实例属于某一类别的概率得到损失函数。

掩码预测网络用于对选取的实例区域中的像素点进行二分类，区分前景和背景，生成实例的掩码。

可选的，掩码预测网络损失函数为：

其中，N_pos为正样本数量，

为(i,j)位置上的单元格所预测的类别得分，ψ为指示函数。

可选的，对于d_mask，选用Dice Loss：

L_Dice＝1-D(p,q)

其中，P_x,y表示(x,y)处单元格的预测像素值，q_x,y表示(x,y)处单元格的真实像素值。

通过本发明所述的以上技术方案，与现有技术相比，能够取得以下有益效果：

(1)本发明在单阶段实例分割算法的基础上，通过加入基于加性注意力的Fastformer模块，对特征图中进行像素级的全局语义信息建模，提高模型对于遮挡、不完整的物体的分割效果。

(2)本发明在预测网络中加入自监督学习模块，通过对图片中所有实例进行对比学习，来加强模型对于图片的理解能力，增强模型的泛化能力。

附图说明

图1是本发明实施例提供的实例分割模型流程图；

图2是本发明实施例提供的实例分割模型框架图；

图3是实施例提供的待测图像；

图4(a)是原始单阶段实例分割方法及***得到的分割结果；

图4(b)是采用本发明的方法得到的实例分割结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供的结合自监督和全局信息增强的实例分割方法及***，包括：

步骤S1：建立实例分割模型；

如图1所示，实例分割模型包括特征提取网络、全局信息增强网络、自监督学习网络、类别预测网络和掩码预测网络；

特征提取网络包括ResNet-50网络和FPN网络，ResNet用于通过叠加多个卷积层、Relu层和normalization层以及残差连接，得出四层不同尺度的图片金字塔。FPN用于结合特征金字塔中上层特征图丰富的语义信息和下册层特征图精确的位置信息，进行特征融合；

全局信息增强网络为Fastformer模块，用于对特征图中每一像素点之间的交互关系进行建模，提取上下文信息，增强特征图的全局信息。

根据输入的特征序列E∈R^N×d(N为序列长度，d为隐藏维数)进行线性变换分别得出查询矩阵、键矩阵和值矩阵，记为Q,K,V∈R^N×d：Q＝[q₁,q₂,...,q_N]，K＝[k₁,k₂,...,k_N]，V＝[v₁,v₂,...,v_N]。

对查询矩阵Q采用加性注意力生成权重矩阵，与Q相加得到全局查询矩阵:

其中，α_i为查询矩阵Q中某一向量q_i的注意力权重值，w_q∈R^d为可学习的参数向量。然后将全局查询向量Q与键向量K进行点乘，对它们的相互关系进行建模。

采用相同的操作生成全局键向量，与值向量V进行交互建模，最后得出包含丰富全局语义信息的特征向量。

自监督学习网络，用于对图片中的实例进行对比学习，加强对图片的理解能力，增强模型泛化能力；

首先利用bounding box标签信息得到所有实例特征表示，对于随机选取的样本实例A，其余实例作为候选池，计算它与候选池的相似度得分，计算公式为：

按照相似度得分对实例进行排序，取top-k作为查询集Q，然后利用查询集在候选池中挖掘伪正例，挖掘过程包括：

(1)计算Q中每个实例与候选池中实例之间的相似度。候选池每个实例I都得到N个相似度得分(N为查询集Q中实例个数)：

S(I,Q)＝(S(I,q₁),S(I,q₂),...,S(I,q_N))

对上述相似度得分取负对数，得到对比学习损失函数：

类别预测网络，用于对感兴趣的实例进行多标签分类，得到每一实例的对应类别；

掩码预测网络，用于对选取的实例区域中的像素点进行二分类，区分前景和背景，生成实例的掩码。掩码预测网络损失函数为：

其中，N_pos为正样本数量，

为(i,j)位置上的单元格所预测的类别得分，ψ为指示函数。

对于d_mask，选用Dice Loss：

L_Dice＝1-D(p,q)

步骤S2：实例分割模型训练；

输入选取的训练数据集，包括图片数据和对应的标签文件。首先提取特征图，再进行特征图融合。然后增强全局信息，输入到head网络进行预测，得出损失函数，通过损失函数来影响反向传播的方向，引导模型训练。

本发明使用城市道路街景数据集Cityscapes来进行模型的训练，该数据集采用了不同城市的街景图像。包含2975张训练集，500个验证集和1525张具有高质量注释的测试图像。

步骤S3：实例分割

首先将图片分成S×S个网络，每个网格负责预测中心点落在该位置的实例。即以该网格为中心，预测对应实例的类别和掩码。

图2为输入图像，图3是实施例提供的待测图像，使用原始单阶段实例分割方法及***的分割结果如图4(a)所示，可以看出第一张图片对右边的摩托车生成的掩码吻合度较差，第二张图片中由于右半部分光线较差，噪声较多，便将围墙识别成了卡车，第三张图片对于不完整的实例：摩托车和骑行者没有很好地分离。使用本发明方法的实例分割结果如图4(b)所示，对于上述情况都有了很好的改善。

本发明在一定程度上改善了原始单阶段实例分割算法对有遮挡或不完整的物体检测效果不佳的问题，此外，对于模型的泛化能力有了较大的提升，在光照不足或曝光过强、雨天等场景中的分割效果取得了较大的提升。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合自监督和全局信息增强的实例分割方法，其特征在于，包括：

步骤S1：建立实例分割模型；

所述特征提取网络包括ResNet网络和FPN网络，ResNet用于通过叠加多个卷积层、Relu层和normalization层以及残差连接，得到图片金字塔；FPN用于结合特征金字塔中上层特征图丰富的语义信息和下层特征图精确的位置信息，进行特征融合；

所述全局信息增强网络由Fastformer模块构成，用于对特征图中每一像素点之间的交互关系进行建模，提取上下文信息，增强对特征图的全局信息提取能力；

所述自监督学习网络，用于对图片中的实例进行自监督对比学习，加强对图片的理解能力，增强模型泛化能力；

所述掩码预测网络，用于对选取的实例区域中的像素点进行二分类，区分前景和背景，生成实例的掩码；

步骤S2：实例分割模型训练；

输入选取的训练数据集，包括图片数据和对应的标签文件；首先提取特征图，再进行特征图融合；然后增强全局信息，输入到head网络进行预测，得出损失函数，通过损失函数进行反向传播来优化模型训练的方向；

步骤S3：实例分割

首先将图片分成S×S个网络，每个网格负责预测中心点落在该位置的实例；即以该网格为中心，预测对应实例的类别和掩码。

2.根据权利要求1所述的一种结合自监督和全局信息增强的实例分割方法，其特征在于，所述特征提取网络为ResNet-50和FPN网络。

3.根据权利要求1所述的一种结合自监督和全局信息增强的实例分割方法，其特征在于，所述全局信息增强模块为基于加性注意力的Fastformer网络。

4.根据权利要求3所述的一种结合自监督和全局信息增强的实例分割方法，其特征在于，所述加性注意力根据输入的特征序列E∈R^N×d(N为序列长度，d为隐藏维数)进行线性变换分别得出查询矩阵、键矩阵和值矩阵，记为Q,K,V∈R^N×d。

5.根据权利要求4所述的一种结合自监督和全局信息增强的实例分割方法，其特征在于，对所述的查询矩阵Q采用加性注意力生成权重矩阵，与Q相加得到全局查询矩阵；然后将全局查询向量Q与键向量K进行点乘，对它们的相互关系进行建模。

6.根据权利要求5所述的一种结合自监督和全局信息增强的实例分割方法，其特征在于，采用上述相同的操作生成全局键向量，与值向量V进行交互建模，最后得出包含丰富全局语义信息的特征向量。

7.根据权利要求1所述的一种结合自监督和全局信息增强的实例分割方法，其特征在于，所述的自监督学习网络首先利用bounding box标签信息得到所有实例特征表示，对于随机选取的样本实例A，其余实例作为候选池，计算它与候选池的相似度得分。

8.根据权利要求7所述的一种结合自监督和全局信息增强的实例分割方法，其特征在于，所述相似度得分计算过程如下：

按照相似度得分对实例进行排序，取top-k作为查询集Q，然后利用查询集在候选池中挖掘伪正例。

9.根据权利要求8所述的一种结合自监督和全局信息增强的实例分割方法，其特征在于，所述挖掘伪正例过程包括：

(1)计算Q中每个实例与候选池中实例之间的相似度。候选池每个实例I都得到N个相似度得分(N为查询集Q中实例个数)；

(2)将这些相似度得分进行聚合操作，排序，取top-k且超过阈值的实例作为伪正例，加入查询集Q中；

(3)继续利用更新后的查询集Q进行伪正例挖掘，直至挖掘到的伪正例低于阈值。将查询集作为伪正例集，候选池中剩余实例作为负例集；

其中，p_i为伪正例集中实例，N_n为负样本数量，n_i为负例集中实例；

(5)对上述相似度得分取负对数，得到对比学习损失函数：

10.根据权利要求1所述的一种结合自监督和全局信息增强的实例分割方法，其特征在于，所述类别预测网络采用Focal loss，通过预测每个实例属于某一类别的概率得到损失函数；所述掩码预测网络用于对选取的实例区域中的像素点进行二分类，区分前景和背景，生成实例的掩码。