CN114419322A

CN114419322A - 一种图像实例分割方法、装置、电子设备及存储介质

Info

Publication number: CN114419322A
Application number: CN202210321177.6A
Authority: CN
Inventors: 刘聪
Original assignee: Feihu Information Technology Tianjin Co Ltd
Current assignee: Feihu Information Technology Tianjin Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-04-29
Anticipated expiration: 2042-03-30
Also published as: CN114419322B

Abstract

本发明提供一种图像实例分割方法、装置、电子设备及存储介质，将待分割图像输入目标SOLOV2模型，通过目标SOLOV2模型对待分割图像进行图像分割，得到最终实例分割图；目标SOLOV2模型包括ResNext101网络、FPN网络、预测网络和ARM模块，通过目标SOLOV2模型对待分割图像进行图像分割的过程为：通过FPN网络对通过ResNext101网络对待分割图像进行特征提取，得到的目标浅层特征和目标深层特征进行融合处理，得到目标高分辨率掩码特征；通过ARM模块利用高分辨率掩码特征和通过预测网络对目标高分辨率掩码特征进行实例分割处理得到的初始实例分割图，进行边界信息增强处理得到最终实例分割图。

Description

一种图像实例分割方法、装置、电子设备及存储介质

技术领域

本发明涉及图像分割技术领域，更具体地说，涉及一种图像实例分割方法、装置、电子设备及存储介质。

背景技术

弹幕是指一种在观看视频时，大量以字幕形式呈现的评论，且将评论与视频一同呈现给观众，但是当弹幕内容过多时，会对视频图像造成严重遮挡，影响视频观看体验，若选择直接关闭弹幕，观看体验不佳，而设定弹幕顶部显示，在弹幕数量过多时，会短时导致弹幕与直播内容不相关。因此，绝大多数视频网站都采用基于实例分割方式对弹幕进行智能人物防遮挡处理。

现有的图像实例分割方法，一般分为两阶段方法和一阶段方法，两阶段的方法通常遵循经典的“先检测后分割”策略。首先检测图像中的对象，并进一步每个检测到的边界框执行二值化分割，它的优点是定位精度高，但预测时延高，达不到实时，实例分割结果受物体检测框的影响。

一阶段方法将实例分割分为两个并行的子任务，采用单阶段的网络结构，使网络计算量尽量小，其中代表性的SOLO系列法经过不断的优化，在精度和预测速度的性价比方面达到了业界SOTA级别，其SOLO系列核心思想是将分割问题转化为位置分类问题，从而做到不需要anchor（锚框）及bounding box，而是根据实例的位置和大小，对每个实例的像素点赋予一个类别从而达到对实例对象进行分割的效果。具体而言，就是如果物体的中心落在了某个网格内，该网格就负责预测该物体的语义类别，并给每个像素点赋一个位置类别，但是其平等地对待proposal内的每个像素，忽略了目标形状及边界信息。

综上所述，现有的两种实例分割方法都存在实例边界的不精确分割，而实例边界的不精确分割会导致在视频播放是造成人物的抖动或者闪烁，大大影响了观众的视觉体验。

发明内容

有鉴于此，本发明提供一种图像实例分割方法、装置、电子设备及存储介质，以解决现有技术中，由于实例边界的不精确分割会导致在视频播放是造成人物的抖动或者闪烁，大大影响了观众的视觉体验。

本发明第一方面公开一种图像实例分割方法，所述方法包括：

获取待分割图像；

将所述待分割图像输入目标SOLOV2模型，并通过所述目标SOLOV2模型对所述待分割图像进行图像分割，得到最终实例分割图；其中，所述目标SOLOV2模型是利用实例分割数据集对待训练的SOLOV2模型进行训练得到；所述目标SOLOV2模型包括ResNext101网络、FPN网络、预测网络和ARM模块，所述通过所述目标SOLOV2模型对所述待分割图像进行图像分割的过程为：

通过所述ResNext101网络对所述待分割图像进行特征提取，得到目标浅层特征和目标深层特征；

通过所述FPN网络将所述目标浅层特征和所述目标深层特征进行融合处理，得到目标高分辨率掩码特征；

通过所述预测网络对所述目标高分辨率掩码特征进行实例分割处理，得到初始实例分割图，并将所述目标高分辨率掩码特征和所述初始实例分割图输入所述ARM模块；

通过所述ARM模块利用所述高分辨率掩码特征和所述初始实例分割图进行边界信息增强处理，得到最终实例分割图。

可选的，所述待训练的SOLOV2模型包括待训练的ResNext101网络、待训练的FPN网络，以及待训练的预测网络，所述利用实例分割数据集对待训练的SOLOV2模型进行训练，得到目标SOLOV2模型，包括：

获取实例分割数据集，其中，所述实例分割数据集包括多个实例分割数据；

针对每个所述实例分割数据而言，将所述实例分割数据输入待训练的SOLOV2模型，以使所述待训练的SOLOV2模型对所述实例分割数据进行实例分割，得到第一训练实例分割图，利用所述第一训练实例分割图与对应的目标实例分割图构造第一损失函数，并利用所述第一损失函数对所述待训练的ResNext101网络、所述待训练的FPN网络，以及所述待训练的预测网络的参数进行调整，直至所述待训练的SOLOV2模型达到收敛，得到初始SOLOV2模型；

利用所述初始SOLOV2模型和ARM模块构建SOLOV2模型；

针对每个所述实例分割数据而言，将所述实例分割数据输入所述SOLOV2模型；

通过所述SOLOV2模型中的ResNext101网络对所述实例分割数据进行特征提取，得到浅层特征和深层特征；

通过所述FPN网络将所述浅层特征和所述深层特征进行融合处理，得到高分辨率掩码特征；

通过所述SOLOV2模型中的预测网络对所述高分辨率掩码特征进行实例分割处理，得到第二训练实例分割图，并将所述高分辨率掩码特征和所述第二训练实例分割图输入所述SOLOV2模型中的所述ARM模块；

通过所述SOLOV2模型中所述ARM模块的利用所述高分辨率掩码特征对所述第二训练实例分割图进行增强处理，得到第三训练实例分割图；

利用所述第三训练实例分割图与对应的目标实例分割图构造第二损失函数，并利用所述第二损失函数对所述SOLOV2模型中的预测网络和ARM模块的参数进行调整，直至所述SOLOV2模型达到收敛，得到目标SOLOV2模型。

可选的，所述预测网络包括类别分支和掩码分支，所述通过所述预测网络对所述目标高分辨率掩码特征进行实例分割处理，得到初始实例分割图，包括：

通过所述类别分支对所述高分辨率掩码图进行类别预测，得到至少一个目标类别特征图；

通过所述掩码分支对每个所述目标类别特征图进行分割处理，得到初始实例分割图。

可选的，所述通过所述ARM模块利用所述高分辨率掩码特征和所述初始实例分割图进行边界信息增强处理，得到最终实例分割图，包括：

通过所述ARM模块采用预设算法对所述目标高分辨率掩码特征进行预测，得到目标实例边缘特征，并利用所述目标实例边缘特征对所述初始实例分割图进行边界信息增强处理，得到最终实例分割图。

本发明第二方面公开一种图像实例分割装置，所述装置包括：

待分割图像获取单元，用于获取待分割图像；

目标SOLOV2模型，对输入的所述待分割图像进行图像分割，得到最终实例分割图；其中，所述目标SOLOV2模型是基于预训练单元利用实例分割数据集对待训练的SOLOV2模型进行训练得到；所述目标SOLOV2模型包括ResNext101网络、FPN网络、预测网络和ARM模块；

所述ResNext101网络，用于对所述待分割图像进行特征提取，得到目标浅层特征和目标深层特征；

所述FPN网络，用于将所述目标浅层特征和所述目标深层特征进行融合处理，得到目标高分辨率掩码特征；

所述预测网络，用于对所述目标高分辨率掩码特征进行实例分割处理，得到初始实例分割图；并将所述目标高分辨率掩码特征和所述初始实例分割图输入所述ARM模块；

所述ARM模块，用于利用所述高分辨率掩码特征和所述初始实例分割图进行边界信息增强处理，得到最终实例分割图。

可选的，所述待训练的SOLOV2模型包括待训练的ResNext101网络、待训练的FPN网络，以及待训练的预测网络，所述训练单元，包括：

实例分割数据获取单元，用于获取实例分割数据集，其中，所述实例分割数据集包括多个实例分割数据；

第一训练子单元，用于针对每个所述实例分割数据而言，将所述实例分割数据输入待训练的SOLOV2模型，以使所述待训练的SOLOV2模型对所述实例分割数据进行实例分割，得到第一训练实例分割图，利用所述第一训练实例分割图与对应的目标实例分割图构造第一损失函数，并利用所述第一损失函数对所述待训练的ResNext101网络、所述待训练的FPN网络，以及所述待训练的预测网络的参数进行调整，直至所述待训练的SOLOV2模型达到收敛，得到初始SOLOV2模型；

SOLOV2模型构建单元，用于利用所述初始SOLOV2模型和ARM模块构建SOLOV2模型；

输入单元，用于针对每个所述实例分割数据而言，将所述实例分割数据输入所述SOLOV2模型；

特征提取单元，用于通过所述SOLOV2模型中的所述ResNext101网络对所述实例分割数据进行特征提取，得到浅层特征和深层特征；

融合处理单元，用于通过所述FPN网络将所述浅层特征和所述深层特征进行融合处理，得到高分辨率掩码特征；

第一实例分割单元，用于通过所述SOLOV2模型中的所述预测网络对所述高分辨率掩码特征进行实例分割处理，得到第二训练实例分割图；

图像增强处理单元，用于将所述高分辨率掩码特征和所述第二训练实例分割图输入所述SOLOV2模型中的所述ARM模块，并通过所述SOLOV2模型中所述ARM模块的利用所述高分辨率掩码特征对所述第二训练实例分割图进行增强处理，得到第三训练实例分割图；

第二训练子单元，用于利用所述第三训练实例分割图与对应的目标实例分割图构造第二损失函数，并利用所述第二损失函数对所述SOLOV2模型中的预测网络和所述ARM模块的参数进行调整，直至所述SOLOV2模型达到收敛，得到目标SOLOV2模型。

可选的，所述预测网络包括类别分支和掩码分支，所述用于对所述目标高分辨率掩码特征进行类别预测，并对得到的每个类别特征图进行分割处理，得到初始实例分割图的所述预测网络，具体用于：

通过所述类别分支对所述目标高分辨率掩码图进行类别预测，得到至少一个目标类别特征图；通过所述掩码分支对每个所述目标类别特征图进行分割处理，得到初始实例分割图。

可选的，所述利用所述高分辨率掩码特征和所述初始实例分割图进行边界信息增强处理，得到最终实例分割图的所述ARM模块，具体用于：

本发明第三方面公开一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储图像实例分割的程序代码和数据，所述处理器用于调用所述存储器中的程序指令执行如上述本发明第一方面公开的一种图像实例分割方法。

本发明第四方面公开一种存储介质，所述存储介质包括存储程序，其中，在所述程序运行时控制所述存储介质所在设备执行如上述本发明第一方面公开的一种图像实例分割方法。

本发明提供一种图像实例分割方法、装置、电子设备及存储介质，预先利用公开实例分割数据集对待训练的SOLOV2模型进行训练得到目标SOLOV2模型，其中，目标SOLOV2模型包括ResNext101网络、FPN网络、预测网络和ARM模块。在获取到待分割图像之后，可以将获取的待分割图像输入目标SOLOV2模型中，以便通过目标SOLOV2模型中的ResNext101网络对待分割图像进行特征提取，得到目标浅层特征和目标深层特征；通过FPN网络将目标浅层特征和目标深层特征进行融合处理，得到目标高分辨率掩码特征；通过预测网络对目标高分辨率掩码特征进行实例分割处理，得到初始实例分割图，最后将目标高分辨率掩码特征和初始实例分割图共同输入ARM模块，并通过ARM模块利用高分辨率掩码特征和初始实例分割图进行边界信息增强处理，得到最终实例分割图。本发明通过将ARM模块集成到目标SOLOV2模型中，可以利用ARM模块对得到的初始实例分割图做进一步的边界信息增强处理，使得得到的实例分割图的边界更加的精准，从而解决了现有技术中，由于实例边界的不精确分割会导致在视频播放是造成人物的抖动或者闪烁，大大影响了观众的视觉体验的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种图像实例分割方法的流程示意图；

图2为本发明实施例提供的一种利用实例分割数据集对待训练的SOLOV2模型进行训练得到目标SOLOV2模型的过程的流程图；

图3为本发明实施例提供的一种通过目标SOLOV2模型对待分割图像进行图像分割的过程的流程图；

图4为本发明实施例提供的一种图像实例分割装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本发明公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本发明公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

实例分割：需要预测对象实例及其每像素分割掩码。借一个浅显的说法：语义分割不区分属于相同类别的不同实例。例如，当图像中有多只猫时，语义分割会将两只猫整体的所有像素预测为“猫”这个类别。

ResNext101网络：SOLOV2模型中采用的特征提取网络。在神经网络中，尤其是CV领域，一般先对图像进行特征提取，在不同图像细粒度上聚合并形成图像特征，这一部分是整个CV任务的根基，因为后续的下游任务都是基于此提取出来的图像特征（比如实例分割、目标检测等等），也将这一部分网络结构称为Backbone。

FPN网络：一系列混合和组合图像特征的网络层，并将图像特征传递到后续预测层，是SOLOV2模型承上启下的关键环节。它对Backbone提取到的重要特征，进行再加工及合理利用。

卷积层：由于图像中相邻像素之间的联系较为紧密，而距离较远的像素联系相对较弱。因此，每个神经元只需要感知局部信息，然后在更高层综合局部信息即可得到全局信息。卷积操作即是局部感受野的实现，并且卷积操作可以权值共享以大大降低参数量而被广泛使用。

池化层：池化层又称下采样，通常在卷积层之间增加池化层，作用是实现特征降维，去除冗余信息、对特征进行压缩，减小了下一层的输入大小，进而减少计算量和参数量，加快计算速度。同时在降维过程中更关注全局特征，保留重要信息，这样在一定程度上可以缓解过拟合。

激活层：激活层对于强化神经网络的学习能力而言十分重要。它对于提高模型鲁棒性，增强非线性表达能力，缓解梯度消失，加速模型收敛等问题都有很好的帮助。

参见图1，示出了本发明实施例提供的一种图像实例分割方法的流程示意图，该图像实例分割方法具体包括以下步骤：

S101：获取待分割图像。

S102：将待分割图像输入目标SOLOV2模型，并通过目标SOLOV2模型对待分割图像进行图像分割，得到最终实例分割图。

其中，目标SOLOV2模型是利用实例分割数据集对待训练的SOLOV2模型进行训练得到；目标SOLOV2模型包括ResNext101网络、FPN网络、预测网络和ARM模块。

在具体执行步骤102的过程中，在获取到待分割图像后，可以将待分割图像输入，预先利用实例分割数据集对待训练的SOLOV2模型进行训练得到目标SOLOV2模型，以便通过目标SOLOV2模型中的ResNext101网络、FPN网络、预测网络和ARM模块对待分割图像进行图像实例分割，得到实例分割图。

在本申请实施例中，待训练的SOLOV2模型包括待训练的ResNext101网络、待训练的FPN网络，以及待训练的预测网络。其中，待训练的ResNext101网络由一系列卷积层、池化层、激活层组成；待训练的预测网络包括类别分支和掩码分支。

在本申请实施例中，利用实例分割数据集对待训练的SOLOV2模型进行训练得到目标SOLOV2模型的过程，如图2所示，具体包括以下步骤：

S201：获取实例分割数据集，其中，实例分割数据集包括多个实例分割数据。

在本申请实施例中，实例分割数据集可以为MSCOCO实例分割数据集。可以根据实际应用进行选取，本申请实施例不加以限定。

S202：针对每个实例分割数据而言，将实例分割数据输入待训练的SOLOV2模型，以使待训练的SOLOV2模型对实例分割数据进行实例分割，得到第一训练实例分割图，利用第一训练实例分割图与对应的目标实例分割图构造第一损失函数，并利用第一损失函数对待训练的ResNext101网络、待训练的FPN网络，以及待训练的预测网络的参数进行调整，直至待训练的SOLOV2模型达到收敛，得到初始SOLOV2模型。

在具体执行步骤S202的过程中，在获取到实例分割数据集后，针对实例分割数据集中的每个实例分割数据而言，可以将该实例分割数据输入待训练的SOLOV2模型。

通过待训练的ResNext101网络提取实例分割数据的浅层特征和深层特征，并利用待训练的FPN网络将提取到的浅层特征和深层特征进行特征融合，得到统一的高分辨率掩码特征；利用待训练的预测网络对得到的统一的高分辨率掩码特征进行实例分割处理，得到第一训练实例分割图；最后根据第一训练实例分割图和该实例分割数据对应的目标实例分割图构建第一损失函数。

利用第一损失函数对待训练的ResNext101网络、待训练的FPN网络，以及待训练的预测网络的参数进行调整，直至待训练的SOLOV2模型达到收敛，得到初始SOLOV2模型。其中，初始SOLOV2模型包括ResNext101网络、FPN网络，以及预测网络。

在本申请实施例中，可以通过靠近待训练的ResNext101网络输入端的卷积层(例如第一个或者第二个卷积层)提取实例分割数据的浅层特征，通过靠近待训练的ResNext101网络输出端的卷积层(例如倒数第一个或者倒数第二个卷积层）提取实例分割数据的深层特征。

需要说明的是，浅层特征的特征图尺寸较大，包含图像的一下颜色、纹理、边缘等信息；浅层特征的感受野较小，感受野重叠区域也比较小，能够保证后续网络捕捉到图像的更多细节。深层特征的特征图尺寸较小，包含是图像中一下更为抽象的信息，例如语义信息、图像整体性信息等等；深层特征的感受野较大，感受野之前的重叠区域增加，图像信息进行压缩，能够能好的获取图像整体性信息。

可选的，在本申请实施例中，通过类别分支对通过待训练的FPN网络得到的高分辨率掩码图进行类别预测，得到至少一个类别特征图；再通过掩码分支对每个类别特征图进行分割处理，得到第一训练实例分割图。其中，掩码分支包括mask核分支和与mask特征分支。

具体的，针对每个类别特征图而言，将该类别特征图输入mask核分支中的连续的四个3x3卷积层中，以用于进一步提取特征，最后经过一个大小为3x3xD的卷积来生成最终的动态卷积内核；该类别特征图依次经过mask特征分支中的3个3x3卷积层，组范数，ReLU激活以得到最终的掩码特征；最后将动态卷积内核与掩码特征进行点乘以得到最终包括前景和背景的第一训练实例分割图。

S203：利用初始SOLOV2模型和ARM模块构建SOLOV2模型。

在具体执行步骤S203的过程中，在利用实例分割数据对待训练的SOLOV2模型进行训练，得到初始SOLOV2模型后，可以利用初始SOLOV2模型和预先构建的ARM模块构建SOLOV2模型。

S204：针对每个实例分割数据而言，将实例分割数据输入SOLOV2模型。

在具体执行步骤S204的过程中，在构建出SOLOV2模型后，针对每个实例分割数据而言，将该实例分割数据输入上述构建的SOLOV2模型中。

S205：通过SOLOV2模型中的ResNext101网络对实例分割数据进行特征提取，训练浅层特征和训练深层特征；并通过FPN网络将浅层特征和深层特征进行融合处理，得到的高分辨率掩码特征。

在具体执行步骤S205的过程中，在将实例分割数据输入上述构建的SOLOV2模型后，可以通过该SOLOV2模型中靠近ResNext101网络输入端的卷积层(例如第一个或者第二个卷积层)提取实例分割数据的浅层特征，通过靠近ResNext101网络输出端的卷积层(例如倒数第一个或者倒数第二个卷积层）提取实例分割数据的深层特征。

并利用FPN网络对上述提取到的浅层特征和深层特征依次进行一系列的3x3卷积、ReLU激活、双线性上采样性插值处理，得到统一的高分辨率掩码特征。

S206：通过SOLOV2模型中的预测网络对高分辨率掩码特征进行实例分割处理，得到第二训练实例分割图。

在具体执行步骤S206的过程中，在得到实例分割数据的高分辨率掩码图之后，可以利用SOLOV2模型中的预测网络中的类别分支对高分辨率掩码图进行类别预测，得到至少一个类别特征图；针对每个类别特征图而言，将该类别特征图输入mask核分支中的连续的四个3x3卷积层中，以用于进一步提取特征，最后经过一个大小为3x3xD的卷积来生成最终的动态卷积内核；该类别特征图依次经过mask特征分支中的3个3x3卷积层，组范数，ReLU激活以得到最终的掩码特征；最后将动态卷积内核与掩码特征进行点乘以得到最终包括前景和背景的第二训练实例分割图。其中，掩码分支包括mask核分支和与mask特征分支。

S207：将高分辨率掩码特征和第二训练实例分割图输入SOLOV2模型中的ARM模块，并通过SOLOV2模型中的ARM模块利用高分辨率掩码特征对第二训练实例分割图进行增强处理，得到第三训练实例分割图。

在具体执行步骤S207的过程中，在得到第二训练实例分割图后，可以将将高分辨率掩码特征和第二训练实例分割图输入SOLOV2模型中的ARM模块；通过该ARM模块采用预设算法对高分辨率掩码特征进行预测，得到实例边缘特征，并利用实例边缘特征对初始实例分割图进行边界信息增强处理，得到第三训练实例分割图。

具体的，将得到的高分辨率掩码特征输入SOLOV2模型中的ARM模块中，以便SOLOV2模型中的ARM模块采用预设算法对高分辨率掩码特征进行预测，得到实例边缘特征。首先将实例边缘特征和第二训练实例分割图通过该ARM模块中的1*1卷积，以融合实例边缘特征和第二训练实例分割图中的多个输入和减少相应的通道数，并通过3个并行且含有不同空洞率的3*3卷积对得到的结果进行处理，生成不同感受野下的3个特征空间，分别为E、F、G。其中｛ E，F，G｝∈R ^C×H×W，Reshape为｛ E，F，G｝∈R ^C×N，其中，N=H×W。

其次，可以将特征空间F进行转置后与特征空间E进行矩阵乘积运算，并应用Softmax函数对得到的运行结果进行计算，得到注意力图S，S∈R ^N*N。将特征空间G进行转置后与注意力图S进行相乘，并保持Reshape为原来的形状，将相关实例边缘特征的边界信息重新分布到第二训练实例分割图上，得到特征V，V∈R ^C×H×W。其中，应用Softmax函数对得到的运行结果进行计算，得到注意力图S的过程可参见公式（1）；将特征空间G进行转置后与注意力图S进行想成乘，得到特征V的过程可参见公式（2）。

最后，将特征V和第二训练实例分割图进行逐像素相加，增强了边界信息在第二训练实例分割图中的表达能力，得到第三训练实例分割结果。需要说明的是，在注意图S中，如果权重越大，则掩膜边界特征则越相似，显示为高亮前景区域，相反权重越小，则边界特征不同，代表背景信息。

（1）

其中，S _ij表示为第i个位置对第j个位置的影响，两个空间位置的特征（特征空间E和特征空间F）越相似，它们之间的相关性S _ij就越高。

（2）

其中，i代表当前空间位置的响应，注意力图S _ij与特征空间G _i相乘，可以把相关边界信息重新分布到第二训练实例分割图上，最后再将这个信息与第二训练实例分割图相加，得到最终输出，这个输出结合了整张图的相关性结果，这样可以增强边界信息在原始特征图中的表达能力。

需要说明的是，预设算法可以为边缘检测算法canny。这种算法可以尽可能的关注图像的边界信息以标识出实际边缘特征。

S208：利用第三训练实例分割图与对应的目标实例分割图构造第二损失函数，并利用第二损失函数对SOLOV2模型中的预测网络和ARM模块的参数进行调整，直至SOLOV2模型达到收敛，得到目标SOLOV2模型。

在具体执行步骤S208的过程中，在得到第三训练实例分割图后，可以进一步利用得到的第三训练实例分割图和对应的目标实例分割图构造第二损失函数，并利用第二损失函数对SOLOV2模型中的预测网络和ARM模块的参数进行调整，直至SOLOV2模型达到收敛，得到目标SOLOV2模型。

在本申请实施例中，首先通过ARM模块在FPN网络输出的统一的高分辨率掩码特征上额外采用边缘检测算法canny来预测较粗糙的实例边缘特征，以提供相对准确的位置信息；其次将得到的实例边缘实例特征并与第一实例分割结果融合一起后送入到ARM模块中的注意力网络以自适应的捕获上下文信息，得到边界信息增强的特征图，最后基于增强特征图，得到最终的（第三训练实例分割图）；在利用实例分割数据集对待训练的SOLOV2模型进行训练得到SOLOV2模型后，为了进一步提高得到SOLOV2模型的实例边缘分割结果的准确性，和缩短模型训练时间，采用梯度分离策略即在微调的过程中，冻结SOLOV2模型中的ResNext101网络和FPN网络，即仅对预测网络和ARM模块中的参数进行调整，可以有效的减少了由于特征提取的不准确性导致的实例截断等问题。

在本申请实施例中，通过目标SOLOV2模型对待分割图像进行图像分割的过程，如图3所示，具体包括以下步骤：

S301：通过ResNext101网络对待分割图像进行特征提取，得到目标浅层特征和目标深层特征。

在具体执行步骤S301的过程中，可以通过目标SOLOV2模型中靠近ResNext101网络输入端的卷积层(例如第一个或者第二个卷积层)提取待分割图像的目标浅层特征，通过靠近该ResNext101网络输出端的卷积层(例如倒数第一个或者倒数第二个卷积层）提取待分割图像的目标深层特征。

S302：通过FPN网络将浅层特征和深层特征进行融合处理，得到的目标高分辨率掩码特征。

在具体执行步骤S303的过程中，通过目标SOLOV2模型中的FPN网络对提取到目标浅层特征和目标深层特征依次进行一系列的3x3卷积、ReLU激活、双线性上采样性插值处理，得到目标高分辨率掩码特征。

S303：通过预测网络对目标高分辨率掩码特征进行实例分割处理，得到初始实例分割图，并将高分辨率掩码特征和初始实例分割图输入ARM模块。

在具体执行步骤S303的过程中，在得到待分割图像的目标高分辨率掩码图之后，可以利用目标SOLOV2模型中的预测网络中的类别分支对目标高分辨率掩码图进行类别预测，得到至少一个目标类别特征图；针对每个目标类别特征图而言，将该目标类别特征图输入mask核分支中的连续的四个3x3卷积层中，以用于进一步提取特征，最后经过一个大小为3x3xD的卷积来生成目标动态卷积内核；该类别特征图依次经过mask特征分支中的3个3x3卷积层，组范数，ReLU激活以得到目标掩码特征；最后将目标动态卷积内核与目标掩码特征进行点乘以得到包括前景和背景的初始实例分割图。其中，掩码分支包括mask核分支和与mask特征分支。

S304：通过ARM模块利用高分辨率掩码特征和初始实例分割图进行边界信息增强处理，得到最终实例分割图。

在具体执行步骤S304的过程中，在得到初始实例分割图后，可以将目标高分辨率掩码特征和初始实例分割图输入目标SOLOV2模型中的ARM模块；通过该ARM模块采用预设算法对目标高分辨率掩码特征进行预测，得到目标实例边缘特征，并利用目标实例边缘特征对初始实例分割图进行边界信息增强处理，得到实例分割图。

其中，通过ARM模块利用高分辨率掩码特征对初始实例分割图进行增强处理，得到实例分割图的具体过程与上述步骤S207中的得到第三训练实例分割图的过程相同，可参见上述步骤S207中相应的内容，这里不加进行赘述。

本发明提供一种图像实例分割方法，预先利用实例分割数据集对待训练的SOLOV2模型进行训练得到目标SOLOV2模型，其中，目标SOLOV2模型包括ResNext101网络、FPN网络、预测网络和ARM模块。在获取到待分割图像之后，可以将获取的待分割图像输入目标SOLOV2模型中，以便通过目标SOLOV2模型中的ResNext101网络对待分割图像进行特征提取，得到目标浅层特征和目标深层特征；通过FPN网络将目标浅层特征和目标深层特征进行融合处理，得到目标高分辨率掩码特征；通过预测网络对目标高分辨率掩码特征进行实例分割处理，得到初始实例分割图，最后将目标高分辨率掩码特征和初始实例分割图共同输入ARM模块，并通过ARM模块利用高分辨率掩码特征和初始实例分割图进行边界信息增强处理，得到最终实例分割图。本发明通过将ARM模块集成到目标SOLOV2模型中，可以利用ARM模块对得到的初始实例分割图做进一步的边界信息增强处理，使得得到的实例分割图的边界更加的精准，从而解决了现有技术中，由于实例边界的不精确分割会导致在视频播放是造成人物的抖动或者闪烁，大大影响了观众的视觉体验的问题。

上述本发明实施例公开的一种图像实例分割方法相对应，参考图4，本发明实施例还提供了一种图像实例分割装置的结构示意图，该图像实例分割装置，包括：

待分割图像获取单元41，用于获取待分割图像；

目标SOLOV2模型42，对输入的待分割图像进行图像分割，得到实例分割图；其中，目标SOLOV2模型是基于预训练单元利用实例分割数据集对待训练的SOLOV2模型进行训练得到；目标SOLOV2模型包括ResNext101网络、FPN网络、预测网络和ARM模块；

ResNext101网络，用于对待分割图像进行特征提取，得到目标浅层特征和目标深层特征；

FPN网络，用于将目标浅层特征和目标深层特征进行融合处理，得到目标高分辨率掩码特征；

预测网络，用于对目标高分辨率掩码特征进行实例分割处理，得到初始实例分割图；并将目标高分辨率掩码特征和初始实例分割图输入ARM模块；

ARM模块，用于利用高分辨率掩码特征和初始实例分割图进行边界信息增强处理，得到最终实例分割图。

本发明提供一种图像实例分割装置，预先利用实例分割数据集对待训练的SOLOV2模型进行训练得到目标SOLOV2模型，其中，目标SOLOV2模型包括ResNext101网络、FPN网络、预测网络和ARM模块。在获取到待分割图像之后，可以将获取的待分割图像输入目标SOLOV2模型中，以便通过目标SOLOV2模型中的ResNext101网络对待分割图像进行特征提取，得到目标浅层特征和目标深层特征；通过FPN网络将目标浅层特征和目标深层特征进行融合处理，得到目标高分辨率掩码特征；通过预测网络对目标高分辨率掩码特征进行实例分割处理，得到初始实例分割图，最后将目标高分辨率掩码特征和初始实例分割图共同输入ARM模块，并通过ARM模块利用高分辨率掩码特征和初始实例分割图进行边界增强处理，得到最终实例分割图。本发明通过将ARM模块集成到目标SOLOV2模型中，可以利用ARM模块对得到的初始实例分割图做进一步的增强处理，使得得到的实例分割图的边界更加的精准，从而解决了现有技术中，由于实例边界的不精确分割会导致在视频播放是造成人物的抖动或者闪烁，大大影响了观众的视觉体验的问题。

可选的，待训练的SOLOV2模型包括待训练的ResNext101网络、待训练的FPN网络，以及待训练的预测网络，训练单元，包括：

实例分割数据获取单元，用于获取实例分割数据集，其中，实例分割数据集包括多个实例分割数据；

第一训练子单元，用于针对每个实例分割数据而言，将实例分割数据输入待训练的SOLOV2模型，以使待训练的SOLOV2模型对实例分割数据进行实例分割，得到第一训练实例分割图，利用第一训练实例分割图与对应的目标实例分割图构造第一损失函数，并利用第一损失函数对待训练的ResNext101网络、待训练的FPN网络，以及待训练的预测网络的参数进行调整，直至待训练的SOLOV2模型达到收敛，得到初始SOLOV2模型；

SOLOV2模型构建单元，用于利用初始SOLOV2模型和ARM模块构建SOLOV2模型；

输入单元，用于针对每个实例分割数据而言，将实例分割数据输入SOLOV2模型；

特征提取单元，用于通过SOLOV2模型中的ResNext101网络对实例分割数据进行特征提取，得到浅层特征和深层特征；

融合处理单元，用于通过FPN网络将浅层特征和深层特征进行融合处理，得到高分辨率掩码特征；

第一实例分割单元，用于通过SOLOV2模型中的预测网络对高分辨率掩码特征进行实例分割处理，得到第二训练实例分割图；

图像增强处理单元，用于将高分辨率掩码特征和第二训练实例分割图输入SOLOV2模型中的ARM模块，并通过SOLOV2模型中ARM模块的利用高分辨率掩码特征对第二训练实例分割图进行增强处理，得到第三训练实例分割图；

第二训练子单元，用于利用第三训练实例分割图与对应的目标实例分割图构造第二损失函数，并利用第二损失函数对SOLOV2模型中的预测网络和ARM模块的参数进行调整，直至SOLOV2模型达到收敛，得到目标SOLOV2模型。

可选的，预测网络包括类别分支和掩码分支，用于对目标高分辨率掩码特征进行类别预测，并对得到的每个类别特征图进行分割处理，得到初始实例分割图的预测网络，具体用于：

通过类别分支对目标高分辨率掩码图进行类别预测，得到至少一个目标类别特征图；通过掩码分支对每个目标类别特征图进行分割处理，得到初始实例分割图。

可选的，利用高分辨率掩码特征对初始实例分割图进行增强处理，得到实例分割图的ARM模块，具体用于：

通过ARM模块采用预设算法对目标高分辨率掩码特征进行预测，得到目标实例边缘特征，并利用目标实例边缘特征对初始实例分割图进行边界信息增强处理，得到最终实例分割图。

本申请实施例还提供一种电子设备，该电子设备包括：处理器以及存储器，所述处理器以及存储器通过通信总线相连；其中，所述处理器，用于调用并执行所述存储器中存储的程序；所述存储器，用于存储程序，该程序用于实现图像实例分割方法。

下面参考图5，其示出了适于用来实现本发明公开实施例的电子设备的结构示意图。本发明公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本发明公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备可以包括处理装置（例如中央处理器、图形处理器等）501，其可以根据存储在只读存储器（ROM）502中的程序或者从存储装置508加载到随机访问存储器（RAM）503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的图像分割方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本发明公开实施例的图像分割方法中限定的上述功能。

更进一步的，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行图像分割方法。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待分割图像；将所述待分割图像输入目标SOLOV2模型，并通过所述目标SOLOV2模型对所述待分割图像进行图像分割，得到实例分割图；其中，所述目标SOLOV2模型是利用实例分割数据集对待训练的SOLOV2模型进行训练得到；所述目标SOLOV2模型包括ResNext101网络、FPN网络、预测网络和ARM模块，所述通过所述目标SOLOV2模型对所述待分割图像进行图像分割的过程为：通过所述ResNext101网络对所述待分割图像进行特征提取，得到目标浅层特征和目标深层特征；通过所述FPN网络将所述目标浅层特征和所述目标深层特征进行融合处理，得到目标高分辨率掩码特征；通过所述预测网络对所述目标高分辨率掩码特征进行实例分割处理，得到初始实例分割图，并将所述目标高分辨率掩码特征和所述初始实例分割图输入所述ARM模块；通过所述ARM模块利用所述高分辨率掩码特征和所述初始实例分割图进行边界信息增强处理，得到最终实例分割图。

在本发明公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

需要说明的是，本发明公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像实例分割方法，其特征在于，所述方法包括：

获取待分割图像；

2.根据权利要求1所述的方法，其特征在于，所述待训练的SOLOV2模型包括待训练的ResNext101网络、待训练的FPN网络，以及待训练的预测网络，所述利用实例分割数据集对待训练的SOLOV2模型进行训练，得到目标SOLOV2模型，包括：

利用所述初始SOLOV2模型和ARM模块构建SOLOV2模型；

3.根据权利要求2所述的方法，其特征在于，所述预测网络包括类别分支和掩码分支，所述通过所述预测网络对所述目标高分辨率掩码特征进行实例分割处理，得到初始实例分割图，包括：

4.根据权利要求1所述的方法，其特征在于，所述通过所述ARM模块利用所述高分辨率掩码特征和所述初始实例分割图进行边界信息增强处理，得到最终实例分割图，包括：

5.一种图像实例分割装置，其特征在于，所述装置包括：

待分割图像获取单元，用于获取待分割图像；

6.根据权利要求5所述的装置，其特征在于，所述待训练的SOLOV2模型包括待训练的ResNext101网络、待训练的FPN网络，以及待训练的预测网络，所述训练单元，包括：

7.根据权利要求6所述的装置，其特征在于，所述预测网络包括类别分支和掩码分支，所述用于对所述目标高分辨率掩码特征进行类别预测，并对得到的每个类别特征图进行分割处理，得到初始实例分割图的所述预测网络，具体用于：

8.根据权利要求5所述的装置，其特征在于，所述利用所述高分辨率掩码特征和所述初始实例分割图进行边界信息增强处理，得到最终实例分割图的所述ARM模块，具体用于：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储图像实例分割的程序代码和数据，所述处理器用于调用所述存储器中的程序指令执行如权利要求1-4中任一项所述的一种图像实例分割方法。

10.一种存储介质，其特征在于，所述存储介质包括存储程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-4中任一项所述的一种图像实例分割方法。