CN114565768A

CN114565768A - 图像分割方法及装置

Info

Publication number: CN114565768A
Application number: CN202210239600.8A
Authority: CN
Inventors: 王伟农; 戴宇荣
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-05-31

Abstract

本公开关于一种图像分割方法及装置，所述图像分割方法包括：将待处理图像输入到第一图像特征提取网络中，得到第一图像特征；基于所述第一图像特征，提取出第一图像语义特征和第二图像语义特征；将所述待处理图像和针对所述待处理图像的图像分割信息输入到第二图像特征提取网络中，得到第二图像特征；基于所述第一图像语义特征、所述第二图像语义特征和所述第二图像特征，得到针对待分割对象的目标掩码；基于所述目标掩码对所述待处理图像进行分割处理，得到针对待分割对象的图像分割结果。根据本公开的图像分割方法及装置可以解决图像分割导致的计算开销大和运行耗时的问题，可以在保证分割速度的同时基于得到的掩码获取准确的分割结果。

Description

图像分割方法及装置

技术领域

本公开涉及图像处理领域，尤其涉及一种图像分割方法及装置。

背景技术

图像分割技术是一项非常重要的计算机视觉任务，它在图像检索、图片编辑和影视制作中有诸多应用。交互式分割(Interactive Segmentation)作为图像分割领域的一种具体分割方式，旨在以最少的用户输入和推理时间实现感兴趣对象和背景的区分，并达到最佳的分割精度。由于用户输入信息(例如点击，涂抹，边界框等)的多样性，交互式分割为用户提供了极大的灵活度并能够根据用户引导对当前分割结果进行有效调整。

交互式分割具体可以划分为输入图像的特征提取(Feature Encoding)和用户交互(User Interaction)处理等两个子任务。目前，交互式分割通常将两个子任务进行强耦合、以端到端(End-to-end)的方式集合输入图像的特征提取和用户交互处理来获取目标掩码，在该过程中，需要多次迭代，也即多次重复经历整个网络来得到分割结果。但为了得到较好的分割结果，一般会采用较复杂的网络来进行交互式分割，也就是采用一个较复杂网络进行特征提取和用户交互处理，这样会带来非常大的计算开销和运行耗时。

发明内容

本公开提供一种图像分割方法及装置，以至少解决相关技术中图像分割常常导致非常大的计算开销和运行耗时的问题。

根据本公开实施例的第一方面，提供一种图像分割方法，所述图像分割方法包括：将待处理图像输入到第一图像特征提取网络中，得到第一图像特征；基于所述第一图像特征，提取出第一图像语义特征和第二图像语义特征，其中，所述第一图像语义特征和所述第二图像语义特征分别包含所述待处理图像中的待分割对象的信息且彼此不同；将所述待处理图像和针对所述待处理图像的图像分割信息输入到第二图像特征提取网络中，得到第二图像特征，其中，所述第二图像特征提取网络从图像中提取的图像特征的信息量小于所述第一图像特征提取网络从所述图像中提取的图像特征的信息量，所述图像分割信息用于指示所述待处理图像中的所述待分割对象在所述待处理图像中的位置信息；基于所述第一图像语义特征、所述第二图像语义特征和所述第二图像特征，得到针对所述待分割对象的目标掩码；基于所述目标掩码对所述待处理图像进行分割处理，得到针对所述待分割对象的图像分割结果。

可选地，所述图像分割信息通过以下方式获取：获取用户针对本次图像分割的指示所述待处理图像中所述待分割对象的交互信息以及上一次图像分割得到的所述待分割对象的目标掩码；将所述交互信息和上一次图像分割得到的所述待分割对象的目标掩码作为本次图像分割的图像分割信息。

可选地，基于所述第一图像语义特征、所述第二图像语义特征和所述第二图像特征，得到针对所述待分割对象的目标掩码的步骤包括：基于所述第一图像语义特征和所述第二图像语义特征，得到所述第一图像语义特征和所述第二图像语义特征之间的相似性特征；将所述相似性特征与所述第二图像特征进行融合，得到融合图像特征；基于所述融合图像特征，得到所述目标掩码。

可选地，将所述相似性特征与所述第二图像特征融合，得到融合图像特征的步骤包括：将所述相似性特征与所述第二图像特征融合，得到初始融合图像特征；将所述初始融合图像特征与所述第二图像特征进行拼接，得到拼接后的特征；将所述拼接后的特征输入到残差网络中，得到所述融合图像特征。

可选地，基于所述第一图像语义特征和所述第二图像语义特征，得到所述第一图像语义特征和所述第二图像语义特征之间的相似性特征的步骤包括：根据针对所述待处理图像预设的包括所述待分割对象的感兴趣区域，分别对所述第一图像语义特征和所述第二图像语义特征进行区域标记；基于区域标记后的所述第一图像语义特征和所述第二图像语义特征的相似性，得到所述相似性特征。

可选地，所述第二图像特征提取网络基于所述待处理图像和所述图像分割信息提取出多个第二图像特征，其中，将所述相似性特征与所述第二图像特征进行融合，得到融合图像特征的步骤包括：将所述相似性特征与所述多个第二图像特征中分辨率最小的第二图像特征进行融合，得到融合图像特征，其中，基于所述融合图像特征，得到所述目标掩码的步骤包括：将所述融合图像特征和所述多个第二图像特征中的除了所述分辨率最小的第二图像特征之外的第二图像特征输入到图像掩码提取网络中，得到针对所述待分割对象的目标掩码。

可选地，所述第二图像特征提取网络和所述图像掩码提取网络通过以下方式训练：获取训练样本图像和图像标注信息，其中，所述训练样本图像包括一个或多个样本对象，所述图像标注信息表示每个样本对象在所述训练样本图像中的位置；按照预定尺度，对所述训练样本图像的不同部分进行动态裁剪，以从所述训练样本图像中裁剪出多个不同的裁剪图像；将所述裁剪图像输入到所述第二图像特征提取网络中，从所述第二图像特征提取网络提取出针对所述裁剪图像的裁剪图像特征；将所述裁剪图像特征输入到所述图像掩码提取网络中，从所述图像掩码提取网络提取出针对所述裁剪图像的裁剪图像掩码；基于所述裁剪图像掩码和所述图像标注信息，训练所述第二图像特征提取网络和所述图像掩码提取网络。

可选地，所述交互信息包括正向交互信息和/或反向交互信息，其中，所述正向交互信息用于指示所述待处理图像中所述待分割对象所在的区域，所述反向交互信息用于指示所述待处理图像中所述待分割对象所在区域之外的区域。

根据本公开实施例的第二方面，提供一种图像分割装置，所述图像分割装置包括：第一图像特征获取单元，被配置为将待处理图像输入到第一图像特征提取网络中，得到第一图像特征；图像语义特征获取单元，被配置为基于所述第一图像特征，提取出第一图像语义特征和第二图像语义特征，其中，所述第一图像语义特征和所述第二图像语义特征分别包含所述待处理图像中的待分割对象的信息且彼此不同；第二图像特征获取单元，被配置为将所述待处理图像和针对所述待处理图像的图像分割信息输入到第二图像特征提取网络中，得到第二图像特征，其中，所述第二图像特征提取网络从图像中提取的图像特征的信息量小于所述第一图像特征提取网络从所述图像中提取的图像特征的信息量，所述图像分割信息用于指示所述待处理图像中的所述待分割对象的位置信息；掩码获取单元，被配置为基于所述第一图像语义特征、所述第二图像语义特征和所述第二图像特征，得到针对所述待分割对象的目标掩码；分割单元，被配置为基于所述目标掩码对所述待处理图像进行分割处理，得到针对所述待分割对象的图像分割结果。

可选地，所述掩码获取单元还被配置为：基于所述第一图像语义特征和所述第二图像语义特征，得到所述第一图像语义特征和所述第二图像语义特征之间的相似性特征；将所述相似性特征与所述第二图像特征进行融合，得到融合图像特征；基于所述融合图像特征，得到所述目标掩码。

可选地，所述掩码获取单元还被配置为：将所述相似性特征与所述第二图像特征融合，得到初始融合图像特征；将所述初始融合图像特征与所述第二图像特征进行拼接，得到拼接后的特征；将所述拼接后的特征输入到残差网络中，得到所述融合图像特征。

可选地，所述掩码获取单元还被配置为：根据针对所述待处理图像预设的包括所述待分割对象的感兴趣区域，分别对所述第一图像语义特征和所述第二图像语义特征进行区域标记；基于区域标记后的所述第一图像语义特征和所述第二图像语义特征的相似性，得到所述相似性特征。

可选地，所述第二图像特征提取网络基于所述待处理图像和所述图像分割信息提取出多个第二图像特征，其中，所述掩码获取单元还被配置为：将所述相似性特征与所述多个第二图像特征中分辨率最小的第二图像特征进行融合，得到融合图像特征；其中，所述掩码获取单元还被配置为：将所述融合图像特征和所述多个第二图像特征中的除了所述分辨率最小的第二图像特征之外的第二图像特征输入到图像掩码提取网络中，得到针对所述待分割对象的目标掩码。

可选地，所述图像分割装置还包括训练单元，所述训练单元通过以下方式训练所述第二图像特征提取网络和所述图像掩码提取网络：获取训练样本图像和图像标注信息，其中，所述训练样本图像包括一个或多个样本对象，所述图像标注信息表示每个样本对象在所述训练样本图像中的位置；按照预定尺度，对所述训练样本图像的不同部分进行动态裁剪，以从所述训练样本图像中裁剪出多个不同的裁剪图像；将所述裁剪图像输入到所述第二图像特征提取网络中，从所述第二图像特征提取网络提取出针对所述裁剪图像的裁剪图像特征；将所述裁剪图像特征输入到所述图像掩码提取网络中，从所述图像掩码提取网络提取出针对所述裁剪图像的裁剪图像掩码；基于所述裁剪图像掩码和所述图像标注信息，训练所述第二图像特征提取网络和所述图像掩码提取网络。

可选地，所述交互信息包括正向交互信息和/或反向交互信息，其中，所述正向交互信息用于指示所述待处理图像中待分割对象的区域，所述反向交互信息用于指示所述待处理图像中待分割对象所在背景的区域。

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如本公开所述的图像分割方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如本公开所述的图像分割方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如本公开所述的图像分割方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的图像分割方法及装置，通过采用较复杂的网络进行特征提取以获取语义较丰富的第一图像特征，采用相对简化的网络提取第二图像特征以保证分割速度，然后将基于第一图像特征提取的第一图像语义特征和第二图像语义特征与第二图像特征进行融合，根据融合结果可以得到相对准确的掩码，从而可以在保证分割速度的同时基于得到的掩码获取准确的分割结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的图像分割方法的实施场景示意图；

图2是根据一示例性实施例示出的一种图像分割方法的流程图；

图3是根据一示例性实施例示出的一种图像分割方法的得到目标掩码的流程图；

图4是根据一示例性实施例示出的一种图像分割方法所采用的网络的结构示意图；

图5是根据一示例性实施例示出的一种图像分割方法的训练第二图像特征提取网络和图像掩码提取网络的流程图；

图6A至图6C是根据一示例性实施例示出的一种图像分割方法的分割结果的示意图；

图7是根据一示例性实施例示出的一种图像分割装置的框图；

图8是根据本公开实施例的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

本公开提供了一种图像分割方法，能够在保证分割速度的同时可以基于得到的掩码获取准确的分割结果，下面以图像分割中的人物分割的场景为例进行说明。

图1是示出根据本公开的示例性实施例的图像分割方法的实施场景示意图，如图1所述，该实施场景包括服务器100、用户终端110和用户终端120，其中，用户终端不限于2个，包括并不限于手机、个人计算机等设备，用户终端可以安装获取图像的摄像头，服务器可以是一个服务器，也可以是若干个服务器组成服务器集群，还可以是云计算平台或虚拟化中心。

用户终端110或用户终端120通过摄像头获取包含人物的图像，并将该图像作为待处理图像上传给服务器100。服务器100将待处理图像输入到第一图像特征提取网络中，得到第一图像特征，并基于第一图像特征，提取出第一图像语义特征和第二图像语义特征，其中，第一图像语义特征和第二图像语义特征分别包含待处理图像中的待分割对象的信息且彼此不同相对于待处理图像中的待分割对象彼此对称。此外，将待处理图像和针对待处理图像的图像分割信息输入到第二图像特征提取网络中，得到第二图像特征，其中，第二图像特征提取网络中参数的数量小于第一图像特征提取网络中参数的数量，交互信息用于指示待分割对象在待处理图像中的位置信息，然后，基于第一图像语义特征、第二图像语义特征和第二图像特征，得到针对待分割对象的目标掩码，可基于目标掩码对待处理图像进行分割处理，得到针对待分割对象的图像分割结果。

下面，将参照附图详细描述根据本公开的示例性实施例的图像分割方法及装置。

图2是根据一示例性实施例示出的一种图像分割方法的流程图，如图2所示，图像分割方法包括以下步骤：

在步骤S201中，将待处理图像输入到第一图像特征提取网络中，得到第一图像特征。

上述第一图像特征提取网络可由具有编码器-解码器结构的图像处理网络中的编码器实现，例如，在本步骤中，不同于相关技术中将特征提取和用户交互处理作为一个整体，并集成到权重共享的一个网络中，本步骤采用独立的较复杂的网络来对图像的语义信息进行提取，如，采用HRNet的部分结构(如编码器)作为特征提取网络，从待处理图像中提取低分辨率-语义信息丰富高阶特征。

在本步骤中，采用独立的较复杂的网络来对图像的语义信息进行提取的基本原因主要是，一方面，图像语义信息是比用户交互更难提取的信息，因此需要一个大型网络对其进行建模；另一方面，像素对之间存在自相关(Self-affinity)信息，这有利于稀疏的用户交互信息的远距离传播。因此，将图像的语义特征视为图像本身的固有属性，与用户提供的交互表征无关。

为了更好的理解，下面结合图4进行详细说明，图4是根据一示例性实施例示出的一种图像分割方法所采用的网络的结构示意图，如图4所示，图像分割方法的网络框架可以分为两个阶段，阶段I：特征提取(Feature Extraction)和阶段II：迭代交互调整(Interactive Refinement)。

图4所示的阶段I即步骤S201的一种可选的特征提取方法，记i为当前交互分割回合，Mⁱ为第i回合的用于交互分割的目标掩码，I^RGB为待处理图像的RGB信息，F_a为上述第一图像特征。在特征提取阶段，将I^RGB输入到较大的网络中，通过该较大的网络的部分结构(如编码器)提取更好的语义特征，如，采用HRNet的部分结构(如编码器)作为特征提取网络，从待处理图像中提取第一图像特征F_a，第一图像特征F_a在后续的图像迭代处理中可以被用于提取第一图像语义特征和第二图像语义特征。

本实施例采用独立的较大的网络来对图像的语义信息进行提取，其可以提取出高分辨率语义信息一般的特征和低分辨率语义信息丰富的高阶特征，在本实施例中，采用低分辨率-语义信息丰富高阶特征作为第一图像特征，以在后续处理中基于这样的第一图像特征提取第一图像语义特征和第二图像语义特征，从而能够在后续交互中被重复利用，以提高图像分割的精确度。

在步骤S202中，基于第一图像特征，提取出第一图像语义特征和第二图像语义特征，其中，第一图像语义特征和第二图像语义特征分别包含待处理图像中的待分割对象的信息且彼此不同。

在本步骤中，第一图像语义特征和第二图像语义特征可以是相对于待处理图像中的待分割对象彼此空间位置对称的特征。例如，可以使从待处理图像中提取的诸如低分辨率-语义信息丰富高阶特征的第一图像特征分别通过2个3×3卷积层，从而将第一图像特征被映射为对称的第一图像语义特征和第二图像语义特征，以进行后续的自相关矩阵(Self-affinity Matrix)运算，这将在下文中详细描述。

为了更好的理解，下面仍以图4为例进行详细说明，如图4所示，第一图像特征F_a可以通过两个3×3的卷积层得到第一图像语义特征F_a,1和第二图像语义特征F_a,2，第一图像语义特征F_a,1和第二图像语义特征F_a,2在后续的用户交互处理中可以被重复利用，从而能够提高图像分割的精确度。

在步骤S203中，将待处理图像和针对待处理图像的图像分割信息输入到第二图像特征提取网络中，得到第二图像特征，其中，第二图像特征提取网络中参数的数量小于第一图像特征提取网络中参数的数量，图像分割信息用于指示待分割对象在待处理图像中的位置。

上述第二图像特征提取网络可由具有编码器-解码器结构的图像处理网络中的编码器实现，例如，在本步骤中，可采用独立的较简单的网络来基于图像分割信息对待处理图像进行提取。如此，第二图像特征提取网络的计算速度可高于第一图像特征提取网络，而第一图像特征提取网络的计算精度可高于第二图像特征提取网络。需要说明的是，第二图像特征提取网络从图像中提取的图像特征的信息量小于第一图像特征提取网络从所述图像中提取的图像特征的信息量，说明了针对同一个图像，第二图像特征提取网络对该图像的表征能力弱，第一图像特征提取网络对该图像的表征能力强，一般情况下，表征能力的强、弱可以通过网络中参数的数量来区分，如果网络中参数的数量大于第一预设值时，一定程度代表网络的表征能力强，如果网络中参数的数量小于第二预设值时，一定程度上代表网络的表征能力弱，应用到本公开，即第二图像特征提取网络中参数的数量小于第二预设值，第一图像特征提取网络中参数的数量大于第二预设值。第一预设值和第二预设值可以根据需要定义。

在本公开的示例性实施例中，可以通过第二图像特征提取网络进行迭代交互调整的图像分割。在迭代交互调整图像分割结果中，为了增强迭代调整的稳定性，可以参考RITM算法，将前一回合的分割掩码结果用于本回合的输入中。

在此情况下，在首次将待处理图像和针对待处理图像的图像分割信息输入到第二图像特征提取网络中时，上述图像分割信息可以包括空白的掩码和针对待处理图像预先指定的指示待分割对象在待处理图像中的位置的信息。

在非首次将待处理图像和图像分割信息输入到第二图像特征提取网络中时，上述图像分割信息可以通过以下方式获取：获取用户针对本次图像分割的指示待处理图像中待分割对象的交互信息以及上一次图像分割得到的待分割对象的目标掩码；将交互信息和上一次图像分割得到的待分割对象的目标掩码作为本次图像分割的图像分割信息。

例如，交互信息可以包括正向交互信息和/或反向交互信息，其中，正向交互信息用于指示待处理图像中待分割对象所在的区域，反向交互信息用于指示待处理图像中待分割对象所在区域之外的区域。

具体来说，可以将第二图像特征提取网络输出的第二图像特征输入到图像掩码提取网络中，以得到针对待分割对象的目标掩码。例如，该图像掩码提取网络可由具有编码器-解码器结构的图像处理网络中的解码器实现，第二图像特征提取网络和图像掩码提取网络可以属于同一图像处理网络中，即均属于较小的网络。

在经过一次第二图像特征提取网络和图像掩码提取网络而得到目标掩码后，可以基于该目标掩码得到图像分割结果，用户可以对该图像分割结果进行评估，评估当前的图像分割结果是否满足需求，若满足则可结束图像分割，将当前的图像分割结果作为最终的图像分割结果，若不满足，则用户可以输入交互信息来指示对当前的图像分割结果的校正，并将该交互信息和本次得到的目标掩码再次输入到第二图像特征提取网络和图像掩码提取网络中，以进行对图像的重新分割，得到新的图像分割结果，用户可以多次进行上述交互过程，直至图像分割结果满足需求。

交互信息可以通过识别用户输入信息(例如点击，涂抹，边界框等)来获取，以涂抹为例，假设用户涂抹的是待分割对象，此时识别出来的交互信息为正向交互信息，即指示待处理图像中待分割对象的区域的信息，假设用户涂抹的是待分割对象的背景，此时识别出来的交互信息为反向交互信息，即指示待处理图像中待分割对象所在背景的区域的信息。为了更好的理解，仍然以图4的结构示意图进行详细说明，如图4所示的阶段II：迭代交互调整，其中，

为第i回合的正向交互信息，

第i回合的反向交互信息，M^i-1为前一交互分割回合i-1用于交互分割的目标掩码，F_d为上述第二图像特征。需要说明的是，上述M^i-1在i为1，即，当前交互分割回合为第一回合时，此时不存在上一交互分割回合，故M^i-1可以设为0或者其他预设值，例如可以是空白的掩码，只要不增加计算量即可。

在迭代交互调整阶段，如图4所示，为了增强迭代调整的稳定性，根据当前用户给定的交互信息，轻量级网络对当前目标掩码进行迭代调整以获得良好分割结果，具体地，前一交互分割回合i-1的目标掩码M^i-1、用户输入的正交互信息

和负交互信息

输入到轻量级网络中，通过轻量级网络的部分结构(如编码器)得到第二图像特征F_d。对于每次交互分割，阶段I中的第一图像语义特征F_a,1和第二图像语义特征F_a,2都会被重复使用，并在阶段II中与第二图像特征F_d进行特征融合，实现高度准确的分割效果，具体地，第二图像特征F_d、第一图像语义特征F_a,1和第二图像语义特征F_a,2可以在自适应特征融合(Adapt ive FeatureFusion)模块中进行融合以实现语义特征和交互信息的融合。

在本实施例中，采用独立的较小的网络(即轻量级网络)来对带有交互信息的图像的语义信息进行提取，从交互信息和待处理图像中提取携带有交互信息的第二图像特征，可以结合前面提取的第一图像语义特征、第二图像语义特征一起进行交互分割处理，保证交互分割处理的速度。第一图像语义特征、第二图像语义特征和第二图像特征具体的结合方式下面步骤有详细论述，此处不展开论述。

在步骤S204中，基于第一图像语义特征、第二图像语义特征和第二图像特征，得到针对待分割对象的目标掩码。

如图3所示，得到针对待分割对象的目标掩码的步骤可以包括：

在步骤S301中，基于第一图像语义特征和第二图像语义特征，得到第一图像语义特征和第二图像语义特征之间的相似性特征。

这里，可以根据针对待处理图像预设的包括待分割对象的感兴趣区域，分别对第一图像语义特征和第二图像语义特征进行区域标记，然后基于区域标记后的第一图像语义特征和第二图像语义特征的相似性，得到相似性特征。

以图4所示的示例性实施例为例，第一图像语义特征F_a,1和第二图像语义特征F_a,2可以根据将在下面描述的动态尺度训练策略(Dynamic-scale Strategy)得到的crop区域进行感兴趣区域对齐(ROI Align)操作，得到区域标记后的第一图像语义特征

和第二图像语义特征

然后对区域标记后的两个图像语义特征进行自相关运算以提供像素间(pixel-wise)的相关信息，得到自仿射矩阵(Self-affinity Matrix)作为相似性特征。

作为示例，自相关运算通过下面的表达式来表示：

其中，C为区域标记后的第一图像语义特征

和第二图像语义特征

的矩阵相乘的结果，T表示矩阵转置，A_jk为自仿射矩阵，C_jk为区域标记后的第一图像语义特征

和第二图像语义特征

的矩阵相乘的结果中第j行第k列的元素，其中，n从1取到N，N为C的总行数。

在步骤S302中，将相似性特征与第二图像特征进行融合，得到融合图像特征。

在本步骤中，例如，可以先将相似性特征与第二图像特征融合，得到初始融合图像特征；然而，可将初始融合图像特征与第二图像特征进行拼接，得到拼接后的特征；最后，将拼接后的特征输入到残差网络中，得到融合图像特征。

以图4所示的示例性实施例为例，在步骤S301中得到的相似性特征可以与第二图像特征F_d通过矩阵相乘进行融合，在融合前，可以使第二图像特征F_d通过卷积层来与相似性特征的维度匹配，例如，在第一图像特征通过2个3×3卷积层分别得到第一图像语义特征和第二图像语义特征的情况下，第二图像特征F_d也可以通过1个3×3卷积层，而与第一图像语义特征F_a,1和第二图像语义特征F_a,2以及区域标记后的第一图像语义特征

和第二图像语义特征

的维度相同，从而可以与由第一图像语义特征

和第二图像语义特征

得到的相似性特征进行矩阵相乘，得到初始融合图像特征。

初始融合图像特征可以再与第二图像特征F_d拼接(Concatenation)，拼接后的特征可以输入到残差网络中，得到融合图像特征。根据本实施例，通过拼接操作和残差网络可以方便、快速的对初始融合图像特征和第二图像特征进行融合。需要说明的是，上述残差网络可以采用ResBlock，其可以设计不同结构和不同复杂度的网络，只要可以帮助融合两个特征即可，对此本公开并不进行限定。

在步骤S303中，基于融合图像特征，得到目标掩码。

如上面所述，第二图像特征提取网络可以基于待处理图像和图像分割信息提取出第二图像特征，这里，第二图像特征可以为多个(如图4所示的第二图像特征F_d、F_d1和F_d2)，根据本公开的示例性实施例，在上述步骤S302中，可以将相似性特征与多个第二图像特征中分辨率最小的第二图像特征进行融合，得到融合图像特征。

在此情况下，在步骤S303中，可以将融合图像特征和多个第二图像特征中的除了分辨率最小的第二图像特征之外的第二图像特征输入到图像掩码提取网络中，得到针对待分割对象的目标掩码。

为了更好的理解，仍然以图4的结构示意图进行详细说明，在自适应特征融合模块(图4所示的自相关融合模块)中，第一图像语义特征F_a,1和第二图像语义特征F_a,2可以通过ROI Align操作而得到被感兴趣区域标记后的第一图像语义特征

和第二图像语义特征

然后通过将标记后的第一图像语义特征

和第二图像语义特征

相乘得到相似性特征，并将相似性特征与经过1个卷积层的第二图像特征F_d通过相乘融合，得到初始融合图像特征，然后将初始融合图像特征与第二图像特征F_d进行拼接融合，并经过残差网络(ResBlock)进行降维，而得到最终的融合图像特征。在得到融合图像特征后，将其输入到轻量级网络的编码器后面的网络中，得到目标掩码，用于对待处理图像进行目标分割。

在本实施例中，可以利用基于第一图像特征提取网络得到的第一图像特征得到的相似性特征，与第二图像特征提取网络提取的分辨率最小的第二图像特征进行融合，以对该第二图像特征的语义信息进行补充和修正，从而提高第二图像特征的语义信息的准确性，使得即使在为了提高计算速度而使用较简化的第二图像特征提取网络得到目标掩码的情况下，也能够通过融合第一图像特征而提高图像分割的准确性。

返回参照图2，在步骤S205中，基于目标掩码对待处理图像进行分割处理，得到针对待分割对象的图像分割结果。

在本步骤中，例如，可以将目标掩码与待处理图像进行相乘处理，即可得到第一分割结果。

上面描述了根据本公开的示例性实施例的图像分割方法，其中，通过采用较复杂的网络进行特征提取以获取语义较丰富的第一图像特征，采用相对简化的网络提取第二图像特征以保证分割速度，然后将基于第一图像特征提取的第一图像语义特征和第二图像语义特征与第二图像特征进行融合，根据融合结果可以得到相对准确的掩码，从而可以在保证分割速度的同时可以基于得到的掩码获取准确的分割结果。因此，本公开解决了相关技术中交互式分割常常导致非常大的计算开销和运行耗时的问题。

下面将对步骤S301中提到动态尺度训练策略进行详细描述。具体来说，如图5所示，根据本公开的示例性实施例，第二图像特征提取网络和图像掩码提取网络可以通过以下方式进行训练：

在步骤S601中，获取训练样本图像和图像标注信息。

在本步骤中，训练样本图像可以包括一个或多个样本对象，图像标注信息可以表示每个样本对象在训练样本图像中的位置，这里，样本对象可以是训练样本图像的任意部分。

在步骤S602中，按照预定尺度，对训练样本图像的不同部分进行动态裁剪，以从训练样本图像中裁剪出多个不同的裁剪图像。

上述预定尺度可以根据标记后的第一图像语义特征和第二图像语义特征的尺度来确定，例如输入到第二图像特征提取网络的裁剪图像的尺度与标记后的第一图像语义特征和第二图像语义特征的尺度相同。这里，预定尺度可以是在ROI Align操作中的crop区域大小。

在步骤S603中，将裁剪图像输入到第二图像特征提取网络中，从第二图像特征提取网络提取出针对裁剪图像的裁剪图像特征。

在步骤S604中，将裁剪图像特征输入到图像掩码提取网络中，从图像掩码提取网络提取出针对裁剪图像的裁剪图像掩码。

在步骤S605中，基于裁剪图像掩码和图像标注信息，训练第二图像特征提取网络和图像掩码提取网络。

在本步骤中，可以基于裁剪图像掩码对训练样本图像进行图像分割，然后将图像分割得到的结果与图像标注信息进行比较，从而根据比较结果调整第二图像特征提取网络和图像掩码提取网络的参数，实现第二图像特征提取网络和图像掩码提取网络的训练。

在相关技术中，可以采用Zoom-In策略对第二图像特征提取网络和图像掩码提取网络进行训练，然而，由于训练中的ROI Align操作的映射尺寸大多固定，而在测试阶段的Zoom-In策略所采取的动态尺寸不同，造成了训练阶段和测试阶段的尺寸不匹配。因此，本公开提出了上述动态尺度训练策略。该策略根据预定义的尺度(例如，宽高比和面积比)随机裁剪输入的训练样本图像，使得训练过程中的ROI Align映射尺寸动态变化，从而可以适应于测试阶段的任意尺度的待分割对象。

在上述实施例中，在特征提取阶段，输入图像被用来提取低分辨率-语义信息丰富高阶特征，该特征在后续的用户交互中被重复利用。在迭代交互调整阶段，根据当前用户给定的交互信息，轻量级网络对当前的分割掩码进行迭代调整以获得良好分割结果。对于每次交互，阶段I中的特征都会被重复使用，并在阶段II中通过自相关融合模块进行语义特征融合，实现更好的分割性能。

根据本公开示例性实施例提出的轻量的基于自相关融合模块的交互式分割方法，可以对每张待处理图像只执行单次特征提取操作，而在交互阶段采用了轻量级处理网络，实现实时交互。该方法不仅可以提高图像分割效率，同时，在与现有的交互式分割中的多种方法进行比较时，还可以实现分割精度的显著提升，在多个基准数据集上都展现了最佳性能。

下面将结合表1和图6A至图6C说明根据本公开的示例性实施例的图像分割方法的分割性能。

表1示出了根据本公开的图像分割方法在GrabCut、Berkeley、DAVIS及SBD数据集上与现有的交互式分割方法的对比结果。如下表1所示，根据本公开的图像分割方法在不同的精度(NoC)的情况下，在几乎所有定量结果上都优于现有的交互式分割方法中的最优的RITM模型。此外，在参数量相近甚至更少的情况下，根据本公开的图像分割方法能提供和SOTA方法相匹配，甚至更好的结果。

表1

图6A至图6C示出根据本公开的示例性实施例的图像分割方法的分割结果与现有的图像分割方法的对比。具体来说，对于图6A、图6B和图6C所示的不同输入图像，在掩码类型相同(即，均为GT掩码)时，根据本公开的图像分割方法在1次交互、3次交互、5次交互和10次交互的结果中，表征图像分割结果的准确性的交并比IoU均高于现有的基于RITM模型的图像分割方法。

图7是根据一示例性实施例示出的一种图像分割装置的框图。参照图8，该装置包括：

第一图像特征获取单元81，被配置为将待处理图像输入到第一图像特征提取网络中，得到第一图像特征；图像语义特征获取单元82，被配置为基于第一图像特征，提取出第一图像语义特征和第二图像语义特征，其中，第一图像语义特征和第二图像语义特征分别包含待处理图像中的待分割对象的信息且彼此不同；第二图像特征获取单元83，被配置为将待处理图像和针对待处理图像的图像分割信息输入到第二图像特征提取网络中，得到第二图像特征，其中，第二图像特征提取网络中参数的数量小于第一图像特征提取网络中参数的数量，图像分割信息用于指示待处理图像中的待分割对象的位置信息；掩码获取单元84，被配置为基于第一图像语义特征、第二图像语义特征和第二图像特征，得到针对待分割对象的目标掩码；分割单元85，被配置为基于目标掩码对待处理图像进行分割处理，得到针对待分割对象的图像分割结果。

根据本公开的示例性实施例，图像分割信息通过以下方式获取：获取用户针对本次图像分割的图像分割结果的交互信息；将本次图像分割的针对待分割对象的目标掩码和针对本次图像分割的交互信息作为下一次图像分割的交互信息。

根据本公开的示例性实施例，掩码获取单元84还被配置为：基于第一图像语义特征和第二图像语义特征，得到第一图像语义特征和第二图像语义特征之间的相似性特征；将相似性特征与第二图像特征进行融合，得到融合图像特征；基于融合图像特征，得到目标掩码。

根据本公开的示例性实施例，掩码获取单元84还被配置为：将相似性特征与第二图像特征融合，得到初始融合图像特征；将初始融合图像特征与第二图像特征进行拼接，得到拼接后的特征；将拼接后的特征输入到残差网络中，得到融合图像特征。

根据本公开的示例性实施例，掩码获取单元84还被配置为：根据针对待处理图像预设的包括待分割对象的感兴趣区域，分别对第一图像语义特征和第二图像语义特征进行区域标记；基于区域标记后的第一图像语义特征和第二图像语义特征的相似性，得到相似性特征。

根据本公开的示例性实施例，第二图像特征提取网络基于待处理图像和图像分割信息提取出多个第二图像特征，其中，掩码获取单元84还被配置为：将相似性特征与多个第二图像特征中分辨率最小的第二图像特征进行融合，得到融合图像特征；其中，掩码获取单元84还被配置为：将融合图像特征和多个第二图像特征中的除了分辨率最小的第二图像特征之外的第二图像特征输入到图像掩码提取网络中，得到针对待分割对象的目标掩码。

根据本公开的示例性实施例，图像分割装置还包括训练单元，训练单元通过以下方式训练第二图像特征提取网络和图像掩码提取网络：获取训练样本图像和图像标注信息，其中，训练样本图像包括一个或多个样本对象，图像标注信息表示每个样本对象在训练样本图像中的位置；按照预定尺度，对训练样本图像的不同部分进行动态裁剪，以从训练样本图像中裁剪出多个不同的裁剪图像；将裁剪图像输入到第二图像特征提取网络中，从第二图像特征提取网络提取出针对裁剪图像的裁剪图像特征；将裁剪图像特征输入到图像掩码提取网络中，从图像掩码提取网络提取出针对裁剪图像的裁剪图像掩码；基于裁剪图像掩码和图像标注信息，训练第二图像特征提取网络和图像掩码提取网络。

根据本公开的示例性实施例，交互信息包括正向交互信息和/或反向交互信息，其中，正向交互信息用于指示待处理图像中待分割对象所在的区域，反向交互信息用于指示待处理图像中待分割对象所在区域之外的区域。

根据本公开的实施例，可提供一种电子设备。图8是根据本公开实施例的一种电子设备900的框图，该电子设备包括至少一个存储器901和至少一个处理器902，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的图像分割方法。

作为示例，电子设备900可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备900并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备900还可以是集成控制***或***管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备900中，处理器902可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制，处理器502还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器902可运行存储在存储器中的指令或代码，其中，存储器901还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器901可与处理器902集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器901可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储器901和处理器902可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器902能够读取存储在存储器501中的文件。

此外，电子设备900还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行本公开实施例的图像分割方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现本公开实施例的图像分割方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像分割方法，其特征在于，所述图像分割方法包括：

将待处理图像输入到第一图像特征提取网络中，得到第一图像特征；

基于所述第一图像特征，提取出第一图像语义特征和第二图像语义特征，其中，所述第一图像语义特征和所述第二图像语义特征分别包含所述待处理图像中的待分割对象的信息且彼此不同；

将所述待处理图像和针对所述待处理图像的图像分割信息输入到第二图像特征提取网络中，得到第二图像特征，其中，所述第二图像特征提取网络从图像中提取的图像特征的信息量小于所述第一图像特征提取网络从所述图像中提取的图像特征的信息量，所述图像分割信息用于指示所述待处理图像中的所述待分割对象的位置信息；

基于所述第一图像语义特征、所述第二图像语义特征和所述第二图像特征，得到针对所述待分割对象的目标掩码；

基于所述目标掩码对所述待处理图像进行分割处理，得到针对所述待分割对象的图像分割结果。

2.如权利要求1所述的图像分割方法，其特征在于，所述图像分割信息通过以下方式获取：

获取用户针对本次图像分割的指示所述待处理图像中所述待分割对象的交互信息以及上一次图像分割得到的所述待分割对象的目标掩码；

将所述交互信息和上一次图像分割得到的所述待分割对象的目标掩码作为本次图像分割的图像分割信息。

3.如权利要求1或2所述的图像分割方法，其特征在于，基于所述第一图像语义特征、所述第二图像语义特征和所述第二图像特征，得到针对所述待分割对象的目标掩码的步骤包括：

基于所述第一图像语义特征和所述第二图像语义特征，得到所述第一图像语义特征和所述第二图像语义特征之间的相似性特征；

将所述相似性特征与所述第二图像特征进行融合，得到融合图像特征；

基于所述融合图像特征，得到所述目标掩码。

4.如权利要求3所述的图像分割方法，其特征在于，将所述相似性特征与所述第二图像特征融合，得到融合图像特征的步骤包括：

将所述相似性特征与所述第二图像特征融合，得到初始融合图像特征；

将所述初始融合图像特征与所述第二图像特征进行拼接，得到拼接后的特征；

将所述拼接后的特征输入到残差网络中，得到所述融合图像特征。

5.如权利要求3所述的图像分割方法，其特征在于，基于所述第一图像语义特征和所述第二图像语义特征，得到所述第一图像语义特征和所述第二图像语义特征之间的相似性特征的步骤包括：

根据针对所述待处理图像预设的包括所述待分割对象的感兴趣区域，分别对所述第一图像语义特征和所述第二图像语义特征进行区域标记；

基于区域标记后的所述第一图像语义特征和所述第二图像语义特征的相似性，得到所述相似性特征。

6.如权利要求3所述的图像分割方法，其特征在于，所述第二图像特征提取网络基于所述待处理图像和所述图像分割信息提取出多个第二图像特征，

其中，将所述相似性特征与所述第二图像特征进行融合，得到融合图像特征的步骤包括：

将所述相似性特征与所述多个第二图像特征中分辨率最小的第二图像特征进行融合，得到融合图像特征，

其中，基于所述融合图像特征，得到所述目标掩码的步骤包括：

将所述融合图像特征和所述多个第二图像特征中的除了所述分辨率最小的第二图像特征之外的第二图像特征输入到图像掩码提取网络中，得到针对所述待分割对象的目标掩码。

7.一种图像分割装置，其特征在于，所述图像分割装置包括：

第一图像特征获取单元，被配置为将待处理图像输入到第一图像特征提取网络中，得到第一图像特征；

图像语义特征获取单元，被配置为基于所述第一图像特征，提取出第一图像语义特征和第二图像语义特征，其中，所述第一图像语义特征和所述第二图像语义特征分别包含所述待处理图像中的待分割对象的信息且彼此不同；

第二图像特征获取单元，被配置为将所述待处理图像和针对所述待处理图像的图像分割信息输入到第二图像特征提取网络中，得到第二图像特征，其中，所述第二图像特征提取网络从图像中提取的图像特征的信息量小于所述第一图像特征提取网络从所述图像中提取的图像特征的信息量，所述图像分割信息用于指示所述待处理图像中的所述待分割对象的位置信息；

掩码获取单元，被配置为基于所述第一图像语义特征、所述第二图像语义特征和所述第二图像特征，得到针对所述待分割对象的目标掩码；

分割单元，被配置为基于所述目标掩码对所述待处理图像进行分割处理，得到针对所述待分割对象的图像分割结果。

8.一种电子设备，其特征在于，包括:

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的图像分割方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至6中任一项所述的图像分割方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1至6中任一项所述的图像分割方法。