CN115019037A

CN115019037A - 对象分割方法及对应模型的训练方法、装置及存储介质

Info

Publication number: CN115019037A
Application number: CN202210516748.1A
Authority: CN
Inventors: 曹健健; 李煜林; 钦夏孟; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-09-06

Abstract

本公开提供了一种对象分割方法及对应模型的训练方法、装置及存储介质，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别(Optical Character Recognition；OCR)等场景。具体实现方案为：基于原始图像，获取所述原始图像的语义分割特征；基于所述原始图像和语言表达，获取所述语言表达描述的待分割对象在所述原始图像中的定位特征；基于所述语义分割特征和所述定位特征，获取所述待分割对象在所述原始图像中的分割图。本公开的技术，能够有效地提高待分割对象的分割图的准确性，有效地极提升了引用实例分割的效果。

Description

对象分割方法及对应模型的训练方法、装置及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别(Optical Character Recognition；OCR)等场景，尤其涉及一种对象分割方法及对应模型的训练方法、装置及存储介质。

背景技术

引用实例分割任务是在给定自然语言条件下进行图像实例分割的任务，作为多模态学习领域内比较新颖的研究课题，它将计算机世界领域与自然语言处理领域有效地结合起来，同时对传统的图像分割任务进行升级，让机器学习的研究方向更注重于进行语义理解和关系推理。

与传统的图像分割任务不同，引用实例分割任务的输入不仅是给定的图像，还有与图像对应的自然语言形式的引用表达，也可称为自然语言表达，旨在根据自然语言表达准确定位图像中的某个特定对象，并进行像素级别的分类。引用实例分割任务具有广泛的应用前景，例如构建基于语言的人机交互界面，可以根据用户输入的自然语言表达，在真实场景中快速准确定位特定待分割对象，这种准确理解表达的能力将是自然交互的必要组成部分，也成为人工智能领域重要的研究方向，具有非常重大的研究价值与意义。

发明内容

本公开提供了一种对象分割方法及对应模型的训练方法、装置及存储介质。

根据本公开的一方面，提供了一种对象分割方法，包括：

基于原始图像，获取所述原始图像的语义分割特征；

基于所述原始图像和语言表达，获取所述语言表达描述的待分割对象在所述原始图像中的定位特征；

基于所述语义分割特征和所述定位特征，获取所述待分割对象在所述原始图像中的分割图。

根据本公开的另一方面，提供了一种对象分割模型的训练方法，包括：

采集多条训练数据，各所述训练数据中包括训练图像、训练语言表达、以及所述训练语言表达描述的训练对象在所述训练图像中的训练分割图；

采用所述多条训练数据，对包括行列定位网络模块和分割网络模块的对象分割模型进行训练。

根据本公开的再一方面，提供了一种对象分割装置，包括：

语义分割模块，用于基于原始图像，获取所述原始图像的语义分割特征；

定位模块，用于基于所述原始图像和语言表达，获取所述语言表达描述的待分割对象在所述原始图像中的定位特征；

分割处理模块，用于基于所述语义分割特征和所述定位特征，获取所述待分割对象在所述原始图像中的分割图。

根据本公开的又一方面，提供了一种对象分割模型的训练装置，包括：

采集模块，用于采集多条训练数据，各所述训练数据中包括训练图像、训练语言表达、以及所述训练语言表达描述的训练对象在所述训练图像中的训练分割图；

训练模块，用于采用所述多条训练数据，对包括行列定位网络模块和分割网络模块的对象分割模型进行训练。

根据本公开的再另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的再又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的又另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。

根据本公开的技术，能够有效地提高待分割对象的分割图的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是本公开实施例提供一种语义分割网络模块的架构图；

图4是本公开实施例提供的一种行列定位网络模块实现原理图；

图5是本公开实施例提供的一种对象分割方法的架构图；

图6是根据本公开第三实施例的示意图；

图7是根据本公开第四实施例的示意图；

图8是根据本公开第五实施例的示意图；

图9是根据本公开第六实施例的示意图；

图10是根据本公开第七实施例的示意图；

图11是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

需要说明的是，本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备；显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

引用实例分割任务是近几年新兴的多模态学习和推理任务。该领域的研究还比较少。例如，现有的引用实例分割任务的实现方案比较简单。通过视觉特征提取器提取原始图像对应的视觉特征；再使用语言特征编码器基于语言表达提取语言特征。然后将提取的视觉特征和语言特征，利用多模态特征融合方法进行特征融合，并将融合的特征用于实例分割任务中，预测出自然语言表达对应的引用实体的分割图。现有的方法对于语言表达的理解及推理做的还是比较薄弱的，会出现语言表达限定的待分割对象定位不够准确，导致分割效果欠佳，得到的分割图不够精确。

图1是根据本公开第一实施例的示意图；本实施例提供一种对象分割方法，应用于需要对原始图像中的任意待分割的对象进行分割的场景中，具体可以包括如下步骤：

S101、基于原始图像，获取原始图像的语义分割特征；

S102、基于原始图像和语言表达，获取语言表达限定的待分割对象在原始图像中的定位特征；

S103、基于语义分割特征和定位特征，获取待分割对象在原始图像中的分割图。

本实施例的对象分割方法的执行主体可以为对象分割装置，该对象分割装置可以为一电子实体。或者也可以为采用软件集成的应用，使用时，运行在计算机设备上，实现基于原始图像和语言表达，从原始图像中分割出语言表达描述的待分割对象对应的分割图。

本实施例中，原始图像的语义分割特征，能够标识原始图像中的各个语义对应的特征。其中每个语义对应原始图像中的一种对象的类别。

本实施例的语言表达可以采用自然语言描述原始图像中的待分割对象，以用于从原始图像中分割出待分割对象的分割图。为了能够准确地分割出待分割对象的分割图，本实施例中，可以先基于原始图像和语言表达，获取语言表达描述的待分割对象在原始图像中的定位特征。然后再结合定位特征和原始图像的语义分割特征，获取待分割对象在原始图像中的分割图。

本实施例中，语义表达作为参考描述(Referring Expression)信息，基于引用实例分割的原理，能够从原始图像中分割出语言表达所限定的待分割对象的分割图。

本实施例的对象分割方法，通过获取原始图像的语义分割特征和语言表达描述的待分割对象在原始图像中的定位特征，分别实现语义分割和待分割对象定位两个功能，其中定位特征也能够对语言表达进行充分的理解和推理，使得待分割对象的定位更加准确；进一步地，基于原始图像的语义分割特征和语言表达描述的待分割对象在原始图像中的定位特征，获取待分割对象在原始图像中的分割图，能够有效地解决定位不准确和分割不准确的问题，两者相互辅助，有效地提高获取的待分割对象的分割图的准确性，有效地极提升了引用实例分割的效果。

图2是根据本公开第二实施例的示意图；本实施例在上述图1所示实施例的技术方案的基础上，进一步更加详细地描述本公开的技术方案。如图2所示，本实施例的对象分割方法，具体可以包括如下步骤：

S201、基于原始图像，提取原始图像的视觉特征；

可选地，本实施例中，可以将原始图像输入至预先训练好的视觉特征提取网络模型，实现视觉特征的提取。例如，视觉特征提取网络模型可以采用deeplab-v3特征提取网络。或者也可以采用深度残差网络(Residual Network；ResNet)或者deeplab-ResNet101等网络来实现视觉特征提取。

S202、基于视觉特征，获取原始图像的语义分割特征；

本实施例的获取语义分割特征的过程，可以采用语义分割网络模块来实现。即可以基于视觉特征，采用预先训练的对象分割模型中的语义分割(Semantic Segment)网络模块进行语义分割处理，得到原始图像的语义分割特征。其中该对象分割模型可以为一个较大的网络模型，可以包括多个功能模块。该分割网络模块为其中一个功能模块，实现语义分割处理。

例如，本实施例的语义分割网络模块的架构，可以认为是一个编码器-解码器网络。图3是本公开实施例提供一种语义分割网络模块的架构图。如图3所示，左侧图像为对应的原始图像，右侧图像可以为对应的语义分割特征，也可以称为语义分割特征图。中间左侧为编码器，右侧为解码器。其中编码器可以是一个预训练的分类网络，如视觉几何小组(Visual Geometry Group；VGG)或者ResNet等网络。本实施例的解码器的任务是，将编码器学习到的具有较低分辨率的可判别特征，从语义上投影到具有较高分辨率的像素空间上，以获得密集分类。本实施例中，可以直接采用deeplab-v3网络作为语义分割网络模块的编码器。然后将deeplab-v3输出的图像视觉特征送入解码器中，进行语义分割，最终得到语义分割特征。此时得到的语义分割特征包括原始图像中的所有对象的语义分割信息。

如图3所示，该语义分割网络模块在使用时可以前向(forward)参考引用(inference)，实现像素级别的判别预测，进而实现语义分割。而在学习(learning)过程中，可以后向(backward)调整参数，使得语义分割网络模块更加精准。

上述步骤S201-S202为上述图1所示实施例的步骤S101的一种实现方式，可以实现对原始图像进行语义分割，获取到准确地语义分割特征。而且还可以采用语义分割网络模块基于视觉特征，获取原始图像的语义分割特征，不仅能够提高智能性，还能够提高语义分割特征的准确性。

S203、基于语言表达，提取语言表达特征；

本实施例的语义表达具体可以为自然语言表达，即采用自然语言描述原始图像中待分割对象的信息。该语言表达在引用实例分割领域中也可以称为自然语言引用表达(referring expression)。

具体实现时，可以采用预先训练的语言表达特征提取模型来实现。例如，语言表达特征提取模型可以采用门控循环单元(Gated Recurrent Unit；GRU)网络、或者长短期记忆网络(Long Short-Term Memory；LSTM)等网络来实现。

S204、基于视觉特征和语言表达特征，获取语言表达描述的待分割对象在原始图像中的定位特征；

其中视觉特征即为步骤S201提取的原始图像的视觉特征。该步骤可以根据语言表达特征，借助于原始图像的视觉特征，获取语言表达描述的待分割对象在原始图像的定位信息。例如可以参考图像中的像素点的行列信息，来表征定位特征。即该定位特征中可以包括行特征信息和列特征信息。

在本公开的一个实施例中，可以基于视觉特征和语言表达特征，采用预先训练的对象分割模型中的行列定位(Row and column positioning)网络模块，获取语言表达限定的待分割对象在原始图像中的定位特征。

例如，图4是本公开实施例提供的一种行列定位网络模块实现原理图。如图4所示，具体实现时，可以将原始图像的视觉特征M，利用avg pooling操作在不同方向上进行特征聚合实现特征的行列分解，可以得到对应的行维度的视觉特征V_h和列维度的视觉特征V_w。其中行维度的视觉特征和列维度的视觉特征分别代表行列纬度上的视觉特征表达。再将提取的语言表达特征Word_fea通过3个卷积层进行特征的变化,得到语言特征的不同表达，如Word_h表示行维度上的语言表达特征；Word_w表示列维度上的语言表达特征；Word_init表示本来的语言特征表达，也可以称为原始的语言表达特征。最后将行列维度的视觉特征经卷积处理后的特征以及不同的语言表达特征送入行列注意力(RoCo Attention)模块中进行多模态特征的融合，并输出待分割对象的精确位置信息，即待分割对象的定位特征，如

和

其中

表示待分割对象的行信息，

表示待分割对象的列信息。

其中，行列注意力模块可以使用2个简单的cross-attention机制分别学习语言特征表达对应的行列视觉注意力热力图(1维)，再通过将行列视觉注意力热力图进行融合，得到待分割对象在全局的热力图(2维)，即待分割对象在全局的感知位置，从而实现定位的任务。

步骤S201、S203和步骤S204为上述图1所示实施例的步骤S102的一种实现方式，能够对语言表达进行充分理解和推理，实现对待分割对象的准确定位。而且本实施例中，可以采用行列定位网络模块来实现该功能，不仅能够保证实现的智能性，还能够有效地提高待分割对象的定位特征的准确性。

S205、将语义分割特征和定位特征进行融合，得到融合特征；

S206、基于融合特征，采用预先训练的对象分割模型中的分割网络模块，分割到待分割对象的分割图。

本实施例的融合可以采用预设规则融合，或者也可以采用对象分割模型中预先训练的融合系数进行融合，得到融合特征。

具体实现时，将包括所有对象的语义分割特征和定位特征进行element-wise的融合后，送入分割网络模块中进行待分割对象的分割，并输出待分割对象的分割图。

步骤S205-S206为上述图1所示实施例的步骤S103的一种实现方式，基于准确地语义分割特征和定位特征，采用该分割网络模块，能够进一步提升获取到的待分割对象的分割图的准确性。

基于上述实施例的记载，可以提供如图5所示的一种对象分割方法的架构图。如图5所示，输入对象分割模型中的是原始图像和语言表达，其中语言表达描述待分割对象的信息。在对象分割模型内，可以采用视觉特征提取网络模型提取原始图像的视觉特征，再将视觉特征输入值语义分割网络模块内，经过语义分割，得到原始图像的语义分割特征，其中包括图像中各个对象的语义分割特征。另一个分支内，可以采用语言表达特征提取模型提取语言表达的语言表达特征。再将语言表达特征和原始图像的视觉特征，一起输入至行列定位网络模块内，进行多模态融合，并由行列定位网络模块输出待分割对象在原始图像中的定位特征。然后在将原始图像的语义分割特征和待分割对象的定位特征进行融合，得到融合特征。并将融合特征输入至分割网络模块内，对待分割对象进行分割处理，最终输出待分割对象的分割图。

本实施例的对象分割方法，通过采用语义分割网络模块和行列定位网络模块，能够准确地实现语义分割和待分割对象的定位，进而采用分割网络模块，基于得到的语义分割特征和定位特征，能够更加准确地获取待分割对象的分割图，能够有效地解决定位不准确和分割不准确的问题，有效地提高获取的待分割对象的分割图的准确性，提升引用实例分割的效果。

图6是根据本公开第三实施例的示意图。如图6所示，本实施例提供一种对象分割模型的训练方法，可以应用在对象分割模型的训练装置中，具体可以包括如下步骤：

S601、采集多条训练数据，各训练数据中包括训练图像、训练语言表达、以及训练语言表达描述的训练对象在训练图像中的训练分割图；

S602、采用多条训练数据，对包括行列定位网络模块和分割网络模块的对象分割模型进行训练。

本实施例的对象分割模型的训练装置可以为一实体的计算机之类的电子设备。或者也可以为运行在计算机之上的应用。本实施例的对象分割模型的训练方法，具体可以为对上述图2所示实施例中的对象分割模型进行训练的方法。

本实施例的训练语言表达用于描述训练图像中要分割的训练对象的信息，可以采用自然语言表达的形式来表示。本实施例的对象分割模型不仅要处理训练图像的信息，还要处理训练语言表达的信息，涉及到多模态处理，实现对训练对象的分割，属于引用实例分割领域。

本实施例中的对象分割模型包括有行列定位网络模块和分割网络模块，其中行列定位网络模块用于基于训练语言表达获取训练对象的定位特征，这里的定位特征具体指的是该训练对象在训练图像中的定位特征。分割网络模块用于实现从训练图像中分割出训练语言表达描述的训练对象的分割图。

本实施例中，可以采用多条训练数据，对包括行列定位网络模块和分割网络模块的对象分割模型，进行有监督的训练，以提高对象分割模型的精度，提升对象分割模型的分割效果。

本实施例的对象分割模型的训练方法，能够实现对对象分割模型中所有模块，包括定位网络模块和分割网络模块一起进行训练，可以使得对象分割模型中的定位网络模块能够对语言表达描述的对象进行准确定位，使得分割网络模块能够对语言表达描述的对象进行准确地分割，进而有效地提高对象分割模型的分割准确性，提升对象分割模型的分割效果。

图7是根据本公开第四实施例的示意图。本实施例在上述图6所示实施例的技术方案的基础上，进一步更加详细地介绍本公开的技术方案。如图7所示，本实施例的对象分割模型的训练方法，具体可以包括如下步骤：

S701、采集多条训练数据，各训练数据中包括训练图像、训练语言表达、以及训练语言表达描述的训练对象在训练图像中的训练分割图；

S702、对于各训练数据，基于训练数据中的训练图像，获取训练图像的训练语义分割特征；

该训练语义分割特征中可以包括训练图像中各对象的语义分割.特征。例如，该步骤具体实现时，可以采用如下步骤来实现：

(1)基于训练数据中的训练图像，提取训练图像的训练视觉特征；

例如，具体可以采用预先训练好的视觉特征提取网络模型，实现训练视觉特征的提取。例如，视觉特征提取网络模型可以采用deeplab-v3特征提取网络。或者也可以采用ResNet或者deeplab-ResNet101等网络来实现视觉特征提取。

(2)基于训练视觉特征，采用语义分割网络模块进行语义分割处理，得到训练图像的训练语义分割特征。

例如，该语义分割网络模块可以采用上述图3所示实施例的语义分割网络模块。该模块可以预先训练好，或者也可以与对象分割模型中的预测定位特征以及分割网络模块一起训练。采用该方式，能够实现对图像中的各对象进行语义分割，为训练语言表达描述的训练对象的分割提供了基础，进而可以提高训练对象分割的准确性。

S703、基于训练数据中的训练图像、训练语言表达以及行列定位网络模块，获取训练语言表达描述的训练对象在训练图像中的预测定位特征；

例如，该步骤具体实现时，可以包括：

(a)基于训练数据中的训练图像，提取训练图像的训练视觉特征；

该步骤与上述步骤(1)是实现相同，在此不再赘述。

(b)基于训练语言表达，提取训练语言表达特征；

例如，具体可以采用预先训练的语言表达特征提取模型来实现提取训练语言表达特征。语言表达特征提取模型可以采用GRU网络、或者LSTM等网络来实现。

(c)基于训练视觉特征和训练语言表达特征，采用行列定位网络模块获取训练语言表达描述的训练对象在训练图像中的预测定位特征。

具体地，将训练视觉特征和训练语言表达特征，输入至行列定位网络模块。在行列定位网络模块中，训练视觉特征和训练语言表达特征进行了多模态融合，并由行列定位网络模块基于融合后的特征，输出训练语言表达描述的训练对象在训练图像中的预测定位特征。采用该方式，对训练语言表达进行了深度理解和推理，能够有效地提高预测定位特征的准确性。

S704、基于训练语义分割特征、预测定位特征以及分割网络模块，获取训练对象在训练图像中的预测分割图；

例如，该步骤具体实现时，可以包括：

(A)将训练语义分割特征和预测定位特征进行融合，得到训练融合特征；

本实施例的融合可以基于预设的融合规则进行融合。或者也可以采用融合系数进行融合，该融合系数在训练过程中可以学习。

(B)基于训练融合特征，采用分割网络模块，分割到训练对象在训练图像中的预测分割图。

具体地，将训练融合特征输入至分割网络模块中，该分割网络模块可以基于输入的信息，预测训练对象在训练图像中的预测分割图。采用该方式，可以准确地预测训练对象的预测分割图。

S705、基于训练分割图和预测分割图，对对象分割模型中的行列定位网络模块和分割网络模块的参数进行调整。

以对象分割模型中的行列定位网络模块和分割网络模块不是预先训练的，而其他功能模块是预先训练的为例，在训练过程中，需要不断地调整行列定位网络模块和分割网络模块的参数，直至对象分割模型收敛，达到最佳效果。具体地参数调整，可以每轮训练仅调整一个模块的参数，也可以对需要调整参数的模块同时调整参数，在此不做限定。

具体实现时，在每一轮训练中，可以先基于训练分割图和预测分割图构建损失函数；然后检测损失函数是否收敛，若未收敛，调整对象分割模型参数，具体调整对象分割模型中需要训练的模块的参数如行列定位网络模块和分割网络模块的参数，使得损失函数趋于收敛。即基于梯度下降法的原理，对对象分割模型中要学习的参数进行调整，使得损失函数朝向收敛的方向，直至训练次数达到预设次数阈值，或者在连续预设轮数的训练中，损失函数始终收敛，此时可以终止训练。此时，可以确定行列定位网络模块和分割网络模块的参数，进而确定对象分割模型。

在本公开的一个实施例中，若对象分割模型中语义分割网络模块预先未经过训练，此时也需要同对象分割模型中的行列定位网络模块和分割网络模块一起进行训练。即基于训练分割图和预测分割图，对对象分割模型中的行列定位网络模块、分割网络模块以及语义分割网络模块的参数进行调整。

在本公开的一个实施例中，若步骤(A)中将训练语义分割特征和预测定位特征进行融合的融合系数也需要一起经过训练。同上述原理，也可以基于训练分割图和预测分割图，对对象分割模型中的行列定位网络模块、分割网络模块和语义分割网络模块的参数、以及融合系数进行调整。

本实施例的训练方法为有监督的训练方法，其训练过程中各步骤实现原理与模型使用过程中对应步骤的实现原理相同，详细亦可以参考上述图2所示实施例的相关实现步骤。

本实施例的对象分割模型的训练方法，通过采用上述方式，能够实现对对象分割模型进行训练，使得训练后的对象分割模型不仅能够对语言表达进行深度推理和理解，实现对语言表达描述的对象进行准确定位；而且还能够对图像进行语义分割；进而可以基于图像的语义分割特征和定位特征实现对待分割对象的准确分割，能够有效地提高对象分割模型的分割准确性，提升对象分割模型的分割效果。

图8是根据本公开第五实施例的示意图。如图8所示，本实施例提供一种对象分割装置800，包括：

语义分割模块801，用于基于原始图像，获取原始图像的语义分割特征；

定位模块802，用于基于原始图像和语言表达，获取语言表达描述的待分割对象在原始图像中的定位特征；

分割处理模块803，用于基于语义分割特征和定位特征，获取待分割对象在原始图像中的分割图。

本实施例的对象分割装置800，通过采用上述模块实现对象分割的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关实施例的记载，在此不再赘述。

进一步可选地，在本公开的一个实施例中，语义分割模块801，用于：

基于原始图像，提取原始图像的视觉特征；

基于视觉特征，获取原始图像的语义分割特征。

基于视觉特征，采用预先训练的对象分割模型中的语义分割网络模块进行语义分割处理，得到原始图像的语义分割特征。

进一步可选地，在本公开的一个实施例中，定位模块802，用于：

基于原始图像，提取原始图像的视觉特征；

基于语言表达，提取语言表达特征；

基于视觉特征和语言表达特征，获取语言表达描述的待分割对象在原始图像中的定位特征。

基于视觉特征和语言表达特征，采用预先训练的对象分割模型中的行列定位网络模块，获取语言表达限定的待分割对象在原始图像中的定位特征。

进一步可选地，在本公开的一个实施例中，分割处理模块803，用于将语义分割特征和定位特征进行融合，得到融合特征；

基于融合特征，采用预先训练的对象分割模型中的分割网络模块，分割到待分割对象的分割图。

上述实施例的对象分割装置800，通过采用上述模块实现对象分割的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关实施例的记载，在此不再赘述。

图9是根据本公开第六实施例的示意图。如图9所示，本实施例提供一种对象分割模型的训练装置900，包括：

采集模块901，用于采集多条训练数据，各训练数据中包括训练图像、训练语言表达、以及训练语言表达描述的训练对象在训练图像中的训练分割图；

训练模块902，用于采用多条训练数据，对包括行列定位网络模块和分割网络模块的对象分割模型进行训练。

本实施例的对象分割模型的训练装置900，通过采用上述模块实现对象分割模型的训练的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关实施例的记载，在此不再赘述。

图10是根据本公开第七实施例的示意图。如图10所示，本实施例在上述图9所示实施例的基础上，提供一种对象分割模型的训练装置1000，包括图9所示的同名同功能模块：采集模块1001和训练模块1002。

在本公开的一个实施例中，训练模块1002，包括：

语义分割单元10021，用于对于各训练数据，基于训练数据中的训练图像，获取训练图像的训练语义分割特征；

定位单元10022，用于基于训练数据中的训练图像、训练语言表达以及行列定位网络模块，获取训练语言表达描述的训练对象在训练图像中的预测定位特征；

分割处理单元10023，用于基于训练语义分割特征、预测定位特征以及分割网络模块，获取训练对象在训练图像中的预测分割图；

调整单元10024，用于基于训练分割图和预测分割图，对对象分割模型中的行列定位网络模块和分割网络模块的参数进行调整。

在本公开的一个实施例中，定位单元10022，用于:

基于训练数据中的训练图像，提取训练图像的训练视觉特征；

基于训练语言表达，提取训练语言表达特征；

基于训练视觉特征和训练语言表达特征，采用行列定位网络模块获取训练语言表达描述的训练对象在训练图像中的预测定位特征。

在本公开的一个实施例中，对象分割模型中还包括语义分割网络模块；语义分割单元10021，用于：

基于训练视觉特征，采用语义分割网络模块进行语义分割处理，得到训练图像的训练语义分割特征。

在本公开的一个实施例中，调整单元10024，用于：

基于训练分割图和预测分割图，对对象分割模型中的行列定位网络模块、分割网络模块以及语义分割网络模块的参数进行调整。

在本公开的一个实施例中，分割处理单元10023，用于：

将训练语义分割特征和预测定位特征进行融合，得到训练融合特征；

基于训练融合特征，采用分割网络模块，分割到训练对象在训练图像中的预测分割图。

本实施例的对象分割模型的训练装置1000，通过采用上述模块实现对象分割模型的训练的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关实施例的记载，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如本公开的上述方法。例如，在一些实施例中，本公开的上述方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的本公开的上述方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开的上述方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种对象分割方法，包括：

基于原始图像，获取所述原始图像的语义分割特征；

2.根据权利要求1所述的方法，其中，基于原始图像，获取所述原始图像的语义分割特征，包括：

基于所述原始图像，提取所述原始图像的视觉特征；

基于所述视觉特征，获取所述原始图像的语义分割特征。

3.根据权利要求2所述的方法，其中，基于所述视觉特征，获取所述原始图像的语义分割特征，包括：

基于所述视觉特征，采用预先训练的对象分割模型中的语义分割网络模块进行语义分割处理，得到所述原始图像的语义分割特征。

4.根据权利要求1所述的方法，其中，基于所述原始图像和语言表达，获取所述语言表达限定的待分割对象在所述原始图像中的定位特征，包括：

基于所述原始图像，提取所述原始图像的视觉特征；

基于所述语言表达，提取所述语言表达特征；

基于所述视觉特征和所述语言表达特征，获取所述语言表达描述的所述待分割对象在所述原始图像中的定位特征。

5.根据权利要求4所述的方法，其中，基于所述视觉特征和所述语言表达特征，获取所述语言表达限定的所述待分割对象在所述原始图像中的定位特征，包括：

基于所述视觉特征和所述语言表达特征，采用预先训练的对象分割模型中的行列定位网络模块，获取所述语言表达限定的所述待分割对象在所述原始图像中的定位特征。

6.根据权利要求1所述的方法，其中，基于所述语义分割特征和所述定位特征，获取所述待分割对象在所述原始图像中的分割图，包括：

将所述语义分割特征和所述定位特征进行融合，得到融合特征；

基于所述融合特征，采用预先训练的对象分割模型中的分割网络模块，分割到所述待分割对象的分割图。

7.一种对象分割模型的训练方法，包括：

8.根据权利要求7所述的方法，其中，采用所述多条训练数据，对包括行列定位网络模块和分割网络模块的对象分割模型进行训练，包括：

对于各所述训练数据，基于所述训练数据中的所述训练图像，获取所述训练图像的训练语义分割特征；

基于所述训练数据中的所述训练图像、所述训练语言表达以及所述行列定位网络模块，获取所述训练语言表达描述的所述训练对象在所述训练图像中的预测定位特征；

基于所述训练语义分割特征、所述预测定位特征以及所述分割网络模块，获取所述训练对象在所述训练图像中的预测分割图；

基于所述训练分割图和所述预测分割图，对所述对象分割模型中的所述行列定位网络模块和所述分割网络模块的参数进行调整。

9.根据权利要求8所述的方法，其中，基于所述训练数据中的所述训练图像、所述训练语言表达以及所述行列定位网络模块，获取所述训练语言表达描述的所述训练对象在所述训练图像中的预测定位特征，包括:

基于所述训练数据中的所述训练图像，提取所述训练图像的训练视觉特征；

基于所述训练语言表达，提取所述训练语言表达特征；

基于所述训练视觉特征和所述训练语言表达特征，采用所述行列定位网络模块获取所述训练语言表达描述的所述训练对象在所述训练图像中的所述预测定位特征。

10.根据权利要求8所述的方法，其中，所述对象分割模型中还包括语义分割网络模块；基于所述训练数据中的所述训练图像，获取所述训练图像的训练语义分割特征，包括：

基于所述训练视觉特征，采用所述语义分割网络模块进行语义分割处理，得到所述训练图像的训练语义分割特征。

11.根据权利要求10所述的方法，其中，采用所述多条训练数据，对包括行列定位网络模块和分割网络模块的对象分割模型进行训练，包括：

基于所述训练分割图和所述预测分割图，对所述对象分割模型中的所述行列定位网络模块、所述分割网络模块以及所述语义分割网络模块的参数进行调整。

12.根据权利要求8所述的方法，其中，基于所述训练语义分割特征、所述预测定位特征以及所述分割网络模块，获取所述训练对象在所述训练图像中的预测分割图，包括：

将所述训练语义分割特征和所述预测定位特征进行融合，得到训练融合特征；

基于所述训练融合特征，采用所述分割网络模块，分割到所述训练对象在所述训练图像中的所述预测分割图。

13.一种对象分割装置，包括：

14.根据权利要求13所述的装置，其中，所述语义分割模块，用于：

基于所述原始图像，提取所述原始图像的视觉特征；

基于所述视觉特征，获取所述原始图像的语义分割特征。

15.根据权利要求14所述的装置，其中，所述语义分割模块，用于：

16.根据权利要求13所述的装置，其中，所述定位模块，用于：

基于所述原始图像，提取所述原始图像的视觉特征；

基于所述语言表达，提取所述语言表达特征；

17.根据权利要求16所述的装置，其中，所述定位模块，用于：

18.根据权利要求13所述的装置，其中，所述分割处理模块，用于

19.一种对象分割模型的训练装置，包括：

20.根据权利要求19所述的装置，其中，所述训练模块，包括：

语义分割单元，用于对于各所述训练数据，基于所述训练数据中的所述训练图像，获取所述训练图像的训练语义分割特征；

定位单元，用于基于所述训练数据中的所述训练图像、所述训练语言表达以及所述行列定位网络模块，获取所述训练语言表达描述的所述训练对象在所述训练图像中的预测定位特征；

分割处理单元，用于基于所述训练语义分割特征、所述预测定位特征以及所述分割网络模块，获取所述训练对象在所述训练图像中的预测分割图；

调整单元，用于基于所述训练分割图和所述预测分割图，对所述对象分割模型中的所述行列定位网络模块和所述分割网络模块的参数进行调整。

21.根据权利要求20所述的装置，其中，所述定位单元，用于:

基于所述训练语言表达，提取所述训练语言表达特征；

22.根据权利要求20所述的装置，其中，所述对象分割模型中还包括语义分割网络模块；所述语义分割单元，用于：

23.根据权利要求22所述的装置，其中，所述调整单元，用于：

24.根据权利要求20所述的装置，其中，所述分割处理单元，用于：

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6、或者7-12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6、或者7-12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6、或者7-12中任一项所述的方法。