CN114495236B

CN114495236B - 图像分割方法、装置、设备、介质及程序产品

Info

Publication number: CN114495236B
Application number: CN202210130222.XA
Authority: CN
Inventors: 伍天意; 吴思彤; 郭国栋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2023-02-28
Anticipated expiration: 2042-02-11
Also published as: CN114495236A

Abstract

本公开提供了一种图像分割方法及装置、电子设备、存储有计算机指令的非瞬时计算机可读存储介质、计算机程序产品，涉及计算机技术领域，尤其涉及人工智能技术领域。本公开首先根据待分割图像，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率；之后根据各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，确定各个部位的图像分割结果。本公开通过确定的各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，实现了像素级图像特征的跨部位传播，细化了各部位的空间布局，同时消除了对顶点像素重投影操作的依赖，提高了各个部位的图像分割精度。

Description

图像分割方法、装置、设备、介质及程序产品

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能技术领域，公开了一种图像分割方法及装置、电子设备、存储有计算机指令的非瞬时计算机可读存储介质、计算机程序产品。

背景技术

传统的对象解析方法，例如人脸解析方法主要可以分为基于区域的解析方法和基于图像的解析方法两类。传统的解析方法需要将像素映射到人脸部位上，在映射过程中存在空间特征损失的问题，以及依赖额外的顶点像素重投影的问题，这就造成了人脸解析过程繁琐、解析精度不高的缺陷。

发明内容

本公开至少提供了一种图像分割及装置、电子设备、程序产品以及存储介质。

根据本公开的一方面，提供了一种图像分割方法，包括：

获取包括目标对象的待分割图像；目标对象包括多个部位；

根据待分割图像，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率；

根据各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，确定各个部位的图像分割结果。

根据本公开的另一方面，提供了一种图像分割装置，包括：

图像获取模块，用于获取包括目标对象的待分割图像；目标对象包括多个部位；

图像处理模块，用于根据待分割图像，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率；

分割模块，用于根据各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，确定各个部位的图像分割结果。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术通过确定的各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，实现了像素级图像特征的跨部位传播，细化了各部位的空间布局，同时消除了对顶点像素重投影操作的依赖，在减少处理步骤的同时，提高了各个部位的图像分割精度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开图像分割方法的流程图之一；

图2是根据本公开图像分割方法的流程图之二；

图3是根据本公开中的进行空间自适应融合(Spatial Adaptive Fusion，SAF)的模块的结构示意图；

图4是根据本公开中的原型引导的Transformer(Prototype GuidedTransformer，PrGT)结构示意图；

图5是根据本公开中的部件感知的图Transformer(Part-aware GraphTransformer，PaGT)结构示意图；

图6是根据本公开中的PaGT块(PaGT Block)结构示意图；

图7是根据本公开图像分割装置的结构示意图；

图8是根据本公开的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

针对上述技术缺陷，本公开至少提供了一种图像分割方法及装置、电子设备、存储有计算机指令的非瞬时计算机可读存储介质、计算机程序产品。本公开通过确定的各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，实现了像素级图像特征的跨部位传播，细化了各部位的空间布局，同时消除了对顶点像素重投影操作的依赖，在减少处理步骤、提高分割效率的同时，提高了各个部位的图像分割精度。

下面通过具体的实施例对本公开的图像分割方法进行说明。

图1示出了本公开实施例的图像分割方法的流程图，该实施例的执行主体可以是具有计算能力的设备。如图1所示，本公开实施例的图像分割方法可以包括如下步骤：

S110、获取包括目标对象的待分割图像；目标对象包括多个部位。

上述目标对象是需要进行部位分割的对象，例如人脸，各个部位可以是眼睛、鼻子、嘴巴、耳朵等。

上述待分割图像是拍摄人脸得到的图像，其除了人脸，还可以包括其他部位的像素点。当然待分割图像还可以是从拍摄的原始图像中的分割得到的人脸图像。

S120、根据待分割图像，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。

某一部位的初始概率特征图中包括待分割图像中各个像素点属于该部位的概率对应的特征。

两个初始概率特征图之间的像素特征传递概率中可以包括一个概率值，该概率值表征其中一个初始概率特征图中的信息传递到另一个初始概率特征图的可能性。当然，两个初始概率特征图之间的像素特征传递概率中也可以包括多个概率值，各个概率值分别用于表征其中一个初始概率特征图中对应像素点的信息传递到另一个初始概率特征图中相同位置的像素点的可能性。

示例性地，可以按照如下步骤确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率：

首先根据待分割图像，分别确定待分割图像对应于各个预设尺度的图像特征；之后，将各个预设尺度的图像特征进行聚合，得到聚合特征；之后根据各个初始部位原型和聚合特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征；之后，根据各个概率掩膜图像和聚合增强特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。

S130、根据各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，确定各个部位的图像分割结果。

在确定各个部位的图像分割结果时，可以先对各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率进行至少一次更新操作，再根据更新后的初始概率特征图和像素特征传递概率来确定各个部位的图像分割结果。

上述实施例可以通过像素级图像特征的跨部位传播，促进目标对象的各部位的识别，同时细化了部位的空间布局，消除了对后期处理的点对像素重投影操作的依赖，简化了图像分割流程。

在一些实施例中，上述根据待分割图像，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，具体可以利用如下步骤实现：

首先分别确定待分割图像对应于各个预设尺度的图像特征；之后，将各个预设尺度的图像特征进行聚合，得到聚合特征；最后，根据聚合特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。

示例性地，如图2所示，可以将待分割图像输入一个训练好的层次化的Transformer主干网络(Transformer Backbone)中来提取多尺度的图像特征，得到上述对应于各个预设尺度的图像特征，如图2中所示的F1、F2、F3和F4。高分辨率对应的预设尺度的图像特征比低分辨率对应的预设尺度的图像特征包含更多的空间细节，而低分辨率对应的预设尺度的图像特征比高分辨率对应的预设尺度的图像特征具有更强的语义信息。在此基础上，将多尺度的图像特征自适应地融合为语义强、细节丰富的单一特征(即上述聚合特征)有利于提高后续图像分割的精度。融合来自多个预设尺度的图像度特征对于密集预测任务(例如部位分割任务)至关重要，合理的特征融合能够有效提高密集预测任务的精度。其中，Transformer Backbone可以采用Swin Transformer。

上述实施例融合多个预设尺度的图像特征，得到了语义强、细节丰富的聚合特征，利用该特征能够较为准确地确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。

在一些实施例中上述可以利用如下步骤将各个预设尺度的图像特征进行聚合，得到聚合特征：

首先针对除最小的预设尺度以外的每个预设尺度，对该预设尺度的图像特征和小于该预设尺度的至少一个预设尺度的图像特征进行聚合，得到该预设尺度对应的语义增强图像特征；之后，根据各个预设尺度对应的语义增强图像特征，确定各个预设尺度对应的聚合权重；最后，利用各个预设尺度对应的聚合权重，对各个预设尺度对应语义增强图像特征进行聚合，得到聚合特征。

示例性地，可以利用如图3所示的网络聚合各个预设尺度的图像特征，得到聚合特征。从图3中可以看出，除最小预设尺度以外的每个预设尺度均聚合了小于该预设尺度的各个预设尺度的图像特征，得到了除最小预设尺度以外的各个预设尺度对应的语义增强图像特征，如图3中的F₁ ^S、F₂ ^S和F₃ ^S。在聚合图像特征之前，可以先对各个预设尺度的图像特征进行处理，再聚合处理后的图像特征，得到语义增强图像特征。其中，最小预设尺度对应的语义增强图像特征F₄ ^S可以是直接对最小预设尺度的图像特征进行处理得到的。

如图3所示，在得到各个预设尺度对应的语义增强图像特征之后，可以对各个预设尺度对应的语义增强图像特征进行处理，并对处理后的各个特征沿通道方向进行堆叠，之后再对堆叠后的特征进行处理，得到各个预设尺度对应的聚合权重，如图3中的W₁、W₂、W₃和W₄所示。

上述对特征进行处理可以是进行卷积处理。

如图3所示，在得到各个预设尺度对应的聚合权重之后，可以利用各个聚合权重，对各个预设尺度对应语义增强图像特征进行加权求和，得到上述聚合特征F_s。

如图3所示的网络结构，可以称为Spatial Adaptive Fusion(SAF)，其实现了对各个预设尺度的图像特征的空间自适应融合。其首先使用一个轻量级融合模块，包括横向连接和自顶向下路径，在所有预设尺度的图像特征中引入强语义；之后根据各个预设尺度的语义增强后的特征自适应预测了的各预设尺度对应的聚合权重，之后根据得到的聚合权重自适应地将多尺度的图像特征聚合为语义强、细节丰富的单一特征，即上述聚合特征F_s。

在一些实施例中，上述根据聚合特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，具体可以利用如下步骤实现：

首先分别获取各个部位对应的初始部位原型；之后，根据各个初始部位原型和聚合特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征；最后根据各个概率掩膜图像和聚合增强特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。

上述初始部位原型用于表征对应的部位的标准的特征，可以是根据整个数据集学习得到的，是通用的原型，不能与每个个体较好的匹配。每个部位经过上述步骤均能够得到一张概率掩膜图像。

根据各个部位对应的初始部位原型和聚合特征实现了一种查询机制，能够较为准确地确定更加适合个体的多个概率掩膜图像和像素特征增强后的聚合增强特征，之后根据更适合个体的概率掩膜图像和像素特征增强后的特征，能够更加准确地确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。

示例性地，可以利用如下步骤根据各个初始部位原型和聚合特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征：

首先利用线性映射和注意力机制，对各个初始部位原型和聚合特征进行处理，确定各个初始部位原型对应的注意力特征；之后，将各个初始部位原型对应的注意力特征和各个初始部位原型进行聚合，并根据聚合得到的特征，确定各个部位对应的目标部位原型；最后，根据各个目标部位原型和注意力特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征。

示例性地，可以利用如图4所示的网络结构确定目标对象的各个部位对应的概率掩膜图像Mask和聚合增强特征F_pr。利用线性映射linear和注意力机制，例如使用多头交叉注意力Multi-head Cross Attention，对各个初始部位原型part prototypes P和聚合特征F_s进行处理，确定各个初始部位原型对应的注意力特征，这里的注意力特征可以以特征图的形式存储和使用，例如图4中的特征图attention map A。attention map A一方面直接输入到了块Block中的特征分支feature branch中，另一方面Multi-head CrossAttention对attention map A进行了进一步地处理，并将处理结果输出到了Block中的部件分支Part branch中。

如图4所示，Block中的Part branch中，将Multi-head Cross Attention输出的特征与各个初始部位原型进行聚合，之后对聚合后的特征输入到多层感知器MLP中，MLP输出的特征与上述聚合后的特征再次进行聚合，得到各个部位更新后的部位原型。在实际应用中Block可以设置一个或多个，如果设置一个Block，上述更新后的部位原型即为目标部位原型；如果设置多个Block，则更新后的部位原型输入到下一个Block中继续进行更新，直到得到更加适合当前个体的目标部位原型P^L。例如，Block的数量可以设置6。

考虑到个性化的部位(例如，头发的颜色和纹理)的巨大差异，通过整个数据集学习到的通用原型，即初始部位原型可能不适合每个个体。因此，part branch通过将属于相应部件的特征，即初始部位原型与注意力机制获得的注意力特征进行聚合，使更新后的部位原型更适应当前个体。

根据上述实施例中的步骤可以得到更加适合当前个体的目标部位原型以及注意力特征；之后利用更加适合当前个体的目标部位原型以及注意力特征，能够更加准确地确定适合当前个体的概率掩膜图像和聚合增强特征。

示例性地，在确定各个部位的目标部位原型和注意力特征之后，可以利用如下步骤确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征：

首先根据各个目标部位原型和注意力特征，对聚合特征进行像素点特征增强处理，得到聚合增强特征；之后，将聚合增强特征和各个目标部位原型进行矩阵乘法处理，得到各个部位对应的概率掩膜图像。

如图4所示，如果只设置一个Block，则上述目标部位原型即为该Block中的partbranch输出的部位原型。如果设置多个Block，则每个Block均利用其自身包括的partbranch输出的部位原型和注意力特征，对聚合特征进行像素点特征增强处理，得到当前Block对应的聚合增强特征，并将当前Block对应的聚合增强特征输入下一个Block中，在下一个Block中对聚合增强特征进行像素点特征增强处理，得到下一个Block对应的聚合增强特征。

在一个Block的feature branch中对聚合特征或对聚合增强特征进行像素点特征增强处理就可以包括：对part branch输出的部位原型和注意力特征进行矩阵乘法处理，之后对矩阵乘法处理后的特征与聚合特征或聚合增强特征进行聚合处理；之后将聚合处理得到特征输入MLP中；之后，将MLP输出的特征与上述聚合处理得到特征再次进行聚合处理，得到当前Block对应的聚合增强特征。

在得到最后一个Block的聚合增强特征F_pr和更新后的部位原型，即目标部位原型之后，将最后一个Block的聚合增强特征F_pr和目标部位原型进行矩阵乘法处理，得到各个部位对应的概率掩膜图像。

上述实施例中的feature branch对部位原型增强像素级表示，有助于增强特征的鲁棒性，提高确定的概率掩膜图像的准确性。为了节省计算，直接重用注意力特征作为token与部位之间的相关性(即token属于每个部位的概率图)。考虑到不同的人脸聚焦于不同的方面，使用一个线性映射来学习每个人脸的重要性。因此，像素级表示通过部位原型的注意力聚合进行扩充，并通过MLP模块进行通道级投影。最后通过动态的目标部位原型与增强后的特征(即聚合增强特征)之间的矩阵乘法生成各部件的概率掩膜mask。

上述图4所示的网络结构可以称为Prototype Guided Transformer(PrGT)，其确定概率掩膜图像的过程，以一组可学习的部位原型和聚合特征作为输入，然后经过L个Block来动态更新部位原型和图像表示，即图像的聚合特征或聚合增强特征。每个Block由一个part branch和一个feature branch组成，该网络结构实现了更精确地划分目标对象的各个部件。

在一些实施例中，可以按照如下步骤实现根据各个概率掩膜图像和聚合增强特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率：

如图5所示，首先根据各个概率掩膜图像Mask M和聚合增强特征F_pr，确定各个部位对应的子像素增强特征part-specific features Fpa；之后，根据各个部位对应的子像素增强特征，确定各个像素点分别属于各个部位的概率特征；最后，根据各个像素点分别属于各个部位的概率特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。其中，各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率形成图像graph。

其中，graph中的节点表示某个部位的初始概率特征图，可以直接将各个部位的part-specific features特征作为graph的节点的概率特征。Graph中的边表示节点间连接属性，通过graph完全连接来更全面地建模部位之间的关系。上述步骤建立的graph能够实现像素级的跨部位传播，促进不同部位之间的区分性，同时细化其空间布局。

在一些实施例中，上述根据各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，确定各个部位的图像分割结果，具体可以利用如下步骤实现：

首先，针对任意两个概率特征图，根据该两个初始概率特征图之间的像素特征传递概率，对该两个初始概率特征图以及对应的像素特征传递概率进行更新，得到两个目标概率特征图和两个目标概率特征图之间的目标像素特征传递概率；之后，根据各个目标概率特征图和任意两个目标概率特征图之间的目标像素特征传递概率，确定各个部位的图像分割结果。

上述对两个初始概率特征图以及对应的像素特征传递概率进行更新的步骤，具体可以对两个初始概率特征图以及对应的像素特征传递概率更新一次，也可以更新多次，如图5所示，可以利用PaGT Block进行一次更新，

如果更新多次，则需要串联多个PaGT Block。每次更新均进行了像素级特征的增强和传播，有利于提高后续图像分割的精度。

在根据各个目标概率特征图和任意两个目标概率特征图之间的目标像素特征传递概率，确定各个部位的图像分割结果时，具体可以对每个节点对应的目标概率特征图施加一个1*1卷积来得到每个部位的概率mask，再经过取最大值对应的索引argmax得到最终的分割结果。

上述对两个初始概率特征图以及对应的像素特征传递概率进行更新，具体可以利用如下步骤实现：

如图6所示，首先，对该两个初始概率特征图h_i ^l-1、h_j ^l-1进行拼接处理concat，得到第一拼接概率特征图；其中，l表示PaGT Block的序号，i、j均表示初始概率特征图的序号。

之后，对第一拼接概率特征图进行卷积处理Φ_e，得到第二拼接概率特征图。

之后，对第二拼接概率特征图和对应的像素特征传递概率e_j-i ^l-1进行聚合，得到初始像素特征传递概率∈_j-i ^l；其中，l表示PaGT Block的序号，j-i表示初始概率特征图h_j ^l-1指向初始概率特征图h_i ^l-1的边。

最后，根据初始像素特征传递概率∈_j-i ^l和两个初始概率特征图h_i ^l-1、h_j ^l-1，对该两个初始概率特征图以及对应的像素特征传递概率进行更新。示例性地，可以将两个初始概率特征图h_i ^l-1、h_j ^l-1和∈_j-i ^l输入部件感知的注意力pa-Attention中，pa-Attention对出入的特征进行处理后，输出注意力特征图attention map A_j-i ^l和

之后，分别将attentionmap A_j-i ^l和

输入MLP中，attention map A_j-i ^l与MLP输出的特征进行聚合，得到更新后的概率特征图e_j-i ¹，

与MLP输出的特征进行聚合，得到更新后的像素特征传递概率h_i ^l。

上述图5和图6所示的网络结构可以称为Part-aware Graph Transformer(PaGT)，其实现了最终的图像分割。

上述实施例每个PaGT Block通过像素部位间特征传播来更新概率特征图和像素特征传递概率，以促进不同部位之间的区分性，同时细化其空间布局，有利于提高图像分割精度。

综上，如图2所示，上述图像分割方法可以包括如下步骤：

第一步、将待分割的人脸图像送入一个层次化的Transformer backbone中提取多尺度特征，得到各个预设尺度对应的图像特征。

第二步、然后使用Spatial Adaptive Fusion(SAF)来自适应的将多尺度特征聚合为一个特征F_s，该特征包含丰富的细节信息和语义信息。

第三步、使用Prototype Guided Transformer(PrGT)对聚合的特征F_s和各个部位对应的初始部位原型进行处理，得到每个部位的概率掩膜图像Mask以及聚合增强图像特征F_pr。这些mask用于指导Part-aware Graph Transformer(PaGT)划分不同的部位。

第四步、Part-aware Graph Transformer(PaGT)以PrGT输出的mask和聚合增强图像特征F_pr作为输入，来构建一个graph，并利用一个Graph Transformer结构，即上述PaGTBlock来更新节点特征和边特征。最后，对更新后的graph应用一个逐像素per-pixel分类器来预测每个部位的概率图，得到各个部位的图像分割结果。

基于同一发明构思，本公开实施例中还提供了一种图像分割方法对应的图像分割装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像分割方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

如图7所示，为本公开实施例所提供的图像分割装置的结构示意图，包括：

图像获取模块710，用于获取包括目标对象的待分割图像；目标对象包括多个部位；

图像处理模块720，用于根据待分割图像，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率；

分割模块730，用于根据各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，确定各个部位的图像分割结果。

在一些实施例中，图像处理模块720在根据待分割图像，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率时，用于：

分别确定待分割图像对应于各个预设尺度的图像特征；

将各个预设尺度的图像特征进行聚合，得到聚合特征；

根据聚合特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。

在一些实施例中，图像处理模块720在根据聚合特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率时，用于：

分别获取各个部位对应的初始部位原型；

根据各个初始部位原型和聚合特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征；

根据各个概率掩膜图像和聚合增强特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。

在一些实施例中，图像处理模块720在将各个预设尺度的图像特征进行聚合，得到聚合特征时，用于：

针对除最小的预设尺度以外的每个预设尺度，对该预设尺度的图像特征和小于该预设尺度的至少一个预设尺度的图像特征进行聚合，得到该预设尺度对应的语义增强图像特征；

根据各个预设尺度对应的语义增强图像特征，确定各个预设尺度对应的聚合权重；

利用各个预设尺度对应的聚合权重，对各个预设尺度对应语义增强图像特征进行聚合，得到聚合特征。

在一些实施例中，图像处理模块720在根据各个初始部位原型和聚合特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征时，用于：

利用线性映射和注意力机制，对各个初始部位原型和聚合特征进行处理，确定各个初始部位原型对应的注意力特征；

将各个初始部位原型对应的注意力特征和各个初始部位原型进行聚合，并根据聚合得到的特征，确定各个部位对应的目标部位原型；

根据各个目标部位原型和注意力特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征。

在一些实施例中，图像处理模块720在根据各个目标部位原型和注意力特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征时，用于：

根据各个目标部位原型和注意力特征，对聚合特征进行像素点特征增强处理，得到聚合增强特征；

将聚合增强特征和各个目标部位原型进行矩阵乘法处理，得到各个部位对应的概率掩膜图像。

在一些实施例中，图像处理模块720在根据各个概率掩膜图像和聚合增强特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率时，用于：

根据各个概率掩膜图像和聚合增强特征，确定各个部位对应的子像素增强特征；

根据各个部位对应的子像素增强特征，确定各个像素点分别属于各个部位的概率特征；

根据各个像素点分别属于各个部位的概率特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。

在一些实施例中，分割模块730在根据各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，确定各个部位的图像分割结果时，用于：

针对任意两个概率特征图，根据该两个初始概率特征图之间的像素特征传递概率，对该两个初始概率特征图以及对应的像素特征传递概率进行更新，得到两个目标概率特征图和两个目标概率特征图之间的目标像素特征传递概率；

根据各个目标概率特征图和任意两个目标概率特征图之间的目标像素特征传递概率，确定各个部位的图像分割结果。

在一些实施例中，分割模块730在根据该两个初始概率特征图之间的像素特征传递概率，对该两个初始概率特征图以及对应的像素特征传递概率进行更新时，用于：

对该两个初始概率特征图进行拼接处理，得到第一拼接概率特征图；

对第一拼接概率特征图进行卷积处理，得到第二拼接概率特征图；

对第二拼接概率特征图和对应的像素特征传递概率进行聚合，得到初始像素特征传递概率；

根据初始像素特征传递概率和两个初始概率特征图，对该两个初始概率特征图以及对应的像素特征传递概率进行更新。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元810，其可以根据存储在只读存储器(ROM)820中的计算机程序或者从存储单元880加载到随机访问存储器(RAM)830中的计算机程序，来执行各种适当的动作和处理。在RAM830中，还可存储设备800操作所需的各种程序和数据。计算单元810、ROM820以及RAM 830通过总线840彼此相连。输入/输出(I/O)接口850也连接至总线840。

设备800中的多个部件连接至I/O接口850，包括：输入单元860，例如键盘、鼠标等；输出单元870，例如各种类型的显示器、扬声器等；存储单元880，例如磁盘、光盘等；以及通信单元890，例如网卡、调制解调器、无线通信收发机等。通信单元890允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元810可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元810的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元810执行上文所描述的各个方法和处理，例如图像分割方法。例如，在一些实施例中，图像分割方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元880。在一些实施例中，计算机程序的部分或者全部可以经由ROM820和/或通信单元890而被载入和/或安装到设备800上。当计算机程序加载到RAM 830并由计算单元810执行时，可以执行上文描述的图像分割方法的一个或多个步骤。备选地，在其他实施例中，计算单元810可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像分割方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像分割方法，包括：

获取包括目标对象的待分割图像；所述目标对象包括多个部位；

根据所述待分割图像，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率；

针对任意两个初始概率特征图，根据该两个初始概率特征图之间的像素特征传递概率，对该两个初始概率特征图以及对应的像素特征传递概率进行更新，得到两个目标概率特征图和两个目标概率特征图之间的目标像素特征传递概率；

2.根据权利要求1所述的方法，其中，所述根据所述待分割图像，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，包括：

分别确定所述待分割图像对应于各个预设尺度的图像特征；

将各个预设尺度的图像特征进行聚合，得到聚合特征；

根据所述聚合特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。

3.根据权利要求2所述的方法，其中，所述根据所述聚合特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，包括：

分别获取各个部位对应的初始部位原型；

根据各个初始部位原型和所述聚合特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征；

根据各个所述概率掩膜图像和所述聚合增强特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。

4.根据权利要求2或3所述的方法，其中，所述将各个预设尺度的图像特征进行聚合，得到聚合特征，包括：

利用各个预设尺度对应的聚合权重，对各个预设尺度对应语义增强图像特征进行聚合，得到所述聚合特征。

5.根据权利要求3所述的方法，其中，所述根据各个初始部位原型和所述聚合特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征，包括：

利用线性映射和注意力机制，对所述各个初始部位原型和所述聚合特征进行处理，确定各个初始部位原型对应的注意力特征；

根据各个所述目标部位原型和所述注意力特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征。

6.根据权利要求5所述的方法，其中，所述根据各个所述目标部位原型和所述注意力特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征，包括：

根据各个所述目标部位原型和所述注意力特征，对聚合特征进行像素点特征增强处理，得到所述聚合增强特征；

将所述聚合增强特征和所述各个所述目标部位原型进行矩阵乘法处理，得到各个部位对应的概率掩膜图像。

7.根据权利要求3所述的方法，其中，所述根据各个所述概率掩膜图像和所述聚合增强特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率，包括：

根据各个所述概率掩膜图像和所述聚合增强特征，确定各个部位对应的子像素增强特征；

根据所述各个像素点分别属于各个部位的概率特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率。

8.根据权利要求1所述的方法，其中，所述根据该两个初始概率特征图之间的像素特征传递概率，对该两个初始概率特征图以及对应的像素特征传递概率进行更新，包括：

对第二拼接概率特征图和所述对应的像素特征传递概率进行聚合，得到初始像素特征传递概率；

9.一种图像分割装置，包括：

图像获取模块，用于获取包括目标对象的待分割图像；所述目标对象包括多个部位；

图像处理模块，用于根据所述待分割图像，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率；

分割模块，用于针对任意两个初始概率特征图，根据该两个初始概率特征图之间的像素特征传递概率，对该两个初始概率特征图以及对应的像素特征传递概率进行更新，得到两个目标概率特征图和两个目标概率特征图之间的目标像素特征传递概率；以及根据各个目标概率特征图和任意两个目标概率特征图之间的目标像素特征传递概率，确定各个部位的图像分割结果。

10.根据权利要求9所述的装置，其中，所述图像处理模块在根据所述待分割图像，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率时，用于：

分别确定所述待分割图像对应于各个预设尺度的图像特征；

将各个预设尺度的图像特征进行聚合，得到聚合特征；

11.根据权利要求10所述的装置，其中，所述图像处理模块在根据所述聚合特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率时，用于：

分别获取各个部位对应的初始部位原型；

12.根据权利要求10或11所述的装置，其中，所述图像处理模块在将各个预设尺度的图像特征进行聚合，得到聚合特征时，用于：

13.根据权利要求11所述的装置，其中，所述图像处理模块在根据各个初始部位原型和所述聚合特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征时，用于：

14.根据权利要求13所述的装置，其中，所述图像处理模块在根据各个所述目标部位原型和所述注意力特征，确定目标对象的各个部位对应的概率掩膜图像和聚合增强特征时，用于：

15.根据权利要求11所述的装置，其中，所述图像处理模块在根据各个所述概率掩膜图像和所述聚合增强特征，确定各个部位对应的初始概率特征图以及任意两个初始概率特征图之间的像素特征传递概率时，用于：

16.根据权利要求9所述的装置，其中，所述分割模块在根据该两个初始概率特征图之间的像素特征传递概率，对该两个初始概率特征图以及对应的像素特征传递概率进行更新时，用于：

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序/指令，其中，该计算机程序/指令被处理器执行时实现权利要求1至8中任一项所述的方法。