WO2023066099A1

WO2023066099A1 - 抠像处理

Info

Publication number: WO2023066099A1
Application number: PCT/CN2022/124757
Authority: WO
Inventors: 程俊奇; 四建楼; 钱晨
Original assignee: 上海商汤智能科技有限公司
Priority date: 2021-10-18
Filing date: 2022-10-12
Publication date: 2023-04-27
Also published as: CN113657402B; CN113657402A

Abstract

本公开实施例提供一种抠像处理方法、装置、电子设备及存储介质，其中方法包括：对目标图像进行语义分割处理，得到所述目标图像对应的语义概率图，所述语义概率图包括：针对所述目标图像中的每个像素，该像素属于目标对象的第一概率，所述目标对象是所述目标图像中的前景或者背景；基于所述语义概率图进行概率转换处理，得到三分图，针对所述三分图中每个像素，该像素对应的数值表示该像素在所述目标图像中属于前景、背景或待确定区域中的任一区域的概率；根据所述三分图和所述目标图像进行抠像处理，得到抠像结果。

Description

抠像处理

相关申请的交叉引用

本申请要求在2021年10月18日提交至中国专利局、申请号为CN2021112120678的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及计算机视觉技术，具体涉及抠像处理。

背景技术

图片抠像作为一种基础性的图片编辑技术的一部分，被广泛应用于各种图片编辑软件，相机后端算法等场景。

发明内容

有鉴于此，本公开实施例至少提供一种抠像处理方法、装置、电子设备及存储介质。

第一方面，提供一种抠像处理方法，所述方法包括：对目标图像进行语义分割处理，得到目标图像对应的语义概率图，所述语义概率图包括：针对所述目标图像中的每个像素，该像素属于目标对象的第一概率，所述目标对象是所述目标图像中的前景或者背景；基于所述语义概率图进行概率转换处理，得到三分图，针对所述三分图中每个像素，该像素对应的数值表示该像素在目标图像中属于前景、背景或待确定区域中的任一区域的概率；根据所述三分图和所述目标图像进行抠像处理，得到抠像结果。

第二方面，提供一种网络训练方法，所述方法用于对语义分割网络和抠像网络进行联合训练，所述方法包括：获取训练样本集，所述训练样本集包括多个样本数据；针对所述训练样本集中的每个样本数据，对该样本数据处理得到包含样本图像的全局图像信息的第一图像和所述第一图像对应的分割标签，以及包含所述样本图像的局部图像信息的第二图像和所述第二图像对应的抠像标签；通过语义分割网络对所述第一图像进行语义分割处理，得到所述语义分割网络输出的语义概率图；基于所述语义概率图进行概率转换处理，得到三分图；将所述三分图和所述第二图像进行抠像处理，得到抠像结果；根据所述语义概率图与所述分割标签的差异调整语义分割网络的网络参数，并且，基于抠像结果和抠像标签的差异调整抠像网络的网络参数。

第三方面，提供一种抠像处理装置，所述装置包括：分割处理模块，用于对目标图像进行语义分割处理，得到所述目标图像对应的语义概率图，所述语义概率图包括：针对所述目标图像中的每个像素，该像素属于目标对象的第一概率，所述目标对象是所述目标图像中的前景或者背景；转换处理模块，用于基于所述语义概率图进行概率转换处理，得到三分图，针对所述三分图中每个像素，该像素对应的数值表示该像素在所述目标图像中属于前景、背景或待确定区域中的任一区域的概率；抠像处理模块，用于根据所述三分图和所述目标图像进行抠像处理，得到抠像结果。

第四方面，提供一种网络训练装置，所述装置用于对语义分割网络和抠像网络进行联合训练，所述装置包括：样本获取模块，用于获取训练样本集，所述训练样本集包括多个样本数据；样本处理模块，用于针对所述训练样本集中的每个样本数据，对该样本数据处理，得到包含样本图像的全局图像信息的第一图像和所述第一图像对应的分割标签，以及包含所述样本图像的局部图像信息的第二图像和所述第二图像对应的抠像标签；语义分割模块，用于通过语义分割网络对所述第一图像进行语义分割处理，得到所述语义分割网络输出的语义概率图；转换处理模块，用于基于所述语义概率图进行概率转换处理，得到三分图；抠像处理模块，用于将所述三分图和所述第二图像进行抠像处理，得到抠像结果；网络调整模块，用于根据所述语义概率图与所述分割标签的差异调整所述语义分割网络的网络参数，并且，基于所述抠像结果和所述抠像标签的差异调整所述抠像网络的网络参数。

第五方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施例的方法。

第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例的方法。

本公开实施例提供的抠像处理方法、装置、电子设备及存储介质，通过基于对目标图像进行语义分割得到的语义概率图，进行概率转换得到三分图，使得三分图的获得更加快捷方便，不再需要人工标注，也不再需要通过trimap标注训练预测网络，从而使得抠像处理的过程实现起来更加简单；并且，这种概率转换得到三分图的方式，依据了语义分割的语义概率图，使得生成的三分图较为准确，从而实现了准确快捷的抠像。

附图说明

为了更清楚地说明本公开一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开至少一个实施例提供的抠像处理方法的流程图；

图2示出了本公开至少一个实施例提供的抠像处理的过程示意图；

图3是基于图2的抠像处理的流程图；

图4示出了本公开至少一个实施例提供的目标图像的示意图；

图5示出了本公开至少一个实施例提供的语义概率图的示意图；

图6示出了本公开至少一个实施例提供的三分图的示意图；

图7示出了本公开至少一个实施例提供的透明度的示意图；

图8示出了本公开至少一个实施例提供的前景示意图；

图9示出了本公开至少一个实施例提供的网络训练方法的流程示意图；

图10示出了本公开至少一个实施例提供的一种抠像处理装置的结构示意图；

图11示出了本公开至少一个实施例提供的一种网络训练装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开一个或多个实施例中的技术方案，下面将结合本公开一个或多个实施例中的附图，对本公开一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

所述的抠像可以是提取出图像中的目标对象，该目标对象可以是图像中的前景或者背景。例如，当图像是人物图像时，可以提取出人物图像中的人物头发，或者当图像是风景图像时，还可以提取出风景图像中的天空。所述的人物头发或者天空即可以称为抠像处理要提取的目标对象。在一种示例中，抠像处理的目的可以是，在提取到图像中的目标对象之后，对该目标对象进行特效渲染或者对象替换，例如，将天空渲染成火红色，或者对人物头发进行染发特效处理。

通常的基于深度网络的图像抠像算法可以将待处理的图像和三分图(trimap)作为深度网络的输入，该方式由于有trimap作为引导，指出了网络输入的图像中的部分像素点的透明度，往往能获得更为精细的抠像结果。但是，相关技术中，上述trimap的来源，要么是由用户标注提供，要么是通过trimap的预测网络预测trimap。而用户标注的方式太复杂，用户使用不方便；网络预测trimap的方式又需要大量的trimap标注，trimap标注的应用面窄，意义较小。

针对相关技术中的trimap获得方式较为复杂的问题，本公开实施例提供了一种抠像处理方法，该方法不需要用户人工标注trimap，也不需要预先训练用于预测trimap的预测网络，而是可以基于语义分割的结果结合概率转换得到trimap。请参见图1所示的抠像处理方法的流程，可以包括如下处理：

在步骤100中，对待处理的目标图像进行语义分割处理，得到对应目标图像的语义概率图。

其中，可以将待进行抠像处理的图像称为目标图像。例如，假设要从一个人物图像中提取出人物头发和人脸，该人物图像可以称为目标图像。其中的人物头发和人脸即为抠像处理要提取的目标，可以称为目标对象。

本实施例中，可以通过对目标图像进行语义分割处理，例如，可以通过语义分割网络进行语义分割处理。该语义分割网络包括但不限于SegNet、U-Net、DeepLab、FCN等常用的语义分割网络。

通过语义分割处理后可以得到目标图像的语义概率图，该语义概率图可以包括：针对所述目标图像中的每个像素，该像素属于目标对象的第一概率，该目标对象可以是目标图像中的前景或者背景。以抠出前景为例，语义概率图可以表示目标图像中的某个像素属于前景的概率是0.85，另一个像素属于前景的概率是0.24。

在步骤102中，基于所述语义概率图进行概率转换处理，得到三分图。

本步骤中，可以基于语义分割处理的结果，进行概率转换处理，得到三分图。本实施例中的通过概率转换处理得到的三分图可以用soft-trimap表示。

其中，所述的概率转换处理可以是通过数学的转换方式，将语义概率图中得到的像素对应的概率映射到soft-trimap中的像素对应的数值。

具体的，可以将语义概率图中的概率执行如下两部分的概率转换：

1)基于语义概率图，将第一概率转换得到第二概率。

其中，三分图soft-trimap中可以包括三种区域：―确定前景‖、―确定背景‖和―待确定区域‖。本实施例可以将像素属于所述三分图中的待确定区域的概率称为第二概率。

将语义概率图中像素属于目标对象的第一概率转换到第二概率时，可以遵循如下的概率转换原则：第一概率表征所述像素属于前景或者背景的概率越高，所述第二概率表征所述像素属于三分图中的待确定区域的概率越低。比如，第一概率越接近1和0，第二概率越接近于0；第一概率越接近0.5，第二概率越接近于1。上述转换原则即为，若图像中的一个像素属于前景的概率越高，或者属于背景的概率越高，则该像素属于待确定区域的概率就越低；而像素属于前景或背景的概率在0.5附近时，表示该像素越不确定属于前景还是背景，那么像素属于待确定区域的概率就越高。

基于上述的概率转换的原则，可以将第一概率转换得到第二概率。本公开实施例不限制概率转换的具体公式，如下仅示例一种：

un＝-k4*score^4+k3*score^3–k2*score^2+k1*score.......(1)

如上的公式(1)，其中的un表示像素属于待确定区域的第二概率，score表示该像素在语义概率图中属于目标对象的第一概率。该公式(1)是一种多项式拟合的方式，通过多项式拟合，将像素的第一概率拟合得到第二概率。本实施例不限制上述的各个系数―k1/k2/k3/k4‖的具体取值。

可以理解的是，实际实施中并不局限于上述的多项式拟合，也可以采用其他的函数式，只要遵循上述的概率转换原则即可。本实施例采用多项式拟合将第一概率转换为第二概率，能够使得这种多项式的转换计算效率更高，而且也较准确的反映了上述的转换原则。

2)根据所述语义概率图中每个像素对应的第一概率和第二概率，生成所述三分图。

如上，通过对目标图像进行语义分割处理，可以得到了语义概率图，通过该语义概率图就可以大致的将目标图像中的前景和背景区分出来，以抠出前景为例，若一个像素属于前景的第一概率是0.96，那属于前景的概率很高；若一个像素属于前景的第一概率是0.14，即为像素属于背景的概率很高。

在基于语义概率图得到第二概率后，就可以得到每一个像素属于待确定区域的第二概率。对于目标图像中的每个像素，可以结合该像素在语义概率图中对应的第一概率、以及该像素属于待确定区域的第二概率进行概率融合，就可以得到该像素在三分图soft-trimap中对应的数值，该数值可以表征所述像素在目标图像中属于确定前景、确定背景或待确定区域中的任一区域的概率。

举例来说：在soft-trimap中，若一个像素对应的数值越靠近1，表示该像素在目标图像中越可能属于前景；该像素在soft-trimap中对应的数值越靠近0，表示该像素越可能属于背景；该像素在soft-trimap中对应的数值越靠近0.5，表示该像素越可能属于待确定区域。即通过像素在soft-trimap中对应的数值就可以表示出该像素属于前景、背景或待确定区域中的任一区域的概率。

如下的公式(2)，示例了一种根据像素的第一概率和第二概率进行概率融合得到该像素在三分图中对应的数值的方式：

soft_trimap＝-k5*un/k6*sign(score-k7)+(sign(score-k7)+k8)/k9.......(2)

如上的公式(2)中，soft_trimap表示soft-trimap中的像素对应的数值，un表示第二概率，score表示第一概率，sign()表示sign函数。同理，本实施例不限制上述的各个系数―k5/k6/k7/k8‖的具体取值。

如上示例的描述，针对语义概率图中每个像素，将该像素对应的第一概率转换得到第二概率、以及结合像素对应的第一概率和第二概率生成所述三分图，实现了基于语义概率图进行概率转换处理得到三分图soft_trimap。

在一些实施例中，在进行上述的基于语义概率图进行概率转换处理之前，还可以对所述语义概率图进行池化处理，并对池化后的语义概率图进行上述的概率转换处理。请参见下面的公式(3)：

score_＝avgpool2d(score,ks,stride).......(3)

如公式(3)所示，在一个示例中，可以对语义概率图进行平均池化处理，并且依据卷积步长stride、卷积核大小(kernel_size，ks)进行池化。score_表示池化后的语义概率图，其中包含各池化后的概率。

如果对语义概率图进行了池化处理，那么上面的公式(1)和公式(2)中的score都替换为池化后的概率，即采用池化后的语义概率图执行概率转换。

上述池化处理中采用的kernel的大小可以调整，并且在对语义概率图进行概率转换前进行池化处理，有助于通过调整卷积核大小，调整将要生成的soft_trimap中的待确定区域的宽度。例如，kernel_size越大，待确定区域的宽度就可以越宽。

在一些实施例中，假设对目标图像的语义分割处理是由语义分割网络进行，那么在进行语义分割处理之前，还可以对目标图像的图像尺寸进行预处理，该预处理可以是基于语义分割网络对目标图像的下采样倍数，将目标图像的图像尺寸进行该下采样倍数的整数倍处理，使得整数倍处理后的图像尺寸能够整除上述下采样倍数scale_factor，该scale_factor是语义分割网络对目标图像的下采样倍数，具体数值由语义分割网络的网络结构确定。

在步骤104中，根据所述三分图和目标图像进行抠像处理，得到抠像结果。

本步骤中，所述的抠像处理的过程可以包括：将三分图和目标图像作为抠像网络的输入，得到所述抠像网络输出的目标图像中的对象残差(例如，可以是前景残差或背景残差，前景残差可以指示预测的前景的像素值与目标图像对应像素的像素值的差值，背景残差可以指示预测的背景的像素值与目标图像对应像素的像素值的差值)、以及目标图像的初始透明度。接着，可以基于目标图像和对象残差得到目标图像中的目标对象(例如，基于前景残差和目标图像得到前景，或者基于背景残差和目标图像得到背景)，并可以根据初始透明度和三分图soft_trimap得到所述目标图像的透明度。

本实施例的抠像处理方法，通过基于对目标图像进行语义分割得到的语义概率图，进行概率转换得到三分图，使得三分图的获得更加快捷方便，不再需要人工标注，也不再需要通过trimap标注训练预测网络，从而使得抠像处理的过程实现起来更加简单；并且，这种通过概率转换得到三分图的方式，依据语义分割的语义概率图，使得生成的三分图较为准确，从而实现了准确快捷的抠像。

本公开实施例的抠像处理方法，可以应用到移动端。考虑到移动端的处理能力，本公开的另一个实施例可以将部署到移动端的网络进行小型化设计，并且可以将目标图像的尺寸进行缩放，以使得运行耗时和内存消耗在移动端的负担范围内。如下描述一个在移动端进行抠像的例子。

本实施例在处理抠像时，可以采用语义分割网络和抠像网络。其中，语义分割网络可以是SegNet、U-Net等网络，抠像网络可以包括编码器(encoder)和解码器(decoder)。所述的抠像网络的编码器可以采用mobv2的结构设计，并且在抠像网络部署到移动端之前，可以将抠像网络进行通道压缩，所述的通道压缩可以是对抠像网络的网络中间特征(即网络中间层特征)的通道数量进行压缩，例如，可以是将抠像网络处理过程中的卷积核的输出通道数量降低，假设卷积核的输出通道数原本是a，可以按照0.35倍的通道数量进行压缩，压缩后卷积核的输出通道数是0.35*a。

图2示例了本公开实施例提供的一种抠像处理的过程示意图，图3是基于图2的抠像处理的流程图，结合图2和图3来看，可以包括如下处理，其中，本实施例以目标对象是前景为例进行描述：

在步骤300中，对目标图像进行缩放处理。

例如，本实施例的目标图像可以是人物图像，请参见图4。该人物图像可以是用户在使用自己的移动终端时，通过移动终端摄像头拍摄得到，或者也可以是移动终端存储或从其他设备接收到的图像。

本实施例进行抠像处理的目的可以是提取该人物图像中的头发和人脸的区域。可以将目标图像中的人物的头发和人脸作为前景。

由于本实施例是在移动端执行抠像处理，为了减轻移动端处理的负担，节省移动端的计算量，可以对目标图像进行缩放。假设图4中的目标图像的尺寸是1080*1920，可以将该图像缩放到480*288的尺寸。例如，可以通过双线性差值的方式进行缩放。可以参照如下的公式(4)和公式(5)进行缩放：

scale＝max(h/basesize,w/basesize).......(4)

new_h＝int(h/scale+k10)new_w＝int(w/scale+k11).......(5)

其中，h和w是目标图像的长和宽，basesize是基准尺寸，本例子中是480，int(x)表示对x进行取整。new_h和new_w分别是对目标图像进行缩放后的尺寸，其中，公式(5)中的系数的具体取值本实施例不做限制。

此外，可以继续根据公式(6)和公式(7)，对目标图像的图像尺寸进行下采样倍数的整数倍处理，来控制缩放后的图像尺寸能够整除语义分割网络对图像的下采样倍数scale_factor。可以理解，所述的整数倍处理也可以采用其他公式，不局限于如下的两个公式。

new_h＝int(int(int(new_h–k12+scale_facor–k13)/scale_factor)*scale_factor)......(6)

new_w＝int(int(int(new_w–k14+scale_facor–k15)/scale_factor)*scale_factor)......(7)

本实施例不限制上述的公式(6)和公式(7)中的各个系数的具体取值，例如，可以将上述的k12至k15的取值都设置为1。如果将缩放前的原始的目标图像以A标识，那么在缩放成480*288的图像后，再将该图像进行归一化得到的目标图像可以用B标识。参见图2中所示，目标图像B即为缩放处理后的目标图像。

在步骤302中，通过语义分割网络对缩放处理后的目标图像进行语义分割处理，得到语义分割网络输出的语义概率图。

例如，结合图2所示，可以通过语义分割网络21对目标图像B进行语义分割处理，得到语义分割网络输出的语义概率图22，该语义概率图可以用score标识，并且图5示意了该score。可以看到，该语义概率图的score基于像素属于前景的概率，粗略的区分了图像中的前景和背景。

在步骤304中，基于所述语义概率图进行概率转换处理，得到三分图。

本步骤中，可以按照图1流程中描述的概率转换处理生成三分图soft-trimap。例如，可以先根据公式(3)将语义概率图进行池化处理，再对池化后的语义概率图根据公式(1)和公式(2)进行概率转换处理，生成三分图。参见图2中的该三分图23。

请参见图6的示意，该图6示意了soft-trimap，可以看到，该soft-trimap中的像素的概率值可以表示该像素属于三种区域的概率，根据该概率值粗略的区分了图像中的 ―前景‖、―背景‖和―待确定区域‖。

在步骤306中，将三分图和目标图像作为抠像网络的输入，得到抠像网络输出的前景残差和初始透明度。

请参见图2所示，可以将三分图23和目标图像B都作为抠像网络24的输入，该抠像网络可以输出一个4通道的结果，其中一个通道的结果是初始透明度raw_alpha，另外三个通道的结果是前景残差fg_res。图2中的抠像网络输出的第一结果25可以包括―raw_alpha+fg_res‖。

在步骤308中，基于目标图像和前景残差得到目标图像中的前景，并根据初始透明度和三分图得到透明度。

请继续结合图2所示，可以将前景残差fg_res通过双线性差值进行放大处理，使得回复到目标图像进行缩放处理之前的尺度，然后执行公式(8)：

FG＝clip(A+fg_res,s1,s2).......(8)

如图2所示，可以根据放大处理后的前景残差fg_res和目标图像A，得到目标图像中的前景FG。其中，clip(x,s1,s2)为将x的数值限制在[s1,s2]。本实施例不限制上述的公式(7)中的s1和s2的具体取值，例如，s1可以是0，s2可以是1。

此外，可以按照下面的公式(9)和公式(10)计算透明度：

fs＝clip((soft_trimap-s3)/s4,s5,s6)......(9)

Alpha＝clip(fs+un*raw_alpha,s7,s8).....(10)

其中，Alpha表示透明度，在得到Alpha后，可以通过双线性差值将Alpha放大回目标图像缩放前的原始尺寸。同样的，本实施例不限制上述的公式(9)和公式(10)中的各个系数s3至s8的具体取值。

图7示意了Alpha，图8示意了最终得到的目标图像的前景FG。

此外，在得到抠像结果中包括的目标图像的前景和透明度之后，可以根据该前景和透明度，继续执行图像编辑，例如，该图像编辑可以是图像的前景替换和/或前景渲染等处理。

本公开实施例的抠像处理方法，通过将抠像模型进行通道压缩等处理，并且将目标图像进行缩放处理，可以使得抠像更适合在移动端进行，例如，用户使用自己的移动终端拍摄图像后，可以直接在移动终端完成对头发的抠像处理，提取出头发，并进行头发的染色处理，从而使得这些处理都可以在移动终端本地进行，不需要上传云端，提高了数据的安全隐私保护。并且可以由图2看到，该抠像处理的方法是将单一的目标图像作为输入即可直接得到抠像结果，即提供一张目标图像，基于本公开实施例提供的抠像处理方法就可以得到对该目标图像中前景的预测，输入的信息较少，从而使得该抠像处理更加便利。

此外，本公开实施例的抠像处理的流程中，使用的语义分割网络和抠像网络，本实施例不限制这两个网络的训练方法。图9示出了本公开至少一个实施例提供的一种网络训练方法，该方法可以用于对语义分割网络和抠像网络进行联合训练。如图9所示，该方法可以包括如下处理：

在步骤900中，获取训练样本集，所述训练样本集包括多个样本数据。

在一些实施方式中，所述的训练样本集中的每个样本数据可以包括样本图像、样本图像对应的第一特征标签以及样本图像对应的第二特征标签。以抠像场景为例，第一特征标签可以是针对样本图像的分割标签，第二特征标签可以是针对样本图像的抠像标签。

在步骤902中，针对所述训练样本集中的每个样本数据，对该样本数据处理，得到包含所述样本图像的全局图像信息的第一图像和所述第一图像对应的分割标签，以及包含所述样本图像的局部图像信息的第二图像和所述第二图像对应的抠像标签。

在一些实施方式中，可以对样本数据的样本图像进行第一处理，得到包括样本图像的大部分图像信息的第一图像，可以认为该第一图像包括了样本图像的全局图像信息，同时对样本图像对应的第一特征标签进行相同的第一处理，得到第一图像对应的分割标签。例如，可以按照语义分割网络对输入图像的尺寸要求，将样本图像进行缩放处理，但仍保留该样本图像的大部分图像信息，得到第一图像，并将第一特征标签进行相同的缩放处理，得到分割标签。

同时，对样本数据的样本图像进行第二处理，还可得到包括样本图像局部图像信息的第二图像，同时对样本图像对应的第二特征标签进行相同的第二处理，得到第二图像对应的抠像标签。例如，可以将样本图像进行局部裁切，得到包括样本图像的局部图像信息的第二图像，并且将第二特征标签进行相同的局部裁切，得到所述抠像标签。

在步骤904中，通过语义分割网络对所述第一图像进行语义分割处理，得到所述语义分割网络输出的语义概率图。

在步骤906中，基于所述语义概率图进行概率转换处理，得到三分图。

本步骤的概率转换处理可以参照前述的实施例，不再详述。通过所述的概率转换处理可以得到本公开实施例的soft-trimap。

在步骤908中，通过抠像网络，基于三分图和第二图像进行抠像处理，得到抠像结果。

在步骤910中，根据所述语义概率图与分割标签的差异调整语义分割网络的网络参数，并且，基于抠像结果和抠像标签的差异调整抠像网络的网络参数。

通过上述可知，本公开实施方式中，通过对每个样本数据进行处理，利用得到的包括全局图像信息的第一图像和第一标签对第一子网络进行训练，和包括局部图像信息的第二图像和第二标签对第二子网络进行训练，提高联合训练效果，降低网络效果退化的风险。

此外，上述的训练方式中，soft-trimap的生成采用概率转换处理这种方式，能够在一定程度上辅助网络训练的效果更好。

具体的，soft-trimap能够在网络训练过程中自适应进行调整。比如，在根据所述语义概率图与分割标签的差异调整语义分割网络的网络参数，并且，基于抠像结果和抠像标签的差异调整抠像网络的网络参数的过程中，语义分割网络的网络参数将进行更新，进而该语义分割网络输出的语义概率图也进行了更新。

进一步的，soft-trimap是基于语义概率图生成的，因此，语义概率图更新将带来三分图soft-trimap的更新，进而抠像结果也会更新。即，在网络训练过程中通常会迭代多次，而每一次迭代后，如果语义分割网络发生了参数更新，即使输入的是同一个图像，语义概率图、soft-trimap和抠像结果都会适应性更新，并根据更新后的结果继续调整网络参数。这种自适应调整soft-trimap的方式，将有助于使得生成的soft-trimap和抠像结果都随着语义分割网络的调整进行动态优化，使得最终模型的训练效果更好，能更准确的提取到目标图像中的目标对象。

图10示例了一种抠像处理装置，该装置可以应用于实现本公开任一实施例的抠像处理方法。如图10所示，该装置可以包括：分割处理模块1001、转换处理模块1002和抠像处理模块1003。

分割处理模块1001，用于对目标图像进行语义分割处理，得到所述目标图像对应的语义概率图，所述语义概率图包括：针对所述目标图像中的每个像素，该像素属于目标对象的第一概率，所述目标对象是所述目标图像中的前景或者背景。

转换处理模块1002，用于基于所述语义概率图进行概率转换处理，得到三分图，针对所述三分图中每个像素，该像素对应的数值表示该像素在所述目标图像中属于前景、背景或待确定区域中的任一区域的概率。

抠像处理模块1003，用于根据所述三分图和所述目标图像进行抠像处理，得到抠像结果。

在一个例子中，转换处理模块1002，在用于基于所述语义概率图进行概率转换处理得到所述三分图时，包括：针对所述语义概率图中的每个像素，基于该像素的所述第一概率进行概率转换，得到该像素属于所述三分图中所述待确定区域的第二概率；根据所述语义概率图中每个像素的所述第一概率和所述第二概率，生成所述三分图。

在一个例子中，所述转换处理模块1002，在用于针对所述语义概率图中的每个像素，基于该像素的所述第一概率进行概率转换得到该像素属于所述三分图中所述待确定区域的所述第二概率时，包括：通过多项式拟合的方式，将该像素的所述第一概率，拟合得到该像素属于所述三分图中的所述待确定区域的所述第二概率。

在一个例子中，所述抠像处理模块1003，在用于根据所述三分图和所述目标图像进行抠像处理，得到所述抠像结果时，包括：根据所述三分图和所述目标图像进行抠像处理，得到对象残差和所述目标图像的初始透明度；基于所述目标图像和所述对象残差，得到所述目标图像中的所述目标对象；根据所述初始透明度和所述三分图，确定所述目标图像的透明度。

在一个例子中，所述分割处理模块1001，在用于对所述目标图像进行语义分割处理之前，还对目标图像进行缩放处理；所述抠像处理模块1003，在用于基于所述目标图像和所述对象残差，得到所述目标图像中的所述目标对象时，包括：将所述对象残差放大至所述目标图像进行缩放处理之前的尺度；根据放大后的对象残差和所述目标图像，得到所述目标图像中的所述目标对象。

在一个例子中，所述分割处理模块1001，在用于对所述目标图像进行语义分割处理，得到所述目标图像对应的所述语义概率图时，包括：通过语义分割网络对所述目标图像进行语义分割处理，得到所述语义分割网络输出的所述语义概率图；所述抠像处理模块1003，在用于根据所述三分图和所述目标图像进行抠像处理时，包括：通过抠像网络，根据所述三分图和所述目标图像进行抠像处理。

在一个例子中，所述抠像网络是经过通道压缩的网络，所述通道压缩是对所述抠像网络的网络中间特征的通道数量进行压缩。

在一个例子中，像素的所述第一概率表征该像素属于前景或者背景的概率越高，对应的经概率转换得到的所述第二概率表征该像素属于所述三分图中的所述待确定区域的概率越低；所述转换处理模块1002，在用于根据所述像素的所述第一概率和所述第二概率，生成所述三分图时，包括：对于所述目标图像中的每个像素，根据该像素对应的所述第一概率和所述第二概率进行概率融合，确定该像素在所述三分图中对应的数值。

在一个例子中，所述转换处理模块1002，还用于在基于所述语义概率图进行概率转换处理，得到所述三分图之前，对所述语义概率图进行池化处理，得到池化后的语义概率图，所述基于所述语义概率图进行概率转换处理，包括：对所述池化后的语义概率图进行概率转换处理。

在一个例子中，所述分割处理模块1001，还用于在对所述目标图像进行语义分割处理之前，基于语义分割网络对目标图像的下采样倍数，将所述目标图像的图像尺寸进行下采样倍数的整数倍处理，以使所述整数倍处理后的图像尺寸能够整除所述下采样倍数。

在一个例子中，所述抠像结果包括：所述目标图像的透明度和所述目标对象；所述抠像处理模块1003，还用于根据所述抠像结果中的所述目标对象和所述透明度，执行对象替换和/或对象渲染。

图11示例了一种网络训练装置，该装置可以应用于实现本公开任一实施例的网络训练方法，该装置用于对语义分割网络和抠像网络进行联合训练。如图11所示，该装置可以包括：样本获取模块1101、样本处理模块1102、语义分割模块1103、转换处理模块1104、抠像处理模块1105和网络调整模块1106。

样本获取模块1101，用于获取训练样本集，所述训练样本集包括多个样本数据；

样本处理模块1102，用于针对所述训练样本集中的每个样本数据，对该样本数据处理，得到包含样本图像的全局图像信息的第一图像和所述第一图像对应的分割标签，以及包含所述样本图像的局部图像信息的第二图像和所述第二图像对应的抠像标签。

语义分割模块1103，用于通过语义分割网络对所述第一图像进行语义分割处理，得到所述语义分割网络输出的语义概率图。

转换处理模块1104，用于基于所述语义概率图进行概率转换处理，得到三分图。

抠像处理模块1105，用于将所述三分图和所述第二图像进行抠像处理，得到抠像结果。

网络调整模块1106，用于根据所述语义概率图与所述分割标签的差异调整所述语义分割网络的网络参数，并且，基于所述抠像结果和所述抠像标签的差异调整所述抠像网络的网络参数。

本公开还提供了一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施例的抠像处理方法或网络训练方法。

本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的抠像处理方法或网络训练方法。

本领域技术人员应明白，本公开一个或多个实施例可提供为方法、***或计算机程序产品。因此，本公开一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本公开一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开实施例还提供一种计算机可读存储介质，该存储介质上可以存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例描述的或网络训练方法的步骤。其中，所述的―和/或‖表示至少具有两者中的其中一个，例如，―多和/或B‖包括三种方案：多、B、以及―多和B‖。

本公开实施例涉及增强现实领域，通过获取现实环境中的目标对象的图像信息，进而借助各类视觉相关算法实现对目标对象的相关特征、状态及属性进行检测或识别处理，从而得到与具体应用匹配的虚拟与现实相结合的AR效果。示例性的，目标对象可涉及与人体相关的脸部、肢体、手势、动作等，或者与物体相关的标识物、标志物，或者与场馆或场所相关的沙盘、展示区域或展示物品等。视觉相关算法可涉及视觉定位、SLAM、三维重建、图像注册、背景分割、对象的关键点提取及跟踪、对象的位姿或深度检测等。具体应用不仅可以涉及跟真实场景或物品相关的导览、导航、讲解、重建、虚拟效果叠加展示等交互场景，还可以涉及与人相关的特效处理，比如妆容美化、肢体美化、特效展示、虚拟模型展示等交互场景。可通过卷积神经网络，实现对目标对象的相关特征、状态及属性进行检测或识别处理。上述卷积神经网络是基于深度学习框架进行模型训练而得到的网络模型。

本公开中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本公开中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本公开中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本公开中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本公开中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPG多(现场可编程门阵列)或多SIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PD多)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路。

虽然本公开包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本公开内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和***通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本公开一个或多个实施例的较佳实施例而已，并不用以限制本公开一个或多个实施例，凡在本公开一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开一个或多个实施例保护的范围之内。

Claims

一种抠像处理方法，其特征在于，所述方法包括：

对目标图像进行语义分割处理，得到所述目标图像对应的语义概率图，所述语义概率图包括：针对所述目标图像中的每个像素，该像素属于目标对象的第一概率，所述目标对象是所述目标图像中的前景或者背景；

基于所述语义概率图进行概率转换处理，得到三分图，针对所述三分图中每个像素，该像素对应的数值表示该像素在所述目标图像中属于前景、背景或待确定区域中的任一区域的概率；

根据所述三分图和所述目标图像进行抠像处理，得到抠像结果。
根据权利要求1所述的方法，其特征在于，

对所述目标图像进行语义分割处理，得到所述目标图像对应的所述语义概率图，包括：通过语义分割网络对所述目标图像进行语义分割处理，得到所述语义分割网络输出的所述语义概率图；

根据所述三分图和所述目标图像进行抠像处理，包括：通过抠像网络，根据所述三分图和所述目标图像进行抠像处理。
根据权利要求2所述的方法，其特征在于，

所述抠像网络是经过通道压缩的网络，所述通道压缩是对所述抠像网络的网络中间特征的通道数量进行压缩。
根据权利要求1所述的方法，其特征在于，基于所述语义概率图进行概率转换处理，得到所述三分图，包括：

针对所述语义概率图中的每个像素，基于该像素的所述第一概率进行概率转换，得到该像素属于所述三分图中所述待确定区域的第二概率；

根据所述语义概率图中每个像素的所述第一概率和所述第二概率，生成所述三分图。
根据权利要求4所述的方法，其特征在于，针对语义概率图中每个像素，该像素的所述第一概率表征该像素属于前景或者背景的概率越高，对应的经概率转换得到的所述第二概率表征该像素属于所述三分图中的所述待确定区域的概率越低；

根据所述语义概率图中每个像素的所述第一概率和所述第二概率，生成所述三分图，包括：对于所述目标图像中的每个像素，根据该像素对应的所述第一概率和所述第二概率进行概率融合，确定该像素在所述三分图中对应的数值。
根据权利要求4所述的方法，其特征在于，针对所述语义概率图中的每个像素，基于该像素的所述第一概率进行概率转换，得到该像素属于所述三分图中所述待确定区域的所述第二概率，包括：

通过多项式拟合的方式，将该像素的所述第一概率，拟合得到该像素属于所述三分图中的所述待确定区域的所述第二概率。
根据权利要求1所述的方法，其特征在于，基于所述语义概率图进行概率转换处理，得到所述三分图之前，所述方法还包括：

对所述语义概率图进行池化处理，得到池化后的语义概率图；

基于所述语义概率图进行概率转换处理，包括：对所述池化后的语义概率图进行概率转换处理。
根据权利要求1所述的方法，其特征在于，对所述目标图像进行语义分割处理之前，所述方法还包括：

基于语义分割网络对目标图像的下采样倍数，将所述目标图像的图像尺寸进行下采样倍数的整数倍处理，以使所述整数倍处理后的图像尺寸能够整除所述下采样倍数。
根据权利要求1所述的方法，其特征在于，根据所述三分图和所述目标图像进行抠像处理，得到所述抠像结果，包括：

根据所述三分图和所述目标图像进行抠像处理，得到对象残差和所述目标图像的初始透明度；

基于所述目标图像和所述对象残差，得到所述目标图像中的所述目标对象；

根据所述初始透明度和所述三分图，确定所述目标图像的透明度。
根据权利要求9所述的方法，其特征在于，在对所述目标图像进行语义分割处理之前，所述方法还包括：对目标图像进行缩放处理；

基于所述目标图像和所述对象残差，得到所述目标图像中的所述目标对象，包括：

将所述对象残差放大至所述目标图像进行所述缩放处理之前的尺度；

根据放大后的对象残差和所述目标图像，得到所述目标图像中的所述目标对象。
根据权利要求1～10任一所述的方法，其特征在于，所述抠像结果包括：所述目标图像的透明度和所述目标对象；

所述方法还包括：

根据所述抠像结果中的所述目标对象和所述透明度，执行对象替换和/或对象渲染。
一种网络训练方法，其特征在于，所述方法用于对语义分割网络和抠像网络进行联合训练，所述方法包括：

获取训练样本集，所述训练样本集包括多个样本数据；

针对所述训练样本集中的每个样本数据，对该样本数据处理，得到包含样本图像的全局图像信息的第一图像和所述第一图像对应的分割标签，以及包含所述样本图像的局部图像信息的第二图像和所述第二图像对应的抠像标签；

通过语义分割网络对所述第一图像进行语义分割处理，得到所述语义分割网络输出的语义概率图；

基于所述语义概率图进行概率转换处理，得到三分图；

通过所述抠像网络，基于所述三分图和所述第二图像进行抠像处理，得到抠像结果；

根据所述语义概率图与所述分割标签的差异调整所述语义分割网络的网络参数，并且，基于所述抠像结果和所述抠像标签的差异调整所述抠像网络的网络参数。
一种抠像处理装置，其特征在于，所述装置包括：

分割处理模块，用于对目标图像进行语义分割处理，得到所述目标图像对应的语义概率图，所述语义概率图包括：针对所述目标图像中的每个像素，该像素属于目标对象的第一概率，所述目标对象是所述目标图像中的前景或者背景；

转换处理模块，用于基于所述语义概率图进行概率转换处理，得到三分图，针对所述三分图中每个像素，该像素对应的数值表示该像素在所述目标图像中属于前景、背景或待确定区域中的任一区域的概率；

抠像处理模块，用于根据所述三分图和所述目标图像进行抠像处理，得到抠像结果。
根据权利要求13所述的装置，其特征在于，

所述转换处理模块，在用于基于所述语义概率图进行概率转换处理得到所述三分图时，包括：针对所述语义概率图中的每个像素，基于该像素的所述第一概率进行概率转换，得到该像素属于所述三分图中所述待确定区域的第二概率；根据所述语义概率图中每个像素的所述第一概率和所述第二概率，生成所述三分图。
根据权利要求14所述的装置，其特征在于，

所述转换处理模块，在用于针对所述语义概率图中的每个像素，基于该像素的所述第一概率进行概率转换得到该像素属于所述三分图中所述待确定区域的所述第二概率时，包括：通过多项式拟合的方式，将该像素的所述第一概率，拟合得到该像素属于所述三分图中的所述待确定区域的所述第二概率。
根据权利要求13所述的装置，其特征在于，

所述抠像处理模块，在用于根据所述三分图和所述目标图像进行抠像处理，得到所述抠像结果时，包括：根据所述三分图和所述目标图像进行抠像处理，得到对象残差和所述目标图像的初始透明度；基于所述目标图像和所述对象残差，得到所述目标图像中的所述目标对象；根据所述初始透明度和所述三分图，确定所述目标图像的透明度。
根据权利要求16所述的装置，其特征在于，

所述分割处理模块，在用于对所述目标图像进行语义分割处理之前，还对目标图像进行缩放处理；

所述抠像处理模块，在用于基于所述目标图像和所述对象残差，得到所述目标图像中的所述目标对象时，包括：将所述对象残差放大至所述目标图像进行缩放处理之前的尺度；根据放大后的对象残差和所述目标图像，得到所述目标图像中的所述目标对象。
一种网络训练装置，其特征在于，所述装置用于对语义分割网络和抠像网络进行联合训练，所述装置包括：

样本获取模块，用于获取训练样本集，所述训练样本集包括多个样本数据；

样本处理模块，用于针对所述训练样本集中的每个样本数据，对该样本数据处理，得到包含样本图像的全局图像信息的第一图像和所述第一图像对应的分割标签，以及包含所述样本图像的局部图像信息的第二图像和所述第二图像对应的抠像标签；

语义分割模块，用于通过语义分割网络对所述第一图像进行语义分割处理，得到所述语义分割网络输出的语义概率图；

转换处理模块，用于基于所述语义概率图进行概率转换处理，得到三分图；

抠像处理模块，用于将所述三分图和所述第二图像进行抠像处理，得到抠像结果；

网络调整模块，用于根据所述语义概率图与所述分割标签的差异调整所述语义分割网络的网络参数，并且，基于所述抠像结果和所述抠像标签的差异调整所述抠像网络的网络参数。
一种电子设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至11任一所述的方法，或权利要求12所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至11任一所述的方法，或权利要求12所述的方法。