CN114627293A

CN114627293A - 基于多任务学习的人像抠图方法

Info

Publication number: CN114627293A
Application number: CN202210260220.2A
Authority: CN
Inventors: 夏俊
Original assignee: Hangzhou Manto Photography Co ltd
Current assignee: Hangzhou Manto Photography Co ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-06-14

Abstract

本发明公开基于多任务学习的人像抠图方法，包括以下步骤：阶段一：建立基础抠图模型：阶段二：建立精细化抠图模型：阶段三：使用精细化抠图模型进行抠图：通过以上步骤的处理，可以在高分辨率人像(如1080p、2K、4K等)抠图需求中做精确的抠图处理，其最终抠图得到的图像也不会存在缺陷或瑕疵，能够更好地满足人们的抠图需求。

Description

基于多任务学习的人像抠图方法

技术领域

本发明涉及人像处理领域，尤其涉及基于多任务学习的人像抠图方法。

背景技术

在人像处理过程中，经常需要对图片中的人像进行抠图处理，从而实现各种后期效果，而目前的一些人像抠图方法，一是需要抠图人员提供额外的Trimap也就是三分图作为参考，实际抠图过程中步骤较为繁琐，且三分图的生成方法也多种多样，无法保证提供的三分图的一致性。二是现有的人像抠图方法无法针对高分辨率(如1080p、2K、4K等)的人像做精确的抠图处理，无法很好地分离人像与背景，导致抠图后得到的人像存在缺陷或瑕疵，例如人像边缘模糊、人像身体部分残缺等情况，因此需要进行改进。

发明内容

本发明针对现有技术中存在的现有方法需要抠图人员提供额外的三分图作为参考，且无法针对高分辨率(如1080p、2K、4K等)的人像做精确的抠图处理等缺陷，提供了一种新的基于多任务学习的人像抠图方法。

为了解决上述技术问题，本发明通过以下技术方案实现：

基于多任务学习的人像抠图方法，包括以下步骤：

阶段一：建立基础抠图模型：

S1、准备样本集，其中样本集包括RGB原始图像、RGB原始图像对应的原始透明遮罩、去除了含有人像图片的背景数据集这三种类型的图片，并将所述样本集划分成训练集和验证集；

S2、从训练集中随机批量抽取样本组合，并对这些样本组合做随机增广后得到第一阶段RGB图像I、第一阶段目标透明遮罩α_gt和第一阶段目标分割图s_gt，将第一阶段RGB图像I输入到编码器模块中进行编码，从而得到浅层纹理信息、中层特征信息和高层语义表征信息；

S3、将中层特征信息、高层语义表征信息输入到Segment模块，得到一个粗糙语义分割图m，并使用交叉熵损失来监督粗糙语义分割图m的训练得到分割损失L_seg；

S4、将高层语义表征信息和粗糙语义分割图m输入到Attention模块进行联合处理从而得到注意力表征信息；

S5、将第一阶段RGB图像I以及所述注意力表征信息和浅层纹理信息输入到MattingDecoder模块，从而生成第一阶段粗糙透明遮罩α_p、第一阶段残差概率图r和第一阶段隐藏特征h，使用L1损失和梯度损失来监督第一阶段粗糙透明遮罩α_p的训练得到透明遮罩损失L_alp，使用L2损失来监督第一阶段残差概率图r的训练得到残差损失L_res；

S6、通过对分割损失L_seg、透明遮罩损失L_alp、残差损失L_res加权求和得到总损失L_total；

S7、使用训练集重复步骤S2-S6，并且使用验证集进行验证，得到验证集的Loss曲线图，取验证集的Loss曲线图中最低点得到的训练结果，作为基础抠图模型；

阶段二：建立精细化抠图模型：

S8、取所述基础抠图模型并加上Refiner模块从而形成未训练的精细化抠图模型；

S9、从训练集中随机批量抽取样本组合，并对这些样本组合做随机增广得到第二阶段RGB图像I、第二阶段目标透明遮罩α_gt和第二阶段目标分割图s_gt，将第二阶段RGB图像I缩放到512*512像素尺寸后输入到基础抠图模型中，得到第二阶段粗糙透明遮罩α_p、第二阶段残差概率图r和第二阶段隐藏特征h；

S10、将第二阶段RGB图像I以及所述第二阶段粗糙透明遮罩α_p、第二阶段残差概率图r和第二阶段隐藏特征h输入到Refiner模块中，从而得到一个精细化遮罩图α_p，使用透明遮罩损失L_alp来监督精细化遮罩图α_p的训练；

S11、使用训练集重复步骤S9-S10，从而得到训练完成的精细化抠图模型；

阶段三：使用精细化抠图模型进行抠图：

S12、读取一张高分辨率的待抠图图像I和一个目标背景图B，将待抠图图像I缩放到2048*2048像素尺寸后输入到训练完成的精细化抠图模型中生成一个精细化遮罩图α_p，再分别将精细化遮罩图α_p和目标背景图B都缩放到和待抠图图像I相同的像素尺寸，记作α_p′、B′，最后使用公式C＝α_p′·I+(1-α_p′)·B得到换好背景后的图C。

步骤S1中，将样本集划分成训练集和验证集，能够通过训练集进行训练，并通过验证集进行验证并挑选模型，其中RGB原始图像用于在增广后输入到模型中进行训练，RGB原始图像对应的原始透明遮罩用于对训练过程进行监督，去除了含有人像图片的背景数据集用于对样本集进行增广，这一方面可以排除带有人像背景的照片对模型的语义理解产生歧义，另一方面也提升了模型的泛化性能。其中去除了含有人像图片的背景数据集可以选用COCO数据集。

步骤S2、S3中，高层语义表征信息用于表征图像中目标的类别如人、猫、狗等，但是高层语义表征信息中的空间信息丢失比较严重，在后续预测粗糙语义分割图m时预测效果较差，而中层特征信息能够在此时对高层语义表征信息缺失的空间信息进行补充，从而得到预测效果相对较好的粗糙语义分割图m，浅层纹理信息含有丰富的纹理细节信息，在后续处理时可以帮助预测原始透明遮罩的细节(如发丝等)。其中用于得到浅层纹理信息、中层特征信息和高层语义表征信息的编码器模块可以选用ResNet。

步骤S4中，粗糙语义分割图m中包含了基本的类别信息以及大致的轮廓信息，因此使用粗糙语义分割图m作为引导，使网络更加关注粗糙语义分割图m区域的高层语义表征信息，这相比直接使用高层语义表征信息而言，能够得到更加强化的注意力表征信息。

步骤S5中，因为步骤S4中已经得到强化的注意力表征信息，这为预测透明遮罩提供了强有力的语义信息，因此将注意力表征信息输入到MattingDecoder模块中，这使得预测的透明遮罩不会产生非必要的孔洞。而步骤S2中的浅层纹理信息含有丰富的纹理细节信息，这有助于恢复透明遮罩的边缘以及毛发细节，同时使用L1损失和梯度损失来监督训练，从而得到语义以及细节都相对较好的第一阶段粗糙透明遮罩α_p。另一方面，为了让模型不但能够学习预测第一阶段粗糙透明遮罩α_p，同时还要让模型能够学习到当前预测的第一阶段粗糙透明遮罩α_p和目标透明遮罩的差距，本发明进一步预测了一个第一阶段残差概率图r，并且该第一阶段残差概率图r还为第二阶段的Refiner模块训练提供了参考。第一阶段隐藏特征h用于在第二阶段为Refiner模块提供语义以及边缘细节等信息。

步骤S6中，分割损失L_seg使模型更关注语义理解，而透明遮罩损失L_alp则使模型在语义理解的基础上关注透明遮罩的预测，残差损失L_res使模型关注预测透明遮罩和目标透明遮罩之间的差距，而通过三者加权求和得到总损失L_total，让模型能够同时关注到语义理解以及目标纹理细节问题。

步骤S7中，通过重复步骤S2-S6，能够不断提升训练效果，从而得到预测效果较好的基础抠图模型，为后续阶段二精细化抠图模型的建立做准备。

步骤S8至步骤S11中，在阶段一得到的基础抠图模型的基础上加上Refiner模块后进行进一步的重复训练，能够进一步得到质量更好的精细化抠图模型，从而为后续的抠图应用做准备。

步骤S12中，使用阶段二得到的精细化抠图模型来进行抠图，可以在高分辨率人像(如1080p、2K、4K等)抠图需求中做精确的抠图处理，其最终抠图得到的图像也不会存在缺陷或瑕疵，能够更好地满足人们的抠图需求。

作为优选，上述所述的基于多任务学习的人像抠图方法，所述步骤S2具体包括以下步骤：

S21、随机从训练集中读取同样数量的RGB原始图像、RGB原始图像对应的原始透明遮罩、去除了含有人像图片的背景数据集，将读取得到的RGB原始图像以及RGB原始图像对应的原始透明遮罩组成训练对，并通过去除了含有人像图片的背景数据集对所述训练对做背景增广，再对这些背景增广了的训练对做随机增广，得到增广后的RGB图像以及对应的增广后的透明遮罩；

S22、将增广后的RGB图像以及对应的增广后的透明遮罩缩放到512*512像素尺寸，得到训练用的第一阶段RGB图像I、第一阶段目标透明遮罩α_gt，并通过对第一阶段目标透明遮罩α_gt做形态学操作得到第一阶段目标分割图s_gt；

S23、将第一阶段RGB图像I输入到编码器模块，从而得到浅层纹理信息、中层特征信息和高层语义表征信息。

由于高分辨率的人像透明遮罩标注成本高，所以在高分辨人像抠图任务中的训练样本量往往是有限的。因此采用合适数据增广策略是必要的，本发明通过以上步骤有效改善了训练样本量不足的问题。其中随机增广可以综合使用色彩、空间、换背景等随机增广策略，例如裁剪、仿射变换、Gamma变换、色相调整、饱和度调整、对比度调整等。

作为优选，上述所述的基于多任务学习的人像抠图方法，所述步骤S3中Segment模块的网络结构为[conv-bn-relu-conv]，所述分割损失L_seg的计算公式为：

其中x_i表示第一阶段RGB图像I，p[(x_i)]表示x_i的分割预测结果，y_i表示x_i对应的标签即第一阶段目标分割图s_gt。

通过在抠图任务中新增Segment模块做多任务学习，其中Segment模块承担的是分割辅助任务，这一方面可以引导编码器能够学习到深层次的语义信息，使得后面的MattingDecoder模块是建立在编码器所理解的语义的基础上进行的抠图，而这使得本发明的整个抠图任务不需要额外的参考输入(如三分图Trimap等)；另一方面是分割辅助任务的预测结果还会为后面的注意力表征信息的生成提供引导。

作为优选，上述所述的基于多任务学习的人像抠图方法，所述步骤S4中Attention模块的处理步骤具体包括以下步骤：

S41、使用卷积核为1×1的卷积操作对高层语义表征信息进行通道压缩得到一个像素级语义表征信息；

S42、对粗糙语义分割图m和像素级语义表征信息做矩阵乘法得到类别表征信息；

S43、使用卷积和变形操作将像素级语义表征信息投影作为Query特征以及将类别表征信息投影作为Key特征和Value特征，所述卷积和变形操作的结构为[conv-bn-relu]，Query特征、Key特征、Value特征都是一个二维特征图，其中Query特征刻画的是每个像素的表征，而Key特征和Value特征刻画的都是每个类别的表征；

S44、将Query特征、Key特征、Value特征带入公式Softmax(Query^TKey)Value^T即得到强化注意力表征信息，其中T为转置操作；

S45、将强化注意力表征信息输入到一个结构为[conv-bn-relu]的卷积操作后再和高层语义表征信息相加得到最终的注意力表征信息。

如果直接将编码器模块产生的高层语义表征信息输入到MattingDecoder模块，则也可以让MattingDecoder模块收敛，但是其收敛效果并不理想。所以本发明提出用Attention模块来强化粗糙语义分割图m下的高层语义表征信息。具体做法是如步骤S41至步骤S45所示使用Segment模块产生的粗糙语义分割图m作为引导，通过卷积和矩阵乘法操作将高层语义表征信息转换为强化注意力表征信息，最后将该强化注意力表征信息和原始的高层语义表征信息相加得到最终的注意力表征信息，使用这样的注意力表征信息作为MattingDecoder模块的输入，使得MattingDecoder模块在学习全局抠图的同时，还会更加关注到粗糙语义分割图m下的高层语义表征信息。

作为优选，上述所述的基于多任务学习的人像抠图方法，所述步骤S5中MattingDecoder模块首先使用卷积核为1×1的卷积操作对注意力表征信息做依次通道压缩以减少计算量，然后将压缩后的注意力表征信息插值到浅层纹理信息的特征尺度并和浅层纹理信息拼接后送到结构为[conv-bn-relu]的卷积操作，再将该卷积操作结果插值到第一阶段RGB图像I的尺度并和第一阶段RGB图像I拼接后送入到结构为[conv]的最终卷积操作，然后最终卷积操作输出第一阶段粗糙透明遮罩α_p、第一阶段残差概率图r和第一阶段隐藏特征h。

本发明在这里采用按分辨率由低到高逐层恢复的思想将注意力表征信息依次和浅层纹理信息、第一阶段RGB图像I相结合得到最终的预测输出，这使得本发明的MattingDecoder模块在关注到高层语义的同时也能关注到底层的纹理细节信息，从而在全局与细节预测上都能取得优异效果。

作为优选，上述所述的基于多任务学习的人像抠图方法，所述步骤S5中，透明遮罩损失L_alp＝L_a+L_grad，其中L_a和L_grad的定义如下：

上述公式中，α_p表示第一阶段粗糙透明遮罩，α_gt表示第一阶段目标透明遮置，

表示Sobel梯度算子。

L1损失具有收敛快且对细节预测效果好等特点，但由于其在极值点附近存在导数突变的缘故，使得模型在极值点附近来回振荡而不能很好收敛。故本发明这里对L1损失进行了平滑处理，其公式形式为上述L_a、L_grad，使得模型在训练过程中既能在初始阶段快速收敛又能够在极值点附近更加稳定，最终达到更好的全局与细节预测效果。透明遮罩损失L_alp中的L_a损失侧重使预测的原始透明遮罩关注全局信息，而L_grad损失侧重使预测结果具有更好的细节。

作为优选，上述所述的基于多任务学习的人像抠图方法，所述步骤S5中，残差损失L_res定义如下：

L_res＝(r-|α_p-α_gt|)²

上述公式中，α_p表示第一阶段粗糙透明遮罩，α_gt表示第一阶段目标透明遮罩，r表示第一阶段残差概率图。

残差损失L_res使模型关注预测透明遮罩和目标透明遮罩之间的差距，第一阶段残差概率图r还为第二阶段的Refiner模块训练提供了参考。

作为优选，上述所述的基于多任务学习的人像抠图方法，所述步骤S6中，总损失L_total定义如下：

L_total＝λ·L_seg+(1-λ)·(L_alp+L_res)

上式中，L_seg表示分割损失、L_alp表示透明遮罩损失、L_res表示残差损失，λ表示分割损失L_seg所占的权重，(L_alp+L_res)表示抠图损失，(1-λ)表示抠图损失(L_alp+L_res)所占的权重。

其中(L_alp+L_res)是为整个抠图目标而建立的损失，这样通过使用分割和抠图的多任务学习，来引导模型既能建立对目标的语义理解，同时又能关注到目标的纹理细节问题。另一方面，因为本发明的主要任务是抠图，分割在这里只是作为辅助任务来帮助整个模型的收敛，所以在实际训练时可以给分割损失L_seg一个相对较小的权重(如0.04)，相应地给予抠图损失(L_alp+L_res)使用相对较大的权重，这样使得模型最终朝着更有利于抠图的目标收敛。通过使用多任务学习，本发明训练的模型具有一定的语义理解能力，从而无需额外的参考输入(如三分图Trimap等)。

作为优选，上述所述的基于多任务学习的人像抠图方法，所述步骤S9具体包括以下步骤：

S91、随机从训练集中读取同样数量的RGB原始图像、RGB原始图像对应的原始透明遮罩、去除了含有人像图片的背景数据集，将读取得到的RGB原始图像以及RGB原始图像对应的原始透明遮罩组成训练对，并通过去除了含有人像图片的背景数据集对所述训练对做背景增广，再对这些背景增广了的训练对做随机增广，得到增广后的RGB图像以及对应的增广后的透明遮罩；

S92、将增广后的RGB图像以及对应的增广后的透明遮罩缩放到2048*2048像素尺寸，得到训练用的第二阶段RGB图像I、第二阶段目标透明遮罩α_gt，并通过对第二阶段目标透明遮罩α_gt做形态学操作得到第二阶段目标分割图s_gt；

S93、将第二阶段RGB图像I缩放到512*512像素尺寸后输入到基础抠图模型中，得到第二阶段粗糙透明遮罩α_p、第二阶段残差概率图r和第二阶段隐藏特征h。

在经过第一阶段训练后，本发明的基础抠图模型已经建立了高效的语义理解能力，所以在第二阶段建立精细化抠图模型时，其重点目标是关注目标边缘细节的预测。因为如果将形如2048*2048像素尺寸的高分辨图片直接输入到基础抠图模型中，其计算代价是高昂的，而抠图这种low-level任务又需要高分辨率下的纹理细节，所以本发明在得到增广后的第二阶段RGB图像I后，先将第二阶段RGB图像I缩放到512*512像素尺寸后再输入到基础抠图模型中，得到第二阶段粗糙透明遮罩α_p、第二阶段残差概率图r和第二阶段隐藏特征h。而高分辨率的第二阶段RGB图像I则被用在Refiner模块中用于预测更加精细化的透明遮罩，如此既节省了基础抠图模型的计算代价，又保证了高分辨率抠图的精细化预测需求。其中随机增广可以综合使用色彩、空间、换背景等随机增广策略，例如裁剪、仿射变换、Gamma变换、色相调整、饱和度调整、对比度调整等。

作为优选，上述所述的基于多任务学习的人像抠图方法，所述步骤S10具体包括以下步骤：

S101、将第二阶段RGB图像I和基础抠图模型产生的第二阶段粗糙透明遮罩α_p、第二阶段残差概率图r、第二阶段隐藏特征h都缩放到第二阶段RGB图像I的1/2尺度，并且将它们按通道维度拼接到一起，然后在该尺度下按水平和垂直方向均为1/16的比例裁剪得到一批裁剪块，再通过第二阶段残差概率图r取出平均残差概率大于0的裁剪块并记作裁剪块P1，然后将这些裁剪块P1向外扩充16个像素；

S102、将裁剪块P1输入到两层卷积网络后再放大1倍得到Refine中间特征，然后将第二阶段RGB图像I按水平和垂直方向均为1/16的比例裁剪得到raw裁剪块，然后将这些raw裁剪块向外扩充32个像素后和Refine中间特征按通道维度拼接到一起后再继续过两层卷积网络，得到精细化的透明遮罩块α_s，然后将这些精细化的透明遮罩块α_s边缘的32个像素裁掉，便得到了精细化的透明遮罩块α_q；

S103、将基础抠图模型产生的第二阶段粗糙透明遮罩α_p直接放大到第二阶段RGB图像I的尺寸作为第二阶段粗糙透明遮罩α_b，将步骤S102得到的精细化的透明遮罩块α_q贴回到第二阶段粗糙透明遮罩α_b中，便得到了最终的精细化遮罩图α_p；

S104、使用透明遮罩损失L_alp来监督精细化遮罩图α_p的训练。

步骤S101～S104中，在第二阶段建立精细化抠图模型时，本发明同时参考第二阶段隐藏特征h中的全局语义信息和第二阶段RGB图像I的纹理细信息，但对于高分辨率图像如果直接对全图做卷积操作，其计算量是非常大的，所以在Refiner模块中本发明使用按块Refine的方法，最后将裁剪块贴回放大后的MattingDecoder模块所预测的透明遮罩中。由于在对裁剪块预测的过程中可能会在其边缘产生一些瑕疵，所以本发明先将裁剪块P1向外扩充一些像素然后在Refine后又将其多余的边缘裁剪掉。在Refine阶段，只需要使用透明遮罩损失L_alp进行监督训练即可。

通过以上操作，针对目标图片能够得到整体和细节预测效果都更好的精细化遮罩图α_p。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图1和具体实施方式对本发明作进一步详细描述，但它们不是对本发明的限制：

实施例1

基于多任务学习的人像抠图方法，包括以下步骤：

阶段一：建立基础抠图模型：

阶段二：建立精细化抠图模型：

阶段三：使用精细化抠图模型进行抠图：

作为优选，所述步骤S2具体包括以下步骤：

作为优选，所述步骤S3中Segment模块的网络结构为[conv-bn-relu-conv]，所述分割损失L_seg的计算公式为：

作为优选，所述步骤S4中Attention模块的处理步骤具体包括以下步骤：

作为优选，所述步骤S5中MattingDecoder模块首先使用卷积核为1×1的卷积操作对注意力表征信息做依次通道压缩以减少计算量，然后将压缩后的注意力表征信息插值到浅层纹理信息的特征尺度并和浅层纹理信息拼接后送到结构为[conv-bn-relu]的卷积操作，再将该卷积操作结果插值到第一阶段RGB图像I的尺度并和第一阶段RGB图像I拼接后送入到结构为[conv]的最终卷积操作，然后最终卷积操作输出第一阶段粗糙透明遮罩α_p、第一阶段残差概率图r和第一阶段隐藏特征h。

作为优选，所述步骤S5中，透明遮罩损失L_alp＝L_a+L_grad，其中L_a和L_grad的定义如下：

表示Sobel梯度算子。

作为优选，所述步骤S5中，残差损失L_res定义如下：

L_res＝(r-|α_p-α_gt|)²

作为优选，所述步骤S6中，总损失L_total定义如下：

L_total＝λ·L_seg+(1-λ)·(L_alp+L_res)

作为优选，所述步骤S9具体包括以下步骤：

作为优选，所述步骤S10具体包括以下步骤：

S104、使用透明遮罩损失L_alp来监督精细化遮罩图α_p的训练。

总之，以上所述仅为本发明的较佳实施例，凡依本发明申请专利的范围所作的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.基于多任务学习的人像抠图方法，其特征在于：包括以下步骤：

阶段一：建立基础抠图模型：

阶段二：建立精细化抠图模型：

阶段三：使用精细化抠图模型进行抠图：

S12、读取一张高分辨率的待抠图图像I和一个目标背景图B，将待抠图图像I缩放到2048*2048像素尺寸后输入到训练完成的精细化抠图模型中生成一个精细化遮罩图α_p，再分别将精细化遮罩图α_p和目标背景图B都缩放到和待抠图图像I相同的像素尺寸，记作α_p′、B′，最后使用公式C＝α_p′·I+(1-α_p′)·B′得到换好背景后的图C。

2.根据权利要求1所述的基于多任务学习的人像抠图方法，其特征在于：所述步骤S2具体包括以下步骤：

3.根据权利要求1所述的基于多任务学习的人像抠图方法，其特征在于：所述步骤S3中Segment模块的网络结构为[conv-bn-relu-conv]，所述分割损失L_seg的计算公式为：

4.根据权利要求1所述的基于多任务学习的人像抠图方法，其特征在于：所述步骤S4中Attention模块的处理步骤具体包括以下步骤：

5.根据权利要求1所述的基于多任务学习的人像抠图方法，其特征在于：所述步骤S5中MattingDecoder模块首先使用卷积核为1×1的卷积操作对注意力表征信息做依次通道压缩以减少计算量，然后将压缩后的注意力表征信息插值到浅层纹理信息的特征尺度并和浅层纹理信息拼接后送到结构为[conv-bn-relu]的卷积操作，再将该卷积操作结果插值到第一阶段RGB图像I的尺度并和第一阶段RGB图像I拼接后送入到结构为[conv]的最终卷积操作，然后最终卷积操作输出第一阶段粗糙透明遮罩α_p、第一阶段残差概率图r和第一阶段隐藏特征h。

6.根据权利要求1所述的基于多任务学习的人像抠图方法，其特征在于：所述步骤S5中，透明遮罩损失L_alp＝L_a+L_grad，其中L_a和L_grad的定义如下：

表示Sobel梯度算子。

7.根据权利要求1所述的基于多任务学习的人像抠图方法，其特征在于：所述步骤S5中，残差损失L_res定义如下：

L_res＝(r-|α_p-α_gt|)²

8.根据权利要求1所述的基于多任务学习的人像抠图方法，其特征在于：所述步骤S6中，总损失L_total定义如下：

L_total＝λ·L_seg+(1-λ)·(L_alp+L_res)

9.根据权利要求1所述的基于多任务学习的人像抠图方法，其特征在于：所述步骤S9具体包括以下步骤：

10.根据权利要求1所述的基于多任务学习的人像抠图方法，其特征在于：所述步骤S10具体包括以下步骤：

S104、使用透明遮罩损失L_alp来监督精细化遮罩图α_p的训练。