CN114627293A - 基于多任务学习的人像抠图方法 - Google Patents

基于多任务学习的人像抠图方法 Download PDF

Info

Publication number
CN114627293A
CN114627293A CN202210260220.2A CN202210260220A CN114627293A CN 114627293 A CN114627293 A CN 114627293A CN 202210260220 A CN202210260220 A CN 202210260220A CN 114627293 A CN114627293 A CN 114627293A
Authority
CN
China
Prior art keywords
stage
loss
alpha
mask
matting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210260220.2A
Other languages
English (en)
Inventor
夏俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Manto Photography Co ltd
Original Assignee
Hangzhou Manto Photography Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Manto Photography Co ltd filed Critical Hangzhou Manto Photography Co ltd
Priority to CN202210260220.2A priority Critical patent/CN114627293A/zh
Publication of CN114627293A publication Critical patent/CN114627293A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开基于多任务学习的人像抠图方法,包括以下步骤:阶段一:建立基础抠图模型:阶段二:建立精细化抠图模型:阶段三:使用精细化抠图模型进行抠图:通过以上步骤的处理,可以在高分辨率人像(如1080p、2K、4K等)抠图需求中做精确的抠图处理,其最终抠图得到的图像也不会存在缺陷或瑕疵,能够更好地满足人们的抠图需求。

Description

基于多任务学习的人像抠图方法
技术领域
本发明涉及人像处理领域,尤其涉及基于多任务学习的人像抠图方法。
背景技术
在人像处理过程中,经常需要对图片中的人像进行抠图处理,从而实现各种后期效果,而目前的一些人像抠图方法,一是需要抠图人员提供额外的Trimap也就是三分图作为参考,实际抠图过程中步骤较为繁琐,且三分图的生成方法也多种多样,无法保证提供的三分图的一致性。二是现有的人像抠图方法无法针对高分辨率(如1080p、2K、4K等)的人像做精确的抠图处理,无法很好地分离人像与背景,导致抠图后得到的人像存在缺陷或瑕疵,例如人像边缘模糊、人像身体部分残缺等情况,因此需要进行改进。
发明内容
本发明针对现有技术中存在的现有方法需要抠图人员提供额外的三分图作为参考,且无法针对高分辨率(如1080p、2K、4K等)的人像做精确的抠图处理等缺陷,提供了一种新的基于多任务学习的人像抠图方法。
为了解决上述技术问题,本发明通过以下技术方案实现:
基于多任务学习的人像抠图方法,包括以下步骤:
阶段一:建立基础抠图模型:
S1、准备样本集,其中样本集包括RGB原始图像、RGB原始图像对应的原始透明遮罩、去除了含有人像图片的背景数据集这三种类型的图片,并将所述样本集划分成训练集和验证集;
S2、从训练集中随机批量抽取样本组合,并对这些样本组合做随机增广后得到第一阶段RGB图像I、第一阶段目标透明遮罩αgt和第一阶段目标分割图sgt,将第一阶段RGB图像I输入到编码器模块中进行编码,从而得到浅层纹理信息、中层特征信息和高层语义表征信息;
S3、将中层特征信息、高层语义表征信息输入到Segment模块,得到一个粗糙语义分割图m,并使用交叉熵损失来监督粗糙语义分割图m的训练得到分割损失Lseg
S4、将高层语义表征信息和粗糙语义分割图m输入到Attention模块进行联合处理从而得到注意力表征信息;
S5、将第一阶段RGB图像I以及所述注意力表征信息和浅层纹理信息输入到MattingDecoder模块,从而生成第一阶段粗糙透明遮罩αp、第一阶段残差概率图r和第一阶段隐藏特征h,使用L1损失和梯度损失来监督第一阶段粗糙透明遮罩αp的训练得到透明遮罩损失Lalp,使用L2损失来监督第一阶段残差概率图r的训练得到残差损失Lres
S6、通过对分割损失Lseg、透明遮罩损失Lalp、残差损失Lres加权求和得到总损失Ltotal
S7、使用训练集重复步骤S2-S6,并且使用验证集进行验证,得到验证集的Loss曲线图,取验证集的Loss曲线图中最低点得到的训练结果,作为基础抠图模型;
阶段二:建立精细化抠图模型:
S8、取所述基础抠图模型并加上Refiner模块从而形成未训练的精细化抠图模型;
S9、从训练集中随机批量抽取样本组合,并对这些样本组合做随机增广得到第二阶段RGB图像I、第二阶段目标透明遮罩αgt和第二阶段目标分割图sgt,将第二阶段RGB图像I缩放到512*512像素尺寸后输入到基础抠图模型中,得到第二阶段粗糙透明遮罩αp、第二阶段残差概率图r和第二阶段隐藏特征h;
S10、将第二阶段RGB图像I以及所述第二阶段粗糙透明遮罩αp、第二阶段残差概率图r和第二阶段隐藏特征h输入到Refiner模块中,从而得到一个精细化遮罩图αp,使用透明遮罩损失Lalp来监督精细化遮罩图αp的训练;
S11、使用训练集重复步骤S9-S10,从而得到训练完成的精细化抠图模型;
阶段三:使用精细化抠图模型进行抠图:
S12、读取一张高分辨率的待抠图图像I和一个目标背景图B,将待抠图图像I缩放到2048*2048像素尺寸后输入到训练完成的精细化抠图模型中生成一个精细化遮罩图αp,再分别将精细化遮罩图αp和目标背景图B都缩放到和待抠图图像I相同的像素尺寸,记作αp′、B′,最后使用公式C=αp′·I+(1-αp′)·B得到换好背景后的图C。
步骤S1中,将样本集划分成训练集和验证集,能够通过训练集进行训练,并通过验证集进行验证并挑选模型,其中RGB原始图像用于在增广后输入到模型中进行训练,RGB原始图像对应的原始透明遮罩用于对训练过程进行监督,去除了含有人像图片的背景数据集用于对样本集进行增广,这一方面可以排除带有人像背景的照片对模型的语义理解产生歧义,另一方面也提升了模型的泛化性能。其中去除了含有人像图片的背景数据集可以选用COCO数据集。
步骤S2、S3中,高层语义表征信息用于表征图像中目标的类别如人、猫、狗等,但是高层语义表征信息中的空间信息丢失比较严重,在后续预测粗糙语义分割图m时预测效果较差,而中层特征信息能够在此时对高层语义表征信息缺失的空间信息进行补充,从而得到预测效果相对较好的粗糙语义分割图m,浅层纹理信息含有丰富的纹理细节信息,在后续处理时可以帮助预测原始透明遮罩的细节(如发丝等)。其中用于得到浅层纹理信息、中层特征信息和高层语义表征信息的编码器模块可以选用ResNet。
步骤S4中,粗糙语义分割图m中包含了基本的类别信息以及大致的轮廓信息,因此使用粗糙语义分割图m作为引导,使网络更加关注粗糙语义分割图m区域的高层语义表征信息,这相比直接使用高层语义表征信息而言,能够得到更加强化的注意力表征信息。
步骤S5中,因为步骤S4中已经得到强化的注意力表征信息,这为预测透明遮罩提供了强有力的语义信息,因此将注意力表征信息输入到MattingDecoder模块中,这使得预测的透明遮罩不会产生非必要的孔洞。而步骤S2中的浅层纹理信息含有丰富的纹理细节信息,这有助于恢复透明遮罩的边缘以及毛发细节,同时使用L1损失和梯度损失来监督训练,从而得到语义以及细节都相对较好的第一阶段粗糙透明遮罩αp。另一方面,为了让模型不但能够学习预测第一阶段粗糙透明遮罩αp,同时还要让模型能够学习到当前预测的第一阶段粗糙透明遮罩αp和目标透明遮罩的差距,本发明进一步预测了一个第一阶段残差概率图r,并且该第一阶段残差概率图r还为第二阶段的Refiner模块训练提供了参考。第一阶段隐藏特征h用于在第二阶段为Refiner模块提供语义以及边缘细节等信息。
步骤S6中,分割损失Lseg使模型更关注语义理解,而透明遮罩损失Lalp则使模型在语义理解的基础上关注透明遮罩的预测,残差损失Lres使模型关注预测透明遮罩和目标透明遮罩之间的差距,而通过三者加权求和得到总损失Ltotal,让模型能够同时关注到语义理解以及目标纹理细节问题。
步骤S7中,通过重复步骤S2-S6,能够不断提升训练效果,从而得到预测效果较好的基础抠图模型,为后续阶段二精细化抠图模型的建立做准备。
步骤S8至步骤S11中,在阶段一得到的基础抠图模型的基础上加上Refiner模块后进行进一步的重复训练,能够进一步得到质量更好的精细化抠图模型,从而为后续的抠图应用做准备。
步骤S12中,使用阶段二得到的精细化抠图模型来进行抠图,可以在高分辨率人像(如1080p、2K、4K等)抠图需求中做精确的抠图处理,其最终抠图得到的图像也不会存在缺陷或瑕疵,能够更好地满足人们的抠图需求。
作为优选,上述所述的基于多任务学习的人像抠图方法,所述步骤S2具体包括以下步骤:
S21、随机从训练集中读取同样数量的RGB原始图像、RGB原始图像对应的原始透明遮罩、去除了含有人像图片的背景数据集,将读取得到的RGB原始图像以及RGB原始图像对应的原始透明遮罩组成训练对,并通过去除了含有人像图片的背景数据集对所述训练对做背景增广,再对这些背景增广了的训练对做随机增广,得到增广后的RGB图像以及对应的增广后的透明遮罩;
S22、将增广后的RGB图像以及对应的增广后的透明遮罩缩放到512*512像素尺寸,得到训练用的第一阶段RGB图像I、第一阶段目标透明遮罩αgt,并通过对第一阶段目标透明遮罩αgt做形态学操作得到第一阶段目标分割图sgt
S23、将第一阶段RGB图像I输入到编码器模块,从而得到浅层纹理信息、中层特征信息和高层语义表征信息。
由于高分辨率的人像透明遮罩标注成本高,所以在高分辨人像抠图任务中的训练样本量往往是有限的。因此采用合适数据增广策略是必要的,本发明通过以上步骤有效改善了训练样本量不足的问题。其中随机增广可以综合使用色彩、空间、换背景等随机增广策略,例如裁剪、仿射变换、Gamma变换、色相调整、饱和度调整、对比度调整等。
作为优选,上述所述的基于多任务学习的人像抠图方法,所述步骤S3中Segment模块的网络结构为[conv-bn-relu-conv],所述分割损失Lseg的计算公式为:
Figure BDA0003549850550000041
其中xi表示第一阶段RGB图像I,p[(xi)]表示xi的分割预测结果,yi表示xi对应的标签即第一阶段目标分割图sgt
通过在抠图任务中新增Segment模块做多任务学习,其中Segment模块承担的是分割辅助任务,这一方面可以引导编码器能够学习到深层次的语义信息,使得后面的MattingDecoder模块是建立在编码器所理解的语义的基础上进行的抠图,而这使得本发明的整个抠图任务不需要额外的参考输入(如三分图Trimap等);另一方面是分割辅助任务的预测结果还会为后面的注意力表征信息的生成提供引导。
作为优选,上述所述的基于多任务学习的人像抠图方法,所述步骤S4中Attention模块的处理步骤具体包括以下步骤:
S41、使用卷积核为1×1的卷积操作对高层语义表征信息进行通道压缩得到一个像素级语义表征信息;
S42、对粗糙语义分割图m和像素级语义表征信息做矩阵乘法得到类别表征信息;
S43、使用卷积和变形操作将像素级语义表征信息投影作为Query特征以及将类别表征信息投影作为Key特征和Value特征,所述卷积和变形操作的结构为[conv-bn-relu],Query特征、Key特征、Value特征都是一个二维特征图,其中Query特征刻画的是每个像素的表征,而Key特征和Value特征刻画的都是每个类别的表征;
S44、将Query特征、Key特征、Value特征带入公式Softmax(QueryTKey)ValueT即得到强化注意力表征信息,其中T为转置操作;
S45、将强化注意力表征信息输入到一个结构为[conv-bn-relu]的卷积操作后再和高层语义表征信息相加得到最终的注意力表征信息。
如果直接将编码器模块产生的高层语义表征信息输入到MattingDecoder模块,则也可以让MattingDecoder模块收敛,但是其收敛效果并不理想。所以本发明提出用Attention模块来强化粗糙语义分割图m下的高层语义表征信息。具体做法是如步骤S41至步骤S45所示使用Segment模块产生的粗糙语义分割图m作为引导,通过卷积和矩阵乘法操作将高层语义表征信息转换为强化注意力表征信息,最后将该强化注意力表征信息和原始的高层语义表征信息相加得到最终的注意力表征信息,使用这样的注意力表征信息作为MattingDecoder模块的输入,使得MattingDecoder模块在学习全局抠图的同时,还会更加关注到粗糙语义分割图m下的高层语义表征信息。
作为优选,上述所述的基于多任务学习的人像抠图方法,所述步骤S5中MattingDecoder模块首先使用卷积核为1×1的卷积操作对注意力表征信息做依次通道压缩以减少计算量,然后将压缩后的注意力表征信息插值到浅层纹理信息的特征尺度并和浅层纹理信息拼接后送到结构为[conv-bn-relu]的卷积操作,再将该卷积操作结果插值到第一阶段RGB图像I的尺度并和第一阶段RGB图像I拼接后送入到结构为[conv]的最终卷积操作,然后最终卷积操作输出第一阶段粗糙透明遮罩αp、第一阶段残差概率图r和第一阶段隐藏特征h。
本发明在这里采用按分辨率由低到高逐层恢复的思想将注意力表征信息依次和浅层纹理信息、第一阶段RGB图像I相结合得到最终的预测输出,这使得本发明的MattingDecoder模块在关注到高层语义的同时也能关注到底层的纹理细节信息,从而在全局与细节预测上都能取得优异效果。
作为优选,上述所述的基于多任务学习的人像抠图方法,所述步骤S5中,透明遮罩损失Lalp=La+Lgrad,其中La和Lgrad的定义如下:
Figure BDA0003549850550000061
Figure BDA0003549850550000062
上述公式中,αp表示第一阶段粗糙透明遮罩,αgt表示第一阶段目标透明遮置,
Figure BDA0003549850550000063
表示Sobel梯度算子。
L1损失具有收敛快且对细节预测效果好等特点,但由于其在极值点附近存在导数突变的缘故,使得模型在极值点附近来回振荡而不能很好收敛。故本发明这里对L1损失进行了平滑处理,其公式形式为上述La、Lgrad,使得模型在训练过程中既能在初始阶段快速收敛又能够在极值点附近更加稳定,最终达到更好的全局与细节预测效果。透明遮罩损失Lalp中的La损失侧重使预测的原始透明遮罩关注全局信息,而Lgrad损失侧重使预测结果具有更好的细节。
作为优选,上述所述的基于多任务学习的人像抠图方法,所述步骤S5中,残差损失Lres定义如下:
Lres=(r-|αpgt|)2
上述公式中,αp表示第一阶段粗糙透明遮罩,αgt表示第一阶段目标透明遮罩,r表示第一阶段残差概率图。
残差损失Lres使模型关注预测透明遮罩和目标透明遮罩之间的差距,第一阶段残差概率图r还为第二阶段的Refiner模块训练提供了参考。
作为优选,上述所述的基于多任务学习的人像抠图方法,所述步骤S6中,总损失Ltotal定义如下:
Ltotal=λ·Lseg+(1-λ)·(Lalp+Lres)
上式中,Lseg表示分割损失、Lalp表示透明遮罩损失、Lres表示残差损失,λ表示分割损失Lseg所占的权重,(Lalp+Lres)表示抠图损失,(1-λ)表示抠图损失(Lalp+Lres)所占的权重。
其中(Lalp+Lres)是为整个抠图目标而建立的损失,这样通过使用分割和抠图的多任务学习,来引导模型既能建立对目标的语义理解,同时又能关注到目标的纹理细节问题。另一方面,因为本发明的主要任务是抠图,分割在这里只是作为辅助任务来帮助整个模型的收敛,所以在实际训练时可以给分割损失Lseg一个相对较小的权重(如0.04),相应地给予抠图损失(Lalp+Lres)使用相对较大的权重,这样使得模型最终朝着更有利于抠图的目标收敛。通过使用多任务学习,本发明训练的模型具有一定的语义理解能力,从而无需额外的参考输入(如三分图Trimap等)。
作为优选,上述所述的基于多任务学习的人像抠图方法,所述步骤S9具体包括以下步骤:
S91、随机从训练集中读取同样数量的RGB原始图像、RGB原始图像对应的原始透明遮罩、去除了含有人像图片的背景数据集,将读取得到的RGB原始图像以及RGB原始图像对应的原始透明遮罩组成训练对,并通过去除了含有人像图片的背景数据集对所述训练对做背景增广,再对这些背景增广了的训练对做随机增广,得到增广后的RGB图像以及对应的增广后的透明遮罩;
S92、将增广后的RGB图像以及对应的增广后的透明遮罩缩放到2048*2048像素尺寸,得到训练用的第二阶段RGB图像I、第二阶段目标透明遮罩αgt,并通过对第二阶段目标透明遮罩αgt做形态学操作得到第二阶段目标分割图sgt
S93、将第二阶段RGB图像I缩放到512*512像素尺寸后输入到基础抠图模型中,得到第二阶段粗糙透明遮罩αp、第二阶段残差概率图r和第二阶段隐藏特征h。
在经过第一阶段训练后,本发明的基础抠图模型已经建立了高效的语义理解能力,所以在第二阶段建立精细化抠图模型时,其重点目标是关注目标边缘细节的预测。因为如果将形如2048*2048像素尺寸的高分辨图片直接输入到基础抠图模型中,其计算代价是高昂的,而抠图这种low-level任务又需要高分辨率下的纹理细节,所以本发明在得到增广后的第二阶段RGB图像I后,先将第二阶段RGB图像I缩放到512*512像素尺寸后再输入到基础抠图模型中,得到第二阶段粗糙透明遮罩αp、第二阶段残差概率图r和第二阶段隐藏特征h。而高分辨率的第二阶段RGB图像I则被用在Refiner模块中用于预测更加精细化的透明遮罩,如此既节省了基础抠图模型的计算代价,又保证了高分辨率抠图的精细化预测需求。其中随机增广可以综合使用色彩、空间、换背景等随机增广策略,例如裁剪、仿射变换、Gamma变换、色相调整、饱和度调整、对比度调整等。
作为优选,上述所述的基于多任务学习的人像抠图方法,所述步骤S10具体包括以下步骤:
S101、将第二阶段RGB图像I和基础抠图模型产生的第二阶段粗糙透明遮罩αp、第二阶段残差概率图r、第二阶段隐藏特征h都缩放到第二阶段RGB图像I的1/2尺度,并且将它们按通道维度拼接到一起,然后在该尺度下按水平和垂直方向均为1/16的比例裁剪得到一批裁剪块,再通过第二阶段残差概率图r取出平均残差概率大于0的裁剪块并记作裁剪块P1,然后将这些裁剪块P1向外扩充16个像素;
S102、将裁剪块P1输入到两层卷积网络后再放大1倍得到Refine中间特征,然后将第二阶段RGB图像I按水平和垂直方向均为1/16的比例裁剪得到raw裁剪块,然后将这些raw裁剪块向外扩充32个像素后和Refine中间特征按通道维度拼接到一起后再继续过两层卷积网络,得到精细化的透明遮罩块αs,然后将这些精细化的透明遮罩块αs边缘的32个像素裁掉,便得到了精细化的透明遮罩块αq
S103、将基础抠图模型产生的第二阶段粗糙透明遮罩αp直接放大到第二阶段RGB图像I的尺寸作为第二阶段粗糙透明遮罩αb,将步骤S102得到的精细化的透明遮罩块αq贴回到第二阶段粗糙透明遮罩αb中,便得到了最终的精细化遮罩图αp
S104、使用透明遮罩损失Lalp来监督精细化遮罩图αp的训练。
步骤S101~S104中,在第二阶段建立精细化抠图模型时,本发明同时参考第二阶段隐藏特征h中的全局语义信息和第二阶段RGB图像I的纹理细信息,但对于高分辨率图像如果直接对全图做卷积操作,其计算量是非常大的,所以在Refiner模块中本发明使用按块Refine的方法,最后将裁剪块贴回放大后的MattingDecoder模块所预测的透明遮罩中。由于在对裁剪块预测的过程中可能会在其边缘产生一些瑕疵,所以本发明先将裁剪块P1向外扩充一些像素然后在Refine后又将其多余的边缘裁剪掉。在Refine阶段,只需要使用透明遮罩损失Lalp进行监督训练即可。
通过以上操作,针对目标图片能够得到整体和细节预测效果都更好的精细化遮罩图αp
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图1和具体实施方式对本发明作进一步详细描述,但它们不是对本发明的限制:
实施例1
基于多任务学习的人像抠图方法,包括以下步骤:
阶段一:建立基础抠图模型:
S1、准备样本集,其中样本集包括RGB原始图像、RGB原始图像对应的原始透明遮罩、去除了含有人像图片的背景数据集这三种类型的图片,并将所述样本集划分成训练集和验证集;
S2、从训练集中随机批量抽取样本组合,并对这些样本组合做随机增广后得到第一阶段RGB图像I、第一阶段目标透明遮罩αgt和第一阶段目标分割图sgt,将第一阶段RGB图像I输入到编码器模块中进行编码,从而得到浅层纹理信息、中层特征信息和高层语义表征信息;
S3、将中层特征信息、高层语义表征信息输入到Segment模块,得到一个粗糙语义分割图m,并使用交叉熵损失来监督粗糙语义分割图m的训练得到分割损失Lseg
S4、将高层语义表征信息和粗糙语义分割图m输入到Attention模块进行联合处理从而得到注意力表征信息;
S5、将第一阶段RGB图像I以及所述注意力表征信息和浅层纹理信息输入到MattingDecoder模块,从而生成第一阶段粗糙透明遮罩αp、第一阶段残差概率图r和第一阶段隐藏特征h,使用L1损失和梯度损失来监督第一阶段粗糙透明遮罩αp的训练得到透明遮罩损失Lalp,使用L2损失来监督第一阶段残差概率图r的训练得到残差损失Lres
S6、通过对分割损失Lseg、透明遮罩损失Lalp、残差损失Lres加权求和得到总损失Ltotal
S7、使用训练集重复步骤S2-S6,并且使用验证集进行验证,得到验证集的Loss曲线图,取验证集的Loss曲线图中最低点得到的训练结果,作为基础抠图模型;
阶段二:建立精细化抠图模型:
S8、取所述基础抠图模型并加上Refiner模块从而形成未训练的精细化抠图模型;
S9、从训练集中随机批量抽取样本组合,并对这些样本组合做随机增广得到第二阶段RGB图像I、第二阶段目标透明遮罩αgt和第二阶段目标分割图sgt,将第二阶段RGB图像I缩放到512*512像素尺寸后输入到基础抠图模型中,得到第二阶段粗糙透明遮罩αp、第二阶段残差概率图r和第二阶段隐藏特征h;
S10、将第二阶段RGB图像I以及所述第二阶段粗糙透明遮罩αp、第二阶段残差概率图r和第二阶段隐藏特征h输入到Refiner模块中,从而得到一个精细化遮罩图αp,使用透明遮罩损失Lalp来监督精细化遮罩图αp的训练;
S11、使用训练集重复步骤S9-S10,从而得到训练完成的精细化抠图模型;
阶段三:使用精细化抠图模型进行抠图:
S12、读取一张高分辨率的待抠图图像I和一个目标背景图B,将待抠图图像I缩放到2048*2048像素尺寸后输入到训练完成的精细化抠图模型中生成一个精细化遮罩图αp,再分别将精细化遮罩图αp和目标背景图B都缩放到和待抠图图像I相同的像素尺寸,记作αp′、B′,最后使用公式C=αp′·I+(1-αp′)·B得到换好背景后的图C。
作为优选,所述步骤S2具体包括以下步骤:
S21、随机从训练集中读取同样数量的RGB原始图像、RGB原始图像对应的原始透明遮罩、去除了含有人像图片的背景数据集,将读取得到的RGB原始图像以及RGB原始图像对应的原始透明遮罩组成训练对,并通过去除了含有人像图片的背景数据集对所述训练对做背景增广,再对这些背景增广了的训练对做随机增广,得到增广后的RGB图像以及对应的增广后的透明遮罩;
S22、将增广后的RGB图像以及对应的增广后的透明遮罩缩放到512*512像素尺寸,得到训练用的第一阶段RGB图像I、第一阶段目标透明遮罩αgt,并通过对第一阶段目标透明遮罩αgt做形态学操作得到第一阶段目标分割图sgt
S23、将第一阶段RGB图像I输入到编码器模块,从而得到浅层纹理信息、中层特征信息和高层语义表征信息。
作为优选,所述步骤S3中Segment模块的网络结构为[conv-bn-relu-conv],所述分割损失Lseg的计算公式为:
Figure BDA0003549850550000111
其中xi表示第一阶段RGB图像I,p[(xi)]表示xi的分割预测结果,yi表示xi对应的标签即第一阶段目标分割图sgt
作为优选,所述步骤S4中Attention模块的处理步骤具体包括以下步骤:
S41、使用卷积核为1×1的卷积操作对高层语义表征信息进行通道压缩得到一个像素级语义表征信息;
S42、对粗糙语义分割图m和像素级语义表征信息做矩阵乘法得到类别表征信息;
S43、使用卷积和变形操作将像素级语义表征信息投影作为Query特征以及将类别表征信息投影作为Key特征和Value特征,所述卷积和变形操作的结构为[conv-bn-relu],Query特征、Key特征、Value特征都是一个二维特征图,其中Query特征刻画的是每个像素的表征,而Key特征和Value特征刻画的都是每个类别的表征;
S44、将Query特征、Key特征、Value特征带入公式Softmax(QueryTKey)ValueT即得到强化注意力表征信息,其中T为转置操作;
S45、将强化注意力表征信息输入到一个结构为[conv-bn-relu]的卷积操作后再和高层语义表征信息相加得到最终的注意力表征信息。
作为优选,所述步骤S5中MattingDecoder模块首先使用卷积核为1×1的卷积操作对注意力表征信息做依次通道压缩以减少计算量,然后将压缩后的注意力表征信息插值到浅层纹理信息的特征尺度并和浅层纹理信息拼接后送到结构为[conv-bn-relu]的卷积操作,再将该卷积操作结果插值到第一阶段RGB图像I的尺度并和第一阶段RGB图像I拼接后送入到结构为[conv]的最终卷积操作,然后最终卷积操作输出第一阶段粗糙透明遮罩αp、第一阶段残差概率图r和第一阶段隐藏特征h。
作为优选,所述步骤S5中,透明遮罩损失Lalp=La+Lgrad,其中La和Lgrad的定义如下:
Figure BDA0003549850550000121
Figure BDA0003549850550000122
上述公式中,αp表示第一阶段粗糙透明遮罩,αgt表示第一阶段目标透明遮置,
Figure BDA0003549850550000123
表示Sobel梯度算子。
作为优选,所述步骤S5中,残差损失Lres定义如下:
Lres=(r-|αpgt|)2
上述公式中,αp表示第一阶段粗糙透明遮罩,αgt表示第一阶段目标透明遮罩,r表示第一阶段残差概率图。
作为优选,所述步骤S6中,总损失Ltotal定义如下:
Ltotal=λ·Lseg+(1-λ)·(Lalp+Lres)
上式中,Lseg表示分割损失、Lalp表示透明遮罩损失、Lres表示残差损失,λ表示分割损失Lseg所占的权重,(Lalp+Lres)表示抠图损失,(1-λ)表示抠图损失(Lalp+Lres)所占的权重。
作为优选,所述步骤S9具体包括以下步骤:
S91、随机从训练集中读取同样数量的RGB原始图像、RGB原始图像对应的原始透明遮罩、去除了含有人像图片的背景数据集,将读取得到的RGB原始图像以及RGB原始图像对应的原始透明遮罩组成训练对,并通过去除了含有人像图片的背景数据集对所述训练对做背景增广,再对这些背景增广了的训练对做随机增广,得到增广后的RGB图像以及对应的增广后的透明遮罩;
S92、将增广后的RGB图像以及对应的增广后的透明遮罩缩放到2048*2048像素尺寸,得到训练用的第二阶段RGB图像I、第二阶段目标透明遮罩αgt,并通过对第二阶段目标透明遮罩αgt做形态学操作得到第二阶段目标分割图sgt
S93、将第二阶段RGB图像I缩放到512*512像素尺寸后输入到基础抠图模型中,得到第二阶段粗糙透明遮罩αp、第二阶段残差概率图r和第二阶段隐藏特征h。
作为优选,所述步骤S10具体包括以下步骤:
S101、将第二阶段RGB图像I和基础抠图模型产生的第二阶段粗糙透明遮罩αp、第二阶段残差概率图r、第二阶段隐藏特征h都缩放到第二阶段RGB图像I的1/2尺度,并且将它们按通道维度拼接到一起,然后在该尺度下按水平和垂直方向均为1/16的比例裁剪得到一批裁剪块,再通过第二阶段残差概率图r取出平均残差概率大于0的裁剪块并记作裁剪块P1,然后将这些裁剪块P1向外扩充16个像素;
S102、将裁剪块P1输入到两层卷积网络后再放大1倍得到Refine中间特征,然后将第二阶段RGB图像I按水平和垂直方向均为1/16的比例裁剪得到raw裁剪块,然后将这些raw裁剪块向外扩充32个像素后和Refine中间特征按通道维度拼接到一起后再继续过两层卷积网络,得到精细化的透明遮罩块αs,然后将这些精细化的透明遮罩块αs边缘的32个像素裁掉,便得到了精细化的透明遮罩块αq
S103、将基础抠图模型产生的第二阶段粗糙透明遮罩αp直接放大到第二阶段RGB图像I的尺寸作为第二阶段粗糙透明遮罩αb,将步骤S102得到的精细化的透明遮罩块αq贴回到第二阶段粗糙透明遮罩αb中,便得到了最终的精细化遮罩图αp
S104、使用透明遮罩损失Lalp来监督精细化遮罩图αp的训练。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利的范围所作的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (10)

1.基于多任务学习的人像抠图方法,其特征在于:包括以下步骤:
阶段一:建立基础抠图模型:
S1、准备样本集,其中样本集包括RGB原始图像、RGB原始图像对应的原始透明遮罩、去除了含有人像图片的背景数据集这三种类型的图片,并将所述样本集划分成训练集和验证集;
S2、从训练集中随机批量抽取样本组合,并对这些样本组合做随机增广后得到第一阶段RGB图像I、第一阶段目标透明遮罩αgt和第一阶段目标分割图sgt,将第一阶段RGB图像I输入到编码器模块中进行编码,从而得到浅层纹理信息、中层特征信息和高层语义表征信息;
S3、将中层特征信息、高层语义表征信息输入到Segment模块,得到一个粗糙语义分割图m,并使用交叉熵损失来监督粗糙语义分割图m的训练得到分割损失Lseg
S4、将高层语义表征信息和粗糙语义分割图m输入到Attention模块进行联合处理从而得到注意力表征信息;
S5、将第一阶段RGB图像I以及所述注意力表征信息和浅层纹理信息输入到MattingDecoder模块,从而生成第一阶段粗糙透明遮罩αp、第一阶段残差概率图r和第一阶段隐藏特征h,使用L1损失和梯度损失来监督第一阶段粗糙透明遮罩αp的训练得到透明遮罩损失Lalp,使用L2损失来监督第一阶段残差概率图r的训练得到残差损失Lres
S6、通过对分割损失Lseg、透明遮罩损失Lalp、残差损失Lres加权求和得到总损失Ltotal
S7、使用训练集重复步骤S2-S6,并且使用验证集进行验证,得到验证集的Loss曲线图,取验证集的Loss曲线图中最低点得到的训练结果,作为基础抠图模型;
阶段二:建立精细化抠图模型:
S8、取所述基础抠图模型并加上Refiner模块从而形成未训练的精细化抠图模型;
S9、从训练集中随机批量抽取样本组合,并对这些样本组合做随机增广得到第二阶段RGB图像I、第二阶段目标透明遮罩αgt和第二阶段目标分割图sgt,将第二阶段RGB图像I缩放到512*512像素尺寸后输入到基础抠图模型中,得到第二阶段粗糙透明遮罩αp、第二阶段残差概率图r和第二阶段隐藏特征h;
S10、将第二阶段RGB图像I以及所述第二阶段粗糙透明遮罩αp、第二阶段残差概率图r和第二阶段隐藏特征h输入到Refiner模块中,从而得到一个精细化遮罩图αp,使用透明遮罩损失Lalp来监督精细化遮罩图αp的训练;
S11、使用训练集重复步骤S9-S10,从而得到训练完成的精细化抠图模型;
阶段三:使用精细化抠图模型进行抠图:
S12、读取一张高分辨率的待抠图图像I和一个目标背景图B,将待抠图图像I缩放到2048*2048像素尺寸后输入到训练完成的精细化抠图模型中生成一个精细化遮罩图αp,再分别将精细化遮罩图αp和目标背景图B都缩放到和待抠图图像I相同的像素尺寸,记作αp′、B′,最后使用公式C=αp′·I+(1-αp′)·B′得到换好背景后的图C。
2.根据权利要求1所述的基于多任务学习的人像抠图方法,其特征在于:所述步骤S2具体包括以下步骤:
S21、随机从训练集中读取同样数量的RGB原始图像、RGB原始图像对应的原始透明遮罩、去除了含有人像图片的背景数据集,将读取得到的RGB原始图像以及RGB原始图像对应的原始透明遮罩组成训练对,并通过去除了含有人像图片的背景数据集对所述训练对做背景增广,再对这些背景增广了的训练对做随机增广,得到增广后的RGB图像以及对应的增广后的透明遮罩;
S22、将增广后的RGB图像以及对应的增广后的透明遮罩缩放到512*512像素尺寸,得到训练用的第一阶段RGB图像I、第一阶段目标透明遮罩αgt,并通过对第一阶段目标透明遮罩αgt做形态学操作得到第一阶段目标分割图sgt
S23、将第一阶段RGB图像I输入到编码器模块,从而得到浅层纹理信息、中层特征信息和高层语义表征信息。
3.根据权利要求1所述的基于多任务学习的人像抠图方法,其特征在于:所述步骤S3中Segment模块的网络结构为[conv-bn-relu-conv],所述分割损失Lseg的计算公式为:
Figure FDA0003549850540000021
其中xi表示第一阶段RGB图像I,p[(xi)]表示xi的分割预测结果,yi表示xi对应的标签即第一阶段目标分割图sgt
4.根据权利要求1所述的基于多任务学习的人像抠图方法,其特征在于:所述步骤S4中Attention模块的处理步骤具体包括以下步骤:
S41、使用卷积核为1×1的卷积操作对高层语义表征信息进行通道压缩得到一个像素级语义表征信息;
S42、对粗糙语义分割图m和像素级语义表征信息做矩阵乘法得到类别表征信息;
S43、使用卷积和变形操作将像素级语义表征信息投影作为Query特征以及将类别表征信息投影作为Key特征和Value特征,所述卷积和变形操作的结构为[conv-bn-relu],Query特征、Key特征、Value特征都是一个二维特征图,其中Query特征刻画的是每个像素的表征,而Key特征和Value特征刻画的都是每个类别的表征;
S44、将Query特征、Key特征、Value特征带入公式Softmax(QueryTKey)ValueT即得到强化注意力表征信息,其中T为转置操作;
S45、将强化注意力表征信息输入到一个结构为[conv-bn-relu]的卷积操作后再和高层语义表征信息相加得到最终的注意力表征信息。
5.根据权利要求1所述的基于多任务学习的人像抠图方法,其特征在于:所述步骤S5中MattingDecoder模块首先使用卷积核为1×1的卷积操作对注意力表征信息做依次通道压缩以减少计算量,然后将压缩后的注意力表征信息插值到浅层纹理信息的特征尺度并和浅层纹理信息拼接后送到结构为[conv-bn-relu]的卷积操作,再将该卷积操作结果插值到第一阶段RGB图像I的尺度并和第一阶段RGB图像I拼接后送入到结构为[conv]的最终卷积操作,然后最终卷积操作输出第一阶段粗糙透明遮罩αp、第一阶段残差概率图r和第一阶段隐藏特征h。
6.根据权利要求1所述的基于多任务学习的人像抠图方法,其特征在于:所述步骤S5中,透明遮罩损失Lalp=La+Lgrad,其中La和Lgrad的定义如下:
Figure FDA0003549850540000031
Figure FDA0003549850540000032
上述公式中,αp表示第一阶段粗糙透明遮罩,αgt表示第一阶段目标透明遮置,
Figure FDA0003549850540000041
表示Sobel梯度算子。
7.根据权利要求1所述的基于多任务学习的人像抠图方法,其特征在于:所述步骤S5中,残差损失Lres定义如下:
Lres=(r-|αpgt|)2
上述公式中,αp表示第一阶段粗糙透明遮罩,αgt表示第一阶段目标透明遮罩,r表示第一阶段残差概率图。
8.根据权利要求1所述的基于多任务学习的人像抠图方法,其特征在于:所述步骤S6中,总损失Ltotal定义如下:
Ltotal=λ·Lseg+(1-λ)·(Lalp+Lres)
上式中,Lseg表示分割损失、Lalp表示透明遮罩损失、Lres表示残差损失,λ表示分割损失Lseg所占的权重,(Lalp+Lres)表示抠图损失,(1-λ)表示抠图损失(Lalp+Lres)所占的权重。
9.根据权利要求1所述的基于多任务学习的人像抠图方法,其特征在于:所述步骤S9具体包括以下步骤:
S91、随机从训练集中读取同样数量的RGB原始图像、RGB原始图像对应的原始透明遮罩、去除了含有人像图片的背景数据集,将读取得到的RGB原始图像以及RGB原始图像对应的原始透明遮罩组成训练对,并通过去除了含有人像图片的背景数据集对所述训练对做背景增广,再对这些背景增广了的训练对做随机增广,得到增广后的RGB图像以及对应的增广后的透明遮罩;
S92、将增广后的RGB图像以及对应的增广后的透明遮罩缩放到2048*2048像素尺寸,得到训练用的第二阶段RGB图像I、第二阶段目标透明遮罩αgt,并通过对第二阶段目标透明遮罩αgt做形态学操作得到第二阶段目标分割图sgt
S93、将第二阶段RGB图像I缩放到512*512像素尺寸后输入到基础抠图模型中,得到第二阶段粗糙透明遮罩αp、第二阶段残差概率图r和第二阶段隐藏特征h。
10.根据权利要求1所述的基于多任务学习的人像抠图方法,其特征在于:所述步骤S10具体包括以下步骤:
S101、将第二阶段RGB图像I和基础抠图模型产生的第二阶段粗糙透明遮罩αp、第二阶段残差概率图r、第二阶段隐藏特征h都缩放到第二阶段RGB图像I的1/2尺度,并且将它们按通道维度拼接到一起,然后在该尺度下按水平和垂直方向均为1/16的比例裁剪得到一批裁剪块,再通过第二阶段残差概率图r取出平均残差概率大于0的裁剪块并记作裁剪块P1,然后将这些裁剪块P1向外扩充16个像素;
S102、将裁剪块P1输入到两层卷积网络后再放大1倍得到Refine中间特征,然后将第二阶段RGB图像I按水平和垂直方向均为1/16的比例裁剪得到raw裁剪块,然后将这些raw裁剪块向外扩充32个像素后和Refine中间特征按通道维度拼接到一起后再继续过两层卷积网络,得到精细化的透明遮罩块αs,然后将这些精细化的透明遮罩块αs边缘的32个像素裁掉,便得到了精细化的透明遮罩块αq
S103、将基础抠图模型产生的第二阶段粗糙透明遮罩αp直接放大到第二阶段RGB图像I的尺寸作为第二阶段粗糙透明遮罩αb,将步骤S102得到的精细化的透明遮罩块αq贴回到第二阶段粗糙透明遮罩αb中,便得到了最终的精细化遮罩图αp
S104、使用透明遮罩损失Lalp来监督精细化遮罩图αp的训练。
CN202210260220.2A 2022-03-16 2022-03-16 基于多任务学习的人像抠图方法 Pending CN114627293A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210260220.2A CN114627293A (zh) 2022-03-16 2022-03-16 基于多任务学习的人像抠图方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210260220.2A CN114627293A (zh) 2022-03-16 2022-03-16 基于多任务学习的人像抠图方法

Publications (1)

Publication Number Publication Date
CN114627293A true CN114627293A (zh) 2022-06-14

Family

ID=81902441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210260220.2A Pending CN114627293A (zh) 2022-03-16 2022-03-16 基于多任务学习的人像抠图方法

Country Status (1)

Country Link
CN (1) CN114627293A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252892A (zh) * 2023-11-14 2023-12-19 江西师范大学 基于轻量化视觉自注意力网络的双分支人像自动抠图模型

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252892A (zh) * 2023-11-14 2023-12-19 江西师范大学 基于轻量化视觉自注意力网络的双分支人像自动抠图模型
CN117252892B (zh) * 2023-11-14 2024-03-08 江西师范大学 基于轻量化视觉自注意力网络的双分支人像自动抠图装置

Similar Documents

Publication Publication Date Title
Lim et al. DSLR: Deep stacked Laplacian restorer for low-light image enhancement
EP3678059B1 (en) Image processing method, image processing apparatus, and a neural network training method
CN110033410B (zh) 图像重建模型训练方法、图像超分辨率重建方法及装置
CN113191953B (zh) 一种基于Transformer的人脸图像超分辨的方法
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
JP2003018398A (ja) ピクセル画像から超解像度画像を生成する方法
CN113284051B (zh) 一种基于频率分解多注意力机制的人脸超分辨方法
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN112132741A (zh) 一种人脸照片图像和素描图像的转换方法及***
CN116524307A (zh) 一种基于扩散模型的自监督预训练方法
CN114519667A (zh) 一种图像超分辨率重建方法及***
CN115546505A (zh) 一种基于深度学习的无监督单目图像深度估计方法
CN115713462A (zh) 超分辨模型训练方法、图像识别方法、装置及设备
CN115565039A (zh) 基于自注意力机制的单目输入动态场景新视图合成方法
CN108401104B (zh) 基于频带修复和超分辨的双焦相机数字变焦方法
CN114627293A (zh) 基于多任务学习的人像抠图方法
CN114549387A (zh) 一种基于伪标签的人脸图像高光去除方法
CN113379606A (zh) 一种基于预训练生成模型的人脸超分辨方法
CN117689592A (zh) 一种基于级联自适应网络的水下图像增强方法
CN114283152A (zh) 图像处理、图像处理模型的训练方法、装置、设备及介质
CN116664435A (zh) 一种基于多尺度人脸解析图融入的人脸复原方法
Jia et al. Learning rich information for quad bayer remosaicing and denoising
CN113538456B (zh) 基于gan网络的图像软分割及背景替换***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 1001, 10th floor, No. 65, kejiyuan Road, Hangzhou Economic and Technological Development Zone, Zhejiang Province, 310018

Applicant after: Hangzhou Haima Photography Co.,Ltd.

Address before: No. 1001, 10th floor, No. 65, kejiyuan Road, Hangzhou Economic and Technological Development Zone, Zhejiang Province, 310018

Applicant before: Hangzhou manto photography Co.,Ltd.