CN112396598A - 一种基于单阶段多任务协同学习的人像抠图方法及*** - Google Patents
一种基于单阶段多任务协同学习的人像抠图方法及*** Download PDFInfo
- Publication number
- CN112396598A CN112396598A CN202011393907.0A CN202011393907A CN112396598A CN 112396598 A CN112396598 A CN 112396598A CN 202011393907 A CN202011393907 A CN 202011393907A CN 112396598 A CN112396598 A CN 112396598A
- Authority
- CN
- China
- Prior art keywords
- image
- transparency
- matting
- training
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000010586 diagram Methods 0.000 claims abstract description 105
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000005260 corrosion Methods 0.000 claims description 10
- 230000007797 corrosion Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于单阶段多任务协同学习的人像抠图方法及***,该方法包括:获取数据集并对数据集进行预处理,得到训练人像图、对应的透明度图和对应的三元图;将训练人像图输入到预构建抠图模型,生成训练的三元图和训练的透明度图;损失计算并更新预构建抠图模型的参数,得到训练完成的抠图模型;获取待测图像并输入到训练完成的抠图模型,得到人像前景图。该***包括:数据预处理模块、训练模块、参数更新模块和预测模块。通过使用本发明,解决现有技术中抠图阶段容易由三元图阶段的错误导致抠图阶段的预测错误。本发明作为一种基于单阶段多任务协同学习的人像抠图方法及***,可广泛应用于图像抠图领域。
Description
技术领域
本发明属于图像抠图领域,尤其涉及一种基于单阶段多任务协同学习的人像抠图方法及***。
背景技术
图像抠图,是指在一张给定的图像中准确地抠出指定的前景物体,使得抠出的前景能够很自然地与其他背景图像进行合成。目前的抠图技术主要为蓝屏抠图技术,然而,蓝屏抠图需要前景目标在特定颜色的背景当中,限制严格且成本较高,这就限制了其只能应用于小部分的领域。近年来的深度学习结合传统方法的半自动抠图太依赖于模型的假设且无法关注到语义层面的匹配。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于单阶段多任务协同学习的人像抠图方法及***,解决现有技术中抠图阶段容易由三元图阶段的错误导致抠图阶段的预测错误。
本发明所采用的第一技术方案是:一种基于单阶段多任务协同学习的人像抠图方法,包括以下步骤:
获取数据集并对数据集进行预处理,得到训练人像图、对应的透明度图和对应的三元图;
将训练人像图输入到预构建抠图模型,生成训练的三元图和训练的透明度图;
将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数,得到训练完成的抠图模型;
获取待测图像并输入到训练完成的抠图模型,得到人像前景图。
进一步,所述获取数据集并对数据集进行预处理,得到训练人像图、对应的透明度图和对应的三元图这一步骤,其具体包括:
获取人像抠图数据集,所述人像抠图数据集包括人像图和对应的透明度图;
对人像图进行数据增强和放缩,得到训练人像图;
对透明度图进行二值化处理、形态学的腐蚀和膨胀处理,得到腐蚀参数和膨胀参数;
根据腐蚀参数和膨胀参数生成对应的三元图。
进一步,所述对人像图进行数据增强和放缩,得到训练人像图这一步骤,其具体包括:
以0.3概率对人像图进行随机边缘填充;
以0.5概率对人像图进行水平方向翻转;
对人像图进行伽马变换;
对人像图加入高斯噪声;
将经过边缘填充、水平翻转、伽马变换和加入高思噪声的人像图缩放为256*256的大小,得到训练人像图。
进一步,所述抠图模型包括三元图支路、主体粗抠支路和边缘精抠支路,所述训练的透明度图包括训练的主体透明度图、训练的边缘透明度图和训练的最终透明度图。
进一步,所述将训练人像图输入到预构建抠图模型,生成训练的三元图和训练的透明度图这一步骤,其具体包括:
将训练人像图输入到预构建抠图模型,经过三元图支路中的深层特征提取器生成特征图;
将特征图经过三元图支路中的解码器生成训练的三元图;
将特征图经过主体粗抠支路生成训练的主体透明度图;
将训练人像图经过边缘精抠支路的无下采样的浅层编码器得到编码图;
将特征图输入到边缘精抠支路并与编码图拼接,经过无下采样的解码器后生成训练的边缘透明度图;
根据训练的主体透明度图和训练的边缘透明度图生成训练的最终透明度图。
进一步,所述将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数,得到训练完成的抠图模型这一步骤,其具体包括:
将训练的三元图与数据集中该训练人像图对应的三元图逐像素计算交叉熵损失,得到三元图损失;
将训练的主体透明度图与数据集中该训练人像图对应的透明度图计算均方误差,得到主体透明度图均方误差;
将训练的边缘透明度图与数据集中该训练人像图对应的透明度图计算均方误差,得到边缘透明度图均方误差;
将训练的最终透明度图与数据集中该训练人像图对应的透明度图计算均方误差,得到最终透明度图均方误差;
根据三元图损失、主体透明度图均方误差、边缘透明度图均方误差和最终透明度图均方误差,得到总损失函数;
根据总损失函数对预构建扣图模型参数进行迭代更新,得到训练完成的抠图模型。
进一步,所述三元图损失的计算公式如下:
上式中,yk表示该像素属于类别k的概率,pk表示该像素预测得到的属于类别k的概率。
进一步,所述获取待测图像并输入到训练完成的抠图模型,得到人像前景图这一步骤,其具体包括:
将待测图像缩放至256*256的大小并输入到训练完成的抠图模型,得到预测的三元图、预测的主体透明度图、预测的边缘透明度图和预测的最终透明度图;
将预测的最终透明度缩放至待测图像原图大小后与待测图像原图进行逐通道相乘,得到人像前景图。
本发明所采用的第二技术方案是:一种基于单阶段多任务协同学习的人像抠图***,包括以下模块:
数据预处理模块,用于获取数据集并对数据集进行预处理,得到训练人像图、对应的透明度图和对应的三元图;
训练模块,用于将训练人像图输入到预构建抠图模型,生成训练的三元图和训练的透明度图;
参数更新模块,用于将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数,得到训练完成的抠图模型;
预测模块,用于获取待测图像并输入到训练完成的抠图模型,得到人像前景图。
本发明方法及***的有益效果是:本发明在抠图阶段不直接输入三元图,而是输入三元图阶段的特征图,从而减少三元图阶段的错误导致抠图阶段的预测错误,此外,通过模型的三条支路结构,实现增大感受野的同时保留位置信息,使得抠图结果更加锐利。
附图说明
图1是本发明具体实施例一种基于单阶段多任务协同学习的人像抠图方法的步骤流程图;
图2是本发明具体实施例一种基于单阶段多任务协同学习的人像抠图***的结构框图;
图3是本发明具体实施例预构建抠图模型的数据处理流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
如图1所示,本发明提供了一种基于单阶段多任务协同学习的人像抠图方法,该方法包括以下步骤:
S1、获取数据集并对数据集进行预处理,得到训练人像图、对应的透明度图和对应的三元图;
S2、将训练人像图输入到预构建抠图模型,生成训练的三元图和训练的透明度图;
S3、将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数,得到训练完成的抠图模型;
S4、获取待测图像并输入到训练完成的抠图模型,得到人像前景图。
进一步作为本方法的优选实施例,所述获取数据集并对数据集进行预处理,得到训练人像图、对应的透明度图和对应的三元图这一步骤,其具体包括:
获取人像抠图数据集,所述人像抠图数据集包括人像图和对应的透明度图;
对人像图进行数据增强和放缩,得到训练人像图;
对透明度图进行二值化处理、形态学的腐蚀和膨胀处理,得到腐蚀参数和膨胀参数;
具体地,对于数据集中的每张透明度图alpha,先通过以下公式进行二值化:
将二值化后的透明度图进行形态学的腐蚀和膨胀操作,分别得到erode和dilate,腐蚀和膨胀的结构元半径为透明度图宽度的5%。
根据腐蚀参数和膨胀参数生成对应的三元图。
具体地,对应的三元图由以下公式计算得到:
进一步作为本方法优选实施例,所述对人像图进行数据增强和放缩,得到训练人像图这一步骤,其具体包括:
以0.3概率对人像图进行随机边缘填充;
以0.5概率对人像图进行水平方向翻转;
对人像图进行伽马变换;
对人像图加入高斯噪声;
将经过边缘填充、水平翻转、伽马变换和加入高思噪声的人像图缩放为256*256的大小,得到训练人像图。
进一步作为本发明的优选实施例,所述抠图模型包括三元图支路、主体粗抠支路和边缘精抠支路,所述训练的透明度图包括训练的主体透明度图、训练的边缘透明度图和训练的最终透明度图。
具体地,参照图3,在三元图支路中,输入图像经过深层特征提取器后提取到深层特征图,然后将特征图经过解码器解码后得到预测的的三元图;在主体粗抠支路中,将三元图阶段的特征图,经过解码器解码后得到主体透明度图;在边缘精抠支路中,首先将输入图像经过一个浅层的且没有下采样的编码器后得到浅层编码图,将三元图阶段的深层特征图和浅层编码图进行拼接,输入到解码器中进行解码得到预测的边缘透明度图。
进一步作为本发明优选实施例,所述将训练人像图输入到预构建抠图模型,生成训练的三元图和训练的透明度图这一步骤,其具体包括:
将训练人像图输入到预构建抠图模型,经过三元图支路中的深层特征提取器生成特征图;
将特征图经过三元图支路中的解码器生成训练的三元图;
具体地,在三元图支路中,训练人像图经过一个可替代的深层网络,在本发明中选用的是deeplabv3+这一网络架构,经过深层网络后提取到大小为64*64的深层特征图,然后将特征图经过解码器解码后得到预测的大小为64*64的三元图,通过双线性插值算法将其放大为256*256大小的三元图。
其中解码器为三层的卷积层网络,前两层卷积层之后会依次经过批归一化层、ReLU激活层,概率为0.1的Dropout层。
将特征图经过主体粗抠支路生成训练的主体透明度图;
具体地,在主体粗抠支路中,将三元图阶段的特征图,经过解码器解码后得到预测的大小为64*64的主体透明度图αcontorr,通过双线性插值算法将其放大为256*256大小。
将训练人像图经过边缘精抠支路的无下采样的浅层编码器得到编码图;
将特征图输入到边缘精抠支路并与编码图拼接,经过无下采样的解码器后生成训练的边缘透明度图;
具体地,在边缘精抠支路中,首先将输入图像经过一个如附图2所示的浅层且没有下采样的编码器后得到256*256的浅层编码图,将三元图阶段的深层特征图经过转置卷积后变为256*256,之后和浅层编码图进行拼接,输入到解码器中进行解码得到预测的大小为256*256的边缘透明度图αedge。
根据训练的主体透明度图和训练的边缘透明度图生成训练的最终透明度图。
具体地,将训练的边缘透明度图和训练的主体透明度图通过下述公式进行合成,得到训练的最终透明度图预测结果:
进一步作为本方法的优选实施例,所述将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数,得到训练完成的抠图模型这一步骤,其具体包括:
将训练的三元图与数据集中该训练人像图对应的三元图逐像素计算交叉熵损失,得到三元图损失;
将训练的主体透明度图与数据集中该训练人像图对应的透明度图计算均方误差,得到主体透明度图均方误差;
具体地,将训练的主体透明度图与数据集中的透明度图计算均方误差,但是只计算三元图中为前景和背景的区域,计算公式如下:
将训练的边缘透明度图与数据集中该训练人像图对应的透明度图计算均方误差,得到边缘透明度图均方误差;
具体地,将训练的边缘透明度图与数据集中的透明度图计算均方误差,但是只计算三元图中为“不确定”的区域,如下述公式:
将训练的最终透明度图与数据集中该训练人像图对应的透明度图计算均方误差,得到最终透明度图均方误差;
具体地,将训练的最终透明度图与数据集中的透明度图计算均方误差:
根据三元图损失、主体透明度图均方误差、边缘透明度图均方误差和最终透明度图均方误差,得到总损失函数;
具体地,最后总的损失函数为以上损失的加和:
L=Lcross+Lcontour+Ledge+Lfinal
根据总损失函数对预构建扣图模型参数进行迭代更新,得到训练完成的抠图模型。
具体地,将损失函数梯度传播回网络的每个参数后,使用adam优化器进行参数迭代,初始学习率为0.0001。
进一步作为本方法的优选实施例,所述三元图损失的计算公式如下:
上式中,yk表示该像素属于类别k的概率,pk表示该像素预测得到的属于类别k的概率。
进一步,所述获取待测图像并输入到训练完成的抠图模型,得到人像前景图这一步骤,其具体包括:
将待测图像缩放至256*256的大小并输入到训练完成的抠图模型,得到预测的三元图、预测的主体透明度图、预测的边缘透明度图和预测的最终透明度图;
将预测的最终透明度缩放至待测图像原图大小后与待测图像原图进行逐通道相乘,得到人像前景图。
另外,边缘精抠支路使用无下采样的编码器避免了下采样过程中的位置信息丢失,从而使得结果更加锐利。编码器的输入包括浅层编码图和三元图支路的深层特征图,一是能弥补无下采样导致的感受野过小的问题,二也提供了更多的高层约束信息,相比直接输入三元图的方法,本发明的结果更具有鲁棒性。三元图支路和两个抠图支路共享了同一个深层特征提取器,因为三元图预测和抠图两个任务本就是高度相关的任务,使用同一个深层特征提取器能相互促进,加快模型收敛。
如图2所示,一种基于单阶段多任务协同学习的人像抠图***,包括以下模块:
数据预处理模块,用于获取数据集并对数据集进行预处理,得到训练人像图、对应的透明度图和对应的三元图;
训练模块,用于将训练人像图输入到预构建抠图模型,生成训练的三元图和训练的透明度图;
参数更新模块,用于将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数,得到训练完成的抠图模型;
预测模块,用于获取待测图像并输入到训练完成的抠图模型,得到人像前景图。
上述方法实施例中的内容均适用于本***实施例中,本***实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (9)
1.一种基于单阶段多任务协同学习的人像抠图方法,其特征在于,包括以下步骤:
获取数据集并对数据集进行预处理,得到训练人像图、对应的透明度图和对应的三元图;
将训练人像图输入到预构建抠图模型,生成训练的三元图和训练的透明度图;
将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数,得到训练完成的抠图模型;
获取待测图像并输入到训练完成的抠图模型,得到人像前景图。
2.根据权利要求1所述一种基于单阶段多任务协同学习的人像抠图方法,其特征在于,所述获取数据集并对数据集进行预处理,得到训练人像图、对应的透明度图和对应的三元图这一步骤,其具体包括:
获取人像抠图数据集,所述人像抠图数据集包括人像图和对应的透明度图;
对人像图进行数据增强和放缩,得到训练人像图;
对透明度图进行二值化处理、形态学的腐蚀和膨胀处理,得到腐蚀参数和膨胀参数;
根据腐蚀参数和膨胀参数生成对应的三元图。
3.根据权利要求2所述一种基于单阶段多任务协同学习的人像抠图方法,其特征在于,所述对人像图进行数据增强和放缩,得到训练人像图这一步骤,其具体包括:
以0.3概率对人像图进行随机边缘填充;
以0.5概率对人像图进行水平方向翻转;
对人像图进行伽马变换;
对人像图加入高斯噪声;
将经过边缘填充、水平翻转、伽马变换和加入高思噪声的人像图缩放为256*256的大小,得到训练人像图。
4.根据权利要求1所述一种基于单阶段多任务协同学习的人像抠图方法,其特征在于,所述抠图模型包括三元图支路、主体粗抠支路和边缘精抠支路,所述训练的透明度图包括训练的主体透明度图、训练的边缘透明度图和训练的最终透明度图。
5.根据权利要求3所述一种基于单阶段多任务协同学习的人像抠图方法,其特征在于,所述将训练人像图输入到预构建抠图模型,生成训练的三元图和训练的透明度图这一步骤,其具体包括:
将训练人像图输入到预构建抠图模型,经过三元图支路中的深层特征提取器生成特征图;
将特征图经过三元图支路中的解码器生成训练的三元图;
将特征图经过主体粗抠支路生成训练的主体透明度图;
将训练人像图经过边缘精抠支路的无下采样的浅层编码器得到编码图;
将特征图输入到边缘精抠支路并与编码图拼接,经过无下采样的解码器后生成训练的边缘透明度图;
根据训练的主体透明度图和训练的边缘透明度图生成训练的最终透明度图。
6.根据权利要求5所述一种基于单阶段多任务协同学习的人像抠图方法,其特征在于,所述将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数,得到训练完成的抠图模型这一步骤,其具体包括:
将训练的三元图与数据集中该训练人像图对应的三元图逐像素计算交叉熵损失,得到三元图损失;
将训练的主体透明度图与数据集中该训练人像图对应的透明度图计算均方误差,得到主体透明度图均方误差;
将训练的边缘透明度图与数据集中该训练人像图对应的透明度图计算均方误差,得到边缘透明度图均方误差;
将训练的最终透明度图与数据集中该训练人像图对应的透明度图计算均方误差,得到最终透明度图均方误差;
根据三元图损失、主体透明度图均方误差、边缘透明度图均方误差和最终透明度图均方误差,得到总损失函数;
根据总损失函数对预构建扣图模型参数进行迭代更新,得到训练完成的抠图模型。
8.根据权利要求6所述一种基于单阶段多任务协同学习的人像抠图方法,其特征在于,所述获取待测图像并输入到训练完成的抠图模型,得到人像前景图这一步骤,其具体包括:
将待测图像缩放至256*256的大小并输入到训练完成的抠图模型,得到预测的三元图、预测的主体透明度图、预测的边缘透明度图和预测的最终透明度图;
将预测的最终透明度缩放至待测图像原图大小后与待测图像原图进行逐通道相乘,得到人像前景图。
9.一种基于单阶段多任务协同学习的人像抠图***,其特征在于,包括以下模块:
数据预处理模块,用于获取数据集并对数据集进行预处理,得到训练人像图、对应的透明度图和对应的三元图;
训练模块,用于将训练人像图输入到预构建抠图模型,生成训练的三元图和训练的透明度图;
参数更新模块,用于将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数,得到训练完成的抠图模型;
预测模块,用于获取待测图像并输入到训练完成的抠图模型,得到人像前景图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011393907.0A CN112396598B (zh) | 2020-12-03 | 2020-12-03 | 一种基于单阶段多任务协同学习的人像抠图方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011393907.0A CN112396598B (zh) | 2020-12-03 | 2020-12-03 | 一种基于单阶段多任务协同学习的人像抠图方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112396598A true CN112396598A (zh) | 2021-02-23 |
CN112396598B CN112396598B (zh) | 2023-08-15 |
Family
ID=74605756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011393907.0A Active CN112396598B (zh) | 2020-12-03 | 2020-12-03 | 一种基于单阶段多任务协同学习的人像抠图方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112396598B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408471A (zh) * | 2021-07-02 | 2021-09-17 | 浙江传媒学院 | 一种基于多任务深度学习的无绿幕人像实时抠图算法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447068A (zh) * | 2017-12-22 | 2018-08-24 | 杭州美间科技有限公司 | 三元图自动生成方法及利用该三元图的前景提取方法 |
CN109035253A (zh) * | 2018-07-04 | 2018-12-18 | 长沙全度影像科技有限公司 | 一种语义分割信息指导的深度学习自动图像抠图方法 |
CN110610509A (zh) * | 2019-09-18 | 2019-12-24 | 上海大学 | 可指定类别的优化抠图方法及*** |
CN111161277A (zh) * | 2019-12-12 | 2020-05-15 | 中山大学 | 一种基于深度学习的自然图像抠图方法 |
CN111223106A (zh) * | 2019-10-28 | 2020-06-02 | 稿定(厦门)科技有限公司 | 全自动人像蒙版抠图方法及*** |
CN111815649A (zh) * | 2020-06-30 | 2020-10-23 | 清华大学深圳国际研究生院 | 一种人像抠图方法及计算机可读存储介质 |
-
2020
- 2020-12-03 CN CN202011393907.0A patent/CN112396598B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447068A (zh) * | 2017-12-22 | 2018-08-24 | 杭州美间科技有限公司 | 三元图自动生成方法及利用该三元图的前景提取方法 |
CN109035253A (zh) * | 2018-07-04 | 2018-12-18 | 长沙全度影像科技有限公司 | 一种语义分割信息指导的深度学习自动图像抠图方法 |
CN110610509A (zh) * | 2019-09-18 | 2019-12-24 | 上海大学 | 可指定类别的优化抠图方法及*** |
CN111223106A (zh) * | 2019-10-28 | 2020-06-02 | 稿定(厦门)科技有限公司 | 全自动人像蒙版抠图方法及*** |
CN111161277A (zh) * | 2019-12-12 | 2020-05-15 | 中山大学 | 一种基于深度学习的自然图像抠图方法 |
CN111815649A (zh) * | 2020-06-30 | 2020-10-23 | 清华大学深圳国际研究生院 | 一种人像抠图方法及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408471A (zh) * | 2021-07-02 | 2021-09-17 | 浙江传媒学院 | 一种基于多任务深度学习的无绿幕人像实时抠图算法 |
Also Published As
Publication number | Publication date |
---|---|
CN112396598B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111681252B (zh) | 一种基于多路径注意力融合的医学图像自动分割方法 | |
CN112907530B (zh) | 基于分组反向注意力的伪装物体检测方法及*** | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN111861886B (zh) | 一种基于多尺度反馈网络的图像超分辨率重建方法 | |
CN113870124B (zh) | 基于弱监督的双网络互激励学习阴影去除方法 | |
CN115620010A (zh) | 一种rgb-t双模态特征融合的语义分割方法 | |
CN116524307A (zh) | 一种基于扩散模型的自监督预训练方法 | |
CN118134952B (zh) | 一种基于特征交互的医学图像分割方法 | |
CN111768326A (zh) | 一种基于gan扩增图像前景物体的高容量数据保护方法 | |
CN115063318A (zh) | 自适应频率分解的低光照图像增强方法与相关设备 | |
CN115049921A (zh) | 基于Transformer边界感知的光学遥感图像显著目标检测方法 | |
CN116958827A (zh) | 一种基于深度学习的撂荒区域提取方法 | |
Xu et al. | AutoSegNet: An automated neural network for image segmentation | |
CN116777764A (zh) | 一种基于扩散模型的光学遥感图像去云雾方法及*** | |
CN113920208A (zh) | 图像处理方法及装置、计算机可读存储介质和电子设备 | |
CN113421210B (zh) | 一种基于双目立体视觉的表面点云重建方法 | |
CN117474796B (zh) | 一种图像生成方法、装置、设备及计算机可读存储介质 | |
CN112396598A (zh) | 一种基于单阶段多任务协同学习的人像抠图方法及*** | |
CN117952883A (zh) | 一种基于双边网格和显著性引导的逆光图像增强方法 | |
CN117876679A (zh) | 一种基于卷积神经网络的遥感图像场景分割方法 | |
CN113240581A (zh) | 一种针对未知模糊核的真实世界图像超分辨率方法 | |
CN116778164A (zh) | 一种基于多尺度结构改进DeeplabV3+网络的语义分割方法 | |
CN115578638A (zh) | 一种基于U-Net的多层次特征交互去雾网络的构建方法 | |
CN113256528B (zh) | 基于多尺度级联深度残差网络的低照度视频增强方法 | |
CN115170812A (zh) | 图像去噪模型训练、降噪方法及其设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |