CN116777738A - 基于服装区域对齐和风格保持调制的真实性虚拟试穿方法 - Google Patents
基于服装区域对齐和风格保持调制的真实性虚拟试穿方法 Download PDFInfo
- Publication number
- CN116777738A CN116777738A CN202310901979.9A CN202310901979A CN116777738A CN 116777738 A CN116777738 A CN 116777738A CN 202310901979 A CN202310901979 A CN 202310901979A CN 116777738 A CN116777738 A CN 116777738A
- Authority
- CN
- China
- Prior art keywords
- image
- clothing
- human body
- modulation
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000014759 maintenance of location Effects 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 79
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 12
- 230000008447 perception Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000007670 refining Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 230000000087 stabilizing effect Effects 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 abstract 1
- 229920002449 FKM Polymers 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开基于服装区域对齐和风格保持调制的真实性虚拟试穿方法:对人体图像I和服装图像C进行预处理,得到人体分割图S、掩码M、人体图像I中人物的姿态图P、密集姿态Pd,构建与服装无关的人体表示,得到预处理结果;构建一种基于服装区域对齐和风格保持调制虚拟试穿模型,设计损失函数;使用配对图像训练集和其经步骤一处理的得到的预处理结果对基于服装区域对齐和风格保持调制虚拟试穿模型进行训练,通过反向传播不断优化模型权重;将试穿者的人体图像和试穿者要试穿的服装图像经步骤一得到预处理结果,将得到的预处理结果输入基于服装区域对齐和风格保持调制虚拟试穿模型。解决了应用现有方法生成试穿图片时,所得结果的特征模糊、真实感差的问题。
Description
技术领域
本发明涉及虚拟试穿技术领域,具体涉及一种基于服装区域对齐和风格保持调制的真实性虚拟试穿方法。
背景技术
虚拟试穿技术可以让用户在无需实际接触和更换服装的情况下,查看换装效果。该技术有望在一定程度上解决服装在线营销的试穿问题,由此可以提高消费者的购物体验,降低退货率,降低销售成本,推动服装电子商务行业的发展。通过该技术模拟服装的上身效果也方便服装设计者对服装造型进行快速调整,为时尚领域带来便利。
传统的虚拟试穿方法多数基于三维模型构建,这些方法首先建立人体三维模型,再对服装布料进行建模并渲染到人体三维模型上,展示服装上身后的效果。这些方法虽然可以实现较为精确的物理仿真,在一定程度上模拟服装试穿效果,但需要借助深度相机、三维扫描仪等专用设备或者多角度人体图像重建技术来获得人体三维信息,存在计算量大、模型复杂、建模时间长、易泄露个人隐私等问题,限制了该方法的推广和应用。
随着深度学习技术的发展,基于图像生成的虚拟试穿方法被提出,其利用人体姿态估计、人体解析等信息指导服装的形变以生成试穿结果图像,在图像中实现将目标服装迁移到人体上的虚拟试穿效果。这类方法只需要普通相机拍摄的人体图像与服装图像作为输入,无需使用专用设备来获取人体三维信息、试穿图像生成速度快,适合现有的服装网购等大众消费场景,引起了广泛关注。其中,经典的工作有CP-VTON(Wang B,Zheng H,LiangX,et al.Toward characteristic-preserving image-based virtual try-on network[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:589-604.)、ACGPN(Yang H,Zhang R,Guo X,et al.Towards photo-realistic virtualtry-on by adaptively generating-preserving image content[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).2020:7850-7859.)、HR-VITON(Lee S,Gu G,Park S,et al.High-resolution virtualtry-on with misalignment and occlusion-handled conditions[C]//EuropeanConference on Computer Vision(ECCV).Cham:Springer Nature Switzerland,2022:204-219.)。CP-VTON通过一种几何匹配模块学习TPS(Thin-Plate Spline)变换的参数来变形服装,缓解了服装特征难以被保留的问题。ACGPN根据生成的语义布局确定是否需要生成或保留图像内容,同时在TPS上引入了二阶差分约束使服装变形过程更为合理,提升了虚拟试穿结果的质量。HR-VITON将服装变形和语义布局生成过程结合,取得了较大的突破,得到了较高质量的试穿结果。
然而,现有方法生成的人体分割图和变形后的服装之间存在未对齐区域,试穿结果中,仍存在难以生成清晰的人体特征,不具备真实感等问题。本发明对现有方法进行改进,以求弥补其不足之处。
发明内容
本发明的目的在于提供一种基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,解决应用现有方法生成试穿图片时,所得结果的特征模糊、真实感差的问题。
本发明所采用的技术方案是,基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,具体按照以下步骤实施:
步骤一、对人体图像I和服装图像C进行预处理,得到人体图像I中人物的人体分割图S、服装图像C的掩码M、人体图像I中人物的姿态图P、密集姿态Pd,构建与服装无关的人体表示,得到预处理结果;
步骤二、构建一种基于服装区域对齐和风格保持调制虚拟试穿模型,设计损失函数;
步骤三、使用配对图像训练集和其经步骤一处理的得到的预处理结果对基于服装区域对齐和风格保持调制虚拟试穿模型进行训练,通过反向传播不断优化模型权重;训练完成后,保存最终得到的权重;
步骤四、将试穿者的人体图像和试穿者要试穿的服装图像经步骤一得到预处理结果,将得到的预处理结果输入基于服装区域对齐和风格保持调制虚拟试穿模型,基于训练得到的权重获取具有真实感的试穿图像,由此实现虚拟试穿功能。
本发明的特征还在于,
步骤一具体为:
对于人体图像I与服装图像C,使用人体解析器PGN(Instance-level humanparsing via part grouping network)和姿态估计器OpenPose(Realtime Multi-Person2D Pose Estimation using Part Affinity Fields)得到人体图像I中人物的人体分割图S、服装图像C的掩码M与人体图像I中人物的姿态图P,移除人体分割图S和人体图像I中的服装区域和包含袖长信息的手臂区域,结合人体图像I中人物的姿态图P保留难以被重建的手部区域,得到与服装无关的人体分割图Sa和与服装无关的人体图像Ia,使用密集姿态估计器Densepose(Dense human pose estimation in the wild)得到人体图像I中人物的密集姿态Pd,相较于简洁的姿态图P,密集姿态Pd包含更精准的人体姿态信息,更有助于引导人体图像的生成过程。
步骤二中,基于服装区域对齐和风格保持调制虚拟试穿模型由条件生成器和试穿生成器构成;在条件生成器阶段,将两组信息作为输入,一组是服装图像C及服装图像C的掩码M,另一组是与服装无关的人体分割图Sa和密集姿态PD;输出匹配人体姿态的变形服装Cw及其掩码Mw和生成的目标语义分割图在试穿生成器阶段,输入与服装无关的人体图像Ia、匹配人体姿态的变形服装Cw、密集姿态PD,以及生成的目标语义分割图/>在多级引导下生成最终试穿结果图像/>并将其作为输出。
步骤二中,条件生成器包括有两个编码器E1和E2、多级特征融合模块组成的解码器、条件对齐处理模块;条件生成器阶段的处理过程为:首先通过两个编码器E1和E2分别提取两组信息输入的多级特征,使用编码层的输出特征组成特征金字塔,将两个编码器E1和E2分别得到的最后一级特征和/>在通道上进行拼接,输入卷积层并上采样得到第一级外观流/>将/>通过残差块进行上采样得到初始分割图特征/>将/>作为初始服装特征将第一级外观流/>初始分割图特征/>初始服装特征/>输入到由多级特征融合模块组成的解码器中,实现外观流和分割图特征之间的信息交换,并在多层解码的过程中逐级细化外观流和分割图特征,解码器输出最终的外观流/>和最终的分割图特征/>将/>作为初始的目标分割图/>使用最终的外观流/>得到初始的变形服装Cw,raw与其对应的掩码Mw,raw,将初始的目标分割图/>初始的变形服装Cw,raw与其对应的掩码Mw,raw输入条件对齐处理模块,进行对齐处理,对齐处理包括从初始的目标分割图/>中移除未对齐区域并从初始的变形服装Cw,raw中移除被手臂、头发等在最终试穿图像中会覆盖在服装之上的身体区域;得到匹配人体姿态的变形服装Cw及其掩码Mw和生成的目标语义分割图/>
步骤二中,条件生成器阶段使用的损失函数为具体表达式如下:
其中,分别为L1损失、感知损失、外观流正则化损失、最小二乘对抗损失、标准像素交叉熵损失、服装区域对齐损失;λL1、λVGG、λSM、λcGAN、λCE和λAL分别表示/> 所对应的超参数;分别设为λL1=λCE=λAL=10,λSM=2,λVGG=λcGAN=1;
其中,L1损失及感知损失/>的定义如下:
式中,wi确定每个服装项之间的相对重要性,表示第i级外观流,Sc是人体图像I中服装区域的分割图,Ic是人体图像I中的服装区域,φ计算两个输入经VGG网络得到的特征图之间的差值,/>表示基于第i级外观流/>对服装图像C的掩码M进行变形操作,同理,/>表示基于第i级外观流/>对服装图像C进行变形操作;
外观流正则化损失及最小二乘对抗性损失函数/>的定义如下:
式中,表示第4级也就是最后一级外观流,D表示判别器,X表示生成器的输入;
标准像素交叉熵损失的定义如下:
式中,Hs、Ws和Cs表示人体分割图S的高度、宽度和通道数。Sk,y,x和表示通道k中坐标(x,y)对应的人体分割图S和生成的目标语义分割图/>的像素值;
为服装区域对齐损失,该损失定义为匹配人体姿态的变形服装Cw的掩码Mw和生成的目标语义分割图/>中服装通道/>差值的L1范数,定义如下:
步骤二中,试穿生成器由多组残差块-上采样层结构组成;试穿生成器阶段的处理过程为:将与服装无关的人体图像Ia、匹配人体姿态的变形服装Cw、密集姿态PD作为第一组残差块的输入,这些输入统称为试穿组件;同时,试穿组件调整尺寸与每组残差块-上采样结构的输出的特征图大小相匹配,然后与每组残差块-上采样结构的输出的特征图进行拼接,将拼接结果作为下一层残差块的输入特征图,从而实现在多尺度上细化特征的效果;使用从生成的目标语义分割图中得到的调制参数对输入残差块的特征图进行调制,以对试穿图像生成的过程进行引导;在残差块中,第一组残差块的输入或经过残差块-上采样拼接得到的输入特征图分两路得到处理,主路依次通过两组由SPM调制(即:风格保持调制)、ReLU激活层和卷积层组成的网络层,支路经一组同样的网络层后与主路相加,得到输出特征
步骤二中,使用从生成的目标语义分割图中得到的调制参数对输入残差块的特征图进行SPM调制分为两步,第一步目的是整合上下文风格和语义布局,第二步目的是将融合后的信息注入到特征图;
在调制的第一步中,生成两种参数:四个语义调制参数和两个上下文调制参数;语义调制参数包括和/>两组。上下文调制参数(γc,βc)从原始特征图生成而不经过归一化层,非归一化的特征图可以更多地保留上下文风格,执行第一次调制以生成融合调制参数γf和βf:
针对第i层特征图Fi,第一次调制以生成融合调制参数γf和βf:
在调制的第二步中,使用融合调制参数来调制经归一化得到的特征图得到调制后的特征/>
步骤二中,试穿生成器阶段的损失函数设计为具体表达式是如下:
其中,分别为试穿图像感知损失、对抗损失、特征匹配损失;和/>表示/>所对应的超参数;分别设为/>
试穿图像感知损失在生成的试穿结果/>与人体图像I之间特征层面的相似性进行约束,试穿图像感知损失/>的表达式为:
其中,V是VGG网络中使用的层数,V(i)和Ri分别是VGG网络中第i层得到的特征图和元素数;
对抗损失与特征匹配损失/>用于在多个尺度上生成符合实际的数据并稳定训练过程,对抗损失/>与特征匹配损失/>的表达式如下:
其中,DI为鉴别器,TI是鉴别器DI中的层数,和Ki分别为鉴别器DI中第i层的激活函数和元素数。
步骤三中,配对图像训练集由多张人物图像及其所穿的对应服装图像组成,在训练过程中,使用此类图像对及其经步骤一得到的预处理结果;通过预处理得到与服装无关的人体表示可以避免模型的泛化性受到影响;
步骤三中,在训练过程中,使用Adam优化器在反向传播过程中优化参数;条件生成器训练150000代,试穿生成器训练100000代。
本发明的有益效果是:
本发明方法提出了一种新的基于高分辨率图像的虚拟试穿模型,能够生成具有真实感的试穿结果。具体的说,本发明方法通过服装区域对齐损失的设置实现生成分割图和服装形状的对齐,与上下文风格保持的试穿生成器共同作用,使得本发明可以生成具有更多的真实感细节的结果,人体特征清晰可见,皮肤与服装边界清晰。通过在VITON-HD数据集上进行的广泛实验中进行评估,证明了本发明的有效性。
附图说明
图1为本发明方法的流程图;
图2为本发明中预处理操作的过程;
图3为本发明所构建的基于服装区域对齐和风格保持调制虚拟试穿模型结构图;
图4为本发明方法中试穿生成器中风格保持的残差块结构图;
图5为本发明方法中试穿生成器中风格保持的残差块中风格保持调制SPM的结构图,两个虚线框标出了两个调制阶段;
图6为本发明方法应用于虚拟试衣场景时的流程图;
图7为第一位试穿者试穿一件上衣时,本发明与目前的先进方法HR-VITON的试穿结果对比图;
图8为第二位试穿者试穿一件上衣时,本发明与目前的先进方法HR-VITON的试穿结果对比图;
图9为第三位试穿者试穿一件上衣时,本发明与目前的先进方法HR-VITON的试穿结果对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供一种基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,如图1-6所示,具体按照以下步骤实施:
步骤一、对人体图像I和服装图像C进行预处理,得到人体图像I中人物的人体分割图S、服装图像C的掩码M、人体图像I中人物的姿态图P、密集姿态Pd,构建与服装无关的人体表示,得到预处理结果;
步骤一具体为,对于人体图像I与服装图像C,使用人体解析器PGN(Instance-level human parsing via part grouping network)和姿态估计器OpenPose(RealtimeMulti-Person 2D Pose Estimation using Part Affinity Fields)得到人体图像I中人物的人体分割图S、服装图像C的掩码M与人体图像I中人物的姿态图P,移除人体分割图S和人体图像I中的服装区域和包含袖长信息的手臂区域,结合人体图像I中人物的姿态图P保留难以被重建的手部区域,得到与服装无关的人体分割图Sa和与服装无关的人体图像Ia。使用密集姿态估计器Densepose(Dense human pose estimation in the wild)得到人体图像I中人物的密集姿态Pd,相较于简洁的姿态图P,密集姿态Pd包含更精准的人体姿态信息,更有助于引导人体图像的生成过程。
步骤二、构建一种基于服装区域对齐和风格保持调制虚拟试穿模型,设计损失函数;
步骤二中,基于服装区域对齐和风格保持调制虚拟试穿模型由条件生成器和试穿生成器构成;在条件生成器阶段,将两组信息作为输入,一组是服装图像C及服装图像C的掩码M,另一组是与服装无关的人体分割图Sa和密集姿态PD。输出匹配人体姿态的变形服装Cw及其掩码Mw和生成的目标语义分割图在试穿生成器阶段,输入与服装无关的人体图像Ia、匹配人体姿态的变形服装Cw、密集姿态PD,以及生成的目标语义分割图/>在多级引导下生成最终试穿结果图像/>并将其作为输出。
条件生成器包括有两个编码器E1和E2、多级特征融合模块组成的解码器、条件对齐处理模块。条件生成器阶段的处理过程为:首先通过两个编码器E1和E2分别提取两组信息输入的多级特征,使用编码层的输出特征组成特征金字塔,将两个编码器E1和E2分别得到的最后一级特征和/>在通道上进行拼接,输入卷积层并上采样得到第一级外观流/>将/>通过残差块进行上采样得到初始分割图特征/>将/>作为初始服装特征/>将第一级外观流/>初始分割图特征/>初始服装特征/>输入到由多级特征融合模块组成的解码器中,实现外观流和分割图特征之间的信息交换,并在多层解码的过程中逐级细化外观流和分割图特征,解码器输出最终的外观流/>和最终的分割图特征/>将/>作为初始的目标分割图/>使用最终的外观流/>得到初始的变形服装Cw,raw与其对应的掩码Mw,raw,将初始的目标分割图/>初始的变形服装Cw,raw与其对应的掩码Mw,raw输入条件对齐处理模块,进行对齐处理,对齐处理包括从初始的目标分割图/>中移除未对齐区域并从初始的变形服装Cw,raw中移除被手臂、头发等在最终试穿图像中会覆盖在服装之上的身体区域;得到匹配人体姿态的变形服装Cw及其掩码Mw和生成的目标语义分割图/>条件生成器阶段使用的损失函数为/>具体表达式如下:
其中,分别为L1损失、感知损失、外观流正则化损失、最小二乘对抗损失、标准像素交叉熵损失、服装区域对齐损失;λL1、λVGG、λSM、λcGAN、λCE和λAL分别表示/>所对应的超参数;分别设为λL1=λCE=λAL=10,λSM=2,λVGG=λcGAN=1。
L1损失函数和感知损失函数/>鼓励服装变形过程得到更贴合人物的姿态且保持服装特征的结果。其中,L1损失/>及感知损失/>的定义如下:
其中,wi确定每个服装项之间的相对重要性,表示第i级外观流,Sc是人体图像I中服装区域的分割图,Ic是人体图像I中的服装区域,φ计算两个输入经VGG网络得到的特征图之间的差值,/>表示基于第i级外观流/>对服装图像C的掩码M进行变形操作,同理,/>表示基于第i级外观流/>对服装图像C进行变形操作。
外观流正则化损失函数使外观流被强制平滑,最小二乘对抗性损失函数/>用于生成更贴合实际的分割图,相比原始GAN损失,最小二乘对抗性损失有助于生成高质量的结果。这两个损失函数的定义如下:
其中,表示第4级也就是最后一级外观流,D表示判别器,X表示生成器的输入。
标准像素交叉熵损失用于提升分割图生成的质量,定义如下:
其中,Hs、Ws和Cs表示人体分割图S的高度、宽度和通道数。Sk,y,x和表示通道k中坐标(x,y)对应的人体分割图S和生成的目标语义分割图/>的像素值。
为本发明设计的服装区域对齐损失。该损失定义为匹配人体姿态的变形服装Cw的掩码Mw和生成的目标语义分割图/>中服装通道/>差值的L1范数,定义如下:
用于对匹配人体姿态的变形服装Cw的掩码Mw和生成的目标语义分割图/>中服装通道/>之间的差距进行约束,从而最小化服装未对齐区域的产生,减轻未对齐区域导致的皮肤与服装边界混乱融合的问题。同时减轻模型使用配对图像训练时出现过拟合导致分割图被错误生成的问题。
试穿生成器由多组残差块-上采样层结构组成。试穿生成器阶段的处理过程为:将与服装无关的人体图像Ia、匹配人体姿态的变形服装Cw、密集姿态PD作为第一组残差块的输入,这些输入统称为试穿组件;同时,试穿组件调整尺寸与每组残差块-上采样结构的输出的特征图大小相匹配,然后与每组残差块-上采样结构的输出的特征图进行拼接,将拼接结果作为下一层残差块的输入特征图,从而实现在多尺度上细化特征的效果;使用从生成的目标语义分割图中得到的调制参数对输入残差块的特征图进行调制,以对试穿图像生成的过程进行引导。本发明基于风格保持调制(Style-Preserved Modulation,SPM)构建风格保持的残差块,在残差块中,第一组残差块的输入或经过残差块-上采样拼接得到的输入特征图(见图4中的输入特征图Fi)分两路得到处理,主路依次通过两组由SPM调制、ReLU激活层和卷积层组成的网络层,支路经一组同样的网络层后与主路相加,得到输出特征(见图4中输出特征Fo)。SPM调制分为两步,第一步目的是整合上下文风格和语义布局,第二步目的是将融合后的信息注入到特征图。
在调制的第一步中,生成两种参数:四个语义调制参数和两个上下文调制参数。语义调制参数包括和/>两组。上下文调制参数(γc,βc)从原始特征图生成而不经过归一化层,非归一化的特征图可以更多地保留上下文风格,执行第一次调制以生成融合调制参数γf和βf:
针对第i层特征图Fi,第一次调制以生成融合调制参数γf和βf:
在调制的第二步中,使用融合调制参数来调制经归一化得到的特征图得到调制后的特征/>
试穿生成器阶段的损失函数设计为具体表达式是如下:
其中,分别为试穿图像感知损失、对抗损失、特征匹配损失。和/>表示/>所对应的超参数。分别设为/>
试穿图像感知损失在生成的试穿结果/>与人体图像I之间特征层面的相似性进行约束,鼓励生成器得到在语义方面接近真实的试穿结果。试穿图像感知损失/>的表达式为:
其中,V是VGG网络中使用的层数,V(i)和Ri分别是VGG网络中第i层得到的特征图和元素数。
对抗损失与特征匹配损失/>用于在多个尺度上生成符合实际的数据并稳定训练过程,对抗损失/>与特征匹配损失/>的表达式如下:
其中,DI为鉴别器,TI是鉴别器DI中的层数,和Ki分别为鉴别器DI中第i层的激活函数和元素数。
步骤三、使用配对图像训练集和其经步骤一处理的得到的预处理结果对基于服装区域对齐和风格保持调制虚拟试穿模型进行训练,通过反向传播不断优化模型权重。训练完成后,保存最终得到的权重。
步骤三中,配对图像训练集由多张人物图像及其所穿的对应服装图像组成,在训练过程中,使用此类图像对及其经步骤一得到的预处理结果。通过预处理得到与服装无关的人体表示可以避免模型的泛化性受到影响。在训练过程中,使用Adam优化器在反向传播过程中优化参数。条件生成器训练150000代,试穿生成器训练100000代。
步骤四、将试穿者的人体图像和试穿者要试穿的服装图像经步骤一得到预处理结果,将得到的预处理结果输入基于服装区域对齐和风格保持调制虚拟试穿模型,基于训练得到的权重获取具有真实感的试穿图像,由此实现虚拟试穿功能。
步骤四中,将试穿者的人体图像和要试穿服装的图像经步骤一预处理,输入模型即可得到试穿结果图像。
实施例1
案例分析与方法验证
为了验证本发明的有效性,本发明在PyTorch环境下编程实现,使用单个NVIDIATesla V100 32GB GPU对模型进行训练。数据集采用高分辨率虚拟试穿数据集VITON-HD。该数据集包含13,679对正面女性及其所穿上衣的图像,图像的分辨率为1024×768像素。这些图像对被划分为训练集和测试集,其中训练集包含11,647对,测试集包含2,032对。第一阶段生成器的学习率设为0.0002,鉴别器的学习率设为0.0002。第二阶段生成器的学习率设为0.0001,鉴别器的学习率设为0.0004。第一阶段batch设为8,训练150000代,第二阶段batch设为2,训练100000代,学习率在80000代后逐渐衰减。通过计算结构相似度SSIM(Structural SIMilarity)、感知相似度LPIPS(Learned Perceptual Image PatchSimilarity)、弗雷切特起始距离FID(Frechet Inception Distance)、内核起始距离KID(Kernel Inception Distance)、起始分数IS(Inception Score)指标进行定量比较验证,本发明在所有的指标上都优于先进方法。证明本发明在虚拟试穿任务上得到了更接近真实情况的试穿结果。
对比结果如表1所示。
表1结果对比表
在虚拟试穿任务上的应用结果如图7-9所示。
图7为第一位试穿者试穿一件上衣时,本发明与目前的先进方法HR-VITON的试穿结果对比图。其中包含该试穿者的人体图像、试穿服装的图像、HR-VITON方法试穿图像、本文方法试穿图像。虚线框标注出了HR-VITON方法得到的不自然区域,包括错误生成的手臂区域、不自然的领口边界。本发明得到了更具真实感的试穿结果。
图8为第二位试穿者试穿一件上衣时,本发明与目前的先进方法HR-VITON的试穿结果对比图。其中包含该试穿者的人体图像、试穿服装的图像、HR-VITON方法试穿图像、本文方法试穿图像。虚线框标注出了HR-VITON方法得到的不自然区域,包括混乱融合的皮肤与领口边界、服装在肩部与手肘处没有自然的褶皱或堆叠。本发明得到了更具真实感的试穿结果。
图9为第三位试穿者试穿一件上衣时,本发明与目前的先进方法HR-VITON的试穿结果对比图。其中包含该试穿者的人体图像、试穿服装的图像、HR-VITON方法试穿图像、本文方法试穿图像。虚线框标注出了HR-VITON方法得到的不自然区域,包括模糊的人体颈部特征。本发明得到了更具真实感的试穿结果。
在本发明方法中,生成了令人信服的试穿结果。在皮肤区域的生成、领口的呈现及服装穿着细节等方面得到了更为真实自然的结果,这得益于服装区域对齐损失与上下文风格保持生成器的设计。总而言之,本发明得到了皮肤与服装边界清晰、具备真实感的真实试穿图像,证明本发明方法可用。
实施例2
基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,具体按照以下步骤实施:
步骤一、对人体图像I和服装图像C进行预处理,得到人体图像I中人物的人体分割图S、服装图像C的掩码M、人体图像I中人物的姿态图P、密集姿态Pd,构建与服装无关的人体表示,得到预处理结果;
步骤二、构建一种基于服装区域对齐和风格保持调制虚拟试穿模型,设计损失函数;
步骤三、使用配对图像训练集和其经步骤一处理的得到的预处理结果对基于服装区域对齐和风格保持调制虚拟试穿模型进行训练,通过反向传播不断优化模型权重;训练完成后,保存最终得到的权重;
步骤四、将试穿者的人体图像和试穿者要试穿的服装图像经步骤一得到预处理结果,将得到的预处理结果输入基于服装区域对齐和风格保持调制虚拟试穿模型,基于训练得到的权重获取具有真实感的试穿图像,由此实现虚拟试穿功能。
实施例3
基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,具体按照以下步骤实施:
步骤一、对人体图像I和服装图像C进行预处理,得到人体图像I中人物的人体分割图S、服装图像C的掩码M、人体图像I中人物的姿态图P、密集姿态Pd,构建与服装无关的人体表示,得到预处理结果;
步骤二、构建一种基于服装区域对齐和风格保持调制虚拟试穿模型,设计损失函数;
步骤三、使用配对图像训练集和其经步骤一处理的得到的预处理结果对基于服装区域对齐和风格保持调制虚拟试穿模型进行训练,通过反向传播不断优化模型权重;训练完成后,保存最终得到的权重;
步骤四、将试穿者的人体图像和试穿者要试穿的服装图像经步骤一得到预处理结果,将得到的预处理结果输入基于服装区域对齐和风格保持调制虚拟试穿模型,基于训练得到的权重获取具有真实感的试穿图像,由此实现虚拟试穿功能。
步骤一具体为:
对于人体图像I与服装图像C,使用人体解析器PGN和姿态估计器OpenPose得到人体图像I中人物的人体分割图S、服装图像C的掩码M与人体图像I中人物的姿态图P,移除人体分割图S和人体图像I中的服装区域和包含袖长信息的手臂区域,结合人体图像I中人物的姿态图P保留难以被重建的手部区域,得到与服装无关的人体分割图Sa和与服装无关的人体图像Ia,使用密集姿态估计器Densepose得到人体图像I中人物的密集姿态Pd,相较于简洁的姿态图P,密集姿态Pd包含更精准的人体姿态信息,更有助于引导人体图像的生成过程。
Claims (10)
1.基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,其特征在于,具体为:步骤一、对人体图像I和服装图像C进行预处理,得到人体图像I中人物的人体分割图S、服装图像C的掩码M、人体图像I中人物的姿态图P、密集姿态Pd,得预处理结果;步骤二、构建基于服装区域对齐和风格保持调制虚拟试穿模型,设计损失函数;步骤三、使用配对图像训练集和其经步骤一处理得到的预处理结果对基于服装区域对齐和风格保持调制虚拟试穿模型进行训练,通过反向传播不断优化模型权重;训练完成后,保存最终得到的权重;步骤四、将试穿者的人体图像和试穿者要试穿的服装图像经步骤一得到预处理结果,将得到的预处理结果输入基于服装区域对齐和风格保持调制虚拟试穿模型,基于训练得到的权重获取具有真实感的试穿图像。
2.根据权利要求1所述的基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,其特征在于,步骤一具体为:
对于人体图像I与服装图像C,使用人体解析器PGN和姿态估计器OpenPose得到人体图像I中人物的人体分割图S、服装图像C的掩码M与人体图像I中人物的姿态图P,移除人体分割图S和人体图像I中的服装区域和包含袖长信息的手臂区域,结合人体图像I中人物的姿态图P保留难以被重建的手部区域,得到与服装无关的人体分割图Sa和与服装无关的人体图像Ia,使用密集姿态估计器Densepose得到人体图像I中人物的密集姿态Pd,相较于简洁的姿态图P,密集姿态Pd包含更精准的人体姿态信息,更有助于引导人体图像的生成过程。
3.根据权利要求1所述的基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,其特征在于,步骤二中,基于服装区域对齐和风格保持调制虚拟试穿模型由条件生成器和试穿生成器构成;在条件生成器阶段,将两组信息作为输入,一组是服装图像C及服装图像C的掩码M,另一组是与服装无关的人体分割图Sa和密集姿态PD;输出匹配人体姿态的变形服装Cw及其掩码Mw和生成的目标语义分割图在试穿生成器阶段,输入与服装无关的人体图像Ia、匹配人体姿态的变形服装Cw、密集姿态PD,以及生成的目标语义分割图/>在多级引导下生成最终试穿结果图像/>并将其作为输出。
4.根据权利要求3所述的基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,其特征在于,步骤二中,条件生成器包括有两个编码器E1和E2、多级特征融合模块组成的解码器、条件对齐处理模块;条件生成器阶段的处理过程为:首先通过两个编码器E1和E2分别提取两组信息输入的多级特征,使用编码层的输出特征组成特征金字塔,将两个编码器E1和E2分别得到的最后一级特征和/>在通道上进行拼接,输入卷积层并上采样得到第一级外观流/>将/>通过残差块进行上采样得到初始分割图特征/>将/>作为初始服装特征/>将第一级外观流/>初始分割图特征/>初始服装特征/>输入到由多级特征融合模块组成的解码器中,实现外观流和分割图特征之间的信息交换,并在多层解码的过程中逐级细化外观流和分割图特征,解码器输出最终的外观流/>和最终的分割图特征/>将/>作为初始的目标分割图/>使用最终的外观流/>得到初始的变形服装Cw,raw与其对应的掩码Mw,raw,将初始的目标分割图/>初始的变形服装Cw,raw与其对应的掩码Mw,raw输入条件对齐处理模块,进行对齐处理,对齐处理包括从初始的目标分割图/>中移除未对齐区域并从初始的变形服装Cw,raw中移除被手臂、头发等在最终试穿图像中会覆盖在服装之上的身体区域;得到匹配人体姿态的变形服装Cw及其掩码Mw和生成的目标语义分割图/>
5.根据权利要求4所述的基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,其特征在于,步骤二中,条件生成器阶段使用的损失函数为具体表达式如下:
其中,分别为L1损失、感知损失、外观流正则化损失、最小二乘对抗损失、标准像素交叉熵损失、服装区域对齐损失;λL1、λVGG、λSM、λcGAN、λCE和λAL分别表示/>所对应的超参数;分别设为λL1=λCE=λAL=10,λSM=2,λVGG=λcGAN=1;
其中,L1损失及感知损失/>的定义如下:
式中,wi确定每个服装项之间的相对重要性,表示第i级外观流,Sc是人体图像I中服装区域的分割图,Ic是人体图像I中的服装区域,φ计算两个输入经VGG网络得到的特征图之间的差值,/>表示基于第i级外观流/>对服装图像C的掩码M进行变形操作,同理,/>表示基于第i级外观流/>对服装图像C进行变形操作;
外观流正则化损失及最小二乘对抗性损失函数/>的定义如下:
式中,表示第4级也就是最后一级外观流,D表示判别器,X表示生成器的输入;
标准像素交叉熵损失的定义如下:
式中,Hs、Ws和Cs表示人体分割图S的高度、宽度和通道数;Sk,y,x和表示通道k中坐标(x,y)对应的人体分割图S和生成的目标语义分割图/>的像素值;
为服装区域对齐损失,该损失定义为匹配人体姿态的变形服装Cw的掩码Mw和生成的目标语义分割图/>中服装通道/>差值的L1范数,定义如下:
6.根据权利要求3所述的基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,其特征在于,步骤二中,试穿生成器由多组残差块-上采样层结构组成;试穿生成器阶段的处理过程为:将与服装无关的人体图像Ia、匹配人体姿态的变形服装Cw、密集姿态PD作为第一组残差块的输入,这些输入统称为试穿组件;同时,试穿组件调整尺寸与每组残差块-上采样结构的输出的特征图大小相匹配,然后与每组残差块-上采样结构的输出的特征图进行拼接,将拼接结果作为下一层残差块的输入特征图,从而实现在多尺度上细化特征的效果;使用从生成的目标语义分割图中得到的调制参数对输入残差块的特征图进行调制,以对试穿图像生成的过程进行引导;在残差块中,第一组残差块的输入或经过残差块-上采样拼接得到的输入特征图分两路得到处理,主路依次通过两组由SPM调制、ReLU激活层和卷积层组成的网络层,支路经一组同样的网络层后与主路相加,得到输出特征。
7.根据权利要求6所述的基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,其特征在于,步骤二中,所述使用从生成的目标语义分割图中得到的调制参数对输入残差块的特征图进行SPM调制分为两步,第一步目的是整合上下文风格和语义布局,第二步目的是将融合后的信息注入到特征图;
在调制的第一步中,生成两种参数:四个语义调制参数和两个上下文调制参数;语义调制参数包括和/>两组;上下文调制参数(γc,βc)从原始特征图生成而不经过归一化层,非归一化的特征图可以更多地保留上下文风格,执行第一次调制以生成融合调制参数γf和βf:
针对第i层特征图Fi,第一次调制以生成融合调制参数γf和βf:
在调制的第二步中,使用融合调制参数来调制经归一化得到的特征图Fi,得到调制后的特征
8.根据权利要求6所述的基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,其特征在于,步骤二中,试穿生成器阶段的损失函数设计为具体表达式:
其中,分别为试穿图像感知损失、对抗损失、特征匹配损失;/>和/>表示/>损失函数所对应的超参数;分别设为/>
试穿图像感知损失在生成的试穿结果/>与人体图像I之间特征层面的相似性进行约束,试穿图像感知损失/>的表达式为:
其中,V是VGG网络中使用的层数,V(i)和Ri分别是VGG网络中第i层得到的特征图和元素数;
对抗损失与特征匹配损失/>用于在多个尺度上生成符合实际的数据并稳定训练过程,对抗损失/>与特征匹配损失/>的表达式如下:
其中,DI为鉴别器,TI是鉴别器DI中的层数,和Ki分别为鉴别器DI中第i层的激活函数和元素数。
9.根据权利要求6所述的基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,其特征在于,步骤三中,配对图像训练集由多张人物图像及其所穿的对应服装图像组成,在训练过程中,使用此类图像对及其经步骤一得到的预处理结果;通过预处理得到与服装无关的人体表示可以避免模型的泛化性受到影响。
10.根据权利要求9所述的基于服装区域对齐和风格保持调制的真实性虚拟试穿方法,其特征在于,步骤三中,在训练过程中,使用Adam优化器在反向传播过程中优化参数;条件生成器训练150000代,试穿生成器训练100000代。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310901979.9A CN116777738A (zh) | 2023-07-21 | 2023-07-21 | 基于服装区域对齐和风格保持调制的真实性虚拟试穿方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310901979.9A CN116777738A (zh) | 2023-07-21 | 2023-07-21 | 基于服装区域对齐和风格保持调制的真实性虚拟试穿方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116777738A true CN116777738A (zh) | 2023-09-19 |
Family
ID=87991447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310901979.9A Pending CN116777738A (zh) | 2023-07-21 | 2023-07-21 | 基于服装区域对齐和风格保持调制的真实性虚拟试穿方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116777738A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649463A (zh) * | 2023-10-27 | 2024-03-05 | 武汉纺织大学 | 基于扩散模型的试穿图像生成方法、装置、设备及介质 |
-
2023
- 2023-07-21 CN CN202310901979.9A patent/CN116777738A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649463A (zh) * | 2023-10-27 | 2024-03-05 | 武汉纺织大学 | 基于扩散模型的试穿图像生成方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Nerf-art: Text-driven neural radiance fields stylization | |
Chan et al. | Efficient geometry-aware 3d generative adversarial networks | |
Tang et al. | Make-it-3d: High-fidelity 3d creation from a single image with diffusion prior | |
Park et al. | Semantic image synthesis with spatially-adaptive normalization | |
Gu et al. | Nerfdiff: Single-image view synthesis with nerf-guided distillation from 3d-aware diffusion | |
CN109255831B (zh) | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 | |
CN111275518A (zh) | 一种基于混合光流的视频虚拟试穿方法及装置 | |
Jang et al. | Stylecarigan: caricature generation via stylegan feature map modulation | |
Zheng et al. | Avatarrex: Real-time expressive full-body avatars | |
CN113393550B (zh) | 一种姿态和纹理引导的时尚服装设计合成方法 | |
Liu et al. | Psgan++: Robust detail-preserving makeup transfer and removal | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
CN113724354B (zh) | 基于参考图颜色风格的灰度图像着色方法 | |
CN113362422B (zh) | 一种阴影鲁棒的基于解耦表示的妆容迁移***及方法 | |
Zhang et al. | Data-driven flower petal modeling with botany priors | |
CN116777738A (zh) | 基于服装区域对齐和风格保持调制的真实性虚拟试穿方法 | |
CN116416376A (zh) | 一种三维头发的重建方法、***、电子设备及存储介质 | |
Xu et al. | Efficient 3d articulated human generation with layered surface volumes | |
Purushwalkam et al. | Conrad: Image constrained radiance fields for 3d generation from a single image | |
CN115482557B (zh) | 人体图像生成方法、***、设备及存储介质 | |
CN116168186A (zh) | 一种服装长度可控的虚拟试衣图生成方法 | |
Guénard et al. | Reconstructing plants in 3D from a single image using analysis-by-synthesis | |
Jeong et al. | 3d scene painting via semantic image synthesis | |
Nguyen-Ngoc et al. | DM-VTON: Distilled mobile real-time virtual try-on | |
Kuo et al. | Generating ambiguous figure-ground images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |