CN117593178A

CN117593178A - 一种基于特征引导的虚拟试衣方法

Info

Publication number: CN117593178A
Application number: CN202311620716.7A
Authority: CN
Inventors: 陈宏才; 谭台哲
Original assignee: Heyuan Bay District Digital Economy And Technology Innovation Center; Guangdong University of Technology
Current assignee: Heyuan Bay District Digital Economy And Technology Innovation Center; Guangdong University of Technology
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-02-23

Abstract

本发明公开了一种基于特征引导的虚拟试衣方法，涉及计算机视觉模拟领域。所述方法包括：接收人体解析模型、目标服装图像和模特无服装轮廓图像；对人体解析模型和目标服装图像进行特征提取和融合，得到变换参数；利用TPS算法得到变形服装图像和变形服装掩码；对模特无服装轮廓图像进行像素解缩后进行多维度特征提取，得到用于特征引导的多维度轮廓特征；对人体解析模型、变形服装图像、变形服装掩码与多维度轮廓特征进行特征信息交互融合，得到合成掩码和渲染后人体模型；根据合成掩码、渲染后人体模型和变形服装图像，生成虚拟试衣图像。相较于现有技术，本发明可有效引导生成更加精细、逼真的试衣效果，提升虚拟试衣技术的性能与实用性。

Description

一种基于特征引导的虚拟试衣方法

技术领域

本发明涉及计算机视觉模拟技术领域，更具体地，涉及一种基于特征引导的虚拟试衣方法。

背景技术

传统的试衣过程通常需要用户实际穿着服装，以便在实体商店或专卖店中选择适合的款式和尺寸，然而，这种方式存在着一些不便利性，如时间成本高、试衣间等设施限制等问题。

虚拟试衣技术的出现解决了上述问题，虚拟试衣技术是一种基于计算机视觉和图像处理的创新，将用户的身体特征与目标服装图像结合起来，实现了将服装数字化地"穿"在用户身上，旨在通过数字技术使用户能够在虚拟环境中尝试不同款式和尺寸的服装，以便更好地了解其在真实世界中的穿着效果，其在在线购物、时尚设计以及定制服装等领域具有广泛的应用前景。

当前的基于图像虚拟试衣技术主要采用了两阶段方法，通常包括几何匹配阶段和图像合成阶段。在几何匹配阶段，目标服装被与输入图像中的人的姿势相匹配，以在最终试穿结果中估计目标服装的大致位置和形状；在图像合成阶段，采用如GAN(生成对抗网络)等生成模型来合成最终的试穿图像。但其存在精细度不足的问题，使得生成图像存在伪影，特别是在手臂遮挡服装或模特摆出复杂动作时——当模特采取类似动作时，神经网络模型难以准确地区分服装与手臂，导致生成的手臂部分容易出现伪影。

发明内容

本发明为克服上述现有技术所述的精细度不足的缺陷，提供一种基于特征引导的虚拟试衣方法。

为解决上述技术问题，本发明的技术方案如下：

第一方面，一种基于特征引导的虚拟试衣方法，包括：

接收人体解析模型、目标服装图像和模特无服装轮廓图像；

基于CP-VTON+框架，对所述人体解析模型和所述目标服装图像分别进行特征提取和融合，得到变换参数；

根据所述变换参数和所述目标服装图像，利用TPS算法得到变形服装图像和变形服装掩码；

对所述模特无服装轮廓图像进行像素解缩后，再进行多维度特征提取，得到用于特征引导的多维度轮廓特征；

对所述人体解析模型、所述变形服装图像、所述变形服装掩码与所述多维度轮廓特征进行特征信息交互融合，得到合成掩码和渲染后人体模型；

根据所述合成掩码、所述渲染后人体模型和所述变形服装图像，生成虚拟试衣图像。

第二方面，一种计算机可读存储介质，所述存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现第一方面所述方法。

第三方面，一种电子设备，包括存储器和处理器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述处理器执行所述至少一条指令、至少一段程序、代码集或指令集时实现第一方面所述方法。

与现有技术相比，本发明技术方案的有益效果是：

本发明对传统的CP-VTON+框架进行改进，引入了特征引导方法，通过对模特无服装轮廓图像进行像素解缩及多维度特征提取，获得多维度轮廓特征并将其与人体解析模型、变形服装图像、变形服装掩码进行特征信息交互，有效的引导生成更加精细、逼真的试衣效果，显著提升虚拟试衣技术的性能与实用性。

附图说明

图1为本发明实施例1一种基于特征引导的虚拟试衣方法的流程示意图；

图2为本发明实施例1中网络模型训练的流程示意图；

图3为本发明实施例1中特征引导模块的结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

为便于本领域技术人员实施本发明实施例，对实施例中涉及的部分概念说明如下：

1.CP-VTON+

2018年，Han等人提出了VITON，不依托于任何三维信息进行服装迁移。VITON先使用多任务编码器解码器网络合成粗糙的人物图像，并根据基于形状上下文匹配TPS变换进行服装变形，最后通过细化网络得到服装迁移结果。但是VITON网络也有一些局限性，如基于TPS变换的形状匹配需要花费大量时间、预测掩码的效果容易影响TPS变换参数、难以充分捕捉目标服装的细节特征等。

2018年，Wang等人在VITON的基础上，提出了CPVTON。CPVTON包含几何匹配模块和试穿模块。几何匹配模块使用卷积神经网络直接学***滑度。相较于VITON，CP VTON生成的图像更自然且性能更好。随后，Minar等人提出了CP VTON+，在CPVTON的基础上改进了几何匹配模块和试穿模块，进一步提升了性能。

2.人体解析模型

人体解析模型的目的是消除旧服装的影响，如颜色、纹理和形状，同时尽可能保留输入人物的信息，包括人物的面部、头发、身体形状和姿势；其通常包含三个组件：

(1)姿势热图：一个包含18个通道的特征图，每个通道对应一个人体姿势关键点，绘制为一个11×11的白色矩形；

(2)身体形状：一个包含1个通道的特征图，是一个模糊的二值掩码，大致覆盖了人体不同部位；

(3)保留区域：一个RGB图像，包含保留的区域，用于保持人物的身份，包括面部和头发。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提出一种基于特征引导的虚拟试衣方法，参阅图1，包括：

接收人体解析模型、目标服装图像和模特无服装轮廓图像；

基于CP-VTON+(Clothing Shape and Texture Preserving Image-BasedVirtual Try-On，基于图像的特征保留虚拟试衣网络)框架，对所述人体解析模型和所述目标服装图像分别进行特征提取和融合，得到变换参数；

根据所述变换参数和所述目标服装图像，利用TPS(Thin-Plate Spline，薄板样条变换)算法得到变形服装图像和变形服装掩码；

相较于现有技术通过增加模型规模以提升生成结果质量，本实施例在不引入过多额外计算量的前提下，通过特征引导的方式，获得更加精细、真实的试穿效果，特别是在处理复杂手部动作时，取得了显著的优势，在提升精细度的同时减轻了计算负担，节省了计算资源。

需要说明的是，CP-VTON+框架主要分为两个阶段，分别是几何匹配阶段和试穿阶段。其中，几何匹配阶段的目的是获取变形后服装的形状信息(即变形服装图像和变形服装掩码)，通过进行特征提取，根据提取到的特征进行相关性匹配，进而获取TPS算法所需参数，从而对目标服装进行变形；试穿阶段则是将目标服装与人体进行融合，生成最终的试衣结果(即虚拟试衣图像)。

此外，该实施例中，借助像素解缩技术，将该模特无服装轮廓图像的每个像素进一步分解成多个子像素，从而显著提升了图像的精细程度，使得所获得的多维度轮廓特征更为细致。

本领域技术人员应当理解，模特无服装轮廓图像为服装模特未着目标服装时的人体轮廓图像；变形服装图像为目标服装经过变形后生成的相关图像。

在一优选实施例中，所述对所述人体解析模型和所述目标服装图像分别进行特征提取和融合，包括：

对所述人体解析模型和所述目标服装图像分别进行下采样，得到对应的高维特征；

通过矩阵乘法将两组高维特征进行相关性匹配，并将经过相关性匹配的高维特征输入回归网络中，得到用于TPS算法的变换参数。

在一可选实施例中，所述回归网络的训练过程，参阅图2，包括：

接收训练用人体解析模型、训练用服装图像和训练用模特服装真实上身掩码；

对所述训练用人体解析模型和所述训练用服装图像分别进行特征提取和融合，得到训练用变换参数；

根据所述训练用变换参数和所述训练用服装图像，利用TPS算法得到训练用变形服装掩码；

根据所述训练用变形服装掩码与所述训练用模特服装真实上身掩码，计算第一损失函数；所述第一损失函数基于L1损失构建并添加有正则项；

根据所述第一损失函数经反向传播，迭代更新所述回归网络。

需要说明的是，由于几何匹配阶段仅需要获取变形后的服装形状信息，因此该可选实施例主要是对几何匹配阶段应用的模型进行训练，计算服装边缘处的损失(采用L1损失)，无需考虑服装纹理的影响。同时，为防止变形后的服装严重失真，添加了正则项损失L_正则化。

在一优选实施例中，所述对所述模特无服装轮廓图像进行像素解缩后，再进行多维度特征提取，参阅图3，包括：

将所述模特无服装轮廓图像的每个像素进行像素解缩，得到精细轮廓图像；

将所述精细轮廓图像依次通过若干组特征引导模块，得到多维度轮廓特征；其中，所述特征引导模块包括卷积模块、残差模块、坐标注意力机制模块；任意两个相邻的特征引导模块间连接有下采样模块。

需要说明的是，该优选实施例中，通过特征引导模块进行了一系列卷积操作并利用残差结构，初步抽取了特征信息，这一过程在多维度特征提取过程中起到关键作用，为后续处理奠定了基础；同时，通过坐标注意力机制(即利用坐标注意力机制模块)，在细节上进一步完善了对模特无服装轮廓图像位置信息的提取；此外，整个过程采用下采样模块获取各个维度层次上的特征，可保证其能适应于具有多维度层次结构的编码器(如U-net编码器)。

在一可选实施例中，所述对所述人体解析模型、所述变形服装图像、所述变形服装掩码与所述多维度轮廓特征进行特征信息交互融合，具体为：将所述人体解析模型、所述变形服装图像、所述变形服装掩码与所述多维度轮廓特征通过U-Net网络进行特征传递和信息重建，得到所述合成掩码和所述渲染后人体模型。

需要说明的是，U-Net网络具有独特的U形网络结构，使得编码器和解码器能够高效地相互连接，实现了特征传递和信息重建。编码器负责从输入图像中提取特征，通过多层卷积、池化等操作将图像信息转化为高维特征表示，逐步捕捉抽象特征。同时，U-Net通过特殊的结构将编码器中的特征与解码器中对应的层次相连接，有效地融合了低层次的细节信息和高层次的语义信息。这样保留了图像中的细节和上下文信息。解码器部分通过上采样等操作，将高维特征重新映射到原图像分辨率，实现了对生成图像的高分辨率重建。此外，U-Net能够端到端地训练，从原始输入到生成输出的全过程可以通过反向传播进行优化。

进一步地，所述U-net网络的训练过程，参阅图2，包括：

接收训练用人体解析模型、训练用变形服装图像、训练用变形服装掩码、训练用模特无服装轮廓图像、训练用模特服装真实上身掩码，以及模特服装真实上身图像；

对所述训练用模特无服装轮廓图像进行像素解缩后，再进行多维度特征提取，得到用于特征引导的训练用多维度轮廓特征；

对所述训练用人体解析模型、所述训练用变形服装图像、所述训练用变形服装掩码与所述训练用多维度轮廓特征进行特征信息交互融合，得到训练用合成掩码和训练用渲染后人体模型；

根据所述训练用合成掩码、所述训练用渲染后人体模型和所述训练用变形服装图像，生成训练用虚拟试衣图像；

根据所述训练用合成掩码与所述训练用模特服装真实上身掩码，计算第一子损失函数；其中，所述第一子损失函数基于L1损失构建；

根据所述训练用虚拟试衣图像与所述模特服装真实上身图像，计算第二子损失函数；其中，所述第二子损失函数基于L1损失和VGG感知损失构建；

将所述第一子损失函数与所述第二子损失函数组合为第二损失函数，根据所述第二损失函数经反向传播，迭代更新所述U-net网络。

在一些示例中，所述训练用模特服装真实上身掩码通过对采集自服装模特在真实世界中将服装上身后的图像进行人工提取感兴趣区域(如服装轮廓)后得到。

在一些示例中，所述第二子损失函数Loss₂表达式为：

Loss₂＝L₁+L_VGG

更进一步地，所述第二子损失函数中VGG感知损失L_VGG表达式为：

式中，I′₀表示所述训练用虚拟试衣图像；I_GT表示所述模特服装真实上身图像；φ_i(·)表示在视觉感知网络φ中第i层的图像的特征映射；λ_i表示第i层的权重系数；其中，所述视觉感知网络φ基于VGG19构建。

本领域技术人应当理解，VGG19模型的权重参数由ImageNet数据集训练而来。

需要说明的是，i≥1时，分别表示“conv1_2”、“conv2_2”、“conv3_2”、“conv4_2”、“conv5_2”等层的计算。

在一些示例中，经过20万轮的迭代，训练得到最终的网络模型。

在一优选实施例中，所述虚拟试衣图像I₀的表达式为：

I₀＝M⊙c′+(1-M)⊙I_R

式中，M表示所述合成掩码；⊙表示元素矩阵乘法；c′表示所述变形服装掩码；I_R表示所述渲染后人体模型。

在一些示例中，对传统仅基于CP-VTON+框架的虚拟试衣方法和前述的基于特征引导虚拟试衣方法进行了对比实验，

需要说明的，该对比实验中，采用所述基于特征引导的虚拟试衣方法的实施方式有两种(下称“方式一”和“方式二”)，其区别在于是否在特征引导模块设有坐标注意力机制模块，具体地，

方式一，包括：

接收人体解析模型、目标服装图像和模特无服装轮廓图像；

将所述精细轮廓图像依次通过若干组特征引导模块，得到多维度轮廓特征；其中，所述特征引导模块包括卷积模块和残差模块；任意两个相邻的特征引导模块间连接有下采样模块；

方式二，包括：

接收人体解析模型、目标服装图像和模特无服装轮廓图像；

将所述精细轮廓图像依次通过若干组特征引导模块，得到多维度轮廓特征；其中，所述特征引导模块包括卷积模块、残差模块、坐标注意力机制模块；任意两个相邻的特征引导模块间连接有下采样模块；

实验结果如下：

表1实验数据对比表

可以看到，本实施例所述方法在SSIM(structural similarity index，结构相似度)和感知损失LPIPS(Learned Perceptual Image Patch Similarity，可学习感知图像块相似度)两个指标上均超越了基准框架模型CP-VTON+，通过将重心放在特征引导上，成功地提升了虚拟试衣效果的逼真程度。

实施例2

本实施例提出一种计算机可读存储介质，所述存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，使得所述处理器执行实施例1中所述方法的部分或全部步骤。

可以理解，所述存储介质可以是瞬时性的，也可以是非瞬时性的。示范性地，所述存储介质包括但不限于U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机访问存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

示范性地，所述处理器可以为中央处理器(Central ProcessingUnit，CPU)、微处理器(Microprocessor Unit，MPU)、数字信号处理器(Digital SignalProcessor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

在一些示例中提供一种计算机程序产品，具体可以通过硬件、软件或其结合的方式实现。作为非限制性示例，所述计算机程序产品可以体现为所述存储介质，还可以体现为软件产品，例如SDK(Software Development Kit，软件开发包)等。

在一些示例中提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现所述方法中的部分或全部步骤。

本实施例还提出一种电子设备，包括存储器和处理器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述处理器执行所述至少一条指令、至少一段程序、代码集或指令集时实现如实施例1中所述方法的部分或全部步骤。

在一些示例中提供一种所述电子设备的硬件实体，包括：处理器、存储器和通信接口；其中，所述处理器通常控制所述电子设备的总体操作；所述通信接口用于使所述电子设备通过网络与其他终端或服务器通信；所述存储器配置为存储由处理器可执行的指令和应用，还可以缓存待处理器以及电子设备中各模块待处理或已经处理的数据(包括但不限于图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(RAM，Random Access Memory)实现。

进一步地，处理器、通信接口和存储器之间可以通过总线进行数据传输，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。

可以理解，上述实施例1中的可选项同样适用于本实施例，故在此不再重复描述。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于特征引导的虚拟试衣方法，其特征在于，包括：

接收人体解析模型、目标服装图像和模特无服装轮廓图像；

2.根据权利要求1所述的一种基于特征引导的虚拟试衣方法，其特征在于，所述对所述人体解析模型和所述目标服装图像分别进行特征提取和融合，包括：

3.根据权利要求2所述的一种基于特征引导的虚拟试衣方法，其特征在于，所述回归网络的训练过程，包括：

4.根据权利要求1所述的一种基于特征引导的虚拟试衣方法，其特征在于，所述对所述模特无服装轮廓图像进行像素解缩后，再进行多维度特征提取，包括：

5.根据权利要求4所述的一种基于特征引导的虚拟试衣方法，其特征在于，所述对所述人体解析模型、所述变形服装图像、所述变形服装掩码与所述多维度轮廓特征进行特征信息交互融合，具体为：将所述人体解析模型、所述变形服装图像、所述变形服装掩码与所述多维度轮廓特征通过U-Net网络进行特征传递和信息重建，得到所述合成掩码和所述渲染后人体模型。

6.根据权利要求5所述的一种基于特征引导的虚拟试衣方法，其特征在于，所述U-net网络的训练过程，包括：

7.根据权利要求6所述的一种基于特征引导的虚拟试衣方法，其特征在于，所述第二子损失函数中VGG感知损失L_VGG表达式为：

8.根据权利要求1-7任一项所述的一种基于特征引导的虚拟试衣方法，其特征在于，所述虚拟试衣图像I₀的表达式为：

I₀＝M⊙c′+(1-M)⊙I_R

9.一种计算机可读存储介质，其特征在于，所述存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现如权利要求1-8任一项所述方法。

10.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述处理器执行所述至少一条指令、至少一段程序、代码集或指令集时实现如权利要求1-8任一项所述方法。