CN117315417B

CN117315417B - 一种基于扩散模型的服装样式融合方法和***

Info

Publication number: CN117315417B
Application number: CN202311128437.9A
Authority: CN
Inventors: 汤程杰; 汤永川; 张欣隆; 何永兴; 林城誉; 孙凌云
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2024-05-14
Anticipated expiration: 2043-09-04
Also published as: CN117315417A

Abstract

本发明公开了一种基于扩散模型的服装样式融合方法和***，包括：构建服装生成大模型：采用服装图文数据集对stable diffusion模型进行Lora微调得到服装生成大模型；训练风格化文本编码器：训练风格化ControlNet模型；参数优化的服装生成大模型、风格化文本编码器以及风格化ControlNet模型作为服装样式融合模型，用于实现服装样式融合。该方法和装置，通过两步风格化微调形成最终网络结构，生成的服装样式融合模型不只局限于衣物整体色调、画风的迁移，而是做到了衣物细节风格的迁移，即可融合衣物的设计细节，提高了设计的效率和多样性，降低了成本。

Description

一种基于扩散模型的服装样式融合方法和***

技术领域

本发明属于服装设计技术领域，具体涉及一种基于扩散模型的服装样式融合方法和***。

背景技术

目前对于个性化和定制化服装的需求日益增长，传统的服装设计过程通常需要设计师进行手工的样衣绘制，这一过程费时费力且成本较高。为了提高服装设计的效率和多样性，同时降低服装设计的门槛，人们开始尝试使用神经网络大模型进行衣物生成来辅助设计工作。

其中一种辅助设计算法是服装样式融合算法，该算法可以通过将不同服装样式的特征进行融合或交叉，生成全新的服装设计。服装样式融合算法本质是一种风格迁移技术，即提供风格图和内容图后，从风格图采集风格、纹理信息并将其迁移到内容图，使内容图在保留整体结构的同时拥有风格图的风格。现有效果较好的风格迁移技术大多基于GAN(生成对抗网络)或Diffusion Model(扩散模型)来实现。GAN是一种由生成器和判别器互相对抗组成的神经网络框架，Diffusion Model则是一种通过神经网络对噪声图片进行去噪而生成目标图片的框架。

之前的风格迁移技术主要通过GAN来实现，如Swap AE模型，将内容图和风格图通过两个独立的编码器分别编码成结构编码和风格编码，生成过程采用Stylegan2作为基础框架，以结构编码作为基础的掩码输入，并在Stylegan2的每个卷积层中注入风格编码以达到风格迁移目的。再例如公开号为CN 115810060A的专利申请公开的一种服装风格迁移方法，和公开号为CN 114445268A的专利申请公开的一种基于深度学习的服装风格迁移方法及***，)都利用结构损失、风格损失对GAN进行训练，得到风格迁移模型，支持用户上传衣物后，选择花纹进行风格迁移，从而生成指定花纹的新衣服。

但是这些利用GAN模型设计的风格迁移模型均存在以下问题：(1)由于GAN模型本身的限制，无法直接生成高分辨率图片，需要通过插值算法辅助来提高分辨率，这会导致图像质量下降，而服装设计领域对于设计稿的分辨率和质量都有较高的要求；(2)GAN模型学习到的风格信息是输入风格图的整体信息，而难以学习服装的细节，但服装的设计理念主要体现在衣物细节而非全局风格，所以，通用的风格迁移模型难以达到设计师的服装样式融合要求。

基于扩散模型的风格迁移主要通过stablediffusion模型结合ControlNet模型实现。其中，ControlNet模型是一种用于控制扩散模型的神经网络结构，它通过添加额外的条件输入来实现控制。它将原始模型的神经网络权重复制到一个可训练的副本中，在此副本中学习用于控制模型的额外的条件输入。利用ControlNet完成风格迁移有两种途径：1.提取内容图的线稿表示或者深度图表示作为结构信息，再将风格信息用文本进行描述，随后输入大模型从而生成描述风格下的内容图。2.提取内容图的线稿表示或者深度图表示作为结构信息，将风格图进行打乱重组(shuffle)，得到只保留风格信息图像，随后输入大模型得到对应风格的内容图。

扩散模型由于其强大的生成能力，已经可以满足服装设计对于生成图像的分辨率要求，但是，由于原始的大模型是基于大规模数据集训练而得到的，数据集中的服装质量层次不齐，导致原始大模型生成的服装质量不稳定；同样的，基于ControlNet模型的风格迁移技术其风格控制是通过文本或者结构被打乱的风格图实现的，所包含的风格信息只是服装图片的整体信息，无法细化到衣物的细节表示。

因此，急需针对扩散模型进行单独的高质量微调训练，并在此基础上开发可以完成服装细节融合的服装融合的方法。

发明内容

鉴于上述，本发明的目的是提供一种基于扩散模型的服装样式融合方法和***，输入两张服装图片，将一件作为风格参考，另一件作为结构参考，从而生成多件具有上述两件衣服融合特征的新服装。

为实现上述发明目的，实施例提供的一种基于扩散模型的服装样式融合方法，包括以下步骤：

构建服装生成大模型：采用服装图文数据集对stablediffusion模型进行Lora微调得到服装生成大模型；

训练风格化文本编码器：在风格图对应的文本描述和风格化文本编码器的字典中同时增加风格指示词，利用风格化文本编码器对带有风格指示词的文本描述进行编码得到带有风格信息的嵌入向量并将该嵌入向量作为服装生成大模型的条件输入，固定服装生成大模型参数和文本编码器中的无关嵌入向量，以风格图作为监督对风格指示词的嵌入向量进行参数优化；

训练风格化ControlNet模型：在每个时间步以风格图对应的服装结构图和时间作为风格化ControlNet模型的输入，风格化文本编码器输出的风格指示词的嵌入向量作为风格化ControlNet模型的条件输入，固定服装生成大模型和风格化文本编码器参数，以风格图作为监督对风格化ControlNet模型进行参数优化，以使风格化ControlNet模型实现风格语义和结构对齐；

参数优化的服装生成大模型、风格化文本编码器以及风格化ControlNet模型作为服装样式融合模型，用于实现服装样式融合。

优选地，所述stable diffusion模型包括VQ编码器、VQ解码器、条件编码器以及去噪网络，VQ编码器用于将原始服装图像在时间步0-T内正向扩散向隐藏空间映射，得到时间步T的隐藏特征z_T，条件编码器用于编码条件文本，去噪网络用于基于条件文本的编码结果和隐藏特征Z_T在时间0-T内逆向扩散实现去噪，得到0时刻的噪声z₀，VQ解码器用于对噪声z₀进行解码得到服装生成结果；

在训练stable diffusion模型时，采用的损失函数L_SD为：

其中，∈表示真实噪声样本，z_t表示t时刻的潜在噪声，c_θ(y)表示条件编码器c_θ对条件文本y的编码结果，∈_θ表示去噪网络基于z_t、t、c_θ(y)进行去噪的结果，表示L2范数的平方，z_t～VQ(x)表示z_t服从原始服装图像x输入VQ编码器得到的隐藏特征VQ(x)，E表示期望值，∈～N(0,1)表示∈服从均值为0，方差为1的高斯分布。

优选地，对stable diffusion模型进行Lora微调的过程包括：

采用随机高斯分布初始化降维矩阵A，用0矩阵初始化升维矩阵B，升维矩阵B和降维矩阵A点乘得到旁路低秩分解矩阵BA，以保证训练开始时旁路低秩分解矩阵BA依然是0矩阵，训练时，固定冻结原stable diffusion模型的所有参数，只对降维矩阵A和升维矩阵B进行参数优化，将参数优化后的旁路低秩分解矩阵BA添加到stable diffusion模型的原始参数上，得到服装生成大模型。

优选地，训练风格化文本编码器更新风格指示词嵌入向量时，采用目标函数为：

其中，v表示风格指代词的嵌入向量，∈表示真实噪声样本，z_t表示t时刻的潜在噪声，c′_θ(y′)表示风格化文本编码器c′_θ对带有风格指示词的文本描述y′的编码结果中风格指示词的嵌入向量，∈_θ表示去噪网络基于z_t、t、c′_θ(y′)进行去噪的结果，表示L2范数的平方，z_t～VQ(x)表示z_t服从原始服装图像x输入VQ编码器得到的隐藏特征VQ(x)，E表示期望值，∈～N(0,1)表示∈服从均值为0，方差为1的高斯分布。

优选地，训练风格化ControlNet模型时，采用的损失函数L_CN为：

其中，∈表示真实噪声样本，z_t表示t时刻的潜在噪声，c′_θ(y′)表示参数优化的风格化文本编码器c′_θ对文本描述y′中风格指示词编码的嵌入向量，c_N(s)表示风格化ControlNet模型c_N对风格图对应的服装结构图s的编码结果，∈_θ表示去噪网络基于z_t、t、c′_θ(y′)、c_N(s)进行去噪的结果，表示L2范数的平方，z_t～VQ(x)表示z_t服从原始服装图像x输入VQ编码器得到的隐藏特征VQ(x)，E表示期望值，∈～N(0,1)表示∈服从均值为0，方差为1的高斯分布。

优选地，利用服装样式融合模型实现服装样式融合，包括以下过程：

利用风格化文本编码器对带有风格指示词的文本描述进行编码得到风格指示词对应的含有风格信息的嵌入向量，并将该嵌入向量同时作为条件输入至服装生成大模型和风格化ControlNet模型；

利用风格化ControlNet模型对输入的指示词的嵌入向量和服装结构图进行风格语义与结构对齐得到风格信息，并将风格信息作为条件输入至服装生成大模型；

利用服装生成大模型基于输入的指示词的嵌入向量和ControlNet模型输出的风格信息以及随机高斯噪声进行服装样式融合，生成新服装图像。

优选地，服装样式融合过程中，通过控制随机种子和初始高斯噪声控制随新服装图像的随机性，通过调整结构控制强度和文本控制强度来调整服装结构图和风格提示词的混合效果；

优选地，所述服装结构图包括深度图或线稿图。

为实现上述发明目的，实施例还提供了一种基于扩散模型的服装样式融合***，包括服装结构图模块、风格模块以及服装样式融合模块以及可视化模块；

所述服装结构图模块用于提供服装结构图，并支持选择服装结构图功能；

所述风格模块用于提供风格数据，风格数据包括风格图或风格描述文本，并支持选择风格数据功能；

所述服装样式融合模块采用权利要求1-9任一项所述的服装样式融合方法基于选择的服装结构图和风格数据进行服装样式融合以生成新服装图像；

所述可视化模块用于可视化生成的新服装图像。

优选地，所述***还包括关键参数设置模块，所述关键参数设置模块提供关键参数的配置功能，其中，关键参数包括新服装图像的生成数量、结构控制强度、文本控制强度、生成步数以及随机种子，通过调制这些关键参数，实现对新服装图像的控制调整。

与现有技术相比，本发明具有的有益效果至少包括：

1.相比原始的stablediffusion模型，由大量服装图文数据集微调训练得到的服装生成大模型在服装领域的生成结果质量更稳定，样式更丰富，文本控制更精确。

2.提出的风格化文本编码器模块可以获得风格信息的高维嵌入向量，风格化ControlNet模块则能实现风格语义信息与结构的对齐，并通过额外参数增加服装生成大模型对风格图像的生成能力。

3.基于风格化文本编码器的训练过程和风格化ControlNet模型的训练过程，通过两步风格化微调形成最终网络结构，生成的服装样式融合模型不只局限于衣物整体色调、画风的迁移，而是做到了衣物细节风格的迁移，即可融合衣物的设计细节，相比设计师直接设计，通过服装样式融合模型生成融合服装样式的新服装图像，提高了设计的效率和多样性，降低了成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于扩散模型的服装样式融合方法的流程图；

图2实施例提供的服装生成大模型、风格化文本编码器以及风格化ControlNet模型的训练流程图；

图3是实施例提供的服装样式融合模型生成的新服装图像；

图4是实施例提供的基于扩散模型的服装样式融合装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本发明实施例提供的一种基于扩散模型的服装样式融合方法，通过神经网络大模型完成服装设计，提高了设计的效率和多样性，降低设计所需人力、物力成本，降低服装设计的门槛；相比传统风格迁移模型，实施例基于风格迁移的服装样式融合模型生成图像分辨率更高、生成质量更佳、生成效果更稳定；训练了服装生成大模型，模型相比stablediffusion在服装生成上有更好效果。服装样式融合模型针对服装设计领域进行开发，其风格迁移能力不只局限于衣物整体色调、画风的迁移，而是做到了衣物细节风格的迁移。

如图1所示，实施例提供的基于扩散模型的服装样式融合方法，包括以下步骤：

S110，构建服装生成大模型。

实施例中，采用服装图文数据集对stablediffusion模型进行Lora微调得到服装生成大模型。具体包括构建服装图文数据集、训练stablediffusion模型。

针对构建服装图文数据集，首先从电商网站、公开服装数据集收集整理了60万张各类型服装图片数据及对应文字描述并对服装图文数据进行清洗、筛选，具体包括：剔除分辨率小于512*512的图片，使用OpenPose骨骼点提取算法去除带人物的服装图像，人工筛选分类出正面服装图像，使用PhotoShop的批处理对服装图像进行前景提取，只保留服装本身部分。筛选后图像需要经过进一步处理以达到模型训练要求，其中，进一步处理包括：利用透明像素对图像进行填充，使图像宽和高一致，使用双线性插值算法将图片缩放到1024*1024分辨率，针对服装描述缺失的35万张服装图片，使用BLIP图生文模型生成图片对应的文字描述，最终形成55万件高质量衣物的原始服装图像-描述文本数据对组成服装图文数据集，其中，原始服装图像-描述文本数据对包含了图像和文本两个模态信息。

针对训练stable diffusion模型，采用服装图文数据集对stable diffusion模型进行Lora微调，具体以描述文本和随机高斯噪声作为输入，以原始服装图像作为监督信息，对stable diffusion进行微调训练。

其中，stable diffusion模型包括VQ编码器、VQ解码器D、条件编码器以及去噪网络，VQ编码器用于将原始服装图像在时间步0-T内正向扩散向隐藏空间映射，得到时间步T的隐藏特征z_T，条件编码器用于编码条件文本，去噪网络用于基于条件文本的编码结果和隐藏特征Z_T在时间0-T内逆向扩散实现去噪，得到0时刻的噪声z_T，VQ解码器用于对噪声z_T进行解码得到服装生成结果。在训练stable diffusion模型时，采用的损失函数L_SD为：

实施例中，训练过程采用Lora方法对stable diffusion模型进行参数优化。Lora方法基于大模型的内在低秩特性，增加旁路低秩分解矩阵BA来模拟全模型参数微调，达成轻量微调的目的。假设stable diffusion模型的原始参数矩阵为W₀∈R^d×k，原始参数矩阵W₀∈R^d×k的更新可表示为：

W₀+ΔW＝W₀+BA,B∈R^d×r,A∈R^r×k

其中，升维矩阵B和降维矩阵A点乘得到旁路低秩分解矩阵BA，秩r＜＜min(d,k)，d和k表示原始参数矩阵的维度，ΔW表示添加的矩阵，且ΔW＝BA。

采用随机高斯分布初始化降维矩阵A，用0矩阵初始化升维矩阵B，以保证训练开始时旁路低秩分解矩阵BA依然是0矩阵，训练时，固定冻结原stable diffusion模型的所有参数，并在每个VQ编码器和VQ解码器中Transformer的交叉注意力层中注入可训练的低秩分解矩阵，优化时不对stable diffusion本身计算梯度，仅仅优化旁路低秩分解矩阵BA。将参数优化后的旁路低秩分解矩阵BA添加到stable diffusion模型的原始参数上，得到服装生成大模型。

服装生成大模型可在给出服装相关文本提示后，生成高质量、高文本匹配度的服装，优于原先的stablediffusion模型。进而可以提升后续服装样式融合算法得到衣服的整体质量。

S120，训练风格化文本编码器。

实施例中，将作为参考的风格图输入模型后，即可依次训练风格化文本编码器模块和风格化ControlNet模块，其中，风格化编码器模块旨在生成图片时提供包含风格信息的文本输入，而风格化ControlNet模块旨在实现风格语义与结构的对齐，并通过额外参数增加服装生成大模型对风格图像的生成能力。

其中，风格化文本编码器会将输入文本中的每个单词转换为一个预定义字典中的索引，然后将每个索引链接到一个唯一的嵌入向量，该嵌入向量可以通过基于索引的查找来检索，这些嵌入向量通常是作为文本编码器的一部分学习的。输入作为参考的风格图后，并使用风格指示词<*Style>来表示该风格图体现的风格，并将加风格指示词添加到风格化文本编码器的字典中，并初始化风格指示词的高维嵌入向量，此时尚不具备任何语义信息，然后，利用风格化文本编码器对带有风格指示词的文本描述进行编码得到风格指示词的嵌入向量并将该嵌入向量作为服装生成大模型的条件输入，固定服装生成大模型参数和文本编码器中的无关嵌入向量，以风格图作为监督对风格指示词的嵌入向量进行参数优化。

如图2所示，具体训练时，为了使风格指示词的嵌入向量学习到更多的细节信息，对服装图片进行随机切片处理来增加训练样本的丰富程度：在原始1024*1024的图片上进行五次独立的切片，切片大小为256*256，并将这些切片使用双线性插值算法放大到1024*1024分辨率。随后，以原始服装图片和切片后图片作为风格监督信息(原始服装图片被采样的概率为0.5，每张切片被采样的概率为0.1)；以包含有风格指代词<*Style>的描述文本和随机高斯噪声作为风格化文本编码器输入，进行风格化文本编码器训练。固定stablediffusion模型中的UNet结构、VQ编码解码器及风格化文本编码器中的无关嵌入向量，只针对风格指代词的嵌入向量进行训练优化，使其学习风格信息。具体优化目标定义为：

其中，v表示风格指代词的嵌入向量，c′_θ(y′)表示风格化文本编码器c′_θ对带有风格指示词的文本描述y′的编码结果中风格指示词的嵌入向量，更新的嵌入向量即可包含风格参考图所含有的整体风格信息和细节风格信息。

S130，训练风格化ControlNet模型。

由于风格指代词是一个全新的嵌入向量，原始ControlNet模型无法获取其语义信息，所以需要对原始ControlNet模型进行微调以实现风格语义嵌入与控制结构的对齐，同时使ControlNet模型学习得到风格参考图的风格信息。

ControlNet模型是一种用于控制扩散模型的端到端神经网络结构，它通过添加额外的条件s来实现控制。它将原始模型的神经网络权重复制到一个可训练的副本中，在此副本中学习用于控制模型的额外的条件输入。可训练的副本和原始神经网络块通过固定参数的卷积层相连，从而在每次生成过程中对模型施加控制，此时预测噪声的公式变为∈_θ(z_t，t，c_θ((y),c_N(s))。

如图2所示，训练风格化ControlNet模块时，在每个时间步以风格图对应的服装结构图和时间作为风格化ControlNet模型的输入，风格化文本编码器输出的风格指示词的嵌入向量作为风格化ControlNet模型的条件输入，固定服装生成大模型和风格化文本编码器参数，以风格图作为监督只对风格化ControlNet模型进行参数优化，以使风格化ControlNet模型实现风格语义和结构对齐。其中，服装结构图包括线稿图和深度图中的至少一种，训练时采用的损失函数L_CN为：

其中，∈表示真实噪声样本，z_t表示t时刻的潜在噪声，c′_θ(y′)表示参数优化的风格化文本编码器c′_θ对文本描述y′中风格指示词编码的嵌入向量，c_N(s)表示风格化ControlNet模型c_N对风格图对应的服装结构图s的编码结果，∈_θ表示去噪网络基于z_t、t、c′_θ(y′)、c_N(s)进行去噪的结果。经过训练的风格化ControlNet模块在实现风格语义嵌入与控制结构的对齐的同时，学习到了风格参考图的风格信息。

S140，参数优化的服装生成大模型、风格化文本编码器以及风格化ControlNet模型作为服装样式融合模型，用于实现服装样式融合。

训练结束后，参数优化的服装生成大模型、风格化文本编码器以及风格化ControlNet模型作为服装样式融合模型，该服装样式融合模型可用于实现服装样式融合，具体过程包括：

利用风格化文本编码器对输入的带有风格指示词的文本描述进行编码得到含有风格信息的嵌入向量，并将该嵌入向量同时作为条件输入至服装生成大模型和风格化ControlNet模型；利用风格化ControlNet模型对输入的指示词的嵌入向量和服装结构图进行风格语义与结构对齐得到风格信息，并将风格信息作为条件输入至服装生成大模型；利用服装生成大模型基于输入的指示词的嵌入向量和ControlNet模型输出的风格信息以及随机高斯噪声进行服装样式融合，生成新服装图像。

实施例中，服装样式融合的生成效果受到用户输入的结构控制强度、文本控制强度、生成步数影响。结构控制强度大小表示风格化ControlNet模型对于结构参照图结构的保留程度，具体通过改变每个生成步骤中风格化ControlNet模型和服装大模型的参数混合比例来影响风格化ControlNet模型对于结构参照图的结构保留程度。文本控制强度表示风格化文本编码对服装生成大模型的影响强度，具体通过改变大模型的风格化嵌入向量输入的缩放程度来影响风格化文本编码信息对服装生成大模型生成结果的风格影响强度。生成步数表示生成过程的采样次数，数量越大生成效果越好，但耗时越长。

具体地，服装样式融合过程中，通过控制随机种子和初始高斯噪声控制随新服装图像的随机性，通过调整结构控制强度和文本控制强度来调整服装结构图和风格提示词的混合效果，图3所示了通过调整生成融合结构和风格的不同新服装图像。

基于同样的发明构思，实施例还提供了一种基于扩散模型的服装样式融合***，如图4所示，包括服装结构图模块410、风格模块420以及服装样式融合模块430、可视化模块440以及关键参数设置模块450。

服装结构图模块410用于提供服装结构图，并支持选择服装结构图功能；风格模块420用于提供风格数据，风格数据包括风格图或风格描述文本，并支持选择风格数据功能；服装样式融合模块430采用上述服装样式融合方法基于选择的服装结构图和风格数据进行服装样式融合以生成新服装图像；可视化模块440用于可视化生成的新服装图像；关键参数设置模块450提供关键参数的配置功能，其中，关键参数包括新服装图像的生成数量、结构控制强度、文本控制强度、生成步数以及随机种子，通过调制这些关键参数，实现对新服装图像的控制调整。生成数量控制了单次生成图片的数量；结构控制强度大小表示生成服装的结构与结构参照图的相似程度；文本控制强度大小表示生成服装的风格与风格参照图的相似程度；生成步数表示生成过程的采样次数，数量越大生成效果越好。服装样式融合生成效果的随机性受到随机种子的影响，不同的随机种子会使算法生成过程中随机数生成器生成的结果不同。

用户应用上述服装样式融合***进行服装设计时，执行以下步骤：用户通过服装结构图模块410和风格模块420选择作为参考的服装结构图和风格图；用户通过关键参数设置模块450调整关键参数，服装样式融合模块430依据设置的关键参数对服装样式融合模型进行微调，利用微调后的服装样式融合模型进行新服装图像的生成，并可视化新服装图像。

融合服装生成后，用户对生成的新服装图像进行打分，将会高分图片及其生成参数、风格参数进行保存。用户可以在历史记录中浏览被保存的生成的新服装图像，并直接使用历史结果中已训练的风格化文本编码器和风格化ControlNet来和新的服装结构参考图进行融合。

上述服装样式融合方法和***中，模型生成效果的随机性基于随机种子和初始的高斯噪声，理论上两件衣服的融合可以产生无限多的结果，助理设计师灵感迸发。生成结果的结构、风格混合效果可以通过结构控制强度、文本控制强度进行调整，使融合产生的服装的廓形和风格更趋向/偏离结构参照服装和风格参照服装，产生更多设计可能性。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于扩散模型的服装样式融合方法，其特征在于，包括以下步骤：

构建服装生成大模型：采用服装图文数据集对stable diffusion模型进行Lora微调得到服装生成大模型，其中，stable diffusion模型包括VQ编码器、VQ解码器、条件编码器以及去噪网络，VQ编码器用于将原始服装图像在时间步0-T内正向扩散向隐藏空间映射，得到时间步T的隐藏特征z_T，条件编码器用于编码条件文本，去噪网络用于基于条件文本的编码结果和隐藏特征Z_T在时间0-T内逆向扩散实现去噪，得到0时刻的噪声z₀，VQ解码器用于对噪声z₀进行解码得到服装生成结果；

在训练stable diffusion模型时，采用的损失函数L_SD为：

其中，∈表示真实噪声样本，z_t表示t时刻的潜在噪声，c_θ(y)表示条件编码器c_θ对条件文本y的编码结果，∈_θ表示去噪网络基于z_t、t、c_θ(y)进行去噪的结果，表示L2范数的平方，z_t～VQ(x)表示z_t服从原始服装图像x输入VQ编码器得到的隐藏特征VQ(x)，E表示期望值，∈～N(0,1)表示∈服从均值为0，方差为1的高斯分布；

训练风格化文本编码器：在风格图对应的文本描述和风格化文本编码器的字典中同时增加风格指示词，利用风格化文本编码器对带有风格指示词的文本描述进行编码得到含有风格信息的嵌入向量，并将该嵌入向量作为服装生成大模型的条件输入，固定服装生成大模型参数和文本编码器中的无关嵌入向量，以风格图作为监督对风格指示词的嵌入向量进行参数优化；

参数优化的服装生成大模型、风格化文本编码器以及风格化ControlNet模型作为服装样式融合模型，用于实现服装样式融合，其中，利用服装样式融合模型实现服装样式融合，包括以下过程：

利用风格化文本编码器对输入的带有风格指示词的文本描述进行编码得到风格指示词对应的含有风格信息的嵌入向量，并将该风格指示词的嵌入向量同时作为条件输入至服装生成大模型和风格化ControlNet模型；

2.根据权利要求1所述的基于扩散模型的服装样式融合方法，其特征在于，对stablediffusion模型进行Lora微调的过程包括：

采用随机高斯分布初始化降维矩阵A，用0矩阵初始化升维矩阵B，升维矩阵B和降维矩阵A点乘得到旁路低秩分解矩阵BA，以保证训练开始时旁路低秩分解矩阵BA依然是0矩阵，训练时，固定冻结原stable diffusion模型的所有参数，只对降维矩阵A和升维矩阵B进行参数优化，将参数优化后的旁路低秩分解矩阵BA添加到stablediffusion模型的原始参数上，得到服装生成大模型。

3.根据权利要求1所述的基于扩散模型的服装样式融合方法，其特征在于，训练风格化文本编码器更新风格指代词的嵌入向量时，采用目标函数为：

4.根据权利要求1所述的基于扩散模型的服装样式融合方法，其特征在于，训练风格化ControlNet模型时，采用的损失函数L_CN为：

5.根据权利要求1所述的基于扩散模型的服装样式融合方法，其特征在于，利用服装样式融合模型实现服装样式融合，包括以下过程：

6.根据权利要求1所述的基于扩散模型的服装样式融合方法，其特征在于，服装样式融合过程中，通过控制随机种子和初始高斯噪声控制随新服装图像的随机性，通过调整结构控制强度和文本控制强度来调整服装结构图和风格提示词的混合效果。

7.根据权利要求1所述的基于扩散模型的服装样式融合方法，其特征在于，所述服装结构图包括深度图或线稿图。

8.一种基于扩散模型的服装样式融合***，其特征在于，包括服装结构图模块、风格模块以及服装样式融合模块以及可视化模块；

所述服装样式融合模块采用权利要求1-7任一项所述的服装样式融合方法基于选择的服装结构图和风格数据进行服装样式融合以生成新服装图像；

所述可视化模块用于可视化生成的新服装图像。

9.根据权利要求8所述的基于扩散模型的服装样式融合***，其特征在于，所述***还包括关键参数设置模块，所述关键参数设置模块提供关键参数的配置功能，其中，关键参数包括新服装图像的生成数量、结构控制强度、文本控制强度、生成步数以及随机种子，通过调制这些关键参数，实现对新服装图像的控制调整。