CN111476241B

CN111476241B - 一种人物服饰转换方法及***

Info

Publication number: CN111476241B
Application number: CN202010143086.9A
Authority: CN
Inventors: 宋利; 张义诚; 解蓉; 张文军
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2023-04-21
Anticipated expiration: 2040-03-04
Also published as: CN111476241A

Abstract

本发明公开了一种人物服饰转换方法及***，该方法包括：根据输入语句，对原图的原始分割图进行相应的形状变化，将原始分割图转换成目标分割图；利用第二级生成对抗网络处理合成问题：将目标分割图作为语义引导和形状限制条件，连同输入语句一起训练生成器学习从原图到目标图片的多域映射，以合成目标图片，完成人物服饰转换；第二级生成网络融合了：采用软注意力层强化目标图片与输入语句的关联性；采用自注意力层显式地捕捉图像上的远距离相关性；采用风格化注意力层通过逐通道内积以及特征图再校准，来建立特征之间的依赖关系。本发明的人物服饰转换方法及***，融合了三种注意力层，实现了高质量服饰生成。

Description

一种人物服饰转换方法及***

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种人物服饰转换方法及***。

背景技术

人物服饰转换是计算机视觉领域极具挑战性的一项任务，其目标是根据输入的文字描述，来对原图中的人物服饰进行相应转换，同时保持人物的姿态、身份、体型等信息不变。这项人物具备相当广泛的应用，可以扩展到照片编辑、电影制作、虚拟试衣等诸多新兴应用场景中。尽管近年来生成对抗网络已经在诸如人脸属性转换、妆容转换等域迁移任务中取得了相当出色的表现，但是在人物服饰转换任务上仍有很大的提升空间。

服饰转换任务的挑战性首先体现在任务自身的高难度，其核心问题在于两方面：其一，输入的语句描述中包含多种形态迥异的服装款式和风格，比如短袖衬衫、无袖连衣裙、长袖夹克等，这就导致服饰转换的过程中会出现显著的形状变化。其二，人物服装涉及更多的纹理和颜色信息，而不是像人脸图片那样大多含有相似的肤色和五官组成，因此需要更细粒度的生成方法才能实现高质量的服饰转换。

其次，现有方法难以满足高质量的服饰转换生成。现有的人物服饰转换方法仍采用传统的全卷积生成器，这种网络结构在捕捉长距离相关性上能力十分有限，无法满足高质量生成的要求。不仅如此，现有方法将输入语句的整体表征作为条件信息来训练网络，没有充分利用到单词层级的语义信息，因而不足以支撑细粒度的纹理和颜色生成。除此之外，由于人物服饰转换可能会要求网络进行大面积的推断和想象，比如从长袖转换到短袖时，网络需要生成新的手臂部分，因此如何生成原图中没有的信息也是这项任务的一大难题，然而现有方法并没有针对这个问题进行足够深入的探索。

发明内容

本发明针对上述现有技术中存在的问题，提出一种人物服饰转换方法及***，融合了三种注意力层，实现了高质量服饰生成。

为解决上述技术问题，本发明是通过如下技术方案实现的：

本发明提供一种人物服饰转换方法，其包括：

S11：利用第一级生成对抗网络处理变形问题：根据输入语句，对原图的原始分割图进行相应的形状变化，将原始分割图转换成目标分割图；

S12：利用第二级生成对抗网络处理合成问题：将所述S11得到的目标分割图作为语义引导和形状限制条件，连同输入语句一起训练生成器学习从原图到目标图片的多域映射，以合成目标图片，完成人物服饰转换；

进一步地，所述第二级生成网络同时融合了：

S121：采用软注意力层强化目标分割图与输入语句的关联性；

S122：采用自注意力层显式地捕捉目标分割图上的远距离相关性；

S123：采用风格化注意力层通过逐通道内积以及特征图再校准，来建立特征之间的依赖关系。

较佳地，所述S121进一步包括：利用软注意力层接收两个输入：单词嵌入矩阵w以及原特征图x，通过计算上下文向量c组合得到软注意力上下文特征图c_soft：

s_ji＝W_q(x_j)^TW_k(w_i)

c_soft＝concat(c₁,c₂,…,c_j,…,c_N)

其中，W_q,W_k,W_v均为卷积层参数，β为注意力权重。

较佳地，所述S122进一步包括：用卷积层将原特征图x映射到多个特征空间中，用内积的方式计算不同子区域之间的相关性，以此表示为注意力权重，最终经过加权求和得到自注意力上下文特征图c_self。

较佳地，S123进一步包括：计算原特征图x的格拉姆矩阵，用softmax函数对其做归一化，随后通过所有通道的加权求和对特征进行再校准，最终得到风格化注意力上下文特征图c_style：

c_style＝concat(f₁,f₂,…,f_C)

其中，G为格拉姆矩阵，α为注意力权重，F为特征图，f为上下文向量。

较佳地，所述S11进一步包括：

训练一生成器来近似一映射函数，在以目标句表征向量为条件下，通过所述映射函数将原始分割图转换成目标分割图；进一步地，

所述S11的训练过程中包括：将目标句表征向量与残差块后得到的分割图特征结合，然后送往上采样阶段。

较佳地，所述S11以及S12中还包括：稳定训练策略，对所述第一级生成对抗网络以及第二级生成对抗网络中的每一层的权重矩阵分别进行谱归一化。

本发明还提供一种人物服饰转换***，其包括：变形网络生成器、合成网络生成器、变形网络判别器以及合成网络判别器；其中，

所述变形网络生成器与所述变形网络判别器构成第一级生成对抗网络，用于处理变形问题：根据输入语句，对原图的原始分割图进行相应的形状变化，将原始分割图转换成目标分割图；

所述合成网络生成器与所述合成网络判别器构成第二级生成对抗网络，用于处理合成问题：将所述第一级生成对抗网络得到的目标分割图作为语义引导和形状限制条件，连同输入语句一起训练生成器学习从原图到目标图片的多域映射，以合成目标图片，完成人物服饰转换；

进一步地，所述第二级生成网络同时融合了：

采用软注意力层强化目标图片与输入语句的关联性；

采用自注意力层显式地捕捉图像上的远距离相关性；

采用风格化注意力层通过逐通道内积以及特征图再校准，来建立特征之间的依赖关系。

较佳地，所述变形网络判别器和/或合成网络判别器为基于投射的判别器，用于通过逐元素内积来计算图像与条件的匹配损失；进一步地，

所述变形网络判别器和/或合成网络判别器用于对分块处理的图像的不同块做评判，最后求取平均分数；和/或，

所述变形网络生成器采用最小均方函数作为对抗损失；进一步地，

所述变形网络生成器采用循环一致损失来保证目标分割图与原始分割图中的人物体型、姿态以及身份不发生变化；和/或，

所述变形网络生成器用于将目标句表征向量与残差块后得到的分割图特征结合，然后送往上采样阶段。

较佳地，所述合成网络生成器包括两个编码分支，分别用于提取目标分割图与原图的特征。

较佳地，还包括：稳定训练策略模块；所述稳定训练策略模块用于稳定所述第一级生成对抗网络以及第二级生成对抗网络的训练过程；进一步地，

所述稳定训练策略模块用于所述第一级生成对抗网络以及第二级生成对抗网络的每一层的权重矩阵分别进行谱归一化；进一步地，

所述稳定训练策略模块中的谱范数采用幂迭代法来近似估计。

较佳地，所述合成网络生成器的卷阶层的最顶端还包括一抠图层来保留头部。

较佳地，所述变形网络合成器和/或所述合成网络生成器包括多个噪声层，用于提高生成的多样性和随机性,从而抑制过拟合，防止模式崩溃。

相较于现有技术，本发明具有以下优点：

(1)本发明提供的人物服饰转换方法及***，融合了：软注意力层、自注意力层以及风格化注意力层；通过软注意力层强化了生成图像与语句的关联性，使得特征图上的每个位置都可以寻找到句子中最相关的单词，从而有效地促进细粒度的文字到图像合成；通过自注意力层则弥补了传统卷积网络的局部性，能够显式地捕捉图像上的远距离相关性，不仅为细粒度生成提供了支持，还加强了图像整体的协调性和一致性；通过风格化注意力层可有效促进纹理生成和精细上色，提高网络进行合理推断和想象的能力；

(2)本发明提供的人物服饰转换方法及***，将目标句表征向量与残差块后得到的分割图特征结合，然后送往上采样阶段，而不是直接在输入时结合两者；当句表征向量的维数高于分割图通道时，直接结合两者并不利于特征的学习，反而会造成原始图片信息的大量缺失；本发明通过在网络的中间阶段结合特征与语句条件信息，可以避免直接结合两者所造成的问题；

(3)本发明提供的人物服饰转换方法及***，通过基于投射的判别器结构，通过逐元素内积来计算图像与条件的匹配损失，可以有效地识别现有方法中的两种错误；现有的许多方法都采用了直接串联或是辅助分类器的方法来设计判别器结构,但是这两种方法都存在着一些弊端：直接串联图像与条件无法帮助判别器显式地区分不真实性和不匹配性这两种不同的错误来源，而在判别器顶端加入辅助分类器分支可能会在无形中引导生成器产生一些易于判别器进行分类的图片，当条件信息的维数较多时这种现象尤为明显；

(4)本发明提供的人物服饰转换方法及***，通过让判别器对分块处理的图像的不同块做评判，最后求取平均分数，将分块处理的思想结合到判别器中，不仅加速了网络的收敛速度，还对图像的纹理和风格产生了非常有效的生成指导；

(5)本发明提供的人物服饰转换方法及***，通过在合成网络生成器的卷积层的最顶端加入抠图层来保留头部，可以进一步将合成网络生成器的注意力集中到衣服和身体部分；

(6)本发明提供的人物服饰转换方法及***，通过在变形网络生成器以及合成网络生成器中增加多个噪声层，提高了生成的多样性和随机性，从而抑制过拟合，防止模式崩溃。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

下面结合附图对本发明的实施方式作进一步说明：

图1为本发明一实施例的人物服饰转换方法的流程图；

图2为本发明一实施例的软注意力层的示意图；

图3为本发明一实施例中生成结果与现有方法的效果对比。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示为本发明一实施例的人物服饰转换方法的流程图，其是基于语义引导和融合注意力机制的人物服饰转换方法。

请参考图1，本实施例的人物服饰转换方法包括以下步骤：

S12：利用第二级生成对抗网络处理合成问题：将S11得到的目标分割图作为语义引导和形状限制条件，连同输入语句一起训练生成器学习从原图到目标图片的多域映射，以合成目标图片，完成人物服饰转换；

进一步地，第二级生成网络同时融合了：

S121：采用软注意力层强化目标分割图与输入语句的关联性，使得特征图上的每个位置都可以寻找到句子中最相关的单词，从而有效地促进细粒度的文字到图像合成；

S122：采用自注意力层显式地捕捉目标分割图上的远距离相关性，弥补了传统卷积网络的局部性，不仅为细粒度生成提供了支持，还加强了图像整体的协调性和一致性；

S123：采用风格化注意力层通过逐通道内积以及特征图再校准，来建立特征之间的依赖关系，从而有效促进纹理生成和精细上色，提高网络进行合理推断和想象的能力。

在第一级网络，首先根据输入的语句描述，对原图的原始分割图进行形状转换，生成后的目标分割图能够刻画出希望生成的目标图片的大致轮廓，并被送到下一级网络中。在第二级网络中，不仅以输入的语句描述作为条件，还将转换后的目标分割图作为语义引导，来帮助网络学习从原图到目标图片的转换。

下面结合具体实例对上述各个步骤中详细技术操作进行说明。

(1)第一级生成对抗网络：变形网络

比起直接生成一张希望得到的目标图片，我们首先拆分问题，根据输入语句，对原图的分割图进行相应的形状变化。如图1所示，语句描述首先经由一个基于长短期记忆单元的双层循环神经网络(LSTM)提取语义编码。我们用LSTM中每个时间步的隐藏状态作为其对应单词的表征向量，并将这些向量结合组成单词嵌入矩阵。除此之外，LSTM中第二层的最后一个隐藏状态将作为句子的整体句表征向量。

由于输入的语句描述包含各式各样的服装款式和风格，因此变形网络实质上是一个可扩展的多域转换模型。我们的目标是训练一个生成器来近似一个映射函数，在以目标句表征向量为条件下，通过映射函数可以将原始分割图转换成目标分割图。

在训练时，我们只用到三元组数据便可以进行无监督学习。其中，目标语句每次迭代都会在训练集中随机选取，以提高生成器的适应性和鲁棒性。

在变形网络中采用了标准的编码-解码结构，其中包含了几个残差块。一较佳实施例中，与一些现有方法不同的是，将目标句表征向量与残差块后得到的分割图特征结合，随后送往上采样阶段，而不是直接在输入时结合两者。这是因为当句表征向量的维数(128)远高于分割图通道数(1)时，直接结合两者并不利于特征的学习，反而会造成原始图片信息的大量缺失，所以本发明做出了改进，选择在网络的中间阶段结合特征与语句条件信息。

尽管现有的许多方法都采用了直接串联或是辅助分类器的方法来设计判别器结构,但是这两种方法都存在着一些弊端。直接串联图像与条件无法帮助判别器显式地区分不真实性和不匹配性这两种不同的错误来源，而在判别器顶端加入辅助分类器分支可能会在无形中引导生成器产生一些易于判别器进行分类的图片，当条件信息的维数较多时这种现象尤为明显。为了解决这些问题，本发明采用了基于投射的判别器结构这种结构通过逐元素内积来计算图像与条件的匹配损失，从而有效地识别两种错误。

一较佳实施例中，将分块处理的思想结合到判别器中，让判别器对图像的不同块做评判，最后求取平均分数，这样不仅加速了网络的收敛速度，还对图像的纹理和风格产生了非常有效的生成指导。

一较佳实施例中，为了使生成的目标分割图具备非常高的真实度，采用了最小均方函数作为对抗损失，并且设计了能够惩罚不匹配度的损失函数。由于不借助配对数据的多域转换任务本质上是不适定的，因此需要给网络加入额外的约束，一较佳实施例中，采用循环一致损失来保证分割图中的人物体型、姿态、身份不发生变化。循环一致损失可以表示为原始分割图与重建分割图之间的L1损失函数。

一较佳实施例中，在整个生成和重建的过程中，使用了同一个生成器，极大减少了参数量和显存消耗。

(2)第二级生成对抗网络：合成网络

由第一级的变形网络得到的目标分割图刻画出了目标图片的大致轮廓形状。为了生成目标图片，将目标分割图作为语义引导和形状限制条件，连同输入语句一起训练生成器学习从原图到目标图片的多域映射。在第二级的合成网络中，融合了软注意力、自注意力和风格化注意力三种机制来促进细粒度合成和图像整体的协调一致性，以及加强网络进行合理的推断和想象。合成网络有两个分开的编码分支，分别用于提取分割图和真实图片的特征。

为了解决现有方法不足以实现高质量服饰生成的问题，我们融合了软注意力、自注意力和风格化注意力三种机制。

如图2所示，软注意力层接收两个输入，单词嵌入矩阵w和特征图x，通过计算上下文向量c并组合得到软注意力上下文特征图c_soft：

s_ji＝W_q(x_j)^TW_k(w_i)

c_soft＝concat(c₁,c₂,…,c_j,…,c_N)

其中，W_q,W_k,W_v均为卷积层参数，β为注意力权重。

自注意力层用卷积层将特征图x映射到多个特征空间中，用内积的方式计算不同子区域之间的相关性，以此表示为注意力权重，最终经过加权求和得到自注意力上下文特征图c_self。

在风格化注意力层中，计算特征图的格拉姆矩阵，用softmax函数对其做归一化，随后通过所有通道的加权求和对特征进行再校准，最终得到风格化注意力上下文特征图c_style。整个过程可以表示为：

c_style＝concat(f₁,f₂,…,f_C)

一较佳实施例中，由于人物的头部在服饰转换任务中属于无关信息，因此我们在卷积层的最顶端加入了一个抠图层来保留头的部分。头相关部分的抠图掩模可以表示为分割图和对应部分的交集。一较佳实施例中，类似地，引入了背景保留损失，将保留背景的任务交由生成器学习。

较佳实施例中，还增加了稳定训练策略：

由于生成对抗网络的不稳定性，现有的许多人脸属性转换方法都采用了WGAN-GP的策略来稳定训练过程。然而，在人物服饰转换任务中，WGAN-GP的表现并不理想，其原因是在WGAN-GP中梯度惩罚项是通过在真实样本和生成样本的空间直线上采样作为判别器的输入来进行计算的，然而实质上人物图片是高维空间的非凸低维流形，因此这样采样得到的样本可能已经游离于流形之外。不仅如此，WGAN-GP每次迭代都要计算判别器输出输入的梯度，也一定程度上增加了训练耗时。基于以上分析，本实施例在两级网络中采用了计算代价更小的谱归一化方法来保证判别器满足利普西茨连续条件。

具体地，对网络中每一层的权重矩阵都进行谱归一化，即除以谱范数，则可以令整个网络满足利普希茨连续条件。然而，如果每次迭代都要采用传统的奇异值分解法来求解网络每一层的谱范数，计算量将会相当巨大，因此，较佳实施例中，采用幂迭代法来近似估计谱范数。首先为每个权重矩阵随机初始化一个向量u，如果在主导奇异值中没有重数且u不与第一个左奇异向量正交，则根据幂迭代法，可以使用以下更新法则来产生第一个左奇异向量和右奇异向量。如果网络使用的是随机梯度下降进行优化的话，那每次迭代权重矩阵的更新变化都会比较小，同时最大的奇异值变化也会很小，因此可以在实际训练中重用来作为下一步的初始向量。

一具体实例中，代码实现由Pytorch完成。在训练阶段，将生成器和判别器的学习率均设为0.0002，并采用Adam优化器，批量大小设为32个样本。首先固定合成网络的参数不变，总共花费15轮训练变形网络，且在最后的5轮内，学习率线性衰减到0。随后，固定变形网络的参数不变，花费20轮训练合成网络，同样在最后5轮学习率线性衰减为0。

下面对上述实施例的人物服饰转换方法的结果进行评估，选择DeepFashion作为训练和测试数据集，使用FashionGAN作为目前最先进方法，和本发明上述实施例方法进行定量和定性比较。

关于质量评估指标，采用弗雷歇距离(FID)，因为其在评估生成样本的真实性和多样性方面更符合人眼特点。越低的FID，说明生成样本与真实样本越接近，即生成质量越高。对于每一种模型，我们都随机生成了5000个样本来计算其FID。最终定量比较结果如表1所示。本发明方法的生成样本FID远比FashionGAN的结果要小，从35.18降低到了30.54，这说明本发明方法在DeepFashion数据集上取得了更先进的成果。

表1本发明实施例与现有方法的弗雷歇距离对比

模型	弗雷歇距离
		FashionGAN方法	35.18
本发明方法	30.54

为了体现本发明方法不仅能够生成高质量的图片，还能确保图片高度符合输入的语句描述，我们进行了一项属性预测实验。具体来说，我们采用R*CNN模型作为人物服饰属性的预测器，并使其在DeepFashion数据集上进行参数微调。我们选取了5种属性，分别为“T恤”、“长袖”、“短裤”，“牛仔裤”，“长裤”，并用预测器对不同模型的生成样本进行分类，结果如表2所示。可以看到，在所有的5种属性上，本发明方法都超过了FashionGAN模型，说明本发明方法能够生成非常逼真的图片，同时具有高度的协调性和一致性。

表2本发明实施例与现有方法的属性预测结果对比

为了定性比较生成质量，我们选择相同的原图和输入语句，来观察两种方法的生成结果。如图3所示，每一列代表相同的语句描述。可以直观地看到，由于FashionGAN模型学习的是配对的风格图与真实图片的映射，而不是以原图作为输入，因此导致其无法保留原图中的背景信息，网络只能学习到一片空白。相反，我们的模型由于设计了背景保留损失，所以不会出现这种问题，背景可以被完整地保留下来。此外，从图3中可以清楚地看到，本发明方法能够生成最自然、最真实的人物图片，同时具备非常一致的颜色和精致的纹理细节。尽管FashionGAN模型可以保持原图的人物动作和身份不变，其生成结果却缺乏足够的纹理细节，因此不具有立体感。FashionGAN模型同样无法产生真实的颜色，例如图3第一行的第六张图，语句描述中的“green”并没有反映在生成图像中，反而是出现了大面积的伪影。不仅如此，FashionGAN模型的生成样本看上去都非常相似，缺乏一定的多样化，有模式崩溃的征兆。相比之下，本发明方法无论是在纹理颜色细节上，还是在多样性上，效果都更出色。

一实施例中，本发明还提供一种人物服饰转换***，其与上述实施例的人物服饰转换方法相对应，其包括：变形网络生成器、合成网络生成器、变形网络判别器以及合成网络判别器。其中，变形网络生成器与变形网络判别器构成第一级生成对抗网络，用于处理变形问题：根据输入语句，对原图的原始分割图进行相应的形状变化，将原始分割图转换成目标分割图；合成网络生成器与合成网络判别器构成第二级生成对抗网络，用于处理合成问题：将第一级生成对抗网络得到的目标分割图作为语义引导和形状限制条件，连同输入语句一起训练生成器学习从原图到目标图片的多域映射，以合成目标图片，完成人物服饰转换。进一步地，第二级生成网络融合了软注意力、自注意力以及风格化注意力三种机制：

(1)采用软注意力层强化目标图片与输入语句的关联性；

(2)采用自注意力层显式地捕捉图像上的远距离相关性；

(3)采用风格化注意力层通过逐通道内积以及特征图再校准，来建立特征之间的依赖关系。

较佳实施例中，变形网络判别器以及合成网络判别器为基于投射的判别器，用于通过逐元素内积来计算图像与条件的匹配损失。进一步地，变形网络判别器以及合成网络判别器用于对分块处理的图像的不同块做评判，最后求取平均分数，这样不仅加速了网络的收敛速度，还对图像的纹理和风格产生了非常有效的生成指导。

较佳实施例中，变形网络生成器采用最小均方函数作为对抗损失；进一步地，变形网络生成器采用循环一致损失来保证目标分割图与原始分割图中的人物体型、姿态以及身份不发生变化。

较佳实施例中，变形网络生成器用于将目标句表征向量与残差块后得到的分割图特征结合，然后送往上采样阶段。

较佳实施例中，合成网络生成器包括两个编码分支，分别用于提取目标分割图与原图的特征。

较佳实施例中，还包括：稳定训练策略模块，用于稳定第一级生成对抗网络以及第二级生成对抗网络的训练过程。进一步地，稳定训练策略模块用于对第一级生成对抗网络以及第二级生成对抗网络的每一层的权重矩阵分别进行谱归一化。进一步地，稳定训练策略模块中的谱范数采用幂迭代法来近似估计。

较佳实施例中，为了进一步将合成网络生成器的注意力集中到衣服和身体部分，合成网络生成器的卷阶层的最顶端还包括一抠图层来保留头部。头相关部分的抠图掩模可以表示为分割图和对应部分的交集。类似地，可以引入背景保留损失，将保留背景的任务交由生成器学习。

较佳实施例中，对于所有生成器和重建网络均采用编码-瓶颈层-解码的结构。其中，变形网络生成器和重建网络包含2个步长为2的卷积层进行下采样，6个残差块以及2个解卷积层进行上采样。为了加强第二级网络的合成能力，我们在生成器中多加入了1个卷积层，3个残差块和1个解卷积层。在所有生成器中均采用实例归一化层来学习样本的个体特征，此外还加入多个噪声层来提高生成的多样性和随机性，从而抑制过拟合，防止模式崩溃。

此处公开的仅为本发明的优选实施例，本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化，均应落在本发明所保护的范围内。

Claims

1.一种人物服饰转换方法，其特征在于，包括：

所述第二级生成对抗网络同时融合了：

S121：采用软注意力层强化目标分割图与输入语句的关联性；

2.根据权利要求1所述的人物服饰转换方法，其特征在于，所述S121进一步包括：利用软注意力层接收两个输入：单词嵌入矩阵w以及原特征图x，通过计算上下文向量c组合得到软注意力上下文特征图c_soft：

s_ji＝W_q(x_j)^TW_k(w_i)

c_soft＝concat(c₁,c₂,…,c_j,…,c_N)

其中，W_q,W_k,W_v均为卷积层参数，β为注意力权重。

3.根据权利要求2所述的人物服饰转换方法，其特征在于，所述S122进一步包括：用卷积层将原特征图x映射到多个特征空间中，用内积的方式计算不同子区域之间的相关性，以此表示为注意力权重，最终经过加权求和得到自注意力上下文特征图c_self。

4.根据权利要求1所述的人物服饰转换方法，其特征在于，S123进一步包括：计算原特征图x的格拉姆矩阵，用softmax函数对其做归一化，随后通过所有通道的加权求和对特征进行再校准，最终得到风格化注意力上下文特征图c_style：

c_style＝concat(f₁,f₂,…,f_C)

5.根据权利要求1所述的人物服饰转换方法，其特征在于，所述S11进一步包括：

6.根据权利要求1至5任一项所述的人物服饰转换方法，其特征在于，所述S11以及S12中还包括：稳定训练策略，对所述第一级生成对抗网络以及第二级生成对抗网络中的每一层的权重矩阵分别进行谱归一化。

7.一种人物服饰转化***，其特征在于，包括：变形网络生成器、合成网络生成器、变形网络判别器以及合成网络判别器；其中，

进一步地，所述第二级生成对抗网络同时融合了：

采用软注意力层强化目标图片与输入语句的关联性；

采用自注意力层显式地捕捉图像上的远距离相关性；

8.根据权利要求7所述的人物服饰转化***，其特征在于，所述变形网络判别器和/或合成网络判别器为基于投射的判别器，用于通过逐元素内积来计算图像与条件的匹配损失；

所述变形网络生成器采用最小均方函数作为对抗损失；所述变形网络生成器采用循环一致损失来保证目标分割图与原始分割图中的人物体型、姿态以及身份不发生变化；进一步地，

所述变形网络生成器用于将目标句表征向量与残差块后得到的分割图特征结合，然后送往上采样阶段；和/或，

所述合成网络生成器包括两个编码分支，分别用于提取目标分割图与原图的特征。

9.根据权利要求7所述的人物服饰转化***，其特征在于，还包括：稳定训练策略模块；所述稳定训练策略模块用于稳定所述第一级生成对抗网络以及第二级生成对抗网络的训练过程；

所述稳定训练策略模块用于所述第一级生成对抗网络以及第二级生成对抗网络的每一层的权重矩阵分别进行谱归一化；

10.根据权利要求7-9任一项所述的人物服饰转化***，其特征在于，所述合成网络生成器的卷阶层的最顶端还包括一抠图层来保留头部；

所述变形网络合成器和/或所述合成网络生成器包括多个噪声层，用于提高生成的多样性和随机性。