CN117315069A

CN117315069A - 基于图像特征对齐的人体姿态迁移方法

Info

Publication number: CN117315069A
Application number: CN202311393278.5A
Authority: CN
Inventors: 王鹏杰; 袁成志; 李厚杰; 罗宇
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2023-12-29

Abstract

基于图像特征对齐的人体姿态迁移方法，属于图像处理领域，为了解决利用全局接收领域和保留细节特征，并且防止风格特征被冲走，提高网络收敛速度的问题，要点是特征对齐网络模块包括第一输入、第二输入和输出，风格样式映射F_p输入第1个特征对齐网络模块的第一输入，姿态特征映射F_s并列输入各特征对齐网络模块的第二输入，上一特征对齐网络模块的输出输入下一特征对齐网络模块的第一输入，第n个特征对齐网络模块输出是特征对齐网络的输出效果能够生成具有理想姿态的真实人物图像。

Description

基于图像特征对齐的人体姿态迁移方法

技术领域

本发明属于图像处理领域，涉及基于图像特征对齐的人体姿态迁移方法。

背景技术

人体姿态引导的人体图像生成旨在使用人体图像和几个所需的姿势生成真实的人体图像，其在人体的重新识别，图像处理和视频生成中有广泛的应用。由于巨大的空间变形和文字遮挡，这是一个非常具有挑战性的问题。

最近，生成对抗网络(GAN)成功地应用于人体姿态转移。最先进的人体姿态转换方法主要是卷积结构。它们可以分为两类，基于直接变形的方法和基于流动/变换的方法。直接变形法通常采用编码器-解码器卷积结构，并引入注意力模块来实现变换任务。另一方面，基于流/变换的方法估计一个外观流或变换矩阵来指导图像生成。它们经常将源图像及其特征曲线变换到目标姿态，以获得外观流或以分割图为指导学习特征级映射。

尽管通过以前的方法实现了性能改进，但是最先进的方法由于其卷积体系结构而遇到两个问题。首先，卷积神经网络在局部滑动窗口中提取特征。它们不能处理长距离的依赖关系，除非使用非常深的卷积层，这会导致特征分辨率和细节的损失。如果基于卷积的编码器不能保留更多的细节，不完整的特征也会影响解码器，特别是在空间变换任务中。因此，传统的基于卷积的模型不太适合捕获关键的全局信息。一些方法可以获得一定程度的全局上下文通过引入Non-local模块到基于卷积的体系结构。但是，它们的Q、K和V键集中在不同的域上，导致空间转换效率低下，结果模糊。如图1第三及第四栏所示。相比之下，本发明的以Transformer为基础的方法可以实现高质量的结果，如图1的第二栏所示。其次，大多数方法将风格图像和姿态图像编码成潜在向量，然后根据潜在向量进网络合成。然而，潜在向量描述了图像的语义信息，而忽略了风格特征。因此，它在最终图像生成中使一些局部风格特征被冲刷掉了。

发明内容

为了解决利用全局接收领域和保留细节特征，并且防止风格特征被冲走，提高网络收敛速度的问题，本发明提出如下技术方案：一种基于图像特征对齐的人体姿态迁移方法，包括

输入语义图I_p输入第一Transformer编码器，第一Transformer编码器的输出输入第一MBConv，跟踪第一Transformer编码器的输出，由第一MBConv输出姿态特征图，得到风格样式映射F_p；

源图像Is输入第二Transformer编码器，第二Transformer编码器的输出输入第二MBConv，跟踪第二Transformer编码器的输出，由第二MBConv输出提取风格特征图，得到姿态特征映射F_s；

特征对齐网络包括n个特征对齐网络模块，n≥2，特征对齐网络模块包括第一输入、第二输入和输出，风格样式映射F_p输入第1个特征对齐网络模块的第一输入，姿态特征映射F_s并列输入各特征对齐网络模块的第二输入，上一特征对齐网络模块的输出输入下一特征对齐网络模块的第一输入，第n个特征对齐网络模块输出是特征对齐网络的输出/>

特征对齐网络的输出和风格特征图F_s通过矩阵运算，得到对齐样本的相关矩阵M，相关矩阵M包括目标样式和语义信息，相关矩阵M与源图像Is相乘运算，输出对齐后的特征图S₁；

Transformer合成网络包括n个合成网络模块，n≥2，合成网络模块包括第一输入、第二输入和输出，对齐后的特征图S₁输入第1个合成网络模块的第一输入，相关矩阵M并列输入各合成网络模块的第二输入，上一合成网络模块的输出输入下一合成网络模块的第一输入，第n个合成网络模块输出特征图F_g。

根据本申请的基于图像特征对齐的人体姿态迁移方法，其中，特征对齐网络模块包括Transformer网络以及卷积网络，i＝2，···，n，第i-1个特征对齐网络模块的输出作为第i个特征对齐网络模块的第一输入，姿态特征映射F_s作为第i个特征对齐网络模块的第二输入，第i个特征对齐网络模块的第一输入包括并列的第一输入分支一/>和第一输入分支二/>第一输入分支一/>与第二输入F_s通过连接层，连接层输出分别并列输入Transformer网络以及卷积网络，Transformer网络以及卷积网络的输出点积操作，得到注意图F_attn，注意图F_attn包括并列的第一输出F_attn以及第二输出F_attn，第一输出F_attn通过1×1卷积，再与第一输入分支二/>点积操作得到第一结果，第二输出F_attn通过1×1卷积，再与第一结果相加操作，得到第i个特征对齐网络模块的输出/>

根据本申请的基于图像特征对齐的人体姿态迁移方法，其中，合成网络模块包括Transformer网络、1×1卷积、Reshape模块以及上采样模块，第i-1个合成网络模块的输出C×(i-1)H×(i-1)W的特征图S_i-1，i＝2，···，n，作为第i个合成网络模块的第一输入，相关矩阵M作为第i个合成网络模块的第二输入，第i个合成网络模块的第一输入包括并列的第一输入分支一特征图S_i-1和第一输入分支二特征图S_i-1，第一输入分支一特征图S_i-1经过Transformer网络、1×1卷积网络，得到1×H×W的特征图一，特征图一经过Reshape模块，得到HW的第一向量，相关矩阵M经过第i-1个合成网络模块的平均池化层得到输出向量，第一向量与输出向量相乘操作，得到HW的第二向量，HW的第二向量经过Reshape模块，得到1×H×W的特征图二，特征图二与特征图S_i-1点乘操作，得到C×(i-1)H×(i-1)W的特征图三，特征图三经过上采样模块，得到C×iH×iW的特征图S_i。

根据本申请的基于图像特征对齐的人体姿态迁移方法，第i个特征对齐网络模块的注意图F_attn由下式表示：

式中，Tran表示Transformer,C表示Concat，S表示Sigmoid，×表示元素相乘。

根据本申请的基于图像特征对齐的人体姿态迁移方法，第i个特征对齐网络模块的输出由下式表示：

式中，c∈Cⁱ,h∈Hⁱ,w∈Wⁱ，C、H和W表示张量的通道、高度和宽度；

和/>表示学习的调制参数；

是/>依次输入第i^th层归一化层和激活层后的输出特征；

和/>是/>在通道c的平均值和标准差。

根据本申请的基于图像特征对齐的人体姿态迁移方法，相关矩阵M由下式表示：

式中，M(u,v)表示相关矩阵M，和/>表示位置u和v中/>和F_s的通道集中特征。

根据本申请的基于图像特征对齐的人体姿态迁移方法，特征图S_i-1由下式表示：

表示特征图S_i-1，α表示权重，I_s(v)表示经过相关矩阵M扭曲的源图像。

根据本申请的基于图像特征对齐的人体姿态迁移方法，特征图S_i由下式表示：

式中，Up表示上采样，E表示相关范例场，×表示逐元素相乘。

根据本申请的基于图像特征对齐的人体姿态迁移方法，总损失函数L_total：

L_total＝λ_aL_adv+λ_L1λ_L1+λ_pL_per+λ_CXL_CX

式中，λ_a，λ_L1，λ_p，λ_CX是平衡函数的超参数，L_adv表示条件对抗性损失，L1表示L1损失函数，L_per表示感知损失函数，L_CX表示上下文损失函数。

根据本申请的基于图像特征对齐的人体姿态迁移方法，

式中，E表示数学期望，，I_p表示输入语义图，I表示表示人物姿势的分布，Is表示源图像输入，I_t表示具有源图像外观和目标姿势的真人形象，P表示真人形象的分布，D_A表示外观判别器，F_g表示输出具有源图像外观和目标姿势的假人形象，P_g表示假人形象的分布，D_p表示形状判别器；

L1＝||F_g-I_t||₁

式中，表示激活层

L_CX＝-log(CX(F^l(F_g),F^l(I_t)))

式中，F^l(F_g)和F^l(I_t)分别表示F_g和I_t的预训练网络中的特征映射，CX表示匹配特征之间的相似度量。

有益效果：本发明提出了一种基于Transformer特征对齐网络(FaTNET)的人像生成框架，该框架由Transformer编码器、特征对齐网络和Transformer合成网络组成。相对于以往的卷积和Non-local方法，本发明可以利用全局接收领域和保留细节特征。本发明进一步使用特征对齐来获得先验的图像，以防止风格特征被冲走，如图2所示。最后，考虑到卷积层可以带来很强的诱导偏差先验性，使得网络具有更快的收敛速度，本发明将卷积层引入到基于变换器的网络结构中。具体来说，本发明的方法有三个步骤。首先，本发明提出了一个编码器，通过引入Swin-Transformer，然后深度卷积提取特征的源图像和目标的姿态图像。其次，提出了基于多级联块的特征对齐网络来实现源样式图像与目标样式图像的对齐。具体来说，在每个对齐块中，本发明使用Transformer网络来维护目标姿态的标记化特征与源图像之间的全局关系，并引导源特征与目标特征匹配。本发明还使用卷积网络来关注局部信息并保留详细的特征。利用对齐网络对图像的形状和样式进行了分离，得到了初步的对准特征图。第三，提出了Transformer合成网络，注意样本的全局相关特征，以便在解码过程中恢复细节信息并预测不可见区域。实验结果表明，该方法的性能优于目前的方法。

附图说明

图1本发明的方法与其他两种方法比较图。

图2本发明特征对齐网络的可视化结果图。

图3自注意力模型图。

图4本发明的模型结构图。

图5本发明的特征对齐网络结构图。

图6本发明的Transformer合成网络结构图。

图7在数据集Market-1501上的结果图。

图8在数据集DeepFashion上的结果图。

图9在DeepFashion数据集上本文的方法与其他方法的比较图。

图10在Market-1501数据集上本文的方法与其他方法的比较图。

图11消融实验可视化结果图。

具体实施方式

姿态引导人体图像生成是将源人体图像转换为目标人体姿态图像。由于巨大的空间变形和遮挡，这个任务非常有挑战性。现有方法严重依赖基于CNN的体系结构，从而受到局部感受域的限制，无法保留风格和形状的细节。为了解决这一问题，本发明提出了一种基于Transformer的人体姿态迁移框架，该框架既能利用全局依赖关系，又能保持局部特征。该框架由Transformer编码器、特征对齐网络和Transformer合成网络组成，能够生成具有理想姿态的真实人物图像。该框架的核心思想是在解纠缠的特征空间中通过特征对齐网络获得与目标图像对齐的新先验图像，然后利用对齐后的特征图像与源图像之间的相关矩阵对前一阶段的结果进行变换，通过Transformer合成网络合成最终的精细图像。与以往方法相比，本发明的方法可以利用全局感受野，同时保留细节特征。定性和定量实验结果表明了该模型在人体姿态转移方面的优越性。

生成对抗性网络

生成对抗网络(GAN)由一个生成器和一个鉴别器组成，通过对抗方式训练生成逼真的图像。在被提出之后，生成对抗网络迅速采用了完全卷积的主干，并成功地应用于图像到图像的转换，图像增强和图像编辑。最近的一些相关工作将Transformer模块与图像生成模型相结合，替换了卷积的一些组件。一些学者将自本发明注意机制引入生成对抗网络框架，其中自本发明注意模块与卷积相互补充，有助于建立跨图像区域的长距离、多层次依赖关系。最近的研究使用一个卷积生成对抗网络来学习图像成分的密码本，并利用Transformer在高分辨率图像中有效地建模它们的结构。还有一个工作完全从他们的生成框架去除卷积，只使用两个Transformer，构成一个更强的生成对抗网络。

人体姿态转移

早期的人体姿态转移方法提出了一种两级网络来生成具有目标姿态的图像。它将源图像、源姿态和目标姿态连接起来作为输入，从粗到细地学习目标图像。朱等人提出了一种渐进式注意模型来传递源图像。但利用局部注意机制在多次传输过程中丢失了有用的信息。一些方法采用非局部注意机制，以关键点作为姿势表示的指导。唐等人使用两代分支分别模拟人的外貌和形状信息。为了更好地利用姿态和图像特征，李等人设计了预定位姿态引导的姿态特征更新和后定位姿态引导的图像特征更新。这些方法可以建立远程依赖模型。但由于源图像和目标图像之间只有稀疏的对应关系，难以进行图像变换。韩等人首次生成人类语法分析图作为语义指导。他们在像素级估计有密集的流场来扭曲信号源，这在大的遮挡情况下不能产生很好的结果。李等人在特征级别扭曲了输入。他们提出估计密集和内在的三维外观流，以更好地指导像素之间的姿态转移。但是它们在源和目标之间的流场需要额外的三维人体模型，这需要较高的计算成本。于等人提出了一个不同的全球流局部注意框架来重新组合输入。他们不需要任何补充信息，并以无监督的方式获得流场。但他们的工作分为两个阶段，而不是端到端。

计算机视觉中的Transformer

Transformer由多头自注意和前馈MLP层设计，最初广泛被应用于神经语言处理。近年来，越来越多的工作者在计算机视觉的各种任务中使用Transformer代替部分或全部的空间卷积层，取得了良好的效果。有些作品使用纯Transformer模型来处理图像。ViT将图像重塑为一系列平坦的2D贴片，并采用Transformer结构进行图像分类。然而，它需要大规模的训练数据集。DeIT介绍了几种提高ViT数据效率的训练策略。PVT将ViT模型应用于密集的语义分割和目标检测预测任务。与传统的低分辨率输出、高计算和存储成本的ViT不同，PVT提出了一种金字塔结构，可以实现大特征映射的高输出分辨率和低计算成本。T2T-Vit利用T2T模块辅助每个令牌对本地重要结构信息进行建模，从而提高网络性能。还有一些作品使用Transformer来补充卷积网络。他们使用自注意力层通过提供编码远程依赖或异构交互的能力来完成主干。他们将CNN和Transformer结合成编码器-解码器架构，用于目标检测和分割任务。

主要工作

方法概述

本发明的目标是在保留原始风格的同时，用目标姿态生成逼真的图像。这要求网络具有建立远程依赖的能力，并保持局部细节。为了应对这一挑战，本发明训练Transformer网络，以便生成人体图像。本发明提出了一个新的框架，包括Transformer编码器，特征对齐网络和Transformer合成网络。利用这些模块，本发明可以对来自源图像和目标图像的像素之间的远程交互关系进行建模。同时，本发明将卷积网络合并到本发明的模块中，以有效地利用卷积的归纳偏置能力和保持局部特征细节的能力。对于任意姿态转移，本发明使用常用的姿态表示来指导转移。具体来说，本发明使用由HumanPose Estimator(HPE)提取的18个人体关键点，并通过热图表示一个姿势。该热图包括18个通道，每个通道对人体内关节的位置进行编码，这样可以使用任意一张热力图来表示任意的姿态。同时，这样的编码方式也方便成为语义图引导图像生成。在训练阶段，该模型以源图像I_s、目标姿态I_p和目标图像I_t为输入。生成器通过编码解码I_s和I_p得到最终输出F_g。

Transformer编码器

Transformer自2017年被提出后，一直广泛使用在NLP领域。最近被使用在CV领域，产生了不错的效果。Transformer虽然是一个序列模型，但是Transformer可以像卷积一样并行化处理数据。并且其内部使用了大量的自注意力，使Transformer可以获得卷积所不具有的全局感受野。Transformer主要由两个部分组成，多头自注意力和前馈神经网络。前馈神经网络由两个全连接层和一个归一化层组成。为了使网络更具有表达能力。

多头注意力模型的核心是自注意力。它通过矩阵的变换与相乘，可以使输入的每一个序列与其他的序列***，从而获得全局的感受野，如图所示。假设输入序列是一个序列，它首先会乘上一个矩阵得到embedding。之后，embedding进入self-attention层，每一个向量乘上三个不同的Transformer矩阵，获得三个不同的向量Q，K，V。三个键值Q，K，V维度是相同的。K转置后与Q相乘得到attention矩阵。再将它取softmax操作，最终在乘以V得到最后的输出O，如图3表示，即：

O＝V·softmax(K^T·Q)

以往的方法通常采用基于卷积的编码器，这往往带来两难的选择，保持风格细节还是建立全局接受领域。如果本发明想要获得全局性的感受野接受领域，本发明必须通过使用足够深的网络进行多次下采样，以牺牲风格细节获得足够的语义信息。但在实际的情况操作中，为了保留更详细的样式信息，本发明通常只通过2-4个下采样过程，这样网络就不能获得足够的感受野接收场，也不能捕获足够的语义信息。

然而，对于人体姿态转换任务，输出图像是一组重新排列的输入图像像素，这就要求网络不仅要有保留源样式信息的能力，而且还要建立对图像的远程依赖关系。然而仅仅使用卷积的框架，很难实现这样的需求。为了解决这一问题，本发明决定引入Transformer至编码器，使网络获得更强的编码能力。鉴于Swin-Transformer可以有效地建立远程依赖关系并保留局部特征，本发明引入Swin-Transformer作为骨干网络，从源图像Is中提取风格特征，并从输入语义图I_p提取姿态特征。然后，本发明在MBConv中采用深度卷积来跟踪Swin-Transformer层，并利用shortcut方式保留源图像特性。它们一起构成了一个下采样模块。这样，网络不仅具有较强的表达能力，而且具有较快的收敛速度和良好的泛化能力。图4是本发明模型的总体概述。编码的结果风格特征图F_s包含源图像的风格信息，而姿态特征图F_p包含目标姿势的语义信息。

特征对齐网络

姿态转换是将像素块从条件姿态移动到目标姿态，并在不同的像素块之间建立依赖关系。从这个角度来看，姿态通过寻找在哪里提取条件像素块和在哪里放置目标像素块来指导传输，同时保持像素块之间的关系。在此基础上，本发明提出了Transformer与卷积相结合的特征对齐网络，以建立像素块之间的全局依赖关系和像素块内部的局部特征关系，能够帮助姿态特征图通过寻找在哪里提取原像素块和在哪里放置目标像素块，来指导传输纹理信息。在图5中，本发明展示了特征对齐网络的最后一个模块。通过多个对齐块，图像特征可以从源姿态逐渐转移到目标姿态。其中，每个模块使用样式特征来渲染姿态特征，完成姿态引导转换任务。第一个模块的输入是风格样式映射F_s和姿态特征映射F_p。当输出时，F_p被更新为在第n个对齐模块中，/>被更新为/>通过n个对齐块对F_p进行更新，得到最终的特征输出，并将其发送给解码器生成最终的结果。

由于本发明的对齐模块具有相同的结构，所以本发明只以最后一个模块为例来说明它们是如何工作的，其他模块同理，如图5所示。本发明的对齐模块由卷积网络和Transformer网络组成。Transformer网络侧重于建立全局依赖关系，而卷积网络侧重于局部特征。最终生成注意掩码图，其中注意掩码图的值介于0-1之间，表明每个像素位置的重要性。然后，将两个网络的结果逐个元素相乘，得到注意图F_attn为：

其中，Tran表示Transformer,C表示Concat，S表示Sigmoid，×表示元素相乘。卷积网络与Transformer网络共享一个共同的输入，通过将风格特征图F_s和姿态语义图F_p连接得到。

卷积网络是一个残差卷积层，它包含一个归一化BN层和一个激活函数层ReLU。Transformer网络由两个Transformer模块和一个归一化BN层组成。该方法将特征映射分割成像素块，然后利用多头自注意建立像素块之间的关系。从本发明获得灵感，然后本发明可以调整标准化特征的规置和偏差，由两个完全连接的卷积层从F_attn得到预测。/>将根据规置和偏差更新为/>其中(c∈Cⁱ,h∈Hⁱ,w∈Wⁱ)作为方程(2.3)的表示：

其中，C、H和W表示张量的通道、高度和宽度。和/>是学***均值和标准差。

Transformer合成网络

Transformer合成网络是从目标姿态产生符合集中语义的高质量图像。该合成网络通过引用范例中正确的对应区域，可以更容易地生成高质量的输出。在合成最终图像过程当中，让网络一直的关注正确的对应区域是至关重要的。这样可以使生成的图片产生较少的伪影，并减少预测的错误。图6给出了Transformer合成网络的一个模块示例。

为了迫使网络可以一直的保留正确的对应区域。本发明首先将由对齐网络生成的对齐样本和风格特征图F_s进行矩阵运算，得到对齐样本的相关矩阵M∈R^N×N。N代表了矩阵的尺寸，N＝4096。其中每个元素都是一个成对的特征相关矩阵，表示为：

其中，和/>表示位置u和v中/>和F_s的通道集中特征。相关矩阵包含目标样式和语义信息，本发明将其作用在合成阶段的每一个部分，获得相关范例场来约束网络生成正确的图片。首先，本发明根据Cocosnet的做法，使用相关矩阵来扭曲原图，获得对齐后的特征图/>(S_i-1)，可以表示为：

α表示权重。

然而，在之后的每个合成阶段都需要不同大小的相关矩阵，为了使其可以作用在合成的每个阶段，本发明需使用池化层来调整其尺寸。但是池化层会损失相关矩阵的空间上下文关系。为了解决这个问题，本发明提取特征图的空间上下文关系。具体来说，本发明将特征图S_i-1转换为特征向量，这是通过修改后的Swin-Transformer模块与1×1conv模块所获得的。本发明利用Swin-Transformer模块以全局方式关注区域特征，来建模特征图S_i-1的上下文关系。之后本发明通过1×1conv模块来提取特征图S_i-1的空间尺度信息。通过特征向量与相关矩阵相乘，可以获得一个相关范例场E。相关范例场E即可以保留图像的空间上下文关系，又保留了最相关的像素矩阵。可以用公式表示为：

其中×表示逐元素相乘，Up表示上采样。

Visformer证明了Transfomer嵌入层对于保持特征的重要性。与原始Swin-Transformer设计相比，本发明进一步引入连续的小卷积层来代替原来的单个大卷积层。本发明的方法能够更好地保存每个像素补丁的信息，在建模和建立像素补丁之间的长程依赖关系方面显著提高Transformer的能力。其中，本发明在嵌入中将卷积核的大小分别设置为4、2和1，步长分别设置为4、2和1。

损失函数

损失函数是为了约束网络生成正确的图片。本发明的全部训练损失包括一个条件对抗性损失、一个L1损失、一个感知损失和一个上下文损失。总损失函数定义为：

L_total＝λ_aL_adv+λ_L1λ_L1+λ_pL_per+λ_CXL_CX

其中λ_a，λ_L1，λ_p，λ_CX是平衡函数的超参数。

条件对抗损失函数

本发明采用两个判别器，分别为外观判别器D_A，来判断输出图像F_g与原图像I_s(外观一致性)相同的人体风格的可能性，形状判别器D_p来判断输出图像F_g与目标姿态I_p(形状一致性)的对齐程度。条件对抗性损失被定义为：

式中，E表示数学期望，，I_p表示输入语义图，I表示表示人物姿势的分布，Is表示源图像输入，I_t表示具有源图像外观和目标姿势的真人形象，P表示真人形象的分布，D_A表示外观判别器，F_g表示输出具有源图像外观和目标姿势的假人形象，P_g表示假人形象的分布，D_p表示形状判别器。

L1损失函数

L1损失表示生成的图像F_g与真实图像I_t之间的像素级差异，它计算的是两者误差的绝对值，对于任意大小的差值，其惩罚都是固定的。无论对于什么样的输入值，都有着稳定的梯度，不会导致梯度***问题，具有较为稳健性的解。其定义为：

L1＝||F_g-I_t||₁

感知损失函数

本发明采用感知损失来生成更真实的图像。它通过一个固定的网络，将输出值与真实值作为输入，得到对应的输出特征。网络越深，输出的对应特征越高级，越接近人类的感知水平。感知损失将生成的图片F_g和真实图片I_t经过预先训练的VGG-19网络获得激活图，然后计算激活图之间的L1距离，计算结果如下：

在VGG-19网络中本发明选择作为relu42层后的激活层，因为该层主要包含高层语义。

上下文损失函数

本发明采用提出的语意损失来匹配生成图像F_g和真实图像I_t之间的差值。上下文损失函数可以引导目标的空间变形，减少纹理失真，提高输出的合理性。本发明将上下文损失函数计算为：

L_CX＝-log(CX(F^l(F_g),F^l(I_t)))

这里F^l(F_g)和F^l(I_t)分别表示图像F_g和I_t的预训练VGG19网络中的特征映射。本发明使用激活层l＝relu{3_2,4_2}来计算上下文损失。CX表示匹配特征之间的相似度量，同时考虑像素的语义和整个图像的上下文信息。

实验结果

在本节中，本发明对框架和方法作全面的评估与验证。本发明首先介绍所使用的数据集。在介绍评估框架的各项指标。训练的策略和细节也将展示。还会从定性与定量的角度来评估的方法与其他方法的比较。最后，本发明通过消融实验来验证本发明所提出各个组件的有效性。图7为本发明在数据集Market-1501上生成的效果图。最左边的绿色男子单列图片是输入的风格图，第二列，四，六列分别为输入的目标语义图，语义图代表着不同的人体姿态，这些姿态环绕了人体的各个角度，包括了人体的六个不同的视角。第三，五，七列是生成的相应目标图。目标图具有原图的风格信息，也有着语义图对应的人体姿态。虽然输入只提供了人体的前面视角，但从图中看到，本发明成功的生成了对应姿态的真实图片，说明本发明的网络可以成功预测人体的各个角度和姿态。且在一些细节上，比如人体的头发，手部动作，和脚部这些微小的细节上，都生成了成功的真实图片。图8为本发明在数据集Deep Fashion In-shop上生成的结果图。最左边的蓝色女子单列图片是输入的风格图，第二列，四，六列分别为输入的语义图，语义图使用热力图代表，语义图代表着不同的人体姿态。第三，五，七列是生成的相应目标图。目标图具有原图的风格信息，也有着语义图对应的人体姿态。本发明同样生成了成功的真实图片。

数据集

本发明在两个数据集上进行了实验：人体姿态数据集Market-1501和DeepFashion In-shop服装检索基准数据集。Market-1501中的图像分辨率较低为128×64，图像在视点、背景、照明等方面有所不同，且背景复杂。Deep Fashion In-shop的模特图片有着时尚服装，其中有干净的背景，不同的人体姿态，不同的视角，且分辨率为256×256。本发明从Deep Fashion数据集中的101966个训练对和Market-1501的8570个测试对收集263632个训练对和12000个测试对。值得注意的是，测试集中的人员身份与训练集中的人员身份不同。

评价指标

本发明利用学***上计算生成的图像与真实图像之间的重建误差。同时，本发明使用FID计算生成图像与真实图像的初始距离来测量生成图像的真实度。它计算了Wasserstein-2生成的图像分布与真实图像之间的距离。此外，本发明采用峰值信噪比(PSNR)来计算像素级生成的图像与真实图像之间的误差。

训练细节

本发明训练的模型在有着256256张图像的Deep Fashion数据集和12864张图片的Market-1501数据集。本发明采用β₁＝0，β₂＝0.999的Adam优化器。对于学习率，本发明分别设置0.0001和0.0002，生成器和判别器是遵循TTUR的法则。损失函数项的权值分别设为λ_a＝10，λ_p＝0.0001，λ_L1＝10，λ_CX＝0.001。本发明的方法训练的框架是使用24GB内存的NVIDIARTX3090 GPU在PyTorch中实现的。此外，在特征对齐网络中，本发明使用了三个对齐模块。在Transformer合成网络中，本发明使用了两个合成模块。训练时，本发明的输入是将原图与目标姿态图拼接在一起，共同输入到网络模型中。在训练Deep Fashion数据集时，输入的分辨率为256×256，对齐模块作用的特征图分辨率为16×16，合成模块作用的特征图分辨率分别为16×16，32×32，64×64。在训练Market-1501数据集时，本发明输入的分辨率为128×64，对齐模块作用的特征图分辨率为16×8，合成模块作用的特征图分辨率分别为16×8，32×16，64×32。本发明是端到端的训练，在Deep Fashion数据集上一共训练了150轮，在第75轮时学习率递减，在150轮时趋近与0。

本发明在Market-1501数据集上训练了200轮，在第100轮时学习率递减，在第200轮时学习率趋近与0。所有训练的批处理大小都被设置为8。本发明网络结构如表1所示，k为卷积核大小，s为卷积的步长。表2展示了本发明模型的整体结构与各个网络所使用的具体参数。在第一列为本发明所提出的模型，分别为Transformer编码器，对齐模块，合成网络。第二列为每个模型的层数，Alignment Block为本发明所提出的对齐网络中的模块，Synthesis Block为本发明提出的Transformer合成网络中的模块。第三列为每个模型对应的输出图片大小，表示的方式是以高，宽，通道的三维矩阵的表示方式。

表1模型的结构

定性比较

本发明对Market-1501和Deep Fashion数据集进行了定性比较，采用了几种比较先进的方法，包括Pose-Attn，BiGraph，XingGAN，PoNA，GFLA，PISE和Pose2Pose。图9和图10显示了一些定性比较。

对于Deep Fashion数据集，PATN提出了几个级联注意力转换模块，但这些注意力转换模块有着低的转换效率。如图9第四列所示，它所生成的图片风格和纹理比较模糊，且在最后一行生成了错误的结果。如图9第五列是BiGrapth生成的结果。从图中可以看到该方法无法生成清晰的图像，且有着模糊的纹理，是由于该模型中缺乏全局感受野，因此无法预测复杂的纹理。第六列和第七列是XingGAN和PoNA所生成的结果图。这两种方法利用Non-local注意模块获得全局感受野，但是Non-local模块中的键值分别关注在不同的区域，即风格图和语义图。结果降低了网络的生成能力，所以生成的图片有着低的质量。在图9第三行中，它们都生成了错误的结果图。所以这两种方法要生成合理的图像是很困难的。第八列是GFLA生成的图片，它们使用了基于流的方法，它们使用原风格图，原姿态图，目标姿态图预测了一个全局的流场，生成了较好的结果，但是他们需要两个阶段的训练，并且他们不能预测源图像的不可见区域的一些细微的纹理和形状。如在最后一行的人体胳膊上，生成了较模糊的伪影。且该方法不是端到端的训练，需要更多的训练时间和资源。第九列是PISE所生成的结果图。该方法引入了额外的语义图来辅助完成人体姿态转换的任务。但其增加了更多的计算生成的效果也不是令人满意。本发明的方法匹配语义映射和对齐的范例，并将Transformer引入到本发明的方法中。它能够生成具有正确姿势和生动细节的逼真图像。

对于Market-1501数据集，它有着一个低分辨率和复杂的背景，对于生成正确高清的图片有一定的难度。但本发明的方法展示了强大的建模与生成能力，并且可以生成更多的自然和清晰的图像。如图10所示，第四列PATN生成了较模糊的结果图。第五列与第六列的BiGraph和XingGAN的方法在图片的颜色在感知方面与目标图差距较大。与第七列与第八列的PoNA和GFLA方法相比，本发明的方法可以恢复更多的细节，有少的伪影，且生成的图片是高清的图片。

定量比较

表2给出了本发明的模型与几种比较先进的方法相比的定量结果：Pose-Attn，PoNA，XingGAN，BiGraph，GFLA，Pose2Pose和PISE。由于Pose2Pose，PISE不提供在Market-1501数据集上的预训练模型，本发明只在Deep Fashion数据集上与它进行比较。对于DeepFashion，本发明的结果有着最好的FID分数。并且比目前最好的方法高出了1.71的分数。这意味着本发明生成的图像与真实图像之间的初始距离更近。也证明本发明的方法生成更真实，也更加接近真实的图片。此外，本发明也采用LPISP算法计算感知水平的相似度，PSNR算法测量像素水平的误差。本发明的方法在LPIPS和PSNR两项数值上都取得了最好的效果。在LPIPS的数值上，本发明比表中最好的方法高出了0.0116的分数。在PSNR的数值上，本发明的方法也比表中最好的方法高出了0.59的分数。这表明本发明的方法在像素级误差较小，在形状和纹理上与目标图像更加一致也在感知程度上与真实图片更加接近。对于Market-1501，定量结果表明，本发明的方法生成的图像在形状和纹理上更接近于真实图像，本发明的指标优于大多数其他方法，即使条件图像的分辨率较低，姿态和背景的显著变化。

表2定量比较

消融实验

本发明训练几个消融模型来验证假设和验证每个组件的有效性。

1)全局编码器(Global Enc)：本发明只使用Transformer作为编码器的骨干网络，使网络可以获得一个全局接收领域，但是却没有卷积的归纳偏置的能力。本发明用全局编码器来验证网络只关注全局信息是否可以生成正确的图像。本发明首先会使用卷积将图像下采样到128×128。这是因为当分辨率太大时，Transformer网络会消耗巨大的计算资源，所以本发明首先将图像下采样至合适的分辨率。在采用Transformer骨干网络来提取图像的特征。

2)局部编码器(Local Enc)：本发明只使用卷积作为编码器的骨干网络，使网络只注意到局部信息，而没有建模全局依赖的能力，来比较卷积骨干网络和Transformer骨干网络两者的优势。

3)无特征对齐网络模型(w/o FA)：在该模型中，本发明从全模型中移除了特征对齐网络，来验证特征对其网络对结果图像的影响。没有特征对齐网络，图像信息无法从源图像转换到目标图像。本发明将图片经过编码器，直接送入到Transformer合成网络来生成最终的图像。

4)无Transformer合成网络模型(w/o SN)：在该模型中，本发明将Transformer合成网络从完整模型中移除，来验证Transformer合成网络对结果图的影响。没有Transformer合成网络，网络不能完全关注到正确的区域特征。

5)完整模型(Full Model)：本发明在这个模型中使用本发明提出的框架，包括本发明所示提出的卷积和Transformer编码器，特征对齐网络和Transformer合成网络。

表3消融实验定量比较

Deep Fashion测试图像的定量结果如表3所示。全局编码器和局部编不错的数值。但是局部编码器的FID数值要比全局编码器的数值要高5.19。这说明卷积网络的局部偏差对于整个模型有着重要的影响。但是Transformer建立全局依赖的能力同样不能缺失。但与全局编码器和局部编码器相比，本发明由卷积和Transformer组成的编码器比纯卷积和纯Transformer编码器产生更好的结果。说明卷积和Transformer以本发明的方法结合在一起，可以使卷积和Transformer各自发挥它们原有的优势，提升了网络的能力。此外，特征对齐网络通过几个级联的对齐模块，将原图像逐渐转移至目标图像，这可以将源样式映射与目标样式映射对齐，可以更好地为合成最终图像提供先验信息。在合成图像时，Transformer合成网络提供的全局感受野也很重要。并且该模块使网络在合成最终图像时，使网络保留了最相关的区域，并为网络提供正确的相关像素，因此生成了更好的图片质量。评估指标FID，PSNR和LPIPS证明了这一点。

图11显示了消融研究的一些直观的视觉结果。可以看出，全局编码器只关注于图像的全局信息，但是忽略了图像的局部细节信息。如在第四列，第一行中短裤所展示的，短裤上的细节信息并不能生成。局部编码器只能关注于图像的局部信息，但是不能完全建立图像的上下文关系。如在第五列，第二行所展示的。所生成的人体在胳膊和手部并不是正确的语义代表。这是因为忽略了图像上下文关系所导致的。虽然这两种编码器都可以生成正确的结构图片。但是，它们只关注全局或局部信息，最终的纹理细节或者是图像的正确性并不能令人满意。图像信息的转换是发生在对齐网络中，图像特征从原图像，通过几个级联的对齐模块，根据语义信息逐渐转换至目标图像。如果没有特征对齐网络，特征信息的转换效率会低下，并不能完全的将图像从原图转换到目标图像，并且得到的图像会部分模糊。如在第五列第四行上衣所展示的。Transformer合成网络将为合成最终的图像提供了正确的区域特征，这会防止网络合成错误的区域特征，这对合成最终图像是重要的。没有Transformer合成网络，模型则不能保留更多的细节，也会生成一些错误的区域特征。且不能生成正确的图像，如第七列，第三行的短裤，第四行，五行的上衣所显示的。

本发明探讨了基于Transformer的人体姿态转换任务的实现方法。该方法首先生成与目标姿态对齐的图像，然后逐步生成高质量的图像。实验结果表明，该模型能同时考虑全局和局部信息，生成具有逼真细节的真实图像。此外，消融研究还验证了各设计部件的有效性。然而，本发明的方法有一些缺点。本发明的模型可能比以前基于卷积的方法计算量更大。在未来，本发明将提高模型的方法的效率，引入新的Transformer从其他空间变形任务，如人脸动画。

1.本发明提出了一种基于Transformer的特征对齐姿态转换网络框架，该框架既能利用全局依赖关系，又能保留细节特征。人体姿态转换网络的实验结果表明了该方法的灵活性和优越性。

2.本发明提出了一种基于Transformer和多级联块卷积的对齐网络，该网络可以在嵌入和解纠结特征空间中对源图像和目标图像进行对齐。

3.本发明提出了Transformer合成网络来维护样本中相应区域的特征，并通过对前一阶段的结果与对齐特征和源图像之间的相关矩阵进行扭曲来反复生成高质量的图像。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于图像特征对齐的人体姿态迁移方法，其特征在于，包括

2.根据权利要求1所述的基于图像特征对齐的人体姿态迁移方法，其特征在于，其中，特征对齐网络模块包括Transformer网络以及卷积网络，i＝2，···，n，第i-1个特征对齐网络模块的输出作为第i个特征对齐网络模块的第一输入，姿态特征映射F_s作为第i个特征对齐网络模块的第二输入，第i个特征对齐网络模块的第一输入包括并列的第一输入分支一/>和第一输入分支二/>第一输入分支一/>与第二输入F_s通过连接层，连接层输出分别并列输入Transformer网络以及卷积网络，Transformer网络以及卷积网络的输出点积操作，得到注意图F_attn，注意图F_attn包括并列的第一输出F_attn以及第二输出F_attn，第一输出F_attn通过1×1卷积，再与第一输入分支二/>点积操作得到第一结果，第二输出F_attn通过1×1卷积，再与第一结果相加操作，得到第i个特征对齐网络模块的输出/>

3.根据权利要求1或2所述的基于图像特征对齐的人体姿态迁移方法，其特征在于，其中，合成网络模块包括Transformer网络、1×1卷积、Reshape模块以及上采样模块，第i-1个合成网络模块的输出C×(i-1)H×(i-1)W的特征图S_i-1，i＝2，···，n，作为第i个合成网络模块的第一输入，相关矩阵M作为第i个合成网络模块的第二输入，第i个合成网络模块的第一输入包括并列的第一输入分支一特征图S_i-1和第一输入分支二特征图S_i-1，第一输入分支一特征图S_i-1经过Transformer网络、1×1卷积网络，得到1×H×W的特征图一，特征图一经过Reshape模块，得到HW的第一向量，相关矩阵M经过第i-1个合成网络模块的平均池化层得到输出向量，第一向量与输出向量相乘操作，得到HW的第二向量，HW的第二向量经过Reshape模块，得到1×H×W的特征图二，特征图二与特征图S_i-1点乘操作，得到C×(i-1)H×(i-1)W的特征图三，特征图三经过上采样模块，得到C×iH×iW的特征图S_i。

4.根据权利要求3所述的基于图像特征对齐的人体姿态迁移方法，其特征在于，第i个特征对齐网络模块的注意图F_attn由下式表示：

5.根据权利要求4所述的基于图像特征对齐的人体姿态迁移方法，其特征在于，

第i个特征对齐网络模块的输出由下式表示：

和/>表示学习的调制参数；

是/>依次输入第i^th层归一化层和激活层后的输出特征；

和/>是/>在通道c的平均值和标准差。

6.根据权利要求5所述的基于图像特征对齐的人体姿态迁移方法，其特征在于，相关矩阵M由下式表示：

7.根据权利要求6所述的基于图像特征对齐的人体姿态迁移方法，其特征在于，特征图S_i-1由下式表示：

8.根据权利要求7所述的基于图像特征对齐的人体姿态迁移方法，其特征在于，特征图S_i由下式表示：

9.根据权利要求8所述的基于图像特征对齐的人体姿态迁移方法，其特征在于，

总损失函数L_total：

L_total＝λ_aL_adv+λ_L1L_L1+λ_pL_per+λ_CXL_CX

10.根据权利要求9所述的基于图像特征对齐的人体姿态迁移方法，其特征在于，

L1＝||F_g-I_t||₁

式中，表示激活层

L_CX＝-log(CX(F^l(F_g),F^l(I_t)))