CN111739115A

CN111739115A - 基于循环一致性的无监督人体姿态迁移方法、***及装置

Info

Publication number: CN111739115A
Application number: CN202010583710.7A
Authority: CN
Inventors: 郭海云; 王金桥; 唐明; 刘松岩
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-10-02
Anticipated expiration: 2040-06-23
Also published as: CN111739115B

Abstract

本发明属于领域，具体涉及了一种基于循环一致性的无监督人体姿态迁移方法，旨在解决现有的姿态迁移方法在跨身份人体姿态迁移任务中适应性差、生成图像质量较低的问题。本发明包括：获取一个人体图像和另一目标姿态并根据人体图象和目标姿态通过基于循环一致性的无监督对抗网络生成姿态迁移图像，所述基于循环一致性的无监督对抗网络通过无身份标签的训练图像以及设定的全局损失函数进行迭代训练。本发明提高了跨身份人体姿态迁移任务的适应性，提高了生成图像的质量。

Description

基于循环一致性的无监督人体姿态迁移方法、***及装置

技术领域

本发明属于模式识别领域，具体涉及了一种基于循环一致性的无监督人体姿态迁移方法、***及装置。

背景技术

人体姿态迁移属于图像生成领域的子问题。给定一个人体图像和一个目标姿态，人体姿态迁移旨在生成该人体在目标姿态下的图像，如图4所示。目前的人体姿态迁移技术主要集中于有监督的方法，这类技术在训练过程中需要一个输入的人体图像在目标姿态下的真实图像作为图像生成的学习目标。这种方法主要存在三个缺陷：首先，它需要训练数据具备身份标注信息，也就是需要同一个人在不同姿态下的图像对来监督网络训练，这种对训练数据的高要求大大限制了方法的适用性；其次，不同姿态的行人图像往往背景也并不完全相同，而现有方法一般以最小化生成图像与目标图像之间的重构误差为优化目标，即不仅约束生成图像中行人姿态与目标姿态一致，还要求生成图像的背景也与目标图像的背景一样，这种训练方式会导致背景过拟合，从而影响进一步的应用；最后，真实应用场景中往往需要的是跨身份人体姿态迁移，即目标姿态由与输入行人身份不同的另一幅行人图像的姿态估计结果指定。姿态估计结果不仅包含了姿态信息，还耦合了行人高矮胖瘦等体态信息。现有方法训练时仅仅使用了同一身份的行人图像对，因此在跨身份人体姿态迁移任务中适应性较差，导致生成图像质量较低。

发明内容

为了解决现有技术中的上述问题，即现有的姿态迁移方法在跨身份人体姿态迁移任务中适应性差、生成图像质量较低的问题，本发明提供了一种基于循环一致性的无监督人体姿态迁移方法，所述方法包括：

步骤S10，获取第一人体图像和第一目标姿态；

步骤S20，基于所述第一人体图像和第一目标姿态，通过训练好的图像迁移网络的生成器G生成第一姿态迁移图像；

其中，所述图像迁移网络为基于无监督对抗网络构建，并通过无身份标签的训练图像以及设定的全局损失函数进行迭代训练获得的用于生成目标姿态下输入图像对应的姿态迁移图像的网络；所述图像迁移网络包括生成器G和判别器D；所述设定的全局损失函数包括姿态一致性损失函数

对抗损失函数

循环一致性损失函数

和自身一致性损失函数

在一些优选的实施方式中，所述方法还包括图像迁移网络更新的步骤：

步骤S30，基于所述第一人体图像，通过预设的人体姿态估计方法获取第二目标姿态；

步骤S40，基于所述第一姿态迁移图像和第二目标姿态，通过所述图像迁移网络的生成器G生成第一重构图像；

步骤S50，基于所述第一人体图像和第一重构图像，计算所述图像迁移网络的循环一致性损失，当所述循环一致性损失高于预设的阈值时，再次进行所述图像迁移网络的迭代训练，获得更新后的图像迁移网络。

在一些优选的实施方式中，所述基于循环一致性的无监督对抗网络，其训练方法为：

步骤B10，获取第一人体训练图像和第二人体训练图像，并分别通过预设的人体姿态估计方法获取所述第一人体训练图像对应的第一训练姿态以及所述第二人体训练图像对应的第二训练姿态；

步骤B20，基于所述第一人体训练图像和第二训练姿态，通过所述图像迁移网络的生成器G生成第一迁移训练图像；基于所述第二人体训练图像和第一训练姿态，通过所述图像迁移网络的生成器G生成第二迁移训练图像；

步骤B30，基于所述第一人体训练图像、第一迁移训练图像和第二人体训练图像、第二迁移训练图像计算姿态一致性损失函数

基于所述第一人体训练图像、第一迁移训练图像、第一训练姿态和第二人体训练图像、第二迁移训练图像、第二训练姿态，通过所述图像迁移网络的判别器D计算对抗损失函数

步骤B40，通过所述图像迁移网络的生成器G，基于所述第一迁移训练图像和第一训练姿态生成第一重构训练图像，基于所述第二迁移训练图像和第二训练姿态生成第二重构训练图像；

步骤B50，基于所述第一人体训练图像、第一重构训练图像和所述第二人体训练图像、第二重构训练图像计算循环一致性损失函数

步骤B60，基于所述第一人体训练图像、第一训练姿态和所述第二人体训练图像、第二训练姿态，通过所述图像迁移网络的生成器G生成第一自身迁移图像和第二自身迁移图像，并根据所述第一自身迁移图像、第一人体训练图像和第二自身迁移图像、第二人体训练图像计算自身一致性损失函数

步骤B70，通过随机梯度下降法调整生成器G和判别器D的参数，多次迭代直至达到预设的迭代次数或满足：

其中

为全局损失函数；

得到训练好的用于生成目标姿态下输入图像对应的姿态迁移图像的网络

进一步地，所述全局损失函数为：

其中，

为对抗损失函数，λ_adv为对抗损失函数的权重系数，

为循环一致性损失函数，λ_cyc为循环一致性损失函数的权重系数，

为自身一致性损失函数，λ_ide为自身一致性损失函数的权重系数，

为姿态一致性损失函数，λ_pose为姿态一致性损失函数的权重系数。

进一步地，姿态一致性损失函数

为：

其中，n表示预设的人体姿态估计模型中在n个不同的特征层有n个不同的关键点特征图，x′₁为第一迁移训练图像，x₂为第二人体训练图像，x′₂为第二迁移训练图像，x₁为第一人体训练图像，R_i为一个预训练的深度卷积网络。

进一步地，所述对抗损失函数

为：

其中，(x₁,p₁)为第一人体训练图像-第一训练姿态对，(x₂,p₂)为第二人体训练图像-第二训练姿态对，(x′₁,p₂)为第一迁移训练图像-第二训练姿态对，(x′₂,p₁)为第二迁移训练图像-第一训练姿态对。

进一步地，所述循环一致性损失函数

为：

其中，

为联合L₁损失函数，其由像素级别的L₁损失和感知L₁损失组成，(x₁,p₁)为第一人体训练图像-第一训练姿态对，(x₂,p₂)为第二人体训练图像-第二训练姿态对，(x″₁,x₁)为第一重构训练图像-第一人体训练图像对，(x″₂,x₂)为第二重构训练图像-第二人体训练图像对；

所述感知L₁损失使用一个预训练好的深度卷积网络分别提取输入图像及其重构的特征，然后对这个特征进行约束：

其中，R为一个预训练的深度卷积网络，x为人体训练图像，x″为重构训练图像。

进一步地，所述自身一致性损失函数

为：

其中，

为联合L₁损失函数，其由像素级别的L₁损失和感知L₁损失组成；x₁为第一人体训练图像，G(x₁,p₁)为第一自身迁移图像，x₂为第二人体训练图像，G(x₂,p₂)为第二自身迁移图像。

本发明的另一方面，提出了一种基于循环一致性的无监督人体姿态迁移***，包括资料获取模块100和姿态迁移模块200；

所述资料获取模块100，用于获获取第一人体图像和第一目标姿态；

所述姿态迁移模块200，用于基于所述第一人体图像和第一目标姿态，通过训练好的图像迁移网络的生成器G生成第一姿态迁移图像；

对抗损失函数

循环一致性损失函数

和自身一致性损失函数

进一步地，所述***还包括图像迁移网络更新子***；所述图像迁移网络更新子***包括自身姿态生成模块300、重构图像生成模块400和损失计算模块500；

自身姿态生成模块300，用于基于所述第一人体图像，通过预设的人体姿态估计方法获取第二目标姿态；

重构图像生成模块400，用于基于所述第一姿态迁移图像和第二目标姿态，通过所述生成器G生成第一重构图像；

重构损失计算模块500，用于基于所述第一人体图像和第一重构图像，计算所述图像迁移网络的循环一致性损失，当所述循环一致性损失高于预设的阈值时，再次进行所述图像迁移网络的迭代训练，获得更新后的图像迁移网络。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于循环一致性的无监督人体姿态迁移方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于循环一致性的无监督人体姿态迁移方法。

本发明的有益效果：

(1)本发明基于循环一致性的无监督人体姿态迁移方法，采用无监督的对抗网络提高了跨身份人体姿态迁移生成图像的质量，有效地避免了背景过拟合的问题；

(2)本发明基于循环一致性的无监督人体姿态迁移方法，通过基于对抗损失函数、循环一致性损失函数、自身一致性损失函数和姿态一致性损失函数对图像迁移网络进行训练，提高了姿态迁移任务中生成图像的质量；

(3)本发明基于循环一致性的无监督人体姿态迁移方法，采用无监督对抗网络的方式，摆脱了现有技术中训练图像对身份标签的依赖，提高了姿态迁移方法的适应性。

(4)本发明基于循环一致性的无监督人体姿态迁移方法，由于图像迁移网络的训练过程中跨身份行人图像数据的大量引入，其生成器在训练过程中已经对耦合在人体姿态信息中的行人体态信息进行隐式建模，能够更好地适应跨身份人体姿态迁移任务。

(5)本发明基于循环一致性的无监督人体姿态迁移方法，支持双样本的输入，提高了网络的训练效率，本发明可以利用更易获取的不包含身份信息的跨身份图像对，也就是大量来自不同人的各种姿态图像，因此对训练数据的要求更低，更易训练，并且可以针对行人识别的相关任务进行针对性的数据增强。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于循环一致性的无监督人体姿态迁移方法的流程示意图；

图2是本发明基于循环一致性地无监督人体姿态迁移方法损失计算流程示意图；

图3是本发明基于循环一致性的无监督人体姿态迁移方法中用于生成目标姿态下输入图像对应的姿态迁移图像的网络训练流程示意图；

图4是现有技术中的有监督人体姿态迁移方法的原理示意图；

图5是本发明基于循环一致性的无监督人体姿态迁移方法及损失计算原理示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于循环一致性的无监督人体姿态迁移方法，本方法包括：

步骤S10，获取第一人体图像和第一目标姿态；

步骤S20，基于第一人体图像和第一目标姿态通过训练好的用于生成目标姿态下输入图像对应的姿态迁移图像的网络中的生成器G生成第一姿态迁移图像；

其中，用于生成目标姿态下输入图像对应的姿态迁移图像的网络为基于无监督对抗网络构建，并通过无身份标签的训练图像以及设定的全局损失函数进行迭代训练获得的用于生成目标姿态下输入图像对应的姿态迁移图像的网络；无监督对抗网络包括生成器G和判别器D。

为了更清晰地对本发明基于循环一致性的无监督人体姿态迁移方法进行说明，下面结合图1本发明基于循环一致性的无监督人体姿态迁移方法的流程示意图对本发明实施例中个步骤展开详述。

本发明一种实施例的基于循环一致性的无监督人体姿态迁移方法，包括步骤S10-步骤S20，各步骤详细描述如下：

步骤S10，获取第一人体图像和第一目标姿态；

其中第一目标姿态可以来自于另一个身份的人体图像；

同时输入一个人体图像和一个目标姿态，使用生成器即可生成该人在目标姿态下的图像，并且可以保持背景信息不发生变化。而生成的图像可以用来进行行人识别相关任务的数据增强，例如行人重识别和行人检测。

对抗损失函数

循环一致性损失函数

和自身一致性损失函数

生成器将人体图像x_s与目标姿态p_t作为输入，输出对应姿态的图像x′_s。为了使生成图像和目标姿态更加匹配，判别器除了判别输入图像的真假外，还判别生成图像x′_s是否与目标姿态p_t对应。因此本发明将生成图像与目标姿态并联输入到判别器中。

如图3本发明基于循环一致性的无监督人体姿态迁移方法中用于生成目标姿态下输入图像对应的迁移图像的网络训练流程示意图所示；

本发明的目标是学习到一个从输入人体图像x_s到目标姿态下p_t的人体图像x′_s的映射。然而，由于没有真实图像作为监督，本发明构建了一个循环一致性约束，也就是再将x′_s使用相同的方法映射到输入图像的姿态p_s上，得到重构的输入图像x″_s，其应与x_s相似。

为了提升训练效率，本发明同时输入两幅图像，然后通过两次交换它们的姿态以得到输入人体图像的重构，首先输入两个人体图像-姿态对(x₁,p₁)、(x₂,p₂)，然后使用生成器G交换它们的姿态：

x′₁＝G(x₁,p₂)；x′₂＝G(x₂,p₁)

然后再次交换姿态得到重构的输入图像：

x″₁＝G(x′₁,p₁)；x″₂＝G(x′₂,p₂)

本发明中用于生成目标姿态下输入图像对应的姿态迁移图像的网络训练方法包括步骤B10-步骤B50，各步骤详细描述如下：

本实施例中，预设的人体姿态估计方法采用OpenPose模型(来自论文OpenPose:Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields)实现。

步骤B30基于所述第一人体训练图像、第一迁移训练图像和第二人体训练图像、第二迁移训练图像计算姿态一致性损失函数

步骤B70，通过随机梯度下降法调整生成器G和判别器D的参数，多次迭代直至达到预设的迭代次数或满足公式(1)：

其中

为全局损失函数；

得到训练好的用于生成目标姿态下输入图像对应的姿态迁移图像的网络。

求解公式(1)为本网络训练的目标，相较于现有技术的最小化重构图像与原图的损失，有效地避免了背景拟合问题。

在本实施例中，全局损失函数如公式(2)：

其中，

为对抗损失函数，λ_adv为对抗损失函数的权重系数，

本实施例中{(x_i,p_i)}_i＝1...N表示数据集中人体图片与其对应的姿态的集合，其中i为图像序号，x_i为人体图像，p_i为其对应的姿态。p_i由一个18通道的热力图组成，这个热力图编码了人体上18个关键点的位置。同已有的方法相同，本实施例使用在MSCOCO数据集上预训练的OpenPose模型来估计这18个关键点的位置。

在本实施例中，姿态一致性损失函数

如公式(3)所示：

若自身一致性损失、循环一致性损失、对抗损失对生成地图像姿态缺乏强有力的约束，那么生成器可能丢弃掉输入的目标姿态而彻底退化为一个恒等函数。因此，本发明提出姿态一致性损失，使用在MSCOCO数据集上训练好的OpenPose姿态识别网络提取输入图像和生成图像的姿态特征并使用均方误差损失对其进行约束。OpenPose模型中在6个不同的特征层有6个不同的关键点特征图，本发明将这6个特征图的均方误差取和作为姿态一致性损失，即公式(3)中的n取值为6。

在本实施例中，为了使得生成的图像更加接近真实图像并且更加符合目标姿态，本发明使用对抗训练，将姿态和图像并联，一同输入到判别器D中，对抗损失函数

如公式(4)所示：

在本实施例中，循环一致性损失函数

如公式(5)所示；

其中，

为联合L₁损失函数，与论文ProgressivePose Attention Transfer for Person Image Generation相似其由像素级别的L₁损失(combined-L₁ loss)和感知L₁损失(perceptual-L₁ loss)组成，(x₁,p₁)为第一人体训练图像-第一训练姿态对，(x₂,p₂)为第二人体训练图像-第二训练姿态对，(x″₁,x₁)为第一重构训练图像-第一人体训练图像对，(x″₂,x₂)为第二重构训练图像-第二人体训练图像对；

感知L₁损失使用一个预训练好的深度卷积网络分别提取输入图像及其重构的特征，然后对这个特征进行约束如公式(6)所示：

本实施例中可使用在MSCOCO数据集上训练的OpenPose姿态估计网络提取特征，计算感知损失，这样可以与姿态一致性损失共享网络以节省计算资源。可以使用其它的卷积网络达到类似效果，此处不做具体限定。

在本实施例中，自身一致性损失函数

如公式(7)所示：

其中，

在本实施例中，基于循环一致性的无监督人体姿态迁移方法还设置了检验网络是否需要继续训练的方法，如图2本发明基于循环一致性地无监督人体姿态迁移方法损失计算流程示意图和图5本发明基于循环一致性的无监督人体姿态迁移方法及损失计算原理示意图所示，包括步骤S30-S50,详细描述如下：

步骤S40，基于所述第一迁移图像和第二目标姿态，通过所述图像迁移网络的生成器G生成第一重构图像；

如图4现有技术中的有监督人体姿态迁移方法的原理示意图所示，现有的人体姿态迁移方法都是通过有监督的对抗网络完成的，有监督的对抗网络在训练时需要有对应于输入图像同身份的目标姿态下的图像作为监督目标，并且无法进行跨身份的训练，适应性较差，而且以最小化生成图像与目标图像之间的重构误差为优化目标，不仅约束生成图像中行人姿态与目标姿态一直，还要求生成图像的背景也与目标图像的背景一样，容易导致背景过拟合。

本发明提供了一种基于循环一致性的无监督人体姿态迁移方法，采用无监督的对抗网络提高了跨身份人体姿态迁移生成图像的质量有效地避免了背景过拟合的问题，对抗损失函数、循环一致性损失函数、自身一致性损失函数和姿态一致性损失函数对循环一致性无监督对抗网络进行训练，提高了姿态迁移任务中生成图像的质量，摆脱了现有技术中训练图像对身份标签的依赖，提高了姿态迁移方法的适应性，训练过程中跨身份行人图像数据的大量引入，生成网络在训练过程中已经对耦合在人体姿态信息中的行人体态信息进行隐式建模，能够更好地适应跨身份人体姿态迁移任务。

本发明第二实施例的一种基于循环一致性的无监督人体姿态迁移***，包括资料获取模块100和姿态迁移模块200；

所述姿态迁移模块200，用于基于所述第一人体图像和第一目标姿态，通过训练好的图像迁移网络的生成器G生成第一迁移图像；

其中，所述图像迁移网络为基于无监督对抗网络构建，并通过无身份标签的训练图像以及设定的全局损失函数进行迭代训练获得的用于生成目标姿态下输入图像对应的迁移图像的网络；所述图像迁移网络包括生成器G和判别器D；所述设定的全局损失函数包括姿态一致性损失函数

对抗损失函数

循环一致性损失函数

和自身一致性损失函数

在本实施例中，所述***还包括图像迁移网络更新子***；所述图像迁移网络更新子***包括自身姿态生成模块300、重构图像生成模块400和损失计算模块500；

所述自身姿态生成模块300，用于基于所述第一人体图像，通过预设的人体姿态估计方法获取第二目标姿态；

所述重构图像生成模块400，用于基于所述第一迁移图像和第二目标姿态，通过所述图像迁移网络的生成器G生成第一重构图像；

所述损失计算模块500，用于基于所述第一人体图像和第一重构图像，计算所述图像迁移网络的循环一致性损失，当所述循环一致性损失高于预设的阈值时，再次进行所述图像迁移网络的迭代训练，获得更新后的图像迁移网络。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于循环一致性的无监督人体姿态迁移，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于循环一致性的无监督人体姿态迁移方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于循环一致性的无监督人体姿态迁移方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。