CN110349240A

CN110349240A - 一种无监督下基于姿势转换的行人图片合成方法和***

Info

Publication number: CN110349240A
Application number: CN201910559407.0A
Authority: CN
Inventors: 涂鹏琦; 桑农; 高常鑫
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-18

Abstract

本发明公开了一种无监督下基于姿势转换的行人图片合成方法和***，属于计算机视觉技术领域，包括：将待合成行人图片和期望姿势输入图片合成模型，得到期望姿势下的行人图片；图片合成模型的训练包括：将原始图片、原始姿势和原始图片的期望姿势输入生成器，得到期望姿势下的图片，将期望姿势下的图片、原始姿势和原始图片的期望姿势输入生成器，得到原始姿势下的图片，利用原始图片和原始姿势下的图片进行对比得到语义内容损失进行反向传播；利用判别器对生成器得到的图片进行判别得到图像对抗性损失进行反向传播；进而得到训练好的图片合成模型。本发明使得模型能够自己产生所需要的监督信息，同时不会丢失细节信息、也不会产生空间变形。

Description

一种无监督下基于姿势转换的行人图片合成方法和***

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种无监督下基于姿势转换的行人图片合成方法和***。

背景技术

随着社会生产力的发展与科技的进步，人类的生活也在逐渐的发生转变。曾经需要耗费大量人力与时间完成的任务，现在可交由计算机来进行处理。而计算机视觉就是这些技术中的一个研究热点，它涵盖了图像处理，模式识别，机器学习等学科。如今深度学习技术的快速发展，为计算机视觉领域的研究提供了许多新的研究方向，取得了许多令人瞩目的成果。而行人图片合成是计算机视觉领域的一个重要研究方向，越来越多的人投入到其中，可应用于时尚和电子商务业务，自动编辑和动画静态图像的摄影技术，以及电影业等等。而那些用于计算机视觉其他研究领域的方法在行人图片合成上并没有取得令人满意的效果，因此需要新的方法和思路应用到行人图片合成领域。

在进行特定姿势下行人的图片合成时，既要考虑到行人的服装、性别等的不变性，也要考虑到行人姿势在合成过程中的转换。我们通过合成能得到行人在各种不同姿势的行人图片，可以用来扩充行人数据集，对行人重识别等领域的研究具有很大的帮助。合成得到的图片可以投入到应用的前提是要保证合成图片的质量以及与原始图片中行人身份的一致性，因此对行人图片合成技术和方法的性能提出了极高的要求。然而，行人图片合成目前面临着诸多挑战，比如图片合成过程中细节信息丢失、空间变形、监督信息的缺乏等，现有的方法对在解决这些问题上的效果并不是那么令人满意。

由此可见，现有技术存在细节信息丢失、空间变形、监督信息缺乏的技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种无监督下基于姿势转换的行人图片合成方法和***，由此解决现有技术存在细节信息丢失、空间变形、监督信息缺乏的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种无监督下基于姿势转换的行人图片合成方法，包括：

将待合成行人图片和期望姿势输入图片合成模型，得到期望姿势下的行人图片；

所述图片合成模型的训练包括如下步骤：

(1)构建包含姿势提取器、判别器和生成器的图片合成模型，所述生成器中使用跳跃连接结构；

(2)使用姿势提取器对数据集中的原始图片进行行人姿势提取得到原始姿势，为数据集中的原始图片随机选择原始图片的期望姿势；

(3)将原始图片、原始姿势和原始图片的期望姿势输入生成器，得到期望姿势下的图片，将期望姿势下的图片、原始姿势和原始图片的期望姿势输入生成器，得到原始姿势下的图片，利用原始图片和原始姿势下的图片进行对比得到语义内容损失进行反向传播；利用判别器对生成器得到的图片与数据集中的原始图片进行判别得到图像对抗性损失进行反向传播；

(4)重复步骤(2)-(3)至预设次数后，得到训练好的图片合成模型。

进一步地，步骤(2)包括：

使用姿势提取器对数据集中的原始图片进行行人姿势提取，得到由多个关节点坐标表示的原始姿势，每个关节点坐标表示为在整个原始图片上计算的概率密度图，为数据集中的原始图片随机选择原始图片的期望姿势。

进一步地，生成器对于输入的原始图片或者望姿势下的图片将人体以关节点为基础划分为多个区域，将以整个身体区域为基础的全局映射转换为以多个身体区域为基础的多个局部映射。

进一步地，判别器是一个0-1的二分类器，使用两次，一次对原始图片和原始姿势下的图片进行卷积，输出为0-1之间的标量；另一次对输入生成器的原始图片和数据集中的原始图片进行卷积，输出为0-1之间的标量。

进一步地，图像对抗性损失为：

L_I(G，D，I，p_o，p_f)＝E[logD(G(I|(p_o，p_f)))]+E[log(1-D(G(I|(p_o，p_f)))]

其中，L_I(G，D，I，p_o，p_f)为图像对抗性损失，G为生成器，D为判别器，I为原始图片，p_o为原始姿势，p_f为原始图片的期望姿势，E[log(1-D(G(I|(p_o，p_f)))]代表训练生成器的损失，E[logD(G(I|(p_o，p_f)))]代表训练判别器的损失，G(I|(p_o，p_f))为将原始图片、原始姿势和原始图片的期望姿势输入生成器得到的期望姿势下的图片，D(G(I|(p_o，p_f)))为对生成器生成图片的判别结果。

进一步地，语义内容损失为：

其中，L_Content为语义内容损失，φ_z(I_po)为利用VGG16对原始姿势下的图片进行特征提取得到第z层的输出，φ_z(I)为利用VGG16对原始图片I进行特征提取得到第z层的输出。

按照本发明的另一方面，提供了一种无监督下基于姿势转换的行人图片合成***，包括：

合成模块，用于将待合成行人图片和期望姿势输入图片合成模型，得到期望姿势下的行人图片；

模型构建模块，用于构建包含姿势提取器、判别器和生成器的图片合成模型，所述生成器中使用跳跃连接结构；

姿势提取模块，用于使用姿势提取器对数据集中的原始图片进行行人姿势提取得到原始姿势，为数据集中的原始图片随机选择原始图片的期望姿势；

训练模块，用于将原始图片、原始姿势和原始图片的期望姿势输入生成器，得到期望姿势下的图片，将期望姿势下的图片、原始姿势和原始图片的期望姿势输入生成器，得到原始姿势下的图片，利用原始图片和原始姿势下的图片进行对比得到语义内容损失进行反向传播；利用判别器对生成器得到的图片与数据集中的原始图片进行判别得到图像对抗性损失进行反向传播；

训练完成模块，用于重复执行姿势提取模块和训练模块至预设次数后，得到训练好的图片合成模型。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提出一种无监督下基于姿势转换的行人图片合成方法，目的在于对合成得到的图片的质量进行进一步提高。通过对网络结构的设计即构建包含姿势提取器、判别器和生成器的图片合成模型以及skip connection结构的加入即生成器中使用跳跃连接结构，使得模型能够自己产生所需要的监督信息，同时不会丢失细节信息、也不会产生空间变形。由此解决现有技术存在细节信息丢失、空间变形、监督信息缺乏的技术问题。

(2)本发明在训练过程中，将原始图片、原始姿势和原始图片的期望姿势输入生成器，得到期望姿势下的图片，将期望姿势下的图片、原始姿势和原始图片的期望姿势输入生成器，得到原始姿势下的图片，生成器在模型中使用了两次，使得模型能够自己产生所需要的监督信息，来满足完成训练所需，这样就降低了对所选数据集的要求，实现在无监督的条件下来完成对网络模型的训练。

(3)为了保证合成图片的语义内容，本发明利用原始图片和原始姿势下的图片进行对比得到语义内容损失进行反向传播；判别器试图最大化正确分类真实和合成图像的概率，生成器试图影响鉴别器的识别结果，因此本发明利用判别器对生成器得到的图片与数据集中的原始图片进行判别得到图像对抗性损失进行反向传播。

(4)本发明中生成器对于输入的原始图片或者望姿势下的图片将人体以关节点为基础划分为多个区域，将以整个身体区域为基础的全局映射转换为以多个身体区域为基础的多个局部映射。这样处理解决了细节信息丢失和空间变形问题。

附图说明

图1是本发明实施例提供的一种无监督下基于姿势转换的行人图片合成方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种无监督下基于姿势转换的行人图片合成方法，包括：

所述图片合成模型的训练包括如下步骤：

进一步地，步骤(2)包括：

使用姿势提取器对数据集中的原始图片进行行人姿势提取，得到由多个关节点坐标表示的原始姿势，每个关节点u_i的坐标表示为在整个原始图片上计算的概率密度图：

其中，U是输入图像中所有(u，v)像素位置的集合，对于每个顶点u_i，在概率密度图B_i的位置(u_i，v_i)中引入方差为0.03的高斯峰，行人姿势p表示为所有概率密度图的串联p＝(B₁，…，B_N)。

为数据集中的原始图片随机选择原始图片的期望姿势。所述多个关节点包括：头部、颈部、左肩、右肩、左手肘、右手肘、左手腕、右手腕、中胸、骨盆、左臀部、右臀部、左膝盖、右膝盖、左脚腕、右脚腕、左脚和右脚。

进一步地，生成器(Generator)，给原始图片I、原始姿势p_o、期望姿势p_f，生成器G旨在生成期望姿势下图片。生成器主要由三部分组成，分别两个编码器和一个解码器，一个编码器的输入为原始图片和原始姿势，另一个编码器输入为期望姿势，将两个编码器的输出进行连接作为解码器的输入，解码器的输出则为期望姿势下的图片。

生成器对于输入的原始图片或者望姿势下的图片将人体以关节点为基础划分为多个区域，将以整个身体区域为基础的全局映射转换为以多个身体区域为基础的多个局部映射。所述多个区域包括：头部、躯干、左大臂、左小臂、右大臂、右小臂、左大腿、左小腿、右大腿和右小腿。这些区域被简单地定义为所有相关关节轴对称的包围矩形。设是在I中定义的第h个区域4个矩形角的集合，使用原始姿势中划分的第h个区域可以计算二进制掩码M_h(p)，除了位于内的那些点p之外，其中任何地方都为零。让是(第一次使用生成器得到的输出)中对应的矩形区域。将中的点与(期望姿势中划分的第h个区域)中的对应点匹配，可以计算身体部位特定仿射变换f_h的参数。在得到f_h后，将f_h的参数应用到F与(F为编码器提取到的原始图片I的特征图)M_h卷积得到的结果中，进而可以得到期望姿势下的图片的相应身体部位。在I或中，一些身体区域可被遮挡，被图像边界截断或被姿势检测器检测不到。在这种情况下，将相应的区域R^h留空，并且不计算第h个区域的仿射变换参数。

进一步地，图像对抗性损失为：

进一步地，语义内容损失为：

本发明提出一种无监督下基于姿势转换的行人图片合成方法，目的在于对合成得到的图片的质量进行进一步提高。通过对网络结构的设计即构建包含姿势提取器、判别器和生成器的图片合成模型以及skip connection结构的加入即生成器中使用跳跃连接结构，使得模型能够自己产生所需要的监督信息，同时不会丢失细节信息、也不会产生空间变形。由此解决现有技术存在细节信息丢失、空间变形、监督信息缺乏的技术问题。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种无监督下基于姿势转换的行人图片合成方法，其特征在于，包括：

所述图片合成模型的训练包括如下步骤：

2.如权利要求1所述的一种无监督下基于姿势转换的行人图片合成方法，其特征在于，所述步骤(2)包括：

3.如权利要求1或2所述的一种无监督下基于姿势转换的行人图片合成方法，其特征在于，所述生成器对于输入的原始图片或者望姿势下的图片将人体以关节点为基础划分为多个区域，将以整个身体区域为基础的全局映射转换为以多个身体区域为基础的多个局部映射。

4.如权利要求1或2所述的一种无监督下基于姿势转换的行人图片合成方法，其特征在于，所述判别器是一个0-1的二分类器，使用两次，一次对原始图片和原始姿势下的图片进行卷积，输出为0-1之间的标量；另一次对输入生成器的原始图片和数据集中的原始图片进行卷积，输出为0-1之间的标量。

5.如权利要求1或2所述的一种无监督下基于姿势转换的行人图片合成方法，其特征在于，所述图像对抗性损失为：

L_I(G，D，I，p_o，p_f)＝E[logD(G(I|(p_o，p_f)))]

+E[log(1-D(G(I|(p_o，p_f)))]

6.如权利要求1或2所述的一种无监督下基于姿势转换的行人图片合成方法，其特征在于，所述语义内容损失为：

7.一种无监督下基于姿势转换的行人图片合成***，其特征在于，包括：