CN110021051A

CN110021051A - 一种基于生成对抗网络通过文本指导的人物图像生成方法

Info

Publication number: CN110021051A
Application number: CN201910257463.9A
Authority: CN
Inventors: 周星然; 黄思羽; 李斌; 李英明; 张仲非
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-07-16
Anticipated expiration: 2039-04-01
Also published as: CN110021051B

Abstract

本发明公开了一种基于生成对抗网络通过文本指导的人物图像生成方法，属于计算机视觉领域。具体包括如下步骤：获取用于训练的人物图像数据集，并定义算法目标；获取人物图像数据集中所有图像的姿态信息，通过聚类算法从所有姿态信息中获取基本姿态；利用基于生成对抗网络的姿态预测器进行从文字到预测姿态的学习；使用S2～S3中学习得到的姿态预测器从文本中预测得到相应人物姿态；利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习，同时利用多模态误差建立图片子区域与文本之间的映射关系。本发明的基于生成对抗网络通过文本指导的人物图像生成方法，在图片生成、图片编辑、行人重识别等场景中，具有良好的应用价值。

Description

一种基于生成对抗网络通过文本指导的人物图像生成方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于生成对抗网络通过文本指导的人物图像生成方法。

背景技术

文本指导的人物图像生成被定义为如下问题：根据目标文本的描述，同时改变参考图片中人物的姿态和属性(例如衣服颜色)达到与文本描述一致。近几年来，在计算机视觉任务如特定图片生成、图像检索、人物重识别等领域中生成方法起可以生成指定内容的图片，对数据集扩充、增加算法鲁棒性的重要作用。该任务主要有两个关键点：第一是如何从文本中预测人物的目标姿态，目标姿态应与文本描述相符，并作为人物姿态转变的指导。第二是如何同时改变参考图片中人物的姿态和属性，生成的图片中人物的姿态发生改变并且符合文字描述的属性。针对第一点，本发明认为人物姿态包含了姿态方向和姿态动作两个因素，姿态方向决定了动作面向的角度，姿态动作是人物肢体的变化。针对第二点，本发明在网络中嵌入了注意力上采样模块，在生成人物图片时有效整合多个模态(文字、姿态、图片)的数据，可以保证人物同时完成姿态变换和属性修改。先前的有些方法考虑了对人物姿态改变的问题，还有些方法针对文字-图像生成，而较少方法考虑根据文字的描述改变人物姿态和属性。

由于统计建模的有效性，目前基于学习的方法逐渐被应用到图片生成的任务中。现有的基于学习的方法主要采用生成对抗网络框架，输入一幅人物图像和目标文本，输出符合文本描述的人物图像。

发明内容

为解决上述问题，本发明的目的在于提供一种基于生成对抗网络通过文本指导的人物图像生成方法。在通过文本预测人物姿态的过程中，由于文本本身不包含明确的空间对应信息，我们先通过聚类方法获得了具有不同朝向的基本姿态，通过文本对特定的基本姿态进行局部和细节上的调整，得到符合文本描述的人物姿态。同时也需要考虑从文本中有效提取关键信息，文本中关于方向和动作的信息与人物姿态相关，而描述属性的信息与生成图片中人物视觉属性表现有关。另外，在生成人物图片的过程中，网络考虑了来自多个模态的数据(文字、姿态、图像)，针对多个模态特征的融合和表达，我们引入了注意力上采样模块。利用注意力机制关注文本中相关的信息，同时也完成人物姿态的变化。综合上述三个方面，我们设计了一个基于生成对抗网络的学习框架，使模型建立图片子区域与文本之间的联系，从而进行不同姿态、属性人物图片的特征表达。通过文本控制图片的生成对用户提供了便利性和友好性。

为实现上述目的，本发明的技术方案为：

基于生成对抗网络通过文本指导的人物图像生成方法，它包括以下步骤：

S1、获取用于训练的人物图像数据集，并定义算法目标；

S2、获取人物图像数据集中所有图像的姿态信息，通过聚类算法从所有姿态信息中获取基本姿态；

S3、利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习；

S4、使用S2～S3中学习得到的姿态生成器从文本中预测得到相应人物姿态；

S5、利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习，同时利用多模态误差建立图片子区域与文本之间的映射关系。

S6、利用S5学习得到的人物图片生成器，输入参考图片和目标图片的描述文本，生成符合文本描述的人物图片。

基于上述方案，各步骤可以通过如下方式实现：

步骤S1中，所述的人物图像数据集包含若干人物图片，每个人物图片都标注了针对该图片中人物的文本描述，定义的算法目标为：对于训练集中的每一个人物，存在参考图片x，目标图片x′，目标图片中人物的姿态p，以及目标图片的描述文本t；输入参考图片x和目标图片的描述文本t，要求从描述文本t预测目标的姿态和动作，生成与目标图片x′相似的图片

进一步的，步骤S2中，获取人物图像数据集中所有图像的姿态信息，通过聚类算法从所有姿态信息中获取基本姿态，具体包括以下子步骤：

S21、通过姿态检测算法获取数据集中所有图片的人物姿态；

S22、通过K-means聚类算法对人物姿态进行聚类，并计算第i个聚类的平均姿态并将其作为基本姿态，共获取得到K个基本姿态

进一步的，步骤S3中，利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习，具体包括以下子步骤：

S31、使用一个LSTM网络，提取出目标描述文本t的特征表达向量通过全连接神经网络F^ori预测文本所描述姿态的方向o，即其中o∈{1，...，K}，从K个基本姿态中选择与预测得到的方向o一致的基本姿态

S32、使用一个生成器G₁学习基于文本信息来调整基本姿态生成一个预测姿态即学习过程中，对方向o利用softmax函数计算与真实方向之间的误差，计算与姿态真实值p之间的均方误差，同时计算的对抗误差，将三种误差一并作为监督信息。

进一步的，步骤S4中，使用S2～S3中学习得到的姿态生成器从文本中预测得到相应人物姿态具体包括以下子步骤：

基于由S2～S3建立的人物姿态生成器，输入目标图片的描述文本t，从文本中预测人物姿态方向，并根据文本调整基本姿态，生成一个符合文本描述的人物预测姿态

进一步的，步骤S5中，利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习，同时利用多模态误差建立图片子区域与文本之间的映射关系具体包括以下子步骤：

S51、利用卷积神经网络对人物参考图片x进行特征提取，选取在不同尺寸上的深度特征(v₁，v₂，…，v_m)，v_i为第i个尺寸上的图像深度特征，其中i＝1，2，...，m，m为下采样的总数；

S52、利用卷积神经网络对步骤S4中得到的人物预测姿态进行特征提取，选取在不同尺寸上的深度特征(s₁，s₂，...，s_m)，s_i为第i个尺寸上的姿态深度特征，其中i＝1，2，...，m，m为下采样的总数；

S53、使用一个双向LSTM提取文本特征矩阵e，e由所有的隐藏状态向量h_j拼接组成，即e＝(h₁，h₂，...，h_N)，其中j＝1，2，...，N，N为文本中单词数量；

S54、计算第i个尺寸上的视觉文字注意力c_i＝v_iSoftmax(v_i ^Te)，通过多尺度视觉文字距离来衡量图片x的子区域与文本t之间的距离，建立图片子区域与文本之间的关系：

其中c_ij为视觉文字注意力c_i的第j列，e_j为文本特征矩阵e的第j列即h_j，r(·，·)是两个向量间的余弦相似性；

S55、计算每个训练对的多尺度视觉文字距离矩阵Λ，I为每个训练批次中训练对的总数，x_i和t_i分别为第i个训练对中的参考图片和目标图片的描述文本；Λ的第i行第j列的元素为图片与文本匹配的后验概率为P(t_i|x_i)＝Softmax(Λ)_(i，i)，文本与图片匹配的后验概率为P(x_i|t_i)＝Softmax(Λ^T)_(i，i)；多模态相似性误差计算为：

S56、在生成人物图片时进行注意力上采样操作：先计算第i个尺寸上的文字视觉注意力z_i＝eSoftmax(e^Tv_i)，第i个尺寸上的上采样为其中为第i个尺寸上的最邻近的上采样操作，u_i-1是前一个尺寸上的上采样结果，当i＝1时

将多次注意力上采样操作进行级联，生成人物图片通过对抗误差进行学习；学习过程中，计算多模态相似性误差生成人物图片的对抗误差、以及目标图片x′与的L1误差，将三种误差一并作为监督信息。

本发明的基于生成对抗网络通过文本指导的人物图像生成方法，相比于现有的人物图像生成方法，具有以下有益效果：

首先，本发明考虑了通过文本描述控制人物图片的生成，即通过文本描述既控制了人物的姿态变化，也修改了人物的衣服颜色属性。通过寻求文本描述的控制，对用户而言更加友好和方便。

其次，本发明提出了通过文本预测人物姿态的方法，从文本描述中可以预测出一个符合文本描述中方向、动作的合理人物姿态。

最后，本发明提出了注意力上采样模块，该模块有效融合了来自不同模态的数据，包括文本、姿态和图像。与此同时，该模块可以保留参考图片中人物的身份信息，从而使生成的人物图片更加自然和真实。

本发明的基于生成对抗网络通过文本指导的人物图像生成方法，在图片生成、图片编辑、行人重识别等场景中，具有良好的应用价值。例如，在图片编辑场景中，根据文本描述和参考图片即可以生成一张与参考图片中人物相通但是姿态和衣服颜色属性发生改变的图片，获得不同姿态和属性的图片通过修改文本描述中的关键词，这样的途径对用户来说更加友好和方便。生成了这样的图片对于其他的工作具有基础性作用，因为获取数据集本身是昂贵的，在某些情况下甚至难以获取，通过本应用可以生成出这些人物图片，有利于对其他相关工作的开展。

附图说明

图1为本发明的流程示意图；

图2为实施例中的流程示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，一种基于生成对抗网络通过文本指导的人物图像生成方法，包括以下步骤：

S1、获取用于训练的人物图像数据集，并定义算法目标。其具体子步骤如下：人物图像数据集包含若干人物图片，每个人物图片都标注了针对该图片中人物的文本描述，定义的算法目标为：对于训练集中的每一个人物，存在参考图片x，目标图片x′，目标图片中人物的姿态p，以及目标图片的描述文本t；输入参考图片x和目标图片的描述文本t，要求从描述文本t预测目标的姿态和动作，生成与目标图片x′相似的图片

S2、获取人物图像数据集中所有图像的姿态信息，通过聚类算法从所有姿态信息中获取基本姿态。其具体子步骤如下：获取人物图像数据集中所有图像的姿态信息，通过聚类算法从所有姿态信息中获取基本姿态，具体包括以下子步骤：

S21、通过姿态检测算法获取数据集中所有图片的人物姿态；

S3、利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习。其具体子步骤如下：

S4、使用S2～S3中学习得到的姿态生成器从文本中预测得到相应人物姿态。其具体子步骤如下：

S5、利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习，同时利用多模态误差建立图片子区域与文本之间的映射关系。其具体子步骤如下：

S51、利用卷积神经网络对人物参考图片x进行特征提取，选取在不同尺寸上的深度特征(v₁，v₂，...，v_m)，v_i为第i个尺寸上的图像深度特征，其中i＝1，2，...，m，m为下采样的总数；

S54、计算第i个尺寸上的视觉文字注意力c_i=v_iSoftmax(v_i ^Te)，通过多尺度视觉文字距离来衡量图片x的子区域与文本t之间的距离，建立图片子区域与文本之间的关系：

S6、利用S5学习得到的人物图片生成器，输入参考图片和目标图片的描述文本，即可生成符合文本描述的人物图片。

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

本实施例中按照前述S1～S5的步骤学习得到了人物姿态生成器和人物图片生成器，各步骤的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。本实施例在具有文本标注的CUHK-PEDES数据集实施，其图像来源于5个行人重识别数据集分别为CUHK03，Market-1501，SSM，VIPER和CUHK01，共包含13003个人物的40206张图片。

本实施例在CUHK-PEDES数据集上进行实验。

人物图片生成的主要流程如下：

1)通过人物姿态生成器从描述文本中预测出相符的人物姿态；

2)改变描述文本中描述颜色属性的关键词，如图2所示；

3)将预测的人物姿态，修改后的描述文本和参考图片输入人物图片生成器，获得人物姿态和属性均改变的人物图片；

4)为综合比较本方法的有效性，我们比较了其他较先进方法以及适当修改了相似的人物图像生成框架以适应本方法所针对的任务；

5)本实施例的结构相似性(SSIM)和Inception分数(Inception score)见表1，其中PT指仅改变姿态，P&AT指既改变姿态又改变颜色属性，此外针对该任务本实施例中提出VQA感知得分(VQA perceptual score)衡量颜色属性改变的正确性。图中数据显示，本发明在结构相似性，Inception分数和VQA感知得分三个指标上的表现，与其他方法和修改后相似的框架下根据文本描述控制的人物图像生成方法相比，在整体上有了进一步的提升。其中VQA感知得分的计算方法为：首先通过程序随机更改描述文本中的颜色属性(共考虑到10种颜色)生成相应图片，更改的颜色属性被记录为正确答案，然后程序询问VQA模型一个相关于人物身体部分的问题(衣服或者裤子的颜色)，最后收集VQA模型返回的问题答案并计算正确性，其中T是返回答案正确的图片数量，N是图片总数。

表1本实施例在CUHK-PEDES数据集上SSIM和IS指标

Method	SSIM(PT)	IS(PT)	IS(P&AT)
				SIS[1]	0.239±0.106	3.707±0.185	3.790±0.182
AttnGAN[2]	0.298±0.126	3.695±0.110	3.726±0.123
				PG2[3]	0.237±0.120	3.473±0.009	3.486±0.125
Single AU	0.305±0.121	4.015±0.009	4.071±0.149
				ours	0.364±0.123	4.209±0.165	4.218±0.195

表2本实施例在CUHK-PEDES数据集上VQA感知得分指标

Method	VQA perceptual score
		Real image	0.698
SIS[1]	0.275
		AttnGAN[2]	0.139
PG2[3]	0.110
		Single AU	0.205
ours	0.334

其中ours为本实施例的方法，且S56中将3个上采样操作进行级联；Single AU指在S56中，不采用3个上采样操作进行级联，改为只使用一个注意力上采样操作，其余做法与ours一致；表2中Real image指数据集中原图经过VQA模型提问并回答的结果。其余方法对应的参考文献如下：

[1]H.Dong,S.Yu,C.Wu,and Y.Guo.Semantic image synthesis viaadversarial learning.In ICCV,2017.

[2]T.Xu,P.Zhang,Q.Huang,H.Zhang,Z.Gan,X.Huang,and X.He.Attngan:Fine-grained text to image generation with attentional generative adversarialnetworks.In CVPR,2018.

[3]L.Ma,J.Xu,Q.Sun,B.Schiele,T.Tuytelaars,and L.Van Gool.Pose guidedperson image generation.In NIPS,2017.

通过以上技术方案，本发明实施基于深度学习技术提供了一种基于生成对抗网络通过文本指导的人物图像生成方法。本发明可以生成真实和生动人物图像，通过描述文本进行生成人物图像中人物的姿态和属性的控制。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络通过文本指导的人物图像生成方法，其特征在于，包括以下步骤：

S1、获取用于训练的人物图像数据集，并定义算法目标；

2.如权利要求1所述的基于生成对抗网络通过文本指导的人物图像生成方法，其特征在于，步骤S1中，所述的人物图像数据集包含若干人物图片，每个人物图片都标注了针对该图片中人物的文本描述，定义的算法目标为：对于训练集中的每一个人物，存在参考图片x，目标图片x′，目标图片中人物的姿态p，以及目标图片的描述文本t；输入参考图片x和目标图片的描述文本t，要求从描述文本t预测目标的姿态和动作，生成与目标图片x′相似的图片

3.如权利要求2所述的基于生成对抗网络通过文本指导的人物图像生成方法，其特征在于，步骤S2中，获取人物图像数据集中所有图像的姿态信息，通过聚类算法从所有姿态信息中获取基本姿态，具体包括以下子步骤：

S21、通过姿态检测算法获取数据集中所有图片的人物姿态；

4.如权利要求3所述的基于生成对抗网络通过文本指导的人物图像生成方法，其特征在于，步骤S3中，利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习，具体包括以下子步骤：

5.如权利要求4所述的基于生成对抗网络通过文本指导的人物图像生成方法，其特征在于，步骤S4中，使用S2～S3中学习得到的姿态生成器从文本中预测得到相应人物姿态具体包括以下子步骤：

6.如权利要求5所述的基于生成对抗网络通过文本指导的人物图像生成方法，其特征在于，步骤S5中，利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习，同时利用多模态误差建立图片子区域与文本之间的映射关系具体包括以下子步骤：