CN110021051A - 一种基于生成对抗网络通过文本指导的人物图像生成方法 - Google Patents

一种基于生成对抗网络通过文本指导的人物图像生成方法 Download PDF

Info

Publication number
CN110021051A
CN110021051A CN201910257463.9A CN201910257463A CN110021051A CN 110021051 A CN110021051 A CN 110021051A CN 201910257463 A CN201910257463 A CN 201910257463A CN 110021051 A CN110021051 A CN 110021051A
Authority
CN
China
Prior art keywords
text
personage
posture
picture
confrontation network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910257463.9A
Other languages
English (en)
Other versions
CN110021051B (zh
Inventor
周星然
黄思羽
李斌
李英明
张仲非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910257463.9A priority Critical patent/CN110021051B/zh
Publication of CN110021051A publication Critical patent/CN110021051A/zh
Application granted granted Critical
Publication of CN110021051B publication Critical patent/CN110021051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于生成对抗网络通过文本指导的人物图像生成方法,属于计算机视觉领域。具体包括如下步骤:获取用于训练的人物图像数据集,并定义算法目标;获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态;利用基于生成对抗网络的姿态预测器进行从文字到预测姿态的学习;使用S2~S3中学习得到的姿态预测器从文本中预测得到相应人物姿态;利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与文本之间的映射关系。本发明的基于生成对抗网络通过文本指导的人物图像生成方法,在图片生成、图片编辑、行人重识别等场景中,具有良好的应用价值。

Description

一种基于生成对抗网络通过文本指导的人物图像生成方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于生成对抗网络通过文本指导的人物图像生成方法。
背景技术
文本指导的人物图像生成被定义为如下问题:根据目标文本的描述,同时改变参考图片中人物的姿态和属性(例如衣服颜色)达到与文本描述一致。近几年来,在计算机视觉任务如特定图片生成、图像检索、人物重识别等领域中生成方法起可以生成指定内容的图片,对数据集扩充、增加算法鲁棒性的重要作用。该任务主要有两个关键点:第一是如何从文本中预测人物的目标姿态,目标姿态应与文本描述相符,并作为人物姿态转变的指导。第二是如何同时改变参考图片中人物的姿态和属性,生成的图片中人物的姿态发生改变并且符合文字描述的属性。针对第一点,本发明认为人物姿态包含了姿态方向和姿态动作两个因素,姿态方向决定了动作面向的角度,姿态动作是人物肢体的变化。针对第二点,本发明在网络中嵌入了注意力上采样模块,在生成人物图片时有效整合多个模态(文字、姿态、图片)的数据,可以保证人物同时完成姿态变换和属性修改。先前的有些方法考虑了对人物姿态改变的问题,还有些方法针对文字-图像生成,而较少方法考虑根据文字的描述改变人物姿态和属性。
由于统计建模的有效性,目前基于学习的方法逐渐被应用到图片生成的任务中。现有的基于学习的方法主要采用生成对抗网络框架,输入一幅人物图像和目标文本,输出符合文本描述的人物图像。
发明内容
为解决上述问题,本发明的目的在于提供一种基于生成对抗网络通过文本指导的人物图像生成方法。在通过文本预测人物姿态的过程中,由于文本本身不包含明确的空间对应信息,我们先通过聚类方法获得了具有不同朝向的基本姿态,通过文本对特定的基本姿态进行局部和细节上的调整,得到符合文本描述的人物姿态。同时也需要考虑从文本中有效提取关键信息,文本中关于方向和动作的信息与人物姿态相关,而描述属性的信息与生成图片中人物视觉属性表现有关。另外,在生成人物图片的过程中,网络考虑了来自多个模态的数据(文字、姿态、图像),针对多个模态特征的融合和表达,我们引入了注意力上采样模块。利用注意力机制关注文本中相关的信息,同时也完成人物姿态的变化。综合上述三个方面,我们设计了一个基于生成对抗网络的学习框架,使模型建立图片子区域与文本之间的联系,从而进行不同姿态、属性人物图片的特征表达。通过文本控制图片的生成对用户提供了便利性和友好性。
为实现上述目的,本发明的技术方案为:
基于生成对抗网络通过文本指导的人物图像生成方法,它包括以下步骤:
S1、获取用于训练的人物图像数据集,并定义算法目标;
S2、获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态;
S3、利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习;
S4、使用S2~S3中学习得到的姿态生成器从文本中预测得到相应人物姿态;
S5、利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与文本之间的映射关系。
S6、利用S5学习得到的人物图片生成器,输入参考图片和目标图片的描述文本,生成符合文本描述的人物图片。
基于上述方案,各步骤可以通过如下方式实现:
步骤S1中,所述的人物图像数据集包含若干人物图片,每个人物图片都标注了针对该图片中人物的文本描述,定义的算法目标为:对于训练集中的每一个人物,存在参考图片x,目标图片x′,目标图片中人物的姿态p,以及目标图片的描述文本t;输入参考图片x和目标图片的描述文本t,要求从描述文本t预测目标的姿态和动作,生成与目标图片x′相似的图片
进一步的,步骤S2中,获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态,具体包括以下子步骤:
S21、通过姿态检测算法获取数据集中所有图片的人物姿态;
S22、通过K-means聚类算法对人物姿态进行聚类,并计算第i个聚类的平均姿态并将其作为基本姿态,共获取得到K个基本姿态
进一步的,步骤S3中,利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习,具体包括以下子步骤:
S31、使用一个LSTM网络,提取出目标描述文本t的特征表达向量通过全连接神经网络Fori预测文本所描述姿态的方向o,即其中o∈{1,...,K},从K个基本姿态中选择与预测得到的方向o一致的基本姿态
S32、使用一个生成器G1学习基于文本信息来调整基本姿态生成一个预测姿态学习过程中,对方向o利用softmax函数计算与真实方向之间的误差,计算与姿态真实值p之间的均方误差,同时计算的对抗误差,将三种误差一并作为监督信息。
进一步的,步骤S4中,使用S2~S3中学习得到的姿态生成器从文本中预测得到相应人物姿态具体包括以下子步骤:
基于由S2~S3建立的人物姿态生成器,输入目标图片的描述文本t,从文本中预测人物姿态方向,并根据文本调整基本姿态,生成一个符合文本描述的人物预测姿态
进一步的,步骤S5中,利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与文本之间的映射关系具体包括以下子步骤:
S51、利用卷积神经网络对人物参考图片x进行特征提取,选取在不同尺寸上的深度特征(v1,v2,…,vm),vi为第i个尺寸上的图像深度特征,其中i=1,2,...,m,m为下采样的总数;
S52、利用卷积神经网络对步骤S4中得到的人物预测姿态进行特征提取,选取在不同尺寸上的深度特征(s1,s2,...,sm),si为第i个尺寸上的姿态深度特征,其中i=1,2,...,m,m为下采样的总数;
S53、使用一个双向LSTM提取文本特征矩阵e,e由所有的隐藏状态向量hj拼接组成,即e=(h1,h2,...,hN),其中j=1,2,...,N,N为文本中单词数量;
S54、计算第i个尺寸上的视觉文字注意力ci=viSoftmax(vi Te),通过多尺度视觉文字距离来衡量图片x的子区域与文本t之间的距离,建立图片子区域与文本之间的关系:
其中cij为视觉文字注意力ci的第j列,ej为文本特征矩阵e的第j列即hj,r(·,·)是两个向量间的余弦相似性;
S55、计算每个训练对的多尺度视觉文字距离矩阵Λ,I为每个训练批次中训练对的总数,xi和ti分别为第i个训练对中的参考图片和目标图片的描述文本;Λ的第i行第j列的元素为图片与文本匹配的后验概率为P(ti|xi)=Softmax(Λ)(i,i),文本与图片匹配的后验概率为P(xi|ti)=Softmax(ΛT)(i,i);多模态相似性误差计算为:
S56、在生成人物图片时进行注意力上采样操作:先计算第i个尺寸上的文字视觉注意力zi=eSoftmax(eTvi),第i个尺寸上的上采样为其中为第i个尺寸上的最邻近的上采样操作,ui-1是前一个尺寸上的上采样结果,当i=1时
将多次注意力上采样操作进行级联,生成人物图片通过对抗误差进行学习;学习过程中,计算多模态相似性误差生成人物图片的对抗误差、以及目标图片x′与的L1误差,将三种误差一并作为监督信息。
本发明的基于生成对抗网络通过文本指导的人物图像生成方法,相比于现有的人物图像生成方法,具有以下有益效果:
首先,本发明考虑了通过文本描述控制人物图片的生成,即通过文本描述既控制了人物的姿态变化,也修改了人物的衣服颜色属性。通过寻求文本描述的控制,对用户而言更加友好和方便。
其次,本发明提出了通过文本预测人物姿态的方法,从文本描述中可以预测出一个符合文本描述中方向、动作的合理人物姿态。
最后,本发明提出了注意力上采样模块,该模块有效融合了来自不同模态的数据,包括文本、姿态和图像。与此同时,该模块可以保留参考图片中人物的身份信息,从而使生成的人物图片更加自然和真实。
本发明的基于生成对抗网络通过文本指导的人物图像生成方法,在图片生成、图片编辑、行人重识别等场景中,具有良好的应用价值。例如,在图片编辑场景中,根据文本描述和参考图片即可以生成一张与参考图片中人物相通但是姿态和衣服颜色属性发生改变的图片,获得不同姿态和属性的图片通过修改文本描述中的关键词,这样的途径对用户来说更加友好和方便。生成了这样的图片对于其他的工作具有基础性作用,因为获取数据集本身是昂贵的,在某些情况下甚至难以获取,通过本应用可以生成出这些人物图片,有利于对其他相关工作的开展。
附图说明
图1为本发明的流程示意图;
图2为实施例中的流程示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种基于生成对抗网络通过文本指导的人物图像生成方法,包括以下步骤:
S1、获取用于训练的人物图像数据集,并定义算法目标。其具体子步骤如下:人物图像数据集包含若干人物图片,每个人物图片都标注了针对该图片中人物的文本描述,定义的算法目标为:对于训练集中的每一个人物,存在参考图片x,目标图片x′,目标图片中人物的姿态p,以及目标图片的描述文本t;输入参考图片x和目标图片的描述文本t,要求从描述文本t预测目标的姿态和动作,生成与目标图片x′相似的图片
S2、获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态。其具体子步骤如下:获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态,具体包括以下子步骤:
S21、通过姿态检测算法获取数据集中所有图片的人物姿态;
S22、通过K-means聚类算法对人物姿态进行聚类,并计算第i个聚类的平均姿态并将其作为基本姿态,共获取得到K个基本姿态
S3、利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习。其具体子步骤如下:
S31、使用一个LSTM网络,提取出目标描述文本t的特征表达向量通过全连接神经网络Fori预测文本所描述姿态的方向o,即其中o∈{1,...,K},从K个基本姿态中选择与预测得到的方向o一致的基本姿态
S32、使用一个生成器G1学习基于文本信息来调整基本姿态生成一个预测姿态学习过程中,对方向o利用softmax函数计算与真实方向之间的误差,计算与姿态真实值p之间的均方误差,同时计算的对抗误差,将三种误差一并作为监督信息。
S4、使用S2~S3中学习得到的姿态生成器从文本中预测得到相应人物姿态。其具体子步骤如下:
基于由S2~S3建立的人物姿态生成器,输入目标图片的描述文本t,从文本中预测人物姿态方向,并根据文本调整基本姿态,生成一个符合文本描述的人物预测姿态
S5、利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与文本之间的映射关系。其具体子步骤如下:
S51、利用卷积神经网络对人物参考图片x进行特征提取,选取在不同尺寸上的深度特征(v1,v2,...,vm),vi为第i个尺寸上的图像深度特征,其中i=1,2,...,m,m为下采样的总数;
S52、利用卷积神经网络对步骤S4中得到的人物预测姿态进行特征提取,选取在不同尺寸上的深度特征(s1,s2,...,sm),si为第i个尺寸上的姿态深度特征,其中i=1,2,...,m,m为下采样的总数;
S53、使用一个双向LSTM提取文本特征矩阵e,e由所有的隐藏状态向量hj拼接组成,即e=(h1,h2,...,hN),其中j=1,2,...,N,N为文本中单词数量;
S54、计算第i个尺寸上的视觉文字注意力ci=viSoftmax(vi Te),通过多尺度视觉文字距离来衡量图片x的子区域与文本t之间的距离,建立图片子区域与文本之间的关系:
其中cij为视觉文字注意力ci的第j列,ej为文本特征矩阵e的第j列即hj,r(·,·)是两个向量间的余弦相似性;
S55、计算每个训练对的多尺度视觉文字距离矩阵Λ,I为每个训练批次中训练对的总数,xi和ti分别为第i个训练对中的参考图片和目标图片的描述文本;Λ的第i行第j列的元素为图片与文本匹配的后验概率为P(ti|xi)=Softmax(Λ)(i,i),文本与图片匹配的后验概率为P(xi|ti)=Softmax(ΛT)(i,i);多模态相似性误差计算为:
S56、在生成人物图片时进行注意力上采样操作:先计算第i个尺寸上的文字视觉注意力zi=eSoftmax(eTvi),第i个尺寸上的上采样为其中为第i个尺寸上的最邻近的上采样操作,ui-1是前一个尺寸上的上采样结果,当i=1时
将多次注意力上采样操作进行级联,生成人物图片通过对抗误差进行学习;学习过程中,计算多模态相似性误差生成人物图片的对抗误差、以及目标图片x′与的L1误差,将三种误差一并作为监督信息。
S6、利用S5学习得到的人物图片生成器,输入参考图片和目标图片的描述文本,即可生成符合文本描述的人物图片。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例中按照前述S1~S5的步骤学习得到了人物姿态生成器和人物图片生成器,各步骤的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本实施例在具有文本标注的CUHK-PEDES数据集实施,其图像来源于5个行人重识别数据集分别为CUHK03,Market-1501,SSM,VIPER和CUHK01,共包含13003个人物的40206张图片。
本实施例在CUHK-PEDES数据集上进行实验。
人物图片生成的主要流程如下:
1)通过人物姿态生成器从描述文本中预测出相符的人物姿态;
2)改变描述文本中描述颜色属性的关键词,如图2所示;
3)将预测的人物姿态,修改后的描述文本和参考图片输入人物图片生成器,获得人物姿态和属性均改变的人物图片;
4)为综合比较本方法的有效性,我们比较了其他较先进方法以及适当修改了相似的人物图像生成框架以适应本方法所针对的任务;
5)本实施例的结构相似性(SSIM)和Inception分数(Inception score)见表1,其中PT指仅改变姿态,P&AT指既改变姿态又改变颜色属性,此外针对该任务本实施例中提出VQA感知得分(VQA perceptual score)衡量颜色属性改变的正确性。图中数据显示,本发明在结构相似性,Inception分数和VQA感知得分三个指标上的表现,与其他方法和修改后相似的框架下根据文本描述控制的人物图像生成方法相比,在整体上有了进一步的提升。其中VQA感知得分的计算方法为:首先通过程序随机更改描述文本中的颜色属性(共考虑到10种颜色)生成相应图片,更改的颜色属性被记录为正确答案,然后程序询问VQA模型一个相关于人物身体部分的问题(衣服或者裤子的颜色),最后收集VQA模型返回的问题答案并计算正确性,其中T是返回答案正确的图片数量,N是图片总数。
表1本实施例在CUHK-PEDES数据集上SSIM和IS指标
Method SSIM(PT) IS(PT) IS(P&AT)
SIS[1] 0.239±0.106 3.707±0.185 3.790±0.182
AttnGAN[2] 0.298±0.126 3.695±0.110 3.726±0.123
PG2[3] 0.237±0.120 3.473±0.009 3.486±0.125
Single AU 0.305±0.121 4.015±0.009 4.071±0.149
ours 0.364±0.123 4.209±0.165 4.218±0.195
表2本实施例在CUHK-PEDES数据集上VQA感知得分指标
Method VQA perceptual score
Real image 0.698
SIS[1] 0.275
AttnGAN[2] 0.139
PG2[3] 0.110
Single AU 0.205
ours 0.334
其中ours为本实施例的方法,且S56中将3个上采样操作进行级联;Single AU指在S56中,不采用3个上采样操作进行级联,改为只使用一个注意力上采样操作,其余做法与ours一致;表2中Real image指数据集中原图经过VQA模型提问并回答的结果。其余方法对应的参考文献如下:
[1]H.Dong,S.Yu,C.Wu,and Y.Guo.Semantic image synthesis viaadversarial learning.In ICCV,2017.
[2]T.Xu,P.Zhang,Q.Huang,H.Zhang,Z.Gan,X.Huang,and X.He.Attngan:Fine-grained text to image generation with attentional generative adversarialnetworks.In CVPR,2018.
[3]L.Ma,J.Xu,Q.Sun,B.Schiele,T.Tuytelaars,and L.Van Gool.Pose guidedperson image generation.In NIPS,2017.
通过以上技术方案,本发明实施基于深度学习技术提供了一种基于生成对抗网络通过文本指导的人物图像生成方法。本发明可以生成真实和生动人物图像,通过描述文本进行生成人物图像中人物的姿态和属性的控制。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,包括以下步骤:
S1、获取用于训练的人物图像数据集,并定义算法目标;
S2、获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态;
S3、利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习;
S4、使用S2~S3中学习得到的姿态生成器从文本中预测得到相应人物姿态;
S5、利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与文本之间的映射关系。
S6、利用S5学习得到的人物图片生成器,输入参考图片和目标图片的描述文本,生成符合文本描述的人物图片。
2.如权利要求1所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S1中,所述的人物图像数据集包含若干人物图片,每个人物图片都标注了针对该图片中人物的文本描述,定义的算法目标为:对于训练集中的每一个人物,存在参考图片x,目标图片x′,目标图片中人物的姿态p,以及目标图片的描述文本t;输入参考图片x和目标图片的描述文本t,要求从描述文本t预测目标的姿态和动作,生成与目标图片x′相似的图片
3.如权利要求2所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S2中,获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态,具体包括以下子步骤:
S21、通过姿态检测算法获取数据集中所有图片的人物姿态;
S22、通过K-means聚类算法对人物姿态进行聚类,并计算第i个聚类的平均姿态并将其作为基本姿态,共获取得到K个基本姿态
4.如权利要求3所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S3中,利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习,具体包括以下子步骤:
S31、使用一个LSTM网络,提取出目标描述文本t的特征表达向量通过全连接神经网络Fori预测文本所描述姿态的方向o,即其中o∈{1,...,K},从K个基本姿态中选择与预测得到的方向o一致的基本姿态
S32、使用一个生成器G1学习基于文本信息来调整基本姿态生成一个预测姿态学习过程中,对方向o利用softmax函数计算与真实方向之间的误差,计算与姿态真实值p之间的均方误差,同时计算的对抗误差,将三种误差一并作为监督信息。
5.如权利要求4所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S4中,使用S2~S3中学习得到的姿态生成器从文本中预测得到相应人物姿态具体包括以下子步骤:
基于由S2~S3建立的人物姿态生成器,输入目标图片的描述文本t,从文本中预测人物姿态方向,并根据文本调整基本姿态,生成一个符合文本描述的人物预测姿态
6.如权利要求5所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S5中,利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与文本之间的映射关系具体包括以下子步骤:
S51、利用卷积神经网络对人物参考图片x进行特征提取,选取在不同尺寸上的深度特征(v1,v2,...,vm),vi为第i个尺寸上的图像深度特征,其中i=1,2,...,m,m为下采样的总数;
S52、利用卷积神经网络对步骤S4中得到的人物预测姿态进行特征提取,选取在不同尺寸上的深度特征(s1,s2,...,sm),si为第i个尺寸上的姿态深度特征,其中i=1,2,...,m,m为下采样的总数;
S53、使用一个双向LSTM提取文本特征矩阵e,e由所有的隐藏状态向量hj拼接组成,即e=(h1,h2,...,hN),其中j=1,2,...,N,N为文本中单词数量;
S54、计算第i个尺寸上的视觉文字注意力ci=viSoftmax(vi Te),通过多尺度视觉文字距离来衡量图片x的子区域与文本t之间的距离,建立图片子区域与文本之间的关系:
其中cij为视觉文字注意力ci的第j列,ej为文本特征矩阵e的第j列即hj,r(·,·)是两个向量间的余弦相似性;
S55、计算每个训练对的多尺度视觉文字距离矩阵Λ,I为每个训练批次中训练对的总数,xi和ti分别为第i个训练对中的参考图片和目标图片的描述文本;Λ的第i行第j列的元素为图片与文本匹配的后验概率为P(ti|xi)=Softmax(Λ)(i,i),文本与图片匹配的后验概率为P(xi|ti)=Softmax(ΛT)(i,i);多模态相似性误差计算为:
S56、在生成人物图片时进行注意力上采样操作:先计算第i个尺寸上的文字视觉注意力zi=eSoftmax(eTvi),第i个尺寸上的上采样为其中为第i个尺寸上的最邻近的上采样操作,ui-1是前一个尺寸上的上采样结果,当i=1时
将多次注意力上采样操作进行级联,生成人物图片通过对抗误差进行学习;学习过程中,计算多模态相似性误差生成人物图片的对抗误差、以及目标图片x′与的L1误差,将三种误差一并作为监督信息。
CN201910257463.9A 2019-04-01 2019-04-01 一种基于生成对抗网络通过文本指导的人物图像生成方法 Active CN110021051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910257463.9A CN110021051B (zh) 2019-04-01 2019-04-01 一种基于生成对抗网络通过文本指导的人物图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910257463.9A CN110021051B (zh) 2019-04-01 2019-04-01 一种基于生成对抗网络通过文本指导的人物图像生成方法

Publications (2)

Publication Number Publication Date
CN110021051A true CN110021051A (zh) 2019-07-16
CN110021051B CN110021051B (zh) 2020-12-15

Family

ID=67190349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910257463.9A Active CN110021051B (zh) 2019-04-01 2019-04-01 一种基于生成对抗网络通过文本指导的人物图像生成方法

Country Status (1)

Country Link
CN (1) CN110021051B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427864A (zh) * 2019-07-29 2019-11-08 腾讯科技(深圳)有限公司 一种图像处理方法、装置及电子设备
CN110555458A (zh) * 2019-07-24 2019-12-10 中北大学 基于注意力机制生成对抗网络的多波段图像特征级融合方法
CN110705306A (zh) * 2019-08-29 2020-01-17 首都师范大学 一种作文文题一致性的测评方法
CN111046166A (zh) * 2019-12-10 2020-04-21 中山大学 一种基于相似度修正的半隐式多模态推荐方法
CN111062865A (zh) * 2020-03-18 2020-04-24 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111091059A (zh) * 2019-11-19 2020-05-01 佛山市南海区广工大数控装备协同创新研究院 一种生活垃圾塑料瓶分类中的数据均衡方法
CN111369468A (zh) * 2020-03-09 2020-07-03 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备及计算机可读介质
CN111402365A (zh) * 2020-03-17 2020-07-10 湖南大学 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN111476241A (zh) * 2020-03-04 2020-07-31 上海交通大学 一种人物服饰转换方法及***
CN111583213A (zh) * 2020-04-29 2020-08-25 西安交通大学 一种基于深度学习和无参考质量评价的图像生成方法
CN111667547A (zh) * 2020-06-09 2020-09-15 创新奇智(北京)科技有限公司 Gan网络训练方法、服装图片生成方法、装置及电子设备
CN111898456A (zh) * 2020-07-06 2020-11-06 贵州大学 基于多层次注意力机制的文本修改图片网络模型训练方法
CN111950346A (zh) * 2020-06-28 2020-11-17 中国电子科技网络信息安全有限公司 一种基于生成式对抗网络的行人检测数据扩充方法
CN112001279A (zh) * 2020-08-12 2020-11-27 山东省人工智能研究院 基于双重属性信息的跨模态行人重识别方法
CN112784677A (zh) * 2020-12-04 2021-05-11 上海芯翌智能科技有限公司 模型训练方法及装置、存储介质、计算设备
CN112966760A (zh) * 2021-03-15 2021-06-15 清华大学 融合文本和图像数据的神经网络及其建筑结构的设计方法
CN113205574A (zh) * 2021-04-30 2021-08-03 武汉大学 一种基于注意力机制的艺术字风格迁移***
CN113222875A (zh) * 2021-06-01 2021-08-06 浙江大学 一种基于色彩恒常性的图像和谐化合成方法
CN113919998A (zh) * 2021-10-14 2022-01-11 天翼数字生活科技有限公司 一种基于语义和姿态图引导的图片匿名化方法
CN114119811A (zh) * 2022-01-28 2022-03-01 北京智谱华章科技有限公司 图像的生成方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374249A1 (en) * 2017-06-27 2018-12-27 Mad Street Den, Inc. Synthesizing Images of Clothing on Models
CN109215007A (zh) * 2018-09-21 2019-01-15 维沃移动通信有限公司 一种图像生成方法及终端设备
CN109523616A (zh) * 2018-12-04 2019-03-26 科大讯飞股份有限公司 一种面部动画生成方法、装置、设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374249A1 (en) * 2017-06-27 2018-12-27 Mad Street Den, Inc. Synthesizing Images of Clothing on Models
CN109215007A (zh) * 2018-09-21 2019-01-15 维沃移动通信有限公司 一种图像生成方法及终端设备
CN109523616A (zh) * 2018-12-04 2019-03-26 科大讯飞股份有限公司 一种面部动画生成方法、装置、设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIQIAN MA等: "Disentangled Person Image Generation", 《RESEARCHGATE》 *
何佩林等: "基于生成对抗文本的人脸图像翻译", 《计算机技术与自动化》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555458A (zh) * 2019-07-24 2019-12-10 中北大学 基于注意力机制生成对抗网络的多波段图像特征级融合方法
CN110555458B (zh) * 2019-07-24 2022-04-19 中北大学 基于注意力机制生成对抗网络的多波段图像特征级融合方法
CN110427864A (zh) * 2019-07-29 2019-11-08 腾讯科技(深圳)有限公司 一种图像处理方法、装置及电子设备
CN110705306B (zh) * 2019-08-29 2020-08-18 首都师范大学 一种作文文题一致性的测评方法
CN110705306A (zh) * 2019-08-29 2020-01-17 首都师范大学 一种作文文题一致性的测评方法
CN111091059A (zh) * 2019-11-19 2020-05-01 佛山市南海区广工大数控装备协同创新研究院 一种生活垃圾塑料瓶分类中的数据均衡方法
CN111046166A (zh) * 2019-12-10 2020-04-21 中山大学 一种基于相似度修正的半隐式多模态推荐方法
CN111476241B (zh) * 2020-03-04 2023-04-21 上海交通大学 一种人物服饰转换方法及***
CN111476241A (zh) * 2020-03-04 2020-07-31 上海交通大学 一种人物服饰转换方法及***
CN111369468A (zh) * 2020-03-09 2020-07-03 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备及计算机可读介质
CN111369468B (zh) * 2020-03-09 2022-02-01 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备及计算机可读介质
CN111402365B (zh) * 2020-03-17 2023-02-10 湖南大学 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN111402365A (zh) * 2020-03-17 2020-07-10 湖南大学 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN111062865A (zh) * 2020-03-18 2020-04-24 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111583213A (zh) * 2020-04-29 2020-08-25 西安交通大学 一种基于深度学习和无参考质量评价的图像生成方法
CN111583213B (zh) * 2020-04-29 2022-06-07 西安交通大学 一种基于深度学习和无参考质量评价的图像生成方法
CN111667547B (zh) * 2020-06-09 2023-08-11 创新奇智(北京)科技有限公司 Gan网络训练方法、服装图片生成方法、装置及电子设备
CN111667547A (zh) * 2020-06-09 2020-09-15 创新奇智(北京)科技有限公司 Gan网络训练方法、服装图片生成方法、装置及电子设备
CN111950346A (zh) * 2020-06-28 2020-11-17 中国电子科技网络信息安全有限公司 一种基于生成式对抗网络的行人检测数据扩充方法
CN111898456A (zh) * 2020-07-06 2020-11-06 贵州大学 基于多层次注意力机制的文本修改图片网络模型训练方法
CN111898456B (zh) * 2020-07-06 2022-08-09 贵州大学 基于多层次注意力机制的文本修改图片网络模型训练方法
CN112001279A (zh) * 2020-08-12 2020-11-27 山东省人工智能研究院 基于双重属性信息的跨模态行人重识别方法
CN112001279B (zh) * 2020-08-12 2022-02-01 山东省人工智能研究院 基于双重属性信息的跨模态行人重识别方法
CN112784677A (zh) * 2020-12-04 2021-05-11 上海芯翌智能科技有限公司 模型训练方法及装置、存储介质、计算设备
CN112966760A (zh) * 2021-03-15 2021-06-15 清华大学 融合文本和图像数据的神经网络及其建筑结构的设计方法
CN112966760B (zh) * 2021-03-15 2021-11-09 清华大学 融合文本和图像数据的神经网络及其建筑结构的设计方法
CN113205574A (zh) * 2021-04-30 2021-08-03 武汉大学 一种基于注意力机制的艺术字风格迁移***
CN113222875A (zh) * 2021-06-01 2021-08-06 浙江大学 一种基于色彩恒常性的图像和谐化合成方法
CN113919998A (zh) * 2021-10-14 2022-01-11 天翼数字生活科技有限公司 一种基于语义和姿态图引导的图片匿名化方法
CN113919998B (zh) * 2021-10-14 2024-05-14 天翼数字生活科技有限公司 一种基于语义和姿态图引导的图片匿名化方法
CN114119811B (zh) * 2022-01-28 2022-04-01 北京智谱华章科技有限公司 图像的生成方法、装置和电子设备
CN114119811A (zh) * 2022-01-28 2022-03-01 北京智谱华章科技有限公司 图像的生成方法、装置和电子设备

Also Published As

Publication number Publication date
CN110021051B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN110021051A (zh) 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
US20200250226A1 (en) Similar face retrieval method, device and storage medium
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN109447115A (zh) 基于多层语义监督式注意力模型的细粒度零样本分类方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成***及方法
CN111709409A (zh) 人脸活体检测方法、装置、设备及介质
JP2017091525A (ja) 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
CN104142995B (zh) 基于视觉属性的社会事件识别方法
CN110472688A (zh) 图像描述的方法及装置、图像描述模型的训练方法及装置
CN111242197B (zh) 基于双视域语义推理网络的图像文匹配方法
CN105701504B (zh) 用于零样本学习的多模态流形嵌入方法
CN106326857A (zh) 基于人脸图像的性别识别方法及装置
US11966829B2 (en) Convolutional artificial neural network based recognition system in which registration, search, and reproduction of image and video are divided between and performed by mobile device and server
CN112036276A (zh) 一种人工智能视频问答方法
CN107480688A (zh) 基于零样本学习的细粒度图像识别方法
CN112949622A (zh) 融合文本与图像的双模态性格分类方法及装置
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN106897671A (zh) 一种基于光流和FisherVector编码的微表情识别方法
CN111582342A (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN108154156A (zh) 基于神经主题模型的图像集成分类方法及装置
CN111507184B (zh) 基于并联空洞卷积和身体结构约束的人体姿态检测方法
CN113516142A (zh) 文本图像匹配方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant