CN112765316A - 一种引入胶囊网络的文本生成图像方法及装置 - Google Patents

一种引入胶囊网络的文本生成图像方法及装置 Download PDF

Info

Publication number
CN112765316A
CN112765316A CN202110069525.0A CN202110069525A CN112765316A CN 112765316 A CN112765316 A CN 112765316A CN 202110069525 A CN202110069525 A CN 202110069525A CN 112765316 A CN112765316 A CN 112765316A
Authority
CN
China
Prior art keywords
text
image
class information
capsule
hidden
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110069525.0A
Other languages
English (en)
Other versions
CN112765316B (zh
Inventor
周德宇
孙凯
胡名起
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110069525.0A priority Critical patent/CN112765316B/zh
Priority claimed from CN202110069525.0A external-priority patent/CN112765316B/zh
Publication of CN112765316A publication Critical patent/CN112765316A/zh
Application granted granted Critical
Publication of CN112765316B publication Critical patent/CN112765316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种引入胶囊网络的文本生成图像方法及装置,包括训练阶段和测试阶段,训练阶段通过文本信息,类标签和真实图像来训练一个引入胶囊网络的图像生成模型,包括多阶段的图像生成器和对生成图像评分的图像判别器,测试阶段输入文本及其类标签,利用图像生成器生成对应的图片,在文本生成图像的过程中引入了胶囊网络,同时学习自然语言文本和对应类标签中的实体信息,加强生成图像和文本的相关性。本发明的有益效果为:通过胶囊网络加强了对实体信息的学习,通过在较低维度的隐空间对文本信息和类信息进行融合,降低了训练的参数量,加强了文本和类信息的交互,在训练过程中通过多阶段的生成过程,降低了直接生成高分辨率图像的训练难度。

Description

一种引入胶囊网络的文本生成图像方法及装置
技术领域
本发明涉及深度学习生成模型技术领域,具体涉及一种引入胶囊网络的文本生成图像方法及装置。
背景技术
文本生成图像是一个重要的问题,而且有广泛的应用,如计算机辅助设计,插图生成等。
文本生成图像方法的研究主要基于两种生成式的模型,分别是条件变分编码器(Conditional Variational Auto-Encoder,简称CVAE)和条件生成对抗网络(ConditionalGenerative Adversarial Networks,简称CGAN)。其中CVAE方法生成的图片往往存在图片模糊的问题,现在主流的方法都是基于CGAN的模型。
由于GAN本身训练的不稳定性,从文本描述直接生成高分辨率的图像是非常困难的,因此层级生成对抗网络(StackGAN)提出一种先从文本生成分辨率较低的图像,再通过低分辨率图像逐步生成高分辨率图像的策略,被后来的工作广泛运用。
一般的文本语义嵌入表示只有一个句子级别的信息,缺少文本中的细节信息与图像的对应,注意力生成对抗网络(AttnGAN)通过注意力机制将文本的中的特定词与生成图片子区域相对应,在生成效果上有所提高。
在传统的CGAN结构中,初始输入的条件向量一般会通过一个全连接层映射到一个狭长的三维初始图像特征表示。但一般的语义空间维度较低,而图像特征空间维度较高,直接使用全连接层做这个维度转换可能会有信息丢失的问题。
胶囊网络(Capsule Network)是一种新型的神经元,输入输出均为向量,其激活向量代表特定类型的实体的实例化参数,激活向量的模可以表示实体出现的概率。
传统的文本生成图像网络仅仅使用文本信息,而忽略了文本本身的类信息。但这种类信息对文本生成同样是有帮助的,同一个类的物体往往具有一定的相似性,引入文本的类信息可以帮助解决单一的文本描述本身存在片面性的问题,同时拉近生成图像和文本之间的相关性。
针对文本生成图像的方法,广泛使用Inception Score(IS)的指标进行评价。IS通过计算生成图像分布和真实图像分布的相关性来评估生成图像的质量,IS值越高,表示生成的图像包含更清晰、更易于识别的实体。
发明内容
本发明所要解决的技术问题是针对上述现有图像生成方法的不足,提供了一种引入胶囊网络的文本生成图像方法及装置,能够在图像生成的过程中引入文本所属的类信息,通过类信息约束同一类文本生成图片的相关性,同时解决单一文本描述可能不全面的问题。
为解决上述技术问题,本发明采用的技术方案为:一种引入胶囊网络的文本生成图像方法及装置,包括如下步骤:
步骤1,对描述图像的自然语言文本进行编码,得到文本语义嵌入表示;
步骤2,将文本本身的类标签进行编码,得到类信息语义嵌入表示;
步骤3,将步骤1得到的文本语义嵌入表示与随机噪声进行混合,采用循环神经网络读取文本语义嵌入表示以及随机噪声,输出文本的对象隐编码以及文本中每个单词的隐编码;
步骤4,将步骤2得到的类信息语义嵌入表示与噪声进行混合,通过变分推断得到类信息的对象隐编码;
步骤5,将步骤3和步骤4得到的文本隐编码和类信息隐编码进行融合,得到包含文本信息和类信息的融合隐编码;
步骤6,对步骤5得到的融合隐编码利用胶囊网络进行转码,得到图像特征;
步骤7,对步骤6得到的图像特征进行解码,输出目标尺寸的图像;
步骤8,将生成的图像与对应的真实图像进行对抗训练;
步骤9,将步骤6得到的图像特征和步骤3中得到的文本中每个单词的隐编码利用注意力模型进行融合,作为下一阶段的输入,重复步骤6-8,逐步生成分辨率更高的图像。
步骤10,在测试阶段,输入自然语言文本与其类标签,根据步骤1-7,分阶段生成对应的图像。
进一步的,所述步骤6中的胶囊网络是一种神经元,输入输出均为向量,其激活向量的模可以表示实体出现的概率,利用胶囊网络对实体的表征能力,在生成器中对文本和类信息的联合编码进行转码,之后利用图像解码器得到对应维度的图像,在判别器中对类信息进行评价,增强判别器对生成图像中实体信息的识别。
进一步的,所述步骤1中,所述步骤1中对描述图像的自然语言文本进行编码的方法为:对自然语言文本进行分词,得到长度为d的词序列p=(w1,w2,…wd), 其中每个单词wi采用预训练的词向量进行表示,i=1~d,利用得到的词向量对文本进行编码;
进一步的,所述步骤2中如果每个文本-图像数据只属于一个类,则使用一位有效编码(one-hot)的方式对类信息进行编码;如果文本-图像数据属于多个类,则使用多位有效编码(multi-hot)的方式编码类信息。
进一步的,所述步骤3中循环神经网络采用双向长短时记忆网络,其中长短时记忆网络读取文本语义嵌入以及上一步的隐状态,输出每步的对象隐编码,将每步的对象隐编码作为每个单词的词级别的特征si,将最后一步的对象隐编码s 作为句子级别的特征,也就是文本的对象隐编码。
进一步的,所述步骤3中文本语义嵌入表示与噪声的混合方式采用直接连接的方式,采用的噪声为高斯噪声
Figure BDA0002905266890000031
文本语义嵌入s与z的混合结果为
Figure BDA0002905266890000032
Figure BDA0002905266890000033
所述步骤4中类信息语义嵌入与噪声的混合方式为变分推断,即变分编码器在给定噪声
Figure BDA0002905266890000034
和类信息c的情况下,推测类信息的隐属性分布
Figure BDA0002905266890000035
从该分布中采样的类信息语义嵌入表示zc
进一步的,所述步骤5中采用直接连接的方式对文本隐编码和类信息隐编码进行融合得到融合隐编码z=(zs,zc)。
进一步的,所述步骤6中利用胶囊网络将包含类信息的融合隐编码转码成图像初始表征,然后利用上采样网络得到对应维度的图像特征。
进一步的,所述步骤8中的对抗训练方法为:对生成图像和真实图像分别通过卷积神经网络得到图像隐表示,同时输入对应的文本和类信息,输出对图像真实程度,图像与文本匹配程度以及图像与类信息匹配程度的评分。
进一步的,所述类信息利用胶囊网络构建分类胶囊层进行判断,将输出向量的模被标准化用于类信息的判别,可以增加生成图像中的实体分类性能
进一步的,所述步骤9中采用分阶段的图像生成方法来逐步生成分辨率更高的图片,以两阶段图像生成为例,第一阶段利用文本和类信息的融合隐编码生成低分辨率的图片;第二阶段会利用注意力机制计算第一阶段得到的图像特征h 的每个子区域与步骤3中得到的词级别的文本编码中每个单词的注意力得分,融合得到高维度的文本-图像混合特征作为融合隐编码输入到高分辨率的图像生成器中,重复步骤7-8,采用多阶段生成的方案在生成高分辨率图片的同时降低生成的难度。
进一步的,所述分阶段的图像生成网络中,其中第一阶段生成的图像分辨率是64*64,第二阶段生成的图像分辨率为128*128,第三阶段生成的图像分辨率为256*256,该模型还可以继续往后堆叠。
进一步的,所述步骤10中测试阶段的输入为文本及其类标签,通过训练阶段得到的生成器模型,分阶段地生成高分辨率的图像。
一种引入胶囊网络的文本生成图像方法及装置,其特征在于:所述装置包括:
文本编码器,对描述图像的文本进行编码,得到文本语义嵌入表示;
类信息编码器,对描述图像的文本的类信息进行编码,得到类信息语义嵌入表示;
生成器,包含循环神经网络转码器,变分推断转码器,胶囊网络转码器以及图像解码器,所述循环神经网络转码器用于读取文本语义嵌入和转码器上一步的隐状态,输出对应的文本隐编码;所述变分推断转码器用于读取输入的类信息语义嵌入,输出对应的类信息隐编码;所述胶囊网络转码器对文本信息和类信息隐编码进行融合,转码成图像特征;所述图像解码器对图像特征进行解码,生成图像;
判别器,包含引图像语义判别器,文本语义判别器和引入胶囊网络的类信息判别器,所述图像语义判别器判断生成图像与真实图像的相关性;所述文本语义判别器判断生成图像与对应文本的相关性;所述引入胶囊网络的类信息判别器利用胶囊网络代替原本判别器中的全连接层,更好地判断生成图像与类信息的相关性。
本发明构建了一种基于CGAN的引入类信息的文本生成图像模型,在生成过程中采用了循环神经网络,胶囊网络,变分推断,注意力机制等技术,分别从文本和类标签中提取信息,生成文本语义嵌入和类信息语义嵌入,之后在语义空间将两种隐表示融合,得到输入的融合隐编码。在生成器中,利用胶囊网络将融合的隐编码转化为图像特征,之后利用图像解码器生成图像,在判别器中将生成图像与真实图像进行对抗训练。
与现有相比,本发明具有以下有益效果:
本发明在文本生成图像的过程中引入了额外的类信息,在训练中约束同类图像,增强了生成图像和文本之间的相关性,类信息通过变分推断的方法得到其隐编码,充分挖掘了类标签背后的实体信息,类信息和文本信息在较低维度的语义空间进行融合,增强了类信息与文本信息的交互,同时减少了训练的参数量,融合后的隐编码通过胶囊网络转码,更好地学习到了文本和类标签中的实体信息,在判别器中使用胶囊网络对类信息进行评分,加强了对生成图像中实体信息的识别,通过分阶段生成的方法,逐步生成了高分辨率的图片,降低了生成高分辨率图片的难度。
附图说明
图1是本发明中第一阶段的生成器方法流程图(生成低分辨率图像)。
图2是本发明中判别器的方法流程图。
图3是本发明中后续阶段的生成器方法流程图(生成高分辨率图像)。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围。在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。一种基于条件生成对抗的文本的引入类信息的文本生成图像方法,如图1所示,包括下列步骤:
步骤1,构建文本编码器,输入自然语言文本,输出文本的嵌入表示,自然语言文本这里采用英文文本,去除停用词之后得到长度为d的词序列,其中每个单词采用预训练的词向量进行表示。
如,输入自然语言文本“Colorful dishes holding meat,vegetables,fruit,andbread.”,去除停用词后得到最后的词序列为[colorful,dishes,hold,meat,vegetables,fruit,bread],d=7,我们设置d的最大值为18,不足的部分补空,超过的部分截去。
文本编码器的目标是提取自然语言文本中的高层语义特征,由预训练的双向长短时记忆网络(Bi-LSTM)充当。输入文本序列,每个单词输出的隐态hi作为该单词的词级别的特征si,对所有时刻输出的隐态时序平均作为该文本的语义嵌入,即
Figure BDA0002905266890000061
这里给出的仅是文本编码器的一种优选方式,也可以采用其他合理的编码方式进行编码。
步骤2,构建类信息编码器,输入文本对应的类信息,输出类信息的嵌入表示。这里文本的类信息有单类和多类两种情况,如果每个文本本身只有一个类标签,我们采用one-hot的形式对类信息进行编码,如“This little bird is almostblue withblackprimaryand secondaries.”只有一个类标签Indigo Bunting,代表的是改文本所对应的鸟的类型,而该数据集中共有20种不同类的鸟,则我们将该类信息编码成一个20维的one-hot向量[1,0,…0,0];如果文本本身有多个类属性,如句子“Colorful dishes holding meat,vegetables,fruit,andbread.”中同时含有4个类标签Dish,Meat,Vegetables,Fruit,Bread则使用multi-hot的编码方式对齐进行编码,如编码成[1,1,1,1,1,0,……0,0],则表示该文本有第一类至第五类的类标签。
将类信息编码为类向量c后,我们采用变分推断的方式将类向量转化为类信息嵌入。编码器以类向量c与噪声数据
Figure BDA0002905266890000062
为条件,在给定z和
Figure BDA0002905266890000063
的情况下进行隐变量z的后验推断。我们假设隐变量的后验分布
Figure BDA0002905266890000064
服从多元对角高斯分布,其中隐分布的均值和方差被编码器学习,我们在这里采用三层线性神经网络进行推断,也可以根据数据中类的分布采用更复杂的编码方式。
步骤3,构建文本信息与类信息融合与转码模块,我们将步骤3中得到的整个文本的语义嵌入作为文本信息编码zs,步骤4中采样得到的类信息分布zc作为类信息隐编码zc,我们采用直接连接的方式在隐空间对两种编码进行融合,得到融合隐编码z=(zs,zc)。
步骤4,构建条件生成对抗网络,生成器由胶囊网络和卷积神经网络构成,判别器由引入胶囊网络的图像编码器,图像判别器,文本语义判别器和类信息判别器组成。生成器中利用胶囊网络代替CGAN模型中常用的全连接层,胶囊是一种新型的神经元,其激活向量的模可以代表图片中实体出现的概率,而我们的类信息往往与实体信息相关。胶囊网络的输入和输出均为向量,我们这里使用一个包含1024个胶囊单元的胶囊层,每个胶囊单元的输入维度为16组长度为8 的输入向量,输出维度为1024组长度为16的向量,我们将其变形为1024*4*4 的三维图像特征h输入卷积神经网络中;在卷积神经网络中,我们采用尺度不变卷积层进行图像解码,将融合图像特征转化成最终生成图像;判别器中引入胶囊网络的图像编码器对生成图像和真实图像进行编码,输入到后续的三个维度的判别器中,图像判别器对生成图像真实程度进行评分,文本语义判别器用来评价生成图像与原文本的相关系,类信息判别器中利用胶囊网络搭建分类胶囊层,对输出的向量进行标准化之后对生成图像的类信息匹配程度进行评分。
步骤5,将描述图像的自然语言文本和对应的类信息分别输入到文本编码器和类信息编码器,得到文本语义嵌入表示和类信息嵌入表示;
步骤6,将生成的文本语义嵌入表示和类信息嵌入表示输出文本信息和类信息融合模块,得到包含两种信息的融合隐编码;
步骤7,将融合图像特征输入到图像生成器中,生成分辨率较低的图片,这里设置的分辨率64*64;在判别器中输入对应的真实图片,自然语言文本以及类信息进行对抗训练。该对抗训练过程中生成器和判别器的损失函数分别如下:
LD=-(Ex~P[log[D(x)r]+Ex~Q[1-log[D(x)r])
-(Ex~P[log[D(x)c]+Ex~Q[1-log[D(x)c])
-(Ex~P[log[D(x,s)]+Ex~Q[1-log[D(x,s)])
Figure BDA0002905266890000071
公式中,P是真实的数据分别,Q是生成的数据分布,D(x)r表示生成图像x 是真实的概率,D(x)c表示生成图像属于正确类标签的概率,D(x,s)表示生成图像与描述文本之间的匹配概率。
两个KL散度项被添加到生成器的损失函数中,作为约束两个隐变量zc和zs的正则化损失。训练过程中,首先在固定生成器的情况下,按损失LD优化判别器D(x),然后在固定判别器的情况下,按损失LG优化生成器G。以上两个步骤通过小批量随机梯度下降交替进行训练。对抗训练每迭代一次判别器训练一次,生成器训练一次;使用Adam求解器训练网络,其中β1=0.5,β2=0.999;学习率α=0.0002。
步骤8,将第一阶段生成图像特征h和步骤3中得到的词级别的语义特征si通过注意力网络进行拼接。注意力机制通过计算每个词和图像特征中每个子区域的相关性来得到图像-文本特征,其中第j个子区域的文本图像特征计算方式如下:
Figure BDA0002905266890000081
其中s’i是si经过一个新的激活函数得到的特征表示;
Figure BDA0002905266890000082
表示的是图像特征和词级别文本特征的细粒度的融合;βj,i表示的是第j个子区域对第i个单词的相关性,通过注意力模型得到。我们将图像-文本特征sen-img上采样至 128*128维度,在更高的维度上重复步骤7的对抗训练过程。
训练本网络时,可在生成器和判别器中加入归一化技术如批归一化(BatchNormalization)和谱归一化(Spectral Normalization)来稳定训练,进一步提高生成质量。
本发明在实验过程中基于AttnGAN的基准模型基于实验,隐变量和噪声变量维度均设置为128,对抗训练每迭代一次判别器训练一次,生成器训练一次;使用Adam求解器训练网络,其中β1=0.5,β2=0.999;学习率α=0.0002。
在CUB数据集上IS由4.36±0.02提升至4.67±0.05;图像生成质量以及生成图像中的实体清晰度均优于基准模型。在剥离实验中,我们分别在生成器和判别器中引入胶囊网络进行对比,其中仅在生成器中引入胶囊网络时IS为4.53± 0.05,仅在判别器中引入胶囊网络时IS为4.46±0.02,证明了胶囊网络的有效性。
综上所述,本发明公开的引入胶囊网络的文本生成图像方法,相比于之前的方法,新增了类信息的编码以及类信息和文本信息融合的模块,引入了文本本身的类别标记,在判别器中对生成图像的类别进行了限制,同时通过类信息的引入,提高了生成图片与文本的相关性;文本信息和类信息在低维度的隐空间进行融合,降低了训练的参数量;生成器中采用了胶囊网络来转码包含类信息的隐编码,更好地学习到了输入中的实体信息;判别器中采用胶囊网络对生成图像的类信息进行评分,加强了对生成图像中实体信息的识别;整体结构采用了引入注意力机制的多阶段生成方式,降低了生成高分辨率图像的难度,同时加强了文本信息对图像生成过程的监督。
上述实施例仅是本发明的优选实施方式,但本发明的实施方式不受上述实施例的限制,应当指出:对于本技术领域的技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰、替代、组合、简化,这些均为等效的置换方式,也应视为本发明的保护范围。

Claims (14)

1.一种引入胶囊网络的文本生成图像方法及装置,其特征在于:所述方法包括如下步骤:
步骤1,对描述图像的自然语言文本进行编码,得到文本语义嵌入表示;
步骤2,将文本本身的类标签进行编码,得到类信息语义嵌入表示;
步骤3,将步骤1得到的文本语义嵌入表示与随机噪声进行混合,采用循环神经网络读取文本语义嵌入表示以及随机噪声,输出文本的对象隐编码以及文本中每个单词的隐编码;
步骤4,将步骤2得到的类信息语义嵌入表示与噪声进行混合,通过变分推断得到类信息的对象隐编码;
步骤5,将步骤3和步骤4得到的文本隐编码和类信息隐编码进行融合,得到包含文本信息和类信息的融合隐编码;
步骤6,对步骤5得到的融合隐编码利用胶囊网络进行转码,得到图像特征;
步骤7,对步骤6得到的图像特征进行解码,输出目标尺寸的图像;
步骤8,将生成的图像与对应的真实图像进行对抗训练;
步骤9,将步骤6得到的图像特征和步骤3中得到的文本中每个单词的隐编码利用注意力模型进行融合,作为下一阶段的输入,重复步骤6-8,逐步生成分辨率更高的图像。
步骤10,在测试阶段,输入自然语言文本与其类标签,根据步骤1-7,分阶段生成对应的图像。
2.根据权利要求1所述的引入胶囊网络的文本生成图像方法及装置,其特征在于:所述步骤6中的胶囊网络是一种神经元,输入输出均为向量,其激活向量的模可以表示实体出现的概率,利用胶囊网络对实体的表征能力,在生成器中对文本和类信息的联合编码进行转码,之后利用图像解码器得到对应维度的图像,在判别器中对类信息进行评价,增强判别器对生成图像中实体信息的识别。
3.根据权利要求1所述的引入胶囊网络的文本生成图像方法及装置,其特征在于:所述步骤1中对描述图像的自然语言文本进行编码的方法为:对自然语言文本进行分词,得到长度为d的词序列p=(w1,w2,…wd),其中每个单词wi采用预训练的词向量进行表示,i=1~d,利用得到的词向量对文本进行编码。
4.根据权利要求1所述的引入胶囊网络的文本生成图像方法,其特征在于:所述步骤2中如果每个文本-图像数据只属于一个类,则使用一位有效编码(one-hot)的方式对类信息进行编码;如果文本-图像数据属于多个类,则使用多位有效编码(multi-hot)的方式编码类信息。
5.根据权利要求1所述的引入胶囊网络的文本生成图像方法及装置,其特征在于:所述步骤3中循环神经网络采用双向长短时记忆网络,其中长短时记忆网络读取文本语义嵌入以及上一步的隐状态,输出每步的对象隐编码,将每步的对象隐编码作为每个单词的词级别的特征si,将最后一步的对象隐编码s作为句子级别的特征,也就是文本的对象隐编码。
6.根据权利要求1所述的引入胶囊网络的文本生成图像方法及装置,其特征在于:所述步骤3中文本语义嵌入表示与噪声的混合方式采用直接连接的方式,采用的噪声为高斯噪声
Figure FDA0002905266880000022
文本语义嵌入s与z的混合结果为
Figure FDA0002905266880000021
所述步骤4中类信息语义嵌入与噪声的混合方式为变分推断,即变分编码器在给定噪声
Figure FDA0002905266880000023
和类信息c的情况下,推测类信息的隐属性分布
Figure FDA0002905266880000024
从该分布中采样的类信息语义嵌入表示zc
7.根据权利要求1所述的所述的引入胶囊网络的文本生成图像方法及装置,其特征在于:所述步骤5中采用直接连接的方式对文本隐编码和类信息隐编码进行融合得到融合隐编码z=(zs,zc)。
8.根据权利要求1所述的引入胶囊网络的文本生成图像方法及装置,其特征在于:所述步骤6中利用胶囊网络将包含类信息的融合隐编码转码成图像初始表征,然后利用上采样网络得到对应维度的图像特征。
9.根据权利要求1所述的引入胶囊网络的文本生成图像方法及装置,其特征在于:所述步骤8中的对抗训练方法为:对生成图像和真实图像分别通过卷积神经网络得到图像隐表示,同时输入对应的文本和类信息,输出对图像真实程度,图像与文本匹配程度以及图像与类信息匹配程度的评分。
10.根据权利要求9所述的所述的引入胶囊网络的文本生成图像方法及装置,其特征在于:所述类信息利用胶囊网络构建分类胶囊层进行判断,将输出向量的模被标准化用于类信息的判别,可以增加生成图像中的实体分类性能。
11.根据权利要求1所述的引入胶囊网络的引入胶囊网络的文本生成图像方法及装置,其特征在于:所述步骤9中采用分阶段的图像生成方法来逐步生成分辨率更高的图片,以两阶段图像生成为例,第一阶段利用文本和类信息的融合隐编码生成低分辨率的图片;第二阶段会利用注意力机制计算第一阶段得到的图像特征h的每个子区域与步骤3中得到的词级别的文本编码中每个单词的注意力得分,融合得到高维度的文本-图像混合特征作为融合隐编码输入到高分辨率的图像生成器中,重复步骤7-8,采用多阶段生成的方案在生成高分辨率图片的同时降低生成的难度。
12.根据权利要求11所述的所述的引入胶囊网络的文本生成图像方法及装置,其特征在于:所述分阶段的图像生成网络中,其中第一阶段生成的图像分辨率是64*64,第二阶段生成的图像分辨率为128*128,第三阶段生成的图像分辨率为256*256,该模型还可以继续往后堆叠。
13.根据权利要求1所述的引入胶囊网络的文本生成图像方法及装置,其特征在于:所述步骤10中测试阶段的输入为文本及其类标签,通过训练阶段得到的生成器模型,分阶段地生成高分辨率的图像。
14.一种引入胶囊网络的文本生成图像方法及装置,其特征在于:所述装置包括:
文本编码器,对描述图像的文本进行编码,得到文本语义嵌入表示;
类信息编码器,对描述图像的文本的类信息进行编码,得到类信息语义嵌入表示;
生成器,包含循环神经网络转码器,变分推断转码器,胶囊网络转码器以及图像解码器,所述循环神经网络转码器用于读取文本语义嵌入和转码器上一步的隐状态,输出对应的文本隐编码;所述变分推断转码器用于读取输入的类信息语义嵌入,输出对应的类信息隐编码;所述胶囊网络转码器对文本信息和类信息隐编码进行融合,转码成图像特征;所述图像解码器对图像特征进行解码,生成图像;
判别器,包含引图像语义判别器,文本语义判别器和引入胶囊网络的类信息判别器,所述图像语义判别器判断生成图像与真实图像的相关性;所述文本语义判别器判断生成图像与文本的相关性;所述引入胶囊网络的类信息判别器利用胶囊网络代替原本判别器中的全连接层,更好地判断生成图像与类信息的相关性。
CN202110069525.0A 2021-01-19 一种引入胶囊网络的文本生成图像方法及装置 Active CN112765316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110069525.0A CN112765316B (zh) 2021-01-19 一种引入胶囊网络的文本生成图像方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110069525.0A CN112765316B (zh) 2021-01-19 一种引入胶囊网络的文本生成图像方法及装置

Publications (2)

Publication Number Publication Date
CN112765316A true CN112765316A (zh) 2021-05-07
CN112765316B CN112765316B (zh) 2024-08-02

Family

ID=

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240115A (zh) * 2021-06-08 2021-08-10 深圳数联天下智能科技有限公司 一种生成人脸变化图像模型的训练方法及相关装置
CN113434918A (zh) * 2021-06-28 2021-09-24 北京理工大学 一种基于文本的三维体素模型生成方法
CN113537487A (zh) * 2021-06-25 2021-10-22 北京百度网讯科技有限公司 模型训练的方法、生成图片的方法及其装置
WO2023030348A1 (zh) * 2021-08-31 2023-03-09 北京字跳网络技术有限公司 图像生成方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830334A (zh) * 2018-06-25 2018-11-16 江西师范大学 一种基于对抗式迁移学习的细粒度目标判别方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和***
CN109543159A (zh) * 2018-11-12 2019-03-29 南京德磐信息科技有限公司 一种文本生成图像方法及装置
CN109671125A (zh) * 2018-12-17 2019-04-23 电子科技大学 一种高度融合的gan网络模型及实现文本生成图像的方法
CN110751698A (zh) * 2019-09-27 2020-02-04 太原理工大学 一种基于混和网络模型的文本到图像的生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830334A (zh) * 2018-06-25 2018-11-16 江西师范大学 一种基于对抗式迁移学习的细粒度目标判别方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和***
CN109543159A (zh) * 2018-11-12 2019-03-29 南京德磐信息科技有限公司 一种文本生成图像方法及装置
CN109671125A (zh) * 2018-12-17 2019-04-23 电子科技大学 一种高度融合的gan网络模型及实现文本生成图像的方法
CN110751698A (zh) * 2019-09-27 2020-02-04 太原理工大学 一种基于混和网络模型的文本到图像的生成方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240115A (zh) * 2021-06-08 2021-08-10 深圳数联天下智能科技有限公司 一种生成人脸变化图像模型的训练方法及相关装置
CN113240115B (zh) * 2021-06-08 2023-06-06 深圳数联天下智能科技有限公司 一种生成人脸变化图像模型的训练方法及相关装置
CN113537487A (zh) * 2021-06-25 2021-10-22 北京百度网讯科技有限公司 模型训练的方法、生成图片的方法及其装置
CN113537487B (zh) * 2021-06-25 2023-08-04 北京百度网讯科技有限公司 模型训练的方法、生成图片的方法及其装置
CN113434918A (zh) * 2021-06-28 2021-09-24 北京理工大学 一种基于文本的三维体素模型生成方法
CN113434918B (zh) * 2021-06-28 2022-12-02 北京理工大学 一种基于文本的三维体素模型生成方法
WO2023030348A1 (zh) * 2021-08-31 2023-03-09 北京字跳网络技术有限公司 图像生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109543159B (zh) 一种文本生成图像方法及装置
CN110795556B (zh) 一种基于细粒度***式解码的摘要生成方法
CN111046668B (zh) 多模态文物数据的命名实体识别方法与装置
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及***
CN110738057B (zh) 一种基于语法约束和语言模型的文本风格迁移方法
CN111026869B (zh) 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN112734881B (zh) 基于显著性场景图分析的文本合成图像方法及***
CN110032638B (zh) 一种基于编码器-解码器的生成式摘要提取方法
CN112765317A (zh) 一种引入类信息的文本生成图像方法及装置
CN111078866B (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN113254610B (zh) 面向专利咨询的多轮对话生成方法
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN113673535B (zh) 一种多模态特征融合网络的图像描述生成方法
CN113140020A (zh) 一种基于伴随监督生成对抗网络的文本生成图像的方法
CN110751188A (zh) 基于多标记学习的用户标签预测方法、***及存储介质
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN111639547B (zh) 基于生成对抗网络的视频描述方法及***
CN114529903A (zh) 文本细化网络
CN115545033A (zh) 融合词汇类别表征的中文领域文本命名实体识别方法
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
Bie et al. Renaissance: A survey into ai text-to-image generation in the era of large model
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112528168A (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN112765316A (zh) 一种引入胶囊网络的文本生成图像方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant