CN111898456A

CN111898456A - 基于多层次注意力机制的文本修改图片网络模型训练方法

Info

Publication number: CN111898456A
Application number: CN202010639352.7A
Authority: CN
Inventors: 宋井宽; 叶芊; 高联丽
Original assignee: University of Electronic Science and Technology of China; Guizhou University
Current assignee: University of Electronic Science and Technology of China; Guizhou University
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-11-06
Anticipated expiration: 2040-07-06
Also published as: CN111898456B

Abstract

本发明公开了一种基于多层次注意力机制的文本修改图片网络模型训练方法，涉及计算机处理技术领域，该方法提出了用局部注意力网络和全局注意力网络，结合文本特征与图片特征训练文本修改图片网络模型，且在模型训练的过程中，考虑了cycle loss，继而利用最终得到的文本修改图片网络模型修改图片时，能精确修改图片的视觉属性，不会对文本信息中未提及的视觉属性进行修改；采用该训练方法训练出的模型，已在当前主流的数据集上进行了验证，取得了当前最好的结果。

Description

基于多层次注意力机制的文本修改图片网络模型训练方法

技术领域

本发明涉及计算机处理技术领域，具体而言，涉及一种基于多层次注意力机制的文本修改图片网络模型训练方法。

背景技术

随着视觉和语言交互领域的发展，文本修改图片算法近些年取得了巨大的进步。作为图片生产的一个分支，文本修改图片算法把算法的重心放在如何挖掘图片和文本的联系，并使用文本来修改图片的对应视觉属性(例如修改图片某一颜色)，它在现实应用当中也是应用广泛，例如图片编辑等等。相比较于传统的图片生成算法，文本修改图片算法的目标是要求模型能够同时理解图片中的视觉属性信息和给定的文本信息，在这些重要线索的前提之下进行推理，并最终根据文本的语义信息来修改图片中对应的视觉属性。如果要完成如上的要求，此任务将涉及到多个领域的知识，例如文本识别、图片生成和多模态推理等等。因为其***算法的复杂性，它现在是机器智能方面一个亟待解决的问题。

对于如何让计算机正确理解图片内容与文本内容的问题，当前大多数的文本修改图像的任务都是基于生成对抗网络，甚至同时采用好几个生成对抗网络进行学习。但是这样的超大型网络普遍存在训练成本大，耗时长等问题。起初，文本修改图片的方法修改图片尺寸较小，图片质量较低；为了增大尺寸，之后的方法采用增加卷积神经网络的层数提取出分辨率更高的原始图像信息进而生成更高分辨率的图片，但是这些网络通常具有复杂的网络结构，并且对计算硬件要求高，导致于网络训练过程复杂，耗时长而且整个训练过程比较不稳定。并且之前的一系列方法只使用了文本的全局信息来修改图片，这对于精确修改图片的视觉属性是远远不够的，之前的方法也没有考虑如何更好的不修改文本信息里未提及的视觉属性，例如背景等。

发明内容

本发明在于提供一种基于多层次注意力机制的文本修改图片网络模型训练方法，其能够缓解上述问题。

为了缓解上述的问题，本发明采取的技术方案如下：

一种基于多层次注意力机制的文本修改图片网络模型训练方法，在模型训练的每个epoch中，均包括：

获取当前原始训练图片及其文本信息，以及与其图片内容同类的随机文本信息；

提取当前原始训练图片的视觉属性特征，以及所述随机文本信息的全局特征和局部特征；

利用全局注意力网络对所述随机文本信息的全局特征和当前原始训练图片的视觉属性特征进行融合，得到融合特征Ⅰ；

对所述融合特征Ⅰ进行上采样得到特征矩阵Ⅰ，将所述随机文本信息的局部特征和所述特征矩阵Ⅰ输入局部注意力网络，输出得到融合特征Ⅱ；

将所述融合特征Ⅱ和特征矩阵Ⅰ结合后，通过残差块输入到上采样网络，输出得到修改后的图片Ⅰ；

将所述修改后的图片Ⅰ和随机文本信息作为一组训练数据，当前原始训练图片及其文本信息作为一组训练数据，当前原始训练图片和所述随机文本信息作为一组训练数据；

利用三组所述训练数据对判别器和生成器进行训练，其中，在生成器的训练过程中，其损失计算过程包括cycle loss的计算；

训练后的判别器和生成器组成当前epoch训练好的文本修改图片网络模型。

本方案的技术效果是：提出了用注意力机制结合文本特征与图片特征训练文本修改图片网络模型，且在模型训练的过程中，考虑了cycle loss，继而利用最终得到的模型修改图片时，能精确修改图片的视觉属性，不会对文本信息中未提及的视觉属性进行修改；采用该训练方法训练出的模型，已在当前主流的数据集上进行了验证，取得了当前最好的结果。

进一步地，所述随机文本信息，是在与当前原始训练图片同类的图片集的文本信息中随机选择得到。

本方案的技术效果是：能够使文本修改图片网络模型更好的适应各种不同语义的文本信息，并且生成内容具有多样性而不会固定生成某项内容。

进一步地，获取所述融合特征Ⅰ的方法具体为：首先将随机文本信息的全局特征复制成16*16*128的矩阵；然后通过卷积神经网络将所述16*16*128的矩阵变换为16*16*512的矩阵；最后将所述16*16*512的矩阵和当前原始训练图片的视觉属性特征输入所述全局注意力网络，并输出得到所述融合特征Ⅰ。

本方案的技术效果是：其中采用了矩阵变换法，使两种不同属性的特征能够在同一维度进行计算。

更进一步地，所述融合特征Ⅰ的计算公式如下：

F_i＝P(F_text⊙W_i⊙F_i-1)

W_i＝SoftMax(F_text⊙F_i-1)

其中，F_i表示融合特征Ⅰ，F₀表示当前原始训练图片的视觉属性特征，F_text表示所述随机文本信息的全局特征，W_i是所述随机文本信息的全局特征，与当前原始训练图片的视觉属性特征的权值矩阵，P是一层卷积神经网络。

本方案的技术效果是：能有效的将文本的全局特征与视觉属性特征更好的融合起来，而不仅仅是简单的相连。

更进一步地，所述融合特征Ⅱ的计算公式如下：

其中，F_attn表示融合特征Ⅱ，F_word表示所述随机文本信息的全局特征，k代表随机文本信息的第k个词，β_k代表第k个词对于视觉属性修改的重要程度，h₀表示特征矩阵Ⅰ。

本方案的技术效果是：能够计算文本信息中每个词对于视觉属性的重要程度，这可以使得我们视觉属性的细节信息更好的被完善。

进一步地，所述cycle loss的计算包括以下步骤：

S1、提取修改后的图片Ⅰ的视觉属性特征；

S2、提取当前原始训练图片的文本信息的全局特征和局部特征；

S3、利用全局注意力网络对当前原始训练图片的文本信息的全局特征，和修改后的图片Ⅰ的视觉属性特征进行融合，得到融合特征Ⅲ；

S4、对所述融合特征Ⅲ进行上采样得到特征矩阵Ⅱ，将当前原始训练图片的文本信息的局部特征，和所述特征矩阵Ⅱ输入局部注意力网络，输出得到融合特征Ⅳ；

S5、将所述融合特征Ⅳ和特征矩阵Ⅱ结合后，通过残差块输入到上采样网络，输出得到修改后的图片Ⅱ；

S6、根据修改后的图片Ⅱ和当前原始训练图片计算得到cycle loss。

本方案的技术效果是：cycleloss是指一个循环最终又得到假的原始图片，将这个假的原始图片与真实原始图片做loss可以更好的限制网络不去修改文本无关内容。

进一步地，所述视觉属性特征通过预训练好的Vgg-16网络模型提取，其中，所述Vgg-16网络模型的预训练过程在ImageNet数据集上完成。

本方案的技术效果是：可以直接引用而不用训练并且适应度很高，能够精准的提取出图片的视觉属性特征。

进一步地，所述全局特征和局部特征通过双向GRU网络模型提取。

本方案的技术效果是：GRU训练更快，并且效果不比LSTM差。

更进一步地，所述全局特征是一个128维的向量，所述局部特征是一个L*128的矩阵，其中L是局部特征所属文本信息的长度。

进一步地，整个文本修改图片网络模型的训练过程包括600个epoch，各epoch所采用的原始训练图片不同。

本方案的技术效果是：epoch过短，模型训练的效果会较差，epoch过高，则模型会在早已经收敛的情况下继续训练，效果并没有进一步的提高，浪费时间成本，600个epoch既不浪费时间成本，而且能确保得到好的训练效果。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例文本修改图片网络模型训练方法的流程图；

图2是本发明实施例文本修改图片网络模型框架示意图；

图3是本发明实施例获取cycle loss的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参照图1和图2，本发明实施例公开了一种基于多层次注意力机制的文本修改图片网络模型训练方法，在模型训练的每个epoch中，均包括：

提取当前原始训练图片的视觉属性特征，以及随机文本信息的全局特征和局部特征；

利用全局注意力网络对随机文本信息的全局特征和当前原始训练图片的视觉属性特征进行融合，得到融合特征Ⅰ；

对融合特征Ⅰ进行上采样得到特征矩阵Ⅰ，将随机文本信息的局部特征和特征矩阵Ⅰ输入局部注意力网络，输出得到融合特征Ⅱ；

将融合特征Ⅱ和特征矩阵Ⅰ结合后，通过残差块输入到上采样网络，输出得到修改后的图片Ⅰ；

将修改后的图片Ⅰ和随机文本信息作为一组训练数据，当前原始训练图片及其文本信息作为一组训练数据，当前原始训练图片和随机文本信息作为一组训练数据；

利用三组训练数据对判别器和生成器进行训练，其中，在生成器的训练过程中，其损失计算过程包括cycle loss的计算；训练后的判别器和生成器组成当前epoch训练好的文本修改图片网络模型。

在本实施例中，原始图片集为关于鸟的图片集，每个epoch的当前原始训练图片均从该原始图片集中获取，随机文本信息，是在与当前原始训练图片同类的图片集-CUB-200-2011图片集的文本信息中随机选择得到。

在本实施例中，获取融合特征Ⅰ的方法具体为：首先将随机文本信息的全局特征复制成16*16*128的矩阵；然后通过卷积神经网络将16*16*128的矩阵变换为16*16*512的矩阵；最后将16*16*512的矩阵和当前原始训练图片的视觉属性特征输入全局注意力网络，并输出得到融合特征Ⅰ。

融合特征Ⅰ的计算公式如下：

F_i＝P(F_text⊙W_i⊙F_i-1)

W_i＝SoftMax(F_text⊙F_i-1)

其中，F_i表示第i个网络输出的结果，F_o表示融合特征Ⅰ，即最后一个网络输出的结果，F₀表示当前原始训练图片的视觉属性特征，F_text表示随机文本信息的全局特征，W_i是随机文本信息的全局特征，与当前原始训练图片的视觉属性特征的权值矩阵，P是一层卷积神经网络。

在本实施例中，特征矩阵Ⅰ为64*64*128的矩阵。

融合特征Ⅱ的计算公式如下：

其中，F_attn表示融合特征Ⅱ，F_word表示随机文本信息的全局特征，k代表随机文本信息的第k个词，β_k代表第k个词对于视觉属性修改的重要程度，h₀表示特征矩阵Ⅰ。

在本实施例中，如图2和图3所示，cycle loss的计算包括以下步骤：

S1、提取修改后的图片Ⅰ的视觉属性特征；

S4、对融合特征Ⅲ进行上采样得到特征矩阵Ⅱ，将当前原始训练图片的文本信息的局部特征，和特征矩阵Ⅱ输入局部注意力网络，输出得到融合特征Ⅳ；

S5、将融合特征Ⅳ和特征矩阵Ⅱ结合后，通过残差块输入到上采样网络，输出得到修改后的图片Ⅱ；

Cycleloss的计算如下所示：

L_cycle＝||x-x'||

其中，L_cycle表示Cycleloss，x是当前原始训练图片，x'是经过两次网络得到的修改后的图片Ⅱ。

其中，修改后的图片Ⅱ与修改后的图片Ⅰ的获取方法类似，只是用于提取视觉属性特征的图片由当前原始训练图片换成了修改后的图片Ⅰ，用于提取全局特征和局部特征的文本信息，由随机文本信息换成了当前原始训练图片的文本信息。

在本实施例中，视觉属性特征通过预训练好的Vgg-16网络模型提取，其中，Vgg-16网络模型的预训练过程在ImageNet数据集上完成。对于每个epoch，针对每张原始训练图片，采用Vgg-16网络模型提取出长宽都为16的512维矩阵作为视觉属性特征。

在本实施例中，全局特征和局部特征通过双向GRU网络模型提取，全局特征是一个128维的向量，局部特征是一个L*128的矩阵，其中L是局部特征所属文本信息的长度。

在本实施例中，整个文本修改图片网络模型的训练过程包括600个epoch，即epochsize＝600，各epoch所采用的原始训练图片不同。

本发明基于多层次注意力机制的文本修改图片网络模型训练方法，将之前工作忽略的文本局部信息提取出用来修改图片中对应的视觉属性，如文本中提到的背部，我们可以根据此定位到图片中对应的背部视觉属性上，基于这种联系，我们构建了注意力机制，它能够保证文本的局部信息可以与图片中对应的视觉属性一一对应起来，这样的话就会使得我们最终生成的图片更加细致化，在细节的处理上更好，这正是文本修改图片算法所需要的。并且我们对图片特征以及文本的全局特征也使用了注意力机制进行融合而不是与之前的方法一样直接进行拼接，这会使得我们生成的图片更加自然；我们也使用了cycleloss来限制网络不修改文本信息中未提及的视觉属性。我们对模型在当前主流的数据集上进行了验证，取得了当前最好的结果，这个也证明了我们的方法要比当前主流的方法取得了更好的效果，生成的图片质量更好，也更符合我们输入文本的语义信息。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多层次注意力机制的文本修改图片网络模型训练方法，其特征在于，在模型训练的每个epoch中，均包括：

2.根据权利要求1所述基于多层次注意力机制的文本修改图片网络模型训练方法，其特征在于，所述随机文本信息，是在与当前原始训练图片同类的图片集的文本信息中随机选择得到。

3.根据权利要求1所述基于多层次注意力机制的文本修改图片网络模型训练方法，其特征在于，获取所述融合特征Ⅰ的方法具体为：首先将随机文本信息的全局特征复制成16*16*128的矩阵；然后通过卷积神经网络将所述16*16*128的矩阵变换为16*16*512的矩阵；最后将所述16*16*512的矩阵和当前原始训练图片的视觉属性特征输入所述全局注意力网络，并输出得到所述融合特征Ⅰ。

4.根据权利要求3所述基于多层次注意力机制的文本修改图片网络模型训练方法，其特征在于，所述融合特征Ⅰ的计算公式如下：

F_i＝P(F_text⊙W_i⊙F_i-1)

W_i＝SoftMax(F_text⊙F_i-1)

5.根据权利要求4所述基于多层次注意力机制的文本修改图片网络模型训练方法，其特征在于，所述融合特征Ⅱ的计算公式如下：

6.根据权利要求1所述基于多层次注意力机制的文本修改图片网络模型训练方法，其特征在于，所述cycle loss的计算包括以下步骤：

S1、提取修改后的图片Ⅰ的视觉属性特征；

7.根据权利要求1或6所述基于多层次注意力机制的文本修改图片网络模型训练方法，其特征在于，所述视觉属性特征通过预训练好的Vgg-16网络模型提取，其中，所述Vgg-16网络模型的预训练过程在ImageNet数据集上完成。

8.根据权利要求1或6所述基于多层次注意力机制的文本修改图片网络模型训练方法，其特征在于，所述全局特征和局部特征通过双向GRU网络模型提取。

9.根据权利要求8所述基于多层次注意力机制的文本修改图片网络模型训练方法，其特征在于，所述全局特征是一个128维的向量，所述局部特征是一个L*128的矩阵，其中L是局部特征所属文本信息的长度。

10.根据权利要求1所述基于多层次注意力机制的文本修改图片网络模型训练方法，其特征在于，整个文本修改图片网络模型的训练过程包括600个epoch，各epoch所采用的原始训练图片不同。