CN114972907A

CN114972907A - 基于强化学习和对比学习的图像语义理解及文本生成

Info

Publication number: CN114972907A
Application number: CN202210502569.2A
Authority: CN
Inventors: 吴春雷; 王江楠; 王雷全; 胡飞; 张欢; 郝宇钦
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-08-30

Abstract

本发明公开了基于强化学习和对比学习的图像语义理解及文本生成。该任务的挑战在于如何用表达简练而内容丰富的文本准确的描述图像内容。目前的大多数方法是以图像标题来描述图像，而图像标题过于简单的特点导致了存在描述不全面的情况。而目前以诗歌描述图像的新任务又缺乏带标注的数据集。本发明通过诗歌来描述图像内容，利用诗歌表达简练、语义丰富并具有艺术性的特点，结合强化学习和对比学习设计了一种无监督创作多样化诗歌的方法。提出的方法以生成式对抗网络为基本框架，生成器基于图像创作诗歌，判别器预测诗歌的真实性。通过设计的古典概念词奖励机制和跨模态特征对齐机制来强化诗歌与图像的一致性。并设计多样性奖励机制来引导模型创作多样化的诗歌。实验结果证明提出的方法在相互独立的图像和诗歌数据集上训练后，模型能够创作多样化的诗歌来描述图像。

Description

基于强化学习和对比学习的图像语义理解及文本生成

技术领域

本发明属于图像描述技术领域，涉及计算机视觉和自然语言处理的方法。

背景技术

图像语义理解及文本生成是运用计算机视觉相关技术理解图像语义内容，并运用自然语言处理相关技术生成文本描述。传统的图像语义理解及文本生成是指为图像生成标题，标题是一种陈述性的简单句子，描述图像中的对象和对象之间的关系。近年来，在图像标题的研究基础上提出了一些新的图像语义理解及文本生成任务，包括视觉问答和看图写诗。诗歌是一种具有艺术性的文学体裁，看图写诗是一项更具挑战性的任务，不仅要准确的理解图像内容，还要以简练和优美的语言去描述图像。近年来，随着深度学习中循环神经网络、生成式对抗网络、卷积神经网络的出现，促进了自然语言和计算机视觉相融合。在图像描述研究领域，卷积神经网络结合循环神经网络是最常被采用的方法，以此为基础提出了许多模型，改进方向大多是优化视觉或文本特征，以及设计注意力机制来关注重要信息。

通过对现有方法的不足之处进行分析和总结，得出以下两个需要解决的问题：用诗歌描述图像的相关工作主要分为监督和无监督学习。第一个问题是在监督学习中，目前只有公开的英文多模态诗歌数据集，数据集规模是八千多个对图像诗歌对。然而，小规模的多模态数据集会限制深度学习模型的表现，并且目前没有公开的多模态中文诗歌数据集，而制作多模态数据集需要很多人力，增加模型的训练成本。目前有些方法通过图像和诗歌中的概念词，自动匹配构造伪成对数据集。但是自动匹配的数据集中存在许多噪音，原因是诗歌还具有情感和风格特征，只通过概念词匹配会忽略这些重要特征，导致图像和诗歌之间语义不一致，从而影响到数据集的质量。第二个问题是在无监督学习中，目前的方法都是基于关键词，并通过模块化组合方式完成看图写诗任务。然而关键词的质量很难保证，存在的问题是用现代关键词来生成古典诗歌，这导致诗歌流畅性和连贯性比较差，与图像之间的一致性低。并且在限制诗歌的超参数(长度，格律，押韵)条件下，由关键词生成的诗歌存在多样性不足，也就是基于同一张图像生成的多首诗歌之间相似度高。

发明内容

本发明为了解决上述问题，提出了一个基于强化学习和对比学习的图像语义理解及文本生成方法。本发明的具体步骤如下：

S1.以生成式对抗网络作为从图像生成诗歌的基本框架，生成器负责理解图像内容并生成诗歌，判别器负责判断诗歌的真实性。

S2.基于强化学习方法设计古典概念词奖励机制，该奖励会促进生成器创作出符合图像中视觉对象的诗歌。

S3.基于强化学习方法设计跨模态特征对齐机制，直接跨模态对齐以减小跨模态特征重构误差为目标，间接跨模态对齐以优化生成器创作诗歌质量为目标。

S4.基于对比学习方法设计对比奖励机制，通过采样的潜在代码控制生成器创作诗歌的多样性。

S5.基于强化学习和对比学习的模型训练。

本发明的技术方案特征和改进为：

对于步骤S1，本发明以生成式对抗网络作为基本框架。总体上，数据集包括一组图像原特征X＝{x₁,…,x_N}和一组诗歌Y＝{y₁,…,y_M}，每首诗歌由n个句子组成，即y＝{l₁,l₂,…,l_n}，N和M分别是图像的总数和诗歌的总数。图像数据集和诗歌数据集之间没有任何关联。生成器生成的诗歌表示为

其中每一句子由T个字符组成，即

对于生成器，它主要组成部分是图像特征提取器、诗歌编码器和诗歌解码器。由卷积神经网络CNN提取图像的特征x，再经过图像特征转换器

对特征维度做变换以适应诗歌解码器。诗歌编码器通过双向LSTM对句子进行编码得到一组隐藏状态，并由句子特征转换器

对编码器的输出做变换以适应解码器。特征转换如式(1)和(3)所示：

公式(1)中f_img表示维度转换后的图像特征，即图像特征。公式(2)中

表示字符嵌入，

表示前向隐藏状态，

表示反向隐藏状态，

表示编码器隐藏状态。公式(3)中

表示编码器输出经转换器处理后的句子特征，即句子特征。

为了达到生成器创作多样化的诗歌，使用潜在代码和图像特征的拼接作为诗歌解码器的初始输入。具体上，诗歌的第一句创作时解码器基于图像特征和潜在代码预测字符，图像特征和潜在代码经过拼接后由跨模态转换器

做特征维度变换。并且，对于诗歌接下来的内容，由图像特征和编码器对上一句处理得到的句子特征进行拼接，再做特征维度变化后作为解码器的初始输入。解码器初始输入的跨模态特征由公式(4)和(5)得到。

公式(4)中

表示诗歌的第一个跨模态特征，z表示从标准高斯分布中随机采样得到的潜在代码。公式(5)中

表示诗歌的跨模态特征。

诗歌解码器由LSTM预测字符。首先解码器LSTM的初始输入是跨模态特征

和初始状态为零状态s_-1，并且解码器的输出为起始隐藏状态

接着解码器的输入为起始字符

的嵌入表示和起始隐藏状态为

以及注意力机制得到的上下文向量

并且解码器的输出为下一个隐藏状态

通过重复上述步解码步骤，解码器得到一组的隐藏状态。相关计算如公式(6)、(7)和(8)所示：

在得到解码器的输入的所有隐藏状态后，由线性层将隐藏状态映射到词汇表，再经过归一化函数计算出词汇表中字符的概率分布，采样函数接下来从概率分布中采样得到字符并最终组成一个完整的句子。相关计算如公式(9)和(10)所示：

公式(9)中linear表示线性层，softmax表示归一化函数，

是词汇表的概率分布。公式(10)中sample表示的采样函数服从类别分布。

对于判别器，由LSTM编码生成的诗歌或来自诗歌数据集的真实诗歌。判别器需要对输入的诗歌进行判断并预测出真实性概率。计算方法是LSTM编码句子并输出每一步的隐藏状态，隐藏状态经过线性层映射为数值，再由激活函数对数值进行归一化得到预测的真实性概率。基于强化学习，将生成诗歌的真实性概率值的对数形式作为生成器的对抗奖励。判别器的对抗损失由真实诗歌和生成诗歌的真实性概率得到。相关计算的公式如下所示：

公式(11)和公式(12)中

表示判别器LSTM输出的隐藏状态，

表示判别器预测的真实性概率。公式(13)中

表示生成器的对抗性奖励。公式(14)中

表示判别器的对抗性损失。

对于步骤S2，本发明为了强化生成诗歌和图像之间的一致性，通过设计古典概念词奖励机制优化生成器。具体上，图像由预训练的目标检测器检测出一组视觉对象和置信分数。视觉对象是英文的现代关键词，需要被转换为中文的古典关键词。基于目标检测器的对象字典，制作一个现代-古典概念字典，用于将图像检测出的视觉概念转换为对应的古典概念。古典概念词奖励以生成诗歌中是否具有与图像相同的概念词作为奖励依据，并将视觉对象的置信分数作为奖励值。相关计算如以下公式所示：

公式(15)中O_en表示图像检测出的视觉对象和置信分数集合，公式(16)中

表示一个现代关键词对应的古典关键词集合，公式(17)中

表示古典概念词奖励。

对于步骤S3，本发明设计跨模态对齐机制，目的是让生成器从诗歌数据集中学习以提高生成诗歌的质量。因为生成器中的解码器是基于跨模态特征来创作诗歌，为了使得生成器可以学习真实诗歌，需要建立真实诗歌和跨模态特征之间的映射关系。具体上，直接跨模态对齐的目标是使得生成器的跨模态特征和判别器重构的跨模态特征之间进行特征对齐。判别器将生成器创作出的诗歌先进行编码，再经过跨模态特征转换器

进行特征维度变换得到重构的跨模态特征，接着与生成器的跨模态特征计算对齐损失。基于跨模态特征对齐，就可以将真实诗歌先由判别器映射为跨模态特征，再由生成器基于跨模态特征创作出诗歌，真实诗歌和生成诗歌之间通过交叉熵损失来提高生成器的创作能力。相关计算公式如下所示：

公式(18)中

表示跨模态特征对齐损失，公式(19)中

表示生成器的跨模态特征奖励，公式(20)中

表示生成器诗歌的交叉熵损失。

对于步骤S4，本发明设计的对比学习方法，目的是让生成器可以个根据潜在代码实现生成诗歌多样化。生成器的解码器的初始跨模态特征是由图像特征和潜在代码拼接而成，也就是解码器创作诗歌主要依赖于图像特征，并受到潜在代码的影响。因为潜在代码是从高斯分布中随机采样得到，那么由十分接近的潜在代码创作出的诗歌应该是相似的，由差异化的潜在代码创作出的诗歌应该是有区别的。为了指导生成器依据潜在代码实现多样化创作，通过高斯分布中的小超球面进行正负采样，也就是随机采样的潜在代码作为球心，正采样来自球面内部，负采样来自球面外部。生成器基于图像特征和三个潜在代码，分别创作出三首诗歌，并由判别器映射的重构跨模态来度量诗歌之间的差异性。多样化损失目标是减少标准和正采样得到的重构跨模态特征之间差异，并增加标准和负采样得到的重构跨模态特征之间差异。相关的计算公式如下：

公式(21)中

表示生成器的多样化奖励，ε表示一个常量，sim(a,b)表示向量a和向量b之间的余弦相似度。r表示标准重构跨模态特征

r⁺表示正重构跨模态特征

r^-表示负重构跨模态特征

对于步骤S5，强化学习针对生成器进行策略梯度计算，其中生成器的奖励包括对抗性奖励、古典概念词奖励、跨模态特征对齐奖励和多样化奖励。除此之外，跨模态间接对齐，也就是交叉熵损失也为生成器提供梯度。判别器的损失包括对抗性损失和跨模态特征对齐损失。相关计算公式如下所示：

公式(22)中

表示生成器的总奖励，λ_c、λ_m和λ_d表示超参数用于平衡各个奖励项。公式(23)中

表示生成器的总损失，b_t表示基线奖励。公式(24)中

表示判别器的总损失。

因为诗歌和图像数据集是相互独立的，所以模型从头进行训练具有挑战性，为了使得模型能够以更好的参数开始训练，设计预训练方法对模型参数进行初始化。具体上，生成器的预训练分为两步。第一步制作自动匹配的图像诗歌对数据集，首先，基于现代-古典概念字典统计图像和诗歌中相同的概念，如果图像和诗歌至少具有三个相同概念则认为它们是匹配的。其次，利用现成的同义词扩展工具扩展诗歌的概念词，通过计算图像和诗歌之间在概念上的Jaccard系数，如果系数值不小于0.5，则认为两者是匹配的。第二步，基于自动匹配的图像诗歌对数据集，采样交叉熵损失训练生成器。判别器预训练也分为两步，第一步按照间接跨模态特征对齐方法，将真实诗歌输入到判别器得到跨模态特征，再由生成器创作诗歌，采用交叉熵损失训练判别器。第二步，从高斯分布中随机采样伪图像特征，以对抗性目标训练判别器。

与现有的技术相比，本发明的有益效果是：

1.本发明的方法基于强化学习设计的古典概念词奖励机制在和跨模态特征对齐方法有效的消除了对图像诗歌对数据集的依赖，模型以无监督的端到端方式训练。

2.本发明的方法基于对比学习设计的多样化奖励机制提高了模型在表达多样性方面的表现，可以从图像中创作出多首不同的诗歌。

3.本发明的方法能够应用于对话***中，用特定领域下图像和文本的数据集训练模型。在实际对话场景中，模型根据用户给定的图像，创作符合图像内容的诗歌，满足用户需求。

附图说明

图1为本发明中基于生成式对抗网络的图像语义理解及文本生成框架图。

图2为本发明中图像和文本跨模态对齐机制的结构图。

图3为本发明中文本多样化奖励机制的结构图。

图4为本发明中的图像语义理解及文本生成模型，在图像和文本一致性方面的可视化结果图。

图5为本发明中的图像语义理解及文本生成模型，在文本多样性方面的可视化结果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制。

以下结合附图和及具体实施方式对本发明做进一步的阐述。

图1为基于生成式对抗网络的图像语义理解及文本生成框架图。如图1所示，图像原特征由Faster-RCNN提取并经过图像转换器映射到图像空间得到图像特征。诗歌编码器是双向LSTM，对字符进行编码并输出隐藏状态，这组隐藏状态被句子转换器映射到句子空间得到句子特征，此外还被解码器的注意力机制所使用以获得上下文向量。诗歌的第一个跨模态特征由从高斯分布中采样的潜在代码和图像特征拼接而成，接下来的跨模态特征由上一个句子的特征和图像特征拼接而成。跨模态特征将作为解码器的初始输入，并结合注意力机制，由LSTM解码出一组隐藏状态并经过线性层映射到词汇表，再通过采样函数生成下一个句子。生成的句子被输入到判别器，由LSTM编码后输出隐藏状态，再经过线性层和激活函数得到预测的真实性概率。重构的跨模态特征由判别器LSTM的最后一个隐藏状态经过线性层映射得到。

图2为图像和文本跨模态对齐机制的结构图。如图2所示，跨模态空间中的特征对齐方法有两种：跨模态特征的直接对齐和跨模态特征的间接对齐。均方误差衡量跨模态特征和重建的跨模态特征，交叉熵损失衡量真实诗歌和生成诗歌。

图3为文本多样化奖励机制的结构图。如图3所示，先从高斯分布中采样一个标准潜在代码，接着以小超球的半径为分界采样一个正潜在代码、一个负潜在代码，并根据这组潜码和图像生成诗歌。判别器重构了诗歌的跨模态特征，由生成器的对比奖励来控制特征在跨模态空间中的距离，以强化通过潜在代码来控制诗歌的多样性。

图4为本发明中的图像语义理解及文本生成模型，在图像和文本一致性方面的可视化结果图。如图4所示，这些例子说明本发明中的图像语义理解及文本生成模型是可以生成准确描述图像语义内容的诗歌，诗歌在语言流畅性和连贯性方面具有良好的表现。消融模型中对设计的图像和文本跨模态对齐机制或文本多样化奖励机制进行去除，导致图像和诗歌在语义一致性方面出现退化。对比模型中的九歌和乐府生成的诗歌，其优点是诗歌在流畅性和意义方面表现好，缺点是与图像语义一致性较弱。

图5为本发明中的图像语义理解及文本生成模型，在文本多样性方面的可视化结果图。如图5所示，在相同的诗歌超参数(长度、格律和押韵)的限制下，模型创作的多首诗歌都准确的描述了图像的内容，并且在语言表达方面灵活多变。图中每张图像的顶部显示了诗歌的格律，其中“P”和“Z”分别表示平声和仄声。诗歌中的押韵字符以斜体显示。

最后，本发明的上述示例的细节仅为解释说明本发明所做的举例，对于本领域技术人员，对上述实施例的任何修改、改进和替换等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于强化学习和对比学习的图像语义理解及文本生成方法，其特征在于，所述方法

包括以下步骤：

S5.基于强化学习和对比学习的模型训练。

2.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法，其特征在于，所述S1的具体过程为：

模型以生成式对抗网络作为基本框架。总体上，数据集包括一组图像原特征X＝{x₁,…,x_N}和一组诗歌Y＝{y₁,…,y_M}，每首诗歌由n个句子组成，即y＝{l₁,l₂,…,l_n}，N和M分别是图像的总数和诗歌的总数。图像数据集和诗歌数据集之间没有任何关联。生成器生成的诗歌表示为

其中每一句子由T个字符组成，即

表示字符嵌入，

表示前向隐藏状态，

表示反向隐藏状态，

表示编码器隐藏状态。公式(3)中

表示编码器输出经转换器处理后的句子特征，即句子特征。

为了达到生成器创作多样化的诗歌，使用结合潜在代码和图像特征作为诗歌解码器的初始输入。具体上，诗歌的第一句创作时解码器基于图像特征和潜在代码预测字符，图像特征和潜在代码经过拼接后由跨模态转换器

公式(4)中

表示诗歌的跨模态特征。

和初始状态为零状态s_-1，并且解码器的输出为起始隐藏状态

接着解码器的输入为起始字符

的嵌入表示和起始隐藏状态为

以及注意力机制得到的上下文向量

并且解码器的输出为下一个隐藏状态

在得到解码器的输入的所有隐藏状态后，由线性层将隐藏状态映射到词汇表，在经过归一化函数计算出词汇表中字符的概率分布，采样函数接下来从概率分布中采样得到字符并最终组成一个完整的句子。相关计算如公式(9)和(10)所示：

公式(9)中linear表示线性层，softmax表示归一化函数，

对于判别器，由LSTM编码生成的诗歌或来诗歌数据集的真实诗歌。判别器需要对输入的诗歌进行判断并预测出真实性概率。计算方法是LSTM编码句子并输出每一步的隐藏状态，隐藏状态经过线性层映射为数值，再由激活函数对数值进行归一化得到预测的真实性概率。基于强化学习，将生成诗歌的真实性概率值的对数形式作为生成器的对抗奖励。判别器的对抗损失由真实诗歌和生成诗歌的真实性概率得到。相关计算的公式如下所示：

公式(11)和公式(12)中

表示判别器LSTM输出的隐藏状态，

表示判别器预测的真实性概率。公式(13)中

表示生成器的对抗性奖励。公式(14)中

表示判别器的对抗性损失。

3.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法，其特征在于，所述S2的具体过程为：

为了强化生成诗歌和图像之间的一致性，通过设计古典概念词奖励机制优化生成器。具体上，图像由预训练的目标检测器检测出一组视觉对象和置信分数。视觉对象是英文的现代关键词，需要被转换为中文的古典关键词。基于目标检测器的对象字典，制作一个现代-古典概念字典，用于将图像检测出的视觉概念转换为对应的古典概念。古典概念词奖励以生成诗歌中是否具有与图像相同的概念词作为奖励依据，并将视觉对象的置信分数作为奖励值。相关计算如以下公式所示：

表示一个现代关键词对应的古典关键词集合，公式(17)中r_t ⁱ[con]表示古典概念词奖励。

4.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法，其特征在于，所述S3的具体过程为：

设计跨模态对齐机制，目的是让生成器从诗歌数据集中学习以提高生成诗歌的质量。因为生成器中的解码器是基于跨模态特征来创作诗歌，为了使得生成器可以学习真实诗歌，需要建立真实诗歌和跨模态特征之间的映射关系。具体上，直接跨模态对齐的目标是使得生成器的跨模态特征和判别器重构的跨模态特征之间进行特征对齐。判别器将生成器创作出的诗歌先进行编码，再经过跨模态特征转换器

公式(18)中

表示跨模态特征对齐损失，公式(19)中

表示生成器的跨模态特征奖励，公式(20)中

表示生成器诗歌的交叉熵损失。

5.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法，其特征在于，所述S4的具体过程为：

设计的对比学习方法，目的是让生成器可以个根据潜在代码实现生成诗歌多样化。生成器的解码器的初始跨模态特征是由图像特征和潜在代码拼接而成，也就是解码器创作诗歌主要依赖于图像特征，并受到潜在代码的影响。因为潜在代码是从高斯分布中随机采样得到，那么由十分接近的潜在代码创作出的诗歌应该是相似的，由差异化的潜在代码创作出的诗歌应该是有区别的。为了指导生成器依据潜在代码实现多样化创作，通过高斯分布中的小超球面进行正负采样，也就是随机采样的潜在代码作为球心，正采样来自球面内部，负采样来自球面外部。生成器基于图像特征和三个潜在代码，分别创作出三首诗歌，并由判别器映射的重构跨模态来度量诗歌之间的差异性。多样化损失目标是减少标准和正采样得到的重构跨模态特征之间差异，并增加标准和正采样得到的重构跨模态特征之间差异。相关的计算公式如下：