CN111753078B

CN111753078B - 图像段落描述生成方法、装置、介质及电子设备

Info

Publication number: CN111753078B
Application number: CN201910629398.8A
Authority: CN
Inventors: 潘滢炜; 姚霆; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2024-02-02
Anticipated expiration: 2039-07-12
Also published as: WO2021008145A1; US20220270359A1; CN111753078A

Abstract

本发明提出一种图像段落描述生成方法、装置、介质及电子设备。图像段落描述生成方法包括：获取图像的图像特征；根据图像特征使用卷积自动编码方法确定图像的主题；根据主题使用基于长短期记忆网络LSTM的段落编码确定所述图像的图像描述信息；其中，LSTM包括句子级LSTM及段落级LSTM。本发明提供的技术方案能够准确生成图像描述信息。

Description

图像段落描述生成方法、装置、介质及电子设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像段落描述生成方法、装置、介质及电子设备。

背景技术

图像处理技术领域广泛采用神经网络技术，来描述图像中的每个细节，以生成一个连贯的故事描述图像的视觉内容。对图像进行描述主要存在以下两个方面的问题：1)如何从图像中提取值得描述的主旨/主题？2)如何在一个句子中描述每个主题，同时确保句子之间的连贯性从而形成一个段落？

相关技术中，对于图像的描述赖于RNN(Recurrent Neural Networks，递归神经网络)，例如，LSTM(Long Short-Term Memory，长短期记忆网络)。具体的，把图像的区域特征通过平均融合编码为全局向量，随后将其输入LSTM以解码出主题。在这种情况下，所有图像区域之间的固有结构未被充分利用，使得难以将图像中的主题完整描述。此外，一些图像描述方法利用分层RNN通过输入区域特征生成描述图像的段落，其中分层RNN包括句子RNN和单词RNN。具体的，句子RNN递归地生成以全局向量为条件的句子主题向量(即，区域特征的平均合并)，随后采用单词RNN将每个主题解码为输出语句。

然而，现有技术中的对图像描述的方法并没有将图像中的细节以及图像区域之间的关系充分利用，此外所生成的图像描述语句之间缺少连贯性。

需要说明的是，在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明为解决上述的图形描述过程中细节描述充分及句子不够连贯的技术问题，提供一种能够准确生成图像描述信息的图像段落描述生成方法、装置、介质及电子设备。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的一个方面，提供一种图像段落描述生成方法，包括：获取图像的图像特征；根据所述图像特征使用卷积自动编码方法确定所述图像的主题；根据所述主题使用基于LSTM的段落编码方法确定所述图像的图像描述信息；其中，LSTM包括句子级LSTM及段落级LSTM。

在一个实施例中，所述图像特征包括所述图像的初始区域特征。

在一个实施例中，所述根据所述图像特征使用卷积自动编码方法确定所述图像的主题包括：通过连接所述初始区域特征构建初始区域特征向量；通过使用卷积编码方法对所述初始区域特征向量进行卷积获得主题向量；根据所述主题向量，确定所述图像的主题。

在一个实施例中，图像段落描述生成方法还包括：根据所述主题向量确定所述图像描述信息的句子的数量。

在一个实施例中，所述根据所述主题向量使用基于LSTM的段落编码方法确定所述图像的图像描述信息包括：根据所述融合图像特征使用所述段落级LSTM确定所述图像描述信息中的句子间依赖性及所述段落级LSTM的输出向量；根据所述段落级LSTM的所述输出向量及所述主题向量，确定所述融合图像特征的注意力分布；根据所述注意力分布将所述融合图像特征进行加权处理得到被注意图像特征；将所述被注意图像特征、所述主题向量及所述段落级LSTM的所述输出向量输入所述句子级LSTM获得所述主题的句子生成条件及描述所述主题的单词；根据所述句子生成条件及描述所述主题的所述单词确定所述图像描述信息。

在一个实施例中，图像段落描述生成方法还包括：采用自我批评方法对所述图像描述信息的覆盖范围进行评价得到所述图像的序列级奖励；确定所述图像描述信息相对于图像原始描述信息的高频对象的覆盖率；将所述覆盖率加权之后与序列级奖励相加，获得对所述图像描述信息的覆盖范围奖励。

根据本发明的另一个方面，本发明提供一种图像段落描述生成装置，包括：图像特征获取模块，用于获取图像的图像特征；主题向量确定模块，用于根据所述图像特征使用卷积自动编码方法确定所述图像的主题；描述信息确定模块，用于根据所述主题使用基于LSTM的段落编码方法确定所述图像的图像描述信息；其中，LSTM包括句子级LSTM及段落级LSTM。

根据本发明的另一个方面，本发明提供一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如上述任一实施例所述的图像段落描述生成方法。

根据本发明的另一个方面，本发明提供一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任一实施例所述的图像段落描述生成方法。

本发明实施例提供的技术方案可以包括以下有益效果：

本发明提出的图像段落描述生成方法使用卷积自动编码方法确定图像的主题，然后使用基于LSTM的段落编码方法确定图像的图像描述信息，上述技术方案能够准确生成图像描述信息。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例中的一种图像段落描述生成方法的流程示意图；

图2示出了本发明实施例中的一种图像段落描述生成方法的流程示意图；

图3示出了本发明实施例中的一种图像段落描述生成方法的执行过程示意图；

图4示出了本发明实施例中的一种图像段落描述生成装置的框图；

图5示出了适于用来实现本发明实施例的电子设备的计算机***的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本公开的发明人发现：现实生活中的图像往往含有多个多样的、具有描述性意义的主题，使得这个问题很有挑战性。一个关键的问题就是如何提取图像中这些值得描述的主旨/主题，并据此生成一段含有多个主题但又整体统一的描述。受生成对抗网络的启发，一些图像描述方法通过利用用于段落生成的多级对抗性鉴别器来扩展分级RNN。因此生成描述图像的段落以产生具有句子主题之间的平滑逻辑转换的真实段落。此外，还利用相干向量、全局主题向量和变分自动编码的公式来增强分层RNN，以进一步模拟将段落与图像相关联的固有模糊性。但是，现有技术中的对图像描述的方法并没有将图像中的细节以及图像区域之间的关系充分利用，此外所生成的图像描述语句之间缺少连贯性。

图1示出了本发明实施例中的一种图像段落描述生成方法的流程示意图。图像段落描述生成方法包括步骤S101、步骤S102及步骤S103。

在步骤S101中，获取图像的图像特征。其中，图像特征包括图像的初始区域特征。

在一个实施例中，使用快速R-CNN(Recurrent-Convolutional Neural Network)方法捕捉图像的图像特征。

在一些实施例中，还可使用RNN方法获取图像的图像特征，本公开不以此为限。

在步骤S102中，根据图像特征使用卷积自动编码方法确定图像的主题。

在一个实施例中，使用卷积自动编码方法(CAE)对初始区域特征进行卷积来抽象出主题。此外，通过从主题到初始区域特征的高质量重建进行解卷积解码。因此，所获得的主题可能更具代表性，并包含所需的信息。

在步骤S103中，根据主题使用基于LSTM的段落编码方法确定所述图像的图像描述信息。其中，LSTM包括句子级LSTM及段落级LSTM。

在一个实施例中，段落级LSTM对段落中的所有句子进行整体依赖性建模，并且句子级LSTM在每个主题上确定句子生成条件及其中的单词。

上述实施例中的图像段落描述生成方法，通过基于LSTM的段落编码方法将用于段落生成的主旨/主题解码，利用卷积和反卷积自动编码对初始区域特征上的主旨/主题建模。这种设计不仅通过利用所有区域之间的固有结构来抽象出主题，而且还通过重建来进行解卷积解码以实现更具代表性和信息量的主题。使用基于LSTM的段落编码方法确定图像的图像描述信息。上述图像段落描述生成方法可产生连贯的段落来准确描绘图像。

图2示出了本发明实施例中的一种图像段落描述生成方法的流程示意图。

在该实施例中，一个被段落P描述的图像I，其中，由句子K组成。每一个句子/>由词T_k组成，每一个词w_(k，t)代表D_S-维的文本特征w_(k，t)。利用快速R-CNN(Recurrent-Convolutional Netural Network)法在图像M的区域I中产生一组检测到的对象/> 表示每一个图像区域r_m的D₀-维特征。

在步骤S201中，获取图像的图像特征。其中，图像特征包括图像的初始区域特征。

在步骤S202中，连接图像特征中的初始区域特征构建初始区域特征向量。

在一个实施例中，每个区域首先通过线性层嵌入到D₁-维初始区域特征中。因此，通过连接所有初始区域特征(即，v_m是初始区域特征向量V的第m-列)来构造初始区域特征向量/>将其设置为卷积编码的输入。这里，M，D₁和1分别表示初始区域特征向量V的宽度，高度和通道数。

在步骤S203中，使用卷积编码方法对初始区域特征向量进行卷积获得主题向量。

在一个实施例中，给出一组检测到的区域使用卷积编码方法将所有图像区域封装成K个主题向量，上述方法仅应用于卷积过程中。具体地，利用一个卷积层(conv)将初始区域特征向量V编码到由主题向量组成的主题特征映射V^S中：

其中，σ(·)是非线性激活函数。对于卷积层conv，卷积滤波器的大小设置为M×C₁，步幅大小为C₂，滤波器编号为K。这里，主题特征映射V^S内沿信道维度的每个向量可以被视为第k-个提炼的主题向量

在步骤S204中，通过使用解卷积解码方法将主题向量进行重建，以得到重建区域特征向量。

在一个实施例中，执行解卷积层(deconv)(即，卷积共轭操作)以将主题特征映射V^S中的主题向量解码获得重建区域特征向量。特别地，给定主题特征映射V^S，采用解卷积来再现重建区域特征向量

解卷积层deconv中的滤波器大小和步幅大小设置为与卷积层conv相同。这里，重建区域特征向量的第m列对应于第m个图像区域的重建区域特征。

在步骤S205中，计算初始区域特征向量与重建区域特征向量之间的距离确定主题的重建损失。

在一个实施例中，将全局重建损失定义为初始区域特征向量V和重建区域特征图之间的距离L₁：

通过最小化重建损失，强制执行提炼的主题向量以通过实现更高的重建质量来捕获来自所有区域的整体和代表性信息。

在步骤S206中，根据主题向量确定所述图像的主题。

在一个实施例中，还可以利用主题向量来确定生成的句子的数量。具体而言，每个主题向量另外注入线性层以获得两个状态{CONTINUE＝0，STOP＝1}的分布，以确定该句子是否是段落中的最后一句。

在步骤S207中，将初始区域特征进行平均融合得到融合图像特征。

在一个实施例中，将初始区域特征通过平均池进行平均融合，融合图像特征为

在步骤S208中，使用段落级LSTM确定所述图像描述信息种的句子间依赖性及段落级LSTM的输出向量。

在一个实施例中，定义：用于生成段落中的第k-个句子的每个时间步骤t，段落级LSTM的输入向量平均合并图像特征/>以及先前生成的字w_(k，t-1)的嵌入：

其中，W_S是输入字的变换矩阵。该输入收集段落级LSTM的最大上下文信息，以模拟句子间依赖性。段落级别LSTM的输出向量为

在步骤S209中，根据段落级LSTM的输出向量及主题向量确定融合图像特征的注意力分布。

在一个实施例中，给定段落级LSTM的输出向量和相应的主题向量测量所有融合图像特征的归一化注意力分布：

α_(k，t)＝softmax(a_(k，t)) (5)

其中，是a_(k，t)的第k个元素，/> 分别是转换矩阵。注意力分布a_(k，t)的第k个元素/>表示v_m的被注意的概率。

在步骤S210中，将融合图像特征进行加权处理得到被注意图像特征。

在一个实施例中，通过聚合由注意力加权的所有融合图像特征来计算被注意图像特征

在步骤S211中，将被注意图像特征、主题向量及段落级LSTM的输出向量输入句子级LSTM获得主题的句子生成条件及描述主题的单词。

在一个实施例中，被注意图像特征与相应的主题向量/>和段落级LSTM的输出向量/>的连接作为面向主题的句子生成的句子级LSTM的输入/>

句子级LSTM的输出向量用以预测下一个单词w_(k，t)。

在步骤S212中，根据句子生成条件及描述主题的单词确定所述图像描述信息。其中，一个时间步t对应一个单词。

在步骤S213中，采用自我批评方法对图像描述信息的覆盖范围进行评价得到图像的序列级(CIDEr)奖励。

在步骤S214中，确定图像描述信息相对于图像原始描述信息的高频对象的覆盖率。

在一个实施例中，覆盖范围奖励定义为生成的图像描述段落相对于图像原始描述段落的高频对象的覆盖率：其中，|·|表示集合中元素的数量。这里，Q_gt和Q_g分别代表生成的图像描述段落相对于图像原始描述段落中分别提到的集合中的高频对象。

在步骤S215中，将覆盖率加权之后与序列级奖励相加获得对图像描述信息的覆盖范围奖励。以鼓励对该段中的对象进行全局覆盖，以进行自我批评性培训。

在一个实施例中，自我批评方法的覆盖范围奖励为序列级奖励(R^d)和覆盖面奖励的组合：R＝βR^c+R^d，其中β是加权参数。

上述实施例中的图像段落描述生成方法，通过基于LSTM的段落编码方法递归地解码用于段落生成的主旨/主题，利用卷积和反卷积自动编码对初始区域特征上的主旨/主题建模。这种设计不仅通过利用所有区域之间的固有结构来抽象出主题，而且还通过重建来进行解卷积解码以实现更具代表性和信息量的主题。此外，在自我批评培训策略中采用了覆盖范围奖励，以鼓励对该段落中的对象进行全局覆盖。使用基于LSTM的段落编码方法确定图像的图像描述信息，通过段落级LSTM和句子级LSTM生成主题导向的句子，在段落中实现句子间依赖性建模。通过序列级奖及覆盖范围奖励来鼓励段落中高频对象的最大覆盖范围。上述图像段落描述生成方法，可产生连贯的段落来准确描绘图像。

图3示出了本发明实施例中的一种图像段落描述生成方法的执行过程示意图。

如图3所示，快速R-CNN 302检测到图像301的图像特征303，图像特征303中的初始区域特征304首先被进行卷积305处理，用于触发图像中主题的建模。利用卷积编码方法从初始区域特征304中提炼知识并提取主题向量306。接下来，使用解卷积307编码方法以将主题向量再现，获得重建区域特征308。进而可以根据重建区域特征308及初始区域特征304确定主题的重建损失。上述处理可确保提炼的主题能够捕获所有图像区域值得描述的整体和代表性信息。之后，我们通过平均融合309方法将所有初始区域级特征304作为图像特征，将其作为段落级LSTM 310的输入。这里，通常使用递归方法来探索段落中的句子间依赖性。根据段落级LSTM 310的输出向量及主题向量K 312确定被注意图像特征313。将被注意图像特征313、主题向量K 312及段落级LSTM 310的输出向量输入句子级LSTM 314，句子级别LSTM314在每个学习的主题上生成句子条件及描述主题的单词，从而获取描述主题的句子K315。依照同样的方法，根据主题K+1316获得句子K+1317，最终获得每个主题的对应的句子，将其整合之后得到图像描述信息318。此外，通过序列级奖及覆盖范围奖励来鼓励段落中高频对象的最大覆盖范围。上述图像段落描述生成方法，可产生连贯的段落来准确描绘图像。

在一个实施例中将本发明提出的图像段落描述生成方法在斯坦福图像段落数据集上应用，已验证该图像段落描述生成方法的效果。数据集包含19,551个图像，每个图像有一个带人工注释的段落。平均每个段落有67.5个单词，每个句子由11.91个单词组成。将14,575个图像用于训练，2,487个图像用于验证，2,489个图像用于测试。将本发明提出的图像段落描述生成方法CAE-LSTM)与其他方法在斯坦福图像段落数据集上进行性能比较。其他方法这里选用：Image-Flat方法、Regions-Hierachical方法、RTT-GAN方法、CapG-RevG方法及LSTM-ATT方法。Image-Flat方法是一个标准的图像字幕模型，它通过单个LSTM直接将图像解码为一个段落。Regions-Hierachical方法采用分层LSTM来逐句生成段落。RTT-GAN方法将结合对抗性训练策略将句子注意力和单词注意力集成到层次化LSTM中。CapG-RevG方法利用相干向量/全局主题向量生成连贯的段落，并通过变量自动编码器公式保持段落的多样性。LSTM-ATT方法通过LSTM(而不是CAE)对主题进行建模，并采用相同的两级LSTM架构通过注意力段落生成，无需自我批评的训练策略即可进行训练。采用三种常用的评价指标：METEOR、CIDEr和BLEU-4。

对于每个图像，我应用快速R-CNN来检测该图像内的对象，并选择具有最高检测置信度的顶部M＝50个区域来表示图像。每个区域表示为来自快速R-CNN的conv5-3特征图的RoI汇集后的fc7层的4,096维输出。快速R-CNN是在Visual Genome上进行的预训练。为了构建词汇表，训练集中的所有单词都被转换为小写，并且省略了出现次数少于4次的单词。每个单词表示为“one-hot”向量(词汇表中的二进制索引向量)。最大句子数量K是6，句子中的最大单词数量是20(必要时填充)。对于我们的卷积编码方法，卷积层中的卷积滤波器大小设置为C₁＝26，步幅大小C₂＝2.输入的初始区域特征和提炼的主题向量的维数设置为C₁＝1,024和C₂＝500。对于段落级和句子级LSTM网络，每个LSTM中隐藏状态的维数为H＝1,000.用于测量注意力分布的隐藏层的尺寸是C₃＝512。

使用两个短语句训练方法来训练我们的图像段落描述生成方法。对于第一个短语句，我们将学习率设置为1X10^-4，因此通过结合利用卷积编码方法中的重建损失和段落级和句子级LSTM段生成器中的交叉熵损失来执行本公开的图像段落描述生成方法的训练。在这里，我们在验证集的每个时期评价模型，并选择具有最佳CIDEr分数的模型作为下一个训练短语句的初始化。对于训练的第二个短语句，学习率设置为5X10^-6并且图像段落描述生成方法通过CIDEr奖励和覆盖范围奖励的组合进一步优化。在推理过程中，我们采用中的推理约束来处理三元组重复。根据验证性能将加权参数设置β为8。根据每个图像区域的客观得分确定区域顺序。我们还通过对边界框的置信度得分排序所有区域，或者简单地使用固定的随机顺序来研究区域顺序。当我们在图像段落描述生成方法中使用不同的区域顺序进行连接时，CIDEr得分在0.008内不断波动。结果表明，本发明提出的图像段落描述生成方法的性能对区域顺序的选择不敏感。

方法	CIDEr	METEOR	BLEU-4
				Image-Flat	11.06	12.82	7.71
Regions-Hierachical	13.52	15.59	8.69
				RTT-GAN	20.36	18.39	9.21
CapG-RevG	20.93	18.62	9.43
				LSTM-ATT	20.17	17.72	8.72
CAE-LSTM	25.25	18.82	9.67

表1

上述表1示出本发明实施例的图像段落描述生成方法(CAE-LSTM)与其他方法在斯坦福图像段落数据集上的性能比较。

参考表1中的结果，本发明中提出的图像段落描述生成方法对于图像的描述具有更好的性能。具体的，我们的CAE-LSTM的CIDEr、METEOR及BLEU-4得分分别达到25.15％、18.82％及9.67％。综合上述三个方面的得分，本发明中提出的图像段落描述生成方法优于表1中的其他方法。

从表1中所有方法输出的结果来看，本发明中提出的图像段落描述生成方法生成的段落更加准确连贯并多样化地描述了图像中的主题。

邀请了六名评价人员，从人工评价测试图像集中随机选择1000张图像。向所有评价者展示一个由不同方法或人工注释生成的段落，问他们：您能确定给定的段落是由***生成的还是由人生成的？根据评价者的回答，得到：人，CAE-LSTM和LSTM-ATT的测试结果分别为88.5％，39.8％和14.7％，所以，本发明中提出的图像段落描述生成方法对于图像的描述具有更好的性能。

图4示出了本发明实施例中的一种图像段落描述生成装置的框图。

参照图4所示，图像段落描述生成装置700，包括图像获取模块401、图像主题确定模块402及描述信息确定模块403。

图像获取模块401用于获取图像的图像特征。其中，图像特征包括图像的初始区域特征。

图像主题确定模块402用于根据图像特征使用卷积自动编码方法确定图像的主题。

在一个实施例中，通过对初始区域特征进行卷积来抽象出主题。此外，通过从主题到初始区域特征的高质量重建进行解卷积解码。因此，所获得的主题可能更具代表性，并包含所需的信息。

描述信息确定模块403用于根据主题使用基于LSTM的段落编码方法确定所述图像的图像描述信息。其中，LSTM包括句子级LSTM及段落级LSTM。

上述实施例中的图像段落描述生成装置，通过基于LSTM的段落编码方法递归地解码用于段落生成的主旨/主题，利用卷积和反卷积自动编码对初始区域级特征上的主旨/主题建模。这种设计不仅通过利用所有区域之间的固有结构来抽象出主题，而且还通过重建来进行解卷积解码以实现更具代表性和信息量的主题。使用基于LSTM的段落编码方法确定图像的图像描述信息。上述图像段落描述生成装置可产生连贯的段落来准确描绘图像。

由于本发明的示例实施例的图像段落描述生成装置的各个功能模块与上述图像段落描述生成方法的示例实施例的步骤对应，因此对于本发明装置实施例中未披露的细节，请参照本发明上述的图像段落描述生成方法的实施例。

下面参考图5，其示出了适于用来实现本发明实施例的电子设备的计算机***500的结构示意图。图5示出的电子设备的计算机***500仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机***500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有***操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的图像段落描述生成方法。

例如，所述的电子设备可以实现如图1中所示的：在步骤S101中，获取图像的图像特征。在步骤S102中，根据图像特征使用卷积自动编码方法确定图像的主题。在步骤S103中，根据主题使用基于LSTM的段落编码方法确定所述图像的图像描述信息。其中，LSTM包括句子级LSTM及段落级LSTM。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种图像段落描述生成方法，其特征在于，包括：

获取图像的图像特征，所述图像特征包括所述图像的初始区域特征；

根据所述图像特征使用卷积自动编码方法确定所述图像的主题；

将所述初始区域特征进行平均融合得到融合图像特征；

根据所述主题使用基于长短期记忆网络LSTM的段落编码方法确定所述图像的图像描述信息；其中，LSTM包括句子级LSTM及段落级LSTM；

所述根据所述图像特征使用卷积自动编码方法确定所述图像的主题，包括：

通过连接所述初始区域特征构建初始区域特征向量；

通过使用卷积编码方法对所述初始区域特征向量进行卷积获得主题向量；

根据所述主题向量，确定所述图像的主题；

所述根据所述主题使用基于LSTM的段落编码方法确定所述图像的图像描述信息，包括：

根据所述融合图像特征使用所述段落级LSTM确定所述图像描述信息中的句子间依赖性及所述段落级LSTM的输出向量；

根据所述段落级LSTM的所述输出向量及所述主题向量，确定所述融合图像特征的注意力分布；

根据所述注意力分布将所述融合图像特征进行加权处理得到被注意图像特征；

将所述被注意图像特征、所述主题向量及所述段落级LSTM的所述输出向量输入所述句子级LSTM获得所述主题的句子生成条件及描述所述主题的单词；

根据所述句子生成条件及描述所述主题的所述单词确定所述图像描述信息。

2.根据权利要求1所述的图像段落描述生成方法，其特征在于，还包括：

通过使用解卷积解码方法将所述主题向量进行重建，以得到重建区域特征向量；

计算所述初始区域特征向量与所述重建区域特征向量之间的距离确定所述主题的重建损失。

3.根据权利要求1所述的图像段落描述生成方法，其特征在于，还包括：

根据所述主题向量确定所述图像描述信息的句子的数量。

4.根据权利要求1所述的图像段落描述生成方法，其特征在于，还包括：

采用自我批评方法对所述图像描述信息的覆盖范围进行评价得到所述图像的序列级奖励；

确定所述图像描述信息相对于图像原始描述信息的高频对象的覆盖率；

将所述覆盖率加权之后与所述序列级奖励相加，获得对所述图像描述信息的覆盖范围奖励。

5.一种图像段落描述生成装置，包括：

图像特征获取模块，用于获取图像的图像特征，所述图像特征包括所述图像的初始区域特征；

主题向量确定模块，用于根据所述图像特征使用卷积自动编码方法确定所述图像的主题；以及将所述初始区域特征进行平均融合得到融合图像特征；

描述信息确定模块，用于根据所述主题使用基于长短期记忆网络LSTM的段落编码方法确定所述图像的图像描述信息；其中，LSTM包括句子级LSTM及段落级LSTM；

所述主题向量确定模块用于：通过连接所述初始区域特征构建初始区域特征向量；通过使用卷积编码方法对所述初始区域特征向量进行卷积获得主题向量；根据所述主题向量，确定所述图像的主题；

所述描述信息确定模块用于：根据所述融合图像特征使用所述段落级LSTM确定所述图像描述信息中的句子间依赖性及所述段落级LSTM的输出向量；根据所述段落级LSTM的所述输出向量及所述主题向量，确定所述融合图像特征的注意力分布；根据所述注意力分布将所述融合图像特征进行加权处理得到被注意图像特征；将所述被注意图像特征、所述主题向量及所述段落级LSTM的所述输出向量输入所述句子级LSTM获得所述主题的句子生成条件及描述所述主题的单词；根据所述句子生成条件及描述所述主题的所述单词确定所述图像描述信息。

6.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至4中任一项所述的图像段落描述生成方法。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至4中任一项所述的图像段落描述生成方法。