CN110750669A

CN110750669A - 一种图像字幕生成的方法及***

Info

Publication number: CN110750669A
Application number: CN201910885349.0A
Authority: CN
Inventors: 杨志明
Original assignee: Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd
Current assignee: Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-04
Anticipated expiration: 2039-09-19
Also published as: CN110750669B

Abstract

本发明公开了一种图像字幕生成的方法及***，本发明实施例中的神经网络模型采用编码器‑解码器(encoder‑decoder)递归双向循环神经网络架构，该模型包括两个主要部分：图像特征提取部分和图像字幕生成部分。其中，对于图像特征提取部分，设置卷积神经网络将图像转换为图像的特征矢量信息；对于图像字幕生成部分，设置双向循环神经网络，输入图像的特征矢量信息，双向循环神经网络提取到文本中的深度语义信息，最终得到图像字幕信息。本发明实施例简单地自动生成图像字幕，且提高图像字幕生成的准确率。

Description

一种图像字幕生成的方法及***

技术领域

本发明涉及计算机的图像处理技术和自然语言处理技术，特别涉及一种图像字幕生成的方法及***。

背景技术

图像字幕生成就是为给定的图像，例如某个对象或场景的图片生成可读的文本描述信息，该文本描述信息也被称为自动图像注释或图像标注。图像字幕生成技术是继图像分类、目标检测、图像分割后的又一新的计算机视觉领域的研究方向。图像字幕生成技术需要使用正确形式的自然语言句子对图像中的对象及对象之间的关系进行描述，这是一项非常具有挑战性的任务，为了实现图像字幕生成需要结合计算机视觉和自然语言处理的相关知识，即需要用计算机视觉的技术来解释图像的内容，又需要自然语言处理技术来生成文本描述信息。但是，图像字幕生成技术可以产生非常大的影响，例如可以帮助视障人士更好地理解互联网中的图像内容。

如何生成图像字幕是人工智能领域中结合计算机视觉和自然语言处理的一个具有挑战性的问题，快速浏览图像就能够指出并描述有关视觉场景中的大量细节，这对于人来说是一个相对简单的问题，但对于计算机来说是非常具有挑战性的，因为这既涉及到如何理解图像的内容，又涉及到如何将这种理解转化为自然语言。

目前，图像字幕生成过程的实现主要采用两种方法，分别为基于模板方式及基于最近邻方式。其中，基于模板方式时，预先设置标题模板，所述标题模板根据对图像中的对象检测和属性发现的结果对所设置的标题模板进行填写；基于最邻近方式时，从大型数据库中检索类似字幕的图像，然后修改这些检索到的字幕以适合当前查询。但是，这两种方式在生成图像字幕过程时，比较繁琐且生成的字幕准确性不高。

发明内容

有鉴于此，本发明实施例提供一种图像字幕生成的方法，该方法能够简单地自动生成图像字幕，且提高图像字幕生成的准确率。

本发明实施例提供一种图像字幕生成的***，该***能够简单地自动生成图像字幕，且提高图像字幕生成的准确率。

本发明实施例是这样实现的：

一种图像字幕生成的方法，该方法包括：

训练得到编码器-解码器encoder-decoder递归双向循环神经网络作为图像字幕生成模型，包括特征提取模型及语言模型；

将获取的图像输入到特征提取模型进行图像特征提取处理，得到图像的特征矢量信息；

将所述图像的特征矢量信息输入到语言模型中，语言模型根据所述图像的特征矢量信息进行语义信息提取，得到图像字幕。

所述特征提取模型采用卷积神经网络构成，所述语言模型采用双向循环神经网络模型构成。

所述特征提取模型为深度卷积神经网络构成，包括多个卷积层、多个全连接层及分类器。

所述得到图像字幕包括：

将图像的特征矢量信息及基于图像的特征矢量信息生成的字幕特征进行设置的BiLSTM网络的循环处理后，将循环处理得到的图像字幕进行全连接网络的连接，再经过Softmax分类器的处理后，得到图像字幕。

所述特征提取模型中还设置全连接网络，所述图像的特征矢量信息是通过全连接网络提供给语言模型的。

该方法还包括：

对所述图像字幕生成模型采用BLEU工具进行评估。

一种图像字幕生成的***，包括：特征提取模型模块及语言模型模块，其中，

特征提取模型模块，用于训练得到特征提取模型，将获取的图像输入到特征提取模型进行图像特征提取处理，得到图像的特征矢量信息，输出给语言模型模块；

语言模型模块，用于训练得到语言模型，将所述图像的特征矢量信息输入到语言模型中，语言模型根据所述图像的特征矢量信息进行语义信息提取，得到图像字幕。

所述特征提取模型是采用深度卷积神经网络训练构成的，包括多个卷积层、多个全连接层及分类器；

所述语言模型采用双向循环神经网络训练构成，用于将所述图像的特征矢量信息及基于图像的特征矢量信息生成的字幕特征进行设置的BiLSTM网络的循环处理后，将循环处理得到的图像字幕进行全连接网络的连接，再经过Softmax分类器的处理后，得到图像字幕。

所述特征提取模型模块，还用于通过所设置的全连接网络对得到的图像的特征矢量信息进行全连接处理后，再输出给语言模型模块。

还包括BLEU工具评估模块，用于对设置的特征提取模型及设置的语言模型构造得到的图像字幕生成模型进行评估。

如上所见，本发明实施例中的神经网络模型采用编码器-解码器(encoder-decoder)递归双向循环神经网络架构，该模型包括两个主要部分：图像特征提取部分和图像字幕生成部分。其中，对于图像特征提取部分，设置卷积神经网络将图像转换为图像的特征矢量信息；对于图像字幕生成部分，设置双向循环神经网络，输入图像的特征矢量信息，双向循环神经网络提取到文本中的深度语义信息，最终得到图像字幕信息。这样，本发明实施例简单地自动生成图像字幕，且提高图像字幕生成的准确率。

附图说明

图1为本发明实施例提供的图像字幕生成的方法流程图；

图2为本发明实施例提供的特征提取模型的结构简化图；

图3为本发明实施例提供的特征提取模型进行图像特征提取的方法例子流程图；

图4为本发明实施例提供的语言模型执行过程示意图；

图5为本发明实施例提供的整个图像字幕生成的模型架构示意图；

图6为本发明实施例提供的图像字幕生成的***结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

本发明实施例为了简单地自动生成图像字幕，且提高图像字幕生成的准确率，将神经网络模型引入到生成图像字幕的实现中。随着神经网络模型的快速发展，可以将神经网络模型应用在图像字幕的生成过程中。本发明实施例中的神经网络模型结合了计算机视觉和机器翻译(自然语言处理)的最新进展，以及迁移学习的思想，可用于生成描述图像的自然语言句子。本发明实施例中的神经网络模型以最大化给定训练图像的目标描述句子的可能性。

具体地说，本发明实施例中的神经网络模型采用编码器-解码器(encoder-decoder)递归双向循环神经网络架构，该模型包括两个主要部分：图像特征提取部分和图像字幕生成部分。其中，对于图像特征提取部分，设置卷积神经网络将图像转换为图像的特征矢量信息；对于图像字幕生成部分，设置双向循环神经网络，输入图像的特征矢量信息，双向循环神经网络提取到文本中的深度语义信息，最终得到图像字幕信息。

因此，本发明实施例就可以简单地自动生成图像字幕，且提高图像字幕生成的准确率。

图1为本发明实施例提供的图像字幕生成的方法流程图，其具体步骤为：

步骤101、设置encoder-decoder递归双向循环神经网络作为图像字幕生成模型，包括特征提取模型及语言模型；

在这里，特征提取模型是采用卷积神经网络实现的，语言模型采用双向循环神经网络实现的；

步骤102、将获取的图像输入到特征提取模型进行图像特征提取处理，得到图像的特征矢量信息；

步骤103、将所述图像的特征矢量信息输入到语言模型中，语言模型根据所述图像的特征矢量信息进行语义信息提取，得到图像字幕。

在本发明实施例中，所述图像特征提取是指计算机经过一系列的运算将一幅红绿蓝(RGB)图像转化成一个特征矩阵或特征向量，通常以固定长度的矢量进行表示，该固定长度的矢量在空间上就代表了这幅图像，成为图像的特征矢量信息。用于图形特征提取的特征提取模型可以采用深度卷积神经网络，可以在图像字幕集中的图像上训练得到该网络，也可以使用训练得到的该网络对获取到的图像进行处理。特征提取模型架构有VGG、AlexNet、GoogleNet或ResNet等。

图2为本发明实施例提供的特征提取模型的结构简化图，如图所示，该特征提取模型采用深度卷积神经网络构成，该深度卷积神经网络包括多个卷积层、全连接层及分类器，其中，将获取的图像输入到卷积层中进行卷积处理，再到全连接层中进行全连接，最后由分类器对其进行分类，得到图像的特征矢量信息。

图3为本发明实施例提供的特征提取模型进行图像特征提取的方法例子流程图，其中，选用深度卷积神经网络ResNet模型进行特征提取，包括：

步骤301、将图像进行输入；

步骤302、图像被输入到特征提取模型中；

步骤303、特征提取模型对图像进行图像特征提取，得到固定维度的特征编码。

在本发明实施例中，语言模型是在给定已经存在于序列中的单词情况下预测序列中下一个单词的概率。对于图像字幕，语言模型是一种神经网络，给定所述图像的特征矢量信息就可以预测描述中的单次序列，并以已经生成的单词为条件建立描述。本发明实施例使用双向循环神经网络作为语言模型，在每个输出时间点上，在序列中生成一个新单词，然后使用字嵌入(比如Word2Vec)对生成的每个字进行编码，并将其作为输入传递给语言模型中的解码器用于生成后续字，图4为本发明实施例提供的语言模型执行过程示意图，其具体步骤为：

步骤401、输入固定维度的特征编码；

步骤402、将固定维度的特征编码输入到语言模型中；

步骤403、语言模型根据固定维度的特征编码进行语义信息提取，输出句子。

可以看出，本发明实施例的图像字幕生成模型主要分为图像特征提取和字幕生成两个部分，这两部分内容可以使用一个全连接网络进行连接起来。也就是将特征提取模型及语言模型采用全连接网络进行连接。假设图像字幕生成模型的输入图像为I对应的字幕描述为S，字幕序列长度为n，即S＝{S1,S2,...,Sn}。在本发明实施中，对于图像特征提取，采用预先训练好的卷积神经网络ResNet进行图像特征提取，将提取得到的图像的特征矢量信息输入到设置的全连接层中，连接卷积神经网络和双向循环神经网络的全连接层的作用是通过仿射变换方式将图像的特征矢量信息转变成合适的维度，用于后续的输入；对于语言模型可以使用BiLSTM网络接收图像的特征矢量信息及已经生成的字幕特征，一起经过BiLSTM网络的处理后，经过语言模型中的全连接层处理后，最后通过Softmax分类器输出对应的序列。整个图像字幕生成的模型架构如图5所示。

在对图像字幕生成模型进行训练时，输入一个图像将会输出该图像的标题，并且标题的生成过程是一次生成一个单词，先前生成的单词作为输入用于后续单词的生成。因此，需要设置初始单词来表示启动生成过程，设置结束单词来表示表示结束标识，在处理时使用startseq和endseq表示序列的开始和结束标志。本发明实施例中的图像字幕生成模型将接收一张图片及初始单词，并生成下一个单词，然后将描述前两个单词作为输入提供给该模型，以生成下一个单词。这就是图像字幕生成模型的训练过程或者训练好的图像字幕生成模型输出最终字幕的过程。例如，对于输入序列“Two people climbing up a snowymountain”将被分为8对输入和输出用于图像字幕生成模型的训练，构建的模型输入和输出对如表1所示。

表1

这样，就训练得到了一个图像字幕生成模型。

在本发明实施例中，对于训练得到的图像字幕生成模型，如何评价其好坏是一个很重要的问题。一般对于图像字幕生成模型的评估主要有人工和机器两种方式。但是，采用人工这种评价方式很慢及成本高，且这种人工评价比较主观，需要依赖专业水平和经验。本发明实施例主要采用机器评价方式，即设置双语评估互补(BLEU，Bilingual EvaluationUnderstudy)工具对所述模型进行评价。该工具是用于衡量机器翻译文本与设置的参考文本相似程度的指标，取值范围在[0，1]之间，可以为一系列自然语言处理认为生成的文本进行评估，如语言生成、图片标题生成、文本摘要或语音识别等任务。BLEU工具具有以下优点：1)计算速度快，消耗资源少；2)很容易理解；3)与语言无关；4)与人类评价高度相关；5)被广泛采用。

在采用BLEU工具对训练得到的图像字幕生成模型进行训练时，通过将候选的字幕文本与处设置的参考文本中的相匹配的n-gram的计数进行工作，其中1-gram或unigram比较的是每一个单词，而二元组(bigram)比较的是每个单词对，这种比较不考虑单词的顺序。匹配个数越多，标识候选字幕的质量就越好。BLEU工具的评价体系的计算公式如下所示。

其中，

r为参考文本的词数，c为候选的字幕中的词数，BP代表字幕中句子较短的惩罚值。

分子表示n-gram在字幕中和参考文本中出现的最小次数，分母标识取n-gram在字幕中出现的次数。

图6为本发明实施例提供的图像字幕生成的***结构示意图，包括：特征提取模型模块及语言模型模块，其中，

在该***中，所述特征提取模型是采用卷积神经网络训练构成的，包括多个卷积层、多个全连接层及分类器。

在该***中，所述语言模型采用双向循环神经网络训练构成，将图像的特征矢量信息及基于图像的特征矢量信息生成的字幕特征进行设置的BiLSTM网络的循环处理后，将循环处理得到的图像字幕进行全连接网络的连接，再经过Softmax分类器的处理后，最终得到图像字幕。

在该***中，所述特征提取模型模块，还用于通过所设置的全连接网络对得到的图像的特征矢量信息进行全连接处理后，再输出给语言模型模块。

在该***中，还包括BLEU工具评估模块，用于对设置的特征提取模型及设置的语言模型构造得到的图像字幕生成模型进行评估。

可以看出，本发明实施例构建了一个字幕生成模型，融合了计算机视觉和自然语言处理的相关技术。首先进行图像特征提取时，采用深度卷积神经网络，比如采用训练好的ResNet50深度卷积神经网络，得到所述图像的特征矢量信息；其次是文本序列处理技术的使用，选用了双向循环神经网络用于提取所述图像的特征矢量信息中的语义信息，在该过程中使用了迁移学习的思想，将Word2ved训练好的语言模型融合进来作为词向量的初始化一起用于提取语义信息，然后使用解码器，将图像特征提取和文本序列处理输出的所述图像的特征矢量信息进行融合后，经过全连接层用于最终预测。这样，就取得了较高的准确性及生成的图像字幕较好的流畅性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种图像字幕生成的方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，所述特征提取模型采用卷积神经网络构成，所述语言模型采用双向循环神经网络模型构成。

3.如权利要求2所述的方法，其特征在于，所述特征提取模型为深度卷积神经网络构成，包括多个卷积层、多个全连接层及分类器。

4.如权利要求2所述的方法，其特征在于，所述得到图像字幕包括：

5.如权利要求1所述的方法，其特征在于，所述特征提取模型中还设置全连接网络，所述图像的特征矢量信息是通过全连接网络提供给语言模型的。

6.如权利要求1所述的方法，其特征在于，该方法还包括：

对所述图像字幕生成模型采用BLEU工具进行评估。

7.一种图像字幕生成的***，其特征在于，包括：特征提取模型模块及语言模型模块，其中，

8.如权利要求7所述的***，其特征在于，所述特征提取模型是采用深度卷积神经网络训练构成的，包括多个卷积层、多个全连接层及分类器；

9.如权利要求7所述的***，其特征在于，所述特征提取模型模块，还用于通过所设置的全连接网络对得到的图像的特征矢量信息进行全连接处理后，再输出给语言模型模块。

10.如权利要求7所述的***，其特征在于，还包括BLEU工具评估模块，用于对设置的特征提取模型及设置的语言模型构造得到的图像字幕生成模型进行评估。