CN107909115B

CN107909115B - 一种图像中文字幕生成方法

Info

Publication number: CN107909115B
Application number: CN201711260141.7A
Authority: CN
Inventors: 王斌; 王剑锋; 周小平; 张倩; 黄继风
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2022-02-15
Anticipated expiration: 2037-12-04
Also published as: CN107909115A

Abstract

本发明公开了一种图像中文字幕生成方法，包括以下步骤：步骤一，构建训练集：收集图像并通过人工对图像加上意思相近的中文描述；步骤二，训练卷积神经网络进行图像特征提取，训练完成卷积神经网络后，对步骤一收集的图像进行正向传播运算，得到图像的语义特征；步骤三，对每一句中文描述按语义进行分词，并构造中文字典；步骤四，训练循环神经网络进行中文字幕生成；步骤五，进行图像字幕生成，在测试或使用阶段，将待生成字幕的图像依次通过卷积神经网络、循环神经网络完成其图像字幕生成任务。

Description

一种图像中文字幕生成方法

技术领域

本发明涉及计算机视觉，机器学习和人工神经网络领域，尤其涉及一种图像中文字幕生成方法。

背景技术

在人工智能领域，人们的长期目标是开发出一种机器，它不仅能够感知和理解我们周围丰富的视觉世界，而且能够运用自然语言与我们沟通。在计算机视觉领域，目前已经实现了多种不同的任务，例如图像识别、图像定位、图像分割等。这些任务实现的主要步骤包括图像特征提取以及分类器的训练。图像特征提取方法主要有：颜色直方图特征、图像纹理特征、方向梯度直方图(Histogram of Oriented，HOG)特征、局部二值模式(LocalBinary Pattern，LBP)特征等，其中颜色直方图和图像纹理特征是图像的全局特征，HOG和LBP是图像的局部特征。分类器一般有SOFTMAX分类器、SVM分类器、神经网络分类器以及集成分类器。这些任务的实现在很大程度上促进了人工智能的发展，但是这些任务都是将图像或者图像的局部划分到事先指定的类别或者离散的标签中。

图像字幕生成(Image Caption Generation)是给定一张图像，让机器自动地生成一句自然语言来描述该图像的内容，它本质上是一个从视觉到语言(Visual-to-language)的问题，简单的来说就是我们希望计算机能够根据图像的内容给出能够描述图像内容的句子。图像字幕生成任务不仅需要计算机理解图像中所包含的对象，更重要的是要将这些对象之间的关系通过正确的自然语言表达出来。

因此，本领域的技术人员致力于开发一种图像中文字幕生成方法，在初始阶段利用了图像的局部特征信息，并且还建立了图像内容之间的位置关系，将每个单词的语意信息同图像的局部特征联系起来；利用带有注意力机制的神经网络模型进行建模，建立的序列模型在每个时刻都会根据图像特征信息和单词语意信息产生一个注意力变量的分布，该变量分布就表示此时模型所注意图像的位置信息。

发明内容

本发明的目的在于针对现在大多数计算机视觉任务都是将图像划分到离散的标签中的不足，提出一种基于神经网络的中文图像字幕生成方法，从而克服了图像到语言的障碍。

为实现上述目的，本发明提出了一种图像中文字幕生成方法，包括以下步骤：

步骤一，构建训练集：收集图像并通过人工对图像加上意思相近的中文描述；

步骤二，训练卷积神经网络进行图像特征提取，训练完成卷积神经网络后，对步骤一收集的图像进行正向传播运算，得到图像的语义特征；

步骤三，对每一句中文描述按语义进行分词，并构造中文字典；

步骤四，训练循环神经网络进行中文字幕生成；

步骤五，进行图像字幕生成，在测试或使用阶段，将待生成字幕的图像依次通过卷积神经网络、循环神经网络完成其图像字幕生成任务。

进一步地，步骤一选用Flickr8k图像字幕数据集。

进一步地，步骤二采用16层神经网络，包括卷积、池化、激活等操作，利用卷积神经网络提取图像特征，获得具有语义信息的特征。

进一步地，16层神经网络包括13层卷积层和3层全连接层，每一层的激活函数选用Relu函数，并且在最后三层后加上Dropout层。

进一步地，步骤二包括数据集，数据集采用ImageNet数据集，并采用Adadelta梯度下降算法作为步骤二的训练算法，并按以下公式进行网络参数的更新：

w_t+1＝w_t+Δw_t (4)

其中，w_t代表第t次迭代的参数值，g代表梯度，E[g²]代表梯度g平方的移动平均数，α为计算移动平均数的系数，一般取0.99，η为学习速率取0.0001，ε取一个很小的数防止分母为0。

进一步地，步骤四采用加入Dropout的LSTM网络，在不同的时许周期采用随机置0的方法，从而提升模型的泛化能力。

进一步地，步骤四对条件概率P(S_t|I,S₀,S₁,…,S_t-1；θ)进行建模，在模型中使用固定长度的隐藏单元输出h_t来表达第t时刻的条件概率值，与上一个时刻的隐藏单元h_t-1，和该时刻的输入x_t有关，因此，隐藏单元输出h_t＝f(h_t-1,x_t)，

其中f为tanh非线性函数；对于初始值h_-1则是通过步骤三的卷积神经网络对输入图像I进行特征提取的到，x_t则表示在每个时刻t对应的某个词汇向量。对于每幅图像面临中文描述长度不等的问题，本发明采用在序号向量的末尾补0来解决。同样训练该网络时。

进一步地，训练循环神经网络时，每次迭代的输入选取步骤二得到图像特征以及步骤三生成的字幕序号向量，网络权重更新的方法采用Adadelta梯度下降算法，学习速率被设置为0.0001。

技术效果：

在初始阶段利用了图像的局部特征信息，并且还建立了图像内容之间的位置关系，将每个单词的语意信息同图像的局部特征联系起来；利用带有注意力机制的神经网络模型进行建模，建立的序列模型在每个时刻都会根据图像特征信息和单词语意信息产生一个注意力变量的分布，该变量分布就表示此时模型所注意图像的位置信息。

附图说明

图1为本发明的一种图像中文字幕生成方法的流程图。

图2为本发明的一种图像中文字幕生成方法的图像中文字幕数据示例。

图3为本发明的一种图像中文字幕生成方法的中文字幕分词示例。

图4为本发明的一种图像中文字幕生成方法的测试图像中文字幕生成结果与真实结果对比。

图5为本发明的一种图像中文字幕生成方法的测试图像中文字幕生成结果与真实结果对比。

图6为本发明和传统方法在Flickr8K CN上的CIDEr学习曲线对比图。

图7为本发明和传统方法在Flickr8K上的CIDEr学习曲线对比图。

表1为本发明和传统方法在Flickr8k CN数据集上各实验结果对比。

具体实施方式

本发明的具体实施例为标准数据集Flickr8K及其中文版Flickr8K CN。本发明提供了一种中文图像字幕生成的方法，通过以下方案来实现。首先，在训练阶段根据实际需求构建训练集，收集尽可能多的图像，并通过人工对每一幅图像加上合适的中文字幕，这个数据集的作用是训练机器，让其学会如何根据这些样本自动地给图像加上中文字幕。接着，通过训练一个多层卷积神经网络来对训练集的图像进行特征提取。紧接着，对每幅图像的中文字幕进行语义上的分词，并根据词汇出现的频率构造字典。最后通过训练一个循环神经网络，对这些中文字幕进行建模，并让其学习如何根据图像特征进行中文字幕生成。在测试或者使用阶段，对于输入的图像，利用训练阶段得到的卷积神经网络来提取特征，并将该特征输入到循环神经网络中得到中文字幕。该模型是一种判别模型，即在给定某个图片I的条件下，使其取得正确描述序列S的概率最大。该过程可以形式化的表达为，

其中：θ是该模型待学习的参数；第一个求和是针对训练集中所有的图片I和其正确的描述序列S；第二个求和是对于正确描述序列S中的每个单词S_t。根据贝叶斯公式，其中第二个求和结果代表着在给定图片I的条件下，得到整个描述序列S的对数联合概率值。

如图1所示，本发明的一较佳实施例提供了一种图像中文字幕生成方法包括以下几个步骤：

步骤一、构建训练集

按照实际需求，收集若干图像并通过人工对这些图像加上若干句中文描述。由于模型的局限性，给图像加上的中文描述，要求尽量选择简单并且能够直接表达图像的含义的词汇。

本实施例选择了跟日常生活比较贴近的Flickr8k图像字幕数据集，该数据集一共大约有8000多幅图像，其中大多展示的是人类和动物在参与到某项活动中的情景，示例如图2所示。原数据集中每幅图像对应的标注为5句英文，为了实施本发明的图像中文字幕生成，本发明给每幅图像添加了5句简单中文字幕的描述，如图2所示，从而构成数据集。

步骤二、训练卷积神经网络进行图像特征提取

本发明利用卷积神经网络来实现对图像的语义特征提取。在对上述数据集进行特征提取之前，需要在一个更大的数据集上来预训练该网络。卷积神经网络包括一系列卷积、池化、激活等操作，利用卷积神经网络提取图像特征，能够获得较传统的LBP、HOG、颜色直方图特征更加具有语义信息的特征。本实施例使用ImageNet数据库来训练16层神经网络，其中前13层是卷积层，最后3层为全连接层，其中每个卷积层又包括卷积、激活、池化等操作。每三层的卷积核数目分别是16、32、64、128、256，其初始化权值采用均值为0、方差为

的高斯分布初始化，其中input_size代表该层输入数据的维度。网络的最后一层是SOFTMAX分类器，用来计算每幅训练图像对应每个类别的概率。每一层的激活函数均选用Relu函数，并且在最后三层后加上Dropout层。训练该卷积神经网络的数据集采用ImageNet数据集，该数据集包括1000类别，每个类别大概包括数千张图像。经过试验，训练方法采用Adadelta梯度下降算法，按以下公式进行网络参数的更新：

w_t+1＝w_t+Δw_t (4)

其中，w_t代表第t次迭代的参数值，g代表它的梯度，E[g²]代表梯度g平方的移动平均，α为计算该移动平均数的系数，一般取0.99，η为学习速率取0.0001，ε在这里是一个很小的数防止分母为0。训练时，待模型的损失函数变化不大时停止训练，并且在以后步骤中模型参数保持不变。最后我们利用模型的第二个全连接层的4096维输出当经过卷积神经网络提取的特征，用于后续字幕生成。经试验可得，每次更新的学习速率为0.0001，每次随机选取128幅图像结果较好

步骤三、对每一句中文描述按语义进行分词，并构造中文字典

对步骤一中收集的中文字幕按语义进行分词，该分词可以采用人工分词法，也可以采用分词软件进行分词，人工分词结果则会更加准确。一个正确的分词例子可以表示，如图3所示，原句是：“一只狗在草地上玩耍”，分词结果是：“一只/狗/在/草地/上/玩耍”。最后，对所有中文描述分词后，统计所有出现过的词汇，并按照词汇出现的频率进行排序，本发明取前2000个词汇以及未知词汇标记符<UNK>作为字典。这样针对每一句话都可以用一个序号向量表示，该向量在其维度空间中，就代表了该中文描述。

步骤四、训练循环神经网络进行中文字幕生成

传统的循环神经网络(Recurrent Neural Networks，RNNs)，在训练过程中，由于梯度***和消失等现象导致其末端的序列单元权重更新较快，而前端的序列单元权重往往得不到有效的更新，这样使得RNN网络在处理一些较长序列时效果很差。Long Short-TermMemory(LSTM)网络通过添加了一个记忆单元和几个不同的门结构，解决了由于时间序列过长而导致的梯度消失与梯度***等问题，并且在处理长期依赖的问题上获得了较好的效果。本发明在传统的LSTM网络上，加入了Dropout层，该层与传统的不同的是它在每一个时序周期是不变的，在不同的时许周期采用与传统方式一样随机置0的方法，从而提升模型的泛化能力。LSTM的单元结构有一个细胞状态(Cell State)在时序之间传递，以及几种不同的门(Gates)结构去控制输入，输出以及细胞状态。这些门结构包括：输入门i_t、输出门o_t、忘记门f_t，以及输入调制结构g_t，在每一个时刻t，LSTM网络的细胞状c_t以及隐层输出h_t可以通过下列式子求出：

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i) (6)

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f) (7)

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o) (8)

g_t＝tanh(W_gxx_t+W_ghh_t-1+b_g) (9)

c_t＝f_t⊙c_t-1+i_t⊙g_t (10)

h_t＝o_t⊙tanh(c_t) (11)

其中，x_t为第t时刻的输入，h_t-1为上一时刻隐层单元的输出，σ(x)＝1/(1+e^-x)是sigmoid函数，tanh(x)＝(e^x-e^(-x))/(e^x+e^(-x))是双曲正切函数，W_ix、W_fx、W_ox、W_gx、W_ih、W_fh、W_oh、W_gh与b_i、b_f、b_o、b_g为该模型待学习的参数，他们不随时刻t变化而变化，符号⊙代表矩阵对应元素相乘。接着，在每个隐层后加上一个Dropout层，构建出一个Drop-LSTM网络，即在每一个时刻t将隐层输出h_t乘以同一个与其形状相同的0-1随机矩阵：

h_t＝h_t⊙m_h

其中m_h代表随机矩阵，该矩阵的产生方法可以通过让其每个元素服从概率为p的0-1二元分布产生，p一般取0.5，m_h不会随着时刻t变化而变化，在同一个时序中它是一个定值。最后，利用卷积神经网络提取的特征和对应的中文描述序号矩阵当作输入，并按照上述训练卷积神经网络的方法，训练该网络，使其学会如何自动生成字幕。

步骤五、使用上述模型进行图像中文字幕生成

基于训练完成的图像中文字幕生成模型，对于每一幅待生成字幕的图像，依次通过卷积神经网络提取其特征，并将特征输入循环神经网络中，循环神经网络利用步骤三构造的字典里面的词汇自动生成相应的中文字幕。为了验证本发明方法的有效性，在具体实施例上进行了验证。

如图4所示，为本发明的一种图像中文字幕生成方法的测试图像中文字幕生成结果与真实结果对比。图像选自Flickr 8k数据集的测试集，中英文参考字幕分别由各自数据集提供。如图4所示，对于测试图像生成的中文字幕和英文字幕都很好的描述了图像的主体及其动作。图5和图6为本发明方法和传统方法在Flickr8K和Flickr8K CN上的CIDEr学习曲线对比图。CIDEr是图像字幕生成任务的评价指标。如图5和图6所示，本文发明的模型生成中文字幕和英文字幕的效果要明显高于传统的不带注意力的基本模型。

表1本发明和传统方法在Flickr8k CN数据集上各实验结果对比

表1给出了本发明模型和传统两种模型在数据库Flickr8k CN各实验结果对比。其中，Baseline和CS-NIC是两种常用的字幕生成传统模型；BLEU,ROUGE-L和CIDEr是图像中文字幕生成任务的三种评价指标，三者的值越高表明字幕生成任务效果好。从该表看出，本发明的注意力模型在所有指标上都高于Baseline基准模型和CS-NIC两种传统模型。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种图像中文字幕生成方法，其特征在于，包括以下步骤：

步骤一，构建训练集：收集图像并通过人工对所述图像加上意思相近的中文描述；所述步骤一选用Flickr8k图像字幕数据集，原数据集中每幅图像对应的标注为5句英文，给每幅图像添加了5句简单中文字幕的描述；

步骤二，训练卷积神经网络进行图像特征提取，在对上述数据集进行特征提取之前，需要在一个更大的数据集上来预训练该网络；使用ImageNet数据库来训练16层神经网络，其中前13层是卷积层，最后3层为全连接层，其中每个卷积层又包括卷积、激活、池化操作；每三层的卷积核数目分别是16、32、64、128、256，其初始化权值采用均值为0、方差为

的高斯分布初始化，其中input_size代表该层输入数据的维度；网络的最后一层是SOFTMAX分类器，用来计算每幅训练图像对应每个类别的概率；每一层的激活函数均选用Relu函数，并且在最后三层后加上Dropout层；训练该卷积神经网络的数据集采用ImageNet数据集，该数据集包括1000类别，每个类别包括数千张图像；训练方法采用Adadelta梯度下降算法，按以下公式进行网络参数的更新：

w_t+1＝w_t+Δw_t (3)

其中，w_t代表第t次迭代的参数值，g代表它的梯度，E[g²]代表梯度g平方的移动平均数，E[g²]_t代表第t次迭代梯度g平方的移动平均数，α为计算该移动平均数的系数，取0.99，Δw_t代表第t次迭代的参数变化值，η为学习速率取0.0001，ε在这里是一个很小的数防止分母为0；g_t为调制结构，代表第t次迭代的梯度，训练时，待模型的损失函数变化不大时停止训练，并且在以后步骤中模型参数保持不变；最后利用模型的第二个全连接层的4096维输出当经过卷积神经网络提取的特征，用于后续字幕生成；

训练完成所述卷积神经网络后，对所述步骤一收集的所述图像进行正向传播运算，得到所述图像的语义特征；

步骤三，对每一句所述中文描述按语义进行分词，并构造中文字典；对所有中文描述分词后，统计所有出现过的词汇，并按照词汇出现的频率进行排序，取前2000个词汇以及未知词汇标记符<UNK>作为字典；

步骤四，训练循环神经网络进行中文字幕生成；在传统的LSTM网络上，加入了Dropout层，该层与传统的不同的是它在每一个时序周期是不变的，在不同的时序周期采用与传统方式一样随机置0的方法，从而提升模型的泛化能力；LSTM的单元结构有一个细胞状态在时序之间传递，以及几种不同的门Gates结构去控制输入，输出以及细胞状态；这些门结构包括：输入门i_t、输出门o_t、忘记门f_t，以及输入调制结构g_t，在第t次迭代，LSTM网络的细胞状态c_t以及隐层输出h_t通过下列式子求出：

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i) (4)

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f) (5)

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o) (6)

g_t＝tanh(W_gxx_t+W_ghh_t-1+b_g) (7)

c_t＝f_t⊙c_t-1+i_t⊙g_t (8)

h_t＝o_t⊙tanh(c_t) (9)

其中，x_t为第t次迭代的输入，h_t-1为t-1次迭代隐层单元的输出，σ(x)＝1/(1+e^-x)是sigmoid函数，tanh(x)＝(e^x-e^(-x))/(e^x+e^(-x))是双曲正切函数，W_ix、W_fx、W_ox、W_gx、W_ih、W_fh、W_oh、W_gh与b_i、b_f、b_o、b_g为该模型待学习的参数，它们不随迭代次数t的变化而变化，符号⊙代表矩阵对应元素相乘；接着，在每个隐层后加上一个Dropout层，构建出一个Drop-LSTM网络，即每一次迭代t将隐层输出h_t乘以同一个与其形状相同的0-1随机矩阵：

h_t＝h_t⊙m_h

其中m_h代表随机矩阵，该矩阵的产生方法通过让其每个元素服从概率为p的0-1二元分布产生，p取0.5，m_h不会随着迭代次数t变化而变化，在同一个时序中它是一个定值；最后，利用卷积神经网络提取的特征和对应的中文描述序号矩阵当作输入，并按照上述训练卷积神经网络的方法，训练该网络，使其学会如何自动生成字幕；

步骤五，进行图像字幕生成，在测试或使用阶段，将待生成字幕的图像依次通过所述卷积神经网络、所述循环神经网络完成其图像字幕生成任务。

2.如权利要求1所述的一种图像中文字幕生成方法，其特征在于，所述步骤四对条件概率P(S_t|I，S₀，S₁，...，S_t-1；θ)进行建模，其中，θ是该模型待学习的所有参数，在模型中，由隐层单元输出h_t来表达第t次迭代的条件概率，h_t的长度固定；与上一个时刻的隐藏单元h_t-1，和该时刻的输入x_t有关，因此，所述隐藏单元输出h_t＝f(h_t-1，x_t)，

其中f为tanh非线性函数；对于初始值h_-1则是通过所述步骤二的卷积神经网络对输入图像I进行特征提取的到，x_t则表示在每个时刻t对应的某个词汇向量。

3.如权利要求2所述的一种图像中文字幕生成方法，其特征在于，训练所述循环神经网络时，每次迭代的输入选取所述步骤二得到所述图像特征以及所述步骤三生成的字幕序号向量，网络权重更新的方法采用Adadelta梯度下降算法，学习速率被设置为0.0001。