CN109711464A

CN109711464A - 基于层次化特征关系图构建的图像描述方法

Info

Publication number: CN109711464A
Application number: CN201811595091.2A
Authority: CN
Inventors: ***; 王伟轩; 于遨波; 陈志鸿; 朱蔚中
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-05-03
Anticipated expiration: 2038-12-25
Also published as: CN109711464B

Abstract

本发明涉及计算机视觉识别领域，提出一种基于层次化特征关系图构建的图像描述方法，包括以下步骤：构建训练数据集；将图像输入区块检测模块中，输出区块视觉信息；将图像输入目标检测模块中，输出目标视觉信息；将图像输入文本检测模块中，输出文本视觉信息；将所述三种视觉信息分别输入描述生成器中，分别构建各类型视觉信息与训练图像坐标信息的关系图，并对所述三种视觉信息进行优化；对所述三种视觉信息进行筛选和融合，得到多模态特征；输入递归神经网络中提取特征信息，预测下一个描述单词至生成完整的描述句子。本发明通过对各类型视觉信息进行优化、筛选以及融合，实现对任意输入测试图像进行描述，能够有效提高图像描述的准确性。

Description

基于层次化特征关系图构建的图像描述方法

技术领域

本发明涉及计算机视觉识别领域，更具体地，涉及一种基于层次化特征关系图构建的图像描述方法。

背景技术

近年来，图像描述作为计算机视觉和自然语言处理交叉学科，受到了越来越多的关注。图像描述是指给定一张输入图像，需要设计算法使得计算机学会用语法和语义正确的句子来描述图像中的内容。因此图像描述对于机器来说是非常困难的，因为机器需要学习辨识图像中的物体、场景等信息，同时还需要去理解不同物体之间、物体与背景之间的内在联系。但是这个研究方向却是有价值的，因为图像描述具有广泛的应用前景，如早期的儿童教育、新一代的人机交换***和工作个人助手等。

最近，研究者们将自然语言处理中的注意力机制引入到图像描述领域中，并在生成不同单词的时候引导模型关注到图像中的不同区域，基于关注到的区块预测单词。随后，研究者们修改并扩大关注机制的应用范围，改良出了区块视觉关注机制、目标视觉关注机制、文本视觉关注机制和通道视觉关注机制等。这些方法能够充分提高图像描述中描述句子的丰富度和准确度，大力推动了图像描述研究的进程。然而，这些方法都还存在不足之处，现有技术中的图像描述方法大部分仅利用了单个物体的信息，而没有考虑到物体之间的关系信息，因此对于物体间的联系表述还有待提高。同时，现有技术中的图像描述方法一般只采用了某一个特定的视觉信息来生成句子，但是由于不同种类的视觉信息包含不一样的信息，因此应该考虑将这些特征同时使用来预测描述句子，实现信息间的互补。

发明内容

本发明为克服上述现有技术所述的图像描述模型没有考虑图像中物体之间的关系信息以及不同种类的视觉信息等至少一种缺陷，提供一种基于层次化特征关系图构建的图像描述方法，通过将多种不同的视觉特征信息建立关系图、筛选、融合，再进行图像描述，能够有效提高图像描述的准确率。

为解决上述技术问题，本发明的技术方案如下：

基于层次化特征关系图构建的图像描述方法，包括以下步骤：

S1：收集训练图像、训练图像的坐标信息以及描述训练图像的参考文本，构建训练数据集；

S2：将训练图像输入区块检测模块中，输出区块视觉信息；

S3：将训练图像输入目标检测模块中，输出目标视觉信息，并根据目标视觉信息包括的目标框坐标信息与训练数据集中的坐标信息比较，计算分类的损失函数L₁，优化目标检测模块参数；

S4：将训练图像输入文本检测模块中，输出文本视觉信息，并根据文本视觉信息包括的检测文本与训练数据集中的参考文本比较，计算分类的损失函数L₂，优化文本检测模块参数；

S5：将所述区块视觉信息、目标视觉信息和文本视觉信息分别输入描述生成器中，通过构建所述三种视觉信息分别与训练图像坐标信息的关系图，对所述三种视觉信息分别进行优化；

S6：利用关注机制分别对优化后的区块视觉信息、目标视觉信息和文本视觉信息进行视觉信息筛选，再输入多元融合模块中进行特征融合，得到多模态特征；

S7：将多模态特征和当前时刻的语义信息输入递归神经网络中提取特征信息，并预测下一个单词，并将所预测的结果和训练数据集中的信息比较，计算分类的损失函数L₃，优化递归神经网络中的参数；

S8：重复S2～S7，至损失函数L₁,L₂,L₃收敛至某一指定值；

S9：将待图像描述的图片输入区块检测模块、目标检测模块和文本检测模块中，分别获得区块视觉信息、目标视觉信息和文本视觉信息，输入描述生成器中通过构建所述三种视觉信息分别与输入图像的坐标信息之间的关系图对所述三种视觉信息进行优化，再利用关注机制对所述三种视觉信息进行视觉信息筛选，并输入到多元融合模块中进行特征融合，最后输入到递归神经网络预测下一个描述单词至生成完整的描述句子。

本技术方案中，通过构建和训练区块检测模块、目标检测模块、文本检测模块和描述生成器，组成基于层次化特征关系图构建的图像描述模型。在图像描述生成过程中，将图像分别输入区块检测模块、目标检测模块和文本检测模块中输出对应的视觉信息，再输入描述生成器中通过对各类型视觉信息进行优化、筛选以及融合，再通过提取特征信息，根据特征信息进行描述单词的预测，完成图像描述句子的生成。本技术方案能够实现对任意输入测试图像进行描述，能够有效地利用多种不同的视觉特征构建特征关系图，并根据特征关系图的视觉信息生成符合图像内容的描述句子，能够有效提高图像描述的准确性。

优选地，S2步骤的具体步骤包括：

S2.1：从互联网上下载在ImageNet上完成预训练的ResNet参数文件；

S2.2：将训练数据集的图片输入ResNet中，读取已下载的参数，将输出的区块特征图作为区块视觉信息。

优选地，S3步骤的具体步骤包括：

S3.1：将训练图像输入目标检测模块中的卷积神经网络中，提取图像的高维区块视觉特征；

S3.2：在图像中高维区块视觉特征的位置上放置9个不同长宽比的偏置框；

S3.3：将带偏置框的高维区块视觉特征输入区域提议网络中，输出目标框与偏置框的坐标偏移值和目标框包含物体的置信得分；

S3.4：保留置信得分最高的K个目标框，利用最大值池化操作，根据目标框坐标在高维区块视觉特征上切割与目标框相同数目的目标视觉信息；

S3.5：将目标视觉信息输入三个独立的全连接层中，输出该目标视觉信息的高层次语义特征、预测的目标视觉信息类别和目标框的偏移值，然后根据预测类别和偏移值对目标框进行修正；

S3.6：将目标框的坐标信息和训练图像的坐标信息比较，计算分类与回归的损失函数L₁，利用梯度反向传播方法对目标检测模块各层的参数进行更新；所述损失函数L₁的具体公式如下：

其中，N为训练的目标框数量，L_cis(*)表示交叉熵损失函数，c为目标视觉信息各类别的概率，为正确类别的索引，L_reg(*)表示回归损失函数，b为目标框的坐标值，为训练图像中正确的坐标值。

优选地，S4步骤的具体步骤包括：

S4.1：将训练数据集中的参考文本拆分成单词，保留含有视觉信息的单词，并从中挑选出现频率最高的1000个单词作为字典；

S4.2：删除ResNet中最后一层全连接层，再连接三个独立的全连接层作为文本检测模块，将训练图像输入文本检测模块中输出字典中所有单词的出现概率，选取概率最高的10个单词作为文本视觉信息；

S4.3：将文本视觉信息和训练数据集中的参考文本作比较，计算多标签分类的损失函数L₂，通过梯度反向传播更新文本检测模块的参数，使损失值最小化；其中，损失函数L₂的公式如下：

其中，N为检测文本的个数，p_i为检测文本中单词出现的概率；当检测文本与参考文本相符时，p_i ^*为1，否则为0。

优选地，S5步骤中，将区块视觉信息输入描述生成器为步骤S5.1，其具体步骤包括：

S5.1.1：将区块视觉信息输入描述生成器中，将区块视觉信息中各个区块作为关系图的顶点，区块视觉信息与训练图像坐标信息的关系作为关系图的边，完成区块视觉信息关系图的构建；

S5.1.2：将当前时刻的语义信息与K×K个区块进行结合，得到特征矩阵E₁，再将矩阵E₁进行自乘得到邻接矩阵A₁，保留关联程度最高的M个区块，得到最终的邻接矩阵A₁∈R^K ^×M，矩阵中每一个元素表示每两个区块之间的关联程度；

S5.1.3：对于每个区块对，根据其中心坐标值，通过极坐标表示区块对之间的距离和夹角u₁(i_p,j_p)；

S5.1.4：通过高斯函数计算极坐标下每个区块对之间的空间关联程度w₁(u₁(i_p,j_p))；

S5.1.5：将不同区块的空间关联程度w₁(u₁(i_p,j_p))与邻接矩阵A₁预测的关联程度α_jp与每个区块的特征v_jp进行加权求和，将相关区块的特征与区块i_p特征结合，从而优化区块i_p的视觉特征，其公式如下：

其中，i_p为第i_p个目标，j_p为第j_p个目标。

优选地，S5步骤中，将目标视觉信息输入描述生成器为步骤S5.2，其具体步骤包括：

S5.2.1：将目标视觉信息输入描述生成器中，将各个单目标视觉信息作为关系图的顶点，单目标视觉信息与训练图像坐标信息的关系作为关系图的边，完成目标视觉信息关系图的构建；

S5.2.2：将当前时刻的语义信息与K个单目标视觉信息进行结合，得到特征矩阵E₂，再将矩阵E₂进行自乘得到邻接矩阵A₂，保留关联程度最高的M个单目标视觉信息，得到最终的邻接矩阵A₂∈R^K×M，矩阵中每一个元素表示每两个目标物体之间的关联程度；

S5.2.3：对于每个目标对，根据其中心坐标值，通过极坐标表示目标对之间的距离和夹角u₂(i_o,j_o)；

S5.2.4：通过高斯函数计算极坐标下每个目标对之间的关联程度w₂(u₂(i_o,j_o))；

S5.2.5：将不同目标的空间关联程度w₂(u₂(i_o,j_o))与邻接矩阵A₂预测的关联程度α_jo与每个目标的特征v_jo进行加权求和，将相关目标的特征与目标i_o特征结合，从而优化目标i_o的视觉特征，其公式如下：

其中，i_o为第i_o个目标，j_o为第j_o个目标。

优选地，S5步骤中，将文本视觉信息输入描述生成器为步骤S5.3，其具体步骤包括：

S5.3.1：将文本视觉信息输入描述生成器中，将文本视觉信息中的各个检测文本作为关系图的顶点，文本视觉信息与训练图像坐标信息的关系作为关系图的边，完成文本视觉信息关系图的构建；

S5.3.2：将当前时刻的语义信息与K个检测文本进行结合，得到特征矩阵E₃，再将矩阵E₃进行自乘得到邻接矩阵A₃，保留关联程度最高的M个检测文本，得到最终的邻接矩阵A₃∈R^K×M，矩阵中每一个元素表示每两个文本之间的关联程度；

S5.3.3：对于每个检测文本对，根据其嵌入空间中心的中心坐标值，通过极坐标表示检测文本对之间的距离和夹角u₃(i_t,j_t)；

S5.3.4：通过高斯函数计算极坐标下每个检测文本对之间的关联程度w₃(u₃(i_t,j_t))；

S5.3.5：将不同文本的空间关联程度w₃(u₃(i_t,j_t))与邻接矩阵A₃预测的关联程度α_jt与每个文本的特征v_jt进行加权求和，将相关文本的特征与文本i_t特征结合，从而优化文本i_t的视觉特征，其公式如下：

其中，i_t为第i_t个文本，j_t为第j_t个文本。

优选地，S6步骤的具体步骤包括：

S6.1：将优化后的区块视觉信息、目标视觉信息和文本视觉信息分别和当前时刻的语义信息输入两个独立的全连接层中，并映射到多模态空间中，利用加法操作进行特征融合，并进行非线性激活；

S6.2：将激活后的特征映射到统一空间中，并输入到Softmax层计算每个视觉信息的重要程度权重矩阵；

S6.3：将所述三种视觉信息与权重矩阵进行加权求和，得到筛选后的区块视觉信息、目标视觉信息和文本视觉信息；

S6.4：将完成筛选的所述三种视觉信息输入两个独立的全连接层中，将所有视觉信息映射到统一的多模态空间中；

S6.5：对所述三种视觉信息进行阿达玛乘积，提取各类型视觉信息之间的内在联系，并映射到多模态空间中，再通过加法操作将多模态空间的特征进行融合，得到多模态特征。

优选地，S7步骤的具体步骤包括：

S7.1：将多模态特征和当前时刻的语义信息输入递归网络中，输出对应的特征信息；

S7.2：将特征信息输入Softmax层中，预测下一个单词的概率分布；

S7.3：将预测的结果与训练数据集中的参考文本进行比较，计算分类的损失函数L₃，利用梯度反向传播方法对图像描述模块各层的参数进行更新，其公式如下：

其中，T为描述句子的长度，w_t为当前预测的单词，I为输入图像，p(*)表示通过给定已经预测的单词和图像得到的当前单词的概率分布。

与现有技术相比，本发明技术方案的有益效果是：通过对各类型视觉信息进行优化、筛选以及融合，实现对任意输入测试图像进行描述，能够有效地利用多种不同的视觉特征构建特征关系图，并根据特征关系图的视觉信息生成符合图像内容的描述句子，能够有效提高图像描述的准确性。

附图说明

图1为本实施例的基于层次化特征关系图构建的图像描述方法的流程图。

图2为本实施例的基于层次化特征关系图构建的图像描述方法的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，为本实施例的基于层次化特征关系图构建的图像描述方法的流程图。

本实施例的基于层次化特征关系图构建的图像描述方法包括以下步骤：

步骤一：收集训练图像、训练图像的坐标信息以及描述训练图像的参考文本，构建训练数据集。

步骤二：将训练图像输入区块检测模块中，输出区块视觉信息。其具体步骤如下：

S2.2：将训练数据集的图片输入ResNet中，读取已下载的参数，将输出的区块特征图作为区块视觉信息，其中区块特征图为14×14大小。

步骤三：将训练图像输入目标检测模块中，输出目标视觉信息，并根据目标视觉信息包括的目标框坐标信息与训练数据集中的坐标信息比较，计算分类的损失函数L₁，优化目标检测模块参数。其具体步骤如下：

步骤四：将训练图像输入文本检测模块中，输出文本视觉信息，并根据文本视觉信息包括的检测文本与训练数据集中的参考文本比较，计算分类的损失函数L₂，优化文本检测模块参数。其具体步骤如下：

S4.1：将训练数据集中的参考文本拆分成单词，将非视觉单词如冠词、介词等单词剔除，只保留含有视觉信息的单词，并从中挑选出现频率最高的1000个单词作为字典；

S4.2：删除ResNet中最后一层全连接层，再连接三个独立的全连接层作为文本检测模块，将字典输入文本检测模块中输出字典中1000个单词的概率，选取概率最高的10个单词的检测文本作为文本视觉信息；

S4.3：将所检测的10个检测文本和训练数据集中的参考文本作比较，计算多标签分类的损失函数L₂，通过梯度反向传播更新文本检测模块的参数，使损失值最小化；其中，损失函数L₂的公式如下：

步骤五：将所述区块视觉信息、目标视觉信息和文本视觉信息分别输入描述生成器中，通过构建所述三种视觉信息分别与训练图像坐标信息的关系图，对所述三种视觉信息分别进行优化。其具体步骤如下：

S5.1：将区块视觉信息输入描述生成器中；

S5.1.2：将当前时刻的语义信息与K×K个区块进行结合，得到特征矩阵E₁，再将矩阵E₁进行自乘得到邻接矩阵A₁，保留关联程度最高的M个区块，得到最终的邻接矩阵A₁∈R^K ^×M，矩阵中每一个元素表示两个区块之间的关联程度；

S5.1.4：通过高斯函数计算极坐标下每个区块对之间的空间关联程度w₁(u₁(i_p,j_p))，距离远的区块关联程度低，距离近的区块关联程度高；

其中，i_p为第i_p个目标，j_p为第j_p个目标。

S5.2：将目标视觉信息输入描述生成器中；

S5.2.4：通过高斯函数计算极坐标下每个目标对之间的关联程度w₂(u₂(i_o,j_o))，距离远的目标关联程度低，距离近的目标关联程度高；

其中，i_o为第i_o个目标，j_o为第j_o个目标。

S5.3：将文本视觉信息输入描述生成器中；

S5.3.2：将当前时刻的语义信息与K个检测文本进行结合，得到特征矩阵E₃，再将矩阵E₃进行自乘得到邻接矩阵A₃，保留关联程度最高的M个检测文本，得到最终的邻接矩阵A₃∈R^K×M，矩阵中每一个元素表示两个文本之间的关联程度；

S5.3.4：通过高斯函数计算极坐标下每个检测文本对之间的关联程度w₃(u₃(i_t,j_t))，距离远的文本关联程度低，距离近的文本关联程度高；

其中，i_t为第i_t个文本，j_t为第j_t个文本。

步骤六：利用关注机制分别对优化后的区块视觉信息、目标视觉信息和文本视觉信息进行视觉信息筛选，再输入多元融合模块中进行特征融合，得到多模态特征。其具体步骤如下：

S6.2：将激活后的特征映射到统一空间中，并输入到Softmax层分别计算各视觉信息的重要程度权重矩阵；

S6.3：将上述三种视觉信息与权重矩阵进行加权求和，得到筛选后的区块视觉信息、目标视觉信息和文本视觉信息；

S6.4：将上述完成筛选的三种视觉信息输入两个独立的全连接层中，将所有视觉信息映射到统一的多模态空间中；

S6.5：对上述三种视觉信息进行阿达玛乘积，提取各类型视觉信息之间的内在联系，并映射到多模态空间中，再通过加法操作将多模态空间的特征进行融合，得到多模态特征。

步骤七：将多模态特征和当前时刻的语义信息输入递归神经网络中提取特征信息，并预测下一个单词，并将所预测的结果和训练数据集中的信息比较，计算分类的损失函数L₃，优化递归神经网络中的参数。其具体步骤如下：

步骤八：重复步骤二～七，至损失函数L₁,L₂,L₃收敛至某一指定值，即完成基于层次化特征关系图构建的图像描述模型的构建和训练。

步骤九：将待图像描述的图片输入区块检测模块、目标检测模块和文本检测模块中，分别获得区块视觉信息、目标视觉信息和文本视觉信息，输入描述生成器中通过构建所述三种视觉信息分别与输入图像的坐标信息之间的关系图对所述三种视觉信息进行优化，再利用关注机制对所述三种视觉信息进行视觉信息筛选，并输入到多元融合模块中进行特征融合，最后输入到递归神经网络预测下一个描述单词至生成完整的描述句子。

如图2所示，为本实施例的基于层次化特征关系图构建的图像描述方法的示意图。

本实施例中，通过分别构建和训练区块检测模块、目标检测模块、文本检测模块和描述生成器，在训练过程中采用对数似然损失函数对模型进行训练，并利用误差反向传导方法对模型参数进行更新，从而提高模型对图像描述的准确度。在描述句子生成过程中，通过对各类型视觉信息进行优化、筛选以及融合，实现对任意输入测试图像进行描述，能够有效地利用多种不同的视觉特征构建特征关系图，并根据特征关系图的视觉信息生成符合图像内容的描述句子。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于层次化特征关系图构建的图像描述方法，其特征在于：包括以下步骤：

S2：将训练图像输入区块检测模块中，输出区块视觉信息；

S8：重复S2～S7，至损失函数L₁,L₂,L₃收敛至某一指定值；

2.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法，其特征在于：所述S2步骤的具体步骤包括：

3.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法，其特征在于：所述S3步骤的具体步骤包括：

4.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法，其特征在于：所述S4步骤的具体步骤包括：

5.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法，其特征在于：所述S5步骤中，将区块视觉信息输入描述生成器为步骤S5.1，其具体步骤包括：

S5.1.2：将当前时刻的语义信息与K×K个区块进行结合，得到特征矩阵E₁，再将矩阵E₁进行自乘得到邻接矩阵A₁，保留关联程度最高的M个区块，得到最终的邻接矩阵A₁∈R^K×M，矩阵中每一个元素表示每两个区块之间的关联程度；

其中，i_p为第i_p个目标，j_p为第j_p个目标。

6.根据权利要求5所述的基于层次化特征关系图构建的图像描述方法，其特征在于：所述S5步骤中，将目标视觉信息输入描述生成器为步骤S5.2，其具体步骤包括：

其中，i_o为第i_o个目标，j_o为第j_o个目标。

7.根据权利要求6所述的基于层次化特征关系图构建的图像描述方法，其特征在于：所述S5步骤中，将文本视觉信息输入描述生成器为步骤S5.3，其具体步骤包括：

S5.3.2：将当前时刻的语义信息与K个检测文本进行结合，得到特征矩阵E₃，再将矩阵E₃进行自乘得到邻接矩阵A₃，保留关联程度最高的M个检测文本，得到最终的邻接矩阵A₃∈R^K ^×M，矩阵中每一个元素表示每两个文本之间的关联程度；

其中，i_t为第i_t个文本，j_t为第j_t个文本。

8.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法，其特征在于：所述S6步骤的具体步骤包括：

9.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法，其特征在于：所述S7步骤的具体步骤包括：