CN109711464A - 基于层次化特征关系图构建的图像描述方法 - Google Patents
基于层次化特征关系图构建的图像描述方法 Download PDFInfo
- Publication number
- CN109711464A CN109711464A CN201811595091.2A CN201811595091A CN109711464A CN 109711464 A CN109711464 A CN 109711464A CN 201811595091 A CN201811595091 A CN 201811595091A CN 109711464 A CN109711464 A CN 109711464A
- Authority
- CN
- China
- Prior art keywords
- visual information
- target
- information
- block
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013517 stratification Methods 0.000 title claims abstract description 21
- 230000000007 visual effect Effects 0.000 claims abstract description 206
- 238000012549 training Methods 0.000 claims abstract description 76
- 238000001514 detection method Methods 0.000 claims abstract description 74
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 230000000306 recurrent effect Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 32
- 230000004927 fusion Effects 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 14
- 230000004438 eyesight Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 241001436679 Adama Species 0.000 claims description 3
- 238000005352 clarification Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉识别领域,提出一种基于层次化特征关系图构建的图像描述方法,包括以下步骤:构建训练数据集;将图像输入区块检测模块中,输出区块视觉信息;将图像输入目标检测模块中,输出目标视觉信息;将图像输入文本检测模块中,输出文本视觉信息;将所述三种视觉信息分别输入描述生成器中,分别构建各类型视觉信息与训练图像坐标信息的关系图,并对所述三种视觉信息进行优化;对所述三种视觉信息进行筛选和融合,得到多模态特征;输入递归神经网络中提取特征信息,预测下一个描述单词至生成完整的描述句子。本发明通过对各类型视觉信息进行优化、筛选以及融合,实现对任意输入测试图像进行描述,能够有效提高图像描述的准确性。
Description
技术领域
本发明涉及计算机视觉识别领域,更具体地,涉及一种基于层次化特征关系图构建的图像描述方法。
背景技术
近年来,图像描述作为计算机视觉和自然语言处理交叉学科,受到了越来越多的关注。图像描述是指给定一张输入图像,需要设计算法使得计算机学会用语法和语义正确的句子来描述图像中的内容。因此图像描述对于机器来说是非常困难的,因为机器需要学习辨识图像中的物体、场景等信息,同时还需要去理解不同物体之间、物体与背景之间的内在联系。但是这个研究方向却是有价值的,因为图像描述具有广泛的应用前景,如早期的儿童教育、新一代的人机交换***和工作个人助手等。
最近,研究者们将自然语言处理中的注意力机制引入到图像描述领域中,并在生成不同单词的时候引导模型关注到图像中的不同区域,基于关注到的区块预测单词。随后,研究者们修改并扩大关注机制的应用范围,改良出了区块视觉关注机制、目标视觉关注机制、文本视觉关注机制和通道视觉关注机制等。这些方法能够充分提高图像描述中描述句子的丰富度和准确度,大力推动了图像描述研究的进程。然而,这些方法都还存在不足之处,现有技术中的图像描述方法大部分仅利用了单个物体的信息,而没有考虑到物体之间的关系信息,因此对于物体间的联系表述还有待提高。同时,现有技术中的图像描述方法一般只采用了某一个特定的视觉信息来生成句子,但是由于不同种类的视觉信息包含不一样的信息,因此应该考虑将这些特征同时使用来预测描述句子,实现信息间的互补。
发明内容
本发明为克服上述现有技术所述的图像描述模型没有考虑图像中物体之间的关系信息以及不同种类的视觉信息等至少一种缺陷,提供一种基于层次化特征关系图构建的图像描述方法,通过将多种不同的视觉特征信息建立关系图、筛选、融合,再进行图像描述,能够有效提高图像描述的准确率。
为解决上述技术问题,本发明的技术方案如下:
基于层次化特征关系图构建的图像描述方法,包括以下步骤:
S1:收集训练图像、训练图像的坐标信息以及描述训练图像的参考文本,构建训练数据集;
S2:将训练图像输入区块检测模块中,输出区块视觉信息;
S3:将训练图像输入目标检测模块中,输出目标视觉信息,并根据目标视觉信息包括的目标框坐标信息与训练数据集中的坐标信息比较,计算分类的损失函数L1,优化目标检测模块参数;
S4:将训练图像输入文本检测模块中,输出文本视觉信息,并根据文本视觉信息包括的检测文本与训练数据集中的参考文本比较,计算分类的损失函数L2,优化文本检测模块参数;
S5:将所述区块视觉信息、目标视觉信息和文本视觉信息分别输入描述生成器中,通过构建所述三种视觉信息分别与训练图像坐标信息的关系图,对所述三种视觉信息分别进行优化;
S6:利用关注机制分别对优化后的区块视觉信息、目标视觉信息和文本视觉信息进行视觉信息筛选,再输入多元融合模块中进行特征融合,得到多模态特征;
S7:将多模态特征和当前时刻的语义信息输入递归神经网络中提取特征信息,并预测下一个单词,并将所预测的结果和训练数据集中的信息比较,计算分类的损失函数L3,优化递归神经网络中的参数;
S8:重复S2~S7,至损失函数L1,L2,L3收敛至某一指定值;
S9:将待图像描述的图片输入区块检测模块、目标检测模块和文本检测模块中,分别获得区块视觉信息、目标视觉信息和文本视觉信息,输入描述生成器中通过构建所述三种视觉信息分别与输入图像的坐标信息之间的关系图对所述三种视觉信息进行优化,再利用关注机制对所述三种视觉信息进行视觉信息筛选,并输入到多元融合模块中进行特征融合,最后输入到递归神经网络预测下一个描述单词至生成完整的描述句子。
本技术方案中,通过构建和训练区块检测模块、目标检测模块、文本检测模块和描述生成器,组成基于层次化特征关系图构建的图像描述模型。在图像描述生成过程中,将图像分别输入区块检测模块、目标检测模块和文本检测模块中输出对应的视觉信息,再输入描述生成器中通过对各类型视觉信息进行优化、筛选以及融合,再通过提取特征信息,根据特征信息进行描述单词的预测,完成图像描述句子的生成。本技术方案能够实现对任意输入测试图像进行描述,能够有效地利用多种不同的视觉特征构建特征关系图,并根据特征关系图的视觉信息生成符合图像内容的描述句子,能够有效提高图像描述的准确性。
优选地,S2步骤的具体步骤包括:
S2.1:从互联网上下载在ImageNet上完成预训练的ResNet参数文件;
S2.2:将训练数据集的图片输入ResNet中,读取已下载的参数,将输出的区块特征图作为区块视觉信息。
优选地,S3步骤的具体步骤包括:
S3.1:将训练图像输入目标检测模块中的卷积神经网络中,提取图像的高维区块视觉特征;
S3.2:在图像中高维区块视觉特征的位置上放置9个不同长宽比的偏置框;
S3.3:将带偏置框的高维区块视觉特征输入区域提议网络中,输出目标框与偏置框的坐标偏移值和目标框包含物体的置信得分;
S3.4:保留置信得分最高的K个目标框,利用最大值池化操作,根据目标框坐标在高维区块视觉特征上切割与目标框相同数目的目标视觉信息;
S3.5:将目标视觉信息输入三个独立的全连接层中,输出该目标视觉信息的高层次语义特征、预测的目标视觉信息类别和目标框的偏移值,然后根据预测类别和偏移值对目标框进行修正;
S3.6:将目标框的坐标信息和训练图像的坐标信息比较,计算分类与回归的损失函数L1,利用梯度反向传播方法对目标检测模块各层的参数进行更新;所述损失函数L1的具体公式如下:
其中,N为训练的目标框数量,Lcis(*)表示交叉熵损失函数,c为目标视觉信息各类别的概率,为正确类别的索引,Lreg(*)表示回归损失函数,b为目标框的坐标值,为训练图像中正确的坐标值。
优选地,S4步骤的具体步骤包括:
S4.1:将训练数据集中的参考文本拆分成单词,保留含有视觉信息的单词,并从中挑选出现频率最高的1000个单词作为字典;
S4.2:删除ResNet中最后一层全连接层,再连接三个独立的全连接层作为文本检测模块,将训练图像输入文本检测模块中输出字典中所有单词的出现概率,选取概率最高的10个单词作为文本视觉信息;
S4.3:将文本视觉信息和训练数据集中的参考文本作比较,计算多标签分类的损失函数L2,通过梯度反向传播更新文本检测模块的参数,使损失值最小化;其中,损失函数L2的公式如下:
其中,N为检测文本的个数,pi为检测文本中单词出现的概率;当检测文本与参考文本相符时,pi *为1,否则为0。
优选地,S5步骤中,将区块视觉信息输入描述生成器为步骤S5.1,其具体步骤包括:
S5.1.1:将区块视觉信息输入描述生成器中,将区块视觉信息中各个区块作为关系图的顶点,区块视觉信息与训练图像坐标信息的关系作为关系图的边,完成区块视觉信息关系图的构建;
S5.1.2:将当前时刻的语义信息与K×K个区块进行结合,得到特征矩阵E1,再将矩阵E1进行自乘得到邻接矩阵A1,保留关联程度最高的M个区块,得到最终的邻接矩阵A1∈RK ×M,矩阵中每一个元素表示每两个区块之间的关联程度;
S5.1.3:对于每个区块对,根据其中心坐标值,通过极坐标表示区块对之间的距离和夹角u1(ip,jp);
S5.1.4:通过高斯函数计算极坐标下每个区块对之间的空间关联程度w1(u1(ip,jp));
S5.1.5:将不同区块的空间关联程度w1(u1(ip,jp))与邻接矩阵A1预测的关联程度αjp与每个区块的特征vjp进行加权求和,将相关区块的特征与区块ip特征结合,从而优化区块ip的视觉特征,其公式如下:
其中,ip为第ip个目标,jp为第jp个目标。
优选地,S5步骤中,将目标视觉信息输入描述生成器为步骤S5.2,其具体步骤包括:
S5.2.1:将目标视觉信息输入描述生成器中,将各个单目标视觉信息作为关系图的顶点,单目标视觉信息与训练图像坐标信息的关系作为关系图的边,完成目标视觉信息关系图的构建;
S5.2.2:将当前时刻的语义信息与K个单目标视觉信息进行结合,得到特征矩阵E2,再将矩阵E2进行自乘得到邻接矩阵A2,保留关联程度最高的M个单目标视觉信息,得到最终的邻接矩阵A2∈RK×M,矩阵中每一个元素表示每两个目标物体之间的关联程度;
S5.2.3:对于每个目标对,根据其中心坐标值,通过极坐标表示目标对之间的距离和夹角u2(io,jo);
S5.2.4:通过高斯函数计算极坐标下每个目标对之间的关联程度w2(u2(io,jo));
S5.2.5:将不同目标的空间关联程度w2(u2(io,jo))与邻接矩阵A2预测的关联程度αjo与每个目标的特征vjo进行加权求和,将相关目标的特征与目标io特征结合,从而优化目标io的视觉特征,其公式如下:
其中,io为第io个目标,jo为第jo个目标。
优选地,S5步骤中,将文本视觉信息输入描述生成器为步骤S5.3,其具体步骤包括:
S5.3.1:将文本视觉信息输入描述生成器中,将文本视觉信息中的各个检测文本作为关系图的顶点,文本视觉信息与训练图像坐标信息的关系作为关系图的边,完成文本视觉信息关系图的构建;
S5.3.2:将当前时刻的语义信息与K个检测文本进行结合,得到特征矩阵E3,再将矩阵E3进行自乘得到邻接矩阵A3,保留关联程度最高的M个检测文本,得到最终的邻接矩阵A3∈RK×M,矩阵中每一个元素表示每两个文本之间的关联程度;
S5.3.3:对于每个检测文本对,根据其嵌入空间中心的中心坐标值,通过极坐标表示检测文本对之间的距离和夹角u3(it,jt);
S5.3.4:通过高斯函数计算极坐标下每个检测文本对之间的关联程度w3(u3(it,jt));
S5.3.5:将不同文本的空间关联程度w3(u3(it,jt))与邻接矩阵A3预测的关联程度αjt与每个文本的特征vjt进行加权求和,将相关文本的特征与文本it特征结合,从而优化文本it的视觉特征,其公式如下:
其中,it为第it个文本,jt为第jt个文本。
优选地,S6步骤的具体步骤包括:
S6.1:将优化后的区块视觉信息、目标视觉信息和文本视觉信息分别和当前时刻的语义信息输入两个独立的全连接层中,并映射到多模态空间中,利用加法操作进行特征融合,并进行非线性激活;
S6.2:将激活后的特征映射到统一空间中,并输入到Softmax层计算每个视觉信息的重要程度权重矩阵;
S6.3:将所述三种视觉信息与权重矩阵进行加权求和,得到筛选后的区块视觉信息、目标视觉信息和文本视觉信息;
S6.4:将完成筛选的所述三种视觉信息输入两个独立的全连接层中,将所有视觉信息映射到统一的多模态空间中;
S6.5:对所述三种视觉信息进行阿达玛乘积,提取各类型视觉信息之间的内在联系,并映射到多模态空间中,再通过加法操作将多模态空间的特征进行融合,得到多模态特征。
优选地,S7步骤的具体步骤包括:
S7.1:将多模态特征和当前时刻的语义信息输入递归网络中,输出对应的特征信息;
S7.2:将特征信息输入Softmax层中,预测下一个单词的概率分布;
S7.3:将预测的结果与训练数据集中的参考文本进行比较,计算分类的损失函数L3,利用梯度反向传播方法对图像描述模块各层的参数进行更新,其公式如下:
其中,T为描述句子的长度,wt为当前预测的单词,I为输入图像,p(*)表示通过给定已经预测的单词和图像得到的当前单词的概率分布。
与现有技术相比,本发明技术方案的有益效果是:通过对各类型视觉信息进行优化、筛选以及融合,实现对任意输入测试图像进行描述,能够有效地利用多种不同的视觉特征构建特征关系图,并根据特征关系图的视觉信息生成符合图像内容的描述句子,能够有效提高图像描述的准确性。
附图说明
图1为本实施例的基于层次化特征关系图构建的图像描述方法的流程图。
图2为本实施例的基于层次化特征关系图构建的图像描述方法的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,为本实施例的基于层次化特征关系图构建的图像描述方法的流程图。
本实施例的基于层次化特征关系图构建的图像描述方法包括以下步骤:
步骤一:收集训练图像、训练图像的坐标信息以及描述训练图像的参考文本,构建训练数据集。
步骤二:将训练图像输入区块检测模块中,输出区块视觉信息。其具体步骤如下:
S2.1:从互联网上下载在ImageNet上完成预训练的ResNet参数文件;
S2.2:将训练数据集的图片输入ResNet中,读取已下载的参数,将输出的区块特征图作为区块视觉信息,其中区块特征图为14×14大小。
步骤三:将训练图像输入目标检测模块中,输出目标视觉信息,并根据目标视觉信息包括的目标框坐标信息与训练数据集中的坐标信息比较,计算分类的损失函数L1,优化目标检测模块参数。其具体步骤如下:
S3.1:将训练图像输入目标检测模块中的卷积神经网络中,提取图像的高维区块视觉特征;
S3.2:在图像中高维区块视觉特征的位置上放置9个不同长宽比的偏置框;
S3.3:将带偏置框的高维区块视觉特征输入区域提议网络中,输出目标框与偏置框的坐标偏移值和目标框包含物体的置信得分;
S3.4:保留置信得分最高的K个目标框,利用最大值池化操作,根据目标框坐标在高维区块视觉特征上切割与目标框相同数目的目标视觉信息;
S3.5:将目标视觉信息输入三个独立的全连接层中,输出该目标视觉信息的高层次语义特征、预测的目标视觉信息类别和目标框的偏移值,然后根据预测类别和偏移值对目标框进行修正;
S3.6:将目标框的坐标信息和训练图像的坐标信息比较,计算分类与回归的损失函数L1,利用梯度反向传播方法对目标检测模块各层的参数进行更新;所述损失函数L1的具体公式如下:
其中,N为训练的目标框数量,Lcis(*)表示交叉熵损失函数,c为目标视觉信息各类别的概率,为正确类别的索引,Lreg(*)表示回归损失函数,b为目标框的坐标值,为训练图像中正确的坐标值。
步骤四:将训练图像输入文本检测模块中,输出文本视觉信息,并根据文本视觉信息包括的检测文本与训练数据集中的参考文本比较,计算分类的损失函数L2,优化文本检测模块参数。其具体步骤如下:
S4.1:将训练数据集中的参考文本拆分成单词,将非视觉单词如冠词、介词等单词剔除,只保留含有视觉信息的单词,并从中挑选出现频率最高的1000个单词作为字典;
S4.2:删除ResNet中最后一层全连接层,再连接三个独立的全连接层作为文本检测模块,将字典输入文本检测模块中输出字典中1000个单词的概率,选取概率最高的10个单词的检测文本作为文本视觉信息;
S4.3:将所检测的10个检测文本和训练数据集中的参考文本作比较,计算多标签分类的损失函数L2,通过梯度反向传播更新文本检测模块的参数,使损失值最小化;其中,损失函数L2的公式如下:
其中,N为检测文本的个数,pi为检测文本中单词出现的概率;当检测文本与参考文本相符时,pi *为1,否则为0。
步骤五:将所述区块视觉信息、目标视觉信息和文本视觉信息分别输入描述生成器中,通过构建所述三种视觉信息分别与训练图像坐标信息的关系图,对所述三种视觉信息分别进行优化。其具体步骤如下:
S5.1:将区块视觉信息输入描述生成器中;
S5.1.1:将区块视觉信息输入描述生成器中,将区块视觉信息中各个区块作为关系图的顶点,区块视觉信息与训练图像坐标信息的关系作为关系图的边,完成区块视觉信息关系图的构建;
S5.1.2:将当前时刻的语义信息与K×K个区块进行结合,得到特征矩阵E1,再将矩阵E1进行自乘得到邻接矩阵A1,保留关联程度最高的M个区块,得到最终的邻接矩阵A1∈RK ×M,矩阵中每一个元素表示两个区块之间的关联程度;
S5.1.3:对于每个区块对,根据其中心坐标值,通过极坐标表示区块对之间的距离和夹角u1(ip,jp);
S5.1.4:通过高斯函数计算极坐标下每个区块对之间的空间关联程度w1(u1(ip,jp)),距离远的区块关联程度低,距离近的区块关联程度高;
S5.1.5:将不同区块的空间关联程度w1(u1(ip,jp))与邻接矩阵A1预测的关联程度αjp与每个区块的特征vjp进行加权求和,将相关区块的特征与区块ip特征结合,从而优化区块ip的视觉特征,其公式如下:
其中,ip为第ip个目标,jp为第jp个目标。
S5.2:将目标视觉信息输入描述生成器中;
S5.2.1:将目标视觉信息输入描述生成器中,将各个单目标视觉信息作为关系图的顶点,单目标视觉信息与训练图像坐标信息的关系作为关系图的边,完成目标视觉信息关系图的构建;
S5.2.2:将当前时刻的语义信息与K个单目标视觉信息进行结合,得到特征矩阵E2,再将矩阵E2进行自乘得到邻接矩阵A2,保留关联程度最高的M个单目标视觉信息,得到最终的邻接矩阵A2∈RK×M,矩阵中每一个元素表示每两个目标物体之间的关联程度;
S5.2.3:对于每个目标对,根据其中心坐标值,通过极坐标表示目标对之间的距离和夹角u2(io,jo);
S5.2.4:通过高斯函数计算极坐标下每个目标对之间的关联程度w2(u2(io,jo)),距离远的目标关联程度低,距离近的目标关联程度高;
S5.2.5:将不同目标的空间关联程度w2(u2(io,jo))与邻接矩阵A2预测的关联程度αjo与每个目标的特征vjo进行加权求和,将相关目标的特征与目标io特征结合,从而优化目标io的视觉特征,其公式如下:
其中,io为第io个目标,jo为第jo个目标。
S5.3:将文本视觉信息输入描述生成器中;
S5.3.1:将文本视觉信息输入描述生成器中,将文本视觉信息中的各个检测文本作为关系图的顶点,文本视觉信息与训练图像坐标信息的关系作为关系图的边,完成文本视觉信息关系图的构建;
S5.3.2:将当前时刻的语义信息与K个检测文本进行结合,得到特征矩阵E3,再将矩阵E3进行自乘得到邻接矩阵A3,保留关联程度最高的M个检测文本,得到最终的邻接矩阵A3∈RK×M,矩阵中每一个元素表示两个文本之间的关联程度;
S5.3.3:对于每个检测文本对,根据其嵌入空间中心的中心坐标值,通过极坐标表示检测文本对之间的距离和夹角u3(it,jt);
S5.3.4:通过高斯函数计算极坐标下每个检测文本对之间的关联程度w3(u3(it,jt)),距离远的文本关联程度低,距离近的文本关联程度高;
S5.3.5:将不同文本的空间关联程度w3(u3(it,jt))与邻接矩阵A3预测的关联程度αjt与每个文本的特征vjt进行加权求和,将相关文本的特征与文本it特征结合,从而优化文本it的视觉特征,其公式如下:
其中,it为第it个文本,jt为第jt个文本。
步骤六:利用关注机制分别对优化后的区块视觉信息、目标视觉信息和文本视觉信息进行视觉信息筛选,再输入多元融合模块中进行特征融合,得到多模态特征。其具体步骤如下:
S6.1:将优化后的区块视觉信息、目标视觉信息和文本视觉信息分别和当前时刻的语义信息输入两个独立的全连接层中,并映射到多模态空间中,利用加法操作进行特征融合,并进行非线性激活;
S6.2:将激活后的特征映射到统一空间中,并输入到Softmax层分别计算各视觉信息的重要程度权重矩阵;
S6.3:将上述三种视觉信息与权重矩阵进行加权求和,得到筛选后的区块视觉信息、目标视觉信息和文本视觉信息;
S6.4:将上述完成筛选的三种视觉信息输入两个独立的全连接层中,将所有视觉信息映射到统一的多模态空间中;
S6.5:对上述三种视觉信息进行阿达玛乘积,提取各类型视觉信息之间的内在联系,并映射到多模态空间中,再通过加法操作将多模态空间的特征进行融合,得到多模态特征。
步骤七:将多模态特征和当前时刻的语义信息输入递归神经网络中提取特征信息,并预测下一个单词,并将所预测的结果和训练数据集中的信息比较,计算分类的损失函数L3,优化递归神经网络中的参数。其具体步骤如下:
S7.1:将多模态特征和当前时刻的语义信息输入递归网络中,输出对应的特征信息;
S7.2:将特征信息输入Softmax层中,预测下一个单词的概率分布;
S7.3:将预测的结果与训练数据集中的参考文本进行比较,计算分类的损失函数L3,利用梯度反向传播方法对图像描述模块各层的参数进行更新,其公式如下:
其中,T为描述句子的长度,wt为当前预测的单词,I为输入图像,p(*)表示通过给定已经预测的单词和图像得到的当前单词的概率分布。
步骤八:重复步骤二~七,至损失函数L1,L2,L3收敛至某一指定值,即完成基于层次化特征关系图构建的图像描述模型的构建和训练。
步骤九:将待图像描述的图片输入区块检测模块、目标检测模块和文本检测模块中,分别获得区块视觉信息、目标视觉信息和文本视觉信息,输入描述生成器中通过构建所述三种视觉信息分别与输入图像的坐标信息之间的关系图对所述三种视觉信息进行优化,再利用关注机制对所述三种视觉信息进行视觉信息筛选,并输入到多元融合模块中进行特征融合,最后输入到递归神经网络预测下一个描述单词至生成完整的描述句子。
如图2所示,为本实施例的基于层次化特征关系图构建的图像描述方法的示意图。
本实施例中,通过分别构建和训练区块检测模块、目标检测模块、文本检测模块和描述生成器,在训练过程中采用对数似然损失函数对模型进行训练,并利用误差反向传导方法对模型参数进行更新,从而提高模型对图像描述的准确度。在描述句子生成过程中,通过对各类型视觉信息进行优化、筛选以及融合,实现对任意输入测试图像进行描述,能够有效地利用多种不同的视觉特征构建特征关系图,并根据特征关系图的视觉信息生成符合图像内容的描述句子。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (9)
1.基于层次化特征关系图构建的图像描述方法,其特征在于:包括以下步骤:
S1:收集训练图像、训练图像的坐标信息以及描述训练图像的参考文本,构建训练数据集;
S2:将训练图像输入区块检测模块中,输出区块视觉信息;
S3:将训练图像输入目标检测模块中,输出目标视觉信息,并根据目标视觉信息包括的目标框坐标信息与训练数据集中的坐标信息比较,计算分类的损失函数L1,优化目标检测模块参数;
S4:将训练图像输入文本检测模块中,输出文本视觉信息,并根据文本视觉信息包括的检测文本与训练数据集中的参考文本比较,计算分类的损失函数L2,优化文本检测模块参数;
S5:将所述区块视觉信息、目标视觉信息和文本视觉信息分别输入描述生成器中,通过构建所述三种视觉信息分别与训练图像坐标信息的关系图,对所述三种视觉信息分别进行优化;
S6:利用关注机制分别对优化后的区块视觉信息、目标视觉信息和文本视觉信息进行视觉信息筛选,再输入多元融合模块中进行特征融合,得到多模态特征;
S7:将多模态特征和当前时刻的语义信息输入递归神经网络中提取特征信息,并预测下一个单词,并将所预测的结果和训练数据集中的信息比较,计算分类的损失函数L3,优化递归神经网络中的参数;
S8:重复S2~S7,至损失函数L1,L2,L3收敛至某一指定值;
S9:将待图像描述的图片输入区块检测模块、目标检测模块和文本检测模块中,分别获得区块视觉信息、目标视觉信息和文本视觉信息,输入描述生成器中通过构建所述三种视觉信息分别与输入图像的坐标信息之间的关系图对所述三种视觉信息进行优化,再利用关注机制对所述三种视觉信息进行视觉信息筛选,并输入到多元融合模块中进行特征融合,最后输入到递归神经网络预测下一个描述单词至生成完整的描述句子。
2.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法,其特征在于:所述S2步骤的具体步骤包括:
S2.1:从互联网上下载在ImageNet上完成预训练的ResNet参数文件;
S2.2:将训练数据集的图片输入ResNet中,读取已下载的参数,将输出的区块特征图作为区块视觉信息。
3.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法,其特征在于:所述S3步骤的具体步骤包括:
S3.1:将训练图像输入目标检测模块中的卷积神经网络中,提取图像的高维区块视觉特征;
S3.2:在图像中高维区块视觉特征的位置上放置9个不同长宽比的偏置框;
S3.3:将带偏置框的高维区块视觉特征输入区域提议网络中,输出目标框与偏置框的坐标偏移值和目标框包含物体的置信得分;
S3.4:保留置信得分最高的K个目标框,利用最大值池化操作,根据目标框坐标在高维区块视觉特征上切割与目标框相同数目的目标视觉信息;
S3.5:将目标视觉信息输入三个独立的全连接层中,输出该目标视觉信息的高层次语义特征、预测的目标视觉信息类别和目标框的偏移值,然后根据预测类别和偏移值对目标框进行修正;
S3.6:将目标框的坐标信息和训练图像的坐标信息比较,计算分类与回归的损失函数L1,利用梯度反向传播方法对目标检测模块各层的参数进行更新;所述损失函数L1的具体公式如下:
其中,N为训练的目标框数量,Lcis(*)表示交叉熵损失函数,c为目标视觉信息各类别的概率,为正确类别的索引,Lreg(*)表示回归损失函数,b为目标框的坐标值,为训练图像中正确的坐标值。
4.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法,其特征在于:所述S4步骤的具体步骤包括:
S4.1:将训练数据集中的参考文本拆分成单词,保留含有视觉信息的单词,并从中挑选出现频率最高的1000个单词作为字典;
S4.2:删除ResNet中最后一层全连接层,再连接三个独立的全连接层作为文本检测模块,将训练图像输入文本检测模块中输出字典中所有单词的出现概率,选取概率最高的10个单词作为文本视觉信息;
S4.3:将文本视觉信息和训练数据集中的参考文本作比较,计算多标签分类的损失函数L2,通过梯度反向传播更新文本检测模块的参数,使损失值最小化;其中,损失函数L2的公式如下:
其中,N为检测文本的个数,pi为检测文本中单词出现的概率;当检测文本与参考文本相符时,pi *为1,否则为0。
5.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法,其特征在于:所述S5步骤中,将区块视觉信息输入描述生成器为步骤S5.1,其具体步骤包括:
S5.1.1:将区块视觉信息输入描述生成器中,将区块视觉信息中各个区块作为关系图的顶点,区块视觉信息与训练图像坐标信息的关系作为关系图的边,完成区块视觉信息关系图的构建;
S5.1.2:将当前时刻的语义信息与K×K个区块进行结合,得到特征矩阵E1,再将矩阵E1进行自乘得到邻接矩阵A1,保留关联程度最高的M个区块,得到最终的邻接矩阵A1∈RK×M,矩阵中每一个元素表示每两个区块之间的关联程度;
S5.1.3:对于每个区块对,根据其中心坐标值,通过极坐标表示区块对之间的距离和夹角u1(ip,jp);
S5.1.4:通过高斯函数计算极坐标下每个区块对之间的空间关联程度w1(u1(ip,jp));
S5.1.5:将不同区块的空间关联程度w1(u1(ip,jp))与邻接矩阵A1预测的关联程度αjp与每个区块的特征vjp进行加权求和,将相关区块的特征与区块ip特征结合,从而优化区块ip的视觉特征,其公式如下:
其中,ip为第ip个目标,jp为第jp个目标。
6.根据权利要求5所述的基于层次化特征关系图构建的图像描述方法,其特征在于:所述S5步骤中,将目标视觉信息输入描述生成器为步骤S5.2,其具体步骤包括:
S5.2.1:将目标视觉信息输入描述生成器中,将各个单目标视觉信息作为关系图的顶点,单目标视觉信息与训练图像坐标信息的关系作为关系图的边,完成目标视觉信息关系图的构建;
S5.2.2:将当前时刻的语义信息与K个单目标视觉信息进行结合,得到特征矩阵E2,再将矩阵E2进行自乘得到邻接矩阵A2,保留关联程度最高的M个单目标视觉信息,得到最终的邻接矩阵A2∈RK×M,矩阵中每一个元素表示每两个目标物体之间的关联程度;
S5.2.3:对于每个目标对,根据其中心坐标值,通过极坐标表示目标对之间的距离和夹角u2(io,jo);
S5.2.4:通过高斯函数计算极坐标下每个目标对之间的关联程度w2(u2(io,jo));
S5.2.5:将不同目标的空间关联程度w2(u2(io,jo))与邻接矩阵A2预测的关联程度αjo与每个目标的特征vjo进行加权求和,将相关目标的特征与目标io特征结合,从而优化目标io的视觉特征,其公式如下:
其中,io为第io个目标,jo为第jo个目标。
7.根据权利要求6所述的基于层次化特征关系图构建的图像描述方法,其特征在于:所述S5步骤中,将文本视觉信息输入描述生成器为步骤S5.3,其具体步骤包括:
S5.3.1:将文本视觉信息输入描述生成器中,将文本视觉信息中的各个检测文本作为关系图的顶点,文本视觉信息与训练图像坐标信息的关系作为关系图的边,完成文本视觉信息关系图的构建;
S5.3.2:将当前时刻的语义信息与K个检测文本进行结合,得到特征矩阵E3,再将矩阵E3进行自乘得到邻接矩阵A3,保留关联程度最高的M个检测文本,得到最终的邻接矩阵A3∈RK ×M,矩阵中每一个元素表示每两个文本之间的关联程度;
S5.3.3:对于每个检测文本对,根据其嵌入空间中心的中心坐标值,通过极坐标表示检测文本对之间的距离和夹角u3(it,jt);
S5.3.4:通过高斯函数计算极坐标下每个检测文本对之间的关联程度w3(u3(it,jt));
S5.3.5:将不同文本的空间关联程度w3(u3(it,jt))与邻接矩阵A3预测的关联程度αjt与每个文本的特征vjt进行加权求和,将相关文本的特征与文本it特征结合,从而优化文本it的视觉特征,其公式如下:
其中,it为第it个文本,jt为第jt个文本。
8.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法,其特征在于:所述S6步骤的具体步骤包括:
S6.1:将优化后的区块视觉信息、目标视觉信息和文本视觉信息分别和当前时刻的语义信息输入两个独立的全连接层中,并映射到多模态空间中,利用加法操作进行特征融合,并进行非线性激活;
S6.2:将激活后的特征映射到统一空间中,并输入到Softmax层分别计算各视觉信息的重要程度权重矩阵;
S6.3:将所述三种视觉信息与权重矩阵进行加权求和,得到筛选后的区块视觉信息、目标视觉信息和文本视觉信息;
S6.4:将完成筛选的所述三种视觉信息输入两个独立的全连接层中,将所有视觉信息映射到统一的多模态空间中;
S6.5:对所述三种视觉信息进行阿达玛乘积,提取各类型视觉信息之间的内在联系,并映射到多模态空间中,再通过加法操作将多模态空间的特征进行融合,得到多模态特征。
9.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法,其特征在于:所述S7步骤的具体步骤包括:
S7.1:将多模态特征和当前时刻的语义信息输入递归网络中,输出对应的特征信息;
S7.2:将特征信息输入Softmax层中,预测下一个单词的概率分布;
S7.3:将预测的结果与训练数据集中的参考文本进行比较,计算分类的损失函数L3,利用梯度反向传播方法对图像描述模块各层的参数进行更新,其公式如下:
其中,T为描述句子的长度,wt为当前预测的单词,I为输入图像,p(*)表示通过给定已经预测的单词和图像得到的当前单词的概率分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811595091.2A CN109711464B (zh) | 2018-12-25 | 2018-12-25 | 基于层次化特征关系图构建的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811595091.2A CN109711464B (zh) | 2018-12-25 | 2018-12-25 | 基于层次化特征关系图构建的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109711464A true CN109711464A (zh) | 2019-05-03 |
CN109711464B CN109711464B (zh) | 2022-09-27 |
Family
ID=66258337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811595091.2A Active CN109711464B (zh) | 2018-12-25 | 2018-12-25 | 基于层次化特征关系图构建的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109711464B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135441A (zh) * | 2019-05-17 | 2019-08-16 | 北京邮电大学 | 一种图像的文本描述方法及装置 |
CN110347839A (zh) * | 2019-07-18 | 2019-10-18 | 湖南数定智能科技有限公司 | 一种基于生成式多任务学习模型的文本分类方法 |
CN110390363A (zh) * | 2019-07-29 | 2019-10-29 | 上海海事大学 | 一种图像描述方法 |
CN110390259A (zh) * | 2019-06-11 | 2019-10-29 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 图数据的识别方法、装置、计算机设备和存储介质 |
CN110991448A (zh) * | 2019-11-27 | 2020-04-10 | 云南电网有限责任公司电力科学研究院 | 电力设备铭牌图像的文本检测方法及装置 |
CN111209961A (zh) * | 2020-01-03 | 2020-05-29 | 广州海洋地质调查局 | 一种冷泉区海底生物识别方法及处理终端 |
CN111404676A (zh) * | 2020-03-02 | 2020-07-10 | 北京丁牛科技有限公司 | 安全隐秘的密钥与密文的生成、存储与传递方法和装置 |
CN111428733A (zh) * | 2020-03-12 | 2020-07-17 | 山东大学 | 基于语义特征空间转换的零样本目标检测方法及*** |
CN112001368A (zh) * | 2020-09-29 | 2020-11-27 | 北京百度网讯科技有限公司 | 文字结构化提取方法、装置、设备以及存储介质 |
CN112116685A (zh) * | 2020-09-16 | 2020-12-22 | 中国石油大学(华东) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 |
CN113298151A (zh) * | 2021-05-26 | 2021-08-24 | 中国电子科技集团公司第五十四研究所 | 一种基于多级特征融合的遥感图像语义描述方法 |
CN113657170A (zh) * | 2021-07-20 | 2021-11-16 | 西安理工大学 | 一种增加图像文本描述多样性方法 |
WO2023134073A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 基于人工智能的图像描述生成方法、装置、设备及介质 |
CN117576520A (zh) * | 2024-01-16 | 2024-02-20 | 中国科学技术大学 | 目标检测模型的训练方法、目标检测方法及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104966090A (zh) * | 2015-07-21 | 2015-10-07 | 公安部第三研究所 | 实现面向图像理解的视觉单词生成和评价的***及方法 |
US20150363672A1 (en) * | 2010-06-28 | 2015-12-17 | Ramot At Tel-Aviv University Ltd. | Method and system of classifying medical images |
CN105184303A (zh) * | 2015-04-23 | 2015-12-23 | 南京邮电大学 | 一种基于多模态深度学习的图像标注方法 |
CN108648192A (zh) * | 2018-05-17 | 2018-10-12 | 杭州依图医疗技术有限公司 | 一种检测结节的方法及装置 |
-
2018
- 2018-12-25 CN CN201811595091.2A patent/CN109711464B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150363672A1 (en) * | 2010-06-28 | 2015-12-17 | Ramot At Tel-Aviv University Ltd. | Method and system of classifying medical images |
CN105184303A (zh) * | 2015-04-23 | 2015-12-23 | 南京邮电大学 | 一种基于多模态深度学习的图像标注方法 |
CN104966090A (zh) * | 2015-07-21 | 2015-10-07 | 公安部第三研究所 | 实现面向图像理解的视觉单词生成和评价的***及方法 |
CN108648192A (zh) * | 2018-05-17 | 2018-10-12 | 杭州依图医疗技术有限公司 | 一种检测结节的方法及装置 |
Non-Patent Citations (1)
Title |
---|
林春漪等: "《基于多层贝叶斯网络的医学图像语义建模》", 《生物医学工程学杂志》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135441A (zh) * | 2019-05-17 | 2019-08-16 | 北京邮电大学 | 一种图像的文本描述方法及装置 |
CN110135441B (zh) * | 2019-05-17 | 2020-03-03 | 北京邮电大学 | 一种图像的文本描述方法及装置 |
CN110390259A (zh) * | 2019-06-11 | 2019-10-29 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 图数据的识别方法、装置、计算机设备和存储介质 |
CN110347839A (zh) * | 2019-07-18 | 2019-10-18 | 湖南数定智能科技有限公司 | 一种基于生成式多任务学习模型的文本分类方法 |
CN110390363A (zh) * | 2019-07-29 | 2019-10-29 | 上海海事大学 | 一种图像描述方法 |
CN110991448A (zh) * | 2019-11-27 | 2020-04-10 | 云南电网有限责任公司电力科学研究院 | 电力设备铭牌图像的文本检测方法及装置 |
CN111209961A (zh) * | 2020-01-03 | 2020-05-29 | 广州海洋地质调查局 | 一种冷泉区海底生物识别方法及处理终端 |
CN111209961B (zh) * | 2020-01-03 | 2020-10-09 | 广州海洋地质调查局 | 一种冷泉区海底生物识别方法及处理终端 |
CN111404676A (zh) * | 2020-03-02 | 2020-07-10 | 北京丁牛科技有限公司 | 安全隐秘的密钥与密文的生成、存储与传递方法和装置 |
CN111404676B (zh) * | 2020-03-02 | 2023-08-29 | 北京丁牛科技有限公司 | 安全隐秘的密钥与密文的生成、存储与传递方法和装置 |
CN111428733A (zh) * | 2020-03-12 | 2020-07-17 | 山东大学 | 基于语义特征空间转换的零样本目标检测方法及*** |
CN111428733B (zh) * | 2020-03-12 | 2023-05-23 | 山东大学 | 基于语义特征空间转换的零样本目标检测方法及*** |
CN112116685A (zh) * | 2020-09-16 | 2020-12-22 | 中国石油大学(华东) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 |
CN112001368A (zh) * | 2020-09-29 | 2020-11-27 | 北京百度网讯科技有限公司 | 文字结构化提取方法、装置、设备以及存储介质 |
CN113298151A (zh) * | 2021-05-26 | 2021-08-24 | 中国电子科技集团公司第五十四研究所 | 一种基于多级特征融合的遥感图像语义描述方法 |
CN113657170A (zh) * | 2021-07-20 | 2021-11-16 | 西安理工大学 | 一种增加图像文本描述多样性方法 |
CN113657170B (zh) * | 2021-07-20 | 2024-02-06 | 西安理工大学 | 一种增加图像文本描述多样性方法 |
WO2023134073A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 基于人工智能的图像描述生成方法、装置、设备及介质 |
CN117576520A (zh) * | 2024-01-16 | 2024-02-20 | 中国科学技术大学 | 目标检测模型的训练方法、目标检测方法及电子设备 |
CN117576520B (zh) * | 2024-01-16 | 2024-05-17 | 中国科学技术大学 | 目标检测模型的训练方法、目标检测方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109711464B (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711464A (zh) | 基于层次化特征关系图构建的图像描述方法 | |
Zhao et al. | Modeling sentiment dependencies with graph convolutional networks for aspect-level sentiment classification | |
Sanh et al. | A hierarchical multi-task approach for learning embeddings from semantic tasks | |
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
CN109543180A (zh) | 一种基于注意力机制的文本情感分析方法 | |
CN110598005B (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN110309268B (zh) | 一种基于概念图的跨语言信息检索方法 | |
CN107818302A (zh) | 基于卷积神经网络的非刚性多尺度物体检测方法 | |
CN113535904B (zh) | 一种基于图神经网络的方面级情感分析方法 | |
CN107562812A (zh) | 一种基于特定模态语义空间建模的跨模态相似性学习方法 | |
CN113254667A (zh) | 基于深度学习模型的科技人物知识图谱构建方法、装置及终端 | |
CN113705238B (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及*** | |
CN109271539A (zh) | 一种基于深度学习的图像自动标注方法及装置 | |
CN110309867A (zh) | 一种基于卷积神经网络的混合气体识别方法 | |
CN113204675B (zh) | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 | |
Chen et al. | GNDAN: Graph navigated dual attention network for zero-shot learning | |
CN110516098A (zh) | 基于卷积神经网络及二进制编码特征的图像标注方法 | |
CN115860152B (zh) | 一种面向人物军事知识发现的跨模态联合学习方法 | |
Xu et al. | Relation-aware compositional zero-shot learning for attribute-object pair recognition | |
Ye et al. | A joint-training two-stage method for remote sensing image captioning | |
CN114332519A (zh) | 一种基于外部三元组和抽象关系的图像描述生成方法 | |
Li et al. | Zero-shot predicate prediction for scene graph parsing | |
CN115631504B (zh) | 一种基于双模态图网络信息瓶颈的情感识别方法 | |
Zhao et al. | Domain adaptation with feature and label adversarial networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |