CN114332519A - 一种基于外部三元组和抽象关系的图像描述生成方法 - Google Patents

一种基于外部三元组和抽象关系的图像描述生成方法 Download PDF

Info

Publication number
CN114332519A
CN114332519A CN202111638065.5A CN202111638065A CN114332519A CN 114332519 A CN114332519 A CN 114332519A CN 202111638065 A CN202111638065 A CN 202111638065A CN 114332519 A CN114332519 A CN 114332519A
Authority
CN
China
Prior art keywords
target
image
relation
triples
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111638065.5A
Other languages
English (en)
Inventor
姜明
陈景翔
张旻
李鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111638065.5A priority Critical patent/CN114332519A/zh
Publication of CN114332519A publication Critical patent/CN114332519A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于外部三元组和抽象关系的图像描述生成方法。本发明首先提取图像描述文本中的三元组,构建外部关系库并对三元组进行特征编码。将文本相似度高于阈值的三元组聚类为一类。同时模型对图像进行目标检测得得到目标视觉特征集合与目标类别集合;根据文本相似度在外部关系库中查询目标与目标类别相似的三元组。模型利用目标视觉特征对图像的目标、属性、关系分别进行预测,生成场景图;并利用卷积神经网络融合视觉特征与文本特征,对目标、属性、关系进行特征编码。最后融合场景图目标、属性、关系编码特征与相似关系和抽象关系的编码特征,输入到双层LSTM序列生成模型中得到最终的图像描述。本发明使模型生成描述的表述更加丰富。

Description

一种基于外部三元组和抽象关系的图像描述生成方法
技术领域
本文发明涉及图像描述生成方法,具体来讲是一种基于外部三元组和抽象关系的图像描述生成方法,属于图像描述生成领域。
背景技术
图像描述生成是计算机视觉和自然语言处理相结合的综合性任务,具有极大的挑战性。受到自然语言处理领域编码解码器、注意力机制与基于强化学习的训练目标启发,现代图像描述生成模型取得了惊人的进展,研究者对图像描述生成领域的关注也日益增长。在一些评价指标上甚至超过了人类。
图像描述生成方法的技术不断发展,但是存在一个从未解决但是不容忽视的问题,就是现有模型仅是对图像中显著目标的简单描述,生成的效果甚至不如对图像进行一系列的目标检测。在上下文推理的过程中,人会利用之前学习到的知识,帮助我们更好完成地完成推理。此外,有研究表明,基于视觉的语言生成并非是端到端的,而是与高层抽象符号有关。如果把视觉场景抽象成符号,生成过程就会变得清晰。受此启发,本文从图像描述中提取三元组,构建外部关系库,根据图像的目标类别查询相似关系,为模型提供先验知识。同时,将三元组进行抽象聚类,生成抽象关系,提高模型预测的准确性。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于外部三元组和抽象关系的图像描述生成方法,以解决传统的图像描述生成方法无法生成的描述过于简单的问题,并且在原有基础上提高预测准确性。
本发明有益效果如下:
本发明从图像描述中提取三元组,构建外部关系库,将与图像相关的相似关系融入模型中,使模型生成描述的表述更加丰富。
本发明根据文本相似度将三元组聚类,生成抽象关系并融入模型中,使得模型生成的描述更加准确。
附图说明
图1是本发明的整体实施方案流程图
图2是本发明的构建外部三元组与抽象关系示意图
图3是本发明的场景图生成示意图
图4是本发明的图像描述生成示意图
图5是本发明的整体结构示意图
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和5所示是本发明的整体实施方案流程图。
为了解决这些问题,本发明在构建了外部关系库,根据图像目标类别从库中查询相似关系与抽象关系,与场景图特征相融合。具体来说,首先使用开放域知识抽取工具,提取图像描述文本中的三元组,构建外部关系库,并对三元组进行特征编码。根据三元组中关系的文本相似度,将相似度高的三元组聚类为一类,称之为抽象关系。同时,模型对图像进行目标检测,得到目标视觉特征与语义标签。模型根据文本相似度,在外部关系库中查询主语或宾语与语义标签相似的三元组。然后,模型利用目标视觉特征,对图像的目标、属性、关系分别进行预测,生成场景图,并利用多模态图卷积神经网络融合视觉特征与文本特征,对目标、属性、关系进行特征编码。最后,融合场景图目标、属性、关系编码特征与相似关系和抽象关系的编码特征,输入到双层LSTM序列生成模型中,得到最终的图像描述。
参照图1和5所示,一种基于外部三元组和抽象关系的图像描述生成方法,包括以下步骤:
一种基于外部三元组和抽象关系的图像描述生成方法,包括以下步骤:
步骤(1)使用开放域知识抽取工具,提取图像描述文本中的三元组,构建外部关系库,并对三元组进行特征编码;
步骤(2)根据三元组中关系rel的文本相似度,将文本相似度高于设定阈值的三元组聚类为一类,称之为抽象关系Rabs
步骤(3)对图像进行目标检测,得到目标视觉特征集合V与目标类别集合W;根据文本相似度,在外部关系库中查询主语或宾语(即目标obj)与目标类别相似的三元组,称之为相似关系Rsim
步骤(4)利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;并利用多模态图卷积神经网络MGCN融合目标视觉特征与目标类别W的词向量,对目标obj、属性attr、关系rel进行特征编码;
步骤(5)图像描述生成模型用于融合场景图编码特征与关系编码特征,得到融合特征;所述的关系编码特征包括相似关系的编码特征和抽象关系的编码特征;融合特征输入到图像描述生成模型的双层LSTM解码器中进行训练,挑选最优训练模型;将图像输入训练好的图像描述生成模型,输出对应的图像描述。
进一步的,如图2所示,步骤(1)所述具体实现过程如下:
1-1使用MSCOCO与Visual Genome数据集中的图像文本描述,利用开放域知识抽取工具OpenIE,提取图像文本描述中的三元组R={subject,predicate,object},构建外部关系库;
1-2使用预训练语言模型BERT对图像文本描述进行编码,得到所有图像文本描述中每个单词的特征编码;设图像文本描述由K个单词构成,则该段图像文本描述的特征向量为{e0,e1,e2,...,ek,...,eK},其中ek表示第k个单词的特征编码,为768维特征向量;
1-3由于提取的三元组是在图像文本描述中出现过的单词,假设三个单词在图像文本描述中的位置为i,j,k,则三元组的编码特征d为三元组在描述对应位置的特征编码的平均值,如公式(1)所示;
Figure BDA0003442707290000031
进一步的,步骤(2)所述具体实现过程如下:
2-1计算文本相似度,使用余弦相似度作为计算函数,假设两个三元组的编码特征分别为di′,dj′,则两个三元组的相似度如公式(2)所示;
Figure BDA0003442707290000041
其中,i′、j′表示第i′、j′个三元组,取值范围为1到Nt,Nt表示三元组的个数;
2-2使用无监督文本聚类算法,将文本相似度大于设定阈值的三元组聚为一类,称之为抽象关系Rabs
2-3对抽象关系Rabs进行特征表示,假设抽象关系Rabs存在K1个三元组,则抽象关系即三元组集合
Figure BDA0003442707290000042
则该类抽象关系Rabs的特征编码如公式(3)所示;
Figure BDA0003442707290000043
其中,d′k′表示三元组r′k′对应的编码特征。
进一步的,步骤(3)所述具体实现过程如下:
3-1使用在Visual Genome数据集上预先训练的Faster RCNN对图像进行目标检测,Faster RCNN能够获得目标类别W以及相应目标在图像中的区域以及特征;针对图像I,取Faster RCNN最终输出并得到的目标类别集合W={w1,w2,...,ws},ws∈Rd以及目标视觉特征集合V={v1,v2,...,vs},vs∈Rd,如公式(4)所示;
W,V=Faster RCNN(I)#(4)
3-2根据目标类别集合W,按照公式(2)计算文本相似度,在外部关系库中查询与目标类别相似的三元组,称之为相似关系Rsim
3-3与抽象关系类似,对相似关系Rsim进行特征表示,假设相似关系存在K2个三元组,则相似关系即三元组集合
Figure BDA0003442707290000044
Figure BDA0003442707290000045
则该类相似关系Rsim的特征编码如公式(5)所示;
Figure BDA0003442707290000046
其中,d″k″表示三元组d″k″对应的编码特征。
进一步的,如图3所示,步骤(4)所述具体实现过程如下:
4-1利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;对于目标,利用Faster RCNN进行目标检测;对于属性,利用预先训练的属性分类器进行属性预测;对于关系,利用MOTIFS场景图生成模型进行关系检测;最终分别得到目标obj、属性attr、关系rel的类别词向量eo,ea,er以及它们对应的视觉特征vo,va,vr
4-2为了获得更好的节点特征,融合对应类别词向量与视觉特征,通过公式(6)得到新的融合节点特征uo,ua,ur,其中W1,W2是融合参数;
u=ReLU(W1e+W2v)-(W1e-W2v)2#(6)
4-3将融合后的融合节点特征uo,ua,ur输入到多模态图卷积神经网络MGCN中进行编码,得到场景图编码特征
Figure BDA0003442707290000051
如公式(7)至公式(9)所示;
Figure BDA0003442707290000052
Figure BDA0003442707290000053
Figure BDA0003442707290000054
其中,fr,fa,fo为参数相互独立的网络,该网络由全连接层与一层ReLU层构成;ox为第x个目标节点,rx,y为第x个目标与第y个目标的关系节点,oy为第y个目标的目标节点;ax,l为第x个目标节点的第l个属性节点;sbj(ox)为与第x个目标节点相连的主语节点集合,op为其中的主语目标;obj(ox)为第x个目标节点的宾语节点集合,oq为其中的宾语目标;Nax,Nrx分别为第x个目标的属性节点数量与关系节点数量;u是融合节点特征。
进一步的,如图4所示,步骤(5)所述具体实现过程如下:
5-1将归纳偏置融入到图像描述生成模型中,模型融合场景图编码特征与关系的编码特征,得到最终的融合特征V^,如公式(10)所示;
V^=Dα=D·softmax(DTV`)#(10)
其中,D是相似关系编码特征Dsim与抽象关系编码特征Dabs的拼接,V′是场景图编码特征
Figure BDA0003442707290000061
的拼接;
5-2在MSCOCO数据集上进行端到端的训练,epoch设置为20,学习率为0.00001,batch size为16,使用Adam优化器渐进式的调整学习率;在推理过程中使用波束搜索,波束大小为5;利用标准的交叉熵损失来训练模型,公式(11)所示;
Figure BDA0003442707290000062
其中,T为输入序列的长度,yt的为输入第t个特征后生成的单词,y1:t为真实描述的第1至t个单词,θ为模型参数;
5-3将测试图像输入到模型中,获得图像描述。
基于本专利发明的图像描述生成方法与现有的基准模型和基于先验知识的图像描述生成模型进行对比,对比结果如表(1)所示:
模型 B@1 B@4 M R C S
Up-Down 79.8 36.3 27.7 59.6 120.1 21.4
SGAE 81.0 39.0 28.4 58.9 129.1 22.2
本专利 81.5 39.7 28.9 60.1 130.2 24.1
其中,Up-Down是现有的基准模型,SGAE是基于先验知识的图像描述生成模型;B@N表示BLEU@N(N=1,4),M表示METOR,R表示ROUGE-L,C表示CIDEr-D,S表示SPICE,均为图像描述模型的评价指标,评价指标越高,说明生成的描述越准确。从表中可得,本专利在上述评价指标上均与其他模型有较高的提升,说明基于外部三元组和抽象关系的图像描述生成方法在提高图像描述生成上发明有效。

Claims (6)

1.一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于包括以下步骤:
步骤(1)使用开放域知识抽取工具,提取图像描述文本中的三元组,构建外部关系库,并对三元组进行特征编码;
步骤(2)根据三元组中关系rel的文本相似度,将文本相似度高于设定阈值的三元组聚类为一类,称之为抽象关系Rabs
步骤(3)对图像进行目标检测,得到目标视觉特征集合V与目标类别集合W;根据文本相似度,在外部关系库中查询目标obj与目标类别相似的三元组,称之为相似关系Rsim
步骤(4)利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;并利用多模态图卷积神经网络MGCN融合目标视觉特征与目标类别W的词向量,对目标obj、属性attr、关系rel进行特征编码;
步骤(5)图像描述生成模型用于融合场景图编码特征与关系编码特征,得到融合特征;所述的关系编码特征包括相似关系的编码特征和抽象关系的编码特征;融合特征输入到图像描述生成模型的双层LSTM解码器中进行训练,挑选最优训练模型;将图像输入训练好的图像描述生成模型,输出对应的图像描述。
2.根据权利要求1所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(1)所述,具体实现过程如下:
1-1使用MSCOCO与Visual Genome数据集中的图像文本描述,利用开放域知识抽取工具OpenIE,提取图像文本描述中的三元组R={subject,predicate,object},构建外部关系库;
1-2使用预训练语言模型BERT对图像文本描述进行编码,得到所有图像文本描述中每个单词的特征编码;设图像文本描述由K个单词构成,则该段图像文本描述的特征向量为{e0,e1,e2,…,ek,…,eK},其中ek表示第k个单词的特征编码,为768维特征向量;
1-3由于提取的三元组是在图像文本描述中出现过的单词,假设三个单词在图像文本描述中的位置为i,j,k,则三元组的编码特征d为三元组在描述对应位置的特征编码的平均值,如公式(1)所示;
Figure FDA0003442707280000021
3.根据权利要求2所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(2)所述,具体实现过程如下:
2-1计算文本相似度,使用余弦相似度作为计算函数,假设两个三元组的编码特征分别为di′,dj′,则两个三元组的相似度如公式(2)所示;
Figure FDA0003442707280000022
其中,i′、j′表示第i′、j′个三元组,取值范围为1到Nt,Nt表示三元组的个数;
2-2使用无监督文本聚类算法,将文本相似度大于设定阈值的三元组聚为一类,称之为抽象关系Rabs
2-3对抽象关系Rabs进行特征表示,假设抽象关系Rabs存在K1个三元组,则抽象关系即三元组集合
Figure FDA0003442707280000023
则该类抽象关系Rabs的特征编码如公式(3)所示;
Figure FDA0003442707280000024
其中,d′k′表示三元组r′k′对应的编码特征。
4.根据权利要求3所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(3)所述,具体实现过程如下:
3-1使用在Visual Genome数据集上预先训练的Faster RCNN对图像进行目标检测,Faster RCNN能够获得目标类别W以及相应目标在图像中的区域以及特征;针对图像I,取Faster RCNN最终输出并得到的目标类别集合W={w1,w2,…,ws},ws∈Rd以及目标视觉特征集合V={v1,v2,…,vs},vs∈Rd,如公式(4)所示;
W,V=Faster RCNN(I)#(4)
3-2根据目标类别集合W,按照公式(2)计算文本相似度,在外部关系库中查询与目标类别相似的三元组,称之为相似关系Rsim
3-3与抽象关系类似,对相似关系Rsim进行特征表示,假设相似关系存在K2个三元组,则相似关系即三元组集合
Figure FDA0003442707280000031
Figure FDA0003442707280000032
则该类相似关系Rsim的特征编码如公式(5)所示;
Figure FDA0003442707280000033
其中,d″k″表示三元组d″k″对应的编码特征。
5.根据权利要求4所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(4)所述,具体实现过程如下:
4-1利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;对于目标,利用FasterRCNN进行目标检测;对于属性,利用预先训练的属性分类器进行属性预测;对于关系,利用MOTIFS场景图生成模型进行关系检测;最终分别得到目标obj、属性attr、关系rel的类别词向量eo,ea,er以及它们对应的视觉特征vo,va,vr
4-2为了获得更好的节点特征,融合对应类别词向量与视觉特征,通过公式(6)得到新的融合节点特征uo,ua,ur,其中W1,W2是融合参数;
u=ReLU(W1e+W2v)-(W1e-W2v)2#(6)
4-3将融合后的融合节点特征uo,ua,ur输入到多模态图卷积神经网络MGCN中进行编码,得到场景图编码特征
Figure FDA0003442707280000034
如公式(7)至公式(9)所示;
Figure FDA0003442707280000035
Figure FDA0003442707280000036
Figure FDA0003442707280000037
其中,fr,fa,fo为参数相互独立的网络,该网络由全连接层与一层ReLU层构成;ox为第x个目标节点,rx,y为第x个目标与第y个目标的关系节点,oy为第y个目标的目标节点;ax,l为第x个目标节点的第l个属性节点;sbj(ox)为与第x个目标节点相连的主语节点集合,op为其中的主语目标;obj(ox)为第x个目标节点的宾语节点集合,oq为其中的宾语目标;Nax,Nrx分别为第x个目标的属性节点数量与关系节点数量;u是融合节点特征。
6.根据权利要求5所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(5)所述,具体实现过程如下:
5-1将归纳偏置融入到图像描述生成模型中,模型融合场景图编码特征与关系的编码特征,得到最终的融合特征V^,如公式(10)所示;
V^=Dα=D·softmax(DTV`)#(10)
其中,D是相似关系编码特征Dsim与抽象关系编码特征Dabs的拼接,V`是场景图编码特征
Figure FDA0003442707280000041
的拼接;
5-2在MSCOCO数据集上进行端到端的训练,epoch设置为20,学习率为0.00001,batchsize为16,使用Adam优化器渐进式的调整学习率;在推理过程中使用波束搜索,波束大小为5;利用标准的交叉熵损失来训练模型,公式(11)所示;
Figure FDA0003442707280000042
其中,T为输入序列的长度,yt的为输入第t个特征后生成的单词,y1:t为真实描述的第1至t个单词,θ为模型参数;
5-3将测试图像输入到模型中,获得图像描述。
CN202111638065.5A 2021-12-29 2021-12-29 一种基于外部三元组和抽象关系的图像描述生成方法 Pending CN114332519A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111638065.5A CN114332519A (zh) 2021-12-29 2021-12-29 一种基于外部三元组和抽象关系的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111638065.5A CN114332519A (zh) 2021-12-29 2021-12-29 一种基于外部三元组和抽象关系的图像描述生成方法

Publications (1)

Publication Number Publication Date
CN114332519A true CN114332519A (zh) 2022-04-12

Family

ID=81017775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111638065.5A Pending CN114332519A (zh) 2021-12-29 2021-12-29 一种基于外部三元组和抽象关系的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN114332519A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708472A (zh) * 2022-06-06 2022-07-05 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN114912512A (zh) * 2022-04-14 2022-08-16 南京大学 一种对图像描述的结果进行自动评估的方法
CN116524513A (zh) * 2023-07-03 2023-08-01 中国科学技术大学 开放词表场景图生成方法、***、设备及存储介质
CN117648929A (zh) * 2023-10-25 2024-03-05 西安理工大学 基于类人化广义感知机制的目标误识别纠正方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114912512A (zh) * 2022-04-14 2022-08-16 南京大学 一种对图像描述的结果进行自动评估的方法
CN114708472A (zh) * 2022-06-06 2022-07-05 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN114708472B (zh) * 2022-06-06 2022-09-09 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN116524513A (zh) * 2023-07-03 2023-08-01 中国科学技术大学 开放词表场景图生成方法、***、设备及存储介质
CN116524513B (zh) * 2023-07-03 2023-10-20 中国科学技术大学 开放词表场景图生成方法、***、设备及存储介质
CN117648929A (zh) * 2023-10-25 2024-03-05 西安理工大学 基于类人化广义感知机制的目标误识别纠正方法

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN112784092B (zh) 一种混合融合模型的跨模态图像文本检索方法
CN115033670A (zh) 多粒度特征融合的跨模态图文检索方法
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN112417306B (zh) 基于知识图谱的推荐算法性能优化的方法
CN109359302B (zh) 一种领域化词向量的优化方法及基于其的融合排序方法
CN113807422B (zh) 融合多特征信息的加权图卷积神经网络评分预测模型
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN110287323A (zh) 一种面向目标的情感分类方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN114357120A (zh) 基于faq的无监督式检索方法、***及介质
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN114706559A (zh) 一种基于需求识别的软件规模度量方法
CN116304066A (zh) 一种基于提示学习的异质信息网络节点分类方法
CN114429132A (zh) 一种基于混合格自注意力网络的命名实体识别方法和装置
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法
CN111368197A (zh) 一种基于深度学习的评论推荐***及方法
CN116680363A (zh) 一种基于多模态评论数据的情感分析方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和***
CN114036298B (zh) 一种基于图卷积神经网络与词向量的节点分类方法
CN115422939A (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN117235216A (zh) 一种基于异构知识融合的知识推理方法
CN116361438A (zh) 基于文本-知识扩展图协同推理网络的问答方法及***
CN114943216A (zh) 基于图注意力网络的案件微博属性级观点挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination