CN114332519A - 一种基于外部三元组和抽象关系的图像描述生成方法 - Google Patents
一种基于外部三元组和抽象关系的图像描述生成方法 Download PDFInfo
- Publication number
- CN114332519A CN114332519A CN202111638065.5A CN202111638065A CN114332519A CN 114332519 A CN114332519 A CN 114332519A CN 202111638065 A CN202111638065 A CN 202111638065A CN 114332519 A CN114332519 A CN 114332519A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- relation
- triples
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于外部三元组和抽象关系的图像描述生成方法。本发明首先提取图像描述文本中的三元组,构建外部关系库并对三元组进行特征编码。将文本相似度高于阈值的三元组聚类为一类。同时模型对图像进行目标检测得得到目标视觉特征集合与目标类别集合;根据文本相似度在外部关系库中查询目标与目标类别相似的三元组。模型利用目标视觉特征对图像的目标、属性、关系分别进行预测,生成场景图;并利用卷积神经网络融合视觉特征与文本特征,对目标、属性、关系进行特征编码。最后融合场景图目标、属性、关系编码特征与相似关系和抽象关系的编码特征,输入到双层LSTM序列生成模型中得到最终的图像描述。本发明使模型生成描述的表述更加丰富。
Description
技术领域
本文发明涉及图像描述生成方法,具体来讲是一种基于外部三元组和抽象关系的图像描述生成方法,属于图像描述生成领域。
背景技术
图像描述生成是计算机视觉和自然语言处理相结合的综合性任务,具有极大的挑战性。受到自然语言处理领域编码解码器、注意力机制与基于强化学习的训练目标启发,现代图像描述生成模型取得了惊人的进展,研究者对图像描述生成领域的关注也日益增长。在一些评价指标上甚至超过了人类。
图像描述生成方法的技术不断发展,但是存在一个从未解决但是不容忽视的问题,就是现有模型仅是对图像中显著目标的简单描述,生成的效果甚至不如对图像进行一系列的目标检测。在上下文推理的过程中,人会利用之前学习到的知识,帮助我们更好完成地完成推理。此外,有研究表明,基于视觉的语言生成并非是端到端的,而是与高层抽象符号有关。如果把视觉场景抽象成符号,生成过程就会变得清晰。受此启发,本文从图像描述中提取三元组,构建外部关系库,根据图像的目标类别查询相似关系,为模型提供先验知识。同时,将三元组进行抽象聚类,生成抽象关系,提高模型预测的准确性。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于外部三元组和抽象关系的图像描述生成方法,以解决传统的图像描述生成方法无法生成的描述过于简单的问题,并且在原有基础上提高预测准确性。
本发明有益效果如下:
本发明从图像描述中提取三元组,构建外部关系库,将与图像相关的相似关系融入模型中,使模型生成描述的表述更加丰富。
本发明根据文本相似度将三元组聚类,生成抽象关系并融入模型中,使得模型生成的描述更加准确。
附图说明
图1是本发明的整体实施方案流程图
图2是本发明的构建外部三元组与抽象关系示意图
图3是本发明的场景图生成示意图
图4是本发明的图像描述生成示意图
图5是本发明的整体结构示意图
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和5所示是本发明的整体实施方案流程图。
为了解决这些问题,本发明在构建了外部关系库,根据图像目标类别从库中查询相似关系与抽象关系,与场景图特征相融合。具体来说,首先使用开放域知识抽取工具,提取图像描述文本中的三元组,构建外部关系库,并对三元组进行特征编码。根据三元组中关系的文本相似度,将相似度高的三元组聚类为一类,称之为抽象关系。同时,模型对图像进行目标检测,得到目标视觉特征与语义标签。模型根据文本相似度,在外部关系库中查询主语或宾语与语义标签相似的三元组。然后,模型利用目标视觉特征,对图像的目标、属性、关系分别进行预测,生成场景图,并利用多模态图卷积神经网络融合视觉特征与文本特征,对目标、属性、关系进行特征编码。最后,融合场景图目标、属性、关系编码特征与相似关系和抽象关系的编码特征,输入到双层LSTM序列生成模型中,得到最终的图像描述。
参照图1和5所示,一种基于外部三元组和抽象关系的图像描述生成方法,包括以下步骤:
一种基于外部三元组和抽象关系的图像描述生成方法,包括以下步骤:
步骤(1)使用开放域知识抽取工具,提取图像描述文本中的三元组,构建外部关系库,并对三元组进行特征编码;
步骤(2)根据三元组中关系rel的文本相似度,将文本相似度高于设定阈值的三元组聚类为一类,称之为抽象关系Rabs;
步骤(3)对图像进行目标检测,得到目标视觉特征集合V与目标类别集合W;根据文本相似度,在外部关系库中查询主语或宾语(即目标obj)与目标类别相似的三元组,称之为相似关系Rsim;
步骤(4)利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;并利用多模态图卷积神经网络MGCN融合目标视觉特征与目标类别W的词向量,对目标obj、属性attr、关系rel进行特征编码;
步骤(5)图像描述生成模型用于融合场景图编码特征与关系编码特征,得到融合特征;所述的关系编码特征包括相似关系的编码特征和抽象关系的编码特征;融合特征输入到图像描述生成模型的双层LSTM解码器中进行训练,挑选最优训练模型;将图像输入训练好的图像描述生成模型,输出对应的图像描述。
进一步的,如图2所示,步骤(1)所述具体实现过程如下:
1-1使用MSCOCO与Visual Genome数据集中的图像文本描述,利用开放域知识抽取工具OpenIE,提取图像文本描述中的三元组R={subject,predicate,object},构建外部关系库;
1-2使用预训练语言模型BERT对图像文本描述进行编码,得到所有图像文本描述中每个单词的特征编码;设图像文本描述由K个单词构成,则该段图像文本描述的特征向量为{e0,e1,e2,...,ek,...,eK},其中ek表示第k个单词的特征编码,为768维特征向量;
1-3由于提取的三元组是在图像文本描述中出现过的单词,假设三个单词在图像文本描述中的位置为i,j,k,则三元组的编码特征d为三元组在描述对应位置的特征编码的平均值,如公式(1)所示;
进一步的,步骤(2)所述具体实现过程如下:
2-1计算文本相似度,使用余弦相似度作为计算函数,假设两个三元组的编码特征分别为di′,dj′,则两个三元组的相似度如公式(2)所示;
其中,i′、j′表示第i′、j′个三元组,取值范围为1到Nt,Nt表示三元组的个数;
2-2使用无监督文本聚类算法,将文本相似度大于设定阈值的三元组聚为一类,称之为抽象关系Rabs;
其中,d′k′表示三元组r′k′对应的编码特征。
进一步的,步骤(3)所述具体实现过程如下:
3-1使用在Visual Genome数据集上预先训练的Faster RCNN对图像进行目标检测,Faster RCNN能够获得目标类别W以及相应目标在图像中的区域以及特征;针对图像I,取Faster RCNN最终输出并得到的目标类别集合W={w1,w2,...,ws},ws∈Rd以及目标视觉特征集合V={v1,v2,...,vs},vs∈Rd,如公式(4)所示;
W,V=Faster RCNN(I)#(4)
3-2根据目标类别集合W,按照公式(2)计算文本相似度,在外部关系库中查询与目标类别相似的三元组,称之为相似关系Rsim;
其中,d″k″表示三元组d″k″对应的编码特征。
进一步的,如图3所示,步骤(4)所述具体实现过程如下:
4-1利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;对于目标,利用Faster RCNN进行目标检测;对于属性,利用预先训练的属性分类器进行属性预测;对于关系,利用MOTIFS场景图生成模型进行关系检测;最终分别得到目标obj、属性attr、关系rel的类别词向量eo,ea,er以及它们对应的视觉特征vo,va,vr;
4-2为了获得更好的节点特征,融合对应类别词向量与视觉特征,通过公式(6)得到新的融合节点特征uo,ua,ur,其中W1,W2是融合参数;
u=ReLU(W1e+W2v)-(W1e-W2v)2#(6)
其中,fr,fa,fo为参数相互独立的网络,该网络由全连接层与一层ReLU层构成;ox为第x个目标节点,rx,y为第x个目标与第y个目标的关系节点,oy为第y个目标的目标节点;ax,l为第x个目标节点的第l个属性节点;sbj(ox)为与第x个目标节点相连的主语节点集合,op为其中的主语目标;obj(ox)为第x个目标节点的宾语节点集合,oq为其中的宾语目标;Nax,Nrx分别为第x个目标的属性节点数量与关系节点数量;u是融合节点特征。
进一步的,如图4所示,步骤(5)所述具体实现过程如下:
5-1将归纳偏置融入到图像描述生成模型中,模型融合场景图编码特征与关系的编码特征,得到最终的融合特征V^,如公式(10)所示;
V^=Dα=D·softmax(DTV`)#(10)
5-2在MSCOCO数据集上进行端到端的训练,epoch设置为20,学习率为0.00001,batch size为16,使用Adam优化器渐进式的调整学习率;在推理过程中使用波束搜索,波束大小为5;利用标准的交叉熵损失来训练模型,公式(11)所示;
其中,T为输入序列的长度,yt的为输入第t个特征后生成的单词,y1:t为真实描述的第1至t个单词,θ为模型参数;
5-3将测试图像输入到模型中,获得图像描述。
基于本专利发明的图像描述生成方法与现有的基准模型和基于先验知识的图像描述生成模型进行对比,对比结果如表(1)所示:
模型 | B@1 | B@4 | M | R | C | S |
Up-Down | 79.8 | 36.3 | 27.7 | 59.6 | 120.1 | 21.4 |
SGAE | 81.0 | 39.0 | 28.4 | 58.9 | 129.1 | 22.2 |
本专利 | 81.5 | 39.7 | 28.9 | 60.1 | 130.2 | 24.1 |
其中,Up-Down是现有的基准模型,SGAE是基于先验知识的图像描述生成模型;B@N表示BLEU@N(N=1,4),M表示METOR,R表示ROUGE-L,C表示CIDEr-D,S表示SPICE,均为图像描述模型的评价指标,评价指标越高,说明生成的描述越准确。从表中可得,本专利在上述评价指标上均与其他模型有较高的提升,说明基于外部三元组和抽象关系的图像描述生成方法在提高图像描述生成上发明有效。
Claims (6)
1.一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于包括以下步骤:
步骤(1)使用开放域知识抽取工具,提取图像描述文本中的三元组,构建外部关系库,并对三元组进行特征编码;
步骤(2)根据三元组中关系rel的文本相似度,将文本相似度高于设定阈值的三元组聚类为一类,称之为抽象关系Rabs;
步骤(3)对图像进行目标检测,得到目标视觉特征集合V与目标类别集合W;根据文本相似度,在外部关系库中查询目标obj与目标类别相似的三元组,称之为相似关系Rsim;
步骤(4)利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;并利用多模态图卷积神经网络MGCN融合目标视觉特征与目标类别W的词向量,对目标obj、属性attr、关系rel进行特征编码;
步骤(5)图像描述生成模型用于融合场景图编码特征与关系编码特征,得到融合特征;所述的关系编码特征包括相似关系的编码特征和抽象关系的编码特征;融合特征输入到图像描述生成模型的双层LSTM解码器中进行训练,挑选最优训练模型;将图像输入训练好的图像描述生成模型,输出对应的图像描述。
2.根据权利要求1所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(1)所述,具体实现过程如下:
1-1使用MSCOCO与Visual Genome数据集中的图像文本描述,利用开放域知识抽取工具OpenIE,提取图像文本描述中的三元组R={subject,predicate,object},构建外部关系库;
1-2使用预训练语言模型BERT对图像文本描述进行编码,得到所有图像文本描述中每个单词的特征编码;设图像文本描述由K个单词构成,则该段图像文本描述的特征向量为{e0,e1,e2,…,ek,…,eK},其中ek表示第k个单词的特征编码,为768维特征向量;
1-3由于提取的三元组是在图像文本描述中出现过的单词,假设三个单词在图像文本描述中的位置为i,j,k,则三元组的编码特征d为三元组在描述对应位置的特征编码的平均值,如公式(1)所示;
3.根据权利要求2所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(2)所述,具体实现过程如下:
2-1计算文本相似度,使用余弦相似度作为计算函数,假设两个三元组的编码特征分别为di′,dj′,则两个三元组的相似度如公式(2)所示;
其中,i′、j′表示第i′、j′个三元组,取值范围为1到Nt,Nt表示三元组的个数;
2-2使用无监督文本聚类算法,将文本相似度大于设定阈值的三元组聚为一类,称之为抽象关系Rabs;
其中,d′k′表示三元组r′k′对应的编码特征。
4.根据权利要求3所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(3)所述,具体实现过程如下:
3-1使用在Visual Genome数据集上预先训练的Faster RCNN对图像进行目标检测,Faster RCNN能够获得目标类别W以及相应目标在图像中的区域以及特征;针对图像I,取Faster RCNN最终输出并得到的目标类别集合W={w1,w2,…,ws},ws∈Rd以及目标视觉特征集合V={v1,v2,…,vs},vs∈Rd,如公式(4)所示;
W,V=Faster RCNN(I)#(4)
3-2根据目标类别集合W,按照公式(2)计算文本相似度,在外部关系库中查询与目标类别相似的三元组,称之为相似关系Rsim;
其中,d″k″表示三元组d″k″对应的编码特征。
5.根据权利要求4所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(4)所述,具体实现过程如下:
4-1利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;对于目标,利用FasterRCNN进行目标检测;对于属性,利用预先训练的属性分类器进行属性预测;对于关系,利用MOTIFS场景图生成模型进行关系检测;最终分别得到目标obj、属性attr、关系rel的类别词向量eo,ea,er以及它们对应的视觉特征vo,va,vr;
4-2为了获得更好的节点特征,融合对应类别词向量与视觉特征,通过公式(6)得到新的融合节点特征uo,ua,ur,其中W1,W2是融合参数;
u=ReLU(W1e+W2v)-(W1e-W2v)2#(6)
其中,fr,fa,fo为参数相互独立的网络,该网络由全连接层与一层ReLU层构成;ox为第x个目标节点,rx,y为第x个目标与第y个目标的关系节点,oy为第y个目标的目标节点;ax,l为第x个目标节点的第l个属性节点;sbj(ox)为与第x个目标节点相连的主语节点集合,op为其中的主语目标;obj(ox)为第x个目标节点的宾语节点集合,oq为其中的宾语目标;Nax,Nrx分别为第x个目标的属性节点数量与关系节点数量;u是融合节点特征。
6.根据权利要求5所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(5)所述,具体实现过程如下:
5-1将归纳偏置融入到图像描述生成模型中,模型融合场景图编码特征与关系的编码特征,得到最终的融合特征V^,如公式(10)所示;
V^=Dα=D·softmax(DTV`)#(10)
5-2在MSCOCO数据集上进行端到端的训练,epoch设置为20,学习率为0.00001,batchsize为16,使用Adam优化器渐进式的调整学习率;在推理过程中使用波束搜索,波束大小为5;利用标准的交叉熵损失来训练模型,公式(11)所示;
其中,T为输入序列的长度,yt的为输入第t个特征后生成的单词,y1:t为真实描述的第1至t个单词,θ为模型参数;
5-3将测试图像输入到模型中,获得图像描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111638065.5A CN114332519A (zh) | 2021-12-29 | 2021-12-29 | 一种基于外部三元组和抽象关系的图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111638065.5A CN114332519A (zh) | 2021-12-29 | 2021-12-29 | 一种基于外部三元组和抽象关系的图像描述生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114332519A true CN114332519A (zh) | 2022-04-12 |
Family
ID=81017775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111638065.5A Pending CN114332519A (zh) | 2021-12-29 | 2021-12-29 | 一种基于外部三元组和抽象关系的图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114332519A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708472A (zh) * | 2022-06-06 | 2022-07-05 | 浙江大学 | 面向ai实训的多模态数据集标注方法、装置及电子设备 |
CN114912512A (zh) * | 2022-04-14 | 2022-08-16 | 南京大学 | 一种对图像描述的结果进行自动评估的方法 |
CN116524513A (zh) * | 2023-07-03 | 2023-08-01 | 中国科学技术大学 | 开放词表场景图生成方法、***、设备及存储介质 |
CN117648929A (zh) * | 2023-10-25 | 2024-03-05 | 西安理工大学 | 基于类人化广义感知机制的目标误识别纠正方法 |
-
2021
- 2021-12-29 CN CN202111638065.5A patent/CN114332519A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114912512A (zh) * | 2022-04-14 | 2022-08-16 | 南京大学 | 一种对图像描述的结果进行自动评估的方法 |
CN114708472A (zh) * | 2022-06-06 | 2022-07-05 | 浙江大学 | 面向ai实训的多模态数据集标注方法、装置及电子设备 |
CN114708472B (zh) * | 2022-06-06 | 2022-09-09 | 浙江大学 | 面向ai实训的多模态数据集标注方法、装置及电子设备 |
CN116524513A (zh) * | 2023-07-03 | 2023-08-01 | 中国科学技术大学 | 开放词表场景图生成方法、***、设备及存储介质 |
CN116524513B (zh) * | 2023-07-03 | 2023-10-20 | 中国科学技术大学 | 开放词表场景图生成方法、***、设备及存储介质 |
CN117648929A (zh) * | 2023-10-25 | 2024-03-05 | 西安理工大学 | 基于类人化广义感知机制的目标误识别纠正方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN112784092B (zh) | 一种混合融合模型的跨模态图像文本检索方法 | |
CN115033670A (zh) | 多粒度特征融合的跨模态图文检索方法 | |
CN114332519A (zh) | 一种基于外部三元组和抽象关系的图像描述生成方法 | |
CN112417306B (zh) | 基于知识图谱的推荐算法性能优化的方法 | |
CN109359302B (zh) | 一种领域化词向量的优化方法及基于其的融合排序方法 | |
CN113807422B (zh) | 融合多特征信息的加权图卷积神经网络评分预测模型 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN110287323A (zh) | 一种面向目标的情感分类方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN114357120A (zh) | 基于faq的无监督式检索方法、***及介质 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN114706559A (zh) | 一种基于需求识别的软件规模度量方法 | |
CN116304066A (zh) | 一种基于提示学习的异质信息网络节点分类方法 | |
CN114429132A (zh) | 一种基于混合格自注意力网络的命名实体识别方法和装置 | |
CN113535897A (zh) | 一种基于句法关系和意见词分布的细粒度情感分析方法 | |
CN111368197A (zh) | 一种基于深度学习的评论推荐***及方法 | |
CN116680363A (zh) | 一种基于多模态评论数据的情感分析方法 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和*** | |
CN114036298B (zh) | 一种基于图卷积神经网络与词向量的节点分类方法 | |
CN115422939A (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN117235216A (zh) | 一种基于异构知识融合的知识推理方法 | |
CN116361438A (zh) | 基于文本-知识扩展图协同推理网络的问答方法及*** | |
CN114943216A (zh) | 基于图注意力网络的案件微博属性级观点挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |