CN115099409A - 一种文本-图像增强的多模态知识图谱嵌入方法 - Google Patents

一种文本-图像增强的多模态知识图谱嵌入方法 Download PDF

Info

Publication number
CN115099409A
CN115099409A CN202210708381.3A CN202210708381A CN115099409A CN 115099409 A CN115099409 A CN 115099409A CN 202210708381 A CN202210708381 A CN 202210708381A CN 115099409 A CN115099409 A CN 115099409A
Authority
CN
China
Prior art keywords
entity
image
text
representation
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210708381.3A
Other languages
English (en)
Inventor
王立松
肖桂阳
刘绍翰
江国华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210708381.3A priority Critical patent/CN115099409A/zh
Publication of CN115099409A publication Critical patent/CN115099409A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种文本‑图像增强的多模态知识图谱嵌入方法,包括:文本编码器对实体的描述性文本进行编码,获得实体的文本表示形式;图像编码器提取实体图像的特征,并通过投影矩阵把图像特征从图像空间投影到实体空间,进而得到实体的图像表示形式;实体关系表示模型使用经典的RL方法基于平移的模型对知识图谱事实三元组进行建模,把关系看作是头实体到尾实体的平移操作,融合实体的文本表示形式和图像表示形式得到实体的结构表示形式并实现关系空间嵌入;构建损失函数,联合训练实体关系表示模型,优化实体、关系、文本和图像的表示形式及关系空间嵌入。本发明同时考虑了实体文本描述和实体图像,可实现结构信息和文本信息、图像信息的融合。

Description

一种文本-图像增强的多模态知识图谱嵌入方法
技术领域
本发明属于知识图谱嵌入技术领域,具体涉及一种文本-图像增强的多模态知识图谱嵌入方法。
背景技术
基于平移的方法在知识表示学***移不变现象。受到该平移不变现象的启发,Border等人提出了TransE模型,将每个事实三元组(h,r,t)中的实体和关系编码到同一低维连续向量空间中,把关系r视为低维空间中从h到t的平移操作即h+r=t,其中h和t是实体嵌入,r是关系嵌入。TransE具有良好的性能与可扩展性,但是TransE不能对复杂的关系进行建模。
为了解决TransE模型在处理一对多、多对一、多对多复杂关系时的局限性,TransH模型提出将关系建模为超平面并将头、尾实体投影到关系特定的超平面,让实体在不同的关系下拥有不同的表示。TransR使用关系特定的投影矩阵将实体投影到对应的关系空间中,然后再建立从头实体到尾实体的平移关系。TransM模型允许实体在涉及不同关系时具有不同的嵌入,并为每个事实三元组分配特定的关系权重。
然而,上述方法只关注三元组中的结构化信息,而没有考虑到丰富的附加信息可以帮助KG的表示学习。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种文本-图像增强的多模态知识图谱嵌入方法,基于TransE,同时考虑了实体文本描述和实体图像,可实现结构信息和文本信息、图像信息的融合。
为实现上述技术目的,本发明采取的技术方案为:
一种文本-图像增强的多模态知识图谱嵌入方法,包括:
步骤1.文本编码器采用Text-CNN对实体的描述性文本进行编码,获得实体的文本表示形式;
步骤2.图像编器用卷积神经网络提取实体图像的特征,并通过投影矩阵把图像特征从图像空间投影到实体空间,进而得到实体的图像表示形式;
步骤3.实体关系表示模型使用经典的RL方法基于平移的模型对知识图谱事实三元组进行建模,把关系看作是头实体到尾实体的平移操作,融合实体的文本表示形式和图像表示形式得到实体的结构表示形式并实现关系空间嵌入;
步骤4.构建损失函数,联合训练实体关系表示模型,优化实体、关系、文本和图像的表示形式及关系空间嵌入。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤1所述文本编码器以随机初始化的词向量或word2vec预训练得到的单词嵌入作为输入,在经过卷积和最大池化后,最终输出实体的文本表示形式向量。
上述的步骤1所述文本编码器包括以下结构:
1)输入层:从WordNet语料库的注解文件中提取出实体的文本描述,然后去除实体文本描述中所有的停用词,最后使用预训练的word2vec得到所有词向量{x1,x2,...,xn};
2)卷积层:将文本描述经过预处理后得到的词向量{x1,x2,...,xn}作为卷积层的输入,首先通过一个h词的滑动窗口实现h个词向量的连接,滑动处理的过程如下:
Figure BDA0003706774220000021
其中,
Figure BDA0003706774220000022
是连接运算符,
Figure BDA0003706774220000023
是文本中第i个单词的k维词向量;
将卷积操作应用于句子中每个滑动窗口以生成新特征:
ci=f(w.xi:i+h-1+b)
其中ci表示从窗口xi:i+h-1中生成的特征,
Figure BDA0003706774220000024
表示卷积核,
Figure BDA0003706774220000025
表示偏置项,f是非线性函数;
最后,所有滑动窗口{x1:h,x2:h+1,...,xn-h+1:n}生成的特征组成特征图:
c=[c1,c2,...,cn-h+1]
其中,
Figure BDA0003706774220000026
c中的这些特征具有相同的权重;
上面描述了使用一个卷积核提取一个特征向量的过程,使用多个卷积过滤器来获取多个特征向量(c1,c2,...,ck);
3)池化层:在特征图上使用最大池化操作:
mi=max{ci}
其中,mi是特征图ci中最显著的特征值,即对应于第i个卷积核的特征;
最后得到对应于k个卷积核的特征向量m=[m1,m2,...,mk]作为实体的文本表示形式。
上述的步骤2所述图像编码器首先使用经典的卷积神经网络AlexNet作为实体图像的特征提取器,为实体图像构造图像特征,再通过投影矩阵得到实体空间的图像特征,最后计算所有图像特征的平均值并将其作为实体的图像表示形式。
上述的步骤2具体为:
1)图像编码器输入每个实体的多个图像{img1,img2,...,imgn};
2)使用深度学习框架PyTorch和预训练的AlexNet来提取实体图像的特征;
3)使用可训练的共享投影矩阵将图像的特征从图像空间投影到实体空间,得到实体空间的图像特征;
第i个图像实体空间的图像特征为:
pi=M·f(imgi)
其中,f表示AlexNet,
Figure BDA0003706774220000031
是可训练的投影矩阵,di表示图像空间中图像特征的维度,ds表示实体的维度;
4)对实体相应的图像在实体空间的特征表示进行算数平均来获取实体的图像表示形式。
上述的步骤3基于学习到的文本表示形式和图像表示形式,实体关系表示模型将文本信息和图像视觉信息融入到知识图谱的学习中;
实体关系表示模型基于传统的基于平移的方法TransE实现,其评分函数定义如下:
f(h,r,t)=Es+μEd+ηEi
其中,μ和η是超参数,Es代表结构表示形式的评分函数,其与TransE的评分函数||h+r-t||相同,头尾实体都是结构表示形式,即
Es=||hs+r-ts||
Ed代表文本表示形式的评分函数,为使Ed的学习过程与Es兼容,Ed定义如下:
Ed=d(hs,r,td)+d(hd,r,ts)+d(hd,r,td)
d(hs,r,td)=||hs+r-td||
d(hd,r,ts)=||hd+r-ts||
d(hd,r,td)=||hd+r-td||
其中,d(hs,r,td)和d(hd,r,ts)表示头实体和尾实体中一个使用文本表示形式,另一个使用结构表示像是,d(hd,r,td)中h和t都使用文本表示形式。
同理,将图像表示形式的评分函数Ei定义为:
Ei=d(hs,r,ti)+d(hi,r,ts)+d(hi,r,ti)
Es、Ed、Ei共享关系嵌入,并把基于结构、文本和图像表示形式的实体表示投影到同一个连续的低维向量空间中,通过联合学习使结构、文本和图像表示形式之间相互影响。
上述的步骤3对嵌入h、r、t的L2范数施加约束来对向量做归一化处理,即||hs||2≤1,||ts|||2≤1,||hd|||2≤1,||td|||2≤1,||hi||2≤1,||ti||2≤1。
上述的步骤4基于步骤3中的评分函数,将训练目标定义为最小化如下基于间隔的损失函数:
Figure BDA0003706774220000041
其中,γ>0是间隔超参数,[x]+表示保持x的正数部分,S是正确三元组的集合,S′是S的负采样集即错误三元组的集合:
S′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}
S′的构造方法是通过基于概率的实体替换破坏正确的三元组(h,r,t)来构造错误的三元组(h′,r,t′);
所述损失函数的优化过程采用随机梯度下降实现。
本发明具有以下有益效果:
本发明实现事实三元组和文本描述、实体图像融合的新的知识图谱嵌入方法,能够同时利用文本描述和实体图像中丰富的外部信息学习到更加准确的知识图谱嵌入即知识表示。
与传统的使用KG中观察到的事实来执行嵌入任务的研究方法如基于平移的方法不同,本发明融合附加信息的方法可以通过合并附加信息来改进知识表示任务,例如实体类型、关联路径、实体文本描述、实体图像以及时序信息等等。
实体类型即实体所属的语义类别,语义平滑嵌入fSSE)模型要求相同类型的实体在嵌入空间中彼此邻近。关联路径即实体之间的多跳关系,PTransE将TransE扩展到对关系路径建模。在大多数KGs中实体都有简明的描述,DKRL将基于平移的嵌入方法扩展为文本增强模型,以便更好地融合实体描述。Jiang等人观察到KGs事实通常对时间是敏感的,基于此提出时间感知嵌入模型,在时间敏感的关系对上加入时间顺序约束。但是传统方法只融合了一种附加信息,而本发明MKGE充分利用文本描述和实体图像互补的知识来提高知识表示的准确性。
附图说明
图1为多模态知识图谱嵌入结构图;
图2为文本编码器结构图;
图3为图像编码器结构图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
如图1-3所示,一种文本-图像增强的多模态知识图谱嵌入方法,包括:
步骤1.文本编码器采用Text-CNN对实体的描述性文本进行编码,获得实体的文本表示形式;
文本编码器对实体描述建模生成实体的文本表示;
文本编码器,它由卷积神经网络实现,用于对实体文本描述建模获得描述的语义特征,并把它作为实体基于文本的表示;
借鉴Kim提出的用于文本分析的CNN即Text-CNN来对实体的描述性文本进行编码,从而获得实体的文本表示形式。
文本编码器以随机初始化的词向量或word2vec预训练得到的单词嵌入作为输入,在经过卷积和最大池化后,最终输出实体的文本表示形式向量。文本编码器的整体结构如图2所示。
1)输入层
首先从WordNet语料库的注解文件中提取出实体的文本描述,然后去除实体文本描述中所有的停用词,最后使用预训练的word2vec得到所有词向量{x1,x2,...,xn};
2)卷积层
将文本描述经过预处理后得到的词向量{x1,x2,...,xn}作为卷积层的输入,首先通过一个h词的滑动窗口实现h个词向量的连接,滑动处理的过程如下:
Figure BDA0003706774220000051
其中,
Figure BDA0003706774220000061
是连接运算符,
Figure BDA0003706774220000062
是文本中第i个单词的k维词向量;
将卷积操作应用于句子中每个滑动窗口以生成新特征:
ci=f(w.xi:i+h-1+b)
其中ci表示从窗口xi:i+h-1中生成的特征,
Figure BDA0003706774220000063
表示卷积核,
Figure BDA0003706774220000064
表示偏置项,f是非线性函数如tanh函数;
最后,所有滑动窗口{x1:h,x2:h+1,...,xn-h+1:n}生成的特征组成特征图:
c=[c1,c2,...,cn-h+1]
其中,
Figure BDA0003706774220000065
c中的这些特征具有相同的权重这大大减少了参数的数量。上面描述了使用一个卷积核提取一个特征向量的过程,使用多个卷积过滤器来获取多个特征向量(c1,c2,...,ck);
3)池化层
CNN中,卷积层后的池化操作可以有效地减少参数数量,加快计算速度并防止过拟合。为了捕捉每个特征向量中最重要的特征,在特征图上使用最大池化操作:
mi=max{ci}
其中,mi是特征图ci中最显著的特征值,即对应于第i个卷积核的特征;
最后得到对应于k个卷积核的特征向量m=[m1,m2,...,mk]作为实体的文本表示形式,其维度与句子长度无关。
步骤2.图像编器用卷积神经网络提取实体图像的特征,并通过投影矩阵把图像特征从图像空间投影到实体空间,进而得到实体的图像表示形式;
图像编码器对实体图像建模生成实体的图像表示;利用图像编码器对实体图像进行建模,具体地,它使用AlexNet作为特征提取器,并通过投影矩阵把图像特征从图像空间投影到实体空间,得到实体的图像表示形式;
图3展示了图像编码器的结构框架。图像编码器首先使用经典的卷积神经网络AlexNet作为实体图像的特征提取器,为实体图像构造图像特征,再通过投影矩阵得到实体空间的图像特征,最后计算所有图像特征的平均值并将其作为实体的图像表示形式,详细介绍如下。
图像编码器的输入是每个实体的多个图像{img1,img2,...,imgn}。
首先,使用深度学习框架PyTorch和预训练的AlexNet来提取实体图像的特征。
AlexNet是由五个卷积层、两个全连接层和一个softmax层组成的深度CNN。
借鉴Shutova的做法,将softmax之前的4096维嵌入即第二个全连接层(fc7)的输出作为图像特征表示。
在通过特征提取器获得每个图像的特征表示之后,使用可训练的共享投影矩阵将图像特征表示从图像空间投影到实体空间,得到实体空间的图像特征。第i个图像实体空间的图像特征为:
pi=M·f(imgi)
其中,f表示特征提取函数即上述的卷积网络,
Figure BDA0003706774220000071
是可训练的投影矩阵,di表示图像空间中图像特征的维度,ds表示实体的维度。注意,在训练期间不学习特征提取函数,只学习编码器的参数M。
最后,为了构造实体的图像表示形式,为每个实体挑选出最多10个图像。由于从ImageNet中提取的图像质量非常高,存在的噪声较少,通过对实体相应的图像在实体空间的特征表示进行算数平均来获取实体的图像表示形式。
步骤3.实体关系表示模型使用经典的RL方法基于平移的模型(如TransE)对知识图谱事实三元组进行建模,把关系看作是头实体到尾实体的平移操作,融合实体的文本表示形式和图像表示形式得到实体的结构表示形式并实现关系空间嵌入;
基于学习到的文本表示形式和图像表示形式,实体关系表示模型将文本信息和图像视觉信息融入到知识图谱的学习中。
实体关系表示模型基于传统的基于平移的方法,以TransE为例,评分函数定义如下:
f(h,r,t)=Es+μEd+ηEi
其中,μ和η是超参数,Es代表结构表示形式的评分函数,其与TransE的评分函数||h+r-t||相同,头尾实体都是结构表示形式,即
Es=||hs+r-ts||
Ed代表文本表示形式的评分函数,为使Ed的学习过程与Es兼容,Ed定义如下:
Ed=d(hs,r,td)+d(hd,r,ts)+d(hd,r,td)
d(hs,r,td)=||hs+r-td||
d(hd,r,ts)=||hd+r-ts||
d(hd,r,td)=||hd+r-td||
其中,d(hs,r,td)和d(hd,r,ts)表示头实体和尾实体中一个使用文本表示形式,另一个使用结构表示像是,d(hd,r,td)中h和t都使用文本表示形式。
同理,将图像表示形式的评分函数Ei定义为:
Ei=d(hs,r,ti)+d(hi,r,ts)+d(hi,r,ti)
Es、Ed、Ei共享关系嵌入,并把基于结构、文本和图像表示形式的实体表示投影到同一个连续的低维向量空间中,通过联合学习使结构、文本和图像表示形式之间相互影响。
在实验中,为了方便训练并避免过拟合,对嵌入h、r、t的L2范数施加约束来对向量做归一化处理,即||hs||2≤1,||ts||2≤1,||hd||2≤1,||td||2≤1,||hi||2≤1,||ti||2≤1。
另外,该实体关系表示模型很容易扩展到其他基于平移的方法,例如TransH和TransR。TransH把实体嵌入h和t投影到wr的超平面,所以将模型评分函数中的hs变换成
Figure BDA0003706774220000081
ts变换成
Figure BDA0003706774220000082
同样,TransR通过投影矩阵Mr将实体嵌入h和t投影到关系空间中,将评分函数中的hs和ts变为hsMr和tsMr即可。
四、表示的联合训练
本文模型可以表示为参数集θ=(E,R,X,W(1),W(2),M),其中X、E、R分别代表单词、实体和关系的嵌入,W(1)、W(2)代表文本CNN中不同层的卷积核,M代表图像编码器中的投影矩阵。X随机初始化或由word2vec预训练得到,E和R随机初始化或通过现有的RL模型预训练得到,W(1)、W(2)和M随机初始化。
为了优化参数,共同学习实体、关系、文本和图像的表示形式,基于上述评分函数,将训练目标定义为最小化如下基于间隔的损失函数:
Figure BDA0003706774220000083
其中,γ>0是间隔超参数,[x]+表示保持x的正数部分,S是正确三元组的集合,S′是S的负采样集即错误三元组的集合:
S′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}
S′的构造方法是通过基于概率的实体替换破坏正确的三元组(h,r,t)来构造错误的三元组(h′,r,t′),简单地说就是根据“unif”或“bern”策略使用另一个实体随机替换正确三元组中的头实体或尾实体。特别地,如果替换后的三元组属于S,则不能把它加入到S′中。由于h和t有3种类型的表示形式,所以损失函数中的实体也有三种表示即结构、文本和图像表示形式。损失函数的优化过程采用随机梯度下降(SGD)。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (8)

1.一种文本-图像增强的多模态知识图谱嵌入方法,其特征在于,包括:
步骤1.文本编码器采用Text-CNN对实体的描述性文本进行编码,获得实体的文本表示形式;
步骤2.图像编器用卷积神经网络提取实体图像的特征,并通过投影矩阵把图像特征从图像空间投影到实体空间,进而得到实体的图像表示形式;
步骤3.实体关系表示模型使用经典的RL方法基于平移的模型对知识图谱事实三元组进行建模,把关系看作是头实体到尾实体的平移操作,融合实体的文本表示形式和图像表示形式得到实体的结构表示形式并实现关系空间嵌入;
步骤4.构建损失函数,联合训练实体关系表示模型,优化实体、关系、文本和图像的表示形式及关系空间嵌入。
2.根据权利要求1所述的一种文本-图像增强的多模态知识图谱嵌入方法,其特征在于,步骤1所述文本编码器以随机初始化的词向量或word2vec预训练得到的单词嵌入作为输入,在经过卷积和最大池化后,最终输出实体的文本表示形式向量。
3.根据权利要求1所述的一种文本-图像增强的多模态知识图谱嵌入方法,其特征在于,步骤1所述文本编码器包括以下结构:
1)输入层:从WordNet语料库的注解文件中提取出实体的文本描述,然后去除实体文本描述中所有的停用词,最后使用预训练的word2vec得到所有词向量{x1,x2,...,xn};
2)卷积层:将文本描述经过预处理后得到的词向量{x1,x2,...,xn}作为卷积层的输入,首先通过一个h词的滑动窗口实现h个词向量的连接,滑动处理的过程如下:
Figure FDA0003706774210000011
其中,
Figure FDA0003706774210000012
是连接运算符,
Figure FDA0003706774210000013
是文本中第i个单词的k维词向量;
将卷积操作应用于句子中每个滑动窗口以生成新特征:
ci=f(w.xi:i+h-1+b)
其中ci表示从窗口xi:i+h-1中生成的特征,
Figure FDA0003706774210000014
表示卷积核,
Figure FDA0003706774210000015
表示偏置项,f是非线性函数;
最后,所有滑动窗口{x1:h,x2:h+1,...,xn-h+1:n]生成的特征组成特征图:
c=[c1,c2,...,cn-h+1]
其中,
Figure FDA0003706774210000021
c中的这些特征具有相同的权重;
上面描述了使用一个卷积核提取一个特征向量的过程,使用多个卷积过滤器来获取多个特征向量(c1,c2,...,ck);
3)池化层:在特征图上使用最大池化操作:
mi=max{ci}
其中,mi是特征图ci中最显著的特征值,即对应于第i个卷积核的特征;
最后得到对应于k个卷积核的特征向量m=[m1,m2,...,mk]作为实体的文本表示形式。
4.根据权利要求1所述的一种文本-图像增强的多模态知识图谱嵌入方法,其特征在于,步骤2所述图像编码器首先使用经典的卷积神经网络AlexNet作为实体图像的特征提取器,为实体图像构造图像特征,再通过投影矩阵得到实体空间的图像特征,最后计算所有图像特征的平均值并将其作为实体的图像表示形式。
5.根据权利要求1所述的一种文本-图像增强的多模态知识图谱嵌入方法,其特征在于,所述步骤2具体为:
1)图像编码器输入每个实体的多个图像{img1,img2,...,imgn};
2)使用深度学习框架PyTorch和预训练的AlexNet来提取实体图像的特征;
3)使用可训练的共享投影矩阵将图像的特征从图像空间投影到实体空间,得到实体空间的图像特征;
第i个图像实体空间的图像特征为:
pi=M·f(imgi)
其中,f表示A1exNet,
Figure FDA0003706774210000022
是可训练的投影矩阵,di表示图像空间中图像特征的维度,ds表示实体的维度;
4)对实体相应的图像在实体空间的特征表示进行算数平均来获取实体的图像表示形式。
6.根据权利要求1所述的一种文本-图像增强的多模态知识图谱嵌入方法,其特征在于,所述步骤3基于学习到的文本表示形式和图像表示形式,实体关系表示模型将文本信息和图像视觉信息融入到知识图谱的学习中;
实体关系表示模型基于传统的基于平移的方法TransE实现,其评分函数定义如下:
f(h,r,t)=Es+μEd+ηEi
其中,μ和η是超参数,Es代表结构表示形式的评分函数,其与TransE的评分函数||h+r-t||相同,头尾实体都是结构表示形式,即
Es=||hs+r-ts||
Ed代表文本表示形式的评分函数,为使Ed的学习过程与Es兼容,Ed定义如下:
Ed=d(hs,r,td)+d(hd,r,ts)+d(hd,r,td)
d(hs,r,td)=||hs+r-td||
d(hd,r,ts)=||hd+r-ts||
d(hd,r,td)=||hd+r-td||
其中,d(hs,r,td)和d(hd,r,ts)表示头实体和尾实体中一个使用文本表示形式,另一个使用结构表示像是,d(hd,r,td)中h和t都使用文本表示形式。
同理,将图像表示形式的评分函数Ei定义为:
Ei=d(hs,r,ti)+d(hi,r,ts)+d(hi,r,ti)
Es、Ed、Ei共享关系嵌入,并把基于结构、文本和图像表示形式的实体表示投影到同一个连续的低维向量空间中,通过联合学习使结构、文本和图像表示形式之间相互影响。
7.根据权利要求6所述的一种文本-图像增强的多模态知识图谱嵌入方法,其特征在于,所述步骤3对嵌入h、r、t的L2范数施加约束来对向量做归一化处理,即||hs||2≤1,||ts||2≤1,||hd|||2≤1,||td||2≤1,||hi|||2≤1,||ti|||2≤1。
8.根据权利要求1所述的一种文本-图像增强的多模态知识图谱嵌入方法,其特征在于,所述步骤4基于步骤3中的评分函数,将训练目标定义为最小化如下基于间隔的损失函数:
Figure FDA0003706774210000031
其中,γ>0是间隔超参数,[x]+表示保持x的正数部分,S是正确三元组的集合,S′是S的负采样集即错误三元组的集合:
S′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}
S′的构造方法是通过基于概率的实体替换破坏正确的三元组(h,r,t)来构造错误的三元组(h′,r,t′);
所述损失函数的优化过程采用随机梯度下降实现。
CN202210708381.3A 2022-06-22 2022-06-22 一种文本-图像增强的多模态知识图谱嵌入方法 Pending CN115099409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210708381.3A CN115099409A (zh) 2022-06-22 2022-06-22 一种文本-图像增强的多模态知识图谱嵌入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210708381.3A CN115099409A (zh) 2022-06-22 2022-06-22 一种文本-图像增强的多模态知识图谱嵌入方法

Publications (1)

Publication Number Publication Date
CN115099409A true CN115099409A (zh) 2022-09-23

Family

ID=83292557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210708381.3A Pending CN115099409A (zh) 2022-06-22 2022-06-22 一种文本-图像增强的多模态知识图谱嵌入方法

Country Status (1)

Country Link
CN (1) CN115099409A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861715A (zh) * 2023-02-15 2023-03-28 创意信息技术股份有限公司 基于知识表示增强的图像目标关系识别算法
CN116090360A (zh) * 2023-04-12 2023-05-09 安徽思高智能科技有限公司 一种基于多模态实体对齐的rpa流程推荐方法
CN116090560A (zh) * 2023-04-06 2023-05-09 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及***
CN117478435A (zh) * 2023-12-28 2024-01-30 中汽智联技术有限公司 一种整车信息安全攻击路径生成方法和***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861715A (zh) * 2023-02-15 2023-03-28 创意信息技术股份有限公司 基于知识表示增强的图像目标关系识别算法
CN115861715B (zh) * 2023-02-15 2023-05-09 创意信息技术股份有限公司 基于知识表示增强的图像目标关系识别算法
CN116090560A (zh) * 2023-04-06 2023-05-09 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及***
CN116090560B (zh) * 2023-04-06 2023-08-01 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及***
CN116090360A (zh) * 2023-04-12 2023-05-09 安徽思高智能科技有限公司 一种基于多模态实体对齐的rpa流程推荐方法
CN117478435A (zh) * 2023-12-28 2024-01-30 中汽智联技术有限公司 一种整车信息安全攻击路径生成方法和***
CN117478435B (zh) * 2023-12-28 2024-04-09 中汽智联技术有限公司 一种整车信息安全攻击路径生成方法和***

Similar Documents

Publication Publication Date Title
CN112131404B (zh) 一种四险一金领域知识图谱中实体对齐方法
CN115099409A (zh) 一种文本-图像增强的多模态知识图谱嵌入方法
CN107368475B (zh) 一种基于生成对抗神经网络的机器翻译方法和***
CN110334219B (zh) 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习***及方法
CN110046252B (zh) 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN106650789B (zh) 一种基于深度lstm网络的图像描述生成方法
CN110046656B (zh) 基于深度学习的多模态场景识别方法
CN112560432B (zh) 基于图注意力网络的文本情感分析方法
Dong et al. Fast parameter adaptation for few-shot image captioning and visual question answering
CN108595601A (zh) 一种融入Attention机制的长文本情感分析方法
CN112561064A (zh) 基于owkbc模型的知识库补全方法
CN112464816A (zh) 基于二次迁移学习的地方手语识别方法、装置
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN114417872A (zh) 一种合同文本命名实体识别方法及***
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN111538841A (zh) 基于知识互蒸馏的评论情感分析方法、装置及***
CN117009547A (zh) 基于图神经网络与对抗学习的多模态知识图谱补全方法和装置
CN115114409A (zh) 一种基于软参数共享的民航不安全事件联合抽取方法
CN117313709B (zh) 一种基于统计信息和预训练语言模型的生成文本检测方法
Yang et al. CLIP-KD: An Empirical Study of Distilling CLIP Models
CN109033304B (zh) 基于在线深层主题模型的多模态检索方法
Wang et al. Emotion analysis of microblog based on emotion dictionary and Bi-GRU

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination