CN114036307A - 一种知识图谱实体对齐方法及装置 - Google Patents
一种知识图谱实体对齐方法及装置 Download PDFInfo
- Publication number
- CN114036307A CN114036307A CN202111095446.3A CN202111095446A CN114036307A CN 114036307 A CN114036307 A CN 114036307A CN 202111095446 A CN202111095446 A CN 202111095446A CN 114036307 A CN114036307 A CN 114036307A
- Authority
- CN
- China
- Prior art keywords
- entity
- concept
- representation
- knowledge
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
本发明提供一种知识图谱实体对齐方法及装置,包括:获取待融合的两个知识图谱的数据;分别对两个知识图谱的数据进行邻域聚合的实体表示学习,得到两个知识图谱中各实体的实体表示;根据实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示;根据实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示;通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个知识图谱实体对齐的结果。将概念与概念层次体系融合进实体对齐框架并使其发挥作用,提高实体对齐的准确率。
Description
技术领域
本发明涉及计算机人工智能自然语言处理领域,尤其涉及一种知识图谱实体对齐方法及装置。
背景技术
融合多语言、多知识源信息的知识图谱已经成为信息抽取、智能问答等众多人工智能应用的重要知识来源。为了更高效地融合信息存在重合和互补的知识图谱,实体对齐吸引了众多学者的兴趣而成为一项重要的研究问题。许多知识图谱为不同的应用提供了丰富的结构化知识,这些知识图谱由于具有不尽相同的构造目的,知识之间存在很大的异构性,同时也会包含一些互补知识。为了更好的支持上层的跨语言问答***、跨语言推荐***等任务,融合不同的知识图谱成为一个重要的研究方向。其中,实体对齐就是知识图谱融合的一项关键技术。
传统的知识图谱实体对齐方法,主要利用实体文本信息、实体属性信息、实体网络结构信息等,计算一系列相似度,然后通过人为设定的阈值,或是机器学习中的分类算法,来实现对给定实体对是否为等价实体的判定,因此在实体对齐任务的过程中会发生属于不同概念的实体对齐的错误情况,影响实体对齐的准确性。
发明内容
本发明提供一种知识图谱实体对齐方法及装置,用以解决现有技术中知识图谱中实体对齐准确性低缺陷,实现在概念的约束下,属于同一概念下的实体进行对齐,提高实体对齐的准确性。
本发明提供一种知识图谱实体对齐方法,包括:
获取待融合的两个知识图谱的数据;
分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习,得到两个所述知识图谱中各实体的实体表示;
根据所述实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示;
根据所述实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示;
通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个所述知识图谱实体对齐的结果。
根据本发明提供的一种知识图谱实体对齐方法,两个所述知识图谱的数据为头实体、尾实体以及两个实体之间关系的关系型三元组集合;所述分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习,得到两个所述知识图谱中各实体的实体表示,具体包括:
根据本发明提供的一种知识图谱实体对齐方法,根据所述实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示,具体包括:
通过知识表示平移模型TransE将实体和关系表示到同一个向量空间,为每一个关系型三元组(eh,r,et)∈T计算一个合理性得分:
其中,eh及et表示两个实体,r表示实体eh及实体et之间的关系;
应用基于间隔排序的损失函数作为知识表示平移模型TransE的优化目标OR:
根据本发明提供的一种知识图谱实体对齐方法,所述根据所述实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示,具体包括:
其中,≤是按位偏序关系,是超矩形c的中心,是超矩形c的范围偏移量;当Off(c)中每一元素都为0时,Boxc退化为一个d维向量,即d维空间中一个点,和实体表示相同,因此,利用空间中点与超矩形分别描述实体与概念间的关系,属于概念c的实体向量可以表示为:
{ei∈Boxc|ei∈E}
判别一个实体是否属于一个概念,通过空间中点与超矩形的距离来度量,给定一个实体e和概念c,将两者之间的距离定义为:
其中,cmax=Cen(c)+Off(c),cmin=Cen(c)-Off(c),由外部距离distoutside(e,c)和内部距离distinside(e,c)两个方面度量实体与概念的距离,外部距离表征实体到概念所在的超矩形边界的距离,内部距离表征实体到概念所在矩形中心的距离;而0<β<1为平衡两类距离比重的超参数;
定义实体和概念之间instanceOf关系的优化目标OI:
其中,实体e的向量表示取自邻域聚合的实体表示矩阵H(L),概念c的向量表示取自需要学习得到的概念矩阵γ3>0是预定义的间隔超参数,训练负样本集合L′instanceOf是由实体和概念间从属关系集合LinstanceOf进行随机均匀采样得到。
根据本发明提供的一种知识图谱实体对齐方法,所述根据所述实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示,具体包括:
定义上下位概念<ci,subclassOf,cj>的距离函数:
其中,cy.max=Cen(cy)+Off(cy),cy.min=Cen(cy)-pff(cy),y∈{i,j},如果概念ci完全被概念cj的超矩形包含,则它们的之间的概念距离fbox(ci,cj)=0;
定义概念和概念间的subclassOf关系的优化目标OS:
根据本发明提供的一种知识图谱实体对齐方法,所述通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个所述知识图谱实体对齐的结果,具体包括:
定义两个实体间的距离函数为:
其中,[.]+=max{0,.}表示在输入向量和0之间取最大值,γ1>0是间隔超参数,ei和ej的向量表示取自领域聚合的实体表示矩阵H(L),训练负样本S′是由两个预融合的知识图谱间已知的预先对齐的等价实体对集合S进行最近邻居采样的方式生成的。
根据本发明提供的一种知识图谱实体对齐方法,所述通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个所述知识图谱实体对齐的结果,具体包括:
根据实体对齐优化目标、实体与关系优化目标、实体与概念关系优化目标以及概念与概念关系优化目标,得到两个预融合知识图谱实体对齐的优化目标为:
O=α1OE+α2OR+α3OI+α4OS
其中,OE,OR,OI,OS分别对应实体对齐、关系表示、instanceOf关系和subcloassOf关系的优化目标,α1,α2,α3,α4>0为平衡各部分目标的权重参数。
本发明还提供一种知识图谱实体对齐装置,包括:
知识图谱获取单元,用于获取待融合的两个知识图谱的数据;
实体表示获取单元,用于分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习,得到两个所述知识图谱中各实体的实体表示;
实体关系表示获取单元,用于根据所述实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示;
概念与概念层次体系表示获取单元,用于根据所述实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示;
实体对齐结果获取单元,用于通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个所述知识图谱实体对齐的结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述知识图谱实体对齐方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述知识图谱实体对齐方法的步骤。
本发明提供的知识图谱实体对齐方法及装置,将概念与概念层次体系融合进实体对齐框架中并在实体对齐过程中起到约束作用,从而使得从属于同一概念内的实体进行对齐,提高实体对齐的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的知识图谱实体对齐方法流程图;
图2是本发明提供的知识图谱实体对齐过程的结构示意图;
图3是本发明提供的知识图谱实体对齐装置结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
尽管随着技术的不断发展,知识图谱实体对齐技术已经取得了较大的进步,但是在目前的方法中忽视了知识图谱中一个重要的结构信息:概念与概念层次体系。概念是对知识图谱中一类具有某些相似特征事物的抽象描述,概念与概念、实体与概念间的上下位关系构成了概念的层次体系,DBpedia、YAGO等知识图谱中都有概念与概念层次体系。不同于等价实体链接,概念与概念层次体系可以从另一层面为实体对齐提供帮助。
本发明实施例中对于需要对齐的两个知识图谱,形式化地表示为G1=(E1,R1,T1)和G2=(E2,R2,T2),其中Ei表示实体集合,Ri表示关系集合,Ti表示由实体和关系组成的事实三元组(即,<头实体,关系,尾实体>)集合,i∈{1,2}分别为两个知识图谱的序号。给定Ei的一个实体e,其邻居实体的集合形式化地表示为Ne={e′|(e,r,e′)∈Ti}∪{e′|(e′,r,e)∈Ti}。两个知识图谱间的等价实体对集合形式化为其中表示e1和e2在现实中具有相同的语义,为同一个实体,即共同组成等价实体对。形式化地表示实体所属的概念集合则概念层次体系可以形式化地表示为L=LinstanceOf∪LsubclassOf,其中实体和概念间从属关系集合为概念间上下位关系形式化表示为其中instanceOf表示实体e为概念c的一个实体,subclassOf表示概念c1为概念c2的一个子概念。将两个知识图谱G1和G2合并为一个大的知识图谱G进行处理,即可对应地形式化其实体集合、关系集合、事实三元组集合为E=E1∪E2、R=R1∪R2、T=T1∪T2。
如图1所示,本发明实施例提供一种知识图谱实体对齐方法,包括:
步骤110:获取待融合的两个知识图谱的数据;
具体地,两个所述待融合的知识图谱的数据为头实体、尾实体以及两个实体之间关系的<头实体,关系,尾实体>形式的关系型三元组集合。
步骤120:分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习,得到两个所述知识图谱中各实体的实体表示;
具体地,领域聚合的实体表示学习,依据知识图谱的图结构对实体进行编码,获得被嵌入到同一空间的实体向量表示。
步骤130:根据所述实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示;
具体地,增强实体语义的关系表示学习,对实体间的关系进行建模,丰富实体所编码的语义信息,提升实体的区分度。
步骤140:根据所述实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示;
具体地,概念与概念层次体系表示学习,对概念与概念层次体系进行建模,使之自然地与实体建立联系,通过约束实体表示来帮助实体对齐任务。
步骤150:通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个所述知识图谱实体对齐的结果。
本发明实施例中,对应步骤120的过程,具体包括:
为了更好的聚合实体的特征,在图结构中传递实体间的等价信息,应用多层的注意力图神经网络(Graph Attention Network,GAT)对进行编码,实体ei在第l+1层网络的向量表示为其计算方式为:
其中,是第l层网络的权重,实体初始向量来自实体表示矩阵d是向量表示的维数,σ(.)是非线性激活函数,具体地选用ReLU(.)=max(0,.)作为非线性激活函数,是第l层网络中实体ei和ej间的注意力权重;
标准的注意力图神经网络中使用同一线性变换来计算两个实体间的注意力系数,而由同一条关系边相连的两个实体在有向图中对彼此的注意力可能存在差异,本发明实施例中应用两个不同矩阵分别对两端实体进行线性变换来计算注意力系数
在步骤120中,多层图注意力编码器通过图注意力神经网络,可以更好地聚合邻域实体的特征,使得实体之间的等价性能在整个图中传播。
本发明实施例中,对应步骤130的过程,具体包括:
通过选用经典的知识表示平移模型TransE来引入关系的表示,将实体和关系表示到同一个向量空间,关系相当于从头实体到尾实体的向量平移,TransE为每一个关系型三为每一个关系型三元组(eh,r,et)∈T计算一个合理性得分:
其中,eh及et表示两个实体,r表示实体eh及实体et之间的关系;
应用基于间隔排序的损失函数作为知识表示平移模型TransE的优化目标OR:
在步骤130中,使用的知识图谱表示方法TransE,引入实体间关系的向量表示并对实体表示带来约束,丰富实体所编码的语义信息,提升实体的区分度。
本发明实施例中,对应步骤140的过程,具体包括:
由于实体与概念、概念与概念之间具有层次关系,所选用的概念表示模型应当具备层次表示的能力。本发明实施例中提出盒嵌入表示模型来对概念与概念层次体系进行建模。
建立盒表示模型作为概念表示模型,所述盒嵌入表示模型是以空间中轴对齐的超矩形来表示一个概念,与空间中的点不同,所述超矩形具有内部空间,由此我们可以将概念表示为超矩形,属于该概念的实体表示为超矩形中的点,形式化地定义概念c为实数空间中的向量概念c所蕴含的区域为:
其中,≤是按位偏序关系,是超矩形c的中心,是超矩形c的范围偏移量;当Off(c)中每一元素都为0时,Boxc退化为一个d维向量,即d维空间中一个点,和实体表示相同,因此,利用空间中点与超矩形分别描述实体与概念间的关系,属于概念c的实体向量可以表示为:
{ei∈Boxc|ei∈E} (7)
判别一个实体是否属于一个概念,通过空间中点与超矩形的距离来度量,给定一个实体e和概念c,将两者之间的距离定义为:
其中,cmax=Cen(c)+Off(c),cmin=Cen(c)-Off(c),由外部距离distoutside(e,c)和内部距离distinside(e,c)两个方面度量实体与概念的距离,外部距离表征实体到概念所在的超矩形边界的距离,内部距离表征实体到概念所在矩形中心的距离;而0<β<1为平衡两类距离比重的超参数,具体地设定一个较小的β,将位于超矩形内的实体到中心的距离缩小为超矩形范围的β倍,从而实现弱化内部距离而更加注重外部距离的目的,但是仍然需要度量内部距离(即β≠0),因为不希望任何一个超矩形的范围无限扩大,期望一个概念下的实体表示与其尽量接近,不属于该概念的实体表示与其尽量远离,因此定义实体和概念之间instanceOf关系的优化目标OI:
其中,实体e的向量表示取自邻域聚合的实体表示矩阵H(L),概念c的向量表示取自需要学习得到的概念矩阵γ3>0是预定义的间隔超参数,训练负样本集合L′instanceOf是由实体和概念间从属关系集合LinstanceOf进行随机均匀采样得到;
为了使得学习到的概念表示具备层次关系,即subclassOf关系的性质,对每一组具有上下位关系的概念表示进行约束,让上位概念的超矩形能够包含下位概念的超矩形,这自然地符合了概念层次体系中处位于上位的概念比下位概念拥有更大的描述范围这一特点。因此,定义上下位概念<ci,subclassOf,cj>的距离函数:
其中,cy.nax=Cen(cy)+Off(cy),cy.min=Cen(cy)-Off(cy),y∈{i,j},如果概念ci完全被概念cj的超矩形包含,则它们的之间的概念距离fbox(ci,cj)=0;
定义概念和概念间的subclassOf关系的优化目标OS:
本发明实施例,在步骤140中应用盒嵌入表示模型来对概念与概念层次体系进行建模,通过对概念进行表示学习,使之自然地与实体建立联系,通过约束实体表示来帮助实体对齐。
本发明实施例中,对应步骤150的过程,具体包括:
虽然对不同知识图谱应用了相同的图神经网络对实体进行编码,但不同知识图谱的实体仍位于不同的向量空间,为了将其表示到同一个向量空间,利用预先对齐的等价实体对集合S,将每一对等价实体向量表示间的距离缩小,达到对齐两个图谱的实体的目的,定义两个实体间的距离函数为:
其中,[.]+=max{0,.}表示在输入向量和0之间取最大值,γ1>0是间隔超参数,ei和ej的向量表示取自领域聚合的实体表示矩阵H(L),训练负样本S′是由两个预融合的知识图谱间已知的预先对齐的等价实体对集合S进行最近邻居采样的方式生成的。
本发明实施例中,对应步骤150还包括为:根据实体对齐优化目标、实体与关系优化目标、实体与概念关系优化目标以及概念与概念关系优化目标,得到两个预融合知识图谱实体对齐的优化目标为:
O=α1OE+α2OR+α3OI+α4OS (14)
其中,OE,OR,OI,OS分别对应实体对齐、关系表示、instanceOf关系和subcloassOf关系的优化目标,α1,α2,α3,α4>0为平衡各部分目标的权重参数。本发明实施例中,设定图神经网络的层数为3(包含输入层),初始化实体向量表示矩阵X、关系向量表示矩阵R和概念向量表示矩阵C均采用Xavier均匀分布来随机初始化。使用AdaGrad算法优化这个目标函数使其最小。由此,完成两个知识图谱之间实体的对齐,从而实现融合。
以下对本发明实施例提供的知识图谱实体对齐方法的性能进行仿真实验的过程及结果进行说明。在以下阐述过程中以“C4EA”作为通过本发明实施例方法进行实验的标识。
具体实验过程如下:
1、数据集介绍。
利用本领域公开并广泛使用的数据集DBP15K评测本发明实施例的方法。其中DBP15K包含三个由不同语言版本的DBpedia构建的跨语言数据集,每个数据集中包含15,000对等价实体对。数据集的相关信息如表1所示:
表1数据集的相关统计
实验中使用30%的等价实体对做训练,剩下的70%用于测试。
2、实验设置。
与现有的研究工作一致,采用Hits@N和MRR来评价实验效果。其中Hits@N表示对齐的前N个结果中包含正确实体的百分比,MRR(Mean Reciprocal Rank)表示所有对齐结果中正确实体排序的倒数的平均值。对比方法包括:MTransE模型、JAPE模型、AlignEA模型、GCN-Align模型、KECG模型、MuGNN模型和AliNet模型;以及自身的对比模型:C4EA(w/o Box)。从C4EA中分离出一个消融模型C4EA(w/o Box),即将概念与概念层次表示学***衡超参α1,α2,α3,α4。对于邻域聚合的实体表示学习,一个正例对应的负例采样数量为25;对于增强实体语义的关系表示学习和概念及概念层次表示学习,一个正例对应的负例采样数量为2。通过实验,找出本发明实施例的知识图谱实体对齐模型的最优的参数组合:λ=0.005,d=200,γ1=3.0,γ2=3.0,γ3=1.0,β=0.02,α1=1.0,α2=0.8,α3=0.6,α4=0.6,方法中的距离度量选用L2范数。
3、实验结果与分析。
采用以上数据集和实验设置,将本发明公开的通过知识图谱实体对齐模型进行实体对齐的性能在各个数据集上进行了实验,并与以上主流方法进行了对比。如表2所示,为实体对齐的评测结果。在每个数据集上,C4EA在3项评测指标下均明显优于对比方法,证明了本发明所公布装置的准确性和稳定性。
表2知识图谱实体对齐结果(Hits@N单位为%)
由表2的结果可以看出,C4EA效果优于对比的现有方法。融合了增强实体语义的关系表示学习和概念与概念层次体系表示学习的C4EA能够更充分地利用知识图谱中的结构信息,使实体表示富有更多的语义,在对齐时更利于区分混淆实体,例如在DBP15KFR-EN子数据集上的实验结果所示,C4EA的Hits@1较AliNet提升了0.026,较最早的实体对齐方法MtransE提升了0.334。C4EA利用多层GAT进行邻域聚合的实体表示学习,削弱了局部难以对齐的实体对全局对齐的影响,达到缓解图谱异构性对实体对齐带来的影响的效果,在DBP15KJA-EN子数据集上C4EA的Hits@10达到了0.892,远高于同样利用图神经网络但未能克服图谱结构差异的GCN-Align所取得的0.745。
为了探究增加概念与概念层次体系对实体对齐带来的影响,从C4EA中分离出一个消融模型C4EA(w/o Box),表2列出的实验结果反映了概念与概念层次表示学习给实体对齐带来的积极作用。在DBP15KFR-E子数据集上,C4EA的Hits@1从0.550提升到了0.578,MRR从0.664提升到了0.671,MRR的提升很好地反映了联合概念与概念层次体系从整体上对实体对齐带来的积极贡献。
如图2所示,为根据本发明实施例提供的实体对齐方法进行两个待融合的知识图谱中各实体进行对齐任务的过程示意图。本发明实施例所述的基于概念与概念层次体系约束的知识图谱实体对齐的方法,从两个知识图谱出发,利用共享参数设定下的多层图注意力神经网络作为编码器进行实体编码,得到领域融合的实体向量表示;选用经典的知识表示平移模型TransE来引入知识图谱的关系,对实体之间的关系进行有效的建模,丰富实体所编码的语义信息,提升实体表示的区分度,从而达到增强实体语义的关系表示学习的目的;应用盒嵌入表示模型来对知识图谱的概念与概念层次结构进行建模,通过对概念进行表示学习,使概念与实体的表示之间建立直接联系,从而影响并约束实体最终的表示,最终帮助完成实体对齐任务。有效地解决了现有方法未能充分利用知识图谱概念与概念层次体系这一重要结构信息的缺陷,更加高效地实现跨语言知识图谱实体对齐的目的。
下面对本发明实施例提供的知识图谱实体对齐装置进行描述,下文描述的知识图谱实体对齐装置与上文描述的知识图谱实体对齐方法可相互对应参照,如图3所示,本发明实施例提供一种知识图谱实体对齐装置,包括:
知识图谱获取单元310,用于获取待融合的两个知识图谱的数据;
实体表示获取单元320,用于分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习,得到两个所述知识图谱中各实体的实体表示;
实体关系表示获取单元330,用于根据所述实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示;
概念与概念层次体系表示获取单元340,用于根据所述实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示;
实体对齐结果获取单元350,用于通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个所述知识图谱实体对齐的结果。
下面结合图4描述本发明实施例提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理410,通信接口420,存储430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行知识图谱实体对齐方法,该方法包括:获取待融合的两个知识图谱的数据;分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习,得到两个所述知识图谱中各实体的实体表示;根据所述实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示;根据所述实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示;通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个所述知识图谱实体对齐的结果。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的知识图谱实体对齐方法,该方法包括:获取待融合的两个知识图谱的数据;分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习,得到两个所述知识图谱中各实体的实体表示;根据所述实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示;根据所述实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示;通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个所述知识图谱实体对齐的结果。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的知识图谱实体对齐方法:获取待融合的两个知识图谱的数据;分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习,得到两个所述知识图谱中各实体的实体表示;根据所述实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示;根据所述实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示;通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个所述知识图谱实体对齐的结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种知识图谱实体对齐方法,其特征在于,包括:
获取待融合的两个知识图谱的数据;
分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习,得到两个所述知识图谱中各实体的实体表示;
根据所述实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示;
根据所述实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示;
通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个所述知识图谱实体对齐的结果。
2.根据权利要求1所述的知识图谱实体对齐方法,其特征在于,两个所述知识图谱的数据为头实体、尾实体以及两个实体之间关系的关系型三元组集合;所述分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习,得到两个所述知识图谱中各实体的实体表示,具体包括:
3.根据权利要求2所述的知识图谱实体对齐方法,其特征在于,根据所述实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示,具体包括:
通过知识表示平移模型TransE将实体和关系表示到同一个向量空间,为每一个关系型三元组(eh,r,et)∈T计算一个合理性得分:
其中,eh及et表示两个实体,r表示实体eh及实体et之间的关系;
应用基于间隔排序的损失函数作为知识表示平移模型TransE的优化目标OR:
4.根据权利要求3所述的知识图谱实体对齐方法,其特征在于,所述根据所述实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示,具体包括:
其中,≤是按位偏序关系,是超矩形c的中心,是超矩形c的范围偏移量;当Off(c)中每一元素都为0时,Boxc退化为一个d维向量,即d维空间中一个点,和实体表示相同,因此,利用空间中点与超矩形分别描述实体与概念间的关系,属于概念c的实体向量可以表示为:
{ei∈Boxc|ei∈E}
判别一个实体是否属于一个概念,通过空间中点与超矩形的距离来度量,给定一个实体e和概念c,将两者之间的距离定义为:
其中,Cmax=Cen(c)+Off(c),cmin=Cen(c)-Off(c),由外部距离distoutside(e,c)和内部距离distinside(e,c)两个方面度量实体与概念的距离,外部距离表征实体到概念所在的超矩形边界的距离,内部距离表征实体到概念所在矩形中心的距离;而0<β<1为平衡两类距离比重的超参数;
定义实体和概念之间instanceOf关系的优化目标OI:
7.根据权利要求6所述的知识图谱实体对齐方法,其特征在于,所述通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个所述知识图谱实体对齐的结果,具体包括:
根据实体对齐优化目标、实体与关系优化目标、实体与概念关系优化目标以及概念与概念关系优化目标,得到两个预融合知识图谱实体对齐的优化目标为:
O=α1OE+α2OR+α3OI+α4OS
其中,OE,OR,OI,OS分别对应实体对齐、关系表示、instanceOf关系和subcloassOf关系的优化目标,α1,α2,α3,α4>0为平衡各部分目标的权重参数。
8.一种知识图谱实体对齐装置,其特征在于,包括:
知识图谱获取单元,用于获取待融合的两个知识图谱的数据;
实体表示获取单元,用于分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习,得到两个所述知识图谱中各实体的实体表示;
实体关系表示获取单元,用于根据所述实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示;
概念与概念层次体系表示获取单元,用于根据所述实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示;
实体对齐结果获取单元,用于通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个所述知识图谱实体对齐的结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述知识图谱实体对齐方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述知识图谱实体对齐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111095446.3A CN114036307B (zh) | 2021-09-17 | 2021-09-17 | 一种知识图谱实体对齐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111095446.3A CN114036307B (zh) | 2021-09-17 | 2021-09-17 | 一种知识图谱实体对齐方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114036307A true CN114036307A (zh) | 2022-02-11 |
CN114036307B CN114036307B (zh) | 2022-09-13 |
Family
ID=80134522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111095446.3A Active CN114036307B (zh) | 2021-09-17 | 2021-09-17 | 一种知识图谱实体对齐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114036307B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880484A (zh) * | 2022-05-11 | 2022-08-09 | 军事科学院***工程研究院网络信息研究所 | 一种基于向量映射的卫星通信频轨资源图谱构建方法 |
CN115062783A (zh) * | 2022-08-08 | 2022-09-16 | 科大讯飞(苏州)科技有限公司 | 实体对齐方法及相关装置、电子设备、存储介质 |
CN115168599A (zh) * | 2022-06-20 | 2022-10-11 | 北京百度网讯科技有限公司 | 多三元组抽取方法、装置、设备、介质及产品 |
CN116150405A (zh) * | 2023-04-19 | 2023-05-23 | 中电科大数据研究院有限公司 | 一种多场景的异构数据处理方法 |
CN116227592A (zh) * | 2023-05-06 | 2023-06-06 | 城云科技(中国)有限公司 | 一种多源知识图谱对齐模型及其构建方法、装置及应用 |
CN116432750A (zh) * | 2023-04-13 | 2023-07-14 | 华中师范大学 | 一种基于盒嵌入的少样本知识图谱补全方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941722A (zh) * | 2019-10-12 | 2020-03-31 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
CN111930856A (zh) * | 2020-07-06 | 2020-11-13 | 北京邮电大学 | 领域知识图谱本体和数据的构建方法、装置和*** |
CN112131401A (zh) * | 2020-09-14 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 一种概念知识图谱构建方法和装置 |
CN112364174A (zh) * | 2020-10-21 | 2021-02-12 | 山东大学 | 基于知识图谱的病人病历相似度评估方法及*** |
US20210103706A1 (en) * | 2019-10-04 | 2021-04-08 | Nec Laboratories America, Inc. | Knowledge graph and alignment with uncertainty embedding |
WO2021082100A1 (zh) * | 2019-10-30 | 2021-05-06 | 平安科技(深圳)有限公司 | 知识图谱的实体对齐方法、装置、设备及存储介质 |
CN112765362A (zh) * | 2021-01-12 | 2021-05-07 | 中国人民解放军国防科技大学 | 基于改进自编码器的知识图谱实体对齐方法及相关设备 |
US20210216887A1 (en) * | 2020-01-14 | 2021-07-15 | Nec Laboratories America, Inc. | Knowledge graph alignment with entity expansion policy network |
CN113342809A (zh) * | 2021-05-31 | 2021-09-03 | 北京工商大学 | 一种基于图神经网络的互联网食品实体对齐方法及*** |
-
2021
- 2021-09-17 CN CN202111095446.3A patent/CN114036307B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210103706A1 (en) * | 2019-10-04 | 2021-04-08 | Nec Laboratories America, Inc. | Knowledge graph and alignment with uncertainty embedding |
CN110941722A (zh) * | 2019-10-12 | 2020-03-31 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
WO2021082100A1 (zh) * | 2019-10-30 | 2021-05-06 | 平安科技(深圳)有限公司 | 知识图谱的实体对齐方法、装置、设备及存储介质 |
US20210216887A1 (en) * | 2020-01-14 | 2021-07-15 | Nec Laboratories America, Inc. | Knowledge graph alignment with entity expansion policy network |
CN111930856A (zh) * | 2020-07-06 | 2020-11-13 | 北京邮电大学 | 领域知识图谱本体和数据的构建方法、装置和*** |
CN112131401A (zh) * | 2020-09-14 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 一种概念知识图谱构建方法和装置 |
CN112364174A (zh) * | 2020-10-21 | 2021-02-12 | 山东大学 | 基于知识图谱的病人病历相似度评估方法及*** |
CN112765362A (zh) * | 2021-01-12 | 2021-05-07 | 中国人民解放军国防科技大学 | 基于改进自编码器的知识图谱实体对齐方法及相关设备 |
CN113342809A (zh) * | 2021-05-31 | 2021-09-03 | 北京工商大学 | 一种基于图神经网络的互联网食品实体对齐方法及*** |
Non-Patent Citations (5)
Title |
---|
KAISHENG ZENG 等: ""A comprehensive survey of entity alignment for knowledge graphs"", 《AI OPEN》 * |
R ABBOUD 等: ""A Box Embedding Model for Knowledge Base Completion"", 《NEURIPS 2020》 * |
ZEQUN SUN 等: ""Knowledge Graph Alignment Network with Gated Multi-Hop Neighborhood Aggregation"", 《AAAI》 * |
余传明 等: ""基于深度学习的领域知识对齐模型研究:知识图谱视角"", 《情报学报》 * |
程瑞: ""面向中文医疗知识图谱的实体对齐方法研究及应用"", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880484A (zh) * | 2022-05-11 | 2022-08-09 | 军事科学院***工程研究院网络信息研究所 | 一种基于向量映射的卫星通信频轨资源图谱构建方法 |
CN115168599A (zh) * | 2022-06-20 | 2022-10-11 | 北京百度网讯科技有限公司 | 多三元组抽取方法、装置、设备、介质及产品 |
CN115062783A (zh) * | 2022-08-08 | 2022-09-16 | 科大讯飞(苏州)科技有限公司 | 实体对齐方法及相关装置、电子设备、存储介质 |
CN116432750A (zh) * | 2023-04-13 | 2023-07-14 | 华中师范大学 | 一种基于盒嵌入的少样本知识图谱补全方法 |
CN116432750B (zh) * | 2023-04-13 | 2023-10-27 | 华中师范大学 | 一种基于盒嵌入的少样本知识图谱补全方法 |
CN116150405A (zh) * | 2023-04-19 | 2023-05-23 | 中电科大数据研究院有限公司 | 一种多场景的异构数据处理方法 |
CN116150405B (zh) * | 2023-04-19 | 2023-06-27 | 中电科大数据研究院有限公司 | 一种多场景的异构数据处理方法 |
CN116227592A (zh) * | 2023-05-06 | 2023-06-06 | 城云科技(中国)有限公司 | 一种多源知识图谱对齐模型及其构建方法、装置及应用 |
CN116227592B (zh) * | 2023-05-06 | 2023-07-18 | 城云科技(中国)有限公司 | 一种多源知识图谱对齐模型及其构建方法、装置及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN114036307B (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114036307B (zh) | 一种知识图谱实体对齐方法及装置 | |
CN111488734B (zh) | 基于全局交互和句法依赖的情感特征表示学习***及方法 | |
CN110826336B (zh) | 一种情感分类方法、***、存储介质及设备 | |
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
CN112434169B (zh) | 一种知识图谱的构建方法及其***和计算机设备 | |
CN113360673B (zh) | 多模态知识图谱的实体对齐方法、装置及存储介质 | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN112131404A (zh) | 一种四险一金领域知识图谱中实体对齐方法 | |
CN112417219A (zh) | 基于超图卷积的超边链接预测方法 | |
CN113610540B (zh) | 一种河蟹防伪溯源方法及*** | |
CN111753101A (zh) | 一种融合实体描述及类型的知识图谱表示学习方法 | |
CN113360670B (zh) | 一种基于事实上下文的知识图谱补全方法及*** | |
CN112417289B (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
CN114090783A (zh) | 一种异构知识图谱融合方法及*** | |
CN113987155B (zh) | 一种融合知识图谱与大规模用户日志的会话式检索方法 | |
CN109117943B (zh) | 利用多属性信息增强网络表征学习的方法 | |
WO2023155508A1 (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
CN113779264A (zh) | 基于专利供需知识图谱的交易推荐方法 | |
CN115221413B (zh) | 一种基于交互式图注意力网络的序列推荐方法及*** | |
CN115809340A (zh) | 一种知识图谱的实体更新方法及*** | |
CN113380360B (zh) | 一种基于多模态病历图的相似病历检索方法及*** | |
Feng et al. | Retracted: Green intelligent financial system construction paradigm based on deep learning and concurrency models | |
CN111488460A (zh) | 数据处理方法、装置和计算机可读存储介质 | |
CN116662570A (zh) | 一种用于银行风险评估的异构图知识图谱补全方法及*** | |
Wang et al. | Fusion layer attention for image-text matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |