CN114036307A

CN114036307A - 一种知识图谱实体对齐方法及装置

Info

Publication number: CN114036307A
Application number: CN202111095446.3A
Authority: CN
Inventors: 曾开胜; 李涓子; 侯磊; 冯铃; 唐杰; 许斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2022-02-11
Anticipated expiration: 2041-09-17
Also published as: CN114036307B

Abstract

本发明提供一种知识图谱实体对齐方法及装置，包括：获取待融合的两个知识图谱的数据；分别对两个知识图谱的数据进行邻域聚合的实体表示学习，得到两个知识图谱中各实体的实体表示；根据实体表示进行增强实体语义的关系表示学习，对实体间的关系进行建模，得到实体关系表示；根据实体表示进行概念与概念层次体系表示学习，对实体与概念、概念与概念之间的关系进行建模，得到概念与概念层次体系表示；通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束，得到两个知识图谱实体对齐的结果。将概念与概念层次体系融合进实体对齐框架并使其发挥作用，提高实体对齐的准确率。

Description

一种知识图谱实体对齐方法及装置

技术领域

本发明涉及计算机人工智能自然语言处理领域，尤其涉及一种知识图谱实体对齐方法及装置。

背景技术

融合多语言、多知识源信息的知识图谱已经成为信息抽取、智能问答等众多人工智能应用的重要知识来源。为了更高效地融合信息存在重合和互补的知识图谱，实体对齐吸引了众多学者的兴趣而成为一项重要的研究问题。许多知识图谱为不同的应用提供了丰富的结构化知识，这些知识图谱由于具有不尽相同的构造目的，知识之间存在很大的异构性，同时也会包含一些互补知识。为了更好的支持上层的跨语言问答***、跨语言推荐***等任务，融合不同的知识图谱成为一个重要的研究方向。其中，实体对齐就是知识图谱融合的一项关键技术。

传统的知识图谱实体对齐方法，主要利用实体文本信息、实体属性信息、实体网络结构信息等，计算一系列相似度，然后通过人为设定的阈值，或是机器学习中的分类算法，来实现对给定实体对是否为等价实体的判定，因此在实体对齐任务的过程中会发生属于不同概念的实体对齐的错误情况，影响实体对齐的准确性。

发明内容

本发明提供一种知识图谱实体对齐方法及装置，用以解决现有技术中知识图谱中实体对齐准确性低缺陷，实现在概念的约束下，属于同一概念下的实体进行对齐，提高实体对齐的准确性。

本发明提供一种知识图谱实体对齐方法，包括：

获取待融合的两个知识图谱的数据；

分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习，得到两个所述知识图谱中各实体的实体表示；

根据所述实体表示进行增强实体语义的关系表示学习，对实体间的关系进行建模，得到实体关系表示；

根据所述实体表示进行概念与概念层次体系表示学习，对实体与概念、概念与概念之间的关系进行建模，得到概念与概念层次体系表示；

通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束，得到两个所述知识图谱实体对齐的结果。

根据本发明提供的一种知识图谱实体对齐方法，两个所述知识图谱的数据为头实体、尾实体以及两个实体之间关系的关系型三元组集合；所述分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习，得到两个所述知识图谱中各实体的实体表示，具体包括：

应用注意力图神经网络对两个所述知识图谱的各实体进行编码，实体e_i在第l+1层网络的向量表示为

其计算方式为：

其中，

是第l层网络的权重，实体初始向量

来自实体表示矩阵

d是向量表示的维数，σ(.)是非线性激活函数，

是第l层网络中实体e_i和e_j间的注意力权重；

应用两个矩阵分别对头实体及尾实体进行线性变换来计算注意力系数

其中，

为两个线性变换的参数矩阵，(.)^T为矩阵转置操作，LeakyReLU(.)为非线性激活函数；

通过将实体e_i与其邻居实体的注意力系数进行规范化，可以得到实体间注意力权重

经过L层图卷积网络，得到实体e_i融合领域实体信息的向量表示

H^(L)为邻域聚合的实体表示矩阵。

根据本发明提供的一种知识图谱实体对齐方法，根据所述实体表示进行增强实体语义的关系表示学习，对实体间的关系进行建模，得到实体关系表示，具体包括：

通过知识表示平移模型TransE将实体和关系表示到同一个向量空间，为每一个关系型三元组(e_h,r,e_t)∈T计算一个合理性得分：

其中，e_h及e_t表示两个实体，r表示实体e_h及实体e_t之间的关系；

应用基于间隔排序的损失函数作为知识表示平移模型TransE的优化目标O_R：

其中，实体e_h和e_t的向量表示取自邻域聚合的实体表示矩阵H^(L)，关系r的向量表示取自需要学习得到的关系矩阵

γ₂>0是间隔超参数，训练负样本集合T′由关系型三元组集合T进行类型负采样得到。

根据本发明提供的一种知识图谱实体对齐方法，所述根据所述实体表示进行概念与概念层次体系表示学习，对实体与概念、概念与概念之间的关系进行建模，得到概念与概念层次体系表示，具体包括：

建立盒表示模型作为概念与概念层次体系表示，所述盒嵌入表示模型是以空间中轴对齐的超矩形来表示一个概念，所述超矩形具有内部空间，形式化地定义概念c为实数空间中的向量

概念c所蕴含的区域为：

其中，≤是按位偏序关系，

是超矩形c的中心，

是超矩形c的范围偏移量；当Off(c)中每一元素都为0时，Box_c退化为一个d维向量，即d维空间中一个点，和实体表示相同，因此，利用空间中点与超矩形分别描述实体与概念间的关系，属于概念c的实体向量可以表示为：

{e_i∈Box_c|e_i∈E}

判别一个实体是否属于一个概念，通过空间中点与超矩形的距离来度量，给定一个实体e和概念c，将两者之间的距离定义为：

其中，c_max＝Cen(c)+Off(c),c_min＝Cen(c)-Off(c)，由外部距离dist_outside(e,c)和内部距离dist_inside(e,c)两个方面度量实体与概念的距离，外部距离表征实体到概念所在的超矩形边界的距离，内部距离表征实体到概念所在矩形中心的距离；而0<β<1为平衡两类距离比重的超参数；

定义实体和概念之间instanceOf关系的优化目标O_I：

其中，实体e的向量表示取自邻域聚合的实体表示矩阵H^(L)，概念c的向量表示取自需要学习得到的概念矩阵

γ₃>0是预定义的间隔超参数，训练负样本集合L′_instanceOf是由实体和概念间从属关系集合L_instanceOf进行随机均匀采样得到。

定义上下位概念<c_i,subclassOf,c_j>的距离函数：

其中，c_y.max＝Cen(c_y)+Off(c_y),c_y.min＝Cen(c_y)-pff(c_y),y∈{i,j}，如果概念c_i完全被概念c_j的超矩形包含，则它们的之间的概念距离f_box(c_i,c_j)＝0；

定义概念和概念间的subclassOf关系的优化目标O_S：

根据本发明提供的一种知识图谱实体对齐方法，所述通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束，得到两个所述知识图谱实体对齐的结果，具体包括：

定义两个实体间的距离函数为：

其中，

表示向量的L₁/L₂范数，应用基于间隔排序的损失函数作为实体对齐的优化目标O_E：

其中，[.]₊＝max{0,.}表示在输入向量和0之间取最大值，γ₁>0是间隔超参数，e_i和e_j的向量表示取自领域聚合的实体表示矩阵H^(L)，训练负样本S′是由两个预融合的知识图谱间已知的预先对齐的等价实体对集合S进行最近邻居采样的方式生成的。

根据实体对齐优化目标、实体与关系优化目标、实体与概念关系优化目标以及概念与概念关系优化目标，得到两个预融合知识图谱实体对齐的优化目标为：

O＝α₁O_E+α₂O_R+α₃O_I+α₄O_S

其中，O_E，O_R，O_I，O_S分别对应实体对齐、关系表示、instanceOf关系和subcloassOf关系的优化目标，α₁，α₂，α₃，α₄>0为平衡各部分目标的权重参数。

本发明还提供一种知识图谱实体对齐装置，包括：

知识图谱获取单元，用于获取待融合的两个知识图谱的数据；

实体表示获取单元，用于分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习，得到两个所述知识图谱中各实体的实体表示；

实体关系表示获取单元，用于根据所述实体表示进行增强实体语义的关系表示学习，对实体间的关系进行建模，得到实体关系表示；

概念与概念层次体系表示获取单元，用于根据所述实体表示进行概念与概念层次体系表示学习，对实体与概念、概念与概念之间的关系进行建模，得到概念与概念层次体系表示；

实体对齐结果获取单元，用于通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束，得到两个所述知识图谱实体对齐的结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述知识图谱实体对齐方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述知识图谱实体对齐方法的步骤。

本发明提供的知识图谱实体对齐方法及装置，将概念与概念层次体系融合进实体对齐框架中并在实体对齐过程中起到约束作用，从而使得从属于同一概念内的实体进行对齐，提高实体对齐的准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的知识图谱实体对齐方法流程图；

图2是本发明提供的知识图谱实体对齐过程的结构示意图；

图3是本发明提供的知识图谱实体对齐装置结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

尽管随着技术的不断发展，知识图谱实体对齐技术已经取得了较大的进步，但是在目前的方法中忽视了知识图谱中一个重要的结构信息：概念与概念层次体系。概念是对知识图谱中一类具有某些相似特征事物的抽象描述，概念与概念、实体与概念间的上下位关系构成了概念的层次体系，DBpedia、YAGO等知识图谱中都有概念与概念层次体系。不同于等价实体链接，概念与概念层次体系可以从另一层面为实体对齐提供帮助。

本发明实施例中对于需要对齐的两个知识图谱，形式化地表示为G₁＝(E₁，R₁，T₁)和G₂＝(E₂，R₂，T₂)，其中E_i表示实体集合，R_i表示关系集合，T_i表示由实体和关系组成的事实三元组(即，<头实体，关系，尾实体>)集合，i∈{1，2}分别为两个知识图谱的序号。给定E_i的一个实体e，其邻居实体的集合形式化地表示为N_e＝{e′|(e，r，e′)∈T_i}∪{e′|(e′，r，e)∈T_i}。两个知识图谱间的等价实体对集合形式化为

其中

表示e₁和e₂在现实中具有相同的语义，为同一个实体，即共同组成等价实体对。形式化地表示实体所属的概念集合

则概念层次体系可以形式化地表示为L＝L_instanceOf∪L_subclassOf，其中实体和概念间从属关系集合为

概念间上下位关系形式化表示为

其中instanceOf表示实体e为概念c的一个实体，subclassOf表示概念c₁为概念c₂的一个子概念。将两个知识图谱G₁和G₂合并为一个大的知识图谱G进行处理，即可对应地形式化其实体集合、关系集合、事实三元组集合为E＝E₁∪E₂、R＝R₁∪R₂、T＝T₁∪T₂。

如图1所示，本发明实施例提供一种知识图谱实体对齐方法，包括：

步骤110：获取待融合的两个知识图谱的数据；

具体地，两个所述待融合的知识图谱的数据为头实体、尾实体以及两个实体之间关系的<头实体，关系，尾实体>形式的关系型三元组集合。

步骤120：分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习，得到两个所述知识图谱中各实体的实体表示；

具体地，领域聚合的实体表示学习，依据知识图谱的图结构对实体进行编码，获得被嵌入到同一空间的实体向量表示。

步骤130：根据所述实体表示进行增强实体语义的关系表示学习，对实体间的关系进行建模，得到实体关系表示；

具体地，增强实体语义的关系表示学习，对实体间的关系进行建模，丰富实体所编码的语义信息，提升实体的区分度。

步骤140：根据所述实体表示进行概念与概念层次体系表示学习，对实体与概念、概念与概念之间的关系进行建模，得到概念与概念层次体系表示；

具体地，概念与概念层次体系表示学习，对概念与概念层次体系进行建模，使之自然地与实体建立联系，通过约束实体表示来帮助实体对齐任务。

步骤150：通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束，得到两个所述知识图谱实体对齐的结果。

本发明实施例中，对应步骤120的过程，具体包括：

为了更好的聚合实体的特征，在图结构中传递实体间的等价信息，应用多层的注意力图神经网络(Graph Attention Network，GAT)对进行编码，实体e_i在第l+1层网络的向量表示为

其计算方式为：

其中，

是第l层网络的权重，实体初始向量

来自实体表示矩阵

d是向量表示的维数，σ(.)是非线性激活函数，具体地选用ReLU(.)＝max(0,.)作为非线性激活函数，

是第l层网络中实体e_i和e_j间的注意力权重；

标准的注意力图神经网络中使用同一线性变换来计算两个实体间的注意力系数，而由同一条关系边相连的两个实体在有向图中对彼此的注意力可能存在差异，本发明实施例中应用两个不同矩阵分别对两端实体进行线性变换来计算注意力系数

其中，

为两个不同线性变换的参数矩阵，(.)^T为矩阵转置操作，LeakyReLU(.)为非线性激活函数；

H^(L)为邻域聚合的实体表示矩阵，由此，得到了实体的低维向量表示。

在步骤120中，多层图注意力编码器通过图注意力神经网络，可以更好地聚合邻域实体的特征，使得实体之间的等价性能在整个图中传播。

本发明实施例中，对应步骤130的过程，具体包括：

通过选用经典的知识表示平移模型TransE来引入关系的表示，将实体和关系表示到同一个向量空间，关系相当于从头实体到尾实体的向量平移，TransE为每一个关系型三为每一个关系型三元组(e_h,r,e_t)∈T计算一个合理性得分：

在步骤130中，使用的知识图谱表示方法TransE，引入实体间关系的向量表示并对实体表示带来约束，丰富实体所编码的语义信息，提升实体的区分度。

本发明实施例中，对应步骤140的过程，具体包括：

由于实体与概念、概念与概念之间具有层次关系，所选用的概念表示模型应当具备层次表示的能力。本发明实施例中提出盒嵌入表示模型来对概念与概念层次体系进行建模。

建立盒表示模型作为概念表示模型，所述盒嵌入表示模型是以空间中轴对齐的超矩形来表示一个概念，与空间中的点不同，所述超矩形具有内部空间，由此我们可以将概念表示为超矩形，属于该概念的实体表示为超矩形中的点，形式化地定义概念c为实数空间中的向量

概念c所蕴含的区域为：

其中，≤是按位偏序关系，

是超矩形c的中心，

{e_i∈Box_c|e_i∈E} (7)

其中，c_max＝Cen(c)+Off(c),c_min＝Cen(c)-Off(c)，由外部距离dist_outside(e,c)和内部距离dist_inside(e,c)两个方面度量实体与概念的距离，外部距离表征实体到概念所在的超矩形边界的距离，内部距离表征实体到概念所在矩形中心的距离；而0<β<1为平衡两类距离比重的超参数，具体地设定一个较小的β，将位于超矩形内的实体到中心的距离缩小为超矩形范围的β倍，从而实现弱化内部距离而更加注重外部距离的目的，但是仍然需要度量内部距离(即β≠0)，因为不希望任何一个超矩形的范围无限扩大，期望一个概念下的实体表示与其尽量接近，不属于该概念的实体表示与其尽量远离，因此定义实体和概念之间instanceOf关系的优化目标O_I：

γ₃>0是预定义的间隔超参数，训练负样本集合L′_instanceOf是由实体和概念间从属关系集合L_instanceOf进行随机均匀采样得到；

为了使得学习到的概念表示具备层次关系，即subclassOf关系的性质，对每一组具有上下位关系的概念表示进行约束，让上位概念的超矩形能够包含下位概念的超矩形，这自然地符合了概念层次体系中处位于上位的概念比下位概念拥有更大的描述范围这一特点。因此，定义上下位概念<c_i，subclassOf,c_j>的距离函数：

其中，c_y.nax＝Cen(c_y)+Off(c_y)，c_y.min＝Cen(c_y)-Off(c_y),y∈{i,j}，如果概念c_i完全被概念c_j的超矩形包含，则它们的之间的概念距离f_box(c_i,c_j)＝0；

定义概念和概念间的subclassOf关系的优化目标O_S：

本发明实施例，在步骤140中应用盒嵌入表示模型来对概念与概念层次体系进行建模，通过对概念进行表示学习，使之自然地与实体建立联系，通过约束实体表示来帮助实体对齐。

本发明实施例中，对应步骤150的过程，具体包括：

虽然对不同知识图谱应用了相同的图神经网络对实体进行编码，但不同知识图谱的实体仍位于不同的向量空间，为了将其表示到同一个向量空间，利用预先对齐的等价实体对集合S，将每一对等价实体向量表示间的距离缩小，达到对齐两个图谱的实体的目的，定义两个实体间的距离函数为：

其中，

本发明实施例中，对应步骤150还包括为：根据实体对齐优化目标、实体与关系优化目标、实体与概念关系优化目标以及概念与概念关系优化目标，得到两个预融合知识图谱实体对齐的优化目标为：

O＝α₁O_E+α₂O_R+α₃O_I+α₄O_S (14)

其中，O_E,O_R,O_I,O_S分别对应实体对齐、关系表示、instanceOf关系和subcloassOf关系的优化目标，α₁,α₂,α₃,α₄>0为平衡各部分目标的权重参数。本发明实施例中，设定图神经网络的层数为3(包含输入层)，初始化实体向量表示矩阵X、关系向量表示矩阵R和概念向量表示矩阵C均采用Xavier均匀分布来随机初始化。使用AdaGrad算法优化这个目标函数使其最小。由此，完成两个知识图谱之间实体的对齐，从而实现融合。

以下对本发明实施例提供的知识图谱实体对齐方法的性能进行仿真实验的过程及结果进行说明。在以下阐述过程中以“C4EA”作为通过本发明实施例方法进行实验的标识。

具体实验过程如下：

1、数据集介绍。

利用本领域公开并广泛使用的数据集DBP15K评测本发明实施例的方法。其中DBP15K包含三个由不同语言版本的DBpedia构建的跨语言数据集，每个数据集中包含15,000对等价实体对。数据集的相关信息如表1所示：

表1数据集的相关统计

实验中使用30％的等价实体对做训练，剩下的70％用于测试。

2、实验设置。

与现有的研究工作一致，采用Hits@N和MRR来评价实验效果。其中Hits@N表示对齐的前N个结果中包含正确实体的百分比，MRR(Mean Reciprocal Rank)表示所有对齐结果中正确实体排序的倒数的平均值。对比方法包括：MTransE模型、JAPE模型、AlignEA模型、GCN-Align模型、KECG模型、MuGNN模型和AliNet模型；以及自身的对比模型：C4EA(w/o Box)。从C4EA中分离出一个消融模型C4EA(w/o Box)，即将概念与概念层次表示学***衡超参α₁,α₂,α₃，α₄。对于邻域聚合的实体表示学习，一个正例对应的负例采样数量为25；对于增强实体语义的关系表示学习和概念及概念层次表示学习，一个正例对应的负例采样数量为2。通过实验，找出本发明实施例的知识图谱实体对齐模型的最优的参数组合：λ＝0.005，d＝200，γ₁＝3.0，γ₂＝3.0，γ₃＝1.0，β＝0.02，α₁＝1.0，α₂＝0.8，α₃＝0.6，α₄＝0.6，方法中的距离度量选用L₂范数。

3、实验结果与分析。

采用以上数据集和实验设置，将本发明公开的通过知识图谱实体对齐模型进行实体对齐的性能在各个数据集上进行了实验，并与以上主流方法进行了对比。如表2所示，为实体对齐的评测结果。在每个数据集上，C4EA在3项评测指标下均明显优于对比方法，证明了本发明所公布装置的准确性和稳定性。

表2知识图谱实体对齐结果(Hits@N单位为％)

由表2的结果可以看出，C4EA效果优于对比的现有方法。融合了增强实体语义的关系表示学习和概念与概念层次体系表示学习的C4EA能够更充分地利用知识图谱中的结构信息，使实体表示富有更多的语义，在对齐时更利于区分混淆实体，例如在DBP15K_FR-EN子数据集上的实验结果所示，C4EA的Hits@1较AliNet提升了0.026，较最早的实体对齐方法MtransE提升了0.334。C4EA利用多层GAT进行邻域聚合的实体表示学习，削弱了局部难以对齐的实体对全局对齐的影响，达到缓解图谱异构性对实体对齐带来的影响的效果，在DBP15K_JA-EN子数据集上C4EA的Hits@10达到了0.892，远高于同样利用图神经网络但未能克服图谱结构差异的GCN-Align所取得的0.745。

为了探究增加概念与概念层次体系对实体对齐带来的影响，从C4EA中分离出一个消融模型C4EA(w/o Box)，表2列出的实验结果反映了概念与概念层次表示学习给实体对齐带来的积极作用。在DBP15K_FR-E子数据集上，C4EA的Hits@1从0.550提升到了0.578，MRR从0.664提升到了0.671，MRR的提升很好地反映了联合概念与概念层次体系从整体上对实体对齐带来的积极贡献。

如图2所示，为根据本发明实施例提供的实体对齐方法进行两个待融合的知识图谱中各实体进行对齐任务的过程示意图。本发明实施例所述的基于概念与概念层次体系约束的知识图谱实体对齐的方法，从两个知识图谱出发，利用共享参数设定下的多层图注意力神经网络作为编码器进行实体编码，得到领域融合的实体向量表示；选用经典的知识表示平移模型TransE来引入知识图谱的关系，对实体之间的关系进行有效的建模，丰富实体所编码的语义信息，提升实体表示的区分度，从而达到增强实体语义的关系表示学习的目的；应用盒嵌入表示模型来对知识图谱的概念与概念层次结构进行建模，通过对概念进行表示学习，使概念与实体的表示之间建立直接联系，从而影响并约束实体最终的表示，最终帮助完成实体对齐任务。有效地解决了现有方法未能充分利用知识图谱概念与概念层次体系这一重要结构信息的缺陷，更加高效地实现跨语言知识图谱实体对齐的目的。

下面对本发明实施例提供的知识图谱实体对齐装置进行描述，下文描述的知识图谱实体对齐装置与上文描述的知识图谱实体对齐方法可相互对应参照，如图3所示，本发明实施例提供一种知识图谱实体对齐装置，包括：

知识图谱获取单元310，用于获取待融合的两个知识图谱的数据；

实体表示获取单元320，用于分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习，得到两个所述知识图谱中各实体的实体表示；

实体关系表示获取单元330，用于根据所述实体表示进行增强实体语义的关系表示学习，对实体间的关系进行建模，得到实体关系表示；

概念与概念层次体系表示获取单元340，用于根据所述实体表示进行概念与概念层次体系表示学习，对实体与概念、概念与概念之间的关系进行建模，得到概念与概念层次体系表示；

实体对齐结果获取单元350，用于通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束，得到两个所述知识图谱实体对齐的结果。

下面结合图4描述本发明实施例提供的一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理410，通信接口420，存储430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行知识图谱实体对齐方法，该方法包括：获取待融合的两个知识图谱的数据；分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习，得到两个所述知识图谱中各实体的实体表示；根据所述实体表示进行增强实体语义的关系表示学习，对实体间的关系进行建模，得到实体关系表示；根据所述实体表示进行概念与概念层次体系表示学习，对实体与概念、概念与概念之间的关系进行建模，得到概念与概念层次体系表示；通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束，得到两个所述知识图谱实体对齐的结果。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的知识图谱实体对齐方法，该方法包括：获取待融合的两个知识图谱的数据；分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习，得到两个所述知识图谱中各实体的实体表示；根据所述实体表示进行增强实体语义的关系表示学习，对实体间的关系进行建模，得到实体关系表示；根据所述实体表示进行概念与概念层次体系表示学习，对实体与概念、概念与概念之间的关系进行建模，得到概念与概念层次体系表示；通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束，得到两个所述知识图谱实体对齐的结果。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的知识图谱实体对齐方法：获取待融合的两个知识图谱的数据；分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习，得到两个所述知识图谱中各实体的实体表示；根据所述实体表示进行增强实体语义的关系表示学习，对实体间的关系进行建模，得到实体关系表示；根据所述实体表示进行概念与概念层次体系表示学习，对实体与概念、概念与概念之间的关系进行建模，得到概念与概念层次体系表示；通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束，得到两个所述知识图谱实体对齐的结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种知识图谱实体对齐方法，其特征在于，包括：

获取待融合的两个知识图谱的数据；

2.根据权利要求1所述的知识图谱实体对齐方法，其特征在于，两个所述知识图谱的数据为头实体、尾实体以及两个实体之间关系的关系型三元组集合；所述分别对两个所述知识图谱的数据进行邻域聚合的实体表示学习，得到两个所述知识图谱中各实体的实体表示，具体包括：

其计算方式为：

其中，

是第l层网络的权重，实体初始向量

来自实体表示矩阵

d是向量表示的维数，σ(.)是非线性激活函数，

是第l层网络中实体e_i和e_j间的注意力权重；

其中，

H^(L)为邻域聚合的实体表示矩阵。

3.根据权利要求2所述的知识图谱实体对齐方法，其特征在于，根据所述实体表示进行增强实体语义的关系表示学习，对实体间的关系进行建模，得到实体关系表示，具体包括：

通过知识表示平移模型TransE将实体和关系表示到同一个向量空间，为每一个关系型三元组(e_h，r，e_t)∈T计算一个合理性得分：

γ₂＞0是间隔超参数，训练负样本集合T′由关系型三元组集合T进行类型负采样得到。

4.根据权利要求3所述的知识图谱实体对齐方法，其特征在于，所述根据所述实体表示进行概念与概念层次体系表示学习，对实体与概念、概念与概念之间的关系进行建模，得到概念与概念层次体系表示，具体包括：

建立盒表示模型作为概念与概念层次体系表示，所述盒嵌入表示模型是以空间中轴对齐的超矩形来表示一个概念所述超矩形具有内部空间，形式化地定义概念c为实数空间中的向量

概念c所蕴含的区域为：

其中，≤是按位偏序关系，

是超矩形c的中心，

{e_i∈Box_c|e_i∈E}

其中，C_max＝Cen(c)+Off(c)，c_min＝Cen(c)-Off(c)，由外部距离dist_outside(e，c)和内部距离dist_{inside(e，c)}两个方面度量实体与概念的距离，外部距离表征实体到概念所在的超矩形边界的距离，内部距离表征实体到概念所在矩形中心的距离；而0＜β＜1为平衡两类距离比重的超参数；

定义实体和概念之间instanceOf关系的优化目标O_I：

γ₃＞0是预定义的间隔超参数，训练负样本集合L′_instanceOf是由实体和概念间从属关系集合L_instanceOf进行随机均匀采样得到。

5.根据权利要求4所述的知识图谱实体对齐方法，其特征在于，所述根据所述实体表示进行概念与概念层次体系表示学习，对实体与概念、概念与概念之间的关系进行建模，得到概念与概念层次体系表示，具体包括：

定义上下位概念<c_i，subclassOf，c_j>的距离函数：

其中，c_y.max＝Cen(c_y)+Off(c_y)，c_y.min＝Cen(c_y)-Off(c_y)，y∈{i，j}，如果概念c_i完全被概念c_j的超矩形包含，则它们的之间的概念距离f_box(c_i，c_j)＝0；

定义概念和概念间的subclassOf关系的优化目标O_S：

6.根据权利要求5所述的知识图谱实体对齐方法，其特征在于，所述通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束，得到两个所述知识图谱实体对齐的结果，具体包括：

定义两个实体间的距离函数为：

其中，

其中，[.]₊＝max{0，.}表示在输入向量和0之间取最大值，γ₁＞0是间隔超参数，e_i和e_j的向量表示取自领域聚合的实体表示矩阵H^(L)，训练负样本S′是由两个预融合的知识图谱间已知的预先对齐的等价实体对集合S进行最近邻居采样的方式生成的。

7.根据权利要求6所述的知识图谱实体对齐方法，其特征在于，所述通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束，得到两个所述知识图谱实体对齐的结果，具体包括：

O＝α₁O_E+α₂O_R+α₃O_I+α₄O_S

其中，O_E，O_R，O_I，O_S分别对应实体对齐、关系表示、instanceOf关系和subcloassOf关系的优化目标，α₁，α₂，α₃，α₄＞0为平衡各部分目标的权重参数。

8.一种知识图谱实体对齐装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述知识图谱实体对齐方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述知识图谱实体对齐方法的步骤。