CN108694201A - 一种实体对齐方法和装置 - Google Patents

一种实体对齐方法和装置 Download PDF

Info

Publication number
CN108694201A
CN108694201A CN201710230135.0A CN201710230135A CN108694201A CN 108694201 A CN108694201 A CN 108694201A CN 201710230135 A CN201710230135 A CN 201710230135A CN 108694201 A CN108694201 A CN 108694201A
Authority
CN
China
Prior art keywords
entity
relationship
vector
indicate
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710230135.0A
Other languages
English (en)
Inventor
贾岩涛
李曼玲
刘诗凯
邓拯宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201710230135.0A priority Critical patent/CN108694201A/zh
Publication of CN108694201A publication Critical patent/CN108694201A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种实体对齐方法和装置,涉及大数据领域,用于提高基于向量空间表示的实体对齐效率。实体对齐方法包括:读取训练模型,其中,训练模型中包括实体的向量和关系的向量;针对给定实体及对应的关系,根据训练模型构造候选实体关系对集合;根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分,取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体,其中,打分函数中包括给定实体的向量与候选实体的向量之间的属性相似度,当属性相似度值越高时打分函数打分值越高。本申请实施例应用于实体对齐。

Description

一种实体对齐方法和装置
技术领域
本申请涉及大数据领域,尤其涉及一种实体对齐方法和装置。
背景技术
网络大数据时代的到来,使得网络上的数据呈***式的增长。这些数据包含大量有价值的实体相关的信息,这里的实体指的是具体的某个现实社会中的对象,例如张艺谋、十面埋伏、巩俐等。根据其来源的不同,可以分为三类:垂直服务网站的实体数据、在线百科中的实体页面数据、开放新闻网页中实体相关的数据。不同的数据来源对同一个实体的名称表述可能不同。例如,《X战警:天启》这部电影,在不同的视频网站描述名称不同,例如《变种特攻:天启灭世战》、《X战警:启示录》等。这就需要对不同数据来源的视频信息进行对齐,即确定是否描述的是同一个实体。因此衍生出了实体对齐技术。
目前比较有效的实体对齐技术是基于向量空间表示的实体对齐技术,即将实体的知识图谱表示成向量空间中的向量,通过各实体在向量空间中的位置等信息,预测各实体间的对齐关系。
具体地,首先,通过优化一个基于间隔的损失函数,将知识图谱的点(实体)和边(实体间关系)表示成向量空间中的向量;然后,针对给定实体生成候选实体集合;最后,根据实体关系对打分函数对候选实体进行打分,取分数最高的作为对齐的实体,实现实体对齐的工作。常用的向量空间表示方法是TransE方法等。
现有技术的打分函数将所有实体关系对统一进行打分,实际上打分效率并不高。比如,对上映时间差距较大的两个视频实体进行打分;将视频实体与人物类型实体进行打分等。
发明内容
本申请的实施例提供一种实体对齐方法和装置,用于提高基于向量空间表示的实体对齐效率。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种实体对齐方法,包括:读取训练模型,其中,训练模型中包括实体的向量和关系的向量;针对给定实体及对应的关系,根据训练模型构造候选实体关系对集合,其中,实体关系对集合中包括至少一个候选实体关系对,每个候选实体关系对包括给定实体、关系和候选实体,并且候选实体与给定实体的类型相同;根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分,取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体,其中,打分函数中包括给定实体的向量与候选实体的向量之间的属性相似度,当属性相似度值越高时打分函数打分值越高。本申请实施例提供的实体对齐方法通过在打分函数中加入属性相似度,并且当属性相似度值越高时打分函数打分值越高,无须经过人工对属性相似度进行阈值调整以及复杂的特征选取,提高基于向量空间表示的实体对齐效率。
在一种可能的设计中,当给定实体为尾实体t,对应的关系为r,候选实体为头实体h'时,打分函数为其中,表示h'和t的向量相似度,Dist(h',t)表示h'和t的属性相似度,w表示惩罚力度,取值范围为0到1,其中,Dist(h',t)=|tt-h't|+EditDist(tattribute,h'attribute),其中,tt表示t的时间,h't表示h'的时间,tattribute表示t的属性,h'attribute表示h'的属性,EditDist(tattribute,h'attribute)表示属性之间的编辑距离。该设计提供了一种打分函数的具体实现方式。
在一种可能的设计中,在读取训练模型之前,方法还包括:根据知识图谱的至少一个实体关系对(h,r,t)得到正例实体关系对集合Δ、负例实体关系对集合Δ'、与头实体h按照关系r构成的正例集Pr={t|(h,r,t)∈Δ}以及与头实体h按照关系r构成的负例集其中,R表示关系集合,实体关系对(h,r,t)包括头实体h、关系r和尾实体t,正例实体关系对集合Δ表示知识图谱中存在的实体关系对(h,r,t)的集合,负例实体关系对集合Δ'表示知识图谱中不存在的实体关系对(h',r',t')的集合;根据给定维度,初始化知识图谱的实体关系对(h,r,t)中的头实体向量、关系向量和尾实体向量,其中,每个头实体h对应一个头实体向量,每个关系r对应一个关系向量,每个尾实体t对应一个尾实体向量;针对特定实体h及对应关系r,根据正例集Pr以及负例集Nr,计算特定实体h的实体间隔Mh;根据正例实体关系对集合Δ、负例实体关系对集合Δ'和实体间隔Mh计算损失函数;对实体关系对的头实体向量、关系向量和尾实体向量迭代进行更新,当损失函数满足预设条件时,更新得到的头实体向量、关系向量和尾实体向量作为训练模型。该设计提供了一种得到训练模型的具体实现方式。
在一种可能的设计中,针对特定实体h,根据正例集Pr以及负例集Nr,计算特定实体的实体间隔Mh,包括:针对特定实体h及其对应的关系r,选择计算实体间隔Mh=mint,t”δ(||h-t”||-||h-t||),其中,||·||表示L1或L2范式,mint,t”表示从所有根据t或t”计算的结果中取最小值。该设计提供了一种实体间隔Mh的具体实现方式。
在一种可能的设计中,损失函数为:其中,Mh表示与头实体h对应的实体间隔,[x]+返回x与0两者中的较大值,||·||表示L1或L2范式。该设计提供了一种损失函数的具体实现方式。
在一种可能的设计中,对所有实体关系对的头实体向量、关系向量和尾实体向量迭代进行更新,包括:采用梯度下降法进行更新:其中,dim是向量空间的维度,hi表示头实体h向量的第i维向量,μ为学习率。hi=hi-μ*2*|ti-hi-ri|,ri=ri-μ*2*|ti-hi-ri|,ti=ti+μ*2*|ti-hi-ri|,h'i=h'i-μ*2*|t'i-h'i-r'i|,r'i=r'i-μ*2*|t'i-h'i-r'i|,t'i=t'i-μ*2*|t'i-h'i-r'i|。该设计提供了一种对所有实体关系对的头实体向量、关系向量和尾实体向量迭代进行更新的具体实现方式。
第二方面,本申请实施例提供了一种实体对齐装置,包括:读取单元,用于读取训练模型,其中,训练模型中包括实体的向量和关系的向量;构造单元,用于针对给定实体及对应的关系,根据训练模型构造候选实体关系对集合,其中,实体关系对集合中包括至少一个候选实体关系对,每个候选实体关系对包括给定实体、关系和候选实体,并且候选实体与给定实体的类型相同;打分单元,用于根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分,取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体,其中,打分函数中包括给定实体的向量与候选实体的向量之间的属性相似度,当属性相似度值越高时打分函数打分值越高。基于同一发明构思,由于该装置解决问题的原理以及有益效果可以参见上述第一方面和第一方面的各可能的方法实施方式以及所带来的有益效果,因此该装置的实施可以参见上述第一方面和第一方面的各可能的方法的实施方式,重复之处不再赘述。
第三方面,本申请实施例提供一种实体对齐装置,包括:处理器、存储器、总线和通信接口;该存储器用于存储计算机执行指令,该处理器与该存储器通过该总线连接,当该设备运行时,该处理器执行该存储器存储的该计算机执行指令,以使该设备执行上述第一方面中任意一项的方法;基于同一发明构思,处理器调用存储在存储器中的指令以实现上述第一方面的方法设计中的方案,由于该设备解决问题的实施方式以及有益效果可以参见上述第一方面和第一方面的各可能的方法的实施方式以及有益效果,因此该设备的实施可以参见上述方法的实施,重复之处不再赘述。
第四方面,本申请实施例提供了一种计算机存储介质,包括指令,当其在计算机上运行时,使得计算机执行如第一方面的实体对齐方法。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得该计算机执行如第一方面的实体对齐方法。
另外,第三方面至第五方面中任一种设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本申请的实施例提供的实体对齐装置的硬件结构示意图;
图2为现有技术中TransE方法的示意图;
图3为本申请的实施例提供的一种实体对齐方法的流程示意图;
图4为本申请的实施例提供的另一种实体对齐方法的流程示意图;
图5为本申请的实施例提供的实体集内容的示例示意图;
图6为本申请的实施例提供的关系集内容的示例示意图;
图7为本申请的实施例提供的一种训练集内容的示例示意图;
图8为本申请的实施例提供的另一种训练集内容的示例示意图;
图9为本申请的实施例提供的实体间隔的示意图;
图10为本申请的实施例提供的一种实体向量表示的示意图;
图11为本申请的实施例提供的另一种实体向量表示的示意图;
图12为本申请的实施例提供的实体对齐结果的示意图;
图13为本申请的实施例提供的一种实体对齐装置的结构示意图;
图14为本申请的实施例提供的另一种实体对齐装置的结构示意图;
图15为本申请的实施例提供的又一种实体对齐装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
参照图1中所示,为本申请实施例提供的一种实体对齐装置的硬件结构示意图,该实体对齐装置100包括至少一个处理器101,通信总线102,存储器103以及至少一个通信接口104。
处理器101可以是一个通用中央处理器(central processing unit,CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
通信总线102可包括一通路,在上述组件之间传送信息。
通信接口104,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
存储器103可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器103用于存储执行本申请方案的应用程序代码,并由处理器101来控制执行。处理器101用于执行存储器103中存储的应用程序代码,从而实现本申请实施例中所述的方法。
在具体实现中,作为一种实施例,处理器101可以包括一个或多个CPU,例如图中的CPU0和CPU1。
在具体实现中,作为一种实施例,实体对齐装置100可以包括多个处理器,例如图中的处理器101和处理器108。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,实体对齐装置100还可以包括输出设备105和输入设备106。输出设备105和处理器101通信,可以以多种方式来显示信息。例如,输出设备105可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emittingdiode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备106和处理器101通信,可以以多种方式接受用户的输入。例如,输入设备106可以是鼠标、键盘、触摸屏设备或传感设备等。
上述的实体对齐装置100可以是一个通用设备或者是一个专用设备。在具体实现中,实体对齐装置100可以是台式机、便携式电脑、网络服务器、掌上电脑(personaldigital assistant,PDA)、移动手机、平板电脑、无线用户设备、嵌入式设备或有图中类似结构的设备。本申请实施例不限定实体对齐装置100的类型。
本申请实施例所述的实体对齐是指:对于第一数据源的某个实体,在其他数据源(包括第一数据源或者另一个数据源)中找到与其相同的实体,称为实体对齐。本申请实施例所述的实体通常指具体的某个个体,如张艺谋、十面埋伏、巩俐等。本申请实施例所述的知识图谱是由实体及实体间关系构成的网络,其中,网络中的点是实体,网络中的边是实体间的关联关系。
参照图2中所示,TransE方法认为知识图谱由实体关系对(h,r,t)组成,h表示头实体,t表示尾实体,r表示头实体与尾实体之间的关系实体,例如小明的爸爸是大明,表示成实体关系对即为(小明,爸爸,大明)。
在建立训练模型时,首先随机初始化头实体h的向量、尾实体t的向量和关系实体r的向量。然后通过迭代运算对上述向量进行优化,使得最终生成的向量应满足:在向量空间中,头实体h的向量加上关系实体r的向量与尾实体t的向量非常相近,即h+r≈t。具体的,通过损失函数L=f(h,r,t)+M-f(h',r',t')取值最小使得正例实体关系对尽量满足上述假设,负例实体关系对尽量不满足上述假设来实现。其中,损失函数是基于间隔的函数;(h,r,t)是正例实体关系对,表示知识图谱中存在的实体关系对;(h',r',t')是负例实体关系对,表示知识图谱中不存在的实体关系对;M是非负实数的间隔,在TransE方法中是一个常量,例如M=4。
在针对特定实体进行实体对齐时,根据打分函数f(h,r,t)=||h+r-t||取值最高从训练模型中选出对齐的候选实体。
首先,现有技术在对基于间隔的损失函数进行优化时,损失函数中的间隔对知识图谱中所有实体关系对均相同,使得学习效果受到制约。不同实体和关系是具有结构差异的,相关关系稀疏的实体对应的实体关系对的间隔应该较大,而相关关系稠密的实体对应的实体关系对的间隔应该较小;同时在优化过程中间隔应该随着优化效果变化,迭代轮数少的时候,向量学习不充分,间隔应该较小,迭代轮数较多的时候,向量学习充分,间隔应该较大,使得进行更充分的学习。因此统一设定一个间隔,使得向量的学习效果受限,不能很好地反映实体向量之间的关系,实体对齐的效果受到影响。
其次,损失函数中间隔的取值选择较为复杂。损失函数中的间隔的取值是在预先给定的候选值集合中选取,通过在验证数据集上验证来选取最优间隔值,确定最优损失函数。至于损失函数各间隔的取值为何在事先给定的有限集合中选择,却没有一种有力的解释。显而易见的是,间隔取值为非负。因此,遍历整个非负集合的方式去寻找最优间隔值是一件不可能的事情,而在事先给定的有限集合中遍历选取最优间隔值,使得调整参数的工作量大,实体对齐耗费时间长。
再次,现有技术没有考虑实体对齐任务的特殊性,在对给定实体的候选实体集打分时,仅利用知识图谱的实体关系对局部结构特性进行学习打分,选择候选集中分数最高的实体作为对齐实体,但没有考虑实体对齐任务要求给定实体和对齐的实体之间的类型约束和内容的高度相似性,使得现有技术的实体对齐效果受到制约。
本申请实施例提供的实体对齐方法和装置,对上述TransE方法进行改进,一方面,调整损失函数中的间隔M,使得生成的训练模型更好拟合知识图谱;另一方面,针对打分函数引入惩罚机制,使得打分效率更高。另外,本申请实施例虽然示例性的以视频主体为例进行说明,但是本领域技术人员可以理解,本申请实施例还可以应用于其他主体对齐场景,例如音乐领域的歌曲名之间的对齐,旅游领域的相关地点的对齐,等等。
本申请实施例提供了一种实体对齐方法,参照图3中所示,包括:
S101、读取训练模型。
其中,训练模型中包括实体的向量和关系的向量,具体的,训练模型中包括头实体h的向量、关系r的向量和尾实体t的向量,头实体h、关系r和尾实体t构成实体关系对(h,r,t)。
S102、针对给定实体及对应的关系,根据训练模型构造候选实体关系对集合。
其中,实体关系对集合中包括至少一个候选实体关系对,每个候选实体关系对包括给定实体、关系和候选实体,并且候选实体与给定实体的类型相同。
选取候选实体时进行类型约束,仅选取与给定实体类型相同的实体。
示例性的可以将给定实体作为尾实体,候选实体作为头实体;或者,候选实体作为尾实体,给定实体作为头实体。
S103、根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分,取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体。
打分函数中包括给定实体向量与候选实体向量的属性相似度,当属性相似度值越高时打分函数打分值越高。
当给定实体作为尾实体t,候选实体作为头实体h'时,打分函数为
其中,表示h′和t的向量相似度,Dist(h',t)表示h′和t的属性相似度,w表示惩罚力度,取值范围为0到1,由数据集属性的可信度决定。
其中,Dist(h',t)=|tt-h't|+EditDist(tattribute,h'attribute)。
其中,tt表示t的时间,h't表示h'的时间,如果没有时间属性则这两个值为0。tattribute表示t的属性,h'attribute表示h'的属性,EditDist(tattribute,h'attribute)表示属性之间的编辑距离,例如属性可以为名称、数值。示例性的,当应用于音乐领域的歌曲名之间的对齐时,可以调整属性约束,例如对于歌曲而言,可以基于对歌曲更为重要的时间和歌手属性对实体关系对进行惩罚。
通过一种类型约束的、带有惩罚项的打分函数,替换了原来TransE的打分函数。对于时间等数值类型的属性,进行统一的处理,无须经过人工对属性相似度进行阈值调整以及复杂的特征选取。
本申请实施例提供的实体对齐方法通过在打分函数中加入属性相似度,并且当属性相似度值越高时打分函数打分值越高,无须经过人工对属性相似度进行阈值调整以及复杂的特征选取,提高基于向量空间表示的实体对齐效率。
参照图4中所示,在步骤S101之前,所述方法还包括:
S201、根据知识图谱的至少一个实体关系对(h,r,t)得到正例实体关系对集合Δ、负例实体关系对集合Δ'、与头实体h按照关系r构成的正例集Pr={t|(h,r,t)∈Δ}以及与头实体h按照关系r构成的负例集
其中,R表示关系集合,以视频实体为例,该关系集合包括导演、演员、上映时间、类型、对等、名称等关系;实体关系对(h,r,t)包括头实体h、关系r和尾实体t;正例实体关系对集合Δ表示知识图谱中存在的实体关系对(h,r,t)的集合,即(h,r,t)∈Δ;负例实体关系对集合Δ'表示知识图谱中不存在的实体关系对(h',r',t')的集合,即(h',r',t')∈Δ',其通过对每个实体关系对(h,r,t)随机替换其头实体h、尾实体t、关系r而得到。
知识图谱的具体形式包括文本文件。其由不同类型的实体作为节点,关系作为连接节点的边所构成。在本申请实施例中,示例性的,以实体为视频主体为例,假设存在***1和***2,需要将***2中视频主体与***1中的视频主体对齐。实体包括视频、人物、时间等,关系包括视频网络中的对等、导演等关系。以音乐领域的歌曲名之间的对齐为例,知识图谱中实体包括歌曲、人物、公司、时间、唱片等,关系包括歌曲、歌手、唱片、发行公司、发行时间、简介等。
每个知识图谱包括3份数据文件:实体集(例如entity2id.txt)、关系集(例如relation2id.txt)、训练集(例如train.txt)。各数据文件均由行组成,每个数据文件中行的格式说明如下:
1)实体集:每行数据包括两列,第一列数据为实体,第二列为标识(ID)编号,列与列之间用Tab隔开。示例性的如图5中所示
2)关系集:每行数据包括两列,第一列数据为关系,第二列为标识(ID)编号,列与列之间用Tab隔开。示例性的如图6中所示
3)训练集:包括反映主体属性的实体关系对和反映主体对齐信息的实体关系对。
其中,反映主体属性实体关系对中,每行数据包括三列,第一列数据为头实体,第二列为关系,第三列为尾实体,列与列之间用Tab隔开。示例性的如图7中所示。
反映主体对齐信息的实体关系对中,每行数据包括三列,第一列数据为视频数据源1的键值key(头实体),第二列为关系(例如“对等”指的是头实体尾实体对应同一视频),第三列数据为视频数据源2的键值key(尾实体),列与列之间用Tab隔开。示例性的如图8中所示。
S202、根据给定维度,初始化知识图谱的实体关系对(h,r,t)中的头实体向量、关系向量和尾实体向量,其中,每个头实体h对应一个头实体向量,每个关系r对应一个关系向量,每个尾实体t对应一个尾实体向量。
具体的,可以采用平均分布初始化、伯努利分布初始化等,将知识图谱的实体关系对初始化为给定维度的头实体的向量、尾实体的向量和关系的向量。
S203、针对特定实体h及对应关系r,根据正例集Pr以及负例集Nr,计算特定实体h的实体间隔Mh
针对特定实体h及其对应的关系r,选择计算实体间隔Mh=mint,t”δ(||h-t”||-||h-t||),其中,||·||表示L1或L2范式,mint,t”表示从所有根据t或t”计算的结果中取最小值。
通过这个公式,可以实现根据知识图谱中特定实体的结构特性,计算特定实体的间隔。事实上,对于特定的实体(包括头实体或尾实体),当实体的向量表示使得所对应正例的尾(或头)实体聚簇在一起,那些与其为负例的实体之间具有一定的间隔,此时取得最优值。正例实体与头实体(或尾实体)具有相同的关系,负例实体与头实体(或尾实体)之间存在不同的关系。从这个角度来讲,最优的实体间隔M等于两个同心超球面体的超半径模长的差,具体如图9所示(这里以二维图形来表示)。对于头实体h,与其具有正例关系的实体(空心圆)均位于内侧球体,与其具有负例关系的实体(空心矩形)均在外部球体以外。最优的实体间隔M等于内外超球面体之间的半径距离,该实体间隔把属于Nr的元素与头实体h分开,同时能够使得属于P的元素距离头实体h更近。
该方法可以根据知识图谱的结构特点,自动的选择优化损失函数中的间隔,克服了传统向量表示学习中无法快速获得最优间隔的问题,同时通过在自适应间隔中融合各个实体的结构特性,根据向量的即时训练状态决定间隔,提升了模型对知识图谱的拟合程度,使得实体对齐的效果得到了提升。
S204、根据正例实体关系对集合Δ、负例实体关系对集合Δ'和实体间隔Mh计算损失函数。
根据已初始化的实体、关系,建模表示知识图谱。基于假设实体关系对在向量空间中满足h+r≈t,损失函数使得正例实体关系对尽量满足此假设,负例实体关系对尽量不满足此假设,其中,损失函数如下:
其中,Mh表示与头实体h对应的实体间隔,[x]+返回x与0两者中的较大值,||·||表示L1或L2范式。
S205、对实体关系对的头实体向量、关系向量和尾实体向量迭代进行更新,当损失函数满足预设条件时,更新得到的头实体向量、关系向量和尾实体向量作为训练模型。
损失函数满足预设条件包括:损失函数计算达到最大迭代次数,或者,损失函数的结果值在各次迭代中保持不变。
具体的,可以采用梯度下降法来进行更新,更新方式如下:其中,dim是向量空间的维度,hi表示头实体h向量的第i维向量,μ为学习率。
hi=hi-μ*2*|ti-hi-ri|,
ri=ri-μ*2*|ti-hi-ri|,
ti=ti+μ*2*|ti-hi-ri|,
h'i=h'i-μ*2*|t'i-h'i-r'i|,
r'i=r'i-μ*2*|t'i-h'i-r'i|,
t'i=t'i-μ*2*|t'i-h'i-r'i|。
为验证本发明提供的实体对齐方法,以视频实体对齐任务为例,采用本发明提供的方法,在真实百度视频、豆瓣视频数据集上进行了实验,采用对齐的正确率(accuracy)作为评价指标,实验参数如下:
数据集百度视频-豆瓣视频中,存在770个豆瓣视频,770个百度视频。包括6种关系(上映时间、导演、类型、演员、名称、对等),包括视频、人物等在内的8179个实体,训练实体关系对为28920个,其中,对等关系670个,测试对齐关系对为100个。
学习过程使用的学习率μ=0.001,向量的维度d=60,参数w=1,选用L1范式衡量相似度。
得到实体对齐的正确率为93.02%。具体如表1中所示:
表1
数据集 维度 迭代次数 正确率
豆瓣和百度视频 60 100 0.930233
学习得到的向量表示为60维向量,例如,百度视频中“X战警(天启)”视频的向量表示参照图10中所示。豆瓣视频中的“X战警:天启”视频的向量表示参照图11中所示。给定豆瓣视频“X战警:天启”,根据打分函数计算出百度视频的分数排位参照图12中所示,从中可以看出X战警(天启)是对齐结果。
本申请实施例提供一种实体对齐装置,用于执行上述通信***间移动方法。本申请实施例可以根据上述方法示例对实体对齐装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图13示出了上述实施例中所涉及的实体对齐装置的一种可能的结构示意图,实体对齐装置20包括:读取单元2011、构造单元2012、打分单元2013、获取单元2014、初始化单元2015、计算单元2016。读取单元2011用于支持实体对齐装置20执行图3中的过程S101;构造单元2012用于支持实体对齐装置20执行图3中的过程S102;打分单元2013用于支持实体对齐装置20执行图3中的过程S103;获取单元2014用于支持实体对齐装置20执行图4中的过程S201、S205;初始化单元2015用于支持实体对齐装置20执行图4中的过程S202;计算单元2016用于支持实体对齐装置20执行图4中的过程S203、S204。其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
在采用集成的单元的情况下,图14示出了上述实施例中所涉及的实体对齐装置的一种可能的结构示意图。实体对齐装置20包括:处理模块2022和通信模块2023。处理模块2022用于对实体对齐装置20的动作进行控制管理,例如,处理模块2022用于支持实体对齐装置20执行图3中的过程S101-S103、图4中的过程S20。通信模块2023用于支持实体对齐装置与其他实体的通信,例如与图1中示出的功能模块或网络实体之间的通信。实体对齐装置20还可以包括存储模块2021,用于存储实体对齐装置的程序代码和数据。
其中,处理模块2022可以是处理器或控制器,例如可以是中央处理器(centralprocessing unit,CPU),通用处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块2023可以是收发器、收发电路或通信接口等。存储模块2021可以是存储器。
当处理模块2022为处理器,通信模块2023为收发器,存储模块2021为存储器时,本申请实施例所涉及的实体对齐装置可以为如下所述的实体对齐装置。
参照图15所示,该实体对齐装置20包括:处理器2032、收发器2033、存储器2031、总线2034。其中,收发器2033、处理器2032、存储器2031通过总线2034相互连接;总线2034可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种实体对齐方法,其特征在于,包括:
读取训练模型,其中,所述训练模型中包括实体的向量和关系的向量;
针对给定实体及对应的关系,根据所述训练模型构造候选实体关系对集合,其中,所述实体关系对集合中包括至少一个候选实体关系对,每个候选实体关系对包括给定实体、关系和候选实体,并且所述候选实体与所述给定实体的类型相同;
根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分,取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体,其中,所述打分函数中包括所述给定实体的向量与候选实体的向量之间的属性相似度,当所述属性相似度值越高时所述打分函数打分值越高。
2.根据权利要求1所述的方法,其特征在于,当所述给定实体为尾实体t,对应的关系为r,候选实体为头实体h'时,
所述打分函数为其中,表示h'和t的向量相似度,Dist(h',t)表示h'和t的属性相似度,w表示惩罚力度,取值范围为0到1,
其中,Dist(h',t)=|tt-h't|+EditDist(tattribute,h'attribute)
其中,tt表示t的时间,h't表示h'的时间,tattribute表示t的属性,h'attribute表示h'的属性,EditDist(tattribute,h'attribute)表示属性之间的编辑距离。
3.根据权利要求1所述的方法,其特征在于,在所述读取训练模型之前,所述方法还包括:
根据知识图谱的至少一个实体关系对(h,r,t)得到正例实体关系对集合Δ、负例实体关系对集合Δ'、与头实体h按照关系r构成的正例集Pr={t|(h,r,t)∈Δ}以及与头实体h按照关系r构成的负例集其中,R表示关系集合,所述实体关系对(h,r,t)包括头实体h、关系r和尾实体t,所述正例实体关系对集合Δ表示所述知识图谱中存在的实体关系对(h,r,t)的集合,所述负例实体关系对集合Δ'表示所述知识图谱中不存在的实体关系对(h',r',t')的集合;
根据给定维度,初始化所述知识图谱的实体关系对(h,r,t)中的头实体向量、关系向量和尾实体向量,其中,每个头实体h对应一个头实体向量,每个关系r对应一个关系向量,每个尾实体t对应一个尾实体向量;
针对特定实体h及对应关系r,根据所述正例集Pr以及负例集Nr,计算所述特定实体h的实体间隔Mh
根据所述正例实体关系对集合Δ、所述负例实体关系对集合Δ'和所述实体间隔Mh计算损失函数;
对实体关系对的头实体向量、关系向量和尾实体向量迭代进行更新,当所述损失函数满足预设条件时,更新得到的头实体向量、关系向量和尾实体向量作为所述训练模型。
4.根据权利要求3所述的方法,其特征在于,所述针对特定实体h,根据所述正例集Pr以及负例集Nr,计算所述特定实体的实体间隔Mh,包括:
针对特定实体h及其对应的关系r,选择计算实体间隔Mh=mint,t”δ(||h-t”||-||h-t||),其中,||·||表示L1或L2范式,mint,t”表示从所有根据t或t”计算的结果中取最小值。
5.根据权利要求3所述的方法,其特征在于,所述损失函数为:
其中,Mh表示与头实体h对应的实体间隔,[x]+返回x与0两者中的较大值,||·||表示L1或L2范式。
6.根据权利要求3所述的方法,其特征在于,所述对所有实体关系对的头实体向量、关系向量和尾实体向量迭代进行更新,包括:
采用梯度下降法进行更新:其中,dim是向量空间的维度,hi表示头实体h向量的第i维向量,μ为学习率,
hi=hi-μ*2*|ti-hi-ri|,
ri=ri-μ*2*|ti-hi-ri|,
ti=ti+μ*2*|ti-hi-ri|,
h'i=h'i-μ*2*|t'i-h'i-r'i|,
r'i=r'i-μ*2*|t'i-h'i-r'i|,
t'i=t'i-μ*2*|t'i-h'i-r'i|。
7.一种实体对齐装置,其特征在于,包括:
读取单元,用于读取训练模型,其中,所述训练模型中包括实体的向量和关系的向量;
构造单元,用于针对给定实体及对应的关系,根据所述训练模型构造候选实体关系对集合,其中,所述实体关系对集合中包括至少一个候选实体关系对,每个候选实体关系对包括给定实体、关系和候选实体,并且所述候选实体与所述给定实体的类型相同;
打分单元,用于根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分,取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体,其中,所述打分函数中包括所述给定实体的向量与候选实体的向量之间的属性相似度,当所述属性相似度值越高时所述打分函数打分值越高。
8.根据权利要求7所述的装置,其特征在于,当所述给定实体为尾实体t,对应的关系为r,候选实体为头实体h'时,
所述打分函数为其中,表示h'和t的向量相似度,Dist(h',t)表示h'和t的属性相似度,w表示惩罚力度,取值范围为0到1,
其中,Dist(h',t)=|tt-h't|+EditDist(tattribute,h'attribute)
其中,tt表示t的时间,h't表示h'的时间,tattribute表示t的属性,h'attribute表示h'的属性,EditDist(tattribute,h'attribute)表示属性之间的编辑距离。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
获取单元,用于在所述读取单元读取训练模型之前,根据知识图谱的至少一个实体关系对(h,r,t)得到正例实体关系对集合Δ、负例实体关系对集合Δ'、与头实体h按照关系r构成的正例集Pr={t|(h,r,t)∈Δ}以及与头实体h按照关系r构成的负例集其中,R表示关系集合,所述实体关系对(h,r,t)包括头实体h、关系r和尾实体t,所述正例实体关系对集合Δ表示所述知识图谱中存在的实体关系对(h,r,t)的集合,所述负例实体关系对集合Δ'表示所述知识图谱中不存在的实体关系对(h',r',t')的集合;
初始化单元,用于根据给定维度,初始化所述知识图谱的实体关系对(h,r,t)中的头实体向量、关系向量和尾实体向量,其中,每个头实体h对应一个头实体向量,每个关系r对应一个关系向量,每个尾实体t对应一个尾实体向量;
计算单元,用于针对特定实体h及对应关系r,根据所述正例集Pr以及负例集Nr,计算所述特定实体h的实体间隔Mh
所述计算单元,还用于根据所述正例实体关系对集合Δ、所述负例实体关系对集合Δ'和所述实体间隔Mh计算损失函数;
所述获取单元,还用于对实体关系对的头实体向量、关系向量和尾实体向量迭代进行更新,当所述损失函数满足预设条件时,更新得到的头实体向量、关系向量和尾实体向量作为所述训练模型。
10.根据权利要求9所述的装置,其特征在于,所述计算单元具体用于:
针对特定实体h及其对应的关系r,选择计算实体间隔Mh=mint,t”δ(||h-t”||-||h-t||),其中,||·||表示L1或L2范式,mint,t”表示从所有根据t或t”计算的结果中取最小值。
11.根据权利要求9所述的装置,其特征在于,所述损失函数为:
其中,Mh表示与头实体h对应的实体间隔,[x]+返回x与0两者中的较大值,||·||表示L1或L2范式。
12.根据权利要求9所述的装置,其特征在于,所述获取单元具体用于:
采用梯度下降法进行更新:其中,dim是向量空间的维度,hi表示头实体h向量的第i维向量,μ为学习率,
hi=hi-μ*2*|ti-hi-ri|,
ri=ri-μ*2*|ti-hi-ri|,
ti=ti+μ*2*|ti-hi-ri|,
h'i=h'i-μ*2*|t'i-h'i-r'i|,
r'i=r'i-μ*2*|t'i-h'i-r'i|,
t'i=t'i-μ*2*|t'i-h'i-r'i|。
CN201710230135.0A 2017-04-10 2017-04-10 一种实体对齐方法和装置 Pending CN108694201A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710230135.0A CN108694201A (zh) 2017-04-10 2017-04-10 一种实体对齐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710230135.0A CN108694201A (zh) 2017-04-10 2017-04-10 一种实体对齐方法和装置

Publications (1)

Publication Number Publication Date
CN108694201A true CN108694201A (zh) 2018-10-23

Family

ID=63842404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710230135.0A Pending CN108694201A (zh) 2017-04-10 2017-04-10 一种实体对齐方法和装置

Country Status (1)

Country Link
CN (1) CN108694201A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614615A (zh) * 2018-12-04 2019-04-12 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109902144A (zh) * 2019-01-11 2019-06-18 杭州电子科技大学 一种基于改进wmd算法的实体对齐方法
CN110245131A (zh) * 2019-06-05 2019-09-17 江苏瑞中数据股份有限公司 一种知识图谱中实体对齐方法、***及其存储介质
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110580294A (zh) * 2019-09-11 2019-12-17 腾讯科技(深圳)有限公司 实体融合方法、装置、设备及存储介质
CN110866124A (zh) * 2019-11-06 2020-03-06 北京诺道认知医学科技有限公司 基于多数据源的医学知识图谱融合方法及装置
CN111522887A (zh) * 2020-04-03 2020-08-11 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111666969A (zh) * 2020-04-22 2020-09-15 北京百度网讯科技有限公司 计算图文相似度的方法、装置、电子设备和可读存储介质
CN112199957A (zh) * 2020-11-03 2021-01-08 中国人民解放军战略支援部队信息工程大学 基于属性和关系信息联合嵌入的人物实体对齐方法及***
CN113535986A (zh) * 2021-09-02 2021-10-22 中国医学科学院医学信息研究所 一种应用于医学知识图谱的数据融合方法及装置
CN113688191A (zh) * 2021-08-27 2021-11-23 阿里巴巴(中国)有限公司 特征数据生成方法、电子设备、存储介质及程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100299139A1 (en) * 2009-04-23 2010-11-25 International Business Machines Corporation Method for processing natural language questions and apparatus thereof
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接***
CN105045826A (zh) * 2015-06-29 2015-11-11 华东师范大学 一种基于图模型的实体链接算法
CN105630901A (zh) * 2015-12-21 2016-06-01 清华大学 一种知识图谱表示学习方法
CN105824802A (zh) * 2016-03-31 2016-08-03 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN106528610A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种基于路径张量分解的知识图谱表示学习方法
CN106528609A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种向量约束嵌入转换的知识图谱推理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100299139A1 (en) * 2009-04-23 2010-11-25 International Business Machines Corporation Method for processing natural language questions and apparatus thereof
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接***
CN105045826A (zh) * 2015-06-29 2015-11-11 华东师范大学 一种基于图模型的实体链接算法
CN105630901A (zh) * 2015-12-21 2016-06-01 清华大学 一种知识图谱表示学习方法
CN105824802A (zh) * 2016-03-31 2016-08-03 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN106528610A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种基于路径张量分解的知识图谱表示学习方法
CN106528609A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种向量约束嵌入转换的知识图谱推理方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614615B (zh) * 2018-12-04 2022-04-22 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109614615A (zh) * 2018-12-04 2019-04-12 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109902144A (zh) * 2019-01-11 2019-06-18 杭州电子科技大学 一种基于改进wmd算法的实体对齐方法
CN109902144B (zh) * 2019-01-11 2020-01-31 杭州电子科技大学 一种基于改进wmd算法的实体对齐方法
CN110245131A (zh) * 2019-06-05 2019-09-17 江苏瑞中数据股份有限公司 一种知识图谱中实体对齐方法、***及其存储介质
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110580294A (zh) * 2019-09-11 2019-12-17 腾讯科技(深圳)有限公司 实体融合方法、装置、设备及存储介质
CN110580294B (zh) * 2019-09-11 2022-11-29 腾讯科技(深圳)有限公司 实体融合方法、装置、设备及存储介质
CN110866124A (zh) * 2019-11-06 2020-03-06 北京诺道认知医学科技有限公司 基于多数据源的医学知识图谱融合方法及装置
CN110866124B (zh) * 2019-11-06 2022-05-31 北京诺道认知医学科技有限公司 基于多数据源的医学知识图谱融合方法及装置
CN111522887A (zh) * 2020-04-03 2020-08-11 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111522887B (zh) * 2020-04-03 2023-09-12 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111666969A (zh) * 2020-04-22 2020-09-15 北京百度网讯科技有限公司 计算图文相似度的方法、装置、电子设备和可读存储介质
CN112199957A (zh) * 2020-11-03 2021-01-08 中国人民解放军战略支援部队信息工程大学 基于属性和关系信息联合嵌入的人物实体对齐方法及***
CN112199957B (zh) * 2020-11-03 2023-12-08 中国人民解放军战略支援部队信息工程大学 基于属性和关系信息联合嵌入的人物实体对齐方法及***
CN113688191A (zh) * 2021-08-27 2021-11-23 阿里巴巴(中国)有限公司 特征数据生成方法、电子设备、存储介质及程序产品
CN113688191B (zh) * 2021-08-27 2023-08-18 阿里巴巴(中国)有限公司 特征数据生成方法、电子设备、存储介质
CN113535986A (zh) * 2021-09-02 2021-10-22 中国医学科学院医学信息研究所 一种应用于医学知识图谱的数据融合方法及装置
CN113535986B (zh) * 2021-09-02 2023-05-05 中国医学科学院医学信息研究所 一种应用于医学知识图谱的数据融合方法及装置

Similar Documents

Publication Publication Date Title
CN108694201A (zh) 一种实体对齐方法和装置
US11599393B2 (en) Guaranteed quality of service in cloud computing environments
Zhang et al. A weighted kernel possibilistic c‐means algorithm based on cloud computing for clustering big data
CN109214436A (zh) 一种针对目标场景的预测模型训练方法及装置
WO2020168851A1 (zh) 行为识别
US11893493B2 (en) Clustering techniques for machine learning models
CN114048331A (zh) 一种基于改进型kgat模型的知识图谱推荐方法及***
US9276821B2 (en) Graphical representation of classification of workloads
CN105518658A (zh) 用于将数据记录分组的设备、***以及方法
US20170316345A1 (en) Machine learning aggregation
US20150120346A1 (en) Clustering-Based Learning Asset Categorization and Consolidation
US11681880B2 (en) Auto transformation of network data models using neural machine translation
WO2021213156A1 (zh) 根据关系图卷积网络的任务标签生成方法及相关装置
CN103699573A (zh) 社交平台的ugc标签聚类方法和装置
US11979309B2 (en) System and method for discovering ad-hoc communities over large-scale implicit networks by wave relaxation
Wang et al. A regularized convex nonnegative matrix factorization model for signed network analysis
Bauckhage et al. Kernel archetypal analysis for clustering web search frequency time series
Mungkasi Adaptive finite volume method for the shallow water equations on triangular grids
CN108509651B (zh) 基于语义一致性的具有隐私保护的分布式近似性搜索方法
Yu et al. Connecting factorization and distance metric learning for social recommendations
WO2023059356A1 (en) Power graph convolutional network for explainable machine learning
Zhang et al. Small files storing and computing optimization in Hadoop parallel rendering
Lim et al. CMPF: Class-switching minimized pathfinding in metabolic networks
Li et al. A fault detection optimization method based on chaos adaptive artificial fish swarm algorithm on distributed control system
CN111724221A (zh) 确定商品匹配信息的方法、***、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200213

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Applicant after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 210012 HUAWEI Nanjing base, 101 software Avenue, Yuhuatai District, Jiangsu, Nanjing

Applicant before: Huawei Technologies Co.,Ltd.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181023