CN117009539A - 知识图谱的实体对齐方法、装置、设备及存储介质 - Google Patents

知识图谱的实体对齐方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117009539A
CN117009539A CN202211567346.0A CN202211567346A CN117009539A CN 117009539 A CN117009539 A CN 117009539A CN 202211567346 A CN202211567346 A CN 202211567346A CN 117009539 A CN117009539 A CN 117009539A
Authority
CN
China
Prior art keywords
entity
vector representation
seed
knowledge graph
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211567346.0A
Other languages
English (en)
Inventor
王雨欣
刘文强
蒋益巧
韩可心
胡伟
崔员宁
孙泽群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211567346.0A priority Critical patent/CN117009539A/zh
Publication of CN117009539A publication Critical patent/CN117009539A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种知识图谱的实体对齐方法、装置、设备及存储介质,涉及人工智能技术领域,该方法包括:获取第一时刻待对齐的第一知识图谱和第二知识图谱、训练样本集,每个训练样本包括样本实体对和正负样本对指示,样本实体对由第一知识图谱中的第一实体和第二知识图谱中的第二实体组成,确定两个知识图谱中的种子实体,并为每个种子实体分配可学习的向量表示,根据训练样本集、两个知识图谱和两个知识图谱中的种子实体进行实体对齐模型训练,得到已训练的实体对齐模型,在模型训练时,每个训练样本中样本实体的初始向量表示根据种子实体的向量表示和样本实体与种子实体的拓扑关系生成,根据实体对齐模型对两个知识图谱进行实体对齐。

Description

知识图谱的实体对齐方法、装置、设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种知识图谱的实体对齐方法、装置、设备及存储介质。
背景技术
知识图谱(Knowledge Graph,KG)技术旨在描述各种实体概念及其相互关系,一般由“实体-关系-实体”构成三元组,每个实体也拥有其相应“属性”。实体指的是现实世界中具有可区别性且独立存在的某种事物。知识图谱通常由节点和边组成,每个节点表示一个实体,每条边为实体与实体之间的关系。在不同的知识图谱中,对于具有相同含义的实体的称呼或者表现形式可能不同,因此需要进行跨知识图谱的实体对齐。
现有技术中,通过预先训练的网络模型对知识图谱进行实体对齐,该方法适用于知识图谱的规模与状态不会随着时间而发生变化的静态知识图谱场景。对于动态知识图谱场景而言,当新数据(实体与三元组)加入到知识图谱中时,为了使得网络模型能够对新的实体进行对齐,现有方法需要根据变化后的知识图谱重新训练网络模型,耗时耗资源,导致知识图谱持续实体对齐的效率低。
发明内容
本申请实施例提供一种知识图谱的实体对齐方法、装置、设备及存储介质,可以提高知识图谱持续实体对齐的效率。
第一方面,本申请实施例提供一种知识图谱的实体对齐方法,包括:
获取第一时刻待对齐的第一知识图谱和第二知识图谱,并获取训练样本集,每个训练样本包括一个样本实体对和正负样本对指示,所述一个样本实体对由所述第一知识图谱中的第一实体和所述第二知识图谱中的第二实体组成;
将所述第一知识图谱中的k1个实体确定为第一种子实体,将所述第二知识图谱中的k2个实体确定为第二种子实体,并为每个所述第一种子实体和所述第二种子实体分配可学习的向量表示,所述k1、k2为预设正整数;
根据所述训练样本集、所述第一知识图谱、所述第一种子实体、所述第二知识图谱和所述第二种子实体进行实体对齐模型训练,得到已训练的实体对齐模型,在进行实体对齐模型训练时,每个训练样本中所述第一实体的初始向量表示根据所述第一种子实体的向量表示和所述第一实体与所述第一种子实体的拓扑关系生成,每个训练样本中所述第二实体的初始向量表示根据所述第二种子实体的向量表示和所述第二实体与所述第二种子实体的拓扑关系生成;
根据所述已训练实体对齐模型对所述第一时刻的所述第一知识图谱和所述第二知识图谱进行实体对齐,得到实体对齐结果。
第二方面,本申请实施例提供一种知识图谱的实体对齐装置,包括:
获取模块,用于获取第一时刻待对齐的第一知识图谱和第二知识图谱,并获取训练样本集,每个训练样本包括一个样本实体对和正负样本对指示,所述一个样本实体对由所述第一知识图谱中的第一实体和所述第二知识图谱中的第二实体组成;
第一处理模块,用于将所述第一知识图谱中的k1个实体确定为第一种子实体,将所述第二知识图谱中的k2个实体确定为第二种子实体,并为每个所述第一种子实体和所述第二种子实体分配可学习的向量表示,所述k1、k2为预设正整数;
训练模块,用于根据所述训练样本集、所述第一知识图谱、所述第一种子实体、所述第二知识图谱和所述第二种子实体进行实体对齐模型训练,得到已训练的实体对齐模型,在进行实体对齐模型训练时,每个训练样本中所述第一实体的初始向量表示根据所述第一种子实体的向量表示和所述第一实体与所述第一种子实体的拓扑关系生成,每个训练样本中所述第二实体的初始向量表示根据所述第二种子实体的向量表示和所述第二实体与所述第二种子实体的拓扑关系生成;
第二处理模块,用于根据所述已训练实体对齐模型对所述第一时刻的所述第一知识图谱和所述第二知识图谱进行实体对齐,得到实体对齐结果。
第三方面,本申请实施例提供一种计算机设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,以执行第一方面的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,包括指令,当其在计算机程序上运行时,使得所述计算机执行如第一方面的方法。
第五方面,本申请实施例提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使得所述计算机执行如第一方面的方法。
综上,在本申请实施例中,通过在获取到第一时刻待对齐的第一知识图谱和第二知识图谱以及训练样本集后,训练样本集中的样本实体对由第一知识图谱中的第一实体和第二知识图谱中的第二实体组成,分别从该两个知识图谱中选取部分实体作为种子实体,在根据训练样本集、两个知识图谱、第一种子实体和第二种子实体进行实体对齐模型训练时,对于第一知识图谱或第二知识图谱而言,知识图谱中其它实体的初始向量表示可根据该知识图谱中种子实体的向量表示和其它实体与种子实体的拓扑关系生成。因此,当第一知识图谱或第二知识图谱中的至少一个的拓扑结构发生变化时,新增实体的初始向量表示可根据种子实体的向量表示以及其与种子实体的拓扑关系生成,而原知识图谱中受影响实体的初始向量表示可随着与种子实体的拓扑关系而动态更新,进而,可通过新训练数据生成(即生成新增实体的初始向量表示以及更新后的原知识图谱中受影响实体的初始向量表示)与部分旧训练数据回放(即原知识图谱中未受影响的实体的训练数据)来微调已训练的实体对齐模型,通过微调后的实体对齐模型对拓扑结构发生变化后的第一知识图谱和第二知识图谱进行实体对齐,得到实体对齐结果。本申请实施例中在知识图谱发生变化时不需要重新训练实体对齐模型,而是对知识图谱发生变化之前训练得到的实体对齐模型进行微调训练,微调而非重训保证了模型更新的高效性,从而,可以提高知识图谱持续实体对齐的效率。
附图说明
图1为本申请实施例提供的一种知识图谱的实体对齐方法的实施场景示意图;
图2为本申请实施例提供的一种知识图谱的实体对齐方法的应用场景示意图;
图3为本申请实施例提供的一种知识图谱的实体对齐方法的流程图;
图4为本申请实施例提供的一种根据第一种子实体生成第一实体的初始向量表示的示意图;
图5为本申请实施例中第一实体的向量表示的示意图;
图6为本申请实施例提供的一种知识图谱的实体对齐方法的流程图;
图7为本申请实施例提供的一种知识图谱的实体对齐方法中知识图谱发生变化后实体对齐模型的更新过程示意图;
图8为本申请实施例提供的一种知识图谱的实体对齐装置的结构示意图;
图9是本申请实施例提供的计算机设备300的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。
需要说明的是,本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在介绍本申请实施例技术方案之前,下面先对本申请实施例相关知识进行介绍,本申请实施例涉及人工智能、机器学习、深度学习和图神经网络技术。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习(Deep Learning,DL):是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次,这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
图神经网络(Graph neural networks,GNN):属于深度学习的范畴,通常用于解决图上的一系列问题,例如图分类,图节点分类,图的边预测任务等。图神经网络由两部分组成,第一部分是刻画图结构的邻接矩阵,刻画图属性的特征矩阵。第二部分将图结构,图属性嵌入到学习过程中的网络结构,可以是前馈神经网络或基于注意力机制的神经网络。
本申请实施例还涉及区块链技术,计算机设备通过区块链存储实体对齐结果、待处理的至少两个知识图谱以及根据实体对齐结果进行图谱融合后得到的融合知识图谱中的至少一种。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模型。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
目前,现实世界的知识总在不断增长与累积,许多知识图谱不断会有新知识的加入,并带来图谱规模的扩张与结构的变化。比如,一通用领域知识图谱每个月都会新增千万级别的三元组(平均每秒新增5200个三元组);另一通用领域知识图谱每周都会更新一次版本来加入新收集的知识。一些特定领域的图谱,比如游戏知识图谱、电商商品知识图谱等,也随着新游戏、新物品的上架而不断扩张。面对动态增长的知识图谱,新加入的知识不仅带来新的“待匹配实体对”,并且图谱的拓扑结构也发生了变化,导致之前的匹配结果在新信息下需要被重新审视甚至更新,新增的三元组除了包含新实体的三元组(new,r,eold),(old,r,enew)与(new,r,enew),也包含已有实体间的新三元组(old,r,eold)。
因此,需要一种高效的、可持续对至少两个知识图谱实体对齐的方法,而相关技术中所采用的实体对齐方法,对于动态知识图谱场景而言,当新数据(实体与三元组)加入到知识图谱中时,为了使得网络模型能够对新的实体进行对齐,该方法需要根据更新的知识图谱重新训练网络模型,耗时耗资源,导致知识图谱持续实体对齐的效率低。
为解决这一问题,本申请实施例通过在获取到待对齐的第一知识图谱和第二知识图谱以及训练样本集(训练样本集中的样本实体对由第一知识图谱中的第一实体和第二知识图谱中的第二实体组成)后,分别从该两个知识图谱中选取部分实体作为种子实体,在根据训练样本集、第一知识图谱、第一种子实体、第二知识图谱和第二种子实体进行实体对齐模型训练时,对于第一知识图谱或第二知识图谱而言,知识图谱中其它实体的初始向量表示可根据该知识图谱中种子实体的向量表示和其它实体与种子实体的拓扑关系生成。因此,当第一知识图谱或第二知识图谱中的至少一个的拓扑结构发生变化时,新增实体的初始向量表示可根据种子实体的向量表示以及其与种子实体的拓扑关系生成,而原知识图谱中受影响实体的初始向量表示可随着与种子实体的拓扑关系而动态更新,进而,可通过新训练数据生成(即生成新增实体的初始向量表示以及更新后的原知识图谱中受影响实体的初始向量表示)与部分旧训练数据回放(即原知识图谱中未受影响的实体的训练数据)来微调已训练的实体对齐模型,通过微调后的实体对齐模型对拓扑结构发生变化后的第一知识图谱和第二知识图谱进行实体对齐,得到实体对齐结果。本申请实施例中在知识图谱发生变化时不需要重新训练实体对齐模型,而是对知识图谱发生变化之前训练得到的实体对齐模型进行微调训练,微调而非重训保证了模型更新的高效性,从而,可以提高知识图谱持续实体对齐的效率。
本申请实施例可应用于各种场景,包括但不限于动态知识图谱场景,动态知识图谱场景是指知识图谱的规模、状态、拓扑结构和其他信息中的至少一项随着时间发生变化的场景。例如游戏知识图谱、物品知识图谱、知识百科知识图谱等,本申请实施例中待对齐的两个知识图谱可以是来自不同的源(如知识库)。具体的,本申请实施例中待对齐的两个知识图谱可以是不同语言的知识图谱,即实现跨语言的知识图谱实体对齐。
需要说明的是,上面介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
示例性的,图1为本申请实施例提供的一种知识图谱的实体对齐方法的实施场景示意图,如图1所示,本申请实施例的实施场景涉及服务器1和终端设备2,终端设备2可以通过通信网络与服务器1进行数据通信。通信网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
其中,在一些可实现方式中,终端设备2是指一类具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作***、具有较强处理能力的设备。终端设备可以是智能手机、平板电脑、便携式笔记本电脑、台式电脑等终端设备,但不限于此。
图1中的服务器1可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云计算服务的云服务器。本申请实施例对此不做限制。本申请实施例中,服务器1可以为终端设备2中安装的某个应用程序的后台服务器。
在一些可实现方式中,服务器1和终端设备2可协同执行本申请实施例提供的知识图谱的实体对齐方法,也可单独执行本本申请实施例提供的知识图谱的实体对齐方法。例如,如图1中所示,终端设备2可将待对齐的至少两个知识图谱发送至服务器1,由服务器1执行知识图谱的实体对齐方法,得到至少两个知识图谱的实体对齐结果,服务器1可将至少两个知识图谱的实体对齐结果发给至终端设备2,终端设备2根据实体对齐结果进行相应的处理。本申请实施例中,终端设备2可将不同时刻待对齐的两个知识图谱发送至服务器,服务器可持续地对两个知识图谱进行实体对齐。又例如,还可以是终端设备2在获取到待对齐的至少两个知识图谱后,执行知识图谱的实体对齐方法,得到至少两个知识图谱的实体对齐结果,并进行相应的处理。
示例性的,图2为本申请实施例提供的一种知识图谱的实体对齐方法的应用场景示意图,如图2所示,本申请实施例中待对齐的两个知识图谱为图2所示的英文游戏知识图谱KG-EN和中文游戏知识图谱KG-ZH,需要将中文游戏知识图谱KG-ZH中的实体匹配到英文知识图谱KG-EN中,在时刻t,由于中文游戏知识图谱KG-ZH与英文游戏知识图谱KG-EN的知识均不完备,导致中文游戏实体“无名的猫”被错误匹配到了一个英文游戏实体上(如图2中所示),而不是正确的“Nameless Cat”;此外,因为中文游戏知识图谱KG-ZH中“原神”在英文游戏知识图谱KG-EN中没有对应的实体,而没有被匹配成功。在时刻t+1,随着中文游戏知识图谱KG-ZH与英文游戏知识图谱KG-EN各自有新知识加入,知识图谱的信息不断完善,通过本申请提供的的持续实体对齐方法,可基于之前时刻学得的知识,高效地对实体对齐匹配(对齐)结果进行调整。于是,在时刻t被错误匹配或者没有匹配上的实体得到了正确匹配(比如“无名的猫”与“Nameless Cat”,”原神”与“Genshin Impact”)。
下面将对本申请实施例技术方案进行详细阐述:
图3为本申请实施例提供的一种知识图谱的实体对齐方法的流程图,本申请实施例的执行主体可以为知识图谱的实体对齐装置,该知识图谱的实体对齐装置例如可以为服务器,如图3所示,该方法可以包括:
S101、获取第一时刻待对齐的第一知识图谱和第二知识图谱,并获取训练样本集,每个训练样本包括一个样本实体对和正负样本对指示,一个样本实体对由第一知识图谱中的第一实体和第二知识图谱中的第二实体组成。
具体来说,知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个实体,每条边为实体与实体之间的关系。实体指的是现实世界中具有可区别性且独立存在的某种事物,例如指实际存在的组织、机构、物品或人物等。
实体对齐(Entity Alignment),也称实体匹配,具体而言,对于两个或多个不同的知识图谱,实体对齐旨在发现不同图谱中指向同一真实世界对象的实体。具体指的是确定不同知识图谱中的指向真实世界中同一个对象的实体的过程,例如,将中文知识图谱中“知识库”这一实体与英文图谱中“Knowledge Base”这一实体匹配上。
其中,获取第一时刻待对齐的第一知识图谱和第二知识图谱,例如可以是接收输入的第一时刻待对齐的第一知识图谱和第二知识图谱,其中第一时刻例如可以是初始时刻,两个知识图谱随着时间会发生变化,例如在第一时刻之后的某个时刻有新实体加入或者新的实体关系加入。其中,获取训练样本集可以是接收输入的训练样本集,训练样本集中的每个训练样本包括一个样本实体对和正负样本对指示,一个样本实体对(ei,ej)由第一知识图谱中的第一实体(ei)和第二知识图谱中的第二实体(ej)组成。其中的正负样本对指示包括正样本实体对指示和负样本实体对指示,正样本实体对指示用于指示一样本实体对为匹配(对齐)的两个样本实体,负样本实体对指示用于指示一样本实体对为不匹配(不对齐)的两个样本实体。正负样本对指示为针对训练样本预先标注的指示,正样本实体对指示例如为“1”,负样本实体对指示例如为“0”,本实施例对此不做限制。可选的,训练样本集为从待对齐的第一知识图谱和第二知识图谱中预先获取,例如可以通过人工标注的方式预先获取。
S102、将第一知识图谱中的k1个实体确定为第一种子实体,将第二知识图谱中的k2个实体确定为第二种子实体,并为每个第一种子实体和第二种子实体分配可学习的向量表示,k1、k2为预设正整数。
具体地,获取到第一知识图谱和第二知识图谱后,随机选取第一知识图谱中的k1个实体作为第一种子实体,例如k1可以为第一知识图谱中的所有实体数量的10%。同样地,随机选取第二知识图谱中的k2个实体作为第二种子实体,例如k2可以为第二知识图谱中的所有实体数量的10%。可选的,k1与k2可以相等或者不相等。确定出第一种子实体和第二种子实体后,为每个第一种子实体和第二种子实体分配可学习的向量表示。相比于现有技术中为知识图谱中全部实体分配可学习的向量表示,本申请实施例中选取知识图谱中的部分实体作为种子实体,只为种子实体分配可学习的向量表示,知识图谱中的其它实体的初始向量表示根据种子实体的向量表示生成,这样不仅可以节约空间开销,同时相对于一般的随机初始化全体实体,用少量的种子实体来表示实体可融入实体的相对位置信息,这一向量表示生成机制可自然地运用到新增实体的初始向量表示生成上。
S103、根据训练样本集、第一知识图谱、第一种子实体、第二知识图谱和第二种子实体进行实体对齐模型训练,得到已训练的实体对齐模型,在进行实体对齐模型训练时,每个训练样本中第一实体的初始向量表示根据第一种子实体的向量表示和第一实体与第一种子实体的拓扑关系生成,每个训练样本中第二实体的初始向量表示根据第二种子实体的向量表示和第二实体与第二种子实体的拓扑关系生成。
具体地,在得到第一知识图谱和第二知识图谱、训练样本集、第一种子实体以及第二种子实体后,进行实体对齐模型训练,得到已训练的实体对齐模型。具体在进行实体对齐模型训练时,对于每个训练样本而言,先获取每个训练样本中第一实体的初始向量表示和第二实体的初始向量表示,然后根据第一实体的初始向量表示和第二实体的初始向量表示和待训练的实体对齐模型进行训练,由于第一实体的初始向量表示根据第一种子实体的向量表示和第一实体与第一种子实体的拓扑关系生成,第二实体的初始向量表示根据第二种子实体的向量表示和第二实体与第二种子实体的拓扑关系生成,因此,对于第一知识图谱或第二知识图谱而言,知识图谱中其它实体的初始向量表示可根据该知识图谱中种子实体的向量表示和其它实体与种子实体的拓扑关系生成。因此,当第一知识图谱或第二知识图谱中的至少一个的拓扑结构发生变化时,新增实体的初始向量表示可根据种子实体的向量表示以及其与种子实体的拓扑关系生成,而原知识图谱中受影响实体的初始向量表示可随着与种子实体的拓扑关系而动态更新,进而,可通过新训练数据生成(即生成新增实体的初始向量表示以及更新后的原知识图谱中受影响实体的初始向量表示)与部分旧训练数据回放(即原知识图谱中未受影响的实体的训练数据)来微调已训练的实体对齐模型,通过微调后的实体对齐模型对拓扑结构发生变化后的第一知识图谱和第二知识图谱进行实体对齐,得到新的实体对齐结果。微调而非重训保证了模型更新的高效性,从而,可以提高知识图谱持续实体对齐的效率。
下面示出一种实体对齐模型训练的具体实施方式,可选的,在一种可实施的方式中,S103具体可以为:
S1031、在任一次迭代训练过程中,从训练样本集中选取训练样本子集。
具体地,模型训练需要多次迭代训练,对于每一次的迭代训练而言,先从训练样本集中选取训练样本子集,具体可以是从训练样本集中随机选取预设数量的训练样本组成训练样本子集,还可以是依次从训练样本集中选取预设数量的训练样本组成训练样本子集,直至训练样本集中的训练样本全部使用完。
S1032、针对训练样本子集中的每一训练样本,生成训练样本中第一实体的初始向量表示和训练样本中第二实体的初始向量表示。
具体地,作为一种可实施的方式,S1032中生成训练样本中第一实体的初始向量表示和训练样本中第二实体的初始向量表示,具体可以为:
S11、从第一种子实体中选取n1个种子实体,根据第一实体与n1个种子实体的拓扑关系,计算第一实体与n1个种子实体中每个种子实体之间的最短距离,n1为预设正整数。
具体来说,第一种子实体为k1个,从k1个种子实体中选取n1个种子实体,n1小于或等于k1。
S12、根据第一实体与n1个种子实体中每个种子实体之间的最短距离、n1个种子实体的向量表示和第一实体的邻居关系的向量表示生成第一实体的初始向量表示。
图4为本申请实施例提供的一种根据第一种子实体生成第一实体的初始向量表示的示意图,如图4中所示的第一知识图谱中有9个实体,其中3个第一种子实体,对于图4中所示的实体e,从3个第一种子实体中选取2个种子实体(如图4中虚线圈出的2个种子实体),然后计算实体e与第一个种子实体之间的最短距离以及实体e与第二个种子实体之间的最短距离。
可选的,根据第一实体与n1个种子实体中每个种子实体之间的最短距离、n1个种子实体的向量表示和第一实体的邻居关系的向量表示,生成第一实体的初始向量表示可以通过如下公式(1)表示:
其中,e为第一实体,为种子实体si的向量表示,/>为第一实体e到种子实体si的最短距离,/>为第一实体e的邻居关系rj的向量表示。
S13、从第二种子实体中选取n2个种子实体,根据第二实体与n2个种子实体的拓扑关系,计算第二实体与n2个种子实体中每个种子实体之间的最短距离,n2为预设正整数。
S14、根据第二实体与n2个种子实体中每个种子实体之间的最短距离、n2个种子实体的向量表示和第二实体的邻居关系的向量表示生成第二实体的初始向量表示。
S13-S14为第二实体的初始向量表示的生成过程,其与第一实体的初始向量表示的生成过程相同,此处不再赘述。可以理解的是,对于知识图谱中新加入的实体,新实体的初始向量表示的生成过程与第一实体的初始向量表示的生成过程相同,生成的初始向量表示也为公式(1)所示。
S1033、以第一实体的初始向量表示为实体对齐模型的输入,输出第一实体的向量表示,以第二实体的初始向量表示为实体对齐模型的输入,输出第二实体的向量表示。
可选的,本申请实施例中,实体对齐模型包括第一编码器和第二编码器,第一编码器用于获取第一知识图谱的内部结构信息和第二知识图谱的内部结构信息,第二编码器用于获取第一知识图谱与第二知识图谱之间的实体对齐信息。
相应地,S1033中以第一实体的初始向量表示为实体对齐模型的输入,输出第一实体的向量表示,具体可以为:
以第一实体的初始向量表示为第一编码器的输入,输出第一实体的第一向量表示,以第一实体的第一向量表示为第二编码器的输入,输出第一实体的第二向量表示,根据权重参数,对第一实体的第一向量表示和第一实体的第二向量表示进行加权求和,得到第一实体的向量表示。
S1033中以第二实体的初始向量表示为实体对齐模型的输入,输出第二实体的向量表示,具体可以为:
以第二实体的初始向量表示为第一编码器的输入,输出第二实体的第一向量表示,以第二实体的第一向量表示为第二编码器的输入,输出第二实体的第二向量表示,根据权重参数,对第二实体的第一向量表示和第二实体的第二向量表示进行加权求和,得到第二实体的向量表示。
可选的,在一种可实施的方式中,第一编码器包括第一层图神经网络和第二层图神经网络,相应地,以第一实体的初始向量表示为第一编码器的输入,输出第一实体的第一向量表示,具体可以为:
将第一实体的初始向量表示分别输入第一层图神经网络和第二层图神经网络,将第一层图神经网络的输出的向量表示和第二层图神经网络的输出的向量表示拼接,得到并输出第一实体的第一向量表示。
具体地,将第一实体的初始向量表示分别输入第一层图神经网络和第二层图神经网络,第一层图神经网络的输出的向量表示和第二层图神经网络的输出的向量表示可以通过如下公式(2)表示:
其中,ei为第一实体,为第一实体ei的一阶邻居集合,/>为第一实体ei与实体ej之间的关系集合,h为向量表示,aijk为标量权重,为层数。
可选的,将第一层图神经网络的输出的向量表示和第二层图神经网络的输出的向量表示拼接,得到第一实体的第一向量表示可以通过如下公式(3)表示:
相应地,以第二实体的初始向量表示为第一编码器的输入,输出第二实体的第一向量表示,具体可以为:
将第二实体的初始向量表示分别输入第一层图神经网络和第二层图神经网络,将第一层图神经网络的输出的向量表示和第二层图神经网络的输出的向量表示拼接,得到并输出第二实体的第一向量表示。
同样地,第二实体的第一向量表示也可以通过公式(3)表示。
可选的,得到第一实体的第一向量表示后,以第一实体的第一向量表示为第二编码器的输入,输出第一实体的第二向量表示/>可以通过如下公式(4)表示:
其中,Sp为一串代理节点(proxy nodes)的集合,qj为代理节点的向量表示,βij关于不同qj的权重,βij可以通过如下公式(5)计算:
其中,cos为求余弦相似度。
得到第一实体的第一向量表示以及第一实体的第二向量表示/>后,根据权重参数/>对第一实体的第一向量表示/>和第一实体的第二向量表示/>进行加权求和,图5为本申请实施例中第一实体的向量表示的示意图,如图5所示,得到第一实体的向量表示/>可以通过如下公式(6)表示:
其中,权重参数可以通过如下公式(7)表示:
其中,M和b是模型训练要学习的参数。
可选的,第二编码器包括单层全连接层。同样地,第二实体的向量表示可以通过公式(6)所示。
S1034、根据每次迭代训练过程所得到的训练样本中第一实体的向量表示和第二实体的向量表示以及训练样本的正负样本对指示,对实体对齐模型的参数进行调整,直到满足停止训练条件,得到已训练的实体对齐模型。
具体地,其中的停止训练条件可以是达到预设的训练迭代次数,或者实体对齐模型收敛,也可以是其它条件,本实施例对此不做限制。
可选的,在一种可实施的方式中,S1034中根据每次迭代训练过程所得到的训练样本中第一实体的向量表示和第二实体的向量表示以及训练样本的正负样本对指示,对实体对齐模型的参数进行调整,具体可以为:
根据每次迭代训练过程所得到的训练样本中第一实体的向量表示和第二实体的向量表示以及训练样本的正负样本对指示,构建损失函数,根据损失函数,反向传播调整实体对齐模型的参数。
其中,可选的,构建损失函数具体可以为:
根据训练样本的正负样本对指示,将每次迭代训练过程所得到的训练样本中正样本实体对的余弦相似度和负样本实体对的余弦相似度之间的第一差值与超参数的和确定为损失函数。可选的,损失函数可以通过如下公式(8)所示:
其中,(ei,ej)为正样本实体对,(ei′,ej′)为负样本实体对,γ为超参数,P为训练样本中正样本实体对集合,sim(*,*)为余弦相似度。
S104、根据已训练实体对齐模型对第一时刻的第一知识图谱和第二知识图谱进行实体对齐,得到实体对齐结果。
可选的,S104具体可以为:
S1041、针对第一知识图谱中的每一第一候选实体,根据已训练实体对齐模型从第二知识图谱中确定与第一候选实体相似度最高的目标实体。
S1042、针对第二知识图谱中的每一第二候选实体,根据已训练实体对齐模型从第二知识图谱中确定与第二候选实体相似度最高的目标实体。
S1043、若第一知识图谱中的第一目标实体与第二知识图谱中的第二目标实体互为相似度最高,则将第一目标实体和第二目标实体作为一个匹配对加入实体对齐结果中。
具体地,上述S1041-S1043的过程具体是指,对第一知识图谱中的每个候选实体从第二知识图谱中寻找最近邻(即相似度最高),同样的对第二知识图谱中的每个候选实体从第一知识图谱中寻找最近邻。如果第一知识图谱中的某个实体e1与第二知识图谱中的某个实体e2彼此互为最近邻,那么就将(e1,e2)加入到实体对齐结果中。本申请实施例中,将知识图谱中所有实体都作为候选实体,通过这种双向最近邻搜索方式得到实体对齐结果,考虑到了知识图谱中存在的未知空(dangling)实体,这种方式更符合真实场景,可以使得在初始时刻没有匹配上的实体,在随着知识图谱的更新之后,可能会得到正确匹配。
本实施例提供的知识图谱的实体对齐方法,通过在获取到第一时刻待对齐的第一知识图谱和第二知识图谱以及训练样本集后,训练样本集中的样本实体对由第一知识图谱中的第一实体和第二知识图谱中的第二实体组成,分别从该两个知识图谱中选取部分实体作为种子实体,在根据训练样本集、第一知识图谱、第一种子实体、第二知识图谱和第二种子实体进行实体对齐模型训练时,对于第一知识图谱或第二知识图谱而言,知识图谱中其它实体的初始向量表示可根据该知识图谱中种子实体的向量表示和其它实体与种子实体的拓扑关系生成。因此,当第一知识图谱或第二知识图谱中的至少一个的拓扑结构发生变化时,新增实体的初始向量表示可根据种子实体的向量表示以及其与种子实体的拓扑关系生成,而原知识图谱中受影响实体的初始向量表示可随着与种子实体的拓扑关系而动态更新,进而,可通过新训练数据生成(即生成新增实体的初始向量表示以及更新后的原知识图谱中受影响实体的初始向量表示)与部分旧训练数据回放(即原知识图谱中未受影响的实体的训练数据)来微调已训练的实体对齐模型,通过微调后的实体对齐模型对拓扑结构发生变化后的第一知识图谱和第二知识图谱进行实体对齐,得到实体对齐结果。本申请实施例中在知识图谱发生变化时不需要重新训练实体对齐模型,而是对知识图谱发生变化之前训练得到的实体对齐模型进行微调训练,微调而非重训保证了模型更新的高效性,从而,可以提高知识图谱持续实体对齐的效率。
图6为本申请实施例提供的一种知识图谱的实体对齐方法的流程图,本申请实施例的执行主体可以为知识图谱的实体对齐装置,该知识图谱的实体对齐装置例如可以为服务器,如图6所示,进一步地,本实施例的方法在图3所示实施例的基础上,在S104之后,还可以包括:
S105、获取第二时刻待对齐的第一知识图谱和第二知识图谱。
具体地,第二时刻为第一时刻之后的时刻,第一时刻与第二时刻之间有预设时间间隔,例如第一时刻为t时刻,第二时刻为t+1时刻。可选的,第一时刻为初始时刻。
S106、若第二时刻第一知识图谱有新实体加入,根据第一种子实体的向量表示和新实体与第一种子实体的拓扑关系生成新实体的初始向量表示,并更新训练样本集中一阶上下文拓扑结构发生变化的样本实体对的初始向量表示,若第二时刻第一知识图谱有新的实体关系加入,更新训练样本集中一阶上下文拓扑结构发生变化的样本实体对的初始向量表示。
具体地,对于第一知识图谱而言,对于训练样本集中一阶上下文拓扑结构发生变化的样本实体对,重新计算样本实体对中第一实体与n1个种子实体中每个种子实体之间的最短距离,根据第一实体与n1个种子实体中每个种子实体之间的最短距离、n1个种子实体的向量表示和第一实体的邻居关系的向量表示,重新生成(即更新)第一实体的初始向量表示。
S107、若第二时刻第二知识图谱有新实体加入,根据第二种子实体的向量表示和新实体与第二种子实体的拓扑关系生成新实体的初始向量表示,并更新训练样本集中一阶上下文拓扑结构发生变化的样本实体对的初始向量表示,若第二时刻第二知识图谱有新的实体关系加入,更新训练样本集中一阶上下文拓扑结构发生变化的样本实体对的初始向量表示。
S108、根据新实体的初始向量表示和更新的样本实体对的初始向量表示,对已训练实体对齐模型进行微调训练,更新已训练实体对齐模型的模型参数,得到更新的实体对齐模型。
可选的,在一种可实施的方式中,根据新实体的初始向量表示和更新的样本实体对的初始向量表示,对已训练实体对齐模型进行微调训练,具体可以为:
根据新实体的初始向量表示、更新的样本实体对的初始向量表示和实体对齐结果,对已训练实体对齐模型进行微调训练。
可选的,在一种可实施的方式中,在根据新实体的初始向量表示、更新的样本实体对的初始向量表示和实体对齐结果,对已训练实体对齐模型进行微调训练时,可以选择目标匹配对,目标匹配对为实体对齐结果中余弦相似度大于预设阈值,或者余弦相似度按照从大到小的顺序排名在前M的匹配对,根据新实体的初始向量表示、更新的样本实体对的初始向量表示和目标匹配对对已训练实体对齐模型进行微调训练。
可选的,根据新实体的初始向量表示、更新的样本实体对的初始向量表示和目标匹配对对已训练实体对齐模型进行微调训练时,损失函数可以通过如下公式(9)所示:
其中,(ei,ej)表示正样本实体对,(ei′,ej′)表示负样本实体对,γ表示超参数,sim(*,*)表示相似度,PP为目标匹配对集合(即为实体对齐结果中余弦相似度按照从大到小的顺序排名在前M的匹配对),APP为受新加入数据(包括新实体和新实体关系)影响的已知对齐实体对集合。
S109、根据更新的实体对齐模型对第二时刻的第一知识图谱和第二知识图谱进行实体对齐,得到新的实体对齐结果。
具体地,可以根据上述双向最近邻搜索进行实体对齐,得到新的实体对齐结果。
图7为本申请实施例提供的一种知识图谱的实体对齐方法中知识图谱发生变化后实体对齐模型的更新过程示意图,如图7所示,本申请实施例中,当知识图谱拓扑结构发生变化,例如有新数据(包括新实体和新实体关系)加入后,先进行初始向量表示更新,具体为:根据种子实体生成新实体的初始向量表示,并更新受影响的实体的初始向量表示。然后通过新训练数据生成(即生成新增实体的初始向量表示以及更新后的原知识图谱中受影响实体的初始向量表示)与部分旧训练数据回放(即原知识图谱中未受影响的实体的训练数据)来微调以更新已训练的实体对齐模型中的第二编码器的参数,接着通过门控机制得到样本实体对中第一实体的向量表示和第二实体的向量表示,门控机制可通过上述公式6表示,接着进行损失函数构建及调整模型参数,得到更新的实体对齐模型,最后通过更新后的实体对齐模型采用双向最近邻搜索方法,对拓扑结构发生变化后的第一知识图谱和第二知识图谱进行实体对齐,得到实体对齐结果。
本申请实施例中在知识图谱发生变化时不需要重新训练实体对齐模型,而是对知识图谱发生变化之前训练得到的实体对齐模型进行微调训练,微调而非重训保证了模型更新的高效性,从而,可以提高知识图谱持续实体对齐的效率。
可选的,作为一种可实施的方式,本实施例中第一编码器可以替换为归纳式知识图谱编码器(如MEAN与LAN),MEAN与LAN作为归纳式知识图谱嵌入模型,可以快速生成新实体的初始向量表示。
下面通过实验数据进一步说明本申请实施例所提供的知识图谱的实体对齐方法的技术效果。
本申请实施例中,通过将已有静态实体对齐方法与本申请提供的知识图谱的实体对齐方法进行了对比,首先基于实体对齐常用的跨语言DBP15K数据集,构造出了适应本申请的方法场景的增量式数据集。DBP15K具有三个跨语言设定,分别为中英(ZH-EN),日英(JA-EN)与法英(FR-EN)。以DBP15K现有的数据集为基础,不断向其加入新数据,来模拟随着时间图谱规模的增长。构造出了6个连续时刻(t={0,1,2,3,4,5,6})的跨语言知识图谱数据集。训练集、验证集与测试集的比例为2:1:7。本申请实施例中将每一时刻预测出来的实体匹配对与测试集进行比较,并报告匹配精度(Precision)、召回率(Recall)与综合评价指标(F1)值。Precision,Recall与F1值越高代表预测效果越好。从实验结果可以得出,在三个跨语言设定下动态知识图谱持续实体对齐任务上,本申请实施例提供的方法的效果均优于已有静态实体对齐方法。
图8为本申请实施例提供的一种知识图谱的实体对齐装置的结构示意图,如图8所示,该装置可以包括:获取模块11、第一处理模块12、训练模块13和第二处理模块14。
其中,获取模块11用于获取第一时刻待对齐的第一知识图谱和第二知识图谱,并获取训练样本集,每个训练样本包括一个样本实体对和正负样本对指示,一个样本实体对由第一知识图谱中的第一实体和第二知识图谱中的第二实体组成;
第一处理模块12用于将第一知识图谱中的k1个实体确定为第一种子实体,将第二知识图谱中的k2个实体确定为第二种子实体,并为每个第一种子实体和第二种子实体分配可学习的向量表示,k1、k2为预设正整数;
训练模块13用于根据训练样本集、第一知识图谱、第一种子实体、第二知识图谱和第二种子实体进行实体对齐模型训练,得到已训练的实体对齐模型,在进行实体对齐模型训练时,每个训练样本中第一实体的初始向量表示根据第一种子实体的向量表示和第一实体与第一种子实体的拓扑关系生成,每个训练样本中第二实体的初始向量表示根据第二种子实体的向量表示和第二实体与第二种子实体的拓扑关系生成;
第二处理模块14用于根据已训练实体对齐模型对第一时刻的第一知识图谱和第二知识图谱进行实体对齐,得到实体对齐结果。
在一实施例中,训练模块13用于:
在任一次迭代训练过程中,从所述训练样本集中选取训练样本子集;
针对所述训练样本子集中的每一训练样本,生成所述训练样本中所述第一实体的初始向量表示和所述训练样本中所述第二实体的初始向量表示;
以所述第一实体的初始向量表示为所述实体对齐模型的输入,输出所述第一实体的向量表示,以所述第二实体的初始向量表示为所述实体对齐模型的输入,输出所述第二实体的向量表示;
根据每次迭代训练过程所得到的所述训练样本中所述第一实体的向量表示和所述第二实体的向量表示以及所述训练样本的正负样本对指示,对所述实体对齐模型的参数进行调整,直到满足停止训练条件,得到已训练的实体对齐模型。
在一实施例中,训练模块13用于:从所述第一种子实体中选取n1个种子实体,根据所述第一实体与所述n1个种子实体的拓扑关系,计算所述第一实体与所述n1个种子实体中每个种子实体之间的最短距离,所述n1为预设正整数;
根据所述第一实体与所述n1个种子实体中每个种子实体之间的最短距离、所述n1个种子实体的向量表示和所述第一实体的邻居关系的向量表示生成所述第一实体的初始向量表示;
从所述第二种子实体中选取n2个种子实体,根据所述第二实体与所述n2个种子实体的拓扑关系,计算所述第二实体与所述n2个种子实体中每个种子实体之间的最短距离,所述n2为预设正整数;
根据所述第二实体与所述n2个种子实体中每个种子实体之间的最短距离、所述n2个种子实体的向量表示和所述第二实体的邻居关系的向量表示生成所述第二实体的初始向量表示。
在一实施例中,所述实体对齐模型包括第一编码器和第二编码器,所述第一编码器用于获取所述第一知识图谱的内部结构信息和所述第二知识图谱的内部结构信息,所述第二编码器用于获取所述第一知识图谱与所述第二知识图谱之间的实体对齐信息。
在一实施例中,训练模块13用于:以所述第一实体的初始向量表示为所述第一编码器的输入,输出所述第一实体的第一向量表示,以所述第一实体的第一向量表示为所述第二编码器的输入,输出所述第一实体的第二向量表示;
根据权重参数,对所述第一实体的第一向量表示和所述第一实体的第二向量表示进行加权求和,得到所述第一实体的向量表示;
以所述第二实体的初始向量表示为所述第一编码器的输入,输出所述第二实体的第一向量表示,以所述第二实体的第一向量表示为所述第二编码器的输入,输出所述第二实体的第二向量表示;
根据所述权重参数,对所述第二实体的第一向量表示和所述第二实体的第二向量表示进行加权求和,得到所述第二实体的向量表示。
在一实施例中,所述第一编码器包括第一层图神经网络和第二层图神经网络,训练模块13用于:将所述第一实体的初始向量表示分别输入所述第一层图神经网络和所述第二层图神经网络,将所述第一层图神经网络的输出的向量表示和所述第二层图神经网络的输出的向量表示拼接,得到并输出所述第一实体的第一向量表示;
将所述第二实体的初始向量表示分别输入所述第一层图神经网络和所述第二层图神经网络,将所述第一层图神经网络的输出的向量表示和所述第二层图神经网络的输出的向量表示拼接,得到并输出所述第二实体的第一向量表示。
在一实施例中,所述第二编码器包括单层全连接层。
在一实施例中,训练模块13用于:根据每次迭代训练过程所得到的所述训练样本中所述第一实体的向量表示和所述第二实体的向量表示以及所述训练样本的正负样本对指示,构建损失函数;
根据所述损失函数,反向传播调整所述实体对齐模型的参数。
在一实施例中,训练模块13用于:根据所述训练样本的正负样本对指示,将每次迭代训练过程所得到的所述训练样本中正样本实体对的余弦相似度和负样本实体对的余弦相似度之间的第一差值与超参数的和确定为所述损失函数。
在一实施例中,第二处理模块14用于:针对所述第一知识图谱中的每一第一候选实体,根据所述已训练实体对齐模型从所述第二知识图谱中确定与所述第一候选实体相似度最高的目标实体;
针对所述第二知识图谱中的每一第二候选实体,根据所述已训练实体对齐模型从所述第二知识图谱中确定与所述第二候选实体相似度最高的目标实体;
若所述第一知识图谱中的第一目标实体与所述第二知识图谱中的第二目标实体互为相似度最高,则将所述第一目标实体和所述第二目标实体作为一个匹配对加入所述实体对齐结果中。
在一实施例中,获取模块11还用于:获取第二时刻待对齐的所述第一知识图谱和所述第二知识图谱。
在一实施例中,第一处理模块12还用于:若所述第二时刻所述第一知识图谱有新实体加入,根据所述第一种子实体的向量表示和所述新实体与所述第一种子实体的拓扑关系生成所述新实体的初始向量表示,并更新所述训练样本集中一阶上下文拓扑结构发生变化的样本实体对的初始向量表示,若所述第二时刻所述第一知识图谱有新的实体关系加入,更新所述训练样本集中一阶上下文拓扑结构发生变化的样本实体对的初始向量表示;
若所述第二时刻所述第二知识图谱有新实体加入,根据所述第二种子实体的向量表示和所述新实体与所述第二种子实体的拓扑关系生成所述新实体的初始向量表示,并更新所述训练样本集中一阶上下文拓扑结构发生变化的样本实体对的初始向量表示,若所述第二时刻所述第二知识图谱有新的实体关系加入,更新所述训练样本集中一阶上下文拓扑结构发生变化的样本实体对的初始向量表示;
训练模块13还用于:根据所述新实体的初始向量表示和更新的样本实体对的初始向量表示,对所述已训练实体对齐模型进行微调训练,更新所述已训练实体对齐模型的模型参数,得到更新的实体对齐模型;
第二处理模块14还用于:根据所述更新的实体对齐模型对所述第二时刻的所述第一知识图谱和所述第二知识图谱进行实体对齐,得到新的实体对齐结果。
在一实施例中,第二处理模块14具体用于:根据所述新实体的初始向量表示、所述更新的样本实体对的初始向量表示和所述实体对齐结果,对所述已训练实体对齐模型进行微调训练。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图8所示的知识图谱的实体对齐装置可以执行计算机设备对应的方法实施例,并且该装置中的各个模块的前述和其它操作和/或功能分别为了实现计算机设备对应的方法实施例,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的知识图谱的实体对齐装置和实体对齐装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图9是本申请实施例提供的计算机设备300的示意性框图。
如图9所示,该计算机设备300可包括:
存储器310和处理器320,该存储器310用于存储计算机程序,并将该程序代码传输给该处理器320。换言之,该处理器320可以从存储器310中调用并运行计算机程序,以实现本申请实施例中的方法。
例如,该处理器320可用于根据该计算机程序中的指令执行上述方法实施例。
在本申请实施例的一些实施例中,该处理器320可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本申请实施例的一些实施例中,该存储器310包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在本申请实施例的一些实施例中,该计算机程序可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器310中,并由该处理器320执行,以完成本申请实施例提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该电子设备中的执行过程。
如图9所示,该计算机设备还可包括:
收发器330,该收发器330可连接至该处理器320或存储器310。
其中,处理器320可以控制该收发器330与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器330可以包括发射机和接收机。收发器330还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该电子设备中的各个组件通过总线***相连,其中,总线***除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
本申请实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
以上内容,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以该权利要求的保护范围为准。

Claims (15)

1.一种知识图谱的实体对齐方法,其特征在于,包括:
获取第一时刻待对齐的第一知识图谱和第二知识图谱,并获取训练样本集,每个训练样本包括一个样本实体对和正负样本对指示,所述一个样本实体对由所述第一知识图谱中的第一实体和所述第二知识图谱中的第二实体组成;
将所述第一知识图谱中的k1个实体确定为第一种子实体,将所述第二知识图谱中的k2个实体确定为第二种子实体,并为每个所述第一种子实体和所述第二种子实体分配可学习的向量表示,所述k1、k2为预设正整数;
根据所述训练样本集、所述第一知识图谱、所述第一种子实体、所述第二知识图谱和所述第二种子实体进行实体对齐模型训练,得到已训练的实体对齐模型,在进行实体对齐模型训练时,每个训练样本中所述第一实体的初始向量表示根据所述第一种子实体的向量表示和所述第一实体与所述第一种子实体的拓扑关系生成,每个训练样本中所述第二实体的初始向量表示根据所述第二种子实体的向量表示和所述第二实体与所述第二种子实体的拓扑关系生成;
根据所述已训练实体对齐模型对所述第一时刻的所述第一知识图谱和所述第二知识图谱进行实体对齐,得到实体对齐结果。
2.根据权利要求1所述的方法,其特征在于,根据所述训练样本集、所述第一知识图谱、所述第一种子实体、所述第二知识图谱和所述第二种子实体进行实体对齐模型训练,得到已训练的实体对齐模型,包括:
在任一次迭代训练过程中,从所述训练样本集中选取训练样本子集;
针对所述训练样本子集中的每一训练样本,生成所述训练样本中所述第一实体的初始向量表示和所述训练样本中所述第二实体的初始向量表示;
以所述第一实体的初始向量表示为所述实体对齐模型的输入,输出所述第一实体的向量表示,以所述第二实体的初始向量表示为所述实体对齐模型的输入,输出所述第二实体的向量表示;
根据每次迭代训练过程所得到的所述训练样本中所述第一实体的向量表示和所述第二实体的向量表示以及所述训练样本的正负样本对指示,对所述实体对齐模型的参数进行调整,直到满足停止训练条件,得到已训练的实体对齐模型。
3.根据权利要求2所述的方法,其特征在于,所述生成所述训练样本中所述第一实体的初始向量表示和所述训练样本中所述第二实体的初始向量表示,包括:
从所述第一种子实体中选取n1个种子实体,根据所述第一实体与所述n1个种子实体的拓扑关系,计算所述第一实体与所述n1个种子实体中每个种子实体之间的最短距离,所述n1为预设正整数;
根据所述第一实体与所述n1个种子实体中每个种子实体之间的最短距离、所述n1个种子实体的向量表示和所述第一实体的邻居关系的向量表示生成所述第一实体的初始向量表示;
从所述第二种子实体中选取n2个种子实体,根据所述第二实体与所述n2个种子实体的拓扑关系,计算所述第二实体与所述n2个种子实体中每个种子实体之间的最短距离,所述n2为预设正整数;
根据所述第二实体与所述n2个种子实体中每个种子实体之间的最短距离、所述n2个种子实体的向量表示和所述第二实体的邻居关系的向量表示生成所述第二实体的初始向量表示。
4.根据权利要求2所述的方法,其特征在于,所述实体对齐模型包括第一编码器和第二编码器,所述第一编码器用于获取所述第一知识图谱的内部结构信息和所述第二知识图谱的内部结构信息,所述第二编码器用于获取所述第一知识图谱与所述第二知识图谱之间的实体对齐信息。
5.根据权利要求4所述的方法,其特征在于,所述以所述第一实体的初始向量表示为所述实体对齐模型的输入,输出所述第一实体的向量表示,包括:
以所述第一实体的初始向量表示为所述第一编码器的输入,输出所述第一实体的第一向量表示,以所述第一实体的第一向量表示为所述第二编码器的输入,输出所述第一实体的第二向量表示;
根据权重参数,对所述第一实体的第一向量表示和所述第一实体的第二向量表示进行加权求和,得到所述第一实体的向量表示;
所述以所述第二实体的初始向量表示为所述实体对齐模型的输入,输出所述第二实体的向量表示,包括:
以所述第二实体的初始向量表示为所述第一编码器的输入,输出所述第二实体的第一向量表示,以所述第二实体的第一向量表示为所述第二编码器的输入,输出所述第二实体的第二向量表示;
根据所述权重参数,对所述第二实体的第一向量表示和所述第二实体的第二向量表示进行加权求和,得到所述第二实体的向量表示。
6.根据权利要求5所述的方法,其特征在于,所述第一编码器包括第一层图神经网络和第二层图神经网络,所述以所述第一实体的初始向量表示为所述第一编码器的输入,输出所述第一实体的第一向量表示,包括:
将所述第一实体的初始向量表示分别输入所述第一层图神经网络和所述第二层图神经网络,将所述第一层图神经网络的输出的向量表示和所述第二层图神经网络的输出的向量表示拼接,得到并输出所述第一实体的第一向量表示;
所述以所述第二实体的初始向量表示为所述第一编码器的输入,输出所述第二实体的第一向量表示,包括:
将所述第二实体的初始向量表示分别输入所述第一层图神经网络和所述第二层图神经网络,将所述第一层图神经网络的输出的向量表示和所述第二层图神经网络的输出的向量表示拼接,得到并输出所述第二实体的第一向量表示。
7.根据权利要求5所述的方法,其特征在于,所述第二编码器包括单层全连接层。
8.根据权利要求2所述的方法,其特征在于,所述根据每次迭代训练过程所得到的所述训练样本中所述第一实体的向量表示和所述第二实体的向量表示以及所述训练样本的正负样本对指示,对所述实体对齐模型的参数进行调整,包括:
根据每次迭代训练过程所得到的所述训练样本中所述第一实体的向量表示和所述第二实体的向量表示以及所述训练样本的正负样本对指示,构建损失函数;
根据所述损失函数,反向传播调整所述实体对齐模型的参数。
9.根据权利要求8所述的方法,其特征在于,所述根据每次迭代训练过程所得到的所述训练样本中所述第一实体的向量表示和所述第二实体的向量表示以及所述训练样本的正负样本对指示,构建损失函数,包括:
根据所述训练样本的正负样本对指示,将每次迭代训练过程所得到的所述训练样本中正样本实体对的余弦相似度和负样本实体对的余弦相似度之间的第一差值与超参数的和确定为所述损失函数。
10.根据权利要求1所述的方法,其特征在于,所述根据所述已训练实体对齐模型对所述第一时刻的所述第一知识图谱和所述第二知识图谱进行实体对齐,得到实体对齐结果,包括:
针对所述第一知识图谱中的每一第一候选实体,根据所述已训练实体对齐模型从所述第二知识图谱中确定与所述第一候选实体相似度最高的目标实体;
针对所述第二知识图谱中的每一第二候选实体,根据所述已训练实体对齐模型从所述第二知识图谱中确定与所述第二候选实体相似度最高的目标实体;
若所述第一知识图谱中的第一目标实体与所述第二知识图谱中的第二目标实体互为相似度最高,则将所述第一目标实体和所述第二目标实体作为一个匹配对加入所述实体对齐结果中。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述方法还包括:
获取第二时刻待对齐的所述第一知识图谱和所述第二知识图谱;
若所述第二时刻所述第一知识图谱有新实体加入,根据所述第一种子实体的向量表示和所述新实体与所述第一种子实体的拓扑关系生成所述新实体的初始向量表示,并更新所述训练样本集中一阶上下文拓扑结构发生变化的样本实体对的初始向量表示,若所述第二时刻所述第一知识图谱有新的实体关系加入,更新所述训练样本集中一阶上下文拓扑结构发生变化的样本实体对的初始向量表示;
若所述第二时刻所述第二知识图谱有新实体加入,根据所述第二种子实体的向量表示和所述新实体与所述第二种子实体的拓扑关系生成所述新实体的初始向量表示,并更新所述训练样本集中一阶上下文拓扑结构发生变化的样本实体对的初始向量表示,若所述第二时刻所述第二知识图谱有新的实体关系加入,更新所述训练样本集中一阶上下文拓扑结构发生变化的样本实体对的初始向量表示;
根据所述新实体的初始向量表示和更新的样本实体对的初始向量表示,对所述已训练实体对齐模型进行微调训练,更新所述已训练实体对齐模型的模型参数,得到更新的实体对齐模型;
根据所述更新的实体对齐模型对所述第二时刻的所述第一知识图谱和所述第二知识图谱进行实体对齐,得到新的实体对齐结果。
12.根据权利要求11所述的方法,其特征在于,所述根据所述新实体的初始向量表示和更新的样本实体对的初始向量表示,对所述已训练实体对齐模型进行微调训练,包括:
根据所述新实体的初始向量表示、所述更新的样本实体对的初始向量表示和所述实体对齐结果,对所述已训练实体对齐模型进行微调训练。
13.一种知识图谱的实体对齐装置,其特征在于,包括:
获取模块,用于获取第一时刻待对齐的第一知识图谱和第二知识图谱,并获取训练样本集,每个训练样本包括一个样本实体对和正负样本对指示,所述一个样本实体对由所述第一知识图谱中的第一实体和所述第二知识图谱中的第二实体组成;
第一处理模块,用于将所述第一知识图谱中的k1个实体确定为第一种子实体,将所述第二知识图谱中的k2个实体确定为第二种子实体,并为每个所述第一种子实体和所述第二种子实体分配可学习的向量表示,所述k1、k2为预设正整数;
训练模块,用于根据所述训练样本集、所述第一知识图谱、所述第一种子实体、所述第二知识图谱和所述第二种子实体进行实体对齐模型训练,得到已训练的实体对齐模型,在进行实体对齐模型训练时,每个训练样本中所述第一实体的初始向量表示根据所述第一种子实体的向量表示和所述第一实体与所述第一种子实体的拓扑关系生成,每个训练样本中所述第二实体的初始向量表示根据所述第二种子实体的向量表示和所述第二实体与所述第二种子实体的拓扑关系生成;
第二处理模块,用于根据所述已训练实体对齐模型对所述第一时刻的所述第一知识图谱和所述第二知识图谱进行实体对齐,得到实体对齐结果。
14.一种计算机设备,其特征在于,包括:
处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,以执行权利要求1至12中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机程序上运行时,使得所述计算机执行如权利要求1至12中任一项所述的方法。
CN202211567346.0A 2022-12-07 2022-12-07 知识图谱的实体对齐方法、装置、设备及存储介质 Pending CN117009539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211567346.0A CN117009539A (zh) 2022-12-07 2022-12-07 知识图谱的实体对齐方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211567346.0A CN117009539A (zh) 2022-12-07 2022-12-07 知识图谱的实体对齐方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117009539A true CN117009539A (zh) 2023-11-07

Family

ID=88564241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211567346.0A Pending CN117009539A (zh) 2022-12-07 2022-12-07 知识图谱的实体对齐方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117009539A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407689A (zh) * 2023-12-14 2024-01-16 之江实验室 一种面向实体对齐的主动学习方法、装置和电子装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407689A (zh) * 2023-12-14 2024-01-16 之江实验室 一种面向实体对齐的主动学习方法、装置和电子装置
CN117407689B (zh) * 2023-12-14 2024-04-19 之江实验室 一种面向实体对齐的主动学习方法、装置和电子装置

Similar Documents

Publication Publication Date Title
US9990558B2 (en) Generating image features based on robust feature-learning
WO2020114022A1 (zh) 一种知识库对齐方法、装置、计算机设备及存储介质
CN111400504B (zh) 企业关键人的识别方法和装置
CN111612134A (zh) 神经网络结构搜索方法、装置、电子设备及存储介质
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN111443964A (zh) 更新用户界面的方法、设备和计算机程序产品
CN114491039A (zh) 基于梯度改进的元学习少样本文本分类方法
CN117009539A (zh) 知识图谱的实体对齐方法、装置、设备及存储介质
US12045711B2 (en) Response generation using memory augmented deep neural networks
Santacruz et al. Learning the sub-optimal graph edit distance edit costs based on an embedded model
US20230142351A1 (en) Methods and systems for searching and retrieving information
CN111897943A (zh) 会话记录搜索方法、装置、电子设备及存储介质
CN114547308B (zh) 文本处理的方法、装置、电子设备及存储介质
CN116957006A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
CN114898184A (zh) 模型训练方法、数据处理方法、装置及电子设备
CN114880991A (zh) 知识图谱问答问句实体链接方法、装置、设备及介质
Hu et al. Research on real-time network data mining technology for big data
CN111091198A (zh) 一种数据处理方法及装置
Lin et al. An efficient modified Hyperband and trust-region-based mode-pursuing sampling hybrid method for hyperparameter optimization
CN116050508B (zh) 神经网络训练方法以及装置
US11829735B2 (en) Artificial intelligence (AI) framework to identify object-relational mapping issues in real-time
CN115203420B (zh) 实体关系分类模型训练方法、实体关系分类方法及装置
EP4123511A1 (en) Trainable differential privacy for machine learning
Feng et al. Construction of Legal Reporting Information Platform Based on Natural Optimization Algorithm
CN116975705A (zh) 信息预测模型训练方法、信息预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication