CN117556058B

CN117556058B - 知识图谱增强网络嵌入的作者名称消歧方法和装置

Info

Publication number: CN117556058B
Application number: CN202410040729.5A
Authority: CN
Inventors: 赵姝; 章丽; 陈洁; 段震; 程远方; 李宇; 张燕平; 朱金良
Original assignee: Hefei Ruihui Artificial Intelligence Research Institute Co ltd; Anhui University
Current assignee: Hefei Ruihui Artificial Intelligence Research Institute Co ltd; Anhui University
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-05-24
Anticipated expiration: 2044-01-11
Also published as: CN117556058A

Abstract

本申请提出了一种知识图谱增强网络嵌入的作者名称消歧方法和装置，涉及实体消歧技术领域，其中，该方法包括：获取作者名称消歧数据集；基于作者名称消歧数据集构建知识图谱，并利用PairRE模型得到知识图谱表征；基于作者名称消歧数据集构建异构信息网络，并基于知识图谱得到的节点嵌入指导异构信息网络进行随机漫步，得到节点表征；将知识图谱表征和节点表征融合，并对融合后的表征进行聚类，得到作者名称消歧结果。采用上述方案的本申请实现了作者名称的准确消歧。

Description

知识图谱增强网络嵌入的作者名称消歧方法和装置

技术领域

本申请涉及实体消歧技术领域，尤其涉及知识图谱增强网络嵌入的作者名称消歧方法和装置。

背景技术

目前一种被广泛使用的有效作者名称消歧方法是通过多种特征学习出版物表征，然后测量出版物之间的相似性并识别它们是否属于同一作者，该方法存在以下缺点：

对每种类型的特征关系构建同构关系网络，分别学习出版物表征，忽略了出版物之间的异构关系；

常规异构网络区分不同类型的特征关系需要预先设定多个元路径，并逐个测试多个元路径的结果，需要高昂的时间成本。并且，这些作者名称消歧方法只是单纯的将特征的关系信息表示为网络上的边，对于网络中实体和关系整体的考虑仍然不足。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种知识图谱增强网络嵌入的作者名称消歧方法，解决了现有方法时间成本高、考虑因素不全面的技术问题，实现了作者名称的准确消歧。

本申请的第二个目的在于提出一种知识图谱增强网络嵌入的作者名称消歧装置。

为达上述目的，本申请第一方面实施例提出了一种知识图谱增强网络嵌入的作者名称消歧方法，包括获取作者名称消歧数据集；基于作者名称消歧数据集构建知识图谱，并利用PairRE模型得到知识图谱表征；基于作者名称消歧数据集构建异构信息网络，并基于知识图谱得到的节点嵌入指导异构信息网络进行随机漫步，得到节点表征；将知识图谱表征和节点表征融合，并对融合后的表征进行聚类，得到作者名称消歧结果。

本申请实施例的知识图谱增强网络嵌入的作者名称消歧方法，通过构建学术知识图谱，利用PairRE模型得到知识图谱表征，通过构建异构信息网络，利用基于知识图谱节点嵌入的随机漫步策略得到节点表征，通过融合论文表征、聚类并得到消歧结果，本申请考虑了出版物之间的异构信息，针对异构信息网络环境下的作者名称消歧问题进行了特殊处理，有效保证了作者名称的准确消歧。

可选地，在本申请的一个实施例中，作者名称消歧数据集包括作者、出版物和出版机构，在获取作者名称消歧数据集之后，还包括：

对作者名称消歧数据集中的数据进行清洗，去除数据的噪声，得到清洗后的数据。

可选地，在本申请的一个实施例中，基于作者名称消歧数据集构建知识图谱，包括：

通过OCDM将作者名称消歧数据集中包含的作者、出版物和出版机构作为实体进行建模，得到知识图谱三元组数据集作为知识图谱。

可选地，在本申请的一个实施例中，异构信息网络的实体包括论文、作者、出版物和出版机构，实体之间的关系特征包括论文和作者之间的关系、论文和出版物之间的关系，以及作者与出版机构之间的关系。

可选地，在本申请的一个实施例中，基于知识图谱得到的节点嵌入指导异构信息网络进行随机漫步，得到节点表征，包括：

使用基于知识图谱节点嵌入的随机漫步策略对异构信息网络进行节点采样，得到异构信息网络的节点序列，其中，基于知识图谱节点嵌入的随机漫步策略包括通过Stay策略控制随机游走停留的概率，通过Jump策略选择随机游走下一步跳转的目标；

将节点序列输入Skip-Gram模型中训练节点向量，得到节点表征。

可选地，在本申请的一个实施例中，Stay策略为根据当前节点的连续停留次数，动态调整随机游走停留的概率，其中，当前节点的停留概率表示为：

其中，为当前节点/>的停留概率，/>表示连接到当前节点/>的齐次边集合，表示当前节点/>，/>表示初始停留概率，/>为当前节点/>所在同一域中连续访问的节点数；

Jump策略为计算节点的知识图谱嵌入结果之间的相似性，并将相似性最高的邻居节点作为下一步跳转的目标；

邻居节点的相似性表示为：

其中，为当前节点，/>为当前节点的邻居节点。

为达上述目的，本申请第二方面实施例提出了一种知识图谱增强网络嵌入的作者名称消歧装置，包括数据获取模块、第一表征获取模块、第二表征获取模块、消歧模块，其中，

数据获取模块，用于获取作者名称消歧数据集；

第一表征获取模块，用于基于作者名称消歧数据集构建知识图谱，并利用PairRE模型得到知识图谱表征；

第二表征获取模块，用于基于作者名称消歧数据集构建异构信息网络，并基于知识图谱得到的节点嵌入指导异构信息网络进行随机漫步，得到节点表征；

消歧模块，用于将知识图谱表征和节点表征融合，并对融合后的表征进行聚类，得到作者名称消歧结果。

可选地，在本申请的一个实施例中，作者名称消歧数据集包括作者、出版物和出版机构，装置还包括数据清洗模块，用于在获取作者名称消歧数据集之后，对作者名称消歧数据集中的数据进行清洗，去除数据的噪声，得到清洗后的数据。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种知识图谱增强网络嵌入的作者名称消歧方法的流程示意图；

图2为本申请实施例的在AMiner11和AMiner18数据集上本申请和其他技术的性能对比图；

图3为本申请实施例提供的一种知识图谱增强网络嵌入的作者名称消歧装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的知识图谱增强网络嵌入的作者名称消歧方法和装置。

图1为本申请实施例一所提供的一种知识图谱增强网络嵌入的作者名称消歧方法的流程示意图。

如图1所示，该知识图谱增强网络嵌入的作者名称消歧方法包括以下步骤：

步骤101，获取作者名称消歧数据集；

步骤102，基于作者名称消歧数据集构建知识图谱，并利用PairRE模型得到知识图谱表征；

步骤103，基于作者名称消歧数据集构建异构信息网络，并基于知识图谱得到的节点嵌入指导异构信息网络进行随机漫步，得到节点表征；

步骤104，将知识图谱表征和节点表征融合，并对融合后的表征进行聚类，得到作者名称消歧结果。

作为一种示例，使用两个已公开的作者名称消歧数据集（AMiner11，AMiner18），对其进行预处理，数据集包括论文名称、作者、机构信息。使用python的字符处理库对数据进行清洗,去除噪声获得更加规范的文本,清洗成适用于后续步骤的数据。

利用OpenCitations Data Model (OCDM)将异构网络重构成知识图谱，并利用知识图谱的三元组来表示头尾实体的异构关系类型，从而更好地捕捉同名作者之间的潜在联系，之后利用PairRE模型得到知识图谱表征。

作为一种示例，通过采用OpenCitations Data Model (OCDM)，分别对上述清洗过的两个数据集中与作者、出版物和场所相关的实体进行了建模，构建两个消歧的知识图谱三元组数据集（AMiner11-KG，AMiner18-KG）。该模型包含三种类型的实体和三种类型的关系：fabio:Expression（代表文章、书籍、会议论文等学术作品）、fabio:Journal（代表期刊场所），以及foaf:Agent（代表作者）。在论文和作者之间添加dcterms:creator关系，使用frbr:partOf关系表示论文和期刊之间的关系，使用pro:relatesToOrganization关系表示作者和所属机构之间的关系。根据数据模型的要求，提取属性三元组和连接不同实体的三元组。需要注意的是，由于许多可用的学术数据集往往没有提供摘要、关键字以及引用关系这些信息，因此省略了部分属性和信息，以确保数据集的一致性和可重复性。

可选地，在本申请的一个实施例中，在消除作者姓名歧义的任务中，实体关系对于确定论文作者的真实身份非常重要。为了捕捉实体之间的相互联系，基于数据集构建了一个异构属性网络，该网络包含四种类型的实体节点和三种类型的关系特征。其中包括论文和作者之间的creator关系，论文和期刊之间的partof关系，以及作者与其附属机构之间的rerelatedsToOrganization关系。

可选地，在本申请的一个实施例中，利用基于知识图谱节点嵌入的随机漫步策略得到节点表征，包括：

首先设计了一个基于知识图谱节点嵌入的随机漫步策略；

之后，利用该策略对构建的学术异构网络进行节点采样。该策略分为两个关键步骤：一是根据当前节点的连续停留次数，动态地调整随机游走停留的概率，从而逐渐减少连续停留的可能性（Stay策略）；二是基于节点的知识图谱嵌入结果之间的相似性，挑选出具有更高相似性的邻居节点，作为下一步跳转的目标（Jump策略）。这种策略不仅保持了异构网络的局部探索能力，还能充分利用知识图谱节点嵌入信息，从而更有效地考虑到实体和关系的整体信息。

然后，通过以上方式生成异构网络上的随机游走序列。

最后，将得到的节点序列输入Skip-Gram模型来训练节点向量，从而得到节点的表征。

通过这种方式，能够有效地平衡同质和异质边，并考虑到不同类型节点的分布，更有效地考虑到实体和关系的整体信息，从而学习到节点之间的语义关联和特征表示；

可选地，在本申请的一个实施例中，在Stay策略中，随机游走的下一步会以一定的概率选择停留在当前节点的节点类型上。也就是说，与当前节点有边且与当前节点同类型的邻居节点会成为下一跳节点的候选集。基于当前节点，选择保持以下概率(否则Jump)：

其中，为初始停留概率，/>为当前节点/>所在同一域中连续访问的节点数。首先，如果没有齐次边连接到/>，即/>，只能跳转到另一个域。第二，在没有异质边连接到/>的情况下，即，只能停留在同一个域内。最后，在异质边和同质边都连接到/>的情况下，通过选择以/>的概率来控制jump/stay选项。在这里，对该概率采用指数衰减函数来惩罚行走在一个域中停留太久的情况，因为停留概率随/>呈指数下降。此外，初始停留概率/>控制了/>随/>下降的速度；

在Jump策略中，随机游走的下一步会跳转到其他节点类型。具体而言，首先将PairRE模型合并到框架中学习知识图谱中节点的潜在特征。之后，根据得到的知识图谱节点特征计算当前节点与邻居节点的相似性，并将其映射到范围内，计算公式如下：

然后将相似性值转化为跳转概率，从邻居节点中随机选择概率较高的节点作为跳转目标，以便引导游走朝着与当前节点语义相关的方向进行。

根据一些实施例，通过PairRE模型和基于知识图谱节点嵌入的随机漫步策略分别得到了知识图谱表征结果和异构学术网络的节点表征结果。在融合嵌入方面，利用知识图谱提供的全局视角，采用加权融合的策略，将整体知识图谱表征结果和异构学术网络的节点表征结果进行融合，以综合考虑实体和关系的整体信息以及不同类型节点之间的语义关联和特征表示。

在一些实施例中，通过聚类算法将每个块中的作者特征分组到/>簇/>, ...，/>中，其中所有特征都在/>中，其中/>，理想情况下，属于同一真实世界的作者。

使用常见的HAC（Hierarchical Agglomerative Clustering）聚类算法来对作者特征进行阻塞。该算法以自下而上的方式构建特征簇。对于每个块中的作者特征，将它们视为单独的簇，并通过迭代地合并最相似的簇来构建聚类结构，直到所有特征都被合并到一个最终簇中。

为了有效地评估本申请的性能，利用以下指标度量：成对F1分数，成对精度和成对召回率（分别表示为pF1，pP，pR）。成对F1分数是配对级别的关键评估指标，它评估成对预测的准确性，并捕获本申请在解决作者名称消歧方面的有效性，图2为在AMiner11和AMiner18数据集上本申请和其他技术的性能对比图，如图2所示，相比其他技术，本申请能够更有效解决作者名称消歧问题。

为了实现上述实施例，本申请还提出一种知识图谱增强网络嵌入的作者名称消歧装置。

如图3所示，该知识图谱增强网络嵌入的作者名称消歧装置包括数据获取模块、第一表征获取模块、第二表征获取模块、消歧模块，其中，

数据获取模块，用于获取作者名称消歧数据集；

可选地，在本申请的一个实施例中，基于作者名称消歧数据集构建异构信息网络，包括：

异构信息网络的实体包括论文、作者、出版物和出版机构，实体之间的关系特征包括论文和作者之间的关系、论文和出版物之间的关系，以及作者与出版机构之间的关系。

需要说明的是，前述对知识图谱增强网络嵌入的作者名称消歧方法实施例的解释说明也适用于该实施例的知识图谱增强网络嵌入的作者名称消歧装置，此处不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种知识图谱增强网络嵌入的作者名称消歧方法，其特征在于，包括以下步骤：

获取作者名称消歧数据集；

基于所述作者名称消歧数据集构建知识图谱，并利用PairRE模型得到知识图谱表征；

基于所述作者名称消歧数据集构建异构信息网络，并基于知识图谱得到的节点嵌入指导所述异构信息网络进行随机漫步，得到节点表征；

将所述知识图谱表征和所述节点表征融合，并对融合后的表征进行聚类，得到作者名称消歧结果；

其中，所述基于知识图谱得到的节点嵌入指导所述异构信息网络进行随机漫步，得到节点表征，包括：

使用基于知识图谱节点嵌入的随机漫步策略对所述异构信息网络进行节点采样，得到所述异构信息网络的节点序列，其中，所述基于知识图谱节点嵌入的随机漫步策略包括通过Stay策略控制随机游走停留的概率，通过Jump策略选择随机游走下一步跳转的目标；

将所述节点序列输入Skip-Gram模型中训练节点向量，得到节点表征；

所述Stay策略为根据当前节点的连续停留次数，动态调整随机游走停留的概率，其中，当前节点的停留概率表示为：

其中，为当前节点/>的停留概率， />表示连接到当前节点/>的齐次边集合，表示当前节点/>，/>表示初始停留概率，/>为当前节点/>所在同一域中连续访问的节点数；

所述Jump策略为计算节点的知识图谱嵌入结果之间的相似性，并将相似性最高的邻居节点作为下一步跳转的目标；

所述邻居节点的相似性表示为：

其中，为当前节点，/>为当前节点的邻居节点。

2.如权利要求1所述的知识图谱增强网络嵌入的作者名称消歧方法，其特征在于，所述作者名称消歧数据集包括作者、出版物和出版机构，在获取作者名称消歧数据集之后，还包括：

对所述作者名称消歧数据集中的数据进行清洗，去除数据的噪声，得到清洗后的数据。

3.如权利要求2所述的知识图谱增强网络嵌入的作者名称消歧方法，其特征在于，所述基于所述作者名称消歧数据集构建知识图谱，包括：

通过OCDM将所述作者名称消歧数据集中包含的作者、出版物和出版机构作为实体进行建模，得到知识图谱三元组数据集作为所述知识图谱。

4.如权利要求2所述的知识图谱增强网络嵌入的作者名称消歧方法，其特征在于，所述异构信息网络的实体包括论文、作者、出版物和出版机构，实体之间的关系特征包括论文和作者之间的关系、论文和出版物之间的关系，以及作者与出版机构之间的关系。

5.一种知识图谱增强网络嵌入的作者名称消歧装置，其特征在于，包括数据获取模块、第一表征获取模块、第二表征获取模块、消歧模块，其中，

所述数据获取模块，用于获取作者名称消歧数据集；

所述第一表征获取模块，用于基于所述作者名称消歧数据集构建知识图谱，并利用PairRE模型得到知识图谱表征；

所述第二表征获取模块，用于基于所述作者名称消歧数据集构建异构信息网络，并基于知识图谱得到的节点嵌入指导所述异构信息网络进行随机漫步，得到节点表征；

所述消歧模块，用于将所述知识图谱表征和所述节点表征融合，并对融合后的表征进行聚类，得到作者名称消歧结果；

所述邻居节点的相似性表示为：

其中，为当前节点，/>为当前节点的邻居节点。

6.如权利要求5所述的知识图谱增强网络嵌入的作者名称消歧装置，其特征在于，所述作者名称消歧数据集包括作者、出版物和出版机构，所述装置还包括数据清洗模块，用于在获取作者名称消歧数据集之后，对所述作者名称消歧数据集中的数据进行清洗，去除数据的噪声，得到清洗后的数据。

7.如权利要求6所述的知识图谱增强网络嵌入的作者名称消歧装置，其特征在于，所述基于所述作者名称消歧数据集构建知识图谱，包括：

8.如权利要求6所述的知识图谱增强网络嵌入的作者名称消歧装置，其特征在于，所述异构信息网络的实体包括论文、作者、出版物和出版机构，实体之间的关系特征包括论文和作者之间的关系、论文和出版物之间的关系，以及作者与出版机构之间的关系。