CN109684625B

CN109684625B - 实体处理方法、装置和存储介质

Info

Publication number: CN109684625B
Application number: CN201811290669.3A
Authority: CN
Inventors: 方舟; 冯知凡; 李双婕; 徐也; 梁海金; 张扬; 陆超; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2021-01-12
Anticipated expiration: 2038-10-31
Also published as: CN109684625A

Abstract

本发明提供一种实体处理方法、装置和存储介质，该方法包括：对知识图谱中的目标实体进行分组，获取多个实体组，每个实体组中包括多个目标实体对；获取每个实体组的每个目标实体对中的两个目标实体的相似度，并将相似度大于相似度阈值的两个目标实体进行融合，获取多个新的实体组；在多个新的实体组中获取待建边客体的关联实体，并将待建边客体与关联实体进行关联；待建边客体为待建边的三元组中的客体，待建边客体的关联实体为：与待建边客体的相似度大于相似度阈值的目标实体。本发明在新的实体集中进行实体建边，使得实体融合和实体建边进行了关联，提高了知识图谱的连通度，且采用相似度的方式进行实体融合，提高了实体融合的准确性。

Description

实体处理方法、装置和存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种实体处理方法、装置和存储介质。

背景技术

知识图谱(Knowledge Graph)又称为科学知识图谱。知识图谱在无论是学术界还是工业界都有着举足轻重的地位，它是人工智能的基础，也是实现智能问答等应用的必经之路，能够快捷方便地为用户提供信息。知识图谱中包括多个结构化实体，即大量主谓宾三元组(SPO)的集合，S即subject，P即predict，O即object。对实体的处理一般包括：实体融合、实体建边；实体融合指的是对新实体进行收录归一，即将新实体与知识图谱中的实体匹配，将新实体与知识图谱中匹配的实体进行合并；实体建边是指对SPO中的O进行实体消歧，在知识图谱中找到对应的相同概念的实体。

现有技术中，对实体进行处理的两个步骤之间没有建立联系，即二者是孤立分开处理的，不能对实体进行有效的处理，且现有技术中对实体的融合只是根据实体名称和别名的方式进行匹配，融合的准确性低。

发明内容

本发明提供一种实体处理方法、装置和存储介质，在新的实体集中进行实体建边，使得实体融合和实体建边进行了关联，提高了知识图谱的连通度，且采用相似度的方式进行实体融合，提高了实体融合的准确性。

本发明的第一方面提供一种实体处理方法，包括：

对知识图谱中的目标实体进行分组，获取多个实体组，每个所述实体组中包括多个目标实体对，所述实体组中的一个所述目标实体对是由所述实体组中一个目标实体与其他目标实体组成的；

获取每个所述实体组的每个所述目标实体对中的两个目标实体的相似度，并将相似度大于相似度阈值的两个目标实体进行融合，获取多个新的实体组，每个所述新的实体组中不包含相似度大于相似度阈值的目标实体；

在多个所述新的实体组中获取待建边客体的关联实体，并将所述待建边客体与所述关联实体进行关联；所述待建边客体为所述待建边的主谓宾三元组中的客体，所述待建边客体的关联实体为：在所述新的实体组中，与所述待建边客体的相似度大于所述相似度阈值的目标实体。

可选的，所述对知识图谱中的目标实体进行分组，获取多个实体组之前，包括：

根据所述知识图谱中的每个实体的语义，获取所述目标实体。

可选的，所述获取每个所述实体组的每个所述目标实体对中的两个目标实体的相似度，包括：

采用预设的属性比较方法和属性重要度，获取每个所述目标实体对中两个目标实体之间的属性相似度；

采用预设的迭代模型，对所述属性相似度进行迭代计算，获取每个所述目标实体对中的两个目标实体的相似度。

可选的，采用预设的属性比较方法和属性重要度，获取每个所述目标实体对中两个目标实体之间的属性相似度，包括：

根据所述属性重要度中的比较信息，确定每个所述目标实体对中两个目标实体之间的多个待比较属性对；

根据每个所述待比较属性对的特征，从所述预设的属性比较方法中选取对应的比较方法进行属性对比较，获取每个所述目标实体对中两个目标实体之间的属性相似度。

可选的，所述在每个所述新的实体组中获取待建边客体的关联实体，包括：

若在所述新的实体组中存在目标实体为所述待建边客体的预设关联实体时，将所述目标实体作为所述关联实体；和/或，

若存在目标实体的名称与所述待建边客体的名称相同、或者存在目标实体与所述建边实体具有共现关系、或者存在目标实体的类型与所述待建边客体的类型相同时，将所述目标实体作为所述关联实体；和/或，

在所述新的实体组中，获取每个所述待建边客体的多个候选目标实体；

获取每个所述待建边客体与每个候选目标实体的相似度，将最大相似度对应的候选目标实体作为候选关联实体；

若所述待建边客体对应的实体存在于所述知识图谱中时，将所述候选关联实体确定为所述关联实体。

可选的，所述获取每个所述待建边客体与每个候选目标实体的相似度，包括：

获取每个所述候选目标实体对应的对特征和组特征，所述对特征为衡量所述待建边客体与所述候选目标实体之间的相似性的特征，所述组特征为衡量包括所述待建边的客体的三元组与所述候选目标实体之间的相似性的特征。

可选的，所述若所述待建边客体对应的实体存在于所述知识图谱中时，将所述候选关联实体确定为所述关联实体之前，还包括：

确定所述候选关联实体是否与所述待建边的实体存在冲突；

若否，判断所述待建边客体对应的实体是否存在于所述知识图谱中。

本发明的第二方面提供一种实体处理装置，包括：

分组模块，用于对知识图谱中的目标实体进行分组，获取多个实体组，每个所述实体组中包括多个目标实体对，所述实体组中的一个所述目标实体对是由所述实体组中一个目标实体与其他目标实体组成的；

融合模块，用于获取每个所述实体组的每个所述目标实体对中的两个目标实体的相似度，并将相似度大于相似度阈值的两个目标实体进行融合，获取多个新的实体组，每个所述新的实体组中不包含相似度大于相似度阈值的目标实体；

关联模块，用于在多个所述新的实体组中获取待建边客体的关联实体，并将所述待建边客体与所述关联实体进行关联；所述待建边客体为所述待建边的主谓宾三元组中的客体，所述待建边客体的关联实体为：在所述新的实体组中，与所述待建边客体的相似度大于所述相似度阈值的目标实体。

可选的，所述装置还包括：目标实体获取模块；

所述目标实体获取模块，用于根据所述知识图谱中的每个实体的语义，获取所述目标实体。

可选的，所述融合模块，具体用于采用预设的属性比较方法和属性重要度，获取每个所述目标实体对中两个目标实体之间的属性相似度；采用预设的迭代模型，对所述属性相似度进行迭代计算，获取每个所述目标实体对中的两个目标实体的相似度。

可选的，所述融合模块，具体用于根据所述属性重要度中的比较信息，确定每个所述目标实体对中两个目标实体之间的多个待比较属性对；

可选的，所述关联模块，具体用于若在所述新的实体组中存在目标实体为所述待建边客体的预设关联实体时，将所述目标实体作为所述关联实体；和/或，

可选的，所述关联模块，具体用于获取每个所述候选目标实体对应的对特征和组特征，所述对特征为衡量所述待建边客体与所述候选目标实体之间的相似性的特征，所述组特征为衡量包括所述待建边的客体的三元组与所述候选目标实体之间的相似性的特征。

可选的，所述关联模块，具体用于确定所述候选关联实体是否与所述待建边的实体存在冲突；若否，判断所述待建边客体对应的实体是否存在于所述知识图谱中。

本发明的第三方面提供一种实体处理装置，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述实体处理装置执行上述实体处理方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现上述实体处理方法。

附图说明

图1为本发明提供的实体处理方法的流程示意图一；

图2为本发明提供的实体处理方法的流程示意图二；

图3为本发明提供的实体处理方法中的实体建边的又一种可行的实施方式的流程示意图；

图4为本发明提供的实体处理装置的结构示意图一；

图5为本发明提供的实体处理装置的结构示意图二；

图6为本发明提供的实体处理装置的结构示意图三。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明专业术语释义：

三元组：在构建知识图谱时，需要对文档进行知识抽取，采用三元组的形式对文档的内容进行对应表示，三元组中包括实体、客体，以及，主体和客体之间的属性关系；其中，实体S即subject，属性关系P即predict，客体O即object；示例性的，如对文档内容抽取知识为“A的女儿是B”，则实体为A，客体为B，属性关系为女儿。

实体：主谓宾三元组信息中的主语。

客体：主谓宾三元组信息中的宾语。

图1为本发明提供的实体处理方法的流程示意图一，图1所示方法流程的执行主体可以为实体处理装置，该实体处理装置可由任意的软件和/或硬件实现。如图1所示，本实施例提供的实体处理方法可以包括：

S101，对知识图谱中的目标实体进行分组，获取多个实体组，每个实体组中包括多个目标实体对，实体组中的一个目标实体对是由实体组中一个目标实体与其他目标实体组成的。

知识图谱中包含有多个实体，该多个实体中可能包含有重复实体；如一实体具有多个别名，该多个别名对应的实体与该实体为重复实体；或者，一实体的语义与另一实体的语义相同，可以将该两个实体作为重复实体。当知识图谱中包含有重复实体时，若未将重复实体进行融合，示例性的，若A和B属于重复实体，知识图谱未将A和B进行融合，则在用户进行知识图谱的查询时，若输入的查询实体为A，则该知识图谱只能将A对应的文档返回给用户；但若知识图谱将A和B进行融合，则该知识图谱会将A和B对应的文档均返回给用户，使得用户获取的文档更为全面、准确。

本实施例中知识图谱中的目标实体为可能存在重复的实体，该目标实体可以是由用户根据实际实体数据进行选择的多个实体。具体的，对目标实体进行分组，获取多个实体组的具体方式为：将语义相同的实体分为一个实体组中；或者，将包含有相同的实体名称(包含有别名)的实体分为一个实体组；或者，将包含有相同属性的实体分为一个实体组，如实体明星A的属性分别为性别、国籍，实体明星B的属性分别为生日、国籍，其中，实体明星A和实体明星B均包括属性国籍，因此，可以按照具有相同的属性将实体明星A和实体明星B分为一个实体组。

具体的，每个实体组包含有多个目标实体，其中，一个目标实体与该实体组的中的其他每个目标实体分别组成目标实体对，每个实体组中包括多个目标实体对。示例性的，如实体组A中包含有目标实体1、目标实体2、和目标实体3，则实体组A中包含的实体对为：(目标实体1，目标实体2)、(目标实体1，目标实体3)和(目标实体2，目标实体3)。

可以想到的是，获取知识图谱中的目标实体的方式除了用户选择外，也可预先在实体处理装置中设置目标实体获取规则，如按照实体的语义、或者实体的名称、或者是否具有相同的属性，在多个实体中获取多个可能存在重复的目标实体。

本实施例中，预先获取知识图谱中的目标实体，预先圈定可能存在重复的实体，对圈定的目标实体进行相似度的计算，避免了对知识图谱中的所有的实体进行比较产生的计算冗余，可以减少实体比较的个数，进而减少时间复杂度。

S102，获取每个实体组的每个目标实体对中的两个目标实体的相似度，并将相似度大于相似度阈值的两个目标实体进行融合，获取多个新的实体组，每个新的实体组中不包含相似度大于相似度阈值的目标实体。

每个实体组的每个目标实体对中的两个目标实体都具有属性信息。本实施例中，可以根据先验属性信息，利用各实体的属性信息计算一个实体对中的两个目标实体的之间的相似度，其中，实体相似度是两个目标实体之间的相似程度，用于确定两个目标实体能否在知识图谱中进行融合归一。

本实施例中，可以在实体处理装置中预先设置相似度阈值，其中，该相似度阈值可以为用户的经验值，也可以是用户根据实际比较的实体对进行设置的阈值；在每个实体组中获取多个实体对的相似度中，存在一个或多个实体相似度大于相似度阈值时，则确定大于相似度阈值的相似度对应的实体对中的两个目标实体为重复实体。

在实体处理装置获取重复实体后，将重复实体、即相似度大于相似度阈值的两个目标实体进行融合，获取多个新的实体组。具体的，对两个目标实体进行融合可以是将两个目标实体进行关联，将该两个目标实体存储在一个新的实体组中，且将该新的实体组中实体由一个目标实体进行表示；可以想到的是，一个实体组中可能包含有多个重复实体，可以将该多个重复实体均存储在该一个新的实体组。

其中，每个新的实体组中不包含相似度大于相似度阈值的目标实体；具体的，每个新的实体组中的属性为原有的目标实体的属性的加和；其中，若存在实体之间的属性不同时，将属性的加和作为该新的实体组的实体对应的属性。值得注意的是，若实体之间存在相同的属性，则根据属性对应的文档的更新时间获取真属性，真属性指的是文档的更新时间最新的属性。

示例性的，实体组A中包含的实体对中所有的目标实体均为重复实体，因此将目标实体1、目标实体2、目标实体3确定为重复实体，且将目标实体1、目标实体2、目标实体3存储在一个新的实体集合A'中。其中，目标实体1、目标实体2、目标实体3相关联，或者，该新的实体集合A'对应的实体名称为目标实体1、目标实体2、目标实体3中任意一个目标实体的名称；该新的实体集合A'的属性为目标实体1、目标实体2、目标实体3分别对应的属性的加和。

如：目标实体1对应的属性为a、b和c，目标实体2对应的属性为d，目标实体3对应的属性为a；则实体集合A'的属性为(a、b、c、d)，其中，目标实体1和目标实体3对应的属性a为相同属性，则判断目标实体1和目标实体3分别对应的文档的更新时间，若目标实体1对应的文档的更新时间比目标实体1对应的文档的更新时间要新，则将目标实体1对应的属性a确定为实体集合A'的属性中的a。

S103，在多个新的实体组中获取待建边客体的关联实体，并将待建边客体与关联实体进行关联；待建边客体为待建边的主谓宾三元组中的客体，待建边客体的关联实体为：在新的实体组中，与待建边客体的相似度大于相似度阈值的目标实体。

实体建边，即对SPO中的客体O进行实体消歧，在知识图谱中找到对应的相同概念的实体进行关联，增加知识图谱中的联通度。现有技术中提出了各种实体建边方式，如比较常用的有：通过机器学习方法将知识库中的实体与关系都转化为向量表达，向量之间的距离表示了实体与实体、实体与关系之间的联系等，但这种方式需要对所有实体与属性进行训练，训练时间较长，处理效率低下。

本实施例中，在对知识图谱中的实体进行归一融合后，获取待建边客体的关联实体，使得待建边客体与该知识图谱中的实体相关联。其中，待建边客体为待建边的主谓宾三元组中的客体，待建边客体的关联实体为：在新的实体组中，与待建边客体的相似度大于相似度阈值的目标实体。具体的，待建边客体与新的实体组中的实体之间的相似度的获取方式，可以与上述获取目标实体对中的两个目标实体的相似度的方式相同，在此不做赘述。

其中，在每个新的实体组中获取待建边客体的关联实体后，将该待建边客体与关联实体进行关联，使得该关联实体与待建边客体相关联。具体的，在用户进行关联实体的查询词时，可以为用户返回该关联实体对应的文档，以及该关联实体关联的待建边客体对应的文档，使得用户获取的搜索结果更为完整、准确。

本实施例提供的实体处理方法包括：对知识图谱中的目标实体进行分组，获取多个实体组，每个实体组中包括多个目标实体对；获取每个实体组的每个目标实体对中的两个目标实体的相似度，并将相似度大于相似度阈值的两个目标实体进行融合，获取多个新的实体组；在每个新的实体组中获取待建边客体的关联实体，并将待建边客体与关联实体进行关联；待建边客体为待建边的三元组中的客体，待建边客体的关联实体为：与待建边客体的相似度大于相似度阈值的目标实体。本发明在新的实体集中进行实体建边，使得实体融合和实体建边进行了关联，提高了知识图谱的连通度，且采用相似度的方式进行实体融合，提高了实体融合的准确性。

在上述实施例的基础上，下面结合图2对本发明提供的实体处理方法中的实体融合进行详细说明，图2为本发明提供的实体处理方法的流程示意图二，如图2所示，本实施例提供的实体处理方法可以包括：

S201，根据知识图谱中的每个实体的语义，获取目标实体。

本实施例中，在知识图谱中获取目标实体，具体可以根据每个实体的语义，将具有相同语义的实体确定为目标实体。可以想到的是，若知识图谱中，A语义对应的实体有多个，B语义对应的实体也有多个，可以将A语义和B语义对应的实体均确定为目标实体。只不过在对目标实体进行分组时，将A语义和B语义对应的实体分别分为不同的实体组即可。

S202，对知识图谱中的目标实体进行分组，获取多个实体组，每个实体组中包括多个目标实体对。

S203，采用预设的属性比较方法和属性重要度，获取每个目标实体对中两个目标实体之间的属性相似度。

本实施例中，每个实体组中的目标实体对为多个，其中，实体对中包含的两个目标实体对应的属性为一个或多个。针对每个目标实体对，可以利用预设的属性比较方法和属性重要度来计算目标实体对中两个实体之间的各属性相似度概率。

其中，属性比较方法是指根据属性特征设置的如何比较属性之间相似度的方法。一般可以包括：精确比较、编辑距离比较、时间比较、文本相似度比较、共现比较、数字比较和类型比较等，具体用户可以根据属性的不同，从预设的属性比较方法中选择相对应的比较方法；或者，实体处理装置中存储有是实体数据与属性比较方法的对应关系，对于包含有特定属性的实体数据，选择对应的属性比较方法，获取属性的相似度。

例如，当属性为字符串时，可以使用预先设置的精确比较的比较器对该属性进行精确比较，若属性相同，返回1，否则返回0；或者，编辑距离比较用于返回两个字符串的Levinstein距离，返回的结果为0-1之间的一个连续值。Year比较器用于比较年份，两值差的绝对值小于自定义阈值则返回1，否则返回归Plsa比较器用于计算两个值的plsa相似度，plsa模型是通过百度百科训练得到的；Coccur比较器用于判断第一个字符串是否在第二个字符串中出现，出现则返回1，否则返回归Phonenumber比较器用于比较两串数字是否相同，相同则返回1，否则返回0；Float比较器用于比较两个浮点数，两值差的绝对值小于自定义阈值则返回1，否则返回0。

此外，考虑到有些属性是单值，有些属性是多值，例如，出生日期这个属性是单值，对一部电影作品来说，演员这个属性是多值。因此，属性比较方法还包括单值比较和多值比较，其中，多值比较以单值比较结果为基础，需要设置各单值比较结果与最终多值结果的关系，也就是说，多值比较需要对不同实体对应属性下的多个值两两比较，然后基于两两比较的结果得到最终的比较结果。例如，演员A(实体)有m个代表作(属性代表作有m个值)，演员B有n个代表作，将A和B的代表作两两比较(这相当于多值比较方法下的单值比较)，各单值比较结果与最终多值结果的关系可以是以下任一：有k(k小于等于m)个代表作完全相同，认为A和B的代表作属性相同，返回1，否则返回归所有代表作都相同，才认为属性相同；k/m或者k/n均大于预设阈值，认为属性相同；直接将k/m或者k/n作为返回值。

属性重要度是用户根据先验知识预先配置的，表示属性比较结果对于实体是否相同的重要程度。属性重要度可以包括：比较信息(即是否为必须比较的属性)、实体置信度惩罚信息和实体置信度奖赏信息。

进一步的，本实施例中，用户可以根据属性的重要度，选择需确定每个目标实体对中两个目标实体之间的多个待比较属性对，每个待比较属性对的特征，从预设的属性比较方法中选取对应的比较方法进行属性对比较，获取每个目标实体对中两个目标实体之间的属性相似度。

S204，采用预设的迭代模型，对属性相似度进行迭代计算，获取每个目标实体对中的两个目标实体的相似度。

本实施例中，预设的迭代模型可以为贝叶斯推理模型，其中，贝叶斯推理的原理是根据各属性比较的先验概率来计算对应的实体相似度概率值。本实施例中的贝叶斯推理模型可以与现有技术中的模型相同，在此不做赘述。

具体的，在利用贝叶斯推理公式迭代计算每个目标实体对中的两个目标实体之间的实体相似度概率时，迭代次数与各属性相似度概率的个数相等，每一个属性相似度概率对应一次迭代，且每一个属性相似度对应的迭代顺序不限，即在进行贝叶斯迭代时，只需遍历各属性相似度即可，无需考虑各属性相似度在迭代时的先后顺序。初次迭代时，可以将probcur的值设置为0.5(表示初始迭代时，两实体对应的属性相同和不同的概率分别是0.5)，之后在每次迭代中，probcur的值都对应上一次迭代的probnext的值。

S205，将相似度大于相似度阈值的两个目标实体进行融合，获取多个新的实体组。

S206，在多个新的实体组中获取待建边客体的关联实体，并将待建边客体与关联实体进行关联。

其中，本实施例中的S202、S205-S206具体可参照上述实施例中的S101、S102-S103中的相关描述，在此不做赘述。

本实施例中，通过利用预设的属性比较方法和属性重要度，计算每个目标实体对中两个目标实体之间的各属性相似度概率，并且利用预设的贝叶斯模型将先验知识与机器学习模型有效融合，对各属性相似度概率进行迭代计算，能够提高实体之间的实体相似度概率计算的效率和准确性。同时贝叶斯方案调参方便且生效快，适用于需要快速得到结果的场景。

在上述实施例的基础上，下面对本发明提供的实体处理方法中的实体建边进行详细说明，本实施例提供的实体处理方法中的实体建边S206具体可以包括三种可行的实施方式。

一种可行的实施方式为：对于数量较少的待建边客体，可以采用预设关联实体的方式。具体的，可以在实体处理装置中预先设置预设关联实体，若在新的实体组中存在目标实体为待建边客体的预设关联实体时，将目标实体作为关联实体。

示例性的，如在三元组SPO中，联赛、国家等均为能够进行建边的P，针对每个能够进行建边的P，可分别配置对应的预设关联实体，预设关联实体中可记录有P对应的待建边客体以及每个待建边客体分别对应的实体。如，P为星座，其对应的待建边客体可包括：白羊座、金牛座、双子座、巨蟹座、狮子座、处女座、天秤座、天揭座、射手座、摩羯座、水瓶座以及双鱼座，每个待建边客体分别对应一个实体。

在实际应用中，有可能相同的名字对应不同的实体，比如星座“摩羯座”和歌曲“摩羯座”，可通过不同的实体ID来进行区分。对于待建边客体，若存在对应的映射词典，那么则可将待建边客体中关联到对应的映射词典中所记录的实体上。如，待建边客体为“摩羯座”，“摩羯座”映射到对应的映射词典中所记录的实体即星座“摩羯座”实体上。

另一种可行的实施方式为：若存在目标实体的名称与待建边客体的名称相同、或者存在目标实体与建边实体具有共现关系、或者存在目标实体的类型与待建边客体的类型相同时，将目标实体作为关联实体。

本实施例中，查询新的实体组中的目标实体名称、类型，以及，对应的属性关系，判断新的实体组中是否存在目标实体的名称与待建边客体的名称相同，或者存在目标实体的类型与待建边客体的类型相同，将名称相同的，或者类型相同的目标实体作为待建边客体的关联实体。

进一步的，其中的共现关系指的是，待建边客体与新的实体组中目标实体之间是否存在相同的属性关系，若存在，则确定目标实体作为待建边客体的关联实体。

示例性的，如：新的实体组中的目标实体的三元组信息为“A的妻子是B”，而待建边的客体对应的三元组信息为“B的丈夫是A”，其中A和B具有对应的共现关系，则确定A为待建边客体B的关联实体。

又一种可行的实施方式为：在新的实体组中，根据每个待建边客体的多个候选目标实体之间的相似度，获取每个待建边客体的关联实体。

具体的，图3为本发明提供的实体处理方法中的实体建边的又一种可行的实施方式的流程示意图，如图3所示，该方法可以包括：

S2061，在新的实体组中，获取每个待建边客体的多个候选目标实体。

本实施例中，在对重复实体进行融合后的新的实体组中，获取每个待建边客体的多个候选目标实体。在面对海量知识图谱时，候选目标实体的获取能够大大降低后续处理的数据量，将需要进行后续处理的实体限制在一定范围内，减少了绝大部分冗余计算，保证了处理海量数据的效率。

具体的，获取候选目标实体的方式可以为：

1、按照schema映射进行候选目标实体的获取，即查询返回结果针对类别加以限定，其次类别又扩展出根据schema得到的子类的。比如，待建边的客体属于“人物”类别，而某一实体属于“故事”类别，那么则可不将该实体作为候选目标实体召回。

2、将与待建边的客体具有相同语义的目标实体作为候选目标实体，即使实体名称完全不一致，也会被返回。

3、将与待建边客体具有相同的别名的目标实体作为候选目标实体，如“A”，别名可以为“a”等。

需要说明的是，上述获取候选目标实体的方式仅为举例说明，并不用于限制本发明的技术方案，如果采用本领域技术人员能够想到的其它方式，也是完全可以的。

S2062，获取每个待建边客体与每个候选目标实体的相似度，将最大相似度对应的候选目标实体作为候选关联实体。

在获取每个待建边客体与多个候选目标实体后，可分别获取各候选目标实体对应的预设特征。较佳地，可针对每个候选目标实体，分别获取该候选目标实体对应的对特征(pair features)以及组特征(group features)。

其中，对特征为衡量待建边客体与候选目标实体之间的相似性的特征，如可包括名称相似度(是否一致、编辑距离等)、基于schema的相特征(P的类型约束与O的类型是否一致、P的类型与O的类型是否存在schema父子类关系、P的中文语义与O的文本描述的主题相似度、P的中文语义是否出现在O的描述中、PP属性关系的互逆性、O的文本是否包含P相关的关键词等)，以及，S和O之间关系(S是否在O的描述文本中出现、S是否在O的SPO集合中出现等)等。

组特征为衡量包括待建边的客体的三元组与候选目标实体之间的相似性的特征。组特征可包括：文本之间的plsa相似度(S的SPO组与O的SPO组的plsa相似度、S的SPO组与O的文本描述的plsa相似度等)，以及，S与O实体的各种共现关系(O的SPO组与S的文本描述的共现次数、S的SPO组与O的SPO组的共现次数、S的SPO组与O的文本描述的共现次数等)等。

针对每个候选目标实体，假设分别获取到了10个对特征以及5个组特征，那么可利用这15个特征组成一个特征向量。可根据各候选目标实体的特征向量来对各候选目标实体进行排序。较佳地，可根据各候选目标实体的特征向量，利用排序模型来对各候选目标实体进行排序。对于实体建边来说，排序只需要关心排序第一的实体，具体地，可采用ranksvm模型来对各候选目标实体进行排序。在选出排序后处于第一位的候选目标实体后，可将待处理的SPO中的O关联到该选出的候选关联实体上，即将待处理的SPO中的O映射到选出的候选关联实体上。

S2063，确定候选关联实体是否与待建边的实体存在冲突；若否，执行S2064，若是，执行S2065。

本发明方案中还提出，可进一步进行冲突消解，筛边掉有明显冲突的建边结果，即确定选出的候选关联实体是否与待处理的SPO存在冲突，若否，则将待处理的SPO中的O关联到选出的候选关联实体上；若是，则不进行关联。

具体地，可利用预先设定的规则未确定选出的候选关联实体是否与待处理的SPO存在冲突。比如，规则中可包括：当SPO中的P为“妻子”时，O对应的实体必须为女性人物。假设待建边的客体对应的SPO为“A的妻子B”，而候选关联实体为男性人物，那么则可确定选出的候选关联实体与待建边的客体对应的SPO存在冲突，从而不将该SPO中的O关联到选出的候选实体上。

S2064，若待建边客体对应的实体存在于知识图谱中时，将候选关联实体确定为关联实体。

在实际应用中，可能会出现以下情况：基于之前的介绍可知，候选关联实体均为从新的实体组中获取的目标实体，也就是说，候选关联实体均为新的实体组中己存在的实体，但是，有可能待处理的SPO中的O对应的实体并不存在于新的实体组中，即新的实体组中并不存在正确的实体，那么按照上述方式进行处理后，就会将O关联到错误的实体上。

为避免上述情况的出现，本发明方案中提出：在选出排序后处于第一位的候选目标实体后，可通过决策模型确定出待建边的SPO中的O对应的实体是否存在于新的实体组中，若是，则将待建边的SPO中的O关联到选出的关联实体上，否则，不进行关联。

S2065，不进行关联。

本实施例中，本发明方案中无需进行训练等操作，从而提高了处理效率，本发明方案中的实体建边中，可采用多维技术进行候选目标实体的拉取，而在面对海量知识库时，候选目标实体拉取能够大大降低后续处理的数据量，将需要进行后续处理的实体限制在一定范围内，减少了绝大部分冗余计算，保证了处理海量数据的效率，同时，多维技术在各个维度上有效地保证了候选实体的覆盖，尽可能地确保了正确的实体能够被召回，进入到下一阶段的处理中；并且，通过排序，可筛选出最有可能的实体输出，大大减少了下一阶段的计算量并为后续计算提供了分布特征等，进一步地，还可通过决策以及冲突消解处理，尽可能地避免将待建边客体关联到错误的实体上，从而提高了建边结果的准确性等。

图4为本发明提供的实体处理装置的结构示意图一，如图4所示，该实体处理装置400包括：分组模块401、融合模块402和关联模块403。

分组模块401，用于对知识图谱中的目标实体进行分组，获取多个实体组，每个实体组中包括多个目标实体对，实体组中的一个目标实体对是由实体组中一个目标实体与其他目标实体组成的。

融合模块402，用于获取每个实体组的每个目标实体对中的两个目标实体的相似度，并将相似度大于相似度阈值的两个目标实体进行融合，获取多个新的实体组，每个新的实体组中不包含相似度大于相似度阈值的目标实体。

关联模块403，用于在多个新的实体组中获取待建边客体的关联实体，并将待建边客体与关联实体进行关联；待建边客体为待建边的主谓宾三元组中的客体，待建边客体的关联实体为：在新的实体组中，与待建边客体的相似度大于相似度阈值的目标实体。

本实施例提供的实体处理装置与上述实体处理方法实现的原理和技术效果类似，在此不作赘述。

可选的，图5为本发明提供的实体处理装置的结构示意图二，如图5所示，该实体处理装置400还包括：目标实体获取模块404。

目标实体获取模块404，用于根据知识图谱中的每个实体的语义，获取目标实体。

可选的，融合模块402，具体用于采用预设的属性比较方法和属性重要度，获取每个目标实体对中两个目标实体之间的属性相似度；采用预设的迭代模型，对属性相似度进行迭代计算，获取每个目标实体对中的两个目标实体的相似度。

可选的，融合模块402，具体用于根据属性重要度中的比较信息，确定每个目标实体对中两个目标实体之间的多个待比较属性对；

根据每个待比较属性对的特征，从预设的属性比较方法中选取对应的比较方法进行属性对比较，获取每个目标实体对中两个目标实体之间的属性相似度。

可选的，关联模块403，具体用于若在新的实体组中存在目标实体为待建边客体的预设关联实体时，将目标实体作为关联实体；和/或，

若存在目标实体的名称与待建边客体的名称相同、或者存在目标实体与建边实体具有共现关系、或者存在目标实体的类型与待建边客体的类型相同时，将目标实体作为关联实体；和/或，

在新的实体组中，获取每个待建边客体的多个候选目标实体；

获取每个待建边客体与每个候选目标实体的相似度，将最大相似度对应的候选目标实体作为候选关联实体；

若待建边客体对应的实体存在于知识图谱中时，将候选关联实体确定为关联实体。

可选的，关联模块403，具体用于获取每个候选目标实体对应的对特征和组特征，对特征为衡量待建边客体与候选目标实体之间的相似性的特征，组特征为衡量包括待建边的客体的三元组与候选目标实体之间的相似性的特征。

可选的，关联模块403，具体用于确定候选关联实体是否与待建边的实体存在冲突；若否，判断待建边客体对应的实体是否存在于知识图谱中。

图6为本发明提供的实体处理装置的结构示意图三，该实体处理装置例如可以是终端设备，比如智能手机、平板电脑、计算机等。如图6所示，该实体处理装置600包括：存储器601和至少一个处理器602。

存储器601，用于存储程序指令。

处理器602，用于在程序指令被执行时实现本实施例中的实体处理方法，具体实现原理可参见上述实施例，本实施例此处不再赘述。

该实体处理装置600还可以包括及输入/输出接口603。

输入/输出接口603可以包括独立的输出接口和输入接口，也可以为集成输入和输出的集成接口。其中，输出接口用于输出数据，输入接口用于获取输入的数据，上述输出的数据为上述方法实施例中输出的统称，输入的数据为上述方法实施例中输入的统称。

本发明还提供一种可读存储介质，可读存储介质中存储有执行指令，当实体处理装置的至少一个处理器执行该执行指令时，当计算机执行指令被处理器执行时，实现上述实施例中的实体处理方法。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。实体处理装置的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得实体处理装置实施上述的各种实施方式提供的实体处理方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述网络设备或者终端设备的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：ApplicationSpecific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种实体处理方法，其特征在于，包括：

获取每个所述实体组的每个所述目标实体对中的两个目标实体的相似度，并将相似度大于相似度阈值的两个目标实体进行融合，获取多个新的实体组，每个所述新的实体组中不包含相似度大于相似度阈值的目标实体；在对相似度大于相似度阈值的两个目标实体进行融合时，若该两个目标实体包括相同的第一属性，则该两个目标实体融合后的新的目标实体的属性包括：该两个目标实体中对应的文档的更新时间最新的目标实体的第一属性；

2.根据权利要求1所述的方法，其特征在于，所述对知识图谱中的目标实体进行分组，获取多个实体组之前，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述获取每个所述实体组的每个所述目标实体对中的两个目标实体的相似度，包括：

4.根据权利要求3所述的方法，其特征在于，采用预设的属性比较方法和属性重要度，获取每个所述目标实体对中两个目标实体之间的属性相似度，包括：

5.根据权利要求4所述的方法，其特征在于，所述在多个所述新的实体组中获取待建边客体的关联实体，包括：

若在所述新的实体组中存在目标实体的名称与所述待建边客体的名称相同、或者存在目标实体与建边实体具有共现关系、或者存在目标实体的类型与所述待建边客体的类型相同时，将所述目标实体作为所述关联实体；和/或，

6.根据权利要求5所述的方法，其特征在于，所述获取每个所述待建边客体与每个候选目标实体的相似度，包括：

7.根据权利要求6所述的方法，其特征在于，所述若所述待建边客体对应的实体存在于所述知识图谱中时，将所述候选关联实体确定为所述关联实体之前，还包括：

确定所述候选关联实体是否与所述待建边的实体存在冲突；

8.一种实体处理装置，其特征在于，包括：

融合模块，用于获取每个所述实体组的每个所述目标实体对中的两个目标实体的相似度，并将相似度大于相似度阈值的两个目标实体进行融合，获取多个新的实体组，每个所述新的实体组中不包含相似度大于相似度阈值的目标实体；在对相似度大于相似度阈值的两个目标实体进行融合时，若该两个目标实体包括相同的第一属性，则该两个目标实体融合后的新的目标实体的属性包括：该两个目标实体中对应的文档的更新时间最新的目标实体的第一属性；

9.根据权利要求8所述的装置，所述装置包括：目标实体获取模块；

10.根据权利要求8或9所述的装置，所述装置包括：所述融合模块，具体用于采用预设的属性比较方法和属性重要度，获取每个所述目标实体对中两个目标实体之间的属性相似度；采用预设的迭代模型，对所述属性相似度进行迭代计算，获取每个所述目标实体对中的两个目标实体的相似度。

11.根据权利要求10所述的装置，所述装置包括：

所述融合模块，具体用于根据所述属性重要度中的比较信息，确定每个所述目标实体对中两个目标实体之间的多个待比较属性对；

12.根据权利要求11所述的装置，所述装置包括：

所述关联模块，具体用于若在所述新的实体组中存在目标实体为所述待建边客体的预设关联实体时，将所述目标实体作为所述关联实体；和/或，

若存在目标实体的名称与所述待建边客体的名称相同、或者存在目标实体与建边实体具有共现关系、或者存在目标实体的类型与所述待建边客体的类型相同时，将所述目标实体作为所述关联实体；和/或，

13.根据权利要求12所述的装置，所述装置包括：

所述关联模块，具体用于获取每个所述候选目标实体对应的对特征和组特征，所述对特征为衡量所述待建边客体与所述候选目标实体之间的相似性的特征，所述组特征为衡量包括所述待建边的客体的三元组与所述候选目标实体之间的相似性的特征。

14.根据权利要求13所述的装置，所述装置还包括：

所述关联模块，具体用于确定所述候选关联实体是否与所述待建边的实体存在冲突；若否，判断所述待建边客体对应的实体是否存在于所述知识图谱中。

15.一种实体处理装置，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述实体处理装置执行权利要求1-7任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现权利要求1-7任一项所述的方法。