CN113032584B

CN113032584B - 一种实体关联方法、装置、电子设备及存储介质

Info

Publication number: CN113032584B
Application number: CN202110582345.2A
Authority: CN
Inventors: 崔小波
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Zhizhi Heshu Technology Co ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-17
Anticipated expiration: 2041-05-27
Also published as: CN113032584A

Abstract

本申请提供了一种实体关联方法、装置、电子设备及存储介质，属于数据分析技术领域。所述实体关联方法包括：基于待检测文档中的文档实体列表，获取知识图谱数据库中与所述文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体；根据所述待检测文档和所述匹配实体属性，确定第一相似度；根据所述待检测文档的所述文本摘要和所述匹配实体，确定第二相似度；根据所述待检测文档的所述文本摘要、所述匹配实体以及所述关系实体，确定第三相似度。本申请可以有效的提高实体关联的准确率和召回率，且可以在前端展示的时候能够直接展示关联的类别，提高实体的类别或场景关联能力。

Description

一种实体关联方法、装置、电子设备及存储介质

技术领域

本申请涉及数据分析技术领域，尤其是涉及一种实体关联方法、装置、电子设备及存储介质。

背景技术

随着互联网、知识工程和人工智能的兴起和快速发展，文本数据发生了***式的增长，人们迫切需要高效、智能的文本分析技术，来理解数据的真实意义，从而帮助人们或组织快速获取有用的信息。实体关联技术是一种文本分析技术，它将文本数据中出现的词或词组做为实体，关联到知识图谱库中对应的实体标识。这样，人们就可以通过实体关联来理解文本数据的真实含义，为我们理解文本数据的语义信息提供了很大便利。

然而现有技术中，当前实体关联的方法存在一定的问题，一是，权重大小如何设置，现有技术中通常情况下是经验或者测试数据验证来设置权重，这种设置方法存在很多问题，如：有些计算分值权重该大的，但是设置小了，结果实体链接失败；二是，根据结算结果得出链接的实体，但是根据实体，无法直接获取相关实体所在的类别，导致实体关联的类别和关联场景的能力弱且关联性不准确。

发明内容

有鉴于此，本申请的目的在于提供一种实体关联方法、装置、电子设备及存储介质，通过获取知识图谱数据库中与待检测的文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体，并通过文本摘要和文档实体所在的句子的类别来设置相似度，并计算权重，有效的提高实体关联的准确率和召回率，且通过知识图谱中关联到的匹配实体进行匹配实体类别的关联，从而在前端展示的时候能够直接展示关联的类别，提高实体的类别或场景关联能力。

本申请主要包括以下几个方面：

第一方面，本申请实施例提供了一种实体关联方法，所述实体关联方法包括：

获取待检测文档中的文档实体列表和所述待检测文档的文本摘要；

基于待检测文档中的文档实体列表，获取知识图谱数据库中与所述文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体；其中，每个所述匹配实体包括匹配实体名称、匹配实体属性以及匹配实体关系，每个所述关系实体包括关系实体名称和关系实体属性；

根据所述待检测文档和所述匹配实体属性，确定第一相似度；根据所述待检测文档的所述文本摘要和所述匹配实体，确定第二相似度；根据所述待检测文档的所述文本摘要、所述匹配实体以及所述关系实体，确定第三相似度；

针对所述文档实体列表中每个所述文档实体相对应的每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度按照相似度比例配置权重系数，并按照配置后的所述权重系数对每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度进行求和，并在多个所述匹配实体中确定一个匹配实体的相似度最大值；

将所述匹配实体的所述相似度最大值与预设阈值进行对比，并将所述最大值大于所述预设阈值的所述待检测文档中的文档实体与所述知识图谱数据库关联，并获取该文档实体与所述知识图谱数据库中相关联的关系实体以及所述关系实体的实体类别。

在一种可能的实施方式中，通过以下方式获取待检测文档中的文档实体列表：

通过训练好的实体识别模型对待检测文档进行实体识别，获取文档实体列表。

在一种可能的实施方式中，所述根据所述待检测文档和所述匹配实体属性，确定第一相似度，包括：

将所述文档实体列表中每个文档实体所在的句子进行分割，并对所述句子进行分类，获取所述句子的词向量集合；

获取所述匹配实体属性的词向量集合；

根据所述句子的词向量集合与所述匹配实体属性的词向量集合，确定所述句子类别与所述匹配实体属性的相似度为第一相似度；其中，若所述匹配实体中的任一一个匹配实体的类别与分割后的任一一个所述句子的类别相同，则将所述第一相似度按照相似度比例配置为最大的权重系数。

获取所述匹配实体属性的词向量集合；

在一种可能的实施方式中，所述根据所述待检测文档的所述文本摘要、所述匹配实体以及所述关系实体，确定第三相似度，包括：

基于所述匹配实体的匹配实体名称和匹配实体关系以及所述关系实体的关系实体名称和关系实体属性，确定所述匹配实体的词向量集合；

根据所述文本摘要的摘要向量与所述匹配实体的词向量集合，确定所述文本摘要与所述匹配实体的相似度为第三相似度；其中，若所述匹配实体中的任一一个匹配实体的类别与所述匹配实体对应的关系实体的类别均和所述文本摘要的类别相同，则将所述第三相似度按照相似度比例配置为最大的权重系数。

在一种可能的实施方式中，所述并获取该文档实体与所述知识图谱中相关联的关系实体以及所述关系实体的实体类别，包括：

根据文档实体与所述知识图谱相关联的关系实体，确定所述关系实体与所述文档实体的关联程度；其中，所述关联程度包括一度关联和二度关联；

根据所述关系实体与所述文档实体的关联程度，确定所述关系实体的实体类别。

在一种可能的实施方式中，通过以下方式确定所述关系实体的实体类别：

根据知识图谱数据库中的样本实体、样本实体关系、样本实体事件以及样本实体属性，确定知识样本实体数据集；

基于所述样本实体数据集，对构建好的神经网络模型进行训练，得到训练好的实体文本分类模型；

基于训练好的所述实体文本分类模型，确定关系实体的实体类别；其中，所述文档实体列表中的文本实体类别和文本摘要的类别的确定方式同关系实体的实体类别确定方式。

第二方面，本申请实施例还提供了一种实体关联装置，所实体关联装置包括：

第一获取模块，用于获取待检测文档中的文档实体列表和所述待检测文档的文本摘要；

第二获取模块，用于基于待检测文档中的文档实体列表，获取知识图谱数据库中与所述文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体；其中，每个所述匹配实体包括匹配实体名称、匹配实体属性以及匹配实体关系，每个所述关系实体包括关系实体名称和关系实体属性；

确定模块，用于根据所述待检测文档和所述匹配实体属性，确定第一相似度；根据所述待检测文档的所述文本摘要和所述匹配实体，确定第二相似度；根据所述待检测文档的所述文本摘要、所述匹配实体以及所述关系实体，确定第三相似度；

配置模块，用于针对所述文档实体列表中每个所述文档实体相对应的每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度按照相似度比例配置权重系数，并按照配置后的所述权重系数对每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度进行求和，并确定一个所述匹配实体的最大值；

对比关联模块，用于将所述匹配实体的所述最大值与预设阈值进行对比，并将所述最大值大于所述预设阈值的所述待检测文档中的文档实体与所述知识图谱数据库关联，并获该文档实体与所述知识图谱数据库相关联的关系实体以及所述关系实体的实体类别。

第三方面，本申请实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器运行时执行上述第一方面中任一种可能的实施方式中所述的实体关联方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行述第一方面中任一种可能的实施方式中所述实体关联方法的步骤。

本申请实施例中，通过获取知识图谱数据库中与待检测的文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体，并通过文本摘要和文档实体所在的句子的类别来设置相似度，并计算权重，有效的提高实体关联的准确率和召回率，且通过知识图谱中关联到的匹配实体进行匹配实体类别的关联，从而在前端展示的时候能够直接展示关联的类别，提高实体的类别或场景关联能力。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种实体关联方法的流程图；

图2示出了本申请实施例所提供的另一种实体关联方法的流程图；

图3示出了本申请实施例所提供的一种实体关联装置的结构示意图；

图4示出了本申请实施例所提供的一种电子设备的结构示意图。

主要元件符号说明：

图中：300-实体关联装置；310-第一获取模块；320-第二获取模块；330-确定模块；340-配置模块；350-对比关联模块；400-电子设备；410-处理器；420-存储器；430-总线。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“实体关联”，给出以下实施方式，对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。

本申请实施例下所述方法、***、电子设备及存储介质可以应用于任何需要进行实体关联的场景，本申请实施例并不对具体的应用场景作限制，任何使用本申请实施例提供的实体关联方法、装置、电子设备及存储介质的方案均在本申请保护范围内。

值得注意的是，经研究发现，在本申请提出之前，当前实体关联的方法存在一定的问题，一是，权重大小如何设置，现有技术中通常情况下是经验或者测试数据验证来设置权重，这种设置方法存在很多问题，如：有些计算分值权重该大的，但是设置小了，结果实体链接失败；二是，根据结算结果得出链接的实体，但是根据实体，无法直接获取相关实体所在的类别，导致实体关联的类别和关联场景的能力弱且关联性不准确。

基于此，本申请实施例提供了一种实体关联方法、装置、电子设备及存储介质，通过获取知识图谱数据库中与待检测的文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体，并通过文本摘要和文档实体所在的句子的类别来设置相似度，并计算权重，有效的提高实体关联的准确率和召回率，且通过知识图谱中关联到的匹配实体进行匹配实体类别的关联，从而在前端展示的时候能够直接展示关联的类别，提高实体的类别或场景关联能力。

为便于对本申请进行理解，下面结合具体实施例对本申请提供的技术方案进行详细说明。

请参阅图1，图1为本申请实施例所提供的一种实体关联方法的流程图。如图1中所示，本申请实施例提供的实体关联方法，包括以下步骤：

S101、获取待检测文档中的文档实体列表和所述待检测文档的文本摘要。

该步骤中，所述待检测文档为知识库文档中用户需要进行实体关联的检测文档，而当需要对待检测文档进行实体关联时，首先需要获取待检测文档中的文档实体列表和所述待检测文档的文本摘要。

其中，所述待检测文档的文本摘要是通过排序算法来确定的，具体为通过将所述待检测文档分割成若干组成句子单元，确定构建成节点连接图，并用句子之间的相似度作为边的权重，通过循环迭代计算句子的TextRank值，然后将排序在预设排序范围内的句子确定所述待检测文档的文本摘要。

这里，所述排序算法可具体但不限制于TextRank算法，所述TextRank算法是一种用于文本的基于图的排序算法。

进一步的，通过以下方式获取待检测文档中的文档实体列表：

其中，通过训练好的实体识别模型对待检测文档进行实体识别，识别出所述待检测文档至的实体，并将识别出所有所述实体进行组合，构成所述实体列表。

其中，所述实体的类别包括但不限制于人名以及物体名等。

这里，所述训练好的实体识别模型包括但不限制于CRF实体识别模型。

S102、基于待检测文档中的文档实体列表，获取知识图谱数据库中与所述文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体；其中，每个所述匹配实体包括匹配实体名称、匹配实体属性以及匹配实体关系，每个所述关系实体包括关系实体名称和关系实体属性。

该步骤中，使用所述文档实体列表中的文档实体在知识图谱中搜索与每个所述文档实体相对应的每个匹配实体，以及与每个所述匹配实体相关联的关系实体。

其中，知识图谱是由多个样本实体和所述样本实体的实体关系组成，所述样本实体有样本实体名称和样本实体属性的描述性信息，所述样本实体的实体关系也有名称和属性，且有方向。

这里，所述匹配实体属性包括：匹配实体所属类型l，匹配实体的id标识以及匹配实体的中文名称的字段；所述关系实体属性包括：关系实体所属类型l，关系实体的id标识以及关系实体的中文名称的字段。

S103、根据所述待检测文档和所述匹配实体属性，确定第一相似度；根据所述待检测文档的所述文本摘要和所述匹配实体，确定第二相似度；根据所述待检测文档的所述文本摘要、所述匹配实体以及所述关系实体，确定第三相似度。

该步骤中，通过计算第一相似度、第二相似度以及第三相似度来判断待检测文档中的文档实体是否与所述知识图谱相关联。

具体如下：

进一步地，所述根据所述待检测文档和所述匹配实体属性，确定第一相似度，包括：

将所述文档实体列表中每个文档实体所在的句子进行分割，并对所述句子进行分类，获取所述句子的词向量集合。

其中，首先将所述文档实体列表中每个文档实体所在的句子按照逗号进行分割，并对分割后的所述句子进行文本分类，分别确定所述句子中的文本实体、文本实体关系、文本事件以及文本实体属性等相关标注数据，进而能够确定所述知识图谱数据库中的样本实体类别，并获取所述句子的词向量；其中，所述词向量的获取方式为从预设词向量数据库中获取。

这里，所述对每个文档实体所在的句子按照逗号进行分割仅为使用者在结合实际关联情况下使用的其中一种的分割方式，在不同的应用场景下，使用者可以根据该情况对每个文档实体所在的句子按照不同的标准进行对应的分割，本申请中所提到的按照逗号进行分割仅为分割方式中的其中一种。

这样，所述文本分类方式为采用训练好的CNN文本多分类模型。

其中，所述预设的词向量数据库为选用为Fasttext基于百科数据训练的中文预训练词向量，且词向量维度是300维。

获取所述匹配实体属性的词向量集合。

其中，若所述待检测文档中与所述文档实体相对应的匹配实体仅为一个，则获取该匹配实体的词向量；若所述待检测文档中与所述文档实体相对应的匹配实体为至少一个，则获取多个所述匹配实体属性的词向量，并将多个所述词向量进行相加求和，确定所述匹配实体属性的词向量集合。

这里，根据所述句子的词向量集合与所述匹配实体属性的词向量集合，确定所述句子类别与所述匹配实体属性的相似度为第一相似度，所述确定所述第一相似度的公式为：

其中，senVec表示所述句子的词向量集合；attrVec表示所述匹配实体属性的词向量集合，

表示向量x的范数。

这样，若所述匹配实体中的任一一个匹配实体的类别与分割后的任一一个所述句子的类别相同，则将所述第一相似度按照相似度比例配置为最大的权重系数。

进一步地，所述根据所述待检测文档的所述文本摘要和所述匹配实体，确定第二相似度，包括：

根据所述文本摘要的类别，确定所述文本摘要的摘要向量。

这里，首先将所述文本摘要去停用词，得到n个特征词向量，并将n个特征词的词向量相加，确定所述文本摘要的摘要向量，具体确定所述文本摘要的摘要向量公式如下：

其中，

表示第i个词的词向量，textVec表示待处理文本摘要向量。

这样，通过使用训练好的CNN文本分类模型确定所述文本摘要的类别。

基于所述匹配实体的匹配实体名称和匹配实体关系，确定所述匹配实体关系的词向量集。

这里，根据每个所述匹配实体的匹配实体名称和匹配实体关系，确定每个匹配实体关系的词向量，在确定好每个匹配实体关系的词向量之后，将所述检测文档中的文档实体列表所对应的多个所述匹配实体关系的词向量进行求和，确定所述匹配实体关系的词向量集。

根据所述文本摘要的摘要向量与所述匹配实体关系的词向量集合，确定所述文本摘要与所述匹配实体的相似度为第二相似度；其中，若所述匹配实体中的任一一个匹配实体的类别与所述文本摘要的类别相同，则将所述第二相似度按照相似度比例配置为最大的权重系数。

其中，所述文本摘要的摘要向量与所述匹配实体关系的词向量集合，确定所述文本摘要与所述匹配实体的相似度为第二相似度，所述确定所述第二相似度的公式为：

这里，

表示所述匹配实体关系的词向量集；

表示所述文本摘要的摘要向量的集合，

表示向量x的范数。

这样，若所述匹配实体中的任一一个匹配实体的类别与所述文本摘要的类别相同，则将所述第二相似度按照相似度比例配置为最大的权重系数。

进一步地，所述根据所述待检测文档的所述文本摘要、所述匹配实体以及所述关系实体，确定第三相似度，包括：

基于所述匹配实体的匹配实体名称和匹配实体关系以及所述关系实体的关系实体名称和关系实体属性，确定所述匹配实体的词向量集合。

其中，所述匹配实体的匹配实体名称和匹配实体关系以及所述关系实体的关系实体名称和关系实体属性为待检测文档中每个所述文档实体的所有与实体相关联的关系。

这里，针对待检测文档中每个所述文档实体的所有与实体相关联的关系计算其词向量，并在计算其词向量后，对所述词向量进行求和，获取所述匹配实体的词向量集合。

其中，根据所述文本摘要的摘要向量与所述匹配实体的词向量集合，确定所述文本摘要与所述匹配实体的相似度为第三相似度所述确定所述第三相似度的公式为：

这里，

表示所述匹配实体的词向量集合；

表示所述文本摘要的摘要向量的集合，

表示向量x的范数。

这样，若所述匹配实体中的任一一个匹配实体的类别与所述匹配实体对应的关系实体的类别均和所述文本摘要的类别相同，则将所述第三相似度按照相似度比例配置为最大的权重系数；若所述匹配实体中的任一一个匹配实体的类别与所述文本摘要的类别相同则将所述第三相似度按照相似度比例配置为同第一相似度以及第二相似度中最高的权重系数的情况。

S104、针对所述文档实体列表中每个所述文档实体相对应的每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度按照相似度比例配置权重系数，并按照配置后的所述权重系数对每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度进行求和，并在多个所述匹配实体中确定一个匹配实体的相似度最大值。

该步骤中，针对所述第一相似度、所述第二相似度以及所述第三相似度按照相似度比例配置权重系数按照上述属性分类的不同情况设置不同的相似度比例配置权重系数，在设置相似度比例配置权重系数后，将所述第一相似度、所述第二相似度以及所述第三相似度按照不同的相似度比例配置权重系数进行求和，并获取数值最大的一个最为匹配实体。

S105、将所述匹配实体的所述相似度最大值与预设阈值进行对比，并将所述最大值大于所述预设阈值的所述待检测文档中的文档实体与所述知识图谱数据库关联，并获取该文档实体与所述知识图谱数据库中相关联的关系实体以及所述关系实体的实体类别。

该步骤中，若述匹配实体的所述相似度最大值与预设阈值进行对比，所述最大值小于所述预设阈值，则确定待检测文档中的文档实体与所述知识图谱不关联。

本申请实施例提供的实体关联方法，与现有技术中相比，本申请通过获取知识图谱数据库中与待检测的文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体，并通过文本摘要和文档实体所在的句子的类别来设置相似度，并计算权重，与传统的文本中的实体，以及文本实体的上下文语义向量，与图谱中的候选实体的属性向量进行相似度计算，并对相似度分值进行排序，相似度分值超过阈值则关联到知识库实体的方式相比，本申请能够有效的提高实体关联的准确率和召回率，且传统的用文本中实体所在句子、文本摘要和图谱中实体、实体属性、关系以及关系实体的相关度高低情况，然后设置相关权重，计算分值并排序，并确定似度分值超过阈值则关联到知识库实体的方法相比，本申请通过知识图谱中关联到的匹配实体进行匹配实体类别的关联，从而在前端展示的时候能够直接展示关联的类别，提高实体的类别或场景关联能力。

请参阅图2，图2为本申请另一实施例提供的一种实体关联方法的流程图。如图2中所示，本申请实施例提供的实体关联方法，包括以下步骤：

S201、获取待检测文档中的文档实体列表和所述待检测文档的文本摘要。

S202、基于待检测文档中的文档实体列表，获取知识图谱数据库中与所述文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体；其中，每个所述匹配实体包括匹配实体名称、匹配实体属性以及匹配实体关系，每个所述关系实体包括关系实体名称和关系实体属性。

S203、根据所述待检测文档和所述匹配实体属性，确定第一相似度；根据所述待检测文档的所述文本摘要和所述匹配实体，确定第二相似度；根据所述待检测文档的所述文本摘要、所述匹配实体以及所述关系实体，确定第三相似度。

S204、针对所述文档实体列表中每个所述文档实体相对应的每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度按照相似度比例配置权重系数，并按照配置后的所述权重系数对每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度进行求和，并在多个所述匹配实体中确定一个匹配实体的相似度最大值。

S205、将所述匹配实体的所述相似度最大值与预设阈值进行对比，并将所述最大值大于所述预设阈值的所述待检测文档中的文档实体与所述知识图谱数据库关联，并根据文档实体与所述知识图谱相关联的关系实体，确定所述关系实体与所述文档实体的关联程度；其中，所述关联程度包括一度关联和二度关联。

该步骤中，在将所述匹配实体的所述相似度最大值与预设阈值进行对比后，并确定所述最大值大于所述预设阈值时，确认所述待检测文档中的文档实体与所述知识图谱关联，这里，根据文档实体与所述知识图谱相关联的关系实体，确定所述关系实体与所述文档实体的关联程度。

其中，所述一度关联为所述匹配实体与所述关系实体直接进行关联，所述二度关联为所述匹配实体与所述关系实体之间通过一个匹配实体关系进行关联。

这里，所述一度关联和二度关联的设定可根据不同场景的需求进行自定义的设置，本申请文件中，具体设置了两层关联管局，具体为：所述一度关联和所述二度关联。

S206、根据所述关系实体与所述文档实体的关联程度，确定所述关系实体的实体类别。

该步骤中，通过所述关系实体与所述文档实体的关联程度。并利用训练好的分类模型，确定所述关系实体的实体类别。

进一步的，通过以下方式确定所述关系实体的实体类别：

根据知识图谱数据库中的样本实体、样本实体关系、样本实体事件以及样本实体属性，确定知识样本实体数据集。

基于所述样本实体数据集，对构建好的神经网络模型进行训练，得到训练好的实体文本分类模型。

其中，所述训练好的实体文本分类模型可具体但不限制于CNN文本多分类模型。

其中，S201至S204的描述可以参照S101至S104的描述，并且能达到相同的技术效果，对此不做赘述。

请参阅图3，图3为本申请实施例所提供的一种实体关联装置的结构示意图，如图3中所示，所述实体关联装置300包括：

第一获取模块310，用于获取待检测文档中的文档实体列表和所述待检测文档的文本摘要。

第二获取模块320，用于基于待检测文档中的文档实体列表，获取知识图谱数据库中与所述文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体；其中，每个所述匹配实体包括匹配实体名称、匹配实体属性以及匹配实体关系，每个所述关系实体包括关系实体名称和关系实体属性。

确定模块330，用于根据所述待检测文档和所述匹配实体属性，确定第一相似度；根据所述待检测文档的所述文本摘要和所述匹配实体，确定第二相似度；根据所述待检测文档的所述文本摘要、所述匹配实体以及所述关系实体，确定第三相似度。

配置模块340，用于针对所述文档实体列表中每个所述文档实体相对应的每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度按照相似度比例配置权重系数，并按照配置后的所述权重系数对每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度进行求和，并确定一个所述匹配实体的最大值。

对比关联模块350，用于将所述匹配实体的所述最大值与预设阈值进行对比，并将所述最大值大于所述预设阈值的所述待检测文档中的文档实体与所述知识图谱数据库关联，并获该文档实体与所述知识图谱数据库相关联的关系实体以及所述关系实体的实体类别。

本申请实施例提供的实体关联装置，与现有技术中相比，本申请通过获取知识图谱数据库中与待检测的文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体，并通过文本摘要和文档实体所在的句子的类别来设置相似度，并计算权重，与传统的文本中的实体，以及文本实体的上下文语义向量，与图谱中的候选实体的属性向量进行相似度计算，并对相似度分值进行排序，相似度分值超过阈值则关联到知识库实体的方式相比，本申请能够有效的提高实体关联的准确率和召回率，且传统的用文本中实体所在句子、文本摘要和图谱中实体、实体属性、关系以及关系实体的相关度高低情况，然后设置相关权重，计算分值并排序，并确定似度分值超过阈值则关联到知识库实体的方法相比，本申请通过知识图谱中关联到的匹配实体进行匹配实体类别的关联，从而在前端展示的时候能够直接展示关联的类别，提高实体的类别或场景关联能力。

请参阅图4，图4为本申请实施例所提供的一种电子设备400的结构示意图，包括：处理器410、存储器420和总线430，所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备400运行时，所述处理器410与所述存储器420之间通过所述总线430进行通信，所述机器可读指令被所述处理器410运行时执行如上述实施例中任一所述的实体关联方法的步骤。

具体地，所述机器可读指令被所述处理器410执行时可以执行如下处理：

获取待检测文档中的文档实体列表和所述待检测文档的文本摘要。

基于待检测文档中的文档实体列表，获取知识图谱数据库中与所述文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体；其中，每个所述匹配实体包括匹配实体名称、匹配实体属性以及匹配实体关系，每个所述关系实体包括关系实体名称和关系实体属性。

根据所述待检测文档和所述匹配实体属性，确定第一相似度；根据所述待检测文档的所述文本摘要和所述匹配实体，确定第二相似度；根据所述待检测文档的所述文本摘要、所述匹配实体以及所述关系实体，确定第三相似度。

针对所述文档实体列表中每个所述文档实体相对应的每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度按照相似度比例配置权重系数，并按照配置后的所述权重系数对每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度进行求和，并在多个所述匹配实体中确定一个匹配实体的相似度最大值。

本申请实施例中，通过获取知识图谱数据库中与待检测的文档实体列表中的每个文档实体相对应的每个匹配实体以及与每个所述匹配实体相关联的关系实体，并通过文本摘要和文档实体所在的句子的类别来设置相似度，并计算权重，与传统的文本中的实体，以及文本实体的上下文语义向量，与图谱中的候选实体的属性向量进行相似度计算，并对相似度分值进行排序，相似度分值超过阈值则关联到知识库实体的方式相比，本申请能够有效的提高实体关联的准确率和召回率，且传统的用文本中实体所在句子、文本摘要和图谱中实体、实体属性、关系以及关系实体的相关度高低情况，然后设置相关权重，计算分值并排序，并确定似度分值超过阈值则关联到知识库实体的方法相比，本申请通过知识图谱中关联到的匹配实体进行匹配实体类别的关联，从而在前端展示的时候能够直接展示关联的类别，提高实体的类别或场景关联能力。

基于同一申请构思，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述实施例提供的实体关联方法的步骤。

具体地，所述存储介质能够为通用的存储介质，如移动磁盘、硬盘等，所述存储介质上的计算机程序被运行时，能够执行上述实体关联方法，可以有效的提高实体关联的准确率和召回率，且通过知识图谱中关联到的匹配实体进行匹配实体类别的关联，从而在前端展示的时候能够直接展示关联的类别，提高实体的类别或场景关联能力。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应所述理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种实体关联方法，其特征在于，所述实体关联方法包括：

获取待检测文档中的文档实体列表和所述待检测文档的文本摘要，其中，所述文本摘要通过排序算法确定；

针对所述文档实体列表中每个所述文档实体相对应的每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度按照相似度比例配置权重系数，并按照配置后的所述权重系数对每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度进行求和，并在多个所述匹配实体中确定一个匹配实体的相似度最大值；其中，所述权重系数的配置比例根据属性分类的不同情况确定；

将所述匹配实体的所述相似度最大值与预设阈值进行对比，并将所述最大值大于所述预设阈值的所述待检测文档中的文档实体与所述知识图谱数据库关联，并获取该文档实体与所述知识图谱数据库中相关联的关系实体以及所述关系实体的实体类别；

所述根据所述待检测文档和所述匹配实体属性，确定第一相似度，包括：

获取所述匹配实体属性的词向量集合；

根据所述句子的词向量集合与所述匹配实体属性的词向量集合，确定所述句子类别与所述匹配实体属性的相似度为第一相似度；其中，若所述匹配实体中的任一一个匹配实体的类别与分割后的任一一个所述句子的类别相同，则将所述第一相似度按照相似度比例配置为最大的权重系数；

所述根据所述待检测文档的所述文本摘要和所述匹配实体，确定第二相似度，包括：

根据所述文本摘要的类别，确定所述文本摘要的摘要向量；

基于所述匹配实体的匹配实体名称和匹配实体关系，确定所述匹配实体关系的词向量集合；

根据所述文本摘要的摘要向量与所述匹配实体关系的词向量集合，确定所述文本摘要与所述匹配实体的相似度为第二相似度；其中，若所述匹配实体中的任一一个匹配实体的类别与所述文本摘要的类别相同，则将所述第二相似度按照相似度比例配置为最大的权重系数；

所述根据所述待检测文档的所述文本摘要、所述匹配实体以及所述关系实体，确定第三相似度，包括：

2.根据权利要求1所述的实体关联方法，其特征在于，通过以下方式获取待检测文档中的文档实体列表：

3.根据权利要求1所述的实体关联方法，其特征在于，所述并获取该文档实体与所述知识图谱中相关联的关系实体以及所述关系实体的实体类别，包括：

4.根据权利要求3所述的实体关联方法，其特征在于，通过以下方式确定所述关系实体的实体类别：

5.一种实体关联装置，其特征在于，所述实体关联装置包括：

第一获取模块，用于获取待检测文档中的文档实体列表和所述待检测文档的文本摘要，其中，所述文本摘要通过排序算法确定；

配置模块，用于针对所述文档实体列表中每个所述文档实体相对应的每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度按照相似度比例配置权重系数，并按照配置后的所述权重系数对每个所述匹配实体的所述第一相似度、所述第二相似度以及所述第三相似度进行求和，并确定一个所述匹配实体的最大值；其中，所述权重系数的配置比例根据属性分类的不同情况确定；

对比关联模块，用于将所述匹配实体的所述最大值与预设阈值进行对比，并将所述最大值大于所述预设阈值的所述待检测文档中的文档实体与所述知识图谱数据库关联，并获该文档实体与所述知识图谱数据库相关联的关系实体以及所述关系实体的实体类别；

获取所述匹配实体属性的词向量集合；

根据所述文本摘要的类别，确定所述文本摘要的摘要向量；

6.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器运行时执行如上述权利要求1至4中任一所述的实体关联方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述权利要求1至4中任一所述的实体关联方法的步骤。