CN112069818A

CN112069818A - 三元组预测模型生成方法、关系三元组提取方法和装置

Info

Publication number: CN112069818A
Application number: CN202010785316.1A
Authority: CN
Inventors: 胡洪兵; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-12-11
Anticipated expiration: 2040-08-06
Also published as: CN112069818B

Abstract

本发明实施例提供了三元组预测模型生成方法、关系三元组提取方法和装置。所述三元组预测模型生成方法包括获取包含预设的关系三元组的训练文本；所述关系三元组包括主实体词、关系词、以及副实体词；所述训练文本具有所述关系三元组对应的副实体词标注信息以及关系词标注信息；将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词标注信息以及所述关系词标注信息作为模型输出，训练预设的模型，生成三元组预测模型。从而预测得到的关系三元组可以包含多种不同的关系类型，扩展三元组预测模型可以提取的关系三元组的数量以及关系类型，实现开放领域中关系三元组的抽取。

Description

三元组预测模型生成方法、关系三元组提取方法和装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种三元组预测模型的生成方法、一种关系三元组的提取方法、一种三元组预测模型的生成装置、以及一种关系三元组的提取装置。

背景技术

在现有技术中，为了满足对海量数据进行数据分析、信息检索、建立问答***等需求，可以获取若干关系三元组，并基于关系三元组进一步构建知识图谱、或者进行海量数据分析。然而，现有的关系三元组的提取方式，通常被限制于固定领域中，导致可以提取的关系三元组的数量、以及关系三元组的关系类型受到限制，并且影响后续的数据分析。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种三元组预测模型的生成方法、一种关系三元组的提取方法、一种三元组预测模型的生成装置、以及一种关系三元组的提取装置。

为了解决上述问题，本发明实施例公开了一种三元组预测模型的生成方法，包括：

获取包含预设的关系三元组的训练文本；所述关系三元组包括主实体词、关系词、以及副实体词；所述训练文本包含所述关系三元组对应的主实体词、副实体词以及关系词；

将所述训练文本以及所述主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型，生成三元组预测模型。

可选地，所述获取包含预设的关系三元组的训练文本的步骤，包括：

对于一预设的关系三元组，查找同时包含所述关系三元组中的主实体词与副实体词的候选文本；

查找包含所述关系三元组中的关系词，或者所述关系词的近义词的候选文本，作为训练文本。

可选地，所述将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型，生成三元组预测模型的步骤，包括：

将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型，获取所述模型输出的副实体词预测信息以及关系词预测信息；

根据所述副实体词预测信息以及所述关系词预测信息，确定所述模型的链接损失函数；其中，所述链接损失函数用于表征具有对应关系的所述副实体词预测信息以及所述关系词预测信息是否成对出现；

根据所述链接损失函数调整所述模型的模型参数，并迭代训练所述模型，直至所述链接损失函数达到预设条件，所述模型训练完成，并将所述模型作为三元组预测模型。

可选地，所述方法还包括：

在预设的知识图谱中，提取出现频次高于预测次数的高频关系词；

确定所述高频关系词对应的近义词。

本发明实施例还公开了一种关系三元组的提取方法，包括：

查找包含目标主实体词的待挖掘文本；

采用所述目标主实体词、所述待挖掘文本、以及预设的三元组预测模型，确定目标副实体词以及目标关系词；其中，所述三元组预测模型通过获取包含预设的关系三元组的训练文本；将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型生成；

构建包含所述目标主实体词、目标关系词、以及目标副实体词的目标关系三元组。

可选地，所述构建包含所述目标主实体词、目标关系词、以及目标副实体词的目标关系三元组的步骤，包括：

确定目标副实体词以及目标关系词在所述待挖掘文本中的位置；

采用所述目标主实体词，以及在所述待挖掘文本中位置相邻的所述目标副实体词与所述目标关系词，构建目标关系三元组。

可选地，所述采用所述目标主实体词，以及在所述待挖掘文本中位置相邻的所述目标副实体词与所述目标关系词，构建目标关系三元组的步骤，包括：

若在所述待挖掘文本中，所述目标副实体词具有至少两个位置相邻的目标关系词的情况下，将与所述目标副实体词之间间隔字符数最少的所述目标关系词，作为与所述目标副实体词相对应的所述目标关系词；

采用所述目标主实体词、所述目标副实体词、以及所述目标副实体词相对应的所述目标关系词，构建目标关系三元组。

本发明实施例还公开了一种三元组预测模型的生成装置，包括：

获取模块，用于获取包含预设的关系三元组的训练文本；所述关系三元组包括主实体词、关系词、以及副实体词；所述训练文本包含所述关系三元组对应的主实体词、副实体词以及关系词；

训练模块，用于将所述训练文本以及所述主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型，生成三元组预测模型。

可选地，所述获取模块包括：

候选文本查找子模块，用于对于一预设的关系三元组，查找同时包含所述关系三元组中的主实体词与副实体词的候选文本；

训练文本查找子模块，用于查找包含所述关系三元组中的关系词，或者所述关系词的近义词的候选文本，作为训练文本。

可选地，所述训练模块包括：

预测信息获取子模块，用于将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型，获取所述模型输出的副实体词预测信息以及关系词预测信息；

链接损失函数确定子模块，用于根据所述副实体词预测信息以及所述关系词预测信息，确定所述模型的链接损失函数；其中，所述链接损失函数用于表征具有对应关系的所述副实体词预测信息以及所述关系词预测信息是否成对出现；

训练子模块，用于根据所述链接损失函数调整所述模型的模型参数，并迭代训练所述模型，直至所述链接损失函数达到预设条件，所述模型训练完成，并将所述模型作为三元组预测模型。

本发明实施例还公开了一种关系三元组的提取装置，包括：

查找模块，用于查找包含目标主实体词的待挖掘文本；

输入模块，用于采用所述目标主实体词、所述待挖掘文本、以及预设的三元组预测模型，确定目标副实体词以及目标关系词；其中，所述三元组预测模型通过获取包含预设的关系三元组的训练文本；将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型生成；

构建模块，用于构建包含所述目标主实体词、目标关系词、以及目标副实体词的目标关系三元组。

可选地，所述构建模块包括：

位置确定子模块，用于确定目标副实体词以及目标关系词在所述待挖掘文本中的位置；

构建子模块，用于采用所述目标主实体词，以及在所述待挖掘文本中位置相邻的所述目标副实体词与所述目标关系词，构建目标关系三元组。

可选地，所述构建子模块包括：

目标关系词确定单元，用于若在所述待挖掘文本中，所述目标副实体词具有至少两个位置相邻的目标关系词的情况下，将与所述目标副实体词之间间隔字符数最少的所述目标关系词，作为与所述目标副实体词相对应的所述目标关系词；

构建单元，用于采用所述主实体词、所述目标副实体词、以及所述目标副实体词相对应的所述目标关系词，构建目标关系三元组。

本发明实施例还公开了一种装置，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如本发明实施例所述的一个或多个的方法。

本发明实施例还公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如本发明实施例所述的一个或多个的方法。

本发明实施例包括以下优点：

通过本发明实施例的三元组预测模型的生成方法，获取包含预设的关系三元组的训练文本，并将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型，生成三元组预测模型。从而训练完成的三元组预测模型可以基于训练文本以及主实体词对所述训练文本的副实体词以及关系词进行预测，从而预测得到的关系三元组可以包含多种不同的关系类型，扩展三元组预测模型可以提取的关系三元组的数量以及关系类型，实现开放领域中关系三元组的抽取。

附图说明

图1是本发明实施例的一种三元组预测模型的生成方法的步骤流程图；

图2是本发明实施例的另一种三元组预测模型的生成方法的步骤流程图；

图3是本发明实施例的一种关系三元组的提取方法的步骤流程图；

图4是本发明实施例的另一种关系三元组的提取方法的步骤流程图；

图5是本发明实施例的一种三元组预测模型的生成装置的结构框图；

图6是本发明实施例的一种关系三元组的提取装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种三元组预测模型的生成方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取包含预设的关系三元组的训练文本；所述关系三元组包括主实体词、关系词、以及副实体词；所述训练文本包含所述关系三元组对应的主实体词、副实体词以及关系词；

在本发明实施例中，可以预设有若干关系三元组，所述关系三元组包含主实体词、副实体词，以及指示所述主实体词与所述副实体词之间关系的关系词。例如，在关系三元组“张某，创办，某公司”中，“张某”可以为主实体词，“某公司”可以为副实体词，“创办”可以为主实体词“张某”与副实体词“张某”之间的关系。其中，实体词可以指文本中具有特定意义的词语，例如人名、地名、机构名、专有名词等。

在本发明实施例中，为了得到可以对文本中的三元组进行标注的三元组预测模型，可以获取包含预设的关系三元组对应的主实体词、副实体词以及关系词的训练文本，便于后续采用训练文本对模型进行训练。

步骤102，将所述训练文本以及所述主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型，生成三元组预测模型。

在本发明实施例中，为了实现开放领域的关系三元组抽取，而不再将所述关系三元组的抽取限定在指定的关系类型中，可以将所述副实体词以及所述关系词作为模型输出，并将所述训练文本以及所述关系三元组中的主实体词作为模型输入，训练预设的模型，生成三元组预测模型。

在具体实现中，所述三元组预测模型可以包含序列标注模型。可以基于所述训练文本以及所述主实体词，对训练文本中的主实体词进行标注，得到带有主实体词标注信息的训练文本。其后，可以对所述训练文本中的副实体词以及关系词进行标注，得到带有副实体词标注信息以及关系词标注信息的训练文本。其后，可以采用带有主实体词标注信息的训练文本作为模型输入，将带有副实体词标注信息以及关系词标注信息的训练文本作为模型输出，训练所述三元组预测模型中的序列标注模型。

其中，所述主实体词标注信息可以用于得知所述训练文本中属于主实体词类型的实体词，并得知该实体词在所述训练文本中所处的位置。所述副实体词标注信息可以用于得知所述训练文本中属于副实体词类型的实体词，并得知该实体词在所述训练文本中所处的位置。所述关系词标注信息可以用于得知所述训练文本中属于关系词类型的实体词，并得知该实体词在所述训练文本中所处的位置。

训练完成的所述三元组预测模型，可以基于文本以及主实体词，对所述文本中的主实体词进行标注，得到带有主实体词标注信息的文本，基于带有主实体词标注信息的文本，得到副实体词标注信息以及关系词标注信息。其后可以基于所述副实体词标注信息以及关系词标注信息，得知文本中的副实体词以及关系词，并最终输出包含主实体词、关系词、以及副实体词的关系三元组。

由此，训练完成的所述三元组预测模型可以基于主实体词，对文本中的关系词以及副实体词进行预测，从而所述三元组预测模型预测的关系三元组可以不限于若干指定的关系类型中，而可以对新的关系类型进行预测，可以获取更多不同类型的关系三元组，实现开放领域中关系三元组的抽取，且具有较高的准确率，便于后续采用关系三元组构建知识图谱或者海量数据分析。

其中，所述预设的模型可以为隐马尔科夫模型、条件随机场模型、双向长短记忆网络(BiLSTM)模型等用于序列标注的模型，本发明对此不做限制。

通过本发明实施例的三元组预测模型的生成方法，获获取包含预设的关系三元组的训练文本；所述关系三元组包括主实体词、关系词、以及副实体词；所述训练文本包含所述关系三元组对应的主实体词、副实体词以及关系词；将所述训练文本以及所述主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型，生成三元组预测模型。从而训练完成的三元组预测模型可以基于训练文本以及主实体词对所述训练文本的副实体词以及关系词进行预测，从而预测得到的关系三元组可以包含多种不同的关系类型，扩展三元组预测模型可以提取的关系三元组的数量以及关系类型，实现开放领域中关系三元组的抽取。

参照图2，示出了本发明的一种三元组预测模型的生成方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201，对于一预设的关系三元组，查找同时包含所述关系三元组中的主实体词与副实体词的候选文本；

在本发明实施例中，可以预设有若干关系三元组，所述关系三元组包含主实体词、副实体词，以及指示所述主实体词与所述副实体词之间关系的关系词。

在本发明实施例中，为了训练可以对文本中的三元组进行标注的三元组预测模型，可以获取包含预设的关系三元组的训练文本。为了增加提取到的训练文本的数量，对于一个预设的关系三元组，可以首先查找包含所述关系三元组中的主实体词以及副实体词的候选文本。其后再对所述候选文本进行筛选，进一步在候选文本中查找训练文本。

在本发明的一种实施例中，所述方法还包括：

S11，在预设的知识图谱中，提取出现频次高于预设次数的高频关系词；

在本发明实施例中，为了提高三元组预测模型的训练效果，可以在预测的知识图谱中，提取出现频次高于预设次数的高频关系词。

其中，所述知识图谱可以为基于海量数据组成的、包含若干关系三元组的数据库。

其中，所述预设次数可以根据实际需要确定为3次、5次、50次等，本发明对此不做限制。

S12，将包含所述高频关系词的关系三元组，作为训练关系三元组。

在本发明实施例中，可以将包含所述高频关键词的关系三元组，作为训练所述三元组预测模型的训练关系三元组。采用包含所述高频关系词的训练关系三元组对模型进行训练，可以使模型更好地收敛，获得更好的训练效果。

步骤202，查找包含所述关系三元组中的关系词，或者所述关系词的近义词的候选文本，作为训练文本；

在本发明实施例中，为了使训练后得到的三元组预测模型可以用于标注多种不同关系类型的关系三元组，可以在训练过程中，对所述关系词进行扩充。由此，可以提取所述关系三元组中的关系词，并对所述关系词进行近义词扩充，确定所述关系词对应的近义词。

在本发明实施例中，对于一关系三元组来说，可以在包含所述关系三元组中的主实体词以及副实体词的训练文本中，查找包含所述关系三元组的关系词，或者包含所述关系三元组的关系词对应的近义词的候选文本，作为训练文本。

步骤203，将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型，获取所述模型输出的副实体词预测信息以及关系词预测信息；

在本发明实施例中，为了实现开放领域的关系三元组抽取，而不再将所述关系三元组的抽取限定在指定的关系类型中，可以将所述副实体词以及所述关系词作为模型输出，并将所述训练文本以及所述关系三元组中的主实体词作为模型输入，训练预设的模型。所述模型在训练过程中，可以输出所述模型预测副实体词以及副实体词的位置的副实体词预测信息，以及所述模型预测关系词以及所述关系词的位置的所述关系词预测信息。可以基于所述副实体词预测信息以及所述关系词预测信息，进一步确定所述模型是否预测完成。

步骤204，根据所述副实体词预测信息以及所述关系词预测信息，确定所述模型的链接损失函数；其中，所述链接损失函数用于表征具有对应关系的所述副实体词预测信息以及所述关系词预测信息是否成对出现；

在本发明实施例中，由于训练文本中所述副实体词以及所述关系词需要成对出现，才可以采用所述主实体词、关系词、以及副实体词组成关系三元组。并且，一所述训练文本中可以存在多组具有对应关系的副实体词以及关系词。例如，训练文本“泸沽湖海拔2690米，水域面积达58平方公里”中，所述主实体词可以为“泸沽湖”，具有对应关系的副实体词以及关系词可以包括关系词“海拔”和对应的副实体词“2690米”，以及关系词“水域面积”和对应的副实体词“58平方公里”。在此情况下，若所述模型只标注出具有对应关系的副实体词和关系词中的其中一个，可能导致基于模型标注结果生成的关系三元组可能存在错误。若所述模型错误标注了副实体词和/或关系词，也可能导致基于模型标注结果生成的关系三元组可能存在错误。

由此，可以根据所述模型输出的所述副实体词预测信息以及所述关系词预测信息，确定模型的链接损失函数。所述链接损失函数可以用于表征具有对应关系的所述副实体词预测信息以及所述关系词预测信息是否成对出现。

若具有对应关系的所述副实体词预测信息以及所述关系词预测信息成对出现，则可以认为所述模型正确且同时标注了同一关系三元组中的副实体词以及关系词，此时链接损失函数可以得到较优的结果。若具有对应关系的所述副实体词预测信息以及所述关系词预测信息没有成对出现，则可以认为所述模型错误标注了同一关系三元组中的副实体词和/或关系词，或者所述模型没有同时标注同一关系三元组中的副实体词和关系词，此时链接损失函数可以得到较差的结果。

步骤205，根据所述链接损失函数调整所述模型的模型参数，并迭代训练所述模型，直至所述链接损失函数达到预设条件，所述模型训练完成，并将所述模型作为三元组预测模型。

在本发明实施例中，可以采用所述链接损失函数，评价所述模型是否达到收敛。在模型未达到收敛的情况下，可以根据所述链接损失函数，调整所述模型的参数，并迭代训练所述模型，直至所述连接损失函数达到预设条件，则可以认为所述模型达到收敛，所述模型训练完成，并将所述模型作为三元组预测模型。

其中，所述预设条件可以根据实际需要进行确定，例如，迭代训练直至所述链接损失函数达到最优。又例如，在预设次数的迭代训练中，选取所述链接损失函数最优的模型作为训练好的模型等，本发明对此不做限制。

在本发明实施例中，训练完成的所述三元组预测模型可以基于主实体词，对文本中的关系词以及副实体词进行预测，从而所述三元组预测模型预测的关系三元组可以不限于若干指定的关系类型中，而可以对新的关系类型进行预测，可以获取更多不同类型的关系三元组，且具有较高的准确率，便于后续采用关系三元组构建知识图谱或者海量数据分析。

通过本发明实施例的三元组预测模型的生成方法，对于一预设的关系三元组，查找同时包含所述关系三元组中的主实体词与副实体词的候选文本；查找包含所述关系三元组中的关系词，或者所述关系词的近义词的候选文本，作为训练文本；将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型；根据所述副实体词预测信息以及所述关系词预测信息，确定所述模型的链接损失函数，并调整所述模型的模型参数，迭代训练所述模型，直至所述链接损失函数达到预设条件，所述模型训练完成，并将所述模型作为三元组预测模型。从而训练完成的三元组预测模型可以基于训练文本以及主实体词对所述训练文本的副实体词以及关系词进行预测，从而预测得到的关系三元组可以包含多种不同的关系类型，扩展三元组预测模型可以提取的关系三元组的数量以及关系类型，实现开放领域中关系三元组的抽取。

参照图3，示出了本发明的一种关系三元组的提取方法实施例的步骤流程图，具体可以包括如下步骤：

步骤301，查找包含目标主实体词的待挖掘文本；

在本发明实施例中，在需要从海量数据中挖掘与一目标主实体词关联的关系三元组的情况下，可以在如互联网数据、文献数据等海量数据中，查找包含所述目标主实体词的待挖掘文本。

步骤302，采用所述目标主实体词、所述待挖掘文本、以及预设的三元组预测模型，确定目标副实体词以及目标关系词；其中，所述三元组预测模型通过获取包含预设的关系三元组的训练文本；将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型生成；

在本发明实施例中，为了在所述待挖掘文本中查找与所述目标主实体词对应的目标副实体词以及目标关系词，可以采用所述目标主实体词、所述待挖掘文本、以及预设的三元组预测模型，确定目标副实体词以及目标关系词。

具体地，可以将所述主实体词以及所述待挖掘文本输入预设的三元组预测模型中，所述三元组预测模型可以对待挖掘文本中的主实体词进行标注，得到带有主实体词标注信息的待挖掘文本，所述三元组预测模型可以基于带有主实体词标注信息的待挖掘文本，对所述待挖掘文本中的副实体词以及关系词进行标注，获取所述三元组预测模型输出的目标副实体标注信息，以及目标关系词标注信息，并基于所述目标副实体标注信息以及目标关系词标注信息，确定目标副实体词以及目标关系词。

其中，所述三元组预测模型通过获取包含预设的关系三元组的训练文本；将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型生成。

步骤303，构建包含所述目标主实体词、目标关系词、以及目标副实体词的目标关系三元组。

在本发明实施例中，可以根据所述目标主实体词、所述三元组预测模型输出的目标副实体词，以及目标关系词，构建目标关系三元组，从而可以实现从开放领域的海量数据中提取得到与主实体词关联的目标关系三元组，且具有较高的准确率，可以达到70％以上。后续可以采用所述目标关系三元组构建主实体词的知识图谱，还可以对于与主实体词关联的海量数据进行分析。

通过本发明实施例的关系三元组的提取方法，查找包含目标主实体词的待挖掘文本；采用所述目标主实体词、所述待挖掘文本、以及预设的三元组预测模型，确定目标副实体词以及目标关系词；其中，所述三元组预测模型通过获取包含预设的关系三元组的训练文本；将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型生成；构建包含所述目标主实体词、目标关系词、以及目标副实体词的目标关系三元组。从而可以采用所述三元组预测模型，获取与所述主实体词关联的目标关系三元组，便于后续采用所述目标关系三元组构建主实体词的知识图谱，还可以对于主实体词关联的海量数据进行分析。

参照图4，示出了本发明的一种关系三元组的提取方法实施例的步骤流程图，具体可以包括如下步骤：

步骤401，查找包含目标主实体词的待挖掘文本；

步骤402，采用所述目标主实体词、所述待挖掘文本、以及预设的三元组预测模型，确定目标副实体词以及目标关系词；其中，所述三元组预测模型通过获取包含预设的关系三元组的训练文本；将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型生成；

步骤403，确定目标副实体词以及目标关系词在所述待挖掘文本中的位置；

在本发明实施例中，可以基于所述三元组预测模型的输出结果，确定目标副实体词以及目标关系词在所述待挖掘文本中的位置。

具体地，所述三元组预测模型可以在所述待挖掘文本标注所述目标副实体词，得到目标副实体词标注信息。由此，可以根据所述目标副实体词标注信息，得知所述目标副实体词，以及所述目标副实体词在所述待挖掘文本中的位置。所述三元组预测模型可以在所述待挖掘文本标注所述目标关系词，得到目标关系词标注信息。由此，可以根据所述目标关系词，得知所述目标关系词，以及所述目标关系词在所述待挖掘文本中的位置。

作为本发明的一种示例，所述待挖掘文本可以为“被摩梭人称为“母亲湖”的泸沽湖，海拔2690米，水域面积达58平方公里，平均水深45米”，所述主实体词可以为“泸沽湖”，所述三元组预测模型可以输出目标副实体词标注信息，在待挖掘文本中标注“2690米”、“58平方公里”、“45米”为副实体词，并输出目标关系词标注信息，在待挖掘文本中标注“海拔”、“水域面积”、“平均水深”为目标关系词。从而可以根据所述目标副实体词标注信息以及所述目标关系词标注信息，得知所述目标副实体词以及所述目标关系词在所述待挖掘文本中的位置。

步骤404，采用所述目标主实体词，以及在所述待挖掘文本中位置相邻的所述目标副实体词与所述目标关系词，构建目标关系三元组。

在本发明实施例中，每一关系三元组中包含具有对应关系的主实体词、关系词、以及副实体词。由此，在所述三元组预测模型在所述待挖掘文本中标注了多个目标关系词以及多个目标副实体词的情况下，需要确定具有对应关系的目标副实体词以及目标关系词，与目标主实体词构建目标关系三元组。

在本发明实施例中，可以认为在所述待挖掘文本中，若所述目标副实体词与所述目标关系词之间的位置相邻，可以认为所述目标副实体词与所述目标关系词之间具有对应关系，属于同一目标关系三元组。由此，可以采用所述目标主实体词，以及在所述待挖掘文本中位置相邻的所述目标副实体词与所述目标关系词，构建目标关系三元组。

具体地，所述目标副实体词与所述目标关系词之间位置相邻，可以指在所述待挖掘文本中，基于所述目标副实体词所处的位置，向前或者向后查找到的第一个目标关系词，且所述目标副实体词与所述目标关系词之间没有间隔其他目标副实体词。位置相邻的所述目标副实体词与所述目标关系词之间，可以不间隔字符，也可以间隔至少一个字符，本发明对此不做限制。

作为本发明的一种示例，所述待挖掘文本可以为“被摩梭人称为“母亲湖”的泸沽湖，海拔2690米，水域面积达58平方公里，平均水深45米”中，“2690米”、“58平方公里”、以及“45米”为副实体词，“海拔”、“水域面积”、以及“平均水深”为目标关系词。其中，目标关系词“海拔”与目标副实体词“2690米”位置相邻，目标关系词“水域面积”与目标副实体词“58平方公里”位置相邻，目标关系词“平均水深”与目标副实体词“45米”位置相邻，则可以认为目标关系词“海拔”与目标副实体词“2690米”具有对应关系，目标关系词“水域面积”与目标副实体词“58平方公里”具有对应关系，目标关系词“平均水深”与目标副实体词“45米”具有对应关系，采用所述主实体词，以及在所述待挖掘文本中位置相邻的所述目标副实体词与所述目标关系词，构建目标关系三元组，得到目标关系三元组(泸沽湖，海拔，2690米)、(泸沽湖，水域面积，58平方公里)、以及(泸沽湖，平均水深，45米)。

在本发明的一种实施例中，所述采用所述目标主实体词，以及在所述待挖掘文本中位置相邻的所述目标副实体词与所述目标关系词，构建目标关系三元组的步骤，包括：

S11，若在所述待挖掘文本中，所述目标副实体词具有至少两个位置相邻的目标关系词的情况下，将与所述目标副实体词之间间隔字符数最少的所述目标关系词，作为与所述目标副实体词相对应的所述目标关系词；

在本发明实施例中，在所述待挖掘文本查找到多个目标副实体词以及多个目标关系词的情况下，对于一目标副实体词来说，其可以在所述待挖掘文本中查找到至少两个位置相邻的目标关系词。此时，需要进一步确定与所述目标副实体词具有对应关系的目标关系词。

在本发明实施例中，可以认为在所述待挖掘文本中，所述目标关系词与所述目标副实体词之间的间隔字符数越少，则所述目标关系词越有可能与所述目标副实体词之间具有对应关系。由此，若在所述待挖掘文本中，所述目标副实体词具有至少两个位置相邻的目标关系词的情况下，可以将与所述目标副实体词之间间隔字符数最少的所述目标关系词，作为与所述目标副实体词相对应的所述目标关系词。

可选地，可能存在所述目标副实体词分别与位置相邻的至少两个所述目标关系词之间具有相同的间隔字符数。在此情况下，可以认为在所述待挖掘文本中，与所述目标副实体词位置相邻且位于所述目标副实体词之前的目标关系词更有可能为所述目标副实体词对应的目标关系词，从而将与所述目标副实体词位置相邻且位于所述目标副实体词之前的目标关系词作为所述目标副实体词对应的目标关系词。

可选地，每段输入所述三元组预测模型中的待挖掘文本，其可以包括一句文本，也可以包括多句文本。每句文本中可以包括至少一个标点符号，也可以不包括标点符号。由此，在所述目标副实体词分别与位置相邻的至少两个所述目标关系词之间具有相同的间隔字符数的情况下，还可以基于所述间隔字符是否包含标点符号，以及标点符号的类型，确定所述目标副实体词对应的目标关系词。

例如，可以认为与所述目标副实体词之间的间隔字符不包含标点符号的目标关系词，以及与所述目标副实体词之间的间隔字符包含标点符号的目标关系词中，与所述目标副实体词之间的间隔字符不包含标点符号的目标关系词更有可能为所述目标副实体词对应的目标关系词。可以认为与所述目标副实体词之间的间隔字符包含逗号的目标关系词，以及与所述目标副实体词之间的间隔字符包含句号的目标关系词中，与所述目标副实体词之间的间隔字符包含逗号的目标关系词可能为所述目标副实体词对应的目标关系词。

S12，采用所述目标主实体词、所述目标副实体词、以及所述目标副实体词相对应的所述目标关系词，构建目标关系三元组。

在本发明实施例中，在确定所述目标副实体词对应的目标关系词之后，则可以采用所述主实体词、所述目标副实体词、以及所述目标副实体词相对应的所述目标关系词，构建目标关系三元组。从而可以实现从海量数据中提取得到与主实体词关联的目标关系三元组，便于后续采用所述目标关系三元组构建主实体词的知识图谱，还可以对于主实体词关联的海量数据进行分析。

通过本发明实施例的关系三元组的提取方法，查找包含主实体词的待挖掘文本；采用所述目标主实体词、所述待挖掘文本、以及预设的三元组预测模型，确定目标副实体词以及目标关系词；确定目标副实体词以及目标关系词在所述待挖掘文本中的位置；采用所述主实体词，以及在所述待挖掘文本中位置相邻的所述目标副实体词与所述目标关系词，构建目标关系三元组。从而可以采用所述三元组预测模型，获取与所述主实体词关联的目标关系三元组，便于后续采用所述目标关系三元组构建主实体词的知识图谱，还可以对于主实体词关联的海量数据进行分析。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明的一种三元组预测模型的生成装置实施例的结构框图，具体可以包括如下模块：

获取模块501，用于获取包含预设的关系三元组的训练文本；所述关系三元组包括主实体词、关系词、以及副实体词；所述训练文本包含所述关系三元组对应的主实体词、副实体词以及关系词；

训练模块502，用于将所述训练文本以及所述主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型，生成三元组预测模型。

在本发明一种实施例中，所述获取模块501包括：

在本发明一种实施例中，所述训练模块502包括：

参照图6，示出了本发明的一种关系三元组的提取装置实施例的结构框图，具体可以包括如下模块：

查找模块601，用于查找包含目标主实体词的待挖掘文本；

输入模块602，用于采用所述目标主实体词、所述待挖掘文本、以及预设的三元组预测模型，确定目标副实体词以及目标关系词；其中，所述三元组预测模型通过获取包含预设的关系三元组的训练文本；将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型生成；

构建模块603，用于构建包含所述目标主实体词、目标关系词、以及目标副实体词的目标关系三元组。

在本发明一种实施例中，所述构建模块603包括：

在本发明一种实施例中，所述构建子模块包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种装置，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行本发明实施例所述的方法。

本发明实施例还提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行本发明实施例所述的方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种三元组预测模型的生成方法、一种关系三元组的提取方法、一种三元组预测模型的生成装置、以及一种关系三元组的提取装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种三元组预测模型的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取包含预设的关系三元组的训练文本的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型，生成三元组预测模型的步骤，包括：

4.一种关系三元组的提取方法，其特征在于，包括：

查找包含目标主实体词的待挖掘文本；

5.根据权利要求4所述的方法，其特征在于，所述构建包含所述目标主实体词、目标关系词、以及目标副实体词的目标关系三元组的步骤，包括：

6.根据权利要求5所述的方法，其特征在于，所述采用所述目标主实体词，以及在所述待挖掘文本中位置相邻的所述目标副实体词与所述目标关系词，构建目标关系三元组的步骤，包括：

7.一种三元组预测模型的生成装置，其特征在于，包括：

获取模块，用于获取包含预设的关系三元组的训练文本；所述关系三元组包括主实体词、关系词、以及副实体词；所述训练文本具有所述关系三元组对应的副实体词以及关系词；

训练模块，用于将所述训练文本以及所述关系三元组中的主实体词作为模型输入，将所述副实体词以及所述关系词作为模型输出，训练预设的模型，生成三元组预测模型。

8.一种关系三元组的提取装置，其特征在于，包括：

查找模块，用于查找包含主实体词的待挖掘文本；

9.一种装置，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如权利要求1-3或4-6所述的一个或多个的方法。

10.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1-3或4-6所述的一个或多个的方法。