CN114328942A

CN114328942A - 关系抽取方法、装置、设备、存储介质和计算机程序产品

Info

Publication number: CN114328942A
Application number: CN202111275292.6A
Authority: CN
Inventors: 郦炀宁; 向玥佳; 陈曦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-04-12

Abstract

本申请涉及一种关系抽取方法、装置、设备、存储介质和计算机程序产品。所述方法包括：获取实例集合中每个实例对应的关系特征；实例集合中包括已知关系的实例和未知关系的实例；根据关系特征，从实例集合中识别未知关系的实例，作为待标注实例；待标注实例中各实体之间的关系是未知的；从待标注实例中选取目标实例，并获取针对目标实例标注的关系信息；目标实例所含信息量大于待标注实例中除目标实例外的非目标实例所含的信息量；基于标注关系信息后的目标实例训练关系分类器；关系信息表征目标实例中各实体之间的关系；基于训练完成后的关系分类器，标注非目标实例中各实体之间的关系。采用本方法能够节省人力成本和时间成本。

Description

关系抽取方法、装置、设备、存储介质和计算机程序产品

技术领域

本申请涉及计算机技术领域，特别是涉及一种关系抽取方法、装置、设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，关系抽取在很多业务场景下得到了广泛应用，比如，关系抽取可应用于知识图谱(Knowledge Graph)的构建过程中。知识图谱称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形。知识图谱用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱可广泛应用于各种业务领域。

传统技术中，主要是通过人工标注各实体之间的关系。然而，通过人力对各实体之间的关系进行人工标注的方式，需要花费大量的人力成本和时间成本。

发明内容

基于此，有必要针对上述技术问题，提供一种能够节省人力成本和时间成本的关系抽取方法、装置、设备、存储介质和计算机程序产品。

一种关系抽取方法，所述方法包括：

获取实例集合中每个实例对应的关系特征；所述实例集合中包括已知关系的实例和未知关系的实例；

根据所述关系特征，从实例集合中识别未知关系的实例，作为待标注实例；所述待标注实例中各实体之间的关系是未知的；

从所述待标注实例中选取目标实例，并获取针对所述目标实例标注的关系信息；所述目标实例所含信息量大于所述待标注实例中除所述目标实例外的非目标实例所含的信息量；

基于标注关系信息后的所述目标实例训练关系分类器；所述关系信息表征所述目标实例中各实体之间的关系；

基于训练完成后的关系分类器，标注所述非目标实例中各实体之间的关系。

一种关系抽取装置，所述装置包括：

获取模块，用于获取实例集合中每个实例对应的关系特征；所述实例集合中包括已知关系的实例和未知关系的实例；

识别模块，用于根据所述关系特征，从实例集合中识别未知关系的实例，作为待标注实例；所述待标注实例中各实体之间的关系是未知的；

选取模块，用于从所述待标注实例中选取目标实例，并获取针对所述目标实例标注的关系信息；所述目标实例所含信息量大于所述待标注实例中除所述目标实例外的非目标实例所含的信息量；

训练模块，用于基于标注关系信息后的所述目标实例训练关系分类器；所述关系信息表征所述目标实例中各实体之间的关系；

标注模块，用于基于训练完成后的关系分类器，标注所述非目标实例中各实体之间的关系。

在一个实施例中，所述每个实例中包括至少两个实体；所述获取模块还用于将实例集合中每个实例分别输入已训练的语言模型，以基于所述已训练的语言模型识别所述每个实例中各实体之间的关系，得到所述每个实例对应的关系特征。

在一个实施例中，所述训练模块还用于获取待训练的语言模型；获取样本实例集合；所述样本实例集合包括自定义的已知关系的样本实例；通过所述样本实例集合优化训练所述待训练的语言模型，得到已训练的语言模型。

在一个实施例中，所述训练模块还用于将所述样本实例集合输入至待训练的语言模型，获取所述待训练的语言模型针对所述样本实例集合中的样本实例输出的预测关系特征；根据所述待训练的语言模型中的第一目标函数和第二目标函数确定损失值；所述第一目标函数，用于度量同一所述样本实例对应的所述预测关系特征与已知关系特征之间的差异；所述已知关系特征，用于表征所述样本实例的已知关系；所述第二目标函数，用于约束各个所述样本实例所对应的所述预测关系特征的分布；基于所述损失值调整所述待训练的语言模型的模型参数，以继续迭代训练，直至满足迭代停止条件得到已训练的语言模型。

在一个实施例中，每两个实体为一个实体对；所述实体对包括头实体和尾实体；所述获取模块还用于针对实例集合的每个实例中的每个实体对，在所述实体对中头实体的前后分别***头实体起始位置标识符和头实体终止位置标识符，在所述实体对中的尾实体的前后分别***尾实体起始位置标识符和尾实体终止位置标识符，得到各个预处理后的实例；将每个预处理后的实例输入至已训练的语言模型，依次经过所述已训练的语言模型中的各个隐藏层进行特征提取；针对每个预处理后的实例，获取最后一个所述隐藏层输出的与所述预处理后的实例中的所述头实体起始位置标识符对应的第一隐层特征向量，以及与所述尾实体起始位置标识符对应的第二隐层特征向量；将所述第一隐层特征向量与所述第二隐层特征向量进行向量拼接，得到所述实例对应的关系特征。

在一个实施例中，所述识别模块还用于在语义空间中，根据所述关系特征之间的语义相似度，对所述实例集合中的各实例进行聚类；确定聚类后的每个实例对应的局部离群因子；将所述局部离群因子大于或等于预设阈值的实例确定为未知关系的实例。

在一个实施例中，所述识别模块还用于针对聚类后的每个实例，分别确定所述实例到邻域内的各个参考实例之间的可达性距离；根据各个所述可达性距离，确定所述实例到邻域内各个参考实例的第一平均可达距离；针对每个所述参考实例，确定所述参考实例到所述参考实例的邻域内的各个实例的第二平均可达距离；根据所述第一平均可达距离、以及各个所述参考实例分别对应的所述第二平均可达距离，确定所述实例的局部离群因子。

在一个实施例中，所述选取模块还用于从所述待标注实例中选取用于首轮对抗训练的目标实例，并获取对选取的目标实例标注的关系信息；将首轮确定为本轮，基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练，并通过本轮对抗训练后的编码器对当前的待标注实例编码，得到所述当前的待标注实例对应的关系特征；通过本轮对抗训练后的判别器，基于所述当前的待标注实例对应的关系特征，从所述当前的待标注实例中选取目标实例，并获取针对选取的目标实例标注的关系信息；将所述当前的待标注实例中剩余未标注的待标注实例，作为下一轮的当前的待标注实例，将下一轮作为本轮，返回执行所述基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练的步骤以继续执行，直至满足迭代停止条件时停止对抗训练；获取在每轮对抗训练过程中选取的目标实例，以及针对选取的目标实例标注的关系信息。

在一个实施例中，所述选取模块还用于通过本轮对抗训练后的判别器，基于所述当前的待标注实例对应的关系特征，确定各所述当前的待标注实例对应的置信度；所述置信度，用于表征所述当前的待标注实例所含信息量的丰富程度；基于所述置信度从高到低的顺序，从各所述当前的待标注实例中选取预设数量的实例作为目标实例，并获取针对选取的目标实例标注的关系信息。

在一个实施例中，所述训练模块还用于将标注关系信息后的所述目标实例输入至待训练的关系分类器；通过所述待训练的关系分类器，预测所述目标实例对应的预测关系信息；基于所述预测关系信息和所述目标实例对应的标注的关系信息之间的差异，调整所述待训练的关系分类器的模型参数。

在一个实施例中，所述实例集合中的每个实例中包括至少两个实体；每两个实体为一个实体对；所述实体对包括头实体和尾实体；所述装置还包括：

生成模块，用于根据所述实例集合中的每个实例中各实体之间的关系，确定关系三元组；所述关系三元组包括头实体、尾实体、以及所述头实体与尾实体之间的关系；根据所述关系三元组，生成所述实例集合对应的业务场景下的知识图谱。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述关系抽取方法、装置、设备、存储介质和计算机程序产品，获取实例集合中每个实例对应的关系特征，实例集合中包括已知关系的实例和未知关系的实例。根据实例集合中每个实例对应的关系特征，可从实例集合中识别未知关系的实例，作为待标注实例，待标注实例中各实体之间的关系是未知的。从待标注实例中选取一小部分目标实例，目标实例所含信息量大于候选实例中除目标实例外的非目标实例所含的信息量。在通过人工标注获取针对这一小部分的目标实例标注的关系信息后，可基于标注关系信息后的这一小部分目标实例训练关系分类器，关系信息表征目标实例中各实体之间的关系。由于所选取的那一小部分目标实例含有丰富的信息量，因此，训练完成后的关系分类器具备自动标注关系的功能，进而，基于训练完成后的关系分类器，可自动标注剩下的大量的非目标实例中各实体之间的关系，避免了通过人工标注大量的实例对应的关系，大大节省了人力成本和时间成本。

附图说明

图1为一个实施例中关系抽取方法的应用环境图；

图2为一个实施例中关系抽取方法的流程示意图；

图3为一个实施例中从待标注实例中选取目标实例并标注关系信息步骤的流程示意图；

图4为另一个实施例中关系抽取方法的流程示意图；

图5为又一个实施例中关系抽取方法的流程示意图；

图6为一个实施例中将本申请的语言模型与传统的特征提取模型进行对比的结果示意图；

图7为一个实施例中将本申请的关系抽取方法与传统的关系抽取方法进行对比的结果示意图；

图8为一个实施例中关系抽取装置的结构框图；

图9为另一个实施例中关系抽取装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的关系抽取方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备和车载终端，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

服务器104可获取实例集合中每个实例对应的关系特征；实例集合中包括已知关系的实例和未知关系的实例。服务器104可根据关系特征，从实例集合中识别未知关系的实例，作为待标注实例；待标注实例中各实体之间的关系是未知的。服务器104可从待标注实例中选取目标实例，并获取针对目标实例标注的关系信息。目标实例所含信息量大于待标注实例中除目标实例外的非目标实例所含的信息量。服务器104可基于标注关系信息后的目标实例训练关系分类器。服务器104可关系信息表征目标实例中各实体之间的关系，并基于训练完成后的关系分类器，标注非目标实例中各实体之间的关系，基于实例集合中每个实例中各实体之间的关系，生成该实例集合对应的业务场景下的知识图谱，将知识图谱发送至终端102进行展示。

在一个实施例中，如图2所示，提供了一种关系抽取方法，该方法可应用于服务器104，也可应用于终端与服务器的交互过程。本实施例以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤202，获取实例集合中每个实例对应的关系特征；实例集合中包括已知关系的实例和未知关系的实例。

其中，实例集合是实例的集合。关系特征，是用于表征实例中各实体之间的关系的特征。已知关系的实例，是指各实体之间的关系是已知的实例。未知关系的实例，是指各实体之间的关系是未知的实例。

具体地，服务器可获取实例集合，该实例集合中包括已知关系的实例和未知关系的实例。进而，服务器可获取该实例集合中每个实例对应的关系特征。

在一个实施例中，服务器可将实例集合中每个实例输入至神经网络模型，进而服务器可基于神经网络模型识别每个实例中各实体之间的关系，得到每个实例对应的关系特征。

在一个实施例中，神经网络模型可包括语言模型，即，BERT(BidirectionalEncoder Representations from Transformers，自编码语言模型)模型、以及其他具备关系特征提取功能的模型等中的任一种。

步骤204，根据关系特征，从实例集合中识别未知关系的实例，作为待标注实例；待标注实例中各实体之间的关系是未知的。

其中，待标注实例，是指各实体之间的关系是待标注的实例。

具体地，服务器可根据实例集合中每个实例对应的关系特征，从实例集合中识别未知关系的实例，并将识别出来的未知关系的实例作为待标注实例。

在一个实施例中，在语义空间中，实例集合中各实例对应的关系特征对应各自的语义。服务器可根据实例集合中各实例对应的关系特征之间的语义相似度，对实例集合中的各实例进行聚类。进而，服务器可基于聚类后的结果，从实例集合中识别未知关系的实例，并将识别出来的未知关系的实例作为待标注实例。其中，语义相似度，是各实例对应的关系特征的语义之间的相似度。实例集合中已知关系的实例所对应的第一语义是语义空间中已存在的；第一语义是已知关系的实例所对应的关系特征的语义；实例集合中未知关系的实例所对应的第二语义是语义空间中未存在的；第二语义是未知关系的实例所对应的关系特征的语义。

可以理解，在语义空间中，针对已知关系的实例，由于实例集合中已知关系的实例所对应的第一语义是语义空间中已存在的，则，若各实例对应的关系特征之间的语义相似度较高，则实例趋于密集聚集，形成独立的簇；若各实例对应的关系特征之间的语义相似度较低，则实例趋于离散。针对未知关系的实例，由于实例集合中未知关系的实例所对应的第二语义是语义空间中未存在的，则，这些未知关系的实例没有被映射至任何聚类附近。基于此，服务器可基于聚类后的结果，从实例集合中识别未知关系的实例，并将识别出来的未知关系的实例作为待标注实例。

步骤206，从待标注实例中选取目标实例，并获取针对目标实例标注的关系信息；目标实例所含信息量大于待标注实例中除目标实例外的非目标实例所含的信息量。

其中，目标实例，是作为标注目标的实例。非目标实例，是未作为标注目标的实例。关系信息，是表征目标实例中各实体之间的关系的信息。

具体地，服务器可从所有待标注实例中，选取信息量最大的一小部分目标实例，并通过人工标注的方式，对所选取的这一小部分目标实例标注对应的关系信息。进而，服务器可获取针对目标实例所标注的关系信息。

在一个实施例中，专家可凭借丰富的经验，直接从待标注实例中选取信息量最大的一小部分目标实例。服务器可获取专家从待标注实例中选取的目标实例，并通过人工标注的方式，对所选取的这一小部分目标实例标注对应的关系信息。进而，服务器可获取针对目标实例所标注的关系信息。

在一个实施例中，服务器可将待标注实例输入至已训练的实例选取模型，通过已训练的实例选取模型，从待标注实例中选取信息量最大的一小部分目标实例。进而，通过人工标注的方式，对所选取的这一小部分目标实例标注对应的关系信息。进而，服务器可获取针对目标实例所标注的关系信息。

步骤208，基于标注关系信息后的目标实例训练关系分类器；关系信息表征目标实例中各实体之间的关系。

其中，分类器，是一种用于对未知数据进行自动分类的模型。举例说明，将未知数据输入至分类器中，通过分类器就可对未知数据进行自动分类。关系分类器，是用于标注实例中各实体之间的关系的分类器。举例说明，在一个真实的应用场景中，数据源是开放且多样化的，也就是说，大部分实例中各实体之间的关系是未知的，将未知关系的实例输入至关系分类器中，通过关系分类器就可对实例中的各实体之间的关系进行自动标注。

具体地，服务器可将标注关系信息后的目标实例，分别输入至待训练的关系分类器，以基于标注关系信息后的目标实例训练待训练的关系分类器。

在一个实施例中，服务器可将标注关系信息后的目标实例，分别输入至待训练的关系分类器。服务器可通过待训练的关系分类器中的损失函数，基于标注关系信息后的目标实例，调整待训练的关系分类器的模型参数。

步骤210，基于训练完成后的关系分类器，标注非目标实例中各实体之间的关系。

具体地，服务器可将大规模的非目标实例，输入至训练完成后的关系分类器，以基于训练完成后的关系分类器，自动标注这部分大规模的非目标实例中各实体之间的关系。

上述关系抽取方法中，获取实例集合中每个实例对应的关系特征，实例集合中包括已知关系的实例和未知关系的实例。根据实例集合中每个实例对应的关系特征，可从实例集合中识别未知关系的实例，作为待标注实例，待标注实例中各实体之间的关系是未知的。从待标注实例中选取一小部分目标实例，目标实例所含信息量大于候选实例中除目标实例外的非目标实例所含的信息量。在通过人工标注获取针对这一小部分的目标实例标注的关系信息后，可基于标注关系信息后的这一小部分目标实例训练关系分类器，关系信息表征目标实例中各实体之间的关系。由于所选取的那一小部分目标实例含有丰富的信息量，因此，训练完成后的关系分类器具备自动标注关系的功能，进而，基于训练完成后的关系分类器，可自动标注剩下的大量的非目标实例中各实体之间的关系，避免了通过人工标注大量的实例对应的关系，大大节省了人力成本和时间成本。

在一个实施例中，每个实例中包括至少两个实体；步骤202，也就是获取实例集合中每个实例对应的关系特征的步骤，具体包括：将实例集合中每个实例分别输入已训练的语言模型，以基于已训练的语言模型识别每个实例中各实体之间的关系，得到每个实例对应的关系特征。

具体地，每个实例中包括至少两个实体，各实体之间具有相应的关系。服务器可将实例集合中每个实例分别输入已训练的语言模型，并基于已训练的语言模型识别每个实例中各实体之间的关系，得到每个实例对应的关系特征。

在一个实施例中，每两个实体为一个实体对，针对实例集合的每个实例中的每个实体对，服务器可获取针对每个实体对的位置标识，并将获取位置标识的后的各实例输入至已训练的语言模型，以获得每个实体对的位置标识所指示的特征向量。服务器可基于各实例中每个实体对对应的特征向量，确定各实例对应的关系特征。其中，一个实体对中包括两个实体。实体对的位置标识，用于指示实体对在相应实例中的位置。

上述实施例中，将实例集合中每个实例输入已训练的语言模型，通过已训练的语言模型提取每个实例对应的关系特征，可以得到更准确的关系特征。

在一个实施例中，已训练的语言模型通过语言模型训练步骤得到，语言模型训练步骤，包括：获取待训练的语言模型；获取样本实例集合；样本实例集合包括自定义的已知关系的样本实例；通过样本实例集合优化训练待训练的语言模型，得到已训练的语言模型。

其中，样本实例集合是样本实例的集合。样本实例是用于训练待训练的语言模型的实例。自定义的已知关系的样本实例，是针对相应的业务场景，自定义标注有关系信息的样本实例。

具体地，服务器可获取待训练的语言模型，以及获取样本实例集合。需要说明的是，该样本实例集合包括自定义的已知关系的样本实例，以及公开数据集中已知关系的样本实例。服务器可通过样本实例集合优化训练待训练的语言模型，得到已训练的语言模型。

在一个实施例中，待训练的语言模型，可以是服务器直接获取的、且已经过初始训练的语言模型，也可以是服务器基于公开数据集中已知关系的样本实例进行初始训练得到的语言模型。

在一个实施例中，待训练的语言模型，是基于传统的目标函数训练得到的。服务器可通过样本实例集合、传统的目标函数、以及至少一个的自定义的目标函数，进一步优化训练待训练的语言模型，得到已训练的语言模型。

上述实施例中，通过自定义的已知关系的样本实例，优化训练待训练的语言模型，可以使得已训练的语言模型更适用于相应的应用场景，进而可通过已训练的语言模型，获得该应用场景下更准确的关系特征。

在一个实施例中，通过样本实例集合优化训练待训练的语言模型，得到已训练的语言模型的步骤，具体包括：将样本实例集合输入至待训练的语言模型，获取待训练的语言模型针对样本实例集合中的样本实例输出的预测关系特征；根据待训练的语言模型中的第一目标函数和第二目标函数确定损失值；第一目标函数，用于度量同一样本实例对应的预测关系特征与已知关系特征之间的差异；已知关系特征，用于表征样本实例的已知关系；第二目标函数，用于约束各个样本实例所对应的预测关系特征的分布；基于损失值调整待训练的语言模型的模型参数，以继续迭代训练，直至满足迭代停止条件得到已训练的语言模型。

其中，预测关系特征，是待训练的语言模型基于输入的各样本实例所预测得到的关系特征。已知关系特征，是表征样本实例的已知关系的特征。

具体地，服务器可将获取得到的样本实例集合，输入至待训练的语言模型。服务器可通过待训练的语言模型，基于样本实例集合中的样本实例，预测得到各样本实例对应的预测关系特征。待训练的语言模型中预先构建有用于度量同一样本实例对应的预测关系特征与已知关系特征之间的差异的第一目标函数，以及用于约束各个样本实例所对应的预测关系特征的分布的第二目标函数。服务器可根据待训练的语言模型中的第一目标函数和第二目标函数，确定训练过程中的损失值，并基于损失值调整待训练的语言模型的模型参数，以继续迭代训练，直至满足迭代停止条件得到已训练的语言模型。

在一个实施例中，第一目标函数可以是传统的目标函数，比如，交叉熵损失函数。第二目标函数可以是自定义的目标函数，比如，对比学习中的损失函数。

上述实施例中，通过待训练的语言模型中的第一目标函数和第二目标函数，一同确定损失值，通过损失值调整待训练的语言模型的模型参数，可以提升语言模型提取关系特征的准确率。

在一个实施例中，每两个实体为一个实体对；实体对包括头实体和尾实体；将实例集合中每个实例分别输入已训练的语言模型，以基于已训练的语言模型识别每个实例中各实体之间的关系，得到每个实例对应的关系特征，包括：针对实例集合的每个实例中的每个实体对，在实体对中头实体的前后分别***头实体起始位置标识符和头实体终止位置标识符，在实体对中的尾实体的前后分别***尾实体起始位置标识符和尾实体终止位置标识符，得到各个预处理后的实例；将每个预处理后的实例输入至已训练的语言模型，依次经过已训练的语言模型中的各个隐藏层进行特征提取；针对每个预处理后的实例，获取最后一个隐藏层输出的与预处理后的实例中的头实体起始位置标识符对应的第一隐层特征向量，以及与尾实体起始位置标识符对应的第二隐层特征向量；将第一隐层特征向量与第二隐层特征向量进行向量拼接，得到实例对应的关系特征。

其中，头实体，是在实体对中位于起始位置的实体。尾实体，是在实体对中位于终止位置的实体。头实体起始位置标识符，是用于标示头实体中的第一个实体元素在实例中的位置的标识符。头实体终止位置标识符，是用于标示头实体中的最后一个实体元素在实例中的位置的标识符。尾实体起始位置标识符，是用于标示尾实体中的第一个实体元素在实例中的位置的标识符。尾实体终止位置标识符，是用于标示尾实体中的最后一个实体元素在实例中的位置的标识符。实体元素，是各实体中的元素，一个实体包括至少一个实体元素。隐藏层，是已训练的语言模型中除输入层和输出层之外的中间层。第一隐层特征向量，是最后一个隐藏层输出的头实体起始位置标识符对应的特征向量。第二隐层特征向量，是最后一个隐藏层输出的尾实体起始位置标识符对应的特征向量。

具体地，针对实例集合的每个实例中的每个实体对，服务器可在实体对中的头实体之前***头实体起始位置标识符，以及在实体对中的头实体之后***头实体终止位置标识符。同时，服务器还可在实体对中的尾实体之前***尾实体起始位置标识符，以及在实体对中的尾实体之后***尾实体终止位置标识符，得到各个预处理后的实例。已训练的语言模型中包括多个隐藏层，服务器可将每个预处理后的实例输入至已训练的语言模型，依次经过已训练的语言模型中的各个隐藏层进行特征提取。针对每个预处理后的实例，服务器可获取最后一个隐藏层输出的与预处理后的实例中的头实体起始位置标识符对应的第一隐层特征向量，以及与尾实体起始位置标识符对应的第二隐层特征向量，并将第一隐层特征向量与第二隐层特征向量进行向量拼接，得到实例对应的关系特征。

在一个实施例中，实例x为词序列，记为{w₁,w₂,...,w_n}，其中，w₁,w₂,...,w_n代表词序列中的各个词，n代表词序列中的词的数量。假设该词序列中有两个实体，分别记为e_h和e_t，e_h和e_t可组成一个实体对，则可以使用关系三元组(e_h,r,e_t)来表示实体对e_h和e_t之间的关系r。此外，可定义头实体起始位置标识符为＜e_h＞，头实体终止位置标识符为＜/e_h＞，尾实体起始位置标识符为＜e_t＞，尾实体终止位置标识符为＜/e_t＞，则初始化后的实例x可以表示为：

x＝...,＜e_h＞,w_START(h)+1,...,w_END(h),＜/e_h＞,...,

＜e_t＞,w_START(t)+1,...,w_END(t),＜/e_t＞,...

其中，START(h)表示＜e_h＞在实例中的位置，END(h)表示＜/e_h＞在实例中的位置，START(t)表示＜e_t＞在实例中的位置，END(t)表示＜/e_t＞在实例中的位置。

服务器可将初始化后的实例x输入至已训练的语言模型(BERT)，以获取已训练的语言模型中最后一个隐藏层输出的每个词对应的隐层特征向量，具体可以通过如下公式示意：

h₁,...,h_m＝BERT(w₁,w₂,...,w_m)

其中，BERT(w₁,w₂,...,w_m)表示将初始化后的实例x，输入至已训练的语言模型(BERT)，h₁,...,h_m表示最后一个隐藏层输出每个词对应的隐层特征向量。

服务器可将＜e_h＞对应的第一隐层特征向量h_START(h)，以及＜e_t＞对应的第二隐层特征向量h_START(t)进行向量拼接，得到实例x对应的关系特征向量h_r(x)，具体可以通过如下公式示意：

h_r(x)＝[h_START(h),h_START(t)]

上述实施例中，通过在实体对中头实体的前后分别***头实体起始位置标识符和头实体终止位置标识符，在实体对中的尾实体的前后分别***尾实体起始位置标识符和尾实体终止位置标识符。通过将最后一个隐藏层输出的头实体起始位置标识符对应的第一隐层特征向量，以及与尾实体起始位置标识符对应的第二隐层特征向量进行向量拼接，这样，即可快速、准确地获取得到各实例对应的关系特征。

在一个实施例中，步骤204中根据关系特征，从实例集合中识别未知关系的实例的步骤，具体包括：在语义空间中，根据关系特征之间的语义相似度，对实例集合中的各实例进行聚类；确定聚类后的每个实例对应的局部离群因子；将局部离群因子大于或等于预设阈值的实例确定为未知关系的实例。

其中，局部离群因子，是用于判定实例是否为未知关系的实例的评价参数，若一个实例的局部离群因子越大，则表示该实例越可能为未知关系的实例，反之，若一个实例的局部离群因子越小，则表示该实例越可能为已知关系的实例。

具体地，各实例对应的关系特征均对应有各自的语义。在语义空间中，服务器可根据关系特征之间的语义相似度，对实例集合中的各实例进行聚类。针对聚类后的实例，服务器可计算聚类后的每个实例对应的局部离群因子，并将局部离群因子与预设阈值进行比对。服务器可基于比对的结果，将局部离群因子大于或等于预设阈值的实例确定为未知关系的实例。

在一个实施例中，针对聚类后的实例，服务器可计算聚类后的每个实例对应的局部密度，基于每个实例对应的局部密度，计算每个实例对应的局部离群因子。局部密度，是每个实例在相应局部空间中的密度。

上述实施例中，通过在语义空间中，根据关系特征之间的语义相似度，对实例集合中的各实例进行聚类，基于聚类后的每个实例对应的局部离群因子，确定未知关系的实例，这样，可从实例集合中的各实例中快速筛选出未知关系的实例，提升未知关系的实例的筛选效率。

在一个实施例中，确定聚类后的每个实例对应的局部离群因子的步骤，包括：针对聚类后的每个实例，分别确定实例到邻域内的各个参考实例之间的可达性距离；根据各个可达性距离，确定实例到邻域内各个参考实例的第一平均可达距离；针对每个参考实例，确定参考实例到参考实例的邻域内的各个实例的第二平均可达距离；根据第一平均可达距离、以及各个参考实例分别对应的第二平均可达距离，确定实例的局部离群因子。

其中，参考实例是位于领域内的实例。可达性距离是实例与参考实例之间的欧氏距离。

具体地，针对聚类后的每个实例，服务器可确定实例的邻域，以及分别确定实例到该邻域内的各个参考实例之间的可达性距离。服务器可根据各个可达性距离，基于实例的邻域内的参考实例的数量，确定实例到邻域内各个参考实例的第一平均可达距离。针对每个参考实例，服务器可确定该参考实例的邻域，并确定参考实例到参考实例的邻域内的各个实例的第二平均可达距离。进而，服务器可根据第一平均可达距离、以及各个参考实例分别对应的第二平均可达距离，计算实例的局部离群因子。

在一个实施例中，服务器可将参考实例的邻域内的最大距离，与实例到该邻域内任意一个参考实例的距离进行比对，根据比对结果选择距离最大的作为实例和参考实例之间的可达性距离。具体地，可定义实例x_i的第k距离为d_k(h_r(x_i)，定义参考实例x_j的第k距离为d_k(h_r(x_j)，即代表x_j的第k个最近邻的距离，则x_i和x_j之间的可达性距离rd_k(h_r(x_i),h_r(x_j))可以通过以下公式计算得到：

rd_k(h_r(x_i),h_r(x_j))＝max{d_k(h_r(x_j)),d(h_r(x_i),h_r(x_j))}

在一个实施例中，服务器可对实例和该实例的邻域内各参考实例之间的可达性距离进行求和，并基于实例的邻域内的参考实例的数量，计算实例到邻域内各个参考实例的第一平均可达距离。具体地，实例x_i到该实例的邻域N_k(h_r(x_i))内各个参考实例x_j的第一平均可达距离可以通过以下公式计算得到：

可以理解，实例x_i到该实例的邻域N_k(h_r(x_i))，即为实例x_i的第k距离d_k(h_r(x_i)的范围之内的区域。

在一个实施例中，服务器可在参考实例的邻域内，对参考实例和该邻域内各实例之间的可达性距离进行求和，并基于参考实例的邻域内的实例的数量，计算参考实例到邻域内各个实例的第二平均可达距离。具体地，参考实例x_j到该参考实例的邻域N_k(h_r(x_j)内的各个实例x_p的第二平均可达距离den_k(h_r(x_j))可以通过以下公式计算得到：

可以理解，实例x_j到该实例的邻域N_k(h_r(x_j))，即为实例x_j的第k距离d_k(h_r(x_j)的范围之内的区域。

在一个实施例中，服务器可在实例的邻域内，对第二平均可达距离与第一平均可达距离的比值进行求和，并基于求和结果与实例的邻域内的参考实例的数量的比值，计算实例的局部离群因子。具体地，实例x_i的局部离群因子LOF_k(h_r(x_i))可以通过以下公式计算得到：

上述实施例中，针对聚类后的每个实例，通过实例到邻域内的各个参考实例之间的可达性距离，可确定实例到邻域内各个参考实例的第一平均可达距离。针对每个参考实例，可确定参考实例到参考实例的邻域内的各个实例的第二平均可达距离。根据第一平均可达距离、以及各个参考实例分别对应的第二平均可达距离，可快速计算各实例的局部离群因子，提升局部离群因子的计算效率。

在一个实施例中，如图3所示，步骤206，也就是从待标注实例中选取目标实例，并获取针对目标实例标注的关系信息的步骤，具体包括：

步骤302，从待标注实例中选取用于首轮对抗训练的目标实例，并获取对选取的目标实例标注的关系信息。

具体地，专家可从待标注实例中选取一小部分信息量最大的目标实例，以作为训练数据用于首轮对抗训练，进而，服务器可获取从待标注实例中选取的用于首轮对抗训练的目标实例，并通过人工标注的方式对选取的目标实例标注关系信息，服务器可获取到对选取的目标实例标注的关系信息。

步骤304，将首轮确定为本轮，基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练，并通过本轮对抗训练后的编码器对当前的待标注实例编码，得到当前的待标注实例对应的关系特征。

具体地，服务器可将对抗训练的首轮确定为本轮，并将已标注有关系信息的目标实例作为训练数据，输入至由编码器和判别器组成的对抗网络。服务器可基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练。服务器可通过本轮对抗训练后的编码器对当前的待标注实例进行编码，得到当前的待标注实例对应的关系特征。

步骤306，通过本轮对抗训练后的判别器，基于当前的待标注实例对应的关系特征，从当前的待标注实例中选取目标实例，并获取针对选取的目标实例标注的关系信息。

具体地，服务器可将当前的待标注实例对应的关系特征，输入至本轮对抗训练后的判别器，以通过本轮对抗训练后的判别器，基于当前的待标注实例对应的关系特征，从当前的待标注实例中选取目标实例，并通过人工标注的方式对选取的目标实例标注关系信息，进而，服务器可获取到对选取的目标实例标注的关系信息。

在一个实施例中，服务器可将当前的待标注实例对应的关系特征，输入至本轮对抗训练后的判别器，并通过本轮对抗训练后的判别器，基于当前的待标注实例对应的关系特征，直接从当前的待标注实例中选取目标实例，并将目标实例作为本轮对抗训练后的判别器的模型输出。

步骤308，将当前的待标注实例中剩余未标注的待标注实例，作为下一轮的当前的待标注实例，将下一轮作为本轮，返回执行基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练的步骤以继续执行，直至满足迭代停止条件时停止对抗训练。

具体地，服务器可将当前的待标注实例中剩余未标注的待标注实例，作为下一轮的当前的待标注实例，并将下一轮作为本轮。服务器可返回执行基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练的步骤以继续执行，直至满足迭代停止条件时停止对抗训练。

步骤310，获取在每轮对抗训练过程中选取的目标实例，以及针对选取的目标实例标注的关系信息。

具体地，服务器可在对抗网络迭代训练的过程中，获取在每轮对抗训练过程中选取的目标实例，并通过人工标注的方式对每轮选取的目标实例标注关系信息，进而，服务器可获取到对每轮选取的目标实例标注的关系信息。

在一个实施例中，标注了关系信息的实例的集合记为X_L，未标注关系信息的实例的集合记为X_U，则在对抗网络迭代训练的过程中，编码器的损失函数

可以表示为如下公式：

其中，

表示实例x属于标注了关系信息的实例的集合，E_θ(x))表示编码器输出的关系特征，D_ψ(E_θ(x))表示判别器基于编码器输出的关系特征所输出的置信度，

表示标注了关系信息的实例x被判别为目标实例的概率的期望。

表示实例x属于未标注关系信息的实例的集合，

表示未标注关系信息的实例x被判别为非目标实例的概率的期望。

在一个实施例中，判别器的损失函数

可以表示为如下公式：

其中，

表示标注了关系信息的实例x被判别为非目标实例的概率的期望，

表示未标注关系信息的实例x被判别为目标实例的概率的期望。

上述实施例中，通过专家手动选取的方式，从待标注实例中选取一小部分用于首轮对抗训练的目标实例，并获取对选取的目标实例标注的关系信息，将首轮确定为本轮，基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练，并通过本轮对抗训练后的编码器对当前的待标注实例编码，可以得到当前的待标注实例对应的关系特征，通过本轮对抗训练后的判别器，基于当前的待标注实例对应的关系特征，可从当前的待标注实例中再选取一小部分目标实例，并获取针对选取的目标实例标注的关系信息。通过将当前的待标注实例中剩余未标注的待标注实例，作为下一轮的当前的待标注实例，将下一轮作为本轮，返回执行基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练的步骤以继续执行，直至满足迭代停止条件时停止对抗训练。这样，便可在每轮对抗训练过程中，准确获取信息量最大的那小部分目标实例，以及针对选取的这一小部分信息量最大的目标实例标注的关系信息。

在一个实施例中，步骤306，也就是通过本轮对抗训练后的判别器，基于当前的待标注实例对应的关系特征，从当前的待标注实例中选取目标实例，并获取针对选取的目标实例标注的关系信息，包括：通过本轮对抗训练后的判别器，基于当前的待标注实例对应的关系特征，确定各当前的待标注实例对应的置信度；置信度，用于表征当前的待标注实例所含信息量的丰富程度；基于置信度从高到低的顺序，从各当前的待标注实例中选取预设数量的实例作为目标实例，并获取针对选取的目标实例标注的关系信息。

具体地，服务器可将当前的待标注实例对应的关系特征，输入至本轮对抗训练后的判别器。进而，服务器可通过本轮对抗训练后的判别器，基于当前的待标注实例对应的关系特征，计算各当前的待标注实例对应的置信度。服务器可根据各当前的待标注实例对应的置信度，对各当前的待标注实例对应的置信度进行排序。服务器可基于置信度从高到低的顺序，从各当前的待标注实例中选取预设数量的实例作为目标实例，并通过人工标注的方式对选取的目标实例标注关系信息，进而，服务器可获取到对选取的目标实例标注的关系信息。

上述实施例中，通过本轮对抗训练后的判别器，基于当前的待标注实例对应的关系特征，快速确定各当前的待标注实例对应的置信度。基于置信度从高到低的顺序，从各当前的待标注实例中，准确选取预设数量的实例作为目标实例，并获取针对选取的这小部分目标实例标注的关系信息。

在一个实施例中，步骤208，也就是基于标注关系信息后的目标实例训练关系分类器的步骤，具体包括：将标注关系信息后的目标实例输入至待训练的关系分类器；通过待训练的关系分类器，预测目标实例对应的预测关系信息；基于预测关系信息和目标实例对应的标注的关系信息之间的差异，调整待训练的关系分类器的模型参数。

其中，预测关系信息，是待训练的关系分类器基于输入的标注关系信息后的目标实例所预测得到的关系信息。

具体地，服务器可获取待训练的关系分类器，并将标注关系信息后的目标实例输入至待训练的关系分类器。进而，服务器可通过待训练的关系分类器，预测目标实例对应的预测关系信息。服务器可确定预测关系信息和目标实例对应的标注的关系信息之间的差异，并基于预测关系信息和目标实例对应的标注的关系信息之间的差异，调整待训练的关系分类器的模型参数。

上述实施例中，通过待训练的关系分类器，可快速预测目标实例对应的预测关系信息，并基于预测关系信息和目标实例对应的标注的关系信息之间的差异，可准确调整待训练的关系分类器的模型参数，从而提升关系分类器的分类标注能力。

在一个实施例中，实例集合中的每个实例中包括至少两个实体；每两个实体为一个实体对；实体对包括头实体和尾实体；关系抽取方法还包括：根据实例集合中的每个实例中各实体之间的关系，确定关系三元组；关系三元组包括头实体、尾实体、以及头实体与尾实体之间的关系；根据关系三元组，生成实例集合对应的业务场景下的知识图谱。

其中，关系三元组，是指包括头实体、尾实体、以及头实体与尾实体之间的关系这三个元素的集合。

具体地，服务器可根据实例集合中的每个实例中各实体之间的关系，确定关系三元组。服务器可根据关系三元组进行属性归一处理和实体对齐处理，生成实例集合对应的业务场景下的知识图谱。

上述实施例中，通过实例集合中的每个实例中各实体之间的关系，可快速确定关系三元组，并根据关系三元组，快速、准确地生成实例集合对应的业务场景下的知识图谱。

在一个实施例中，如图4所示，服务器可对样本实例集合中的各样本实例进行预处理，并将预处理后的各样本实例输入至待训练的语言模型，以通过待训练的语言模型预测各样本实例对应的预测得到的关系特征，基于样本实例对应的关系特征和预测得到的关系特征之间的差异，通过反向传播的方式，迭代调整待训练的语言模型的模型参数，直至达到迭代停止条件时，得到已训练的语言模型。在真实应用场景下，对真实实例集合中的各真实实例进行预处理，并将预处理后的各真实实例输入至已训练的语言模型，以通过已训练的语言模型提取各真实实例对应的关系特征。进而，服务器可通过异常检测算法，在语义空间中，基于真实实例对应的关系特征，对各真实实例进行异常检测处理，以区分已知关系的实例和未知关系的实例(可以理解，图4中灰色的小圆圈没有映射在任何聚类的附近，这灰色的小圆圈就代表未知关系的实例)，并将未知关系的实例作为待标注实例。专家可从这大规模的待标注实例中，先选取一小部分目标实例进行关系信息标注。将选取的这小部分目标实例作为本轮对抗训练的训练数据，服务器可基于这小部分已标注关系信息的目标实例，通过对抗训练的方式训练编码器和判别器，通过本轮训练的判别器，基于待标注实例对应的关系特征对待标注实例进行排序，以从剩余的待标注实例中选取预设数量信息量最大的目标实例，专家再对所选取的目标实例进行关系信息标注。服务器可将选取的目标实例作为下一轮对抗训练的训练数据，以迭代训练编码器和判别器，以获得每轮迭代训练得到的目标实例，以及针对目标实例标注的关系信息。服务器可基于已标注的目标实例训练关系分类器，并通过训练完成的关系分类器自动标注剩余的大规模的待标注实例。

如图5所示，在一个实施例中，提供了一种关系抽取方法，该方法具体包括以下步骤：

步骤502，获取待训练的语言模型；获取样本实例集合；样本实例集合包括自定义的已知关系的样本实例。

步骤504，将样本实例集合输入至待训练的语言模型，获取待训练的语言模型针对样本实例集合中的样本实例输出的预测关系特征。

步骤506，根据待训练的语言模型中的第一目标函数和第二目标函数确定损失值；第一目标函数，用于度量同一样本实例对应的预测关系特征与已知关系特征之间的差异；已知关系特征，用于表征样本实例的已知关系；第二目标函数，用于约束各个样本实例所对应的预测关系特征的分布。

步骤508，基于损失值调整待训练的语言模型的模型参数，以继续迭代训练，直至满足迭代停止条件得到已训练的语言模型。

步骤510，针对实例集合的每个实例中的每个实体对，在实体对中头实体的前后分别***头实体起始位置标识符和头实体终止位置标识符，在实体对中的尾实体的前后分别***尾实体起始位置标识符和尾实体终止位置标识符，得到各个预处理后的实例；实例集合中包括已知关系的实例和未知关系的实例；每个实例中包括至少两个实体；每两个实体为一个实体对；实体对包括头实体和尾实体。

步骤512，将每个预处理后的实例输入至已训练的语言模型，依次经过已训练的语言模型中的各个隐藏层进行特征提取。

步骤514，针对每个预处理后的实例，获取最后一个隐藏层输出的与预处理后的实例中的头实体起始位置标识符对应的第一隐层特征向量，以及与尾实体起始位置标识符对应的第二隐层特征向量。

步骤516，将第一隐层特征向量与第二隐层特征向量进行向量拼接，得到实例对应的关系特征。

步骤518，在语义空间中，根据关系特征之间的语义相似度，对实例集合中的各实例进行聚类。

步骤520，针对聚类后的每个实例，分别确定实例到邻域内的各个参考实例之间的可达性距离。

步骤522，根据各个可达性距离，确定实例到邻域内各个参考实例的第一平均可达距离。

步骤524，针对每个参考实例，确定参考实例到参考实例的邻域内的各个实例的第二平均可达距离。

步骤526，根据第一平均可达距离、以及各个参考实例分别对应的第二平均可达距离，确定实例的局部离群因子。

步骤528，将局部离群因子大于或等于预设阈值的实例确定为未知关系的实例，作为待标注实例；待标注实例中各实体之间的关系是未知的。

步骤530，从待标注实例中选取用于首轮对抗训练的目标实例，并获取对选取的目标实例标注的关系信息；关系信息表征目标实例中各实体之间的关系；目标实例所含信息量大于待标注实例中除目标实例外的非目标实例所含的信息量。

步骤532，将首轮确定为本轮，基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练，并通过本轮对抗训练后的编码器对当前的待标注实例编码，得到当前的待标注实例对应的关系特征。

步骤534，通过本轮对抗训练后的判别器，基于当前的待标注实例对应的关系特征，确定各当前的待标注实例对应的置信度；置信度，用于表征当前的待标注实例所含信息量的丰富程度。

步骤536，基于置信度从高到低的顺序，从各当前的待标注实例中选取预设数量的实例作为目标实例，并获取针对选取的目标实例标注的关系信息。

步骤538，将当前的待标注实例中剩余未标注的待标注实例，作为下一轮的当前的待标注实例，将下一轮作为本轮，返回执行基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练的步骤以继续执行，直至满足迭代停止条件时停止对抗训练。

步骤540，获取在每轮对抗训练过程中选取的目标实例，以及针对选取的目标实例标注的关系信息。

步骤542，将标注关系信息后的目标实例输入至待训练的关系分类器。

步骤544，通过待训练的关系分类器，预测目标实例对应的预测关系信息。

步骤546，基于预测关系信息和目标实例对应的标注的关系信息之间的差异，调整待训练的关系分类器的模型参数。

步骤548，基于训练完成后的关系分类器，标注非目标实例中各实体之间的关系。

步骤550，根据实例集合中的每个实例中各实体之间的关系，确定关系三元组；关系三元组包括头实体、尾实体、以及头实体与尾实体之间的关系。

步骤552，根据关系三元组，生成实例集合对应的业务场景下的知识图谱。

本申请还提供一种应用场景，该应用场景应用上述的关系抽取方法。具体地，该关系抽取方法可应用于文本安全审核业务下的关系抽取场景。服务器可将文本作为实例，并获取待训练的语言模型；获取样本实例集合；样本实例集合包括自定义的已知关系的样本实例。将样本实例集合输入至待训练的语言模型，获取待训练的语言模型针对样本实例集合中的样本实例输出的预测关系特征。根据待训练的语言模型中的第一目标函数和第二目标函数确定损失值；第一目标函数，用于度量同一样本实例对应的预测关系特征与已知关系特征之间的差异；已知关系特征，用于表征样本实例的已知关系；第二目标函数，用于约束各个样本实例所对应的预测关系特征的分布。基于损失值调整待训练的语言模型的模型参数，以继续迭代训练，直至满足迭代停止条件得到已训练的语言模型。

针对实例集合的每个实例中的每个实体对，服务器可在实体对中头实体的前后分别***头实体起始位置标识符和头实体终止位置标识符，在实体对中的尾实体的前后分别***尾实体起始位置标识符和尾实体终止位置标识符，得到各个预处理后的实例；实例集合中包括已知关系的实例和未知关系的实例；每个实例中包括至少两个实体；每两个实体为一个实体对；实体对包括头实体和尾实体。将每个预处理后的实例输入至已训练的语言模型，依次经过已训练的语言模型中的各个隐藏层进行特征提取。针对每个预处理后的实例，获取最后一个隐藏层输出的与预处理后的实例中的头实体起始位置标识符对应的第一隐层特征向量，以及与尾实体起始位置标识符对应的第二隐层特征向量。将第一隐层特征向量与第二隐层特征向量进行向量拼接，得到实例对应的关系特征。

在语义空间中，服务器可根据关系特征之间的语义相似度，对实例集合中的各实例进行聚类。针对聚类后的每个实例，分别确定实例到邻域内的各个参考实例之间的可达性距离。根据各个可达性距离，确定实例到邻域内各个参考实例的第一平均可达距离。针对每个参考实例，确定参考实例到参考实例的邻域内的各个实例的第二平均可达距离。根据第一平均可达距离、以及各个参考实例分别对应的第二平均可达距离，确定实例的局部离群因子。将局部离群因子大于或等于预设阈值的实例确定为未知关系的实例，作为待标注实例；待标注实例中各实体之间的关系是未知的。

服务器可从待标注实例中选取用于首轮对抗训练的目标实例，并获取对选取的目标实例标注的关系信息；关系信息表征目标实例中各实体之间的关系。将首轮确定为本轮，基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练，并通过本轮对抗训练后的编码器对当前的待标注实例编码，得到当前的待标注实例对应的关系特征；目标实例所含信息量大于待标注实例中除目标实例外的非目标实例所含的信息量。通过本轮对抗训练后的判别器，基于当前的待标注实例对应的关系特征，确定各当前的待标注实例对应的置信度；置信度，用于表征当前的待标注实例所含信息量的丰富程度。基于置信度从高到低的顺序，从各当前的待标注实例中选取预设数量的实例作为目标实例，并获取针对选取的目标实例标注的关系信息。将当前的待标注实例中剩余未标注的待标注实例，作为下一轮的当前的待标注实例，将下一轮作为本轮，返回执行基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练的步骤以继续执行，直至满足迭代停止条件时停止对抗训练。获取在每轮对抗训练过程中选取的目标实例，以及针对选取的目标实例标注的关系信息。

服务器可将标注关系信息后的目标实例输入至待训练的关系分类器，通过待训练的关系分类器，预测目标实例对应的预测关系信息。基于预测关系信息和目标实例对应的标注的关系信息之间的差异，调整待训练的关系分类器的模型参数。基于训练完成后的关系分类器，标注非目标实例中各实体之间的关系。根据实例集合中的每个实例中各实体之间的关系，确定关系三元组；关系三元组包括头实体、尾实体、以及头实体与尾实体之间的关系。根据关系三元组，生成文本安全审核业务场景下的知识图谱。

本申请还另外提供一种应用场景，该应用场景应用上述的关系抽取方法。具体地，该关系抽取方法可应用于商品推荐业务下的关系抽取场景。服务器可将商品信息作为实例，并获取实例集合中每个实例对应的关系特征；实例集合中包括已知关系的实例和未知关系的实例。根据关系特征，从实例集合中识别未知关系的实例，作为待标注实例；待标注实例中各实体之间的关系是未知的。从待标注实例中选取目标实例，并获取针对目标实例标注的关系信息；目标实例所含信息量大于待标注实例中除目标实例外的非目标实例所含的信息量。基于标注关系信息后的目标实例训练关系分类器；关系信息表征目标实例中各实体之间的关系。基于训练完成后的关系分类器，标注非目标实例中各实体之间的关系。进而，服务器可根据实例集合中的每个实例中各实体之间的关系，确定关系三元组；关系三元组包括头实体、尾实体、以及头实体与尾实体之间的关系。根据关系三元组，生成商品推荐业务场景下的知识图谱。

此外，本申请的关系抽取方法还可应用于游戏业务下的关系抽取场景、评论弹幕安全审核业务下的关系抽取场景、以及医疗平台下的关系抽取场景等中的任一种场景中。

图6是在同一个数据集下，将本申请的语言模型和传统的特征提取模型(包括卷积网络、循环神经网络、长短期记忆网络、Transformer网络和传统的语音模型)进行对比实验后得到的结果。很明显，从图6可知，本申请的语言模型对应的精确度(92.3)、召回率(84.4)、以及基于精确度和召回率计算得到的评分值(86.8)，均优于传统的特征提取模型对应的精确度、召回率、以及基于精确度和召回率计算得到的评分值，比如，传统的语音模型对应的精确度(76.8)、召回率(71.3)、以及基于精确度和召回率计算得到的评分值(73.9)。

图7是分别在三个现有数据集(即，数据集1(FewRel(Noi))、数据集2(NYT+FB(Noi))和数据集3(FewRel2.0(Noi)))下，将本申请的关系抽取方法和传统的关系抽取方法(包括方案1、方案2和方案3)进行对比实验后得到的结果。很明显，从图7可知，本申请的关系抽取方法对应的精确度(75.7)、召回率(86.7)、基于精确度和召回率计算得到的评分值(80.8)、均一性(89.0)、完整性(91.4)、均一性和完成性的调和平均值(90.2)、以及调整兰德系数(71.3)，均优于传统的关系抽取方法对应的精确度、召回率、基于精确度和召回率计算得到的评分值、均一性、完整性、均一性和完成性的调和平均值、以及调整兰德系数，比如，在数据集1下，方案1对应的精确度(25.8)、召回率(70.7)、基于精确度和召回率计算得到的评分值(37.8)、均一性(51.5)、完整性(77.3)、均一性和完成性的调和平均值(61.8)、以及调整兰德系数(24.4)。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照顺序依次显示，但是这些步骤并不是必然按照顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种关系抽取装置800，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：

获取模块801，用于获取实例集合中每个实例对应的关系特征；实例集合中包括已知关系的实例和未知关系的实例。

识别模块802，用于根据关系特征，从实例集合中识别未知关系的实例，作为待标注实例；待标注实例中各实体之间的关系是未知的。

选取模块803，用于从待标注实例中选取目标实例，并获取针对目标实例标注的关系信息；目标实例所含信息量大于待标注实例中除目标实例外的非目标实例所含的信息量。

训练模块804，用于基于标注关系信息后的目标实例训练关系分类器；关系信息表征目标实例中各实体之间的关系。

标注模块805，用于基于训练完成后的关系分类器，标注非目标实例中各实体之间的关系。

在一个实施例中，每个实例中包括至少两个实体；获取模块801还用于将实例集合中每个实例分别输入已训练的语言模型，以基于已训练的语言模型识别每个实例中各实体之间的关系，得到每个实例对应的关系特征。

在一个实施例中，训练模块804还用于获取待训练的语言模型；获取样本实例集合；样本实例集合包括自定义的已知关系的样本实例；通过样本实例集合优化训练待训练的语言模型，得到已训练的语言模型。

在一个实施例中，训练模块804还用于将样本实例集合输入至待训练的语言模型，获取待训练的语言模型针对样本实例集合中的样本实例输出的预测关系特征；根据待训练的语言模型中的第一目标函数和第二目标函数确定损失值；第一目标函数，用于度量同一样本实例对应的预测关系特征与已知关系特征之间的差异；已知关系特征，用于表征样本实例的已知关系；第二目标函数，用于约束各个样本实例所对应的预测关系特征的分布；基于损失值调整待训练的语言模型的模型参数，以继续迭代训练，直至满足迭代停止条件得到已训练的语言模型。

在一个实施例中，每两个实体为一个实体对；实体对包括头实体和尾实体；获取模块801还用于针对实例集合的每个实例中的每个实体对，在实体对中头实体的前后分别***头实体起始位置标识符和头实体终止位置标识符，在实体对中的尾实体的前后分别***尾实体起始位置标识符和尾实体终止位置标识符，得到各个预处理后的实例；将每个预处理后的实例输入至已训练的语言模型，依次经过已训练的语言模型中的各个隐藏层进行特征提取；针对每个预处理后的实例，获取最后一个隐藏层输出的与预处理后的实例中的头实体起始位置标识符对应的第一隐层特征向量，以及与尾实体起始位置标识符对应的第二隐层特征向量；将第一隐层特征向量与第二隐层特征向量进行向量拼接，得到实例对应的关系特征。

在一个实施例中，识别模块802还用于在语义空间中，根据关系特征之间的语义相似度，对实例集合中的各实例进行聚类；确定聚类后的每个实例对应的局部离群因子；将局部离群因子大于或等于预设阈值的实例确定为未知关系的实例。

在一个实施例中，识别模块802还用于针对聚类后的每个实例，分别确定实例到邻域内的各个参考实例之间的可达性距离；根据各个可达性距离，确定实例到邻域内各个参考实例的第一平均可达距离；针对每个参考实例，确定参考实例到参考实例的邻域内的各个实例的第二平均可达距离；根据第一平均可达距离、以及各个参考实例分别对应的第二平均可达距离，确定实例的局部离群因子。

在一个实施例中，选取模块803还用于从待标注实例中选取用于首轮对抗训练的目标实例，并获取对选取的目标实例标注的关系信息；将首轮确定为本轮，基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练，并通过本轮对抗训练后的编码器对当前的待标注实例编码，得到当前的待标注实例对应的关系特征；通过本轮对抗训练后的判别器，基于当前的待标注实例对应的关系特征，从当前的待标注实例中选取目标实例，并获取针对选取的目标实例标注的关系信息；将当前的待标注实例中剩余未标注的待标注实例，作为下一轮的当前的待标注实例，将下一轮作为本轮，返回执行基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练的步骤以继续执行，直至满足迭代停止条件时停止对抗训练；获取在每轮对抗训练过程中选取的目标实例，以及针对选取的目标实例标注的关系信息。

在一个实施例中，选取模块803还用于通过本轮对抗训练后的判别器，基于当前的待标注实例对应的关系特征，确定各当前的待标注实例对应的置信度；置信度，用于表征当前的待标注实例所含信息量的丰富程度；基于置信度从高到低的顺序，从各当前的待标注实例中选取预设数量的实例作为目标实例，并获取针对选取的目标实例标注的关系信息。

在一个实施例中，训练模块804还用于将标注关系信息后的目标实例输入至待训练的关系分类器；通过待训练的关系分类器，预测目标实例对应的预测关系信息；基于预测关系信息和目标实例对应的标注的关系信息之间的差异，调整待训练的关系分类器的模型参数。

参考图9，在一个实施例中，实例集合中的每个实例中包括至少两个实体；每两个实体为一个实体对；实体对包括头实体和尾实体；关系抽取装置800还包括：

生成模块806，用于根据实例集合中的每个实例中各实体之间的关系，确定关系三元组；关系三元组包括头实体、尾实体、以及头实体与尾实体之间的关系；根据关系三元组，生成实例集合对应的业务场景下的知识图谱。

上述关系抽取装置，获取实例集合中每个实例对应的关系特征，实例集合中包括已知关系的实例和未知关系的实例。根据实例集合中每个实例对应的关系特征，可从实例集合中识别未知关系的实例，作为待标注实例，待标注实例中各实体之间的关系是未知的。从待标注实例中选取一小部分目标实例，目标实例所含信息量大于候选实例中除目标实例外的非目标实例所含的信息量。在通过人工标注获取针对这一小部分的目标实例标注的关系信息后，可基于标注关系信息后的这一小部分目标实例训练关系分类器，关系信息表征目标实例中各实体之间的关系。由于所选取的那一小部分目标实例含有丰富的信息量，因此，训练完成后的关系分类器具备自动标注关系的功能，进而，基于训练完成后的关系分类器，可自动标注剩下的大量的非目标实例中各实体之间的关系，避免了通过人工标注大量的实例对应的关系，大大节省了人力成本和时间成本。

关于关系抽取装置的具体限定可以参见上文中对于关系抽取方法的限定，在此不再赘述。上述关系抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种关系抽取方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种关系抽取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述每个实例中包括至少两个实体；

所述获取实例集合中每个实例对应的关系特征，包括：

将实例集合中每个实例分别输入已训练的语言模型，以基于所述已训练的语言模型识别所述每个实例中各实体之间的关系，得到所述每个实例对应的关系特征。

3.根据权利要求2所述的方法，其特征在于，所述已训练的语言模型通过语言模型训练步骤得到，所述语言模型训练步骤，包括：

获取待训练的语言模型；

获取样本实例集合；所述样本实例集合包括自定义的已知关系的样本实例；

通过所述样本实例集合优化训练所述待训练的语言模型，得到已训练的语言模型。

4.根据权利要求3所述的方法，其特征在于，所述通过所述样本实例集合优化训练所述待训练的语言模型，得到已训练的语言模型，包括：

将所述样本实例集合输入至待训练的语言模型，获取所述待训练的语言模型针对所述样本实例集合中的样本实例输出的预测关系特征；

根据所述待训练的语言模型中的第一目标函数和第二目标函数确定损失值；所述第一目标函数，用于度量同一所述样本实例对应的所述预测关系特征与已知关系特征之间的差异；所述已知关系特征，用于表征所述样本实例的已知关系；所述第二目标函数，用于约束各个所述样本实例所对应的所述预测关系特征的分布；

基于所述损失值调整所述待训练的语言模型的模型参数，以继续迭代训练，直至满足迭代停止条件得到已训练的语言模型。

5.根据权利要求2所述的方法，其特征在于，每两个实体为一个实体对；所述实体对包括头实体和尾实体；所述将实例集合中每个实例分别输入已训练的语言模型，以基于所述已训练的语言模型识别所述每个实例中各实体之间的关系，得到所述每个实例对应的关系特征，包括：

针对实例集合的每个实例中的每个实体对，在所述实体对中头实体的前后分别***头实体起始位置标识符和头实体终止位置标识符，在所述实体对中的尾实体的前后分别***尾实体起始位置标识符和尾实体终止位置标识符，得到各个预处理后的实例；

将每个预处理后的实例输入至已训练的语言模型，依次经过所述已训练的语言模型中的各个隐藏层进行特征提取；

针对每个预处理后的实例，获取最后一个所述隐藏层输出的与所述预处理后的实例中的所述头实体起始位置标识符对应的第一隐层特征向量，以及与所述尾实体起始位置标识符对应的第二隐层特征向量；

将所述第一隐层特征向量与所述第二隐层特征向量进行向量拼接，得到所述实例对应的关系特征。

6.根据权利要求1所述的方法，其特征在于，所述根据所述关系特征，从实例集合中识别未知关系的实例，包括：

在语义空间中，根据所述关系特征之间的语义相似度，对所述实例集合中的各实例进行聚类；

确定聚类后的每个实例对应的局部离群因子；

将所述局部离群因子大于或等于预设阈值的实例确定为未知关系的实例。

7.根据权利要求6所述的方法，其特征在于，所述确定聚类后的每个实例对应的局部离群因子，包括：

针对聚类后的每个实例，分别确定所述实例到邻域内的各个参考实例之间的可达性距离；

根据各个所述可达性距离，确定所述实例到邻域内各个参考实例的第一平均可达距离；

针对每个所述参考实例，确定所述参考实例到所述参考实例的邻域内的各个实例的第二平均可达距离；

根据所述第一平均可达距离、以及各个所述参考实例分别对应的所述第二平均可达距离，确定所述实例的局部离群因子。

8.根据权利要求1所述的方法，其特征在于，所述从所述待标注实例中选取目标实例，并获取针对所述目标实例标注的关系信息，包括：

从所述待标注实例中选取用于首轮对抗训练的目标实例，并获取对选取的目标实例标注的关系信息；

将首轮确定为本轮，基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练，并通过本轮对抗训练后的编码器对当前的待标注实例编码，得到所述当前的待标注实例对应的关系特征；

通过本轮对抗训练后的判别器，基于所述当前的待标注实例对应的关系特征，从所述当前的待标注实例中选取目标实例，并获取针对选取的目标实例标注的关系信息；

将所述当前的待标注实例中剩余未标注的待标注实例，作为下一轮的当前的待标注实例，将下一轮作为本轮，返回执行所述基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练的步骤以继续执行，直至满足迭代停止条件时停止对抗训练；

获取在每轮对抗训练过程中选取的目标实例，以及针对选取的目标实例标注的关系信息。

9.根据权利要求8所述的方法，其特征在于，所述通过本轮对抗训练后的判别器，基于所述当前的待标注实例对应的关系特征，从所述当前的待标注实例中选取目标实例，并获取针对选取的目标实例标注的关系信息，包括：

通过本轮对抗训练后的判别器，基于所述当前的待标注实例对应的关系特征，确定各所述当前的待标注实例对应的置信度；所述置信度，用于表征所述当前的待标注实例所含信息量的丰富程度；

基于所述置信度从高到低的顺序，从各所述当前的待标注实例中选取预设数量的实例作为目标实例，并获取针对选取的目标实例标注的关系信息。

10.根据权利要求1所述的方法，其特征在于，所述基于标注关系信息后的所述目标实例训练关系分类器，包括：

将标注关系信息后的所述目标实例输入至待训练的关系分类器；

通过所述待训练的关系分类器，预测所述目标实例对应的预测关系信息；

基于所述预测关系信息和所述目标实例对应的标注的关系信息之间的差异，调整所述待训练的关系分类器的模型参数。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述实例集合中的每个实例中包括至少两个实体；每两个实体为一个实体对；所述实体对包括头实体和尾实体；所述方法还包括：

根据所述实例集合中的每个实例中各实体之间的关系，确定关系三元组；所述关系三元组包括头实体、尾实体、以及所述头实体与尾实体之间的关系；

根据所述关系三元组，生成所述实例集合对应的业务场景下的知识图谱。

12.一种关系抽取装置，其特征在于，所述装置包括：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。