CN112559770A

CN112559770A - 文本数据的关系抽取方法、装置、设备及可读存储介质

Info

Publication number: CN112559770A
Application number: CN202011483255.XA
Authority: CN
Inventors: 苗建松; 李海瑞; 王储
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-26

Abstract

本公开实施例公开了一种文本数据的关系抽取方法、装置、设备及可读存储介质。所述方法包括：获取带有关键词标签的文本数据；以所述关键词标签以及预先确定的实体关系构建句子，并将所述句子以及文本数据作为阅读理解模型的输入数据；判断所述阅读理解模型输出的答案是否为所述文本数据中的正确实体，若是，则在所述文本数据中标注两个所述实体以及实体关系。该技术方案以关键词标签以及预先确定的实体关系构成的句子以及文本数据作为阅读理解模型的输入数据，通过判断阅读理解模型针对该句子的答案是否是文本数据中正确的实体，如果是则将文本数据中实体和实体关系标注出来，解决了关系抽取问题在应用领域中训练语料匮乏的问题，降低了成本。

Description

文本数据的关系抽取方法、装置、设备及可读存储介质

技术领域

本公开涉及自然语言处理技术领域，具体涉及一种文本数据的关系抽取方法、装置、设备及可读存储介质。

背景技术

在自然语言处理领域中，关系抽取通常指代文本中实体之间的联系，如语法关系，语义关系等，通常将实体之间的关系形象化的描述为关系三元组<E1，R，E2>，其中E1，E2指的是实体类型，R指的是关系描述类型。实体关系抽取的主要目的从自然语言文本中识别并判定实体对之间存在的特定关系，文本经过命名实体识别、关键词识别两个数据预处理过程后，将判定的三元组<E1，R，E2>存储在数据库中，供进一步分析或查询。

目前基于关系抽取问题提出的各类方法主要面向通用领域，这就对特定领域的知识图谱构建造成了困难，因为没有可用的训练语料，通常采取的方法是人工标注，但是这种方式耗时长，并且人工成本昂贵，并且面对不同的领域需要重新构建，可移植性差。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种文本数据的关系抽取方法、装置、设备及可读存储介质。

第一方面，本公开实施例中提供了一种文本数据的关系抽取方法。

具体地，所述文本数据的关系抽取方法，包括：

获取带有关键词标签的文本数据，所述文本数据包括待标注的一个实体以及实体关系；

以所述关键词标签以及预先确定的实体关系构建句子，并将所述句子以及文本数据作为阅读理解模型的输入数据；

判断所述阅读理解模型输出的答案是否为所述文本数据中的正确实体，若是，则在所述文本数据中标注两个所述实体以及实体关系。

可选地，所述获取带有关键词标签的文本数据，包括：

根据关键词获取文本数据；

为所述文本数据标记关键词标签。

可选地，所述以所述关键词标签以及预先确定的实体关系构建句子，包括：

以所述关键词标签以及预先确定的实体关系构建开放式问句或者选择问句中的至少一种。

可选地，所述判断所述阅读理解模型输出的答案是否为所述文本数据中的正确实体，包括：

在与所述关键词标签相关的外部数据库中确定所述文本数据中是否有所述答案；若否，

在实体列表中确定是否有所述答案；其中，所述实体列表为多个实体的集合，根据所述预先确定的实体关系得到，并标记有关系标签。

可选地，还包括：

将经过标注的所述实体以及实体关系作为训练语料，输入所述阅读理解模型进行强化训练。

可选地，还包括：

构建不存在答案的空回答训练语料；

将所述不存在答案的空回答训练语料输入所述阅读理解模型进行强化训练。

可选地，所述文本数据为非结构化文本数据。

第二方面，本公开实施例中提供了一种文本数据的关系抽取装置。

具体地，所述文本数据的关系抽取装置，包括：

获取模块，被配置为获取带有关键词标签的文本数据，所述文本数据包括待标注的一个实体以及实体关系；

构建模块，被配置为以所述关键词标签以及预先确定的实体关系构建句子，并将所述句子以及文本数据作为阅读理解模型的输入数据；

标注模块，被配置为判断所述阅读理解模型输出的答案是否为所述文本数据中的正确实体，若是，则在所述文本数据中标注两个所述实体以及实体关系。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面中任一项所述的方法。

第四方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面中任一项所述的方法。

根据本公开实施例提供的技术方案，首先获取带有关键词标签的文本数据，所述文本数据包括待标注的一个实体以及实体关系，然后以所述关键词标签以及预先确定的实体关系构建句子，并将所述句子以及文本数据作为阅读理解模型的输入数据，最后判断所述阅读理解模型输出的答案是否为所述文本数据中的正确实体，若是，则在所述文本数据中标注两个所述实体以及实体关系。该技术方案以关键词标签以及预先确定的实体关系构成的句子以及文本数据作为阅读理解模型的输入数据，通过判断阅读理解模型针对该句子的答案是否是文本数据中的实体，如果是则将文本数据中实体和实体关系标注出来，解决了关系抽取问题在应用领域中训练语料匮乏的问题，避免了人工标注，进而节省了人力，降低了成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开的实施例的文本数据的关系抽取方法的流程图；

图2示出根据本公开的实施例的文本数据的关系抽取装置的结构框图；

图3示出根据本公开的实施例的文本数据的关系抽取方法的具体流程示意图；

图4示出根据本公开的实施例的电子设备的结构框图；

图5示出适于用来实现根据本公开实施例的方法的计算机***的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

在本公开中，如涉及对用户信息或用户数据的获取操作或向他人展示用户信息或用户数据的操作，则所述操作均为经用户授权、确认，或由用户主动选择的操作。

图1示出根据本公开的实施例的文本数据的关系抽取方法的流程图。如图1所示，所述文本数据的关系抽取方法包括以下步骤S101-S103：

在步骤S101中，获取带有关键词标签的文本数据，所述文本数据包括待标注的一个实体以及实体关系；

在步骤S102中，以所述关键词标签以及预先确定的实体关系构建句子，并将所述句子以及文本数据作为阅读理解模型的输入数据；

在步骤S103中，判断所述阅读理解模型输出的答案是否为所述文本数据中的实体，若是，则在所述文本数据中标注两个所述实体以及实体关系。

对文本数据进行关系抽取是指建立实体关系的三元组，现有技术中通常是先对两个实体进行识别，之后确定两个实体的实体关系，然后构建出实体关系三元组<E1，R，E2>，其中E1，E2指的是实体类型，R指的是关系描述类型。本公开的实施方案是将实体E1与实体关系R构建句子，通过判断阅读理解模型针对该句子的答案是否是实体E2，如果是，则将文本数据中实体关系三元组<E1，R，E2>标注出来作为训练语料，以解决关系抽取问题在应用领域中训练语料匮乏的问题，避免了人工标注，进而节省了人力，降低了成本。

根据本公开的实施例，获取到的文本数据通常为非结构化文本数据，也可以为结构化数据，本公开对此不做限制。下文实施例中仅以非结构化文本数据为例进行说明。

根据本公开的实施例，步骤S101中所述获取带有关键词标签的文本数据，包括：

根据关键词获取文本数据；

为所述文本数据标记关键词标签。

具体地，可以利用爬虫***以关键词搜索方式获取经过授权的文本数据，例如以糖尿病、肺癌等关键词获取***疾病目录下的相关文本数据，然后将这些文本数据打上相应的关键词标签，例如糖尿病标签、肺癌标签等。同一关键词可以获取到大量文本数据，并存储于同一关键词标签下。通常情况下，关键词标签来自文本数据中的文本内容，例如文本数据“随着疾病的发展，糖尿病患者会出现多***损伤，并出现与并发症相关的临床症状”中，关键词标签可以为“糖尿病”、“疾病”等。

根据本公开的实施例，步骤S102中所述以所述关键词标签以及预先确定的实体关系构建句子，包括：

具体地，可以利用爬虫***获取希望抽取的实体关系列表，实体关系列表中包括与关键词标签相关的实体关系的描述，然后从中选择出一个或多个实体关系与关键词标签组成句子。

以实体E1为糖尿病、实体关系R为并发症为例，构造的开放式问句可以是：糖尿病的并发症是？构造的选择问句可以是糖尿病的并发症是视网膜病变还是白内障？其中，开放式问句能够给出的答案可以有多个，例如视网膜病变、白内障或者脑血管病等。

根据本公开的实施例，步骤S103中所述判断所述阅读理解模型输出的答案是否为所述文本数据中的正确实体，包括：

在与所述关键词标签相关的外部数据库中确定所述文本数据中标注出的答案是否是所述文本数据中的正确实体；若否，

在本公开方式中，阅读理解模型可以是用通用预料训练得到的模型，例如bert-wwm加线性层的模型，其获取答案的方式包括如下步骤：

(1)以文本内容加分隔符加问句的形式作为输入文本；

(2)为输入的每一个字编号；

(3)bert-wwm会按字级将输入文本全部编码(embedding)；

(4)将(3)中输出的编码输入线性层进行分类，输出结果为一个文本长度的向量，每个值代表相应位置文字作为答案起止的概率的正相关，选取值最高的两个位置作为答案起止位置。

在本公开方式中，实体列表可以是以关键词为中心的，与其可能存在关系的某一类实体，例如与疾病可能存在关系的症状实体列表咳嗽，发热，血糖升高…等，其中症状为关系标签，咳嗽，发热，血糖升高为多个实体组成实体列表。

在本公开方式中，实体列表也可以是与关键词存在关系的某一类可以获取到的全部实体，如症状类的全部实体，该全部实体组成实体列表。

在本公开方式中，将关键词标签作为主语，预先确定的实体关系作为谓语构建问句输入阅读理解模型，同时关键词标签作为文本数据的实体E1、预先确定的实体关系作为实体关系R，通过监督学习的方式目标使得阅读理解模型给出的答案是文本数据的实体E2。

具体地，首先利用远程监督***从外部数据库中查找实体E1、实体关系R以及对应的实体E2，如果找到实体E2，则阅读理解模型正确回答了实体E2，此时将文本数据中实体关系三元组<E1，R，E2>标注出来作为训练语料；如果未找到实体E2，则进一步在有相应关系标签的实体列表中搜索实体E2，如果找到实体E2，也可以认为阅读理解模型正确回答了实体E2，同样将文本数据中实体关系三元组<E1，R，E2>标注出来作为训练语料，上述过程中若回答错误则放弃文本。

根据本公开的实施例，所述方法还包括：将经过标注的所述实体以及实体关系作为训练语料，输入所述阅读理解模型进行强化训练。

在本公开方式中，通过文本数据的自动标注形成训练语料，进而利用标注出的训练语料继续训练阅读理解模型以提升其准确率，迭代执行这两个步骤，直到模型标注准确率不再上升，从而将关系抽取问题转化为了阅读理解问题，有效解决了关系抽取问题在应用领域训练语料匮乏的问题，从而直接获取了训练语料和高准确率的阅读理解模型，有效提高了训练语料匮乏领域关系抽取的准确度和效率，经过测试，关系抽取的准确率可以达到90％左右。

根据本公开的实施例，所述方法还包括：

构建不存在答案的空回答训练语料；

在本公开方式中，构建不存在答案的空回答训练语料可以将根据其他文本数据构建的句子结合随机的文本数据进行组合，作为空回答训练语料，由于随机的文本数据中没有针对这个句子的答案，因此将答案标注为empty添加至随机的文本数据句尾处，利用空回答训练语料可以对阅读理解模型进行微调，从而提高了阅读理解模型的准确率，阅读理解模型在识别答案时，将答案位置定位在句尾“empty”处即可输出空回答。通常将标注好的训练语料的10％作为空回答训练语料即可，根据需要可以灵活进行调整，本公开对此不做限制。

图2示出根据本公开的实施例的文本数据的关系抽取装置的结构框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图2所示，所述文本数据的关系抽取装置200包括获取模块210、构建模块220和标注模块230。

所述获取模块210被配置为获取带有关键词标签的文本数据，所述文本数据包括待标注的一个实体以及实体关系；

所述构建模块220被配置为以所述关键词标签以及预先确定的实体关系构建句子，并将所述句子以及文本数据作为阅读理解模型的输入数据；

所述标注模块230被配置为判断所述阅读理解模型输出的答案是否为所述文本数据中的正确实体，若是，则在所述文本数据中标注两个所述实体以及实体关系。

根据本公开实施例提供的技术方案，以关键词标签以及预先确定的实体关系构成的句子以及文本数据作为阅读理解模型的输入数据，通过判断阅读理解模型针对该句子的答案是否是文本数据中的正确实体，如果是则将文本数据中实体和实体关系标注出来，解决了关系抽取问题在应用领域中训练语料匮乏的问题，避免了人工标注，进而节省了人力，降低了成本。

图3示出根据本公开的实施例的文本数据的关系抽取方法的具体流程示意图。

步骤S1、构建一个爬虫***，按关键词爬取文本，并且打上关键词标签，同时爬取需要建立关系的答案实体列表。

本步骤的具体实现方法如下：制作一个我们需要爬取的关键词(实体)列表；然后利用主要针对wiki，百度，搜狗等百科类网站，按关键词进行非结构化文本的爬取；将爬取好的文本打上关键词标签；爬取希望建立关系的答案实体列表，并且打上相应关系的标签。

步骤S2、利用通用语料训练一个阅读理解模型。

本步骤的具体实现方法如下：选用一个目前表现较好的阅读理解模型；搜集包含语义信息尽可能丰富的阅读理解语料训练模型。

步骤S3、利用阅读理解模型加远程监督的方式实现步骤S1中爬取文本的实体及关系标注，并形成训练语料。

本步骤的具体实现方法如下：构造待抽取关系列表；利用步骤S1中爬取的文本和备注好的文本实体及构造的关系列表构造问句；将文本和问句输入到阅读理解模型中；利用远程监督及爬取实体列表判断答案的正误；正确则形成训练语料，错误则放弃文本。

步骤S4、利用步骤S3中标注好的训练语料对阅读理解模型进行强化训练；

本步骤的具体实现方法如下：构造空回答训练语料，即将随机文本和根据其他文本的生成问题进行组合，显然文本中没有这个问题的答案，将答案标注为empty；按步骤S3中产生训练语料的10％加入空回答语料，对阅读理解模型进行强化训练。

步骤S5、重复步骤S3、S4直到阅读理解模型准确率不再上升。

本步骤的具体实现方法如下：重复上述步骤S3、步骤S4所有操作，直到阅读理解模型提取的答案准确率不再上升。

本公开还公开了一种电子设备，图4示出根据本公开的实施例的电子设备的结构框图。

如图4所示，所述电子设备400包括存储器401和处理器402，其中，存储器401用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器402执行以实现根据本公开的实施例的方法：

根据本公开的实施例，所述获取带有关键词标签的文本数据，包括：

根据关键词获取文本数据；

为所述文本数据标记关键词标签。

根据本公开的实施例，所述以所述关键词标签以及预先确定的实体关系构建句子，包括：

根据本公开的实施例，所述判断所述阅读理解模型输出的答案是否为所述文本数据中的正确实体，包括：

根据本公开的实施例，还包括：

构建不存在答案的空回答训练语料；

根据本公开的实施例，所述文本数据为非结构化文本数据。

如图5所示，计算机***500包括处理单元501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行上述实施例中的各种方法。在RAM 503中，还存储有***500操作所需的各种程序和数据。处理单元501、ROM502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信过程。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。其中，所述处理单元501可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机***中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文本数据的关系抽取方法，其特征在于，包括：

2.根据权利要求1所述的关系抽取方法，其特征在于，所述获取带有关键词标签的文本数据，包括：

根据关键词获取文本数据；

为所述文本数据标记关键词标签。

3.根据权利要求1或2所述的关系抽取方法，其特征在于，所述以所述关键词标签以及预先确定的实体关系构建句子，包括：

4.根据权利要求1所述的关系抽取方法，其特征在于，所述判断所述阅读理解模型输出的答案是否为所述文本数据中的正确实体，包括：

5.根据权利要求1、2和4任一项所述的关系抽取方法，其特征在于，还包括：

6.根据权利要求5所述的关系抽取方法，其特征在于，还包括：

构建不存在答案的空回答训练语料；

7.根据权利要求1、2、4和5任一项所述的关系抽取方法，其特征在于，所述文本数据为非结构化文本数据。

8.一种文本数据的关系抽取装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-7任一项所述的方法步骤。

10.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-7任一项所述的方法步骤。