CN114386411A

CN114386411A - 一种关系抽取方法及装置

Info

Publication number: CN114386411A
Application number: CN202011112491.0A
Authority: CN
Inventors: 毛璐; 李长亮; 汪美玲
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2022-04-22

Abstract

本申请提供一种关系抽取方法及装置，其中所述关系抽取方法包括：获取待处理文本；将所述待处理文本输入至关系抽取模型进行处理，获取所述关系抽取模型输出的目标元组，其中，所述关系抽取模型由初始训练样本集合训练获得；在接收到修订指令的情况下，基于所述修订指令生成修订元组；根据所述待处理文本和所述修订元组生成训练样本对，将所述训练样本对添加到所述初始训练样本集合中对所述关系抽取模型继续训练。通过本申请提供的关系抽取方法，可以在极少量的启动数据的情况下训练生成关系抽取模型，对于关系抽取模型获取的不符合要求的目标元组进行修正，将修订元组和待处理文本对关系抽取模型进行增量学习训练，提高关系抽取模型的准确度。

Description

一种关系抽取方法及装置

技术领域

本申请涉及自然语言技术领域，特别涉及一种关系抽取方法及装置、计算设备和计算机可读存储介质。

背景技术

关系抽取是从文本中提取语义关系的一种方法，在知识库、问答、文摘等自然语言处理应用中具有重要意义，关系抽取通常发生在两个特定类型的实体之间。

关系抽取通常作为知识图谱构建的重要组成部分而受到广泛关注，一般基于深度学习的关系抽取方法往往需要大规模高质量的标注数据，基于规则的关系抽取方法则需要耗费大量的人工成本，远程监督方法面临伪标签的问题，普通的自助法则依赖多次重复出现的关系且要求关系元组一致，以上几种方法均不适用于标注数据匮乏、关系元组稀疏，同时对关系抽取的准确率要求极高的领域，如政务领域、医学领域、***领域等，由于特定领域要求关系抽取的准确率极高，因此人工干预必不可少，因此带来的人工成本也不可忽视。

因此，如何解决在标注数据匮乏的情况下，提高关系抽取的效率和准确度，尽可能的降低人工成本，就成为技术人员亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供了一种关系抽取方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种关系抽取方法，包括：

获取待处理文本；

将所述待处理文本输入至关系抽取模型进行处理，获取所述关系抽取模型输出的目标元组，其中，所述关系抽取模型由初始训练样本集合训练获得；

在接收到修订指令的情况下，基于所述修订指令生成修订元组；

根据所述待处理文本和所述修订元组生成训练样本对，将所述训练样本对添加到所述初始训练样本集合中对所述关系抽取模型继续训练。

可选的，在将所述待处理文本输入至关系抽取模型进行处理之后，还包括：

所述关系抽取模型响应于输入的所述待处理文本生成所述待处理文本对应的目标元组。

可选的，所述关系抽取模型响应于输入的所述待处理文本生成所述待处理文本对应的目标元组，包括：

对所述待处理文本做实体识别和词性标注，确定所述待处理文本对应的实体序列；

根据所述实体序列生成所述待处理文本对应的目标元组。

可选的，对所述待处理文本做实体识别和词性标注，确定所述待处理文本对应的实体序列，包括：

对所述待处理文本做分词处理，获得所述待处理文本对应的词单元集合；

对所述词单元集合做实体识别和词性标注处理，获得对应的实体序列。

可选的，根据所述实体序列生成所述待处理文本对应的目标元组，包括：

将所述实体序列遍历存储的模板对集合，确定目标模板对；

基于目标模板对对所述待处理文本进行关系抽取，获得所述目标模板对对应的目标元组。

可选的，所述初始训练样本集合中的训练样本为训练文本和所述训练文本对应的二元组，其中所述二元组中包括实体对；

所述关系抽取模型由初始训练样本集合训练获得，包括：

对所述训练文本进行实体识别和词性标注，确定所述训练文本对应的训练实体序列；

根据所述实体对和所述训练实体序列生成所述训练文本对应的词语模板；

根据所述词语模板确定所述训练文本对应的词性模板。

将所述词语模板和所述词性模板对应保存。

可选的，所述实体对包括头实体和尾实体；

根据所述实体对和所述训练实体序列生成所述训练文本对应的词语模板，包括：

确定所述头实体对应的头实体标识和所述尾实体对应的尾实体标识在所述训练实体序列中的头实***置和尾实***置；

基于所述头实***置和所述尾实***置在所述训练实体序列中确定词语模板。

可选的，根据所述词语模板确定所述训练文本对应的词性模板，包括：

将所述词语模板中除去所述头实体标识和所述尾实体标识的词替换为对应的词性，生成所述训练文本对应的词性模板。

可选的，所述方法还包括：

在接收到保存指令的情况下，基于所述保存指令保存所述目标元组。

根据本申请实施例的第二方面，提供了一种关系抽取装置，包括：

获取模块，被配置为获取待处理文本；

抽取模块，被配置为将所述待处理文本输入至关系抽取模型进行处理，获取所述关系抽取模型输出的目标元组，其中，所述关系抽取模型由初始训练样本集合训练获得；

接收模块，被配置为在接收到修订指令的情况下，基于所述修订指令生成修订元组；

继续训练模块，被配置为根据所述待处理文本和所述修订元组生成训练样本对，将所述训练样本对添加到所述初始训练样本集合中对所述关系抽取模型继续训练。

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述关系抽取方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述关系抽取方法的步骤。

根据本申请实施例的第五方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现所述关系抽取方法的步骤。

本申请实施例提供的关系抽取方法，通过获取待处理文本；将所述待处理文本输入至关系抽取模型进行处理，获取所述关系抽取模型输出的目标元组，其中，所述关系抽取模型由初始训练样本集合训练获得；在接收到修订指令的情况下，基于所述修订指令生成修订元组；根据所述待处理文本和所述修订元组生成训练样本对，将所述训练样本对添加到所述初始训练样本集合中对所述关系抽取模型继续训练，通过本申请提供的关系抽取方法，可以在极少量的启动数据的情况下训练生成关系抽取模型，在通过关系抽取模型确定目标元组后，对目标元组进行评分，对于不符合要求的目标元组进行人工修正，继续对模型进行增量学习训练，进一步提高模型的准确率，另外，将待处理文本和修订元组组成训练样本对的方式对模型进行训练，可以不必依赖多次重复出现的关系，无需考虑元组关系稀疏性的问题，具有通用性，对于特定的领域抽取模板的效果更好，当关系抽取模型的准确度更高时，需要人工干预的成本就会相应的降低。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的关系抽取方法的流程图；

图3是本申请实施例提供的关系抽取方法中关系抽取模型的训练方法流程图；

图4是本申请实施例提供应用于***领域的关系抽取方法流程图；

图5是本申请实施例提供的关系抽取方法的架构图；

图6是本申请实施例提供的关系抽取装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

关系抽取：(Relational Extracion，RE)是从文本中提取语义的一种方法，提取的关系通常发生在两个特定的实体之间。

元组：是关系数据库中的基本概念，关系是一张表，表中的每行就是一个元组，元组可以为二元组，三元组。

关系抽取模型：用于分析待处理文本的模型，包括实体识别、词性标注、存储模板、抽取关系等操作。

实体识别：(Named Entity Recognition，简称NER)是一种信息提取技术，用于识别文本中具有特定意义的实体，如人名、地名、机构名等词。

词性标注：(Part-Of-Speech tagging,POS tagging)，也被称为语法标注或词类消凝，是语料库语言学中将语料库内的词语的词性按其含义和上下文内容进行标记的文本数据处理技术。

在本申请中，提供了一种关系抽取方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示关系抽取方法中的步骤。图2示出了根据本申请一实施例的关系抽取方法的流程图，包括步骤202至步骤208。

步骤202：获取待处理文本。

待处理文本为需要被执行关系抽取操作的文本，可以为一段话、一篇文章、一篇新闻报道等等，获取的途径也有很多，可以从网站上自动获取、可以从指定的位置读取、也可以获取用户通过输入设备输入的文本信息等等，在本申请中，对如何获取待处理文本的方式不做限定。

待处理文本的领域可以为政务领域、***领域、医疗领域、军事领域、等等，在本申请中，对待处理文本所属的领域不做限定。

在本申请提供的一具体实施例中，以抽取待处理文本“集团将A公司部署在M地区，将B公司建立在N地区。”中的关系为例，对本申请提供的关系抽取方法做进一步解释说明，此时待处理文本即为“集团将A公司部署在M地区，将B公司建立在N地区。”。

步骤204：将所述待处理文本输入至关系抽取模型进行处理，获取所述关系抽取模型输出的目标元组，其中，所述关系抽取模型由初始训练样本集合训练获得。

目标元组为所述待处理文本中实体对应的元组，可以为三元组，也可以为带关系标识的二元组，在待处理文本中对应的可能会有一个、两个或多个元组，目标元组的数量和表现形式以实际应用为准，在本申请中不做限制。如当元组为二元组时，可以表示为：性别标识二元组(张某，男)，(李某，女)，当元组为三元组时，可以表示为(张某，性别，男)，(李某，性别，女)。

关系抽取模型是用于抽取待处理文本中实体之间关系的模型，关系抽取模型的初始训练样本集合中的训练数据为训练文本和训练元组的训练数据对组成，在实际应用中，极少量的训练数据对即可完成关系抽取模型的初始训练，并在后续的应用过程中，通过增量学习的方式对所述关系抽取模型做进一步的增量学习训练。

具体的，所述关系抽取模型被训练于响应于输入的待处理文本生成所述待处理文本对应的目标元组，这里的目标元组可以是带关系标识的二元组，也可以是三元组，所述关系抽取模型响应于输入的所述待处理文本生成所述待处理文本对应的目标元组，包括S2042至S2044：

S2042、对所述待处理文本做实体识别和词性标注，确定所述待处理文本对应的实体序列。

在实际应用中，将待处理文本输入至关系抽取模型后，关系抽取模型要对待处理文本做实体识别和词性标注。

实体识别(Named Entity Recognition，简称NER)是一种信息提取技术，用于识别文本中具有特定意义的实体，如人名、地名、机构名等词。

词性标注(Part-Of-Speech tagging,POS tagging)，也被称为语法标注或词类消凝，是语料库语言学中将语料库内的词语的词性按其含义和上下文内容进行标记的文本数据处理技术。

关系抽取模型对待处理文本进行实体识别和词性标注，要识别出待处理文本中的实体，并标注出非实体词语的词性。

在实际应用中，要先对待处理文本进行分词处理，获得所述待处理文本对应的词单元集合，再对词单元集合进行实体识别和词性标注，进而获得对应的实体序列。

在本申请提供的实施例中，沿用上例，对待处理文本“集团将A公司部署在M地区，将B公司建立在N地区。”做分词处理，获得所述待处理文本对应的词单元集合[集团，将，A公司，部署在，M地区，，，将，B公司，建立在，N地区，。]。

对所述词单元集合做实体识别和词性标注获得实体序列[集团-n，将-v，CO，部署在-v，LOC，，-w，将-prep，CO，建立在-v，LOC，。-w]，其中，“集团-n”表示“集团”在词性标识中用n表示，“，-w”表示标点符号“，”在词性标识中用w表示，CO为公司名称对应的实体标识，LOC为所在地对应的实体标识。

S2044、根据所述实体序列生成所述待处理文本对应的目标元组。

将所述实体序列遍历存储的模板对集合，确定目标模板对；

在本申请提供的实施例中，沿用上例，所述关系抽取模型预先保存模板对集合，模板对包括词语模板和词性模板，将生成的实体序列遍历模板对集合中的模板对进行匹配，在本申请中模板对的匹配采用全匹配的模式，即模板对中的内容需要与待处理文本中部分内容完全相同才算匹配成功，如待处理文本为“集团将A公司部署在M地区，将B公司建立在N地区。”，与其完全匹配的模板对为“将CO部署在LOC，”，若模板对为“将CO部署在LOC。”也不是同一个模板，因此确定目标模板对如下表1所示。

表1

序号	词语模板	词性模板
			1	将，CO，部署在，LOC，，	v，CO，v，LOC，w

基于表1所示目标模板对，对所述待处理文本“集团将A公司部署在M地区，将B公司建立在N地区。”进行实体抽取，获得如下表2所示的关系抽取结果。

表2

公司名称	公司所在地
		A公司	M地区

至此，对待处理文本“集团将A公司部署在M地区，将B公司建立在N地区。”的关系抽取完成，(A公司，M地区)即为目标元组。

步骤206：在接收到修订指令的情况下，基于所述修订指令生成修订元组。

在实际应用中，获得目标元组后，还要通过人工标注的形式判断所述待处理文本中的关系组是否全部抽取或抽取的目标元组是否正确，若出现所述待处理文本中的关系组未被全部抽取或抽取错误的情况，则需要对目标元组进行修订。

比如一段待处理文本中，应该抽取A、B、C三个目标元组，但是只抽取出A和C两个目标元组，有元组B未被抽取，则接受修订指令，所述修订指令中包含有修订信息，基于修订信息生成修订元组B；又比如在一段待处理文本中，应该抽取的元组为(X，Y)，实际抽取的目标元组为(X，Z)，出现关系抽取错误的情况，则接收修订指令，所述修订指令中包含有修订信息，基于修订信息将目标元组为(X，Z)修订为修订元组(X，Y)。

在所述目标元组未被全部抽取或出现抽取错误的情况下，接收修订指令，所述修订指令中携带有修订信息，基于所述修订指令中携带的修订信息生成对应的修订元组，修订元组在实际应用中具体为未抽取到的元组。

在本申请提供的实施例中，沿用上例，待处理文本为“集团将A公司部署在M地区，将B公司建立在N地区。”，所述待处理文本应该可以抽取2个目标元组，一个是(A公司，M地区)另一个是(B公司，N地区)，但是实际仅抽取了目标元组(A公司，M地区)，因此接收修订指令，所述修订指令中携带有修订信息“B公司、N地区”，基于修订指令，生成修订元组(B公司，N地区)。

步骤208：根据所述待处理文本和所述修订元组生成训练样本对，将所述训练样本对添加到所述初始训练样本集合中对所述关系抽取模型继续训练。

在获得修订元组后，将待处理文本和修订元组共同组成训练样本对，通过训练样本对的方式，相当于对待处理文本和修订元组进行了数据标注，用于对关系抽取模型做进一步的增量学习训练。

对关系抽取模型做进一步的增量学习训练，和由初始训练样本集合中的训练样本对所述关系抽取模型进行训练的过程相似，均是从训练样本对中的训练文本中提取模板对并添加到模板对集合中，便于后续从相同格式的待处理文本中提取相关的关系，具体的关系抽取模型的训练方参见图3，图3示出了本申请一实施例提供的关系抽取模型的训练方法流程图，初始训练样本集合中的训练样本为训练文本和训练文本对应的二元组，所述训练方法具体包括步骤302至步骤308。

步骤302：对所述训练文本进行实体识别和词性标注，确定所述训练文本对应的训练实体序列。

在实际应用中，关系抽取模型在经过少数训练数据训练获得后，在后续的使用过程中是通过不断的增量学习训练的方法进行训练的，当遇到新的关系形式时，可以通过增量学习的方法生成新的模板对，保存至模板对集合中，以便后续再遇到相同的表达方式时，可以更准确的进行关系抽取。

在根据训练样本对所述关系抽取模型进行训练时，首先要对训练文本进行实体识别和词性标注，确定所述训练样本中训练文本的训练实体序列，关于对训练文本进行实体识别和词性标注的描述详见上述S2042中的相关描述，在此就不在赘述。

在本申请提供的实施例中，沿用上例，待处理文本“集团将A公司部署在M地区，将B公司建立在N地区。”即为训练文本，修订元组(B公司，N地区)即为所述训练文本对应的二元组。对所述训练文本“集团将A公司部署在M地区，将B公司建立在N地区。”进行实体识别和词性标注，要先对训练文本进行分词处理获得对应的词单元集合，再对词单元集合中的词进行实体识别和词性标注，获得训练实体序列[集团-n，将-v，CO，部署在-v，LOC，，-w，将-prep，CO，建立在-v，LOC，。-w]。

步骤304：根据所述实体对和所述训练实体序列生成所述训练文本对应的词语模板。

可选的，所述实体对包括头实体和尾实体；

在实际应用中，实体对包括头实体和尾实体，用实体对中的头实体和尾实体在训练实体序列中进行匹配，具体为根据头实体对应的头实体标识和尾实体对应的尾实体标识在所述训练实体序列中确定头实***置和尾实***置，进而将头实体标识前一个元素、头实体标识、头实体标识和尾实体标识之间的元素、尾实体标识和尾实体标识后一个元素组成元素组，进而生成词语模板，这里所指的元素是训练实体序列中的元素，可以是字、数字、标点符号等。

在本申请提供的实施例中，实体对为(B公司，N地区)，其中头实体“B公司”对应的头实体标识为“CO”，尾实体“N地区”对应的尾实体标识为“LOC”，在训练实体序列[集团-n，将-v，CO，部署在-v，LOC，，-w，将-prep，CO，建立在-v，LOC，。-w]中确定头实体“B公司”对应的头实体标识“CO”在训练实体序列中的头实***置，尾实体“N地区”对应的尾实体标识“LOC”在训练实体序列中的尾实***置，进而确定头实体标识前一个元素为“将-prep”、头实体标识为“CO”、头实体标识和尾实体标识之间的元素为“建立在-v”、尾实体标识为“LOC”、尾实体标识后一个元素为“。”，因此生成的词语模板为(将，CO，建立在，LOC，。)。

步骤306：根据所述词语模板确定所述训练文本对应的词性模板。

在获得词语模板后，将词语模板中除去头实体标识和尾实体标识的词替换为对应的词性，即将头实体标识前一个元素、头实体标识和尾实体标识之间的元素和尾实体标识后一个元素替换为对应的词性，生成词性模板。

在本申请提供的实施例中，沿用上例，将词语模板(将，CO，建立在，LOC，。)中的“将”替换为“prep”，将“建立在”替换为“v”，将“。”替换为“w”，进而生成词性模板(prep，CO，v，LOC，w)。

步骤308：将所述词语模板和所述词性模板对应保存。

在本申请提供的实施例中，沿用上例，在获得词语模板和词性模板后，将两者对应保存至模板对集合中，当再有格式符合(将，CO，建立在，LOC，。)和(prep，CO，v，LOC，w)的待处理文本进行关系抽取时，就可以抽取到对应的目标元组。

可选的，所述方法还包括：在接收到保存指令的情况下，基于所述保存指令保存所述目标元组。

在实际应用中，在接收到保存指令的情况下，将获得的目标元组进行保存，完成关系抽取工作，需要注意的是，若先接收到修订指令，并生成了修订元组，则在接收到保存指令的情况下，修订元组也会一起保存。

在本申请提供的实施例中，沿用上例，若在接收到修订指令之前，先接收到保存指令的情况下，保存目标元组(A公司，M地区)，若在接收到修订指令之后才接收到保存指令的情况下，则保存目标元组(A公司，M地区)和修订元组(B公司，N地区)。

本申请实施例提供的关系抽取方法，通过获取待处理文本；将所述待处理文本输入至关系抽取模型进行处理，获取所述关系抽取模型输出的目标元组，其中，所述关系抽取模型由初始训练样本集合训练获得；在接收到修订指令的情况下，基于所述修订指令生成修订元组；根据所述待处理文本和所述修订元组生成训练样本对，将所述训练样本对添加到所述初始训练样本集合中对所述关系抽取模型继续训练，通过本申请提供的关系抽取方法，可以在极少量的启动数据的情况下训练生成关系抽取模型，在通过关系抽取模型确定目标元组后，对目标元组进行评分，对于不符合要求的目标元组进行人工修正，继续对模型进行增量学习训练，进一步提高模型的准确率，另外，将待处理文本和修订元组组成训练样本对的方式对模型进行训练，可以不必依赖多次重复出现的关系，无需考虑元组关系稀疏性的问题，具有通用性，对于特定的领域抽取模板的效果更好。

下面结合图4和图5对本申请提供的关系抽取方法做进一步解释说明，图5示出了本申请一实施例提供的关系抽取方法的架构图，如图5所示，首先通过训练样本对(训练文档+训练元组)对关系抽取模型进行初步训练，所述关系抽取模型通过对训练文档进行实体识别和词性标注的处理获得模板对，再通过训练样本对对获得的模板对进行评估评分，具体为将训练样本对中的训练文档经过模板对进行处理后提取元组，并将获得的元组与训练元组进行比对，并基于比对结果进行打分，将得分超过预设阈值的模板对添加到模板对集合中。当有新的待处理文本任务需要进行关系抽取时，将待处理文本输入到关系抽取模型中，与模板对集合中的模板对进行匹配，生成目标元组，并对目标元组进行元组评估，在所述目标元组未被全部抽取或出现抽取错误的情况下，接收修订指令，生成修订元组，并将修订元组和待处理文本生成新的训练样本对，继续对所述关系抽取模型进行增量学习训练，生成新的模板对。

参见图4，图4示出了本申请一实施例的关系抽取方法，该关系抽取方法以对***领域的待处理文本进行处理为例进行描述，包括步骤402至步骤418。

步骤402：获取待处理文本。

在本申请提供的具体实施例中，获取待处理文本“经组织批准：张某任A职务、B职务；李某不再担任B职务和C职务。”。

步骤404：将所述待处理文本输入至关系抽取模型。

在本申请提供的具体实施例中，将所述待处理文本“经组织批准：张某任A职务、B职务；李某不再担任B职务和C职务。”输入至关系抽取模型中进行处理。

步骤406：所述关系抽取模型响应于输入的所述待处理文本生成所述待处理文本对应的目标元组，获取所述关系抽取模型输出的目标元组。

在本申请提供的具体实施例中，所述关系抽取模型首先对待处理文本“经组织批准：张某任A职务、B职务；李某不再担任B职务和C职务。”做分词处理，获得词单元集合[经，组织，批准，：，张某，任，A职务，、，B职务，；，李某，不再担任，B职务，和，C职务，。]。

对所述词单元集合做实体识别和词性标注，获得实体序列[经-prep，组织-n，批准-v，：-w，PER，任-v，POST，、-w，POST，；-w，PER，不再担任-v，POST，和-prep，POST，。]，其中，PER为人名对应的实体标识，POST为职位对应的实体标识，prep代表介词，n代表名词，v代表动词，w代表标点符号。

用实体序列遍历存储的模板对集合进行匹配，匹配到如下表3所示的目标模板对：

表3

序号	词语模板	词性模板
			1	：，PER，任，POST，、	w，PER，v，POST，w
2	；，PER，不再担任，POST，和	w，PER，v，PER,prep
			3	；，PER，不再担任，POST，和，POST，。	w，PER，v，POST，prep，POST，w

基于上述表3中的目标模板对，对所述待处理文本“经组织批准：张某任A职务、B职务；李某不再担任B职务和C职务。”进行关系抽取，获得如下表4所示的关系抽取结果。

表4

其中，获得模板对序号1对应的目标元组为(张某，A职务)，模板对序号2对应的目标元组为(李某，B职务)，模板对序号3对应的目标元组为(李某，C职务)。

步骤408：接收修订指令，并基于所述修订指令生成修订元组。

在本申请提供的具体实施例中，待处理文本“经组织批准：张某任A职务、B职务；李某不再担任B职务和C职务。”中“张某任B职务”关系没有正确抽取到，则接收用户发送的修订指令，所述修订指令用于修订未提取到的关系元组，所述修订指令中包括有修订信息“张某任B职务”，并基于所述修订指令中的修订信息生成修订元组(张某，B职务)。

步骤410：根据所述待处理文本和所述修订元组生成训练样本对，将所述训练样本对添加到所述初始训练样本集合中对所述关系抽取模型继续训练。

在本申请提供的具体实施例中，将待处理文本“经组织批准：张某任A职务、B职务；李某不再担任B职务和C职务。”和修订元组(张某，B职务)组成训练样本对，将训练样本对添加到初始训练样本集合中，继续对所述关系抽取模型进行训练。

关系抽取模型对待处理文本“经组织批准：张某任A职务、B职务；李某不再担任B职务和C职务。”进行实体识别和词性标注，确定所述待处理文本对应的训练实体序列[经-prep，组织-n，批准-v，：-w，PER，任-v，POST，、-w，POST，；-w，PER，不再担任-v，POST，和-prep，POST，。]，所述修订元组(张某，B职务)中，头实体为“张某”，尾实体为“B职务”，确定所述头实体“张某”对应的头实体标识PER和所述尾实体“B职务”对应的尾实体标识POST在所述训练实体序列中的头实***置和尾实***置，将所述训练实体序列中头实体“张某”对应的头实体标识PER的前一个元素“：”、头实体标识“PER”、头实体标识和尾实体“B职务”对应的尾实体标识之间的元素“任POST、”、尾实体标识“POST”、尾实体标识后一个元素“；”组成词语模板(：，PER，任，POST，、，POST，；)，将所述词语模板中的除去头实体和尾实体的词替换为对应的词性，生成所述训练文本对应的词性模板(w，PER，v，POST，w，POST，w)。至此将词语模板(：，PER，任，POST，、，POST，；)和词性模板(w，PER，v，POST，w，POST，w)对应存储到模板对集合中。

步骤412：接收保存指令，基于所述保存指令保存所述目标元组。

在本申请提供的具体实施例中，新任职位关系的元组(张某，A职务)、被免除职位关系的元组(李某，B职务)和被免除职位关系的元组(李某，C职务)是被抽取出的关系元组，在接收保存指令之前，还接收了修订指令，并基于修订指令生成了修订元组(张某，B职务)，在接收保存指令后，将上述四个元组进行保存。

与上述方法实施例相对应，本申请还提供了关系抽取装置实施例，图6示出了本申请一个实施例的关系抽取装置的结构示意图。如图6所示，该装置包括：

获取模块602，被配置为获取待处理文本；

抽取模块604，被配置为将所述待处理文本输入至关系抽取模型进行处理，获取所述关系抽取模型输出的目标元组，其中，所述关系抽取模型由初始训练样本集合训练获得；

接收模块606，被配置为在接收到修订指令的情况下，基于所述修订指令生成修订元组；

继续训练模块608，被配置为根据所述待处理文本和所述修订元组生成训练样本对，将所述训练样本对添加到所述初始训练样本集合中对所述关系抽取模型继续训练。

可选的，所述抽取模块604，进一步被配置为所述关系抽取模型响应于输入的所述待处理文本生成所述待处理文本对应的目标元组。

可选的，所述抽取模块604，进一步被配置为：

根据所述实体序列生成所述待处理文本对应的目标元组。

可选的，所述抽取模块604，进一步被配置为：

将所述实体序列遍历存储的模板对集合，确定目标模板对；

所述装置还包括模型训练模块，所述模型训练模块，被配置为：

根据所述词语模板确定所述训练文本对应的词性模板。

将所述词语模板和所述词性模板对应保存。

可选的，所述模型训练模块，进一步被配置为：

可选的，所述装置还包括：

保存模块，被配置为在接收到保存指令的情况下，基于所述保存指令保存所述目标元组。

本申请提供的关系抽取装置，可以在极少量的启动数据的情况下训练生成关系抽取模型，在通过关系抽取模型确定目标元组后，对目标元组进行评分，对于不符合要求的目标元组进行人工修正，继续对模型进行增量学习训练，进一步提高模型的准确率，另外，将待处理文本和修订元组组成训练样本对的方式对模型进行训练，可以不必依赖多次重复出现的关系，无需考虑元组关系稀疏性的问题，具有通用性，对于特定的领域抽取模板的效果更好。

上述为本实施例的一种关系抽取装置的示意性方案。需要说明的是，该关系抽取装置的技术方案与上述的关系抽取方法的技术方案属于同一构思，关系抽取装置的技术方案未详细描述的细节内容，均可以参见上述关系抽取方法的技术方案的描述。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的关系抽取方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的关系抽取方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述关系抽取方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述关系抽取方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的关系抽取方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述关系抽取方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述关系抽取方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种关系抽取方法，其特征在于，包括：

获取待处理文本；

2.如权利要求1所述的关系抽取方法，其特征在于，在将所述待处理文本输入至关系抽取模型进行处理之后，还包括：

3.如权利要求2所述的关系抽取方法，其特征在于，所述关系抽取模型响应于输入的所述待处理文本生成所述待处理文本对应的目标元组，包括：

根据所述实体序列生成所述待处理文本对应的目标元组。

4.如权利要求3所述的关系抽取方法，其特征在于，对所述待处理文本做实体识别和词性标注，确定所述待处理文本对应的实体序列，包括：

5.如权利要求3所述的关系抽取方法，其特征在于，根据所述实体序列生成所述待处理文本对应的目标元组，包括：

将所述实体序列遍历存储的模板对集合，确定目标模板对；

6.如权利要求1所述的关系抽取方法，其特征在于，所述初始训练样本集合中的训练样本为训练文本和所述训练文本对应的二元组，其中所述二元组中包括实体对；

所述关系抽取模型由初始训练样本集合训练获得，包括：

根据所述词语模板确定所述训练文本对应的词性模板。

将所述词语模板和所述词性模板对应保存。

7.如权利要求6所述的关系抽取方法，其特征在于，所述实体对包括头实体和尾实体；

8.如权利要求6所述的关系抽取方法，其特征在于，根据所述词语模板确定所述训练文本对应的词性模板，包括：

9.如权利要求1所述的关系抽取方法，其特征在于，所述方法还包括：

10.一种关系抽取装置，其特征在于，包括：

获取模块，被配置为获取待处理文本；

11.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-9任意一项所述方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。