CN111079433B

CN111079433B - 一种事件抽取方法、装置及电子设备

Info

Publication number: CN111079433B
Application number: CN201911205132.7A
Authority: CN
Inventors: 谢忠玉; 张群方; 向安怡
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-10-27
Anticipated expiration: 2039-11-29
Also published as: CN111079433A

Abstract

本发明实施例提供了一种事件抽取方法、装置及电子设备。其中，方法包括：将待处理文本输入至事件实体要素提取模型，得到所述事件实体要素提取模型输出的多个事件实体要素，预先利用标注有事件实体要素的样本文本对所述事件实体要素提取模型进行过训练，所述多个事件实体要素包括至少一个事件触发词、至少一个主动对象以及至少一个被动对象；根据在所述待处理文本中的位置，确定所述多个事件实体要素间的关联关系，得到至少一个三元组，作为所述待处理文本的事件抽取结果，所述三元组由相互关联的事件触发词、主动对象以及被动对象组成。可以提高事件抽取的适用性。

Description

一种事件抽取方法、装置及电子设备

技术领域

本发明涉及大数据分析技术领域，特别是涉及一种事件抽取方法、装置及电子设备。

背景技术

互联网中存在大量的文本，由于自然语言的多样性，这些文本中可能包含较多的用户不感兴趣的无效信息。为了从这些文本中获取用户感兴趣的信息，可以对这些文本进行事件抽取，以分析这些文本各自表示的事件。示例性的，可以针对不同类型的事件设置不同的模板，每个模板用于表示构成该事件的事件要素以及事件的组织规则。提取待处理文本中的实体，作为事件要素，并将待处理文本的事件要素与模板进行匹配，以确定与待处理文本的事件要素相匹配的模板，按照该模板所表示的组织规则，将待处理文本的事件要素组织成事件。

但是，模板的类型有限，可能存在无法与模板匹配的文本，该方案无法抽取这些文本中的事件，即适用性较差。

发明内容

本发明实施例的目的在于提供一种事件抽取方法、装置及电子设备，以提高事件抽取方法的适用性。具体技术方案如下：

在本发明实施例的第一方面，提供了一种事件抽取方法，所述方法包括：

将待处理文本输入至事件实体要素提取模型，得到所述事件实体要素提取模型输出的多个事件实体要素，预先利用标注有事件实体要素的样本文本对所述事件实体要素提取模型进行过训练，所述多个事件实体要素包括至少一个事件触发词、至少一个主动对象以及至少一个被动对象，所述事件触发词为所述待处理文本中用于表示所发生的事件的词，所述主动对象为用于表示所述待处理文本中事件的主动参与者的词，所述被动对象为用于表示所述待处理文本中事件的被动参与者的词；

根据在所述待处理文本中的位置，确定所述多个事件实体要素间的关联关系，得到至少一个三元组，作为所述待处理文本的事件抽取结果，所述三元组由相互关联的事件触发词、主动对象以及被动对象组成。

结合第一方面，在第一种可能的实现方式中，所述事件实体要素提取模型包括词向量嵌入层、编码层以及解码层，所述词向量嵌入层用于计算输入的文本的各个分词的词向量，所述编码层用于提取输入的词向量的特征，所述解码层用于将输入的特征映射至序列标注结果，所述序列标注结果用于表示分词所属的事件实体要素类别；

所述将待处理文本输入至事件实体要素提取模型，得到所述事件实体要素提取模型输出的多个事件实体要素，包括：

将待处理文本输入至所述词向量嵌入层，得到所述待处理文本各个分词的词向量；

将所述待处理文本各个分词的词向量输入至所述编码层，得到所述编码层输出的各个分词的特征；

将所述待处理文本各个分词的特征输入至所述解码层，得到所述解码层输出的各个分词的序列标注结果；

根据所述序列标注结果，从所述待处理文本各个分词中提取多个事件实体要素。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述编码层为双向长短期记忆网络。

结合第一方面，在第三种可能的实现方式中，所述根据在所述待处理文本中的位置，确定所述多个事件实体要素间的关联关系，得到至少一个三元组，作为所述待处理文本的事件抽取结果，包括：

根据所述待处理文本中的位置，确定所述多个事件实体要素中主动对象与事件触发词间的关联关系，得到至少一个主动对象-事件触发词对，所述主动对象-事件触发词对由相互关联的事件触发词和主动对象组成；

根据所述待处理文本中的位置，确定所述多个事件实体要素中被动对象与事件触发词间的关联关系，得到至少一个被动对象-事件触发词对，所述被动对象-事件触发词对由相互关联的事件触发词和被动对象组成；

合成所述至少一个主动对象-事件触发词，以及所述至少一个被动对象-事件触发词对中具有相同事件触发词的主动对象-事件触发词和被动对象-事件触发词，得到至少一个三元组，作为所述待处理文本的事件抽取结果。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述根据所述待处理文本中的位置，确定所述多个事件实体要素中主动对象与事件触发词间的关联关系，得到至少一个主动对象-事件触发词对，包括：

针对所述多个事件实体要素中的每个事件触发词，在所述多个事件实体要素中确定与该事件触发词间不存在终结标点符号的主动对象，作为候选主动对象，所述终结标点符号为用于表示分句结束的标点符号；并关联该事件触发词，以及所述候选主动对象中在所述待处理文本中距离该事件触发词最近的主动对象，得到该主动对象和该事件触发词组成的主动对象-事件触发词对；

或者，针对所述多个事件实体要素中的每个主动对象，在所述多个事件实体要素中确定与该主动对象间不存在所述终结标点符号的事件触发词，作为候选事件触发词；并关联该主动对象，以及所述候选事件触发词中在所述待处理文本中距离该主动对象最近的事件触发词，得到该主动对象和该事件触发词组成的主动对象-事件触发词对；

所述根据所述待处理文本中的位置，确定所述多个事件实体要素中被动对象与事件触发词间的关联关系，得到至少一个被动对象-事件触发词对，包括：

针对所述多个事件实体要素中的每个事件触发词，在所述多个事件实体要素中确定与该事件触发词间不存在终结标点符号的被动对象，作为候选被动对象，所述终结标点符号为用于表示分句结束的标点符号；并关联该事件触发词，以及所述候选被动对象中在所述待处理文本中距离该事件触发词最近的被动对象，得到该被动对象和该事件触发词组成的被动对象-事件触发词对；

或者，针对所述多个事件实体要素中的每个被动对象，在所述多个事件实体要素中确定与该被动对象间不存在所述终结标点符号的事件触发词，作为候选事件触发词；并关联该被动对象，以及所述候选事件触发词中在所述待处理文本中距离该被动对象最近的事件触发词，得到该被动对象和该事件触发词组成的被动对象-事件触发词对。

结合第一方面，在第五种可能的实现方式中，在所述将待处理文本输入至事件实体要素提取模型，得到所述事件实体要素提取模型输出的多个事件实体要素之前，所述方法还包括：

去除所述待处理文本中的噪音字符，所述噪音字符包括表情符、链接、预设特殊符号中的一类或多类字符。

在本发明实施例的第二方面，提供了一种事件抽取装置，所述装置包括：

事件实体要素提取模块，用于将待处理文本输入至事件实体要素提取模型，得到所述事件实体要素提取模型输出的多个事件实体要素，预先利用标注有事件实体要素的样本文本对所述事件实体要素提取模型进行过训练，所述多个事件实体要素包括至少一个事件触发词、至少一个主动对象以及至少一个被动对象，所述事件触发词为所述待处理文本中用于表示所发生的事件的词，所述主动对象为用于表示所述待处理文本中事件的主动参与者的词，所述被动对象为用于表示所述待处理文本中事件的被动参与者的词；

事件实体要素关联模块，用于根据在所述待处理文本中的位置，确定所述多个事件实体要素间的关联关系，得到至少一个三元组，作为所述待处理文本的事件抽取结果，所述三元组由相互关联的事件触发词、主动对象以及被动对象组成。

结合第二方面，在第一种可能的实现方式中，所述事件实体要素提取模型包括词向量嵌入层、编码层以及解码层，所述词向量嵌入层用于计算输入的文本的各个分词的词向量，所述编码层用于提取输入的词向量的特征，所述解码层用于将输入的特征映射至序列标注结果，所述序列标注结果用于表示分词所属的事件实体要素类别；

所述事件实体要素提取模块，具体用于将待处理文本输入至所述词向量嵌入层，得到所述待处理文本各个分词的词向量；

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述编码层为双向长短期记忆网络。

结合第二方面，在第三种可能的实现方式中，所述事件实体要素关联模块，具体用于根据所述待处理文本中的位置，确定所述多个事件实体要素中主动对象与事件触发词间的关联关系，得到至少一个主动对象-事件触发词对，所述主动对象-事件触发词对由相互关联的事件触发词和主动对象组成；

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述事件实体要素关联模块，具体用于针对所述多个事件实体要素中的每个事件触发词，在所述多个事件实体要素中确定与该事件触发词间不存在终结标点符号的主动对象，作为候选主动对象，所述终结标点符号为用于表示分句结束的标点符号；并关联该事件触发词，以及所述候选主动对象中在所述待处理文本中距离该事件触发词最近的主动对象，得到该主动对象和该事件触发词组成的主动对象-事件触发词对；

结合第二方面，在第五种可能的实现方式中，所述装置还包括文本清洗模块，用于在所述将待处理文本输入至事件实体要素提取模型，得到所述事件实体要素提取模型输出的多个事件实体要素之前，去除所述待处理文本中的噪音字符，所述噪音字符包括表情符、链接、预设特殊符号中的一类或多类字符。

在本发明实施例的第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的方法步骤。

在本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。

本发明实施例提供的事件抽取方法、装置及电子设备，可以在不借助预设模板的前提下，按照通过机器学习从大量样本文本中学习到文本与事件实体要素的映射关系，从待处理文本中提取事件实体要素，进而利用关联的方式组合主动对象、事件触发词以及被动对象，以得到用于表示事件的三元组，利用机器学习强大的泛化能力，不会受到模板的限制，能够适用多数应用场景，因此适用性较强。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的事件抽取方法的一种流程示意图；

图2为本发明实施例提供的事件实体要素提取模型的一种结构示意图；

图3为本发明实施例提供的事件实体要素提取模型的另一种结构示意图；

图4为本发明实施例提供的事件实体要素关联方法的一种流程示意图；

图5为本发明实施例提供的事件抽取方法的另一种流程示意图；

图6a为本发明实施例提供的事件抽取装置的一种结构示意图；

图6b为本发明实施例提供的事件抽取装置的另一种结构示意图；

图7为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1所示为本发明实施例提供的事件抽取方法的一种流程示意图，该方法可以应用于任意具有事件抽取功能的电子设备，方法可以包括：

S101，将待处理文本输入至事件实体要素提取模型，得到事件实体要素提取模型输出的多个事件实体要素。

多个事件实体要素中包括至少一个事件触发词、至少一个主动对象以及至少一个被动对象。其中，事件触发词为待处理文本中用于表示所发生的事件的词，主动对象为用于表示待处理文本中事件的主动参与者的词，被动对象为用于表示待处理文本中事件的被动参与者的词。

例如，假设待处理文本为“小明在关键时刻解救了小王。”，则该待处理文本中包括了三个事件实体要素，分别为主动对象“小明”，事件触发词“解救”，以及被动对象“小王”。在其他可能的应用场景中，待处理文本中可以包括不止一个主动对象，也可以包括不止一个事件触发词，还可以包括不止一个被动对象，并且待处理文本中主动对象、事件触发词以及被动对象的数目可以各不相同。关于如何识别待处理文本中的事件实体要素，并确定各个事件实体要素的类型，将在后续的实施例中进行详细的描述，在此不再赘述。

事件实体要素提取模型预先经过标注有事件实体要素的样本文本的训练，事件实体要素模型可以是基于传统机器学习算法训练得到的算法模型，也可以是基于深度学习算法训练得到的神经网络模型，本实施例对此不做限制。

S102，根据在待处理文本中的位置，确定多个事件实体要素间的关联关系，得到至少一个三元组，作为待处理文本的事件抽取结果。

三元组是由相互关联的事件触发词、主动对象以及被动对象组成的。示例性的，假设待处理文本中包括6个事件实体要素，分别记为主动对象1、主动对象2、事件触发词1、事件触发词2、被动对象1以及被动对象2。并且假设主动对象1、事件触发词1以及被动对象1相互关联，主动对象2、事件触发词2以及被动对象2相互关联，则可以得到两个三元组，分别为<主动对象1-事件触发词1-被动对象1>以及<主动对象2-事件触发词2-被动对象2>。

可以理解的是，待处理文本中各个分词间的表意是具有关联性的，例如“放学后，小张和小赵在教室里讨论问题。”中，“小张”和“小赵”表达了事件的参与者，“讨论问题”表达了所发生的事件，因此“小张”和“小赵”以及“讨论问题”都是在对同一个事件进行描述，即在表意上具有关联性。而由于自然语言在表意上往往具有连贯性，因此表意上具有关联性的分词往往在文本中的位置也是相关的。例如“放学后，小张和小赵在教室里讨论问题。小李一个人去操场跑步了。”中，“小张”、“小赵”和“讨论问题”在同一个句子中，和“跑步”在不同的句子中，而“小李”和“讨论问题”不在同一个句子中，和“跑步”在同一个句子中，因此可以认为“小张”、“小赵”和“讨论问题”在表意上具有关联性，而“小李”和“讨论问题”在表意上不具有关联性，即可以确定“小张”、“小赵”和“讨论问题”存在关联关系，而“小李”和“讨论问题”不存在关联关系。

由上述分析可知，由于在待处理文本中的位置，可以反映出各个分词在表意上的关联性，因此如果根据在待处理文本中的位置，确定一个主动对象、一个事件触发词以及一个被动对象相互关联，则可以认为该一个主动对象、一个事件触发词以及一个被动对象在描述同一个事件，因此该一个主动对象、一个事件触发词以及一个被动对象组成的三元组已经描述出了所发生的事件以及事件的参与者，因此可以该三元组可以作为待处理文本的事件抽取结果。

选用该实施例，可以在不借助预设模板的前提下，利用关联的方式组合主动对象、事件触发词以及被动对象，以得到用于表示事件的三元组，因此不会受到模板的限制，适用性较强。

在一种可能的实现方式中，事件实体要素提取模型可以是基于深度学习训练得到的神经网络。选用该实施例，可以利用神经网络实现待处理文本到事件实体要素的端到端映射，有效降低获取待处理文本的事件实体要素所需要的计算量。示例性的可以参见图2，图2所示为本发明实施例提供的事件实体要素提取模型的一种结构示意图，可以包括：词向量嵌入(word embeddings)层201、编码(encoder)层202以及解码(decoder)层203。

词向量嵌入层用于计算输入的文本的各个分词的词向量。词向量嵌入层可以是word2vec模型，输入为文本，输出为文本的各个分词的词向量。示例性的，假设文本包括n个分词，则该文本可以表示为{word₁，word₂，…，word_n}的向量形式，其中word_i为第i个分词，将该向量输入至词向量嵌入层，词向量嵌入层将word₁-word_n替换为对应的词向量vector₁-vector_n，得到词向量嵌入层的输出{vector₁，vector₂，…，vector_n}，其中vector_i为第i个分词对应的词向量。

编码层用于提取输入的词向量的特征。编码层可以是双向长短期记忆网络(Bi-directional Long-Short Term Memory，Bi-LSTM)，如前述分析，待处理文本中各个分词间的表意是具有关联性的，因此在分析每个分词的表意时，除了需要参考该分词，还需要参考待处理文本中的其他分词。而Bi-LSTM可以通过长短期记忆机制，使得在对一个分词进行提取特征的过程中，可以参考该分词在待处理文本中的上下文关系，以使得提取到的特征能够更好的表达该分词，进而提高事件实体要素提取模型的准确性。

解码层用于将输入的特征映射至序列标注结果，序列标注结果用于表示分词所属的事件实体要素类别。解码层可以是基于条件随机场(Conditional Random Fields，CRF)实现的。根据所采用的序列标注方式的不同，序列标注结果可以不同。示例性的，假设序列标注的方式为BIO(Begin-Inside-Others，起始-中间-其他)标注，则序列标注结果可以一共分为如下7类：

序列标注结果	含义
		B_T	事件触发词起始
I_T	事件触发词中间
		B_A	主动对象起始
I_A	主动对象中间
		B_P	被动对象起始
I_P	被动对象中间
		O	其他

其中，事件触发词起始是指该分词是事件触发词的第一个分词，事件触发词中间是指该分词属于事件触发词，但并非事件触发词的第一个分词。主动对象起始、主动对象中间、被动对象起始以及被动对象中间的含义同理。其他是指该分词不为事件实体要素。

例如，以“小明关键时刻解救小王。”为例，该文本中包括如下分词：

{小明；关键；时刻；解救；小王}

则解码层输出的“小明”的序列标注结果可以为B_A，“解救”的序列标注结果为B_T，“小王”的序列标注结果为B_P，“关键”和“时刻”的序列标注结果为O。由于“小明”的序列标注结果为B_A，“小明”的下一个分词“关键”的序列标注结果为O，则可以确定“小明”是主动对象。同理，可以确定“小王”是被动对象，“解救”为事件触发词。

又例如，以“记者小赵将这件事上报领导”为例，该文本中包括如下分词：

{记者；小赵；将；这件事；上报；领导}

则解码层输出的“记者”的序列标注结果可以为B_A，“小赵”的序列标注结果为I_A，“将”的序列输出结果为O，则由于“记者”的序列标注结果为B_A，“记者”的下一个分词“小赵”的序列标注结果为I_A，因此可以确定“记者”和“小赵”共同构成主动对象，即可以确定“记者小赵”是主动对象。

在其他可能的实施例中，也可以是采用除BIO外的其他序列标注，如BIOS(Begin-Inside-Others-Single，起始-中间-其他-单字符)、BIOES(Begin-Inside-Others-End-Single，起始-中间-其他-结尾-单字符)等。

当解码层是基于CRF实现的，并且编码层为Bi-LSTM时，事件实体要素提取模型的结构可以如图3所示。下面将对该网络结构的原理进行说明：

词向量嵌入层的输入为待处理文本，第i个单元(指从左往右的第i个，下文同理)的输入为待处理文本中的第i个分词，输出为第i个分词的词向量。例如，假设待处理文本为“小明关键时刻解救小王。”，则词向量嵌入层第2个单元的输入为“关键”，输出为“关键”的词向量。

编码层分为3层，在其他可能的实施例中也可以是大于3层的，本实施例对此不做限制。为描述方便，下文称编码层的第一层(指图3中从下往上的第一层，下文第二层、第三层同理)输出的特征为第一特征，第二层输出的特征为第二特征，第三层输出的特征为第三特征。

第一层第i个单元的输入为第i个分词的词向量，以及第i-1个单元输出的第一特征，输出为分词的第一特征。特例是第一层的第一个单元，输入为第1个分词的词向量。可见，在第一层中，每个单元在提取对应分词的第一特征时，参考了该分词之前的各个分词的第一特征，例如，在提取第三个分词的第一特征时，参考了第一个分词和第二个分词的第一特征。因此，第一层第i个单元输出的第一特征除了可以表达第i个分词，还可以在一定程度上表达第i个分词之前的各个分词。

第二层第i个单元的输入为第i个分词的词向量，以及第i+1个单元输出的第二特征，输出为分词的第二特征。特例是第二层的最后一个单元，输入为最后一个分词的词向量。可见，在第二层中，每个单元在提取对应分词的第二特征时，参考了该分词之后的各个分词的第二特征，例如，在提取第三个分词的第二特征时，参考了第四个分词至最后一个分词中每个分词的第二特征。因此，第二层第i个单元输出的第二特征除了可以表达第i个分词，还可以在一定程度上表达第i个分词之后的各个分词。

第三层第i个单元的输入为第i个分词的第一特征和第二特征，输出为第i个分词的第三特征。如前述分析，第i个分词的第一特征，可以表达第i个分词，以及第i个分词之前各个分词，第i个分词的第二特征，以表达第i个分词，以及第i个分词之后各个分词。因此第三层第i个单元输出的第三特征，可以表达待处理文本中的所有分词，即第i个分词的第三特征除了可以表达第i个分词，还可以表达第i个分词与待处理文本中其他分词间的上下文关系，因此如前述分析，可以提高事件实体要素提取模型的准确性。

解码层中第i个单元的输入为第i个分词的第三特征，以及相邻单元输出的该相邻单元对应的分词与该第i个分词间的关联关系，该关联关系可以是以条件概率的形式表示的。输出为第i个分词的序列标注结果。

参见图4，图4所示为本发明实施例提供的事件实体要素关联方法的一种流程示意图，可以包括：

S401，根据待处理文本中的位置，确定多个事件实体要素中主动对象与事件触发词间的关联关系，得到至少一个主动对象-事件触发词对。

可以是针对所述多个事件实体要素中的每个事件触发词，在所述多个事件实体要素中确定与该事件触发词间不存在终结标点符号的主动对象，作为候选主动对象；并关联该事件触发词，以及所述候选主动对象中在所述待处理文本中距离该事件触发词最近的主动对象，得到该主动对象和该事件触发词组成的主动对象-事件触发词对。其中，终结标点符号是指用于表示分局结束的标点符号，可以包括句号、问好、叹号、分号。

也可以是针对所述多个事件实体要素中的每个主动对象，在所述多个事件实体要素中确定与该主动对象间不存在所述终结标点符号的事件触发词，作为候选事件触发词；并关联该主动对象，以及所述候选事件触发词中在所述待处理文本中距离该主动对象最近的事件触发词，得到该主动对象和该事件触发词组成的主动对象-事件触发词对。

例如，假设待处理文本为“小明关键时刻解救小王。记者小赵将这件事上报领导”，该待处理文本中可以提取到两个主动对象，分别为“小明”、“记者小赵”，两个被动对象“小王”、“领导”，两个事件触发词“解决”、“上报”。

则可以是遍历每个主动对象，对于“小明”，由于和“解救”之间没有间隔终结标点符号，而和“上报”之间间隔有句号，因此候选事件触发词为“解救”，关联“小明”和“解救”，得到主动对象-事件触发词对“小明-解救”。同理，对于“记者小赵”，可以得到主动对象-事件触发词对“记者小赵-上报”。

也可以是遍历每个事件触发词，对于“解救”，由于和“小明”之间没有间隔终结标点符号，而和“记者小赵”之间间隔有句号，因此候选主动对象为“小明”，关联“小明”和“解救”，得到主动对象-事件触发词对“小明-解救”。同理，对于“上报”，可以得到主动对象-事件触发词对“记者小赵-上报”

又例如，假设待处理文本为“小明关键时刻解救小王，记者小赵将这件事上报领导”，此时对于主动对象“小明”，存在“解救”和“上报”两个候选事件触发词，则由于在待处理文本中“解救”相对“上报”距离“小明”更近，因此关联“小明”和“解救”，得到主动对象-事件触发词对“小明-解救”。其中，距离可以是指在待处理文本中所间隔的字符数，在其他可能的实施例中，也可以认为当间隔有如顿号、逗号等表示停顿的标点符号的情况，距离大于没有间隔有如顿号、逗号等表示停顿的标点符号的情况。例如，对于“记者小赵”，虽然与“解救”间隔3个字符，与“上报”间隔4个字符，但是由于与“解救”间隔有逗号，而与“上报”没有间隔逗号，因此认为“上报”相对“解救”距离“记者小赵”更近，因此关联“记者小赵”和“上报”，得到主动对象-事件触发词对“记者小赵-上报”。

S402，根据待处理文本中的位置，确定多个事件实体要素中被动对象与事件触发词间的关联关系，得到至少一个被动对象-事件触发词对。

该步骤与S401相同，区别仅在于主动对象变换为被动对象，因此可以参见前述S401中的相关描述，在此不再赘述。

S403，合成至少一个主动对象-事件触发词对，以及至少一个被动对象-事件触发词对中具有相同事件触发词的主动对象-事件触发词对和被动对象-事件触发词对，得到至少一个三元组，作为待处理文本的事件抽取结果。

仍以待处理文本为“小明关键时刻解救小王。记者小赵将这件事上报领导”为例，如前述分析，可以得到两个主动对象-事件触发词对，“小明-解救”、“记者小赵-上报”，可以得到两个被动对象-事件触发词对“小王-解救”、“领导-上报”。

由于“小明-解救”和“小王-解救”具有相同的事件触发词“解救”，因此合成“小明-解救”和“小王-解救”，得到三元组“小明-解救-小王”。同理，合成“记者小赵-上报”和“领导-上报”，得到三元组“记者小赵-上报-领导”。即该待处理文本的事件抽取结果为：“小明-解救-小王”、“记者小赵-上报-领导”。

选用该实施例，可以利用事件触发词作为中介，启发式地间接关联主动对象和被动对象，以得到可以表示事件抽取结果的三元组，无需使用模板，适用性更强。

参见图5，图5所示为本发明实施例提供的事件抽取方法的另一种流程示意图，可以包括：

S501，去除待处理文本中的噪音字符。

根据应用场景的不同，噪音字符所指带的字符类型可以不同。示例性的，噪音字符可以包括表情符、链接、预设特殊符号。预设特殊符号可以是指“#”、“&”、“@”等对表意没有贡献的符号。

可以理解的是，文本中存在一些对表意没有贡献的字符，例如微博“@用户A：我今天和同学玩的真开心^_^”中的表情符“^_^”和“@用户A”对表意没有贡献，因此可以去除，以降低后续处理所需要的计算量，以及避免这些字符对事件抽取的干扰，提高事件抽取的准确性。

S502，将待处理文本输入至事件实体要素提取模型，得到事件实体要素提取模型输出的多个事件实体要素。

该步骤与前述S101相同，可以参见前述S101中的相关描述，在此不再赘述。

S503，根据在待处理文本中的位置，确定多个事件实体要素间的关联关系，得到至少一个三元组，作为待处理文本的事件抽取结果。

该步骤与前述S102相同，可以参见前述S102中的相关描述，在此不再赘述。

参见图6a，图6a所示为本发明实施例提供的事件抽取装置的一种结构示意图，可以包括：

事件实体要素提取模块601，用于将待处理文本输入至事件实体要素提取模型，得到所述事件实体要素提取模型输出的多个事件实体要素，预先利用标注有事件实体要素的样本文本对所述事件实体要素提取模型进行过训练，所述多个事件实体要素包括至少一个事件触发词、至少一个主动对象以及至少一个被动对象，所述事件触发词为所述待处理文本中用于表示所发生的事件的词，所述主动对象为用于表示所述待处理文本中事件的主动参与者的词，所述被动对象为用于表示所述待处理文本中事件的被动参与者的词；

事件实体要素关联模块602，用于根据在所述待处理文本中的位置，确定所述多个事件实体要素间的关联关系，得到至少一个三元组，作为所述待处理文本的事件抽取结果，所述三元组由相互关联的事件触发词、主动对象以及被动对象组成。

在一种可能的实施例中，所述事件实体要素提取模型包括词向量嵌入层、编码层以及解码层，所述词向量嵌入层用于计算输入的文本的各个分词的词向量，所述编码层用于提取输入的词向量的特征，所述解码层用于将输入的特征映射至序列标注结果，所述序列标注结果用于表示分词所属的事件实体要素类别；

所述事件实体要素提取模块601，具体用于将待处理文本输入至所述词向量嵌入层，得到所述待处理文本各个分词的词向量；

在一种可能的实施例中，所述编码层为双向长短期记忆网络。

在一种可能的实施例中，所述事件实体要素关联模块602，具体用于根据所述待处理文本中的位置，确定所述多个事件实体要素中主动对象与事件触发词间的关联关系，得到至少一个主动对象-事件触发词对，所述主动对象-事件触发词对由相互关联的事件触发词和主动对象组成；

在一种可能的实施例中，所述事件实体要素关联模块602，具体用于针对所述多个事件实体要素中的每个事件触发词，在所述多个事件实体要素中确定与该事件触发词间不存在终结标点符号的主动对象，作为候选主动对象，所述终结标点符号为用于表示分句结束的标点符号；并关联该事件触发词，以及所述候选主动对象中在所述待处理文本中距离该事件触发词最近的主动对象，得到该主动对象和该事件触发词组成的主动对象-事件触发词对；

在一种可能的实施例中，如图6b所示，所述装置还包括文本清洗模块603，用于在所述将待处理文本输入至事件实体要素提取模型，得到所述事件实体要素提取模型输出的多个事件实体要素之前，去除所述待处理文本中的噪音字符，所述噪音字符包括表情符、链接、预设特殊符号中的一类或多类字符。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器xx3通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

在一种可能的实施例中，所述根据在所述待处理文本中的位置，确定所述多个事件实体要素间的关联关系，得到至少一个三元组，作为所述待处理文本的事件抽取结果，包括：

合成所述至少一个主动对象-事件触发词，以及所述至少一个被动对象-事件触发词对中具有相同事件触发词的主动对象-事件触发词对和被动对象-事件触发词对，得到至少一个三元组，作为所述待处理文本的事件抽取结果。

在一种可能的实施例中，所述根据所述待处理文本中的位置，确定所述多个事件实体要素中主动对象与事件触发词间的关联关系，得到至少一个主动对象-事件触发词对，包括：

在一种可能的实施例中，在所述将待处理文本输入至事件实体要素提取模型，得到所述事件实体要素提取模型输出的多个事件实体要素之前，所述方法还包括：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一事件抽取方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一事件抽取方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种事件抽取方法，其特征在于，所述方法包括：

根据在所述待处理文本中的位置，确定所述多个事件实体要素间的关联关系，得到至少一个三元组，作为所述待处理文本的事件抽取结果，所述三元组由相互关联的事件触发词、主动对象以及被动对象组成；

所述根据在所述待处理文本中的位置，确定所述多个事件实体要素间的关联关系，得到至少一个三元组，作为所述待处理文本的事件抽取结果，包括：

合成所述至少一个主动对象-事件触发词对，以及所述至少一个被动对象-事件触发词对中具有相同事件触发词的主动对象-事件触发词对和被动对象-事件触发词对，得到至少一个三元组，作为所述待处理文本的事件抽取结果；

所述根据所述待处理文本中的位置，确定所述多个事件实体要素中主动对象与事件触发词间的关联关系，得到至少一个主动对象-事件触发词对，包括：

2.根据权利要求1所述的方法，所述事件实体要素提取模型包括词向量嵌入层、编码层以及解码层，所述词向量嵌入层用于计算输入的文本的各个分词的词向量，所述编码层用于提取输入的词向量的特征，所述解码层用于将输入的特征映射至序列标注结果，所述序列标注结果用于表示分词所属的事件实体要素类别；

3.根据权利要求2所述的方法，其特征在于，所述编码层为双向长短期记忆网络。

4.根据权利要求1所述的方法，其特征在于，在所述将待处理文本输入至事件实体要素提取模型，得到所述事件实体要素提取模型输出的多个事件实体要素之前，所述方法还包括：

5.一种事件抽取装置，其特征在于，所述装置包括：

事件实体要素关联模块，用于根据在所述待处理文本中的位置，确定所述多个事件实体要素间的关联关系，得到至少一个三元组，作为所述待处理文本的事件抽取结果，所述三元组由相互关联的事件触发词、主动对象以及被动对象组成；

所述事件实体要素关联模块，具体用于根据所述待处理文本中的位置，确定所述多个事件实体要素中主动对象与事件触发词间的关联关系，得到至少一个主动对象-事件触发词对，所述主动对象-事件触发词对由相互关联的事件触发词和主动对象组成；

合成所述至少一个主动对象-事件触发词，以及所述至少一个被动对象-事件触发词对中具有相同事件触发词的主动对象-事件触发词和被动对象-事件触发词，得到至少一个三元组，作为所述待处理文本的事件抽取结果；

所述事件实体要素关联模块，具体用于针对所述多个事件实体要素中的每个事件触发词，在所述多个事件实体要素中确定与该事件触发词间不存在终结标点符号的主动对象，作为候选主动对象，所述终结标点符号为用于表示分句结束的标点符号；并关联该事件触发词，以及所述候选主动对象中在所述待处理文本中距离该事件触发词最近的主动对象，得到该主动对象和该事件触发词组成的主动对象-事件触发词对；

6.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。