CN113821605B

CN113821605B - 一种事件抽取方法

Info

Publication number: CN113821605B
Application number: CN202111187682.8A
Authority: CN
Inventors: 王磊; 郑博洪; 赖伟; 史超; 彭齐驭; 滕伟
Original assignee: Guangzhou Teligen Communication Technology Co ltd
Current assignee: Guangzhou Teligen Communication Technology Co ltd
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2024-05-14
Anticipated expiration: 2041-10-12
Also published as: CN113821605A

Abstract

本申请公开了一种事件抽取方法，该方法包括：对目标文本进行分析，得到目标文本对应的分词结果、词性标注结果和命名实体结果；对所述分词结果进行依存句法分析，得到句法树；根据所述句法树和所述词性标注结果，识别触发词，得到触发词列表；根据所述触发词列表、所述句法树和所述命名实体结果，得到论元及论元角色；根据所述触发词列表，确定事件类型。可见，本申请能够根据词性标注结果、所述命名实体结果和由所述分词结果得到的所述句法树，得到目标文本的事件抽取结果。目标文本的事件抽取结果，就是目标文本的关键信息，用户通过所述目标文本的关键信息就可以知道所述目标文本的主要内容，从而帮助用户高效地从海量文本数据中获取所需知识。

Description

一种事件抽取方法

技术领域

本申请涉及自然语言处理领域，更具体地说，涉及一种事件抽取方法。

背景技术

随着科学的不断发展，社会的不断进步，当今社会已步入信息时代，人们每天都能通过互联网获取大量的信息数据。

甚至于，各类公众号以及其他各类媒体的报道信息均呈现***增长的趋势。但不同的媒体每天报道的事件大多是相同的，仅仅是采用了不同的写作方式，导致用户往往要阅读大部分的内容才知道报道的是同一件事，导致用户无法高效地从海量文本数据中获取所需知识。

综上，亟需提供一种新的事件抽取方法帮助用户高效地从海量文本数据中获取所需知识。

发明内容

有鉴于此，本申请提供了一种事件抽取方法，用于帮助用户高效地从海量文本数据中获取所需知识。

为了实现上述目的，现提出的方案如下：

一种事件抽取方法，包括：

对目标文本进行分析，得到目标文本对应的分词结果、词性标注结果和命名实体结果；

对所述分词结果进行依存句法分析，得到句法树；

根据所述句法树和所述词性标注结果，识别触发词，得到触发词列表；

根据所述触发词列表、所述句法树和所述命名实体结果，得到论元及论元角色；

根据所述触发词列表，确定事件类型。

可选的，所述对目标文本进行分析，得到目标文本对应的分词结果、词性标注结果和命名实体结果，包括：

使用序列标注模型，对目标文本进行分析，得到目标文本对应的分词结果、词性标注结果和命名实体结果；

所述序列标注模型以文本信息为训练样本，以所述文本信息的分词结果、词性标注结果和命名实体结果为样本标签训练得到。

可选的，所述序列标注模型，包括：

输入层，输入所述目标文本；

编码层，对所述目标文本进行字嵌入、位置编码和段编码，得到编码结果；

预训练层，对所述编码结果进行处理，得到预训练结果；

条件随机场，对所述预训练结果进行分析，得到分析结果；

输出层，根据所述分析结果，输出目标文本对应的分词结果、词性标注结果和命名实体结果。

可选的，所述根据所述句法树和所述词性标注结果，识别触发词，得到触发词列表，包括：

在所述句法树中，找到依存关系为核心关系的词语，并将其写入触发词列表中；

根据所述词性标注结果，判断所述句法树中依存关系为动宾关系的词语是否为动词；

若是动词，则将其写入触发词列表中；

针对触发词列表中的每一触发词，在所述句法树中，查找与所述触发词具备并列关系的词语，将其写入触发词列表，并以查找到的词语作为触发词，返回执行所述在所述句法树中，查找与所述触发词具备并列关系的词语，将其写入触发词列表的步骤，直至触发词列表中触发词的数目保持不变为止。

可选的，所述对所述分词结果进行依存句法分析，得到句法树，包括：

采用依存句法分类器，对所述分词结果进行依存句法分析，得到句法树；

所述依存句法分类器以文本信息为训练样本，以所述文本信息的句法树为样本标签训练得到。

可选的，根据所述触发词列表、所述句法树和所述命名实体结果，得到论元及论元角色，包括：

针对触发词列表中的每一触发词，在所述句法树中，查找是否存在与所述触发词具备动宾关系或主谓关系的词语；

若存在与所述触发词具备动宾关系的第一词语，则将所述第一词语与其在所述句法树中具备定中关系的词语合并为目标第一词语；

将所述目标第一词语与其在句法树中具备并列关系的词语合并为所述触发词的宾语，并将所述触发词与所述宾语组成一个二元组；

若存在与所述触发词具备主谓关系的第二词语，则将所述第二词语与其在所述句法树中具备定中关系的词语合并为目标第二词语；

将所述目标第二词语与其在句法树中具备并列关系的词语合并为所述触发词的主语，并将所述触发词与所述主语组成一个二元组；

若不存在与所述触发词具备动宾关系的第一词语，或具备主谓关系的第二词语，则查找是否存在与所述触发词具备并列关系的第一目标触发词；

若存在所述第一目标触发词，则将所述第一目标触发词所在的二元组中的其他词语与所述触发词组成二元组；

若不存在所述第一目标触发词，则根据所述句法树的动宾关系，查找第二目标触发词，所述第二目标触发词为所述触发词的动词；

若存在所述第二目标触发词，则将所述第二目标触发词所在的二元组中的其他词语与所述触发词组成二元组；

将组成的二元组与所述命名实体结果进行对齐，得到对齐后的二元组，对齐后的二元组中的主语或宾语作为对应触发词的论元；

确定所述对齐后的二元组中的主语和宾语在对应触发词中的论元角色。

可选的，在确定所述对齐后的二元组中的主语和宾语在对应触发词中的论元角色之后，还包括：

对于所述命名实体结果中的时间实体，若不存在于组成的二元组中，则根据所述句法树中的依存关系，将所述时间实体与所述触发词列表中的触发词进行匹配；

将所述时间实体作为所述触发词的论元；

将所述时间实体的论元角色定义为事件时间。

根据所述句法树，将不存在于二元组中的每一命名实体结果与所述触发词列表中的触发词进行匹配；

将所述命名实体结果作为所述最近的触发词的论元；

根据预设的分类器或词向量，确定所述命名实体结果的论元角色，所述分类器和词向量以命名实体结果为训练样本，以命名实体结果对应的论元角色为样本标签，训练得到。

可选的，所述根据所述触发词列表，确定事件类型，包括：

将触发词列表中的每一触发词，输入词向量模型，得到每一触发词对应的词向量，所述词向量模型，以词语为训练样本，以所述词语的词向量为样本标签训练得到；

获取事件类型表；

将每一词向量与每一已知事件类型的平均词向量，进行相似度计算，得到每一触发词与每一已知事件类型的相似度；

将每一触发词对应的各个相似度分别与预设的阈值作比较；

若触发词对应的相似度中存在一个相似度超过所述阈值，则将所述相似度作为目标相似度；

将与所述目标相似度对应的事件类型作为，目标相似度对应的触发词的事件类型；

将所述对应的触发词写入所述对应的事件类型表中，并更新所述事件类型表的平均词向量；

若触发词中各个相似度都低于所述阈值，则将该触发词作为一个新的事件类型，并建立对应的事件类型表。

可选的，所述论元角色，包括以下任意一种：主体、客体、参与者。

从上述的技术方案可以看出，本申请可以对目标文本进行分析，即根据目标文本得到分词结果，并得到词性标注结果以及命名实体结果。基于此，对所述分词结果进行依存句法分析，得到句法树。如此，就能根据词性标注结果、所述命名实体结果和所述句法树，得到目标文本的事件抽取结果。实际上，目标文本的事件抽取结果，就是目标文本的关键信息，通过提取目标文本的事件抽取结果，从而提炼出目标文本的关键信息，用户通过所述目标文本的关键信息就可以知道所述目标文本的主要内容，从而帮助用户高效地从海量文本数据中获取所需知识。

除此之外，本申请将对目标文本进行事件抽取转换为了三个子过程，其中第一个子过程是对目标文本进行分词，词性标注以及识别命名实体，第二个子过程是对所述分词结果进行依存句法分析，得到句法树，第三子过程是根据词性标注结果、所述命名实体结果、所述触发词列表和所述句法树，得到目标文本的事件抽取结果包括触发词、论元及论元角色以及事件类型。而这三个子过程都可以归结为语法分析过程和句法分析过程，相比于单独建立事件抽取模型，通过专家标注的有事件抽取结果且特定领域的语料对事件抽取模型进行训练，然后再将同一领域的目标文本输入到该事件抽取模型中，才能得到目标文本的事件抽取结果，且其中专家标注的同一领域的语料并不能大量获取，而本申请可以应用大量的、现有技术已有的语料进行训练，通过语法分析过程和句法分析过程，就能够获取目标文本的事件抽取结果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种事件抽取方法流程图；

图2为本申请示例的一种序列标注模型结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的事件抽取方法，可以得到目标文本的触发词、及其对应的事件类型，及其对应的论元和论元角色。

接下来结合图1对本申请的事件方法进行详细介绍，包括如下步骤：

步骤S110、对目标文本进行分析，得到目标文本对应的分词结果、词性标注结果和命名实体结果。

具体地，可以采用BIO方式对目标文本分别进行分词标注、词性标注和命名实体标注。如此，就确定了所述目标文本对应的分词结果、词性标注结果和命名实体结果。

可选的，由于词性标注在词性识别的同时也会对边界进行判断，且命名实体识别时同样会对专有名词的边界进行修正，故本申请可以将分词任务、词性标注任务和识别命名实体任务协同进行，再输出结果。

步骤S120、对所述分词结果进行依存句法分析，得到句法树。

具体地，所述依存句法通过各个分词之间的依存关系表达整个文本的结构，而所述依存关系表达了各分词之间的语义依赖关系。

实际上，每一个分词至少有一个与其具有依存关系的分词，且两个具有依存关系的分词在文本中不一定相邻。

所述分词结果及各分词之间的依存关系可以构成句法树。

目标文本中每一个句子都有其对应的句法树，即，每一个句子与其对应的句法树之间是一一对应的关系。

该句法树的根节点为整个句子的核心内容。

在本申请的一些实施例中，可以根据贪心算法和预设的剪枝规则，对得到的句法树进行调整。

预设的剪枝规则包括多种规则，本申请提供其中两种规则。

第一、

句法树中的根节点不存在指向该根节点的有向边，若所述句法树中存在，则将该有向边进行修剪。

第二、

整个句法树中，不应该存在一个闭合环，即，有向边不应该能够构成一个闭合环，若存在，则需要对该句法树进行修剪。

步骤S130、根据所述句法树和所述词性标注结果，识别触发词，得到触发词列表。

具体地，由于在所述句法树中，包含了各词语及各词语之间的依存关系，则本申请可以选择根据句法树中的依存关系以及所述词性标注结果，确定触发词。

所述触发词组成触发词列表。

由于目标文本中的句子与句法树是一一对应的关系，且触发词列表是根据句法树得到的，所以目标文本中的句子与触发词列表也是一一对应的。

本申请可以对所述触发词表进行检查，所述检查可以包括利用黑名单机制删除明显不可能的触发词。

所述黑名单机制可以包括多种类型，例如，数词和量词等不可能成为触发词的词语。

步骤S140、根据所述触发词列表、所述句法树和所述命名实体结果，得到论元及论元角色。

具体地，由于在所述句法树中，包含了各词语及各词语之间的依存关系，则本申请可以选择根据句法树中的依存关系和所述命名实体结果，确定所述触发词列表中每一个触发词对应的论元。

然后，确定每一个论元对应的论元角色。

需要说明的是，一个触发词不一定只对应一个论元，可能对应两个论元。

步骤S150、根据所述触发词列表，确定事件类型。

具体地，本申请可以确认触发词列表中每一个触发词所对应的事件类型。

其中，可以根据预设的事件类型确定模型，将每一触发词输入所述事件类型确定模型，即可得到，每一触发词对应的事件类型。

所述事件类型确定模型以触发词为训练样本，以所述触发词对应的事件类型为样本标签训练得到。

从上述的技术方案可以看出，本申请实施例提供的事件抽取方法可以对目标文本进行分析，即根据目标文本得到分词结果，并得到词性标注结果以及命名实体结果。基于此，对所述分词结果进行依存句法分析，得到句法树。如此，就能根据词性标注结果、所述命名实体结果和所述句法树，得到目标文本的事件抽取结果。实际上，目标文本的事件抽取结果，就是目标文本的关键信息，通过提取目标文本的事件抽取结果，从而提炼出目标文本的关键信息，用户通过所述目标文本的关键信息就可以知道所述目标文本的主要内容，从而帮助用户高效地从海量文本数据中获取所需知识。

在本申请的一些实施例中，对步骤S110、对目标文本进行分析，得到目标文本对应的分词结果、词性标注结果和命名实体结果的过程进行详细说明。

具体地，可以使用序列标注模型，对目标文本进行分析，得到目标文本对应的分词结果、词性标注结果和命名实体结果。

其中，该序列标注模型以文本信息为训练样本，以所述文本信息的分词结果、词性标注结果和命名实体结果为样本标签训练得到。

如图2所示，该序列标注模型可以采用BIO方式对目标文本分别进行分词标注、词性标注和命名实体标注。

该序列标注模型可以由预训练模型和条件随机场的神经网络构建，并进行多任务训练。

其中，该多任务可以为分词任务、词性标注任务和识别命名实体任务。

因此，该序列标注模型的损失函数，为这三个任务的损失函数的算术平均数。

接下来结合图2，对本申请的序列标注模型进行详细介绍。

如图2所示，该序列标注模型可以由输入层、编码层、预训练层及输出层组成。

具体地，输入层，可以输入所述目标文本。

编码层，可以对所述目标文本进行字嵌入、位置编码和段编码，得到编码结果。

预训练层，可以对所述编码结果进行处理，得到预训练结果。

条件随机场，可以对所述预训练结果进行分析，得到分析结果。

输出层，可以根据所述分析结果，输出目标文本对应的分词结果、词性标注结果和命名实体结果。

具体地，预训练层可以对编码结果进行处理，根据分词结果，从多个方面丰富所述编码结果，例如可将目标文本中的上下文信息写入所述编码结果中，也可将目标文本中的语句信息写入所述编码结果中。

条件随机场可以确定并修正分词标签、词性标注标签及命名实体标签。

由上述的技术方案可以看出，相比于上一个实施例，本实施例增加了序列标注模型，用以得到目标文本的分词结果、词性标注结果和命名实体结果，通过训练后的序列标注模型能够更好地获取目标文本的分词结果、词性标注结果和命名实体结果。

下面将参照图2，以一个具体场景下的例子，对本申请进行说明。

如图2所示，以“滴当应用被网信办勒令下架”为目标文本，并将此目标文本通过序列标注模型的输入层输入到序列标注模型中。则序列标注模型的输出层输出的结果如图2所示，可以用BIO方式输出目标分析结果。

输出层输出的结果的第一行可为分词结果，如图2所示可以用B表示词语的第一个字，可以用I表示词语的第二个字或第三个字。

则分析此目标文本后可得其分词结果为：“滴当”、“应用”、“被”、“网信办”、“勒令”、“下架”。

输出层输出的结果的第二行可为词性标注结果，如图所示可以用分词结果和词性表示方式组成每一个字的词性标注。

如图2所示，可以用nz表示专有名词，可以用n表示非专有名词，可以用p表示介词，可以用v表示动词。

则分析此目标文本后可得其词性标注结果为“专有名词”、“名词”、“介词”、“专业名词”、“动词”、“动词”。

输出层输出的结果的第三行可为命名实体结果，如图所示可以用分词结果和org组成每一个字的命名实体标注，也可以直接用O进行命名实体标注。

其中，连续地用分词结果和org组成的命名实体标注表示这几个连续的字组成一个命名实体，而直接用O进行命名实体标注表示这个词并不是命名实体。

则分析此目标文本后可得其命名实体识别结果为“滴当应用”、“被”、“网信办”、“勒令”、“下架”。

通过上述技术方案，可以发现，本申请通过序列标注模型，对目标文本“滴当应用被网信办勒令下架”进行分析，得到了该目标文本的分词结果、词性标注结果，命名实体结果，且这三个结果以BIO方式进行标注，清晰明了，便于后续对这三个结果进行处理。

在本申请的一些实施例中，对步骤S120、对所述分词结果进行依存句法分析，得到句法树的过程，进行详细描述。

具体地，可以采用依存句法分类器，对所述分词结果进行依存句法分析，得到句法树。

其中，所述依存句法分类器以文本信息为训练样本，以所述文本信息的句法树为样本标签训练得到。

依存句法分类器训练后，可以判断每一个分词结果指向其他分词结果的有向边的可能性，即，可以判断分词结果之间的依存关系。

由上述的技术方案可以看出，相比于上一个实施例，本实施例增加了依存句法分类器，用以进行分词结果的依存句法分析。通过训练后的依存句法分类器可以更好地将分词结果解析成句法树。

在本申请的一些实施例中，对步骤S130、根据所述句法树和所述词性标注结果，识别触发词，得到触发词列表的过程，进行详细描述，步骤如下：

S1、在所述句法树中，找到依存关系为核心关系的词语，并将其写入触发词列表中。

具体地，一个句法树中有且仅有一个根节点，故依存关系为核心关系的词语有且仅有一个。

可以将该依存关系为核心关系的词语存入触发词列表中，作为触发词。

进一步地，此处可以确认触发词列表中的触发词数目，若该触发词列表中不含触发词或触发词数目超过了一个，则确定上述步骤S120中得到的句法树存在问题，需要重新回到步骤S120，得到一个新的句法树，在新的句法树中，进行本步骤。

S2、根据所述词性标注结果，判断所述句法树中依存关系为动宾关系的词语是否为动词，若是，执行下述步骤S3，若否，执行下述步骤S4。

具体地，在一些实施例中，宾语也可能是触发词。因此，需要判断动宾关系中的宾语是否是触发词。

S3、将其写入触发词列表中。

S4、针对触发词列表中的每一触发词，在所述句法树中，查找与所述触发词具备并列关系的词语，将其写入触发词列表。

具体地，可以查找触发词列表中每一触发词的并列词语，并将该词语写入触发词列表中。

一般地，可以认为与触发词存在并列关系的词语亦为触发词。

S5、以查找到的词语作为触发词，返回执步骤S4，直至触发词列表中触发词的数目保持不变为止。

具体地，可以重复执行查找与所述触发词具备并列关系的词语，将其写入触发词列表的步骤，直至触发词列表中触发词的数目保持不变。

当触发词列表中触发词的数目保持不变可以确定已得到所有的触发词。

其中，还可以对触发词列表中的触发词进行检查，若触发词列表中的触发词不符合预设的规则，即，将明显不可能是触发词的字词作为了触发词，则返回步骤S120，得到一个新的句法树，在新的句法树中，进行本实施例中的步骤S1。

由上述的技术方案可以看出，相比于上一个实施例，本实施例提供了一种根据句法树中的核心关系、并列关系和动宾关系以及词性标注结果，识别触发词，由触发词组成触发词列表的方法。可见，能够根据依存关系和词性标注结果，进一步地确定目标文本的触发词及触发词列表，从而得到目标文本的事件抽取结果。

在本申请的一些实施例中，对步骤S140、根据所述触发词列表、所述句法树和所述命名实体结果，得到论元及论元角色的过程进行详细说明，步骤如下：

S1、针对触发词列表中的每一触发词，在所述句法树中，查找是否存在与所述触发词具备动宾关系或主谓关系的词语。

具体地，事件论元指的是与事件有关的元素，通常情况下事件论元是实体，在本申请中，可以将触发词的主语及宾语确定为触发词的论元。

可以按顺序在触发词列表中选取触发词，再在句法树中寻找与该触发词具备动宾关系或主谓关系词语。

触发词列表中的每一触发词皆会在句法树中寻找与该触发词具备动宾关系或主谓关系词语。

S2、若存在与所述触发词具备动宾关系的第一词语，则将所述第一词语与其在所述句法树中具备定中关系的词语合并为目标第一词语。

具体地，由于句法树是根据分词结果所构建的，因此，根据句法树中的动宾关系确定所述触发词的第一词语时，可能得到的第一词语不够完整，故可以通过句法树中的定中关系确定所述触发词完整的第一词语。

S3、将所述目标第一词语与其在句法树中具备并列关系的词语合并为所述触发词的宾语，并将所述触发词与所述宾语组成一个二元组。

由于句法树是根据分词结果所构建的，因此需要通过句法树中的并列关系确定所述触发词真正的宾语。

所述二元组的格式可以为(xx，yy)。

其中，二元组中的第一个元素可以为宾语，二元组中的第二个元素可以为宾语所对应的所述触发词。

S4、若存在与所述触发词具备主谓关系的第二词语，则将所述第二词语与其在所述句法树中具备定中关系的词语合并为目标第二词语。

具体地，由于句法树是根据分词结果所构建的，因此，根据句法树中的主谓关系确定所述触发词的第二词语时，可能得到的第二词语不够完整，故可以通过句法树中的定中关系确定所述触发词的完整的第二词语。

S5、将所述目标第二词语与其在句法树中具备并列关系的词语合并为所述触发词的主语，并将所述触发词与所述主语组成一个二元组。

所述二元组的格式可以为(xx，yy)。

其中，二元组中的第一个元素可以为主语，二元组中的第二个元素可以为主语所对应的所述触发词。

S6、若不存在与所述触发词具备动宾关系的第一词语，或具备主谓关系的第二词语，则查找是否存在与所述触发词具备并列关系的第一目标触发词。

具体地，若所述触发词缺失主语或宾语，则可以查找与所述触发词具备并列关系的目标触发词，从而获取所述触发词缺失的主语或宾语。

S7、若存在所述第一目标触发词，则将所述第一目标触发词所在的二元组中的其他词语与所述触发词组成二元组。

具体地，若该缺失主语或宾语的触发词，存在与其具备并列关系的第一目标触发词，则可以通过第一目标触发词补全缺失的主语或宾语。

S8、若不存在所述第一目标触发词，则根据所述句法树的动宾关系，查找第二目标触发词，所述第二目标触发词为所述触发词的动词。

具体地，若该缺失主语或宾语的触发词，不存在与其具备并列关系的第一目标触发词，则可以查找与第二目标触发词，所述第二目标触发词与所述触发词之间具备动宾关系。

S9、若存在所述第二目标触发词，则将所述第二目标触发词所在的二元组中的其他词语与所述触发词组成二元组。

具体地，若存在第二目标触发词与该缺失主语或宾语的触发词具备动宾关系，则可以通过第二目标触发词补全缺失的主语或宾语。

S10、将组成的二元组与所述命名实体结果进行对齐，得到对齐后的二元组，对齐后的二元组中的主语或宾语作为对应触发词的论元。

具体地，触发词的主语或宾语，需要对齐所述命名实体结果。

将所述二元组中的主语或宾语与所述命名实体中词语进行匹配，并将主语或宾语与其匹配的词语进行对齐，将对齐后的主语或宾语作为对应触发词的论元。

S11、确定所述对齐后的二元组中的主语和宾语在对应触发词中的论元角色。

具体地，可以确定所述触发词对应论元的论元角色。

由上述的技术方案可以看出，相比于上一个实施例，本实施例增加了根据句法树中的动宾关系、并列关系、定中关系和主谓关系以及命名实体结果确定触发词对应的论元及论元角色。可见，能够根据依存关系和命名实体结果，进一步地确定目标文本触发词对应的论元及论元角色，从而得到目标文本的事件抽取结果。

上述实施例中介绍了步骤S140的一种可选实现方式，除此之外，本申请实施例中进一步提供了步骤S140的另一种可选实现方式，具体地，在前述步骤S1-S11的基础上，本实施例中可以进一步包括如下步骤：

S12、对于所述命名实体结果中的时间实体，若不存在于组成的二元组中，则根据所述句法树中的依存关系，将所述时间实体与所述触发词列表中的触发词进行匹配。

具体地，可以匹配未组成二元组的时间实体与目标文本中距离最近的触发词。

然后，再根据句法树中的并列关系，查找与所述触发词具备并列关系的触发词。

随后，将时间实体与具备并列关系的触发词进行匹配。

S13、将所述时间实体作为所述触发词的论元。

具体地，目标文本中的时间实体可以成为事件论元。

与所述时间实体匹配的触发词，其论元都包含所述时间实体。

S14、将所述时间实体的角色定义为事件时间。

具体地，将所述时间实体的论元角色定义为事件时间。

由上述的技术方案可以看出，相比于上一个实施例，本实施例增加了根据句法树中的并列关系将触发词与命名实体中的时间实体进行匹配，将时间实体作为对应触发词的论元，该论元的论元角色为事件时间，从而能够更好地判断触发词对应的论元及论元角色。

在本申请的一些实施例中，进一步提供了步骤S140的再一种可选实现方式，具体地，在前述步骤S1-S11的基础上，或者是在前述步骤S1-S14的基础上，本实施例中可以进一步包括如下步骤：

S15、根据所述句法树，将不存在于二元组中的每一命名实体结果与所述触发词列表中的触发词进行匹配。

具体地，可以查询与所述命名实体结果中的词语匹配的触发词。

首先，可以匹配未组成二元组中的每一命名实体结果与目标文本中距离最近的触发词。

随后，再根据句法树中的并列关系，查找与所述触发词具备并列关系的触发词。

最后，将所述命名实体结果与具备并列关系的触发词进行匹配。

S16、将所述命名实体结果作为所述触发词的论元。

具体地，可以让每一个命名实体结果都能够作为对应触发词的论元。

与所述命名实体结果匹配的触发词，其论元都包含所述命名实体结果。

S17、根据预设的分类器或词向量，确定所述命名实体结果的论元角色。

具体地，所述分类器和词向量以命名实体结果为训练样本，以命名实体结果对应的论元角色为样本标签训练得到。

将所述命名实体结果输入分类器或词向量，即可得到每一命名实体结果对应的论元角色。由上述的技术方案可以看出，相比于上一个实施例，本实施例增加了根据句法树中的并列关系将不存在于二元组中的每一命名实体结果与所述触发词列表中的触发词进行匹配，将不存在于二元组中的每一命名实体结果作为对应触发词的论元，再确定该论元的论元角色，从而能够更好地判断触发词对应的论元及论元角色。

进一步地，在一些实施例中，步骤S140中所述论元角色可以包括主体、客体及参与者。

下面将以一个具体场景下的例子，对本申请进行说明。

以“滴当应用被网信办勒令下架”为目标文本，则分析此目标文本后可得其分词结果为：“滴当”、“应用”、“被”、“网信办”、“勒令”、“下架”。

接下来就可以对该分词结果进行依存句法分析，得到此目标文本的句法树。本申请为了便于理解各词之间的逻辑关系，以三元组的形式展示所述依存句法分析结果即所述句法树，该三元组由两个存在依存关系的分词结果组成，且包含了两个词之间的依存关系，其中第一个词为句法树中的有向边所指向的词语，即，以三元组的形式展示句法树。

该目标文本的依存句法分析结果为(滴滴，应用，定中关系)、(应用，勒令，前置宾语)、(被，勒令，状中结构)、(网信办，被，介宾关系)、(勒令，0，核心关系)、(下架，勒令，动宾关系)。

根据此句法树和和该词性标注结果，识别触发词为“勒令”、“下架”，得到触发词列表由“勒令”及“下架”组成。

根据所述触发词列表、所述句法树和所述命名实体结果，得到“勒令”和“下架”对应的论元皆为“滴当应用”和“网信办”。

“勒令”对应的“滴当应用”的论元角色为客体，“勒令”对应的“网信办”的论元角色为主体。

而“下架”对应的“滴当应用”的论元角色为主体，“下架”对应的“网信办”的论元角色为参与者。

可以确定触发词列表中的“勒令”的事件类型为“勒令”，而“下架”的事件类型为“停止销售”。

如此，通过本申请就可以完成该目标文本的事件抽取。

在本申请的一些实施例中，对步骤S150、根据所述触发词列表，确定事件类型的过程进行详细说明，步骤如下：

S1、将触发词列表中的每一触发词，输入词向量模型，得到每一触发词对应的词向量，所述词向量模型，以词语为训练样本，以所述词语的词向量为样本标签训练得到。

具体地，将触发词列表中的每一触发词都转变为词向量，以供后续步骤进行计算。

S2、获取事件类型表。

具体地，首先，可以收集多种触发词及其对应的事件类型。

其次，可以在本地内存中，每一种事件类型都建立对应的事件类型表，可将对应事件类型的触发词都写入事件类型表中。

随后，可计算每一事件类型表中触发词的平均词向量，并以事件类型及平均词向量命名所述事件类型表。

S3、将每一词向量与每一已知事件类型的平均词向量，进行相似度计算，得到每一触发词与每一已知事件类型的相似度。

具体地，当得到目标文本对应的词向量后，可以将每一词向量都与每一事件类型表的平均词向量进行相似度计算，从而得到每一触发词与每一已知事件类型的相似度。

S4、将每一触发词对应的各个相似度分别与预设的阈值作比较。

具体地，可以将阈值设定为0.8。

然后，可以将每一触发词对应的各个相似度分别与0.8作比较。

S5、若触发词对应的相似度中存在一个相似度超过所述阈值，则将所述相似度作为目标相似度。

具体地，当将阈值设定为0.8后，若触发词对应的相似度中存在一个相似度超过0.8，则将所述相似度作为目标相似度。

S6、将与所述目标相似度对应的事件类型作为，目标相似度对应的触发词的事件类型。

具体地，将与所述目标相似度对应的事件类型作为所述触发词的事件类型。

示例如，若经过相似度计算，得知“下架”与事件类型“停止销售”的相似度为0.9超过了预设的阈值0.8，则该目标相似度即为0.9，将“停止销售”作为“下架”的事件类型。

S7、将所述对应的触发词写入所述对应的事件类型表中，并更新所述事件类型表的平均词向量。

具体地，若事件类型表中不存在所述对应的触发词，即将所述对应的触发词写入所述对应的事件类型表中，并重新计算所述事件类型表的平均词向量，以事件类型及此处计算得到的平均词向量命名所述事件类型表。

若经过相似度计算，得知“下架”与事件类型“停止销售”的相似度为0.9超过了预设的阈值0.8，则该目标相似度即为0.9，将“停止销售”作为“下架”的事件类型。

S8、若触发词中各个相似度都低于所述阈值，则将该触发词作为一个新的事件类型，并建立对应的事件类型表。

具体地，若触发词中各个相似度都低于所述阈值，则在已知的事件类型中没有与所述触发词匹配的，则可以将所述触发词作为一个新的事件类型，并建立与之对应的事件类型表，该事件类型表以所述触发词及其对应的词向量命名。

由上述的技术方案可以看出，相比于上一个实施例，本实施例提供了一种通过相似度确定触发词事件类型的方式，具体方式为计算触发词与已知事件类型的相似度，并根据相似度确定触发词的事件类型。可见，通过上述步骤可以很好地确定触发词的事件类型，从而得到目标文本的事件抽取结果。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。本申请的各个实施例之间可以相互结合。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种事件抽取方法，其特征在于，包括：

对所述分词结果进行依存句法分析，得到句法树；

根据所述触发词列表，确定事件类型；

所述根据所述触发词列表、所述句法树和所述命名实体结果，得到论元及论元角色，包括：

2.根据权利要求1所述的方法，其特征在于，所述对目标文本进行分析，得到目标文本对应的分词结果、词性标注结果和命名实体结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述序列标注模型，包括：

输入层，输入所述目标文本；

预训练层，对所述编码结果进行处理，得到预训练结果；

条件随机场，对所述预训练结果进行分析，得到分析结果；

4.根据权利要求1所述的方法，其特征在于，所述根据所述句法树和所述词性标注结果，识别触发词，得到触发词列表，包括：

若是动词，则将其写入触发词列表中；

5.根据权利要求1所述的方法，其特征在于，所述对所述分词结果进行依存句法分析，得到句法树，包括：

6.根据权利要求1所述的方法，其特征在于，在确定所述对齐后的二元组中的主语和宾语在对应触发词中的论元角色之后，还包括：

将所述时间实体作为最近的触发词的论元；

将所述时间实体的论元角色定义为事件时间。

7.根据权利要求1所述的方法，其特征在于，在确定所述对齐后的二元组中的主语和宾语在对应触发词中的论元角色之后，还包括：

将所述命名实体结果作为所述触发词的论元；

8.根据权利要求1所述的方法，其特征在于，所述根据所述触发词列表，确定事件类型，包括：

获取事件类型表；

将每一触发词对应的各个相似度分别与预设的阈值作比较；

9.根据权利要求1-8任一项所述的方法，其特征在于，所述论元角色，包括以下任意一种：主体、客体、参与者。