CN111475617B

CN111475617B - 事件主体抽取方法、装置及存储介质

Info

Publication number: CN111475617B
Application number: CN202010240352.XA
Authority: CN
Inventors: 刘屹; 张蓓; 黄晨; 徐楠; 万正勇; 沈志勇; 高宏
Original assignee: China Merchants Finance Technology Co Ltd
Current assignee: China Merchants Finance Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2023-04-18
Anticipated expiration: 2040-03-30
Also published as: CN111475617A

Abstract

本发明揭露了一种事件主体抽取方法，该方法包括：接收用户输入的待问询语料及问询事件类型；将所述待问询语料及所述问询事件类型输入事件主体抽取模型的第一结构中，得到所述待问询语料对应的字向量；为所述待问询语料标注触发词编号，并根据所述触发词编号生成所述待问询语料中各字对应的触发词向量；对所述待问询语料中各字的字向量及触发词向量进行拼接，生成所述待问询语料对应的综合向量；将所述综合向量输入所述事件主体抽取模型的第二结构中，得到所述待问询语料对应的预测序列；根据所述预测序列生成所述待问询语料对应的事件主体。本发明还揭露了一种电子装置及计算机存储介质。利用本发明，可提高事件主体抽取的准确性及效率。

Description

事件主体抽取方法、装置及存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种事件主体抽取方法、电子装置及计算机可读存储介质。

背景技术

“事件识别”是舆情监控领域和金融领域的重要任务之一，“事件”在金融领域是投资分析，资产管理的重要决策参考。“事件识别”的复杂性在于事件类型和事件主体的判断，比如“公司A产品出现添加剂，其下属子公司B和公司C遭到了调查”，对于“产品出现问题”事件类型，该句中事件主体是“公司A”，而不是“公司B”或“公司C”，事件主体就是文本中发生特定事件类型的主体。

当前学术界和工业界通常采用pipeline的方式对事件主体进行抽取。具体来讲，首先对文本中出现的事件进行判断，基于事件类型的判断结果，随后，利用命名实体识别的方法抽取文本中出现的所有实体，最后，使用关系抽取的方法得到各个实体与所关注的事件之间的关系，从而得到最终的事件主体。

上述pipeline的方法存在以下三点不足之处：

1、各个子模型通常采用Bi-LSTM的方法得到文本中各字包含上下文关系的embedding，但Bi-LSTM对于长文本的理解能力较为不足；

2、模型复杂：整个过程可能需要三个顺序执行的复杂模型，耗时费力；

3、误差积累：由于pipeline模型具有顺序执行的性质，上一步的预测偏差会进一步影响到下一个步骤中，极大地降低了整体预测精度。

因此，如何实现快速准确抽取事件主体成为了亟待解决的问题。

发明内容

鉴于以上内容，本发明提供一种事件主体抽取方法、电子装置及计算机可读存储介质，其主要目的在于提高事件主体抽取的效率及准确性。

为实现上述目的，本发明提供一种事件主体抽取方法，该方法包括：

接收步骤，接收用户输入的待问询语料及问询事件类型；

字向量生成步骤，将所述待问询语料及所述问询事件类型输入预先训练好的事件主体抽取模型的第一结构中，得到所述待问询语料对应的字向量；

触发词向量生成步骤，根据所述问询事件类型确定所述待问询语料对应的触发词词表，根据所述触发词词表为所述待问询语料标注触发词编号，并根据所述触发词编号生成所述待问询语料中各字对应的触发词向量；

向量拼接步骤，对所述待问询语料中各字的字向量及触发词向量进行拼接，生成所述待问询语料对应的综合向量；

预测步骤，将所述待问询语料对应的综合向量输入所述事件主体抽取模型的第二结构中，得到所述待问询语料对应的预测序列；及

抽取步骤，从所述预测序列中抽取出目标信息，根据所述目标信息生成所述待问询语料对应的事件主体，并将所述事件主体反馈至所述用户。

此外，为实现上述目的，本发明还提供一种电子装置，该装置包括：存储器、处理器，所述存储器中存储有可在所述处理器上运行的事件主体抽取程序，所述事件主体抽取程序被所述处理器执行时可实现如上所述事件主体抽取方法中的任意步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括事件主体抽取程序，所述事件主体抽取程序被处理器执行时，可实现如上所述事件主体抽取方法中的任意步骤。

本发明提出的事件主体抽取方法、电子装置及计算机可读存储介质，通过在字向量中加入事件类型、触发词信息、相对位置等信息，从而避免了复杂的上游任务，仅通过一个模型即实现了事件主体的精确抽取；额外的特征embedding的加入进一步地提升了事件主体抽取模型的预测效果：event embedding的加入使模型对事件类型更加敏锐；Triggerembedding和position embedding的加入使模型更偏好与对应事件Trigger较近的主体。综上，通过提高提取的特征的全面性及准确性，为事件主体的精准抽取奠定基础。

附图说明

图1为本发明事件主体抽取方法较佳实施例的流程图；

图2为事件主体抽取模型较佳实施例的结构示意图；

图3为触发词向量/事件类型向量的生成步骤示意图；

图4为本发明电子装置较佳实施例的示意图；

图5为图4中事件主体抽取程序较佳实施例的程序模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种事件主体抽取方法。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

参照图1所示，为本发明事件主体抽取方法较佳实施例的流程图。

在本发明事件主体抽取方法一实施例中，该方法包括：步骤S1-步骤S6。

步骤S1，接收用户输入的待问询语料及问询事件类型；

步骤S2，将所述待问询语料及所述问询事件类型输入预先训练好的事件主体抽取模型的第一结构中，得到所述待问询语料对应的字向量；

本实施例中，以电子装置作为执行主体对方案进行说明。

参照图2所示，上述预先训练好的事件主体抽取模型包括：目标预训练语言模型+Transformer Encoder+Softmax+CRF。在本实施例中，上述第一结构为目标预训练语言模型：BERT(Bidirectional Encoder Representations from Transformers)模型，上述预先训练好的事件主体抽取模型为T-BERT模型。本实例通过一种基于BERT的T-BERT模型实现了文本中指定事件主体的准确抽取。

具体地，所述将所述待问询语料及所述问询事件类型输入预先训练好的事件主体抽取模型的第一结构，得到所述待问询语料对应的字向量，包括：

将所述待问询语料及所述问询事件类型转化为对应的数字id，拼接所述待问询语料及所述问询事件类型对应的数字id得到数字id串；及

将所述数字id串输入所述事件主体抽取模型的第一结构中，生成所述待问询语料对应的字向量。

电子装置接收到用户通过客户端输入的待问询语料及对应的问询事件类型后，通过查询字典对待问询语料及问询事件类型进行数组id转化，在拼接id串的过程中，中间***特殊符号以进行分割区分，其中，字段中包含每个字及每个字对应的数字id。得到拼接后的数字id串后输入BERT模型中，生成待问询语料对应的字向量word embedding。

步骤S3，根据所述问询事件类型确定所述待问询语料对应的触发词词表，根据所述触发词词表为所述待问询语料标注触发词编号，并根据所述触发词编号生成所述待问询语料中各字对应的触发词向量；

一般情况下，各类事件类型都有一些比较明显的触发词(Trigger)，例如，“评级下调”事件中，通常会出现‘评级’、‘级别’等字眼，这些词的出现通常就表明该文本中可能发生了‘评级下调’事件。因此，电子装置在接收到待问询语料及问询事件类型后，基于问询事件类型从预设的事件类型与触发词词表的映射数据中确定与当前问询事件类型对应的触发词词表，将待问询语料与确定的触发词词表进行比对，为与触发词词表匹配的字标注对应的触发词编号。需要说明的是，不同的编号表示不同的事件类型。在上述映射数据中，不同事件类型对应的触发词是预先确定的，一个触发词可能仅属于一种事件类型，也可能同属于多个不同的事件类型。

参照图3所示，在本实施例中，所述根据所述触发词编号生成所述待问询语料中各字对应的触发词向量，包括：

获取所述待问询语料中各字对应的触发词编号，根据所述触发词编号对所述待问询语料中各字进行one-hot编码得到one-hot向量；及

对得到的所述one-hot向量乘以一个可学习的映射矩阵得到一个预设维度(例如，12维)的向量，将该向量作为触发词向量Trigger embedding。

步骤S4，对所述待问询语料中各字的字向量及触发词向量进行拼接，生成所述待问询语料对应的综合向量；

可以理解的是，虽然各个字的word embedding中包含了丰富的词义、语义、上下文等信息，然而，通过预训练BERT层得到的word embedding并不含有对事件类型的判断信息，该信息的缺失可能导致文本中主体与事件的关系的误判，得到其他无关事件的主体。因此，为了提高事件主体抽取的准确性，将各个字Trigger embedding与word embedding进行拼接得到信息更完整的综合向量。

步骤S5，将所述待问询语料对应的综合向量输入所述事件主体抽取模型的第二结构中，得到所述待问询语料对应的预测序列；

上述事件主体抽取模型的第二结构为T-BERT中的Transformer encoder+Softmax+CRF。

上述预测序列包括待问询语料的文本及文本中各字对应的BIO标签。B标签用来标注事件主体的第一个字，I标签用来标注事件主体除开头外的其他字，O标签用来标注句子中非事件主体字。模型需要准确地预测文本中各字的标签，从而判别哪些词语是事件主体。

本实施例将拼接后的向量作为特征输入，选用Transformer+Softmax+CRF模型作为特征分类器进行标签预测。

本实施例中Transformer的核心部分是由多个堆叠的Multi-head attention层构成。Multi-head attention层(多头注意力机制)中包含了多个随机初始的并行self-attention head(自注意力)，在各个‘head’中，每个字所对应的embedding将会关注文本中与自己相关的内容，并加入这些相关度较高的信息形成新的embedding。各个‘head’会偏好不同的关注信息，因此，self-attention层会融合各不同偏好的‘head’信息，形成最终的embedding用于BIO标签分类。

本实施例中Transformer的基本参数如下表所示：

相较于传统文本处理常用的RNN等模型，本实施例采用的的Transformer有着更加强大的拟合能力和特征抽取能力，同时，能更好地解决了长文本依赖关系表达不足的问题。

由于Transformer已经具有强大的特征抽取能力，因此在模型的最后，本方案使用简单的Softmax分类器就可以完成标签预测。

可以理解的是，由于标签之间存在一定的依赖关系(例如，O标签之后不应该出现I，B之后通常紧接I等)，因此，为了提高标签预测的准确性，在其他实施例中，在T-BERT的最后拼接一个CRF层，其中，CRF是一种通过转移状态矩阵来添加序列标注规则的经典模型。在本案例所使用的BIO标注法中，CRF通过降低‘O’到‘I’等标签序列的概率，从而有效避免‘O’后面紧跟着‘I’，或者‘B’后面紧跟着‘O’这样的不可能存在的情况发生，从而进一步提升模型预测性能。

步骤S6，从所述预测序列中抽取出目标信息，根据所述目标信息生成所述待问询语料对应的事件主体，并将所述事件主体反馈至所述用户。

上述目标信息包括：BIO标签为“BI”对应的文本。

本实施例在生成事件主体之前，还需要对抽取的目标信息进行处理，例如，去重处理等。将经过处理后的目标信息作为待问询语料的事件主体进行输出。在其他实施例中，当无事件主体时，结果返回‘NaN’。

例如，如下表所示，在问询‘华融31亿元出售金亚光房产公司股债权天津国资整合提速百利电气(600468)变更实际控制人汇成教育副总经理辞职不持有公司股份’这句话中发生‘实控人股东变更’的主体是谁时，本模型可以精确地给出‘百利电气’的答案，并准确排除了‘金亚光房产公司’、‘天津国资’等其他无关主体。

为了进一步提高事件主体抽取的准确性，在其他实施例中，所述步骤S4还包括：

根据所述问询事件类型生成所述待问询语料对应的事件类型向量；及

将所述事件类型向量与所述综合向量进行拼接，得到所述待问询语料对应的新的综合向量。

参照图3所示，根据问询事件类型对所述待问询语料进行one-hot编码得到one-hot向量；其中，得到的one-hot向量的维度与预设的事件类型数量对应，例如，21类事件对应21维向量；将所述one-hot向量乘以一个可学习的映射矩阵，将得到的21维稀疏表示矩阵转换为一个预设维度(例如，12维)的向量，将该向量作为问询事件类型向量(eventembedding)；并将该向量拼接到每个字的word embedding中，得到拼接后的wordembedding。将21维向量转换为12维向量的目的是为了对向量进行降维，以减少数据计算量。降维后的目标维度(12维)可根据实际情况进行调整。

通过额外将事件类型信息event embedding加入到word embedding中，在一定程度上规避了信息缺失的问题，为提高事件主体抽取准确性奠定基础。

计算所述待问询语料中各字与触发词的相对位置，生成各字对应的位置向量；及

将所述位置向量与所述综合向量进行拼接，得到所述待问询语料对应的新的综合向量。

一般情况下，某一类事件的主体(实体)通常会在该类事件的Trigger附近出现，较少会出现在跨越一个或多个其它事件Trigger的位置。因此，计算每个字与Trigger的相对位置，得到位置向量position embedding，并将position embedding也拼接在各个wordembedding中，从而使模型能够更加倾向于选择离Trigger更近的实体作为输出结果。

在本实施例中，相对位置的计算公式为：

其中，pos表示字在文本中的绝对位置(1，2，3…)，i表示position embedding的第i个维度，例如，i＝20，i可根据实际情况进行调整，d_model为position embedding的总维度，c为常数，通常c＝10000，PE_(pos,2i)为第pos个位置的字的第2i维的值，PE_(pos,2i+1)为第pos个位置的字的第2i+1维的值。对于任何相隔k个单位的字之间，PEpos+k都可以表示为PEpos的一个线性方程。因此，cosine position embedding可以有效的表示字与字之间的相对位置关系。

将基于BERT生成的字向量拼接Trigger embedding、position embedding和eventembedding的向量作为特征输入，选用Transformer(encoding)+Softmax+CRF模型作为特征分类器进行标签预测。

例如，如下表所示，对比了加入特征embedding前后的预测效果，第一个例句中，‘被抓’是‘不能履职’事件的一个Trigger，而‘非吸’是‘涉嫌非法集资’事件的Trigger。显然，该句的主体应该是‘被抓’的主语‘中科新材’。同样，‘变更实际控制人’是‘变更实际控制人’事件的Trigger，因此，该文本的主体应该是‘变更实际控制人’附近的‘百利电气’。可以看到，在加入了额外的Trigger embedding信息后，模型能够倾向于在Trigger附近的实体。最后，表3对比了在加入和不加入事件Trigger时的主体提取的精确率P，召回率R和F1值，可以看到，加入了额外的Trigger embedding信息后，模型在精确率、召回率和F1指标上均有了较大提升。

指标	无额外信息	有额外信息
			P	0.9659	0.9715
R	0.9139	0.9155
			F1	0.9392	0.9426

在其他实施例中，所述预先确定的事件主体抽取模型的构建及训练步骤包括：步骤S01-步骤S03。

步骤S01，接收用户发出的模型构建指令，根据所述模型构建指令爬取预训练语料，利用所述预训练语料对预设的预训练语言模型进行预训练，得到目标预训练语言模型；

模型预训练是自然语言处理中的一个重要的预处理手段，它通过无监督的训练方法使深度神经网络模型在正式训练前进行‘预热’，从而能够更好地理解指定语料环境下的语义信息，并极大地提升神经网络在下游任务的训练及预测效果。

本实施例选用BERT(Bidirectional Encoder Representations fromTransformers)模型作为预训练语言模型进行数据预训练，BERT是一种由12层transformer堆叠而成的的深度学习网络框架，其主要通过预测被随机遮盖的预训练语料中的字(masked language model)、以及判断预训练语料中的文本是否为上下句关系(nextsentence prediction)完成预训练。BERT的‘深度’以及‘双向性’保证了其强大的预训练效果。

本实施例中的预训练语料为与事件主体抽取任务中训练语料相似性较高的金融领域语料。为了提升预训练效果，本实施例基于关键词搜索方法爬取预训练语料。具体地，爬取金融领域新闻文章语料的原则是：爬取的文本中至少包含一个或多个预设的事件触发词(文本中表明发生了某个事件的关键短语，事件触发词为预先设置的)，从而保证所爬取的金融语料均与事件主体抽取任务中所包含的事件类型具有相似性。

步骤S02，获取预先确定的训练语料，基于预设的标注规则对所述训练语料中的文本逐字标注标签以及触发词编号，得到标注后的训练语料。

上述训练语料中的每一条语料包括：文本及事件类型。上述标签为BIO标签。上述触发词编号指的是该触发词对应的事件类型编号，即事件类型id。

事件主体抽取模型对所述预训练语料中的文本进行标注的基本思路是对文本进行逐字标注。其中，第一列是原始文本，每个单独的字为一行，句与句之间通过空白行隔开，第二列是BIO标签，第三列是事件触发词(Trigger)的标签，例如，‘评级’就是‘评级调整’事件的关键词，1以上的不同整数对应着不同事件的关键词，0表示这个字不是事件Trigger。以“5万元苹果评级意外遭下调”这一文本为例，其对应的BIO标签依次为“OOOBIOOOOOOO”，在预设的事件类型编号中“评级下调”这一事件对应的编号为6，故触发词“评级”对应标注id“6”，其对应的触发词编号为“000006600000”。

在本实施例中，所述基于预设的标注规则对所述训练语料中的文本逐字标注标签以及触发词编号，包括：

获取预先确定的事件类型及触发词的映射数据；

对所述训练语料中的文本进行分词，并统计所述训练语料中的文本中各词的词频-反转文件频率；

基于所述词频-反转文件频率及所述映射数据分析各词是否为某一类事件类型的触发词，确定所述训练预料对应的各类事件类型对应的触发词表；及

利用字符串匹配的方法及所述触发词表对所述训练预料中的文本进行逐字标注，得到标注后的训练预料。

以词a为例，词a的词频-反转文件频率的计算公式为：

词a在事件类型A中的词频＝含词a的所有事件类型A的句子/所有事件类型A的句子

词a逆频率＝所有句子/含词a的所有句子

词频-反转文件频率＝词a在事件类型A中的词频*词a逆频率

若某个词在某一类事件类型的句子中出现频率较高，而在其他类型事件的句子中出现频率很低，则将这个词作为该事件类型的事件Trigger，重复上述步骤确定各事件类型对应的触发词表。

需要说明的是，当一个Trigger属于多种不同事件类型时，在多个不同事件类型对应的数据位上均进行标注。例如，关键词‘失联’同属于‘无法履职’和‘失联跑路’两个事件类型。在one-hot阶段，关键词‘失联’在‘无法履职’和‘失联跑路’两个数据位上的值都标为1，从而避免了事件冲突。

步骤S03，将所述标注后的训练语料划分为训练集和验证集，利用所述训练集对预设结构的事件主体抽取模型进行训练，利用所述验证集对训练后的事件主体抽取模型进行验证，当验证结果满足预设条件时，训练结束，确定目标事件主体抽取模型。

本实施例在模型训练过程中，将标注后的训练数据二八分为训练集和验证集。T-BERT模型的预训练BERT层参数由此前预训练好的参数进行初始化，transformer(encoding)、CRF的参数则以正态分布随机初始化。训练过程中通过计算预测“BIO”与真实‘BIO’标签的误差损失，从而反向迭代更新模型网络中的参数值，直至在训练集上的损失不再持续减小，同时验证集上的损失达到最低点(避免过拟合)为止。

需要说明的是，在模型训练过程中，输入的单个训练样本数据包含：经过数字转化及拼接后的描述文件、事件类型对应的数字id串及对应的BIO标签。

将拼接后的数字id串输入进预训练好的BERT模型后，会生成各字所对应的词嵌入(word embedding)向量。为了规避信息缺失的问题，在本实施例中，额外地将事件类型向量event embedding、触发词向量Trigger embedding、相对位置向量position embedding加入到word embedding中，得到拼接后的综合向量。具体地，触发词向量Trigger embedding、相对位置向量position embedding的生成步骤与上述实施例中大致相同，这里不作赘述。

传统的事件主体抽取需要分别用三个独立的深度神经网络模型进行事件抽取、命名实体识别和关系抽取任务，这种方案过于复杂且耗时，其实用性收到了极大地限制。同时，这种pipeline方法的预测精确度也存在着较大的瓶颈，上游的事件抽取以及主体抽取产生的预测误差，会直接影响到下游关系抽取任务的结果。相较于现有技术，上述实施例提出的事件主体抽取方法，通过在字向量中加入事件类型、触发词信息、相对位置等信息，从而避免了复杂的上游任务，仅通过一个模型即实现了事件主体的精确抽取；额外的特征embedding的加入进一步地提升了事件主体抽取模型的预测效果：event embedding的加入使模型对事件类型更加敏锐；Trigger embedding和position embedding的加入使模型更偏好与对应事件Trigger较近的主体。综上，通过提高提取的特征的全面性及准确性，为事件主体的精准抽取奠定基础。

本发明还提出一种电子装置。参照图4所示，为本发明电子装置较佳实施例的示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备，所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。

该电子装置1包括存储器11、处理器12及网络接口13。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备，例如该电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括该电子装置1的内部存储单元也包括外部存储设备。

存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据，例如，事件主体抽取程序10等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如，事件主体抽取程序10等。

网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接，例如，客户端(图中未标识)。电子装置1的组件11-13通过通信总线相互通信。

图4仅示出了具有组件11-13的电子装置1，本领域技术人员可以理解的是，图4示出的结构并不构成对电子装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。

可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

在图4所示的电子装置1实施例中，作为一种计算机存储介质的存储器11中存储事件主体抽取程序10的程序代码，处理器12执行事件主体抽取程序10的程序代码时，实现如下步骤：

步骤A1，接收用户输入的待问询语料及问询事件类型；

步骤A2，将所述待问询语料及所述问询事件类型输入预先训练好的事件主体抽取模型的第一结构中，得到所述待问询语料对应的字向量；

本实施例中，以电子装置1作为执行主体对方案进行说明。

参照图2所示，上述预先训练好的事件主体抽取模型包括：目标预训练语言模型+Transformer Encoder+Softmax+CRF。事件主体抽取模型的训练过程与上述方法实施例中大致相同，这里不作赘述。在本实施例中，上述第一结构为目标预训练语言模型：BERT(Bidirectional Encoder Representations from Transformers)模型，上述预先训练好的事件主体抽取模型为T-BERT模型。本实例通过一种基于BERT的T-BERT模型实现了文本中指定事件主体的准确抽取。

电子装置1接收到用户通过客户端输入的待问询语料及对应的问询事件类型后，通过查询字典对待问询语料及问询事件类型进行数组id转化，在拼接id串的过程中，中间***特殊符号以进行分割区分，其中，字段中包含每个字及每个字对应的数字id。得到拼接后的数字id串后输入BERT模型中，生成待问询语料对应的字向量word embedding。

步骤A3，根据所述问询事件类型确定所述待问询语料对应的触发词词表，根据所述触发词词表为所述待问询语料标注触发词编号，并根据所述触发词编号生成所述待问询语料中各字对应的触发词向量；

一般情况下，各类事件类型都有一些比较明显的触发词(Trigger)，电子装置1在接收到待问询语料及问询事件类型后，基于问询事件类型从预设的事件类型与触发词词表的映射数据中确定与当前问询事件类型对应的触发词词表，将待问询语料与确定的触发词词表进行比对，为与触发词词表匹配的字标注对应的触发词编号。需要说明的是，不同的编号表示不同的事件类型。在上述映射数据中，不同事件类型对应的触发词是预先确定的，一个触发词可能仅属于一种事件类型，也可能同属于多个不同的事件类型。

获取所述待问询语料中各字对应的触发词编号，根据所述触发词编号对所述待问询语料中各字进行one-hot编码；及

通过乘以一个可学习的映射矩阵得到一个预设维度(例如，12维)的向量，将该向量作为触发词向量Trigger embedding。

步骤A4，对所述待问询语料中各字的字向量及触发词向量进行拼接，生成所述待问询语料对应的综合向量；

步骤A5，将所述待问询语料对应的综合向量输入所述事件主体抽取模型的第二结构中，得到所述待问询语料对应的预测序列；

本实施例中Transformer的基本参数如下表所示：

步骤A6，从所述预测序列中抽取出目标信息，根据所述目标信息生成所述待问询语料对应的事件主体，并将所述事件主体反馈至所述用户。

上述目标信息包括：BIO标签为“BI”对应的文本。

为了进一步提高事件主体抽取的准确性，在其他实施例中，所述步骤A4还包括：

在本实施例中，相对位置的计算公式为：

上述实施例提出的电子装置，1.通过在字向量中加入事件类型、触发词信息、相对位置等信息，从而避免了复杂的上游任务，仅通过一个模型即实现了事件主体的精确抽取；2.额外的特征embedding的加入进一步地提升了事件主体抽取模型的预测效果：eventembedding的加入使模型对事件类型更加敏锐；Trigger embedding和position embedding的加入使模型更偏好与对应事件Trigger较近的主体。综上，通过提高提取的特征的全面性及准确性，为事件主体的精准抽取奠定基础。

可选地，在其他的实施例中，事件主体抽取程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器12所执行，以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

例如，参照图3所示，为图2中事件主体抽取程序10的程序模块示意图。

在所述事件主体抽取程序10一实施例中，事件主体抽取程序10包括：模块110-160，其中：

接收模块110，用于接收用户输入的待问询语料及问询事件类型；

字向量生成模块120，用于将所述待问询语料及所述问询事件类型输入预先训练好的事件主体抽取模型的第一结构中，得到所述待问询语料对应的字向量；

触发词向量生成模块130，用于根据所述问询事件类型确定所述待问询语料对应的触发词词表，根据所述触发词词表为所述待问询语料标注触发词编号，并根据所述触发词编号生成所述待问询语料中各字对应的触发词向量；

向量拼接模块140，用于对所述待问询语料中各字的字向量及触发词向量进行拼接，生成所述待问询语料对应的综合向量；

预测模块150，用于将所述待问询语料对应的综合向量输入所述事件主体抽取模型的第二结构中，得到所述待问询语料对应的预测序列；及

抽取模块160，用于从所述预测序列中抽取出目标信息，根据所述目标信息生成所述待问询语料对应的事件主体，并将所述事件主体反馈至所述用户。

所述模块110-160所实现的功能或操作步骤均与上文类似，此处不再详述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括事件主体抽取程序10，所述事件主体抽取程序10被处理器执行时实现如下操作：

接收步骤，接收用户输入的待问询语料及问询事件类型；

本发明之计算机可读存储介质的具体实施方式与上述事件主体抽取方法的具体实施方式大致相同，在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种事件主体抽取方法，适用于电子装置，其特征在于，该方法包括：

接收步骤，接收用户输入的待问询语料及问询事件类型；

字向量生成步骤，将所述待问询语料及所述问询事件类型输入预先训练好的事件主体抽取模型的第一结构中，得到所述待问询语料对应的字向量，包括：将所述待问询语料及所述问询事件类型转化为对应的数字id，拼接所述待问询语料及所述问询事件类型对应的数字id得到数字id串，及，将所述数字id串输入所述事件主体抽取模型的第一结构中，生成所述待问询语料对应的字向量；

向量拼接步骤，对所述待问询语料中各字的字向量及触发词向量进行拼接，生成所述待问询语料对应的第一综合向量；根据所述问询事件类型生成所述待问询语料对应的事件类型向量；将所述事件类型向量与所述第一综合向量进行拼接得到所述待问询语料对应的第二拼接综合向量；计算所述待问询语料中各字与触发词的相对位置，生成各字对应的位置向量；及，将所述位置向量与所述第二拼接综合向量进行拼接，得到所述待问询语料对应的第三拼接综合向量；

预测步骤，将所述第三拼接综合向量输入所述事件主体抽取模型的第二结构中，得到所述待问询语料对应的预测序列；及

抽取步骤，从所述预测序列中抽取出目标信息，根据所述目标信息生成所述待问询语料对应的事件主体，并将所述事件主体反馈至所述用户；

其中，所述预先训练好的事件主体抽取模型包括：目标预训练语言模型+TransformerEncoder+Softmax+CRF，所述目标预训练语言模型为BERT(Bidirectional EncoderRepresentations from Transformers)模型；所述事件主体抽取模型的第一结构包括BERT模型，所述事件主体抽取模型的第二结构包括Transformer Encoder+Softmax+CRF；

所述根据所述触发词编号生成所述待问询语料中各字对应的触发词向量，包括：获取所述待问询语料中各字对应的触发词编号，根据所述触发词编号对所述待问询语料中各字进行one-hot编码得到one-hot向量；及对得到的所述one-hot向量乘以一个可学习的映射矩阵得到一个预设维度的向量，将该向量作为触发词向量。

2.根据权利要求1所述的事件主体抽取方法，其特征在于，所述事件主体抽取模型的构建及训练步骤包括：

接收用户发出的模型构建指令，根据所述模型构建指令爬取预训练语料，利用所述预训练语料对预设的预训练语言模型进行预训练，得到目标预训练语言模型；

获取预先确定的训练语料，基于预设的标注规则对所述训练语料中的文本逐字标注标签以及触发词编号，得到标注后的训练语料；及

将所述标注后的训练语料划分为训练集和验证集，利用所述训练集对预设结构的事件主体抽取模型进行训练，利用所述验证集对训练后的事件主体抽取模型进行验证，当验证结果满足预设条件时，训练结束，确定目标事件主体抽取模型。

3.根据权利要求2所述的事件主体抽取方法，其特征在于，所述基于预设的标注规则对所述训练语料中的文本逐字标注标签以及触发词编号，包括：

获取预先确定的事件类型及触发词的映射数据；

基于所述词频-反转文件频率及所述映射数据分析各词是否为某一类事件类型的触发词，确定所述训练语料对应的各类事件类型对应的触发词表；及

利用字符串匹配的方法及所述触发词表对所述训练语料中的文本进行逐字标注，得到标注后的训练语料。

4.一种电子装置，其特征在于，该装置包括存储器及处理器，所述存储器中存储有可在所述处理器上运行的事件主体抽取程序，所述事件主体抽取程序被所述处理器执行时实现如权利要求1至3中任意一项所述的事件主体抽取方法的步骤。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有事件主体抽取程序，所述事件主体抽取程序被处理器执行时，实现如权利要求1至3中任意一项所述的事件主体抽取方法的步骤。