CN113326371A

CN113326371A - 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法

Info

Publication number: CN113326371A
Application number: CN202110480675.0A
Authority: CN
Inventors: 李书棋; 高阳
Original assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Current assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-31
Anticipated expiration: 2041-04-30
Also published as: CN113326371B

Abstract

本发明提供一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，属于计算机技术领域。方法使用综合知识辅助模型进行判断，通过引入海量文本预训练而成，包含了大量语义语法知识信息的预训练语言模型作为事件抽取模型的网络结构单元，并使用混合抗噪声干扰的远程监督特征的模型算法，加入圆形约束条件下的梯度方向对抗干扰训练，该方法不仅能表示更加丰富的文本信息，同时也能在引入远程监督特征时，通过对抗干扰训练，增加模型对噪声误差的抵抗能力。

Description

一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法

技术领域

本发明涉及一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，特别是涉及计算机数据处理技术领域。

背景技术

随着互联网时代下信息化建设的不断深化，海量互联网信息呈现出爆发式的增长，如何利用互联网信息辅助行业决策的制定，成为企业甚至政府国家当下关注的重点。来自互联网的信息往往以文字的形式出现，通常来自新闻文稿、论坛回复等渠道，一般呈现出无结构、多冗余的特性，需要加以阅读理解定位到文字中的关键信息，过滤无关内容。事件抽取即是将非机构化文本的数据内容以结构化的形式进行呈现，将文字中的表达关键意图以事件为单位进行提取，将无结构的文字信息转换为机构化的事件信息，进而用于后续的趋势分析、事理知识图谱建立、舆情消息预警等一系列工作之中，是信息提取工程中重要的一环。

传统的事件提取往往依赖于人工的全面参与，面对海量的互联网资讯信息，传统的事件分析借助人工在庞大的文章报告中阅读查找相关信息数据，并进行整理记录,需要消耗大量人力资源。为解决信息结构化的过程中消耗大量人力的问题，近年来提出使用机器学习的方式对事件模式进行识别提取。机器学习的方式通过识别文字中的事件模式，将符合该模式的文本片段以结构化的方式进行提取，能够实现批量化的机器文本处理，大大改善了人工阅读提取文字结构化信息中的效率问题。但传统机器学习事件模式模板的制定依旧需要依赖领域内专家的知识，借助深度学习通过标注过的数据，自动学习相应的事件模式特征，成为了近年来事件结构化抽取的新方向。考虑到互联网信息庞大，内容种类复杂繁多，提高深度学习模型在不同事件间的迁移和泛化能力，成为了互联网事件信息抽取的一个难题。通常做法是使用远程监督的方式，引入外部的知识辅助模型的预测。远程监督算法假设：对于一个已有的知识图谱中的一个结构化事件，假设外部知识库中任何包含其中实体的句子，在一定程度上都反映了这种关系。基于这个假设，远程监督算法可以基于一个标注好的小型知识图谱，给外部文档库中的句子标注关系标签，相当于做了样本的自动标注，因此是一种半监督的算法。但远程监督除了带来外部的知识信息外，同时也会带来错误的指导信息，引入了噪声的干扰影响模型的判断的准确性。RNN和CNN在文本表示能力上存在的不足也影响了事件的预测提取。因此，研究如何使用表达能力更强的神经网络模型和使用外部知识辅助深度模型进行事件结构化抽取，并同时减少误差噪声干扰是需要考虑的问题。

发明内容

发明目的：一个目的是提出一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，以解决现有技术存在的上述问题，丰富文本信息的同时，通过对抗干扰训练，增加模型对噪声误差的抵抗能力。

技术方案：第一方面，提出了一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，该方法包括如下步骤：

步骤1、训练数据语料采集，通过爬虫获取的互联网文本数据，将文本形式的数据通过爬虫以.txt文件形式进行存储。

步骤2、对标注数据进行预处理操作，包括去除html标签和特殊符号，将文本以句子或段落的形式进行分割为短文本。

步骤3、根据事件定义对文本存在事件的事件触发词、主体、客体、时间、地点、事件类型进行标注，并将标注的数据补充加入远程监督知识库，完成数据的标注；将标注后的数据和远程监督知识库进行匹配，将匹配成功的触发词加入该样本的远程监督信息中，并按照7：1：2的比例分为训练集、验证集和测试集。

步骤4、对事件抽取的事件检测和事件参与元素提取两个阶段分别进行模型的构建。

步骤5、使用训练数据进行事件抽取模型的训练，并通过验证数据集和测试数据集评估训练的好坏，通过多轮的迭代，选择表现最优的模型进行使用。

步骤6、使用训练好的模型对新的无标注互联网文本数据进行事件的预测和提取，对新的文本在经过数据预处理清洗后，先将其与远程监督知识库进行匹配，将同时在远程知识库和新的待预测文本中出现的触发词，加入到文本的远程特征当中，输入模型预测事件的触发类型和相关的事件参与元素。

在第一方面的一些可实现方式中，所述事件抽取模型的构建具体步骤为：

通过自注意力机制进行语言建模，使用多头注意力捕捉文本中多角度的特征信息；

通过一个双层的神经网络FFN进行特征转换提取，采用ReLU做为激活函数层，并使用层归一化进行特征归一化处理；

利用残差连接的方式结合预训练模型的各个层，通过循环迭代，得到预训练模型提取的特征；

将远程监督触发词出现的位置使用该触发词在远程监督库中的类型编号进行标注，得到一个离散的序列特征，通过远程监督嵌入层，映射到低维空间；

将预训练模型提取的特征和远程监督特征进行拼接；

在远程监督嵌入层进行学习和参数更新的过程中，加入梯度方向的扰动，计算模型反向传播在远程监督特征嵌入层的梯度；

保留远程监督特征嵌入层原始参数，使用得到的扰动步长添加对抗扰动，再重新进行一次前向和反向传播，得到新的梯度；

恢复远程监督特征嵌入层原始参数，使用添加扰动后的新梯度进行模型整体参数更新；

重复多次训练过程，选取结果最好的模型进行使用；

将新的互联网文本数据通过预处理，输入模型；

预测是否出现事件，检测出现事件时，提取结构化事件元素。

有益效果：本发明提出了一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，通过结合预训练语言模型与远程监督信息进行自动事件结构化抽取，并通过加入扰动对抗训练的方式，在引入外部知识提高模型效果的同时，有效缓解远程监督带来的误差噪声信息，提高了事件抽取的效果。综合知识辅助模型进行判断，通过引入海量文本预训练而成，包含了大量语义语法知识信息的预训练语言模型作为事件抽取模型的网络结构单元，并使用混合抗噪声干扰的远程监督特征的模型算法，该方法不仅能表示更加丰富的文本信息，同时也能在引入远程监督特征时，通过对抗干扰训练，增加模型对噪声误差的抵抗能力。

附图说明

图1是一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法模型结构图。

图2是一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法注意力机制特征提取示意图。

图3是一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法远程监督特征层结构图。

图4是一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法实验效果图。

图5是一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法加入圆形约束的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，本发明提出了一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，该方法包括如下步骤：

具体的，建立一种结合预训练模型和远程监督的事件抽取模型，如图1所示，具体过程为：首先使用基于海量文本训练的预训练模型结构对文本进行编码，如图2所示，通过自注意力机制进行语言建模：

式中，Q、K、V为注意力的计算矩阵，由输入数据与对应的参数通过矩阵运算而来；

表示文本经过嵌入矩阵压缩后的文本向量表示维度。

其次，使用多头注意力捕捉文本中多角度的特征信息为：

式中，

表示线性变换矩阵，参与到模型训练参数更新之中；其中：

式中，

表示Query（询问）向量的变换映射矩阵；

表示Key（键）向量的变换映射矩阵；

表示Value（值）x向量的变换映射矩阵；

再次，通过一个双层的神经网络FFN进行特征转换提取，采用ReLU做为激活函数层：

并使用层归一化进行特征归一化处理：

其中，

表示前馈网络层的中第一个全连接网络的计算参数；

表示前馈网络层中第二个全连接网络的计算参数；表示该样本每一个词位置表示向量的平均值，

表示该样本每一个词位置表示向量的方差，

为一个可学习的权值参数在；

为防止发生除零错误的一个较小数值；

表示Element-wise Product即逐位置进行相乘。

从次，利用残差连接的方式结合预训练模型的各个层：

X表示输入的变量，相当于跨层相加；

表示该层网络的原始输入；y则为网络层输出特征，通过以上流程叠加多次，得到预训练模型提取的特征。

最后，将预训练模型提取的特征和远程监督特征进行拼接，将远程监督触发词出现的位置使用该触发词在远程监督库中所属的类型编号进行标注，得到一个离散的序列特征，通过远程监督嵌入层，映射到低维空间，如图3所示，将其和预训练提取特征拼接送入分类器进行事件预测，在每个字的位置进行二分类预测是否为触发词。

在进一步的实施例中，所述事件抽取模型的构建具体步骤为：

通过自注意力机制进行语言建模，使用多头注意力捕捉文本中多角度的特征信息。

通过一个双层的神经网络FFN进行特征转换提取，采用ReLU做为激活函数层，并使用层归一化进行特征归一化处理。

利用残差连接的方式结合预训练模型的各个层，通过循环迭代，，得到预训练模型提取的特征。

将远程监督触发词出现的位置使用该触发词在远程监督库中的类型编号进行标注，得到一个离散的序列特征，通过远程监督嵌入层，映射到低维空间。

将预训练模型提取的特征和远程监督特征进行拼接。

在远程监督嵌入层进行学习和参数更新的过程中，加入梯度方向的扰动，计算模型反向传播在远程监督特征嵌入层的梯度。

保留远程监督特征嵌入层原始参数，使用得到的扰动步长添加对抗扰动，再重新进行一次前向和反向传播，得到新的梯度。

恢复远程监督特征嵌入层原始参数，使用添加扰动后的新梯度进行模型整体参数更新。

重复多次训练过程，选取结果最好的模型进行使用。

将新的互联网文本数据通过预处理，输入模型。

在进一步的实施例中，为缓解远程监督带来的错误触发词信息，本专利中采用对抗学习的策略，在远程监督嵌入层进行学习和参数更新的过程中，采用对抗学习的方法加入梯度方向的扰动。提高模型的抗噪声干扰能力，具体如下：

计算模型反向传播在远程监督特征嵌入层的梯度：

通过球面映射的方式阻止扰动偏移约束内的最优点，设置扰动半径

，表示扰动的约束范围大小，得到扰动步长：

其中，

为扰动的约束空间，

为小步的步长。

事件元素抽取网络结构与事件预测相似，仅去除远程监督特征嵌入层，并在输出层对每种类型元素分别进行预测。通过测试证明，在准确率、召回率和f1分数上，本方法都优于其它几种机器学习的事件抽取方法，如图4所示。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，其特征在于，包括如下步骤：

步骤1、训练数据语料采集，通过爬虫获取的互联网文本数据，将文本形式的数据通过爬虫以.txt文件形式进行存储；

步骤2、对标注数据进行预处理操作；

步骤3、根据事件定义对文本进行标注，并将标注的数据补充加入远程监督知识库，完成数据的标注，并按照7：1：2的比例分为训练集、验证集和测试集；

步骤4、对事件抽取的事件检测和事件参与元素提取两个阶段分别进行模型的构建；

步骤5、使用训练数据进行事件抽取模型的训练，并通过验证数据集和测试数据集评估训练的好坏，通过多轮的迭代，选择表现最优的模型进行使用；

2.根据权利要求1所述的一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，所述事件抽取模型的构建具体步骤为：

将预训练模型提取的特征和远程监督特征进行拼接；

重复多次训练过程，选取结果最优的模型进行使用；

将新的互联网文本数据通过预处理，输入模型；

3.根据权利要求1所述的一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，所述预处理操作包括去除html标签和特殊符号，将文本以句子或段落的形式进行分割为短文本。

4.根据权利要求1所述的一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，所述步骤3进一步为：根据事件定义对文本存在事件的事件触发词、主体、客体、时间、地点、事件类型进行标注，并将标注的数据补充加入远程监督知识库，完成数据的标注；将标注后的数据和远程监督知识库进行匹配，将匹配成功的触发词加入当前样本的远程监督信息中，并按照7：1：2的比例分为训练集、验证集和测试集。