CN116991983B

CN116991983B - 一种面向公司资讯文本的事件抽取方法及***

Info

Publication number: CN116991983B
Application number: CN202311259460.1A
Authority: CN
Inventors: 李栓; 王笑; 朱健平; 那崇宁
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-02-02
Anticipated expiration: 2043-09-27
Also published as: CN116991983A

Abstract

本发明公开一种面向公司资讯文本的事件抽取方法及***，该发明在面向公司资讯文本的事件抽取任务中，面对噪声公司名对模型性能干扰的难题，提出一种新的标注规则，将噪声公司名纳入实体识别的标注体系中，并设定噪声公司名对应的事件类别；将需要同时抽取公司名字段和判定公司名对应事件类型的噪音难题转换为简单的分类问题，极大地缓解了模型的压力，降低了任务的难度；并构建一种公司名及事件类型的两阶段抽取模型，提高了模型抽取公司名字段和判定公司名对应事件类别的精度。

Description

一种面向公司资讯文本的事件抽取方法及***

技术领域

本发明涉及自然语言处理、金融两个交叉领域，具体是一种面向公司资讯文本的事件抽取方法及***。

背景技术

面向公司资讯文本的事件抽取的任务模式是：从给定资讯文本中抽取出某某公司(事件主体)发生了什么事(事件类型)；然而该任务给定的文本中常常存在噪声公司名，即该公司名字段在给定的文本中仅被提及或出现在文本中，而未发生任何事情，在该任务常用的标注体系中，该部分公司名是不被标注的，且面向该任务的模型结构也常常收到该部分噪声公司名的影响；目前，该任务的模型结构主要分为两种：1、两段式抽取，先抽取文本中的公司名字段，在判定该公司名在文本中发生了什么事情；该任务模式中公司名字段抽取时不仅需要准确抽取文本中的公司名字段，还要判断该公司名字段在上下文中是否发生了标注体系中设定的事件类型，使得模型识别和抽取的精度较低，尤其在少样本的情况下无法达到令人满意的应用性能；2、联合抽取，同时抽取文本中的公司名字段并判断该公司名在给定文本中发生的事件类型，一定程度上，模型对事件类型的判断给予了公司名抽取任务一定的信息，有助于模型判断文本中待抽取的公司名字段在给定文本中是否发生了设定的事件类型，然而，该模型结构并没有并源头上解决文本中公司名噪声的难题，该部分噪音仍对模型存在大量的干扰。因此，关于如何优化和缓解给定文本中未发生设定事件类型的公司名字段噪声对模型性能的干扰的技术难题是亟需解决的。

发明内容

针对现有技术的不足，本发明的目的在于提供一种面向公司资讯文本的事件抽取方法及***。

本发明解决其技术问题所采用的技术方案是：

一种面向公司资讯文本的事件抽取方法，包括以下步骤：

(1)获取面向公司的资讯文本，构建资讯文本的语料库；清洗并预处理语料库中资讯文本；

(2)按照预设的规则对清洗后的资讯文本进行标注；对标注后的资讯文本进行文本向量化及标签数字化的操作；

(3)构建公司名及事件类型的两阶段事件抽取模型并训练，使用训练好的模型抽取公司名及对应的事件类型；

(4)最后筛选并输出抽取出的公司名及对应的事件类型；

具体地，所述步骤(1)中清洗并预处理语料库中资讯文本具体为：依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、和删除乱码及无法打印字符的操作。

进一步地，所述步骤(2)中按照预设的规则对清洗后的资讯文本进行标注，包括如下子步骤：

(2.1)标注出资讯文本中所有的公司名及其简称的字段[com₁,com₂,com₃,…]；

(2.2)按照预设的事件类型[EventType₁,EventType₂,EventType₃,…,EventType_n,None,Out]，标注出公司名字段在给定资讯文本中发生的所有事件类型，[EventType₁,EventType₂,EventType₃,…,EventType_n]表示待抽取的事件类型，n表示一共有n种事件类型，None表示公司名字段在给定的资讯文本中没有发生任何事情，Out表示公司名字段在给定的资讯文本中发生了待抽取事件类型以外的事件类型。

进一步地，所述步骤(2.1)中标注出资讯文本中所有的公司名及其简称的字段的具体为：

(2.1.1)获取公司名强标注的开源数据集，并以CLUENER细粒度命名实体识别数据集，并单独筛选出数据集中包含公司名标注的样本；所述强标注是指样本上的标注的正确率大于98％；

(2.1.2)构建BERT+Softmax公司名实体抽取模型并训练，使用训练好的公司名实体抽取模型自动标注资讯文本；

(2.1.3)获取开源公司名词表，使用前向匹配算法和开源公司名词表继续在资讯文本上进行公司名标注；

(2.1.4)最后进行人工验证，检查并改正错误标注的公司名字段，对未标注出的公司名字段进行补充标注。

进一步地，所述步骤(2)中对标注后的资讯文本进行文本向量化及标签数字化的操作，具体为：将输入的资讯文本T_i进行向量化得到X_i＝[x_i1,x_i2,x_i3,...]；使用BIO编码规则对公司名在描述文本中位置进行编码得到Tag_i，使用数字1对标签内的每个公司名在资讯文本中位置进行遮掩生成每个公司名[com_i1,com_i2,com_i3,...com_ik]相对于资讯文本T_i的遮掩向量生成每个事件主体对应的事件类别标签Lab_i＝[lab_i1,lab_i2,lab_i3...,lab_ik]，k表示咨询文本T_i中共存在k个公司名字段，每个公司名字段comi_j存在对应的遮掩向量mi_j和事件类别标签lab_ij。

进一步地，所述步骤(3)中构建公司名及事件类型的两阶段事件抽取模型并训练，具体为：将资讯文本的向量化表示X_i输入预训练模型BERT₁得到资讯文本的语义表示X_embed,i,1；将文本的语义表示依次输入一层的线性函数Linear和归一化指数函数Softmax得到资讯文本中的字符是否为公司名字段的预测概率值P_tag,i，使用交叉熵函数crossentropy计算拟合公司名字段过程中的损失值loss_com，进行反向传播和参数优化后得到训练好的公司名预测模型；将资讯文本的向量化表示X_i输入预训练模型BERT₂得到资讯文本的语义表示X_embed,i,2；遍历每个资讯文本的遮掩向量m_ij，使用遮掩向量m_ij筛选文本i中公司名j对应的表征向量X_embed,ij，并依次输入池化函数Avgpool、单层线性函数Linear、逻辑回归函数Sigmoid得到公司名j在文本i中发生不同事件的概率分布p_type,ij，使用二分类交叉熵损失函数BCELoss计算预测事件类型过程中的损失值losst_ype，进行反向传播和模型参数优化得到训练好的事件类型预测模型。

进一步地，所述步骤(3)中使用训练好的模型抽取公司名及对应的事件类型，具体为：依据构建公司名及事件类型的两阶段事件抽取模型并训练能够得到输入资讯文本中的字符是否为公司名字段的概率值P_ta,g，并依此抽取出输入资讯文本中的公司名字段[com_i1，com_i2，com_i3，...com_ik]；使用数字1对得到的每个公司名在资讯文本中位置进行遮掩生成每个公司名相对于资讯文本T_i的遮掩向量M_i＝[m_i1,m_i2,m_i3,...m_ik]；按照构建公司名及事件类型的两阶段事件抽取模型并训练中得到每个公司名字段在资讯文本中发生不同事件的概率分布p_type,ij，并依此抽取出输入资讯文本中的每个公司名字段发生的事件类型，若某个公司名字段发生的事件类型为空，即概率分布p_type,ij中每个类别的概率均小于0.5，则选取概率值最大的事件类型为预测出的事件类型。

进一步地，所述步骤(4)所述的筛选并输出模型抽取的公司名及事件类型，具体为：判定公司名对应的事件类型是否包含Out和None，若包含，则删除该事件类型，若删除后该公司名对应的事件类型不为空，则输出该公司名及其对应的事件类型，若为空，则删除该公司名及其对应的事件类型。

本发明的另一个方面：一种面向公司资讯文本的事件抽取***，包括：文本数据库模块、文本预处理模块、文本标注模块、文本建模模块及输出模块；

文本数据库模块：获取面向公司的资讯文本并存储；所述文本预处理模块用于清洗并预处理语料库中资讯文本；

文本标注模块：按照预设的规则对清洗后的资讯文本进行标注；

文本建模模块：用于文本向量化和标签数字化的操作，并构建公司名及事件类型的联合抽取模型和训练；

输出模块：用于输出模型抽取的公司名及事件类型；

一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如所述的面向公司资讯文本的事件抽取方法。

本发明的有益效果是：

1、本发明提出的面向公司资讯文本地事件抽取方法中，面对噪声公司名对模型的干扰问题，提出一种新的标注规则，将噪声公司名纳入实体识别的标注规则中，并附上对应的噪声公司名的标签，将需要同时判定公司名类型和公司名边界的公司名抽取噪音转换为简单的分类问题，极大地缓解了模型地压力，降低了任务地难度，提高了识别和抽取地精度；

2、本发明提出的面向公司资讯文本地事件抽取方法中，提出了一种三段式标注方法，依次进行深度学习模型自动标注，外部词表自动标注，人工标注与纠错地流程，将机器学习的方法充分地利用在标注任务中，缓解了标注人员的工作量和压力，提高了标注的精确度。

3、本发明提出的面向公司资讯文本地事件抽取方法中，面对提出的标注规则，采用一种公司名及事件类型的两阶段事件抽取模型，提高了面向公司资讯文本中事件抽取的精确度。

附图说明

图1一种面向公司资讯文本的事件抽取方法；

图2一种面向公司资讯文本的事件抽取方法中资讯文本的标注流程图；

图3一种面向公司资讯文本的事件抽取方法中模型结构及训练流程图；

图4一种面向公司资讯文本的事件抽取***流程图；

图5为本发明的电子设备示意图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

下面根据附图进一步地对本发明进行说明：

实施例1

参考图1，一种面向公司资讯文本的事件抽取方法，包括以下步骤：

步骤S1：获取面向公司的资讯文本，构建资讯文本的语料库；

步骤S2：清洗并预处理语料库中资讯文本；

步骤S3：按照预设的规则对清洗后的资讯文本进行标注；

步骤S4：对标注后的资讯文本进行文本向量化及标签数字化的操作；

步骤S5：构建公司名及事件类型的两阶段事件抽取模型并训练，使用训练好的模型抽取公司名及对应的事件类型；

步骤S6：筛选并输出模型抽取的公司名及事件类型

进一步地，所述步骤S2主要包括：依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、和删除乱码及无法打印字符的操作；

进一步地，所述步骤S3包括以下步骤：

步骤S31:标注出资讯文本中所有的公司名及其简称的字段[com₁,com₂,com₃,…]；按照预设的事件类型[EventType₁,EventType₂,EventType₃,…,EventType_n,None,Out]，标注出公司名字段在给定资讯文本中发生的所有事件类型，[EventType₁,EventType₂,EventType₃,…,EventType_n]表示待抽取的事件类型，n表示一共有n种事件类型，None表示公司名字段在给定的资讯文本中没有发生任何事情，Out表示公司名字段在给定的资讯文本中发生了待抽取事件类型以外的事件类型；

步骤S32:以实例文本“A公司今日快讯：某人出任某部门总裁，从B公司离职；若干股东某富控股拟减持不超6％股份。”为例，标注出的公司名字段为“A公司”、“某部门”、“B公司”、“若干”、“某富控股”，A公司某部门B公司A公司某部门B公司其事件类型分别为None、高层变更、Out、股东减持、Out；

进一步地，参考图2，所述步骤S31中标注出资讯文本中所有的公司名及其简称的字段[com₁,com₂,com₃,…]具体包括以下步骤：

步骤S311:获取公司名强标注的开源数据集，构建BERT+Softmax公司名实体抽取模型并训练，使用构建的公司名实体抽取模型自动标注资讯文本；

步骤S312:获取开源公司名词表，使用前向匹配算法和开源公司名词表继续在资讯文本上进行公司名标注；

步骤S313:最后进行人工验证，并改正错误标注的公司名字段；

进一步地，所述步骤S4主要包括：

S41：将输入的资讯文本T_i进行向量化得到X_i＝[x_i1,x_i2,x_i3,...]；使用BIO编码规则对公司名在描述文本中位置进行编码得到Tag_i；使用数字1对标签内的每个公司名在资讯文本中位置进行遮掩生成每个公司名[com_i1,com_i2,com_i3,...com_ik]相对于资讯文本T_i的遮掩向量M_i＝[m_i1,m_i2,m_i3,...m_ik]；生成每个事件主体对应的事件类别标签Lab_i＝[lab_i1,lab_i2,lab_i3...,lab_ik]，k表示咨询文本T_i中共存在k个公司名字段，每个公司名字段com_ij存在对应的遮掩向量m_ij和事件类别标签lab_ij；

S42：以实例文本“A公司今日快讯：某人出任某部门总裁，从B公司离职；若干股东某富控股拟减持不超6％股份。”为例,文本向量化后得到长度为46的一维向量[101,4567,…,102]，公司名com₁＝“A公司”对应的遮掩向量为m₁＝[0,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]，对应的事件类型为lab₁＝[1,0,0…,0]，lab₁的维度为预设事件类型的数量。

进一步地，参考图3，所述步骤S5中构建公司名及事件类型的两阶段事件抽取模型并训练包括以下步骤：

步骤S51：将资讯文本的向量化表示X_i输入预训练模型BERT₁得到资讯文本的语义表示X_embed,i,1；

步骤S52：将文本的语义表示依次输入一层的线性函数Linear和归一化指数函数Softmax得到资讯文本中的字符是否为公司名字段的预测概率值P_tag,i，

步骤S53：使用交叉熵函数crossentropy计算拟合公司名字段过程中的损失值loss_com，进行反向传播和参数优化后得到训练好的公司名预测模型；

步骤S54：将资讯文本的向量化表示X_i输入预训练模型BERT₂得到资讯文本的语义表示X_embed,i,2；

步骤S55：遍历每个资讯文本的遮掩向量m_ij，使用遮掩向量m_ij筛选文本i中公司名j对应的表征向量X_embed,ij，并依次输入池化函数Avgpool、单层线性函数Linear、逻辑回归函数Sigmoid得到公司名j在文本i中发生不同事件的概率分布p_type,ij；

步骤S56：使用二分类交叉熵损失函数BCELoss计算预测事件类型过程中的损失值loss_type，进行反向传播和模型参数优化得到训练好的事件类型预测模型；

进一步地，参考图3，所述步骤S5中使用训练好的模型抽取公司名及对应的事件类型包括以下步骤：

步骤S57：依据步骤S51，S52得到输入资讯文本中的字符是否为公司名字段的概率值P_tag,i，并依此抽取出输入资讯文本中的公司名字段[com_i1,com_i2,com_i3,...com_ik]；依据步骤S41使用数字1对得到的每个公司名在资讯文本中位置进行遮掩生成每个公司名相对于资讯文本T_i的遮掩向量M_i＝[m_i1,m_i2,m_i3,...m_ik]；依据步骤S54，S55得到每个公司名字段在资讯文本中发生不同事件的概率分布p_type,ij，并依此抽取出输入资讯文本中的每个公司名字段发生的事件类型，若某个公司名字段发生的事件类型为空，即概率分布p_type,ij中每个类别的概率均小于0.5，则选取概率值最大的事件类型为预测出的事件类型；

进一步地，所述步骤S6筛选并输出模型抽取的公司名及事件类型包括：判定公司名对应的事件类型是否包含Out和None，若包含，则删除该事件类型，若删除后该公司名对应的事件类型不为空，则输出该公司名及其对应的事件类型，若为空，则删除该公司名及其对应的事件类型；

实施例二

参考图4，一种面向公司资讯文本的事件抽取***，包括：文本数据库模块、文本预处理模块、文本标注模块、文本建模模块；

所述文本数据库模块用于获取面向公司的资讯文本并存储；

所述文本预处理模块用于清洗并预处理语料库中资讯文本；

所述文本标注模块用于按照预设的规则对清洗后的资讯文本进行标注；

所述文本建模模块用于文本向量化和标签数字化的操作，并构建公司名及事件类型的联合抽取模型和训练；

所述输出模块用于输出模型抽取的公司名及事件类型。

关于上述实施例中的***，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于***实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的、一种面向公司资讯文本的事件抽取方法。如图5所示，为本发明实施例提供的该装***所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存以及网络接口之外，实施例中***所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的一种面向公司资讯文本的事件抽取方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

应当理解的是，以上所述仅是本发明的一种实施方案，本发明并不局限于上面已经描述并在附图中示出的结构，在不脱离本发明原理的前提下，可以做出若干改进和润饰。本发明的范围仅由所附的权利要求来限制。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种面向公司资讯文本的事件抽取方法，其特征在于，包括以下步骤：

(1)获取面向公司的资讯文本，构建资讯文本的语料库；清洗并预处理语料库中资讯文本；所述清洗并预处理语料库中资讯文本具体为：依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、和删除乱码及无法打印字符的操作；

(2)按照预设的规则对清洗后的资讯文本进行标注；对标注后的资讯文本进行文本向量化及标签数字化的操作；所述按照预设的规则对清洗后的资讯文本进行标注，包括如下子步骤：

(2.2)按照预设的事件类型[EventType₁,EventType₂,EventType₃,…,EventType_n,None,Out]，标注出公司名字段在给定资讯文本中发生的所有事件类型，[EventType₁,EventType₂,EventType₃,…,EventType_n]表示待抽取的事件类型，n表示一共有n种事件类型，None表示公司名字段在给定的资讯文本中没有发生任何事情，Out表示公司名字段在给定的资讯文本中发生了待抽取事件类型以外的事件类型；

所述步骤(2.1)中标注出资讯文本中所有的公司名及其简称的字段的具体为：

(2.1.1)获取公司名强标注的开源数据集，并以CLUENER细粒度命名实体识别数据集，并单独筛选出数据集中包含公司名标注的样本；

(2.1.4)最后进行人工验证，检查并改正错误标注的公司名字段，对未标注出的公司名字段进行补充标注；

所述对标注后的资讯文本进行文本向量化及标签数字化的操作，具体为：将输入的资讯文本T_i进行向量化得到X_i＝[x_i1,x_i2,x_i3,...]；使用BIO编码规则对公司名在描述文本中位置进行编码得到Tag_i，使用数字1对标签内的每个公司名在资讯文本中位置进行遮掩生成每个公司名[com_i1,com_i2,com_i3,...com_ik]相对于资讯文本T_i的遮掩向量M_i＝[m_i1,m_i2,m_i3,...m_ik]，生成每个事件主体对应的事件类别标签Lab_i＝[lab_i1,lab_i2,lab_i3...,lab_ik]，k表示咨询文本T_i中共存在k个公司名字段，每个公司名字段com_ij存在对应的遮掩向量m_ij和事件类别标签lab_ij；

(3)构建公司名及事件类型的两阶段事件抽取模型并训练，使用训练好的模型抽取公司名及对应的事件类型；所述构建公司名及事件类型的两阶段事件抽取模型并训练，具体包括如下子步骤：

(3.1)将资讯文本的向量化表示X_i输入预训练模型BERT₁得到资讯文本的语义表示X_embed,i,1；

(3.2)将文本的语义表示依次输入一层的线性函数Linear和归一化指数函数Softmax得到资讯文本中的字符是否为公司名字段的预测概率值P_tag,i，使用交叉熵函数crossentropy计算拟合公司名字段过程中的损失值loss_com，进行反向传播和参数优化后得到训练好的公司名预测模型；

(3.3)将资讯文本的向量化表示X_i输入预训练模型BERT₂得到资讯文本的语义表示X_embed,i,2；

(3.4)遍历每个资讯文本的遮掩向量m_ij，使用遮掩向量m_ij筛选文本i中公司名j对应的表征向量X_embed,ij，并依次输入池化函数Avgpool、单层线性函数Linear、逻辑回归函数Sigmoid得到公司名j在文本i中发生不同事件的概率分布p_type,ij，使用二分类交叉熵损失函数BCELoss计算预测事件类型过程中的损失值loss_type，进行反向传播和模型参数优化得到训练好的事件类型预测模型；

所述使用训练好的模型抽取公司名及对应的事件类型，具体为：依据构建公司名及事件类型的两阶段事件抽取模型并训练能够得到输入资讯文本中的字符是否为公司名字段的概率值P_tag,i，并依此抽取出输入资讯文本中的公司名字段[com_i1,com_i2,com_i3,...com_ik]；使用数字1对得到的每个公司名在资讯文本中位置进行遮掩生成每个公司名相对于资讯文本T_i的遮掩向量M_i＝[m_i1,m_i2,m_i3,...m_ik]；按照构建公司名及事件类型的两阶段事件抽取模型并训练中得到每个公司名字段在资讯文本中发生不同事件的概率分布p_type,ij，并依此抽取出输入资讯文本中的每个公司名字段发生的事件类型，若某个公司名字段发生的事件类型为空，即概率分布p_type,ij中每个类别的概率均小于0.5，则选取概率值最大的事件类型为预测出的事件类型；

(4)最后筛选并输出抽取出的公司名及对应的事件类型；所述筛选并输出模型抽取的公司名及事件类型，具体为：判定公司名对应的事件类型是否包含Out和None，若包含，则删除该事件类型，若删除后该公司名对应的事件类型不为空，则输出该公司名及其对应的事件类型，若为空，则删除该公司名及其对应的事件类型。

2.一种面向公司资讯文本的事件抽取***，其特征在于，包括：文本数据库模块、文本预处理模块、文本标注模块、文本建模模块及输出模块；

文本数据库模块：获取面向公司的资讯文本，构建资讯文本的语料库；清洗并预处理语料库中资讯文本；所述清洗并预处理语料库中资讯文本具体为：依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、和删除乱码及无法打印字符的操作；

文本标注模块：按照预设的规则对清洗后的资讯文本进行标注；对标注后的资讯文本进行文本向量化及标签数字化的操作；所述按照预设的规则对清洗后的资讯文本进行标注，包括如下子步骤：

文本建模模块：构建公司名及事件类型的两阶段事件抽取模型并训练，使用训练好的模型抽取公司名及对应的事件类型；所述构建公司名及事件类型的两阶段事件抽取模型并训练，具体包括如下子步骤：

输出模块：最后筛选并输出抽取出的公司名及对应的事件类型；所述筛选并输出模型抽取的公司名及事件类型，具体为：判定公司名对应的事件类型是否包含Out和None，若包含，则删除该事件类型，若删除后该公司名对应的事件类型不为空，则输出该公司名及其对应的事件类型，若为空，则删除该公司名及其对应的事件类型。

3.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1所述的面向公司资讯文本的事件抽取方法。