CN113934909A

CN113934909A - 基于预训练语言结合深度学习模型的金融事件抽取方法

Info

Publication number: CN113934909A
Application number: CN202111170651.1A
Authority: CN
Inventors: 郑超; 黄园园; 张智勇; 孙彦斌; 田志宏
Original assignee: Zhongdian Jizhi Hainan Information Technology Co Ltd
Current assignee: Zhongdian Jizhi Hainan Information Technology Co Ltd
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2022-01-14

Abstract

本发明提供基于预训练语言结合深度学习模型的金融事件抽取方法。所述基于预训练语言结合深度学习模型的金融事件抽取方法，包括以下操作步骤：S1、数据获取和预处理：使用网络爬虫爬取公开金融事件文本语料，对原始金融事件文本语料进行文本预处理。本发明提供基于预训练语言结合深度学习模型的金融事件抽取方法，通过使用机器学习结合领域知识的方式，定义金融领域事件类型以及模板，大大减少了人工定义事件的时间成本和劳动成本；通过使用远程监督学习的方式，实现金融领域事件语料数据的大规模自动标注，并使用启发式剪枝的方法有效地减少了数据噪音，填补了目前金融事件抽取领域缺少大规模语料数据的空白。

Description

基于预训练语言结合深度学习模型的金融事件抽取方法

技术领域

本发明涉及金融智能领域，尤其涉及基于预训练语言结合深度学习模型的金融事件抽取方法。

背景技术

金融事件抽取是事件抽取技术在金融智能领域的应用，在金融领域，投资者的决策受到各种因素的影响，如公司自身新闻、政治政策以及宏观经济等因素，这些因素往往以文本的形式呈现给大众，并且大多数文本中所包含的事件信息会成为影响金融领域市场状态的主要因素；因此，金融事件抽取能够帮助投资者获取公司主要事件，识别投资风险以及投资机会，预测股市走向，做出正确的投资决策。

而随着信息技术的快速发展，金融文本数量呈指数级增长，而金融领域文本有别于其他领域，具有时效性高、句法结构复杂、高维稀疏、语义模糊和无规律性等特点，需要设计有效的方法理解金融文本中深层的语义信息以及上下文对应关系。

相关技术中，金融文本中往往包含着大量噪声文本和无关金融实体，大大增加了抽取金融事件关键实体的难度，而传统基于监督学习的事件抽取方法严重依赖于人工标注的训练数据，大多实验结果都是基于ACE2005的数据集，而并非特定领域数据集，然而，人工对数据标注成本较高，且没有大规模的金融事件中文语料数据；因此，如何从金融文本构建有效的语料数据集，并准确快速地挖掘出关键、并且能为投资者所利用的事件信息，成为亟需解决的问题。

因此，有必要提供基于预训练语言结合深度学习模型的金融事件抽取方法解决上述技术问题。

发明内容

本发明提供基于预训练语言结合深度学习模型的金融事件抽取方法，解决了金融文本无法构建有效的语料数据集的问题。

为解决上述技术问题，本发明提供的基于预训练语言结合深度学习模型的金融事件抽取方法，包括以下操作步骤：

S1、数据获取和预处理：

使用网络爬虫爬取公开金融事件文本语料，对原始金融事件文本语料进行文本预处理；

S2、定义金融事件模板：

对金融领域中出现的高频词组、关键名词进行聚类处理，根据聚类结果将距离相近的近似词，参考相关领域知识定义金融事件以及建立金融事件类型模板；

S3、远程监督结合模板方法的数据自动标注及降噪处理：

利用规则或模式的方法从半结构化的初级金融事件文本语料数据中获取种子金融事件，构建原始金融事件数据库；获取关键事件元素角色，构建动词、名词触发词集；利用近义词表对触发词集进行拓展；利用远程监督学习结合模板的方式进行语料数据自动标注，然后对生成的数据进行启发式标签剪枝来消除远程监督产生的噪声数据并将处理好的数据加入事件数据库中；

S4、使用预训练语言模型结合深度学习模型来对爬取的文本内容进行金融事件的抽取识别任务。

优选的，在所述S1中，对原始金融事件文本语料进行文本预处理包括：依次进行分句、分词、去噪、替换，获得可用的初级金融事件文本语料数据。

优选的，在所述S1中，获取可用的金融事件文本语料数据的具体步骤为：

S11、使用爬虫从金融新闻网站爬取公开的金融事件文本数据；

S12、对获取的部分金融事件文本数据按照事件类型进行整理，将金融事件文本数据的标点符号统一为中文格式，按照包括的中文标点断句符号对文书数据切分为句子形式，构成句子集合；

S13、使用自然语言处理工具对句子集合中的每个句子进行分词处理；

S14、构建金融领域停用词表，结合通用领域停用词表，去除停用词。

优选的，在所述步骤S2中，定义金融事件模板的具体步骤为：

S21、基于步骤S14的分词结果，使用开源词性标注工具对词语进行词性标注，使用TF-IDF算法获取最能代表句子的N个关键词；

S22、基于步骤S14的分词结果，使用word2vec模型获取金融事件文本中词对应的词向量；

S23、基于步骤S22提取出的S21中关键词进行基于语义距离的k-means聚类；

S24、基于步骤S23的聚类结果集合，结合人工经验和金融领域的专业知识总结金融领域的事件类型和模板，事件模板包括触发词和事件元素。

优选的，在所述步骤S24中，后续对于新增金融事件文本语料数据使用增量聚类的方式对关键词集合进行拓展，或者同时可能新增事件类型以及模板。

优选的，在所述步骤S3中，远程监督结合模板方法的数据自动标注及降噪处理包括以下步骤：

S31、利用规则或模式的方法从半结构化的初级金融事件文本语料数据中获取种子金融事件，构建原始金融事件数据库；

S32、获取关键事件元素角色，构建动词、名词触发词集；

S33、利用近义词表对触发词集进行拓展；

S34、利用远程监督学习结合模板的方式进行语料数据自动标注；

S35、对生成的数据进行启发式标签剪枝来消除远程监督产生的噪声数据并将处理好的数据加入事件数据库中。

优选的，在所述步骤S35中，对生成的数据进行启发式标签剪枝具有以下方法：

a、同层次剪枝：若一个样本的标签类型为：A/B、A/C，则剪枝为A(说明：此处的B和C为同级标签类型)；

b、粗粒度剪枝：设置少量粗粒度类型标签，训练一个分类器，删除在该类型集上输出不一致的样本；

c、低频剪枝：当前类型标签出现次数少于某一阈值，则剪枝。

优选的，在所述S4中，使用预训练语言模型结合深度学习模型来对爬取的文本内容进行金融事件的抽取识别任务包括以下步骤：

S41、编码阶段，使用预训练模型进行词向量嵌入，在完成编码之后，用双向的LSTM网络和CNN卷积神经网络进一步提取向量特征；

S41、预测阶段，使用双向LSTM网络抽取出的全局向量特征和CNN提取出的局部向量特征联合后进行预测。

优选的，还包括用于完成金融事件抽取的运行***，所述运行***包括用于获取公开金融事件文本语料的数据获取模块、用于对原始金融事件文本语料进行文本预处理的数据处理模块、用于从半结构化的初级金融事件文本语料数据中获取种子金融事件的种子金融事件获取模块、用于定义金融事件以及建立金融事件类型模板的金融事件模板建立模块、用于进行语料数据自动标注的远程监督学习模块、用于完成爬取的文本内容进行金融事件的抽取识别任务的金融事件抽取模块、原始金融事件数据库以及金融事件数据库。

所述数据获取模块与所述数据处理模块信号连接，所述数据处理模块分别与所述种子金融事件获取模块以及金融事件模板建立模块信号连接，所述种子金融事件获取模块与所述原始金融事件数据库信号连接，所述金融事件数据库分别与所述金融事件模板建立模块、所述远程监督学习模块以及所述金融事件抽取模块信号连接。

与相关技术相比较，本发明提供的基于预训练语言结合深度学习模型的金融事件抽取方法具有如下有益效果：

本发明提供基于预训练语言结合深度学习模型的金融事件抽取方法，(1)、通过使用机器学习结合领域知识的方式，定义金融领域事件类型以及模板，大大减少了人工定义事件的时间成本和劳动成本；

(2)、通过使用远程监督学习的方式，实现金融领域事件语料数据的大规模自动标注，并使用启发式剪枝的方法有效地减少了数据噪音，填补了目前金融事件抽取领域缺少大规模语料数据的空白，进而能够准确快速地挖掘出关键、并且能为投资者所利用的事件信息；

(3)、通过使用模型抽取语义特征，让基于预训练语言模型结合深度学习模型能学习到更多潜在的语义信息，提升了金融事件抽取的效果。

附图说明

图1本发明提供的基于预训练语言模型结合深度学习模型的金融领域事件抽取方法流程图。

图2是本发明提供的基于预训练语言模型结合深度学习模型的金融领域事件抽取方法中深度学习模型的结构图；

图3为本发明提供的基于预训练语言模型结合深度学习模型的金融领域事件抽取方法运行***框图。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

请结合参阅图1、图2，其中，图1本发明提供的基于预训练语言模型结合深度学习模型的金融领域事件抽取方法流程图。图2是本发明提供的基于预训练语言模型结合深度学习模型的金融领域事件抽取方法中深度学习模型的结构图。基于预训练语言结合深度学习模型的金融事件抽取方法，包括以下操作步骤：

S1、数据获取和预处理：

S2、定义金融事件模板：

S3、远程监督结合模板方法的数据自动标注及降噪处理：

在所述S1中，对原始金融事件文本语料进行文本预处理包括：依次进行分句、分词、去噪、替换，获得可用的初级金融事件文本语料数据。

在所述S1中，获取可用的金融事件文本语料数据的具体步骤为：

在所述步骤S2中，定义金融事件模板的具体步骤为：

在所述步骤S24中，后续对于新增金融事件文本语料数据使用增量聚类的方式对关键词集合进行拓展，或者同时可能新增事件类型以及模板。

在所述步骤S3中，远程监督结合模板方法的数据自动标注及降噪处理包括以下步骤：

S32、获取关键事件元素角色，构建动词、名词触发词集；

S33、利用近义词表对触发词集进行拓展；

在所述步骤S35中，对生成的数据进行启发式标签剪枝具有以下方法：

在所述S4中，使用预训练语言模型结合深度学习模型来对爬取的文本内容进行金融事件的抽取识别任务包括以下步骤：

第二实施例

基于本发明的第一实施例基于预训练语言结合深度学习模型的金融事件抽取方法，本发明的第二实施例提供另基于预训练语言结合深度学习模型的金融事件抽取方法，其中，第二实施例并不会妨碍第一实施例的技术方案的独立实施。

具体的，本发明的提供另基于预训练语言结合深度学习模型的金融事件抽取方法不同之处在于：

还包括用于完成金融事件抽取的运行***，所述运行***包括用于获取公开金融事件文本语料的数据获取模块、用于对原始金融事件文本语料进行文本预处理的数据处理模块、用于从半结构化的初级金融事件文本语料数据中获取种子金融事件的种子金融事件获取模块、用于定义金融事件以及建立金融事件类型模板的金融事件模板建立模块、用于进行语料数据自动标注的远程监督学习模块、用于完成爬取的文本内容进行金融事件的抽取识别任务的金融事件抽取模块、原始金融事件数据库以及金融事件数据库。

原始金融事件数据库用于保存获取的种子金融事件，金融事件数据库用于保存标签剪枝来消除远程监督产生的噪声数据并将处理好的数据。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.基于预训练语言结合深度学习模型的金融事件抽取方法，其特征在于，包括以下操作步骤：

S1、数据获取和预处理：

使用网络爬虫爬取公开金融事件文本语料，对原始金融事件文本语料进行文本预处理，获得可用的初级金融事件文本语料数据；

S2、定义金融事件模板：

S3、远程监督结合模板方法的数据自动标注及降噪处理：

2.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法，其特征在于，在所述S1中，对原始金融事件文本语料进行文本预处理包括：依次进行分句、分词、去噪、替换。

3.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法，其特征在于，在所述S1中，获取可用的金融事件文本语料数据的具体步骤为：

4.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法，其特征在于，在所述步骤S2中，定义金融事件模板的具体步骤为：

5.根据权利要求4所述的基于预训练语言结合深度学习模型的金融事件抽取方法，其特征在于，在所述步骤S24中，后续对于新增金融事件文本语料数据使用增量聚类的方式对关键词集合进行拓展，或者同时可能新增事件类型以及模板。

6.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法，其特征在于，在所述步骤S3中，远程监督结合模板方法的数据自动标注及降噪处理包括以下步骤：

S32、获取关键事件元素角色，构建动词、名词触发词集；

S33、利用近义词表对触发词集进行拓展；

7.根据权利要求6所述的基于预训练语言结合深度学习模型的金融事件抽取方法，其特征在于，在所述步骤S35中，对生成的数据进行启发式标签剪枝具有以下方法：

8.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法，其特征在于，在所述S4中，使用预训练语言模型结合深度学习模型来对爬取的文本内容进行金融事件的抽取识别任务包括以下步骤：

9.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法，其特征在于，还包括用于完成金融事件抽取的运行***，所述运行***包括用于获取公开金融事件文本语料的数据获取模块、用于对原始金融事件文本语料进行文本预处理的数据处理模块、用于从半结构化的初级金融事件文本语料数据中获取种子金融事件的种子金融事件获取模块、用于定义金融事件以及建立金融事件类型模板的金融事件模板建立模块、用于进行语料数据自动标注的远程监督学习模块、用于完成爬取的文本内容进行金融事件的抽取识别任务的金融事件抽取模块、原始金融事件数据库以及金融事件数据库。

10.根据权利要求9所述的基于预训练语言结合深度学习模型的金融事件抽取方法，其特征在于，所述数据获取模块与所述数据处理模块信号连接，所述数据处理模块分别与所述种子金融事件获取模块以及金融事件模板建立模块信号连接，所述种子金融事件获取模块与所述原始金融事件数据库信号连接，所述金融事件数据库分别与所述金融事件模板建立模块、所述远程监督学习模块以及所述金融事件抽取模块信号连接。