CN113934909A - 基于预训练语言结合深度学习模型的金融事件抽取方法 - Google Patents

基于预训练语言结合深度学习模型的金融事件抽取方法 Download PDF

Info

Publication number
CN113934909A
CN113934909A CN202111170651.1A CN202111170651A CN113934909A CN 113934909 A CN113934909 A CN 113934909A CN 202111170651 A CN202111170651 A CN 202111170651A CN 113934909 A CN113934909 A CN 113934909A
Authority
CN
China
Prior art keywords
financial
event
data
financial event
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111170651.1A
Other languages
English (en)
Inventor
郑超
黄园园
张智勇
孙彦斌
田志宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Jizhi Hainan Information Technology Co Ltd
Original Assignee
Zhongdian Jizhi Hainan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Jizhi Hainan Information Technology Co Ltd filed Critical Zhongdian Jizhi Hainan Information Technology Co Ltd
Priority to CN202111170651.1A priority Critical patent/CN113934909A/zh
Publication of CN113934909A publication Critical patent/CN113934909A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Accounting & Taxation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供基于预训练语言结合深度学习模型的金融事件抽取方法。所述基于预训练语言结合深度学习模型的金融事件抽取方法,包括以下操作步骤:S1、数据获取和预处理:使用网络爬虫爬取公开金融事件文本语料,对原始金融事件文本语料进行文本预处理。本发明提供基于预训练语言结合深度学习模型的金融事件抽取方法,通过使用机器学习结合领域知识的方式,定义金融领域事件类型以及模板,大大减少了人工定义事件的时间成本和劳动成本;通过使用远程监督学习的方式,实现金融领域事件语料数据的大规模自动标注,并使用启发式剪枝的方法有效地减少了数据噪音,填补了目前金融事件抽取领域缺少大规模语料数据的空白。

Description

基于预训练语言结合深度学习模型的金融事件抽取方法
技术领域
本发明涉及金融智能领域,尤其涉及基于预训练语言结合深度学习模型的金融事件抽取方法。
背景技术
金融事件抽取是事件抽取技术在金融智能领域的应用,在金融领域,投资者的决策受到各种因素的影响,如公司自身新闻、政治政策以及宏观经济等因素,这些因素往往以文本的形式呈现给大众,并且大多数文本中所包含的事件信息会成为影响金融领域市场状态的主要因素;因此,金融事件抽取能够帮助投资者获取公司主要事件,识别投资风险以及投资机会,预测股市走向,做出正确的投资决策。
而随着信息技术的快速发展,金融文本数量呈指数级增长,而金融领域文本有别于其他领域,具有时效性高、句法结构复杂、高维稀疏、语义模糊和无规律性等特点,需要设计有效的方法理解金融文本中深层的语义信息以及上下文对应关系。
相关技术中,金融文本中往往包含着大量噪声文本和无关金融实体,大大增加了抽取金融事件关键实体的难度,而传统基于监督学习的事件抽取方法严重依赖于人工标注的训练数据,大多实验结果都是基于ACE2005的数据集,而并非特定领域数据集,然而,人工对数据标注成本较高,且没有大规模的金融事件中文语料数据;因此,如何从金融文本构建有效的语料数据集,并准确快速地挖掘出关键、并且能为投资者所利用的事件信息,成为亟需解决的问题。
因此,有必要提供基于预训练语言结合深度学习模型的金融事件抽取方法解决上述技术问题。
发明内容
本发明提供基于预训练语言结合深度学习模型的金融事件抽取方法,解决了金融文本无法构建有效的语料数据集的问题。
为解决上述技术问题,本发明提供的基于预训练语言结合深度学习模型的金融事件抽取方法,包括以下操作步骤:
S1、数据获取和预处理:
使用网络爬虫爬取公开金融事件文本语料,对原始金融事件文本语料进行文本预处理;
S2、定义金融事件模板:
对金融领域中出现的高频词组、关键名词进行聚类处理,根据聚类结果将距离相近的近似词,参考相关领域知识定义金融事件以及建立金融事件类型模板;
S3、远程监督结合模板方法的数据自动标注及降噪处理:
利用规则或模式的方法从半结构化的初级金融事件文本语料数据中获取种子金融事件,构建原始金融事件数据库;获取关键事件元素角色,构建动词、名词触发词集;利用近义词表对触发词集进行拓展;利用远程监督学习结合模板的方式进行语料数据自动标注,然后对生成的数据进行启发式标签剪枝来消除远程监督产生的噪声数据并将处理好的数据加入事件数据库中;
S4、使用预训练语言模型结合深度学习模型来对爬取的文本内容进行金融事件的抽取识别任务。
优选的,在所述S1中,对原始金融事件文本语料进行文本预处理包括:依次进行分句、分词、去噪、替换,获得可用的初级金融事件文本语料数据。
优选的,在所述S1中,获取可用的金融事件文本语料数据的具体步骤为:
S11、使用爬虫从金融新闻网站爬取公开的金融事件文本数据;
S12、对获取的部分金融事件文本数据按照事件类型进行整理,将金融事件文本数据的标点符号统一为中文格式,按照包括的中文标点断句符号对文书数据切分为句子形式,构成句子集合;
S13、使用自然语言处理工具对句子集合中的每个句子进行分词处理;
S14、构建金融领域停用词表,结合通用领域停用词表,去除停用词。
优选的,在所述步骤S2中,定义金融事件模板的具体步骤为:
S21、基于步骤S14的分词结果,使用开源词性标注工具对词语进行词性标注,使用TF-IDF算法获取最能代表句子的N个关键词;
S22、基于步骤S14的分词结果,使用word2vec模型获取金融事件文本中词对应的词向量;
S23、基于步骤S22提取出的S21中关键词进行基于语义距离的k-means聚类;
S24、基于步骤S23的聚类结果集合,结合人工经验和金融领域的专业知识总结金融领域的事件类型和模板,事件模板包括触发词和事件元素。
优选的,在所述步骤S24中,后续对于新增金融事件文本语料数据使用增量聚类的方式对关键词集合进行拓展,或者同时可能新增事件类型以及模板。
优选的,在所述步骤S3中,远程监督结合模板方法的数据自动标注及降噪处理包括以下步骤:
S31、利用规则或模式的方法从半结构化的初级金融事件文本语料数据中获取种子金融事件,构建原始金融事件数据库;
S32、获取关键事件元素角色,构建动词、名词触发词集;
S33、利用近义词表对触发词集进行拓展;
S34、利用远程监督学习结合模板的方式进行语料数据自动标注;
S35、对生成的数据进行启发式标签剪枝来消除远程监督产生的噪声数据并将处理好的数据加入事件数据库中。
优选的,在所述步骤S35中,对生成的数据进行启发式标签剪枝具有以下方法:
a、同层次剪枝:若一个样本的标签类型为:A/B、A/C,则剪枝为A(说明:此处的B和C为同级标签类型);
b、粗粒度剪枝:设置少量粗粒度类型标签,训练一个分类器,删除在该类型集上输出不一致的样本;
c、低频剪枝:当前类型标签出现次数少于某一阈值,则剪枝。
优选的,在所述S4中,使用预训练语言模型结合深度学习模型来对爬取的文本内容进行金融事件的抽取识别任务包括以下步骤:
S41、编码阶段,使用预训练模型进行词向量嵌入,在完成编码之后,用双向的LSTM网络和CNN卷积神经网络进一步提取向量特征;
S41、预测阶段,使用双向LSTM网络抽取出的全局向量特征和CNN提取出的局部向量特征联合后进行预测。
优选的,还包括用于完成金融事件抽取的运行***,所述运行***包括用于获取公开金融事件文本语料的数据获取模块、用于对原始金融事件文本语料进行文本预处理的数据处理模块、用于从半结构化的初级金融事件文本语料数据中获取种子金融事件的种子金融事件获取模块、用于定义金融事件以及建立金融事件类型模板的金融事件模板建立模块、用于进行语料数据自动标注的远程监督学习模块、用于完成爬取的文本内容进行金融事件的抽取识别任务的金融事件抽取模块、原始金融事件数据库以及金融事件数据库。
所述数据获取模块与所述数据处理模块信号连接,所述数据处理模块分别与所述种子金融事件获取模块以及金融事件模板建立模块信号连接,所述种子金融事件获取模块与所述原始金融事件数据库信号连接,所述金融事件数据库分别与所述金融事件模板建立模块、所述远程监督学习模块以及所述金融事件抽取模块信号连接。
与相关技术相比较,本发明提供的基于预训练语言结合深度学习模型的金融事件抽取方法具有如下有益效果:
本发明提供基于预训练语言结合深度学习模型的金融事件抽取方法,(1)、通过使用机器学习结合领域知识的方式,定义金融领域事件类型以及模板,大大减少了人工定义事件的时间成本和劳动成本;
(2)、通过使用远程监督学习的方式,实现金融领域事件语料数据的大规模自动标注,并使用启发式剪枝的方法有效地减少了数据噪音,填补了目前金融事件抽取领域缺少大规模语料数据的空白,进而能够准确快速地挖掘出关键、并且能为投资者所利用的事件信息;
(3)、通过使用模型抽取语义特征,让基于预训练语言模型结合深度学习模型能学习到更多潜在的语义信息,提升了金融事件抽取的效果。
附图说明
图1本发明提供的基于预训练语言模型结合深度学习模型的金融领域事件抽取方法流程图。
图2是本发明提供的基于预训练语言模型结合深度学习模型的金融领域事件抽取方法中深度学习模型的结构图;
图3为本发明提供的基于预训练语言模型结合深度学习模型的金融领域事件抽取方法运行***框图。
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
请结合参阅图1、图2,其中,图1本发明提供的基于预训练语言模型结合深度学习模型的金融领域事件抽取方法流程图。图2是本发明提供的基于预训练语言模型结合深度学习模型的金融领域事件抽取方法中深度学习模型的结构图。基于预训练语言结合深度学习模型的金融事件抽取方法,包括以下操作步骤:
S1、数据获取和预处理:
使用网络爬虫爬取公开金融事件文本语料,对原始金融事件文本语料进行文本预处理;
S2、定义金融事件模板:
对金融领域中出现的高频词组、关键名词进行聚类处理,根据聚类结果将距离相近的近似词,参考相关领域知识定义金融事件以及建立金融事件类型模板;
S3、远程监督结合模板方法的数据自动标注及降噪处理:
利用规则或模式的方法从半结构化的初级金融事件文本语料数据中获取种子金融事件,构建原始金融事件数据库;获取关键事件元素角色,构建动词、名词触发词集;利用近义词表对触发词集进行拓展;利用远程监督学习结合模板的方式进行语料数据自动标注,然后对生成的数据进行启发式标签剪枝来消除远程监督产生的噪声数据并将处理好的数据加入事件数据库中;
S4、使用预训练语言模型结合深度学习模型来对爬取的文本内容进行金融事件的抽取识别任务。
在所述S1中,对原始金融事件文本语料进行文本预处理包括:依次进行分句、分词、去噪、替换,获得可用的初级金融事件文本语料数据。
在所述S1中,获取可用的金融事件文本语料数据的具体步骤为:
S11、使用爬虫从金融新闻网站爬取公开的金融事件文本数据;
S12、对获取的部分金融事件文本数据按照事件类型进行整理,将金融事件文本数据的标点符号统一为中文格式,按照包括的中文标点断句符号对文书数据切分为句子形式,构成句子集合;
S13、使用自然语言处理工具对句子集合中的每个句子进行分词处理;
S14、构建金融领域停用词表,结合通用领域停用词表,去除停用词。
在所述步骤S2中,定义金融事件模板的具体步骤为:
S21、基于步骤S14的分词结果,使用开源词性标注工具对词语进行词性标注,使用TF-IDF算法获取最能代表句子的N个关键词;
S22、基于步骤S14的分词结果,使用word2vec模型获取金融事件文本中词对应的词向量;
S23、基于步骤S22提取出的S21中关键词进行基于语义距离的k-means聚类;
S24、基于步骤S23的聚类结果集合,结合人工经验和金融领域的专业知识总结金融领域的事件类型和模板,事件模板包括触发词和事件元素。
在所述步骤S24中,后续对于新增金融事件文本语料数据使用增量聚类的方式对关键词集合进行拓展,或者同时可能新增事件类型以及模板。
在所述步骤S3中,远程监督结合模板方法的数据自动标注及降噪处理包括以下步骤:
S31、利用规则或模式的方法从半结构化的初级金融事件文本语料数据中获取种子金融事件,构建原始金融事件数据库;
S32、获取关键事件元素角色,构建动词、名词触发词集;
S33、利用近义词表对触发词集进行拓展;
S34、利用远程监督学习结合模板的方式进行语料数据自动标注;
S35、对生成的数据进行启发式标签剪枝来消除远程监督产生的噪声数据并将处理好的数据加入事件数据库中。
在所述步骤S35中,对生成的数据进行启发式标签剪枝具有以下方法:
a、同层次剪枝:若一个样本的标签类型为:A/B、A/C,则剪枝为A(说明:此处的B和C为同级标签类型);
b、粗粒度剪枝:设置少量粗粒度类型标签,训练一个分类器,删除在该类型集上输出不一致的样本;
c、低频剪枝:当前类型标签出现次数少于某一阈值,则剪枝。
在所述S4中,使用预训练语言模型结合深度学习模型来对爬取的文本内容进行金融事件的抽取识别任务包括以下步骤:
S41、编码阶段,使用预训练模型进行词向量嵌入,在完成编码之后,用双向的LSTM网络和CNN卷积神经网络进一步提取向量特征;
S41、预测阶段,使用双向LSTM网络抽取出的全局向量特征和CNN提取出的局部向量特征联合后进行预测。
与相关技术相比较,本发明提供的基于预训练语言结合深度学习模型的金融事件抽取方法具有如下有益效果:
本发明提供基于预训练语言结合深度学习模型的金融事件抽取方法,(1)、通过使用机器学习结合领域知识的方式,定义金融领域事件类型以及模板,大大减少了人工定义事件的时间成本和劳动成本;
(2)、通过使用远程监督学习的方式,实现金融领域事件语料数据的大规模自动标注,并使用启发式剪枝的方法有效地减少了数据噪音,填补了目前金融事件抽取领域缺少大规模语料数据的空白,进而能够准确快速地挖掘出关键、并且能为投资者所利用的事件信息;
(3)、通过使用模型抽取语义特征,让基于预训练语言模型结合深度学习模型能学习到更多潜在的语义信息,提升了金融事件抽取的效果。
第二实施例
基于本发明的第一实施例基于预训练语言结合深度学习模型的金融事件抽取方法,本发明的第二实施例提供另基于预训练语言结合深度学习模型的金融事件抽取方法,其中,第二实施例并不会妨碍第一实施例的技术方案的独立实施。
具体的,本发明的提供另基于预训练语言结合深度学习模型的金融事件抽取方法不同之处在于:
还包括用于完成金融事件抽取的运行***,所述运行***包括用于获取公开金融事件文本语料的数据获取模块、用于对原始金融事件文本语料进行文本预处理的数据处理模块、用于从半结构化的初级金融事件文本语料数据中获取种子金融事件的种子金融事件获取模块、用于定义金融事件以及建立金融事件类型模板的金融事件模板建立模块、用于进行语料数据自动标注的远程监督学习模块、用于完成爬取的文本内容进行金融事件的抽取识别任务的金融事件抽取模块、原始金融事件数据库以及金融事件数据库。
原始金融事件数据库用于保存获取的种子金融事件,金融事件数据库用于保存标签剪枝来消除远程监督产生的噪声数据并将处理好的数据。
所述数据获取模块与所述数据处理模块信号连接,所述数据处理模块分别与所述种子金融事件获取模块以及金融事件模板建立模块信号连接,所述种子金融事件获取模块与所述原始金融事件数据库信号连接,所述金融事件数据库分别与所述金融事件模板建立模块、所述远程监督学习模块以及所述金融事件抽取模块信号连接。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,包括以下操作步骤:
S1、数据获取和预处理:
使用网络爬虫爬取公开金融事件文本语料,对原始金融事件文本语料进行文本预处理,获得可用的初级金融事件文本语料数据;
S2、定义金融事件模板:
对金融领域中出现的高频词组、关键名词进行聚类处理,根据聚类结果将距离相近的近似词,参考相关领域知识定义金融事件以及建立金融事件类型模板;
S3、远程监督结合模板方法的数据自动标注及降噪处理:
利用规则或模式的方法从半结构化的初级金融事件文本语料数据中获取种子金融事件,构建原始金融事件数据库;获取关键事件元素角色,构建动词、名词触发词集;利用近义词表对触发词集进行拓展;利用远程监督学习结合模板的方式进行语料数据自动标注,然后对生成的数据进行启发式标签剪枝来消除远程监督产生的噪声数据并将处理好的数据加入事件数据库中;
S4、使用预训练语言模型结合深度学习模型来对爬取的文本内容进行金融事件的抽取识别任务。
2.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,在所述S1中,对原始金融事件文本语料进行文本预处理包括:依次进行分句、分词、去噪、替换。
3.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,在所述S1中,获取可用的金融事件文本语料数据的具体步骤为:
S11、使用爬虫从金融新闻网站爬取公开的金融事件文本数据;
S12、对获取的部分金融事件文本数据按照事件类型进行整理,将金融事件文本数据的标点符号统一为中文格式,按照包括的中文标点断句符号对文书数据切分为句子形式,构成句子集合;
S13、使用自然语言处理工具对句子集合中的每个句子进行分词处理;
S14、构建金融领域停用词表,结合通用领域停用词表,去除停用词。
4.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,在所述步骤S2中,定义金融事件模板的具体步骤为:
S21、基于步骤S14的分词结果,使用开源词性标注工具对词语进行词性标注,使用TF-IDF算法获取最能代表句子的N个关键词;
S22、基于步骤S14的分词结果,使用word2vec模型获取金融事件文本中词对应的词向量;
S23、基于步骤S22提取出的S21中关键词进行基于语义距离的k-means聚类;
S24、基于步骤S23的聚类结果集合,结合人工经验和金融领域的专业知识总结金融领域的事件类型和模板,事件模板包括触发词和事件元素。
5.根据权利要求4所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,在所述步骤S24中,后续对于新增金融事件文本语料数据使用增量聚类的方式对关键词集合进行拓展,或者同时可能新增事件类型以及模板。
6.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,在所述步骤S3中,远程监督结合模板方法的数据自动标注及降噪处理包括以下步骤:
S31、利用规则或模式的方法从半结构化的初级金融事件文本语料数据中获取种子金融事件,构建原始金融事件数据库;
S32、获取关键事件元素角色,构建动词、名词触发词集;
S33、利用近义词表对触发词集进行拓展;
S34、利用远程监督学习结合模板的方式进行语料数据自动标注;
S35、对生成的数据进行启发式标签剪枝来消除远程监督产生的噪声数据并将处理好的数据加入事件数据库中。
7.根据权利要求6所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,在所述步骤S35中,对生成的数据进行启发式标签剪枝具有以下方法:
a、同层次剪枝:若一个样本的标签类型为:A/B、A/C,则剪枝为A(说明:此处的B和C为同级标签类型);
b、粗粒度剪枝:设置少量粗粒度类型标签,训练一个分类器,删除在该类型集上输出不一致的样本;
c、低频剪枝:当前类型标签出现次数少于某一阈值,则剪枝。
8.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,在所述S4中,使用预训练语言模型结合深度学习模型来对爬取的文本内容进行金融事件的抽取识别任务包括以下步骤:
S41、编码阶段,使用预训练模型进行词向量嵌入,在完成编码之后,用双向的LSTM网络和CNN卷积神经网络进一步提取向量特征;
S41、预测阶段,使用双向LSTM网络抽取出的全局向量特征和CNN提取出的局部向量特征联合后进行预测。
9.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,还包括用于完成金融事件抽取的运行***,所述运行***包括用于获取公开金融事件文本语料的数据获取模块、用于对原始金融事件文本语料进行文本预处理的数据处理模块、用于从半结构化的初级金融事件文本语料数据中获取种子金融事件的种子金融事件获取模块、用于定义金融事件以及建立金融事件类型模板的金融事件模板建立模块、用于进行语料数据自动标注的远程监督学习模块、用于完成爬取的文本内容进行金融事件的抽取识别任务的金融事件抽取模块、原始金融事件数据库以及金融事件数据库。
10.根据权利要求9所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,所述数据获取模块与所述数据处理模块信号连接,所述数据处理模块分别与所述种子金融事件获取模块以及金融事件模板建立模块信号连接,所述种子金融事件获取模块与所述原始金融事件数据库信号连接,所述金融事件数据库分别与所述金融事件模板建立模块、所述远程监督学习模块以及所述金融事件抽取模块信号连接。
CN202111170651.1A 2021-10-08 2021-10-08 基于预训练语言结合深度学习模型的金融事件抽取方法 Withdrawn CN113934909A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111170651.1A CN113934909A (zh) 2021-10-08 2021-10-08 基于预训练语言结合深度学习模型的金融事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111170651.1A CN113934909A (zh) 2021-10-08 2021-10-08 基于预训练语言结合深度学习模型的金融事件抽取方法

Publications (1)

Publication Number Publication Date
CN113934909A true CN113934909A (zh) 2022-01-14

Family

ID=79278150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111170651.1A Withdrawn CN113934909A (zh) 2021-10-08 2021-10-08 基于预训练语言结合深度学习模型的金融事件抽取方法

Country Status (1)

Country Link
CN (1) CN113934909A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661792A (zh) * 2022-03-25 2022-06-24 北京感易智能科技有限公司 金融数据处理方法、装置、电子设备、介质及产品
CN115983268A (zh) * 2023-03-17 2023-04-18 北京澜舟科技有限公司 一种金融事件链分析方法和计算机可读存储介质
CN116205601A (zh) * 2023-02-27 2023-06-02 开元数智工程咨询集团有限公司 基于互联网的工程清单复核及数据统计方法与***
CN116501898A (zh) * 2023-06-29 2023-07-28 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661792A (zh) * 2022-03-25 2022-06-24 北京感易智能科技有限公司 金融数据处理方法、装置、电子设备、介质及产品
CN116205601A (zh) * 2023-02-27 2023-06-02 开元数智工程咨询集团有限公司 基于互联网的工程清单复核及数据统计方法与***
CN116205601B (zh) * 2023-02-27 2024-04-05 开元数智工程咨询集团有限公司 基于互联网的工程清单复核及数据统计方法与***
CN115983268A (zh) * 2023-03-17 2023-04-18 北京澜舟科技有限公司 一种金融事件链分析方法和计算机可读存储介质
CN116501898A (zh) * 2023-06-29 2023-07-28 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置
CN116501898B (zh) * 2023-06-29 2023-09-01 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置

Similar Documents

Publication Publication Date Title
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN112989841B (zh) 一种用于突发事件新闻识别与分类的半监督学习方法
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及***
CN111061882A (zh) 一种知识图谱构建方法
CN111401058B (zh) 一种基于命名实体识别工具的属性值抽取方法及装置
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN113609838B (zh) 文档信息抽取及图谱化方法和***
CN113138920B (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN111353314A (zh) 一种用于动漫生成的故事文本语义分析方法
CN111651994B (zh) 一种信息抽取方法、装置、电子设备和存储介质
CN113076133A (zh) 基于深度学习的Java程序内部注释的生成方法及***
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断***及方法
CN115952791A (zh) 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质
CN111737498A (zh) 一种应用于离散制造业生产过程的领域知识库建立方法
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质
CN112488593B (zh) 一种用于招标的辅助评标***及方法
CN115169370A (zh) 语料数据增强方法、装置、计算机设备及介质
CN114491030A (zh) 技能标签的抽取、候选短语分类模型的训练方法及装置
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及***
CN115495541B (zh) 语料数据库、语料数据库的维护方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220114

WW01 Invention patent application withdrawn after publication