CN113255321A - 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 - Google Patents
基于文章实体词依赖关系的金融领域篇章级事件抽取方法 Download PDFInfo
- Publication number
- CN113255321A CN113255321A CN202110648901.1A CN202110648901A CN113255321A CN 113255321 A CN113255321 A CN 113255321A CN 202110648901 A CN202110648901 A CN 202110648901A CN 113255321 A CN113255321 A CN 113255321A
- Authority
- CN
- China
- Prior art keywords
- entity
- event
- candidate
- word
- financial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法,设计了一种结构化依赖自注意力机制模块,该模块将文章中的实体词依赖关系作为事件抽取深度学习模型的一种输入数据,与词级、语句级的语言特征结合以提升深度学习模型在进行金融事件抽取时的对事件触发词和事件论元的预测精度。此外,本发明在中文金融事件抽取任务中,首次提出8种不同类型的实体关系,用于统一化表示文章中的实体依赖关系。本发明同时构建了一套金融领域的层次事件关系,用于模型区分相似的事件类型。本发明从***输入到***输出,逻辑结构清晰,层次分明,***实现细节详尽,实现了一种端到端的***闭合工作方式,极易落地和大规模应用。
Description
技术领域
本发明属于人工智能与金融的交叉领域,尤其涉及一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法。
背景技术
现阶段人工智能正逐步涉足各个行业领域,并为其发展提供了新的可能。金融领域,作为实时数据产生最大的行业之一,同样步入“AI+金融”时代。作为金融领域的重要任务之一,从重大金融公告/新闻中,抽取出具有价值的重大金融事件是非常有意义与价值的。目前已知的篇章级金融事件抽取方法以基于传统规则、传统机器学习范式为技术基础的事件抽取***,存在以下不足:
1)目前大部分的金融事件抽取方法大多基于单语句的事件抽取,无法处理篇章级、多语句的金融事件抽取;
2)现有的篇章级金融事件抽取方法并没有考虑实体之间长依赖之间关系信息;例如,同一实体在不同语句中出现代表的含义,不同实体同时出现在同一语句中代表的语义信息等。而实体在不同语境或同一语境中出现所代表的含义,构成了某一实体的丰富语义信息,对于事件抽取任务而言,是必不可少的语义特征。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法。本发明将人工智能方法应用于金融领域内,针对上市公司发布的重大公告及新闻,自主提取重大事件并形成结构化事件表示。
本发明的目的是通过以下技术方案来实现的:一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法,包括以下步骤:
(1)实体词抽取:将中文文章转换为包含n个实体的实体集E={e 1,e 2,e 3,……,e n };
(3)候选论元集抽取:利用基于预训练语言模型的序列标注方法抽取文章的候选论元集A={a 1,a 2,……,a K };
(4)构建实体依赖关系和结构化自注意力模块:根据实体集中的实体词E={e 1,e 2,e 3,……,e n }及其在文章中的位置,构建不同类型的实体依赖关系;结构化自注意力模块构建结构化实体依赖特征,并输出融合了结构化实体依赖特征的实体集;
(5)候选触发词集抽取:以融合了结构化实体依赖特征的实体集为输入,利用基于预训练语言模型的序列标注方法抽取文章的候选触发词集合T={T 1,T 2,……,T u };
(6)层次化金融事件注意力模块:利用预定义的层次化金融事件结构,结合注意力机制模型生成层次化金融事件特征;
(7)以Pedal Attention机制为基础的事件触发词、事件论元联合预测:PedalAttention机制模块基于步骤(2)得到的实体词向量集,得到实体间的语义关系特征;论元抽取模块基于候选论元集、候选触发词集合、层次化金融事件特征和实体间的语义关系特征,得到对应候选论元的概率集合;触发词抽取模块基于候选触发词集合、层次化金融事件特征和实体间的语义关系特征,得到对应候选触发词的概率集合;联合预测模块基于两个概率集合预测文章中事件的触发词T’及构成事件的论元集A’。
进一步地,步骤(3)具体如下:
(3.1)使用BIO标注策略进行实体标注;
(3.2)使用基于预训练语言模型BERT的序列标注模型进行候选论元抽取;
(3.3)输出候选论元集A={a 1,a 2,……,a K }。
进一步地,步骤(4)具体如下:
(4.1)构建不同类型的实体依赖关系,对金融篇章级文本进行实体依赖关系定义得到实体依赖关系矩阵s,包括:
(a)事件的触发词在同一语句中多次出现,标记为“触发词句内共指”;
(b)事件的触发词在不同语句中出现,标记为“触发词句间共指”;
(c)事件的一个论元在同一语句中多次出现,标记为“论元句内共指”;
(d)事件的一个论元在不同语句中出现,标记为“论元句间共指”;
(e)事件的触发词和论元在同一语句中出现,标记为“实体句内相关”;
(f)事件的触发词和论元出现在不同的语句中,标记为“实体句间相关”;
(g)非实体词与触发词/论元在同一语句中的依赖关系,标记为“句内其他相关”;
(h)其它类型的非实体词与触发词/论元的关系,标记为“无依赖”;
(4.2)结构化自注意力模块构建结构化实体依赖特征,并输出融合了结构化实体依赖特征的实体集;结构化自注意力模块为可重复叠加使用的计算单元,模块的输入为实体向量特征和实体依赖关系矩阵s,且第l-1个结构化自注意力模块的输出为第l个结构化自注意力模块输入的实体向量特征;其中,第一个结构化自注意力模块输入的实体向量特征为步骤(2)得到的实体词向量集。
进一步地,步骤(4.2)具体如下:
对实体依赖关系进行参数实例化:
其中,矩阵s中的元素s i,j 代表实体i和j之间的实体依赖关系,j=1~n;表示第l
个结构化自注意力模块生成的s i,j 满足某种实体依赖关系的向量化特征;是第l个结构
化自注意力模块对s i,j 进行变换的训练参数;
利用双向仿射变换,生成整合了实体依赖关系的向量特征:
结合当前结构化自注意力模块输入的实体向量特征和结构化实体依赖关系特征,依次通过后接归一化层的特征合并层和后接归一化层的全连接层获得当前结构化自注意力模块的输出,再输入下一结构化自注意力模块,最终最后一个结构化自注意力模块的输出为融合了结构化实体依赖特征的实体集的向量特征。
进一步地,步骤(5)具体为:以步骤(4.2.2)输出的融合了结构化实体依赖特征的实体集为输入,采用BIO标注策略结合基于预训练语言模型的序列标注模型,对标注后的文章抽取候选触发词实体,输出候选触发词集合T={T 1,T 2,……,T u }。
进一步地,步骤(6)具体如下:
层次化金融事件结构将金融事件中的多个细分事件划分成不同的大类事件,具体为:大类事件包括融资、交易、股权增减持、金融指标变化、多方合作、***、上市相关和执法;其中,融资包括质押、解质押和企业借款,交易包括股份回购和企业并购,股权增减持包括股份减持和股份增持,金融指标变化包括亏损,多方合作包括中标,***包括高级经理变动,上市相关包括公司上市和破产清算,执法包括被约谈和处罚;
基于步骤(5)提取的候选触发词集合,将大类事件特征与细分事件特征进行分别
处理,大类事件特征与细分事件特征分别通过层次事件注意力机制,对所有候选论元产生
重要性权重值和,其中,是候选触发词所属大类事件生成的候选论元重要性
权重值,是候选触发词所属细分事件生成的候选论元重要性权重值;基于层次化金
融事件结构,得到第it个候选触发词对应的注意力权重:
进一步地,步骤(7)中,论元抽取模块和触发词抽取模块为两个独立的全连接层。
进一步地,步骤(7)中,联合预测模块定义事件触发词和论元的联合预测概率P(event|D)如下:
其中,D表示中文文章,event表示金融事件,代表文章D中事件发
生的概率;为候选触发词的向量表示,k对应细分事件类型,代表文章D中
候选触发词属于第k类细分事件的概率;是候选触发词的邻接实体集合;为以候选
触发词概率集合和候选论元概率集合为基础构建的相关性概率矩阵,代表候选触发词对
应的事件类型包含论元类型的概率;表示论元类型,为在候选触发
词和候选论元的文章D中,候选论元类型为的概率;最终通过两个平行的输出层
预测文章中事件的触发词T’及构成事件的论元集A’。
进一步地,利用反向传播及Adam优化算法,训练结构化自注意力模块、实体词向量映射模块、层次化金融事件注意力模块、Pedal Attention机制模块、论元抽取模块、触发词抽取模块、联合预测模块的参数。
本发明的有益效果是:
(1)本发明定义了8种篇章级金融长文本种存在的实体关系类型,能够极大的提升机器学/深度学习模型对模型中实体关系信息的建模;
(2)本发明根据金融事件抽取的类别,定义了一套层次金融事件结构,能够帮助机器学习/深度学习模型更好的构建事件类别之间的关系,更准确的区分相似事件;
(3)本发明设计的层次化金融事件注意力机制和结构化实体依赖自注意力机制将上述两种信息融入模型的实体语义和实体关系建模当中,以联合训练方式,使模型进行更高精度得金融事件的触发词及其类型预测和论元及其类型预测;
(4)本发明提供了一种新的端到端(金融长文本端到结构化事件端)的金融长文本事件抽取方法,该方法能够有效的提升金融机构对实时长文本核心要素的提取效率,提高金融机构应对海量金融文本信息的处理能力。
附图说明
图1为基于文章实体词依赖关系的金融领域篇章级事件抽取方法的整体结构图;
图2为实体依赖关系矩阵s示意图;
图3为结构化自注意力模块示意图。
具体实施方式
本发明一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法,从实际金融领域篇章级公告入手分析,总结金融领域篇章级公告的实际实体分布情况,总结并定义了8种篇章级文本的实体依赖关系类型;利用基于深度学***行的预测模块,同时输出篇章级长文本的金融时间要素:金融事件触发词与金融事件相关的论元集合。如图1所示,具体包括以下步骤:
(1)实体词抽取:将一篇中文文章转换为包含n个实体e i 的实体集E={e 1,e 2,e 3,……,e n },e i 为第i个实体,i=1,2,3,…,n。本步骤得到的是一串未标记的实体序列。
(3)抽取候选论元集:在进行事件抽取计算前,本发明利用基于预训练语言模型的序列标注方法对文章抽取候选论元集。由于任何无结构化的金融文章(公告/新闻)等,无任何有意义的候选论元集合;因此,本发明在进行事件抽取前要进行候选论元抽取,包括以下子步骤:
(3.1)使用BIO标注策略对目标文章进行实体标注,包括触发词、论元和非实体词。
(3.2)使用基于预训练语言模型BERT的序列标注模型对步骤(3.1)标注后的文章(实体词向量集)进行候选论元抽取。
(4)基于结构化自注意力模块获得融合了结构化实体依赖特征的实体集。
(4.1)构建实体依赖关系。
根据步骤(1)得到的实体集E={e 1,e 2,e 3,……,e n }及其在文章中的位置,本发明定义了实体依赖集合S,包括八种不同类型的实体依赖关系。
本发明基于对中文金融篇章级文本的分析得出以下三条结论:
(i)事件的触发词可能会出现在文章中多个句子中;
(ii)事件的同一个论元可能会出现在文章中的多个句子中;
(iii)事件的不同论元可能同时出现在一个句子中,或分布在不同的句子中。
基于以上分析结果并依据实体在文章中所处的位置,本发明划分八种实体依赖关系如下:
(a)事件的触发词在同一语句中多次出现,标记为“触发词句内共指”;
(b)事件的触发词在不同语句中出现,标记为“触发词句间共指”;
(c)事件的一个论元在同一语句中多次出现,标记为“论元句内共指”;
(d)事件的一个论元在不同语句中出现,标记为“论元句间共指”;
(e)事件的触发词和论元在同一语句中出现,标记为“实体句内相关”,代表这对触发词和论元集以某种谓词语义相关联;
(f)事件的触发词和论元出现在不同的语句中,标记为“实体句间相关”;
(g)非实体词与触发词/论元在同一语句中的依赖关系,定义为“句内其他相关”;
(h)其它类型的非实体词与触发词/论元的关系,由于没有包含关键的语义及依赖信息,标记为“无依赖”。
因此,本发明将结构化实体依赖关系,形式化为八种以实体为中心的、元素源自有限实体关系集合的矩阵,即实体依赖集合S={“触发词句内共指”,“触发词句间共指”,“论元句内共指”,“论元句间共指”,“实体句内相关”,“实体句间相关”,“句内其他相关”,“无依赖”}。
对金融篇章级文本进行实体依赖关系定义得到二维矩阵s,具体为:依据实体依赖集合S,为每一个语句对(句子S1和句子S2)构造一个二维矩阵s,依据本发明定义的八种实体依赖关系以及不同类型实体在句子中的位置,对不同位置的实体进行关系标记。矩阵s的具体结构如图2所示,“N T1 N A2 A1 N A2 T A3”为两个由不同实体组成的句子;其中,“NT1 N A2 A1 N”为句子S1,“A2 T A3”为句子S2;N为非实体词,T1为某类触发词,A1、A2为两类不同的论元。举例说明,第二行的实体T1与第一列的实体N满足“句内其他相关”的实体依赖关系g;第二行的实体T1与自身(第二列的实体T1)满足“触发词句内共指”的实体依赖关系a。
(4.2)如图3所示,定义金融篇章级文本的实体依赖关系后,结构化自注意力模块构建结构化实体依赖特征,并输出融合了结构化实体依赖特征的实体集。结构化自注意力模块为可重复叠加使用的计算单元,模块的输入为实体向量特征和实体依赖关系矩阵s,且第l-1个结构化自注意力模块的输出为第l个结构化自注意力模块输入的实体向量特征;其中,第一个结构化自注意力模块输入的实体向量特征为步骤(2)得到的实体词向量集。结构化自注意力模块可以与任意语言模型结合。
(4.2.1.1)为了将实体依赖关系矩阵s整合到端到端的金融事件抽取模型处理过程中,本发明对八种类型的实体依赖关系进行了特定的参数实例化:
其中,二维矩阵s中的元素s i,j 代表实体i和j之间的实体依赖关系,j=1~n;表示
第l个结构化自注意力模块生成的s i,j 满足某种实体依赖关系的向量化特征;是第l个结
构化自注意力模块对s i,j 进行变换的训练参数。
(4.2.2)通过特征合并层,将实体i对应的第j个结构化自注意力模块输入的实体
向量特征,和步骤(4.2.1.2)得到的结构化实体依赖关系特征进行合并;然后通过归
一化层,基于第j个结构化自注意力模块输入的实体向量特征进行第一次归一化;再经过全
连接层,最后通过归一化层基于第一次归一化的结果进行第二次归一化,得到第j个结构化
自注意力模块的输出,最后一个结构化自注意力模块的输出为融合了结构化实体依赖特征
的实体集的向量特征。
(5)提取候选触发词集合:与步骤(3)抽取候选论元集同理,以步骤(4.2.2)输出的融合了结构化实体依赖特征的实体集为输入,采用BIO标注策略结合基于预训练语言模型的序列标注模型,对标注后的文章抽取候选触发词实体,输出候选触发词集合T={T 1,T 2,……,T u },其中T是E的一个子集。
(6)层次化金融事件注意力模块用于构建层次化金融事件特征。
利用预定义的层次化金融事件结构,结合注意力机制模型生成结合了大类金融事件特征的特定金融事件表征。本发明将十四类细分金融事件划分成八种大类金融事件,所述层次化金融事件结构如下:
本发明利用针对八种大类事件和十四种细分事件的线性变换函数,以步骤(5)提
取的候选触发词集合为输入,产生变换后的向量特征,分别对应各大类事件与细分事件,即
得到大类事件特征与细分事件特征。然后,大类事件特征与细分事件特征分别通过层次事
件注意力机制,对所有候选论元产生重要性权重值和;其中,是候选触发词所
属大类事件生成的候选论元重要性权重值,是候选触发词所属细分事件生成的候选
论元重要性权重值;最终采取如下的方法获得层次化金融事件特征的注意力权重:
(7)基于步骤(2)得到的实体词向量集,以Pedal Attention机制为基础的事件触发词、事件论元联合预测。
(7.1)Pedal Attention机制模块:为了解决篇章级长文本下,深度学习模型难以
捕获长文中语义单元之间语义关系的问题,本发明采用Pedal Attention机制,以实体i的
邻接实体集合N i ,和实体i与N i 的边的集合D i 为输入,输出实体i和实体j之间的语义关系特
征:
(7.2)论元抽取模块和触发词抽取模块:本发明结合上述步骤生成的候选论元集
合A、候选触发词集合T、层次化金融事件特征及实体之间的语义关系特征,采用两个
独立的Full-connected模块(全连接层)构建触发词抽取模块和论元抽取模块。其中,论元
抽取模块以、、A、T为输入,产生对应候选论元的概率集合;触发词抽取模块以、
和T为输入,产生对应候选触发词的概率集合。
(7.3)联合预测模块:本发明以候选触发词概率集合和候选论元概率集合为基础,构建一个相关性概率矩阵W e2a ,最终模型的事件触发词和论元的联合预测概率P(event|D)定义如下:
其中,D表示中文金融文章,event表示金融事件,代表文章D中事
件发生的概率;为候选触发词的向量表示,k对应细分金融事件类型,代
表文章D中候选触发词属于第k类细分金融事件的概率;是候选触发词的邻接实体
集合;代表候选触发词对应的事件类型包含论元类型的概率;表示论元类型,为在候选触发词和候选论元的文章D中,候选论元类型为的
概率。
最终通过两个平行的输出层,触发词输出模块和论元输出模块,同时预测文章中事件的触发词T’及构成事件的论元集A’。
(8)本发明利用有监督的机器学习训练方式对模型进行训练,训练样本由各类上市公司公开发布的公告和新闻构成,训练过程中采用模型预测的事件结构与真实事件结构的误差,结合误差反向传播机制来更新步骤(2)~(7)中涉及到的可训练参数。包括以下步骤:
将预先收集的金融文档数据作为训练样本进行模型训练。其中,金融文档的全部文本内容作为输入数据依次输入到步骤(1)~(3)中;然后,经过步骤(4)~(7)的计算,最终联合预测模块同时输出构成金融事件的触发词和与事件相关的论元集。模型生成的结构化事件与文本中包含的真实事件进行对比,产生误差,利用反向传播算法和最优化算法将误差值包含的信息应用于步骤(2)~(7)中所有涉及到的可训练参数上,对模型参数进行更新优化。利用这些金融文档数据反复执行步骤(2)~(7),最终得到结构化自注意力模块、实体词向量映射模块、层次化金融事件注意力模块、Pedal Attention机制模块、论元抽取模块、触发词抽取模块、联合预测模块的参数。
(9)输入待识别金融文档,经过步骤(1)~(7)的处理,预测得到构成金融事件的触发词和与事件相关的论元集。
Claims (10)
1.一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,包括以下步骤:
(1)实体词抽取:将中文文章转换为包含n个实体的实体集E={e 1,e 2,e 3,……,e n };
(3)候选论元集抽取:利用基于预训练语言模型的序列标注方法抽取文章的候选论元集A={a 1,a 2,……,a K };
(4)构建实体依赖关系和结构化自注意力模块:根据实体集中的实体词E={e 1,e 2,e 3,……,e n }及其在文章中的位置,构建不同类型的实体依赖关系;结构化自注意力模块构建结构化实体依赖特征,并输出融合了结构化实体依赖特征的实体集;
(5)候选触发词集抽取:以融合了结构化实体依赖特征的实体集为输入,利用基于预训练语言模型的序列标注方法抽取文章的候选触发词集合T={T 1,T 2,……,T u };
(6)层次化金融事件注意力模块:利用预定义的层次化金融事件结构,结合注意力机制模型生成层次化金融事件特征;
(7)以Pedal Attention机制为基础的事件触发词、事件论元联合预测:PedalAttention机制模块基于步骤(2)得到的实体词向量集,得到实体间的语义关系特征;论元抽取模块基于候选论元集、候选触发词集合、层次化金融事件特征和实体间的语义关系特征,得到对应候选论元的概率集合;触发词抽取模块基于候选触发词集合、层次化金融事件特征和实体间的语义关系特征,得到对应候选触发词的概率集合;联合预测模块基于两个概率集合预测文章中事件的触发词T’及构成事件的论元集A’。
2.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(3)具体如下:
(3.1)使用BIO标注策略进行实体标注;
(3.2)使用基于预训练语言模型BERT的序列标注模型进行候选论元抽取;
(3.3)输出候选论元集A={a 1,a 2,……,a K }。
3.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(4)具体如下:
(4.1)构建不同类型的实体依赖关系,对金融篇章级文本进行实体依赖关系定义得到实体依赖关系矩阵s,包括:
(a)事件的触发词在同一语句中多次出现,标记为“触发词句内共指”;
(b)事件的触发词在不同语句中出现,标记为“触发词句间共指”;
(c)事件的一个论元在同一语句中多次出现,标记为“论元句内共指”;
(d)事件的一个论元在不同语句中出现,标记为“论元句间共指”;
(e)事件的触发词和论元在同一语句中出现,标记为“实体句内相关”;
(f)事件的触发词和论元出现在不同的语句中,标记为“实体句间相关”;
(g)非实体词与触发词/论元在同一语句中的依赖关系,标记为“句内其他相关”;
(h)其它类型的非实体词与触发词/论元的关系,标记为“无依赖”;
(4.2)结构化自注意力模块构建结构化实体依赖特征,并输出融合了结构化实体依赖特征的实体集;结构化自注意力模块为可重复叠加使用的计算单元,模块的输入为实体向量特征和实体依赖关系矩阵s,且第l-1个结构化自注意力模块的输出为第l个结构化自注意力模块输入的实体向量特征;其中,第一个结构化自注意力模块输入的实体向量特征为步骤(2)得到的实体词向量集。
4.根据权利要求3所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(4.2)具体如下:
对实体依赖关系进行参数实例化:
其中,矩阵s中的元素s i,j 代表实体i和j之间的实体依赖关系,j=1~n;表示第l个结
构化自注意力模块生成的s i,j 满足某种实体依赖关系的向量化特征;是第l个结构化自
注意力模块对s i,j 进行变换的训练参数;
利用双向仿射变换,生成整合了实体依赖关系的向量特征:
结合当前结构化自注意力模块输入的实体向量特征和结构化实体依赖关系特征,依次通过后接归一化层的特征合并层和后接归一化层的全连接层获得当前结构化自注意力模块的输出,再输入下一结构化自注意力模块,最终最后一个结构化自注意力模块的输出为融合了结构化实体依赖特征的实体集的向量特征。
5.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(5)具体为:以步骤(4.2.2)输出的融合了结构化实体依赖特征的实体集为输入,采用BIO标注策略结合基于预训练语言模型的序列标注模型,对标注后的文章抽取候选触发词实体,输出候选触发词集合T={T 1,T 2,……,T u }。
6.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(6)具体如下:
层次化金融事件结构将金融事件中的多个细分事件划分成不同的大类事件,具体为:大类事件包括融资、交易、股权增减持、金融指标变化、多方合作、***、上市相关和执法;其中,融资包括质押、解质押和企业借款,交易包括股份回购和企业并购,股权增减持包括股份减持和股份增持,金融指标变化包括亏损,多方合作包括中标,***包括高级经理变动,上市相关包括公司上市和破产清算,执法包括被约谈和处罚;
基于步骤(5)提取的候选触发词集合,将大类事件特征与细分事件特征进行分别处理,
大类事件特征与细分事件特征分别通过层次事件注意力机制,对所有候选论元产生重要性
权重值和,其中,是候选触发词所属大类事件生成的候选论元重要性权重值,是候选触发词所属细分事件生成的候选论元重要性权重值;基于层次化金融事件结
构,得到第it个候选触发词对应的注意力权重:
8.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(7)中,论元抽取模块和触发词抽取模块为两个独立的全连接层。
9.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(7)中,联合预测模块定义事件触发词和论元的联合预测概率P(event|D)如下:
10.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,利用反向传播及Adam优化算法,训练结构化自注意力模块、实体词向量映射模块、层次化金融事件注意力模块、Pedal Attention机制模块、论元抽取模块、触发词抽取模块、联合预测模块的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648901.1A CN113255321B (zh) | 2021-06-10 | 2021-06-10 | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648901.1A CN113255321B (zh) | 2021-06-10 | 2021-06-10 | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255321A true CN113255321A (zh) | 2021-08-13 |
CN113255321B CN113255321B (zh) | 2021-10-29 |
Family
ID=77187501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110648901.1A Active CN113255321B (zh) | 2021-06-10 | 2021-06-10 | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255321B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN113779227A (zh) * | 2021-11-12 | 2021-12-10 | 成都数之联科技有限公司 | 案情事实抽取方法及***及装置及介质 |
CN113987104A (zh) * | 2021-09-28 | 2022-01-28 | 浙江大学 | 一种基于本体指导的生成式事件抽取方法 |
CN114742016A (zh) * | 2022-04-01 | 2022-07-12 | 山西大学 | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 |
CN115841105A (zh) * | 2022-09-21 | 2023-03-24 | 中国人民解放军海军工程大学 | 一种基于事件类型层级关系的事件抽取方法、***及介质 |
CN115983268A (zh) * | 2023-03-17 | 2023-04-18 | 北京澜舟科技有限公司 | 一种金融事件链分析方法和计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783394A (zh) * | 2020-08-11 | 2020-10-16 | 深圳市北科瑞声科技股份有限公司 | 事件抽取模型的训练方法、事件抽取方法和***及设备 |
CN111859935A (zh) * | 2020-07-03 | 2020-10-30 | 大连理工大学 | 基于文献的癌症相关生物医学事件数据库构建方法 |
CN112163416A (zh) * | 2020-10-09 | 2021-01-01 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
-
2021
- 2021-06-10 CN CN202110648901.1A patent/CN113255321B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859935A (zh) * | 2020-07-03 | 2020-10-30 | 大连理工大学 | 基于文献的癌症相关生物医学事件数据库构建方法 |
CN111783394A (zh) * | 2020-08-11 | 2020-10-16 | 深圳市北科瑞声科技股份有限公司 | 事件抽取模型的训练方法、事件抽取方法和***及设备 |
CN112163416A (zh) * | 2020-10-09 | 2021-01-01 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
Non-Patent Citations (3)
Title |
---|
李冬梅等: "实体关系抽取方法研究综述", 《计算机研究与发展》 * |
纪宇泽: "事件的触发词与论元联合抽取方法研究", 《中国优秀博硕士学位论文全文数据库(电子期刊)》 * |
邬宗玲: "非结构化医学病历信息抽取的方法研究", 《中国优秀博硕士学位论文全文数据库(电子期刊)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN113987104A (zh) * | 2021-09-28 | 2022-01-28 | 浙江大学 | 一种基于本体指导的生成式事件抽取方法 |
CN113779227A (zh) * | 2021-11-12 | 2021-12-10 | 成都数之联科技有限公司 | 案情事实抽取方法及***及装置及介质 |
CN114742016A (zh) * | 2022-04-01 | 2022-07-12 | 山西大学 | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 |
CN115841105A (zh) * | 2022-09-21 | 2023-03-24 | 中国人民解放军海军工程大学 | 一种基于事件类型层级关系的事件抽取方法、***及介质 |
CN115841105B (zh) * | 2022-09-21 | 2024-02-27 | 中国人民解放军海军工程大学 | 一种基于事件类型层级关系的事件抽取方法、***及介质 |
CN115983268A (zh) * | 2023-03-17 | 2023-04-18 | 北京澜舟科技有限公司 | 一种金融事件链分析方法和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113255321B (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Incorporating stock prices and news sentiments for stock market prediction: A case of Hong Kong | |
CN113255321B (zh) | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 | |
CN109766524B (zh) | 一种并购重组类公告信息抽取方法及*** | |
CN110990525A (zh) | 一种基于自然语言处理的舆情信息抽取及知识库生成方法 | |
Fu et al. | Listening to the investors: A novel framework for online lending default prediction using deep learning neural networks | |
CN106611375A (zh) | 一种基于文本分析的信用风险评估方法及装置 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
Zhang et al. | Aspect-based sentiment analysis for user reviews | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
Sadr et al. | ACNN-TL: attention-based convolutional neural network coupling with transfer learning and contextualized word representation for enhancing the performance of sentiment classification | |
CN116383399A (zh) | 一种事件舆情风险预测方法及*** | |
CN116245107B (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN115329088B (zh) | 图神经网络事件检测模型的鲁棒性分析方法 | |
CN114637827A (zh) | 一种基于图神经网络的碳交易文本事件抽取方法 | |
CN114896386A (zh) | 基于BiLSTM的电影评论语义情感分析方法及*** | |
Subbalakshmi et al. | A Gravitational Search Algorithm Study on Text Summarization Using NLP | |
Liu et al. | Deep bi-directional interaction network for sentence matching | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
CN111259106A (zh) | 一种结合神经网络和特征演算的关系抽取方法 | |
CN116226404A (zh) | 一种针对肠-脑轴的知识图谱构建方法及知识图谱*** | |
Lu et al. | On semi-supervised multiple representation behavior learning | |
CN113361259A (zh) | 一种服务流程抽取方法 | |
Wang et al. | Methods for Acquiring and Incorporating Knowledge into Stock Price Prediction: A Survey | |
Khashabi | On the recursive neural networks for relation extraction and entity recognition | |
Zhang et al. | SMPDF: stock movement prediction based on stock prices and text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |