CN113255321A - 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 - Google Patents

基于文章实体词依赖关系的金融领域篇章级事件抽取方法 Download PDF

Info

Publication number
CN113255321A
CN113255321A CN202110648901.1A CN202110648901A CN113255321A CN 113255321 A CN113255321 A CN 113255321A CN 202110648901 A CN202110648901 A CN 202110648901A CN 113255321 A CN113255321 A CN 113255321A
Authority
CN
China
Prior art keywords
entity
event
candidate
word
financial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110648901.1A
Other languages
English (en)
Other versions
CN113255321B (zh
Inventor
王海涛
许浩
刘智
周丹
孙婉琪
马雪环
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110648901.1A priority Critical patent/CN113255321B/zh
Publication of CN113255321A publication Critical patent/CN113255321A/zh
Application granted granted Critical
Publication of CN113255321B publication Critical patent/CN113255321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法,设计了一种结构化依赖自注意力机制模块,该模块将文章中的实体词依赖关系作为事件抽取深度学习模型的一种输入数据,与词级、语句级的语言特征结合以提升深度学习模型在进行金融事件抽取时的对事件触发词和事件论元的预测精度。此外,本发明在中文金融事件抽取任务中,首次提出8种不同类型的实体关系,用于统一化表示文章中的实体依赖关系。本发明同时构建了一套金融领域的层次事件关系,用于模型区分相似的事件类型。本发明从***输入到***输出,逻辑结构清晰,层次分明,***实现细节详尽,实现了一种端到端的***闭合工作方式,极易落地和大规模应用。

Description

基于文章实体词依赖关系的金融领域篇章级事件抽取方法
技术领域
本发明属于人工智能与金融的交叉领域,尤其涉及一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法。
背景技术
现阶段人工智能正逐步涉足各个行业领域,并为其发展提供了新的可能。金融领域,作为实时数据产生最大的行业之一,同样步入“AI+金融”时代。作为金融领域的重要任务之一,从重大金融公告/新闻中,抽取出具有价值的重大金融事件是非常有意义与价值的。目前已知的篇章级金融事件抽取方法以基于传统规则、传统机器学习范式为技术基础的事件抽取***,存在以下不足:
1)目前大部分的金融事件抽取方法大多基于单语句的事件抽取,无法处理篇章级、多语句的金融事件抽取;
2)现有的篇章级金融事件抽取方法并没有考虑实体之间长依赖之间关系信息;例如,同一实体在不同语句中出现代表的含义,不同实体同时出现在同一语句中代表的语义信息等。而实体在不同语境或同一语境中出现所代表的含义,构成了某一实体的丰富语义信息,对于事件抽取任务而言,是必不可少的语义特征。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法。本发明将人工智能方法应用于金融领域内,针对上市公司发布的重大公告及新闻,自主提取重大事件并形成结构化事件表示。
本发明的目的是通过以下技术方案来实现的:一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法,包括以下步骤:
(1)实体词抽取:将中文文章转换为包含n个实体的实体集E={e 1,e 2,e 3,……,e n };
(2)实体词向量映射模块:使用Embedding映射方法将实体集
Figure 81738DEST_PATH_IMAGE001
的汉语实体映射为 向量空间的实体词向量集,实体词向量为:
Figure 733299DEST_PATH_IMAGE002
其中,i=1~ne i 为第i个实体,LM为向量映射函数,W e 为生成实体词向量
Figure 857244DEST_PATH_IMAGE003
的可训练 参数;
(3)候选论元集抽取:利用基于预训练语言模型的序列标注方法抽取文章的候选论元集A={a 1,a 2,……,a K };
(4)构建实体依赖关系和结构化自注意力模块:根据实体集中的实体词E={e 1,e 2,e 3,……,e n }及其在文章中的位置,构建不同类型的实体依赖关系;结构化自注意力模块构建结构化实体依赖特征,并输出融合了结构化实体依赖特征的实体集;
(5)候选触发词集抽取:以融合了结构化实体依赖特征的实体集为输入,利用基于预训练语言模型的序列标注方法抽取文章的候选触发词集合T={T 1,T 2,……,T u };
(6)层次化金融事件注意力模块:利用预定义的层次化金融事件结构,结合注意力机制模型生成层次化金融事件特征;
(7)以Pedal Attention机制为基础的事件触发词、事件论元联合预测:PedalAttention机制模块基于步骤(2)得到的实体词向量集,得到实体间的语义关系特征;论元抽取模块基于候选论元集、候选触发词集合、层次化金融事件特征和实体间的语义关系特征,得到对应候选论元的概率集合;触发词抽取模块基于候选触发词集合、层次化金融事件特征和实体间的语义关系特征,得到对应候选触发词的概率集合;联合预测模块基于两个概率集合预测文章中事件的触发词T’及构成事件的论元集A’
进一步地,步骤(3)具体如下:
(3.1)使用BIO标注策略进行实体标注;
(3.2)使用基于预训练语言模型BERT的序列标注模型进行候选论元抽取;
(3.3)输出候选论元集A={a 1,a 2,……,a K }。
进一步地,步骤(4)具体如下:
(4.1)构建不同类型的实体依赖关系,对金融篇章级文本进行实体依赖关系定义得到实体依赖关系矩阵s,包括:
(a)事件的触发词在同一语句中多次出现,标记为“触发词句内共指”;
(b)事件的触发词在不同语句中出现,标记为“触发词句间共指”;
(c)事件的一个论元在同一语句中多次出现,标记为“论元句内共指”;
(d)事件的一个论元在不同语句中出现,标记为“论元句间共指”;
(e)事件的触发词和论元在同一语句中出现,标记为“实体句内相关”;
(f)事件的触发词和论元出现在不同的语句中,标记为“实体句间相关”;
(g)非实体词与触发词/论元在同一语句中的依赖关系,标记为“句内其他相关”;
(h)其它类型的非实体词与触发词/论元的关系,标记为“无依赖”;
(4.2)结构化自注意力模块构建结构化实体依赖特征,并输出融合了结构化实体依赖特征的实体集;结构化自注意力模块为可重复叠加使用的计算单元,模块的输入为实体向量特征和实体依赖关系矩阵s,且第l-1个结构化自注意力模块的输出为第l个结构化自注意力模块输入的实体向量特征;其中,第一个结构化自注意力模块输入的实体向量特征为步骤(2)得到的实体词向量集。
进一步地,步骤(4.2)具体如下:
对实体依赖关系进行参数实例化:
Figure 721295DEST_PATH_IMAGE004
其中,矩阵s中的元素s i,j 代表实体ij之间的实体依赖关系,j=1~n;
Figure 100002_DEST_PATH_IMAGE005
表示第l 个结构化自注意力模块生成的s i,j 满足某种实体依赖关系的向量化特征;
Figure 129142DEST_PATH_IMAGE006
是第l个结构 化自注意力模块对s i,j 进行变换的训练参数;
利用双向仿射变换,生成整合了实体依赖关系的向量特征:
Figure 420446DEST_PATH_IMAGE007
其中,
Figure 421900DEST_PATH_IMAGE008
是第l个结构化自注意力模块的结构化实体依赖关系特征,
Figure 100002_DEST_PATH_IMAGE009
Figure 699429DEST_PATH_IMAGE010
分 别是输入第l个结构化自注意力模块的实体ij的向量化特征,
Figure 102729DEST_PATH_IMAGE011
为第l个结构化自注意 力模块的可训练参数;
结合当前结构化自注意力模块输入的实体向量特征和结构化实体依赖关系特征,依次通过后接归一化层的特征合并层和后接归一化层的全连接层获得当前结构化自注意力模块的输出,再输入下一结构化自注意力模块,最终最后一个结构化自注意力模块的输出为融合了结构化实体依赖特征的实体集的向量特征。
进一步地,步骤(5)具体为:以步骤(4.2.2)输出的融合了结构化实体依赖特征的实体集为输入,采用BIO标注策略结合基于预训练语言模型的序列标注模型,对标注后的文章抽取候选触发词实体,输出候选触发词集合T={T 1,T 2,……,T u }。
进一步地,步骤(6)具体如下:
层次化金融事件结构将金融事件中的多个细分事件划分成不同的大类事件,具体为:大类事件包括融资、交易、股权增减持、金融指标变化、多方合作、***、上市相关和执法;其中,融资包括质押、解质押和企业借款,交易包括股份回购和企业并购,股权增减持包括股份减持和股份增持,金融指标变化包括亏损,多方合作包括中标,***包括高级经理变动,上市相关包括公司上市和破产清算,执法包括被约谈和处罚;
基于步骤(5)提取的候选触发词集合,将大类事件特征与细分事件特征进行分别 处理,大类事件特征与细分事件特征分别通过层次事件注意力机制,对所有候选论元产生 重要性权重值
Figure 689568DEST_PATH_IMAGE012
Figure 178318DEST_PATH_IMAGE013
,其中,
Figure 649750DEST_PATH_IMAGE012
是候选触发词
Figure 517343DEST_PATH_IMAGE014
所属大类事件生成的候选论元重要性 权重值,
Figure 681609DEST_PATH_IMAGE013
是候选触发词
Figure 657655DEST_PATH_IMAGE014
所属细分事件生成的候选论元重要性权重值;基于层次化金 融事件结构,得到第it个候选触发词对应的注意力权重
Figure 526254DEST_PATH_IMAGE015
Figure 904145DEST_PATH_IMAGE016
第it个候选触发词对应的层次化金融事件特征
Figure 583520DEST_PATH_IMAGE017
通过如下计算得到:
Figure 46862DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE019
为候选论元
Figure 594518DEST_PATH_IMAGE020
的向量表示,
Figure 685971DEST_PATH_IMAGE021
Figure 192038DEST_PATH_IMAGE015
中候选触发词i t 与候选论元j t 的 权重关系,M e b e 是层次化金融事件注意力模块的可训练参数。
进一步地,步骤(7)中,Pedal Attention机制模块以实体i的邻接实体集合N i ,和 实体iN i 的边的集合D i 为输入,输出实体i和实体j之间的语义关系特征
Figure 877098DEST_PATH_IMAGE022
Figure 103811DEST_PATH_IMAGE023
其中,Multi_head是多头自注意力模块的函数表示,
Figure 190715DEST_PATH_IMAGE024
是实体j的向量表示;
Figure 726739DEST_PATH_IMAGE025
N i 中第p个实体,
Figure 899094DEST_PATH_IMAGE026
Figure 788553DEST_PATH_IMAGE025
的向量表示,
Figure 870910DEST_PATH_IMAGE027
是实体j
Figure 718780DEST_PATH_IMAGE025
之间边的向量表示;p=1~q
进一步地,步骤(7)中,论元抽取模块和触发词抽取模块为两个独立的全连接层。
进一步地,步骤(7)中,联合预测模块定义事件触发词和论元的联合预测概率P(event|D)如下:
Figure 378431DEST_PATH_IMAGE028
其中,D表示中文文章,event表示金融事件,
Figure 196215DEST_PATH_IMAGE029
代表文章D中
Figure 992132DEST_PATH_IMAGE030
事件发 生的概率;
Figure 745325DEST_PATH_IMAGE031
为候选触发词
Figure 767639DEST_PATH_IMAGE014
的向量表示,k对应细分事件类型,
Figure 530058DEST_PATH_IMAGE032
代表文章D中 候选触发词
Figure 446062DEST_PATH_IMAGE014
属于第k类细分事件的概率;
Figure 229210DEST_PATH_IMAGE033
是候选触发词
Figure 863453DEST_PATH_IMAGE014
的邻接实体集合;为以候选 触发词概率集合和候选论元概率集合为基础构建的相关性概率矩阵,代表候选触发词
Figure 898406DEST_PATH_IMAGE014
对 应的事件类型包含论元类型
Figure 809861DEST_PATH_IMAGE034
的概率;
Figure 904856DEST_PATH_IMAGE034
表示论元类型,
Figure 760816DEST_PATH_IMAGE035
为在候选触发 词
Figure 989672DEST_PATH_IMAGE014
和候选论元
Figure 614689DEST_PATH_IMAGE020
的文章D中,候选论元
Figure 146164DEST_PATH_IMAGE020
类型为
Figure 99208DEST_PATH_IMAGE034
的概率;最终通过两个平行的输出层 预测文章中事件的触发词T’及构成事件的论元集A’
进一步地,利用反向传播及Adam优化算法,训练结构化自注意力模块、实体词向量映射模块、层次化金融事件注意力模块、Pedal Attention机制模块、论元抽取模块、触发词抽取模块、联合预测模块的参数。
本发明的有益效果是:
(1)本发明定义了8种篇章级金融长文本种存在的实体关系类型,能够极大的提升机器学/深度学习模型对模型中实体关系信息的建模;
(2)本发明根据金融事件抽取的类别,定义了一套层次金融事件结构,能够帮助机器学习/深度学习模型更好的构建事件类别之间的关系,更准确的区分相似事件;
(3)本发明设计的层次化金融事件注意力机制和结构化实体依赖自注意力机制将上述两种信息融入模型的实体语义和实体关系建模当中,以联合训练方式,使模型进行更高精度得金融事件的触发词及其类型预测和论元及其类型预测;
(4)本发明提供了一种新的端到端(金融长文本端到结构化事件端)的金融长文本事件抽取方法,该方法能够有效的提升金融机构对实时长文本核心要素的提取效率,提高金融机构应对海量金融文本信息的处理能力。
附图说明
图1为基于文章实体词依赖关系的金融领域篇章级事件抽取方法的整体结构图;
图2为实体依赖关系矩阵s示意图;
图3为结构化自注意力模块示意图。
具体实施方式
本发明一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法,从实际金融领域篇章级公告入手分析,总结金融领域篇章级公告的实际实体分布情况,总结并定义了8种篇章级文本的实体依赖关系类型;利用基于深度学***行的预测模块,同时输出篇章级长文本的金融时间要素:金融事件触发词与金融事件相关的论元集合。如图1所示,具体包括以下步骤:
(1)实体词抽取:将一篇中文文章转换为包含n个实体e i 的实体集E={e 1,e 2,e 3,……,e n },e i 为第i个实体,i=1,2,3,…,n。本步骤得到的是一串未标记的实体序列。
(2)实体词向量映射模块:使用Embedding映射方法,将实体集E的汉语实体映射为 向量空间的实体词向量集,实体词向量
Figure 7121DEST_PATH_IMAGE003
为:
Figure 486644DEST_PATH_IMAGE036
其中,LM为向量映射函数,W e 为生成实体词向量
Figure 313655DEST_PATH_IMAGE003
的可训练参数。
(3)抽取候选论元集:在进行事件抽取计算前,本发明利用基于预训练语言模型的序列标注方法对文章抽取候选论元集。由于任何无结构化的金融文章(公告/新闻)等,无任何有意义的候选论元集合;因此,本发明在进行事件抽取前要进行候选论元抽取,包括以下子步骤:
(3.1)使用BIO标注策略对目标文章进行实体标注,包括触发词、论元和非实体词。
(3.2)使用基于预训练语言模型BERT的序列标注模型对步骤(3.1)标注后的文章(实体词向量集)进行候选论元抽取。
(3.3)基于预训练语言模型BERT的序列标注模型,输出候选论元集A={a 1,a 2,……,a K };其中,
Figure 144207DEST_PATH_IMAGE020
为候选论元,j t =1~KA是E的一个子集。
(4)基于结构化自注意力模块获得融合了结构化实体依赖特征的实体集。
(4.1)构建实体依赖关系。
根据步骤(1)得到的实体集E={e 1,e 2,e 3,……,e n }及其在文章中的位置,本发明定义了实体依赖集合S,包括八种不同类型的实体依赖关系。
本发明基于对中文金融篇章级文本的分析得出以下三条结论:
(i)事件的触发词可能会出现在文章中多个句子中;
(ii)事件的同一个论元可能会出现在文章中的多个句子中;
(iii)事件的不同论元可能同时出现在一个句子中,或分布在不同的句子中。
基于以上分析结果并依据实体在文章中所处的位置,本发明划分八种实体依赖关系如下:
(a)事件的触发词在同一语句中多次出现,标记为“触发词句内共指”;
(b)事件的触发词在不同语句中出现,标记为“触发词句间共指”;
(c)事件的一个论元在同一语句中多次出现,标记为“论元句内共指”;
(d)事件的一个论元在不同语句中出现,标记为“论元句间共指”;
(e)事件的触发词和论元在同一语句中出现,标记为“实体句内相关”,代表这对触发词和论元集以某种谓词语义相关联;
(f)事件的触发词和论元出现在不同的语句中,标记为“实体句间相关”;
(g)非实体词与触发词/论元在同一语句中的依赖关系,定义为“句内其他相关”;
(h)其它类型的非实体词与触发词/论元的关系,由于没有包含关键的语义及依赖信息,标记为“无依赖”。
因此,本发明将结构化实体依赖关系,形式化为八种以实体为中心的、元素源自有限实体关系集合的矩阵即实体依赖集合S={“触发词句内共指”,“触发词句间共指”,“论元句内共指”,“论元句间共指”,“实体句内相关”,“实体句间相关”,“句内其他相关”,“无依赖”}。
对金融篇章级文本进行实体依赖关系定义得到二维矩阵s,具体为:依据实体依赖集合S,为每一个语句对(句子S1和句子S2)构造一个二维矩阵s,依据本发明定义的八种实体依赖关系以及不同类型实体在句子中的位置,对不同位置的实体进行关系标记。矩阵s的具体结构如图2所示,“N T1 N A2 A1 N A2 T A3”为两个由不同实体组成的句子;其中,“NT1 N A2 A1 N”为句子S1,“A2 T A3”为句子S2;N为非实体词,T1为某类触发词,A1、A2为两类不同的论元。举例说明,第二行的实体T1与第一列的实体N满足“句内其他相关”的实体依赖关系g;第二行的实体T1与自身(第二列的实体T1)满足“触发词句内共指”的实体依赖关系a。
(4.2)如图3所示,定义金融篇章级文本的实体依赖关系后,结构化自注意力模块构建结构化实体依赖特征,并输出融合了结构化实体依赖特征的实体集。结构化自注意力模块为可重复叠加使用的计算单元,模块的输入为实体向量特征和实体依赖关系矩阵s,且第l-1个结构化自注意力模块的输出为第l个结构化自注意力模块输入的实体向量特征;其中,第一个结构化自注意力模块输入的实体向量特征为步骤(2)得到的实体词向量集。结构化自注意力模块可以与任意语言模型结合。
(4.2.1)整合实体i,j和实体依赖关系,得到融合了实体词特征和关系依赖特征的 向量特征
Figure 324653DEST_PATH_IMAGE008
(4.2.1.1)为了将实体依赖关系矩阵s整合到端到端的金融事件抽取模型处理过程中,本发明对八种类型的实体依赖关系进行了特定的参数实例化:
Figure 799628DEST_PATH_IMAGE037
其中,二维矩阵s中的元素s i,j 代表实体ij之间的实体依赖关系,j=1~n;
Figure 672906DEST_PATH_IMAGE005
表示 第l个结构化自注意力模块生成的s i,j 满足某种实体依赖关系的向量化特征;
Figure 990755DEST_PATH_IMAGE006
是第l个结 构化自注意力模块对s i,j 进行变换的训练参数。
(4.2.1.2)本发明利用双向仿射变换将篇章级文本的向量表示进行变换,通过下 述公式的计算,生成结构化实体依赖关系特征
Figure 833946DEST_PATH_IMAGE008
Figure 553640DEST_PATH_IMAGE038
其中,
Figure 332240DEST_PATH_IMAGE008
是第l个结构化自注意力模块的结构化实体依赖关系特征,
Figure 12751DEST_PATH_IMAGE009
Figure 800579DEST_PATH_IMAGE010
分 别是输入第l个结构化自注意力模块的实体ij的向量化特征,
Figure 374780DEST_PATH_IMAGE011
为第l个结构化自注意 力模块的可训练参数。
(4.2.2)通过特征合并层,将实体i对应的第j个结构化自注意力模块输入的实体 向量特征,和步骤(4.2.1.2)得到的结构化实体依赖关系特征
Figure 448915DEST_PATH_IMAGE008
进行合并;然后通过归 一化层,基于第j个结构化自注意力模块输入的实体向量特征进行第一次归一化;再经过全 连接层,最后通过归一化层基于第一次归一化的结果进行第二次归一化,得到第j个结构化 自注意力模块的输出,最后一个结构化自注意力模块的输出为融合了结构化实体依赖特征 的实体集的向量特征。
(5)提取候选触发词集合:与步骤(3)抽取候选论元集同理,以步骤(4.2.2)输出的融合了结构化实体依赖特征的实体集为输入,采用BIO标注策略结合基于预训练语言模型的序列标注模型,对标注后的文章抽取候选触发词实体,输出候选触发词集合T={T 1,T 2,……,T u },其中T是E的一个子集。
(6)层次化金融事件注意力模块用于构建层次化金融事件特征。
利用预定义的层次化金融事件结构,结合注意力机制模型生成结合了大类金融事件特征的特定金融事件表征。本发明将十四类细分金融事件划分成八种大类金融事件,所述层次化金融事件结构如下:
Figure 475777DEST_PATH_IMAGE039
本发明利用针对八种大类事件和十四种细分事件的线性变换函数,以步骤(5)提 取的候选触发词集合为输入,产生变换后的向量特征,分别对应各大类事件与细分事件,即 得到大类事件特征与细分事件特征。然后,大类事件特征与细分事件特征分别通过层次事 件注意力机制,对所有候选论元产生重要性权重值
Figure 801716DEST_PATH_IMAGE012
Figure 105789DEST_PATH_IMAGE013
;其中,
Figure 491771DEST_PATH_IMAGE012
是候选触发词
Figure 271509DEST_PATH_IMAGE014
所 属大类事件生成的候选论元重要性权重值,
Figure 260193DEST_PATH_IMAGE013
是候选触发词
Figure 543407DEST_PATH_IMAGE014
所属细分事件生成的候选 论元重要性权重值;最终采取如下的方法获得层次化金融事件特征的注意力权重
Figure 365869DEST_PATH_IMAGE015
Figure 988829DEST_PATH_IMAGE040
其中,
Figure 922150DEST_PATH_IMAGE014
是第it个候选触发词的向量特征,it=1~u。
得到第it个候选触发词对应的注意力权重
Figure 59870DEST_PATH_IMAGE015
后,层次化金融事件特征
Figure 912289DEST_PATH_IMAGE017
通过如 下计算方式得到:
Figure 401039DEST_PATH_IMAGE041
其中,
Figure 872472DEST_PATH_IMAGE017
是第it个候选触发词对应的层次化金融事件特征,
Figure 740065DEST_PATH_IMAGE019
为候选论元
Figure 904330DEST_PATH_IMAGE020
的 向量表示,
Figure 614797DEST_PATH_IMAGE021
Figure 748975DEST_PATH_IMAGE015
中候选触发词i t 与候选论元j t 的权重关系,M e b e 是层次化金融事件 注意力模块的可训练参数。
(7)基于步骤(2)得到的实体词向量集,以Pedal Attention机制为基础的事件触发词、事件论元联合预测。
(7.1)Pedal Attention机制模块:为了解决篇章级长文本下,深度学习模型难以 捕获长文中语义单元之间语义关系的问题,本发明采用Pedal Attention机制,以实体i的 邻接实体集合N i ,和实体iN i 的边的集合D i 为输入,输出实体i和实体j之间的语义关系特 征
Figure 126867DEST_PATH_IMAGE022
Figure 196454DEST_PATH_IMAGE042
其中,Multi_head是多头自注意力模块的函数表示,
Figure 269583DEST_PATH_IMAGE024
是实体j的向量表示;
Figure 82818DEST_PATH_IMAGE025
N i 中第p个实体,
Figure 315216DEST_PATH_IMAGE026
Figure 414760DEST_PATH_IMAGE025
的向量表示,
Figure 365398DEST_PATH_IMAGE027
是实体j
Figure 716745DEST_PATH_IMAGE025
之间边的向量表示;p=1~q
(7.2)论元抽取模块和触发词抽取模块:本发明结合上述步骤生成的候选论元集 合A、候选触发词集合T、层次化金融事件特征
Figure 679016DEST_PATH_IMAGE017
及实体之间的语义关系特征
Figure 355985DEST_PATH_IMAGE022
,采用两个 独立的Full-connected模块(全连接层)构建触发词抽取模块和论元抽取模块。其中,论元 抽取模块以
Figure 262761DEST_PATH_IMAGE017
Figure 542433DEST_PATH_IMAGE022
AT为输入,产生对应候选论元的概率集合;触发词抽取模块以
Figure 749423DEST_PATH_IMAGE017
Figure 66135DEST_PATH_IMAGE022
T为输入,产生对应候选触发词的概率集合。
(7.3)联合预测模块:本发明以候选触发词概率集合和候选论元概率集合为基础,构建一个相关性概率矩阵W e2a ,最终模型的事件触发词和论元的联合预测概率P(event|D)定义如下:
Figure DEST_PATH_IMAGE043
其中,D表示中文金融文章,event表示金融事件,
Figure 335573DEST_PATH_IMAGE029
代表文章D中
Figure 28723DEST_PATH_IMAGE030
事 件发生的概率;
Figure 214853DEST_PATH_IMAGE031
为候选触发词
Figure 233625DEST_PATH_IMAGE014
的向量表示,k对应细分金融事件类型,
Figure 114993DEST_PATH_IMAGE032
代 表文章D中候选触发词
Figure 487200DEST_PATH_IMAGE014
属于第k类细分金融事件的概率;
Figure 403203DEST_PATH_IMAGE033
是候选触发词
Figure 592876DEST_PATH_IMAGE014
的邻接实体 集合;
Figure 86175DEST_PATH_IMAGE044
代表候选触发词
Figure 386706DEST_PATH_IMAGE014
对应的事件类型包含论元类型
Figure 891637DEST_PATH_IMAGE034
的概率;
Figure 127577DEST_PATH_IMAGE034
表示论元类型,
Figure 249117DEST_PATH_IMAGE035
为在候选触发词
Figure 87760DEST_PATH_IMAGE014
和候选论元
Figure 837410DEST_PATH_IMAGE020
的文章D中,候选论元
Figure 368885DEST_PATH_IMAGE020
类型为
Figure 446563DEST_PATH_IMAGE034
的 概率。
最终通过两个平行的输出层,触发词输出模块和论元输出模块,同时预测文章中事件的触发词T’及构成事件的论元集A’
(8)本发明利用有监督的机器学习训练方式对模型进行训练,训练样本由各类上市公司公开发布的公告和新闻构成,训练过程中采用模型预测的事件结构与真实事件结构的误差,结合误差反向传播机制来更新步骤(2)~(7)中涉及到的可训练参数。包括以下步骤:
将预先收集的金融文档数据作为训练样本进行模型训练。其中,金融文档的全部文本内容作为输入数据依次输入到步骤(1)~(3)中;然后,经过步骤(4)~(7)的计算,最终联合预测模块同时输出构成金融事件的触发词和与事件相关的论元集。模型生成的结构化事件与文本中包含的真实事件进行对比,产生误差,利用反向传播算法和最优化算法将误差值包含的信息应用于步骤(2)~(7)中所有涉及到的可训练参数上,对模型参数进行更新优化。利用这些金融文档数据反复执行步骤(2)~(7),最终得到结构化自注意力模块、实体词向量映射模块、层次化金融事件注意力模块、Pedal Attention机制模块、论元抽取模块、触发词抽取模块、联合预测模块的参数。
(9)输入待识别金融文档,经过步骤(1)~(7)的处理,预测得到构成金融事件的触发词和与事件相关的论元集。

Claims (10)

1.一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,包括以下步骤:
(1)实体词抽取:将中文文章转换为包含n个实体的实体集E={e 1,e 2,e 3,……,e n };
(2)实体词向量映射模块:使用Embedding映射方法将实体集
Figure 193372DEST_PATH_IMAGE001
的汉语实体映射为向量 空间的实体词向量集,实体词向量为:
Figure 200642DEST_PATH_IMAGE002
其中,i=1~ne i 为第i个实体,LM为向量映射函数,W e 为生成实体词向量
Figure 195143DEST_PATH_IMAGE003
的可训练参 数;
(3)候选论元集抽取:利用基于预训练语言模型的序列标注方法抽取文章的候选论元集A={a 1,a 2,……,a K };
(4)构建实体依赖关系和结构化自注意力模块:根据实体集中的实体词E={e 1,e 2,e 3,……,e n }及其在文章中的位置,构建不同类型的实体依赖关系;结构化自注意力模块构建结构化实体依赖特征,并输出融合了结构化实体依赖特征的实体集;
(5)候选触发词集抽取:以融合了结构化实体依赖特征的实体集为输入,利用基于预训练语言模型的序列标注方法抽取文章的候选触发词集合T={T 1,T 2,……,T u };
(6)层次化金融事件注意力模块:利用预定义的层次化金融事件结构,结合注意力机制模型生成层次化金融事件特征;
(7)以Pedal Attention机制为基础的事件触发词、事件论元联合预测:PedalAttention机制模块基于步骤(2)得到的实体词向量集,得到实体间的语义关系特征;论元抽取模块基于候选论元集、候选触发词集合、层次化金融事件特征和实体间的语义关系特征,得到对应候选论元的概率集合;触发词抽取模块基于候选触发词集合、层次化金融事件特征和实体间的语义关系特征,得到对应候选触发词的概率集合;联合预测模块基于两个概率集合预测文章中事件的触发词T’及构成事件的论元集A’
2.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(3)具体如下:
(3.1)使用BIO标注策略进行实体标注;
(3.2)使用基于预训练语言模型BERT的序列标注模型进行候选论元抽取;
(3.3)输出候选论元集A={a 1,a 2,……,a K }。
3.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(4)具体如下:
(4.1)构建不同类型的实体依赖关系,对金融篇章级文本进行实体依赖关系定义得到实体依赖关系矩阵s,包括:
(a)事件的触发词在同一语句中多次出现,标记为“触发词句内共指”;
(b)事件的触发词在不同语句中出现,标记为“触发词句间共指”;
(c)事件的一个论元在同一语句中多次出现,标记为“论元句内共指”;
(d)事件的一个论元在不同语句中出现,标记为“论元句间共指”;
(e)事件的触发词和论元在同一语句中出现,标记为“实体句内相关”;
(f)事件的触发词和论元出现在不同的语句中,标记为“实体句间相关”;
(g)非实体词与触发词/论元在同一语句中的依赖关系,标记为“句内其他相关”;
(h)其它类型的非实体词与触发词/论元的关系,标记为“无依赖”;
(4.2)结构化自注意力模块构建结构化实体依赖特征,并输出融合了结构化实体依赖特征的实体集;结构化自注意力模块为可重复叠加使用的计算单元,模块的输入为实体向量特征和实体依赖关系矩阵s,且第l-1个结构化自注意力模块的输出为第l个结构化自注意力模块输入的实体向量特征;其中,第一个结构化自注意力模块输入的实体向量特征为步骤(2)得到的实体词向量集。
4.根据权利要求3所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(4.2)具体如下:
对实体依赖关系进行参数实例化:
Figure 431215DEST_PATH_IMAGE004
其中,矩阵s中的元素s i,j 代表实体ij之间的实体依赖关系,j=1~n;
Figure DEST_PATH_IMAGE005
表示第l个结 构化自注意力模块生成的s i,j 满足某种实体依赖关系的向量化特征;
Figure 866875DEST_PATH_IMAGE006
是第l个结构化自 注意力模块对s i,j 进行变换的训练参数;
利用双向仿射变换,生成整合了实体依赖关系的向量特征:
Figure 904101DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE009
是第l个结构化自注意力模块的结构化实体依赖关系特征,
Figure 41690DEST_PATH_IMAGE010
Figure 330720DEST_PATH_IMAGE011
分别是 输入第l个结构化自注意力模块的实体ij的向量化特征,
Figure 948784DEST_PATH_IMAGE012
为第l个结构化自注意力模 块的可训练参数;
结合当前结构化自注意力模块输入的实体向量特征和结构化实体依赖关系特征,依次通过后接归一化层的特征合并层和后接归一化层的全连接层获得当前结构化自注意力模块的输出,再输入下一结构化自注意力模块,最终最后一个结构化自注意力模块的输出为融合了结构化实体依赖特征的实体集的向量特征。
5.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(5)具体为:以步骤(4.2.2)输出的融合了结构化实体依赖特征的实体集为输入,采用BIO标注策略结合基于预训练语言模型的序列标注模型,对标注后的文章抽取候选触发词实体,输出候选触发词集合T={T 1,T 2,……,T u }。
6.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(6)具体如下:
层次化金融事件结构将金融事件中的多个细分事件划分成不同的大类事件,具体为:大类事件包括融资、交易、股权增减持、金融指标变化、多方合作、***、上市相关和执法;其中,融资包括质押、解质押和企业借款,交易包括股份回购和企业并购,股权增减持包括股份减持和股份增持,金融指标变化包括亏损,多方合作包括中标,***包括高级经理变动,上市相关包括公司上市和破产清算,执法包括被约谈和处罚;
基于步骤(5)提取的候选触发词集合,将大类事件特征与细分事件特征进行分别处理, 大类事件特征与细分事件特征分别通过层次事件注意力机制,对所有候选论元产生重要性 权重值
Figure 422490DEST_PATH_IMAGE013
Figure 5963DEST_PATH_IMAGE014
,其中,
Figure 223318DEST_PATH_IMAGE013
是候选触发词
Figure 571254DEST_PATH_IMAGE015
所属大类事件生成的候选论元重要性权重值,
Figure 481441DEST_PATH_IMAGE014
是候选触发词
Figure 796885DEST_PATH_IMAGE015
所属细分事件生成的候选论元重要性权重值;基于层次化金融事件结 构,得到第it个候选触发词对应的注意力权重
Figure 552351DEST_PATH_IMAGE016
Figure 285952DEST_PATH_IMAGE017
第it个候选触发词对应的层次化金融事件特征
Figure 835882DEST_PATH_IMAGE018
通过如下计算得到:
Figure 513988DEST_PATH_IMAGE019
其中,
Figure 699244DEST_PATH_IMAGE020
为候选论元
Figure 411985DEST_PATH_IMAGE021
的向量表示,
Figure 8182DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
中候选触发词i t 与候选论元j t 的权重 关系,M e b e 是层次化金融事件注意力模块的可训练参数。
7.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其 特征在于,步骤(7)中,Pedal Attention机制模块以实体i的邻接实体集合N i ,和实体iN i 的边的集合D i 为输入,输出实体i和实体j之间的语义关系特征
Figure 829377DEST_PATH_IMAGE024
Figure 926646DEST_PATH_IMAGE025
其中,Multi_head是多头自注意力模块的函数表示,
Figure 493893DEST_PATH_IMAGE026
是实体j的向量表示;
Figure 526571DEST_PATH_IMAGE027
N i 中 第p个实体,
Figure 179270DEST_PATH_IMAGE028
Figure 706328DEST_PATH_IMAGE027
的向量表示,
Figure 393661DEST_PATH_IMAGE029
是实体j
Figure 597241DEST_PATH_IMAGE027
之间边的向量表示;p=1~q
8.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(7)中,论元抽取模块和触发词抽取模块为两个独立的全连接层。
9.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,步骤(7)中,联合预测模块定义事件触发词和论元的联合预测概率P(event|D)如下:
Figure 471656DEST_PATH_IMAGE030
其中,D表示中文文章,event表示金融事件,
Figure 35361DEST_PATH_IMAGE031
代表文章D中
Figure 577201DEST_PATH_IMAGE032
事件发生的 概率;
Figure 951682DEST_PATH_IMAGE033
为候选触发词
Figure 313393DEST_PATH_IMAGE015
的向量表示,k对应细分事件类型,
Figure 556155DEST_PATH_IMAGE034
代表文章D中候选 触发词
Figure 578600DEST_PATH_IMAGE015
属于第k类细分事件的概率;
Figure 248616DEST_PATH_IMAGE035
是候选触发词
Figure 972990DEST_PATH_IMAGE015
的邻接实体集合;
Figure 19443DEST_PATH_IMAGE036
为以候 选触发词概率集合和候选论元概率集合为基础构建的相关性概率矩阵,代表候选触发词
Figure 394930DEST_PATH_IMAGE015
对应的事件类型包含论元类型
Figure 235847DEST_PATH_IMAGE037
的概率;
Figure 572150DEST_PATH_IMAGE037
表示论元类型,
Figure 32081DEST_PATH_IMAGE038
为在候选触 发词
Figure 403020DEST_PATH_IMAGE015
和候选论元
Figure 40937DEST_PATH_IMAGE021
的文章D中,候选论元
Figure 130116DEST_PATH_IMAGE021
类型为
Figure 862579DEST_PATH_IMAGE037
的概率;最终通过两个平行的输出 层预测文章中事件的触发词T’及构成事件的论元集A’
10.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,利用反向传播及Adam优化算法,训练结构化自注意力模块、实体词向量映射模块、层次化金融事件注意力模块、Pedal Attention机制模块、论元抽取模块、触发词抽取模块、联合预测模块的参数。
CN202110648901.1A 2021-06-10 2021-06-10 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 Active CN113255321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110648901.1A CN113255321B (zh) 2021-06-10 2021-06-10 基于文章实体词依赖关系的金融领域篇章级事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110648901.1A CN113255321B (zh) 2021-06-10 2021-06-10 基于文章实体词依赖关系的金融领域篇章级事件抽取方法

Publications (2)

Publication Number Publication Date
CN113255321A true CN113255321A (zh) 2021-08-13
CN113255321B CN113255321B (zh) 2021-10-29

Family

ID=77187501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110648901.1A Active CN113255321B (zh) 2021-06-10 2021-06-10 基于文章实体词依赖关系的金融领域篇章级事件抽取方法

Country Status (1)

Country Link
CN (1) CN113255321B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN113779227A (zh) * 2021-11-12 2021-12-10 成都数之联科技有限公司 案情事实抽取方法及***及装置及介质
CN113987104A (zh) * 2021-09-28 2022-01-28 浙江大学 一种基于本体指导的生成式事件抽取方法
CN114742016A (zh) * 2022-04-01 2022-07-12 山西大学 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN115841105A (zh) * 2022-09-21 2023-03-24 中国人民解放军海军工程大学 一种基于事件类型层级关系的事件抽取方法、***及介质
CN115983268A (zh) * 2023-03-17 2023-04-18 北京澜舟科技有限公司 一种金融事件链分析方法和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783394A (zh) * 2020-08-11 2020-10-16 深圳市北科瑞声科技股份有限公司 事件抽取模型的训练方法、事件抽取方法和***及设备
CN111859935A (zh) * 2020-07-03 2020-10-30 大连理工大学 基于文献的癌症相关生物医学事件数据库构建方法
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859935A (zh) * 2020-07-03 2020-10-30 大连理工大学 基于文献的癌症相关生物医学事件数据库构建方法
CN111783394A (zh) * 2020-08-11 2020-10-16 深圳市北科瑞声科技股份有限公司 事件抽取模型的训练方法、事件抽取方法和***及设备
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李冬梅等: "实体关系抽取方法研究综述", 《计算机研究与发展》 *
纪宇泽: "事件的触发词与论元联合抽取方法研究", 《中国优秀博硕士学位论文全文数据库(电子期刊)》 *
邬宗玲: "非结构化医学病历信息抽取的方法研究", 《中国优秀博硕士学位论文全文数据库(电子期刊)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN113987104A (zh) * 2021-09-28 2022-01-28 浙江大学 一种基于本体指导的生成式事件抽取方法
CN113779227A (zh) * 2021-11-12 2021-12-10 成都数之联科技有限公司 案情事实抽取方法及***及装置及介质
CN114742016A (zh) * 2022-04-01 2022-07-12 山西大学 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN115841105A (zh) * 2022-09-21 2023-03-24 中国人民解放军海军工程大学 一种基于事件类型层级关系的事件抽取方法、***及介质
CN115841105B (zh) * 2022-09-21 2024-02-27 中国人民解放军海军工程大学 一种基于事件类型层级关系的事件抽取方法、***及介质
CN115983268A (zh) * 2023-03-17 2023-04-18 北京澜舟科技有限公司 一种金融事件链分析方法和计算机可读存储介质

Also Published As

Publication number Publication date
CN113255321B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
Li et al. Incorporating stock prices and news sentiments for stock market prediction: A case of Hong Kong
CN113255321B (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN109766524B (zh) 一种并购重组类公告信息抽取方法及***
CN110990525A (zh) 一种基于自然语言处理的舆情信息抽取及知识库生成方法
Fu et al. Listening to the investors: A novel framework for online lending default prediction using deep learning neural networks
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
Zhang et al. Aspect-based sentiment analysis for user reviews
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Sadr et al. ACNN-TL: attention-based convolutional neural network coupling with transfer learning and contextualized word representation for enhancing the performance of sentiment classification
CN116383399A (zh) 一种事件舆情风险预测方法及***
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN115329088B (zh) 图神经网络事件检测模型的鲁棒性分析方法
CN114637827A (zh) 一种基于图神经网络的碳交易文本事件抽取方法
CN114896386A (zh) 基于BiLSTM的电影评论语义情感分析方法及***
Subbalakshmi et al. A Gravitational Search Algorithm Study on Text Summarization Using NLP
Liu et al. Deep bi-directional interaction network for sentence matching
CN113901813A (zh) 一种基于主题特征和隐式句子结构的事件抽取方法
CN111259106A (zh) 一种结合神经网络和特征演算的关系抽取方法
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱***
Lu et al. On semi-supervised multiple representation behavior learning
CN113361259A (zh) 一种服务流程抽取方法
Wang et al. Methods for Acquiring and Incorporating Knowledge into Stock Price Prediction: A Survey
Khashabi On the recursive neural networks for relation extraction and entity recognition
Zhang et al. SMPDF: stock movement prediction based on stock prices and text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant