CN113255321A

CN113255321A - 基于文章实体词依赖关系的金融领域篇章级事件抽取方法

Info

Publication number: CN113255321A
Application number: CN202110648901.1A
Authority: CN
Inventors: 王海涛; 许浩; 刘智; 周丹; 孙婉琪; 马雪环
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-13
Anticipated expiration: 2041-06-10
Also published as: CN113255321B

Abstract

本发明公开了一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法，设计了一种结构化依赖自注意力机制模块，该模块将文章中的实体词依赖关系作为事件抽取深度学习模型的一种输入数据，与词级、语句级的语言特征结合以提升深度学习模型在进行金融事件抽取时的对事件触发词和事件论元的预测精度。此外，本发明在中文金融事件抽取任务中，首次提出8种不同类型的实体关系，用于统一化表示文章中的实体依赖关系。本发明同时构建了一套金融领域的层次事件关系，用于模型区分相似的事件类型。本发明从***输入到***输出，逻辑结构清晰，层次分明，***实现细节详尽，实现了一种端到端的***闭合工作方式，极易落地和大规模应用。

Description

基于文章实体词依赖关系的金融领域篇章级事件抽取方法

技术领域

本发明属于人工智能与金融的交叉领域，尤其涉及一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法。

背景技术

现阶段人工智能正逐步涉足各个行业领域，并为其发展提供了新的可能。金融领域，作为实时数据产生最大的行业之一，同样步入“AI+金融”时代。作为金融领域的重要任务之一，从重大金融公告/新闻中，抽取出具有价值的重大金融事件是非常有意义与价值的。目前已知的篇章级金融事件抽取方法以基于传统规则、传统机器学习范式为技术基础的事件抽取***，存在以下不足：

1）目前大部分的金融事件抽取方法大多基于单语句的事件抽取，无法处理篇章级、多语句的金融事件抽取；

2）现有的篇章级金融事件抽取方法并没有考虑实体之间长依赖之间关系信息；例如，同一实体在不同语句中出现代表的含义，不同实体同时出现在同一语句中代表的语义信息等。而实体在不同语境或同一语境中出现所代表的含义，构成了某一实体的丰富语义信息，对于事件抽取任务而言，是必不可少的语义特征。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法。本发明将人工智能方法应用于金融领域内，针对上市公司发布的重大公告及新闻，自主提取重大事件并形成结构化事件表示。

本发明的目的是通过以下技术方案来实现的：一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法，包括以下步骤：

（1）实体词抽取：将中文文章转换为包含n个实体的实体集E={e ₁,e ₂,e ₃,……,e _n}；

（2）实体词向量映射模块：使用Embedding映射方法将实体集

的汉语实体映射为向量空间的实体词向量集，实体词向量为：

其中，i=1~n，e _i为第i个实体，LM为向量映射函数，W _e为生成实体词向量

的可训练参数；

（3）候选论元集抽取：利用基于预训练语言模型的序列标注方法抽取文章的候选论元集A={a ₁,a ₂,……,a _K}；

（4）构建实体依赖关系和结构化自注意力模块：根据实体集中的实体词E={e ₁,e ₂,e ₃,……,e _n}及其在文章中的位置，构建不同类型的实体依赖关系；结构化自注意力模块构建结构化实体依赖特征，并输出融合了结构化实体依赖特征的实体集；

（5）候选触发词集抽取：以融合了结构化实体依赖特征的实体集为输入，利用基于预训练语言模型的序列标注方法抽取文章的候选触发词集合T={T ₁,T ₂,……,T _u}；

（6）层次化金融事件注意力模块：利用预定义的层次化金融事件结构，结合注意力机制模型生成层次化金融事件特征；

（7）以Pedal Attention机制为基础的事件触发词、事件论元联合预测：PedalAttention机制模块基于步骤（2）得到的实体词向量集，得到实体间的语义关系特征；论元抽取模块基于候选论元集、候选触发词集合、层次化金融事件特征和实体间的语义关系特征，得到对应候选论元的概率集合；触发词抽取模块基于候选触发词集合、层次化金融事件特征和实体间的语义关系特征，得到对应候选触发词的概率集合；联合预测模块基于两个概率集合预测文章中事件的触发词T’及构成事件的论元集A’。

进一步地，步骤（3）具体如下：

（3.1）使用BIO标注策略进行实体标注；

（3.2）使用基于预训练语言模型BERT的序列标注模型进行候选论元抽取；

（3.3）输出候选论元集A={a ₁,a ₂,……,a _K}。

进一步地，步骤（4）具体如下：

（4.1）构建不同类型的实体依赖关系，对金融篇章级文本进行实体依赖关系定义得到实体依赖关系矩阵s，包括：

（a）事件的触发词在同一语句中多次出现，标记为“触发词句内共指”；

（b）事件的触发词在不同语句中出现，标记为“触发词句间共指”；

（c）事件的一个论元在同一语句中多次出现，标记为“论元句内共指”；

（d）事件的一个论元在不同语句中出现，标记为“论元句间共指”；

（e）事件的触发词和论元在同一语句中出现，标记为“实体句内相关”；

（f）事件的触发词和论元出现在不同的语句中，标记为“实体句间相关”；

（g）非实体词与触发词/论元在同一语句中的依赖关系，标记为“句内其他相关”；

（h）其它类型的非实体词与触发词/论元的关系，标记为“无依赖”；

（4.2）结构化自注意力模块构建结构化实体依赖特征，并输出融合了结构化实体依赖特征的实体集；结构化自注意力模块为可重复叠加使用的计算单元，模块的输入为实体向量特征和实体依赖关系矩阵s，且第l-1个结构化自注意力模块的输出为第l个结构化自注意力模块输入的实体向量特征；其中，第一个结构化自注意力模块输入的实体向量特征为步骤（2）得到的实体词向量集。

进一步地，步骤（4.2）具体如下：

对实体依赖关系进行参数实例化：

其中，矩阵s中的元素s _i,j代表实体i和j之间的实体依赖关系，j=1~n；

表示第l 个结构化自注意力模块生成的s _i,j满足某种实体依赖关系的向量化特征；

是第l个结构化自注意力模块对s _i,j进行变换的训练参数；

利用双向仿射变换，生成整合了实体依赖关系的向量特征：

其中，

是第l个结构化自注意力模块的结构化实体依赖关系特征，

和

分别是输入第l个结构化自注意力模块的实体i和j的向量化特征，

为第l个结构化自注意力模块的可训练参数；

结合当前结构化自注意力模块输入的实体向量特征和结构化实体依赖关系特征，依次通过后接归一化层的特征合并层和后接归一化层的全连接层获得当前结构化自注意力模块的输出，再输入下一结构化自注意力模块，最终最后一个结构化自注意力模块的输出为融合了结构化实体依赖特征的实体集的向量特征。

进一步地，步骤（5）具体为：以步骤（4.2.2）输出的融合了结构化实体依赖特征的实体集为输入，采用BIO标注策略结合基于预训练语言模型的序列标注模型，对标注后的文章抽取候选触发词实体，输出候选触发词集合T={T ₁,T ₂,……,T _u}。

进一步地，步骤（6）具体如下：

层次化金融事件结构将金融事件中的多个细分事件划分成不同的大类事件，具体为：大类事件包括融资、交易、股权增减持、金融指标变化、多方合作、***、上市相关和执法；其中，融资包括质押、解质押和企业借款，交易包括股份回购和企业并购，股权增减持包括股份减持和股份增持，金融指标变化包括亏损，多方合作包括中标，***包括高级经理变动，上市相关包括公司上市和破产清算，执法包括被约谈和处罚；

基于步骤（5）提取的候选触发词集合，将大类事件特征与细分事件特征进行分别处理，大类事件特征与细分事件特征分别通过层次事件注意力机制，对所有候选论元产生重要性权重值

和

，其中，

是候选触发词

所属大类事件生成的候选论元重要性权重值，

是候选触发词

所属细分事件生成的候选论元重要性权重值；基于层次化金融事件结构，得到第i_t个候选触发词对应的注意力权重

：

第i_t个候选触发词对应的层次化金融事件特征

通过如下计算得到：

其中，

为候选论元

的向量表示，

是

中候选触发词i _t与候选论元j _t的权重关系，M _e和b _e是层次化金融事件注意力模块的可训练参数。

进一步地，步骤（7）中，Pedal Attention机制模块以实体i的邻接实体集合N _i，和实体i与N _i的边的集合D ⁱ为输入，输出实体i和实体j之间的语义关系特征

：

其中，Multi_head是多头自注意力模块的函数表示，

是实体j的向量表示；

是N _i中第p个实体，

是

的向量表示，

是实体j和

之间边的向量表示；p=1~q。

进一步地，步骤（7）中，论元抽取模块和触发词抽取模块为两个独立的全连接层。

进一步地，步骤（7）中，联合预测模块定义事件触发词和论元的联合预测概率P(event|D)如下：

其中，D表示中文文章，event表示金融事件，

代表文章D中

事件发生的概率；

为候选触发词

的向量表示，k对应细分事件类型，

代表文章D中候选触发词

属于第k类细分事件的概率；

是候选触发词

的邻接实体集合；为以候选触发词概率集合和候选论元概率集合为基础构建的相关性概率矩阵，代表候选触发词

对应的事件类型包含论元类型

的概率；

表示论元类型，

为在候选触发词

和候选论元

的文章D中，候选论元

类型为

的概率；最终通过两个平行的输出层预测文章中事件的触发词T’及构成事件的论元集A’。

进一步地，利用反向传播及Adam优化算法，训练结构化自注意力模块、实体词向量映射模块、层次化金融事件注意力模块、Pedal Attention机制模块、论元抽取模块、触发词抽取模块、联合预测模块的参数。

本发明的有益效果是：

（1）本发明定义了8种篇章级金融长文本种存在的实体关系类型，能够极大的提升机器学/深度学习模型对模型中实体关系信息的建模；

（2）本发明根据金融事件抽取的类别，定义了一套层次金融事件结构，能够帮助机器学习/深度学习模型更好的构建事件类别之间的关系，更准确的区分相似事件；

（3）本发明设计的层次化金融事件注意力机制和结构化实体依赖自注意力机制将上述两种信息融入模型的实体语义和实体关系建模当中，以联合训练方式，使模型进行更高精度得金融事件的触发词及其类型预测和论元及其类型预测；

（4）本发明提供了一种新的端到端（金融长文本端到结构化事件端）的金融长文本事件抽取方法，该方法能够有效的提升金融机构对实时长文本核心要素的提取效率，提高金融机构应对海量金融文本信息的处理能力。

附图说明

图1为基于文章实体词依赖关系的金融领域篇章级事件抽取方法的整体结构图；

图2为实体依赖关系矩阵s示意图；

图3为结构化自注意力模块示意图。

具体实施方式

本发明一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法，从实际金融领域篇章级公告入手分析，总结金融领域篇章级公告的实际实体分布情况，总结并定义了8种篇章级文本的实体依赖关系类型；利用基于深度学***行的预测模块，同时输出篇章级长文本的金融时间要素：金融事件触发词与金融事件相关的论元集合。如图1所示，具体包括以下步骤：

（1）实体词抽取：将一篇中文文章转换为包含n个实体e _i的实体集E={e ₁,e ₂,e ₃,……,e _n}，e _i为第i个实体，i=1,2,3,…,n。本步骤得到的是一串未标记的实体序列。

（2）实体词向量映射模块：使用Embedding映射方法，将实体集E的汉语实体映射为向量空间的实体词向量集，实体词向量

为：

其中，LM为向量映射函数，W _e为生成实体词向量

的可训练参数。

（3）抽取候选论元集：在进行事件抽取计算前，本发明利用基于预训练语言模型的序列标注方法对文章抽取候选论元集。由于任何无结构化的金融文章（公告/新闻）等，无任何有意义的候选论元集合；因此，本发明在进行事件抽取前要进行候选论元抽取，包括以下子步骤：

（3.1）使用BIO标注策略对目标文章进行实体标注，包括触发词、论元和非实体词。

（3.2）使用基于预训练语言模型BERT的序列标注模型对步骤（3.1）标注后的文章（实体词向量集）进行候选论元抽取。

（3.3）基于预训练语言模型BERT的序列标注模型，输出候选论元集A={a ₁,a ₂,……,a _K}；其中，

为候选论元，j _t=1~K；A是E的一个子集。

（4）基于结构化自注意力模块获得融合了结构化实体依赖特征的实体集。

（4.1）构建实体依赖关系。

根据步骤（1）得到的实体集E={e ₁,e ₂,e ₃,……,e _n}及其在文章中的位置，本发明定义了实体依赖集合S，包括八种不同类型的实体依赖关系。

本发明基于对中文金融篇章级文本的分析得出以下三条结论：

（i）事件的触发词可能会出现在文章中多个句子中；

（ii）事件的同一个论元可能会出现在文章中的多个句子中；

（iii）事件的不同论元可能同时出现在一个句子中，或分布在不同的句子中。

基于以上分析结果并依据实体在文章中所处的位置，本发明划分八种实体依赖关系如下：

（e）事件的触发词和论元在同一语句中出现，标记为“实体句内相关”，代表这对触发词和论元集以某种谓词语义相关联；

（g）非实体词与触发词/论元在同一语句中的依赖关系，定义为“句内其他相关”；

（h）其它类型的非实体词与触发词/论元的关系，由于没有包含关键的语义及依赖信息，标记为“无依赖”。

因此，本发明将结构化实体依赖关系，形式化为八种以实体为中心的、元素源自有限实体关系集合的矩阵，即实体依赖集合S={“触发词句内共指”，“触发词句间共指”，“论元句内共指”，“论元句间共指”，“实体句内相关”，“实体句间相关”，“句内其他相关”，“无依赖”}。

对金融篇章级文本进行实体依赖关系定义得到二维矩阵s，具体为：依据实体依赖集合S，为每一个语句对（句子S1和句子S2）构造一个二维矩阵s，依据本发明定义的八种实体依赖关系以及不同类型实体在句子中的位置，对不同位置的实体进行关系标记。矩阵s的具体结构如图2所示，“N T1 N A2 A1 N A2 T A3”为两个由不同实体组成的句子；其中，“NT1 N A2 A1 N”为句子S1，“A2 T A3”为句子S2；N为非实体词，T1为某类触发词，A1、A2为两类不同的论元。举例说明，第二行的实体T1与第一列的实体N满足“句内其他相关”的实体依赖关系g；第二行的实体T1与自身（第二列的实体T1）满足“触发词句内共指”的实体依赖关系a。

（4.2）如图3所示，定义金融篇章级文本的实体依赖关系后，结构化自注意力模块构建结构化实体依赖特征，并输出融合了结构化实体依赖特征的实体集。结构化自注意力模块为可重复叠加使用的计算单元，模块的输入为实体向量特征和实体依赖关系矩阵s，且第l-1个结构化自注意力模块的输出为第l个结构化自注意力模块输入的实体向量特征；其中，第一个结构化自注意力模块输入的实体向量特征为步骤（2）得到的实体词向量集。结构化自注意力模块可以与任意语言模型结合。

（4.2.1）整合实体i,j和实体依赖关系，得到融合了实体词特征和关系依赖特征的向量特征

。

（4.2.1.1）为了将实体依赖关系矩阵s整合到端到端的金融事件抽取模型处理过程中，本发明对八种类型的实体依赖关系进行了特定的参数实例化：

其中，二维矩阵s中的元素s _i,j代表实体i和j之间的实体依赖关系，j=1~n；

表示第l个结构化自注意力模块生成的s _i,j满足某种实体依赖关系的向量化特征；

是第l个结构化自注意力模块对s _i,j进行变换的训练参数。

（4.2.1.2）本发明利用双向仿射变换将篇章级文本的向量表示进行变换，通过下述公式的计算，生成结构化实体依赖关系特征

：

其中，

是第l个结构化自注意力模块的结构化实体依赖关系特征，

和

为第l个结构化自注意力模块的可训练参数。

（4.2.2）通过特征合并层，将实体i对应的第j个结构化自注意力模块输入的实体向量特征，和步骤（4.2.1.2）得到的结构化实体依赖关系特征

进行合并；然后通过归一化层，基于第j个结构化自注意力模块输入的实体向量特征进行第一次归一化；再经过全连接层，最后通过归一化层基于第一次归一化的结果进行第二次归一化，得到第j个结构化自注意力模块的输出，最后一个结构化自注意力模块的输出为融合了结构化实体依赖特征的实体集的向量特征。

（5）提取候选触发词集合：与步骤（3）抽取候选论元集同理，以步骤（4.2.2）输出的融合了结构化实体依赖特征的实体集为输入，采用BIO标注策略结合基于预训练语言模型的序列标注模型，对标注后的文章抽取候选触发词实体，输出候选触发词集合T={T ₁,T ₂,……,T _u}，其中T是E的一个子集。

（6）层次化金融事件注意力模块用于构建层次化金融事件特征。

利用预定义的层次化金融事件结构，结合注意力机制模型生成结合了大类金融事件特征的特定金融事件表征。本发明将十四类细分金融事件划分成八种大类金融事件，所述层次化金融事件结构如下：

本发明利用针对八种大类事件和十四种细分事件的线性变换函数，以步骤（5）提取的候选触发词集合为输入，产生变换后的向量特征，分别对应各大类事件与细分事件，即得到大类事件特征与细分事件特征。然后，大类事件特征与细分事件特征分别通过层次事件注意力机制，对所有候选论元产生重要性权重值

和

；其中，

是候选触发词

所属大类事件生成的候选论元重要性权重值，

是候选触发词

所属细分事件生成的候选论元重要性权重值；最终采取如下的方法获得层次化金融事件特征的注意力权重

：

其中，

是第i_t个候选触发词的向量特征，i_t=1~u。

得到第i_t个候选触发词对应的注意力权重

后，层次化金融事件特征

通过如下计算方式得到：

其中，

是第i_t个候选触发词对应的层次化金融事件特征，

为候选论元

的向量表示，

是

（7）基于步骤（2）得到的实体词向量集，以Pedal Attention机制为基础的事件触发词、事件论元联合预测。

（7.1）Pedal Attention机制模块：为了解决篇章级长文本下，深度学习模型难以捕获长文中语义单元之间语义关系的问题，本发明采用Pedal Attention机制，以实体i的邻接实体集合N _i，和实体i与N _i的边的集合D ⁱ为输入，输出实体i和实体j之间的语义关系特征

：

其中，Multi_head是多头自注意力模块的函数表示，

是实体j的向量表示；

是N _i中第p个实体，

是

的向量表示，

是实体j和

之间边的向量表示；p=1~q。

（7.2）论元抽取模块和触发词抽取模块：本发明结合上述步骤生成的候选论元集合A、候选触发词集合T、层次化金融事件特征

及实体之间的语义关系特征

，采用两个独立的Full-connected模块（全连接层）构建触发词抽取模块和论元抽取模块。其中，论元抽取模块以

、

、A、T为输入，产生对应候选论元的概率集合；触发词抽取模块以

、

和T为输入，产生对应候选触发词的概率集合。

（7.3）联合预测模块：本发明以候选触发词概率集合和候选论元概率集合为基础，构建一个相关性概率矩阵W ^e2a，最终模型的事件触发词和论元的联合预测概率P(event|D)定义如下：

其中，D表示中文金融文章，event表示金融事件，

代表文章D中

事件发生的概率；

为候选触发词

的向量表示，k对应细分金融事件类型，

代表文章D中候选触发词

属于第k类细分金融事件的概率；

是候选触发词

的邻接实体集合；

代表候选触发词

对应的事件类型包含论元类型

的概率；

表示论元类型，

为在候选触发词

和候选论元

的文章D中，候选论元

类型为

的概率。

最终通过两个平行的输出层，触发词输出模块和论元输出模块，同时预测文章中事件的触发词T’及构成事件的论元集A’。

（8）本发明利用有监督的机器学习训练方式对模型进行训练，训练样本由各类上市公司公开发布的公告和新闻构成，训练过程中采用模型预测的事件结构与真实事件结构的误差，结合误差反向传播机制来更新步骤（2）~（7）中涉及到的可训练参数。包括以下步骤：

将预先收集的金融文档数据作为训练样本进行模型训练。其中，金融文档的全部文本内容作为输入数据依次输入到步骤（1）~（3）中；然后，经过步骤（4）~（7）的计算，最终联合预测模块同时输出构成金融事件的触发词和与事件相关的论元集。模型生成的结构化事件与文本中包含的真实事件进行对比，产生误差，利用反向传播算法和最优化算法将误差值包含的信息应用于步骤（2）~（7）中所有涉及到的可训练参数上，对模型参数进行更新优化。利用这些金融文档数据反复执行步骤（2）~（7），最终得到结构化自注意力模块、实体词向量映射模块、层次化金融事件注意力模块、Pedal Attention机制模块、论元抽取模块、触发词抽取模块、联合预测模块的参数。

（9）输入待识别金融文档，经过步骤（1）~（7）的处理，预测得到构成金融事件的触发词和与事件相关的论元集。

Claims

1.一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法，其特征在于，包括以下步骤：

（2）实体词向量映射模块：使用Embedding映射方法将实体集

的可训练参数；

2.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法，其特征在于，步骤（3）具体如下：

（3.1）使用BIO标注策略进行实体标注；

（3.3）输出候选论元集A={a ₁,a ₂,……,a _K}。

3.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法，其特征在于，步骤（4）具体如下：

4.根据权利要求3所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法，其特征在于，步骤（4.2）具体如下：

对实体依赖关系进行参数实例化：

是第l个结构化自注意力模块对s _i,j进行变换的训练参数；

利用双向仿射变换，生成整合了实体依赖关系的向量特征：

其中，

是第l个结构化自注意力模块的结构化实体依赖关系特征，

和

为第l个结构化自注意力模块的可训练参数；

5.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法，其特征在于，步骤（5）具体为：以步骤（4.2.2）输出的融合了结构化实体依赖特征的实体集为输入，采用BIO标注策略结合基于预训练语言模型的序列标注模型，对标注后的文章抽取候选触发词实体，输出候选触发词集合T={T ₁,T ₂,……,T _u}。

6.根据权利要求1所述基于文章实体词依赖关系的金融领域篇章级事件抽取方法，其特征在于，步骤（6）具体如下：