CN113672727B

CN113672727B - 一种金融文本实体关系抽取方法及***

Info

Publication number: CN113672727B
Application number: CN202110855621.8A
Authority: CN
Inventors: 杨智翔; 邹东升; 陈香; 张晓彤; 宋心仪; 杨钰铭; 席康
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2024-04-05
Anticipated expiration: 2041-07-28
Also published as: CN113672727A

Abstract

本发明公开了一种金融文本实体关系抽取方法，涉及人工智能领域的技术领域，具体方案为：S1：在金融数据集上使用BERT预训练单词嵌入；S2：建立实体关系图：以金融文本中的实体作为节点，实体所在的文本作为节点之间的关系边；S3：更新实体关系图：通过关系边的转移矩阵对节点嵌入使用聚合函数更新节点嵌入，重复更新实体关系图；S4：预测关系类别：从S3过程中获取若干次更新实体关系图的各层目标实体对嵌入的输出，经变换拼接后送入多层感知机进行分类，选择概率最大的类别作为关系输出。本发明建立在金融数据基础上，因此对金融领域文本的实体关系抽取具有领域优势。

Description

一种金融文本实体关系抽取方法及***

技术领域

本发明涉及人工智能领域的技术领域，更具体地说，它涉及一种金融文本实体关系抽取方法及***。

背景技术

金融文本实体关系抽取是一种信息智能化的重要技术。当前的方法大致遵循4步框架：1.将单词映射到相应的嵌入特征；2.使用RNN或CNN从单词嵌入种学习一个句子表示；3.使用注意力机制融合单词级特征和句子级特征，得到一个最终的表示；4.基于得到的表示使用神经网络进行分类。

然而，在金融实体关系识别任务中，现有的技术方法表现出明显的3点缺陷：

1.文本内容领域跨度大，金融领域适应性差。现有的技术大多是在开源的百科类文本上进行训练。相比而言，金融领域的文本表现出极大的差异性。例如，金融领域的文本中有大量的数字出现，例如收益率3.3％。以往的技术对数字大多采用忽略的处理方法，导致其对金融领域文本的实体关系抽取任务不合适。

2.以前的技术简化了实体间关系的建模，丢失大量信息。以前的技术简单模拟了实体序列的关系，主流采用从左到右和从右到左的RNN对文本建模，然而，文本中常常含有多个实体，实体间的关系可能呈现交叉引用等复杂情况，这些信息被建模时丢弃。

3.不能动态捕获多跳关系。金融文本中常常存在A和B相关，B和C相关，那么A和C之间也存在关系。然而，现有的技术要么没有解决这个问题，要么定义一个静态的关系模板进行匹配，这种方法对非模板的关系不能捕获并且不灵活。

发明内容

为解决上述技术问题，本发明提供一种金融文本实体关系抽取方法，首先预训练金融领域的单词嵌入，然后分类初始化实体嵌入、使用BiGRU建模实体对所在的文本句子获取关系边，构建得到图神经网络。使用聚合函数对节点表示进行多次更新，最后将实体节点嵌入送入全连接神经网络进行关系提取，选取概率最大的作为分类的标签输出。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种金融文本实体关系抽取方法，包括以下步骤：

S1：在金融数据集上使用BERT预训练单词嵌入，包括两个阶段：

阶段一：随机遮罩的单次预测；

阶段二：遮罩金融实体的单次预测；

S2：建立实体关系图：以金融文本中的实体作为节点，实体所在的文本作为节点之间的关系边；其中节点分为3类编码，参与关系抽取的实体、实体关系相关的文本序列开始及结尾实体、无关实体；参与关系抽取的实体使用S1中阶段二BERT单词嵌入表示；实体关系相关的文本序列开始及结尾实体使用零向量表示；无关实体使用flag标志向量表示；实体所在的金融文本经过BERT的阶段一编码获得单词嵌入，拼接位置嵌入后，获取实体节点间的关系转移矩阵；

S3：更新实体关系图：通过关系边的转移矩阵对节点嵌入使用聚合函数更新节点嵌入，重复更新实体关系图；

S4：预测关系类别：从S3过程中获取若干次更新实体关系图的各层目标实体对嵌入的输出，经变换拼接后送入多层感知机进行分类，选择概率最大的类别作为关系输出。

作为一种优选方案，S1过程中，通过使用两次预训练BERT分别获取面向实体关系图中文本关系建模的单次嵌入，以及面向实体关系图中目标实体初始嵌入。

作为一种优选方案，预训练BERT使用金融文本数据：预处理金融文本具体包括以下步骤：

准备两份数据，其中一份数据用于阶段一训练，随机遮罩15％的单词，其中遮罩的单词中的80％被替换为[MASK]，10％使用随机单词替换，10％保持不变；另一份数据用于阶段二训练，随机遮罩15％的金融实体，并使被遮罩的实体距离两个以上句子。

作为一种优选方案，S2过程中，实体关系边的转移矩阵计算方法如下：

其中：v_i和v_j分别代表两个实体，这两个实体所在的文本是E(x)表示BERT_n的单词嵌入编码，n代表第n次传播，MLP(·)是多层感知机，[·]是将括号内转换为矩阵，n是图更新传播的第n次，BiGRU(·)编码文本，然后将最后一个前向编码和最后一个后向编码的隐藏层输出拼接；

GRU(·)的第t步更新具体计算方法如下：

z_t＝σ(W_zx_t+U_zh_t-1)

r_t＝σ(W_tx_t+U_th_t-1)

其中：x_t是当前时间步输入，h_t-1是前一个时间步的隐藏状态。

作为一种优选方案，S3过程中，使用聚合函数更新节点嵌入，更新计算方法如下：

其中：是第i个实体的第n+1次聚合后的嵌入表示，N(v_i)表示第i个实体的邻居节点，/>是S2计算得到的转移矩阵，σ(·)是激活函数。

作为一种优选方案，S3过程中，重复传播聚合函数3次。

作为一种优选方案，S4过程中，对实体关系图中的目标实体对融合、各层嵌入融合具体包括以下步骤：

然后将融合的嵌入送入MLP进行关系分类，具体包括以下步骤：

一种金融文本实体关系抽取***，基于上述的金融文本实体关系抽取方法，其特征在于，包括单词嵌入预训练模块、实体关系图构建模块、实体关系图更新模块和关系预测模块：

单词嵌入预训练模块用于从金融文本语料中训练出适用于金融领域的单词嵌入，包括阶段一的通用词嵌入和阶段二的金融实体词嵌入，供图神经网络构建使用；

实体关系图构建模块用于从金融文本中抽取实体作为顶点、实体对所在的文本编码作为边，构建实体关系图；

实体关系图更新模块用于传播实体间的信息，使实体关系图中的实体节点可以获取到邻接点的信息；

关系预测模块用于将需要预测的实体对嵌入从实体对、不同层间融合表示，通过全连接神经网络预测实体对所属关系。

综上所述，本发明具有以下有益效果：

本发明建立在金融数据基础上，因此对金融领域文本的实体关系抽取具有领域优势；图神经网络增强了实体间的关系的建模能力，实验结果表明了本发明相对以前的方法在分类结果上有优势；本发明可以灵活进行任意次图更新，以发现不同实体间的关系。综合这3项技术，本发明可以明显提高现有金融文本实体关系抽取的性能表现。

附图说明

图1是本发明实施例中的金融文本实体关系抽取方法的流程图；

图2是本发明实施例的金融文本实体关系抽取***的结构示意图；

图3是本发明实施例的构建图模块的结构示意图。

具体实施方式

本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包括”为一开放式用语，故应解释成“包括但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。

本说明书及权利要求的上下左右等方位名词，是结合附图以便于进一步说明，使得本申请更加方便理解，并不对本申请做出限定，在不同的场景中，上下、左右、里外均是相对而言。

以下结合附图对本发明作进一步详细说明。

一种金融文本实体关系抽取方法，包括以下步骤：

S1：在金融数据集上使用BERT预训练单词嵌入。BERT的预训练分两个阶段，阶段一是随机遮罩的单词预测，阶段二是遮罩金融实体的单词预测。其中，阶段二的训练是为了获取高质量金融实体嵌入；

S2：建立实体关系图。金融文本中的实体作为节点，实体所在的文本作为节点之间的关系边。图中的实体节点分3类编码：参与关系抽取的实体、和实体关系相关的文本序列开始和结尾实体、无关实体。其中，第1类实体使用阶段二BERT单词嵌入表示，第2类实体使用零向量表示，第3类实体使用特殊的flag标志向量表示。实体所在的文本经过BERT的阶段一编码获得单词嵌入，拼接位置嵌入后送入BiGRU编码获取实体节点间的关系转移矩阵；

S3：更新实体关系图。通过关系边的转移矩阵对节点嵌入使用聚合函数更新节点嵌入，重复更新实体关系图3次；

S4：预测关系类别。从S3获取3次更新实体关系图的各层目标实体对嵌入的输出，经变换拼接后送入多层感知机进行分类，选择概率最大的类别作为关系输出。

优选的，S1过程中，通过使用两次预训练BERT分别获取面向实体关系图中文本关系建模的单词嵌入、面向实体关系图中目标实体初始嵌入。预训练BERT使用的是金融文本数据。预处理金融文本时，准备两份数据，一份用于阶段一训练，随机遮罩15％的单词，其中，遮罩的单词中有80％被替换为[MASK]，10％使用随机单词替换，10％保持不变；另一份用于阶段二训练，随机遮罩15％的金融实体，并使被遮罩的实体距离2个以上句子。和谷歌原始的BERT一致，BERT的预训练保持遮罩语言模型和下一个句子预测两个任务。单词嵌入大小设置为128，注意力数量设置为8，使用2层、4层或8层Transformer编码。在金融文本数据集上训练15轮获取阶段一单词嵌入编码模型BERT_n，再使用数据集二训练15轮获取阶段二单词嵌入编码模型BERT_f。

优选的，S2过程中，建立实体关系图的方法。实体关系图包括两部分：实体关系节点和实体关系边。其中，实体关系节点分三类：参与关系抽取的实体、和实体关系相关的文本序列开始和结尾实体和无关实体。实体关系节点的初始嵌入表示依据节点类别不同采用不同初始化方式：假设参与关系抽取的实体嵌入使用实体所在句子上下文的BERT_f生成的单词嵌入使e_f，则第一个实体的初始嵌入设置为[e_f1，0]，第二个实体的初始嵌入设置为[0，e_f2]，其中[·]中的0是和e_f维度相同的零向量；和实体关系相关的文本序列的开始和结束实体使用特殊的flag向量嵌入(如全一向量)来标注关系神经网络传播的开始和结束位置；无关相同使用零向量表示。实体关系边使用边两端实体节点所在的文本编码作为转移矩阵。假设两个实体是v_i和v_j,这两个实体所在的文本是E(x)表示BERT_n的单词嵌入编码，实体关系边的转移矩阵计算如下：

其中，n代表第n次传播，MLP(·)是多层感知机，[·]是将括号内转换为矩阵，n是图更新传播的第n次，BiGRU(·)编码文本，然后将最后一个前向编码和最后一个后向编码的隐藏层输出拼接。

假设x_t是当前时间步输入，h_t-1是前一个时间步的隐藏状态，GRU(·)的第t步更新是

z_t＝σ(W_zx_t+U_zh_t-1)

r_t＝σ(W_tx_t+U_th_t-1)

优选的，S3过程中，更新实体关系图方法。通过关系边的转移矩阵对节点嵌入使用聚合函数更新节点嵌入。更新计算是

其中，是第i个实体的第n+1次聚合后的嵌入表示，N(v_i)表示第i个实体的邻居节点，/>是S2计算得到的转移矩阵，σ(·)是激活函数。重复传播聚合函数3次。

优选的，S4过程中，从实体嵌入到抽取关系类别的方法。对实体关系图中的目标实体对融合、各层嵌入融合：

然后将融合的嵌入送入MLP进行关系分类：

一种金融文本实体关系抽取***，基于上述的金融文本实体关系抽取方法，包括单词嵌入预训练模块、实体关系图构建模块、实体关系图更新模块和关系预测模块：

关系预测模块用于将需要预测的实体对嵌入从实体对、不同层间融合表示，通过全连接神经网络预测实体对所属关系，该关系可以是简单推理得到的直接关系，也可以是存在中继点的多跳关系。

实施例1：

如图1所示，一种金融文本实体关系抽取方法，包括以下步骤：

步骤S1：在金融数据集上使用BERT预训练单词嵌入。BERT的预训练分两个阶段，一是随机遮罩的单词预测，二是遮罩金融实体的单词预测；

步骤S2：建立实体关系图。金融文本中的实体作为节点，实体所在的文本作为节点之间的关系边。图中的实体节点分三类编码：参与关系抽取的实体、和实体关系相关的文本序列开始和结尾实体、无关实体。实体所在的文本经过BERT的阶段一编码获得单词嵌入，拼接位置嵌入后送入BiGRU编码获取实体节点间的关系转移矩阵；

步骤S3：更新实体关系图。通过关系边的转移矩阵对节点嵌入使用聚合函数更新节点嵌入，重复更新实体关系图3次；

步骤S4：预测关系类别。从S3获取3次更新实体关系图的各层目标实体对嵌入的输出，经变换拼接后送入多层感知机进行分类，选择概率最大的类别作为关系输出。

实施例2：

如图2所示，一种金融文本实体关系抽取***，包括以下模块：

单词嵌入预训练模块：从金融文本语料中训练出适用于金融领域的单词嵌入，包括阶段一的通用词嵌入和阶段二的金融实体词嵌入，供图神经网络构建使用；

实体关系图构建模块：从金融文本中抽取实体作为顶点、实体对所在的文本编码作为边，构建实体关系图；

实体关系图更新模块：传播实体间的信息，使实体关系图中的实体节点可以获取到邻接点的信息；

关系预测模块：将需要预测的实体对嵌入从实体对、不同层间融合表示，通过全连接神经网络预测实体对所属关系，该关系可以是简单推理得到的直接关系，也可以是存在中继点的多跳关系。

工作过程：首先预训练两阶段的BERT模型，然后将实体节点分3类：目标实体对、两段实体、无关实体分别初始化节点嵌入，使用BiGRU捕获节点所在文本句子作为边的边转移矩阵，从而获取实体关系图神经网络。使用聚合函数对节点表示进行3次更新，对目标实体对嵌入、各次目标实体嵌入融合获取关系嵌入，送入全连接神经网络进行关系抽取。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种金融文本实体关系抽取方法，其特征在于，包括以下步骤：

阶段一：随机遮罩的单次预测；

阶段二：遮罩金融实体的单次预测；

所述S2过程中，实体关系边的转移矩阵计算方法如下：

其中：v_i和v_j分别代表两个实体，这两个实体所在的文本是E()表示BERT_n的单词嵌入编码，n代表第n次传播，MLP(·)是多层感知机，[·]是将括号内转换为矩阵，n是图更新传播的第n次，BiGRU(·)编码文本，然后将最后一个前向编码和最后一个后向编码的隐藏层输出拼接；

GRU(·)的第t步更新具体计算方法如下：

z_t＝σ(W_zx_t+U_zh_t-1)

r_t＝σ(W_tx_t+U_th_t-1)

2.根据权利要求1所述的金融文本实体关系抽取方法，其特征在于，所述S1过程中，通过使用两次预训练BERT分别获取面向实体关系图中文本关系建模的单次嵌入，以及面向实体关系图中目标实体初始嵌入。

3.根据权利要求2所述的金融文本实体关系抽取方法，其特征在于，所述预训练BERT使用金融文本数据：预处理金融文本具体包括以下步骤：

4.根据权利要求1所述的金融文本实体关系抽取方法，其特征在于，所述S3过程中，使用聚合函数更新节点嵌入，更新计算方法如下：

5.根据权利要求4所述的金融文本实体关系抽取方法，其特征在于，所述S3过程中，重复传播聚合函数3次。

6.根据权利要求5所述的金融文本实体关系抽取方法，其特征在于，所述S4过程中，对实体关系图中的目标实体对融合、各层嵌入融合具体包括以下步骤：

7.一种金融文本实体关系抽取***，基于权利要求1至6任一所述的金融文本实体关系抽取方法，其特征在于，包括单词嵌入预训练模块、实体关系图构建模块、实体关系图更新模块和关系预测模块：