CN117852543A

CN117852543A - 一种基于双粒度图的文档级实体关系抽取方法

Info

Publication number: CN117852543A
Application number: CN202410020590.8A
Authority: CN
Inventors: 廖涛; 张国畅
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-04-09

Abstract

本发明公开了一种基于双粒度图的文档级实体关系抽取方法，属于自然语言处理领域，包括以下步骤:S1：将文本内容转化为向量表示并学习文本的上下文关系，获取实体结点的向量表示；S2：基于语篇和句法关系构建双粒度文档图；S3：图结点表示并对图结点进行编码学习；S4：获取最终实体对得到最终关系。本发明从句内和句间两个层面出发，分步构造出具有句间语义信息的粗粒度文档图和兼具句内和句间语义信息的细粒度文档图，采用异步降噪方式，将降噪过程融入粗粒度构图过程，从而减轻结构性误剪枝带来的影响，进而增强了文档级关系抽取模型的性能。

Description

一种基于双粒度图的文档级实体关系抽取方法

技术领域

本发明涉及自然语言处理领域，具体是一种基于双粒度图的文档级实体关系抽取方法。

背景技术

文档级关系抽取是一项复杂的自然语言处理任务，它的目标是从整篇文档中辨识出实体之间的各种复杂关系。与仅在单句内部寻找实体关系的句子级任务不同，文档级抽取考虑到了跨句子甚至跨段落的语义联系，并且必须处理隐含关系，这大大增加了分析的难度。为了准确地执行这一任务，通常需要利用高级的命名实体识别技术来识别文档中的关键实体，如人名、地点和时间等，并定义一系列详尽的关系类型，如因果、同义、从属关系等，这些通常需要根据特定领域来精确标注。

目前，现有模型大多专注于共指关系的识别和关联，这在很大程度上忽略了文档中丰富的其他语义信息，如复杂的修辞或因果关系。因此缺乏重要的语义信息会导致模型难以捕捉到长距离实体之间的关系，处理文档中的噪声干扰也是一大挑战。合理的降噪可以减轻无关信息的干扰，如背景信息、描述性语句或不相关的细节。在文档级抽取中有关降噪的研究才刚刚起步，与以往的句子级关系抽取不同，文档图中同一实体对之间存在多个实体提及，此时句子级关系抽取中的降噪方法无法适用于文档级关系抽取中，面临的问题主要有两个：语义信息利用不足问题：现如今模型大多聚焦在共指关系，未能充分利用文档的语义信息。结构性误剪枝问题：在文档图结构中，同一实体对的句间关系路径总是大于句内关系路径，采用单一的降噪方式会造成结构性误剪枝。因此本发明主要解决以上两个问题。

发明内容

本发明的目的在于提供一种基于双粒度图的文档级实体关系抽取方法，针对此问题，该文提出一种基于构建双粒度文档图的关系抽取模型，模型采用了一种新型的构图思路以及降噪方法，在句间和句内两个层面进行设计，首先在句间层面使用修辞语篇关系与实体提及关系构建修辞语篇关系图，为避免因实体对的句间关系路径大于句内关系路径而导致的结构性误剪枝，这里采用异步降噪方式生成粗粒度文档图。然后为增强句内语义信息，在句间层面采用依存句法关系对文档中的句子进行解析构造出依存句法森林，最终将句法森林和粗粒度文档图中存在的公共锚点相连接，构造出最终的细粒度文档图。

本发明为了实现发明目的采用如下技术方案：

一种基于构建双粒度文档图的文档级实体关系抽取方法，包括以下步骤：

(1)将文本内容转化为向量表示并学习文本的上下文关系，获取实体结点的向量表示；

将文本中的共指嵌入和实体类型嵌入联合文本共同输入BERT预训练模型中，获取最终的实体表示。

(2)基于语篇和句法关系构建双粒度文档图；

通过引入语篇关系和句法关系作为外部知识来构造文档图，从而捕获文档中丰富的语义关系，并在构图的过程中，采用异步降噪的方式构建最终的文档图结构。

(3)图结点表示并对图结点进行编码学习；

对细粒度文档图中的实体结点，EDU结点进行特征向量表示之后使用图卷积网络对各个结点进行不断地编码学习。

(4)获取最终实体对得到最终关系；

通过将实体对表示为最终连接和实体对的相对位置连接的实体对表示得到关系分类。

其中，所述步骤(1)中学习文档中的上下文语意，并将文本转化为向量的具体操作为：

(1.1)在跨句关系推理中实体之间的共指关系扮演重要的角色，因此在文档D中，对于每个词w_i通过单词嵌入与实体类型嵌入和共指嵌入连接起来。

x_i＝[E_w(w_i)；E_t(t_i)；E_c(c_i)]

其中E_w(·),E_t(·)和E_c(·)分别表示词嵌入层，实体类型嵌入层和共指嵌入层，t_i和c_i分别为实体类型和实体id。

(1.2)本文假设每个实体e_i有m个提及，为了尽可能保存实体在BERT训练中的上下文语义，采用平均最大值池化(LogSumExp)方法，那么每个实体就可以被表示为：

其中，所述步骤(2)中在句内和句间融入句法和语篇关系并构建双粒度的具体操作为：

(2.1)给定文档D＝[S₁,S₂,...,S_n]，其中有n个句子，并且每个句子S_i＝[x₁,x₂,...,x_k]有k

个字符。最终会输出包含n个SDT树的集合。本文将该集合表示为。

SDT_set＝{t₁,t₂,...,t_n}＝spaCy([S₁,S₂,...,S_n]) (2)

其中对应于SDT_set＝{t₁,t₂,...,t_n}与依存句法关系。

(2.2)通过对于语篇解析本文使用DPLP中的代码，它将文档D解析为基本语篇单元EDU的EDU-tree结构。对于d个EDU(d>n)有：

T＝DPLP([S₁,S₂,...,S_n]) (3)

其中对于任何的和/>对应于EDUs＝[edu₁,edu₂,...,edu_p]与语篇依赖关系。每个EDU都包含一个短单词序列。

将文档拆分成EDU文本片段生成EDU-tree，并将EDU中存在的实体结点分化出来连接在EDU末端，紧接着将具有相同实体提及的结点进行连接，值得注意的是，对于相邻的实体提及需要进行合并处理，有利于下面针对不同实体对进行降噪处理，最终构成修辞语篇关系树。

每个句子都存在一个root结点，该结点同时也存在于语篇关系所构成的EDU片段中，这里称之为锚点，若SDT和EDU之间存在公共root，由于在BERT预训练阶段，文本中的实体会学习周围信息的语义表达，这里直接将该SDT中存在的实体对与EDU片段相连，从而构造出最终的细粒度文档图

其中，所述步骤(3)中，对文档图中的实体进行编码卷积学习，以学习其中的结点信息的具体步骤为：

(3.1)对于EDU文本序列，这里不能简单的像处理实体结点那样采用平均最大池化来处理，因为在一段文本序列中可能会包含着多个不同关键证据，为了保留这些关键句子信息，本文采用软注意力方法，尽量保留EDU结点中关键证据信息。其计算过程如下：

在上述公式中其中d_w是每个单词的维度，l是各个EDU的长度。则任意一个EDU结点都能表示成/>

(3.2)DCGCN网络添加了紧密连接在图卷积神经网络中，该网络使得实体能够同时

捕获局部与非局部的信息。DCGCN在每层网络上的计算过程如下：

其中，所述步骤(4)中通过最终的实体对表示学习关系分类，其过程如下：

在这里将实体对表示为最终连接和实体对的相对位置连接，以下是实体对表示公式：

将方面项和观点项进行两两配对得到方面-观点对集合，并为每个目标词对(S_a,S_o)分配关系标签r_i ^j∈{0,1},从而转化成二分类任务。

e_m＝[e_m ^rep；s_mn],e_n＝[e_n ^rep；s_nm]

其中e^rep是实体经过DCGCN卷积图网络学习的最终表示，s_mn代表着e_m和e_n第一次提及的相对距离信息。

然后将e_m，e_n连接起来形成目标关系表示o_r＝[e_m；e_n]；

这里采用自注意力机制来捕获上下文关系表示，这样可以充分利用文档的主题信息：

其中是可训练参数矩阵，d_r是目标关系表示的维度，o_i是第i个实体对的关系表示。其中θ_i是o_i的注意力权重。p是实体对的数量；

在目标关系表示o_r和上下文关系表示o_c上使用前馈神经网络进行预测。在这里将多分类问题转换为多个二元分类问题，因为实体对可能具有不同的关系。r在所有关系的集合R上的预测概率分布定义如下：

y_r＝sigmoid(FFNN([o_r；o_c]))

其中y_r∈{0,1}，定义损失函数如下：

其中表示r的真实标签，这里采用Adam优化器去优化这个损失函数

本发明提供的一种基于双粒度文档图的文档级实体关系抽取抽取方法具有以下优点：

(1)现如今模型大多聚焦在共指关系，未能充分利用文档的语义信息。本发明从句内和句间两个层面出发，分步构造出具有句间语义信息的粗粒度文档图和兼具句内和句间语义信息的细粒度文档图。

(2)在文档图结构中，同一实体对的句间关系路径总是大于句内关系路径，采用单一的降噪方式会造成结构性误剪枝。本发明结合双粒度文档图结构，采用异步降噪方式，将降噪过程融入粗粒度构图过程，从而减轻结构性误剪枝带来的影响。

附图说明

图1为基于构建双粒度图的文档级实体关系抽取方法流程图；

图2为基于语篇和句法关系构建双粒度图示意图；

图3为图结点表示及其图编码学习示意图；

图4为获取最终实体对得到关系抽取示意图。

具体实施方式

以下通过具体实施例，对本发明做进一步解释说明。

实施例一：本发明提供了以一种基于构建双粒度文档图的文档级关系抽取方法，如图1所示,具体步骤如下：

S1将文本转化为向量并学习上下文相关信息；

S1.1在跨句关系推理中实体之间的共指关系发挥重要作用，因此在文档D中，对于每个词w_i通过单词嵌入与实体类型嵌入和共指嵌入连接起来并送入BERT预训练编码器中。

x_i＝[E_w(w_i)；E_t(t_i)；E_c(c_i)]

其中E_w(·),E_t(·)和E_c(·)分别表示词嵌入层，实体类型嵌入层和共指嵌入层，t_i和c_i分别为实体类型和实体id

S1.2实体表示：本文假设每个实体e_i有m个提及，为了尽可能保存实体在BERT训练中的上下文语义，采用平均最大值池化(LogSumExp)方法，那么每个实体就可以被表示为：

S2.基于句法和语篇关系构建双粒度文档图的主要步骤。结合图2进行如下说明：

S2.1在句内和句间融入句法和语篇关系，并通过异步降噪的方式构建双粒度文档图。

S2.1.1给定文档D＝[S₁,S₂,...,S_n]，其中有n个句子，并且每个句子S_i＝[x₁,x₂,...,x_k]有k

个字符。最终会输出包含n个SDT树的集合。本文将该集合表示为：

SDT_set＝{t₁,t₂,...,t_n}＝spaCy([S₁,S₂,...,S_n])

其中对应于SDT_set＝{t₁,t₂,...,t_n}与依存句法关系。

S2.1.2对于语篇解析本文使用DPLP中的代码，它将文档D解析为基本语篇单元ED

U(Elementary Discourse Unit)的EDU-tree结构。对于d个EDU(d>n)有：

T＝DPLP([S₁,S₂,...,S_n])

S2.2将文档拆分成EDU文本片段生成EDU-tree，并将EDU中存在的实体结点分化出来连接在EDU末端，紧接着将具有相同实体提及的结点进行连接，值得注意的是，对于相邻的实体提及需要进行合并处理，有利于下面针对不同实体对进行降噪处理，最终构成修辞语篇关系树。

S2.3每个句子都存在一个root结点，该结点同时也存在于语篇关系所构成的EDU片段中，这里称之为锚点，若SDT和EDU之间存在公共root，由于在BERT预训练阶段，文本中的实体会学习周围信息的语义表达，这里直接将该SDT中存在的实体对与EDU片段相连，从而构造出最终的细粒度文档图。

S3对文档图中的实体进行编码卷积学习，以学习其中的结点信息：

S3.1对于EDU文本序列，这里不能简单的像处理实体结点那样采用平均最大池化来处理，因为在一段文本序列中可能会包含着多个不同关键证据，为了保留这些关键句子信息，本文采用软注意力方法，尽量保留EDU结点中关键证据信息。其计算过程如下：

S3.2 DCGCN网络添加了紧密连接在图卷积神经网络中，该网络使得实体能够同时捕获局部与非局部的信息。DCGCN在每层网络上的计算过程如下：

其中，u^l _i是结点i在第l层的隐层表示；W^l和b^l分别是l层网络的参数矩阵和偏置量；

σ是ReLU激活函数；是来自于上述细粒度图中结点的初始化表示。其中网络的参数矩阵参照DCGCN的设置。

S4.通过最终的实体对表示学习关系分类，结合图4进行如下说明：

S4.1在这里将实体对表示为最终连接和实体对的相对位置连接，以下是实体对表示公式：

e_m＝[e_m ^rep；s_mn],e_n＝[e_n ^rep；s_nm]

然后将e_m，e_n连接起来形成目标关系表示o_r＝[e_m；e_n]；

S4.2这里采用自注意力机制来捕获上下文关系表示，这样可以充分利用文档的主题信息：

y_r＝sigmoid(FFNN([o_r；o_c]))

其中y_r∈{0,1}，定义损失函数如下：

其中表示r的真实标签，这里采用Adam优化器去优化这个损失函数。

此外，以上实施方式仅用以说明本发明的具体实施方式而不是对其限制，本领域技术人员应当理解，还可以对其中部分技术进行同等替换，这些修改和替换亦属于本发明保护范围。

Claims

1.一种基于双粒度图的文档级实体关系抽取方法，其特征在于包括如下步骤：

步骤1：将文档内容送入BERT预训练模型，并将文本转化为向量并学习上下文相关信息；

步骤2：在句内和句间两个层面对文档图进行分步构建，对于句间层面，引入句间的修辞语篇关系作为外部知识并联合实体提及构造出修辞语篇关系图，并采用改进的斯坦纳树算法对修辞语篇关系图降噪构造出粗粒度图，对于句间层面，使用依存句法关系对文档中的句子进行解析构造出依存句法森林，并将依存句法森林和粗粒度图中存在的公共锚点相连构造出最终的细粒度图；

步骤3：接着将邻接关系矩阵送入DCGCN图卷积神经网络对结点进行编码学习；

步骤4：通过自注意力机制，并利用预训练模型中的参数信息得到最终的实体表达，将最终的实体对送入sigmoid激活函数得到关系分类。

2.根据权利要求1所述将文档内容送入BERT预训练模型，并将文本转化为向量并学习上下文相关信息，其特征在于步骤1包括：

步骤1.1在跨句关系推理中实体之间的共指关系发挥重要作用，因此在文档D中，对于每个词w_i通过单词嵌入与实体类型嵌入和共指嵌入连接起来：

x_i＝[E_w(w_i)；E_t(t_i)；E_c(c_i)],其中E_w(·),E_t(·)和E_c(·)分别表示词嵌入层，实体类型嵌入层和共指嵌入层，t_i和c_i分别为实体类型和实体id；

步骤1.2实体表示：本文假设每个实体ei有m个提及，为了尽可能保存实体在BERT训练中的上下文语义，采用平均最大值池化(LogSumExp)方法，并且每个实体就可以被表示为：

其中hj代表BERT预训练编码后的实体表示。

3.根据权利要求1所述在句内和句间两个层面对文档图进行分步构建，对于句间层面，引入句间的修辞语篇关系作为外部知识并联合实体提及构造出修辞语篇关系树，并采用改进的斯坦纳树算法对修辞语篇关系图降噪构造出粗粒度图，对于句间层面，使用依存句法关系对文档中的句子进行解析构造出SDT，并将SDT和粗粒度图中存在的公共锚点相连构造出最终的细粒度图，其特征在于步骤2包括：

通过引入语篇关系和句法关系作为外部知识来构造文档图，从而捕获文档中丰富的语义关系，并在构图的过程中，采用异步降噪的方式构建最终的文档图结构；

步骤2.1给定文档D＝[S₁,S₂,...,S_n]，其中有n个句子，并且每个句子S_i＝[x₁,x₂,...,x_k]有k个字符，最终会输出包含n个SDT树的集合，本文将该集合表示为：SDT_set＝{t₁,t₂,...,t_n}＝spaCy([S₁,S₂,...,S_n]),其中对应于SDT_set＝{t₁,t₂,...,t_n}和依存句法关系；

步骤2.2对于语篇解析本文使用DPLP中的代码，它将文档D解析为基本语篇单元EDU(Elementary Discourse Unit)的EDU-tree结构，对于d个EDU(d>n)有：

T＝DPLP([S₁,S₂,...,S_n])其中对于任何的和/>对应于EDUs＝[edu₁,edu₂,...,edu_p]和语篇依赖关系，每个EDU都包含一个短单词序列；

步骤2.3将文档拆分成EDU文本片段生成EDU-tree，并将EDU中存在的实体结点分化出来连接在EDU末端，紧接着将具有相同实体提及的结点进行连接，值得注意的是，对于相邻的实体提及需要进行合并处理，有利于下面针对不同实体对进行降噪处理，最终构成修辞语篇关系树；

步骤2.4每个句子都存在一个root结点，该结点同时也存在于语篇关系所构成的EDU片段中，这里称之为锚点，若SDT和EDU之间存在公共root，由于在BERT预训练阶段，文本中的实体会学习周围信息的语义表达，这里直接将该SDT中存在的实体对与EDU片段相连，从而构造出最终的细粒度文档图。

4.根据权利要求1所述将邻接关系矩阵送入DCGCN图卷积神经网络对结点进行编码学习，其特征在于步骤3包括：

步骤3.1对于EDU文本序列，这里不能简单的像处理实体结点那样采用平均最大池化来处理，因为在一段文本序列中可能会包含着多个不同关键证据，为了保留这些关键句子信息，本文采用软注意力方法，尽量保留EDU结点中关键证据信息，其计算过程如下：

在上述公式中其中d_w是每个单词的维度，l是各个EDU的长度，则任意一个EDU结点都能表示成/>

步骤3.2DCGCN网络添加了紧密连接在图卷积神经网络中，该网络使得实体能够同时捕获局部与非局部的信息，DCGCN在每层网络上的计算过程如下：其中，u^l _i是结点i在第l层的隐层表示，W^l和b^l分别是l层网络的参数矩阵和偏置量，σ是ReLU激活函数，/>是来自于上述细粒度文档图结点的初始化表示，其中网络的参数矩阵参照DCGCN的设置。

5.根据权利要求1述通过自注意力机制，并利用预训练模型中的参数信息得到最终的实体表达，最后将最终的实体对送入sigmoid激活函数得到关系分类，其特征在于步骤4包括：

步骤4.1在这里将实体对表示为最终连接和实体对的相对位置连接，以下是实体对表示公式：

e_m＝[e_m ^rep；s_mn],e_n＝[e_n ^rep；s_nm]，其中e^rep是实体经过DCGCN卷积图网络学习的最终表示，s_mn代表着e_m和e_n第一次提及的相对距离信息，然后将e_m，e_n连接起来形成目标关系表示o_r＝[e_m；e_n]；

步骤4.2这里采用自注意力机制来捕获上下文关系表示，这样可以充分利用文档的主题信息：

其中是可训练参数矩阵，d_r是目标关系表示的维度，o_i是第i个实体对的关系表示，其中θ_i是o_i的注意力权重，p是实体对的数量；

步骤4.3在目标关系表示o_r和上下文关系表示o_c上使用前馈神经网络进行预测，在这里将多分类问题转换为多个二元分类问题，因为实体对可能具有不同的关系，r在所有关系的集合R上的预测概率分布定义如下：

y_r＝sigmoid(FFNN([o_r；o_c]))，其中y_r∈{0,1}；

步骤4.4定义损失函数如下：