CN116702755A

CN116702755A - 一种基于依存句法图和短语结构树的文档级关系抽取方法

Info

Publication number: CN116702755A
Application number: CN202310749338.6A
Authority: CN
Inventors: 康昭; 田玲; 惠孛; 柯立; 鞠蓁轩; 吴旭程
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-09-05

Abstract

本发明公开了一种基于依存句法图和短语结构树的文档级关系抽取方法，包括以下步骤：对文档进行编码，通过预训练语言模型，获取文档的字符级嵌入表示和注意力矩阵；构建短语结构树，计算实体对间关系的预测值；构建包含两类节点和三类边的依存句法图，根据依存句法图和文档中的字符级嵌入表示计算实体对间基于依存句法关系的预测值；根据实体对间基于依存句法关系的预测值和实体对间关系的预测值得到最后的预测值，根据最后的预测值获得损失函数，利用损失函数训练依存句法关系模型，使用训练好的依存句法关系模型对待处理文档进行处理，实现文档级的关系抽取，本方案通过考虑文档的语法信息，来实现文档级关系抽取，提升了文档关系抽取效果。

Description

一种基于依存句法图和短语结构树的文档级关系抽取方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于依存句法图和短语结构树的文档级关系抽取方法。

背景技术

关系提取是信息提取中的一项关键任务，旨在对非结构化文本中实体之间的关系模式进行建模。在关系提取任务中，有两个具体场景：句子级关系提取和文档级关系提取。传统的句子级关系抽取的实体常常在一个句子中，而文档级关系提取不仅局限于一个句子内，更加满足真实场景的需要，受到了越来越多的关注。

文档级关系提取的一个主要挑战是推断长句中多个实体对的关系，长句中可能包含不相关甚至有噪声的信息；现有的文档级关系抽取方法在大量不相关信息的情况下，文档级关系抽取有时会遇到复杂的关系实例，而仅通过上下文来学习实例的关系常常会出现抽取效果差的情况，需要考虑文档的语法信息。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于依存句法图和短语结构树的文档级关系抽取方法解决了现有的文档级关系抽取方法遇到复杂的关系实例时抽取效果差的问题。

为了达到上述发明目的，本发明采用的技术方案为：提供一种基于依存句法图和短语结构树的文档级关系抽取方法，包括以下步骤：

S1、对文档进行编码，并通过预训练语言模型，获取文档的字符级嵌入表示；

S2、构建短语结构树，采用Tree-LSTM模型计算实体对间关系的预测值；

S3、构建包含三类节点和三类边的依存句法图，根据依存句法图和文档中的字符级嵌入表示构建依存句法关系模型，并使用依存句法关系模型计算实体对间基于依存句法关系的预测值；

其中，依存句法图包括若干节点，所述依存句法图中的节点构成依存句法树，依存句法树与依存句法图中的边构成依存句法图；

S4、根据实体对间基于依存句法关系的预测值和基于短语结构关系的预测值得到最后的预测值，根据最后的预测值获得损失函数，利用损失函数训练依存句法关系模型，得到训练好的依存句法关系模型；

S5、使用训练好的依存句法关系模型对待进行关系提取的文档进行处理，实现文档级的关系抽取。

进一步地：所述步骤S1包括以下分步骤：

S11、给文档中的每个提及词前后***特殊符号，完成编码；

S12、将编码后文档中的所有字符输入到预训练语言模型中，获得该文档的字符级嵌入表示。

进一步地：所述步骤S2包括以下分步骤：

S21、构建文档的每个句子的短语结构树，使用Tree-LSTM模型进行建模，获得每个句子的句向量嵌入表示；

S22、将每个句子的句向量嵌入表示，获得文档的向量表示；

S23、根据实体对嵌入表示和文档的向量表示，利用双线性层计算实体对间关系的预测值。

进一步地：所述步骤S21包括以下分步骤：

S2101、计算Tree-LSTM模型中输入门的状态转移方程，其公式如下：

其中，i_j为节点j的输入门的输出信息，x_j为节点j的输入向量，h_jl为节点j的第l个孩子节点的隐藏状态，W⁽ⁱ⁾为输入门输入特征的变换矩阵，为输入门隐藏层的参数变换矩阵，b⁽ⁱ⁾为输入门的偏置，N(j)为节点j的相邻节点；

S2102、计算Tree-LSTM模型中遗忘门的状态转移方程，其公式如下：

其中，f_jk为节点j的第k个孩子节点的遗忘门输出信息，k＝1,2,..,|N(j)|，W^(f)为遗忘门输入特征的变换矩阵，为遗忘门隐藏层的非对角线参数矩阵，b^(f)为遗忘门的偏置；

S2103、计算Tree-LSTM模型中的输出门的状态转移方程，其公式如下：

其中，o_j为输出门的输出信息，W^(o)为输出门输入特征的变换矩阵，为输出门隐藏层的参数变换矩阵，b^(o)为输出门的偏置；

S2104、计算Tree-LSTM模型中的记忆细胞的状态转移方程，其公式如下：

其中，c_j为表示节点j的当前细胞状态，u_j表示输入门的接受状态，⊙为点积符号，c_jl为节点j的第l个孩子节点的记忆细胞，tanh(.)为激活函数，W^(u)和均为参数矩阵，b^(u)为偏置。

S2105、计算Tree-LSTM模型中的更新隐藏状态的状态转移方程，其公式如下：

h_j＝o_j⊙tanh(c_j)

其中，h_j为更新后的隐藏状态；

S2106、根据Tree-LSTM模型中输入门的状态转移方程、Tree-LSTM模型中遗忘门的状态转移方程、Tree-LSTM模型中的输出门的状态转移方程、Tree-LSTM模型中的记忆细胞的状态转移方程和Tree-LSTM模型中的更新隐藏状态的状态转移方程，构建Tree-LSTM模型；

S2107、为文档的每个句子构建短语结构树，并使用Tree-LSTM模型在每个短语结构树上建模，获得每个句子的句向量表示。

进一步地：所述步骤S23计算实体对间关系的预测值的公式如下所示：

z_const＝pair_s,oW^constv_docu+b^const

其中，z_const为实体对间关系的预测值，pair_s,o为实体对嵌入表示，v_docu为文档的向量表示，W^const和b^const均为可训练的参数。

进一步地：所述步骤S3包括以下分步骤：

S31、将文档中的每个字符作为一个节点，构建依存句法图中的节点；

S32、将文档的每个句子输入到依存句法分析器，产生每个句子对应的依存句法树；

S33、构建依存句法图中的边，并通过文档中的字符级嵌入表示赋予每条边权重，完成依存句法图的构建；

S34、采用图卷积网络层对依存句法图进行特征融合和编码，获得最终的嵌入表示；

S35、通过融合实体所有提及词的最终的嵌入表示得到实体嵌入表示，并利用多层感知机计算实体对嵌入表示；

S36、将实体对嵌入表示及其上下文信息进行拼接，形成实体对的完整编码，完成依存句法关系模型的构建，并通过依存句法关系模型计算实体对间基于依存句法关系的预测值。

进一步地：所述步骤S31中，节点包括字符节点和提及词节点；

所述字符节点的节点特征为字符的编码特征；

所述提及词节点的节点特征为提及词中所有字符特征的平均值。

进一步地：所述步骤S33中，所述依存句法图中的边包括双向边和单向边，其中，赋予双向边的权重值为1，赋予单向边的权重值的计算公式为：

其中，G_ij为依存句法树根节点i和j之间单向边的权重值，h_i和h_j分别表示根节点i和节点j的嵌入。

进一步地：所述步骤S4包括以下分步骤：

S41、根据实体对间基于依存句法关系的预测值和实体对间关系的预测值，计算最终的预测值，其公式如下：

z_final＝z_dep+ηz_const

其中，z_final为最终的预测值，z_dep为实体对间基于依存句法关系的预测值，z_const为实体对间关系的预测值，η为调整两个预测值比例的权值参数；

S42、根据最后的预测值获得损失函数，并利用损失函数训练依存句法关系模型，损失函数的数学表达式为：

其中，α为margin超参数，C表示关系类别的数量，z_s表示z_final中分类为无关系的分数，z_i表示z_final中每个类别的分数，max(.)为取大值函数；当两个实体的关系为正确类别时，t_i的值为1，当两个实体的关系为不正确类别时，t_i的值为0。

本发明的有益效果为：

1.构建依存图提取单个句子中的句法信息，补充原始文本信息，增强文本表示能力；

2.利用短语结构树组织长句的层次语法信息，实现对其的细粒度划分；

3.通过依存图和短语结构树，实现融合额外语法信息并捕捉长句依赖信息，更好地表示文档，从而提升文档关系抽取效果。

附图说明

图1为本发明的文档级关系抽取方法流程示意图

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，提供一种基于依存句法图和短语结构树的文档级关系抽取方法，包括以下步骤：

S1、对文档进行编码，并通过预训练语言模型，获取文档的字符级嵌入表示和注意力矩阵；

在本实施例中，所述步骤S1包括以下分步骤：

S11、给文档中的每个提及词前后***特殊符号，完成编码；

S12、将编码后文档中的所有字符输入到预训练语言模型中，获得该文档的字符级嵌入表示；

整个过程表示如下：

其中，H∈R^T*d为该文档的字符级嵌入表示，A∈R^T*T为注意力矩阵，T为字符数量，d为字符嵌入的难度，N为文档包括的句子总数，P_N为第N个句子包括的字符数，R用于表示矩阵的大小；

所述步骤S2包括以下分步骤：

所述步骤S21包括以下分步骤：

h_j＝o_j⊙tanh(c_j)

其中，h_j为更新后的隐藏状态；

S22、将每个句子的句向量嵌入表示，获得文档的向量表示；

S23、根据实体对嵌入表示和文档的向量表示，利用双线性层计算实体对间关系的预测值；

所述步骤S23计算实体对间关系的预测值的公式如下所示：

z_const＝pair_s,oW^constv_docu+b^const

所述步骤S3包括以下分步骤：

所述步骤S31中，节点包括字符节点和提及词节点；

所述字符节点的节点特征为字符的编码特征；

所述提及词节点的节点特征为提及词中所有字符特征的平均值；

所述步骤S33中，所述依存句法图中的边包括双向边和单向边，其中，赋予双向边的权重值为1，赋予单向边的权重值的计算公式为：

其中，G_ij为依存句法树根节点i和j之间单向边的权重值，h_i和h_j分别表示根节点i和节点j的嵌入；

S36、将实体对嵌入表示及其上下文信息进行拼接，形成实体对的完整编码，并通过实体对的完整编码计算实体对间基于依存句法关系的预测值；

S4、根据实体对间基于依存句法关系的预测值和实体对间关系的预测值得到最后的预测值，根据最后的预测值获得损失函数，利用损失函数训练依存句法关系模型，得到训练好的依存句法关系模型。

所述步骤S4包括以下分步骤：

z_final＝z_dep+ηz_const

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims

1.一种基于依存句法图和短语结构树的文档级关系抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于依存句法图和短语结构树的文档级关系抽取方法，其特征在于，所述步骤S1包括以下分步骤：

S11、给文档中的每个提及词前后***特殊符号，完成编码；

3.根据权利要求2所述的基于依存句法图和短语结构树的文档级关系抽取方法，其特征在于，所述步骤S2包括以下分步骤：

S22、将每个句子的句向量嵌入表示，获得文档的向量表示；

4.根据权利要求3所述的基于依存句法图和短语结构树的文档级关系抽取方法，其特征在于，所述步骤S21包括以下分步骤：

其中，i_j为节点j的输入门的输出信息，x_j为节点j的输入向量，为节点j的第/>个孩子节点的隐藏状态，W⁽ⁱ⁾为输入门输入特征的变换矩阵，/>为输入门隐藏层的参数变换矩阵，b⁽ⁱ⁾为输入门的偏置，N(j)为节点j的相邻节点；

其中，c_j为表示节点j的当前细胞状态，u_j表示输入门的接受状态，⊙为点积符号，为节点j的第/>个孩子节点的记忆细胞，tanh(.)为激活函数，W^(u)和/>均为参数矩阵，b^(u)为偏置。

h_j＝o_j⊙tanh(c_j)

其中，h_j为更新后的隐藏状态；

5.根据权利要求4所述的基于依存句法图和短语结构树的文档级关系抽取方法，其特征在于，所述步骤S23计算实体对间关系的预测值的公式如下所示：

z_const＝pair_s,oW^constv_docu+b^const

6.根据权利要求5所述的基于依存句法图和短语结构树的文档级关系抽取方法，其特征在于，所述步骤S3包括以下分步骤：

7.根据权利要求6所述的基于依存句法图和短语结构树的文档级关系抽取方法，其特征在于，所述步骤S31中，节点包括字符节点和提及词节点；

所述字符节点的节点特征为字符的编码特征；

8.根据权利要求7所述的基于依存句法图和短语结构树的文档级关系抽取方法，其特征在于，所述步骤S33中，所述依存句法图中的边包括双向边和单向边，其中，赋予双向边的权重值为1，赋予单向边的权重值的计算公式为：

9.根据权利要求8所述的基于依存句法图和短语结构树的文档级关系抽取方法，其特征在于，所述步骤S4包括以下分步骤：

z_final＝z_dep+ηz_const