CN113239186B

CN113239186B - 一种基于多依存关系表示机制的图卷积网络关系抽取方法

Info

Publication number: CN113239186B
Application number: CN202110218087.XA
Authority: CN
Inventors: 沈红; 刘欣; 刘午凌; 罗晋; 彭晨; 闵飞; 乔雪
Original assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Current assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-11-29
Anticipated expiration: 2041-02-26
Also published as: CN113239186A

Abstract

本发明提出了一种基于多依存关系表示机制的图卷积网络关系抽取方法，对采集到的非结构化文本开展预处理，包括分句、分词、词性标注、实体类型标注、关系类型标注，生成每个分词的语义嵌入向量，对句子进行依存关系分析，生成依存关系树；基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征；根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵，结合句子的上下文语义特征，对邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算，再对卷积运算后的结果进行最大池化处理，获得句子表示向量；基于前馈神经网络获取实体关系特征信息，进行实体关系分类。本发明能够更好地辅助关系抽取，提升了识别精度。

Description

一种基于多依存关系表示机制的图卷积网络关系抽取方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于多依存关系表示机制的图卷积网络关系抽取方法。

背景技术

大数据时代，互联网信息激增，如何有效地从海量非结构化文本中挖掘出高质量、结构化的知识信息，是自然语言处理技术研究的难点。关系抽取是信息抽取的一项重要环节，其目的是对文本中的实体进行语义关系分类。关系分类分为有监督分类法、无监督分类法、半监督分类法以及开放域分类法。目前，基于深度神经网络的有监督式抽取方式是关系抽取的主流。

深度神经网络可习得文本的语义特征。近年来，由于图卷积网络(GraphConvolutional Network,GCN)在表征句子结构及语义依存关系方面的强大优势，被广泛应用于关系抽取、文本分类、情感分类。并且，其并行式的运算框架，使模型在运算效率上得到大幅提升。关系抽取中，句子通常含有指示实体关系的特征词，如“马云创建阿里巴巴”中的“创建”。通过句法分析构建句子依存关系树(图)，并通过一定方式筛选出依存关系树(图)上的关系指示词，可帮助关系抽取模型提升分类效果。因此，有些学者通过抽取最短依存路径上节点作为关系关键词辅助关系抽取；有些则将最短依存路径上的节点信息扩展到其所连接的子树；还有则是通过设定依存关系树的层数来控制输入节点数量。以上方法都是基于预定义的依存路径方式来获取表征实体关系的关键词，它潜在假设关系关键词一定会在预先设定的依存路径上出现，但由于语言的多样性以及句式结构的复杂性，使得这种预定义的筛选方式适用性不强，导致模型容易忽略掉分散在句子某处的重要关系指示词，限制了关系模型的识别精度和识别范围。

发明内容

本发明的目的在于提出了一种基于多依存关系表示机制的图卷积网络关系抽取方法，以解决现有基于图卷积网络的关系抽取模型需依赖预定义方式抽取关系关键词，导致模型的句式兼容性差、筛选方式不灵活、容易忽略分散于句子非主干路径上的关系指示词的问题。

实现本发明目的的技术解决方案为：一种基于多依存关系表示机制的图卷积网络关系抽取方法，包括如下步骤：

步骤1，对采集到的非结构化文本开展预处理，包括分句、分词、词性标注、实体类型标注、关系类型标注，生成每个分词的语义嵌入向量，对句子进行依存关系分析，生成依存关系树；

步骤2，基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征；

步骤3，根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵，结合句子的上下文语义特征，对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算，再对卷积运算后的结果进行最大池化处理，获得句子表示向量；

步骤4，基于前馈神经网络获取实体关系特征信息，进行实体关系分类。

进一步的，步骤1中，对采集到的非结构化文本开展预处理，包括分词、词性标注、实体类型标注、关系类型标注，并将这些词转化为计算机可处理的嵌入向量编码，具体方法为：

步骤1.1，首先，以句号为分隔符，对文本开展分句；其次，对句子进行分词、词性分析、依存关系分析；然后，以句子为单位，标注实体对和实体关系类型，形成有标注的句子语料；

步骤1.2，将经过预处理的语句分词映射到语义向量空间中的一个d维子空间，即语义嵌入，具体过程按照以下公式进行：

其中，e_t是嵌入后对应于每个分词的语义嵌入向量，

分别为词嵌入向量、实体类别嵌入向量、词性嵌入向量，

为向量连接运算，词嵌入向量由语言模型生成的编码库表生成，实体类型嵌入向量和词性嵌入向量则是根据文本预处理中实体识别和词性分析的结果进行编码而得。

进一步的，步骤2中，基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征，具体方法为：

双向长短期记忆循环神经网络分别由一个正向LSTM网络传播层和一个反向LSTM网络传播层叠加而成，其各自网络的隐藏层状态向量计算如下：

其中，LSTM(·)为长短期记忆单元运算，e_t是每个分词的语义嵌入向量，

和

分别为对应于各分词的正向和反向循环神经网络隐藏层状态向量，h_t为对应于各分词在双向长短期记忆循环神经网络中的输出向量，也即句子的上下文语义特征。

进一步的，步骤3中，基于依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵，结合句子的上下文语义特征，对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算，再对卷积运算后的结果进行最大池化处理，获得句子表示向量，具体方法为：

1)依存关系结构的矩阵表示

a)构建全邻接矩阵

全邻接矩阵用于表征依存关系树上所有节点之间的邻接关系，具体地，具有n个节点的图或树的全邻接矩阵定义为n阶方阵A＝(a_ij)_n×n，其中：

b)构建集中邻接矩阵

将最短依存路径上的节点信息作为反映实体关系的强特征信息，将最短依存路径提供的节点信息用集中邻接矩阵表示，具体地，集中邻接矩阵定义为n阶方阵A_c＝(c_ij)_n×n，其中：

即在全邻接矩阵中将不属于最短依存路径的边所对应的元素设为0，换句话说，这也等价于将完整的原句依存关系树修剪为仅保留最短依存路径的子树；

c)构建距离权重邻接矩阵

与集中邻接矩阵相反，基于节点间的距离，也就是节点间路径包含边的数量，构造保留更多依存关系结构信息的距离权重矩阵，具体地，距离权重邻接矩阵定义为n阶方阵A_w＝(w_ij)_n×n，其中：

式中，d_ij为节点i,j之间的距离，这也等价于将原句依存关系树转换为一个由节点距离决定权中的带权完全图，距离权重邻接矩阵比原本的全邻接矩阵更完整地表示了节点间直接或间接关联关系；

2)图卷积网络运算

图卷积运算GCN(·)定义为：

为全邻接矩阵A的再标准化形式，σ(·)为激活函数，选用ReLU函数，H^(m)为图卷积网络第m层的输出及第m+1层的输入，

和

分别为与A对应的图卷积参数矩阵和仿射偏置矩阵；

将步骤2捕获的句子的上下文语义特征作为三个并行图卷积网络的输入，结合上述三种依存关系表示方式，采用图卷积网络按照下列公式进行运算：

式中，h₁,…,h_s为双向长短期记忆循环神经网络模型输出表示所有分词的状态向量，s为句子中分词的总数，l为图卷积网络总层数，

分别为对应于全邻接矩阵、集中邻接矩阵、距离权重邻接矩阵的图卷积子网络最终层输出，H^(l)为并行图卷积网络的最终综合输出；

3)最大值池化处理

使用最大池化函数f_max对图卷积网络的最终综合H^(l)进行降维处理：

h_sent＝f_max(h^(l)) (12)

式中，h_sent均为H^(l)经最大值集中化处理后得到的句子表示向量。

进一步的，步骤4中，基于模型获取的实体关系特征信息辅助句子实体关系分类，具体方法为：

将步骤3得到的句子表示向量输入到一个前馈神经网络关系分类器，并用softmax函数获得每种关系分类的预测概率，具体公式如下所示：

h_f＝FFNN(h_sent) (13)

P＝softmax(Wh_f+b) (14)

其中，h_f为用于关系分类的语句最终表示，h_sent为句子表示向量，W和b是softmax分类层的线性变换矩阵和仿射偏置向量，P是关系分类器最后输出的概率向量。

一种基于多依存关系表示机制的图卷积网络关系抽取***，基于所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。

本发明与现有技术相比，其显著优点为：基于多依存关系表示机制的图卷积网络方法实现句子实体关系的自动分类，能够灵活地结合句子本身语义特征信息开展实体关系的挖掘和预测，既结合了最短依存路径上的重要特征词，又最大限度地兼顾了可能零散分布于最短依存路径之外的关系指示词，从而能够更好地辅助关系抽取，提升识别精度。

附图说明

图1为本发明关系抽取方法的流程示意图；

图2为本发明引入多依存关系表示机制的图卷积网络结构示意图；

图3为本发明实施例生成的依存关系树示意图；

图4为本发明实施例关系抽取的流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明提出一种基于多依存关系表示机制的图卷积网络关系抽取方法，包括以下步骤：

步骤1：对采集的非结构化文本进行预处理

首先，以句号为分隔符，对文本开展分句；其次，对句子进行分词、词性分析、依存关系分析；然后，以句子为单位，标注实体对和实体关系类型，形成有标注的句子语料5000余条。之后，将预处理后的文本语料划分为训练集、验证集和测试集，划分比例分别为65％、20％和15％。

然后，将经过预处理的语句分词映射到语义向量空间中的一个d维子空间，即语义嵌入。具体过程按照以下公式进行：

其中，e_t是嵌入后对应于每个分词的语义嵌入向量，

分别为词嵌入向量、实体类别嵌入向量、词性嵌入向量，

为向量连接运算。词嵌入向量由语言模型生成的编码库表生成，实体类型嵌入向量和词性嵌入向量则是根据文本预处理中实体识别和词性分析的结果进行编码而得。

步骤2：捕捉句子上下文语义特征

由于循环神经网络对于句子序列特征有很好的捕捉效果，这里将步骤1获得的语义嵌入向量输入至一个双向长短期记忆循环神经网络(Bi-LSTM)，用于捕捉句子上下文语义信息。双向长短期记忆循环神经网络分别由一个正向LSTM网络传播层和一个反向LSTM网络传播层叠加而成，其各自网络的隐藏层状态向量计算如下：

其中，LSTM(·)为长短期记忆单元运算，

和

分别为对应于各分词的正向和反向循环神经网络隐藏层状态向量，h_t为对应于各分词的双向长短期记忆循环神经网络输出向量。

步骤3：构建基于图卷积网络的依存关系传播模型

本发明将步骤2中双向长短期记忆循环神经网络模型输出的分词隐藏状态向量作为三个并行图卷积网络的输入，使用三个网络的输出综合表示原语句，此模型结合依存关系结构对原语句中分词进行编码，是本方法采用模型的前向传播过程的核心部分，因此称作依存关系传播模型。该步骤可进一步分为3个环节：

1)依存关系结构的矩阵表示

根据步骤1的句法分析结果，将句子生成一棵依存关系树：树上的节点表示分词，边表示分词之间的依存关系类型。给定实体对，定义连接依存关系树两实体之间的路径为最短依存路径。最短依存路径上的节点信息可被视为反应实体关系类型的强特征词；最短依存路径以外的节点信息也对关系抽取起到辅助效果。本发明提出了三种表示依存关系树结构及特征的方式，包括：全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵，利用它们不同程度地捕捉依存关系树上能够反映关系类型的特征信息。

a)构建全邻接矩阵

邻接矩阵是图的常见代数表示，可以直接表示图或树的节点间相邻关系。本发明采用输入语句完整依存关系树的全部节点和边所对应的全邻接矩阵作为依存关系结构的基本表示。具有n个节点的图或树的全邻接矩阵可定义为n阶方阵A＝(a_ij)_n×n，其中：

全邻接矩阵可用于表征依存关系树上所有节点之间的邻接关系。

b)构建集中邻接矩阵

最短依存路径上的节点信息可作为反映实体关系的强特征信息。最短依存路径提供的节点信息可用集中邻接矩阵表示。集中邻接矩阵可定义为n阶方阵A_c＝(c_ij)_n×n，其中：

即在全邻接矩阵中将不属于最短依存路径的边所对应的元素设为0，换句话说，这也等价于将完整的原句依存关系树修剪为仅保留最短依存路径的子树。

c)构建距离权重邻接矩阵

与集中邻接矩阵相反，基于节点间的距离，也就是节点间路径包含边的数量，可以构造保留更多依存关系结构信息的距离权重矩阵。具体地，距离权重邻接矩阵可定义为n阶方阵A_w＝(w_ij)_n×n，其中：

式中，d_ij为节点i,j之间的距离。这也等价于将原句依存关系树转换为一个由节点距离决定权中的带权完全图。距离权重邻接矩阵比原本的全邻接矩阵更完整地表示了节点间直接或间接关联关系。

2)图卷积网络运算

图卷积运算GCN(·)定义为：

为全邻接矩阵A的再标准化形式，σ(·)为激活函数，选用ReLU函数，h₁,…,h_s为双向长短期记忆循环神经网络模型输出表示所有分词的状态向量，H^(m)为图卷积网络第m层的输出及第m+1层的输入，

和

分别为与A对应的第m层图卷积参数矩阵和仿射偏置矩阵。

结合上述三种依存关系表示方式，将步骤2中双向长短期记忆循环神经网络输出的分词隐藏状态向量作为三个并行图卷积网络的输入，采用的图卷积网络按照下列公式进行运算：

式中，l为图卷积网络总层数，

分别为对应于全邻接矩阵、集中邻接矩阵、距离权重邻接矩阵的图卷积子网络最终层输出，H^(l)为并行图卷积网络的最终综合输出。

3)最大值池化处理

由于使用了三通道并行图卷积网络，致使图卷积网路的最终综合H^(l)的维度比原来翻了三倍，本发明使用最大池化函数f_max对其进行降维处理：

h_sent＝f_max(h^(l)) (12)

步骤4：预测关系类型

将依存关系传播层输出的语句综合表示向量输入到一个前馈神经网络关系分类器，并用softmax函数获得每种关系分类的预测概率，具体公式如下所示：

h_f＝FFNN(h_sent) (13)

P＝softmax(Wh_f+b) (14)

其中，h_f为用于关系分类的语句最终表示，W和b是softmax分类层的线性变换矩阵和仿射偏置向量，P是关系分类器最后输出的概率向量。

步骤5：训练最优关系抽取模型

将训练集中的语句样本按批次输入步骤1进行预处理，之后依次通过步骤2构建的双向长短期记忆循环神经网络模型、步骤3构建的图卷积网络模型和步骤4构建的关系分类器，最终输出为语句中的二元实体对属于各个实体关系类别的概率向量，在训练集上使用交叉熵损失函数衡量预测概率与真实关系类别的差距，通过随机梯度下降优化器反向传播更新层级神经网络中的参数，每次更新参数后计算验证集上损失函数的值以及准确率、召回率、F₁值；重复上述过程，每轮结束后如果验证集F₁值下降，就按一定衰减系数减小学习率，在一定训练轮数后保存验证集F₁值最高的神经网络模型的参数，即为训练得到的最优关系抽取模型。

本发明还提出一种基于多依存关系表示机制的图卷积网络关系抽取***，基于所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。

实施例

为了验证本发明的有效性，下面结合图3对本发明的步骤进行详细说明。该说明基于已训练得到最优关系抽取模型，利用测试集中的语料开展关系预测。

步骤1：从测试集中选择一条输入例句“There were rumors that Sean Preston’s real name was Christian Michael.”

步骤1.1：对句子进行分词，结果为：

“There/were/rumors/that/Sean/Preston/’s/real/name/was/Christian/Michael”

步骤1.2：对句子分词进行词性标注，结果为：

“RB/VBD/NNS/IN/NNP/NNP/POS/JJ/NN/VBD/JJ/NNP/”

步骤1.3：利用句法分析工具对句子进行依存关系分析，生成依存关系树(见图4)。

步骤1.4：句子的实体对标注为{Sean Preston,Christian Michael}，实体类型为“Person”，关系类型为“alternate_names”。

步骤1.5：获得最短依存路径上的节点信息“Sean Preston name ChristianMichael”。

步骤1.6：利用训练好的词向量映射库表，获取句子中所有分词、词性标注以及实体类型标注的语义嵌入向量，分别为

将三种嵌入向量根据公式(1)进行拼接，每个分词获得其对应的语义嵌入向量e_t。

步骤2：捕捉句子整体上下文语义特征

步骤2.1：将步骤1.6获得的语义嵌入向量e_t输入至双向长短期记忆循环神经网络(Bi-LSTM)，根据网络的正向传播公式(2)和反向传播公式(3)，计算得到正/反向网络隐藏层状态的向量

和

步骤2.2：将

和

根据公式(4)进行拼接，获得对应于各分词的双向长短期记忆循环神经网络输出向量h_t。

步骤3：利用基于多依存关系表示机制的图卷积网络关系抽取模型最大限度地捕捉句子所包含的关系特征词。首先，根据句子的依存关系树构建三种表示矩阵：

步骤3.1：根据图4和公式(5)所示，X₃与X₁、X₂及X₁₂存在边连接，设置为1，与剩下的其他节点无边连接，设置为0。同理，可生成全邻接矩阵A，如图3所示。

步骤3.2：根据图4和公式(6)所示，X₆与X₉在最短依存路径上有边连接，设置为1，而X₆与X₇、X₈在最短依存路径上无边连接，设置为0。同理，可生成完整的集中邻接矩阵A_c，如图3所示。

步骤3.3：根据图4和公式(7)所示，X₃与X₄相距2条边，d₃₄＝d₄₃＝2，w₃₄＝w₄₃＝e^-1。同理，可生成完整的距离权重邻接矩阵A_w，如图3所示。

步骤3.4：将步骤3中输出的隐藏状态向量h_t以及步骤4.1-4.3生成的三种依存关系矩阵A、A_c和A_w作为三个并行图卷积网络的输入，代入到GCN图卷积网络公式(9-10)进行运算，可获得对应于全邻接矩阵、集中邻接矩阵、距离权重邻接矩阵的图卷积子网络最终层输出

将三种输出利用公式(11)进行合并，获得图卷积网络的最终综合输出H^(l)。

步骤3.5：利用公式(12)对H^(l)进行最大值降维处理，获得句子的表示向量h_sent。

步骤4：预测例句的关系类型

将步骤3.5生成的句子的表示向量h_sent带入公式(13)和(14)，获得概率向量P，取概率最大值对应的关系类型作为本实施例的关系预测结果——“alternate_names”。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多依存关系表示机制的图卷积网络关系抽取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法，其特征在于，步骤1中，对采集到的非结构化文本开展预处理，包括分词、词性标注、实体类型标注、关系类型标注，并将这些词转化为计算机可处理的嵌入向量编码，具体方法为：

其中，e_t是嵌入后对应于每个分词的语义嵌入向量，

分别为词嵌入向量、实体类型嵌入向量、词性嵌入向量，

3.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法，其特征在于，步骤2中，基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征，具体方法为：

和

4.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法，其特征在于，步骤3中，根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵，结合句子的上下文语义特征，对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算，再对卷积运算后的结果进行最大池化处理，获得句子表示向量，具体方法为：

1)依存关系结构的矩阵表示

a)构建全邻接矩阵