CN115358234A

CN115358234A - 基于图卷积网络与关系证据互指导的篇章关系抽取方法

Info

Publication number: CN115358234A
Application number: CN202210828795.XA
Authority: CN
Inventors: 张华平; 杜伦; 李玉岗; 商建云
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-11-18

Abstract

本发明公开了基于图卷积网络与关系证据互指导的篇章关系抽取方法，属于计算机自然语言处理技术领域。本发明针对文档级别的文本，构造包含实体提及和实体关系两种节点的文档图，利用图卷积神经网络学习关系表征。同时，利用关系表征指导证据集抽取网络抽取对应的证据集，最后将证据集表征融入关系表征进行关系判别。本发明通过关系抽取和证据集抽取两通道任务的联合训练。关系抽取为证据集抽取提供特定关系信息，证据集抽取为关系抽取提供依据信息，从而提高篇章关系抽取的效果。同时，在文档图中创新性的增加关系节点促进了实体之间的消息传递，有利于模型充分学习语义表征。

Description

基于图卷积网络与关系证据互指导的篇章关系抽取方法

技术领域

本发明涉及一种基于图卷积网络与关系证据互指导的篇章关系抽取方法，属于计算机自然语言处理技术领域。

背景技术

关系抽取是自然语言处理信息抽取领域中的一项关键任务，旨在根据上下文信息判断两个实体之间的关系。关系抽取在构建大规模知识图谱、智能问答、自然语言理解等应用领域，发挥着关键作用。

目前，大多数的关系抽取方法研究集中在句子级别简单关系抽取，根据标记数据量分为监督学习、半监督学习和无监督学习方法。

在大量标记数据下，监督学习比较流行的方法有基于胶囊网络的方法。该方法与注意力的路由算法相结合，有效解决了关系抽取中的多标签问题。由于预训练语言模型在各项任务中的出色表现，基于预训练语言模型的方法非常盛行，陈丹奇团队利用共享位置信息的标记让模型只需运行一次就可以预测一句话中多个关系，大大提升了关系抽取的效率。

现实中，垂直领域的标注数据往往非常少，为了利用大量的未标注数据，许多半监督方法层出不穷，如利用Bootstrapping从标记种子数据开始学习挖掘未标注数据的模型，有研究人员将教师-学生模型框架引入便监督关系抽取任务，学生模型从未标记的数据中学习鲁棒性知识表示，教师模型利用标注关系数据指导学生模型学习。远程监督基于非结构化句子能够表示两个实体在知识库中存在的某种关系假设，可以获得大量质量欠缺的标注数据，很多学者在远程监督与降噪方向开展了对关系抽取的研究，比如利用强化学习，对抗学习对模型降噪，提高模型的鲁棒性。

句子级别的关系抽取只能根据一句话推断其中出现的实体关系，对于出现在多个句子中的实体对，句子级别的关系抽取是无法召回的。然而，在实际应用中，出现在多个句子中的实体关系占比较大，篇章级关系抽取解决了跨句子实体对关系推理的问题，对于出现在多个句子中的实体，篇章级关系抽取根据与该实体对的相关的句子，通过逻辑推理，共指推理，常识推理等更复杂的推理技巧，推理得出两个实体对之间的关系。因此，对文档中多个实体之间的复杂关系建模成为篇章关系抽取的关键性问题。多数研究人员采用文档图方式建模文档内实体语义信息，利用图卷积神经网络对实体节点编码。也有采用不同的序列神经网络对实体，句子，文档层次化建模，从而进行篇章关系抽取。为了解决共指推理问题，有人将指代信息加入提及，解决共指推理问题。为了解决多跳推理问题，有人构造实体图，将多跳路径信息引入篇章关系推理中，提高了模型逻辑推理效果。

虽然大多数人将提及、句子、实体、文档等作为节点构造文档图，但是还没有人加入关系节点搭建不同实体之间信息传递的桥梁，并且在关系抽取的同时对该关系的证据集也进行抽取。一方面，利用证据集详细的文档信息提高关系抽取的效果，另一方面，利用文档图的关系节点指导证据集抽取，让文档级关系抽取变得可解释。

发明内容

本发明的目的是针对现有技术中，篇章关系抽取模型未充分建模不同实体之间的关系、证据集信息利用不充分等技术问题，创造性地提出一种基于图卷积网络与关系证据互指导的篇章关系抽取方法。本发明方法采用图卷积网络与关系证据互指导的方式，能够有效建模不同实体之间的关系，提升关系抽取效果，增加了篇章关系抽取模型的可解释性。

本发明的创新点在于：

针对文档级别的文本，构造包含实体提及和实体关系两种节点的文档图，利用图卷积神经网络学习关系表征。同时，利用关系表征指导证据集抽取网络抽取对应的证据集，最后将证据集表征融入关系表征进行关系判别。

本发明通过关系抽取和证据集抽取两通道任务的联合训练。关系抽取为证据集抽取提供特定关系信息，证据集抽取为关系抽取提供依据信息，从而提高篇章关系抽取的效果，增加模型的可解释性。同时，在文档图中创新性的增加关系节点促进了实体之间的消息传递，有利于模型充分学习语义表征。

为了方便理解，首先对本发明涉及的专业术语进行说明解释。

提及：指一个实体在文档中出现的片段。它可以以名词或指代词方式出现。

文档图：选取文档中某些元素作为节点，通过节点之间关系构建边，形成的无向图。

表征：指表示某一文本语义的向量。

BERT模型：全称为Bidirectional Encoder Representation fromTransformers，是一个预训练的语言表征模型。

[CLS]：是BERT模型输入中句子头部特殊的标识符，表示整句话的语义。

平均池化：对向量集合

做

操作，其中，x_i表示向量，n表示量集合的基数。

共指：指不同词指向同一个实体。

图卷积神经网络(GCN)：将卷积操作从传统数据(图像或网格)推广到图数据。关键是学习一个函数f，通过聚合其自身的特征X_i和邻居的特征X_j来生成节点v_i的表示，其中j∈N(v_i)，N表示v_i节点的相邻节点集合。

证据集：证明实体关系的句子集合。

本发明是通过以下技术方案实现的。

一种基于图卷积网络与关系证据互指导的篇章关系抽取方法，包括以下步骤：

步骤1：将文档以一句话结束标点符号(如句号、问号、叹号)，分割成若干句。

步骤2：采用预训练语言模型BERT作为编码器。用BERT为每句话编码，得到字表征、句子表征、提及表征、实体表征和关系表征。

其中，字表征和句子表征直接通过BERT输出向量得到，分别对应每个词输出向量和[CLS]输出向量。

提及表征通过对提及包含的词向量做平均池化操作得到。

实体表征融入了不同提及上下文信息、实体类别信息、提及共指信息。其中，实体类别表征通过将实体类别(如PER、LOC、ORG等)信息，经过实体类别映射矩阵转换为实体类别表征；提及共指表征将提及对应的实体id经过实体id映射矩阵转换为提及共指表征；实体表征通过对同一实体出现在文档中所有的提及表征做平均池化，然后拼接实体类别表征与提及共指表征得到。

关系表征通过任选文档中两个实体分别作为头实体和尾实体，然后拼接两个实体的表征向量得到。

步骤3：构建文档图。

其中，节点包括两类：提及节点和关系节点。

边包括三类：同一实体内提及与提及之间的边，不同实体同一句子提及与提及之间的边，提及与关系之间的边。

步骤4：采用图卷积神经网络(GCN)对文档图迭代n层。由于每一层含有不同的语义信息，因此，将n层隐向量拼接作为每个节点的最后表征。

步骤5：根据关系表征抽取出该关系的证据集。

具体地，步骤5可以包括以下步骤：

步骤5-1：将句子表征与关系表征通过条件融合函数(Condition LayerNormalization)进行融合，得到融入特定关系信息的句子表征。

步骤5-2：对每个句子表征进行二分类，判断该句子是否属于该关系的证据集，从而得到特定关系下的证据集。

步骤6：将证据集中的句子表征加权求和得到证据表征。

步骤7：将经过图卷积神经网络得到的关系表征与证据表征拼接，经过多标签分类器，得到最终实体对关系。

有益效果

本发明方法，与现有技术相比，具有以下优点：

1.本发明将文档建模为文档图，利用图卷积神经网络编码，充分学习篇章提及之间的关系，关系节点更有利于建模两实体之间的关系。

2.本发明中，证据集和实体关系为因果关系，通过证据集挖掘和关系抽取双通道信息互相传递，提高了篇章关系推理的效果，而且让模型具备可解释特性。

附图说明

图1是本发明方法的整体流程图；

图2是本发明方法的模型架构图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例，仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，一种基于图卷积网络与关系证据互指导的篇章关系抽取方法，具体实施过程如下。

本实例采用的数据集是清华大学构造的篇章抽取数据集DocRED。@inproceedings{yao2019DocRED。

title＝{{DocRED}:A Large-Scale Document-Level Relation ExtractionDataset},

author＝{Yao,Yuan and Ye,Deming and Li,Peng and Han,Xu and Lin,Yankaiand Liu,Zhenghao and Liu,Zhiyuan and Huang,Lixin and Zhou,Jie and Sun,Maosong},

booktitle＝{Proceedings of ACL 2019},

year＝{2019}

}

该数据集涵盖了科学、艺术、时间、个人生活等相关的关系，有61.1％的数据需要通过推理来进行关系抽取，通过简单模型识别关系的实例只占38.9％。此数据集适用于本发明

步骤1：从数据集中抽取出的样例，由于集合中有大量元素，这里只取其中一部分，目的在于对数据集格式解释说明。

其中，vertexSet字段是文档中所有提及的集合，指向同一实体的相同提及在一个集合中。例如“Nisei”同时出现在第3句和第10句，但类型为“MISC”的同一个实体。Title字段是文档的标题。sents字段是文档的句子集合，每一句话已经进行了分词。labels字段是文档中出现的所有关系集合，r、h、t分别代表关系类型、关系头节点、关系尾节点，evidence代表推理得出该关系需要的证据集。

步骤2：采用pytorch框架和transformers库训练模型。***采用Ubuntu20.04，使用GPU型号Geforce GTX 1080Ti*2。

步骤3：使用BERT对文档进行编码。

步骤4：将vertexSet中的每个提及集合映射到唯一实体id，将提及类型映射到唯一类型id，用torch库中的Embedding层将id映射为特征向量，由此得到共指信息表征和实体类型表征。

步骤5：对提及做平均池化得到实体表征、实体表征与共指信息表征和实体类型表征拼接，融入实体其他信息。

步骤6：通过排列组合方式任意搭配头实体和尾实体，拼接得到该关系表征。

步骤7：如图2所示，为文档图构造过程。

通过前步骤得到“Nisei”“David Nutter”“Fox Mulder”三个实体表征，以及该三个实体两两排列组合得到的6类关系节点。一个实体可能包含多处提及，如“Nisei”同时出现在1、3、4、8四个句子中，该四个节点之间相互连边。同时不同实体提及若出现在同一句子中，则将两提及连边，如“David Nutter”和“Nisei”同时出现在第三句话中，“Nisei”作为指代“it”出现。最后，将提及与与之相关联的关系节点连边，如Nisei的四个提及与R2之间的四条连边。

步骤8：使用GCN对文档图迭代三次，将三次的节点值拼接，得到最终节点表示。

具体操作为：

其中，

表示图卷积网络第l+1层节点u的表征，E表示以节点u出发边的集合，N_e(u)表示节点u在第e种连边下的邻接点，

表示第l层的训练参数，

是第l层节点u在第e种类型边的邻接点，

表示第l层的训练参数，RelU()是激活函数，g_u是最终得到节点u的表示，

分别表示节点u在图卷积网络第0、1、2层的表征。

步骤9：将BERT得到的句子表示Doc＝{h_sent1,h_sent2,…,h_sentn}与GCN得到的关系表征g_ri做条件融合：

其中，A表示线性函数，h_sentn表示第n个句子表示，h_senti表示第i个句子表示，μ是Doc的均值，σ是Doc的方差，Doc表示文档句子表征集合，∈为轻微扰动，A()、B()为线性变换函数。

步骤10：对步骤9得到的条件融合向量h′_senti进行二分类预测属于证据集的概率P_senti：P_senti＝sigmoid(Wh′_senti+b)，sigmoid为激活函数，W、b为可训练的参数，损失函数为L₁＝-∑_senti∈Doc(y_ilogP_senti+(1-y_i)log(1-P_senti))，P_senti表示第i个句子属于证据集的概率，senti表示第i个句子，y_i为第i个句子的标签，取值{0,1}。由此得到证据集Evidence＝{evi₁,evi₂,…,evi_m}，evi_m表示证据集第m个证据表征，m为证据集基数。

步骤11：将证据集平局池化得到证据集表征信息h_evi：

其中，m表示证据集的基数，evi_i表示证据集第i个证据表征，Evidence表示证据集。

步骤12：根据关系表征和证据表征预测该关系类型P(r|g_ri,h_evi)＝softmax(W[g_ri；h_evi]+b)，其中，r表示预测关系，softmax为激活函数，W、b为可训练的参数，损失函数为

r_k是指文档中实体对排列组合中可能出现的关系，

表示证据集表征。

步骤13：模型训练时，总损失函数为L＝L₁+L₂。

步骤14：在预测阶段，根据预先设定的阈值θ＝0.5，若P(r|g_ri,h_evi)>0.5则认为该头尾实体之间属于关系r，否则没有关系。若没有关系证据集为空。

为了说明本发明的内容及实施方法，上述实施例中引入细节的目的不是限制权利要求书的范围，而是帮助理解本发明所述方法。本领域的技术人员应理解，在不脱离本发明及其所附权利要求的精神和范围内，对最佳实施例步骤的各种修改、变化或替换都是可能的。因此，本发明不应局限于最佳实施例及附图所公开的内容。

Claims

1.基于图卷积网络与关系证据互指导的篇章关系抽取方法，其特征在于，针对文档级别的文本，构造包含实体提及和实体关系两种节点的文档图，利用图卷积神经网络学习关系表征，同时，利用关系表征指导证据集抽取网络抽取对应的证据集，最后将证据集表征融入关系表征进行关系判别；

包括以下步骤：

步骤1：将文档以一句话结束标点符号，分割成若干句；

步骤2：采用预训练语言模型BERT作为编码器，用BERT为每句话编码，得到字表征、句子表征、提及表征、实体表征和关系表征；

其中，字表征和句子表征直接通过BERT输出向量得到，分别对应每个词输出向量和[CLS]输出向量，[CLS]是BERT模型输入中句子头部特殊的标识符，表示整句话的语义；

提及表征通过对提及包含的词向量做平均池化操作得到；

实体表征融入了不同提及上下文信息、实体类别信息、提及共指信息；其中，实体类别表征通过将实体类别信息，经过实体类别映射矩阵转换为实体类别表征；提及共指表征将提及对应的实体id经过实体id映射矩阵转换为提及共指表征；实体表征通过对同一实体出现在文档中所有的提及表征做平均池化，然后拼接实体类别表征与提及共指表征得到；

关系表征通过任选文档中两个实体分别作为头实体和尾实体，然后拼接两个实体的表征向量得到；

步骤3：构建文档图；

其中，节点包括两类：提及节点和关系节点；边包括三类：同一实体内提及与提及之间的边，不同实体同一句子提及与提及之间的边，提及与关系之间的边；

步骤4：采用图卷积神经网络对文档图迭代n层，将n层隐向量拼接作为每个节点的最后表征；

步骤5：根据关系表征抽取出该关系的证据集；

步骤6：将证据集中的句子表征加权求和得到证据表征；

2.如权利要求1所述的基于图卷积网络与关系证据互指导的篇章关系抽取方法，其特征在于，步骤4中，使用图卷积神经网络对文档图迭代3次，将3次的节点值拼接，得到最终节点表示，具体操作为：

其中，

表示第l层的训练参数，

是第l层节点u在第e种类型边的邻接点，

分别表示节点u在图卷积网络第0、1、2层的表征。

3.如权利要求1所述的基于图卷积网络与关系证据互指导的篇章关系抽取方法，其特征在于，步骤5包括以下步骤：

步骤5-1：将句子表征与关系表征通过条件融合函数进行融合，得到融入特定关系信息的句子表征；

4.如权利要求1所述的基于图卷积网络与关系证据互指导的篇章关系抽取方法，其特征在于：

将BERT得到的句子表示Doc＝{h_sent1,h_sent2,…,h_sentn}与图卷积神经网络得到的关系表征g_ri做条件融合：

其中，A表示线性函数，h_sentn表示第n个句子表示，h_senti表示第i个句子表示，μ是Doc的均值，σ是Doc的方差，Doc表示文档句子表征集合，∈为轻微扰动，A()、B()为线性变换函数；

对条件融合向量h′_senti进行二分类预测属于证据集的概率P_senti：P_senti＝sigmoid(Wh′_senti+b)，sigmoid为激活函数，W、b为可训练的参数，损失函数为L₁＝-∑_senti∈Doc(y_ilogP_senti+(1-y_i)log(1-P_senti))，P_senti表示第i个句子属于证据集的概率，senti表示第i个句子，y_i为第i个句子的标签，取值{0,1}；由此得到证据集Evidence＝{evi₁,evi₂,…,evi_m}，evi_m表示证据集第m个证据表征，m为证据集基数；

将证据集平局池化得到证据集表征信息h_evi：

其中，m表示证据集的基数，evi_i表示证据集第i个证据表征，Evidence表示证据集；

根据关系表征和证据表征预测该关系类型P(r|g_ri,h_evi)＝softmax(W[g_ri；h_evi]+b)，其中，r表示预测关系，softmax为激活函数，W、b为可训练的参数，损失函数为

r_k是指文档中实体对排列组合中可能出现的关系，

表示证据集表征；

在模型训练时，总损失函数为L＝L₁+L₂。

5.如权利要求4所述的基于图卷积网络与关系证据互指导的篇章关系抽取方法，其特征在于：

在预测阶段，根据预先设定的阈值θ＝0.5，若P(r|g_ri,h_evi)>0.5则认为该头尾实体之间属于关系r，否则没有关系；若没有关系证据集为空。