CN115496072A

CN115496072A - 一种基于对比学习的关系抽取方法

Info

Publication number: CN115496072A
Application number: CN202211136425.6A
Authority: CN
Inventors: 田侃; 赵�卓; 张晨; 吴涛; 徐敖远; 崔灿一星; 李之赞; 梁威威
Original assignee: Three Gorges Museum
Current assignee: Three Gorges Museum
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-12-20

Abstract

本发明涉及自然语言处理中关系抽取技术领域，具体涉及一种基于对比学习的关系抽取方法；包括构建基于对比学习的关系抽取模型；获取无标签文本数据集和带标签关系抽取数据，通过SciPy Parser工具处理分别得到无标签文本语义依存图集和标签关系抽取文本语义依存图集；采用无标签文本数据集和无标签文本语义依存图集对关系抽取模型进行预训练；采用带标签关系抽取数据集和标签关系抽取文本语义依存图集，对预训练好的关系抽取模型进行微调训练；将待抽取数据输入微调训练完成的关系抽取模型，得到关系抽取结果；本发明将关系抽取标签数据有监督学习和无标签文本自监督学习潜在语义特征结合起来，提取适用于关系抽取的丰富的特征。

Description

一种基于对比学习的关系抽取方法

技术领域

本发明涉及自然语言处理中关系抽取技术领域，具体涉及一种基于对比学习的关系抽取方法。

背景技术

随着人工智能和大数据时代的到来,互联网上信息增长速度越来越快,如何高效快速地从非结构化文本中提取有效的信息是学者们研究的重点。文本信息抽取包含实体抽取,关系抽取,事件抽取,因果抽取等。关系抽取是指从非结构化的文本中抽取出实体对之间的三元组信息,即<实体l,实体2,关系>。关系抽取作为自然语言处理中一项常见且重要的子任务,目前已被成功用于生物医学知识发现、知识图谱领域和问答领域等诸多自然语言处理领域。

现有关系提取模型或方法可大体分为两类:序列模型和依赖关系模型。序列模型主要针对单词序列进行建模,而依赖关系模型则是以句法依存关系树为基础,构建依赖关系模型。相对于序列模型而言,依赖关系模型可以利用句法依存树提取出句子中隐藏的非局部语法关系,进而建立句内长距离的依赖关系,更好建模出句子的结构信息。

传统有监督学习训练模型的方法对标签过度依赖，尤其在训练数据稀缺的情况下泛化能力较差。自监督学习利用数据本身提供的信息设置代理任务从而提供替代监督信号，使模型能够从未标记数据中学习到潜在的特征表示，从而在下游任务上获得更好的性能和鲁棒性，在图像领域的图片分类任务上已经超越有监督训练模型。

发明内容

基于以上方法的思想和存在的问题，结合所存在方法的优缺点，本发明提出一种基于图对比学习与双向长短时记忆神经网络结合的关系抽取方法，基于文本的句法依赖结构构建图模型，通过预训练加微调的学习范式，首先利用图对比学习在大量无标签文本数据训练自监督模型，获得句子潜在的特征表示，然后进一步在含有关系类别标签数据中微调模型，提取句子中结构信息和时序上下文信息，从而更全面地建模文本的特征表示，最终实现关系抽取。

一种基于对比学习的关系抽取方法，包括以下步骤：

S1.构建基于对比学习的关系抽取模型，其包括嵌入层、Bi-LSTM层、GCN层、线性连接层和输出层；

S2.获取无标签文本数据集，采用Glove词典进行词嵌入后通过SciPy Parser工具进行句子依存结构分析，转化得到无标签文本语义依存图集；

S3.获取带标签关系抽取数据，采用Glove词典进行词嵌入后通过SciPy Parser工具处理得到标签关系抽取文本语义依存图集；

S4.采用无标签文本数据集和无标签文本语义依存图集对关系抽取模型进行预训练；

S5.采用带标签关系抽取数据集和标签关系抽取文本语义依存图集，对S4预训练好的关系抽取模型进行微调训练；

S6.将待抽取文本数据输入微调训练完成的关系抽取模型，得到关系抽取结果。

进一步的，预训练的具体过程为：

S11.选取无标签文本语义依存图集中的任一无标签文本语义依存图作为第一依存图，其余无标签文本语义依存图作为第二依存图；第一依存图和第二依存图组成负样本对；

S12.对第一依存图进行混合随机删除边和随机遮掩特征处理，得到第一数据增强图和第二数据增强图，第一数据增强图和第二数据增强图组成正样本对；

S13.获取第一依存图对应的无标签文本的第一词向量表示，将第一词向量表示输入Bi-LSTM层得到第一上下文特征；

S14.将第一上下文特征、正样本对和负样本对输入GCN层训练GCN编码器，通过最大化正样本对之间的互信息训练GCN编码器参数，采用对比损失函数计算损失值进行反向传播，直至GCN编码器收敛。

进一步的，对比损失函数表示为：

其中，N表示无标签文本语义依存图总数，对无标签文本语义依存图集进行数据增强，得到N对正样本对，此时共有2N个样本；sim()表示余弦相似度计算函数，z_i表示第i个无标签文本语义依存图数据增强后的正样本经过GCN编码器后的输出，z_j表示与z_i处于同一正样本对中的另一个正样本经过GCN编码器后的输出，z_k表示剩余2N-2个样本经过GCN编码器后的输出，τ表示超参数。

进一步的，微调训练的具体过程包括：

S21.获取带标签关系抽取数据集中的关系抽取文本的词向量表示，并将其输入Bi-LSTM层获取关系抽取上下文特征；

S22.将关系抽取上下文特征和关系抽取文本对应的标签关系抽取文本语义依存图输入GCN层，得到长期依赖特征；

S23.通过线性连接层剔除长期依赖特征中的无关特征，得到最终输出，采用交叉熵损失函数计算损失值进行反向传播，直至模型收敛。

进一步的，GCN层中GCN编码器的隐藏层的计算公式表示为：

其中，

表示GCN编码器第l层的隐藏表示，A_ij表示标签关系抽取文本语义依存图中节点v_i与节点v_j间的边，W^(l)表示GCN编码器第l层的权重矩阵，

表示GCN编码器第l层的输入，b^(l)表示GCN编码器第l层的偏置向量，ρ表示激活函数。

进一步的，将GCN编码器的输出进行池化，采用全连接层处理池化结果，表示为：

h_s＝f(GCN(h⁽⁰⁾ _s1:s2))

h_o＝f(GCN(h⁽⁰⁾ _o1:o2))

h_sent＝f(GCN(h⁽⁰⁾))

h_final＝W([h_s；h_sent；h_o])+b

其中，h_s表示经图卷积编码池化后的头实体词向量，h⁽⁰⁾ _s1:s2表示头实体词拼接的向量编码，GCN()表示图卷积编码器，f:R^d×n→R^d表示最大池化函数，将n个d维词向量映射到d维句向量；h_o表示经图卷积编码池化后的尾实体词向量，h⁽⁰⁾ _o1:o2表示尾实体拼接的向量编码，h_final表示最终向量，W()表示全连接层的参数，b表示全连接层的偏置，h⁽⁰⁾表示句子的向量编码，h_sent表示句子向量。

进一步的，交叉熵损失函数表示为：

其中，yⁱ表示第i个样本标签，sⁱ表示第i个样本最终向量编码，θ表示训练参数，p(yⁱ|sⁱ,θ)表示参数为θ时，给定向量sⁱ，输入标签为yⁱ的概率，N表示样本数量。

本发明的有益效果：

传统关系抽取方法中对句向量表示的标签过度依赖，尤其训练数据稀缺的情况下泛化能力较差；考虑到自监督学习可以从大量无标签文本本身提供的信息提供替代监督信号，使模型能够从未标记文本数据中学习句向量表示，从而降低对标签数据的需要和鲁棒性，因此本发明通过预训练加微调的训练范式，第一阶段：利用图模型上随机遮蔽节点特征和结构特征设计的代理任务预训练图卷积编码器，此阶段无需使用含有关系类标签的文本数据；第二阶段使用有类别标签的数据对预训练好的图卷积编码器进行微调，能够更好的将无标签文本潜在语义特征和关系抽取标签数据有监督学习和结合起来，降低对标签数据的需求，进一步提高了模型分类的泛化性和鲁棒性。

附图说明

图1是本发明方法的步骤示意图；

图2是本发明方法的关系抽取流程示意图；

图3是本发明方法的预训练图对比模型结构示意图；

图4是本发明方法的微调阶段关系抽取模型结构示意图；

图5是本发明方法的句法分析结构生成邻接矩阵示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于对比学习的关系抽取方法，如图1所示，包括以下步骤：

S2.获取无标签文本数据集，通过SciPy Parser工具处理得到无标签文本语义依存图集；

S3.获取带标签关系抽取数据，通过SciPy Parser工具处理得到标签关系抽取文本语义依存图集；

S6.将待抽取数据输入微调训练完成的关系抽取模型，得到关系抽取结果。

具体地，步骤S2和步骤S3中，通过SciPy Parser工具对各文本进行句法依赖解析，并将语义关联表示为语义依存结构；语义依存无须抽象词语本身，而是通过所承载的语义框架对词语进行描述，跨越句子表层句法结构的束缚，直接获取深层的语义信息。分析句子的语义依存结构，将句子中的单词对应为顶点，单词间的依存弧对应为依赖边，提取出句子的依赖结构树，从而构成有向无环图形式的语义依存图，以邻接矩阵的方式进行存储，有向无环图方向由矩阵的行指向列，有依赖边的对应矩阵元素为1，没有依赖边的矩阵元素为0。

如图2所示，对句子“Linda makes and repair the car.进行语义依存分析，得到语义依赖树，其中根节点(root)为makes，makes分别为Linda和car的父节点，FEAT表示makes修饰的角色是Linda，同样的，repair修饰的是car，eCOO表示事件关联，即makes和repairs是并列关系，mRELA表示关系标记，mDEPD表示依附标记。

在一实施例中，预训练阶段设置图数据增强的对比辅助任务作为监督信号，对语义依存图进行数据增强得到正样本对，通过最大化正样本对互信息，约束GCN编码器获得能够重构图自身结构信息的节点表示，用于下游关系抽取任务，预训练的具体过程为：

S12.设置随机删除边和随机遮掩特征两个辅助任务作为自监督信号，对第一依存图进行随机删除边和随机遮掩特征处理，得到第一数据增强图和第二数据增强图，第一数据增强图和第二数据增强图组成正样本对，如图3所示；

S13.采用GloVe词典获取第一依存图对应的无标签文本的第一词向量表示，将第一词向量表示输入Bi-LSTM层得到第一上下文特征；

S14.将第一上下文特征、正样本对和负样本对输入GCN层训练GCN编码器，采用对比损失函数计算损失值进行反向传播，直至GCN编码器收敛。

具体地，在预训练的过程中最大化正样本对之间的互信息而进行参数的更新，使用对比学习损失NCE Loss作为损失函数,当该损失函数的值趋于稳定时,说明模型效果收敛,训练已经结束,得到一个预训练好的GCN编码器。在微调阶段输入带有关系类别标签的数据，模型参数是预训练得到GCN编码器的参数，同时我们用关系抽取模型的预测输出和正确答案之间的交叉熵作为损失函数，衡量模型的预测效果，当该损失函数的值趋于稳定时，说明模型效果收敛，训练结束。后续预测阶段直接将待预测的数据输入到训练好的关系抽取模型中，得到对应的预测实体关系。

对比损失函数表示为：

在一实施例中，微调训练阶段是用来学习实体对的字级别的最终隐藏状态向量，将其和句子级别语义向量融合得到用于关系分类的特征向量，将该特征向量输入到前馈神经网络进行softmax操作，以获得关系的概率分布，微调训练的具体过程如图4所示，包括：

S21.采用GloVe词典获取带标签关系抽取数据集中的关系抽取文本的词向量表示，并将其输入Bi-LSTM层获取关系抽取上下文特征；

具体的，将词向量表示输入Bi-LSTM层获取上下文特征信息的过程为：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

o_t＝σ(W_o[h_t-1,x_t]+b_o

h_t＝o_t*tanh(c_t)

其中，i_t表示输入门t时刻的输出，W_i表示输入门内的权重系数，b_i表示输入门内的偏置参数，

表示t时刻细胞状态，W_C表示权重系数，b_c表示偏置参数，x_t表示t时刻的单词词向量，h_t-1表示t-1时刻的单词单元状态，f_t表示遗忘门的t时刻输出，W_f表示遗忘门内的权重系数，b_f表示遗忘门内的偏置参数，o_t表示输出门t时刻的输出，W_o表示输出门内的权重系数，b_o表示输出门内的偏置参数。

具体地，GCN层中GCN编码器的隐藏层的计算公式表示为：

其中，

表示GCN编码器第l层的隐藏表示，A_ij表示标签关系抽取文本语义依存图中节点v_i与节点v_j间的边，W^(l)表示权重矩阵，

表示GCN编码器第l层的输入，b^(l)表示偏置向量，ρ表示激活函数。

在一实施例中，采用训练完成后的关系抽取模型进行关系抽取的流程如图5所示，包括：

101、获取待抽取的关系数据，对其进行依赖解析得到语义依存图，以邻接矩阵的方式存储语义依存图，同时采用Glove字典处理得到词向量表示；

102、将词向量表示输入Bi-LSTM层提取上下文特征；

103、将上下文特征和语义依存图一起输入到GCN层，通过GCN层的GCN编码器，即图对比编码器，提取文本的结构特征；

104、将GCN编码器的输出结果输入到池化层，获得句子向量，头实体词向量和尾实体词向量；

105、拼接句子向量、头实体词向量和尾实体词向量得到最终向量输入到全连接层获得分类结果。

具体地，将GCN编码器的输出进行池化，采用全连接层处理池化结果，表示为：

h_s＝f(GCN(h⁽⁰⁾ _s1:s2))

h_o＝f(GCN(h⁽⁰⁾ _o1:o2))

h_sent＝f(GCN(h⁽⁰⁾))

h_final＝W([h_s；h_sent；h_o])+b

其中，h_s表示经图卷积编码池化后的头实体词向量，h⁽⁰⁾ _s1:s2表示头实体词拼接的向量编码，GCN()表示图卷积编码器，f:R^d×n→R^d表示最大池化函数，将n个d维词向量映射到d维句向量；h_o表示经图卷积编码池化后的尾实体词向量，h⁽⁰⁾ _o1:o2表示尾实体词拼接的向量编码，h_final表示最终向量，W()表示全连接层的参数，b表示全连接层的偏置，h⁽⁰⁾表示句子的向量编码，h_sent表示句子向量。

具体地，关系抽取是判别两个实体间的关系，待抽取的关系数据为一个完整的句子，若输入“清华大学位于北京”这句话，对其进行依赖解析得到语义依存图，以邻接矩阵的方式存储语义依存图，同时采用Glove字典处理这句话得到每个字的词向量表示，将所有字的词向量表示输入Bi-LSTM层提取对应的上下文特征；然后将整句话的上下文特征和语义依存图一起输入到GCN层，通过GCN层的GCN编码器对每个字进行编码，得到每个字的向量编码；然后将所有字的向量编码输入池化层，所有字的向量编码映射为一个句子向量，同时将“清”、“华”、“大”、“学”四个字的向量编码拼接得到头实体词拼接的向量编码h⁽⁰⁾ _s1:s2，然后池化映射得到头实体词向量h_s，将“北”和“京”两个字的向量编码拼接得到尾实体词拼接的向量编码h⁽⁰⁾ _o1:o2，然后池化映射得到尾实体词向量h_o；拼接句子向量、头实体词向量和尾实体词向量得到最终向量输入到全连接层获得关系抽取结果。

在一实施例中，采用评价指标查准率Precison、查全率Recall、F1分数，将本发明方法和各种主流方法在TACRED数据集和SemEval-2010 Task 8数据集上进行对比评价，评价指标查准率Precison、查全率Recall、F1分数的计算公式如下：

其中，TP表示将正样本预测为正的样本数，FP表示将负样本预测为正的样本数，FN表示将正样本预测为负的样本数，正样本、负样本对应某类标签，该标签对应的样本即为正样本，其他标签对应的样本相对该类标签为负样本。

表1在TACRED数据集上的实验对比结果

模型	Precision	Recall	F1
				LR	73.5	49.9	59.4
SDP-LSTM	66.3	52.7	58.7
				Tree-LSTM	66.0	59.2	62.4
GCN	69.9	63.3	66.4
				AGGCN	69.9	60.9	65.1
Ours	71.8	62.3	66.7

表2在SemEval数据集上的实验对比结果

模型	F1
		SVM	82.2
CNN+att	84.1
		SDP-LSTM	83.7
SPTree	84.4
		C-GGCN	84.8
Ours	85.2

表1展示在TACRED数据集上和主流模型的实验对比结果，表2展示了在SemEval数据集上的实验结果。可以看出，本发明的关系抽取算法在精确率P，召回率R和综合指标F1上占有一定优势。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。