CN116245106A

CN116245106A - 一种基于自回归模型的跨域命名实体识别方法

Info

Publication number: CN116245106A
Application number: CN202310250195.4A
Authority: CN
Inventors: 陈梦楠; 蒋雨彤; 徐源; 金福生; 袁野; 王国仁
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-09

Abstract

本发明公开了一种基于自回归模型的跨域命名实体识别方法，包括以下步骤：S1.对输入序列进行编码；S2.通过标签编码器对标签进行编码；S3.获取标签背景信息

S4.获取标签上下文信息

S5.将标签背景信息

连接到输入序列上，将标签上下文信息

连接到预测的命名实体标签上，作为最终的标签感知信息z_i，进而得到最终的序列表示u；本发明提供了一种基于自回归模型的跨域命名实体识别方法，通过提高源文本与其命名实体标签之间的关系，提高标签信息的可移植性，帮助模型促进域适应。

Description

一种基于自回归模型的跨域命名实体识别方法

技术领域

本发明涉及计算机自然语言处理技术领域，更具体的说是涉及一种基于自回归模型的跨域命名实体识别方法。

背景技术

命名实体识别(NER)是自然语言处理(NLP)中的一项基本任务，旨在从原始文本中识别人物、位置等显著信息，被视为一个特定的序列标记问题。然而，由于文本类型的差异和标注数据的局限性，大多数针对特定领域(源领域)训练的传统方法很难推广到新的领域(目标领域)。因此，为了缓解这一问题，提出了跨域NER，旨在从源域学习信息来增强目标域NER，借用源域的实体信息，在标记数据有限的情况下帮助目标域的实体识别。作为自然语言处理的一个重要研究方向，跨域命名实体识别已经有相当多的研究内容，且在这个过程中，涌现出了大量的方法，其中基于预先训练的语言模型构建的模型最近取得了显著的改进。尽管现有的方法具有良好的性能，但大多数方法都专注于减少源域和目标域之间标记表示的差异，而有价值的标签信息的传输往往没有明确考虑甚至忽略。因此，有人提出了一种新的自回归跨域命名实体识别框架，增强标签信息的传递，帮助模型进行域适应。但是使用该模型解决此跨域命名实体识别问题时存在如下三个问题：

1)训练样本中有标签的语义信息没有利用，即token-token本身的序列信息有损失；

2)label信息挖掘不充分，在经过attention组合后，原始经过LSTM的序列信息会有损失；

3)token-label之间的信息具有语义差异，使用token embedding和labelembedding两者本身并不具有直接的语义关联性，直接使用attention进行QK查询不符合语义，阻碍了label和token之间的attention匹配。

因此，如何提供一种不损失label信息并且能够捕捉token-label和label-token双向信息的基于自回归模型的跨域命名实体识别方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于自回归模型的跨域命名实体识别方法，通过提高源文本与其命名实体标签之间的关系，提高标签信息的可移植性，帮助模型促进域适应。

为了实现上述目的，本发明采用如下技术方案：

一种基于自回归模型的跨域命名实体识别方法，包括以下步骤：

S1.对包括N个字符的输入序列X＝{x₁,x₂,...,x_N}进行编码，得到输入字符表示序列[h₁,h₂,...,h_N]，其中字符表示h_i为每个字符x_i的d₁维向量；

S2.通过标签编码器对训练样本标签y₁,...,y_i-1进行编码，得到标签表示序列[e₁,e₂,...,e_i-1]；

S3.将e_i-1作为查询向量投影到与h_i相同的维度获得e'_i-1，通过e'_i-1计算查询向量注意力权重

通过/>

对所述字符表示进行加权求和得到标签背景信息/>

S4.将输入字符表示h_i和标记背景信息

作为综合中间状态，并将其进一步映射为2d₂维向量h'_i，通过h'_i获取字符表示h_i在标签表示序列上的注意力权重/>

通过/>

对所述标签表示进行加权求和得到标签上下文信息/>

S5.将标签背景信息

与标签上下文信息/>

进行连接，作为最终的标签感知信息z_i，将h_i和相应的标签感知信息z_i以及标签表示序列e_i连接起来，得到最终的序列表示u：

S6.将最终的序列表示u通过线性层映射到实际的标签Y上作为预测标签，将所述预测标签与S2中的所述训练样本标签y₁,...,y_i-1进行连接得到新标签；

S7.通过所述新标签对所述训练样本标签y₁,...,y_i-1进行更新，重复执行S2-S7。

优选的，在S1中，对输入序列X＝{x₁,x₂,...,x_N}进行编码的具体内容包括：

使用预训练后的输入序列编码器和transformer模型的encoder层来编码输入序列，记为f_det(·)：

[h₁,h₂,...,h_N]＝f_det(x₁,x₂,...,x_N)

其中h_i是每个字符x_i的d₁维向量，用于捕获对应标记的上下文信息。

优选的，S2的具体内容包括：

通过所述标签编码器构造随机初始化的标签查找表

其中K表示源域或目标域中唯一标签的数量，d₂是标签嵌入的大小，R是一个随机初始化的Embedding矩阵；

对于一个标签y_k，k∈{1：K}，利用标签查找表U将标签y_k表示为

通过所述标签编码器对标签序列进行编码，表示为：

[e₁,e₂,...,e_i-1]＝f_re(s₁,s₂,...,s_i-1)

其中

是k∈{1：i-1}的所述标签编码器的输出，用于捕获标签的上下文信息。

优选的，S3的具体内容包括：

将e_i-1投影到与h_i相同的维度：

e'_i-1＝W₂·e_i-1+b₂

其中e'_i-1是d₁维向量；

计算查询向量注意力权重

此处，

被视为一个概率分布，并用于对输入字符表示产生加权和：

标签背景信息

以e_i-1为导向，表示当前字符的标签与整个输入序列之间的关系。/>

优选的，S4的具体内容包括：

将所述输入字符表示h_i和所述标记背景信息

作为综合中间状态，并将其进一步映射到2d₂维向量：

通过

对所述标签表示进行加权求和得到标签上下文信息：

其中

为字符表示h_i在e₁,e₂,...,e_i-1上的加权向量。

优选的，S5的具体内容包括：

将所述标签背景信息

连接到输入序列上，将上下文信息连接到预测的命名实体标签上，作为最终的标签感知信息z_i：

其中W₂、W₃、b₂、b₃为可学习参数；

将h_i和相应的标签感知信息z_i以及标签上下文信息e_i进行连接起来：

其中u是最后的序列表示。

S5还包括：通过可训练矩阵W_o和b_o偏置将u_i映射到输出空间o_i＝W_o·u_i+b_o，并通过归一化函数来获得关于所有命名实体标签的分布。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于自回归模型的跨域命名实体识别方法，具有以下有益效果：

1.该方法能够将原始label信息参与到最终分类中，不损失label信息；

2.该方法能够捕捉token-label和label-token之间的双向信息；

3.该方法比现有方法拥有更广阔的应用场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于自回归模型的跨域命名实体识别方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于自回归模型的跨域命名实体识别方法，包括以下步骤：

通过/>

对字符表示进行加权求和得到标签背景信息/>

S4.将输入字符表示h_i和标记背景信息

通过/>

对标签表示进行加权求和得到标签上下文信息/>

S5.将标签背景信息

与标签上下文信息/>

S6.将最终的序列表示u通过线性层映射到实际的标签Y上作为预测标签，将预测标签与S2中的训练样本标签y₁,...,y_i-1进行连接得到新标签；

S7.通过新标签对训练样本标签y₁,...,y_i-1进行更新，重复执行S2-S7。

在本实施例中：

自回归模型指：

即给定一个有N个字符的输入序列X＝{x₁,x₂,...,x_N}，命名实体识别任务的目标是输出相同长度的对应标签序列Y＝{y₁,y₂,...,y_N}，即建模P(Y|X)；

为了有效地将信息传递到目标域，分两个阶段训练模型：预训练和微调；第一阶段的预训练指：为了增强目标域中的文本特征提取，进行域自适应预训练(DAPT)，即在域相关语料库上预训练输入序列编码器，以缩小源域和目标域在域背景和文本分布方面的差异，并进一步从目标域捕获更多的有效特征。这个过程可以在访问目标域之前学习有价值的标签嵌入，特别是对于共享的命名实体标签；如图1所示，本实施例中采用BERT模型来作为输入序列编码器；通过transformer的encoder层来捕捉训练样本的有标签的语义信息。

第二阶段的微调指：在目标域上对模型进行微调，以将其用于D_tgt。在第一阶段预训练的共享标签嵌入的帮助下，利用一个Bi-LSTM对标签序列进行编码，模型进一步学习共享命名实体标签与目标领域特定命名实体标签(即仅存在于目标领域的标签)之间的关系以及内在的标签依赖信息。进一步帮助模型利用源领域的知识来更好地理解目标领域中看不见的标签；

标签编码器为了建模标记序列和标签序列之间的关系，基于常用的当前字符表示(即h_i)和从以前的标签中提取的标签感知信息(即y_1：i-1)来预测命名实体的标签；

标签预测器是利用输入序列和之前标签序列的上下文信息来预测NER标签。为了合并这两种信息，使用一个简单而有效的双注意力模块；通过双注意力模块分别获取标签背景信息

和标签上下文信息/>

为了进一步实施上述技术方案，在S1中，对输入序列X＝{x₁,x₂,...,x_N}进行编码的具体内容包括：

[h₁,h₂,...,h_N]＝f_det(x₁,x₂,...,x_N)

其中，transformer的encoder层用于捕捉有标签的训练样本的序列语义信息，以便后续的序列表示u中包含输入序列自身的序列语义信息。

由于在token embedding的基础上额外增加了encoder层，因此，本发明能够捕捉到训练样本本身有标签的语义信息。

为了进一步实施上述技术方案，S2的具体内容包括：

通过标签编码器构造随机初始化的标签查找表

通过标签编码器对标签序列进行编码，表示为：

[e₁,e₂,...,e_i-1]＝f_re(s₁,s₂,...,s_i-1)

其中

是k∈{1：i-1}的标签编码器的输出，用于捕获标签的上下文信息。

为了进一步实施上述技术方案，S3的具体内容包括：

双注意力模块指将标签编码器中Bi-LSTM的最后一个隐藏状态(即e_i-1)视为标签序列的表示，作为查询向量，而将输入序列编码器中的所有字符表示(即h_1：N)视为键值矩阵。利用一个全连接层将e_i-1投影到与h_i相同的维度：

e'_i-1＝W₂·e_i-1+b₂

其中e'_i-1是d₁维向量；

用softmax函数计算查询向量注意力权重

此处，

被视为一个概率分布，并用于对输入字符表示产生加权和：

标签背景信息

为了进一步实施上述技术方案，S4的具体内容包括：

双注意力模块需要捕获当前字符x_i与之前预测的标签之间的关系(即y_1：i-1)，以提高x_i对之前命名实体标签的敏感性。将输入字符表示h_i和标记背景信息

作为综合中间状态，并将其进一步映射到2d₂维向量：

通过

对标签表示进行加权求和得到标签上下文信息：

其中

为字符表示h_i在e₁,e₂,...,e_i-1上的加权向量。

为了进一步实施上述技术方案，S5的具体内容包括：

将标签背景信息

其中W₂、W₃、b₂、b₃为可学习参数；

为了进一步将标签相关知识融合到字符x_i中，将h_i和相应的标签感知信息z_i以及标签上下文信息e_i进行连接起来：

其中u是最后的序列表示。

S5还包括：通过可训练矩阵W_o和b_o偏置将u_i映射到输出空间o_i＝W_o·u_i+b_o，并利用一个softmax函数来获得关于所有命名实体标签的分布。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。