CN117114004B

CN117114004B - 一种基于门控纠偏的少样本两阶段命名实体识别方法

Info

Publication number: CN117114004B
Application number: CN202311386316.4A
Authority: CN
Inventors: 吕明翰; 王明文; 谢文; 陈筱; 罗文兵; 黄琪
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-01-16
Anticipated expiration: 2043-10-25
Also published as: CN117114004A

Abstract

本发明公开了一种基于门控纠偏的少样本两阶段命名实体识别方法，该方法包括如下步骤：首先将标签提示与输入文本进行拼接，输入跨度检测模型后获取所有可能的实体跨度，接下来将所有实体跨度输入跨度分类模型，跨度分类模型通过门控模块利用标签提示和原始原型共同生成类别原型，对实体跨度进行分类，本发明通过标签提示缓解了两阶段命名实体识别任务中假阳性的问题，并且利用门控模块显式的获取标签提示和原始原型中的有效信息，使类别原型能够更加完整的表示实体类别。

Description

一种基于门控纠偏的少样本两阶段命名实体识别方法

技术领域

本发明涉及自然语言处理技术领域，具体为一种基于门控纠偏的少样本两阶段命名实体识别方法。

背景技术

命名实体识别常常用于问答、信息检索和其它语言理解类应用中，目的是识别文本中的实体跨度，并将其分类为预定义的类别，例如人名、地区、组织、时间等；命名实体识别是自然语言处理中的一项基本任务；近年来，深度学习在命名实体识别方面取得了显著的成功，尤其是在使用自监督方式训练的预训练语言模型方面，当有足够的标注数据时，基于深度学习的方法可以获得令人印象深刻的性能；在实际应用中，需要在新的领域中识别训练时未曾出现过的实体类别；然而，为这些新的实体类别收集额外的标注数据需要耗费大量的时间和人力，这将带来高昂的成本；因此，旨在基于少数标记数据识别实体的少样本命名实体识别引起了研究界的极大关注；目前研究者们已经提出了许多方法来解决少样本命名实体识别问题，其中一种流行的算法是原型网络，它基于元学习框架和度量学习；其首先在包含大量通用领域标注数据的数据集中训练，通过学习让模型泛化至新的领域中，在新的领域内测试时，根据每个类别少数的标注数据，为每个类别生成原型，然后通过计算每个查询实例与原型的距离为其分配对应类别。

然而，近些年基于原型网络的算法主要都是端到端的方法，这些方法需要同时学***均每个类别中仅仅给定的少数标注数据来获得类别原型，这使得原型难以充分表示特定的类别，尽管有些研究者提出结合外部信息来优化原型的表示，但这些方法都是隐式的结合外部信息，通过对比学习、注意力机制来约束原型表示的学习；这种不充分且弱的隐式约束在处理异常样本时的效果是有限的。

发明内容

针对现有技术的不足，本发明提供了一种基于门控纠偏的少样本两阶段命名实体识别方法，解决了上述背景技术中所提到的问题。

为实现上述目的，本发明提供如下技术方案：一种基于门控纠偏的少样本两阶段命名实体识别方法，包括如下步骤：

步骤S1：获取公开的少样本命名实体识别数据集，并根据少样本命名实体识别数据集的实体类别构建标签信息；其中少样本命名实体识别数据集分为训练集和测试集，所述训练集和测试集均由支持集和查询集组成，支持集和查询集均由句子文本和标注好的真实标签组成；

步骤S2：定义基于门控纠偏的少样本两阶段命名实体识别任务形式化；构建命名实体识别模型，所述命名实体识别模型包括跨度检测模型和跨度分类模型，所述跨度检测模型由特征编码器和线性分类层并呈串行结构；所述跨度分类模型由特征编码器和门控模块并呈串行结构；所述门控模块由标签门控和原型门控组成；

步骤S3：将步骤S1中构建好的标签信息拼接至步骤S1的训练集中的支持集句子文本后，将拼接后的句子文本输入到跨度检测模型的特征编码器中，获取拼接后的句子文本中所有字符的嵌入特征向量；

步骤S4：将步骤S3中获得的嵌入特征向量输入跨度检测模型的线性分类层中，使用序列标注的方式根据获得的嵌入特征向量预测所有的实体跨度，再通过交叉熵损失函数计算跨度检测损失L_d，通过计算得到的跨度检测损失L_d优化更新跨度检测模型的参数；

步骤S5：将步骤S3中拼接后的训练集中的支持集句子文本输入到跨度分类模型中的特征编码器中，获取该句子文本中实体跨度以及拼接在句子文本后的标签信息的嵌入特征向量；

步骤S6：将步骤S5中属于同一实体类别的实体跨度的嵌入特征向量进行平均得到表示该实体类别的原始原型，然后将原始原型及训练集中支持集句子文本后的标签信息的嵌入特征向量输入跨度分类模型中的门控模块，对原始原型进行纠偏，得到纠偏后的类别原型；

步骤S7：对训练集中的查询集实体跨度的嵌入特征向量与步骤S6中获得的纠偏后的类别原型计算距离，根据计算距离为查询集中实体跨度分配对应的实体类别，并通过交叉熵计算跨度分类损失L_T，优化更新跨度分类模型的参数；

步骤S8：将测试集中的查询集拼接标签信息后输入跨度检测模型，预测得到所有实体跨度嵌入特征向量；

步骤S9：将拼接了标签信息的测试集中查询集输入到跨度分类模型中的特征编码器中，获取该查询集句子文本中跨度检测模型预测的实体跨度和拼接在句子文本后的标签信息的嵌入特征向量；将测试集中的支持集通过步骤S6的方法得到的所有原始原型与得到的所有标签信息的嵌入特征向量输入跨度分类模型中的门控模块，得到经过纠偏后的类别原型；将跨度检测模型预测的实体跨度与各个类别原型计算距离，将与其距离最近的类别原型所对应的实体类别分配给该实体跨度，得到最终查询集中的命名实体集合。

进一步的，步骤S1的具体过程包括：将构建的标签信息转换为对应的自然语言字符集；所述少样本命名实体识别数据集的支持集表示用于训练的已标注的少数数据，查询集表示需要进行预测的数据。

进一步的，所述步骤S2中定义基于门控纠偏的少样本两阶段命名实体识别任务形式化的具体过程为：

步骤S2.1：定义一个用于训练模型的训练集ε_train＝{S_train，Q_train}，S_train表示训练集中的支持集，支持集中包含N个实体类别，每个实体类别中有K个样本；Q_train表示训练集中的查询集，查询集与支持集中的实体类别一致，支持集与查询集均由若干个句子文本构成，n是字符的个数，x_i表示句子文本中第i个字符；

步骤S2.2：在预测阶段，定义一个来源于新领域的测试集ε_new＝{S_new，Q_new}，S_new表示测试集中的支持集，Q_new表示测试集中的查询集；使用在训练集ε_trnin上训练的模型，利用测试集中的支持集S_new对测试集中的查询集Q_new进行预测；

步骤S2.3：使用跨度检测模型，定义跨度边界预测标签集合Label^D＝{B，I，O}，跨度检测模型对输入句子文本中每一个字符分配一个标签，根据标签获得实体跨度集其中，B表示多字符跨度的开始，I表示多字符跨度的中部，O为非实体跨度，S_i表示实体跨度集中第i个实体跨度，S表示句子文本中的实体跨度，S＝x_[i，j]＝[x_i，…，x_j](1≤i≤j≤n)；

步骤S2.4：使用跨度分类模型，定义实体类别标签集c_i表示实体类别；跨度分类模型为跨度检测模型输出的实体跨度集中的每个实体跨度分配一个实体类别c_i。

进一步的，步骤S3包括：对句子文本X对应的实体类别标签集转化为对应的自然语言字符集V＝{v₁，v₂，…，v_N}拼接至该句子文本X后面，得到拼接后的句子文本X′＝{x₁，x₂，…，x_n，v₁，v₂，…，v_N}；跨度检测模型中的特征编码器由预训练好的预训练语言模型BERT构成，将拼接后的句子文本X′输入到预训练语言模型BERT中，获取对应的嵌入特征向量H＝{h₁，h₂，…，h_n，T₁，T₂…，T_N}，具体计算步骤如下式所示：

H＝[h₁，…，h_n，T₁，…，T_N]

＝BERT([x₁，…，x_n，v₁，…，v_N])；

式中，x₁表示句子文本中第1个字符，x_n表示句子文本中第n个字符，h₁表示字符x₁经过预训练语言模型BERT得到的嵌入特征向量，h_n表示字符x_n经过预训练语言模型BERT得到的嵌入特征向量；v₁表示拼接在句子文本后的第1个自然语言字符，v_N表示拼接在句子文本后的第N个自然语言字符，T₁表示自然语言字符v₁经过预训练语言模型BERT得到的嵌入特征向量，T_N表示自然语言字符v_N经过预训练语言模型BERT得到的嵌入特征向量。

进一步的，所述步骤S4中计算跨度检测损失的具体过程为：

步骤S4.1：将步骤S3中获得的所有字符的嵌入特征向量，输入至跨度检测模型的线性分类层来计算字符x_i的标签集合Label^D的概率分布，具体计算步骤如下式所示：

p(x_i)＝softmax(Wh_i+b)；

式中，p(x_i)表示字符x_i属于标签集合Label^D中标签的概率；softmax表示归一化函数；W表示线性分类层的权重矩阵，b表示线性分类层的偏置项，h_i表示第i个字符嵌入特征向量；

步骤S4.2：将预测的概率分布p(x_i)和字符x_i的真实标签y_i∈Label^D输入到交叉熵损失函数，计算出跨度检测损失L_d，具体计算步骤如下式所示：

式中，L_d表示跨度检测损失；y_i表示字符x_i的真实标签。

进一步的，所述步骤S6的具体过程为：

步骤S6.1：通过平均步骤S5中获得的实体跨度内所有字符嵌入特征向量来计算实体跨度的表示，具体计算步骤如下式所示：

式中，S_[i，j]表示实体跨度S＝x_[i，j]的表示，x_[i，j]表示字符x_i到x_j的集合；h_k表示句子文本中第k个字符嵌入特征向量；

步骤S6.2：定义属于实体类别c_i的实体跨度集，通过平均实体跨度集中的所有实体跨度的表示来计算实体类别c_i的原始原型具体计算步骤如下式所示：

式中，表示实体类别c_i的原始原型；|S′_i|表示属于实体类别c_i的所有实体跨度的个数；

步骤S6.3：将实体类别c_i的原始原型和实体类别c_i的标签嵌入特征向量T_i通过标签门控来确定标签信息的保留和替换，具体计算步骤如下式所示：

式中，T_i表示实体类别c_i对应自然语言字符v_i的嵌入特征向量；表示实体类别c_i的原始原型；W_r表示标签门控的权重矩阵；b_r表示标签门控的偏置项；σ表示归一化函数；rⁱ表示标签信息需要保留的权重；/>表示标签信息需要保留的信息；/>表示标签信息需要替代的信息；

步骤S6.4：将需要替代的标签信息和原始原型/>输入原型门控来控制原始原型的信息，具体计算步骤如下式所示：

式中，W_t表示原型门控的权重矩阵，b_t表示原型门控的偏置项；σ表示归一化函数；tⁱ表示原始原型需要保留信息的权重；表示原始原型需要保留的信息；

步骤S6.5：通过将原始原型和标签信息需要保留的信息相加得到纠偏后的类别原型，具体计算步骤如下式所示：

式中，表示实体类别c_i经过纠偏后的类别原型。

进一步的，所述步骤S7的具体过程为：

步骤S7.1：通过计算实体跨度S∈Q_train与实体类别c_i经过纠偏后的类别原型的距离获得实体跨度集属于实体类别c_i的概率，具体计算步骤如下式所示：

式中，p(c_i；S)表示实体跨度属于实体类别c_i的概率，d表示距离函数，表示除实体类别c_i外任意属于实体类别标签集C的类别原型；

步骤S7.2：将实体跨度属于实体类别c_i的概率p(c_i；S)和其真实标签y_i输入到交叉熵损失函数中，计算出跨度分类损失L_T，具体计算步骤如下式所示：

式中，L_T表示跨度分类损失；S_train表示训练集中的支持集。

进一步的，所述步骤S8的具体过程为：

步骤S8.1：获取测试集中的查询集Q_new中拼接标签信息的句子文本的嵌入特征向量，并输入至跨度检测模型的线性分类层中；

步骤S8.2：跨度检测模型的线性分类层为输入的句子文本的每个字符预测对应的跨度边界预测标签集合Label^D＝{B，I，O}并对其进行解码；跨度检测模型按照预设的规则对跨度边界预测标签集合Label^D＝{B，I，O}进行解码获得实体跨度。

进一步的，所述获得实体跨度的具体过程为：

步骤S8.21：实体跨度解码顺序按照句子文本从左到右逐字解码；

步骤S8.22：当识别到跨度边界预测标签集合中的“B”时，继续向右识别，如识别到跨度边界预测标签集合中的“O”或“B”，即“B”到“I”对应的句子文本就对应一个完整的实体跨度；

步骤S8.23：跨度边界预测标签集合中的“O”标志表示非实体跨度，为无效标注，解码过程中跳过。

进一步的，所述步骤S9中得到最终测试集的查询集中的命名实体集合，其具体过程为：

步骤S9.1：获取测试集中的查询集Q_new中拼接了标签信息的句子文本的嵌入特征向量，将测试集中的支持集S_new按照步骤S6的方法计算得到类别原型

步骤S9.2：将测试集中的查询集Q_new中属于步骤S8获取到的实体跨度集中的实体跨度的嵌入特征向量与类别原型计算距离并获得实体类别的概率p(c_i；S)，通过取概率最高的实体类别c_i为实体跨度集中的实体跨度分配对应的标签，具体计算步骤如下式所示：

式中，表示实体跨度最终预测的实体类别，argmax表示取最大值函数。

与现有的技术相比，本发明具备以下有益效果：

(1)、本发明将命名实体识别任务分解为跨度检测任务和跨度分类任务，在每一阶段，每个模型仅执行一种任务，减少了任务复杂度，使模型在少样本场景下更易学习，以提升模型在少样本场景下的性能。

(2)、本发明在跨度检测阶段为句子文本加入了标签信息，以减少模型预测出非新领域下的实体，减少了假阳性的问题。

(3)、本发明在跨度分类阶段引入了门控模块，显式的利用标签信息对原始原型进行纠偏，使原型即包含标签信息的全局信息，也包含原始原型的局部信息，加强了原型对实体类别的完整表示，以提升模型分类的准确率。

附图说明

图1为本发明的命名实体识别模型的结构流程图；

图2为本发明的命名实体识别模型中门控模块的结构流程图；

具体实施方式

请参阅图1-图2，本发明提供技术方案：一种基于门控纠偏的少样本两阶段命名实体识别方法，包括如下步骤：

少样本命名实体识别数据集的支持集表示用于训练的已标注的少数数据，查询集表示需要进行预测的数据；将构建的标签信息转换为对应的自然语言字符集，例如：标签集C＝{PER，LOC，ORG}，转换为自然语言字符集V＝{人类，地区，组织}；

步骤S2.2：在预测阶段，定义一个来源于新领域的测试集ε_new＝{S_new，Q_new}，S_new表示测试集中的支持集，Q_new表示测试集中的查询集；使用在训练集ε_train上训练的模型，利用测试集中的支持集S_new对测试集中的查询集Q_new进行预测；

步骤S2.4：使用跨度分类模型，定义实体类别标签集c_i表示实体类别；跨度分类模型为跨度检测模型输出的实体跨度集中的每个实体跨度分配一个实体类别c_i；

对句子文本X对应的实体类别标签集转化为对应的自然语言字符集V＝{v₁，v₂，…，v_N}拼接至该句子文本X后面，得到拼接后的句子文本X′＝{x₁，x₂，…，x_n，v₁，v₂，…，v_N}；跨度检测模型中的特征编码器由预训练好的预训练语言模型BERT构成，将拼接后的句子文本X′输入到预训练语言模型BERT中，获取对应的嵌入特征向量H＝{h₁，h₂，…，h_n，T₁，T₂…，T_N}，具体计算步骤如下式所示：

H＝[h₁，…，h_n，T₁，…，T_N]

＝BERT([x₁，…，x_n，v₁，…，v_N])；

式中，x₁表示句子文本中第1个字符，x_n表示句子文本中第n个字符，h₁表示字符x₁经过预训练语言模型BERT得到的嵌入特征向量，h_n表示字符x_n经过预训练语言模型BERT得到的嵌入特征向量；v₁表示拼接在句子文本后的第1个自然语言字符，v_N表示拼接在句子文本后的第N个自然语言字符，T₁表示自然语言字符v₁经过预训练语言模型BERT得到的嵌入特征向量，T_N表示自然语言字符v_N经过预训练语言模型BERT得到的嵌入特征向量；

其中，计算跨度检测损失的具体过程为：

p(x_i)＝sofemax(Wh_i+b)；

式中，L_d表示跨度检测损失；y_i表示字符x_i的真实标签；

步骤S5：将步骤S3中拼接后的训练集中的支持集句子文本输入到跨度分类模型中的特征编码器中，获取该句子文本中实体跨度以及拼接在句子文本后的标签信息的嵌入特征向量；本步骤中特征编码器由预训练好的预训练语言模型BERT构成，将步骤S5中句子文本对应的标签信息对应的自然语言字符集拼接至该句子文本后面，其具体过程和步骤S3中具体过程相同，故在此不多赘述；

步骤S6：将步骤S5中属于同一实体类别的实体跨度的嵌入特征向量进行平均得到表示该实体类别的原始原型，然后将原始原型及训练集中支持集句子文本后的标签信息的嵌入特征向量输入跨度分类模型中的门控模块，对原始原型进行纠偏，得到纠偏后的类别原型，其具体步骤如下：

步骤S6.3：将实体类别c_i的原始原型和实体类别c_i的标签嵌入特征向量T_i通过标签门控来获得保留多少标签信息，替换多少标签信息，具体计算步骤如下式所示

步骤S6.4：将需要替代的标签信息和原始原型/>输入原型门控来控制需要保留多少原始原型的信息，具体计算步骤如下式所示：

式中，表示实体类别c_i经过纠偏后的类别原型；

步骤S7：对训练集中的查询集实体跨度的嵌入特征向量与步骤S6中获得的纠偏后的类别原型计算距离，根据计算距离为查询集中实体跨度分配对应的实体类别，并通过交叉熵计算跨度分类损失L_T，优化更新跨度分类模型的参数：

式中，L_T表示跨度分类损失；S_train表示训练集中的支持集；

步骤S8：将测试集中的查询集拼接标签信息后输入跨度检测模型，预测得到所有实体跨度嵌入特征向量，其具体步骤为：

步骤S8.1：与步骤S3类似，获取测试集中的查询集Q_new中拼接标签信息的句子文本的嵌入特征向量，并输入至跨度检测模型的线性分类层中；

步骤S8.2：跨度检测模型的线性分类层为输入的句子文本的每个字符预测对应的跨度边界预测标签集合Label^D＝{B，I，O}并对其进行解码；跨度检测模型按照预设的规则对跨度边界预测标签集合Label^D＝{B，I，O}进行解码获得实体跨度；

获得实体跨度的具体过程为：

步骤S8.23：跨度边界预测标签集合中的“O”标志表示非实体跨度，为无效标注，解码过程中跳过；

步骤S9：将拼接了标签信息的测试集中查询集输入到跨度分类模型中的特征编码器中，获取该查询集句子文本中跨度检测模型预测的实体跨度和拼接在句子文本后的标签信息的嵌入特征向量；将测试集中的支持集通过步骤S6的方法得到的所有原始原型与得到的所有标签信息的嵌入特征向量输入跨度分类模型中的门控模块，得到经过纠偏后的类别原型；将跨度检测模型预测的实体跨度与各个类别原型计算距离，将与其距离最近的类别原型所对应的实体类别分配给该实体跨度，得到最终查询集中的命名实体集合；

所述得到最终查询集中的命名实体集合，其具体过程为：

步骤S9.1：与步骤S5类似，获取测试集中的查询集Q_new中拼接了标签信息的句子文本的嵌入特征向量，将测试集中的支持集S_new按照步骤S6的方法计算得到类别原型

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于门控纠偏的少样本两阶段命名实体识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于门控纠偏的少样本两阶段命名实体识别方法，其特征在于，步骤S1的具体过程包括：将构建的标签信息转换为对应的自然语言字符集；所述少样本命名实体识别数据集的支持集表示用于训练的已标注的少数数据，查询集表示需要进行预测的数据。

3.根据权利要求2所述的一种基于门控纠偏的少样本两阶段命名实体识别方法，其特征在于，所述步骤S2中定义基于门控纠偏的少样本两阶段命名实体识别任务形式化的具体过程为：

4.根据权利要求3所述的一种基于门控纠偏的少样本两阶段命名实体识别方法，其特征在于，步骤S3包括：对句子文本X对应的实体类别标签集转化为对应的自然语言字符集V＝{u₁，v₂，…，v_N}拼接至该句子文本X后面，得到拼接后的句子文本X′＝{x₁，x₂，…，x_n，v₁，v₂，…，v_N}；跨度检测模型中的特征编码器由预训练好的预训练语言模型BERT构成，将拼接后的句子文本X′输入到预训练语言模型BERT中，获取对应的嵌入特征向量H＝{h₁，h₂，…，h_n，T₁，T₂…，T_N}，具体计算步骤如下式所示：

H＝[h₁，…，h_n，T₁，…，T_N]

＝BERT([x₁，…，x_n，v₁，…，v_N])；

5.根据权利要求4所述的一种基于门控纠偏的少样本两阶段命名实体识别方法，其特征在于，所述步骤S4中计算跨度检测损失的具体过程为：

p(x_i)＝softmax(Wh_i+b)；

式中，L_d表示跨度检测损失；y_i表示字符x_i的真实标签。

6.根据权利要求5所述的一种基于门控纠偏的少样本两阶段命名实体识别方法，其特征在于，所述步骤S6的具体过程为：

式中，表示实体类别c_i经过纠偏后的类别原型。

7.根据权利要求6所述的一种基于门控纠偏的少样本两阶段命名实体识别方法，其特征在于，所述步骤S7的具体过程为：

式中，L_T表示跨度分类损失；S_train表示训练集中的支持集。

8.根据权利要求7所述的一种基于门控纠偏的少样本两阶段命名实体识别方法，其特征在于，所述步骤S8的具体过程为：

9.根据权利要求8所述的一种基于门控纠偏的少样本两阶段命名实体识别方法，其特征在于，所述获得实体跨度的具体过程为：

步骤S8.22：当识别到跨度边界预测标签集合中的“B”时，继续向右识别，识别到跨度边界预测标签集合中的“O”或“B”，即“B”到“I”对应的句子文本就对应一个完整的实体跨度；

10.根据权利要求9所述的一种基于门控纠偏的少样本两阶段命名实体识别方法，其特征在于，所述步骤S9中得到最终测试集的查询集中的命名实体集合，其具体过程为：