CN115600597A

CN115600597A - 基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质

Info

Publication number: CN115600597A
Application number: CN202211271734.4A
Authority: CN
Inventors: 王媛媛; 胡荣林; 董甜甜; 邱军林; 曹昆; 郭俊莹; 张海艳; 冯万利; 王忆雯
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2023-01-13

Abstract

本发明公开了一种基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质，方法包括：S1、将句子序列输入子词适调器中匹配到子词嵌入信息；S2、将匹配到的子词嵌入信息输入到CNN语义网络提取子词内部语义特征；S3、利用CHINESE‑BERT模型得到字级别文本表征，将字级别文本表征输入BI‑LSTM网络中学习句子的全局上下文特征；S4、将得到的子词内部语义特征和全局上下文特征输入WordFusionAttention模块中，提取到融入词语内部特征后的关键上下文特征；S5、将融合后的关键上下文特征输入到CRF解码器中预测实体标签。与现有技术相比，本发明提出的方法从而能够有效地提高命名实体的识别精度和缓解未登录词的难识别问题。

Description

基于注意力机制和词内语义融合的命名实体识别方法、装置、 ***及存储介质

技术领域

本发明涉及计算机自然语言处理的中文命名实体识别技术领域，具体是涉及一种基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质。

背景技术

命名实体识别作为自然语言处理领域的热门研究方向，其技术在通用领域上已经取得了竞争性的结果，但其在中文文本上的应用仍然存在巨大的问题和挑战。

随着深度学习的广泛应用，命名实体识别任务中普遍采用基于深度神经网络模型。这种方法是通过句子中的字或者词向量作为输入，使用深度神经网络提取文本特征。如Huang等人提出的Bi-LSTM+CRF模型：Huang Z,Wei X,Kai Y.Bidirectional LSTM-CRFModels for Sequence Tagging[J].Computer Science,2015。而中文文本常出现的一词多义现象会导致识别效果不佳，直到BERT预训练模型的出现有效提高模型的准确率，它可以更好地表征句子中的语义信息，从而解决一词多义的问题。但是，这些方法都是基于大量的语料和大量的标注数据训练的，目前国内外现阶段对于某些专业领域的中文文本实体识别研究较少，如化工领域，在这种面临少样本的情况下难以提升识别性能，其原因主要包括以下两点：

第一，现有基于预训练模型的通用命名实体识别使用大规模的训练语料库，其语料库中包含了多个领域知识，这样使得模型缺少对某个具体领域的专业词汇的关注，同时各类领域样本的不均衡，会导致通用模型在专业领域上识别实体类型效果欠佳。

第二，专业领域中实体与通用实体不同，专业领域词汇具有命名规律复杂、新词频出现的特点，而现有的基于序列标注的模型存在忽略句子中重要词语内部组成信息和未登录词难以识别问题。

发明内容

发明目的：针对背景技术中指出的问题，本发明公开一种基于注意力机制和词内语义融合的命名实体识别方法、、装置、***及存储介质，通过语义网络挖掘词语内部特征，结合WordFusionAttention模块向句子的全局上下文特征中，动态融合词语内部特征，从而关注了词语内部重要特征和缓解未登录词难以识别问题。

技术方案：本发明公开一种基于注意力机制和词内语义融合的命名实体识别方法，包括以下步骤：

S1、对文本数据进行划分，得到以句子为单位的文本序列；

S2、将步骤S1得到的文本序列输入子词适调器中，得到文本中词语的子词表征；

S3、CNN语义网络学习步骤S2得到的子词表征中的局部语义信息，提取子词内部特征；

S4、利用CHINESE-BERT模型提取步骤S1中文本序列的字符级文本表征；

S5、使用Bi-LSTM从步骤S4中的字符级文本表征中学习上下文长距离信息，同时提取全局上下文语义特征；

S6、将步骤S3中子词内部特征和步骤S5中全局上下文语义特征输入到WordFusionAttention模块中，得到关键上下文特征；

S7、将步骤S6得到的关键上下文特征输入到CRF解码器中，学习文本内部特征约束，得到实体识别的标签。

进一步地，步骤S2中的子词适调器是从文本中匹配到词库中已有的词语，将同一个字符开头的子词表征拼接后成为文本中子词表征，具体包括以下步骤：

步骤S2.1、将词库构建成字典树T，字典树中每个节点存放词语的每个汉字，根节点存放词语的第一个汉字，节点的后指针指向词语的下一个汉字，节点的前指针指向词语的上一个汉字；

步骤S2.2、遍历步骤S1得到的文本序列中每个字符，利用步骤S2.1中字典树T查找，以输入序列S中每个字为开头的词语，得到每个字对应的词语集合W_i,j,i∈n,j∈l；其中，W_i,j表示匹配到的以句子中第i个字为开头的第j个词语，l表示匹配到的以句子中第i个字为开头的词语个数；未匹配到词语的集合中写入none值；

步骤S2.3、将步骤S2.2得到的词语集合中子词输入到CHINESE-BERT模型，得到基于字嵌入的子词矩阵

然后将每个字对应的子词矩阵进行填充和零矩阵拼接，得到三维子词嵌入的空间信息W_i，第一维度是每个字对应子词的个数，第二维度是每个子词长度，第三维度是子词中字向量维度：

CW_i ^j＝e(W_i,j)

W_i＝Ex(CW_i ^j)

其中，e(·)表示加载的CHINESE-BERT模型；Ex(·)表示填充和拼接操作。

进一步地，步骤S3中的CNN语义网络包括两个卷积层和一个池化层，其中，第一个卷积层中卷积核大小为9×9；第二个卷积层中卷积核大小为3×3；在第一个卷积层后面有一个最大池化操作，窗口为1×3；将子词嵌入向量输入到第一个卷积层，得到词语内部的浅层语义特征；浅层语义特征向量通过池化层向下采样得到语义特征向量；语义特征向量经过第二个卷积层提取到词语内部的深层语义特征，得到深层语义特征。

进一步地，步骤S6中WordFusionAttention模块通过点积运算，计算句子上下文与子词特征相似度，来动态加权，具体包括以下步骤：

步骤4.1、全局上下文特征X经过两种线性变化得到两个特征矩阵K、V，其公式为：

K(X),V(X)＝x^TE_k,x^TW_v

步骤4.2、将特征矩阵K与子词特征q做点积运算来计算相似度，用μ缩放空间范围，用tanh()函数作归一化处理，其公式为：

H(K,q)＝tanh(μKq)

步骤4.3、通过相似度对变化后的全局上下文特征作权重调整，其公式为：

Att＝softmax(H(x,q)V)

其中，W_v,E_k是待学习的权重矩阵，μ是缩放因子控制，x表示输入的上下文全局特征，q表示子词内部特征向量，

表示融合子词内部特征后的上下文特征向量。

进一步地，步骤S7中CRF解码器是通过计算标签的转移特征，提取到实体组合与标签的关系特征，从而预测实体标签类型。

本发明还公开一种基于注意力机制和词内语义融合的命名实体识别***，包括以下模块：

数据预处理模块，用于对文本进行划分，得到模型输入要求的句子序列；

嵌入模块，包括获取字嵌入的句子序列，匹配句子中词语，获取子词嵌入向量；

编码模块，提取基于字嵌入句子序列的上下文特征，提取子词内部语义特征；

WordFusionAttention模块，对于基于字嵌入句子序列的上下文特征，通过改进的注意力机制动态融合子词内部语义特征，丰富句子的特征，便于模型对词语的语义信息理解；

解码模块，用于提取标签的转移特征，预测标签。

本发明还公开一种基于注意力机制和词内语义融合的命名实体识别装置，包括存储器和处理器，其中：

存储器，用于存储能够在处理器上运行的计算机程序；

处理器，用于在运行所述计算机程序时，执行上述基于注意力机制和词内语义融合的命名实体识别方法的步骤。

本发明还公开一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被至少一个处理器执行时，实现上述基于注意力机制和词内语义融合的命名实体识别方法的步骤。

有益效果：

本发明通过专业词库去匹配输入句子中专业词语的信息，然后通过大规模预训练CHINESE-BERT模型去获取基于字向量的子词表征，再通过拼接和填充得到高维的子词嵌入空间信息，接着通过CNN语义网络对句子每个字对应的多个子词进行学习词内语义特征，并且通过注意力机制向基于字向量的上下文特征融入词内语义特征，这样得到的句子上下文特征不仅包含了基于字的全局上下文特征，还包含了专业词语内部语义特征，具有丰富的特征，能够进一步提高识别精度和缓解未登录词问题。

附图说明

图1为本发明的实体识别任务的流程图；

图2为CNN语义网络的结构图；

图3为WordFusionAttention模块的结构图；

图4为本发明的命名实体识别方法的模型图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。下述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效或修饰都应涵盖在本发明的保护范围之内。

如图1所示，本发明的一种基于注意力机制和词内语义融合的命名实体识别方法，包括以下步骤：

S1、将文本数据输入到预处理模块，得到以句子为单位的输入序列S＝{x₁,x₂,...,x_n}，其中x_i表示句子中第i个字符。

在本实例中，为了使模型的输入值有固定维度，对输入序列S做尾部填充0值，得到句子长度为50的输入序列。

S2、将步骤S1中输入序列S输入到子词适调器进行动态查找，得到子词嵌入向量W_i ^j。

本发明实施例中，子词适调器包括以下步骤：

步骤S2.1、根据步骤S1中专业词典构造字典树T。

步骤S2.2、利用步骤S2.1中字典树T查找输入序列S中每个字对应的词语，得到每个字对应的词语集合W_i,j,i∈n,j∈l；其中，W_i,j表示匹配到的以句子中第i个字为开头的第j个词语，l表示匹配到的以句子中第i个字为开头的词语个数；未匹配到词语的集合中写入none。

步骤S2.3、将步骤S2.2得到的词语集合中子词输入到CHINESE-BERT模型，得到每个子词的嵌入向量

然后将每个子词的嵌入向量进行尾部填充0和零矩阵拼接，得到最终字对应的子词嵌入向量W_i，其公式如下：

CW_i ^j＝e(W_i,j)

W_i＝Ex(CW_i ^j)

其中，e(·)表示加载的CHINESE-BERT模型；CW_i ^j维度为

表示第i个字对应的第j个子词长度；Ex(·)表示拼接操作；W_i维度为16×32×768。

本发明实施例中，为了使得每个字对应的子词嵌入向量W_i维度相同，设置单个词语最大长度为32，每个字对应的子词最大个数为16。

S3、将步骤S2中得到词语序列输入到CNN语义网络中，得到子词内部特征向量V_W。

进一步的，步骤S3中CNN模块包括两个卷积层和一个池化层。其中，第一个卷积层有7个卷积核大小为16×9×9，填充为0，步长为2；第二个卷积层有7卷积核大小为1×3×3，填充为1，步长为2；在第一个卷积层后面有一个最大池化操作，窗口为1×3，步长为1；将子词嵌入向量输入到第一个卷积层，得到词语内部的浅层语义特征F1；浅层语义特征向量通过池化层向下采样得到语义特征向量F2；语义特征向量F2经过第二个卷积层提取到词语内部的深层语义特征，得到维度为1×6×32的深层语义特征V_W，具体包括以下步骤：

S3.1、子词嵌入首先输入到9×9的卷积层提取子词内部字与字之间关系的浅层语义特征F1，其具体公式为：

F1＝k_i·x

其中，k_i为第i个卷积核参数，x表示输入值。

S3.2、浅层语义特征F1经过窗口为1×3的池化操作，能够提取到子词内部字自身的关键语义特征F2。

S3.3、关键语义特征F2通过3×3的卷积层提取子词内部的深层语义特征F3，接着输入到激活函数

中，其具体公式为：

其中，x为输入特征，ε是影响因子。

图1为词内语义网络的结构图，词内语义网络包括两个卷积层和一个最大池化层。维度为16×32×768的子词嵌入向量首先经过一个9×9的卷积层，提取到专业词语的浅层语义特征7×12×130，然后经过最大池化操作进行降维，得到低维特征7×12×64，最后与1个3×3的卷积核进行标准卷积操作，得到专业词语内深层语义特征1×6×32。

S4、将步骤S1中得到输入序列S输入到CHINESE-BERT模型，得到字符级别的句子序列向量S_c，维度为1×50×768。

S5、将步骤S4中句子序列向量S_c输入到BI-LSTM网络中，得到字符级别的上下文全局特征V_C。

本发明实施例中，BI-LSTM网络由正向LSTM和反向LSTM网络组成，分别从左向右和从右向左捕捉上下文特征，能够更好的获取句子全局的上下文特征信息。LSTM网络包括输入门、遗忘门和输出门机制。

输入门定义为：

i_t＝σ([h_t-1,s_t]·w_i+b_i)

遗忘门定义为：

f_t＝σ([h_t-1,s_t]W_f+b_f)

输出门定义为：

O_t＝σ([h_t-1,s_t]·W_o+b_o)

h_t＝O_t⊙tanh(C_t)

其中，⊙表示向量元素乘法。

将句子序列向量S_C采用正向输入和反向输入，通过计算得到两个不同的中间层表示，然后将两个向量表示进行拼接并作为隐含层的输出：

通过最后一个隐含层，得到全局的上下文特征V_C＝{h₁,h₂,…,h_n}，维度为1×6×32。

S6、将步骤S3中得到的子词内部特征向量V_W和步骤S5中得到的字符级别的上下文全局特征V_C输入到WordFusionAttention模块，得到文本句子的最终上下文特征向量V_S。

进一步的，步骤S6中WordFusionAttention模块由改进的点积注意力机制构成，结合子词内部语义信息，通过注意力机制动态调整步骤S5得到的上下文全局特征V_C中局部权重，有助于增强实体的边界特征，WordFusionAttention模块由改进的点积注意力机制构成，如下：

步骤6.1、全局上下文特征X经过两种线性变化得到两个特征矩阵K、V，其公式为：

K(X),V(X)＝x^TE_k,x^TW_v

步骤6.2、将特征矩阵K与子词特征q做点积运算来计算相似度，用μ缩放空间范围，用tanh()函数作归一化处理，其公式为：

H(K,q)＝tanh(μKq)

步骤6.3、通过相似度对变化后的全局上下文特征作权重调整，其公式为：

Att＝softmax(H(x,q)V)

表示融合子词内部特征后的上下文特征向量。

图2为WordFusionLayer模块的结构图。利用W_k,W_v矩阵对上下文全局特征进行空间变换，然后通过点积计算句子上下文的全局特征与子词内部特征的相似度，能够增强专业词语的局部特征，实现了融合专业词语的边界信息。

S7、将步骤S6得到的最终上下文特征向量输入到CRF解码器中学习句子内部特征约束，输出实体标签序列；

进一步的，步骤S7中的CRF编码器包括标签转移矩阵，打分函数和损失函数，标签转移矩阵M为训练权重，给输入句子S的预测标签序列L打分为：

对所有可能的标签序列作归一化，得到预测序列L的概率，目标函数为：

损失函数为：

log(p(l|S))＝score(S,l)-log(∑score(S,l′))

最终预测结果定义为：

数据预处理模块，用于对文本进行划分，得到模型输入要求的句子序列。

嵌入模块，包括获取字嵌入的句子序列，匹配句子中词语，获取子词嵌入向量。

编码模块，提取基于字嵌入句子序列的上下文特征，提取子词内部语义特征。

WordFusionAttention模块，对于基于字嵌入句子序列的上下文特征，通过改进的注意力机制动态融合子词内部语义特征，丰富句子的特征，便于模型对专业词语的语义信息理解。

解码模块，用于提取标签的转移特征，预测标签。

上述命名实体识别***的各模块实现功能通过基于注意力机制和词内语义融合的命名实体识别方法来实现，此处不做赘述。

存储器，用于存储能够在处理器上运行的计算机程序。

处理器，用于在运行所述计算机程序时，执行上述的一种基于注意力机制和词内语义融合的命名实体识别方法的步骤。

本发明还公开一种存储介质，存储介质上存储有计算机程序，计算机程序被至少一个处理器执行时实现上述的一种基于注意力机制和词内语义融合的命名实体识别方法的步骤。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于注意力机制和词内语义融合的命名实体识别方法，其特征在于，包括以下步骤：

S1、对文本数据进行划分，得到以句子为单位的文本序列；

2.根据权利要求1所述的基于注意力机制和词内语义融合的命名实体识别方法，其特征在于，步骤S2中的子词适调器是从文本中匹配到词库中已有的词语，将同一个字符开头的子词表征拼接后成为文本中子词表征，具体包括以下步骤：

CW_i ^j＝e(W_i,j)

W_i＝Ex(CW_i ^j)

3.根据权利要求1中所述的基于注意力机制和词内语义融合的命名实体识别方法，其特征在于，步骤S3中的CNN语义网络包括两个卷积层和一个池化层，其中，第一个卷积层中卷积核大小为9×9；第二个卷积层中卷积核大小为3×3；在第一个卷积层后面有一个最大池化操作，窗口为1×3；将子词嵌入向量输入到第一个卷积层，得到词语内部的浅层语义特征；浅层语义特征向量通过池化层向下采样得到语义特征向量；语义特征向量经过第二个卷积层提取到词语内部的深层语义特征，得到深层语义特征。

4.根据权利要求1中所述的基于注意力机制和词内语义融合的命名实体识别方法，其特征在于，步骤S6中WordFusionAttention模块通过点积运算，计算句子上下文与子词特征相似度，来动态加权，具体包括以下步骤：

K(X),V(X)＝x^TE_k,x^TW_v

H(K,q)＝tanh(μKq)

Att＝softmax(H(x,q)V)

表示融合子词内部特征后的上下文特征向量。

5.根据权利要求1中所述的基于注意力机制和词内语义融合的命名实体识别方法，其特征在于，步骤S7中CRF解码器是通过计算标签的转移特征，提取到实体组合与标签的关系特征，从而预测实体标签类型。

6.一种基于注意力机制和词内语义融合的命名实体识别***，其特征在于，包括以下模块：

解码模块，用于提取标签的转移特征，预测标签。

7.一种基于注意力机制和词内语义融合的命名实体识别装置，其特征在于，包括存储器和处理器；

存储器，用于存储能够在处理器上运行的计算机程序；

处理器，用于在运行所述计算机程序时，执行权利要求1至5任一所述的基于注意力机制和词内语义融合的命名实体识别方法的步骤。

8.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被至少一个处理器执行时，实现权利要求1至5任一所述的基于注意力机制和词内语义融合的命名实体识别方法的步骤。