CN114970532A

CN114970532A - 一种基于嵌入分布改进的中文命名实体识别方法

Info

Publication number: CN114970532A
Application number: CN202210539034.2A
Authority: CN
Inventors: 黄胜; 廖星; 陈贤龙; 王鹏; 曹维俊; 牟星宇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-30

Abstract

当前，随着机器翻译、信息提取、条件搜索等领域的发展，命名实体识别作为这些领域的基础技术也取得了进一步的发展。目前常用的词嵌入分为静态词嵌入和基于上下文语义信息的动态词嵌入(如BERT词嵌入)，但是这两种词嵌入都存在一定的不足。静态词嵌入采用固定的词向量对词元进行表达，没有考虑词元在不同句子中表达语义不同的情况；而考虑上下文语义的BERT词嵌入又存在表征退化的问题，针对这种情况本方法提出了一种简单有效的词嵌入方法，通过改进静态词嵌入以及动态词嵌入的分布使其具备各向同性的分布特征，以此来提升词嵌入的语义表达能力。同时，为了更好的利用语义嵌入，针对注意力机制的计算方法进行了改进，最后基于transformer网络架构构建了基于嵌入分布改进的中文命名实体识别模型解决由于嵌入分布的各向异性带来的命名识别错误的问题。

Description

一种基于嵌入分布改进的中文命名实体识别方法

技术领域

本发明涉及深度学习以及自然语言处理领域，具体涉及一种基于嵌入分布改进的中文命名实体识别方法。

背景技术

随着机器翻译、信息提取、条件搜索等领域的飞速发展，自然语言处理在实际应用中越来越广泛，而命名实体识别(Named Entity Recognition，NER)作为信息抽取、机器翻译等领域最重要的任务之一，其目的是自动检测给定文本中的命名实体并识别其类别。由于汉语中不存在英语文本中类似的空格分词符，因此汉语NER相较于英文NER来说更加困难。

在研究早期，汉语NER任务被分解为两个独立的串联式任务，即分词和词序标记，这种方法存在一个严重的缺陷：如果存在分词错误，那么会导致分词错误在后续网络中传播。在后续的研究中，研究者提出基于字符的模型来避免分词错误，但这样完全丢掉词信息放弃了词语深层的语义信息，也变相的降低了嵌入的语义表达能力。于是，研究者们提出将词信息整合到基于字符的NER模型中。在近些年，研究者们聚焦于建模词与字符间的关系，以此来让模型学***均向量和几个顶部主导方向，使得现成的表示更加强大。词嵌入会分布于一个狭窄的锥形区域内，这样的分布会很大程度上限制词嵌入的表达能力，(Gao J,He D,Tan X,et al.Representationdegeneration problem in training natural language generation models[J].arXivpreprint arXiv:1907.12009,2019.)证明了这个现象并提出了一个新型的正则化方法来解决这个问题。另一方面，随着预训练模型的发展，语境化的词嵌入表示代替静态词嵌入成为了主流趋势，近些年研究者们常利用BERT预训练模型得到词嵌入作为网络的输入。但命名实体识别的研究者们很少考虑到词嵌入的可靠性问题，(Ethayarajh K.How contextualare contextualized word representations？comparing the geometry ofBERT,ELMo,and GPT-2embeddings[J]. arXiv preprint arXiv:1909.00512,2019.)研究了Elmo、BERT和GPT-2预训练模型每一层的单词化嵌入，证明了他们的分布不是各向同性的；(Li B,ZhouH,He J, et al.On the sentence embeddings from pre-trained language models[J].arXiv preprint arXiv:2011.05864,2020.)通过对嵌入的理论探讨，发现BERT句向量空间在语义上是非平滑的。于是，本发明针对于词嵌入的各向异性分布情况进行改善，然后提出一种简单有效的方法来改变嵌入的分布特性，从而解决该问题。另一方面，基于嵌入信息的增强方法也是近些年的研究热点，(Aiguo Chen, Chenglong Yin.CRW-NER:ExploitingMultiple Embeddings for Chinese Named Entity Recognition[C]//Proceedings of20214th International Conference on Artificial Intelligence and Big Data(ICAIBD),2021:520-524.)以及(Shuang Wu, Xiaoning Song,Zhenhua Feng.MECT:Multi-Metadata Embedding based Cross-Transformer for Chinese Named EntityRecognition[C]//Proceedings of the 59th Annual Meeting of the Association forComputational Linguistics,ACL, 2021:1529-1539.)在输入层融入词根信息来提升语义信息，这也说明了辅助的输入信息能在一定程度上提升语义丰富度，因此，本发明在嵌入层为模型加入词性信息，以此来达到对语义的增强。

综上所述，考虑到目前研究者普遍采用静态词嵌入以及基于语义信息的动态词嵌入，而静态词嵌入对于多义词表达存在天然的不足以及动态词嵌入分布存在的各向异性的分布而导致的表达退化的问题，本发明设计了一种基于嵌入分布改进的中文命名实体识别方法通过对静态词嵌入以及动态词嵌入分别做不同的变换处理，使模型的输入分布呈现各向同性的特性，让模型学习到更加丰富的语义信息，从而提升了中文命名实体识别的准确率。

发明内容

本发明的目的在于设计一种基于嵌入分布改进的中文命名实体识别方法准确的识别出文本中的实体，并在基于嵌入分布改进的中文命名实体识别方法的基础上针对具体实现命名实体识别的领域如医疗文本微调预训练模型，以达到最佳的实现效果。

本发明提供了一种基于嵌入分布改进的中文命名实体识别方法，包括：输入信息预处理模块，用于将输入文本进行预处理，通过自然语言处理工具为输入文本增加词性信息，然后对静态词嵌入和基于BERT的上下文语义词嵌入进行嵌入空间转换令其分布具备各向同性，最后将它们送入自注意力机制中进行建模，并通过条件随机场对标签约束进行学习，得到最后对实体以及实体类别预测。

本发明内容主要分为三个部分：静态词嵌入处理方法、动态词嵌入处理方法以及注意力机制改进方法。

基于嵌入分布改进的中文命名实体识别方法是本发明的主要内容，本发明提出的基于嵌入分布和注意力机制改进的中文命名实体识别方法，通过对输入文本预处理，得到网络模型的最终输入，然后经过注意力机制进行长距离依赖建模、前馈神经网络进行进一步的特征提取，最后将模型的输出送入条件随机场中进行标签信息的约束学习。具体包括以下步骤：

1.对输入的文本进行预处理：在嵌入层，本发明将输入分为了三个部分，第一部分利用了开源的自然语言处理库对词性信息进行提取并将其转移到字符层面，然后通过预训练好的词表进行向量映射作为输入；第二部分利用BERT预训练模型来获取动态词嵌入作为输入；第三部分同时采用了静态词向量以及动态词向量作为输入。其中静态词向量的处理方法为：采用的词向量为50维，先对其中元素进行放大操作，首先计算相邻两个值a和b的平均值c，然后对a、b、 c进行排序，如果它们中最小的值都大于0，那么令a加上a与c的差的绝对值，令b加上b与c的差的绝对值，如果它们中最大的值都小于0，那么令a减去a 与c差的绝对值，令b减去b与c差的绝对值，之后在对所有词向量的元素进行放大后，其中过大的值进行尺度变换缩小，对过小的值进行尺度变化放大，计算50个值的平均值，将大于平均值和小于平均值的数目进行统计，然后对他们的差值的个数的值进行约束，使其在嵌入空间中所占空间更大。而动态词嵌入，由于采用了语境化能力强的BERT模型，使得模型可以学习到同一个词在不同的句子中所具有的几个意思，因此表示向量只集中分布于向量空间中的某一簇，表示为各向异性，而这种情况会降低模型的泛化能力，也就是说在不同句子中，同一个词的分布应该是不同的，而不是在词嵌入空间中具有锥形分布，具有很高的余弦相似度，本发明首先对原始BERT词嵌入进行随机mask操作，然后令其通过一个线性层使其具备各向同性的分布。

2.构建一个基于嵌入分布改进的中文命名实体识别网络：在注意力机制的计算中，采用了transformerXL计算方法，对于位置编码部分采用了FLAT网络的编码方法，针对注意力机制的输入，本发明修改了原有的单输入为三输入，即本发明在嵌入层对输入做的三种处理。注意力模块计算方法如下：

Att(A,V)＝softmax(A)V

其中，i表示第i个词元，ij表示第i个词元和第j个词元的关系。Q为利用BERT 预训练模型获取的动态词嵌入信息，K为利用自然语言处理工具获取的词性信息， V为同时采用的静态词向量以及动态词向量信息的表示。u、v为可学习的超参数，注意力机制中的位置信息编码模块

是注意力机制中的位置信息编码，用于输入语句中词元之间的位置信息建模，归一化指数函数softmax将注意力值进行归一化处理。融合位置信息

为：

上式中，

中的h_i-h_j代表

同理，t_i-t_j代表

和

计算过程如下式：

上式中，d_model是模型的维度，位置d通过下式计算方法得到：

式中hh表示head[i]到head[j]的距离，其中i表示第i个词元，j表示第j个词元，tt表示tail[i]到tail[j]到距离。

3.利用开源数据集如Weibo等对网络进行预训练，得到预训练模型；

4.通过迁移学习的方式将预训练好的模型转移到目标域；

5.通过微调的方式得到适用于目标域的预训练模型，使用此模型对该领域文本进行命名实体识别检测，得到目标实体和实体类型。

由于采用以上技术方案，本发明具有以下优点：

1、词嵌入技术为自然语言处理应用带来了巨大的改变，得益于几何学的表达，词向量能更好的捕捉语言规律，自Word2Vec被提出后，往往作为自然语言处理任务中的基础输入映射存在。例如，对于输入序列S＝{s₁,s₂,…s_n}，往往通过Word2Vec得到最终的输入S′＝Word2Vec(S)。这种静态映射得到的词嵌入有一个很明显的不足，那就是缺少灵活的语境化表达，在以下两句话中可以明显的了解到“领导”的不同语义：“在××的领导下”和“真正的领导者”，那么对于这样多语义词的情况，静态词嵌入的表达就不能满足了。因此，随着BERT预训练模型的提出，更多研究者更趋向于使用类似BERT的预训练模型来得到语境化的词嵌入表达。但即使使用大规模语料库训练神经网络，大部分的词向量仍然会退化并分布在嵌入空间的一个狭小锥形区域内，这导致了一个非光滑的各向异性的语义空间，也就是说这样的分布损害了它的语义表达性能。在本发明中，首先对BERT 词嵌入的分布做处理，使其分布由各向异性转为各向同性，然后再与静态词嵌入做一个融合，实现了两者优势的互补，从而能实现语义特征更好的表达。

2、本发明提出针对自注意力机制的改进，不同于传统的transformerXL计算方法，传统的自注意力机制计算方法采用相同输入的不同线性变换来实现，这里为了这里采用了包含词信息的语义嵌入和基于BERT预训练模型的上下文语义信息进行交互，最后再通过点乘结合了静态词嵌入与BERT词嵌入的输入表征来进行信息恢复，使得模型能够关注到词元间的语义关系以及位置关系。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供下附图进行说明：

图1是本发明的基于嵌入分布改进的中文命名实体识别方法流程示意图；

图2是本发明的静态词嵌入和动态词嵌入分布图；

图3是本发明对词嵌入特征处理后的分布图。

具体实施方案

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地、完整地描述。

本发明提出了一种基于嵌入分布改进的中文命名实体识别方法，如图1，具体包括如下步骤：

步骤1、对输入文本进行词匹配、词性匹配，以及词向量映射等预处理操作；

步骤2、构建一个融合词性信息以及词信息的神经网络，将预处理得到的向量送入网络中学习。

步骤3、利用改进的自注意力机制对经过预处理后得到的三部分输入进行注意力训练，在后续此类信息再次出现就可以自动关注到该区域；

步骤4、将自注意力机制的输出送入到线性层中进行特征学习；

步骤5、将编码器的输出送入到条件随机场中进行标签约束学习，得到最终的预测实体。

步骤1：接收输入文本，利用输入预处理模块进行词匹配和词性匹配，然后将利用预训练好的向量表进行词向量映射，同时对静态词向量进行线性均匀扩增，首先对原始的静态词向量进行度量如图2(左图)所示，发现静态词嵌入的分布紧靠零域，这导致其分布不能很好的进行语义特征的表达，这里采用的词向量为 50维，先对其中元素进行放大操作，具体的实现方法是：计算相邻两个值a和b 的平均值c，然后对a、b、c进行排序，如果它们中最小的值都大于0，那么令a 加上a与c的差的绝对值，令b加上b与c的差的绝对值，如果它们中最大的值都小于0，那么令a减去a与c差的绝对值，令b减去b与c差的绝对值。在对所有词向量的元素进行放大后，其中过大的值进行尺度变换缩小，对过小的值进行尺度变化放大，计算50个值的平均值，将大于平均值和小于平均值的数目进行统计，然后对他们的差值的个数的值进行约束。对静态词向量处理后，需要对 BERT词嵌入进行处理，这里对BERT词向量进行度量如图2(右图)所示，发现其分布呈锥形，故将BERT词向量与经过均匀放大操作后的静态词嵌入进行一个相加操作，然后经过dropout操作，得到图3(中)表示，然后通过一个线性层以进行各向同性的空间转换得到图3(右图)所示的向量表示。

步骤2：将预处理后的文本送入自注意力机制模块进行建模，使用PyTorch 框架构建此中文命名实体识别网络，多头注意力模块在整体框架中的位置如图1 所示，整体计算公式如下：

Att(A,V)＝softmax(A)V

为：

上式中，

中的h_i-h_j代表

同理，t_i-t_j代表

和

计算过程如下式：

步骤3：将编码部分的输出送入到CRF层进行计算，通过条件随机场对于标签信息的约束学习，得到最后的预测实体。

步骤4：训练所构建的中文命名实体识别网络。通过迁移学习的方式，先利用相关领域的开源数据对网络进行预训练，再使用自制已标注的中文实体识别数据集对于预训练的网络进行微调。

Claims

1.一种基于嵌入分布改进的中文命名实体识别方法，其特征在于，能够从给定文本内容中得到关注的专有名词，通过以下两个步骤实现：

步骤1、获取要识别的文本对象，并对输入文本进行预处理；

步骤2、将输入文本映射为词向量表示，并利用提出的静态词嵌入与动态词嵌入修正方法对词向量分布进行修正；

步骤3、将修正后的输入向量送入构建的基于嵌入分布改进的中文命名实体识别网络，包括输入信息处理模块、自注意力机制模块、前馈神经网络模块以及CRF标签约束模块，其中，输入信息处理模块利用了本发明提出的基于静态词嵌入与动态词嵌入修正分布方法，首先为输入语句加入词性信息以及为输入语句匹配词信息，然后为匹配词加上词性标注信息并将其转移到字符层面，最后对输入信息进行词向量匹配，在词向量匹配过程中利用了提出的基于静态词嵌入与动态词嵌入修正分布方法来进行映射；自注意力机制模块通过将匹配了词性信息的嵌入信息和匹配了词信息的嵌入信息进行自注意力机制中得到最后的特征输入；前馈神经网络模块对利用自注意力机制得到的特征进行再学习，以获取更深的空间特征映射信息；最后利用CRF(Conditional Random Field)条件随机场模块为最后预测的标签增加一些约束来保证预测的标签的准确性，这些约束通过CRF层进行学习，最后输出预测结果；

步骤4、利用训练得到的预训练模型对输入文本进行命名实体识别，得到实体以及实体类型。

2.根据权利要求1所述的静态词信息和动态词信息匹配，其特征在于，对于原始的静态词匹配向量做线性转换，对其中过大的值进行尺度变换缩小，计算所有值的平均值，统计大于平均值和小于平均值的数目，然后对他们的差值的个数的值进行约束，拉大词向量之间的距离，使其在向量空间中占据更大的空间；对于利用Bert得到的具有上下文语义信息的动态词嵌入，对其分布进行改善，将其分布由各向异性变为各向同性。

3.根据权利要求1所述的一种基于嵌入分布改进的中文命名实体识别方法，其特征在于，利用多头注意力机制(Multi-HeadAttention)对嵌入信息进行编码，这里对原始的注意力机制方法进行改进，其中K采用匹配了词性信息的嵌入，Q为利用BERT得到的动态词嵌入，V为结合了动态词嵌入与静态词嵌入之后的向量表示，以下是注意力机制的计算方法为：

Att(A,V)＝softmax(A)V

其中，i表示第i个词元，ij表示第i个词元和第j个词元的关系，这里的位置信息编码

采用了FLAT的编码方式。