CN111476031A

CN111476031A - 一种基于Lattice-LSTM的改进中文命名实体识别方法

Info

Publication number: CN111476031A
Application number: CN202010167070.1A
Authority: CN
Inventors: 甘玲; 黄成明
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-07-31

Abstract

本发明涉及一种基于Lattice‑LSTM的改进中文命名实体识别方法，属于语言处理技术领域。该方法包括以下步骤：S1：构建模型；S2：特征输入；S3：特征提取；S4：标签预测；S5：结果评价。本发明采用改进的LSTM结构，计算句子较为完整的语意上的隐藏信息，同时也加入了对于整个句子全局信息的考虑，更多的是句子结构的角度出发开了，弥补了采用LSTM结构只关注文字意义的隐藏信息而未考虑句子结构信息的不足，融合了Transformer结构后，使得模型能够一定程度理解复杂句子背后所具有的逻辑性，从而帮助识别语句中的命名实体类别。

Description

一种基于Lattice-LSTM的改进中文命名实体识别方法

技术领域

本发明属于语言处理技术领域，涉及一种基于Lattice-LSTM的改进中文命名实体识别方法。

背景技术

命名实体识别最早由Grishman和Sundheim在1996年第六次信息理解会议上组织，命名实体识别的发展大致可以分为三个阶段，分别是早期的利用手工规则进行实体类识别的初级阶段，以及后期在2000年左右使用的机器学习方法结合概率模型来识别实体类的进阶阶段，再到目前比较流行的基于深度学习方法结合语言模型的深入阶段，各个阶段都有一些值得学习的有点，下面分别从这三个阶段进行介绍。

早期的利用手工规则的方案是结合了字典构造、规范化构词的方法进行，在分类的过程中存在工程量大、耗时较长的弊端，很快便被基于概率理论的方法替换，但是这也提供了一些指引，引发如何构造更廉价、更加优秀的模型的思考，在机器学习方法的大规模应用阶段时期，由于前人已经有许多非常丰富、较为完善的理论模型，因此这一阶段主要是结合概率理论方法，把理论落脚于实际的生产生活中，并取得了积极的效果，并且在这一阶段中，主要的国外的理论和实践结合的较为密切，并出现了不少优秀的模型，比如隐马尔可夫模型(HMM)，最大熵模型(EM)，支持向量机模型(SVM)以及条件随即场模型(CRF)，这几种模型存在一定的关联，主要是后者对于前者的一些弱点的补充，同时国内也开始关注于中文命名实体识别的理论与实际的应用，也出现了一些针对于中文文字特征构建的特征工程，从而进一步的通过机器学习进行实体标签预测。

深度学习方法在2014年后开始大规模流行起来，这得益于软硬件的成熟，同时也伴随着互联网的崛起，网络中的文本信息成***性增长，这也是深度学习海量数据的来源，在各方面条件成熟后，深度学习也逐步充理论走向实践，在命名实体识别方向也涌现出许多的模型及思想，进一步在机器学习的基础上弥补其不足，更加的接近人们的生产生活中，其中的一些重要模型有BERT模型、GPT-2.0模型、xlnet模型等，都是目前深度学习的标杆性模型，不少模型的思想也在影响着命名实体识别的模型改进方向，同时也取得了进一步的效果。

针对中文命名实体识别方向，目前主要有以下几种方案：

(1)基于中文文本的特征，思考进一步提取文本特征信息的方案，其本质和机器学习较为相似，期望能够提取出更多有效信息，辅助最终对每一个文字的标签预测，基本的文本特征有单个汉字的字符向量特征，以及对一句话通过分词后的词向量特征，而后又出现了利用文字拼音、偏旁等字符特征，计算文字标签的概率。

(2)基于中文文本的特征，然后选择利用LSTM结构所自有的对顺序语言逻辑的特征的提取，可以将语句中前面文字的信息进行选择与当前文字信息进行融合，通过一系列公式的计算，得到当前文字的隐藏状态，然后计算当前文字的标签概率，由于LSTM只能计算一句话的单向的文本隐藏信息，因此采用了双向的LSTM结构，即bi-LSTM结构，然后将双向的隐藏状态通过维度的拼接作为最终文字标签概率计算的输入，并取得了较好的效果。

(3)在LSTM结构基础上，有研究者进一步的深化研究，在LSTM内部进行进一步的改进，期望将字符特征与词特征依照语句顺序序列融合，有选择的将词特征融入字符特征的计算中，进一步的提升命名实体的效果。

(4)此外在英文的命名实体识别计算任务中，有研究者也采用了不同的方法，基于多层Transformer结构计算的命名实体标签概率，其走了一条不同于LSTM结构的方法路线，由于此前有论文提出了根据文本中的语句注意力程度的不同计算字符隐藏状态，能有助于自然语言处理相关任务的提升，其利用的Transformer结构确实在英文上关于命名实体识别的效果有提升，并得到较优的效果。

现有技术的不足：

(1)采用双向LSTM结构做命名实体识别研究，对于字符和词特征利用的比较好，但是LSTM有一个比较大的缺点是不能够长距离传递文字特征信息，因为有论文表明在较长的语句中，LSTM在传递前面文本信息的时候，由于LSTM结构中内部采用的门限的方法，限制了更多信息长距离的传递，而这一部分信息的丢失极大可能会影响命名实体的识别的效果，虽然后来有研究者采用GRU结构，对比LSTM结构减少了门限的个数，但是依然没有从根本上解决信息前后传递过程中丢失的问题。

(2)在采用Transformer结构的命名实体识别网络中，Transformer结构的核心是计算注意力矩阵，通过注意力矩阵的计算能够更突出的利用语句中比较重要的文字或短句，而这些文字有助于整个语句的关键信息表达，而这些信息有有助于命名实体类的预测，其使用矩阵计算，能够避开LSTM结构中门限结构的缺点，对整个句子直接矩阵计算，能更直接的利用字符特征，但其也有缺点，那就是没能够利用句子本身所具有的前后文字的顺序特征，从而在预测命名实体时不能够较好的识别一些特殊实体。

发明内容

有鉴于此，本发明的目的在于提供一种基于Lattice-LSTM的改进中文命名实体识别方法，解决中文命名实体识别的识别效果精确度的问题，同时利用LSTM处理顺序序列的优势，以及Transformer结构能够处理较长距离句子的优势，共同计算命名实体的概率，从而达到提高识别效果的目的。

为达到上述目的，本发明提供如下技术方案：

一种基于Lattice-LSTM的改进中文命名实体识别方法，该方法包括以下步骤：

S1：构建模型；

S2：特征输入；

S3：特征提取；

S4：标签预测；

S5：结果评价。

可选的，所述S1具体为：基于Lattice-LSTM模型，引入Transformer结构编码器部分，使用python语言编写并调试；

实验数据集包括weibo数据集、微软MSRA数据集和resumne数据集。

可选的，所述S2具体为：

以高维的数字向量，代表一句话中的每一个文字，而最终参与计算的是这些高维向量，使用特征信息，包括词向量、汉语拼音特征、汉语偏旁特征和汉语字形特征；

将多种特征拼接后表达这一个汉语字符的特征，这些特征是采取不同的模型训练而来的高纬度向量。

可选的，所述S3具体为：分为两个方面的特征提取；

一方面是对于一句话中的文字信息本身的特征提取，使用LSTM结构的针对中文的改进模型Lattic-LSTM结构，融合单一汉字的特征与一句话分词后每一个词的特征，同时采用双向的结构，从正向顺序提取语句特征，以及逆向的提取语句特征，将二者拼接，得到这句话的基本文字信息；

另一方面是采用Transformer结构，通过计算一句话中不同文字的重要程度，然后计算句子中文字的特征信息，再采用前向网络结构，充分的映射融合其隐藏信息，得到句子的结构信息，而句子的结构信息是从整个句子全局出发提取的信息，能概述性表达句子的整体特征，将该信息与计算的文字信息相结合，表达整句话的语意和结构的特征信息。

可选的，所述S4具体为：采用主流结构条件随机场CRF结构，基于维特比算法解码上一部分的特征信息，计算出整个语句的全局最优标签序列，而这个标签序列则是预测的整个句子的实体标签类别。

可选的，所述S5具体为：结果评价指标：包括精确率、召回率和综合评价指标F1，计算方式如下：

精确率：P＝TP/(TP+FP)

召回率：R＝TP/(TP+FN)

综合评价指标：F₁＝2PR/(P+R)

其中，TP：正样本被预测为正样本；FP：负样本被预测为正样本；FN：正样本被预测为负样本。

本发明的有益效果在于：本发明兼顾现有的主流思想，采用改进的LSTM结构，即Lattice-LSTM结构，利用其融合字符和词特征的优点，计算句子较为完整的语意上的隐藏信息，同时也加入了对于整个句子全局信息的考虑，更多的是句子结构的角度出发开了，弥补了采用LSTM结构只关注文字意义的隐藏信息而未考虑句子结构信息的不足，融合了Transformer结构后，使得模型能够一定程度理解复杂句子背后所具有的逻辑性，从而帮助识别语句中的命名实体类别。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，本发明在分析了LSTM结构与Transformer结构后，发现这两种模型能够相互补充在处理命名实体识别任务中的不足，首先在LSTM结构中的长距离句子信息传递丢失的问题，在通过使用Transformer结构后，由于通过矩阵计算的方式，所以不存在句子中前后文字信息传递丢失的问题，矩阵计算是对于注意力矩阵的计算，而注意力矩阵表明在一句话中，当前位置文字的重要程度，而实体类词往往在一句话中具有非常重要的地位，但是单独的使用Transformer结构，不能够利用句子的顺序语意信息，也不能较好的解决实体识别的问题，本发明是将二者相结合，目的是希望通过不同角度多句子特征的提取之后，将特征信息结合起来，能够弥补各自的缺点，从而有效的提升命名实体的识别效果。

本发明主要分为三个部分，分别是特征输入部分，特征提取部分，以及标签预测部分，详细信息如下：

(1)在特征输入部分，主要是以高维的数字向量，代表一句话中的每一个文字，而最终参与计算的是这些高维向量，同时特征输入也可以使用更多的特征信息，比如词向量，汉语拼音特征，汉语偏旁特征，汉语字形特征。将多种特征拼接后更能表达这一个汉语字符的特征，这些特征是采取不同的模型训练而来的高纬度向量。

(2)在特征提取部分，主要分为两个方面的特征提取，首先是对于一句话中的文字信息本身的特征提取，使用LSTM结构的针对中文的改进模型Lattic-LSTM结构，该结构很好的融合了单一汉字的特征与一句话分词后每一个词的特征，如此能够充分的表达一句话中每一个字的字面意思，同时也采用双向的结构，能够从正向顺序提取语句特征，以及逆向的提取语句特征，将二者拼接，就能够得到这句话的基本文字信息。其次采用Transformer结构，通过计算一句话中不同文字的重要程度，然后计算句子中文字的特征信息，再采用前向网络结构，充分的映射融合其隐藏信息，可以得到句子的结构信息，而句子的结构信息是从整个句子全局出发提取的信息，能概述性表达句子的整体特征，将该信息与前面计算的文字信息相结合，能够充分的表达整句话的语意、结构等特征信息。

在标签预测部分，采用的是常用的主流结构条件随机场(CRF)结构，基于维特比算法解码上一部分的特征信息，计算出整个语句的全局最优标签序列，而这个标签序列则是预测的整个句子的实体标签类别。

本发明根据现有中文命名实体识别模型以及相关语言模型改进而来，主要结构如上图所示，主要分为三个部分，分别是文字词向量输入部分、特征提取及融合部分以及标签预测部分，分别在公开的多个中文命名实体识别数据集上验证，数据集包括weibo数据集、微软MSRA数据集、以及resume数据集，在Lattice-LSTM结构上引入Transformer结构编码器部分，有效的从全句结构的角度出发，计算命名实体，并取得了一定的效果，具体每一部分的作用已经在前文描述，这里不再赘述。

本发明的实施过程如下：

1.构建模型：基于Lattice-LSTM模型，引入Transformer结构编码器部分，使用python语言编写并调试。

2.实验数据集：数据集包括weibo数据集、微软MSRA数据集、resumne数据集。

3.实验结果评价指标：包括精确率、召回率、综合评价指标F1，计算方式如下：

精确率：P＝TP/(TP+FP)

召回率：R＝TP/(TP+FN)

综合评价指标：F₁＝2PR/(P+R)

注：

TP：正样本被预测为正样本；

FP：负样本被预测为正样本；

FN：正样本被预测为负样本；

4.实验：本实验在windows 10***，使用python3.6.3基于pytorch1.0版本编写，在i7-8550U处理器，16GB内存实验所得，实验结果如下：

模型	数据集	精确率/％	召回率/％	综合评价指标/％
					Lattice-LSTM模型	weibo数据集	62.25	53.04	58.79
Lattice-LSTM+Transformer模型	weibo数据集	67.65	56.79	61.74
					Lattice-LSTM模型	resume数据集	94.81	94.11	94.46
Lattice-LSTM+Transformer模型	resume数据集	96.7	96.1	96.4

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Lattice-LSTM的改进中文命名实体识别方法，其特征在于：该方法包括以下步骤：

S1：构建模型；

S2：特征输入；

S3：特征提取；

S4：标签预测；

S5：结果评价。

2.根据权利要求1所述的一种基于Lattice-LSTM的改进中文命名实体识别方法，其特征在于：所述S1具体为：基于Lattice-LSTM模型，引入Transformer结构编码器部分，使用python语言编写并调试；

实验数据集包括weibo数据集、微软MSRA数据集和resumne数据集。

3.根据权利要求1所述的一种基于Lattice-LSTM的改进中文命名实体识别方法，其特征在于：所述S2具体为：

4.根据权利要求1所述的一种基于Lattice-LSTM的改进中文命名实体识别方法，其特征在于：所述S3具体为：分为两个方面的特征提取；

5.根据权利要求1所述的一种基于Lattice-LSTM的改进中文命名实体识别方法，其特征在于：所述S4具体为：采用主流结构条件随机场CRF结构，基于维特比算法解码上一部分的特征信息，计算出整个语句的全局最优标签序列，而这个标签序列则是预测的整个句子的实体标签类别。

6.根据权利要求1所述的一种基于Lattice-LSTM的改进中文命名实体识别方法，其特征在于：所述S5具体为：结果评价指标：包括精确率、召回率和综合评价指标F1，计算方式如下：

精确率：P＝TP/(TP+FP)

召回率：R＝TP/(TP+FN)

综合评价指标：F₁＝2PR/(P+R)