CN110110335A

CN110110335A - 一种基于层叠模型的命名实体识别方法

Info

Publication number: CN110110335A
Application number: CN201910384659.4A
Authority: CN
Inventors: 吴骏; 顾溢; 张哲成; 谈志文; 李宁
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-08-09
Anticipated expiration: 2039-05-09
Also published as: CN110110335B

Abstract

基于层叠模型的复杂中文命名实体识别方法，1)模型训练阶段：a通过有标注的命名实体语料集在改进的损失函数计算下训练低层BiLSTM‑CRF模型并保存；b通过有标注的命名实体识别语料训练高层BiLSTM‑CRF模型并保存；2)模型预测阶段：将带预测语料送入低层模型，识别出粗粒度的命名实体作为初步结果传入高层模型。高层模型对初步结果继续识别，若识别结果不为单个命名实体则将结果重新输入高层模型，知道所有结果为单个命名实体；3)输出结果：收集语料经过层叠模型得到的所有命名实体即高层网络所有输出的命名实体，作为整个识别过程中识别出的最终结果。

Description

一种基于层叠模型的命名实体识别方法

技术领域

本发明涉及一种基于层叠模型的命名实体识别方法，该方法解决了互联网文本环境下，复杂中文命名实体的识别问题。

背景技术

自然语言处理(Natural Language Processing)技术是计算机信息工程的一个子领域，目标是对海量文本数据处理分析，使得计算机程序可以利用词法、语法、语义等信息对自然语言文本完成识别、理解与输出等任务，例如词语分割、命名实体识别、关系抽取、机器翻译、自然语言生成、问答***、情感分析等等。自然语言处理技术在规则学习、统计学习等方法的探索与研究下日臻成熟。近年来，表示学习、深度神经网络类机器学习方法给自然语言处理技术带来了新的方向与发展，在部分自然语言处理问题上可以达到良好而稳定的结果。自然语言处理技术在各行各业有着多种应用：社交媒体上的评论文本数据可以用来辅助监测舆情舆论的走向；财经新闻中包含诸多经济数据、公司运营情况，利用这些文本数据可以辅助量化交易的执行；利用新闻媒体中的海量文本数据，可以对用户兴趣话题进行建模，高效地为读者进行内容过滤和兴趣推荐；机器翻译技术可以将不同语言为载体的文献自动翻译，促进不同文化间的沟通和交流；知识图谱技术可以链接不同的人和组织，构造知识库，服务于多种商业应用。

命名实体识别(Named-Entity Recognition)，又称实体抽取技术、实体分块技术，是自然语言处理技术的一个子领域。目标在于将非结构化文本中提及的命名实体抽取出来，包括人名、组织名、地点名、医疗术语、法规术语、时间、数量、货币价值等等。例如在财经文章中需要准确地抽取企业名称、重要人物名称、货币价值等命名实体；在政治新闻中需要准确地抽取政治人物名称、国家地理名称、组织机构名称、事件名称等命名实体；在判决文书文本中，需要抽取出当事人名称、处罚条款、量刑情况、关联组织等信息。可以说，命名实体识别问题是自然语言处理最基础的任务之一，命名实体识别的准确率、召回率的高低直接影响着后续自然语言处理任务，例如信息抽取、文本分类、文本摘要、问答***等等研究方向。

实际的工程领域中，中文命名实体识别技术还有很多值得研究的问题。在项目工程中应用命名实体识别***会遇到很多在标准数据集实验中很少遇到或不会遇到的问题：(1)实际应用中会出现许多地名、人名、组织名嵌套的命名实体，遇到这样的实体时，模型的准确率会下降；(2)互联网文本信息结构杂乱，形式多变，直接交给中文命名实体识别***的效果不好；(3)当输入文本长度长时，命名实体识别模型的能力会明显下降，需要采用一些合理的方法对文本进行合理的切割来提高识别效果。我们对这些情况下的命名实体逐一分析：

1)嵌套命名实体。例如目标识别的命名实体是“上海农商行”，但是该命名实体中还有子地名命名实体“上海”，通过BiLSTM识别出各类标签的概率后，通过条件随机场对各种序列的得分进行比较，最终***并没有将“上海农商行”识别为一个整体。对该结果进行分析判断，“上”“海”两字的“B-LOC”“I-LOC”标签得分很高，即使加上后文非命名实体的标签得分仍然高过上海农商行“B-ORG”“I-ORG”“I-ORG”“I-ORG”“I-ORG”“I-ORG”的标签序列得分，影响了整体实体被识别为组织名的成功率。

2)命名实体前后文错误关联。前文与后文有含义上的关联，被命名实体识别***识别错了边界也是一种常见分类错误。如表\ref{mix}，“南京银行资金运营中心”命名实体与前文边界不明被错误标注。当模型分析文本较长时，由于前后文语义的关联，训练标注集数据不够多等因素，命名实体识别***常常对于命名实体的边界把握不准。

3)句子长度长成分复杂。太长的文本对于命名实体识别模型来说难度更大，特别是实际工程应用中，网络中文本的规则性，断句标点使用的规范性相比标准数据集差了很多，在文本长度很长时，条件随机场算法要通过维特比动态规划计算的最大得分路径作为最终的输出结果，从效果来看往往准确率下降很多。如表\ref{long}所示，输入较长文本时出现了命名实体识别错误，而将文本切割输入较短文本，***可以成功识别出正确的命名实体。这表明文本长度太长是影响命名实体识别***在实际应用中较大的一个需要解决的问题。

发明内容

基于以上原因，本发明目的是，一种基于层叠模型的命名实体识别方法，是一种基于层叠模型的中文命名实体识别模型来处理复杂情况下的中文命名实体识别问题。该方法解决了互联网文本环境下，复杂中文命名实体的识别问题。层叠模型由两层BiLSTM-CRF命名实体模型构成，基于不同目的对低层和高层模型分别做出不同的改进。

本发明的技术方案是，一种基于层叠模型的复杂中文命名实体识别方法，其特征在于，包括如下步骤：1)模型训练阶段：使用中文命名实体数据集分别训练低层BiLSTM-CRF模型和高层BiLSTM-CRF模型并保存，将两层模型层叠进行命名实体识别；a通过有标注的命名实体语料集在改进的损失函数计算下训练低层BiLSTM-CRF模型并保存；b通过有标注的命名实体识别语料训练高层BiLSTM-CRF模型并保存；2)模型预测阶段：将带预测语料送入低层模型，识别出粗粒度的命名实体作为初步结果传入高层模型。高层模型对初步结果继续识别，若识别结果不为单个命名实体则将结果重新输入高层模型，知道所有结果为单个命名实体；a将待预测语料送入低层模型，优化解码方法，将粗粒度结果送入高层模型；b将粗粒度命名实体送入高层网络进行识别；c判断高层输出结果，如可再分则回到2)b，如不可再分则输出结果；3)输出结果：收集语料经过层叠模型得到的所有命名实体即高层网络所有输出的命名实体，作为整个识别过程中识别出的最终结果。图4给出了本发明的基本框架。

步骤1)中分别训练低层命名实体识别模型和高层命名实体识别模型。两层模型都为BiLSTM-CRF模型，但训练方法与目的不同。

有益效果：本发明可以提高整体实体被识别为组织名的成功率。本发明用于当模型分析文本较长时，训练标注集数据分级可靠，命名实体识别***对于命名实体的边界把握准确。而且解决了文本长度很长时亦保证命名实体识别***的准确。

附图说明

图1为BiLSTM命名实体识别模型流程图。

图2为层叠模型高层模型结构图。

图3为整体层叠模型流程图；

图4为本发明的基本流程框图。

具体实施方式

如附图1所示，BiLSTM-CRF命名实体模型结构由分布式嵌入层、深度神经网络层和条件随机场层组成。分布式嵌入模块使用word2vec训练词向量这种方法将文本的分布式表示与字词间的含义联系起来，消除了词语鸿沟的现象。使用预训练好的词向量作为深度学习处理自然语言问题的输入，已经成为一个经典成熟的方法。很多工作表明使用预先训练好的词向量与随机嵌入相比，整个神经网络收敛速度更快；训练好的模型在准确度和召回度上都有较大的提升；特别是在数据量较小的情况下使用word2vec的方法优势更加明显。

对于信息序列来说，信息间彼此有着复杂的时间关联性，更重要的是对于命名实体识别任务来说信息长度各不相同，循环神经网络(RNN)是一个很好的方案。而LSTM模型是RNN的一个变种，在善于对序列问题建模的同时，该模型还有着易于求解，能够长期保存重要信息的优点。而双向长短期记忆网络(BiLSTM)是LSTM模型的一个改进版本，传统的RNN输入是上文，输出是下文，根据上文推出下文，双向RNN同时利用反向信息，让模型从两个方向学习，这个概念也符合中文自然语言的构词遣句的思想，BiLSTM便是LSTM的双向版本。

条件随机场层(CRF)将输出层面的关联性分离出来，在预测标签时可以充分考虑上下文关联，更重要的是CRF的求解维特比算法是利用动态规划的方法求出概率最大的路径，这与命名实体识别的任务契合的更好，可以避免结果中出现“B-LOC”标签后接“I-ORG”标签这种非法序列的问题。因而本文序列标注模块选择CRF模型。

低层模型在训练过程中，对BiLSTM-CRF模型的损失函数进行改进，本层模型的目的是将语料进行粗粒度的识别，尽量不丢失潜在命名实体的信息。因而在传统BiLSTM-CRF上进行改进。改进在于模型训练的损失函数，步骤如下：

对于输入序列X＝(x₁,x₂,…,x_n)，设该句子经过分布式嵌入，BiLSTM网络计算后输出的矩阵为P，P矩阵的维度为n×k，k为不同的标签个数。P_i,j即为第i个字符标记为第j个标签的得分，称为发射概率。对于潜在的一个预测序列y＝(y₁,y,…,y_n)，定义这个序列的得分：

其中A是转移概率矩阵，大小为k×k，A_i,j表示标签i转移到标签j的转移概率。为了达到尽量不遗漏实体信息的前提下，对文本初步识别，将得分公式优化为：

公式中λ是惩罚因子，取值在0到1之间。这样调整的含义是在计算标签序列路径得分时，当真实标记为“O”(不是命名实体)时，乘上一个惩罚系数算入标签序列路径得分。因为现实中的语料集中，我们往往关注的命名实体相对整个数据集而言较小，使得模型偏向预测非命名实体标签，使得模型的损失值更小。可是这种偏好与我们希望找出所有命名实体的目标相违背。这里的惩罚因子使得真实标记为“O”的训练样例的权重降低，而真实标记不为“O”，即标签属于任何一类命名实体样例的权重相较而言得到提高。这样在计算loss时，真实标签为“B-PER”、“I-PER”、“B-ORG”等字符的预测结果对于网络训练影响更大。为了使得低层网络在解码序列时更倾向于输出命名实体标签而不是输出非命名实体标签，本文在低层网络解码计算过程中将所有字符在属于标签“O”，即不为命名实体的概率乘以惩罚因子μ，μ取值在0到1之间，使得含有更多命名实体标签的序列更容易得到高的分数，被作为结果输出。

在计算条件随机场路径得分时，利用λ惩罚因子对非命名实体的预测权重得分降低，达到提高召回率的目的。

在解码时改进解码方法，步骤如下：

S01：待预测文本字向量矩阵经模型计算后得出的发射概率矩阵；

S02：将当前发射概率矩阵标签为非命名实体的概率乘以惩罚因子μ；

S03：创建一个序列长度×标签个数的零矩阵S记录动态规划各子路径得分；

S04：创建一个序列长度×标签个数的矩阵B记录S矩阵中的路径线索，用当前结点的上一个节点来记录路径；

S05：从第一个节点到最后一个节点遍历：通过发射概率矩阵和转移概率矩阵，在S矩阵中计算从开始点到每一个节点对应的每个标签的最大概率路径，同时在B中记录路；

S06：在S的最后一列找出最大概率路径的分值，并用回溯法遍历B矩阵，找出该最大概率路径的标签序列作为最终输出。

如图2所示，高层网络模型接受低层网络模型的输出，将接收的文本进一步处理，关键在于找准命名实体的边界。这里在训练高层BiLSTM-CRF模型时，在字符分布式嵌入后加入卷积神经网络模型提高高层模型判断命名实体边界的能力。

整体层叠模型如图3所示构建。训练过程中，利用惩罚因子λ优化损失函数训练低层BiLSTM-CRF模型；加入卷积层关注局部信息，训练高层BiLSTM-CRF模型，分别保存两层模型。预测过程中，将测试语料送入保存的低层模型，利用惩罚因子μ优化解码过程，提取粗粒度的命名实体，将结果送入高层模型。高层模型细致识别语料中的命名实体，判断高层模型结果，直到高层结果的输出只有单个命名实体时结束预测。将输出的单个命名实体及其边界信息作为最终识别结果输出。

模型预测阶段特征在于：步骤2将带预测语料送入低层模型，优化解码方法，识别出粗粒度的命名实体。将初步结果送入高层实体识别模型。高层模型精确识别，得到结果，判断结果是否为单个命名实体，若是则输出，若不是则重新传入高层网络，直到输出为单个命名实体。

所述的模型预测阶段，其低层网络解码方法特征在于：为了使得低层网络在解码序列时更倾向于输出命名实体标签而不是输出非命名实体标签，本申请在低层网络解码计算过程中将所有字符在属于标签“O”，即不为命名实体的概率乘以惩罚因子μ，μ取值在0到1之间，使得含有更多命名实体标签的序列更容易得到高的分数，被作为结果输出。

所述的模型预测阶段，其高层网络预测方法特征在于：将低层网络中识别出的合法命名实体序列作为粗粒度的识别结果，传入高层网络。对于高层网络而言，维特比解码方式不变来保证结果的准确度和边界的严谨程度。高层网络接受低层网络输入的文本进行预测，预测结果有以下情况：1)高层网络识别出单个实体，以高层精确识别的实体作为最终的输出结果。2)高层网络识别出多个实体，分别将多个实体重新作为输入传入高层网络，重复以上步骤。

所述输出结果阶段，将最终高层网络的输出结果作为整体层叠模型的输出结果。用栈数据结构接收所有层叠网络收到的合法命名实体及其边界，将名命名实体集合作为预测语料的预测结果。

综上所述，本发明的一种基于层叠模型的中文命名实体识别方法利用低层模型识别粗粒度的实体信息，在不遗漏命名实体信息的前提下对文本进行合理切割，为高层模型精确识别提供有效帮助。高层模型加入卷积池化过程，提高对命名实体边界的判断能力。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于层叠模型的复杂中文命名实体识别方法，其特征在于，包括如下步骤：1)模型训练阶段：使用中文命名实体数据集分别训练低层BiLSTM-CRF模型和高层BiLSTM-CRF模型并保存，将两层模型层叠进行命名实体识别；a通过有标注的命名实体语料集在改进的损失函数计算下训练低层BiLSTM-CRF模型并保存；b通过有标注的命名实体识别语料训练高层BiLSTM-CRF模型并保存；2)模型预测阶段：将带预测语料送入低层模型，识别出粗粒度的命名实体作为初步结果传入高层模型；高层模型对初步结果继续识别，若识别结果不为单个命名实体则将结果重新输入高层模型，知道所有结果为单个命名实体；a将待预测语料送入低层模型，优化解码方法，将粗粒度结果送入高层模型；b将粗粒度命名实体送入高层网络进行识别；c判断高层输出结果，如可再分则回到2)b，如不可再分则输出结果；3)输出结果：收集语料经过层叠模型得到的所有命名实体即高层网络所有输出的命名实体，作为整个识别过程中识别出的最终结果。

2.根据权利要求1所述基于层叠模型的复杂中文命名实体识别方法，其特征在于：步骤1)中分别训练低层命名实体识别模型和高层命名实体识别模型，两层模型均为BiLSTM-CRF模型。

3.根据权利要求2基于层叠模型的复杂中文命名实体识别方法，其特征在于：所述低层命名实体识别模型将语料进行粗粒度的识别，而不丢失潜在命名实体的信息；在传统BiLSTM-CRF上进行改进，改进在于模型训练的损失函数，步骤如下：

对于输入序列X＝(x₁,x₂,…,x_n)，设该句子经过分布式嵌入，BiLSTM网络计算后输出的矩阵为P，P矩阵的维度为n×k，k为不同的标签个数；P_i,j即为第i个字符标记为第j个标签的得分，称为发射概率；对于潜在的一个预测序列y＝(y₁,y,…,y_n)，定义这个序列的得分：

其中A是转移概率矩阵，大小为k×k，A_i,j表示标签i转移到标签j的转移概率；

为了达到不遗漏实体信息的前提下，对文本初步识别，将得分公式优化为：

公式中λ是惩罚因子，取值在0到1之间；这样调整的含义是在计算标签序列路径得分时，当真实标记为“O”(不是命名实体)时，乘上一个惩罚系数算入标签序列路径得分；这里的惩罚因子使得真实标记为“O”的训练样例的权重降低，而真实标记不为“O”，即标签属于任何一类命名实体样例的权重相较而言得到提高；这样在计算loss时，真实标签为“B-PER”、“I-PER”、“B-ORG”字符的预测结果对于网络训练影响更大；为了使得低层网络在解码序列时更倾向于输出命名实体标签而不是输出非命名实体标签，在低层网络解码计算过程中将所有字符在属于标签“O”，即不为命名实体的概率乘以惩罚因子μ，μ取值在0到1之间，使得含有更多命名实体标签的序列更容易得到高的分数，被作为结果输出。

4.根据权利要求2所述基于层叠模型的复杂中文命名实体识别方法，其特征在于：所述高层命名实体识别模型接受低层网络模型的输出，将接收的文本进一步处理，关键在于找准命名实体的边界；在训练高层BiLSTM-CRF模型时，在字符分布式嵌入后加入卷积神经网络模型(CNN)提高高层模型判断命名实体边界的能力；加入卷积神经网络模型CNN的目的是对字符分布式表示的特征进行更细致的特征抽取，使得局部信息产生更有效的连接，对实体边界的识别更为准确。

5.根据权利要求1所述基于层叠模型的复杂中文命名实体识别方法，其特征在于：模型预测阶段中：步骤2)将带预测语料送入低层模型，优化解码方法，识别出粗粒度的命名实体；将初步结果送入高层实体识别模型；高层模型精确识别，得到结果，判断结果是否为单个命名实体，若是则输出，若不是则重新传入高层网络，直到输出为单个命名实体。

6.根据权利要求5所述基于层叠模型的复杂中文命名实体识别方法，其特征在于：所述的模型预测阶段中高层网络预测方法步骤：将低层网络中识别出的合法命名实体序列作为粗粒度的识别结果，传入高层网络；对于高层网络而言，维特比解码方式不变来保证结果的准确度和边界的严谨程度；高层网络接受低层网络输入的文本进行预测，预测结果有以下情况：1)高层网络识别出单个实体，以高层精确识别的实体作为最终的输出结果；2)高层网络识别出多个实体，分别将多个实体重新作为输入传入高层网络，重复以上步骤。

7.根据权利要求1所述基于层叠模型的复杂中文命名实体识别方法，其特征在于：所述输出结果阶段，将最终高层网络的输出结果作为整体层叠模型的输出结果；用栈数据结构接收所有层叠网络收到的合法命名实体及其边界，将名命名实体集合作为预测语料的预测结果。

8.根据权利要求1所述基于层叠模型的复杂中文命名实体识别方法，其特征在于：BiLSTM-CRF命名实体模型结构由分布式嵌入层、深度神经网络层和条件随机场层组成；分布式嵌入层的模块使用word2vec训练词向量这种方法将文本的分布式表示与字词间的含义联系起来，消除词语鸿沟的现象；使用预训练好的词向量作为深度神经网络层的深度学习处理自然语言问题的输入。

9.根据权利要求1所述基于层叠模型的复杂中文命名实体识别方法，其特征在于：双向长短期记忆网络(BiLSTM)是LSTM模型的一个改进版本，传统的RNN输入是上文，输出是下文，根据上文推出下文，双向RNN同时利用反向信息，让模型从两个方向学习，这个概念也符合中文自然语言的构词遣句的思想，BiLSTM便是LSTM的双向版本。

10.根据权利要求1所述基于层叠模型的复杂中文命名实体识别方法，其特征在于：条件随机场层(CRF)将输出层面的关联性分离出来，在预测标签时可以充分考虑上下文关联，避免结果中出现“B-LOC”标签后接“I-ORG”标签这种非法序列的问题；

在计算条件随机场路径得分时，利用λ惩罚因子对非命名实体的预测权重得分降低，达到提高召回率的目的；

在解码时改进解码方法，步骤如下：