CN107992468A

CN107992468A - 一种基于lstm的混合语料命名实体识别方法

Info

Publication number: CN107992468A
Application number: CN201710947005.9A
Authority: CN
Inventors: 唐华阳; 岳永鹏; 刘林峰
Original assignee: Beijing Future Information Technology Co Ltd
Current assignee: Beijing Future Information Technology Co Ltd
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2018-05-04

Abstract

本发明涉及一种基于LSTM的混合语料命名实体识别方法。该方法在训练阶段将带有标签的训练混合语料数据转换为字符级的混合语料数据，然后训练基于LSTM的深度学习模型；在预测阶段将没有标签的测试混合语料数据转换为字符级的混合语料数据，然后使用训练阶段训练好的深度学习模型进行预测。本发明采用字符级而不是词语级的向量，可以免受分词精度的影响，同时还可以规避未登录词的问题；采用长短期记忆神经网络LSTM相比传统的算法能够大幅提高命名实体识别的精度；直接使用混合语料进行模型训练，不需要将混合语料的每个语种检测并分开，最终到达可以识别混合语料的目的。

Description

一种基于LSTM的混合语料命名实体识别方法

技术领域

本发明属于信息技术领域，具体涉及一种基于LSTM的混合语料命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition，简称NER)指的是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

命名实体的识别方法的实践场景包括：

场景1：事件检测。地点、时间、人物是时间的几个基本构成部分，在构建事件的摘要时，可以突出相关人物、地点、单位等。在事件搜索***中，相关的人物、时间、地点可以作为索引关键词。事件的几个构成部分之间的关系，从语义层面更详细的描述了事件。

场景2：信息检索。命名实体可以用来提高和改进检索***的效果，当用户输入“重大”时，可以发现用户更想检索的是“重庆大学”，而不是其对应的形容词含义。此外，在建立倒排索引的时候，如果把命名实体切成多个单词，将会导致查询效率降低。此外，搜索引擎正在向语义理解、计算答案的方向发展。

场景3：语义网络。语义网络中一般包括概念和实例及其对应的关系，例如“国家”是一个概念，中国是一个实例，“中国”是一个“国家”表达实体与概念之间的关系。语义网络中的实例有很大一部分是命名实体。

场景4：机器翻译。命名实体的翻译常会有一些特殊翻译规则，例如中国人民翻译成英文时要使用名字的拼音来表示，有名在前姓在后的规则，而普通的词语要翻译成对应的英文单词。准确识别出文本中的命名实体，对提高机器翻译的效果有重要的意义。

场景5：问答***。准确的识别出问题的各个组成部分特别重要，问题的相关领域，相关概念。目前，大部分问答***都只能搜索答案，而不能计算答案。搜索答案进行关键词的匹配，用户根据搜索结果人工提取答案，而更加友好的方式是把答案计算好呈现给用户。问答***中有一部分问题需要考虑到实体之间的关系，例如“美国第四十五届总统”，目前的搜索引擎会以特殊的格式返回答案“特朗普”。

传统的对包含多种语言的混合文本的实体识别方法的步骤是：

多语言输入文本-->(分段或分句)文本语言检查-->实体识别

并且其对每一种语言的实体识别可以采用基于词典、基于统计和基于人工神经网络模型的方法。基于词典的命名实体识别，其原理大致是：将尽量多的不同类别的实体词汇收入词典中，识别时将文本信息与词典中的词语进行匹配，匹配上的则标记为对应的实体类别；基于词频统计的方法，例如CRF(条件随机场)，其原理大致是学习到前后一个词的语义信息，然后做出分类判断。

上述方法具有以下缺点：

缺点1：对多语言的检测粒度不好区分，并且有因某种语言没有检测到而有分词精度的损失。对于一篇文档包含多种语言的情况，首先需要分段处理，然后对每一个段落做语言类型的检测，然而如果对段落中也包含多种语言的情形，又需要做分句的处理，对句子中包含多种语言都不能做再做分割了。因分词的模型与语料严重的依赖，结果就会出现因某种语言并没有检测到而丢失分词的信息。

缺点2：基于词频统计的HMM(隐马尔可夫)和CRF(条件随机场)方法只能关联当前词的前一个词的语义，识别精度不够高，尤其是未登录词的识别率较低；

缺点3：基于人工神经网络模型的方法，在训练时存在梯度消失问题，并且在实际的应用中网络层数少，最终命名实体识别结果优势不明显。

发明内容

本发明针对上述问题，提供一种基于LSTM(Long Short-Term Memory，长短期记忆神经网络)的混合语料命名实体识别方法，能够有效提高混合语料命名实体识别的精度。

本发明中，混合语料指的是训练或者预测的数据中包含了至少两种语言的语料数据；登录词指的是已经出现在语料词表中的词；未登录词指的是没有出现在语料词表中的词。

本发明采用的技术方案如下：

一种基于LSTM的混合语料命名实体识别方法，其特征在于，包括以下步骤：

1)将原始混合语料数据OrgData转化为字符级的混合语料数据NewData；

2)统计NewData中的字符，得到字符集合CharSet，将每个字符进行编号，得到字符集合CharSet对应的字符编号集合CharID；统计NewData中字符的标签，得到标签集合LabelSet，将每个标签进行编号，得到标签集合LabelSet对应的标签编号集合LabelID；

3)将NewData按照句子长度对句子进行分组，得到包括n组句子的数据集合GroupData；

4)随机无放回的从GroupData的某组中抽取BatchSize句数据w，以及对应的标签y，并将抽取的数据w通过CharID转换为固定长度的数据BatchData，将对应的标签通过LabelID转换为固定长度的标签y_ID；

5)将数据BatchData及标签y_ID送入基于LSTM的深度学习模型，训练该深度学习模型的参数，当深度学习模型产生的损失值满足设定条件或者达到最大迭代次数N，则终止该深度学习模型的训练；否则采用步骤4)重新生成数据以训练该深度学习模型；

6)将待预测的数据PreData转换成与该深度学习模型匹配的数据PreMData，并将其送入训练好的该深度学习模型，得到命名实体识别结果OrgResult。

进一步地，步骤1)包括：

1-1)将原始混合语料数据中的数据与标签分离，并对数据的每个词语进行字符级切分；

1-2)采用BMESO的标记方式对每个字符进行标记：设某个词对应的标签为Label，则位于该词语最开始的字符标记为Label_B，位于该词语中间的字符标记为Label_M，位于该词语末尾的词语标记为Label_E，若该词语只有一个字符则标记为Label_S，若该词语没有带标签或者不属于实体标签则标记为o。

进一步地，，步骤3)中，设l_i表示第i句话的句子长度，则将|l_i-l_j|＜δ的句子归入一组，其中δ表示句子长度间隔。

进一步地，步骤4)包括：

4-1)将抽取到的数据w转换成数字，也即通过CharSet与CharID的对应关系，将w中的每个字符转换成对应的数字；

4-2)将抽取的数据w对应的标签y转换成数字，也即通过LabelSet与LabelID的对应关系，将y中的每个字符转换成对应的数字；

4-3)假设规定长度为maxLen，当抽取到的数据句子长度l＜maxLen时，将句子后面补maxLen-l个0，得到BatchData，并将w对应的标签y后面补maxLen-l个0，得到y_ID。

进一步地，步骤5)所述基于LSTM的深度学习模型包括：

Embedding层，用于将输入的字符数据转换为向量；

LSTM层，包含若干LSTM单元，用于提取字符间的语义关系；

DropOut层，用于防止模型过拟合；

SoftMax层，用于对每个字符进行分类。

本发明基于LSTM的混合语料命名实体识别方法，采用字符级而不是词语级的向量，可以免受分词精度的影响，同时还可以规避未登录词的问题；另外采用长短期记忆神经网络LSTM，相比传统的算法能够大幅提高命名实体识别的精度；直接使用混合语料进行模型训练，不需要将混合语料的每个语种检测并分开，最终到达可以识别混合语料的目的。

附图说明

图1.本发明方法的步骤流程图。

图2.深度学习模型示意图。

图3.LSTM单元示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明公开了一种基于LSTM的混合语料命名实体识别方法。例如在多种语言混合使用的语料数据中识别人名、地名和组织机构名等命名实体。本发明的核心问题包含三个：1.混合语料识别的效率，2.命名实体识别的精度，3.未登录词的识别精度。

为了解决未登录词问题，本发明放弃了传统的词表方法，而是采用基于词向量的思想，而且是基于字符的向量，而不是基于词语的向量。为了解决传统命名实体识别精度低的问题，本发明采用深度学习的思想，利用长短期记忆神经网络模型(LSTM)进行命名实体识。为了解决混合语料识别效率低，避开对每个字符进行语种检测的问题，本发明将混合语料一起放入深度学习模型中，进行训练。

本发明的混合语料命名实体识别方法流程图如图1所示。该方法分为两个阶段：训练阶段，预测阶段。

(一)训练阶段：(流程图的左边虚线框)

步骤1：将带有标签的训练混合语料数据转换为字符级的混合语料数据。

步骤2：使用Adam梯度下降算法训练深度学习模型。此外也可以采用其它算法训练深度学习模型，如SGD即随机梯度下降算法。

(二)预测阶段：(流程图的右边虚线框)

步骤1：将没有标签的测试混合语料数据转换为字符级的混合语料数据。

步骤2：使用训练阶段训练好的深度学习模型进行预测。

下面具体说明两个阶段的具体实现过程。

(一)训练阶段：

步骤1-1：将原始混合语料数据OrgData转化为字符级的混合语料数据NewData。具体为：

步骤1-1-1：将原始语料数据中的数据与标签分离，并对数据的每个词语进行字符级切分。

例如，原始数据为“[张三]/pre[gradated]/o[from]/o[哈佛大学]/org[。]/o”，数据标签分离之后为：

数据为：“[张三][gradated][from][哈佛大学][。]”

标签为：“pre o o org o”

对数据按字符级切分之后为：“[张三][g r a d a t e d][f r o m][哈佛大学][。]”

步骤1-1-2：采用BMESO(Begin,Middle,End,Single,Other)的标记方式对每个字符进行标记(也可以采用其它标记方式)。设某个词对应的标签为Label，则位于该词语最开始的字符标记为Label_B，位于该词语中间的字符标记为Label_M，位于该词语末尾的词语标记为Label_E，如果该词语只有一个字符则标记为Label_S，若该词语没有带标签或者不属于实体标签则标记为o。

例如，步骤1-1-1中的数据转化为字符级的数据后对应的每个字符的标签为：“pre_B pre_E o_B o_M o_M o_M o_M o_M o_M o_E o_B o_M o_M o_E org_B org_M org_M org_E o_S”。

步骤1-2：统计NewData的字符集合CharSet，为了避免在预测时遇到未知字符，在CharSet中添加一个特殊的符号“null”。并将每个字符按照自然数增序编号，得到字符集合CharSet对应的字符编号集合CharID。

例如步骤1-1中的例子，统计后的CharSet为：{null,张,三,g,r,a,d,t,e,f,r,o,m,哈,佛,大,学,。}，标点符号也会统计在里面；CharID为：{null:0,张:1,三:2,g:3,r:4,a:5,d:6,t:7,e:8,f:9,r:10,o:11,m:12,哈:13,佛:14,大:15,学:16,。:17}。

统计标签集合LabelSet，将每个标签进行编号，产生对应的标签编号集合LabelID。

例如步骤1-1中的例子，统计后的LabelSet为：{pre_B,pre_M,pre_E,o_B,o_M,o_E,o_s,org_B,org_M,org_E}；LabelID为：{pre_B:0,pre_M:1,pre_E:2,o_B:3,o_M:4,o_E:5,o_s:6,org_B:7,org_M:8,org_E:9}。

步骤1-3：将NewData按照句子长度进行划分。

设l_i表示第i句话的句子长度，则将|l_i-l_j|＜δ的句子归入一组，其中δ表示句子长度间隔。设分组之后的数据为GroupData，一共设为n组。

步骤1-4：随机无放回的从GroupData的某组中抽取BatchSize句数据w，以及对应的标签y，并将抽取的数据通过CharID转换为固定长度的数据BatchData，以及把对应的标签通过LabelID转换为固定长度的标签y_ID。

所述的将抽取的数据通过CharID转换为固定长度的数据BatchData，以及把对应的标签通过LabelID转换为固定长度的标签y_ID，其具体步骤为：

步骤1-4-1：将抽取到的数据w转换成数字，也即通过CharSet与CharID的对应关系，将w中的每个字符转换成对应的数字。

例如步骤1-1中的数据转换为CharID后为：[1,2,3,4,5,6,5,7,8,6,9,10,11,12,13,14,15,16,17]

步骤1-4-2：将抽取的数据w对应的标签y转换成数字，也即通过LabelSet与LabelID的对应关系，将y中的每个字符转换成对应的数字。

例如步骤1-1中的标签转换为LabelID后为：[0,2,3,4,4,4,4,4,4,5,3,4,4,5,7,8,8,9,6]

步骤1-4-3：假设规定长度为maxLen，当抽取到的数据句子长度l＜maxLen时，将句子后面补maxLen-l个0，得到BatchData。并将w对应的标签y后面补maxLen-l个0，得到y_ID。

步骤1-5：将步骤1-4的数据BatchData送入深度学习模型，产生损失函数Cost(y′,y_ID)。

本发明的混合语料命名实体识别方法中深度学习模型如图2所示。其中各部分的含义说明如下：

w₁～w_n：可以直观的理解为某句话中的各个字符，也就是步骤1-4中的数据w。但是在传入Embedding层时，需要先完成步骤1-4。

y₁～y_n：可以直观的理解为某句话中各个字符对应预测标签，将用于和实际标签y_ID计算损失值。

Embedding层：即嵌入层，也就是向量化的过程，用于将输入的字符数据转换为向量。

LSTM层：包含若干LSTM单元，用于提取字符间的语义关系。

DropOut层：即过滤层，用于防止模型过拟合。

SoftMax层：即分类层，用于最终对每个字符进行分类。

训练所述深度学习模型的具体步骤为：

步骤1-5-1：将传入的数据BatchData在Embedding层进行向量化，也即将数据BatchData中的每一条数据中的每个字符都通过一向量表Char2Vec转换成BatchVec。

步骤1-5-2：将BatchVec传入LSTM层，详细为：将每条数据中的第一个向量传入第一个LSTM单元，第二个向量传入第二个LSTM单元，依次类推。同时第i个LSTM单元的输入除了每条数据中的第i个向量外，还包含第i-1个LSTM单元的输出。注意，每个LSTM单元一次接收到的向量并不是只有一个，而是BatchSize个。

更详细的LSTM单元描述见图3。图3中各符号的含义说明如下：

w：输入数据(例如一句话)中的字符。

C_i-1，C_i：分别表示前i-1个字符累积得到的语义信息和前i个字符累积得到的语义信息。

h_i-1，h_i：分别表示第i-1个字符的特征信息和第i个字符的特征信息。

f：遗忘门，用于控制前i-1个字符的累积语义信息(C_i-1)保留多少。

i：输入门，用于控制输入数据(w和h_i-1)保留多少。

o：输出门，用于控制在输出第i个字符的特征时输出多少特征信息。

tanh：双曲正切函数

u:tanh：与输入门i一起控制第i个字符有多少特征信息保留在C_i-1中。

*，+：分别表示按位进行乘法和按位进行加法。

步骤1-5-3：将每个LSTM单元的输出h_i传入DropOut层，也即是随机的将h_i中η(0≤η≤1)的数据隐藏掉，不让其继续向后传递。

步骤1-5-4：将DropOut的输出传入SoftMax层，并产生最终的损失值Cost(y′,y_ID)。具体的计算公式如下：

Cost(y′，y_ID)＝-y_IDlog(y′)+(1-y_ID)log(1-y′) (公式1)

其中y′表示BatchData经过深度学习模型分类层(SoftMax层)后的输出。对应于图2中的y₁，₂，…，_n。y_ID表示对应的真实标签。

步骤1-6：使用Adam梯度下降算法训练深度学习模型的参数。

步骤1-7：如果深度学习模型产生的Cost(y′,y_ID)不再降低(见公式2)，或者达到最大迭代次数N，则终止深度学习模型的训练；否则跳到步骤1-4。

其中，Cost′_i(y′，y_ID)表示前i次迭代时的损失值，Cost(y′，y_ID)表示当前迭代产生的损失值。该公式的含义是，如果当前的损失值与前M次损失值的平均值的差小于阈值θ，则认为不再降低。

(二)预测阶段：

步骤2-1：将待预测的数据PreData转换成与深度学习模型模型匹配的数据格式PreMData。具体为：将待预测的数据转换成字符级的数字数据。

步骤2-2：将PreMData送入训练阶段训练好的深度学习模型，并得到预测结果OrgResult。

所述的深度学习模型，即为训练阶段训练好的深度学习模型，不过在预测时，其中涉及到的DropOut层的参数η＝1，表示不隐藏任何数据，全部都传递到下一层。

本发明对测试数据的正确率在89.3％左右。现有技术中，例如基于字典的方法，是完全没有办法解决未登录词的，也就是说未登录词的识别率是0，基于统计的方法或者基于传统人工神经网络的方法的正确率大概在90％。但这些都是在单语种的语料情况下，本发明则是在多语种混合语料的情况下进行计算的，就将语种分开后单独处理每个语种而言，本发明能够实现统一处理，在精度降低可接受的范围内，处理效率提高了很多。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于LSTM的混合语料命名实体识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，步骤1)包括：

3.如权利要求1所述的方法，其特征在于，步骤3)中，设l_i表示第i句话的句子长度，则将|l_i-l_j|＜δ的句子归入一组，其中δ表示句子长度间隔。

4.如权利要求1所述的方法，其特征在于，步骤4)包括：

5.如权利要求1所述的方法，其特征在于，步骤5)所述基于LSTM的深度学习模型包括：

Embedding层，用于将输入的字符数据转换为向量；

LSTM层，包含若干LSTM单元，用于提取字符间的语义关系；

DropOut层，用于防止模型过拟合；

SoftMax层，用于对每个字符进行分类。

6.如权利要求5所述的方法，其特征在于，步骤5)训练所述深度学习模型的步骤包括：

5-1)将传入的数据BatchData在Embedding层进行向量化，也即将数据BatchData中的每一条数据中的每个字符都通过一向量表Char2Vec转换成BatchVec；

5-2)将BatchVec传入LSTM层；

5-3)将每个LSTM单元的输出h_i传入DropOut层；

5-4)将DropOut的输出传入SoftMax层，并产生最终的损失值。

7.如权利要求6所述的方法，其特征在于，步骤5-2)将每条数据中的第一个向量传入第一个LSTM单元，第二个向量传入第二个LSTM单元，依次类推，同时第i个LSTM单元的输入除了每条数据中的第i个向量外，还包含第i-1个LSTM单元的输出；每个LSTM单元一次接收到的向量是BatchSize个。

8.如权利要求6所述的方法，其特征在于，所述损失值的计算公式为：

Cost(y′，y_ID)＝-y_IDlog(y′)+(1-y_ID)log(1-y′)，

其中y′表示BatchData经过深度学习模型的SoftMax层后的输出，y_ID表示对应的真实标签。

9.如权利要求8所述的方法，其特征在于，如果损失值Cost(y′,y_ID)不再降低则终止深度学习模型的训练，采用以下公式判断Cost(y′,y_ID)不再降低：

<mrow> <mo>|</mo> <mi>C</mi> <mi>o</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msub> <mi>y</mi> <mrow> <mi>I</mi> <mi>D</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mo>-</mo> <mi>M</mi> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msubsup> <mi>Cost</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msub> <mi>y</mi> <mrow> <mi>I</mi> <mi>D</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mi>M</mi> </mfrac> <mo>|</mo> <mo><</mo> <mi>&theta;</mi> <mo>,</mo> </mrow>

其中，Cost′_i(y′，y_ID)表示前i次迭代时的损失值，Cost(y′，y_ID)表示当前迭代产生的损失值，如果当前的损失值与前M次损失值的平均值的差小于阈值θ，则认为损失值不再降低。

10.如权利要求1所述的方法，其特征在于，步骤5)使用Adam梯度下降算法训练深度学习模型的参数。