CN109858041A

CN109858041A - 一种半监督学习结合自定义词典的命名实体识别方法

Info

Publication number: CN109858041A
Application number: CN201910172675.7A
Authority: CN
Inventors: 苏海波; 高体伟; 孙伟; 王然; 于帮付; 黄伟
Original assignee: Beijing Baifendian Information Science & Technology Co Ltd
Current assignee: Beijing Baifendian Information Science & Technology Co Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2019-06-07
Anticipated expiration: 2039-03-07
Also published as: CN109858041B

Abstract

本发明公开了一种半监督学习结合自定义词典的命名实体识别方法，包括如下步骤：S1、用未标注数据预训练Bi‑LSTM语言模型；S2、在Embedding层采用字向量模型将每个字符向量化；S3、采用两层的双向LSTM作为序列标注模型，所述序列标注模型采用标注数据训练；S4、加入用户自定义词典；S5、使用维特比解码求出序列中的最大概率路径。本发明将预训练的语言模型的输出和第一层双向LSTM的输出作拼接，并作为第二层双向LSTM的输入可以减少标注语料的使用，同时在切换领域时可以只更换新领域的标注语料。另外，在预测的时候通过自定义词典的设置，可以更改进入维特比解码的发射矩阵，从而达到自定义词典的效果。

Description

一种半监督学习结合自定义词典的命名实体识别方法

技术领域

本发明涉及数据处理领域，面向命名实体识别技术应用，具体涉及一种半监督学习结合自定义词典的命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition，后文简称NER)是指从文本中识别具有特定类别的实体(通常是名词)，例如人名、地名、机构名、专有名词等。NER是信息检索、查询分类、自动问答等问题的基础任务，其效果直接影响后续处理的效果，因此是自然语言处理研究的一个基础问题。

半监督学习(Semi-Supervised Learning，SSL)是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。半监督学习的基本思想是利用数据分布上的模型假设建立学习器对未标签样例进行标签。它的形式化描述是给定一个来自某未知分布的样例集S＝LU，其中L是已标签样例集L＝{(x1，y1)，(x2，y2)，…，(x|L|，y|L|)}，U是一个未标签样例集U＝{xc1，xc2，…，xc|U|}，希望得到函数f:XyY可以准确地对样例x预测其标签y。其中xi，xc1均为d维向量，ytIY为样例xi的标签，|L|和|U|分别为L和U的大小，即所包含的样例数，半监督学习就是在样例集S上寻找最优的学习器。如果S＝L，那么问题就转化为传统的有监督学习；反之，如果S＝U，那么问题是转化为传统的无监督学习。如何综合利用已标签样例和未标签样例，是半监督学习需要解决的问题。

自定义词典是基于用户需求的产物，不同领域和行业的用户对实体有不同的定义和理解，因此有的词在某些用户看来是实体，而对其他用户来说，可能不是实体。因此用户自定义词典是很有必要的，通过词典可以提高命名实体识别的准确率，使其更符合用户的需求。

发明内容

针对现有技术的不足，本发明旨在提供一种半监督学习结合自定义词典的命名实体识别方法。

为了实现上述技术目的，本发明采用如下技术方案：

一种半监督学习结合自定义词典的命名实体识别方法，包括如下步骤：

S1、用未标注数据预训练Bi-LSTM语言模型；

S2、在Embedding层采用字向量模型将每个字符向量化；

S3、采用两层的双向LSTM作为序列标注模型，所述序列标注模型采用标注数据训练；

序列标注模型的训练过程中，将序列标注模型的第一层双向LSTM的输出向量与步骤S1中预训练得到的Bi-LSTM语言模型的输出作拼接，然后将拼接的向量经过一个全连接层后作为序列标注模型的第二层双向LSTM的输入；

S4、加入用户自定义词典：

经过序列标注模型的两层双向LSTM之后会得到发射矩阵X，经过CRF层，通过最大似然概率得到转移矩阵Y，然后根据用户自定义词典调整发射矩阵的概率，得到调整后的发射矩阵X；

S5、使用维特比解码求出序列中的最大概率路径：

将步骤S4中得到的根据用户自定义词典调整后的发射矩阵X和转移矩阵Y输入到CRF层的维特比解码，得到序列标注，即正确的命名实体识别结果。

进一步地，步骤S2中，所述字向量模型为word2vec模型。

更进一步地，步骤S2中，具体采用Skip-gram方法进行字向量模型训练。

再进一步地，采用Skip-gram方法进行字向量模型训练的具体步骤为：

(1)首先收集应用领域相关的均衡语料；

(2)针对步骤(1)收集的语料数据作预处理，包括过滤掉垃圾数据、停低频字和无意义符号，以及整理成训练数据的格式，得到训练数据；

(3)将训练数据送给Skip-gram模型，训练得到字向量模型。

本发明的有益效果在于：基于预训练语言模型(Pretrained Language Model)、字符嵌入(char embeddings)技术、自定义词典技术、半监督训练(Semi-SupervisedLearning)、双向LSTM(Long Short Term Memory，长短时记忆模型)网络、CRF(ConditionalRandom Field，条件随机场)模型等，来实现半监督学习的NER训练。通过以上方法和特殊的网络结构将预训练的语言模型的输出和第一层双向LSTM的输出作拼接，并作为第二层双向LSTM的输入。通过此方法，可以减少标注语料的使用，同时在切换领域时可以只更换新领域的标注语料。另外，在预测的时候通过自定义词典的设置，可以更改进入维特比解码的发射矩阵，从而达到自定义词典的效果。

附图说明

图1为本发明实施例的方法流程示意图；

图2为本发明实施例中Bi-LSTM语言模型的网络示意图；

图3为本发明实施例中常用的word2vec训练模型CBOW示意图；

图4为本发明实施例中常用的word2vec训练模型skip-gram模型示意图；

图5为本发明实施例中字向量模型训练的流程示意图；

图6为本发明实施例中序列标注模型示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

以下对本实施例涉及的专业术语作简单解释：

命名实体识别：从给定文本数据中识别出特定专有名词，如人名、地名、机构名、时间词、产品名等。

Word2vec：是***公司开发的算法，通过无监督训练，将词变成一个几百维的向量，这种向量可以捕捉词语之间的语义相关性。也叫词向量或者词嵌入。

Tensorflow：Tensorflow是***开源的深度学***台(CPU、GPU、HADOOP)和分布式支持、可视化监控。

Skip-gram：Google用来在大数据上训练Wordvec采用方法，它通过当前词预测周围的词得到训练目标函数。

LSTM：LSTM(Long Short-Term Memory)长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。其通过“记忆门”和“忘记门”来控制历史信息的去留，有效解决了传统循环神经网络长路径依赖问题。

CRF：CRF(Conditional Random Field)条件随机场是近几年自然语言处理领域常用的算法之一，常用于句法分析、命名实体识别、词性标注等。CRF采用马尔科夫链作为隐含变量的概率转移模型，通过可观测状态判别隐含变量，属于判别模型。

半监督学习：半监督学习(Semi-Supervised Learning，SSL)是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。

自定义词典：用户自定义词典是在进行NER提取的时候，用户希望提取的特殊实体，通过设置词典的方式，确保其会提取出来。

本实施例提供一种半监督学习结合自定义词典的命名实体识别方法，包括如下步骤：

S1、用未标注数据预训练Bi-LSTM语言模型；

采用预训练的Bi-LSTM语言模型有以下优点：

1)减少标注语料的需求量，语言模型的主要作用就是特征的自动抽取，采用未标注数据进行预训练，提前得到每个字符的语义信息。

2)减少了模型的训练时间，由于提前进行的预训练，减少了用标注数据进行训练的时间。

本发明采用Bi-LSTM模型来进行语言模型的训练，是无监督学习的方法，不需要人工标注语料就可以训练模型。模型的网络结构如图2所示。

Bi-LSTM(双向LSTM)可以结合前后文的信息来给出字符的语义信息，通过前向的LSTM对于每个字符可以得到一个语义向量，然后再通过后向的LSTM的到另外一个语义向量。在输出层将两个语义向量进行拼接得到最终的输出。由于此语言模型的训练是无监督的形式，因此需求的数据量是越大越好的。

从图2中可以看出，本实施例中采用的Bi-LSTM，前向和后向并不进行参数共享。两层LSTM都采用不同的参数进行训练，也就是说两层LSTM是独立的。

S2、在Embedding层采用word2vec模型将每个字符向量化。

在本实施例中，具体采用Skip-gram方法训练得到字向量模型。

word2vec模型能够将每个字变成一个低维空间中的向量，通常几百维。这样字符之间的语义相关性可以用向量的距离来近似描述。相对于常用的词向量，基于字符的向量化技术能够带来以下优势：

1)能够表征更细粒度的字符特征；

2)由于字符数量远小于单词数量，得到的模型占用空间极小，极大提高了模型加载速度；

3)随着时间的推移，新词会不断涌现，之前所训练的词向量模型会出现越来越严重的特征命中率下滑问题，而基于字符的向量则有效避免了此问题，因为每年被创造出来的新字符相对很少。

因此本实施例选择基于字符的向量化技术。

本实施例采用的word2vec模型是无监督学习方法，即不需要人工标注语料就可以训练模型，常见的有两种训练方法为CBOW和Skip-gram，如图3-4所示。

CBOW是根据上下文预测中心的字，根据字符w(t)周围的字符w(t-2),w(t-1),w(t+1),w(t+2)预测，将这些词的向量做连接，这样能充分保留上下文信息，如图3所示。Skip-gram方法正好相反，使用w(t)去预测周围的词w(t-2),w(t-1),w(t+1),w(t+2)，如图4所示。在大数据量条件下，适合采用Skip-gram方法。

如图5所示，在本实施例中，采用Skip-gram方法训练模型的具体步骤为：

(1)首先收集相关的均衡语料(因为要做无监督学习，数据量越大越好，无需标注)，这些语料主要针对相应的应用领域，并且尽量涵盖该场景的大部分数据类型；

(2)针对步骤(1)收集的语料数据作预处理，包括过滤掉垃圾数据、停低频字和无意义符号，以及整理成训练数据的格式，即表示输入和输出，得到训练数据；

(3)将训练数据送给Skip-gram模型，训练得到字向量模型。

S3、采用两层的双向LSTM作为序列标注模型，并采用标注数据训练所述序列标注模型；

在本实施例中，采用BIO标注法对训练数据进行标注。例如：

标签B-PER则代表人名的开始，I-ORG代表组织机构名的中间，O则代表其它。

本实施例的序列标注模型采用两层的双向LSTM，由于是采用少量的标注数据进行训练，所以考虑通过增加模型的复杂度来更好的拟合数据。同时为了减少对标注数据量级的需求，本实施例在序列标注模型的两层双向LSTM之间引入了预训练的语言模型向量，具体的模型如图6所示。

具体地，在序列标注模型的训练过程中，将序列标注模型的第一层双向LSTM的输出向量与Bi-LSTM语言模型的输出作拼接，然后将拼接的向量经过一个全连接层后作为序列标注模型的第二层双向LSTM的输入。

从具体的实现来看，首先进入序列标注模型的第一层双向LSTM的运算过程，前向LSTM和后向LSTM，前向LSTM的输出为h_ft，后向LSTM的输出为h_bt，二者进行拼接后，得到h_t1＝[h_ft,h_bt]，其中前向输出h_ft表征了历史上下文信息，而后向输出h_bt则表征了未来的上下文信息。然后将Bi-LSTM语言模型的输出h_lm与第一层双向LSTM的输出进行拼接后，得到h_t＝[h_lm,h_t1]。之后经过一个全连接层后，将结果输入到序列标注模型的第二层双向LSTM中。

循环神经网络(RNN)目前被广泛的运用到自然语言处理领域中。对于任意输入文本序列(x₁,x₂,…,x_n)，RNN返回针对此序列的输出值集合(h₁,h₂,…,h_n)。由于传统的RNN在进行最优化求解的过程中会产生梯度消失的问题，使得在预测的时候对于长文本并不能记录远距离的语义信息。而LSTM模型采用不同的gate来控制历史信息的输入和输出，同时，双向的LSTM不仅可以参考过去的历史信息，也可以参考未来的语义信息。

S4、加入用户自定义词典；

经过序列标注模型的两层双向LSTM之后会得到发射矩阵X，经过CRF层，通过最大似然概率得到转移矩阵Y，然后根据用户自定义词典调整发射矩阵的概率，得到调整后的发射矩阵X。

S5、使用维特比解码求出序列中的最大概率路径。

具体地，将根据用户自定义词典调整后的发射矩阵X和转移矩阵Y输入到CRF层的维特比解码，得到序列标注，即正确的命名实体识别结果。

在本发明中CRF层作为最后一层主要的作用就是进行维特比解码找到最优的路径。条件随机场(conditional random fields，简称CRF，或CRFs)，是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏置问题。

而条件随机场则使用一种概率图模型，具有表达长距离依赖性和交叠性特征的能力，能够较好地解决标注(分类)偏置等问题的优点，而且所有特征可以进行全局归一化，能够求得全局的最优解。这里主要用到的就是条件随机场的预测算法：维特比算法(Viterbialgorithm，一种动态规划算法)。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种半监督学习结合自定义词典的命名实体识别方法，其特征在于，包括如下步骤：

S1、用未标注数据预训练Bi-LSTM语言模型；

S2、在Embedding层采用字向量模型将每个字符向量化；

S4、加入用户自定义词典：

S5、使用维特比解码求出序列中的最大概率路径：

2.根据权利要求1所述的一种半监督学习结合自定义词典的命名实体识别方法，其特征在于，步骤S2中，所述字向量模型为word2vec模型。

3.根据权利要求2所述的一种半监督学习结合自定义词典的命名实体识别方法，其特征在于，步骤S2中，具体采用Skip-gram方法进行字向量模型训练。

4.根据权利要求3所述的一种半监督学习结合自定义词典的命名实体识别方法，其特征在于，采用Skip-gram方法进行字向量模型训练的具体步骤为：

(1)首先收集应用领域相关的均衡语料；

(3)将训练数据送给Skip-gram模型，训练得到字向量模型。