CN110765775A

CN110765775A - 一种融合语义和标签差异的命名实体识别领域自适应的方法

Info

Publication number: CN110765775A
Application number: CN201911059048.9A
Authority: CN
Inventors: 李思; 王蓬辉; 徐雅静; 李明正; 孙忆南
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-02-07
Anticipated expiration: 2039-11-01
Also published as: CN110765775B

Abstract

本发明提供了一种通过融合源领域和目标域中句子的语义差异和标签差异，来选择源领域数据中的正样本数据来扩展目标域的训练数据，达到增强目标域的命名实体识别性能的方法。在以往的Bi‑LSTM+CRF模型的基础上，为了融合源领域和目标域中句子的语义差异和标签差异，我们通过强化学习中的状态表示和奖励设置来引入语义差异和标签差异，使得训练的决策网络可以选择源领域的数据中对于目标域的命名实体识别的性能有正向影响的句子，扩展目标域的训练数据，解决目标域训练数据不足的问题，同时提升目标域的命名实体识别性能。

Description

一种融合语义和标签差异的命名实体识别领域自适应的方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种融合领域之间的语义差异和标签差异，在命名实体识别任务上进行领域迁移。

背景技术

近年来，深度学***行语料库训练翻译***，使机器达到高水平的翻译能力。随着互联网用户的增多，其产生的信息也越来越多，如何在自动化地在这些大量用户信息中提取有用信息，具有十分重要的意义。中文命名实体识别作为信息提取的上游任务，其发展对于信息提取技术十分关键。

中文命名实体识别是指识别文本中特定意义的实体，一般包括人名、地点、时间等。之所以对文本进行命名实体识别，是因为许多的下游任务需要文本中的实体信息，比如信息提取对于文本中的实体信息就十分关注，还有关系抽取就需要知道文本中的实体信息，然后确定实体之间的关系，同时命名实体识别对于机器翻译和知识图谱的构建也具有十分重要的意义。

中文命名实体识别通常包括两个过程：(1)确定实体的边界；(2)识别实体的类型。一般地，我们将命名实体识别看成序列标注的问题，采用标注规则同时标注实体的类型和边界。用于命名实体识别的传统方法包括最大熵模型、支持向量机模型以及条件随机场。近年来发展的深度学习方法，比如循环神经网络、卷积神经网络等也被广泛应用于中文命名实体识别上，并且在几个大型语料库上取得了较高的准确率。

深度学习是让神经网络自动抓取数据的特征，为了取得较高的准确率往往需要大量的数据。但是，目前在中文命名实体识别方面，现有的大型语料库只有新闻领域的，在微博等领域的标注语料库很少，使得训练的神经网络无法在该领域上达到很好的准确率。近年来，为了提高准确率，在微博等领域上的命名实体识别任务开始采用迁移学习的方式，主要是通过新闻域等域外的大型语料库来提高在微博等领域的命名实体识别模型的性能。

在领域迁移中，具有大规模标注的语料被称为源领域数据，没有标注或只有少量标注的语料被称为目标领域数据。同时，利用无标注的目标领域数据的领域迁移被称为无监督领域迁移，利用少量标注的目标领域数据的领域迁移被称为半监督领域迁移。

在中文命名实体识别的领域迁移上，存在两个问题：一是语料库的句子语义之间存在很大的差异，二是语料库句子的标签集之间存在差异，这是由不同的标注规则所导致的。为了解决这些问题，现有的领域迁移技术，一方面是在基于不同语料库中句子的语义向量进行迁移的，还有一方面则是基于不同语料库中句子的不同标签的转换关系进行迁移的。

在“A Unified Model for Cross-Domain and Semi-Supervised Named EntityRecognition in Chinese Social Media”文章中，作者根据源语料库中的句子和目标域语料库的相似度来进行命名实体识别的领域迁移。

首先，利用大量的未标注的语料库的句子训练字向量生成模型，得到预训练的字向量字典，然后根据字典查找得到源领域和目标领域每个字对应的字向量，然后取句子中所有字向量的平均得到每个句子的句向量的表达形式，最后根据以下公式计算出每个句子训练对应的学习率。

α(x)＝α₀(x)*func(x，IN)

其中v_x指的是源领域的句子的句向量，α₀是目标域句子的学习率，C是可调整的参数。

在“Named Entity Recognition for Novel Types by Transfer Learning”文章中，作者提出了采用双层线性网络来学习源领域和目标域的标签之间的相关性进行领域迁移。

首先，利用大量的源领域的数据，来训练命名实体识别模型，然后利用双层的线性网络来学习源领域和目标与之间的标签的相关性，最后采用目标域的数据来训练条件随机场来得到目标域的输出标签。

发明人在研究过程中发现：对于“A Unified Model for Cross-Domain andSemi-Supervised Named Entity Recognition in Chinese Social Media”、“NamedEntity Recognition for Novel Types by Transfer Learning”现有技术中：

1.传统的根据源领域和目标领域的语义相似性来判断当前的源领域句子是否有利于目标领域命名识别模型训练，未考虑到实体的标签差异的影响。

2.采用源领域和目标域之间的标签转移关系进行迁移时，未充分考虑源领域和目标域中句子的语义向量相差太大的情况。

发明内容

为了解决上述的技术问题，本发明提供了一种融合语义和标签差异在命名实体任务上进行领域迁移的方法，通过深度强化学习中的状态表示和奖励设置，引入源领域和目标领域的语义差异和标签差异，训练决策网络，选择性地将源领域的数据加入训练过程，使得源领域中的正样本数据可以增强目标域的命名实体识别的性能，同时避免源领域中负样本数据对目标域的影响。

本发明提供了一种融合源领域和目标领域文本的语义差异和标签差异，进行领域迁移的方法。通过强化学习训练决策网络，选择性地加入源领域的数据，来增强目标域的命名实体识别的性能。

步骤一、对源领域和目标领域语料库中的句子进行预处理，去除其中的网址、特殊符号，还有进行繁简体转换，将语料库中的所有句子转成中文简体。

步骤二、对源领域语料库中的句子的标签进行处理，用于统一目标领域和源领域的实体标签集。

步骤三、将源领域的句子和目标域的句子，根据相同的字典，映射成向量表示，用于将输入的文本数值化为每个字符向量列连接而成的数值矩阵。

步骤四、为了增强字符向量的表示，将每个字符的分词标签和bigram向量拼接在字符向量后面来引入词级别的信息和分词信息。

步骤五、采用双向长短期记忆神经网络(Bidirectional Long-Short TermMemory，Bi-LSTM) 提取每个字的上下文相关的特征向量，并用线性层得到每个字符实体标签的概率。

步骤六、采用条件随机场(Conditional Random Field，CRF)解码，得到每个字的最终标签，形成输出的标签序列。

步骤七、用目标域的语料库进行以上步骤一到六的操作，获得目标域的命名实体识别模型。

步骤八、采用步骤七获得的命名实体识别模型，得到源领域中的每个句子的状态表示和当前奖励。

步骤九、决策网络根据当前源领域句子的状态表示，做出相应的动作，判断是否将当前句子加入训练数据，然后并且根据每个句子的奖励，计算决策网络的损失函数，进行梯度反向传播。

步骤十、将决策网络选择的源领域句子和目标域的句子结合，得到扩展的训练数据，继续训练目标域的命名实体识别模型。

步骤十一、不断重复步骤八到十，选取在开发集上获得最大F值的模型，进行模型测试，并且保存模型。

进一步的，在于非训练情况下，将步骤一到步骤十替换成：

步骤一、将目标领域语料库中的句子当作已训练的命名实体识别模型的输入；

步骤二、利用训练过程中的字符向量字典，将目标语料库中的句子的每个字符，映射对应的向量表示；

步骤三、将每个句子的向量表示输入到双向长短期记忆神经网络，得到每个句子和上下文相关的特征表示；

步骤四、将得到的句子的特征表示输入到线性层，得到句子中每个字符的各种标签的预测概率；

步骤五、将每个字符的标签预测概率输入到条件随机场，进行解码得到最优序列，得到命名实体识别的结果。

进一步的，所述步骤三中将目标域和源领域的中文字符，利用相同字典，映射为向量表示，包括：

随机初始化的映射字典，采用字嵌入方法，为相同的字符随机初始化相同的稠密向量表示，再将语料数据的每一个中文字符通过映射字典映射为稠密向量表示；

训练字向量，采用词袋模型Skip-Gram或Continuous Bag-of-Words(CBOW)，训练得到包含一定词语信息的向量表示，将语料数据的每一个中文字符通过映射字典映射为稠密向量表示。

进一步的，所述的步骤四中，为了增强字符向量的表示，在每个字符向量后面加上了分词信息和bigram信息，具体表示如下：

x_i＝[c_i:b_i:seg_i]

其中c_i是句子中第i个字符的字符向量，b_i是对应的bigram向量，seg_i则是分词标签。

进一步的，所述的步骤五中，将数值矩阵输入到双向长短期记忆神经网络中获取特征表示，计算过程如下：

f_t＝σ(W_f·[h_t-1:x_t]+b_f)

i_t＝σ(W_i·[h_t-1:x_t]+b_i)

o_t＝σ(W_o·[h_t-1:x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中f_t、i_t、

分别表示遗忘门，记忆门和临时细胞状态的输出，C_t是当前时刻的细胞状态， o_t是当前输出门的输出，h_t是隐层状态的输出，我们取隐层状态的输出当作每个字符的特征表示。

进一步的，所述的步骤八中源领域中句子的状态表示和奖励的计算方式见下：

s_t＝(h₁+h₂+…+h_n)/n

reward＝log P(Y|X)

其中h₁，h₂，…，h_n是域外的句子经过双向长短期记忆神经网络后的输出，P(Y|X)是条件随机场解码得到的标签序列的概率，s_t和reward是句子的状态表示和当前句子在命名实体识别模型中获得的奖励。

进一步的，所述的步骤九中决策网络的判断方式见下：

a＝softmax(W·s_t+b)

其中W，b是选择器的权重参数，softmax是归一化操作，a∈R^2x1是选择器的输出的动作，我们采用多层感知器当作我们的决策网络，决策网络根据每个句子的当前状态做出相应的动作a，如果a₀>0.5，则选择句子加入训练数据，否则丢弃句子，同时得到相应的奖励reward，计算决策网络的损失函数，进行反向梯度传播。

损失函数的计算方式见下：

Loss＝-reward*(a₀loga₀+(1-a₀)log(1-a₀))+L₁+L₂

其中L₁，L₂是选择器的L₁，L₂正则化参数，reward是当前句子在命名实体识别模型所获得的奖励。

本发明提供了一种融合语义和标签差异在命名实体识别任务上进行领域迁移的方法，采用神经网络代替强化学习中的决策网络，避免了自然语言处理中的状态空间无限的问题；同时利用强化学习中的状态表示和奖励设置引入源领域和目标领域的语义差异和标签差异，进行决策网络的训练，使得决策网络可以选择对目标域命名实体识别模型有正向影响的句子，实现了在中文命名实体识别上基于实例的领域迁移。

附图说明

图1为实施例一的流程图；

图2为本发明提供的融合语义和标签差异在命名实体识别任务上的领域迁移方法的网络结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。其中，本实施例中出现的缩略语和关键术语定义如下：

BP:Back Propagation反向传播；

CRF:Conditional Random Field条件随机场；

Bi-LSTM:Bidirectional Long Short-Term Memory双向长短期记忆神经网络；

实时实例一

参考图1、2所示，本发明提供了一种融合语义和标签差异，在命名实体识别任务上进行领域迁移的方法，具体的，在训练时，该方法包括：

步骤一、对源领域和目标域语料库中的句子进行预处理，去除其中的网址、特殊符号，还有进行繁简体转换，将语料库中的所有句子转成中文简体。

步骤二、对源领域语料库中的句子的标签进行处理，用于统一源领域和目标域的实体标签集。具体地，将源领域中的PER标签改成PER.NAM，LOC标签改成LOC.NAM，以及ORG标签改成 ORG.NAM，O标签不变。

进一步的，首先随机初始化的映射字典，采用字嵌入方法，为相同的字符随机初始化相同的稠密向量表示，再将语料数据的每一个中文字符通过映射字典映射为稠密向量表示；

训练字向量时，采用Glove模型，训练得到包含一定词语信息的向量表示，将语料数据的每一个中文字符通过映射字典映射为稠密向量表示。

本实施例中，采用大量从网上爬虫得到的未标注的目标域语料库和源领域的数据进行字向量模型的预训练，构建字向量映射字典，为每个字符标号，相同的字符向量一致；对于字典中未出现的字符，采用随机初始化。

具体的，为了增强字符向量的表示，在每个字符向量后面加上了分词信息和bigram信息，具体表示如下：

x_i＝[c_i:b_i:seg_i]

其中c_i是句子中第i个字符的字符向量，b_i是对应的bigram向量，seg_i则是分词标签，在对目标领域语料分词时候我们采用的是(Neural Word Segmentation with RichPretraining，Yang et.al 2017a)的分词工具。

步骤五、采用双向长短期记忆神经网络(Bidirectional Long-Short TermMemory，Bi-LSTM) 提取每个字的上下文相关的特征向量，并用线性层得到每个字符各种实体标签的概率。

将数值矩阵输入到双向长短期记忆神经网络中获取特征表示，计算过程如下：

f_t＝σ(W_f·[h_t-1:x_t]+b_f)

i_t＝σ(W_i·[h_t-1:x_t]+b_i)

o_t＝σ(W_o·[h_t-1:x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中f_t、i_t、

分别表示遗忘门，记忆门和临时细胞状态的输出，C_t是当前时刻的细胞状态，o_t是当前输出门的输出，h_t是隐层状态的输出，我们取隐层状态的输出当作每个字符的特征表示。

步骤八、采用步骤七获得的命名实体识别模型，得到源领域的句子的状态表示和当前奖励。

源领域句子的状态表示和奖励的计算方式见下：

s_t＝(h₁+h₂+…+h_n)/n

reward＝log P(Y|X)

步骤九、决策网络根据当前句子的状态表示，做出相应的动作，判断是否将当前句子加入训练数据，同时根据每个句子的奖励，计算决策网络的损失函数，进行梯度反向传播。

所述的步骤九中决策网络的判断方式见下：

a＝softmax(W·s_t+b)

其中W，b是决策网络的权重参数，softmax是归一化操作，a∈R^2x1是决策网络的输出的动作，我们采用多层感知器当作我们的决策网络，决策网络根据每个句子的当前状态做出相应的动作 a，如果a₀>0.5，则选择句子加入训练数据，同时得到相应的奖励reward，计算损失函数，进行反向梯度传播。

损失函数的计算方式见下：

Loss＝-reward*(a₀loga₀+(1-a₀)log(1-a₀))+L₁+L₂

其中L₁，L₂是决策网络的正则化参数，reward是当前句子在命名实体识别模型所获得的奖励。

步骤十、将决策网络选择的源领域句子和目标域语料的句子结合，得到扩展的训练数据，继续训练目标域的命名实体识别模型。

步骤十一、不断重复步骤八到十，选取在开发集上获得最大F值的模型，进行测试，并且保存模型。

非训练情况下，将步骤一到步骤十替换成：

步骤一、将目标域语料库中的句子当作神经网络的输入；

步骤二、利用训练过程中的字符向量字典，将目标域语料库中的句子的每个字符，映射对应的向量表示；

步骤三、将每个句子的向量表示输入到双向长短期记忆神经网络(BidirectionalLong-Short Term Memory，Bi-LSTM)，得到每个句子和上下文相关的特征表示。

步骤四、将得到的句子的特征表示输入到线性层，得到句子中每个字符的各种标签的预测概率。

步骤五、将每个字符的标签预测概率输入到条件随机场(Conditional RandomField，CRF)，进行解码得到最优序列，完成实体识别。

一优选实施例，首先将句子中的每一个字符映射为一个稠密向量，向量维度为n，经过双向长短期记忆神经网络，提取得到一句话中每一个字的特征；对于源领域的数据，将每句话的状态输入到强化学习训练的决策网络，得到对应的动作和奖励；根据动作决定是否将当前句子加入训练数据，同时根据反馈的奖励计算决策网络的Loss，进行反向传播，更新决策网络；对于目标领域的句子，不进行选择，直接加入训练数据；将得到的训练数据重新对命名实体识别模型进行训练，计算对应的Loss，进行反向传播，更新命名实体识别模型的参数。

本发明提供了一种融合语义和标签差异在命名实体识别任务上进行领域迁移的方法，采用神经网络代替强化学习中的决策网络，避免了自然语言处理中的状态空间无限的问题；同时利用强化学习中的状态表示和奖励设置引入源领域和目标领域的语义差异和标签差异，进行决策网络的训练，使得决策网络可以选择对目标域命名实体识别模型有正向影响的句子；通过利用现有大规模标注数据，提升在目标域的命名实体识别准确率，缓解人工标注语料的压力。

上述本发明实施例序号仅仅为了描述，不代表实施例优劣。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种融合语义和标签差异的命名实体识别领域自适应方法，其特征在于，采用深度强化学习的方式引入语义和标签差异，训练决策网络，选择性地加入源领域的数据，扩展目标域的训练数据，该方法包括以下步骤：

(1)对目标语料库中的句子进行预处理，去除其中的网址、特殊符号，还有进行繁简体转换，将目标语料库中的所有句子转成中文简体；

(2)对源领域和目标领域中语料库的句子的标签进行处理，用于统一不同语料库中实体的标签集；

(3)将源领域和目标领域中的句子，根据相同的字典，映射成向量表示，用于将输入的文本数值化为每个字符向量列连接而成的数值矩阵；

(4)为了增强字符向量的表示，将每个字符的分词标签和bigram向量拼接在字符向量后面来引入词级别的信息和分词信息；

(5)采用双向长短期记忆神经网络(Bidirectional Long-Short Term Memory，Bi-LSTM)提取每个字的上下文相关的特征向量，并用线性层得到每个字符各种实体标签的概率；

(6)采用条件随机场(Conditional Random Field，CRF)解码，得到每个字的最终标签，形成输出的标签序列；

(7)用目标语料库进行以上步骤(1)-(6)的操作，获得目标域训练的命名实体识别模型；

(8)采用步骤(7)获得的命名实体识别模型，得到源领域中的每个句子的在强化学习方式中的状态表示和当前奖励；

(9)利用深度强化学习的方式训练决策网络，决策网络根据当前句子的状态表示，作出相应的动作，判断是否将当前句子加入训练数据，然后获得动作执行之后的奖励，用于计算决策网络的损失函数并且进行梯度的反向传播；

(10)将决策网络选择的源领域中的正样本和目标领域语料库中的句子结合，扩展训练数据，继续训练目标域的命名实体识别模型；

(11)不断重复步骤(8)-(10)，选取在目标域开发集上获得最大F值的模型，进行模型测试，并且保存模型。

2.如权利要求1所述的方法，其特征在于非训练情况下，将步骤(1)-(10)替换成：

(2.1)将目标域语料库中的句子当作已训练的目标域的命名实体识别模型的输入；

(2.2)利用训练过程中的字符向量字典，将目标域语料库中的句子，通过字典，映射对应的向量表示；

(2.3)将每个句子的向量表示输入到双向长短期记忆神经网络，获取每个句子和上下文相关的特征表示；

(2.4)将得到的句子的特征表示输入到线性层，得到句子中每个字符的各种标签的预测概率；

(2.5)将每个字符的标签预测概率输入到条件随机场，进行解码得到最优序列，得到每个句子命名实体识别的结果。

3.如权利要求1所述的方法，其特征在于，所述步骤(3)中，将目标域和源领域的中文字符，利用相同字典，映射为向量表示，包括：

(3.1)随机初始化的映射字典，采用字嵌入方法，为相同的字符随机初始化相同的稠密向量表示，再将语料数据的每一个中文字符通过映射字典映射为稠密向量表示；

(3.2)训练字向量，采用词袋模型Skip-Gram或Continuous Bag-of-Words(CBOW)，训练得到包含一定词语信息的向量表示，将语料数据的每一个中文字符通过映射字典映射为稠密向量表示。

4.如权利要求1所述的方法，其特征在于，所述的步骤(4)中，为了增强字符级别向量的表示，在每个字符向量后面加上了分词标签信息和bigram信息，具体表示如下：

x_i＝[c_i:b_i:seg_i]

5.如权利要求1中所述的方法，其特征在于，所述的步骤(5)中，将数值矩阵输入到双向长短期记忆神经网络中获取特征表示，计算过程如下：

f_t＝σ(W_f·[h_t-1:x_t]+b_f)

i_t＝σ(W_i·[h_t-1:x_t]+b_i)

o_t＝σ(W_o·[h_t-1:x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中f_t、i_t、分别表示遗忘门，记忆门和临时细胞状态的输出，C_t是当前时刻的细胞状态，o_t是当前输出门的输出，h_t是隐层状态的输出，我们取隐层状态的输出当作每个字符的特征表示。

6.如权利要求1中的方法，其特征在于，所述的步骤(8)中源领域句子的状态表示和奖励的计算方式见下：

s_t＝(h₁+h₂+…+h_n)/n

reward＝log P(Y|X)

其中h₁，h₂，…，h_n是源领域中的句子经过双向长短期记忆神经网络得到的隐层状态的输出，P(Y|X)是条件随机场解码得到的当前句子输出真实标签序列的概率，这里我们采用对Bi-LSTM输出隐层状态求和的方式作为当前句子在目标域命名实体识别模型的状态表示s_t，同时为了选择对目标域的命名实体识别模型有正向影响的句子，我们用目标域的模型中条件随机场输出的在当前句子输出的对应真实标签序列的条件概率作为奖励reward。

7.如权利要求1中的方法，其特征在于，所述的步骤(9)中选择器的判断方式见下：

a＝softmax(W·s_t+b)

其中W，b是决策网络的参数，softmax是归一化操作，a∈R^2x1是决策网络在当前状态下的动作，这里采用多层感知器当作我们的决策网络，决策网络根据每个句子的当前状态做出相应的动作a，如果a₀>0.5，则选择源领域的句子加入训练数据，否则丢弃句子，然后根据奖励最大化，最后通过当前句子在目标域的命名实体识别模型中获得奖励，计算损失函数，进行反向梯度传播；

决策网络的损失函数的计算方式见下：

Loss＝-reward*(a₀loga₀+(1-a₀)log(1-a₀))+L₁+L₂

其中L₁，L₂是决策网络的L₁，L₂正则化参数，reward是当前句子在命名实体识别模型所获得的奖励。