CN111611802A

CN111611802A - 多领域实体识别方法

Info

Publication number: CN111611802A
Application number: CN202010437407.6A
Authority: CN
Inventors: 陈文亮; 方晔玮; 王铭涛; 张民
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-01
Anticipated expiration: 2040-05-21
Also published as: CN111611802B

Abstract

本发明公开了一种多领域实体识别方法。本专利中，我们主要做出了如下2个创新：1、针对目标领域无任何人工标注数据的跨领域场景，快速自动构建目标领域的弱标注数据。2、将局部标注学习应用到跨领域命名实体识别任务中。有益效果：在目标领域没有任何人工标注数据的场景下，有效改善源领域模型的领域自适应能力，在降低数据标注成本的同时，提高了目标领域的实体识别性能。

Description

多领域实体识别方法

技术领域

本发明涉及实体识别领域，具体涉及一种多领域实体识别方法。

背景技术

命名实体识别指识别文本中具有特定意义的实体。近年来，神经网络方法大大提高了命名实体识别任务的性能。但是，在实际应用场景中，当文本所属领域不同于训练语料时，深度神经网络模型往往展现出较弱的知识泛化能力。

跨领域命名实体识别的难点主要有：1)实体名多样，目标领域会出现大量源领域中没有出现过的实体；2)语言表达差异大，不同于新闻领域规范的语言表达，各领域语料的数据分布迥异，如社交文本口语化现象严重，医疗领域的文本则带有大量专业术语。

目前的跨领域命名实体识别方法大致可以分为：1)基于多任务学习框架的方法，学习领域无关的特征；2)使用源领域训练得到的模型参数初始化目标领域模型，再在目标领域数据上进行训练。

基于多任务学习的跨领域命名实体识别

模型主要分为三部分：1)字向量表示层：将输入字/词转化为连续的向量表示；2)特征抽取层：通过双向长短期记忆网络和线性变换，得到每个字对应各标签的概率；3)预测层：预测当前输入条件下的输出序列是什么。

为了抽取领域无关、任务相关的特征，该方法共享源领域模型和目标领域模型的字向量表示层和特征抽取层。由于不同领域输出的标签可能不同，所以不共享CRF层。然后，使用源领域的人工标注数据和目标领域的人工标注数据分别训练该模型。实验证明，该方法通过2个领域共享若干层进行联合训练，能够有效抽取与领域无关的特征，从而提高目标领域的实体识别性能。

2、基于参数初始化的跨领域命名实体识别

该方法共分为以下几个步骤：

1、在具有大规模人工标注数据的源领域上训练，得到模型A。

2、模型B具有同样的模型结构，使用模型A的参数初始化模型B。

3、在目标领域有限的人工标注数据上，继续训练模型B，拟合目标领域特征。

实验证明，该方法能有效提高目标领域的实体识别性能，经过微调的模型B对目标领域的实体识别性能显著优于模型A。

传统技术存在以下技术问题：

1、需要目标领域的人工标注语料。实际应用中，大规模高质量的标注语料获取代价高昂。并且，细分领域非常多，每有一个新的特定领域就需要标注一定量的语料，成本非常高。当目标领域没有标注数据时，大多数现有的领域迁移技术都无法得到有效应用。

2、缺乏对目标领域无标注数据的利用。大规模无标注数据的获取代价很低，其中蕴含着丰富的语义信息。但是，大多数现有的领域迁移技术并没有利用它。

发明内容

本发明要解决的技术问题是提供一种多领域实体识别方法，在目标领域没有任何人工标注数据的场景下，自动生成高质量的目标领域弱标注数据，并对其建模，提高了目标领域的命名实体识别性能。

为了解决上述技术问题，本发明提供了一种多领域实体识别方法，包括：为了减少数据分布不同带来的迁移困难，使用了两种方法同时标注目标领域的无标注语料，保留高置信度的标签，对于不确定位置采用特殊标签，得到目标领域的弱标注数据；由于弱标注语料包含不确定标签，普通CRF层无法建模，应用局部标注学习对其建模；

自动标注：

利用外部实体词典，根据正向最大匹配机制，在文本中寻找可能出现的实体；将匹配成功的部分标记为实体，匹配失败的部分标记为“O”；

在源领域数据上训练得到一个模型，直接用该模型标注目标领域的无标注文本，作为第二种自动标注方法的结果；

对比上述两个方法的标注结果，保留两种方法达成一致的标签；把产生冲突的位置标为“U”，意为“Unknown”，即这个字的标签不确定，可以为任何可能的标签；所得结果就是最终的目标领域弱标注语料；

基于局部标注的命名实体识别：

模型将识别任务当作序列标注任务来处理，模型输入是汉字序列，模型输出是标签序列；

在模型中，对于输入的汉字序列，首先通过双向长短期记忆网络(LSTM)构造神经元特征，然后组合这些特征输入到局部CRF层进行标签预测；整个模型分为3个主要部分：1)字向量表示层：通过字向量映射表，将输入字串表示为连续的向量；2)特征抽取层：通过双向长短期记忆网络和线性变换，得到每个字对应各标签的概率；3)预测层：采用局部CRF，预测当前输入条件下的输出序列是什么；

上述模型分为两个状态，训练和预测；在训练过程中，***会根据输入的训练语句计算相应的标签序列，这个标签序列一开始和正确的标签序列肯定是相差比较大的，也就是说一开始模型的性能很差；然后模型会用自己预测得到的结果和正确答案计算得到一个差值，并反向更新***参数，更新的目标就是尽可能最小化这个差值Ioss；随着训练的进行，这个模型对于序列的标签预测能力会越来越好，直到达到一个性能的最高点。

在其中一个实施例中，“模型将识别任务当作序列标注任务来处理，模型输入是汉字序列，模型输出是标签序列；”中，标签采用BIOES形式，其中，B-XX表示XX类别实体的第一个汉字，E-XX表示XX类别实体的最后一个汉字，I-XX表示类别XX实体的中间部分，S-XX表示单个字的类别XX实体，其它汉字标注为“0”。

在其中一个实施例中，字向量表示层：将离散的输入汉字转换成连续的向量表示；使用一张映射表，表内存储着每个汉字对应的向量表示；向量的初始值可以使用随机数初始化，也可以设置为预训练的字向量；在模型训练过程中，向量表内容作为模型的参数，在迭代过程中随同其它参数一起优化；给定句子C＝<c₁，c₂，...，c_n>，映射为向量序列<x₁，x₂，...，x_n>。

在其中一个实施例中，特征抽取层：基于输入的向量序列，使用双向长短期记忆网络进行编码，得到特征表示；LSTM只对过去的信息编码，不编码未来的信息；为了兼顾上下文，同时应用前向和逆向LSTM对句子编码；对于句子中的第t个汉字，前向LSTM和逆向LSTM分别得到隐层表示隐层表示

拼接后得到每个字的最终隐藏状态表示h_t；然后，通过下列公式计算得到每个字对应各标签的概率P：

P＝W_mlph_t+b_mlp

其中，W_mlp和b_mlp是模型参数。

在其中一个实施例中，预测层：局部标注数据中，有些位置的标签可能为多个值；因此，句子的正确标签序列可能不止一条；句子对应的局部标注数据形式为({B}，{B，I，E，O，S}，{B，I，E，O，S}，{O}，{O}，{O}，{O}，{O})，认为正确的标签序列一共有5*5＝25条；

给定句子C＝<c₁，c2，...，c_n>，若对应标签序列y＝<y₁，y₂，...，y_n>，则定义该句得分为：

其中，A是记录转移分数的矩阵，A_i，j表示从标签i转移到标签j的分数；P是分类层输出，

表示第i个位置标记为标签y_i的分数；

定义Y_L为所有正确序列的集合，定义集合Y_L的分数为：

其中，Y_C表示输入为C的情况下所有可能序列的集合；

该损失函数仍然适用于全标注数据；当集合Y_L大小为1时，即只有一条正确序列，对应全标注数据的情况；因此，模型可以同时处理全标注数据和局部标注数据。

在其中一个实施例中，在训练过程中，希望最大化所有正确序列分数之和的概率；所以，定义损失函数如下：

。

在其中一个实施例中，在测试时，使用维特比算法求解分数最高的序列作为模型预测结果。

基于同样的发明构思，本申请还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

基于同样的发明构思，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

基于同样的发明构思，本申请还提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

在目标领域没有任何人工标注数据的场景下，有效改善源领域模型的领域自适应能力，在降低数据标注成本的同时，提高了目标领域的实体识别性能。

附图说明

图1是本发明背景技术中的基于多任务学习的领域迁移方法示意图。

图2是本发明多领域实体识别方法的局部标注示例图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本专利中，我们主要做出了如下2个创新：

1、针对目标领域无任何人工标注数据的跨领域场景，快速自动构建目标领域的弱标注数据。

2、将局部标注学习应用到跨领域命名实体识别任务中。

为了减少数据分布不同带来的迁移困难，我们使用了两种方法同时标注目标领域的无标注语料，保留高置信度的标签，对于不确定位置采用特殊标签，得到目标领域的弱标注数据。由于弱标注语料包含不确定标签，普通CRF层无法建模，我们应用局部标注学习对其建模。

1、自动标注

1.1、实体词典

我们利用外部实体词典，根据正向最大匹配机制，在文本中寻找可能出现的实体。将匹配成功的部分标记为实体，匹配失败的部分标记为“O”。

1.2、源领域模型

我们在源领域数据上训练得到一个模型，直接用该模型标注目标领域的无标注文本，作为第二种自动标注方法的结果。

1.3、交叉对比

表1自动标注方法示例

对比上述两个方法的标注结果，保留两种方法达成一致的标签；把产生冲突的位置标为“U”，意为“Unknown”，即这个字的标签不确定，可以为任何可能的标签。所得结果就是最终的目标领域弱标注语料。表1展示了新闻领域迁移到社交媒体时的各个方法的标注结果。

2、基于局部标注的命名实体识别

模型将识别任务当作序列标注任务来处理，模型输入是汉字序列，模型输出是标签序列。标签采用BIOES形式，其中，B-XX表示XX类别实体的第一个汉字，E-XX表示XX类别实体的最后一个汉字，I-XX表示类别XX实体的中间部分，S-XX表示单个字的类别XX实体，其它汉字标注为“O”。

在模型中，对于输入的汉字序列，我们首先通过双向长短期记忆网络(LSTM)构造神经元特征，然后组合这些特征输入到局部CRF层进行标签预测。整个模型分为3个主要部分：1)字向量表示层：通过字向量映射表，将输入字串表示为连续的向量；2)特征抽取层：通过双向长短期记忆网络和线性变换，得到每个字对应各标签的概率；3)预测层：采用局部CRF，预测当前输入条件下的输出序列是什么。

字向量表示层：将离散的输入汉字转换成连续的向量表示。我们使用一张映射表，表内存储着每个汉字对应的向量表示。向量的初始值可以使用随机数初始化，也可以设置为预训练的字向量。在模型训练过程中，向量表内容作为模型的参数，在迭代过程中随同其它参数一起优化。给定句子C＝<c₁，c₂，...，c_n>，映射为向量序列<x₁，x₂，...，x_n>。

特征抽取层：基于输入的向量序列，我们使用双向长短期记忆网络(LSTM)进行编码，得到特征表示。LSTM只对过去的信息编码，不编码未来的信息。为了兼顾上下文，我们同时应用前向和逆向LSTM对句子编码。对于句子中的第t个汉字，前向LSTM和逆向LSTM分别得到隐层表示隐层表示

拼接后得到每个字的最终隐藏状态表示h_t。然后，通过下列公式计算得到每个字对应各标签的概率P：

P＝W_mlph_t+b_mlp

其中，W_mlp和b_mlp是模型参数。

预测层：局部标注数据中，有些位置的标签可能为多个值。因此，句子的正确标签序列可能不止一条。如图2所示，句子对应的局部标注数据形式为({B}，{B，I，E，O，S}，{B，I，E，O，S}，{O}，{O}，{O}，{O}，{O})，认为正确的标签序列一共有5*5＝25条。

给定句子C＝<c₁，c₂，...，c_n>，若对应标签序列y＝<y₁，y₂，...，y_n>，则定义该句得分为：

其中，A是记录转移分数的矩阵，A_i，j表示从标签i转移到标签j的分数。P是分类层输出，

表示第i个位置标记为标签y_i的分数。

定义Y_L为所有正确序列的集合，定义集合Y_L的分数为：

在训练过程中，我们希望最大化所有正确序列分数之和的概率。所以，定义损失函数如下：

其中，Y_C表示输入为C的情况下所有可能序列的集合。

该损失函数仍然适用于全标注数据。当集合Y_L大小为1时，即只有一条正确序列，对应全标注数据的情况。因此，模型可以同时处理全标注数据和局部标注数据。

在测试时，我们使用维特比算法求解分数最高的序列作为模型预测结果。

上述模型分为两个状态，训练和预测(预测就是实际使用这个模型)。在训练过程中，***会根据输入的训练语句计算相应的标签序列，这个标签序列一开始和正确的标签序列肯定是相差比较大的，也就是说一开始模型的性能很差。然后模型会用自己预测得到的结果和正确答案计算得到一个差值(loss)，并反向更新***参数，更新的目标就是尽可能最小化这个差值loss。随着训练的进行，这个模型对于序列的标签预测能力会越来越好，直到达到一个性能的最高点(这是一个循环迭代的过程)。

下面介绍本发明的一个应用场景：

以新闻领域迁移至社交媒体领域为例，列举步骤如下：

1、在新闻领域的人工标注数据上训练，得到模型A。

2、同时使用模型A和实体词典标注社交媒体内的原始文本，交叉对比，得到社交媒体领域的弱标注语料。

3、在弱标注语料上，使用局部标注学习进行训练，得到模型B。

4、应用模型B标注社交媒体领域的文本，性能显著优于模型A。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种多领域实体识别方法，其特征在于，包括：为了减少数据分布不同带来的迁移困难，使用了两种方法同时标注目标领域的无标注语料，保留高置信度的标签，对于不确定位置采用特殊标签，得到目标领域的弱标注数据；由于弱标注语料包含不确定标签，普通CRF层无法建模，应用局部标注学习对其建模；

自动标注：

基于局部标注的命名实体识别：

上述模型分为两个状态，训练和预测；在训练过程中，***会根据输入的训练语句计算相应的标签序列，这个标签序列一开始和正确的标签序列肯定是相差比较大的，也就是说一开始模型的性能很差；然后模型会用自己预测得到的结果和正确答案计算得到一个差值，并反向更新***参数，更新的目标就是尽可能最小化这个差值loss；随着训练的进行，这个模型对于序列的标签预测能力会越来越好，直到达到一个性能的最高点。

2.如权利要求1所述的多领域实体识别方法，其特征在于，“模型将识别任务当作序列标注任务来处理，模型输入是汉字序列，模型输出是标签序列；”中，标签采用BIOES形式，其中，B-XX表示XX类别实体的第一个汉字，E-XX表示XX类别实体的最后一个汉字，I-XX表示类别XX实体的中间部分，S-XX表示单个字的类别XX实体，其它汉字标注为“O”。

3.如权利要求1所述的多领域实体识别方法，其特征在于，字向量表示层：将离散的输入汉字转换成连续的向量表示；使用一张映射表，表内存储着每个汉字对应的向量表示；向量的初始值可以使用随机数初始化，也可以设置为预训练的字向量；在模型训练过程中，向量表内容作为模型的参数，在迭代过程中随同其它参数一起优化；给定句子C＝<c₁，c₂，…，c_n>，映射为向量序列<x₁，x₂，...，x_n>。

4.如权利要求1所述的多领域实体识别方法，其特征在于，特征抽取层：基于输入的向量序列，使用双向长短期记忆网络进行编码，得到特征表示；LSTM只对过去的信息编码，不编码未来的信息；为了兼顾上下文，同时应用前向和逆向LSTM对句子编码；对于句子中的第t个汉字，前向LSTM和逆向LSTM分别得到隐层表示隐层表示

P＝W_mlph_t+b_mlp

其中，W_mlp和b_mlp是模型参数。

5.如权利要求1所述的多领域实体识别方法，其特征在于，预测层：局部标注数据中，有些位置的标签可能为多个值；因此，句子的正确标签序列可能不止一条；句子对应的局部标注数据形式为({B}，{B,I,E,O,S}，{B,I,E,O,S}，{O}，{O}，{O}，{O}，{O})，认为正确的标签序列一共有5*5＝25条；

表示第i个位置标记为标签y_i的分数；

定义Y_L为所有正确序列的集合，定义集合Y_L的分数为：

其中，Y_C表示输入为C的情况下所有可能序列的集合；

6.如权利要求5所述的多领域实体识别方法，其特征在于，在训练过程中，希望最大化所有正确序列分数之和的概率；所以，定义损失函数如下：

。

7.如权利要求1所述的多领域实体识别方法，其特征在于，在测试时，使用维特比算法求解分数最高的序列作为模型预测结果。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到7任一项所述方法的步骤。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到7任一项所述的方法。