CN109800437A

CN109800437A - 一种基于特征融合的命名实体识别方法

Info

Publication number: CN109800437A
Application number: CN201910099671.0A
Authority: CN
Inventors: 赵青; 王丹; 杜金莲; 付利华; 苏航
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-05-24
Anticipated expiration: 2039-01-31
Also published as: CN109800437B

Abstract

一种基于特征融合的命名实体识别方法属于计算机领域，通过两个方面来提取和融合不同粒度的文本特征，概念特征和非概念词特征，从而来提高命名实体识别的准确率并降低计算量。方法包括：数据预处理模块、特征构建模块、训练命名实体网络模型模块和命名实体分类器模块，其中特征模块包括语义特征提取、词特征提取、字符特征提取、特征融合四个子模块。在本方法中结合神经网络模型LSTM(Long Short‑Term Memory)或GRU(Gated Recurrent Unit)的时序记忆特点来考虑命名实体任务的上下文信息，最后使用softmax预测实体类别标签。在模型构建过程中，可以利用稀疏数据作为训练集并对LSTM和GRU两种神经网络模型进行对比，确保本发明在实体识别任务上能取得令人满意的效果。

Description

一种基于特征融合的命名实体识别方法

技术领域

本发明属于计算机领域，涉及一种基于特征融合的命名实体识别方法。

背景技术

近年来，随着人工智能技术在自然语言处理(Natural Language Processing,NLP)领域的广泛应用，人们对领域知识的探索也越来越多。命名实体识别是构成领域知识的基础，也是至关重要的一个步骤，例如：知识图谱构建、文本检索、文本分类和信息抽取等领域中都需要进行命名实体识别。

命名实体识别(Named Entity Recognition,NER)可以看作是一个序列标注任务，通过提取出来的信息来查找实体并将其分为一组固定的类别。传统NER问题的两种主要方法是基于规则的学习方法和有监督的学习方法，其中有监督的学习方法占主导地位。基于规则学习的方法和有监督的学习方法都是假设可用的训练数据已全部标记(即，所有包含在文档中的实体都被标记)的前提下，在从文档中找到候选实体的标签序列。然而，在如今的大数据时代将充分标注的数据作为训练集是非常耗时耗力的，并且由于大多数领域术语的特殊性，如今的命名实体识别任务还存在以下挑战：(1)现实生活中大部分是半结构或非结构化的，并且很多信息是叙述性的，无结构信息，不适用于知识的发现和抽取；(2)领域实体本身结构复杂并且相同概念具有多种表达方法，例如在医疗领域：慢性阻塞性肺疾病可以缩写为COPD；(3)命名实体通常是由多个词组成，仅考虑词特征会使语义信息割裂。基于以上问题，传统的命名实体识别方法已经很难适用于如今的应用场景。

目前，随着深度学习在各个领域中都优异的表现，在命名实体识别任务中的应用也越来越多，相比较传统方法，深度学习的方法效果更好。但是深度学习结合的NER方法大多都是基于英文的，或者基于词向量和字符向量的，而没有考虑到概念特征。

2016年，发表在ACL，由Guillaume Lample等人所著论文“Neural Architecturesfor Named Entity Recognition”，提出了一种基于循环神经网络(Recurrent NeuralNetwork,RNN)和条件随机场(Conditional Random Fields,CRF)结合的命名实体识别方法，用来识别英文人名、地名等，该方法通过RNN来提取词特征和字符特征，最后通过CRF对实体进行分类。

2017年，发表在计算机研究与发展，由杨培等人所著论文“基于注意机制的化学药物命名实体识别”，提出了一种基于字词特征并结合注意力机制的实体识别方法，该方法通过神经网络LSTM(Long Short-Term Memory)来训练实体识别分类器，并采用CRF产生最后的实体标签分类结果。

以上的方法虽然都可以完成命名实体识别任务，但是现有命名实体识别方法都是假设没有领域知识，特征只通过训练集来学习，然而现实生活中，大多数领域都是具有部分领域知识的，虽然还不完善，但是这些领域知识可以帮助我们在稀疏数据中更好的识别命名实体，同时也可以在一定程度上减少由表达不一致带来的巨大计算量。

发明内容

本发明的内容：

一种基于特征融合的命名实体识别方法，该方法包括：

①提出了一种基于特征融合的命名实体识别方法，该方法不仅可以根据领域本体中所包含的概念在稀疏标记的预料库中达到预测新词的效果，也可以对表达不一致但具有相同概念的实体采取统一的表达方式，不仅能够提高准确率也可以降低计算成本。

②首先对预处理后的数据采用CBOW模型提取语义特征，语义特征包含概念特征和非概念词特征，对于概念特征提取概念、词和字符特征，对于非概念词特征就直接提取词特征和字符特征。

③其次将提取出来的新的特征集进行特征融合，特征融合也包括两个部分，基于概念的特征融合和基于非概念词的特征融合。并通过计算概念相似度来降低概念特征的维度。

④采用神经网络LSTM或GRU(Gated Recurrent Unit)模型时序记忆的特点来提取命名实体相关的上下文信息，并将新的特征集作为训练模型的输入。

本发明的原理是一种基于特征融合的命名实体识别方法，不仅采用了传统的词向量特征和字符向量特征，也考虑了词所包含的概念特征和字符位置特征，通过概念特征不仅可以降低词向量维度，也可以根据本体中所包含的概念在稀疏标记的语料库中，一定程度上达到预测新词的效果，最后通过神经网络LSTM或GRU来关注上下文信息，从而能很好的提高命名实体识别的准确率。

为达到以上发明目的，本发明采用如下的技术方案：

一种基于特征融合的命名实体识别方法，包括：数据预处理模块、特征构建模块、训练命名实体网络模型模块、命名实体分类器模块。其中，特征构建模块主要针对不同粒度的文本特征进行提取和融合，具体包含四个子模块分别是语义特征提取模块、词特征提取模块、字符特征提取模块、特征融合模块。

语义特征提取模块，语义特征包含两个部分，概念特征和非概念词特征，概念是指由多个包含语义的单独词汇组成的一个特殊的领域术语，例如，慢性阻塞性肺疾病；非概念词就是指一个单独的语义词汇，例如，困难。对于能够从领域本体里映射出概念的提取概念特征，不能提取概念的直接提取词特征，最后通过CBOW模型提取语义特征。

词特征提取模块，由于概念是由多个词组成的，例如：慢性肺源性心脏病，因此概念的含义是由其包含的词决定的。为了保持语义信息的完整性，本方法分为两个方面考虑，基于概念提取词特征和基于非概念词提取词特征，其中非概念词特征的提取方法和语义特征提取方法一样采用CBOW模型。

字符特征提取模块，字符是中文最小的语义单位，也包含一定的语义信息，词的意思是由其包含的字符决定的，并且，基于字符本身的语义信息还可以在一定程度上达到预测新词的效果，有助于实体类别的推断，例如：疼痛，疼的向量+痛的向量接近于痛苦一词的向量。同时，字符的位置信息也是非常关键的，相同字符不同位置可能使两个词的意思完全不同，因此为了提高实体识别的准确率，本方法不仅考虑字符特征也考虑字符位置特征。

特征融合模块，首先，将提取出来的概念特征、词特征和字符特征融合为一个新的特征集。其次，提出了一种新的融合方法，该方法主要考虑两种情况，对于能够在领域本体中提取出概念的词就融合概念、词和字符特征，对于不能从本体中提取出概念的词就直接提取词特征并与字符特征相融合。最后，通过领域本体对提取出的概念特征进行特征降维，从而能够在提高命名实体识别准确率的基础上降低计算量，并将融合后的特征作为模型的输入进行训练。

本发明提取了不同粒度的文本特征并提出一个新的特征融合方法，不仅能够充分的学习到文本中包含的语义信息，也可以解决领域术语的模糊性和由表达不一致性带来的巨大计算量。

附图说明

图1基于特征融合的命名实体识别方法整体架构图；

图2基于特征融合的命名实体识别方法流程图；

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例

本发明提取不同粒度的特征提取和特征融合的方法来识别命名实体，希望提高命名实体识别的准确率并降低计算量。整体架构如图1所示，分为数据预处理模块(1)、特征构建模块(2)、训练命名实体网络模型模块(3)和命名实体分类器模块(4)。具体方法流程图如图2所示。

数据预处理模块(1)：首先，在已标注的训练集中加入未标注的数据形成稀疏标记的语料库，并载入领域本体；其次，将所有稀疏标记的语料库根据特殊符号进行切分成较短的汉子字符串(包括标点符号、数字和空格符)并去除停用词。

特征构建模块(2)：该模块主要是从文本中提取不同粒度的特征并将提取出来的特征进行融合。更具体的可以分为语义特征提取、词特征提取、字符特征提取和特征融合。

语义特征提取模块(21)：将切分好的字符串L＝(L1…Ln)映射到本体O，采用最大匹配法找出字符串中包含的最大初始匹配语义的长度Lmax(如果最大初始匹配语义长度Lmax等于字符串长度Llen，那么Llen为一个语义)。然后从L中提取Lmax，并将Lmax的两边分为新的带切分字符串，将全部切分好的字符串定义为一个语义集{Y₁，...Y_N)∈D，其中包含概念集和非概念词集{G₁，...G_N}∪{F₁，...F_N}∈Y。然后通过CBOW模型提取语义特征，CBOW的训练目标是将如下平均对数概率的最大化，具体公式如下：

其中，K为数据集D中目标词的上下文信息，Y_i为数据集D中的语义。

在CBOW中，概率Pr(Y_i|Y_i-K，...，Y_i+K)是由如下公式算出的：

其中，y₀和y_i为目标语义Y_i输入和输出的向量表示，并且y₀为所有上下文的平均向量表示，W为语义词典。

词特征提取模块(22)：词特征分为两种情况考虑，基于概念的词特征提取和基于非概念词的特征提取。

基于概念词的特征提取：由于概念通常是由多个词组成的G＝{C₁，...C_N}，概念的含义是由其所包含的词决定的，因此本方法将在概念特征的基础上提取词特征。具体公式如下

其中，g_i为概念G_i的概念向量，c_j为g_n中第j个词向量，g_n为概念G_i所包含的词的个数，Q_i由概念向量和其平均词向量相加得出，+为向量相加运算，根据以往实验经验所得相加的计算方法相比结合方法在不损失精度的情况下更加运算简单，快速，因此在以下方法中都采用向量相加的方式来计算。

基于非概念词的特征特征提取将采用语义特征提取模块(21)中的CBOW模型。

字符特征提取模块(23)：字符特征同样分为两种情况考虑，基于概念词的字符特征提和基于非概念词的字符特征提取。

基于概念词的字符特征提取：在已提取的概念和词特征P_i的基础上提取字符特征，具体公式如下：

其中，z_k为c_n中第k个字符向量，c_n为概念词C_i所包含的字符个数，+为向量相加运算，Q_i由概念向量、其平均词向量和其平均字符向量相加得出。基于非概念词特征提取字符特征公式如下：

其中，w_i为非概念词F_i的词向量表示，f_n为非概念词F_i所包含的字符个数，d_m为f_n中第m个字符向量，+为向量相加运算，由非概念词向量和其平均字符向量相加得出。

由于中文中词的含义通常取决于字符所在的位置，字符所在位置不同表达的含义也不一样，因此提取字符的位置特征可以更准确的推断词语的语义信息。对于每一个字符我们用B(开始)、I(中间)、E(结束)来表示，公式可以表达为：

对于非概念特征词提取其字符的位置特征也采用同样的表达方式。

特征融合(24)：基于特征提取工作，特征融合部分也同样分为两种情况考虑，基于概念的特征融合方法和基于非概念词的特征融合方法。本方法将提取出的新的特征集通过向量相加运算进行融合，主要考虑的是在基于部分领域本体的命名实体识别任务中概念特征和字词特征一样是非常重要的，它可以在稀疏标记的语料库中直接提取部分为标注的命名实体，从而减少计算量。

基于概念的特征融合方法：我们将提取的概念特征、词特征、字符特征以及字符位置特征进行融合，公式如下：

基于非概念词的特征融合方法：我们将提取的词特征、字符特征以及字符位置特征进行融合，公式如下：

其中,f_n为词F_i所包含的字符个数，为词F_i中的第一个字符，为词F_i的中间字符特征,词F_i中的最后一个字符特征。

针对中文的领域术语通常具有表达不一致性的特点，尤其是在医疗领域，同一概念的医疗术语会有多种表达方法，例如：慢性阻塞性肺疾病也可以表达为COPD。随着数据的增多会带来巨大的计算量，基于此问题，因此我们采用基于本体计算概念特征相似度的方法来降低概念向量的维度，公式如下：

其中，o_i为本体中的一个概念特征，g_i和g_m为数据集D中识别出的概念特征，R()为g_i和g_m的关系，maxsimilarity()为余弦相似度，α为相似度阈值，根据以往的实验，相似度阈值设的过小容易错判，过大容易漏判，因此通常相似度阈值是在0.87-0.93之间，推荐的初始阈值设为0.9，采用梯度下降的方法来计算误差，就是使误差函数平滑连续的计算梯度下降的斜率，越接近最小值梯度越小，可以通过调节步长来降低超调风险，在实验过程中可以将步长设为0.01，阈值范围设在0.87和0.93之间进行调整直到梯度的斜率达到最小值就是相似度的最优阈值。

更具体的来说，就是将概念特征映射到领域本体O，如果有两个概念g_i和g_m接近于本体概念o_i，就通过余弦相似度来计算g_i和g_m到本体概念o_i的相似度距离，如果小于相似度阈值α，那么g_i和g_m分别为本体中的一个独立概念，如果大于相似度阈值α，那么就可以认为g_i和g_m为同一个概念，并可以将g_i替换为g_m或将g_m替换为g_i。从而降低概念特征的维度，减少计算量。

训练命名实体网络模型模块(3)：将融合后的特征作为模型的输入进行训练，由于命名实体识别也称为序列标注任务，因此上下文信息非常重要，训练模型将采用具有时序记忆功能的神经网络LSTM或GRU模型。LSTM的具体公式如下：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

其中i_t、f_t、o_t代表时间节点t的输入、遗忘、输出门，σ代表非线性函数，每一个控制门的参数都由两个矩阵和一个偏差向量组成，因此，三个控制门的矩阵参数为W_i,U_i,W_f,U_f,W_o,U_o，偏差参数为b_i,b_f,b_o。LSTM的记忆单元参数分别为W_c,U_c和b_c。这些参数在训练和储存时的每一步都进行更新。

命名实体分类器模块(4)：根据神经网络LSTM或GRU模型softmax分类器来产生最后的实体标签分类结果。

Claims

1.一种基于特征融合的命名实体识别方法，其特征包括以下四个模块：数据预处理模块(1)、特征构建模块(2)、训练命名实体网络模型模块(3)、命名实体分类器模块(4)；

(1)数据预处理模块

在已标注的训练集中加入未标注的数据形成稀疏标记的语料库，并载入领域本体；根据标点符号、数字和空格符将待处理的文本切分成汉字字符串，并去除停用词；

(2)特征构建模块

该模块分为特征提取和特征融合，具体分为四个子模块：语义特征提取、词特征提取、字符特征提取和特征融合；

(3)训练命名实体网络模型模块

将融合后的特征作为模型的输入进行训练，由于命名实体识别也称为序列标注任务，需要提取上下文信息辅助推断实体类别，因此训练模型将采用具有时序记忆功能的神经网络模型LSTM或GRU；

(4)命名实体分类器模块

根据神经网络LSTM或GRU模型的softmax分类器来产生最后的实体标签分类结果。

2.根据权利要求1所述的一种基于特征融合的命名实体识别方法，其特征在于步骤(2)，具体如下：

语义特征提取(21)：语义特征包含两个部分：概念特征和非概念词特征；其中，概念是指由多个包含语义的单独词汇组成的一个特殊的领域术语；非概念词就是指一个单独的语义词汇；对于能够从领域本体里映射出概念的提取概念特征，不能提取概念的直接提取词特征；

首先将预处理后的语料映射到领域本体，通过最大匹配法将数据切分为语义集{Y₁，...Y_N}∈D，其中包含概念集和非概念词集{G₁，...G_N}∪{F₁，...F_N}∈Y；其次采用CBOW模型来提取语义特征，CBOW的训练目标是将如下平均对数概率的最大化，公式为：

其中，K为数据集D中目标词的上下文信息，Y_i为数据集D中的语义；

在CBOW中，概率Pr(Y_i|Y_i-K，...，Y_i+K)是由如下公式算出的：

其中，y₀和y_i为目标语义Y_i输入和输出的向量表示，并且y₀为所有上下文的平均向量表示，T是转秩，W为语义词典；

词特征提取(22)：词特征提取分为两种情况，基于概念的词特征提取和基于非概念的词特征提取；

基于概念的词特征提取是在概念特征的基础上提取词特征，由于一个概念是由多个词组成的G＝{C₁，...C_N}，因此概念的含义是由所包含的词决定的；基于概念的词特征提取的公式表示为：

其中，g_i为概念G_i的概念向量，c_j为g_n中第j个词向量，g_n为概念G_i所包含的词的个数，Q_i由概念向量和其平均词向量相加得出，+为向量相加运算；

非概念的词特征提取方法将采用语义特征提取模块(21)的CBOW模型来直接提取词特征；

字符特征提取(23)：在概念词的基础上和在非概念词的基础上提取字符特征；基于概念中的词提取字符特征公式如下：

其中，z_k为c _n中第k个字符向量，c _n为概念词C_i所包含的字符个数，+为向量相加运算，Q_i由概念向量、其平均词向量和其平均字符向量相加得出；基于非概念词特征提取字符特征公式如下：

其中，w _i为非概念词F_i的词向量表示，f_n为非概念词F_i所包含的字符个数，d_m为f_n中第m个字符向量，+为向量相加运算，由非概念词向量和其平均字符向量相加得出；

在中文中，字符所在位置不同表达的含义也不一样，因此提取字符的位置特征也辅助推断词语的语义信息；对于每一个字符我们用B(开始)、I(中间)、E(结束)来表示，公式表达为：

其中，c_n为词C_i所包含的字符个数，为词C_i中的第一个字符特征，为词C_i的中间字符特征，为词C_i中的最后一个字符特征；

对于非概念特征词提取其字符的位置特征也采用同样的表达方式；

特征融合(24)：根据上述内容，特征融合同样分为两种情况，概念特征融合和非概念词特征融合；主要考虑的是在基于部分领域本体的命名实体识别任务中概念特征和字词特征一样，它在稀疏标记的语料库中直接提取部分未标注的命名实体，从而减少计算量；

概念特征融合：将提取出的概念特征、词特征和字符特以及字符的位置特征进行融合，概念特征融合的公式表达为：

非概念词特征融合：将提取出的词特征、字符特征和字符的位置特征相融合，非概念词特征融合的公式表达为：

其中,f_n为词F_i所包含的字符个数，为词F_i中的第一个字符，为词F_i的中间字符特征,词F_i中的最后一个字符特征；

采用计算本体概念特征相似度的方法来降低概念向量的维度，公式如下：

其中，o_i为本体中的一个概念特征，g_i和g_m为数据集D中识别出的概念特征，R()为g_i和g_m的关系，maxsimilarity()为余弦相似度，α为相似度阈值，初始阈值设为0.9，采用梯度下降的方法来计算误差，就是使误差函数平滑连续的计算梯度下降的斜率，越接近最小值梯度越小，直到梯度的斜率达到最小值就是相似度的最优阈值。