CN113190656A

CN113190656A - 一种基于多标注框架与融合特征的中文命名实体抽取方法

Info

Publication number: CN113190656A
Application number: CN202110511025.8A
Authority: CN
Inventors: 麦丞程; 刘健; 黄宜华
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-07-30
Anticipated expiration: 2041-05-11
Also published as: CN113190656B

Abstract

本发明公开了一种基于多标注框架与融合特征的中文命名实体抽取方法，该首先基于预训练语言模型对汉字进行编码。然后，通过词典匹配为每个汉字引入词信息与分词标记信息，构建词典特征。在此基础上，根据汉字在匹配词中的含义，使用汉语拼音软件对汉字进行注音，构建拼音特征。接着，基于点乘注意力机制融合词典特征与拼音特征到汉字编码中，得到结合词典特征与拼音特征的汉字语义编码，提升对于中文命名实体边界的识别能力。最后，结合序列标注与指标标注的优点，利用多任务学习模型联合学习两种标注任务，提高中文命名实体抽取的准确率。

Description

一种基于多标注框架与融合特征的中文命名实体抽取方法

技术领域

本发明属于人工智能和自然语言处理领域，具体涉及一种基于多标注框架与融合特征的中文命名实体抽取方法。

背景技术

随着互联网技术的飞速发展，各行业数据信息在爆发式增长，推动了行业大数据智能化分析挖掘服务与创新应用的发展，进一步推动着我国数字经济的发展。这些数据信息中包含大量的非结构化文本，从这些非结构化文本中抽取出结构化的有效信息成为了工业界关注的重点，而其中就涉及到自然语言处理领域中一个基础任务：命名实体抽取。

早期命名实体识别的研究工作主要是基于词典与规则的方法，这些方法主要依靠语言学家和领域专家依据数据集特征手工构造领域词典和规则模板。这种基于规则的方法的优点在于，可以根据需求不断地更新迭代规则来抽取目标实体。但是其缺点在于，面对一些复杂的领域和应用场景，人工建立规则的代价较大，并且随着规则库的扩大，容易产生规则冲突问题，使得已有的规则库难以维护与扩展，无法适应数据与领域的变化。

随后，基于统计机器学习的命名实体识别研究得到关注。命名实体识别在统计机器学习方法中被定义为序列标注问题。应用于NER的统计机器学习方法主要有最大熵模型、隐马尔可夫模型、最大熵马尔可夫模型、条件随机场等。这种方法依赖于人工构建的特征，过程比较繁琐。

近几年随着深度学习的不断发展，命名实体识别领域出现了越来越多的基于深度神经网络(Deep Neural Network，DNN)的工作。基于DNN的命名实体识别方法无需繁琐的特征工程，并且模型效果远超传统的规则以及统计机器学习方法。

中文命名实体识别相较于英文的更难，因为中文缺少英文文本中空格符这样的分隔符，也没有明显的词形变化特征，容易造成边界歧义。除此之外，中文还存在一词多义的现象，在不同领域或者不同上下文中，同一个词表现为不同的含义，需要充分利用上下文信息对词义进行理解。同时，中文还存在省略、简写等语言学特点，这些都给中文命名实体识别带来了更大的挑战。现有很多中文命名实体抽取方法缺乏对词信息的利用，并且标注框架单一、局限性较大，影响中文命名实体抽取的精度。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提出一种基于多标注框架与融合特征的中文命名实体抽取方法，以解决现有的中文命名实体抽取方法因标注框架单一，导致局限于单标注框架的问题，以及缺乏对词信息的利用，导致难以识别实体边界的问题。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种基于多标注框架与融合特征的中文命名实体抽取方法，包括以下步骤：

(1)对输入汉字序列中的每个汉字在外部词典中进行词匹配，利用词向量查询表将词映射成词向量，利用分词标记向量查询表将汉字在词中的分词标记映射成分词标记向量，所述分词标记向量与词向量拼接构成词典特征；

(2)根据汉字在匹配词中的含义对汉字注上拼音，通过拼音向量查询表对所述拼音映射得到拼音特征；

(3)基于点乘注意力机制将所述词典特征与拼音特征融合到中文预训练语言模型BERT得到的汉字编码中，为后续提供结合词典特征与拼音特征的汉字语义编码；

(4)将所述汉字语义编码分别输入到两个独立的双向长短期记忆网络模型中进行特征序列建模，分别输出得到第一特征序列编码

与第二特征序列编码

(5)序列标注作为辅助任务，指针标注作为主任务，将所述第一特征序列编码

作为序列标注辅助任务的输入，所述第二特征序列编码

作为指针标注主任务的输入，利用多任务学习模型对序列标注辅助任务与指针标注主任务进行联合学习；

(6)计算序列标注辅助任务在条件随机场中的对数似然损失

指针标注主任务中实体片段头汉字的实体类型分类交叉熵损失

以及指针标注主任务中实体片段尾汉字的实体类型分类交叉熵损失

对所述

加权求和得到模型需要最小化的训练目标，进行端到端联合训练，而测试阶段通过指针标注主任务抽取出句子中的实体片段及其类型。

进一步地，所述步骤(1)中，外部词典与词向量查询表来源于互联网上公开的预训练词向量，分词标记向量查询表由one-hot向量构成。

进一步地，所述步骤(2)中，拼音向量查询表通过word2vec基于外部中文语料集训练得到，使用汉语拼音软件将外部中文语料集中的文本转换成拼音。

进一步地，所述步骤(5)中，序列标注辅助任务使用不带实体类型的BMOES对输入句子中的实体进行标记，负责中文命名实体片段抽取，抽取出的实体片段不带类型；指针标注主任务只对句子中实体片段的头、尾汉字进行实体类型标记，负责中文命名实体抽取，抽取出的实体带有类型。

进一步地，所述步骤(6)中，测试阶段取每个汉字实体类型预测概率分布的最大值对应的标签作为该汉字的预测标签，然后匹配与实体片段头汉字实体类型相同且位置距离最近的实体片段尾汉字，将所述实体片段头汉字与实体片段尾汉字之间的文本片段抽取出来作为实体。

有益效果：本发明能够有效解决难以识别中文命名实体边界的问题，充分发挥不同标注框架的优点，提高了中文命名实体抽取的准确率。第一，本发明通过构建词典与拼音特征，增强模型对实体边界的识别，并且通过中文预训练语言模型BERT对汉字进行编码，为上层模型提供上下文语义支撑；第二，利用双向长短期记忆网络模型的递归结构进行特征序列建模，学习序列位置信息，缓解因预训练语言模型BERT缺少序列依赖式的建模而导致序列位置信息容易丢失的问题；第三，通过多任务学习模型对序列标注与指针标注进行联合学习，结合不同标注框架的优点，突破单标注框架的局限性，进一步提升中文命名实体抽取的准确率。

附图说明

图1为本发明方法的整体框架图；

图2为本发明方法中词典与拼音特征构建的示例图；

图3为本发明方法中序列标注示例图；

图4为本发明方法中指针标注示例图；

图5(a)(b)分别为本发明方法中词典匹配窗口大小在Ontonotes4数据集和MSRA数据集上对准确性影响的实验结果图；

图6(a)(b)分别为本发明方法中词典匹配窗口大小在Resume数据集和Weibo数据集上对准确性影响的实验结果图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提出了一种基于多标注框架与融合特征的中文命名实体抽取方法，解决了现有中文命名实体抽取方法难以识别实体边界以及局限于单一标注框架的问题。如图1所示，本发明的完整流程包括词典特征构建阶段、拼音特征构建阶段、词典与拼音特征融合阶段、特征序列建模阶段、多标注框架的联合学习阶段、输出层建模阶段6个部分。具体的实施方式说明如下：

词典特征构建阶段对应技术方案步骤(1)。具体实施方式为：对于任意给定的输入汉字序列

其中

表示汉字表，n表示序列长，c_i(1≤i≤n)表示长度为1的汉字。对于序列X中任意汉字c_i，为了引入与汉字c_i上下文相关的词，需要引入一个外部词典L_x，通过设置一个词汇匹配窗口l_w，将句子中所有包含汉字c_i且长度小于等于l_w的文本片段与词典L_x中的词进行匹配。如果出现在词典L_x中，则该文本片段就被当作是与该汉字c_i上下文相关的候选词。由于句子中可能会有多个包含汉字c_i的文本片段出现在词典中，最终会得到汉字c_i的一个候选匹配词集合ws(c_i)＝{w₁,w₂,…,w_m}，w_j(1≤j≤m)表示匹配词。

得到候选匹配词集合ws(c_i)后，还需进一步筛选，对于候选匹配词集合中任意一个词，如果该词是候选匹配词集合中另一个词的子串，则将该词从候选匹配词集合中过滤除去。这么做的原因为：1)一个完整的词通常更符合汉字的上下文中信息，比如“南京市长江大桥”中的“长江大桥”相比“长江”就更适合作为“长”的候选词；2)减少在基于注意力机制融合词典与拼音特征过程中的干扰，使得注意力更有可能从候选词列表中选出最符合该汉字上下文信息的词。

通过词向量查询表(lookup table)^w将筛选后的匹配词集合ws(c_i)中的词映射成词向量得到匹配词特征编码WE(c_i)：

WE(c_i)＝e^w(ws(c_i))

其中，e^w来源于已经训练好的预训练词向量，在训练过程中保持不变。接着，对汉字在匹配词中的位置进行分词标记。假设B表示汉字c_i在词首，M表示汉字c_i在词中间，E表示汉字c_i在词尾。汉字c_i匹配不同的词对应着序列不同的分词结果，因此有必要将汉字c_i在匹配词中的分词标记也融入到词典特征中，进一步突出不同匹配词之间的差异性。对汉字c_i的候选匹配词集合ws(c_i)中的任意词w_j，令seg(w_j)∈{B,M,E}表示汉字c_i在w_j中的分词标记。若START(w_j)表示w_j在序列X中的开始位置索引，END(w_j)表示w_j在序列X中的结束位置索引，seg(w_j)的计算公式定义如下：

对于汉字c_i的候选匹配词集合ws(c_i)中所有词汇应用上式可得segs(c_i)：

其中，segs(c_i)表示c_i在其所有匹配词中的分词标记构成的集合，通过分词标记向量查询表e^seg将segs(c_i)中分词标记映射成one-hot向量分词标记编码SEGE(c_i)：

SEGE(c_i)＝e^seg(segs(c_i))

one-hot向量的每一维分别对应到集合{B,,}中的每一位元素上。其中，[1,0,0]对应B，[0,1,0]对应M，[0,0,1]对应E。

将汉字c_i在匹配词中分词标记编码SEGE(c_i)与匹配词特征编码WE(c_i)在编码维度上进行拼接得到汉字c_i最终的词典特征编码LE(c_i)：

LE(c_i)＝[SEGE(c_i)；WE(c_i)]

拼音特征构建阶段对应技术方案步骤(2)。具体实施方式为：包括轻声在内，拼音一共有5种音调，例如“chang”、“chāng”、“cháng”、“chǎng”、“chàng”。假如要从“南京市长江大桥”这个句子中抽取实体，当句中的“长”发“cháng”这个音时，句子被断句为“南京市|长江大桥”，此时“长江大桥”作为地名实体被抽取出来；当句中的“长”读音为“zhǎng”时，句子被断句为“南京市长|江大桥”，此时“江大桥”作为人名实体被抽取出来。说明汉字在句中的拼音特征存在影响实体抽取准确率的情况。

对输入汉字序列X中任意汉字c_i，得到其候选词集合ws(c_i)后，利用汉语拼音软件(例如pypinyin)，根据汉字c_i在匹配词中的含义对c_i注上拼音，得到与候选匹配词集合ws(c_i)对应的拼音集合pys(c_i)。然后，通过拼音向量查询表e^py将pys(c_i)中的拼音映射成拼音向量得到拼音特征编码PYE(c_i)：

PYE(c_i)＝e^py(pys(c_i))

其中，拼音向量查询表e^py是利用汉语拼音软件将外部中文语料集(例如，中文***语料集)转换成拼音，然后，基于Word2Vec的Skip-gram方法训练得到。由于外部中文语料集中可能包含数字、英语或其它没有拼音的符号，在进行词向量训练之前的数据预处理阶段，本发明将英文转换成“[ENG]”，数字转换成“[DIGIT]”，其它没有拼音的字符统一转换成“[UNK]”。

词典与拼音特征构建的示例图如图2所示。图中给出了“市”和“长”的匹配结果，其中w_i,j表示序列片段{c_i,c_i+1,…,c_j}构成的词。可以看出“长江”没有被包含在“长”的匹配结果中，因为“长江”是“长江大桥”的子串而被过滤。

词典与拼音特征融合阶段对应技术方案步骤(3)。具体实施方式为：为了避免一些垂直领域的实体抽取标注数据集规模较小而导致模型训练过拟合，本发明利用中文预训练语言模型BERT提供语义支撑，提升模型泛化性能。将输入序列X＝{c₁,c₂,…,c_n}输入到中文预训练语言模型BERT中，取BERT最后一层输出作为序列编码X_h＝[x₁,x₂,…,x_n]，其中

d_x表示BERT编码维度，R表示实数，

表明x_i是维度为d_x的实数列向量，

表明X_h是维度为d_x×n的实数矩阵。将上述构建得到的汉字c_i的词典特征与拼音特征在编码维度上进行拼接得到融合特征LPE(c_i)：

LPE(c_i)＝[LE(c_i)；PYE(c_i)]

假设词向量查询表e^w的编码维度为d_w，拼音向量查询表e^py编码维度为d_py，汉字c_i的候选匹配词集合ws(c_i)大小为m，则

基于点乘注意力机制将LPE(c_i)融合到汉字编码x_i中，x_i相当于注意力机制中query，而LPE(c_i)则相当于注意力机制中key与value。首先，将LPE(c_i)线性映射到与x_i编码维度一致的LPE_ikv：

其中，训练参数

而映射后的融合特征

假设unsqueeze(M,y)表示扩张矩阵M的第y维，squeeze(M,y)表示压缩矩阵M的第y维，则unsqueeze(x_i,0)可将x_i从

转换为

然后，计算注意力权重LPE_iw：

LPE_iw＝softmax(unsqueeze(x_i,0)·PE_ikv)

其中，注意力权重LPE_iw∈R^1×m，softmax之后的权重和为1。接着，利用注意力权重LPE_iw对LPE_ikv加权求和计算注意力输出LPE_io：

其中，注意力输出

最后，将LPE_io与汉字编码x_i相加作为汉字c_i最终的语义编码，表示为：

x_i＝LPE_io+x_i

特征序列建模阶段对应技术方案步骤(4)。具体实施方式为：针对Transfomer的自注意力机制无法捕捉序列位置信息的问题，预训练语言模型BERT将可训练的绝对位置编码融入到输入中来缓解该问题，但依然缺少序列依赖式的建模。长短期记忆网络模型(LongShort-Term Memory，LSTM)不需要位置编码，LSTM按序列顺序递归编码的结构就具备学习到序列位置信息的能力。将上一步融合词典与拼音特征后的汉字语义序列编码

分别输入到两个双向长短期记忆网络模型(BidirectionalLong Short-Term Memory，BiLSTM)中进行特征序列建模，其中，一个BiLSTM输出用于第(5)步中基于序列标注的中文命名实体片段抽取辅助任务，另一个BiLSTM输出用于第(5)步中基于指针标注的中文命名实体抽取主任务。BiLSTM由前向和后向LSTM构成，两个任务的BiLSTM是独立不共享训练参数的。

假设在时间步t，基于序列标注的中文命名实体片段抽取辅助任务的前向LSTM隐状态输出为

后向LSTM隐状态输出为

将

与

相加得到辅助任务在时间步t的BiLSTM隐状态输出

基于指针标注的中文命名实体抽取主任务的前向LSTM隐状态输出为

后向LSTM隐状态输出为

将

与

相加得到主任务在时间步t的BiLSTM隐状态输出

最终，序列标注辅助任务的特征序列建模输出为

指针标注主任务的特征序列建模输出为

d_h表示LSTM编码维度。

多标注框架的联合学习阶段对应技术方案步骤(5)。具体实施方式为：序列标注与指针标注是应用于命名实体抽取的两种常见标注框架。序列标注对文本序列中每个汉字在实体中的位置进行标记，如图3所示是用BMOES对文本序列进行标记的示例图，其中，B表示汉字在命名实体片段的开始，M表示汉字在命名实体片段的中间，O表示汉字在命名实体片段之外，E表示汉字在命名实体片段的结尾，S表示汉字本身就是命名实体片段。例句中包含“南京市”和“长江大桥”两个实体。指针标注对文本序列中每个实体片段的头汉字和尾汉字所属实体类型进行标记，如图4所示，其中，“南京市”和“长江大桥”都是地点类(Loc)实体。

序列标注通过对全序列依赖建模，抽取出的实体完整性更好，通常查准率更高；指针标注通过对实体片段头、尾汉字实体类型分类，抗噪声干扰性与鲁棒性更好，通常查全率更高。为了结合不同标注框架的优点，将所述

作为序列标注辅助任务的输入，

作为指针标注主任务的输入，利用多任务学习模型，例如，多门混合专家(Multi-gate Mixture-of-Experts，MMOE)模型、渐进层次抽取(Progressive Layered Extraction，PLE)模型等，对基于序列标注中文命名实体片段抽取辅助任务与基于指针标注的中文命名实体抽取主任务进行联合学习，得到序列标注辅助任务输出

与指针标注主任务输出

输出层序列建模阶段对应技术方案步骤(6)。具体实施方式为：对上一步得到的X_a与X_b加一层Dropout防止模型过拟合。然后，将Dropout后的X_a输入到条件随机场(Conditional Random Field，CRF)中，计算基于序列标注的中文命名实体片段抽取辅助任务对BMOES标签索引序列y∈Zⁿ的似然概率p(y|X)：

其中，

表示在该任务下X所有可能的BMOES标签索引序列构成的集合，y′∈Zⁿ是

中任一BMOES标签索引序列。训练参数

b_CRF∈R^5×5(BMOES序列标记法的标签数为5)，

表示W_CRF中对应标签y_t的训练参数，

表示b_CRF中对应标签y_t-1转移到标签y_t的训练参数，

同理。假设序列标注辅助任务的真实BMOES标签索引序列为y_span∈Zⁿ，Z表示整数，代入到上式中用于计算序列标注辅助任务的对数似然损失

接着，将Dropout后的X_b线性映射到基于指针标注的中文命名实体抽取主任务的标签空间，然后加一层softmax计算每个汉字在各个标签上的概率分布p_start与p_end：

其中，训练参数

c_e+1是实体类型数c_e与非实体类型的和，

是实体片段头汉字实体类型的预测概率分布，

是实体片段尾汉字实体类型的预测概率分布。假设实体片段头汉字的真实实体类型标签索引序列为y_start∈Zⁿ，实体片段尾汉字的真实实体类型标签索引序列为y_end∈Zⁿ，计算指针标注主任务的交叉熵(Cross Entropy，CE)损失

与

其中，

表示第i个汉字的真实实体类型标签索引，

表示p_start中对应第i个汉字预测为第

种实体类型的概率值，

同理。

最后，得到序列标注辅助任务损失

与指针标注主任务损失

后，将3个loss融合成模型需要最小化的整体训练目标

进行端到端联合训练：

其中，λ₁、λ₂、λ₃是控制各任务对整体训练目标影响的超参数。在测试阶段，取p_start与p_end中每个汉字标签预测概率分布的最大值对应的索引

与

作为标签预测索引：

然后，将实体类型相同且位置距离最近的实体片段头、尾汉字进行配对，抽取出序列中的实体。

本发明提出了一种基于多标注框架与融合特征的中文命名实体抽取方法。为了测试该方法的有效性，分别在Ontonotes4、MSRA、Resume、Weibo数据集上，从查准率(P)、查全率(R)、F1指标三个方面评估了方法，并和其它中文命名实体抽取方法进行了对比。

模型优化器使用自适应矩估计(Adaptive momentum estimation，Adam)，BERT训练参数的学习率设置为3e-5，其它模型参数学习率设置为1e-3，BERT编码维度d_x＝768，多任务学习模型使用渐进层次抽取模型PLE，PLE中各任务独立Experts和共享Experts的Expert个数统一设置为2，Expert设置为单层全连接网络，PLE层数设置为2，LSTM层数设置为1，LSTM编码维度d_h＝768，词向量编码维度d_w＝50，拼音向量编码维度d_py＝50，损失权重

表1显示了不同中文命名实体抽取方法在Ontonotes4数据集上的准确率对比结果；表2显示了不同中文命名实体抽取方法在MSRA数据集上的准确率对比结果；表3显示了不同中文命名实体抽取方法在Resume数据集上的准确率对比结果；表4显示了不同中文命名实体抽取方法在Weibo数据集上的准确率对比结果。从上述表中的实验结果可以看出，本发明提出的中文命名实体抽取方法相比其它的中文命名实体抽取方法，在绝大多数数据集以及指标项上都取得了最好的中文命名实体抽取准确率表现。图5(a)(b)显示了本发明方法中词典匹配窗口大小在Ontonotes4和MSRA数据集上对准确率影响实验结果，图6(a)(b)显示了本发明方法中词典匹配窗口大小在Resume和Weibo数据集上对准确率影响实验结果，通过评估分析方法中词典匹配窗口大小的选择对中文命名实体抽取准确率的影响，为后续不同应用场景下词典匹配窗口大小的选择提供指导性建议。

表1 Ontonotes4数据集上不同实体抽取方法的准确率对比

表2 MSRA数据集上不同实体抽取方法的准确率对比

表3 Resume数据集上不同实体抽取方法的准确率对比

表4 Weibo数据集上不同实体抽取方法的准确率对比

Claims

1.一种基于多标注框架与融合特征的中文命名实体抽取方法，包括以下步骤：

与第二特征序列编码

作为序列标注辅助任务的输入，所述第二特征序列编码

(6)计算序列标注辅助任务在条件随机场中的对数似然损失

对所述

2.根据权利要求1所述的一种基于多标注框架与融合特征的中文命名实体抽取方法，其特征在于，所述步骤(1)中，外部词典与词向量查询表来源于互联网上公开的预训练词向量，分词标记向量查询表由one-hot向量构成。

3.根据权利要求1所述的一种基于多标注框架与融合特征的中文命名实体抽取方法，其特征在于，所述步骤(2)中，拼音向量查询表通过word2vec基于外部中文语料集训练得到，使用汉语拼音软件将外部中文语料集中的文本转换成拼音。

4.根据权利要求1所述的一种基于多标注框架与融合特征的中文命名实体抽取方法，其特征在于，所述步骤(5)中，序列标注辅助任务使用不带实体类型的BMOES对输入句子中的实体进行标记，负责中文命名实体片段抽取，抽取出的实体片段不带类型；指针标注主任务只对句子中实体片段的头、尾汉字进行实体类型标记，负责中文命名实体抽取，抽取出的实体带有类型。

5.根据权利要求1所述的一种基于多标注框架与融合特征的中文命名实体抽取方法，其特征在于，所述步骤(6)中，测试阶段取每个汉字实体类型预测概率分布的最大值对应的标签作为该汉字的预测标签，然后匹配与实体片段头汉字实体类型相同且位置距离最近的实体片段尾汉字，将所述实体片段头汉字与实体片段尾汉字之间的文本片段抽取出来作为实体。