CN112633012A

CN112633012A - 一种基于实体类型匹配的未登录词替换方法

Info

Publication number: CN112633012A
Application number: CN202011643432.6A
Authority: CN
Inventors: 谢健; 孙霖; 苏银都; 蔡琳
Original assignee: Hangzhou City University
Current assignee: Hangzhou City University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-09
Anticipated expiration: 2040-12-31
Also published as: CN112633012B

Abstract

本发明涉及一种基于实体类型匹配的未登录词替换方法，包括步骤：步骤1、数据准备和评价指标指定:指定数据集、训练集、验证集和测试集，并进行人工标注；步骤2、ETC语义空间模型训练：将基于实体类型匹配训练的语义空间称为ETC语义空间，训练ETC语义空间模型；步骤3、在构建的ETC语义空间上进行未登录词替换；步骤4、命名实体识别。本发明的有益效果是：仅对测试文本进行替换，而不针对预测模型做任何改动，因而ETC语义空间模型具有较好的通用性和较短的训练时间；不仅提高了现有模型在社交媒体文本上的命名实体识别性能，而且在几种诸如斯坦福NLP的传统命名实体识别工具上具有通用性。

Description

一种基于实体类型匹配的未登录词替换方法

技术领域

本发明属于社交媒体命名识别领域技术领域，具体涉及一种基于单词语义上下文构建实体类型匹配(Entity Type Compatible，简称ETC)空间的方法，并使用最近邻搜索从构建的ETC空间中找出匹配的登录词针对未登录词进行替换。

背景技术

社交媒体(如Twitter)因其简单性、可访问性和及时性而日益成为重要的信息源。社交媒体文本中新兴实体的提取对于后续任务至关重要，如事件检测、关系提取和知识提取。但是，传统的命名实体识别聚焦于新闻、文学作品等规范文本，在诸如社交媒体文本的非规范文本上表现不佳。主要原因有两点：1、因为社交媒体的时效性，文本中包含大量新兴和独特实体，其出现频率不高，故而在训练集中缺乏标注数。2、社交媒体文本由用户生成，带有极强的个人特征，文本中包含大量的非标准拼写、缩写、拼接词。这两大原因直接造成了大量的未登录在规范词典中的单词产生，使得模型无法通过单词本身获取到正确的信息，造成预测错误，传统方法因此难以泛化到社交媒体文本上。为解决这一问题，研究人员分别在命名实体识别(NER)和文本标准化两个方面展开了探索。命名实体识别方面，Enhancing named entity recognition in twitter messages using entity linking，Yamada等人，in Proceedings of the Workshop on Noisy Usergenerated Text，使用了端到端的实体链接对文本中的实体进行探测并解析知识库中的相应条目。Modelingnoisiness to recognize named entities using multitask neural networks onsocial media，Aguilar等人，in NAACL，提出将命名实体分割和细粒度命名实体两项任务结合起来，进行联合训练。然而，因为未登录词自身的限制，针对命名实体识别方面的研究并不能解决问题，达到的提升十分有限。文本标准化方面，传统方法中，常常通过名为ED的方法即计算两个单词之间的最小单字编辑次数的编辑距离来纠正错误的单词，但其在社交媒体文本的标准化上效果却并不明显。Ncsu-sas-ning:Candidate generation andfeature engineering for supervised lexical normalization，Ning Jin，inProceedings of the Workshop on Noisy User-generated Text，在静态的映射字典上进行模型的训练，映射字典中包含如“ur”->“you are”的映射关系，然后通过句子相似度来规范化单词。Ncsu sas wookhee:A deep contextual long-short termmemory model fortext normalization，Min和Mott，in Proceedings of the Workshop on NoisyUsergenerated Text，提出基于词典的标准化方法，同时采用基于长短期记忆(LSTM)的模型来判断单词是否需要被标准化。然而，这些方法都是基于单词本身的形态进行单词标准化，没有考虑到单词上下文的语境和单词自身含义，因而在社交媒体命名实体识别的效果也并不理想，无法解决诸如“CNNPolitics”这类合成的未登录词。

发明内容

本发明的目的在于克服上述不足，提供一种基于实体类型匹配的未登录词替换方法。

这种基于实体类型匹配的未登录词替换方法，包括以下步骤：

步骤1、数据准备和评价指标指定:指定数据集、训练集、验证集和测试集，并进行人工标注；采用F1 entity和F1 surface作为评价指标进行性能评价，其中F1 entity为标准的F1分数，作为分类标准评价指标；F1 surface分数作为ETC语义空间模型针对不同实体的识别能力评价指标；

步骤2、ETC语义空间模型训练：将基于实体类型匹配训练的语义空间称为ETC语义空间，如图2所示，训练ETC语义空间模型；

步骤2.1、生成上下文词向量；

步骤2.2、生成训练集:对单词进行词性标注，然后对干扰词性进行统一过滤处理，整合处理后的单词，生成ETC语义空间的训练集；

步骤2.3、使用深度度量学习，借助多层感知机进行ETC语义空间的构建；

步骤3、在构建的ETC语义空间上进行未登录词替换：

步骤3.1、未登录词ETC语义空间映射:采用特征提取器(BERT预训练模型)提取未登录词的上下文语义特征，然后通过多层感知机网络映射到训练的ETC语义空间当中；

步骤3.2、替换:采用最近邻搜索为未登录词匹配空间距离最接近的替换词，遍历训练集为未登录词寻找一个语义表示距离最近的合适替代词；将在ETC语义空间中与未登录词最接近的ETC替换词定义如下：

上式中，G代表在训练集当中的候选词集合，e_w表示在训练阶段通过特征提取器预先得到的候选词特征，e_oov则表示未登录词的特征；

得到与未登录词最接近的ETC替换词后，对文本当中的未登录词进行替换；

步骤4、命名实体识别。

作为优选，步骤2.1具体包括以下步骤：

步骤2.1.1、使用Devlin等人2019年提出的BERT预训练模型作为特征提取器，因为BERT预训练模型同时考虑左边和右边上下文的双向表示，因而能够通过向量提供单词的上下文语义；给定长度为T的句子：X＝{w₁，w₂...，w_T}，w_i表示位置在i的单词；

步骤2.1.2、将句子输入基于上下文信息的BERT预训练模型(语义信息特征提取器)中进行单词级别的上下文语义特征提取；将得到w_i的上下文词向量称为e_i；

步骤2.1.3、基于上下文信息的特征提取器(BERT预训练模型)能够通过对上下文语义的分析，为登录词提供语义信息，从而避免针对单词本身的传统提取方法造成的未登录词语义不准确的问题。获得登录词和替换词的特征信息。

作为优选，步骤2.2具体包括以下步骤：

步骤2.2.1、为每个单词构建一个元组，每个元组由步骤2.1提取到的上下文词向量、自身代表的实体类型和利用词性标注工具得到的单词词性标记组成；

步骤2.2.2、为了构建有效的训练集，需要过滤掉无意义的和本身属于未登录的单词；例如，根据语义，虚词、标点符号和数字不是替换候选词的合理选择；因此，过滤包含未知单词或不合理词性标记(即定冠词、代词、并列连词、介词、感叹词、符号、标点和数字)的元组；根据这一要求，在图2的例子中过滤了未知词“#yyc“和句子中存在的虚词；最后保留元组中满足要求的上下文词向量和实体类型，并对上下文词向量和实体类型进行组合，构建训练集。

作为优选，步骤2.3具体包括以下步骤：

步骤2.3.1、为了找到在实体类型语义上匹配的替换词，利用多层感知机(MLP)将单词的上下文特征映射到ETC语义空间当中；

步骤2.3.2、通过深度度量学习训练多层感知机(MLP)，将实体类型信息嵌入到特征当中；在ETC语义空间模型训练阶段，首先通过多层感知机(MLP)将训练集当中的每一个上下文词向量e_i映射到d维的ETC语义空间当中，表示为：

f(e_i)∈R^d

上式中，e_i为上下文词向量，d为ETC空间维度，R^d为D维的ETC语义空间；

步骤2.3.3、在深度度量学习领域，Triplet loss是一个比较常用的损失函数，来帮助模型进行相似度学习；Triplet loss旨在通过拉近同类型间的语义距离和扩大不同类型间的语义距离，使得两者差值至少保持在预先设定边际值α。为每一个训练示例

随机挑选一个相同类型的正向实例

和一个不同类型的反向实例

为每个单词特征构建三元组

定义三元组的损失函数如下：

上式中，||·||表示距离度量，N是三元组数量，α是预先设置的边际值；通过最小化该损失函数(Triplet loss)，使同类间距和不同类间距差值保持在α以上；经过训练得到由多层感知机(MLP)形成的语义映射器，该语义映射器能够将单词特征映射到ETC语义空间当中；在构建的ETC语义空间上进行单词替换。

作为优选，步骤1中数据集为Derczynsk等人于2017年发布的W-NUT 17，训练集为来自2011年Ritter等人提出的Twitter NER，验证集和测试集为来自多个社交媒体的数据。

作为优选，步骤1中F1 surface分数对于同一实体的重复出现只计算1次相应分数，F1entity分数对同一实体出现在不同句子中存在多次重复识别。

作为优选，步骤2.2中使用开源的Flair词性标注工具对单词进行词性标注。

本发明的有益效果是:本发明提出一种基于单词语义上下文进行单词替换的策略，从语义空间构建与匹配单词搜索两个方面入手，并利用替换后的测试文本进行预测，以此完成社交媒体命名实体识别任务。本发明仅对测试文本进行替换，而不针对预测模型做任何改动，因而本发明的ETC语义空间模型具有较好的通用性和较短的训练时间；实验证明，本发明的方法不仅提高了现有模型在社交媒体文本上的命名实体识别性能，而且在几种诸如斯坦福NLP的传统命名实体识别工具上具有通用性。

附图说明

图1为基于ETC和ED单词的Twitter NER替换示例；其中O表示非实体，CORP表示公司实体；

图2为ETC语义空间中词替换的流程图；

图3为初始特征向量的ETC语义空间图；

图4为深度度量学习后的ETC语义空间图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

本发明采用一种基于深度度量学习(DML)的策略对未登录词进行替换。如图1所示，本发明对实体类型为公司(CORP)的未登录词“CNNPolitics”使用同类型的单词“Reuters”进行了替换。而尽管传统的ED方法能提供单词结构更接近的“Politics”，但在语义上却相去甚远。本发明使用Huang等人于2015年提出的基准NER模型biLSTM-CRF来测试本发明的方法有效性，本发明的方法仅对测试文本进行替换，而不针对预测模型做任何改动，因而本发明的ETC语义空间模型具有较好的通用性和较短的训练时间。实验证明，本发明的方法不仅提高了现有模型在社交媒体文本上的命名实体识别性能，而且在几种诸如斯坦福NLP的传统命名实体识别工具上具有通用性。

作为一种实施例，是基于单词语义上下文构建实体类型匹配空间进行未登录词的替换，

一、基于单词语义上下文构建实体类型匹配空间进行未登录词的替换步骤如下(如图2所示)：

1、社交媒体文本准备和评价标准制定：

选定W-NUT 2017(Derczynski et al.2017)作为实验所用的社交媒体文本。它的训练集来自2011年由Ritter等人提出的Twitter NER训练任务，其中的数据将作为未登录词替换的初始候选词以及NER模型训练时的训练集。验证集和测试集数据则来自Twitter,Reddit等社交媒体平台，最终测试将在该测试集上进行。如图3所示，数据集由6类实体组成：person(PER)，location(LOC),group(GRP),product(PROD),corporation(CORP)和creative-work(CW)。该数据集侧重于识别新出现的和罕见的实体，包含大量的未知单词。

使用fastText Crawl(Mikolov et al.2018)来识别未在此词表中的未登录词，统计数据显示未登录词占实体数量的14％。因此，该数据集能够合理检验本实施例方法的有效性。该数据集的评价指标为F1 entity分数和F1 surface分数。F1 entity为标准的F1分数，F1 surface分数对于同一实体的重复出现只计算1次相应分数。F1 surface意图在于评价模型针对不同实体的识别能力，区别于F1 entity分数中会对同一实体出现在不同句子中的多次重复识别。

2、上下文词向量生成：

给定一个长度为T的句子X＝{w₁，w₂...，w_T}，w_i表示位置在i的单词。将句子输入基于上下文信息的语义信息特征提取器BERT当中进行单词级别的上下文语义特征提取。将得到w_i的上下文特征词向量称为e_i。基于上下文信息的特征提取器能够通过对上下文语义的分析，为登录词提供语义信息，从而避免针对单词本身的传统提取方法造成的未登录词语义不准确的问题。登录词和替换词的特征信息均基于此方法获得。

3、训练集生成

为每个单词构建一个元组，它由上一步提取到的上下文词向量、自身代表的实体类型和利用词性标注工具得到的单词词性标记组成。为了构建有效的训练集，需要过滤掉无意义的和本身属于未登录的单词。例如，根据语义，虚词、标点符号和数字不是替换候选词的合理选择。因此，过滤包含未知单词或不合理词性标记(即定冠词、代词、并列连词、介词、感叹词、符号、标点和数字)的元组。根据这一规则，在图2的例子中，过滤了未知词“#yyc“和句子中存在的虚词。最后，保留元组中满足规则的上下文特征向量和实体类型，并进行组合，构建训练集。

4、深度度量学习

为了找到在实体类型语义上匹配的替换词，利用多层感知机(MLP)将单词的上下文特征映射到一片语义空间当中，即定义的ETC语义空间。通过深度度量学习训练MLP，将实体类型信息嵌入到特征当中。因此，在训练阶段，首先通过MLP将训练集当中的每一个上下文单词向量e_i映射到d维的ETC空间R^d当中，表示为f(e_i)∈R^d。在深度度量学习领域，Triplet loss是一个比较常用的损失函数，来帮助模型进行相似度学习。Triplet loss旨在通过拉近同类型间的空间距离和扩大不同类型间的空间距离，使得两者差值至少保持在预先设定边际值α。具体地，为每一个训练示例

随机挑选一个相同类型的正向实例

和一个不同类型的反向实例

综上，为每个单词特征构建了三元组

损失函数定义如下：

其中，||·||表示距离度量，N是三元组数量，α是预先设置的边际值。通过最小化Triplet loss，使得同类间距和不同类间距的差值保持在α以上。

5、最近邻搜索

经过训练，得到了一个由MLP形成的语义映射器，能够将单词特征映射到基于实体类型匹配(ETC)的语义空间当中。在替换阶段，将整个句子输入特征提取器中对未登录词进行特征提取，然后通过多层感知机将提取的特征映射到ETC语义空间。遍历训练集为未登录词寻找一个语义表示距离最近的合适替代词。因此，将在ETC语义空间中与未登录词最接近的ETC替换词定义如下：

6、替换

得到了w_etc之后，对原始测试文本当中的未登录词进行替换。例如，图2中的未登录“CNNPolitics“可以用替换词Reuters代替。在替换所有未知词后，得到一个新的ETC替换测试集，该测试集将用于NER预测，其示例如图1所示。

二、实验及结果

1、参数设置

使用百万级单词量的fastText Crawl词典作为基础词典，即文本中出现的不在该词典中的单词将被视为未登录词，但如网址这类的特殊单词并不包含在内。选择不区分大小写的BERT Large作为特征提取器，并且将模型中的最后4层的向量拼接起来作为上下文词向量。采用首个单词切片来表示每个单词输入到BERT中的令牌。多层感知机(MLP)中包含一个维度为2048的隐藏层。因为非实体(O)的高占比，为了保持测试的有效性，在每轮中随机挑选10％非实体(O)参与训练。三胞胎损失中的边际α为1。选择Adam作为优化器并且设置学习率为1e-4。在一台装有NVIDIA Tesla V100(GPU)的计算机上进行训练。模型需要训练300轮，耗费时间为3分钟。

2、NER工具性能测试

为了验证本实施例方法的泛化能力和有效性，使用NER工具和过去的工作进行了一系列实验，并比较了原始测试集和替换测试集的结果。表1显示了传统的NER工具(MITIENER、Stanford-NLP、Twitter NER)在设置的三个不同替换策略的测试集上的性能表现，包括无替换的原始文本，使用编辑距离的ED替换文本和使用ETC替换策略的ETC替换文本。因为不同的NER工具具有不同的实体标注，所以在使用NER工具进行测试时将6类实体映射为了3类实体。具体映射规则为:保留PER和LOC，将GRP和CORP映射为ORG，对于其他的实体进行忽略。在测试由Aguilar等人于2017年提出的当年最佳性能模型外，同时测试了当下最为高效的BiLSTM-CRF模型(分别使用FastText Crawl和由多个词向量拼接的Stacked作为词向量)。相较于编辑距离使用到的200万替换候选词典，本实施例的方法仅仅使用了3.8万候选词，因此所耗时间大大降低，同时取得了更好的性能表现。本实施例的ETC词替换策略在所有的工具上均有性能提升，表现了本实施例方法的通用性。

表1不同的NER工具和过去的工作在不同测试集上的性能表现比较结果表

3、ETC替换策略与过去工作的性能比较

选择使用不同词向量的BiLSTM-CRF模型作为评估模型。表2展示了本实施例的方法和过去的最佳模型的性能对比。使用当前的最佳模型BiLSTM-CRF+Stacked词向量在本实施例的替换文本上进行测试时，F1 entity分数提高了2.7％，F1 surface分数提高了3.0％。

表2往年最佳模型的比较结果表

4、可视化展示和例子分析

使用降维技术t-SNE，在图3中展示了初始嵌入空间，图4展示了经过深度度量学习后的ETC语义空间的。与混沌的初始嵌入空间相比，实体样本在ETC语义空间中得到了很好的聚类。可视化使得本实施例的基于实体类型匹配的未登录词替换方法更具有解释性和说服力。表3展现了4个例子当使用BiLSTM-CRF时在不同测试集上的预测结果。因为未登录词产生的词向量含义不足，给NER任务带来了困难。正如在这些例子中看到的，它会导致错误的预测。实验表明，通过替换上下文中的未登录词，本实施例的方法不仅对未登录词实体有效，而且对预测错误的登录词实体也有效。相反，编辑距离提供的词在字符上相近，但在语义上相差甚远。在示例1、2、3和4中，本实施例的方法用ETC单词替换未登录单词并获得正确的标签。在例3中，由三个单词组成的实体“elizabeth_macg”通过替换的ETC单词“Shaw”被正确识别。此外，本实施例的方法能够替换实体上下文中的未登录词，帮助模型理解上下文中其他实体的语义。在例4中，替换词Percy与许多书名为《reborn》的书籍有关。因此，本实施例的方法纠正了错误预测的实体类型。

表3不同测试集上的示例比较结果表

上表中，Testset表示原始测试集，Testset_ED表示使用ED方法替换的测试集，Testset_ETC表示使用本实施例的ETC方法替换的测试集。粗体表示该词经过替换，文本中间删除线表示错误预测，下划线表示正确预测。

三、实验结论

本实施例提出了一种基于深度度量学***均提高了2.3％的F1entity得分和2.7％的F1 surface得分。

Claims

1.一种基于实体类型匹配的未登录词替换方法，其特征在于，包括以下步骤：

步骤1、数据准备和评价指标指定：指定数据集、训练集、验证集和测试集，并进行人工标注；采用F1 entity和F1 surface作为评价指标，其中F1 entity为标准的F1分数，作为分类标准评价指标；F1 surface分数作为ETC语义空间模型针对不同实体的识别能力评价指标；

步骤2、ETC语义空间模型训练：将基于实体类型匹配训练的语义空间称为ETC语义空间，训练ETC语义空间模型；

步骤2.1、生成上下文词向量；

步骤2.2、生成训练集：对单词进行词性标注，然后对干扰词性进行统一过滤处理，整合处理后的单词，生成ETC语义空间的训练集；

步骤3、在构建的ETC语义空间上进行未登录词替换：

步骤3.1、未登录词ETC语义空间映射：采用特征提取器提取未登录词的上下文语义特征，然后通过多层感知机网络映射到训练的ETC语义空间当中；

步骤3.2、替换：采用最近邻搜索为未登录词匹配空间距离最接近的替换词，遍历训练集为未登录词寻找一个语义表示距离最近的合适替代词；将在ETC语义空间中与未登录词最接近的ETC替换词定义如下：

步骤4、命名实体识别。

2.根据权利要求1所述基于实体类型匹配的未登录词替换方法，其特征在于，步骤2.1具体包括以下步骤：

步骤2.1.1、使用BERT预训练模型作为特征提取器；给定长度为T的句子：X＝{w₁，w₂...，w_T}，w_i表示位置在i的单词；

步骤2.1.2、将句子输入基于上下文信息的BERT预训练模型中进行单词级别的上下文语义特征提取；将得到w_i的上下文词向量称为e_i；

步骤2.1.3、基于上下文信息的特征提取器获得登录词和替换词的特征信息。

3.根据权利要求1所述基于实体类型匹配的未登录词替换方法，其特征在于：步骤2.2具体包括以下步骤：

步骤2.2.2、过滤包含未知单词或不合理词性标记的元组；保留元组中满足要求的上下文词向量和实体类型，并对上下文词向量和实体类型进行组合，构建训练集。

4.根据权利要求1所述基于实体类型匹配的未登录词替换方法，其特征在于：步骤2.3具体包括以下步骤：

步骤2.3.1、利用多层感知机将单词的上下文特征映射到ETC语义空间当中；

步骤2.3.2、通过深度度量学习训练多层感知机，将实体类型信息嵌入到特征当中；在ETC语义空间模型训练阶段，首先通过多层感知机将训练集当中的每一个上下文词向量e_i映射到d维的ETC语义空间当中，表示为：

f(e_i)∈R^d

步骤2.3.3、为每一个训练示例

随机挑选一个相同类型的正向实例

和一个不同类型的反向实例

为每个单词特征构建三元组

定义三元组的损失函数如下：

上式中，||·||表示距离度量，N是三元组数量，α是预先设置的边际值；通过最小化该损失函数，使同类间距和不同类间距差值保持在α以上；经过训练得到由多层感知机形成的语义映射器。

5.根据权利要求1所述基于实体类型匹配的未登录词替换方法，其特征在于：步骤1中数据集为W-NUT 17，训练集为Twitter NER，验证集和测试集为来自多个社交媒体的数据。

6.根据权利要求1所述基于实体类型匹配的未登录词替换方法，其特征在于：步骤1中F1 surface分数对于同一实体的重复出现只计算1次分数，F1 entity分数对同一实体出现在不同句子中存在多次重复识别。

7.根据权利要求1所述基于实体类型匹配的未登录词替换方法，其特征在于：步骤2.2中使用开源的Flair词性标注工具对单词进行词性标注。