CN112949319B

CN112949319B - 文本中多义性单词的标注方法、设备、处理器和存储介质

Info

Publication number: CN112949319B
Application number: CN202110270079.XA
Authority: CN
Inventors: 陆恒杨; 黄渊卓; 方伟
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2023-01-06
Anticipated expiration: 2041-03-12
Also published as: CN112949319A

Abstract

本发明涉及一种文本中多义性单词的标注方法、设备、处理器和存储介质；所述方法包括输入待处理的原始语料库；训练上下文相关词嵌入模型，获得上下文相关向量；根据上下文相关向量搭建语义向量生成算法，区分每个单词的多个含义，并对原始语料库进行标注；输出标注多义性的伪文档。本发明利用上下文相关词嵌入模型，通过对多义性单词的不同语义进行标注，消除多种语义的歧义，相较于没有考虑单词多义性的文本来说，对后续文本处理，文本分类，主题模型等任务的准确度有较大的提升。

Description

文本中多义性单词的标注方法、设备、处理器和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其是指一种文本中多义性单词的标注方法、设备、处理器和存储介质。

背景技术

词嵌入模型(word embeddings)常被用于各类自然语言处理任务中，例如文本挖掘、情感分析、文本分类等。常见的词嵌入模型，如word2vec和GloVe，只能为每一个单词学习一个向量，忽略了不同上下文中的单词多义性问题，例如，“apple”这个词可以有多种语义:在“I like eating apples”这句话中，它指的是一种水果；当出现在“We went to theApple store yesterday”这句话中时，它指的是一家科技公司的名字。这一现象可归结为单词多义性问题。近年来研究表明，在开展自然语言处理任务时，考虑单词的多义性问题能有效提升模型的效果。

一般来说，针对同一个单词在不同上下文中学习不同的词向量，主要由三类学习范式：Two-stage models、Joint models和Contextualized word embeddings。其中，Two-stage models通过对给定的语境进行聚类来归纳单词语义，缺点是该方法计算量大；Jointmodels将给定单词的语境向量进行聚类，共同构成单词的语义，解决了只使用本地上下文的局限性，进一步延伸至多义性单词嵌入等，缺点是大多数方法需要定义每个单词固定的语义数量，这是不现实的；Contextualized word embeddings通过训练一个双向LSTM语言模型来学习词语的上下文相关向量，语料库中的每一个单词都有自己的语义向量，并能在所有层面的上下文中共同工作，可以很容易地添加到现有的各种NLP任务中，使用这种模型可以更加灵活的发现单词的多义性。因此，本申请采用Contextualized word embeddings来进行单词多义性标注。

发明内容

为此，本发明所要解决的技术问题是提出一种结合上下文词嵌入模型的多义性单词标注方法，用于解决单词多义性的问题，标注出最适用于该文本语境的单词语义。

为解决上述技术问题，本发明提供了一种文本中多义性单词的标注方法，包括输入待处理的原始语料库；训练上下文相关词嵌入模型，获得上下文相关向量；根据上下文相关向量搭建语义向量生成算法，区分每个单词的多个含义，并对原始语料库进行标注；输出标注多义性的伪文档。

在本发明的一个实施例中，所述上下文相关词嵌入模型为ELMo，利用ELMo算法具体的计算方式如下：

式中γ为调节矢量尺度的参数；s_j为第j层softmax归一化权值的参数；

是前向和后向的第j个隐层。

在本发明的一个实施例中，搭建所述语义向量生成算法的过程为：

输入原始语料库D,每个单词及其对应的语义上下文相关向量的字典dic,余弦距离阈值ε

初始化dic为空

foreach document d in D do

for i←0to len(d)-1do

若当前语义

不在字典dic中，

将

的语义赋给w_i#s；

将

赋给

将

添加到字典dic

中；

将w_i#s添加到pd_i中；

否则，

初始化minDist＝1和minIndex＝0；

初始化found＝False；

for k←0to len(dic

)-1do。

在本发明的一个实施例中，计算两个语义向量的余弦距离，表示为

计算公式如下：

在本发明的一个实施例中，将计算得到的余弦距离

与预设的余弦距离阈值ε进行比较，若余弦距离

大于余弦距离阈值ε，则两个语义向量在两种语境中有不同的含义；若余弦距离

小于余弦距离阈值ε，则两个语义向量在两种语境中有相同的含义。

在本发明的一个实施例中，当两个语义向量在两种语境中有相同的含义时，就需要重新计算上下文相关向量，利用两个语义向量的角平分线来形成新的语义向量bisector，计算公式为：

在本发明的一个实施例中，在输入待处理的原始语料库前，需要对原始语料库进行预处理，包括：统一大小写字母、删除所有停止词、删除包含少于三个单词的文档

解决上述技术问题，本发明提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

解决上述技术问题，本发明提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述方法。

解决上述技术问题，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的文本中多义性单词的标注方法提出一种结合上下文词嵌入模型的多义性单词标注方法，用于解决单词多义性的问题，标注出最适用于该文本语境的单词语义；

每个单词在不同的上下文语境中都会有不同的语义，大致分为两种，一种是在不同的上下文语境中拥有相同的语义，但由于各个部分上下文的差异，使得该单词的词向量相似却不完全相同。另一种是在不同的上下文语境中拥有不同的语义，这就会使该单词的词向量存在较大的差异，这两种情况使得一些多义性单词在该文本中的词向量有失准度，产生歧义；本发明利用上下文相关词嵌入模型，通过对多义性单词的不同语义进行标注，消除多种语义的歧义，相较于没有考虑单词多义性的文本来说，对后续文本处理，文本分类，主题模型等任务的准确度有较大的提升。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明文本中多义性单词的标注方法的步骤流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1所示，本发明的一种文本中多义性单词的标注方法，包括输入待处理的原始语料库；训练上下文相关词嵌入模型，获得上下文相关向量；根据上下文相关向量搭建语义向量生成算法，区分每个单词的多个含义，并对原始语料库进行标注；输出标注多义性的伪文档。

具体地，本实施例在输入待处理的原始语料库前，对原始语料库进行预处理，包括：统一大小写字母、删除所有停止词、删除包含少于三个单词的文档，对于统一大小写字母、删除所有停止词，一方面能够减少词汇量，另一方面能够减少算法的计算量，提高计算效率，对于包含少于三个单词的文档，其不存在上下文语境，无法进行训练上下文相关词嵌入模型，因此在输入前应该主动剔除掉。

本实施例中，所述上下文相关词嵌入模型为ELMo算法，ELMo算法是一种现有自然语言处理(NLP)中的语言模型预训练方法学，ELMo(Embeddings from Language Models)，他们使用的是一个双向LSTM语言模型，由一个前向和一个后向语言模型构成，目标函数就是取这两个方向语言模型的最大似然,这种算法的特点是：每一个单词的表征都是整个输入语句的函数，具体做法就是先在大语料上以语言模型为目标训练出双向LSTM模型，然后利用LSTM产生单词的表征。ELMo表征是“深”的，就是说它们是双向LSTM的所有层的内部表征的函数，这样做的好处是能够产生丰富的单词表征。高层的LSTM的状态可以捕捉单词意义中和语境相关的那方面的特征(比如可以用来做语义的消歧)，而低层的LSTM可以找到语法方面的特征(比如可以做词性标注)。如果把它们结合在一起，在下游的NLP任务中会体现优势。

本实施例中，利用ELMo算法具体的计算方式如下：

是前向和后向的第j个隐层，通过这种方式获得上下文相关向量。

具体地，搭建所述语义向量生成算法的过程为：

首先，输入原始语料库D,每个单词及其对应的语义上下文相关向量的字典dic,余弦距离阈值ε

初始化dic为空

foreach document d in D do

for i←0to len(d)-1do

若当前语义

不在字典dic中，

将

的语义赋给w_i#s；

将

赋给

将

添加到字典dic

中；

将w_i#s添加到pd_i中；

否则，

初始化minDist＝1和minIndex＝0；

初始化found＝False；

for k←0to len(dic

)-1do。

计算两个语义向量的余弦距离，表示为

计算公式如下：

将计算得到的余弦距离

与预设的余弦距离阈值ε进行比较，若余弦距离

小于余弦距离阈值ε，则两个语义向量在两种语境中有相同的含义，具体的算法过程为：

若

并且

将minDist的值更改为

将minIndex的值更改为k；

将Found的值更改为True；

若Found为False，

将s的值更改为len(dic

)；

将

的语义赋给w_i#s；

将

赋给

将

添加到dic

[s]；

将w_i#s添加到pd_i中；

否则，

将s的值更改为minIndex；

将

的语义赋给w_i#s；

当两个语义向量在两种语境中有相同的含义时，就需要重新计算上下文相关向量，利用两个语义向量的角平分线来形成新的语义向量bisector，计算公式为：

运用上述语义向量bisector更新

的值，

将

添加到字典dic

[s]中；

将w_i#s添加到pd_i中。

将pd_i添加到PD(伪文档)中，最后输出标注多义性的伪文档。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种文本中多义性单词的标注方法，其特征在于：包括：

输入待处理的原始语料库；

训练上下文相关词嵌入模型，获得上下文相关向量；

根据上下文相关向量搭建语义向量生成算法，区分每个单词的多个含义，并对原始语料库进行标注，具体包括以下步骤：计算两个语义向量的余弦距离，将计算得到的余弦距离与预设的余弦距离阈值ε进行比较，若余弦距离大于余弦距离阈值ε，则两个语义向量在两种语境中有不同的含义；若余弦距离小于余弦距离阈值ε，则两个语义向量在两种语境中有相同的含义，当两个语义向量在两种语境中有相同的含义时，就需要重新计算上下文相关向量，利用两个语义向量的角平分线来形成新的语义向量bisector；

输出标注多义性的伪文档。

2.根据权利要求1所述的文本中多义性单词的标注方法，其特征在于：所述上下文相关词嵌入模型为ELMo，利用ELMo算法具体的计算方式如下：