CN113704416A

CN113704416A - 词义消歧方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113704416A
Application number: CN202111249932.6A
Authority: CN
Inventors: 张剑; 杨大明; 黄石磊; 蒋志燕
Original assignee: Shenzhen Raisound Technology Co ltd
Current assignee: Shenzhen Raisound Technology Co ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2021-11-26
Anticipated expiration: 2041-10-26
Also published as: CN113704416B

Abstract

本申请涉及一种词义消歧方法，所述方法包括：获取待处理文本，确定待处理文本中的待消歧词，以及待消歧词的上文和所述待消歧词的下文，从预设的语义知识库中搜索待消歧词对应的多个定义解释，对多个定义解释进行向量化，得到定义矩阵，基于定义矩阵构建对应的分类器，将上文、下文和待消歧词输入至分类器，得到待消歧词的预测候选词，利用预测候选词对待消歧词进行替换，得到消除歧义后的标准文本。此外，本申请还涉及一种词义消歧方法、装置、设备及存储介质。本申请可解决词义消歧的准确度不够高的问题。

Description

词义消歧方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及文本处理领域，尤其涉及一种词义消歧方法、装置、电子设备及计算机可读存储介质。

背景技术

在语言词汇中存在着一定数量的歧义词，虽然歧义词的出现为自然语言的应用带来了便利，但是也为自然语言的理解和翻译带来了一定的困难。随着人工智能的兴起，词义消歧在诸多高新领域中的应用越来越多，已经成为了一个自然语言处理中需要解决的重要难题。

现有的词义消歧方法通常是结合机器学习来进行词义消歧，这种方法需要大量的人工标注训练语料，代价昂贵。同时利用人工标注训练语料并不能全面且准确地标注出不常见且具有多重含义的词语，因此导致词义消歧的准确度不够高。

发明内容

本申请提供了一种词义消歧方法、装置、电子设备及存储介质，以解决词义消歧的准确度不够高的问题。

第一方面，本申请提供了一种词义消歧方法，所述方法包括：

获取待处理文本，确定所述待处理文本中的待消歧词，以及所述待消歧词的上文和所述待消歧词的下文；

从预设的语义知识库中搜索所述待消歧词对应的多个定义解释，对多个所述定义解释进行向量化，得到定义矩阵；

基于所述定义矩阵构建对应的分类器，将所述上文、所述下文和所述待消歧词输入至所述分类器，得到所述待消歧词的预测候选词；利用所述预测候选词对所述待消歧词进行替换，得到消除歧义后的标准文本。

详细地，所述将所述上文、所述下文和所述待消歧词输入至所述分类器，得到所述待消歧词的预测候选词，包括：

对所述上文、所述下文和所述待消歧词分别进行向量化处理，得到上文向量、歧义词向量和下文向量；

对所述上文向量、所述歧义词向量和所述下文向量进行向量平均，得到语义向量；

将所述语义向量输入至所述分类器，得到所述待消歧词的预测候选词。

详细地，所述对所述上文、所述下文和所述待消歧词分别进行向量化处理，得到上文向量、歧义词向量和下文向量，包括：

分别对所述上文、所述下文和所述待消歧词进行掩码处理，得到掩码数据集；

将所述掩码数据集转换为向量数据集，并对所述向量数据集执行矩阵转换处理，得到目标向量相关矩阵；

将所述目标向量相关矩阵输入至预训练模型的最终隐藏输出层中，得到上文向量、歧义词向量和下文向量。

详细地，所述分别对所述上文、所述下文和所述待消歧词进行掩码处理，得到掩码数据集，包括：

利用预获取的掩码概率从所述上文、所述下文和所述待消歧词中筛选出多个关键词，对所述多个关键词进行掩码处理，得到所述关键词对应的掩码词；

利用所述掩码词替换所述关键词，得到掩码数据集。

详细地，所述对所述向量数据集执行矩阵转换处理，得到目标向量相关矩阵，包括：

对所述向量数据集进行位置编码处理，得到位置向量集；

将所述位置向量集转换为位置向量矩阵，并根据所述位置向量矩阵的维度生成分类矩阵；

根据所述位置向量矩阵、所述分类矩阵和预设的激活函数计算得到所述位置向量集对应的原始向量相关矩阵；

利用所述原始向量相关矩阵和所述位置向量矩阵调节预购建的前馈神经网络中的迭代权重因子，得到目标向量相关矩阵。

详细地，所述对多个所述定义解释进行向量化，得到定义矩阵，包括：

将多个所述定义解释输入至目标训练模型中，得到多个所述定义解释对应的多个句向量；

对多个所述句向量进行拼接处理，得到定义矩阵。

详细地，所述获取待处理文本之后，所述方法还包括：

对所述待处理文本进行清洗去脏，得到清洗数据集；

将所述清洗数据集拆分为多个句子，得到分句数据集；

利用基准分词器对所述分句数据集进行分词处理，得到预处理的待处理文本。

第二方面，本申请提供了一种词义消歧装置，所述装置包括：

文本处理模块，用于获取待处理文本，确定所述待处理文本中的待消歧词，以及所述待消歧词的上文和所述待消歧词的下文；

向量化模块，用于从预设的语义知识库中搜索所述待消歧词对应的多个定义解释，对多个所述定义解释进行向量化，得到定义矩阵；

候选词预测模块，用于基于所述定义矩阵构建对应的分类器，将所述上文、所述下文和所述待消歧词输入至所述分类器，得到所述待消歧词的预测候选词；歧义消除模块，用于利用所述预测候选词对所述待消歧词进行替换，得到消除歧义后的标准文本。

第三方面，提供了一种词义消歧设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的词义消歧方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的词义消歧方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本发明实施例从预设的语义知识库中搜索待消歧词对应的多个定义解释，由于语义知识库包含的词和词义范围很大，在大部分不常见词或词义上性能表现大有提升，通过语义知识库搜索无需人工标注，节省人工标注成本。对多个所述定义解释进行向量化可以将所述定义解释转化成方便计算机处理的向量形式，基于所述定义矩阵构建对应的分类器，将所述待处理文本中确定的待消歧词，以及所述待消歧词的上文和所述待消歧词的下文输入至所述分类器，得到所述待消歧词的预测候选词，得到预测候选词，提高了预测候选词筛选的准确度，并利用所述预测候选词对所述初始文本中的待消歧词进行替换，得到消除歧义后的标准文本。因此本发明提出的词义消歧方法、装置、电子设备及计算机可读存储介质，可以解决词义消歧的准确度不够高的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种词义消歧方法的流程示意图；

图2为本申请实施例提供的一种词义消歧的装置的模块示意图；

图3为本申请实施例提供的一种词义消歧的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种词义消歧方法的流程示意图。在本实施例中，所述词义消歧方法包括：

S1、获取待处理文本，确定所述待处理文本中的待消歧词，以及所述待消歧词的上文和所述待消歧词的下文。

本发明实施例中，所述待处理文本是指任意一个语境下的完整句子，其中，句子中包含上文、待消歧词和下文，则一个句子的组成可以为上文（sentence_up）+待消歧词（token）+下文（sentence_down）。

本发明一可选实施例中，可以根据输入的待处理文本的语句标识确定待消歧词，并确定该消歧词之前的文本为消歧词的上文，确定该消歧词之后的文本为消歧词的下文。

另一可选实施例中，可以通过预设的歧义词识别模型，确定待消歧词，并确定该消歧词之前的文本为消歧词的上文，确定该消歧词之后的文本为消歧词的下文。

具体地，所述获取待处理文本之后，所述方法还包括：

对所述待处理文本进行清洗去脏，得到清洗数据集；

将所述清洗数据集拆分为多个句子，得到分句数据集；

详细地，对待处理文本进行清洗去脏可以保证处理后的清洗数据集的准确和干净，所述清洗数据集中包含多个完整的句子，可以以句号作为拆分的节点将所述清洗数据集拆分为多个句子，得到分句数据集，利用基准分词器对所述分句数据集进行分词处理，得到预处理的待处理文本。其中，所述基准分词器包括但不限于基于字典的字符串匹配模型的分词器或者基于字符标注的机器学习模型的分词器，如stanford分词器。

S2、从预设的语义知识库中搜索所述待消歧词对应的多个定义解释，对多个所述定义解释进行向量化，得到定义矩阵。

本发明实施例中，所述预设的语义知识库可以为WordNet，WordNet是一种基于认知语言学的英语词典，它不是光把单词以字母顺序排列，而且按照单词的意义组成一个“单词的网络”。

具体地，以所述语义知识库作为参考，在所述语义知识库中搜索与所述待消歧词对应的多个定义解释。

进一步地，所述对多个所述定义解释进行向量化，得到定义矩阵，包括：

对多个所述句向量进行拼接处理，得到定义矩阵。

详细地，将所述定义解释（token_definition）输入到目标训练模型中，共得到S个向量：vector_1[CLS],...,vector_S[CLS]，将S个向量拼接起来得到定义矩阵

，其中，所述定义矩阵的维度为H*S。

S3、基于所述定义矩阵构建对应的分类器，将所述上文、所述下文和所述待消歧词输入至所述分类器，得到所述待消歧词的预测候选词。

本发明实施例中，所述基于所述定义矩阵构建对应的分类器是指以所述定义矩阵作为分类器的参数构建得到对应的分类器。其中，所述分类器包括线性分类器和非线性分类器。

例如，获取一个维度为H*S的定义矩阵

，根据所述定义矩阵构建对应的分类器

，其中，W和b是可更新参数，W维度是H*H，b维度是H*1。

具体地，所述将所述上文、所述下文和所述待消歧词输入至所述分类器，得到所述待消歧词的预测候选词，包括：

详细地，利用预训练模型对所述上文、所述下文和所述待消歧词分别进行向量化处理，得到上文向量、歧义词向量和下文向量。所述预训练模型可以为BERT（BidirectionalEncoder Representations from Transformer，双向编码器表征）模型或者ELMO（Embedding from language models，双向语言模型）模型。

在本发明一实施例中，所述对所述上文、所述下文和所述待消歧词分别进行向量化处理，得到上文向量、歧义词向量和下文向量，包括：

具体地，所述分别对所述上文、所述下文和所述待消歧词进行掩码处理，得到掩码数据集，包括：

利用所述掩码词替换所述关键词，得到掩码数据集。

详细地，所述掩码概率是指在所述上文、所述下文和所述待消歧词中随机挑选的关键词的字数与所述上文、所述下文和所述待消歧词中总字数的占比，例如，若所述掩码概率为30%，当所述上文、所述下文和所述待消歧词中包含100个字，故按照30%的掩码概率筛选出多个关键词即随机对所述上文、所述下文和所述待消歧词中的30个关键词进行掩码。

其中，所述掩码处理的方式包括MASK掩码、随机掩码，MASK掩码指用MASK符号对关键词进行遮掩、所述随机掩码指用其他词语对关键词进行遮掩。

具体地，可以采用Word2vec算法将所述掩码数据集转换为向量数据集。

进一步地，所述对所述向量数据集执行矩阵转换处理，得到目标向量相关矩阵，包括：

对所述向量数据集进行位置编码处理，得到位置向量集；

详细地，所述分类矩阵的维度与所述位置向量矩阵的维度一致，若所述位置向量矩阵的维度为

，则所述分类矩阵的维度也为

。

具体地，所述根据所述位置向量矩阵、所述分类矩阵和预设的激活函数计算得到所述位置向量集对应的原始向量相关矩阵，包括：

按照预设的拆分规则对所述分类矩阵进行拆分，得到中心矩阵、关联矩阵和权重矩阵；

分别将所述位置向量矩阵与所述中心矩阵、关联矩阵和权重矩阵进行点乘，得到中心向量矩阵、关联向量矩阵和权重向量矩阵；

将所述中心向量矩阵、关联向量矩阵以及权重向量矩阵作为所述激活函数的输入参数，得到所述原始向量相关矩阵。

详细地，利用预设的拆分规则对将分类矩阵拆分成中心矩阵、关联矩阵和权重矩阵，如上述分类矩阵为

，则可按照

、

、

执行拆分，分别得到

维度的中心矩阵、

维度的关联矩阵及

维度的权重矩阵。

优选地，所述激活函数为softmax函数。

进一步地，所述将所述中心向量矩阵、关联向量矩阵以及权重向量矩阵作为所述激活函数的输入参数，得到所述原始向量相关矩阵，包括：

Softmax

=

其中，

为所述中心向量矩阵，

为所述关联向量矩阵，

为所述关联向量矩阵的维度，

为所述权重向量矩阵，

为所述原始向量相关矩阵。

具体地，将所述目标向量相关矩阵输入至预训练模型的最终隐藏输出层中，得到上文向量、歧义词向量和下文向量。

详细地，在本发明实施例中，所述预训练模型采用的为BERT模型，其中，所述BERT模型具有更加高效，能够捕捉更多依赖关系的优点。

在本发明另一实施例中，所述对所述上文、所述下文和所述待消歧词分别进行向量化处理，得到上文向量、歧义词向量和下文向量之前，所述方法还包括：

获取预设语料库中预设数量的指定文本，并对所述指定文本进行分句及分词处理，得到指定分词集合；

利用所述指定分词集合对双向长短期记忆模型进行训练，得到预训练模型。

详细地，所述双向长短期记忆模型即Bi-LSTM模型，对双向长短期记忆模型进行训练得到预训练模型可以根据上下文来推断每个词对应的词向量，能够根据语境来对多义词进行理解。

具体地，所述利用所述指定分词集合对双向长短期记忆模型进行训练，得到预训练模型，包括：

利用所述双向长短期记忆网络计算所述指定分词集合的前向概率和后向概率；

基于所述前向概率和所述后向概率构造最大化对数似然函数，并计算所述最大化对数似然函数的函数值；

当所述函数值大于或者等于预设的阈值时，将所述双向长短期记忆模型输出为预训练模型。

进一步地，所述利用所述双向长短期记忆网络计算所述指定分词集合的前向概率和后向概率，包括：

利用如下计算公式计算所述指定分词集合的前向概率：

其中，

前向概率，

是指所述指定分词集合中的第

个分词，

为所述指定分词集合中指定分词的个数。

利用如下计算公式计算所述指定分词集合的后向概率：

其中，

为后向概率。

具体地，所述基于所述前向概率和所述后向概率构造最大化对数似然函数，包括：

其中，

为函数值，

为词向量参数，

为softmax层参数，

为所述双向长短期记忆网络的参数。

进一步地，所述对所述上文向量、所述歧义词向量和所述下文向量进行向量平均，得到语义向量，包括：

利用如下计算公式对所述上文向量、所述歧义词向量和所述下文向量进行向量平均：

其中，

为语义向量，

为所述上文向量，

为所述歧义词向量，

为所述下文向量。

详细地，对所述上文向量、所述歧义词向量和所述下文向量进行向量平均，可以使得最后得到的语义向量联系了上文和下文的信息，丰富了所述语义向量所包含的语义信息。

具体地，所述将所述上文、所述下文和所述待消歧词输入至所述分类器之前，所述方法还包括：

获取多个候选词，将多个所述候选词输入至所述分类器中，得到多个所述候选词对应的概率；

选取所述概率大于或者等于预设概率阈值的候选词对应的标签作为预测标签；

利用预设的最小化损失函数计算所述预测标签和预设的真实标签之间的损失值；

当所述损失值大于或者等于预设的损失阈值时，对所述分类器进行参数调整，直至所述损失值小于所述损失阈值时，将所述分类器输出为标准分类器。

进一步地，所述利用预设的最小化损失函数计算所述预测标签和预设的真实标签之间的损失值，包括：

所述预设的最小化损失函数为：

其中，

为所述损失值，

为所述待消歧词的个数，

为候选定义词的个数，[

是第m待消歧的词的第s个候选定义的真实标签，[

是第m待消歧的词的第s个候选定义的概率得分。

详细地，利用所述分类器对所述语义向量进行分类预测，得到预测候选词。

S4、利用所述预测候选词对所述待消歧词进行替换，得到消除歧义后的标准文本。

本发明实施例中，所述预测候选词为经过所述分类器进行分类预测后最终得到的词语，将所述预测候选词替换掉所述初始文本中的待消歧词，得到消除歧义后的标准文本。

本发明实施例从预设的语义知识库中搜索待消歧词对应的多个定义解释，由于语义知识库包含的词和词义范围很大，在大部分不常见词或词义上性能表现大有提升，通过语义知识库搜索无需人工标注，节省人工标注成本。对多个所述定义解释进行向量化可以将所述定义解释转化成方便计算机处理的向量形式，基于所述定义矩阵构建对应的分类器，将所述待处理文本中确定的待消歧词，以及所述待消歧词的上文和所述待消歧词的下文输入至所述分类器，得到所述待消歧词的预测候选词，得到预测候选词，提高了预测候选词筛选的准确度，并利用所述预测候选词对所述初始文本中的待消歧词进行替换，得到消除歧义后的标准文本。因此本发明提出的词义消歧方法可以解决词义消歧的准确度不够高的问题。

如图2所示，本申请实施例提供了一种词义消歧装置10的模块示意图，所述词义消歧装置10，包括：所述文本处理模块11、所述向量化模块12、所述候选词预测模块13和所述歧义消除模块14。

所述文本处理模块11，用于获取待处理文本，确定所述待处理文本中的待消歧词，以及所述待消歧词的上文和所述待消歧词的下文；

所述向量化模块12，用于从预设的语义知识库中搜索所述待消歧词对应的多个定义解释，对多个所述定义解释进行向量化，得到定义矩阵；

所述候选词预测模块13，用于基于所述定义矩阵构建对应的分类器，将所述上文、所述下文和所述待消歧词输入至所述分类器，得到所述待消歧词的预测候选词；

所述歧义消除模块14，用于利用所述预测候选词对所述待消歧词进行替换，得到消除歧义后的标准文本。

详细地，本申请实施例中所述词义消歧装置10中的各模块在使用时采用与上述的图1中所述的词义消歧方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图3所示，本申请实施例提供了一种电子设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111、通信接口112、存储器113通过通信总线114完成相互间的通信；

存储器113，用于存放计算机程序；

在本申请一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的词义消歧方法，包括：

基于所述定义矩阵构建对应的分类器，将所述上文、所述下文和所述待消歧词输入至所述分类器，得到所述待消歧词的预测候选词；

利用所述预测候选词对所述待消歧词进行替换，得到消除歧义后的标准文本。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的词义消歧方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种词义消歧方法，其特征在于，所述方法包括：

2.根据权利要求1所述的词义消歧方法，其特征在于，所述将所述上文、所述下文和所述待消歧词输入至所述分类器，得到所述待消歧词的预测候选词，包括：

3.根据权利要求2所述的词义消歧方法，其特征在于，所述对所述上文、所述下文和所述待消歧词分别进行向量化处理，得到上文向量、歧义词向量和下文向量，包括：

4.根据权利要求3所述的词义消歧方法，其特征在于，所述分别对所述上文、所述下文和所述待消歧词进行掩码处理，得到掩码数据集，包括：

利用所述掩码词替换所述关键词，得到掩码数据集。

5.根据权利要求3所述的词义消歧方法，其特征在于，所述对所述向量数据集执行矩阵转换处理，得到目标向量相关矩阵，包括：

对所述向量数据集进行位置编码处理，得到位置向量集；

6.根据权利要求1至4中任一项所述的词义消歧方法，其特征在于，所述对多个所述定义解释进行向量化，得到定义矩阵，包括：

对多个所述句向量进行拼接处理，得到定义矩阵。

7.根据权利要求1至4中任一项所述的词义消歧方法，其特征在于，所述获取待处理文本之后，所述方法还包括：

对所述待处理文本进行清洗去脏，得到清洗数据集；

将所述清洗数据集拆分为多个句子，得到分句数据集；

8.一种词义消歧装置，其特征在于，所述装置包括：

候选词预测模块，用于基于所述定义矩阵构建对应的分类器，将所述上文、所述下文和所述待消歧词输入至所述分类器，得到所述待消歧词的预测候选词；

歧义消除模块，用于利用所述预测候选词对所述待消歧词进行替换，得到消除歧义后的标准文本。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的词义消歧方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的词义消歧方法的步骤。