CN117034916A

CN117034916A - 构建词向量表示模型和词向量表示的方法、装置及设备

Info

Publication number: CN117034916A
Application number: CN202310636886.8A
Authority: CN
Inventors: 张鹏; 张复生
Original assignee: Shaanxi Youbai Information Technology Co ltd
Current assignee: Shaanxi Youbai Information Technology Co ltd
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-11-10

Abstract

本公开涉及一种构建词向量表示模型和词向量表示的方法、装置及设备，上述方法包括：针对待训练语料中目标词的上下文，确定上下文中每个词对应的训练初始义原；对义原库中的初始义原向量进行正交化处理，得到正交义原向量；在正交义原向量中确定与训练初始义原对应的目标正交义原向量；基于正交向量表示模型，根据目标正交义原向量对上下文中每个词进行向量表示，对应输出上下文词向量；将上下文词向量输入至文本预测模型中，对文本预测模型进行训练，文本预测模型输出与预测词向量对应的预测词概率，训练标签为上述目标词；上述正交向量表示模型和训练完成的文本预测模型构成词向量表示模型，基于该模型能够得到质量更好的词向量表示结果。

Description

构建词向量表示模型和词向量表示的方法、装置及设备

技术领域

本公开涉及人工智能和自然语言处理技术领域，尤其涉及一种构建词向量表示模型和词向量表示的方法、装置及设备。

背景技术

词向量表示自然语言处理领域一项基础性工作。词向量表示是指将单词表示为向量，词向量包括不同的维数，每一维数描述了单词的一种特征，将语句中的每个单词(或者描述为词素，可以是一个字或者词语)转化为词向量，有助于计算机去理解自然语言并进行自然语言处理。

相关技术中，大多是基于机器学习模型或深度学习模型来进行词向量表示的学习。

发明内容

在实现本公开构思的过程中，发现相关技术中存在以下技术问题：单纯基于机器学习模型或深度学习模型来学习词向量表示这一方法是以数据为驱动，通过目标词与上下文词语的共现来训练得到词向量，这种方法存在得到的词向量性能不稳定，低频词词向量表示质量不高等问题；有的方案中考虑到结合hownet(一种义原标注体系知识库)中的义原标注知识来进行词向量表示的学习的内容，然而，原始的义原向量之间会存在信息重叠的情况，词语采用具有信息重叠的义原向量进行表示，可能使得某些词向量表示结果距离理想状态有较大的偏差。

有鉴于此，本公开的实施例提供了一种构建词向量表示模型和词向量表示的方法、装置及设备。

第一方面，本公开的实施例提供了一种构建词向量表示模型的方法。上述方法包括：针对待训练语料中目标词的上下文，确定上述上下文中每个词对应的训练初始义原；对义原库中的初始义原向量进行正交化处理，得到正交义原向量；在上述正交义原向量中确定与上述训练初始义原对应的目标正交义原向量；基于正交向量表示模型，根据上述目标正交义原向量对上述上下文中每个词进行向量表示，对应输出上下文词向量；将上述上下文词向量输入至文本预测模型中，对上述文本预测模型进行训练，上述文本预测模型输出与预测词向量对应的预测词概率，训练标签为上述目标词；其中，上述正交向量表示模型和训练完成的文本预测模型构成词向量表示模型。

在一些实施例中，上述对义原库中的初始义原向量进行正交化处理，得到正交义原向量，包括：基于Householder(豪斯霍尔德)变换算法，对义原库中的初始义原向量进行正交化处理，得到正交义原向量。

在一些实施例中，上述基于Householder变换算法，对义原库中的初始义原向量进行正交化处理，得到正交义原向量，包括：基于义原库中的初始义原向量构建初始义原矩阵M_N，义原向量的总数为N个，每个初始义原的义原向量的维度为S维，N和S为正整数；基于Householder变换算法，对上述初始义原矩阵M_N进行矩阵分解，将上述初始义原矩阵M_N分解为正交矩阵Q和三角矩阵R，三角矩阵R满足以下表达式：Q^T·M_N＝R，·表示矩阵乘积，T表示矩阵转置；其中，正交矩阵Q是N×N维的酉矩阵；正交矩阵Q的列向量是N组单位正交基，作为与上述初始义原向量对应的正交义原向量；三角矩阵R是N×S维的三角形矩阵。

在一些实施例中，针对待训练语料中目标词的上下文，确定上述上下文中每个词对应的训练初始义原，包括：根据设定窗口长度，在上述待训练语料中目标词的阅读顺序或逆序至少一个方向进行范围选取，得到包含上述目标词和上下文的目标语段；确定上述上下文中每个词是否在预先构建的知识库的覆盖范围之内，上述知识库用于存储：已有词和初始义原之间的对应关系；针对上述上下文中处于上述知识库覆盖范围内的第一词，根据上述知识库中的已有词进行匹配，得到与上述第一词匹配的匹配词；根据上述匹配词对应的匹配初始义原和正交化对应关系，确定对应的训练初始义原；针对上述上下文中处于上述知识库覆盖范围外的第二词，对上述第二词标记上未知类别标签，并新增额外义原向量，并标记新增的额外义原向量与上述未知类别标签对应，将上述额外义原向量作为上述第二词对应的训练初始义原。

在一些实施例中，上述基于正交向量表示模型，根据上述目标正交义原向量对上述上下文中每个词进行向量表示，对应输出上下文词向量，包括：基于正交向量表示模型，对上述目标正交义原向量求取加权和，得到上下文中每个词对应的上下文词向量。

在一些实施例中，上述文本预测模型为以下模型中的一种：word2vec模型、BERT模型、GloVe模型或ELMo模型，上述word2vec模型包括cbow模型或skip-gram模型。

第二方面，本公开的实施例提供了一种词向量表示的方法。上述词向量表示的方法包括：针对待处理语句中待处理目标词对应的目标上下文，确定上述目标上下文中每个词对应的实测初始义原；根据上述实测初始义原，在正交义原向量中确定与上述实测初始义原对应的实测正交义原向量；将上述实测正交义原向量输入至词向量表示模型中进行处理；其中，基于正交向量表示模型，根据上述实测正交义原向量对上述目标上下文中每个词进行向量表示，对应输出实测上下文词向量；将上述实测上下文词向量输入至训练好的文本预测模型中，输出与预测词向量对应的预测词概率；其中，上述正交义原向量和上述词向量表示模型采用如上所述的构建词向量表示模型的方法构建得到；将预测概率最大的预测词对应的预测词向量确定为上述待处理目标词的词向量表示结果。

在一些实施例中，针对待处理语句中待处理目标词对应的目标上下文，确定上述目标上下文中每个词对应的实测初始义原，包括：对上述待处理语句进行分词处理，定位至待处理目标词；根据实测窗口长度，在上述待处理目标词周围沿着阅读顺序或逆序至少一个方向进行词选取，得到包含上述待处理目标词和目标上下文的实测目标语段；确定上述目标上下文中每个词是否在预先构建的知识库的覆盖范围之内，上述知识库用于存储：已有词和初始义原之间的对应关系；针对上述目标上下文中处于上述知识库覆盖范围内的第一实测词，根据上述知识库中的已有词进行匹配，得到与上述第一词匹配的实测匹配词；根据上述实测匹配词对应的实测匹配初始义原和正交化对应关系，确定对应的实测初始义原；针对上述目标上下文中处于上述知识库覆盖范围外的第二实测词，对上述第二实测词标记上未知类别标签，并新增实测额外义原向量，并标记新增的实测额外义原向量与上述未知类别标签对应，将上述额外实测义原向量作为上述第二实测词对应的实测初始义原。

第三方面，本公开的实施例提供了一种构建词向量表示模型的装置。上述装置包括：第一义原确定模块、正交处理模块、第一义原组成确定模块、第一词向量表示模块和训练模块。上述第一义原确定模块用于针对待训练语料中目标词的上下文，确定上述上下文中每个词对应的训练初始义原。上述正交处理模块用于对义原库中的初始义原向量进行正交化处理，得到正交义原向量。上述第一义原组成确定模块用于在上述正交义原向量中确定与上述训练初始义原对应的目标正交义原向量。上述第一词向量表示模块用于基于正交向量表示模型，根据上述目标正交义原向量对上述上下文中每个词进行向量表示，对应输出上下文词向量。上述训练模块用于将上述上下文词向量输入至文本预测模型中，对上述文本预测模型进行训练，上述文本预测模型输出与预测词向量对应的预测词概率，训练标签为上述目标词；其中，上述正交向量表示模型和训练完成的文本预测模型构成词向量表示模型。

第四方面，本公开的实施例提供了一种词向量表示的装置。上述装置包括：第二义原确定模块、第二义原组成确定模块和处理模块。上述第二义原确定模块用于针对待处理语句中待处理目标词对应的目标上下文，确定上述目标上下文中每个词对应的实测初始义原。上述第二义原组成确定模块用于在正交义原向量中确定与上述实测初始义原对应的实测正交义原向量。上述处理模块用于将上述实测正交义原向量输入至词向量表示模型中进行处理；其中，基于正交向量表示模型，根据上述实测正交义原向量对上述目标上下文中每个词进行向量表示，对应输出实测上下文词向量；将上述实测上下文词向量输入至训练好的文本预测模型中，输出与预测词向量对应的预测概率；其中，上述正交义原向量和上述词向量表示模型采用上述构建词向量表示模型的方法构建得到或采用上述构建词向量表示模型的装置构建得到；将预测概率最大的预测词对应的预测词向量确定为上述待处理目标词的词向量表示结果。

第五方面，本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如上所述的构建词向量表示模型的方法或词向量表示的方法。

第六方面，本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的构建词向量表示模型的方法或词向量表示的方法。

本公开实施例提供的上述技术方案至少具有如下优点的部分或全部：

(1)通过对义原库中的初始义原向量进行正交化处理，得到正交义原向量，正交化处理后的正交义原向量之间无信息重叠并能从各自的维度涵盖义原信息，进一步利用正交义原向量来表示目标词的上下文中各个词，得到上下文词向量，由于正交义原向量包含相对更为准确且各自独立的语义信息，因此上下文词向量相较于采用初始义原向量而言更为准确且接近理想状态，同时通过结合义原标注的知识和对文本预测模型进行训练，使得最终得到的词向量表示模型能够融合标注义原所对应的先验语言学知识和上下文学习到的语境理解信息这两个方面信息，能够得到质量更好的词向量表示结果；同时由于输入的上下文词向量相对准确，相较于相关技术中随机化训练输入而言，还可以加快迭代收敛速度，提升训练效率，减少迭代次数；

(2)通过采用Householder正交化方法，相对于其他正交化方法而言具有较高的精度、更低的计算复杂度，而且基于该方式进行正交化之后的向量表示效果更优。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了根据本公开实施例的构建词向量表示模型的方法的流程图；

图2示意性地示出了根据本公开实施例的构建词向量表示模型的方法的实现架构示意图；

图3示意性地示出了根据本公开实施例的步骤S110的详细实施流程图；

图4示意性地示出了根据本公开实施例的词向量表示的方法的流程图；

图5示意性地示出了根据本公开实施例的构建词向量表示模型的装置的结构框图；

图6示意性地示出了根据本公开实施例的词向量表示的装置的结构框图；以及

图7示意性地示出了本公开实施例提供的电子设备的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的第一个示例性实施例提供了一种构建词向量表示模型的方法。本实施例的方法可以由具有运算能力的电子设备来执行。

图1示意性地示出了根据本公开实施例的构建词向量表示模型的方法的流程图。图2示意性地示出了根据本公开实施例的构建词向量表示模型的方法的实现架构示意图。

参照图1所示，本公开实施例提供的构建词向量表示模型的方法，包括以下步骤：S110、S120、S130、S140和S150。

在步骤S110，针对待训练语料中目标词的上下文，确定上述上下文中每个词对应的训练初始义原。

待训练语料是针对步骤S150中的文本预测模型来描述的。本公开的实施例中采用融合标注义原所对应的先验语言学知识和上下文学习到的语境理解信息这两个方面信息的思路，在步骤S110～S140中基于正交义原向量进行上下文中每个词的向量表示，在步骤S150中将基于正交义原向量表示的上下文词向量作为训练输入，对文本预测模型进行训练，在训练过程中学习得到融合有先验语言学知识和上下文语境的向量表示。

在步骤S110中，待训练语料可以是一个语料集，通过在待训练语料中确定选取窗口内的目标语段，可以确定用于进行向量表示预测的目标词和该目标词周围的上下文。例如参照图2所示，选取的预设窗口长度为5，目标词w_t的左右各2个词w_t-2、w_t-1、w_t+1、w_t+2为上下文中的词，上下文中的词作为输入层的输入。

本公开的实施例中，XX的上下文的含义是指：XX按照阅读方向顺序或逆序至少一个方向上选取的一个或多个词，可以仅沿着一个方向选取，也可以沿着两个方向同时选取。

本公开的实施例中，可以根据预先构建的知识库来确定上下文中每个词对应的训练初始义原，上述知识库例如为hownet知识库。

本公开的实施例中，为了区分构建词向量表示模型这一阶段和使用词向量表示模型进行词向量表示这一阶段，将模型构建阶段中上下文中每个词对应的初始义原描述为训练初始义原；将模型使用阶段的初始义原描述为实测初始义原。其他差异化描述方式可以参照理解，后续不再说明。

在步骤S120，对义原库中的初始义原向量进行正交化处理，得到正交义原向量。

词向量可以表示为相关义原向量张成的子空间投影，每个词的词向量可以表示为所包含的义原对应向量的加权平均。本公开的实施例中，利用Householder正交化处理方法，对初始化义原矩阵进行正交化处理，得到一个相互正交化的义原向量组成的单位正交基义原矩阵，然后通过义原向量表示得到词向量表示。

在一些实施例中，上述步骤S120中，对义原库中的初始义原向量进行正交化处理，得到正交义原向量，包括：基于Householder(豪斯霍尔德)变换算法，对义原库中的初始义原向量进行正交化处理，得到正交义原向量。

通过采用Householder正交化方法，相对于其他正交化方法(例如Schmidt正交化方法，该方法的误差累积速度较快)而言具有较高的精度、更低的计算复杂度，而且基于该方式进行正交化之后的向量表示效果更优。

在一些实施例中，上述基于Householder变换算法，对义原库中的初始义原向量进行正交化处理，得到正交义原向量，包括：

基于义原库中的初始义原向量构建初始义原矩阵M_N，义原向量的总数为N个，每个初始义原的义原向量的维度为S维，N和S为正整数；

基于Householder变换算法，对上述初始义原矩阵M_N进行矩阵分解，将上述初始义原矩阵M_N分解为正交矩阵Q和三角矩阵R，三角矩阵R满足以下表达式：Q^T·M_N＝R，·表示矩阵乘积，T表示矩阵转置；其中，正交矩阵Q是N×N维的酉矩阵(酉矩阵一般指幺正矩阵，幺正矩阵表示的就是厄米共轭矩阵等于逆矩阵)；正交矩阵Q的列向量是N组单位正交基，作为与上述初始义原向量对应的正交义原向量；三角矩阵R是N×S维的三角形矩阵，例如后续公式(7)示例的上三角矩阵。

上述示例中，N和S的取值可以相等，也可以不相等，为了简化说明，这里以S＝N来示例说明对初始义原向量进行正交化处理的过程。

在一些实施例中，初始义原矩阵表示为如下表达式：

其中，分别表示第1个义原向量、第2个义原向量、……、第N个义原向量。每个义原向量的维数为S维，这里以S＝N作为示例。

基于Householder变换算法，进行矩阵分解的过程如下：

第一步，进行一维正交分解，计算第1个分解的Householder矩阵：H₁：

其中，λ₁为的二范数，即/> 是N维的单位方向向量，/>

其中，I_N为N×N的单位矩阵，H₁是N×N的酉矩阵。

第二步，初始义原矩阵M_N进行一维正交分解后的矩阵为M_N-1，对M_N-1再进行分解：

M_N-1是(N-1)×(N-1)的矩阵，按列分块M_N-1可以表示为对其进行如下操作：

其中，λ′₁为的二范数，/>是N-1维的单位方向向量，/>

令则/>

第三步，对M_N-2重复第二步类似操作，如此下去，进行N-1次第二步类似操作，可以得到Householder矩阵H₁,H₂,...,H_N-1，使得各次分解的H矩阵满足以下表达式：

则存在以下表达式：

M_N＝H₁H₂...H_N-1R，(8)

Q＝H₁H₂...H_N-1，(9)

其中，Q是N×N的酉矩阵，Q的列向量是N组单位正交基，N组单位正交基与原有的初始义原向量一一对应，为初始义原向量对应的正交义原向量。

在步骤S130，在上述正交义原向量中确定与上述训练初始义原对应的目标正交义原向量。

由于在步骤S120中已经明确了各个初始义原向量和正交义原向量之间的正交对应关系，那么可以根据上下文中各个词所包含的训练初始义原来确定所对应的目标正交义原向量。

在步骤S140，基于正交向量表示模型，根据上述目标正交义原向量对上述上下文中每个词进行向量表示，对应输出上下文词向量。

参照图2所示，第一层为输入层，用于输入上下文的各个词。第二层为正交义原层，用于示意这些词各自所包含的义原对应的正交义原向量，在实现架构中，第二层可以作为正交向量表示模型，参照图2中虚线框所示，通过根据上述目标正交义原向量对上述上下文中每个词进行向量表示，对应输出上下文词向量。第三层为词向量层，该词向量层相当于文本预测模型的输入层，这里以cbow模型作为文本预测模型的示例。词向量层接收上下文词向量这一输入，并利用投影矩阵M_project将上下文词向量投影到D维，得到为D维的词向量表示。第四层为cbow隐藏层，隐藏层利用投影后的所有上下文词的词向量求和并求平均值得到上下文词向量表示。第五层为cbow输出层，通过softmax(软最大化)函数预测目标词对应的预测概率。

例如，在一些实施例中，将目标正交义原向量对应的系数取值设置为1，其他正交义原向量对应的系数取值设置为0，得到上述上下文中每个词对应的系数行向量(参照后续公式(12)所示)；基于向量表示模型，将上述上下文中每个词对应的系数行向量和由全部正交义原构成的正交矩阵Q进行矩阵乘积运算，并将运算结果乘以1/k，k表示当前词所包含的初始义原的个数。

在一些实施例中，词语的词向量表示可以认为是其所含义原的义原向量的加权平均，表示如下：

其中表示词w对应的词向量，/>表示词w所包含的第r个目标正交义原向量，r的取值为1～k，k表示词w包含的义原总个数。

例如，对知识库Hownet中的词进行id编码，设Hownet词表有V个词，各个词和对应编码的关系如下：

根据Hownet义原标注体系，构建词(word)与义原索引(sem)之间的系数矩阵M_word-sem：

其中，表示第i个词的系数行向量。

M_word-sem的元素满足如下约束：在第j个义原属于第i个词的情况下，对应的系数x_i,j取值为1，否则，系数取值为0；具体可以表示为以下表达式：

这里i∈[1,V],j∈[1,N]。

对于训练语料中词w_i，通过词w_i对应id得到M_word-sem中对应的系数行向量再通过下面表达式得到w_i的词向量表示：

其中，公式(14)是公式(10)对应的矩阵表达形式，k表示词w包含的义原总个数，表示第i个词所包含的义原对应的目标正交义原向量的加权和。

在步骤S150，将上述上下文词向量输入至文本预测模型中，对上述文本预测模型进行训练，上述文本预测模型输出与预测词向量对应的预测词概率，训练标签为上述目标词；其中，上述正交向量表示模型和训练完成的文本预测模型构成词向量表示模型。

这里以cbow模型作为文本预测模型的示例来进行说明，其他模型可以基于各个模型的训练过程来进行参照理解。

在一些实施例中，参照图2所示，cbow模型的输入层会根据实际需要，将输入的上下文词向量投影到指定维度，表达式如下：

其中，M_project表示投影矩阵，例如为N×D维的矩阵；投影后的词向量是一个D维的词向量。

cbow模型的隐藏层利用投影后的上下文词向量求和并计算平均值，得到上下文词向量表示，表达式如下：

其中，L为设定窗口长度(包含目标词和上下文)，表示目标词的上下文中各个词的词向量，/>一个D维的向量，将其作为隐藏层隐含状态值；

然后，通过权重矩阵Q_D×V′转化为V′维的向量，表达式如下：

其中，V′为训练语料词表大小。

参照图2所示，cbow模型的输出层对(例如/>这一输出在实测阶段可以作为词向量表示模型对应的预测词向量的表示结果)利用softmax函数进行归一化处理得到每一个元素反映中心词为训练语料词表中相应词语的概率，比如，/>中第i个元素o_i对应训练语料词表中第i个词，元素/>与训练词表中词w_t对应。

给定上下文集合w_c，中心词为w_t的概率p的表达式为：

通过构建损失函数L，基于梯度下降算法，进行多次迭代，通过下式不断调整M_project和Q_D×V′，使得损失函数最小化：

基于步骤S110～S150，通过对义原库中的初始义原向量进行正交化处理，得到正交义原向量，正交化处理后的正交义原向量之间无信息重叠并能从各自的维度涵盖义原信息，进一步利用正交义原向量来表示目标词的上下文中各个词，得到上下文词向量，由于正交义原向量包含相对更为准确且各自独立的语义信息，因此上下文词向量相较于采用初始义原向量而言更为准确且接近理想状态，同时通过结合义原标注的知识和对文本预测模型进行训练，使得最终得到的词向量表示模型能够融合标注义原所对应的先验语言学知识和上下文学习到的语境理解信息这两个方面信息，能够得到质量更好的词向量表示结果；同时由于输入的上下文词向量相对准确，相较于相关技术中随机化训练输入而言，还可以加快迭代收敛速度，提升训练效率，减少迭代次数。

在一些实施例中发现，尽管hownet目前已经覆盖了大部分语料，仍然会有部分词语覆盖不到，本公开的实施例提供了相应的处理逻辑来实现该方案能够处理知识库覆盖和不覆盖的情形，由于不覆盖的情形占比很少，因此本公开实施例提供的策略既能实现对应处理，又对于结果的准确度的不利影响相对较小。

图3示意性地示出了根据本公开实施例的步骤S110的详细实施流程图。

参照图3所示，在一些实施例中，上述步骤S110中，针对待训练语料中目标词的上下文，确定上述上下文中每个词对应的训练初始义原，包括以下步骤：S310、S320、S331、S341和S332。

在步骤S310，根据设定窗口长度，在上述待训练语料中目标词的阅读顺序或逆序至少一个方向进行范围选取，得到包含上述目标词和上下文的目标语段。

例如，设定窗口长度为5，沿着阅读顺序后从目标词的后2个词和前2个词进行选取，得到包含5个词的目标语段。

在步骤S320，确定上述上下文中每个词是否在预先构建的知识库的覆盖范围之内，上述知识库用于存储：已有词和初始义原之间的对应关系。

例如，上述知识库可以是hownet知识库。

在步骤S331，针对上述上下文中处于上述知识库覆盖范围内的第一词，根据上述知识库中的已有词进行匹配，得到与上述第一词匹配的匹配词。

在步骤S341，根据上述匹配词对应的匹配初始义原和正交化对应关系，确定对应的训练初始义原。

由于知识库中存储了已有词和初始义原之间的对应关系，可以通过匹配搜索来得到与第一词匹配的匹配词，并基于正交化对应关系，确定匹配词的匹配初始义原所对应的训练初始义原。

在步骤S332，针对上述上下文中处于上述知识库覆盖范围外的第二词，对上述第二词标记上未知类别标签，并新增额外义原向量，并标记新增的额外义原向量与上述未知类别标签对应，将上述额外义原向量作为上述第二词对应的训练初始义原。

在一些实施例中，额外义原向量可以基于机器先验知识或人工先验知识进行设置，或者直接根据人工配置信息进行设置。

通过针对知识库覆盖范围之外的第二词设置对应的处理逻辑，通过对第二词进行打标，并针对性新增对应的额外义原向量，构成的训练初始义原后续执行步骤S120～S150，实现该方案能够处理知识库覆盖和不覆盖的情形，由于不覆盖的情形占比很少，因此本公开实施例提供的策略既能实现对应处理，又对于结果的准确度的不利影响相对较小。

在一具体实例中，采用1998年XX日报的新闻语料数据，利用Hownet词表(知识库的一种示例)对XX日报语料进行分词，对其分词、去除停用词、清洗后统计，Hownet词表中词对***词的覆盖度大约为98％，对于不包含在Hownet词表中的词，设定为“UNK”类别，对应一个UNK标签下的额外义原。例如，Hownet有2540个义原，因此加上额外义原之后义原数量为2541，则义原正交单位矩阵的维度大小为[2541,2541]。训练语料词表大小为102883个词，Hownet词表包含135009个词，预设窗口长度L＝5，执行本公开实施例提供的方法后，得到词向量表示模型，该词向量表示模型中的预测词向量中预测概率最大的作为目标词的词向量表示结果。

利用得到的词向量表示结果来计算词语相似度，词语相似度语料采用wordsim-297标准数据集，数据集每行格式为(w₁,w₂,score)，w₁和w₂为一对词语，score为人工评分。通过余弦相似度计算两个词语的相似度，w₁和w₂余弦相似度表示如下：

其中，和/>分别表示两个词w₁和w₂各自对应的词向量表示结果。

再将相似度结果与人工评分计算Spearman相关系数，相关系数越大，说明计算结果与人工打分结果越接近，证明词向量质量越好。

将本公开实施例提供的方案与采用cbow模型进行学习词向量表示的方案进行效果对比，得到以下表1对应的实验结果。

词相似度实验结果

根据表1可知，本公开实施例提供的方法中，由于正交义原向量包含相对更为准确且各自独立的语义信息，因此上下文词向量相较于采用初始义原向量而言更为准确且接近理想状态，同时通过结合义原标注的知识和对文本预测模型进行训练，使得最终得到的词向量表示模型能够融合标注义原所对应的先验语言学知识和上下文学习到的语境理解信息这两个方面信息，能够得到质量更好的词向量表示结果；同时由于输入的上下文词向量相对准确，相较于相关技术中随机化训练输入而言，还可以加快迭代收敛速度，提升训练效率，减少迭代次数。此外，通过采用Householder正交化方法，相对于其他正交化方法而言具有较高的精度、更低的计算复杂度，而且基于该方式进行正交化之后的向量表示效果更优。

为了便于理解，下面以具体实例来说明如何步骤S110～S140的执行过程。

假设Hownet只有三个词四个义原，三个词为：“队伍”、“已经”、“回归”。4个义原：“队伍”、“已经”、“回归”、“返回”。词与义原对应：词“队伍”包含一个“队伍”义原，词“已经”包含一个“已经”义原，词“回归”包含两个义原“回归”和“返回”。

假设初始义原矩阵M_N为：

队伍已经回归返回

取则/>则可以计算H₁：

使得：

第二步：

取则/>则：

/>

令

则

那么M_N＝H₁H₂R，

令可以看出Q是正交单位矩阵，将Q^T作为义原正交单位矩阵，每一行为一个义原对应的向量。

构建词-id：

构建的词-义原索引矩阵为：

假设句子：队伍已经回归

其中，“队伍”、“已经”是单义原，“回归”包含两个义原：“回归”和“返回”。

对于句子“队伍已经回归”，可以通过词id得到每个词的对应词-义原索引，例如，“队伍”id为0，对应M_word-sem第一行[1 000],假设词“队伍”是单义原，k＝1。进而“队伍”的词向量表示为：

同理，得到词“已经”的词向量表示

词“回归”id为2，有两个义原，对应M_word-sem第三行[0011]，由于“回归”有两个义原，k＝2。进而“回归”的词向量表示为：

基于相同的构思，本公开的第二个示例性实施例提供了一种词向量表示的方法。

图4示意性地示出了根据本公开实施例的词向量表示的方法的流程图。

参照图4所示，本公开实施例提供的词向量表示的方法，包括以下步骤：S410、S420、S430。

在步骤S410，针对待处理语句中待处理目标词对应的目标上下文，确定上述目标上下文中每个词对应的实测初始义原。

在步骤S420，在正交义原向量中确定与上述实测初始义原对应的实测正交义原向量。

在步骤S430，将上述实测正交义原向量输入至词向量表示模型中进行处理；将预测概率最大的预测词对应的预测词向量确定为上述待处理目标词的词向量表示结果。

其中，基于正交向量表示模型，根据上述实测正交义原向量对上述目标上下文中每个词进行向量表示，对应输出实测上下文词向量；将上述实测上下文词向量输入至训练好的文本预测模型中，输出与预测词向量对应的预测词概率；其中，上述正交义原向量和上述词向量表示模型采用上述构建词向量表示模型的方法构建得到。

在一些实施例中，上述步骤S410中，针对待处理语句中待处理目标词对应的目标上下文，确定上述目标上下文中每个词对应的实测初始义原，包括：

对上述待处理语句进行分词处理，定位至待处理目标词；

根据实测窗口长度，在上述待处理目标词周围沿着阅读顺序或逆序至少一个方向进行词选取，得到包含上述待处理目标词和目标上下文的实测目标语段；

确定上述目标上下文中每个词是否在预先构建的知识库的覆盖范围之内，上述知识库用于存储：已有词和初始义原之间的对应关系；

针对上述目标上下文中处于上述知识库覆盖范围内的第一实测词，根据上述知识库中的已有词进行匹配，得到与上述第一词匹配的实测匹配词；

根据上述实测匹配词对应的实测匹配初始义原和正交化对应关系，确定对应的实测初始义原；

针对上述目标上下文中处于上述知识库覆盖范围外的第二实测词，对上述第二实测词标记上未知类别标签，并新增实测额外义原向量，并标记新增的实测额外义原向量与上述未知类别标签对应，将上述额外实测义原向量作为上述第二实测词对应的实测初始义原。

在一些实施例中，上述基于正交向量表示模型，根据上述实测正交义原向量对上述目标上下文中每个词进行向量表示，对应输出实测上下文词向量，包括：基于正交向量表示模型，对上述实测正交义原向量求取加权和，得到目标上下文中每个词对应的实测上下文词向量。

可以理解的是，第一个实施例的全部内容可以适应性并入至本实施例，这里不再赘述。

本公开的第三个示例性实施例提供了一种构建词向量表示模型的装置。

图5示意性地示出了根据本公开实施例的构建词向量表示模型的装置的结构框图。

参照图5所示，本公开实施例提供的构建词向量表示模型的装置500包括：第一义原确定模块501、正交处理模块502、第一义原组成确定模块503、第一词向量表示模块504和训练模块505。

上述第一义原确定模块501用于针对待训练语料中目标词的上下文，确定上述上下文中每个词对应的训练初始义原。

上述正交处理模块502用于对义原库中的初始义原向量进行正交化处理，得到正交义原向量。

上述第一义原组成确定模块503用于在上述正交义原向量中确定与上述训练初始义原对应的目标正交义原向量。

上述第一词向量表示模块504用于基于正交向量表示模型，根据上述目标正交义原向量对上述上下文中每个词进行向量表示，对应输出上下文词向量。

上述训练模块505用于将上述上下文词向量输入至文本预测模型中，对上述文本预测模型进行训练，上述文本预测模型输出与预测词向量对应的预测词概率，训练标签为上述目标词；其中，上述正交向量表示模型和训练完成的文本预测模型构成词向量表示模型。

可以理解的是，第一个实施例的全部内容可以并入至本实施例，各个实施细节或者更多的步骤所对应的功能模块可以根据第一个实施例进行适应性调整，这里不再赘述。

本公开的第四个示例性实施例提供了一种词向量表示的装置。

图6示意性地示出了根据本公开实施例的词向量表示的装置的结构框图。

参照图6所示，本公开实施例提供的词向量表示的装置600包括：第二义原确定模块601、第二义原组成确定模块602和处理模块603。上述装置600可以包含词向量表示模型或者能够调用词向量表示模型。

上述第二义原确定模块601用于针对待处理语句中待处理目标词对应的目标上下文，确定上述目标上下文中每个词对应的实测初始义原。

上述第二义原组成确定模块602用于在正交义原向量中确定与上述实测初始义原对应的实测正交义原向量。

上述处理模块603用于将上述实测正交义原向量输入至词向量表示模型中进行处理；其中，基于正交向量表示模型，根据上述实测正交义原向量对上述目标上下文中每个词进行向量表示，对应输出实测上下文词向量；将上述实测上下文词向量输入至训练好的文本预测模型中，输出与预测词向量对应的预测概率；其中，上述正交义原向量和上述词向量表示模型采用上述构建词向量表示模型的方法构建得到或采用上述构建词向量表示模型的装置构建得到；将预测概率最大的预测词对应的预测词向量确定为上述待处理目标词的词向量表示结果。

可以理解的是，第二个实施例的全部内容可以并入至本实施例，各个实施细节或者更多的步骤所对应的功能模块可以根据第一个实施例进行适应性调整，这里不再赘述。

上述装置500或装置600所包含的功能模块中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。装置500或装置600所包含的功能模块中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，装置500或装置600所包含的功能模块中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

本公开的第五个示例性实施例提供了一种电子设备。

图7示意性示出了本公开实施例提供的电子设备的结构框图。

参照图7所示，本公开实施例提供的电子设备700包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701、通信接口702和存储器703通过通信总线704完成相互间的通信；存储器703，用于存放计算机程序；处理器701，用于执行存储器上所存放的程序时，实现如上所述的构建词向量表示模型的方法或词向量表示的方法。

本公开的第六个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的构建词向量表示模型的方法或词向量表示的方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种构建词向量表示模型的方法，其特征在于，包括：

针对待训练语料中目标词的上下文，确定所述上下文中每个词对应的训练初始义原；

对义原库中的初始义原向量进行正交化处理，得到正交义原向量；

在所述正交义原向量中确定与所述训练初始义原对应的目标正交义原向量；

基于正交向量表示模型，根据所述目标正交义原向量对所述上下文中每个词进行向量表示，对应输出上下文词向量；

将所述上下文词向量输入至文本预测模型中，对所述文本预测模型进行训练，所述文本预测模型输出与预测词向量对应的预测词概率，训练标签为所述目标词；

其中，所述正交向量表示模型和训练完成的文本预测模型构成词向量表示模型。

2.根据权利要求1所述的方法，其特征在于，所述对义原库中的初始义原向量进行正交化处理，得到正交义原向量，包括：

基于Householder变换算法，对义原库中的初始义原向量进行正交化处理，得到正交义原向量。

3.根据权利要求2所述的方法，其特征在于，所述基于Householder变换算法，对义原库中的初始义原向量进行正交化处理，得到正交义原向量，包括：

基于Householder变换算法，对所述初始义原矩阵M_N进行矩阵分解，将所述初始义原矩阵M_N分解为正交矩阵Q和三角矩阵R，三角矩阵R满足以下表达式：Q^T·M_N＝R，·表示矩阵乘积，T表示矩阵转置；

其中，正交矩阵Q是N×N维的酉矩阵；正交矩阵Q的列向量是N组单位正交基，作为与所述初始义原向量对应的正交义原向量；三角矩阵R是N×S维的三角形矩阵。

4.根据权利要求1所述的方法，其特征在于，针对待训练语料中目标词的上下文，确定所述上下文中每个词对应的训练初始义原，包括：

根据设定窗口长度，在所述待训练语料中目标词的阅读顺序或逆序至少一个方向进行范围选取，得到包含所述目标词和上下文的目标语段；

确定所述上下文中每个词是否在预先构建的知识库的覆盖范围之内，所述知识库用于存储：已有词和初始义原之间的对应关系；

针对所述上下文中处于所述知识库覆盖范围内的第一词，根据所述知识库中的已有词进行匹配，得到与所述第一词匹配的匹配词；根据所述匹配词对应的匹配初始义原和正交化对应关系，确定对应的训练初始义原；

针对所述上下文中处于所述知识库覆盖范围外的第二词，对所述第二词标记上未知类别标签，并新增额外义原向量，并标记新增的额外义原向量与所述未知类别标签对应，将所述额外义原向量作为所述第二词对应的训练初始义原。

5.根据权利要求1所述的方法，其特征在于，所述基于正交向量表示模型，根据所述目标正交义原向量对所述上下文中每个词进行向量表示，对应输出上下文词向量，包括：

基于正交向量表示模型，对所述目标正交义原向量求取加权和，得到上下文中每个词对应的上下文词向量。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述文本预测模型为以下模型中的一种：

word2vec模型、BERT模型、GloVe模型或ELMo模型，所述word2vec模型包括cbow模型或skip-gram模型。

7.一种词向量表示的方法，其特征在于，包括：

针对待处理语句中待处理目标词对应的目标上下文，确定所述目标上下文中每个词对应的实测初始义原；

在正交义原向量中确定与所述实测初始义原对应的实测正交义原向量；

将所述实测正交义原向量输入至词向量表示模型中进行处理；其中，基于正交向量表示模型，根据所述实测正交义原向量对所述目标上下文中每个词进行向量表示，对应输出实测上下文词向量；将所述实测上下文词向量输入至训练好的文本预测模型中，输出与预测词向量对应的预测词概率；其中，所述正交义原向量和所述词向量表示模型采用权利要求1-6中任一项所述的方法构建得到；

将预测概率最大的预测词对应的预测词向量确定为所述待处理目标词的词向量表示结果。

8.根据权利要求7所述的方法，其特征在于，针对待处理语句中待处理目标词对应的目标上下文，确定所述目标上下文中每个词对应的实测初始义原，包括：

对所述待处理语句进行分词处理，定位至待处理目标词；

根据实测窗口长度，在所述待处理目标词周围沿着阅读顺序或逆序至少一个方向进行词选取，得到包含所述待处理目标词和目标上下文的实测目标语段；

确定所述目标上下文中每个词是否在预先构建的知识库的覆盖范围之内，所述知识库用于存储：已有词和初始义原之间的对应关系；

针对所述目标上下文中处于所述知识库覆盖范围内的第一实测词，根据所述知识库中的已有词进行匹配，得到与所述第一词匹配的实测匹配词；根据所述实测匹配词对应的实测匹配初始义原和正交化对应关系，确定对应的实测初始义原；

针对所述目标上下文中处于所述知识库覆盖范围外的第二实测词，对所述第二实测词标记上未知类别标签，并新增实测额外义原向量，并标记新增的实测额外义原向量与所述未知类别标签对应，将所述额外实测义原向量作为所述第二实测词对应的实测初始义原。

9.一种构建词向量表示模型的装置，其特征在于，包括：

第一义原确定模块，用于针对待训练语料中目标词的上下文，确定所述上下文中每个词对应的训练初始义原；

正交处理模块，用于对义原库中的初始义原向量进行正交化处理，得到正交义原向量；

第一义原组成确定模块，用于在所述正交义原向量中确定与所述训练初始义原对应的目标正交义原向量；

第一词向量表示模块，用于基于正交向量表示模型，根据所述目标正交义原向量对所述上下文中每个词进行向量表示，对应输出上下文词向量；

训练模块，用于将所述上下文词向量输入至文本预测模型中，对所述文本预测模型进行训练，所述文本预测模型输出与预测词向量对应的预测词概率，训练标签为所述目标词；

10.一种词向量表示的装置，其特征在于，包括：

第二义原确定模块，用于针对待处理语句中待处理目标词对应的目标上下文，确定所述目标上下文中每个词对应的实测初始义原；

第二义原组成确定模块，用于在正交义原向量中确定与所述实测初始义原对应的实测正交义原向量；

处理模块，用于将所述实测正交义原向量输入至词向量表示模型中进行处理；其中，基于正交向量表示模型，根据所述实测正交义原向量对所述目标上下文中每个词进行向量表示，对应输出实测上下文词向量；将所述实测上下文词向量输入至训练好的文本预测模型中，输出与预测词向量对应的预测概率；其中，所述正交义原向量和所述词向量表示模型采用权利要求1-6中任一项所述的方法构建得到或采用权利要求9所述的装置构建得到；

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。