CN108038105B

CN108038105B - 一种对未登录词生成仿真词向量的方法及装置

Info

Publication number: CN108038105B
Application number: CN201711402565.2A
Authority: CN
Inventors: 蒋宏飞; 李健铨; 晋耀红; 杨凯程
Original assignee: Dinfo Beijing Science Development Co ltd
Current assignee: Dingfu Intelligent Technology Co., Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2020-06-05
Anticipated expiration: 2037-12-22
Also published as: CN108038105A

Abstract

本申请实施例提供了一种对未登录词生成仿真词向量的方法及装置，为了解决未登录词问题，从已知的词向量空间中，获取未登录词的n元语法分词在词向量空间中的子集；然后，根据子集中n元语法分词的词向量，生成子集向量；然后，获取未登录词的完全随机向量；最后，将子集向量和未登录词的完全随机向量进行加权求和，生成未登录词的仿真词向量。本申请的技术方案生成的仿真词向量中，子集向量加权的部分，使仿真词向量具有与未登录词语义关联的特性，完全随机向量加权的部分，使仿真词向量具有灵活多变的特性，由于同时具备这两种特性，使用本申请生成的仿真词向量在对话***中生成的应答准确率高，又能够灵活多变而具有应答多样性。

Description

一种对未登录词生成仿真词向量的方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种对未登录词生成仿真词向量的方法及装置。

背景技术

随着自然语言处理技术的发展，基于自然语言处理技术建立起来的对话***也得到了广泛的应用，常用的对话***例如聊天机器人，能够根据用户输入的聊天内容，自动生成相应地应答。

现有技术中，对话***根据不同的应答方法可分为基于知识库的检索式对话***和基于深度学习模型的生成式对话***。其中，基于深度学习模型的对话***，通过建立一个基于RNN(递归神经网络：Recurrent Neural Networks)的对话模型，并使用该模型进行大量的语料训练，使对话模型能够从问答对中学习到对未知对话的潜在应答模式，从而其回答内容不仅局限于训练语料中已有的知识。

基于深度学习模型的对话***在进行语料训练和语料应答时，以词向量为操作对象，词向量是对语料中分词的一种数学化的表达形式。词向量在深度学习中的贡献是：通过将两个词向量计算余弦夹角或欧氏距离，能够得到两个分词的距离，两个分词的距离越小，表示两个分词的相似度越高。在对话***的训练过程中，会根据训练语料生成包含已知分词词向量的词向量空间；在对话***的应答过程中，根据问题分词的词向量与已知分词的词向量之间的距离，并结合机器学习的算法生成问题的应答内容。

但是，基于语料训练得到的词向量空间对于专业领域的业务术语、方言词汇、外文、组合词的包含能力较差，因此，在问题内容不受限的开放式对话***中，对话***经常会遇到未登录词(OOV：out-of-vocabulary)，未登录词也称集外词，是指词向量空间中未包含的分词。当对话***遇到包含未登录词的问题时，其给出应答内容的准确率就会下降，这种情况被称为未登录词(OOV)问题。目前，现有技术对未登录词问题缺乏有效的解决办法。

发明内容

本申请实施例提供了一种对未登录词生成仿真词向量的方法及装置，以解决现有技术中存在的问题。

第一方面，本申请实施例提供了一种对未登录词生成仿真词向量的方法，所述方法包括：

从已知的词向量空间中，获取未登录词的n元语法分词在词向量空间中的子集；所述子集为非空集或空集，当所述子集为非空集时，所述子集包含所述未登录词的至少一个n元语法分词；

当所述子集为非空集时，根据所述子集中n元语法分词的词向量，生成子集向量；

获取所述未登录词的完全随机向量；

将所述子集向量和所述未登录词的完全随机向量进行加权求和，生成所述未登录词的仿真词向量。

第二方面，本申请实施例提供了一种对未登录词生成仿真词向量的装置，所述装置包括：

子集获取模块，用于从已知的词向量空间中，获取未登录词的n元语法分词在词向量空间中的子集；所述子集为非空集或空集，当所述子集为非空集时，所述子集包含所述未登录词的至少一个n元语法分词；

子集向量生成模块，用于当所述子集为非空集时，根据所述子集中n元语法分词的词向量，生成子集向量；

完全随机向量获取模块，用于获取所述未登录词的完全随机向量；

仿真词向量生成模块，用于将所述子集向量和所述未登录词的完全随机向量进行加权求和，生成所述未登录词的仿真词向量。

由以上技术方案可知，本申请实施例为了解决现有技术的基于深度学习的对话***存在的未登录词问题，提供了一种对未登录词生成仿真词向量的方法及装置，从已知的词向量空间中，获取未登录词的n元语法分词在词向量空间中的子集；然后，根据子集中n元语法分词的词向量，生成子集向量；然后，获取未登录词的完全随机向量；最后，将子集向量和未登录词的完全随机向量进行加权求和，生成未登录词的仿真词向量。本申请的技术方案生成的仿真词向量中：子集向量加权的部分，使仿真词向量具有与未登录词语义关联的特性；完全随机向量加权的部分，使仿真词向量具有灵活多变的特性。由于本申请的仿真词向量同时具备这两种特性，因此，使用本申请生成的仿真词向量在对话***中生成的应答准确率高，与问题的关联度高，又能够灵活多变而具有应答多样性，从而避免出现重复而单调的应答，极大地提高用户好感度。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种对未登录词生成仿真词向量的方法的流程图；

图2为本申请实施例提供的一种对未登录词生成仿真词向量的方法步骤S110的流程图；

图3为本申请实施例提供的一种对未登录词生成仿真词向量的方法步骤S120的流程图；

图4为本申请实施例提供的一种对未登录词生成仿真词向量的方法步骤S130的流程图；

图5为本申请实施例提供的一种对未登录词生成仿真词向量的方法步骤S133的流程图；

图6为本申请实施例提供的一种对未登录词生成仿真词向量的方法的简化示意图；

图7为本申请实施例提供的另一种对未登录词生成仿真词向量的方法步骤S110的流程图；

图8为本申请实施例提供的另一种对未登录词生成仿真词向量的方法的简化示意图；

图9为本申请实施例提供的一种对未登录词生成仿真词向量的装置框图；

图10为本申请实施例提供的一种对未登录词生成仿真词向量的装置子集获取模块210的框图；

图11为本申请实施例提供的另一种对未登录词生成仿真词向量的装置子集获取模块210的框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

基于深度学习模型的对话***在进行语料训练和语料应答时，以词向量为操作对象，词向量是对语料中分词的一种数学化的表达形式。词向量在深度学习中的贡献是：通过将两个词向量计算余弦夹角或欧氏距离，能够得到两个分词的距离，两个分词的距离越小，表示两个分词的相似度越高。

在自然语言处理技术领域，一种词向量是One-Hot Representation型，这种词向量根据分词词典中已知分词的数量来确定词向量的维度，其中，词向量中的每个维度代表分词词典中的一个分词，因此，在one-hot representation型的词向量中，只有一个维度的数值为1，其余维度均为0。由于，在一个分词词典中已知分词的数量通常很多，因此，One-Hot Representation型的词向量维度非常高。但是，高维度的词向量在运用到深度学习领域中时，容易受到维度灾难的困扰，并且，由于这种词向量中每个分词独立拥有一个维度，因此很难反映出两个词之间的相似性，不适用于深度学习模型。

因此，在基于深度学习模型的对话***中，通常使用的是另一种词向量：Distributed Representation。这种词向量是通过语料训练将每个分词映射成一种固定长度的低维实数向量，将所有Distributed Representation型的词向量放在一起会形成一个词向量空间，在词向量空间中，每个词向量对应词向量空间的一个点，例如，某个词向量为：[0.792，-0.177，-0.107，0.109，…]。在词向量空间中，两个点之间的距离就代表了两个分词之间的相似度，可用两个词向量之间的余弦夹角和欧式距离表示。基于DistributedRepresentation型词向量的特性，本申请中的词向量优选Distributed Representation型。

现有技术中，受语料数量和内容丰富程度的限制，词向量空间对专业领域的业务术语、方言词汇、外文、组合词的包含能力较差，因此，在问题内容不受限的开放式对话***中，对话***经常会遇到未登录词(OOV：out-of-vocabulary)，由于未登录词不存在于词向量空间中，当对话***遇到包含未登录词的问题时，无法利用词向量空间进行答案匹配，因此，对包含未登录词的问题不能给出应答。

为了解决现有技术中的未登录词问题，一种方案是：当用户提出的问题包含未登录词时，使用随机生成的方式对未登录词生成一个随机词向量，这个随机词向量能够映射到词向量空间中的一个点，然后用这个随机词向量作为未登录词的词向量进行词向量的匹配，从而对包含未登录词的问题给出应答。这种方案能够解决现有技术的基于深度学习的对话***中对未登录词不能给出应答的问题，但是，由于在这种方案中，未登录词的词向量是随机生成，具有不确定性，因此，虽然能够对包含未登录词的问题进行应答，但是其应答的内容得不到保证，无应答准确性可言，未登录词问题依然没有得到彻底的解决。

实施例一

本申请提供了一种对未登录词生成仿真词向量的方法，图1为本申请实施例提供的一种对未登录词生成仿真词向量的方法的流程图，如图1所示，所述方法包括：

步骤S110，从已知的词向量空间中，获取未登录词的n元语法分词在词向量空间中的子集；所述子集为非空集或空集，当所述子集为非空集时，所述子集包含所述未登录词的至少一个n元语法分词。

n元语法(英语：n-gram)是指文本中连续出现的n个语词。根据未登录词包含的n个分词，可从中遍历出包含未登录词的(n-1)～1个分词的组合，这些组合称为n元语法分词，其中，包含n-1个分词的组合称为n-1元语法分词，包含n-2个分词的组合成为n-2元语法分词。例如，对于一个已知的词向量空间，“一键优化”为未登录词，如果将其看成一个4元语法(即4-gram)，那么，它的n元语法分词可以包括：3元语法分词，如一键优、一键化、一优化等；2元语法分词，如一键、优化、键化等；1元语法分词，如一、键等。

本申请中，找出未登录词存在于词向量空间中的n元语法分词，从而，获取到未登录词的n元语法分词在词向量空间中的子集。子集中不必须包含未登录词的所有n元语法分词，当已知词向量空间中存在未登录词的n元语法分词时，子集为非空集且至少包含未登录词的一个n元语法分词；当已知词向量空间中不存在未登录词的n元语法分词时，子集为空集。例如，当已知的词向量空间中包含：一键优、一优化时，子集中可以仅包含一键优，也可以包含一键优和一优化。

对于未登录词来说，虽然不整体性地存在于已知的词向量空间中，但是，其n元语法分词却可能在词向量空间中找到多个结果。由于每个n元语法分词都是未登录词的一部分，能够表达出未登录词的部分语义，因此，处理未登录词的n元语法分词可作为解决未登录词问题的一个切入点。本申请中，获取未登录词的n元语法分词在词向量空间中的子集，通过n元语法分词建立起了未登录词与词向量空间的语义联系。

步骤S120，当所述子集为非空集时，根据所述子集中n元语法分词的词向量，生成子集向量。

由于，子集中的每个n元语法分词表达未登录词的部分语义，因此，如果综合子集中的n元语法分词的词向量，生成一个整体上的子集向量，就能够进一步表达未登录词的语义。

步骤S130，获取所述未登录词的完全随机向量。

在步骤S130中，使用随机生成的方式对未登录词生成一个随机向量，由于，在随机生成词向量的过程中不考虑未登录词的内容和语义，因此，随机生成的向量称为完全随机向量，完全随机向量能够映射到词向量空间中的一个点，并且，即使是同一个未登录词，每次生成的完全随机向量也不同，因此，完全随机向量灵活多变，完全随机向量参与到对话***中时，产生的应答也会呈现多样性。

步骤S140，将所述子集向量和所述未登录词的完全随机向量进行加权求和，生成所述未登录词的仿真词向量。

本申请中，子集向量反映出了未登录词的部分语义，而完全随机向量由于不带有语义限制而灵活多变，将这两种词向量加权求和，所生成的未登录词的仿真词向量既能够既与未登录词语义关联，又由于完全随机向量的权重参与而具有灵活多变的特性，从而，使用本申请生成的仿真词向量在对话***中生成的应答准确率高，与问题的关联度高，又能够灵活多变而避免出现重复而单调的应答，极大地提高用户好感度。

图2为本申请实施例提供的一种对未登录词生成仿真词向量的方法步骤S110的流程图，在一种可选择的实施方式中，步骤S110可以包括以下步骤：

需要说明的是，以下步骤S1111-S114构成一个条件循环的流程，其中步骤S112-S113根据循环条件会至少执行一次。

步骤S111，获取所述未登录词的字符长度L。

在中文未登录词中，将每个中文字符视作一个字符长度，因此，中文未登录词的字符长度L等于中文未登录词的字符数量，例如“一键优化”的字符长度为L＝4；在英文未登录词中，将每个英文单词视作一个字符长度，因此，英文未登录词的字符长度L等于英文未登录词的单词数量，例如“shake your hands”的字符长度为L＝3。在本申请实施例中，以中文未登录词为例说明本申请的技术方案，但本申请的技术方案同样适用于英文环境或其他语言环境。

步骤S112，获取所述未登录词的所有L-M元语法分词，M初始值为1，且L-M≥1。

在步骤S112中，M初始值为1，即：当未登录词的字符长度L＝4时，首先获取未登录词的所有3元语法分词，即(4-1)元语法分词。

示例地，获取未登录词“一键优化”的3元语法分词有：一键优、一键化、一优化、键优化。

由于，在未登录词的L-M元语法分词中，当M＝1时，L-M元语法分词的字符数量最多，与未登录词的关联度越高，越能反映出未登录词的语义；因此，本申请设置M的初始值为1，即，首先获取与未登录词语义关联度最高的L-1元语法分词，因此，步骤S112是为了提高本申请生成的仿真词向量与未登录词语义关联度的优选步骤。

步骤S113，查找所述L-M元语法分词在词向量空间中是否存在。

在步骤S113中，查找当前循环的步骤S112中获取到的未登录词的L-M元语法分词在词向量空间中是否存在。例如，当M＝1时，查找“一键优化”的3元语法分词：一键优、一键化、一优化、键优化中哪些在词向量空间中存在。

如果被查找的L-M元语法分词中有至少一个存在于词向量空间中，则步骤S113查找的结果为存在。

如果存在，跳转至步骤S114。

如果不存在，且L-M＞1，则将M的当前值加1，跳转至步骤S112。

如果被查找的L-M元语法分词都不存在于词向量空间中，则步骤S113的查找结果为不存在，此时，获取L-M的值，如果L-M＞1，说明当前的查找进度未到达未登录词的1元语法分词，还应该继续向低元查找，因此，将M的当前值加1，跳转至步骤S112。

示例地，如果一键优、一键化、一优化、键优化在词向量空间中均不存在，则获取L-M的值，此时M＝1，L-M＝3＞1，则将M的当前值加1，使M的值变为2，跳转至步骤S112。

再一次执行步骤S112时，M＝2，L-M＝2，获取未登录词的2元语法分词：一键、一优、一化、键优、键化、优化。然后根据获取的2元语法分词的结果继续执行步骤S113，实现循环过程。

如果不存在，且L-M＝1，则所述子集为空集，结束步骤S110。

如果在历经多次步骤S112-S113的循环之后，未登录词的L-M元词向量在词向量空间中仍然不存在，且此时L-M＝1，说明未登录词的所有n元语法分词在词向量空间中均不存在，则获取到的子集为空集，跳出循环，结束步骤S110。

步骤S114，对所有存在于词向量空间中的所述L-M元语法分词生成所述子集。

在步骤S114中，将当前循环中的步骤S113中查找到的存在于词向量空间中的L-M元语法分词生成子集，并结束步骤S110，停止继续的查找过程。

示例地，以未登录词“一键优化”为例，如果当M＝1时，步骤S113中查找到“一键优”和“一键化”存在于词向量空间中，则继续增加M的数值，在查找到所有存在与词向量空间中的3元语法分词后，结束步骤S110，则步骤S114中生成的子集为A＝{一键优，一键化}。

由步骤S111～步骤S114可知，在一种可选择的实施方式中，根据未登录词的字符长度L，本申请按照从L-1元～1元的顺序查找存在于词向量空间中的n元语法分词，在查找到L-M元语法分词在词向量空间中存在时，对所有存在于词向量空间中的所述L-M元语法分词生成子集，从而，使子集中包含的n元语法分词是存在于词向量空间中的最高元语法分词，与未登录词的语义关联度也最高。

图3为本申请实施例提供的一种对未登录词生成仿真词向量的方法步骤S120的流程图，在一种可选择的实施方式中，步骤S120包括以下步骤：

步骤S121，获取所述子集中n元语法分词的数量k。

本申请实施例中，根据子集中n元语法分词的数量k的不同，生成子集向量的方式也不同。

步骤S122，当k＝1时，将所述子集中唯一的n元语法分词的词向量作为所述子集向量。

步骤S123，当k≥1时，所述子集向量为所述子集中k个n元语法分词的几何中心向量，所述几何中心向量根据以下公式计算得出：

其中，V为所述几何中心向量，V1～Vk为所述子集中k个n元语法分词的词向量。

从上述公式中可以看出，几何中心向量V是对k个n元语法分词分别去1/k的权重后累加的结果，由于每个n元语法分词能都表达未登录词的部分语义，因此以几何中心向量是k个n元语法分词综合语义的体现，能够很大程度地反映出未登录词的语义，因此可将几何中心向量作为子集向量。

在一种可选择的实施方式中，步骤S140使用以下公式实现：

Y＝Vrd×C1+V×C2

其中，Y为未登录词的仿真词向量，Vrd为未登录词的完全随机向量，V为子集向量，C1和C2为加权系数，且C1+C2＝1，C2＞C1。

从上述公式中可以看出，本申请得到的仿真词向量Y由两部分组成：第一部分是Vrd×C1，即未登录词的完全随机向量的加权，反映了仿真词向量中的灵活多变的特性；第二部分是V×C2，即未登录词的子集向量的加权，反映了仿真词向量中的与未登录词语义关联的特性。由于本申请的仿真词向量同时具备这两种特性，因此，使用本申请生成的仿真词向量在对话***中生成的应答准确率高，与问题的关联度高，又能够灵活多变而具有应答多样性，从而避免出现重复而单调的应答，极大地提高用户好感度。

进一步地，对于对话***来说，提高应答准确率的重要性要高于应答多样性，因此，在本申请提供的生成仿真词向量的计算公式中，C2>C1，从而使子集向量在公式中的权重更高。本申请中，优选C2的范围在0.85～0.9之间，优选C1的范围在0.1～0.15之间，使子集向量在仿真词向量中起到提高语义关联的主导作用，使完全随机向量在仿真词向量中起到增加多样性的辅助作用。

示例地，当取C1＝0.15，C2＝0.85，且子集向量为3个n元语法分词的几何中心向量时(即k＝3)，未登录词的仿真词向量Y为：

需要说明的是，在生成子集的过程中，可能出现子集为空集的情况，为了应对这种情况，当子集为空集时，将未登录词的完全随机向量作为仿真词向量。

图4为本申请实施例提供的一种对未登录词生成仿真词向量的方法步骤S130的流程图，在一种可选择的实施方式中，步骤S130可以包含以下步骤：

步骤S131，获取完全随机向量预设的维度T。

根据词向量空间中的已知词向量的维度，可以预设出完全随机向量的维度T，使完全随机向量的维度T等于已知词向量的维度，便于数据处理。

步骤S132，在T个维度上随机赋予[-1，1]之间的任意实数值，生成一个T维的向量X。

示例地，完全随机向量的维度T＝200，生成的向量X为200维向量：

X＝[x1，x2，x3，……，x199，x200]

其中，x1～x200为[-1，1]之间的随机实数值。

步骤S133，对向量X进行归一化处理，生成所述未登录词完全随机向量。

由于，由于每个维度的随机值大小不一，随机生成的T维向量会分布在T维空间中的任何一个位置，导致一些随机生成的T维向量与已知的词向量空间的距离过远，影响词向量的分布平衡，最终影响到词向量之间的相似度计算。因此，本申请中对向量X进行归一化处理，将向量X每个维度的数值限制在一个较小的范围内，防止上述情况发生。

图5为本申请实施例提供的一种对未登录词生成仿真词向量的方法步骤S133的流程图，在一种可选择的实施方式中，步骤S133可以包括以下步骤：

步骤S1331，获取向量X的每个维度数值的平方Q1～Qt。

步骤S1332，根据Q1～Qt，获取归一化系数P，所述归一化系数P为Q1～Qt之和的二次方根。

示例地，对于200维向量X，归一化系数P为：

步骤S1333，将向量X的每个维度的数值除以归一化系数P，生成完全随机向量。

在步骤S1333中，将向量X的每个维度的数值除以归一化系数P，从而减小每个维度的数值，使完全随机向量在分布在一个范围较小的T维空间内，避免完全随机向量与已知的词向量空间的距离过远，防止完全随机向量影响词向量的分布平衡。

图6为本申请实施例提供的一种对未登录词生成仿真词向量的方法的简化示意图。其中，坐标系表示预设维度的词向量空间，圆形灰色区域表示已知词向量空间，圆点表示词向量的位置。Vrd为未登录词的完全随机向量，V1和V2构成了未登录词的n元语法分词在已知词向量空间中的子集，V表示由V1和V2的到的子集向量(即V1和V2的几何中心向量)，Y为子集向量和完全随机向量加权求和后生成的仿真词向量。从图6中可以看出，本申请实施例一的技术方案生成的仿真词向量Y与V1和V2的几何中心向量V的距离很近，同时，由于完全随机向量Vrd的随机性，仿真词向量Y能够在几何中心向量V的附近变化，使仿真词向量Y既具有与未登录词语义关联的特性，又具有灵活多变的特性。

由以上技术方案可知，本申请实施例为了解决现有技术的基于深度学习的对话***存在的未登录词问题，提供了一种对未登录词生成仿真词向量的方法，从已知的词向量空间中，获取未登录词的n元语法分词在词向量空间中的子集；然后，根据子集中n元语法分词的词向量，生成子集向量；然后，获取未登录词的完全随机向量；最后，将子集向量和未登录词的完全随机向量进行加权求和，生成未登录词的仿真词向量。本申请的技术方案生成的仿真词向量中：子集向量加权的部分，使仿真词向量具有与未登录词语义关联的特性；完全随机向量加权的部分，使仿真词向量具有灵活多变的特性。由于本申请的仿真词向量同时具备这两种特性，因此，使用本申请生成的仿真词向量在对话***中生成的应答准确率高，与问题的关联度高，又能够灵活多变而具有应答多样性，从而避免出现重复而单调的应答，极大地提高用户好感度。

实施例二

本申请中，实施例一与实施例二的技术方案区别在于：步骤S110和步骤S120的具体实施方式不同。

图7为本申请实施例提供的另一种对未登录词生成仿真词向量的方法步骤S110的流程图，在另一种可选择的实施方式中，步骤S110可以包括以下步骤：

需要说明的是，以下步骤S1116-S119构成一个条件循环的流程，其中步骤S117-S118根据循环条件会至少执行一次。

步骤S116，获取所述未登录词的字符长度L。

步骤S117，获取所述未登录词的所有字符连续的L-M元语法分词，M初始值为1，且L-M≥1。

本申请实施例在步骤S117中，值获取未登录词的字符连续的L-M元语法分词，这里提出的字符连续是指L-M元语法分词中的L-M个字符在未登录词中相邻连续，例如，如果未登录词为“一键优化”，“一键优”“一键”等就符合字符连续的要求，“一键化”“一优”等就不符合字符连续的要求。

本申请考虑到在中文的组词规则中，如果一个组合词由多个独立词组成，那么这个组合词的语义通常会受其中一个独立词为主要影响。因此，本申请在步骤S117中，要求获取到的L-M元语法分词是字符连续的，从而，尽可能地保证获取到的L-M元语法分词中包含有能够主要影响未登录词语义的至少一个词。举例来说，未登录词“一键优化”由“一键”和“优化”两个独立词组成，当获取的L-M元语法分词字符不连续时，可能获取到“一优”“键化”等不能体现出未登录词语义的2元语法分词，而如果要求获取到的L-M元语法分词字符连续，“一优”“键化”等就不会被获取到，从而提高了获取的L-M元语法分词中包含独立词的概率。

在步骤S117中，M初始值为1，即：当未登录词的字符长度L＝4时，首先获取未登录词的所有字符连续的3元语法分词，即(4-1)元语法分词。

示例地，获取未登录词“一键优化”字符连续的3元语法分词有：一键优和键优化。

步骤S118，逐一查找已获取的所述L-M元语法分词在词向量空间中是否存在。

在步骤S118中，逐一查找当前循环的步骤S117中获取到的字符连续的未登录词的L-M元语法分词在词向量空间中是否存在。例如，当M＝1时，“一键优化”有两个字符连续的3元语法分词：一键优和键优化，查找这两个3元语法分词是否在词向量空间中存在。

如果找到一个所述L-M元语法分词在词向量空间中存在，停止查找剩余的L-M元语法分词，执行步骤S119。

如果不存在，且L-M＞1，则将M的当前值加1，跳转至步骤S117。

如果被查找的L-M元语法分词都不存在于词向量空间中，则步骤S118的查找结果为不存在，此时，获取L-M的值，如果L-M＞1，说明当前的查找进度未到达未登录词的1元语法分词，还应该继续向低元查找，因此，将M的当前值加1，跳转至步骤S117。

示例地，如果一键优和键优化在词向量空间中均不存在，则获取L-M的值，此时M＝1，L-M＝3＞1，则将M的当前值加1，使M的值变为2，跳转至步骤S117。

再一次执行步骤S117时，M＝2，L-M＝2，获取未登录词的字符连续的2元语法分词：一键、键优、优化。然后根据获取的字符连续的2元语法分词的结果继续执行步骤S118，实现循环过程。

需要进一步说明的是，在每个循环的步骤S118中，采用逐一查找的方式，对当前循环中获取的字符连续的L-M元语法分词进行查找，一旦查找到某个L-M元语法分词在词向量空间中存在，则不再继续查找其他的L-M元语法分词，开始执行步骤S119。

示例地，在某个循环中，获取未登录词的字符连续的2元语法分词：一键、优化、键优。如果查找到“一键”在词向量空间中存在，那么，就不需再查找“健优”和“优化”，直接执行步骤S1119。

如果不存在，且L-M＝1，则所述子集为空集，结束步骤S110。

如果在历经多次步骤S117-S118的循环之后，未登录词的L-M元词向量在词向量空间中仍然不存在，且此时L-M＝1，说明未登录词的所有n元语法分词在词向量空间中均不存在，则获取到的子集为空集，跳出循环，结束步骤S110。

步骤S119，对查找到的一个存在于词向量空间中的所述L-M元语法分词，生成所述子集S110。

在步骤S119中，对步骤S118中查找到的唯一一个存在于词向量空间中的L-M元语法分词，生成子集，生成的子集仅包含一个元素，并结束步骤S110。

示例地，如果步骤S118中查找到“优化”存在于词向量空间中，则步骤S119中生成的子集为A＝{优化}。

由步骤S116～步骤S119可知，在实施例二中，考虑到中文组词规则中，如果一个组合词由多个独立词组成，这个组合词的语义通常会受其中一个独立词为主要影响的特点，根据未登录词的字符长度L，按照从L-1元～1元的顺序，获取以及逐一查找L-M元语法分词在词向量空间中是否存在，如果找到一个L-M元语法分词在词向量空间中存在，停止查找剩余的L-M元语法分词，对查找到的一个存在于词向量空间中的L-M元语法分词，生成子集，从而，使子集中包含的唯一的n元语法分词是存在于词向量空间中的最高元语法分词，并且，能提高子集中的n元语法分词是能够主要影响未登录词语义的独立词的几率。此外，由于在步骤S117中进获取了字符连续的n元语法分词，减小了n元语法分词的数量，也降低了生成子集过程中的数据处理量，提高仿真词向量的生成效率。

由于通过实施例二的步骤S110得到的子集中仅包含唯一一个n元语法分词，因此，在实施例二的步骤S120中，将子集中唯一的n元语法分词的词向量作为子集向量。

图8为本申请实施例提供的另一种对未登录词生成仿真词向量的方法的简化示意图。其中，坐标系表示预设维度的词向量空间，圆形灰色区域表示已知词向量空间，圆点表示词向量的位置。Vrd为未登录词的完全随机向量，V表示子集向量，Y为子集向量和完全随机向量加权求和后生成的仿真词向量。从图X中可以看出，本申请实施例二的技术方案生成的仿真词向量Y与子集向量V的距离很近，同时，由于完全随机向量Vrd的随机性，仿真词向量Y能够在子集向量V的附近变化，使仿真词向量Y既具有与未登录词语义关联的特性，又具有灵活多变的特性。

实施例三

本申请实施例提供了一种对未登录词生成仿真词向量的装置，图9为本申请实施例提供的一种对未登录词生成仿真词向量的装置框图，如图9所示，所述装置包括：

子集获取模块210，用于从已知的词向量空间中，获取未登录词的n元语法分词在词向量空间中的子集；所述子集为非空集或空集，当所述子集为非空集时，所述子集包含所述未登录词的至少一个n元语法分词。

子集向量生成模块220，用于当所述子集为非空集时，根据所述子集中n元语法分词的词向量，生成子集向量。

完全随机向量获取模块230，用于获取所述未登录词的完全随机向量。

仿真词向量生成模块240，用于将所述子集向量和所述未登录词的完全随机向量进行加权求和，生成所述未登录词的仿真词向量。

图10为本申请实施例提供的一种对未登录词生成仿真词向量的装置子集获取模块210的框图，在一种可选择的实施方式中，子集获取模块210包括：

第一取词单元211，用于获取所述未登录词的字符长度L。

第一分词单元212，用于获取所述未登录词的所有L-M元语法分词，M初始值为1，且L-M≥1。

第一查找单元213，用于查找所述L-M元语法分词在词向量空间中是否存在。

如果存在，跳转至第一生成单元214。

如果不存在，且L-M＞1，则将M的当前值加1，跳转至第一分词单元212。

如果不存在，且L-M＝1，则所述子集为空集。

第一生成单元214，用于对所有存在于词向量空间中的所述L-M元语法分词生成所述子集。

在上述实施方式中，子集获取模块210能够根据未登录词的字符长度L，本申请按照从L-1元～1元的顺序查找存在于词向量空间中的n元语法分词，在查找到L-M元语法分词在词向量空间中存在时，对所有存在于词向量空间中的所述L-M元语法分词生成子集，从而，使子集中包含的n元语法分词是存在于词向量空间中的最高元语法分词，与未登录词的语义关联度也最高。

由以上技术方案可知，本申请实施例为了解决现有技术的基于深度学习的对话***存在的未登录词问题，提供了一种对未登录词生成仿真词向量的装置，从已知的词向量空间中，获取未登录词的n元语法分词在词向量空间中的子集；然后，根据子集中n元语法分词的词向量，生成子集向量；然后，获取未登录词的完全随机向量；最后，将子集向量和未登录词的完全随机向量进行加权求和，生成未登录词的仿真词向量。本申请的技术方案生成的仿真词向量中：子集向量加权的部分，使仿真词向量具有与未登录词语义关联的特性；完全随机向量加权的部分，使仿真词向量具有灵活多变的特性。由于本申请的仿真词向量同时具备这两种特性，因此，使用本申请生成的仿真词向量在对话***中生成的应答准确率高，与问题的关联度高，又能够灵活多变而具有应答多样性，从而避免出现重复而单调的应答，极大地提高用户好感度。

实施例四

本申请实施例四与实施例三的区别在于：子集获取模块210的功能不同。

图11为本申请实施例提供的另一种对未登录词生成仿真词向量的装置子集获取模块210的框图，在另一种可选择的实施方式中，子集获取模块210包括：

第二取词单元216，用于获取所述未登录词的字符长度L。

第二分词单元217，用于获取所述未登录词的所有字符连续的L-M元语法分词，M初始值为1，且L-M≥1。

第二查找单元218，用于逐一查找已获取的所述L-M元语法分词在词向量空间中是否存在。

如果找到一个所述L-M元语法分词在词向量空间中存在，停止查找剩余的所述L-M元语法分词，跳转至第二生成单元219。

如果不存在，且L-M＞1，则将M的当前值加1，跳转第二分词单元217。

如果不存在，且L-M＝1，则所述子集为空集。

第二生成单元219，用于对查找到的一个存在于词向量空间中的所述L-M元语法分词，生成所述子集。

在上述实施方式中，考虑到中文组词规则中，如果一个组合词由多个独立词组成，这个组合词的语义通常会受其中一个独立词为主要影响的特点，子集获取模块210能够根据未登录词的字符长度L，按照从L-1元～1元的顺序，获取以及逐一查找L-M元语法分词在词向量空间中是否存在，如果找到一个L-M元语法分词在词向量空间中存在，停止查找剩余的L-M元语法分词，对查找到的一个存在于词向量空间中的L-M元语法分词，生成子集，从而，使子集中包含的唯一的n元语法分词是存在于词向量空间中的最高元语法分词，并且，能提高子集中的n元语法分词是能够主要影响未登录词语义的独立词的几率。此外，由于在步骤S117中进获取了字符连续的n元语法分词，减小了n元语法分词的数量，也降低了生成子集过程中的数据处理量，提高仿真词向量的生成效率。

本申请可用于众多通用或专用的计算***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种对未登录词生成仿真词向量的方法，其特征在于，所述方法包括：

获取所述未登录词的完全随机向量；

当所述子集为非空集时，将所述子集向量和所述未登录词的完全随机向量进行加权求和，生成所述未登录词的仿真词向量；

当所述子集为空集时，将所述未登录词的完全随机向量作为所述仿真词向量。

2.根据权利要求1所述的方法，其特征在于，所述从已知的词向量空间中，获取未登录词的n元语法分词在词向量空间中的子集的步骤包括：

步骤S111，获取所述未登录词的字符长度L；

步骤S112，获取所述未登录词的所有L-M元语法分词，M初始值为1，且L-M≥1；

步骤S113，查找所述L-M元语法分词在词向量空间中是否存在；

如果存在，跳转至步骤S114；

如果不存在，且L-M＞1，则将M的当前值加1，跳转至步骤S112；

如果不存在，且L-M＝1，则所述子集为空集；

3.根据权利要求2所述的方法，其特征在于，所述当所述子集为非空集时，根据所述子集中n元语法分词的词向量，生成子集向量的步骤包括：

获取所述子集中n元语法分词的数量k；

当k＝1时，将所述子集中唯一的n元语法分词的词向量作为所述子集向量；

当k≥1时，所述子集向量为所述子集中k个n元语法分词的几何中心向量，所述几何中心向量根据以下公式计算得出：

4.根据权利要求1所述的方法，其特征在于，所述从已知的词向量空间中，获取未登录词的n元语法分词在词向量空间中的子集的步骤包括：

步骤S116，获取所述未登录词的字符长度L；

步骤S117，获取所述未登录词的所有字符连续的L-M元语法分词，M初始值为1，且L-M≥1；

步骤S118，逐一查找已获取的所述L-M元语法分词在词向量空间中是否存在；

如果找到一个所述L-M元语法分词在词向量空间中存在，停止查找剩余的所述L-M元语法分词，执行步骤S119；

如果不存在，且L-M＞1，则将M的当前值加1，跳转至步骤S117；

如果不存在，且L-M＝1，则所述子集为空集；

步骤S119，对查找到的一个存在于词向量空间中的所述L-M元语法分词，生成所述子集。

5.根据权利要求4所述的方法，其特征在于，所述当所述子集为非空集时，根据所述子集中n元语法分词的词向量，生成子集向量的步骤包括：

将所述子集中唯一的所述n元语法分词的词向量作为所述子集向量。

6.根据权利要求1所述的方法，其特征在于，所述将所述子集向量和所述未登录词的完全随机向量进行加权求和，生成所述未登录词的仿真词向量的步骤，使用以下公式：

Y＝Vrd×C1+V×C2

7.根据权利要求1所述的方法，其特征在于，所述获取未登录词的完全随机向量的步骤包括：

获取完全随机向量预设的维度T；

在T个维度上随机赋予[-1，1]之间的任意数值，生成一个T维的向量X；

对向量X进行归一化处理，生成所述未登录词完全随机向量。

8.根据权利要求7所述的方法，其特征在于，所述对向量X进行归一化处理，生成所述未登录词完全随机向量的步骤包括：

获取向量X的每个维度数值的平方Q1～Qt；

根据Q1～Qt，获取归一化系数P，所述归一化系数P为Q1～Qt之和的二次方根；

将向量X的每个维度的数值除以归一化系数P，生成完全随机向量。

9.一种对未登录词生成仿真词向量的装置，其特征在于，所述装置包括：

仿真词向量生成模块，用于当所述子集为非空集时，将所述子集向量和所述未登录词的完全随机向量进行加权求和，生成所述未登录词的仿真词向量；

所述仿真词向量生成模块，还用于当所述子集为空集时，将所述未登录词的完全随机向量作为所述仿真词向量。