CN111400584A

CN111400584A - 联想词的推荐方法、装置、计算机设备和存储介质

Info

Publication number: CN111400584A
Application number: CN202010182211.7A
Authority: CN
Inventors: 裴季源; 李晨昊; 刘佳琳; 姚新
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology; Southern University of Science and Technology
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-07-10

Abstract

本发明公开了一种联想词的推荐方法、装置、计算机设备和存储介质。所述方法包括：获取用户输入的原始输入词；根据原始输入词与标准语料库中各语料词之间的语义相似度，获取与原始输入词匹配的至少一个语义联想词；根据原始输入词与标准语料库中各语料词之间的语法相似度，获取与原始输入词匹配的至少一个语法联想词；根据所述语义联想词，和/或所述语法联想词进行用户推荐。本发明实施例的技术方案提供了一种确定联想词的新方式，可以同时在语义以及语法两个维度上向用户推荐联想词，提高了联想词对用户实际需求的命中率，减少用户确定实际所需输入内容的耗时。

Description

联想词的推荐方法、装置、计算机设备和存储介质

技术领域

本发明实施例涉及信息处理技术，尤其涉及一种联想词的推荐方法、装置、计算机设备和存储介质。

背景技术

随着计算机与互联网技术的发展成熟，互联网电商平台逐渐成为网络交易的主要平台。其信息传输效率高、存量大、读取成本低的特点极大的改变了人们的生活方式。

现有技术中，用户可以通过商品搜索框在线上购物平台中输入商品的名称，线上购物平台通过后台搜索数据库的方式，对用户输入的内容进行检索，并返回相应的查询结果。同时，考虑到用户可能并未完整、正确的输入所需商品的名称，一般在商品输入框的下拉列表中，会将与用户输入内容接近的其他商品名称进行关联推荐。

发明人在实现本发明的过程中发现，目前，种类繁多，功能各异，品牌纷呈的网络购物商品使当前用户通过网络交易平台购买商品的目的性大大降低，这意味着用户通常并不确切知道自己需要的商品的名称，型号及品牌。因此，用户直接输入的内容可以会和实际所需商品的名称出入很大，这种情况下，仅通过比较字符串之间相似度的方式向用户推荐关联商品名称，用户将无法得到实际所需商品的提示，用户需要反复多次尝试或者通过其他网络搜索的方式，才能获取获知正确的商品名称，推荐效率低下，耗时长。

发明内容

本发明实施例提供一种联想词的推荐方法、装置、计算机设备和存储介质，以提供一种确定联想词的新方式，提高联想词对用户实际需求的命中率。

第一方面，本发明实施例提供了一种联想词的推荐方法，该方法包括：

获取用户输入的原始输入词；

根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词；

根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词；

根据所述语义联想词，和/或所述语法联想词进行用户推荐。

第二方面，本发明实施例还提供了一种联想词的推荐装置，该装置包括：

输入词获取模块，用于获取用户输入的原始输入词；

语义联想词获取模块，用于根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词；

语法联想词获取模块，用于根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词；

用户推荐模块，用于根据所述语义联想词，和/或所述语法联想词进行用户推荐。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的联想词的推荐方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的联想词的推荐方法。

本发明实施例的技术方案提供了一种联想词的推荐方法、装置、计算机设备和存储介质，通过获取与用户输入的原始输入词匹配的至少一个语义联想词以及语法联想词；根据所述语义联想词，和/或所述语法联想词进行用户推荐的技术手段，提供了一种确定联想词的新方式，可以同时在语义以及语法两个维度上向用户推荐联想词，提高了联想词对用户实际需求的命中率，减少用户确定实际所需输入内容的耗时。

附图说明

图1是本发明实施例一中的一种联想词的推荐方法的流程图；

图2是本发明实施例二中的一种联想词的推荐方法的流程图；

图3a是本发明实施例三中的一种联想词的推荐方法的流程图；

图3b是本发明实施例三中的一种在字典树中查找和新增节点的方法的流程图；

图4是本发明实施例四中的一种联想词的推荐方法的流程图；

图5是本发明实施例五中的一种联想词的推荐装置的结构图；

图6是本发明实施例六中的一种计算机设备的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种联想词的推荐方法的流程图，本实施例可适用于根据用户输入的原始输入词，进行联想词推荐的情况，该方法可以由联想词的推荐装置来执行，该装置可以通过软件，和/或硬件的方式实现，并一般可以集成在具有数据处理功能的终端或者服务器中，如图1所示，本发明实施例的方案具体包括如下步骤：

S110、获取用户输入的原始输入词。

在本实施例中，所述原始输入词具体是指用户通过设定输入框所输入的词语，所述输入框可以为输入法输入框、搜索引擎输入框、设定线上购物平台的商品搜索框或者视频平台的视频搜索框等，本发明实施例对此并不进行限制。

S120、根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词。

在本实施例中，为了对用户输入的原始输入词提供有效的语义联想词推荐，需要首先建立一个标准语料库，该标准语料库中存储有标准语料的集合。所谓语料就是语言材料，语料是语言学研究的内容，是构成语料库的基本单元。

具体的，所述标准语料库可以具体包括有：互联网中各媒体平台的新闻文本数据，互联网中各论坛在至少一个领域维度下的文本数据，互联网中至少一个领域维度下的博客数据、以及录入计算机的各类书籍或者录音的文本形式数据等，一般来说，标准语料库中的上述数据是以文档或者文档集合的形式进行存储的。

相应的，在得到标准语料库中，可以首先对标准语料库中包括的各种文档进行分词处理，再去除无意义词或者停用词等无明确实体含义的词后，得到标准语料库中包括的各个语料词。

其中，两个词语之间的语义相似度，可以理解为如果为两个词语在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大，两者的相似度就越高，否则就越低。例如，“蓝牙耳机”和“无线耳机”这两个词在很多语境场合下都可以互换，因此，两个词之间的语义相似度很高，一般来说，语义相似度可以为一个[0，1]之间的一个实数。

在本实施例中，计算所述原始输入词与标准语料库中各语料词之间的语义相似度的方式可以为：通过预先训练的词向量生成模型，分别计算所述原始输入词与各所述语料词之间的词向量，之后通过计算向量距离(例如，余弦距离、欧式距离或者曼哈顿距离等)的方式，计算所述原始输入词与标准语料库中各语料词之间的语义相似度；具体的，原始输入词与语料词之间的向量距离越近，计算得到的语义相似度越大，原始输入词与语料词之间的向量距离越远，计算得到的语义相似度越小。

或者，也可以预先训练一个语义相似度计算模型，之后通过将所述原始输入词分别与各所述语料词组合后，分别输入至该语义相似度计算模型中的方式，得到所述原始输入词与标准语料库中各语料词之间的语义相似度等，本发明实施例对此并不进行限制。

其中，在得到所述原始输入词与标准语料库中各语料词之间的语义相似度之后，可以按照语义相似度从大到小的顺序，获取设定数量的语料词，作为与所述原始输入词匹配的至少一个语义联想词；或者，也可以设定一个语义相似度门限阈值，并获取语义相似度均大于该语义相似度门限阈值的语料词，作为与所述原始输入词匹配的至少一个语义联想词等。

S130、根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词。

所谓语法相似度，具体是指两个词语之间的相像程度，对于汉字来说，可以理解为两个词语之间的重叠程度，两个词语之间的语法相似度越高，两个词语之间就越相像。一般来说，语法相似度可以为一个[0，1]之间的一个实数。

其中，可以通过类似英文字符串比较前缀后缀或者计算编辑距离等方式，计算所述原始输入词与所述标准语料库中各语料词之间的语法相似度。

在本实施例中，为了进一步提高语法联想词的获取效率，提出了使用树形结构，高效的存储词语之间的字符关系，便于在字符关系层面有效的提供联想词推荐。

具体的，可以根据标准语料库中的各语料词预先构建至少一个字典树，字典树为树形结构，包括多个树节点，树节点包括根节点和至少一个非根节点，各个树节点之间通过边相连。每条树节点代表一个字。从根节点到某一树节点A所经过的各个节点对应的字连接起来，为该树节点A对应的词语。

相应的，根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词，可以具体包括：首先在至少一个字典树中，确定目标字典树(该目标字典树的根节点为所述原始输入词中包括的首个字)，进而可以在目标字典树中查询与该原始输入词对应的目标树节点，之后，根据目标树节点在目标字典树中的位置，获取与该目标树节点关联的其他树节点，并将与其他树节点对应的词语作为与所述原始输入词匹配的至少一个语法联想词。

需要再次强调的是，S120和S130的执行顺序可以互换，也可以并行执行。也即，可以首先根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词，之后再根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词；或者，也可以首先根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词，之后再根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词，或者，还可以同时并发的执行根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词，以及根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词的操作，本实施例对此并不进行限制。

S140、根据所述语义联想词，和/或所述语法联想词进行用户推荐。

在本实施例中，通过S120或者通过S130可能未成功获取到满足预设条件的语义联想词或者语法联想词。例如，如果通过S130未成功获取到语法联想词，则可以直接将获取到的语义联想词进行用户推荐；如果通过S120未成功获取到语义联想词，则可以直接将获取到的语法联想词进行用户推荐，如果通过S120和S130均能成功获取到语法联想词和语义联想词，则可以将所述语义联想词和所述语法联想词进行用户推荐。

在一个具体的例子中，S110中获取用户输入的原始输入词的方式为：获取用户在输入法输入框中输入的原始输入词，相应的，将所述语义联想词，和/或所述语法联想词进行用户推荐的方式可以为：将所述语义联想词，和/或所述语法联想词在输入法中的备选词显示框中进行显示。

在另一个具体的例子中，S110中获取用户输入的原始输入词的方式为：获取用户在线上购物平台的商品搜索框中输入的原始输入词，相应的，将所述语义联想词，和/或所述语法联想词进行用户推荐的方式可以为：在与所述商品搜索框匹配的关联搜索推荐列表中，对所述语义联想词，和/或所述语法联想词进行用户推荐。

其中，可以预先设定待推荐的语法联想词的推荐数量，如果获取得到的语义联想词以及所述语法联想词的总数量超过总的联想词推荐数量，则可以根据预设的语义联想词和语法联想词的推荐比例(例如，1:1或者2:1等)，分别确定语义联想词以及语法联想词各自的推荐数量，进而按照各自的推荐数量，分别选取相似度计算结果排名靠前的语义联想词和语法联想词，进行用户推荐。

本发明实施例的技术方案通过获取与用户输入的原始输入词匹配的至少一个语义联想词以及语法联想词；根据所述语义联想词，和/或所述语法联想词进行用户推荐的技术手段，提供了一种确定联想词的新方式，可以同时在语义以及语法两个维度上向用户推荐联想词，提高了联想词对用户实际需求的命中率，减少用户确定实际所需输入内容的耗时。

实施例二

图2是本发明实施例二提供的一种联想词的推荐方法的流程图，本发明实施例以上述各实施例为基础进行进一步具体化，在本实施例中，将根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词的操作，具体化为：将所述原始输入词输入至预先训练的语义向量计算模型中，获取与所述原始输入词匹配的输入语义向量；分别计算所述输入语义向量与标准语义向量集合中的各标准语义向量之间的语义相似度距离，并根据计算结果，获取所述至少一个语义联想词。

相应的，如图2所示，本发明实施例的方案具体包括如下步骤：

S210、获取用户输入的原始输入词。

S220、将所述原始输入词输入至预先训练的语义向量计算模型中，获取与所述原始输入词匹配的输入语义向量。

S230、分别计算所述输入语义向量与标准语义向量集合中的各标准语义向量之间的语义相似度距离，并根据计算结果，获取所述至少一个语义联想词。

其中，所述语义向量集合通过将所述标准语料库中各所述语料词输入至所述语义向量计算模型中计算得到，所述语义向量计算模型通过所述标准语料库训练得到。

具体的，可以首先选择一种类型的神经网络模型作为待训练模型，之后使用该标准语料库中各所述语料词对所述待训练模型进行训练，得到语义向量计算模型。在得到该语义向量计算模型后，通过将所述标准语料库中各所述语料词分别输入至所述语义向量计算模型中，可以得到与各所述语料词分别对应的标准语义向量，进而可以使用与各所述语料词分别对应的标准语义向量，构成标准语义向量集合。

可选的，所述语义向量计算模型可以为基于连续词袋模型，或者连续跳跃元语法模型训练得到的神经网络模型。

其中，基于连续跳跃元模型训练得到的神经网络模型在训练时，输入为有序词集，在该有序词集中标注有标准语料库中的中心词的独热向量，以及该中心词在有序词集中前后的N个词及其顺序，输出为中心词周围词语在标准语料库中的每个位置出现的预测概率，通过真实位置的独热向量与输出的预测概率的差距为优化目标，通过反向传播算法对该神经网络模型进行优化。

基于连续词袋模型训练得到的神经网络模型在训练时，输入为有序词集，在该有序词集中标注有标准语料库中的中心词与其在有序词集中前后的N个词的独热向量，输出为中心词在真实语料库中的每个位置出现的预测概率，以真实位置的独热向量与输出的预测概率的差距为优化目标，通过反向传播算法对该神经网络模型进行优化。训练完成后，中间层中的系数矩阵即为词库中每个词的对应语义向量。

在本实施例中，在分别得到原始输入词的输入语义向量，以及标准语料库中各语料词的标准语义向量之后，可以分别计算原始输入词的输入语义向量与各语料词的标准语义向量之间的语义相似度距离。典型的，所述语义相似度距离可以为余弦距离或者欧式距离等。

在得到各所述语义相似度距离后，首先按照语义相似度距离由小到大的顺序(语义相似度越高，语义相似度距离越近)，对各语料词进行排序，之后可以首先从全部语料词中选取距离值小于等于设定阈值(例如，0.1)的语料词，之后，按照排序结果选取设定数量(例如，3个)的语料词作为语义联想词。

S240、根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词。

S250、根据所述语义联想词，和/或所述语法联想词进行用户推荐。

本发明实施例的技术方案通过将所述原始输入词输入至预先训练的语义向量计算模型中，获取与所述原始输入词匹配的输入语义向量；分别计算所述输入语义向量与标准语义向量集合中的各标准语义向量之间的语义相似度距离，并根据计算结果，获取所述至少一个语义联想词的方式，可以以较低的计算消耗，高效、快速的计算得到原始输入词的语义联想词。

在上述各实施例的基础上，本发明实施例的方法还可以包括：

每隔设定的更新时长，根据在更新时长匹配的时间区内收集的新增语料，更新所述标准语料库，并使用所述标准语料库更新所述语义向量计算模型，以及所述语义向量集合。

其中，所述更新时长可以根据实际情况进行预设，例如，1周、2周或者一个月等。也即，可以每隔一段时间收集一下网络中发表的，或者其他形式(书本或者录音等)的新增语料，将所述新增语料加入至所述标准语料库中，并基于该新增语料重新训练语义向量计算模型，最后，基于对语义向量计算模型的训练结果，重新生成所述语义向量集合。

这样设置的好处是：可以保证语义向量计算模型的时效性，特别是，当网络中出现有新词和热词时，可以使得语义向量计算模型准确表达上述新词和热词的语义向量，进而可以准确的确定出上述新词和热词的语义联想词。

实施例三

图3a是本发明实施例三提供的一种联想词的推荐方法的流程图，本发明实施例以上述各实施例为基础进行进一步具体化，在本实施例中，将根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词的操作，具体化为：在预先建立的至少一个字典树中，对所述原始输入词进行查找，所述字典树通过使用所述标准语料库中的各语料词生成得到；如果目标字典树中包括与所述原始输入词匹配的目标树节点，则在所述目标字典树中，获取与所述目标树节点满足节点距离以及节点权重条件的至少一个关联节点；获取所述关联节点匹配的至少一个语法联想词，并增加与所述目标树节点对应的节点权重。

相应的，如图3a所示，本发明实施例的方案具体包括如下步骤：

S310、获取用户输入的原始输入词。

S320、根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词。

S330、在预先建立的至少一个字典树中，对所述原始输入词进行查找，所述字典树通过使用所述标准语料库中的各语料词生成得到。

其中，视词语为单个字符(中文则为单个汉字)的有序集合，即字符串。通过字符串的前缀包含关系组成的树形结构，即字典树。树形结构由众多树节点组成，树节点通过父子关系连接。每个树节点拥有一个唯一的对应词语与此词语的权值，典型的，权值可以初始化为1(或者其他值)。每个树节点的父节点对应的词，为此树节点对应词的最长前缀子字符串，根节点为单字词语。标准语料库由多个以单字词语的树节点为根节点的树组成。

S340、判断所述目标字典树中是否包括与所述原始输入词匹配的目标树节点：若是，则执行S350；否则，执行S360。

如前所述，可以预先根据标准语料库中的各语料词建立多个字典树，不同字典树中包括的各个词语对应的首个字均不相同，每个字典树的根节点对应词语中不同的首个字。因此，首先可以根据原始输入词中包括的首个字，例如“蓝牙音箱”中的“蓝”，或者“无线耳机”中的“无”等，首先在多个字典树中，确定根节点与该原始输入词的首个字匹配的目标字典树。

需要说明的是，如果全部字典树中均不存在所述目标字典树，则可以直接根据原始输入词，建立一个新的字典树，并同时确定未能成功获取到与该原始输入词匹配的语法联想词。

S350、在所述目标字典树中，获取与所述目标树节点满足节点距离以及节点权重条件的至少一个关联节点，执行S370。

在本实施例中，获取与所述目标树节点满足节点距离以及节点权重条件的至少一个关联节点，可以包括：

在所述字典树中，获取与所述目标树节点之间的节点距离小于等于设定距离阈值(例如1或者2等)的全部树节点；按照节点权重从大到小的顺序，在获取的全部树节点中获取设定数量(例如，3个)的树节点作为所述关联节点。

具体的，所述节点距离是指两个节点之间最短路径的长度，即从一个节点追溯到另一个节点的最小的父子关系数量。其中，父节点与其子节点的之间的节点距离为1，同为一个父节点的两个子节点之间的节点距离为2。

其中，所述节点权重反映了一个树节点对应的词语被一个或者多个用户的输入次数，用户输入一个词语的次数越多，该词语对应的树节点的节点权重也就越大。

S360、在所述目标字典树中添加与所述原始输入词匹配的至少一个新的树节点，并为各所述新的树节点设置初始化的节点权重，执行S390。

当用户输入词在目标字典树中没有对应的树节点时，计算出此用户输入词的所有前缀字符串，将每个前缀字符串在不破坏树形结构规则的前提下生成对应树节点并全部加入至目标字典树中。其中，新生成的树节点的节点权重可以初始化为1。

这样设置的好处是，可以根据用户不断输入的新词和热词，对字典树进行及时的扩充，以使得字典树满足时效性要求。

S370、获取所述关联节点匹配的至少一个语法联想词，并增加与所述目标树节点对应的节点权重，执行S380。

其中，每当一个用户输入一个用户输入词时，可以对其所命中的目标树节点，进行节点权重的增加，例如+1。通过上述设置，当为某一个用户推荐语法联想词时，可以在保证语法相似性的同时，兼顾了该语法联想词的搜索次数，或者说流行性，进而可以提高所推荐的语法联想词对用户实际需求的命中率。

S380、将所述语义联想词以及所述语法联想词进行用户推荐。

S390、将所述语义联想词进行用户推荐。

具体的，在图3b中示出了一种在字典树中查找和新增节点的方法的流程图。如图3b所示，在字典树中查找和新增节点的方法包括：

S3110、根据所述原始输入词中包括的首个字，从至少一个字典树中确定目标字典树，并以目标字典树的根节点为起点，依次获取一个当前树节点作为当前节点。

S3120、提取与所述当前节点对应的词语为当前词语。

S3130、判断所述当前词语是否与原始输入词相匹配：若是，执行S3140；否则，执行S3150。

S3140、增加与当前节点对应的节点权重，执行S3160。

S3150、判断当前节点的全部子节点对应的词语中，是否包括所述原始输入词的前缀字符串：若是，执行S3170；否则，执行S3180。

S3160、获取与所述目标树节点满足节点距离以及节点权重条件的至少一个关联节点，并获取所述关联节点匹配的至少一个语法联想词，结束流程。

S3170、获取与所述前缀字符串匹配的子节点作为新的当前节点后，返回执行S3120。

S3180、在所述目标字典树中，建立新的树节点，并设置所述树节点对应的词语为所述原始输入词的前缀字符串，并设定所述树节点的长度为当前词语的长度+1，执行S3190。

S3190、判断与新建立的树节点对应的词语是否与所述原始输入词相同：若是，则结束流程；否则，返回执行S3180。

通过S3110-S3190，可以一次循环遍历的过程中，实现在目标字典树中查找出与用户输入词匹配的目标树节点，或者，在目标字典树中，增加与所述用户输入词匹配的一个或者多个树节点。

本发明实施例的技术方案通过获取与所述目标树节点满足节点距离以及节点权重条件的至少一个关联节点的方式，当为某一个用户推荐语法联想词时，可以在保证语法相似性的同时，兼顾了该语法联想词的流行性，可以提高所推荐的语法联想词对用户实际需求的命中率，同时，通过在所述目标字典树中添加与所述原始输入词匹配的至少一个新的树节点的方式，可以根据用户不断输入的新词和热词，对字典树进行及时的扩充，以使得字典树满足时效性要求。

实施例四

图4是本发明实施例四提供的一种联想词的推荐方法的流程图，本发明实施例以上述各实施例为基础进行进一步具体化，在本实施例中，将获取用户输入的原始输入词的操作，具体化为：获取用户在线上购物平台的商品搜索框中输入的原始输入词；将根据所述语义联想词，和/或所述语法联想词进行用户推荐的操作，具体化为：在与所述商品搜索框匹配的关联搜索推荐列表中，对所述语义联想词，和/或所述语法联想词进行用户推荐。

相应的，如图4所示，本发明实施例的方案具体包括如下步骤：

S410、获取用户在线上购物平台的商品搜索框中输入的原始输入词。

S420、根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词。

S430、根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词。

S440、在与所述商品搜索框匹配的关联搜索推荐列表中，对所述语义联想词，和/或所述语法联想词进行用户推荐。

本发明实施例的技术方案给出了一种基于线上购物平台的商品搜索的具体应用场景，通过根据用户在线上购物平台的商品搜索框中输入的原始输入词计算语义联想词以及语法联想词，并在与所述商品搜索框匹配的关联搜索推荐列表中，对所述语义联想词，和/或所述语法联想词进行用户推荐的方式，可以解决现有技术中需要反复多次尝试或者通过其他网络搜索的方式，才能获取获知正确的商品名称的问题，提高了联想词对用户实际需求的命中率，减少用户确定实际所需输入内容的耗时。

实施例五

图5是本发明实施例五提供的一种联想词的推荐装置的结构图，如图5所示，所述装置包括：输入词获取模块510、语义联想词获取模块520、语法联想词获取模块530以及用户推荐模块540。

输入词获取模块510，用于获取用户输入的原始输入词。

语义联想词获取模块520，用于根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词。

语法联想词获取模块530，用于根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词。

用户推荐模块540，用于根据所述语义联想词，和/或所述语法联想词进行用户推荐。

在上述各实施例的基础上，语义联想词获取模块520，可以具体用于：

将所述原始输入词输入至预先训练的语义向量计算模型中，获取与所述原始输入词匹配的输入语义向量；

分别计算所述输入语义向量与标准语义向量集合中的各标准语义向量之间的语义相似度距离，并根据计算结果，获取所述至少一个语义联想词；

在上述各实施例的基础上，所述语义向量计算模型可以为基于连续词袋模型，或者连续跳跃元语法模型训练得到的神经网络模型。

在上述各实施例的基础上，语法联想词获取模块530可以具体包括：

字典树查找单元，用于在预先建立的至少一个字典树中，对所述原始输入词进行查找，所述字典树通过使用所述标准语料库中的各语料词生成得到；

关联节点获取单元，用于如果目标字典树中包括与所述原始输入词匹配的目标树节点，则在所述目标字典树中，获取与所述目标树节点满足节点距离以及节点权重条件的至少一个关联节点；

联想词获取单元，用于获取所述关联节点匹配的至少一个语法联想词，并增加与所述目标树节点对应的节点权重。

在上述各实施例的基础上，所述语法联想词获取模块530，还可以包括：

节点添加单元，用于在预先建立的至少一个字典树中，对所述原始输入词进行查找之后，如果全部所述字典树中均不包括与所述原始输入词匹配的目标树节点，则添加与所述原始输入词匹配的至少一个新的树节点，并为各所述新的树节点设置初始化的节点权重。

在上述各实施例的基础上，关联节点获取单元，可以具体用于：

在所述字典树中，获取与所述目标树节点之间的节点距离小于等于设定距离阈值的全部树节点；

按照节点权重从大到小的顺序，在获取的全部树节点中获取设定数量的树节点作为所述关联节点。

在上述各实施例的基础上，还可以包括：语义向量计算模型更新模块，用于每隔设定的更新时长，根据在更新时长匹配的时间区内收集的新增语料，更新所述标准语料库，并使用所述标准语料库更新所述语义向量计算模型，以及所述语义向量集合。

在上述各实施例的基础上，所述标准语料库可以具体包括：

互联网中各媒体平台的新闻文本数据，互联网中各论坛在至少一个领域维度下的文本数据，互联网中至少一个领域维度下的博客数据、以及录入计算机的各类书籍或者录音的文本形式数据。

在上述各实施例的基础上，输入词获取模块510，可以具体用于：获取用户在线上购物平台的商品搜索框中输入的原始输入词；

用户推荐模块540，可以具体用于：

在与所述商品搜索框匹配的关联搜索推荐列表中，对所述语义联想词，和/或所述语法联想词进行用户推荐。

本发明实施例五所提供的一种联想词的推荐装置可执行本发明任意实施例所提供的联想词的推荐方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6为本发明实施例六提供的一种计算机设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图6显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MA6)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(P6I)总线。

计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如6D-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备/终端/服务器12交互的设备通信，和/或与使得该设备/终端/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的联想词的推荐方法方法。

也即：当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现：获取用户输入的原始输入词；根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词；根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词；根据所述语义联想词，和/或所述语法联想词进行用户推荐。

实施例七

本发明实施例七还提供了一种计算机可读存储介质。其上存储有计算机程序，该程序被处理器执行时实现：获取用户输入的原始输入词；根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词；根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词；根据所述语义联想词，和/或所述语法联想词进行用户推荐。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种联想词的推荐方法，其特征在于，包括：

获取用户输入的原始输入词；

根据所述语义联想词，和/或所述语法联想词进行用户推荐。

2.根据权利要求1所述的方法，其特征在于，根据所述原始输入词与标准语料库中各语料词之间的语义相似度，获取与所述原始输入词匹配的至少一个语义联想词，包括：

3.根据权利要求2所述的方法，其特征在于，所述语义向量计算模型为基于连续词袋模型，或者连续跳跃元语法模型训练得到的神经网络模型。

4.根据权利要求1所述的方法，其特征在于，根据所述原始输入词与所述标准语料库中各语料词之间的语法相似度，获取与所述原始输入词匹配的至少一个语法联想词，包括：

在预先建立的至少一个字典树中，对所述原始输入词进行查找，所述字典树通过使用所述标准语料库中的各语料词生成得到；

如果目标字典树中包括与所述原始输入词匹配的目标树节点，则在所述目标字典树中，获取与所述目标树节点满足节点距离以及节点权重条件的至少一个关联节点；

获取所述关联节点匹配的至少一个语法联想词，并增加与所述目标树节点对应的节点权重。

5.根据权利要求4所述的方法，其特征在于，在预先建立的至少一个字典树中，对所述原始输入词进行查找之后，还包括：

如果全部所述字典树中均不包括与所述原始输入词匹配的目标树节点，则添加与所述原始输入词匹配的至少一个新的树节点，并为各所述新的树节点设置初始化的节点权重。

6.根据权利要求4所述的方法，其特征在于，获取与所述目标树节点满足节点距离以及节点权重条件的至少一个关联节点，包括：

7.根据权利要求3所述的方法，其特征在于，还包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述标准语料库包括：

9.根据权利要求1-7任一项所述的方法，其特征在于，获取用户输入的原始输入词，包括：

获取用户在线上购物平台的商品搜索框中输入的原始输入词；

根据所述语义联想词，和/或所述语法联想词进行用户推荐，包括：

10.一种联想词的推荐装置，其特征在于，包括：

输入词获取模块，用于获取用户输入的原始输入词；

11.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的联想词的推荐方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的联想词的推荐方法。