CN116204688B

CN116204688B - 一种基于键入搜索词推荐用户搜索词的方法

Info

Publication number: CN116204688B
Application number: CN202310483388.4A
Authority: CN
Inventors: 李志洁; 王鹏; 陈拉拉
Original assignee: Quantum Digital Technology Co ltd
Current assignee: Quantum Digital Technology Co ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-06-30
Anticipated expiration: 2043-05-04
Also published as: CN116204688A

Abstract

本发明涉及电数字数据处理技术领域，具体涉及一种基于键入搜索词推荐用户搜索词的方法，该方法包括：获取待推荐用户对应的目标键入信息，并确定目标键入信息对应的目标类别；根据目标键入信息对应的目标类别，获取候选搜索词集合中的每个候选搜索词对应的目标预测评分，其中，候选搜索词集合包括：待推荐用户对应的相似用户集合中的各个相似用户和待推荐用户在目标键入信息对应的目标类别下的搜索词；根据候选搜索词对应的目标预测评分，从候选搜索词集合中筛选出待推荐搜索词集合；将待推荐搜索词集合推荐给待推荐用户。本发明通过对目标键入信息进行数据处理，提高了对用户进行搜索词推荐的准确度，应用于对用户进行搜索词推荐。

Description

一种基于键入搜索词推荐用户搜索词的方法

技术领域

本发明涉及电数字数据处理技术领域，具体涉及一种基于键入搜索词推荐用户搜索词的方法。

背景技术

随着科学技术的发展，各种类型的电子设备走入人们的日常生活，为了提高电子设备使用的智能化体验，现阶段大多数电子设备往往会根据用户的搜索词来推荐相关内容，其中，搜索词是指用户在搜索引擎中搜索想要了解内容时所输入的词条。为了提高用户体验，往往在用户输入搜索词部分内容时，进行搜索词推荐，当推荐的搜索词中含有用户需要的搜索词，可以使用户不需进行后续的输入，从而提高用户体验。目前，对用户进行搜索词推荐时，通常采用的方式为：基于用户的历史搜索词，确定推荐搜索词。

然而，当采用上述方式时，经常会存在如下技术问题：

当用户想要搜索的内容是用户历史未曾搜索过的类型方面的内容时，基于用户的历史搜索词，往往难以准确的对用户进行搜索词推荐，从而导致对用户进行搜索词推荐的准确度低下。

发明内容

本发明的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本发明的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

为了解决对用户进行搜索词推荐的准确度低下的技术问题，本发明提出了一种基于键入搜索词推荐用户搜索词的方法。

本发明提供了一种基于键入搜索词推荐用户搜索词的方法，该方法包括：

获取待推荐用户对应的目标键入信息，并确定所述目标键入信息对应的目标类别；

根据所述目标键入信息对应的目标类别，获取候选搜索词集合中的每个候选搜索词对应的目标预测评分，其中，所述候选搜索词集合包括：所述待推荐用户对应的相似用户集合中的各个相似用户和所述待推荐用户在所述目标键入信息对应的目标类别下的搜索词；

根据候选搜索词对应的目标预测评分，从所述候选搜索词集合中筛选出待推荐搜索词集合；

将所述待推荐搜索词集合推荐给所述待推荐用户；

确定所述相似用户集合包括以下步骤：

获取待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合；

对得到的所有历史搜索信息集合包括的搜索词进行分类，得到目标类别集合；

确定得到的所有历史搜索信息集合包括的每两个搜索词之间的目标关联度；

根据得到的所有历史搜索信息集合、所述目标类别集合和搜索词之间的目标关联度，确定每个目标用户在每个目标类别下的目标评估指标，得到目标评估矩阵，其中，目标用户是待推荐用户或参考用户；

根据得到的所有历史搜索信息集合和所述目标评估矩阵，从所述参考用户集合中筛选出相似用户集合。

进一步地，所述对得到的所有历史搜索信息集合包括的搜索词进行分类，得到目标类别集合，包括：

将得到的所有历史搜索信息集合包括的每个搜索词输入到预先训练完成的目标分类网络，得到所述搜索词属于预设类别集合中的每个预设类别的概率，作为所述搜索词在所述预设类别下的类别概率，得到所述搜索词对应的类别概率集合；

对于得到的所有历史搜索信息集合包括的每个搜索词，从所述搜索词对应的类别概率集合中筛选出最大的类别概率，作为所述搜索词对应的目标概率，将所述搜索词对应的目标概率对应的预设类别，确定为所述搜索词对应的目标类别；

将得到的所有历史搜索信息集合包括的所有搜索词对应的目标类别，组合为目标类别集合。

进一步地，所述确定得到的所有历史搜索信息集合包括的每两个搜索词之间的目标关联度，包括：

根据这两个搜索词对应的目标概率，将这两个搜索词分别确定为第一搜索词和第二搜索词；

根据第一数量、第二数量和第三数量，确定第一搜索词和第二搜索词之间的第一差异，其中，第一数量是所有历史搜索信息集合中包括第一搜索词不包括第二搜索词的历史搜索信息的数量，第二数量是所有历史搜索信息集合中包括第二搜索词不包括第一搜索词的历史搜索信息的数量，第三数量是所有历史搜索信息集合中既包括第一搜索词又包括第二搜索词的历史搜索信息的数量，第一数量和第二数量均与第一差异呈正相关，第三数量与第一差异呈负相关；

将第二概率与第一搜索词对应的目标概率的差值的绝对值，确定为第一搜索词和第二搜索词之间的第二差异，其中，第二概率是第二搜索词在第一搜索词对应的目标类别下的类别概率；

根据第一搜索词和第二搜索词之间的第一差异与第二差异，确定第一搜索词和第二搜索词之间的第三差异，其中，第一差异和第二差异均与第三差异呈正相关；

对第一搜索词和第二搜索词进行编码，得到第一搜索词对应的第一编码数据和第二搜索词对应的第二编码数据；

确定第一编码数据和第二编码数据之间的编辑距离，作为第一搜索词和第二搜索词之间的第四差异；

根据第一搜索词和第二搜索词之间的第四差异与第三差异，确定第一搜索词和第二搜索词之间的目标关联度，其中，第四差异和第三差异均与目标关联度呈负相关。

进一步地，所述根据得到的所有历史搜索信息集合、所述目标类别集合和搜索词之间的目标关联度，确定每个目标用户在每个目标类别下的目标评估指标，包括：

将第四数量在第五数量中的占比，确定为所述目标用户在所述目标类别下的初始评估指标，其中，第四数量是所有历史搜索信息集合包括的所述目标用户在所述目标类别中键入搜索词的数量，第五数量是所有历史搜索信息集合包括的所述目标用户键入搜索词的数量；

根据所有历史搜索信息集合包括的所述目标用户键入的各个搜索词和所述目标类别中的各个搜索词之间的目标关联度，确定所述目标用户在所述目标类别下的第一关联度，其中，所述目标用户键入的各个搜索词和所述目标类别中的各个搜索词之间的目标关联度均与第一关联度呈正相关；

根据所有历史搜索信息集合包括的所有目标用户键入的各个搜索词和所述目标类别中的各个搜索词之间的目标关联度，确定所述目标类别对应的第二关联度，其中，所有目标用户键入的各个搜索词和所述目标类别中的各个搜索词之间的目标关联度均与第二关联度呈正相关；

将所述目标用户在所述目标类别下的第一关联度，在所述目标类别对应的第二关联度中的占比，确定为所述目标用户在所述目标类别下的第三关联度；

根据所述目标用户在所述目标类别集合中的目标类别下的初始评估指标，确定所述目标用户对应的参考评估指标，其中，所述目标用户在所述目标类别集合中的目标类别下的初始评估指标与参考评估指标呈正相关；

根据所述目标用户对应的参考评估指标和所述目标用户在所述目标类别下的第三关联度，确定所述目标用户在所述目标类别下的目标评估指标，其中，参考评估指标和第三关联度均与目标评估指标呈正相关。

进一步地，所述根据得到的所有历史搜索信息集合和所述目标评估矩阵，从所述参考用户集合中筛选出相似用户集合，包括：

根据得到的所有历史搜索信息集合，确定每个目标用户在每个目标类别下的语义契合度，得到语义契合度矩阵；

根据所述目标评估矩阵和所述语义契合度矩阵，从所述参考用户集合中筛选出相似用户集合。

进一步地，所述根据得到的所有历史搜索信息集合，确定每个目标用户在每个目标类别下的语义契合度，包括：

根据所有历史搜索信息集合包括的搜索词对应的目标行为频次，确定所述目标用户在所述目标类别下的目标行为契合度；

将所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的所有搜索词对应的目标长度的方差，确定为所述目标用户在所述目标类别下的第一语义差异；

根据所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的每个搜索词对应的修改词集合，确定所述目标用户在所述目标类别下键入的每个搜索词对应的第二语义差异；

根据所述目标用户在所述目标类别下键入的各个搜索词对应的第二语义差异，确定所述目标用户在所述目标类别下的第三语义差异，其中，所述目标用户在所述目标类别下键入的各个搜索词对应的第二语义差异与第三语义差异呈正相关；

根据所述目标用户在所述目标类别下的目标行为契合度、第一语义差异和第三语义差异，确定所述目标用户在所述目标类别下的语义契合度，其中，目标行为契合度与目标行为契合度呈正相关，第一语义差异和第三语义差异均与目标行为契合度呈负相关。

进一步地，所述根据所有历史搜索信息集合包括的搜索词对应的目标行为频次，确定所述目标用户在所述目标类别下的目标行为契合度，包括：

根据所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的各个搜索词对应的目标行为频次，确定所述目标用户在所述目标类别下的第一行为差异，其中，目标行为频次与第一行为差异呈正相关；

将所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的所有搜索词对应的目标行为频次的方差，确定为所述目标用户在所述目标类别下的第二行为差异；

将所有历史搜索信息集合包括的所述目标类别集合中所有目标类别中的所有搜索词对应的目标行为频次的均值，确定为参考行为频次；

将所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的各个搜索词对应的目标行为频次与所述参考行为频次的差值的累加和，确定为所述目标用户在所述目标类别下的第三行为差异；

根据所述目标用户在所述目标类别下的第一行为差异、第二行为差异和第三行为差异，确定所述目标用户在所述目标类别下的目标行为契合度，其中，第一行为差异、第二行为差异和第三行为差异均与目标行为契合度呈负相关。

进一步地，所述根据所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的每个搜索词对应的修改词集合，确定所述目标用户在所述目标类别下键入的每个搜索词对应的第二语义差异，包括：

确定所述搜索词与所述搜索词对应的修改词集合中的每个修改词之间的差异，作为所述搜索词与所述修改词之间的目标差异，得到所述搜索词对应的目标差异集合；

根据所述搜索词对应的目标差异集合，确定所述搜索词对应的第二语义差异，其中，目标差异集合中的各个目标差异与第二语义差异呈正相关。

进一步地，所述根据所述目标评估矩阵和所述语义契合度矩阵，从所述参考用户集合中筛选出相似用户集合，包括：

对于所述待推荐用户和所述参考用户集合中的每个参考用户，将所述目标评估矩阵包括的所述参考用户和所述待推荐用户在每个目标类别下的目标评估指标的差值的平方，确定为所述待推荐用户和所述参考用户在所述目标类别下的第一评估差异，得到所述待推荐用户和所述参考用户之间的第一评估差异集合；

根据所述待推荐用户和每个参考用户之间的第一评估差异集合，确定所述待推荐用户和所述参考用户之间的第二评估差异，其中，第一评估差异集合中的第一评估差异与第二评估差异呈正相关；

对于所述待推荐用户和所述参考用户集合中的每个参考用户，将所述语义契合度矩阵包括的所述参考用户和所述待推荐用户在每个目标类别下的语义契合度的差值的平方，确定为所述待推荐用户和所述参考用户在所述目标类别下的第一契合差异，得到所述待推荐用户和所述参考用户之间的第一契合差异集合；

根据所述待推荐用户和每个参考用户之间的第一契合差异集合，确定所述待推荐用户和所述参考用户之间的第二契合差异，其中，第一契合差异集合中的第一契合差异与第二契合差异呈正相关；

根据所述待推荐用户和每个参考用户之间的第二评估差异和第二契合差异，确定所述待推荐用户和所述参考用户之间的度量距离，其中，第二评估差异和第二契合差异均与度量距离呈正相关；

根据所述待推荐用户和所述参考用户集合中的各个参考用户之间的度量距离，从所述参考用户集合中筛选出相似用户集合。

进一步地，所述根据所述目标键入信息对应的目标类别，获取候选搜索词集合中的每个候选搜索词对应的目标预测评分，包括：

从目标搜索词组中筛选出所述候选搜索词对应的子搜索词组，其中，目标搜索词组包括：所述待推荐用户对应的相似用户集合中的各个相似用户和所述待推荐用户在所述目标键入信息对应的目标类别下的所有搜索词；

对于所述候选搜索词对应的子搜索词组中的每个搜索词，将键入该搜索词的目标用户在所述目标键入信息对应的目标类别下的语义契合度，确定为该搜索词对应的目标契合度；

对于所述候选搜索词对应的子搜索词组中的每个搜索词，根据该搜索词对应的目标契合度和目标概率，确定该搜索词对应的第一评分，其中，目标契合度和目标概率均与第一评分呈正相关；

根据所述候选搜索词对应的子搜索词组中的各个搜索词对应的第一评分，确定所述候选搜索词对应的目标预测评分，其中，子搜索词组中的各个搜索词对应的第一评分与目标预测评分呈正相关。

本发明具有如下有益效果：

本发明的一种基于键入搜索词推荐用户搜索词的方法，通过对目标键入信息进行数据处理，解决了对用户进行搜索词推荐的准确度低下的技术问题，提高了对用户进行搜索词推荐的准确度。首先，确定目标键入信息对应的目标类别，可以便于了解待推荐用户想要了解的内容类型，可以便于后续进行精确推荐。接着，由于候选搜索词集合包括：待推荐用户对应的相似用户集合中的各个相似用户和待推荐用户在目标键入信息对应的目标类别下的搜索词。因此从候选搜索词集合中进行待推荐搜索词的筛选，相较于直接从待推荐用户的历史搜索词中筛选，候选搜索词集合中的搜索词更加符合待推荐用户想要了解的类型中的内容，不是多种类型混杂在一起，更容易进行筛选出待推荐用户想要搜索的内容。其次，从候选搜索词集合中进行待推荐搜索词的筛选，相较于直接从待推荐用户的历史搜索词中筛选，候选搜索词集合中的搜索词不仅包含了待推荐用户曾经输入的搜索词，还包括了与待推荐用户相似的相似用户集合中的各个相似用户曾经输入的搜索词，使候选搜索词集合中的搜索词更加全面，即使待推荐用户想要搜索的内容是待推荐用户未曾搜索过的类型方面的内容时，还可以基于相似用户集合中的相似用户键入的关于该类型方面的搜索词，对待推荐用户进行推荐。比如，目标键入信息对应的目标类别是待推荐用户未曾搜索过的类型，还可以从候选搜索词集合包括的相似用户集合中的各个相似用户在目标键入信息对应的目标类别下的搜索词中进行搜索词推荐。然后，获取候选搜索词集合中的每个候选搜索词对应的目标预测评分，可以便于后续从候选搜索词集合中筛选出待推荐搜索词集合。最后，将待推荐搜索词集合推荐给待推荐用户，可以实现对待推荐用户进行搜索词推荐，并且提高了对用户进行搜索词推荐的准确度。其次，基于待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合、综合考虑搜索词之间的目标关联度和目标评估矩阵，从参考用户集合中筛选出相似用户集合，可以提高相似用户集合确定的准确度，从而可以提高对待推荐用户进行搜索词推荐的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为根据本发明的一种基于键入搜索词推荐用户搜索词的方法的流程图；

图2为根据本发明的确定相似用户集合的步骤的流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明提供了一种基于键入搜索词推荐用户搜索词的方法，该方法包括以下步骤：

获取待推荐用户对应的目标键入信息，并确定目标键入信息对应的目标类别；

根据目标键入信息对应的目标类别，获取候选搜索词集合中的每个候选搜索词对应的目标预测评分；

根据候选搜索词对应的目标预测评分，从候选搜索词集合中筛选出待推荐搜索词集合；

将待推荐搜索词集合推荐给待推荐用户。

下面对上述各个步骤进行详细展开：

参考图1，示出了根据本发明的一种基于键入搜索词推荐用户搜索词的方法的一些实施例的流程。该基于键入搜索词推荐用户搜索词的方法，包括以下步骤：

步骤S1，获取待推荐用户对应的目标键入信息，并确定目标键入信息对应的目标类别。

在一些实施例中，可以获取待推荐用户对应的目标键入信息，并确定上述目标键入信息对应的目标类别。

其中，待推荐用户可以是待进行搜索词推荐的用户。搜索词可以是进行搜索的文本信息。目标键入信息也可以是文本信息。文本信息可以是任何文字组成的信息。例如，文本信息可以是但不限于：词语、句子、成语或多个词语的组合。目标键入信息可以是待推荐用户已键入的参与搜索的内容。目标键入信息对应的目标类别可以是目标键入信息所在的类别。

需要说明的是，确定目标键入信息对应的目标类别，可以便于了解待推荐用户想要了解的内容类型，可以便于后续进行精确推荐。

作为示例，本步骤可以包括以下步骤：

第一步，获取待推荐用户对应的目标键入信息。

例如，可以获取待推荐用户在搜索框中已经键入（输入）的内容，作为目标键入信息。

比如，若待推荐用户在搜索框中已经键入的内容为“电脑”，则目标键入信息为“电脑”。若待推荐用户在搜索框中已经键入的内容为“手机电池”，则目标键入信息为“手机电池”。

第二步，确定上述目标键入信息对应的目标类别。

例如，可以通过预先训练完成的目标分类网络，确定目标键入信息对应的目标类别。

其中，目标分类网络可以是用于判断文本信息所在类别的网络。目标分类网络可以是TextCNN网络（Text Convolutional Neural Networks，用于文本分析的卷积神经网络）。TextCNN网络的优化器可以为Adam。

可选地，目标分类网络的训练过程可以包括以下步骤：

第一步，获取参考文本信息集合和参考文本信息集合中的每个参考文本信息所在的类别。

其中，参考文本信息可以是已知类别的文本信息。

第二步，构建目标分类网络。

例如，可以构建TextCNN网络，作为训练前的目标分类网络。

第三步，将参考文本信息集合作为目标分类网络的训练集，将每个参考文本信息所在的类别作为目标分类网络的训练标签，对构建的目标分类网络进行训练，得到训练完成的目标分类网络。

其中，目标分类网络训练过程中的损失函数可以为交叉熵损失函数。目标分类网络的输出可以是参考文本信息属于预设类别集合中的每个预设类别的概率。预设类别可以是预先设置的类别。预设类别集合可以包括：预先标注的参考文本信息集合中的各个参考文本信息所在的类别。预设类别集合中预设类别的数量可以为100。

例如，预设类别集合可以包括：电脑相关类别、手机相关类别和铅笔相关类别。电脑相关类别可以包括：与电脑相关的信息。手机相关类别可以包括：与手机相关的信息。铅笔相关类别可以包括：与铅笔相关的信息。若参考文本信息是“电脑键盘”，则该参考文本信息所在的类别可以是电脑相关类别，进行目标分类网络训练时，可以得到该参考文本信息分别属于电脑相关类别、手机相关类别和铅笔相关类别的概率。将该参考文本信息输入到训练完成的目标分类网络，得到的概率中最大的概率可以是该参考文本信息属于电脑相关类别的概率。

步骤S2，根据目标键入信息对应的目标类别，获取候选搜索词集合中的每个候选搜索词对应的目标预测评分。

在一些实施例中，可以根据上述目标键入信息对应的目标类别，获取候选搜索词集合中的每个候选搜索词对应的目标预测评分。

其中，上述候选搜索词集合可以包括：上述待推荐用户对应的相似用户集合中的各个相似用户和上述待推荐用户在上述目标键入信息对应的目标类别下的搜索词。例如，候选搜索词集合可以包括：待推荐用户对应的相似用户集合中的各个相似用户在目标键入信息对应的目标类别下的搜索词、待推荐用户在上述目标键入信息对应的目标类别下的搜索词。候选搜索词集合可以是对待推荐用户对应的相似用户集合中的各个相似用户和上述待推荐用户在上述目标键入信息对应的目标类别下的搜索词进行去重后得到的集合。相似用户集合中的相似用户可以是与待推荐用户偏好相近的用户。用户在某个目标类别下的搜索词可以是用户输入的属于该目标类别的搜索词。候选搜索词集合可以是通过爬虫获取的集合。

需要说明的是，候选搜索词对应的目标预测评分越大，往往说明候选搜索词越应该被推荐。因此，获取候选搜索词集合中的每个候选搜索词对应的目标预测评分，可以便于后续从候选搜索词集合中筛选出待推荐搜索词集合。

可选地，参考图2，确定上述相似用户集合可以包括以下步骤：

步骤201，获取待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合。

在一些实施例中，可以获取待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合。

其中，待推荐用户对应的历史搜索信息集合可以包括：待推荐用户在不同时间键入的搜索词信息。参考用户对应的历史搜索信息集合可以包括：该参考用户在不同时间键入的搜索词信息。历史搜索信息可以包括：搜索词、搜索词的键入时间、搜索词对应的目标行为频次、搜索词对应的目标长度和搜索词对应的修改词集合。历史搜索信息包括的搜索词可以是用户需要进行搜索的内容。例如，搜索词可以是用户点击搜索按钮时，搜索框内的内容。搜索词的键入时间可以是该搜索词被输入到搜索框的时间。搜索词对应的目标行为频次可以是用户点击搜索按钮前，对搜索内容进行修改的次数。例如，搜索词对应的目标行为频次可以等于该搜索词对应的修改词集合中修改词的数量。搜索词对应的目标长度可以是该搜索词中的文字的数量。搜索词对应的修改词集合可以包括：用户在搜索框内正确输入该搜索词之前，对搜索内容进行修改得到的内容。例如，某个历史搜索信息可以包括：“手机壁纸图片”、“2023年04月24日09时31分26秒”、4、6、{“手集”，“手”，“手机壁纸涂”，“手机壁纸”}。其中，“手机壁纸图片”是该历史搜索信息包括的搜索词。“2023年04月24日09时31分26秒”是该历史搜索信息包括的搜索词的键入时间。4是该历史搜索信息包括的搜索词对应的目标行为频次。6是该历史搜索信息包括的搜索词对应的目标长度。搜索词对应的修改词集合可以是{“手集”，“手”，“手机壁纸涂”，“手机壁纸”}。“手集”、“手”、“手机壁纸涂”和“手机壁纸”可以是对搜索内容进行修改得到的修改词。“手集”可以是记录的用户输入搜索词“手机壁纸图片”时的第一次输入错误，于是对“手集”中的“集”进行删除，做了一次修改，得到“手”，对“手”进行增加，得到“手机壁纸涂”，存在错误文字“涂”，于是对“手机壁纸涂”中的“涂”进行删除，做了一次修改，得到“手机壁纸”，在“手机壁纸”之后没有错误的输入，因此得到的修改词可以分别为“手集”、“手”、“手机壁纸涂”和“手机壁纸”。

需要说明的是，获取待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合，可以便于后续判断待推荐用户和参考用户之间的相似情况，可以便于后续从参考用户集合中筛选出相似用户集合。

作为示例，可以利用爬虫技术，获取待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合。为了避免爬虫过程中出现数据异常的现象，可以对爬虫获取的数据进行数据清洗。

步骤202，对得到的所有历史搜索信息集合包括的搜索词进行分类，得到目标类别集合。

在一些实施例中，可以对得到的所有历史搜索信息集合包括的搜索词进行分类，得到目标类别集合。

其中，目标类别集合可以包括：所有历史搜索信息集合包括的搜索词所在的类别。

需要说明的是，对得到的所有历史搜索信息集合包括的搜索词进行分类，可以便于后续分析每个目标用户在每个目标类别下的情况，可以便于后续从参考用户集合中筛选出相似用户集合。其中，目标用户可以是待推荐用户或参考用户。

作为示例，本步骤可以包括以下步骤：

第一步，将得到的所有历史搜索信息集合包括的每个搜索词输入到预先训练完成的目标分类网络，得到上述搜索词属于预设类别集合中的每个预设类别的概率，作为上述搜索词在上述预设类别下的类别概率，得到上述搜索词对应的类别概率集合。

其中，搜索词对应的类别概率集合可以包括：该搜索词在预设类别集合中的每个预设类别下的类别概率。

第二步，对于得到的所有历史搜索信息集合包括的每个搜索词，从上述搜索词对应的类别概率集合中筛选出最大的类别概率，作为上述搜索词对应的目标概率，将上述搜索词对应的目标概率对应的预设类别，确定为上述搜索词对应的目标类别。

其中，搜索词对应的目标类别可以是该搜索词所在的类别。搜索词属于该搜索词对应的目标类别的概率可以是该搜索词对应的类别概率集合中最大的类别概率。

第三步，将得到的所有历史搜索信息集合包括的所有搜索词对应的目标类别，组合为目标类别集合。

步骤203，确定得到的所有历史搜索信息集合包括的每两个搜索词之间的目标关联度。

在一些实施例中，可以确定得到的所有历史搜索信息集合包括的每两个搜索词之间的目标关联度。

其中，两个搜索词之间的目标关联度可以表征这两个搜索词之间的关联情况。

作为示例，本步骤可以包括以下步骤：

第一步，根据这两个搜索词对应的目标概率，将这两个搜索词分别确定为第一搜索词和第二搜索词。

其中，可以将这两个搜索词中目标概率较大的搜索词，确定为第一搜索词，可以将这两个搜索词中目标概率较小的搜索词，确定为第二搜索词。当这两个搜索词对应的目标概率相等时，可以将这两个搜索词随机的确定为第一搜索词和第二搜索词。

第二步，根据第一数量、第二数量和第三数量，确定第一搜索词和第二搜索词之间的第一差异。

其中，第一数量可以是所有历史搜索信息集合中包括第一搜索词不包括第二搜索词的历史搜索信息的数量。第二数量可以是所有历史搜索信息集合中包括第二搜索词不包括第一搜索词的历史搜索信息的数量。第三数量可以是所有历史搜索信息集合中既包括第一搜索词又包括第二搜索词的历史搜索信息的数量。第一数量和第二数量均可以与第一差异呈正相关。第三数量可以与第一差异呈负相关。

例如，若第一搜索词是“手机”，第二搜索词是“电池”，则搜索词“手机屏幕”可以是包括第一搜索词不包括第二搜索词的搜索词，搜索词“手机屏幕”所在的历史搜索信息可以是包括第一搜索词不包括第二搜索词的历史搜索信息。搜索词“电脑电池”可以是包括第二搜索词不包括第一搜索词的搜索词，搜索词“电脑电池”所在的历史搜索信息可以是包括第二搜索词不包括第一搜索词的历史搜索信息。搜索词“手机电池”可以是既包括第一搜索词又包括第二搜索词的搜索词，搜索词“手机电池”所在的历史搜索信息可以是既包括第一搜索词又包括第二搜索词的历史搜索信息。

第三步，将第二概率与第一搜索词对应的目标概率的差值的绝对值，确定为第一搜索词和第二搜索词之间的第二差异。

其中，第二概率可以是第二搜索词在第一搜索词对应的目标类别下的类别概率。

第四步，根据第一搜索词和第二搜索词之间的第一差异与第二差异，确定第一搜索词和第二搜索词之间的第三差异。

其中，第一差异和第二差异均可以与第三差异呈正相关。

第五步，对第一搜索词和第二搜索词进行编码，得到第一搜索词对应的第一编码数据和第二搜索词对应的第二编码数据。

例如，可以采用UTF-8（8位元，Universal Character Set/UnicodeTransformation Format，可变长度字符编码）的编码规则，对第一搜索词进行编码，得到第一编码数据。可以采用UTF-8的编码规则，对第二搜索词进行编码，得到第二编码数据。

第六步，确定第一编码数据和第二编码数据之间的编辑距离，作为第一搜索词和第二搜索词之间的第四差异。

第七步，根据第一搜索词和第二搜索词之间的第四差异与第三差异，确定第一搜索词和第二搜索词之间的目标关联度。

其中，第四差异和第三差异均可以与目标关联度呈负相关。

例如，确定第一搜索词和第二搜索词之间的目标关联度对应的公式可以为：

其中，

是第一搜索词和第二搜索词之间的目标关联度。

是第一搜索词和第二搜索词之间的第一差异。

是第一数量。

是第二数量。

是第三数量。

是取

和

中的最大值。

是取

和

中的最小值。若

为

，则

为

。若

为

，则

为

。

和

均与

呈正相关。

与

呈负相关。M是得到的所有历史搜索信息集合中历史搜索信息的数量。

是第一搜索词对应的目标概率。

是第二概率。

是

的绝对值。

是第一搜索词和第二搜索词之间的第二差异。

是自然常数的

次方。

是第一搜索词和第二搜索词之间的第三差异。

和

均与

呈正相关。

和

是预先设置的大于0的因子，主要用于防止分母为0。比如，

和

均可以取0.01。

是第一搜索词对应的第一编码数据和第二搜索词对应的第二编码数据之间的编辑距离，也就是第一搜索词和第二搜索词之间的第四差异。

和

均与

呈负相关。

需要说明的是，当

越大时，往往说明第一搜索词和第二搜索词同时出现的情况越多，往往说明第一搜索词和第二搜索词越可能是同一个类别中的词，往往说明第一搜索词和第二搜索词之间的关联程度往往越高。

和

越大，往往说明第一搜索词和第二搜索词单独出现的可能性越大，往往说明第一搜索词和第二搜索词越可能不是同一个类别中的词，往往说明第一搜索词和第二搜索词之间的关联程度往往越低。因此

越大，往往说明第一搜索词和第二搜索词之间的关联程度往往越低。当

越大时，往往说明第一搜索词和第二搜索词越可能不是同一个类别中的词，往往说明第一搜索词和第二搜索词之间的关联程度往往越低。因此，

越大，往往说明第一搜索词和第二搜索词之间的关联程度往往越低。由于

是第一搜索词对应的第一编码数据和第二搜索词对应的第二编码数据之间的编辑距离，因此当

越大时，往往说明第一搜索词和第二搜索词之间的差异越大，往往说明第一搜索词和第二搜索词之间的关联程度往往越低。因此，

越大，往往说明第一搜索词和第二搜索词之间的关联程度往往越低。

步骤204，根据得到的所有历史搜索信息集合、目标类别集合和搜索词之间的目标关联度，确定每个目标用户在每个目标类别下的目标评估指标，得到目标评估矩阵。

在一些实施例中，可以根据得到的所有历史搜索信息集合、上述目标类别集合和搜索词之间的目标关联度，确定每个目标用户在每个目标类别下的目标评估指标，得到目标评估矩阵。

其中，目标用户可以是待推荐用户或参考用户。目标评估矩阵可以包括：各个目标用户在各个目标类别下的目标评估指标。

需要说明的是，目标用户在目标类别下的目标评估指标可以表征该目标用户对该目标类别的偏好评分，也就是可以表征该目标用户对该目标类别的偏好程度。

作为示例，本步骤可以包括以下步骤：

第一步，将第四数量在第五数量中的占比，确定为上述目标用户在上述目标类别下的初始评估指标。

其中，第四数量可以是所有历史搜索信息集合包括的上述目标用户在上述目标类别中键入搜索词的数量。第五数量可以是所有历史搜索信息集合包括的上述目标用户键入搜索词的数量。

例如，确定目标用户在目标类别下的初始评估指标对应的公式可以为：

其中，

是第

个目标用户在目标类别集合中的第

个目标类别下的初始评估指标。

是所有历史搜索信息集合包括的第

个目标用户在第

个目标类别中键入的搜索词的数量，也就是第四数量。

是所有历史搜索信息集合包括的第

个目标用户键入搜索词的数量，也就是第五数量。

是预先设置的大于0的因子，主要用于防止分母为0。比如，

可以取0.01。

是目标用户的序号。

是目标类别集合中目标类别的序号。

需要说明的是，当

越大时，往往说明第

个目标用户在第

个目标类别中键入的搜索词越多，往往说明第

个目标用户对第

个目标类别中的内容可能越感兴趣，往往说明第

个目标用户对第

个目标类别的偏好程度越高。由于

是第

个目标用户键入搜索词的数量，因此当

越大时，往往说明第

个目标用户在第

个目标类别中键入的搜索词相对于其他目标类别越多，往往说明第

个目标用户对第

个目标类别中的内容相对于其他目标类别可以越感兴趣，往往说明第

个目标用户对第

个目标类别的偏好程度相对于其他目标类别可能越高。

第二步，根据所有历史搜索信息集合包括的上述目标用户键入的各个搜索词和上述目标类别中的各个搜索词之间的目标关联度，确定上述目标用户在上述目标类别下的第一关联度。

其中，上述目标用户键入的各个搜索词和上述目标类别中的各个搜索词之间的目标关联度均可以与第一关联度呈正相关。

第三步，根据所有历史搜索信息集合包括的所有目标用户键入的各个搜索词和上述目标类别中的各个搜索词之间的目标关联度，确定上述目标类别对应的第二关联度。

其中，所有目标用户键入的各个搜索词和上述目标类别中的各个搜索词之间的目标关联度均可以与第二关联度呈正相关。

第四步，将上述目标用户在上述目标类别下的第一关联度，在上述目标类别对应的第二关联度中的占比，确定为上述目标用户在上述目标类别下的第三关联度。

第五步，根据上述目标用户在上述目标类别集合中的目标类别下的初始评估指标，确定上述目标用户对应的参考评估指标。

其中，上述目标用户在上述目标类别集合中的目标类别下的初始评估指标可以与参考评估指标呈正相关。

例如，可以将目标用户在目标类别集合中所有目标类别下的初始评估指标的均值，确定为该目标用户对应的参考评估指标。

又如，可以从目标用户在目标类别集合中的各个目标类别下的初始评估指标中筛选出最大的初始评估指标，作为该目标用户对应的参考评估指标。

第六步，根据上述目标用户对应的参考评估指标和上述目标用户在上述目标类别下的第三关联度，确定上述目标用户在上述目标类别下的目标评估指标。

其中，参考评估指标和第三关联度均可以与目标评估指标呈正相关。

例如，确定目标用户在目标类别下的目标评估指标对应的公式可以为：

其中，

是第

个目标用户在目标类别集合中的第

个目标类别下的目标评估指标。

是所有历史搜索信息集合包括的第

个目标用户键入的第i个搜索词和第

个目标类别中的第j个搜索词之间的目标关联度。

是第

个目标用户在第

个目标类别下的第一关联度。

是所有历史搜索信息集合包括的第

个目标用户键入的搜索词的数量。

是所有历史搜索信息集合包括的第

个目标类别中搜索词的数量。

与

呈正相关。n是目标用户的数量。

可以表征所有历史搜索信息集合包括的所有目标用户键入的各个搜索词和第

个目标类别中的各个搜索词之间的目标关联度的累加值。

是第

个目标类别对应的第二关联度。

与

呈正相关。

是第

个目标用户在第

个目标类别下的第三关联度。

是预先设置的大于0的因子，主要用于防止分母为0。比如，

可以取0.01。

是第

个目标用户对应的参考评估指标。

是自然常数的

次方。

可以实现对

的归一化。

是目标用户的序号。

是目标类别集合中目标类别的序号。i是所有历史搜索信息集合包括的第

个目标用户键入的搜索词的序号。j是所有历史搜索信息集合包括的第

个目标类别中搜索词的序号。

需要说明的是，由于

是第

个目标用户键入的第i个搜索词和第

个目标类别中的第j个搜索词之间的目标关联度，所以

可以表征第

个目标用户和第

个目标类别的关联程度。并且，由于

可以表征所有目标用户和第

个目标类别的整体关联程度。因此，

越大，往往说明第

个目标用户和第

个目标类别的相对关联程度越大，往往说明第

个目标用户键入的搜索词在第

个目标类别中的越多，往往说明第

个目标用户对第

个目标类别中的内容可能越感兴趣，往往说明第

个目标用户对第

个目标类别的偏好程度越高。由于

越大，往往说明第

个目标用户对第

个目标类别的偏好程度越高。因此

越大，往往说明第

个目标用户对第

个目标类别的偏好程度越高。其次，

可以实现对

的归一化，可以便于后续处理。

步骤205，根据得到的所有历史搜索信息集合和目标评估矩阵，从参考用户集合中筛选出相似用户集合。

在一些实施例中，可以根据得到的所有历史搜索信息集合和上述目标评估矩阵，从上述参考用户集合中筛选出相似用户集合。

需要说明的是，综合考虑得到的所有历史搜索信息集合和目标评估矩阵，从参考用户集合中筛选出相似用户集合，可以提高相似用户集合确定的准确度，从而可以提高对待推荐用户进行搜索词推荐的准确度。

作为示例，本步骤可以包括以下步骤：

第一步，根据得到的所有历史搜索信息集合，确定每个目标用户在每个目标类别下的语义契合度，得到语义契合度矩阵。

其中，语义契合度矩阵可以包括各个目标用户在各个目标类别下的语义契合度。

例如，确定每个目标用户在每个目标类别下的语义契合度可以包括以下子步骤：

第一子步骤，根据所有历史搜索信息集合包括的搜索词对应的目标行为频次，确定上述目标用户在上述目标类别下的目标行为契合度。

比如，确定每个目标用户在上述目标类别下的目标行为契合度可以包括以下步骤：

首先，根据所有历史搜索信息集合包括的上述目标用户在上述目标类别下键入的各个搜索词对应的目标行为频次，确定上述目标用户在上述目标类别下的第一行为差异。

其中，目标行为频次可以与第一行为差异呈正相关。

如，可以将所有历史搜索信息集合包括的目标用户在目标类别下键入的所有搜索词对应的目标行为频次的均值，确定为该目标用户在该目标类别下的第一行为差异。

又如，可以将所有历史搜索信息集合包括的目标用户在目标类别下键入的各个搜索词对应的目标行为频次中最小的目标行为频次，确定为该目标用户在该目标类别下的第一行为差异。

接着，将所有历史搜索信息集合包括的上述目标用户在上述目标类别下键入的所有搜索词对应的目标行为频次的方差，确定为上述目标用户在上述目标类别下的第二行为差异。

然后，将所有历史搜索信息集合包括的上述目标类别集合中所有目标类别中的所有搜索词对应的目标行为频次的均值，确定为参考行为频次。

之后，将所有历史搜索信息集合包括的上述目标用户在上述目标类别下键入的各个搜索词对应的目标行为频次与上述参考行为频次的差值的累加和，确定为上述目标用户在上述目标类别下的第三行为差异。

最后，根据上述目标用户在上述目标类别下的第一行为差异、第二行为差异和第三行为差异，确定上述目标用户在上述目标类别下的目标行为契合度。

其中，第一行为差异、第二行为差异和第三行为差异均可以与目标行为契合度呈负相关。

如，确定上述目标用户在上述目标类别下的目标行为契合度对应的公式可以为：

其中，

是第

个目标用户在目标类别集合中的第

个目标类别下的目标行为契合度。

是第

个目标用户在第

个目标类别下的第一行为差异。

是第

个目标用户在第

个目标类别下的第二行为差异，也就是所有历史搜索信息集合包括的第

个目标用户在第

个目标类别下键入的所有搜索词对应的目标行为频次的方差。t是参考行为频次。

是所有历史搜索信息集合包括的第

个目标用户在第

个目标类别下键入的第f个搜索词对应的目标行为频次。

是所有历史搜索信息集合包括的第

个目标用户在第

个目标类别下键入的搜索词的数量。

是第

个目标用户在第

个目标类别下的第三行为差异。

、

和

是预先设置的大于0的因子，主要用于防止分母为0。比如，

、

和

均可以取 0.01。

是第

个目标用户在第

个目标类别下的第四行为差异。

可以实现对

的归一化。

、

和

均可以与

呈负相关。

是目标用户的序号。

是目标类别集合中目标类别的序号。f是所有历史搜索信息集合包括的第

个目标用户在第

个目标类别下键入的搜索词的序号。

需要说明的是，当搜索词对应的目标行为频次越大时，往往说明目标用户输入该搜索词进行修改的次数越多，往往说明目标用户对该搜索词的熟悉程度可能越低，往往说明目标用户对该搜索词所在目标类别的熟悉程度可能越低，往往说明目标用户对该搜索词所在目标类别的行为契合程度越低。由于目标行为频次与

呈正相关，因此

越大，往往说明第

个目标用户对第

个目标类别的契合程度可能越低。当

越大时，往往说明第

个目标用户在第

个目标类别下键入的搜索词对应的目标行为频次越混乱，往往说明第

个目标用户对第

个目标类别的熟悉程度越不稳定，往往说明第

个目标用户对第

个目标类别的行为习惯越不稳定，往往说明第

个目标用户对第

个目标类别的契合程度可能越低。当

越大时，往往说明第f个搜索词被修改的次数越多。当

越大时，往往说明第

个目标用户在键入第

个目标类别中的搜索词时修改的次数越多，往往说明第

个目标用户对第

个目标类别的熟悉程度越低，往往说明第

个目标用户对第

个目标类别的行为契合程度可能越低。因此，当

越大时，往往说明第

个目标用户对第

个目标类别的熟悉程度越高，往往说明第

个目标用户对第

个目标类别的行为契合程度可能越高。其次，

可以实现对

的归一化，可以便于后续处理。

第二子步骤，将所有历史搜索信息集合包括的上述目标用户在上述目标类别下键入的所有搜索词对应的目标长度的方差，确定为上述目标用户在上述目标类别下的第一语义差异。

第三子步骤，根据所有历史搜索信息集合包括的上述目标用户在上述目标类别下键入的每个搜索词对应的修改词集合，确定上述目标用户在上述目标类别下键入的每个搜索词对应的第二语义差异。

比如，确定每个目标用户在上述目标类别下键入的每个搜索词对应的第二语义差异可以包括以下步骤：

首先，确定上述搜索词与上述搜索词对应的修改词集合中的每个修改词之间的差异，作为上述搜索词与上述修改词之间的目标差异，得到上述搜索词对应的目标差异集合。

其中，搜索词与修改词之间的目标差异可以表征搜索词与修改词之间的差异。搜索词对应的目标差异集合可以包括：该搜索词与该搜索词对应的修改词集合中的各个修改词之间的目标差异。

如，可以采用UTF-8的编码规则，对搜索词进行编码，得到第一数据。可以采用UTF-8的编码规则，对修改词进行编码，得到第二数据。可以将第一数据与第二数据之间的编辑距离，作为搜索词与修改词之间的目标差异。

接着，根据上述搜索词对应的目标差异集合，确定上述搜索词对应的第二语义差异。

其中，目标差异集合中的各个目标差异可以与第二语义差异呈正相关。

第四子步骤，根据上述目标用户在上述目标类别下键入的各个搜索词对应的第二语义差异，确定上述目标用户在上述目标类别下的第三语义差异。

其中，上述目标用户在上述目标类别下键入的各个搜索词对应的第二语义差异可以与第三语义差异呈正相关。

第五子步骤，根据上述目标用户在上述目标类别下的目标行为契合度、第一语义差异和第三语义差异，确定上述目标用户在上述目标类别下的语义契合度。

其中，目标行为契合度可以与目标行为契合度呈正相关。第一语义差异和第三语义差异均可以与目标行为契合度呈负相关。

比如，确定目标用户在目标类别下的语义契合度对应的公式可以为：

其中，

是第

个目标用户在目标类别集合中的第

个目标类别下的语义契合度。

是第

个目标用户在第

个目标类别下的目标行为契合度。

是第

个目标用户在第

个目标类别下的第一语义差异，也就是所有历史搜索信息集合包括的第

个目标用户在第

个目标类别下键入的所有搜索词对应的目标长度的方差。

是第

个目标用户在第

个目标类别下的第三语义差异。

与

呈正相关。

是预先设置的大于0的因子，主要用于防止分母为0。比如，

可以取0.01。

是所有历史搜索信息集合包括的第

个目标用户在第

个目标类别下键入的，第f个搜索词与第f个搜索词对应的修改词集合中的第b个修改词之间的目标差异。

是所有历史搜索信息集合包括的第

个目标用户在第

个目标类别下键入的第f个搜索词对应的修改词集合中修改词的数量。

是所有历史搜索信息集合包括的第

个目标用户在第

个目标类别下键入的搜索词的数量。

是所有历史搜索信息集合包括的第

个目标用户在第

个目标类别下键入的第f个搜索词对应的第二语义差异。

与

呈正相关。

是目标用户的序号。

个目标用户在第

个目标类别下键入的搜索词的序号。b是第

个目标用户在第

个目标类别下键入的第f个搜索词对应的修改词集合中修改词的序号。

需要说明的是，当

越大时，往往说明第

个目标用户在第

个目标类别下键入的搜索词与对应的修改词集合中的修改词之间的差异越大，往往说明第

个目标用户在第

个目标类别下对应的修改词的数量可能越多，往往说明第

个目标用户在第

个目标类别下键入的搜索词被修改的次数越多，往往说明第

个目标用户对第

个目标类别的语义契合程度可能越低。当

越大时，往往说明第

个目标用户在第

个目标类别下键入的搜索词对应的目标长度越混乱，往往说明第

个目标用户在第

个目标类别下键入的搜索词的长度越不同，往往说明第

个目标用户对第

个目标类别的语义契合程度可能越低。由于当

越大时，往往说明第

个目标用户对第

个目标类别的熟悉程度越高，往往说明第

个目标用户对第

个目标类别的行为契合程度可能越高。因此，

越大，往往说明第

个目标用户对第

个目标类别的语义契合程度可能越高。

第二步，根据上述目标评估矩阵和上述语义契合度矩阵，从上述参考用户集合中筛选出相似用户集合。

例如，从上述参考用户集合中筛选出相似用户集合可以包括以下子步骤：

第一子步骤，对于上述待推荐用户和上述参考用户集合中的每个参考用户，将上述目标评估矩阵包括的上述参考用户和上述待推荐用户在每个目标类别下的目标评估指标的差值的平方，确定为上述待推荐用户和上述参考用户在上述目标类别下的第一评估差异，得到上述待推荐用户和上述参考用户之间的第一评估差异集合。

其中，待推荐用户和参考用户之间的第一评估差异集合可以包括：待推荐用户和该参考用户在各个目标类别下的第一评估差异。

第二子步骤，根据上述待推荐用户和每个参考用户之间的第一评估差异集合，确定上述待推荐用户和上述参考用户之间的第二评估差异。

其中，第一评估差异集合中的第一评估差异可以与第二评估差异呈正相关。

第三子步骤，对于上述待推荐用户和上述参考用户集合中的每个参考用户，将上述语义契合度矩阵包括的上述参考用户和上述待推荐用户在每个目标类别下的语义契合度的差值的平方，确定为上述待推荐用户和上述参考用户在上述目标类别下的第一契合差异，得到上述待推荐用户和上述参考用户之间的第一契合差异集合。

其中，待推荐用户和参考用户之间的第一契合差异集合可以包括：待推荐用户和该参考用户在各个目标类别下的第一契合差异。

第四子步骤，根据上述待推荐用户和每个参考用户之间的第一契合差异集合，确定上述待推荐用户和上述参考用户之间的第二契合差异。

其中，第一契合差异集合中的第一契合差异可以与第二契合差异呈正相关。

第五子步骤，根据上述待推荐用户和每个参考用户之间的第二评估差异和第二契合差异，确定上述待推荐用户和上述参考用户之间的度量距离。

其中，第二评估差异和第二契合差异均可以与度量距离呈正相关。

比如，确定待推荐用户和参考用户之间的度量距离对应的公式可以为：

其中，

是待推荐用户和参考用户集合中第c个参考用户之间的度量距离。G是目标类别集合中目标类别的数量。

是待推荐用户在目标类别集合中的第

个目标类别下的语义契合度。

是第c个参考用户在第

个目标类别下的语义契合度。

是待推荐用户在第

个目标类别下的目标评估指标。

是第c个参考用户在第

个目标类别下的目标评估指标。

是目标类别集合中目标类别的序号。c是参考用户集合中参考用户的序号。

是待推荐用户和第c个参考用户在第

个目标类别下的第一评估差异。

是待推荐用户和第c个参考用户之间的第二评估差异。

与

呈正相关。

是待推荐用户和第c个参考用户在第

个目标类别下的第一契合差异。

是待推荐用户和第c个参考用户之间的第二契合差异。

与

呈正相关。

和

均与

呈正相关。

需要说明的是，当

和

越小时，往往说明待推荐用户和第c 个参考用户在第

个目标类别下的偏好情况越相似。因此，

越小时，往往说明待推荐用户和第c个参考用户的偏好情况越相似，往往说明第c个参考用户越可能是待推荐用户的相似用户。

第六子步骤，根据上述待推荐用户和上述参考用户集合中的各个参考用户之间的度量距离，从上述参考用户集合中筛选出相似用户集合。

比如，可以根据待推荐用户和参考用户集合中的各个参考用户之间的度量距离，利用KNN（K-NearestNeighbor，K最邻近）算法，获取待推荐用户的近邻集，并将待推荐用户的近邻集，确定为相似用户集合。其中，KNN算法中的K可以为20。

需要说明的是，获取的参考用户集合和历史搜索信息集合中的数据越全面，筛选出相似用户集合往往越精确。

可选地，根据上述目标键入信息对应的目标类别，获取候选搜索词集合中的每个候选搜索词对应的目标预测评分可以包括以下步骤：

第一步，从目标搜索词组中筛选出上述候选搜索词对应的子搜索词组。

其中，目标搜索词组可以包括：上述待推荐用户对应的相似用户集合中的各个相似用户和上述待推荐用户在上述目标键入信息对应的目标类别下的所有搜索词。目标搜索词组可以包括相同的搜索词。候选搜索词对应的子搜索词组可以包括：该候选搜索词、目标搜索词组中与该候选搜索词相同的搜索词。

第二步，对于上述候选搜索词对应的子搜索词组中的每个搜索词，将键入该搜索词的目标用户在上述目标键入信息对应的目标类别下的语义契合度，确定为该搜索词对应的目标契合度。

第三步，对于上述候选搜索词对应的子搜索词组中的每个搜索词，根据该搜索词对应的目标契合度和目标概率，确定该搜索词对应的第一评分。

其中，目标契合度和目标概率均可以与第一评分呈正相关。

第四步，根据上述候选搜索词对应的子搜索词组中的各个搜索词对应的第一评分，确定上述候选搜索词对应的目标预测评分。

其中，子搜索词组中的各个搜索词对应的第一评分可以与目标预测评分呈正相关。

例如，确定上述候选搜索词对应的目标预测评分对应的公式可以为：

其中，

是候选搜索词集合中的第h个候选搜索词对应的目标预测评分。

是键入第y个搜索词（第h个候选搜索词对应的子搜索词组中的第y个搜索词）的目标用户在目标键入信息对应的目标类别下的语义契合度，也就是第y个搜索词对应的目标契合度。

是第h个候选搜索词对应的子搜索词组中的第y个搜索词对应的目标概率。

是第h个候选搜索词对应的子搜索词组中的第y个搜索词对应的第一评分。

和

均与

呈正相关。

是第h个候选搜索词对应的子搜索词组中搜索词的数量。

与

呈正相关。

需要说明的是，当

越大时，往往说明第h个候选搜索词被分到目标键入信息对应的目标类别下的分类结果越准确。当

越大时，往往说明键入第y个搜索词的目标用户在目标键入信息对应的目标类别下的语义契合程度越大。因此，

越大时，往往说明第h个候选搜索词越适合被推荐给待推荐用户。

步骤S3，根据候选搜索词对应的目标预测评分，从候选搜索词集合中筛选出待推荐搜索词集合。

在一些实施例中，可以根据候选搜索词对应的目标预测评分，从上述候选搜索词集合中筛选出待推荐搜索词集合。

其中，待推荐搜索词集合中的待推荐搜索词可以是待进行推荐的搜索词。

作为示例，可以从候选搜索词集合中筛选出目标预测评分最高的预设数量个候选搜索词，作为待推荐搜索词，得到待推荐搜索词集合。其中，预设数量可以是预先设置的数量。例如，预设数量可以是10。

可选地，可以将目标评估矩阵作为协同过滤算法中的用户评估矩阵，将相似用户集合作为协同过滤算法中的用户近邻集，基于目标评估矩阵和相似用户集合，计算每个用户在对应的历史搜索信息集合中未键入搜索词的预测评分，基于Top-N推荐准则将每个搜索词预测评分按照从大到小的顺序进行排序，此时N的大小可以取20，即将预测评分排序结果中的20个搜索词组成推荐列表，并将推荐列表推荐给待推荐用户。

例如，若目标键入信息为“电脑”，预设数量为4，则待推荐搜索词集合可以为{“电脑屏幕”，“XXX品牌电脑”，“电脑电池”，“电脑键盘”}。

需要说明的是，获取的参考用户集合和历史搜索信息集合中的数据越全面，筛选出相似用户集合和待推荐搜索词集合往往越精确。

步骤S4，将待推荐搜索词集合推荐给待推荐用户。

在一些实施例中，可以将上述待推荐搜索词集合推荐给上述待推荐用户。

作为示例，可以采用网页技术，按照从大到小的顺序，将待推荐搜索词集合中的待推荐搜索词，显示在待推荐用户所输入的搜索框的下方，便于待推荐用户进行选择，以实现对待推荐用户进行搜索词推荐。

综上，首先确定目标键入信息对应的目标类别，可以便于了解待推荐用户想要了解的内容类型，可以便于后续进行精确推荐。接着，由于候选搜索词集合包括：待推荐用户对应的相似用户集合中的各个相似用户和待推荐用户在目标键入信息对应的目标类别下的搜索词。因此从候选搜索词集合中进行待推荐搜索词的筛选，相较于直接从待推荐用户的历史搜索词中筛选，候选搜索词集合中的搜索词更加符合待推荐用户想要了解的类型中的内容，不是多种类型混杂在一起，更容易进行筛选出待推荐用户想要搜索的内容。其次，从候选搜索词集合中进行待推荐搜索词的筛选，相较于直接从待推荐用户的历史搜索词中筛选，候选搜索词集合中的搜索词不仅包含了待推荐用户曾经输入的搜索词，还包括了与待推荐用户相似的相似用户集合中的各个相似用户曾经输入的搜索词，使候选搜索词集合中的搜索词更加全面，即使待推荐用户想要搜索的内容是待推荐用户未曾搜索过的类型方面的内容时，还可以基于相似用户集合中的相似用户键入的关于该类型方面的搜索词，对待推荐用户进行推荐。比如，目标键入信息对应的目标类别是待推荐用户未曾搜索过的类型，还可以从候选搜索词集合包括的相似用户集合中的各个相似用户在目标键入信息对应的目标类别下的搜索词中进行搜索词推荐。然后，获取候选搜索词集合中的每个候选搜索词对应的目标预测评分，可以便于后续从候选搜索词集合中筛选出待推荐搜索词集合。最后，将待推荐搜索词集合推荐给待推荐用户，可以实现对待推荐用户进行搜索词推荐，并且提高了对用户进行搜索词推荐的准确度。其次，基于待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合、综合考虑搜索词之间的目标关联度和目标评估矩阵，从参考用户集合中筛选出相似用户集合，可以提高相似用户集合确定的准确度，从而可以提高对待推荐用户进行搜索词推荐的准确度。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于键入搜索词推荐用户搜索词的方法，其特征在于，包括以下步骤：

将所述待推荐搜索词集合推荐给所述待推荐用户；

确定所述相似用户集合包括以下步骤：

2.根据权利要求1所述的一种基于键入搜索词推荐用户搜索词的方法，其特征在于，所述对得到的所有历史搜索信息集合包括的搜索词进行分类，得到目标类别集合，包括：

3.根据权利要求2所述的一种基于键入搜索词推荐用户搜索词的方法，其特征在于，所述确定得到的所有历史搜索信息集合包括的每两个搜索词之间的目标关联度，包括：

4.根据权利要求1所述的一种基于键入搜索词推荐用户搜索词的方法，其特征在于，所述根据得到的所有历史搜索信息集合、所述目标类别集合和搜索词之间的目标关联度，确定每个目标用户在每个目标类别下的目标评估指标，包括：

5.根据权利要求2所述的一种基于键入搜索词推荐用户搜索词的方法，其特征在于，所述根据得到的所有历史搜索信息集合和所述目标评估矩阵，从所述参考用户集合中筛选出相似用户集合，包括：

6.根据权利要求5所述的一种基于键入搜索词推荐用户搜索词的方法，其特征在于，所述根据得到的所有历史搜索信息集合，确定每个目标用户在每个目标类别下的语义契合度，包括：

7.根据权利要求6所述的一种基于键入搜索词推荐用户搜索词的方法，其特征在于，所述根据所有历史搜索信息集合包括的搜索词对应的目标行为频次，确定所述目标用户在所述目标类别下的目标行为契合度，包括：

8.根据权利要求6所述的一种基于键入搜索词推荐用户搜索词的方法，其特征在于，所述根据所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的每个搜索词对应的修改词集合，确定所述目标用户在所述目标类别下键入的每个搜索词对应的第二语义差异，包括：

9.根据权利要求5所述的一种基于键入搜索词推荐用户搜索词的方法，其特征在于，所述根据所述目标评估矩阵和所述语义契合度矩阵，从所述参考用户集合中筛选出相似用户集合，包括：

10.根据权利要求5所述的一种基于键入搜索词推荐用户搜索词的方法，其特征在于，所述根据所述目标键入信息对应的目标类别，获取候选搜索词集合中的每个候选搜索词对应的目标预测评分，包括：