CN111737595A

CN111737595A - 一种候选词推荐方法、词库排序模型训练方法及装置

Info

Publication number: CN111737595A
Application number: CN202010594333.7A
Authority: CN
Inventors: 郑培祥; 陈维; 赵琴琴; 杨林; 钟明洁; 蔡明宸; 刘忠义
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-02
Anticipated expiration: 2040-06-24
Also published as: CN111737595B

Abstract

本说明书实施例提供一种候选词推荐方法、词库排序模型训练方法及装置。所述方法包括：接收用户发送的搜索请求，所述搜索请求中包含搜索词；根据所述搜索词从第一词库中选取与所述搜索词相关的第一待推荐候选词集合；根据所述搜索词从至少一个第二词库中选取与所述搜索词相关的第二待推荐候选词集合；采用第一词库排序模型，对所述第一待推荐候选词集合进行排序，得到第一排序结果；采用第二词库排序模型，对所述第二待推荐候选词集合进行排序，得到第二排序结果；根据所述第一排序结果与所述第二排序结果，进行合并排序；基于合并排序后的结果，进行候选词推荐。

Description

一种候选词推荐方法、词库排序模型训练方法及装置

技术领域

本说明书涉及互联网技术领域，尤其涉及一种候选词推荐方法、词库排序模型训练方法及装置。

背景技术

目前随着计算机技术以及互联网技术的普及与发展，为了给用户提供更加方便、快捷的信息服务，在应用程序的页面中添加了搜索功能，通过搜索功能可以接收用户输入的关键词并给出一系列的建议词(即推荐给用户的候选词)，从而使用户可以根据建议词进行信息搜索，以满足用户的信息搜索需求。由于一些应用程序在其搜索功能中融合了第三方应用的搜索服务，因此有必要在搜索建议词中增加第三方应用的候选词搜索结果。

现有技术中主要通过以下方式融合第三方应用的候选词搜索结果，通过直接调用第三方应用服务，并将第三方应用返回的候选词与自身应用的候选词进行融合后向用户展示，但这种方式会导致搜索链路耗时延长；另外，还可以在自身应用的服务器中单独搭建第三方应用的建议词库，并训练其建议词搜索逻辑，但这种方式会面临缺乏第三方应用的用户日志，无法使用机器学习模型训练其建议词搜索逻辑的问题，而且自建第三方应用搜索业务的搜索排序推荐效果也大打折扣。

基于现有技术，需要提供一种能够降低搜索链路耗时，使搜索延迟最小化，且无需依赖第三方应用的用户日志，保证搜索排序推荐效果的候选词推荐方案。

发明内容

本说明书实施例提供一种候选词推荐方法、词库排序模型训练方法及装置，以解决现有技术存在的搜索链路耗时延长、需要依赖第三方应用的用户日志、搜索排序推荐效果差的问题。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种候选词推荐方法，所述方法包括：

接收用户发送的搜索请求，所述搜索请求中包含搜索词；

根据所述搜索词从第一词库中选取与所述搜索词相关的第一待推荐候选词集合；

根据所述搜索词从至少一个第二词库中选取与所述搜索词相关的第二待推荐候选词集合；

采用第一词库排序模型，对所述第一待推荐候选词集合进行排序，得到第一排序结果；

采用第二词库排序模型，对所述第二待推荐候选词集合进行排序，得到第二排序结果；所述第二词库排序模型是基于训练用搜索词以及另外的建议词服务器针对所述训练用搜索词返回的搜索结果进行训练得到的；

根据所述第一排序结果与所述第二排序结果，进行合并排序；

基于合并排序后的结果，进行候选词推荐。

本说明书实施例提供的一种词库排序模型训练方法，所述方法包括：

接收用户发送的搜索请求中携带的搜索词；

将所述搜索词以及用户发送搜索请求时对应的场景信息发送给第三方应用对应的建议词服务器；

接收所述第三方应用的建议词服务器返回的搜索结果，其中，所述搜索结果中包含候选词以及所述候选词对应的打分结果；

将所述候选词进行过滤后存入目标词库中；

利用预定的机器学习算法对所述打分结果进行打分学习训练，得到三方词库排序模型；

其中，所述三方词库排序模型用于对从所述目标词库中选取出的待推荐候选词进行排序。

本说明书实施例提供的一种候选词推荐装置，所述装置包括：

接收模块，用于接收用户发送的搜索请求，所述搜索请求中包含搜索词；

第一选取模块，用于根据所述搜索词从第一词库中选取与所述搜索词相关的第一待推荐候选词集合；

第二选取模块，用于根据所述搜索词从至少一个第二词库中选取与所述搜索词相关的第二待推荐候选词集合；

第一排序模块，用于采用第一词库排序模型，对所述第一待推荐候选词集合进行排序，得到第一排序结果；

第二排序模块，用于采用第二词库排序模型，对所述第二待推荐候选词集合进行排序，得到第二排序结果；所述第二词库排序模型是基于训练用搜索词以及另外的建议词服务器针对所述训练用搜索词返回的搜索结果进行训练得到的；

合并模块，用于根据所述第一排序结果与所述第二排序结果，进行合并排序；

推荐模块，用于基于合并排序后的结果，进行候选词推荐。

本说明书实施例提供的一种词库排序模型训练装置，所述装置包括：

第一接收模块，用于接收用户发送的搜索请求中携带的搜索词；

发送模块，用于将所述搜索词以及用户发送搜索请求时对应的场景信息发送给第三方应用对应的建议词服务器；

第二接收模块，用于接收所述第三方应用的建议词服务器返回的搜索结果，其中，所述搜索结果中包含候选词以及所述候选词对应的打分结果；

过滤模块，用于将所述候选词进行过滤后存入目标词库中；

训练模块，用于利用预定的机器学习算法对所述打分结果进行打分学习训练，得到三方词库排序模型；

本说明书实施例提供的一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种候选词推荐方法。

本说明书实施例提供的一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种词库排序模型训练方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过接收用户发送的搜索请求，搜索请求中包含搜索词；根据搜索词从第一词库中选取与搜索词相关的第一待推荐候选词集合；根据搜索词从至少一个第二词库中选取与搜索词相关的第二待推荐候选词集合；采用第一词库排序模型，对第一待推荐候选词集合进行排序，得到第一排序结果；采用第二词库排序模型，对第二待推荐候选词集合进行排序，得到第二排序结果；第二词库排序模型是基于训练用搜索词以及另外的建议词服务器针对训练用搜索词返回的搜索结果进行训练得到的；根据第一排序结果与第二排序结果，进行合并排序；基于合并排序后的结果，进行候选词推荐。基于本方案，能够直接调用自身域内建的自身词库和三方词库(即第二词库)，对三方词库进行排序所使用的模型是根据第三方服务对候选词的打分结果进行打分学习训练得到的，因此，避免了调用第三方服务所产生的链路耗时，保证搜索延迟最小化，也避免了依赖第三方应用的用户日志而存在的侵犯用户隐私的问题，提升了候选词排序推荐的效果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书的技术方案在一种实际应用场景下涉及的平台整体架构的示意图；

图2为本说明书实施例提供的一种候选词推荐方法的流程示意图；

图3为本说明书实施例提供的一种词库排序模型训练方法的流程示意图；

图4为本说明书实施例提供的一种候选词推荐装置的结构示意图；

图5为本说明书实施例提供的一种词库排序模型训练装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

在用户通过应用程序的搜索界面输入关键词的过程中，应用程序的后台服务会根据关键词检索自身域内的词库，并将检索到的与关键词具有相关性的候选词进行排序后推荐给用户，以便于用户根据需求选择相应的候选词进行搜索；例如：当用户输入关键词『游戏』，应用程序的建议词服务器可能会给出以下候选建议词『游戏机』和『游戏厅』。

当某一应用程序的搜索服务中还融合了第三方应用的深度搜索服务时，在该应用程序的搜索界面中的搜索框的上方或下方所展示出的建议词就不仅要包含自身应用搜索出来的建议词，还需要将第三方应用的搜索服务结果一同展示出来。举例说明如下，当前应用程序A的搜索服务中还加入了第三方应用B和第三方应用C的深度搜索服务，当用户通过当前应用程序A的搜索服务页面输入关键词进行搜索时，当前应用程序A所给出的建议词中需要加入第三方应用B和第三方应用C的建议词搜索结果。例如，当用户搜索『杭』这个词的时候，在接入第三方服务之前，建议词会给出『杭州地铁乘车码』、『杭州通支付宝公交卡』等候选结果，在接入了第三方服务(如每日必抢、饿了么等)之后，会加入『杭州西湖旅游纪念品』、『杭帮菜』等候选词结果。

现有的融合第三方搜索服务的候选词推荐方式主要包括以下两种，具体内容如下：

第一种方式，通过自身应用服务器直接向第三方搜索服务发起请求，再将第三方服务所返回的建议词与调用自身词库所确定的建议词进行融合。这种方式会导致搜索链路耗时太长的问题，并且由于直接引入的第三方服务，因此无法对第三方返回的建议词结果进行把控，可能出现与自身产品定位不符的情况。

第二种方式，在自身域内的服务器中搭建一套完整的第三方词库搜索服务，通过直接调用自身应用服务器内的自身词库和第三方词库，并将搜索得到的建议词结果进行融合。这种方式存在的问题是，首先，自身应用缺乏第三方应用的有效用户日志，无法使用机器学习模型来学习这个规律，建议词搜索排序模型无法学习到有效的内容。其次，如果引入第三方用户日志，则可能侵犯用户隐私。另外，第三方的用户意图和自身应用场景存在差距，并且第三方服务自身会进行无数优化，所以自建第三方建议词排序***效果不及第三方服务好。

针对现有的融合第三方服务的候选词推荐方式，为了达到无需直接调用第三方服务，不依赖第三方用户行为的前提下，使融合后的候选词排序推荐效果达到较优，需要提供一种候选词推荐方法。

图1为本说明书的技术方案在一种实际应用场景下涉及的平台整体架构的示意图。平台整体架构可以包括用户端、自身应用服务器和第三方应用服务器，其中，用户端可以是用户登录当前应用时所使用的移动终端，例如：手机、平板电脑等；自身应用服务器也可以认为是用户当前登录的应用程序对应的后台服务器，用于接收用户端所发送的搜索请求，自身应用服务器内集成有候选词词库以及词库排序模型等功能；第三方应用服务器可以认为是除自身应用外的其他应用程序对应的后台服务器，这里主要使用到的是第三方应用服务器中的建议词服务，因此也可以将第三方应用服务器认为是第三方建议词服务器。本说明书实施例虽然也需要调用第三方建议词服务器，但是，自身应用服务器是通过第三方建议词服务器所返回的建议词打分结果，并通过机器学习训练自身应用服务器内的第三方词库排序模型，使第三方词库排序模型能够吸收第三方建议词服务器的排序特点，从而利用学习到的三方模型的打分效果对自身应用服务器内的三方词库中的候选词进行排序，这样就能保证在不直接调用第三方服务，并将第三方服务返回的建议词结果与自身应用服务器内的建议词进行融合后推荐给用户，从而导致的搜索链路耗时延长，无法对第三方返回的建议词结果进行把控的问题。

基于上述场景，下面对本说明书的方案进行详细说明。

图2为本说明书实施例提供的一种候选词推荐方法的流程示意图，该方法具体可以包括以下步骤：

步骤S210：接收用户发送的搜索请求，所述搜索请求中包含搜索词；

步骤S220：根据所述搜索词从第一词库中选取与所述搜索词相关的第一待推荐候选词集合；

步骤S230：根据所述搜索词从至少一个第二词库中选取与所述搜索词相关的第二待推荐候选词集合；

步骤S240：采用第一词库排序模型，对所述第一待推荐候选词集合进行排序，得到第一排序结果；

步骤S250：采用第二词库排序模型，对所述第二待推荐候选词集合进行排序，得到第二排序结果；所述第二词库排序模型是基于训练用搜索词以及另外的建议词服务器针对所述训练用搜索词返回的搜索结果进行训练得到的；

步骤S260：根据所述第一排序结果与所述第二排序结果，进行合并排序；

步骤S270：基于合并排序后的结果，进行候选词推荐。

下面结合具体的实施例对上述候选词推荐方法的实现过程进行详细说明，具体内容如下：

在本说明书一个或多个实施例中，用户可以通过移动终端登录当前应用程序，并在当前应用程序的主界面中的搜索页面的搜索框内输入自己想要查询的关键词，此时，用户端便将用户输入的关键词发送给当前应用服务器。在实际应用中，本说明书实施例中所谓的用户发送搜索请求是指用户通过移动终端向当前应用服务器发送的搜索请求。

搜索请求中包含的搜索词，即用户在输入的过程中，输入框接收的不完整的词汇，并将这些词汇发往当前应用服务器，例如：用户想要输入蚂蚁花呗，在输入过程中可能接收到的关键词是m、ma、蚂等。

进一步地，在本说明书实施例中，接收用户通过当前应用的搜索页面输入搜索词时所发送的搜索请求，所述搜索请求中还包括用户当前进行搜索时的场景信息，在实际应用中，用户搜索时的场景信息包括但不限于以下内容：用户所处的地理位置信息(如经纬度、地点等)以及用户搜索时的时间信息。

在本说明书一个或多个实施例中，第一词库可以认为是在当前应用根据自身业务所建立的词库，因此，第一词库也可称为自身词库，第一词库内的候选词均是当前应用(即自身应用)所产生的候选词。第二词库可以认为是根据第三方服务返回的建议词所创建的词库，因此，第二词库也可称为三方词库，第二词库内的候选词均是第三方应用所返回给当前应用服务器的候选词。第一词库和第二词库都可以是在当前应用的域内服务器中所建立的词库，也就是说，第一词库和第二词库都在当前应用的域内服务器中。

值得说明的是，一个第三方应用可以分别对应一个三方词库(即第二词库)，因此，当需要融合的第三方应用为多个时，第二词库的数量也就不是唯一的；当然，也可以将多个第三方应用对应的词库(即三方词库)整合到一个第二词库中，无论采取哪种方式均适用于本方案。

具体地，在本说明书实施例中，可以采用以下方式执行上述步骤S220和步骤S230的操作，具体内容如下：

根据获取到的搜索请求中的搜索词，通过分别调用第一词库和第二词库，并从第一词库和第二词库中选取出与所述搜索词相关程度较高的一些候选词，然后分别利用各自词库对应的排序模型对筛选出来的候选词进行排序，即利用第一词库对应的排序模型对从第一词库中选取出来的候选词进行第一阶段的排序，同理，利用第二词库对应的排序模型对从第二词库中选取出来的候选词进行第一阶段的排序。在实际应用中，由于第一词库是当前应用自身的候选词词库，因此，第一词库对应的排序模型可以根据自身应用对候选词的打分情况，以及自身应用场景中所产生的用户日志进行神经网络训练学习得到，在此不对自身词库所使用的排序模型的训练过程进行详细介绍。所述第二词库对应的排序模型也就是本说明书实施例中的三方词库排序模型，下面将会对三方词库排序模型的训练过程进行详细说明。

在分别从第一词库和第二词库中选取出与搜索词相关程度较高的候选词并进行第一阶段排序后，将第一阶段排序后的所有候选词输入到合并算法中，从而对其进行合并排序后推荐给用户，具体地，利用预设的合并算法，将从各词库中选取出的待推荐候选词合并在一起后重新进行排序，并将排序后的待推荐候选词发送至当前应用的客户端，以便客户端在候选词推荐页面向用户展示所述待推荐候选词。

在具体实施例中，合并算法的作用在于将各个词库分别进行单独排序(第一阶段排序)后的候选词混合到一起进行重新排序(可以认为是第二阶段的排序)，但是由于不同应用的词库所对应的排序模型并不一致，且排序时的打分也不可能完全是相同维度的打分结果，因此，有必要采用一种合并算法将不同词库的排序模型对候选词的打分结果以及候选词本身混合到一起后重新排序。在实际应用中，所有可以达到上述作用的合并算法均适用于本方案，当然除了合并算法之外，还可以采用其他方式达到上述第二阶段排序的目的，比如说归一化处理。

通过以上实施例的内容，已经将候选词推荐的主要过程进行了说明，下面将对实际操作中如何通过训练得到第二词库对应的排序模型(即三方词库排序模型)的过程进行详细介绍。

在本说明书一个或多个实施例中，本说明书实施例的执行主体可以是当前应用(即自身应用)所对应的服务器，因此，当自身应用服务器接收到用户发送的搜索请求之后，可以并行地将搜索请求中的搜索词和场景信息传送给第三方建议词服务器，从而接收第三方建议词服务器返回的第三方应用对该用户的搜索词及搜索场景所产生的搜索结果。值得说明的是，第三方建议词服务器并不完全等于第三方应用对应的后台服务器，可以认为其属于应用服务器的一部分。

第三方建议词服务器可以认为是第三方应用提供建议词搜索服务的服务器，本实施例中将第三方应用所提供的搜索服务简称为第三方服务，第三方服务可以认为是和自身应用方有深度合作的应用服务，第三方服务有独立的搜索引擎和搜索入口，从而导致，第三方会有对搜索的理解和优化，会根据其自身的搜索用户、查询词、候选词排序结果来训练和学习自身的搜索排序模型，也就是说，第三方的搜索用户为其提供了丰富的搜索行为以帮助对方优化自身的搜索***。

在实际应用中，上述将搜索请求中的搜索词和场景信息传送给第三方建议词服务器，从而接收第三方建议词服务器返回的第三方应用对该用户的搜索词及搜索场景所产生的搜索结果的操作既可以是离线完成的，也可以是在线同步完成的，具体来说，当接收到搜索请求后，可以直接将搜索请求的日志发送给第三方建议词服务器，而自身应用服务器则继续搜索自身域内建的第一词库和若干第二词库，并正常向用户返回搜索结果，在此过程中，离线获取第三方服务所返回的候选词及打分情况来训练自身的三方排序模型，并对三方排序模型进行调整和更新，该过程即为离线处理的过程；当然，也可以在将搜索请求的日志发送给第三方建议词服务器后，等待第三方服务返回的候选词及打分情况，并在线训练自身内建的三方排序模型，然后根据三方排序模型对从第三方词库中挑选出的候选词进行打分后再合并推荐给用户。本说明书以上步骤的序号不构成对本方案实施过程先后顺序的限定，本方案既可以是离线完成的，也可以是在线同步操作完成的。

在本说明书一个或多个实施例中，在接收到第三方服务返回的候选词结果后，可以根据预设的符合当前应用需求的过滤逻辑对所述候选词进行过滤，并将过滤后的候选词存入至第二词库(即三方词库)中。在实际应用中，当前应用需求的过滤逻辑可以包括当前应用内部预设的候选词过滤逻辑，例如可以对候选词中的敏感词进行过滤，敏感词可以是涉及赌博、淫秽、毒品、暴力等的词汇。通过根据自身需要设置的候选词过滤逻辑对第三方服务返回的候选词进行过滤后再存入三方词库中，可以保证存入在三方词库中的候选词能够满足自身的需求。

进一步地，与之相对应的，本说明书实施例还提供了一种词库排序模型训练方法，如图3所示，为本说明书实施例提供的一种词库排序模型训练方法的流程示意图，该方法具体可以包括以下步骤：

步骤S310：接收用户发送的搜索请求中携带的搜索词；

步骤S320：将所述搜索词以及用户发送搜索请求时对应的场景信息发送给第三方应用对应的建议词服务器；

步骤S330：接收所述第三方应用的建议词服务器返回的搜索结果，其中，所述搜索结果中包含候选词以及所述候选词对应的打分结果；

步骤S340：将所述候选词进行过滤后存入目标词库中；

步骤S350：利用预定的机器学习算法对所述打分结果进行打分学习训练，得到三方词库排序模型；

下面结合具体的实施例对上述词库排序模型训练方法的实现过程进行详细说明，具体内容如下：

在本说明书实施例中，所述预定的机器学习算法为蒸馏算法，利用预定的机器学习算法对打分结果进行打分学习训练，可以包括以下内容：

根据用户搜索请求获取当前应用所确定的搜索词特征、用户特征、搜索结果特征，将候选词、候选词对应的打分结果、搜索词特征、用户特征以及搜索结果特征组合成模型训练的特征，利用蒸馏算法对模型训练的特征执行打分学习训练操作。

具体地，在本说明书实施例中，蒸馏算法可以认为是一种教学算法，所谓的教学算法是指利用蒸馏算法来训练一个特征不一致的学生模型，使得这个学生模型可以学习到第三方服务的打分结果，也即蒸馏算法是指用对方对其候选词的打分结果来训练我方应用的词库排序模型，使得我方的词库排序模型也可以得到像对方一样或差不多的打分效果。由于本方案并未对蒸馏算法本身做出其他改进，便不在此对蒸馏算法的具体内容做过多限定。下面主要对利用蒸馏算法进行模型训练时所使用的模型训练特征，以及如何根据这些特征学习第三方打分效果的实现过程进行介绍。

本说明书实施例中，模型训练所使用的特征主要包含两部分，即第三方服务返回的结果和自身应用所产生的相关特征，其中，第三方服务返回的结果也就是前述实施例中第三方服务返回的候选词以及对候选词的打分，自身应用所产生的相关特征包括自身应用的搜索***根据用户的搜索请求所产生的搜索词特征、用户特征、搜索结果特征等。通过将上述特征抽象成模型训练的特征，并利用这些特征进行模型的打分学习训练，下面结合一具体实施例，对根据上述特征进行打分学习训练的过程进行说明如下：

例如在一具体实施例中，用户搜索的关键词是“足球”，第三方应用B返回两个搜索结果，排名第一的是火立方牌足球3号商品，对应的打分结果为0.2分，排名第二的是李宁5号足球商品，对应的打分结果为0.1分，那么自身应用的候选词***将会根据对方返回的打分结果(如火立方牌足球3号商品、0.2分；李宁5号足球商品、0.1分)，并结合自身的一些特征，例如：查询词“足球”对应的统计分(如每天的搜索次数)，查询词的分类等，以及用户的特征(如年龄、星座等)，搜索结果的特征(如返回的搜索结果是火立方牌足球的搜索点击率/曝光率等)。最后，将上述特征组合成模型训练的特征，并利用蒸馏算法来训练自身的三方词库排序模型，使得自身的三方词库排序模型也能够对三方词库中的火立方牌足球3号商品和李宁5号足球商品分别打出0.2分和0.1分。

通过以上模型训练的特征，能够根据这些特征学习到和第三方排序打分模型很相似的打分结果，虽然经过训练得到的三方词库排序模型未必能够像第三方排序打分模型一样打出完全相同的分数，但是却避免了依赖第三方的用户日志来训练模型而产生的侵犯用户隐私的问题，通过学习第三方服务的打分结果，能够吸收第三方服务对候选词的排序特点，因此可以保证对自身域内的三方词库候选词的排序效果达到较优。

进一步地，在本说明书实施例中，在利用蒸馏算法对模型训练的特征执行打分学习训练操作之后，还可以根据自身业务场景日志对训练后的模型进行调整学习，这样有利于使得最后通过三方词库排序模型打分得到的待推荐候选词更贴合自身的业务，在实际应用中，可以采用以下方式对模型进行调整学习，具体内容如下：

根据用户搜索后所产生的业务场景日志，利用预设的回归模型对所述打分学习训练后的三方词库排序模型进行调整学习训练，并利用调整学习训练后的三方词库排序模型对原三方词库排序模型进行更新。

在实际应用中，当利用蒸馏算法训练出上述模型(可以认为是还未进行调整学习的三方词库排序模型)后，接下来可以用自身场景的业务数据对该模型进行调节，使得最终调节得到的三方词库排序模型的打分结果更贴合自身的业务场景。下面举例进行说明，当用户最终点击了李宁牌足球，那么就可以将模型对李宁牌足球的打分稍微增大一点，在实际应用中，可以采用一个0，1的回归模型进行调整，例如用户点击了李宁牌足球就可以使模型对李宁牌足球的打分为1，用户没有点击就可以使模型打分为0，实际调整训练过程中，每次只需要调节一点，比如说本次对李宁牌足球的打分为0.3，但是由于用户最终没有点击，因此模型要求对李宁牌足球的打分为0，经过这一样本的迭代，模型可能会将李宁牌足球的打分变为0.29999。

在本说明书实施例中，最后可以根据调整学习训练的三方词库排序模型对原三方词库排序模型进行更新，这里的更新可以指直接替换掉原有的三方词库排序模型。

基于同样的思路，本说明书实施例还提供了一种候选词推荐装置，如图4为本说明书实施例提供的一种候选词推荐装置的结构示意图，该装置400主要包括：

接收模块401，用于接收用户发送的搜索请求，所述搜索请求中包含搜索词；

第一选取模块402，用于根据所述搜索词从第一词库中选取与所述搜索词相关的第一待推荐候选词集合；

第二选取模块403，用于根据所述搜索词从至少一个第二词库中选取与所述搜索词相关的第二待推荐候选词集合；

第一排序模块404，用于采用第一词库排序模型，对所述第一待推荐候选词集合进行排序，得到第一排序结果；

第二排序模块405，用于采用第二词库排序模型，对所述第二待推荐候选词集合进行排序，得到第二排序结果；所述第二词库排序模型是基于训练用搜索词以及另外的建议词服务器针对所述训练用搜索词返回的搜索结果进行训练得到的；

合并模块406，用于根据所述第一排序结果与所述第二排序结果，进行合并排序；

推荐模块407，用于基于合并排序后的结果，进行候选词推荐。

基于同样的思路，本说明书实施例还提供了一种词库排序模型训练装置，如图5为本说明书实施例提供的一种词库排序模型训练装置的结构示意图，该装置500主要包括：

第一接收模块501，用于接收用户发送的搜索请求中携带的搜索词；

发送模块502，用于将所述搜索词以及用户发送搜索请求时对应的场景信息发送给第三方应用对应的建议词服务器；

第二接收模块503，用于接收所述第三方应用的建议词服务器返回的搜索结果，其中，所述搜索结果中包含候选词以及所述候选词对应的打分结果；

过滤模块504，用于将所述候选词进行过滤后存入目标词库中；

训练模块505，用于利用预定的机器学习算法对所述打分结果进行打分学习训练，得到三方词库排序模型；

本说明书实施例还提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种候选词推荐方法。

本说明书实施例还提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种词库排序模型训练方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、电子设备、非易失性计算机存储介质与方法是对应的，因此，装置、电子设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、电子设备、非易失性计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、***、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种候选词推荐方法，所述方法包括：

接收用户发送的搜索请求，所述搜索请求中包含搜索词；

基于合并排序后的结果，进行候选词推荐。

2.如权利要求1所述的方法，所述接收用户发送的搜索请求，所述搜索请求中包含搜索词，包括：

接收用户通过当前应用的搜索页面输入搜索词时所发送的搜索请求，所述搜索请求中还包括用户当前进行搜索时的场景信息。

3.如权利要求1所述的方法，所述采用第二词库排序模型，对所述第二待推荐候选词集合进行排序之前，还包括：

利用预定的机器学习算法对所述打分结果进行打分学习训练，得到三方词库排序模型。

4.如权利要求1所述的方法，所述根据所述第一排序结果与所述第二排序结果，进行合并排序，基于合并排序后的结果，进行候选词推荐，包括：

利用预设的合并算法，将所述第一排序结果和所述第二排序结果合并在一起后重新进行排序，并将排序后的待推荐候选词发送至当前应用的客户端，以便客户端在候选词推荐页面向用户展示所述待推荐候选词。

5.如权利要求3所述的方法，还包括：

根据预设的符合当前应用需求的过滤逻辑对所述候选词进行过滤，并将过滤后的候选词存入所述第二词库中。

6.如权利要求3所述的方法，所述预定的机器学习算法为蒸馏算法，所述利用预定的机器学习算法对所述打分结果进行打分学习训练，包括：

根据用户搜索请求获取当前应用所确定的搜索词特征、用户特征、搜索结果特征，将所述候选词、候选词对应的打分结果、搜索词特征、用户特征以及搜索结果特征组合成模型训练的特征，利用所述蒸馏算法对所述模型训练的特征执行打分学习训练操作。

7.如权利要求6所述的方法，所述利用所述蒸馏算法对所述模型训练的特征执行打分学习训练操作之后，还包括：

8.如权利要求1-7中任一项所述的方法，所述第一词库为当前应用所对应的词库，所述第二词库为第三方应用所对应的词库。

9.一种词库排序模型训练方法，所述方法包括：

接收用户发送的搜索请求中携带的搜索词；

将所述候选词进行过滤后存入目标词库中；

10.一种候选词推荐装置，所述装置包括：

推荐模块，用于基于合并排序后的结果，进行候选词推荐。

11.如权利要求10所述的装置，所述第二排序模块还用于：

在所述采用第二词库排序模型，对所述第二待推荐候选词集合进行排序之前，将所述搜索词以及用户发送搜索请求时对应的场景信息发送给第三方应用对应的建议词服务器；

12.如权利要求11所述的装置，所述预定的机器学习算法为蒸馏算法，所述第二排序模块还用于：

13.如权利要求12所述的装置，所述第二排序模块还用于：

在所述利用所述蒸馏算法对所述模型训练的特征执行打分学习训练操作之后，根据用户搜索后所产生的业务场景日志，利用预设的回归模型对所述打分学习训练后的三方词库排序模型进行调整学习训练，并利用调整学习训练后的三方词库排序模型对原三方词库排序模型进行更新。

14.一种词库排序模型训练装置，所述装置包括：

过滤模块，用于将所述候选词进行过滤后存入目标词库中；

15.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法。

16.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求9所述的方法。