CN113010563A

CN113010563A - 一种模型训练和信息推荐的方法及装置

Info

Publication number: CN113010563A
Application number: CN202110280634.7A
Authority: CN
Inventors: 李爽; 谢乾龙; 林龙; 刘一飞; 王兴星; 王栋
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Network Technology Co ltd; Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-22
Anticipated expiration: 2041-03-16
Also published as: CN113010563B

Abstract

本说明书公开了一种模型训练和信息推荐的方法及装置，获取用户的历史业务记录，并根据该历史业务记录，获取第一样本数据，其中，第一样本数据中包含有待推荐样本信息、第一标签信息以及第二标签信息。而后，将待推荐样本信息输入到待训练的第一推荐模型中，得到针对第一推荐方式对应的第一推荐度、针对第二推荐方式对应的第二推荐度，以及待推荐样本信息与指定推荐信息之间的第一组合度，最后，可以根据确定出的第一推荐度、第一标签信息、第二推荐度、第二标签信息以及第一组合度，对第一推荐模型进行训练。在需要针对用户按照第二推荐方式进行信息推荐时，可以通过该第一推荐模型向用户进行信息推荐，从而能够准确向用户进行信息推荐。

Description

一种模型训练和信息推荐的方法及装置

技术领域

本说明书涉及机器学习技术领域，尤其涉及一种模型训练和信息推荐的方法及装置。

背景技术

随着信息技术的不断发展，用户可以在线上执行各种各样的业务，随之而来的也产生了各种各样的业务平台，为了能够使用户更加方便快速的执行业务，业务平台根据用户的偏好，对用户进行信息推荐。

在实际应用中，通常，业务平台可以在用户进入业务平台时，根据用户的偏好，直接向用户推荐一些信息，这里将这种推荐方式称之为第一推荐方式。例如，在外卖平台中可以直接向用户推荐商家，或商家中的菜品。再例如，在购物平台中，可以直接向用户推荐商品等，在第一推荐方式下业务平台通常可以训练出机器学习模型来对用户进行信息推荐。

当前，业务平台也可以在通过第一推荐方式向用户进行信息推荐后，确定出该用户已针对某个推荐信息执行完业务，再向用户推荐其可能所需的其他推荐信息，这里将这种推荐方式称之为第二推荐方式，例如，业务平台可以在用户已点完一单外卖时，向该用户推荐一些其他的外卖。在现有技术中，由于训练样本数量不足的原因，业务平台可以直接使用在上述第一推荐方式下训练出的机器学习模型进行信息推荐，但是这种方式较为不准确。

所以，如何能够准确的向用户进行信息推荐，则是一个亟待解决的问题。

发明内容

本说明书提供一种模型训练和信息推荐的方法及装置，以部分地解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种模型训练的方法，包括：

获取用户的历史业务记录；

根据所述历史业务记录，获取第一样本数据，所述第一样本数据中包含有待推荐样本信息、第一标签信息以及第二标签信息，所述第一标签信息用于表示按照第一推荐方式向所述用户推荐所述待推荐样本信息后，所述用户是否执行所述待推荐样本信息对应的至少部分业务，所述第二标签信息用于表示按照第二推荐方式向所述用户推荐所述待推荐样本信息后，所述用户是否执行所述待推荐样本信息对应的至少部分业务，所述第一推荐方式包括：所述用户在未执行其他业务时，向所述用户进行信息推荐，所述第二推荐方式包括：在所述用户执行完指定推荐信息对应的业务后，向所述用户进行信息推荐；

将所述待推荐样本信息输入到待训练的第一推荐模型中，得到针对所述第一推荐方式对应的第一推荐度、针对所述第二推荐方式对应的第二推荐度，以及所述待推荐样本信息与所述指定推荐信息之间的第一组合度；

根据所述第一推荐度、所述第一标签信息、所述第二推荐度、所述第二标签信息以及所述第一组合度，对所述第一推荐模型进行训练。

可选地，所述第一推荐模型包括：第一推荐子模型、第二推荐子模型以及第三推荐子模型，所述第一推荐子模型用于按照所述第一推荐方式向用户进行信息推荐，所述第二推荐子模型用于按照所述第二推荐方式向用户进行信息推荐；

将所述待推荐样本信息输入到待训练的第一推荐模型中，得到针对所述第一推荐方式对应的第一推荐度、针对所述第二推荐方式对应的第二推荐度，以及所述待推荐样本信息与所述指定推荐信息之间的第一组合度，具体包括：

将所述待推荐样本信息输入到所述第一推荐子模型中，得到所述第一推荐度，将所述待推荐样本信息输入到所述第二推荐子模型中，得到所述第二推荐度，以及将所述待推荐样本信息输入到所述第三推荐子模型中，得到所述第一组合度。

可选地，所述第一推荐子模型、所述第二推荐子模型以及所述第三推荐子模型共用同一编码层；

将所述待推荐样本信息输入到所述第一推荐子模型中，得到所述第一推荐度，将所述待推荐样本信息输入到所述第二推荐子模型中，得到所述第二推荐度，以及将所述待推荐样本信息输入到所述第三推荐子模型中，得到所述第一组合度，具体包括：

将所述待推荐样本信息输入到所述编码层中，得到所述待推荐样本信息对应的特征向量；

将所述特征向量输入到所述第一推荐子模型包含的决策网络中，得到所述第一推荐度，将所述特征向量输入到所述第二推荐子模型包含的决策网络中，得到所述第二推荐度，以及将所述特征向量输入到所述第三推荐子模型包含的决策网络中，得到所述第一组合度。

可选地，根据所述第一推荐度、所述第一标签信息、所述第二推荐度、所述第二标签信息以及所述第一组合度，对所述第一推荐模型进行训练，具体包括：

根据所述待推荐样本信息以及所述指定推荐信息，确定所述待推荐样本信息符合的优化策略；

按照所述优化策略、最小化所述第一推荐度与所述第一标签信息之间的偏差，以及最小化所述第二推荐度与所述第二标签信息之间的偏差为优化目标，对所述第一推荐模型进行训练。

可选地，根据所述待推荐样本信息以及所述指定推荐信息，确定所述待推荐样本信息符合的优化策略，具体包括：

若确定所述待推荐样本信息与所述指定推荐信息所组成的配对组合未出现在所述历史业务记录中，确定所述待推荐样本信息与所述指定推荐信息之间的类别匹配度，并将所述类别匹配度与所述第一组合度呈负相关关系，作为所述待推荐样本信息对应的优化策略；

若确定所述待推荐样本信息与所述指定推荐信息所组成的配对组合出现在所述历史业务记录中，将所述第一组合度最高为优化目标，作为所述待推荐样本信息对应的优化策略。

可选地，所述方法还包括：

从所述历史业务记录中确定所述用户在执行所述待推荐样本信息对应的至少部分业务后，向所述用户发送的至少一个其他推荐样本信息；

针对每个其他推荐样本信息，该其他推荐样本信息对应的第二样本数据，所述第二样本数据中包含有该其他推荐样本信息对应的第三标签信息以及第四标签信息，所述第三标签信息用于表示按照所述第一推荐方式向所述用户推荐该其他推荐样本信息时，所述用户是否执行该其他推荐样本信息对应的至少部分业务，所述第四标签信息用于表示按照所述第二推荐方式向所述用户推荐所述待推荐样本信息后，所述用户是否执行该其他推荐样本信息对应的至少部分业务；

将所述待推荐样本信息以及该其他推荐样本信息输入到待训练的第二推荐模型中，得到针对所述第一推荐方式对应的第三推荐度，针对所述第二推荐方式对应的第四推荐度，以及所述待推荐样本信息与该其他推荐样本信息之间的第二组合度；

根据所述第三推荐度、所述第三标签信息、所述第四推荐度、所述第四标签信息以及所述第二组合度，对所述第二推荐模型进行训练。

本说明书提供了一种信息推荐的方法，包括：

若监测到用户执行完目标推荐信息对应的业务后，确定除所述目标推荐信息以外的各其他推荐信息，作为各第一候选推荐信息；

针对每个第一候选推荐信息，将该第一候选推荐信息输入到预先训练的第一推荐模型中，得到该第一候选推荐信息针对所述用户的推荐度，作为该第一候选推荐信息对应的推荐度，所述第一推荐模型通过模型训练的方法进行训练得到；

根据所述各第一候选推荐信息对应的推荐度，从所述各第一候选推荐信息中确定待推荐信息，并将所述待推荐信息推荐给所述用户。

可选地，所述方法还包括：

若监测到所述用户执行了针对所述待推荐信息执行了指定操作，根据所述待推荐信息，确定至少一个补充推荐信息；

将所述待推荐信息以及所述至少一个补充推荐信息在预设的页面中向所述用户进行展示。

可选地，根据所述待推荐信息，确定至少一个补充推荐信息，具体包括：

获取若干第二候选推荐信息；

针对每个第二候选推荐信息，将所述待推荐信息以及该第二候选推荐信息输入到预先训练的第二推荐模型中，得到该第二候选推荐信息对应的推荐度；

根据所述若干第二候选推荐信息对应的推荐度，确定至少一个补充推荐信息。

本说明书提供了一种模型训练的装置，包括：

记录获取模块，用于获取用户的历史业务记录；

样本获取模块，用于根据所述历史业务记录，获取第一样本数据，所述第一样本数据中包含有待推荐样本信息、第一标签信息以及第二标签信息，所述第一标签信息用于表示按照第一推荐方式向所述用户推荐所述待推荐样本信息后，所述用户是否执行所述待推荐样本信息对应的至少部分业务，所述第二标签信息用于表示按照第二推荐方式向所述用户推荐所述待推荐样本信息后，所述用户是否执行所述待推荐样本信息对应的至少部分业务，所述第一推荐方式包括：所述用户在未执行其他业务时，向所述用户进行信息推荐，所述第二推荐方式包括：在所述用户执行完指定推荐信息对应的业务后，向所述用户进行信息推荐；

输入模块，用于将所述待推荐样本信息输入到待训练的第一推荐模型中，得到针对所述第一推荐方式对应的第一推荐度、针对所述第二推荐方式对应的第二推荐度，以及所述待推荐样本信息与所述指定推荐信息之间的第一组合度；

第一训练模块，用于根据所述第一推荐度、所述第一标签信息、所述第二推荐度、所述第二标签信息以及所述第一组合度，对所述第一推荐模型进行训练。

本说明书提供了一种信息推荐的装置，包括：

监测模块，用于若监测到用户执行完目标推荐信息对应的业务后，确定除所述目标推荐信息以外的各其他推荐信息，作为各第一候选推荐信息；

输入模块，用于针对每个第一候选推荐信息，将该第一候选推荐信息输入到预先训练的第一推荐模型中，得到该第一候选推荐信息针对所述用户的推荐度，作为该第一候选推荐信息对应的推荐度，所述第一推荐模型通过模型训练的方法进行训练得到；

推荐模块，用于根据所述各第一候选推荐信息对应的推荐度，从所述各第一候选推荐信息中确定待推荐信息，并将所述待推荐信息推荐给所述用户。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练或信息推荐的方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述模型训练或信息推荐的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的模型训练或信息推荐的方法及装置中，获取用户的历史业务记录，并根据该历史业务记录，获取第一样本数据，其中，第一样本数据中包含有待推荐样本信息、第一标签信息以及第二标签信息，第一标签信息用于表示按照第一推荐方式向该用户推荐待推荐样本信息后，用户是否执行待推荐样本信息对应的至少部分业务，第二标签信息用于表示按照第二推荐方式向用户推荐待推荐样本信息后，用户是否执行待推荐样本信息对应的至少部分业务，第一推荐方式包括：用户在未执行其他业务时，向用户进行信息推荐，第二推荐方式包括：在用户执行完指定推荐信息对应的业务后，向该用户进行信息推荐。而后，将待推荐样本信息输入到待训练的第一推荐模型中，得到针对第一推荐方式对应的第一推荐度、针对第二推荐方式对应的第二推荐度，以及待推荐样本信息与指定推荐信息之间的第一组合度，最后，可以根据确定出的第一推荐度、第一标签信息、第二推荐度、第二标签信息以及第一组合度，对第一推荐模型进行训练。在需要针对用户按照第二推荐方式进行信息推荐时，可以通过该第一推荐模型向用户进行信息推荐。

从上述方法中可以看出，若业务平台需要在用户执行完业务后，向用户推荐一些信息，则业务平台可以通过该第一推荐模型来确定出如何向用户进行信息推荐，该第一推荐模型在进行训练时，不仅可以通过与第一推荐方式相关的数据，还可以通过与第二推荐方式相关的数据、以及在第二推荐方式中待推荐样本信息与该用户已执行完至少部分业务的指定推荐信息之间的组合度，这些数据来对该第一推荐模型进行训练，这样一来，该第一推荐模型更加适合在通过第二推荐方式向用户进行信息推荐时使用，因此，相比于现有技术中直接使用第一推荐方式下的机器学习模型来说，能够更准确地向用户进行信息推荐。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种模型训练的方法的流程示意图；

图2为本说明书中提供的一种第一推荐模型的结构示意图；

图3为本说明书中提供的业务平台对用户进行信息推荐的界面示意图；

图4为本说明书中一种信息推荐的方法的流程示意图；

图5为本说明书提供的一种模型训练的装置的示意图；

图6为本说明书提供的一种信息推荐的装置的示意图；

图7为本说明书提供的对应于图1或图4的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种模型训练的方法的流程示意图，具体包括以下步骤：

S101：获取用户的历史业务记录。

S102：根据所述历史业务记录，获取第一样本数据，所述第一样本数据中包含有待推荐样本信息、第一标签信息以及第二标签信息，所述第一标签信息用于表示按照第一推荐方式向所述用户推荐所述待推荐样本信息后，所述用户是否执行所述待推荐样本信息对应的至少部分业务，所述第二标签信息用于表示按照第二推荐方式向所述用户推荐所述待推荐样本信息后，所述用户是否执行所述待推荐样本信息对应的至少部分业务，所述第一推荐方式包括：所述用户在未执行其他业务时，向所述用户进行信息推荐，所述第二推荐方式包括：在所述用户执行完指定推荐信息对应的业务后，向所述用户进行信息推荐。

在实际应用中，业务平台需要通过多种推荐方式向用户进行信息推荐，第一推荐方式为，业务平台可以在用户未执行任何业务时，直接向用户进行信息推荐，例如，在用户通过终端刚进入到外卖平台的首页时，外卖平台就可以向用户推荐一些外卖信息，如菜品、水果、饮品等。第二推荐方式为，业务平台可以在用户执行完指定推荐信息对应的业务后，向用户进行信息推荐。依然以外卖业务进行举例，当用户下单了某个菜品的外卖后，可以向该用户推荐除了该菜品之外的其他外卖。

在信息推荐业务中，该第一推荐方式应用的较为广泛，因此，在该第一推荐方式下有大量的训练样本以及成熟的机器学***台能够十分准确地按照第一推荐方式为用户进行信息推荐，而该第二推荐方式相比于第一推荐方式未被广泛应用，业务平台可以通过本说明书提供的方法训练出第一推荐模型，从而能够在通过第二推荐方式进行信息推荐时，准确地向用户进行信息推荐。

基于此，业务平台可以获取用户的历史业务记录，并根据该历史业务记录，获取第一样本数据，该第一样本数据中包含有待推荐样本信息、第一标签信息以及第二标签信息。其中，第一标签信息用于表示按照第一推荐方式向用户推荐待推荐样本信息后，用户是否执行待推荐样本信息对应的至少部分业务，第二标签信息用于表示按照第二推荐方式向用户推荐待推荐样本信息后，用户是否执行该待推荐样本信息对应的至少部分业务。第一推荐方式可以是指用户在未执行其他业务时，向用户进行信息推荐，第二推荐方式可以是指在用户执行完指定推荐信息对应的业务后，向用户进行信息推荐。

这里提到的待推荐样本信息可以是指历史上展示给用户的推荐信息，该待推荐样本信息中还可以包括该推荐信息的特征信息，如，该待推荐样本信息对应的类别、该待推荐样本信息对应的价格，用户的性别、年龄、进行过点击、下单等操作的推荐信息等，由于第二推荐方式是用户在执行完指定推荐信息对应的业务后向用户进行信息推荐，因此该特征信息中还可以包括指定推荐信息的相关信息，如，该指定推荐信息的价格、类别等。

上述提到的第一标签信息与第一推荐方式相关，依然以外卖业务为例，该第一标签信息可以是直接向用户推荐某一外卖信息后，该用户是否对该外卖信息进行点击或是下单等操作，也就是说，上述至少部分业务中可以包含该外卖信息对应的外卖业务中的至少部分操作，如，对该外卖信息进行点击、下单、评论等操作。相应的，第二标签信息与第二推荐方式相关，依然以外卖业务为例，该第二标签信息可以是指用户在购买完一单外卖后向用户推荐其他的外卖信息，该用户是否针对其他的外卖信息进行点击或是下单等操作。上述提到的指定推荐信息即可以是指用户在购买完成的这单外卖的信息。

S103：将所述待推荐样本信息输入到待训练的第一推荐模型中，得到针对所述第一推荐方式对应的第一推荐度、针对所述第二推荐方式对应的第二推荐度，以及所述待推荐样本信息与所述指定推荐信息之间的第一组合度。

业务平台获取到待推荐样本信息后，业务平台可以将该待推荐样本信息输入到待训练的第一推荐模型中，得到针对第一推荐方式对应的第一推荐度、针对第二推荐方式对应的第二推荐度，以及待推荐样本信息与指定推荐信息之间的第一组合度，其中，这里提到的针对第一推荐方式对应的第一推荐度，是指为该用户预测出的，通过第一推荐方式将待推荐样本信息进行推荐的推荐度，该推荐度可以是预测出的点击率、下单率等。待推荐样本信息与指定推荐信息之间的第一组合度可以是指，该待推荐样本信息所对应的推荐信息与该指定推荐信息之间能够搭配进行推荐的程度，也就是说，该第一组合度还可以表征，在用户执行完成该指定推荐信息对应的业务后，能够向该用户推荐待推荐样本信息所对应的推荐信息的推荐程度。

在本说明书中，第一推荐模型中包括：第一推荐子模型、第二推荐子模型以及第三推荐子模型，其中，第一推荐子模型用于按照第一推荐方式向用户进行信息推荐，第二推荐子模型用于按照第二推荐方式向用户进行信息推荐，第三推荐子模型用于通过预测出的第二组合度对用户进行信息推荐。

因此，业务平台可以将待推荐样本信息输入到第一推荐子模型中，得到第一推荐度，将待推荐样本信息输入到第二推荐子模型中，得到第二推荐度，以及将待推荐样本信息输入到第三推荐子模型中，得到第一组合度。

在实际应用中，上述第一推荐子模型、第二推荐子模型以及第三推荐子模型可以共用同一编码层，如图2所示。

图2为本说明书中提供的一种第一推荐模型的结构示意图。

从图2中可以看出，业务平台可以将该待推荐样本信息输入到该编码层中，得到待推荐样本信息对应的特征向量，而后，将该特征向量输入到第一推荐子模型包含的决策网络中，得到第一推荐度，将该特征向量输入到第二推荐子模型包含的决策网络中，得到第二推荐度，以及将该特征向量输入到第三推荐子模型包含的决策网络中，得到第一组合度。

S104：根据所述第一推荐度、所述第一标签信息、所述第二推荐度、所述第二标签信息以及所述第一组合度，对所述第一推荐模型进行训练。

在本说明书中，业务平台通过第一推荐模型得到第一推荐度，第二推荐度，以及第一组合度，可以根据该第一推荐度、第二推荐度、第一标签信息、第二标签信息以及第一组合度，对该第一推荐模型进行训练。

具体的，业务平台可以根据该待推荐样本信息以及该指定推荐信息，确定该待推荐样本信息符合的优化策略，并按照该优化策略、最小化第一推荐度与第一标签信息之间的偏差，以及最小化第二推荐度与第二标签信息之间的偏差为优化目标，对第一推荐模型进行训练。

也就是说，该优化策略可以根据该待推荐样本信息以及该指定推荐信息之间的关系来确定出，具体的，若业务平台确定待推荐样本信息与该指定推荐信息所组成的配对组合出现在历史业务记录中，可以将第一组合度最高为优化目标，作为待推荐样本信息对应的优化策略。该第一组合度可以通过待推荐样本信息对应推荐信息的特征向量与该指定推荐信息的特征向量之间的相似度来确定。

这里提到的待推荐样本信息与该指定推荐信息所组成的配对组合出现在历史业务记录可以是指，历史上在设定时间内用户执行完成了待推荐样本信息所对应的推荐信息与该指定推荐信息所对应的业务。抑或是指，历史上在设定时间内用户执行完成了该推荐信息所属类别与该指定推荐信息所属类别的业务。

例如，待推荐样本信息所对应的推荐信息所属类别为主食类型，该指定推荐信息所属类别为饮品类型，用户历史上30分钟内即下单了主食类型的外卖，也下单了饮品类型的外卖，则可以确定出待推荐样本信息与该指定推荐信息所组成的配对组合出现在历史业务记录中。

因此，上述通过待推荐样本信息与该指定推荐信息确定出的优化策略，是当业务平台确定待推荐样本信息与该指定推荐信息所组成的配对组合出现在历史业务记录中，待推荐样本信息与该指定推荐信息之间对应的第一组合度应最高，由于该第一组合度的值最高为1，也就是说，这里是希望待推荐样本信息与该指定推荐信息之间的第一组合度趋近于1。

该优化策略可以通过在该第一预测模型对应的优化目标中，包含的与该第一组合度相关的优化目标来表示，与该第一组合度相关的优化目标具体可以为以最小化该第一组合度与第二标注信息之间的偏差为优化目标。通过这种优化策略训练得到的第一推荐模型，可以使得预测出的第二推荐度与该第一组合度呈正相关，即，当待推荐样本信息与该指定推荐信息所组成的配对组合出现在历史业务记录中，该第一推荐模型预测出的第二推荐度高。

若业务平台确定该待推荐样本信息与该指定推荐信息所组成的配对组合未出现在历史业务记录中，可以确定待推荐样本信息与指定推荐信息之间的类别匹配度，并将该类别匹配度与第一组合度呈负相关关系，作为待推荐样本信息对应的优化策略。

这里提到的类别匹配度可以表示待推荐样本信息与指定推荐信息之间的类别相近程度，待推荐样本信息与指定推荐信息之间的类别越相近，则类别匹配度高，待推荐样本信息与指定推荐信息之间的类别越不相近，则类别匹配度越低。这一优化策略的目的在于，使训练完成后的该第一推荐模型，在待推荐样本信息与指定推荐信息之间的类别相近时，预测出的第二推荐度较低。

该优化策略可以通过，将上述待推荐样本信息与该指定推荐信息所组成的配对组合出现在历史业务记录时的，与该第一组合度相关的优化目标对应的损失函数在第一推荐模型的整体损失函数中进行取负得到，也就是说，与上述待推荐样本信息与该指定推荐信息所组成的配对组合出现在历史业务记录的情况的优化目标，出现相反的效果。

在实际应用中，业务平台通过第二推荐方式对用户进行信息推荐时，具体形式可以如图3所示。

图3为本说明书中提供的业务平台对用户进行信息推荐的界面示意图。

从图3中可以看出，在第一页面中，用户执行了针对指定推荐信息的业务后，业务平台在第一页面下方为用户推荐了一些其他的推荐信息，这些推荐信息可以是待推荐样本信息所对应的推荐信息，当用户点击了该第一页面中的某推荐信息后，终端展示出了第二页面，在该第二页面中，基于该用户在该第一页面中点击的推荐信息，来进行信息推荐。第一页面中可以使用第一推荐模型进行信息推荐，在第二页面中，业务平台可以使用第二推荐模型进行信息推荐。该第二推荐模型同样需要通过与第一推荐模型类似的方式进行训练。

具体的，业务平台可以从历史业务记录中确定用户在执行待推荐样本信息对应的至少部分业务后，向用户发送的至少一个其他推荐样本信息，并针对每个其他推荐样本信息，该其他推荐样本信息对应的第二样本数据，第二样本数据中包含有该其他推荐样本信息对应的第三标签信息以及第四标签信息，第三标签信息用于表示按照第一推荐方式向用户该其他推荐样本信息时，用户是否执行该其他推荐样本信息对应的至少部分业务，第四标签信息用于表示按照第二推荐方式向用户推荐待推荐样本信息后，用户是否执行该其他推荐样本信息对应的至少部分业务。

业务平台将待推荐样本信息以及该其他推荐样本信息输入到待训练的第二推荐模型中，可以得到针对第一推荐方式对应的第三推荐度，针对第二推荐方式对应的第四推荐度，以及待推荐样本信息与该其他推荐样本信息之间的第二组合度，而后，业务平台可以根据该第三推荐度、该第三标签信息、该第四推荐度、该第四标签信息以及该第二组合度，对该第二推荐模型进行训练，具体的训练方式与第一预测模型类似，不同之处在于，业务平台可以直接以待推荐样本信息与该其他推荐样本信息之间的第二组合度最高为优化目标对该第二预测模型进行训练。

上述均是在模型训练角度对本方法进行说明，下面在业务平台实际进行信息推荐的角度进行说明。

图4为本说明书提供的一种信息推荐的方法的流程示意图，具体包括以下步骤：

S401：若监测到用户执行完目标推荐信息对应的业务后，确定除所述目标推荐信息以外的各其他推荐信息，作为各第一候选推荐信息。

S401：针对每个第一候选推荐信息，将该第一候选推荐信息输入到预先训练的第一推荐模型中，得到该第一候选推荐信息针对所述用户的推荐度，作为该第一候选推荐信息对应的推荐度，所述第一推荐模型通过上述模型训练的方法进行训练得到。

S401：根据所述各第一候选推荐信息对应的推荐度，从所述各第一候选推荐信息中确定待推荐信息，并将所述待推荐信息推荐给所述用户。

在图4中，业务平台是按照第二推荐方式对用户进行信息推荐的，具体的，业务平台可以在监测到用户执行完目标推荐信息对应的业务后，确定除目标推荐信息以外的各其他推荐信息，作为各第一候选推荐信息。这里提到的目标推荐信息与上述指定推荐信息相类似，也就是说，上述指定推荐信息对应于待推荐样本信息，而该目标推荐信息对应于第一候选推荐信息，两者均是用户进行业务执行的推荐信息。

而后，针对每个第一候选推荐信息，将该第一候选推荐信息输入到预先训练的第一推荐模型中，得到该第一候选推荐信息针对用户的推荐度，作为该第一候选推荐信息对应的推荐度，该第一推荐模型通过如上述模型训练的方式进行训练得到，业务平台可以根据各第一候选推荐信息对应的推荐度，从各第一候选推荐信息中确定待推荐信息，并将待推荐信息推荐给用户。

业务平台将待推荐信息推荐给用户后，可以在监测到该用户针对某个待推荐信息执行了指定操作后，根据该待推荐信息，确定至少一个补充推荐信息，并将该待推荐信息以及至少一个补充推荐信息在预设的页面中向用户进行展示，这里提到的指定操作具体可以进行设定，例如，该指定操作可以是针对待推荐信息对应链接的点击操作。这里提到的预设的页面可以是指上述提到的第二页面。

其中，业务平台监测到用户针对待推荐信息执行了指定操作后，可以获取若干第二候选推荐信息，并针对每个第二候选推荐信息，将该待推荐信息以及该第二候选推荐信息输入到预先训练的第二推荐模型中，得到该第二候选推荐信息对应的推荐度，并根据若干第二候选推荐信息对应的推荐度，确定至少一个补充推荐信息。这里提到的第二候选推荐信息可以是从上述第一候选推荐信息或是各待推荐信息中确定出的，当然，也可以是另外确定出的候选推荐信息。

从上述方法中可以看出，业务平台可以通过本方法训练出第一推荐模型与第二推荐模型，通过第一推荐模型，业务平台可以在用户执行完针对目标推荐信息的一项业务后，向该用户进行信息推荐，即，按照第二推荐方式向用户进行信息推荐，在该第一推荐模型中，不仅使用到了与第二推荐方式相关的数据，也使用到了与第一推荐方式相关的数据，增加了对该第一推荐模型进行训练的训练样本。

并且，在该第一推荐模型中还包含有对目标推荐信息以及第一候选推荐信息之间的组合度进行预测的第三推荐子模型，通过该第三推荐子模型，能够使得第一推荐模型预测出的第二推荐度，考虑到目标推荐信息以及第一候选推荐信息之间的关系，即，若在用户历史业务记录中出现过目标推荐信息以及第一候选推荐信息的配对组合，该第二推荐度高，若目标推荐信息以及第一候选推荐信息之间的类别过于接近，则该第二推荐度低。

以上为本说明书的一个或多个实施例提供的模型训练和信息推荐的方法，基于同样的思路，本说明书还提供了相应的模型训练和信息推荐的装置，如图5或图6所示。

图5为本说明书提供的一种模型训练的装置的示意图，具体包括：

记录获取模块501，用于获取用户的历史业务记录；

样本获取模块502，用于根据所述历史业务记录，获取第一样本数据，所述第一样本数据中包含有待推荐样本信息、第一标签信息以及第二标签信息，所述第一标签信息用于表示按照第一推荐方式向所述用户推荐所述待推荐样本信息后，所述用户是否执行所述待推荐样本信息对应的至少部分业务，所述第二标签信息用于表示按照第二推荐方式向所述用户推荐所述待推荐样本信息后，所述用户是否执行所述待推荐样本信息对应的至少部分业务，所述第一推荐方式包括：所述用户在未执行其他业务时，向所述用户进行信息推荐，所述第二推荐方式包括：在所述用户执行完指定推荐信息对应的业务后，向所述用户进行信息推荐；

输入模块503，用于将所述待推荐样本信息输入到待训练的第一推荐模型中，得到针对所述第一推荐方式对应的第一推荐度、针对所述第二推荐方式对应的第二推荐度，以及所述待推荐样本信息与所述指定推荐信息之间的第一组合度；

第一训练模块504，用于根据所述第一推荐度、所述第一标签信息、所述第二推荐度、所述第二标签信息以及所述第一组合度，对所述第一推荐模型进行训练。

所述输入模块503具体用于，将所述待推荐样本信息输入到所述第一推荐子模型中，得到所述第一推荐度，将所述待推荐样本信息输入到所述第二推荐子模型中，得到所述第二推荐度，以及将所述待推荐样本信息输入到所述第三推荐子模型中，得到所述第一组合度。

所述输入模块503具体用于，将所述待推荐样本信息输入到所述编码层中，得到所述待推荐样本信息对应的特征向量；将所述特征向量输入到所述第一推荐子模型包含的决策网络中，得到所述第一推荐度，将所述特征向量输入到所述第二推荐子模型包含的决策网络中，得到所述第二推荐度，以及将所述特征向量输入到所述第三推荐子模型包含的决策网络中，得到所述第一组合度。

可选地，所述第一训练模块504具体用于，根据所述待推荐样本信息以及所述指定推荐信息，确定所述待推荐样本信息符合的优化策略；按照所述优化策略、最小化所述第一推荐度与所述第一标签信息之间的偏差，以及最小化所述第二推荐度与所述第二标签信息之间的偏差为优化目标，对所述第一推荐模型进行训练。

可选地，所述第一训练模块504具体用于，若确定所述待推荐样本信息与所述指定推荐信息所组成的配对组合未出现在所述历史业务记录中，确定所述待推荐样本信息与所述指定推荐信息之间的类别匹配度，并将所述类别匹配度与所述第一组合度呈负相关关系，作为所述待推荐样本信息对应的优化策略；若确定所述待推荐样本信息与所述指定推荐信息所组成的配对组合出现在所述历史业务记录中，将所述第一组合度最高为优化目标，作为所述待推荐样本信息对应的优化策略。

可选地，所述装置还包括：

第二训练模块505，用于从所述历史业务记录中确定所述用户在执行所述待推荐样本信息对应的至少部分业务后，向所述用户发送的至少一个其他推荐样本信息；针对每个其他推荐样本信息，该其他推荐样本信息对应的第二样本数据，所述第二样本数据中包含有该其他推荐样本信息对应的第三标签信息以及第四标签信息，所述第三标签信息用于表示按照所述第一推荐方式向所述用户推荐该其他推荐样本信息时，所述用户是否执行该其他推荐样本信息对应的至少部分业务，所述第四标签信息用于表示按照所述第二推荐方式向所述用户推荐所述待推荐样本信息后，所述用户是否执行该其他推荐样本信息对应的至少部分业务；将所述待推荐样本信息以及该其他推荐样本信息输入到待训练的第二推荐模型中，得到针对所述第一推荐方式对应的第三推荐度，针对所述第二推荐方式对应的第四推荐度，以及所述待推荐样本信息与该其他推荐样本信息之间的第二组合度；根据所述第三推荐度、所述第三标签信息、所述第四推荐度、所述第四标签信息以及所述第二组合度，对所述第二推荐模型进行训练。

图6为本说明书提供的一种信息推荐的装置的示意图，具体包括：

监测模块601，用于若监测到用户执行完目标推荐信息对应的业务后，确定除所述目标推荐信息以外的各其他推荐信息，作为各第一候选推荐信息；

输入模块602，用于针对每个第一候选推荐信息，将该第一候选推荐信息输入到预先训练的第一推荐模型中，得到该第一候选推荐信息针对所述用户的推荐度，作为该第一候选推荐信息对应的推荐度，所述第一推荐模型通过模型训练的方法进行训练得到；

推荐模块603，用于根据所述各第一候选推荐信息对应的推荐度，从所述各第一候选推荐信息中确定待推荐信息，并将所述待推荐信息推荐给所述用户。

可选地，所述装置还包括：

展示模块604，用于若监测到所述用户针对所述待推荐信息执行了指定操作，根据所述待推荐信息，确定至少一个补充推荐信息；将所述待推荐信息以及所述至少一个补充推荐信息在预设的页面中向所述用户进行展示。

可选地，所述展示模块604具体用于，获取若干第二候选推荐信息；针对每个第二候选推荐信息，将所述待推荐信息以及该第二候选推荐信息输入到预先训练的第二推荐模型中，得到该第二候选推荐信息对应的推荐度；根据所述若干第二候选推荐信息对应的推荐度，确定至少一个补充推荐信息。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1或图4所示的模型训练和信息推荐的方法。

本说明书还提供了图7所示的电子设备的示意结构图。如图7所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1或图4所述的模型训练和信息推荐的方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、***或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种模型训练的方法，其特征在于，包括：

获取用户的历史业务记录；

2.如权利要求1所述的方法，其特征在于，所述第一推荐模型包括：第一推荐子模型、第二推荐子模型以及第三推荐子模型，所述第一推荐子模型用于按照所述第一推荐方式向用户进行信息推荐，所述第二推荐子模型用于按照所述第二推荐方式向用户进行信息推荐；

3.如权利要求2所述的方法，其特征在于，所述第一推荐子模型、所述第二推荐子模型以及所述第三推荐子模型共用同一编码层；

4.如权利要求1所述的方法，其特征在于，根据所述第一推荐度、所述第一标签信息、所述第二推荐度、所述第二标签信息以及所述第一组合度，对所述第一推荐模型进行训练，具体包括：

5.如权利要求4所述的方法，其特征在于，根据所述待推荐样本信息以及所述指定推荐信息，确定所述待推荐样本信息符合的优化策略，具体包括：

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种信息推荐的方法，其特征在于，包括：

针对每个第一候选推荐信息，将该第一候选推荐信息输入到预先训练的第一推荐模型中，得到该第一候选推荐信息针对所述用户的推荐度，作为该第一候选推荐信息对应的推荐度，所述第一推荐模型通过如权利要求1～6任一项所述的方法进行训练得到；

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

若监测到所述用户针对所述待推荐信息执行了指定操作，根据所述待推荐信息，确定至少一个补充推荐信息；

9.如权利要求8所述的方法，其特征在于，根据所述待推荐信息，确定至少一个补充推荐信息，具体包括：

获取若干第二候选推荐信息；

10.一种模型训练的装置，其特征在于，包括：

记录获取模块，用于获取用户的历史业务记录；

11.一种信息推荐的装置，其特征在于，包括：

输入模块，用于针对每个第一候选推荐信息，将该第一候选推荐信息输入到预先训练的第一推荐模型中，得到该第一候选推荐信息针对所述用户的推荐度，作为该第一候选推荐信息对应的推荐度，所述第一推荐模型通过如权利要求1～6任一项所述的方法进行训练得到；

12.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～6或7～9任一项所述的方法。

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～6或7～9任一项所述的方法。