CN113836388B

CN113836388B - 信息推荐方法、装置、服务器及存储介质

Info

Publication number: CN113836388B
Application number: CN202010512868.5A
Authority: CN
Inventors: 王琳; 叶璨; 黄俊逸; 胥凯; 闫阳辉
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2024-01-23
Anticipated expiration: 2040-06-08
Also published as: CN113836388A

Abstract

本公开关于一种信息推荐方法、装置、服务器及存储介质，该方法包括：获取当前账号的历史状态信息；历史状态信息用于记录当前账号对历史信息执行交互操作的操作信息，历史信息为历史推荐给当前账号的信息，操作信息中至少记录有当前账号与历史信息进行交互操作的操作类型；根据当前账号对历史信息的操作信息，从操作类型中筛选出至少一种目标操作类型；根据历史状态信息以及目标操作类型，获取候选信息集，其中，候选信息集用于向当前账号对应终端推送候选信息集内的目标信息。通过本公开可以实现根据不同用户账号对历史信息执行交互操作的操作信息，个性化地进行信息推荐，提高信息推荐的匹配度。

Description

信息推荐方法、装置、服务器及存储介质

技术领域

本公开涉及信息处理技术领域，尤其涉及一种信息推荐方法、装置、服务器及存储介质。

背景技术

随着移动互联网的普及，推荐***在各个应用程序中所扮演的角色越来越重要。面对数以亿计的多媒体信息，如何才能准确地帮助用户推荐感兴趣的信息内容显得尤为重要。传统的推荐***是通过以选择各种反馈操作较为均衡的内容信息进行推荐。例如，假如某个应用程序针对推荐信息包括有点击操作和点赞操作，则该应用程序推荐的内容信息通常为被用户点击的概率与被用户点赞的概率的和值最大的内容信息，但是，当目标用户历史从未有过点击行为，而推荐的信息内容是基于点击行为而筛选出来了的，这样向用户推荐的信息与用户的匹配度很低。

发明内容

本公开提供一种信息推荐方法、装置、电子设备及存储介质，以至少解决相关技术中信息推荐的匹配度低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种信息推荐方法，包括：

获取当前账号的历史状态信息；所述历史状态信息用于记录所述当前账号对历史信息执行交互操作的操作信息，所述历史信息为历史推荐给所述当前账号的信息，所述操作信息中至少记录有所述当前账号与所述历史信息进行交互操作的操作类型；

根据所述当前账号对所述历史信息的操作信息，从所述操作类型中筛选出至少一种目标操作类型；

根据所述历史状态信息以及所述目标操作类型，获取候选信息集，其中，所述候选信息集用于向所述当前账号对应终端推送所述候选信息集内的目标信息。

在其中一个实施例中，所述根据所述当前账号对所述历史信息的操作信息，从所述操作类型中筛选出至少一种目标操作类型的步骤，包括：

将所述当前账号对所述历史信息的操作信息输入至预先构建的第一推荐模型中，通过所述第一推荐模型获取目标操作类型；

所述根据所述历史状态信息以及所述目标操作类型，获取候选信息集的步骤，包括：

将所述当前账号的历史状态信息以及所述目标操作类型输入至预先构建的第二推荐模型中，通过所述第二推荐模型获取所述候选信息集；

所述根据所述历史状态信息以及所述目标操作类型，获取候选信息集的步骤之后，还包括：

获取所述当前账号对所述候选信息集中的目标信息的反馈操作信息；

根据所述反馈操作信息获取所述目标操作类型对应的反馈值，所述反馈值用于对所述第二推荐模型进行迭代更新。

在其中一个实施例中，所述根据所述历史状态信息以及所述目标操作类型，获取候选信息集的步骤之后，还包括：

根据所述反馈操作信息确定各所述操作类型对应的反馈值；

获取各所述操作类型对应反馈值的和值，将各所述操作类型对应反馈值的和值，确定为用于对所述第一推荐模型进行迭代更新的更新信息。

在其中一个实施例中，所述获取所述当前账号对所述候选信息集中的各个目标信息的反馈操作信息的步骤之后，还包括：

根据所述候选信息集以及所述反馈操作信息，更新所述当前账号的历史状态信息。

在其中一个实施例中，所述将所述当前账号对所述历史信息的操作信息输入至预先构建的第一推荐模型中的步骤之前，包括：

采集所述当前账号在不同历史时刻的历史状态信息，并根据所述不同历史时刻的历史状态信息，生成训练样本；其中，训练样本包括：第一历史时刻的历史状态信息、第一历史时刻的更新信息、第二历史时刻的历史状态信息；

将所述第二历史时刻的历史状态信息输入至所述第一推荐模型，获取所述第二历史时刻的更新信息预测值，根据所述第二历史时刻的更新信息预测值以及所述第一历史时刻的更新信息，计算所述第一历史时刻的更新信息累计值；

将所述第一历史时刻的历史状态信息输入至所述第一推荐模型预测所述第一历史时刻的更新信息预测值；

根据所述第一历史时刻的更新信息预测值与所述第一历史时刻的更新信息累计值间的差值，更新所述第一推荐模型的网络参数。

在其中一个实施例中，在将所述当前账号的状态信息以及所述目标优化操作输入至预先构建的第二推荐模型中的步骤之前，还包括：

采集所述当前账号在不同历史时刻的历史状态信息，并根据所述不同历史时刻的历史状态信息，生成训练样本；其中，训练样本包括：第一历史时刻的历史状态信息、第一历史时刻的目标操作类型、第一历史时刻的反馈值、第二历史时刻的历史状态信息、第二历史时刻的目标操作类型；

将所述第二历史时刻的历史状态信息以及所述第二历史时刻的目标操作类型输入至所述第二推荐模型，获取所述第二历史时刻的反馈预测值，根据所述第二历史时刻的反馈预测值以及所述第一历史时刻的反馈值，计算第一历史时刻的预测累计反馈值；

将所述第一历史时刻的历史状态信息以及所述第一历史时刻的目标操作类型输入至所述第二推荐模型，获取所述第一历史时刻的反馈预测值；

根据所述第一历史时刻的预测累计反馈值与所述第一历史时刻的反馈预测值间的差值，更新所述第二推荐模型的网络参数。

根据本公开实施例的第二方面，提供一种信息推荐装置，包括：

状态信息获取模块，被配置执行获取当前账号的历史状态信息；所述历史状态信息用于记录所述当前账号对历史信息执行交互操作的操作信息，所述历史信息为历史推荐给所述当前账号的信息，所述操作信息中至少记录有所述当前账号与所述历史信息进行交互操作的操作类型；

目标操作类型获取模块，被配置执行根据所述当前账号对所述历史信息的操作信息，从所述操作类型中筛选出至少一种目标操作类型；

信息推荐模块，被配置执行根据所述历史状态信息以及所述目标操作类型，获取候选信息集，其中，所述候选信息集用于向所述当前账号对应终端推送所述候选信息集内的目标信息。

在一示例性实施例中，所述目标操作类型获取模块，被配置执行：将所述当前账号对所述历史信息的操作信息输入至预先构建的第一推荐模型中，通过所述第一推荐模型获取目标操作类型；

信息推荐模块，被配置执行：将所述当前账号的历史状态信息以及所述目标操作类型输入至预先构建的第二推荐模型中，通过所述第二推荐模型获取所述候选信息集；

所述信息推荐装置还包括模型更新模块，被配置执行：获取所述当前账号对所述候选信息集中的目标信息的反馈操作信息；

在一示例性实施例中，所述模型更新模块，被配置执行：

根据所述反馈操作信息确定各所述操作类型对应的反馈值；

在一示例性实施例中，所述装置还包括状态信息更新模块，被配置执行：根据所述候选信息集以及所述反馈操作信息，更新所述当前账号的历史状态信息。

在一示例性实施例中，所述模型更新模块，被配置执行：

根据本公开实施例的第三方面，提供一种服务器，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面的任一项实施例中所述的信息推荐方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如第一方面的任一项实施例中所述的信息推荐方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的信息推荐方法。

本公开的实施例提供的技术方案至少带来以下有益效果：通过获取当前账号的历史状态信息；历史状态信息用于记录当前账号对历史信息执行交互操作的操作信息，历史信息为历史推荐给当前账号的信息，操作信息中至少记录有当前账号与历史信息进行交互操作的操作类型；根据当前账号对历史信息的操作信息，从操作类型中筛选出至少一种目标操作类型；根据历史状态信息以及目标操作类型，获取候选信息集，其中，候选信息集用于向当前账号对应终端推送候选信息集内的目标信息，实现根据不同用户账号对历史信息执行交互操作的操作信息，个性化地进行信息推荐，提高信息推荐的匹配度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种信息推荐方法的应用环境图。

图2是根据一示例性实施例示出的一种信息推荐方法的流程图。

图3是根据又一示例性实施例示出的一种信息推荐方法的流程图。

图4是根据一示例性实施例示出的第一推荐模型以及第二推荐模型的框图。

图5是根据一示例性实施例示出的一种信息推荐装置的框图。

图6是根据一示例性实施例示出的一种服务器的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二” 等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的信息推荐方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与服务器120进行交互。其中，终端110可以是但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以是独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种信息推荐方法的流程图，如图2所示，信息推荐方法用于图1所示的服务器中，包括以下步骤：

在步骤S210中，获取当前账号的历史状态信息；历史状态信息用于记录当前账号对历史信息执行交互操作的操作信息，历史信息为历史推荐给当前账号的信息，操作信息中至少记录有当前账号与历史信息进行交互操作的操作类型。

其中，当前账号是指信息推荐对象，例如可以是登录客户端的用户账号，以客户端为短视频应用程序客户端为例，当前账号是指在该短视频应用程序登录的观众用户对应的账号，待推荐信息是指短视频数据。可以理解的是，服务器可以向当前账号对应客户端推荐不同的信息，对应的用户可以通过终端对所推送的信息执行不同操作类型的交互操作，例如可以包括但不限于点击操作、点赞操作、关注操作、长播放操作等等。

其中，历史状态信息用于记录有当前账号对历史信息执行交互操作的操作信息，例如，历史状态信息记录有当前账号与历史信息进行交互操作的操作类型，例如可以包括当前账号最近点击的信息列表、点赞的信息列表、关注的用户账号列表等等；进一步地，历史状态信息还可以包括但不限于当前账号的账号属性信息以及账号登录信息，例如，账号属性可以包括账号对应的账号年龄、用户性别、用户账号登录的终端型号等，账号登录信息可以包括账号历史登录的登录时长、本次登录所点击的信息数量。

具体地，当前账号对应用户可通过终端操作，终端响应操作向服务器发送信息推荐请求；服务器接收当前账户对应终端发送的信息推荐请求后，根据信息推荐请求中的当前账号的账号标识，获取当前账号的历史状态信息，并从当前账号的历史状态信息获取记录有当前账号对历史信息执行交互操作的操作信息。

在步骤S220中，根据当前账号对历史信息的操作信息，从操作类型中筛选出至少一种目标操作类型。

其中，目标操作类型是指本次信息推荐过程中需要优化的交互操作的操作类型，至少包括但点击操作、点赞操作、关注操作、长播放操作等交互操作中的一种。其中，假设当前账号的状态信息的历史操作信息中从未反馈过点击操作，即用户针对推荐信息进行点击的点击率不大，此时可向当前账号推送的推荐信息为用户点击阅读概率最大的信息内容，引导用户针对推荐信息进行点击操作，使得更多的用户发生点击行为，此时目标操作类型为点击操作；又例如，假设当前账号的状态信息的历史操作信息中反馈的点击操作较多而从未反馈过点赞操作，此时可向当前账号推送的推荐信息为点赞概率最大的信息内容，引导用户针对推荐信息进行点赞操作，使得更多的用户发生点赞行为，此时目标操作类型为点击操作。

其中，服务器在获取到当前账号对历史信息的操作信息后，根据当前账号对历史信息的操作信获取目标操作类型，具体地，可以利用神经网络模型、随机森林模型等模型算法，根据当前账号的状态信息获取目标优化操作目标。

在步骤S230中，根据历史状态信息以及目标操作类型，获取候选信息集，其中，候选信息集用于向当前账号对应终端推送候选信息集内的目标信息。

在确定到目标操作类型后，根据当前账号的历史状态信息以及目标操作类型，选取候选信息集，并向当前账号推荐该候选信息集，其中候选信息集包括当前账号针对信息执行目标操作类型的可能性较大的待推荐信息，并向当前账号推荐该候选信息集。具体可以将当前目标用户账号的状态信息、目标操作类型以及待推荐信息输入至预先构建好的、用于预测推荐概率的神经网络模型中，通过这个用于预测推荐概率的神经网络模型，预测待推荐信息推送至当前账号对应终端后，当前账号针对该待推荐信息执行目标操作类型对应的交互操作的的概率值，进而根据各个待推送信息对应的概率值，选取候选信息集。

上述信息推荐方法，通过获取当前账号的历史状态信息；历史状态信息用于记录当前账号对历史信息执行交互操作的操作信息，历史信息为历史推荐给当前账号的信息，操作信息中至少记录有当前账号与历史信息进行交互操作的操作类型；根据当前账号对历史信息的操作信息，从操作类型中筛选出至少一种目标操作类型；根据历史状态信息以及目标操作类型，获取候选信息集，其中，候选信息集用于向当前账号对应终端推送候选信息集内的目标信息，实现根据不同用户账号对历史信息执行交互操作的操作信息，个性化地进行信息推荐，提高信息推荐的匹配度。

在一示例性实施例中，如图3所示，图3是根据一示例性实施例示出的一种信息推荐方法的流程图，信息推荐方法包括以下步骤：

在步骤S310中，获取当前账号的历史状态信息；历史状态信息用于记录当前账号对历史信息执行交互操作的操作信息，历史信息为历史推荐给当前账号的信息，操作信息中至少记录有当前账号与历史信息进行交互操作的操作类型；

在步骤S320中，将当前账号对历史信息的操作信息输入至预先构建的第一推荐模型中，通过第一推荐模型获取目标操作类型；

在步骤S330中，将当前账号的历史状态信息以及目标操作类型输入至预先构建的第二推荐模型中，通过第二推荐模型获取候选信息集，其中，候选信息集用于向当前账号对应终端推送候选信息集内的目标信息。

其中，在获取当前账号的历史状态信息后，服务器可以将当前账号的历史状态信息中的操作信息输入至第一推荐模型中，第一推荐模型输出各种操作类型的概率值，从而根据各个各种操作类型的概率值确定需要优化的目标操作类型。在确定到目标操作类型后，服务器将当前账号的历史状态信息以及目标操作类型输入至第二推荐模型中，第二推荐模型输出各个待推荐信息推送至当前账号对应终端后，当前账号针对该待推荐信息执行目标操作类型对应的交互操作的概率值。在获取到各个待推荐信息的推荐度后，服务器根据各个待推送信息对应的概率值，选取候选信息集，并向当前账号推荐候选信息集。

其中，这里的第一推荐模型以及第二推荐模型为已完成训练的神经网络模型；第一推荐模型用于根据输入的历史状态信息，预测各个预设优化操作信息的概率值，第二推荐模型用于根据输入的历史状态信息以及目标操作类型，预测各个待推荐信息的采样概率。具体地，第一推荐模型以及第二推荐模型可以是强化学习模型，进一步地，第一推荐模型以及第二推荐模型可以是马尔可夫决策过程模型。

其中，强化学习模型可以理解为智能体(Agent)和环境(Environment)两个交互的主体。其中，智能体可以感知环境的状态(State)和环境反馈的奖励(Reward)，并基于感知到的状态和奖励进行学习和决策。也就是说，智能体具备学习和决策的双重功能。智能体的决策功能，是指智能体可以根据环境的状态和策略做出不同的动作。智能体的学习功能，是指智能体可以感知外界环境的状态和反馈的奖励，并基于感知到的状态和奖励对策略进行学习改进。在本示例性实施例中，当前账号可以看作是环境，第一推荐模型以及第二推荐模型分别为不同的智能体，第一推荐模型以及第二推荐模型的状态空间为当前账号的状态信息。具体地，如图4所示，图4为一个实施例中第一推荐模型以及第二推荐模型的示意图，其中，假设当前时刻为时刻t，第一推荐模型根据当前账号的历史状态信息 s_t(即环境的状态)，产生一个目标操作类型g_t(即第一推荐模型这一智能体根据环境的状态和策略所做出的动作)，其中，目标操作类型是预设优化操作信息中的一种，例如可以是点击操作、点赞操作、关注操作以及长播放操作中的一种。第二推荐模型根据当前账号的历史状态信息s_t以及第一推荐模型的给予的目标操作类型g_t(即环境的状态包括s_t以及g_t)，选择推荐信息a_t，得到候选信息集(即第二推荐模型这一智能体根据环境的状态和策略所做出动作)，即，第二推荐模型每一时刻实际上只会选取用户针对待推荐信息执行目标操作类型的交互操作的概率较大的待推荐信息。

例如，假设在短视频应用程序中，针对所推荐的视频信息的交互操作的操作类型包括有点击操作和点赞操作；当当前账号为新用户的账号，历史从未有过点击观看短视频的行为，此时，服务器将当前账号的历史状态信息输入至第一推荐模型中，第一推荐模型输出目标操作类型为点击操作，然后将目标操作类型(点击操作)以及历史状态信息输入至第二推荐模型中，通过第二推荐模型获取被当前账号进行点击操作的概率较高的视频信息，生成候选信息集推送至当前账号对应的终端中。当当前账号对应用户使用该短视频应用程序一段时间后，历史操作信息中的点击操作较多而点赞操作较少，此时，服务器将当前账号的历史状态信息输入至第一推荐模型中，第一推荐模型输出目标操作类型为点赞操作，然后将目标操作类型(点赞操作)以及历史状态信息输入至第二推荐模型中，通过第二推荐模型获取被当前账号进行点赞操作的概率较高的视频信息，生成候选信息集推送至当前账号对应的终端中。通过强化学习模型实现根据不同用户账号对历史信息执行交互操作的操作信息，个性化地进行信息推荐，提高信息推荐的匹配度。

进一步地，在一示例性实施例中，所述根据所述历史状态信息以及所述目标操作类型，获取候选信息集的步骤之后，还包括：获取所述当前账号对所述候选信息集中的目标信息的反馈操作信息；根据所述反馈操作信息获取所述目标操作类型对应的反馈值，所述反馈值用于对所述第二推荐模型进行迭代更新。

本示例性实施例为第二推荐模型迭代更新过程。其中，反馈操作信息包括当前账号对应用户通过终端针对候选信息集中各个目标信息执行不同交互操作的操作类型。在具体的应用过程中，服务器获取当前账号针对目标信息的反馈操作信息，并基于反馈操作信息，获取目标操作类型对应反馈值，确定为第二推荐模型的反馈值，并根据获取到的反馈值更新第二推荐模型。具体地，不同的操作类型的交互操作对应有不同的奖励分值，即反馈值，其中，第二奖励值作为此次环境给予第二推荐模型的奖励值，是根据目标操作类型对应交互操作的奖励分值以及反馈操作信息是否包括目标操作类型确定的。例如，点击操作信息对应奖励分值为10分，点赞操作对应奖励分值为20分、关注操作对应奖励分值为30分，长播放操作对应奖励分值为40分；本次信息推荐过程中，目标操作类型为点赞操作，服务器在将候选信息集推荐至当前账号对应的客户端后，用户可以通过客户端对候选推荐集中的目标信息进行点击操作以阅读该目标信息，并对目标信息进行点赞操作，即当前账号针对目标推荐信息的反馈操作信息包括点击操作以及点赞操作，此时，将目标操作类型，即点赞操作对应的奖励分值确定第二推荐模型的反馈值，即20分。也就是说，第二推荐模型所优化的奖赏函数只是用户所有的反馈操作中的一个，具体是哪个由第一推荐模型决定。本实施例中，根据不同账号对应的状态信息自动化设计第二推荐模型的奖赏函数，使得所推荐的信息匹配各个账号，提高推荐信息的匹配度。

在一示例性实施例中，所述根据所述历史状态信息以及所述目标操作类型，获取候选信息集的步骤之后，还包括：根据所述反馈操作信息确定各所述操作类型对应的反馈值；获取各所述操作类型对应反馈值的和值，将各所述操作类型对应反馈值的和值，确定为用于对所述第一推荐模型进行迭代更新的更新信息。

本示例性实施例为第一推荐模型迭代更新过程。由于第一推荐模型与第二推荐模型分别为不同的智能体，而智能体可以感知外界环境的状态和反馈的奖励，并基于感知到的状态和奖励对策略进行学习改进。在具体的应用过程中，服务器获取当前账号针对所述目标推荐信息的反馈操作信息，并基于反馈操作信息获取第一推荐模型的更新信息。

具体地，不同的操作类型的交互操作对应有不同的奖励分值，即反馈值，其中，更新信息作为此次环境给予第一推荐模型的奖励分值，可以是根据所有反馈操作信息对应的奖励分值的和值确定的。例如，点击操作信息对应奖励分值为10分，点赞操作对应奖励分值为20分、关注操作对应奖励分值为30分，长播放操作对应奖励分值为40分；本次信息推荐过程中，服务器在将候选信息集推荐至当前账号对应的终端后，用户可以通过终端对候选信息集中的目标信息进行点击操作以阅读该目标推荐信息，并对目标信息进行点赞操作，即当前账号针对目标信息的反馈操作信息包括点击操作以及点赞操作，此时，第一推荐模型的更新信息为点击操作以及点赞操作对应奖励分值的和值，即30分。也就是说，第一推荐模型所优化的奖赏函数为账户所有的反馈操作对应奖励值的和值。

结合如图4所示的第一推荐模型以及第二推荐模型对上述示例性实施例进行说明。当前时刻t，第一推荐模型根据当前账号的历史状态信息s_t，产生一个目标操作类型g_t，目标操作类型g_t代表第二推荐模型需要优化的目标。第二推荐模型根据当前账号的历史状态信息s_t以及第一推荐模型的给予的目标操作类型g_t，选择一个目标推荐信息a_t，并将目标推荐信息a_t推荐给当前账号。当前账号对应的用户对目标推荐信息a_t进行一定的反馈操作。第一推荐模型根据所有反馈操作信息对应的奖励分值的和值确定为此次环境给予的奖励，即获取到更新信息，对自身网络参数进行迭代更新；第二推荐模型只把目标操作类型g_t对应的反馈操作信息对应的奖励分值作为此次环境给予的奖励，即得到反馈值，对自身网络参数进行迭代更新。

在一示例性实施例中，所述获取所述当前账号针对所述目标推荐信息的反馈操作信息的步骤之后，还包括：根据所述候选信息集以及所述反馈操作信息，更新所述当前账号的历史状态信息。

其中，在获取到当前账号针对候选信息集的反馈操作信息后，服务器可以将反馈操作信息加入至当前账号的状态信息中，以更新当前账号的历史状态信息。

例如，历史状态信息往往包括账号的操作信息，例如账号最近点击的信息列表、点赞的信息列表、关注的用户账号列表等等；当服务器将候选信息集推送至账号对应的客户端后，账号对应的用户基于终端对目标信息进行点击操作、点赞操作、关注操作、长播放操作等反馈操作；服务器在获取到账号针对候选信息集中目标信息的反馈操作信息，以该反馈操作信息为点击操作为例，服务器基于反馈操作信息将候选信息集中的目标信息加入至历史状态信息中点击的信息列表，以更新用户账号的状态信息。

在一示例性实施例中，所述将所述当前账号对所述历史信息的操作信息输入至预先构建的第一推荐模型中的步骤之前，包括：采集所述当前账号在不同历史时刻的历史状态信息，并根据所述不同历史时刻的历史状态信息，生成训练样本；其中，训练样本包括：第一历史时刻的历史状态信息、第一历史时刻的更新信息、第二历史时刻的历史状态信息；将所述第二历史时刻的历史状态信息输入至所述第一推荐模型，获取所述第二历史时刻的更新信息预测值，根据所述第二历史时刻的更新信息预测值以及所述第一历史时刻的更新信息，计算所述第一历史时刻的更新信息累计值；将所述第一历史时刻的历史状态信息输入至所述第一推荐模型预测所述第一历史时刻的更新信息预测值；根据所述第一历史时刻的更新信息预测值与所述第一历史时刻的更新信息累计值间的差值，更新所述第一推荐模型的网络参数。

本示例性实施例为第一推荐模型的训练过程。其中，第一推荐模型包括第一策略模型以及第一评价模型。第一策略模型是一个神经网络结构，输入的是用户账号的状态信息s_t，输出的是各个交互操作对应操作类型被选择的概率值，从而根据各个交互操作对应操作类型被选择的概率值确定目标操作类型。第一评价模型也是一个神经网络结构，并且模型结构与第一策略模型结构相同，不同的是在第一评价模型输出的是一个标量值，代表在当前策略下，第一策略模型所能获得的期望累积奖励。

在一示例性实施例中，在将所述当前账号的状态信息以及所述目标优化操作输入至预先构建的第二推荐模型中的步骤之前，还包括：采集所述当前账号在不同历史时刻的历史状态信息，并根据所述不同历史时刻的历史状态信息，生成训练样本；其中，训练样本包括：第一历史时刻的历史状态信息、第一历史时刻的目标操作类型、第一历史时刻的反馈值、第二历史时刻的历史状态信息、第二历史时刻的目标操作类型；将所述第二历史时刻的历史状态信息以及所述第二历史时刻的目标操作类型输入至所述第二推荐模型，获取所述第二历史时刻的反馈预测值，根据所述第二历史时刻的反馈预测值以及所述第一历史时刻的反馈值，计算第一历史时刻的预测累计反馈值；将所述第一历史时刻的历史状态信息以及所述第一历史时刻的目标操作类型输入至所述第二推荐模型，获取所述第一历史时刻的反馈预测值；根据所述第一历史时刻的预测累计反馈值与所述第一历史时刻的反馈预测值间的差值，更新所述第二推荐模型的网络参数。

本示例性实施例为第二推荐模型的训练过程。其中，第二推荐模型包括第二策略模型以及第二评价模型。第二策略模型是一个神经网络结构，输入的是用户账号的状态信息以及目标操作类型，输出的是各个待推荐信息被选择的概率值，从而根据各个待推荐信息被选择的概率值确定目标推荐信息。第二评价模型也是一个神经网络结构，并且模型结构与第二策略模型结构相同，不同的是在第二评价模型输出的是一个标量值，代表在当前策略下，第二策略模型所能获得的期望累积奖励。

结合如图4对本公开的技术方案进行进一步说明。如图4所示，第一推荐模型以及第二推荐模型可以马尔可夫决策过程模型。假设当前时刻为时刻t，第一推荐模型根据当前账号的状态信息s_t(即环境的状态)，产生一个目标操作类型g_t(即第一推荐模型这一智能体根据环境的状态和策略所做出的动作)，其中，目标操作类型是预设优化操作信息中的一种，例如可以是点击操作、点赞操作、关注操作以及长播放操作中的一种。第二推荐模型根据当前账号的状态信息s_t以及第一推荐模型的给予的目标操作类型g_t(即环境的状态包括s_t以及g_t)，选择一个目标推荐信息a_t(即第二推荐模型这一智能体根据环境的状态和策略所做出动作)，即，第二推荐模型每一时刻实际上只会选取用户针对待推荐信息进行目标操作类型对应交互操作概率较大的待推荐信息。

其中，第一推荐模型以及第二推荐模型的状态空间为当前账号的历史状态信息，历史状态信息可以包括用户账号的操作信息、账号属性信息以及用户登录信息，其中历史操作信息可以包括用户账号最近点击的信息列表、点赞的信息列表、关注的用户账号列表等等，账号属性可以包括用户账号对应的账号年龄、用户性别、用户账号登录的终端型号等，用户登录信息可以包括用户账号历史登录的登录时长、本次登录所点击的信息数量。

其中，第一推荐模型的动作空间G包括不同交互操作对应的操作类型g∈G，对应着第二推荐模型应该优化的目标，即如上所述的目标操作类型，具体包括点击操作、点赞操作、关注操作以及长播放操作。

其中，第一推荐模型的奖励为r：当为当前账号推荐目标推荐信息后，当前账号对应用户的所有反馈操作对应的交互操作的奖励分值之和。

其中，第一推荐模型的状态转移P为：当为用户账号推荐目标推荐信息后，在当前状态信息s下，采取动作g后，转移到s′的概率。

其中，第二推荐模型的动作空间A：一个具体的动作a∈A代表此次信息推荐过程具体选择的目标信息。

其中，第二推荐模型的奖励为r_g：当为用户账号推荐目标推荐信息后，第一推荐模型选择的目标操作类型对应的交互操作的奖励分值。

其中，第一推荐模型以及第二推荐模型的折扣率γ∈[0,1]，对未来的奖励进行一定比例的衰减。

设p(u,i)代表用户u点击推荐信息i的概率，则用户u不点击推荐信息i的概率为：q(u,i)＝1-p(u,i)。

用户u不点击所有推荐信息的概率为：q(u)＝Πq(u,i),则至少点击一次的概率为：其中，n代表用户u此次总共浏览的推荐信息的个数。

从上述公式可以看出提升p(u)主要由两个因素决定：展示更多的推荐信息与提升用户的点击率。由于第二推荐模型每次优化的目标操作类型不同，相比每次均选择综合性较好(点击+点赞+关注+长播放)的推荐信息多样性会更好，经验上用户会浏览更多的推荐信息；另一方面当时，表示第一推荐模型以及第二推荐模型训练稳定后总的点击率相当时，由均值不等式可知，/>当且仅当 q(u,0)＝q(u,1)＝…＝q(u,n-1)时等号成立。因此，当选择综合性较为均衡的推荐信息时，各个推荐信息的点击率相差不大，用户至少点击一次推荐信息的概率会偏小，相反，当每次只优化某一个操作类型对应交互操作时，各个所推荐的信息点击率差异较大，用户至少点击一次所推荐的信息的概率会变大。

实际操作中，可以使用Actor-Critic算法对第一推荐模型以及第二推荐模型。Actor-Critic算法由策略模型和评价模型两个模块组成。策略模型是一个神经网络结构，输出每次选择一个动作的概率π_θ(a|s),其中θ为策略模型的参数，第一推荐模型中策略模型输出的动作所对应的含义是选择每个交互操作对应操作类型的概率，第二推荐模型中策略模型输出的动作所对应的含义是选择每个待推荐信息的概率。评价模型也是一个神经网络结构，并且底层的参数与策略模型参数结构相同，参数共享，不同的是在神经网络的末端评价模型只需要输出一个标量值，代表在当前策略π_θ下，智能体所能获得的期望累积奖赏V_w(s)＝∑_aπ_θ(a|s)(r(a,s)+γ∑_s′P(s′|s,a)V_w(s′))。其中，w为评价模型的网络参数。

具体地，第一推荐模型以及第二推荐模型需要预先进行训练，假设第一推荐模型中策略模型的网络参数为θ、评价模型的网络参数为w，第二推荐模型中策略模型的网络参数为θ′、评价模型的网络参数为w′。采用用户账号的历史状态信息进行第一推荐模型以及第二推荐模型的训练，首先采集样本数据(s,g,a,r_g,r,s′,g′,T)；其中，s表示用户账号在当前时刻的状态信息；g表示当前时刻的目标操作类型；r表示所有反馈操作信息对应的奖励分值的和值，即更新信息；r_g表示目标操作类型g对应的奖励分值，即反馈值；T 表示当前时刻对应下一时刻是否为终止时刻，当下一时刻是终止时刻时，T标识为1，当下一时刻不是终止时刻时，T标识为0；s′表示用户账号在下一时刻的状态信息；g′表示下一时刻的目标操作类型。

具体地，可根据采集到的样本数据，通过以下公式更新第一推荐模型的策略网络的参数：

其中，α为第一推荐模型的策略网络的学习率；γ(1-T)标识下一时刻是否为终止时刻，当下一时刻是终止时刻时，γ(1-T)等于0，当下一时刻不是终止时刻时，γ(1-T)等于1；表示第一推荐模型的策略网络训练过程中的下降梯度。

同样的，通过以下公式更新第二推荐模型的策略网络的参数：

其中，α为第二推荐模型的策略网络的学习率；γ(1-T)标识下一时刻是否为终止时刻，当下一时刻是终止时刻时，γ(1-T)等于0，当下一时刻不是终止时刻时，γ(1-T)等于1；表示第二推荐模型的策略网络训练过程中的下降梯度。

同样的，可通过以下公式更新第一推荐模型的评价网络的参数：

/>

其中，α为第一推荐模型的评价网络的学习率；γ(1-T)标识下一时刻是否为终止时刻，当下一时刻是终止时刻时，γ(1-T)等于0，当下一时刻不是终止时刻时，γ(1-T)等于1；表示第一推荐模型的评价网络训练过程中的下降梯度。

同样的，可通过以下公式更新第二推荐模型的评价网络的参数：

其中，α为第二推荐模型的评价网络的学习率；γ(1-T)标识下一时刻是否为终止时刻，当下一时刻是终止时刻时，γ(1-T)等于0，当下一时刻不是终止时刻时，γ(1-T)等于1；表示第二推荐模型的评价网络训练过程中的下降梯度。

应该理解的是，虽然图2至图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图5是根据一示例性实施例示出的一种信息推荐装置框图。参照图5，该装置包括状态信息获取模块510，目标操作类型获取模块520，信息推荐模块530。其中，

状态信息获取模块510，被配置执行获取当前账号的历史状态信息；历史状态信息用于记录当前账号对历史信息执行交互操作的操作信息，历史信息为历史推荐给当前账号的信息，操作信息中至少记录有当前账号与历史信息进行交互操作的操作类型；

目标操作类型获取模块520，被配置执行根据当前账号对历史信息的操作信息，从操作类型中筛选出至少一种目标操作类型；

信息推荐模块530，被配置执行根据历史状态信息以及目标操作类型，获取候选信息集，其中，候选信息集用于向当前账号对应终端推送候选信息集内的目标信息。

在一示例性实施例中，目标操作类型获取模块，被配置执行：将当前账号对历史信息的操作信息输入至预先构建的第一推荐模型中，通过第一推荐模型获取目标操作类型；

信息推荐模块，被配置执行：将当前账号的历史状态信息以及目标操作类型输入至预先构建的第二推荐模型中，通过第二推荐模型获取候选信息集；

信息推荐装置还包括模型更新模块，被配置执行：获取当前账号对所述候选信息集中的目标信息的反馈操作信息；根据反馈操作信息获取目标操作类型对应的反馈值，反馈值用于对第二推荐模型进行迭代更新。

在一示例性实施例中，模型更新模块，被配置执行：根据反馈操作信息确定各操作类型对应的反馈值；获取各操作类型对应反馈值的和值，将各操作类型对应反馈值的和值，确定为用于对第一推荐模型进行迭代更新的更新信息。

在一示例性实施例中，装置还包括状态信息更新模块，被配置执行：根据候选信息集以及反馈操作信息，更新当前账号的历史状态信息。

在一示例性实施例中，模型更新模块，被配置执行：

采集当前账号在不同历史时刻的历史状态信息，并根据不同历史时刻的历史状态信息，生成训练样本；其中，训练样本包括：第一历史时刻的历史状态信息、第一历史时刻的更新信息、第二历史时刻的历史状态信息；

将第二历史时刻的历史状态信息输入至第一推荐模型，获取第二历史时刻的更新信息预测值，根据第二历史时刻的更新信息预测值以及第一历史时刻的更新信息，计算第一历史时刻的更新信息累计值；

将第一历史时刻的历史状态信息输入至第一推荐模型预测第一历史时刻的更新信息预测值；

根据第一历史时刻的更新信息预测值与第一历史时刻的更新信息累计值间的差值，更新第一推荐模型的网络参数。

在一示例性实施例中，模型更新模块，被配置执行：

采集当前账号在不同历史时刻的历史状态信息，并根据不同历史时刻的历史状态信息，生成训练样本；其中，训练样本包括：第一历史时刻的历史状态信息、第一历史时刻的目标操作类型、第一历史时刻的反馈值、第二历史时刻的历史状态信息、第二历史时刻的目标操作类型；

将第二历史时刻的历史状态信息以及第二历史时刻的目标操作类型输入至第二推荐模型，获取第二历史时刻的反馈预测值，根据第二历史时刻的反馈预测值以及第一历史时刻的反馈值，计算第一历史时刻的预测累计反馈值；

将第一历史时刻的历史状态信息以及第一历史时刻的目标操作类型输入至第二推荐模型，获取第一历史时刻的反馈预测值；

根据第一历史时刻的预测累计反馈值与第一历史时刻的反馈预测值间的差值，更新第二推荐模型的网络参数。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于信息推荐的设备600的框图。例如，设备 600可以为一服务器。参照图6，设备600包括处理组件620，其进一步包括一个或多个处理器，以及由存储器622所代表的存储器资源，用于存储可由处理组件620的执行的指令，例如应用程序。存储器622中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件620被配置为执行指令，以执行上述方法。

设备600还可以包括一个电源组件624被配置为执行设备600的电源管理，一个有线或无线网络接口626被配置为将设备600连接到网络，和一个输入输出(I/O)接口628。设备600可以操作基于存储在存储器622的操作***，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器622，上述指令可由设备600的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、 CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种信息推荐方法，其特征在于，包括：

根据所述当前账号对所述历史信息的操作信息，从所述操作类型中筛选出至少一种目标操作类型，包括：将所述当前账号对所述历史信息的操作信息输入至预先构建的第一推荐模型中，通过所述第一推荐模型获取目标操作类型；

根据所述历史状态信息以及所述目标操作类型，获取候选信息集，包括：将所述当前账号的历史状态信息以及所述目标操作类型输入至预先构建的第二推荐模型中，通过所述第二推荐模型获取所述候选信息集，其中，所述候选信息集用于向所述当前账号对应终端推送所述候选信息集内的目标信息；

2.根据权利要求1所述的信息推荐方法，其特征在于，所述根据所述历史状态信息以及所述目标操作类型，获取候选信息集的步骤之后，还包括：

根据所述反馈操作信息确定各所述操作类型对应的反馈值；

3.根据权利要求2所述的信息推荐方法，其特征在于，所述获取所述当前账号对所述候选信息集中的各个目标信息的反馈操作信息的步骤之后，还包括：

4.根据权利要求1所述的信息推荐方法，其特征在于，所述将所述当前账号对所述历史信息的操作信息输入至预先构建的第一推荐模型中的步骤之前，包括：

5.根据权利要求1所述的信息推荐方法，其特征在于，在将所述当前账号的状态信息以及所述目标优化操作输入至预先构建的第二推荐模型中的步骤之前，还包括：

6.一种信息推荐装置，其特征在于，包括：

目标操作类型获取模块，被配置执行根据所述当前账号对所述历史信息的操作信息，从所述操作类型中筛选出至少一种目标操作类型，还被配置执行：将所述当前账号对所述历史信息的操作信息输入至预先构建的第一推荐模型中，通过所述第一推荐模型获取目标操作类型；

信息推荐模块，被配置执行根据所述历史状态信息以及所述目标操作类型，获取候选信息集，其中，所述候选信息集用于向所述当前账号对应终端推送所述候选信息集内的目标信息，还被配置执行：将所述当前账号的历史状态信息以及所述目标操作类型输入至预先构建的第二推荐模型中，通过所述第二推荐模型获取所述候选信息集；

模型更新模块，被配置执行获取所述当前账号对所述候选信息集中的目标信息的反馈操作信息；根据所述反馈操作信息获取所述目标操作类型对应的反馈值，所述反馈值用于对所述第二推荐模型进行迭代更新。

7.根据权利要求6所述的信息推荐装置，其特征在于，所述模型更新模块，被配置执行：

根据所述反馈操作信息确定各所述操作类型对应的反馈值；

8.根据权利要求6所述的信息推荐装置，其特征在于，所述装置还包括状态信息更新模块，被配置执行：根据所述候选信息集以及所述反馈操作信息，更新所述当前账号的历史状态信息。

9.根据权利要求6所述的信息推荐装置，其特征在于，所述模型更新模块，被配置执行：

10.根据权利要求6所述的信息推荐装置，其特征在于，所述模型更新模块，被配置执行：

11.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的信息推荐方法。

12.一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至5中任一项所述的信息推荐方法。