CN109062919B

CN109062919B - 一种基于深度强化学习的内容推荐方法及装置

Info

Publication number: CN109062919B
Application number: CN201810549594.XA
Authority: CN
Inventors: 王瑞; 夏锋; 林乐宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Yunnan Tengyun Information Industry Co.,Ltd.
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2021-06-15
Anticipated expiration: 2038-05-31
Also published as: CN109062919A

Abstract

本发明提供了一种基于深度强化学习的内容推荐方法及装置，所述方法包括：对深度强化函数进行训练得到对于深度强化函数中参数集合的训练结果；获取推荐内容有序候选集和选定推荐内容的条数；基于参数集合的训练结果，使用深度强化函数计算候选集中各个推荐内容的综合奖励值；每个推荐内容的综合奖励值与所述推荐内容和排序在所述推荐内容之后的其它推荐内容有关；根据计算结果选择条推荐内容作为选定推荐内容并按序输出。本发明通过使用深度强化学习的方法对推荐内容和推荐内容的排序进行综合考量，从而得到了更优的推荐结果。

Description

一种基于深度强化学习的内容推荐方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于深度强化学习的内容推荐方法及装置。

背景技术

为了在海量数据中准确定位用户感兴趣的目标数据，现有技术中提供了多种内容推荐方法。比如，Facebook采用了GBDT与逻辑回归的混合排序方法，Google采用了基于深度学习的wide and deep的机器学习排序方法，Netflix采用了基于session信息的利用RNN的机器学习排序方法。然而上述用于进行内容推荐的方法均属于逻辑回归的单条内容推荐的方法。这种单条内容推荐方法以选定的单个推荐内容的预期效果的最大化为推荐目标，并未将选定多个推荐内容时推荐内容之间的关系列入考量。在很多应用场景中，需要为用户提供多个推荐内容，即需要为用户提供推荐内容的组合，若使用现有技术中的单条内容推荐方法难以实现推荐内容组合的预期效果的最大化。

发明内容

为了解决上述技术问题，本发明提出了一种基于深度强化学习的内容推荐方法及装置。本发明具体是以如下技术方案实现的：

第一方面，一种基于深度强化学习的内容推荐方法，包括：

对深度强化函数Q进行训练得到对于深度强化函数Q中参数集合θ的训练结果；

获取推荐内容有序候选集A和选定推荐内容的条数N；

基于参数集合θ的训练结果，使用深度强化函数Q计算候选集A中各个推荐内容的综合奖励值；每个推荐内容的综合奖励值与所述推荐内容和排序在所述推荐内容之后的其它推荐内容有关；

根据计算结果选择N条推荐内容作为选定推荐内容并按序输出。

第二方面，一种基于深度强化学习的内容推荐装置，包括：

训练模块，用于对深度强化函数Q进行训练得到对于深度强化函数Q中参数集合θ的训练结果；

相关参数获取模块，用于获取推荐内容有序候选集A和选定推荐内容的条数N；

综合奖励值获取模块，用于基于参数集合θ的训练结果，使用深度强化函数Q计算候选集A中各个推荐内容的综合奖励值；每个推荐内容的综合奖励值与所述推荐内容和排序在所述推荐内容之后的其它推荐内容有关；

结果输出模块，根据计算结果选择N条推荐内容作为选定推荐内容并按序输出。

第三方面，一种计算机可读存储介质，用于存储程序，所述程序用于实现上述基于深度强化学习的内容推荐方法。

第四方面，一种服务器，所述服务器用于运行上述的一种基于深度强化学习的内容推荐装置

本发明提供了一种基于深度强化学习的内容推荐方法及装置，具备下述有益效果：

本发明实施例中通过使用深度强化学习的方法对推荐内容和推荐内容的排序进行综合考量，从而得到了更优的推荐结果。

通过将当前推荐内容之后的其它推荐内容对于当前推荐内容获取收益的影响纳入考量，从而能够更为科学的预估当前推荐内容在被推荐之后的预期效果，进而得到更为优化的选定推荐内容列表，达到显著激发用户的浏览意愿，提升点击率的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的现有技术中整体性执行策略流程图；

图2是本发明实施例提供的现有技术中独立性执行策略流程图；

图3是本发明实施例提供的强化学习过程示意图；

图4是本发明实施例提供的一种基于深度强化学习的内容推荐方法流程图；

图5是本发明实施例提供的整体性执行策略获取选定推荐内容流程图；

图6是本发明实施例提供的独立性执行策略获取选定推荐内容流程图；

图7是本发明实施例提供的一种深度强化函数的训练方法流程图；

图8是本发明实施例提供的一种得到参数集合θ的修正状态的方法流程图；

图9是本发明实施例提供的推荐效果示意图；

图10是本发明实施例提供的一种基于深度强化学习的内容推荐装置框图；

图11是本发明实施例提供的第一种结果输出模块框图；

图12是本发明实施例提供的第二种结果输出模块框图；

图13是本发明实施例提供的训练模块框图；

图14是本发明实施例提供的修正状态获取模块框图；

图15是本发明实施例提供的服务器结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中进行单条内容推荐的方法主要有两种执行策略。

第一种为整体性执行策略，即独立的考虑每条推荐内容的策略，如图1所示，包括：

A1.基于召回策略召回候选集。

所述召回策略可以预先设置，也可以根据实际情况被修改和调整。所述候选集作为推荐内容的数据源，所述数据源中的各个数据项可以被理解为各个推荐内容。

A2.为所述候选集中各个数据项计算预估值。

数据项的预估值用于表征若将所述数据项作为选定推荐内容，可以得到的收益。所述收益具体可以通过点击率和/或用户阅读所述推荐内容的时间来表征。

A3.对全部数据项按照预估值进行排序。

A4.根据排序的结果输出选定推荐内容。

所述选定推荐内容即为被推荐给用户的内容。具体地，若需要为用户展示N条推荐内容(N不大于所述候选集的中数据项的总和值)，则选择排序结果中最大的N个数据项，并将其作为选定推荐内容输出。

第二种为独立性执行策略，即将选定推荐内容和未被选定的推荐内容的分别考虑的策略，如图2所示，包括：

B1.基于召回策略召回候选集。

B2.获取候选集中各个数据项的特征值，并将特征值最大的数据项作为目标数据项。

B3.输出目标数据项，并在所述候选集中删除所述目标数据项。

所述目标数据项被输出后，即作为选定推荐内容向用户展示。

B4.判断输出目标数据项的数量是否达到预设阈值，若否，则重复执行步骤B2；若是，则流程结束。

在第二种独立性执行策略中，在选择目标数据项时，之前已经被选定的目标数据项已经被从候选集删除了，因此，规避了已经被选定的目标数据项对于后续目标数据项选择的影响，相较于第一种整体性执行策略能够得到更好的预期效果，相应的，计算量也比第一种整体性执行策略大很多。

第一种整体性执行策略只能考虑全部推荐内容的整体环境，第二种独立性执行策略考虑了全部推荐内容的整体环境和选定推荐内容的上文信息。这两种执行策略都并非以选定推荐内容(选定推荐内容不止一条)整体达到最优预期效果为执行目标，而只是以当前的选定推荐内容达到最优预期效果为执行目标。对于需要进行多条数的内容推荐的应用场景而言，上一条推荐内容的选择会对下一条推荐内容的选择产生影响，现有方案的这两种执行策略都不能保证选定推荐内容作为一个整体到最优的情况。

在现有技术中，越来越多的应用采用feed流为用户进行内容的推荐。feed流推荐是一种聚合信息的内容推荐，feed流即持续更新并呈现给用户内容的信息流，通过feed流可以把动态实时的传播给订阅者，是用户获取信息流的一种有效方式。feed流这样推荐方式中可以推荐不限量条数的推荐内容，显然，现有技术无法保证在feed流推荐方式中能够取得最优的推荐效果。

为明确说明现有技术在选定推荐内容不止一条的场景下，无法得到最优效果的原因，本发明实施例进行下述举例。

假设有三个选定推荐内容，分别是item1，item2，item3，假设对于所有的排序可能性，所有用户的反应是一样的，分别为下述情况：

1.(item1，item2，item3)是(click，no，no)。即item1，item2，item3被依次推荐给用户，用户点击item1对应的内容，对item2和item3的内容并未点击。

2.(item1，item3，item2)是(click，no，no)。即item1，item3，item2被依次推荐给用户，用户点击item1对应的内容，对item3和item2的内容并未点击。

3.(item2，item1，item3)是(no，click，no)。即item2，item1，item3被依次推荐给用户，用户未点击item2和item3对应的内容，点击了item1的内容。

4.(item2，item3，item1)是(no，click，click)。即item2，item3，item1被依次推荐给用户，用户未点击item2对应的内容，点击了item3和item1的内容。

5.(item3，item1，item2)是(no，click，no)。即item3，item1，item2被依次推荐给用户，用户未点击item3和item2对应的内容，点击了item1的内容。

6.(item3，item2，item1)是(no，no，click)。即item3，item2，item1被依次推荐给用户，用户未点击item3和item2对应的内容，点击了item1的内容。

可以看到，就整体推荐效果而言，(item2，item3，item1)是最好的，可以得到最大的点击数，对于单次推荐效果而言，item1是最好的，可以得到最大的点击次数。对于现有技术提供的两种执行策略而言，以当前的选定推荐内容达到最优预期效果为执行目标，在得到item1点击率最高的结论后，只会推荐出(item1，item2，item3)或者(item1，item3，item2)，显然都不是最佳方案。

在现实环境中，类似的例子是非常常见的。比如，在实践中用户对于视频内容点击倾向性很高，但是点击视频之后一般不会再点击文章内容，但是点击文章内容之后用户仍然会再去点击视频内容。这充分说明推荐内容的顺序对于推荐结果整体点击率的影响，而现有技术中仅仅以单次推荐效果最大化为目标的推荐策略显然无法将推荐内容的顺序纳入考量，为了将推荐内容的顺序和推荐内容本身都纳入考量，本发明实施例提供一种基于深度强化学习的内容推荐方法，在本发明实施例提供的推荐方法中，以得到选定推荐内容集合(选定推荐内容不止一条)达到最优预期效果为执行目标，所述推荐内容集合中各个推荐内容按照集合中的顺序被依次推荐给用户，可以得到最优的执行效果。

本发明实施例提供一种基于深度强化学习的内容推荐方法。所述推荐方法中所推荐的内容的类型不限，可以包括但不限于文字、图片、视频、流媒体和超链接的形式。为了更好的说明本发明实施例的主体思想，首先对于深度强化学习进行描述。

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。深度强化学习是将深度学习和强化学习相结合，将深度学习的技术来求解强化学习的问题。

强化学习是学习一个最优策略，可以让本体(Agent)在特定环境中，根据当前的状态(State)，做出行动(Action)，从而获得最大回报(Reward)。

强化学习可以简单通过<A，S，R，P>四元组进行建模。A代表的是Action，是Agent发出的动作；State是Agent所能感知的世界的状态；Reward是一个实数值，代表奖励或惩罚；P则是Agent所交互世界。

<A，S，R，P>四元组之间的影响关系如下：

Action space：A，即所有的动作A构成了动作空间Action space。

State space：S，即所有的状态S构成了状态空间State space。

Reward：S*A*S’->R，即在当前状态S下，执行了动作A后，当前状态变为S’，并得到动作A对应的奖励R。

Transition：S*A->S’，即当前状态S下，执行了动作A后，当前状态变为S’。

事实上，强化学习的过程是一个不断迭代的过程，如图3所示，在不断迭代的过程中，对于主体而言，收获了环境反馈的状态o(t)和奖励r(t)后，执行了动作a(t)；对于环境而言，接受了主体执行的动作a(t)后，输出了环境反馈的状态o(t+1)和奖励r(t+1)。

在对强化学习进行了相关描述的基础上，本发明实施例提供一种基于深度强化学习的内容推荐方法，如图4所示，包括：

S101.对深度强化函数Q进行训练得到对于深度强化函数Q中参数集合θ的训练结果。

具体地，所述深度强化函数Q用于计算某个推荐内容对应的综合奖励值，所述综合奖励值为将所述推荐内容和所述推荐内容之后的其它推荐内容均纳入考量得到的奖励值。

S103.获取推荐内容有序候选集A和选定推荐内容的条数N。

S105.基于参数集合θ的训练结果，使用深度强化函数Q计算候选集A中各个推荐内容的综合奖励值；每个推荐内容的综合奖励值与所述推荐内容和排序在所述推荐内容之后的其它推荐内容有关。

事实上，对每个推荐内容的综合奖励值的计算过程而言，所述推荐内容可以被称为当前推荐内容，所述其它推荐内容都是候选集A中排序在当前推荐内容之后的推荐内容，其它推荐内容的选取可以有多种方式。

具体地，对于当前推荐内容a(t)而言，

其中，Q(s_(t),a_(t))为对于当前推荐内容a_(t)，并在当前推荐内容a_(t)所在的环境s_(t)下得到的综合奖励值，γ为衰减系数，可以根据训练情况进行设定。r_i为推荐内容a_(i)对应的直接奖励值，其中r_t是当前推荐内容，r_i(i＞t)为其它推荐内容。在对深度强化函数Q进行训练的过程中，可以得到当前推荐内容a_(t)所在的环境s_(t)。当a_(t)排序在所述候选集A的靠后位置时，根据综合奖励值的计算规则

可能存在这样的情况：需要获取到的各个a_(i)均不存在或部分不存在，这种情况下，只需要对a_(t)以及存在的a_(i)使用

进行计算得到综合奖励值即可。

比如，在一种可行的实施方式中，所述其它推荐内容可以是所述当前推荐内容的下一个推荐内容。即对于当前推荐内容a(t)而言，Q(s_(t),a_(t))＝(r_(t)+γr_(t+1))|s_(t),a_(t)。

在另一种可行的实施方式中，所述其它推荐内容可以是当前推荐内容后与所述当前推荐内容紧邻的的一串推荐内容，而其它推荐内容的条数可以视实际需求而定。

在另一种可行的实施方式中，所述其它推荐内容可是排序在当前推荐内容之后，并且不与所述当前推荐内容相邻的一个推荐内容或多个推荐内容。

S107.根据计算结果选择N条推荐内容作为选定推荐内容并按序输出。

具体地，所述步骤S107可以有两种执行方式，第一种可以按照整体性执行策略执行，如图5所示，包括：

S1071.对全部推荐内容按照综合奖励值进行排序。

S1073.根据排序的结果输出选定推荐内容。

具体地，若需要为用户展示N条推荐内容，则选择排序结果中最大的N个数据项，并将其作为选定推荐内容输出。

在另一种可行的实施方式中，所述步骤S107可以按照独立性执行策略执行，如图6所示，包括：

S1072.将综合奖励值最大的推荐内容作为选定推荐内容。

S1074.输出所述选定推荐内容，并在所述候选集A中删除所述选定推荐内容。

S1076.判断输出的选定推荐内容的数量是否达到预设阈值，若否，则重新计算候选集A中各个推荐内容的综合奖励值，并重复执行步骤S1072；若是，则流程结束。

相较于现有技术中的整体性执行策略和独立性执行策略，本发明实施例中使用了对于各个推荐内容的全新评价方法，即引入深度强化函数Q。通过将当前推荐内容之后的其它推荐内容对于当前推荐内容获取收益的影响纳入考量，从而能够更为科学的预估当前推荐内容在被推荐之后的预期效果，进而得到更为优化的选定推荐内容列表，达到显著激发用户的浏览意愿，提升点击率的目的。

本发明实施例的主要思路是利用深度强化函数Q全面评估每个推荐内容对点击率的贡献，而深度强化学习的方法可以参考现有技术中的DQN、A3C和DDPG等经典算法，对于DQN、A3C和DDPG现有技术中已经存在大量资料，本发明实施例不再赘言。然而，为了获取更为科学的深度强化函数，本发明实施例提供了一种深度强化函数的训练方法，如图7所示，包括：

P1.获取参数集合θ的初始状态。

具体地，所述初始状态可以被赋予任何值，本发明实施例对于初始状态的赋值不做限制。

P2.获取推荐内容的有序训练样本S。

P3.获取初始环境s₍₁₎和迭代次数M。

P4.以初始环境s₍₁₎为基础，基于参数集合θ的当前状态对应的深度强化函数Q计算有序训练样本S中各个推荐内容的综合奖励值，并根据计算结果得到参数集合θ的修正状态。

在P4首次执行时，参数集合θ的当前状态即为参数集合θ的初始状态。

具体地，在步骤P4中，对每个当前推荐内容a(t)计算综合奖励值的过程中，均需要获知所述当前推荐内容所在的环境s_(t)。参考上述的深度强化过程<A，S，R，P>四元组之间的影响关系可知，当前推荐内容a(t)相当于执行的动作A，当前推荐内容a(t)被推荐之后，即可得到下一个环境s_(t+1)，而s_(t+1)即可作为推荐内容a(t+1)的综合奖励值的计算过程对应的环境。可见有序训练样本S中各个推荐内容的综合奖励值的计算过程中，环境变量s也经历了多次迭代。

P5.迭代次数自增一并判断迭代次数是否到达M。

P6.若是，则将所述参数集合θ的修正状态作为参数集合θ的训练结果。

P7.若否，则将所述参数集合θ的修正状态作为参数集合θ的当前状态，重复执行P4。

具体地，本发明实施例提供了一种得到参数集合θ的修正状态的方法，如图8所示，包括：

P41.选取当前推荐内容a(t)并获取当前环境s(t)。

具体地，当前推荐内容a(t)的选择方式可以为在有序训练样本S中以最小概率为标准进行选择，或以参数集合θ的当前状态对应的深度强化函数Q取值最大为标准进行选择。

P43.模拟当前推荐内容a(t)被推荐的过程得到奖励值r(t)和环境s_(t+1)。

P45.根据参数集合θ的当前状态对应的深度强化函数Q和奖励值r(t)计算当前推荐内容对应的综合奖励值。

本发明实施例中综合奖励值的获取过程可以被表示为下述公式：

其中，r(t)是上一步得到的，r(i)可以基于参数集合θ的当前状态和推荐内容a(i)得到。

由上述深度强化函数可知，在训练过程中，在综合奖励值的获取环节，将排序在当前推荐内容之后的其它推荐内容纳入考量，因此，本发明实施例得到的深度强化函数具备对推荐内容对点击率的综合贡献进行评价的能力。

为了提升计算速度，本发明实施例中，可以只考虑当前推荐内容a(t)之后紧邻的一个其他推荐内容，则深度强化函数内容被简化为：Q(s_(t),a_(t))＝(r_(t)+γr_(t+1))|s_(t),a_(t)。

P47.以

为目标函数，使用梯度状态下降法得到参数集合θ的修正状态，其中Q(θ)为修正状态下的深度强化函数。

P49.判断当前推荐内容是否为有序训练样本S的最后一个，若是，则输出得到的参数集合θ的修正状态，若否，则以参数集合θ的修正状态为参数集合θ的当前状态，t自增一并重复执行步骤P41。

从上述深度强化函数的训练过程可知，与现有技术不同的是，深度强化函数的训练过程注重对于排序在当前推荐内容之后的其它推荐内容对于预期结果的影响。事实上，目前传统的推荐方案求的是Sum(Max(P(item_i click|params)))，即以每一次推荐内容单次点击率最高为目标，而本发明实施例中基于强化学习方法求的是Max(Sum(P(item_iclick|params)))，即多个推荐内容整体获得的点击率最高，因此本发明实施例能比传统的方法达到更好的效果。

本发明实施例尤其适用于对于类似微信看一看一类的feed流推荐产品，微信看一看可以推荐图文，视频等各种不同的内容，并将各种内容的信息精选排序，挑选出最佳的排序方案展示给用户，如图9所示，其示出了微信看一看进行内容推荐的效果,可见微信看一看中可以将视频、文字、链接等多种推荐内容进行混合推荐，这也是本发明实施例中能够实现的技术效果。将本发明实施例应用于微信看一看中，在总点击数上提高了5％，用户整体浏览意愿更大，点击率提升2％，整体停留时长提高3％。

本发明实施例还提供一种基于深度强化学习的内容推荐装置，如图10所示，包括：

训练模块1，用于对深度强化函数Q进行训练得到对于深度强化函数Q中参数集合θ的训练结果。

相关参数获取模块2，用于获取推荐内容有序候选集A和选定推荐内容的条数N。

综合奖励值获取模块3，用于基于参数集合θ的训练结果，使用深度强化函数Q计算候选集A中各个推荐内容的综合奖励值；每个推荐内容的综合奖励值与所述推荐内容和排序在所述推荐内容之后的其它推荐内容有关。

结果输出模块4，根据计算结果选择N条推荐内容作为选定推荐内容并按序输出。

在一种可行的实施例中，如图11所示，所述结果输出模块4包括：

排序单元41，用于对全部推荐内容的综合奖励值进行排序。

输出单元43，用于根据排序的结果输出选定推荐内容。

在另一种可行的实施例中，如图12所示，所述结果输出模块4包括：

选定推荐内容获取单元42，用于将综合奖励值最大的推荐内容作为选定推荐内容；

选定推荐内容输出单元44，用于输出所述选定推荐内容，并在所述候选集A中删除所述选定推荐内容。

第一循环控制单元46，用于判断输出的选定推荐内容的数量是否达到预设阈值，若否，则重新计算候选集A中各个推荐内容的综合奖励值，并重复执行将综合奖励值最大的推荐内容作为选定推荐内容的步骤；若是，则流程结束。

具体地，如图13所示，所述训练模块1包括：

训练参数获取模块11，用于获取参数集合θ的初始状态、推荐内容的有序训练样本S、初始环境s₍₁₎和迭代次数M。

修正状态获取模块12，用于以初始环境s₍₁₎为基础，基于参数集合θ的当前状态对应的深度强化函数Q计算有序训练样本S中各个推荐内容的综合奖励值，并根据计算结果得到参数集合θ的修正状态。

循环控制模块13，用于迭代次数自增一并判断迭代次数是否到达M；若是，则将所述参数集合θ的修正状态作为参数集合θ的训练结果；若否，则将所述参数集合θ的修正状态作为参数集合θ的当前状态，重复执行下述步骤：以初始环境s₍₁₎为基础，基于参数集合θ的当前状态对应的深度强化函数Q计算有序训练样本S中各个推荐内容的综合奖励值，并根据计算结果得到参数集合θ的修正状态。

具体地，如图14所示，所述修正状态获取模块12包括：

状态获取单元121，用于选取当前推荐内容a(t)并获取当前环境s(t)。

模拟单元122，用于模拟当前推荐内容a(t)被推荐的过程得到奖励值r(t)和环境s_(t+1)。

计算单元123，用于根据参数集合θ的当前状态对应的深度强化函数Q和奖励值r(t)计算当前推荐内容对应的综合奖励值。

修正状态获取单元124，用于基于预设目标函数使用梯度状态下降法得到参数集合θ的修正状态；所述目标函数与深度强化函数Q有关。

第二循环控制单元125，用于判断当前推荐内容是否为有序训练样本S的最后一个，若是，则输出得到的参数集合θ的修正状态，若否，则以参数集合θ的修正状态为参数集合θ的当前状态，t自增一并重复执行下述步骤：选取当前推荐内容a(t)并获取当前环境s(t)。

本发明的装置实施例中所述的一种基于深度强化学习的内容推荐方法方法实施例基于同样地发明构思。

本发明的实施例还提供了一种存储介质，所述存储介质可用于保存用于实现方法实施例需要用到的的程序代码。可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络设备中的至少一个网络设备。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

具体地，图15是本发明实施例提供的一种服务器结构示意图，所述服务器结构用于运行上述一种基于深度强化学习的内容推荐装置台。该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作***841，例如WindowsServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。上述方法实施例所执行的步骤可以基于该图15所示的服务器结构。

需要说明的是：上述本发明实施例的先后顺序仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的内容推荐方法，其特征在于，包括：

构建深度强化函数Q，所述深度强化函数Q用于计算某个推荐内容对应的综合奖励值，所述综合奖励值为将所述推荐内容和排序在所述推荐内容之后的一个其它推荐内容纳入考量得到的奖励值，所述一个其它推荐内容为排序在所述推荐内容之后的，与所述推荐内容紧邻的或不与所述推荐内容相邻的一个推荐内容；若所述综合奖励值将排序在所述推荐内容之后的，与所述推荐内容紧邻的一个其它推荐内容纳入考量，则所述深度强化函数Q被表示为Q(s_(t),a_(t))＝(r_(t)+γr_(t+1))|s_(t),a_(t)，其中，r(t)为推荐内容a_(t)对应的直接奖励值，r(t+1)为推荐内容a_(t+1)对应的直接奖励值，s(t)为当前环境，γ为衰减系数；

对深度强化函数Q中参数集合θ进行训练，得到训练结果，所述训练以迭代次数为终止条件，在每次迭代过程中均进行参数集合θ的修正，所述参数集合θ的修正根据有序训练样本S中各个推荐内容对应的综合奖励值，基于与所述深度强化函数Q相关的目标函数，利用梯度下降法实现；

获取推荐内容有序候选集A和选定推荐内容的条数N；

基于参数集合θ的训练结果，使用深度强化函数Q计算候选集A中各个推荐内容的综合奖励值；

对全部推荐内容按照综合奖励值进行排序；

将综合奖励值最大的推荐内容作为选定推荐内容；

输出所述选定推荐内容，并在所述候选集A中删除所述选定推荐内容；

判断输出的选定推荐内容的数量是否达到预设阈值，若否，则重新计算候选集A中各个推荐内容的综合奖励值，并重复执行将综合奖励值最大的推荐内容作为选定推荐内容的步骤。

2.根据权利要求1所述的方法，其特征在于，所述对深度强化函数Q中参数集合θ进行训练，得到训练结果，包括：

获取参数集合θ的初始状态；

获取推荐内容的有序训练样本S；

获取初始环境s₍₁₎和迭代次数M；

以初始环境s₍₁₎为基础，基于参数集合θ的当前状态对应的深度强化函数Q计算有序训练样本S中各个推荐内容的综合奖励值，并根据计算结果得到参数集合θ的修正状态；

迭代次数自增一并判断迭代次数是否到达M；

若是，则将所述参数集合θ的修正状态作为参数集合θ的训练结果；

若否，则将所述参数集合θ的修正状态作为参数集合θ的当前状态，重复执行下述步骤：以初始环境s₍₁₎为基础，基于参数集合θ的当前状态对应的深度强化函数Q计算有序训练样本S中各个推荐内容的综合奖励值，并根据计算结果得到参数集合θ的修正状态。

3.根据权利要求2所述的方法，其特征在于，所述以初始环境s₍₁₎为基础，基于参数集合θ的当前状态对应的深度强化函数Q计算有序训练样本S中各个推荐内容的综合奖励值，并根据计算结果得到参数集合θ的修正状态包括：

选取当前推荐内容a(t)并获取当前环境s(t)；

模拟当前推荐内容a(t)被推荐的过程得到奖励值r(t)和环境s_(t+1)；

根据参数集合θ的当前状态对应的深度强化函数Q和奖励值r(t)计算当前推荐内容对应的综合奖励值；

基于预设目标函数使用梯度状态下降法得到参数集合θ的修正状态；所述目标函数与深度强化函数Q有关；

判断当前推荐内容是否为有序训练样本S的最后一个，若是，则输出得到的参数集合θ的修正状态，若否，则以参数集合θ的修正状态为参数集合θ的当前状态，t自增一并重复执行下述步骤：选取当前推荐内容a(t)并获取当前环境s(t)。

4.根据权利要求3所述的方法，其特征在于：

所述目标函数为(Q(s_(t),a_(t))-Q(θ))²。

5.一种基于深度强化学习的内容推荐装置，其特征在于，包括：

深度强化函数Q构建模块，用于构建深度强化函数Q，所述深度强化函数Q用于计算某个推荐内容对应的综合奖励值，所述综合奖励值为将所述推荐内容和排序在所述推荐内容之后的一个其它推荐内容纳入考量得到的奖励值，所述一个其它推荐内容为排序在所述推荐内容之后的，与所述推荐内容紧邻的或不与所述推荐内容相邻的一个推荐内容；若所述综合奖励值将排序在所述推荐内容之后的，与所述推荐内容紧邻的一个其它推荐内容纳入考量，则所述深度强化函数Q被表示为Q(s_(t),a_(t))＝(r_(t)+γr_(t+1))|s_(t),a_(t)，其中，r(t)为推荐内容a_(t)对应的直接奖励值，r(t+1)为推荐内容a_(t+1)对应的直接奖励值，s(t)为当前环境，γ为衰减系数；

训练模块，用于对深度强化函数Q中参数集合θ进行训练，得到训练结果，所述训练以迭代次数为终止条件，在每次迭代过程中均进行参数集合θ的修正，所述参数集合θ的修正根据有序训练样本S中各个推荐内容对应的综合奖励值，基于与所述深度强化函数Q相关的目标函数，利用梯度下降法实现；

综合奖励值获取模块，用于基于参数集合θ的训练结果，使用深度强化函数Q计算候选集A中各个推荐内容的综合奖励值；

结果输出模块，用于对全部推荐内容按照综合奖励值进行排序；将综合奖励值最大的推荐内容作为选定推荐内容；输出所述选定推荐内容，并在所述候选集A中删除所述选定推荐内容；判断输出的选定推荐内容的数量是否达到预设阈值，若否，则重新计算候选集A中各个推荐内容的综合奖励值，并重复执行将综合奖励值最大的推荐内容作为选定推荐内容的步骤。

6.根据权利要求5所述的装置，其特征在于，所述训练模块包括：

训练参数获取模块，用于获取参数集合θ的初始状态、推荐内容的有序训练样本S、初始环境s₍₁₎和迭代次数M；

修正状态获取模块，用于以初始环境s₍₁₎为基础，基于参数集合θ的当前状态对应的深度强化函数Q计算有序训练样本S中各个推荐内容的综合奖励值，并根据计算结果得到参数集合θ的修正状态；

循环控制模块，用于迭代次数自增一并判断迭代次数是否到达M；若是，则将所述参数集合θ的修正状态作为参数集合θ的训练结果；若否，则将所述参数集合θ的修正状态作为参数集合θ的当前状态，重复执行下述步骤：以初始环境s₍₁₎为基础，基于参数集合θ的当前状态对应的深度强化函数Q计算有序训练样本S中各个推荐内容的综合奖励值，并根据计算结果得到参数集合θ的修正状态。

7.根据权利要求6所述的装置，其特征在于，所述修正状态获取模块包括：

状态获取单元，用于选取当前推荐内容a(t)并获取当前环境s(t)；

模拟单元，用于模拟当前推荐内容a(t)被推荐的过程得到奖励值r(t)和环境s_(t+1)；

计算单元，用于根据参数集合θ的当前状态对应的深度强化函数Q和奖励值r(t)计算当前推荐内容对应的综合奖励值；

修正状态获取单元，用于基于预设目标函数使用梯度状态下降法得到参数集合θ的修正状态；所述目标函数与深度强化函数Q有关；

第二循环控制单元，用于判断当前推荐内容是否为有序训练样本S的最后一个，若是，则输出得到的参数集合θ的修正状态，若否，则以参数集合θ的修正状态为参数集合θ的当前状态，t自增一并重复执行下述步骤：选取当前推荐内容a(t)并获取当前环境s(t)。

8.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序用于实现权利要求1中基于深度强化学习的内容推荐方法。

9.一种服务器，其特征在于，所述服务器用于运行权利要求5所述的一种基于深度强化学习的内容推荐装置。