CN109255648A

CN109255648A - 通过深度强化学习进行推荐营销的方法及装置

Info

Publication number: CN109255648A
Application number: CN201810879908.2A
Authority: CN
Inventors: 何建杉
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2019-01-22
Also published as: WO2020024717A1; US20210049622A1; SG11202010221WA; US11188928B2; TW202008264A

Abstract

本说明书实施例提供一种通过深度强化学习***进行推荐营销的方法，其中深度强化学习***包括智能体和执行环境，智能体用于根据营销策略，针对执行环境的状态信息确定营销行为。上述方法包括：从执行环境中获取，针对营销效果链路上的多个效果目标，用户分别对应的多项执行结果，根据所获取的多项执行结果，确定强化学习的奖励分数；然后，将奖励分数返回给智能体，用于智能体更新其营销策略。

Description

通过深度强化学习进行推荐营销的方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及通过深度强化学习进行推荐营销的方法及装置。

背景技术

机器学习的迅猛发展使得各种机器学习的模型已经应用在各种各样的业务场景中，例如用于评估用户的信用风险，用于向用户推荐合适的内容，或向用户推送合适的营销信息，用于预测广告的投放效果等。

实际上，一项业务场景的完整业务流程经常包含多个阶段或多个环节，其中涉及诸多因素。例如，在推荐营销的业务场景中，业务至少可以包括以下环节：营销信息的选择和推送，推送之后用户的反馈和追踪。在这些环节中，又涉及诸多因素和参数，例如营销的渠道，推送方式，触达率，转化率等等。因此，在试图将机器学习应用到业务场景中时，面对复杂的业务场景中的诸多环节和诸多因素，如何设计和选择适用的模型，引入何种因素衡量业务的执行结果，都是需要考虑的问题。

因此，希望能有改进的方案，更加高效地用机器学习提高业务执行效果。

发明内容

本说明书一个或多个实施例描述了一种利用深度强化学习进行推荐营销的方法和装置，可以同时对推荐营销业务中的多个目标进行学习，以综合全面地促进业务效果。

根据第一方面，提供了一种通过深度强化学习***进行推荐营销的方法，所述深度强化学习***包括智能体和执行环境，所述智能体用于根据营销策略，针对所述执行环境的状态信息确定营销行为，所述方法包括：

从所述执行环境中获取，用户响应于所述营销行为而产生的多项执行结果，所述多项执行结果分别对应于营销效果链路上的多个效果目标；

根据所述多项执行结果，确定强化学习的奖励分数；

将所述奖励分数返回给所述智能体，用于所述智能体更新其营销策略。

根据一个实施例，上述执行环境的状态信息可以包括，备选的营销信息和当前用户的用户信息。

在一个实施例中，通过以下方式获取用户的多项执行结果：从服务端获取用户的交互行为，通过所述交互行为获取所述多项执行结果；或者，通过客户端页面埋点捕获用户的操作行为，通过用户的操作行为，获取所述多项执行结果。

在一个实施例中，通过分数评估函数确定奖励分数，所述分数评估函数以所述多项执行结果为变量，并被设计为，正相关于上述多项执行结果与对应的多个效果目标之间的匹配度。

在另一实施例中，确定强化学习的奖励分数包括，获取针对所述多项执行结果中至少部分执行结果对应构造的独立函数，至少基于所述独立函数的加权求和确定奖励分数。

进一步地，在一个实施例中，上述独立函数可以被构造为，正相关于作为变量的执行结果与对应效果目标之间的匹配度。

在一个可能的实施例中，所述多项执行结果包括第一执行结果，该第一执行结果具有离散结果；所述独立函数包括第一函数，所述第一函数根据所述第一执行结果的离散结果输出离散值。

更进一步地，根据一种实施方式，上述第一函数在第一执行结果取第一结果时，输出第一离散值，在第一执行结果取第二结果时输出第二离散值；其中所述第一结果比第二结果具有与所述第一执行结果对应的第一效果目标更高的匹配度，所述第一离散值大于第二离散值。

根据一种实施方式，还可以通过以下方式确定奖励分数：基于上述多项执行结果确定至少一个结果组合；获取针对该至少一个结果组合而构造的至少一个组合函数；至少基于所述至少一个组合函数的加权求和确定奖励分数。

根据另一种实施方式，还可以通过以下方式确定奖励分数：确定所述多项执行结果所匹配的效果目标或效果目标组合；获取预先建立的效果目标或效果目标组合与奖励分数的映射关系；根据所述映射关系，确定所匹配的效果目标或效果目标组合对应的奖励分数。

根据第二方面，提供一种通过深度强化学习***进行推荐营销的装置，所述深度强化学习***包括智能体和执行环境，所述智能体用于根据营销策略，针对所述执行环境的状态信息确定营销行为，所述装置包括：

获取单元，配置为从所述执行环境中获取，用户响应于所述营销行为而产生的多项执行结果，所述多项执行结果分别对应于营销效果链路上的多个效果目标；

确定单元，配置为根据所述多项执行结果，确定强化学习的奖励分数；

返回单元，配置为将所述奖励分数返回给所述智能体，用于所述智能体更新其营销策略。

根据第三方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，利用深度强化学习***来学习推荐营销业务，其中智能体在进行营销策略的更新时，同时考虑营销效果链路上的多个效果目标，也就是深度强化学习***同时对营销链路上多个目标进行学习，从而综合全面地学习推荐营销的整个业务流程和业务目标，更好地促进业务执行效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的推荐营销的执行示意图；

图2A示出典型的深度强化学习***；

图2B示出根据一个实施例的深度强化学习推荐营销***；

图3示出根据一个实施例通过深度强化学习***进行推荐营销的方法；

图4示出根据一个实施例的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

根据本说明书的一个或多个实施例，采用深度强化学***台进行投放。营销投放平台根据预定投放规则和策略，从推荐营销信息中选择一些营销信息进行曝光。一旦某条营销信息得到曝光，就被认为触达到用户。例如，在图1中，当用户打开客户端App(例如支付宝)，看到某条曝光的营销信息(例如营销信息110)，这条营销信息即被认为触达用户。

接着，用户有可能对触达的营销信息进行点击，例如通过点击营销信息110，到达新的页面120。然后，用户可能在该新的页面120上停留一段时间，然后对于该页面120上感兴趣的元素进行了二次点击，即二跳。该二跳例如跳转到新的页面130，通过该页面130，用户完成了营销内容的目标操作，例如注册、转发、使用营销信息中的利益宝进行消费等，这时，可以认为该用户得到了转化。

以上示出了推荐营销中期望实现的典型用户操作序列，也就是典型的用户营销效果链路，包含期望依次达成的多个效果目标，例如，触达->点击–>停留–>二跳–>转化，其中用户的转化为推荐营销的最终目标。

在一种实施方案中，为了促进业务效果，针对最终目标进行建模和机器学习。例如，对于推荐营销而言，用户的转化为最终目标，那么针对用户转化率进行建模学习。然而，用户的最终转化往往是通过多个步骤多次交互实现的，交互过程中自然地存在流量漏斗现象，即越靠后流量越小。因此，如果只学习最终的业务指标，即转化率，那么可用于学习的正样本会比较少。

在另一种实施方案中，考虑到交互过程中多个环节步骤对最终目标都有一定影响，针对各个环节的效果目标分别进行建模学习。例如，对于触达环节，点击环节等等分别进行建模学习，得到例如触达率预估模型，点击率预估模型，转化率预估模型等等。利用这样的方案，获得更多的用于学习的样本，并且针对各个环节都进行有针对性的学习。然而，在这样的方案中，各个模型分别单独训练，成本很高。如果要估计测算业务的总体执行效果，就需要利用多个模型逐一预测，再对预测结果进行融合，预测过程的复杂度和运算代价也会比较高。

在综合考虑以上方案的基础上，本说明书实施例还提出一种方案，利用深度强化学习***来进行推荐营销。图2A示出典型的深度强化学习***。一般地，深度强化学习***包括智能体和执行环境，智能体通过与执行环境的交互和反馈，不断进行学习，优化其策略。具体而言，智能体观察并获得执行环境的状态(state)，根据一定策略，针对当前执行环境的状态确定要采取的行为或动作(action)。这样的行为作用于执行环境，会改变执行环境的状态，同时产生一个反馈给智能体，该反馈又称为奖励分数(reward)。智能体根据获得的奖励分数来判断，之前的行为是否正确，策略是否需要调整，进而更新其策略。通过反复不断地观察状态、确定行为、收到反馈，使得智能体可以不断更新策略，最终目标是能够学习到一个策略，使得获得的奖励分数累积最大化。这就是典型的强化学习过程。在学习和调整策略过程中，如果智能体采取的是包括神经网络在内的一些深度学习的算法，那么这样的***则称为深度强化学习***。

图2B示出根据一个实施例的深度强化学习推荐营销***，也就是将深度强化学习应用到推荐营销***中。在推荐营销的场景下，执行环境即为推荐营销环境，可观测的环境状态包括，有待推荐的营销信息，当前用户信息等。智能体基于一些营销策略，针对营销环境的当前状态确定适合的营销行为。该营销行为进而改变营销环境的状态，并产生一个奖励分数反馈到智能体。智能体进而可以根据奖励分数调整、更新其营销策略。根据本说明书一个或多个实施例，对奖励分数的生成过程进行优化，基于与营销效果链路上多个效果目标分别对应的多项用户执行结果，例如是否进行点击，是否有二跳，停留时间长短等，来确定综合奖励分数，如此使得，智能体营销策略的更新同时考虑到营销效果链路上的多个效果目标，也就是深度强化学习***同时对营销链路上多个目标进行学习，从而综合全面地学习推荐营销的整个业务流程和业务目标，更好地促进业务执行效果。下面描述以上构思的实现方式。

图3示出根据一个实施例通过深度强化学***台、设备集群等来执行。如图3所示，该方法至少包括：步骤31，从执行环境中获取，针对营销效果链路上的多个效果目标，用户分别对应的多项执行结果，所述多项执行结果是用户响应于所述智能体确定的营销行为而产生；步骤33，根据所述多项执行结果，确定强化学习的奖励分数；步骤35，将所述奖励分数返回给所述智能体，用于所述智能体更新其营销策略。下面描述以上各个步骤的具体执行方式。

如前所述，在利用深度强化学习的推荐营销***中，智能体不断观察和获取推荐营销环境的当前状态，并根据营销策略确定当前状态下应该采取的营销行为。在一种实施方式下，智能体获取的营销环境的状态信息可以包括，可选的营销信息和当前用户的用户信息。更具体地，可选的营销信息可以包括可选的营销内容，例如备选的广告、利益包(例如红包，购物券，折扣券等)、营销通知消息等。可选的营销信息还可以包括，可选的营销渠道，例如消息推送、广告banner、角标提醒等等。另一方面，营销环境的状态信息还包括当前用户的用户信息，用户信息可以包括用户属性特征，例如注册时长、年龄、性别、收入等等。在一个实施例中，用户信息还包括用户历史行为信息，例如历史操作序列、最近浏览页面列表、最近接受的营销信息列表等等。在一个实施例中，用户信息可以包括用户画像信息。可以理解，在一些实施方式中，已经根据一些算法，基于用户的基本属性信息和/或历史行为信息，为用户赋予了对应的用户画像。用户画像信息例如可以包括，基于属性信息将用户划分到一定人群的人群标签，对用户进行聚类的类簇标签，基于用户历史行为构建的用户行为习惯标签，等等。上述各种用户信息可以构成当前用户的用户特征。

在一个具体例子中，以营销信息对应的营销特征和当前用户对应的用户特征为基础，构建营销环境的当前状态的状态向量，输入到智能体。智能体基于一些营销策略，针对营销环境的当前状态，确定要采取的营销行为。

可以理解，对于强化学习***来说，智能体中的策略用于将环境的状态映射为接下来的行为。在图2B所示的深度强化学习推荐营销***中，智能体是进行决策的实体，根据营销策略，将当前营销环境状态映射为接下来采取的营销行为。其中的营销策略通过复杂的深度学习算法来实现，例如Q-learning,DQN等，这些算法中通常包括一些深度神经网络的结构。如上所述，营销环境的当前状态反映了当前用户的用户特征和可选的营销信息的特征，一旦获取到这样的当前状态信息，智能体就通过深度学习算法确定应该针对当前用户采取怎样的营销行为，例如，用什么样的渠道向其传送什么样的营销内容。

在这样的营销行为作用于执行环境后，就会相应产生执行结果。因此，在步骤31，可以从执行环境中获取，用户响应于上述营销行为而产生的、针对营销效果链路上的多个效果目标的多项执行结果。

图1示出了一个具体例子中的营销效果链路，其中包含希望依次达成的多个效果目标，包括：触达->点击–>停留–>二跳–>转化。相应地，用户针对这些效果目标的执行结果可以包括，营销对用户的触达状况(例如是否触达用户，触达或展示时间)，用户点击状况(例如是否点击)，用户停留时长，用户二次点击状况(例如是否进行第二点击，即二跳)，用户转化状况(例如是否得到转化)。

在一个实施例中，以上用户针对各项效果目标的执行结果体现为用户与执行环境的交互，特别是用户与营销服务端的交互。因此，可以通过从服务端获取用户的交互行为来获取上述执行结果。在另一实施例中，还可以通过客户端页面埋点的方式，捕获用户的操作行为，通过用户的操作行为，获取用户针对上述效果目标的执行结果。

对于以上获取的，用户响应于营销行为而产生、针对多个效果目标的多项执行结果，在步骤33，根据该多项执行结果，确定强化学习的奖励分数。

下面结合触达->点击–>停留–>二跳–>转化的营销效果链路以及对应的用户执行结果来描述奖励分数的确定。

在一个实施例中，以全部多项执行结果为变量，构建分数评估函数，该分数评估函数被设计为，正相关于上述多项执行结果与对应的多个效果目标之间的匹配度，也就是，上述多项执行结果与对应的多个效果目标总体上越接近或越匹配，评估函数输出值越大，即奖励分数越高。

即：

Rt＝f(X1,X2,…,Xn) (1)

其中X1,X2,…,Xn为效果目标Y1，Y2，…,Yn分别对应的执行结果。并且，分数评估函数f被设计为，执行结果X1,X2,…,Xn总体上与效果目标Y1，Y2，…,Yn匹配度越高，Rt分数越高。

在另一个实施例中，分别针对多项执行结果中至少部分执行结果构造对应的独立函数。在确定奖励分数时，获取预先构造的这些独立函数，至少基于这些独立函数的加权求和确定奖励分数。更具体地，针对第i项执行结果Xi，构造独立函数fi(Xi)，将最终的奖励分数确定为：

Rt＝Wi*fi(Xi) (2)

其中Wi为第i项执行结果对应的权重。

例如，在以上营销效果链路的例子中，多项执行结果包括，X1＝show，表示触达状况；X2＝click，表示点击状况；X3＝stay，表示用户停留时长；X4＝click2，表示二次点击状况；X5＝convert，表示转化状况，那么奖励分数可以确定为：

Rt＝W1*f1(show)+W2*f2(click)+W3*f3(stay)+W4*f4(click2)+W5*f5(convert) (3)

在一个实施例中，至少一个独立函数fi(Xi)被确定为，正相关于执行结果Xi与对应效果目标Yi之间的匹配度，即Xi越接近Yi，fi(Xi)值越大。

在又一实施例中，基于上述多项执行结果确定至少一个结果组合，各个结果组合包括两项或更多项执行结果，为该至少一个结果组合构造至少一个组合函数，并至少基于所述至少一个组合函数的加权求和确定奖励分数。

例如，在以上X1-X5的多项执行结果的例子中，可以选择X1和X2作为第一结果组合，为其构造第一组合函数F1，选择X3和X4作为第二结果组合，为其构造第二组合函数F2。各个结果组合可以包含不同数目的执行结果。

如此，在一个具体例子中，奖励分数可以确定为：

Rt＝WF1*F1(show，click)+WF2*F2(stay,click2) (4)

该实施例可以与式(2)或式(3)对应的实施例相结合，例如对于未被选择作为结果组合的执行结果，为其构建对应独立函数，将这些独立函数与组合函数进行加权求和；或者，在各个执行结果对应函数的加权求和基础上，进一步引入组合函数的加权求和；或者，从多个执行结果中选择一部分执行结果构建相应的独立函数，将这些独立函数与组合函数进行加权求和。

例如，在一个具体例子中，可以将奖励分数确定为：

Rt＝W3*f3(stay)+W4*f4(click2)+W5*f5(convert)+WF1*F1(show，click)+WF2*F2(stay,click2) (5)

其中，从X1到X5中选择了X3，X4，X5，为其构建独立函数；并且选择了X1，X2作为第一组合，构建第一组合函数F1；以及选择了X3，X4作为第二组合构建第二组合函数F2，将各个独立函数和组合函数进行加权求和，以此确定奖励分数。

在一个实施例中，所述多项执行结果包括第一类执行结果，这类执行结果具有离散结果值，例如X2表示点击状况，在一个例子中，可以将点击状况划分为点击或者未点击的二元离散结果值。

对于这样的第一类执行结果，可以为其构造离散函数作为其独立函数，该离散函数根据执行结果的离散结果值输出离散函数值。进一步地，在一个实施例中，对于针对某个第一类执行结果Xi设置的离散函数fi，可以将其离散输出值设置为，在执行结果Xi的离散结果值与对应的效果目标Yi更接近的情况下，fi输出更大的离散值。例如，可以针对X2构建离散函数f2(X2)，当X2对应于点击的时候，f2输出离散值V1；当X2对应于未点击的时候，f2输出离散值V2。更具体地，由于对应的效果目标为点击，因此X2对应于点击时与效果目标更匹配，于是在一个例子中，可以将V1设置为大于V2，例如V1＝1，V2＝0。

该实施例可以与前述式(2)到式(5)对应的任一实施例相结合，将其中针对第一类执行结果的独立函数设置为输出离散值的离散函数。例如，在与式(3)结合的情况下，对于X1到X5中具有二元结果的X1，X2，X4和X5，可以将其对应独立函数改写为I，表示输出为0或1的函数，此时，式(3)可以改写为：

Rt＝W1*I(show)+W2*I(click)+W3*f3(stay)+W4*I(click2)+W5*I(convert) (6)

其中的函数I(X)在X为真时输出1，在X为假时输出0。可以理解，X为真对应于与效果目标一致的情况。

在一个实施例中，多项执行结果还包括第二类执行结果，这类执行结果对应于连续变量，例如X3表示停留时间，该停留时间可以表示为以秒为单位的连续变量。对于第二类执行结果，可以为其构造输出为连续值的第二类函数。在一个具体例子中，第二类函数可以是逻辑回归函数。在另一具体例子中，针对第二类执行结果构造线性回归函数。

例如，对于连续变量X3，可以将对应的函数f3构造为：

f3(X3)＝A+B*X3 (7)

其中A，B为预定线性参数。

可以理解，以上式(7)对应的实施例可以与前述式(2)到式(6)对应的任一实施例相结合。

根据另一种实施方式，预先建立达成的效果目标或效果目标组合与奖励分数的映射关系。在获取到与效果目标对应的执行结果之后，确定当前的执行结果所匹配的效果目标组合，进而根据上述映射关系，确定对应的奖励分数。

在一个具体例子中，预先建立的映射关系可以如下表所示。

表1

通过表1可以看到，对于营销效果链路上期望依次达成的效果目标，如果仅达成展示或触达这一目标，那么奖励分数为1；如果在展示基础上还达成了用户点击的效果目标，那么奖励分数为2,；依次类推。达成的效果目标越接近营销效果链路的最终目标，奖励分数越高。

基于这样的映射关系，在获取到各个效果目标分别对应的执行结果之后，将各个执行结果与对应效果目标进行比较和匹配，从而确定出当前的执行结果所匹配的效果目标或效果目标组合，进而可以通过表1的映射关系，查找确定出对应的奖励分数。

需要理解的是，表1仅仅是一个示例。可以根据业务需要，设置更多、更少或不同的效果目标或效果目标组合，并相应地为奖励分数设置不同的分数取值。

以上结合触达->点击–>停留–>二跳–>转化的营销效果链路描述了奖励分数的多种确定方式。可以理解，营销效果链路并不限于以上描述中的例子，而是可以包含更多、更少或不同的效果目标。例如，在一些营销场景下，用户进行点击之后，要么转化要么退出，而不要求二跳；在另一些营销场景下，用户在二跳之后还可能进行进一步点击，例如发生三跳；在又一些营销场景下，用户在点击或二跳之后还可能进行其他交互，例如输入个人信息等等。这些操作都可以作为营销效果链路上的预定效果目标，进而作为强化学习***学习的对象。

以上根据用户针对营销效果链路上的多个效果目标的多项执行结果，确定了强化学习的奖励分数。于是，接下来在步骤35，将该奖励分数返回给智能体，用于所述智能体更新其营销策略。

如前所述，智能体不断从环境获得奖励分数的反馈，以此确定之前的营销策略和营销行为是否恰当，据此更新营销策略。需要说明的是，此处的更新营销策略不仅包括在确定发出的营销行为不恰当时修改或调整之前的营销策略，还包括在确定营销行为效果良好时增强或者维持原有的营销策略。在本说明书的一个或多个实施例中，由于奖励分数基于用户对多个效果目标的多项执行结果来确定，因此，智能体在更新营销策略时，会全面地考虑多个效果目标的执行结果，也就是，同时对营销效果链路上的多个效果目标进行了学习。如此使得，深度强化学习***综合全面地学习推荐营销的整个业务流程和业务目标，更好地促进业务执行效果。

另一方面，本说明书实施例还提供一种装置，该装置应用于通过深度强化学习进行推荐营销的***，其中深度强化学习***如图2B所示包括智能体和执行环境，所述智能体用于根据营销策略，针对所述执行环境的状态信息确定营销行为。上述装置可以由任何具有计算、处理能力的软件、硬件或其组合来实现。在一个实施例中，上述装置可以集成到深度强化学习***的执行环境中；在另一实施例中，上述装置可以集成到深度强化学习***中用于实现智能体的实体装置中；在又一实施例中，上述装置作为独立装置，从执行环境中提取数据进行处理，得到奖励分数，返回到智能体。

图4示出根据一个实施例的装置的示意性框图。如图4所示，该装置400包括：获取单元41，配置为从所述执行环境中获取，用户响应于所述营销行为而产生的多项执行结果，所述多项执行结果分别对应于营销效果链路上的多个效果目标；确定单元43，配置为根据所述多项执行结果，确定强化学习的奖励分数；返回单元45，配置为将所述奖励分数返回给所述智能体，用于所述智能体更新其营销策略。

在一个实施例中，上述执行环境的状态信息包括，备选的营销信息和当前用户的用户信息。

根据一个实施例，获取单元41通过以下方式获取用户的多项执行结果：从服务端获取用户的交互行为，通过所述交互行为获取所述多项执行结果；或者，通过客户端页面埋点捕获用户的操作行为，通过用户的操作行为，获取所述多项执行结果。

在一个实施例中，确定单元43通过分数评估函数确定奖励分数，所述分数评估函数以所述多项执行结果为变量，并被设计为，正相关于上述多项执行结果与对应的多个效果目标之间的匹配度。

在另一实施例中，确定单元43通过以下方式确定奖励分数：获取针对所述多项执行结果中至少部分执行结果对应构造的独立函数，至少基于所述独立函数的加权求和确定奖励分数。

进一步地，在一个例子中，上述独立函数被构造为，正相关于作为变量的执行结果与对应效果目标之间的匹配度。

在一个例子中，多项执行结果包括第一执行结果，该第一执行结果具有离散结果；所述独立函数包括第一函数，所述第一函数根据所述第一执行结果的离散结果输出离散值。

在进一步的例子中，第一函数在第一执行结果取第一结果时，输出第一离散值，在第一执行结果取第二结果时输出第二离散值；其中所述第一结果比第二结果具有与所述第一执行结果对应的第一效果目标更高的匹配度，所述第一离散值大于第二离散值。

根据一种实施方式，确定单元43还可以如下确定奖励分数：

基于上述多项执行结果确定至少一个结果组合；

获取针对该至少一个结果组合而构造的至少一个组合函数；

至少基于所述至少一个组合函数的加权求和确定奖励分数。

根据另一种实施方式，确定单元43如下确定奖励分数：确定所述多项执行结果所匹配的效果目标或效果目标组合；获取预先建立的效果目标或效果目标组合与奖励分数的映射关系；根据所述映射关系，确定所匹配的效果目标或效果目标组合对应的奖励分数。

由于确定单元43基于用户对多个效果目标的多项执行结果来确定奖励分数，因此，智能体在更新营销策略时，会全面地考虑多个效果目标的执行结果，使得深度强化学习***综合全面地学习推荐营销的整个业务流程和业务目标，更好地促进业务执行效果。

根据又一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种通过深度强化学习***进行推荐营销的方法，所述深度强化学习***包括智能体和执行环境，所述智能体用于根据营销策略，针对所述执行环境的状态信息确定营销行为，所述方法包括：

根据所述多项执行结果，确定强化学习的奖励分数；

2.根据权利要求1所述的方法，其中从所述执行环境中获取，用户响应于所述营销行为而产生的多项执行结果包括：

从服务端获取用户的交互行为，通过所述交互行为获取所述多项执行结果；或者

通过客户端页面埋点捕获用户的操作行为，通过用户的操作行为，获取所述多项执行结果。

3.根据权利要求1所述的方法，其中所述营销效果链路上的多个效果目标包括以下中的多个目标：营销信息的触达、首次点击、停留、进一步点击、转化。

4.根据权利要求1所述的方法，其中确定强化学习的奖励分数包括：通过分数评估函数确定奖励分数，所述分数评估函数以所述多项执行结果为变量，并被设计为，正相关于上述多项执行结果与对应的多个效果目标之间的匹配度。

5.根据权利要求1所述的方法，其中确定强化学习的奖励分数包括：

获取针对所述多项执行结果中至少部分执行结果各自构造的独立函数，至少基于所述独立函数的加权求和确定奖励分数。

6.根据权利要求5所述的方法，所述独立函数中的至少一个被构造为，正相关于对应的执行结果与效果目标之间的匹配度。

7.根据权利要求5所述的方法，其中所述多项执行结果包括第一执行结果，该第一执行结果具有离散结果值；所述独立函数包括第一函数，所述第一函数根据所述第一执行结果的离散结果值输出离散函数值。

8.根据权利要求7所述的方法，其中所述第一函数在第一执行结果具有第一结果值时，输出第一离散值，在第一执行结果具有第二结果值时输出第二离散值；其中所述第一结果值比第二结果值具有与所述第一执行结果对应的第一效果目标更高的匹配度，所述第一离散值大于第二离散值。

9.根据权利要求1或5-8中任一项所述的方法，其中确定强化学习的奖励分数包括：

基于上述多项执行结果确定至少一个结果组合；

获取针对该至少一个结果组合而构造的至少一个组合函数；

至少基于所述至少一个组合函数的加权求和确定奖励分数。

10.根据权利要求1所述的方法，其中确定强化学习的奖励分数包括：

确定所述多项执行结果所匹配的效果目标或效果目标组合；

获取预先建立的效果目标或效果目标组合与奖励分数的映射关系；

根据所述映射关系，确定所匹配的效果目标或效果目标组合对应的奖励分数。

11.一种通过深度强化学习***进行推荐营销的装置，所述深度强化学习***包括智能体和执行环境，所述智能体用于根据营销策略，针对所述执行环境的状态信息确定营销行为，所述装置包括：

12.根据权利要求11所述的装置，其中所述获取单元配置为：

13.根据权利要求11所述的装置，其中所述营销效果链路上的多个效果目标包括以下中的多个目标：营销信息的触达、首次点击、停留、进一步点击、转化。

14.根据权利要求11所述的装置，其中所述确定单元配置为：通过分数评估函数确定奖励分数，所述分数评估函数以所述多项执行结果为变量，并被设计为，正相关于上述多项执行结果与对应的多个效果目标之间的匹配度。

15.根据权利要求11所述的装置，其中所述确定单元配置为：

16.根据权利要求15所述的装置，所述独立函数中的至少一个被构造为，正相关于对应的执行结果与效果目标之间的匹配度。

17.根据权利要求15所述的装置，其中所述多项执行结果包括第一执行结果，该第一执行结果具有离散结果值；所述独立函数包括第一函数，所述第一函数根据所述第一执行结果的离散结果值输出离散函数值。

18.根据权利要求17所述的装置，其中所述第一函数在第一执行结果具有第一结果值时，输出第一离散值，在第一执行结果具有第二结果值时输出第二离散值；其中所述第一结果值比第二结果值具有与所述第一执行结果对应的第一效果目标更高的匹配度，所述第一离散值大于第二离散值。

19.根据权利要求11或15-18中任一项所述的装置，其中所述确定单元配置为：

基于上述多项执行结果确定至少一个结果组合；

获取针对该至少一个结果组合而构造的至少一个组合函数；

至少基于所述至少一个组合函数的加权求和确定奖励分数。

20.根据权利要求11所述的装置，其中所述确定单元配置为：

确定所述多项执行结果所匹配的效果目标或效果目标组合；

21.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。