CN114036388A

CN114036388A - 数据处理方法和装置、电子设备、及存储介质

Info

Publication number: CN114036388A
Application number: CN202111355773.8A
Authority: CN
Inventors: 师敏花
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-11

Abstract

本公开提供了数据处理方法和装置、电子设备、及存储介质，涉及数据处理技术领域，尤其涉及人工智能、强化学习、智能推荐领域。具体实现方案为：获取召回数据集合；构建召回数据集合对应的搜索树，其中，搜索树包括：根节点和位于不同层级的多个数据节点，每个数据节点用于表征召回数据集合中的召回数据，每个数据节点用于存储相应的召回数据的推送价值和搜索次数，推送价值用于表征相应的召回数据推送至目标对象后接收到的反馈结果的价值；基于召回数据集合中每个召回数据的推送价值，确定召回数据集合中的目标数据，其中，目标数据为推送至目标对象的数据。

Description

数据处理方法和装置、电子设备、及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及人工智能、强化学习、智能推荐领域，具体提供了一种数据处理方法和装置、电子设备、及存储介质。

背景技术

在智能推荐场景中，往往需要通过排序算法对召回数据进行处理，但是，目前常用的排序算法在面对新的推送需求时，新的推送需求会接影响商品的曝光排序，导致推荐商品的点击和转化无法达到预期效果，甚至导致推荐公平性、点击率整体下降。

发明内容

本公开提供了一种用于数据处理方法和装置、电子设备、及存储介质。

根据本公开的第一方面，提供了一种数据处理方法，包括：获取召回数据集合；构建召回数据集合对应的搜索树，其中，搜索树包括：根节点和位于不同层级的多个数据节点，每个数据节点用于表征召回数据集合中的召回数据，每个数据节点用于存储相应的召回数据的推送价值和搜索次数，推送价值用于表征相应的召回数据推送至目标对象后接收到的反馈结果的价值；基于召回数据集合中每个召回数据的推送价值，确定召回数据集合中的目标数据，其中，目标数据为推送至目标对象的数据。

根据本公开的第二方面，提供了一种数据处理装置，包括：获取模块，用于获取召回数据集合；构建模块，用于构建召回数据集合对应的搜索树，其中，搜索树包括：根节点和位于不同层级的多个数据节点，每个数据节点用于表征召回数据集合中的召回数据，每个数据节点用于存储相应的召回数据的推送价值和搜索次数，推送价值用于表征相应的召回数据推送至目标对象后接收到的反馈结果的价值；决策模块，用于基于召回数据集合中每个召回数据的推送价值，确定召回数据集合中的目标数据，其中，目标数据为推送至目标对象的数据。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是相关技术的商品推荐流程的流程图；

图2是根据本公开的商品推荐流程的流程图；

图3是根据本公开的数据处理方法的流程图；

图4是根据本公开的可选的MDP树的示意图；

图5是根据本公开的可选的用户步长的示意图；

图6是可以实现本公开实施例的商品推荐场景图；

图7是根据本公开的数据处理装置的示意图；

图8是用来实现本公开实施例的数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，目前商品推荐流程主要包括：采用不同召回算法(包括但不限于：协同过滤、向量化召回、类目召回、标签召回、新品召回和热度召回等)对候选商品库中的候选商品进行召回处理，得到召回商品集合；然后通过点击率预估模型和转化率预估模型对召回商品的点击率和转化率进行预估，并根据点击率和转化率对召回商品进行排序，得到排序后的召回商品；进一步根据推送干预规则、多样性策略和重复推荐策略等补充策略对排序后的召回商品进行筛选，得到最终的推荐商品列表。

目前，相关技术中提供了多种排序算法实现召回商品的排序流程：第一种是传统的协同过滤、LR(Logistic Regression，逻辑回归模型)+GBDT(Gradient BoostingDecision Tree，梯度提升决策树)、FM(Factorization Machines，因子分解机)等；第二种是基于深度学习的方法，例如Wide&Deep，DeepFM等；第三种是深度强化学习模型，例如，Policy Gradient(策略梯度)，DQN(Deep Q-Learning，深度Q学习)，Actor-Critic(动作-评价)。

但是，上述排序算法在面对新的推送需求时，新的推送需求会接影响商品的曝光排序，导致推荐商品的点击和转化无法达到预期效果，甚至导致推荐公平性、点击率整体下降。

对于考虑了商品点击、转化价值的推荐场景，很多推荐方法通过静态的分组来一次性的或者定期的统一给不同组的商品一定的分数来区分价值，但是，该方法未能考虑到商品价值的动态特征，商品的价值可能会随着推荐策略和用户反馈(如曝光、点击、转化)而实时变动，例如，当一个商品的日曝光量和点击转化已经满足了推送需求，此时，应该推荐其他未曝光的商品，或能够带来较高点击转化价值的商品，达到推荐公平性。

为了解决上述问题，本公开对相关技术中的排序层进行了改进，如图2所示，主要使用MCTS(Monte Carlo Tree Search，蒙特卡洛树搜索)对召回商品进行探索，探索过程中融合了商品价值(如图2中的价值预估模型)、重复推荐惩罚(如图2中的cost预估模型)、热门惩罚等策略，并且综合考虑点击率、转化率、用户步长等目标进行推荐，进一步根据多样性策略对排序后的召回商品进行筛选，得到最终的推荐商品列表。

根据本公开的开的实施例，本公开提供了一种数据处理方法。

图3是根据本公开实施例的数据处理方法的流程图，如图3所示，该方法包括如下步骤：

步骤S302，获取召回数据集合。

上述步骤中的召回数据集合可以是数据推荐过程中，通过召回算法确定的召回数据的集合，此处的召回数据可以是候选数据集合中与用户匹配成功的候选数据，在不同数据推荐场景中，召回数据的类型不同，例如，对于如图2所示的商品推荐场景，召回数据集合可以是通过召回算法确定的召回商品集合。

步骤S304，构建召回数据集合对应的搜索树，其中，搜索树包括：根节点和位于不同层级的多个数据节点，每个数据节点用于表征召回数据集合中的召回数据，每个数据节点用于存储相应的召回数据的推送价值和搜索次数，推送价值用于表征相应的召回数据推送至目标对象后接收到的反馈结果的价值。

上述步骤中的搜索树可以是通过有限的时间，对召回数据的推送过程进行模拟所构建的树。搜索树可以包括根节点和位于不同层级的多个数据节点，根节点表示需要向用户推送数据的请求，每个数据节点表示一个召回数据。在模拟过程中，可以基于节点的推送价值和搜索次数进行节点的选择，并将预估点击率、转化率作为节点拓展时的状态转移概率，模拟向目标对象(即用户)推送每个召回数据，以及目标对象针对推送的召回数据所反馈的反馈结果，此处的反馈结果可以是用户点击推送的召回数据、咨询推送的召回数据、离开等，可以根据具体的数据推送场景进行确定。

为了确保推送给目标对象的目标数据的点击率和转化率可以得到预期效果，可以构建价值预估模型来预估不同反馈结果对应的奖励reward，其中，对于用户“离开”的行为，可以将预估reward的负数作为成本cost；对于用户“点击”、“咨询”的行为，可以预估点击和转化价值，并将点击和转化价值作为reward。同时确保推荐公平性，可以对曝光较多的召回数据给予一定的惩罚，对一些有潜力的召回数据给予一个较高的价值。需要说明的是，此处较高的价值并不会使该召回数据直接曝光，仅仅是在短时间内推送该召回数据，但如果该召回数据的点击率/转化率没有提升，则导致该召回数据被选择的概率降低，停止继续推送该召回数据。

另外，考虑到重复推荐惩罚策略对排序的影响，对于短时间内重复推送的召回数据，可以构建cost预估模块，根据目标对象特征、背景信息等预估每次重复推送的cost。此处的背景信息可以是指该召回数据距离当前展出的时间间隔、历史展出位置、页面、用户对重复推荐数据的喜好或接受程度等。

在一些可选的实施例中，可以采用MCTS构造MDP(Markov Decision Process，马尔可夫决策过程)树，通过每一次模拟，将评估后的状态值存储在树的节点上，这些状态值可以通过选择、扩展、仿真和反向传播这四个步骤的循环迭代进行累计，其中，树的每个数据节点会存储以下两个状态值V(s)：推送价值和搜索次数。此处的推送价值是基于reward和cost共同确定的。

MDP树的各节点表达、状态转移过程和实际操作中需要使用的参数如下：

状态：s_t可以通过用户偏好、用户请求、***状态来表示；

Action：a可以是***从候选推荐列表中选择一个召回数据推荐给用户；

Transitions：P_a(s|s′)可以是状态转移概率，successor states是通过用户的反馈来得到的。Transition的概率方程一般等价于用户行为的概率，通过概率网络(包括：点击率预估模型、转化率预估模型)来估计p；

Reward：r(s_t,a,s_t+1)可以是用户采取行为后，对于推荐准确性&曝光转化情况满足度可衡量的指标。该指标由价值预估模型给出，该模型可以结合召回数据的曝光、点击、转化情况，同时会考虑推荐公平性以及点击、转化带来的价值来预估reward；

Cost：c(s_t,a,s_t+1)可以是使用户采取某个动作的cost，比如短期内重复推荐等，可以根据重复出现的时间间隔、页面类型、位置和用户对重复推荐接受程度来预估cost；

Discount rate：γ用于衡量长期的reward对当前的价值的贡献率，一般认为推测深度越大的行为不确定性越高，对当前的贡献会降低。

步骤S306，基于召回数据集合中每个召回数据的推送价值，确定召回数据集合中的目标数据，其中，目标数据为推送至目标对象的数据。

在本实施例中，每个召回数据的推送价值反映了该召回数据的点击和转化的价值，为了达到整体价值最大化的目的，可以按照推送价值对所有召回数据进行排序，并选择排序最前的多个召回数据作为目标数据，进而将目标数据按照一定的推送规则推送给目标用户，此处的推送规则可以根据不同应用场景和推送需求进行设定，本公开对此不作具体限定。

通过上述方案，在获取到召回数据集合之后，可以构建召回数据集合对应的搜索树，然后基于搜索树中每个召回数据的推送价值，确定推送至目标对象的目标数据，实现对召回数据进行排序的目的。容易注意到的是，推送给目标对象的目标数据是基于每个召回数据的推送价值确定的，且推送价值用于表征相应的召回数据推送至目标对象后接收到的反馈结果的价值，因此，推送价值可以体现召回数据的点击和转换的效果，从而确保推送给目标对象的目标数据的点击和转化能够达到预期效果，另外，召回数据的推送价值是在构建搜索树的过程中确定的，因此，可以根据实际推送需求调整不同召回数据的推送价值，实现调整所有召回数据的排序结果，使得新推送的干预规则不会影响到不同召回数据的推送价值，从而确保推送给目标对象的目标数据满足推送需求，进而解决了相关技术中的排序算法容易受到不同推送需求的干扰，推荐商品的点击和转化无法达到预期效果的技术问题。

可选地，构建召回数据集合对应的搜索树包括：步骤A，确定待搜索的目标节点，其中，目标节点用于表征根节点或召回数据集合中的召回数据；步骤B，在目标节点的下面扩展新的子节点，并利用价值预估模型确定新的子节点的奖励；步骤C，对新的子节点中的目标子节点进行仿真，确定仿真结束时最后一个子节点的推送价值；步骤D，基于最后一个子节点的推送价值，对搜索树进行反向迭代，更新目标节点和目标节点下面的每层子节点的推送价值，并更新目标节点的搜索次数；重复执行步骤A至步骤D，直至搜索树的探索时间达到预设探索时间，或探索深度达到预设探索深度。

上述步骤中的预设探索时间可以是搜索树的模拟构建时间，预设探索深度可以是搜索树的模拟探索深度，可以根据实际需要进行设定，本公开对此不作具体限定。

在本公开实施例中，搜索树需要从根节点开始探索，在根节点探索完毕之后可以继续对其他数据节点进行探索，因此，每一次循环迭代开始，首先执行选择步骤(即上述的步骤A)，确定此次需要进行探索的目标节点；然后执行扩展步骤(即上述的步骤B)，通过action扩展目标节点，并且拓展该action会产生的所有反馈结果，其中，针对新的反馈结果可以创建一个新的子节点，同时可以利用价值评估模型对该反馈结果进行评估，得到该子节点的奖励；进一步地执行仿真步骤(即上述的步骤C)，可以随机选择一个子节点进行仿真，直至仿真结束(仿真结束条件可以根据需要进行设定，可以是到达设定的仿真时间，或到达设定的仿真深度)，此时可以给出仿真终止状态的推送价值(包括reward、cost等)，即给出最后一个子节点的推送价值；最后执行反向传播步骤(即上述的步骤D)，将仿真后的推送价值向上进行反向传播，通过递归方式更新每层子节点的推送价值，同时更新目标节点的搜索次数。

在一些可选的实施例中，对于如图4所示的MDP树，在第一次循环迭代过程中，可以选择根节点作为目标节点，然后选择一个action(假设选择推送Item 1)，如图4中实心圆圈所示；然后可以根据状态转移概率扩展推送Item 1后的反馈结果(包括点击、离开和转化)对应的子节点，分别对应如图4中左上部分所示的三个椭圆，并利用价值评估模型评估出每个子节点对应的奖励，假设三个子节点对应的奖励分别为3、0和100；随机选择一个子节点进行仿真模拟，假设选择“点击”对应的子节点，如图4中实线椭圆所示，未选择的子节点如图4中虚线椭圆所示，仿真过程可以是根据状态转移概率选择该节点之后的一个结果(假设选择推送Item k)，然后根据状态转移概率扩展推送Item k后的子节点，包括点击、离开和转化，此时仿真结束，可以直接根据价值预估模块预估出的奖励，得到最后一个子节点的推送价值；最后根据仿真深度将最后一个子节点的推送价值反向传播，从而可以通过递归方式更新每层子节点对应父节点的推送价值，同时将目标节点的搜索次数加1，需要说明的是，由于推送Item k后的子节点之前未进行过仿真模拟，因此，三个子节点的奖励均为0。

需要说明的是，对于上一层子节点的推送价值，可以通过获取下一层子节点的总价值(即推送价值和奖励的甲醛和)的最大值得到，但不仅限于此。

通过上述方案，通过循环执行选择、扩展、仿真和反向传播等步骤，使得每个召回数据的推送价值可以在循环迭代中不断被更新，从而确保推送价值既符合推送需求又能够真实的反应召回数据的点击和转化价值，达到提升推送价值的准确度，提高数据推送准确度的效果。

可选地，确定待搜索的目标节点包括：从根节点开始遍历，确定是否存在未扩展过的节点；响应于存在未扩展过的节点，确定未扩展过的节点为目标节点；响应于不存在未扩展过的节点，基于每个数据节点的推送价值和搜索次数，确定目标节点。

上述实施例中的未扩展过的节点可以是指该节点存在未进行过仿真的action，或存在未进行过仿真的子节点。

在本公开实施例中，搜索树的构建过程是一个节点扩展结束后开始扩展下一个节点，因此，在开始每次迭代后，首先确定是否存在未扩展过的节点，如果存在，可以直接将该节点作为目标节点，并执行后续扩展、仿真和反向传播步骤；如果不存在，则可以通过UCT(Upper Confidence Bound Apply to Tree，即上限置信区间算法)实现目标节点的选择，目标节点的计算公式如下：

其中,Q(s,a)是状态s的推送价值，N(s)是搜索次数，N(s,a)是状态s下action a被执行的次数，其中Q(s,a)是鼓励“利用”，

是鼓励“探索”。

在一些可选的实施例中，对于如图4所示的MDP树，在第一次循环迭代过程中，可以直接确定根节点为目标节点，此时，根节点的推送价值和搜索次数均为0；在第二次循环迭代过程中，由于根节点为未扩展完毕，仍然可以确定根节点为目标节点，此时，根节点的推送价值和搜索次数不再是0，已在上一次循环迭代中进行更新；在第三次循环迭代过程中，根节点已扩展完毕，则可以继续遍历，确定Item 1对应的节点为目标节点。

通过上述方案，通过确定是否存在未扩展过的节点，得到判定结果，并针对不同判定结果采用不同方式确定目标对象，从而达到提高目标节点的确定效率和准确度的效果。

可选地，在目标节点的下面扩展新的子节点包括：获取目标节点对应的状态转移概率；基于状态转移概率，确定目标节点对应的目标执行操作；基于目标执行操作，在目标节点的下面创建新的子节点。

上述步骤中的状态转移概率可以是基于点击率预估模型预估的点击率，和转化率预估模型预估的转化率所确定的概率，用于判断用户针对该召回数据可能进行的操作；目标执行操作可以是基于状态转移概率中最大概率对应的执行操作。

在一些可选的实施例中，对于如图4所示的MDP树，在第一次循环迭代过程中，在确定目标节点之后，可以选择一个没有扩展过的action，即推送Item 1，然后根据状态转移概率确定用户可能执行的目标执行操作，分别为点击、离开和咨询，并在目标节点的下一个层级上创建三个子节点，此时三个子节点的推送价值和搜索次数均为0；在第二次循环迭代过程中，在确定目标节点之后，可以选择一个没有扩展过的action，即推送Item2，然后根据状态转移概率确定用户可能执行的目标执行操作，分别为点击、离开和咨询，并在目标节点的下一个层级上创建三个子节点，此时三个子节点的推送价值和搜索次数均为0。

通过上述方案，通过状态转移概率达到扩展子节点的目的，确保扩展出的子节点能够真实的反应召回数据的点击和转化价值，达到提升推送价值的准确度，提高数据推送准确度的效果。

可选地，对新的子节点中的目标子节点进行仿真，确定仿真结束时最后一个子节点对应的推送价值包括：基于新的子节点对应的概率确定目标子节点；对目标子节点进行仿真；在仿真时间达到预设仿真时间，或仿真深度达到预设仿真深度的情况下，确定仿真结束；确定最后一个子节点的推送价值。

上述步骤中的预设仿真时间可以是预先设定的子节点进行仿真模拟的时间，可以根据实际需要进行设定，本公开对此不做具体限定。上述步骤中的预设仿真深度可以是预先设定的子节点进行仿真模拟的深度，此处的预设仿真深度可以根据用户***均步长来决定。在大部分数据推送场景中，用户步长往往较小，如图5所示，用户步长大部分集中在5步以下。因此，探索深度可以通过对用户历史步长进行小幅增加确定。需要说明的是，对于新用户，可以根据全站用户平均步长来估计该用户的历史步长，或者直接将同类用户的平均历史步长作为该用户的历史不长。

在本公开实施例中，在扩展出子节点之后，可以选择一个子节点，并根据MDP进行仿真模拟，直至达到设定的仿真时间或仿真深度，然后可以根据价值预估模型预估最后一个子节点的奖励，然后基于预估得到的奖励更新该子节点的推送价值。如果该召回数据被重复推送，还可以通过cost预估模型预估最后一个节点的cost，然后基于预估得到的奖励和cost更新该子节点的推送价值。对于不同层级的子节点，可以设定不同层级对应的折扣率，层级越深折扣率越低，从而通过获取奖励和折扣率的乘积来更新相应的推送价值，例如，折扣率可以取0.9，但不仅限于此。

在一些可选的实施例中，对于如图4所示的MDP树，在第一次循环迭代过程中，在创建三个子节点之后，可以选择一个子节点(即点击对应的子节点)进行仿真，然后根据状态转移概率选择Item k，创建下一个层级的三个子节点，并选择点击对应的子节点，此时确定达到探索深度，因此，可以确定点击对应的子节点的推送价值，假设该子节点预估的奖励是10，仿真深度是3，则更新该节点的推送价值V(y)＝γ³×reward＝0.9³×10＝7，其中，γ表示折扣率，探索深度越深，折扣率越低；在第二次循环迭代过程中，在创建三个子节点之后，可以选择一个子节点(即点击对应的子节点)进行仿真，然后根据状态转移概率选择Itemk’，创建下一个层级的三个子节点，并选择点击对应的子节点，此时确定达到探索深度，因此，可以确定点击对应的子节点的推送价值，假设该子节点预估的奖励是100，仿真深度是3，则更新该节点的推送价值V(n)＝γ³×reward＝0.9³×100＝70。

通过上述方案，通过基于新的子节点对应的概率确定目标子节点，对目标子节点进行仿真，通过预设仿真时间或预设仿真深度确定仿真是否结束，并通过确定最后一个子节点的推送价值，达到实时调整推送价值，提高推送准确度的效果。

可选地，在确定最后一个子节点的推送价值之前，还包括：确定最后一个子节点对应的关联数据是否为目标时间段内重复推送的重复数据；响应于关联数据是重复数据，利用成本预估模型和价值预估模型对最后一个子节点进行处理，得到最后一个子节点的推送价值；响应于关联数据不是重复数据，利用价值预估模型对最后一个子节点进行处理，得到最后一个子节点的推送价值。

上述步骤中的目标时间段可以是预先设定的较短的时间段，例如，可以是搜索树的整个构建过程，也可以是搜索树构建之前的一段历史时间，但不仅限于此。

在本公开实施例中，对于短时间内重复推送的召回数据，为了避免重复推送给用户带来较差的体验，可以首先确定最后一个子节点对应的召回数据是否为重复数据，如果是，则需要结合cost预估模型和价值预估模型的预估结果来确定推送价值；如果不是，则只需要价值预估模型的预估结果来确定推送价值。

通过上述方案，针对重复数据和非重复数据给出不同的确定流程，达到提高推送价值的确定准确度，进而提高数据推送的准确度的效果。

可选地，基于最后一个子节点的推送价值，对搜索树进行反向迭代，更新目标节点和目标节点下面的每层子节点的推送价值包括：步骤a，基于位于当前层的至少一个子节点的推送价值、奖励和状态转移概率，得到扩展节点的总价值；步骤b，基于扩展节点的总价值的最大值，更新位于上一层的父节点的推送价值；重复执行步骤a至步骤b，直至根节点的推送价值更新完成。

需要说明的是，此处的更新可以是将父节点当前的推送价值更新为扩展节点的总价值的最大值，也可以是将父节点当前推送价值和扩展节点的总价值的最大值进行叠加。在本公开实施例中，以将父节点当前的推送价值更新为扩展节点的总价值的最大值为例进行说明。

在反向传播过程中，每个子节点的推送价值都会存在折扣，因此，可以获取推送价值与折扣率的乘积，然后与该子节点的奖励进行累加，最后与该子节点的状态转移概率进行乘积，得到最终的总价值。在一些可选的实施例中，对于如图4所示的MDP树，在第一次循环迭代过程中，可以按照如下公式更新节点t的推送价值V(t)＝max(P(点击|t)×[r(y)+γV(y)]+P(离开|t)×[r(y′)+γV(y′)]+P(转换|t)×[r(y″)+γV(y″)])＝max(0.1×(0+0.9×7)+0.79×(0+0)+0.01×(0+0))＝0.63，然后可以按照如下公式更新节点s的推送价值V(s)＝max_{a∈{1,2,…，k}}(P_a(t|s)×[r(t,a,s′)+γV(s′)])＝max(0.1×(3+0.9×0.63)+0.89×(0+0)+0.01×(100+0))-action:Item1＝1.356，此时，第一次循环迭代过程结束，根节点的搜索次数N更新为1，推送价值value更新为1.356。在第二次循环迭代过程中，可以按照如下公式更新节点m的推送价值V(m)＝max(P点击|n)×[r(n)+γV(n)]+P(离开|n)×[r(n′)+γV(n′)]+P(转换|n)×[r(n″)+γV(n″)])＝max(0.1×(0+0.9×70)+0.78×(0+0)+0.02×(0+0))＝6.3，然后可以按照如下公式更新节点s的推送价值V(s)＝max_{a∈{1,2,…,k}}(P_a(t|s)×[r(t,a,s′)+γV(s′)])＝max(0.1×(3+0.9×0.63)+0.89×(0+0)+0.01×(100+0)-action:Item1,0.15×(5+0.9×6.3)+0.8×(0+0)+0.05×(80+0)-action:Item2)＝max(1.356,4.8505)＝4.8505，此时，第二次循环迭代过程结束，根节点的搜索次数N更新为2，推送价值value更新为4.8505。

需要说明的是，在上述情况下，可以选择Item2＞Item1的排序方式给出最终结果。

通过上述方案，通过推送价值、奖励和状态转移概率确定总价值，进而反向传播更新每个节点的推送价值，达到准确确定每个节点的推送价值，提高目标数据的确定准确度，进而达到提高推送准确度的效果。

下面结合图4和图6以商品推荐场景为例对本公开的一种优选实施例进行详细说明。首先接收用户请求，此处的用户请求可以是针对不同场景的不同请求，例如，在搜索场景中，用户请求可以是用户搜索的搜索文本；在列表页推荐场景中，用户请求可以是用户搜索的搜索文本；在详情页推荐场景中，用户请求可以是用户点击当前商品详情页的行为信息。此外，可以使用搜索结果以及用户历史的浏览、点击行为作为背景信息。

该方案的具体流程如下：如图6所示，用户可以在搜索框内检索需要查询的信息，假设用户在搜索框内搜索“冒菜加盟”，可以确定“冒菜加盟”为用户请求，在收到该请求之后，可以开始推荐结果决策的过程，可以结合MCTS树，对召回数据进行排序，并在检索结果下方给出推荐结果，例如，“XINGFUJIA麻辣烫”、“线上花甲米线”等，如图4中实心圆圈所示。然后可以通过仿真模拟的方式，假设如果推荐了Item1(如XINGFUJIA麻辣烫)，用户可能会点击该商品进入详情页，也可能直接点“咨询”按钮留线索转化，还可能浏览一下就离开。假设用户点击了推荐结果中的商品，并进入到详情页，此时详情页再次显示推荐结果。进一步假设用户点击“加盟日记”、“内容性情”、“认证评级”、“推荐”等数据，可以给出一系列候选列表(Item a-Item k)来进行探索，观察这些商品作为列表页推荐Item1后，假设用户点击后，判断是否会带来足够的后续价值。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的开的实施例，本公开提供了一种数据处理装置，该装置用于实现上述实施例及优选实时方式，已经进行过说明的不再赘述。如一下使用的，术语“模块”可以实现预定功能的软件和/硬件的组合，尽管一下实施例所描述的装置较佳地以软件来实现，但是硬件，或软件和硬件的组合的实现也是可能并被构想的。

图7是根据本公开的数据处理装置的示意图，如图7所示，该装置包括：获取模块72，用于获取召回数据集合；构建模块74，用于构建召回数据集合对应的搜索树，其中，搜索树包括：根节点和位于不同层级的多个数据节点，每个数据节点用于表征召回数据集合中的召回数据，每个数据节点用于存储相应的召回数据的推送价值和搜索次数，推送价值用于表征相应的召回数据推送至目标对象后接收到的反馈结果的价值；决策模块76，用于基于召回数据集合中每个召回数据的推送价值，确定召回数据集合中的目标数据，其中，目标数据为推送至目标对象的数据。

可选的，构建模块包括：第一确定单元，用于确定待搜索的目标节点，其中，目标节点用于表征根节点或召回数据集合中的召回数据；扩展单元，用于在目标节点的下面扩展新的子节点，并利用价值预估模型确定新的子节点的奖励；仿真单元，用于对新的子节点中的目标子节点进行仿真，确定仿真结束时最后一个子节点的推送价值；第二确定单元，用于基于最后一个子节点的推送价值，对搜索树进行反向迭代，确定目标节点和目标节点下面的每层子节点的推送价值；执行单元，用于重复执行确定单元、扩展单元、仿真单元和第二确定单元的功能，直至搜索树的探索时间达到预设探索时间，或探索深度达到预设探索深度。

可选的，第一确定单元包括：遍历子单元，用于从根节点开始遍历，确定是否存在未扩展过的节点；第一节点确定子单元，用于响应于存在未扩展过的节点，确定未扩展过的节点为目标节点；第二节点确定子单元，用于响应于不存在未扩展过的节点，基于每个数据节点的推送价值和搜索次数，确定目标节点。

可选的，扩展单元包括：概率获取子单元，用于获取目标节点对应的状态转移概率；操作确定子单元，用于基于状态转移概率，确定目标节点对应的目标执行操作；创建子单元，用于基于目标执行操作，在目标节点的下面创建新的子节点。

可选的，仿真单元包括：概率确定子单元，用于基于新的子节点对应的概率确定目标子节点；仿真子单元，用于对目标子节点进行仿真；仿真确定子单元，用于在仿真时间达到预设仿真时间，或仿真深度达到预设仿真深度的情况下，确定仿真结束；价值确定子单元，用于确定最后一个子节点对应的推送价值。

可选的，仿真单元还包括：数据确定子单元，用于确定最后一个子节点对应的关联数据是否为目标时间段内重复推送的重复数据；第一处理子单元，用于响应于关联数据是重复数据，利用成本预估模型和价值预估模型对最后一个子节点进行处理，得到最后一个子节点的推送价值；第二处理子单元，用于响应于关联数据不是重复数据，利用价值预估模型对最后一个子节点进行处理，得到最后一个子节点的推送价值。

可选的，第二确定单元包括：价值获取子单元，用于基于位于当前层的至少一个子节点的推送价值、奖励和状态转移概率，得到扩展节点的总价值；价值更新子单元，用于基于扩展节点的总价值的最大值，更新位于上一层的父节点的推送价值，其中，目标子节点为与至少一个子节点具有关联关系的子节点；执行子单元，用于重复执行价值获取子单元和价值更新子单元的功能，直至根节点的推送价值更新完成。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如数据处理方法。例如，在一些实施例中，数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，包括：

获取召回数据集合；

构建所述召回数据集合对应的搜索树，其中，所述搜索树包括：根节点和位于不同层级的多个数据节点，每个数据节点用于表征所述召回数据集合中的召回数据，每个数据节点用于存储相应的召回数据的推送价值和搜索次数，所述推送价值用于表征所述相应的召回数据推送至目标对象后接收到的反馈结果的价值；

基于所述召回数据集合中每个召回数据的推送价值，确定所述召回数据集合中的目标数据，其中，所述目标数据为推送至所述目标对象的数据。

2.根据权利要求1所述的方法，其中，构建所述召回数据集合对应的所述搜索树包括：

步骤A，确定待搜索的目标节点；

步骤B，在所述目标节点的下面扩展新的子节点，并利用价值预估模型确定所述新的子节点的奖励；

步骤C，对所述新的子节点中的目标子节点进行仿真，确定仿真结束时最后一个子节点的推送价值；

步骤D，基于所述最后一个子节点的推送价值，对所述搜索树进行反向迭代，更新所述目标节点和所述目标节点下面的每层子节点的推送价值，并更新所述目标节点的搜索次数；

重复执行所述步骤A至步骤D，直至所述搜索树的探索时间达到预设探索时间，或探索深度达到预设探索深度。

3.根据权利要求2所述的方法，确定待搜索的目标节点包括：

从所述根节点开始遍历，确定是否存在未扩展过的节点；

响应于存在所述未扩展过的节点，确定所述未扩展过的节点为所述目标节点；

响应于不存在所述未扩展过的节点，基于每个数据节点的推送价值和搜索次数，确定所述目标节点。

4.根据权利要求2所述的方法，在所述目标节点的下面扩展新的子节点包括：

获取所述目标节点对应的状态转移概率；

基于所述状态转移概率，确定所述目标节点对应的目标执行操作；

基于所述目标执行操作，在所述目标节点的下面创建所述新的子节点。

5.根据权利要求2所述的方法，对所述新的子节点中的目标子节点进行仿真，确定仿真结束时所述最后一个子节点对应的所述推送价值包括：

基于所述新的子节点对应的概率确定所述目标子节点；

对所述目标子节点进行仿真；

在仿真时间达到预设仿真时间，或仿真深度达到预设仿真深度的情况下，确定仿真结束；

确定所述最后一个子节点对应的所述推送价值。

6.根据权利要求5所述的方法，在确定所述最后一个子节点对应的所述推送价值之前，还包括：

确定所述最后一个子节点对应的关联数据是否为目标时间段内重复推送的重复数据；

响应于所述关联数据是所述重复数据，利用成本预估模型和价值预估模型对所述最后一个子节点进行处理，得到所述最后一个子节点的推送价值；

响应于所述关联数据不是所述重复数据，利用所述价值预估模型对所述最后一个子节点进行处理，得到所述最后一个子节点的推送价值。

7.根据权利要求2所述的方法，基于所述最后一个子节点的推送价值，对所述搜索树进行反向迭代，更新所述目标节点和所述目标节点下面的每层子节点的推送价值包括：

步骤a，基于位于当前层的至少一个子节点的推送价值、奖励和状态转移概率，得到扩展节点的总价值；

步骤b，获取所述扩展节点的总价值的最大值，得到位于上一层的父节点的推送价值；

重复执行所述步骤a至步骤b，直至所述根节点的推送价值更新完成。

8.一种数据处理装置，包括：

获取模块，用于获取召回数据集合；

构建模块，用于构建所述召回数据集合对应的搜索树，其中，所述搜索树包括：根节点和位于不同层级的多个数据节点，每个数据节点用于表征所述召回数据集合中的召回数据，每个数据节点用于存储相应的召回数据的推送价值和搜索次数，所述推送价值用于表征所述相应的召回数据推送至目标对象后接收到的反馈结果的价值；

决策模块，用于基于所述召回数据集合中每个召回数据的推送价值，确定所述召回数据集合中的目标数据，其中，所述目标数据为推送至所述目标对象的数据。

9.根据权利要求8所述的装置，其中，所述构建模块包括：

第一确定单元，用于确定待搜索的目标节点，其中，所述目标节点用于表征所述根节点或所述召回数据集合中的召回数据；

扩展单元，用于在所述目标节点的下面扩展新的子节点，并利用价值预估模型确定所述新的子节点的奖励；

仿真单元，用于对所述新的子节点中的目标子节点进行仿真，确定仿真结束时最后一个子节点的推送价值；

第二确定单元，用于基于所述最后一个子节点的推送价值，对所述搜索树进行反向迭代，确定所述目标节点和所述目标节点下面的每层子节点的推送价值；

执行单元，用于重复执行所述确定单元、所述扩展单元、所述仿真单元和所述第二确定单元的功能，直至所述搜索树的探索时间达到预设探索时间，或探索深度达到预设探索深度。

10.根据权利要求9所述的装置，所述第一确定单元包括：

遍历子单元，用于从所述根节点开始遍历，确定是否存在未扩展过的节点；

第一节点确定子单元，用于响应于存在所述未扩展过的节点，确定所述未扩展过的节点为所述目标节点；

第二节点确定子单元，用于响应于不存在所述未扩展过的节点，基于每个数据节点的推送价值和搜索次数，确定所述目标节点。

11.根据权利要求9所述的装置，所述扩展单元包括：

概率获取子单元，用于获取所述目标节点对应的状态转移概率；

操作确定子单元，用于基于所述状态转移概率，确定所述目标节点对应的目标执行操作；

创建子单元，用于基于所述目标执行操作，在所述目标节点的下面创建所述新的子节点。

12.根据权利要求9所述的装置，所述仿真单元包括：

概率确定子单元，用于基于所述新的子节点对应的概率确定所述目标子节点；

仿真子单元，用于对所述目标子节点进行仿真；

仿真确定子单元，用于在仿真时间达到预设仿真时间，或仿真深度达到预设仿真深度的情况下，确定仿真结束；

价值确定子单元，用于确定所述最后一个子节点对应的所述推送价值。

13.根据权利要求12所述的装置，所述仿真单元还包括：

数据确定子单元，用于确定所述最后一个子节点对应的关联数据是否为目标时间段内重复推送的重复数据；

第一处理子单元，用于响应于所述关联数据是所述重复数据，利用成本预估模型和价值预估模型对所述最后一个子节点进行处理，得到所述最后一个子节点的推送价值；

第二处理子单元，用于响应于所述关联数据不是所述重复数据，利用所述价值预估模型对所述最后一个子节点进行处理，得到所述最后一个子节点的推送价值。

14.根据权利要求9所述的装置，所述第二确定单元包括：

价值获取子单元，用于基于位于当前层的至少一个子节点的推送价值、奖励和状态转移概率，得到扩展节点的总价值；

价值更新子单元，用于基于所述扩展节点的总价值的最大值，更新位于上一层的父节点的推送价值；

执行子单元，用于重复执行所述价值获取子单元和所述价值更新子单元的功能，直至所述根节点的推送价值更新完成。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。