CN110766513A

CN110766513A - 信息排序方法、装置、电子设备及可读存储介质

Info

Publication number: CN110766513A
Application number: CN201910889074.8A
Authority: CN
Inventors: 苏义伟
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-07

Abstract

本公开的实施例提供了一种信息排序方法、装置、电子设备及可读存储介质，所述方法包括：对符合用户特征的候选信息进行第一排序，得到第一排序候选信息集合；将所述用户特征、以及候选信息特征，输入预置模型，以通过所述预置模型输出混排桶数；所述预置模型为根据用户对信息的重复获取概率训练得到的强化学习模型；将所述第一排序候选信息集合中的候选信息随机散列到数量为所述混排桶数的桶中；对所述桶中的候选信息进行第二排序，得到第二排序候选信息集合；其中，所述第二排序候选信息集合与所述第一排序候选信息集合的排序不同。本公开实施例可以向用户提供更加适合的推荐信息，进而可以提高信息推荐的准确性。

Description

信息排序方法、装置、电子设备及可读存储介质

技术领域

本公开的实施例涉及网络技术领域，尤其涉及一种信息排序方法、装置、电子设备及可读存储介质。

背景技术

随着信息化的迅速发展，互联网提供给用户的信息呈***式增长，用户的需求也日益增加，如何使用户在海量的信息中及时准确的获取所需要的信息，成为急需解决的问题。

目前，电商推荐***通常根据用户的历史行为和喜好，预估用户对商品点击的概率或下单的概率，再按概率对商品进行排序并展示。

然而，对于正在兴起的外卖行业，由于用户可能经常重复购买某个商家的商品，因此，根据用户的历史行为和喜好对商品进行排序，导致每次推荐的商品变化较小，对于更喜欢多样性的用户，导致推荐的商品信息难以满足用户需求。

发明内容

本公开的实施例提供一种信息排序方法、装置、电子设备及可读存储介质，用以更好的挖掘用户的偏好，对于不同用户，可以采用不同的排序方式，使得向不同用户推荐的信息中可以包含不同比重的新信息，也即可以向用户提供更加适合的推荐信息，进而可以提高信息推荐的准确性。

根据本公开的实施例的第一方面，提供了一种信息排序方法，所述方法包括：

对符合用户特征的候选信息进行第一排序，得到第一排序候选信息集合；

将所述用户特征、以及候选信息特征，输入预置模型，以通过所述预置模型输出混排桶数；所述预置模型为根据用户对信息的重复获取概率训练得到的强化学习模型；

将所述第一排序候选信息集合中的候选信息随机散列到数量为所述混排桶数的桶中；

对所述桶中的候选信息进行第二排序，得到第二排序候选信息集合；其中，所述第二排序候选信息集合与所述第一排序候选信息集合的排序不同。

根据本公开的实施例的第二方面，提供了一种信息排序装置，所述装置包括：

第一排序模块，用于对符合用户特征的候选信息进行第一排序，得到第一排序候选信息集合；

桶数预测模块，用于将所述用户特征、以及候选信息特征，输入预置模型，以通过所述预置模型输出混排桶数；所述预置模型为根据用户对信息的重复获取概率训练得到的强化学习模型；

随机散列模块，用于将所述第一排序候选信息集合中的候选信息随机散列到数量为所述混排桶数的桶中；

第二排序模块，用于对所述桶中的候选信息进行第二排序，得到第二排序候选信息集合；其中，所述第二排序候选信息集合与所述第一排序候选信息集合的排序不同。

根据本公开的实施例的第三方面，提供了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现前述信息排序方法。

根据本公开的实施例的第四方面，提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述信息排序方法。

本公开的实施例提供了一种信息排序方法、装置、电子设备及可读存储介质，所述方法包括：

本公开实施例对符合用户特征的候选信息进行第一排序，得到第一排序候选信息集合之后，将所述用户特征、以及候选信息特征，输入预置模型，以通过所述预置模型输出混排桶数，利用所述混排桶数对第一排序候选信息集合中的排序结果打散并进行第二排序，得到与第一排序方式不同的第二排序候选信息集合，以提高新信息排在前面的概率，进而可以提高新信息的曝光率。

此外，所述强化学习模型为根据用户对信息的重复获取概率训练得到，可以输出不同用户对应的混排桶数，所述混排桶数可用于控制对第一排序候选信息集合中的排序结果打散的程度，对于不同用户，可以对应不同的打散程度，也即不同用户对应的排序方式不同，推荐信息中包含新信息的比重也不同，因此，本公开实施例可以向用户提供更加适合的推荐信息，进而可以提高信息推荐的准确性。同时，可以兼顾用户的转化率和信息的新颖性。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开的一个实施例中的信息排序方法的步骤流程图；

图2示出了本公开实施例的一种信息排序方法的流程示意图；

图3示出了在本公开的一个实施例中的强化学习建模架构示意图；

图4示出了在本公开的一个实施例中的信息排序装置的结构图；

图5示出了本公开的一个实施例提供的电子设备的结构图。

具体实施方式

下面将结合本公开的实施例中的附图，对本公开的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的实施例一部分实施例，而不是全部的实施例。基于本公开的实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开的实施例保护的范围。

实施例一

参照图1，其示出了本公开的一个实施例中的信息排序方法的步骤流程图，包括：

步骤101、对符合用户特征的候选信息进行第一排序，得到第一排序候选信息集合；

步骤102、将所述用户特征、以及候选信息特征，输入预置模型，以通过所述预置模型输出混排桶数；所述预置模型为根据用户对信息的重复获取概率训练得到的强化学习模型；

步骤103、将所述第一排序候选信息集合中的候选信息随机散列到数量为所述混排桶数的桶中；

步骤104、对所述桶中的候选信息进行第二排序，得到第二排序候选信息集合；其中，所述第二排序候选信息集合与所述第一排序候选信息集合的排序不同。

本公开的信息排序方法可应用于终端中，所述终端具体包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving PictureExperts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，MovingPicture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

需要说明的是，本公开中的信息包括用户通过终端可以获取的任意信息，可以是商品信息、商家信息、也可以是菜品信息、还可以是新闻资讯、娱乐等任意信息。为便于描述，本公开实施例中以候选信息为候选商家为例进行说明，其它应用场景中的信息排序过程相互参照即可。

本公开的核心是提出一种新的信息排序机制，在保证平台用户转化率的基础上，可以提高新商家的曝光率。

具体地，本公开实施例首先对符合用户特征的候选信息进行第一排序，得到第一排序候选信息集合。在实际应用中，当用户通过终端触发信息推荐请求时，推荐服务器可以接收所述终端发送的信息推荐请求，并且将用户标识、用户当前位置和查询词等作为输入的推荐参数调用推荐服务。推荐服务器根据接收到的推荐参数，挖掘符合用户特征的候选信息，召回候选集。之后，推荐服务器通过预设的推荐模型对召回候选集中的候选信息进行特征提取和计算推荐得分，并按照推荐得分由高到低的顺序对召回候选集中的候选信息进行第一排序，得到第一排序候选信息集合。

其中，推荐得分通过预设的推荐模型计算得到，所述推荐模型可以根据用户特征、商家特征、用户商家交互特征、以及上下文特征训练得到。通常，所述推荐得分与相应候选信息的点击率正相关。

由于第一排序候选信息集合为根据推荐得分进行排序，符合用户的历史行为和喜好，导致每次向用户推荐的信息变化较小，新商家难以得到曝光，导致推荐的信息缺乏新颖性。为解决该问题，本公开实施例在获取第一排序候选信息集合之后，对第一排序候选信息集合中的排序结果打散并进行第二排序，得到与第一排序方式不同的第二排序候选信息集合，以提高新商家排在前面的概率，进而可以提高新商家的曝光率。

在本公开实施例中，可以预先根据用户对信息的重复获取概率训练得到强化学习模型，将用户特征、以及候选信息特征，输入该强化学习模型，以输出混排桶数，通过该混排桶数可以对第一排序候选信息集合中的排序结果打散。具体地，将所述第一排序候选信息集合中的候选信息随机散列到数量为所述混排桶数的桶中。

在本公开的一种应用示例中，假设得到的第一排序候选信息集合包括：{poi1:0.92,poi2:0.91,poi3:0.89,poi4:0.86,poi5:0.85,poi6:0.82,poi7:0.81,poi8:0.80,poi9:0.80……}，其中，poi1:0.92指候选信息poi1的推荐得分为0.92，排在最高位，poi2:0.91指候选信息poi2的推荐得分为0.91，排在第二位，以此类推。

假设将当前用户的用户特征，以及候选信息特征，输入所述强化学习模型，得到混排桶数为n(n为正整数)，则将所述第一排序候选信息集合中的候选信息随机散列到n个桶中，并且对n个桶中的候选信息进行第二排序，得到第二排序候选信息集合，使得所述第二排序候选信息集合与所述第一排序候选信息集合的排序不同。例如，经过对第一排序候选信息集合中的排序结果进行打散以及第二排序后，得到的第二排序候选信息集合为{poi3:0.89,poi5:0.85,poi1:0.92,poi6:0.82,poi8:0.80,poi7:0.81,poi4:0.86,poi2:0.91,poi9:0.80……}。可以看出，第二排序候选信息集合中的排序结果与第一排序候选信息集合中的排序结果不同，使得原本排在靠后位置的候选信息有机会被排到靠前位置，以提高新商家的曝光率。

其中，输入所述强化学***均点击通过率，平均转化率，平均成单率等特征。可以理解，上述用户特征和候选信息特征仅作为本公开的一种应用示例，本公开对所述用户特征和候选信息特征的具体内容不加以限制。

所述强化学习模型为根据用户对信息的重复获取概率训练得到，所述用户对信息的重复获取概率中的重复获取至少可以包括如下行为：用户多次点击、多次浏览、多次购买等。以候选信息为候选商家的场景为例，所述用户对信息的重复获取概率可以指用户对商家商品的复购率。

所述强化学习模型可以输出不同用户对应的混排桶数，所述混排桶数可用于控制对第一排序候选信息集合中的排序结果打散的程度。例如，对于复购率较高的用户，重复购买同一商家商品的概率较高，那么该用户的混排桶数可以少一些，使排序结果打散程度较低，以保证其用户转化率。而对于复购率较低的用户，其可能更喜欢多样性，因此，混排桶数可以多一些，使排序结果打散程度较高，以提高新商家的曝光率。由此，对于不同用户，可以对应不同的打散程度，也即不同用户对应的排序方式不同，推荐信息中包含新信息的比重也不同，因此，本公开实施例可以向用户提供更加适合的推荐信息，进而可以提高信息推荐的准确性。同时，可以兼顾用户的转化率和信息的新颖性。

在本公开的一种可选实施例中，所述对所述桶中的候选信息进行第二排序，得到第二排序候选信息集合，具体可以包括：

每次依次从每个桶中取出第一排序得分最高的候选信息，按照取出顺序排列得到第二排序候选信息集合。

例如，将上述第一排序候选信息集合中的候选信息随机散列到n个桶中之后，可以对每个桶中的候选信息按照第一排序得分(如推荐得分)进行排序，得到排序后的桶，然后再依次从第1个到第n个桶中取出候选信息，每次取一个，按照取出顺序排列得到第二排序候选信息集合。

假设n＝3，将上述第一排序候选信息集合中的候选信息随机散列到3个桶中之后，对每个桶中的候选信息按照推荐得分从高到低进行排序，得到排序后的桶，第一次分别从3个排序后的桶中取出第一个候选信息，并且将第一个桶中取出的候选信息排top1，将第二个桶中取出的候选信息排top2，将第三个桶中取出的候选信息排top3。第二次再分别从3个排序后的桶中取出第一个候选信息，这次将第一个桶中取出的候选信息排top4，将第二个桶中取出的候选信息排top5，将第三个桶中取出的候选信息排top6，以此类推，直到取出所有桶中的候选信息，可以排列得到第二排序候选信息集合。参照图2，示出了本公开实施例的一种信息排序方法的流程示意图。

在本公开的一种可选实施例中，所述得到第二排序候选信息集合的步骤之后，所述方法还可以包括：

根据所述第二排序候选信息集合，确定推荐结果列表。

在得到第二排序候选信息集合之后，可以根据所述第二排序候选信息集合，确定推荐结果列表。例如，将所述第二排序候选信息集合中topk(k为正整数)的候选信息生成推荐结果列表，并且向用户推送所述推荐结果列表。该推荐结果列表与直接根据第一排序候选信息集合得到的推荐结果列表的区别在于，其中包含了更多的新曝光的信息，可以提高推荐信息的新颖性。

在本公开的一种可选实施例中，可以通过如下步骤训练得到所述预置模型：

步骤S11、根据历史候选信息集合以及用户对所述历史候选信息集合产生的历史行为数据，获取离线样本数据；所述离线样本数据包括：用户特征、历史候选信息集合特征、用户对历史候选信息集合产生的行为特征、以及上下文特征；

步骤S12、将所述离线样本数据作为强化学习模型的状态；

步骤S13、将初始的预置模型输出预测混排桶数作为强化学习模型的动作；

步骤S14、根据预设奖赏函数，确定在所述状态下采取所述动作得到的奖励值；

步骤S15、根据所述状态、动作、以及奖励值，利用强化学习算法，对所述初始的预置模型进行训练，得到训练后的预置模型。

一般地，强化学习***可以包括智能体和执行环境，智能体通过与执行环境的交互和反馈，不断进行学习，优化其策略。具体而言，智能体观察并获得执行环境的状态(state)，根据一定的策略，针对当前执行环境的状态确定要采取的行为或动作(action)。这样的行为作用于执行环境，会改变执行环境的状态，同时产生一个反馈给智能体，该反馈又称为奖赏或奖励分数(reward)。智能体根据获得的奖励分数来判断，之前的行为是否正确，策略是否需要调整，进而更新其策略。通过反复不断地观察状态、确定行为、收到反馈，使得智能体可以不断更新策略，最终目标是能够学习到一个策略，使得获得的奖励分数累积最大化。

更具体而言，智能体学习和训练的过程包括策略评估和策略改进。策略评估中常采用状态值函数(state value function)V或状态-动作值函数(state-action valuefuction)Q，来表示期望的累积奖励。状态-动作值函数又称为Q函数，例如，Q(S，A)表示从状态S出发，执行动作A后再使用策略带来的累积奖励分数。

例如，根据Q-learning方法，通过下面的式子来迭代计算Q函数：

Q(S，A)←(1-α)*Q(S，A)+α*[R+γ*maxQ(S′，a)] (1)

其中，α为学习速率，γ为折扣因子。在训练强化学习模型的情况下，样本一般包括<S,A,R,S’>的序列，其中S表示环境的状态，A表示在S状态下执行的动作，R表示执行动作A后获得的奖励分数，S’表示在执行动作A后环境迁移到的新状态。为了表述的简单清楚，下面将S称为第一状态，A称为第一动作，S’称为第二状态，于是离线训练所述强化学习模型的历史样本可以为包括第一状态、第一动作、奖励分数和第二状态构成的序列，第二状态是在环境处于第一状态的情况下，施加所述第一动作后，所述环境迁移到的状态。其中，第一状态S为历史上环境所处的某一状态，第一动作A为在历史样本中，当环境处于第一状态时所采取的动作。第二动作表示，对于当前要训练的强化学习模型，面对同一状态S，智能体会采取什么样的动作。

可以理解，本公开实施例对训练所述强化学习模型的训练方法不加以限制。强化学习模型训练的方法可以包括同策略(on-policy)方法和异策略(off-policy)方法，两者的区别在于，同策略方法产生样本的策略和优化的目标策略是同一个，而异策略方法产生样本的策略和优化的目标策略不是同一个。

其中，采用同策略方法训练的历史样本为同策略样本，也即第二动作S’和第一动作S相同，也就意味着，当前要训练的强化学习模型面对与历史上同样的状态S，会决策出同样的动作A。采用异策略方法训练的历史样本为异策略样本，也即第二动作S’和第一动作S不相同，也就意味着，当前要训练的强化学习模型面对与历史上同样的状态S，会决策出不同的动作A。

具体地，本公开实施例首先根据历史候选信息集合以及用户对所述历史候选信息集合产生的历史行为数据，获取用于训练强化学习模型的离线样本数据，所述离线样本数据可以包括：用户特征、历史候选信息集合特征、用户对历史候选信息集合产生的行为特征、以及上下文特征。

在本公开的一种可选实施例中，所述历史候选信息集合特征，具体可以包括：所述历史候选信息集合中历史候选信息的平均点击率、平均转换率、平均成单率、最大点击率、最大转换率、最大成单率等特征；

所述用户对历史候选信息集合产生的行为特征，具体可以包括：用户对所述历史候选信息集合中的历史候选信息产生的点击次数、下单次数、以及重复获取概率等特征；

所述上下文特征，具体可以包括：时间、用户距离、天气等特征。

本公开实施例以同策略样本训练方法为例，将所述离线样本数据作为强化学习模型的状态S，以及将初始的预置模型输出预测混排桶数作为强化学习模型的动作A，根据预设奖赏函数，确定在所述状态下采取所述动作得到的奖励值R，进而可以根据所述状态、动作、以及奖励值，利用强化学习算法，对所述初始的预置模型进行训练，得到训练后的预置模型。

参照图3，其示出了在本公开的一个实施例中的强化学习建模架构示意图。在本公开的一种应用示例中，其中的Environment表示当前环境，具体可以包括用户user和商家集pois。其中的Agent表示混排***，具体可以包括所述预置模型DQN和存储模块Memory，Memory可用于存储线上DQN模型的训练样本数据。其中的state表示强化学习模型四元组中的状态，具体可以包括用户特征和商家集特征，商家集指的是候选商家的集合。其中的Action表示强化学习模型四元组中的动作，具体可以包括通过预置模型DQN输出混排桶数。其中的Reward表示强化学习模型四元组中的奖励值，该奖励值通过预设奖赏函数计算得到，可以兼顾用户的转化率和信息的新颖性。

在本公开的一种可选实施例中，所述根据预设奖赏函数，确定在所述状态下采取所述动作得到的奖励值，具体可以包括：

根据用户对所述历史候选信息集合产生的历史行为数据，获取用户对历史推荐结果列表产生的点击数据和/或下单数据；

若所述历史行为数据中，存在用户对历史推荐结果列表中的历史候选信息产生的点击数据，则根据历史推荐结果列表中新曝光的信息数、以及所述点击数据对应的信息数，确定奖励值；或者

若所述历史行为数据中，存在用户对历史推荐结果列表中的历史候选信息产生的点击数据和下单数据，则根据所述下单数据对应的下单价格、所述新曝光的信息数、以及所述点击数据对应的信息数，确定奖励值；或者

若所述历史行为数据中，不存在用户对历史推荐结果列表中的历史候选信息产生的点击数据和下单数据，则根据所述新曝光的信息数，确定奖励值。

在强化学习模型的训练过程中，根据当前state(用户和商家集特征)采用某个action(混排桶数n)后，***对此action根据奖赏函数计算得到对应的奖励值，该奖励值作为强化学习模型当前策略的一个好坏分反馈。

本公开实施例根据用户对所述历史候选信息集合产生的历史行为数据，获取用户对历史推荐结果列表产生的点击数据和/或下单数据，根据用户对历史推荐结果列表中的历史候选信息是否产生点击数据和下单数据，以及所述历史推荐结果列表中本次新曝光的信息数，确定奖赏函数，可以平衡用户的转化率和信息的新颖性，在保证转化率的同时，提高新颖性，使用户能够看到更多的优质新商家，同时使更多的新商家可以得到曝光的机会。具体地，本公开实施例的预设奖赏函数可以表示为：

在本公开实施例中，将本次曝光中新曝光商家数作为新颖性的量化指标，也即本次曝光中新曝光商家数越多，本次曝光的新颖性越高。

如上式(2)中，当本次PV(page view，页面浏览量)无下单/点击时，说明用户复购率较低，所以应该对新曝光的商家进行奖赏，奖赏值为Min(新曝光商家数，5)，也即将新曝光商家数和5中的较小值作为奖赏值。

当本次PV只有点击时，需要对新曝光的商家和用户点击的商家进行奖赏，奖赏值为：Min(新曝光商家数，5)+Min(用户点击商家数，5)。

当本次PV有成单时，根据成单的价格，以及新曝光和点击商家数进行奖赏，本次奖赏主要体现在转化率，奖赏值为Price+Min(新曝光商家数，5)+Min(用户点击商家数，5)。

在本次PV无下单/点击以及本次PV只有点击的情况下，虽然没有成单，但是对新曝光的商家进行奖赏，体现了新颖性，在本次PV有成单的情况下，对有成单的行为进行奖赏，体现了用户的转化率，同时也兼顾了信息的新颖性。

在本公开的一种可选实施例中，在得到排序后的候选信息集合之后，所述方法还可以包括：

步骤S21、向用户推送所述推荐结果列表；

步骤S22、根据所述推荐结果列表，以及用户对所述推荐结果列表产生的在线行为数据，生成在线样本数据；

步骤S23、根据所述在线样本数据，训练所述预置模型，以优化所述预置模型的模型参数，得到优化后的预置模型。

在训练得到所述预置模型之后，可以在推荐***中在线使用所述预置模型，以向用户展示根据第二排序候选信息集合确定的推荐结果列表，该推荐结果列表可以均衡用户的转化率和信息的新颖性。在向用户推送所述推荐结果列表之后，本公开实施例还可以获取用户针对所述推荐结果列表的在线行为数据。所述在线行为数据具体可以包括：用户针对所述推荐结果列表中的推荐商家是否点击的数据、是否下单的数据等。

本公开实施例可以将所述在线行为数据作为在线样本数据，继续训练所述预置模型，以优化所述预置模型的模型参数，得到优化后的预置模型。

综上，本公开实施例对符合用户特征的候选信息进行第一排序，得到第一排序候选信息集合之后，将所述用户特征、以及候选信息特征，输入预置模型，以通过所述预置模型输出混排桶数，利用所述混排桶数对第一排序候选信息集合中的排序结果打散并进行第二排序，得到与第一排序方式不同的第二排序候选信息集合，以提高新商家排在前面的概率，进而可以提高新商家的曝光率。

实施例三

参照图4，其示出了在本公开的一个实施例中的信息排序装置的结构图，具体如下。

第一排序模块401，用于对符合用户特征的候选信息进行第一排序，得到第一排序候选信息集合；

桶数预测模块402，用于将所述用户特征、以及候选信息特征，输入预置模型，以通过所述预置模型输出混排桶数；所述预置模型为根据用户对信息的重复获取概率训练得到的强化学习模型；

随机散列模块403，用于将所述第一排序候选信息集合中的候选信息随机散列到数量为所述混排桶数的桶中；

第二排序模块404，用于对所述桶中的候选信息进行第二排序，得到第二排序候选信息集合；其中，所述第二排序候选信息集合与所述第一排序候选信息集合的排序不同。

可选地，所述第二排序模块404，具体用于每次依次从每个桶中取出第一排序得分最高的候选信息，按照取出顺序排列得到第二排序候选信息集合。

可选地，所述装置还包括：

结果确定模块，用于根据所述第二排序候选信息集合，确定推荐结果列表。

可选地，所述装置还包括：

结果推送模块，用于向用户推送所述推荐结果列表；

数据获取模块，用于根据所述推荐结果列表，以及用户对所述推荐结果列表产生的在线行为数据，生成在线样本数据；

模型优化模块，用于根据所述在线样本数据，训练所述预置模型，以优化所述预置模型的模型参数，得到优化后的预置模型。

可选地，所述装置还包括：模型训练模块，用于训练所述预置模型；所述模型训练模块，包括：

样本获取子模块，用于根据历史候选信息集合以及用户对所述历史候选信息集合产生的历史行为数据，获取离线样本数据；所述离线样本数据包括：用户特征、历史候选信息集合特征、用户对历史候选信息集合产生的行为特征、以及上下文特征；将所述离线样本数据作为强化学习模型的状态；

第一确定子模块，用于将初始的预置模型输出预测混排桶数作为强化学习模型的动作；

第二确定子模块，用于根据预设奖赏函数，确定在所述状态下采取所述动作得到的奖励值；

模型训练子模块，用于根据所述状态、动作、以及奖励值，利用强化学习算法，对所述初始的预置模型进行训练，得到训练后的预置模型。

可选地，所述历史候选信息集合特征，包括：所述历史候选信息集合中历史候选信息的平均点击率、平均转换率、平均成单率、最大点击率、最大转换率、最大成单率；

所述用户对历史候选信息集合产生的行为特征，包括：用户对所述历史候选信息集合中的历史候选信息产生的点击次数、下单次数、以及重复获取概率；

所述上下文特征，包括：时间、用户距离、天气。

可选地，所述第二确定子模块，包括：

数据获取单元，用于根据用户对所述历史候选信息集合产生的历史行为数据，获取用户对历史推荐结果列表产生的点击数据和/或下单数据；

第一确定单元，用于若所述历史行为数据中，存在用户对历史推荐结果列表中的历史候选信息产生的点击数据，则根据历史推荐结果列表中新曝光的信息数、以及所述点击数据对应的信息数，确定奖励值；或者

第二确定单元，用于若所述历史行为数据中，存在用户对历史推荐结果列表中的历史候选信息产生的点击数据和下单数据，则根据所述下单数据对应的下单价格、所述新曝光的信息数、以及所述点击数据对应的信息数，确定奖励值；或者

第三确定单元，用于若所述历史行为数据中，不存在用户对历史推荐结果列表中的历史候选信息产生的点击数据和下单数据，则根据所述新曝光的信息数，确定奖励值。

综上所述，本公开的实施例提供了一种信息排序装置，所述装置包括：第一排序模块401，用于对符合用户特征的候选信息进行第一排序，得到第一排序候选信息集合；桶数预测模块402，用于将所述用户特征、以及候选信息特征，输入预置模型，以通过所述预置模型输出混排桶数；所述预置模型为根据用户对信息的重复获取概率训练得到的强化学习模型；随机散列模块403，用于将所述第一排序候选信息集合中的候选信息随机散列到数量为所述混排桶数的桶中；第二排序模块404，用于对所述桶中的候选信息进行第二排序，得到第二排序候选信息集合；其中，所述第二排序候选信息集合与所述第一排序候选信息集合的排序不同。本公开实施例的信息排序装置能够提高新商家排在前面的概率，进而可以提高新商家的曝光率。

本公开的实施例还提供了一种电子设备，参见图5，包括：处理器501、存储器502以及存储在所述存储器上并可在所述处理器上运行的计算机程序5021，所述处理器执行所述程序时实现前述实施例的信息排序方法。

本公开的实施例还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述实施例的信息排序方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本公开的实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的实施例的内容，并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本公开的实施例的示例性实施例的描述中，本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的实施例的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本公开的实施例的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的排序设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本公开的实施例的较佳实施例而已，并不用以限制本公开的实施例，凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本公开的实施例的保护范围之内。

以上所述，仅为本公开的实施例的具体实施方式，但本公开的实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的实施例的保护范围之内。因此，本公开的实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种信息排序方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述桶中的候选信息进行第二排序，得到第二排序候选信息集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述得到第二排序候选信息集合的步骤之后，所述方法还包括：

根据所述第二排序候选信息集合，确定推荐结果列表。

4.根据权利要求3所述的方法，其特征在于，所述确定推荐结果列表的步骤之后，所述方法还包括：

向用户推送所述推荐结果列表；

根据所述推荐结果列表，以及用户对所述推荐结果列表产生的在线行为数据，生成在线样本数据；

根据所述在线样本数据，训练所述预置模型，以优化所述预置模型的模型参数，得到优化后的预置模型。

5.根据权利要求1所述的方法，其特征在于，通过如下步骤训练得到所述预置模型：

根据历史候选信息集合以及用户对所述历史候选信息集合产生的历史行为数据，获取离线样本数据；所述离线样本数据包括：用户特征、历史候选信息集合特征、用户对历史候选信息集合产生的行为特征、以及上下文特征；将所述离线样本数据作为强化学习模型的状态；

将初始的预置模型输出预测混排桶数作为强化学习模型的动作；

根据预设奖赏函数，确定在所述状态下采取所述动作得到的奖励值；

根据所述状态、动作、以及奖励值，利用强化学习算法，对所述初始的预置模型进行训练，得到训练后的预置模型。

6.根据权利要求5所述的方法，其特征在于，所述历史候选信息集合特征，包括：所述历史候选信息集合中历史候选信息的平均点击率、平均转换率、平均成单率、最大点击率、最大转换率、最大成单率；

所述上下文特征，包括：时间、用户距离、天气。

7.根据权利要求5所述的方法，其特征在于，所述根据预设奖赏函数，确定在所述状态下采取所述动作得到的奖励值，包括：

8.一种信息排序装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中一个或多个所述的信息排序方法。

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7中一个或多个所述的信息排序方法。