CN110689402A

CN110689402A - 推荐商家的方法、装置、电子设备及可读存储介质

Info

Publication number: CN110689402A
Application number: CN201910833752.9A
Authority: CN
Inventors: 孙正
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2020-01-14

Abstract

本申请实施例提供了一种推荐商家的方法、装置、电子设备及可读存储介质，旨在使服务端更准确地向用户推荐商家信息，提高用户操作效率。所述方法包括：获得目标用户的用户特征和多个候选商家各自的商家特征；将所述用户特征和所述多个商家特征输入复购率预测模型，得到所述目标用户针对所述多个候选商家中每个候选商家的复购率；根据所述目标用户针对所述多个候选商家中每个候选商家的复购率，向所述目标用户推荐目标商家，所述目标商家为所述多个候选商家中的至少一个。

Description

推荐商家的方法、装置、电子设备及可读存储介质

技术领域

本申请实施例涉及互联网技术领域，尤其涉及一种推荐商家的方法、装置、电子设备及可读存储介质。

背景技术

随着互联挖技术的发展和智能终端设备的普及，越来越多的终端用户通过浏览器或客户端连接至电商平台或O2O(Online To Offline)平台等服务端，以实现网上购物、线上点餐、网上购票等线上交易活动。相关技术中，服务端会根据用户的历史浏览记录主动地向用户推荐商家信息，使用户在不执行搜索操作的情况下，快速地进入目标商家的主页，以此推广目标商家而获得收益并提高用户操作效率。

目前的服务端在向用户推荐商家信息时，通常是根据各商家信息的历史点击率和/或历史转化率，确定历史点击率和/或历史转化率较高的目标商家，并将目标商家的信息推荐给用户。然而，采用目前的这种推荐方式，向用户推荐的商家信息仅能满足服务端当前收益的最大化和用户当前操作效率的最大化，而不能满足服务端长期收益的最大化和用户长期操作效率的最大化。

发明内容

本申请实施例提供一种推荐商家的方法、装置、电子设备及可读存储介质，旨在使服务端更准确地向用户推荐商家信息，以提高服务端长期收益和用户长期操作效率。

本申请实施例第一方面提供了一种推荐商家的方法，所述方法包括：

获得目标用户的用户特征和多个候选商家各自的商家特征；

将所述用户特征和所述多个商家特征输入复购率预测模型，得到所述目标用户针对所述多个候选商家中每个候选商家的复购率；

根据所述目标用户针对所述多个候选商家中每个候选商家的复购率，向所述目标用户推荐目标商家，所述目标商家为所述多个候选商家中的至少一个。

可选地，所述方法还包括构建复购率预测模型。

可选地，所述构建复购率预测模型，包括：

针对已下单的历史用户，获得该历史用户在从下单时间起的预设时间段内的商家浏览记录序列；

针对所述商家浏览记录序列中的每次商家浏览记录，建立该次商家浏览记录对应的训练样本，所述训练样本包括：该次商家浏览记录对应的商家特征、用户特征以及用户复购情况对应的奖励值、下一次商家浏览记录对应的商家特征和用户特征；

根据多次商家浏览记录各自对应的训练样本，构建训练样本集；

基于所述训练样本集，对预设强化学习模型进行训练，得到所述复购率预测模型。

可选地，所述方法还包括：

针对所述商家浏览记录序列中的每次商家浏览记录：

在所述历史用户针对该次商家浏览记录对应的商家下单的情况下，确定用户复购情况对应的奖励值是大于零的值；

在所述历史用户针对该次商家浏览记录对应的商家未下单的情况下，确定用户复购情况对应的奖励值是不大零的值。

可选地，在所述历史用户针对该次商家浏览记录对应的商家下单的情况下，确定用户复购情况对应的奖励值，包括：

在所述历史用户针对该次商家浏览记录对应的商家下单的情况下，确定该历史用户本次下单时间与上次下单时间的下单时间差；

根据所述下单时间差以及预设的奖励值函数，确定用户复购情况对应的奖励值，该奖励值与所述下单时间差呈负相关。

可选地，根据所述下单时间差以及预设的奖励值函数，确定用户复购情况对应的奖励值，包括：

按照以下公式确定用户复购情况对应的奖励值：

其中，r表示用户复购情况对应的奖励值，C表示调权系数，T表示所述下单时间差。

可选地，所述用户特征包括以下至少一者：用户的消费偏好、用户的地理位置、用户画像以及行为特征。

可选地，所述商家特征包括以下至少一者：商家ID、品类ID、配送时长、销量、满减额度以及客单价。

本申请实施例第二方面提供一种推荐商家的装置，所述装置包括：

特征获得模块，用于获得目标用户的用户特征和多个候选商家各自的商家特征；

复购率获得模块，用于将所述用户特征和所述多个商家特征输入复购率预测模型，得到所述目标用户针对所述多个候选商家中每个候选商家的复购率；

目标商家推荐模块，用于根据所述目标用户针对所述多个候选商家中每个候选商家的复购率，向所述目标用户推荐目标商家，所述目标商家为所述多个候选商家中的至少一个。

可选地，所述装置还包括：

模型构建模块，用于构建复购率预测模型。

可选地，所述模型构建模块包括：

商家浏览记录序列子模块，用于针对已下单的历史用户，获得该历史用户在从下单时间起的预设时间段内的商家浏览记录序列；

训练样本建立子模块，用于针对所述商家浏览记录序列中的每次商家浏览记录，建立该次商家浏览记录对应的训练样本，所述训练样本包括：该次商家浏览记录对应的商家特征、用户特征以及用户复购情况对应的奖励值、下一次商家浏览记录对应的商家特征和用户特征；

训练样本集构建子模块，用于根据多次商家浏览记录各自对应的训练样本，构建训练样本集；

模型训练子模块，用于基于所述训练样本集，对预设强化学习模型进行训练，得到所述复购率预测模型。

可选地，所述模型构建模块还包括：

奖励值确定子模块，用于针对所述商家浏览记录序列中的每次商家浏览记录，在所述历史用户针对该次商家浏览记录对应的商家下单的情况下，确定用户复购情况对应的奖励值是大于零的值；在所述历史用户针对该次商家浏览记录对应的商家未下单的情况下，确定用户复购情况对应的奖励值是不大零的值。

可选地，所述奖励值确定子模块包括：

下单时间差确定单元，用于在所述历史用户针对该次商家浏览记录对应的商家下单的情况下，确定该历史用户本次下单时间与上次下单时间的下单时间差；

奖励值确定单元，用于根据所述下单时间差以及预设的奖励值函数，确定用户复购情况对应的奖励值，该奖励值与所述下单时间差呈负相关。

可选地，所述奖励值确定单元包括：

奖励值确定子单元，用于按照以下公式确定用户复购情况对应的奖励值：

本申请实施例第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的方法的步骤。

采用本申请实施例提供的推荐商家的方法，首先获得目标用户的用户特征和多个候选商家各自的商家特征，然后将这些特征输入预先训练的复购率预测模型，得到目标用户针对多个候选商家中每个候选商家的复购率。其中，每个候选商家的复购率表征了该目标用户针对该候选商家的长远需求。复购率越高，该目标用户针对该候选商家的长远需求越大，目标用户针对该候选商家再次下单的概率越大。最后根据多个候选商家各自的复购率，向该目标用户推荐目标商家，从而满足用户的长远需求，提高服务端长期收益，并提高用户对服务端主页的长期操作效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的复购率预测模型的训练流程图；

图2是本申请一实施例提出的训练样本示意图；

图3是本申请一实施例提出的一种确定奖励值的方法示意图；

图4是本申请一实施例提出的推荐商家的方法的流程图；

图5是本申请一实施例提出的服务端与客户端的交互示意图；

图6是本申请一实施例提供的推荐商家的装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，均应属于本申请保护的范围。

在互联网技术领域，当通过浏览器或客户端用户进行服务端主页后，服务端会根据用户的历史浏览记录主动地向用户推荐商家信息，使用户在不执行搜索操作的情况下，快速地进入目标商家主页，提高用户操作效率。目前的服务端在向用户推荐商家信息时，通常是根据各商家信息的历史点击率和/或历史转化率，确定历史点击率和/或历史转化率较高的目标商家，并将目标商家的信息推荐给用户。然而，采用目前的这种推荐方式，向用户推荐的商家信息仅能满足服务端当前收益的最大化和用户当前操作效率的最大化，而不能满足服务端长期收益的最大化和用户长期操作效率的最大化。

有鉴于此，本申请实施例提出：首先获得目标用户的用户特征和多个候选商家各自的商家特征，然后根据这些特征确定目标用户针对多个候选商家中每个候选商家的复购率。最后根据多个候选商家各自的复购率，向该目标用户推荐目标商家，从而满足用户的长远需求，提高服务端长期收益，并提高用户对服务端主页的长期操作效率。

此外，为了更智能地实施本申请实施例提出的上述方法，本申请实施例首先针对预设强化学习模型搜集训练样本，构建训练样本集，最后基于该训练样本集，对该预设强化学习模型进行训练，得到复购率预测模型。其中，预设强化学习模型可以是相关技术中常用的模型。该复购率预测模型可用于执行本申请实施例提出的上述方法中的部分或全部步骤。

参考图1，图1是本申请一实施例提出的复购率预测模型的训练流程图。如图1所示，该训练流程包括以下步骤：

步骤S11：针对已下单的历史用户，获得该历史用户在从下单时间起的预设时间段内的商家浏览记录序列。

本实施例中，历史用户在从下单时间起的预设时间段内的商家浏览记录序列是指：以该历史用户的一次下单行为为起点，在预设时间段内，该历史用户连续多次进入服务端主页后，由服务端推送给该历史用户的商家信息，和/或，该历史用户主动搜索的商家信息所组成的商家信息序列。

商家浏览记录序列中的每次商家浏览记录除了包括商家信息外，还包括：该商家信息被浏览时或者被推送时的时间戳、以及用户针对该商家信息对应的商家是否下单的标记。

示例地，假设某一历史用户在4月16日产生了下单行为，以4月16日为起点，以15天为预设时间段，参考表1，表1示意性地示出了该历史用户的商家浏览记录序列。

表1历史用户的商家浏览记录序列表

序号	时间	商家信息	是否下单
				1	4月17日11点23分	c商家	未下单
2	4月17日11点25分	b商家	下单
				3	4月21日11点49分	c商家	未下单
4	4月22日18点33分	d商家	未下单
				5	4月26日11点19分	e商家	未下单
6	4月26日11点24分	d商家	下单
				7	4月29日12点07分	b商家	下单
8	5月1日18点51分	f商家	未下单
				9	5月1日19点15分	f商家	下单

表1中的每一行代表一次商家浏览记录，以表1中的第一行为例，其表示该历史用户在4月17日11点23分浏览了或被推送了c商家信息，该历史用户没有在c商家下单。

步骤S12：针对所述商家浏览记录序列中的每次商家浏览记录，建立该次商家浏览记录对应的训练样本，所述训练样本包括：该次商家浏览记录对应的商家特征、用户特征以及用户复购情况对应的奖励值、下一次商家浏览记录对应的商家特征和用户特征。

参考图2，图2是本申请一实施例提出的训练样本示意图。如图2所示，其中s表示用户特征，a表示商家特征，r表示奖励值。以图2中的第一个训练样本为例进行说明：其中s1表示第一个商家浏览记录对应的用户特征，a1表示第一个商家浏览记录对应的商家特征，r1表示第一个商家浏览记录中用户复购情况对应的奖励值，s2表示第二个商家浏览记录对应的用户特征，a2表示第二个商家浏览记录对应的商家特征。

沿用上述表1，以表1中的第2个商家浏览记录为例进行说明：该商家浏览记录对应的训练样本包括：在4月17日11点25分时b商家的商家特征、在4月17日11点25分时该历史用户的用户特征、该历史用户的下单行为所对应的奖励值、在4月21日11点49分时c商家的商家特征、以及在4月21日11点49分时该历史用户的用户特征。

本实施例中，商家特征可以包括以下至少一者：商家ID、品类ID、配送时长、销量、满减额度以及客单价。具体地，商家特征可以是上述几者的向量化表示，如词向量。

本实施例中，用户特征可以包括以下至少一者：用户的消费偏好、用户的地理位置、用户画像以及行为特征。具体地，用户特征可以是上述几者的向量化表示，如词向量。

其中，用户的消费偏好是指用户对商品类别的偏好，以外卖业务为例，用户的消费偏好可以是用户的口味偏好。用户画像是指从海量的用户数据中抽取出的用户属性信息，该用户属性信息可以包括以下信息中的一种或多种：性别、职业、年龄段、收入水平、婚育情况、教育程度等基础属性，APP使用频率、下单概率等行为属性，以及外卖偏好、电影偏好、商品偏好等兴趣属性。用户的行为特征可以是指用户多次浏览商家信息时的下单率、用户使用客户端的频率、用户使用优惠券的概率等等。

本实施例中，在针对每次商家浏览记录，建立该次商家浏览记录对应的训练样本时，可以从缓存的日志中获得该次商家浏览记录对应时间的商家特征和用户特征，以及从缓存的日志中获得下次商家浏览记录对应时间的商家特征和用户特征。

或者，在该历史用户于4月16日产生了下单行为后，在执行步骤S11时，针对该历史用户的每次商家浏览，记录当时的商家特征和用户特征，并将记录的商家特征和用户特征作为该次商家浏览记录中的部分信息。如此，在针对每次商家浏览记录，建立该次商家浏览记录对应的训练样本时，直接从该次商家浏览记录中读取商家特征和用户特征，并从下次商家浏览记录中读取商家特征和用户特征。

本实施例中，用户复购情况对应的奖励值，用于表征历史用户针对商家浏览记录中的商家是否下单。本申请在实施期间，如果历史用户针对商家浏览记录中的商家产生了下单行为，则对应的奖励值是一个较大的数值。如果历史用户针对商家浏览记录中的商家未产生下单行为，则对应的奖励值是一个较小的数值。

本实施例中，针对所述商家浏览记录序列中的每次商家浏览记录，建立其训练样本时，为了确定该训练样本中的奖励值，一种可行的实施方式是：针对所述商家浏览记录序列中的每次商家浏览记录：在所述历史用户针对该次商家浏览记录对应的商家下单的情况下，确定用户复购情况对应的奖励值是大于零的值；在所述历史用户针对该次商家浏览记录对应的商家未下单的情况下，确定用户复购情况对应的奖励值是不大零的值。

示例地，沿用上述表1，其中序号为1、3、4、5或8的商家浏览记录对应的训练样本中的奖励值不大于0，序号为2、6、7或9的商家浏览记录对应的训练样本中的奖励值大于0。

其中，在历史用户针对某次商家浏览记录对应的商家下单的情况下，确定奖励值的具体方式可参考图3，图3是本申请一实施例提出的一种确定奖励值的方法示意图。如图3所示，该确定奖励值的方法包括以下步骤：

步骤S12-1：在所述历史用户针对该次商家浏览记录对应的商家下单的情况下，确定该历史用户本次下单时间与上次下单时间的下单时间差；

步骤S12-2：根据所述下单时间差以及预设的奖励值函数，确定用户复购情况对应的奖励值，该奖励值与所述下单时间差呈负相关。

示例地，沿用上述表1，在序号为2的商家浏览记录中记录了历史用户的下单行为，该下单行为的下单时间(4月17日)与上次下单时间(4月16日)的时间差为1天。在序号为6的商家浏览记录中记录了历史用户的下单行为，该下单行为的下单时间(4月26日)与上次下单时间(4月17日)的时间差为9天。在经过上述步骤S12-2后，序号为2的商家浏览记录对应的训练样本中的奖励值大于序号为6的商家浏览记录对应的训练样本中的奖励值。

其中，奖励值函数可以形如：r＝C/(T+1)，其中r表示用户复购情况对应的奖励值，C表示调权系数，T表示所述下单时间差。调权系数C是一个大于0的正数，调权系数可根据训练需要进行手动更改。下单时间差的单位可以是分、小时、天等等，本申请对此不做限定。

通过以上述步骤S12-1和步骤S12-2的方式确定奖励值，得到的奖励值不仅表征了历史用户是否复购(即下单)，还表征了复购间隔时间。利用包括该奖励值的训练样本对强化学习模型进行训练，可以使训练所得的复购率预测模型不仅能针对用户的长远需求推荐商家信息，提高用户复购概率，帮助用户减少主动搜索、浏览的时间。该复购率预测模型还能区分出复购间隔长短因素，可以推荐使用户复购时间更短的商家，提高用户的下单频次，从而进一步提高推荐准确性，并进一步提高用户操作效率。

步骤S13：根据多次商家浏览记录各自对应的训练样本，构建训练样本集。

本实施例中，训练样本集中包括多次商家浏览记录各自对应的训练样本，并且多个训练样本按照各自对应的商家浏览记录时间进行排序。如图2所示，训练样本1至训练样本4组成一个训练样本集，该训练样本集中各训练样本按照时间先后的排序为：训练样本1、训练样本2、训练样本3以及训练样本4。

步骤S14：基于所述训练样本集，对预设强化学习模型进行训练，得到所述复购率预测模型。

本实施例中，基于训练样本集，对预设强化学习模型进行训练，得到复购率预测模型。其中，预设强化学习模型可以是DQN(Deep Q Network；深度Q网络)模型、DDPG(DeepDeterministic Policy Gradient；深度确定性策略梯度)模型或者DDQN(Double DQN；双重深度Q网络)模型等。该复购率预测模型可作为一种可选手段，用于执行本申请实施例提出的上述方法中的部分或全部步骤。

参考图4，图4是本申请一实施例提出的推荐商家的方法的流程图。如图4所示，该方法包括以下步骤：

步骤S41：获得目标用户的用户特征和多个候选商家各自的商家特征。

其中，用户特征包括以下至少一者：用户的消费偏好、用户的地理位置、用户画像以及行为特征。用户特征可以是上述几者中至少一者的抽象化表达，例如词向量。商家特征包括以下至少一者：商家ID、品类ID、配送时长、销量、满减额度以及客单价。商家特征可以是上述几者中至少一者的抽象化表达，例如词向量。

其中，目标用户可以是指：正在打开客户端的用户，或者正在通过浏览器进入服务端主页的用户。以外卖类服务端为例，该服务端同时面向大量的用户，部分用户的终端设备上安装有外卖客户端，部分用户的终端设备上安装有浏览器。由于该外卖类服务端的用户访问并发量较大，在某一时刻，该外卖类服务端可能会同时存在多个目标用户，其中一部分目标用户正在打开外卖类客户端，另一部分目标用户正在通过浏览器进入该外卖类服务端主页。该外卖类服务端针对每个目标用户，分别执行上述步骤S41、下述步骤S42以及下述步骤S43。

候选商家可以是指：针对该目标用户，通过现有的筛选方式所筛选出的多个商家。例如根据配送距离、用户口味、销量、历史评价、或广告竞拍等方式筛选出的多个商家。

步骤S42：将所述用户特征和所述多个商家特征输入复购率预测模型，得到所述目标用户针对所述多个候选商家中每个候选商家的复购率。

其中，复购率预测模型可以是通过上述步骤S11至步骤S14的方式训练得到的复购率预测模型，也可以是通过其他方式训练得到的复购率预测模型，本步骤对复购率预测模型的来源和训练方式不做限定。

本实施例中，可以将用户特征和多个商家特征一对一组合，形成多个特征组合，每个特征组合中包括该用户特征和一个候选商家的商家特征。然后依次将多个特征组合输入复购率预测模型，得到该复购率预测模型针对每个特征组合输出的复购率，该复购率表征目标用户针对该特征组合对应候选商家的长远需求。复购率越高，该目标用户针对该候选商家的长远需求越大，目标用户针对该候选商家的下单概率越大。

步骤S43：根据所述目标用户针对所述多个候选商家中每个候选商家的复购率，向所述目标用户推荐目标商家，所述目标商家为所述多个候选商家中的至少一个。

示例地，可以直接将多个候选商家中复购率最大的候选商家作为目标商家，推荐给目标用户。

或者，为了增加推荐的探索性，可以根据多个候选商家的复购率，确定每个候选商家的推荐概率，然后以每个候选商家的推荐概率向目标用户推荐该候选商家。例如，候选商家A、B、C各自对应的复购率分别为：0.2、0.6、0.4，则商家A的推荐概率等于0.2/(0.2+0.6+0.4)＝0.17，商家B的推荐概率等于0.6/(0.2+0.6+0.4)＝0.50，商家C的推荐概率等于0.4/(0.2+0.6+0.4)＝0.33。如此，在向目标用户推荐候选商家时，以0.17的概率推荐商家A，以0.5的概率推荐商家B，以0.33的概率推荐商家C。换言之，每个候选商家都有被推荐的可能性，各候选商家被推荐的可能性按照大小排序为：商家B、商家C以及商家A。

或者，在确定每个候选商家的复购率后，还可以根据每个候选商家的其他考虑因素，例如配送距离、用户口味、销量、历史评价、广告竞价、点击率(CTR)、或转化率(CVR)等，综合确定目标商家。

通过执行上述包括步骤S41至步骤S43的推荐商家的方法，首先获得目标用户的用户特征和多个候选商家各自的商家特征，然后将这些特征输入预先训练的复购率预测模型，得到目标用户针对多个候选商家中每个候选商家的复购率。其中，每个候选商家的复购率表征了该目标用户针对该候选商家的长远需求。复购率越高，该目标用户针对该候选商家的长远需求越大，目标用户针对该候选商家的下单概率越大。最后根据多个候选商家各自的复购率，向该目标用户推荐目标商家，从而满足用户的长远需求，提高服务端长期收益，并提高用户对服务端主页的长期操作效率。

参考图5，图5是本申请一实施例提出的服务端与客户端的交互示意图。图5中所示的服务端用于实施以上任一方法实施例中的推荐商家的方法。如图5所示：

服务端主要包括数据存储模块和商家推荐模块。其中，数据存储模块中存储有用户下单日志、用户点击日志、以及商家曝光日志，还存储有商家特征和用户特征。商家推荐模块中包括复购率预测模型和投放服务接口。其中复购率预测模型用于接收目标用户的用户特征和候选商家的商家特征，并输出该目标用户针对该候选商家的复购率。投放服务接口将候选商家中的目标商家信息输出给客户端，并接收客户端针对目标商家的点击、下单等行为。

具体地，如图5所示，数据存储模块依次通过分布式发布订阅消息***Kafka和流处理框架Storm将用户下单日志、用户点击日志、以及商家曝光日志等日志信息送入KV(key-value)模块，数据存储模块依次通过数据仓库工具HIVE和分布式计算模型MapReduce将用户特征和商家特征送入KV模块。如此，该KV模块中存在多个由用户特征和商家特征构成的键值对。在线上应用时，复购率预测模型从KV模块中读取目标用户的用户特征和候选商家的商家特征，从而输出候选商家的复购率。

此外，如图5所示，客户端还将用户的点击行为、下单行为等信息发送给数据存储模块，使得数据存储模块依据点击行为、下单行为等信息生成用户下单日志和用户点击日志。服务端该依据用户下单日志、用户点击日志、以及商家曝光日志等日志信息，构建训练样本集，用于对复购率预测模型进行训练更新。

基于同一发明构思，本申请一实施例提供一种推荐商家的装置。参考图6，图6是本申请一实施例提供的推荐商家的装置的示意图。如图6所示，该装置包括：

特征获得模块61，用于获得目标用户的用户特征和多个候选商家各自的商家特征；

复购率获得模块62，用于将所述用户特征和所述多个商家特征输入复购率预测模型，得到所述目标用户针对所述多个候选商家中每个候选商家的复购率；

目标商家推荐模块63，用于根据所述目标用户针对所述多个候选商家中每个候选商家的复购率，向所述目标用户推荐目标商家，所述目标商家为所述多个候选商家中的至少一个。

在一种可能的实施方式中，所述装置还包括：

模型构建模块，用于构建复购率预测模型。

在一种可能的实施方式中，所述模型构建模块包括：

在一种可能的实施方式中，所述模型构建模块还包括：

在一种可能的实施方式中，所述奖励值确定子模块包括：

在一种可能的实施方式中，所述奖励值确定单元包括：

在一种可能的实施方式中，所述用户特征包括以下至少一者：用户的消费偏好、用户的地理位置、用户画像以及行为特征。

在一种可能的实施方式中，所述商家特征包括以下至少一者：商家ID、品类ID、配送时长、销量、满减额度以及客单价。

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种推荐商家的方法、装置、电子设备及可读存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种推荐商家的方法，其特征在于，包括：

获得目标用户的用户特征和多个候选商家各自的商家特征；

2.根据权利要求1所述的方法，其特征在于，还包括构建复购率预测模型。

3.根据权利要求2所述的方法，其特征在于，所述构建复购率预测模型，包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

针对所述商家浏览记录序列中的每次商家浏览记录：

5.根据权利要求4所述的方法，其特征在于，在所述历史用户针对该次商家浏览记录对应的商家下单的情况下，确定用户复购情况对应的奖励值，包括：

6.根据权利要求5所述的方法，其特征在于，根据所述下单时间差以及预设的奖励值函数，确定用户复购情况对应的奖励值，包括：

按照以下公式确定用户复购情况对应的奖励值：

7.根据权利要求1-6任一所述的方法，其特征在于，所述用户特征包括以下至少一者：用户的消费偏好、用户的地理位置、用户画像以及行为特征。

8.根据权利要求1-6任一所述的方法，其特征在于，所述商家特征包括以下至少一者：商家ID、品类ID、配送时长、销量、满减额度以及客单价。

9.一种推荐商家的装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1至8任一所述的方法中的步骤。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1至8任一所述的方法的步骤。