CN110874777A

CN110874777A - 一种订单处理方法及装置

Info

Publication number: CN110874777A
Application number: CN201811004224.4A
Authority: CN
Inventors: 张逾; 罗强
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2020-03-10

Abstract

本申请提供了一种订单处理方法及装置，其中，该方法包括：生成包含有不同订单的订单列表，并将订单列表中的订单排布信息输入预先训练的策略调整模型，得到对订单列表的订单排布状态进行调整的调整策略，进一步地基于调整策略对订单列表的订单排布状态进行调整，并将调整后的订单列表发送给服务方客户端，其中调整后的订单列表中包含待选的目标订单。采用上述方式，可以以提升整体接单率等业务需求为目的，训练得到策略调整模型，进而利用策略调整模型确定出调整策略来调整订单列表的订单排列状态，后续服务方客户端从调整后的订单列表中选择订单后可以达到整体接单率更优的目的。

Description

一种订单处理方法及装置

技术领域

本申请涉及计算机处理技术领域，具体而言，涉及一种订单处理方法及装置。

背景技术

随着互联网的快速发展和普及，越来越多的互联网产品应用到人们的日常生活中，例如当前较为流行的打车平台、订餐平台等。以打车平台为例，目前越来越多的用户可以使用打车客户端进行叫车或拼车。以拼车场景为例，业务服务器可以接收用户方客户端发送的乘车请求并生成记录有出行路线信息的乘车订单，之后可以将生成的若干个乘车订单推送给每个司机使用的服务方客户端，由司机从中选择合适的乘车订单。

然而，由于每个司机的行驶路线存在区别，每个司机可选择的乘车订单也不相同，故可能出现有些司机可选择的乘车订单较多，而有些司机可选择的乘车订单较少的情况，并且，还可能出现不同司机可选择的乘车订单之间存在相同的乘车订单的情况。这种情况下，服务方客户端选择订单时，可能会发生冲突，例如，可选择订单数量较多的服务方客户端将可选择订单数量较少的服务方客户端中的某个订单选走，使得可选择订单数量较少的服务方客户端没有订单可供选择。由此可见，可能出现因选择订单时存在冲突等因素的影响，导致平台整体接单率下降、司机利用率较低的问题。

发明内容

有鉴于此，本申请实施例的目的在于提供一种订单处理方法及装置，以实现提升平台整体接单率、提升司机利用率的目的。

主要包括以下方面：

第一方面，本申请实施例提供了一种订单处理方法，包括：

生成包含有不同订单的订单列表；

将所述订单列表中的订单排布信息输入预先训练的策略调整模型，得到对所述订单列表的订单排布状态进行调整的调整策略；

基于所述调整策略对所述订单列表的订单排布状态进行调整，并将调整后的订单列表发送给服务方客户端；其中，所述调整后的订单列表中包含待选的目标订单。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，根据以下方式训练得到所述策略调整模型：

获取不同历史订单列表，将所述不同历史订单列表中的订单排布信息作为训练集；

将所述训练集中各历史订单列表中的订单排布信息输入至预设的基础模型，得到对每个历史订单列表的订单排布状态进行调整的调整策略；

在按照每个历史订单列表对应的调整策略分别调整每个历史订单列表的订单排布状态之后，确定执行调整策略得到的奖励值；

若确定的奖励值不满足预设的收敛条件时，调整所述基础模型，并利用调整后的基础模型重新确定每个历史订单列表对应的调整策略，直至执行调整策略得到的奖励值满足所述收敛条件时，将调整后的基础模型确定为所述策略调整模型。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述不同历史订单列表中的订单排布信息包括以下信息中的至少一种：

每个历史订单列表中包含的订单的数量；

每个历史订单列表中各订单的排列顺序；

每个历史订单列表中各订单分别与所述服务方客户端的接单条件之间的匹配度；

同一个订单在所述不同历史订单列表中的出现次数。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第三种可能的实施方式，其中，所述对每个历史订单列表的订单排布状态进行调整的调整策略包括以下策略中的至少一种：

是否从每个历史订单列表中删除的订单、以及删除的订单的数量；

是否对每个历史订单列表中订单的排列顺序进行调整、以及调整后每个历史订单列表中订单的排列顺序。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式或第三种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，所述在按照每个历史订单列表对应的调整策略分别调整每个历史订单列表的订单排布状态之后，确定执行调整策略得到的奖励值，包括：

在按照每个历史订单列表对应的调整策略分别调整每个历史订单列表的订单排布状态之后，确定针对调整后的每个历史订单列表执行的选择订单行为；

在执行所述选择订单行为之后，计算本轮训练的整体接单率；

若所述本轮训练的整体接单率低于上一轮训练的整体接单率时，在上一轮训练得到的奖励值的基础上降低奖励值；

若所述本轮训练的整体接单率高于上一轮训练的整体接单率时，在上一轮训练得到的奖励值的基础上增加奖励值。

结合第一方面，本申请实施例提供了第一方面的第五种可能的实施方式，其中，基于所述调整策略对所述订单列表的订单排布状态进行调整，包括：

确定所述订单列表中待删除的选定订单，并将所述选定订单从所述订单列表中删除。

结合第一方面的第五种可能的实施方式，本申请实施例提供了第一方面的第六种可能的实施方式，其中，所述选定订单为所述订单列表中前N个订单，N为正整数。

结合第一方面，本申请实施例提供了第一方面的第七种可能的实施方式，其中，所述基于所述调整策略对所述订单列表的订单排布状态进行调整，包括：

确定所述订单列表中的订单的排列顺序，并将从所述订单列表按照确定的排列顺序进行排序。

结合第一方面的第七种可能的实施方式，本申请实施例提供了第一方面的第八种可能的实施方式，其中，所述确定所述订单列表中的订单的排列顺序，包括：

确定所述订单列表中前M个订单的排列顺序，M为正整数。

结合第一方面，本申请实施例提供了第一方面的第九种可能的实施方式，其中，所述方法还包括：

接收不同的用户方客户端发送的订单请求；

基于接收来自不同的用户方客户端的订单请求，生成不同订单请求分别对应的订单；

所述生成包含有不同订单的订单列表，包括：

从所述不同订单请求分别对应的订单中筛选出符合所述服务方客户端的接单条件的订单；

将筛选出的符合所述服务方客户端的接单条件的订单，确定为所述订单列表中的订单。

结合第一方面第九种可能的实施方式，本申请实施例提供了第一方面的第十种可能的实施方式，其中，所述从所述不同订单请求分别对应的订单中筛选出符合所述服务方客户端的接单条件的订单，包括：

计算所述不同订单请求分别对应的订单与所述服务方客户端的接单条件之间的匹配度；

将计算出的匹配度大于预设值的订单确定为符合所述服务方客户端的接单条件的订单。

第二方面，本申请实施例提供了一种订单处理装置，包括：

生成模块，用于生成包含有不同订单的订单列表；

策略确定模块，用于将所述订单列表中的订单排布信息输入预先训练的策略调整模型，得到对所述订单列表的订单排布状态进行调整的调整策略；

调整模块，用于基于所述调整策略对所述订单列表的订单排布状态进行调整；

发送模块，用于将调整后的订单列表发送给服务方客户端；其中，所述调整后的订单列表中包含待选的目标订单。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中，所述装置还包括模型训练模块；

所述模型训练模块，用于根据以下方式训练得到所述策略调整模型：

结合第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第二种可能的实施方式，其中，所述不同历史订单列表中的订单排布信息包括以下信息中的至少一种：

每个历史订单列表中包含的订单的数量；

每个历史订单列表中各订单的排列顺序；

同一个订单在所述不同历史订单列表中的出现次数。

结合第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第三种可能的实施方式，其中，所述对每个历史订单列表的订单排布状态进行调整的调整策略包括以下策略中的至少一种：

结合第二方面的第一种可能的实施方式或第二种可能的实施方式或第三种可能的实施方式，本申请实施例提供了第二方面的第四种可能的实施方式，其中，所述模型训练模块，在按照每个历史订单列表对应的调整策略分别调整每个历史订单列表的订单排布状态之后，确定执行调整策略得到的奖励值时，具体用于：

结合第二方面，本申请实施例提供了第二方面的第五种可能的实施方式，其中，所述调整模块，具体用于：

结合第二方面的第五种可能的实施方式，本申请实施例提供了第二方面的第六种可能的实施方式，其中，所述选定订单为所述订单列表中前N个订单，N为正整数。

结合第二方面，本申请实施例提供了第二方面的第七种可能的实施方式，其中，所述调整模块，具体用于：

结合第二方面的第七种可能的实施方式，本申请实施例提供了第二方面的第八种可能的实施方式，其中，所述调整模块，在确定所述订单列表中的订单的排列顺序时，具体用于：

确定所述订单列表中前M个订单的排列顺序，M为正整数。

结合第二方面，本申请实施例提供了第二方面的第九种可能的实施方式，其中，所述装置还包括：

接收模块，用于接收不同的用户方客户端发送的订单请求；

所述生成模块，还用于：

所述生成模块，在生成包含有不同订单的订单列表时，具体用于：

结合第二方面第九种可能的实施方式，本申请实施例提供了第二方面的第十种可能的实施方式，其中，所述生成模块，在从所述不同订单请求分别对应的订单中筛选出符合所述服务方客户端的接单条件的订单时，具体用于：

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面的第一至十任一种可能的实施方式中所述的订单处理方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面的第一至十任一种可能的实施方式中所述的订单处理方法的步骤。

本申请实施例中，生成包含有不同订单的订单列表之后，可以根据预先训练的策略调整模型、订单列表的订单排布信息来确定调整策略，进而调整订单列表中的订单排布状态，将调整后的订单列表推送至服务方客户端。其中，本申请可以基于不同的业务需求训练得到策略调整模型，之后基于策略调整模型来调整订单列表中的订单排布状态，可以使得推送至服务客户端的订单列表更好地满足业务需求。例如，针对拼车场景，以提升整体接单率或订单完成率为目的可以训练得到策略调整模型，使用该策略调整模型来调整订单列表中的订单排布状态之后，后续司机在从调整后得到的订单列表中选择目标订单时，可以使得整体接单率上升，或，整体订单完成率上升等。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种可能的应用场景的示意图；

图2示出了本申请实施例提供的一种订单处理方法的流程示意图；

图3示出了本申请实施例提供的一种拼车场景下司机与订单之间的匹配关系的示意图一；

图4示出了本申请实施例提供的一种拼车场景下司机与订单之间的匹配关系的示意图二；

图5示出了本申请实施例提供的一种拼车场景下司机与订单之间的匹配关系的示意图三；

图6示出了本申请实施例提供的对策略调整模型进行训练的流程示意图；

图7示出了本申请实施例提供的订单处理装置的结构示意图；

图8示出了本申请实施例提供的电子装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行说明。参照图1所示，为本申请提供的一种可能的应用场景的示意图，包括业务服务器、服务方客户端(比如司机使用的客户端)A1～An、以及用户方客户端(比如乘客使用的客户端)B1～Bm等。其中，业务服务器可以与服务方客户端、以及用户方客户端之间分别建立通信连接，并基于建立的通信连接传输数据等。例如，以打车业务中的拼车场景为例，打车平台的业务服务器可以与用户方客户端建立通信连接，接收用户方客户端发送的乘车请求并生成记录有出行路线信息的订单。并且，业务服务器还可以与司机使用的服务方客户端建立通信连接，从生成的订单中选择若干个订单推送给服务方客户端，以便司机从推送的订单中选择目标订单。

考虑到在拼车等类似的场景下，由于不同司机的行驶路线存在区别，推送给每个司机的订单一般也不相同，故可能出现有些司机可选择的订单较多，而有些司机可选择的订单较少的情况，并且，还可能出现不同司机可选择的订单之间存在相同的订单的情况。这种情况下，服务方客户端选择订单时可能会发生冲突，而订单选择上的冲突，可能对打车平台的整体接单率带来影响，使得平台整体接单率下降，司机利用率较低。

例如，假设司机A、司机B、司机C的订单列表中都显示了订单1且司机A的订单列表中的订单较多，而司机B和司机C的订单列表中的订单较少，若司机A选择了订单1，那么可能造成司机B和司机C无单可选，故只有司机A的接单概率较大，而司机B和司机C的接单概率较少。但是，如果司机A不选择订单1而选择了其它订单列表中的其它订单，那么，可以提高司机B和司机C的接单概率。由此可见，如果出现订单选择上的冲突可能使得平台整体接单率下降。

另外，若司机A选择了订单1，但是用户又取消了订单1，这种情况下，不仅影响了司机A的订单完成率，也会间接地对司机B和司机C的订单完成率带来影响。由此可见，出现上述订单选择上的冲突时，也可能对平台整体订单完成率带来影响，使得订单完成率下降。

针对上述问题，本申请提供了一种订单处理方法及装置，可以通过强化学习算法训练得到满足不同的业务需求的策略调整模型，例如，在拼车场景下，以提升整体接单率或订单完成率为需求，利用强化学习算法预先训练策略调整模型，使用预先训练的策略调整模型确定出调整策略并对订单列表进行调整之后，后续司机在服务方客户端上从调整后的订单列表中选择目标订单时，能够使得整体接单率上升或整体订单完成率上升等。

下面，结合具体实施例对本申请提供的技术方案进行详细说明。需要说明的是，上述拼车场景仅作为本申请列举出的一种可适用的应用场景，以便于对本申请进行更好的理解和说明，但本申请并不限定于应用在上述场景，还可以在其它任何需要业务服务器推送订单、由服务方客户端选择订单的应用场景中，例如订餐场景等。

实施例一

参照图2所示，为本申请实施例提供的一种订单处理方法的流程示意图，包括以下步骤：

步骤201、生成包含有不同订单的订单列表。

具体实施中，业务服务器可以接收来自不同的用户方客户端发送的订单请求，并可以基于来自不同的用户方客户端的订单请求，生成不同订单请求对应的订单。进一步地，业务服务器可以从不同订单请求分别对应的订单中筛选出符合服务方客户端的接单条件的订单，并将筛选出的符合服务方客户端的接单条件的订单，确定为订单列表中的订单。

其中，针对不同的应用场景，生成的订单有所区别，相应地，服务方客户端的接单条件也有所区别。例如，在打车场景下，生成的订单即为乘车订单，订单内容例如包括乘车的起始位置、以及终点位置等，相应的，服务方客户端的接单条件例如为乘车路线与司机的行驶路线的匹配程度、或司机所在位置距离乘车的起始位置之间的最大距离范围等。再例如，在订餐场景下，生成的订单即为送餐订单，订单内容包括餐厅地址、以及订餐人地址等，相应的，服务方客户端的接单条件例如为送餐人的接单范围等。

其中，在从不同订单请求分别对应的订单中筛选出符合服务方客户端的接单条件的订单时，可以分析不同订单请求分别对应的订单是否符合服务方客户端的接单条件，若符合则可以作为推送给服务方客户端的候选订单，若不符合则不可以作为推送给服务方客户端的候选订单。其中，业务服务器可以预先从服务方客户端中获取到服务方客户端的接单条件，例如，在打车场景下，可以由司机在服务方客户端中输入行驶路线，然后服务方客户端将司机输入的行驶路线上传至业务服务器。

一示例中，在筛选符合服务方客户端的接单条件的订单时，可以计算不同订单请求分别对应的订单与服务方客户端的接单条件之间的匹配度，将计算出的匹配度大于预设值的订单确定为符合服务方客户端的接单条件的订单。例如，在拼车场景下，针对每一个订单请求对应的订单，可以基于该订单中包含的乘车起始位置以及终点位置，确定乘车路线，然后将乘车路线与服务方客户端的行驶路线进行匹配，如果乘车路线与行驶路线之间的匹配度大于预设值时，可以将该订单确定为符合服务方客户端的接单条件的订单。

当然，实际应用中，随着应用场景的不同，订单内容以及服务方客户端的接单条件也会随之改变，相应地，筛选符合服务方客户端的接单条件的订单的方式也会做出适应调整，本申请对此并不限定。

步骤202、将订单列表中的订单排布信息输入预先训练的策略调整模型，得到对订单列表的订单排布状态进行调整的调整策略。

本申请实施例中，生成订单列表时，订单列表的初始订单排布状态可以是无规则的，也可以是基于某种规则来排布的。例如，根据每个订单的生成时间，来排布订单列表中的各个订单，或者，根据每个订单与服务方客户端的接单条件之间的匹配度，来排布订单列表中的各个订单。

考虑到订单列表的排布状态可能会影响服务方客户端的接单情况，故可以提取订单列表的订单排布信息，并将订单列表的订单排布信息输入至预先训练的策略调整模型，确定对订单列表的订单排布状态进行调整的调整策略，以便将调整后的订单列表推送给服务方客户端时，可以满足较佳的业务需求，例如满足提升接单率的需求等。其中，关于策略调整模型的训练过程将在后文提供的实施例中详细说明，这里暂不介绍。

具体的，从订单列表中提取出的订单排布信息例如可以包括以下信息中的至少一种：

订单列表中包含的订单的数量；

订单列表中各订单的排列顺序；

订单列表中各订单分别与服务方客户端的接单条件之间的匹配度，例如各订单中指示的乘车路线与服务方客户端的出行路线之间的匹配度等；

同一个订单在不同订单列表中的出现次数，例如，针对订单列表A中的订单1，若订单1还包含在订单列表B、订单列表C中，那么订单1在不同订单列表中的出现次数即为3次。

当然，上述订单排布信息并不限定于此，还可以根据不同的应用场景，提取不同的订单排布信息。例如，如果在服务方客户端的显示界面展示订单列表中的订单的方式为从订单列表中的首个订单开始依次进行展示，那么，在订单列表中排列在前的若干个订单被服务方客户端所选择的概率较高，故可以着重关注订单列表中排列在前的若干个订单，提取的订单排布信息中还可以包括订单列表中排列在前的若干个订单的信息等。此外，订单排布信息中还可以包括服务方客户端的使用者的个性化信息等。例如，若服务方客户端的使用者为司机时，个性化信息例如可以包括接单总量、驾驶总里程、司机的业务评价分数等。

具体的，基于预先训练的策略调整模型确定出的对订单列表的订单排布状态进行调整的调整策略例如可以包括以下策略中的至少一种：是否从订单列表中删除订单、删除订单的数量、从订单列表中删除哪些订单、是否对订单列表中的订单的排列顺序进行调整、调整哪些订单的排列顺序、调整后订单列表中订单的排列顺序等。

步骤203、基于调整策略对订单列表的订单排布状态进行调整。

本申请实施例中，鉴于确定出的调整策略的不同，基于调整策略对订单列表的订单排布状态进行调整的方式有多种。并且，结合上文的说明可知，如果在服务方客户端的显示界面展示订单列表中的订单的方式为从订单列表中的首个订单开始依次进行展示，那么，在订单列表中排列在前的若干个订单被服务方客户端所选择的概率较高，订单列表中排列在前的若干个订单可能对整体接单率或订单完成率的影响较大，故这里在对订单列表的订单状态进行调整时，也可以优先调整订单列表中排列在前的若干个订单。下面示例性列举出两种方式：

方式一：确定订单列表中待删除的选定订单，并将选定订单从订单列表中删除。

具体的，在确定订单列表中待删除的选定订单时，也可以选取订单列表中前N个订单作为选定订单，其中N为正整数。

例如，假设在对订单列表进行调整之前，订单列表A中从前到后依次排列有订单1、订单2、订单3、订单4，若订单列表A的调整策略为删除订单列表A中的第一个订单，即删除订单1，那么调整后的订单列表中从前到后依次排列有订单2、订单3、订单4。

方式二：确定订单列表中的订单的排列顺序，并将从订单列表按照确定的排列顺序进行排序。

具体的，在确定订单列表中的订单的排列顺序时，也可以对订单列表中前M个订单的排列顺序进行调整，其中M为正整数。

例如，假设在对订单列表进行调整之前，订单列表A中从前到后依次排列有订单1、订单2、订单3、订单4，若订单列表A的调整策略为将订单列表A中排列在最前端的两个订单移动至订单列表A的最后端，那么调整后的订单列表中从前到后依次排列有订单3、订单4、订单1、订单2。

步骤204、将调整后的订单列表发送给服务方客户端，其中，调整后的订单列表中包含待选的目标订单。

本申请实施例中，鉴于上述调整策略对订单列表进行调整之后，将调整后的订单列表展示给服务方客户端时，服务方客户端在从订单列表中选择目标订单之后，可以使得平台整体接单量提升或订单完成率提升。

实施例二

考虑到订单列表的订单排布状态可能会影响服务方客户端的接单情况，例如，如果订单列表A1中排列在第一位的订单1与服务方客户端B1的接单情况匹配程度较高，那么订单1被选择的概率就会很大，进一步地，若订单1也出现在推送给服务方客户端A2的订单列表B2、以及服务方客户端A3的订单列表B3中，但是订单1在订单列表B2和订单列表B3中的排列位置并不是第一位，这时，订单1很可能被服务方客户端B1选走。这种情况下，会对服务方客户端B2、服务方客户端B3的接单情况带来影响。

针对上述现象，本申请中提出了一种订单处理方式，通过调整订单列表的订单排列状态，后续服务方客户端从调整后的订单列表中选择订单后可以达到接单率或订单完成率更优的目的。而为了实现上述目的，本申请中通过强化学习算法训练得到了一个策略调整模型，将生成的订单列表的订单排布状态输入至该策略调整模型中，该策略调整模型可以输出用于对订单列表的订单排布状态进行调整的调整策略。

为便于对本申请提供的技术方案的理解，在介绍基于强化学习算法对策略调整模型进行训练的具体过程之前，首先以一个简单的示例说明下本申请中强化学习算法的思路。

参照图3所示，为本申请实施例提供的一种拼车场景下司机与订单之间的匹配关系的示意图。其中，R1至R5分别表示五个司机，O1至O5分别表示五个订单，司机与订单之间连线上的数字表示司机的行驶路线与订单的乘车路线之间的匹配度，每个司机的订单列表上包含有与该司机有连接关系的订单。例如，以司机R1为例，司机R1的订单列表上包含订单O1和订单O2，其中，司机R1的行驶路线与订单O1的乘车路线之间的匹配度为O.85，司机R1的行驶路线与订单O2的乘车路线之间的匹配度为O.9，以此类推可知，司机R2的订单列表上包含订单O2、订单O3，司机R3的订单列表上包含订单O3、订单O4，司机R4的订单列表上包含订单O4，司机R5的订单列表上包含订单O4、订单O5。

若将上述各订单列表直接推送给各个司机使用的服务方客户端，那么各司机在从对应的订单列表中选择订单时，若司机R1在司机R2之前优先选择了订单O2，司机R3在司机R2之前优先选择了订单O3，那么司机R2就没有可选择的订单了，造成整体接单率较低。

若将各订单列表推动给各个司机使用的服务方客户端之前，先对各个订单列表进行调整，假设调整后的司机与订单之间的匹配关系的示意图如图4所示，将订单O2从司机R1的订单列表中删除、订单O3从司机R2的订单列表中删除，将订单O4从司机R3的订单列表中删除，那么经过上述调整后，司机R1的订单列表中包括订单O1、司机R2的订单列表中包括订单O2、司机R3的订单列表中包括订单O3、司机R4的订单列表中包括订单O4、司机R5的订单列表中包括订单O4、订单O5。

将上述调整后的各订单列表分别推送给司机R1至司机R5之后，司机R1选择订单O1作为目标订单，司机R2选择订单O2作为目标订单，司机R3选择订单O3作为目标订单，这些司机都有可以选择的订单。由此可见，使用上述调整策略，能够使得整体接单率提升，故上述调整策略是能够促进整体接单率提升的正确行为。

反之，若对各个订单列表进行调整，假设调整后的司机与订单之间的匹配关系的示意图如图5所示，将订单O1从司机R1的订单列表中删除、订单O3从司机R2的订单列表中删除，那么经过上述调整后，司机R1的订单列表中仅包括订单O2、司机R2的订单列表中也包括订单O2，这种调整策略下，司机R1和司机R2中其中一个司机选择了订单O2之后，另外一个司机必然没有可选择的订单。由此可见，使用上述调整策略，使得整体接单率下降，故上述调整策略是能够促进整体接单率下降的错误行为。

由上述图3至图5中的介绍可以看出，如果通过强化学习算法学习到用于调整订单列表中的订单排布状态的正确行为，那么利用正确行为来调整每一个订单列表时，可以促进整体接单率提升。

鉴于上述特点，本实施例提出了一种利用强化学习算法来训练策略调整模型的方案，以使利用训练好的策略调整模型确定出的调整策略，可以促进整体接单率上升，相应地，随着整体接单率的上升，也可以提升业务资源的利用率，如可支配的司机的利用率等。需要说明的是，本申请中将提升整体接单率作为目的来训练策略调整模型，仅为本申请中的一示例，实际应用中还可以根据不同的业务需求来训练策略调整模型，使其确定出的调整策略能够满足业务需求。

具体的，强化学习算法包括状态(state)、行为(action)、奖励(reward)等要素。通过强化学习，可以使一个智能体(agent)在不同的state下，学会选择哪个使得reward达到最大的action，其中如何选择action可以由学习得到的策略调整模型来确定。本申请实施例中，state可以设置为订单列表的订单排布信息，action可以为根据学习到的策略调整模型确定出的调整策略来调整订单列表的订单排布状态的动作，reward例如可以设置为若整体接单率提升，则增加奖励值，若整体接单率降低，则减少奖励值等。

参照图6所示，为本申请实施例提供的对策略调整模型进行训练的流程示意图，包括以下步骤：

步骤601、获取不同历史订单列表，将不同历史订单列表中的订单排布信息作为训练集。

其中，不同历史订单列表可以存储在云端数据库中，对策略调整模型进行训练时可以从云端数据库中获取之前记录的不同历史订单列表，并提取出每个历史订单列表的订单排布信息。

一种可能的实施方式中，不同历史订单列表中的订单排布信息包括以下信息中的至少一种：

每个历史订单列表中包含的订单的数量；

每个历史订单列表中各订单的排列顺序；

每个历史订单列表中各订单分别与服务方客户端的接单条件之间的匹配度；

同一个订单在不同历史订单列表中的出现次数。

提取出每个历史订单列表的订单排布信息都可以视为训练环境中的状态，以便于针对不同的状态学习到正确行为。

步骤602、将训练集中各历史订单列表中的订单排布信息输入至预设的基础模型，得到对每个历史订单列表的订单排布状态进行调整的调整策略。

具体的，预设的基础模型即为待训练的策略调整模型，具体包括基础的策略函数以及值函数(value fuction)等。利用预设的基础模型确定出的调整策略并不一定是正确行为，如果是正确行为，则可以给与一定的奖励，反之，如果是错误行为，则可以给与一定的惩罚。通过不断积累和学习，调整策略调整模型中策略函数和值函数的参数，可以使得利用预设的基础模型确定出的调整策略逐渐向正确行为逼近。

其中，结合上述内容可以看出，对每个历史订单列表的订单排布状态进行调整的调整策略可以包括以下策略中的至少一种：

是否从每个历史订单列表中删除的订单、删除的订单的数量、以及删除哪些订单等；

是否对每个历史订单列表中订单的排列顺序进行调整、调整每个历史订单列表中哪些订单的排列顺序、以及调整后每个历史订单列表中订单的排列顺序等。

步骤603、在按照每个历史订单列表对应的调整策略分别调整每个历史订单列表的订单排布状态之后，确定执行调整策略得到的奖励值；

本申请实施例中，在按照每个历史订单列表对应的调整策略分别调整每个历史订单列表的订单排布状态之后，可以首先确定针对调整后的每个历史订单列表执行的选择订单行为。这一步选择订单行为可以通过选择订单的预估算法来进行模拟得到。选择订单行为例如包括是否从调整后的历史订单列表中选择目标订单、以及从调整后的历史订单列表中选择哪个目标订单等。

进一步地，在执行选择订单行为之后，可以计算出本轮训练的整体接单率。通过比较本轮训练的整体接单率与上一轮训练的整体接单率，来本轮训练确定出的调整策略给予奖励或惩罚。

其中，若本轮训练的整体接单率低于上一轮训练的整体接单率时，说明本轮训练确定出的调整策略为错误行为，则可以在上一轮训练得到的奖励值的基础上降低奖励值。若本轮训练的整体接单率高于上一轮训练的整体接单率时，说明本轮训练确定出的调整策略为正确行为，在上一轮训练得到的奖励值的基础上增加奖励值。

当然，实际应用中，也可以针对不同的业务需求配置不同的奖励机制，通过对每轮训练确定出的调整策略给予一定的奖励或惩罚，可以使得最终学习到的调整策略可以逐渐向正确行为逼近。

步骤604、判断确定的奖励值是否满足预设的收敛条件。

若否，则执行步骤605；若是，则执行步骤606。

具体的，上述收敛条件可以根据实际需求来配置。一示例中，可以收敛条件配置为确定出的奖励值达到预设期望值，即当确定的奖励值达到预设期望值时说明确定的奖励值满足预设的收敛条件。

步骤605、对预设的基础模型进行调整，进而返回步骤602，利用调整后的基础模型重新确定每个历史订单列表对应的调整策略，直至执行调整策略得到的奖励值满足收敛条件。

步骤606、确定预设的基础模型训练完成，将训练完成的基础模型作为策略调整模型。

此外，本申请实施例中，在利用模拟环境中不同历史订单列表的订单排布信息作为训练集训练得到策略调整模型之后，还可以获取真实环境中生成的订单列表，将真实环境中订单列表的订单排布信息作为训练集，继续对策略调整模型进行调整后得到最终调整后的策略调整模型。

基于同一发明构思，本申请实施例中还提供了与订单处理方法对应的订单处理装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述订单处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

实施例三

参照图7所示，为本申请实施例提供的订单处理装置的结构示意图，包括：生成模块71、策略确定模块72、调整模块73、发送模块73。具体的：

生成模块71，用于生成包含有不同订单的订单列表；

策略确定模块72，用于将所述订单列表中的订单排布信息输入预先训练的策略调整模型，得到对所述订单列表的订单排布状态进行调整的调整策略；

调整模块73，用于基于所述调整策略对所述订单列表的订单排布状态进行调整；

发送模块74，用于将调整后的订单列表发送给服务方客户端；其中，所述调整后的订单列表中包含待选的目标订单。

进一步地，所述装置还包括模型训练模块75，用于根据以下方式训练得到所述策略调整模型：

其中，所述不同历史订单列表中的订单排布信息包括以下信息中的至少一种：

每个历史订单列表中包含的订单的数量；

每个历史订单列表中各订单的排列顺序；

同一个订单在所述不同历史订单列表中的出现次数。

其中，所述对每个历史订单列表的订单排布状态进行调整的调整策略包括以下策略中的至少一种：

具体的，所述模型训练模块75，在按照每个历史订单列表对应的调整策略分别调整每个历史订单列表的订单排布状态之后，确定执行调整策略得到的奖励值时，具体用于：

一种可能的实施方式中，所述调整模块73，具体用于：

其中，所述选定订单为所述订单列表中前N个订单，N为正整数。

另一种可能的实施方式中，所述调整模块73，具体用于：

其中，所述调整模块73，在确定所述订单列表中的订单的排列顺序时，具体用于：

确定所述订单列表中前M个订单的排列顺序，M为正整数。

此外，所述装置还包括：

接收模块76，用于接收不同的用户方客户端发送的订单请求；

所述生成模块71，还用于：

所述生成模块71，在生成包含有不同订单的订单列表时，具体用于：

具体的，所述生成模块71，在从所述不同订单请求分别对应的订单中筛选出符合所述服务方客户端的接单条件的订单时，具体用于：

实施例九

基于相同的技术构思，本申请实施例还提供一种电子设备。参照图8所示，为本申请实施例提供的一种电子设备800的结构示意图，包括：处理器801、存储器802和总线803；

存储器802存储有处理器801可执行的机器可读指令，当电子设备运行时，处理器801与存储器802之间通过总线803通信，所述机器可读指令被处理器801执行时执行如下处理：

生成包含有不同订单的订单列表；将所述订单列表中的订单排布信息输入预先训练的策略调整模型，得到对所述订单列表的订单排布状态进行调整的调整策略；基于所述调整策略对所述订单列表的订单排布状态进行调整，并将调整后的订单列表发送给服务方客户端；其中，所述调整后的订单列表中包含待选的目标订单。

一种可能的实施方式中，处理器801还可以根据以下方式训练得到所述策略调整模型：

获取不同历史订单列表，将所述不同历史订单列表中的订单排布信息作为训练集；将所述训练集中各历史订单列表中的订单排布信息输入至预设的基础模型，得到对每个历史订单列表的订单排布状态进行调整的调整策略；在按照每个历史订单列表对应的调整策略分别调整每个历史订单列表的订单排布状态之后，确定执行调整策略得到的奖励值；若确定的奖励值不满足预设的收敛条件时，调整所述基础模型，并利用调整后的基础模型重新确定每个历史订单列表对应的调整策略，直至执行调整策略得到的奖励值满足所述收敛条件时，将调整后的基础模型确定为所述策略调整模型。

每个历史订单列表中包含的订单的数量；每个历史订单列表中各订单的排列顺序；每个历史订单列表中各订单分别与所述服务方客户端的接单条件之间的匹配度；同一个订单在所述不同历史订单列表中的出现次数。

是否从每个历史订单列表中删除的订单、以及删除的订单的数量；是否对每个历史订单列表中订单的排列顺序进行调整、以及调整后每个历史订单列表中订单的排列顺序。

具体的，处理器801执行的处理中，在按照每个历史订单列表对应的调整策略分别调整每个历史订单列表的订单排布状态之后，确定执行调整策略得到的奖励值时，可以确定针对调整后的每个历史订单列表执行的选择订单行为；在执行所述选择订单行为之后，计算本轮训练的整体接单率；若所述本轮训练的整体接单率低于上一轮训练的整体接单率时，在上一轮训练得到的奖励值的基础上降低奖励值；若所述本轮训练的整体接单率高于上一轮训练的整体接单率时，在上一轮训练得到的奖励值的基础上增加奖励值。

具体的，处理器801执行的处理中，在基于所述调整策略对所述订单列表的订单排布状态进行调整时，可以确定所述订单列表中待删除的选定订单，并将所述选定订单从所述订单列表中删除。其中，所述选定订单为所述订单列表中前N个订单，N为正整数。

具体的，处理器801执行的处理中，在基于所述调整策略对所述订单列表的订单排布状态进行调整时，还可以确定所述订单列表中的订单的排列顺序，并将从所述订单列表按照确定的排列顺序进行排序。一示例中，可以确定所述订单列表中前M个订单的排列顺序，M为正整数。

此外，处理器801还可以通过通信接口接收不同的用户方客户端发送的订单请求；基于接收来自不同的用户方客户端的订单请求，生成不同订单请求分别对应的订单；

进一步地，处理器801执行的处理中，在生成包含有不同订单的订单列表时，具体可以从所述不同订单请求分别对应的订单中筛选出符合所述服务方客户端的接单条件的订单；将筛选出的符合所述服务方客户端的接单条件的订单，确定为所述订单列表中的订单。

具体的，处理器801可以计算所述不同订单请求分别对应的订单与所述服务方客户端的接单条件之间的匹配度；将计算出的匹配度大于预设值的订单确定为符合所述服务方客户端的接单条件的订单。

基于相同的技术构思，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行订单处理方法的步骤。其中，该计算机可读存储介质可以为通用的存储介质，如移动磁盘、硬盘等，该计算机可读存储介质上存储的计算机程序被运行时，能够执行上述方法实施例中所述的订单处理方法的步骤，从而实现提升整体接单率并提升司机利用率的目的。

基于相同的技术构思，本申请实施例还提供了一种计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中所述的订单处理方法的步骤，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种订单处理方法，其特征在于，包括：

生成包含有不同订单的订单列表；

2.如权利要求1所述的方法，其特征在于，根据以下方式训练得到所述策略调整模型：

3.如权利要求2所述的方法，其特征在于，所述不同历史订单列表中的订单排布信息包括以下信息中的至少一种：

每个历史订单列表中包含的订单的数量；

每个历史订单列表中各订单的排列顺序；

同一个订单在所述不同历史订单列表中的出现次数。

4.如权利要求2所述的方法，其特征在于，所述对每个历史订单列表的订单排布状态进行调整的调整策略包括以下策略中的至少一种：

5.如权利要求2至4任一所述的方法，其特征在于，所述在按照每个历史订单列表对应的调整策略分别调整每个历史订单列表的订单排布状态之后，确定执行调整策略得到的奖励值，包括：

6.如权利要求1所述的方法，其特征在于，所述基于所述调整策略对所述订单列表的订单排布状态进行调整，包括：

7.如权利要求6所述的方法，其特征在于，所述选定订单为所述订单列表中前N个订单，N为正整数。

8.如权利要求1所述的方法，其特征在于，所述基于所述调整策略对所述订单列表的订单排布状态进行调整，包括：

9.如权利要求8所述的方法，其特征在于，所述确定所述订单列表中的订单的排列顺序，包括：

确定所述订单列表中前M个订单的排列顺序，M为正整数。

10.如权利要求1所述的方法，其特征在于，所述方法还包括：

接收不同的用户方客户端发送的订单请求；

所述生成包含有不同订单的订单列表，包括：

11.如权利要求10所述的方法，其特征在于，所述从所述不同订单请求分别对应的订单中筛选出符合所述服务方客户端的接单条件的订单，包括：

12.一种订单处理装置，其特征在于，包括：

生成模块，用于生成包含有不同订单的订单列表；

13.如权利要求12所述的装置，其特征在于，所述装置还包括模型训练模块；

14.如权利要求13所述的装置，其特征在于，所述不同历史订单列表中的订单排布信息包括以下信息中的至少一种：

每个历史订单列表中包含的订单的数量；

每个历史订单列表中各订单的排列顺序；

同一个订单在所述不同历史订单列表中的出现次数。

15.如权利要求13所述的装置，其特征在于，所述对每个历史订单列表的订单排布状态进行调整的调整策略包括以下策略中的至少一种：

16.如权利要求13至15任一所述的装置，其特征在于，所述模型训练模块，在按照每个历史订单列表对应的调整策略分别调整每个历史订单列表的订单排布状态之后，确定执行调整策略得到的奖励值时，具体用于：

17.如权利要求12所述的装置，其特征在于，所述调整模块，具体用于：

18.如权利要求17所述的装置，其特征在于，所述选定订单为所述订单列表中前N个订单，N为正整数。

19.如权利要求12所述的装置，其特征在于，所述调整模块，具体用于：

20.如权利要求19所述的装置，其特征在于，所述调整模块，在确定所述订单列表中的订单的排列顺序时，具体用于：

确定所述订单列表中前M个订单的排列顺序，M为正整数。

21.如权利要求12所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收不同的用户方客户端发送的订单请求；

所述生成模块，还用于：

22.如权利要求21所述的装置，其特征在于，所述生成模块，在从所述不同订单请求分别对应的订单中筛选出符合所述服务方客户端的接单条件的订单时，具体用于：

23.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至11任一所述的订单处理方法的步骤。

24.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至11任一所述的订单处理方法的步骤。