CN112700074A

CN112700074A - 快递任务的规划方法及装置

Info

Publication number: CN112700074A
Application number: CN201911007457.4A
Authority: CN
Inventors: 刘宇航; 王晗; 郑欣欣
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2021-04-23
Anticipated expiration: 2039-10-22
Also published as: CN112700074B

Abstract

本发明实施例提供一种快递任务的规划方法及装置，首先，获取订单，并根据订单中的取件地址确定策略集合，进一步，根据马尔可夫决策过程以及策略集合，获取策略集合中每个策略对应的回报值，并将订单分配给多个收派员中回报值最小的收派员。通过将马尔可夫决策过程与快递任务的规划进行结合，在满足收派员位置约束以及取件时间约束的基础上，为订单匹配到合适的收派员，提高收派员的作业效率。

Description

快递任务的规划方法及装置

技术领域

本发明涉及物流技术领域，尤其涉及一种快递任务的规划方法及装置。

背景技术

在互联网技术以及电子商务的快速发展下，物流行业的运营模式也发生了翻天覆地的变化，例如，快递自提点、智能快递柜的出现，人们可以实现自助收寄快递，极大的方便了人们的生活。进一步，随着移动应用程序(Application，APP)的不断丰富，物流相关移动应用程序也越来越多，用户还可以通过安装相关的APP，实现足不出户就可下单寄件、物流查询等功能。

在物流体系中，收派员派送快件以及揽收快件是极为重要的环节。针对揽收快件来说，传统的方式是根据取件订单中的取件地址，将取件订单分配给与取件地址对应的收派员，之后，收派员按照经验选择路径，并在揽收订单中的预约时间与客户联系，揽收快件。

采用上述方式，收派员的作业效率较低。

发明内容

本发明实施例提供一种快递任务的规划方法及装置，以提高收派员作业效率。

第一方面，本发明实施例提供一种快递任务的规划方法，包括：

获取订单，并根据所述订单中的取件地址确定策略集合，其中，所述策略集合包括多个分配策略，每个所述分配策略用于指示将所述订单分配给包括所述取件地址在内的预设范围内的一个收派员；

根据马尔可夫决策过程，获取所述策略集合中每个分配策略对应的回报值，其中，所述回报值表示将订单分配给收派员且所述收派员偏离第一路径的距离，所述第一路径为与已分配至所述收派员的订单对应的路径；

根据所述回报值，将所述订单分配给目标收派员，所述目标收派员为所述多个收派员中的一个收派员。

可选地，所述目标收派员为所述多个收派员中回报值最小的收派员。

可选地，所述马尔可夫决策过程由五元组构成，所述五元组包括：收派员的订单分配情况、状态转移概率矩阵、回报函数、折扣因子、以及所述策略集合；

其中，所述状态转移概率矩阵表示预设区域内用户寄件的概率；

所述回报函数用于计算收派员采取行动获得的回报值；

所述折扣因子为收派员采取行动获得的回报值相对于上一次采取行动获得的回报值的折扣系数。

可选地，所述根据马尔可夫决策过程，获取所述策略集合中每个分配策略对应的回报值，包括：

根据所述回报函数、所述折扣因子、所述状态转移概率矩阵，获得所述收派员由当前状态转移至下一个状态的回报值；

将所述下一个状态更新为当前状态，进行迭代计算，直至所述回报值收敛，则将所述回报值确定为所述分配策略对应的回报值。

可选地，所述方法还包括：

若所述回报值最小的收派员未接单，则按照回报值由小到大的顺序，将所述订单分配给下一个收派员，若所述回报值次之的收派员接单，则确定所述回报值次之的收派员为目标收派员；

若所述回报值次之的收派员未接单，则按照回报值由小到大的顺序将，所述订单分配给下一个收派员；

重复执行上述过程，若按照回报值由小到大的顺序中，前N个收派员均未接单，则将所述订单添加至抢单池中。

可选地，所述将所述订单分配给目标收派员之后，还包括：

根据蚁群算法、所述订单以及所述目标收派员的订单分配情况，重新规划所述目标收派员的第二路径。

可选地，所述将所述订单分配给目标收派员之后，还包括：

根据所述订单中的取件地址，将所述取件地址***至所述目标收派员对应的第一路径中，获得第二路径。

可选地，所述方法还包括：

根据所述目标收派员的订单中，预约时间发生变化的订单，更新所述第二路径。

第二方面，本发明实施例提供一种快递任务的规划装置，该装置包括：

第一获取模块，用于获取订单，并根据所述订单中的取件地址确定策略集合，其中，所述策略集合包括多个分配策略，每个所述分配策略用于指示将所述订单分配给包括所述取件地址在内的预设范围内的一个收派员；

第二获取模块，用于根据马尔可夫决策过程，获取所述策略集合中每个策略对应的回报值，其中，所述回报值表示将订单分配给收派员且所述收派员偏离第一路径的距离，所述第一路径为与已分配至所述收派员的订单对应的路径；

分配模块，用于根据所述回报值，将所述订单分配给目标收派员，所述目标收派员为所述多个收派员中的一个收派员。

第三方面，本发明实施例还提供一种电子设备，包括：存储器、处理器以及计算机程序指令；

其中，所述存储器用于存储所述计算机程序指令；

所述处理器执行所述计算机程序指令，以执行第一方面所述的方法。

第四方面，本发明实施例还提供一种可读存储介质，包括：程序；

所述程序在被处理器执行时，以执行第一方面所述的方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为本发明提供的快递任务的规划方法的流程示意图；

图1B为本发明提供的快递任务的规划方法实施例一的的流程示意图；

图1C为本发明提供的马尔可夫回报过程示意图；

图1D为本发明中进行决策优化时订单因素变化示意图；

图2为本发明提供的快递任务的规划方法实施例二的流程示意图；

图3为本发明提供的快递任务的规划方法实施例三的流程示意图；

图4为本发明提供的快递任务的规划方法实施例四的流程示意图；

图5为本发明提供的快递任务的规划装置实施例一的结构示意图；

图6为本发明提供的快递任务的规划装置实施例二的结构示意图；

图7为本发明提供的电子设备实施例一的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在物流体系中，收派员派送快件以及揽收快件是极其重要的环节。尤其，对于揽收快件来说，传统的方式是先根据订单中的取件地址，将订单分配给该取件地址所属片区对应的收派员，收派员按照经验选择路径，并在订单中的预约的取件时间与客户联系，揽收快件。

采用上述方式根据物流公司划分的片区，将订单分配给该片区对应的收派员，并未考虑收派员是否为最合适的人选，不仅导致收派员作业效率较低，也无法实现资源利用的最大化。因此，本发明实施例提供一种快递任务的规划方法，以解决上述现有技术中存在的问题，提高收派员作业效率，实现资源利用的最大化。

参照图1A所示，本发明实施例提供的快递任务的规划方法是以订单由哪位收派员接受为决策变量，以收派员的位置以及订单中的取件时间为约束条件，以收派员接受该订单后偏离原先行驶路径的距离最小或耗时最短，且在订单中的取件时间达到为优化目标，从而提高收派员作业效率，实现资源利用的最大化。

下面通过几个具体实施例对本发明实施例提供的快递任务规划方法进行详细介绍。

图1B为本发明提供的快递任务的规划方法实施例一的流程示意图。本发明实施例提供的快递任务的规划方法的执行主体可为本发明实施例提供的快递任务的规划装置，该快递任务的规划装置可以通过任意的软件和/或硬件的方式实现。

示例性地，该快递任务的规划装置可以为终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***，服务器计算机***，手持或膝上设备，基于微处理器、CPU、GPU的***，可编程消费电子产品，网络个人电脑，小型计算机***，大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

本实施例中，以执行主体为快递任务的规划装置为例进行说明。

如图1B所示，本实施例的方法包括：

S101、获取订单，并根据所述订单中的取件地址确定策略集合。

具体地，用户在需要寄件时，可通过客户端下单，生成订单，其中，订单可以包括取件地址、取件时间、取件联系人姓名以及取件联系人电话等信息。快递任务的规划装置获取订单后，根据订单中的取件地址，确定包括该取件地址在内的预设范围内的多个收派员，从而生成策略集合，也就是说，策略集合中包括多个分配策略，每个分配策略均用于指示将上述订单分配上述多个收派员中的一个收派员。本实施例中所指的策略集合能够反映该订单的分配对象。

示例性地，快递任务的规划装置可通过以下方式确定策略集合：

一种可能的实现方式，快递任务的规划装置根据订单中的取件地址，确定以该取件地址为中心，以预设距离为半径的范围内的收派员，并根据确定的收派员生成策略集合。例如，取件地址对应的经纬度信息为(A，B)，则快递任务的规划装置可以确定当前位置处于以(A，B)为中心，3千米为半径范围内的收派员，并根据上述确定的收派员生成策略集合。

另一种可能的实现方式，快递任务的规划装置根据订单中的取件地址，确定取件地址所在的运营区域的收派员以及与取件地址所在的运营区域相邻的至少一个运营区域的收派员，并根据确定的收派员生成策略集合。具体地，在物流运营中，通常会根据地理位置信息划分运营区域，每个运营区域对应一个或多个收派员，快递任务的规划装置根据取件地址确定该取件地址所属的运营区域，确定该运营区域的一个或多个收派员，且确定与该取件地址所属的运营区域相邻的至少一个运营区域的一个或多个收派员，根据上述确定的收派员生成策略集合。

示例性地，快递任务的规划装置根据取件地址确定该取件地址属于的运营区域A，运营区域A对应收派员a和收派员b，与运营区域A相邻的运营区域包括运营区域B和运营区域C，运营区域B对应收派员c，运营区域D对应收派员d和收派员e，那么可以根据上述收派员a、收派员b、收派员c、收派员d以及收派员e生成策略集合，或者，也可以根据收派员a、收派员b以及收派员c生成策略集合。

需要说明的是，上述所示的两种确定策略集合的方式仅为示例性地，在实际应用中还可以通过其他方式确定策略集合，本发明对此不作限制。

S102、根据马尔可夫决策过程，获取策略集合中每个分配策略对应的回报值。

为使本发明实施例所示的技术方案更加清楚，这里首先对马尔可夫决策过程进行详细介绍：

马尔可夫过程：

马尔可夫过程表示一类随机过程，其表示未来状态仅与当前时刻的状态有关，与历史时刻的状态无关。

设{X(t),t∈T}为一随机过程，其中，X(t)表示随机过程中t时刻对应的空间状态，E表示状态空间集合，若对任意的t₁<t₂<…<t_n<t，任意的x₁,x₂,…,x_n,x∈E，随机变量X(t)在已知变量X(t₁)＝x₁,…,X(t_n)＝x_n之下的条件分布函数只与X(t_n)＝x_n有关，而与X(t₁)＝x₁,…,X(t_n-1)＝x_n-1无关，即条件分布函数满足公式F(x,t|x_n,x_n-1,…,x₂,x₁,t_n,t_n-1,…,t₂,t₁)＝F(x,t|t_n,t_n-1)，此性质称为马尔可夫性质，满足马尔可夫性质的随机过程称为马尔可夫过程。

具有马尔可夫性质且存在于离散的指数集和状态空间内的随机过程也称为马尔可夫链。马尔可夫链是通过状态转移概率定义的，状态转移概率是指随机变量从一个时刻i到下一个时刻j，从状态s_i转移到状态s_j的概率，可通过公式表示为：

P(i→j)＝P_ij＝P(X_t+1＝s_j|X_t＝s_i)

其中，P_ij表示状态转移到状态的概率；S表示状态集合，s_i表示时刻i对应的状态，s_j表示时刻j对应的状态，s_i和s_j均为状态集合S中的一种状态。

马尔可夫回报过程表示：

马尔可夫回报过程可由一个四元组定义

其中，S表示状态集合，s_i∈S，s_i表示第i步的状态。

P表示状态转移概率，具体地，P表示的是在s_i∈S状态下，经过a∈A作用后，会转移到其他状态的概率分布情况，A表示策略集合，a为策略集合中的其中一个策略。比如，在状态s_i下执行策略a，转移到状态s_j的概率可以表示为P(s_j|s_i,a)，或者也可以说在状态s_i下执行动作a，转移到状态s_j的概率可以表示为P(s_j|s_i,a)。

其中，可以理解的是，本实施例中执行策略集合中的某个分配策略即为执行了策略集合中的某个动作。

U表示回报函数，如果一组(s_i,a)转移到了下一个状态s_j，那么回报函数可记为U(s_j|s_i,a)。如果(s_i,a)对应的下一个状态s_j是唯一的，那么回报函数也可记为U(s_i,a)，其中，(s_i,a)即表示在状态s_i下执行动作a，状态转移至状态s_j。

表示折扣因子，具体表示每次回报对前一回报的折扣因子，通过折扣因子能够减小未来执行某个策略对当前状态的影响。

在马尔可夫回报过程中，一个状态的期望回报通过公式表示为：

其中，H(s)表示状态_s的回报值，

表示状态s′的回报值对状态_s的回报值的折扣因子，P(s,s′)表示由状态s转移至状态s′的概率，H(s′)表示状态s′的回报值。

这里通过一具体的示例，来说明马尔可夫回报过程：如图1C所示，该马尔可夫回报过程包括6个节点，分别为节点0、节点1、节点2、节点3、节点4、节点5，每个节点均处于一种状态，各个节点对应的状态可以相同也可以不同。以节点1为起点(节点1即表示当前时刻的状态)，可根据策略集合执行策略集合中的其中一个策略，之后节点1可由当前状态转移至下一个状态，也就是转移到下一个节点，如图1C中所示，节点1可通过执行某个策略，由当前状态(节点1)转移至节点2或节点3所处的状态，节点1执行一个策略。同理，节点3可通过执行某个策略，由节点3所处的状态转移到节点4或者节点5所处的状态，节点3执行策略也会有对应的回报值。

如图1C所示，节点1的回报值为25.9，具体地，节点1的回报值等于根据节点1对应的回报函数获得的回报值20，以及根据节点2对应的回报函数获得的回报值5与折扣因子0.1的乘积，以及根据节点3对应的回报函数获得的回报值6与折扣因子0.9的乘积，这三者之和。

同理，若当前状态为节点3，则节点3的回报值为13.6，具体地，节点3的回报值等于节点3对应的回报函数获得的回报值6，以及根据节点4对应的回报函数获得的回报值2与折扣因子0.2的乘积，以及根据节点5对应的回报函数获得的回报值9与折扣因子0.8的乘积，这三者之和。

在本申请实施例中，在计算节点执行每个策略所产生的回报时，通过折扣因子来减小未来对现在步骤的影响。

马尔可夫决策过程：

在上述马尔可夫回报过程中，加入策略集合A，即为马尔可夫决策问题。求解马尔可夫决策问题，即为能求出得到最大预期收益的策略。在本发明实施例中，求解马尔可夫决策问题即为求出最为合适的收派员。

在马尔可夫决策过程中，针对策略集合A中的每个策略a分别进行迭代计算，获得策略集合A中每个策略a对应的回报值，进而根据每个策略a的回报值，确定其中能够得到最大预期收益的策略。

具体地，在马尔可夫决策过程中，可通过以下方式获得每个策略对应的回报值：

步骤一、初始化所有策略的回报函数U(s)以及H(s)；

步骤二、针对每个策略，用当前的回报函数U(s)对当前策略进行评估，获得每一个策略的回报值；

步骤三、针对每个策略，进行迭代计算，直至该策略对应的回报值收敛；迭代方法如下：

假设迭代的次数为k，则策略对应的回报值按如下公式计算：

其中，k为迭代次数，

表示第一次迭代时的折扣因子，

表示第二次迭代时的折扣因子，……，

表示第k次迭代时的折扣因子。

物理意义为考虑了未来k次情况，在本实施例中，即考虑了未来可能出现的k个订单。

由于

则随着迭代次数的增加，

的值会趋于0，则H(s)的值会趋于稳定。令esp＝H(s)_k-H(s)_k-1，其中，H(s)_k表示进行第k次迭代获得的该策略对应的回报值，H(s)_k-1表示进行第k-1次迭代获得的该策略对应的回报值。

当esp的值小于预设阈值时，则认为迭代完成，此时的H(s)_k即为该策略对应的回报值。

步骤四、根据策略集合A中每个策略对应的回报值，确定能够获得最大预期收益的策略。

接下来，针对订单分配中的马尔可夫决策过程进行详细介绍：

如图1C所示的三种情况中，T时刻为当前时刻，在T时刻进行决策时，T时刻之前的订单为已下订单，已下订单的数量可以为一个也可以为多个，在图1C所示的三种情况中仅示出了已下订单为多个的情况。如图1C中第一种情况中所示，在未来的某一时刻可能出现一个订单，如图1D中第二种情况中所示，在未来的某一时刻也可能同时出现一批订单(即多个订单)。本实施例中考虑的是，在未来一段时间内可能出现的订单，其可以如图1D中第一种情况所示的一个订单，也可以如图1D中第二种情况所示的一批订单，为方便描述均采用图1D中第三种情况所示的未来订单表示。

由于物流订单的出现具有随机性，传统的方式中仅考虑了当前出现的一个订单，也就是说，传统的方式中仅是针对单个订单的单次决策的优化，而本发明中的目的是能够实现未来一段时间应用后的累积的资源利用率的最大化，也就是说，采用本发明实施例中的方法能够实现资源利用率全局最优。

本实施例中，订单分配中的马尔可夫决策过程由五元组构成，所述五元组包括：收派员的订单分配情况、状态转移概率矩阵、回报函数、折扣因子、以及所述策略集合。其中，上述收派员的订单分配情况包括在步骤S101中确定的策略集合中的所有收派员对应的订单分配情况；状态转移概率矩阵表示预设区域内用户寄件的概率分布；回报函数用于计算收派员采取行动获得的回报值；折扣因子为收派员采取行动获得的回报值相对于上一次采取行动获得的回报值的折扣系数。

本实施例中，分配策略的回报值表示将订单分配给收派员，该收派员偏离第一路径的距离，第一路径为与已分配给该收派员的订单对应的路径。当回报值越小，则收派员在接受订单后偏离第一路径的距离越小，相应地，收派员完成该订单所耗费的时间越少，则资源利用率较高；当回报值越大，则收派员在接单后偏离第一路径的距离越大，相应地，收派员完成该订单所耗费的时间越多，则资源利用率较低。

具体地，针对每个分配策略，根据回报函数、折扣因子、状态转移概率矩阵，获得该分配策略对应的收派员由当前状态转移至下一个状态的回报值。也就是说，针对每个收派员，根据该收派员对应的回报函数、折扣因子、状态转移概率矩阵，获得将该订单分配给该收派员，该收派员偏离原先路径的距离。

接着，并将下一个状态更新为当前状态，其中，下一个转状态为收派员接受该订单后的状态，进行迭代计算，直至该分配策略对应的回报值收敛。也就是说，针对未来可能出现的下一个订单，并将该未来可能出现的下一个订单分配给该收派员，且该收派员接单所获得的回报值，该回报值同样可根据回报函数、折扣因子以及状态转移概率矩阵获得。针对未来可能出现的再下一个订单，并将该未来可能出现的再下一个订单分配给该收派员，且该收派员接单所获得的回报值，该回报值同样可根据回报函数、折扣因子以及状态转移概率矩阵获得。不断重复上述过程，直至该收派员对应的回报值收敛。

在上述马尔可夫决策过程中，折扣因子以及状态转移概率矩阵可通过历史寄件数据获得，在实际应用中并且可根据不断更新的历史寄件数据对折扣因子以及状态转移概率矩阵进行更新，以使获得的分配策略对应的回报值更加准确。

S103、根据回报值，将订单分配给目标收派员。

具体地，本步骤中是根据策略集合中所有分配策略对应的回报值确定目标收派员。

一种可能的实现方式，根据策略集合中每个分配策略对应的回报值，将回报值最小的分配策略确定为目标分配策略，也就是说，将订单分配给回报值最小的分配策略对应的收派员。

另一种可能的实现方式，根据策略集合中每个分配策略对应的回报值，确定其中的N个分配策略为备选分配策略，从N个备选分配策略中选择任意一个分配策略为目标分配策略，也就是说，将订单分配给回报值由小到大排序的前N个分配策略对应的收派员中的任一收派员，其中，N为正整数。例如，N＝3。可以理解的是，备选分配策略的数量小于或等于策略集合中分配策略的数量。

针对上述第二种实现方式中，如何确定N个备选分配策略，可通过以下方式实现：实现方式一、将策略集合中，每个分配策略对应的回报值与预设回报值进行比较，将回报值小于预设回报值的分配策略确定为备选分配策略，从而确定N个备选策略。实现方式二、将策略集合中的所有分配策略按照回报值由小到大的顺序，将排名靠前的N个分配策略确定为备选分配策略。当然，还可以通过其他方式确定备选分配策略，上述所示的两种实现方式仅为示例性地，并不是对确定备选分配策略的实现方式的限制。

可选地，快递任务的规划装置确定目标收派员后，将订单发送至目标收派员所持有的终端设备上，目标收派员可通过终端设备查看订单的详细信息，并且可以根据自身的意愿自主选择是否接单。

本实施例中，通过获取订单，并根据订单中的取件地址确定策略集合，进一步，根据马尔可夫决策过程以及策略集合，获取策略集合中每个策略对应的回报值，并将订单分配给多个收派员中回报值最小的收派员。通过将马尔可夫决策过程与快递任务的规划进行结合，在满足收派员位置约束以及取件时间约束的基础上，为订单匹配到最为合适的收派员，使收派员提高收派员的作业效率。

接下来，针对目标收派员为多个分配策略中回报值最小的分配策略对应的收派员，以及目标收派员为多个分配策略中按照预设顺序排列的前N个分配策略中任意一个分配策略对应的收派员两种情况分别进行详细介绍。

图2为本发明提供的快递任务的规划方法实施例二的流程示意图。如图2所示，本实施例的方法包括：

S201、获取订单，并根据所述订单中的取件地址确定策略集合。

S202、根据马尔可夫决策过程，获取策略集合中每个分配策略对应的回报值。

图2所示实施例中步骤S201、S202分别与图1所示实施例中步骤S101、S102类似，可参照图1所示实施例中的详细描述，此处不再赘述。

S203、根据回报值，将订单分配给目标收派员，其中，目标收派员多个分配策略中回报值最小的分配策略对应的收派员。

S204、判断目标收派员是否接单，若目标收派员接单，则执行步骤S205，若目标收派员未接单，则执行步骤S206。

S205、根据所述订单以及所述目标收派员的订单分配情况，规划目标收派员的第二路径。

一种可能的实现方式，根据蚁群算法、所述订单以及目标收派员的订单分配情况，重新规划该目标收派员的第二路径。另一种可能的实现方式，根据订单中的取件地址，将该订单***至目标收派员对应的第一路径中，从而获得第二路径。

S206、按照预设顺序，更新目标收派员为排名第二的分配策略对应的收派员，并将该订单分配给更新后的目标收派员。

其中，预设顺序为回报值由小到大的顺序。

S207、判断更新后的目标收派员是否接单，若更新后的目标收派员接单，则执行步骤S205，若目标收派员未接单，则执行步骤S208。

S208、按照预设顺序，更新目标收派员为排名第三的分配策略对应的收派员，并将该订单分配给更新后的目标收派员，其中，预设顺序为回报值由小到大的顺序。

S209、判断更新后的目标收派员是否接单，若更新后的目标收派员接单，则执行步骤S205，若目标收派员未接单，则执行步骤S210。

S210、将所述订单添加至抢单池中。

抢单池中包括多个未被收派员接单的订单，将上述未被收派员接单的订单添加至抢单池中，可使更多的收派员能够获得订单信息，并根据自身的实际情况选择合适的订单。通过这样的方式，能够避免用户在下单后，长时间无人接单，所造成的用户体验较差的问题。

需要说明的是，本实施例中，按照回报值有小到大的顺序中，以前3个分配策略为备选分配策略为例进行说明。当然，在实际应用中，备选分配策略的数量也可以更多，也可以更少。

本实施例中，根据策略集合中分配策略的回报值由小到大的顺序，优先将订单分配给回报值最小的分配策略对应的收派员，在该收派员未接单的情况下，将该订单分配给排名第二的分配策略对应的收派员，若该收派员仍未接单，则将订单分配给下一个分配策略对应的收派员，通过重复执行上述过程，从上述策略集合中选择较为合适的收派员来承担该订单，不仅满足了收派员的位置约束条件以及取件时间约束条件，不仅能够提高收派员的作业效率，同时也提高了订单被接单的概率，有效提升用户体验。进一步，若是进行了多次订单分配，收派员均未接单，则将订单添加至抢单池中，使得更多的收派员能够获取订单信息，从而提高订单被接单的概率，有效提升用户体验。

可选地，在图2所示实施例的基础上，若目标收派员的订单中预约时间发生变化的订单，更新所述第二路径，其中，预设时间可以为该目标收派员的派件订单的预约时间，或者预设时间还可以为该目标收派员的取件订单中的取件时间。

图3为本发明提供的快递任务的规划方法实施例三的结构示意图。如图3所示，本实施例的方法包括：

需要说明的是，在图3所示实施例中，步骤S303中的目标收派员为多个分配策略中按照预设顺序排列的前N个分配策略中任意一个分配策略对应的收派员。

S301、获取订单，并根据所述订单中的取件地址确定策略集合。

S302、根据马尔可夫决策过程，获取策略集合中每个分配策略对应的回报值。

图3所示实施例中步骤S301、S302分别与图1所示实施例中步骤S101、S102类似，可参照图1所示实施例中的详细描述，此处不再赘述。

S303、根据回报值，将订单分配给目标收派员，其中，目标收派员为多个分配策略中按照预设顺序排列的前N个分配策略中任意一个分配策略对应的收派员。

S304、判断所述目标收派员是否接单，若目标收派员接单，则执行步骤S305，若目标收派员未接单，则执行步骤S306。

S305、根据所述订单以及所述目标收派员的订单分配情况，规划所述目标收派员的第二路径。

S306、将所述订单分配给N-1个分配策略中任一分配策略对应的收派员，并更新所述目标收派员。

具体地，由于步骤S303中是选择的分配策略对应的收派员未接单，因此，可在剩余的N-1个分配策略中选择一个分配策略，并将订单分配给该分配策略对应的收派员。

一种可能的实现方式，在剩余的N-1个分配策略中，选择任意一个分配策略，并将该订单分配给该分配策略对应的收派员。

S307、判断更新后的目标收派员是否接单，若更新后的目标收派员接单，则执行步骤S305，若更新后的目标收派员未接单，则执行步骤S308。

S308、将所述订单分配给N-2个分配策略中任一分配策略对应的收派员，并更新所述目标收派员。

具体地，由于步骤S303和步骤S306中是选择的分配策略对应的收派员未接单，因此，可在剩余的N-2个分配策略中选择一个分配策略，并将订单分配给该分配策略对应的收派员。

一种可能的实现方式，在剩余的N-2个分配策略中，选择任意一个分配策略，并将该订单分配给该分配策略对应的收派员。

S309、判断更新后的目标收派员是否接单，若更新后的目标收派员接单，则执行步骤S305，若更新后的目标收派员未接单，则执行步骤S310。

S310、重复执行上述订单分配过程，直至N个分配策略对应的收派员均未接单，则将所述订单添加至抢单池中。

示例性地，策略集合中包含10个分配策略，按照回报值由小到大的顺序排列的前3个分配策略为备选分配策略，分别记为分配策略1、分配策略2和分配策略3。首先，将订单分配给上述3个分配策略中的任意一个分配策略对应的收派员，例如，将订单分配给分配策略1对应的收派员。若分配策略1对应的收派员未接单，则将订单分配给余下两个分配策略中的任意一个，例如，将订单分配给分配策略2对应的收派员。若分配策略2对应的收派员仍未接单，则将订单分配给分配策略3对应的收派员，若分配策略3对应的收派员未接单，则将该订单添加至抢单池中，以使更多的收派员能够获取订单信息。在上述3次分配过程中，分配策略1、分配策略2和分配策略3中，任意一个分配策略对应的收派员接单，则根据该订单以及收派员的订单分配情况，规划收派员的第二路径。

本实施例中，通过确定多个备选分配策略(即按照回报值由小到大的顺序排列，排名靠前的多个分配策略)，将订单分配给多个备选分配策略中任意一个分配策略对应的收派员，在该收派员未接单的情况下，将该订单分配给剩余的N-1个分配策略中任意一个分配策略对应的收派员，若该收派员仍未接单，则将订单分配给剩余的N-2个分配策略中任意一个分配策略对应的收派员，通过重复执行上述订单分配过程，将订单分配给多个备选分配策略中任意一个分配策略对应的收派员，满足了收派员的位置约束条件以及取件时间约束条件，不仅能够提高收派员的作业效率，同时也提高了订单被接单的概率，有效提升用户体验。进一步，若是多个备选分配策略对应的收派员均未接单，则将订单添加至抢单池中，使得更多的收派员能够获取订单信息，从而提高订单被接单的概率，有效提升用户体验。

可选地，在图3所示实施例的基础上，若目标收派员的订单中预约时间发生变化的订单，更新所述第二路径，其中，预设时间可以为该目标收派员的派件订单的预约时间，或者预设时间还可以为该目标收派员的取件订单中的取件时间。

图4为本发明提供的快递任务的规划方法实施例三的流程图。如图4所示，用户发送寄件请求生成订单，快递任务的规划装置获取订单信息，并采用图2或图3所示实施例中的快递任务的规划方法确定目标收派员，进行第一次派单，若第一个目标收派员未接单，则进一步确定下一个目标收派员，若该目标收派员仍未接单，则进一步再确定下一个目标收派员，若是该目标收派员仍未接单，则将订单添加至抢单池中。

采用本发明实施例中的方法，能够提高收派员的作业效率，同时提高了订单被接单的概率，有效提升用户体验。进一步，进行了多次订单分配，多个收派员均未接单，则将订单添加至抢单池中，使得更多的收派员能够获取订单信息，从而提高订单被接单的概率，有效提升用户体验。

图5为本发明提供的快递任务的规划装置实施例一的结构示意图。如图5所示，本实施例的装置50包括：第一获取模块51、第二获取模块52以及分配模块53。

其中，第一获取模块51，用于获取订单，并根据所述订单中的取件地址确定策略集合，其中，所述策略集合包括多个分配策略，每个所述分配策略用于指示将所述订单分配给包括所述取件地址在内的预设范围内的一个收派员。

第二获取模块52，用于根据马尔可夫决策过程，获取所述策略集合中每个策略对应的回报值，其中，所述回报值表示将订单分配给收派员且所述收派员偏离第一路径的距离，所述第一路径为与已分配至所述收派员的订单对应的路径。

可选地，上述马尔可夫决策过程由五元组构成，所述五元组包括：收派员的订单分配情况、状态转移概率矩阵、回报函数、折扣因子、以及所述策略集合；

其中，所述状态转移概率矩阵表示预设区域内用户寄件的概率；所述回报函数用于计算收派员采取行动获得的回报值；所述折扣因子为收派员采取行动获得的回报值相对于上一次采取行动获得的回报值的折扣系数。

可选地，第二获取模块52，用于通过以下方式获得策略集合中每个分配策略对应的回报值：针对每个分配策略，根据所述回报函数、所述折扣因子、所述状态转移概率矩阵，获得所述分配策略对应的收派员由当前状态转移至下一个状态的回报值；将所述下一个状态更新为当前状态，进行迭代计算，直至所述回报值收敛，则将所述回报值确定为所述分配策略对应的回报值。

分配模块53，用于根据所述回报值，将所述订单分配给目标收派员，所述目标收派员为所述多个收派员中的一个收派员。

可选地，所述目标收派员为所述多个分配策略中回报值最小的分配策略对应的收派员，或者，所述目标收派员为所述多个分配策略中按照预设顺序排列的前N个分配策略中任意一个分配策略对应的收派员，其中，所述预设顺序为回报值按照由小到大的排列顺序。

本实施例的装置，可以用于执行图1B所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图6为本发明提供的快递任务的规划装置实施例二的结构示意图。如图6所示，本实施例的装置60在图5所示实施例的基础上，还包括：路径规划模块54。

路径规划模块54，用于在目标收派员接单后，根据所述订单以及目标收派员的订单分配情况，规划所述目标收派员的第二路径，所述第二路径为与所述目标收派员的所有订单对应的路径。

一种可能的实现方式中，路径规划模块54，根据蚁群算法、所述订单以及所述目标收派员的订单分配情况，重新规划所述目标收派员的第二路径。

另一种可能的实现方式中，路径规划模块54，根据所述订单中的取件地址，将所述取件地址***值所述目标收派员对应的第一路径中，获得第二路径。

在一些实施例中，分配模块53根据所述回报值，将所述订单分配给目标收派员，且所述目标收派员为多个分配策略中回报值最小的分配策略对应的收派员之后，还用于：若所述目标收派员未接单，则按照回报值由小到大的顺序，更新所述目标收派员为回报值次之的分配策略对应的收派员；若所述回报值次之的收派员未接单，则按照回报值由小到大的顺序，将所述订单分配给下一个收派员；重复执行上述过程，若按照回报值由小到大的顺序中，前N个分配策略对应的收派员均未接单，则将所述订单添加至抢单池中，其中，N为正整数。

在另一些实施例中，分配模块53根据所述回报值，将所述订单分配给目标收派员，且所述目标收派员为所述多个分配策略中按照预设顺序排列的前N个分配策略中任意一个分配策略对应的收派员之后，还用于：若所述目标收派员未接单，则将所述订单分配给剩余N-1个分配策略中任一分配策略对应的收派员；重复执行上述步骤，若所述N个分配策略对应的收派员均未接单，则将所述订单添加至抢单池中。

本实施例的装置，可以用于执行图2以及图3所示任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选地，在图6所示实施例的基础上，路径规划模块54，还用于根据目标收派员的订单中，预约时间发生变化的订单，更新所述第二路径。

图7为本发明提供的电子设备实施例一的结构示意图。如图7所示，本实施例的电子设备70包括：存储器71、处理器72以及计算机程序。

其中，计算机程序存储在存储器71中，并被配置为由处理器72执行以实现本发明实施例中图1B以及图2至图4任一实施例所示的快递任务的规划方法。相关说明可以对应参见图1B以及图2至图4的步骤所对应的相关描述和效果进行理解，此处不做过多赘述。

其中，本实施例中，存储器71和处理器72通过总线73连接。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现本发明实施例中图1B以及图2至图4任一实施例所示的快递任务的规划方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

最后应说明的是：尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种快递任务的规划方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标收派员为所述多个分配策略中回报值最小的分配策略对应的收派员，或者，所述目标收派员为所述多个分配策略中按照预设顺序排列的前N个分配策略中任意一个分配策略对应的收派员，其中，所述预设顺序为回报值按照由小到大的排列顺序。

3.根据权利要求1所述的方法，其特征在于，所述马尔可夫决策过程由五元组构成，所述五元组包括：收派员的订单分配情况、状态转移概率矩阵、回报函数、折扣因子、以及所述策略集合；

所述回报函数用于计算收派员采取行动获得的回报值；

4.根据权利要求3所述的方法，其特征在于，所述根据马尔可夫决策过程，获取所述策略集合中每个分配策略对应的回报值，包括：

针对每个分配策略，根据所述回报函数、所述折扣因子、所述状态转移概率矩阵，获得所述分配策略对应的收派员由当前状态转移至下一个状态的回报值；

5.根据权利要求2所述的方法，其特征在于，所述目标收派员为所述多个分配策略中回报值最小的分配策略对应的收派员，所述方法还包括：

若所述目标收派员未接单，则按照回报值由小到大的顺序，更新所述目标收派员为回报值次之的分配策略对应的收派员；

若所述回报值次之的收派员未接单，则按照回报值由小到大的顺序，将所述订单分配给下一个收派员；

重复执行上述过程，若按照回报值由小到大的顺序中，前N个分配策略对应的收派员均未接单，则将所述订单添加至抢单池中，其中，N为正整数。

6.根据权利要求2所述的方法，其特征在于，所述目标收派员为所述多个分配策略中按照预设顺序排列的前N个分配策略中任意一个分配策略对应的收派员，所述方法还包括：

若所述目标收派员未接单，则将所述订单分配给剩余N-1个分配策略中任一分配策略对应的收派员；

重复执行上述步骤，若所述N个分配策略对应的收派员均未接单，则将所述订单添加至抢单池中。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述将所述订单分配给目标收派员之后，还包括：

若所述目标收派员接单，则根据所述订单以及所述目标收派员的订单分配情况，规划所述目标收派员的第二路径，所述第二路径为与所述目标收派员的所有订单对应的路径。

8.根据权利要求7所述的方法，其特征在于，所述将所述订单分配给目标收派员之后，还包括：

9.根据权利要求7所述的方法，其特征在于，所述将所述订单分配给目标收派员之后，还包括：

10.根据权利要求8或9所述的方法，其特征在于，所述方法还包括：

11.一种快递任务的规划装置，其特征在于，包括：