CN113811915A - 用于在线共享出行平台的统一订单派发和车队管理 - Google Patents

用于在线共享出行平台的统一订单派发和车队管理 Download PDF

Info

Publication number
CN113811915A
CN113811915A CN202080017002.5A CN202080017002A CN113811915A CN 113811915 A CN113811915 A CN 113811915A CN 202080017002 A CN202080017002 A CN 202080017002A CN 113811915 A CN113811915 A CN 113811915A
Authority
CN
China
Prior art keywords
vehicle
messages
jurisdiction
worker
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080017002.5A
Other languages
English (en)
Other versions
CN113811915B (zh
Inventor
焦岩
秦志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Publication of CN113811915A publication Critical patent/CN113811915A/zh
Application granted granted Critical
Publication of CN113811915B publication Critical patent/CN113811915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/20Monitoring the location of vehicles belonging to a group, e.g. fleet of vehicles, countable or determined number of vehicles
    • G08G1/202Dispatching vehicles on the basis of a location, e.g. taxi dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/02Reservations, e.g. for tickets, services or events
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0835Relationships between shipper or supplier and carriers
    • G06Q10/08355Routing methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

可以将分层多代理增强学***台的统一订单派发和车队管理。可以获得信息。该信息可以包括共享出行平台的状态和一组消息。可以将所获得的信息输入到训练的分层增强学***台的状态和该组消息来获得该地区中的辖区的至少一个目标。可以基于乘车共享平台的状态、该组消息和至少一个目标为该地区中的辖区中的每个车辆生成车辆动作。

Description

用于在线共享出行平台的统一订单派发和车队管理
相关申请交叉引用
本申请要求2019年12月19日提交且标题为“用于在线共享出行平台的统一订单派发和车队管理”的美国非临时性专利申请16/720,676以及2019年2月26日提交且标题为“搭乘订单派发的***和方法”的美国临时性专利申请62/810,860的优先权。美国非临时性专利申请16/720,676要求美国临时性专利申请62/810,860的优先权。上述专利申请通过引用整体并入本文。
技术领域
本公开一般涉及基于分层多模块增强学***台内的订单派发和车队管理的统一决策任务。
背景技术
在线共享出行平台可以通过共享和重新分配运输资源以促进运输效率来实质性地改变日常生活。共享出行平台可以执行两个决策制定任务。第一任务可以包括订单派发。订单派发可以包括将来自乘客的订单与可用车辆(即驾驶员)实时匹配来直接交付服务。第二种决策制定任务可以包括车队管理。车队管理可以包括预先将车辆重新定位到某些区域,以对后来的命令派发做准备。
例如,在处理大量订单和车辆时,互连订单派发和车队管理可能存在很大技术难题。一种解决途径是将每个可用车辆作为代理建立模型。然而,对于这种解决途径,该平台必须维持与环境交互的数千个代理,从而产生巨大的计算成本。寻求最优控制策略的一个关键性难题是在即时和将来的酬劳(例如,累计驾驶员收入)之间找到权衡。将车辆以贪婪的方式与长途订单相匹配可能在单个订单派发阶段获得高即时收益,但可能会有损于订单响应速率(order response rate,ORR)。在高峰时段期间,此问题可能更加突出,因为这些行程可能具有长驾驶时间并结束于不受欢迎的目的地。
发明内容
本说明书的多种实施例包括但不限于用于搭乘订单派发的***、方法和非暂时性计算机可读介质。
在多种实施方式中,一种方法可以包括获得信息。所获得的信息可以包括共享出行平台的状态和一组消息。该方法还可以包括将所获得的信息输入到训练的分层增强学***台的状态和一组消息来获得该地区中的辖区的至少一个目标。该方法还可以包括基于共享出行平台的状态、该组消息和至少一个目标以在地区中的辖区中为每个车辆生成一组车辆动作。
在本公开的另一方面,一种计算***可以包括一个或多个处理器和一个或多个非暂时性计算机可读存储器,该一个或多个非暂时性计算机可读存储器耦合到所述一个或多个处理器且配置有由所述一个或多个处理器可执行的指令。执行指令可以使***执行多个操作。这些操作可以包括获得信息。所获得的信息可以包括共享出行平台的状态和一组消息。这些操作还可以包括将所获得的信息输入到训练的分层增强学***台的状态和一组消息来获得该地区中的辖区的至少一个目标。这些操作还可以包括基于共享出行平台的状态、该组消息和至少一个目标在地区中的辖区中为每个车辆生成一组车辆动作。
本公开的又一方面涉及一种非暂时性计算机可读存储介质,其配置有一个或多个处理器可执行的指令,以使该一个或多个处理器执行多个操作。这些操作可以包括获得信息。所获得的信息可以包括共享出行平台的状态和一组消息。这些操作还可以包括将所获得的信息输入到训练的分层增强学***台的状态和一组消息来获得该地区中的辖区的至少一个目标。这些操作还可以包括基于共享出行平台的状态、该组消息和至少一个目标在地区中的辖区中为每个车辆生成一组车辆动作。
在一些实施例中,共享出行平台的状态可以包括该辖区中可用车辆的数量、该辖区中的出行订单的数量、该辖区的熵、车队管理组中车辆的数量以及辖区中订单的分布。
在一些实施例中,该组消息可以包括用于在至少一个管理者模块的第一管理者模块与第二管理者模块之间进行协调的一组管理者级消息,以及用于该组工作者模块在之间进行通信的一组工作者级消息。
在一些实施例中,对应于该组工作者模块中每个工作者模块的辖区可以对应于代表真实世界地理区域的网格世界中的网格单元。
在一些实施例中,车辆动作可以包括订单派发(OD)或车队管理(FM)。
在一些实施例中,OD可以包括在共享出行平台中将对应车辆分派给乘客。
在一些实施例中,FM可以包括将对应车辆重新定位到不同的辖区或将对应车辆保持在辖区中。
在一些实施例中,生成车辆动作可以包括为一组工作者代理中的每个工作者代理获得一组特征权重。该组特征权重可以基于共享出行平台的状态、该组消息和至少一个目标来获得。可以针对一组出行订单获得一组排名特征。可以基于该组特征权重和该组排名特征来获得候选OD任务订单和候选FM任务订单的排名列表。可以从每个车辆的排名列表中选择最上方的车辆动作。
在一些实施例中,至少一个管理者模块可以基于累计驾驶员收入和订单响应速率来接收响应所述车辆动作的外在酬劳。
在一些实施例中,该组工作者模块中的每个工作者模块可以基于至少一个目标与共享出行平台状态随时间的变化之间的余弦相似性来接收响应所述车辆动作的内在酬劳。
参考附图来考虑下文描述以及所附权利要求,本文公开的***、方法和非暂时性计算机可读介质的这些和其它特征以及操作方法和相关结构元件的功能和部件组合以及制造经济性将变得显而易见,所有这些附图构成本说明书的一部分,其中多个不同附图中相似的附图编号指代相应部分。然而,应当清楚地理解,附图仅用于说明和描述的目的,并无意作为对本发明限制的定义。应理解,前文概略描述和下文的详细描述仅为示范性和解释性的,并且不限制按权利要求的发明。
附图说明
在所附权利要求中具体阐述了本发明技术的各种实施例的某些特征。通过参考以下详细描述将获得对该技术的特征和优点的更好理解,所述详细描述阐述了利用本发明的原理的示例性实施例,以及在附图中:
图1示出了根据多种实施例的用于统一搭乘订单派发和车队管理的示例性***。
图2A示出了根据多种实施例的六边形网格世界的示例图。
图2B示出了根据多种实施例的网格世界中的动作和酬劳的示例图。
图3示出了根据多种实施例的统一搭乘订单派发和车队管理的示例性框图。
图4A示出了根据多种实施例的管理者模块的示例性框图。
图4B示出了根据多种实施例的工作者模块的示例性框图。
图5A示出了根据多种实施例的网格世界中的FM和OD动作的示例图。
图5B示出了根据多种实施例的没有车队管理的网格世界中的动作的示例图。
图6图示根据本公开的多种实施例的用于统一搭乘订单派发和车队管理的示例方法的流程图。
图7是可在其上实施本文所述的任一实施例的计算机***的框图。
具体实施方式
现在将参考附图描述多种实施例。应当理解,本文公开的任何实施例的特定特征和方面可以与本文公开的任何其它实施例的特定特征和方面一起使用和/或进行组合。还应当理解,此类实施例是举例说明的,并且仅仅说明本发明范围内的少量实施例。对本发明所属领域的技术人员来说显而易见的多种改变和修改被认为落在所附权利要求中进一步限定的本发明精神、范围和预期之内。
本文公开的方法可以改进用于共享出行平台的统一订单派发和车队管理的多模块分层强化学***台中控制大规模同类集合的车辆。在线共享出行平台中的车辆可以分为两个群组:订单派发(order dispatching,OD)群组和车队管理(fleet management,FM)群组。对于OD群组,可以将车辆与可用订单成对匹配。对于FM群组,可以将车辆重新定位到新的位置,或可以将其保持在相同的位置。改进OD和FM决策制定任务可以通过让驾驶员能被定位到即时和将来订单附近来提高在线共享出行平台的整体效率。
可以执行匹配订单车辆对和重新定位车辆的决策制定任务,以使车辆的将来位置在将来订单附近。可以将OD和FM建模成顺序决策问题,并且可以使用增强学***台。可以统一地解决这些问题来提高性能。
在一些实施例中,可以利用地区网格世界来降低计算成本。可以将每个地区网格单元视为一个代理,并且可以在分层学***衡即时和将来酬劳来增加ADI。可以部署RL以将来自在线规划的即时订单酬劳与将来状态值组合为最终匹配值。
在一些实施例中,可以使用HRL来改善不同地区之间的协调。可以使用地区代理的地理层次结构。可以将大区(即,地区)视为管理者代理以及可以将小区(即,辖区)视为工作者代理。每个管理者代理可以控制一组工作代理。管理者代理可以在较低的空间和时间维度下运行,并且可以设置可向工作者代理传达的抽象目标。工作者代理可以生成动作,并可以与环境进行交互。可以将这些动作与管理者级目标和工作者级消息进行协调。这种解耦结构可以促进长期信用分配,可以改善即时和将来收入之间的平衡。
在一些实施例中,可以将选择订单的任务建模成RL动作。传统的RL模型需要固定的动作空间,但是,由于可用订单不断变化,无法保证用于选择订单的固定动作空间。可以学习状态动作值函数来评估每个有效订单车辆匹配。然后,可以使用诸如Kuhn-Munkres(KM)算法的组合优化方法来过滤这些匹配。然而,这种方法面临着订单派发和车队管理是不同任务的难题,这导致异构动作空间。异构动作空间可能导致高计算成本。
在一些实施例中,可以将动作定义为用于排名订单和车队管理的权重向量。可以将车队控制设置为伪订单,可以在每个代理中对所有订单排名并将其与车辆匹配。由此,可以避免异构和变化动作空间以及高计算成本。统一订单派发和车队管理任务可以提供ADI和ORR意义上的卓越性能。
订单派发和车队管理是在线共享出行平台的两个主要决策制定任务。为了提高全局性能,可以利用基于规则的和组合优化技术。大量可用服务数据使得强化学***。可以使用场景多代理参与评论(contextual multi-agent actor-critic)框架来捕获高维度空间的复杂随机需求供应变化。可以在车队管理***中适应不同场景的大量代理中实现显性协调。可以使用订单派发和车队管理的统一建模来改进在线共享出行平台。
可以使用HRL来扩展传统RL方法来解决具有长期相关性或多级交互模式的任务。可以在多任务设置中训练多级分层策略,并且可以在稀疏酬劳问题中实现分层设置。可以使用选项框架来将二级分层结构的问题公式化,其中较低级是具有终止条件的子策略。传统选项框架受到设计选项的先验知识的影响。可以通过低级策略来统一地学习高级策略。然而,这种参与评论HRL方法必须对于每个时间步学习一个子策略或对于整个事件学习一个策略。因此,整个模块的性能通常依赖于学习有用的子策略。为了保证生成有效的子策略,可以针对低级策略提供辅助酬劳(例如,基于先有领域知识或交互信息的手动设计(hand designed)的酬劳)。然而,获得一个精心设计和合适的酬劳通常是成本高昂的。封建网络(FeUdal Networks,FuN)可以采用通用酬劳进行低级策略学习,以避免设计手动酬劳的成本。FuN来自封建(feudal)RL,可以包括设计成实现多个目标并接收参数化的较低级别酬劳的模型。在FuN中,管理者和工作者模块可以设为一对一,并且共享相同的观察值。
在一些实施例中,多个工作者可以学***台的性能。
图1示出了根据多种实施例的用于统一搭乘订单派发和车队管理的示例性***100。示例性***100可以包括计算***102、计算设备104和计算设备106。应当理解,虽然图1中示出两个计算设备,但是***100中可以包括任意数量的计算设备。计算***102可以在一个或多个网络(例如,企业网络)、一个或多个端点、一个或多个服务器或一个或多个云中实现。服务器可以包括用于管理对网络中的集中式资源或服务进行访问的硬件或软件。云可以包括跨网络分布的服务器群组和其它设备。
计算设备104和106可以实施为诸如移动电话、平板电脑、服务器、台式计算机、笔记本电脑,车辆(例如,汽车、卡车、船、火车、自动驾驶车辆、电动车辆,电动自行车)等,或在其中实施。计算***102可以与计算设备104和106和其它计算设备进行通信。计算设备104和106可以通过计算***102彼此通信,并且可以直接彼此通信。设备之间的通信可以通过因特网进行,通过本地网络(例如,LAN)进行或通过直接通信(例如,蓝牙、射频、红外线)进行。
在一些实施例中,***100可以包括约车平台。约车平台可以通过将车辆驾驶员与乘客连接来实现交通服务。该平台可以从乘客接受交通请求,识别空闲车辆以满足这些请求,安排接取和处理交易。例如,乘客140可以使用计算设备104来预订行程。行程订单可以被包含在通信122中。计算设备104可以安装有与约车平台相关联的软件应用、Web应用、API或其它合适的界面。
计算***102可以接收一个或多个行程的请求并回复以报价数据。一个或多个行程的报价数据可以被包含在通信122中。当乘客140选择一个行程时,计算***102可以将行程信息转发到不同的空闲车辆的驾驶员。行程信息可以被包含在通信124中。例如,可以将请求发布到由车辆150的驾驶员携带的计算设备106上,以及其他驾驶员携带的其它通勤设备上。车辆150的驾驶员可以接受发布的交通请求。可以将接受发送到计算***102,并且可以将其包含在通信124中。计算***102可以通过计算设备104将匹配数据发送给乘客140。匹配数据可以被包含在通信122中。还可以通过计算设备106将匹配数据发送给车辆150的驾驶员,并且可以将其包含在通信124中。匹配数据可以包括接取位置信息、费用、乘客信息、驾驶员信息和车辆信息。然后可以将匹配的车辆派往正在请求的乘客。费用可以包括交通费,并且可以在***102、计算设备104和计算设备106之间进行交易。费用可以被包含在通信122和124中。通信122和124可以附加地包括约车平台的状态的观察值。例如,可以将观察值包含在由信息部件112获得的约车平台的初始状态中,并在下文中予以更详细地描述。通信124可以附加地包括用于将车辆150的驾驶员重新定位到不同辖区或保留在当前辖区中的指令。
虽然计算***102在图1中示出为一个实体,但是这仅仅是为了容易参考,并不意味着限制。本文描述的计算***102的一个或多个部件或一个或多个功能可以在单个计算设备或多个计算设备中实现。计算***102可以包括信息获得部件112、HRL模型部件114和定价动作部件116。计算***102可以包括其它部件。计算***102可以包括一个或多个处理器(例如,数字处理器、模拟处理器,设计成处理信息的数字电路、中央处理单元、图形处理单元、微控制器或微处理器、设计成处理信息的模拟电路、状态机和/或用于以电子方式处理信息的其它机构)以及一个或多个存储器(例如,永久性存储器、临时性存储器、非瞬态计算机可读存储介质)。该一个或多个存储器可以配置有可被一个或多个处理器执行的指令。处理器可以被配置为通过解释存储在存储器中的机器可读指令来执行多种操作。计算***102可以安装有用于访问***100的其它设备的适合软件(例如,平台程序等)和/或硬件(例如,导线、无线连接等)。
在一些实施例中,计算***102的一个或多个存储器可以存储训练的HRL模型。训练的HRL模型的功能可以是可被计算***102的一个或多个处理器执行的。例如,训练的HRL可以存储在关联HRL模型部件114中。训练的HRL模型可以包括管理者模块,并且管理者模块可以包括一组工作者模块。在一些实施例中,管理者模块可以包括管理者代理,而工作者模块可以包括工作者代理。管理者模块、工作者模块、管理者代理和工作者代理可以存储在计算***102的一个或多个存储器中,并且可以是可被计算***102的一个或多个处理器执行的。
信息获得组件112可以被配置为获得信息。所获得的信息可以包括共享出行平台的状态和一组消息。获得信息可以包括访问、获取、分析、确定、检查、识别、加载、定位、打开、接收、检索、复查、存储或以其它方式获得信息的其中一种或多种。在一些实施例中,共享出行平台的状态可以包括来自管理者代理和工作者代理的观察值ot∈O。管理者代理和工作者代理的观察值可以在规模中有所不同。每个管理者的观察值可以包括其工作者的统一观察值。在每个时间步t,代理i可以绘制与st∈S环境状态相关的私有观察值
Figure BDA0003231293700000081
在一些实施例中,共享出行平台的状态可以包括与管理者模块对应的地区中的与工作者模块对应的辖区中的可用车辆的数量、该辖区中未付款的出行订单的数量、该辖区的熵、车队管理组群中的车辆(例如,没有派遣给搭乘订单的车辆)的数量以及该辖区的订单分布(例如,出行价格的分布、出行持续时间的分布)。共享出行平台的状态可以被表示为S=<Nvehicle,Norder,E,Nfm,Norder>。
在一些实施例中,一旦发生订单派发或车队管理,派发或调出的项可以从***划去。在一些实施例中,空闲车辆和可用订单可能构成共享出行***的失序和不均匀性(例如,在一个辖区中可能存在订单比空闲车辆更多,以及在另一个地区中空闲车辆比订单更多)。由此,可以扩展熵的概念,并将其定义为:
E=-kB×∑iρi logρi∶=-kB×ρ0 logρ0 (1)
其中kB是Boltzmann常数,以及ρi是每个状态的概率(例如,ρ1表示已派发和调出,ρ0表示其它位置)。在一些实施例中,可以忽略第一状态下的项,按如下得到ρ0的公式:
Figure BDA0003231293700000091
利用初始条件Nvehicle<Norder(即,车辆的数量小于订单的数量)。在一些实施例中,可以将初始条件转换为其它条件。
在一些实施例中,由信息获得部件112获得的一组消息可以包括第i个通信的协同信息
Figure BDA0003231293700000092
在一些实施例中,消息可以包括可以输入神经网络以实现期望结果的抽象数据(例如,字符、字符串、整数、浮点数)。协同信息
Figure BDA0003231293700000093
可以在t处从递归神经网络生成。在一些实施例中,该组消息可以包括用于在该至少一个管理者模块的至少第一管理者模块和第二管理者模块之间进行协调的一组管理者级消息,以及用于一组工作者级消息之间进行通信的一组工作者模块。可以将自我注意力机制延伸以学会按如下评估每个可用的交互:
hij=(hiWT)·(hjWS)T (3)
其中hiWT可以包括来自目标网格的消息嵌入,以及hjWS可以包括来自源网格的消息嵌入。可以将评估hij建模为第i个网格与第j个网格之间的通信的值。为了检索源网格和目标网格之间的通用注意力值,可以进一步将评估在邻域范围内归一化:
Figure BDA0003231293700000094
其中Ni可以包括邻域范围(即,可用于目标网格的一组交互)。为了来自不同网格的不同表示子空间共同参加该邻域,可以利用多头注意力来扩展观察值为:
Figure BDA0003231293700000095
其中H可以包括注意力头的数量,以及WT,WS,WC可以包括多组可训练参数。例如,该组消息可以包括下文结合图4A描述的注意力输入414,以及结合图4B描述的注意力输入464。
HRL模型部件114可以被配置为将获得的信息输入到训练的HRL模型中。训练的分层增强学习(HRL)模型可以包括对应于地区的至少一个管理者模块,并且该至少一个管理者模块可以包括一组工作者模块,每个工作者模块对应于该地区中的辖区。该组工作者模块可以包括一个或多个工作者模块。在一些实施例中,对应于工作者模块的每个辖区可以对应于表示真实世界地理区域的网格世界中的网格单元。由此,对应于管理者模块的每个地区可以包括一个群组的网格。例如,至少一个管理者模块可以包括7个邻域网格的群组。表示真实世界地理区域的网格世界可以包括图2A中所示的六边形网格世界。
图2A示出了根据多种实施例的六边形网格世界202的示例图200。网格世界202可用于表示一个地区(例如,市、县、区、州、国家)。在一些实施例中,可以将接取距离内的订单被派发给车辆。可以基于接取距离设置网格之间的距离。相同空间时间节点中的车辆可以是同类的(即,位于相同网格中的车辆可以共有相同的特征)。由此,可以将订单派发建模为大规模并行排名问题,其中可以将订单排名并在每个网格中与同类车辆进行匹配。FM的车队控制(即,将多个车辆重新定位到相邻网格或保留在当前网格)可以视为伪订单,并被包含在与订单派发相同的排名过程中。可以将统一OD和FM建模为N个代理的马尔可夫博弈
Figure BDA0003231293700000101
。博弈
Figure BDA0003231293700000102
可以由元组
Figure BDA0003231293700000103
定义,其中S,A,P,R,γ分别是代理的数量、状态空间、动作空间、站转换概率、酬劳函数和未来酬劳折扣因子。
在一些实施例中,可用网格可以视为由i∈I∶=1,...,N标识的代理。每个单一网格可以具有关联的工作者模块和管理者模块。多个网格的一个群组可以与同一管理者模块相关联。网格世界202可以包括管理者212和214。管理者212可以包括工作者220-226,并且管理者214可以包括工作者231和232。网格世界202可以包括其它管理者和工作者,管理者212和214可以包括其它工作者。在一些实施例中,工作者220-232可以对应于工作者模块,并且管理者212和214可以对应于管理者模块。在一些实施例中,工作者220-232可以对应于工作者代理,并且管理者212和214可以对应于管理者代理。虽然车辆的数量和订单的数量可能随着时间的推移而变化,但可以代理(即网格)的数量是固定的。
返回图1,HRL模型部件114还可以被配置为基于共享出行平台的状态和一组消息来获得该地区中的辖区的至少一个目标。例如,在HRL设置中,管理者模块可以包括管理者代理,并且工作者模块可以包括工作代理。管理者代理的动作可以包括为其工作者代理生成摘要和内在目标。这些目标可以包括用于鼓励工作者代理执行某些动作的值。例如,这些目标可以鼓励工作者代理将车辆从具有高供应(即空闲车辆)和低需求(即,少量订单)的辖区重新定位到具有低供应和高需求的辖区。在一些实施例中,可以基于共享出行平台的状态、该组消息和至少一个目标从每个工作者代理获得真实OD任务订单和伪FM任务订单的排名列表。HRL中的工作者代理的动作可以包括生成一组排名特征的权重向量。可以通过更改排名特征的权重向量来更改工作者代理的动作。在每个时间步中,整个多代理***可以针对每个管理者代理和工作者代理产生统一动作at∈A1×...×AN,这可以根据状态转换P(st+1|st,at)在环境中诱导转换。状态转换可以基于状态st和动作at来确定状态st+1。状态转换可以包括神经网络。在一些实施例中,仅管理者模块可以接收来自与环境交互的反馈。外在酬劳功能可以确定优化方向,并且可以与即时利润和潜在价值两者成比例。可以将内在酬劳设置为鼓励工作者模块遵循管理者模块的指令。
定价动作部件116可以被配置为基于共享出行平台的状态、该组消息和至少一个目标来生成该地区中的辖区中的每个车辆的车辆动作。在一些实施例中,车辆动作可以包括OD或FM。在一些实施例中,OD可以包括将每个车辆添加到OD群组中,并在共享出行平台中将对应的车辆分派给乘客。在一些实施例中,FM可以包括将每个车辆添加到FM群组中,并将对应的车辆重新定位到不同的辖区或将对应的车辆保留在该辖区。在一些实施例中,网格单元的工作者模块可以为该网格单元中的车辆生成车辆动作。在一些实施例中,为每个车辆产生车辆动作可以包括为一组工作者模块中每个工作者模块获得一组特征权重。该组特征权重可以基于共享出行平台的状态、该组消息和至少一个目标来获得。可以针对一组出行订单获得一组排名特征。可以基于该组特征权重和该组排名特征获得候选OD订单和候选FM订单的排名列表。可以从每个车辆的排名列表中选择最上方的车辆动作。图2B中示出了工作者代理采取的车辆动作的示例。
图2B示出了根据多种实施例的网格世界中的动作和酬劳的示例图250。在时间t=0处,工作者220可以对可用的真实OD订单和潜在的伪FM进行排名,并选择了前两个选项。例如,前两个动作可以包括OD动作241和FM动作242。OD动作241可以包括从与工作者220相关联的网格204到与工作者231相关联的网格206的真实订单。例如,可以调度车辆以接取具有在网格206中的乘坐目的地的位于网格204中的乘客。FM动作242可以包括从与工作者220相关联的网格204到与工作者225相关联的网格208的伪订单。如先前参考图2A所描述的,管理者212可以包括工作者220-226。如果驾驶员完成由工作者220生成的OD动作241,则工作者220的管理者212可以接收到OD酬劳251。如果驾驶员完成由工作者220生成的FM动作242,则工作者220的管理者212可以接收FM酬劳252。
图3示出了根据多种实施例的用于统一搭乘订单派发和车队管理的示例性框图300。示例框图300可以包括两层模块的分层架构。该分层架构可以包括第一层管理者模块和第二层工作者模块。在一些实施例中,管理者模块可以包括管理者代理,而工作者模块可以包括工作者代理。每个模块可以与用于交换消息的通信部件相关联。第一层管理者模块可以包括管理者312和314。第二层工作者模块可以包括工作者322、324、326和328。每个管理者可以指派有多个工作者,并且***可以学习协作两层模块。例如,可以将工作者322和324指派给管理者312,并且可以将工作者326和328指派给管理者314。
在一些实施例中,管理者模块可以从环境350的当前时间步t的管理者级注意力330和管理者级观察值
Figure BDA0003231293700000121
获得前一个时间步t-1管理者级消息
Figure BDA0003231293700000122
注意力330、342和344可以包括上文参考图1的信息获得部件112描述的注意力机制。环境350可以包括真实世界地区。管理者模块可以基于管理者级消息和观察值来生成目标向量gt和潜伏状态表示
Figure BDA0003231293700000123
可以将潜伏状态表示输入到管理者级注意力330中,并且可以向工作者模块提供目标向量。工作者322和324可以从工作者级注意力342获得工作者级对等消息
Figure BDA0003231293700000124
工作者326和328可以从工作者级注意力344获得工作者级消息
Figure BDA0003231293700000125
工作者322、324、326和328可以从环境350获得私用工作者级观察值
Figure BDA0003231293700000126
私用观察值可以包括工作者不与其它工作者或其管理者共享的观察值。工作者模块可以基于私用工作者级观察值
Figure BDA0003231293700000127
工作级对等消息
Figure BDA0003231293700000128
和来自管理者模块的目标向量gt,生成针对工作级注意力342和344的动作和输入
Figure BDA0003231293700000129
图4A示出了根据多种实施例的管理者模块400的示例性框图。管理者模块400可以从共享出行平台的环境接收观察值402以及从管理者级注意力接收消息404。观察值402可以包括管理者代理在时间步t处接收的观察值
Figure BDA00032312937000001210
消息404可以包括前一个时间步t-1的管理者级消息
Figure BDA00032312937000001211
观察值402可以被馈送到多层感知(multilayer perceptron,MLP)406中。MLP 406的输出和消息404可以被馈送到整流的修正的单元(rectified linear unit,ReLU)408中。可以将ReLU 408的输出馈送到扩张的递归神经网络(recurrent neuralnetwork,RNN)410中。RNN 410可以作为输出目标412和注意力输入414生成。目标412可以包括时间步t处输出的目标gt。注意力输入414可以包括潜伏状态表示
Figure BDA0003231293700000131
并且可以是管理者级注意力的输入。可以将注意力输入414反馈回RNN 410。
在一些实施例中,至少一个管理者模块可以基于ADI和ORR接收响应于车辆动作的外在酬劳。例如,可以通过计算***102的硬件接收外在酬劳。环境可能响应以下一个时间步t+1的新观察值
Figure BDA0003231293700000132
和标量酬劳rt。该模块的目标可以包括最大化具有γ∈[0,1]的折扣返利
Figure BDA0003231293700000133
在共享出行环境中,可以通过将ADI和ORR纳入考虑来设计全局酬劳,其公式可以是:
Figure BDA0003231293700000134
其中酬劳rADI表示ADI。可以根据每个服务订单的价格计算酬劳rADI。酬劳rORR可以鼓励ORR,并且可以通过以下公式计算:
Figure BDA0003231293700000135
其中E是管理者模块的熵,以及
Figure BDA0003231293700000136
是全局平均熵。等式(7)的第一部分可以将所有网格中的熵差求和,以便在全局层面上优化ORR。
Figure BDA0003231293700000137
Figure BDA0003231293700000138
可以表示时间步t处区域的车辆和订单分布。区域可以与网格不同,并且可以包括需要更多地关注的某些区(例如,地铁站)。分布可以包括泊松分布,其通常用于车辆路径选择和到达。可以使用Kullback-Leibler(KL)散度优化将每个区域中的车辆和订单分布进行对位。等式(7)的第二部分可以将所有区域的散度求和。组合的ORR酬劳设计可以有助于全局和本地优化。
图4B示出了根据多种实施例的工作者模块450的示例性框图。工作者模块450可以从共享出行平台的环境接收观察值452,从管理者级注意力接收消息454,从管理者模块接收目标462,以及接收排名特征470。观察值452可以包括由时间步t处由工作者代理接收的观察值
Figure BDA0003231293700000139
消息454可以包括用于前一个时间步t-1的工作者级消息
Figure BDA00032312937000001310
目标可以包括gt。排名特征470可以包括每个订单i的排名特征ei
观察值452可以被馈送到MLP 456。可以将MLP 456的输出和消息454馈送到ReLU458中。ReLU 458的输出可以被馈送到RNN 460中。RNN 460可以生成两个输出:ReLU 466的输入和注意力输入464。注意力输入464可以包括潜伏状态表示
Figure BDA0003231293700000141
并且可以是工作者级注意力的输入。注意力输入464可以被反馈回RNN 460中。可以将目标462输入到线性神经网络468中。ReLU 466可以从RNN 460接收输出和从线性468接收输出。ReLU 466可以生成特征权重472。特征权重472可以包括与工作者模块450相关联的网格单元中的车辆的潜在动作。
在一些实施例中,该组工作者模块的每个工作者模块可以基于至少一个目标与共享出行平台的状态随时间的变化之间的余弦相似度,接收响应于车辆动作的内在酬劳。例如,可以由计算***102的硬件接收内在酬劳。在一些实施例中,可以将封建网络(FeudalNetworks,FuN)目标嵌入用于工作者模块。可以使用内在的酬劳来鼓励工作者模块遵循目标。酬劳可以定义为:
Figure BDA0003231293700000142
其中dcos(α,β)=αTβ/(|α|·|β|)是两个向量之间的余弦相似度。与传统的FuN不同,工作者模块450过程可以产生由两个步骤组成的动作:1)参数生成,以及2)动作生成。可以在参数生成中使用状态相关的评分功能fθw,以将当前状态
Figure BDA0003231293700000143
映射到权重向量ωt列表,如下所示:
Figure BDA0003231293700000144
可以基于特征权重472和排名特征470生成动作474。动作474可以包括订单派发和车队管理动作。生成动作474可以包括利用非线性关系扩充线性关系。可以将订单i的评分功能参数ωt和排名特征ei公式设为
Figure BDA0003231293700000145
在一些实施例中,可以构建
Figure BDA0003231293700000146
中的真实订单和车队控制订单(即,将车辆重新定位到相邻网格或保持在当前网格的伪订单),并将其添加到项空间
Figure BDA0003231293700000147
中。在一些实施例中,计算了
Figure BDA0003231293700000148
中的所有可用选项之后,可以对这些选项排名。可以选择前k项进行订单派发和车队管理。在一些实施例中,可以使用Boltzmann Softmax选择器来生成所选择的k个项:
Figure BDA0003231293700000149
where k=min(Nvehicle,Norder),其中k=min(Nvehicle,Norder)和T表示用于控制探索率的温度超参数,并且M是已评分的订单候选项的数量。这种方法不仅提供可控探索的动作选择过程,还使策略决定多元化,避免选择多个驾驶员群组前往相同网格。
在一些实施例中,可以为每个工作者模块选择最佳统一OD和FM动作。可以对应于当前时间步t获得当前管理者级和工作者级观察值
Figure BDA00032312937000001410
Figure BDA00032312937000001411
可以对应于前一个时间步t-1获得相互管理者级和工作级通信消息
Figure BDA00032312937000001412
Figure BDA00032312937000001413
每个管理者模块可以生成当前时间步t的目标gt。每个工作者模块可以根据等式(9)生成权重向量ωt。可以将真实搭车订单和车队控制项添加到项空间
Figure BDA0003231293700000151
中,并且可以根据等式(10)对项空间
Figure BDA0003231293700000152
中的项进行排名。动作474可以包括每个工作者代理的前k项的选择。
在一些实施例中,管理者模块可以基于其观察值和对等消息生成特定目标。每个管理者模块下的工作者模块可以根据私用观察值和共享目标生成权重向量。可以构建通用项空间
Figure BDA0003231293700000153
来用于订单派发和车队管理,并且对
Figure BDA0003231293700000154
中的项进行排名。可以基于车辆和订单的数量中的最小值,从前k个已评分项中选择最终动作。可以将FuN和HRL中的学习方法扩展成训练管理者和工作者模块中包含的管理者和工作者代理。例如,HRL可以包括异策略校正的分层增强学习(例如,HIRO)。异策略学习可以包括独立于代理的动作来学习最优策略。在HRL设置中,可以使用异策略校正将过去的观察值和酬劳与管理者代理生成的目标相关联。然后可以基于关联性来训练管理者代理。
在一些实施例中,可以利用深度确定性策略梯度(deep deterministic policygradients,DDPG)算法来训练管理者代理和工作者两者的参数。DDPG可以包括参与者和评论者。参与者可以执行动作,并且评论者可以为参与者更新其参数给予指引。可以将评论者设计成利用近似器并学习动作值函数Q(otat)。最优动作值函数Q*(otat)可以遵循Bellman等式:
Figure BDA0003231293700000155
等式(11)可能需要|A|评估来选择最优动作。由此,在真实世界场景(例如,具有巨大状态和动作空间的共享出行设置)中采用等式(11)可能是困难的。
在一些实施例中,参与者架构可以为评论者生成确定性动作。例如,工作者代理可以选择一组置顶的操作。在一些实施例中,近似器函数可以估计动作值函数为Q(o,a)≈Q(o,a;θμ)。可以使用深度Q-Network(DQN)来估计动作值函数。例如,可以通过最小化损失函数的序列L(θμ)来训练神经网络函数近似器:
Figure BDA0003231293700000156
其中
Figure BDA0003231293700000157
可以是当前迭代的目标。由此,可以逼近最优动作。
在一些实施例中,可以使用动态模拟环境来训练和评估,以解释增强学习的试错性质。基于网格的模拟器可以扩展到统一订单派发和车队管理。在一些实施例中,可以对每个学习方法运行20个事件。每个事件可以包括周期性地训练、存储训练的模型,并利用5个随机种子对所存储的模型进行评估。可以模拟统一订单派发和车队管理任务。可以首先在单个订单派发环境中评估ADI和ORR。然后,可以在统一设置中评估ADI和ORR,并在案例研究中与单个设置中的性能进行比较。
可以不仅通过同时考虑每个订单的每个特征,而且还通过学***均场(mean field)代理之间进行协作。网格可以传达更多信息,并且可以更容易学习,因为网格是静态的,而驾驶员是相对动态的。每个网格可以被表示为一个代理,并且可以通过图形注意力网络交换消息和智能地学习协作网格。
可以使用可视化分析来分析所学习的图形注意力网络是否能够捕获需求供应关系。如图3所示,可以以分层方式执行通信机制。管理者之间的注意力可以进行通信并且学习以抽象且全局性方式协作,而对等工作者可以针对本地网格来运行和确定注意力。具有更多订单或更高的注意力值的网格可以以红色(如果相反情况,则为绿色)表示,并且其间隙可以与颜色的深浅成比例。由此,该值函数可以从全局和本地两者的视角估计供需差距的相对偏移量。
图5A示出了根据多种实施例的网格世界中的FM和OD动作的示例图500。可以构造合成数据集以模拟高峰时段的共享出行,并且可以追踪和分析单个驾驶员是如何被派遣的。在高峰时段期间,位于市区的人可能返回到市郊。市区区域可以包含更多和高价值的订单。市郊区域可以将车队控制与真实订单一起排名,并可以选择将驾驶员重新定位到市区区域以接取更多订单。车辆510可以首先接收FM 522以重新定位到市区区域。在车辆510重新定位到市区区域之后,车辆510可以接收OD 524和526。
图5B示出了根据多种实施例的在没有车队管理的网格世界中的动作的示例图550。车辆560可以接收OD 572、574和576。没有车队管理的情况下,可以按订单分配驾驶员,驾驶员可以留在市区区域,并且获派发较少且低价值的订单。统一订单派发和车队管理可以通过分别获益于ADI和ORR来改善驾驶员和乘客的体验,并且还可以减轻交通拥堵和促进通行效率。
图6示出了根据本公开的多种实施例的用于统一搭车订单派发和车队管理的示例性方法600的流程图。方法600可以在包括例如图1的***100的多种环境中来实现。下文给出的方法600的操作理应是说明性的。根据具体实现方式,方法600可以包括按多种顺序或并行执行的附加、更少或替代步骤。方法600可以在包括一个或多个处理器的多种计算***或设备中实现。
就方法600而言,在框602处,可以获得信息。该信息可以包括共享出行平台的状态和一组消息。在框604处,可以将所获得的信息输入到训练的分层增强学***台的状态和该组消息来获得该地区中的辖区的至少一个目标。在框608处,可以基于共享出行平台的状态、该组消息和至少一个目标,为该地区中的辖区中的每个车辆生成一组车辆动作。
图7是可实现本文描述的任何实施例的计算机***700的框图。例如,计算***700可以用于实现图1所示的计算***102。作为另一个例子,图2-6中所示且结合附图描述的过程/方法可以通过存储在主存储器706中的计算机程序指令来实现。当这些指令被处理器704执行时,它们可以执行如图2-6所示且在上文中描述的步骤。在一些实施例中,可以使用硬布线电路代替软件指令或与软件指令相组合。计算机***700包括总线702或用于传达信息的其它通信机构,与总线702耦合以进行处理信息的一个或多个硬件处理器704。硬件处理器704可以是例如一个或多个通用微处理器。
计算机***700还包括主存储器706,例如随机存取存储器(RAM)、高速缓存和/或其它动态存储设备,其耦合到总线702以用于存储信息和被处理器704执行的指令。主存储器706还可以用于在执行由处理器704执行的指令期间存储临时变量或其它中间信息。当存储在处理器704中可访问的存储介质中时,这些指令使计算机***700为专用机器,该专用机器被定制成执行指令中指定的操作。主存储器706可以包括非易失性介质和/或易失性介质。非易失性介质可以包括例如光盘或磁盘。易失性介质可以包括动态存储器。常见形式的介质可以包括:软盘、硬盘、固态硬盘、磁带或任何其它磁数据存储介质、CD-ROM、任何其它光学数据存储介质、任何有孔图案的物理介质、RAM、DRAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其它内存芯片或盒式磁带,以及其网络版本。
计算机***700可使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实现本发明所述的技术,这些与计算机***相结合使得计算机***700成为专用机器或将该***编程为专用机器。根据一个实施例,本发明的技术是通过计算机***700响应于处理器704执行包含在主存储器706中的一个或多个指令的一个或多个序列而执行的。这些指令可从另一个存储介质(比如,存储设备708)读入主存储器706。执行包含在主存储器706中的指令序列使得处理器704可执行本发明描述的处理步骤。
计算机***700还包括与总线702耦接的通信接口710。通信接口710提供与连接到一个或多个网络的一个或多个网络链接耦接的双向数据通信。再例如,通信接口710可以是局域网卡,以提供与兼容局域网(或与广域网通信的广域网组件)之间的数据通信连接。还可实施无线链接。
可以将某些操作的执行分布在处理器之间,不仅驻留在单个机器内,而且跨多个机器部署。在一些示例实施例中,处理器或处理器实现的引擎可以设在单个地理位置(例如,在家庭环境中/办公环境或服务器场)中。在其它示例实施例中,处理器或处理器实现的引擎可以分布在多个地理位置。
在本文中将某些实施例描述为包括逻辑或多个部件。部件可以构成软件部件(例如,在机器可读介质上包含的代码)或硬件部件(例如,能够以某种物理方式配置或布置执行某些操作的有形单元)。如本文所使用的,为了方便起见,当组件可以包括可以编程或配置计算***102执行操作的指令时,可以将计算***102的组件描述为执行或配置用于执行操作。
虽然本文描述了所公开的原理的示例和特征,但是在不脱离所公开实施例的精神和范围的情况下,可以进行修改、调整和其它实现。而且,词汇“包括”、“具有”、“包含”和“含有”和其它类似形式的理应在含义上是等效的且是开放意义的,因为这些词汇任何一个之后的一个或多个项并不意味着此类一个或多个项的穷举列表,或者意味着仅限于列出的一个或多个项。还必须注意,如本文和所附权利要求中所使用的,单数形式“一个”、“个”和“所述”包括复数引用,除非上下文明确地另外陈述。
本文图示的实施例得以足够详细地描述,以使本领域技术人员能够实践所公开的教导。可以使用其它实施例并从中导出其它实施例,使得可以在不脱离本发明范围的情况下进行结构和逻辑替换和改变。因此,具体实施方式不应被视为具有限制意义,且各种实施例的范围仅由所附权利要求以及这些权利要求所赋予的等同物的全部范围来限定。

Claims (20)

1.一种用于统一搭乘订单派发和车队管理的计算机实现的方法,包括:
获得信息,所述信息包括共享出行平台的状态和一组消息;
将所获得的信息输入到训练的分层增强学习(HRL)模型中,其中,所述训练的HRL模型包括与地区对应的至少一个管理者模块,以及其中,所述至少一个管理者模块包括与所述地区中的辖区对应的一组工作者模块;
基于所述共享出行平台的状态和所述一组消息来获得所述地区中的所述辖区的至少一个目标;以及
对于所述地区中的所述辖区中的每个车辆,基于所述共享出行平台的状态、所述一组消息和所述至少一个目标生成车辆动作。
2.根据权利要求1所述的方法,其中,所述共享出行平台的状态包括:所述辖区中的可用车辆的数量、所述辖区中的出行订单的数量、所述辖区的熵、车队管理群组中的车辆的数量以及所述辖区中的订单分布。
3.根据权利要求1所述的方法,其中,所述一组消息包括:用于在所述至少一个管理者模块的至少第一管理者模块和第二管理者模块之间进行协调的一组管理者级消息,以及用于在所述一组工作者模块之间进行通信的一组工作者级消息。
4.根据权利要求1所述的方法,其中,所述一组工作者模块的每个工作者模块对应于表示真实世界地理区域的网格世界中的网格单元。
5.根据权利要求1所述的方法,其中,所述车辆动作包括:订单派发(OD)或车队管理(FM)。
6.根据权利要求5所述的方法,其中,所述订单派发包括在所述共享出行平台中将对应的车辆派遣给乘客。
7.根据权利要求5所述的方法,其中,所述车队管理包括将对应的车辆重新定位到不同的辖区或将所述对应的车辆保留在所述辖区。
8.根据权利要求5所述的方法,其中,为每个车辆生成所述车辆动作包括:
基于所述共享出行平台的状态、所述一组消息和所述至少一个目标来获得一组特征权重;
获得一组出行订单的一组排名特征;
基于所述一组特征权重和所述一组排名特征获得候选订单派发任务订单和候选车队管理任务订单的排名列表;以及
为每个车辆从所述排名列表中选择置顶的车辆动作。
9.根据权利要求1所述的方法,其中,所述至少一个管理者模块被配置为基于累计驾驶员收入和订单响应速率来接收响应所述车辆动作的外在酬劳。
10.根据权利要求1所述的方法,其中,所述一组工作者模块中的每个工作者模块被配置为基于所述至少一个目标与所述共享出行平台的状态随时间的变化之间的余弦相似度来接收响应所述车辆动作的内在酬劳。
11.一种用于统一搭车订单派发和车队管理的***,其包括一个或多个处理器和耦合到所述一个或多个处理器且配置有指令的一个或多个非瞬态计算机可读存储器,所述指令可被所述一个或多个处理器执行以使所述***执行包括以下的操作:
获得信息,所述信息包括共享出行平台的状态和一组消息;
将所获得的信息输入到训练的分层增强学习(HRL)模型中,其中,所述训练的HRL模型包括与地区对应的至少一个管理者模块,以及其中,所述至少一个管理者模块包括与所述地区中的辖区对应的一组工作者模块;
基于所述共享出行平台的状态和所述一组消息来获得所述地区中的所述辖区的至少一个目标;以及
对于所述地区中的所述辖区中的每个车辆,基于所述共享出行平台的状态、所述一组消息和所述至少一个目标生成车辆动作。
12.根据权利要求11所述的***,其中,所述一组消息包括:用于在所述至少一个管理者模块的至少第一管理者模块和第二管理者模块之间进行协调的一组管理者级消息,以及用于在所述一组工作者模块之间进行通信的一组工作者级消息。
13.根据权利要求11所述的***,其中,所述至少一个管理者模块被配置为基于累计驾驶员收入和订单响应速率来接收响应所述车辆动作的外在酬劳。
14.根据权利要求11所述的***,其中,所述车辆动作包括:订单派发(OD)或车队管理(FM)。
15.根据权利要求14所述的***,其中,所述订单派发包括在所述共享出行平台中将对应的车辆派遣给乘客。
16.根据权利要求14所述的***,其中,所述车队管理包括将对应的车辆重新定位到不同的辖区或将所述对应的车辆保留在所述辖区。
17.根据权利要求14所述的***,其中,为每个车辆生成所述车辆动作包括:
基于所述共享出行平台的状态、所述一组消息和所述至少一个目标来获得一组特征权重;
获得一组出行订单的一组排名特征;
基于所述一组特征权重和所述一组排名特征获得候选订单派发任务订单和候选车队管理任务订单的排名列表;以及
为每个车辆从所述排名列表中选择置顶的车辆动作。
18.一种配置有指令的非瞬态计算机可读存储介质,所述指令可被一个或多个处理器执行以使所述一个或多个处理器执行包括以下的操作:
获得信息,所述信息包括共享出行平台的状态和一组消息;
将所获得的信息输入到训练的分层增强学习(HRL)模型中,其中,所述训练的HRL模型包括与地区对应的至少一个管理者模块,以及其中,所述至少一个管理者模块包括与所述地区中的辖区对应的一组工作者模块;
基于所述共享出行平台的状态和所述一组消息来获得所述地区中的所述辖区的至少一个目标;以及
对于所述地区中的所述辖区中的每个车辆,基于所述共享出行平台的状态、所述一组消息和所述至少一个目标生成车辆动作。
19.根据权利要求18所述的非瞬态计算机可读存储介质,其中:
所述车辆动作包括订单派发(OD)或车队管理(FM);
所述订单派发包括在所述共享出行平台中将对应的车辆派遣给乘客;以及
所述车队管理包括将对应的车辆重新定位到不同的辖区或将所述对应的车辆保留在所述辖区。
20.根据权利要求18所述的非瞬态计算机可读存储介质,其中,为每个车辆产生所述车辆动作包括:
基于所述共享出行平台的状态、所述一组消息和所述至少一个目标来获得一组特征权重;
获得一组出行订单的一组排名特征;
基于所述一组特征权重和所述一组排名特征获得候选订单派发任务订单和候选车队管理任务订单的排名列表;以及
为每个车辆从所述排名列表中选择置顶的车辆动作。
CN202080017002.5A 2019-02-26 2020-02-24 用于在线共享出行平台的统一订单派发和车队管理 Active CN113811915B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962810860P 2019-02-26 2019-02-26
US62/810,860 2019-02-26
US16/720,676 2019-12-19
US16/720,676 US11393341B2 (en) 2019-02-26 2019-12-19 Joint order dispatching and fleet management for online ride-sharing platforms
PCT/US2020/019417 WO2020176381A1 (en) 2019-02-26 2020-02-24 Joint order dispatching and fleet management for online ride-sharing platforms

Publications (2)

Publication Number Publication Date
CN113811915A true CN113811915A (zh) 2021-12-17
CN113811915B CN113811915B (zh) 2024-05-31

Family

ID=72142018

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202080017002.5A Active CN113811915B (zh) 2019-02-26 2020-02-24 用于在线共享出行平台的统一订单派发和车队管理
CN202080017072.0A Active CN113692609B (zh) 2019-02-26 2020-02-24 通过订单车辆分布匹配以订单派发的多代理增强学习

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202080017072.0A Active CN113692609B (zh) 2019-02-26 2020-02-24 通过订单车辆分布匹配以订单派发的多代理增强学习

Country Status (3)

Country Link
US (2) US11393341B2 (zh)
CN (2) CN113811915B (zh)
WO (2) WO2020176381A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4002234A1 (en) * 2020-11-13 2022-05-25 Tata Consultancy Services Limited System and method for a real-time distributed dynamic task scheduling
CN112230679B (zh) * 2020-12-15 2021-03-09 中国人民解放军国防科技大学 基于延时的群组耦合***协同控制方法和装置
CN112541685A (zh) * 2020-12-17 2021-03-23 云南叮功出行科技有限公司 一种订单分配方法、***、平台及存储介质
US20220277329A1 (en) * 2021-02-26 2022-09-01 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for repositioning vehicles in a ride-hailing platform
KR102523056B1 (ko) * 2021-03-17 2023-04-17 고려대학교 산학협력단 멀티에이전트 강화학습을 활용한 드론 택시 시스템 및 이를 이용한 드론 택시 운용 방법
CN113011741B (zh) * 2021-03-18 2024-03-29 摩拜(北京)信息技术有限公司 一种车辆调度方法、装置及电子设备
CN113052467B (zh) * 2021-03-29 2023-10-31 武汉小安科技有限公司 基于运维成本的共享车辆调度方法及装置
CN113098007B (zh) * 2021-04-25 2022-04-08 山东大学 基于分层强化学习的微电网分布式在线调度方法及***
US20220366437A1 (en) * 2021-04-27 2022-11-17 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for deep reinforcement learning and application at ride-hailing platform
CN113393093A (zh) * 2021-05-27 2021-09-14 摩拜(北京)信息技术有限公司 基于网格的车辆调度方法和服务器
CN113395723B (zh) * 2021-06-11 2022-08-09 西安交通大学 基于强化学习的5g nr下行调度时延优化***
CN113658422B (zh) * 2021-07-26 2022-07-22 江苏大学 一种无人驾驶电动汽车最优调度方法
JP7494820B2 (ja) * 2021-08-25 2024-06-04 トヨタ自動車株式会社 情報処理装置、情報処理方法、およびプログラム
CN113687657B (zh) * 2021-08-26 2023-07-14 鲁东大学 用于多智能体编队动态路径规划的方法和存储介质
CN114237222B (zh) * 2021-11-16 2024-06-21 华南理工大学 一种基于强化学习的取送货车辆路径规划方法
CN114119159B (zh) * 2021-11-29 2024-05-28 武汉理工大学 一种网约车实时订单匹配和空闲车辆调度方法及***
CN114548682A (zh) * 2022-01-19 2022-05-27 浙江吉利控股集团有限公司 订单派发方法、订单派发装置、及计算机可读存储介质
CN114331645B (zh) * 2022-03-14 2022-08-05 广州宸祺出行科技有限公司 一种提升网约车的运力利用率的方法及***
CN114862170B (zh) * 2022-04-27 2024-04-19 昆明理工大学 一种用于通信设备制造过程的学习型智能调度方法、***
CN115713130B (zh) * 2022-09-07 2023-09-05 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法
CN115793583B (zh) * 2022-12-02 2024-06-25 福州大学 基于深度强化学习的流水车间新订单***优化方法
CN116828000B (zh) * 2023-08-28 2023-11-17 山东未来互联科技有限公司 基于确定性网络与sdn网络的乘车订单处理***及方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246246A1 (en) * 2010-04-01 2011-10-06 The Crawford Group, Inc. Method and System for Managing Vehicle Travel
US20120290652A1 (en) * 2011-05-13 2012-11-15 Zeljko BOSKOVIC Arrangement and method for transport sharing
US20140067491A1 (en) * 2012-08-30 2014-03-06 Frias Transportation Infrastructure Llc Transportation control and regulation system and method for for-hire vehicles
US20150347922A1 (en) * 2014-05-30 2015-12-03 International Business Machines Corporation Multi-model blending
US20160026936A1 (en) * 2014-07-25 2016-01-28 Facebook, Inc. Event-based ridesharing
CN106056900A (zh) * 2016-08-15 2016-10-26 成都云科新能汽车技术有限公司 一种电动商用车的云端平台
CN106101165A (zh) * 2015-04-29 2016-11-09 福特全球技术公司 共乘的长期共乘群
US20160364678A1 (en) * 2015-06-11 2016-12-15 Raymond Cao Systems and methods for on-demand transportation
US20170061283A1 (en) * 2015-08-26 2017-03-02 Applied Brain Research Inc. Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments
US20170091891A1 (en) * 2014-05-14 2017-03-30 Ilan VAN DER BERG Integrated ride sharing system and method for fleet management systems
US20170365030A1 (en) * 2016-06-21 2017-12-21 Via Transportation, Inc. Systems and Methods for Vehicle Ridesharing Management
WO2018125989A2 (en) * 2016-12-30 2018-07-05 Intel Corporation The internet of things
US20180240045A1 (en) * 2015-11-26 2018-08-23 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for allocating sharable orders
CN108629358A (zh) * 2017-03-23 2018-10-09 北京嘀嘀无限科技发展有限公司 对象类别的预测方法及装置
CN108897313A (zh) * 2018-05-23 2018-11-27 清华大学 一种分层式端到端车辆自动驾驶***构建方法
US20180357552A1 (en) * 2016-01-27 2018-12-13 Bonsai AI, Inc. Artificial Intelligence Engine Having Various Algorithms to Build Different Concepts Contained Within a Same AI Model
US20180376357A1 (en) * 2017-06-27 2018-12-27 Veniam, Inc. Self-organized fleets of autonomous vehicles to optimize future mobility and city services

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706542B2 (en) 2000-12-18 2014-04-22 Apple Inc. Allocation of location-based orders to mobile agents
JP4929449B2 (ja) * 2005-09-02 2012-05-09 国立大学法人横浜国立大学 強化学習装置および強化学習方法
AU2007224206A1 (en) 2006-03-03 2007-09-13 Inrix, Inc. Assessing road traffic conditions using data from mobile data sources
AU2008202871B2 (en) * 2008-06-30 2014-04-03 Autonomous Solutions, Inc. Vehicle dispatching method and system
US8626565B2 (en) * 2008-06-30 2014-01-07 Autonomous Solutions, Inc. Vehicle dispatching method and system
US10002198B2 (en) 2009-10-28 2018-06-19 Verizon Patent And Licensing Inc. Mobile taxi dispatch system
US8442848B2 (en) 2011-03-09 2013-05-14 David Myr Automatic optimal taxicab mobile location based dispatching system
US10360352B2 (en) * 2012-10-02 2019-07-23 Banjo, Inc. System and method for event-based vehicle operation
US20150081362A1 (en) 2013-09-13 2015-03-19 Stephen C. Chadwick Context-aware distributive taxi cab dispatching
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
CN103868692B (zh) 2014-03-18 2016-02-10 电子科技大学 基于核密度估计和k-l散度的旋转机械故障诊断方法
US20180165602A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Scalability of reinforcement learning by separation of concerns
US20180315146A1 (en) * 2017-04-27 2018-11-01 Lyft, Inc. Dynamic autonomous vehicle matching optimization
US10636293B2 (en) 2017-06-07 2020-04-28 International Business Machines Corporation Uncertainty modeling in traffic demand prediction
US10837788B1 (en) * 2018-05-03 2020-11-17 Zoox, Inc. Techniques for identifying vehicles and persons
US10845815B2 (en) * 2018-07-27 2020-11-24 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
US11599963B2 (en) * 2018-09-25 2023-03-07 Uber Technologies, Inc. Pairing transport service users and drivers using animation
JP2020095586A (ja) * 2018-12-14 2020-06-18 富士通株式会社 強化学習方法、および強化学習プログラム
JP2020119008A (ja) * 2019-01-18 2020-08-06 富士通株式会社 強化学習方法、強化学習プログラム、および強化学習装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246246A1 (en) * 2010-04-01 2011-10-06 The Crawford Group, Inc. Method and System for Managing Vehicle Travel
US20120290652A1 (en) * 2011-05-13 2012-11-15 Zeljko BOSKOVIC Arrangement and method for transport sharing
US20140067491A1 (en) * 2012-08-30 2014-03-06 Frias Transportation Infrastructure Llc Transportation control and regulation system and method for for-hire vehicles
US20170091891A1 (en) * 2014-05-14 2017-03-30 Ilan VAN DER BERG Integrated ride sharing system and method for fleet management systems
US20150347922A1 (en) * 2014-05-30 2015-12-03 International Business Machines Corporation Multi-model blending
US20160026936A1 (en) * 2014-07-25 2016-01-28 Facebook, Inc. Event-based ridesharing
CN106101165A (zh) * 2015-04-29 2016-11-09 福特全球技术公司 共乘的长期共乘群
US20160364678A1 (en) * 2015-06-11 2016-12-15 Raymond Cao Systems and methods for on-demand transportation
US20170061283A1 (en) * 2015-08-26 2017-03-02 Applied Brain Research Inc. Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments
US20180240045A1 (en) * 2015-11-26 2018-08-23 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for allocating sharable orders
US20180357552A1 (en) * 2016-01-27 2018-12-13 Bonsai AI, Inc. Artificial Intelligence Engine Having Various Algorithms to Build Different Concepts Contained Within a Same AI Model
US20170365030A1 (en) * 2016-06-21 2017-12-21 Via Transportation, Inc. Systems and Methods for Vehicle Ridesharing Management
CN106056900A (zh) * 2016-08-15 2016-10-26 成都云科新能汽车技术有限公司 一种电动商用车的云端平台
WO2018125989A2 (en) * 2016-12-30 2018-07-05 Intel Corporation The internet of things
CN108629358A (zh) * 2017-03-23 2018-10-09 北京嘀嘀无限科技发展有限公司 对象类别的预测方法及装置
US20180376357A1 (en) * 2017-06-27 2018-12-27 Veniam, Inc. Self-organized fleets of autonomous vehicles to optimize future mobility and city services
CN108897313A (zh) * 2018-05-23 2018-11-27 清华大学 一种分层式端到端车辆自动驾驶***构建方法

Also Published As

Publication number Publication date
CN113692609A (zh) 2021-11-23
WO2020176379A1 (en) 2020-09-03
US20200273347A1 (en) 2020-08-27
US20200273346A1 (en) 2020-08-27
US11631333B2 (en) 2023-04-18
CN113692609B (zh) 2023-05-30
CN113811915B (zh) 2024-05-31
WO2020176381A1 (en) 2020-09-03
US11393341B2 (en) 2022-07-19

Similar Documents

Publication Publication Date Title
CN113811915B (zh) 用于在线共享出行平台的统一订单派发和车队管理
CN111862579B (zh) 一种基于深度强化学习的出租车调度方法及***
CN110472764B (zh) 基于强化学***衡来协调多方服务的方法和***
Barbati et al. Applications of agent-based models for optimization problems: A literature review
Sayarshad et al. A scalable non-myopic dynamic dial-a-ride and pricing problem for competitive on-demand mobility systems
CN110400128B (zh) 一种基于工人偏好感知的空间众包任务分配方法
WO2020050872A1 (en) System and method for ride order dispatching and vehicle repositioning
Billhardt et al. Taxi dispatching strategies with compensations
Shui et al. A clonal selection algorithm for urban bus vehicle scheduling
Shi et al. Memory-based ant colony system approach for multi-source data associated dynamic electric vehicle dispatch optimization
Qin et al. Reinforcement learning for ridesharing: A survey
Fernández et al. Bike3S: A tool for bike sharing systems simulation
CN113672846A (zh) 网约车调度方法、装置、电子设备及存储介质
Grahn et al. Improving the performance of first-and last-mile mobility services through transit coordination, real-time demand prediction, advanced reservations, and trip prioritization
Tran et al. Adaptive passenger-finding recommendation system for taxi drivers with load balancing problem
Jiang et al. A reinforcement learning-based incentive mechanism for task allocation under spatiotemporal crowdsensing
Wang et al. Gcrl: Efficient delivery area assignment for last-mile logistics with group-based cooperative reinforcement learning
Castagna et al. Demand-responsive rebalancing zone generation for reinforcement learning-based on-demand mobility
CN113240339A (zh) 一种面向大规模打车平台的任务匹配公平方法
Malone et al. The scenario explorer for passenger transport: A strategic model for long-term travel demand forecasting
Massobrio et al. Multiobjective evolutionary algorithms for the taxi sharing problem
Meilin et al. Location and allocation problem for spare parts depots on integrated logistics support
CN116402323B (zh) 一种出租车调度方法
Lopez Vasquez Integrating dial-a-ride and ridesharing services in Curitiba’s Public Transport Network (RIT)
Zhang et al. Collaborative Optimization of Community Bus and Flexible Feeder Bus Connection System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant