CN113537628A - 一种基于分布强化学习的通用可靠最短路算法 - Google Patents

一种基于分布强化学习的通用可靠最短路算法 Download PDF

Info

Publication number
CN113537628A
CN113537628A CN202110889470.8A CN202110889470A CN113537628A CN 113537628 A CN113537628 A CN 113537628A CN 202110889470 A CN202110889470 A CN 202110889470A CN 113537628 A CN113537628 A CN 113537628A
Authority
CN
China
Prior art keywords
path
target
probability distribution
time
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110889470.8A
Other languages
English (en)
Other versions
CN113537628B (zh
Inventor
郭宏亮
盛文达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110889470.8A priority Critical patent/CN113537628B/zh
Publication of CN113537628A publication Critical patent/CN113537628A/zh
Application granted granted Critical
Publication of CN113537628B publication Critical patent/CN113537628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于分布强化学习的通用可靠最短路算法,所述基于分布强化学习的通用可靠最短路算法包括:S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。本发明所提供的基于分布强化学习的通用可靠最短路算法,能够解决现有的基于分布强化学习的通用可靠最短路算法耗时且效率低下的问题。

Description

一种基于分布强化学习的通用可靠最短路算法
技术领域
本发明涉及路径规划技术领域,具体涉及一种基于分布强化学习的通用可靠最短路算法。
背景技术
路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线称之为路径,构成路径的策略称之为路径规划。
路径规划在很多领域都具有广泛的应用。在高新科技领域的应用有:机器人的自主无碰行动;无人机的避障突防飞行;巡航导弹躲避雷达搜索、防反弹袭击、完成突防***任务等。在日常生活领域的应用有:GPS导航;基于GIS***的道路规划;城市道路网规划导航等。在决策管理领域的应用有:物流管理中的车辆问题(VRP)及类似的资源管理资源配置问题。通信技术领域的路由问题等。凡是可拓扑为点线网络的规划问题基本上都可以采用路径规划的方法解决。
不确定性下的路径规划是智能交通***最基本的组成部分之一。虽然最小预期时间被视为是随机交通网络中最受欢迎和最简单的路径规划目标。但在现实中,有很大一部分路径规划问题不仅仅是考虑预期到达时间,可能考虑到道路的可靠性和风险规避,这类问题被称作可靠最短路径问题。根据不同的需求,会有不同的可靠最短路径问题定义,并有不同的算法加以解决。
目前常用的可靠最短路算法,几乎所有算法都只能解决一种可靠最短路问题,不能同时解决多种问题需求。并且大部分算法在实现过程中需要假设路径行驶时间的基于某种特殊分布。在路径规划问题中,算法的实时性也是一个重要衡量标准,大部分可靠最短路径算法往往十分耗时,并不能满足实时的需求。
发明内容
本发明的目的在于提供一种基于分布强化学习的通用可靠最短路算法,以解决现有的基于分布强化学习的通用可靠最短路算法耗时且效率低下的问题。
本发明解决上述技术问题的技术方案如下:
本发明提供一种基于分布强化学习的通用可靠最短路算法,所述基于分布强化学习的通用可靠最短路算法包括:
S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;
S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。
可选择地,所述训练方法包括:
S11:初始化所有路径的概率分布表;
S12:随机选择所述所有路径的概率分布表中的任意一个起点;
S13:随机选择所述起点上的任意一条路径,并根据所述路径,得到所述路径的预设消耗时间;
S14:在所述路径上标记多个标记点;
S15:向下一个标记点移动,得到移动消耗时间;
S16:根据所述移动消耗时间更新所述所有路径的概率分布表,得到更新后的概率分布表;
S17:判断当前标记点是否为最后一个标记点,若是,进入步骤S18;否则返回步骤S13;
S18:判断是否结束训练,若是,将所述更新后的概率分布表作为最优路径的概率分布表输出;否则返回步骤S12。
可选择地,所述步骤S18中,通过对比所述消耗时间是否达到预设消耗时间判断当前标记点是否为最后一个标记点。
可选择地,所述步骤S19中,通过对比所述消耗时间是否达到预设训练时间判断是否结束训练。
可选择地,所述决策方法包括:
S21:在所述最优路径的概率分布表中选择目标起点和目标终点;
S22:根据所述目标起点,利用所述最优路径的概率分布表计算得到目标路径;
S23:在所述目标路径上标记多个目标标记点;
S24:向下一个目标标记点移动,得到目标移动消耗时间;
S25:根据所述目标移动消耗时间判断所述下一个目标标记点是否为目标终点,若是,输出所述目标起点、所述目标路径和所述目标终点;否则返回步骤S22。
可选择地,所述步骤S22中,所述利用所述最优路径的概率分布表计算得到目标路径包括:
将路径规划问题转化为马尔科夫过程框架内的顺序决策问题。
可选择地,在将路径规划问题转化为马尔科夫过程框架内的顺序决策问题之后,所述基于分布强化学习的通用可靠最短路算法还包括:
根据分布式强化学习的贝尔曼方程进行学习,得到所述目标路径。
可选择地,所述贝尔曼方程为:
Figure BDA0003195404960000031
其中,π为路径策略;s,a为状态;Zπ(s,a)为从(s,a)开始的路径策略π的回报,r为消耗时间,k为采样次数,rk表示第k次消耗时间,αt为t时刻下的学习率,
Figure BDA0003195404960000032
为t+1时刻,在路径策略π下,于s’做出动作a所得到的Z。
可选择地,所述步骤S25中,通过对比所述目标移动消耗时间和预设目标移动消耗时间判断所述下一个目标标记点是否为目标终点。
本发明具有以下有益效果:
通过上述技术方案,即通过本发明所提供的基于分布强化学习的通用可靠最短路算法,利用训练方法和决策方法,能够根据实际运行过程中的不同情况即使调整规划方式,并能够在运行过程中随时更改需求目标,从而得到可靠最短路,从而进一步提高工作效率。
附图说明
图1为本发明所提供的基于分布强化学习的通用可靠最短路算法的流程图;
图2为图1中步骤S1的分步骤流程图;
图3为图1中步骤S2的分步骤流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例
本发明解决上述技术问题的技术方案如下:
本发明提供一种基于分布强化学习的通用可靠最短路算法,所述基于分布强化学习的通用可靠最短路算法包括:
S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;
S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。
本发明具有以下有益效果:
通过上述技术方案,即通过本发明所提供的基于分布强化学习的通用可靠最短路算法,利用训练方法和决策方法,能够根据实际运行过程中的不同情况即使调整规划方式,并能够在运行过程中随时更改需求目标,从而得到可靠最短路,从而进一步提高工作效率。
可选择地,参考图2所示,所述训练方法包括:
S11:初始化所有路径的概率分布表;
S12:随机选择所述所有路径的概率分布表中的任意一个起点;
S13:随机选择所述起点上的任意一条路径,并根据所述路径,得到所述路径的预设消耗时间;
S14:在所述路径上标记多个标记点;
S15:向下一个标记点移动,得到移动消耗时间;
S16:根据所述移动消耗时间更新所述所有路径的概率分布表,得到更新后的概率分布表;
S17:判断当前标记点是否为最后一个标记点,若是,进入步骤S18;否则返回步骤S13;
S18:判断是否结束训练,若是,将所述更新后的概率分布表作为最优路径的概率分布表输出;否则返回步骤S12。
可选择地,所述步骤S18中,通过对比所述消耗时间是否达到预设消耗时间判断当前标记点是否为最后一个标记点。
可选择地,所述步骤S19中,通过对比所述消耗时间是否达到预设训练时间判断是否结束训练。
可选择地,参考图3所示,所述决策方法包括:
S21:在所述更新后的概率分布表中选择目标起点和目标终点;
S22:根据所述目标起点,利用所述最优路径的概率分布表计算得到目标路径;
S23:在所述目标路径上标记多个目标标记点;
S24:向下一个目标标记点移动,得到目标移动消耗时间;
S25:根据所述目标移动消耗时间判断所述下一个目标标记点是否为目标终点,若是,输出所述目标起点、所述目标路径和所述目标终点;否则返回步骤S22。
可选择地,所述步骤S22中,所述利用所述最优路径的概率分布表计算得到目标路径包括:
将路径规划问题转化为马尔科夫过程框架内的顺序决策问题。
可选择地,在将路径规划问题转化为马尔科夫过程框架内的顺序决策问题之后,所述基于分布强化学习的通用可靠最短路算法还包括:
根据分布式强化学习的贝尔曼方程进行学习,得到所述目标路径。
可选择地,所述贝尔曼方程为:
Figure BDA0003195404960000061
其中,π为路径策略;s,a为状态;Zπ(s,a)为从(s,a)开始的路径策略π的回报,r为消耗时间,k为采样次数,rk表示第k次消耗时间,αt为t时刻下的学习率,
Figure BDA0003195404960000062
为t+1时刻,在路径策略π下,于s’做出动作a所得到的Z。
可选择地,所述步骤S25中,通过对比所述目标移动消耗时间和预设目标移动消耗时间判断所述下一个目标标记点是否为目标终点。
具体地,在本发明中,首先对经典强化学习框架做以介绍:
马尔可夫决策过程(Markov Decision Processes,MDPs)MDPs简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。
MDP的策略完全取决于当前状态(Only present matters),这也是它马尔可夫性质的体现。
其可以简单表示为:M=<S,A,Ps,a,R>
强化学习的目标是找到最优的策略π,以最大化行为值函数Q,就是所有的(x,a),对于所有的π,有:
Figure BDA0003195404960000071
其中,
Figure BDA0003195404960000072
为最优策略的函数值,Qπ为Z的数学期望。
值函数Q是一个随机变量,随机变量是有分布的,包含的信息比常规强化学习求出来的数学期望值要包含更多的信息量,包含更多和环境交互的信息,或许就是传统强化学习收敛难,不鲁棒,样本效率低,训练难的问题原因。分布式增强学习区别于传统的强化学习算法,并没有简单利用数学期望值表示Q,而是表达出整个值函数的分布Z。
本专利的算法应用分布式强化学习,将路径规划问题映射至马尔可夫过程,而不是像传统的可靠路径规划问题那样将其视为单一的非凸的数学优化问题。并且不同于传统的强化学习方法,该算法能包含行驶时间的整个分布,并不单一的将数学期望作为决策唯一标准,能够更加灵活的处理可靠最短路问题(RSP)问题中各种需求,RSP问题并不仅仅关注行驶时间的数学期望,最终目标也不是简单的最小化行驶时间的数学期望,RSP问题的数学描述如下:
(1)最大化准时到达概率,maximal stochastic on time arrival(SOTA)
maximize P(cx≤T)
subject_to x∈Pod
其中,P(cx≤T)表示路径x到达终点消耗的时间cx在给定时间T内的概率最大化;Pod表示起点到终点od之间的所有路径。
(2)最小化固定概率到达时间,minimal travel time with a high percentile(α-reliable)
minimize T
subject_to P(cx≤T)≥a,
x∈Pod
其中,P(cx≤T)≥a表示路径x到达终点消耗的时间cx在给定时间T内的概率大于预先给定的概率a;Pod表示起点到终点od之间的所有路径。
(3)最小化行驶时间的均值和标准差的线性组合,minimal linear combinationof mean and standard deviation(mean-std)
min imize
Figure BDA0003195404960000081
subject_to x∈Pod
其中,
Figure BDA0003195404960000082
表示路径x消耗时间的数学期望和标准差的线性组合;Pod表示起点到终点od之间的所有路径。
(4)最小化效用函数值,Minimal expected disutility(MED)
minimize E(u(cx))
subject_to x∈Pod
其中,E(X)表示X的数学期望,u(cx)表示关于路径x到达终点消耗的时间cx的效用时间;Pod表示起点到终点od之间的所有路径。
在马尔可夫过程框架内制定RSP规划问题的关键是正确地映射出马尔可夫过程框架内制定可靠最短路规划问题的关键是正确映射马尔可夫过程框架相关的元素。映射过程如下。
(1)车辆的状态(st∈X)是车辆所在的顶点,例如顶点i。
吸收状态3是顶点d;(2)车辆的行动st∈x是车辆采取的边,例如边ij;(3)奖励rt+1是边ij的采样旅行时间。即cij;(4)状态转换函数P是一个确定性的的函数,它将车辆过渡到当前执行链路的终端节点,如当前执行链路的末端节点,例如,e.g.st+1=j where j∈ψ;(5)在RSP规划中,折扣系数γ=1。一个路由策略π可能以概率方式确定车辆的下一条执行边at,例如,at=π(st),即给定车辆的当前状态(st)。从(s;a)开始的策略π的回报,即Zπ(s,a),是策略π的总旅行时间分布。策略π在(s;a)处开始的总旅行时间分布。类似地,Zπ(s)是策略π的总旅行时间分布,从状态s开始π的总旅行时间分布,从状态s开始。
定义完路径规划问题在马尔可夫过程框架相关的元素,就可以根据分布式强化学习的贝尔曼方程
Figure BDA0003195404960000091
其中,π为路径策略;s,a为状态;Zπ(s,a)为从(s,a)开始的路径策略π的回报,r为消耗时间,k为采样次数,rk表示第k次消耗时间,αt为t时刻下的学习率,
Figure BDA0003195404960000092
为t+1时刻,在路径策略π下,于s’做出动作a所得到的Z。
进行学习过程,逐渐拟合出在最有策略下的完整分布,最终得到最优路径虚招策略,完成整个路径规划过程。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于分布强化学习的通用可靠最短路算法,其特征在于,所述基于分布强化学习的通用可靠最短路算法包括:
S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;
S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。
2.根据权利要求1所述的基于分布强化学习的通用可靠最短路算法,其特征在于,所述训练方法包括:
S11:初始化所有路径的概率分布表;
S12:随机选择所述所有路径的概率分布表中的任意一个起点;
S13:随机选择所述起点上的任意一条路径,并根据所述路径,得到所述路径的预设消耗时间;
S14:在所述路径上标记多个标记点;
S15:向下一个标记点移动,得到移动消耗时间;
S16:根据所述移动消耗时间更新所述所有路径的概率分布表,得到更新后的概率分布表;
S17:判断当前标记点是否为最后一个标记点,若是,进入步骤S18;否则返回步骤S13;
S18:判断是否结束训练,若是,将所述更新后的概率分布表作为最优路径的概率分布表输出;否则返回步骤S12。
3.根据权利要求2所述的基于分布强化学习的通用可靠最短路算法,其特征在于,所述步骤S18中,通过对比所述消耗时间是否达到预设消耗时间判断当前标记点是否为最后一个标记点。
4.根据权利要求2所述的基于分布强化学习的通用可靠最短路算法,其特征在于,所述步骤S19中,通过对比所述消耗时间是否达到预设训练时间判断是否结束训练。
5.根据权利要求1所述的基于分布强化学习的通用可靠最短路算法,其特征在于,所述决策方法包括:
S21:在所述最优路径的概率分布表中选择目标起点和目标终点;
S22:根据所述目标起点,利用所述最优路径的概率分布表计算得到目标路径;
S23:在所述目标路径上标记多个目标标记点;
S24:向下一个目标标记点移动,得到目标移动消耗时间;
S25:根据所述目标移动消耗时间判断所述下一个目标标记点是否为目标终点,若是,输出所述目标起点、所述目标路径和所述目标终点;否则返回步骤S22。
6.根据权利要求5所述的基于分布强化学习的通用可靠最短路算法,其特征在于,所述步骤S22中,所述利用所述最优路径的概率分布表计算得到目标路径包括:
将路径规划问题转化为马尔科夫过程框架内的顺序决策问题。
7.根据权利要求6所述的基于分布强化学习的通用可靠最短路算法,其特征在于,在将路径规划问题转化为马尔科夫过程框架内的顺序决策问题之后,所述基于分布强化学习的通用可靠最短路算法还包括:
根据分布式强化学习的贝尔曼方程进行学习,得到所述目标路径。
8.根据权利要求7所述的基于分布强化学习的通用可靠最短路算法,其特征在于,所述贝尔曼方程为:
Figure FDA0003195404950000021
其中,π为路径策略;s,a为状态;Zπ(s,a)为从(s,a)开始的路径策略π的回报,r为消耗时间,k为采样次数,rk表示第k次消耗时间,αt为t时刻下的学习率,
Figure FDA0003195404950000031
为t+1时刻,在路径策略π下,于s’做出动作a所得到的Z。
9.根据权利要求5-8中任意一项所述的基于分布强化学习的通用可靠最短路算法,其特征在于,所述步骤S25中,通过对比所述目标移动消耗时间和预设目标移动消耗时间判断所述下一个目标标记点是否为目标终点。
CN202110889470.8A 2021-08-04 2021-08-04 一种基于分布强化学习的通用可靠最短路方法 Active CN113537628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110889470.8A CN113537628B (zh) 2021-08-04 2021-08-04 一种基于分布强化学习的通用可靠最短路方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110889470.8A CN113537628B (zh) 2021-08-04 2021-08-04 一种基于分布强化学习的通用可靠最短路方法

Publications (2)

Publication Number Publication Date
CN113537628A true CN113537628A (zh) 2021-10-22
CN113537628B CN113537628B (zh) 2023-08-22

Family

ID=78121979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110889470.8A Active CN113537628B (zh) 2021-08-04 2021-08-04 一种基于分布强化学习的通用可靠最短路方法

Country Status (1)

Country Link
CN (1) CN113537628B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114253265A (zh) * 2021-12-17 2022-03-29 成都朴为科技有限公司 基于四阶矩的按时到达概率最大路径规划算法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000057124A (ja) * 1998-08-14 2000-02-25 Nec Corp 組合せ最適化方法および組合せ最適化システム
US20050251434A1 (en) * 2004-05-04 2005-11-10 Khimetrics, Inc. Configurational density process and structure
US20150345967A1 (en) * 2014-06-03 2015-12-03 Nissan North America, Inc. Probabilistic autonomous vehicle routing and navigation
US20190146464A1 (en) * 2017-11-15 2019-05-16 National Tsing Hua University Management method for object supply and management system using thereof
CN110520868A (zh) * 2017-04-14 2019-11-29 渊慧科技有限公司 分布式强化学习
CN110633850A (zh) * 2019-09-11 2019-12-31 中电科新型智慧城市研究院有限公司 一种面向出行时间可靠性的最优路径规划算法
CN110763234A (zh) * 2019-10-15 2020-02-07 哈尔滨工程大学 一种水下机器人海底地形匹配导航路径规划方法
CN111917642A (zh) * 2020-07-14 2020-11-10 电子科技大学 分布式深度强化学习的sdn网络智慧路由数据传输方法
US20210089868A1 (en) * 2019-09-23 2021-03-25 Adobe Inc. Reinforcement learning with a stochastic action set

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000057124A (ja) * 1998-08-14 2000-02-25 Nec Corp 組合せ最適化方法および組合せ最適化システム
US20050251434A1 (en) * 2004-05-04 2005-11-10 Khimetrics, Inc. Configurational density process and structure
US20150345967A1 (en) * 2014-06-03 2015-12-03 Nissan North America, Inc. Probabilistic autonomous vehicle routing and navigation
CN110520868A (zh) * 2017-04-14 2019-11-29 渊慧科技有限公司 分布式强化学习
US20190146464A1 (en) * 2017-11-15 2019-05-16 National Tsing Hua University Management method for object supply and management system using thereof
CN110633850A (zh) * 2019-09-11 2019-12-31 中电科新型智慧城市研究院有限公司 一种面向出行时间可靠性的最优路径规划算法
US20210089868A1 (en) * 2019-09-23 2021-03-25 Adobe Inc. Reinforcement learning with a stochastic action set
CN110763234A (zh) * 2019-10-15 2020-02-07 哈尔滨工程大学 一种水下机器人海底地形匹配导航路径规划方法
CN111917642A (zh) * 2020-07-14 2020-11-10 电子科技大学 分布式深度强化学习的sdn网络智慧路由数据传输方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴光周 等: "面向出行时间可靠性的最优路径规划", 公路, no. 2, pages 134 - 142 *
潘义勇 等: "基于可靠度的动态随机交通网络耗时最优路径", 吉林大学学报(工学版), vol. 46, no. 2, pages 412 - 417 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114253265A (zh) * 2021-12-17 2022-03-29 成都朴为科技有限公司 基于四阶矩的按时到达概率最大路径规划算法及***
CN114253265B (zh) * 2021-12-17 2023-10-20 成都朴为科技有限公司 基于四阶矩的按时到达概率最大路径规划算法及***

Also Published As

Publication number Publication date
CN113537628B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN112016812B (zh) 多无人机任务调度方法、***及存储介质
EP1733287B1 (en) System and method for adaptive path planning
Delling et al. Landmark-based routing in dynamic graphs
CN110991972B (zh) 一种基于多智能体强化学习的货物运输***
CN109489667A (zh) 一种基于权值矩阵的改进蚁群路径规划方法
CN114596553B (zh) 模型训练方法、轨迹预测方法、装置及自动驾驶车辆
Baum et al. Speed-consumption tradeoff for electric vehicle route planning
Burns et al. Anticipatory on-line planning
CN111523059A (zh) 一种基于改进蛙跳算法的个性化旅游路线推荐方法
CN113537628A (zh) 一种基于分布强化学习的通用可靠最短路算法
CN113962481A (zh) 一种应急物资的资源配置方法、装置和服务器
Du et al. Digital twin based trajectory prediction for platoons of connected intelligent vehicles
Zhao et al. Research on logistics distribution route based on multi-objective sorting genetic algorithm
CN114815801A (zh) 一种基于策略-价值网络及mcts的自适应环境路径规划方法
CN117522078A (zh) 无人***集群环境耦合下的可迁移任务规划方法及***
CN112484733B (zh) 一种基于拓扑图的强化学习室内导航方法
CN113778093A (zh) 基于改进麻雀搜索算法的amr自主移动机器人路径规划方法
Wang et al. UAV online path planning based on improved genetic algorithm with optimized search region
US20220082397A1 (en) Station recommendation
CN115439063A (zh) 一种定制家具物流配送的多目标路径规划方法及***
Zhao et al. Learning multi-agent communication with policy fingerprints for adaptive traffic signal control
CN112149921A (zh) 大规模电动物流车路径规划方法及***、充电规划方法
CN114485699B (zh) 一种无人机自组织网络自适应路径优化方法及***
Guo et al. Reinforcement-learning-based path planning for UAVs in intensive obstacle environment
Doe et al. DSORL: Data Source Optimization With Reinforcement Learning Scheme for Vehicular Named Data Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant