CN113537628A

CN113537628A - 一种基于分布强化学习的通用可靠最短路算法

Info

Publication number: CN113537628A
Application number: CN202110889470.8A
Authority: CN
Inventors: 郭宏亮; 盛文达
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-10-22
Anticipated expiration: 2041-08-04
Also published as: CN113537628B

Abstract

本发明公开了一种基于分布强化学习的通用可靠最短路算法，所述基于分布强化学习的通用可靠最短路算法包括：S1：根据所有路径的概率分布表，利用训练方法，得到最优路径的概率分布表；S2：根据所述最优路径的概率分布表，利用决策方法，得到最优路径的起点、最优路径和最优路径的终点。本发明所提供的基于分布强化学习的通用可靠最短路算法，能够解决现有的基于分布强化学习的通用可靠最短路算法耗时且效率低下的问题。

Description

一种基于分布强化学习的通用可靠最短路算法

技术领域

本发明涉及路径规划技术领域，具体涉及一种基于分布强化学习的通用可靠最短路算法。

背景技术

路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成，连接起点位置和终点位置的序列点或曲线称之为路径，构成路径的策略称之为路径规划。

路径规划在很多领域都具有广泛的应用。在高新科技领域的应用有：机器人的自主无碰行动；无人机的避障突防飞行；巡航导弹躲避雷达搜索、防反弹袭击、完成突防***任务等。在日常生活领域的应用有：GPS导航；基于GIS***的道路规划；城市道路网规划导航等。在决策管理领域的应用有：物流管理中的车辆问题(VRP)及类似的资源管理资源配置问题。通信技术领域的路由问题等。凡是可拓扑为点线网络的规划问题基本上都可以采用路径规划的方法解决。

不确定性下的路径规划是智能交通***最基本的组成部分之一。虽然最小预期时间被视为是随机交通网络中最受欢迎和最简单的路径规划目标。但在现实中，有很大一部分路径规划问题不仅仅是考虑预期到达时间，可能考虑到道路的可靠性和风险规避，这类问题被称作可靠最短路径问题。根据不同的需求，会有不同的可靠最短路径问题定义，并有不同的算法加以解决。

目前常用的可靠最短路算法，几乎所有算法都只能解决一种可靠最短路问题，不能同时解决多种问题需求。并且大部分算法在实现过程中需要假设路径行驶时间的基于某种特殊分布。在路径规划问题中，算法的实时性也是一个重要衡量标准，大部分可靠最短路径算法往往十分耗时，并不能满足实时的需求。

发明内容

本发明的目的在于提供一种基于分布强化学习的通用可靠最短路算法，以解决现有的基于分布强化学习的通用可靠最短路算法耗时且效率低下的问题。

本发明解决上述技术问题的技术方案如下：

本发明提供一种基于分布强化学习的通用可靠最短路算法，所述基于分布强化学习的通用可靠最短路算法包括：

S1：根据所有路径的概率分布表，利用训练方法，得到最优路径的概率分布表；

S2：根据所述最优路径的概率分布表，利用决策方法，得到最优路径的起点、最优路径和最优路径的终点。

可选择地，所述训练方法包括：

S11：初始化所有路径的概率分布表；

S12：随机选择所述所有路径的概率分布表中的任意一个起点；

S13：随机选择所述起点上的任意一条路径，并根据所述路径，得到所述路径的预设消耗时间；

S14：在所述路径上标记多个标记点；

S15：向下一个标记点移动，得到移动消耗时间；

S16：根据所述移动消耗时间更新所述所有路径的概率分布表，得到更新后的概率分布表；

S17：判断当前标记点是否为最后一个标记点，若是，进入步骤S18；否则返回步骤S13；

S18：判断是否结束训练，若是，将所述更新后的概率分布表作为最优路径的概率分布表输出；否则返回步骤S12。

可选择地，所述步骤S18中，通过对比所述消耗时间是否达到预设消耗时间判断当前标记点是否为最后一个标记点。

可选择地，所述步骤S19中，通过对比所述消耗时间是否达到预设训练时间判断是否结束训练。

可选择地，所述决策方法包括：

S21：在所述最优路径的概率分布表中选择目标起点和目标终点；

S22：根据所述目标起点，利用所述最优路径的概率分布表计算得到目标路径；

S23：在所述目标路径上标记多个目标标记点；

S24：向下一个目标标记点移动，得到目标移动消耗时间；

S25：根据所述目标移动消耗时间判断所述下一个目标标记点是否为目标终点，若是，输出所述目标起点、所述目标路径和所述目标终点；否则返回步骤S22。

可选择地，所述步骤S22中，所述利用所述最优路径的概率分布表计算得到目标路径包括：

将路径规划问题转化为马尔科夫过程框架内的顺序决策问题。

可选择地，在将路径规划问题转化为马尔科夫过程框架内的顺序决策问题之后，所述基于分布强化学习的通用可靠最短路算法还包括：

根据分布式强化学习的贝尔曼方程进行学习，得到所述目标路径。

可选择地，所述贝尔曼方程为：

其中，π为路径策略；s,a为状态；Z^π(s,a)为从(s,a)开始的路径策略π的回报，r为消耗时间，k为采样次数，r_k表示第k次消耗时间，α_t为t时刻下的学习率，

为t+1时刻，在路径策略π下，于s’做出动作a所得到的Z。

可选择地，所述步骤S25中，通过对比所述目标移动消耗时间和预设目标移动消耗时间判断所述下一个目标标记点是否为目标终点。

本发明具有以下有益效果：

通过上述技术方案，即通过本发明所提供的基于分布强化学习的通用可靠最短路算法，利用训练方法和决策方法，能够根据实际运行过程中的不同情况即使调整规划方式，并能够在运行过程中随时更改需求目标，从而得到可靠最短路，从而进一步提高工作效率。

附图说明

图1为本发明所提供的基于分布强化学习的通用可靠最短路算法的流程图；

图2为图1中步骤S1的分步骤流程图；

图3为图1中步骤S2的分步骤流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例

本发明解决上述技术问题的技术方案如下：

本发明具有以下有益效果：

可选择地，参考图2所示，所述训练方法包括：

S11：初始化所有路径的概率分布表；

S14：在所述路径上标记多个标记点；

S15：向下一个标记点移动，得到移动消耗时间；

可选择地，参考图3所示，所述决策方法包括：

S21：在所述更新后的概率分布表中选择目标起点和目标终点；

S23：在所述目标路径上标记多个目标标记点；

S24：向下一个目标标记点移动，得到目标移动消耗时间；

可选择地，所述贝尔曼方程为：

为t+1时刻，在路径策略π下，于s’做出动作a所得到的Z。

具体地，在本发明中，首先对经典强化学习框架做以介绍：

马尔可夫决策过程(Markov Decision Processes,MDPs)MDPs简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。

MDP的策略完全取决于当前状态(Only present matters)，这也是它马尔可夫性质的体现。

其可以简单表示为：M＝<S,A,P_s,a,R>

强化学习的目标是找到最优的策略π，以最大化行为值函数Q，就是所有的(x,a)，对于所有的π，有：

其中，

为最优策略的函数值，Q^π为Z的数学期望。

值函数Q是一个随机变量，随机变量是有分布的，包含的信息比常规强化学习求出来的数学期望值要包含更多的信息量，包含更多和环境交互的信息，或许就是传统强化学习收敛难，不鲁棒，样本效率低，训练难的问题原因。分布式增强学习区别于传统的强化学习算法，并没有简单利用数学期望值表示Q，而是表达出整个值函数的分布Z。

本专利的算法应用分布式强化学习，将路径规划问题映射至马尔可夫过程，而不是像传统的可靠路径规划问题那样将其视为单一的非凸的数学优化问题。并且不同于传统的强化学习方法，该算法能包含行驶时间的整个分布，并不单一的将数学期望作为决策唯一标准，能够更加灵活的处理可靠最短路问题(RSP)问题中各种需求，RSP问题并不仅仅关注行驶时间的数学期望，最终目标也不是简单的最小化行驶时间的数学期望，RSP问题的数学描述如下：

(1)最大化准时到达概率，maximal stochastic on time arrival(SOTA)

maximize P(c_x≤T)

subject_to x∈P_od

其中，P(c_x≤T)表示路径x到达终点消耗的时间c_x在给定时间T内的概率最大化；P_od表示起点到终点od之间的所有路径。

(2)最小化固定概率到达时间，minimal travel time with a high percentile(α-reliable)

minimize T

subject_to P(c_x≤T)≥a,

x∈P_od

其中，P(c_x≤T)≥a表示路径x到达终点消耗的时间c_x在给定时间T内的概率大于预先给定的概率a；P_od表示起点到终点od之间的所有路径。

(3)最小化行驶时间的均值和标准差的线性组合，minimal linear combinationof mean and standard deviation(mean-std)

min imize

subject_to x∈P_od

其中，

表示路径x消耗时间的数学期望和标准差的线性组合；P_od表示起点到终点od之间的所有路径。

(4)最小化效用函数值，Minimal expected disutility(MED)

minimize E(u(c_x))

subject_to x∈P_od

其中，E(X)表示X的数学期望，u(c_x)表示关于路径x到达终点消耗的时间c_x的效用时间；P_od表示起点到终点od之间的所有路径。

在马尔可夫过程框架内制定RSP规划问题的关键是正确地映射出马尔可夫过程框架内制定可靠最短路规划问题的关键是正确映射马尔可夫过程框架相关的元素。映射过程如下。

(1)车辆的状态(s_t∈X)是车辆所在的顶点，例如顶点i。

吸收状态3是顶点d；(2)车辆的行动s_t∈x是车辆采取的边，例如边ij；(3)奖励r_t+1是边ij的采样旅行时间。即c_ij；(4)状态转换函数P是一个确定性的的函数，它将车辆过渡到当前执行链路的终端节点，如当前执行链路的末端节点，例如，e.g.s_t+1＝j where j∈ψ；(5)在RSP规划中，折扣系数γ＝1。一个路由策略π可能以概率方式确定车辆的下一条执行边a_t，例如，at＝π(st)，即给定车辆的当前状态(st)。从(s；a)开始的策略π的回报，即Z^π(s,a)，是策略π的总旅行时间分布。策略π在(s；a)处开始的总旅行时间分布。类似地，Z^π(s)是策略π的总旅行时间分布，从状态s开始π的总旅行时间分布，从状态s开始。

定义完路径规划问题在马尔可夫过程框架相关的元素，就可以根据分布式强化学习的贝尔曼方程

为t+1时刻，在路径策略π下，于s’做出动作a所得到的Z。

进行学习过程，逐渐拟合出在最有策略下的完整分布，最终得到最优路径虚招策略，完成整个路径规划过程。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。