CN113467481A - 一种基于改进Sarsa算法的路径规划方法 - Google Patents
一种基于改进Sarsa算法的路径规划方法 Download PDFInfo
- Publication number
- CN113467481A CN113467481A CN202110918358.2A CN202110918358A CN113467481A CN 113467481 A CN113467481 A CN 113467481A CN 202110918358 A CN202110918358 A CN 202110918358A CN 113467481 A CN113467481 A CN 113467481A
- Authority
- CN
- China
- Prior art keywords
- path planning
- action
- agent
- path
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000009471 action Effects 0.000 claims abstract description 72
- 239000011159 matrix material Substances 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims description 13
- 238000004088 simulation Methods 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 26
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于改进Sarsa算法的路径规划方法,属于强化学习和路径规划领域。本发明为了解决基于传统Sarsa算法的路径规划过程存在规划收敛速度较慢、规划效率较低的问题。本发明针对于待进行路径规划的区域建立地图模型,引入路径矩阵P(s,a),在智能体探索的过程中,动态调整贪婪因子ε,采用ε‑greedy策略进行动作选择,智能体采取动作a后,环境会反馈一个奖励R并进入到下一个状态s′;并基于路径矩阵更新Q值表,从而基于改进的Sarsa算法实现路径规划。主要用于机器人的路径规划。
Description
技术领域
本发明属于强化学习和路径规划领域,具体涉及一种基于强化学习的路径规划方法。
背景技术
随着人工智能、大数据等技术的发展,智能机器人对人们的日常生活越来越重要,智能机器人能够帮助人们完成自主探索、自主规划路线以及自主躲避障碍物,能够从环境中不断学习并且最终对环境有一个完整清晰的把握。因此,智能机器人的路径规划也变得越来越重要,其在实际生活中也是一个值得深入探讨的研究课题。传统的路径规划方法有人工势场法、模拟退火法、快速搜索随机树法和模糊逻辑方法等,这些方法是经典的路径规划方法,存在目标不可达和陷入局部最优解等问题;接着又出现A*算法,但其搜索效率较低,很难在实际中应用;后来出现基于人工智能的路径规划方法有:遗传算法、粒子群优化算法、蚁群算法和神经网络算法等,这些算法搜索效率较高且更加智能化,但是其收敛速度较慢。近年来,强化学习与路径规划相结合成为热门的研究领域。
强化学习是智能体通过与环境交互以“试错”的方式进行学习,具有自适应能力和自主探索能力,但将传统的强化学习算法用于未知环境下路径规划也会存在一些问题,比如当智能体处于完全未知的环境中,在探索的初期会存在盲目性,需要不断的试错、探索,从而导致训练时间过长、收敛速度慢。此外,在更加复杂的未知环境中,***状态维度会不断增加,相关的训练参数随之呈现出指数型增长趋势,消耗大量训练时间和存储空间,最终导致“维数灾难”。目前,应用到路径规划的强化学习算法有Q-Learning、Sarsa、PPO、DDPG、DQN等算法。其中,Sarsa算法是一种经典的在线强化学习方法,它存在以下问题:由于采用单步更新,会导致有些没用的Q值也存在了Q表中,造成一些无效的迭代、学习时间过长,并且训练策略容易失败、收敛速度慢等。
发明内容
本发明为了解决基于传统Sarsa算法的路径规划过程存在规划收敛速度较慢、规划效率较低的问题。
一种基于改进的Sarsa算法的路径规划方法,包括如下步骤:
针对于待进行路径规划的区域建立地图模型,即在坐标轴上搭建起二维仿真环境,并根据实际环境在地图上设置陷阱和目标位置;
智能体的在环境中的坐标为(x,y),对应为智能体的状态s,智能体在地图中的动作空间包括上、下、左、右四个动作,通过环境坐标与动作建立Q值表;智能体基于Sarsa算法实现路径规划;
其特征在于,智能体基于Sarsa算法实现路径规划的过程包括以下步骤:
S1、初始化Q值表、状态s、路径矩阵P(s,a)和贪婪因子ε;路径矩阵P(s,a)用来保存当前回合智能体在环境中走过路径的状态s和动作a;
S2、智能体开始探索,对于每次迭代执行以下步骤:
在状态s时,智能体采用ε-greedy策略进行动作选择;智能体采取动作a后,环境会反馈一个奖励R并进入到下一个状态s′;更新Q值表:
Q(s,a)←Q(s,a)+α[R+γQ(s′,a′)-Q(s,a)][P(s,a)]
其中,s′与a′表示下一步的状态和动作,γ表示折扣因子。
进一步地,步骤S1中初始化路径矩阵P(s,a)的过程如下:
路径矩阵P(s,a)的初始值为0;对于回合中的每一步,都会对路径矩阵P(s,a)中相应的位置加上一个增量plus:
P(s,a)←P(s,a)+plus
其中,plus为常量。
进一步地,plus为1。
进一步地,步骤S1中初始化ε的过程如下:
在每一次用ε-greedy策略进行动作选择时,对于回合中的每一步,将ε按下式进行更新:
进一步地,步骤S1中更新Q值表后还要对P(s,a)进行更新:P(s,a)←γP(s,a)。
进一步地,智能体进行动作选择的过程中利用边界检测函数对边界进行检测,然后基于智能体的位置进行动作选择,包括以下步骤:
边界检测函数用于判断智能体是否在地图的边界处,将地图的参数传入边界检测函数,然后边界检测函数给出各种边界的坐标及其名称,智能体根据所在位置所处的边界调整动作的选择。
进一步地,针对于待进行路径规划的区域建立地图模型的过程中采用栅格法建立带栅格的地图模型。
进一步地,折扣因子γ取值范围是0<γ<1。
本发明的有益技术效果如下:
针于Sarsa算法存在学***均每轮步数,在相同难度的迷宫环境中,改进算法的总步数减少了23.3%,从而提高了算法的性能。
附图说明
图1为本发明的路径规划方法流程图;
图2为本发明的实验环境图;
图3为本发明实施例与传统Sarsa算法的路径规划方法损失函数对比示意图;
图4为本发明实施例与传统Sarsa算法的路径规划方法运行时间对比示意图;
图5为本发明实施例与传统Sarsa算法的路径规划方法总回报对比示意图。
具体实施方式
本发明的目的是提供一种基于改进Sarsa算法的路径规划方法,该方法能够使智能机器人在复杂的迷宫环境中避免碰撞和落入陷阱以进行合理的路径规划,进而到达目标位置。在传统的Sarsa算法基础上,引入路径矩阵P(s,a),该矩阵用来保存当前回合智能体在环境中走过的路径,每次更新会使路径矩阵P(s,a)中所有的值按比例减少,实现离目标位置越近的路径越重要的效果;引入动态调整贪婪因子ε,提高算法的探索能力,若智能体离目标位置越近,以路径矩阵P(s,a)为启发来增大1-ε来提高算法探索的目的性,反之,则增大ε提高探索的随机性。通过算法损失函数、运行时间、总回报、步数角度等指标来评估算法的性能,相对于传统的Sarsa算法,改进Sarsa算法在相同难度的迷宫环境中实现同等路径规划的收敛速度、总回报得到明显提升,能够有效减少算法迭代步数,算法的运行效率更高,这里的收敛速度是达到最优Q值时的智能体需要进行的探索迭代步数,每次智能体探索到终点或者陷阱为一轮探索迭代过程。
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图和具体实施实例,对本发明实施例中的技术方案进行清楚、完整地描述:
本发明提出了一种基于改进Sarsa算法的路径规划方法,在传统的Sarsa算法基础上,引入路径矩阵P(s,a),路径矩阵P(s,a)的大小与Q值表相同,初始化使该矩阵的所有值为0,在某个状态下执行某个动作后便在路径矩阵P(s,a)相应的位置增加plus值,进而实现用来保存当前回合智能体在环境中走过路径的效果,每次更新会使路径矩阵P(s,a)中所有的值按比例减少,可以实现离目标位置越近的路径越重要作用,路径矩阵P(s,a)参与Q值表的更新,强化有效路径值;引入动态调整贪婪因子ε,提高算法的探索能力,若智能体离目标位置越近,以路径矩阵P(s,a)为启发,来增大1-ε来提高算法探索的目的性,反之,则增大ε提高探索的随机性,经过实验验证动态调整贪婪因子ε可以显著提高路径探索效率。根据强化学习的原理,图1给出了路径规划方法的流程图,具体包括如下步骤:
步骤1:将各项数据信息初始化,对相关变量进行赋值:
步骤1.1:初始化环境模型:采用栅格法在坐标轴中建立带栅格的实验模型,在坐标轴上搭建起二维仿真环境;
该环境是一个N*N的栅格地图,并在地图上设置随机陷阱和目标位置,形成迷宫环境,通过随机陷阱以及目标点设置,实现智能体躲避陷阱以及趋向目标地点的能力,智能体落入陷阱后会从起始点重新开始探索学习;智能体的位置用(x,y)来表示,与Q表中的某个状态相对应,智能体的起始点固定为左上角即(0,0),图2描述的是具体的实验环境,其中红色方格为智能体,而黑色方格为陷阱,黄色圆圈为目标位置,白色区域为普通区域,可供智能体行走;
步骤1.2:动作空间设置:智能体在地图模型的环境下采取的所有行动,在环境中定义智能体的动作为上、下、左、右等四个动作,用列表[0,1,2,3]表示,其中0表示上,1表示下,2表示右,3表示左,将智能体近似为一个质点;
步骤1.3:奖励函数设置:奖励函数是通过反馈来评价智能体从现在的状态变化到下一个状态所执行的动作的优良,用R表示,包括目标位置、陷阱和其他位置的奖励设置,利用奖励函数智能体能够选择出最优策略,具体设计如下:
智能体在探索环境普通区域时,不获得奖励;当智能体掉入陷阱则获得-100的惩罚;当智能体到达目标位置,会得到100的奖励,最后通过总的奖励值来判断该策略是否为最优策略;
步骤1.4:初始化Q值表:通过环境坐标与动作来建立Q值表,强化学习算法的关键在于Q值表的建立,智能体的状态s用环境的坐标来表示,因此通过环境坐标与动作来建立Q值表,比如左上角的坐标是(0,0),在该环境模型中,智能体在每一个格子处可以选择的动作有四个,每一个动作都对应一个Q值,比如图2使用8*8的地图,内部有50个状态可到达(去除起点、终点和陷阱),则有200个Q值,则此时的Q表为50*4的矩阵,Q表结构如下所示,表1为三个状态和两个动作的Q表:
表1 Q表结构示意图
步骤1.5:初始化状态s和路径矩阵P(s,a),该矩阵用来保存当前回合智能体在环境中走过路径的状态s和动作a,路径矩阵P(s,a)的大小和Q值表相同,路径矩阵P(s,a)的初始值为0,对于回合中的每一步,都会对路径矩阵P(s,a)中相应的位置加上一个增量plus,公式如下:
P(s,a)←P(s,a)+plus
其中,plus为常量,根据不同的任务可设置不同的数值,在本实验中设置为1,该路径矩阵参与Q表的更新,并且让该路径矩阵的值逐步减少,从而实现离目标位置越近的路径越重要,即当智能体在某个时间点选择了某一动作,可以理解为对该状态-动作对作了一个记号,并且该记号的印记随着时间的增长而逐渐变得模糊,最后在若干步后智能体到达了终点,此时可以看到离终点越近的步骤记号越清晰,离终点越远的步骤记号越模糊,实现了离目标位置越近的路径越重要;
路径矩阵P(S,A)每次在某个状态执行某个动作时便会在该位置加一个plus值,可以实现记录下智能体走过的路径;智路径矩阵中记录的较新的值便是离终点最近的点,同时每走一步便会对路径矩阵中的值乘一个γ,即越早存入路径矩阵的值会变得越小,即实现了离终点越近越重要的效果。
步骤1.6:初始化ε:以路径矩阵P(s,a)为启发,∑a=action_space P(s,a)表示对路径矩阵P(s,a)的值求和,action_space表示动作空间,当∑a=action_spaceP(s,a)的值越大,可以认为该位置到目标点的距离有趋于0的趋势,即离目标点的距离越近,此时通过增大1-ε的值来增大探索的目的性,在每一次用ε-greedy策略进行动作选择时,对于回合中的每一步,将ε的减去∑a=action_spaceP(s,a)/N,公式如下所示:
即
ε函数的自变量为P(s,a),函数∑a=action_spaceP(s,a)/N的值应小ε,通过此公式可以实现动态调整ε的作用,并且随着智能体距离终点的距离越近,该函数值越大,可以实现适当的减少ε的值的效果,进而达到增加探索目的的作用。
步骤2:智能体开始探索,具体探索步骤如下:
步骤2.1:在状态s时,获取当前坐标的四个动作所对应的Q值,智能体采用ε-greedy策略进行动作选择,ε-greedy策略是一种动作选择策略,其中ε为设定的小于1的超参数,智能体以概率εε随机选择未知动作,即随机从四种动作中进行选择;智能体以1-ε的概率从Q表已有动作中选择Q值最大的动作;
在动作选择中,考虑到智能体的动作选择在某些特定位置并不是完全自由的,比如当智能体在左上角的时候,智能体下一步的动作只能为下或者右,因此在动作选择模块中额外添加了边界检测函数。边界检测函数可以判断智能体是否在地图的边界处,当发现智能体在边界处则减少动作选择,提高了智能体的探索效率。具体实施方式为:使用列表的形式将所有的边界储存,然后边界检测函数给出各种边界的坐标及其名称,再将地图的坐标参数传入边界检测函数,在动作选择模块时针对每个状态判断是否在边界列表里,如果在列表内则将根据边界的不同调整动作选择的方式,减少在边界时的动作选择范围;
步骤2.2:智能体采取动作后,环境会反馈一个奖励R并进入到下一个状态s′,智能体在每一个迭代(Episode)中不停进行循环训练,通过如下公式不断更新Q值表:
Q(s,a)←Q(s,a)+α[R+γQ(s′,a′)-Q(s,a)][P(s,a)]
其中,s′与a′表示下一步的状态和动作,γ表示折扣因子,0<γ<1,折扣因子的设置可以避免Q值无限增大,变量P(s,a)表示路径矩阵,该变量随着动作的执行会进一步发生改变;
同时根据如下公式来更新P(s,a)的值,使得P(s,a)矩阵中的值按比例γ进行减少,写入路径矩阵P(s,a)越早的值会变得越小,后写入的值相对较大,显然后面的动作与状态距离终点更近,由此达到距离终点越近的值越重要的效果:
P(s,a)←γP(s,a)
步骤3:判断当前位置是否是目标位置或陷阱,如果是,则结束该回合的智能体探索,同时判断是否达到收敛条件,未达到收敛条件则返回步骤1.4开始新一轮的探索;如果当前位置不是目标或者陷阱回到步骤2继续探索;当智能体获得了最优解后便结束探索。
本实施例中,在陷阱和目标位置随机设定的8*8迷宫环境中进行实验,对比Sarsa改进算法与原算法的性能差异,通过算法损失函数、运行时间、总回报、步数角度等指标进行评估算法的性能。
图3为本发明实施例与传统Sarsa算法的路径规划方法损失函数对比示意图:算法的损失函数用来衡量算法模型的预测能力,反映出算法形成的路径与最优路径的相似度,因此损失函数越小越好,算法的损失函数的表达式如下公式给出:
其中,y为实际路径的总回报,f(x)表示最优路径的总回报,Turn为轮数,考虑让结果更加直观清晰,将上述奖励的具体值减小一百倍,通过分析图3可以得出改进Sarsa算法的损失函数明显小于Sarsa算法。
图4为本发明实施例与传统Sarsa算法的路径规划方法运行时间对比示意图:当算法迭代次数n<25时,改进Sarsa算法与Sarsa算法的运行时间几乎没有差距,随着智能体不断深入地学习,当算法迭代次数n大于25后,学习效率不断提高,探索能力更强,可以得出改进Sarsa算法的运行效率更高。
图5为本发明实施例与传统Sarsa算法的路径规划方法总回报对比示意图:可以看到改进算法的总回报比原算法高,且几乎在所有的回合都比原算法要高,这说明改进算法不仅在初期比原算法更快达到终点,并且在达到终点后的收敛速度比原算法更快。
在总步数与平均每轮步数方面的结果如表2所示,可以看到改进算法的总步数与平均每轮步数比原算法要小很多,改进算法的总步数减少了23.3%,说明改进算法在路径规划时的效率更高。
表2步数角度的对比单位:步
Claims (9)
1.一种基于改进的Sarsa算法的路径规划方法,包括如下步骤:
针对于待进行路径规划的区域建立地图模型,即在坐标轴上搭建起二维仿真环境,并根据实际环境在地图上设置陷阱和目标位置;
智能体的在环境中的坐标为(x,y),对应为智能体的状态s,智能体在地图中的动作空间包括上、下、左、右四个动作,通过环境坐标与动作建立Q值表;智能体基于Sarsa算法实现路径规划;
其特征在于,智能体基于Sarsa算法实现路径规划的过程包括以下步骤:
S1、初始化Q值表、状态s、路径矩阵P(s,a)和贪婪因子ε;路径矩阵P(s,a)用来保存当前回合智能体在环境中走过路径的状态s和动作a;
S2、智能体开始探索,对于每次迭代执行以下步骤:
在状态s时,智能体采用ε-greedy策略进行动作选择;智能体采取动作a后,环境会反馈一个奖励R并进入到下一个状态s′;更新Q值表:
Q(s,a)←Q(s,a)+α[R+γQ(s′,a′)-Q(s,a)][P(s,a)]
其中,s′与a′表示下一步的状态和动作,γ表示折扣因子。
2.根据权利要求1所述的一种基于改进的Sarsa算法的路径规划方法,其特征在于,步骤S1中初始化路径矩阵P(s,a)的过程如下:
路径矩阵P(s,a)的初始值为0;对于回合中的每一步,都会对路径矩阵P(s,a)中相应的位置加上一个增量plus:
P(s,a)←P(s,a)+plus
其中,plus为常量。
3.根据权利要求2所述的一种基于改进的Sarsa算法的路径规划方法,其特征在于,plus为1。
5.根据权利要求4所述的一种基于改进的Sarsa算法的路径规划方法,其特征在于,步骤S1中更新Q值表后还要对P(s,a)进行更新:P(s,a)←γP(s,a)。
6.根据权利要求1至5之一所述的一种基于改进的Sarsa算法的路径规划方法,其特征在于,智能体进行动作选择的过程中利用边界检测函数对边界进行检测,然后基于智能体的位置进行动作选择,包括以下步骤:
边界检测函数用于判断智能体是否在地图的边界处,将地图的参数传入边界检测函数,然后边界检测函数给出各种边界的坐标及其名称,智能体根据所在位置所处的边界调整动作的选择。
8.根据权利要求7所述的一种基于改进的Sarsa算法的路径规划方法,其特征在于,针对于待进行路径规划的区域建立地图模型的过程中采用栅格法建立带栅格的地图模型。
9.根据权利要求8所述的一种基于改进的Sarsa算法的路径规划方法,其特征在于,折扣因子γ取值范围是0<γ<1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110918358.2A CN113467481B (zh) | 2021-08-11 | 2021-08-11 | 一种基于改进Sarsa算法的路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110918358.2A CN113467481B (zh) | 2021-08-11 | 2021-08-11 | 一种基于改进Sarsa算法的路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113467481A true CN113467481A (zh) | 2021-10-01 |
CN113467481B CN113467481B (zh) | 2022-10-25 |
Family
ID=77866277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110918358.2A Active CN113467481B (zh) | 2021-08-11 | 2021-08-11 | 一种基于改进Sarsa算法的路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113467481B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN116822765A (zh) * | 2023-06-02 | 2023-09-29 | 东南大学 | 一种基于Q-learning的智能体时序任务路径规划方法 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929281A (zh) * | 2012-11-05 | 2013-02-13 | 西南科技大学 | 一种不完全感知环境下的机器人kNN路径规划方法 |
CN103204193A (zh) * | 2013-04-08 | 2013-07-17 | 浙江大学 | 一种欠驱动双足机器人行走控制方法 |
CN103517309A (zh) * | 2013-10-11 | 2014-01-15 | 清华大学 | 一种基于渐近贪心行为探索的小区中断补偿方法 |
CN108319286A (zh) * | 2018-03-12 | 2018-07-24 | 西北工业大学 | 一种基于强化学习的无人机空战机动决策方法 |
CN108563112A (zh) * | 2018-03-30 | 2018-09-21 | 南京邮电大学 | 用于仿真足球机器人控球的控制方法 |
US20190025917A1 (en) * | 2014-12-12 | 2019-01-24 | The Research Foundation For The State University Of New York | Autonomous brain-machine interface |
CN109669452A (zh) * | 2018-11-02 | 2019-04-23 | 北京物资学院 | 一种基于并行强化学习的云机器人任务调度方法和*** |
US20190147355A1 (en) * | 2017-11-14 | 2019-05-16 | International Business Machines Corporation | Self-critical sequence training of multimodal systems |
CN109794937A (zh) * | 2019-01-29 | 2019-05-24 | 南京邮电大学 | 一种基于强化学习的足球机器人协作方法 |
CN109948054A (zh) * | 2019-03-11 | 2019-06-28 | 北京航空航天大学 | 一种基于强化学习的自适应学习路径规划*** |
US20190261566A1 (en) * | 2016-11-08 | 2019-08-29 | Dogtooth Technologies Limited | Robotic fruit picking system |
CN110488859A (zh) * | 2019-07-15 | 2019-11-22 | 北京航空航天大学 | 一种基于改进Q-learning算法的无人机航路规划方法 |
CN110515303A (zh) * | 2019-09-17 | 2019-11-29 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
CN110632931A (zh) * | 2019-10-09 | 2019-12-31 | 哈尔滨工程大学 | 动态环境下基于深度强化学习的移动机器人避碰规划方法 |
CN111079305A (zh) * | 2019-12-27 | 2020-04-28 | 南京航空航天大学 | 一种基于λ-回报的异策略多智能体强化学习协作方法 |
US20200193333A1 (en) * | 2018-12-14 | 2020-06-18 | Fujitsu Limited | Efficient reinforcement learning based on merging of trained learners |
US10726059B1 (en) * | 2016-11-10 | 2020-07-28 | Snap Inc. | Deep reinforcement learning-based captioning with embedding reward |
CN111619624A (zh) * | 2020-06-01 | 2020-09-04 | 北京全路通信信号研究设计院集团有限公司 | 一种基于深度强化学习的有轨电车运行控制方法和*** |
CN111898728A (zh) * | 2020-06-02 | 2020-11-06 | 东南大学 | 一种基于多Agent强化学习的团队机器人决策方法 |
EP3805062A1 (en) * | 2018-06-29 | 2021-04-14 | Huawei Technologies Co., Ltd. | Method and device for determining automatic parking strategy |
-
2021
- 2021-08-11 CN CN202110918358.2A patent/CN113467481B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929281A (zh) * | 2012-11-05 | 2013-02-13 | 西南科技大学 | 一种不完全感知环境下的机器人kNN路径规划方法 |
CN103204193A (zh) * | 2013-04-08 | 2013-07-17 | 浙江大学 | 一种欠驱动双足机器人行走控制方法 |
CN103517309A (zh) * | 2013-10-11 | 2014-01-15 | 清华大学 | 一种基于渐近贪心行为探索的小区中断补偿方法 |
US20190025917A1 (en) * | 2014-12-12 | 2019-01-24 | The Research Foundation For The State University Of New York | Autonomous brain-machine interface |
US20190261566A1 (en) * | 2016-11-08 | 2019-08-29 | Dogtooth Technologies Limited | Robotic fruit picking system |
US10726059B1 (en) * | 2016-11-10 | 2020-07-28 | Snap Inc. | Deep reinforcement learning-based captioning with embedding reward |
US20190147355A1 (en) * | 2017-11-14 | 2019-05-16 | International Business Machines Corporation | Self-critical sequence training of multimodal systems |
CN108319286A (zh) * | 2018-03-12 | 2018-07-24 | 西北工业大学 | 一种基于强化学习的无人机空战机动决策方法 |
CN108563112A (zh) * | 2018-03-30 | 2018-09-21 | 南京邮电大学 | 用于仿真足球机器人控球的控制方法 |
EP3805062A1 (en) * | 2018-06-29 | 2021-04-14 | Huawei Technologies Co., Ltd. | Method and device for determining automatic parking strategy |
CN109669452A (zh) * | 2018-11-02 | 2019-04-23 | 北京物资学院 | 一种基于并行强化学习的云机器人任务调度方法和*** |
US20200193333A1 (en) * | 2018-12-14 | 2020-06-18 | Fujitsu Limited | Efficient reinforcement learning based on merging of trained learners |
CN109794937A (zh) * | 2019-01-29 | 2019-05-24 | 南京邮电大学 | 一种基于强化学习的足球机器人协作方法 |
CN109948054A (zh) * | 2019-03-11 | 2019-06-28 | 北京航空航天大学 | 一种基于强化学习的自适应学习路径规划*** |
CN110488859A (zh) * | 2019-07-15 | 2019-11-22 | 北京航空航天大学 | 一种基于改进Q-learning算法的无人机航路规划方法 |
CN110515303A (zh) * | 2019-09-17 | 2019-11-29 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
CN110632931A (zh) * | 2019-10-09 | 2019-12-31 | 哈尔滨工程大学 | 动态环境下基于深度强化学习的移动机器人避碰规划方法 |
CN111079305A (zh) * | 2019-12-27 | 2020-04-28 | 南京航空航天大学 | 一种基于λ-回报的异策略多智能体强化学习协作方法 |
CN111619624A (zh) * | 2020-06-01 | 2020-09-04 | 北京全路通信信号研究设计院集团有限公司 | 一种基于深度强化学习的有轨电车运行控制方法和*** |
CN111898728A (zh) * | 2020-06-02 | 2020-11-06 | 东南大学 | 一种基于多Agent强化学习的团队机器人决策方法 |
Non-Patent Citations (6)
Title |
---|
DONG XU等: "Path Planning Method Combining Depth Learning and Sarsa Algorithm", 《2017 10TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN》 * |
ENBO LI等: "Model learning for two-wheeled robot self-balance control", 《2019 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND BIOMIMETICS》 * |
张汝波: "《强化学习理论及应用》", 15 April 2001, 哈尔滨工程大学出版社 * |
权浩: "面向多任务的仓储移动机器人路径规划与调度", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王作为: "具有认知能力的智能机器人行为学习方法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
袁银龙: "深度强化学习算法及应用研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN115993831B (zh) * | 2023-03-23 | 2023-06-09 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN116822765A (zh) * | 2023-06-02 | 2023-09-29 | 东南大学 | 一种基于Q-learning的智能体时序任务路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113467481B (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109945881B (zh) | 一种蚁群算法的移动机器人路径规划方法 | |
CN107272679A (zh) | 基于改进的蚁群算法的路径规划方法 | |
CN112329348A (zh) | 一种面向非完全信息条件下军事对抗博弈的智能决策方法 | |
CN113467481B (zh) | 一种基于改进Sarsa算法的路径规划方法 | |
CN111982125A (zh) | 一种基于改进蚁群算法的路径规划方法 | |
CN113741508B (zh) | 基于改进狼群算法的无人机任务分配方法 | |
CN111695690A (zh) | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 | |
CN116242383B (zh) | 一种基于增强哈里斯鹰算法的无人车路径规划方法 | |
Bai et al. | Adversarial examples construction towards white-box q table variation in dqn pathfinding training | |
CN115047907B (zh) | 一种基于多智能体ppo算法的空中同构编队指挥方法 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、***及存储介质 | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
CN113848911B (zh) | 基于Q-learning和RRT*的移动机器人全局路径规划方法 | |
CN115933693A (zh) | 一种基于自适应混沌粒子群算法的机器人路径规划方法 | |
CN116128060A (zh) | 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法 | |
CN114995460A (zh) | 一种基于自适应改进蚁群算法的机器人路径规划方法 | |
CN115129064A (zh) | 基于改进萤火虫算法与动态窗口法融合的路径规划方法 | |
CN114995390A (zh) | 一种基于动态自适应参数调整的蜉蝣算法的移动机器人路径规划方法 | |
CN114815801A (zh) | 一种基于策略-价值网络及mcts的自适应环境路径规划方法 | |
CN114492715A (zh) | 基于混沌反向学习和自适应螺旋搜索的改进麻雀搜索方法 | |
CN117522078A (zh) | 无人***集群环境耦合下的可迁移任务规划方法及*** | |
Guan et al. | Research on path planning of mobile robot based on improved Deep Q Network | |
CN105956680A (zh) | 一个基于强化学习的自适应规则的生成和管理框架 | |
CN115759199A (zh) | 基于层次化图神经网络的多机器人环境探索方法及*** | |
Korkmaz | A Survey Analyzing Generalization in Deep Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |