CN116540731A - 融合堆叠lstm与sac算法的路径规划方法及*** - Google Patents
融合堆叠lstm与sac算法的路径规划方法及*** Download PDFInfo
- Publication number
- CN116540731A CN116540731A CN202310649008.XA CN202310649008A CN116540731A CN 116540731 A CN116540731 A CN 116540731A CN 202310649008 A CN202310649008 A CN 202310649008A CN 116540731 A CN116540731 A CN 116540731A
- Authority
- CN
- China
- Prior art keywords
- mobile robot
- sac
- path planning
- target
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000002787 reinforcement Effects 0.000 claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 230000006872 improvement Effects 0.000 claims abstract description 4
- 230000015654 memory Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 230000009471 action Effects 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0251—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Electromagnetism (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明涉及路径规划技术领域,涉及一种融合堆叠LSTM与SAC算法的路径规划方法及***,方法包括:一、收集常规场景图像及深度场景图像,并设计卷积神经网络提取图像特征;二、收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;三、构建堆叠LSTM网络,将提取到的卷积特征、目标点的位置、上一时刻移动机器人的线速度及奖励输入到堆叠LSTM网络中;四、构建路径规划的SAC深度强化学习模型,并引入动态障碍物的位置信息改进在奖励函数,进行的训练,输出移动机器人连续的线速度和角速度,直到移动机器人达到目标点。本发明能提高对未知目标的泛化能力及规划到指定目标成功率。
Description
技术领域
本发明涉及路径规划技术领域,具体地说,涉及一种融合堆叠LSTM与SAC算法的路径规划方法及***。
背景技术
传统的路径规划方法,即基于地图的方法,主要依赖同步定位与建图(Simultaneous Localization and Mapping,SLAM)和导航。一个突出的问题是,这些方法易受到传感器噪声累积的影响,这些噪声沿着从映射、定位到导航的过程传播,导致这些方法累积误差较大。
为了减少累计误差,越来越多的研究人员将时间精力投入到基于深度强化学习(Deep Reinforcement Learning,DRL)的端到端方法上,以人工智能体学习策略时产生的最大化奖励来评估规划路径的性能。深度强化学习的路径规划方法是一种新的端到端方法,它基于第一人称视觉信息帮助智能体规划一条从起点到达特定目标位置的无碰最优路径。
有文献提出了一种新的基于近端策略优化(Proximal Policy Optimization,PPO)算法的室内路径规划方法,它可以在室内环境中仅使用RGB图像和里程计来到达之前没有训练过的新目标。堆叠的LSTM结构旨在帮助记忆环境,并学习建立内部表征。该模型以RGB图像作为视觉输入,以里程计作为目标参考最后一个时间步中的速度和回报有助于理解路径规划的任务。最后,在模拟环境和真实环境下进行了实验,到达新目标的成功率为60%。
有文献提出了一种新的基于视觉的路径规划注意力概率模型,该模型以ResNet18最顶卷积层的空间位置为子窗口,编码了观测对象的语义信息,以及它们所在位置的空间信息。注意力概率模型由三个部分组成:目标、动作和记忆。“什么”和“哪里”的这种组合使智能体有效地规划到目标对象的最优路径。
有文献提出了一种多目标协作的基于视觉的路径规划模型。引入了两种新的路径规划辅助任务:逆动力学模型和多目标协同学习。逆动力学模型在给定智能体的上一状态和当前状态的情况下,预测上一动作。通过预测动作和真实动作的比较,可以确定顺序状态之间的关键差异,充分捕获观测与目标之间的线索,这可以解决深度强化学习中的奖励稀疏问题。多目标协同学习可以将一个已成功到达目标生成的样本用于另一个相关目标的路径规划,显著提高了样本利用率。
但是,现有的技术没有充分理解环境中的信息,对未知新目标的泛化性能差、动态避障能力差,且对深度强化学习的奖励函数设计较简单,没有充分利用移动机器人本身的运动信息,因此会出现奖励稀疏的问题与推理不充分的问题,进而使得训练收敛速度变慢,到达目标的成功率变低,规划的路径不是最短最优。
发明内容
本发明的内容是提供一种融合堆叠LSTM与SAC算法的路径规划方法及***,其能够提高了对未知目标的泛化能力及规划到指定目标成功率。
根据本发明的一种融合堆叠LSTM与SAC算法的路径规划方法,其包括以下步骤:
一、收集移动机器人第一视角观测到的常规场景图像及深度场景图像,并设计卷积神经网络提取图像特征;
二、收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;
三、构建堆叠LSTM网络,将提取到的卷积特征、目标点的位置、上一时刻移动机器人的线速度及奖励输入到堆叠LSTM网络中;
四、构建路径规划的SAC深度强化学习模型,将堆叠LSTM网络输出的结果馈送到SAC深度强化学习模型,并引入动态障碍物的位置信息改进在奖励函数,通过改进的奖励函数进行SAC深度强化学习模型的训练,输出移动机器人连续的线速度和角速度,直到移动机器人达到目标点。
作为优选,常规场景图像尺寸为224×224×1,深度场景图像尺寸为64×64×1。
作为优选,卷积神经网络包括4个卷积层,每层分别有128、64、16、16个滤波器、3×3的内核,跨距为1,每一层之间用ReLU作为激活函数。
作为优选,堆叠LSTM网络包括2层LSTM网络和全连接层,卷积特征和目标点的位置输入到第1层LSTM网络中,然后上一时刻的速度vt-1及上一时刻的奖励rt-1输入到第2层LSTM网络中,再输入到包含256个神经元的全连接层中。
作为优选,改进的奖励函数为:
其中,rc为碰撞奖励,dt-1为上一时刻t-1下移动机器人与目标位置的距离,dt为当前时刻t下移动机器人与目标位置的距离,若该距离小于常量阈值T,移动机器人则获得到达奖励ra,dd为移动机器人到动态障碍物的距离,D为以动态障碍物为中心的警戒区半径阈值,cd为警戒区参数,cr为距离参数,cl为线速度参数,ca为角速度参数,为移动机器人在t时刻下的线速度,/>为移动机器人在t时刻下的角速度。
作为优选,改进的奖励函数训练流程如下:
1)收集目标点、障碍物的位置信息,计算移动机器人与目标点、障码物的距离;
2)判断移动机器人到目标点间的距离是否小于常量闽值T,若是,则获得到达目标的正奖励,训练结束;若否,进行下一步;
3)判断移动机器人到动态障碍物间的距高是否小于阀值D,若是,获得警戒区负奖励,训练结束;若否,进行下一步;
4)判断是否发生碰撞,若是,获得碰撞的负奖励;若否,获得目标距离、角速度、线速度及时间相关的综合奖励,训练结束。
本发明提供了一种融合堆叠LSTM与SAC算法的路径规划***,其采用上述的融合堆叠LSTM与SAC算法的路径规划方法,并包括:
环境感知模块:通过传感器收集周围环境的信息,用于确定机器人的位置和状态;
状态特征提取模块:将环境感知模块获取到的图像数据作为状态输入,通过深度卷积神经网络提取特征,获取机器人在当前状态下的关键特征;
记忆推理模块:以环境感知模块获取到的运动数据及位置数据作为参考,使用堆叠LSTM网络对环境及目标进行学习与记忆;
行为决策模块:根据移动机器人的观测图像和目标位置等,运用SAC深度强化学习模型训练移动机器人,确定移动机器人在当前状态下的角速度与线速度,以此指导移动机器人运动直到到达目标。
本发明提出一种新的融合堆叠长短期记忆神经网络(Long Short Term Memory,LSTM)和柔性演员-评论家(Soft Actor-Critic,SAC)算法的端到端路径规划模型,根据移动机器人第一人称视角观测到的RGB-D图像以及目标点在的极坐标,通过改进框架结构,并针对奖励稀疏、动态避障及对未知新目标的泛化性能的问题,引入移动机器人本身的运动信息及动态障碍物警戒区信息来改进奖励函数,训练过程能够以较快速度收敛,提高了对未知目标的泛化能力及规划到指定目标成功率。
附图说明
图1为实施例中一种融合堆叠LSTM与SAC算法的路径规划方法的流程图;
图2为实施例中融合堆叠LSTM与SAC算法的路径规划框架示意图;
图3为实施例中改进的奖励函数训练流程图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例
如图1所示,本实施例提供了一种融合堆叠LSTM与SAC算法的路径规划方法,其包括以下步骤:
一、收集移动机器人第一视角观测到的常规场景图像及深度场景图像,并设计卷积神经网络提取图像特征;
二、收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;
三、构建堆叠LSTM网络,将提取到的卷积特征、目标点的位置、上一时刻移动机器人的线速度及奖励输入到堆叠LSTM网络中;
四、构建路径规划的SAC深度强化学习模型,将堆叠LSTM网络输出的结果馈送到SAC深度强化学习模型,并引入动态障碍物的位置信息改进在奖励函数,通过改进的奖励函数进行SAC深度强化学习模型的训练,输出移动机器人连续的线速度和角速度,直到移动机器人达到目标点。
本实施例的主要任务是实现移动机器人在无地图环境下,以移动机器人当前时刻第一人称视角观测到的RGB-D图像及目标点在移动机器人坐标系中的极坐标为输入,融合堆叠LSTM和SAC算法改进路径规划框架与奖励函数来训练移动机器人从起点到达指定目标位置,输出移动机器人当前时刻的角速度与线速度,实现的端到端的路径规划任务,使移动机器人可以无碰安全地到达目标位置,并通过堆叠LSTM推理移动机器人到达未知新目标,提高泛化性能。因此,该问题可被定义为:
vt=f(it,ot,vt-1)
其中,it为移动机器人以第一人称视角观测到的RGB-D图像进行特征提取后的特征值,ot为当前时刻移动机器人与目标位置的相对极坐标位置,vt-1为移动机器人上一时刻输出的速度,包括角速度与线速度。
融合堆叠LSTM与SAC算法的路径规划框架
融合堆叠LSTM与SAC算法的路径规划框架以当前时刻移动机器人第一人称视角观测到的RGB-D图像及与目标点有关的距离和角度的极坐标为输入,输出移动机器人的角速度与线速度,实现端到端的路径规划任务,通过对不同的目标进行训练,更新路径规划框架中的相关参数,再对未知的新目标进行推理,通过到达新目标的规划成功率来决定路径规划框架是否继续需要进行下一步更新,到达新目标的规划成功率越高,该路径规划框架对环境信息的理解程度越高。
融合堆叠LSTM与SAC算法的路径规划框架如图2所示,RGB-D图像尺寸为224×224×1,深度图像尺寸为64×64×1,然后分别馈送到卷积神经网络的4个卷积层中,每层分别有128、64、16、16个滤波器、3×3的内核,跨距为1,每一层之间用ReLU作为激活函数。将得到的输出与目标信息输入到堆叠LSTM网络的第1层LSTM网络中,再与上一时刻的速度vt-1及上一时刻的奖励rt-1输入到第2层LSTM网络中,再输入到包含256个神经元的全连接层中,最后基于SAC深度强化学习模型确定移动机器人当前时刻的速度vt,其中包含线速度和角速度/>
改进的奖励函数
在三维环境中,移动机器人的线速度范围为0~0.3m/s,角速度范围为0~1rad/s,移动机器人通过与环境的交互累积经验来训练路径规划框架,得到从起点到指定目标位置的无碰最优路径,并基于堆叠的LSTM网络推理到达未训练过的未知新目标,实现端到端的路径规划任务。
深度强化学***滑,加入移动机器人角速度的负奖励;为了使移动机器人朝着目标所在方向移动,加入移动机器人与目标距离的作为正奖励;为了使移动机器人快速接近目标,给与-0.01/s的有关时间的负奖励。改进的奖励函数为:
其中,rc为碰撞奖励,dt-1为上一时刻t-1下移动机器人与目标位置的距离,dt为当前时刻t下移动机器人与目标位置的距离,若该距离小于常量阈值T,移动机器人则获得到达奖励ra,dd为移动机器人到动态障碍物的距离,D为以动态障碍物为中心的警戒区半径阈值,cd为警戒区参数,cr为距离参数,cl为线速度参数,ca为角速度参数,为移动机器人在t时刻下的线速度,/>为移动机器人在t时刻下的角速度。
如图3所示,改进的奖励函数训练流程如下:
1)收集目标点、障碍物的位置信息,计算移动机器人与目标点、障码物的距离;
2)判断移动机器人到目标点间的距离是否小于常量闽值T,若是,则获得到达目标的正奖励,训练结束;若否,进行下一步;
3)判断移动机器人到动态障碍物间的距高是否小于阀值D,若是,获得警戒区负奖励,训练结束;若否,进行下一步;
4)判断是否发生碰撞,若是,获得碰撞的负奖励;若否,获得目标距离、角速度、线速度及时间相关的综合奖励,训练结束。
本实施例提供了一种融合堆叠LSTM与SAC算法的路径规划***,其采用上述的融合堆叠LSTM与SAC算法的路径规划方法,并包括:
环境感知模块:通过传感器收集周围环境的信息,用于确定机器人的位置和状态;
状态特征提取模块:将环境感知模块获取到的图像数据作为状态输入,通过深度卷积神经网络提取特征,获取机器人在当前状态下的关键特征;
记忆推理模块:以环境感知模块获取到的运动数据及位置数据作为参考,使用堆叠LSTM网络对环境及目标进行学习与记忆;
行为决策模块:根据移动机器人的观测图像和目标位置等,运用SAC深度强化学习模型训练移动机器人,确定移动机器人在当前状态下的角速度与线速度,以此指导移动机器人运动直到到达目标。
本实施例经过与其他基于深度强化学习的端到端路径规划方法进行多组实验对比,在gazebo仿真框架中取得了很好的效果,泛化能力和到达目标的成功率都有所提升。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (7)
1.融合堆叠LSTM与SAC算法的路径规划方法,其特征在于:包括以下步骤:
一、收集移动机器人第一视角观测到的常规场景图像及深度场景图像,并设计卷积神经网络提取图像特征;
二、收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;
三、构建堆叠LSTM网络,将提取到的卷积特征、目标点的位置、上一时刻移动机器人的线速度及奖励输入到堆叠LSTM网络中;
四、构建路径规划的SAC深度强化学习模型,将堆叠LSTM网络输出的结果馈送到SAC深度强化学习模型,并引入动态障碍物的位置信息改进在奖励函数,通过改进的奖励函数进行SAC深度强化学习模型的训练,输出移动机器人连续的线速度和角速度,直到移动机器人达到目标点。
2.根据权利要求1所述的融合堆叠LSTM与SAC算法的路径规划方法,其特征在于:常规场景图像尺寸为224×224×1,深度场景图像尺寸为64×64×1。
3.根据权利要求2所述的融合堆叠LSTM与SAC算法的路径规划方法,其特征在于:卷积神经网络包括4个卷积层,每层分别有128、64、16、16个滤波器、3×3的内核,跨距为1,每一层之间用ReLU作为激活函数。
4.根据权利要求3所述的融合堆叠LSTM与SAC算法的路径规划方法,其特征在于:堆叠LSTM网络包括2层LSTM网络和全连接层,卷积特征和目标点的位置输入到第1层LSTM网络中,然后上一时刻的速度vt-1及上一时刻的奖励rt-1输入到第2层LSTM网络中,再输入到包含256个神经元的全连接层中。
5.根据权利要求4所述的融合堆叠LSTM与SAC算法的路径规划方法,其特征在于:改进的奖励函数为:
其中,rc为碰撞奖励,dt-1为上一时刻t-1下移动机器人与目标位置的距离,dt为当前时刻t下移动机器人与目标位置的距离,若该距离小于常量阈值T,移动机器人则获得到达奖励ra,dd为移动机器人到动态障碍物的距离,D为以动态障碍物为中心的警戒区半径阈值,cd为警戒区参数,cr为距离参数,cl为线速度参数,ca为角速度参数,为移动机器人在t时刻下的线速度,/>为移动机器人在t时刻下的角速度。
6.根据权利要求5所述的融合堆叠LSTM与SAC算法的路径规划方法,其特征在于:改进的奖励函数训练流程如下:
1)收集目标点、障碍物的位置信息,计算移动机器人与目标点、障码物的距离;
2)判断移动机器人到目标点间的距离是否小于常量闽值T,若是,则获得到达目标的正奖励,训练结束;若否,进行下一步;
3)判断移动机器人到动态障碍物间的距高是否小于阀值D,若是,获得警戒区负奖励,训练结束;若否,进行下一步;
4)判断是否发生碰撞,若是,获得碰撞的负奖励;若否,获得目标距离、角速度、线速度及时间相关的综合奖励,训练结束。
7.融合堆叠LSTM与SAC算法的路径规划***,其特征在于:其采用如权利要求1-6中任一所述的融合堆叠LSTM与SAC算法的路径规划方法,并包括:
环境感知模块:通过传感器收集周围环境的信息,用于确定机器人的位置和状态;
状态特征提取模块:将环境感知模块获取到的图像数据作为状态输入,通过深度卷积神经网络提取特征,获取机器人在当前状态下的关键特征;
记忆推理模块:以环境感知模块获取到的运动数据及位置数据作为参考,使用堆叠LSTM网络对环境及目标进行学习与记忆;
行为决策模块:根据移动机器人的观测图像和目标位置等,运用SAC深度强化学习模型训练移动机器人,确定移动机器人在当前状态下的角速度与线速度,以此指导移动机器人运动直到到达目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310649008.XA CN116540731B (zh) | 2023-06-02 | 2023-06-02 | 融合堆叠lstm与sac算法的路径规划方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310649008.XA CN116540731B (zh) | 2023-06-02 | 2023-06-02 | 融合堆叠lstm与sac算法的路径规划方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116540731A true CN116540731A (zh) | 2023-08-04 |
CN116540731B CN116540731B (zh) | 2024-03-26 |
Family
ID=87445336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310649008.XA Active CN116540731B (zh) | 2023-06-02 | 2023-06-02 | 融合堆叠lstm与sac算法的路径规划方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116540731B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116690588A (zh) * | 2023-08-07 | 2023-09-05 | 南京云创大数据科技股份有限公司 | 多机械臂多任务的目标获取方法、装置、设备及存储介质 |
CN117472042A (zh) * | 2023-09-19 | 2024-01-30 | 四川大学 | 一种基于格论与路径规划的反应堆工况跟踪控制方法 |
CN117539266A (zh) * | 2024-01-04 | 2024-02-09 | 珠海市格努科技有限公司 | 基于视觉的物流***中路径规划方法、装置和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020056875A1 (zh) * | 2018-09-20 | 2020-03-26 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
CN113156980A (zh) * | 2021-05-28 | 2021-07-23 | 山东大学 | 一种基于深度强化学习的塔式起重机路径规划方法及*** |
CN114185339A (zh) * | 2021-11-15 | 2022-03-15 | 哈尔滨工程大学 | 一种动态环境下的移动机器人路径规划方法 |
CN114740868A (zh) * | 2022-05-12 | 2022-07-12 | 华中科技大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
-
2023
- 2023-06-02 CN CN202310649008.XA patent/CN116540731B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020056875A1 (zh) * | 2018-09-20 | 2020-03-26 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
CN113156980A (zh) * | 2021-05-28 | 2021-07-23 | 山东大学 | 一种基于深度强化学习的塔式起重机路径规划方法及*** |
CN114185339A (zh) * | 2021-11-15 | 2022-03-15 | 哈尔滨工程大学 | 一种动态环境下的移动机器人路径规划方法 |
CN114740868A (zh) * | 2022-05-12 | 2022-07-12 | 华中科技大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116690588A (zh) * | 2023-08-07 | 2023-09-05 | 南京云创大数据科技股份有限公司 | 多机械臂多任务的目标获取方法、装置、设备及存储介质 |
CN116690588B (zh) * | 2023-08-07 | 2023-10-10 | 南京云创大数据科技股份有限公司 | 多机械臂多任务的目标获取方法、装置、设备及存储介质 |
CN117472042A (zh) * | 2023-09-19 | 2024-01-30 | 四川大学 | 一种基于格论与路径规划的反应堆工况跟踪控制方法 |
CN117539266A (zh) * | 2024-01-04 | 2024-02-09 | 珠海市格努科技有限公司 | 基于视觉的物流***中路径规划方法、装置和电子设备 |
CN117539266B (zh) * | 2024-01-04 | 2024-04-19 | 珠海市格努科技有限公司 | 基于视觉的物流***中路径规划方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116540731B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116540731B (zh) | 融合堆叠lstm与sac算法的路径规划方法及*** | |
CN110136481B (zh) | 一种基于深度强化学习的停车策略 | |
Zhang et al. | Robot navigation of environments with unknown rough terrain using deep reinforcement learning | |
WO2022052406A1 (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
CN107168324B (zh) | 一种基于anfis模糊神经网络的机器人路径规划方法 | |
Zhang et al. | Integrating kinematics and environment context into deep inverse reinforcement learning for predicting off-road vehicle trajectories | |
CN114384920A (zh) | 一种基于局部栅格地图实时构建的动态避障方法 | |
Botteghi et al. | On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach | |
US20070100780A1 (en) | Hybrid control device | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN116679719A (zh) | 基于动态窗口法与近端策略的无人车自适应路径规划方法 | |
Saksena et al. | Towards behavioural cloning for autonomous driving | |
Ma et al. | Learning to navigate in indoor environments: From memorizing to reasoning | |
CN117289691A (zh) | 用于导航场景下强化学习的路径规划智能体的训练方法 | |
CN112857370A (zh) | 一种基于时序信息建模的机器人无地图导航方法 | |
Zhao et al. | Path planning for mobile robots based on TPR-DDPG | |
Mun et al. | Occlusion-aware crowd navigation using people as sensors | |
Hamad et al. | Path Planning of Mobile Robot Based on Modification of Vector Field Histogram using Neuro-Fuzzy Algorithm. | |
Xu et al. | Avoidance of manual labeling in robotic autonomous navigation through multi-sensory semi-supervised learning | |
Wang et al. | Vision-based autonomous driving: A hierarchical reinforcement learning approach | |
US20220269948A1 (en) | Training of a convolutional neural network | |
WO2023242223A1 (en) | Motion prediction for mobile agents | |
Takehara et al. | Autonomous car parking system using deep reinforcement learning | |
CN114326826B (zh) | 多无人机队形变换方法及*** | |
Xu et al. | Indoor multi-sensory self-supervised autonomous mobile robotic navigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |