CN111260026A - 一种基于元强化学习的导航迁移方法 - Google Patents
一种基于元强化学习的导航迁移方法 Download PDFInfo
- Publication number
- CN111260026A CN111260026A CN202010025356.6A CN202010025356A CN111260026A CN 111260026 A CN111260026 A CN 111260026A CN 202010025356 A CN202010025356 A CN 202010025356A CN 111260026 A CN111260026 A CN 111260026A
- Authority
- CN
- China
- Prior art keywords
- navigation
- reinforcement learning
- robot
- environment
- virtual training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013508 migration Methods 0.000 title claims abstract description 22
- 230000005012 migration Effects 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000003993 interaction Effects 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 230000006978 adaptation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于元强化学习的导航迁移方法,涉及计算机视觉技术领域。该方法通过使用少样本对复杂的模型进行自适应控制,进而使得训练模型得以收敛,避免了单个样本可能会造成的过拟合,同时机器人的位置随机初始化也保证了样本的多样性;能够提高机器人对不同环境的泛化性,迁移性极强;收敛后的元强化学习网络框架具有对不同新环境的适应能力,有能从虚拟环境中迁移至现实环境的能力,能解决基于强化学习的导航算法从虚拟环境迁移到现实环境泛化性能差的问题;该方法相对于强化学习算法和重新训练神经网络可以更快收敛,减少训练时间,不用重复多次构建网络结构,只需保存模型使用相同的网络结构即可,让操作更加简单化。
Description
技术领域
本发明涉及计算机视觉技术领域,具体而言,涉及一种基于元强化学习的导航迁移方法。
背景技术
目前,机器人在人们的生活中扮演着越来越重要的角色,随着各类社会服务机器人的出现,导航算法也成为了导航技术的一个重要的发展方向。
众所周知,复杂的环境和未知、动态的场景是移动机器人及无人驾驶快速达到目的地的一大阻碍,大部分的机器人是需要实时手动操作实现其导航,并且自动机器人在复杂的环境中也面临着打转寻找不到目标的情况。虽然现有技术会为机器人提供一些不可预见的场景,但是仍然需要花费一段获取场景后的反应时间。因此,移动机器人需要具有不同环境的先验知识,来提升在面对不同环境时的反应能力,在复杂环境中自主快速做出最佳决策。
在深度强化学习导航算法中,机器人与环境进行交互,在当前状态通过执行动作进入下一个状态并得到奖励,以负奖励和正奖励来促使机器人达到目标,通过反复与环境交互,让机器人做出得到最大奖励的策略。目前,有很多环境为了促使机器人能更快的找到目标,设置每走一步得到负奖励,找到目标给予正奖励,让机器人直接寻找目标。
目前为了实现快速导航的目的,深度强化学习导航算法通过大量样本数据训练神经网络,训练的成本很高,因为随着网络层的增加在虚拟环境中运行机器人导航进行训练是非常耗时的,需要数十万次的执行任务可能才能达到收敛。除此之外,如果要迁移到真实环境中随着环境的动态变化,迁移性会特别差,用单一场景训练会造成过拟合,而多个场景训练时算法难以达到收敛。一般情况下,让机器人在虚拟环境中进行训练,直到学习到其所需要的能力之后将所学到的知识迁移到真实环境中的机器人身上。但是由于现实环境与虚拟的环境差别过大,会使机器人的导航性能急剧减弱,机器人获得现实环境中的信息与虚拟环境有很大的差异,导致深度强化学习的迁移性能与在现实环境中的实用性很差。
发明内容
本发明在于提供一种基于元强化学习的导航迁移方法,其能够缓解上述问题。
为了缓解上述的问题,本发明采取的技术方案如下:
本发明提供了一种基于元强化学习的导航迁移方法,包括以下步骤:
S100、生成n个不同的虚拟训练环境,各虚拟训练环境中均初始化有一个导航目标;
S200、从n个不同的虚拟训练环境中随机选择b个虚拟训练环境,分别作为b个当前虚拟训练环境,b≥1,对于每个当前虚拟训练环境,均在其中的随机位置初始化一个虚拟训练机器人;
S300、构建无模型的元强化学习网络框架,所述元强化学习网络框架由依次连接的图像特征提取处理层以及元强化学习网络构成,所述元强化学习网络包括LSTM网络、交互损失计算和导航损失计算;
S400、使各虚拟训练机器人与各自所在当前虚拟训练环境交互,利用各虚拟训练机器人观察到的图片训练更新所述元强化学习网络框架,若所述元强化学习网络框架收敛,则继续执行步骤S500,否则跳转至步骤S200;
S500、保存收敛后的元强化学习网络框架,构建现实环境/新虚拟环境,所述现实环境和所述新虚拟环境均设置有导航目标及应用机器人;
S600、将收敛后的元强化学习网络框架迁移至现实环境/新虚拟环境中的应用机器人的导航***中,应用机器人不断将其观察到的图片输至收敛后的元强化学习网络框架,继而不断的获得导航任务策略,应用机器人根据导航任务策略执行动作,直至到达其所在环境的导航目标,导航结束。
本技术方案的技术效果是:通过使用少样本对复杂的模型进行自适应控制,进而使得训练模型得以收敛,大大减少了需要大量样本的需求,避免了单个样本可能会造成的过拟合,同时机器人的位置随机初始化也保证了样本的多样性;通过交互损失可让机器人适应环境获得先验知识,学习权重参数,提供一个良好的初始化快速适应测试任务,通过导航损失可让机器人有充足的机会通过与环境交互进行学习和适应,通过多批量不同环境的元训练,确保元模型学习的特征映射适用于不同的导航任务,从而提高机器人对不同环境的泛化性,迁移性极强;由于具有元模型,因此收敛后的元强化学习网络框架具有对不同新环境的适应能力,有能从虚拟环境中迁移至现实环境的能力,能解决基于强化学习的导航算法从虚拟环境迁移到现实环境泛化性能差的问题;该方法相对于强化学习算法和重新训练神经网络可以更快收敛,减少训练时间,不用重复多次构建网络结构,只需保存模型使用相同的网络结构即可,让操作更加简单化。
进一步地,所述环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、导航目标形状、导航目标尺寸和导航目标纹理。
本技术方案的技术效果是:这些因子足以构成客厅、厨房以及卧室等室内环境。
进一步地,所述步骤S300中,图像特征提取处理层用于处理机器人在每个状态观察到的图像,其结构为resnet18加全连接层。
进一步地,所述交互损失是根据交互条件进行计算,所述交互条件仅为LSTM网络输出的策略,或者为LSTM网络输出的策略与隐藏状态的结合;所述隐藏状态为隐向量,指的是导航过程中机器人指定要找到某个物体;所述导航损失是根据元强化学习网络框架中AC算法的损失计算。
更进一步地,交互指的是机器人在其所处环境,按照当前输入的策略,朝该环境中的导航目标移动,并不断的获取环境图片。
更进一步地,所述步骤S400中,当元强化学习网络的损失函数收敛,则元强化学习网络框架收敛,元强化学习网络框架的训练更新过程包括交互损失更新过程和导航损失更新过程;
所述交互损失更新过程包括:
对于每个虚拟训练机器人,其与其所在当前虚拟训练环境交互;
虚拟训练机器人每移动K步,进行一次更新,K>1,且每次更新过程包括:
获取当前图片,将当前图片输入元强化学习网络框架的图像特征提取处理层,提取图片的特征映射信息,将特征映射信息输至LSTM网络中,输出策略和状态估值,虚拟训练机器人根据策略执行动作,并得到奖励,根据奖励、状态估值、策略计算虚拟训练机器人与其所在环境的交互损失,利用该交互损失更新图像特征提取处理层和元强化学习网络的参数;
所述导航损失更新过程包括:
将各虚拟训练机器人与对应当前虚拟训练环境的交互损失求和得到导航损失,利用导航损失更新图像特征提取处理层和元强化学习网络的参数。
更进一步地,虚拟训练机器人在当前虚拟训练环境中的交互过程,是其移动到达导航目标的过程,或者是其移动阈值P步后仍未到达导航目标的过程。
本技术方案的技术效果是:通过设置阈值,可防止虚拟训练机器人在虚拟环境中原地打转寻找不到目标,陷入循环,或一直重复已走过的路,一直未找到导航目标。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是实施例中基于元强化学习的导航迁移方法流程图;
图2是实施例中导航迁移方法在虚拟、现实环境迁移示意图;
图3是实施例中元强化学习网络框架示意图;
图4是实施例中元强化学习网络框架更新示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1~图4,本实施例公开了一种基于元强化学习的导航迁移方法,包括以下步骤:
S100、生成n个不同的虚拟训练环境,各虚拟训练环境中均初始化有一个导航目标。
在本实施例中,n的取值一般为100左右。
S200、从n个不同的虚拟训练环境中随机选择b个虚拟训练环境,分别作为b个当前虚拟训练环境,b≥1,对于每个当前虚拟训练环境,均在其中的随机位置初始化一个虚拟训练机器人。
在本实施例中,b可以为一个或多个,即可以一个或几个虚拟训练环境作为一个批量。
S300、构建无模型的元强化学习网络框架,元强化学习网络框架由依次连接的图像特征提取处理层以及元强化学习网络构成,元强化学习网络包括LSTM网络、交互损失计算和导航损失计算。
在本实施例中,图像特征提取处理层用于处理机器人在每个状态观察到的图像,其结构为resnet18加全连接层。
在本实施例中,交互损失是根据交互条件进行计算,交互条件仅为LSTM网络输出的策略,或者为LSTM网络输出的策略与隐藏状态的结合;隐藏状态为隐向量,指的是导航过程中机器人指定要找到某个物体;导航损失是根据元强化学习网络框架中AC算法的损失计算。
在本实施例中,交互指的是机器人在其所处环境,按照当前输入的策略,朝该环境中的导航目标移动,并不断的获取环境图片。
S400、使各虚拟训练机器人与各自所在当前虚拟训练环境交互,利用各虚拟训练机器人观察到的图片训练更新元强化学习网络框架,若元强化学习网络框架收敛,则继续执行步骤S500,否则跳转至步骤S200。
在本实施例中,当元强化学习网络的损失函数收敛,则元强化学习网络框架收敛,元强化学习网络框架的训练更新过程包括交互损失更新过程和导航损失更新过程。
交互损失更新过程包括:
对于每个虚拟训练机器人,其与其所在当前虚拟训练环境交互;
虚拟训练机器人每移动K步,进行一次更新,K>1,且每次更新过程包括:
获取当前图片,将当前图片输入元强化学习网络框架的图像特征提取处理层,提取图片的特征映射信息,将特征映射信息输至LSTM网络中,输出策略和状态估值,虚拟训练机器人根据策略执行动作,并得到奖励,根据奖励、状态估值、策略计算虚拟训练机器人与其所在环境的交互损失,利用该交互损失更新图像特征提取处理层和元强化学习网络的参数。
导航损失更新过程包括:
将各虚拟训练机器人与对应当前虚拟训练环境的交互损失求和得到导航损失,利用导航损失更新图像特征提取处理层和元强化学习网络的参数。
在本实施例中,特征映射信息包括目标、奖励信息以及是否达到目标的信息。
在本实施例中,虚拟训练机器人在当前虚拟训练环境中的交互过程,是其移动到达导航目标的过程,或者是其移动阈值P步后仍未到达导航目标的过程。
在本实施例中,机器人与环境的交互满足马尔可夫性质的条件,在t时刻前机器人的轨迹及奖励集合为τ={s1,a1,r1,s2,a2,…,st,at,rt},其中st,at和rt分别为t时刻的观测值、采取的动作以及获得的奖励值。
其中,γ为折扣系数,并且0≤γ≤1。
由于机器人的目标是学习一个最优策略,最大化每个状态下的值,同时学习得到一个最优的状态动作值函数,利用迭代贝尔曼方程求解Q值函数
Qi+1(s,a)=Es′∈S[r+γmaxa′Qi(s′,a′)|s,a],
其中,i越大,即迭代的次数越多,Q值会趋近最优值,通过不断迭代会使状态动作值函数最终收敛,从而得到最优策略。
损失函数的计算为L(θ)=E[(r+γmaxa′Q(s′,a′;θ)-Q(s,a;θ))2],通过最小化损失函数来更新网络权重参数θ。
由于本实施例中首先利用交互损失进行参数更新,交互损失是机器人每走k步的损失值;再用当前批量的所有环境的导航损失和更新权重参数,而导航损失是全部轨迹的损失值。最终梯度的更新规则为
动作集合为a={Forward,RotateRight,RotateLeft,Done},
其中,Forward表示向前移动,RotateRight表示向右旋转,RotateLeft表示向左旋转,Done表示达到目标。
S500、保存收敛后的元强化学习网络框架,构建现实环境/新虚拟环境,现实环境和新虚拟环境均设置有导航目标及应用机器人。
S600、将收敛后的元强化学习网络框架迁移至现实环境/新虚拟环境中的应用机器人的导航***中,应用机器人不断将其观察到的图片输至收敛后的元强化学习网络框架,继而不断的获得导航任务策略,应用机器人根据导航任务策略执行动作,直至到达其所在环境的导航目标,导航结束。
在本实施例中,所构建的现实环境与虚拟训练环境和新虚拟环境相似,构成因子均包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、导航目标形状、导航目标尺寸和导航目标纹理。
本发明所述基于元强化学习的导航迁移方法,具有以下优势:
1)通过使用少样本对复杂的模型进行自适应控制,进而使得训练模型得以收敛,大大减少了需要大量样本的需求,避免了单个样本可能会造成的过拟合,同时机器人的位置随机初始化也保证了样本的多样性。
2)首先利用导航目标对模型进行元训练,而后使用时利用少量数据进行精细训练以实现快速适应性调整。在不同环境下训练出的元模型将会学会如何去适应,机器人就可以利用元模型在每一个时间步长上进行适应性更新以处理当前所面对的环境,以实现快速在线适应的目标,即交互损失的目的是为了让机器人适应环境获得先验知识,学习权重参数,提供一个良好的初始化快速适应测试任务。而导航损失是让机器人有充足的机会通过与环境交互进行学习和适应。此外,通过多批量不同环境的元训练,确保元模型学习的特征映射适用于不同的导航任务,从而提高机器人对不同环境的泛化性,相比于有模型的迁移方法,本发明的迁移性更强。
3)通过元模型具有对不同新环境的适应能力,因此有能从虚拟环境中迁移至现实环境的能力,能解决基于强化学习的导航算法从虚拟环境迁移到现实环境泛化性能差的问题。机器人通过在虚拟环境中训练获得快速导航能力,然后迁移至新的导航环境中或现实环境中仍然能具备一定的导航能力,经过多个环境的训练后,它具有了先验知识,从而能够快速适应新的环境。并且通过训练好保存的模型,本发明在新的环境中相对于强化学习算法和重新训练神经网络可以更快收敛,减少训练时间,不用重复多次构建网络结构,只需保存模型使用相同的网络结构即可,让操作更加简单化。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于元强化学习的导航迁移方法,其特征在于,包括以下步骤:
S100、生成n个不同的虚拟训练环境,各虚拟训练环境中均初始化有一个导航目标;
S200、从n个不同的虚拟训练环境中随机选择b个虚拟训练环境,分别作为b个当前虚拟训练环境,b≥1,对于每个当前虚拟训练环境,均在其中的随机位置初始化一个虚拟训练机器人;
S300、构建无模型的元强化学习网络框架,所述元强化学习网络框架由依次连接的图像特征提取处理层以及元强化学习网络构成,所述元强化学习网络包括LSTM网络、交互损失计算和导航损失计算;
S400、使各虚拟训练机器人与各自所在当前虚拟训练环境交互,利用各虚拟训练机器人观察到的图片训练更新所述元强化学习网络框架,若所述元强化学习网络框架收敛,则继续执行步骤S500,否则跳转至步骤S200;
S500、保存收敛后的元强化学习网络框架,构建现实环境/新虚拟环境,所述现实环境和所述新虚拟环境均设置有导航目标及应用机器人;
S600、将收敛后的元强化学习网络框架迁移至现实环境/新虚拟环境中的应用机器人的导航***中,应用机器人不断将其观察到的图片输至收敛后的元强化学习网络框架,继而不断的获得导航任务策略,应用机器人根据导航任务策略执行动作,直至到达其所在环境的导航目标,导航结束。
2.根据权利要求1所述基于元强化学习的导航迁移方法,其特征在于,所述环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、导航目标形状、导航目标尺寸和导航目标纹理。
3.根据权利要求1所述基于元强化学习的导航迁移方法,其特征在于,所述步骤S300中,图像特征提取处理层用于处理机器人在每个状态观察到的图像,其结构为resnet18加全连接层。
4.根据权利要求1所述基于元强化学习的导航迁移方法,其特征在于,所述交互损失是根据交互条件进行计算,所述交互条件仅为LSTM网络输出的策略,或者为LSTM网络输出的策略与隐藏状态的结合;所述隐藏状态为隐向量,指的是导航过程中机器人指定要找到某个物体;所述导航损失是根据元强化学习网络框架中AC算法的损失计算。
5.根据权利要求4所述基于元强化学习的导航迁移方法,其特征在于,交互指的是机器人在其所处环境,按照当前输入的策略,朝该环境中的导航目标移动,并不断的获取环境图片。
6.根据权利要求5所述基于元强化学习的导航迁移方法,其特征在于,所述步骤S400中,当元强化学习网络的损失函数收敛,则元强化学习网络框架收敛,元强化学习网络框架的训练更新过程包括交互损失更新过程和导航损失更新过程;
所述交互损失更新过程包括:
对于每个虚拟训练机器人,其与其所在当前虚拟训练环境交互;
虚拟训练机器人每移动K步,进行一次更新,K>1,且每次更新过程包括:
获取当前图片,将当前图片输入元强化学习网络框架的图像特征提取处理层,提取图片的特征映射信息,将特征映射信息输至LSTM网络中,输出策略和状态估值,虚拟训练机器人根据策略执行动作,并得到奖励,根据奖励、状态估值、策略计算虚拟训练机器人与其所在环境的交互损失,利用该交互损失更新图像特征提取处理层和元强化学习网络的参数;
所述导航损失更新过程包括:
将各虚拟训练机器人与对应当前虚拟训练环境的交互损失求和得到导航损失,利用导航损失更新图像特征提取处理层和元强化学习网络的参数。
7.根据权利要求6所述基于元强化学习的导航迁移方法,其特征在于,虚拟训练机器人在当前虚拟训练环境中的交互过程,是其移动到达导航目标的过程,或者是其移动阈值P步后仍未到达导航目标的过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010025356.6A CN111260026B (zh) | 2020-01-10 | 2020-01-10 | 一种基于元强化学习的导航迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010025356.6A CN111260026B (zh) | 2020-01-10 | 2020-01-10 | 一种基于元强化学习的导航迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111260026A true CN111260026A (zh) | 2020-06-09 |
CN111260026B CN111260026B (zh) | 2022-07-05 |
Family
ID=70945050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010025356.6A Active CN111260026B (zh) | 2020-01-10 | 2020-01-10 | 一种基于元强化学习的导航迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111260026B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348113A (zh) * | 2020-11-27 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 离线元强化学习模型的训练方法、装置、设备及存储介质 |
CN112363402A (zh) * | 2020-12-21 | 2021-02-12 | 杭州未名信科科技有限公司 | 基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质 |
CN113011081A (zh) * | 2021-02-02 | 2021-06-22 | 电子科技大学 | 一种基于元学习的无人机导航方法 |
CN113044064A (zh) * | 2021-04-01 | 2021-06-29 | 南京大学 | 基于元强化学习的车辆自适应的自动驾驶决策方法及*** |
CN114290339A (zh) * | 2022-03-09 | 2022-04-08 | 南京大学 | 基于强化学习和残差建模的机器人现实迁移***和方法 |
CN114905505A (zh) * | 2022-04-13 | 2022-08-16 | 南京邮电大学 | 一种移动机器人的导航控制方法、***及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000067229A1 (en) * | 1999-05-05 | 2000-11-09 | Accenture Properties (2) B.V. | A system method and article of manufacture for creating interactive simulations utilizing a virtual director with external control features |
CN104165627A (zh) * | 2014-08-27 | 2014-11-26 | 电子科技大学 | 一种基于线性规划的实时动态航迹规划方法 |
CN109871011A (zh) * | 2019-01-15 | 2019-06-11 | 哈尔滨工业大学(深圳) | 一种基于预处理层与深度强化学习的机器人导航方法 |
US20190228309A1 (en) * | 2018-01-25 | 2019-07-25 | The Research Foundation For The State University Of New York | Framework and methods of diverse exploration for fast and safe policy improvement |
CN110515303A (zh) * | 2019-09-17 | 2019-11-29 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
US20190385061A1 (en) * | 2018-06-19 | 2019-12-19 | International Business Machines Corporation | Closed loop model-based action learning with model-free inverse reinforcement learning |
CN113044064A (zh) * | 2021-04-01 | 2021-06-29 | 南京大学 | 基于元强化学习的车辆自适应的自动驾驶决策方法及*** |
WO2021255445A2 (en) * | 2020-06-16 | 2021-12-23 | Arrival Ltd | Robotic production environment for vehicles |
CN113985870A (zh) * | 2021-10-19 | 2022-01-28 | 复旦大学 | 一种基于元强化学习的路径规划方法 |
-
2020
- 2020-01-10 CN CN202010025356.6A patent/CN111260026B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000067229A1 (en) * | 1999-05-05 | 2000-11-09 | Accenture Properties (2) B.V. | A system method and article of manufacture for creating interactive simulations utilizing a virtual director with external control features |
CN104165627A (zh) * | 2014-08-27 | 2014-11-26 | 电子科技大学 | 一种基于线性规划的实时动态航迹规划方法 |
US20190228309A1 (en) * | 2018-01-25 | 2019-07-25 | The Research Foundation For The State University Of New York | Framework and methods of diverse exploration for fast and safe policy improvement |
US20190385061A1 (en) * | 2018-06-19 | 2019-12-19 | International Business Machines Corporation | Closed loop model-based action learning with model-free inverse reinforcement learning |
CN109871011A (zh) * | 2019-01-15 | 2019-06-11 | 哈尔滨工业大学(深圳) | 一种基于预处理层与深度强化学习的机器人导航方法 |
CN110515303A (zh) * | 2019-09-17 | 2019-11-29 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
WO2021255445A2 (en) * | 2020-06-16 | 2021-12-23 | Arrival Ltd | Robotic production environment for vehicles |
CN113044064A (zh) * | 2021-04-01 | 2021-06-29 | 南京大学 | 基于元强化学习的车辆自适应的自动驾驶决策方法及*** |
CN113985870A (zh) * | 2021-10-19 | 2022-01-28 | 复旦大学 | 一种基于元强化学习的路径规划方法 |
Non-Patent Citations (7)
Title |
---|
MITCHELL WORTSMAN等: "Learning to Learn How to Learn: Self-Adaptive Visual Navigation Using Meta-Learning", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
张汕璠: "基于强化学习的路径规划方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张祺琛: "元强化学习的研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
徐高扬等: "LSTM网络在台风路径预测中的应用", 《计算机与现代化》 * |
肖莉等: "强化学习及其在协同虚拟环境导航知识中的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
董炫良: "人工智能模式下机器人移动路径导航设计研究", 《佳木斯职业学院学报》 * |
陶小林: "迁移学习在自适应视觉导航中的方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348113A (zh) * | 2020-11-27 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 离线元强化学习模型的训练方法、装置、设备及存储介质 |
CN112348113B (zh) * | 2020-11-27 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 离线元强化学习模型的训练方法、装置、设备及存储介质 |
CN112363402A (zh) * | 2020-12-21 | 2021-02-12 | 杭州未名信科科技有限公司 | 基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质 |
CN113011081A (zh) * | 2021-02-02 | 2021-06-22 | 电子科技大学 | 一种基于元学习的无人机导航方法 |
CN113011081B (zh) * | 2021-02-02 | 2022-03-22 | 电子科技大学 | 一种基于元学习的无人机导航方法 |
CN113044064A (zh) * | 2021-04-01 | 2021-06-29 | 南京大学 | 基于元强化学习的车辆自适应的自动驾驶决策方法及*** |
CN113044064B (zh) * | 2021-04-01 | 2022-07-29 | 南京大学 | 基于元强化学习的车辆自适应的自动驾驶决策方法及*** |
CN114290339A (zh) * | 2022-03-09 | 2022-04-08 | 南京大学 | 基于强化学习和残差建模的机器人现实迁移***和方法 |
CN114290339B (zh) * | 2022-03-09 | 2022-06-21 | 南京大学 | 基于强化学习和残差建模的机器人现实迁移方法 |
CN114905505A (zh) * | 2022-04-13 | 2022-08-16 | 南京邮电大学 | 一种移动机器人的导航控制方法、***及存储介质 |
CN114905505B (zh) * | 2022-04-13 | 2024-04-19 | 南京邮电大学 | 一种移动机器人的导航控制方法、***及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111260026B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111260026B (zh) | 一种基于元强化学习的导航迁移方法 | |
Singla et al. | Memory-based deep reinforcement learning for obstacle avoidance in UAV with limited environment knowledge | |
Gupta et al. | Cognitive mapping and planning for visual navigation | |
CN111079561B (zh) | 一种基于虚拟训练的机器人智能抓取方法 | |
CN110515303B (zh) | 一种基于ddqn的自适应动态路径规划方法 | |
Hussein et al. | Deep imitation learning for 3D navigation tasks | |
CN110181508B (zh) | 水下机器人三维航路规划方法及*** | |
CN111240356B (zh) | 一种基于深度强化学习的无人机集群会合方法 | |
CN111105034B (zh) | 基于反事实回报的多智能体深度强化学习方法、*** | |
CN112362066A (zh) | 一种基于改进的深度强化学习的路径规划方法 | |
Hussein et al. | Deep reward shaping from demonstrations | |
Chaffre et al. | Sim-to-real transfer with incremental environment complexity for reinforcement learning of depth-based robot navigation | |
Passalis et al. | Deep reinforcement learning for controlling frontal person close-up shooting | |
CN111352419B (zh) | 基于时序差分更新经验回放缓存的路径规划方法及*** | |
CN111260040A (zh) | 基于内在奖励的视频游戏决策方法 | |
KR20220137732A (ko) | 적응형 리턴 계산 방식을 사용한 강화 학습 | |
CN113281999A (zh) | 一种基于强化学习和迁移学习的无人机自主飞行训练方法 | |
CN116679711A (zh) | 一种基于有模型与无模型强化学习的机器人避障方法 | |
CN115374933A (zh) | 一种多节点探测器着陆行为智能规划及决策方法 | |
Li et al. | Domain adaptive state representation alignment for reinforcement learning | |
Sharma et al. | Model based path planning using Q-Learning | |
CN113894780A (zh) | 多机器人协作对抗方法、装置、电子设备和存储介质 | |
Messikommer et al. | Contrastive initial state buffer for reinforcement learning | |
CN111221340B (zh) | 一种基于粗粒度特征的可迁移视觉导航设计方法 | |
Duc et al. | An approach for UAV indoor obstacle avoidance based on AI technique with ensemble of ResNet8 and Res-DQN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |