CN111260026A

CN111260026A - 一种基于元强化学习的导航迁移方法

Info

Publication number: CN111260026A
Application number: CN202010025356.6A
Authority: CN
Inventors: 陶小林; 陈甜; 甘涛; 葛树志; 刘渠慧
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-06-09
Anticipated expiration: 2040-01-10
Also published as: CN111260026B

Abstract

本发明公开了一种基于元强化学习的导航迁移方法，涉及计算机视觉技术领域。该方法通过使用少样本对复杂的模型进行自适应控制，进而使得训练模型得以收敛，避免了单个样本可能会造成的过拟合，同时机器人的位置随机初始化也保证了样本的多样性；能够提高机器人对不同环境的泛化性，迁移性极强；收敛后的元强化学习网络框架具有对不同新环境的适应能力，有能从虚拟环境中迁移至现实环境的能力，能解决基于强化学习的导航算法从虚拟环境迁移到现实环境泛化性能差的问题；该方法相对于强化学习算法和重新训练神经网络可以更快收敛，减少训练时间，不用重复多次构建网络结构，只需保存模型使用相同的网络结构即可，让操作更加简单化。

Description

一种基于元强化学习的导航迁移方法

技术领域

本发明涉及计算机视觉技术领域，具体而言，涉及一种基于元强化学习的导航迁移方法。

背景技术

目前，机器人在人们的生活中扮演着越来越重要的角色，随着各类社会服务机器人的出现，导航算法也成为了导航技术的一个重要的发展方向。

众所周知，复杂的环境和未知、动态的场景是移动机器人及无人驾驶快速达到目的地的一大阻碍，大部分的机器人是需要实时手动操作实现其导航，并且自动机器人在复杂的环境中也面临着打转寻找不到目标的情况。虽然现有技术会为机器人提供一些不可预见的场景，但是仍然需要花费一段获取场景后的反应时间。因此，移动机器人需要具有不同环境的先验知识，来提升在面对不同环境时的反应能力，在复杂环境中自主快速做出最佳决策。

在深度强化学习导航算法中，机器人与环境进行交互，在当前状态通过执行动作进入下一个状态并得到奖励，以负奖励和正奖励来促使机器人达到目标，通过反复与环境交互，让机器人做出得到最大奖励的策略。目前，有很多环境为了促使机器人能更快的找到目标，设置每走一步得到负奖励，找到目标给予正奖励，让机器人直接寻找目标。

目前为了实现快速导航的目的，深度强化学习导航算法通过大量样本数据训练神经网络，训练的成本很高，因为随着网络层的增加在虚拟环境中运行机器人导航进行训练是非常耗时的，需要数十万次的执行任务可能才能达到收敛。除此之外，如果要迁移到真实环境中随着环境的动态变化，迁移性会特别差，用单一场景训练会造成过拟合，而多个场景训练时算法难以达到收敛。一般情况下，让机器人在虚拟环境中进行训练，直到学习到其所需要的能力之后将所学到的知识迁移到真实环境中的机器人身上。但是由于现实环境与虚拟的环境差别过大，会使机器人的导航性能急剧减弱，机器人获得现实环境中的信息与虚拟环境有很大的差异，导致深度强化学习的迁移性能与在现实环境中的实用性很差。

发明内容

本发明在于提供一种基于元强化学习的导航迁移方法，其能够缓解上述问题。

为了缓解上述的问题，本发明采取的技术方案如下：

本发明提供了一种基于元强化学习的导航迁移方法，包括以下步骤：

S100、生成n个不同的虚拟训练环境，各虚拟训练环境中均初始化有一个导航目标；

S200、从n个不同的虚拟训练环境中随机选择b个虚拟训练环境，分别作为b个当前虚拟训练环境，b≥1，对于每个当前虚拟训练环境，均在其中的随机位置初始化一个虚拟训练机器人；

S300、构建无模型的元强化学习网络框架，所述元强化学习网络框架由依次连接的图像特征提取处理层以及元强化学习网络构成，所述元强化学习网络包括LSTM网络、交互损失计算和导航损失计算；

S400、使各虚拟训练机器人与各自所在当前虚拟训练环境交互，利用各虚拟训练机器人观察到的图片训练更新所述元强化学习网络框架，若所述元强化学习网络框架收敛，则继续执行步骤S500，否则跳转至步骤S200；

S500、保存收敛后的元强化学习网络框架，构建现实环境/新虚拟环境，所述现实环境和所述新虚拟环境均设置有导航目标及应用机器人；

S600、将收敛后的元强化学习网络框架迁移至现实环境/新虚拟环境中的应用机器人的导航***中，应用机器人不断将其观察到的图片输至收敛后的元强化学习网络框架，继而不断的获得导航任务策略，应用机器人根据导航任务策略执行动作，直至到达其所在环境的导航目标，导航结束。

本技术方案的技术效果是：通过使用少样本对复杂的模型进行自适应控制，进而使得训练模型得以收敛，大大减少了需要大量样本的需求，避免了单个样本可能会造成的过拟合，同时机器人的位置随机初始化也保证了样本的多样性；通过交互损失可让机器人适应环境获得先验知识，学习权重参数，提供一个良好的初始化快速适应测试任务，通过导航损失可让机器人有充足的机会通过与环境交互进行学习和适应，通过多批量不同环境的元训练，确保元模型学习的特征映射适用于不同的导航任务，从而提高机器人对不同环境的泛化性，迁移性极强；由于具有元模型，因此收敛后的元强化学习网络框架具有对不同新环境的适应能力，有能从虚拟环境中迁移至现实环境的能力，能解决基于强化学习的导航算法从虚拟环境迁移到现实环境泛化性能差的问题；该方法相对于强化学习算法和重新训练神经网络可以更快收敛，减少训练时间，不用重复多次构建网络结构，只需保存模型使用相同的网络结构即可，让操作更加简单化。

进一步地，所述环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、导航目标形状、导航目标尺寸和导航目标纹理。

本技术方案的技术效果是：这些因子足以构成客厅、厨房以及卧室等室内环境。

进一步地，所述步骤S300中，图像特征提取处理层用于处理机器人在每个状态观察到的图像，其结构为resnet18加全连接层。

进一步地，所述交互损失是根据交互条件进行计算，所述交互条件仅为LSTM网络输出的策略，或者为LSTM网络输出的策略与隐藏状态的结合；所述隐藏状态为隐向量，指的是导航过程中机器人指定要找到某个物体；所述导航损失是根据元强化学习网络框架中AC算法的损失计算。

更进一步地，交互指的是机器人在其所处环境，按照当前输入的策略，朝该环境中的导航目标移动，并不断的获取环境图片。

更进一步地，所述步骤S400中，当元强化学习网络的损失函数收敛，则元强化学习网络框架收敛，元强化学习网络框架的训练更新过程包括交互损失更新过程和导航损失更新过程；

所述交互损失更新过程包括：

对于每个虚拟训练机器人，其与其所在当前虚拟训练环境交互；

虚拟训练机器人每移动K步，进行一次更新，K＞1，且每次更新过程包括：

获取当前图片，将当前图片输入元强化学习网络框架的图像特征提取处理层，提取图片的特征映射信息，将特征映射信息输至LSTM网络中，输出策略和状态估值，虚拟训练机器人根据策略执行动作，并得到奖励，根据奖励、状态估值、策略计算虚拟训练机器人与其所在环境的交互损失，利用该交互损失更新图像特征提取处理层和元强化学习网络的参数；

所述导航损失更新过程包括：

将各虚拟训练机器人与对应当前虚拟训练环境的交互损失求和得到导航损失，利用导航损失更新图像特征提取处理层和元强化学习网络的参数。

更进一步地，虚拟训练机器人在当前虚拟训练环境中的交互过程，是其移动到达导航目标的过程，或者是其移动阈值P步后仍未到达导航目标的过程。

本技术方案的技术效果是：通过设置阈值，可防止虚拟训练机器人在虚拟环境中原地打转寻找不到目标，陷入循环，或一直重复已走过的路，一直未找到导航目标。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是实施例中基于元强化学习的导航迁移方法流程图；

图2是实施例中导航迁移方法在虚拟、现实环境迁移示意图；

图3是实施例中元强化学习网络框架示意图；

图4是实施例中元强化学习网络框架更新示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1～图4，本实施例公开了一种基于元强化学习的导航迁移方法，包括以下步骤：

S100、生成n个不同的虚拟训练环境，各虚拟训练环境中均初始化有一个导航目标。

在本实施例中，n的取值一般为100左右。

S200、从n个不同的虚拟训练环境中随机选择b个虚拟训练环境，分别作为b个当前虚拟训练环境，b≥1，对于每个当前虚拟训练环境，均在其中的随机位置初始化一个虚拟训练机器人。

在本实施例中，b可以为一个或多个，即可以一个或几个虚拟训练环境作为一个批量。

S300、构建无模型的元强化学习网络框架，元强化学习网络框架由依次连接的图像特征提取处理层以及元强化学习网络构成，元强化学习网络包括LSTM网络、交互损失计算和导航损失计算。

在本实施例中，图像特征提取处理层用于处理机器人在每个状态观察到的图像，其结构为resnet18加全连接层。

在本实施例中，交互损失是根据交互条件进行计算，交互条件仅为LSTM网络输出的策略，或者为LSTM网络输出的策略与隐藏状态的结合；隐藏状态为隐向量，指的是导航过程中机器人指定要找到某个物体；导航损失是根据元强化学习网络框架中AC算法的损失计算。

在本实施例中，交互指的是机器人在其所处环境，按照当前输入的策略，朝该环境中的导航目标移动，并不断的获取环境图片。

S400、使各虚拟训练机器人与各自所在当前虚拟训练环境交互，利用各虚拟训练机器人观察到的图片训练更新元强化学习网络框架，若元强化学习网络框架收敛，则继续执行步骤S500，否则跳转至步骤S200。

在本实施例中，当元强化学习网络的损失函数收敛，则元强化学习网络框架收敛，元强化学习网络框架的训练更新过程包括交互损失更新过程和导航损失更新过程。

交互损失更新过程包括：

获取当前图片，将当前图片输入元强化学习网络框架的图像特征提取处理层，提取图片的特征映射信息，将特征映射信息输至LSTM网络中，输出策略和状态估值，虚拟训练机器人根据策略执行动作，并得到奖励，根据奖励、状态估值、策略计算虚拟训练机器人与其所在环境的交互损失，利用该交互损失更新图像特征提取处理层和元强化学习网络的参数。

导航损失更新过程包括：

在本实施例中，特征映射信息包括目标、奖励信息以及是否达到目标的信息。

在本实施例中，虚拟训练机器人在当前虚拟训练环境中的交互过程，是其移动到达导航目标的过程，或者是其移动阈值P步后仍未到达导航目标的过程。

在本实施例中，机器人与环境的交互满足马尔可夫性质的条件，在t时刻前机器人的轨迹及奖励集合为τ＝{s₁,a₁,r₁,s₂,a₂,…,s_t,a_t,r_t}，其中s_t,a_t和r_t分别为t时刻的观测值、采取的动作以及获得的奖励值。

利用状态动作值函数来表示机器人在导航过程中给定一个策略π，在状态s下执行动作a可以得到的累积期望奖励

其中，γ为折扣系数,并且0≤γ≤1。

由于机器人的目标是学习一个最优策略，最大化每个状态下的值，同时学习得到一个最优的状态动作值函数，利用迭代贝尔曼方程求解Q值函数

Q_i+1(s,a)＝E_s′∈S[r+γmax_a′Q_i(s′,a′)|s,a]，

其中，i越大，即迭代的次数越多，Q值会趋近最优值，通过不断迭代会使状态动作值函数最终收敛，从而得到最优策略。

损失函数的计算为L(θ)＝E[(r+γmax_a′Q(s′,a′；θ)-Q(s,a；θ))²]，通过最小化损失函数来更新网络权重参数θ。

利用公式

进行反向传播。

由于本实施例中首先利用交互损失进行参数更新，交互损失是机器人每走k步的损失值；再用当前批量的所有环境的导航损失和更新权重参数，而导航损失是全部轨迹的损失值。最终梯度的更新规则为

其中，

为某个环境中机器人移动k步的观测值，D_τ为某个环境中机器人到达目标的所有观测值，α和β是学习率。

奖励函数的设置为

动作集合为a＝{Forward,RotateRight,RotateLeft,Done}，

其中，Forward表示向前移动，RotateRight表示向右旋转，RotateLeft表示向左旋转，Done表示达到目标。

S500、保存收敛后的元强化学习网络框架，构建现实环境/新虚拟环境，现实环境和新虚拟环境均设置有导航目标及应用机器人。

在本实施例中，所构建的现实环境与虚拟训练环境和新虚拟环境相似，构成因子均包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、导航目标形状、导航目标尺寸和导航目标纹理。

本发明所述基于元强化学习的导航迁移方法，具有以下优势：

1)通过使用少样本对复杂的模型进行自适应控制，进而使得训练模型得以收敛，大大减少了需要大量样本的需求，避免了单个样本可能会造成的过拟合，同时机器人的位置随机初始化也保证了样本的多样性。

2)首先利用导航目标对模型进行元训练，而后使用时利用少量数据进行精细训练以实现快速适应性调整。在不同环境下训练出的元模型将会学会如何去适应，机器人就可以利用元模型在每一个时间步长上进行适应性更新以处理当前所面对的环境，以实现快速在线适应的目标，即交互损失的目的是为了让机器人适应环境获得先验知识，学习权重参数，提供一个良好的初始化快速适应测试任务。而导航损失是让机器人有充足的机会通过与环境交互进行学习和适应。此外，通过多批量不同环境的元训练，确保元模型学习的特征映射适用于不同的导航任务，从而提高机器人对不同环境的泛化性，相比于有模型的迁移方法，本发明的迁移性更强。

3)通过元模型具有对不同新环境的适应能力，因此有能从虚拟环境中迁移至现实环境的能力，能解决基于强化学习的导航算法从虚拟环境迁移到现实环境泛化性能差的问题。机器人通过在虚拟环境中训练获得快速导航能力，然后迁移至新的导航环境中或现实环境中仍然能具备一定的导航能力，经过多个环境的训练后，它具有了先验知识，从而能够快速适应新的环境。并且通过训练好保存的模型，本发明在新的环境中相对于强化学习算法和重新训练神经网络可以更快收敛，减少训练时间，不用重复多次构建网络结构，只需保存模型使用相同的网络结构即可，让操作更加简单化。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于元强化学习的导航迁移方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于元强化学习的导航迁移方法，其特征在于，所述环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、导航目标形状、导航目标尺寸和导航目标纹理。

3.根据权利要求1所述基于元强化学习的导航迁移方法，其特征在于，所述步骤S300中，图像特征提取处理层用于处理机器人在每个状态观察到的图像，其结构为resnet18加全连接层。

4.根据权利要求1所述基于元强化学习的导航迁移方法，其特征在于，所述交互损失是根据交互条件进行计算，所述交互条件仅为LSTM网络输出的策略，或者为LSTM网络输出的策略与隐藏状态的结合；所述隐藏状态为隐向量，指的是导航过程中机器人指定要找到某个物体；所述导航损失是根据元强化学习网络框架中AC算法的损失计算。

5.根据权利要求4所述基于元强化学习的导航迁移方法，其特征在于，交互指的是机器人在其所处环境，按照当前输入的策略，朝该环境中的导航目标移动，并不断的获取环境图片。

6.根据权利要求5所述基于元强化学习的导航迁移方法，其特征在于，所述步骤S400中，当元强化学习网络的损失函数收敛，则元强化学习网络框架收敛，元强化学习网络框架的训练更新过程包括交互损失更新过程和导航损失更新过程；

所述交互损失更新过程包括：

所述导航损失更新过程包括：

7.根据权利要求6所述基于元强化学习的导航迁移方法，其特征在于，虚拟训练机器人在当前虚拟训练环境中的交互过程，是其移动到达导航目标的过程，或者是其移动阈值P步后仍未到达导航目标的过程。