CN113657573A

CN113657573A - 一种情景记忆引导下基于元学习的机器人技能获取方法

Info

Publication number: CN113657573A
Application number: CN202110740838.4A
Authority: CN
Inventors: 刘冬; 于洪华
Original assignee: Jiangsu Research Institute Co Ltd of Dalian University of Technology
Current assignee: Jiangsu Research Institute Co Ltd of Dalian University of Technology
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-11-16
Anticipated expiration: 2041-06-30
Also published as: CN113657573B

Abstract

本发明提供了一种情景记忆引导下基于元学习的机器人技能获取方法，首先建立机器人学习***情景记忆模型，并构建机器人感知与记忆进行相似性度量算法，实现对事件和场景信息检索匹配与情景记忆中事件的更新调用；接着，构建情景记忆引导的机器人操作技能元学习算法，分别从单独任务和所有任务中获取知识，进行技能学习。本发明提供使用已有经验指导机器人学习新技能的方法，提高了机器人对操作技能的学习效率，解决机器人操作技能学习过程中数据量过大、相似任务需重复训练的问题。

Description

一种情景记忆引导下基于元学习的机器人技能获取方法

技术领域

本发明属于智能机器人服务技术领域，涉及到一种基于情景记忆与元学习的机器人操作技能学习方法。

背景技术

近年来，智能机器人在工业生产、医疗、商业、家庭服务等领域，当前机器人的学习方法针对精确、重复性的任务已经能够胜任，但是缺乏对新任务的学习能力，相似任务场景需重复训练，不能积累经验指导新任务实现快速学习等问题。在发明专利CN108333941A中，华南理工大学的杜广龙、张爱玲等公开了一种基于混合增强智能的云机器人协作学习方法。其采用神经任务编程的元学习方法将总任务分解成简单的子任务，机器人基于示教学习的方法学习子任务，再将子任务汇总共享。山东大学的宋锐、李凤鸣等在发明专利CN111618862A中公开了一种先验知识引导下的机器人操作技能学习***及方法，其将机器热***模块化为物理、评估、策略学习等模块，建立机器人的状态-动作映射集，缓解机器人技能学习的难度。但是上述方法适用范围有限，首先，上述方法皆没有对已有经验的重新利用，缺少对生物学习***的关注。其次，其只适用于特定任务的学习，无法进行机器人操作技能的扩展学习，机器人缺少自主学习、探索的相关能力，缺乏对任务环境的适应性，未能实现机器人在实际应用时的实时学习性，难以满足机器人能够不断接触新任务，学习新技能的要求。最后，其机器人学习***框架复杂，设计与搭建难度较大。因此上述方法尚不能满足智能机器人操作技能的快速学习与泛化等要求。

发明内容

本发明主要解决的问题在于智能机器人如何利用已学知识和已有经验解决工作时面临的新任务，适应新的任务目标。针对当前机器人技能学习存在的需要大量数据训练，相似任务场景需重复训练，不能积累经验指导新任务实现快速学习等问题，本发明提出一种结合情景记忆的元学习机器人技能学习方法。首先在学习过程中通过元学习方法对任务进行学习，并将场景观测值和训练到的网络权重等作为经验信息存储到情景记忆模型中；其次通过余弦距离度量情景间的相似性进行记忆匹配读取，采用LURA算法对记忆进行写入更新；最后结合机器人感知规划模块的感知环境、目标检测、路径规划能力，与目标对象进行交互完成任务，实现记忆引导的机器人操作技能快速学习。具体包括以下步骤：

步骤1：建立机器人学习***记忆模型；

基于技能的事件建模方法，建立机器人情景记忆数学模型M，M为多个情景记忆m构成的记忆集合，情景记忆m主要组成部分有：时变的情景事件序列组合E，隶属于该条情景的元学习网络学习到的经验知识G，以及用于检索匹配相似事件的键值特征向量K，即m＝{E,G,K}。事件序列组合E由i个事件构成，即E＝{e₁,e₂,…e_i}，每个事件存储了与情景相关的环境观测值、动作等信息，通过事件匹配获取经验知识进而引导决策行为。

步骤2：构建机器人感知与记忆进行相似性度量算法；

在元学习训练阶段新任务与训练过的任务越相似，可利用的情景越多，任务编码器将每个时刻t的事件信息编码生成键值特征向量K_st。在对情景进行检索匹配时，通过计算当前事件与情景记忆中存储的事件的键值特征向量的相似性，选取合适的情景记忆。在应用阶段，任务编码器将感知***传递过来的场景信息编码生成键值特征向量K_t(i)，通过计算当前事件的场景信息与情景记忆中存储的事件信息的相似性度量值检索匹配。

步骤3：根据情景记忆写入机制将实时经验写入记忆模型；

判断当前场景是否为新事件，若是则记录事件，若不是则更新情景记忆中已有事件。当存储的情景记忆数量达到设定最大数量20个以后，记忆存储区仅剩预留的记忆存储缓冲区，此时将当前任务记忆暂存在缓冲区，待任务结束后类比LRUA算法对记忆进行更新。

步骤4：构建情景记忆引导的机器人操作技能元学习算法；

元学习在两个层面上进行学习，首先是在每个单独的任务中快速获取知识，第二个学习层面则是从所有任务中缓慢的提取信息。通过训练集的数据使机器人从训练任务中学习技能。首先将训练任务拆分成事件，机器人执行的每个动作对应一个事件，在训练过程中，机器人将事件和执行的策略(技能)通过情景记忆模块封装，建立事件与技能间的联系，此外，机器人通过元学习网络对所有训练任务进行学习，将网络权重等信息封装为经验知识。

步骤5：构建基于情景记忆的针对新任务的泛化学习算法。

根据步骤2、3、4获得的机器人记忆，指导机器人对于工作环境中出现的新任务进行学习。首先利用感知模块获得环境状态信息，将当前感知信息与记忆库中存在事件进行相似度度量，在记忆中选取合适的事件对当前任务进行指导。

本发明的效果和益处是：

本发明有效的解决了目前智能机器人操作技能学习需要大量数据训练、相似任务场景需重复训练以及不能积累经验指导新任务实现快速学习等问题，将类人情景记忆引入元学习方法，可在机器人面对新任务时利用经验指导机器人技能学习，实现技能的复用。本发明能在少量的样本中进行学习，通过对简单任务的学习和记忆方式完成复杂、多样的任务，并可以利用以往的经验知识，通过少量的训练快速掌握技能完成学习任务，有效提高了机器人技能学习的学习效率和执行成功率。

附图说明

图1为本发明方法的整体流程图；

图2为情景记忆模型架构；

图3为情景记忆更新过程；

图4为LSTM网络结构示意图；

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明实例中提供的情景引导下基于元学习的机器人技能获取流程图，参见图1。本发明基于情景记忆引导的元学习方法，构建感知规划模块，通过目标检测实现物体的定位与识别，实现机械臂路径规划算法作为运动元基础，在情景记忆模型建立与调用过程中，通过任务编码器和任务解码器实现情景记忆与元学习网络的交互，编码器将元学习网络的单个任务编码为可寻址的标签，任务解码器将情景经验解码为传递到元学习网络可用的信息。在元学习过程中，元学习器针对每个任务在低层次上学习当前任务，掌握当前任务；在高层次针对所有学习任务进行学习，并将经验知识通过情景记忆模型进行存储，指导元学习器对后续任务的学习。

在本实施例中，采用桌面平台木块堆积操作技能学习为例，木块堆积学习方法包括以下步骤：

步骤1：建立机器人操作技能学习***的记忆模型。建立机器人情景记忆数学模型M，其构成如图2所示，每条情景记忆m＝{E,G,K}，m包含时变的事件序列组合E，隶属于该条情景的元学习网络学习到的经验知识G，以及用于检索匹配相似事件的键值特征向量K。其中事件序列组合E由i个事件构成，即E＝{e₁,e₂，…，e_i}，每个事件存储了与情景相关的环境观测值、动作等信息，表示机器人在该任务中经历过的场景及动作序列；经验知识G则是在该任务中学习到的技能等经验知识。机器人在学习中不断的积累经验，同时将任务中的重要场景信息保存在事件中，其中每个事件e由四元组<o,p_e,a,p_t>组成，其中o是通过传感器获得的对环境的状态感知，包括图像中物体的分布、相互之间的位置关系和机器人的关节信息等；p_e是机械臂末端执行器三维坐标；a是机械臂执行的动作，在时间维度上表示机器人在当前任务采取的动作序列；p_t是机械臂进行交互操作的目标物三维坐标，整体结构参见图2。

步骤2：将机器人感知与记忆进行相似性度量。在学习过程中，任务编码器将每个时刻t的事件信息编码生成键值特征向量K_st。在对情景进行检索匹配时，通过计算当前事件与情景记忆中存储的事件的键值特征向量的相似性，选取合适的情景记忆。情景记忆更新过程参见图3。

步骤3：根据情景记忆写入机制将实时经验写入记忆模型。当存储的情景记忆数量达到设定最大数量20个以后，存储区仅剩预留的记忆存储缓冲区，此时将当前任务记忆暂存在缓冲区，待任务结束后类比LRUA(Least Recently Used Access)算法对记忆进行更新。LRUA：最少最近使用方法，将信息存储到使用次数较少的记忆的位置以保护最近写入的信息，或者写入刚刚读取过记忆的位置，以避免重复存储相似的记忆。在更新记忆时使用softmax函数将缓冲区情景记忆中每个时刻事件与情景记忆中记忆事件的余弦距离转化为写入权重

其中D(K_s,M_t(i))为t时刻场景与记忆事件的余弦距离，K_s为t时刻状态的情景记忆中记忆事件的键值特征向量，M_t(i)为缓冲区中情景记忆内每个时刻事件的键值特征向量。

然后将属于同一情景记忆的事件写入权重

求和取平均值作为覆盖权重

根据

计算结果，新的记忆将会采用以下两种方式被覆盖写入：

A:当两情景间具有很高的相似性时，即若

时，写入到缓冲区情景最常调用的情景的位置。

B:若

表明缓冲区内情景与记忆存储区内的情景没有特别相似，则选取使用权重最低的情景记忆的位置，将该情景记忆覆盖，以保证存储区的高效利用。使用权重

记忆存储区中情景记忆被匹配到次数定义为，每当情景记忆被匹配到时，将其使用权重加1。

步骤4：以元学习方法进行机器人操作技能训练。由于反向传播中基于梯度的更新机制和LSTM中细胞状态更新具有相似之处，同时LSTM网络长短时记忆的结构与元学习的思想非常的相似，因此本文采用了以LSTM替代反向传播的元学习网络，其网络结构参见图4，其中X_t为当前单元细胞的输入，h_t为隐藏层输出，σ为sigmoid激活函数，tanh为tanh激活函数，

为乘法，

为加法。

在时间t设定学习率为α_t，则学习器参数更新方式为：

其中θ_t是第t次更新迭代之后的参数，α_t是第t时的学习率，

是第t-1时刻损失函数相对于θ_t-1的梯度，L_t的下标t代表损失函数在第t次更新时候的损失函数，损失函数的计算和求梯度都是相对于上一次迭代完之后的参数θ_t-1。

这个过程与LSTM中的单元状态(cell state)的更新具有相同的形式:

令遗忘门f_t＝1，细胞单元状态c_t-1＝θ_t-1，学习率i_t＝α_t，

即可。当网络参数陷入“鞍点”时，需收缩当前的参数并对之前的参数θ_t-1进行遗忘，因此需重新定义学习率i_t和遗忘门f_t为：

中，σ为sigmod函数，W_I与W_F分别为输入门和遗忘门的更新函数，b_I与b_F分别问输入门和遗忘门的偏置参数，θ_t-1为t-1时刻学习器参数，L_t为t次更新后的损失函数，

是第t-1时刻损失函数相对于θ_t-1的梯度；

元学习器通过以上两步更新LSTM细胞状态，在避免发散的同时快速的训练。在训练过程中，首先将训练任务拆分成事件，机器人执行的每个动作对应一个事件，在训练过程中，机器人将事件和执行的策略(技能)通过情景记忆模块封装，建立事件与技能间的联系，此外，机器人通过元学习网络对所有训练任务进行学习，将网络权重等信息封装为经验知识。

是在每一个元测试数据集上收集均值和方差，因此在元训练时，我们使用训练集和测试集的批统计结果，而在元测试阶段使用训练集的批统计，并在分类器测试时使用测试集的运行平均值，这样可以避免信息漏失。对于每层的每个特征通道上，计算当前批量内的所有样本的对应输入，并统计其均值和方差。然后用该均值和方差，对每个样本对应的输入进行归一化。经过归一化后，所有的输入特征的均值为0，标准差为1。同时，为了防止归一化导致特征信息的丢失，γ,β：每一个特征引入的可学习参数，用于恢复原始输入特征，

分别为输入和输出，BN_γ,β(x_i)代表批量归一化过程：

在卷积神经网络层中采用SeLU激活函数，克服ReLU激活函数在输入的函数梯度过大时，导致网络参数更新后会造成一些神经元处于未激活状态而不起作用的缺点。在激活后方差过大时可以让减小方差，防止梯度***。并且在正半轴上梯度大于1，在方差过小时可使其增大，同时防止了梯度消失，将神经网络每一层的输出都是均值为0方差为1。其表达式如下所示：

其中λ≈1.05，α≈1.67。

步骤5：基于已训练的情景记忆对新的机器人操作技能学习

在应用过程中，当感知到与先前已编码的事件相似，或新事件与先前已感知到的事件不同时，任务编码器将感知***传递过来的场景信息编码生成键值特征向量K_t(i)。并采用余弦距离作为相似性度量函数，通过计算当前事件的场景信息与情景记忆中存储的事件信息的相似性度量值检索匹配情景：

然后通过加权计算读取权重

其中ξ为衰减系数，ξ值越大，代表前一个事件对当前状态影响越大，t＝1时，ξ＝0，

为t时刻当前事件场景信息与情景记忆存储事件信息的余弦度量。根据读取权重

计算结果选择执行下列两个操作之一解码情景进行指导新任务学习：

(1)当读取权重值大于给定阈值，则抽取该事件所属情景内的经验信息，将该条情景作为新任务的经验指导新任务的学习；

(2)若遍历过往时空中所存储情景内事件读取权重均小于给定阈值，则定义当前事件为新事件，为当前任务建立新情景，选取读取权重值最高的情景指导新任务进行学习。

设当前时间步从情景中匹配到的事件为e_i，在低层次抽取匹配的事件中场景动作信息传递到元学习网络，帮助机器人决策；在高层次将该事件所在情景记忆对应元学习网络的权重等经验信息通过任务解码器解码后传递到元学习器，给元学习器一个更优化的网络权重，加快收敛速度。

通过当前任务环境感知o_i判断任务是否完成，如果o_i与任务完成时环境感知o_f相同，则结束当前任务；如果不相同继续匹配进行下一个事件的调用，将情景内事件所对应的技能进行组合，通过闭环反馈与环境的不断交互，直到实现任务目标。

以上示例性实施方式所呈现的描述仅用以说明本发明的技术方案，并不想要成为毫无遗漏的，也不想要把本发明限制为所描述的精确形式。显然，本领域的普通技术人员根据上述教导做出很多改变和变化都是可能的。选择示例性实施方式并进行描述是为了解释本发明的特定原理及其实际应用，从而使得本领域的其它技术人员便于理解、实现并利用本发明的各种示例性实施方式及其各种选择形式和修改形式。本发明的保护范围意在由所附权利要求书及其等效形式所限定。

Claims

1.一种情景记忆引导下基于元学习的机器人技能获取方法，其特征在于在元学习方法基础上添加情景记忆模块，储存机器人在任务中学习到的经验知识，包括以下步骤：

步骤1：建立机器人学习***记忆模型；

建立机器人情景记忆数学模型M，M为多个情景记忆m构成的记忆集合，情景记忆m主要组成部分有：时变的情景事件序列组合E，隶属于该条情景的元学习网络学习到的经验知识G，以及用于检索匹配相似事件的键值特征向量K，即m＝{E，G，K}；事件序列组合E由多个事件构成，即E＝{e₁，e₂，···e_i}，每个事件存储了与情景相关信息，通过事件匹配获取经验知识进而引导决策行为；

步骤2：构建机器人事件感知相似性度量算法；

任务编码器将每个时刻t的事件信息编码生成键值特征向量K_st；对情景记忆进行检索匹配时，通过计算当前事件与情景记忆中存储事件的键值特征向量的相似性，选取情景记忆；应用阶段，任务编码器将感知***传递过来的场景信息编码生成键值特征向量K_t(i)，采用余弦距离作为相似性度量函数，通过计算当前事件与情景记忆中存储的事件的键值特征向量的相似性，选取合适的情景记忆：

其中，st为t时刻时间信息；

步骤3：根据情景记忆写入机制将实时经验写入记忆模型；

判断当前场景是否为新事件，若是则记录事件，若不是则更新情景记忆中已有事件；当存储的情景记忆数量达到设定最大数量20个以后，记忆存储区仅剩预留的记忆存储缓冲区，此时将当前任务记忆暂存在缓冲区，待任务结束后利用LRUA算法对记忆进行更新，LRUA：最少最近使用方法，将信息存储到使用次数较少的记忆的位置以保护最近写入的信息，或者写入刚刚读取过记忆的位置，以避免重复存储相似的记忆；更新记忆时使用softmax函数将缓冲区情景记忆中每个时刻事件与情景记忆中记忆事件的余弦距离转化为写入权重

其中，D(K_s，M_t(i))为t时刻场景与记忆事件的余弦距离，K_s为t时刻状态的情景记忆中记忆事件的键值特征向量，M_t(i)为缓冲区中情景记忆内每个时刻事件的键值特征向量；

然后将属于同一情景记忆的事件写入权重

求和取平均值得到覆盖权重

根据

计算结果，新的记忆将会被覆盖写入到存储区最相似情景记忆的位置或写入到最不常被调用的情景记忆的位置；

步骤4：构建情景记忆引导的机器人运动技能元学习算法；

元学习在两个层面上进行学习，第一个学习层面是在每个单独的任务中快速获取知识，第二个学习层面则是从所有任务中缓慢的提取信息；通过训练集的数据使机器人从训练任务中学习技能；首先将训练任务拆分成子任务，机器人执行的每个动作对应一个事件，在训练过程中，机器人将事件感知和行为通过情景记忆模块封装，建立事件与行为间的联系，此外，机器人通过元学习网络对所有训练任务进行学习，将网络权重信息封装为经验知识；

元学习网络的构建采用以LSTM替代反向传播的学习网络，时间t设定学习率为α_t，则学习器参数更新方式为：

学习器参数更新过程与LSTM中的单元状态的更新具有相同的形式:

令遗忘门f_t＝1，细胞单元状态c_t-1＝θ_t-1，学习率i_t＝α_t，

即可；当网络参数陷入“鞍点”时，需收缩当前的参数并对之前的参数θ_t-1进行遗忘，重新定义学习率i_t和遗忘门f_t为：

其中，σ为sigmoid函数，W_I与W_F分别为输入门和遗忘门的更新函数，b_I与b_F分别问输入门和遗忘门的偏置参数，θ_t-1为t-1时刻学习器参数，L_t为t次更新后的损失函数，

是第t-1时刻损失函数相对于θ_t-1的梯度；

元学习器通过以上两步更新LSTM细胞状态，在避免发散的同时快速的训练；

步骤5：构建基于情景记忆的针对新任务的泛化学习算法；

根据步骤2、3、4获得的机器人记忆，指导机器人对于工作环境中出现的新任务进行学习；首先利用感知模块获得环境状态信息，将当前感知信息与记忆库中存在事件进行相似度度量，采用余弦距离作为相似性度量函数，通过计算当前事件的场景信息与情景记忆中存储的事件信息的相似性度量值检索匹配情景：

然后通过加权计算读取权重

其中ξ为衰减系数，ξ值越大，代表前一个事件对当前状态影响越大，t＝1时ξ＝0，

为t时刻当前事件场景信息与情景记忆存储事件信息的余弦度量；

其次选取合适的情景记忆对当前任务进行指导；根据读取权重

计算结果选择指导经验；如果读取权重值大于给定阈值，抽取该事件所属情景内的经验信息并将该条情景作为新任务的经验指导新任务的学习；如记忆中不存在读取权重大于阈值的事件，则定义当前事件为新事件，为当前任务建立新情景，选择读取权重值最高的情景指导新任务进行学习。

2.根据权利要求1所述的一种情景记忆引导下基于元学习的机器人技能获取方法，其特征在于，事件e_i由四元组<o，p_e，a，p_t>组成，其中o是通过传感器获得的对环境的状态感知，包括图像中物体的分布、相互之间的位置关系和机器人的关节信息；p_e是机械臂末端执行器三维坐标；a是机械臂执行的动作，在时间维度上表示机器人在当前任务采取的动作序列；p_t是机械臂进行交互操作的目标物三维坐标。

3.根据权利要求1或2所述的一种情景记忆引导下基于元学习的机器人技能获取方法，其特征在于，新的记忆将会被覆盖写入到存储区最相似情景记忆的位置或写入到最不常被调用的情景记忆的位置：

(1)当两情景间具有很高的相似性时，即若

时，写入到缓冲区情景最常调用的情景的位置；

(2)若