CN113657573A - 一种情景记忆引导下基于元学习的机器人技能获取方法 - Google Patents

一种情景记忆引导下基于元学习的机器人技能获取方法 Download PDF

Info

Publication number
CN113657573A
CN113657573A CN202110740838.4A CN202110740838A CN113657573A CN 113657573 A CN113657573 A CN 113657573A CN 202110740838 A CN202110740838 A CN 202110740838A CN 113657573 A CN113657573 A CN 113657573A
Authority
CN
China
Prior art keywords
memory
scene
robot
event
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110740838.4A
Other languages
English (en)
Other versions
CN113657573B (zh
Inventor
刘冬
于洪华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Research Institute Co Ltd of Dalian University of Technology
Original Assignee
Jiangsu Research Institute Co Ltd of Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Research Institute Co Ltd of Dalian University of Technology filed Critical Jiangsu Research Institute Co Ltd of Dalian University of Technology
Priority to CN202110740838.4A priority Critical patent/CN113657573B/zh
Publication of CN113657573A publication Critical patent/CN113657573A/zh
Application granted granted Critical
Publication of CN113657573B publication Critical patent/CN113657573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Robotics (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种情景记忆引导下基于元学习的机器人技能获取方法,首先建立机器人学习***情景记忆模型,并构建机器人感知与记忆进行相似性度量算法,实现对事件和场景信息检索匹配与情景记忆中事件的更新调用;接着,构建情景记忆引导的机器人操作技能元学习算法,分别从单独任务和所有任务中获取知识,进行技能学习。本发明提供使用已有经验指导机器人学习新技能的方法,提高了机器人对操作技能的学习效率,解决机器人操作技能学习过程中数据量过大、相似任务需重复训练的问题。

Description

一种情景记忆引导下基于元学习的机器人技能获取方法
技术领域
本发明属于智能机器人服务技术领域,涉及到一种基于情景记忆与元学习的机器人操作技能学习方法。
背景技术
近年来,智能机器人在工业生产、医疗、商业、家庭服务等领域,当前机器人的学习方法针对精确、重复性的任务已经能够胜任,但是缺乏对新任务的学习能力,相似任务场景需重复训练,不能积累经验指导新任务实现快速学习等问题。在发明专利CN108333941A中,华南理工大学的杜广龙、张爱玲等公开了一种基于混合增强智能的云机器人协作学习方法。其采用神经任务编程的元学习方法将总任务分解成简单的子任务,机器人基于示教学习的方法学习子任务,再将子任务汇总共享。山东大学的宋锐、李凤鸣等在发明专利CN111618862A中公开了一种先验知识引导下的机器人操作技能学习***及方法,其将机器热***模块化为物理、评估、策略学习等模块,建立机器人的状态-动作映射集,缓解机器人技能学习的难度。但是上述方法适用范围有限,首先,上述方法皆没有对已有经验的重新利用,缺少对生物学习***的关注。其次,其只适用于特定任务的学习,无法进行机器人操作技能的扩展学习,机器人缺少自主学习、探索的相关能力,缺乏对任务环境的适应性,未能实现机器人在实际应用时的实时学习性,难以满足机器人能够不断接触新任务,学习新技能的要求。最后,其机器人学习***框架复杂,设计与搭建难度较大。因此上述方法尚不能满足智能机器人操作技能的快速学习与泛化等要求。
发明内容
本发明主要解决的问题在于智能机器人如何利用已学知识和已有经验解决工作时面临的新任务,适应新的任务目标。针对当前机器人技能学习存在的需要大量数据训练,相似任务场景需重复训练,不能积累经验指导新任务实现快速学习等问题,本发明提出一种结合情景记忆的元学习机器人技能学习方法。首先在学习过程中通过元学习方法对任务进行学习,并将场景观测值和训练到的网络权重等作为经验信息存储到情景记忆模型中;其次通过余弦距离度量情景间的相似性进行记忆匹配读取,采用LURA算法对记忆进行写入更新;最后结合机器人感知规划模块的感知环境、目标检测、路径规划能力,与目标对象进行交互完成任务,实现记忆引导的机器人操作技能快速学习。具体包括以下步骤:
步骤1:建立机器人学习***记忆模型;
基于技能的事件建模方法,建立机器人情景记忆数学模型M,M为多个情景记忆m构成的记忆集合,情景记忆m主要组成部分有:时变的情景事件序列组合E,隶属于该条情景的元学习网络学习到的经验知识G,以及用于检索匹配相似事件的键值特征向量K,即m={E,G,K}。事件序列组合E由i个事件构成,即E={e1,e2,…ei},每个事件存储了与情景相关的环境观测值、动作等信息,通过事件匹配获取经验知识进而引导决策行为。
步骤2:构建机器人感知与记忆进行相似性度量算法;
在元学习训练阶段新任务与训练过的任务越相似,可利用的情景越多,任务编码器将每个时刻t的事件信息编码生成键值特征向量Kst。在对情景进行检索匹配时,通过计算当前事件与情景记忆中存储的事件的键值特征向量的相似性,选取合适的情景记忆。在应用阶段,任务编码器将感知***传递过来的场景信息编码生成键值特征向量Kt(i),通过计算当前事件的场景信息与情景记忆中存储的事件信息的相似性度量值检索匹配。
步骤3:根据情景记忆写入机制将实时经验写入记忆模型;
判断当前场景是否为新事件,若是则记录事件,若不是则更新情景记忆中已有事件。当存储的情景记忆数量达到设定最大数量20个以后,记忆存储区仅剩预留的记忆存储缓冲区,此时将当前任务记忆暂存在缓冲区,待任务结束后类比LRUA算法对记忆进行更新。
步骤4:构建情景记忆引导的机器人操作技能元学习算法;
元学习在两个层面上进行学习,首先是在每个单独的任务中快速获取知识,第二个学习层面则是从所有任务中缓慢的提取信息。通过训练集的数据使机器人从训练任务中学习技能。首先将训练任务拆分成事件,机器人执行的每个动作对应一个事件,在训练过程中,机器人将事件和执行的策略(技能)通过情景记忆模块封装,建立事件与技能间的联系,此外,机器人通过元学习网络对所有训练任务进行学习,将网络权重等信息封装为经验知识。
步骤5:构建基于情景记忆的针对新任务的泛化学习算法。
根据步骤2、3、4获得的机器人记忆,指导机器人对于工作环境中出现的新任务进行学习。首先利用感知模块获得环境状态信息,将当前感知信息与记忆库中存在事件进行相似度度量,在记忆中选取合适的事件对当前任务进行指导。
本发明的效果和益处是:
本发明有效的解决了目前智能机器人操作技能学习需要大量数据训练、相似任务场景需重复训练以及不能积累经验指导新任务实现快速学习等问题,将类人情景记忆引入元学习方法,可在机器人面对新任务时利用经验指导机器人技能学习,实现技能的复用。本发明能在少量的样本中进行学习,通过对简单任务的学习和记忆方式完成复杂、多样的任务,并可以利用以往的经验知识,通过少量的训练快速掌握技能完成学习任务,有效提高了机器人技能学习的学习效率和执行成功率。
附图说明
图1为本发明方法的整体流程图;
图2为情景记忆模型架构;
图3为情景记忆更新过程;
图4为LSTM网络结构示意图;
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明实例中提供的情景引导下基于元学习的机器人技能获取流程图,参见图1。本发明基于情景记忆引导的元学习方法,构建感知规划模块,通过目标检测实现物体的定位与识别,实现机械臂路径规划算法作为运动元基础,在情景记忆模型建立与调用过程中,通过任务编码器和任务解码器实现情景记忆与元学习网络的交互,编码器将元学习网络的单个任务编码为可寻址的标签,任务解码器将情景经验解码为传递到元学习网络可用的信息。在元学习过程中,元学习器针对每个任务在低层次上学习当前任务,掌握当前任务;在高层次针对所有学习任务进行学习,并将经验知识通过情景记忆模型进行存储,指导元学习器对后续任务的学习。
在本实施例中,采用桌面平台木块堆积操作技能学习为例,木块堆积学习方法包括以下步骤:
步骤1:建立机器人操作技能学习***的记忆模型。建立机器人情景记忆数学模型M,其构成如图2所示,每条情景记忆m={E,G,K},m包含时变的事件序列组合E,隶属于该条情景的元学习网络学习到的经验知识G,以及用于检索匹配相似事件的键值特征向量K。其中事件序列组合E由i个事件构成,即E={e1,e2,…,ei},每个事件存储了与情景相关的环境观测值、动作等信息,表示机器人在该任务中经历过的场景及动作序列;经验知识G则是在该任务中学习到的技能等经验知识。机器人在学习中不断的积累经验,同时将任务中的重要场景信息保存在事件中,其中每个事件e由四元组<o,pe,a,pt>组成,其中o是通过传感器获得的对环境的状态感知,包括图像中物体的分布、相互之间的位置关系和机器人的关节信息等;pe是机械臂末端执行器三维坐标;a是机械臂执行的动作,在时间维度上表示机器人在当前任务采取的动作序列;pt是机械臂进行交互操作的目标物三维坐标,整体结构参见图2。
步骤2:将机器人感知与记忆进行相似性度量。在学习过程中,任务编码器将每个时刻t的事件信息编码生成键值特征向量Kst。在对情景进行检索匹配时,通过计算当前事件与情景记忆中存储的事件的键值特征向量的相似性,选取合适的情景记忆。情景记忆更新过程参见图3。
步骤3:根据情景记忆写入机制将实时经验写入记忆模型。当存储的情景记忆数量达到设定最大数量20个以后,存储区仅剩预留的记忆存储缓冲区,此时将当前任务记忆暂存在缓冲区,待任务结束后类比LRUA(Least Recently Used Access)算法对记忆进行更新。LRUA:最少最近使用方法,将信息存储到使用次数较少的记忆的位置以保护最近写入的信息,或者写入刚刚读取过记忆的位置,以避免重复存储相似的记忆。在更新记忆时使用softmax函数将缓冲区情景记忆中每个时刻事件与情景记忆中记忆事件的余弦距离转化为写入权重
Figure BDA0003141329930000051
Figure BDA0003141329930000052
其中D(Ks,Mt(i))为t时刻场景与记忆事件的余弦距离,Ks为t时刻状态的情景记忆中记忆事件的键值特征向量,Mt(i)为缓冲区中情景记忆内每个时刻事件的键值特征向量。
然后将属于同一情景记忆的事件写入权重
Figure BDA0003141329930000053
求和取平均值作为覆盖权重
Figure BDA0003141329930000054
根据
Figure BDA0003141329930000055
计算结果,新的记忆将会采用以下两种方式被覆盖写入:
A:当两情景间具有很高的相似性时,即若
Figure BDA0003141329930000056
时,写入到缓冲区情景最常调用的情景的位置。
B:若
Figure BDA0003141329930000057
表明缓冲区内情景与记忆存储区内的情景没有特别相似,则选取使用权重最低的情景记忆的位置,将该情景记忆覆盖,以保证存储区的高效利用。使用权重
Figure BDA0003141329930000058
记忆存储区中情景记忆被匹配到次数定义为,每当情景记忆被匹配到时,将其使用权重加1。
Figure BDA0003141329930000059
步骤4:以元学习方法进行机器人操作技能训练。由于反向传播中基于梯度的更新机制和LSTM中细胞状态更新具有相似之处,同时LSTM网络长短时记忆的结构与元学习的思想非常的相似,因此本文采用了以LSTM替代反向传播的元学习网络,其网络结构参见图4,其中Xt为当前单元细胞的输入,ht为隐藏层输出,σ为sigmoid激活函数,tanh为tanh激活函数,
Figure BDA00031413299300000510
为乘法,
Figure BDA00031413299300000511
为加法。
在时间t设定学习率为αt,则学习器参数更新方式为:
Figure BDA00031413299300000512
其中θt是第t次更新迭代之后的参数,αt是第t时的学习率,
Figure BDA00031413299300000513
是第t-1时刻损失函数相对于θt-1的梯度,Lt的下标t代表损失函数在第t次更新时候的损失函数,损失函数的计算和求梯度都是相对于上一次迭代完之后的参数θt-1
这个过程与LSTM中的单元状态(cell state)的更新具有相同的形式:
Figure BDA0003141329930000061
令遗忘门ft=1,细胞单元状态ct-1=θt-1,学习率it=αt
Figure BDA0003141329930000062
即可。当网络参数陷入“鞍点”时,需收缩当前的参数并对之前的参数θt-1进行遗忘,因此需重新定义学习率it和遗忘门ft为:
Figure BDA0003141329930000063
Figure BDA0003141329930000064
中,σ为sigmod函数,WI与WF分别为输入门和遗忘门的更新函数,bI与bF分别问输入门和遗忘门的偏置参数,θt-1为t-1时刻学习器参数,Lt为t次更新后的损失函数,
Figure BDA0003141329930000065
是第t-1时刻损失函数相对于θt-1的梯度;
元学习器通过以上两步更新LSTM细胞状态,在避免发散的同时快速的训练。在训练过程中,首先将训练任务拆分成事件,机器人执行的每个动作对应一个事件,在训练过程中,机器人将事件和执行的策略(技能)通过情景记忆模块封装,建立事件与技能间的联系,此外,机器人通过元学习网络对所有训练任务进行学习,将网络权重等信息封装为经验知识。
是在每一个元测试数据集上收集均值和方差,因此在元训练时,我们使用训练集和测试集的批统计结果,而在元测试阶段使用训练集的批统计,并在分类器测试时使用测试集的运行平均值,这样可以避免信息漏失。对于每层的每个特征通道上,计算当前批量内的所有样本的对应输入,并统计其均值和方差。然后用该均值和方差,对每个样本对应的输入进行归一化。经过归一化后,所有的输入特征的均值为0,标准差为1。同时,为了防止归一化导致特征信息的丢失,γ,β:每一个特征引入的可学习参数,用于恢复原始输入特征,
Figure BDA0003141329930000066
分别为输入和输出,BNγ,β(xi)代表批量归一化过程:
Figure BDA0003141329930000067
在卷积神经网络层中采用SeLU激活函数,克服ReLU激活函数在输入的函数梯度过大时,导致网络参数更新后会造成一些神经元处于未激活状态而不起作用的缺点。在激活后方差过大时可以让减小方差,防止梯度***。并且在正半轴上梯度大于1,在方差过小时可使其增大,同时防止了梯度消失,将神经网络每一层的输出都是均值为0方差为1。其表达式如下所示:
Figure BDA0003141329930000071
其中λ≈1.05,α≈1.67。
步骤5:基于已训练的情景记忆对新的机器人操作技能学习
在应用过程中,当感知到与先前已编码的事件相似,或新事件与先前已感知到的事件不同时,任务编码器将感知***传递过来的场景信息编码生成键值特征向量Kt(i)。并采用余弦距离作为相似性度量函数,通过计算当前事件的场景信息与情景记忆中存储的事件信息的相似性度量值检索匹配情景:
Figure BDA0003141329930000072
然后通过加权计算读取权重
Figure BDA0003141329930000073
Figure BDA0003141329930000074
其中ξ为衰减系数,ξ值越大,代表前一个事件对当前状态影响越大,t=1时,ξ=0,
Figure BDA0003141329930000075
为t时刻当前事件场景信息与情景记忆存储事件信息的余弦度量。根据读取权重
Figure BDA0003141329930000076
计算结果选择执行下列两个操作之一解码情景进行指导新任务学习:
(1)当读取权重值大于给定阈值,则抽取该事件所属情景内的经验信息,将该条情景作为新任务的经验指导新任务的学习;
(2)若遍历过往时空中所存储情景内事件读取权重均小于给定阈值,则定义当前事件为新事件,为当前任务建立新情景,选取读取权重值最高的情景指导新任务进行学习。
设当前时间步从情景中匹配到的事件为ei,在低层次抽取匹配的事件中场景动作信息传递到元学习网络,帮助机器人决策;在高层次将该事件所在情景记忆对应元学习网络的权重等经验信息通过任务解码器解码后传递到元学习器,给元学习器一个更优化的网络权重,加快收敛速度。
通过当前任务环境感知oi判断任务是否完成,如果oi与任务完成时环境感知of相同,则结束当前任务;如果不相同继续匹配进行下一个事件的调用,将情景内事件所对应的技能进行组合,通过闭环反馈与环境的不断交互,直到实现任务目标。
以上示例性实施方式所呈现的描述仅用以说明本发明的技术方案,并不想要成为毫无遗漏的,也不想要把本发明限制为所描述的精确形式。显然,本领域的普通技术人员根据上述教导做出很多改变和变化都是可能的。选择示例性实施方式并进行描述是为了解释本发明的特定原理及其实际应用,从而使得本领域的其它技术人员便于理解、实现并利用本发明的各种示例性实施方式及其各种选择形式和修改形式。本发明的保护范围意在由所附权利要求书及其等效形式所限定。

Claims (3)

1.一种情景记忆引导下基于元学习的机器人技能获取方法,其特征在于在元学习方法基础上添加情景记忆模块,储存机器人在任务中学习到的经验知识,包括以下步骤:
步骤1:建立机器人学习***记忆模型;
建立机器人情景记忆数学模型M,M为多个情景记忆m构成的记忆集合,情景记忆m主要组成部分有:时变的情景事件序列组合E,隶属于该条情景的元学习网络学习到的经验知识G,以及用于检索匹配相似事件的键值特征向量K,即m={E,G,K};事件序列组合E由多个事件构成,即E={e1,e2,···ei},每个事件存储了与情景相关信息,通过事件匹配获取经验知识进而引导决策行为;
步骤2:构建机器人事件感知相似性度量算法;
任务编码器将每个时刻t的事件信息编码生成键值特征向量Kst;对情景记忆进行检索匹配时,通过计算当前事件与情景记忆中存储事件的键值特征向量的相似性,选取情景记忆;应用阶段,任务编码器将感知***传递过来的场景信息编码生成键值特征向量Kt(i),采用余弦距离作为相似性度量函数,通过计算当前事件与情景记忆中存储的事件的键值特征向量的相似性,选取合适的情景记忆:
Figure FDA0003141329920000011
其中,st为t时刻时间信息;
步骤3:根据情景记忆写入机制将实时经验写入记忆模型;
判断当前场景是否为新事件,若是则记录事件,若不是则更新情景记忆中已有事件;当存储的情景记忆数量达到设定最大数量20个以后,记忆存储区仅剩预留的记忆存储缓冲区,此时将当前任务记忆暂存在缓冲区,待任务结束后利用LRUA算法对记忆进行更新,LRUA:最少最近使用方法,将信息存储到使用次数较少的记忆的位置以保护最近写入的信息,或者写入刚刚读取过记忆的位置,以避免重复存储相似的记忆;更新记忆时使用softmax函数将缓冲区情景记忆中每个时刻事件与情景记忆中记忆事件的余弦距离转化为写入权重
Figure FDA0003141329920000021
Figure FDA0003141329920000022
其中,D(Ks,Mt(i))为t时刻场景与记忆事件的余弦距离,Ks为t时刻状态的情景记忆中记忆事件的键值特征向量,Mt(i)为缓冲区中情景记忆内每个时刻事件的键值特征向量;
然后将属于同一情景记忆的事件写入权重
Figure FDA0003141329920000023
求和取平均值得到覆盖权重
Figure FDA0003141329920000024
根据
Figure FDA0003141329920000025
计算结果,新的记忆将会被覆盖写入到存储区最相似情景记忆的位置或写入到最不常被调用的情景记忆的位置;
步骤4:构建情景记忆引导的机器人运动技能元学习算法;
元学习在两个层面上进行学习,第一个学习层面是在每个单独的任务中快速获取知识,第二个学习层面则是从所有任务中缓慢的提取信息;通过训练集的数据使机器人从训练任务中学习技能;首先将训练任务拆分成子任务,机器人执行的每个动作对应一个事件,在训练过程中,机器人将事件感知和行为通过情景记忆模块封装,建立事件与行为间的联系,此外,机器人通过元学习网络对所有训练任务进行学习,将网络权重信息封装为经验知识;
元学习网络的构建采用以LSTM替代反向传播的学习网络,时间t设定学习率为αt,则学习器参数更新方式为:
Figure FDA0003141329920000026
学习器参数更新过程与LSTM中的单元状态的更新具有相同的形式:
Figure FDA0003141329920000027
令遗忘门ft=1,细胞单元状态ct-1=θt-1,学习率it=αt
Figure FDA0003141329920000031
即可;当网络参数陷入“鞍点”时,需收缩当前的参数并对之前的参数θt-1进行遗忘,重新定义学习率it和遗忘门ft为:
Figure FDA0003141329920000032
Figure FDA0003141329920000033
其中,σ为sigmoid函数,WI与WF分别为输入门和遗忘门的更新函数,bI与bF分别问输入门和遗忘门的偏置参数,θt-1为t-1时刻学习器参数,Lt为t次更新后的损失函数,
Figure FDA0003141329920000034
是第t-1时刻损失函数相对于θt-1的梯度;
元学习器通过以上两步更新LSTM细胞状态,在避免发散的同时快速的训练;
步骤5:构建基于情景记忆的针对新任务的泛化学习算法;
根据步骤2、3、4获得的机器人记忆,指导机器人对于工作环境中出现的新任务进行学习;首先利用感知模块获得环境状态信息,将当前感知信息与记忆库中存在事件进行相似度度量,采用余弦距离作为相似性度量函数,通过计算当前事件的场景信息与情景记忆中存储的事件信息的相似性度量值检索匹配情景:
Figure FDA0003141329920000035
然后通过加权计算读取权重
Figure FDA0003141329920000036
Figure FDA0003141329920000037
其中ξ为衰减系数,ξ值越大,代表前一个事件对当前状态影响越大,t=1时ξ=0,
Figure FDA0003141329920000038
为t时刻当前事件场景信息与情景记忆存储事件信息的余弦度量;
其次选取合适的情景记忆对当前任务进行指导;根据读取权重
Figure FDA0003141329920000039
计算结果选择指导经验;如果读取权重值大于给定阈值,抽取该事件所属情景内的经验信息并将该条情景作为新任务的经验指导新任务的学习;如记忆中不存在读取权重大于阈值的事件,则定义当前事件为新事件,为当前任务建立新情景,选择读取权重值最高的情景指导新任务进行学习。
2.根据权利要求1所述的一种情景记忆引导下基于元学习的机器人技能获取方法,其特征在于,事件ei由四元组<o,pe,a,pt>组成,其中o是通过传感器获得的对环境的状态感知,包括图像中物体的分布、相互之间的位置关系和机器人的关节信息;pe是机械臂末端执行器三维坐标;a是机械臂执行的动作,在时间维度上表示机器人在当前任务采取的动作序列;pt是机械臂进行交互操作的目标物三维坐标。
3.根据权利要求1或2所述的一种情景记忆引导下基于元学习的机器人技能获取方法,其特征在于,新的记忆将会被覆盖写入到存储区最相似情景记忆的位置或写入到最不常被调用的情景记忆的位置:
(1)当两情景间具有很高的相似性时,即若
Figure FDA0003141329920000041
时,写入到缓冲区情景最常调用的情景的位置;
(2)若
Figure FDA0003141329920000042
表明缓冲区内情景与记忆存储区内的情景没有特别相似,则选取使用权重最低的情景记忆的位置,将该情景记忆覆盖,以保证存储区的高效利用。使用权重
Figure FDA0003141329920000043
记忆存储区中情景记忆被匹配到次数定义为,每当情景记忆被匹配到时,将其使用权重加1。
CN202110740838.4A 2021-06-30 2021-06-30 一种情景记忆引导下基于元学习的机器人技能获取方法 Active CN113657573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110740838.4A CN113657573B (zh) 2021-06-30 2021-06-30 一种情景记忆引导下基于元学习的机器人技能获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110740838.4A CN113657573B (zh) 2021-06-30 2021-06-30 一种情景记忆引导下基于元学习的机器人技能获取方法

Publications (2)

Publication Number Publication Date
CN113657573A true CN113657573A (zh) 2021-11-16
CN113657573B CN113657573B (zh) 2024-06-21

Family

ID=78477833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110740838.4A Active CN113657573B (zh) 2021-06-30 2021-06-30 一种情景记忆引导下基于元学习的机器人技能获取方法

Country Status (1)

Country Link
CN (1) CN113657573B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114161419A (zh) * 2021-12-13 2022-03-11 大连理工大学 一种情景记忆引导的机器人操作技能高效学习方法
CN115082717A (zh) * 2022-08-22 2022-09-20 成都不烦智能科技有限责任公司 基于视觉感知的动态目标识别和情景记忆认知方法及***
CN116563638A (zh) * 2023-05-19 2023-08-08 广东石油化工学院 一种基于情景记忆的图像分类模型优化方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180210939A1 (en) * 2017-01-26 2018-07-26 Hrl Laboratories, Llc Scalable and efficient episodic memory in cognitive processing for automated systems
CN109668566A (zh) * 2018-12-05 2019-04-23 大连理工大学 一种基于鼠脑定位细胞的机器人情景认知地图的构建与导航方法
CN111474932A (zh) * 2020-04-23 2020-07-31 大连理工大学 一种集成情景经验的移动机器人建图与导航方法
CN112231489A (zh) * 2020-10-19 2021-01-15 中国科学技术大学 防疫机器人知识学习与迁移方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180210939A1 (en) * 2017-01-26 2018-07-26 Hrl Laboratories, Llc Scalable and efficient episodic memory in cognitive processing for automated systems
CN109668566A (zh) * 2018-12-05 2019-04-23 大连理工大学 一种基于鼠脑定位细胞的机器人情景认知地图的构建与导航方法
CN111474932A (zh) * 2020-04-23 2020-07-31 大连理工大学 一种集成情景经验的移动机器人建图与导航方法
CN112231489A (zh) * 2020-10-19 2021-01-15 中国科学技术大学 防疫机器人知识学习与迁移方法和***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114161419A (zh) * 2021-12-13 2022-03-11 大连理工大学 一种情景记忆引导的机器人操作技能高效学习方法
CN114161419B (zh) * 2021-12-13 2023-09-15 大连理工大学 一种情景记忆引导的机器人操作技能高效学习方法
CN115082717A (zh) * 2022-08-22 2022-09-20 成都不烦智能科技有限责任公司 基于视觉感知的动态目标识别和情景记忆认知方法及***
CN115082717B (zh) * 2022-08-22 2022-11-08 成都不烦智能科技有限责任公司 基于视觉感知的动态目标识别和情景记忆认知方法及***
CN116563638A (zh) * 2023-05-19 2023-08-08 广东石油化工学院 一种基于情景记忆的图像分类模型优化方法和***
CN116563638B (zh) * 2023-05-19 2023-12-05 广东石油化工学院 一种基于情景记忆的图像分类模型优化方法和***

Also Published As

Publication number Publication date
CN113657573B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
CN111203878B (zh) 一种基于视觉模仿的机器人序列任务学习方法
CN113657573A (zh) 一种情景记忆引导下基于元学习的机器人技能获取方法
CN112605973B (zh) 一种机器人运动技能学习方法及***
Paxton et al. Prospection: Interpretable plans from language by predicting the future
CN111300390B (zh) 基于蓄水池采样和双经验池的机械臂智能控制***
CN109940614B (zh) 一种融合记忆机制的机械臂多场景快速运动规划方法
CN112809689B (zh) 基于语言引导的机械臂动作元模仿学习方法及存储介质
CN109508686B (zh) 一种基于层次化特征子空间学习的人体行为识别方法
CN112183188B (zh) 一种基于任务嵌入网络的机械臂模仿学习的方法
CN115860107B (zh) 一种基于多智能体深度强化学习的多机探寻方法及***
EP4121256A1 (en) Training and/or utilizing machine learning model(s) for use in natural language based robotic control
CN114161419B (zh) 一种情景记忆引导的机器人操作技能高效学习方法
Lippi et al. Enabling visual action planning for object manipulation through latent space roadmap
Li et al. Curiosity-driven exploration for off-policy reinforcement learning methods
Ye et al. Efficient robotic object search via hiem: Hierarchical policy learning with intrinsic-extrinsic modeling
CN113894780B (zh) 多机器人协作对抗方法、装置、电子设备和存储介质
CN117332366A (zh) 信息处理方法、任务执行方法、装置、设备及介质
US20220305647A1 (en) Future prediction, using stochastic adversarial based sampling, for robotic control and/or other purpose(s)
CN115016499A (zh) 一种基于sca-ql的路径规划方法
Reinhart Reservoir computing with output feedback
CN112766513A (zh) 一种记忆协同的知识追踪方法及***
Zhou et al. Humanoid action imitation learning via boosting sample DQN in virtual demonstrator environment
Yu et al. LSTM learn policy from dynamical system of demonstration motions for robot imitation learning
CN117590756B (zh) 水下机器人的运动控制方法、装置、设备和存储介质
Xiong et al. Primitives generation policy learning without catastrophic forgetting for robotic manipulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant