CN113657573A - 一种情景记忆引导下基于元学习的机器人技能获取方法 - Google Patents
一种情景记忆引导下基于元学习的机器人技能获取方法 Download PDFInfo
- Publication number
- CN113657573A CN113657573A CN202110740838.4A CN202110740838A CN113657573A CN 113657573 A CN113657573 A CN 113657573A CN 202110740838 A CN202110740838 A CN 202110740838A CN 113657573 A CN113657573 A CN 113657573A
- Authority
- CN
- China
- Prior art keywords
- memory
- scene
- robot
- event
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015654 memory Effects 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000005259 measurement Methods 0.000 claims abstract description 14
- 230000008447 perception Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 11
- 239000000872 buffer Substances 0.000 claims description 10
- 230000005055 memory storage Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 238000013178 mathematical model Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 3
- 239000012536 storage buffer Substances 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000009826 distribution Methods 0.000 claims description 2
- 239000012636 effector Substances 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 210000004027 cell Anatomy 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002023 wood Substances 0.000 description 2
- 235000004257 Cordia myxa Nutrition 0.000 description 1
- 244000157795 Cordia myxa Species 0.000 description 1
- 239000004424 Durolon Substances 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Robotics (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供了一种情景记忆引导下基于元学习的机器人技能获取方法,首先建立机器人学习***情景记忆模型,并构建机器人感知与记忆进行相似性度量算法,实现对事件和场景信息检索匹配与情景记忆中事件的更新调用;接着,构建情景记忆引导的机器人操作技能元学习算法,分别从单独任务和所有任务中获取知识,进行技能学习。本发明提供使用已有经验指导机器人学习新技能的方法,提高了机器人对操作技能的学习效率,解决机器人操作技能学习过程中数据量过大、相似任务需重复训练的问题。
Description
技术领域
本发明属于智能机器人服务技术领域,涉及到一种基于情景记忆与元学习的机器人操作技能学习方法。
背景技术
近年来,智能机器人在工业生产、医疗、商业、家庭服务等领域,当前机器人的学习方法针对精确、重复性的任务已经能够胜任,但是缺乏对新任务的学习能力,相似任务场景需重复训练,不能积累经验指导新任务实现快速学习等问题。在发明专利CN108333941A中,华南理工大学的杜广龙、张爱玲等公开了一种基于混合增强智能的云机器人协作学习方法。其采用神经任务编程的元学习方法将总任务分解成简单的子任务,机器人基于示教学习的方法学习子任务,再将子任务汇总共享。山东大学的宋锐、李凤鸣等在发明专利CN111618862A中公开了一种先验知识引导下的机器人操作技能学习***及方法,其将机器热***模块化为物理、评估、策略学习等模块,建立机器人的状态-动作映射集,缓解机器人技能学习的难度。但是上述方法适用范围有限,首先,上述方法皆没有对已有经验的重新利用,缺少对生物学习***的关注。其次,其只适用于特定任务的学习,无法进行机器人操作技能的扩展学习,机器人缺少自主学习、探索的相关能力,缺乏对任务环境的适应性,未能实现机器人在实际应用时的实时学习性,难以满足机器人能够不断接触新任务,学习新技能的要求。最后,其机器人学习***框架复杂,设计与搭建难度较大。因此上述方法尚不能满足智能机器人操作技能的快速学习与泛化等要求。
发明内容
本发明主要解决的问题在于智能机器人如何利用已学知识和已有经验解决工作时面临的新任务,适应新的任务目标。针对当前机器人技能学习存在的需要大量数据训练,相似任务场景需重复训练,不能积累经验指导新任务实现快速学习等问题,本发明提出一种结合情景记忆的元学习机器人技能学习方法。首先在学习过程中通过元学习方法对任务进行学习,并将场景观测值和训练到的网络权重等作为经验信息存储到情景记忆模型中;其次通过余弦距离度量情景间的相似性进行记忆匹配读取,采用LURA算法对记忆进行写入更新;最后结合机器人感知规划模块的感知环境、目标检测、路径规划能力,与目标对象进行交互完成任务,实现记忆引导的机器人操作技能快速学习。具体包括以下步骤:
步骤1:建立机器人学习***记忆模型;
基于技能的事件建模方法,建立机器人情景记忆数学模型M,M为多个情景记忆m构成的记忆集合,情景记忆m主要组成部分有:时变的情景事件序列组合E,隶属于该条情景的元学习网络学习到的经验知识G,以及用于检索匹配相似事件的键值特征向量K,即m={E,G,K}。事件序列组合E由i个事件构成,即E={e1,e2,…ei},每个事件存储了与情景相关的环境观测值、动作等信息,通过事件匹配获取经验知识进而引导决策行为。
步骤2:构建机器人感知与记忆进行相似性度量算法;
在元学习训练阶段新任务与训练过的任务越相似,可利用的情景越多,任务编码器将每个时刻t的事件信息编码生成键值特征向量Kst。在对情景进行检索匹配时,通过计算当前事件与情景记忆中存储的事件的键值特征向量的相似性,选取合适的情景记忆。在应用阶段,任务编码器将感知***传递过来的场景信息编码生成键值特征向量Kt(i),通过计算当前事件的场景信息与情景记忆中存储的事件信息的相似性度量值检索匹配。
步骤3:根据情景记忆写入机制将实时经验写入记忆模型;
判断当前场景是否为新事件,若是则记录事件,若不是则更新情景记忆中已有事件。当存储的情景记忆数量达到设定最大数量20个以后,记忆存储区仅剩预留的记忆存储缓冲区,此时将当前任务记忆暂存在缓冲区,待任务结束后类比LRUA算法对记忆进行更新。
步骤4:构建情景记忆引导的机器人操作技能元学习算法;
元学习在两个层面上进行学习,首先是在每个单独的任务中快速获取知识,第二个学习层面则是从所有任务中缓慢的提取信息。通过训练集的数据使机器人从训练任务中学习技能。首先将训练任务拆分成事件,机器人执行的每个动作对应一个事件,在训练过程中,机器人将事件和执行的策略(技能)通过情景记忆模块封装,建立事件与技能间的联系,此外,机器人通过元学习网络对所有训练任务进行学习,将网络权重等信息封装为经验知识。
步骤5:构建基于情景记忆的针对新任务的泛化学习算法。
根据步骤2、3、4获得的机器人记忆,指导机器人对于工作环境中出现的新任务进行学习。首先利用感知模块获得环境状态信息,将当前感知信息与记忆库中存在事件进行相似度度量,在记忆中选取合适的事件对当前任务进行指导。
本发明的效果和益处是:
本发明有效的解决了目前智能机器人操作技能学习需要大量数据训练、相似任务场景需重复训练以及不能积累经验指导新任务实现快速学习等问题,将类人情景记忆引入元学习方法,可在机器人面对新任务时利用经验指导机器人技能学习,实现技能的复用。本发明能在少量的样本中进行学习,通过对简单任务的学习和记忆方式完成复杂、多样的任务,并可以利用以往的经验知识,通过少量的训练快速掌握技能完成学习任务,有效提高了机器人技能学习的学习效率和执行成功率。
附图说明
图1为本发明方法的整体流程图;
图2为情景记忆模型架构;
图3为情景记忆更新过程;
图4为LSTM网络结构示意图;
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明实例中提供的情景引导下基于元学习的机器人技能获取流程图,参见图1。本发明基于情景记忆引导的元学习方法,构建感知规划模块,通过目标检测实现物体的定位与识别,实现机械臂路径规划算法作为运动元基础,在情景记忆模型建立与调用过程中,通过任务编码器和任务解码器实现情景记忆与元学习网络的交互,编码器将元学习网络的单个任务编码为可寻址的标签,任务解码器将情景经验解码为传递到元学习网络可用的信息。在元学习过程中,元学习器针对每个任务在低层次上学习当前任务,掌握当前任务;在高层次针对所有学习任务进行学习,并将经验知识通过情景记忆模型进行存储,指导元学习器对后续任务的学习。
在本实施例中,采用桌面平台木块堆积操作技能学习为例,木块堆积学习方法包括以下步骤:
步骤1:建立机器人操作技能学习***的记忆模型。建立机器人情景记忆数学模型M,其构成如图2所示,每条情景记忆m={E,G,K},m包含时变的事件序列组合E,隶属于该条情景的元学习网络学习到的经验知识G,以及用于检索匹配相似事件的键值特征向量K。其中事件序列组合E由i个事件构成,即E={e1,e2,…,ei},每个事件存储了与情景相关的环境观测值、动作等信息,表示机器人在该任务中经历过的场景及动作序列;经验知识G则是在该任务中学习到的技能等经验知识。机器人在学习中不断的积累经验,同时将任务中的重要场景信息保存在事件中,其中每个事件e由四元组<o,pe,a,pt>组成,其中o是通过传感器获得的对环境的状态感知,包括图像中物体的分布、相互之间的位置关系和机器人的关节信息等;pe是机械臂末端执行器三维坐标;a是机械臂执行的动作,在时间维度上表示机器人在当前任务采取的动作序列;pt是机械臂进行交互操作的目标物三维坐标,整体结构参见图2。
步骤2:将机器人感知与记忆进行相似性度量。在学习过程中,任务编码器将每个时刻t的事件信息编码生成键值特征向量Kst。在对情景进行检索匹配时,通过计算当前事件与情景记忆中存储的事件的键值特征向量的相似性,选取合适的情景记忆。情景记忆更新过程参见图3。
步骤3:根据情景记忆写入机制将实时经验写入记忆模型。当存储的情景记忆数量达到设定最大数量20个以后,存储区仅剩预留的记忆存储缓冲区,此时将当前任务记忆暂存在缓冲区,待任务结束后类比LRUA(Least Recently Used Access)算法对记忆进行更新。LRUA:最少最近使用方法,将信息存储到使用次数较少的记忆的位置以保护最近写入的信息,或者写入刚刚读取过记忆的位置,以避免重复存储相似的记忆。在更新记忆时使用softmax函数将缓冲区情景记忆中每个时刻事件与情景记忆中记忆事件的余弦距离转化为写入权重
其中D(Ks,Mt(i))为t时刻场景与记忆事件的余弦距离,Ks为t时刻状态的情景记忆中记忆事件的键值特征向量,Mt(i)为缓冲区中情景记忆内每个时刻事件的键值特征向量。
B:若表明缓冲区内情景与记忆存储区内的情景没有特别相似,则选取使用权重最低的情景记忆的位置,将该情景记忆覆盖,以保证存储区的高效利用。使用权重记忆存储区中情景记忆被匹配到次数定义为,每当情景记忆被匹配到时,将其使用权重加1。
步骤4:以元学习方法进行机器人操作技能训练。由于反向传播中基于梯度的更新机制和LSTM中细胞状态更新具有相似之处,同时LSTM网络长短时记忆的结构与元学习的思想非常的相似,因此本文采用了以LSTM替代反向传播的元学习网络,其网络结构参见图4,其中Xt为当前单元细胞的输入,ht为隐藏层输出,σ为sigmoid激活函数,tanh为tanh激活函数,为乘法,为加法。
在时间t设定学习率为αt,则学习器参数更新方式为:
其中θt是第t次更新迭代之后的参数,αt是第t时的学习率,是第t-1时刻损失函数相对于θt-1的梯度,Lt的下标t代表损失函数在第t次更新时候的损失函数,损失函数的计算和求梯度都是相对于上一次迭代完之后的参数θt-1。
这个过程与LSTM中的单元状态(cell state)的更新具有相同的形式:
中,σ为sigmod函数,WI与WF分别为输入门和遗忘门的更新函数,bI与bF分别问输入门和遗忘门的偏置参数,θt-1为t-1时刻学习器参数,Lt为t次更新后的损失函数,是第t-1时刻损失函数相对于θt-1的梯度;
元学习器通过以上两步更新LSTM细胞状态,在避免发散的同时快速的训练。在训练过程中,首先将训练任务拆分成事件,机器人执行的每个动作对应一个事件,在训练过程中,机器人将事件和执行的策略(技能)通过情景记忆模块封装,建立事件与技能间的联系,此外,机器人通过元学习网络对所有训练任务进行学习,将网络权重等信息封装为经验知识。
是在每一个元测试数据集上收集均值和方差,因此在元训练时,我们使用训练集和测试集的批统计结果,而在元测试阶段使用训练集的批统计,并在分类器测试时使用测试集的运行平均值,这样可以避免信息漏失。对于每层的每个特征通道上,计算当前批量内的所有样本的对应输入,并统计其均值和方差。然后用该均值和方差,对每个样本对应的输入进行归一化。经过归一化后,所有的输入特征的均值为0,标准差为1。同时,为了防止归一化导致特征信息的丢失,γ,β:每一个特征引入的可学习参数,用于恢复原始输入特征,分别为输入和输出,BNγ,β(xi)代表批量归一化过程:
在卷积神经网络层中采用SeLU激活函数,克服ReLU激活函数在输入的函数梯度过大时,导致网络参数更新后会造成一些神经元处于未激活状态而不起作用的缺点。在激活后方差过大时可以让减小方差,防止梯度***。并且在正半轴上梯度大于1,在方差过小时可使其增大,同时防止了梯度消失,将神经网络每一层的输出都是均值为0方差为1。其表达式如下所示:
其中λ≈1.05,α≈1.67。
步骤5:基于已训练的情景记忆对新的机器人操作技能学习
在应用过程中,当感知到与先前已编码的事件相似,或新事件与先前已感知到的事件不同时,任务编码器将感知***传递过来的场景信息编码生成键值特征向量Kt(i)。并采用余弦距离作为相似性度量函数,通过计算当前事件的场景信息与情景记忆中存储的事件信息的相似性度量值检索匹配情景:
其中ξ为衰减系数,ξ值越大,代表前一个事件对当前状态影响越大,t=1时,ξ=0,为t时刻当前事件场景信息与情景记忆存储事件信息的余弦度量。根据读取权重计算结果选择执行下列两个操作之一解码情景进行指导新任务学习:
(1)当读取权重值大于给定阈值,则抽取该事件所属情景内的经验信息,将该条情景作为新任务的经验指导新任务的学习;
(2)若遍历过往时空中所存储情景内事件读取权重均小于给定阈值,则定义当前事件为新事件,为当前任务建立新情景,选取读取权重值最高的情景指导新任务进行学习。
设当前时间步从情景中匹配到的事件为ei,在低层次抽取匹配的事件中场景动作信息传递到元学习网络,帮助机器人决策;在高层次将该事件所在情景记忆对应元学习网络的权重等经验信息通过任务解码器解码后传递到元学习器,给元学习器一个更优化的网络权重,加快收敛速度。
通过当前任务环境感知oi判断任务是否完成,如果oi与任务完成时环境感知of相同,则结束当前任务;如果不相同继续匹配进行下一个事件的调用,将情景内事件所对应的技能进行组合,通过闭环反馈与环境的不断交互,直到实现任务目标。
以上示例性实施方式所呈现的描述仅用以说明本发明的技术方案,并不想要成为毫无遗漏的,也不想要把本发明限制为所描述的精确形式。显然,本领域的普通技术人员根据上述教导做出很多改变和变化都是可能的。选择示例性实施方式并进行描述是为了解释本发明的特定原理及其实际应用,从而使得本领域的其它技术人员便于理解、实现并利用本发明的各种示例性实施方式及其各种选择形式和修改形式。本发明的保护范围意在由所附权利要求书及其等效形式所限定。
Claims (3)
1.一种情景记忆引导下基于元学习的机器人技能获取方法,其特征在于在元学习方法基础上添加情景记忆模块,储存机器人在任务中学习到的经验知识,包括以下步骤:
步骤1:建立机器人学习***记忆模型;
建立机器人情景记忆数学模型M,M为多个情景记忆m构成的记忆集合,情景记忆m主要组成部分有:时变的情景事件序列组合E,隶属于该条情景的元学习网络学习到的经验知识G,以及用于检索匹配相似事件的键值特征向量K,即m={E,G,K};事件序列组合E由多个事件构成,即E={e1,e2,···ei},每个事件存储了与情景相关信息,通过事件匹配获取经验知识进而引导决策行为;
步骤2:构建机器人事件感知相似性度量算法;
任务编码器将每个时刻t的事件信息编码生成键值特征向量Kst;对情景记忆进行检索匹配时,通过计算当前事件与情景记忆中存储事件的键值特征向量的相似性,选取情景记忆;应用阶段,任务编码器将感知***传递过来的场景信息编码生成键值特征向量Kt(i),采用余弦距离作为相似性度量函数,通过计算当前事件与情景记忆中存储的事件的键值特征向量的相似性,选取合适的情景记忆:
其中,st为t时刻时间信息;
步骤3:根据情景记忆写入机制将实时经验写入记忆模型;
判断当前场景是否为新事件,若是则记录事件,若不是则更新情景记忆中已有事件;当存储的情景记忆数量达到设定最大数量20个以后,记忆存储区仅剩预留的记忆存储缓冲区,此时将当前任务记忆暂存在缓冲区,待任务结束后利用LRUA算法对记忆进行更新,LRUA:最少最近使用方法,将信息存储到使用次数较少的记忆的位置以保护最近写入的信息,或者写入刚刚读取过记忆的位置,以避免重复存储相似的记忆;更新记忆时使用softmax函数将缓冲区情景记忆中每个时刻事件与情景记忆中记忆事件的余弦距离转化为写入权重
其中,D(Ks,Mt(i))为t时刻场景与记忆事件的余弦距离,Ks为t时刻状态的情景记忆中记忆事件的键值特征向量,Mt(i)为缓冲区中情景记忆内每个时刻事件的键值特征向量;
步骤4:构建情景记忆引导的机器人运动技能元学习算法;
元学习在两个层面上进行学习,第一个学习层面是在每个单独的任务中快速获取知识,第二个学习层面则是从所有任务中缓慢的提取信息;通过训练集的数据使机器人从训练任务中学习技能;首先将训练任务拆分成子任务,机器人执行的每个动作对应一个事件,在训练过程中,机器人将事件感知和行为通过情景记忆模块封装,建立事件与行为间的联系,此外,机器人通过元学习网络对所有训练任务进行学习,将网络权重信息封装为经验知识;
元学习网络的构建采用以LSTM替代反向传播的学习网络,时间t设定学习率为αt,则学习器参数更新方式为:
学习器参数更新过程与LSTM中的单元状态的更新具有相同的形式:
其中,σ为sigmoid函数,WI与WF分别为输入门和遗忘门的更新函数,bI与bF分别问输入门和遗忘门的偏置参数,θt-1为t-1时刻学习器参数,Lt为t次更新后的损失函数,是第t-1时刻损失函数相对于θt-1的梯度;
元学习器通过以上两步更新LSTM细胞状态,在避免发散的同时快速的训练;
步骤5:构建基于情景记忆的针对新任务的泛化学习算法;
根据步骤2、3、4获得的机器人记忆,指导机器人对于工作环境中出现的新任务进行学习;首先利用感知模块获得环境状态信息,将当前感知信息与记忆库中存在事件进行相似度度量,采用余弦距离作为相似性度量函数,通过计算当前事件的场景信息与情景记忆中存储的事件信息的相似性度量值检索匹配情景:
2.根据权利要求1所述的一种情景记忆引导下基于元学习的机器人技能获取方法,其特征在于,事件ei由四元组<o,pe,a,pt>组成,其中o是通过传感器获得的对环境的状态感知,包括图像中物体的分布、相互之间的位置关系和机器人的关节信息;pe是机械臂末端执行器三维坐标;a是机械臂执行的动作,在时间维度上表示机器人在当前任务采取的动作序列;pt是机械臂进行交互操作的目标物三维坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110740838.4A CN113657573B (zh) | 2021-06-30 | 2021-06-30 | 一种情景记忆引导下基于元学习的机器人技能获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110740838.4A CN113657573B (zh) | 2021-06-30 | 2021-06-30 | 一种情景记忆引导下基于元学习的机器人技能获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657573A true CN113657573A (zh) | 2021-11-16 |
CN113657573B CN113657573B (zh) | 2024-06-21 |
Family
ID=78477833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110740838.4A Active CN113657573B (zh) | 2021-06-30 | 2021-06-30 | 一种情景记忆引导下基于元学习的机器人技能获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657573B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114161419A (zh) * | 2021-12-13 | 2022-03-11 | 大连理工大学 | 一种情景记忆引导的机器人操作技能高效学习方法 |
CN115082717A (zh) * | 2022-08-22 | 2022-09-20 | 成都不烦智能科技有限责任公司 | 基于视觉感知的动态目标识别和情景记忆认知方法及*** |
CN116563638A (zh) * | 2023-05-19 | 2023-08-08 | 广东石油化工学院 | 一种基于情景记忆的图像分类模型优化方法和*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180210939A1 (en) * | 2017-01-26 | 2018-07-26 | Hrl Laboratories, Llc | Scalable and efficient episodic memory in cognitive processing for automated systems |
CN109668566A (zh) * | 2018-12-05 | 2019-04-23 | 大连理工大学 | 一种基于鼠脑定位细胞的机器人情景认知地图的构建与导航方法 |
CN111474932A (zh) * | 2020-04-23 | 2020-07-31 | 大连理工大学 | 一种集成情景经验的移动机器人建图与导航方法 |
CN112231489A (zh) * | 2020-10-19 | 2021-01-15 | 中国科学技术大学 | 防疫机器人知识学习与迁移方法和*** |
-
2021
- 2021-06-30 CN CN202110740838.4A patent/CN113657573B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180210939A1 (en) * | 2017-01-26 | 2018-07-26 | Hrl Laboratories, Llc | Scalable and efficient episodic memory in cognitive processing for automated systems |
CN109668566A (zh) * | 2018-12-05 | 2019-04-23 | 大连理工大学 | 一种基于鼠脑定位细胞的机器人情景认知地图的构建与导航方法 |
CN111474932A (zh) * | 2020-04-23 | 2020-07-31 | 大连理工大学 | 一种集成情景经验的移动机器人建图与导航方法 |
CN112231489A (zh) * | 2020-10-19 | 2021-01-15 | 中国科学技术大学 | 防疫机器人知识学习与迁移方法和*** |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114161419A (zh) * | 2021-12-13 | 2022-03-11 | 大连理工大学 | 一种情景记忆引导的机器人操作技能高效学习方法 |
CN114161419B (zh) * | 2021-12-13 | 2023-09-15 | 大连理工大学 | 一种情景记忆引导的机器人操作技能高效学习方法 |
CN115082717A (zh) * | 2022-08-22 | 2022-09-20 | 成都不烦智能科技有限责任公司 | 基于视觉感知的动态目标识别和情景记忆认知方法及*** |
CN115082717B (zh) * | 2022-08-22 | 2022-11-08 | 成都不烦智能科技有限责任公司 | 基于视觉感知的动态目标识别和情景记忆认知方法及*** |
CN116563638A (zh) * | 2023-05-19 | 2023-08-08 | 广东石油化工学院 | 一种基于情景记忆的图像分类模型优化方法和*** |
CN116563638B (zh) * | 2023-05-19 | 2023-12-05 | 广东石油化工学院 | 一种基于情景记忆的图像分类模型优化方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN113657573B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111203878B (zh) | 一种基于视觉模仿的机器人序列任务学习方法 | |
CN113657573A (zh) | 一种情景记忆引导下基于元学习的机器人技能获取方法 | |
CN112605973B (zh) | 一种机器人运动技能学习方法及*** | |
Paxton et al. | Prospection: Interpretable plans from language by predicting the future | |
CN111300390B (zh) | 基于蓄水池采样和双经验池的机械臂智能控制*** | |
CN109940614B (zh) | 一种融合记忆机制的机械臂多场景快速运动规划方法 | |
CN112809689B (zh) | 基于语言引导的机械臂动作元模仿学习方法及存储介质 | |
CN109508686B (zh) | 一种基于层次化特征子空间学习的人体行为识别方法 | |
CN112183188B (zh) | 一种基于任务嵌入网络的机械臂模仿学习的方法 | |
CN115860107B (zh) | 一种基于多智能体深度强化学习的多机探寻方法及*** | |
EP4121256A1 (en) | Training and/or utilizing machine learning model(s) for use in natural language based robotic control | |
CN114161419B (zh) | 一种情景记忆引导的机器人操作技能高效学习方法 | |
Lippi et al. | Enabling visual action planning for object manipulation through latent space roadmap | |
Li et al. | Curiosity-driven exploration for off-policy reinforcement learning methods | |
Ye et al. | Efficient robotic object search via hiem: Hierarchical policy learning with intrinsic-extrinsic modeling | |
CN113894780B (zh) | 多机器人协作对抗方法、装置、电子设备和存储介质 | |
CN117332366A (zh) | 信息处理方法、任务执行方法、装置、设备及介质 | |
US20220305647A1 (en) | Future prediction, using stochastic adversarial based sampling, for robotic control and/or other purpose(s) | |
CN115016499A (zh) | 一种基于sca-ql的路径规划方法 | |
Reinhart | Reservoir computing with output feedback | |
CN112766513A (zh) | 一种记忆协同的知识追踪方法及*** | |
Zhou et al. | Humanoid action imitation learning via boosting sample DQN in virtual demonstrator environment | |
Yu et al. | LSTM learn policy from dynamical system of demonstration motions for robot imitation learning | |
CN117590756B (zh) | 水下机器人的运动控制方法、装置、设备和存储介质 | |
Xiong et al. | Primitives generation policy learning without catastrophic forgetting for robotic manipulation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |