CN114660934B - 一种基于视觉-触觉融合的机械臂自主操作策略学习方法 - Google Patents

一种基于视觉-触觉融合的机械臂自主操作策略学习方法 Download PDF

Info

Publication number
CN114660934B
CN114660934B CN202210201770.7A CN202210201770A CN114660934B CN 114660934 B CN114660934 B CN 114660934B CN 202210201770 A CN202210201770 A CN 202210201770A CN 114660934 B CN114660934 B CN 114660934B
Authority
CN
China
Prior art keywords
information
fusion
theta
loss function
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210201770.7A
Other languages
English (en)
Other versions
CN114660934A (zh
Inventor
黄攀峰
孙驰
刘正雄
刘星
马志强
常海涛
张帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210201770.7A priority Critical patent/CN114660934B/zh
Publication of CN114660934A publication Critical patent/CN114660934A/zh
Application granted granted Critical
Publication of CN114660934B publication Critical patent/CN114660934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种一种基于视觉‑触觉融合的机械臂自主操作策略学习方法,包括以下步骤:步骤1、对视觉信息、触觉信息和本体信息的融合编码模型进行构建;步骤2、对视觉信息、触觉信息和本体信息解码模型进行重构建,联合解码和编码过程进行训练,获得优化后的融合编码模型;步骤3、利用融合编码融合的表征作为状态向量,通过深度强化学习方法,训练机械臂生成自主操作策略。其解决了现有的视触融合感知辅助机器人操控中,视触觉信息的处理和利用依赖于对任务的理解和精确的模型进行明确设计,导致多模态信息之间的融合关系简单有限,并且一种操控方法所能解决的问题单一、泛性差的问题。

Description

一种基于视觉-触觉融合的机械臂自主操作策略学习方法
技术领域
本发明属于机器人控制技术领域,具体涉及一种基于视觉-触觉融合的机械臂自主操作策略学习方法。
背景技术
机械臂作为一种应用广泛的机器人形态,在工业自动化、智能服务、空天探测等领域发挥着重要作用。如今,得益于传感器技术和计算机技术的迅速发展,机器人的感知单元与计算单元也快速升级,也为机械臂的感知、理解、操作能力提供了更大的潜力空间。
视觉和触觉信息的混合利用有助于提高信息丰富度,综合视觉和触觉信息的机械臂感知和辅助操作,主要分为两类,即协同控制和信息融合,并在机器自动材质识别、装配、机械臂抓取感知等领域发挥出良好的效用。
在机器人感知与应用领域,视触觉信息的融合方式从传统的特征处理转而进行视觉和触觉的深度神经网络编码方式,融合层级逐渐从决策级走向特征级别和更小粒度。借鉴人工智能领域对多模态数据,主要是在多媒体数据模态融合方面的研究,使用变分推理机制进行的多模态数据融合,能够为挖掘跨模态数据间的潜在联系和联合表征提供有效方法。
深度学习和强化学习的发展使得设计机器人行为建模对精确模型的依赖大大降低。强化学习提供了机器人学习环境反馈生成优化策略的方法,深度学习能够使用通用神经网络的特征来拟合处理复杂的传感器输入和模型表示。二者的结合使得机器人能够直接从现实世界中的经验和交互中自动学习,有效提高机器人的理解和行为能力。
发明内容
本发明的目的是提供一种基于视觉-触觉融合的机械臂自主操作策略学习方法,以解决现有的视触融合感知辅助机器人操控中,视触觉信息的处理和利用依赖于对任务的理解和精确的模型进行明确设计,导致多模态信息之间的融合关系简单有限,并且一种操控方法所能解决的问题单一、泛性差的问题。
本发明采用以下技术方案:一种基于视觉-触觉融合的机械臂自主操作策略学习方法,包括以下步骤:
步骤1、对视觉信息、触觉信息和本体信息的融合编码模型进行构建;
步骤2、对视觉信息、触觉信息和本体信息解码模型进行重构建,联合解码和编码过程进行训练,获得优化后的融合编码模型;
步骤3、利用融合编码融合的表征作为状态向量,通过深度强化学习方法,训练机械臂生成自主操作策略。
进一步的,步骤1的具体方法为:
步骤1.1、对所述视觉信息采用CNN进行神经网络编码,通过参数为θp的图像编码器将输入的图像P转换为2个d维的特征向量[mpp]T
步骤1.2、对所述触觉信息采用MLP进行编码,将三自由度力信息时间序列F经过参数为θf的触觉信息编码器,转化为2个d维的特征向量[mff]T
步骤1.3、所述本体信息包括本体六自由度位置和姿态信息向量,对所述本体信息采用两层MLP进行编码,通过参数为θx的位姿信息编码器转化为2个d维的特征向量[mxx]T
步骤1.4、将所述视觉信息、所述触觉信息和所述本体信息的融合信息特征进行串联,形成6个d维特征向量组成的联合特征,对联合特征进行两层MLP编码,通过参数为θs的联合特征编码器输出2个d维特征向量[mss]T,并生成最终的表示向量s:
s=ms+Ns·exp(σs) (7)
其中Ns为白噪声;
步骤1.5、由上述步骤中的图像信息编码器、触觉信息编码器、位姿信息编码器和联合信息编码器组成了融合编码模型。
进一步的,步骤2的具体方法为:
步骤2.1、对表示向量s使用神经网络上采样,经过图像解码器Dpp′)恢复图像为p′;
步骤2.2、对表示向量s使用多层MLP,经过位姿解码器来恢复本***姿为x’;
步骤2.3、对表示向量s使用多层MLP,经过触觉信息解码器来恢复触觉信息为f’;
步骤2.4、将各个模态转换的似然概率均建模为常数方差的多元高斯函数,则使用重建模态与输入模态之间的均方误差作为第一类损失函数,将KL散度作为第二类损失函数,通过加权合成总的损失函数;通过样本数据训练融合编码模型,直到总损失函数收敛,获得优化的融合编码模型。
进一步的,步骤2.4的具体内容为:
步骤2.4.1、对于图像模态,将误差建模为图像均方差,即对于像素为n*n维的原始图像P和重构图像P’,对其中的某一位置坐标(i,j)的像素点,在分别表示为pixVi,j和pixVi,j’,计算该点的均方差并求全图像素的均方差损失函数Lp
步骤2.4.2、对于位姿以及触觉信息,采用各自由度分量均方差对误差进行建模获得位姿均方差损失函数Lx和触觉信息均方差损失函数Lf
步骤2.4.3、定义简化的KL散度的损失函数Lkl
步骤2.4.4、将上述误差进行加权融合,将加权量作为总的损失函数L:
其中αi(i∈{p,x,f,kl})为每个子损失函数的权重;
步骤2.4.5、利用样本基于上述模融合和重构框架进行训练,采用梯度下降方法最小化的总的损失函数L,使用Adam优化器在训练过程中对网络参数进行更新,最终得到训练后的优化网络参数θ={θpfxs},即得到优化后的融合编码模型。
进一步的,步骤3中的DDPG算法的具体流程包括:
步骤3.1、对机械臂的行为-环境参数建模为一个四元组(X,A,R,P),其中S为输入状态空间,A为输出动作,R为采取动作后的奖励,P为状态转移概率,每个状态-动作都可以表示为(χt,at,rt,st+1),其中t表示某一个时间步;
步骤3.2、随机初始化在线策略网络和在线评价网络的参数θμ和θQ
步骤3.3、将在在线策略网络和在线评价网络的参数拷贝给目标策略网络μ和目标评价网络的参数θμ′和θQ′;
θQ′←θQ (11)
θμ′←θμ (12)
步骤3.4、初始化经验池;
步骤3.5、在每个回合按照如下步骤进行训练,首先初始化噪声分布Nt和初始状态st,然后,设定T时间步,对每个时间步t(t初值为0,t<T)进行训练;
步骤3.6、完成一回合的学习后,重复3.4的步骤直到所有回合训练结束,即得到优化后的网络参数θμ和θQ,其中在线策略网络即可为机械臂生成自主操作策略。
本发明的有益效果是:本发明的方法采用神经网络编码方法处理多模态信息,利用高维网络对数据进行降维和特征提取以及特征融合,通过编码-解码器模型代替了人为理解和表示视觉和触觉信息耦合和关联性的工作,降低了对实际的多模态问题进行明确理解和特征分析的需求;本方法利用无模型深度强化学习方法,既降低了对实际操作中对环境感知建模的精度要求,也提高了机械臂自主学习能力、通过学习的方式而扩展了任务泛性。
附图说明
图1为本发明方法中多模数据融合表征网络结构图的结构示意图;
图2为本发明方法中DDPG网络训练结构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供了一种一种基于视觉-触觉融合的机械臂自主操作策略学习方法,如图1所示,包括以下步骤:
步骤1、对视觉信息、触觉信息和本体信息的融合编码模型进行构建;
步骤2、对视觉信息、触觉信息和本体信息解码模型进行重构建,联合解码和编码过程进行训练,获得优化后的融合编码模型;
步骤3、利用融合编码融合的表征作为状态向量,通过深度强化学习方法,训练机械臂生成自主操作策略。
DDPG算法采用确定性行为策略,利用一个卷积神经网络对策略函数进行模拟,采用随机性行为策略提高确定性策略的随机性。同时对行为策略网络和评价网络进行训练。求解最大化行动收益的策略,就是寻找μ策略网络参数θμ的最优解的过程,使用SGA方法进行;对评价网络进行训练,就是求解具备最小化的价值网络损失函数,寻找Q价值网络参数θQ的最优解的过程,使用SGD算法进行。
对机械臂的行为-环境参数建模为一个四元组(X,A,R,P),其中S为输入状态空间,A为输出动作,R为采取动作后的奖励,P为状态转移概率。
在一些实施例中,步骤1的具体方法为:
步骤1.1、对所述视觉信息采用CNN进行神经网络编码,通过图像编码器Epp)将输入的图像P转换为2个d维的特征向量[mpp]T
步骤1.2、对所述触觉信息采用MLP进行编码,将三自由度力信息时间序列F经过触觉信息编码器Eff),转化为2个d维的特征向量[mff]T
步骤1.3、所述本体信息包括本体六自由度位置和姿态信息向量X,对所述本体信息采用两层MLP进行编码,通过位姿信息编码器Exx)转化为2个d维的特征向量[mxx]T
步骤1.4、将所述视觉信息、所述触觉信息和所述本体信息的融合信息特征进行串联,形成6个d维特征向量组成的联合特征S,对联合特征S进行两层MLP编码,通过联合特征编码器Ess)输出2个d维特征向量[mss]T,并生成最终的表示向量s:
s=ms+Ns·eXps) (13)
其中Ns为白噪声;
步骤1.5、由上述步骤中的图像信息编码器Epp)、触觉信息编码器Eff)、位姿信息编码器Exx)和联合信息编码器Ess)组成了融合编码模型E(θ)。
在一些实施例中,如图2所示,步骤2的具体方法为:
步骤2.1、对表示向量s使用神经网络上采样,经过图像解码器Dpp′)恢复图像为P′;
步骤2.2、对表示向量s使用多层MLP,经过位姿解码器Dxx′)来恢复本***姿为x’;
步骤2.3、对表示向量s使用多层MLP,经过触觉信息解码器Dff′)来恢复触觉信息为f’;
步骤2.4、将各个模态转换的似然概率均建模为常数方差的多元高斯函数,则使用重建模态与输入模态之间的均方误差作为第一类损失函数,将KL散度作为第二类损失函数,通过加权合成总的损失函数;通过样本数据训练融合编码模型,直到总损失函数收敛,获得优化的融合编码模型。
在一些实施例中,步骤2.4的具体内容为:
步骤2.4.1、对于图像模态,将误差建模为图像均方差,即对于n*n维的原始图像P和重构图像P’,对于其中的每一相同位置像素点值pixV和pixV’计算方差并求全图像素的均方差
步骤2.4.2、对于位姿以及触觉信息,采用各自由度分量均方差对误差进行建模获得Lx和Lf
步骤2.4.3、定义简化的KL散度的损失函数LKL
步骤2.4.4、将上述误差进行加权融合,将加权量作为总的损失函数L,其中αi(i∈{p,x,f,kl}),为每个子损失函数的权重;
步骤2.4.5、利用样本基于上述模融合和重构框架进行训练,采用梯度下降方法最小化的总的损失函数L,使用Adam优化器在训练过程中对网络参数进行更新,最终得到训练后的优化网络参数θ={θpfxs},即得到优化后的融合编码模型E(θ)。
在一些实施例中,步骤3中的DDPG算法的具体流程包括:
步骤3.1、对机械臂的行为-环境参数建模为一个四元组(X,A,R,P),其中S为输入状态空间,A为输出动作,R为采取动作后的奖励,P为状态转移概率,每个状态-动作都可以表示为(χt,at,rtt+1),其中t表示某一个时间步;
步骤3.2、随机初始化在线策略网络μ(θμ)和在线评价网络Q(θQ)的参数θμ和θQ
步骤3.3、将在在线策略网络和在线评价网络的参数拷贝给目标策略网络μ′(θμ′)和目标评价网络μ′(θμ′)的参数θμ′和θQ′;
θQ′←θ (17)
θμ′←θ (18)
步骤3.4、初始化经验池;
步骤3.5、在每个回合按照如下步骤进行训练,首先初始化噪声分布Nt和初始状态st,然后,设定T时间步,对每个时间步t(t初值为0,t<T)进行训练;
步骤3.6、完成一回合的学习后,重复3.4的步骤直到所有回合训练结束,即得到优化后的网络参数θμ和θQ,其中在线策略网络μ(θμ)即可为机械臂生成自主操作策略。
其中,步骤3.5中的算法的具体训练过程如下:
步骤3.5.1、根据噪声分布Nt和初始状态χi,通过在线策略网络选择下一个动作at
at=μ(χt|θμ)+Nt (19)
步骤3.5.2、机械臂执行动作后,环境返回新的奖励rt和新的状态χi+1
步骤3.5.3、动作将这个状态转换过程存入经验池;
步骤3.5.4、从经验池中随机采样N个数据(χt,at,rtt+1),作为在线策略网络和在线价值网络的一个小型经验池,使用(χi,ai,rii+1)表示小型经验池中的单个训练数据;
步骤3.5.5、计算在线评价网络的监督网络的梯度:
定义损失函数为:
其中yi可以看做“标签”,其计算公式如下:
yi=ri+γQ′(χi+1,μ′(χi+1μ′)|θQ′) (21)
其中γ为计算系数,基于反向传播算法,可以求得LA针对θQ的梯度
步骤3.5.6采用Adam优化器更新在线评价网络的参数θQ
步骤3.5.7计算在线策略网络中的梯度
其中ρβ为状态采样空间。
从经验池中回放随机采样获得的数据,利用蒙特卡洛方法,将数据代入梯度计算公式中进行梯度估计,将策略梯度公式改写为:
步骤3.5.8采用Adam优化器更新在线评价网络中的参数θμ′;
步骤3.5.9软更新目标网络参数,即
θQ′←τθQ+(1-τ)θQ (24)
θμ′←τθμ+(1-τ)θμ′ (25)
其中τ为软更新系数。
步骤3.5.10在下一个时间步中继续重复执行步骤3.5.1~3.5.9,直到回合结束。
本发明的关键在于,通过变分自动编码器将多维、跨模态的机械臂视觉、触觉及本体信息,转化为了统一的低维的融合信息;利用深度强化学习方法,机械臂能够充分利用融合信息,通过训练的评价网络和策略生成网络,在机械臂与环境交互过程中生成运动策略,指导机械臂自主完成接触作业。其中,在第一步骤中,采用了包括图像、触觉等在内的多模态数据,并利用编码器设计进行数据降维和融合处理;在第二步骤中,创新设计了在训练编码器时使用的损失函数;在第三步骤中,使用由编码器编码的融合表示向量作为在深度强化学习中的状态输入。
本发明的方法采用神经网络编码方法处理多模态信息,利用高维网络对数据进行降维和特征提取以及特征融合,通过编码-解码器模型代替了人为理解和表示视觉和触觉信息耦合和关联性的工作,降低了对实际的多模态问题进行明确理解和特征分析的需求;本方法利用无模型深度强化学习方法,既降低了对实际操作中对环境感知建模的精度要求,也提高了机械臂自主学习能力、通过学习的方式而扩展了任务泛性。

Claims (3)

1.基于视觉-触觉感知融合的机械臂自主操作策略学习方法,其特征在于,包括以下步骤:
步骤1、对视觉信息、触觉信息和本体信息的融合编码模型进行构建;
所述步骤1的具体方法为:
步骤1.1、对所述视觉信息采用CNN进行神经网络编码,通过参数为θp的图像编码器将输入的图像P转换为2个d维的特征向量[mpp]T
步骤1.2、对所述触觉信息采用MLP进行编码,将三自由度力信息时间序列F经过参数为θf的触觉信息编码器,转化为2个d维的特征向量[mff]T
步骤1.3、所述本体信息包括本体六自由度位置和姿态信息向量,对所述本体信息采用两层MLP进行编码,通过参数为θx的位姿信息编码器转化为2个d维的特征向量[mxx]T
步骤1.4、将所述视觉信息、所述触觉信息和所述本体信息的融合信息特征进行串联,形成6个d维特征向量组成的联合特征,对联合特征进行两层MLP编码,通过参数为θs的联合特征编码器输出2个d维特征向量[mss]T,并生成最终的表示向量s:
s=ms+Ns·exp(σs)#(1)
其中Ns为白噪声;
步骤1.5、由上述步骤中的图像信息编码器、触觉信息编码器、位姿信息编码器和联合信息编码器组成了融合编码模型;
步骤2、对视觉信息、触觉信息和本体信息解码模型进行重构建,联合解码和编码过程进行训练,获得优化后的融合编码模型;
所述步骤2的具体方法为:
步骤2.1、对表示向量s使用神经网络上采样,经过图像解码器Dpp′)恢复图像为P′;
步骤2.2、对表示向量s使用多层MLP,经过位姿解码器来恢复本***姿为x’;
步骤2.3、对表示向量s使用多层MLP,经过触觉信息解码器来恢复触觉信息为f’;
步骤2.4、将各个模态转换的似然概率均建模为常数方差的多元高斯函数,则使用重建模态与输入模态之间的均方误差作为第一类损失函数,将KL散度作为第二类损失函数,通过加权合成总的损失函数;通过样本数据训练融合编码模型,直到总损失函数收敛,获得优化的融合编码模型;
步骤3、利用融合编码融合的表征作为状态向量,通过深度强化学习方法,训练机械臂生成自主操作策略。
2.如权利要求1所述的基于视觉-触觉感知融合的机械臂自主操作策略学习方法,其特征在于,所述步骤2.4的具体内容为:
步骤2.4.1、对于图像模态,将误差建模为图像均方差,即对于像素为n*n维的原始图像P和重构图像P’,对其中的某一位置坐标(i,j)的像素点,在分别表示为pixVi,j和pixVi,j’,计算该点的均方差并求全图像素的均方差损失函数Lp
步骤2.4.2、对于位姿以及触觉信息,采用各自由度分量均方差对误差进行建模获得位姿均方差损失函数Lx和触觉信息均方差损失函数Lf
步骤2.4.3、定义简化的KL散度的损失函数Lkl
步骤2.4.4、将上述误差进行加权融合,将加权量作为总的损失函数L:
其中αi(i∈{p,x,f,kl})为每个子损失函数的权重;
步骤2.4.5、利用样本基于上述融合编码模型进行训练,采用梯度下降方法最小化的总的损失函数L,使用Adam优化器在训练过程中对网络参数进行更新,最终得到训练后的优化网络参数θ={θpfxs},即得到优化后的融合编码模型。
3.如权利要求2所述的基于视觉-触觉感知融合的机械臂自主操作策略学习方法,其特征在于,所述步骤3中的DDPG算法的具体流程包括:
步骤3.1、对机械臂的行为-环境参数建模为一个四元组(X,A,R,P),其中S为输入状态空间,A为输出动作,R为采取动作后的奖励,P为状态转移概率,每个状态-动作都可以表示为(χt,at,rt,st+1),其中t表示某一个时间步;
步骤3.2、随机初始化在线策略网络和在线评价网络的参数θμ和θQ
步骤3.3、将在在线策略网络和在线评价网络的参数拷贝给目标策略网络μ和目标评价网络的参数θμ′和θQ′
θQ′←θQ #(5)
θμ′←θμ #(6)
步骤3.4、初始化经验池;
步骤3.5、在每个回合按照如下步骤进行训练,首先初始化噪声分布Nt和初始状态st,然后,设定T时间步,对每个时间步t(t初值为0,t<T)进行训练;
步骤3.6、完成一回合的学习后,重复3.4的步骤直到所有回合训练结束,即得到优化后的网络参数θμ和θQ,其中在线策略网络即可为机械臂生成自主操作策略。
CN202210201770.7A 2022-03-03 2022-03-03 一种基于视觉-触觉融合的机械臂自主操作策略学习方法 Active CN114660934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210201770.7A CN114660934B (zh) 2022-03-03 2022-03-03 一种基于视觉-触觉融合的机械臂自主操作策略学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210201770.7A CN114660934B (zh) 2022-03-03 2022-03-03 一种基于视觉-触觉融合的机械臂自主操作策略学习方法

Publications (2)

Publication Number Publication Date
CN114660934A CN114660934A (zh) 2022-06-24
CN114660934B true CN114660934B (zh) 2024-03-01

Family

ID=82028192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210201770.7A Active CN114660934B (zh) 2022-03-03 2022-03-03 一种基于视觉-触觉融合的机械臂自主操作策略学习方法

Country Status (1)

Country Link
CN (1) CN114660934B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114860893B (zh) * 2022-07-06 2022-09-06 中国人民解放军国防科技大学 基于多模态数据融合与强化学习的智能决策方法及装置
CN115617036B (zh) * 2022-09-13 2024-05-28 中国电子科技集团公司电子科学研究院 一种多模态信息融合的机器人运动规划方法及设备
CN116911079B (zh) * 2023-09-13 2024-02-09 江苏云幕智造科技有限公司 一种不完备模型的自演化建模方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378325A (zh) * 2019-06-20 2019-10-25 西北工业大学 一种机器人抓取过程中的目标位姿识别方法
CN111204476A (zh) * 2019-12-25 2020-05-29 上海航天控制技术研究所 一种基于强化学习的视触融合精细操作方法
CN111444954A (zh) * 2020-03-24 2020-07-24 广东省智能制造研究所 一种基于多模态感知与学习的机器人自主装配方法
CN111633647A (zh) * 2020-05-26 2020-09-08 山东大学 一种基于深度强化学习的多模融合机器人缝制方法及***
CN112418421A (zh) * 2020-11-06 2021-02-26 常州大学 一种基于图注意力自编码模型的路侧端行人轨迹预测算法
CN112633466A (zh) * 2020-10-28 2021-04-09 华南理工大学 一种面向困难探索环境的记忆保持课程学习方法
CN113642604A (zh) * 2021-07-09 2021-11-12 南京邮电大学 一种基于云边协同的音视频辅助触觉信号重建方法
CN113674281A (zh) * 2021-10-25 2021-11-19 之江实验室 一种基于深度形状学习的肝脏ct自动分割方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378325A (zh) * 2019-06-20 2019-10-25 西北工业大学 一种机器人抓取过程中的目标位姿识别方法
CN111204476A (zh) * 2019-12-25 2020-05-29 上海航天控制技术研究所 一种基于强化学习的视触融合精细操作方法
CN111444954A (zh) * 2020-03-24 2020-07-24 广东省智能制造研究所 一种基于多模态感知与学习的机器人自主装配方法
CN111633647A (zh) * 2020-05-26 2020-09-08 山东大学 一种基于深度强化学习的多模融合机器人缝制方法及***
CN112633466A (zh) * 2020-10-28 2021-04-09 华南理工大学 一种面向困难探索环境的记忆保持课程学习方法
CN112418421A (zh) * 2020-11-06 2021-02-26 常州大学 一种基于图注意力自编码模型的路侧端行人轨迹预测算法
CN113642604A (zh) * 2021-07-09 2021-11-12 南京邮电大学 一种基于云边协同的音视频辅助触觉信号重建方法
CN113674281A (zh) * 2021-10-25 2021-11-19 之江实验室 一种基于深度形状学习的肝脏ct自动分割方法

Also Published As

Publication number Publication date
CN114660934A (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN114660934B (zh) 一种基于视觉-触觉融合的机械臂自主操作策略学习方法
Xu et al. Feedback deep deterministic policy gradient with fuzzy reward for robotic multiple peg-in-hole assembly tasks
CN110188598B (zh) 一种基于MobileNet-v2的实时手部姿态估计方法
Killian et al. Robust and efficient transfer learning with hidden parameter markov decision processes
Kecman Learning and soft computing: support vector machines, neural networks, and fuzzy logic models
CN109086869B (zh) 一种基于注意力机制的人体动作预测方法
CN111983922A (zh) 一种基于元模仿学习的机器人演示示教方法
CN111204476B (zh) 一种基于强化学习的视触融合精细操作方法
Zhong et al. Chatabl: Abductive learning via natural language interaction with chatgpt
Liu et al. Mirroring without overimitation: Learning functionally equivalent manipulation actions
Zare et al. A survey of imitation learning: Algorithms, recent developments, and challenges
Hu et al. On Transforming Reinforcement Learning With Transformers: The Development Trajectory
Hayashi et al. An independently learnable hierarchical model for bilateral control-based imitation learning applications
CN112668543B (zh) 一种手模型感知的孤立词手语识别方法
Langerak et al. MARLUI: Multi-Agent Reinforcement Learning for Adaptive UIs
Abdelrahman et al. Context-aware task execution using apprenticeship learning
CN111950690A (zh) 一种具有自适应能力的高效强化学习策略模型
CN115512214A (zh) 一种基于因果注意力的室内视觉导航方法
Torres-Figueroa et al. A novel general inverse kinematics optimization-based solution for legged robots in dynamic walking by a heuristic approach
Feng et al. Robot intelligent communication based on deep learning and TRIZ ergonomics for personalized healthcare
Xiong et al. Encoding primitives generation policy learning for robotic arm to overcome catastrophic forgetting in sequential multi-tasks learning
Jia et al. Fast motion planning for high-dof robot systems using hierarchical system identification
Piao et al. Online multi-modal imitation learning via lifelong intention encoding
Cai et al. A Framework and Algorithm for Human‐Robot Collaboration Based on Multimodal Reinforcement Learning
Mandil et al. Combining vision and tactile sensation for video prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant