CN114660934B

CN114660934B - 一种基于视觉-触觉融合的机械臂自主操作策略学习方法

Info

Publication number: CN114660934B
Application number: CN202210201770.7A
Authority: CN
Inventors: 黄攀峰; 孙驰; 刘正雄; 刘星; 马志强; 常海涛; 张帆
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2024-03-01
Anticipated expiration: 2042-03-03
Also published as: CN114660934A

Abstract

本发明公开了一种一种基于视觉‑触觉融合的机械臂自主操作策略学习方法，包括以下步骤：步骤1、对视觉信息、触觉信息和本体信息的融合编码模型进行构建；步骤2、对视觉信息、触觉信息和本体信息解码模型进行重构建，联合解码和编码过程进行训练，获得优化后的融合编码模型；步骤3、利用融合编码融合的表征作为状态向量，通过深度强化学习方法，训练机械臂生成自主操作策略。其解决了现有的视触融合感知辅助机器人操控中，视触觉信息的处理和利用依赖于对任务的理解和精确的模型进行明确设计，导致多模态信息之间的融合关系简单有限，并且一种操控方法所能解决的问题单一、泛性差的问题。

Description

一种基于视觉-触觉融合的机械臂自主操作策略学习方法

技术领域

本发明属于机器人控制技术领域，具体涉及一种基于视觉-触觉融合的机械臂自主操作策略学习方法。

背景技术

机械臂作为一种应用广泛的机器人形态，在工业自动化、智能服务、空天探测等领域发挥着重要作用。如今，得益于传感器技术和计算机技术的迅速发展，机器人的感知单元与计算单元也快速升级，也为机械臂的感知、理解、操作能力提供了更大的潜力空间。

视觉和触觉信息的混合利用有助于提高信息丰富度，综合视觉和触觉信息的机械臂感知和辅助操作，主要分为两类，即协同控制和信息融合，并在机器自动材质识别、装配、机械臂抓取感知等领域发挥出良好的效用。

在机器人感知与应用领域，视触觉信息的融合方式从传统的特征处理转而进行视觉和触觉的深度神经网络编码方式，融合层级逐渐从决策级走向特征级别和更小粒度。借鉴人工智能领域对多模态数据，主要是在多媒体数据模态融合方面的研究，使用变分推理机制进行的多模态数据融合，能够为挖掘跨模态数据间的潜在联系和联合表征提供有效方法。

深度学习和强化学习的发展使得设计机器人行为建模对精确模型的依赖大大降低。强化学习提供了机器人学习环境反馈生成优化策略的方法，深度学习能够使用通用神经网络的特征来拟合处理复杂的传感器输入和模型表示。二者的结合使得机器人能够直接从现实世界中的经验和交互中自动学习，有效提高机器人的理解和行为能力。

发明内容

本发明的目的是提供一种基于视觉-触觉融合的机械臂自主操作策略学习方法，以解决现有的视触融合感知辅助机器人操控中，视触觉信息的处理和利用依赖于对任务的理解和精确的模型进行明确设计，导致多模态信息之间的融合关系简单有限，并且一种操控方法所能解决的问题单一、泛性差的问题。

本发明采用以下技术方案：一种基于视觉-触觉融合的机械臂自主操作策略学习方法，包括以下步骤：

步骤1、对视觉信息、触觉信息和本体信息的融合编码模型进行构建；

步骤2、对视觉信息、触觉信息和本体信息解码模型进行重构建，联合解码和编码过程进行训练，获得优化后的融合编码模型；

步骤3、利用融合编码融合的表征作为状态向量，通过深度强化学习方法，训练机械臂生成自主操作策略。

进一步的，步骤1的具体方法为：

步骤1.1、对所述视觉信息采用CNN进行神经网络编码，通过参数为θ^p的图像编码器将输入的图像P转换为2个d维的特征向量[m_p,σ_p]^T；

步骤1.2、对所述触觉信息采用MLP进行编码，将三自由度力信息时间序列F经过参数为θ^f的触觉信息编码器，转化为2个d维的特征向量[m_f,σ_f]^T；

步骤1.3、所述本体信息包括本体六自由度位置和姿态信息向量，对所述本体信息采用两层MLP进行编码，通过参数为θ^x的位姿信息编码器转化为2个d维的特征向量[m_x,σ_x]^T；

步骤1.4、将所述视觉信息、所述触觉信息和所述本体信息的融合信息特征进行串联，形成6个d维特征向量组成的联合特征，对联合特征进行两层MLP编码，通过参数为θ^s的联合特征编码器输出2个d维特征向量[m_s,σ_s]^T，并生成最终的表示向量s：

s＝m_s+N_s·exp(σ_s) (7)

其中N_s为白噪声；

步骤1.5、由上述步骤中的图像信息编码器、触觉信息编码器、位姿信息编码器和联合信息编码器组成了融合编码模型。

进一步的，步骤2的具体方法为：

步骤2.1、对表示向量s使用神经网络上采样，经过图像解码器D_p(θ^p′)恢复图像为p′；

步骤2.2、对表示向量s使用多层MLP，经过位姿解码器来恢复本***姿为x’；

步骤2.3、对表示向量s使用多层MLP，经过触觉信息解码器来恢复触觉信息为f’；

步骤2.4、将各个模态转换的似然概率均建模为常数方差的多元高斯函数，则使用重建模态与输入模态之间的均方误差作为第一类损失函数，将KL散度作为第二类损失函数，通过加权合成总的损失函数；通过样本数据训练融合编码模型，直到总损失函数收敛，获得优化的融合编码模型。

进一步的，步骤2.4的具体内容为：

步骤2.4.1、对于图像模态，将误差建模为图像均方差，即对于像素为n*n维的原始图像P和重构图像P’，对其中的某一位置坐标(i,j)的像素点，在分别表示为pixV_i,j和pixV_i,j’，计算该点的均方差并求全图像素的均方差损失函数L_p：

步骤2.4.2、对于位姿以及触觉信息，采用各自由度分量均方差对误差进行建模获得位姿均方差损失函数L_x和触觉信息均方差损失函数L_f；

步骤2.4.3、定义简化的KL散度的损失函数L_kl：

步骤2.4.4、将上述误差进行加权融合，将加权量作为总的损失函数L:

其中α_i(i∈{p,x,f,kl})为每个子损失函数的权重；

步骤2.4.5、利用样本基于上述模融合和重构框架进行训练，采用梯度下降方法最小化的总的损失函数L，使用Adam优化器在训练过程中对网络参数进行更新，最终得到训练后的优化网络参数θ＝{θ^p,θ^f,θ^x,θ^s}，即得到优化后的融合编码模型。

进一步的，步骤3中的DDPG算法的具体流程包括：

步骤3.1、对机械臂的行为-环境参数建模为一个四元组(X,A,R,P)，其中S为输入状态空间，A为输出动作，R为采取动作后的奖励，P为状态转移概率，每个状态-动作都可以表示为(χ_t,a_t,r_t,s_t+1)，其中t表示某一个时间步；

步骤3.2、随机初始化在线策略网络和在线评价网络的参数θ^μ和θ^Q；

步骤3.3、将在在线策略网络和在线评价网络的参数拷贝给目标策略网络μ和目标评价网络的参数θ^μ′和θ^Q′；

θ^Q′←θ^Q (11)

θ^μ′←θ^μ (12)

步骤3.4、初始化经验池；

步骤3.5、在每个回合按照如下步骤进行训练，首先初始化噪声分布Nt和初始状态s_t，然后，设定T时间步，对每个时间步t(t初值为0，t<T)进行训练；

步骤3.6、完成一回合的学习后，重复3.4的步骤直到所有回合训练结束，即得到优化后的网络参数θ^μ和θ^Q，其中在线策略网络即可为机械臂生成自主操作策略。

本发明的有益效果是：本发明的方法采用神经网络编码方法处理多模态信息，利用高维网络对数据进行降维和特征提取以及特征融合，通过编码-解码器模型代替了人为理解和表示视觉和触觉信息耦合和关联性的工作，降低了对实际的多模态问题进行明确理解和特征分析的需求；本方法利用无模型深度强化学习方法，既降低了对实际操作中对环境感知建模的精度要求，也提高了机械臂自主学习能力、通过学习的方式而扩展了任务泛性。

附图说明

图1为本发明方法中多模数据融合表征网络结构图的结构示意图；

图2为本发明方法中DDPG网络训练结构图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供了一种一种基于视觉-触觉融合的机械臂自主操作策略学习方法，如图1所示，包括以下步骤：

DDPG算法采用确定性行为策略，利用一个卷积神经网络对策略函数进行模拟，采用随机性行为策略提高确定性策略的随机性。同时对行为策略网络和评价网络进行训练。求解最大化行动收益的策略，就是寻找μ策略网络参数θ^μ的最优解的过程，使用SGA方法进行；对评价网络进行训练，就是求解具备最小化的价值网络损失函数，寻找Q价值网络参数θ^Q的最优解的过程，使用SGD算法进行。

对机械臂的行为-环境参数建模为一个四元组(X,A,R,P)，其中S为输入状态空间，A为输出动作，R为采取动作后的奖励，P为状态转移概率。

在一些实施例中，步骤1的具体方法为：

步骤1.1、对所述视觉信息采用CNN进行神经网络编码，通过图像编码器E_p(θ^p)将输入的图像P转换为2个d维的特征向量[m_p,σ_p]^T；

步骤1.2、对所述触觉信息采用MLP进行编码，将三自由度力信息时间序列F经过触觉信息编码器E_f(θ^f)，转化为2个d维的特征向量[m_f,σ_f]^T；

步骤1.3、所述本体信息包括本体六自由度位置和姿态信息向量X，对所述本体信息采用两层MLP进行编码，通过位姿信息编码器E_x(θ^x)转化为2个d维的特征向量[m_x,σ_x]^T；

步骤1.4、将所述视觉信息、所述触觉信息和所述本体信息的融合信息特征进行串联，形成6个d维特征向量组成的联合特征S，对联合特征S进行两层MLP编码，通过联合特征编码器E_s(θ^s)输出2个d维特征向量[m_s,σ_s]^T，并生成最终的表示向量s：

s＝m_s+N_s·eX_p(σ_s) (13)

其中N_s为白噪声；

步骤1.5、由上述步骤中的图像信息编码器E_p(θ^p)、触觉信息编码器E_f(θ^f)、位姿信息编码器E_x(θ^x)和联合信息编码器E_s(θ^s)组成了融合编码模型E(θ)。

在一些实施例中，如图2所示，步骤2的具体方法为：

步骤2.2、对表示向量s使用多层MLP，经过位姿解码器D_x(θ^x′)来恢复本***姿为x’；

步骤2.3、对表示向量s使用多层MLP，经过触觉信息解码器D_f(θ^f′)来恢复触觉信息为f’；

在一些实施例中，步骤2.4的具体内容为：

步骤2.4.1、对于图像模态，将误差建模为图像均方差，即对于n*n维的原始图像P和重构图像P’,对于其中的每一相同位置像素点值pixV和pixV’计算方差并求全图像素的均方差

步骤2.4.2、对于位姿以及触觉信息，采用各自由度分量均方差对误差进行建模获得L_x和L_f；

步骤2.4.3、定义简化的KL散度的损失函数L_KL

步骤2.4.4、将上述误差进行加权融合，将加权量作为总的损失函数L，其中α_i(i∈{p,x,f,kl})，为每个子损失函数的权重；

步骤2.4.5、利用样本基于上述模融合和重构框架进行训练，采用梯度下降方法最小化的总的损失函数L，使用Adam优化器在训练过程中对网络参数进行更新，最终得到训练后的优化网络参数θ＝{θ^p,θ^f,θ^x,θ^s}，即得到优化后的融合编码模型E(θ)。

在一些实施例中，步骤3中的DDPG算法的具体流程包括：

步骤3.1、对机械臂的行为-环境参数建模为一个四元组(X,A,R,P)，其中S为输入状态空间，A为输出动作，R为采取动作后的奖励，P为状态转移概率，每个状态-动作都可以表示为(χ_t,a_t,r_t,χ_t+1)，其中t表示某一个时间步；

步骤3.2、随机初始化在线策略网络μ(θ^μ)和在线评价网络Q(θ^Q)的参数θ^μ和θ^Q；

步骤3.3、将在在线策略网络和在线评价网络的参数拷贝给目标策略网络μ′(θ^μ′)和目标评价网络μ′(θ^μ′)的参数θ^μ′和θ^Q′；

θ^Q′←θ (17)

θ^μ′←θ (18)

步骤3.4、初始化经验池；

步骤3.5、在每个回合按照如下步骤进行训练，首先初始化噪声分布N_t和初始状态s_t，然后，设定T时间步，对每个时间步t(t初值为0，t<T)进行训练；

步骤3.6、完成一回合的学习后，重复3.4的步骤直到所有回合训练结束，即得到优化后的网络参数θ^μ和θ^Q，其中在线策略网络μ(θ^μ)即可为机械臂生成自主操作策略。

其中，步骤3.5中的算法的具体训练过程如下：

步骤3.5.1、根据噪声分布N_t和初始状态χ_i，通过在线策略网络选择下一个动作a_t：

a_t＝μ(χ_t|θμ)+N_t (19)

步骤3.5.2、机械臂执行动作后，环境返回新的奖励r_t和新的状态χ_i+1；

步骤3.5.3、动作将这个状态转换过程存入经验池；

步骤3.5.4、从经验池中随机采样N个数据(χ_t,a_t,r_t,χ_t+1)，作为在线策略网络和在线价值网络的一个小型经验池，使用(χ_i,a_i,r_i,χ_i+1)表示小型经验池中的单个训练数据；

步骤3.5.5、计算在线评价网络的监督网络的梯度：

定义损失函数为：

其中y_i可以看做“标签”，其计算公式如下：

y_i＝r_i+γQ′(χ_i+1，μ′(χ_i+1|θ^μ′)|θ^Q′) (21)

其中γ为计算系数，基于反向传播算法，可以求得L_A针对θ^Q的梯度

步骤3.5.6采用Adam优化器更新在线评价网络的参数θ^Q；

步骤3.5.7计算在线策略网络中的梯度

其中ρ^β为状态采样空间。

从经验池中回放随机采样获得的数据，利用蒙特卡洛方法，将数据代入梯度计算公式中进行梯度估计，将策略梯度公式改写为：

步骤3.5.8采用Adam优化器更新在线评价网络中的参数θ^μ′；

步骤3.5.9软更新目标网络参数，即

θ^Q′←τθ^Q+(1-τ)θ^Q (24)

θ^μ′←τθ^μ+(1-τ)θ^μ′ (25)

其中τ为软更新系数。

步骤3.5.10在下一个时间步中继续重复执行步骤3.5.1～3.5.9，直到回合结束。

本发明的关键在于，通过变分自动编码器将多维、跨模态的机械臂视觉、触觉及本体信息，转化为了统一的低维的融合信息；利用深度强化学习方法，机械臂能够充分利用融合信息，通过训练的评价网络和策略生成网络，在机械臂与环境交互过程中生成运动策略，指导机械臂自主完成接触作业。其中，在第一步骤中，采用了包括图像、触觉等在内的多模态数据，并利用编码器设计进行数据降维和融合处理；在第二步骤中，创新设计了在训练编码器时使用的损失函数；在第三步骤中，使用由编码器编码的融合表示向量作为在深度强化学习中的状态输入。

本发明的方法采用神经网络编码方法处理多模态信息，利用高维网络对数据进行降维和特征提取以及特征融合，通过编码-解码器模型代替了人为理解和表示视觉和触觉信息耦合和关联性的工作，降低了对实际的多模态问题进行明确理解和特征分析的需求；本方法利用无模型深度强化学习方法，既降低了对实际操作中对环境感知建模的精度要求，也提高了机械臂自主学习能力、通过学习的方式而扩展了任务泛性。

Claims

1.基于视觉-触觉感知融合的机械臂自主操作策略学习方法，其特征在于，包括以下步骤：

所述步骤1的具体方法为：

s＝m_s+N_s·exp(σ_s)#(1)

其中N_s为白噪声；

步骤1.5、由上述步骤中的图像信息编码器、触觉信息编码器、位姿信息编码器和联合信息编码器组成了融合编码模型；

所述步骤2的具体方法为：

步骤2.4、将各个模态转换的似然概率均建模为常数方差的多元高斯函数，则使用重建模态与输入模态之间的均方误差作为第一类损失函数，将KL散度作为第二类损失函数，通过加权合成总的损失函数；通过样本数据训练融合编码模型，直到总损失函数收敛，获得优化的融合编码模型；

2.如权利要求1所述的基于视觉-触觉感知融合的机械臂自主操作策略学习方法，其特征在于，所述步骤2.4的具体内容为：

步骤2.4.3、定义简化的KL散度的损失函数L_kl：

其中α_i(i∈{p,x,f,kl})为每个子损失函数的权重；

步骤2.4.5、利用样本基于上述融合编码模型进行训练，采用梯度下降方法最小化的总的损失函数L，使用Adam优化器在训练过程中对网络参数进行更新，最终得到训练后的优化网络参数θ＝{θ^p,θ^f,θ^x,θ^s}，即得到优化后的融合编码模型。

3.如权利要求2所述的基于视觉-触觉感知融合的机械臂自主操作策略学习方法，其特征在于，所述步骤3中的DDPG算法的具体流程包括：

θ^Q′←θ^Q #(5)

θ^μ′←θ^μ #(6)

步骤3.4、初始化经验池；