CN115533905B - 机器人操作技能的虚实迁移学习方法、装置及存储介质 - Google Patents

机器人操作技能的虚实迁移学习方法、装置及存储介质 Download PDF

Info

Publication number
CN115533905B
CN115533905B CN202211228657.4A CN202211228657A CN115533905B CN 115533905 B CN115533905 B CN 115533905B CN 202211228657 A CN202211228657 A CN 202211228657A CN 115533905 B CN115533905 B CN 115533905B
Authority
CN
China
Prior art keywords
skill
strategy
environment
robot
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211228657.4A
Other languages
English (en)
Other versions
CN115533905A (zh
Inventor
孙富春
刘乃军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202211228657.4A priority Critical patent/CN115533905B/zh
Publication of CN115533905A publication Critical patent/CN115533905A/zh
Application granted granted Critical
Publication of CN115533905B publication Critical patent/CN115533905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1605Simulation of manipulator lay-out, design, modelling of manipulator
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Manipulator (AREA)

Abstract

本公开实施例提供的机器人操作技能的虚实迁移学习方法、装置及存储介质,包括:构建3C装配操作的仿真环境,采用域随机化方法衍生出多种源域仿真训练环境;针对各源域仿真训练环境,随机初始化不同参数的技能策略神经网络,融合基于强化学习形式的自学习及监督学习形式的互学习方法对技能策略神经网络进行训练;从训练完毕的技能策略神经网络中选取任务执行成功率较高的多个衍生技能策略进行集成,并通过策略蒸馏得到蒸馏技能策略;结合风格转化方法将源域虚拟环境训练得到的蒸馏技能策略迁移到目标域真实环境3C装配操作场景中。本公开可实现对3C装配操作技能的高效虚实迁移,降低3C装配操作技能的学习成本,提升智能化程度。

Description

机器人操作技能的虚实迁移学习方法、装置及存储介质
技术领域
本公开涉及机器人领域,特别涉及面向3C装配的机器人操作技能的虚实迁移学习方法、装置及存储介质。
背景技术
当前3C装配的智能化程度低导致了诸多装配场景需要依靠大量人工来完成。随着人工智能技术与机器人技术的发展,机器人操作技能学习技术可使机器人经过训练后获取灵巧的操作能力代替人工完成挑战性的3C装配任务。当前机器人操作技能学习需要机器人长时间在环境中交互探索学习,不可避免对机器人硬件造成磨损,致使机器人操作技能学习成本高昂。一种可行的解决方案是在虚拟仿真环境中对机器人3C装配技能策略进行学习,之后再将技能策略迁移到真实机器人操作环境。但由于虚拟环境与真实环境之间在纹理属性以及力学属性等方面存在的差异导致虚拟环境中训练的3C装配技能策略应用到真实环境中性能下降。为此,实现虚实环境存在差异情况下3C装配操作技能的低成本、高效虚实迁移,对3C装配产业的智能制造和发展极为重要。
发明内容
本公开旨在解决问题之一。
为此,本公开第一方面实施提供的可显著降低机器人操作技能的学习成本、提高学习效率的机器人操作技能虚实迁移学习方法,包括:
针对面向3C装配的目标域机器人所在的真实环境,构建面向3C装配的源域机器人的仿真环境,采用域随机化方法基于所述仿真环境衍生出多种源域仿真训练环境;
构建技能策略神经网络,针对衍生出的不同源域仿真训练环境,分别随机初始化技能策略神经网络的参数得到对应不同的衍生技能策略神经网络,融合基于强化学习形式的自学习及监督学习形式的互学习方法对各衍生技能策略神经网络进行训练,得到训练完毕的多个衍生技能策略神经网络;
将训练完毕的所有衍生技能策略神经网络在真实3C装配任务中进行测试,利用表现性能最优的若干个衍生技能策略得到集成技能策略,对所述集成技能策略通过策略蒸馏得到蒸馏技能策略;
将所述蒸馏技能策略部署到真实环境中时,采集每时刻的真实环境图像和目标域机器人的状态向量,将所述真实环境图像的风格转换为仿真环境图像的风格后得到风格图像,将所述风格图像和目标域机器人的状态向量输入到所述蒸馏技能策略并在真实环境中执行,从而实现机器人操作技能的虚实迁移。
本公开第一方面实施例提供的机器人操作技能虚实迁移学习方法,具有以下特点及有益效果:
公开第一方面实施例提供的机器人操作技能的虚实迁移学习方法,实现了将虚拟仿真环境中所学机器人技能策略迁移到真实3C装配场景的目标,在一定程度上可显著降低3C行业装配技能的学习成本,加快3C行业装配技能的学习效率,助力3C装配产业的智能制造升级。
在一些实施例中,所述仿真环境中各物体的尺寸与所述真实环境中相应物体的尺寸相同,所述仿真环境中与纹理渲染相关的属性均可改变,所述仿真环境中与力学相关的属性均可改变。
在一些实施例中,多种所述源域仿真训练环境是通过随机改变所述仿真环境中与纹理渲染相关的属性和与力学相关的属性所衍生出的仿真训练环境。
在一些实施例中,构建的所述技能策略神经网络包括RGB卷积网络模块、深度图卷积网络模块、第一全连接网络模块和第二全连接网络模块,t时刻所述技能策略神经网络的输入和输出分别为源域机器人与仿真环境交互的状态st和源域机器人的动作向量at,根据所述动作向量at控制源域机器人在时刻t执行的运动,状态st包括时刻t源域机器人的状态向量、以及源域仿真训练环境的RGB图像与深度图像;将所述源域仿真训练环境的RGB图像与深度图像分别输入到所述RGB卷积网络模块和所述深度图卷积网络模块中,得到RGB图像特征向量和深度图像特征向量,将所述源域机器人的状态向量输入到所述第一全连接神经网络模块中,得到第一特征向量,将所述RGB图像特征向量、所述深度图像特征向量和所述第一特征向量拼接后输入到所述第二全连接神经网络模块中,得到所述源域机器人的动作向量at
在一些实施例中,设共生成K个衍生技能策略神经网络,所述对各衍生技能策略神经网络进行训练,包括:
当技能策略优化的迭代次数i<G时,采用基于强化学习形式的自学习通过最大化下式对每个衍生技能策略神经网络进行训练:
其中,α为权重系数,γ为折扣因子,γt表示折扣因子γ的t次方,r(st,at)为源域机器人在状态st下执行动作向量at时得到的奖励,为源域机器人执行各衍生技能策略/>过程中记录的轨迹序列,k=1,2,…,K,/>为各衍生技能策略/>的熵,/>表示基于各衍生技能策略/>记录的轨迹序列/>计算的期望值;
待技能策略优化的迭代次数i达到G后,技能策略优化迭代次数i每增加m次后,测试K个衍生技能策略的执行成功率,对K个衍生技能策略/>按照执行成功率的大小进行降序排列,选取前P个衍生技能策略/>组成优选策略集合ωp,p=1,2,...,P,P<K,并由优选衍生技能策略集合ωp中的P个衍生技能策略组成混合技能策略;各衍生技能策略/>基于自身与仿真环境交互的状态,通过无模型强化学习的方法进行探索形式的自学习,同时,各衍生技能策略/>基于监督学习的形式向混合技能策略学习,具体公式如下:
其中,β为权重系数,πmix(st)为优选策略集合ωp中P个技能策略组成的混合技能策略。
在一些实施例中,权重系数α、β随迭代次数i的变化按照下式设定:
其中,α0为权重系数α的初始值,αf为小于α0的常数,β0为权重系数β的初始值,βf为大于β0的常数,I为大于G的常数。
在一些实施例中,按照下式得到所述集成技能策略:
其中,πens(s)为集成技能策略,为将训练完毕的所有衍生技能策略神经网络在真实3C装配任务中进行测试所选取的表现性能最优的Q个衍生技能策略,s泛指为技能策略与源域仿真环境交互得到的状态;
按照下式将所述集成技能策略πens(s)进行蒸馏得到蒸馏技能策略πf(s):
其中,KL(·||·)为散度求解函数,为基于集成技能策略与源域仿真环境交互得到的状态计算的期望值。
在一些实施例中,获取所述目标域机器人所在真实环境的图像包括真实环境的RGB图像和深度图像,所述风格图像由真实环境的深度图像和对真实环境的RGB图像进行风格转换得到RGB风格图像构成,所述RGB风格图像按照下式得到:
其中,μy和σy分别为未采用域随机化处理的仿真环境RGB图像的颜色值的均值和颜色值的方差,H,W分别为仿真环境RGB图像/>的高度和宽度,yhw为仿真环境RGB图像中在像素位置(h,w)处的颜色值;/>为将所述蒸馏技能策略部署到真实环境中时采集的t时刻的真实环境RGB图像,真实环境RGB图像/>的高度和宽度与仿真环境RGB图像的高度和宽度相同,/>和/>分别为真实环境RGB图像/>的颜色均值和颜色方差,为真实环境RGB图像/>中在像素位置(h,w)处的颜色值;/>为经过风格转换后得到的t时刻的RGB风格图像。
本公开第二方面实施例提供的机器人操作技能的虚实迁移学习装置,包括:
第一模块,用于针对面向3C装配的目标域机器人所在的真实环境,构建面向3C装配的源域机器人的仿真环境,采用域随机化方法基于所述仿真环境衍生出多种源域仿真训练环境;
第二模块,用于构建技能策略神经网络,针对衍生出的不同源域仿真训练环境,分别随机初始化技能策略神经网络的参数得到对应不同的衍生技能策略神经网络,融合基于强化学习形式的自学习及监督学习形式的互学习方法对各衍生技能策略神经网络进行训练,得到训练完毕的多个衍生技能策略神经网络;
第三模块,用于将训练完毕的所有衍生技能策略神经网络在真实3C装配任务中进行测试,利用表现性能最优的若干个衍生技能策略得到集成技能策略,对所述集成技能策略通过策略蒸馏得到蒸馏技能策略;
第四模块,用于将所述蒸馏技能策略部署到真实环境中时,采集每时刻的真实环境图像和目标域机器人的状态向量,将所述真实环境图像的风格转换为仿真环境图像的风格后得到风格图像,将所述风格图像和所述目标域机器人的状态向量输入到所述蒸馏技能策略并在真实环境中执行,从而实现机器人操作技能的虚实迁移。
本公开第三方面实施例提供的计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本公开第一方面任一实施例所述的机器人操作技能的虚实迁移学习方法。
附图说明
图1为本公开第一方面实施例提供的机器人操作技能虚实迁移学习的流程示意图。
图2为本公开第一方面实施例提供的虚实迁移学习方法中对应的技能策略神经网络的结构示意图。
图3为本公开第一方面实施例提供的虚实迁移学习方法中真实环境中部署应用的技能策略神经网络的结构示意图。
图4为本公开第三方面实施例提供的电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
相反,本申请涵盖任何由权利要求定义的在本申请精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本申请有更好的了解,在下文对本申请的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。
参见图1,本公开第一方面实施例提供的机器人操作技能的虚实迁移学习方法,用于实现3C装配任务机器人操作技能的虚实迁移,设定源域机器人为仿真环境中的UR5机械臂,目标源机器人为真实环境中的UR5机械臂,源域机器人和目标源机器人的末端执行器为吸盘或二指夹手,设定3C装配任务为手机的前置摄像头装配、软排线装配、SIM卡托装配或屏幕安装等。本公开实施例中提到的策略用于机器人完成相应的技能操作,所述的策略均用神经网络来进行表示。策略神经网络的输入和输出分别为状态和动作。所述的状态为机器人与环境交互产生并用于决定策略输出的相关信息,所述的动作为控制机器人运动的指令。本公开实施例的虚实迁移学习方法包括以下步骤:
S1、针对面向3C装配的目标域机器人所在的真实环境,构建面向3C装配的源域机器人的仿真环境,采用域随机化方法基于该操作仿真环境衍生出具备多样性的多种源域仿真训练环境;具体步骤如下:
S11、基于目标域机器人所应用的真实3C装配场景布置,构建包含机械臂、3C装配工作台、彩色深度相机及3C零部件的源域机器人的3C装配操作仿真环境(以下简称为源域仿真环境)。设置源域仿真环境中各物体的外形尺寸与真实装配场景中相应物体的尺寸均相同,源域仿真环境中光照、明暗程度、各物体颜色等纹理渲染相关属性均可改变,源域仿真环境中各物体的材质、质量、转动惯量、物体间接触的滑动摩擦系数等力学相关属性均可变化。
S12、基于域随机化方法,随机改变源域仿真环境中纹理渲染相关属性和力学相关属性,衍生出具备多样性的K种源域仿真训练环境ek(k=1,2,…,K,K=100)。
S2、构建技能策略神经网络,针对衍生出的不同源域仿真训练环境,分别随机初始化技能策略神经网络的参数得到对应不同的衍生技能策略神经网络,融合基于强化学习形式的自学习及监督学习形式的互学习方法对各衍生技能策略神经网络进行训练,得到训练完毕的多个衍生技能策略神经网络;具体步骤如下:
S21、构建技能策略神经网络,设时刻t技能策略πθ神经网络的输入为源域机器人的机械臂与仿真环境交互的状态st,输出为源域机器人的动作向量at,以此控制源域机器人的机械臂末端执行器在时刻t执行任务的运动指令。其中,状态st包括时刻t的源域机器人状态向量Rt、源域仿真训练环境中彩色深度相机采集的像素尺寸为640×480的RGB图像与深度图像/>源域机器人状态向量Rt的维度为2M+12,包括时刻t源域机器人的机械臂的M个关节角度值与M个关节角速度值(共2M维)、源域机器人的机械臂末端执行器的6维空间姿态与对应的6维速度信息(共12维)。动作向量at维度为7维,前6维用于控制源域机器人的机械臂末端执行器到达空间期望的6维位姿,第7维用于控制源域机器人的机械臂末端执行器的开合。
构建的技能策略πθ神经网络包含RGB卷积网络模块、深度图卷积网络模块、全连接网络模块1、全连接网络模块2等四部分,如图2所示。其中,RGB卷积网路模块由通道数分别为16,32,64,32的4层卷积层和神经元个数为128的1层全连接层构成,其中4层卷积层的滑动步长均为2且均没有池化层,卷积核尺寸均为2×2;深度图卷积网路模块由道数分别为16,32,64,32的4层卷积层和神经元个数为128的1层全连接层构成,其中4层卷积神经网络的滑动步长均为2且均没有池化层,卷积核尺寸均为2×2;全连接神经网络模块1由神经元个数分别为25、64、128,64的四层全连接层构成;全连接神经网络模块2由神经元个数分别为320、128、64、7的四层全连接神经网络构成。技能策略神经网络中各神经网络层均采用ReLU作为激活函数。将RGB图像和深度图像/>分别输入到RGB卷积网络模块与深度图卷积网络模块,分别提取到RGB图像特征向量fRGB和深度图像特征向量fD,将源域机器人状态向量Rt输入到全连接神经网络模块1得到特征向量fR,将RGB图像特征向量fRGB、深度图像特征向量fD和特征向量fR拼接到一起后输入到全连接神经网络模块2,最后由全连接神经网络2输出动作向量at
S22、针对衍生出的每个源域仿真训练环境ek(k=1,2,…,K,K=100),分别随机初始化步骤S21构建的技能策略πθ神经网络的网络参数,以生成K个衍生技能策略采用并行训练方式同时对不同源域仿真训练环境对应的衍生技能策略神经网络进行训练,得到训练完毕的多个衍生技能策略神经网络。具体训练过程如下:
S221、在训练初始阶段(技能策略优化迭代次数i<G,G=100)采用基于强化学习方法的自学习形式通过最大化累计奖赏函数值的方式对每个衍生技能策略神经网络进行训练,训练中采用如下损失函数:
其中,α(α=0.1)为权重系数,为折扣因子,γ的值取0.95,γt表示折扣因子γ的t次方,r(st,at)为时刻t源域机器人在状态st下执行动作向量at时得到的奖励,为源域机器人执行衍生技能策略/>过程中记录的轨迹序列,/>sτ为源域机器人执行衍生技能策略/>过程中时间步τ的源域机器人状态,T=200为轨迹序列的长度,/>为衍生技能策略/>的熵,/>表示基于衍生技能策略/>得到的轨迹序列/>计算的期望值。上述损失函数旨在对衍生技能策略神经网络的优化在最大化累计奖励的同时还要最大化衍生技能策略/>的熵,以使根据衍生技能策略/>输出的动作向量具有一定的随机性从而在环境中更好的探索以提升衍生技能策略的优化速度。
S222、待技能策略优化迭代次数到达设定值时,采用融合基于强化学习形式的自学习及监督学习形式的互学习方法对各衍生技能策略神经网络进行进一步训练,得到训练完毕的多个衍生技能策略神经网络,具体包括:
在技能策略优化的迭代次数i≥G,G=100后,优化迭代次数i每增加m(m=100)次后,测试K个衍生技能策略的执行成功率,对该K个衍生技能策略/>按照执行成功率的大小进行降序排列,选取前P个衍生技能策略/>组成优选衍生技能策略集合ωp,并由优选衍生技能策略集合ωp中的P个衍生技能策略组成混合技能策略πmix,计算公式如下:
融合基于强化学习形式的自学习形式和监督学习形式的互学习,对每个衍生技能策略神经网络进行训练。该步骤学习具体为:衍生技能策略/>神经网络通过强化学习的方法进行探索形式的自学习。此外,衍生技能策略神经网络基于监督学习的形式向混合技能策略学习,如下式:
其中α,β为权重系数,||·||2表示L2范数,πmix(s)为优选衍生技能策略集合ωp中P个优选衍生技能策略组成的混合技能策略,最终得到训练完毕的多个衍生技能策略神经网络。
进一步地,在衍生技能策略神经网络训练过程中,由于训练初期的衍生技能策略神经网络的性能多数情况表现不佳,故应该鼓励衍生技能策略神经网络进行探索,设定权重系数α的取值由大减小;训练后期随着衍生技能策略神经网络性能的增强,设定权重系数β取值逐渐增大。具体地,权重系数α、β随迭代次数i的变化按照下式设定:
其中,权重系数α随着优化迭代次数i的增加从初始权重α0=1×10-1线性减小,当迭代次数到达I(I=1.0×104)时权重系数α线性减小到αff=3.0×10-2)之后权重系数α再随优化迭代次数i的增加保持αf不再变化,直到衍生技能策略神经网络优化收敛。权重系数β随着优化迭代次数i的增加从初始权重β0=1×10-2线性减小,当迭代次数到达I(I=1.0×104)时权重系数β线性增加到βff=1.0)之后权重系数β再随优化迭代次数i的增加保持βf不再变化,直到衍生技能策略神经网络优化收敛。
S3、将训练完毕的所有衍生技能策略神经网络在真实3C装配任务中进行测试,并将表现性能最优的Q个衍生技能策略基于下式得到集成技能策略πens(s):
采用策略蒸馏方法将集成技能策略πens(s)进行蒸馏得到蒸馏技能策略πf(s),蒸馏方式如下式所示:
其中,KL[πens(s)||πf(s)]表示求解集成技能策略πens(s)与蒸馏技能策略πf(s)的散度值,表示基于集成技能策略πens(s)与源域仿真环境交互得到的状态s计算的期望值。
S4、将蒸馏技能策略部署到真实环境中时,采集每时刻的真实环境图像和目标域机器人的状态向量,将真实环境图像的风格转换为仿真环境图像的风格后得到风格图像,将该风格图像和目标域机器人的状态向量输入到蒸馏技能策略并在真实环境中执行,从而实现机器人操作技能的虚实迁移,具体步骤如下:
S41:将蒸馏技能策略πf部署到真实环境中,期间采集每时刻t的真实环境图像和目标域机器人的状态向量采集的真实环境图像包括真实环境RGB图像/>(真实环境RGB图像/>的高度和宽度分别与源域仿真环境RGB图像/>的高度和宽度相同)和真实环境深度图像/>
S42、采集未采用域随机化处理的任意一张仿真环境RGB图像(即原始的仿真环境RGB图像),并构建一风格转换模块,参见图3,该风格转换模块用于按照下式将真实环境RGB图像/>进行风格转换后得到的RGB风格图像/>
其中,μy和σy分别为仿真环境RGB图像的颜色值的均值和颜色值的方差,H,W分别为仿真环境RGB图像/>的高度和宽度,yhw为仿真环境RGB图像/>中在像素位置(h,w)处的颜色值;/>为将蒸馏技能策略πf部署到真实环境中时采集的t时刻的真实环境RGB图像,真实环境RGB图像/>的高度和宽度与仿真环境RGB图像/>的高度和宽度相同,/>和/>分别为真实环境RGB图像/>的颜色值的均值和颜色值的方差,/>为真实环境RGB图像/>中在像素位置(h,w)处的颜色值;/>为经过风格转换后得到的t时刻的RGB风格图像;
将RGB风格图像同真实环境深度图/>目标域机器人的状态向量/>输入到蒸馏技能策略πf进行执行,最终实现将3C装配技能策略从源域虚拟环境到目标域真实环境的虚实迁移。
本公开第二方面实施例提供的机器人操作技能的虚实迁移学习装置,包括:
第一模块,用于针对面向3C装配的目标域机器人所在的真实环境,构建面向3C装配的源域机器人的仿真环境,采用域随机化方法基于所述仿真环境衍生出多种源域仿真训练环境;
第二模块,用于构建技能策略神经网络,针对衍生出的不同源域仿真训练环境,分别随机初始化技能策略神经网络的参数得到对应不同的衍生技能策略神经网络,融合基于强化学习形式的自学习及监督学习形式的互学习方法对各衍生技能策略神经网络进行训练,得到训练完毕的多个衍生技能策略神经网络;
第三模块,用于将训练完毕的所有衍生技能策略神经网络在真实3C装配任务中进行测试,利用表现性能最优的若干个衍生技能策略得到集成技能策略,对所述集成技能策略通过策略蒸馏得到蒸馏技能策略;
第四模块,用于将所述蒸馏技能策略部署到真实环境中时,采集每时刻的真实环境图像和目标域机器人的状态向量,将所述真实环境图像的风格转换为仿真环境图像的风格后得到风格图像,将所述风格图像和所述目标域机器人的状态向量输入到所述蒸馏技能策略并在真实环境中执行,从而实现机器人操作技能的虚实迁移。
为了实现上述实施例,本公开实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,用于执行本公开第一方面实施例提供的机器人操作技能的虚实迁移学习方法。
下面参考图4,其示出了适于用来实现本公开实施例的电子设备的结构示意图。其中,需要说明的是,本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机、服务器等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等)101,其可以根据存储在只读存储器(ROM)102中的程序或者从存储装置108加载到随机访问存储器(RAM)103中的程序而执行各种适当的动作和处理。在RAM 103中,还存储有电子设备操作所需的各种程序和数据。处理装置101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。
通常,以下装置可以连接至I/O接口105:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置106;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置107;包括例如磁带、硬盘等的存储装置108;以及通信装置109。通信装置109可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图中所示方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置109从网络上被下载和安装,或者从存储装置108被安装,或者从ROM 102被安装。在该计算机程序被处理装置101执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:针对面向3C装配的目标域机器人所在的真实环境,构建面向3C装配的源域机器人的仿真环境,采用域随机化方法基于所述仿真环境衍生出多种源域仿真训练环境;构建技能策略神经网络,针对衍生出的不同源域仿真训练环境,分别随机初始化技能策略神经网络的参数得到对应不同的衍生技能策略神经网络,融合基于强化学习形式的自学习及监督学习形式的互学习方法对各衍生技能策略神经网络进行训练,得到训练完毕的多个衍生技能策略神经网络;将训练完毕的所有衍生技能策略神经网络在真实3C装配任务中进行测试,利用表现性能最优的若干个衍生技能策略得到集成技能策略,对所述集成技能策略通过策略蒸馏得到蒸馏技能策略;将所述蒸馏技能策略部署到真实环境中时,采集每时刻的真实环境图像和目标域机器人的状态向量,将所述真实环境图像的风格转换为仿真环境图像的风格后得到风格图像,将所述风格图像和所述目标域机器人的状态向量输入到所述蒸馏技能策略并在真实环境中执行,从而实现机器人操作技能的虚实迁移。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、python,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤,可以通过程序来指令相关的硬件完成,所开发的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种机器人操作技能的虚实迁移学习方法,其特征在于,包括:
针对面向3C装配的目标域机器人所在的真实环境,构建面向3C装配的源域机器人的仿真环境,采用域随机化方法基于所述仿真环境衍生出多种源域仿真训练环境;
构建技能策略神经网络,针对衍生出的不同源域仿真训练环境,分别随机初始化技能策略神经网络的参数得到对应不同的衍生技能策略神经网络,融合基于强化学习形式的自学习及监督学习形式的互学习方法对各衍生技能策略神经网络进行训练,得到训练完毕的多个衍生技能策略神经网络;
将训练完毕的所有衍生技能策略神经网络在真实3C装配任务中进行测试,利用表现性能最优的若干个衍生技能策略得到集成技能策略,对所述集成技能策略通过策略蒸馏得到蒸馏技能策略;
将所述蒸馏技能策略部署到真实环境中时,采集每时刻的真实环境图像和目标域机器人的状态向量,将所述真实环境图像的风格转换为仿真环境图像的风格后得到风格图像,将所述风格图像和目标域机器人的状态向量输入到所述蒸馏技能策略并在真实环境中执行,从而实现机器人操作技能的虚实迁移;
构建的所述技能策略神经网络包括RGB卷积网络模块、深度图卷积网络模块、第一全连接神经网络模块和第二全连接神经网络模块,t时刻所述技能策略神经网络的输入和输出分别为源域机器人与仿真环境交互的状态st和源域机器人的动作向量at,根据所述动作向量at控制源域机器人在时刻t执行的运动,状态st包括时刻t源域机器人的状态向量、以及源域仿真训练环境的RGB图像与深度图像;将所述源域仿真训练环境的RGB图像与深度图像分别输入到所述RGB卷积网络模块和所述深度图卷积网络模块中,得到RGB图像特征向量和深度图像特征向量,将所述源域机器人的状态向量输入到所述第一全连接神经网络模块中,得到第一特征向量,将所述RGB图像特征向量、所述深度图像特征向量和所述第一特征向量拼接后输入到所述第二全连接神经网络模块中,得到所述源域机器人的动作向量at
设共生成K个衍生技能策略神经网络,所述对各衍生技能策略神经网络进行训练,包括:
当技能策略优化的迭代次数i<G时,采用基于强化学习形式的自学习通过最大化下式对每个衍生技能策略神经网络进行训练:
其中,α为权重系数,γ为折扣因子,γt表示折扣因子γ的t次方,r(st,at)为源域机器人在状态st下执行动作向量at时得到的奖励,为源域机器人执行各衍生技能策略/>过程中记录的轨迹序列,k=1,2,…,K,/>为各衍生技能策略/>的熵,/>表示基于各衍生技能策略/>记录的轨迹序列/>计算的期望值;
待技能策略优化的迭代次数i达到G后,技能策略优化迭代次数i每增加m次后,测试K个衍生技能策略的执行成功率,对K个衍生技能策略/>按照执行成功率的大小进行降序排列,选取前P个衍生技能策略/>组成优选策略集合ωp,p=1,2,…,P,P<K,并由优选衍生技能策略集合ωp中的P个衍生技能策略组成混合技能策略;各衍生技能策略/>基于自身与仿真环境交互的状态,通过无模型强化学习的方法进行探索形式的自学习,同时,各衍生技能策略/>基于监督学习的形式向混合技能策略学习,具体公式如下:
其中,β为权重系数,πmix(st)为优选策略集合ωp中P个技能策略组成的混合技能策略。
2.根据权利要求1所述的虚实迁移学习方法,其特征在于,所述仿真环境中各物体的尺寸与所述真实环境中相应物体的尺寸相同,所述仿真环境中与纹理渲染相关的属性均可改变,所述仿真环境中与力学相关的属性均可改变。
3.根据权利要求2所述的虚实迁移学习方法,其特征在于,多种所述源域仿真训练环境是通过随机改变所述仿真环境中与纹理渲染相关的属性和与力学相关的属性所衍生出的仿真训练环境。
4.根据权利要求1所述的虚实迁移学习方法,其特征在于,权重系数α、β随迭代次数i的变化按照下式设定:
其中,α0为权重系数α的初始值,αf为小于α0的常数,β0为权重系数β的初始值,βf为大于β0的常数,I为大于G的常数。
5.根据权利要求1所述的虚实迁移学习方法,其特征在于,按照下式得到所述集成技能策略:
其中,πens(s)为集成技能策略,为将训练完毕的所有衍生技能策略神经网络在真实3C装配任务中进行测试所选取的表现性能最优的Q个衍生技能策略,s泛指为技能策略与源域仿真环境交互得到的状态;
按照下式将所述集成技能策略πens(s)进行蒸馏得到蒸馏技能策略πf(s):
其中,KL(·||·)为散度求解函数,为基于集成技能策略与源域仿真环境交互得到的状态计算的期望值。
6.根据权利要求1所述的虚实迁移学习方法,其特征在于,获取所述目标域机器人所在真实环境的图像包括真实环境的RGB图像和深度图像,所述风格图像由真实环境的深度图像和对真实环境的RGB图像进行风格转换得到RGB风格图像构成,所述RGB风格图像按照下式得到:
其中,μy和σy分别为未采用域随机化处理的仿真环境RGB图像的颜色值的均值和颜色值的方差,H,W分别为仿真环境RGB图像/>的高度和宽度,yhw为仿真环境RGB图像/>中在像素位置(h,w)处的颜色值;/>为将所述蒸馏技能策略部署到真实环境中时采集的t时刻的真实环境RGB图像,真实环境RGB图像/>的高度和宽度与仿真环境RGB图像/>的高度和宽度相同,/>和/>分别为真实环境RGB图像/>的颜色值的均值和颜色值的方差,为真实环境RGB图像/>中在像素位置(h,w)处的颜色值;/>为经过风格转换后得到的t时刻的RGB风格图像。
7.一种基于权利要求1所述虚实迁移学习方法的机器人操作技能的虚实迁移学习装置,其特征在于,包括:
第一模块,用于针对面向3C装配的目标域机器人所在的真实环境,构建面向3C装配的源域机器人的仿真环境,采用域随机化方法基于所述仿真环境衍生出多种源域仿真训练环境;
第二模块,用于构建技能策略神经网络,针对衍生出的不同源域仿真训练环境,分别随机初始化技能策略神经网络的参数得到对应不同的衍生技能策略神经网络,融合基于强化学习形式的自学习及监督学习形式的互学习方法对各衍生技能策略神经网络进行训练,得到训练完毕的多个衍生技能策略神经网络;
第三模块,用于将训练完毕的所有衍生技能策略神经网络在真实3C装配任务中进行测试,利用表现性能最优的若干个衍生技能策略得到集成技能策略,对所述集成技能策略通过策略蒸馏得到蒸馏技能策略;
第四模块,用于将所述蒸馏技能策略部署到真实环境中时,采集每时刻的真实环境图像和目标域机器人的状态向量,将所述真实环境图像的风格转换为仿真环境图像的风格后得到风格图像,将所述风格图像和目标域机器人的状态向量输入到所述蒸馏技能策略并在真实环境中执行,从而实现机器人操作技能的虚实迁移。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1~6中任一项所述的机器人操作技能的虚实迁移学习方法。
CN202211228657.4A 2022-10-09 2022-10-09 机器人操作技能的虚实迁移学习方法、装置及存储介质 Active CN115533905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211228657.4A CN115533905B (zh) 2022-10-09 2022-10-09 机器人操作技能的虚实迁移学习方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211228657.4A CN115533905B (zh) 2022-10-09 2022-10-09 机器人操作技能的虚实迁移学习方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115533905A CN115533905A (zh) 2022-12-30
CN115533905B true CN115533905B (zh) 2024-06-04

Family

ID=84733191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211228657.4A Active CN115533905B (zh) 2022-10-09 2022-10-09 机器人操作技能的虚实迁移学习方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115533905B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115730475B (zh) * 2023-01-09 2023-05-19 广东省科学院智能制造研究所 一种云边端协同的柔性产线机器人学习***及方法
CN116792890B (zh) * 2023-05-17 2024-06-18 浙江省邮电工程建设有限公司 基于策略蒸馏的机房空调智能控制方法和***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800864A (zh) * 2019-01-18 2019-05-24 中山大学 一种基于图像输入的机器人主动学习方法
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110450153A (zh) * 2019-07-08 2019-11-15 清华大学 一种基于深度强化学习的机械臂物品主动拾取方法
CN113478486A (zh) * 2021-07-12 2021-10-08 上海微电机研究所(中国电子科技集团公司第二十一研究所) 基于深度强化学习的机器人运动参数自适应控制方法和***
CN114131603A (zh) * 2021-12-02 2022-03-04 复旦大学 基于感知增强和场景迁移的深度强化学习机器人抓取方法
CN114155940A (zh) * 2021-11-04 2022-03-08 清华大学 机器人自主超声扫查技能策略生成方法、装置及存储介质
CN114918918A (zh) * 2022-05-26 2022-08-19 东南大学 一种含领域自适应的机器人乱序目标推抓方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210103815A1 (en) * 2019-10-07 2021-04-08 Deepmind Technologies Limited Domain adaptation for robotic control using self-supervised learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800864A (zh) * 2019-01-18 2019-05-24 中山大学 一种基于图像输入的机器人主动学习方法
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110450153A (zh) * 2019-07-08 2019-11-15 清华大学 一种基于深度强化学习的机械臂物品主动拾取方法
CN113478486A (zh) * 2021-07-12 2021-10-08 上海微电机研究所(中国电子科技集团公司第二十一研究所) 基于深度强化学习的机器人运动参数自适应控制方法和***
CN114155940A (zh) * 2021-11-04 2022-03-08 清华大学 机器人自主超声扫查技能策略生成方法、装置及存储介质
CN114131603A (zh) * 2021-12-02 2022-03-04 复旦大学 基于感知增强和场景迁移的深度强化学习机器人抓取方法
CN114918918A (zh) * 2022-05-26 2022-08-19 东南大学 一种含领域自适应的机器人乱序目标推抓方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
机器人散乱件分拣中的深度图像特征迁移;韩鸣朔;刘文海;王伟明;;机电一体化;20200415(第Z1期);全文 *

Also Published As

Publication number Publication date
CN115533905A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN115533905B (zh) 机器人操作技能的虚实迁移学习方法、装置及存储介质
US11886997B2 (en) Training action selection neural networks using apprenticeship
US11922132B2 (en) Information processing method and terminal device
CN110799992B (zh) 使用模拟和域适配以用于机器人控制
US20230150127A1 (en) Optimizing policy controllers for robotic agents using image embeddings
US11651214B2 (en) Multimodal data learning method and device
CN110796166B (zh) 一种基于注意力机制的多任务图像处理方法
CN110226172A (zh) 将源域图像变换为目标域图像
US20210158162A1 (en) Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space
CN111178545B (zh) 一种动态强化学习决策训练***
CN117499658A (zh) 使用神经网络生成视频帧
US20200265294A1 (en) Object Animation Using Generative Neural Networks
US20220261639A1 (en) Training a neural network to control an agent using task-relevant adversarial imitation learning
CN115990875B (zh) 一种基于隐空间插值的柔性线缆状态预测与控制***
CN115280321A (zh) 使用自举潜在的预测来学习针对代理控制的环境表示
CN114444653A (zh) 一种数据增广对深度学习模型性能影响评估方法及***
CN113838042B (zh) 双机械臂操作问答方法、装置、电子设备和存储介质
CN114647721B (zh) 教育智能机器人控制方法、设备及介质
CN113327265B (zh) 一种基于指导学习策略的光流估计方法和***
WO2022167485A1 (en) Neural networks with adaptive gradient clipping
CN114662656A (zh) 一种深度神经网络模型训练方法、自主导航方法及***
CN116868203A (zh) 利用自适应梯度裁剪的神经网络
CN115630685A (zh) 机器人异构操作技能的迁移学习方法、装置及存储介质
CN113688945A (zh) 图像处理超参数优化方法、***、设备及存储介质
CN118003325B (zh) 目标轨迹数据信息确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant