CN109948642B - 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 - Google Patents

基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 Download PDF

Info

Publication number
CN109948642B
CN109948642B CN201910049650.8A CN201910049650A CN109948642B CN 109948642 B CN109948642 B CN 109948642B CN 201910049650 A CN201910049650 A CN 201910049650A CN 109948642 B CN109948642 B CN 109948642B
Authority
CN
China
Prior art keywords
actor
module
agent
critic
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910049650.8A
Other languages
English (en)
Other versions
CN109948642A (zh
Inventor
成慧
杨凯
吴华栋
张东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910049650.8A priority Critical patent/CN109948642B/zh
Publication of CN109948642A publication Critical patent/CN109948642A/zh
Application granted granted Critical
Publication of CN109948642B publication Critical patent/CN109948642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法;首先构建在仿真平台中的机械臂训练环境;之后构造两个利用不同模态输入的导师(teacher)和学徒(student)智能体;然后基于深度确定性策略梯度算法,训练导师的actor模块与critic模块和学徒的actor模块,最终实现基于图像输入的跨模态深度强化学习机械臂训练算法;在总体训练完成的时候,就能够只使用学徒的演员网络,接受高维度的图像输入,输出能够完成任务的动作,并且这样的方法很适合迁移到真实环境中,由于真实环境无法提供全状态模态的信息,但是图像模态的信息较为容易获得,所以当训练好学徒的演员网络之后,就可以抛弃全状态模态信息的需求,直接利用图像输入获得比较好的输出策略。

Description

基于图像输入的多智能体跨模态深度确定性策略梯度训练 方法
技术领域
本发明属于人工智能与机器人领域的强化学习算法,更具体地,涉及一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法。
背景技术
近年来由于计算资源的快速增加和深度学习网络的发展,利用大量数据训练监督学习算法模型在多个领域都取得了非常好的成绩。目前将基于学习的方法应用在机器人控制领域主要有两大类方法:自监督学习和强化学习。自监督学习的方法即让机器人直接或间接收集任务数据并且打上标签,之后依靠大量带标签的训练数据完成深度神经网络的训练。
相比较于自监督学习的方法,强化学习从任务出发,在任务环境中探索并得到相应的回报来进行策略的更新。强化学习不需要进行数据的标注,而且不需要任何机器人领域相关的先验知识,但任务的复杂性和动态环境的不确定性决定了***必须具备很强的自适应能力和自主能力。强化学习从环境中得到的回报是一种弱监督信号,利用强化学习进行策略的学习需要大量的探索才能比较好地得到一个比较好的控制策略。强化学习的历史由来已久,强化学习和马尔可夫决策过程(MDP)有很大的关系,简化成一个五元组的形式则是状态s(state),动作a(action),奖励r(reward),损失系数γ(gamma)和转移概率p(probability)。其中状态描述了智能体在当前环境中的属性,智能体根据当前二点状态决定动作,执行该动作能够与环境交互得到奖励,转移概率描述了执行完动作后智能体到达新的状态的概率分布,损失系数用来对将来的奖励进行衰减,决定智能体的决策更多地专注于当前状态还是将来可能的回报。智能体学习的目标是寻找一个策略,以便在整个马尔可夫过程中能够取得最大的奖励总和。强化学习算法运用在控制领域总的来说有两大类,一类是由policy gradient发展而来的策略梯度算法,代表为TRPO(trust region policyoptimization)与PPO(proximal policy optimization),一类是确定性策略梯度下降算法,如DDPG(deep deterministic policy gradient),区别在于DDPG根据当前状态直接输出一个确定的动作,而TRPO与PPO输出的是动作的一个概率分布。
在机械臂控制领域利用视觉信号作为输入结合了卷积神经网络和强化学习算法的使用。但是强化学习在高维度信息输入的时候都会面临一个比较严重的维度***问题,即智能体在环境中的探索次数会随着输入维度的提高而极大地增加。如果直接使用物理的机械臂进行这样的探索,会面临着时间与资源的巨大损耗,并且由于强化学习在训练初期的不稳定性,对机械臂的物理性损伤也是巨大的。
在仿真环境中训练强化学习智能体是目前一种比较热门的训练方法,利用仿真环境对现实物理规则的模拟,可以让智能体在虚拟的仿真环境中进行大量的探索的实验,相比于直接在现实中进行实验还不需要担心其物理损耗的问题。在现有的相关技术中,利用仿真环境提供的额外信息训练高维度输入强化学习智能体是一个比较通用的方案。
同一事物或者场景存在着不同的数据形式,但这些数据都能指向同一场景和事物,这些数据被称为模态,在***中,仿真模拟器的物理参数(空间坐标,灯光,重力参数)被称为去全状态模态,这些模态能够被用来完整地描述一个仿真环境。而图像模态是指存在于仿真环境中的某一个摄像头所拍摄下来的场景图片,图像模态只能部分描述一个仿真场景,摄像头没有拍到的部分在图像模态中是未知的,但是相比于全状态模态,在真实世界场景下图像模态能够更容易获得。
在现有技术中有一些结合深度确定性策略梯度(DDPG)的方法,利用仿真环境中的全状态模态信息来训练DDPG算法中的评判家(critic)模块,并指导图像模态输入的演员(actor)模块的更新。对于该方法中的评判家网络来说,输入的观察值是仿真环境提供的全状态信息(full-state information)(世界坐标,光照角度,环境整体受力情况),这部分全状态信息能够从物理引擎的计算模块中完整详细地拿到,相对于图像输入来说,包含了更多更有效的信息,并且更加精确不掺杂冗余。用全状态信息训练的critic能够更容易收敛。而在另一方面,actor使用的是图像作为网络的输入,这就让处于两个模态的(modal)网络能够利用对方提供的信息共同更新,在训练效率方面,由于critic更容易收敛,它能够更有效地指导actor的更新,相比于critic也使用图像作为输入,该方法能够更有效地实现深度强化学习算法在视觉输入环境中的探索。
上述方法有一个基本的假设就是利用全状态信息的critic能够比较好的收敛。但是当探索的环境实在过于巨大的时候,例如使用1920x1024x4的彩色-深度图像作为actor的输入的时候,critic的收敛性并不能得到保证。过于巨大的探索空间造成演员网络在探索效率上极大地降低,探索效率的降低会导致无法得到有效的训练样本,由于DDPG中actor和critic共用同一套训练样本,这就导致critic的训练受到actor探索效率的影响。
第二个缺点就是critic提供给actor用于训练的梯度是弱指导,并不能保证每次梯度更新的方向都是正确的,这就会导致在巨大的探索空间中,actor探索的样本无法训练好critic,而critic反过来用错误的梯度指导actor的学习,导致训练效果越来越差,使用现有技术无法完成这样的任务。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法,在仿真环境中实现基于图像输入的跨模态深度强化学习机械臂训练算法。
为解决上述技术问题,本发明采用的技术方案是:一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法,包括以下步骤:
S1.搭建仿真器中的实验平台,定义交互物体与机械臂类型,定义机械臂控制任务的最终目标与奖惩规则,明确双智能体的状态空间和动作空间;
S2.基于深度确定性策略梯度算法,为两组智能体:导师teacher和学徒student建立决定行动的actor模块与评判反馈的critic模块,两种模块都基于深度神经网络搭建,并随机初始化网络参数;
S3.利用仿真环境中容易直接读取的全状态信息结合深度确定性策略梯度预先训练导师智能体的actor和critic模块,该训练过程包括智能体对环境的探索和智能体利用探索收集到的数据对actor和critic模块进行更新;
S4.利用训练好的导师智能体,指导学徒智能体actor模块的训练,该过程包括:学徒智能体对环境的单独探索和学徒智能体利用探索收集到的数据以及导师智能体给予的梯度指导耦合优化actor模块,同时利用学徒智能体的训练数据以极小学习率优化导师的actor与critic模块;
S5.重复步骤S4,直到智能体的决策满足优化终止条件。
本发明首先构建在仿真平台中的机械臂训练环境;之后构造两个利用不同模态输入的导师(teacher)和学徒(student)智能体;然后基于深度确定性策略梯度算法,训练导师的actor模块与critic模块和学徒的actor模块,最终实现基于图像输入的跨模态深度强化学习机械臂训练算法。
进一步的,所述的步骤S1具体包括:
S11.利用开源仿真平台V-REP搭建实验环境,使用的物理引擎是Vortex开源物理引擎,使用的机械臂类型是UR5机器人,关节数量为6个;
S12.设定机械臂控制需要完成的任务为抓取任务,任务描述为在机械臂同一高度的水平面上有多个大小、形状、颜色都不同的不规则物体,智能体需要控制机械臂对特定目标的物体进行识别和抓取,奖励条件为机械臂成功将目标物体抓取,抓取到非目标物体或者没能抓取到物体都不给奖励或者惩罚,在仿真空间中设定视觉传感器位置,该位置必须能完整拍下机械臂与所有不规则物体;
S13.智能体的动作为:机械臂6个关节角的运动增量;导师智能体的状态为:机械臂6个关节角的当前角度;目标物体的全状态信息:三维世界坐标与三维姿态;学徒智能体的状态为:机械臂6个关节角的当前角度,位于仿真空间中的RGB视觉传感器采回来的128x128x3大小的彩色图片;
S14.所述的仿真平台为智能体的动作空间和状态空间,环境中的奖惩规则共同构建的一个双智能体决策的运动环境。
进一步的,所述的S2步骤具体包括:
S21.双智能体的actor和critic模块参数更新都依赖深度确定性策略梯度算法,需要维护一个单独的经验池存储探索得到的经验回放,经验池每一次保存的样本称为一个sample,具体包括:当前状态s,当前动作a,当前回报r,下一状态s′;
S22.建立导师智能体的actor模块,将状态s:机械臂关节角和目标的全状态信息,作为网络的输入,经过若干中间全连接层得到智能体的下一步输出动作a;同时,在每一轮的迭代过程中,网络的参数都是动态变化的,为了使网络结构的参数学习更加稳定,保留一个actor网络结构副本,该actor网络结构副本旨在一定的时间步长才进行参数的更新;
S23.建立导师智能体的critic,将智能体的状态s:机械臂关节角和目标的全状态信息,和动作a作为网络的输入,经过若干全连接层得到critic模块的输出:状态-动作价值Q;同时,为了使参数的学习更稳定,保留一个critic网络结构副本,该critic网络结构副本同样在一定的时间步长才进行参数的更新;
S24.建立学徒智能体的actor,将状态s:机械臂关节角和图像信息,作为网络的输入,经过多层卷积层和全连接层计算得到智能体的下一步输出动作a;同时,在每一轮的迭代过程中,网络的参数都是动态变化的,为了使网络结构的参数学习更加稳定,保留一个actor网络结构副本,该actor网络结构副本旨在一定的时间步长才进行参数的更新;
进一步的,所述的S3步骤具体包括:
S31.导师critic模块包含了两个结构完全相同、参数更新时间不一致的网络模型,将即时更新参数的网络模型Q称之为在线critic,其参数表示为θQ;将延迟更新的网络模型Q′称之为目标critic,其参数表示为θQ’;对于目标critic,根据经验池中随机采样的样本[s,a,r,s’],利用贝尔曼公式更新在线critic模块:
Figure BDA0001950326960000051
目标critic是在线critic的延迟更新,目标critic的参数更新公式为:
θQ’=τθQ+(1-τ)θQ’,其中τ为平衡因子;
S32.导师actor模块包含两个结构完全相同,参数更新时间不一致的网络模型,及时更新参数的网络模型μ为在线actor,其参数表示为θμ;延迟更新参数的网络模型μ′为目标actor,其参数表示为θμ’
对于目标actor,根据经验池中随机采样的样本[s,a,r,s’],利用深度确定性策略梯度更新公式更新在线actor,其梯度下降公式为:
Figure BDA0001950326960000052
目标actor是在线actor的延迟更新,目标actor的参数更新公式为:
θμ’=τθμ+(1-τ)θμ’,其中τ为平衡因子;
S33.利用步骤S31跟步骤S32的公式更新导师智能体的actor与critic模块,并利用更新后的actor模块对环境进行探索得到新的探索样本[s,a,r,s’],将新的探索样本加入到原本的经验池中,如果样本数量达到经验池的最大样本数量,则用最新的探索样本替换旧的样本;
S34.重复步骤S33直至满足导师智能体的优化终止条件或达到最大迭代步数。
进一步的,所述的S4步骤具体包括:
S41.学徒actor模块包含两个结构完全相同,参数更新时间不一致的网络模型,及时更新参数的网络模型μ为在线actor,其参数表示为θμ;延迟更新参数的网络模型μ′为目标actor,其参数表示为θμ’
对于目标actor,根据经验池中随机采样的样本[sL,sH,a,r,sL’,sH’],其中sL和sH分别为当前时刻下的全状态信息和图像信息,s′L和s′H分别为下一个时刻的全状态信息和图像信息;利用下述梯度下降公式优化学徒在线actor:
Figure BDA0001950326960000061
公式中第一项利用导师智能体的在线critic模块根据采样样本中的全状态模态信息sL与动作a计算该状态-动作对的Q值,该Q值取负后作为损失函数的第一项参与梯度计算;上述公式的第二项描述了两个智能体的actor在接收同一时刻下同一场景的不同模态表现形式得到动作输出的相似程度;μt和μs分别为导师actor模块的网络和学徒actor模块的网络;
目标actor是在线actor的延迟更新,目标actor的参数更新公式为:
θμ’=τθμ+(1-τ)θμ’,其中τ为平衡因子;
S42.利用步骤S41的更新公式更新学徒智能体的actor模块,并利用更新后的actor模块对环境进行探索得到新的探索样本[sL,sH,a,r,sL’,sH’],将新的探索样本加入到原本的经验池中,如果样本数量达到经验池的最大样本数量,则用最新的探索样本替换旧的样本;
S43.利用样本[sL,a,r,sL’]以小步长更新导师的actor与critic模块,让导师智能体也能收益于学徒智能体的环境探索经验;
S44.重复步骤S42与S43直至满足导师智能体的优化终止条件或达到最大迭代步数。
与现有技术相比,有益效果是:
1.在总体训练完成的时候,就能够只使用学徒的演员网络,接受高维度的图像输入,输出能够完成任务的动作,并且这样的方法很适合迁移到真实环境中,由于真实环境无法提供全状态模态的信息,但是图像模态的信息较为容易获得,所以当训练好学徒的演员网络之后,就可以抛弃全状态模态信息的需求,直接利用图像输入获得比较好的输出策略;
2.在训练的时候,我们会预先训练导师智能体,由于导师智能体中的演员网络和评判家网络都是使用全状态模态作为输入,并不受由于图像质量影响带来的输入维度提升,在导师智能体中,评判家网络用于训练的样本是全状态模态演员探索得到的,因此导师智能体中评判家网络能得到比较充分的训练,反过来提供了更准确的梯度指导给演员网络,相互促进了训练,解决了背景技术中第一个缺点所带来的问题;
3.在训练完导师智能体的两个网络之后,再开始训练学徒的演员网络,我们利用导师智能体的评判家网络为学徒智能体的演员网络提供梯度指导,并且利用导师智能体的演员网络来为学徒智能体的演员网络提供直接的监督学习信号,由于监督学习是一种强指导,能够迅速准确地更新学徒智能体的演员网络,让其在导师智能体的两个网络的指导下学会如何快速并准确地完成任务。这就解决了上第二个缺点所带来的问题。
附图说明
图1是本发明方法流程图。
图2是本发明的双智能体网络结构框架图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
实施例1:
如图1所示,一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法,包括以下步骤:
步骤1.搭建仿真器中的实验平台,定义交互物体与机械臂类型,定义机械臂控制任务的最终目标与奖惩规则,明确双智能体的状态空间和动作空间;
其具体步骤包括:
S11.利用开源仿真平台V-REP搭建实验环境,使用的物理引擎是Vortex开源物理引擎,使用的机械臂类型是UR5机器人,关节数量为6个;
S12.设定机械臂控制需要完成的任务为抓取任务,任务描述为在机械臂同一高度的水平面上有多个大小、形状、颜色都不同的不规则物体,智能体需要控制机械臂对特定目标的物体进行识别和抓取,奖励条件为机械臂成功将目标物体抓取,抓取到非目标物体或者没能抓取到物体都不给奖励或者惩罚,在仿真空间中设定视觉传感器位置,该位置必须能完整拍下机械臂与所有不规则物体;
S13.智能体的动作为:机械臂6个关节角的运动增量;导师智能体的状态为:机械臂6个关节角的当前角度;目标物体的全状态信息:三维世界坐标与三维姿态;学徒智能体的状态为:机械臂6个关节角的当前角度,位于仿真空间中的RGB视觉传感器采回来的128x128x3大小的彩色图片;
S14.所述的仿真平台为智能体的动作空间和状态空间,环境中的奖惩规则共同构建的一个双智能体决策的运动环境。
步骤2.基于深度确定性策略梯度算法,为两组智能体:teacher和student建立决定行动的actor模块与评判反馈的critic模块,两种模块都基于深度神经网络搭建,并随机初始化网络参数;
其具体步骤包括:
S21.双智能体的actor和critic模块参数更新都依赖深度确定性策略梯度算法,需要维护一个单独的经验池存储探索得到的经验回放,经验池每一次保存的样本称为一个sample,具体包括:当前状态s,当前动作a,当前回报r,下一状态s′;
S22.建立导师智能体的actor模块,如图2中的①,导师actor模块由三层全连接神经网络组成,每一层的神经元个数分别为256,128,64,每层全连接层后面使用ReLU层作为激活函数。将状态s:机械臂关节角和目标的全状态信息,作为网络的输入,经过若干中间全连接层得到智能体的下一步输出动作a;同时,在每一轮的迭代过程中,网络的参数都是动态变化的,为了使网络结构的参数学习更加稳定,保留一个actor网络结构副本,该actor网络结构副本旨在一定的时间步长才进行参数的更新;
S23.建立导师智能体的critic,如图2中的③,导师critic模块由三层全连接神经网络组成,每一层的神经元个数分别为256,128,64,每层全连接层后面使用ReLU层作为激活函数。将智能体的状态s:机械臂关节角和目标的全状态信息,和动作a作为网络的输入,经过若干全连接层得到critic模块的输出:状态-动作价值Q;同时,为了使参数的学习更稳定,保留一个critic网络结构副本,该critic网络结构副本同样在一定的时间步长才进行参数的更新;
S24.建立学徒智能体的actor,如图2中的②,学徒actor模块使用5层卷积神经网络处理图像输入,卷积神经网络的通道数分别为32,64,64,128,256,卷积核使用3x3大小,每一层卷积层后面接批归一化层和ReLU激活层,图像输入经过卷积后得到高维图像特征,该特征经过两层全连接层(128,64)连接,最终构成学徒智能体actor模块的网络模型。将状态s:机械臂关节角和图像信息,作为网络的输入,经过多层卷积层和全连接层计算得到智能体的下一步输出动作a;同时,在每一轮的迭代过程中,网络的参数都是动态变化的,为了使网络结构的参数学习更加稳定,保留一个actor网络结构副本,该actor网络结构副本旨在一定的时间步长才进行参数的更新。
步骤3.利用仿真环境中容易直接读取的全状态信息结合深度确定性策略梯度预先训练导师智能体的actor和critic模块,该训练过程包括智能体对环境的探索和智能体利用探索收集到的数据对actor和critic模块进行更新;
其具体步骤包括:
S31.导师critic模块包含了两个结构完全相同、参数更新时间不一致的网络模型,将即时更新参数的网络模型Q称之为在线critic,其参数表示为θQ;将延迟更新的网络模型Q′称之为目标critic,其参数表示为θQ’;对于目标critic,根据经验池中随机采样的样本[s,a,r,s’],利用贝尔曼公式更新在线critic模块:
Figure BDA0001950326960000091
目标critic是在线critic的延迟更新,目标critic的参数更新公式为:
θQ’=τθQ+(1-τ)θQ’,其中τ为平衡因子;
S32.导师actor模块包含两个结构完全相同,参数更新时间不一致的网络模型,及时更新参数的网络模型μ为在线actor,其参数表示为θμ;延迟更新参数的网络模型μ′为目标actor,其参数表示为θμ’
对于目标actor,根据经验池中随机采样的样本[s,a,r,s’],利用深度确定性策略梯度更新公式更新在线actor,其梯度下降公式为:
Figure BDA0001950326960000101
目标actor是在线actor的延迟更新,目标actor的参数更新公式为:
θμ’=τθμ+(1-τ)θμ’,其中τ为平衡因子;
S33.利用步骤S31跟步骤S32的公式更新导师智能体的actor与critic模块,并利用更新后的actor模块对环境进行探索得到新的探索样本[s,a,r,s’],将新的探索样本加入到原本的经验池中,如果样本数量达到经验池的最大样本数量,则用最新的探索样本替换旧的样本;
S34.重复步骤S33直至满足导师智能体的优化终止条件或达到最大迭代步数。
步骤4.利用训练好的导师智能体,指导学徒智能体actor模块的训练,该过程包括:学徒智能体对环境的单独探索和学徒智能体利用探索收集到的数据以及导师智能体给予的梯度指导耦合优化actor模块,同时利用学徒智能体的训练数据以极小学习率优化导师的actor与critic模块;
其具体步骤包括:
S41.学徒actor模块包含两个结构完全相同,参数更新时间不一致的网络模型,及时更新参数的网络模型μ为在线actor,其参数表示为θμ;延迟更新参数的网络模型μ′为目标actor,其参数表示为θμ’
对于目标actor,根据经验池中随机采样的样本[sL,sH,a,r,sL’,sH’],其中sL和sH分别为当前时刻下的全状态信息和图像信息,s′L和s′H分别为下一个时刻的全状态信息和图像信息;利用下述梯度下降公式优化学徒在线actor:
Figure BDA0001950326960000102
/>
公式中第一项利用导师智能体的在线critic模块根据采样样本中的全状态模态信息sL与动作a计算该状态-动作对的Q值,该Q值取负后作为损失函数的第一项参与梯度计算;上述公式的第二项描述了两个智能体的actor在接收同一时刻下同一场景的不同模态表现形式得到动作输出的相似程度;μt和μs分别为导师actor模块的网络和学徒actor模块的网络;
目标actor是在线actor的延迟更新,目标actor的参数更新公式为:
θμ’=τθμ+(1-τ)θμ’,其中τ为平衡因子;
S42.利用步骤S41的更新公式更新学徒智能体的actor模块,并利用更新后的actor模块对环境进行探索得到新的探索样本[sL,sH,a,r,sL’,sH’],将新的探索样本加入到原本的经验池中,如果样本数量达到经验池的最大样本数量,则用最新的探索样本替换旧的样本;
S43.利用样本[sL,a,r,sL’]以小步长更新导师的actor与critic模块,让导师智能体也能收益于学徒智能体的环境探索经验;
S44.重复步骤S42与S43直至满足导师智能体的优化终止条件或达到最大迭代步数。
步骤5.重复步骤4,直到智能体的决策满足优化终止条件。
本发明首先构建在仿真平台中的机械臂训练环境;之后构造两个利用不同模态输入的导师(teacher)和学徒(student)智能体;然后基于深度确定性策略梯度算法,训练导师的actor模块与critic模块和学徒的actor模块,最终实现基于图像输入的跨模态深度强化学习机械臂训练算法。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法,其特征在于,包括以下步骤:
S1.搭建仿真器中的实验平台,定义交互物体与机械臂类型,定义机械臂控制任务的最终目标与奖惩规则,明确双智能体的状态空间和动作空间;
S2.基于深度确定性策略梯度算法,为两组智能体:teacher和student建立决定行动的actor模块与评判反馈的critic模块,两种模块都基于深度神经网络搭建,并随机初始化网络参数;
S3.利用仿真环境中容易直接读取的全状态信息结合深度确定性策略梯度预先训练导师智能体的actor和critic模块,该训练过程包括智能体对环境的探索和智能体利用探索收集到的数据对actor和critic模块进行更新;
S4.利用训练好的导师智能体,指导学徒智能体actor模块的训练,该过程包括:学徒智能体对环境的单独探索和学徒智能体利用探索收集到的数据以及导师智能体给予的梯度指导耦合优化actor模块,同时利用学徒智能体的训练数据以极小学习率优化导师的actor与critic模块;具体包括:
S41.学徒actor模块包含两个结构完全相同,参数更新时间不一致的网络模型,及时更新参数的网络模型μ为在线actor,其参数表示为θμ;延迟更新参数的网络模型μ′为目标actor,其参数表示为θμ’
对于目标actor,根据经验池中随机采样的样本[sL,sH,a,r,sL’,sH’],其中sL和sH分别为当前时刻下的全状态信息和图像信息,s′L和s′H分别为下一个时刻的全状态信息和图像信息;利用下述梯度下降公式优化学徒在线actor:
Figure FDA0003943166480000011
公式中第一项利用导师智能体的在线critic模块根据采样样本中的全状态模态信息sL与动作a计算状态-动作对的Q值,该Q值取负后作为损失函数的第一项参与梯度计算;上述公式的第二项描述了两个智能体的actor在接收同一时刻下同一场景的不同模态表现形式得到动作输出的相似程度;μt和μs分别为导师actor模块的网络和学徒actor模块的网络,r表示回报;
目标actor是在线actor的延迟更新,目标actor的参数更新公式为:
θμ’=τθμ+(1-τ)θμ’,其中τ为平衡因子;
S42.利用步骤S41的更新公式更新学徒智能体的actor模块,并利用更新后的actor模块对环境进行探索得到新的探索样本[sL,sH,a,r,sL’,sH’],将新的探索样本加入到原本的经验池中,如果样本数量达到经验池的最大样本数量,则用最新的探索样本替换旧的样本;
S43.利用样本[sL,a,r,sL’]以小步长更新导师的actor与critic模块,让导师智能体也能收益于学徒智能体的环境探索经验;
S44.重复步骤S42与S43直至满足导师智能体的优化终止条件或达到最大迭代步数;
S5.重复步骤S4,直到智能体的决策满足优化终止条件。
2.根据权利要求1所述的一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法,其特征在于,所述的步骤S1具体包括:
S11.利用开源仿真平台V-REP搭建实验环境,使用的物理引擎是Vortex开源物理引擎,使用的机械臂类型是UR5机器人,关节数量为6个;
S12.设定机械臂控制需要完成的任务为抓取任务,任务描述为在机械臂同一高度的水平面上有多个大小、形状、颜色都不同的不规则物体,智能体需要控制机械臂对特定目标的物体进行识别和抓取,奖励条件为机械臂成功将目标物体抓取,抓取到非目标物体或者没能抓取到物体都不给奖励或者惩罚,在仿真空间中设定视觉传感器位置,该位置必须能完整拍下机械臂与所有不规则物体;
S13.智能体的动作为:机械臂6个关节角的运动增量;导师智能体的状态为:机械臂6个关节角的当前角度;目标物体的全状态信息:三维世界坐标与三维姿态;学徒智能体的状态为:机械臂6个关节角的当前角度,位于仿真空间中的RGB视觉传感器采回来的128x128x3大小的彩色图片;
S14.所述的仿真平台为智能体的动作空间和状态空间,环境中的奖惩规则共同构建的一个双智能体决策的运动环境。
3.根据权利要求2所述的一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法,其特征在于,所述的S2步骤具体包括:
S21.双智能体的actor和critic模块参数更新都依赖深度确定性策略梯度算法,需要维护一个单独的经验池存储探索得到的经验回放,经验池每一次保存的样本称为一个sample,具体包括:当前状态s,当前动作a,当前回报r,下一状态s’;
S22.建立导师智能体的actor模块,将状态s:机械臂关节角和目标的全状态信息,作为网络的输入,经过若干中间全连接层得到智能体的下一步输出动作a;同时,在每一轮的迭代过程中,网络的参数都是动态变化的,为了使网络结构的参数学习更加稳定,保留一个actor网络结构副本,该actor网络结构副本旨在一定的时间步长才进行参数的更新;
S23.建立导师智能体的critic,将智能体的状态s:机械臂关节角和目标的全状态信息,和动作a作为网络的输入,经过若干全连接层得到critic模块的输出:状态-动作价值Q;同时,为了使参数的学习更稳定,保留一个critic网络结构副本,该critic网络结构副本同样在一定的时间步长才进行参数的更新;
S24.建立学徒智能体的actor,将状态s:机械臂关节角和图像信息,作为网络的输入,经过多层卷积层和全连接层计算得到智能体的下一步输出动作a;同时,在每一轮的迭代过程中,网络的参数都是动态变化的,为了使网络结构的参数学习更加稳定,保留一个actor网络结构副本,该actor网络结构副本旨在一定的时间步长才进行参数的更新。
4.根据权利要求3所述的一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法,其特征在于,所述的S3步骤具体包括:
S31.导师critic模块包含了两个结构完全相同、参数更新时间不一致的网络模型,将即时更新参数的网络模型Q称之为在线critic,其参数表示为θQ;将延迟更新的网络模型Q′称之为目标critic,其参数表示为θQ′;对于目标critic,根据经验池中随机采样的样本[s,a,r,s′],利用贝尔曼公式更新在线critic模块:
Figure FDA0003943166480000031
目标critic是在线critic的延迟更新,目标critic的参数更新公式为:
θQ′=τθQ+(1-τ)θQ′,其中τ为平衡因子;
S32.导师actor模块包含两个结构完全相同,参数更新时间不一致的网络模型,及时更新参数的网络模型μ为在线actor,其参数表示为θμ;延迟更新参数的网络模型μ’为目标actor,其参数表示为θμ’
对于目标actor,根据经验池中随机采样的样本[s,a,r,s′],利用深度确定性策略梯度更新公式更新在线actor,其梯度下降公式为:
Figure FDA0003943166480000041
目标actor是在线actor的延迟更新,目标actor的参数更新公式为:
θμ’=τθμ+(1-τ)θμ’,其中τ为平衡因子;
S33.利用步骤S31跟步骤S32的公式更新导师智能体的actor与critic模块,并利用更新后的actor模块对环境进行探索得到新的探索样本[s,a,r,s’],将新的探索样本加入到原本的经验池中,如果样本数量达到经验池的最大样本数量,则用最新的探索样本替换旧的样本;
S34.重复步骤S33直至满足导师智能体的优化终止条件或达到最大迭代步数。
CN201910049650.8A 2019-01-18 2019-01-18 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 Active CN109948642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910049650.8A CN109948642B (zh) 2019-01-18 2019-01-18 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910049650.8A CN109948642B (zh) 2019-01-18 2019-01-18 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法

Publications (2)

Publication Number Publication Date
CN109948642A CN109948642A (zh) 2019-06-28
CN109948642B true CN109948642B (zh) 2023-03-28

Family

ID=67006664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910049650.8A Active CN109948642B (zh) 2019-01-18 2019-01-18 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法

Country Status (1)

Country Link
CN (1) CN109948642B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458443B (zh) * 2019-08-07 2022-08-16 南京邮电大学 一种基于深度强化学习的智慧家庭能量管理方法及***
CN112782973B (zh) * 2019-11-07 2022-10-18 四川省桑瑞光辉标识***股份有限公司 基于双智能体协作博弈的双足机器人行走控制方法和***
CN110956202B (zh) * 2019-11-13 2023-08-01 重庆大学 基于分布式学习的图像训练方法、***、介质及智能设备
CN111191399B (zh) * 2019-12-24 2021-11-05 北京航空航天大学 机器鱼的控制方法、装置、设备及存储介质
CN111144793B (zh) * 2020-01-03 2022-06-14 南京邮电大学 基于多智能体深度强化学习的商业建筑hvac控制方法
CN111142378A (zh) * 2020-01-07 2020-05-12 四川省桑瑞光辉标识***股份有限公司 一种双足机器人神经网络控制器的神经网络优化方法
CN111274438B (zh) * 2020-01-15 2023-06-23 中山大学 一种语言描述引导的视频时序定位方法
CN111300390B (zh) * 2020-03-20 2021-03-23 南栖仙策(南京)科技有限公司 基于蓄水池采样和双经验池的机械臂智能控制***
CN112241123B (zh) * 2020-10-23 2022-05-03 南京航空航天大学 基于深度强化学习的航空发动机加速控制方法
CN112434464B (zh) * 2020-11-09 2021-09-10 中国船舶重工集团公司第七一六研究所 基于maddpg算法的船舶多机械臂弧焊协同焊接方法
CN112597693A (zh) * 2020-11-19 2021-04-02 沈阳航盛科技有限责任公司 一种基于深度确定性策略梯度的自适应控制方法
CN112307257B (zh) * 2020-11-25 2021-06-15 中国计量大学 一种基于多信息节点图网络的短视频点击率预测方法
CN112529160A (zh) * 2020-12-09 2021-03-19 南京大学 一种摄像器材记录的视频图像数据的高维模仿学习方法
CN112975977B (zh) * 2021-03-05 2022-08-09 西北大学 一种高效的机械臂抓取深度强化学习奖励训练方法及***
CN113524186B (zh) * 2021-07-19 2023-11-03 山东大学 基于演示示例的深度强化学习双臂机器人控制方法及***
CN114051256B (zh) * 2021-11-22 2024-07-09 广州捷锐企业管理有限公司 一种择优近端策略优化方法
CN114454160B (zh) * 2021-12-31 2024-04-16 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及***
CN114722998B (zh) * 2022-03-09 2024-02-02 三峡大学 一种基于cnn-ppo的兵棋推演智能体构建方法
CN115366099B (zh) * 2022-08-18 2024-05-28 江苏科技大学 基于正向运动学的机械臂深度确定性策略梯度训练方法
CN115464659B (zh) * 2022-10-05 2023-10-24 哈尔滨理工大学 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法
CN115533905B (zh) * 2022-10-09 2024-06-04 清华大学 机器人操作技能的虚实迁移学习方法、装置及存储介质
CN116027670B (zh) * 2023-02-14 2023-06-16 东北大学 一种多Agent协作粉体能源物料传输控制***、方法及介质
CN116566200B (zh) * 2023-07-10 2023-09-22 南京信息工程大学 一种直流降压变换器控制方法、装置、***及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015232886A (ja) * 2015-06-17 2015-12-24 洋彰 宮崎 人工知能装置
CN107247989A (zh) * 2017-06-15 2017-10-13 北京图森未来科技有限公司 一种神经网络训练方法及装置
CN108960419A (zh) * 2017-05-18 2018-12-07 三星电子株式会社 用于使用知识桥的学生-教师迁移学习网络的装置和方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7058617B1 (en) * 1996-05-06 2006-06-06 Pavilion Technologies, Inc. Method and apparatus for training a system model with gain constraints
US7062476B2 (en) * 2002-06-17 2006-06-13 The Boeing Company Student neural network
KR102492318B1 (ko) * 2015-09-18 2023-01-26 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
WO2018236446A2 (en) * 2017-05-24 2018-12-27 Hrl Laboratories, Llc TRANSFER LEARNING OF CONVOLUTIONAL NEURAL NETWORKS FROM THE VISIBLE COLOR DOMAIN (RGB) TO THE INFRARED (IR) DOMAIN
CN108052004B (zh) * 2017-12-06 2020-11-10 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108399406B (zh) * 2018-01-15 2022-02-01 中山大学 基于深度学习的弱监督显著性物体检测的方法及***
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN108875794B (zh) * 2018-05-25 2020-12-04 中国人民解放军国防科技大学 一种基于迁移学习的图像能见度检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015232886A (ja) * 2015-06-17 2015-12-24 洋彰 宮崎 人工知能装置
CN108960419A (zh) * 2017-05-18 2018-12-07 三星电子株式会社 用于使用知识桥的学生-教师迁移学习网络的装置和方法
CN107247989A (zh) * 2017-06-15 2017-10-13 北京图森未来科技有限公司 一种神经网络训练方法及装置

Also Published As

Publication number Publication date
CN109948642A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109948642B (zh) 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
Ruan et al. Mobile robot navigation based on deep reinforcement learning
CN110000785B (zh) 农业场景无标定机器人运动视觉协同伺服控制方法与设备
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
Liu et al. A digital twin-based sim-to-real transfer for deep reinforcement learning-enabled industrial robot grasping
CN111203878B (zh) 一种基于视觉模仿的机器人序列任务学习方法
CN111695562B (zh) 一种基于卷积神经网络的机器人自主抓取方法
CN110328668B (zh) 基于速度平滑确定性策略梯度的机械臂路径规划方法
Yue et al. Deep reinforcement learning and its application in autonomous fitting optimization for attack areas of UCAVs
CN113076615B (zh) 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及***
CN114248893A (zh) 一种面向海参捕捞的作业型水下机器人及其控制方法
CN114372173A (zh) 一种基于Transformer架构的自然语言目标跟踪方法
CN112183188B (zh) 一种基于任务嵌入网络的机械臂模仿学习的方法
CN112114592B (zh) 一种实现无人机自主穿越可移动框形障碍物的方法
CN114117926A (zh) 一种基于联邦学习的机器人协同控制算法
Li et al. Learning view and target invariant visual servoing for navigation
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策***
CN111753696A (zh) 一种感知场景信息的方法、仿真装置、机器人
CN113752255A (zh) 一种基于深度强化学习的机械臂六自由度实时抓取方法
CN116460843A (zh) 一种基于元启发式算法的多机器人协作抓取方法及***
CN114967721A (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN113326932B (zh) 基于物体检测的物体操作指令跟随学习方法及装置
CN114170454A (zh) 基于关节分组策略的智能体元动作学习方法
Rezaei et al. Mobile robot monocular vision-based obstacle avoidance algorithm using a deep neural network
Yan et al. Autonomous vision-based navigation and stability augmentation control of a biomimetic robotic hammerhead shark

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant