CN115860107B - 一种基于多智能体深度强化学习的多机探寻方法及*** - Google Patents

一种基于多智能体深度强化学习的多机探寻方法及*** Download PDF

Info

Publication number
CN115860107B
CN115860107B CN202310044962.6A CN202310044962A CN115860107B CN 115860107 B CN115860107 B CN 115860107B CN 202310044962 A CN202310044962 A CN 202310044962A CN 115860107 B CN115860107 B CN 115860107B
Authority
CN
China
Prior art keywords
virtual
network
virtual robot
time
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310044962.6A
Other languages
English (en)
Other versions
CN115860107A (zh
Inventor
肖晓晖
张涵
张晓晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202310044962.6A priority Critical patent/CN115860107B/zh
Publication of CN115860107A publication Critical patent/CN115860107A/zh
Application granted granted Critical
Publication of CN115860107B publication Critical patent/CN115860107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Feedback Control In General (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本发明提供一种基于多智能体深度强化学***台,将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程,获取虚拟机器人集群完成探寻任务的轨迹信息并储存在经验回放缓存中,针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,基于多智能体深度强化学***台上将虚拟目标场景与虚拟机器人集群结合后进行组合训练,便于部署真实目标场景和真实机器人集群,本发明能够在训练时获取全局的信息进行集中式学习,使得机器人可以学习到集体行为,大大提升了工作效率,且不容易出现目标冲突、互相干扰等问题。

Description

一种基于多智能体深度强化学习的多机探寻方法及***
技术领域
本发明涉及机器人技术领域,尤其涉及一种基于多智能体深度强化学习的多机探寻方法及***。
背景技术
近年来,机器人技术在外界感知、运动控制、定位导航等方面的研究受到了广泛的关注。其中,机器人集群作为群体智能的代表,因其可以集体地、自发地组织行为完成任务,在个人、社会等层面都具有广阔的应用前景。
但是,由于多机探寻任务中机器人的部分可观测性和机器人之间通信的约束,以及随着机器人数量增加带来的决策空间的指数型扩大和场景的复杂度增加,机器人集群的协同决策面临着巨大的挑战。
使用传统强化学习的多机探寻方法将每个机器人作为单独的个体,忽略了机器人之间的交互作用,使得完成集群任务时经常出现目标冲突、互相干扰等问题,大大降低了工作效率。对于过大的决策空间和复杂的场景,使用传统深度强化学习的方法也容易出现无法收敛到最优解的问题,使得机器人集群在完成任务时,效率大大降低。
发明内容
根据现有技术的不足,本发明的目的是提供一种基于多智能体深度强化学习的多机探寻方法及***,能够在训练时获取全局的信息进行集中式学习,使得机器人可以学习到集体行为,大大提升了工作效率,且不容易出现目标冲突、互相干扰等问题。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种基于多智能体深度强化学习的多机探寻方法,包括以下步骤:
一种基于多智能体深度强化学习的多机探寻方法,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
进一步地,在所述的步骤2中,分布式部分可观测马尔可夫决策过程为:
其中,为虚拟机器人个数,为状态空间,为动作空间,时刻第个虚拟机器人选择的动作,时刻虚拟机器人集群选择的联合动作集,时刻的***状态,时刻的***状态,下选择后转移到的状态转移概率函数,下选择的奖励函数,为观测空间,为第个虚拟机器人的观测,为第个虚拟机器人选择后在下虚拟机器人观测到的条件观测概率,为折扣系数。
进一步地,在所述的步骤3中,虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
其中,分别为时刻和时刻的***状态,***状态由以下全局俯视图组成:(1)全局环境图,(2)各个虚拟机器人的状态图;分别为时刻和时刻的虚拟机器人观测,虚拟机器人观测由以下局部俯视图组成:(1)局部环境图,(2)虚拟机器人自身状态与观测到的其它虚拟机器人状态图,(3)由虚拟机器人到各个目标的最短路径图;时刻虚拟机器人集群选择的联合动作集;时刻获得的奖励;为起始时刻,为序列长度;
将所获得的轨迹信息储存在经验回放缓存中。
进一步地,在所述的步骤4中,特征提取网络、值估计网络和值分解网络的搭建如下:
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取***状态特征,输入为时刻的***状态,输出为时刻的***状态特征图;其二用于提取虚拟机器人观测特征,输入为时刻第个虚拟机器人的观测,输出为时刻第个虚拟机器人的观测特征图
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为的第个虚拟机器人的观测特征图序列,输出为序列长度为的值估计网络对第个虚拟机器人的状态价值函数的估计值序列,其中,时刻第个虚拟机器人的估计值且大小与相等的图,为起始时刻,
值分解网络使用多头注意力机制估计全局状态价值,其输入为时刻的***状态特征图时刻的虚拟机器人集群的观测特征图时刻的联合动作集对应的估计值集合时刻虚拟机器人集群的观测,时刻第个虚拟机器人选择的动作,输出为时刻的全局状态价值函数的估计值
进一步地,所述步骤5具体包括:
步骤501、对特征提取网络及分别对应的目标网络、值估计网络及其目标网络和值分解网络及其目标网络进行参数初始化,并确定每次训练的批量大小、序列长度、目标网络更新时间和总体训练时长
步骤502、随机初始化场景环境,获取时刻的***状态和虚拟机器人观测,由值估计网络生成时刻第个虚拟机器人的估计值,然后选取每个虚拟机器人的估计值最大值在动作空间中所对应的动作的集合,作为采取的时刻虚拟机器人集群选择的联合动作集,与环境交互后得到时刻的奖励时刻的***状态和虚拟机器人的观测,重复步骤502直到得到个序列长度为的序列,并储存在经验回放缓存中;
步骤503、在经验回放缓存中随机采样批量大小为的序列,通过特征提取网络提取出***状态特征图序列和虚拟机器人的观测特征图序列时刻的***状态,时刻第个虚拟机器人的观测,为起始时刻;
步骤504、将虚拟机器人的观测特征图序列输入值估计网络,计算出估计值序列,其中,时刻第个虚拟机器人的估计值,为***状态,为第个虚拟机器人的动作序列与观测序列组成的动作观测历史,其表达形式为,表示了第个虚拟机器人在时刻采取了动作后,获取到时刻的观测,以此类推直到虚拟机器人在时刻采取了动作后,获取到时刻的观测
步骤505、将时刻的虚拟机器人集群的估计值和***状态特征图输入值分解网络,计算时刻的全局估计值其中,为与时刻的***状态特征相关的常数,为多头注意力机制的头数,为多头注意力机制中来自不同头部的值分配权重,为值分解网络对第个虚拟机器人的值估计网络进行分解时第阶的系数,均由生成,其中,阶的微元;
步骤506、计算损失函数:
其中,为批量大小,为特征提取网络、值估计网络及值分解网络组成的整体函数,为网络参数,为目标网络参数,为折扣系数,为第条序列中时刻与时刻虚拟机器人集群选择的联合动作集,为第条序列中时刻与时刻的***状态,为第条序列中时刻与时刻为虚拟机器人集群的动作观测历史;
步骤507、进行梯度下降,根据损失函数计算的值调整更新网络参数,当训练步长到达的整数倍时,将目标网络的参数与当前网络同步;
步骤508、重复步骤502至步骤507,直到训练步长到达总体训练时长
进一步地,在所述的步骤6中,虚拟目标场景包括探索与搜寻场景,虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。
一种基于多智能体深度强化学习的多机探寻***,包括:
仿真平台搭建模块,用于搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
建模模块,用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
探寻任务获取模块,用于获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
特征提取模块,用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
优化模块,用于基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳参数;
部署模块,用于在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
一种基于多智能体深度强化学习的多机探寻设备,其特征在于:包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行计算机程序时,执行上述任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。
一种计算机存储介质,其特征在于:所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项基于多智能体深度强化学习的多机探寻方法的步骤。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明提供的一种基于多智能体深度强化学习的多机探寻方法及***,关注虚拟机器人集群行为,多智能体深度强化学习可以在训练时获取全局的信息进行集中式学习,使得虚拟机器人可以学习到集体行为而非个体行为,且在部署时分布式执行,使得部署后的计算负担较传统方法相差不多,但工作效率大大提升,且不容易出现目标冲突、互相干扰等问题。
(2)本发明提供的一种基于多智能体深度强化学习的多机探寻方法及***,值分解网络使用多头注意力机制估计全局状态价值,加入了多头注意力机制后,本发明虚拟机器人集群面对大决策空间也能取得很好的效果,且适用于更复杂的场景。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分。本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明基于多智能体深度强化学习的多机探寻方法的流程图;
图2为本发明基于多智能体深度强化学习的多机探寻***的示意图;
图3为本发明基于多智能体深度强化学习的多机探寻场景的示意图。
其中,1、虚拟起重机器人;2、目标物体;3、目标区域;4、边界。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供一种基于多智能体深度强化学习的多机探寻方法,如图1所示,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
本发明提供的一种基于多智能体深度强化学习的多机探寻方法,关注机器人集群行为,多智能体深度强化学习可以在训练时获取全局的信息进行集中式学习,使得虚拟机器人可以学习到集体行为而非个体行为,且在部署时分布式执行,使得部署后的计算负担较传统方法相差不多,但工作效率大大提升,且不容易出现目标冲突、互相干扰等问题。
本发明提供的一种基于多智能体深度强化学习的多机探寻方法,值分解网络使用多头注意力机制估计全局状态价值,加入了多头注意力机制后,本发明虚拟机器人集群面对大决策空间也能取得很好的效果,且适用于更复杂的场景。
在步骤2中,由于机器人集群探寻任务属于多智能体决策问题,其特点是各个智能体只能获取局部观测信息,而奖励信号是全局共享的,因此本发明采用分布式部分可观测马尔可夫决策过程对任务进行建模,能够客观、准确地描述真实环境与虚拟机器人集群的状态,便于实现仿真到实际的迁移。
在步骤3中,将轨迹信息储存在经验回放缓存中,并在训练时随机抽取历史信息,可以大大提高样本效率,节省计算资源,并且可以消除采样数据之间的相关性,减小方差。
在步骤4中,由于***状态与虚拟机器人观测由图的形式进行表示,使用图像特征提取网络可以有效地抽取特征,获得向量表示,值估计网络可以估计每个虚拟机器人可选取的所有动作的价值,并从中选取价值最高的动作作为最优解,是完成任务的关键,值分解网络对每个虚拟机器人选取动作的价值进行评估计算出加权和,解决了虚拟机器人观测的局限性,能站在全局的角度更好地学习到全局最优策略,同时消除了环境不稳定性。
本发明中,在所述的步骤2中,机器人集群探寻任务的分布式部分可观测马尔可夫决策过程模型为:
其中,为虚拟机器人个数,为状态空间,为动作空间,时刻第个虚拟机器人选择的动作,时刻虚拟机器人集群选择的联合动作集,时刻的***状态,时刻的***状态,下选择后转移到的状态转移概率函数,下选择的奖励函数,为观测空间,为第个虚拟机器人的观测,为第个虚拟机器人选择后在下虚拟机器人观测到的条件观测概率,为折扣系数。
本发明中,在所述的步骤3中,虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
其中,分别为时刻和时刻的***状态,***状态由以下全局俯视图组成:(1)全局环境图,(2)各个虚拟机器人的状态图;分别为时刻和时刻的虚拟机器人观测,虚拟机器人观测由以下局部俯视图组成:(1)局部环境图,(2)虚拟机器人自身状态与观测到的其它虚拟机器人状态图,(3)由虚拟机器人到各个目标的最短路径图;时刻虚拟机器人集群选择的联合动作集;时刻获得的奖励;为起始时刻,为序列长度;
将所获得的轨迹信息储存在经验回放缓存中。
本发明中,在所述的步骤4中,特征提取网络、值估计网络和值分解网络的搭建如下:
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取***状态特征,输入为时刻的***状态,输出为时刻的***状态特征图;其二用于提取虚拟机器人观测特征,输入为时刻第个虚拟机器人的观测,输出为时刻第个虚拟机器人的观测特征图
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为的第个虚拟机器人的观测特征图序列,输出为序列长度为的值估计网络对第个虚拟机器人的状态价值函数的估计值序列,其中,时刻第个虚拟机器人的估计值且大小与相等的图,为起始时刻,
值分解网络使用多头注意力机制估计全局状态价值,其输入为时刻的***状态特征图时刻的虚拟机器人集群的观测特征图时刻的联合动作集对应的估计值集合时刻虚拟机器人集群的观测,时刻第个虚拟机器人选择的动作,输出为时刻的全局状态价值函数的估计值
本发明中,所述步骤5具体包括:
步骤501、对特征提取网络及分别对应的目标网络、值估计网络及其目标网络和值分解网络及其目标网络进行参数初始化,并确定每次训练的批量大小、序列长度、目标网络更新时间和总体训练时长
步骤502、随机初始化场景环境,获取时刻的***状态和虚拟机器人观测,由值估计网络生成时刻第个虚拟机器人的估计值,然后选取每个虚拟机器人的估计值最大值在动作空间中所对应的动作的集合,作为采取的时刻虚拟机器人集群选择的联合动作集,与环境交互后得到时刻的奖励时刻的***状态和虚拟机器人的观测,重复步骤502直到得到个序列长度为的序列,并储存在经验回放缓存中;
步骤503、在经验回放缓存中随机采样批量大小为的序列,通过特征提取网络提取出***状态特征图序列和虚拟机器人的观测特征图序列时刻的***状态,时刻第个虚拟机器人的观测,为起始时刻;
步骤504、将虚拟机器人的观测特征图序列输入值估计网络,计算出估计值序列,其中,时刻第个虚拟机器人的估计值,为***状态,为第个虚拟机器人的动作序列与观测序列组成的动作观测历史,其表达形式为,表示了第个虚拟机器人在时刻采取了动作后,获取到时刻的观测,以此类推直到虚拟机器人在时刻采取了动作后,获取到时刻的观测
步骤505、将时刻的虚拟机器人集群的估计值和***状态特征图输入值分解网络,计算时刻的全局估计值其中,为与时刻的***状态特征相关的常数,为多头注意力机制的头数,为多头注意力机制中来自不同头部的值分配权重,为值分解网络对第个虚拟机器人的值估计网络进行分解时第阶的系数,均由生成,其中,阶的微元;
步骤506、计算损失函数:
其中,为批量大小,为特征提取网络、值估计网络及值分解网络组成的整体函数,为网络参数,为目标网络参数,为折扣系数,为第条序列中时刻与时刻虚拟机器人集群选择的联合动作集,为第条序列中时刻与时刻的***状态,为第条序列中时刻与时刻为虚拟机器人集群的动作观测历史;
步骤507、进行梯度下降,根据损失函数计算的值调整更新网络参数,当训练步长到达的整数倍时,将目标网络的参数与当前网络同步;
步骤508、重复步骤502至步骤507,直到训练步长到达总体训练时长
在所述的步骤6中,虚拟目标场景包括探索与搜寻场景,虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。
综上所述,本发明使用多头注意力机制学习全局状态价值函数,在解决复杂的可分解问题时有着更好的性能,在虚拟机器人动作空间大、场景复杂的情况下表现更好;
本发明改进后的学习方法能适应输入为向量或图像、元组或序列等不同情况,泛化能力强,适应范围广,且收敛速度更快,效果更好。
在本发明的一个实施例中,如图3所示,在机器人集群仿真平台中搭建了探寻的虚拟目标场景,放置了4个虚拟起重机器人1和8个目标物体2,设置了虚拟目标场景的边界4使虚拟机器人能在固定区域内运动,确定了目标区域3为虚拟机器人将目标物体2送至的区域,并且在虚拟目标场景中设置了障碍物,以此模拟虚拟机器人集群探寻物体并送到指定位置。根据本发明提供的基于多智能体深度强化学习的多机探寻方法,4个虚拟起重机器人1组成的虚拟机器人集群根据神经网络输出的动作与环境进行交互,获取序列形式的经验储存在经验回放缓存中,在训练时取出对网络参数进行迭代优化,使4个虚拟起重机器人1组成的虚拟机器人集群完成搜寻任务的效率不断提升。训练完成后,将训练好的神经网络部署在真实目标场景的4个真实起重机器人上,使得真实目标场景的4个真实起重机器人可以在相似的、有障碍物的、物体可识别的真实场景中探寻物体并送到指定位置,实现由仿真环境向真实环境的迁移,并通过搭建多种不同虚拟机器人集群、不同物体、不同障碍物的虚拟目标场景使得虚拟机器人集群可以面对不同真实目标场景都能很好完成任务,如家庭服务、火场救援等,具有一定的泛化能力。
本发明还提供一种基于多智能体深度强化学习的多机探寻***,如图2所示,包括:
仿真平台搭建模块,用于搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
建模模块,用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
探寻任务获取模块,用于获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
特征提取模块,用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
优化模块,用于基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳参数;
部署模块,用于在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
一种基于多智能体深度强化学习的多机探寻设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行计算机程序时,执行上述任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。
本发明实施例中的存储器用于存储各种类型的数据以支持基于多智能体深度强化学习的多机探寻设备的操作。这些数据的示例包括:用于在基于多智能体深度强化学习的多机探寻设备上操作的任何计算机程序。
本发明实施例揭示的基于多智能体深度强化学习的多机探寻方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,基于多智能体深度强化学习的多机探寻方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP,Digital SignalProcessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成本发明实施例提供的基于多智能体深度强化学习的多机探寻方法的步骤。
在示例性实施例中,基于多智能体深度强化学习的多机探寻设备可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable LogicDevice)、FPGA、通用处理器、控制器、微控制器(MCU,MicroController Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,RandomAccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本发明还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项基于多智能体深度强化学习的多机探寻方法的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种基于多智能体深度强化学习的多机探寻方法,其特征在于,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取***状态特征,输入为时刻的***状态,输出为时刻的***状态特征图;其二用于提取虚拟机器人观测特征,输入为时刻第个虚拟机器人的观测,输出为时刻第个虚拟机器人的观测特征图
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为的第个虚拟机器人的观测特征图序列,输出为序列长度为的值估计网络对第个虚拟机器人的状态价值函数的估计值序列,其中,时刻第个虚拟机器人的估计值且大小与相等的图,为起始时刻,
值分解网络使用多头注意力机制估计全局状态价值,其输入为时刻的***状态特征图时刻的虚拟机器人集群的观测特征图时刻的联合动作集对应的估计值集合时刻虚拟机器人集群的观测,时刻第个虚拟机器人选择的动作,输出为时刻的全局状态价值函数的估计值
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤501、对特征提取网络及分别对应的目标网络、值估计网络及其目标网络和值分解网络及其目标网络进行参数初始化,并确定每次训练的批量大小、序列长度、目标网络更新时间和总体训练时长
步骤502、随机初始化场景环境,获取时刻的***状态和虚拟机器人观测,由值估计网络生成时刻第个虚拟机器人的估计值,然后选取每个虚拟机器人的估计值最大值在动作空间中所对应的动作的集合,作为采取的时刻虚拟机器人集群选择的联合动作集,与环境交互后得到时刻的奖励时刻的***状态和虚拟机器人的观测,重复步骤502直到得到个序列长度为的序列,并储存在经验回放缓存中;
步骤503、在经验回放缓存中随机采样批量大小为的序列,通过特征提取网络提取出***状态特征图序列和虚拟机器人的观测特征图序列时刻的***状态,时刻第个虚拟机器人的观测,为起始时刻;
步骤504、将虚拟机器人的观测特征图序列输入值估计网络,计算出估计值序列,其中,时刻第个虚拟机器人的估计值,为***状态,为第个虚拟机器人的动作序列与观测序列组成的动作观测历史,其表达形式为,表示了第个虚拟机器人在时刻采取了动作后,获取到时刻的观测,以此类推直到虚拟机器人在时刻采取了动作后,获取到时刻的观测
步骤505、将时刻的虚拟机器人集群的估计值和***状态特征图输入值分解网络,计算时刻的全局估计值其中,为与时刻的***状态特征相关的常数,为多头注意力机制的头数,为多头注意力机制中来自不同头部的值分配权重,为值分解网络对第个虚拟机器人的值估计网络进行分解时第阶的系数,均由生成,其中,阶的微元;
步骤506、计算损失函数:
其中,为批量大小,为特征提取网络、值估计网络及值分解网络组成的整体函数,为网络参数,为目标网络参数,为折扣系数,为第条序列中时刻与时刻虚拟机器人集群选择的联合动作集,为第条序列中时刻与时刻的***状态,为第条序列中时刻与时刻为虚拟机器人集群的动作观测历史;
步骤507、进行梯度下降,根据损失函数计算的值调整更新网络参数,当训练步长到达的整数倍时,将目标网络的参数与当前网络同步;
步骤508、重复步骤502至步骤507,直到训练步长到达总体训练时长
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
2.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤2中,分布式部分可观测马尔可夫决策过程为:
其中,为虚拟机器人个数,为状态空间,为动作空间,时刻第个虚拟机器人选择的动作,时刻虚拟机器人集群选择的联合动作集,时刻的***状态,时刻的***状态,下选择后转移到的状态转移概率函数,下选择的奖励函数,为观测空间,为第个虚拟机器人的观测,为第个虚拟机器人选择后在下虚拟机器人观测到的条件观测概率,为折扣系数。
3.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤3中,虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
其中,分别为时刻和时刻的***状态,***状态由以下全局俯视图组成:(1)全局环境图,(2)各个虚拟机器人的状态图;分别为时刻和时刻的虚拟机器人观测,虚拟机器人观测由以下局部俯视图组成:(1)局部环境图,(2)虚拟机器人自身状态与观测到的其它虚拟机器人状态图,(3)由虚拟机器人到各个目标的最短路径图;时刻虚拟机器人集群选择的联合动作集;时刻获得的奖励;为起始时刻,为序列长度;
将所获得的轨迹信息储存在经验回放缓存中。
4.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤6中,虚拟目标场景包括探索与搜寻场景,虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。
5.一种基于多智能体深度强化学习的多机探寻***,使用上述权利要求1-4任一项所述基于多智能体深度强化学习的多机探寻方法,其特征在于,包括:
仿真平台搭建模块,用于搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
建模模块,用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
探寻任务获取模块,用于获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
特征提取模块,用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
优化模块,用于基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳参数;
部署模块,用于在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
6.一种基于多智能体深度强化学习的多机探寻设备,其特征在于:包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行计算机程序时,执行上述权利要求1-4任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。
7.一种计算机存储介质,其特征在于:所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述权利要求1-4任一项基于多智能体深度强化学习的多机探寻方法的步骤。
CN202310044962.6A 2023-01-30 2023-01-30 一种基于多智能体深度强化学习的多机探寻方法及*** Active CN115860107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310044962.6A CN115860107B (zh) 2023-01-30 2023-01-30 一种基于多智能体深度强化学习的多机探寻方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310044962.6A CN115860107B (zh) 2023-01-30 2023-01-30 一种基于多智能体深度强化学习的多机探寻方法及***

Publications (2)

Publication Number Publication Date
CN115860107A CN115860107A (zh) 2023-03-28
CN115860107B true CN115860107B (zh) 2023-05-16

Family

ID=85657341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310044962.6A Active CN115860107B (zh) 2023-01-30 2023-01-30 一种基于多智能体深度强化学习的多机探寻方法及***

Country Status (1)

Country Link
CN (1) CN115860107B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116432690B (zh) * 2023-06-15 2023-08-18 中国人民解放军国防科技大学 基于马尔科夫的智能决策方法、装置、设备及存储介质
CN117234216B (zh) * 2023-11-10 2024-02-09 武汉大学 一种机器人深度强化学习运动规划方法及计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115167478A (zh) * 2022-08-23 2022-10-11 山东大学 基于深度强化学习的机器人无地图路径规划方法及***
CN115585813A (zh) * 2022-11-09 2023-01-10 东北大学 一种基于注意力机制的深度强化学习机器人导航方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210158162A1 (en) * 2019-11-27 2021-05-27 Google Llc Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space
CN115867918A (zh) * 2020-07-28 2023-03-28 渊慧科技有限公司 使用相对熵q学习训练动作选择***
US20220105626A1 (en) * 2020-10-05 2022-04-07 Autodesk, Inc. Techniques for force and torque-guided robotic assembly
CN113741528B (zh) * 2021-09-13 2023-05-23 中国人民解放军国防科技大学 一种面向多无人机碰撞规避的深度强化学习训练加速方法
CN114942633A (zh) * 2022-04-28 2022-08-26 华南农业大学 基于数字孪生和强化学习的多智能体协同避碰采摘方法
CN115186807A (zh) * 2022-05-19 2022-10-14 南京大学 利用乐观映射提升值分解多智能体强化学习算法性能的方法
CN115016534A (zh) * 2022-06-02 2022-09-06 之江实验室 一种基于记忆增强学习的无人机自主避障导航方法
CN114896899B (zh) * 2022-07-15 2022-10-11 中国人民解放军国防科技大学 一种基于信息交互的多智能体分散式决策方法及***
CN115373415A (zh) * 2022-07-26 2022-11-22 西安电子科技大学 一种基于深度强化学习的无人机智能导航方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115167478A (zh) * 2022-08-23 2022-10-11 山东大学 基于深度强化学习的机器人无地图路径规划方法及***
CN115585813A (zh) * 2022-11-09 2023-01-10 东北大学 一种基于注意力机制的深度强化学习机器人导航方法

Also Published As

Publication number Publication date
CN115860107A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN115860107B (zh) 一种基于多智能体深度强化学习的多机探寻方法及***
Haarnoja et al. Reinforcement learning with deep energy-based policies
Dasari et al. Robonet: Large-scale multi-robot learning
CN111203878B (zh) 一种基于视觉模仿的机器人序列任务学习方法
Zhao et al. A spatial-temporal attention model for human trajectory prediction.
CN110874578B (zh) 一种基于强化学习的无人机视角车辆识别追踪方法
Wang et al. A survey of learning‐based robot motion planning
CN112605973B (zh) 一种机器人运动技能学习方法及***
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN115829171B (zh) 一种联合时空信息和社交互动特征的行人轨迹预测方法
CN114888801B (zh) 一种基于离线策略强化学习的机械臂控制方法及***
CN113657573B (zh) 一种情景记忆引导下基于元学习的机器人技能获取方法
Hoy et al. Learning to predict pedestrian intention via variational tracking networks
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、***及存储介质
CN111352419A (zh) 基于时序差分更新经验回放缓存的路径规划方法及***
CN114161419B (zh) 一种情景记忆引导的机器人操作技能高效学习方法
CN115376103A (zh) 一种基于时空图注意力网络的行人轨迹预测方法
Ye et al. Efficient robotic object search via hiem: Hierarchical policy learning with intrinsic-extrinsic modeling
CN115265547A (zh) 一种未知环境下基于强化学习的机器人主动导航方法
CN115648204A (zh) 智能决策模型的训练方法、装置、设备以及存储介质
Jiang et al. A data-efficient goal-directed deep reinforcement learning method for robot visuomotor skill
Jiang et al. Vision-based deep reinforcement learning for UR5 robot motion control
Luo et al. Balance between efficient and effective learning: Dense2sparse reward shaping for robot manipulation with environment uncertainty
Firouznia et al. Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking
Ejaz et al. Autonomous visual navigation using deep reinforcement learning: An overview

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant