CN109635917A - 一种多智能体合作决策及训练方法 - Google Patents

一种多智能体合作决策及训练方法 Download PDF

Info

Publication number
CN109635917A
CN109635917A CN201811210985.5A CN201811210985A CN109635917A CN 109635917 A CN109635917 A CN 109635917A CN 201811210985 A CN201811210985 A CN 201811210985A CN 109635917 A CN109635917 A CN 109635917A
Authority
CN
China
Prior art keywords
intelligent body
feature vector
receptive field
decision
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811210985.5A
Other languages
English (en)
Other versions
CN109635917B (zh
Inventor
卢宗青
姜杰川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201811210985.5A priority Critical patent/CN109635917B/zh
Publication of CN109635917A publication Critical patent/CN109635917A/zh
Priority to US16/655,783 priority patent/US11461654B2/en
Application granted granted Critical
Publication of CN109635917B publication Critical patent/CN109635917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种多智能体合作决策及训练方法,包括如下步骤:S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码,编码为感受野内的特征向量;S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度,关系单元的关系卷积核将感受野内的特征向量整合为新的特征向量,迭代多次图卷积层,得到更大的感受野和更高阶的多头注意力机制的关系描述;S3:将感受野内的特征向量和图卷积层整合的新的特征向量拼接,送入价值网络,价值网络选择执行未来反馈期望最高的动作决策;S4:将智能体的局部观察集合及相关集合存储在缓冲区,在缓冲区采集样本进行训练,优化并改写损失函数。

Description

一种多智能体合作决策及训练方法
技术领域
本发明涉及深度强化学习领域,特别涉及一种多智能体合作决策及训练方法。
背景技术
深度强化学***,并逐渐被应用在自动化控制领域如自动驾驶等。在强化学习中,智能体通过观察环境状态,选择回报期望最大的动作,并接收环境给出的反馈。通过时序差分或策略梯度的方法进行训练,或者二者结合的actor-critic算法。但是当环境中存在多个智能体时,由于每个利益驱动的智能体只追求自身利益最大化,而容易忽视团队的整体利益,这使得合作策略难以实现。每一个智能体将其他智能体视为环境的一部分,由于其他智能体的策略会发生变化,这使得环境变得不稳定,给训练带来一定的困难。
目前一些多智能体算法采用集中训练分散执行的框架,如MADDPG,critic网络接收其他所有智能体的状态和动作,这样避免了环境不稳定的问题。但是另一方面这种架构需要环境中所有智能体的信息,且需要为每一个智能体训练一套决策网络,训练代价很高且难以应用到大规模分布式方法中。一些模型通过通信促进智能体之间的合作,CommNet使用连续的通信信号来解决合作情景,在每一个时间步,每个智能体的隐藏层状态经过算术计算得到平均值作为下一层神经网络的输入。BiCNet采用循环神经网络将所有智能体的决策网络和价值网络连接起来,更好的实现信息共享。通信的方法在一定程度上促进了合作,但是在真实情境中,特别是大规模多智能体环境,这些方法会受限于通信延时,带宽以及信息冗余的问题。针对大规模智能体情景,Mean Field方法提出采用周围临近智能体的平均动作作为输入,来表示其他智能体对中心智能体的影响。
图卷积网络在一些不规则甚至位于非欧空间的数据集上取得了较好的效果,如社交网络、3D点云、蛋白质分子等。利用类似卷积的操作在图结构上作回归或者分类,预测隐藏的点特征和边特征。关系网络旨在学习实体之间的关系,并通过分析实体关系预测未来的状态。
发明内容
本发明的目的是通过以下技术方案实现的。
一种多智能体合作决策及训练方法,包括如下步骤:
S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码,编码为感受野内的特征向量;
S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度,所述关系单元的关系卷积核将所述感受野内的特征向量整合为新的特征向量,迭代多次所述图卷积层,得到更大的感受野和更高阶的多头注意力机制的关系描述;
S3:将所述感受野内的特征向量和图卷积层整合的所述新的特征向量拼接,送入价值网络,所述价值网络选择执行未来反馈期望最高的动作决策;
S4:将所述智能体的局部观察集合及相关集合存储在缓冲区,在所述缓冲区采集样本进行训练,优化并改写损失函数。
具体地,在任一时刻,每个智能体获得的局部观察若为低维向量数据,则所述编码器使用多层感知器进行编码;
每个智能体获得的局部观察若为视觉图像输入,则所述编码器使用卷积神经网络进行编码。
具体地,在每一层图卷积操作中,每个智能体通过通信通道获取所述感受野内的特征向量;
将所有智能体的特征向量拼接成一个大小为N×L的特征矩阵Ft
其中N是环境中智能体的总数目,L是特征向量的长度;
对于每个智能体i构造一个大小为(K+1)×N的邻接矩阵K是感受野内智能体的数目,t为时刻;
所述邻接矩阵的第一行是智能体i的索引的独热表示,剩余的第j行是感受野内智能体j的索引的独热表示,通过点乘运算得到智能体i局部区域内的特征向量集
具体地,关系强度表示为:
其中,αij为智能体i和智能体j之间的强度关系,εi为智能体i的局部区域,包括k个临近智能体和中心智能体,τ是规模系数,hi表示智能体i的特征向量,同理,j、e代表智能体,T表示矩阵转置,Wq和Wk分别是需要学习的每个注意力头的query向量参数和key向量参数,q为query,k为key。
具体地,多头注意力机制产生的新的特征向量按照所述关系强度加权平均,并经过非线性变换函数σ得到该图层卷积的特征向量hi′
其中,Wv是需要学习的每个注意力头的value向量参数,v为value,M为注意力头的个数。
具体地,价值网络为每一个可行的动作产生一个未来反馈的期望值,以1-∈的概率执行期望值最高的动作,或者以∈的概率执行随机动作,∈表示执行概率,取值范围[0,1]。
具体地,在所述价值网络执行每一个动作后,将五元组(O,A,O′,R,C)存储在缓冲区中,O={o1,o2,…,oN}代表当前时间步智能体的局部观察集合,A={a1,a2,…,aN}代表智能体所选取的动作集合,O′={o′1,o′2,…,o′N}代表下一个时间步智能体的局部观察集合,R={r1,r2,…,rN}代表智能体得到的实时环境反馈集合,C代表智能体的局部连接结构。
具体地,采用Q-learning的时序差分学习进行训练,每次随机从所述缓冲区采样一个包含S个样本的小集合,采用反向传播的方法优化损失函数:
其中,Oi表示在智能体i感受野内的局部观察集合,O′i表示在智能体i感受野内下一个时间步的局部观察集合,a′i表示智能体i的下一个时间步的动作,γ是折扣因子,θ为当前网络参数,θ′是目标网络参数;
采用如下规则更新所述目标网络参数:
θ′=βθ+(1-β)θ′
β为软更新超参。
具体地,在所述损失函数中加入一项正则项,连续两步较高阶关系表示的KL散度,所述损失函数改写为:
其中,DKL(||)为KL散度计算函数,R(Oi;θ)为智能体i在某一卷积层的关系表示的注意力参数分布。
本发明的优点在于:在本发明中,图卷积层利用多头注意力机制的关系单元整合感受野内部的特征向量,随着卷积层数的增加,关系卷积核可以有效地抽取更高阶的关系,有利于复杂合作现象的出现。所有模块的权重都是共享的,这将显著地减少参数数目、加速训练过程,并且在执行过程中不受智能体数目的限制,智能体之间仅需要有限带宽的通信以获取临近智能体的信息。该方法有利于部署在大规模分布式决策方法中。
附图说明
通过阅读下文具体实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出具体实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的决策及训练方法流程图;
附图2示出了根据本发明实施方式的决策流程图;
附图3示出了根据本发明实施方式的整合特征向量的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本发明的实施方式,提出了一种多智能体合作决策及训练方法,基于图卷积模型关系机制的多智能体强化学习框架(DGN),该框架能更好的促进智能体之间的合作行为。
在该方法中,将多智能体环境视为一个图,智能体作为图中的节点,智能体在环境中获得的局部观察作为节点的属性。每个节点与周围的K个节点有边相连。这主要考虑到每个智能体的行为主要影响到与之临近的其他智能体。并且在实际的大规模多智能体环境中,考虑所有智能体的影响会带来很高的带宽和计算复杂度成本,大量冗余的信息甚至会干扰决策。多智能体环境图位于不规则的非欧空间,并且随着环境的变化、智能体数目和位置的改变,潜在的关系图结构不断的发生改变,自适应的图卷积框架非常适合这种数据。
在一个局部观察的多智能体环境中,在每一个时间步智能体接收一个局部观察作为节点的属性,根据观察做出决策并接收环境给出的反馈。方法由三种模块构成:编码模块、图卷积层模块和价值网络模块。智能体的局部观察被编码器编码为特征向量。如果观察是低维数据则编码器采用多层感知器,如果是原始图像输入则采用卷积神经网络。卷积层整合局部区域内的特征向量,包括中心智能体和临近的K个智能体,并生成新的特征向量。通过卷积层的堆叠,智能体的感受野逐渐增大,智能体可以获取更加全局的视角和更广泛的合作范围。将每一个卷积层产生的特征向量对最终的决策有独特的贡献,将其全联接,送入最后的价值网络。价值网络选取未来反馈期望最高的动作执行。
解决多智能体的关键在于衡量智能体之间的影响,在之前的方法中,MADDPG直接训练了一个中心化的接收所有其他智能体观察和动作的critic网络来评价这种影响。通信类算法如CommNet等则通过信息共享来传达观察信息和策略意图。Mean field方法则采用临近智能体策略的平均值来估计这种影响。在该框架中,采用关系模块作为图卷积的卷积核来整合感受野内部的特征向量。关系单元满足两个重要的性质:1、关系单元能够较为准确地描述实体之间的二元关系,这一点在许多研究中已被证实。2、关系单元的结果与输入特征向量的顺序无关。在该方法中,采用多头注意力机制的关系单元计算智能体之间的关系。随着图卷积层数的增加,关系卷积核可以有效地抽取更高阶的关系,有利于复杂合作现象的出现。
在上述架构中,所有模块的权重都是共享的,这将显著地减少参数数目,加速训练过程,并且在执行过程中不受智能体数目的限制,智能体之间仅需要有限带宽的通信以获取临近K个智能体的信息。该方法有利于部署在大规模分布式决策方法中。
一种多智能体合作决策及训练方法,如图1所示,包括:包括如下步骤:S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码,编码为感受野内的特征向量;S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度,所述关系单元的关系卷积核将所述感受野内的特征向量整合为新的特征向量,迭代多次所述图卷积层,得到更大的感受野和更高阶的多头注意力机制的关系描述;S3:将所述感受野内的特征向量和图卷积层整合的所述新的特征向量拼接,送入价值网络,所述价值网络选择执行未来反馈期望最高的动作决策;S4:将所述智能体的局部观察集合及相关集合存储在缓冲区,在所述缓冲区采集样本进行训练,优化并改写损失函数。
其中,编码器—图卷积层—价值网络的整体决策流程如图2所示。
图卷积层在每一层图卷积操作中,每个智能体通过通信通道获取所述感受野内的特征向量;将所有智能体的特征向量拼接成一个大小为N×L的特征矩阵Ft,其中N是环境中智能体的总数目,L是特征向量的长度;对于每个智能体i构造一个大小为(K+1)×N的邻接矩阵K是感受野内智能体的数目,t为时刻;邻接矩阵的第一行是智能体i的索引的独热表示,剩余的第j行是感受野内第j个智能体的索引的独热表示,通过点乘运算得到智能体i局部区域内的特征向量集
利用注意力机制的关系单元计算智能体之间的关系强度表示为:
其中,αij为智能体i和智能体j之间的强度关系,εi为智能体i的局部区域,包括k个临近智能体和中心智能体,τ是规模系数,hi表示智能体i的特征向量,同理,j、e代表智能体,αij表示智能体之间的关系强度,T表示矩阵转置,Wq和Wk分别是需要学习的每个注意力头的query向量参数和key向量参数,q为query,k为key。
多头注意力机制产生的新的特征向量按照所述关系强度加权平均,并经过非线性变换函数σ(一层以Relu为激活函数的MLP多层感知器)得到该层卷积的特征向量;
其中,Wv是需要学习的每个注意力头的value向量参数,v为value,M为注意力头的个数。
价值网络为每一个可行的动作产生一个未来反馈的期望值,以1-∈的概率执行期望值最高的动作,或者以∈的概率执行随机动作。∈表示探索概率,取值范围[0,1]。
在所述价值网络执行每一个动作后,将五元组(O,A,O′,R,C)存储在缓冲区中,O={o1,o2,…,oN}代表当前时间步智能体的局部观察集合,A={a1,a2,…,aN}代表智能体所选取的动作集合,O′={o′1,o′2,…,o′N}代表下一个时间步智能体的局部观察集合,R={r1,r2,…,rN}代表智能体得到的实时环境反馈集合,C代表智能体的局部连接结构。
采用Q-learning的时序差分学习进行训练,每次随机从所述缓冲区采样一个包含S个样本的小集合,采用反向传播的方法优化损失函数:
Oi表示在智能体i感受野内的局部观察集合,O′i表示在智能体i感受野内下一个时间步的局部观察集合,a′i表示智能体i的下一个时间步的动作,γ是折扣因子,θ为当前网络参数,θ′是目标网络参数;
采用如下规则更新所述目标网络参数:
θ′=βθ+(1-β)θ′
β为软更新超参,为了保证训练的稳定性,智能体之间的连接结构在训练过程中连续的两步内保持不变。
在所述损失函数中加入一项正则项,连续两步较高阶关系表示的KL散度,所述损失函数改写为:
其中,DKL(||)为KL散度计算函数,R(Oi;θ)为智能体i在某一卷积层的关系表示的注意力参数分布。
图卷积层利用多头注意力机制的关系单元整合感受野内部的特征向量,随着卷积层数的增加,关系卷积核可以有效地抽取更高阶的关系,有利于复杂合作现象的出现。所有步骤的权重都是共享的,这将显著地减少参数数目、加速训练过程,并且在执行过程中不受智能体数目的限制,智能体之间仅需要有限带宽的通信以获取临近智能体的信息。该方法有利于部署在大规模分布式决策方法中。
以上,仅为本发明示例性的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种多智能体合作决策及训练方法,其特征在于,包括如下步骤:
S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码,编码为感受野内的特征向量;
S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度,所述关系单元的关系卷积核将所述感受野内的特征向量整合为新的特征向量,迭代多次所述图卷积层,得到更大的感受野和更高阶的多头注意力机制的关系描述;
S3:将所述感受野内的特征向量和图卷积层整合的所述新的特征向量拼接,送入价值网络,所述价值网络选择执行未来反馈期望最高的动作决策;
S4:将所述智能体的局部观察集合及相关集合存储在缓冲区,在所述缓冲区采集样本进行训练,优化并改写损失函数。
2.如权利要求1所述的决策及训练方法,其特征在于,在任一时刻,每个智能体获得的局部观察若为低维向量数据,则所述编码器使用多层感知器进行编码;
每个智能体获得的局部观察若为视觉图像输入,则所述编码器使用卷积神经网络进行编码。
3.如权利要求1所述的决策及训练方法,其特征在于,在每一层图卷积操作中,每个智能体通过通信通道获取所述感受野内的特征向量;
将所有智能体的特征向量拼接成一个大小为N×L的特征矩阵Ft
其中N是环境中智能体的总数目,L是特征向量的长度;
对于每个智能体i构造一个大小为(K+1)×N的邻接矩阵K是感受野内智能体的数目,t为时刻;
所述邻接矩阵的第一行是智能体i的索引的独热表示,剩余的第j行是感受野内智能体j的索引的独热表示,通过点乘运算得到智能体i局部区域内的特征向量集
4.如权利要求3所述的决策及训练方法,其特征在于,所述关系强度表示为:
其中,αij为智能体i和智能体j之间的强度关系,εi为智能体i的局部区域,包括k个临近智能体和中心智能体,τ是规模系数,hi表示智能体i的特征向量,同理,j、e代表智能体,T表示矩阵转置,Wq和Wk分别是需要学习的每个注意力头的query向量参数和key向量参数,q为query,k为key。
5.如权利要求4所述的决策及训练方法,其特征在于,所述多头注意力机制产生的新的特征向量按照所述关系强度加权平均,并经过非线性变换函数σ得到该图层卷积的特征向量hi′
其中,Wv是需要学习的每个注意力头的value向量参数,v为value,M为注意力头的个数。
6.如权利要求5所述的决策及训练方法,其特征在于,所述价值网络为每一个可行的动作产生一个未来反馈的期望值,以1-∈的概率执行期望值最高的动作,或者以∈的概率执行随机动作,表示执行概率,取值范围[0,1]。
7.如权利要求6所述的决策及训练方法,其特征在于,在所述价值网络执行每一个动作后,将五元组(O,A,O′,R,C)存储在缓冲区中,O={o1,o2,…,oN}代表当前时间步智能体的局部观察集合,A={a1,a2,…,aN}代表智能体所选取的动作集合,O′={o′1,o′2,…,o′N}代表下一个时间步智能体的局部观察集合,R={r1,r2,…,rN}代表智能体得到的实时环境反馈集合,C代表智能体的局部连接结构。
8.如权利要求7所述的决策及训练方法,其特征在于,采用Q-learning的时序差分学习进行训练,每次随机从所述缓冲区采样一个包含S个样本的小集合,采用反向传播的方法优化损失函数:
其中,Oi表示在智能体i感受野内的局部观察集合,O′i表示在智能体i感受野内下一个时间步的局部观察集合,a′i表示智能体i的下一个时间步的动作,γ是折扣因子,θ为当前网络参数,θ′是目标网络参数;
采用如下规则更新所述目标网络参数:
θ′=βθ+(1-β)θ′
β为软更新超参。
9.如权利要求8所述的决策及训练方法,其特征在于,在所述损失函数中加入一项正则项,连续两步较高阶关系表示的KL散度,所述损失函数改写为:
其中,DKL(||)为KL散度计算函数,R(Oi;θ)为智能体i在某一卷积层的关系表示的注意力参数分布。
CN201811210985.5A 2018-10-17 2018-10-17 一种多智能体合作决策及训练方法 Active CN109635917B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811210985.5A CN109635917B (zh) 2018-10-17 2018-10-17 一种多智能体合作决策及训练方法
US16/655,783 US11461654B2 (en) 2018-10-17 2019-10-17 Multi-agent cooperation decision-making and training method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811210985.5A CN109635917B (zh) 2018-10-17 2018-10-17 一种多智能体合作决策及训练方法

Publications (2)

Publication Number Publication Date
CN109635917A true CN109635917A (zh) 2019-04-16
CN109635917B CN109635917B (zh) 2020-08-25

Family

ID=66066467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811210985.5A Active CN109635917B (zh) 2018-10-17 2018-10-17 一种多智能体合作决策及训练方法

Country Status (2)

Country Link
US (1) US11461654B2 (zh)
CN (1) CN109635917B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363568A (zh) * 2019-06-06 2019-10-22 上海交通大学 融合文本多主题信息的股票价格预测方法、***及介质
CN110353675A (zh) * 2019-08-14 2019-10-22 东南大学 基于图片生成的脑电信号情感识别方法及装置
CN110390340A (zh) * 2019-07-18 2019-10-29 暗物智能科技(广州)有限公司 特征编码模型、视觉关系检测模型的训练方法及检测方法
CN110427006A (zh) * 2019-08-22 2019-11-08 齐鲁工业大学 一种用于流程工业的多智能体协同控制***及方法
CN110554604A (zh) * 2019-08-08 2019-12-10 中国地质大学(武汉) 一种多智能体同步控制方法、设备及存储设备
CN110705310A (zh) * 2019-09-20 2020-01-17 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110811558A (zh) * 2019-11-18 2020-02-21 郑州大学 基于深度学习的睡眠觉醒分析方法
CN111047014A (zh) * 2019-12-11 2020-04-21 中国航空工业集团公司沈阳飞机设计研究所 一种多智能体空中对抗分布式采样训练方法及设备
CN111178496A (zh) * 2019-11-30 2020-05-19 浙江大学 多代理强化学习合作任务场景下的代理间交换知识的方法
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN112087749A (zh) * 2020-08-27 2020-12-15 华北电力大学(保定) 基于强化学习实现多***的合作主动窃听方法
CN112749785A (zh) * 2019-10-29 2021-05-04 株式会社东芝 信息处理装置、信息处理方法以及程序
CN113254872A (zh) * 2021-05-31 2021-08-13 大连理工大学 一种基于智能体通信机制的复杂游戏场景下的策略选择方法
CN113392935A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法
CN113609548A (zh) * 2021-07-05 2021-11-05 中铁工程设计咨询集团有限公司 一种桥梁布跨方法、装置、设备及可读存储介质
CN114896899A (zh) * 2022-07-15 2022-08-12 中国人民解放军国防科技大学 一种基于信息交互的多智能体分散式决策方法及***

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11657266B2 (en) * 2018-11-16 2023-05-23 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
JP2021039426A (ja) * 2019-08-30 2021-03-11 株式会社東芝 推定装置、推定方法及びプログラム
CA3107657A1 (en) * 2020-01-31 2021-07-31 Royal Bank Of Canada System and method for machine learning architecture with adaptive importance with adaptive importance sampling with normalizing flows
CN111709275B (zh) * 2020-04-28 2024-02-06 北京工业大学 一种用于Affordance推理的深度网络构建方法
CN111814988B (zh) * 2020-07-07 2023-06-30 北京航空航天大学 一种多智能体协作环境强化学习算法的测试方法
CN111860649A (zh) * 2020-07-21 2020-10-30 赵佳 基于多智能体强化学习的动作集合输出方法及***
CN111966865B (zh) * 2020-07-21 2023-09-22 西北大学 利用基于查表子网络的空域图卷积层进行特征提取的方法
CN111899728B (zh) * 2020-07-23 2024-05-28 海信电子科技(武汉)有限公司 智能语音助手决策策略的训练方法及装置
CN112232478B (zh) * 2020-09-03 2023-11-17 天津(滨海)人工智能军民融合创新中心 一种基于分层注意力机制的多智能体强化学习方法及***
CN112115378B (zh) * 2020-09-16 2022-04-19 长沙理工大学 基于图卷积协同过滤的推荐预测***以及推荐预测方法
US11948079B2 (en) * 2020-10-19 2024-04-02 Tsinghua University Multi-agent coordination method and apparatus
CN112241814B (zh) * 2020-10-20 2022-12-02 河南大学 一种基于强化时空图神经网络的交通预测方法
CN112465301B (zh) * 2020-11-06 2022-12-13 山东大学 一种基于差分隐私机制的边缘智能电网协作决策方法
CN112733764A (zh) * 2021-01-15 2021-04-30 天津大学 一种基于多模态识别视频情感信息的方法
CN112784913B (zh) * 2021-01-29 2023-07-25 湖南大学 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
CN112884129B (zh) * 2021-03-10 2023-07-18 中国人民解放军军事科学院国防科技创新研究院 一种基于示教数据的多步规则提取方法、设备及存储介质
CN112966641B (zh) * 2021-03-23 2023-06-20 中国电子科技集团公司电子科学研究院 一种对多传感器多目标的智能决策方法及存储介质
CN113095498B (zh) * 2021-03-24 2022-11-18 北京大学 基于散度的多智能体合作学习方法、装置、设备及介质
CN113301134B (zh) * 2021-05-14 2022-01-07 山东大学 一种适用于边缘物联代理装置的容错型协作决策的方法
CN113435475B (zh) * 2021-05-27 2023-01-20 中国科学院软件研究所 一种多智能体通信协作方法
CN113313267B (zh) * 2021-06-28 2023-12-08 浙江大学 一种基于值分解和注意力机制的多智能体强化学习方法
CN113641192B (zh) * 2021-07-06 2023-07-18 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN113642233B (zh) * 2021-07-29 2023-12-29 太原理工大学 一种通信机制优化的群体智能协同方法
CN113625561B (zh) * 2021-07-29 2023-09-26 浙江大学 一种基于强化学习的域协调多智能体***协作控制方法
CN113743468B (zh) * 2021-08-03 2023-10-10 武汉理工大学 基于多智能体强化学习的协同驾驶信息传播方法及***
CN113625757B (zh) * 2021-08-12 2023-10-24 中国电子科技集团公司第二十八研究所 一种基于强化学习和注意力机制的无人机群调度方法
CN113592079B (zh) * 2021-08-13 2024-06-28 大连大学 一种面向大规模任务空间的协同多智能体通信方法
CN113592101B (zh) * 2021-08-13 2023-10-17 大连大学 一种基于深度强化学习的多智能体协作模型
CN113792844B (zh) * 2021-08-19 2023-07-25 中国人民解放军军事科学院国防科技创新研究院 基于深度自动编码和特征融合的智能体蜂拥行为控制方法
CN113515130B (zh) * 2021-08-26 2024-02-02 鲁东大学 用于智能体路径规划的方法和存储介质
CN113848703B (zh) * 2021-08-28 2023-12-08 同济大学 一种多智能体***状态估计方法
CN113726894B (zh) * 2021-09-01 2023-05-05 福建师范大学 一种基于深度强化学习的多车应用计算卸载方法及终端
CN113848718B (zh) * 2021-09-28 2023-10-31 安徽大学 基于线性算子理论的固定时间的异构分群同步控制算法
CN113609311A (zh) * 2021-09-30 2021-11-05 航天宏康智能科技(北京)有限公司 推荐项目的方法和装置
CN114332474A (zh) * 2021-11-25 2022-04-12 中国计量大学 一种飞机发动机关键部位维护时间预测方法
DE102022211767A1 (de) 2021-11-30 2023-06-01 Robert Bosch Engineering And Business Solutions Private Limited Ein System zur kollaborativen Ausführung einer Aufgabe und ein Verfahren dafür
CN114386620B (zh) * 2021-12-29 2024-07-09 北京工业大学 一种基于动作约束的离线多智能体强化学习方法
CN114243799B (zh) * 2022-01-05 2023-11-07 国网浙江省电力有限公司宁波供电公司 基于分布式电源的深度强化学习配电网故障恢复方法
CN114580937B (zh) * 2022-03-10 2023-04-28 暨南大学 基于强化学习和注意力机制的智能作业调度***
CN114741886B (zh) * 2022-04-18 2022-11-22 中国人民解放军军事科学院战略评估咨询中心 一种基于贡献度评价的无人机集群多任务训练方法及***
CN115047907B (zh) * 2022-06-10 2024-05-07 中国电子科技集团公司第二十八研究所 一种基于多智能体ppo算法的空中同构编队指挥方法
CN115086374A (zh) * 2022-06-14 2022-09-20 河南职业技术学院 一种场景复杂度自适应的多智能体分层协同方法
CN115018017B (zh) * 2022-08-03 2022-10-28 中国科学院自动化研究所 基于集成学习的多智能体信用分配方法、***、设备
CN116592883B (zh) * 2023-04-25 2024-04-30 三峡大学 一种基于注意力和循环ppo实现的导航决策方法
CN116361662B (zh) * 2023-05-31 2023-08-15 中诚华隆计算机技术有限公司 机器学习模型的训练方法及量子网络设备性能预测方法
CN117217100B (zh) * 2023-11-08 2024-01-30 中国人民解放军63963部队 一种基于强化学习的某分队数智化建模方法及仿真***

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463191A (zh) * 2014-10-30 2015-03-25 华南理工大学 一种基于注意机制的机器人视觉处理方法
US20150193583A1 (en) * 2014-01-06 2015-07-09 Cerner Innovation, Inc. Decision Support From Disparate Clinical Sources
CN105225232A (zh) * 2015-09-11 2016-01-06 西安科技大学 一种基于视觉注意机制的彩色着舰合作目标检测方法
CN105700555A (zh) * 2016-03-14 2016-06-22 北京航空航天大学 一种基于势博弈的多无人机协同搜索方法
CN105898288A (zh) * 2016-05-30 2016-08-24 上海交通大学 共享注意的协同视觉搜索***及方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
WO2018017767A1 (en) * 2016-07-19 2018-01-25 Akili Interactive Labs, Inc. Platforms to implement signal detection metrics in adaptive response-deadline procedures
US20180060301A1 (en) * 2016-08-31 2018-03-01 Microsoft Technology Licensing, Llc End-to-end learning of dialogue agents for information access
WO2018089221A1 (en) * 2016-11-09 2018-05-17 Microsoft Technology Licensing, Llc Neural network-based action detection
CN108197698A (zh) * 2017-12-13 2018-06-22 中国科学院自动化研究所 基于多模态融合的多脑区协同自主决策方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
US20180285678A1 (en) * 2017-04-04 2018-10-04 Hailo Technologies Ltd. Artificial Neural Network Incorporating Emphasis And Focus Techniques
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3896581A1 (en) * 2020-04-14 2021-10-20 Naver Corporation Learning to rank with cross-modal graph convolutions
US11455374B2 (en) * 2020-06-08 2022-09-27 Robert Bosch Gmbh System and method for combining differentiable partial differential equation solvers and graph neural networks for fluid flow prediction

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150193583A1 (en) * 2014-01-06 2015-07-09 Cerner Innovation, Inc. Decision Support From Disparate Clinical Sources
CN104463191A (zh) * 2014-10-30 2015-03-25 华南理工大学 一种基于注意机制的机器人视觉处理方法
CN105225232A (zh) * 2015-09-11 2016-01-06 西安科技大学 一种基于视觉注意机制的彩色着舰合作目标检测方法
CN105700555A (zh) * 2016-03-14 2016-06-22 北京航空航天大学 一种基于势博弈的多无人机协同搜索方法
CN105898288A (zh) * 2016-05-30 2016-08-24 上海交通大学 共享注意的协同视觉搜索***及方法
WO2018017767A1 (en) * 2016-07-19 2018-01-25 Akili Interactive Labs, Inc. Platforms to implement signal detection metrics in adaptive response-deadline procedures
US20180060301A1 (en) * 2016-08-31 2018-03-01 Microsoft Technology Licensing, Llc End-to-end learning of dialogue agents for information access
WO2018089221A1 (en) * 2016-11-09 2018-05-17 Microsoft Technology Licensing, Llc Neural network-based action detection
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
US20180285678A1 (en) * 2017-04-04 2018-10-04 Hailo Technologies Ltd. Artificial Neural Network Incorporating Emphasis And Focus Techniques
CN108197698A (zh) * 2017-12-13 2018-06-22 中国科学院自动化研究所 基于多模态融合的多脑区协同自主决策方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ASLI CELIKYILMAZ等: "Deep Communicating Agents for Abstractive Summarization", 《ARXIV:1803.10357V3》 *
JAKOB N. FOERSTER等: "Learning to Communicate with Deep Multi-Agent Reinforcement Learning", 《ARXIV:1605.06676V2》 *
KUNIKAZU KOBAYASHI等: "Cooperative Behavior Acquisition in Multi-agent Reinforcement Learning System Using Attention Degree", 《INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING》 *
SHARIQ IQBAL等: "Actor-Attention-Critic for Multi-Agent Reinforcement Learning", 《ARXIV:1810.02912V1》 *
张天驿: "基于视觉注意机制的移动机器人目标跟踪研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *
郭勤: "基于深度强化学习的视频游戏决策模型研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363568A (zh) * 2019-06-06 2019-10-22 上海交通大学 融合文本多主题信息的股票价格预测方法、***及介质
CN110390340A (zh) * 2019-07-18 2019-10-29 暗物智能科技(广州)有限公司 特征编码模型、视觉关系检测模型的训练方法及检测方法
CN110390340B (zh) * 2019-07-18 2021-06-01 暗物智能科技(广州)有限公司 特征编码模型、视觉关系检测模型的训练方法及检测方法
CN110554604A (zh) * 2019-08-08 2019-12-10 中国地质大学(武汉) 一种多智能体同步控制方法、设备及存储设备
CN110554604B (zh) * 2019-08-08 2021-07-09 中国地质大学(武汉) 一种多智能体同步控制方法、设备及存储设备
CN110353675A (zh) * 2019-08-14 2019-10-22 东南大学 基于图片生成的脑电信号情感识别方法及装置
CN110427006A (zh) * 2019-08-22 2019-11-08 齐鲁工业大学 一种用于流程工业的多智能体协同控制***及方法
CN110705310B (zh) * 2019-09-20 2023-07-18 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110705310A (zh) * 2019-09-20 2020-01-17 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN112749785A (zh) * 2019-10-29 2021-05-04 株式会社东芝 信息处理装置、信息处理方法以及程序
CN110811558A (zh) * 2019-11-18 2020-02-21 郑州大学 基于深度学习的睡眠觉醒分析方法
CN110811558B (zh) * 2019-11-18 2022-07-05 郑州大学 基于深度学习的睡眠觉醒分析方法
CN111178496A (zh) * 2019-11-30 2020-05-19 浙江大学 多代理强化学习合作任务场景下的代理间交换知识的方法
WO2021103419A1 (zh) * 2019-11-30 2021-06-03 浙江大学 多代理强化学习合作任务场景下的代理间交换知识的方法
CN111047014A (zh) * 2019-12-11 2020-04-21 中国航空工业集团公司沈阳飞机设计研究所 一种多智能体空中对抗分布式采样训练方法及设备
CN111047014B (zh) * 2019-12-11 2023-06-23 中国航空工业集团公司沈阳飞机设计研究所 一种多智能体空中对抗分布式采样训练方法及设备
CN111667884B (zh) * 2020-06-12 2022-09-09 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN112087749A (zh) * 2020-08-27 2020-12-15 华北电力大学(保定) 基于强化学习实现多***的合作主动窃听方法
CN112087749B (zh) * 2020-08-27 2023-06-02 华北电力大学(保定) 基于强化学习实现多***的合作主动窃听方法
CN113254872A (zh) * 2021-05-31 2021-08-13 大连理工大学 一种基于智能体通信机制的复杂游戏场景下的策略选择方法
CN113254872B (zh) * 2021-05-31 2023-12-19 大连理工大学 一种基于智能体通信机制的复杂游戏场景下的策略选择方法
CN113609548A (zh) * 2021-07-05 2021-11-05 中铁工程设计咨询集团有限公司 一种桥梁布跨方法、装置、设备及可读存储介质
CN113609548B (zh) * 2021-07-05 2023-10-24 中铁工程设计咨询集团有限公司 一种桥梁布跨方法、装置、设备及可读存储介质
CN113392935B (zh) * 2021-07-09 2023-05-30 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法
CN113392935A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法
CN114896899A (zh) * 2022-07-15 2022-08-12 中国人民解放军国防科技大学 一种基于信息交互的多智能体分散式决策方法及***
CN114896899B (zh) * 2022-07-15 2022-10-11 中国人民解放军国防科技大学 一种基于信息交互的多智能体分散式决策方法及***

Also Published As

Publication number Publication date
US11461654B2 (en) 2022-10-04
US20200125957A1 (en) 2020-04-23
CN109635917B (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN109635917A (zh) 一种多智能体合作决策及训练方法
CN108647834B (zh) 一种基于卷积神经网络结构的交通流预测方法
CN108664632B (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN107833183B (zh) 一种基于多任务深度神经网络的卫星图像同时超分辨和着色的方法
WO2022042713A1 (zh) 一种用于计算设备的深度学习训练方法和装置
CN112633497A (zh) 一种基于重加权膜电压的卷积脉冲神经网络的训练方法
CN113487088A (zh) 基于动态时空图卷积注意力模型的交通预测方法及装置
CN108846384A (zh) 融合视频感知的多任务协同识别方法及***
WO2022001805A1 (zh) 一种神经网络蒸馏方法及装置
WO2021164750A1 (zh) 一种卷积层量化方法及其装置
CN110223234A (zh) 基于级联收缩扩张的深度残差网络图像超分辨率重建方法
CN109583565A (zh) 基于注意力模型长短时记忆网络的洪水预测方法
CN110570035B (zh) 同时建模时空依赖性和每日流量相关性的人流量预测***
CN112115352A (zh) 基于用户兴趣的会话推荐方法及***
CN111242292B (zh) 基于深度时空网络的od数据预测方法及***
CN115512545B (zh) 一种基于时空动态图卷积网络的交通速度预测方法
CN109086802A (zh) 一种基于八元数卷积神经网络的图像分类方法
CN114091667A (zh) 一种面向非独立同分布数据的联邦互学习模型训练方法
CN106980830A (zh) 一种基于深度卷积网络自亲缘关系识别方法与装置
CN115344883A (zh) 一种用于处理不平衡数据的个性化联邦学习方法和装置
CN109510610A (zh) 一种基于软投影加权核递归最小二乘的核自适应滤波方法
CN113688765A (zh) 一种基于注意力机制的自适应图卷积网络的动作识别方法
CN112116137A (zh) 一种基于混合深度神经网络的学生辍课预测方法
Adeli et al. An advanced spatio-temporal convolutional recurrent neural network for storm surge predictions
CN113221450B (zh) 一种针对稀疏不均匀时序数据的航位预测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant