CN108921298B - 强化学习多智能体沟通与决策方法 - Google Patents

强化学习多智能体沟通与决策方法 Download PDF

Info

Publication number
CN108921298B
CN108921298B CN201810606662.1A CN201810606662A CN108921298B CN 108921298 B CN108921298 B CN 108921298B CN 201810606662 A CN201810606662 A CN 201810606662A CN 108921298 B CN108921298 B CN 108921298B
Authority
CN
China
Prior art keywords
agent
state
clustering
communication information
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810606662.1A
Other languages
English (en)
Other versions
CN108921298A (zh
Inventor
查正军
李厚强
温忻
李斌
王子磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201810606662.1A priority Critical patent/CN108921298B/zh
Publication of CN108921298A publication Critical patent/CN108921298A/zh
Application granted granted Critical
Publication of CN108921298B publication Critical patent/CN108921298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Neurology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种强化学***。

Description

强化学习多智能体沟通与决策方法
技术领域
本发明涉及多智能体深度强化学习技术领域,尤其涉及一种强化学习多智能体沟通与决策方法。
背景技术
强化学***也受限于训练数据的水平。强化学***的问题。因此,深度增强学习是通用人工智能领域的前沿研究方向,具有广阔的应用前景。
常见的深度强化学习主要是应用于单一智能体(Single-Agent)的情况,即环境中只有一个Agent不断与环境进行交互进而获得样本,并且训练一个深度策略网络控制一个Agent。而现实环境中更多的是多智能体的问题,即环境有多个智能体进行决策,多个智能体之间相互影响,共同改变环境的状态。多个智能体之间还有不同的关系(如竞争关系、合作关系等)。对单个智能体而言,其在多智能体环境中进行决策时,同时还应该考虑队友、对手所处的状态以及他们的策略。自然世界和人类社会中的很多问题都可以看作是多智能体的博弈过程(如车辆交通行驶,涉及多人的游戏等等),因此基于多智能体的强化学习算法有着广阔的应用前景,同时也是人类实现强人工智能的必经之路。
然而,现有的强化学习算法通常只能配合轻量级的神经网络模型,在复杂模型下的性能并不好。因此如何设计高效、简洁、实用的神经网络模型,在全面描述智能体间关系的同时,保证网络结构的精简成为了多智能体强化学习方法的关键。
发明内容
本发明的目的是提供一种强化学***。
本发明的目的是通过以下技术方案实现的:
一种强化学习多智能体沟通与决策方法,包括:
根据各个智能体的观测状态信息通过神经网络提取相应的状态特征;
将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类,得到聚类后的沟通信息;
将聚类后的沟通信息分发给各个智能体,由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合,并通过智能体内部的全连接神经网络进行动作决策。
由上述本发明提供的技术方案可以看出,基于梯度可传播、聚类中心可学习的VLAD的强化学习多智能体沟通机制,针对多智能体环境下智能体之间的合作问题,可以实现智能体之间有效的沟通和状态信息交互,同时对于智能体数量的动态变化有很强的鲁棒性,最终提高神经网络模型的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的网络模型结构示意图;
图2为本发明实施例提供的一种强化学习多智能体沟通与决策方法的流程图
图3为本发明实施例提供的VLAD层的网络模型结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
为了使智能体能更好地相互配合、竞争,同时使算法对智能体数量的动态变化有较强的鲁棒性,本发明实施例提供一种一种强化学习多智能体沟通与决策方法,其可以在多智能体强化学习策略网络的训练优化过程中,在各个智能体之间建立沟通机制,对各智能体所处的状态进行聚类编码,之后每个智能体根据自身状态信息和其他智能体的状态编码信息即可进行决策;整个沟通机制简单有效,沟通机制对智能体数量的动态变化鲁棒性强,同时实现了从环境状态到智能体策略的端到端映射。
本发明实施例中,使用多层的神经网络来实现多智能体的联合决策,网络模型结构如图1所示,相关方法的实现过程如图2所示。
参见图1,假设现在环境中有N个智能体,这N个智能体在环境中所能观察到的环境状态信息各不相同分别为s1,s2,……sN,在每一时刻t,每个智能体内部的神经网络模块f1……fm会根据其所处的状态产生相应的动作,设每个智能体采取的动作分别为a1,a2,……aN,在所有智能体都执行完动作之后,每个智能体都将收到环境反馈回来的奖励信息rt。其中rt与环境中的所有智能体选择的动作有关,也即在本发明实施例中,所有智能体在每一时刻收到的环境奖励都相同。
参见图2,相关方法的实现过程主要包括:
步骤1、根据各个智能体的观测状态信息通过神经网络提取相应的状态特征。
本发明实施例中,将每个智能体的观测状态信息进行手工编码,实现从物理世界到数学空间的映射,编码结果可为向量形式或者图片形式;如果映射编码结果为向量形式,则通过MLP网络提取出状态特征;如果映射编码结果为图片形式,则通过CNN网络提取出状态特征。
步骤2、将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类,得到聚类后的沟通信息。
本发明实施例中,使用梯度可传递、聚类中心可学习的VLAD(局部聚合描述向量)层,其结构如图3所示。
本发明实施例中,采用软分配的方式对各个智能体的状态特征进行VLAD聚类,分配给各聚类点的权重由状态特征加权相乘之后,配合softmax公式给出,表示为:
Figure BDA0001693646080000031
上式中,wk(Xi)表示第i个智能体的状态特征Xi分配给第k个聚类中心的权重,ak、bk为第k个聚类中心对应的软分配权重,ak为行向量,bk为标量,xi为第i个智能体的状态特征Xi所表示的列向量,k′表示对所有的k个聚类中心的遍历,ak′、bk′表示第k′个聚类中心对应的软分配权重,ak′为行向量,bk′为标量。
本发明实施例中,可以使用1*1的卷积核实现软分配中的权重计算过程akxi+bk;之后使用神经网络中的softmax层进一步计算出软分配的权重wk(Xi)。
之后基于VLAD聚类的思想,最终的聚类结果由特征空间中向量和聚类中心之间的距离表征,第k个聚类中心的聚类结果如下:
Figure BDA0001693646080000041
其中,V(j,k)为第k个聚类中心第j维的聚类结果,也即聚类后的沟通信息;xi(j)为第i个智能体的状态特征Xi所表示的列向量中的第j维,ck(j)为第k个聚类中心点的第j维坐标,N为智能体数量。
本发明实施例中,可以由VLAD核心层根据wk(Xi)和Xi,完成具体的聚类中心的分配和最终VLAD向量的生成工作,该层主要由向量的加减模块组成。
步骤3、将聚类后的沟通信息分发给各个智能体,由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合,并通过智能体内部的全连接神经网络模块进行动作决策。
本发明实施例中,各个智能体将自身的状态特征与接收到的聚类后的沟通信息采用串联的方式进行聚合;然后,通过智能体内部的全连接神经网络模块产生智能体可选的n个动作a1,a2,……an对应的概率分布p1,p2,……pn;该全连接神经网络为一层或多层,输入层维度为状态特征与聚类后的沟通信息的维度之和,输出层维度与可选动作a1,a2,……an相对应,所以其维度为n;在产生n个动作的概率分布之后,可以依据概率采样产生最终的动作,也可以选取概率最大的动作为该智能体的最终动作;各个智能体根据其本身状态的不同,结合沟通信息可能产生相同的的动作,也可能产生不同的动作。
另一方面,本发明实施例各个智能体都执行动作后将收到环境反馈回来的奖励信息,各个智能体之间共享模型参数和环境反馈回来的奖励信息,通过奖励的大小衡量之前采取的动作的好坏,进而训练智能体模型在下一次与环境交互时使用更好的策略。并且采用课程迁移学习的方式,在训练过程中逐步增加环境的复杂度以及智能体的数量,从而加快模型的训练速度。
课程迁移学习是指在模型的训练过程中逐步增加环境的复杂度,首先在相对简单的环境中(比如智能体数量较少的环境中)训练模型,之后使用训练好的参数在更复杂的环境中进行训练,最终慢慢过渡到期望的复杂环境中。同时,在训练过程中,同类型的智能体的所有网络模型(包括处理观测状态信息的神经网络、VLAD层、最终产生动作决策的全连接神经网络)参数都是共享的,每个智能体从环境中获取的奖励反馈信号也是相同的,各个智能体根据自身的状态迭代更新同一个模型参数。不同类型的智能体的模型参数不同,环境奖励反馈信号相同。因此本发明实施例中的模型对智能体数量的变化有很强的鲁棒性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (3)

1.一种强化学习多智能体沟通与决策方法,其特征在于,包括:
根据各个智能体的观测状态信息通过神经网络提取相应的状态特征;
将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类,得到聚类后的沟通信息;
将聚类后的沟通信息分发给各个智能体,由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合,并通过智能体内部的全连接神经网络进行动作决策;
其中,VLAD层进行软分配与聚类的过程包括:
采用软分配的方式对各个智能体的状态特征进行VLAD聚类,分配给各聚类点的权重由状态特征加权相乘之后,配合softmax公式给出,表示为:
Figure FDA0003354316410000011
上式中,wk(Xi)表示第i个智能体的状态特征Xi分配给第k个聚类中心的权重,ak、bk为第k个聚类中心对应的软分配权重,xi为第i个智能体的状态特征Xi所表示的列向量,k′表示对所有的k个聚类中心的遍历,ak′、bk′表示第k′个聚类中心对应的软分配权重;
最终的聚类结果由特征空间中向量和聚类中心之间的距离表征,第k个聚类中心的聚类结果如下:
Figure FDA0003354316410000012
其中,V(j,k)为第k个聚类中心第j维的聚类结果,也即聚类后的沟通信息;xi(j)为第i个智能体的状态特征Xi所表示的列向量中的第j维,ck(j)为第k个聚类中心点的第j维坐标,N为智能体数量;
所述将自身的状态特征与接收到的聚类后的沟通信息进行聚合,并通过智能体内部的全连接神经网络进行动作决策包括:
各个智能体将自身的状态特征与接收到的聚类后的沟通信息采用串联的方式进行聚合;
然后,由智能体内部的全连接神经网络产生智能体可选的n个动作a1,a2,……an对应的概率分布p1,p2,……pn;在产生n个动作的概率分布之后,依据概率采样产生最终的动作,或者选取概率最大的动作为该智能体的最终动作;
该全连接神经网络为一层或多层,输入层维度为状态特征与聚类后的沟通信息的维度之和,输出层维度与可选动作a1,a2,……an对应,其维度为n。
2.根据权利要求1所述的一种强化学习多智能体沟通与决策方法,其特征在于,状态特征的过程包括:
将每个智能体的观测状态信息进行手工编码,实现从物理世界到数学空间的映射,编码结果为向量形式或者图片形式;
如果映射编码结果为向量形式,则通过MLP网络提取出状态特征;
如果映射编码结果为图片形式,则通过CNN网络提取出状态特征。
3.根据权利要求1所述的一种强化学习多智能体沟通与决策方法,其特征在于,各个智能体执行一个动作后将受到环境反馈回来的奖励信息,各个智能体之间共享模型参数和环境反馈回来的奖励信息,通过奖励的大小衡量之前采取的动作的好坏,进而训练智能体在下一次与环境交互时使用更好的策略;同时,采用课程迁移学习的方式,在训练过程中逐步增加环境的复杂度以及智能体的数量。
CN201810606662.1A 2018-06-12 2018-06-12 强化学习多智能体沟通与决策方法 Active CN108921298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810606662.1A CN108921298B (zh) 2018-06-12 2018-06-12 强化学习多智能体沟通与决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810606662.1A CN108921298B (zh) 2018-06-12 2018-06-12 强化学习多智能体沟通与决策方法

Publications (2)

Publication Number Publication Date
CN108921298A CN108921298A (zh) 2018-11-30
CN108921298B true CN108921298B (zh) 2022-04-19

Family

ID=64419238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810606662.1A Active CN108921298B (zh) 2018-06-12 2018-06-12 强化学习多智能体沟通与决策方法

Country Status (1)

Country Link
CN (1) CN108921298B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960259B (zh) * 2019-02-15 2021-09-24 青岛大学 一种基于梯度势的多智能体强化学习的无人导引车路径规划方法
CN110070099A (zh) * 2019-02-20 2019-07-30 北京航空航天大学 一种基于强化学习的工业数据特征结构化方法
CN109978176B (zh) * 2019-03-05 2021-01-19 华南理工大学 一种基于状态动态感知的多智能体合作学习方法
CN109993308B (zh) * 2019-03-29 2024-05-24 深圳先进技术研究院 基于云平台共享学***台及方法、介质
CN110119749A (zh) * 2019-05-16 2019-08-13 北京小米智能科技有限公司 识别产品图像的方法和装置、存储介质
CN110554604B (zh) * 2019-08-08 2021-07-09 中国地质大学(武汉) 一种多智能体同步控制方法、设备及存储设备
CN112633491A (zh) * 2019-10-08 2021-04-09 华为技术有限公司 训练神经网络的方法与装置
CN112215350B (zh) * 2020-09-17 2023-11-03 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的智能体控制方法及装置
CN112260733B (zh) * 2020-11-10 2022-02-01 东南大学 基于多智能体深度强化学习的mu-miso混合预编码设计方法
CN112507104B (zh) * 2020-12-18 2022-07-22 北京百度网讯科技有限公司 对话***获取方法、装置、存储介质及计算机程序产品
CN113110582B (zh) * 2021-04-22 2023-06-02 中国科学院重庆绿色智能技术研究院 无人机集群智能***控制方法
CN112926729B (zh) * 2021-05-06 2021-08-03 中国科学院自动化研究所 人机对抗智能体策略制定方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676034B1 (en) * 2003-03-07 2010-03-09 Wai Wu Method and system for matching entities in an auction
CN104698854B (zh) * 2015-03-26 2017-06-23 哈尔滨工业大学 网络Euler‑Lagrange***分布式模糊协同跟踪控制方法
US10204300B2 (en) * 2015-12-14 2019-02-12 Stats Llc System and method for predictive sports analytics using clustered multi-agent data
CN106649456A (zh) * 2016-09-23 2017-05-10 西安电子科技大学 基于多智能体进化的聚类和离群点检测方法
CN108108759B (zh) * 2017-12-19 2021-11-02 四川九洲电器集团有限责任公司 一种多智能体的动态编群方法

Also Published As

Publication number Publication date
CN108921298A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108921298B (zh) 强化学习多智能体沟通与决策方法
CN109635917B (zh) 一种多智能体合作决策及训练方法
Yin et al. Knowledge transfer for deep reinforcement learning with hierarchical experience replay
Papageorgiou Learning algorithms for fuzzy cognitive maps—a review study
CN112437690B (zh) 确定执行设备的动作选择方针的方法和装置
US20160012330A1 (en) Neural network and method of neural network training
CN108427985A (zh) 一种基于深度强化学习的插电式混合动力车辆能量管理方法
Yu From information networking to intelligence networking: Motivations, scenarios, and challenges
Yesil et al. Fuzzy cognitive maps learning using artificial bee colony optimization
CN111176758B (zh) 配置参数的推荐方法、装置、终端及存储介质
CN106529820A (zh) 一种运营指标的预测方法及***
CN114896899B (zh) 一种基于信息交互的多智能体分散式决策方法及***
CN115018017B (zh) 基于集成学习的多智能体信用分配方法、***、设备
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及***
CN115344883A (zh) 一种用于处理不平衡数据的个性化联邦学习方法和装置
CN108683614A (zh) 基于门限残差网络的虚拟现实设备集群带宽分配装置
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
CN112634019A (zh) 基于细菌觅食算法优化灰色神经网络的违约概率预测方法
CN112533681B (zh) 确定执行设备的动作选择方针
CN115358831A (zh) 基于多智能体强化学习算法在联邦学习下的用户竞价方法及装置
CN111282272A (zh) 信息处理方法、计算机可读介质及电子设备
Rao et al. Distributed deep reinforcement learning using tensorflow
CN114757362A (zh) 一种基于边缘增强的多智能体***通信方法及相关装置
CN114037048B (zh) 基于变分循环网络模型的信念一致多智能体强化学习方法
CN114154397A (zh) 一种基于深度强化学习的隐式对手建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant