CN111814915B - 多智能体时空特征提取方法及***、行为决策方法及*** - Google Patents

多智能体时空特征提取方法及***、行为决策方法及*** Download PDF

Info

Publication number
CN111814915B
CN111814915B CN202010872541.9A CN202010872541A CN111814915B CN 111814915 B CN111814915 B CN 111814915B CN 202010872541 A CN202010872541 A CN 202010872541A CN 111814915 B CN111814915 B CN 111814915B
Authority
CN
China
Prior art keywords
agent
spatial
moment
agent system
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010872541.9A
Other languages
English (en)
Other versions
CN111814915A (zh
Inventor
蒲志强
王彗木
刘振
丘腾海
易建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010872541.9A priority Critical patent/CN111814915B/zh
Publication of CN111814915A publication Critical patent/CN111814915A/zh
Application granted granted Critical
Publication of CN111814915B publication Critical patent/CN111814915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种多智能体时空特征提取方法及***、行为决策方法及***,所述时空特征提取方法包括:获取在时刻t下,基于tn t 时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体***在各时刻的状态集合,多智能体***由N个智能体组成,n t 为预设的历史状态数;基于图网络生成层,根据各状态集合,得到原始特征集;基于空间特征提取层,根据原始特征集,得到在当前时刻t下的空间关系特征集;基于时空关系提取层,根据当前时刻tn个离散时刻多智能体***的空间关系特征集,得到多智能体***在当前时刻t下的时空关系特征集;从而实现智能体在动态复杂任务中的自主时空特征关系提取和智能行为决策。

Description

多智能体时空特征提取方法及***、行为决策方法及***
技术领域
本发明涉及多智能体***及群体智能应用技术领域,特别涉及一种基于图注意力和长短期记忆网络的多智能体时空特征提取方法及***、行为决策方法及***。
背景技术
多智能体***具有分布性、简单性、灵活性和健壮性等优势,为很多极具挑战的复杂性问题提供了崭新的解决方案。随着微纳电子、计算平台、自主控制等新兴技术的迅猛发展,由无人机、无人车等无人自主平台组成的多智能体***在关乎国计民生以及国家和国防安全的重大场景中获得了越来越多的应用。
无人自主多智能体***能以网络化、分布化、协同化方式快速形成区域覆盖,实现集群资源优化调度,提高任务完成率和响应速度,一方面可作为一种常态化部署***,服务于山区巡逻、灾害预警、环境监测、区域物流等领域;另一方面也可作为一种突发事件的快速响应***,在诸如疫情防控、突发灾害、大型活动人防等场景下提供快速物资调度、灾害监测评估、通信保障支援等能力。
然而,现有对于无人自主多智能体***实时决策与控制技术的研究尚处于起步阶段,大多数多智能体***采用预规划的方式提前拟定了各智能体的行为决策规则,使得智能体在面向实际应用场景时不能随着任务、环境变化实现自适应的自主行为决策,极大限制了多智能体***智能协同效果的发挥。
实际场景中,单个智能体往往仅具有有限的环境感知能力、通信能力和行为能力,智能体之间的通信拓扑连接关系也将在动态任务中时刻发生改变,此外由于任务分工不同,每个智能体对于其他智能体及周围环境的注意力并不相同,因此,采取有效手段时刻提取出智能体与智能体之间、智能体与任务环境要素之间的时空特征关系,是保障多智能体***实现对任务、环境的抽象理解,进而实现自主决策与智能控制的关键。
发明内容
为了解决现有技术中的上述问题,即为了提升多智能体***在大规模复杂任务中的自主决策与智能控制能力,本发明的目的在于提供一种多智能体时空特征提取方法及***、行为决策方法及***。
为解决上述技术问题,本发明提供了如下方案:
一种多智能体***的时空特征提取方法,所述时空特征提取方法包括:
步骤100:获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体***在各时刻的状态集合,多智能体***由N个智能体组成,n t 为预设的历史状态数;
步骤200:基于图网络生成层,根据各时刻的状态集合,得到多智能体***的原始特征集;
步骤300:基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集;
步骤400:基于时空关系提取层,根据当前时刻tn个离散时刻多智能体***的空间关系特征集,得到多智能体***在当前时刻t下的时空关系特征集。
可选地,所述基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集,具体包括:
步骤310,以多智能体***原始特征集h作为输入,通过第一图注意力网络模块,获 得空间关系特征集
Figure 986201DEST_PATH_IMAGE001
;其中,原始特征集
Figure 861753DEST_PATH_IMAGE002
Figure 766255DEST_PATH_IMAGE003
为智能体i 对应的原始特征向量,i=1,2…,N
步骤320,以
Figure 803481DEST_PATH_IMAGE001
为输入,通过第一全连接网络模块,获得空间特征集
Figure 675491DEST_PATH_IMAGE004
步骤330,基于步骤320方法获得的空间特征集,通过堆叠的图注意力网络模块和 全连接网络模块,采用步骤310、步骤320的方法迭代计算第f次的空间特征集
Figure 89155DEST_PATH_IMAGE005
Figure 848163DEST_PATH_IMAGE006
; 其中,
Figure 56291DEST_PATH_IMAGE007
Figure 150018DEST_PATH_IMAGE008
为图注意力网络模块和全连接网络模块的堆叠层数;
步骤340,在迭代计算第
Figure 367372DEST_PATH_IMAGE009
次的空间特征集时,基于
Figure 308783DEST_PATH_IMAGE010
,采用步骤310的方法, 通过第
Figure 625495DEST_PATH_IMAGE009
图注意力网络模块得到空间特征集
Figure 285147DEST_PATH_IMAGE011
;将拼接特征集
Figure 165247DEST_PATH_IMAGE012
输入第
Figure 23482DEST_PATH_IMAGE009
全连接网络模块,得到空间特征集
Figure 714357DEST_PATH_IMAGE013
,作为时 刻t下多智能体***基于所述空间特征提取层的最终输出
Figure 392463DEST_PATH_IMAGE014
可选地,所述获得空间关系特征集
Figure 79184DEST_PATH_IMAGE001
,具体包括:
步骤311:采用多头注意力机制,针对多头注意力机制的多智能体***中的第m头 注意力机制下的任一智能体i,智能体i能直接通信的邻居智能体组成的集合为N i ,在邻居 智能体中选取一个智能体j,采用可学习的矩阵W对智能体ij对应的关系特征向量
Figure 57504DEST_PATH_IMAGE003
Figure 919281DEST_PATH_IMAGE015
进行线性变换,并拼接为一个新的关系特征向量
Figure 350262DEST_PATH_IMAGE016
;其中,W为 关系特征向量
Figure 572165DEST_PATH_IMAGE003
Figure 139413DEST_PATH_IMAGE015
的线性变换矩阵;
步骤312:将
Figure 172091DEST_PATH_IMAGE017
输入一个全连接神经网络,输出智能体i对于智能体j的注意力 系数
Figure 28051DEST_PATH_IMAGE018
步骤313:计算第m头注意力机制下的智能体i对于智能体j的注意力归一化系数
Figure 929011DEST_PATH_IMAGE019
Figure 740978DEST_PATH_IMAGE020
步骤314:计算多头注意力机制融合下智能体i与其邻居间的空间关系特征向量
Figure 69191DEST_PATH_IMAGE021
Figure 84552DEST_PATH_IMAGE022
其中,
Figure 523623DEST_PATH_IMAGE023
为sigmoid激活函数,
Figure 455676DEST_PATH_IMAGE024
为第
Figure 954791DEST_PATH_IMAGE025
头注意力选取的线性变换矩阵,
Figure 457447DEST_PATH_IMAGE026
表示向量的拼接操作,K为注意力机制的头数;
步骤315:计算得到所有智能体与其邻居间的空间关系特征后,得多智能体***空 间关系特征集
Figure 903472DEST_PATH_IMAGE027
可选地,所述得到多智能体***在当前时刻t下的时空关系特征集,具体包括:
将得到的当前时刻t及其前n个离散时刻内多智能体***的空间关系特征集
Figure 565398DEST_PATH_IMAGE028
,顺次输入到包含n+1个串序连接的、带窥视孔的长短期记忆网络单元的 时空关系提取层,靠近输出端的长短期记忆网络单元记作
Figure 362977DEST_PATH_IMAGE029
,向前依次类推;第q个长短期 记忆网络单元
Figure 211984DEST_PATH_IMAGE030
的单元状态记作
Figure 133804DEST_PATH_IMAGE031
,输出为时空关系特征集
Figure 915815DEST_PATH_IMAGE032
,输入为(
Figure 881366DEST_PATH_IMAGE033
)时刻的空间关系特征集
Figure 217669DEST_PATH_IMAGE034
以及第(q+1)个单元
Figure 677601DEST_PATH_IMAGE035
输出的时空关系特征 集
Figure 48539DEST_PATH_IMAGE036
及其单元状态
Figure 263620DEST_PATH_IMAGE037
q=1,2,…,n+1;
将(
Figure 477432DEST_PATH_IMAGE033
)时刻的空间关系特征集
Figure 600109DEST_PATH_IMAGE034
、第(q+1)个单元
Figure 966500DEST_PATH_IMAGE035
输出的时空 关系特征集
Figure 149219DEST_PATH_IMAGE036
及单元状态
Figure 850328DEST_PATH_IMAGE037
输入到采用图卷积神经网络的忘记门
Figure 776695DEST_PATH_IMAGE038
Figure 997592DEST_PATH_IMAGE039
其中,*表示图卷积运算,
Figure 351213DEST_PATH_IMAGE040
表示忘记门的图卷积神经网络的权重系数矩阵,
Figure 352667DEST_PATH_IMAGE041
表示忘记门的图卷积神经网络的偏置,
Figure 198571DEST_PATH_IMAGE042
为sigmoid激活函数;
将(
Figure 398608DEST_PATH_IMAGE033
)时刻的空间特征集
Figure 798496DEST_PATH_IMAGE034
以及第(q+1)个单元
Figure 83984DEST_PATH_IMAGE035
输出的时空 关系特征集
Figure 7947DEST_PATH_IMAGE036
及单元状态
Figure 62490DEST_PATH_IMAGE037
输入到采用图卷积神经网络的输入门
Figure 633280DEST_PATH_IMAGE043
,并对单元 状态进行更新:
Figure 406064DEST_PATH_IMAGE044
Figure 602559DEST_PATH_IMAGE045
Figure 714872DEST_PATH_IMAGE046
其中,*表示图卷积运算,
Figure 846776DEST_PATH_IMAGE047
Figure 716643DEST_PATH_IMAGE048
为输入门的图卷积神经网络对应的权 重系数矩阵,
Figure 592195DEST_PATH_IMAGE049
Figure 480385DEST_PATH_IMAGE050
为输入门的图卷积神经网络对应的偏置,
Figure 48770DEST_PATH_IMAGE042
为sigmoid激活 函数,
Figure 405933DEST_PATH_IMAGE052
为tanh激活函数,
Figure 819597DEST_PATH_IMAGE053
为哈达玛积;
将(
Figure 830803DEST_PATH_IMAGE033
)时刻的空间关系特征集
Figure 304509DEST_PATH_IMAGE034
以及第(q+1)个单元
Figure 476865DEST_PATH_IMAGE035
输出的 时空关系特征集
Figure 569586DEST_PATH_IMAGE036
以及更新后的单元状态
Figure 307734DEST_PATH_IMAGE031
输入到采用图卷积神经网络的输出 门
Figure 76976DEST_PATH_IMAGE054
,得到第q个单元
Figure 533365DEST_PATH_IMAGE030
输出的时空关系特征集
Figure 429777DEST_PATH_IMAGE032
Figure 288012DEST_PATH_IMAGE055
Figure 962576DEST_PATH_IMAGE056
其中,*表示图卷积运算,
Figure 906261DEST_PATH_IMAGE057
表示过度变量,
Figure 668680DEST_PATH_IMAGE058
表示输出门的图卷积神 经网络对应的权重系数矩阵,
Figure 256788DEST_PATH_IMAGE059
表示输出门的图卷积神经网络对应的偏置,
Figure 243198DEST_PATH_IMAGE060
为 sigmoid激活函数,
Figure 533234DEST_PATH_IMAGE052
为tanh激活函数,
Figure 630503DEST_PATH_IMAGE053
为哈达玛积;其中第1个单元
Figure 338696DEST_PATH_IMAGE029
输出的为 多智能体***在当前时刻t下的时空关系特征集
Figure 761587DEST_PATH_IMAGE061
可选地,所述可观测到的时空状态向量包括智能体自身状态、任务目标状态、可观测到的其他智能体状态和可观测到的环境要素状态;
其中,智能体自身状态包括智能体自身位置、速度、加速度状态,任务目标状态包括目标位置、速度状态;
可观测到的其他智能体状态包括可观测到的其他智能体的位置、速度状态,
可观测到的环境要素状态包括可观测到的环境中障碍物的位置、速度状态,环境中禁止通行区的位置状态。
可选地,所述图网络生成层由多层全连接神经网络连接组成。
为解决上述技术问题,本发明还提供了如下方案:
一种多智能体***的行为决策方法,所述行为决策方法包括:
基于上述多智能体***的时空特征提取方法,获取多智能体***在当前时刻t下 的时空关系特征集
Figure 541849DEST_PATH_IMAGE061
计算多智能体***在当前时刻t下的行为决策集
Figure 442809DEST_PATH_IMAGE062
,其中,
Figure 5508DEST_PATH_IMAGE063
Figure 333722DEST_PATH_IMAGE064
i=1,2,…,N)表示第i个智能体在当前时刻t下的行为决策,A为所选决策空间维 数,
Figure 676978DEST_PATH_IMAGE065
表示实数。
为解决上述技术问题,本发明还提供了如下方案:
一种多智能体***的时空特征提取***,所述时空特征提取***包括:
状态向量获取单元,用于获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体***在各时刻的状态集合,多智能体***由N个智能体组成,n t 为预设的历史状态数;
原始特征生成单元,用于基于图网络生成层,根据各时刻的状态集合,得到多智能体***的原始特征集;
空间关系计算单元,用于基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集;
时空关系计算单元,用于基于时空关系提取层,根据当前时刻tn个离散时刻多智能体***的空间关系特征集,得到多智能体***在当前时刻t下的时空关系特征集。
为解决上述技术问题,本发明还提供了如下方案:
一种多智能体***的行为决策***,所述行为决策***包括
基于上述多智能体***的时空特征提取***,用于获取多智能体***在当前时刻t下的时空关系特征集
Figure 240684DEST_PATH_IMAGE061
行为决策计算单元,用于计算多智能体***在当前时刻t下的行为决策集
Figure 782523DEST_PATH_IMAGE062
,其 中,
Figure 157004DEST_PATH_IMAGE063
Figure 784294DEST_PATH_IMAGE064
i=1,2,…,N)表示第i个智能体在当前时刻t下的行 为决策,A为所选决策空间维数,
Figure 417270DEST_PATH_IMAGE065
表示实数。
为解决上述技术问题,本发明还提供了如下方案:
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体***在各时刻的状态集合,多智能体***由N个智能体组成,n t 为预设的历史状态数;
基于图网络生成层,根据各时刻的状态集合,得到多智能体***的原始特征集;
基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集;
基于时空关系提取层,根据当前时刻tn个离散时刻多智能体***的空间关系特征集,得到多智能体***在当前时刻t下的时空关系特征集。
根据本发明的实施例,本发明公开了以下技术效果:
本发明获取多个时刻下的各智能体可观测到的时空状态向量,采用图网络生成层来表达智能体个体及与环境的空间关系,进一步采用空间特征提取层提取空间特征关系,基于时空关系提取层实现时空特征关系提取,可完成在复杂环境、时变拓扑、有限资源等约束下的时空特征关系的提取,从而可实现智能体在动态复杂任务中的自主时空特征关系提取。
附图说明
图1是本发明多智能体***的行为决策方法的流程图;
图2是图网络生成层的结构示意图;
图3是空间特征提取层的结构示意图;
图4是时空关系提取层的结构示意图;
图5是时空特征提取层中单个长短期记忆网络单元结构示意图;
图6是本发明多智能体***的行为决策***的模块结构示意图。
符号说明:
状态向量获取单元—1,原始特征生成单元—2,空间关系计算单元—3,时空关系计算单元—4。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的是提供一种多智能体***的时空特征提取方法,获取多个时刻下的各智能体可观测到的时空状态向量,采用图网络生成层来表达智能体个体及与环境的空间关系,进一步采用空间特征提取层提取空间特征关系,基于时空关系提取层实现时空特征关系提取,可完成在复杂环境、时变拓扑、有限资源等约束下的时空特征关系的提取,从而可实现智能体在动态复杂任务中的自主时空特征关系提取。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明多智能体***的时空特征提取方法包括:
步骤100:获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体***在各时刻的状态集合,多智能体***由N个智能体组成,n t 为预设的历史状态数;
步骤200:基于图网络生成层,根据各时刻的状态集合,得到多智能体***的原始特征集;
步骤300:基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集;
步骤400:基于时空关系提取层,根据当前时刻tn个离散时刻多智能体***的空间关系特征集,得到多智能体***在当前时刻t下的时空关系特征集。
更新时间,返回步骤100,开始下一时刻多智能体***的时空特征提取。
其中,在步骤100中,可观测到的时空状态向量包括智能体自身状态、任务目标状态、可观测到的其他智能体状态和可观测到的环境要素状态;
其中,智能体自身状态包括但不限于智能体自身位置、速度、加速度状态;任务目标状态包括但不限于目标位置、速度状态;可观测到的其他智能体状态包括但不限于可观测到的其他智能体的位置、速度状态;可观测到的环境要素状态包括但不限于可观测到的环境中障碍物的位置、速度状态,环境中禁止通行区的位置状态,以及其他影响多智能体***任务的环境状态信息。
在当前时刻t下,获取从(t-n t )时刻起每个智能体ii=1,2…,N)可观测到的时空 状态向量
Figure 813616DEST_PATH_IMAGE066
;将每一时刻所有智能体获取的时空状态向量拼接为状态集 合,第(t-n t )时刻的状态集合为
Figure 358998DEST_PATH_IMAGE067
,第(t-n t +1)时刻的状 态集合为
Figure 473585DEST_PATH_IMAGE068
,以此类推,第t时刻的状态集合为
Figure 644672DEST_PATH_IMAGE069
,其中n t 为历史状态数,是一个可调整的非负整数。
在步骤200中,所述图网络生成层由多层全连接神经网络连接组成(如图2所示)。
如图3所示,所述空间特征提取层包括k对交替堆叠的图注意力网络模块及全连接网络模块,全连接网络模块由多层全连接神经网络层构成,用于对特征进行增强表示和维数压缩。
可选地,所述基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集,具体包括:
步骤310,以多智能体***原始特征集h作为输入,通过第一图注意力网络模块,获 得空间关系特征集
Figure 98787DEST_PATH_IMAGE001
;其中,原始特征集
Figure 939704DEST_PATH_IMAGE070
Figure 416953DEST_PATH_IMAGE003
为智能体i对应的原始特征向量,i=1,2…,N
步骤320,以
Figure 1518DEST_PATH_IMAGE001
为输入,通过第一全连接网络模块,获得空间特征集
Figure 500020DEST_PATH_IMAGE004
步骤330,基于步骤320方法获得的空间特征集,通过堆叠的图注意力网络模块和 全连接网络模块,采用步骤310、步骤320的方法迭代计算第f次的空间特征集
Figure 777418DEST_PATH_IMAGE005
Figure 741962DEST_PATH_IMAGE006
; 其中,
Figure 864639DEST_PATH_IMAGE007
Figure 293347DEST_PATH_IMAGE008
为图注意力网络模块和全连接网络模块的堆叠层数;
步骤340,在迭代计算第
Figure 866279DEST_PATH_IMAGE009
次的空间特征集时,基于
Figure 177175DEST_PATH_IMAGE010
,采用步骤310的方法, 通过第
Figure 978909DEST_PATH_IMAGE009
图注意力网络模块得到空间特征集
Figure 324439DEST_PATH_IMAGE011
;将拼接特征集
Figure 68273DEST_PATH_IMAGE012
输入第
Figure 866465DEST_PATH_IMAGE009
全连接网络模块,得到空间特征集
Figure 471890DEST_PATH_IMAGE013
,作为时 刻t下多智能体***基于所述空间特征提取层的最终输出
Figure 671927DEST_PATH_IMAGE014
优选地,所述获得空间关系特征集
Figure 321083DEST_PATH_IMAGE001
,具体包括:
步骤311:采用多头注意力机制,针对多头注意力机制的多智能体***中的第m头 注意力机制下的任一智能体i,智能体i能直接通信的邻居智能体组成的集合为N i ,在邻居 智能体中选取一个智能体j,采用可学习的矩阵W对智能体ij对应的关系特征向量
Figure 606571DEST_PATH_IMAGE003
Figure 78004DEST_PATH_IMAGE015
进行线性变换,并拼接为一个新的关系特征向量
Figure 7914DEST_PATH_IMAGE016
;其中,W为 关系特征向量
Figure 968916DEST_PATH_IMAGE003
Figure 880982DEST_PATH_IMAGE015
的线性变换矩阵;
步骤312:将
Figure 687264DEST_PATH_IMAGE017
输入一个全连接神经网络,输出智能体i对于智能体j的注意力 系数
Figure 2839DEST_PATH_IMAGE018
步骤313:计算第m头注意力机制下的智能体i对于智能体j的注意力归一化系数
Figure 869164DEST_PATH_IMAGE019
Figure 253878DEST_PATH_IMAGE020
步骤314:计算多头注意力机制融合下智能体i与其邻居间的空间关系特征向量
Figure 863851DEST_PATH_IMAGE021
Figure 96249DEST_PATH_IMAGE022
其中,
Figure 274421DEST_PATH_IMAGE042
为sigmoid激活函数,
Figure 756218DEST_PATH_IMAGE071
为第
Figure 825674DEST_PATH_IMAGE072
头注意力选取的线性变换矩阵,
Figure 584682DEST_PATH_IMAGE073
表示向量的拼接操作,K为注意力机制的头数;
步骤315:计算得到所有智能体与其邻居间的空间关系特征后,得多智能体***空 间关系特征集
Figure 58389DEST_PATH_IMAGE027
将空间特征向量
Figure 417695DEST_PATH_IMAGE001
输入到全连接网络模块中,得到空间特征向量
Figure 369470DEST_PATH_IMAGE004
具体包括:
通过对空间特征向量
Figure 248565DEST_PATH_IMAGE001
进行增强表示和维数压缩,得到空间特征向量
Figure 893173DEST_PATH_IMAGE004
,空间特 征集
Figure 477125DEST_PATH_IMAGE074
,其中2
Figure 232592DEST_PATH_IMAGE075
i=1,2,…,N),F为所选特征空间维数。
在步骤400中,得到的当前时刻t及其前n个离散时刻内多智能体***的空间关系 特征集
Figure 28509DEST_PATH_IMAGE028
,顺次输入到包含n+1个串序连接的、带窥视孔的长短期记忆网络 单元的时空关系提取层,靠近输出端的长短期记忆网络单元记作
Figure 719385DEST_PATH_IMAGE029
,向前依次类推;第qq= 1,2,…,n+1)个长短期记忆网络单元
Figure 663070DEST_PATH_IMAGE030
的单元状态记作
Figure 346861DEST_PATH_IMAGE031
,输出为时空关系特征集
Figure 59602DEST_PATH_IMAGE032
,输入为(
Figure 655800DEST_PATH_IMAGE033
)时刻的空间关系特征集
Figure 86781DEST_PATH_IMAGE034
以及第(q+1)个单元
Figure 574263DEST_PATH_IMAGE035
输 出的时空关系特征集
Figure 407090DEST_PATH_IMAGE036
及其单元状态
Figure 174189DEST_PATH_IMAGE037
(如图4所示)。
如图5所示,在步骤400中,得到多智能体***在当前时刻t下的时空关系特征集,具体包括:
步骤410:将(
Figure 92466DEST_PATH_IMAGE033
)时刻的空间关系特征集
Figure 196688DEST_PATH_IMAGE034
、第(q+1)个单元
Figure 743076DEST_PATH_IMAGE035
输 出的时空关系特征集
Figure 71289DEST_PATH_IMAGE036
及单元状态
Figure 86650DEST_PATH_IMAGE037
输入到采用图卷积神经网络的忘记门
Figure 56880DEST_PATH_IMAGE038
Figure 726283DEST_PATH_IMAGE076
其中,*表示图卷积运算,
Figure 225398DEST_PATH_IMAGE040
表示忘记门的图卷积神经网络的权重系数矩阵,
Figure 728054DEST_PATH_IMAGE041
表示忘记门的图卷积神经网络的偏置,
Figure 970817DEST_PATH_IMAGE042
为sigmoid激活函数;
步骤420:将(
Figure 570425DEST_PATH_IMAGE033
)时刻的空间特征集
Figure 365075DEST_PATH_IMAGE034
以及第(q+1)个单元
Figure 479662DEST_PATH_IMAGE035
输出 的时空关系特征集
Figure 135902DEST_PATH_IMAGE036
及单元状态
Figure 652334DEST_PATH_IMAGE037
输入到采用图卷积神经网络的输入门
Figure 883464DEST_PATH_IMAGE043
,并 对单元状态进行更新:
Figure 485347DEST_PATH_IMAGE077
Figure 945278DEST_PATH_IMAGE045
Figure 316216DEST_PATH_IMAGE046
其中,*表示图卷积运算,
Figure 452669DEST_PATH_IMAGE047
Figure 479530DEST_PATH_IMAGE048
为输入门的图卷积神经网络对应的权 重系数矩阵,
Figure 867786DEST_PATH_IMAGE049
Figure 968598DEST_PATH_IMAGE050
为输入门的图卷积神经网络对应的偏置,
Figure 416896DEST_PATH_IMAGE042
为sigmoid激活 函数,为tanh激活函数,
Figure 120935DEST_PATH_IMAGE053
为哈达玛积;
步骤430:将(
Figure 47302DEST_PATH_IMAGE033
)时刻的空间关系特征集
Figure 2620DEST_PATH_IMAGE034
以及第(q+1)个单元
Figure 825083DEST_PATH_IMAGE035
输出的时空关系特征集
Figure 623274DEST_PATH_IMAGE036
以及更新后的单元状态
Figure 477967DEST_PATH_IMAGE031
输入到采用图卷积神经 网络的输出门
Figure 412425DEST_PATH_IMAGE054
,得到第q个单元
Figure 77892DEST_PATH_IMAGE030
输出的时空关系特征集
Figure 628959DEST_PATH_IMAGE032
Figure 21764DEST_PATH_IMAGE055
Figure 76307DEST_PATH_IMAGE056
其中,*表示图卷积运算,
Figure 912676DEST_PATH_IMAGE057
表示过度变量,
Figure 623143DEST_PATH_IMAGE058
表示输出门的图卷积神 经网络对应的权重系数矩阵,
Figure 695004DEST_PATH_IMAGE059
表示输出门的图卷积神经网络对应的偏置,
Figure 994268DEST_PATH_IMAGE060
为 sigmoid激活函数,为tanh激活函数,
Figure 860592DEST_PATH_IMAGE053
为哈达玛积;其中第1个单元
Figure 261618DEST_PATH_IMAGE029
输出的为多智能体 ***在当前时刻t下的时空关系特征集
Figure 871591DEST_PATH_IMAGE061
本发明另一实施例:一种多智能体***的行为决策方法,包括:
基于上述多智能体***的时空特征提取方法,获取多智能体***在当前时刻t下 的时空关系特征集
Figure 16571DEST_PATH_IMAGE061
采用基于模型知识驱动的方法或基于强化学习数据驱动的方法(优选采用Actor- Critic架构进行智能体行为的训练学习),计算多智能体***在当前时刻t下的行为决策集
Figure 53798DEST_PATH_IMAGE062
,其中,
Figure 676540DEST_PATH_IMAGE063
Figure 293466DEST_PATH_IMAGE064
i=1,2,…,N)表示第i个智能体在当前时刻t下 的行为决策,A为所选决策空间维数,
Figure 177108DEST_PATH_IMAGE065
表示实数。
重复步骤100-步骤400,更新行为决策集。
本发明多智能体***的行为决策方法通过图注意力机制和长短记忆网络对多智能体***中蕴含的时空特征关系进行提取,可以为多智能体***后续智能行为决策提供重要的依据,使得智能体能够在动态、复杂任务中实现自主行为决策,充分发挥多智能体***分布化、协同化等特点,而采用图神经网络、长短期记忆网络等参数可学习的模型来构建特征提取层,可实现智能体内部隐藏特征、变化特征的提取,提升智能体的任务、环境适应性。
下面以一具体实施例详细说明本发明:
该实施例中包括5个捕食者智能体、2个猎物智能体、2个障碍物智能体,设置一定的通信距离,通信距离内的捕食者间能共享信息,同时设置一定的探测距离,探测距离内的障碍物及猎物信息为捕食者的可观测信息。捕食者智能体采用本发明所提供的方法进行时空特征提取,并在此基础上采用Actor-Critic架构进行行为决策,猎物智能体则采用传统人工势场法进行行为决策,障碍物智能体设定为静态障碍物,在一定时间内,捕食者智能体能学得协作行为,将2个猎物智能体包围住,并且能够学得一些高层策略,例如当2个猎物彼此位置较为分散时,捕食者智能体分成两组分别对其进行包围,展现了本发明所提供方法在应对复杂、动态多智能体行为决策时的自适应、分布式协同优势。
此外,本发明还提供一种多智能体***的时空特征提取***,可提升多智能体***在大规模复杂任务中的自主决策与智能控制能力。
如图6所示本发明多智能体***的时空特征提取***包括:向量获取单元1、生成单元2、空间关系计算单元3及时空关系计算单元4。
具体地,所述状态向量获取单元1用于获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体***在各时刻的状态集合,多智能体***由N个智能体组成,n t 为预设的历史状态数;
所述原始特征生成单元2用于基于图网络生成层,根据各时刻的状态集合,得到多智能体***的原始特征集;
所述空间关系计算单元3用于基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集;
所述时空关系计算单元4用于基于时空关系提取层,根据当前时刻tn个离散时刻多智能体***的空间关系特征集,得到多智能体***在当前时刻t下的时空关系特征集。
优选地,本发明还提供一种多智能体***的行为决策***。所述多智能体***的行为决策***包括:
多智能体***的时空特征提取***,用于获取多智能体***在当前时刻t下的时空关系特征集;
行为决策计算单元,用于计算多智能体***在当前时刻t下的行为决策集
Figure 775449DEST_PATH_IMAGE062
,其 中,
Figure 744542DEST_PATH_IMAGE063
Figure 571684DEST_PATH_IMAGE064
i=1,2,…,N)表示第i个智能体在当前时刻t下的行 为决策,A为所选决策空间维数,
Figure 575412DEST_PATH_IMAGE065
表示实数。
进一步地,本发明还提供一种多智能体***的时空特征提取***,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体***在各时刻的状态集合,多智能体***由N个智能体组成,n t 为预设的历史状态数;
基于图网络生成层,根据各时刻的状态集合,得到多智能体***的原始特征集;
基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集;
基于时空关系提取层,根据当前时刻tn个离散时刻多智能体***的空间关系特征集,得到多智能体***在当前时刻t下的时空关系特征集。
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体***在各时刻的状态集合,多智能体***由N个智能体组成,n t 为预设的历史状态数;
基于图网络生成层,根据各时刻的状态集合,得到多智能体***的原始特征集;
基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集;
基于时空关系提取层,根据当前时刻tn个离散时刻多智能体***的空间关系特征集,得到多智能体***在当前时刻t下的时空关系特征集。
相对于现有技术,本发明多智能体***的时空特征提取***、行为决策方法、计算机可读存储介质与上述多智能体***的时空特征提取方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种多智能体***的时空特征提取方法,其特征在于,所述时空特征提取方法包括:
步骤100:获取在时刻t下,基于t-n t 时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体***在各时刻的状态集合,多智能体***由N个智能体组成,n t 为预设的历史时刻数;
步骤200:基于图网络生成层,根据各时刻的状态集合,得到多智能体***的原始特征集;所述图网络生成层由多层全连接神经网络构成;
步骤300:基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集;所述空间特征提取层采用图注意力网络模块与全连接网络模块交替堆叠的方式构建;
步骤400:基于时空关系提取层,根据当前时刻t及其前n个离散时刻多智能体***的空间关系特征集,得到多智能体***在当前时刻t下的时空关系特征集;所述时空关系提取层采用图卷积运算、带窥视孔的长短期记忆网络构建。
2.根据权利要求1所述的多智能体***的时空特征提取方法,其特征在于,所述基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集,具体包括:
步骤310,以多智能体***原始特征集h作为输入,通过第一图注意力网络模块,获得空间关系特征集
Figure 509038DEST_PATH_IMAGE001
;其中,原始特征集
Figure 229870DEST_PATH_IMAGE002
Figure 598534DEST_PATH_IMAGE003
为智能体i对应的原始特征向量,i=1,2…,N
步骤320,以
Figure 633486DEST_PATH_IMAGE001
为输入,通过第一全连接网络模块,获得空间特征集
Figure 138417DEST_PATH_IMAGE004
步骤330,基于步骤320方法获得的空间特征集,通过堆叠的图注意力网络模块和全连接网络模块,采用步骤310、步骤320的方法迭代计算第f次的空间特征集
Figure 233412DEST_PATH_IMAGE005
Figure 823793DEST_PATH_IMAGE006
;其中,
Figure 895392DEST_PATH_IMAGE007
Figure 520409DEST_PATH_IMAGE008
为图注意力网络模块和全连接网络模块的堆叠层数;
步骤340,在迭代计算第
Figure 583043DEST_PATH_IMAGE009
次的空间特征集时,基于
Figure 660720DEST_PATH_IMAGE010
,采用步骤310的方法,通过第
Figure 303054DEST_PATH_IMAGE009
图注意力网络模块得到空间特征集
Figure 782577DEST_PATH_IMAGE011
;将拼接特征集
Figure 953795DEST_PATH_IMAGE012
输入第
Figure 518769DEST_PATH_IMAGE009
全连接网络模块,得到空间特征集
Figure 230373DEST_PATH_IMAGE013
,作为时刻t下多智能体***基于所述空间特征提取层的最终输出
Figure 829981DEST_PATH_IMAGE014
3.根据权利要求2所述的多智能体***的时空特征提取方法行为决策方法,其特征在于,所述获得空间关系特征集
Figure 939145DEST_PATH_IMAGE001
,具体包括:
步骤311:采用多头注意力机制,针对多头注意力机制的多智能体***中的第m头注意力机制下的任一智能体i,智能体i能直接通信的邻居智能体组成的集合为N i ,在邻居智能体中选取一个智能体j,采用可学习的矩阵W对智能体ij对应的关系特征向量
Figure 725835DEST_PATH_IMAGE003
Figure 444393DEST_PATH_IMAGE015
进行线性变换,并拼接为一个新的关系特征向量
Figure 898508DEST_PATH_IMAGE016
;其中,W为关系特征向量
Figure 473846DEST_PATH_IMAGE003
Figure 13411DEST_PATH_IMAGE015
的线性变换矩阵;
步骤312:将
Figure 270080DEST_PATH_IMAGE017
输入一个全连接神经网络,输出智能体i对于智能体j的注意力系数
Figure 578702DEST_PATH_IMAGE018
步骤313:计算第m头注意力机制下的智能体i对于智能体j的注意力归一化系数
Figure 528203DEST_PATH_IMAGE019
Figure 86224DEST_PATH_IMAGE020
步骤314:计算多头注意力机制融合下智能体i与其邻居间的空间关系特征向量
Figure 975945DEST_PATH_IMAGE021
Figure 840870DEST_PATH_IMAGE022
其中,
Figure 774322DEST_PATH_IMAGE023
为sigmoid激活函数,
Figure 778226DEST_PATH_IMAGE024
为第
Figure 642277DEST_PATH_IMAGE025
头注意力选取的线性变换矩阵,
Figure 659912DEST_PATH_IMAGE026
表示向量的拼接操作,K为注意力机制的头数;
步骤315:计算得到所有智能体与其邻居间的空间关系特征后,得多智能体***空间关系特征集
Figure 216795DEST_PATH_IMAGE027
4.根据权利要求1所述的多智能体***的时空特征提取方法,其特征在于,所述得到多智能体***在当前时刻t下的时空关系特征集,具体包括:
将得到的当前时刻t及其前n个离散时刻内多智能体***的空间关系特征集
Figure 359194DEST_PATH_IMAGE028
,顺次输入到包含n+1个串序连接的、带窥视孔的长短期记忆网络单元的时空关系提取层,靠近输出端的长短期记忆网络单元记作
Figure 259892DEST_PATH_IMAGE029
,向前依次类推;第q个长短期记忆网络单元
Figure 397612DEST_PATH_IMAGE030
的单元状态记作
Figure 125397DEST_PATH_IMAGE031
,输出为时空关系特征集
Figure 82989DEST_PATH_IMAGE032
,输入为
Figure 554421DEST_PATH_IMAGE033
时刻的空间关系特征集
Figure 546648DEST_PATH_IMAGE034
以及第q+1个单元
Figure 179755DEST_PATH_IMAGE035
输出的时空关系特征集
Figure 890222DEST_PATH_IMAGE036
及其单元状态
Figure 401231DEST_PATH_IMAGE037
q=1,2,…,n+1;
Figure 247964DEST_PATH_IMAGE033
时刻的空间关系特征集
Figure 317551DEST_PATH_IMAGE034
、第q+1个单元
Figure 249735DEST_PATH_IMAGE035
输出的时空关系特征集
Figure 62970DEST_PATH_IMAGE036
及单元状态
Figure 29789DEST_PATH_IMAGE037
输入到采用图卷积神经网络的忘记门
Figure 4699DEST_PATH_IMAGE038
Figure 689758DEST_PATH_IMAGE039
其中,*表示图卷积运算,
Figure 539640DEST_PATH_IMAGE040
表示忘记门的图卷积神经网络的权重系数矩阵,
Figure 360965DEST_PATH_IMAGE041
表示忘记门的图卷积神经网络的偏置,
Figure 241197DEST_PATH_IMAGE023
为sigmoid激活函数;
Figure 351235DEST_PATH_IMAGE033
时刻的空间特征集
Figure 303011DEST_PATH_IMAGE034
以及第q+1个单元
Figure 978843DEST_PATH_IMAGE035
输出的时空关系特征集
Figure 561134DEST_PATH_IMAGE036
及单元状态
Figure 659933DEST_PATH_IMAGE037
输入到采用图卷积神经网络的输入门
Figure 353083DEST_PATH_IMAGE042
,并对单元状态进行更新:
Figure 617842DEST_PATH_IMAGE043
Figure 371034DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
其中,*表示图卷积运算,
Figure 455665DEST_PATH_IMAGE046
Figure 451041DEST_PATH_IMAGE047
为输入门的图卷积神经网络对应的权重系数矩阵,
Figure 898202DEST_PATH_IMAGE048
Figure 822296DEST_PATH_IMAGE049
为输入门的图卷积神经网络对应的偏置,
Figure 190960DEST_PATH_IMAGE023
为sigmoid激活函数,
Figure 225913DEST_PATH_IMAGE050
为tanh激活函数,
Figure 730843DEST_PATH_IMAGE051
为哈达玛积;
Figure 825838DEST_PATH_IMAGE033
时刻的空间关系特征集
Figure 416220DEST_PATH_IMAGE034
以及第q+1个单元
Figure 254863DEST_PATH_IMAGE035
输出的时空关系特征集
Figure 381344DEST_PATH_IMAGE036
以及更新后的单元状态
Figure 647240DEST_PATH_IMAGE031
输入到采用图卷积神经网络的输出门
Figure 724917DEST_PATH_IMAGE052
,得到第q个单元
Figure 101672DEST_PATH_IMAGE030
输出的时空关系特征集
Figure 581195DEST_PATH_IMAGE032
Figure 955676DEST_PATH_IMAGE053
Figure 488026DEST_PATH_IMAGE054
其中,*表示图卷积运算,
Figure 668472DEST_PATH_IMAGE055
表示过度变量,
Figure 268080DEST_PATH_IMAGE056
表示输出门的图卷积神经网络对应的权重系数矩阵,
Figure 875779DEST_PATH_IMAGE057
表示输出门的图卷积神经网络对应的偏置,
Figure 396890DEST_PATH_IMAGE058
为sigmoid激活函数,
Figure 381027DEST_PATH_IMAGE050
为tanh激活函数,
Figure 835142DEST_PATH_IMAGE051
为哈达玛积;其中第1个单元
Figure 126926DEST_PATH_IMAGE029
输出的为多智能体***在当前时刻t下的时空关系特征集
Figure 400912DEST_PATH_IMAGE059
5.根据权利要求1所述的多智能体***的时空特征提取方法,其特征在于,所述可观测到的时空状态向量包括智能体自身状态、任务目标状态、可观测到的其他智能体状态和可观测到的环境要素状态;
其中,智能体自身状态包括智能体自身位置、速度、加速度状态,任务目标状态包括目标位置、速度状态;
可观测到的其他智能体状态包括可观测到的其他智能体的位置、速度状态,
可观测到的环境要素状态包括可观测到的环境中障碍物的位置、速度状态,环境中禁止通行区的位置状态。
6.一种多智能体***的行为决策方法,其特征在于,所述行为决策方法包括:
基于权利要求1-5中任一项所述的多智能体***的时空特征提取方法,获取多智能体***在当前时刻t下的时空关系特征集
Figure 923160DEST_PATH_IMAGE059
计算多智能体***在当前时刻t下的行为决策集
Figure 497361DEST_PATH_IMAGE060
,其中,
Figure 446863DEST_PATH_IMAGE061
Figure 473724DEST_PATH_IMAGE062
表示第i个智能体在当前时刻t下的行为决策,A为所选决策空间维数,
Figure 534084DEST_PATH_IMAGE063
表示实数,i=1,2,…,N
7.一种多智能体***的时空特征提取***,其特征在于,所述时空特征提取***包括:
状态向量获取单元,用于获取在时刻t下,基于t-n t 时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体***在各时刻的状态集合,多智能体***由N个智能体组成,n t 为预设的历史时刻数;
原始特征生成单元,用于基于图网络生成层,根据各时刻的状态集合,得到多智能体***的原始特征集;所述图网络生成层由多层全连接神经网络构成;
空间关系计算单元,用于基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集;所述空间特征提取层采用图注意力网络模块与全连接网络模块交替堆叠的方式构建;
时空关系计算单元,用于基于时空关系提取层,根据当前时刻t及其前n个离散时刻多智能体***的空间关系特征集,得到多智能体***在当前时刻t下的时空关系特征集;所述时空关系提取层采用图卷积运算、带窥视孔的长短期记忆网络构建。
8.一种多智能体***的行为决策***,其特征在于,所述行为决策***包括:
基于权利要求7所述的多智能体***的时空特征提取***,用于获取多智能体***在当前时刻t下的时空关系特征集
Figure 962792DEST_PATH_IMAGE059
行为决策计算单元,用于计算多智能体***在当前时刻t下的行为决策集
Figure 581730DEST_PATH_IMAGE060
,其中,
Figure 830308DEST_PATH_IMAGE061
Figure 694359DEST_PATH_IMAGE064
表示第i个智能体在当前时刻t下的行为决策,A为所选决策空间维数,
Figure 977573DEST_PATH_IMAGE063
表示实数,i=1,2,…,N
9.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取在时刻t下,基于t-n t 时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体***在各时刻的状态集合,多智能体***由N个智能体组成,n t 为预设的历史时刻数;
基于图网络生成层,根据各时刻的状态集合,得到多智能体***的原始特征集;所述图网络生成层由多层全连接神经网络构成;
基于空间特征提取层,根据所述原始特征集,得到多智能体***在当前时刻t下的空间关系特征集;所述空间特征提取层采用图注意力网络模块与全连接网络模块交替堆叠的方式构建;
基于时空关系提取层,根据当前时刻t及其前n个离散时刻多智能体***的空间关系特征集,得到多智能体***在当前时刻t下的时空关系特征集;所述时空关系提取层采用图卷积运算、带窥视孔的长短期记忆网络构建。
CN202010872541.9A 2020-08-26 2020-08-26 多智能体时空特征提取方法及***、行为决策方法及*** Active CN111814915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010872541.9A CN111814915B (zh) 2020-08-26 2020-08-26 多智能体时空特征提取方法及***、行为决策方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010872541.9A CN111814915B (zh) 2020-08-26 2020-08-26 多智能体时空特征提取方法及***、行为决策方法及***

Publications (2)

Publication Number Publication Date
CN111814915A CN111814915A (zh) 2020-10-23
CN111814915B true CN111814915B (zh) 2020-12-25

Family

ID=72859688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010872541.9A Active CN111814915B (zh) 2020-08-26 2020-08-26 多智能体时空特征提取方法及***、行为决策方法及***

Country Status (1)

Country Link
CN (1) CN111814915B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112203291B (zh) * 2020-12-03 2021-02-23 中国科学院自动化研究所 基于知识嵌入的区域覆盖和连通保持的集群控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286071A (zh) * 2008-04-24 2008-10-15 北京航空航天大学 基于微粒群优化和遗传算法的多无人机三维编队重构方法
EP2249292A1 (en) * 2009-04-03 2010-11-10 Siemens Aktiengesellschaft Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot
CN102707693A (zh) * 2012-06-05 2012-10-03 清华大学 一种时空联合的多架无人机协同控制***的构建方法
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN109254588A (zh) * 2018-10-17 2019-01-22 北京航空航天大学 一种基于交叉变异鸽群优化的无人机集群协同侦察方法
CN111091708A (zh) * 2019-12-13 2020-05-01 中国科学院深圳先进技术研究院 车辆轨迹预测方法及装置
CN111221352A (zh) * 2020-03-03 2020-06-02 中国科学院自动化研究所 基于多无人机协同博弈对抗的控制***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503073B (zh) * 2019-08-29 2023-04-18 大连海事大学 一种第三视角下动态链接的密集多智能体轨迹预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286071A (zh) * 2008-04-24 2008-10-15 北京航空航天大学 基于微粒群优化和遗传算法的多无人机三维编队重构方法
EP2249292A1 (en) * 2009-04-03 2010-11-10 Siemens Aktiengesellschaft Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot
CN102707693A (zh) * 2012-06-05 2012-10-03 清华大学 一种时空联合的多架无人机协同控制***的构建方法
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN109254588A (zh) * 2018-10-17 2019-01-22 北京航空航天大学 一种基于交叉变异鸽群优化的无人机集群协同侦察方法
CN111091708A (zh) * 2019-12-13 2020-05-01 中国科学院深圳先进技术研究院 车辆轨迹预测方法及装置
CN111221352A (zh) * 2020-03-03 2020-06-02 中国科学院自动化研究所 基于多无人机协同博弈对抗的控制***

Also Published As

Publication number Publication date
CN111814915A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
US11138495B2 (en) Classifying features using a neurosynaptic system
US10846567B2 (en) Scene understanding using a neurosynaptic system
CN111738372B (zh) 分布式多智能体时空特征提取方法、行为决策方法
Shaheen et al. Continual learning for real-world autonomous systems: Algorithms, challenges and frameworks
US9798972B2 (en) Feature extraction using a neurosynaptic system for object classification
CN110737968A (zh) 基于深层次卷积长短记忆网络的人群轨迹预测方法及***
Wei et al. Learning motion rules from real data: Neural network for crowd simulation
Saksena et al. Towards behavioural cloning for autonomous driving
CN111814915B (zh) 多智能体时空特征提取方法及***、行为决策方法及***
Hu et al. Scalable perception-action-communication loops with convolutional and graph neural networks
Sellat et al. Semantic segmentation for self-driving cars using deep learning: a survey
CN113534678B (zh) 一种操作问答任务的仿真到物理***的迁移方法
Xu et al. Automated labeling for robotic autonomous navigation through multi-sensory semi-supervised learning on big data
US20220269948A1 (en) Training of a convolutional neural network
CN107225571A (zh) 机器人运动控制方法和装置、机器人
Noguchi et al. Navigation behavior based on self-organized spatial representation in hierarchical recurrent neural network
CN115762147A (zh) 一种基于自适应图注意神经网络的交通流量预测方法
Xue et al. Monocular vision guided deep reinforcement learning UAV systems with representation learning perception
Liu et al. Convolutional Neural Network Based Unmanned Ground Vehicle Control via Deep Reinforcement Learning
CN114779821A (zh) 基于深度学习的无人机自适应斥力系数路径规划方法
Shi et al. Path Planning of Unmanned Aerial Vehicle Based on Supervised Learning
Ji et al. Communication Emitter Motion Behavior’s Cognition Based on Deep Reinforcement Learning
Liu et al. End-to-end control of autonomous vehicles based on deep learning with visual attention
Wang et al. Data‐Driven Simulation of Pedestrian Movement with Artificial Neural Network
Araújo et al. Cooperative observation of malicious targets in a 3d urban traffic environment using uavs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant