CN114629798B - 多智能体协同规划方法、装置、电子设备及存储介质 - Google Patents

多智能体协同规划方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114629798B
CN114629798B CN202210102211.0A CN202210102211A CN114629798B CN 114629798 B CN114629798 B CN 114629798B CN 202210102211 A CN202210102211 A CN 202210102211A CN 114629798 B CN114629798 B CN 114629798B
Authority
CN
China
Prior art keywords
agent
target point
central
neural network
agents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210102211.0A
Other languages
English (en)
Other versions
CN114629798A (zh
Inventor
芦维宁
戴汉奇
陈章
杨君
梁斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210102211.0A priority Critical patent/CN114629798B/zh
Publication of CN114629798A publication Critical patent/CN114629798A/zh
Application granted granted Critical
Publication of CN114629798B publication Critical patent/CN114629798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及多智能体协同规划技术领域,特别涉及一种多智能体协同规划方法、装置、电子设备及存储介质,其中,方法包括:采集中心智能体和对应目标点之间的相对位置;基于相对位置,利用预设的图神经网络对至少一个近邻智能体或中心智能体进行定向采样,获取定向采样结果,其中,图神经网络由CNN、TOKF‑GraphSAGE和MLP复合构建;利用预设的图神经网络由定向采样结果采样聚合为面向任务的多智能体的最佳协同动作。由此,解决了信息部分可知情况下对近邻智能体进行定向采样信息的问题,根据中心智能体和目标点的相对位置,对朝向目标点区域的近邻智能体进行定向采样,提高训练的效率和稳定性。

Description

多智能体协同规划方法、装置、电子设备及存储介质
技术领域
本申请涉及多智能体协同规划技术领域,特别涉及一种多智能体协同规划方法、装置、电子设备及存储介质。
背景技术
多智能体***起源于从上世纪80年代,多智能体协同规划是多智能体***中的一个重要分支,它可以被定义为“一组智能体之间的联合操作或行动”,这是多智能体***处理各种实际任务时必不可少的能力。近年来,多智能体协同规划领域的研究引起了人们的广泛关注并取得了显着进展,协作多智能体规划具有许多实际应用,比如军事领域中的无人机群协同作战,多弹头导弹联合突防等,比如民生领域,物流仓储协、交通控制等。
在实际应用场景中,环境信息往往都是部分可知或完全未知,且智能体感知和通信范围也是受限的,因此,多智能体协同规划问题的一个研究难点和重点就是智能体之间的信息共享问题,问题的关键就在于如何共享信息、共享哪些信息。由于智能体之间的通信网络可看作是一张非欧数据图,而图神经网络方法既能够聚合网络中复杂的结构信息,同时又能囊括丰富的属性信息,为解决信息共享问题提供了一种可行方案。
发明内容
本申请提供一种多智能体协同规划方法、装置、电子设备及存储介质,以解决信息部分可知情况下对近邻智能体进行定向采样信息的问题,根据中心智能体和目标点的相对位置,对朝向目标点区域的近邻智能体进行定向采样,提高训练的效率和稳定性。
本申请第一方面实施例提供一种多智能体协同规划方法,包括以下步骤:
采集中心智能体和对应目标点之间的相对位置;
基于所述相对位置,利用预设的图神经网络对至少一个近邻智能体或所述中心智能体进行定向采样,获取定向采样结果,其中,所述图神经网络由CNN(ConvolutionalNeural Networks,卷积神经网络)、TOKF-GraphSAGE和MLP(Multilayer Perceptron,全连接神经网络)复合构建;以及
利用所述预设的图神经网络由所述定向采样结果采样聚合为面向任务的多智能体的最佳协同动作。
可选地,所述利用预设的图神经网络对至少一个近邻智能体或所述中心智能体进行定向采样,包括:
获取由所述相对位置确定用于采样的至少一个近邻智能体或所述中心智能体的感知图像;
从所述感知图像中提取所述至少一个近邻智能体或所述中心智能体的环境特征;
将所述环境特征输入至TOKF-GraphSAGE中,分别以所述至少一个近邻智能体或所述中心智能体中每一个智能体为中心,对朝向对应目标点方向的至少一个近邻智能体或所述中心智能体进行信息采样和聚合,得到当前智能体面向任务的知识融合结果;
将所述知识融合结果输入至MLP中,映射为基于概率分布的动作策略,得到所述至少一个近邻智能体或所述中心智能体在任一时刻的预测动作。
可选地,所述将所述环境特征输入至TOKF-GraphSAGE中,分别以所述至少一个近邻智能体或所述中心智能体中每一个智能体为中心,对朝向对应目标点方向的至少一个近邻智能体或所述中心智能体进行信息采样和聚合,得到当前智能体面向任务的知识融合结果,包括:
由所述环境特征生成N个高维向量,其中,所述N为正整数;
将所述N个高维向量和所述一个或多个智能体的实际状态信息得到所述每个智能体的共享知识;
聚合所述一个或多个智能体的共享知识,得到所述知识融合结果。
可选地,所述聚合所述一个或多个智能体的共享知识,包括:
根据所述相对位置确定朝向目标点区域和背对目标点区域;
基于所述朝向目标点区域和背对目标点区域确定所述一个或多个智能体的相关系数;
根据所述一个或多个智能体的相关系数聚合所述一个或多个智能体的共享知识。
可选地,所述朝向目标点区域内的智能体的相关系数大于所述背对目标点区域的智能体的相关系数。
本申请第二方面实施例提供一种多智能体协同规划装置,包括:
采集模块,用于采集中心智能体和对应目标点之间的相对位置;
获取模块,用于基于所述相对位置,利用预设的图神经网络对至少一个近邻智能体或所述中心智能体进行定向采样,获取定向采样结果,其中,所述图神经网络由CNN、TOKF-GraphSAGE和MLP复合构建;以及
规划模块,用于利用所述预设的图神经网络由所述定向采样结果采样聚合为面向任务的多智能体的最佳协同动作。
可选地,所述获取模块,具体用于:
获取由所述相对位置确定用于采样的至少一个近邻智能体或所述中心智能体的感知图像;
从所述感知图像中提取所述至少一个近邻智能体或所述中心智能体的环境特征;
将所述环境特征输入至TOKF-GraphSAGE中,分别以所述至少一个近邻智能体或所述中心智能体中每一个智能体为中心,对朝向对应目标点方向的至少一个近邻智能体或所述中心智能体进行信息采样和聚合,得到当前智能体面向任务的知识融合结果;
将所述知识融合结果输入至MLP中,映射为基于概率分布的动作策略,得到所述至少一个近邻智能体或所述中心智能体在任一时刻的预测动作。
可选地,所述获取模块,具体用于:
由所述环境特征生成N个高维向量,其中,所述N为正整数;
将所述N个高维向量和所述一个或多个智能体的实际状态信息得到所述每个智能体的共享知识;
聚合所述一个或多个智能体的共享知识,得到所述知识融合结果。
可选地,所述获取模块,具体用于:
根据所述相对位置确定朝向目标点区域和背对目标点区域;
基于所述朝向目标点区域和背对目标点区域确定所述一个或多个智能体的相关系数;
根据所述一个或多个智能体的相关系数聚合所述一个或多个智能体的共享知识。
可选地,所述朝向目标点区域内的智能体的相关系数大于所述背对目标点区域的智能体的相关系数。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的多智能体协同规划方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现上述的多智能体协同规划方法。
由此,采集中心智能体和目标点之间的相对位置,并基于相对位置,利用预设的图神经网络对至少一个近邻智能体进行定向采样,获取定向采样结果,并利用预设的图神经网络由定向采样结果采样聚合为面向任务的多智能体的最佳协同动作。由此,可以根据中心智能体和目标点的相对位置,对朝向目标点区域的近邻智能体进行定向采样,提高训练的效率和稳定性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种多智能体协同规划方法的流程图;
图2为根据本申请一个实施例的由CNN、TOKF-GraphSAGE和MLP组成的复合网络的示例图;
图3为根据本申请一个实施例的TOKF-GraphSAGE的流程图;
图4为根据本申请一个实施例的朝向、背对目标点区域的定义的示意图;
图5为根据本申请一个实施例的仿真实验成功率与智能体数量之间的关系示意图;
图6为根据本申请一个实施例的仿真实验耗时增量比与智能体数量之间的关系的示意图;
图7为根据本申请一个实施例的仿真实验成功率与训练周期之间的关系的示意图;
图8为根据本申请实施例的多智能体协同规划装置的示例图;
图9为根据本申请实施例的电子设备的示例图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的多智能体协同规划方法、装置、电子设备及存储介质。针对上述背景技术中心提到的信息部分可知情况下对近邻智能体进行定向采样信息的问题,本申请提供了一种多智能体协同规划方法,在该方法中,采集中心智能体和目标点之间的相对位置,并基于相对位置,利用预设的图神经网络对至少一个近邻智能体进行定向采样,获取定向采样结果,并利用预设的图神经网络由定向采样结果采样聚合为面向任务的多智能体的最佳协同动作。由此,可以根据中心智能体和目标点的相对位置,对朝向目标点区域的近邻智能体进行定向采样,提高训练的效率和稳定性。
具体而言,图1为本申请实施例所提供的一种多智能体协同规划方法的流程示意图。
该实施例中,多智能体协同规划的目标为:在二维网格平面内,多智能体从各自起始点,在限定的时间内寻找到一条无碰撞的到达各自的目标点的最优或次优路径。
其中,本申请实施例的仿真环境为二维网格平面,W、H分别为二维网格平面的宽度和高度,平面中包含N个智能体V={v1,...,vN}和各自目标点G={G1,...,GN}。各智能体的感知半径为rob为智能体vi在t时刻的感知图像,WOB、HOB分别为感知图像的宽度和高度。各智能体的通信半径为rcom,当智能体vi、vj的相对位置小于rcom时,即||pi-pj||≤rcom,则智能体vi和智能体vj可相互通信,反之,则无法通信,其中,pi、pj分别为智能体vi和vj的位置。定义/>为多智能体在t时刻的通信网络图,其中,εt代表相互可通信的智能体的所组成的连边的集合。
N个智能体的预测动作生成过程原理相同,本申请实施例将以智能体vi为例,具体介绍t时刻的预测动作生成过程。
如图1所示,该多智能体协同规划方法包括以下步骤:
在步骤S101中,采集中心智能体和对应目标点之间的相对位置。
应当理解的是,本申请实施例中可以存在有N个智能体,分别为以单个智能体为中心智能体,采集当前中心智能体和对应目标点的相对位置。
在步骤S102中,基于相对位置,利用预设的图神经网络对至少一个近邻智能体或中心智能体进行定向采样,获取定向采样结果,其中,图神经网络由CNN、TOKF-GraphSAGE和MLP复合构建。需要说明的是,如果基于相对位置判断出中心智能体通信范围内无其他近邻智能体,则只将中心智能体自身的感知信息作为采样结果。
具体地,如图2所示,图2为由CNN、TOKF-GraphSAGE和MLP组成的复合网络。其中,环境信息提取模块由CNN组成,用于抽取各智能体感知到的周围环境信息;面向任务的知识聚合模块由面向任务采样机制的GraphSAGE组成,用于对朝向目标点方向的智能体进行信息采样和聚合;决策模块由标准的MLP组成。
在步骤S103中,利用预设的图神经网络由定向采样结果采样聚合为面向任务的多智能体的最佳协同动作。
可选地,在一些实施例中,利用预设的图神经网络对至少一个近邻智能体或中心智能体进行定向采样,包括:获取由相对位置确定用于采样的至少一个近邻智能体或中心智能体的感知图像;从感知图像中提取至少一个近邻智能体或中心智能体的环境特征;将环境特征输入至TOKF-GraphSAGE中,分别以至少一个近邻智能体或中心智能体中每一个智能体为中心,对朝向对应目标点方向的至少一个近邻智能体或中心智能体进行信息采样和聚合,得到当前智能体面向任务的知识融合结果;将知识融合结果输入至MLP中,映射为基于概率分布的动作策略,得到至少一个近邻智能体或中心智能体在任一时刻的预测动作。
其中,在一些实施例中,将环境特征输入至TOKF-GraphSAGE中,分别以至少一个近邻智能体或中心智能体中每一个智能体为中心,对朝向对应目标点方向的至少一个近邻智能体或中心智能体进行信息采样和聚合,得到当前智能体面向任务的知识融合结果,包括:由环境特征生成N个高维向量,其中,N为正整数;将N个高维向量和一个或多个智能体的实际状态信息得到每个智能体的共享知识;聚合一个或多个智能体的共享知识,得到知识融合结果。
其中,在一些实施例中,聚合一个或多个智能体的共享知识,包括:根据相对位置确定朝向目标点区域和背对目标点区域;基于朝向目标点区域和背对目标点区域确定一个或多个智能体的相关系数;根据一个或多个智能体的相关系数聚合一个或多个智能体的共享知识。
可选地,在一些实施例中,朝向目标点区域内的智能体的相关系数大于背对目标点区域的智能体的相关系数。
具体地,本申请实施例可以先将各智能体的感知环境信息以图像的形式输入到环境提取模块中,经过CNN充分抽取特征后生成N个高维知识向量,即这些学习到的知识加上自身的状态信息可以看作是每个智能体所拥有的知识,用于与其他智能体共享。
之后,使用面向任务的知识融合模块聚合来自相邻智能体的知识,该模块由具有面向任务的(TOKF-GNN)采样机制的GraphSage构建,即提出的TOKF-GraphSAGE。最后,将TOKF-GraphSAGE的输出结果输入到决策模块中,该模块使用标准MLP模型做出行动决策。TOKF框架旨在提高近邻智能体的知识聚合质量,以便智能体能够以最佳方式达到各自的目标点。显然,对于中心智能体而言,朝向目标点区域的近邻智能体,对于其做出合理的行动决策可能更有价值。因此,本申请实施例提出的TOKF框架的核心思想是从特定方向加强智能体中包含的知识。
进一步地,如图3所示,图3为TOKF-GraphSAGE的工作流程图。其中,深色区域的智能体比浅色区域的智能体更有助于中心智能体完成路径规划任务,因此,本申请实施例介绍一下使用软采样的实现方法。仅通过修改智能体之间的连接权重来选择有价值的相邻是不可行的,因为所采样的智能体对于每个训练周期都不是固定的。因此,本申请实施例可以根据近邻智能体和中心智能体相对于目标点之间的位置关系,来筛选所采样的智能体。
首先,定义“朝向目标点区域”和“背对目标点区域”,图4所示为朝向、背对目标点区域的定义。将中心智能体与其目标的连线作为y轴,正方向,那么在这个坐标系中,第一和第二象限是朝向目标点区域,自然第三和第四象限是背对目标点区域。本申请实施例将朝向目标点区域中采样的智能体的知识向量乘以较大的系数(θtowards),同时,将背对目标点区域中采样的的智能体的知识向量乘以较小的系数(θbackwards)。需要注意的是,软采样算法仅放在第一级邻居上,避免丢失更多不可见代理的信息。通过这样做,来自有价值的近邻智能体的知识是加强。
最后,再将TOKF-GraphSAGE的输出张量输入到由标准的MLP组成的决策模块中,映射为基于概率分布的动作策略,生成智能体vi在t时刻的预测动作
其中,TOKF-GraphSAGE前向传播算法的具体工作过程如下所示:
输入:输入特征/>深度K;权重矩阵Wk,/>非线性函数σ;可微聚合函数AGGREGATEk;近邻函数N:i→2i;朝向目标点区域TowardsArea;背对目标点区域BackwardsArea。
输出:向量表示
1:
2:for k=1,...,K do
3:for vi∈V do
4:if k==2andvi∈TowardsArea then
5:
6:else if k==2and vi∈BackwardsArea then
7:
8:end if
9:
10:end for
11:
12:end for
13:
进一步地,对本申请实施例构建的基于CNN、TOKF-GraphSAGE和MLP所组成的复合网络进行仿真实验验证。其中,本申请实施例可以使用vgg-net作为CNN的架构,所有卷积核大小为3,步长为1,且零填充;TOKF-GraphSAGE采用2层网采样(K=3),每层采样数为3个,输入为128维、输出为7维的结构。实验使用开源数据集进行监督学习,大小为20×20、障碍率为10%的不同地图共30000张,70%用于训练,15%用于测试,15%用于验证,分别使用相同数量(4、6、8、10、12)的智能体训练、测试该网络,假设各智能体的感知半径rob=4,通信半径rcom=5,使用成功率θ和耗时增量比作为衡量指标,其中,成功率=nsuc/n,nsuc为成功完成规划的智能体数量,n为总的智能体数量;耗时增量比=(FT-FT*)/FT,FT为完成任务总的规划耗时,FT*为完成任务最优耗时。
本申请实施例可以将仿真实验结果与CNN、GraphSAGE、MLP所组成的复合网络进行比较。
首先对相同数量的智能体进行训练和测试,实验结果如图5、6所示。图5为成功率θ与智能体数量之间的关系,可以看到,随着智能体数量的增加,本申请实施例的方法明显优于GraphSAGE。图6为耗时增量比与智能体数量之间的关系,可以看到,本申请实施例的方法更加稳定,鲁棒性更好。
进一步地,再对10个智能体训练测试,通过两种方法的训练过程分析框架性能。图7为成功率与训练周期之间的关系,可以看到,不论是成功率还是稳定性,本申请实施例的方法都明显优于GraphSAGE。同时,列出TOKF-GraphSAGE中的采样参数θtowards、θbackwards,如表1所示,这意味着对于协同规划,朝向目标点方向智能体的知识比背对目标点方向智能体的知识更重要,也证明了本申请实施例的TOKF-GraphSAGE的有效性。
表1
由此,通过构建由CNN、TOKF-GraphSAGE、MLP所组成的复合网络,,由CNN充分抽取各智能体感知信息的特征,并输入到TOKF-GraphSAGE中,分别以各智能体为中心,对朝向目标点方向的近邻智能体进行信息采样和聚合,之后输入到MLP中,映射为基于概率分布的动作策略,相比于只有CNN、TOKF-GraphSAGE、MLP所组成的复合网络进行仿真实验比较而言,本申请实施例的方法成功率更高、耗时增量比更小、鲁棒性更好,显示了本申请实施例的基于任务相关定向采样方法的图神经网络的有效性。
根据本申请实施例提出的多智能体协同规划方法,采集中心智能体和目标点之间的相对位置,并基于相对位置,利用预设的图神经网络对至少一个近邻智能体进行定向采样,获取定向采样结果,并利用预设的图神经网络由定向采样结果采样聚合为面向任务的多智能体的最佳协同动作。由此,可以根据中心智能体和目标点的相对位置,对朝向目标点区域的近邻智能体进行定向采样,提高训练的效率和稳定性。
其次参照附图描述根据本申请实施例提出的多智能体协同规划装置。
图8是本申请实施例的多智能体协同规划装置的方框示意图。
如图8所示,该多智能体协同规划装置10包括:采集模块100、获取模块200和规划模块300。
其中,采集模块100用于采集中心智能体和对应目标点之间的相对位置;
获取模块200用于基于相对位置,利用预设的图神经网络对至少一个近邻智能体或中心智能体进行定向采样,获取定向采样结果,其中,图神经网络由CNN、TOKF-GraphSAGE和MLP复合构建;以及
规划模块300用于利用预设的图神经网络由定向采样结果采样聚合为面向任务的多智能体的最佳协同动作。
可选地,获取模块200具体用于:
获取由相对位置确定用于采样的至少一个近邻智能体或中心智能体的感知图像;
从感知图像中提取至少一个近邻智能体或中心智能体的环境特征;
将环境特征输入至TOKF-GraphSAGE中,分别以至少一个近邻智能体或中心智能体中每一个智能体为中心,对朝向对应目标点方向的至少一个近邻智能体或中心智能体进行信息采样和聚合,得到当前智能体面向任务的知识融合结果;
将知识融合结果输入至MLP中,映射为基于概率分布的动作策略,得到至少一个近邻智能体或中心智能体在任一时刻的预测动作。
可选地,获取模块200具体用于:
由环境特征生成N个高维向量,其中,N为正整数;
将N个高维向量和一个或多个智能体的实际状态信息得到每个智能体的共享知识;
聚合一个或多个智能体的共享知识,得到知识融合结果。
可选地,获取模块200具体用于:
根据相对位置确定朝向目标点区域和背对目标点区域;
基于朝向目标点区域和背对目标点区域确定一个或多个智能体的相关系数;
根据一个或多个智能体的相关系数聚合一个或多个智能体的共享知识。
可选地,朝向目标点区域内的智能体的相关系数大于背对目标点区域的智能体的相关系数。
需要说明的是,前述对多智能体协同规划方法实施例的解释说明也适用于该实施例的多智能体协同规划装置,此处不再赘述。
根据本申请实施例提出的多智能体协同规划装置,采集中心智能体和目标点之间的相对位置,并基于相对位置,利用预设的图神经网络对至少一个近邻智能体进行定向采样,获取定向采样结果,并利用预设的图神经网络由定向采样结果采样聚合为面向任务的多智能体的最佳协同动作。由此,可以根据中心智能体和目标点的相对位置,对朝向目标点区域的近邻智能体进行定向采样,提高训练的效率和稳定性。
图9为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器901、处理器902及存储在存储器901上并可在处理器902上运行的计算机程序。
处理器902执行程序时实现上述实施例中提供的多智能体协同规划方法。
进一步地,电子设备还包括:
通信接口903,用于存储器901和处理器902之间的通信。
存储器901,用于存放可在处理器902上运行的计算机程序。
存储器901可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器901、处理器902和通信接口903独立实现,则通信接口903、存储器901和处理器902可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器901、处理器902及通信接口903,集成在一块芯片上实现,则存储器901、处理器902及通信接口903可以通过内部接口完成相互间的通信。
处理器902可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的多智能体协同规划方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种多智能体协同规划方法,其特征在于,包括以下步骤:
采集中心智能体和对应目标点之间的相对位置;
基于所述相对位置,利用预设的图神经网络对至少一个近邻智能体或所述中心智能体进行定向采样,获取定向采样结果,其中,所述图神经网络由卷积神经网络CNN、基于任务相关的定向采样聚合图神经网络TOKF-GraphSAGE和全连接神经网络MLP复合构建;以及
利用所述预设的图神经网络由所述定向采样结果采样聚合为面向任务的多智能体的最佳协同动作;
其中,所述利用预设的图神经网络对至少一个近邻智能体或所述中心智能体进行定向采样,包括:获取由所述相对位置确定用于采样的至少一个近邻智能体或所述中心智能体的感知图像;从所述感知图像中提取所述至少一个近邻智能体或所述中心智能体的环境特征;将所述环境特征输入至TOKF-GraphSAGE中,分别以所述至少一个近邻智能体或所述中心智能体中每一个智能体为中心,对朝向对应目标点方向的至少一个近邻智能体或所述中心智能体进行信息采样和聚合,得到当前智能体面向任务的知识融合结果;将所述知识融合结果输入至MLP中,映射为基于概率分布的动作策略,得到所述至少一个近邻智能体或所述中心智能体在任一时刻的预测动作。
2.根据权利要求1所述的方法,其特征在于,所述将所述环境特征输入至TOKF-GraphSAGE中,分别以所述至少一个近邻智能体或所述中心智能体中每一个智能体为中心,对朝向对应目标点方向的至少一个近邻智能体或所述中心智能体进行信息采样和聚合,得到当前智能体面向任务的知识融合结果,包括:
由所述环境特征生成N个高维向量,其中,所述N为正整数;
将所述N个高维向量和所述一个或多个智能体的实际状态信息得到每个智能体的共享知识;
聚合所述一个或多个智能体的共享知识,得到所述知识融合结果。
3.根据权利要求2所述的方法,其特征在于,所述聚合所述一个或多个智能体的共享知识,包括:
根据所述相对位置确定朝向目标点区域和背对目标点区域;
基于所述朝向目标点区域和背对目标点区域确定所述一个或多个智能体的相关系数;
根据所述一个或多个智能体的相关系数聚合所述一个或多个智能体的共享知识。
4.根据权利要求3所述的方法,其特征在于,所述朝向目标点区域内的智能体的相关系数大于所述背对目标点区域的智能体的相关系数。
5.一种多智能体协同规划装置,其特征在于,包括:
采集模块,用于采集中心智能体和对应目标点之间的相对位置;
获取模块,用于基于所述相对位置,利用预设的图神经网络对至少一个近邻智能体或所述中心智能体进行定向采样,获取定向采样结果,其中,所述图神经网络由卷积神经网络CNN、基于任务相关的定向采样聚合图神经网络TOKF-GraphSAGE和全连接神经网络MLP复合构建;以及
规划模块,用于利用所述预设的图神经网络由所述定向采样结果采样聚合为面向任务的多智能体的最佳协同动作;
其中,所述获取模块,具体用于:获取由所述相对位置确定用于采样的至少一个近邻智能体或所述中心智能体的感知图像;从所述感知图像中提取所述至少一个近邻智能体或所述中心智能体的环境特征;将所述环境特征输入至TOKF-GraphSAGE中,分别以所述至少一个近邻智能体或所述中心智能体中每一个智能体为中心,对朝向对应目标点方向的至少一个近邻智能体或所述中心智能体进行信息采样和聚合,得到当前智能体面向任务的知识融合结果;将所述知识融合结果输入至MLP中,映射为基于概率分布的动作策略,得到所述至少一个近邻智能体或所述中心智能体在任一时刻的预测动作。
6.根据权利要求5所述的装置,其特征在于,所述获取模块,具体用于:
由所述环境特征生成N个高维向量,其中,所述N为正整数;
将所述N个高维向量和所述一个或多个智能体的实际状态信息得到每个智能体的共享知识;
聚合所述一个或多个智能体的共享知识,得到所述知识融合结果。
7.根据权利要求6所述的装置,其特征在于,所述获取模块,具体用于:
根据所述相对位置确定朝向目标点区域和背对目标点区域;
基于所述朝向目标点区域和背对目标点区域确定所述一个或多个智能体的相关系数;
根据所述一个或多个智能体的相关系数聚合所述一个或多个智能体的共享知识。
8.根据权利要求7所述的装置,其特征在于,所述朝向目标点区域内的智能体的相关系数大于所述背对目标点区域的智能体的相关系数。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-4任一项所述的多智能体协同规划方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-4任一项所述的多智能体协同规划方法。
CN202210102211.0A 2022-01-27 2022-01-27 多智能体协同规划方法、装置、电子设备及存储介质 Active CN114629798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210102211.0A CN114629798B (zh) 2022-01-27 2022-01-27 多智能体协同规划方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210102211.0A CN114629798B (zh) 2022-01-27 2022-01-27 多智能体协同规划方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114629798A CN114629798A (zh) 2022-06-14
CN114629798B true CN114629798B (zh) 2023-08-18

Family

ID=81897859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210102211.0A Active CN114629798B (zh) 2022-01-27 2022-01-27 多智能体协同规划方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114629798B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112486641A (zh) * 2020-11-18 2021-03-12 鹏城实验室 一种基于图神经网络的任务调度方法
WO2021097435A1 (en) * 2019-11-15 2021-05-20 Waymo Llc Agent trajectory prediction using vectorized inputs
CN113159432A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于深度强化学习的多智能体路径规划方法
CN113806546A (zh) * 2021-09-30 2021-12-17 中国人民解放军国防科技大学 一种基于协同训练的图神经网络对抗防御方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10831629B2 (en) * 2017-01-27 2020-11-10 International Business Machines Corporation Multi-agent plan recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021097435A1 (en) * 2019-11-15 2021-05-20 Waymo Llc Agent trajectory prediction using vectorized inputs
CN112486641A (zh) * 2020-11-18 2021-03-12 鹏城实验室 一种基于图神经网络的任务调度方法
CN113159432A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于深度强化学习的多智能体路径规划方法
CN113806546A (zh) * 2021-09-30 2021-12-17 中国人民解放军国防科技大学 一种基于协同训练的图神经网络对抗防御方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于神经网络的知识推理研究综述;张仲伟等;《计算机工程与应用》;20190325(第12期);全文 *

Also Published As

Publication number Publication date
CN114629798A (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN110799992B (zh) 使用模拟和域适配以用于机器人控制
Akan et al. Stretchbev: Stretching future instance prediction spatially and temporally
CN108009525A (zh) 一种基于卷积神经网络的无人机对地特定目标识别方法
CN110766038B (zh) 无监督式的地貌分类模型训练和地貌图构建方法
Dai et al. Image-based traffic signal control via world models
CN111178504B (zh) 基于深度神经网络的鲁棒压缩模型的信息处理方法及***
CN110490203A (zh) 图像分割方法及装置、电子设备和计算机可读存储介质
CN112270259A (zh) 基于轻量级卷积神经网络的sar图像舰船目标快速检测方法
Chen et al. Efficient differentiable neural architecture search with meta kernels
Xia et al. Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning
CN115331109A (zh) 基于旋转等变卷积通道注意力增强和多尺度特征融合的遥感图像目标检测方法
Tan et al. Co-saliency detection with intra-group two-stage group semantics propagation and inter-group contrastive learning
Jiang et al. Multi-level graph convolutional recurrent neural network for semantic image segmentation
CN111914949B (zh) 基于强化学习的零样本学习模型的训练方法及装置
CN114629798B (zh) 多智能体协同规划方法、装置、电子设备及存储介质
CN117853596A (zh) 无人机遥感测绘方法及***
CN116486238B (zh) 联合点集表示与图分类的目标细粒度识别方法
CN114489043B (zh) 多智能体路径规划方法、装置、电子设备及存储介质
Lu et al. A New Siamese Heterogeneous Convolutional Neural Networks Based on Attention Mechanism and Feature Pyramid
CN114648560A (zh) 分布式图像配准方法、***、介质、计算机设备及终端
CN115481215A (zh) 一种基于时态合作者知识图谱的合作者预测方法和预测***
Lee et al. Domain-Invariant 3D Structural Convolutional Network for Autonomous Driving Point Cloud Dataset
CN115099401B (zh) 基于世界建模的持续学习框架的学习方法、装置及设备
CN114444597B (zh) 基于渐进式融合网络的视觉跟踪方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant