CN117579358A - 多智能体通信方法、装置、存储介质和电子设备 - Google Patents

多智能体通信方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN117579358A
CN117579358A CN202311586285.7A CN202311586285A CN117579358A CN 117579358 A CN117579358 A CN 117579358A CN 202311586285 A CN202311586285 A CN 202311586285A CN 117579358 A CN117579358 A CN 117579358A
Authority
CN
China
Prior art keywords
agent
information
communication
state
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311586285.7A
Other languages
English (en)
Inventor
张俊格
乔丹
陈皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202311586285.7A priority Critical patent/CN117579358A/zh
Publication of CN117579358A publication Critical patent/CN117579358A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • H04L63/205Network architectures or network communication protocols for network security for managing network security; network security policies in general involving negotiation or determination of the one or more network security mechanisms to be used, e.g. by negotiation between the client and the server or between peers or by selection according to the capabilities of the entities involved
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0209Architectural arrangements, e.g. perimeter networks or demilitarized zones
    • H04L63/0218Distributed architectures, e.g. distributed firewalls
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及一种多智能体通信方法、装置、存储介质和电子设备,包括:基于智能体之间的通信关系,构建分布式网络化多智能体学习***,智能体作为任务执行节点,通信关系描述为边;智能体基于观察到的当前全局环境状态及自身神经网络,执行局部决策动作,获取状态‑动作的奖励值及更新的全局环境状态;基于拉普拉斯函数分布进行采样,获取随机噪声信息;将价值函数估计信息与随机噪声信息结合,生成隐私保护通信信息,与智能体的邻居智能体建立双向通信信道通信;依据当前状态‑动作价值函数估计信息、接收的隐私保护通信接收信息、环境反馈的奖励值及新的全局环境状态,对神经网络进行迭代更新,具有严格理论保证的通信安全性能提升。

Description

多智能体通信方法、装置、存储介质和电子设备
技术领域
本发明涉及通信技术领域,尤其涉及一种多智能体通信方法、装置、存储介质和电子设备。
背景技术
近年来,随着通信技术和人工智能的高速发展,许多现实生活中的***都可以被建模成多智能体***(MAS,Multi-agent System),如传感器网络、网联自动驾驶车辆、智能电网、无人仓储***等。为了提升智能体的自主决策和协同能力,多智能体强化学习(MARL,Multi-agent Reinforcement Learning)为这些场景提供了有效框架和训练范式。
为了解决多智能体通信、决策和学***稳问题,基于MARL的框架主要采用集中训练和分散执行(CTDE,Centralized Training with Decentralized Execution)算法。CTDE算法通常假设在训练过程中存在一个强大的中心,收集每个智能体的所有局部观测和个体动作,基于环境状态、联合动作对应的奖励函数学***稳问题,有助于智能体做出更有利于团队的行动,代表性算法包括:价值分解网络(VDN,Value Decomposition Networks)、QMIX、多智能体深度确定性策略梯度(MADDPG,Multi Agent Deep Deterministic Policy Gradient)、可微分交互学习(DIAL,Differentiable Inter Agent Learning)、BiCNet等。
然而,CTDE算法无法处理呈指数增长的状态-动作空间,即中心控制器中的维数诅咒。此外,在训练过程中,中心控制器和智能体之间海量的信息交换也给通信带来了巨大的压力,而集中式架构的方式也增加了单点故障的***性风险。因此,放松CTDE算法限制的另一种方法是利用网络化***的分布式结构,开发去中心化训练去中心化执行(DTDE,Decentralized Training and Decentralized Execution)算法的MARL。在DTDE算法的训练过程中,智能体的可用信息仅限于通信范围内的局部邻居智能体,而不是CTDE算法中的所有智能体,从而可以避免潜在的信息泄露和其他智能体信息的过拟合。在执行过程中,邻居信息的使用促使智能体更多关注彼此之间的策略协调,而不是仅仅根据自身的局部观察做出决策。
在DTDE算法中,利用通信网络扩散局部信息,可以提高MARL的可部署性、灵活性、***鲁棒性和弹性,但也面临着一个独特的问题,即网络通信下邻居信息的可靠性。相关技术中,大多数DTDE算法框架的MARL都假设团队中的通信信道和成员足够安全和可信,而忽略了网络攻击和恶意行为对多智能体强化学习***安全性的灾难性破坏,使得多智能体强化学习方法中,智能体之间的通信安全性不高。
发明内容
有鉴于此,本发明提供一种多智能体通信方法、装置、存储介质和电子设备。
具体地,本发明是通过如下技术方案实现的:
根据本发明的第一方面,提供一种多智能体通信方法,多智能体通信方法包括:
基于智能体之间的通信关系,构建分布式网络化多智能体学习***,所述智能体为所述分布式网络化多智能体学习***的执行单元节点,所述通信关系为所述分布式网络化多智能体学习***的边;
基于目标智能体在当前决策周期观察的当前全局环境状态及基于神经网络表示的状态-动作价值函数估计信息,利用Q-Learning算法生成局部决策动作,在所述当前全局环境状态下,执行所述局部决策动作,从环境中得到所述状态-动作价值函数估计信息的奖励值和新的全局环境状态;
依据预先设置的差分隐私参数,基于拉普拉斯函数分布进行采样,获取随机噪声信息;
基于所述随机噪声信息与所述状态-动作价值函数估计信息,生成隐私保护通信信息,向与所述目标智能体具有边的智能体发送;
接收与所述目标智能体具有边的智能体发送的隐私保护通信接收信息,依据所述目标智能体采取的决策动作、所述状态-动作价值函数估计信息、所述隐私保护通信接收信息、所述奖励值、所述新的全局环境状态及所述当前全局环境状态,更新所述神经网络。
本技术方案中的多智能体通信方法,通过基于智能体之间的通信关系,以智能体为节点,通信关系为边构建分布式网络化多智能体学习***;基于目标智能体观察的当前全局环境状态及神经网络,获取局部决策动作,执行局部决策动作,从环境中得到所述状态-动作价值函数估计信息的奖励值和新的全局环境状态;依据预先设置的差分隐私参数,基于拉普拉斯函数分布进行采样,获取随机噪声信息;基于随机噪声信息与状态-动作价值函数估计信息,生成隐私保护通信信息,向与目标智能体具有边的智能体发送;基于状态-动作价值函数估计信息、隐私保护通信接收信息、奖励值、新的全局环境状态及当前全局环境状态,更新神经网络。这样,利用采样得到的随机噪声,对状态-动作价值函数估计信息相加,从而保护用于通信的状态-动作价值函数估计信息无法被还原,提升了通信的安全性;同时,通过神经网络更新,在接收信息被干扰的情况下,仍然能保证加噪的状态-动作价值函数估计信息的收敛性与隐私保护性,实现多智能体之间的高质量策略协同与合作通信。
根据本发明的第二方面,提供一种多智能体通信装置,多智能体通信装置包括:
***构建模块,用于基于智能体之间的通信关系,构建分布式网络化多智能体学习***,所述智能体为所述分布式网络化多智能体学习***的执行单元节点,所述通信关系为所述分布式网络化多智能体学习***的边;
状态动作模块,用于基于目标智能体在当前决策周期观察的当前全局环境状态及基于神经网络表示的状态-动作价值函数估计信息,利用Q-Learning算法生成局部决策动作,在所述当前全局环境状态下,执行所述局部决策动作,从环境中得到所述状态-动作价值函数估计信息的奖励值和新的全局环境状态;
噪声获取模块,用于依据预先设置的差分隐私参数,基于拉普拉斯函数分布进行采样,获取随机噪声信息;
隐私保护模块,用于基于所述随机噪声信息与所述状态-动作价值函数估计信息,生成隐私保护通信信息,向与所述目标智能体具有边的智能体发送;
策略更新模块,用于接收与所述目标智能体具有边的智能体发送的隐私保护通信接收信息,依据所述目标智能体采取的决策动作、所述状态-动作价值函数估计信息、所述隐私保护通信接收信息、所述奖励值、所述新的全局环境状态及所述当前全局环境状态,更新所述神经网络。
根据本发明的第三方面,提供一种存储介质,其上存储有计算机程序,程序被处理器执行时实现第一方面的任意可能的实现方式中的多智能体通信方法的步骤。
根据本发明的第四方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现第一方面的任意可能的实现方式中的多智能体通信方法的步骤。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种多智能体通信方法的流程示意图;
图2为本发明实施例提供的一种多智能体通信方法中分布式网络化多智能体学习***示意图;
图3为本发明实施例提供的一种多智能体通信方法中单车道减速跟车场景下的性能示意图;
图4为本发明实施例提供的一种多智能体通信方法中单车道加速跟车场景下的性能示意图;
图5为本发明实施例提供的一种多智能体通信处理装置示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,大多数DTDE算法框架的MARL都假设团队中的通信信道和成员足够安全和可信,而忽略了网络攻击和恶意行为对多智能体强化学习***安全性的灾难性破坏,使得多智能体强化学习方法中,智能体之间的通信安全性不高。
本实施例中,提出了一种基于差分隐私(DP,Differential Privacy)保护的多智能体通信方法,可以应用在网络化多智能体强化学习方法或中网络化多智能体强化学习***。其中,差分隐私来自网络安全和机器学习领域,通过向通信信道中的通信信息添加不相关随机噪声信息,在不影响多智能体强化学习***运行的前提下,来保证通信信息在被第三方恶意窃听后,第三方仍然无法将窃听的信息还原成真实的通信信息,从而提高网络化多智能体强化学习***的安全性和用户隐私性。因而,本实施例利用差分隐私保护机制,通过设计随时间衰减的加性噪声,从时变的Laplace分布中,采样随机噪声,将采样的随机噪声与源通信信息相加,从而保护源通信信息无法被还原。同时,本实施例中,还通过设计相应的智能体策略更新机制,在接收信息被干扰的情况下,仍然能保证加噪的通信信息的收敛性与隐私保护性,实现多智能体之间的高质量策略协同与合作。
参见图1,本发明实施例提供了一种网络化***多智能体分布式强化学习通信方法,该方法可以包括如下步骤:
S101、基于智能体之间的通信关系,构建分布式网络化多智能体学习***,所述智能体为所述分布式网络化多智能体学习***的执行单元节点,所述通信关系为所述分布式网络化多智能体学习***的边;
本实施例中,针对某一应用场景,为该应用场景内的N个智能体分别构建状态动作价值函数,将智能体之间的通信拓扑设定为随机切换且联合联通的无向图G={V,E,A},其中,V代表节点,即智能体,E代表节点之间通信的边,A代表邻接矩阵。
本实施例中,可通信节点之间的邻接矩阵元素为1,不可通信节点之间的邻接矩阵元素为0。例如,对于某一智能体(节点),与该智能体具有边的智能体,对应邻接矩阵中的邻接矩阵元素为1,与该智能体不具有边的智能体,对应邻接矩阵中的邻接矩阵元素为0。这样,可以缓解集中式训练分布式执行算法的维度诅咒和通信压力。
本实施例中,作为一可选实施例,基于网络化多智能体马尔科夫(Markov)决策过程,构建去中心化训练去中心化执行的分布式网络化多智能体学习***。
S102、基于目标智能体在当前决策周期观察的当前全局环境状态及基于神经网络表示的状态-动作价值函数估计信息,利用Q-Learning算法生成局部决策动作,在所述当前全局环境状态下,执行所述局部决策动作,从环境中得到所述状态-动作价值函数估计信息的奖励值和新的全局环境状态;
本实施例中,执行所述局部决策动作,得到环境反馈的奖励函数和更新的全局环境状态,维护本地的状态-动作价值函数估计,并将“状态-动作”对的状态动作价值函数信息Q(s,a)作为真实信息,即获取环境反馈的奖励函数和更新后的全局环境状态,并维护本地的状态-动作价值函数估计信息。
本实施例中,在初始通信时,每个智能体可观察到全局环境状态S,并根据全局环境状态和自身的神经网络生成独立局部决策动作ai,在环境中执行独立局部决策动作ai,维护本地的状态-动作价值函数估计信息,以便发送至其他智能体以进行相互通信和协同合作。以网联协同自动驾驶汽车场景为例,每一个智能体是一辆具有车对车(Vehicle toVehicle,V2V)通信功能的自动驾驶汽车,多个智能体共同行使在道路上并可以与其他智能体进行实时通信,所有车辆的联合驾驶行为会影响该区域的全局环境状态,全局环境状态包括但不限于:各车道的汽车位置、前后车辆的车距、各车辆的速度和加速度、各车道的拥堵情况、各车道的信号灯状态、行驶路线等,局部决策动作包括但不限于:车距控制系数、车速增益系数(包括加速、减速、匀速)等。关于进行独立局部决策动作,具体可参见相关技术文献并根据实际场景需要进行设定,在此略去详述。
S103、依据预先设置的差分隐私参数,基于拉普拉斯函数分布进行采样,获取随机噪声信息;
本实施例中,基于拉普拉斯函数分布和隐私保护机制进行采样,获取随机噪声信息。设定差分隐私保护机制,以对通信信息进行隐私保护。每个智能体从时变的拉普拉斯函数分布中进行采样,得到随机噪声信息。
本实施例中,为保护通信信息,采用随时间衰减的加性拉普拉斯噪声机制,通过获取随时间衰减的加性拉普拉斯噪声信息(随机噪声信息),可以对真实的通信信息进行隐私保护。在每次通信时,利用下式,从如下的拉普拉斯(Laplace)分布中采样得到随机噪声信息ηi(t):
ηi(t)~Lap(0,ιi(t))
其中,ιi(t)为噪声分布的方差参数,用于决定Laplace噪声的分布;si和qi为差分隐私参数,分别决定噪声初始分布和衰减速率;sgain为增益系数,用于调节噪声大小的尺度。各参数是可配置的正常数,需要满足如下条件:si、qi、sgain∈(0,1);si、qi>0,sgain≥0。
S104、基于所述随机噪声信息与所述状态-动作价值函数估计信息,生成隐私保护通信信息,向与所述目标智能体具有边的智能体发送;
本实施例中,将随机噪声信息添加到真实的通信信息中以构建隐私通信信息,即隐私保护通信信息,以与通信范围内的邻居智能体进行隐私通信信息的交换。
本实施例中,作为一可选实施例,利用下式生成隐私保护通信信息:
式中,为状态-动作价值函数估计信息,/>为隐私保护通信信息。
本实施例中,目标智能体与当前时刻通信范围内的邻居智能体以广播形式建立双向通信信道,交换各自进行隐私保护后的信息,即目标智能体通过设置通信范围,该通信范围内的智能体均与目标智能体具有通信关系,即各智能体与目标智能体均通过边相连接,通信信息仅限于通信范围内的局部邻居智能体,从而在一定程度上,避免过时信息的干扰以及潜在的其他智能体信息的过拟合。
图2为本发明实施例提供的一种多智能体通信方法中分布式网络化多智能体学习***示意图,在该分布式网络化多智能体学习***中,包括8个节点(智能体),分别为A1-A8,节点与节点之间通过边进行连接,对于目标智能体A1,与目标智能体A1具有边连接的智能体包括:A2、A3、A4,则智能体A2、A3、A4所围成的区域(虚线内的区域)为目标智能体A1的通信范围。
S105、接收与所述目标智能体具有边的智能体发送的隐私保护通信接收信息,依据所述当前全局环境状态、所述目标智能体采取的决策动作、所述状态-动作价值函数估计信息、所述隐私保护通信接收信息、所述环境反馈的奖励值、所述新的全局环境状态,更新所述神经网络。
本实施例中,环境反馈的奖励值为在当前全局环境状态,执行局部决策动作能够获得的奖励。隐私保护通信接收信息为与目标智能体具有边的智能体发送的隐私保护通信信息。作为一可选实施例,在每次获取状态-动作价值函数估计信息后,对智能体的神经网络算法进行参数更新,以进行策略更新,以在下一决策周期,利用更新的神经网络决策局部决策动作。这样,通过依据当前状态-动作价值函数估计、接收的隐私保护通信信息、环境反馈的奖励值及新的全局环境状态,对状态-动作价值函数估计进行迭代更新,最终训练得到稳定的分布式协同决策策略,并具有严格理论保证的通信安全性能提升。
本实施例中,在QD-Learning算法的基础上,对通信信息,即状态-动作价值函数估计信息进行随机噪声处理,将原有的通信信息替换为隐私保护通信信息,提高了网络化多智能体强化***的安全性。
本实施例中,依据通信信息、隐私保护通信接收信息、奖励值、新的全局环境状态、当前全局环境状态,对神经网络进行更新,从而通过设计与隐私保护机制相适应的智能体更新策略,在获取局部信息和被噪音扰动的隐私保护通信信息情况下,实现智能体的神经网络更新和状态-动作价值函数估计信息的渐近收敛,并有效保证了算法(p,r)-准确度和数据的∈-差分隐私度。作为一可选实施例,利用下式更新神经网络:
其中,参数满足如下条件:
其中a、b、τ1∈(0.5,1],1>0为正常数,Ts,a(k)代表在整个随机事件序列中,对于某一状态-动作对(s,a)的第k+1次采样发生的时间,ri为依据奖励函数计算执行局部决策动作得到的奖励值,S′为新的全局环境状态,S为当前全局环境状态,为与目标智能体具有边的第j个智能体发送的隐私保护通信接收信息,/>为下一决策周期对应的状态-动作价值函数估计信息,用于目标智能体在下一决策周期向与目标智能体具有边的各智能体发送,/>为目标智能体当前发送的状态-动作价值函数估计信息,st为当前全局环境状态,at为局部决策动作,A为依据新的全局环境状态得到的局部决策动作集合,a为依据新的全局环境状态获取的局部决策动作,/>为依据新的全局环境状态及依据新的全局环境状态获取的局部决策动作得到的状态-动作价值函数估计信息,γ为遗忘因子,为常系数。
本实施例中,神经网络是预先训练得到的,在训练中,以一致性损失和时序差分损失相加作为最终的优化目标,使用去中心化训练去中心化执行(DTDE)框架进行端到端训练以优化一致性损失和时序差分损失相加的和值。作为一可选实施例,目标智能体通过与通信范围内的邻居智能体进行隐私通信信息的交换,进而更新自身的神经网络(策略神经网络)。
本实施例中,在下一决策周期,目标智能体基于新的全局环境状态及更新的神经网络,执行获取局部决策动作的步骤,如此循环,直至执行完所有决策周期。
本实施例的方法,可以在真实通信信息被噪声扰动的情况下,保证每个智能体的状态-动作价值函数估计信息(通信信息)满足均方一致性和期望一致性,下面进行详细描述。
本实施例中,对于每个状态-动作价值函数估计信息在通信拓扑满足连通性的情况下,可以达到以均方渐近一致性:
以及,期望渐近一致性:
其中,为与目标智能体具有边的所有智能体的状态动作价值函数的和值,本实施例的方法,由于智能体的状态动作价值函数满足均方一致性和期望一致性,可以保证***内所有智能体学习到近似一致的状态动作价值函数,进而保证了分布式训练分布式执行框架下的协调能力。
同时,本实施例的方法,可以实现准确率和召回率(p,r)-准确度的隐私保护性能,以及∈-差分隐私度。
本实施例中,对于每个状态-动作价值函数估计信息,与目标智能体具有边连接的所有智能体的状态动作价值函数的平均值相对于最优状态-动作价值函数估计信息/>的误差满足(p,r)-准确度:
其中,p为精确率,r为召回率,随机变量Δ(t)的方差满足有界性:
其中,Mt=(1-αs,a(t)+γαs,a(t))2∈(0,1),取决于差分隐私噪音的参数设置和网络拓扑的度矩阵/>
本实施例中,对于真实通信信息的被保护程度,遵循差分隐私机制的定义,可以用∈-差分隐私度进行衡量。具体来说,考虑两个满足δ-相邻的数据集D和D′,该对数据集仅有一个数据点不同且误差值在δ以内,在该对数据集输入到预先设置的随机算法M:D→O后,随机算法的输出满足如下概率关系:
P(M(D)∈O)≤exp(∈)P(M(D′)∈O)
本实施例中,算法隐私度满足:Δηi(t)为从相同的拉普拉斯函数分布Lap(0,ιi(t))中独立采样两次的随机噪声/>和/>之差。
本实施例的方法,对网络化多智能体强化学习***的通信信息进行有效的隐私保护,提高了多智能体强化学习***的隐私性和安全性。
本实施例中,以交通仿真环境(SUMO,Simulation of Urban Mobility)为例,通过构建基于分布式网络化多智能体学习***的网联多车自动驾驶场景(CooperativeAdaptive Platoon Control,CAPC),其中,作为一可选实施例,网联多车自动驾驶场景包含一个单车道车辆队列的加速跟车场景和减速跟车场景。每一车辆对应一智能体,每个智能体在训练和执行阶段,只能接收到通信范围内有限邻居智能体的通信信息,例如,对于其中一智能体,只能与该智能体相邻的智能体(前车和后车)进行通信,该智能体与相邻的智能体围成的区域为该智能体的通信范围。接下来,初始化每个智能体的差分隐私参数si和qi,本实施例中,初始化si=0.01和qi=0.99,根据差分隐私保护机制采样,得到加性噪声ηi(t),将加性噪声与真实通信信息(状态-动作价值函数估计信息)相加得到隐私保护通信信息,将隐私保护通信信息传递给通信范围内的邻居。
智能体从当前策略网络(神经网络)采样动作(执行局部决策动作)并与环境交互,得到环境的新的全局环境状态和奖励值,接收邻居智能体发送的隐私保护通信信息,根据智能体策略更新方式更新当前策略网络。重复初始化步骤和环境交互步骤,直到策略网络收敛,训练过程结束。
为说明本实施例的有效性,本实施例构建了两种常见的协同自动驾驶场景:单车道加速跟车场景(CAPC Catch-up)和单车道减速跟车场景(CAPC slow-down),本实施例场景均采用SUMO交通仿真器构建。对于智能体(车辆)参数设置,考虑车辆模型采用仿真软件内置最优速度模型(Optimal Velocity Model,OVM),车辆的状态集合包括距前车距离hi,当前速度vi,当前加速度ai,纵向控制动作集合为前车车距增益和速度增益共同构成的组合此处考虑四种最优等级{(0,0)(0,0.5)(0.5,0)(0.5,0.5)},控制周期为0.1s,总控制时长为60s,奖励(代价)函数设置为/>CAPC的详细场景参数设置如下表0。具体而言,在CAPC加速跟车场景中,随机初始化所有车辆的行驶速度和前车车距,除领头车辆外,满足所有车辆的速度小于最优行驶速度/>且前车车距大于最优保持车距/>理想目标是所有跟车车辆都能学会提速并缩短车距的协同策略;在CAPC减速跟车场景中,随机初始化所有车辆的行驶速度和前车车距,除领头车辆外,满足所有车辆的速度大于最优行驶速度/>且前车车距略小于最优保持车距/>理想目标是所有跟车车辆都能学会降低车速并保持避免碰撞的协同策略,由于碰撞的可能性存在,该场景下的决策策略更为复杂。
表0:SUMO仿真软件中CPAC场景详细参数设置
实验场景参数名 参数值
距前车安全距离 h1≥1m
安全驾驶速度 vi≤30m/s
安全加速度 |ai|≤2.5m/s2
OVM中的停车前车距离 hstoo=5m
OVM中的全速前车距离 hfull=35m
碰撞惩罚(前车距离小于1m) 1000
发生碰撞的额外惩罚代价 5(2hstop-hi,t)2
设置了三种不同程度的差分隐私增益系数sgain用以对照性能,每组实验均统计训练1,000,000步后得到的累计奖励值(Rewards)作为性能指标,结果如表1所示。
表1:CAPC场景下不同程度噪声保护的多智能体学习算法得到的奖励值
图3为本发明实施例提供的一种多智能体通信方法中单车道减速跟车场景下的性能示意图,图4为本发明实施例提供的一种多智能体通信方法中单车道加速跟车场景下的性能示意图,图3和图4中,sgain分别等于0、0.1、0.01,总步数(Steps)为1,000,000。通过本实施例的方法,能够显著提高算法在多智能体合作任务上的性能表现和安全性。
本实施例提出的基于差分隐私保护的网络化多智能体强化学习的多智能体通信方法,通过构建去中心化的分布式网络化多智能体学习***,使得每个智能体在训练和执行的过程中,只能与通信范围内的邻居智能体交换局部信息,降低了中心化***的高额训练资源需求和单点故障***性风险,同时,通过向通信信息中添加拉普拉斯加性噪声,从而保护真实通信信息无法被第三方恶意节点窃取和还原,得到安全性、隐私性、鲁棒性更好的多智能体协作策略,能够在DTDE学习框架下保证通信信道中的通信信息无法被第三方恶意节点窃听后还原出真实信息,从而有效提高多智能体合作强化通信的学习效率、可靠性和安全性。具有如下明显优点:
1)本实施例通过构建DTDE算法学习框架,相比主流CTDE算法学习框架,具有更低的***风险,更好的扩展性和灵活性,以及更高的学习效率和智能体之间的协作能力。
2)本实施例的方法,能够显著提高多智能体合作算法通信信息的隐私性和安全性,避免通信信息被第三方恶意节点窃听并还原用户真实信息的风险,在数据安全性上超过了目前主流的无隐私保护功能的多智能体合作算法。
基于同一发明构思,如图5所示,本发明实施例还提供了一种多智能体通信装置,装置包括:
***构建模块501,用于基于智能体之间的通信关系,构建分布式网络化多智能体学习***,所述智能体为所述分布式网络化多智能体学习***的执行单元节点,所述通信关系为所述分布式网络化多智能体学习***的边;
本实施例中,作为一可选实施例,基于网络化多智能体马尔科夫(Markov)决策过程,构建去中心化训练去中心化执行的分布式网络化多智能体学习***。
状态动作模块502,用于基于目标智能体在当前决策周期观察的当前全局环境状态及基于神经网络表示的状态-动作价值函数估计信息,利用Q-Learning算法生成局部决策动作,在所述当前全局环境状态下,执行所述局部决策动作,从环境中得到所述状态-动作价值函数估计信息的奖励值和新的全局环境状态;
本实施例中,每个智能体根据当前全局环境状态进行独立的局部决策动作,并收到自身的局部奖励,并将“状态-动作”的状态-动作价值函数估计信息作为真实通信信息。
本实施例中,作为一可选实施例,状态动作模块502还用于:
在下一决策周期,所述目标智能体基于所述新的全局环境状态及更新的神经网络,执行所述获取局部决策动作的步骤。
噪声获取模块503,用于依据预先设置的差分隐私参数,基于拉普拉斯函数分布进行采样,获取随机噪声信息;
本实施例中,作为一可选实施例,噪声获取模块503包括:
计算单元,用于计算采样系数、第一差分隐私参数值及第二差分隐私参数值的乘积;
采样单元,用于以零为所述拉普拉斯函数分布的位置参数,以所述乘积为所述拉普拉斯函数分布的尺度参数进行采样,获取所述随机噪声信息。
本实施例中,作为一可选实施例,利用下式获取随机噪声信息:
ηi(t)~Lap(0,ιi(t))
隐私保护模块504,用于基于所述随机噪声信息与所述状态-动作价值函数估计信息,生成隐私保护通信信息,向与所述目标智能体具有边的智能体发送;
本实施例中,将随机噪声信息添加到真实的通信信息中以构建隐私通信信息,以与通信范围内的邻居智能体进行隐私通信信息的交换。
本实施例中,作为一可选实施例,隐私保护模块504包括:
隐私信息生成单元,用于将所述随机噪声信息与所述状态-动作价值函数估计信息相加,生成所述隐私保护通信信息;
隐私信息发送单元,用于将所述隐私保护通信信息向与所述目标智能体具有边的智能体发送。
本实施例中,作为一可选实施例,利用下式生成隐私保护通信信息:
策略更新模块505,用于接收与所述目标智能体具有边的智能体发送的隐私保护通信接收信息,依据所述目标智能体采取的决策动作、所述状态-动作价值函数估计信息、所述隐私保护通信接收信息、所述奖励值、所述新的全局环境状态及所述当前全局环境状态,更新所述神经网络。
本实施例中,作为一可选实施例,利用下式更新神经网络:
其中,参数满足如下条件:
基于同一发明构思,本发明实施例还提供了一种存储介质,其上存储有计算机程序,程序被处理器执行时实现上述任意可能的实现方式中的多智能体通信方法的步骤。
可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
基于同一发明构思,参见图6,本发明实施例还提供了一种电子设备,包括存储器101(例如非易失性存储器)、处理器102及存储在存储器101上并可在处理器102上运行的计算机程序,处理器102执行程序时实现上述任意可能的实现方式中的多智能体通信方法的步骤,可相当于如前的多智能体通信装置,当然,该处理器还可以用来处理其他数据或运算。该电子设备可以是PC、服务器、终端等设备。
如图6所示,该电子设备一般还可以包括:内存103、网络接口104、以及内部总线105。除了这些部件外,还可以包括其他硬件,对此不再赘述。
需要指出的是,上述多智能体通信装置可以通过软件实现,其作为一个逻辑意义上的装置,是通过其所在的电子设备的处理器102将非易失性存储器中存储的计算机程序指令读取到内存103中运行形成的。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和***通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种多智能体通信方法,其特征在于,包括:
基于智能体之间的通信关系,构建分布式网络化多智能体学习***,所述智能体为所述分布式网络化多智能体学习***的执行单元节点,所述通信关系为所述分布式网络化多智能体学习***的边;
基于目标智能体在当前决策周期观察的当前全局环境状态及基于神经网络表示的状态-动作价值函数估计信息,利用Q-Learning算法生成局部决策动作,在所述当前全局环境状态下,执行所述局部决策动作,从环境中得到所述状态-动作价值函数估计信息的奖励值和新的全局环境状态;
依据预先设置的差分隐私参数,基于拉普拉斯函数分布进行采样,获取随机噪声信息;
基于所述随机噪声信息与所述状态-动作价值函数估计信息,生成隐私保护通信信息,向与所述目标智能体具有边的智能体发送;
接收与所述目标智能体具有边的智能体发送的隐私保护通信接收信息,依据所述当前全局环境状态、所述目标智能体采取的决策动作、所述状态-动作价值函数估计信息、所述隐私保护通信接收信息、所述环境反馈的奖励值、所述新的全局环境状态,更新所述神经网络。
2.根据权利要求1所述的多智能体通信方法,其特征在于,所述依据预先设置的差分隐私参数,基于拉普拉斯函数分布进行采样,获取随机噪声信息,包括:
计算采样系数、第一差分隐私参数值及第二差分隐私参数值的乘积;
以零为所述拉普拉斯函数分布的位置参数,以所述乘积为所述拉普拉斯函数分布的尺度参数进行采样,获取所述随机噪声信息。
3.根据权利要求1所述的多智能体通信方法,其特征在于,所述基于所述随机噪声信息与所述状态-动作价值函数估计信息,生成隐私保护通信信息,包括:
将所述随机噪声信息与所述状态-动作价值函数估计信息相加,生成所述隐私保护通信信息。
4.根据权利要求1至3任一项所述的多智能体通信方法,其特征在于,所述方法还包括:
在下一决策周期,所述目标智能体基于所述新的全局环境状态及更新的神经网络,执行所述生成局部决策动作的步骤。
5.一种多智能体通信装置,其特征在于,所述多智能体通信装置包括:
***构建模块,用于基于智能体之间的通信关系,构建分布式网络化多智能体学习***,所述智能体为所述分布式网络化多智能体学习***的执行单元节点,所述通信关系为所述分布式网络化多智能体学习***的边;
状态动作模块,用于基于目标智能体在当前决策周期观察的当前全局环境状态及基于神经网络表示的状态-动作价值函数估计信息,利用Q-Learning算法生成局部决策动作,在所述当前全局环境状态下,执行所述局部决策动作,从环境中得到所述状态-动作价值函数估计信息的奖励值和新的全局环境状态;
噪声获取模块,用于依据预先设置的差分隐私参数,基于拉普拉斯函数分布进行采样,获取随机噪声信息;
隐私保护模块,用于基于所述随机噪声信息与所述状态-动作价值函数估计信息,生成隐私保护通信信息,向与所述目标智能体具有边的智能体发送;
策略更新模块,用于接收与所述目标智能体具有边的智能体发送的隐私保护通信接收信息,依据所述目标智能体采取的决策动作、所述状态-动作价值函数估计信息、所述隐私保护通信接收信息、所述奖励值、所述新的全局环境状态及所述当前全局环境状态,更新所述神经网络。
6.根据权利要求5所述的多智能体通信装置,其特征在于,所述噪声获取模块包括:
计算单元,用于计算采样系数、第一差分隐私参数值及第二差分隐私参数值的乘积;
采样单元,用于以零为所述拉普拉斯函数分布的位置参数,以所述乘积为所述拉普拉斯函数分布的尺度参数进行采样,获取所述随机噪声信息。
7.根据权利要求5所述的多智能体通信装置,其特征在于,所述隐私保护模块包括:
隐私信息生成单元,用于将所述随机噪声信息与所述状态-动作价值函数估计信息相加,生成所述隐私保护通信信息;
隐私信息发送单元,用于将所述隐私保护通信信息向与所述目标智能体具有边的智能体发送。
8.根据权利要求5至7任一项所述的多智能体通信装置,其特征在于,所述状态动作模块还用于:
在下一决策周期,所述目标智能体基于所述新的全局环境状态及更新的神经网络,执行所述获取局部决策动作的步骤。
9.一种存储介质,其特征在于,存储介质上存储程序或指令,程序或指令被处理器运行时实现如权利要求1至4中任一项所述的多智能体通信方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4中任一项所述的多智能体通信方法的步骤。
CN202311586285.7A 2023-11-24 2023-11-24 多智能体通信方法、装置、存储介质和电子设备 Pending CN117579358A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311586285.7A CN117579358A (zh) 2023-11-24 2023-11-24 多智能体通信方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311586285.7A CN117579358A (zh) 2023-11-24 2023-11-24 多智能体通信方法、装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN117579358A true CN117579358A (zh) 2024-02-20

Family

ID=89889694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311586285.7A Pending CN117579358A (zh) 2023-11-24 2023-11-24 多智能体通信方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN117579358A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190102681A1 (en) * 2017-09-29 2019-04-04 Oracle International Corporation Directed trajectories through communication decision tree using iterative artificial intelligence
CN112801731A (zh) * 2021-01-06 2021-05-14 广东工业大学 一种接单辅助决策的联邦强化学习方法
CN113592101A (zh) * 2021-08-13 2021-11-02 大连大学 一种基于深度强化学习的多智能体协作模型
CN113688977A (zh) * 2021-08-30 2021-11-23 浙江大学 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN114662639A (zh) * 2022-03-24 2022-06-24 河海大学 一种基于值分解的多智能体强化学习方法及***
US20220374606A1 (en) * 2020-11-16 2022-11-24 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for utility-preserving deep reinforcement learning-based text anonymization
CN115759284A (zh) * 2022-11-02 2023-03-07 超参数科技(深圳)有限公司 智能体的训练方法、计算机设备及存储介质
CN115983598A (zh) * 2023-01-16 2023-04-18 浙江大学 基于分布式深度强化学习的微网隐私保护与能量调度方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190102681A1 (en) * 2017-09-29 2019-04-04 Oracle International Corporation Directed trajectories through communication decision tree using iterative artificial intelligence
US20220374606A1 (en) * 2020-11-16 2022-11-24 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for utility-preserving deep reinforcement learning-based text anonymization
CN112801731A (zh) * 2021-01-06 2021-05-14 广东工业大学 一种接单辅助决策的联邦强化学习方法
CN113592101A (zh) * 2021-08-13 2021-11-02 大连大学 一种基于深度强化学习的多智能体协作模型
CN113688977A (zh) * 2021-08-30 2021-11-23 浙江大学 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN114662639A (zh) * 2022-03-24 2022-06-24 河海大学 一种基于值分解的多智能体强化学习方法及***
CN115759284A (zh) * 2022-11-02 2023-03-07 超参数科技(深圳)有限公司 智能体的训练方法、计算机设备及存储介质
CN115983598A (zh) * 2023-01-16 2023-04-18 浙江大学 基于分布式深度强化学习的微网隐私保护与能量调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴夏铭;李明秋;陈恩志;王春阳;: "基于动作空间噪声的深度Q网络学习", 长春理工大学学报(自然科学版), no. 04, 15 August 2020 (2020-08-15), pages 89 - 95 *

Similar Documents

Publication Publication Date Title
Qiong et al. Towards V2I age-aware fairness access: A DQN based intelligent vehicular node training and test method
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
di Bernardo et al. Design, analysis, and experimental validation of a distributed protocol for platooning in the presence of time-varying heterogeneous delays
Ferdowsi et al. Neural combinatorial deep reinforcement learning for age-optimal joint trajectory and scheduling design in UAV-assisted networks
Wang et al. Control of vehicle platoons for highway safety and efficient utility: Consensus with communications and vehicle dynamics
Xiao et al. Resource-efficient platooning control of connected automated vehicles over VANETs
Pirani et al. Cooperative vehicle speed fault diagnosis and correction
CN113472419B (zh) 一种基于空基可重构智能表面的安全传输方法及***
CN111339554B (zh) 基于移动边缘计算的用户数据隐私保护方法
Lin et al. Topology‐based distributed optimization for multi‐UAV cooperative wildfire monitoring
CN114124823B (zh) 面向高动态网络拓扑下的自适应路由方法、***、设备
Swenson et al. Distributed inertial best-response dynamics
Arroyo-Valles et al. A censoring strategy for decentralized estimation in energy-constrained adaptive diffusion networks
Song et al. Distributed consensus‐based Kalman filtering in sensor networks with quantised communications and random sensor failures
CN105722030A (zh) 一种dtn网络中节点位置预测方法
CN103916969A (zh) 联合授权用户感知与链路状态估计方法与装置
Bhattacharya et al. Amalgamation of blockchain and sixth‐generation‐envisioned responsive edge orchestration in future cellular vehicle‐to‐anything ecosystems: Opportunities and challenges
CN116600316A (zh) 一种基于深度双q网络和联邦学习的空地一体化物联网联合资源分配方法
CN113301562A (zh) 量化通讯的二阶多自主体***差分隐私趋同方法及***
Marini et al. Continual meta-reinforcement learning for UAV-aided vehicular wireless networks
Mousavinejad et al. Secure platooning control of automated vehicles under cyber attacks
Miao et al. A DDQN-based Energy-Efficient Resource Allocation Scheme for Low-Latency V2V communication
CN117579358A (zh) 多智能体通信方法、装置、存储介质和电子设备
Fiengo et al. Distributed leader-tracking for autonomous connected vehicles in presence of input time-varying delay
Xue et al. Event-triggered consensus of heterogeneous multi-agent systems with double-integrator dynamics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination