CN116306947A - 一种基于蒙特卡洛树探索的多智能体决策方法 - Google Patents

一种基于蒙特卡洛树探索的多智能体决策方法 Download PDF

Info

Publication number
CN116306947A
CN116306947A CN202310090294.0A CN202310090294A CN116306947A CN 116306947 A CN116306947 A CN 116306947A CN 202310090294 A CN202310090294 A CN 202310090294A CN 116306947 A CN116306947 A CN 116306947A
Authority
CN
China
Prior art keywords
monte carlo
tree
agent
exploration
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310090294.0A
Other languages
English (en)
Inventor
尤鸣宇
付豪
周洪钧
何斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202310090294.0A priority Critical patent/CN116306947A/zh
Publication of CN116306947A publication Critical patent/CN116306947A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于蒙特卡洛树探索的多智能体决策方法,属于任务规划技术领域,包括1:基于分布式部分观测马尔可夫决策过程对多智能体决策任务进行建模;2:基于模型初始化蒙特卡洛树;3:在预设的时间内采用上限置信区间算法进行树内探索,采用随机策略对树外进行探索,拓展蒙特卡洛树节点,并根据产生的奖励更新蒙特卡洛树节点价值;4:根据已经构建的蒙特卡洛树进行多智能体决策,并对蒙特卡洛树进行剪枝,更新根节点的信念值,重复S3‑S4,直至任务完成。本发明中,采用在线探索方法,可以在有限的时间内取得Dec‑POMDP模型的近似解;对不同的智能体分别建立独立的蒙特卡洛树,降低了探索空间,加大了探索深度,提供了更好的求解质量。

Description

一种基于蒙特卡洛树探索的多智能体决策方法
技术领域
本发明属于任务规划技术领域,尤其涉及一种基于蒙特卡洛树探索的多智能体决策方法。
背景技术
随着科技与工业的发展,机器人在人类的生产与生活中扮演着愈发重要的职责。人工智能的一个重要目标就是建立起拥有自主决策与行为能力的智能体。目前已有多种服务型机器人应用于实际生活中,如扫地机器人等。尽管单个智能体可以满足很多场景需求,但是仍有大量任务需要多个智能体协作完成,如机器人足球比赛、机器人分拣快递等。这些任务需要多智能体分别协调各自的行动,以达成特定目标。同时,在任务执行过程中,由于传感器性能导致的感知不确定性和由于控制的不稳定导致行动结果的不确定性都是一些重要的特征。
分布式部分观测马尔可夫决策过程(Dec-POMDP)是用来描述不确定环境下多智能体序列决策任务的常用模型。Dec-POMDP为多智能体决策方法提供了很好的数学框架。然而,每个智能体需要依据自己的局部信息生成全局最优的策略,同时还要考虑其他智能体可能的行动,导致联合策略的空间随着智能体数量呈指数级增长,求解Dec-POMDP是非常困难的。同时,由于Dec-POMDP模型的部分观测性,智能体无法直接获得环境的状态,只能通过观测间接维持对环境的信念。而由于信念空间的高纬特性,导致Dec-POMDP难以精确求解。目前求解方法主要分为自底向上的动态规划算法和自顶向下的启发式搜索算法。动态规划方法从最后一步决策开始,为每一个智能体循环构建策略树,直到当前决策步;启发式搜索算法从当前决策步开始构建策略树,直到最后决策步。
现有的算法存在求解决策深度有限,求解时间较长等问题。无论是动态规划还是启发式搜索,联合策略的备份或启发式函数的求解都耗费了大量的内存,使得算法很难应用到性能与内存受限的智能机器人。
发明内容
本发明的目的在于提供一种基于蒙特卡洛树探索的多智能体决策方法,其特征在于,包括如下步骤:
S1:基于分布式部分观测马尔可夫决策过程对决策任务进行建模;
S2:基于模型初始化蒙特卡洛树;
S3:在预设的时间内采用上限置信区间算法进行树内探索,采用随机策略对树外进行探索,拓展蒙特卡洛树节点,并根据产生的奖励更新蒙特卡洛树节点价值;
S4:根据已经构建的蒙特卡洛树进行多智能体决策,并对蒙特卡洛树进行剪枝,更新根节点的信念值,重复S3-S4,直至任务完成。
进一步地,S1中,将多智能体决策方法建模为Dec-POMDP模型,模型定义为一个元祖<I,S,A,T,Z,O,R>其中,I={1,…,n}为有限智能体的结合;n为智能体的数量;S={s1,…,sn}为智能体有限状态的集合;Z={z1,…,zn}为智能体有限观测的集合;A={a1,…,an}为智能体的联合动作;T为状态转移函数,表示智能体集群在当前状态下执行联合动作达到下一个状态的概率;O为观测函数,表示智能体集群在当前状态下执行联合动作获得某一观测的概率;R为奖励函数,表示智能体集群在当前状态下执行联合动作获得的奖励。
进一步地,S2中,据Dec-POMDP模型,对每一个智能体建立独立的蒙特卡洛树,生成根节点,其中,Ht={A0,Z1,…,At-1,Zt}为智能体集群所经历的历史动作-观测序列;
Figure BDA0004070076400000021
代表智能体i所经历的历史动作-观测序列;/>
Figure BDA0004070076400000022
代表节点,j表示节点的序号;Q代表节点的价值,初始值为0;树内分为观测节点与动作节点。
进一步地,述S3中,在有限的时间内于每个智能体的树内同步进行采样,并完成探索,具体为:基于根节点的信念,采样得到每个智能体的状态,从根节点开始按照Dec-POMDP模型执行可行的动作,采样得到环境反馈的观测与下一步的状态,树内探索按照上限置信度算法平衡探索与贪婪策略,公式表示为:
Figure BDA0004070076400000031
其中,
Figure BDA0004070076400000032
表示在节点/>
Figure BDA0004070076400000033
处访问动作a的次数;/>
Figure BDA0004070076400000034
表示访问节点
Figure BDA0004070076400000035
的次数;c为常数,用于平衡探索和贪婪策略,利用更新后的Q*执行贪婪策略,在树内选择动作。
进一步地,S3中,当树内节点被探索完成,达到叶节点时,即在树外节点进行探索,树外探索采用随机策略的方式,随机执行可选择的动作,快速评估可能产生的奖励,具体为:根据选择的动作,以及获得的观测,在叶节点下新建子节点,节点的价值由随机动作探索而来,计算公式表示为:
Figure BDA0004070076400000036
其中,T为决策深度;r表示折扣因子,为0-1的常数,t为当前探索深度,RT为多智能体执行联合动作在环境中获得的奖励。
进一步地,S3中,根据产生的奖励更新蒙特卡洛树节点价值具体为:将集体奖励共同赋予执行过程中的所有智能体,当建立新的节点时,根据新节点的价值,反向传播,自下而上地更新所有节点的价值,公式表示为:
Figure BDA0004070076400000037
Figure BDA0004070076400000038
进一步地,S4中,设定探索时间或探索次数的上限值K,K的表达式为:
K=m|A||Z|T2
其中,|A|为联合动作数量;|Z|为联合观测数量;T代表决策步长;m为常数。
进一步地,S4中,在更新所有节点的价值后,需对探索时间或探索次数进行判定,判定是否达到上限,若是,则进行下一步;若没有达到上限,则重复S3,直至探索时间或探索次数达到上限为止。
进一步地,下一步具体为:在已生成的蒙特卡洛树的根节点处,根据不同动作的价值,采用贪心算法选择采取的动作,并控制多智能体在环境中交互,获得环境中的观测,然后根据采取的动作与取得的观测,对蒙特卡洛树进行剪枝。
进一步地,当剪枝完成后,判断任务是否完成,若任务完成,则结束多智能体决策;若任务未完成,则更新节点的信念值,重复S3-S4,直至任务完成。
与现有技术相比,本发明的有益效果主要体现在:
1、本发明采用在线探索方法,可以在有限的时间内取得Dec-POMDP模型的近似解。
2、本发明对不同的智能体分别建立独立的蒙特卡洛树,在保持模型不变的情况下,降低了探索空间,加大了探索深度,更好地保证求解质量。
附图说明
图1为本发明实施例的基于蒙特卡洛树探索的多智能体决策方法的流程图;
图2为多智能体的蒙特卡洛树示意图;
图3为蒙特卡洛树剪枝示意图。
具体实施方式
下面将结合示意图对本发明一种基于蒙特卡洛树探索的多智能体决策方法进行更详细的描述,其中表示了本发明的优选实施例,应该理解本领域技术人员可以修改在此描述的本发明,而仍然实现本发明的有利效果,因此,下列描述应当被理解为对于本领域技术人员的广泛知道,而并不作为对本发明的限制。
一种基于蒙特卡洛树探索的多智能体决策方法。通过蒙特卡洛树搜索在线求解复杂的多智能体决策任务,图1为本发明实施例的基于蒙特卡洛树探索的多智能体决策方法的流程图。
将多智能体决策方法建模为Dec-POMDP模型,该模型可定义为一个元组<I,S,A,T,Z,O,R>其中,I={1,…,n}是有限智能体的集合,n代表智能体的数量;S={s1,…,sn}代表智能体有限状态的集合,Z={z1,…,zn}代表智能体有限观测的集合,A={a1,…,an}代表智能体的联合动作,T代表状态转移函数,表示智能体集群在当前状态下执行联合动作达到下一个状态的概率。O代表观测函数,表示智能体集群在当前状态下执行联合动作获得某一观测的概率。R代表奖励函数,表示智能体集群在当前状态下执行联合动作获得的奖励。
对每一个智能体建立独立的蒙特卡洛树Treei,每一个树初始化生成根节点。Ht={A0,Z1,…,At-1,Zt}代表智能体集群所经历的历史动作-观测序列的集合,
Figure BDA0004070076400000051
代表单一智能体i所经历的历史动作-观测序列的集合,/>
Figure BDA0004070076400000052
代表Treei上位于探索深度t的节点,j表示节点的序号。Q代表节点的价值,图2所示节点中的数字即为节点的价值,初始值为0。树内分为观测节点与动作节点。
在有限的时间内在每个智能体的树内同步进行采样。基于根节点的信念,采样得到每个智能体的状态,从根节点开始按照Dec-POMDP模型执行可行的动作,采样得到环境反馈的观测与下一步的状态。树内探索按照上限置信度算法平衡探索与贪婪策略,公式如下:
Figure BDA0004070076400000053
其中,
Figure BDA0004070076400000061
代表在节点/>
Figure BDA0004070076400000062
处访问动作a的次数,/>
Figure BDA0004070076400000063
代表访问节点
Figure BDA0004070076400000064
的次数,c为常数,设置为0.5,用于平衡探索与贪婪策略。利用更新后的Q*执行贪婪策略,在树内选择动作。
当树内节点被探索完成,达到叶节点时,在树外节点进行探索。树外探索采用随机策略的方式,随机执行可选择的动作,快速评估可能产生的奖励。根据选择的动作,以及获得的观测,在叶节点下新建子节点,节点的价值由随机动作探索而来,计算公式如下:
Figure BDA0004070076400000065
其中,T代表决策深度,r代表折扣因子,为0-1的常数,t代表当前探索深度,RT指多智能体执行联合动作在环境中获得的奖励。将集体奖励共同赋予执行过程中的所有智能体。当建立新的节点时,根据新节点的价值,反向传播,自下而上地更新所有节点的价值。公式如下:
Figure BDA0004070076400000066
Figure BDA0004070076400000067
当达到探索时长限制或者采样次数达到限定值K时,停止采样。K可表示为:
K=m|A||Z|T2
其中,|A|代表联合动作数量,|Z|代表联合观测数量,T代表决策步长,m为常数。在已生成的蒙特卡洛树的根节点处,根据不同动作的价值,采用贪心算法选择采取的动作。控制多智能体在环境中交互,获得环境中的观测。如图3所示,根据采取的动作与取得的观测,对蒙特卡洛树进行剪枝,将选择的动作与观测节点作为新的根节点并更新信念。回到步骤2进行下一步决策,直至决策任务完成。
上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。

Claims (10)

1.一种基于蒙特卡洛树探索的多智能体决策方法,其特征在于,包括如下步骤:
S1:基于分布式部分观测马尔可夫决策过程对决策任务进行建模;
S2:基于模型初始化蒙特卡洛树;
S3:在预设的时间内采用上限置信区间算法进行树内探索,采用随机策略对树外进行探索,拓展蒙特卡洛树节点,并根据产生的奖励更新蒙特卡洛树节点价值;
S4:根据已经构建的蒙特卡洛树进行多智能体决策,并对蒙特卡洛树进行剪枝,更新根节点的信念值,重复S3-S4,直至任务完成。
2.根据权利要求1所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S1中,将多智能体决策任务建模为Dec-POMDP模型,所述模型定义为一个元祖<I,S,A,T,Z,O,R>其中,I={1,…,n}为有限智能体的结合;n为智能体的数量;S={s1,…,sn}为智能体有限状态的集合;Z={z1,…,zn}为智能体有限观测的集合;A={a1,…,an}为智能体的联合动作;T为状态转移函数,表示智能体集群在当前状态下执行联合动作达到下一个状态的概率;O为观测函数,表示智能体集群在当前状态下执行联合动作获得某一观测的概率;R为奖励函数,表示智能体集群在当前状态下执行联合动作获得的奖励。
3.根据权利要求2所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S2中,根据Dec-POMDP模型,对每一个智能体建立独立的蒙特卡洛树,生成根节点,其中,Ht={A0,Z1,…,At-1,Zt}为智能体集群所经历的历史动作-观测序列;
Figure FDA0004070076390000011
代表智能体i所经历的历史动作-观测序列;/>
Figure FDA0004070076390000012
代表节点,j表示节点的序号;Q代表节点的价值,初始值为0;树内分为观测节点与动作节点。
4.根据权利要求1所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S3中,在有限的时间内于每个智能体的树内同步进行采样,并完成探索,具体为:基于根节点的信念,采样得到每个智能体的状态,从根节点开始按照Dec-POMDP模型执行可行的动作,采样得到环境反馈的观测与下一步的状态,树内探索按照上限置信度算法平衡探索与贪婪策略,公式表示为:
Figure FDA0004070076390000021
其中,
Figure FDA0004070076390000022
表示在节点/>
Figure FDA0004070076390000023
处访问动作a的次数;/>
Figure FDA0004070076390000024
表示访问节点/>
Figure FDA0004070076390000025
的次数;c为常数,用于平衡探索和贪婪策略,利用更新后的Q*执行贪婪策略,在树内选择动作。
5.根据权利要求4所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S3中,当树内节点被探索完成,达到叶节点时,即在树外节点进行探索,树外探索采用随机策略的方式,随机执行可选择的动作,快速评估可能产生的奖励,具体为:根据选择的动作,以及获得的观测,在叶节点下新建子节点,节点的价值由随机动作探索而来,计算公式表示为:
Figure FDA0004070076390000026
其中,T为决策深度;r表示折扣因子,为0-1的常数;t为当前探索深度;RT为多智能体执行联合动作在环境中获得的奖励。
6.根据权利要求5所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S3中,根据产生的奖励更新蒙特卡洛树节点价值具体为:将集体奖励共同赋予执行过程中的所有智能体,当建立新的节点时,根据新节点的价值,反向传播,自下而上地更新所有节点的价值,公式表示为:
Figure FDA0004070076390000027
Figure FDA0004070076390000031
7.根据权利要求1所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S4中,设定探索时间或探索次数的上限值K,K的表达式为:
K=m|A||Z|T2
其中,|A|为联合动作数量;|Z|为联合观测数量;T代表决策步长;m为常数。
8.根据权利要求7所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S4中,在更新所有节点的价值后,需对探索时间或探索次数进行判定,判定是否达到上限,若是,则进行下一步;若没有达到上限,则重复S3,直至探索时间或探索次数达到上限为止。
9.根据权利要求8所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述下一步具体为:在已生成的蒙特卡洛树的根节点处,根据不同动作的价值,采用贪心算法选择采取的动作,并控制多智能体在环境中交互,获得环境中的观测,然后根据采取的动作与取得的观测,对蒙特卡洛树进行剪枝。
10.根据权利要求9所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,当剪枝完成后,判断任务是否完成,若任务完成,则结束多智能体决策;若任务未完成,则更新节点的信念值,重复S3-S4,直至任务完成。
CN202310090294.0A 2023-02-09 2023-02-09 一种基于蒙特卡洛树探索的多智能体决策方法 Pending CN116306947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310090294.0A CN116306947A (zh) 2023-02-09 2023-02-09 一种基于蒙特卡洛树探索的多智能体决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310090294.0A CN116306947A (zh) 2023-02-09 2023-02-09 一种基于蒙特卡洛树探索的多智能体决策方法

Publications (1)

Publication Number Publication Date
CN116306947A true CN116306947A (zh) 2023-06-23

Family

ID=86826562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310090294.0A Pending CN116306947A (zh) 2023-02-09 2023-02-09 一种基于蒙特卡洛树探索的多智能体决策方法

Country Status (1)

Country Link
CN (1) CN116306947A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116526477A (zh) * 2023-06-30 2023-08-01 南方电网数字电网研究院有限公司 电网重构策略的确定方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116526477A (zh) * 2023-06-30 2023-08-01 南方电网数字电网研究院有限公司 电网重构策略的确定方法、装置、计算机设备和存储介质
CN116526477B (zh) * 2023-06-30 2024-03-26 南方电网数字电网研究院有限公司 电网重构策略的确定方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
Vecerik et al. Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards
Jeerige et al. Comparison of deep reinforcement learning approaches for intelligent game playing
CN113919485B (zh) 基于动态层级通信网络的多智能体强化学习方法及***
CN112264999B (zh) 用于智能体连续空间行动规划的方法、装置及存储介质
CN116306947A (zh) 一种基于蒙特卡洛树探索的多智能体决策方法
CN114861368B (zh) 一种基于近端策略的铁路纵断面设计学习模型的构建方法
Thabet et al. Sample-efficient deep reinforcement learning with imaginary rollouts for human-robot interaction
Niu et al. Lightzero: A unified benchmark for monte carlo tree search in general sequential decision scenarios
Subramanian et al. Multi-agent advisor Q-learning
Hafez et al. Efficient intrinsically motivated robotic grasping with learning-adaptive imagination in latent space
Tong et al. Enhancing rolling horizon evolution with policy and value networks
CN113379027A (zh) 一种生成对抗交互模仿学习方法、***、存储介质及应用
CN115022231B (zh) 一种基于深度强化学习的最优路径规划的方法和***
CN115964898A (zh) 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法
Wu et al. Model-based Bayesian Reinforcement Learning in Factored Markov Decision Process.
JP2021192141A (ja) 学習装置、学習方法、および学習プログラム
CN116718198B (zh) 基于时序知识图谱的无人机集群的路径规划方法及***
CN112884129B (zh) 一种基于示教数据的多步规则提取方法、设备及存储介质
RU2816639C1 (ru) Способ для создания контроллеров управления шагающими роботами на основе обучения с подкреплением
de Carvalho Deep reinforcement learning methods for cooperative robotic navigation
Zhang Ant Colony Algorithm for Distributed Constrained Optimization
Li Miscellaneous Topics
Zugarová et al. Similarity-based transfer learning of decision policies
Fan A Comprehensive Analysis of Game theory on Multi-Agent Reinforcement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200092 Siping Road 1239, Shanghai, Yangpu District

Applicant after: TONGJI University

Address before: 200092 Siping Road 1239, Shanghai, Hongkou District

Applicant before: TONGJI University