CN117151224A - 兵棋强随机博弈的策略演化训练方法、装置、设备及介质 - Google Patents

兵棋强随机博弈的策略演化训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN117151224A
CN117151224A CN202310934321.8A CN202310934321A CN117151224A CN 117151224 A CN117151224 A CN 117151224A CN 202310934321 A CN202310934321 A CN 202310934321A CN 117151224 A CN117151224 A CN 117151224A
Authority
CN
China
Prior art keywords
chess
strategy
game
training
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310934321.8A
Other languages
English (en)
Inventor
李丽娟
兴军亮
余照科
范国梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202310934321.8A priority Critical patent/CN117151224A/zh
Publication of CN117151224A publication Critical patent/CN117151224A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种兵棋强随机博弈的策略演化训练方法、装置、设备及介质,方法包括:基于兵棋推演对抗平台,获取强随机博弈、多异构智能体异步协同的兵棋决策问题;基于兵棋决策问题,确定设计了回退与替换机制的自博弈强化学习训练框架;获取自博弈强化学习训练框架进行强化学习时确定当前策略与旧策略之间的概率比例;基于概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失;基于策略损失和所述价值损失,对框架进行参数迭代,得到兵棋推演决策模型。此过程在PPO算法的基础上额外引入了三个截断参数,来缓解状态价值估计不准的问题,大幅提高兵棋训练过程的稳定性和收敛速度。

Description

兵棋强随机博弈的策略演化训练方法、装置、设备及介质
技术领域
本发明涉及智能博弈学习技术领域,尤其涉及一种兵棋强随机博弈的策略演化训练方法、装置、设备及介质。
背景技术
兵棋推演是一个典型的强随机博弈过程,其交战裁决一般遵循“攻击等级确定和修正、战损结果查询和修正”的基本流程,在战果查询和修正过程中需要两次“掷色子”得到随机数分别查表得到最终战损。这使得兵棋推演对抗过程的状态转移具有极大不确定性,相同态势下同样的动作得到的战损结果可能相差甚远,导致同一个策略取得的奖励存在较大波动,强化学习训练过程的状态价值具有高方差等问题,使得算法训练过程不稳定,算法收敛更加困难。
同时,兵棋推演是一个多异构智能体异步协同决策过程。兵棋推演是一个复杂环境下的不完美信息博弈对抗过程,对手策略存在极大未知性与不确定性。针对固定对手的学习容易使策略“过拟合”对手,这样学出来的策略通常很脆弱,容易被对手找到弱点并进行剥削利用。采用朴素的自博弈训练方法,策略之间进行自我博弈,容易使策略陷入循环克制的困境,策略的决策能力难以进一步演化提升。
发明内容
本发明提供一种兵棋强随机博弈的策略演化训练方法、装置、设备及介质,用以解决现有技术中高方差状态价值导致的强化学习训练过程不稳定,以及朴素自博弈方法容易使策略陷入循环克制的问题。
本发明提供一种兵棋强随机博弈的策略演化训练方法,包括:
基于兵棋推演对抗平台,获取强随机博弈、多异构智能体异步协同的兵棋决策问题;
基于所述兵棋决策问题,确定设计了回退与替换机制的自博弈强化学习训练框架;所述自博弈强化学习训练框架包括生成器、对手池、学习器、数据回放模块;所述自博弈强化学习训练框架的动作空间是重构得到的;
获取所述自博弈强化学习训练框架进行强化学习时确定当前策略与旧策略之间的概率比例;所述概率比例是基于有效动作掩码确定的;所述有效动作掩码反映在当前状态,动作是否为合法动作;
基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失;所述算子掩码反映在当前状态,算子是否存在合法动作;
基于所述策略损失和所述价值损失,对所述自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型。
根据本发明提供的一种兵棋强随机博弈的策略演化训练方法,所述基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失,包括:
基于第一截断参数和所述概率比例,确定策略网络对应的策略损失;
基于第二截断参数、第三截断参数和算子掩码,确定价值网络对应的价值损失。
根据本发明提供的一种兵棋强随机博弈的策略演化训练方法,所述基于所述兵棋决策问题,确定自博弈强化学习训练框架,包括:
获取所述兵棋决策问题的原始动作空间;
对所述原始动作空间进行重构,得到重构动作空间;所述重构动作空间包括机动、射击、夺控、状态转换和空动作;
基于所述重构动作空间,确定所述自博弈强化学习训练框架。
根据本发明提供的一种兵棋强随机博弈的策略演化训练方法,所述生成器用于在每次对抗中,从所述对手池中选择一个对手和训练模型进行对抗,并将产生的对抗结果发送至所述数据回放模块;所述训练模型是以长短时记忆网络为核心的神经网络模型,所述训练模型的输入是兵棋推演原始状态特征,输出是兵棋推演动作指令;
所述对手池包括多个红蓝智能体模型,各红蓝智能体模型维护一个分数,所述生成器根据所述分数进行对手采样,所述对手池根据所述对抗结果更新所述各红蓝智能体模型对应的分数;
所述学习器用于从所述数据回放模块采样数据,并计算所述策略损失和所述价值损失,所述生成器每隔固定步长,将所述训练模型更新为最新网络参数;
所述数据回放模块用于存放所述生成器产生的所述对抗结果。
根据本发明提供的一种兵棋强随机博弈的策略演化训练方法,所述训练模型包括第一分支和第二分支;
所述第一分支用于提取标量特征、算子特征、地图特征和迷你地图特征,并基于所述标量特征、所述算子特征、所述地图特征和所述迷你地图特征进行特征融合,得到融合特征,将所述融合特征输入至所述策略网络中,由所述策略网络得到并输出所述融合特征对应的动作;
所述第二分支用于提取全局信息特征,并将所述全局信息特征和所述融合特征输入至所述价值网络中,由所述价值网络得到并输出所述动作对应的价值。
根据本发明提供的一种兵棋强随机博弈的策略演化训练方法,所述标量特征包括战斗裁决信息、比分、时间中的至少一种,所述算子特征包括血量、类型、机动状态、武器冷却时间中的至少一种,所述地图特征包括算子相对位置、夺控点位置中的至少一种,所述迷你地图特征是以算子为中心截取的迷你地图,所述迷你地图特征包括高程、地形、到夺控点距离中的至少一种。
根据本发明提供的一种兵棋强随机博弈的策略演化训练方法,所述回退与替换机制是基于统计变量Z设计的,所述统计变量Z根据所述生成器的对抗结果计算得到的;
如果训练模型对局失败,所述统计变量Z加1;否则清零;当所述统计变量Z达到阈值时,将会触发回退机制,将设定时间之前的参数设置为一次训练端更新的参数,同时,若多次触发所述回退机制,则会触发替换机制,将所述学习器的参数替换为所述对手池中分数最高的模型参数。
本发明还提供一种兵棋强随机博弈的策略演化训练装置,包括:
获取单元,用于基于兵棋推演对抗平台,获取强随机博弈、多异构智能体异步协同的兵棋决策问题;
确定单元,用于基于所述兵棋决策问题,确定设计了回退与替换机制的自博弈强化学习训练框架;所述自博弈强化学习训练框架包括生成器、对手池、学习器、数据回放模块;所述自博弈强化学习训练框架的动作空间是重构得到的;
获取概率比例单元,用于获取所述自博弈强化学习当前策略与旧策略之间的概率比例;所述概率比例是基于有效动作掩码确定的;所述有效动作掩码反映在当前状态,动作是否为合法动作;
确定损失单元,用于基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失;所述算子掩码反映在当前状态,算子是否存在合法动作;
参数迭代单元,用于基于所述策略损失和所述价值损失,对所述自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述兵棋强随机博弈的策略演化训练方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述兵棋强随机博弈的策略演化训练方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述兵棋强随机博弈的策略演化训练方法。
本发明提供的兵棋强随机博弈的策略演化训练方法、装置、设备及介质,基于概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失,算子掩码反映在当前状态,算子是否存在合法动作,最后,基于策略损失和价值损失,对自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型,此过程在PPO算法的基础上,额外引入了三个截断参数,来缓解状态价值估计不准的问题,大幅提高兵棋训练过程的稳定性和收敛速度,并且,在损失计算时引入有效动作掩码和算子掩码,进一步减小不必要的探索和提高训练的稳定性,进一步提高了策略的决策能力。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的兵棋强随机博弈的策略演化训练方法的流程示意图;
图2是本发明提供的自博弈强化学习训练框架的示意图;
图3是本发明提供的训练模型的结构示意图;
图4是本发明提供的兵棋强随机博弈的策略演化训练装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类。
相关技术中,兵棋推演是以战争中“人”的决策为核心的作战模拟和训练工具。近年来,随着智能博弈技术在围棋、德州扑克、星际争霸等游戏中取得突破,结合强化学习、深度神经网络、博弈论等数据驱动学习技术在兵棋AI(Artificial Intelligence,人工智能)研发中掀起一股热潮。
兵棋推演是一个典型的强随机博弈过程,同时,兵棋推演是一个多异构智能体异步协同决策过程。以实时制连级兵棋推演为例,共有坦克、战车、无人车、步兵、巡飞弹等多类算子,各类算子在机动能力、攻击能力、防御能力、通视范围等方面差异很大,导致不同算子对不同动作的偏好差异很大,例如坦克较为灵活,适合机动射击,而战车则需要长时间停止。而且,不同算子的基本动作如机动、射击、状态切换等执行时长不一致,导致多智能体协同的异步性。这些都极大增加了兵棋推演最优策略的探索难度,策略训练更加困难。
然而,兵棋推演是一个复杂环境下的不完美信息博弈对抗过程,对手策略存在极大未知性与不确定性。针对固定对手的学习容易使策略“过拟合”对手,这样学出来的策略通常很脆弱,容易被对手找到弱点并进行剥削利用。并且兵棋强随机博弈问题来源于兵棋随机裁决机制,导致兵棋对抗的状态转移不确定性极大,状态价值难以估计。采用朴素的自博弈训练方法,策略之间进行自我博弈,容易使策略陷入循环克制的困境,策略的决策能力难以进一步演化提升。
基于上述问题,本发明提供一种兵棋强随机博弈的策略演化训练方法,图1是本发明提供的兵棋强随机博弈的策略演化训练方法的流程示意图,如图1所示,该方法包括:
步骤110,基于兵棋推演对抗平台,获取强随机博弈、多异构智能体异步协同的兵棋决策问题。
具体地,可以基于兵棋推演对抗平台,获取强随机博弈、多异构智能体异步协同的兵棋决策问题。
此处的兵棋推演对抗平台可以是中科院自动化研究所研发的庙算-实时制陆战兵棋推演***,实验想定采用的是分队水网稻田遭遇想定,在此想定下红蓝双方控制六个算子围绕主要与次要夺控点进行对抗,红方包含坦克、战车、无人车、步兵各1个算子以及两个巡飞弹算子,蓝方包含坦克、战车和步兵各两个算子。
兵棋不同种类的算子在机动能力、攻击能力、防御能力、观察范围等方面差异较大,且算子在执行各类动作所需时长也不一致。例如,车辆、步兵、巡飞弹正常机动1格的时间从几秒到几十秒不等,且对于不同地形、不同机动状态下所需时间又会发生变化,射击只需要1秒时间,而且除了坦克可以行进间射击,其他算子需要在静止时才能射击,而机动转静止、武器冷却、切换掩蔽等都需要75秒。因此,各算子各动作的执行步长不一致,在每个决策时间步(1秒),算子可能无法接收新的动作输入,即异步协同决策问题。尤其对于战车、步兵等无法行进间射击的算子,大部分时刻需要保持静止(即空动作),这导致空动作与其他机动、射击等动作的比例差异极大,不同算子对各类动作的偏好差异也很大,这些都导致直接从原始动作空间探索困难,策略难以收敛。
另一方面,兵棋推演的交战裁决一般遵循“攻击等级确定和修正、战损结果查询和修正”的基本流程,在战果查询和修正过程中需要两次“掷色子”得到随机数分别查表得到最终战损。这使得兵棋推演对抗过程的状态转移具有极大不确定性,相同态势下同样的动作得到的战损结果可能相差甚远,导致同一个策略取得的奖励存在较大波动,强化学习训练过程的状态价值具有高方差,使得算法训练过程不稳定,算法收敛更加困难。
由于兵棋推演中每个算子受地形、视界等影响,无法获得视野范围外的敌方信息,即存在“战争迷雾”,因此兵棋推演是一个典型的不完美信息博弈过程。实际对抗中,对手策略存在极大的未知性与不确定性,单一策略难以应对不同类型的对手,且策略空间存在极大的非传递性,策略训练极易陷入循环克制。
即,兵棋决策问题具有强随机博弈和多异构智能体异步协同的特点。
此外,还可以获取兵棋决策问题的原始状态特征和原始动作空间。
步骤120,基于所述兵棋决策问题,确定设计了回退与替换机制的自博弈强化学习训练框架;所述自博弈强化学习训练框架包括生成器、对手池、学习器、数据回放模块;所述自博弈强化学习训练框架的动作空间是重构得到的。
具体地,在获取兵棋决策问题之后,可以基于兵棋决策问题,确定设计了回退与替换机制的自博弈强化学习训练框架,此处的自博弈强化学习训练框架可以包括生成器、对手池、学习器、数据回放模块,此处的自博弈强化学习训练框架的动作空间是重构得到的。
此处的生成器用于在每次对抗中,从对手池中选择一个对手和训练模型进行对抗,并将产生的对抗结果发送至数据回放模块。
此处的对手池包括多个红蓝智能体模型,各红蓝智能体模型维护一个分数,生成器根据分数进行对手采样,对手池根据对抗结果更新各红蓝智能体模型对应的分数。
此处的学习器用于从数据回放模块采样数据,并计算策略损失和价值损失,生成器每隔固定步长,将训练模型更新为最新网络参数。
此处的数据回放模块用于存放生成器产生的对抗结果。
步骤130,获取所述自博弈强化学习训练框架进行强化学习时确定当前策略与旧策略之间的概率比例;所述概率比例是基于有效动作掩码确定的;所述有效动作掩码反映在当前状态,动作是否为合法动作;
步骤140,基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失;所述算子掩码反映在当前状态,算子是否存在合法动作。
具体地,对于兵棋推演决策,每个算子即有私有奖励,也有全局共享奖励,而主流的多智能体强化学习算法大多聚焦于全合作任务,即多个智能体共享一个奖励函数,在兵棋推演任务下面临信用分配困难等问题。而采用独立Trinal-Clip PPO算法学习,每个智能体单独训练一个策略模型,以更好的适应兵棋异构算子混合奖励的协同任务。
现有的PPO(Proximal Policy Optimization,近端策略优化算法)在当前策略πθ与旧策略πθ′之间定义了概率比例:
其中,rt(θ)表示概率比例,πθ(at|st)表示当前策略,πθ′(at|st)表示旧策略。
PPO算法通过对概率比例进行截断来避免策略梯度一次更新过大,其策略网络和价值网络的损失函数分别表示为:
其中,Lp(θ)表示策略网络的损失函数,Lv(θ)表示价值网络的损失函数,表示连续两个时间步的值函数差异,ε表示截断超参数,/>表示折扣回报。
考虑到兵棋推演的强随机博弈特性导致常见的强化学习算法训练过程很不稳定,上述PPO算法难以收敛。Trinal-Clip PPO算法在PPO算法的基础上,额外引入了三个截断参数,来缓解状态价值估计不准的问题,大幅提高兵棋训练过程的稳定性和收敛速度。
Trinal-Clip PPO算法的训练损失函数主要包括策略损失函数Ltcp(θ)和价值损失函数Ltcv(θ):
其中,对策略损失函数引入截断参数δ1,缓解优势函数小于零时损失值方差过大的问题,对价值损失函数引入两个截断参数δ23,以有效减少值函数估计的方差。
可以获取自博弈强化学习训练框架进行强化学习时确定当前策略与旧策略之间的概率比例,此处的概率比例是基于有效动作掩码M(at|st)确定的。
即,为了进一步减小不必要的探索和提高训练的稳定性,在损失计算时引入有效动作掩码M(at|st)和算子掩码M(st),其中:算子有效动作掩码M(at|st)表示状态st时动作at是否为合法动作,算子掩码M(st)表示状态st时算子是否存在合法动作。基于上述掩码,将Trinal-Clip PPO算法的策略损失函数Ltcp(θ)中概率比例rt(θ)的公式更新为:
其中,rt1(θ)表示更新概率比例,M(at|st)表示有效动作掩码,πθ(at|st)表示当前策略,πθ′(at|st)表示旧策略。
即,将策略网络对应的策略损失的公式更新为:
将价值损失函数Ltcv(θ)的公式更新为:
其中,L1tcv(θ)表示更新的价值网络对应的价值损失,δ23表示两个截断参数,M(st)表示算子掩码。
即,基于概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失。
步骤150,基于所述策略损失和所述价值损失,对所述自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型。
具体地,在得到策略损失和价值损失之后,可以基于策略损失和价值损失之和,或者基于策略损失和价值损失的加权之和,对自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型。
可以理解的是,本发明实施例提供的方法可以在较少计算资源的前提下实现高水平兵棋推演智能决策模型,有效提升兵棋策略演化训练过程的稳定性和速度。
本发明实施例提供的方法,基于概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失,算子掩码反映在当前状态,算子是否存在合法动作,最后,基于策略损失和价值损失,对自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型,此过程在PPO算法的基础上,额外引入了三个截断参数,来缓解状态价值估计不准的问题,大幅提高兵棋训练过程的稳定性和收敛速度,并且,在损失计算时引入有效动作掩码和算子掩码,进一步减小不必要的探索和提高训练的稳定性,进一步提高了策略的决策能力。
基于上述实施例,步骤140包括:
步骤141,基于第一截断参数和所述概率比例,确定策略网络对应的策略损失;
步骤142,基于第二截断参数、第三截断参数和算子掩码,确定价值网络对应的价值损失。
具体地,可以基于第一截断参数和所述概率比例,确定策略网络对应的策略损失,策略网络对应的策略损失的公式如下:
其中,rt1(θ)表示概率比例,M(at|st)表示有效动作掩码,πθ(at|st)表示当前策略,πθ′(at|st)表示旧策略,表示连续两个时间步的值函数差异,ε表示截断超参数,δ1表示第一截断参数。
并且,可以基于第二截断参数、第三截断参数和算子掩码,确定价值网络对应的价值损失,价值网络对应的价值损失的公式如下:
其中,L1tcv(θ)表示价值网络对应的价值损失,δ23分别表示第二截断参数、第三截断参数,M(st)表示算子掩码。
本发明实施例提供的方法,此过程在PPO算法的基础上,额外引入了三个截断参数,来缓解状态价值估计不准的问题,大幅提高兵棋训练过程的稳定性和收敛速度。
基于上述实施例,步骤120包括:
步骤121,获取所述兵棋决策问题的原始动作空间;
步骤122,对所述原始动作空间进行重构,得到重构动作空间;所述重构动作空间包括机动、射击、夺控、状态转换和空动作;
步骤123,基于所述重构动作空间,确定所述自博弈强化学习训练框架。
具体地,可以获取兵棋决策问题的原始动作空间,此处的原始动作空间是指兵棋决策问题的初始的动作空间。
在获取到原始动作空间之后,可以对原始动作空间进行重构,得到重构动作空间,此处的重构动作空间可以包括机动、射击、夺控、状态转换和空动作。
其中,机动到地图上的任一点分解为向周围六个方向机动一格,为了模拟算子在一格内保持不动,添加Pass类动作(空动作)。针对战车、步兵等需要长时间保持不动的算子,Pass类动作分为Pass 30s、10s、5s、1s四种时间维度,从而使该类算子的空动作与其他机动、射击等动作的比例相似,以减少策略探索的难度。重构的动作空间共13维,具体如下表1所示:
在每个时间步,根据兵棋引擎返回的有效动作列表生成动作掩码,只有当存在有效动作时,智能体才需要决策,动作掩码在计算损失、动作采样时都参与计算,以减少不必要的策略空间探索。
最后,在得到重构动作空间之后,可以基于重构动作空间,确定自博弈强化学习训练框架。
本发明实施例提供的方法,获取兵棋决策问题的原始动作空间,对原始动作空间进行重构,得到重构动作空间,重构动作空间包括机动、射击、夺控、状态转换和空动作,此过程通过添加多种时长的空动作,在动作采样和损失函数计算时,添加有效动作掩码,减少不必要的策略探索并稳定训练过程。
基于上述实施例,图2是本发明提供的自博弈强化学习训练框架的示意图,如图2所示,所述生成器用于在每次对抗中,从所述对手池中选择一个对手和训练模型进行对抗,并将产生的对抗结果发送至所述数据回放模块;所述训练模型是以长短时记忆网络为核心的神经网络模型,所述训练模型的输入是兵棋推演原始状态特征,输出是兵棋推演动作指令;
所述对手池包括多个红蓝智能体模型,各红蓝智能体模型维护一个分数,所述生成器根据所述分数进行对手采样,所述对手池根据所述对抗结果更新所述各红蓝智能体模型对应的分数;
所述学习器用于从所述数据回放模块采样数据,并计算所述策略损失和所述价值损失,所述生成器每隔固定步长,将所述训练模型更新为最新网络参数;
所述数据回放模块用于存放所述生成器产生的所述对抗结果。
具体地,自博弈强化学习训练框架同时训练红蓝两方,每一方均维护一个对手池,在每次对抗中,生成器从对手池中挑选出一个对手和训练模型进行对抗,并将产生的对抗结果发送至数据回放模块。
此处的训练模型是以LSTM(Long Short Term Memory,长短时记忆网络)为核心的神经网络模型,此处的训练模型的输入是兵棋推演原始状态特征,输出是兵棋推演动作指令。此处的兵棋推演原始状态特征反映了兵棋决策问题的原始状态的特征信息,此处的兵棋推演动作指令是指每个参与者在自己的回合中可以进行的多种行动,如移动部队、发动攻击等。
此处的训练模型克服了不完美信息环境和序列预测的长期依赖问题。训练模型采用Actor-critic架构,分为策略网络和价值网络,策略网络输出动作概率分布,价值网络评估当前状态价值。
此处的对手池包括多个红蓝智能体模型,各红蓝智能体模型维护一个分数,生成器根据分数进行对手采样,对手池根据对抗结果更新各红蓝智能体模型对应的分数。
学习器用于从数据回放模块采样数据,并计算策略损失和价值损失,生成器每隔固定步长,将训练模型更新为最新网络参数。即,生成器每交互一定步数后,请求新的网络参数并更新本地智能体的网络。
此处的数据回放模块用于存放生成器产生的对抗结果。
其中,采用基础策略集初始化对手池,并在训练过程中每隔ΔT步将最新模型添加进对手池,并维护一个初始分数qi。生成器在开启一轮对抗时,根据以下公式选择一个对手:
其中,si为模型i被选中的次数,qi为模型i的分数,OP代表对手池所有对手集合。对局结束后,数据生成器将对抗结果将返回,如果当前训练模型赢得对局,则对手池将根据以下公式更新模型分数:
其中,N为当前对手池中模型的数量,η为用于控制模型分数衰减速度的超参数。
在训练过程中,设置了一个统计变量Z来防止策略模型陷入局部最优。如果数据生成器端的训练模型对局失败,Z加1;否则清零。当Z达到阈值,将会触发回退机制,将设定时间之前的参数设置为一次训练端更新的参数,同时,若多次触发,则会触发替换机制,将学习器的参数替换为对手池中分数最高的模型参数。
即,自博弈强化学习训练框架设计回退与替换机制来防止策略陷入局部最优,缓解兵棋博弈中的策略循环克制问题。
本发明实施例提供的方法,自博弈强化学习训练框架支持对抗两方智能体的同时训练和策略演化,设计回退与替换机制来防止策略陷入局部最优,克服策略循环克制问题,加速兵棋策略的演化训练。
基于上述实施例,图3是本发明提供的训练模型的结构示意图,如图3所示,所述训练模型包括第一分支和第二分支;
所述第一分支用于提取标量特征、算子特征、地图特征和迷你地图特征,并基于所述标量特征、所述算子特征、所述地图特征和所述迷你地图特征进行特征融合,得到融合特征,将所述融合特征输入至所述策略网络中,由所述策略网络得到并输出所述融合特征对应的动作;
所述第二分支用于提取全局信息特征,并将所述全局信息特征和所述融合特征输入至所述价值网络中,由所述价值网络得到并输出所述动作对应的价值。
具体地,训练模型具体包括不完美信息特征编码和完美信息特征编码,其中完美信息特征编码仅在训练阶段使用,测试阶段(即实际对抗阶段)不使用。
不完美信息特征编码包括己方视野内的算子特征、地图特征、迷你地图特征和标量特征,完美信息特征为第三人称视角的全局算子信息特征,在测试阶段将替换为不完美信息下的算子特征。
训练模型可以包括第一分支和第二分支,此处的第一分支用于提取标量特征、算子特征、地图特征和迷你地图特征,并基于标量特征、算子特征、地图特征和迷你地图特征进行特征融合,得到融合特征。再将融合特征输入至LSTM模型中,由LSTM模型得到并输出不完美信息特征,再将不完美信息特征输入至策略网络中,由策略网络得到并输出融合特征对应的动作。
其中,标量特征的提取可以使用标量特征感知网络,算子特征的提取可以使用算子特征感知网络,地图特征的提取可以使用地图特征感知网络,迷你地图特征的提取可以使用迷你地图感知网络。
标量特征感知网络和算子特征感知网络可以是全连接网络,地图特征感知网络和迷你地图感知网络可以是级联结构的多层卷积神经网络(Convolutional NeuralNetwork,CNN),也可以是深度神经网络(Deep Neural Networks,DNN),还可以是CNN和DNN的组合结构等,本发明实施例对此不作具体限定。
此处,基于标量特征、算子特征、地图特征和迷你地图特征进行特征融合可以是将标量特征、算子特征、地图特征和迷你地图特征进行拼接,还可以是利用注意力机制将标量特征、算子特征、地图特征和迷你地图特征进行加权之后再拼接,本发明实施例对此不作具体限定。
第二分支可以用于提取全局信息特征,并将全局信息特征和融合特征输入至价值网络中,由价值网络得到并输出动作对应的价值。此处的全局信息特征是指第三人称视角的全局算子信息特征,即完美信息特征。
价值网络在组合编码特征基础上,添加完美信息特征以辅助训练,采取多头值估计的结构,输出每个算子的状态价值估计,并根据各算子动作奖励分别进行更新。
基于上述实施例,所述标量特征包括战斗裁决信息、比分、时间中的至少一种,所述算子特征包括血量、类型、机动状态、武器冷却时间中的至少一种,所述地图特征包括算子相对位置、夺控点位置中的至少一种,所述迷你地图特征是以算子为中心截取的迷你地图,所述迷你地图特征包括高程、地形、到夺控点距离中的至少一种。
具体地,此处的标量特征可以包括战斗裁决信息、比分、时间中的至少一种,此处的算子特征可以包括血量、类型、机动状态、武器冷却时间中的至少一种,此处的地图特征包括算子相对位置、夺控点位置中的至少一种,此处的迷你地图特征是以算子为中心截取的迷你地图,此处的迷你地图特征包括高程、地形、到夺控点距离中的至少一种。
本发明实施例提供的方法,标量特征包括战斗裁决信息、比分、时间中的至少一种,算子特征包括血量、类型、机动状态、武器冷却时间中的至少一种,地图特征包括算子相对位置、夺控点位置中的至少一种,迷你地图特征是以算子为中心截取的迷你地图,迷你地图特征包括高程、地形、到夺控点距离中的至少一种,提高了不完美信息特征的多样性。
下面对本发明提供的兵棋强随机博弈的策略演化训练装置进行描述,下文描述的兵棋强随机博弈的策略演化训练装置与上文描述的兵棋强随机博弈的策略演化训练方法可相互对应参照。
基于上述任一实施例,本发明提供一种兵棋强随机博弈的策略演化训练装置,图4是本发明提供的兵棋强随机博弈的策略演化训练装置的结构示意图,如图4所示,该装置包括:
获取单元410,用于基于兵棋推演对抗平台,获取强随机博弈、多异构智能体异步协同的兵棋决策问题;
确定单元420,用于基于所述兵棋决策问题,确定自博弈强化学习训练框架;所述自博弈强化学习训练框架包括生成器、对手池、学习器、数据回放模块;
获取概率比例单元430,用于获取所述自博弈强化学习当前策略与旧策略之间的概率比例;所述概率比例是基于有效动作掩码确定的;所述有效动作掩码反映在当前状态,动作是否为合法动作;
确定损失单元440,用于基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失;所述算子掩码反映在当前状态,算子是否存在合法动作;
参数迭代单元450,用于基于所述策略损失和所述价值损失,对所述自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型。
本发明实施例提供的装置,基于概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失,算子掩码反映在当前状态,算子是否存在合法动作,最后,基于策略损失和价值损失,对自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型,此过程在PPO算法的基础上,额外引入了三个截断参数,来缓解状态价值估计不准的问题,大幅提高兵棋训练过程的稳定性和收敛速度,并且,在损失计算时引入有效动作掩码和算子掩码,进一步减小不必要的探索和提高训练的稳定性,进一步提高了策略的决策能力。
基于上述任一实施例,确定损失单元440具体用于:
确定策略损失单元,用于基于第一截断参数和所述概率比例,确定策略网络对应的策略损失;
确定价值损失单元,用于基于第二截断参数、第三截断参数和算子掩码,确定价值网络对应的价值损失。
基于上述任一实施例,确定单元420具体用于:
获取原始动作空间单元,用于获取所述兵棋决策问题的原始动作空间;
重构单元,用于对所述原始动作空间进行重构,得到重构动作空间;所述重构动作空间包括机动、射击、夺控、状态转换和空动作;
确定训练框架单元,用于基于所述重构动作空间,确定所述自博弈强化学习训练框架。
基于上述任一实施例,所述生成器用于在每次对抗中,从所述对手池中选择一个对手和训练模型进行对抗,并将产生的对抗结果发送至所述数据回放模块;所述训练模型是以长短时记忆网络为核心的神经网络模型,所述训练模型的输入是兵棋推演原始状态特征,输出是兵棋推演动作指令;
所述对手池包括多个红蓝智能体模型,各红蓝智能体模型维护一个分数,所述生成器根据所述分数进行对手采样,所述对手池根据所述对抗结果更新所述各红蓝智能体模型对应的分数;
所述学习器用于从所述数据回放模块采样数据,并计算所述策略损失和所述价值损失,所述生成器每隔固定步长,将所述训练模型更新为最新网络参数;
所述数据回放模块用于存放所述生成器产生的所述对抗结果。
基于上述任一实施例,所述训练模型包括第一分支和第二分支;
所述第一分支用于提取标量特征、算子特征、地图特征和迷你地图特征,并基于所述标量特征、所述算子特征、所述地图特征和所述迷你地图特征进行特征融合,得到融合特征,将所述融合特征输入至所述策略网络中,由所述策略网络得到并输出所述融合特征对应的动作;
所述第二分支用于提取全局信息特征,并将所述全局信息特征和所述融合特征输入至所述价值网络中,由所述价值网络得到并输出所述动作对应的价值。
基于上述任一实施例,所述标量特征包括战斗裁决信息、比分、时间中的至少一种,所述算子特征包括血量、类型、机动状态、武器冷却时间中的至少一种,所述地图特征包括算子相对位置、夺控点位置中的至少一种,所述迷你地图特征是以算子为中心截取的迷你地图,所述迷你地图特征包括高程、地形、到夺控点距离中的至少一种。
基于上述任一实施例,所述回退与替换机制是基于统计变量Z设计的,所述统计变量Z根据所述生成器的对抗结果计算得到的;
如果训练模型对局失败,所述统计变量Z加1;否则清零;当所述统计变量Z达到阈值时,将会触发回退机制,将设定时间之前的参数设置为一次训练端更新的参数,同时,若多次触发所述回退机制,则会触发替换机制,将所述学习器的参数替换为所述对手池中分数最高的模型参数。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行兵棋强随机博弈的策略演化训练方法,该方法包括:基于兵棋推演对抗平台,获取强随机博弈、多异构智能体异步协同的兵棋决策问题;基于所述兵棋决策问题,确定设计了回退与替换机制的自博弈强化学习训练框架;所述自博弈强化学习训练框架包括生成器、对手池、学习器、数据回放模块;所述自博弈强化学习训练框架的动作空间是重构得到的;获取所述自博弈强化学习训练框架进行强化学习时确定当前策略与旧策略之间的概率比例;所述概率比例是基于有效动作掩码确定的;所述有效动作掩码反映在当前状态,动作是否为合法动作;基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失;所述算子掩码反映在当前状态,算子是否存在合法动作;基于所述策略损失和所述价值损失,对所述自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的兵棋强随机博弈的策略演化训练方法,该方法包括:基于兵棋推演对抗平台,获取强随机博弈、多异构智能体异步协同的兵棋决策问题;基于所述兵棋决策问题,确定设计了回退与替换机制的自博弈强化学习训练框架;所述自博弈强化学习训练框架包括生成器、对手池、学习器、数据回放模块;所述自博弈强化学习训练框架的动作空间是重构得到的;获取所述自博弈强化学习训练框架进行强化学习时确定当前策略与旧策略之间的概率比例;所述概率比例是基于有效动作掩码确定的;所述有效动作掩码反映在当前状态,动作是否为合法动作;基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失;所述算子掩码反映在当前状态,算子是否存在合法动作;基于所述策略损失和所述价值损失,对所述自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的兵棋强随机博弈的策略演化训练方法,该方法包括:基于兵棋推演对抗平台,获取强随机博弈、多异构智能体异步协同的兵棋决策问题;基于所述兵棋决策问题,确定设计了回退与替换机制的自博弈强化学习训练框架;所述自博弈强化学习训练框架包括生成器、对手池、学习器、数据回放模块;所述自博弈强化学习训练框架的动作空间是重构得到的;获取所述自博弈强化学习训练框架进行强化学习时确定当前策略与旧策略之间的概率比例;所述概率比例是基于有效动作掩码确定的;所述有效动作掩码反映在当前状态,动作是否为合法动作;基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失;所述算子掩码反映在当前状态,算子是否存在合法动作;基于所述策略损失和所述价值损失,对所述自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种兵棋强随机博弈的策略演化训练方法,其特征在于,包括:
基于兵棋推演对抗平台,获取强随机博弈、多异构智能体异步协同的兵棋决策问题;
基于所述兵棋决策问题,确定设计了回退与替换机制的自博弈强化学习训练框架;所述自博弈强化学习训练框架包括生成器、对手池、学习器、数据回放模块;所述自博弈强化学习训练框架的动作空间是重构得到的;
获取所述自博弈强化学习训练框架进行强化学习时确定当前策略与旧策略之间的概率比例;所述概率比例是基于有效动作掩码确定的;所述有效动作掩码反映在当前状态,动作是否为合法动作;
基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失;所述算子掩码反映在当前状态,算子是否存在合法动作;
基于所述策略损失和所述价值损失,对所述自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型。
2.根据权利要求1所述的兵棋强随机博弈的策略演化训练方法,其特征在于,所述基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失,包括:
基于第一截断参数和所述概率比例,确定策略网络对应的策略损失;
基于第二截断参数、第三截断参数和算子掩码,确定价值网络对应的价值损失。
3.根据权利要求1所述的兵棋强随机博弈的策略演化训练方法,其特征在于,所述基于所述兵棋决策问题,确定自博弈强化学习训练框架,包括:
获取所述兵棋决策问题的原始动作空间;
对所述原始动作空间进行重构,得到重构动作空间;所述重构动作空间包括机动、射击、夺控、状态转换和空动作;
基于所述重构动作空间,确定所述自博弈强化学习训练框架。
4.根据权利要求1所述的兵棋强随机博弈的策略演化训练方法,其特征在于,所述生成器用于在每次对抗中,从所述对手池中选择一个对手和训练模型进行对抗,并将产生的对抗结果发送至所述数据回放模块;所述训练模型是以长短时记忆网络为核心的神经网络模型,所述训练模型的输入是兵棋推演原始状态特征,输出是兵棋推演动作指令;
所述对手池包括多个红蓝智能体模型,各红蓝智能体模型维护一个分数,所述生成器根据所述分数进行对手采样,所述对手池根据所述对抗结果更新所述各红蓝智能体模型对应的分数;
所述学习器用于从所述数据回放模块采样数据,并计算所述策略损失和所述价值损失,所述生成器每隔固定步长,将所述训练模型更新为最新网络参数;
所述数据回放模块用于存放所述生成器产生的所述对抗结果。
5.根据权利要求4所述的兵棋强随机博弈的策略演化训练方法,其特征在于,所述训练模型包括第一分支和第二分支;
所述第一分支用于提取标量特征、算子特征、地图特征和迷你地图特征,并基于所述标量特征、所述算子特征、所述地图特征和所述迷你地图特征进行特征融合,得到融合特征,将所述融合特征输入至所述策略网络中,由所述策略网络得到并输出所述融合特征对应的动作;
所述第二分支用于提取全局信息特征,并将所述全局信息特征和所述融合特征输入至所述价值网络中,由所述价值网络得到并输出所述动作对应的价值。
6.根据权利要求5所述的兵棋强随机博弈的策略演化训练方法,其特征在于,所述标量特征包括战斗裁决信息、比分、时间中的至少一种,所述算子特征包括血量、类型、机动状态、武器冷却时间中的至少一种,所述地图特征包括算子相对位置、夺控点位置中的至少一种,所述迷你地图特征是以算子为中心截取的迷你地图,所述迷你地图特征包括高程、地形、到夺控点距离中的至少一种。
7.根据权利要求1至6中任一项所述的兵棋强随机博弈的策略演化训练方法,其特征在于,所述回退与替换机制是基于统计变量Z设计的,所述统计变量Z根据所述生成器的对抗结果计算得到的;
如果训练模型对局失败,所述统计变量Z加1;否则清零;当所述统计变量Z达到阈值时,将会触发回退机制,将设定时间之前的参数设置为一次训练端更新的参数,同时,若多次触发所述回退机制,则会触发替换机制,将所述学习器的参数替换为所述对手池中分数最高的模型参数。
8.一种兵棋强随机博弈的策略演化训练装置,其特征在于,包括:
获取单元,用于基于兵棋推演对抗平台,获取强随机博弈、多异构智能体异步协同的兵棋决策问题;
确定单元,用于基于所述兵棋决策问题,确定设计了回退与替换机制的自博弈强化学习训练框架;所述自博弈强化学习训练框架包括生成器、对手池、学习器、数据回放模块;所述自博弈强化学习训练框架的动作空间是重构得到的;
获取概率比例单元,用于获取所述自博弈强化学习当前策略与旧策略之间的概率比例;所述概率比例是基于有效动作掩码确定的;所述有效动作掩码反映在当前状态,动作是否为合法动作;
确定损失单元,用于基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失;所述算子掩码反映在当前状态,算子是否存在合法动作;
参数迭代单元,用于基于所述策略损失和所述价值损失,对所述自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述兵棋强随机博弈的策略演化训练方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述兵棋强随机博弈的策略演化训练方法。
CN202310934321.8A 2023-07-27 2023-07-27 兵棋强随机博弈的策略演化训练方法、装置、设备及介质 Pending CN117151224A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310934321.8A CN117151224A (zh) 2023-07-27 2023-07-27 兵棋强随机博弈的策略演化训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310934321.8A CN117151224A (zh) 2023-07-27 2023-07-27 兵棋强随机博弈的策略演化训练方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117151224A true CN117151224A (zh) 2023-12-01

Family

ID=88903415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310934321.8A Pending CN117151224A (zh) 2023-07-27 2023-07-27 兵棋强随机博弈的策略演化训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117151224A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090116055A (ko) * 2008-05-06 2009-11-11 광주과학기술원 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치
CN110404264A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质
CN111111200A (zh) * 2019-12-23 2020-05-08 北京像素软件科技股份有限公司 战斗策略生成方法及装置
CN111251294A (zh) * 2020-01-14 2020-06-09 北京航空航天大学 一种基于视觉位姿感知和深度强化学习的机器人抓取方法
CN112183762A (zh) * 2020-09-15 2021-01-05 上海交通大学 一种基于混合行为空间的强化学习方法
CN114089627A (zh) * 2021-10-08 2022-02-25 北京师范大学 基于双深度q网络学习的非完全信息博弈策略优化方法
CN115047907A (zh) * 2022-06-10 2022-09-13 中国电子科技集团公司第二十八研究所 一种基于多智能体ppo算法的空中同构编队指挥方法
CN115965879A (zh) * 2022-12-12 2023-04-14 四川观想科技股份有限公司 一种稀疏高维状态下不完全信息场景的无人驾驶训练方法
CN116306979A (zh) * 2023-03-23 2023-06-23 南京大学 一种基于ppo的多智能体深度强化学习训练方法
CN116468121A (zh) * 2023-03-12 2023-07-21 西北工业大学 基于通用经验博弈强化学习的多机空战决策方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090116055A (ko) * 2008-05-06 2009-11-11 광주과학기술원 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치
CN110404264A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质
CN111111200A (zh) * 2019-12-23 2020-05-08 北京像素软件科技股份有限公司 战斗策略生成方法及装置
CN111251294A (zh) * 2020-01-14 2020-06-09 北京航空航天大学 一种基于视觉位姿感知和深度强化学习的机器人抓取方法
CN112183762A (zh) * 2020-09-15 2021-01-05 上海交通大学 一种基于混合行为空间的强化学习方法
CN114089627A (zh) * 2021-10-08 2022-02-25 北京师范大学 基于双深度q网络学习的非完全信息博弈策略优化方法
CN115047907A (zh) * 2022-06-10 2022-09-13 中国电子科技集团公司第二十八研究所 一种基于多智能体ppo算法的空中同构编队指挥方法
CN115965879A (zh) * 2022-12-12 2023-04-14 四川观想科技股份有限公司 一种稀疏高维状态下不完全信息场景的无人驾驶训练方法
CN116468121A (zh) * 2023-03-12 2023-07-21 西北工业大学 基于通用经验博弈强化学习的多机空战决策方法
CN116306979A (zh) * 2023-03-23 2023-06-23 南京大学 一种基于ppo的多智能体深度强化学习训练方法

Similar Documents

Publication Publication Date Title
CN113222106B (zh) 一种基于分布式强化学习的智能兵棋推演方法
JP7199517B2 (ja) 情報予測方法、モデルトレーニング方法、サーバー及びコンピュータプログラム
CN114880955B (zh) 基于强化学习的兵棋多实体异步协同决策方法和装置
Barriga et al. Improving RTS game AI by supervised policy learning, tactical search, and deep reinforcement learning
CN114757351A (zh) 一种深度强化学习模型对抗攻击的防御方法
CN112870721B (zh) 一种游戏互动方法、装置、设备及存储介质
CN112221149A (zh) 一种基于深度强化学习的炮兵连智能作战演练***
CN111723931B (zh) 一种多智能体对抗动作预测方法及装置
CN114722998B (zh) 一种基于cnn-ppo的兵棋推演智能体构建方法
CN115631165A (zh) 面向群智夺旗博弈的深度强化学习方法和***
CN116956007A (zh) 人工智能模型的预训练方法、装置、设备及存储介质
Li et al. Fuzzy logic in agent-based game design
CN114997054A (zh) 一种兵棋对弈模拟方法及装置
CN114404975A (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
Avery et al. Evolving coordinated spatial tactics for autonomous entities using influence maps
CN117151224A (zh) 兵棋强随机博弈的策略演化训练方法、装置、设备及介质
CN114662655A (zh) 一种基于注意力机制的兵棋推演ai分层决策方法及装置
CN111723941B (zh) 规则生成方法、装置、电子设备和存储介质
CN114611661A (zh) 一种基于人类知识优化强化学习的方法及***
Kolbe et al. Conceptualization and Implementation of a Reinforcement Learning Approach Using a Case-Based Reasoning Agent in a FPS Scenario.
Liu et al. Soft-actor-attention-critic based on unknown agent action prediction for multi-agent collaborative confrontation
CN118246528A (zh) 基于知识引导的智能决策方法及装置
Yin et al. Computer Assisted Operational Agent Training Method through Deep Learning and Artificial Intelligence Technology
Dubey et al. Multi-objective evolutionary algorithms for distributed tactical control of heterogeneous agents
CN117592565A (zh) 基于三支多属性决策模型与sac的兵棋推演智能决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination