CN115906673B - 作战实体行为模型一体化建模方法及*** - Google Patents

作战实体行为模型一体化建模方法及*** Download PDF

Info

Publication number
CN115906673B
CN115906673B CN202310033562.5A CN202310033562A CN115906673B CN 115906673 B CN115906673 B CN 115906673B CN 202310033562 A CN202310033562 A CN 202310033562A CN 115906673 B CN115906673 B CN 115906673B
Authority
CN
China
Prior art keywords
battlefield
behavior model
entity
combat
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310033562.5A
Other languages
English (en)
Other versions
CN115906673A (zh
Inventor
邸彦强
曹朋飞
张阳
孟宪国
谢志英
袁红丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202310033562.5A priority Critical patent/CN115906673B/zh
Publication of CN115906673A publication Critical patent/CN115906673A/zh
Application granted granted Critical
Publication of CN115906673B publication Critical patent/CN115906673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种作战实体行为模型一体化建模方法及***,涉及作战实验仿真技术领域,该方法包括:获取当前战场环境态势;应用深度神经网络构建感知行为模型;将当前战场环境态势输入至训练好的感知行为模型得到感知结果;当感知的结果为各规则外战场事件的标签时,确定与所述规则外战场事件对应的未知决策行为模型,将当前战场环境态势输入与所述规则外战场事件对应的训练好的未知决策行为模型,确定作战实体物理行为;当感知的结果为既定规则战场事件的标签时,根据已知决策行为模型,确定作战实体物理行为。本发明能够提高作战实体在复杂战场环境中感知并处理规则外未知事件的能力。

Description

作战实体行为模型一体化建模方法及***
技术领域
本发明涉及作战实验仿真技术领域,特别是涉及一种作战实体行为模型一体化建模方法及***。
背景技术
在军事作战仿真中,对计算机生成兵力的作战行为进行建模仿真是一项基础性工作,模型描述程度体现了作战实体行为的真实性与智能性。作战实体行为仿真具有规则性强、作战行为复杂、战场态势多变等特性,通常根据军事专家提供的行为概念模型进行建模,目前多采用可解释的、可表现军事规则的建模方法进行构建,如有限状态机、PetriNet、规则***等。近几年,行为树因直观易理解、灵活可扩展等优点已广泛应用于智能体的行为建模,也逐渐应用于军事建模仿真中。然而基于规则的建模方法存在建模工作量较大、行为逻辑固定等缺陷,面对复杂的作战过程与多变的战场态势,无法应对规则外的未知事件,难以表现作战实体在战场中真实行为。
发明内容
本发明的目的是提供一种作战实体行为模型一体化建模方法及***,针对基于规则的建模方法范围有限性问题,构建基于规则和学习的作战实体行为模型多手段一体化建模框架,能够在基于规则的基础上感知预定规则外的事件,并进行处理。
为实现上述目的,本发明提供了如下方案:
一种作战实体行为模型一体化建模方法,所述方法包括:
获取当前战场环境态势;
应用深度神经网络,构建感知行为模型;
将所述当前战场环境态势输入至训练好的感知行为模型,得到感知结果;所述感知结果为既定规则战场事件的标签或各规则外战场事件的标签;
当所述感知的结果为各所述规则外战场事件的标签时,确定与所述规则外战场事件对应的未知决策行为模型,将所述当前战场环境态势输入与所述规则外战场事件对应的训练好的未知决策行为模型,确定作战实体物理行为;所述未知决策行为模型是应用深度强化学习方法构建的;
当所述感知的结果为所述既定规则战场事件的标签时,根据已知决策行为模型,确定作战实体物理行为;所述已知决策行为模型是应用基于规则的方法构建的。
可选地,所述基于规则的方法为自动机、PetriNet、行为树或者规则***。
可选地,所述感知行为模型的训练过程具体包括:
获取已知战场环境态势、既定规则战场事件的标签和各规则外战场事件的标签;所述战场环境态势包括作战实***置、目标地位置、燃油量、弹药量、作战实体状态、目标数量、目标位置、目标状态和消耗时间;所述既定规则战场事件的标签为既定规则战场事件;所述各规则外战场事件的标签为各规则外战场事件;
以所述已知战场环境态势为输入,以对应的所述既定规则战场事件的标签或对应的所述规则外战场事件的标签为输出,对所述感知行为模型进行训练。
可选地,所述未知决策行为模型的训练过程具体包括:
获取多个初始训练集组;所述初始训练集组包括历史战场环境态势、根据所述历史战场环境态势执行的历史作战实体物理行为和执行所述历史作战实体物理行为后的战场环境态势;
以所述历史战场环境态势为输入,以所述历史作战实体物理行为为输出,对所述未知决策行为模型进行训练,得到所述历史战场环境态势下不同的所述历史作战实体物理行为对应的多个当前估计的未来累积奖励;
根据所述多个当前估计的未来累积奖励,确定目标作战实体物理行为;所述目标作战实体物理行为为采用ε-贪心策略选择的作战实体的动作;
确定执行所述目标作战实体物理行为后的战场环境态势,得到目标战场环境态势和执行所述目标作战实体物理行为产生的单步奖励;
将所述目标战场环境态势,输入目标未知决策行为模型,得到下一目标估计的未来累积奖励;所述目标未知决策行为模型与所述未知决策行为模型的结构一致,所述目标未知决策行为模型的参数的当前值与所述未知决策行为模型的参数的当前值不同;
根据最高的所述下一目标估计的未来累积奖励、执行所述目标作战实体物理行为产生的单步奖励和所述当前估计的未来累积奖励,确定误差;
根据所述误差,应用反向传播算法,更新所述未知决策行为模型的参数,得到更新后的未知决策行为模型;
当所述误差满足设定阈值时,得到训练好的未知决策行为模型。
可选地,所述方法还包括:
获取作战任务;
判断所述作战任务是否完成;
若所述作战任务未完成,则根据当前战场环境态势,确定所述作战实体物理行为。
一种作战实体行为模型一体化建模***,应用于上述的作战实体行为模型一体化建模方法,所述***包括:
获取模块,用于获取当前战场环境态势;
构建模块,用于应用深度神经网络,构建感知行为模型;
感知结果确定模块,用于将所述当前战场环境态势输入至训练好的感知行为模型,得到感知结果;所述感知结果为既定规则战场事件的标签或各规则外战场事件的标签;
第一作战实体行为模块,用于当所述感知的结果为各所述规则外战场事件的标签时,确定与所述规则外战场事件对应的未知决策行为模型,将所述当前战场环境态势输入与所述规则外战场事件对应的训练好的未知决策行为模型,确定作战实体物理行为;所述未知决策行为模型是应用深度强化学习方法构建的;
第二作战实体行为模块,用于当所述感知的结果为所述既定规则战场事件的标签时,根据已知决策行为模型,确定作战实体物理行为;所述已知决策行为模型是应用基于规则的方法构建的。
一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的作战实体行为模型一体化建模方法。
一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述的作战实体行为模型一体化建模方法。
一种作战实体行为模型一体化建模框架,应用于上述的作战实体行为模型一体化建模方法,所述框架包括感知行为模型、决策行为模型和物理行为模型;
所述感知行为模型用于根据当前战场环境态势识别既定规则战场事件的标签或者各规则外战场事件的标签;
所述决策行为模型包括未知决策行为模型和已知决策行为模型;当所述感知行为模型输出的是既定规则战场事件的标签时,将所述既定规则战场事件输入所述已知决策行为模型,确定作战实体物理行为;当所述感知行为模型输出的是各所述规则外战场事件的标签,根据所述规则外战场事件的标签确定对应的未知决策行为模型,将所述规则外战场事件输入所述对应的未知决策行为模型,确定作战实体物理行为;
所述物理行为模型用于根据所述作战实体物理行为执行对应的作战动作。
可选地,所述感知行为模型是应用深度神经网络构建的;
所述未知决策行为模型是应用深度强化学习方法构建的;
所述已知决策行为模型是应用基于规则的方法构建的;
所述基于规则的方法为自动机、PetriNet、行为树或者规则***;
所述物理行为模型是采用学科专业机理方法构建的。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的一种作战实体行为模型一体化建模方法,包括:获取当前战场环境态势;应用深度神经网络,构建感知行为模型;将当前战场环境态势输入至训练好的感知行为模型,得到感知结果;感知结果包括既定规则战场事件的标签或各规则外战场事件的标签;当感知的结果为各规则外战场事件的标签时,确定与规则外战场事件对应的未知决策行为模型,将所述当前战场环境态势输入与规则外战场事件对应的训练好的未知决策行为模型,确定作战实体物理行为;未知决策行为模型是应用深度强化学习方法构建的;当感知的结果为既定规则战场事件的标签时,根据已知决策行为模型,确定作战实体物理行为;已知决策行为模型是应用基于规则的方法构建的。本发明采用了深度神经网络的方法对作战实体感知行为进行建模,实现了作战实体对战场环境中未知事件感知的能力;采用了深度强化学习方法对作战实体决策行为进行建模,实现了作战实体对未知事件进行决策的能力;采用一体化建模方法,将以上两种建模方法与基于规则的建模方法相结合,提高了作战实体在复杂战场环境中感知并处理规则外未知事件的能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中作战实体行为模型一体化建模方法流程图;
图2为本发明实施例中作战实体行为模型基于规则与学习的一体化建模框架示意图;
图3为本发明实施例中作战实体行为一体化模型执行过程示意图;
图4为本发明实施例中基于强化学习的作战实体行为决策原理示意图;
图5为本发明实施例中基于PER-DQN算法的作战实体行为决策模型算法框架示意图;
图6为本发明实施例中特征识别深度神经网络结构示意图;
图7为本发明实施例中行为树模型特征状态样本数据采集示意图;
图8为本发明实施例中未知事件决策模型特征状态样本数据采集示意图;
图9为本发明实施例中特征识别DNN结构示意图;
图10为本发明实施例中作战实体行为模型一体化建模***模块图。
符号说明:
1-获取模块,2-构建模块,3-感知结果确定模块,4-第一作战实体行为模块,5-第二作战实体行为模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种作战实体行为模型一体化建模方法及***,针对基于规则的建模方法范围有限性问题,构建基于规则和学习的作战实体行为模型多手段一体化建模框架,能够在基于规则的基础上感知预定规则外的事件,并进行处理。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本发明提供了一种作战实体行为模型一体化建模方法,所述方法包括:
步骤S1:获取当前战场环境态势。
在实际应用中,作战实体行为是指作战行动过程中作战实体依据指令、规则和认知所产生的行为或表现,包括物理行为、感知行为和决策行为,其中决策行为可分为已知计划的决策行为和未知事件的决策行为。作战实体的物理行为是作战实体本身反应性或“本能”的行为,反映了作战实体的固有特性;感知行为和决策行为是作战实体相关人员的决策性的思考行为,往往与当前执行作战任务与战场环境相关,反映了作战实体对外部知识的处理及其内部特征的改变,体现了作战实体的认知能力。建立作战实体行为形式化定义:
由作战实体的物理行为P、感知行为C、决策行为D,以及选择关系Rs和执行关系Re组成,记作:
A=<P,C,D,Rs,Re>,
其中P={p1,p2,...pm}表示作战实体的物理行为,描述作战实体自身物理特性,多体现为装备机理,是作战实体可执行的动作,如机动、开火等。
C={c1,c2,...cm}表示作战实体的感知行为,描述作战实体通过对战场环境状态信息的接收、融合与处理形成战场态势信息的过程。
D=<Dk,Dn>表示作战实体的决策行为,描述作战实体依据战场态势信息驱动作战实体做出相应行为的过程,其中表示对认知范围内既定规则的决策行为,以下简称“既定规则决策行为”,/>表示对认知范围外未知事件的决策行为,以下简称“未知事件决策行为”。
Rs表示C和D间的选择关系,作战实体通过感知行为结果选择决策行为为Dk或Dn,记作:Re表示D和P间的执行关系,作战实体通过决策行为结果执行物理行为,记作:
作战实体各类行为的数学或逻辑描述,整体称为作战实体模型。其中,不同类型的行为模型具有不同的机理,所采用的建模方法不同,各类行为模型的建模方法形成了作战实体行为模型的建模技术框架。
具体地,作战实体行为模型建模框架为:f:A→M;其中,A为作战实体行为。
M=<MP,MC,MD>,为作战实体行为模型,与作战实体行为类型相对应:MP表示作战实体物理行为模型;MC表示作战实体感知行为模型;表示作战实体决策行为模型,/>为已知规则决策行为模型,/>为未知事件决策行为模型。
f=<fP,fC,fD>,为作战实体行为模型建模框架,与作战实体不同行为模型相对应:fP为物理行为模型建模方法;fC为感知行为模型建模方法;为决策行为建模方法,/>为已知规则决策行为模型建模方法,/>为未知事件决策行为模型建模方法。
因此,得到:
其中,fP采用机、光、电、液等学科专业机理方法来实现物理行为模型的构建;fC采用AI方法来实现作战实体感知行为模型的构建,模拟人类的认知行为;fD是对作战实体决策行为的建模,也是典型的人类认知行为,但区分已知与未知两种情形,结合使用基于规则与基于学习两种建模方法:采用基于规则的方法实现对已知决策行为模型的建模,如自动机、PetriNet、行为树以及规则***等;/>采用AI方法对复杂战场环境中未知事件决策行为模型的建模,如神经网络、强化学习等。
步骤S2:应用深度神经网络,构建感知行为模型。
具体地,选用深度神经网络(Deep Neural Networks,DNN)算法对感知行为进行模型建模,采用深度强化学习(DRL)方法对决策行为中的未知决策行为进行模型建模,采用行为树方法对已知决策行为进行模型建模,从而实现一种基于行为树(Behavior Tree,BHT)和DRL的作战实体行为一体化建模方法,即:
其中,基于DRL方法的未知决策行为模型构建是AI算法对认知行为的建模、基于深度神经网络DNN算法的感知行为模型构建。
作战实体对战场中事件的感知与识别是一个特征提取与分类问题。对战场环境中未知事件的感知与识别采用DNN方法进行建模。如图6所示,在使用DRL方法对未知决策行为模型进行训练过程中将战场环境反馈的状态作为特征状态,具体地,战场环境反馈的状态作为特征状态通常包含作战实***置、目的地位置、燃油量、弹药量、作战实体状态、目标数量、目标位置、目标状态、消耗时间等信息。同时以该模型名称作为标签,存入特征状态集。另一方面采集行为树模型执行时的战场环境反馈的状态,将此时执行的行为名称作为其标签,存入特征状态集。使用特征识别DNN对特征状态集进行训练,建立战场环境态势信息与作战实体决策行为模型之间的映射关系。
特征识别DNN模型的样本采集分为两类,第一类是对既定规则的已知事件中战场实体状态数据的采集。如图7所示,在行为树执行过程中,将每个仿真周期的战场环境反馈的状态信息作为一组特征状态S,同时为该组特征状态添加行为树模型标签,记为TagBHT,将{S,TagBHT}作为一组样本数据存入特征状态样本数据集。
第二类是对规则外的未知事件中战场实体状态数据的采集。如图8所示,在使用PER-DQN算法对各类未知事件决策模型进行训练过程中,将每个仿真周期中战场环境反馈的状态作为特征状态S,同时以该事件决策模型作为标签,记为Tagm,将{S,Tagm}作为一组样本数据存入特征状态样本数据集。
特征识别DNN是一个多层前馈网络,其结构分为四层,如图9所示,分别为特征状态输入层、编码状态层、隐层和输出层。其中特征状态输入层输入战场实体状态信息,其神经元数量为特征状态集合中的元素数量|S|;编码状态层对输入层的状态参数进行编码,将特征状态S经过计算映射为编码状态S′,如将实***置和目标位置的坐标信息转换为二者的距离信息。编码状态层能够提升神经网络模型对不同环境的适应性和训练效率;隐层采用Relu激活函数为神经网络提供非线性映射能力;输出层输出各类战场事件决策模型标签,神经元个数为其中/>个神经元对应Tagm,一个神经元对应TagBHT。基于该结构,特征识别DNN建立了战场中作战实体状态与战场事件之间的映射关系。
步骤S3:将所述当前战场环境态势输入至训练好的感知行为模型,得到感知结果;所述感知结果为既定规则战场事件的标签或各规则外战场事件的标签。具体地,各规则外战场事件的标签代表战场事件名称,根据该标签索引对应的未知决策行为模型;既定规则战场事件的标签代表当前的事件为既定规则战场事件。
步骤S4:当所述感知的结果为各所述规则外战场事件的标签时,确定与所述规则外战场事件对应的未知决策行为模型,将所述当前战场环境态势输入与所述规则外战场事件对应的训练好的未知决策行为模型,确定作战实体物理行为;所述未知决策行为模型是应用深度强化学习方法构建的。
步骤S5:当所述感知的结果为所述既定规则战场事件的标签时,根据已知决策行为模型,确定作战实体物理行为;所述已知决策行为模型是应用基于规则的方法构建的。具体地,所述基于规则的方法为自动机、PetriNet、行为树或者规则***。
此外,所述方法还包括:
步骤S01:获取作战任务。
步骤S02:判断所述作战任务是否完成。
步骤S03:若所述作战任务未完成,则根据当前战场环境态势,确定所述作战实体物理行为。
其中,所述感知行为模型的训练过程具体包括:
获取已知战场环境态势、既定规则战场事件的标签和各规则外战场事件的标签;所述战场环境态势包括作战实***置、目标地位置、燃油量、弹药量、作战实体状态、目标数量、目标位置、目标状态和消耗时间;所述既定规则战场事件的标签为既定规则战场事件;所述各规则外战场事件的标签为各规则外战场事件;所述战场事件包括燃料补给、弹药补给、向目的地机动、侦察探测、火力打击和遭遇袭击。在实际应用中,所述战场事件包括但不限于燃料补给、弹药补给、向目的地机动、侦察探测、火力打击和遭遇袭击。
以所述已知战场环境态势为输入,以对应的所述既定规则战场事件的标签或对应的所述规则外战场事件的标签为输出,对所述感知行为模型进行训练。
其中,所述未知决策行为模型的训练过程具体包括:
1.获取多个初始训练集组;所述初始训练集组包括历史战场环境态势、根据所述历史战场环境态势执行的历史作战实体物理行为和执行所述历史作战实体物理行为后的战场环境态势。
2.以所述历史战场环境态势为输入,以所述历史作战实体物理行为为输出,对所述未知决策行为模型进行训练,得到所述历史战场环境态势下不同的所述历史作战实体物理行为对应的多个当前估计的未来累积奖励。
3.根据所述多个当前估计的未来累积奖励,确定目标作战实体物理行为;所述目标作战实体物理行为为采用ε-贪心策略选择的作战实体的动作。具体地,采用ε-贪心策略选择作战实体的动作,ε-贪心策略为以1-ε的概率选择最大奖励对应的行为,以ε的概率随机选择行为。其中ε是人为设置的一个较小的值,通常设为0.1。
4.确定执行所述目标作战实体物理行为后的战场环境态势,得到目标战场环境态势和执行所述目标作战实体物理行为产生的单步奖励。
5.将所述目标战场环境态势,输入目标未知决策行为模型,得到下一目标估计的未来累积奖励;所述目标未知决策行为模型与所述未知决策行为模型的结构一致,所述目标未知决策行为模型的参数的当前值与所述未知决策行为模型的参数的当前值不同。
6.根据最高的所述下一目标估计的未来累积奖励、执行所述目标作战实体物理行为产生的单步奖励和所述当前估计的未来累积奖励,确定误差。具体地,目标网络的最高累计奖励与该单步获得的当前奖励r的和与所述当前估计的未来累积奖励确定误差参考公式其中,/>为目标网络得到的累计奖励,其中r为当前行为所获得的单步奖励;Q(s,a;θ)为所述当前估计的未来累积奖励。
7.根据所述误差,应用反向传播算法,更新所述未知决策行为模型的参数,得到更新后的未知决策行为模型。
8.当所述误差满足设定阈值时,得到训练好的未知决策行为模型。
在实际应用中,强化学习是一种基于马尔科夫决策过程(Markov DecisionProcess,MDP)的序贯决策方法,如图3所示;基于强化学习的作战实体行为决策原理如图4所示,作战实体通过观察当前战场态势s,依据策略π(a|s)选择动作a,战场环境在动作影响下产生奖励r,并发生状态转移s→s′,形成新的战场态势,作战实体在与战场环境的不断交互迭代中学习到使奖励最大化的系列动作组合。马尔科夫决策过程为强化学习方法提供了数学模型,推导出了基于策略的状态价值函数vπ(s)和状态动作价值函数qπ(s,a),作战实体通过最大化vπ(s)和qπ(s,a),从而迭代优化策略π(a|s)。vπ(s)和qπ(s,a)公式如下:
其中,为状态s下采取动作a获取的即时奖励,/>为状态s下采取动作a转换到状态状态s′的概率,γ为衰减因子,取值为[0,1],取值越大表示后期的奖励对当前选择动作的影响越大。
在实际作战中,战场环境态势复杂多变,尤其在对抗过程中,敌方行为具有不确定性,对于任务过程中的未知事件,作战单元根据战场环境进行自主决策,最终完成作战任务,该问题可归结为序贯决策优化问题。传统基于规则的建模方法难以适应这种动态变化,而强化学习可以通过对行动策略的不断迭代,找到最优策略,对该类问题具有较好的适应性,DRL方法将深度学习应用于强化学习中,突破了传统强化学习在巨状态空间问题中的瓶颈。
目前DRL方法有很多种,由于战场态势复杂,无法用确切模型描述,同时基于作战实体的状态空间较大、行动决策空间离散等特点,为了加速收敛,采用PER-DQN(Prioritized Experience Replay Deep Q-Learning Network)算法针对作战行动中的未知事件对作战实体的未知决策行为模型进行训练。PER-DQN算法在DQN算法基础上采用优先经验回放技术对经验回放池的采样方法进行了优化,解决了奖赏稀疏问题,基于PER-DQN算法的作战实体行为决策模型框架如图5所示,该算法通过神经网络计算Q值,采用ε-贪心策略选择作战实体的动作,改变战场环境,同时给予作战实体奖励反馈。在该过程中将作战实体状态、动作、奖励以及变化后的状态作为经验储存于经验回放池中,同时不断提取经验对评估网络和目标网络两个神经网络进行训练,利用评估网络计算预测Q值,利用目标网络计算目标Q值,计算两者间的误差并反向传播对神经网络中的参数进行优化。
PER-DQN算法采用TD_error对经验标记优先级,其中TD_error表示当前动作的状态价值与目标动作的状态价值差距,其公式为:
但引入TD_error会导致抽样多样性的丧失,使训练结果过拟合,为了解决这个问题,在该算法中采用结合贪心采样和均匀分布采样的随机采样方法。该方法使用按比例排序法对经验回放池中的样本进行抽样,使得每个样本被采样的概率随优先级单调,且对于低优先级的样本不会出现概率为0的情况,其概率公式为:
其中pi为第i个经验样本的优先级,α为影响系数,可以调整pi的重要性,ε为一个很小的正常数,防止TD_error为0的情况。
另外,采用样本优先级抽样方法的损失函数如下:
其中使用权重ω修正数据有偏选择所造成的偏差,在训练中,令β从小于1的值逐渐趋近于1。这样既提升了样本的利用率,同时确保不会对结果造成太大的偏差。
在战场环境中针对某一未知事件对作战实体进行训练时需要构建其状态空间、动作空间以及奖励函数,通常选取作战实***置、目的地位置、燃料、弹药量、目标数量、目标位置、消耗时间等描述状态空间。选取向目的地机动、向目标机动、进行补给、攻击等行动描述动作空间。奖励函数与未知事件相关,依据该事件达到的目的,设计不同的奖励函数。基于PER-DQN算法,对不同未知决策行为模型进行训练,最终得到模型的集合
PER-DQN算法输入:迭代轮数T,状态特征纬度n,动作集A,步长α,采样权重β,衰减因子γ,探索率ε,当前网络Q,目标网络Q',梯度下降的样本数m,目标网络Q'网络参数更新频率C,SumTree的叶子节点数。
PER-DQN算法输出:网络Q参数。
具体地,PER-DQN算法的实现方法包括:
(1)初始化当前网络Q的参数ω和目标网络Q'的参数ω'=ω,初始化SumTree。
(2)for i form 1 to T,进行迭代:
1)获取作战实体状态S。
2)将作战实体状态S作为当前网络Q的输入,得到动作集A中各动作对应的q值。
3)采用ε-贪婪法选择动作a。
4)执行动作a,得到新作战实体状态S'、奖励R以及训练终止状态is-end。
5)将{S,a,R,S',is-end}存入SumTree,S=S'。
6)从SumTree中采样m个样本,对于每个样本计算其目标网络中的q值。
7)计算损失函数Loss,并通过梯度反向传播更新当前网络Q的参数ω。
8)计算所有样本的TD_error,更新SumTree中所有节点的优先级。
9)当T%C=1,更新目标网络Q'的参数ω'=ω。
10)若作战实体状态S'为终止状态,当前迭代完毕,否则转到步骤4)。
在实际应用中,本发明提供的作战实体行为模型一体化建模方法构建如图2所示的作战实体行为模型基于规则与学习的一体化建模框架。所述一体化模型的执行过程如下所述:
(1)采用基于规则的方法对已知决策行为进行模型建模,得到(传统建模方法)。
(2)采用深度强化学习(DRL)方法对决策行为中的未知决策行为进行模型建模
(3)选用深度神经网络(Deep Neural Networks,DNN)算法对感知行为进行模型建模MC
(4)作战实体通过模型MC对战场环境态势信息进行感知,输出MC的结果:有无未知事件发生。
(5)根据执行过程(4)的结果,若无未知事件发生,作战实体按计划执行任务即D=Dk,使用进行行为决策输出/>结果:要执行的物理行为P。
其中,执行过程(5)具体包括:
1)作战实体使用MP执行物理行为P作用于战场环境。
2)转执行过程(4),循环执行直到任务完成。
(6)根据执行过程(4)的结果,若有未知事件发生,即D=Dn,暂停执行,使用模型对该事件进行行为决策,输出/>结果:要执行的物理行为P。
其中,执行过程(6)具体包括:
1)作战实体使用MP执行物理行为P作用于战场环境,循环执行过程(6)直到该未知事件执行完成,即模型执行完成。
2)在模型执行完成后重新激活/>模型,转执行过程(4)。
在进行实际作战仿真时,作战实体通过感知行为模型将战场环境态势信息转化为事件信息,选择不同决策行为模型对当前事件进行行为决策,最后驱动作战实体物理行为模型执行正确的动作,如图3所示。作战实体行为一体化模型在复杂战场环境中的仿真执行过程如下:作战实体通过MC对战场环境态势信息进行感知,进而若D=Dk,作战实体按计划执行任务,使用/>进行行为决策;若D=Dn,即感知到计划外未知事件时,暂停/>使用/>对该事件进行行为决策,该未知事件结束后重新激活/>通过MD作战实体确定了要执行的物理行为,即/>最终,作战实体使用MP执行P作用于战场环境。其中未知决策行为模型是一个算法模型,其算法模型采用强化学习方法实现,该图中虚线框中表示强化学习方法原理,强化学习方法包含DQN、A3C、PPO等,采用这些方法可以构建未知决策行为模型。在该模型运行过程中其实际输入为作战实体状态S,具体包含作战实***置、目的地位置、燃料、弹药量、目标数量、目标位置、消耗时间等状态信息。
基于行为树和DRL的作战实体行为一体化决策算法以行为树为主体,利用特征识别DNN对作战过程中的事件进行感知识别,采用基于DRL的决策模型对规则外的突发情况或人为干预行为进行决策,实现了基于规则方法和基于学习方法的优势互补,其中对行为树中动作节点的运行逻辑进行以下修改:
1)在行为树动作节点执行时,首先检测战场中是否存在未知事件或人为干预事件。
2)当检测到战场中存在未知事件或人为干预事件后,直至该事件完成,该行为树动作节点停止执行其自身行为,直接返回“Running”状态。
3)当战场中的未知事件或者人为干预事件完成后,该行为树动作节点继续执行其自身行为。
基于行为树和DRL的的作战实体行为一体化决策算法如下:
1)初始化行为树,初始化特征识别DNN。
2)更新战场环境状态,遍历行为树子节点。
3)if节点为动作节点且该节点状态为“Running”:
4)if检测到人为干预事件:
5)获取相应的任务决策模型m。
6)else:
7)提取战场环境状态S。
8)使用特征识别DNN模型,对状态S进行识别,输出结果m。
9)if
10)暂停行为树运行。
11)使用基于DRL的任务决策模型m进行行为决策。
12)事件完成后,更新战场环境状态,激活行为树运行。
13)else:
14)执行行为树。
15)行为树遍历完成。
根据本发明提供的作战实体行为模型一体化建模方法,应用程序语言进行编程,开发作战实体行为模型一体化建模仿真软件,对当前战场环境态势进行仿真。
本发明采用了深度神经网络的方法对作战实体感知行为进行建模,实现了作战实体对战场环境中未知事件感知的能力;采用了深度强化学习方法对作战实体决策行为进行建模,实现了作战实体对未知事件进行决策的能力;采用一体化建模方法,将以上两种建模方法与基于规则的建模方法相结合,实现了作战实体在复杂战场环境中感知并处理规则外未知事件的能力。
本发明针对军事作战仿真中作战行动规则性强、战场态势复杂多变等特性,对战场环境中的作战实体行为进行了形式化定义,构建了基于规则和学习的作战实体行为一体化建模框架,为作战实体行为建模提供了一种新的思路。在此基础上,提出了一种行为树和DRL的作战实体行为模型一体化建模方法,该方法能够解决基于规则方法的规则建模有限性问题,使行为模型在运行过程中能够感知战场态势,能够对复杂战场态势中的未知事件进行决策。
实施例二
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种作战实体行为模型一体化建模***,如图10所示,所述***包括:
获取模块1,用于获取当前战场环境态势。
构建模块2,用于应用深度神经网络,构建感知行为模型。
感知结果确定模块3,用于将所述当前战场环境态势输入至训练好的感知行为模型,得到感知结果;所述感知结果为既定规则战场事件的标签或各规则外战场事件的标签。
第一作战实体行为模块4,用于当所述感知的结果为各所述规则外战场事件的标签时,确定与所述规则外战场事件对应的未知决策行为模型;将所述当前战场环境态势输入与所述规则外战场事件对应的训练好的未知决策行为模型,确定作战实体物理行为;所述未知决策行为模型是应用深度强化学习方法构建的。
第二作战实体行为模块5,用于当所述感知的结果为所述既定规则战场事件的标签时,根据已知决策行为模型,确定作战实体物理行为;所述已知决策行为模型是应用基于规则的方法构建的。
实施例三
本发明实施例提供一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行计算机程序以使电子设备执行实施例一的作战实体行为模型一体化建模方法。
可选地,上述电子设备可以是服务器。
另外,本发明实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的作战实体行为模型一体化建模方法。
实施例四
为了实现上述实施例一对应的方法,以及实现与实施例一相应的功能和技术效果,下面提供一种作战实体行为模型一体化建模框架,如图2所示,所述框架包括感知行为模型、决策行为模型和物理行为模型。
所述感知行为模型用于根据当前战场环境态势识别既定规则战场事件的标签或者各规则外战场事件的标签。
所述决策行为模型包括未知决策行为模型和已知决策行为模型;当所述感知行为模型输出的是既定规则战场事件的标签时,将所述既定规则战场事件输入所述已知决策行为模型,确定作战实体物理行为;当所述感知行为模型输出的是各所述规则外战场事件的标签,根据所述规则外战场事件的标签确定对应的未知决策行为模型,将所述规则外战场事件输入所述对应的未知决策行为模型,确定作战实体物理行为。
所述物理行为模型用于根据所述作战实体物理行为执行对应的作战动作。
其中,所述感知行为模型是应用深度神经网络构建的;所述未知决策行为模型是应用深度强化学习方法构建的;所述已知决策行为模型是应用基于规则的方法构建的;所述基于规则的方法为自动机、PetriNet、行为树或者规则***;所述物理行为模型是采用学科专业机理方法构建的。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种作战实体行为模型一体化建模方法,其特征在于,所述方法包括:
获取当前战场环境态势;
应用深度神经网络,构建感知行为模型;
将所述当前战场环境态势输入至训练好的感知行为模型,得到感知结果;所述感知结果为既定规则战场事件的标签或各规则外战场事件的标签;
当所述感知的结果为各所述规则外战场事件的标签时,确定与所述规则外战场事件对应的未知决策行为模型;将所述当前战场环境态势输入与所述规则外战场事件对应的训练好的未知决策行为模型,确定作战实体物理行为;所述未知决策行为模型是应用深度强化学习方法构建的;
当所述感知的结果为所述既定规则战场事件的标签时,根据已知决策行为模型,确定作战实体物理行为;所述已知决策行为模型是应用基于规则的方法构建的;
所述未知决策行为模型的训练过程具体包括:
获取多个初始训练集组;所述初始训练集组包括历史战场环境态势、根据所述历史战场环境态势执行的历史作战实体物理行为和执行所述历史作战实体物理行为后的战场环境态势;
以所述历史战场环境态势为输入,以所述历史作战实体物理行为为输出,对所述未知决策行为模型进行训练,得到所述历史战场环境态势下不同的所述历史作战实体物理行为对应的多个当前估计的未来累积奖励;
根据所述多个当前估计的未来累积奖励,确定目标作战实体物理行为;所述目标作战实体物理行为为采用-贪心策略选择的作战实体的动作;
确定执行所述目标作战实体物理行为后的战场环境态势,得到目标战场环境态势和执行所述目标作战实体物理行为产生的单步奖励;
将所述目标战场环境态势,输入目标未知决策行为模型,得到下一目标估计的未来累积奖励;所述目标未知决策行为模型与所述未知决策行为模型的结构一致,所述目标未知决策行为模型的参数的当前值与所述未知决策行为模型的参数的当前值不同;
根据最高的所述下一目标估计的未来累积奖励、执行所述目标作战实体物理行为产生的单步奖励和所述当前估计的未来累积奖励,确定误差;
根据所述误差,应用反向传播算法,更新所述未知决策行为模型的参数,得到更新后的未知决策行为模型;
当所述误差满足设定阈值时,得到训练好的未知决策行为模型。
2.根据权利要求1所述的作战实体行为模型一体化建模方法,其特征在于,所述基于规则的方法为自动机、PetriNet、行为树或者规则***。
3.根据权利要求1所述的作战实体行为模型一体化建模方法,其特征在于,所述感知行为模型的训练过程具体包括:
获取已知战场环境态势、既定规则战场事件的标签和各规则外战场事件的标签;所述战场环境态势包括作战实***置、目标地位置、燃油量、弹药量、作战实体状态、目标数量、目标位置、目标状态和消耗时间;所述既定规则战场事件的标签为既定规则战场事件;所述各规则外战场事件的标签为各规则外战场事件;
以所述已知战场环境态势为输入,以对应的所述既定规则战场事件的标签或对应的所述规则外战场事件的标签为输出,对所述感知行为模型进行训练。
4.根据权利要求1所述的作战实体行为模型一体化建模方法,其特征在于,所述方法还包括:
获取作战任务;
判断所述作战任务是否完成;
若所述作战任务未完成,则根据当前战场环境态势,确定所述作战实体物理行为。
5.一种作战实体行为模型一体化建模***,其特征在于,所述***包括:
获取模块,用于获取当前战场环境态势;
构建模块,用于应用深度神经网络,构建感知行为模型;
感知结果确定模块,用于将所述当前战场环境态势输入至训练好的感知行为模型,得到感知结果;所述感知结果为既定规则战场事件的标签或各规则外战场事件的标签;
第一作战实体行为模块,用于当所述感知的结果为各所述规则外战场事件的标签时,确定与所述规则外战场事件对应的未知决策行为模型;将所述当前战场环境态势输入与所述规则外战场事件对应的训练好的未知决策行为模型,确定作战实体物理行为;所述未知决策行为模型是应用深度强化学习方法构建的;
第二作战实体行为模块,用于当所述感知的结果为所述既定规则战场事件的标签时,根据已知决策行为模型,确定作战实体物理行为;所述已知决策行为模型是应用基于规则的方法构建的;
所述未知决策行为模型的训练过程具体包括:
获取多个初始训练集组;所述初始训练集组包括历史战场环境态势、根据所述历史战场环境态势执行的历史作战实体物理行为和执行所述历史作战实体物理行为后的战场环境态势;
以所述历史战场环境态势为输入,以所述历史作战实体物理行为为输出,对所述未知决策行为模型进行训练,得到所述历史战场环境态势下不同的所述历史作战实体物理行为对应的多个当前估计的未来累积奖励;
根据所述多个当前估计的未来累积奖励,确定目标作战实体物理行为;所述目标作战实体物理行为为采用-贪心策略选择的作战实体的动作;
确定执行所述目标作战实体物理行为后的战场环境态势,得到目标战场环境态势和执行所述目标作战实体物理行为产生的单步奖励;
将所述目标战场环境态势,输入目标未知决策行为模型,得到下一目标估计的未来累积奖励;所述目标未知决策行为模型与所述未知决策行为模型的结构一致,所述目标未知决策行为模型的参数的当前值与所述未知决策行为模型的参数的当前值不同;
根据最高的所述下一目标估计的未来累积奖励、执行所述目标作战实体物理行为产生的单步奖励和所述当前估计的未来累积奖励,确定误差;
根据所述误差,应用反向传播算法,更新所述未知决策行为模型的参数,得到更新后的未知决策行为模型;
当所述误差满足设定阈值时,得到训练好的未知决策行为模型。
6.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至4中任一项所述的作战实体行为模型一体化建模方法。
7.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的作战实体行为模型一体化建模方法。
CN202310033562.5A 2023-01-10 2023-01-10 作战实体行为模型一体化建模方法及*** Active CN115906673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310033562.5A CN115906673B (zh) 2023-01-10 2023-01-10 作战实体行为模型一体化建模方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310033562.5A CN115906673B (zh) 2023-01-10 2023-01-10 作战实体行为模型一体化建模方法及***

Publications (2)

Publication Number Publication Date
CN115906673A CN115906673A (zh) 2023-04-04
CN115906673B true CN115906673B (zh) 2023-11-03

Family

ID=86484772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310033562.5A Active CN115906673B (zh) 2023-01-10 2023-01-10 作战实体行为模型一体化建模方法及***

Country Status (1)

Country Link
CN (1) CN115906673B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116489193B (zh) * 2023-05-04 2024-01-23 中国人民解放军陆军工程大学 一种作战网络自适应组合方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140145446A (ko) * 2013-06-13 2014-12-23 국방과학연구소 무기체계 전투효과분석을 위한 모의 전투 시뮬레이션 시스템 및 그 방법
RU194853U1 (ru) * 2019-06-18 2019-12-25 Федеральное государственное бюджетное учреждение "Центральный научно-исследовательский институт Войск воздушно-космической обороны" Министерства обороны Российской Федерации Автоматизированная геоинформационная система поддержки принятия решения командира зенитного ракетного полка на подготовку к ведению боевых действий
CN111044052A (zh) * 2019-12-31 2020-04-21 西安交通大学 一种基于智能感知的无人机自适应导航***及方法
CN112131786A (zh) * 2020-09-14 2020-12-25 中国人民解放军军事科学院评估论证研究中心 基于多智能体强化学习的目标探测与分配方法及装置
CN113255916A (zh) * 2021-05-31 2021-08-13 成都卡莱博尔信息技术股份有限公司 作战知识***的使用方法、作战决策辅助方法
CN113741533A (zh) * 2021-09-16 2021-12-03 中国电子科技集团公司第五十四研究所 一种基于模仿学习与强化学习的无人机智能决策***
KR102362749B1 (ko) * 2021-07-09 2022-02-15 한화시스템(주) 지식베이스 기반 인공지능 적방책 분석 및 아방책 수립 시스템 및 그 방법
WO2022099915A1 (zh) * 2020-11-13 2022-05-19 中国人民解放军国防科技大学 基于超网络模型的组织架构建模方法及空间探索算法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140145446A (ko) * 2013-06-13 2014-12-23 국방과학연구소 무기체계 전투효과분석을 위한 모의 전투 시뮬레이션 시스템 및 그 방법
RU194853U1 (ru) * 2019-06-18 2019-12-25 Федеральное государственное бюджетное учреждение "Центральный научно-исследовательский институт Войск воздушно-космической обороны" Министерства обороны Российской Федерации Автоматизированная геоинформационная система поддержки принятия решения командира зенитного ракетного полка на подготовку к ведению боевых действий
CN111044052A (zh) * 2019-12-31 2020-04-21 西安交通大学 一种基于智能感知的无人机自适应导航***及方法
CN112131786A (zh) * 2020-09-14 2020-12-25 中国人民解放军军事科学院评估论证研究中心 基于多智能体强化学习的目标探测与分配方法及装置
WO2022099915A1 (zh) * 2020-11-13 2022-05-19 中国人民解放军国防科技大学 基于超网络模型的组织架构建模方法及空间探索算法
CN113255916A (zh) * 2021-05-31 2021-08-13 成都卡莱博尔信息技术股份有限公司 作战知识***的使用方法、作战决策辅助方法
KR102362749B1 (ko) * 2021-07-09 2022-02-15 한화시스템(주) 지식베이스 기반 인공지능 적방책 분석 및 아방책 수립 시스템 및 그 방법
CN113741533A (zh) * 2021-09-16 2021-12-03 中国电子科技集团公司第五十四研究所 一种基于模仿学习与强化学习的无人机智能决策***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
作战体系的结构建模与应用研究;吕昭等;战术导弹技术(第3期);109-118 *

Also Published As

Publication number Publication date
CN115906673A (zh) 2023-04-04

Similar Documents

Publication Publication Date Title
CN112329348A (zh) 一种面向非完全信息条件下军事对抗博弈的智能决策方法
US11086938B2 (en) Interpreting human-robot instructions
CN110481536B (zh) 一种应用于混合动力汽车的控制方法及设备
CN112231489A (zh) 防疫机器人知识学习与迁移方法和***
CN115906673B (zh) 作战实体行为模型一体化建模方法及***
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进***及方法
König et al. Decentralized evolution of robotic behavior using finite state machines
CN116136945A (zh) 一种基于反事实基线的无人机集群对抗博弈仿真方法
CN116128060A (zh) 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法
Wang et al. Consciousness‐driven reinforcement learning: An online learning control framework
CN115938104A (zh) 一种动态短时路网交通状态预测模型及预测方法
CN117518907A (zh) 智能体的控制方法、装置、设备及存储介质
CN112884148A (zh) 嵌入多步规则的混合强化学习训练方法、设备及存储介质
CN116663416A (zh) 一种基于行为树的cgf决策行为仿真方法
Cummings et al. Development of a hybrid machine learning agent based model for optimization and interpretability
CN111882124B (zh) 一种基于生成对抗模仿学***台发展效应预测方法
Fernlund Evolving models from observed human performance
Derbinsky et al. Competence-preserving retention of learned knowledge in Soar’s working and procedural memories
Liu et al. An Overview of Opponent Modeling for Multi-agent Competition
CN116227361B (zh) 一种智能体决策方法及装置
Manela Deep reinforcement learning for complex manipulation tasks with sparse feedback
CN113872924B (zh) 一种多智能体的动作决策方法、装置、设备及存储介质
CN112884129B (zh) 一种基于示教数据的多步规则提取方法、设备及存储介质
Andersen Advancements in Safe Deep Reinforcement Learning for Real-Time Strategy Games and Industry Applications
CN115031747A (zh) 一种采用运筹学与控制论方法求解最优路径规划的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant