CN117215196B

CN117215196B - 基于深度强化学习的舰载综合控制计算机智能决策方法

Info

Publication number: CN117215196B
Application number: CN202311337788.0A
Authority: CN
Inventors: 吴伟
Original assignee: Chengdu Zhengyang Bochuang Electronic Technology Co ltd
Current assignee: Chengdu Zhengyang Bochuang Electronic Technology Co ltd
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2024-04-05
Anticipated expiration: 2043-10-17
Also published as: CN117215196A

Abstract

本发明公开了基于深度强化学习的舰载综合控制计算机智能决策方法，涉及舰载机智能巡航指挥技术领域，通过收集舰艇航行路线、巡航舰载机的舰载机巡航路线以及舰艇实时坐标，并实时接收巡航舰载机发送的巡航机器数据以及巡航环境数据，实时计算返航剩余油量；基于舰载机巡航路线，计算任务完成度，基于实时风险值、实时返航剩余油量、返航剩余油量以及任务完成度，使用Actor‑Critic模型中的Actor模型决策出舰载机是否返航，并对Actor‑Critic模型进行训练；若Actor模型输出的决策为返航，舰载机按返航路线完成返航；提高舰载机巡航的安全性。

Description

基于深度强化学习的舰载综合控制计算机智能决策方法

技术领域

本发明属于涉及舰载机智能巡航指挥技术领域，具体是基于深度强化学习的舰载综合控制计算机智能决策方法。

背景技术

舰载机是指安装在舰艇上的飞机，用于在海上进行起降和飞行任务。舰载机的存在使得舰艇具备了远程机动和空中作战能力，能够拓展海上作战的范围和效力。舰载机在军事和民用领域都具有重要的作用；

舰载机一般具有巡航任务；巡航任务是指在海上舰艇上起飞的飞机按照预定的巡航路线进行飞行任务，预定的飞行任务中对飞行路线，飞行距离以及飞行高度进行规定，以确保舰载机能够按照预定计划顺利完成任务；

然而因为舰载机在海上巡航时，经常会遇到一些恶劣的天气环境，或燃油箱燃油消耗速度高于预期等状况，可能会导致舰载机难以顺利返航；而目前对舰载机返航的决策主要是通过舰载机飞行员与指挥部门进行沟通交流后进行的主观决策，缺乏对环境数据和燃油数据等客观因素的数据分析过程，从而很容易会产生误判，造成不必要的损失；

公告号为CN111027143B的中国专利公开了一种基于深度强化学习的舰载机进近引导方法，包括以下步骤：首先，对舰载机和航母进行建模，构建智能体训练环境；其次，构建深度强化学习引导智能体，设计智能体的状态空间和决策动作空间；然后，根据舰载机进近成功条件设置奖励函数；之后，设置引导场景中舰载机和航母的初始姿态，并采用深度强化学习方法训练智能体；最后，使用训练完成的智能体准确引导舰载机到达最终进近点。该方案并公开了如何在返航时进行着陆，却未能解决合适返航的问题；

为此，本发明提出基于深度强化学习的舰载综合控制计算机智能决策方法。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出基于深度强化学习的舰载综合控制计算机智能决策方法，减少因对舰载机所处环境、舰载机任务进度以及可用燃油量的主观误判，提高舰载机巡航的安全性。

为实现上述目的，根据本发明的第一方面的实施例提出基于深度强化学习的舰载综合控制计算机智能决策方法，包括以下步骤：

步骤一：舰艇控制后台收集舰艇航行路线、舰载机巡航路线以及舰艇实时坐标，并实时接收巡航舰载机发送的巡航机器数据以及巡航环境数据；

步骤二：舰艇控制后台基于巡航机器数据，训练出预测单位距离耗油量的机器学习模型；

步骤三：基于巡航环境数据计算实时风险值；基于巡航机器数据、舰艇航行路线和机器学习模型生成返航路线，并计算返航剩余油量；基于舰载机巡航路线，计算任务完成度；

步骤四：基于实时风险值、实时返航剩余油量、返航剩余油量以及任务完成度，使用Actor-Critic模型中的Actor模型决策出舰载机是否返航，并对Actor-Critic模型进行训练；若Actor模型输出的决策为返航，则转至步骤五；若Actor模型输出的决策为不返航，则重复执行步骤四；

步骤五：舰载机按返航路线完成返航；

其中，所述舰艇航行路线为由舰艇控制人员预先设定的在舰载机起航后，舰艇在海上的航行路线；

其中，所述舰载机巡航路线为由任务指挥人员在舰载机起航前，为舰载机设置的空中巡航路线；

舰艇航行路线和舰载机巡航路线均表示在三维坐标系中，舰艇航行路线和舰载机巡航路线中的每个点对应一个三维坐标；所述三维坐标系为一个三维XYZ直角坐标系；

所述舰艇实时坐标为舰艇按照舰艇航行路线航行时，在三维坐标系中实时的三维空间坐标；

所述巡航机器数据包括舰载机的三维空间坐标、航行高度、航行速度以及单位距离耗油量；

所述三维空间坐标为舰载机的实时位置在三维坐标系中的三维空间坐标；

所述单位距离油耗量为舰载机每个时刻的航行每单位距离，所消耗的油量；

所述巡航环境数据包括可见度、风速以及天气类型；

训练出预测单位距离耗油量的机器学习模型的方式为：

在舰载机起航后，收集每个时刻的训练数据；

所述训练数据包括训练特征向量和训练标签；

每个时刻的所述训练特征向量为航行高度和航行速度组成的向量；

每个时刻的所述训练标签为单位距离耗油量；

对于每组训练数据，将训练特征向量作为机器学习模型的输入，所述机器学习模型以对每组训练特征向量的预测的训练标签为输出，以训练数据中的训练标签为预测目标，以最小化所有时刻下，预测的训练标签的预测误差之和作为训练目标；对机器学习模型进行训练，直至预测误差之和达到收敛时停止训练，训练出根据航行高度和航行速度输出预测的单位距离油耗量的机器学习模型；所述机器学习模型是多项式回归模型或SVM模型；

预测误差的计算公式为：ci＝(di-ei)²，其中，i为训练数据的编号，ci为预测误差，di为第i组训练数据对应的预测的训练标签，ei为第i组训练数据中的训练标签；

所述实时风险值的计算方式为：

将每个时刻的编号标记为t，将第t时刻的可见度标记为Kt，将第t时刻的风速标记为Vft；

为每种天气类型预设天气权重，将t时刻的天气类型对应的天气权重标记为Lt；

将第t时刻的实时风险值标记为Ft；则实时风险值Ft的计算公式为

基于巡航机器数据、舰艇航行路线和机器学习模型生成返航路线，并计算返航剩余油量的方式为：

为每种天气类型预设最大航行速度；将第t时刻的天气类型对应的最大航行速度标记为Vmt；

将舰艇航行速度标记为Vj；将舰艇从第t时刻之后的舰艇航行路线按预设的采样时长周期T1划分为若干子路线，每条子路线的长度为Vj×T1；

将子路线按舰艇航行顺序进行编号，将子路线的编号标记为n；则舰艇航行至第n条子路线所需要的时间为n×T1；其中，n＝1,2，…N，N为子路线总数；

计算第t时刻舰载机所在位置与第n条子路线的距离，并将与第n条子路线的距离标记为Htn；

计算第t时刻，舰载机航行至第n条子路线的最短时长Stn；则最短时长Stn的计算公式为

统计出所有子路线中，符合返航条件的子路线，并将符合返航条件的子路线保存为返航子路线集合；

其中，所述返航条件的判断方式为：

对于第n条子路线，若最短时长Stn小于或等于舰艇航行至该子路线的时长n×T1，则判断为符合返航条件；

若最短时长Stn大于舰艇航行至该子路线的时长，则判断不为符合返航条件；

从返航子路线集合中选择距离最短的子路线，并将该距离最短的子路线的编号标记为n1，将第t时刻，舰载机与子路线n1的距离标记为Htn1；

计算第t时刻的返航速度Vbt；所述返航速度Vbt的计算公式为

基于返航速度和机器学习模型生成返航路线，并计算返航剩余油量；

基于返航速度和机器学习模型生成返航路线，并计算返航剩余油量的方式为：

获取第t时刻，训练后的机器学习模型中对应的函数表达式f(g,v)；其中，g代表高度，v代表速度；将函数表达式f(g,v)中的速度v设置为返航速度Vbt，使用梯度下降算法或导数法，获得f(g,Vbt)最小值时，对应的高度gt，将该高度gt作为返航高度；

返航路线的航线设置为舰载机第t时刻的位置与第n1条子路线所连接的线段，且在该航线上，舰载机的航行速度为Vbt，航行高度为g1；

将第t时刻，舰载机的燃油箱中的剩余燃油量标记为Yt，将返航剩余油量标记为Yft；返航剩余油量标记为Yft的计算公式为Yft＝Yt-Htn1×f(gt，Vbt)；

所述任务完成度为舰载机在t时刻航行的距离，占舰载机巡航路线总长度的比例，将任务完成度标记为Rt；

使用Actor-Critic模型中的Actor模型决策出舰载机是否返航，并对Actor-Critic模型进行训练的方式为：

初始化Actor网络和Critic网络的参数；

在第t时刻，执行以下步骤：

步骤L1：以当前时刻综合风险值和任务完成度作为当前状态；

第t时刻的所述综合风险值Xt的计算公式为：

步骤L2：Actor网络输出是否返航的决策结果；

以t+1时刻的综合风险值和任务完成度作为下一个状态；

步骤L3：计算实际的奖励值Q；所述实际的奖励值为每次为舰载机进行返航决策后，获得的奖励值；

当决策结果为返航时：

当舰载机未能顺利返航时，实际的奖励值Q设置为-Qmax；其中，Qmax为预设的大于0的最大奖励值；

当舰载机能顺利返航，实际的奖励值Q的计算公式为：Q＝w1×Xt+Rt；

当决策结果为不返航时，实际的奖励值Q的计算公式为：其中，w1和w2分别为预设的比例系数；

步骤L4：使用Critic网络的更新公式更新奖励值函数的值，以调整对决策结果的世纪奖励值Q的估计；

步骤L5：使用Actor网络的更新公式更新Actor网络的参数，以提高在给定状态下选择高奖励决策结果的概率。

根据本发明的实施例2提出的一种电子设备，包括：处理器和存储器，其中，所述存储器中存储有可供处理器调用的计算机程序；

所述处理器通过调用所述存储器中存储的计算机程序，执行上述的基于深度强化学习的舰载综合控制计算机智能决策方法。

根据本发明的实施例3提出的一种计算机可读存储介质，其上存储有可擦写的计算机程序；

当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行上述的基于深度强化学习的舰载综合控制计算机智能决策方法。

与现有技术相比，本发明的有益效果是：

本发明通过在舰艇控制后台收集舰艇航行路线、巡航舰载机的舰载机巡航路线以及舰艇实时坐标，并实时接收巡航舰载机发送的巡航机器数据以及巡航环境数据，基于巡航机器数据，训练出预测单位距离耗油量的机器学习模型，基于巡航环境数据计算实时风险值，基于巡航机器数据、舰艇航行路线和机器学习模型生成返航路线，并计算返航剩余油量，基于舰载机巡航路线，计算任务完成度，基于实时风险值、实时返航剩余油量、返航剩余油量以及任务完成度，使用Actor-Critic模型中的Actor模型决策出舰载机是否返航，并对Actor-Critic模型进行训练；若Actor模型输出的决策为返航，舰载机按返航路线完成返航；通过使用深度强化学习模型，综合考虑舰载机在巡航过程中遭遇的环境因素以及返航燃油量，智能为舰载机生成返航指令，从而减少因对舰载机所处环境、舰载机任务进度以及可用燃油量的主观误判，提高舰载机巡航的安全性。

附图说明

图1为本发明的实施例1中基于深度强化学习的舰载综合控制计算机智能决策方法的流程图；

图2为本发明实施例2中的电子设备结构示意图；

图3为本发明实施3中的计算机可读存储介质结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

如图1所示，基于深度强化学习的舰载综合控制计算机智能决策方法，用于舰艇控制后台中，包括以下步骤：

步骤五：舰载机按返航路线完成返航；

需要说明的是，舰艇航行路线和舰载机巡航路线均表示在三维坐标系中，可以为地心坐标系(ECI)，WGS84坐标系，也可为CGCS2000坐标系，舰艇航行路线和舰载机巡航路线中的每个点对应一个三维坐标；所述三维坐标系为一个三维XYZ直角坐标系；需要说明的是，三维坐标系具体的原点位置，以及XYZ三轴的方向设定为本领域的常规技术手段，本发明在此不再赘述；

所述单位距离油耗量为舰载机每个时刻的航行每单位距离，所消耗的油量；可以理解的是，航行距离可以根据舰载机的三维空间坐标的变化量获得，消耗的油量可以通过计算对应时间内燃油箱中燃油的变化量获得；

所述巡航环境数据包括可见度、风速以及天气类型；

其中，所述可见度通过舰载机携带的光电传感器实时获取；

所述风速通过舰载机携带的风速风向传感器实时获取；

所述天气类型为舰载机携带的视觉传感器以及听觉传感器所识别的天气类型；所述天气类型包括但不限于晴、降雨、雷暴、雾天以及风暴等；可以理解的是，晴、降雨、雾天等天气类型均可通过计算机视觉技术识别，雷暴和风暴的天气类型可以通过计算机视觉技术与雷声或风声等声音信号结合进行识别；天气类型的识别方式为本领域的常规技术手段，本发明在此不再赘述；

在本发明的进一步的实施例中，所述天气类型还可以包含各个天气类型的不同等级，例如可以按降雨量大小将降雨天气划分为若干天气类型；

训练出预测单位距离耗油量的机器学习模型的方式为：

在舰载机起航后，收集每个时刻的训练数据；

所述训练数据包括训练特征向量和训练标签；

每个时刻的所述训练标签为单位距离耗油量；

对于每组训练数据，将训练特征向量作为机器学习模型的输入，所述机器学习模型以对每组训练特征向量的预测的训练标签为输出，以训练数据中的训练标签为预测目标，以最小化所有时刻下，预测的训练标签的预测误差之和作为训练目标；对机器学习模型进行训练，直至预测误差之和达到收敛时停止训练，训练出根据航行高度和航行速度输出预测的单位距离油耗量的机器学习模型；所述机器学习模型是多项式回归模型或SVM模型；对每次舰载机的航行过程产生的训练特征向量作为一个模型的训练数据，从而训练的机器学习模型是与舰载机巡航时的气候条件、舰载机载重等相符合的，避免了在将机器学习模型实际使用，产生欠拟合的问题；

进一步的，所述实时风险值的计算方式为：

为每种天气类型预设天气权重，将t时刻的天气类型对应的天气权重标记为Lt；需要说明的是，天气权重越大，表示越危险，例如雷暴天气类型的的天气权重应大于晴天天气类型的天气权重，此外，需要说明的是，权重的大小是为了将各个参数进行量化得到的一个具体的数值，便于后续比较利用，关于权重的大小，取决于样本数据的多少及本领域技术人员对每一组样本数据初步设定对应的权重因子系数，或者经验所得，只是为了得到一个较好的数据显示结果，只要不影响参数与量化后数值的比例关系即可，示例性的，晴天Lt＝1，小雨天气Lt＝50，中雨天气Lt＝80；

将子路线按舰艇航行顺序进行编号，将子路线的编号标记为n；则舰艇航行至第n条子路线所需要的时间为n×T1；其中，n＝1,2，…N，N为子路线总数；需要说明的是，在每条子路线中包含有若干个点，本发明所述的舰艇航行至第n条子路线是指航行至第n条子路线的起始点；为了便于表达，下述的所有子路线均为对应子路线的起始点；

其中，所述返航条件的判断方式为：

计算第t时刻的返航速度Vbt；所述返航速度Vbt的计算公式为

将第t时刻，舰载机的燃油箱中的剩余燃油量标记为Yt，将返航剩余油量标记为Yft；则返航剩余油量标记为Yft的计算公式为Yft＝Yt-Htn1×f(gt，Vbt)；

初始化Actor网络和Critic网络的参数；包括但不限于Actor网络的状态输入层的维度、隐藏层数量和大小、动作输出层的维度、Critic网络的状态输入层的维度、隐藏层的数量和大小和奖励值函数输出层的维度、学习率、折扣因子以及网络优化算法(梯度下降法或Adam优化算法等)；

在第t时刻，执行以下步骤：

第t时刻的所述综合风险值Xt的计算公式为：显然，当实时风险值越大，或返航剩余油量越小时，舰载机能继续执行任务的难度越大；

步骤L2：Actor网络输出是否返航的决策结果；

以t+1时刻的综合风险值和任务完成度作为下一个状态；

具体的，当决策结果为返航时：

当舰载机未能顺利返航时，实际的奖励值Q设置为-Qmax；其中，Qmax为预设的大于0的最大奖励值；需要说明的是，未能顺利返航是指在返航途中，未按返航路线行驶或燃油耗尽或向舰艇寻求其他帮助等不能无障碍返航的情况；

当舰载机能顺利返航，实际的奖励值Q的计算公式为：Q＝w1×Xt+Rt；显然，当综合风险值越大，且任务完成度越高时，越倾向于返航；

步骤L4：使用Critic网络的更新公式更新奖励值函数的值，以调整对决策结果的世纪奖励值Q的估计；需要说明的是，所述更新公式可以为本领域技术人员的常用更新公式，例如：Z(a)＝Z(a)+α[Q+γZ(a')-Z(a)]，其中，Z(α)是当前状态a的奖励值函数估计；α是学习率，控制更新的步长；γ是折扣因子，用于衡量未来奖励的重要性；α'是下一个状态；

实施例2

图2是本申请一个实施例提供的电子设备结构示意图。如图2所示，根据本申请的又一方面还提供了一种计算机服务器。该计算机服务器可包括一个或多个处理器以及一个或多个存储器。其中，存储器中存储有计算机可读代码，计算机可读代码当由一个或多个处理器运行时，可以执行如上所述的基于深度强化学习的舰载综合控制计算机智能决策方法。

根据本申请实施方式的方法或***也可以借助于图2所示的计算机服务器的架构来实现。如图2所示，计算机服务器可包括总线201、一个或多个CPU202、只读存储器(ROM)203、随机存取存储器(RAM)204、连接到网络的通信端口205、输入/输出组件206、硬盘207等。计算机服务器中的存储设备，例如ROM203或硬盘207可存储本申请提供的基于深度强化学习的舰载综合控制计算机智能决策方法。基于深度强化学习的舰载综合控制计算机智能决策方法，可例如包括以下步骤：步骤一：舰艇控制后台收集舰艇航行路线、巡航舰载机的舰载机巡航路线以及舰艇实时坐标，并实时接收巡航舰载机发送的巡航机器数据以及巡航环境数据；步骤二：舰艇控制后台基于巡航机器数据，训练出预测单位距离耗油量的机器学习模型；步骤三：基于巡航环境数据计算实时风险值；基于巡航机器数据、舰艇航行路线和机器学习模型生成返航路线，并计算返航剩余油量；基于舰载机巡航路线，计算任务完成度；步骤四：基于实时风险值、实时返航剩余油量、返航剩余油量以及任务完成度，使用Actor-Critic模型中的Actor模型决策出舰载机是否返航，并对Actor-Critic模型进行训练；若Actor模型输出的决策为返航，则转至步骤五；若Actor模型输出的决策为不返航，则重复执行步骤四；步骤五：舰载机按返航路线完成返航；

进一步地，计算机服务器还可包括用户界面208。当然，图2所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图2示出的电子设备中的一个或多个组件。

实施例3

图3是本申请一个实施例提供的计算机可读存储介质结构示意图。如图3所示，是根据本申请一个实施方式的计算机可读存储介质300。计算机可读存储介质300上存储有计算机可读指令。当计算机可读指令由处理器运行时，可执行参照以上附图描述的根据本申请实施方式的基于深度强化学习的舰载综合控制计算机智能决策方法。存储介质300包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可包括随机存取存储器(RAM)和高速缓冲存储器(cache)等。非易失性存储器例如可包括只读存储器(ROM)、硬盘、闪存等。

另外，根据本申请的实施方式，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质存储有机器可读指令，所述机器可读指令能够由处理器运行以执行与本申请提供的方法步骤对应的指令，例如：步骤一：舰艇控制后台收集舰艇航行路线、巡航舰载机的舰载机巡航路线以及舰艇实时坐标，并实时接收巡航舰载机发送的巡航机器数据以及巡航环境数据；舰艇控制后台基于巡航机器数据，训练出预测单位距离耗油量的机器学习模型；步骤三：基于巡航环境数据计算实时风险值；基于巡航机器数据、舰艇航行路线和机器学习模型生成返航路线，并计算返航剩余油量；基于舰载机巡航路线，计算任务完成度；步骤四：基于实时风险值、实时返航剩余油量、返航剩余油量以及任务完成度，使用Actor-Critic模型中的Actor模型决策出舰载机是否返航，并对Actor-Critic模型进行训练；若Actor模型输出的决策为返航，则转至步骤五；若Actor模型输出的决策为不返航，则重复执行步骤四；步骤五：舰载机按返航路线完成返航。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

另外，本申请的实施方式中提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

以上的预设的参数或预设的阈值均由本领域的技术人员根据实际情况设定或者大量数据模拟获得。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.基于深度强化学习的舰载综合控制计算机智能决策方法，其特征在于，包括以下步骤：

步骤一：舰艇控制后台收集舰艇航行路线、舰载机巡航路线以及舰艇实时坐标，并实时接收巡航舰载机发送的巡航机器数据以及巡航环境数据；所述巡航机器数据包括舰载机的三维空间坐标、航行高度、航行速度以及单位距离耗油量；

步骤五：舰载机按返航路线完成返航；

所述实时风险值的计算方式为：

计算第t时刻的返航速度Vbt；所述返航速度Vbt的计算公式为

所述返航条件的判断方式为：

若最短时长Stn大于舰艇航行至该子路线的时长，则判断为不符合返航条件；

将第t时刻，舰载机的燃油箱中的剩余燃油量标记为Yt，将返航剩余油量标记为Yft；返航剩余油量标记为Yft的计算公式为：

Yft＝Yt-Htn1×f(gt，Vbt)；

式中，Htn1表示为第t时刻舰载机与子路线n1的距离；

所述任务完成度为舰载机在t时刻航行的距离，占舰载机巡航路线总长度的比例，将任务完成度标记为Rt。

2.根据权利要求1所述的基于深度强化学习的舰载综合控制计算机智能决策方法，其特征在于，训练出预测单位距离耗油量的机器学习模型的方式为：

在舰载机起航后，收集每个时刻的训练数据；

所述训练数据包括训练特征向量和训练标签；

每个时刻的所述训练标签为单位距离耗油量；

预测误差的计算公式为：ci＝(di-ei)²，其中，i为训练数据的编号，ci为预测误差，di为第i组训练数据对应的预测的训练标签，ei为第i组训练数据中的训练标签。

3.根据权利要求2所述的基于深度强化学习的舰载综合控制计算机智能决策方法，其特征在于，使用Actor-Critic模型中的Actor模型决策出舰载机是否返航，并对Actor-Critic模型进行训练的方式为：

初始化Actor网络和Critic网络的参数；

在第t时刻，执行以下步骤：

第t时刻的所述综合风险值Xt的计算公式为：

式中，Yft表示返航剩余油量；Ft表示实时风险值；

步骤L2：Actor网络输出是否返航的决策结果；

以t+1时刻的综合风险值和任务完成度作为下一个状态；

当决策结果为返航时：

当决策结果为不返航时，实际的奖励值Q的计算公式为：其中，w1和w2分别为预设的比例系数；Rt表示任务完成度，Xt表示第t时刻的所述综合风险值；

4.一种电子设备，其特征在于，包括：处理器和存储器，其中，

所述存储器中存储有可供处理器调用的计算机程序；

所述处理器通过调用所述存储器中存储的计算机程序，在后台中执行权利要求1-3任意一条所述基于深度强化学习的舰载综合控制计算机智能决策方法。

5.一种计算机可读存储介质，其特征在于，其上存储有可擦写的计算机程序；

当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行在后台中执行权利要求1-3任意一条所述基于深度强化学习的舰载综合控制计算机智能决策方法。