CN115587713A - 一种基于强化学习的海洋牧场灾害决策方法 - Google Patents

一种基于强化学习的海洋牧场灾害决策方法 Download PDF

Info

Publication number
CN115587713A
CN115587713A CN202211386315.5A CN202211386315A CN115587713A CN 115587713 A CN115587713 A CN 115587713A CN 202211386315 A CN202211386315 A CN 202211386315A CN 115587713 A CN115587713 A CN 115587713A
Authority
CN
China
Prior art keywords
pasture
disaster
data
module
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211386315.5A
Other languages
English (en)
Inventor
张大海
夏梅娟
宋革联
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211386315.5A priority Critical patent/CN115587713A/zh
Publication of CN115587713A publication Critical patent/CN115587713A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Agronomy & Crop Science (AREA)
  • Animal Husbandry (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习的海洋牧场灾害决策方法。方法包括:交互环境模块构建海洋牧场的虚拟牧场海域;灾害判断模块判断海洋牧场是否发生灾害,通过动作空间模块对虚拟牧场海域采取预设灾后动作输出反馈结果;决策模块输出初步决策数据;灾害判断模块判断海洋牧场灾害是否结束输出判断结果;奖励更新模块计算奖励值;修正后依次输入参数优化模块和决策模块中更新优化;重复获得训练完成的灾害判断模块和决策模块;灾害判断模块判断海洋牧场发生灾害,训练完成的决策模块输出监测决策数据,根据监测决策数据对发生灾害的海洋牧场进行决策。本发明能够提高海洋牧场灾害决策准确率和灵活性,解决风险灾害决策技术落后等问题,提升了管控效率。

Description

一种基于强化学习的海洋牧场灾害决策方法
技术领域
本发明涉及了一种海洋牧场灾害决策方法,具体涉及一种基于强化学习的海洋牧场灾害决策方法。
背景技术
在海洋环境灾害决策研究领域,层次分析法即融合定量定性分析的多目标决策分析方法应用较为广泛。其原理是将问题进行层次划分,分类分解相关因素,以形成多层次结构模型,并逐层对因素进行赋值。层次分析法将问题由繁化简,将研究问题分解使其层次化及数量化,从而让问题的分析处理能更加简易。但在涉及到复杂海况的海洋牧场灾害决策相关场景时,由于海洋环境中存在无法准确量化分层的物理因素及规律,层次分析法就显得十分局限。
人工智能领域的一个主要研究目标是实现完全自主的智能体。智能体能够与其所处的环境进行交互,根据环境反馈学习最佳行为,并通过反复实验不断改进行动策略。深度强化学习(Deep Reinforcement Learning,DRL)的出现为这一目标的实现提供理论基础。作为人工智能研究领域的重要分支,被认为是实现类人智能的关键,受到学术和产业界的广泛关注。
DRL是一种端对端的感知与控制***,具有很强的通用性。其学习过程可以描述为:在每个时刻agent与环境交互得到一个高维度的观察,并利用DL方法来感知观察,以得到具体的状态特征表示;基于预期回报来评价各动作的价值函数,并通过某种策略将当前状态映射为相应的动作;环境对此动作做出反应,并得到下一个观察。
通过不断循环以上过程,最终可以得到实现目标的最优策略。一方面,DRL对策略和状态具有强大的表征能力,能够用于模拟复杂的决策过程;另一方面,强化学习赋予智能体自监督学习能力,使其能够自主地与环境交互,在试错中不断进步。但在海洋牧场的建设中,DRL目前还未有相关应用。
发明内容
为了解决背景技术中存在的问题,本发明所提供一种基于强化学习的海洋牧场灾害决策方法本发明基于强化学习的海洋牧场灾害决策算法,以解决现有技术中针对海洋牧场涉及到的海域灾害动态决策规划效率低下、灵活性欠缺、联动性弱等缺陷。
本发明采用的技术方案是:
本发明的海洋牧场灾害决策方法包括如下步骤:
步骤一:获取当前时刻前的海洋牧场的历史牧场状态数据,将历史牧场状态数据输入数据处理模块进行数据预处理后获得历史牧场预处理状态数据;将历史牧场状态预处理数据输入交互环境模块中,在交互环境模块中构建海洋牧场的虚拟牧场海域,即将预处理后的历史牧场数据作为输入,构建基于人工神经网络的海域生态模拟评估模型,作为交互环境模块的主体。
步骤二:将历史牧场状态预处理数据输入灾害判断模块中,灾害判断模块判断海洋牧场是否发生灾害,当海洋牧场发生灾害时,通过动作空间模块将一个预设灾后动作输入交互环境模块中对虚拟牧场海域采取预设灾后动作,交互环境模块输出虚拟牧场海域产生的反馈结果;获取的牧场状态数据均为滞后数据,即获取的当前时刻的前一刻的历史牧场数据实际为海洋牧场当前时刻之前N小时的历史牧场数据,即通过当前时刻的前一刻的历史牧场数据判断海洋牧场发生灾害时,实际的海洋牧场已发生N小时的海洋灾害。
步骤三:获取海洋牧场的实时牧场状态数据,将实时牧场状态数据输入数据处理模块进行数据预处理后获得实时牧场预处理状态数据并输入决策模块中,决策模块输出初步决策数据。
步骤四:将初步决策数据输入交互环境模块中,交互环境模块输出虚拟牧场海域的预测状态值和状态变化量;将历史牧场状态预处理数据、虚拟牧场海域产生的反馈结果、预测状态值和状态变化量输入灾害判断模块中,灾害判断模块判断海洋牧场的灾害是否结束从而输出判断结果。
具体实施中,灾害判断模块将历史牧场状态预处理数据、虚拟牧场海域产生的反馈结果、预测状态值和状态变化量,结合预警条件及阈值,归纳为参数致灾关联公式,用于判断当前牧场海域和虚拟海域环境是否处于风险灾害状态中,即判断灾害是否结束;具体地,可以判断预测状态值是否仍然处于风险区间。
步骤五:将灾害判断模块输出的判断结果、虚拟牧场海域的预测状态值和状态变化量输入奖励更新模块中,奖励更新模块计算当次的奖励值。
步骤六:根据实时牧场预处理状态数据对灾害判断模块输出的判断结果和虚拟牧场海域的预测状态值进行修正;将修正后的判断结果和预测状态值、初步决策数据、海洋牧场的状态变化量和环境预估误差输入参数优化模块中处理,处理的输出再输入到决策模块中进行更新优化。
在修正时,即将虚拟牧场海域的预测状态值修正为实时牧场预处理状态数据,同时确定海洋牧场的实时状态,将灾害判断模块输出的判断结果修正为海洋牧场的实时状态。
步骤七:重复步骤一至六对灾害判断模块和决策模块进行重复训练,直至奖励更新模块计算获得的奖励值收敛到最大值,停止灾害判断模块和决策模块的训练,获得训练完成的灾害判断模块和决策模块;在进行参数优化的基础上,还需要减少所需的训练回合。
步骤八:实时获取海洋牧场的牧场监测状态数据并输入数据处理模块进行数据预处理后获得牧场预处理监测状态数据,将牧场预处理监测状态数据输入训练完成的灾害判断模块,当灾害判断模块判断海洋牧场发生灾害时,将牧场预处理监测状态数据输入训练完成的决策模块中,处理后输出监测决策数据,根据监测决策数据对发生灾害的海洋牧场进行决策。
所述的海洋牧场的历史牧场状态数据和实时牧场状态数据均包括海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据等。
海域多参数传感器数据包括序列号、日期、时间、电导、叶绿素、PH值、溶解氧和声速等数据;浊度传感器数据包括浊度数据;流速数据包括层数、深度、流速原始数据、x方向流速、y方向流速、z方向流速、合成流速、合成流速方向等数据;生态模拟预报数据包括时间、经度、纬度、深度、水位、盐度、水温、东向流速和北向流速等数据。
将历史牧场状态数据输入数据处理模块进行数据预处理后获得历史牧场预处理状态数据,具体为将历史牧场状态数据中的海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据等分别输入数据处理模块中依次进行缺值补充、随机采样和序列化等处理,具体实施中,对存在空缺的数据进行缺值补充;还需要将每一组牧场状态数据根据所在数据集规模进行数据压缩,数据集规模主要以深度取值和数据条数判断规模,小型数据集采用垂向平均处理,大型数据集采用VAE模型进行数据压缩处理,处理后的输出共同构建为历史牧场预处理状态数据。
所述的步骤一中,将历史牧场状态预处理数据输入交互环境模块中,交互环境模块构建海洋牧场的虚拟牧场海域,具体为交互环境模块根据历史牧场状态预处理数据、海洋牧场汇中的各个设备的投放布局结构以及海洋牧场所在的海域的二维浅水方程和嵌入式二阶矩湍流闭合子模型进而构建虚拟牧场海域。虚拟牧场海域能够根据不同的环境数据,预测出下一决策时间的环境数据。
所述的步骤二中,海洋牧场发生的灾害具体包括气象灾害、水文灾害和地质灾害,将历史牧场状态预处理数据输入灾害判断模块中,灾害判断模块判断海洋牧场是否发生灾害,具体为灾害判断模块根据海洋牧场的历史牧场状态预处理数据判断海洋牧场是否满足气象灾害、水文灾害或地质灾害发生的预警条件,若满足,则灾害判断模块判断海洋牧场处于气象灾害、水文灾害或地质灾害状态中。
气象灾害、水文灾害和地质灾害中包含的各种灾害均有特定的预警条件,即国家标准对应的预警区间标准,如属于水文灾害的风暴潮,当历史牧场状态预处理数据中的超警戒潮位、风速大小和三分之一潮高H1/3均超出预警条件时,则判断海洋牧场处于风暴潮灾害中。
所述的步骤二中,动作空间模块中包括若干预设灾后动作,每个预设灾后动作对应一个调控超出预警值的参数值时采取的元动作,超出预警值的参数值为海洋牧场的历史牧场状态数据中的其中一个参数值,即海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据等中包含的其中一个参数值,如风速、潮位等;预设灾后动作包括测量超出预警值的参数值的设备的启停时刻、启停时长、移动方向和移动速度等。
预设灾后动作需为IOT设备或数据采集设备可支持的操作,预设灾后动作同时需要综合设备操作的滞后性对整体动作效率进行衰减等。当多个参数异常时,也是判断为某一种灾害类型,单个决策步长都只从动作空间中选取一个决策动作,这个动作有一定的概率p是随机的(探索性质),剩下的概率1-p是选取当前奖励最大的动作,决策回合包括一个或多个决策步长的所有动作组成动作序列,也可以称为决策方案。
所述的交互环境模块输出虚拟牧场海域产生的反馈结果具体为虚拟牧场海域采取预设灾后动作后的牧场状态数据。
步骤三中,决策模块为深度Q网络DQN,深度Q网络DQN具体采用双记忆模型LSTM,双记忆模型LSTM包括依次连接的短期记忆网络和长期记忆网络;短期记忆网络由两个组件组成,包括一个用于学习当前任务的深度Q网络和一个只包含当前任务数据的经验重放;长期记忆网络包括两个组成部分,分别是包含了从开始到现在所有任务下学到的知识的深度Q网络以及一个用来生成表示这些强化学习任务经历的生成对抗网络。决策模块基于深度学习的Q-learning(Q学习)算法的DQN(Deep Q-learning Network,深度Q学习网络)构建,通过off-policy策略离线训练,值函数近似与神经网络构建,并采用了目标网络和经验重放的方法进行网络的训练。
所述的步骤四中,初步决策数据具体为动作空间模块中的一个或多个预设灾后动作构成的动作序列,将初步决策数据输入交互环境模块中,交互环境模块采取动作序列后输出虚拟牧场海域的预测状态值和状态变化量,虚拟牧场海域的预测状态值具体为虚拟牧场海域在采取动作序列后动作后的牧场状态数据,虚拟牧场海域的状态变化量为虚拟牧场海域在采取动作序列前后的牧场状态数据的变化量。
在实际处理中,交互环境模块中只能接收海域状态参数作为输入,故需要将初步决策数据中的动作序列转化为对上一决策阶段牧场海域状态数据的超出预警值的参数值的增减序列再输入交互环境模块中,同时需要考虑在不同的灾害场景中动作对应的参数变化率差异。
当海洋牧场发生气象灾害、水文灾害或地质灾害时,海洋牧场的实时牧场状态数据中的若干参数值超出预警值,即(微)延时数据中的若干参数值超出预警值,则需采取调控超出预警值的若干参数值的各个预设灾后动作,即构成初步决策数据;比如,在风暴潮的灾害场景中,超出预警值的参数值为风速、潮位、浪高、流速等,此时各个预设灾后动作包括测量风速的设备、测量潮位的设备、测量浪高的设备、测量流速的设备的移动方向、移动速度等,上述动作共同构成初步决策数据。
所述的步骤四中,灾害判断模块判断海洋牧场的灾害是否结束从而输出判断结果,当虚拟牧场海域的预测状态值中的各个超出预警值的参数值均不超出预警值时,则判断海洋牧场的灾害结束,当虚拟牧场海域的预测状态值中的各个超出预警值的参数值中有一个或若干参数值仍超出预警值,则判断海洋牧场的灾害未结束。
所述的步骤五中,将灾害判断模块输出的判断结果输入奖励更新模块中,奖励更新模块计算当次的奖励值,灾害判断模块每输出一个判断结果即为消耗了一次决策步长时间,当灾害判断模块判断海洋牧场的灾害未结束时,根据当前的决策步长时间给予负反馈值,当灾害判断模块判断海洋牧场的灾害结束时,根据海洋牧场的灾害类型给予正反馈值。当训练过程中消耗的总决策步长时间超出响应时长时,则判断本次训练结束,继续在该次灾害数据上对决策模型进行训练,直至模型能够在响应时长内解除/脱离/降低风险灾害。
所述的海洋牧场的状态变化量具体为实时牧场预处理状态数据和交互环境模块采取动作序列后的实时牧场预处理状态数据之间的变化量;海洋牧场的环境预估误差具体为虚拟牧场海域的预测状态值和交互环境模块采取动作序列后的实时牧场预处理状态数据之间的误差。
本发明的有益效果是:
本发明能够增加海洋牧场所涉及海域灾害的标准决策数据集,提高牧场灾害决策准确率和灵活性,解决海洋牧场风险灾害决策技术落后等问题,提升人均海域管控面积及管控效率;可结合对应牧场决策***,实现人工监督下辅助决策、最佳决策方案提供以及无人工响应状态时自主决策等功能。
附图说明
图1为牧场灾害决策模型示意图;
图2为策四元组架构图;
图3为交互环境模块实现结构图;
图4为本发明方法流程示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
本发明的海洋牧场灾害决策方法包括如下步骤:
步骤一:获取当前时刻前的海洋牧场的历史牧场状态数据,将历史牧场状态数据输入数据处理模块进行数据预处理后获得历史牧场预处理状态数据;将历史牧场状态预处理数据输入交互环境模块中,在交互环境模块中构建海洋牧场的虚拟牧场海域,即将预处理后的历史牧场数据作为输入,构建基于人工神经网络的海域生态模拟评估模型,作为交互环境模块的主体。
海洋牧场的历史牧场状态数据和实时牧场状态数据均包括海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据等。海域多参数传感器数据包括序列号、日期、时间、电导、叶绿素、PH值、溶解氧和声速等数据;浊度传感器数据包括浊度数据;流速数据包括层数、深度、流速原始数据、x方向流速、y方向流速、z方向流速、合成流速、合成流速方向等数据;生态模拟预报数据包括时间、经度、纬度、深度、水位、盐度、水温、东向流速和北向流速等数据。
将历史牧场状态数据输入数据处理模块进行数据预处理后获得历史牧场预处理状态数据,具体为将历史牧场状态数据中的海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据等分别输入数据处理模块中依次进行缺值补充、随机采样和序列化等处理,具体实施中,对存在空缺的数据进行缺值补充;还需要将每一组牧场状态数据根据所在数据集规模进行数据压缩,数据集规模主要以深度取值和数据条数判断规模,小型数据集采用垂向平均处理,大型数据集采用VAE模型进行数据压缩处理,处理后的输出共同构建为历史牧场预处理状态数据。
步骤一中,将历史牧场状态预处理数据输入交互环境模块中,交互环境模块构建海洋牧场的虚拟牧场海域,具体为交互环境模块根据历史牧场状态预处理数据、海洋牧场汇中的各个设备的投放布局结构以及海洋牧场所在的海域的二维浅水方程和嵌入式二阶矩湍流闭合子模型进而构建虚拟牧场海域。虚拟牧场海域能够根据不同的环境数据,预测出下一决策时间的环境数据。
步骤二:将历史牧场状态预处理数据输入灾害判断模块中,灾害判断模块判断海洋牧场是否发生灾害,当海洋牧场发生灾害时,通过动作空间模块将一个预设灾后动作输入交互环境模块中对虚拟牧场海域采取预设灾后动作,交互环境模块输出虚拟牧场海域产生的反馈结果;获取的牧场状态数据均为滞后数据,即获取的当前时刻的前一刻的历史牧场数据实际为海洋牧场当前时刻之前N小时的历史牧场数据,即通过当前时刻的前一刻的历史牧场数据判断海洋牧场发生灾害时,实际的海洋牧场已发生N小时的海洋灾害。
步骤二中,海洋牧场发生的灾害具体包括气象灾害、水文灾害和地质灾害,将历史牧场状态预处理数据输入灾害判断模块中,灾害判断模块判断海洋牧场是否发生灾害,具体为灾害判断模块根据海洋牧场的历史牧场状态预处理数据判断海洋牧场是否满足气象灾害、水文灾害或地质灾害发生的预警条件,若满足,则灾害判断模块判断海洋牧场处于气象灾害、水文灾害或地质灾害状态中。
气象灾害、水文灾害和地质灾害中包含的各种灾害均有特定的预警条件,即国家标准对应的预警区间标准,如属于水文灾害的风暴潮,当历史牧场状态预处理数据中的超警戒潮位、风速大小和三分之一潮高H1/3均超出预警条件时,则判断海洋牧场处于风暴潮灾害中。
步骤二中,动作空间模块中包括若干预设灾后动作,每个预设灾后动作对应一个调控超出预警值的参数值时采取的元动作,超出预警值的参数值为海洋牧场的历史牧场状态数据中的其中一个参数值,即海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据等中包含的其中一个参数值,如风速、潮位等;预设灾后动作包括测量超出预警值的参数值的设备的启停时刻、启停时长、移动方向和移动速度等。
预设灾后动作需为IOT设备或数据采集设备可支持的操作,预设灾后动作同时需要综合设备操作的滞后性对整体动作效率进行衰减等。当多个参数异常时,也是判断为某一种灾害类型,单个决策步长都只从动作空间中选取一个决策动作,这个动作有一定的概率p是随机的(探索性质),剩下的概率1-p是选取当前奖励最大的动作,决策回合包括一个或多个决策步长的所有动作组成动作序列,也可以称为决策方案。
交互环境模块输出虚拟牧场海域产生的反馈结果具体为虚拟牧场海域采取预设灾后动作后的牧场状态数据。
步骤三:获取海洋牧场的实时牧场状态数据,将实时牧场状态数据输入数据处理模块进行数据预处理后获得实时牧场预处理状态数据并输入决策模块中,决策模块输出初步决策数据。
步骤三中,决策模块为深度Q网络DQN,深度Q网络DQN具体采用双记忆模型LSTM,双记忆模型LSTM包括依次连接的短期记忆网络和长期记忆网络;短期记忆网络由两个组件组成,包括一个用于学习当前任务的深度Q网络和一个只包含当前任务数据的经验重放;长期记忆网络包括两个组成部分,分别是包含了从开始到现在所有任务下学到的知识的深度Q网络以及一个用来生成表示这些强化学习任务经历的生成对抗网络。决策模块基于深度学习的Q-learning(Q学习)算法的DQN(Deep Q-learning Network,深度Q学习网络)构建,通过off-policy策略离线训练,值函数近似与神经网络构建,并采用了目标网络和经验重放的方法进行网络的训练。
步骤四:将初步决策数据输入交互环境模块中,交互环境模块输出虚拟牧场海域的预测状态值和状态变化量;将历史牧场状态预处理数据、虚拟牧场海域产生的反馈结果、预测状态值和状态变化量输入灾害判断模块中,灾害判断模块判断海洋牧场的灾害是否结束从而输出判断结果。
具体实施中,灾害判断模块将历史牧场状态预处理数据、虚拟牧场海域产生的反馈结果、预测状态值和状态变化量,结合预警条件及阈值,归纳为参数致灾关联公式,用于判断当前牧场海域和虚拟海域环境是否处于风险灾害状态中,即判断灾害是否结束;具体地,可以判断预测状态值是否仍然处于风险区间。
步骤四中,初步决策数据具体为动作空间模块中的一个或多个预设灾后动作构成的动作序列,将初步决策数据输入交互环境模块中,交互环境模块采取动作序列后输出虚拟牧场海域的预测状态值和状态变化量,虚拟牧场海域的预测状态值具体为虚拟牧场海域在采取动作序列后动作后的牧场状态数据,虚拟牧场海域的状态变化量为虚拟牧场海域在采取动作序列前后的牧场状态数据的变化量。
在实际处理中,交互环境模块中只能接收海域状态参数作为输入,故需要将初步决策数据中的动作序列转化为对上一决策阶段牧场海域状态数据的超出预警值的参数值的增减序列再输入交互环境模块中,同时需要考虑在不同的灾害场景中动作对应的参数变化率差异。
当海洋牧场发生气象灾害、水文灾害或地质灾害时,海洋牧场的实时牧场状态数据中的若干参数值超出预警值,即(微)延时数据中的若干参数值超出预警值,则需采取调控超出预警值的若干参数值的各个预设灾后动作,即构成初步决策数据;比如,在风暴潮的灾害场景中,超出预警值的参数值为风速、潮位、浪高、流速等,此时各个预设灾后动作包括测量风速的设备、测量潮位的设备、测量浪高的设备、测量流速的设备的移动方向、移动速度等,上述动作共同构成初步决策数据。
步骤四中,灾害判断模块判断海洋牧场的灾害是否结束从而输出判断结果,当虚拟牧场海域的预测状态值中的各个超出预警值的参数值均不超出预警值时,则判断海洋牧场的灾害结束,当虚拟牧场海域的预测状态值中的各个超出预警值的参数值中有一个或若干参数值仍超出预警值,则判断海洋牧场的灾害未结束。
步骤五:将灾害判断模块输出的判断结果、虚拟牧场海域的预测状态值和状态变化量输入奖励更新模块中,奖励更新模块计算当次的奖励值。
步骤五中,将灾害判断模块输出的判断结果输入奖励更新模块中,奖励更新模块计算当次的奖励值,灾害判断模块每输出一个判断结果即为消耗了一次决策步长时间,当灾害判断模块判断海洋牧场的灾害未结束时,根据当前的决策步长时间给予负反馈值,当灾害判断模块判断海洋牧场的灾害结束时,根据海洋牧场的灾害类型给予正反馈值。当训练过程中消耗的总决策步长时间超出响应时长时,则判断本次训练结束,继续在该次灾害数据上对决策模型进行训练,直至模型能够在响应时长内解除/脱离/降低风险灾害。
海洋牧场的状态变化量具体为实时牧场预处理状态数据和交互环境模块采取动作序列后的实时牧场预处理状态数据之间的变化量;海洋牧场的环境预估误差具体为虚拟牧场海域的预测状态值和交互环境模块采取动作序列后的实时牧场预处理状态数据之间的误差。
步骤六:根据实时牧场预处理状态数据对灾害判断模块输出的判断结果和虚拟牧场海域的预测状态值进行修正;将修正后的判断结果和预测状态值、初步决策数据、海洋牧场的状态变化量和环境预估误差输入参数优化模块中处理,处理的输出再输入到决策模块中进行更新优化。
在修正时,即将虚拟牧场海域的预测状态值修正为实时牧场预处理状态数据,同时确定海洋牧场的实时状态,将灾害判断模块输出的判断结果修正为海洋牧场的实时状态。
步骤七:重复步骤一至六对灾害判断模块和决策模块进行重复训练,直至奖励更新模块计算获得的奖励值收敛到最大值,停止灾害判断模块和决策模块的训练,获得训练完成的灾害判断模块和决策模块;在进行参数优化的基础上,还需要减少所需的训练回合。
步骤八:实时获取海洋牧场的牧场监测状态数据并输入数据处理模块进行数据预处理后获得牧场预处理监测状态数据,将牧场预处理监测状态数据输入训练完成的灾害判断模块,当灾害判断模块判断海洋牧场发生灾害时,将牧场预处理监测状态数据输入训练完成的决策模块中,处理后输出监测决策数据,根据监测决策数据对发生灾害的海洋牧场进行决策。
本发明的具体实施例如下:
在实际应用过程中,可根据实地近岸设备回传的实时数据,对算法模型中的相关参数进行具体调整优化,具体步骤包括:获取多组牧场实时状态数据;将每一组牧场实时状态数据输入至上述已经训练好的算法模型中,结合决策后实时状态数据的变动,获得实际收敛的速度,从而进一步更新所述算法模型的相关参数。
由于海域环境本身满足复杂性和不确定性,且海域环境参数亦不需要进行特征提取即可使用;监测设备返回的数据是时序化的,满足强化学习序列化决策的特点;同时,决策智能体(agent)获得的信息与真实决策者是完全一致的,且不需要监督,意味着agent可能做出的最终决策会优于人工决策者。
如图2所示,基于强化学习的相关特点,结合海洋牧场可能存在的灾害类型(即气象灾害、水文灾害、地质灾害等三个维度),将水下智能体(underwater-agent)的实时或微延时状态、动作、衰退系数、起始及终止状态、奖励、状态转移概率矩阵等进行充分自定义,建模成由一个四元组<S,A,R,T>表示的马尔科夫决策过程。四元组<S,A,R,T>中各自指代的含义为:S—State,环境当前状态;A—Actor(or Agent),智能体;R—Reward,决策后反馈的收益;T—Trajectory,一次决策过程(轨迹)。
构建牧场灾害决策模型,首先需要将海域环境作为Agent与之交互的环境,当环境并不是全部知晓而是部分可观测时,将观测到的环境作为输入状态。其后,对所有真实决策者可采取的操作进行统计,譬如相关设备的启停或其他操作,以作为动作集合(Action)。在Agent内部的策略函数、动作价值函数等设计实现后,对其进行训练。一次决策过程(Episode)的结束标志为灾害解除(即各项指标回归正常值)或超出决策时间上限,Agent做出的动作如果使异常参数向正常值回归,则得到的奖励值(Reward)为正(Positive);如果灾害加剧,则为负(Negative)。重复训练过程,直至Agent有较为稳定的表现。
上述过程总结如下:
1.Agent:模型主体;
2.Environment:虚拟海域环境;
3.Action:动作集合,如相关设备的启停;
4.Trajectory(Episode):一次采样(即一次决策)。
结束标志有两种:
1)灾害解除(各项指标回归正常值);
2)超出决策时间上限;
5.Reward:动作带来的收益值
对Agent做出的动作进行评价:
1)正值positive:异常参数向正常值回归;
2)0或负值negative:无变化或异常加剧;
S1:状态(state)
S101:海域状态转移矩阵
设牧场海域状态的历史为ht={s1,s2|,s3,...,st}(ht包含牧场海域之前所有状态),s1、s2、s3,...,st分别表示牧场海域在当前时刻的前1、2、3…t时刻的状态。
如果一个海域环境状态转移是符合马尔可夫的,那就是说一个牧场海域状态的下一个状态只取决于它当前状态,而与其当前状态之前的状态都无关,即满足如下条件:
p(st+1|st)=p(st+1|ht)
P(st+1|st,at)=P(st+1|ht,at)
其中,p()表示牧场海域的状态转移概率;st+1表示牧场海域在当前时刻的前t+1时刻的状态;ht表示牧场海域t时刻之前的所有历史状态;at表示在t时刻选取的动作。
但是多数情况下囿于设备或海况,海域环境中的某些参量是不可观测的,但仍可将该部分观测问题进行转换从而满足MDP过程。用海域的状态转移矩阵(State TransitionMatrix)P来描述海域的状态转移概率o(st+1=s′|st=s):
Figure BDA0003929949670000111
其中,s′表示牧场海域的下一时刻的状态;sN表示牧场海域在当前时刻的前N时刻的状态。
本实施例中当海域范围较小、采集设备较少,获取的数据量经过均值及采样等处理后也较小时,可以将牧场海域历史状态数据作为贝尔曼方程中的当前状态,把当前状态与未来状态的迭代关系转化为值函数关系,通过将所有状态的值函数联立方程组从而计算出每一个状态的值函数。此方法可以越过建立和应用海域模型的步骤S103。
Figure BDA0003929949670000121
其中,V()表示状态价值函数;R()表示奖励函数;γ表示折扣因子。
S102:状态空间
本实施例的应用场景可以是任一海洋牧场风险灾害场景,如台风浪、风暴潮等。如当应用场景为风暴潮场景,那么当前状态数据可以是当前时刻的流速数据(包括层数、深度、流速原始数据、x方向流速,y方向流速,z方向流速,合成流速,合成流速方向等)、和生态模拟预报数据(包括时间、经度、纬度、深度、水位、盐度、水温、东向流速、北向流速),其获取方式可以是传感器回传或生态数值模型模拟。本实施例对应用场景以及获取数据的方式不做限定,具体实施时可以根据场景需要构建。
S103:交互环境
海洋牧场中投放的设备类型主要分为三类,即养殖设备、监测设备、IOT设备等,其中养殖设备占比最多,在多数牧场中占比超过百分之九十。
而在边界划分中,设备密度对于模型预测评估当前水域的参数变化趋势有极大的影响。从水平和垂直两个方向上来划分,水平方向上按密度从大到小可应用三类边界条件:封闭湖泊水域条件、半封闭海域条件、开阔海域条件;垂直方向上,根据投放的养殖设备类型、养殖生物种类进行合理分层,单层养殖设备则无需进行垂向边界划分,多层则需要按水空接触面、浅水、深海分为三层。交互环境模块的建立基于普林斯顿海洋模型(POM,Princeton Ocean Model)中的半封闭海区和开阔大洋参数预测部分。
本实施例中,交互环境的构建流程过程如图3所示。根据牧场规划方案(包括养殖类型、养殖面积、适宜环境参数区间),设定驱动因子参数,结合牧场历史数据一并进行采样,输入基于ANN(人工神经网络)模型构建的神经网络中,输出该片海域用地概率,作为总概率的一部分;总概率中的另一部分由转移矩阵、邻域、自适应惯性的乘积构成;定义随机种子,进行轮盘选择,输出模拟结果,通过基于马尔可夫预测链的价值判定,当该模拟结果符合要求时输出结果,否则调整自适应惯性比例,直至结果符合要求。
S2:决策体(Agent/Actor)
决策模块为深度Q网络DQN,深度Q网络DQN具体采用双记忆模型LSTM,双记忆模型LSTM包括依次连接的短期记忆网络和长期记忆网络;短期记忆网络由两个组件组成,包括一个用于学习当前任务的深度Q网络和一个只包含当前任务数据的经验重放;长期记忆网络包括两个组成部分,分别是包含了从开始到现在所有任务下学到的知识的深度Q网络以及一个用来生成表示这些强化学习任务经历的生成对抗网络。决策模块基于深度学习的Q-learning(Q学习)算法的DQN(Deep Q-learning Network,深度Q学习网络)构建,通过off-policy策略离线训练,值函数近似与神经网络构建,并采用了目标网络和经验重放的方法进行网络的训练。
S3:奖励(Reward)
S301:奖励函数
在决策过程中对agent行为最为关键的是奖励函数R。奖励函数R是一个期望,当到达某一个状态的时候,可获得对应的奖励,其中对未来状态获得的奖励一般要乘以折扣因子γ。
Gt=Rt+1+γRt+22Rt+33Rt+4++γT-t-1RT
其中,Gt表示t时刻的总奖励值;Rt+1、Rt+2、Rt+3、Rt+4...RT分别表示t+1、t+2、t+3…T时刻的奖励函数。
由于模拟环境仍然无法做到与实际环境完全一致,那么决策过程中对未来状态的评估就存在不确定性。同时,为了使得agent能够尽可能快地获得奖励,而不是在未来某一个点得到奖励,折扣因子会将未来状态获得的奖励进行衰减,向agent表明当前所获得的奖励更为重要。
本实施例中的折扣因子γ的取值为0.95,实际取值可以根据具体灾害应用场景的需要,进行调整。特别的,当γ取值为1时,表明对未来的奖励没有折扣,未来获得的奖励跟当前获得的奖励同等重要;γ取值为0时,表示只考虑即时奖励,未来奖励完全忽略。
Figure BDA0003929949670000131
在确定了基于马尔可夫链的牧场海域状态转移矩阵后,对该链进行采样可得到一串的轨迹。奖励过程可理解为马尔可夫链与奖励函数R的叠加:
Figure BDA0003929949670000141
其中,Vt()表示t时刻的状态价值函数;
Figure BDA0003929949670000142
表示期望;s表示牧场海域的当前状态。
具体计算状态价值函数Vπ(s)的计算需要通过贝尔曼方程进行:
Figure BDA0003929949670000143
其中,S表示牧场海域的下一时刻的状态的集合。
而评估状态价值函数有两种不同的做法,一是基于蒙特卡洛采样(MC-based)的方法,二是基于时序差分(TD-based)的方法。在蒙特卡罗采样的思想中,当得到一个MRP过后,即可从某一状态开始,采样多个轨迹,并对每个轨迹可获得的折扣后奖励g进行计算,从而得到总奖励Gt,通过除以轨迹数进行价值近似,可以得到该状态的价值。
S302:特殊奖励值
在本实施例中,优化目标为在最短时间内解除当前的风险灾害状态、或脱离当前的风险灾害环境,那么奖励函数可以设置为每过一个决策时间步长,无论是否作出决策,给予一个固定负值作为惩罚,并可以根据实际目标自行设定,如奖励函数可以由致灾类型、致灾因子偏离值、决策反馈等权重等效构成。
本实施例中,以风暴潮灾害场景为例,特殊奖励值设定如下表1所示,根据灾害所处等级范围,每持续一个决策步长,奖励值进行对应更新。
表1.实施例中风暴潮灾害场景下的奖励值设定
Figure BDA0003929949670000144
Figure BDA0003929949670000151
S4:单个决策回合(Trajectory/Episode)及重复训练
S401:一般训练步骤
如图4所示,通过python脚本监测和抓取海洋牧场的历史牧场状态数据并输入数据处理模块进行数据预处理后获得历史牧场预处理状态数据,具体为将历史牧场状态数据分别输入数据处理模块中依次进行缺值补充、随机采样和序列化处理,具体实施中,对存在空缺的数据进行缺值补充;还需要将每一组牧场状态数据根据深度取值,小型数据集采用垂向平均处理,大型数据集采用VAE模型进行数据压缩处理,处理后的输出共同构建为历史牧场预处理状态数据,并存入MongoDB数据库中。
将历史牧场预处理状态数据以时间序列次序输入海域生态模拟评估模型的交互环境模型中,进行动态评估,限定决策时间步长为数据更新时间的1/1000(灾害发生期间时,数据更新时间间隔为5分钟,其他情况下为1小时)。设置初始奖励为0,每过一个决策时间步长若灾害仍为结束则奖励值reward-1;对历史状态数据中的异常数值进行调整,动作空间(增减值)为连续(值域需按照参数变化曲线计算,即按照海域水动力参数变化规律计算),主要包括利用已投放的水下设备,对可监测调整的海域参数进行调控;将动作输入交互环境模型中,更新预测数据,将预测数据输入灾害判断模块中,计算判断当前风险灾害是否解除;若有(因硬件原因)延迟传入的实时数据,可用于修正模型中输出的预测数据,更新灾害状态(state);风险灾害解除时奖励值reward+500(可用于调参);重复训练,直至奖励值reward收敛至最大值;在实况条件下,将实时数据采样序列化后,输入训练好的算法模型中,同时采集实际海域环境中的决策反馈,调整更新参数,并验证算法模型的正确性;重复实验,进行策略优化。
在训练时,可以将牧场历史状态数据中的状态数据和决策策略作为BNN贝叶斯神经网络的输入,将状态变化量和奖励值作为BNN贝叶斯神经网络的输出,迭代训练BNN贝叶斯神经网络,其中状态变化量表示下一状态数据与上一状态数据的差值,此设计直接影响贝叶斯训练需要的数据量及效果,因为如果输出的是下一状态数据,相当于贝叶斯训练学习的是从一个状态到另一个状态的完整映射,需要的数据量要远大于去训练学习状态变化量。通过用少量的历史数据可以训练得到贝叶斯神经网络,根据贝叶斯神经网络为整个牧场海域环境进行虚拟环境构建,从而为强化学习模型提供更多可学习的训练数据。
为了解决少部分灾害场景中,深度Q网络可能不收敛的问题,同时考虑到实际海域回传的实时数据原本就具有延迟属性,本实施例采用延迟更新参数的fixed Q-targets方法,使得DQN拥有预测网络(Predict Q Network)和目标网络(Target Q Network)等两个网络。预测网络用来预测当前状态对应各个动作的Q值,目标网络用来预测下一个,或者下第几个状态各个动作的Q值。预测网络中的参数实时更新,目标网络根据预测网络中的参数更新结果判断是否进行更新,从而排除灾害场景中由于环境参数异常、致灾原因复杂等造成的反向干扰。
S402-S403:特殊场景训练和实时决策场景训练
由于本实施例所采用的是off-policy的离线训练方式,同时结合经验重放方法,缓存每一步状态、动作、奖励、下一状态元组,在一回合结束后批量训练多次,提高了DQN的训练速度和稳定性,具体实现:维护一个指定大小的缓存数组,每回合用新产生的N个状态、动作、奖励、下一状态元组随机替换掉缓存池中现有的N个,然后再回合结束后做数次训练。
本实施例中的一种基于强化学习的海洋牧场灾害决策算法模型采用的是off-policy的离线训练方式,即已根据上述实时方法完成了可供实时使用的算法模型。在实际场景中正式使用时,可以直接通过输入当前状态数据得到较为准确的决策数据。当决策场景类型为风暴潮灾害时,根据上述实施例中的强化学习方法已经线下训练好了强化学习模型,实际需要实时决策时,只需输入当前状态数据,即可得到满足优化目标的决策数据。训练好的算法模型决策目标是在最短时间内解除当前的风险灾害状态、或脱离当前的风险灾害环境,那么决策数据则会指导如何决策从而实现这一目标。
每轮训练时,生成对抗网络被重新训练以能够产生同时代表先前生成对抗网络和当前任务经验的样本。与短期深度Q网络相同,其训练方法和损失函数只要遵循标准生成对抗网络即可。实际应用的决策模型构建需要基于前缀课题的相关研究,譬如确定致灾因子、监测设备具体操作,以构建训练集、动作集合等。实际训练过程中,结合前缀课题所构建的海域生态数值模型作为虚拟海域环境,模型的训练速度和决策效果都能有较大的提升。
强化学习作为机器学习的范式和方法论之一,其基本思想是通过施加动作来影响环境状态,以及感知环境对动作的响应来学习完成目标的最优策略。强化学习的任务是学习如何把当前的环境状态映射成动作,以使得收益信号最大化。智能体、环境、策略、收益信号、价值函数以及环境模型构成了强化学习的基本要素。本发明提供的一种基于强化学习的牧场灾害决策方法,实现智能体能够自主判断在已有各项牧场海域监测指标的历史数据和微延时传入的实时数据时,应当如何调控以解决当前问题,最终实现自学习的目的。
本发明结合以冗杂海洋牧场历史状态数据构建的交互环境模型,通过致灾因子关联分析及灾害分级体系计算动作反馈,确定动作空间及对应实施策略,实现对海洋牧场所涉及风险灾害的实时决策及策略评估。为后期科学研究、牧场布局优化、牧场灾害应对体系构建提供基础,推动海洋牧场的可持续发展。

Claims (10)

1.一种基于强化学习的海洋牧场灾害决策方法,其特征在于:方法包括如下步骤:
步骤一:获取当前时刻前的海洋牧场的历史牧场状态数据,将历史牧场状态数据输入数据处理模块进行数据预处理后获得历史牧场预处理状态数据;将历史牧场状态预处理数据输入交互环境模块中,在交互环境模块中构建海洋牧场的虚拟牧场海域;
步骤二:将历史牧场状态预处理数据输入灾害判断模块中,灾害判断模块判断海洋牧场是否发生灾害,当海洋牧场发生灾害时,通过动作空间模块将一个预设灾后动作输入交互环境模块中对虚拟牧场海域采取预设灾后动作,交互环境模块输出虚拟牧场海域产生的反馈结果;
步骤三:获取海洋牧场的实时牧场状态数据,将实时牧场状态数据输入数据处理模块进行数据预处理后获得实时牧场预处理状态数据并输入决策模块中,决策模块输出初步决策数据;
步骤四:将初步决策数据输入交互环境模块中,交互环境模块输出虚拟牧场海域的预测状态值和状态变化量;将历史牧场状态预处理数据、虚拟牧场海域产生的反馈结果、预测状态值和状态变化量输入灾害判断模块中,灾害判断模块判断海洋牧场的灾害是否结束从而输出判断结果;
步骤五:将灾害判断模块输出的判断结果、虚拟牧场海域的预测状态值和状态变化量输入奖励更新模块中,奖励更新模块计算当次的奖励值;
步骤六:根据实时牧场预处理状态数据对灾害判断模块输出的判断结果和虚拟牧场海域的预测状态值进行修正;将修正后的判断结果和预测状态值、初步决策数据、海洋牧场的状态变化量和环境预估误差输入参数优化模块中处理,处理的输出再输入到决策模块中进行更新优化;
步骤七:重复步骤一至六对灾害判断模块和决策模块进行重复训练,直至奖励更新模块计算获得的奖励值收敛到最大值,停止灾害判断模块和决策模块的训练,获得训练完成的灾害判断模块和决策模块;
步骤八:实时获取海洋牧场的牧场监测状态数据并输入数据处理模块进行数据预处理后获得牧场预处理监测状态数据,将牧场预处理监测状态数据输入训练完成的灾害判断模块,当灾害判断模块判断海洋牧场发生灾害时,将牧场预处理监测状态数据输入训练完成的决策模块中,处理后输出监测决策数据,根据监测决策数据对发生灾害的海洋牧场进行决策。
2.根据权利要求1所述的一种基于强化学习的海洋牧场灾害决策方法,其特征在于:所述的海洋牧场的历史牧场状态数据和实时牧场状态数据均包括海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据;
将历史牧场状态数据输入数据处理模块进行数据预处理后获得历史牧场预处理状态数据,具体为将历史牧场状态数据中的海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据分别输入数据处理模块中依次进行缺值补充、随机采样和序列化处理,处理后的输出共同构建为历史牧场预处理状态数据。
3.根据权利要求1所述的一种基于强化学习的海洋牧场灾害决策方法,其特征在于:所述的步骤一中,将历史牧场状态预处理数据输入交互环境模块中,交互环境模块构建海洋牧场的虚拟牧场海域,具体为交互环境模块根据历史牧场状态预处理数据、海洋牧场汇中的各个设备的投放布局结构以及海洋牧场所在的海域的二维浅水方程和嵌入式二阶矩湍流闭合子模型进而构建虚拟牧场海域。
4.根据权利要求1所述的一种基于强化学习的海洋牧场灾害决策方法,其特征在于:所述的步骤二中,海洋牧场发生的灾害具体包括气象灾害、水文灾害和地质灾害,将历史牧场状态预处理数据输入灾害判断模块中,灾害判断模块判断海洋牧场是否发生灾害,具体为灾害判断模块根据海洋牧场的历史牧场状态预处理数据判断海洋牧场是否满足气象灾害、水文灾害或地质灾害发生的预警条件,若满足,则灾害判断模块判断海洋牧场处于气象灾害、水文灾害或地质灾害状态中。
5.根据权利要求4所述的一种基于强化学习的海洋牧场灾害决策方法,其特征在于:所述的步骤二中,动作空间模块中包括若干预设灾后动作,每个预设灾后动作对应一个调控超出预警值的参数值时采取的元动作,超出预警值的参数值为海洋牧场的历史牧场状态数据中的其中一个参数值,即海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据中包含的其中一个参数值;预设灾后动作包括测量超出预警值的参数值的设备的启停时刻、启停时长、移动方向和移动速度;
所述的交互环境模块输出虚拟牧场海域产生的反馈结果具体为虚拟牧场海域采取预设灾后动作后的牧场状态数据。
6.根据权利要求1所述的一种基于强化学习的海洋牧场灾害决策方法,其特征在于:所述的步骤三中,决策模块为深度Q网络DQN,深度Q网络DQN具体采用双记忆模型LSTM,双记忆模型LSTM包括依次连接的短期记忆网络和长期记忆网络。
7.根据权利要求1所述的一种基于强化学习的海洋牧场灾害决策方法,其特征在于:所述的步骤四中,初步决策数据具体为动作空间模块中的一个或多个预设灾后动作构成的动作序列,将初步决策数据输入交互环境模块中,交互环境模块采取动作序列后输出虚拟牧场海域的预测状态值和状态变化量,虚拟牧场海域的预测状态值具体为虚拟牧场海域在采取动作序列后动作后的牧场状态数据,虚拟牧场海域的状态变化量为虚拟牧场海域在采取动作序列前后的牧场状态数据的变化量。
8.根据权利要求4所述的一种基于强化学习的海洋牧场灾害决策方法,其特征在于:所述的步骤四中,灾害判断模块判断海洋牧场的灾害是否结束从而输出判断结果,当虚拟牧场海域的预测状态值中的各个超出预警值的参数值均不超出预警值时,则判断海洋牧场的灾害结束,当虚拟牧场海域的预测状态值中的各个超出预警值的参数值中有一个或若干参数值仍超出预警值,则判断海洋牧场的灾害未结束。
9.根据权利要求1所述的一种基于强化学习的海洋牧场灾害决策方法,其特征在于:所述的步骤五中,将灾害判断模块输出的判断结果输入奖励更新模块中,奖励更新模块计算当次的奖励值,灾害判断模块每输出一个判断结果即为消耗了一次决策步长时间,当灾害判断模块判断海洋牧场的灾害未结束时,根据当前的决策步长时间给予负反馈值,当灾害判断模块判断海洋牧场的灾害结束时,根据海洋牧场的灾害类型给予正反馈值。
10.根据权利要求7所述的一种基于强化学习的海洋牧场灾害决策方法,其特征在于:所述的海洋牧场的状态变化量具体为实时牧场预处理状态数据和交互环境模块采取动作序列后的实时牧场预处理状态数据之间的变化量;海洋牧场的环境预估误差具体为虚拟牧场海域的预测状态值和交互环境模块采取动作序列后的实时牧场预处理状态数据之间的误差。
CN202211386315.5A 2022-11-07 2022-11-07 一种基于强化学习的海洋牧场灾害决策方法 Pending CN115587713A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211386315.5A CN115587713A (zh) 2022-11-07 2022-11-07 一种基于强化学习的海洋牧场灾害决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211386315.5A CN115587713A (zh) 2022-11-07 2022-11-07 一种基于强化学习的海洋牧场灾害决策方法

Publications (1)

Publication Number Publication Date
CN115587713A true CN115587713A (zh) 2023-01-10

Family

ID=84782691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211386315.5A Pending CN115587713A (zh) 2022-11-07 2022-11-07 一种基于强化学习的海洋牧场灾害决策方法

Country Status (1)

Country Link
CN (1) CN115587713A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795401A (zh) * 2023-02-08 2023-03-14 青岛海洋地质研究所 海洋牧场全要素监测传感器多数据融合***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795401A (zh) * 2023-02-08 2023-03-14 青岛海洋地质研究所 海洋牧场全要素监测传感器多数据融合***
CN115795401B (zh) * 2023-02-08 2023-04-21 青岛海洋地质研究所 海洋牧场全要素监测传感器多数据融合***

Similar Documents

Publication Publication Date Title
CN112561148B (zh) 基于一维卷积神经网络和lstm的船舶轨迹预测方法及***
Zhang et al. Short-term rainfall forecasting using multi-layer perceptron
CN114626512B (zh) 一种基于有向图神经网络的高温灾害预报方法
CN111767517B (zh) 一种应用于洪水预测的BiGRU多步预测方法、***及存储介质
CN112116080A (zh) 一种融合了注意力机制的cnn-gru水质预测方法
CN109002888B (zh) 一种赤潮预警方法
CN112884056A (zh) 基于优化的lstm神经网络的污水水质预测方法
CN110299008B (zh) 一种基于强化学习的交通流多步预测方法
CN113176776A (zh) 基于深度强化学习的无人艇天气自适应避障方法
CN109146162A (zh) 一种基于集成循环神经网络的概率风速预测方法
AU2021106540A4 (en) Prediction method and system for river algal blooms
CN113705922B (zh) 一种改进的超短期风电功率预测算法及模型建立方法
CN113301127B (zh) 一种牲畜饲料检测***
CN115587713A (zh) 一种基于强化学习的海洋牧场灾害决策方法
CN114572229B (zh) 一种基于图神经网络的车速预测方法、装置、介质及设备
CN115630101A (zh) 水文参数智能化监控与水资源大数据管理***
CN116415730A (zh) 一种预测水位的融合自注意力机制时空深度学习模型
CN115206444A (zh) 基于fcm-anfis模型的最佳投药量预测方法
US11948079B2 (en) Multi-agent coordination method and apparatus
CN110532646B (zh) 基于自适应动态规划的湖库蓝藻水华预测方法
CN115800274B (zh) 一种5g配电网馈线自动化自适应方法、装置及存储介质
CN116976227A (zh) 一种基于lstm机器学习的风暴增水预报方法及***
CN116722541A (zh) 一种基于卷积神经网络的电力***负荷预测方法及装置
JPH0949884A (ja) ニューラルネットワークを用いた局地的気象予測方法
CN115296298A (zh) 一种风电场功率预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination