CN117520784A - 基于卷积注意力长短期神经网络的地下水位多步预测方法 - Google Patents

基于卷积注意力长短期神经网络的地下水位多步预测方法 Download PDF

Info

Publication number
CN117520784A
CN117520784A CN202311622198.2A CN202311622198A CN117520784A CN 117520784 A CN117520784 A CN 117520784A CN 202311622198 A CN202311622198 A CN 202311622198A CN 117520784 A CN117520784 A CN 117520784A
Authority
CN
China
Prior art keywords
data
neural network
layer
attention
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311622198.2A
Other languages
English (en)
Inventor
兰涛
张黎明
孙均雨
秦广冲
刘鑫
张法兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Shipbuilding Group International Engineering Co ltd
Qingdao University of Technology
Original Assignee
China Shipbuilding Group International Engineering Co ltd
Qingdao University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Shipbuilding Group International Engineering Co ltd, Qingdao University of Technology filed Critical China Shipbuilding Group International Engineering Co ltd
Priority to CN202311622198.2A priority Critical patent/CN117520784A/zh
Publication of CN117520784A publication Critical patent/CN117520784A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于卷积注意力长短期神经网络的地下水位多步预测方法,包括:S10,获取地下水位相关的监测数据,得到多特征监测时序数据;S20,基于多特征监测时序数据,构建多特征监测数据样本张量;S30,建立卷积注意力长短期神经网络模型;S40,基于多特征监测数据样本张量,训练卷积注意力长短期神经网络模型,获得最优模型;S50,将用于预测的监测数据代入最优模型,经模型计算输出多步预测数据。本发明可以结合卷积神经网络、注意力机制和长短期记忆神经网络,是一种混合神经网络模型,可以大大提高未来长时间地下水位的预测精度,为地下水灾害决策制定提供更可靠的数据支持。

Description

基于卷积注意力长短期神经网络的地下水位多步预测方法
技术领域
本发明涉及土木工程、水利工程灾害防治研究领域,特别是涉及一种基于深度学习进行地下水位预测的方法,具体为一种基于卷积注意力长短期神经网络的地下水位多步预测方法。
背景技术
地下水是影响地下工程安全的重要因素,地下水可能导致多种工程灾害,如:土壤液化,地下隧道、管道以及其他地下设施的沉降或进水。此外,地下水也可能诱发滑坡、塌陷等地质灾害。因此,准确预测地下水位变化能更好地预防和管理潜在的工程灾害。
传统的地下水位预测方法通常依赖于统计学模型或物理模型,这些方法在一定程度上受到数据质量和模型复杂性的限制,预测精度不能适应复杂的工程环境。
随着深度学习技术的发展,尤其是卷积神经网络(CNN)和长短期记忆网络(LSTM)等神经网络结构的兴起,已经出现了一些新的方法来解决地下水位预测问题。这些方法利用神经网络自动捕捉数据中的时序模式和特征提取,已经在一些地下水位预测任务中表现出良好的性能。
然而,地下水位数据受到气象、地质、水文等多种因素影响,水位数据具有高度的多样性和复杂性,地下水位的多步预测仍然具有挑战性。地下水位数据通常具有长期依赖性,因此需要考虑未来长时的预测,这增加了地下水位预测的难度。地下水位数据还可能受到缺失、噪声或异常值的影响,需要有效的数据处理方法。由于地下水位的准确预测对于工程安全至关重要,因此需要更有效、准确和稳定的地下水位预测方法来提高预测准确性,以满足工程灾害预防的需求。
发明内容
针对现有技术的不足,本发明建立了一种基于卷积注意力长短期神经网络的地下水位多步预测方法,这种方法可以结合卷积神经网络、注意力机制和长短期记忆神经网络,是一种混合神经网络模型,可以大大提高未来长时间地下水位的预测精度。
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种基于卷积注意力长短期神经网络的地下水位多步预测方法,包括如下步骤:S10,获取地下水位相关的监测数据,得到多特征监测时序数据;S20,基于多特征监测时序数据,构建多特征监测数据样本张量;S30,建立卷积注意力长短期神经网络模型;S40,基于多特征监测数据样本张量,训练卷积注意力长短期神经网络模型,获得最优模型;S50,将用于预测的监测数据代入最优模型,经模型计算输出多步预测数据。
作为一种较佳实施方式,步骤S10中,所述监测数据是按照时序采集的多传感器数据,包括:地下水水位高度、降雨量、温度传感器数据、当地水库排水量、当地河流水位高度。
作为一种较佳实施方式,步骤S20中,所述构建多特征监测数据样本张量包括:
S201,对多特征监测时序数据进行预处理,将空缺数据填充,并删除异常数据;
S202,将多特征监测时序数据组成多特征监测时序数据矩阵X*,其中每一行代表一个时序样本,每列代表不同的特征;
S203,将多特征监测时序数据矩阵X*的每列数据X* i进行归一化转换,得到归一化样本矩阵X;
S204,对监测时间数据进行处理,将日期转换为时间戳,并将时间戳并入归一化样本矩阵X作为矩阵的一列;
S205,将归一化样本矩阵X按照行数分为训练集、验证集和测试集;
S206,将训练集、验证集和测试集矩阵分别分割为成三个三维张量x_train、x_val、x_test,三维张量的维度分别为:批量大小、时间步、特征通道数。
作为一种较佳实施方式,在步骤S203中,利用如下公式对多特征监测时序数据矩阵X*的每列数据X* i进行归一化转换:
式中,k为每列数据的序号数,即表示多特征监测时序数据矩阵X*中第i列第k 个时序数据的数据值,是时序数据的归一函数值,也是构成所述归一化样本矩阵X的 第i列第k个时序数据,第i列数据的值域为[],即分别为多特 征监测时序数据矩阵X*中第i列数据X*i的最小值和最大值,归一化样本矩阵X中的每列数 据Xi代表一种监测数据i。
作为一种较佳实施方式,在步骤S204中,利用如下公式将日期转换为时间戳Xt,并将所述时间戳Xt并入归一化样本矩阵X中:
式中,t表示日期,Xt表示转换后的时间戳。
作为一种较佳实施方式,在步骤S30中,所述卷积注意力长短期神经网络模型包括:卷积层、多头自注意力机制层、长短期循环神经网络层、全连接层。
作为一种较佳实施方式,所述卷积层包括一维卷积层和一维最大池化层,其中:
所述一维卷积层由如下公式表示:
式中,ReLU表示修正线性单元激活函数,conv1d表示一维卷积操作,W是卷积核,b是卷积层的偏置,xcov表示三维张量;
所述一维最大池化层由如下公式表示:
式中,MaxPool1d表示一维最大池化操作,i表示池化核在输入序列上的起始位置,kernel_size表示池化核大小,xpool表示一维卷积层的输出张量。
作为一种较佳实施方式,所述多头自注意力机制层由自注意力分数层和多头注意力层构成,多头注意力层由如下公式表示:
式中,Q表示查询Query,用来计算注意力分数的表示、K表示键Key,用来与查询进行比较的表示、V表示值Value,与注意力权重相乘以产生最终输出的表示,Q、K、V通过如下自注意力分数层线性变换获得,i表示在多头自注意力机制中第i个注意力头:
式中,X为自注意力分数层输入张量、WQi、WKi、WVi为可训练的参数矩阵。
作为一种较佳实施方式,所述长短期循环神经网络层包括:遗忘门、输入门和输出门,以及细胞状态和隐藏状态;所述长短期循环神经网络层处理数据包括如下步骤:
(1),在每个时间步,根据前一个时间步的隐藏状态和当前时间步的输入,计算遗忘门、输入门和输出门的值;
(2),利用遗忘门,确定从细胞状态中被遗忘的信息;
(3),利用输入门和新候选值,更新细胞状态,将新的信息添加到细胞状态中;
(4),利用输出门,确定从细胞状态中提取的信息,生成当前时间步的隐藏状态;
(5),细胞状态和隐藏状态在下一个时间步中被传递到下一层长短期循环神经网络层或用于生成最终的输出;
(6),将长短期循环神经网络层输出数据接入全连接层,实现特征的组合和非线性变换,输出三维张量,维度分别为:批量大小、时间步、预测天数。
作为一种较佳实施方式,步骤S40中,所述训练卷积注意力长短期神经网络模型包括如下步骤:
S401,根据需求选择时间窗口大小,并进行调整和评估;
S402,使用卷积注意力长短期神经网络模型进行训练,使用训练集数据并应用反向传播算法调整模型参数以减小损失函数;
S403,采用Adam优化器以及合适的学习率进行模型的优化;
S404,对模型性能指标、损失函数和准确率进行监测,使用验证集来评估模型性能,以避免过度拟合;
S405,采用余弦退火策略对学习率进行动态调整;
S406,当在验证集上的损失值达到最低点时,保存模型参数,得到最优模型。
作为一种较佳实施方式,所述模型性能指标用均方误差SME和决定系数R2值衡量,多次训练取均方误差SME和决定系数R2最优值时的模型。
本发明相对于现有技术的有益效果是:本发明提出的基于卷积注意力长短期神经网络的地下水位多步预测方法,利用深度学习中的卷积神经网络、注意力机制对多传感器监测时序数据进行分析和特征提取,再将提取后的数据输入长短期神经网络进行模型训练,以实现地下水位的多步预测。通过一维卷积神经网络和注意力机制的结合,充分发挥两者在神经网络模型中特征提取的准确性,实现对未来长时间地下水位的准确预测。这一技术创新旨在应对地下水位监测,以及需要未来长时间预测地下水位的复杂性,可以为地下水灾害相关决策制定提供更可靠的数据支持。
本发明的思想是基于深度学习技术的地下水位多步预测方法。具体优点至少包括如下一个或多个:
(1)本发明基于改进长短期循环神经网络层LSTM模型的地下水位多步预测,可实现对未来长时间地下水位的准确预测。
(2)本发明采集物理场多个监测指标,如地下水水位高度、降雨量、温度传感器数据、当地水库排水量、当地河流水位高度等,覆盖数据全面,可应对地下水位相关数据的高度多样性和复杂性,提升模型预测的精度。
(3)本发明克服了地下水位数据可能受到缺失、噪声或异常值的影响,采取合适的均值替代方式,提升了模型预测的精度。
(4)本发明利用深度学习中的CNN、Attention和LSTM等技术对多传感器监测时序数据进行分析和特征提取,实现地下水位的多步预测。
(5)本发明通过采用一维卷积神经网络结合注意力机制的方法,提高特征提取的准确性,实现对未来多天地下水位的更准确预测。
(6)本发明旨在应对地下水位监测和预测的复杂性,预测结果可为决策制定提供更可靠的数据支持。
应当理解,本发明任一实施方式的实现并不意味要同时具备或达到上述有益效果的多个或全部。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容涵盖的范围内。
图1为本发明基于卷积注意力长短神经网络的地下水位多步预测方法的整体流程示意图;
图2为本发明长短期记忆网络(LSTM)细胞结构示意图;
图3为本发明卷积注意力长短期神经网络结构示意图;
图4为预测结果对比图,其中(a)为普通双层LSTM多步预测方法的预测结果与真实值对比,(b)为卷积注意力长短期神经网络预测方法的预测结果与真实值对比。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明实施例作进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
应当理解,术语“包括/包含”、“由……组成”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的产品、设备、过程或方法不仅包括那些要素,而且需要时还可以包括没有明确列出的其他要素,或者是还包括为这种产品、设备、过程或方法所固有的要素。在没有更多限制的情况下,由语句“包括/包含……”、“由……组成”限定的要素,并不排除在包括所述要素的产品、设备、过程或方法中还存在另外的相同要素。
还需要理解,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置、部件或结构必须具有特定的方位、以特定的方位构造或操作,不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了更好的理解上述技术方案,下面将结合附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明提供基于卷积注意力长短期神经网络的地下水位多步预测方法,参见图1所示的流程框图,包括如下步骤:S10,获取地下水位相关的监测数据,得到多特征监测时序数据;S20,基于多特征监测时序数据,构建多特征监测数据样本张量;S30,建立卷积注意力长短期神经网络模型;S40,基于多特征监测数据样本张量,训练卷积注意力长短期神经网络模型,获得最优模型;S50,将用于预测的监测数据代入最优模型,经模型计算输出多步预测数据。本发明的思想是基于深度学习技术的地下水位多步预测方法,利用深度学习中的卷积神经网络、注意力机制对多传感器时序数据进行分析和特征提取,再将提取后的数据输入长短期神经网络进行模型训练,最终实现地下水位的多步预测,为地下水灾害相关决策制定提供更可靠的数据支持。
需要说明的是,所谓多步预测,是指通过将监测数据代入最优模型,可以预测输出多天的数据。例如已知30天监测数据,通常方法使用30天数据预测第31天数据,只能预测1天的地下水位数据。而多步预测方法使用30天数据可预测31天到40天数据,相当于预测10天的地下水位数据。当然,通过本发明提供的方法也可以在监测数据复杂度低、最终预测结果准确率在要求范围内时,预测更多天的数据。
步骤S10中,获取地下水位相关的监测数据,得到多特征监测时序数据。
这里所指的地下水位相关的监测数据,为按照时序采集的多传感器数据,是指包含多个特征的数据,具体包括但不限于如下特征:地下水水位高度、降雨量、温度传感器数据、当地水库排水量、当地河流水位高度等可按照时间序列采集得数据。这些数据在日常使用监测仪器或者传感器实时记录,包括时间与具体数值两个维度,如具体日期对应的降雨量毫米数。当然,由于监测仪器或者传感器的实时记录,时间维度可以根据模型需要进行更为细小的切分,如每小时,每分钟等。
数据采集完毕后,通过地下水位相关的监测数据得到多特征监测时序数据并整理成数据库的形式待用。
步骤S20中,基于多特征监测时序数据,构建多特征监测数据样本张量。
这一步骤中,主要对多特征监测时序数据进行数据预处理与数据分割,具体包括如下子步骤:
在步骤S201中,对多特征监测时序数据进行预处理。由于数据采集过程复杂性,往往采集的多特征监测时序数据存在着缺失值、错误值、极值。错误数据进入模型会影响模型的准确性,因此在建模之前需要对错误数据进行预处理。在一些实施例中,可采取均值拟合法对错误数据进行替代或者删除错误数据。容易理解的是,均值拟合法即根据实际情况将错误数据用相关数据的均值进行替代。
在步骤S202中,将多特征监测时序数据,如地下水水位高度、降雨量、温度传感器 数据、当地水库排水量、当地河流水位高度等数据组成多特征监测时序数据矩阵X*(也即样 本数据矩阵),其中一列数据表示一个监测数据特征i,用X* i表示,表示多特征监测时序 数据矩阵X*中第i列第k个时序数据的数据值,k为每列数据的时序号数。
在步骤S203中,将多特征监测时序数据矩阵X*的每列数据X* i进行归一化转换,得到归一化样本矩阵X。由于监测时序数据特征的多样性,数据集的特征间具有不同的取值范围。因此在使用数据前,需将数据归一化转化为无量纲的纯量,使不同特征具有相同的度量尺度,同时还可以消除错误数据导致的不良影响,方便进行后续模型训练与预测。
在一些实施例中,利用如下公式对多特征监测时序数据矩阵X*的每列数据X* i进行归一化处理:
式中,k为每列数据的序号数,即表示多特征监测时序数据矩阵X*中第i列第k 个时序数据的数据值;是时序数据的归一函数值,也是构成所述归一化样本矩阵的 第i列第k个时序数据,第i列数据的值域为[],即分别为多特 征监测时序数据矩阵X*中第i列数据X*i的最小值和最大值,归一化样本矩阵X中的每列数 据Xi代表一种监测数据i。
归一化转换作为数据预处理的一步,将多特征监测时序数据区间转换为[0,1],从而更好地适应深度学习模型的训练,加快收敛速度。当样本数据的评价标准不一样时,需要对其量纲化,归一化可以消除量纲对评价结果的影响,使不同指标之间具有可比性。
通过上述归一化处理后,每个特征数据序列都转化为相同的度量尺度,且将数据序列全部映射到[0,1],方便后期的模型计算。
在步骤S204中,对监测时间数据进行处理,将日期转换为时间戳。
在一些实施例中,利用如下公式进行转换:
式中,t表示日期,Xt表示转换后的时间戳,并将得到的Xt并入归一化样本矩阵X中,作为样本矩阵X的一列,方便在建模过程中调用数据。
以1月10日为例,当t=10,Xt为0.59。通过时间戳转换,将日期数据同样映射到[0,1],方便后期的模型计算。
需要说明的是,这里的监测时间数据指的是日期数据列。例如,1月1日至1月31日的连续日期数据列,共31行,每一行为其中的一天,按照日期顺序排列。
通过利用公式将日期映射到0到1之间的范围,作为一个周期特征,有利于捕捉地下水位的季节性趋势。进一步的,正弦函数可以使转换后的结果更加平滑。
在步骤S205中,将归一化样本矩阵X按照行数分为训练集、验证集和测试集,其中70%数据作为训练集数据,10%数据作为验证集数据,20%数据作为测试集数据。在机器学习中,训练集、验证集、测试集是数据集的三个重要部分,用于训练、评估和测试机器学习模型的性能。
训练集是机器学习模型用于训练和学习的数据集,用于训练模型的参数。验证集是用于评估模型性能的数据集,用于在训练过程中调整模型的参数,提高模型的性能,避免模型过拟合或者欠拟合。测试集是用于评价模型最终性能的数据集,与训练集和验证集互不重叠,判断模型是否准确。一般来说,训练集比例较大,通常占总数据集60%-80%,验证集或测试集的比例较小,通常占总数据集的10%-20%。
在步骤S206中,将训练集、验证集、测试集矩阵分别分割为成三个三维张量x_train,x_val,x_test作为神经网络模型的输入张量,维度分别为:批量大小、时间步、特征通道数,此三个维度是CNN、LSTM等模型的输入维度,将数据分割为这三个维度以便于输入进神经网络进行训练。在一些实施例中,批量大小根据训练神经网络模型所用计算机显存大小设定,一般为32。时间步自定义设置最优即可,如使用时间步为10。特征通道数与多特征监测时序数据归一化样本矩阵X特征数量一致,如五个数据特征则特征通道数为5。进行数据处理后的训练用数据单元x_train形式为Tensor[32,10,5]。
步骤S30中,建立卷积注意力长短期神经网络模型。参见图3,神经网络模型包括:卷积层、多头自注意力机制层、长短期循环神经网络层、全连接层。
具体的,卷积层由一维卷积层、一维最大池化层构成。
一维卷积层由下式表示:
式中,ReLU表示修正线性单元激活函数,conv1d表示一维卷积操作,W是卷积核,b是卷积层的偏置,xcov是步骤S206构造的三维张量。
一维最大池化层由下式表示:
式中,MaxPool1d表示一维最大池化操作,i表示池化核在输入序列上的起始位置,kernel_size表示池化核大小,xpool表示一维卷积层(上一层神经网络层)的输出张量。
通过一维最大池化层在输入序列的每个位置i处,从位置i到i+kernel_size的子序列中选择最大值作为输出。这样可以有效地减小输入序列的长度,保留了最重要的特征。
卷积层通过一维卷积操作和池化操作实现以下关键功能:从输入数据中捕捉局部特征,有助于识别数据中的模式、结构和关联信息;减小数据规模,减少网络参数和计算量,从而减轻过拟合问题;通过权值共享机制实现平移不变性,即在不同位置检测相同的特征,提高了网络对输入数据位置变化的鲁棒性。
具体的,多头自注意力机制层由自注意力分数层和多头注意力层构成,多头注意力层由如下公式表示:
具体的,多头注意力层由下式表示:
式中,Q表示查询(Query),它是用来计算注意力分数的表示,查询表示了你关注的内容。K表示键(Key),它是用来与查询进行比较的表示,键表示了输入中的信息。V表示值(Value),它是与注意力权重相乘以产生最终输出的表示,值表示了希望输出的内容。Q、K、V通过如下自注意力分数层线性变换来获得,i表示在多头自注意力机制中第i个注意力头:
式中,X为自注意力分数层输入张量、WQi、WKi、WVi为可训练的参数矩阵。
是归一化因子,用于缩放,以确保它们在合适的范围内,有助于模型的训 练和稳定性。
注意力机制通常运用于自然语言处理和机器翻译,同时注意力机制在时序数据预测中的效果也非常突出,其核心功能包括优化模型对不同时间步的输入特征的关注,实现了动态分配权重,使模型能够更加专注于与当前任务相关的信息,有利于解决时序数据中的长期依赖关系,克服了传统的RNN可能面临的梯度问题。此外,注意力机制提供了模型决策的解释性,使网络能够明晰了解哪些信息对特定预测至关重要。注意力机制还有助于融合多模态数据,从而根据任务需求有效整合不同数据源。
具体的,长短期循环神经网络层(LSTM)是一种常用于处理序列数据的循环神经网络(RNN)变体,能够有效地解决长序列问题,用于解决梯度消失和梯度***等问题,LSTM神经元细胞结构参见图2。
图2中,Xt 表示当前时间步(t)的输入,ht表示当前时间步(t)的隐藏状态,σ表示Sigmoid函数,tanh为正切函数,作用是将输入值映射到范围在-1到1之间,X表示逐元素的相乘操作。
在LSTM中,有三个门:遗忘门、输入门和输出门,LSTM结构中的门控机制,可以更好地控制信息的流动,有效地避免了无关信息的干扰和梯度消失问题。此外,LSTM还有细胞状态和隐藏状态,LSTM的工作流程如下:
(1),在每个时间步,根据前一个时间步的隐藏状态和当前时间步的输入,计算遗忘门、输入门和输出门的值;
(2),利用遗忘门,确定从细胞状态中被遗忘的信息;
(3),利用输入门和新候选值,更新细胞状态,将新的信息添加到细胞状态中;
(4),利用输出门,确定从细胞状态中提取的信息,生成当前时间步的隐藏状态;
(5),细胞状态和隐藏状态在下一个时间步中被传递到下一层LSTM或用于生成最终的输出;
(6),将LSTM输出数据接入全连接层,实现特征的组合和非线性变换。
全连接层(Fully Connected Layer)是神经网络中的一种基本层,也称为密集层或多层感知器层。它的主要作用是将神经网络的前一层的所有神经元与当前层的每一个神经元进行连接,从而实现特征的组合和非线性变换。
最终神经网络模型的输出结果为三维张量,维度分别为:批量大小、时间步、预测天数,维度为[32,10,30]。
步骤S40中,基于多特征监测数据样本张量,训练卷积注意力长短期神经网络模型,获得最优模型。在这个步骤中,需对已建立的模型进行训练,利用多特征监测数据样本张量进行模型训练,监测模型性能指标、损失函数和准确率。使用验证集和早停法(EarlyStopping)来评估模型性能,以避免过拟合。
在进行超参数设置时,需关注以下超参数:时间窗口大小、批量大小、特征数量、LSTM隐层层数、预测天数、学习率以及早停法中的耐心值。其中,时间窗口的具体尺寸应根据问题需求进行选择,并需要进行调整和评估;耐心值是在模型训练过程中用于监控验证集损失函数值连续不下降的轮数。当验证集损失连续不下降的轮数超过耐心值时,训练过程会被终止。设定耐心值有助于在模型达到最佳性能时停止训练,以避免过拟合并节省计算资源。
步骤S40具体包括如下子步骤:
在步骤S401中,时间窗口的具体尺寸应根据问题需求进行选择,即根据需求选择时间窗口大小,并进行调整和评估;
在步骤S402中,对多特征监测时序数据经过预处理后,使用Attention-LSTM模型进行训练。使用训练集数据,应用反向传播算法进行模型训练。反向传播法算法简称BP算法,适合于多层神经元网络的一种学习算法,它建立在梯度下降法的基础上,它的信息处理能力来源于简单非线性函数的多次复合,因此具有很强的函数复现能力。
不断调整模型参数,减小损失函数。损失函数用来估量模型的预测值与真实值的偏离程度,一般情况下越小越好,在这个步骤中需要调整模型参数以不断减小损失函数。
在步骤S403中,采用Adam优化器以及合适的学习率进行模型的优化。Adam优化器是一种自适应优化算法,可以根据历史梯度信息来调整学习率。在实际使用过程中,可根据数据规模和数据复杂程度调整学习率,最优范围一般在[0.0001,0.01]。
在步骤S404中,对模型性能指标、损失函数和准确率进行监测,使用验证集来评估模型性能,以避免过度拟合。模型性能用均方误差SME和决定系数R2值衡量,多次训练取SME和决定系数R2最优值时的模型。损失函数就是用来度量模型的预测值与真实值的差异程度的运算函数,它是一个非负实值函数,损失函数越小,模型的鲁棒性就越好。在调参过程中,通过最小化损失函数求解和评估模型。模型的准确率是指对于给定的测试集,模型中所有预测正确的样本数/总观测样本数,在调参过程中,应尽可能不断提升模型的准确率。
在步骤S405中,采用余弦退火策略对学***滑动态调整,有效避免局部最优,可以自适应学习率调整,简化模型训练的流程。
在步骤S406中,当在验证集上的损失函数值达到最低点时,保存模型参数,得到最优模型。
通过上述步骤的执行,获取到最优预测模型,用来对地下水位进行预测。
步骤S50中,将用于预测的监测数据代入最优模型,经模型计算输出多步预测数据。
进行地下水位预测时,输入数据与训练模型输入数据结构一致,输入三维张量,张量维度为批量大小,时间步,特征通道数。预测输出结果为三维张量,张量维度为批量大小、时间步、预测天数。
本发明为基于改进卷积注意力长短期神经网络模型LSTM模型的地下水位多步预测。利用深度学习中的CNN、Attention和LSTM等技术对多传感器时序数据进行分析和特征提取,以实现地下水位的多步预测。通过采用一维卷积神经网络结合注意力机制的方法,提高特征提取的准确性,实现对未来多天地下水位的更准确预测。这一技术创新旨在应对地下水位监测和预测的复杂性,为决策制定提供更可靠的数据支持。
参见图4,本实施例以意大利彼得里尼亚诺(Petrignano)地下水位数据为示例,示例数据特征包括意大利彼得里尼亚诺2009年到2016年地下水水位高度、降雨量、温度传感器数据、当地水库排水量、当地河流水位高度。预测时间为未来30天地下水位。
图4中,(a)为普通双层LSTM多步预测结果与真实值对比,均方误差值SME为0.367,决定系数R2为0.710;(b)为卷积注意力长短期神经网络预测结果与真实值对比,均方误差SME为0.289,决定系数R2为0.822。由此可见,通过本发明的基于卷积注意力长短期神经网络的地下水位多步预测方法,降低了预测模型的误差,提升了模型预测的准确度,实现对未来长时间地下水位的准确预测。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (11)

1.一种基于卷积注意力长短期神经网络的地下水位多步预测方法,其特征在于,包括如下步骤:
S10,获取地下水位相关的监测数据,得到多特征监测时序数据;
S20,基于多特征监测时序数据,构建多特征监测数据样本张量;
S30,建立卷积注意力长短期神经网络模型;
S40,基于多特征监测数据样本张量,训练卷积注意力长短期神经网络模型,获得最优模型;
S50,将用于预测的监测数据代入最优模型,经模型计算输出多步预测数据。
2.根据权利要求1所述的预测方法,其特征在于,步骤S10中,所述监测数据是按照时序采集的多传感器数据,包括:地下水水位高度、降雨量、温度传感器数据、当地水库排水量、当地河流水位高度。
3.根据权利要求1所述的预测方法,其特征在于,步骤S20中,所述构建多特征监测数据样本张量包括:
S201,对多特征监测时序数据进行预处理,将空缺数据填充,并删除异常数据;
S202,将多特征监测时序数据组成多特征监测时序数据矩阵X*,其中每一行代表一个时序样本,每列代表不同的特征;
S203,将多特征监测时序数据矩阵X*的每列数据X* i进行归一化转换,得到归一化样本矩阵X;
S204,对监测时间数据进行处理,将日期转换为时间戳,并将时间戳并入归一化样本矩阵X作为矩阵的一列;
S205,将归一化样本矩阵X按照行数分为训练集、验证集和测试集;
S206,将训练集、验证集和测试集矩阵分别分割为成三个三维张量x_train、x_val、x_test,三维张量的维度分别为:批量大小、时间步、特征通道数。
4.根据权利要求3所述的预测方法,其特征在于,在步骤S203中,利用如下公式对多特征监测时序数据矩阵X*的每列数据X* i进行归一化转换:
式中,k为每列数据的序号数,即表示多特征监测时序数据矩阵X*中第i列第k个时序数据的数据值,/>是时序数据/>的归一函数值,也是构成所述归一化样本矩阵X的第i列第k个时序数据,第i列数据的值域为[/>],即/>和/>分别为多特征监测时序数据矩阵X*中第i列数据X*i的最小值和最大值,归一化样本矩阵X中的每列数据Xi代表一种监测数据i。
5.根据权利要求3所述的预测方法,其特征在于,在步骤S204中,利用如下公式将日期转换为时间戳Xt,并将所述时间戳Xt并入归一化样本矩阵X中:
式中,t表示日期,Xt表示转换后的时间戳。
6.根据权利要求1所述的预测方法,其特征在于,在步骤S30中,所述卷积注意力长短期神经网络模型包括:卷积层、多头自注意力机制层、长短期循环神经网络层、全连接层。
7.根据权利要求6所述的预测方法,其特征在于,所述卷积层包括一维卷积层和一维最大池化层,其中:
所述一维卷积层由如下公式表示:
式中,ReLU表示修正线性单元激活函数,conv1d表示一维卷积操作,W是卷积核,b是卷积层的偏置,xcov表示三维张量;
所述一维最大池化层由如下公式表示:
式中,MaxPool1d表示一维最大池化操作,i表示池化核在输入序列上的起始位置,kernel_size表示池化核大小,xpool表示一维卷积层的输出张量。
8.根据权利要求6所述的预测方法,其特征在于,所述多头自注意力机制层由自注意力分数层和多头注意力层构成,多头注意力层由如下公式表示:
式中,Q表示查询Query,用来计算注意力分数的表示、K表示键Key,用来与查询进行比较的表示、V表示值Value,与注意力权重相乘以产生最终输出的表示,Q、K、V通过如下自注意力分数层线性变换获得,i表示在多头自注意力机制中第i个注意力头:
式中,X为自注意力分数层输入张量、WQi、WKi、WVi为可训练的参数矩阵。
9.根据权利要求6所述的预测方法,其特征在于,所述长短期循环神经网络层包括:遗忘门、输入门和输出门,以及细胞状态和隐藏状态;所述长短期循环神经网络层处理数据包括如下步骤:
(1),在每个时间步,根据前一个时间步的隐藏状态和当前时间步的输入,计算遗忘门、输入门和输出门的值;
(2),利用遗忘门,确定从细胞状态中被遗忘的信息;
(3),利用输入门和新候选值,更新细胞状态,将新的信息添加到细胞状态中;
(4),利用输出门,确定从细胞状态中提取的信息,生成当前时间步的隐藏状态;
(5),细胞状态和隐藏状态在下一个时间步中被传递到下一层长短期循环神经网络层或用于生成最终的输出;
(6),将长短期循环神经网络层输出数据接入全连接层,实现特征的组合和非线性变换,输出三维张量,维度分别为:批量大小、时间步、预测天数。
10.根据权利要求1所述的预测方法,其特征在于,步骤S40中,所述训练卷积注意力长短期神经网络模型包括如下步骤:
S401,根据需求选择时间窗口大小,并进行调整和评估;
S402,使用卷积注意力长短期神经网络模型进行训练,使用训练集数据并应用反向传播算法调整模型参数以减小损失函数;
S403,采用Adam优化器以及合适的学习率进行模型的优化;
S404,对模型性能指标、损失函数和准确率进行监测,使用验证集来评估模型性能,以避免过度拟合;
S405,采用余弦退火策略对学习率进行动态调整;
S406,当在验证集上的损失值达到最低点时,保存模型参数,得到最优模型。
11.根据权利要求10所述的预测方法,其特征在于,所述模型性能指标用均方误差SME和决定系数R2值衡量,多次训练取均方误差SME和决定系数R2最优值时的模型。
CN202311622198.2A 2023-11-30 2023-11-30 基于卷积注意力长短期神经网络的地下水位多步预测方法 Pending CN117520784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311622198.2A CN117520784A (zh) 2023-11-30 2023-11-30 基于卷积注意力长短期神经网络的地下水位多步预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311622198.2A CN117520784A (zh) 2023-11-30 2023-11-30 基于卷积注意力长短期神经网络的地下水位多步预测方法

Publications (1)

Publication Number Publication Date
CN117520784A true CN117520784A (zh) 2024-02-06

Family

ID=89749238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311622198.2A Pending CN117520784A (zh) 2023-11-30 2023-11-30 基于卷积注意力长短期神经网络的地下水位多步预测方法

Country Status (1)

Country Link
CN (1) CN117520784A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117744504A (zh) * 2024-02-20 2024-03-22 成都理工大学 一种泄洪雾化雨强度分析模型建立方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117744504A (zh) * 2024-02-20 2024-03-22 成都理工大学 一种泄洪雾化雨强度分析模型建立方法和装置

Similar Documents

Publication Publication Date Title
CN110263866B (zh) 一种基于深度学习的电力用户负荷区间预测方法
CN111665575B (zh) 一种基于统计动力的中长期降雨分级耦合预报方法及***
CN111401599B (zh) 一种基于相似性搜索和lstm神经网络的水位预测方法
CN112712209B (zh) 水库入库流量预测方法、装置、计算机设备及存储介质
CN115495991A (zh) 一种基于时间卷积网络的降水区间预测方法
CN114330935B (zh) 基于多种结合策略集成学习的新能源功率预测方法和***
CN117520784A (zh) 基于卷积注意力长短期神经网络的地下水位多步预测方法
CN113139329B (zh) 一种基于水文相似性和人工神经网络的新安江模型参数率定方法
CN111797917A (zh) 一种根据气象因素选取短期相似日的方法
CN116128141A (zh) 风暴潮预测方法、装置、存储介质及电子设备
CN114692993A (zh) 融合季节ARIMA和BiLSTM的水利设施形变预测方法
CN116384538A (zh) 一种流域径流预报方法、装置及存储介质
CN116050652A (zh) 基于局部注意力增强模型的径流预测方法
CN115222138A (zh) 一种基于eemd-lstm微网光伏短期功率区间预测方法
CN116738192A (zh) 一种基于数字孪生的安全数据评估方法及***
CN116777452B (zh) 智能电表的预付费***及其方法
CN113159395A (zh) 一种基于深度学习的污水处理厂进水流量预测方法及***
CN110852415B (zh) 基于神经网络算法的植被指数预测方法、***及设备
CN117520809A (zh) 一种基于EEMD-KPCA-CNN-BiLSTM的变压器故障诊断方法
CN116796189A (zh) 一种基于深度学习技术的气溶胶消光系数廓线预测方法
Lu et al. Uncertainty quantification of machine learning models to improve streamflow prediction under changing climate and environmental conditions
CN116842358A (zh) 一种基于多尺度卷积和自适应特征融合的软测量建模方法
CN116247658A (zh) 一种基于dlrm深度学习模型的光伏发电量预测方法
CN110009132A (zh) 一种基于lstm深度神经网络的短期电力负荷精细化预测方法
CN115860165A (zh) 一种考虑初损的神经网络流域降雨径流预报方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination