CN109886454B

CN109886454B - 一种基于自组织深度信念网络和相关向量机的淡水环境水华预测方法

Info

Publication number: CN109886454B
Application number: CN201910021950.5A
Authority: CN
Inventors: 乔俊飞; 王龙洋
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2021-03-02
Anticipated expiration: 2039-01-10
Also published as: CN109886454A

Abstract

本发明涉及一种基于自组织深度信念网络和相关向量机的淡水环境的水华预测方法，本发明包括以下几个步骤：1.将叶绿素a的浓度作为描述藻类水华形成的表征指标，把与叶绿素a浓度相关的风速、风向、湿度、蓝绿藻、pH值、前一时刻的叶绿素a、溶解氧、氨氮、和水体温度这9个影响因素作为预测模型的输入参数，并进行数据的预处理。2.采用自组织深度信念网络对输入样本数据进行训练，从而完成自组织网络的结构自动调整和原始数据特征的降维和提取。3.将提取的数据特征送入到相关向量机中实现藻类水华的预测。本发明解决了传统深度信念网络在水华预测时预测精度欠佳，结构冗余，容易过拟合的问题，同时使网络在精准预测的前提下实现了结构的更加紧凑。

Description

一种基于自组织深度信念网络和相关向量机的淡水环境水华预测方法

技术领域

本发明涉及淡水环境保护领域，具体而言，涉及到一种基于自组织深度信念网络和相关向量机的淡水环境水华预测方法。

背景技术

随着经济社会的高速发展，水体富营养化程度日趋严重，藻类水华现象频繁发生，水体环境生态安全遭受到了前所未有的威胁，对城市发展以及居民的日常生活产生了极大的影响。同时也严重制约了经济建设以及社会的发展，藻类水华的防治已经迫在眉睫。深入研究水华形成的机理模型，并对水华暴发这一非常规突发事件进行有效预测，对促进水环境保护和技术进步具有现实意义。

现有的藻类水华预测研究中，目前比较广泛应用的方法主要是基于数理统计分析和神经网络技术的藻类水华预测,然而现有的数理统计方法没有充分挖掘影响藻类生成影响因素间的相互作用关系，对水质监测信息的利用率不高，另外就神经网络技术而言，随着时间复杂程度增加，神经网络预测方法在网络结构选取，参数设置时随意性大，训练时间将大大增加，存在训练过度或不充分现象，往往导致模型的泛化能力较差，进而影响到藻类水华预测结果，因此考虑到现有的数理统计及人工神经网络方法存在的不足，深度学习在藻类水华上的预测应运而生，该领域的学者提出的深度信念网络藻类水华预测方法对数据信息利用率充分，而且在一定程度上取得了比前面主流方法更好的预测效果，然而其所存在的结构冗余，预测精度不甚理想，容易过拟合的问题同样不可忽略，因此解决这些问题对于藻类水华预测具有十分积极的意义。

发明内容

本发明的主要目的在于克服现有深度信念网络技术存在的不足，提供了一种基于自组织深度信念网络和相关向量机的淡水环境水华预测方法，以期能够解决深度信念网络结构冗余，容易过拟合，预测精度不佳的问题，从而在准确的实现藻类水华精准预测的基础上，达到结构更加精简紧凑的目的。

为达到上述目的，本发明所采用的技术方案为：

本发明一种基于自组织深度信念网络和相关向量机的淡水环境水华预测方法的特点是按如下步骤进行:

步骤1：综合考量将叶绿素a浓度作为作为描述水华形成的表征指标，并将与叶绿素a浓度相关的风速，风向，湿度，蓝绿藻，pH值，前一时刻的叶绿素a,溶解氧，氨氮，和水体温度这9个影响因素作为预测模型的输入。

步骤2：通过一系列传感器收集研究对象的状态数据，形成数据集。对数据集中的数据进行数据降噪、奇异点清除和归一化这一系列的预处理操作，将数据归一化到0-1之间，防止在运算中出现大数吃小数导致有效数据丢失。最后总共得到1104组数据，随机选取前百分之八十作为训练数据，剩下的百分之二十作为测试数据，进行水华预测。

步骤3：在对输入样本数据训练过程中，自组织深度信念网络通过改变隐含神经元个数来实现自身结构的自动调整，这实际上相当于增加和修剪神经元之间的连接权重。自组织深度信念网络的初始权值取(0,1)之间的随机值，且保证每次机器时钟随机给定的初始值相同，隐含层结构调整的依据依赖于隐含层神经元的尖峰强度值(尖峰强度值与突触前神经元在生物神经***中的尖峰频率相似)以及隐含层神经元的互信息值，如果某个隐藏层神经元的尖峰强度值大于等于0.7时，则该隐含神经元将被***为两个新的神经元，而如果尖峰强度值小于0.7时，该隐含神经元则会被修剪掉。同时如果两个隐含层神经元之间的互信息值大于3.25时，则说明这两个隐含层神经元有着相似的信息处理能力，则可以将这两个神经元合并为一个神经元，从而达到精简结构的目的。

自组织深度信念网络隐含层神经元的增长和删除依赖于隐藏层神经元的尖峰强度值，而隐含层神经元的合并则依赖于神经元之间的互信息值，尖峰强度值以及互信息的表达式如式(1)和式(3)所示：

其中：

是第l层第i个神经元的尖峰强度值，β取值为500，y_il是第l个隐含层第i个神经元的输出。N_l是第l个隐含层的神经元的数量，net_il是第l个隐含层第i个神经元的输入权重的和，其表达式如下：

其中p_ij是第i个神经元的第j个输入，w_ij是第j个输入神经元和第i个神经元之间的权重，q_i是第i个神经元的输入神经元的总数。

其中:I(X；Y)代表代表变量神经元输出变量X和Y的互信息，K_X和K_Y分别代表把变量X和Y的取值范围等分为宽度为Δx和Δy片段的个数，N为样本总数，

和

分别为为样本落入第k_i,k_j个片段中的个数，

为落入单元(k_i,k_j)中的样本的数量。

K_X及K_Y的表达式分别如式(4)(5)所示：

其中ε为一个定值可以根据样本总数直接计算得出，round代表最接近实变量的整数。

SI值能够反映出隐含层神经元的兴奋程度，由神经生物学可以知道，如果SI值是足够大的，神经元将会进入激活状态。然而，尽管SI值反映了隐含神经元的兴奋程度，但实际上根据神经生物学理论，神经元并不能产生一个极度兴奋的程度，来确定无限的SI值。在这种情况下，有必要来增加神经元的数量来改善神经网络的效率，对于隐含层神经元数目的增长，当其满足式(7)时，第i个隐含神经元将被***为两个隐含神经元。

SI≥SI_th (7)

修剪阶段主要是指对隐含层神经元数量进行修剪，研究表明当SI值足够小时，隐含层神经元是不活跃的或者不工作的，因此，需要对隐含神经元进行修剪从而获得一个更加紧凑的神经网络结构，对于隐含层神经元个数的修剪，当其满足式(8)时，第i个隐含神经元将被修剪或者删除。

SI＜SI_th (8)

其中SI_th取值为0.7。

为了使隐含层神经元之间相关性比较小，即使每个隐含层具有各自的功能，自组织深度信念网络将互信息超过设定值的两个隐含层神经元，合并为一个神经元。对于任意的a,b两个隐含层神经元，利用式(3)计算a,b两个隐含层神经元之间的互信息值I(a,b),如果满足式(9)，则将其合并为一个神经元：

I(a,b)＞I_th (9)

其中：

I_th＝λI_mean (10)

其中I_th为互信息合并隐含神经元的所满足的值，本文取值为3.25，λ为常数,其取值为3，I_mean为所有隐含层神经元之间互信息的平均值，n₁为隐含层神经元的个数。

通过上述步骤的操作，实现了自组织深度信念网络结构的自动调整，自组织深度信念网络能够反复地和可选择的进行增长、修剪以及合并操作。

步骤4网络结构调整好后，然后用调整好的自组织深度信念网络重新对输入样本数据进行特征提取，之后将提取到的特征输入到相关向量机单元中，借助于相关向量机实现淡水环境藻类水华的精准预测。

相比现有技术，本发明构建了一种基于自组织深度信念网络和相关向量机的淡水环境水华预测方法，其将与叶绿素a浓度相关的风速，风向，湿度，蓝绿藻，pH值，前一时刻的叶绿素a,溶解氧，氨氮，和水体温度作为预测模型的输入参数，并进行数据预处理，接着采用自组织深度信念网络对输入样本数据进行训练，从而完成自组织网络的结构自动调整和原始数据特征的降维和提取，最后将自组织深度信念网络单元提取的数据特征送入到相关向量机中完成最后的预测。本发明不但可以解决传统深度信念网络在水华时预测精度不高，结构冗余，容易过拟合的问题，同时实现了网络结构的更加紧凑。

附图说明

图1为本发明基于自组织深度信念网络和相关向量机的淡水环境水华预测方法的结构框图。

图2为深度信念网络结构框图

图3为自组织深度信念网络结构框图

具体实施方式

下面结合实施例及附图，对本发明作进一步详细的说明，但本发明的实施方式不限于此。

图2中受限玻尔兹曼机(RBM)为深度信念网络(DBN)的核心组成部分，W₀,W₁,W₂分别为连接权值，V₀,V₁,V₂代表可视层，H₁,H₂代表隐含层。参照图1、2、3所示，其为一种基于自组织深度信念网络和相关向量机的淡水环境水华预测方法，所述方法包括以下步骤：

表1部分样本数据示例

步骤3：在对输入样本数据训练过程中，自组织深度信念网络通过改变隐含神经元个数来实现自身结构的自动调整，这实际上相当于增加和修剪神经元之间的连接权重。自组织深度信念网络的初始权值取(0,1)之间的随机值，且保证每次机器时钟随机给定的初始值相同，隐含层结构调整的依据依赖于隐含层神经元的尖峰强度值(尖峰强度值与突触前神经元在生物神经***中的尖峰频率相似)以及隐含层神经元的互信息值，如果某个隐藏层神经元的尖峰强度值大于等于SI_th(取0.7)时，则该隐含神经元将被***为两个新的神经元，而如果尖峰强度值小于SI_th(取0.7)时，该隐含神经元则会被修剪掉。同时如果两个隐含层神经元之间的互信息值大于I_th(取3.25)时，则说明这两个隐含层神经元有着相似的信息处理能力，则可以将这两个神经元合并为一个神经元，从而达到精简结构的目的。

其中：

和

分别为为样本落入第k_i,k_j个片段中的个数，

为落入单元(k_i,k_j)中的样本的数量。

K_X及K_Y的表达式分别如式(4)(5)所示：

SI≥SI_th (7)

SI＜SI_th (8)

其中SI_th取值为0.7。

I(a,b)＞I_th (9)

其中：

I_th＝λI_mean (10)

其中I_th为互信息合并隐含神经元需满足的值，本文取值为3.25，λ为常数,其取值为3，I_mean为所有隐含层神经元之间互信息的平均值，n₁为隐含层神经元的个数。

步骤4：用调整好的自组织深度信念网络单元重新对输入样本数据进行特征提取，之后将特征输入到相关向量机单元中，最后借助于相关向量机输出和标签之间的偏差调整相关向量机内部的参数。

步骤5：测试阶段：将测试数据输入到训练好的自组织深度信念网络单元和相关向量机单元，通过内部参数映射得到预测输出，从而完成淡水环境藻类水华的精准预测，预测结果平均可提高两个百分点。

表2理想预测效果对比

算法	预测1步	预测5步	预测10步
				深度信念网络	92.28％	92.79％	90.7％
改进的算法	94.30％	94.00％	93.10％

本发明设计合理，不但可以解决传统深度信念网络在水华预测时预测精度不高，结构冗余，容易过拟合的问题，而且实现了网络结构更加紧凑。

尽管上面对本发明说明性的具体方式，以便于本技术领域的技术人员能够理解本发明，但是本发明不仅限于具体实施方式的范围，对本技术领域的普通技术人员而言，只要各种变化包含在所附的权利要求限定和确定的本发明精神和范围内，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于自组织深度信念网络和相关向量机的淡水环境水华预测方法，包括以下几个步骤：

步骤1：综合考量将叶绿素a浓度作为作为描述水华形成的表征指标，并将与叶绿素a浓度相关的风速，风向，湿度，蓝绿藻，pH值，前一时刻的叶绿素a,溶解氧，氨氮，和水体温度这9个影响因素作为预测模型的输入；

步骤2：通过一系列传感器收集研究对象的状态数据，形成数据集；对数据集中的数据进行预处理，随机选取部分作为训练数据，剩下的部分作为测试数据，进行水华预测；

步骤3：自组织深度信念网络的初始权值取(0,1)之间的随机值，且保证每次机器时钟随机给定的初始值相同，隐含层结构调整的依据依赖于隐含层神经元的尖峰强度值以及隐含层神经元的互信息值，

其中：

是第l层第i个神经元的尖峰强度值，β取值为500，y_il是第l个隐含层第i个神经元的输出；N_l是第l个隐含层的神经元的数量，net_il是第l个隐含层第i个神经元的输入权重的和，其表达式如下：

其中p_ij是第i个神经元的第j个输入，w_ij是第j个输入神经元和第i个神经元之间的权重，q_i是第i个神经元的输入神经元的总数；

和

分别为为样本落入第k_i,k_j个片段中的个数，

为落入单元(k_i,k_j)中的样本的数量；

K_X及K_Y的表达式分别如式(4)(5)所示：

其中ε为一个定值根据样本总数直接计算得出，round代表最接近实变量的整数；

对于隐含层神经元数目的增长，当其满足式(7)时，第i个隐含神经元将被***为两个隐含神经元；

SI≥SI_th (7)

当其满足式(8)时，第i个隐含神经元将被修剪或者删除；

SI<SI_th (8)

其中SI_th取值为0.7；

对于任意的a,b两个隐含层神经元，利用式(3)计算a,b两个隐含层神经元之间的互信息值I(a；b),如果满足式(9)，则将其合并为一个神经元：

I(a；b)>I_th (9)

其中：

I_th＝λI_mean (10)

其中I_th为互信息合并隐含神经元的所满足的值，取值为3.25，λ为常数,其取值为3，I_mean为所有隐含层神经元之间互信息的平均值，n₁为隐含层神经元的个数；

步骤4：网络结构调整好后，然后用调整好的自组织深度信念网络重新对输入样本数据进行特征提取，之后将提取到的特征输入到相关向量机单元中，借助于相关向量机实现淡水环境藻类水华的预测。