CN107423857B

CN107423857B - 一种区域长期来水多目标联合概率预测方法

Info

Publication number: CN107423857B
Application number: CN201710639215.1A
Authority: CN
Inventors: 陈玺; 徐高洪; 徐长江; 戴明龙; 李妍清; 刘冬英; 秦智伟; 黄燕; 张冬冬; 李立平; 魏林云
Original assignee: Bureau of Hydrology Changjiang Water Resources Commission
Current assignee: Bureau of Hydrology Changjiang Water Resources Commission
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2018-04-20
Anticipated expiration: 2037-07-31
Also published as: CN107423857A

Abstract

本发明提供一种区域长期来水多目标联合概率预测方法，包括：设计考虑多个预测目标独立特征和群体特征的分层贝叶斯概率预测模型；基于预测目标样本数据，分析得出预测目标先验分布，采用马尔科夫链蒙特卡洛方法，对预测目标独立特征参数和群体特征参数进行抽样，优化分层贝叶斯概率预测模型的模型参数，计算满足条件的预测目标方案集合。优点为：首次将分层贝叶斯理论应用于区域长期来水多目标联合概率预测技术中，设计在分层贝叶斯模型的不同层级对独立特征参数和群体特征参数进行马尔科夫链蒙特卡洛(MCMC)抽样，从物理机制和算法设计上完善来水多目标概率预报模型，提高区域长期来水多目标联合概率预测的准确度。

Description

一种区域长期来水多目标联合概率预测方法

技术领域

本发明涉及一种概率预测方法，具体涉及一种区域长期来水多目标联合概率预测方法。

背景技术

水情预报技术可以用来预测区域水资源量的丰枯，指导区域水资源进行合理配置。预见期的长短不同，预报机理和预报方法也不同。随着社会经济的快速发展，对洪旱灾害预测能力和水资源高效利用的要求越来越高，迫切需要尽可能的提前预知区域长期来水丰枯程度。

对于低开发影响的流域，水文站实测的流量代表该站控制集水面积的天然来水量，因此，在进行区域长期来水预测时，预测目标通常是研究区水文站的年、季或月平均流量。然而，通过降雨径流关系或者流域上下游关系等可靠的物理机制来获得预报结果的传统水情预测技术限制了预见期的可提前性。

目前，长期来水预测通常是通过寻找预测目标和预测因子历史数据之间的相关关系，建立统计模型或智能算法模型，实现区域或流域单一预测目标的来水丰枯预测预报。然而，随着预见期的增长，影响预测目标的因素更加复杂，因此，传统的长期来水预测方法，预测结果的准确度有限，已无法满足人们对长期来水精细预测的需求。

发明内容

针对现有技术存在的缺陷，本发明提供一种区域长期来水多目标联合概率预测方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种区域长期来水多目标联合概率预测方法，包括以下步骤：

步骤1，确定多个预测目标；对于每个预测目标，分析预测目标历史实测数据，确定预测目标的分布特征和特征参数，建立统计假设，得到通过正态分布检验的预测目标样本数据；

步骤2，基于遥相关预测因子的法则，对每个预测目标设计筛选出多个预测因子；

步骤3，设计考虑多个预测目标独立特征和群体特征的分层贝叶斯概率预测模型；其中，预测目标独立特征由个体特征属性决定；群体特征受大尺度气候条件影响；

步骤3.1，分层贝叶斯概率预测模型共包括两层，分层贝叶斯概率预测模型的第一层考虑不同预测目标的独立特征，估计每个预测目标对预测因子的回归系数，用以下公式描述：

Y_i(t)～N(μ_i(t),Σ_i) (6)

μ_i(t)＝α_i+X_m(t)β_i (7)

其中：

Y_i(t)表示预测目标；

i＝1……h1，代表共有h1个预测目标；

α_i～N(1,10000)，表示α_i服从正态分布；

表示Σ_i服从尺度矩阵χ₁和自由度为λ₁的Inv-Wishart分布；

公式(6)表示预测目标Y_i(t)符合以μ_i(t)为均值，以Σ_i为方差的正态分布，μ_i(t)表示第i个预测目标历史数据系列的均值，Σ_i表示第i个预测目标历史数据系列的方差；

公式(7)表示第i个预测目标历史数据系列的均值μ_i(t)与预测因子X_m(t)之间的线性回归关系，α_i表示回归模型中的截距，代表第i个预测目标历史数据系列均值中的常数，β_i表示第i个预测目标相对于预测因子的斜率向量；

步骤3.2，分层贝叶斯概率预测模型的第二层用以下公式描述：

β～MVN(μ_β,Σ_β) (8)

其中：

分层贝叶斯概率预测模型的第一层中的斜率向量β_i符合以μ_β为均值以Σ_β为方差的多变量正态分布；

μ_β～N(1,10000)，表示μ_β服从正态分布；

表示Σ_β服从尺度矩阵χ₀和自由度为λ₀的Inv-Wishart分布；

μ_β,Σ_β称为超级参数，μ_β是所有预测目标对某个预测因子平均斜率的向量，Σ_β是代表不同预测因子之间斜率的离散关系的协方差矩阵；

步骤4，基于步骤1得到的预测目标样本数据，分析得出预测目标先验分布，采用马尔科夫链蒙特卡洛方法，对预测目标独立特征参数和群体特征参数进行抽样，优化步骤3设计的分层贝叶斯概率预测模型的模型参数，计算满足条件的预测目标方案集合。

优选的，步骤1具体为：采用K-S法检验原始的预测目标样本数据系列是否符合正态分布，如果符合正态分布，则原始的预测目标样本数据系列通过检验，再执行步骤2；如果不符合正态分布，则使用BOX-COX变换将原始的预测目标样本数据类型转换成近似正态分布，再执行步骤2。

优选的，步骤1具体包括：

步骤1.1，采用公式(1)对原始的预测目标样本数据系列计算累积分布函数F_n(x)；

其中：I(x_i)是指示函数，x_i是原始的预测目标样本数据，n是原始的预测目标样本数据的个数；

步骤1.2，给定正态分布累积分布函数F(x)，统计累积分布函数F_n(x)与正态分布累积分布函数F(x)之间的差异，采用公式(2)计算出差异最大值D_n：

其中，Sup是supremum的缩写，意思是上确界；

步骤1.3，在显著性水平α下，采用公式(5)计算显著性水平α对应的临界值K_α通过查找正态分布表获得；

如果零假设成立，即原始的预测目标样本数据符合正态分布；如果零假设被拒绝，即原始的预测目标样本数据不符合正态分布；

其中：B(x)是布朗桥，即随机过程。

优选的，步骤2具体包括：

步骤2.1，假设共有h1个预测目标，每个预测目标样本数据系列含有h2个样本数据，因此，预测目标表示为Y_i(t)，其中i＝1……h1，t＝1……h2；

步骤2.2，设定预测因子范围，包括以下大尺度气候因子：海洋表面温度、表面气压、厄尔尼诺相关指标、大洋涛动指标和雪盖面积指标；

步骤2.3，对于Y_i(t)预测目标样本数据系列，考虑t＝t，t-1，t-2，……，t-11，t-12时间滞后度的第m个大尺度气候因子X_m(t)，分析大尺度气候因子X_m(t)与Y_i(t)的秩次相关性，选择与Y_i(t)相关性显著且相关系数最大的X_m(t)作为预测因子；其中，X_m(t)含义为：第m个预测因子的第t个数据；

步骤2.4，针对h1个预测目标Y_i(t)，选择相同的预测因子，组成预测因子集合。

优选的，步骤4之后，还包括：

步骤5，结合预测目标历史实测数据，针对步骤4得到的预测目标方案集合，将受试者工作特征曲线引入评估长期来水多目标集合预测结果的不确定性工作中，采用交叉验证方法评估步骤4得到的预测目标方案集合的效果。

本发明提供的区域长期来水多目标联合概率预测方法具有以下优点：

首次将分层贝叶斯理论应用于区域长期来水多目标联合概率预测技术中，设计在分层贝叶斯模型的不同层级对独立特征参数和群体特征参数进行马尔科夫链蒙特卡洛(MCMC)抽样，从物理机制和算法设计上完善来水多目标概率预报模型，提高区域长期来水多目标联合概率预测的准确度。

附图说明

图1为本发明提供的区域长期来水多目标联合概率预测方法的流程示意图；

图2为本发明提供的区域长期来水预测示范区的示意图；

图3为本发明提供的Kolmogorov-Smirnov检验流程图；

图4为本发明提供的ROC曲线模型性能评估结果示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

现行的长期来水预测方法往往是单一预测目标与多个预测因子之间建立模型，尚未考虑多个预测因子之间受大尺度气候模式影响的相关性，也未考虑多个预测目标之间的空间相似性和受气候过程影响的协同性；其次，选取的预测因子，也仅是从本流域内选取流量或者降雨过程，并未考虑全球范围内选择大尺度遥相关预测因子；最后，传统的长期来水预测方法在模型率定时受限于实测预测因子和预测目标系列的长度。基于上述原因，区域长期来水预测技术需要在物理机制和算法设计上进行完善。

针对现有技术的不足，本发明的目的是为了解决长期来水预测技术中，多个预测目标均作为独立的个体单独进行预测，未考虑多个预测目标之间的空间相似性和受气候过程影响的协同性而影响长期来水预测结果的准确性。具体的，由于气候过程演变缓慢且与水文循环过程紧密相关，且气候的演变过程往往早于水文循环过程3个月以上。在长期预测模型研究中，一般假设气候因子对某一个固定区域的影响遵循某种特定的规律，区域相对稳定的径流来源是对气候因子响应的长期结果，这为区域长期来水预测提供了潜在的物理机制。

本发明的主要思路为：从全球范围内选择与预测目标相关性较好具有物理成因的大尺度预报因子，基于历史目标数据给出先验分布，基于马尔科夫链(Markov Chain MonteCarlo，简称MCMC)，建立考虑气候过程对预测目标协同影响作用的多目标联合概率预测模型，计算满足条件的预测目标集合，优化参数集合，并通过对有限时段的预测目标进行随机抽样赋空模型参数进行率定和验证，进一步优化模型参数，最后，得到该区域长期来水多目标概率预测设计方案。

本发明将分层贝叶斯理论应用于区域长期来水多目标联合概率预测技术中，建立了考虑多个预测目标独立特征和群体特征的分层贝叶斯模型框架，给出了基于贝叶斯模型和遥相关理论的区域长期来水多目标联合概率预测技术设计的具体步骤，并引入受试者工作特征曲线(ROC)简单直观的展示模型概率集合预报的性能，具体流程详见图1，基于分层贝叶斯模型和遥相关理论的长期来水多目标联合概率预测方法，包括以下几个步骤：

步骤1具体为：采用K-S法检验原始的预测目标样本数据系列是否符合正态分布，如果符合正态分布，则原始的预测目标样本数据系列通过检验，再执行步骤2；如果不符合正态分布，则使用BOX-COX变换将原始的预测目标样本数据类型转换成近似正态分布，再执行步骤2。

步骤1具体包括：

其中，Sup是supremum的缩写，意思是上确界；

其中：B(x)是布朗桥，即随机过程。

下面介绍本步骤的一个具体示例：

以长江流域洞庭湖区为研究区，从图2的区域来水预测研究区可以看出，洞庭湖区来水主要包括长江干流三口(松滋口、太平口和藕池口)分流以及湘江、资水、沅江和澧水流域产水，因此，洞庭湖区的来水主要由长江干流的枝城水文站、湘江的湘潭水文站、资水的桃江水文站、沅江的桃源水文站以及澧水的石门水文站共5个水文站的流量控制。

假设水行政主管部门需要预测洞庭湖区2018年汛期(6-8月)来水丰枯程度，根据预测结果制定防洪减灾或者湖区水系水库调度方案，那么，可以以此5个水文站2018年汛期(6-8月)的平均流量作为预测目标。

首先对以上5个水文站1961～2017年汛期(6～8月)平均流量数据进行统计假设检验，常用于水文数据拟合的分布有正态分布，对数正态分布，Gamma(Gamma Distribution，伽马)分布，GEV(Generalized extreme value distribution，广义极值分布)分布等。由于正态分布尤为常见，且BOX-COX变换可以将任意数据集转换成近似正太分布，因此，在本发明步骤3中分层贝叶斯模型以正态分布为理想分布进行设计。其中，BOX-COX变换是统计建模中常用的一种数据变换，用于连续的响应变量不满足正态分布的情况。BOX-COX变换，变换之后，可以一定程度上减小不可观测的误差和预测变量的相关性。

本发明将Kolmogorov-Smirnov(K-S，非参数统计)检验方法引入统计假设检验，通过量化样本的累积分布函数与目标理想分布的累积分布函数的差异，来判断样本是否符合理想分布。K-S检验的原理如图2所示：

K-S统计经验的累积分布函数F_n(x)定义如下：

对于给定的正态分布累积分布函数F(x)，统计累积分布函数F_n(x)与正态分布累积分布函数F(x)之间的差异，采用公式(2)计算出差异最大值D_n：

其中，Sup是supremum的缩写，意思是上确界；

假如预测目标样本数据来自于正态分布累积分布函数F(x)，那么当n趋向于无穷大时，D_n趋近于0。

Kolmogorov累积分布函数可以表示为：

其中：P为正态分布函数的累积值，K为随机变量，x为分布函数的自变量。

其中Kolmogorov分布是随机变量分布，可以表示为：

其中B(x)是布朗桥，即随机过程。

Kolmogorov理论认为，在零假设下，收敛于Kolmogorov分布，且不依赖于累积分布函数F。因此，可以采用Kolmogorov分布进行样本分布与正态分布的拟合度检验，即称之为K-S检验。

在零假设条件下，样本值取自假设的正态分布累积分布函数F(x)，那么

在显著性水平α下，当时，零假设成立，即样本符合正态分布，当时，零假设被拒绝，即样本不符合正态分布。其中，K_α为显著性水平α对应的临界值。

一般来说，本步骤执行过程中有两点值得注意：

(1)对于同流域或者气候区内的不同站点的水文资料系列，具有相似的统计特征；

(2)假如采用K-S检验方法分析样本数据系列未通过正态分布检验，则可以使用BOX-COX变换将数据类型转换成近似正态分布，得到预测目标模拟值后再进行逆变换对数值进行还原。

步骤2具体包括：

具体的，区域相对稳定的径流来源是对气候因子响应的长期结果，且气候演变过程往往早于水文循环过程3个月以上，为利用大尺度气候因子预测区域来水量提供了可能。

设计筛选预测因子的法则为：将预测目标的历史数据与大尺度遥相关气候因子(潜在的预测因子)建立相关关系。

本实施例中，参考图2，洞庭湖区5个预测目标6-8月历史平均流量数据用Y_i(t)表示，其中i＝1……5，t表示第i个预测目标1961年～2017年中第t个数据；

大尺度气候因子用X_m(t)表示，其中m表示第m个预测因子，t表示第m个预测因子的第t个数据。

在长期预测模型选择预测因子时，对于Y_i(t)预测目标历史数据，考虑t＝t，t-1，t-2，……，t-11，t-12时间滞后度的第m个大尺度气候因子X_m(t)，分析大尺度气候因子X_m(t)与Y_i(t)的秩次相关性，选择与Y_i(t)相关性显著且相关系数最大的X_m(t)作为预测因子。

针对区域内Y_i(t)(i＝1……5)5个预测目标，选择相同的相关因子，组成预测因子集合。以长江流域洞庭湖区为研究区域，举例说明本预测方法中预测因子的筛选步骤如下：

①选取枝城水文站、湘潭水文站、桃江水文站、桃源水文站以及石门水文站历史径流系列，统一选取1961-2017年共计56年汛期(6-8月)径流系列，则预测目标Y_i(t)，其中i＝1……5，t＝1……56；

②设定预测因子范围，包括海洋表面温度、表面气压、厄尔尼诺相关指标、大洋涛动指标、雪盖面积指标等大尺度气候因子；

③以海洋表面温度数据集为例，考虑到气候的演变过程往往早于水文循环过程3个月以上，选择相关性较好的海洋表面温度区域的海温数据作为预测因子，需要分别分析1961-2017年共计56年汛期(6-8月)预测目标Y_i(t)径流系列与具有空间尺度的海洋表面温度在不同时间滞后度(11-1月、12-2月、1-3月、2-4月、3-5月、4-6月)在不同区域(空间分辨率根据不同来源的数据集，有0.5°*0.5°、1°*1°、2.5°*2.5°等几种)的秩次相关性。

假设对于枝城水文站等5个水文站1961-2017年共计56年汛期(6-8月)径流系列，分析得出1961-2017年共计56年汛期(1-3月)北纬40°-45°，西经165°-170°区域海洋表面温度与其秩次相关性显著，且经成因分析具有合理的物理机制，则可以选取此处海洋表面温度作为洞庭湖区来水预测的预测因子，时间滞后度lag＝5个月；

④依此方法，筛选其他潜在的预测因子，最终确定X_m(t)。

Y_i(t)～N(μ_i(t),Σ_i) (6)

μ_i(t)＝α_i+X_m(t)β_i (7)

其中：

Y_i(t)表示预测目标；

i＝1……h1，代表共有h1个预测目标；

α_i～N(1,10000)，表示α_i服从正态分布；

表示Σ_i服从尺度矩阵χ₁和自由度为λ₁的Inv-Wishart分布；

β～MVN(μ_β,Σ_β) (8)

其中：

μ_β～N(1,10000)，表示μ_β服从正态分布；

表示Σ_β服从尺度矩阵χ₀和自由度为λ₀的Inv-Wishart分布；

本步骤举例如下：

假设同一个流域或者气候区的水文站的汛期平均流量受到同一种气候模式的影响，与此同时不同水文站汛期平均流量对气候因子的响应会因为站点位置或海拔高度等属性的不同产生***性偏差。因此设计一种既考虑多个预测目标独立特征，又能考虑多个预测目标受大尺度气候条件影响而产生的群体性特征的模型，能够从模型结构上提高长期水文预报预测技术的合理性，分层贝叶斯概率预测模型为该技术提供了理论和模型结构支撑。

本实施例中长江流域洞庭湖区5个预测目标Y₁(t)～Y₅(t)，不同预测目标(水文站汛期平均流量历史实测数据系列)因集水面积、海拔高度等的差异也存在个体特征。

首先按照步骤1中的K-S检验流程，将5个预测目标Y₁(t)～Y₅(t)分别进行正态检验，如果符合正态分布，可以直接转入步骤3进行计算；如果不符合正态分布，则进行BOX-COX转换，将其转换为近似正态分布，然后转入步骤3进行计算。经过步骤1预处理后，预测目标历史数据系列均符合正态分布。

分层贝叶斯概率预测模型第一层充分考虑不同预测目标的独立特征，估计每个预测目标对预测因子的回归系数，可以用以下公式描述：

Y_i(t)～N(μ_i(t),Σ_i) (6)

μ_i(t)＝α_i+X_m(t)β_i (7)

其中

i＝1……5；

α_i～N(1,10000)，表示α_i服从正态分布；

表示Σ_i服从尺度矩阵χ₁和自由度为λ₁的Inv-Wishart分布。

公式(6)表示预测目标Y_i(t)符合以μ_i(t)为均值，以Σ_i为方差的正态分布，μ_i(t)表示第i个预测目标历史数据系列的均值，Σ_i表示第i个预测目标历史数据系列的方差。

公式(7)表示第i个预测目标历史数据系列的均值μ_i(t)与预测因子X_m(t)之间的线性回归关系，α_i表示回归模型中的截距，可以认为代表第i个预测目标历史数据系列均值中的常数，β_i表示第i个预测目标相对于预测因子的斜率向量。

然而，由于5个预测目标均位于同一区域，气候条件和下垫面条件相似，5个水文站汛期平均流量存在受大尺度气候预测因子影响的群体特征，那么，在分层贝叶斯模型里可以考虑允许将预测因子对水文站汛期平均流量的影响进行聚类，估计回归方程的斜率参数，降低模型参数与模型预测结果的不确定性。

假设模型参数来源于多变量正态分布，那么，模型第二层可以用以下公式描述：

β～MVN(μ_β,Σ_β) (8)

其中：

模型第一层中的斜率向量β_i符合以μ_β为均值以Σ_β为方差的多变量正态分布；

μ_β～N(1,10000)，表示μ_β服从正态分布；

表示Σ_β服从尺度矩阵χ₀和自由度为λ₀的Inv-Wishart分布。

μ_β,Σ_β称为超级参数，μ_β是所有预测目标对某个预测因子平均斜率的向量，Σ_β是代表不同预测因子之间斜率的离散关系的协方差矩阵。

在贝叶斯统计中，逆威沙特分布(Inv-Wishart)被用作多变量正态分布协方差矩阵的共轭先验分布。完全参数向量θ的联合后验概率分布是从先验分布和似然函数的联合分布中得到：

其中：P(θ|(Y))是使用模型给定数据的后验似然估计，n是预测因子个数，参数θ的后验分布可以使用马尔科夫链(MCMC)中的吉布斯抽样(Gibbs sample)方法来估计。

吉布斯抽样是一种特殊的马尔科夫链算法，将吉布斯抽样迭代模拟应用于分层贝叶斯模型。根据步骤1中针对每个预测目标选择出的拟合效果最好的正态分布，不断迭代使抽样结果接近后验分布，在解决多维问题中应用广泛，原理如下：

根据完全参数向量θ定义的，假设完全参数向量θ被分割成d个子向量，θ＝(θ₁,......，θ_d)。对每个子向量的每次迭代循环，都从剩下的向量子集的条件下进行抽样。这样一来，对于每次迭代，共有d个步骤，对每个迭代t，都有d个子向量按照一定的顺序被选择，然后每个都从条件分布中抽样取得：

其中代表θ中除了θ_j之外所有的元素，

因此，每个子向量θ_j都是基于θ第t次迭代中已经更新的元素和第t-1次迭代中其它的元素进行更新。

由此，可以通过抽样得到预测模型的参数向量集合，计算出预测目标方案(5个水文站汛期平均流量历史系列)集合。

步骤4之后，还包括：

步骤5，结合预测目标历史实测数据，针对步骤4得到的预测目标方案集合，将受试者工作特征曲线(Receiver Operating Characteristic Curve，简称ROC)引入评估长期来水多目标集合预测结果的不确定性工作中，采用交叉验证方法评估步骤4得到的预测目标方案集合的效果。

交叉验证的优势在于可以在观测的时间序列中随机选择有待验证数据的位置。技术方法如下：假设5个预测目标观测值样本系列长度p(p＝56)，将观测值数据中随机选择q(q＝5)个数值，将这q个数据赋值为空缺值，用p-q个系列数据来率定模型参数，用随机选取的q个实测数据与相应的模型模拟值作对比，验证模型模拟的效果。

将受试者工作特征曲线(ROC)引入评估长期来水多目标预测模型的性能评估工作中，可以简单、直观的展示模型预测的报准率和误报率。受试者工作特征曲线(ROC)的工作原理如下：

假设观测到事件O发生，概率预测集合A中事件O发生的次数为a，概率预测集合中事件O未发生的次数为c，则num(A)＝a+c，那么可以将a称之为报准次数；

相反，观测到事件O没有发生，概率预测集合B中事件O发生的次数为b，概率预测集合中事件O未发生的次数为d，则num(B)＝b+d，那么可以将b称之为误报次数。

那么报准率H可以表示为：

H＝a/(a+c) (12)

误报率F可以表示为

F＝b/(b+d) (13)

ROC模式识别技术通过报准率(H)和误报率(F)来评估概率预测中实测事件发生的可能性。

可以非常简便的利用ROC曲线和45度角直线包围的面积来比较不同模型预报性能的优劣。

定义在ROC曲线下方区域面积为A，ROC曲线包含整个正方形A_perfect＝1，而随机模型预报ROC曲线与45°角重合，这时A_rand＝0.5。由此得出一个面积指标A_score来量化预报结果的好坏，计算公式如下:

A_score＝(A-A_rand)/(A_perfect-A_rand)＝(A-1/2)/(1-1/2)＝2A-1 (14)

其中：A_perfect表示模型预报能力达到理论最佳，面积为1，A_rand表示模型预报能力为随机状态，面积为0.5。

优良的预报性能通常会使在ROC曲线下包围的面积接近整个正方形，ROC曲线模型性能评估结果示意图见图4。

在本实施例中，可以用ROC模式识别技术，来评估长期来水预测目标(水文站汛期平均流量)处于丰、偏丰、平、枯、偏枯来水区间的可靠性。

还包括：步骤6，应用本技术进行区域来水多目标概率预测。

采用经过交叉验证和可靠性评估的长期来水多目标概率预测模型进行来水预测。本实施例中，采用洞庭湖区5个水文站1961-2017年汛期平均流量(预测目标)进行模型交叉验证和可靠性评估后，可以采用相关预测因子(一般滞后预测目标3个月以上)，预测5个水文站2018年汛期平均流量。

本发明涉及水文学、气象学和数理统计学交叉的技术领域，基于分层贝叶斯理论和遥相关理论，考虑多个预测目标独立特征和群体特征，公开了一种区域长期来水多目标联合概率预测的技术方法。该方法可广泛应用于长期来水预报，为水资源管理者进行水库调度、水量分配等决策提供理论依据与技术支撑。

与现有技术相比，本发明具有以下优点：

1、本发明首次将分层贝叶斯理论应用于区域长期来水多目标联合概率预测技术中，在充分分析预测目标历史观测数据，确定预测目标历史数据先验分布的情况下，考虑多个预测目标独立特征(由个体特征属性决定)和群体特征(受大尺度气候条件影响)，设计在模型的不同层级对独立特征参数和群体特征参数进行马尔科夫链蒙特卡洛(MCMC)抽样，从物理机制和算法设计上完善来水多目标概率预报模型，提高区域长期来水多目标联合概率预测的准确度。

2、本发明首次将受试者工作特征曲线(ROC)引入评估长期来水多目标集合预测结果的不确定性工作当中，简单直观的评估模型概率集合预报的性能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种区域长期来水多目标联合概率预测方法，其特征在于，包括以下步骤：

Y_i(t)～N(μ_i(t),Σ_i) (6)

μ_i(t)＝α_i+X_m(t)β_i (7)

其中：

Y_i(t)表示预测目标；

i＝1……h1，代表共有h1个预测目标；t＝1……h2，代表每个预测目标样本数据系列含有h2个样本数据；

α_i～N(1,10000)，表示α_i服从正态分布；

表示Σ_i服从尺度矩阵χ₁和自由度为λ₁的Inv-Wishart分布；

X_m(t)含义为：第m个预测因子的第t个数据；

β～MVN(μ_β,Σ_β) (8)

其中：

μ_β～N(1,10000)，表示μ_β服从正态分布；

表示Σ_β服从尺度矩阵χ₀和自由度为λ₀的Inv-Wishart分布；

2.根据权利要求1所述的区域长期来水多目标联合概率预测方法，其特征在于，步骤1具体为：采用K-S法检验原始的预测目标样本数据系列是否符合正态分布，如果符合正态分布，则原始的预测目标样本数据系列通过检验，再执行步骤2；如果不符合正态分布，则使用BOX-COX变换将原始的预测目标样本数据类型转换成近似正态分布，再执行步骤2。

3.根据权利要求1所述的区域长期来水多目标联合概率预测方法，其特征在于，步骤1具体包括：

<mrow> <msub> <mi>F</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，Sup是supremum的缩写，意思是上确界；

<mrow> <msqrt> <mi>n</mi> </msqrt> <msub> <mi>D</mi> <mi>n</mi> </msub> <mover> <mo>&RightArrow;</mo> <mrow> <mi>n</mi> <mo>&RightArrow;</mo> <mi>&infin;</mi> </mrow> </mover> <munder> <mrow> <mi>S</mi> <mi>u</mi> <mi>p</mi> </mrow> <mi>x</mi> </munder> <mo>|</mo> <mi>B</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中：B(x)是布朗桥，即随机过程。

4.根据权利要求1所述的区域长期来水多目标联合概率预测方法，其特征在于，步骤2具体包括：

5.根据权利要求1所述的区域长期来水多目标联合概率预测方法，其特征在于，步骤4之后，还包括：