CN108764541B

CN108764541B - 一种结合时空特征和误差处理的风能预测方法

Info

Publication number: CN108764541B
Application number: CN201810469434.4A
Authority: CN
Inventors: 于瑞国; 喻梅; 于健; 赵满坤; 刘志强; 安永利
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2021-06-29
Anticipated expiration: 2038-05-16
Also published as: CN108764541A

Abstract

本发明公开了一种结合时空特征和误差处理的风能预测方法，所述方法包括以下步骤：从风能时间序列中提取时间特征，通过多输入‑单输出的模式提取距离较近风电机之间的信息，引入空间特征；通过基于k近邻的噪声数据检测方法对时间特征和空间特征进行预处理；对预处理后的特征进行时空特征的方差属性分析，基于分析的结果训练多组预测器模型；采用加权平均数方式对多个预测模型进行组合，生成基于时空特征方差的集成学习模型，用于对组合后的预测模型进行误差预测；使用集成学习模型得到预测值y，将和时空特征相应的误差特征输入到辅助模型中，得到结果y′，则最终的预测值为y+y′；集成学习模型和辅助模型相结合生成最终的模型。

Description

一种结合时空特征和误差处理的风能预测方法

技术领域

本发明涉及数据挖掘、特征工程和风能预测领域，尤其涉及一种结合时空特征和误差处理的风能预测方法。

背景技术

目前用于风能预测的机器学习算法主要有人工神经网络、决策树、支持向量机回归等。由于风能预测问题本身就是一个“依据特征预测数值”的问题，与一般的机器学习方法具有很好的可结合性，使得大多数常用的机器学习方法包括：随机森林、神经网络、以及各类回归算法等能够很容易的迁移应用到这一领域。

目前无法证明一个模型比另一个模型更好：首先，尚不存在一个公认的评价标准来评判各个模型，其次，若要对比两个模型的效果，需要在相同的数据集下进行对比，这是不符合现实需求的，风能预测器的表现与其具体应用的区域有很强的相关性，不同模型在不同的数据集下表现不同，一些场景下神经网络是表现最好的模型，而在另外的场景中，支持向量机回归是最好的模型。因此这些模型目前处于并存的状态。

除了针对模型的研究，也有研究人员对用于预测的特征进行了考察，研究人员将时空信息引入到风能特征提取中，使得风电功率预测的准确率有了很大提高。所谓时空特征，就是既包含一个发电机发电功率的历史信息，又包含其附近其它发电机发电功率信息的特征。一般的，发电机的发电功率强相关于风速，而风速本身就是一种时空相关特征，因此引入时空特征是风电功率预测的一个突破性进展。

但是，目前对于风能预测的技术也存在缺点。首先，单一模型只能满足特定环境下的预测，不能满足一般条件的风电预测。另外，对于时空特征的研究还不够，一般只是将若干距离较近的发电机的特征拼接到一起，而未做更深入的信息挖掘。

发明内容

本发明提供了一种结合时空特征和误差处理的风能预测方法，本发明能够提取更为有效的特征结合集成学习，有效克服传统单一模型在预测中往往只能适用特定场景，不具有普适性的技术性问题，详见下文描述：

一种结合时空特征和误差处理的风能预测方法，所述方法包括以下步骤：

从风能时间序列中提取时间特征，通过多输入-单输出的模式提取距离较近风电机之间的信息，引入空间特征；

通过基于k近邻的噪声数据检测方法对时间特征和空间特征进行预处理；

对预处理后的特征进行时空特征的方差属性分析，基于分析的结果训练多组预测器模型；

采用加权平均数方式对多个预测模型进行组合，生成基于时空特征方差的集成学习模型，用于对组合后的预测模型进行误差预测；

使用集成学习模型得到预测值y，将和时空特征相应的误差特征输入到辅助模型中，得到结果y′，则最终的预测值为y+y′；集成学习模型和辅助模型相结合生成最终的模型。

所述通过基于k近邻的噪声数据检测方法对时间特征和空间特征进行预处理具体为：

对每个时空特征X_i，计算与其他特征X_j的相似度，选择h个相似度最大的作为近邻，然后依据时空特征X的输出和近邻的输出，判断时空特征X是否是噪音，并剔除掉噪声构成特征集。

所述基于分析的结果训练多组预测器模型具体为：

训练集为

时空特征X_i的方差为v(X_i)，若满足|v(X_j)-v(X_i)|<δ，δ∈实数R，<X,y>∈

则时空特征X_j的方差、与时空特征X_i的方差接近，则将X_j和X_i划分为一组；并用划分后产生的每组数据单独训练预测器模型。

所述辅助模型具体为：

所述辅助模型用于预测组合后的集成学习模型的误差；

将训练集

和组合后的集成学习模型的预测值y’构成新的数据集，用于训练辅助模型。

所述采用加权平均数方式对多个预测模型进行组合具体为：

其中，W_i,j表示模型Ψ_i在预测type属性值等于j的场景时所占的权重；E_i,j表示模型Ψ_i在数据集

上的平均绝对误差；E_,j表示矩阵E的第j列,h和t是两个可调节的参数。

所述判断时空特征X是否是噪音，并剔除掉噪声构成特征集具体为：

y_i＞max(Ns_i)+α·max(|s_p-s_q|)

或

y_i＜min(Ns_i)-α·max(|s_p-s_q|)

对特征Xi的所有近邻表示为集合Nx_i，相应的输出表示为集合Ny_i。对

将Ny_i除去最大值max(Ny_i)、最小值min(Ny_i)后构成新的集合Ns_i。如果

(s_p、s_q为Ns_i中任意元素，表示特征对应的输出)、满足上述任一公式，则判定(X_i,y_i)为噪声数据，其中α∈R为可调节参数，y_i为特征X_i对应的输出。

本发明提供的技术方案的有益效果是：

1、本发明以k-d树为基础，提出了一种风电数据特征的噪声检测方法，能够检测出训练集合中的极端数据，以使得训练集数据一致性更佳，所训练模型鲁棒性、稳定性更强；

2、本发明利用时空特征，训练一种融合弱模型的集成学习模型，相对于传统方法，本发明融合弱模型时权值计算方式不同，预测准确率有明显提升；

3、本发明对机器学习在风电功率预测中的误差进行分析与处理，采用降噪的方法，使得预测准确率进一步提升。

附图说明

图1为一种结合时空特征和误差处理的风能预测方法的流程图；

图2为时空特征提取方法的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

为实现上述目的，本发明实施例提出了结合时空特征和误差处理的的风能预测方法，参见图1，该方法包含以下步骤：

101：从风能时间序列中提取时间特征，通过多输入-单输出的模式提取距离较近风电机之间的信息，引入空间特征；

一方面，风能时间序列反应了风电机的输出电功率随时间的变化，因此从风能时间序列中提取特征数据，用于训练预测模型。

另一方面，本发明实施例将距离较近的风电机互称为“邻居”。提取距离较近风电机之间的信息，引入空间特征。

本发明实施例采用多输入-单输出的模式，即<X,y>，其中X是向量，即时空特征，y是输出。

102：通过基于k近邻的噪声数据检测方法对时间特征和空间特征进行预处理；

本发明实施例设计了一种基于k近邻的噪声数据检测算法，该方法对已经提取得到的时间特征和空间特征进行处理。

对每个时空特征X_i(即同时包含时间特征和空间特征)，计算与其他特征X_j的相似度，选择h个相似度最大的作为近邻，然后依据时空特征X的输出和近邻的输出，判断时空特征X是否是噪音，并剔除掉噪声构成特征集。

103：对步骤102中预处理后的特征进行时空特征的方差属性分析；

时空特征(即同时包含时间特征和空间特征)是一段时间内、一定空间范围内各涡轮机的发电功能，则时空特征的稳定程度反映了当前该地区风力的稳定程度。方差反映了将一个时空特征作为一列数时，数据间的离散程度或稳定程度。稳定程度对于风能预测的结果有极大的影响，越稳定越容易预测，越能达到高准确率。

104：训练多组预测器模型；

其中，例如：训练集为

时空特征为X，依据步骤103求得时空特征X_i的方差为v(X_i)。若满足|v(X_j)-v(X_i)|<δ，(δ∈实数R，

)则特征X_j的方差、与特征X_i的方差较为接近，则将X_j和X_i划分为一组。并用划分后产生的每组数据单独训练预测器模型。

105：采用加权平均数方式对多个预测模型进行组合，生成基于时空特征方差的集成学习模型VFMLEs；

其中，步骤104中得到的每个预测模型称为弱预测器或基本预测器，对多个弱预测器进行组合可以得到强预测器，本发明实施例采用加权平均的方式生成强预测器。

106：对组合后的预测模型进行误差预测；

其中，在得到VFMLEs预测模型后，再训练一个辅助模型AM(Auxiliary Model)，用于预测组合后的VFMLEs模型的误差。将数据集

和组合后的VFMLEs模型的预测值y’构成训练AM新的数据集

误差特征eX为当前时间点最近的若干连续风电功率值

本发明实施例基于k-d树完成此过程，进一步反应风电变化趋势与预测误差的关系。

107：辅助模型AM的训练过程。

其中，该步骤107具体为：

在对原始训练集

时空特征X进行预测时，使用VFMLEs模型得到预测值y。同时，将和时空特征X相应的误差特征eX输入到辅助模型AM中，得到结果y′，则***最终的预测值为y+y′。VFMLEs模型和AM模型相结合生成最终的模型VFMLEs-AM。

综上所述，本发明实施例利用时空特征，训练一种融合弱模型的集成学习模型，相对于传统方法，本发明融合弱模型时权值计算方式不同，预测准确率有明显提升。

实施例2

下面结合具体的计算公式、实例、以及图2对实施例1中的方案进行进一步地介绍，详见下文描述：

201：VFMLEs模型训练过程中，首先要对数据集

根据特征方差进行分组；

202：在相应的分组内分别提取时空特征，本发明实施例采用多输入-单输出的模式，即<X,y>，其中X是向量，即时空特征，y是输出。时空特征提取方法如图2所示。

如图2所示，对于单一观测对象nt_i，时间特征从单一风电机的数据中获得，得到tb序列，在任意时刻，选取过去最近的若干测量值作为特征，并以未来某特定时间距离的测量值作为对应于该时间特征的输出。空间特征为根据目标风电机的邻居，生成一个邻居集合{nt₁,nt₂,…,nt_n}，依次为每个风电机提取时间特征，最后时间特征和空间特征组合为时空特征。

203：采用基于k近邻的噪声数据检测算法，对已经提取得到的特征数据进行处理；

对时空特征X，首先通过比较相似度，寻找其近邻，然后依据时空特征X的输出和近邻的输出，判断时空特征X是否是噪音。

在数据较为稀疏时，将相似度较高的若干个数据项叠加，得到新的“输入-输出”数据项，即对原数据集进行扩充，以得到一致性更好的数据集。本部分利用k-d树来加速近邻查询。

204：根据处理后的时空特征，将训练数据集表示成

其中N表示实例总数，X_i表示第i个实例的输入特征，y_i表示第i个实例的输出；

205：时空特征的属性分析；

对于一个特定时空t，其时空特征X表示为x_t＝<x_t,0,x_t,1,···；x_t,n-1>，相应的输出为y_t。特征的方差如公式(2)所示。

公式(2)中，

为<x_t,0,x_t,1,···,x_t,n-1>的平均值，方差反映了将一个时空特征作为一列数时，数据间的离散程度或稳定程度。稳定程度对于风能预测的结果有极大的影响，越稳定越容易预测，越能达到高准确率。

206：以每个

单独训练模型；

一个子集可被用来训练多个不同类型的模型。训练完成的模型表示为Ψ＝{Ψi}，其中p＝|Ψ|，i∈[0；p)，p为弱预测器的数量。

207：估计训练好的模型在每种类型数据上的效果；

即对每个Ψi，分别以

(j∈[0,group))作为测试数据，采用交叉验证的方式来评估效果。结果表示为E^p×group，其中E_i,j表示模型Ψ_i在数据集

上的平均绝对误差(MSE)。

208：本发明采用加权平均数的方法来融合多个预测模型的结果，故需要计算每个预测模型在预测每种类型数据时的权重，以矩阵W^p×group表示；

其中，W_i,j表示模型Ψ_i在预测type属性值等于j的场景时所占的权重。计算方法如公式(3)所示。

公式(3)中E_,j表示矩阵E的第j列,h和t是两个可调节的参数。

209：利用k-d树对误差特征进行提取，以所有实例的输入特征为基础，构建一颗k-d树，并选择一个整数

然后对每个X_i，利用已构建的k-d树，查询其

近邻，Xi的所有近邻表示为集合Nxi，相应的输出表示为集合Nyi。

210：在提取特征基础上进行去噪。

(s_p、s_q为Ns_i中任意元素，表示特征对应的输出)、满足下述任一公式，则判定(X_i,y_i)为噪声数据，其中α∈R为可调节参数，y_i为特征X_i对应的输出。

y_i＞max(Ns_i)+α·max(|s_p-s_q|) (4)

或

y_i＜min(Ns_i)-α·max(|s_p-s_q|) (5)

211：在对输入特征X进行预测时，使用原始模型得到预测值y，同时，将和X相应的误差特征eX输入到误差预测器中，得到结果y′，则***最终的预测值为y+y′。

综上所述，本发明实施例以k-d树为基础，提出了一种风电数据特征的噪声检测方法，能够检测出训练集合中的极端数据，以使得训练集数据一致性更佳，所训练模型鲁棒性、稳定性更强。

实施例3

下面结合具体的实验数据对实施例1和2中的方案进行可行性验证，详见下文描述：

风电功率预测问题本质上是一个数值预测问题，而评价数值预测问题有通用的标准，例如：平均绝对误差MAE、平均平方误差MSE和均方根误差RMSE等。通常一般以“误差率(误差与实际数值的百分比)”来评判模型，这种方法有一定的缺陷，例如误差率的数值依赖实际数值大小，当实际值很小时，即使预测误差很小，误差率也可能很大，反之，当实际值较大时，即使模型表现差，误差率也可能很小。本发明实施例主要使用MSE来评价和对比实验结果。MAE的计算公式如公式(6)所示。

公式(6)中，N表示预测目的个数，p_i和q_i分别为预测结果和实际结果，MSE的值越小，表示预测结果越好。

实验结果表明，通过在5个数据集对比SVR、k-NN、DT、ANNs和RW方法。区别于传统集成学习最大的不同在于组合弱模型结果时的权值计算方式。本发明实施例采用倒数法的集成学习方法统称为RW方法。集成学习方法采用的表现最好的支持向量机回归和神经网络叠加。决策树和神经网络算法存在一定的随机性。

通过最后对误差的预测，以MSE为评价标准时，本发明实施例提出的方法较SVR、k-NN，DT和ANNs在准确率均有提升，多个数据集上的平均结果显示，较上述四种方法分别提升了4.644％、12.088％、17.176％和5.629％。本发明实施例所设计的方法从两个大的方向对用于风电功率预测的机器学习模型进行改进，并在两个方面均有了一定提升。将二者综合到一起时，准确性更佳。传统方法与VFMLEs方法MSE结果对比结果如表1所示。

表1传统方法与VFMLEs方法MSE结果对比

由表1可见，不同的基本算法在单独使用时，表现有所差异，单个模型的表现与其用作同质集成学习的弱模型时表现的排名类似，例如：SVR优于k-NN。值得注意的是，表中的RW方法，其与VFMLEs的差别，仅在于弱模型组合方式的不同，用于训练RW弱模型的数据子集，也是依据时空特征的方差分组获得的。本发明实施例所提出最终VFMLEs-AM模型与其他方法对比结果如表2所示。

表2综合实验结果

从表2可知，以MSE为评价标准时，本发明实施例提出的方法较SVR、k-NN，DT和ANNs在准确率均有提升，多个数据集上的平均结果显示，较上述四种方法分别提升了4.644％、12.088％、17.176％和5.629％。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。