CN113886375A

CN113886375A - 一种基于孤立森林及局部离群因子的风功率数据清洗方法

Info

Publication number: CN113886375A
Application number: CN202111155302.2A
Authority: CN
Inventors: 刘洪波; 盖雪扬; 刘珅诚; 刘永发; 阎禹同; 张崇; 张书钰; 彭晓宇; 陈奇
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-04

Abstract

本发明一种基于孤立森林及局部离群因子的风功率数据清洗方法，基于孤立森林及局部离群因子的异常数据识别和风功率及其相关数据的数据重构，完成了风功率及其相关数据的数据清洗工作，有效解决了在采集、传输过程中，传统风电功率及其相关数据，所产生的异常数据或因为异常天气所引起的异常数据清洗问题，在对数据中的缺失值进行重构过程中,按照不同的数据类型，采用了合适的插值算法，保证数据的完整性，同时，保证了数据的合理性以及时序性，在之后的风电功率预测或其他用途中发挥更加高效的作用。

Description

一种基于孤立森林及局部离群因子的风功率数据清洗方法

技术领域

本发明涉及数据预处理技术领域，特别是涉及一种基于孤立森林及局部离群因子的风功率数据清洗方法。

背景技术

风电快速发展有力推动了能源绿色化的进程，但风电功率具有随机性强的特点，在大规模风电并网的情况下，会导致电力***不确定性增加。为了更好的实现风电的并网，提高大规模风电并网的稳定性及可控性，需要预测风电如何实现高精度功率。然而数据在采集、传输过程中，一些异常天气或其他的异常事件发生，导致风功率数据数据质量相对较差，从而影响风功率数据预测过程中的精度，采用合理的风功率数据清洗方法就显得尤为重要。在现有技术中，传统的风功率数据方法大多依靠风速-风功率曲线进行风功率数据清洗工作,难以处理对风功率及其相关数据的多维特征变量的数据清洗。

发明内容

本发明针对现有技术中存在的技术问题，创造性构思了一种基于孤立森林及局部离群因子的风功率数据清洗方法，基于孤立森林及局部离群因子的异常数据识别和风功率及其相关数据的数据重构，完成了风功率及其相关数据的数据清洗工作，满足在风功率预测问题中对原始风功率以及相关数据的质量要求。

实现本发明的技术方案是：一种基于孤立森林及局部离群因子的风功率数据清洗方法，其特征是，它包括以下步骤：

1)定义数据异常点：

风电功率是时序数据，在指定时间范围内，相对于多数数据点存在明显差异的离群点为数据异常点；

2)基于孤立森林的数据异常点识别：

在整个样本数据空间中，随机选择一个维度进行切割产生两个子空间，设切割点为p；在当前维度下，将小于切割点p的值放入它的左子树空间，将大于切割点p的值放入它的右子树空间；对两个子树空间进行切割递归，直至每个子树空间只有一个数据点或者切割达到所设定的阈值；处理后，那些孤立的离群点会很快的被分离出去；

3)基于局部离群因子的数据异常点识别：

局部离群因子算法LOF是通过量化每个样本点的异常程度，关注在局部数据点中的异常，通过比较局部数据点中相对距离和局部可达密度完成对数据异常点的检测工作；

设数据集中的样本集合为D，数据样本点的个数为m，数据样本点X的维度为n,即

d_k(o)为点O的第k距离d_k(O)＝d(O,P)，设N_K(O)为点O的第k距离邻域，可达距离以O为圆心，点P到点O的第k可达距离为:

d_k(P,O)＝max{d_k(O),d(P,O)} (2)

局部可达密度为:

局部离群因子为:

式中LOF_k(P)是在点P的邻域距离内其他数据点的局部可达密度与点P的局部可达密度的平均数；若比值接近1，说明O点的局部可达密度与其相邻点的局部可达密度接近，认为两个点属于同一类型；

4)数据重构：

根据不同的变量类型，风功率及其相关数据采用不同的数据重构方法；对数据中的分类变量，采用邻近缺失值插值的方式进行数据重构；当数据中的变量不是分类变量时，采用三次Hermite插值的方式进行数据重构工作。

本发明一种基于孤立森林及局部离群因子的风功率数据清洗方法的有益效果体现在：

1、一种基于孤立森林及局部离群因子的风功率数据清洗方法，有效解决了在采集、传输过程中，传统风电功率及其相关数据，所产生的异常数据或因为异常天气所引起的异常数据清洗问题,高质量的风功率及其相关数据可以在之后的风电功率预测或其他用途中发挥更加高效的作用；

2、一种基于孤立森林及局部离群因子的风功率数据清洗方法，基于孤立森林及局部离群因子算法的数据，采用了从全局到局部顺序清洗，可以有效对数据中的异常数据进行清洗；同时，为了避免利用数据相关性清洗会对之后的数据使用造成消极影响，采用孤立森林算法依次对数据中的每一维特征变量单独进行清洗；

3、一种基于孤立森林及局部离群因子的风功率数据清洗方法，在采用基于离群因子算法进行异常识别时，避免某一特征变量量级过大从而导致异常检测专注于该特征变量所导致的异常,采用了简单随机采样法,抽取其中的三维数据进行异常检测,计算出其中的lof值；避免异常检测结果的随机性,采用多次随机抽取的方式进行，最终将所得到的lof结果采用取平均值的方式来消除随机性所带来的消极影响；

4、一种基于孤立森林及局部离群因子的风功率数据清洗方法，在对数据中的缺失值进行重构的过程中,按照不同的数据类型，采用了合适的插值算法,保证数据的完整性，同时，保证了数据的合理性以及时序性。

附图说明

图1是实施例中，数据清洗中的异常数据识别流程框图；

图2是实施例中，数据清洗中的数据重构流程框图；

图3是实施例中，异常数据识别过程中正常点与异常点的三维分布图；

图4是实施例中，采用一种基于孤立森林及局部离群因子的风功率数据清洗方法，对风功率及其相关数据进行数据清洗前与数据清洗后的对预测精度的影响；

具体实施方式

以下结合附图1至附图4和具体实施例，对本发明作进一步详细说明，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照附图1和附图2所示，一种基于孤立森林及局部离群因子的风功率数据清洗方法，它包括以下步骤：

1)定义数据异常点：

2)基于孤立森林的数据异常点识别：

3)基于局部离群因子的数据异常点识别：

d_k(P,O)＝max{d_k(O),d(P,O)} (6)

局部可达密度为:

局部离群因子为:

4)数据重构：

实施例：一种基于孤立森林及局部离群因子的风功率数据清洗方法在风功率预测过程中的对比分析；

1.数据说明：

本实施例采用Kaggle上公开的风功率数据集，数据集中共有13150条数据，含有包括风速，桨叶角，电机扭矩，风向等17维数据；所采用的数据处理及预测方法都是在python3.8的环境下运行。

2.数据清洗及风功率预测：

首先，对数据采用基于孤立森林的清洗方法，在全局的角度下进行数据异常点的识别；在进行数据清洗的过程中，采用对每一维特征变量单独进行异常识别的清洗模式。其中，决策树的个数n_estimators＝150,孤立点的比例contamination＝0.01；清洗过程中将正常数据点标记为1，将异常数据点标记为-1，得到异常数据点312个，同时，将数据异常点采用三次Hermite插值的方式进行重构，对特别的数据项例如云层等级，叶片长度等含有固定数值的数据采用邻近点插值的方式进行重构，保证数据的完整性。

其次，利用局部离群因子(LOF)算法，对17维变量中采用简单随机采样法抽取三维变量进行异常点的识别，在实验过程中，共随机抽取了10次变量组，附图3为两次抽取了不同特征变量的异常数据检测结果，其中灰色点为正常数据点，黑色点为识别出的异常点。将10次异常检测所产生的LOF值，采取求平均值的方式，消除随机性对异常检测所带来的消极影响。在实验中采用欧氏距离作为局部离群因子(LOF)算法中的距离度量方法，同时，通过设定不同的k值，来调整各特征变量中异常点的选择范围。对实验之后得到的异常数据进行与之前相同的重构工作，完成从整体到局部的风功率及相关数据的清洗工作。

将清洗后的数据导入随机森林模型当中，进行训练数据和测试数据的划分，比例test_size＝0.1，随机数种子random_state＝40。将分配好的数据导入随机森林模型，袋外估计准确率得分oob_score＝True，使用全部的cpu线程进行运算n_jobs＝-1。

采用2019年9月10日之前的13134条数据进行训练，对之后的16个数据点进行预测。在风功率预测结果评价指标中选取均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、R²；作为对比，选取了未经过数据清洗的风功率数据进行随机森林预测、经过数据清洗的风功率数据进行随机森林预测、经过数据清洗的风功率数据进行XGBoost预测以及未经过数据清洗的风功率数据进行XGBoost预测，具体观察所提出清洗方法的有效性以及预测模型的准确性。

采取多次重复实验方式，进行十次实验取平均值；由附图4可知，进行有效数据清洗后的数据导入模型后，对比未进行有效数据清洗后的数据，各项评价系数指标都有了较为明显的提高，充分证明了所提出基于孤立森林和局部离群因子算法的数据清洗方法的有效性。

以上所述仅是本发明的优选方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应该视为本发明的保护范围。

Claims

1.一种基于孤立森林及局部离群因子的风功率数据清洗方法，其特征是，它包括以下步骤：

1)定义数据异常点：

2)基于孤立森林的数据异常点识别：

3)基于局部离群因子的数据异常点识别：

d_k(P,O)＝max{d_k(O),d(P,O)} (2)

局部可达密度为:

局部离群因子为:

4)数据重构：