CN113886375A - 一种基于孤立森林及局部离群因子的风功率数据清洗方法 - Google Patents

一种基于孤立森林及局部离群因子的风功率数据清洗方法 Download PDF

Info

Publication number
CN113886375A
CN113886375A CN202111155302.2A CN202111155302A CN113886375A CN 113886375 A CN113886375 A CN 113886375A CN 202111155302 A CN202111155302 A CN 202111155302A CN 113886375 A CN113886375 A CN 113886375A
Authority
CN
China
Prior art keywords
data
point
wind power
local
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111155302.2A
Other languages
English (en)
Inventor
刘洪波
盖雪扬
刘珅诚
刘永发
阎禹同
张崇
张书钰
彭晓宇
陈奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Electric Power University
Original Assignee
Northeast Dianli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Dianli University filed Critical Northeast Dianli University
Priority to CN202111155302.2A priority Critical patent/CN113886375A/zh
Publication of CN113886375A publication Critical patent/CN113886375A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Wind Motors (AREA)
  • Remote Monitoring And Control Of Power-Distribution Networks (AREA)

Abstract

本发明一种基于孤立森林及局部离群因子的风功率数据清洗方法,基于孤立森林及局部离群因子的异常数据识别和风功率及其相关数据的数据重构,完成了风功率及其相关数据的数据清洗工作,有效解决了在采集、传输过程中,传统风电功率及其相关数据,所产生的异常数据或因为异常天气所引起的异常数据清洗问题,在对数据中的缺失值进行重构过程中,按照不同的数据类型,采用了合适的插值算法,保证数据的完整性,同时,保证了数据的合理性以及时序性,在之后的风电功率预测或其他用途中发挥更加高效的作用。

Description

一种基于孤立森林及局部离群因子的风功率数据清洗方法
技术领域
本发明涉及数据预处理技术领域,特别是涉及一种基于孤立森林及局部离群因子的风功率数据清洗方法。
背景技术
风电快速发展有力推动了能源绿色化的进程,但风电功率具有随机性强的特点,在大规模风电并网的情况下,会导致电力***不确定性增加。为了更好的实现风电的并网,提高大规模风电并网的稳定性及可控性,需要预测风电如何实现高精度功率。然而数据在采集、传输过程中,一些异常天气或其他的异常事件发生,导致风功率数据数据质量相对较差,从而影响风功率数据预测过程中的精度,采用合理的风功率数据清洗方法就显得尤为重要。在现有技术中,传统的风功率数据方法大多依靠风速-风功率曲线进行风功率数据清洗工作,难以处理对风功率及其相关数据的多维特征变量的数据清洗。
发明内容
本发明针对现有技术中存在的技术问题,创造性构思了一种基于孤立森林及局部离群因子的风功率数据清洗方法,基于孤立森林及局部离群因子的异常数据识别和风功率及其相关数据的数据重构,完成了风功率及其相关数据的数据清洗工作,满足在风功率预测问题中对原始风功率以及相关数据的质量要求。
实现本发明的技术方案是:一种基于孤立森林及局部离群因子的风功率数据清洗方法,其特征是,它包括以下步骤:
1)定义数据异常点:
风电功率是时序数据,在指定时间范围内,相对于多数数据点存在明显差异的离群点为数据异常点;
2)基于孤立森林的数据异常点识别:
在整个样本数据空间中,随机选择一个维度进行切割产生两个子空间,设切割点为p;在当前维度下,将小于切割点p的值放入它的左子树空间,将大于切割点p的值放入它的右子树空间;对两个子树空间进行切割递归,直至每个子树空间只有一个数据点或者切割达到所设定的阈值;处理后,那些孤立的离群点会很快的被分离出去;
3)基于局部离群因子的数据异常点识别:
局部离群因子算法LOF是通过量化每个样本点的异常程度,关注在局部数据点中的异常,通过比较局部数据点中相对距离和局部可达密度完成对数据异常点的检测工作;
设数据集中的样本集合为D,数据样本点的个数为m,数据样本点X的维度为n,即
Figure BDA0003288274420000023
dk(o)为点O的第k距离dk(O)=d(O,P),设NK(O)为点O的第k距离邻域,可达距离以O为圆心,点P到点O的第k可达距离为:
dk(P,O)=max{dk(O),d(P,O)} (2)
局部可达密度为:
Figure BDA0003288274420000021
局部离群因子为:
Figure BDA0003288274420000022
式中LOFk(P)是在点P的邻域距离内其他数据点的局部可达密度与点P的局部可达密度的平均数;若比值接近1,说明O点的局部可达密度与其相邻点的局部可达密度接近,认为两个点属于同一类型;
4)数据重构:
根据不同的变量类型,风功率及其相关数据采用不同的数据重构方法;对数据中的分类变量,采用邻近缺失值插值的方式进行数据重构;当数据中的变量不是分类变量时,采用三次Hermite插值的方式进行数据重构工作。
本发明一种基于孤立森林及局部离群因子的风功率数据清洗方法的有益效果体现在:
1、一种基于孤立森林及局部离群因子的风功率数据清洗方法,有效解决了在采集、传输过程中,传统风电功率及其相关数据,所产生的异常数据或因为异常天气所引起的异常数据清洗问题,高质量的风功率及其相关数据可以在之后的风电功率预测或其他用途中发挥更加高效的作用;
2、一种基于孤立森林及局部离群因子的风功率数据清洗方法,基于孤立森林及局部离群因子算法的数据,采用了从全局到局部顺序清洗,可以有效对数据中的异常数据进行清洗;同时,为了避免利用数据相关性清洗会对之后的数据使用造成消极影响,采用孤立森林算法依次对数据中的每一维特征变量单独进行清洗;
3、一种基于孤立森林及局部离群因子的风功率数据清洗方法,在采用基于离群因子算法进行异常识别时,避免某一特征变量量级过大从而导致异常检测专注于该特征变量所导致的异常,采用了简单随机采样法,抽取其中的三维数据进行异常检测,计算出其中的lof值;避免异常检测结果的随机性,采用多次随机抽取的方式进行,最终将所得到的lof结果采用取平均值的方式来消除随机性所带来的消极影响;
4、一种基于孤立森林及局部离群因子的风功率数据清洗方法,在对数据中的缺失值进行重构的过程中,按照不同的数据类型,采用了合适的插值算法,保证数据的完整性,同时,保证了数据的合理性以及时序性。
附图说明
图1是实施例中,数据清洗中的异常数据识别流程框图;
图2是实施例中,数据清洗中的数据重构流程框图;
图3是实施例中,异常数据识别过程中正常点与异常点的三维分布图;
图4是实施例中,采用一种基于孤立森林及局部离群因子的风功率数据清洗方法,对风功率及其相关数据进行数据清洗前与数据清洗后的对预测精度的影响;
具体实施方式
以下结合附图1至附图4和具体实施例,对本发明作进一步详细说明,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照附图1和附图2所示,一种基于孤立森林及局部离群因子的风功率数据清洗方法,它包括以下步骤:
1)定义数据异常点:
风电功率是时序数据,在指定时间范围内,相对于多数数据点存在明显差异的离群点为数据异常点;
2)基于孤立森林的数据异常点识别:
在整个样本数据空间中,随机选择一个维度进行切割产生两个子空间,设切割点为p;在当前维度下,将小于切割点p的值放入它的左子树空间,将大于切割点p的值放入它的右子树空间;对两个子树空间进行切割递归,直至每个子树空间只有一个数据点或者切割达到所设定的阈值;处理后,那些孤立的离群点会很快的被分离出去;
3)基于局部离群因子的数据异常点识别:
局部离群因子算法LOF是通过量化每个样本点的异常程度,关注在局部数据点中的异常,通过比较局部数据点中相对距离和局部可达密度完成对数据异常点的检测工作;
设数据集中的样本集合为D,数据样本点的个数为m,数据样本点X的维度为n,即
Figure BDA0003288274420000043
dk(o)为点O的第k距离dk(O)=d(O,P),设NK(O)为点O的第k距离邻域,可达距离以O为圆心,点P到点O的第k可达距离为:
dk(P,O)=max{dk(O),d(P,O)} (6)
局部可达密度为:
Figure BDA0003288274420000041
局部离群因子为:
Figure BDA0003288274420000042
式中LOFk(P)是在点P的邻域距离内其他数据点的局部可达密度与点P的局部可达密度的平均数;若比值接近1,说明O点的局部可达密度与其相邻点的局部可达密度接近,认为两个点属于同一类型;
4)数据重构:
根据不同的变量类型,风功率及其相关数据采用不同的数据重构方法;对数据中的分类变量,采用邻近缺失值插值的方式进行数据重构;当数据中的变量不是分类变量时,采用三次Hermite插值的方式进行数据重构工作。
实施例:一种基于孤立森林及局部离群因子的风功率数据清洗方法在风功率预测过程中的对比分析;
1.数据说明:
本实施例采用Kaggle上公开的风功率数据集,数据集中共有13150条数据,含有包括风速,桨叶角,电机扭矩,风向等17维数据;所采用的数据处理及预测方法都是在python3.8的环境下运行。
2.数据清洗及风功率预测:
首先,对数据采用基于孤立森林的清洗方法,在全局的角度下进行数据异常点的识别;在进行数据清洗的过程中,采用对每一维特征变量单独进行异常识别的清洗模式。其中,决策树的个数n_estimators=150,孤立点的比例contamination=0.01;清洗过程中将正常数据点标记为1,将异常数据点标记为-1,得到异常数据点312个,同时,将数据异常点采用三次Hermite插值的方式进行重构,对特别的数据项例如云层等级,叶片长度等含有固定数值的数据采用邻近点插值的方式进行重构,保证数据的完整性。
其次,利用局部离群因子(LOF)算法,对17维变量中采用简单随机采样法抽取三维变量进行异常点的识别,在实验过程中,共随机抽取了10次变量组,附图3为两次抽取了不同特征变量的异常数据检测结果,其中灰色点为正常数据点,黑色点为识别出的异常点。将10次异常检测所产生的LOF值,采取求平均值的方式,消除随机性对异常检测所带来的消极影响。在实验中采用欧氏距离作为局部离群因子(LOF)算法中的距离度量方法,同时,通过设定不同的k值,来调整各特征变量中异常点的选择范围。对实验之后得到的异常数据进行与之前相同的重构工作,完成从整体到局部的风功率及相关数据的清洗工作。
将清洗后的数据导入随机森林模型当中,进行训练数据和测试数据的划分,比例test_size=0.1,随机数种子random_state=40。将分配好的数据导入随机森林模型,袋外估计准确率得分oob_score=True,使用全部的cpu线程进行运算n_jobs=-1。
采用2019年9月10日之前的13134条数据进行训练,对之后的16个数据点进行预测。在风功率预测结果评价指标中选取均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、R2;作为对比,选取了未经过数据清洗的风功率数据进行随机森林预测、经过数据清洗的风功率数据进行随机森林预测、经过数据清洗的风功率数据进行XGBoost预测以及未经过数据清洗的风功率数据进行XGBoost预测,具体观察所提出清洗方法的有效性以及预测模型的准确性。
采取多次重复实验方式,进行十次实验取平均值;由附图4可知,进行有效数据清洗后的数据导入模型后,对比未进行有效数据清洗后的数据,各项评价系数指标都有了较为明显的提高,充分证明了所提出基于孤立森林和局部离群因子算法的数据清洗方法的有效性。
以上所述仅是本发明的优选方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应该视为本发明的保护范围。

Claims (1)

1.一种基于孤立森林及局部离群因子的风功率数据清洗方法,其特征是,它包括以下步骤:
1)定义数据异常点:
风电功率是时序数据,在指定时间范围内,相对于多数数据点存在明显差异的离群点为数据异常点;
2)基于孤立森林的数据异常点识别:
在整个样本数据空间中,随机选择一个维度进行切割产生两个子空间,设切割点为p;在当前维度下,将小于切割点p的值放入它的左子树空间,将大于切割点p的值放入它的右子树空间;对两个子树空间进行切割递归,直至每个子树空间只有一个数据点或者切割达到所设定的阈值;处理后,那些孤立的离群点会很快的被分离出去;
3)基于局部离群因子的数据异常点识别:
局部离群因子算法LOF是通过量化每个样本点的异常程度,关注在局部数据点中的异常,通过比较局部数据点中相对距离和局部可达密度完成对数据异常点的检测工作;
设数据集中的样本集合为D,数据样本点的个数为m,数据样本点X的维度为n,即
Figure FDA0003288274410000011
dk(o)为点O的第k距离dk(O)=d(O,P),设NK(O)为点O的第k距离邻域,可达距离以O为圆心,点P到点O的第k可达距离为:
dk(P,O)=max{dk(O),d(P,O)} (2)
局部可达密度为:
Figure FDA0003288274410000012
局部离群因子为:
Figure FDA0003288274410000013
式中LOFk(P)是在点P的邻域距离内其他数据点的局部可达密度与点P的局部可达密度的平均数;若比值接近1,说明O点的局部可达密度与其相邻点的局部可达密度接近,认为两个点属于同一类型;
4)数据重构:
根据不同的变量类型,风功率及其相关数据采用不同的数据重构方法;对数据中的分类变量,采用邻近缺失值插值的方式进行数据重构;当数据中的变量不是分类变量时,采用三次Hermite插值的方式进行数据重构工作。
CN202111155302.2A 2021-09-29 2021-09-29 一种基于孤立森林及局部离群因子的风功率数据清洗方法 Pending CN113886375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111155302.2A CN113886375A (zh) 2021-09-29 2021-09-29 一种基于孤立森林及局部离群因子的风功率数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111155302.2A CN113886375A (zh) 2021-09-29 2021-09-29 一种基于孤立森林及局部离群因子的风功率数据清洗方法

Publications (1)

Publication Number Publication Date
CN113886375A true CN113886375A (zh) 2022-01-04

Family

ID=79004437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111155302.2A Pending CN113886375A (zh) 2021-09-29 2021-09-29 一种基于孤立森林及局部离群因子的风功率数据清洗方法

Country Status (1)

Country Link
CN (1) CN113886375A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580580A (zh) * 2022-05-07 2022-06-03 深圳索信达数据技术有限公司 一种智能运维异常检测方法及装置
CN117370744A (zh) * 2023-12-07 2024-01-09 国网天津市电力公司营销服务中心 一种电力用户用电异常数据动态清洗方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340063A (zh) * 2020-02-10 2020-06-26 北京华电天仁电力控制技术有限公司 一种磨煤机数据异常检测方法
CN112685950A (zh) * 2020-12-02 2021-04-20 山东省计算中心(国家超级计算济南中心) 一种海洋时序观测数据的异常检测方法、***和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340063A (zh) * 2020-02-10 2020-06-26 北京华电天仁电力控制技术有限公司 一种磨煤机数据异常检测方法
CN112685950A (zh) * 2020-12-02 2021-04-20 山东省计算中心(国家超级计算济南中心) 一种海洋时序观测数据的异常检测方法、***和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘洪波等: "基于数据清洗的风功率预测模型及其分析", 《电气自动化》, vol. 45, no. 05, 30 September 2023 (2023-09-30), pages 67 - 71 *
胡阳等: "基于置信等效边界模型的风功率数据清洗方法", 《电力***自动化》, vol. 42, no. 15, 10 August 2018 (2018-08-10), pages 18 - 23 *
郭钇秀: "基于数据挖掘的配电网网损预测研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, 15 July 2021 (2021-07-15), pages 042 - 684 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580580A (zh) * 2022-05-07 2022-06-03 深圳索信达数据技术有限公司 一种智能运维异常检测方法及装置
CN114580580B (zh) * 2022-05-07 2022-08-16 深圳索信达数据技术有限公司 一种智能运维异常检测方法及装置
CN117370744A (zh) * 2023-12-07 2024-01-09 国网天津市电力公司营销服务中心 一种电力用户用电异常数据动态清洗方法及***

Similar Documents

Publication Publication Date Title
CN113886375A (zh) 一种基于孤立森林及局部离群因子的风功率数据清洗方法
CN111898447B (zh) 基于辛几何模态分解的风电机组故障特征提取方法
CN114742097A (zh) 一种基于轴承振动信号自动确定变分模态分解参数的优化算法
CN112288193A (zh) 基于注意力机制的gru深度学习的海洋站表层盐度预测方法
CN110020680B (zh) 一种基于随机矩阵理论和模糊c均值聚类算法的pmu数据分类方法
CN110212592B (zh) 基于分段线性表达的火电机组负荷调节最大速率估计方法及***
CN113076920B (zh) 一种基于非对称域对抗自适应模型的智能故障诊断方法
CN117370744A (zh) 一种电力用户用电异常数据动态清洗方法及***
CN116226619B (zh) 一种基于ingo优化hkelm的齿轮箱故障诊断方法
Channoufi et al. Color image segmentation with bounded generalized gaussian mixture model and feature selection
CN117251798A (zh) 一种基于两层渐进式的气象设备异常检测方法
CN106405683B (zh) 基于g-l混合噪声特性核岭回归技术的风速预报方法及装置
CN114755010A (zh) 一种旋转机械振动故障诊断方法及其***
CN112633368B (zh) 基于改进多粒度级联森林的扁平振动电机缺陷检测***及方法
CN107395540B (zh) 基于lmd近似熵、高积累积量和svm的调制信号识别方法
CN115618202A (zh) 一种基于流形嵌入和关键特征选取的机械故障诊断方法
CN113128071B (zh) 一种含光伏发电的发电***可靠性评估方法
CN114912718A (zh) 基于离散小波变换特征提取的太阳辐照度超短期预测方法
CN114595213A (zh) 一种关于土壤数据集的多重插补方法
CN108964134B (zh) 基于面积灰色关联决策的分布式电源规划的概率分析方法
CN112464811A (zh) 一种抽水蓄能机组振摆信号中高频随机噪声精准滤除方法
CN107392379B (zh) 一种基于Lorenz扰动的时间序列风速预测方法
CN106296704B (zh) 通用型图像分割方法
CN113989201B (zh) 一种基于云计算与lstm的轴心轨迹识别方法
Guo et al. Fault diagnosis of motor based on VMD-sample entropy-random forest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination