CN110134919B - 风电机组异常数据清洗方法 - Google Patents
风电机组异常数据清洗方法 Download PDFInfo
- Publication number
- CN110134919B CN110134919B CN201910361399.9A CN201910361399A CN110134919B CN 110134919 B CN110134919 B CN 110134919B CN 201910361399 A CN201910361399 A CN 201910361399A CN 110134919 B CN110134919 B CN 110134919B
- Authority
- CN
- China
- Prior art keywords
- data
- wind speed
- power
- boundary line
- probability density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Wind Motors (AREA)
Abstract
本发明属于数据分析与处理技术领域,尤其涉及一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法,包括:风电机组运行数据预处理;采用最优组内方差法剔除限电区域的数据;采用二维概率密度估计法剔除密度稀疏的异常值;通过上下边界线获取正常运行数据。采用最优组内方差和二维概率密度估计结合的方案,既解决了最优组内方差清洗堆积数据会遗留下离散的数据的问题,又解决了二维概率密度估计无法排除高密度限电数据的问题,整体上提高了数据清洗运行工况的适应性。
Description
技术领域
本发明属于数据分析与处理技术领域,尤其涉及一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法。
背景技术
风电机组功率曲线是反映其性能的最重要特性。标准功率曲线是在标准条件下测试获得,而风电机组的实际运行条件非常复杂,多数偏离标准测试条件。为了获得准确的风电机组的实际运行功率曲线,必须对这些运行数据进行清洗,剔除不符合条件的数据。因此,风电机组运行数据的清洗是风电大数据分析的核心技术之一。
海量的风电机组运行数据中存在大量的低于机组设计功率的运行数据,称之为降功率数据。其产生原因可能是:人工限负荷、机组健康状态引起的性能降级、传感器失灵、控制***故障等。目前风电机组运行数据的清洗方法主要有方差阈值、方差变化率和基于概率密度的聚类等。方差阈值和方差变化率对堆积型限电数据清洗效果好,但会遗漏一些低密度稀疏数据;基于密度的聚类对于低密度的稀疏数据清洗效果好,但无法排除高密度限电数据。当前风电机组运行数据清洗技术的主要缺陷是运行工况适应性差。
发明内容
针对上述问题,本发明提出了一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法,包括:
步骤1:风电机组运行数据预处理;
步骤2:采用最优组内方差法剔除限电区域的数据;
步骤3:采用二维概率密度估计法剔除密度稀疏的异常值;
步骤4:通过上下边界线获取正常运行数据。
所述预处理包括:删除机组故障、停机或传感器故障条件下风速和功率数值超范围的原始运行数据。
所述步骤2具体包括:将数据集分为n个风速区间,对每个风速区间内的风速功率组按功率降序排序,并对功率集合做滑动方差得到滑差向量,保留比全局阈值小的元素来作为新的风速功率组。
所述步骤3具体包括:对所述步骤2中新的风速功率组进行归一化处理,然后进行非参数二维核密度估计,应用网格法得到概率密度矩阵;保留概率密度矩阵中小于密度阈值的元素,得到新的概率密度矩阵,并按功率从小到大顺序排序,第一个非零元素作为下边界点,最后一个非零元素作为上边界点,连接所有下边界点和上边界点即可分别获得下、上边界线。
所述步骤4具体包括:对风速功率组的上下边界线进行反归一化,得到实际坐标的上下边界线;保留边界线内的原始数据,删除边界线以外的数据,从而筛选出正常风速功率数据。
本发明的有益效果:本发明采用最优组内方差和二维概率密度估计结合的方案,既解决了最优组内方差清洗堆积数据会遗留下离散的数据的问题,又解决了二维概率密度估计无法排除高密度限电数据的问题,整体上提高了数据清洗运行工况的适应性。本发明只需对风速和功率二维数据进行分析,不仅降低了传统方法对多维数据的依赖性,而且可以准确辨识出风电机组的运行状态,具有较强的通用性。
附图说明
图1为未经处理的风速功率原始数据。
图2为使用最优组内方差进行处理后的数据。
图3为使用二维概率密度清洗后的风速功率密度矩阵。
图4为优化后的风速功率概率密度矩阵。
图5为由风速功率密度矩阵确定的上下边界线。
图6为经上下边界线筛选出正常运行数据。
图7为原始数据分离结果。
图8为密度矩阵的缺失导致上下边界畸形。
图9为本发明的方法流程图。
具体实施方式
下面结合附图,对实施例作详细说明。
本发明提出了一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法,如图9所示,包括:
步骤1:风电机组运行数据预处理;
步骤2:采用最优组内方差法剔除限电区域的数据;
步骤3:采用二维概率密度估计法剔除密度稀疏的异常值;
步骤4:通过上下边界线获取正常运行数据。
1)数据预处理。
原始数据中存在很多停机、故障、传感器失灵等原因造成的异常数据甚至是空数据,即,风速大于切出风速或小于0的,功率小于0的。如图1所示。先删除这些数据,保证数据有效性,得到风速功率数据集X。
2)使用最优组内方差法剔除高密度限电区域。
按照T=0.25m/s的风速区间将步骤1的数据集X分为100个区间,即,X={X1,X2...X100}。以第33个风速区间内有827个风速功率组为例。把这些风速功率组按照功率降序排序,得到X33={(v1,p1),(v2,p2),...(v827,p827)},其中p1>p2>…>p827。
然后依次对滑动功率组[p1]、[p1,p2]、[p1,p2,p3]…[p1,p2…p827]求方差,得到第33个风速区间的方差向量设置全局阈值Si=4900,令S33中大于Si的元素置零,得到其中S33中非零元素为698个,过程如表1所示。
然后对该风速区间的风速功率组进行处理:X33中保留前698个风速功率组。即X33={(v1,p1),(v2,p2),…,(v698,p698)}。
同理可得所有风速区间的风速功率组vp={X1,X2,...,X100}。结果如图2所示。
表1第33个风速区间按功率大小排列的风速功率组
3)使用二维概率密度估计法对密度稀疏的异常值进行清洗。
①对vp先进行归一化处理,然后对其进行二维核密度估计。对于风速功率组,其二维概率密度函数表示为:
式中hv和hp分别为风速和功率的窗宽;n为样本数;Kv(·)和Kp(·)分别为风速和功率的核函数,这里我们取高斯核函数。结果如图3所示。
②由核密度估计得到概率密度矩阵density。设定密度阈值D,density中小于D的元素,全部置为零。得到新的概率密度矩阵Den。
③由于存在正常数据的概率密度低于阈值的情况,尤其在额定风速以后的区域,如果直接求边界线可能会导致密度矩阵的上下边界线产生畸变,如图8。因此需要对额定风速后的密度矩阵进行优化(额定风速到切出风速之间补充密度值),尽量使其边界线连续,从而达到优化边界线的目的。得到den矩阵。如图4。
④在den中每个风速区间内按照功率从小到大的顺序,第一个非零元素作为下边界点,最后一个非零元素作为上边界点,连接这些点即可获得上下边界线,Upperline和Lowerline。如图5。
4)获取风电机组正常运行数据
对风速功率组的上下边界线进行反归一化,得到实际坐标的上下边界线。保留边界线内的原始数据,删除边界线以外的数据,从而筛选出正常风速功率数据。如图6~7所示。
此实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (2)
1.一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法,其特征在于,包括:
步骤1:风电机组运行数据预处理;
步骤2:采用最优组内方差法剔除限电区域的数据;
步骤3:采用二维概率密度估计法剔除密度稀疏的异常值;
步骤4:通过上下边界线获取正常运行数据;
所述预处理包括:删除机组故障、停机或传感器故障条件下风速和功率数值超范围的原始运行数据;
所述步骤2具体包括:将数据集分为n个风速区间,对每个风速区间内的风速功率组按功率降序排序,并对功率集合做滑动方差得到滑差向量,保留比全局阈值小的元素来作为新的风速功率组;
所述步骤3具体包括:对所述步骤2中新的风速功率组进行归一化处理,然后进行非参数二维核密度估计,应用网格法得到概率密度矩阵;保留概率密度矩阵中小于密度阈值的元素,得到新的概率密度矩阵,并按功率从小到大顺序排序,第一个非零元素作为下边界点,最后一个非零元素作为上边界点,连接所有下边界点和上边界点即可分别获得下、上边界线。
2.根据权利要求1所述风电机组异常数据清洗方法,其特征在于,所述步骤4具体包括:对风速功率组的上下边界线进行反归一化,得到实际坐标的上下边界线;保留边界线内的原始数据,删除边界线以外的数据,从而筛选出正常风速功率数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910361399.9A CN110134919B (zh) | 2019-04-30 | 2019-04-30 | 风电机组异常数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910361399.9A CN110134919B (zh) | 2019-04-30 | 2019-04-30 | 风电机组异常数据清洗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134919A CN110134919A (zh) | 2019-08-16 |
CN110134919B true CN110134919B (zh) | 2020-12-15 |
Family
ID=67575816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910361399.9A Active CN110134919B (zh) | 2019-04-30 | 2019-04-30 | 风电机组异常数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134919B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110685857B (zh) * | 2019-10-16 | 2021-10-15 | 湘潭大学 | 一种基于集成学习的山地风电机组行为预测模型 |
CN110795690A (zh) * | 2019-10-24 | 2020-02-14 | 大唐(赤峰)新能源有限公司 | 风电场运行异常数据检测方法 |
CN111145109B (zh) * | 2019-12-09 | 2023-03-31 | 深圳先进技术研究院 | 基于图像的风力发电功率曲线异常数据识别与清洗方法 |
CN111563543B (zh) * | 2020-04-26 | 2023-07-04 | 国网冀北电力有限公司电力科学研究院 | 一种风电机组的风速-发电功率数据的清洗方法及装置 |
CN114037127A (zh) * | 2021-10-25 | 2022-02-11 | 华能射阳新能源发电有限公司 | 风电机组的故障预测方法及装置 |
CN113991855A (zh) * | 2021-10-29 | 2022-01-28 | 国网上海市电力公司 | 综合能源***运行初期的性能监测及故障预警方法、*** |
CN114091354B (zh) * | 2022-01-07 | 2022-05-17 | 国能日新科技股份有限公司 | 风电机组功率预测模型样本集的获取方法及装置 |
CN114548843B (zh) * | 2022-04-25 | 2022-07-15 | 北京寄云鼎城科技有限公司 | 风力发电机功率数据的处理方法、计算机设备及介质 |
CN117787951A (zh) * | 2023-12-26 | 2024-03-29 | 中数科技(青岛)有限公司 | 基于深度学习的港口作业数字孪生数据处理***和方法 |
CN117494618B (zh) * | 2024-01-03 | 2024-04-09 | 北京亚能电气设备有限公司 | 一种基于实时网络的风电场智能图像监控*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108412710B (zh) * | 2018-01-30 | 2019-08-06 | 同济大学 | 一种风电机组风功率数据清洗方法 |
CN108590982B (zh) * | 2018-03-26 | 2020-08-11 | 华北电力大学 | 一种风电机组限功率运行的异常数据处理方法 |
-
2019
- 2019-04-30 CN CN201910361399.9A patent/CN110134919B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110134919A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134919B (zh) | 风电机组异常数据清洗方法 | |
CN109035149B (zh) | 一种基于深度学习的车牌图像去运动模糊方法 | |
CN109461148A (zh) | 基于二维Otsu的钢轨缺陷分割自适应快速算法 | |
CN106649579A (zh) | 一种用于管网建模的时序数据清洗方法 | |
CN111275307A (zh) | 一种水质自动在线站高频连续观测数据质量控制方法 | |
CN107391515A (zh) | 基于关联规则分析的电力***指标分析方法 | |
CN110991527B (zh) | 一种考虑电压曲线平均波动率的相似度阈值确定方法 | |
CN106570790B (zh) | 一种计及风速数据分段特性的风电场出力数据修复方法 | |
CN103247047A (zh) | 一种基于分数阶偏微分的图像边缘检测方法 | |
CN111275570A (zh) | 一种基于迭代式统计与假设检验的风电机组功率异常值检测方法 | |
CN115935144A (zh) | 一种运检维护数据去噪重构方法 | |
CN105913402B (zh) | 一种基于ds证据理论的多幅遥感图像融合去噪方法 | |
CN112101765A (zh) | 一种配电网运行指标数据异常数据处理方法及*** | |
CN111353131B (zh) | 一种码载偏离度阈值计算的方法 | |
Jia | Fabric defect detection based on open source computer vision library OpenCV | |
CN104535827A (zh) | Ad采样中去坏点方法和*** | |
Wang et al. | Effective segmentation approach for solar photovoltaic panels in uneven illuminated color infrared images | |
CN117874429A (zh) | 一种互联电力***边界数据正态修正与递归寻优方法 | |
Chen et al. | An efficient universal noise removal algorithm combining spatial gradient and impulse statistic | |
Karthikeyan et al. | Efficient decision based algorithm for the removal of high density salt and pepper noise in images | |
CN114973009A (zh) | 适用于全局遥感影像去云方法、装置及计算机设备 | |
CN109298999B (zh) | 一种基于数据分布特征的核心化软件测试方法和装置 | |
CN113821419A (zh) | 一种基于svr和高斯函数的云服务器老化预测方法 | |
CN108492307B (zh) | 一种磁共振adc图像分割方法及使用该方法的磁共振*** | |
CN112651936A (zh) | 基于图像局部熵的钢板表面缺陷图像分割方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |