CN112783883A - 一种多源数据接入下电力数据标准化清洗方法和装置 - Google Patents

一种多源数据接入下电力数据标准化清洗方法和装置 Download PDF

Info

Publication number
CN112783883A
CN112783883A CN202110094083.5A CN202110094083A CN112783883A CN 112783883 A CN112783883 A CN 112783883A CN 202110094083 A CN202110094083 A CN 202110094083A CN 112783883 A CN112783883 A CN 112783883A
Authority
CN
China
Prior art keywords
data
cleaning
source
clustering
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110094083.5A
Other languages
English (en)
Inventor
周立德
黎鸣
陈凤超
梅傲琪
胡润锋
钟志明
邱泽坚
何毅鹏
黄达区
饶欢
张锐
刘沛林
徐睿烽
鲁承波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202110094083.5A priority Critical patent/CN112783883A/zh
Publication of CN112783883A publication Critical patent/CN112783883A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种多源数据接入下电力数据标准化清洗方法,包括:S10、数据初步聚类处理,使用K均值算法对采集到的数据进行读取,根据数据的属性值特征对采集到的数据进行分类,S20、多源数据清洗采用聚类处理后的数据作为数据清洗的数据来源,将处理后的数据设定为数据库形式,并采用现有的数据清洗工具完成多源数据清洗工作。本发明的有益效果是:根据数据的属性值特征对采集到的数据进行分类,采用聚类处理后的数据作为数据清洗的数据来源,将处理后的数据设定为数据库形式,采用现有的数据清洗工具完成多源数据清洗工作,提高数据库数据处理结果的精确度,进而提高清洗数据的准确率。

Description

一种多源数据接入下电力数据标准化清洗方法和装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种多源数据接入下电力数据标准化清洗方法和装置。
背景技术
人们可以使用越来越多的数据资源,但是海量的数据并不一定具有真正的价值,数据的价值来源于其质量,而数据挖掘的质量直接影响决策的质量。然而,人工处理这些庞大而杂乱的数据是非常困难的,数据质量问题已成为制约数据应用和处理的瓶颈之一。纠正数据中的质量问题,避免决策失误,降低决策风险,是数据处理的重要环节。在以往的研究中,采用数据标准化清洗***来完成数据清洗。然而,由于数据量的增加,多源数据的出现对***的性能产生了影响,电力数据尤为明显。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种多源数据接入下电力数据标准化清洗方法和装置。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
S10、电力数据初步聚类处理,使用K均值算法对采集到的数据进行读取,根据数据的属性值特征对采集到的数据进行分类,完成电力数据聚类处理;
S20、电力多源数据清洗,采用聚类处理后的数据作为数据清洗的数据来源,完成电力数据标准化清洗。
进一步地,S10中,数据进行分类的工作处理复杂性可表示为A(n),将采集到的数据采用字符串的形式体现,其数据聚类计算复杂性可表示为A(m·I),其中m表示不同属性数据的个数,I表示相同属性的数据个数,为保证数据聚类的可行性,设定初步聚类处理中的约束条件表示为:
Figure BDA0002912607040000021
式中,S表示聚类核心距离,对此公式进行变换,得到适用于多源数据聚类约束条件,则有:
Figure BDA0002912607040000022
A(m·I)=A(n)
采用计算相似度的形式,控制聚类核心距离的计算精度,通过公式表示为:
J(A,B)=|A∩B|/|A∪B|
式中,J表示计算核心距离的相似度,B为计算结果,通过此公式将计算结果的误差值控制在0.5%之内,以此保证后续计算的有效性;
设定G表示数据类型出现的次数,H表示此部分数据类型出现的权重,则计算中此类型数据出现的频率R可表示为:
Figure BDA0002912607040000023
将上述公式融入数据聚类模块中,完成数据聚类处理;
S20、多源数据清洗,采用聚类处理后的数据作为数据清洗的数据来源,将处理后的数据设定为数据库形式,设定在数据库Y中具有两组数据,其中一组为无需清洗的数据集合,另一组为需要清洗的数据,无需清洗的数据设定为C,C中包含的数据全部由数据库Y中元素组成,fc(a)表示C在数据库中出现的次数,Qc(a)为待清洗数据在数据库中与无需清洗数据的相似度,则有:
Figure BDA0002912607040000031
设定Qc(v)表示数据库中子集v在数据库中的相似度,则有:
Figure BDA0002912607040000032
设定v1∈C,v2∈C,则数据v2与v1的关系表示为:
Figure BDA0002912607040000033
通过上述公式可对数据库中需要拆分出的数据进行处理,并采用现有的数据清洗工具完成多源数据清洗工作。
所述电力数据包括年度、月度以及单日的电力生产数据和用电数据。
其中,所述数据清洗工具至少为IDCENTRIC、PUREINTEGRATE、TRILLIUM、DATACLEANSESER、MATCHIT中的一种。
一种多源数据接入下电力数据标准化清洗装置,用于运行上述的多源数据接入下电力数据标准化清洗方法,包括开发板、直流电源、稳压电路、通信接口,所述直流电源通过稳压电路给开发板供电,所述直流电源直接为通信接口供电,所述开发板的USB接口和网口与通信接口连接,所述开发板上安装有ARM芯片、时钟电路、复位电路、通信模块、定时器,所述ARM芯片分别与时钟电路、复位电路、通信模块、定时器连接。
其中,所述ARM芯片的型号为S3C2440。
本发明的有益效果是:根据数据的属性值特征对采集到的数据进行分类,采用聚类处理后的数据作为数据清洗的数据来源,将处理后的数据设定为数据库形式,采用现有的数据清洗工具完成多源数据清洗工作,提高数据库数据处理结果的精确度,进而提高清洗数据的准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例中清洗方法的流程图的结构示意图;
图2是本发明实施例中清洗装置的框架图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
如图1所示,一种多源数据接入下电力数据标准化清洗方法,包括:
S10、电力数据初步聚类处理,使用K均值算法对采集到的数据进行读取,根据数据的属性值特征对采集到的数据进行分类,此工作处理复杂性可表示为A(n),将采集到的数据采用字符串的形式体现,其数据聚类计算复杂性可表示为A(m·I),其中m表示不同属性数据的个数,I表示相同属性的数据个数,为保证数据聚类的可行性,设定初步聚类处理中的约束条件表示为:
Figure BDA0002912607040000041
式中,S表示聚类核心距离,对此公式进行变换,得到适用于多源数据聚类约束条件,则有:
Figure BDA0002912607040000042
A(m·I)=A(n)
采用计算相似度的形式,控制聚类核心距离的计算精度,通过公式表示为:
J(A,B)=|A∩B|/|A∪B|
式中,J表示计算核心距离的相似度,B为计算结果,通过此公式将计算结果的误差值控制在0.5%之内,以此保证后续计算的有效性;
设定G表示数据类型出现的次数,H表示此部分数据类型出现的权重,则计算中此类型数据出现的频率R可表示为:
Figure BDA0002912607040000051
将上述公式融入数据聚类模块中,完成数据聚类处理,所述电力数据包括年度、月度以及单日的电力生产数据和用电数据;
S20、多源数据清洗,采用聚类处理后的数据作为数据清洗的数据来源,将处理后的数据设定为数据库形式,设定在数据库Y中具有两组数据,其中一组为无需清洗的数据集合,另一组为需要清洗的数据,无需清洗的数据设定为C,C中包含的数据全部由数据库Y中元素组成,fc(a)表示C在数据库中出现的次数,Qc(a)为待清洗数据在数据库中与无需清洗数据的相似度,则有:
Figure BDA0002912607040000052
设定Qc(v)表示数据库中子集v在数据库中的相似度,则有:
Figure BDA0002912607040000053
设定v1∈C,v2∈C,则数据v2与v1的关系表示为:
Figure BDA0002912607040000061
通过上述公式可对数据库中需要拆分出的数据进行处理,并采用现有的数据清洗工具完成多源数据清洗工作。
数据清洗工具至少为IDCENTRIC、PUREINTEGRATE、TRILLIUM、DATACLEANSESER、MATCHIT中的一种。
如图2所示,一种多源数据接入下电力数据标准化清洗装置,用于运行上述的多源数据接入下电力数据标准化清洗方法,包括开发板、直流电源、稳压电路、通信接口,直流电源通过稳压电路给开发板供电,直流电源直接为通信接口供电,开发板的USB接口和网口与通信接口连接,开发板上安装有ARM芯片、时钟电路、复位电路、通信模块、定时器,ARM芯片分别与时钟电路、复位电路、通信模块、定时器连接。
ARM芯片的型号为S3C2440。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (7)

1.一种多源数据接入下电力数据标准化清洗方法,其特征在于,包括:
S10、电力数据初步聚类处理,使用K均值算法对采集到的数据进行读取,根据数据的属性值特征对采集到的数据进行分类,完成电力数据聚类处理;
S20、电力多源数据清洗,采用聚类处理后的数据作为数据清洗的数据来源,完成电力数据标准化清洗。
2.根据权利要求1所述的一种多源数据接入下电力数据标准化清洗方法,其特征在于,S10中,数据进行分类的工作处理复杂性可表示为A(n),将采集到的数据采用字符串的形式体现,其数据聚类计算复杂性可表示为A(m·I),其中m表示不同属性数据的个数,I表示相同属性的数据个数,为保证数据聚类的可行性,设定初步聚类处理中的约束条件表示为:
Figure FDA0002912607030000011
式中,S表示聚类核心距离,对此公式进行变换,得到适用于多源数据聚类约束条件,则有:
Figure FDA0002912607030000012
A(m·I)=A(n)
采用计算相似度的形式,控制聚类核心距离的计算精度,通过公式表示为:
J(A,B)=|A∩B|/|A∪B|
式中,J表示计算核心距离的相似度,B为计算结果,通过此公式将计算结果的误差值控制在0.5%之内,以此保证后续计算的有效性;
设定G表示数据类型出现的次数,H表示此部分数据类型出现的权重,则计算中此类型数据出现的频率R可表示为:
Figure FDA0002912607030000021
将上述公式融入数据聚类模块中,完成数据聚类处理。
3.根据权利要求1所述的一种多源数据接入下电力数据标准化清洗方法,其特征在于,S20的具体步骤为:采用聚类处理后的数据作为数据清洗的数据来源,将处理后的数据设定为数据库形式,设定在数据库Y中具有两组数据,其中一组为无需清洗的数据集合,另一组为需要清洗的数据,无需清洗的数据设定为C,C中包含的数据全部由数据库Y中元素组成,fc(a)表示C在数据库中出现的次数,Qc(a)为待清洗数据在数据库中与无需清洗数据的相似度,则有:
Figure FDA0002912607030000022
设定Qc(v)表示数据库中子集v在数据库中的相似度,则有:
Figure FDA0002912607030000023
设定v1∈C,v2∈C,则数据v2与v1的关系表示为:
Figure FDA0002912607030000024
通过上述公式可对数据库中需要拆分出的数据进行处理,并采用现有的数据清洗工具完成多源数据清洗工作。
4.根据权利要求l所述的一种多源数据接入下电力数据标准化清洗方法,所述电力数据包括年度、月度以及单日的电力生产数据和用电数据。
5.根据权利要求1所述的多源数据接入下电力数据标准化清洗方法,其特征在于:所述数据清洗工具至少为IDCENTRIC、PUREINTEGRATE、TRILLIUM、DATACLEANSESER、MATCHIT中的一种。
6.一种多源数据接入下电力数据标准化清洗装置,用于运行权利要求1~5所述的多源数据接入下电力数据标准化清洗方法,其特征在于:包括开发板、直流电源、稳压电路、通信接口,所述直流电源通过稳压电路给开发板供电,所述直流电源直接为通信接口供电,所述开发板的USB接口和网口与通信接口连接,所述开发板上安装有ARM芯片、时钟电路、复位电路、通信模块、定时器,所述ARM芯片分别与时钟电路、复位电路、通信模块、定时器连接。
7.根据权利要求6所述的多源数据接入下电力数据标准化清洗装置,其特征在于:所述ARM芯片的型号为S3C2440。
CN202110094083.5A 2021-01-22 2021-01-22 一种多源数据接入下电力数据标准化清洗方法和装置 Pending CN112783883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110094083.5A CN112783883A (zh) 2021-01-22 2021-01-22 一种多源数据接入下电力数据标准化清洗方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110094083.5A CN112783883A (zh) 2021-01-22 2021-01-22 一种多源数据接入下电力数据标准化清洗方法和装置

Publications (1)

Publication Number Publication Date
CN112783883A true CN112783883A (zh) 2021-05-11

Family

ID=75758820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110094083.5A Pending CN112783883A (zh) 2021-01-22 2021-01-22 一种多源数据接入下电力数据标准化清洗方法和装置

Country Status (1)

Country Link
CN (1) CN112783883A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706791A (zh) * 2009-09-17 2010-05-12 成都康赛电子科大信息技术有限责任公司 基于用户偏好的数据清洗方法
CN103714154A (zh) * 2013-12-26 2014-04-09 西安理工大学 一种确定最佳聚类数的方法
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗***及方法
CN106021452A (zh) * 2016-05-16 2016-10-12 南方电网科学研究院有限责任公司 一种电磁环境测量数据清洗方法
CN107679089A (zh) * 2017-09-05 2018-02-09 全球能源互联网研究院 一种用于电力传感数据的清洗方法、装置和***
CN109993234A (zh) * 2019-04-10 2019-07-09 百度在线网络技术(北京)有限公司 一种无人驾驶训练数据分类方法、装置及电子设备
WO2019137185A1 (zh) * 2018-01-09 2019-07-18 美的集团股份有限公司 一种图片筛选方法及装置、存储介质、计算机设备
CN110209658A (zh) * 2019-06-04 2019-09-06 北京字节跳动网络技术有限公司 数据清洗方法和装置
CN110674120A (zh) * 2019-08-09 2020-01-10 国电新能源技术研究院有限公司 一种风电场数据清洗方法及装置
CN110928862A (zh) * 2019-10-23 2020-03-27 深圳市华讯方舟太赫兹科技有限公司 数据清洗方法、数据清洗设备以及计算机存储介质
CN111597178A (zh) * 2020-05-18 2020-08-28 山东浪潮通软信息科技有限公司 一种清洗重复数据的方法、***、设备及介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706791A (zh) * 2009-09-17 2010-05-12 成都康赛电子科大信息技术有限责任公司 基于用户偏好的数据清洗方法
CN103714154A (zh) * 2013-12-26 2014-04-09 西安理工大学 一种确定最佳聚类数的方法
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗***及方法
CN106021452A (zh) * 2016-05-16 2016-10-12 南方电网科学研究院有限责任公司 一种电磁环境测量数据清洗方法
CN107679089A (zh) * 2017-09-05 2018-02-09 全球能源互联网研究院 一种用于电力传感数据的清洗方法、装置和***
WO2019137185A1 (zh) * 2018-01-09 2019-07-18 美的集团股份有限公司 一种图片筛选方法及装置、存储介质、计算机设备
CN109993234A (zh) * 2019-04-10 2019-07-09 百度在线网络技术(北京)有限公司 一种无人驾驶训练数据分类方法、装置及电子设备
CN110209658A (zh) * 2019-06-04 2019-09-06 北京字节跳动网络技术有限公司 数据清洗方法和装置
CN110674120A (zh) * 2019-08-09 2020-01-10 国电新能源技术研究院有限公司 一种风电场数据清洗方法及装置
CN110928862A (zh) * 2019-10-23 2020-03-27 深圳市华讯方舟太赫兹科技有限公司 数据清洗方法、数据清洗设备以及计算机存储介质
CN111597178A (zh) * 2020-05-18 2020-08-28 山东浪潮通软信息科技有限公司 一种清洗重复数据的方法、***、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩帅 等: "基于改进K-Means 聚类和误差反馈的数据清洗方法", 《电网与清洁能源》, vol. 36, no. 7, pages 9 - 14 *

Similar Documents

Publication Publication Date Title
El Alaoui et al. Estimation in the spiked Wigner model: a short proof of the replica formula
WO2017024691A1 (zh) 一种模拟电路故障模式分类方法
CN109711609B (zh) 基于小波变换和极限学习机的光伏电站输出功率预测方法
CN105184394B (zh) 基于配电网cps在线数据挖掘的优化控制方法
US20210192389A1 (en) Method for ai optimization data governance
CN110119948B (zh) 基于时变权重动态组合的电力用户信用评价方法及***
CN108664635B (zh) 数据库统计信息的获取方法、装置、设备和存储介质
CN104992454A (zh) 一种区域化自动变类的图像分割方法
WO2019223145A1 (zh) 电子装置、推销名单推荐方法、***和计算机可读存储介质
CN112529197A (zh) 量子态保真度确定方法、装置、设备和存储介质
CN110222176A (zh) 一种文本数据的清洗方法、***及可读存储介质
CN109783459A (zh) 从日志中提取数据的方法、装置及计算机可读存储介质
CN115794578A (zh) 一种电力***的数据管理方法、装置、设备及介质
CN110569237A (zh) 实现实时数据清洗处理的***及其方法
CN115456093A (zh) 一种基于注意力图神经网络的高性能图聚类方法
CN112783883A (zh) 一种多源数据接入下电力数据标准化清洗方法和装置
CN105069574A (zh) 一种业务流程行为相似度分析的新方法
CN108805204B (zh) 基于深度神经网络的电能质量扰动分析装置及其使用方法
CN116450827A (zh) 一种基于大规模语言模型的事件模板归纳方法和***
CN104090813A (zh) 一种云数据中心的虚拟机cpu使用率的分析建模方法
CN116089142A (zh) 一种新型的服务故障根因分析方法
CN109978677A (zh) 一种配电网基建项目投资统计自动生成计算方法及***
CN113408226B (zh) 一种基于深度学习的芯片供电网络凸快电流估算方法及***
CN115051363A (zh) 一种配网台区户变关系辨识方法、装置及计算机存储介质
CN114996930A (zh) 一种建模方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination