CN109815222A - 一种基于贝叶斯算法的住户用电数据清洗方法 - Google Patents

一种基于贝叶斯算法的住户用电数据清洗方法 Download PDF

Info

Publication number
CN109815222A
CN109815222A CN201910039302.2A CN201910039302A CN109815222A CN 109815222 A CN109815222 A CN 109815222A CN 201910039302 A CN201910039302 A CN 201910039302A CN 109815222 A CN109815222 A CN 109815222A
Authority
CN
China
Prior art keywords
resident
electricity consumption
consumption data
data
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910039302.2A
Other languages
English (en)
Inventor
陈小强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Shengtong Power Amperex Technology Ltd
Original Assignee
Jiangsu Shengtong Power Amperex Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Shengtong Power Amperex Technology Ltd filed Critical Jiangsu Shengtong Power Amperex Technology Ltd
Priority to CN201910039302.2A priority Critical patent/CN109815222A/zh
Publication of CN109815222A publication Critical patent/CN109815222A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据清洗相关技术领域,具体为一种基于贝叶斯算法的住户用电数据清洗方法。包括数据采集,规则定义、数据清洗,结果验证和数据替换,该基于贝叶斯算法的住户用电数据清洗方法利用定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则,同时,清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理,采用近邻排序算法SNM,该算法可以对相似数据进行有效重复值清洗的工作,提高效率。

Description

一种基于贝叶斯算法的住户用电数据清洗方法
技术领域
本发明涉及数据清洗相关技术领域,具体为一种基于贝叶斯算法的住户用电数据清洗方法。
背景技术
数据清洗,对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
但是在现有的数据清洗方法中,缺少针对住户用电数据不同的错误类型制定不同的清洗规则,而且,现有的清洗方法虽然会多次清洗,但是,并没有对相似重复数据进行检测和处理。
发明内容
本发明的目的在于提供一种基于贝叶斯算法的住户用电数据清洗方法,以解决现有的数据清洗方法中,缺少针对住户用电数据不同的错误类型制定不同的清洗规则,而且,现有的清洗方法虽然会多次清洗,但是,并没有对相似重复数据进行检测和处理的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于贝叶斯算法的住户用电数据清洗方法,包括以下步骤:1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息;3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则;4)根据清洗规则对住户用电数据进行初次清洗;5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);7)用清洗后的住户用电数据替换原住户用电数据。
优选的,所述步骤3)中清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理。
优选的,所述非法值的处理方法是采取预设值、空值替换非法值或删除非法值。
优选的,所述空值的处理方法是采取平均值填充法、中位数填充法、运用KNN或神经网络相关算法填充空值。
优选的,所述不一致数据的处理方法是采取元数据实现住户用电数据的一致性。
优选的,所述相似重复数据的清洗规则采用近邻排序算法SNM。
与现有技术相比,本发明具有以下有益效果:该基于贝叶斯算法的住户用电数据清洗方法利用定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则,同时,清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理,采用近邻排序算法SNM,该算法可以对相似数据进行有效重复值清洗的工作,提高效率。
附图说明
图1是本发明的流程图。
具体实施方式
下面将结合本发明的实施例和附图,对本发明中的技术方案做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
本发明提供一种技术方案:一种基于贝叶斯算法的住户用电数据清洗方法,包括以下步骤:
1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;
2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息,将实体的属性数据直接连接到相应的几何目标上,可在数字化及建立图形拓扑关系的同时或之后,对照一个几何目标直接输人属性数据,并可对数据进行修改、删除、拷贝等编辑操作;
3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则,从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理用电数据的丢失值、越界值、不一致代码、重复数据等问题;
4)根据清洗规则对住户用电数据进行初次清洗;
5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;
6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);
7)用清洗后的住户用电数据替换原住户用电数据;
所述步骤3)中清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理;所述非法值的处理方法是采取预设值、空值替换非法值或删除非法值;所述空值的处理方法是采取平均值填充法、中位数填充法、运用KNN或神经网络相关算法填充空值;所述不一致数据的处理方法是采取元数据实现住户用电数据的一致性;所述相似重复数据的清洗规则采用近邻排序算法SNM,该算法可以对相似数据进行有效重复值清洗的工作。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于贝叶斯算法的住户用电数据清洗方法,其特征在于,具体包括以下步骤:
1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;
2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息;
3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则;
4)根据清洗规则对住户用电数据进行初次清洗;
5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;
6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);
7)用清洗后的住户用电数据替换原住户用电数据。
2.根据权利要求1所述的基于贝叶斯算法的住户用电数据清洗方法,其特征在于,所述步骤3)中清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理。
3.根据权利要求2所述的基于贝叶斯算法的住户用电数据清洗方法,其特征在于,所述非法值的处理方法是采取预设值、空值替换非法值或删除非法值。
4.根据权利要求2所述的基于贝叶斯算法的住户用电数据清洗方法,其特征在于,所述空值的处理方法是采取平均值填充法、中位数填充法、运用KNN或神经网络相关算法填充空值。
5.根据权利要求2所述的基于贝叶斯算法的住户用电数据清洗方法,其特征在于,所述不一致数据的处理方法是采取元数据实现住户用电数据的一致性。
6.根据权利要求2所述的基于贝叶斯算法的住户用电数据清洗方法,其特征在于,所述相似重复数据的清洗规则采用近邻排序算法SNM。
CN201910039302.2A 2019-01-16 2019-01-16 一种基于贝叶斯算法的住户用电数据清洗方法 Pending CN109815222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910039302.2A CN109815222A (zh) 2019-01-16 2019-01-16 一种基于贝叶斯算法的住户用电数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910039302.2A CN109815222A (zh) 2019-01-16 2019-01-16 一种基于贝叶斯算法的住户用电数据清洗方法

Publications (1)

Publication Number Publication Date
CN109815222A true CN109815222A (zh) 2019-05-28

Family

ID=66604342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910039302.2A Pending CN109815222A (zh) 2019-01-16 2019-01-16 一种基于贝叶斯算法的住户用电数据清洗方法

Country Status (1)

Country Link
CN (1) CN109815222A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008193A (zh) * 2019-12-03 2020-04-14 国网天津市电力公司电力科学研究院 一种数据清洗与质量评价方法及***
CN111190890A (zh) * 2019-12-26 2020-05-22 深圳供电局有限公司 用户日用电量数据清洗方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908720A (zh) * 2017-11-14 2018-04-13 河北工程大学 一种基于AdaBoost算法的专利数据清洗方法及***
CN108959395A (zh) * 2018-06-04 2018-12-07 广西大学 一种面向多源异构大数据的层次约减联合清洗方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908720A (zh) * 2017-11-14 2018-04-13 河北工程大学 一种基于AdaBoost算法的专利数据清洗方法及***
CN108959395A (zh) * 2018-06-04 2018-12-07 广西大学 一种面向多源异构大数据的层次约减联合清洗方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008193A (zh) * 2019-12-03 2020-04-14 国网天津市电力公司电力科学研究院 一种数据清洗与质量评价方法及***
CN111008193B (zh) * 2019-12-03 2023-10-31 国网天津市电力公司电力科学研究院 一种数据清洗与质量评价方法及***
CN111190890A (zh) * 2019-12-26 2020-05-22 深圳供电局有限公司 用户日用电量数据清洗方法、装置、设备和介质
CN111190890B (zh) * 2019-12-26 2024-03-29 深圳供电局有限公司 用户日用电量数据清洗方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
Nishikawa et al. Concrete crack detection by multiple sequential image filtering
US9275422B2 (en) Distributed k-core view materialization and maintenance for graphs
CN109784636A (zh) 欺诈用户识别方法、装置、计算机设备及存储介质
US20030236652A1 (en) System and method for anomaly detection
Iyer et al. Mott glass to superfluid transition for random bosons in two dimensions
CN108763274B (zh) 访问请求的识别方法、装置、电子设备及存储介质
EP2887262B1 (en) Point Cloud Simplification
CN104424231A (zh) 多维数据的处理方法及装置
Grant Outgroup sampling in phylogenetics: severity of test and successive outgroup expansion
CN105574544A (zh) 一种数据处理方法和装置
CN109815222A (zh) 一种基于贝叶斯算法的住户用电数据清洗方法
CN110263230A (zh) 一种基于密度聚类的数据清洗方法及装置
CN109859114A (zh) 基于局域平滑性和非局域相似性的三维点云修复方法
WO2016045514A1 (zh) 电子交易过程用户行为模式检测的免疫方法
CN108629001A (zh) 一种地理信息大数据的去重方法
JP6419667B2 (ja) テストdbデータ生成方法及び装置
CN113990390A (zh) 一种基于机器学习的新冠病毒亚群识别方法
Zhao et al. Neighborhood detection using mutual information for the identification of cellular automata
Hu et al. Reconstructing ancestral genomic orders using binary encoding and probabilistic models
Charitidis et al. Operation-wise attention network for tampering localization fusion
Wilson et al. Structural matching with active triangulations
CN108229586B (zh) 一种数据中的异常数据点的检测方法及***
Jennane et al. 3D shape‐dependent thinning method for trabecular bone characterization
CN109739840A (zh) 数据空值处理方法、装置及终端设备
CN113706459B (zh) 一种自闭症患者异常脑区的检测及模拟修复装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528

RJ01 Rejection of invention patent application after publication