CN109815222A - 一种基于贝叶斯算法的住户用电数据清洗方法 - Google Patents
一种基于贝叶斯算法的住户用电数据清洗方法 Download PDFInfo
- Publication number
- CN109815222A CN109815222A CN201910039302.2A CN201910039302A CN109815222A CN 109815222 A CN109815222 A CN 109815222A CN 201910039302 A CN201910039302 A CN 201910039302A CN 109815222 A CN109815222 A CN 109815222A
- Authority
- CN
- China
- Prior art keywords
- resident
- electricity consumption
- consumption data
- data
- cleaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 54
- 230000005611 electricity Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 5
- 238000003672 processing method Methods 0.000 claims description 8
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 abstract 1
- 238000012550 audit Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据清洗相关技术领域,具体为一种基于贝叶斯算法的住户用电数据清洗方法。包括数据采集,规则定义、数据清洗,结果验证和数据替换,该基于贝叶斯算法的住户用电数据清洗方法利用定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则,同时,清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理,采用近邻排序算法SNM,该算法可以对相似数据进行有效重复值清洗的工作,提高效率。
Description
技术领域
本发明涉及数据清洗相关技术领域,具体为一种基于贝叶斯算法的住户用电数据清洗方法。
背景技术
数据清洗,对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
但是在现有的数据清洗方法中,缺少针对住户用电数据不同的错误类型制定不同的清洗规则,而且,现有的清洗方法虽然会多次清洗,但是,并没有对相似重复数据进行检测和处理。
发明内容
本发明的目的在于提供一种基于贝叶斯算法的住户用电数据清洗方法,以解决现有的数据清洗方法中,缺少针对住户用电数据不同的错误类型制定不同的清洗规则,而且,现有的清洗方法虽然会多次清洗,但是,并没有对相似重复数据进行检测和处理的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于贝叶斯算法的住户用电数据清洗方法,包括以下步骤:1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息;3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则;4)根据清洗规则对住户用电数据进行初次清洗;5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);7)用清洗后的住户用电数据替换原住户用电数据。
优选的,所述步骤3)中清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理。
优选的,所述非法值的处理方法是采取预设值、空值替换非法值或删除非法值。
优选的,所述空值的处理方法是采取平均值填充法、中位数填充法、运用KNN或神经网络相关算法填充空值。
优选的,所述不一致数据的处理方法是采取元数据实现住户用电数据的一致性。
优选的,所述相似重复数据的清洗规则采用近邻排序算法SNM。
与现有技术相比,本发明具有以下有益效果:该基于贝叶斯算法的住户用电数据清洗方法利用定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则,同时,清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理,采用近邻排序算法SNM,该算法可以对相似数据进行有效重复值清洗的工作,提高效率。
附图说明
图1是本发明的流程图。
具体实施方式
下面将结合本发明的实施例和附图,对本发明中的技术方案做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
本发明提供一种技术方案:一种基于贝叶斯算法的住户用电数据清洗方法,包括以下步骤:
1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;
2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息,将实体的属性数据直接连接到相应的几何目标上,可在数字化及建立图形拓扑关系的同时或之后,对照一个几何目标直接输人属性数据,并可对数据进行修改、删除、拷贝等编辑操作;
3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则,从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理用电数据的丢失值、越界值、不一致代码、重复数据等问题;
4)根据清洗规则对住户用电数据进行初次清洗;
5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;
6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);
7)用清洗后的住户用电数据替换原住户用电数据;
所述步骤3)中清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理;所述非法值的处理方法是采取预设值、空值替换非法值或删除非法值;所述空值的处理方法是采取平均值填充法、中位数填充法、运用KNN或神经网络相关算法填充空值;所述不一致数据的处理方法是采取元数据实现住户用电数据的一致性;所述相似重复数据的清洗规则采用近邻排序算法SNM,该算法可以对相似数据进行有效重复值清洗的工作。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种基于贝叶斯算法的住户用电数据清洗方法,其特征在于,具体包括以下步骤:
1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;
2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息;
3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则;
4)根据清洗规则对住户用电数据进行初次清洗;
5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;
6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);
7)用清洗后的住户用电数据替换原住户用电数据。
2.根据权利要求1所述的基于贝叶斯算法的住户用电数据清洗方法,其特征在于,所述步骤3)中清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理。
3.根据权利要求2所述的基于贝叶斯算法的住户用电数据清洗方法,其特征在于,所述非法值的处理方法是采取预设值、空值替换非法值或删除非法值。
4.根据权利要求2所述的基于贝叶斯算法的住户用电数据清洗方法,其特征在于,所述空值的处理方法是采取平均值填充法、中位数填充法、运用KNN或神经网络相关算法填充空值。
5.根据权利要求2所述的基于贝叶斯算法的住户用电数据清洗方法,其特征在于,所述不一致数据的处理方法是采取元数据实现住户用电数据的一致性。
6.根据权利要求2所述的基于贝叶斯算法的住户用电数据清洗方法,其特征在于,所述相似重复数据的清洗规则采用近邻排序算法SNM。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910039302.2A CN109815222A (zh) | 2019-01-16 | 2019-01-16 | 一种基于贝叶斯算法的住户用电数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910039302.2A CN109815222A (zh) | 2019-01-16 | 2019-01-16 | 一种基于贝叶斯算法的住户用电数据清洗方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109815222A true CN109815222A (zh) | 2019-05-28 |
Family
ID=66604342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910039302.2A Pending CN109815222A (zh) | 2019-01-16 | 2019-01-16 | 一种基于贝叶斯算法的住户用电数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815222A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008193A (zh) * | 2019-12-03 | 2020-04-14 | 国网天津市电力公司电力科学研究院 | 一种数据清洗与质量评价方法及*** |
CN111190890A (zh) * | 2019-12-26 | 2020-05-22 | 深圳供电局有限公司 | 用户日用电量数据清洗方法、装置、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908720A (zh) * | 2017-11-14 | 2018-04-13 | 河北工程大学 | 一种基于AdaBoost算法的专利数据清洗方法及*** |
CN108959395A (zh) * | 2018-06-04 | 2018-12-07 | 广西大学 | 一种面向多源异构大数据的层次约减联合清洗方法 |
-
2019
- 2019-01-16 CN CN201910039302.2A patent/CN109815222A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908720A (zh) * | 2017-11-14 | 2018-04-13 | 河北工程大学 | 一种基于AdaBoost算法的专利数据清洗方法及*** |
CN108959395A (zh) * | 2018-06-04 | 2018-12-07 | 广西大学 | 一种面向多源异构大数据的层次约减联合清洗方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008193A (zh) * | 2019-12-03 | 2020-04-14 | 国网天津市电力公司电力科学研究院 | 一种数据清洗与质量评价方法及*** |
CN111008193B (zh) * | 2019-12-03 | 2023-10-31 | 国网天津市电力公司电力科学研究院 | 一种数据清洗与质量评价方法及*** |
CN111190890A (zh) * | 2019-12-26 | 2020-05-22 | 深圳供电局有限公司 | 用户日用电量数据清洗方法、装置、设备和介质 |
CN111190890B (zh) * | 2019-12-26 | 2024-03-29 | 深圳供电局有限公司 | 用户日用电量数据清洗方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nishikawa et al. | Concrete crack detection by multiple sequential image filtering | |
US9275422B2 (en) | Distributed k-core view materialization and maintenance for graphs | |
CN109784636A (zh) | 欺诈用户识别方法、装置、计算机设备及存储介质 | |
US20030236652A1 (en) | System and method for anomaly detection | |
Iyer et al. | Mott glass to superfluid transition for random bosons in two dimensions | |
CN108763274B (zh) | 访问请求的识别方法、装置、电子设备及存储介质 | |
EP2887262B1 (en) | Point Cloud Simplification | |
CN104424231A (zh) | 多维数据的处理方法及装置 | |
Grant | Outgroup sampling in phylogenetics: severity of test and successive outgroup expansion | |
CN105574544A (zh) | 一种数据处理方法和装置 | |
CN109815222A (zh) | 一种基于贝叶斯算法的住户用电数据清洗方法 | |
CN110263230A (zh) | 一种基于密度聚类的数据清洗方法及装置 | |
CN109859114A (zh) | 基于局域平滑性和非局域相似性的三维点云修复方法 | |
WO2016045514A1 (zh) | 电子交易过程用户行为模式检测的免疫方法 | |
CN108629001A (zh) | 一种地理信息大数据的去重方法 | |
JP6419667B2 (ja) | テストdbデータ生成方法及び装置 | |
CN113990390A (zh) | 一种基于机器学习的新冠病毒亚群识别方法 | |
Zhao et al. | Neighborhood detection using mutual information for the identification of cellular automata | |
Hu et al. | Reconstructing ancestral genomic orders using binary encoding and probabilistic models | |
Charitidis et al. | Operation-wise attention network for tampering localization fusion | |
Wilson et al. | Structural matching with active triangulations | |
CN108229586B (zh) | 一种数据中的异常数据点的检测方法及*** | |
Jennane et al. | 3D shape‐dependent thinning method for trabecular bone characterization | |
CN109739840A (zh) | 数据空值处理方法、装置及终端设备 | |
CN113706459B (zh) | 一种自闭症患者异常脑区的检测及模拟修复装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190528 |
|
RJ01 | Rejection of invention patent application after publication |