CN114741381A - 基于关联依赖的数据清洗方法 - Google Patents

基于关联依赖的数据清洗方法 Download PDF

Info

Publication number
CN114741381A
CN114741381A CN202210393425.8A CN202210393425A CN114741381A CN 114741381 A CN114741381 A CN 114741381A CN 202210393425 A CN202210393425 A CN 202210393425A CN 114741381 A CN114741381 A CN 114741381A
Authority
CN
China
Prior art keywords
dependency
data
association
candidate
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210393425.8A
Other languages
English (en)
Other versions
CN114741381B (zh
Inventor
史雯隽
杜少卿
吴怀广
李帅超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202210393425.8A priority Critical patent/CN114741381B/zh
Publication of CN114741381A publication Critical patent/CN114741381A/zh
Application granted granted Critical
Publication of CN114741381B publication Critical patent/CN114741381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于关联依赖的数据清洗方法,包括以下制备过程:S1、对现有的原始数据进行预处理,以剔除无实际意义的数据,同时对数据集尽心管规范;S2、将与梳理过的数据集通过自动发现条件竖直依赖算法获得候选依赖集合;S3、判断候选依赖集合中的有效依赖对,并对依赖对重新组合获得关联依赖的条件组;S4、将有效依赖对与条件数据依赖的条件组存储获得有效候选依赖集合;S5、对有效候选依赖集合进行清洗,获得关联依赖集合;S6、以依赖集合中的关联依赖作为标准关联依赖对待检测目标数据集中的数据进行检测,以提出异常数据,最终获得洁净数据集;本发明提供的方法,能够高效的对数据进行清洗。

Description

基于关联依赖的数据清洗方法
技术领域
本发明属于数据质量管理技术领域,具体涉及基于关联依赖的数据清洗方法。
背景技术
现实生活中的数据往往是肮脏的,因为数据收集的过程往往会引入一些未知的错误,企业基于数据来进行决策,脏数据则会对企业产生误导,导致不全面的分析结果和决策。为了防止脏数据造成的收入、信誉和客户的损失,利用数据依赖对数据进行清洗来提高数据质量是一种常用而有效的方法。
数据清洗指的是检测和修复数据中的错误的各种活动,是数据质量管理中最重要的问题之一。
由于脏数据经常导致不准确的数据分析结果,甚至导致企业每年损失数十亿美元,此外,数据的收集和采集过程经常会引入新的错误,这突出了开发数据清理解决方案以提高数据库中的数据质量的必要性。传统的技术能够在大多数数据清理任务如离群值检测、数据重复数据删除和数据转换中发现较为常见的错误。
但这些技术难以发现逻辑错误(例如,邮政编码和地址的之间存在一定的逻辑关系)。为了发现逻辑上的错误,研究者们把数据依赖引入了数据清洗领域,并通过数据依赖来对数据库中错误的数据进行清洗和修复。
数据依赖,如函数依赖,首先被应用于数据库设计中来评估一个关系是否处于第三范式(3NF)或Boyce-Codd范式(BCNF),并且作为完整性约束被广泛应用于数据清理。数据间的依赖关系在数据质量管理中也发挥着重要作用,如错误检测、数据修复和数据重复数据删除等。然而,对传统依赖关系的开发是为了通过规范化来提高数据库模式的质量,优化查询和防止无效的更新。要想使得数据依赖关系在数据质量管理领域中发挥更加适合现实世界数据的作用,就必须对经典的依赖理论进行扩展。
自20世纪80年代初以来,依赖理论受到了广泛的关注的研究兴趣。然而,传统的数据依赖关系基于相等函数而成,例如函数依赖及由其扩展的其他依赖,由于大数据中数据之间存在着各种各样的关系,这些基于相等函数的依赖在此类应用中的清洗能力较弱。
发明内容
本发明的目的是克服现有技术的不足而提供一种基于关联依赖的数据清洗方法。
基于关联依赖的数据清洗方法,包括以下过程:
S1、数据集预处理,对获取的原始数据集进行预处理,剔除原始数据集中无实际意义的数据,并将原始数据集中数据的不同格式和规范修改为符合要求的统一格式和规范,得到规范数据集;
S2、候选依赖集合的建立,以S1获得的规范数据集中的数据作为输入值,输入到自动发现关联依赖算法中,获得候选依赖集合;
S3、关联依赖的条件组的建立,对S2获得的候选依赖集合中的候选依赖对进行判断获得有效候选依赖对,所述有效候选依赖对定义为(LHS,RHS),所述有效候选依赖对然后对有效候选依赖对进行重新组合,获得关联依赖的条件组,所述关联依赖条件组定义为Tp;
S4、有效候选依赖集合的建立,将S3中的所有有效候选依赖对以及所有关联依赖的条件组存储到一个集合中,构成有效候选依赖集合;
S5、关联依赖集合的建立,将S4中获得的有效候选依赖集合中有效候选依赖对对应的关联依赖的条件组的覆盖率低于10%的有效候选依赖对删除,获得关联依赖集合;
S6、错误检测,将S5获得的依赖集合中的关联依赖作为标准关联依赖,将待检测目标数据集中的数据与标准关联依赖进行比对,以进行错误检测,测出待检测目标数据集中的异常数据,将所述异常数据剔除。
进一步,所述S2中自动发现关联依赖算法使用列表存储所有数据中可能出现的依赖关系,利用四个索引来存储所有数据和每个数据所在的元组位置,从而利用索引对所有数据按照依赖关系进行重新组合构成候选依赖集合。
进一步,所述S3中获得有效候选依赖对的过程为,确定每一个依赖对在候选依赖集合中出现的位置ID和次数,如果所述依赖对在候选依赖集合中出现的次数大于预设阈值,则当前依赖对即为有效依赖对,同时删除在候选依赖集合中出现次数小于预设阈值的依赖对。
进一步,所述S3中关联依赖的条件组的获得过程为,将所有LHS值相同的有效候选依赖对存储到同一个候选依赖集合中的候选依赖子集中,该存储了相同LHS值的有效依赖对的候选依赖子集即为关联依赖的条件组。
进一步,所述S6中错误检测的过程为:
S61、定义待检测目标数据集中的任意两个属性为X和Y,表示为(X→Y);
S62、对待检测目标数据集中属于当前检测关联依赖的每一条数据,检测其X属性上的值是否与条件组中的任意一个LHS值相等,若相等,说明该条数据满足关联依赖,执行S63;若不相等,说明该条数据不存在关联依赖关系,不对其执行S63;
S63、当目标数据集中当前检测关联依赖的数据中的X属性上的值是否与条件组中的任意一个LHS值相等时,检测该X属性上的值对应的Y属性上的值与当前LHS值对应的任一RHS值,若Y属性上的值与LHS值对应的任一RHS值相等,则说明该条数据符合关联依赖,是正确的数据;若Y属性上的值与LHS值对应的所有RHS值均不相等,则说明该条数据不符合关联依赖,存在异常,即为脏数据;
S64、重复S62-S63,直至将所述待检测目标数据集中的所有数据检测完毕。
与现有技术相比,本发明的有益效果如下:
1、本发明利用自动发现关联依赖算法对大数据中现有的数据进行处理,以发现现有大数据中各数据潜在的依赖关系,根据这种潜在的依赖关系将大数据进行重新组合获得有效候选依赖集合,再对有效候选依赖集合进行处理后,获得关联依赖集合,以关联依赖集合中的关联依赖作为标准关联依赖对待检测目标数据集中的数据进行错误检测从而能够保持数据的洁净性;
2、本发明通过对现有大数据中的数据进行清洗,以洁净的数据集合作为标准数据集,用标准洁净的数据集对新的数据进行检测,能够有效地清洗掉脏数据。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
基于关联依赖的数据清洗方法,包括以下过程:
S1、数据集预处理,对获取的原始数据集进行预处理,剔除原始数据集中无实际意义的数据,并将原始数据集中数据的不同格式和规范修改为符合要求的统一格式和规范,得到规范数据集;
S2、候选依赖集合的建立,以S1获得的规范数据集中的数据作为输入值,输入到自动发现关联依赖算法中,获得候选依赖集合;
S3、关联依赖的条件组的建立,对S2获得的候选依赖集合中的候选依赖对进行判断获得有效候选依赖对,所述有效候选依赖对定义为(LHS,RHS),所述有效候选依赖对然后对有效候选依赖对进行重新组合,获得关联依赖的条件组,所述关联依赖条件组定义为Tp;
S4、有效候选依赖集合的建立,将S3中的所有有效候选依赖对以及所有关联依赖的条件组存储到一个集合中,构成有效候选依赖集合;
S5、关联依赖集合的建立,将S4中获得的有效候选依赖集合中有效候选依赖对对应的关联依赖的条件组的覆盖率低于10%的有效候选依赖对删除,获得关联依赖集合;
S6、错误检测,将S5获得的关联依赖集合中的关联依赖作为标准关联依赖,将待检测目标数据集中的数据与标准关联依赖进行比对,以进行错误检测,测出待检测目标数据集中的异常数据,将所述异常数据剔除。
进一步,所述S2中自动发现关联依赖算法使用列表存储所有数据中可能出现的依赖关系,利用四个索引来存储所有数据和每个数据所在的元组位置,从而利用索引对所有数据按照依赖关系进行重新组合构成候选依赖集合。
进一步,所述S3中获得有效候选依赖对的过程为,确定每一个依赖对在候选依赖集合中出现的位置ID和次数,如果所述依赖对在候选依赖集合中出现的次数大于预设阈值,则当前依赖对即为有效依赖对,同时删除在候选依赖集合中出现次数小于预设阈值的依赖对。
进一步,所述S3中关联依赖的条件组的获得过程为,将所有LHS值相同的有效候选依赖对存储到同一个候选依赖集合中的候选依赖子集中,该存储了相同LHS值的有效依赖对的候选依赖子集即为关联依赖的条件组。
进一步,所述S6中错误检测的过程为:
S61、定义待检测目标数据集中的任意两个属性为X和Y,表示为(X→Y);
S62、对待检测目标数据集中属于当前检测关联依赖的每一条数据,检测其X属性上的值是否与条件组中的任意一个LHS值相等,若相等,说明该条数据满足关联依赖,执行S63;若不相等,说明该条数据不存在关联依赖关系,不对其执行S63;
S63、当目标数据集中当前检测关联依赖的数据中的X属性上的值是否与条件组中的任意一个LHS值相等时,检测该X属性上的值对应的Y属性上的值与当前LHS值对应的任一RHS值,若Y属性上的值与LHS值对应的任一RHS值相等,则说明该条数据符合关联依赖,是正确的数据;若Y属性上的值与LHS值对应的所有RHS值均不相等,则说明该条数据不符合关联依赖,存在异常,即为脏数据;
S64、重复S62-S63,直至将所述待检测目标数据集中的所有数据检测完毕。
实验验证
为了验证本发明提供的基于关联依赖的数据清洗方法的准确性,本发明选取美国D11数据库(data.gov(an opendata repository from the US government))中的数据进行验证。
选取数据集中的属性City(城市)和属性Zip(邮政编码)进行测试,数据集中这两个属性的1057条数据共有18条是错误的,错误率约为0.02,这两个属性是关联依赖的X和Y,能够组成两种关联依赖,分别是(City→Zip)和(Zip→City),针对两组关联依赖进行实验。
实验1,对(City→Zip)进行检测
首先,将选取的数据集,依据本发明提供的基于关联依赖的数据清洗方法S1-S5构建(City→Zip)的关联依赖集合;
然后,将(City→Zip)的关联依赖集合中的关联依赖作为标准关联依赖,将选取的数据集中的1057条数据与标准关联依赖进行比对,检测出12条异常数据,该12条异常数据中,有11条数据为选取的数据集中的18条错误数据,则利用本发明提供的方法清洗数据的准确率为11/12*100%=92.3%,召回率为11/18*100%=61.1%。
实验2,对(Zip→City)进行检测
首先,将选取的数据集,依据本发明提供的基于关联依赖的数据清洗方法S1-S5构建(Zip→City)的关联依赖集合;
然后,将(Zip→City)的关联依赖集合中的关联依赖作为标准关联依赖,将选取的数据集中的1057条数据与标准关联依赖进行比对,检测出13条异常数据,该13条异常数据中,有12条数据为选取的数据集中的18条错误数据,则利用本发明提供的方法清洗数据的准确率为12/13*100%=92.3%,召回率为12/18*100%=66.7%。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.基于关联依赖的数据清洗方法,其特征在于,包括以下过程:
S1、数据集预处理,对获取的原始数据集进行预处理,剔除原始数据集中无实际意义的数据,并将原始数据集中数据的不同格式和规范修改为符合要求的统一格式和规范,得到规范数据集;
S2、候选依赖集合的建立,以S1获得的规范数据集中的数据作为输入值,输入到自动发现关联依赖算法中,获得候选依赖集合;
S3、关联依赖的条件组的建立,对S2获得的候选依赖集合中的候选依赖对进行判断获得有效候选依赖对,所述有效候选依赖对定义为(LHS,RHS),所述有效候选依赖对然后对有效候选依赖对进行重新组合,获得关联依赖的条件组,所述关联依赖条件组定义为Tp;
S4、有效候选依赖集合的建立,将S3中的所有有效候选依赖对以及所有关联依赖的条件组存储到一个集合中,构成有效候选依赖集合;
S5、关联依赖集合的建立,将S4中获得的有效候选依赖集合中有效候选依赖对对应的关联依赖的条件组的覆盖率低于10%的有效候选依赖对删除,获得关联依赖集合;
S6、错误检测,将S5获得的关联依赖集合中的关联依赖作为标准关联依赖,将待检测目标数据集中的数据与标准关联依赖进行比对,以进行错误检测,测出待检测目标数据集中的异常数据,将所述异常数据剔除。
2.根据权利要求1所述的基于关联依赖的数据清洗方法,其特征在于:所述S2中自动发现关联依赖算法使用列表存储所有数据中可能出现的依赖关系,利用四个索引来存储所有数据和每个数据所在的元组位置,从而利用索引对所有数据按照依赖关系进行重新组合构成候选依赖集合。
3.根据权利要求1所述的基于关联依赖的数据清洗方法,其特征在于:所述S3中获得有效候选依赖对的过程为,确定每一个依赖对在候选依赖集合中出现的位置ID和次数,如果所述依赖对在候选依赖集合中出现的次数大于预设阈值,则当前依赖对即为有效依赖对,同时删除在候选依赖集合中出现次数小于预设阈值的依赖对。
4.根据权利要求3所述的基于关联依赖的数据清洗方法,其特征在于:所述S3中关联依赖的条件组的获得过程为,将所有LHS值相同的有效候选依赖对存储到同一个候选依赖集合中的候选依赖子集中,该存储了相同LHS值的有效依赖对的候选依赖子集即为关联依赖的条件组。
5.根据权利要求1所述的基于关联依赖的数据清洗方法,其特征在于,所述S6中错误检测的过程为:
S61、定义待检测目标数据集中的任意两个属性为X和Y,表示为(X→Y);
S62、对待检测目标数据集中属于当前检测关联依赖的每一条数据,检测其X属性上的值是否与条件组中的任意一个LHS值相等,若相等,说明该条数据满足关联依赖,执行S63;若不相等,说明该条数据不存在关联依赖关系,不对其执行S63;
S63、当目标数据集中当前检测关联依赖的数据中的X属性上的值是否与条件组中的任意一个LHS值相等时,检测该X属性上的值对应的Y属性上的值与当前LHS值对应的任一RHS值,若Y属性上的值与LHS值对应的任一RHS值相等,则说明该条数据符合关联依赖,是正确的数据;若Y属性上的值与LHS值对应的所有RHS值均不相等,则说明该条数据不符合关联依赖,存在异常,即为脏数据;
S64、重复S62-S63,直至将所述待检测目标数据集中的所有数据检测完毕。
CN202210393425.8A 2022-04-14 2022-04-14 基于关联依赖的数据清洗方法 Active CN114741381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210393425.8A CN114741381B (zh) 2022-04-14 2022-04-14 基于关联依赖的数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210393425.8A CN114741381B (zh) 2022-04-14 2022-04-14 基于关联依赖的数据清洗方法

Publications (2)

Publication Number Publication Date
CN114741381A true CN114741381A (zh) 2022-07-12
CN114741381B CN114741381B (zh) 2023-04-14

Family

ID=82281662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210393425.8A Active CN114741381B (zh) 2022-04-14 2022-04-14 基于关联依赖的数据清洗方法

Country Status (1)

Country Link
CN (1) CN114741381B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116594795A (zh) * 2023-03-03 2023-08-15 齐鲁工业大学(山东省科学院) 面向数据中台的错误检测和修复方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699761A (zh) * 2015-02-11 2015-06-10 暨南大学 一种最小函数依赖的增量计算方法
CN105447079A (zh) * 2015-11-04 2016-03-30 华中科技大学 一种基于函数依赖的数据清洗方法
EP3312736A1 (en) * 2016-10-21 2018-04-25 Fujitsu Limited Apparatus program & method for data property recognition
US20180113926A1 (en) * 2016-10-21 2018-04-26 Fujitsu Limited Apparatus program & method for data property recognition
CN108446294A (zh) * 2018-01-22 2018-08-24 东华大学 一种面向脏数据的清洗规则挖掘***
CN109325062A (zh) * 2018-09-12 2019-02-12 哈尔滨工业大学 一种基于分布式计算的数据依赖挖掘方法及***
CN109697206A (zh) * 2018-12-19 2019-04-30 江苏理工学院 一种分布式函数依赖关系挖掘方法
CN109885561A (zh) * 2019-01-03 2019-06-14 中国人民解放军国防科技大学 一种基于最大依赖集和属性相关性不一致数据清洗方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699761A (zh) * 2015-02-11 2015-06-10 暨南大学 一种最小函数依赖的增量计算方法
CN105447079A (zh) * 2015-11-04 2016-03-30 华中科技大学 一种基于函数依赖的数据清洗方法
EP3312736A1 (en) * 2016-10-21 2018-04-25 Fujitsu Limited Apparatus program & method for data property recognition
US20180113926A1 (en) * 2016-10-21 2018-04-26 Fujitsu Limited Apparatus program & method for data property recognition
CN108446294A (zh) * 2018-01-22 2018-08-24 东华大学 一种面向脏数据的清洗规则挖掘***
CN109325062A (zh) * 2018-09-12 2019-02-12 哈尔滨工业大学 一种基于分布式计算的数据依赖挖掘方法及***
CN109697206A (zh) * 2018-12-19 2019-04-30 江苏理工学院 一种分布式函数依赖关系挖掘方法
CN109885561A (zh) * 2019-01-03 2019-06-14 中国人民解放军国防科技大学 一种基于最大依赖集和属性相关性不一致数据清洗方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁睿 等: ""一种基于函数依赖的数据清洗方法"", 《信息通信》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116594795A (zh) * 2023-03-03 2023-08-15 齐鲁工业大学(山东省科学院) 面向数据中台的错误检测和修复方法
CN116594795B (zh) * 2023-03-03 2024-01-26 齐鲁工业大学(山东省科学院) 面向数据中台的错误检测和修复方法

Also Published As

Publication number Publication date
CN114741381B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
EP2030134A2 (en) A system and method for automatic weight generation for probabilistic matching
Heemskerk et al. The promise and perils of using big data in the study of corporate networks: Problems, diagnostics and fixes
CN109325062B (zh) 一种基于分布式计算的数据依赖挖掘方法及***
Kumar et al. Attribute correction-data cleaning using association rule and clustering methods
CN114741381B (zh) 基于关联依赖的数据清洗方法
CN113591393A (zh) 智能变电站的故障诊断方法、装置、设备和存储介质
Wang et al. A top-k learning to rank approach to cross-project software defect prediction
Miao et al. Answering skyline queries over incomplete data with crowdsourcing
CN116226103A (zh) 一种基于FPGrowth算法进行政务数据质量检测的方法
US11321359B2 (en) Review and curation of record clustering changes at large scale
CN104318435A (zh) 电子交易过程用户行为模式检测的免疫方法
Gan et al. CoUPM: Correlated utility-based pattern mining
WO2020211466A1 (zh) 一种非冗余基因集聚类方法、***及电子设备
CN109634949B (zh) 一种基于多数据版本的混合数据清洗方法
Ding et al. Leveraging currency for repairing inconsistent and incomplete data
CN111190906B (zh) 一种传感网数据异常检测方法
CN112270614A (zh) 一种面向制造企业全***优化设计的设计资源大数据建模方法
CN115051363B (zh) 一种配网台区户变关系辨识方法、装置及计算机存储介质
Gay et al. Maximum likelihood and quasi-likelihood for nonlinear exponential family regression models
CN113706459B (zh) 一种自闭症患者异常脑区的检测及模拟修复装置
CN109815222A (zh) 一种基于贝叶斯算法的住户用电数据清洗方法
Hong et al. Inconsistency Detection in Knowledge Graph with Entity and Path Semantics.
CN114090562A (zh) 一种电力营销数据的清洗方法及装置
CN114597886A (zh) 基于区间二型模糊聚类分析的配电网运行状态评估方法
Zou Research on data cleaning in big data environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant