CN114741381A

CN114741381A - 基于关联依赖的数据清洗方法

Info

Publication number: CN114741381A
Application number: CN202210393425.8A
Authority: CN
Inventors: 史雯隽; 杜少卿; 吴怀广; 李帅超
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-12
Anticipated expiration: 2042-04-14
Also published as: CN114741381B

Abstract

本发明提供一种基于关联依赖的数据清洗方法，包括以下制备过程：S1、对现有的原始数据进行预处理，以剔除无实际意义的数据，同时对数据集尽心管规范；S2、将与梳理过的数据集通过自动发现条件竖直依赖算法获得候选依赖集合；S3、判断候选依赖集合中的有效依赖对，并对依赖对重新组合获得关联依赖的条件组；S4、将有效依赖对与条件数据依赖的条件组存储获得有效候选依赖集合；S5、对有效候选依赖集合进行清洗，获得关联依赖集合；S6、以依赖集合中的关联依赖作为标准关联依赖对待检测目标数据集中的数据进行检测，以提出异常数据，最终获得洁净数据集；本发明提供的方法，能够高效的对数据进行清洗。

Description

基于关联依赖的数据清洗方法

技术领域

本发明属于数据质量管理技术领域，具体涉及基于关联依赖的数据清洗方法。

背景技术

现实生活中的数据往往是肮脏的，因为数据收集的过程往往会引入一些未知的错误，企业基于数据来进行决策，脏数据则会对企业产生误导，导致不全面的分析结果和决策。为了防止脏数据造成的收入、信誉和客户的损失，利用数据依赖对数据进行清洗来提高数据质量是一种常用而有效的方法。

数据清洗指的是检测和修复数据中的错误的各种活动，是数据质量管理中最重要的问题之一。

由于脏数据经常导致不准确的数据分析结果，甚至导致企业每年损失数十亿美元，此外，数据的收集和采集过程经常会引入新的错误，这突出了开发数据清理解决方案以提高数据库中的数据质量的必要性。传统的技术能够在大多数数据清理任务如离群值检测、数据重复数据删除和数据转换中发现较为常见的错误。

但这些技术难以发现逻辑错误(例如，邮政编码和地址的之间存在一定的逻辑关系)。为了发现逻辑上的错误，研究者们把数据依赖引入了数据清洗领域，并通过数据依赖来对数据库中错误的数据进行清洗和修复。

数据依赖，如函数依赖，首先被应用于数据库设计中来评估一个关系是否处于第三范式(3NF)或Boyce-Codd范式(BCNF)，并且作为完整性约束被广泛应用于数据清理。数据间的依赖关系在数据质量管理中也发挥着重要作用，如错误检测、数据修复和数据重复数据删除等。然而，对传统依赖关系的开发是为了通过规范化来提高数据库模式的质量，优化查询和防止无效的更新。要想使得数据依赖关系在数据质量管理领域中发挥更加适合现实世界数据的作用，就必须对经典的依赖理论进行扩展。

自20世纪80年代初以来，依赖理论受到了广泛的关注的研究兴趣。然而，传统的数据依赖关系基于相等函数而成，例如函数依赖及由其扩展的其他依赖，由于大数据中数据之间存在着各种各样的关系，这些基于相等函数的依赖在此类应用中的清洗能力较弱。

发明内容

本发明的目的是克服现有技术的不足而提供一种基于关联依赖的数据清洗方法。

基于关联依赖的数据清洗方法，包括以下过程：

S1、数据集预处理，对获取的原始数据集进行预处理，剔除原始数据集中无实际意义的数据，并将原始数据集中数据的不同格式和规范修改为符合要求的统一格式和规范，得到规范数据集；

S2、候选依赖集合的建立，以S1获得的规范数据集中的数据作为输入值，输入到自动发现关联依赖算法中，获得候选依赖集合；

S3、关联依赖的条件组的建立，对S2获得的候选依赖集合中的候选依赖对进行判断获得有效候选依赖对，所述有效候选依赖对定义为(LHS，RHS)，所述有效候选依赖对然后对有效候选依赖对进行重新组合，获得关联依赖的条件组，所述关联依赖条件组定义为Tp；

S4、有效候选依赖集合的建立，将S3中的所有有效候选依赖对以及所有关联依赖的条件组存储到一个集合中，构成有效候选依赖集合；

S5、关联依赖集合的建立，将S4中获得的有效候选依赖集合中有效候选依赖对对应的关联依赖的条件组的覆盖率低于10％的有效候选依赖对删除，获得关联依赖集合；

S6、错误检测，将S5获得的依赖集合中的关联依赖作为标准关联依赖，将待检测目标数据集中的数据与标准关联依赖进行比对，以进行错误检测，测出待检测目标数据集中的异常数据，将所述异常数据剔除。

进一步，所述S2中自动发现关联依赖算法使用列表存储所有数据中可能出现的依赖关系，利用四个索引来存储所有数据和每个数据所在的元组位置，从而利用索引对所有数据按照依赖关系进行重新组合构成候选依赖集合。

进一步，所述S3中获得有效候选依赖对的过程为，确定每一个依赖对在候选依赖集合中出现的位置ID和次数，如果所述依赖对在候选依赖集合中出现的次数大于预设阈值，则当前依赖对即为有效依赖对，同时删除在候选依赖集合中出现次数小于预设阈值的依赖对。

进一步，所述S3中关联依赖的条件组的获得过程为，将所有LHS值相同的有效候选依赖对存储到同一个候选依赖集合中的候选依赖子集中，该存储了相同LHS值的有效依赖对的候选依赖子集即为关联依赖的条件组。

进一步，所述S6中错误检测的过程为：

S61、定义待检测目标数据集中的任意两个属性为X和Y，表示为(X→Y)；

S62、对待检测目标数据集中属于当前检测关联依赖的每一条数据，检测其X属性上的值是否与条件组中的任意一个LHS值相等，若相等，说明该条数据满足关联依赖，执行S63；若不相等，说明该条数据不存在关联依赖关系，不对其执行S63；

S63、当目标数据集中当前检测关联依赖的数据中的X属性上的值是否与条件组中的任意一个LHS值相等时，检测该X属性上的值对应的Y属性上的值与当前LHS值对应的任一RHS值，若Y属性上的值与LHS值对应的任一RHS值相等，则说明该条数据符合关联依赖，是正确的数据；若Y属性上的值与LHS值对应的所有RHS值均不相等，则说明该条数据不符合关联依赖，存在异常，即为脏数据；

S64、重复S62-S63，直至将所述待检测目标数据集中的所有数据检测完毕。

与现有技术相比，本发明的有益效果如下：

1、本发明利用自动发现关联依赖算法对大数据中现有的数据进行处理，以发现现有大数据中各数据潜在的依赖关系，根据这种潜在的依赖关系将大数据进行重新组合获得有效候选依赖集合，再对有效候选依赖集合进行处理后，获得关联依赖集合，以关联依赖集合中的关联依赖作为标准关联依赖对待检测目标数据集中的数据进行错误检测从而能够保持数据的洁净性；

2、本发明通过对现有大数据中的数据进行清洗，以洁净的数据集合作为标准数据集，用标准洁净的数据集对新的数据进行检测，能够有效地清洗掉脏数据。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

基于关联依赖的数据清洗方法，包括以下过程：

S6、错误检测，将S5获得的关联依赖集合中的关联依赖作为标准关联依赖，将待检测目标数据集中的数据与标准关联依赖进行比对，以进行错误检测，测出待检测目标数据集中的异常数据，将所述异常数据剔除。

进一步，所述S6中错误检测的过程为：

实验验证

为了验证本发明提供的基于关联依赖的数据清洗方法的准确性，本发明选取美国D11数据库(data.gov(an opendata repository from the US government))中的数据进行验证。

选取数据集中的属性City(城市)和属性Zip(邮政编码)进行测试，数据集中这两个属性的1057条数据共有18条是错误的，错误率约为0.02，这两个属性是关联依赖的X和Y，能够组成两种关联依赖，分别是(City→Zip)和(Zip→City)，针对两组关联依赖进行实验。

实验1，对(City→Zip)进行检测

首先，将选取的数据集，依据本发明提供的基于关联依赖的数据清洗方法S1-S5构建(City→Zip)的关联依赖集合；

然后，将(City→Zip)的关联依赖集合中的关联依赖作为标准关联依赖，将选取的数据集中的1057条数据与标准关联依赖进行比对，检测出12条异常数据，该12条异常数据中，有11条数据为选取的数据集中的18条错误数据，则利用本发明提供的方法清洗数据的准确率为11/12*100％＝92.3％，召回率为11/18*100％＝61.1％。

实验2，对(Zip→City)进行检测

首先，将选取的数据集，依据本发明提供的基于关联依赖的数据清洗方法S1-S5构建(Zip→City)的关联依赖集合；

然后，将(Zip→City)的关联依赖集合中的关联依赖作为标准关联依赖，将选取的数据集中的1057条数据与标准关联依赖进行比对，检测出13条异常数据，该13条异常数据中，有12条数据为选取的数据集中的18条错误数据，则利用本发明提供的方法清洗数据的准确率为12/13*100％＝92.3％，召回率为12/18*100％＝66.7％。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于关联依赖的数据清洗方法，其特征在于，包括以下过程：

2.根据权利要求1所述的基于关联依赖的数据清洗方法，其特征在于：所述S2中自动发现关联依赖算法使用列表存储所有数据中可能出现的依赖关系，利用四个索引来存储所有数据和每个数据所在的元组位置，从而利用索引对所有数据按照依赖关系进行重新组合构成候选依赖集合。

3.根据权利要求1所述的基于关联依赖的数据清洗方法，其特征在于：所述S3中获得有效候选依赖对的过程为，确定每一个依赖对在候选依赖集合中出现的位置ID和次数，如果所述依赖对在候选依赖集合中出现的次数大于预设阈值，则当前依赖对即为有效依赖对，同时删除在候选依赖集合中出现次数小于预设阈值的依赖对。

4.根据权利要求3所述的基于关联依赖的数据清洗方法，其特征在于：所述S3中关联依赖的条件组的获得过程为，将所有LHS值相同的有效候选依赖对存储到同一个候选依赖集合中的候选依赖子集中，该存储了相同LHS值的有效依赖对的候选依赖子集即为关联依赖的条件组。

5.根据权利要求1所述的基于关联依赖的数据清洗方法，其特征在于，所述S6中错误检测的过程为：