CN109947752A

CN109947752A - 一种基于DeepDive的自动数据清洗方法

Info

Publication number: CN109947752A
Application number: CN201910077102.6A
Authority: CN
Inventors: 李卫榜; 李玲; 谈文蓉; 崔梦天
Original assignee: Southwest Minzu University
Current assignee: Southwest Minzu University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-06-28

Abstract

本发明公开了一种基于DeepDive的数据自动清洗方法，包括：(1)根据原始数据规模与设定阈值进行比较，规模超过阈值则随机采样得到采样数据；(2)从原始数据或者采样数据中学习得到属性之间贝叶斯网络；(3)将学习得到的贝叶斯网络转换成一阶谓词逻辑规则；(4)使用互信息理论计算一阶谓词逻辑规则的权重，将带权重的一阶谓词逻辑规则转换成马尔可夫逻辑网络；(5)基于马尔科夫逻辑网络生成DeepDive规则；(6)基于DeepDive进行错误/缺失数据的概率推理，得到元组的属性取不同值的概率；(7)将推理结果用于原始脏数据清洗。本发明能够用于无需现成的数据质量模式/规则和人工介入情况下的数据自动清洗，能够有效提高数据清洗的效率和质量。

Description

一种基于DeepDive的自动数据清洗方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于DeepDive的数据自动清洗方法。

背景技术

现实世界中脏数据十分普遍，针对脏数据的清洗是一个长期存在的问题。大数据时代，数据清洗的重要性更加凸显。从脏数据中检测错误并修复是数据分析领域所面临的主要挑战之一，低劣的数据质量可能导致分析结果的准确性大打折扣。一般来说，数据清洗包含两个阶段：第一个阶段是错误检测，检测出其中包含的错误或者异常数据；第二个阶段是错误修复，修复数据中包含的错误或者异常。目前已有的数据清洗方法大多利用已有的约束规则或模式进行错误检测和修复，主要存在如下的局限性：(1)现有的方法通常需要人工的参与或者额外的信息进行错误的检测和修复。这些方法在数据规模较小的时候还能够应付，然而如今数据的规模以指数级增长，因此这些方法在面对海量数据时并不适合。而且，这些方法的人工成本花费较大，在数据规模较大时人工成本更高。(2)一些其他的方法在进行数据修复的时候依赖于使用离线的模式/规则，而对很多真实数据和应用场景来说，获取离线的模式/规则并不一定可行。(3)一些方法依赖于从干净的数据中进行模式/规则的学习或者从包含脏数据的数据中直接进行模式/规则的学习。对于一些特定场景来说，数据清洗语料库的建立通常需要用户的参与或者仅适合特定的应用场景。尽管这些方法可以学习得到模式/规则，但是通常数据清洗的效果不尽如人意。

发明内容

要解决的技术问题

为解决在缺乏现有的模式/规则以及人工参与情况下实现自动数据清洗，本发明提出一种基于DeepDive的自动数据清洗方法，从而解决现有技术中存在的前述问题。

技术方案

一种基于DeepDive的自动数据清洗方法，其特征在于步骤如下：

步骤1：数据预处理，对包含脏数据的原始数据进行数据规模判断，如果数据规模超过阈值，对原始数据进行采样，得到采样后数据，否则维持原始数据；

步骤2：数据模型学习，从步骤1得到的数据中学习属性之间的依赖关系，学习得到隐含的非绝对的或者相对较弱的依赖关系，并用贝叶斯网络的形式表示；

步骤3：数据模型转换，定义一阶谓词逻辑谓词，包括“等价”、“匹配”谓词，将步骤1得到的属性之间的贝叶斯网络自动转换成一阶谓词逻辑规则，得到基于数据属性之间贝叶斯网络的一阶谓词逻辑规则集合；

步骤4：使用互信息理论计算步骤2得到的基于数据属性之间贝叶斯网络的一阶谓词逻辑规则集合中每一条一阶谓词逻辑规则的权重，将带权重的一阶谓词逻辑规则转换成马尔可夫逻辑网络；

步骤5：基于马尔科夫逻辑网络生成DeepDive规则，规则中布尔查询由马尔科夫逻辑网络中一阶谓词逻辑得到，规则权重为马尔科夫逻辑网络的权重；

步骤6：基于DeepDive进行错误/缺失数据的概率推理，构建因子图作为推理的模型，使用吉布斯采样方法估计元组的属性取不同值的概率；

步骤7：根据概率推理的结果，检测数据中包含的脏数据并对脏数据选择取值概率最大的值与设定的阈值进行比较，如果取值概率最大的值大于阈值，则进行自动修复，否则不做处理。

有益效果

本发明提出的一种基于DeepDive的自动数据清洗方法，根据数据规模大小不同从原始数据或者原始数据的采样数据中学习得到一个数据属性之间的贝叶斯网络，该网络反映了数据中不同属性之间的依赖关系，通过定义一阶谓词逻辑谓词，将学习得到的属性之间的贝叶斯网络转化为一阶谓词逻辑规则，基于互信息根据原始数据计算每一条一阶谓词逻辑规则的权重，得到和每一条一阶谓词逻辑规则对应的马尔可夫逻辑网络，基于马尔科夫逻辑网络生成DeepDive规则，基于DeepDive在原始数据或者原始数据的采样数据上进行错误/缺失数据的概率推理，使用吉布斯采样方法估计元组的属性取不同值的概率，根据概率计算结果选择概率最大的值作为属性的修复值，使用修复值对错误数据进行修复，对缺失数据进行填充，从而完成数据的自动清洗；因此，本发明在进行数据清洗时无需现成的数据清洗模式/规则，同时也无需人工介入，一方面，从概率的角度对数据属性之间的关系建立模型，因此能够容忍训练数据中存在一定比例的脏数据；另一方面，统计关系学习和推理的应用有助于找出数据中的潜在错误并提升数据清洗的效果；本发明能够解决现有技术中存在的需要现成的数据质量模式/规则或者需要人工介入的问题，同时由于实现了数据的自动清洗，本发明更适合数据规模海量的脏数据清洗，有效提高数据清洗的效率和质量。

附图说明

图1基于DeepDive的自动数据清洗流程图

图2包含3个变量节点和1个因子节点的因子图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明提出了基于DeepDive的自动数据清洗方法，自动数据清洗流程图见图1，解决其技术问题所采用的技术方案包括以下内容：

1.数据预处理

设定待清洗数据规模阈值计算待清洗数据规模，也就是包含元组个数，如果则对原始数据随机采样，得到采样后数据，否则保持原始数据。

2.数据模型学习

在缺乏现成的数据清洗模式/规则情况下，从数据预处理后得到的数据中进行数据模型学习，找出数据中隐含的非绝对的或者相对较弱的依赖关系，并用贝叶斯网络的形式表示。贝叶斯网络的学习阶段，本发明基于数据表构建属性之间的全连接图，然后计算任意属性X、Y之间的互信息I(X；Y)，设定阈值λ，如果I(X；Y)>λ，则保留属性X、Y之间的连接，否则删除X、Y之间的连接，通过这种方式得到一个简化的网络，基于该网络进行完备搜索，找到代表数据表属性之间依赖关系的贝叶斯网络结构，该方法确保该结果能满足全局最优化，有助于高质量数据质量规则的构建。

3.数据模型转换

本发明将数据模型学习得到的反映数据表属性之间依赖关系的贝叶斯网络进一步转换成一阶谓词逻辑。一阶谓词逻辑中，关系常量蕴含了多个元素之间的关系。本发明定义关系常量如下：

等价：equal-A(key₁,key₂)，表示关系表R中主键为key₁的元组与主键为key₂的元组的A属性值相同。

匹配：match-A(key₁,key₂)，表示关系表R中主键为key₁的元组与主键为key₂的元组的A属性值相匹配。

本发明对于关系R中的每个属性A，将A表示为A(key,v)，这里A(key,v)表示主键为key的元组的A属性值为v。

本发明依据学习得到的贝叶斯网络构建一阶谓词逻辑。假定数据表属性A₁和A₂之间存在一条有向边且从A₁指向A₂，则可以将A₁和A₂之间的依赖关系形式化为如下的一阶谓词逻辑：

这里v是元组key₁和key₂的A属性值。如果有多个属性指向一个属性，如属性A₁、A₂、…、A_i同时指向A_j，则它们之间的依赖关系可以形式化为如下的一阶谓词逻辑：

这里v₁、v₂、…、v_i是元组key₁和key₂在属性A₁、A₂、…、A_i上的属性值。

本发明通过上述方式将学习得到的贝叶斯网络转换为对应的一阶谓词逻辑规则集合转换采用自动方式进行，输入为贝叶斯网络依赖集合和属性集合Attrs(R)＝(A₁，…，A_m)，输出为谓词集合和规则集对由得到谓词集合对贝叶斯网络依赖集合Φ中的任一元素j∈[1,n]，假定为的左部，为的右部。对规则集中的任一规则f_j，j∈[1,n]，假定为f_j的左部，RHS(f_j)为f_j的右部。假定在f_j不为空时，根据B_k(key₁,B_k)∧B_k(key₂,B_k)得到f_j为空时，根据LHS(f_j)∧B_k(key₁,B_k)∧B_k(key₂,B_k)得到而RHS(f_j)由得到。

转换后得到两种类型的规则，一种是绝对规则，另外一种是近似满足的非绝对规则。

4.一阶谓词逻辑权重计算

针对一阶谓词逻辑规则集合中的每一条规则F，本发明将其转换为马尔可夫逻辑网络L，L是组合(F,w)的集合，这里w为F的权重。针对绝对规则，本发明对其权重赋值为正无穷大；对于近似满足的非绝对规则，本发明基于规则涉及的属性之间的互信息计算规则的权重。假定一条一阶逻辑规则涉及到两个属性X和Y，本发明使用如下的公式进行规则权重W_F的计算：

W_F＝exp{I(X；Y)}-1 (1)

对于包含多个属性的一阶谓词逻辑规则，假定规则涉及n+1个属性，属性的互信息为I(X；Y₁,Y₂,…,Y_n)，本发明使用如下的公式进行规则权重W_F的计算：

W_F＝exp{I(X；Y1,Y2,…,Yn)}-1 (2)

这里e为指数函数，属性之间的互信息作为指数函数e的指数，W_F表示规则的置信度。由于I(X；Y)≥0，而且I(X；Y₁,Y₂,…,Y_n)≥0，确保exp{I(X；Y)}-1≥0，同时exp{I(X；Y1,Y2,…,Yn)}-1≥0，计算得到的规则权重W_F的值为非负值，同时指数函数e的引入使得一阶谓词逻辑规则的权重与对应属性的互信息相比得到了强化。

5.DeepDive规则生成

本发明将马尔可夫逻辑网络转换成DeepDive规则，转换过程中，DeepDive规则的布尔查询的谓词由马尔可夫逻辑网络中的一阶谓词逻辑规则和数据模型转换中定义的关系常量equal、match得到，DeepDive规则的权重由马尔可夫逻辑网络规则权重得到，代表DeepDive规则的置信度。

6.基于DeepDive进行错误/缺失数据的修复值概率推理

本发明中预处理后数据加载到PostgreSQL数据库，由DeepDive读取预处理数据，执行生成的DeepDive规则，通过对原始数据/原始数据采样后得到的数据进行遍历，得到马尔可夫逻辑网络L中涉及属性的可能世界，将可能世界构建为限常量集合C。将马尔可夫逻辑网络L与有限常量集合C结合，得到对应的马尔科夫网络M_L,C。

针对马尔可夫逻辑网络L，将其转换成因子图，转换得到的因子图包含变量节点和因子节点。因子图的变量节点获取，由M_L,C规则中涉及到的属性得到。因子图的因子节点为与其相连接变量的函数，本发明中因子节点根据M_L,C规则中涉及到的一阶谓词得到。假定因子图包含3个变量节点，分别为x₁、x₂和x₃，一个因子节点f₁，因子节点和变量节点之间存在连接关系，如附图2所示。

在得到转换后的因子图之后，在因子图上采用马尔科夫链蒙特卡洛方法中的吉布斯采样方法进行统计推理，进而得到元组的属性可能的不同取值以及对应的概率。

7.原始脏数据清洗

本发明根据DeepDive概率推理的结果，检测数据中包含的脏数据，根据得到的元组的属性可能的不同取值以及对应的概率，选取概率最大的属性的值作为错误值修复或者缺失值填充的依据，遍历包含脏数据的原始数据，对错误值进行替换，对缺失值进行填充，从而实现脏数据的清洗。

Claims

1.一种基于DeepDive的数据自动清洗方法，其特征在于步骤如下：

2.根据权利要求1所述的数据模型学习方法，其特征在于，基于数据表构建属性之间的全连接图，然后计算任意属性X、Y之间的互信息I(X；Y)，设定阈值λ，如果I(X；Y)>λ，则保留属性X、Y之间的连接，否则删除X、Y之间的连接，通过这种方式得到一个简化的网络，基于该网络进行完备搜索，找到代表数据表属性之间依赖关系的贝叶斯网络结构。

3.根据权利要求1所述的数据模型转换方法，其特征在于，依据学习得到的贝叶斯网络构建一阶谓词逻辑，假定数据表属性A₁和A₂之间存在一条有向边且从A₁指向A₂，则可以将A₁和A₂之间的依赖关系形式化为如下的一阶谓词逻辑：

这里v是元组key₁和key₂的A属性值；

如果有多个属性指向一个属性，如属性A₁、A₂、…、A_i同时指向A_j，则它们之间的依赖关系可以形式化为如下的一阶谓词逻辑：

这里v₁、v₂、…、v_i是元组key₁和key₂在属性A₁、A₂、…、A_i上的属性值；

通过上述方式将学习得到的贝叶斯网络转换为对应的一阶谓词逻辑规则集合包含两种类型的规则，一种是绝对规则，另外一种是近似满足的非绝对规则。

4.根据权利要求1所述的一阶谓词逻辑权重计算方法，其特征在于，假定一条一阶逻辑规则涉及到两个属性X和Y，本发明使用如下的公式进行规则权重W_F的计算：

W_F＝exp{I(X；Y)}-1

W_F＝exp{I(X；Y1,Y2,…,Yn)}-1

这里e为指数函数，属性之间的互信息作为指数函数e的指数，W_F表示规则的置信度。

5.根据权利要求1所述的DeepDive规则生成方法，其特征在于，将马尔可夫逻辑网络转换成DeepDive规则，转换过程中，DeepDive规则的布尔查询的谓词由马尔可夫逻辑网络中的一阶谓词逻辑规则和数据模型转换中定义的关系常量equal、match得到，DeepDive规则的权重由马尔可夫逻辑网络规则权重得到。

6.根据权利要求1所述的基于DeepDive进行错误/缺失数据的修复值概率推理方法，其特征在于，通过对原始数据/原始数据采样后得到的数据进行遍历，得到马尔可夫逻辑网络L中涉及属性的可能世界，将可能世界构建为限常量集合C，将马尔可夫逻辑网络L与有限常量集合C结合，得到对应的马尔科夫网络M_L,C；

针对马尔可夫逻辑网络L，将其转换成因子图，转换得到的因子图包含变量节点和因子节点，因子图的变量节点获取，由M_L,C规则中涉及到的属性得到，因子节点根据M_L,C规则中涉及到的一阶谓词得到；

7.根据权利要求1所述的原始脏数据清洗方法，其特征在于，根据DeepDive概率推理的结果，检测数据中包含的脏数据，根据得到的元组的属性可能的不同取值以及对应的概率，选取概率最大的属性的值作为错误值修复或者缺失值填充的依据，遍历包含脏数据的原始数据，对错误值进行替换，对缺失值进行填充，从而实现脏数据的清洗。