CN116594795B

CN116594795B - 面向数据中台的错误检测和修复方法

Info

Publication number: CN116594795B
Application number: CN202310201668.1A
Authority: CN
Inventors: 黎玲利; 李金宝; 郭亚红; 魏诺; 徐鹏摇
Original assignee: Qilu University of Technology; Heilongjiang University; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Heilongjiang University; Shandong Institute of Artificial Intelligence
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2024-01-26
Anticipated expiration: 2043-03-03
Also published as: CN116594795A

Abstract

一种面向数据中台的错误检测和修复方法，属于工业大数据技术领域，通过对工业大数据中关系数据的错误数据的检测和修复方法可以有效检测数据集中的不能被规则检测出来的错误并对其就行修复，相对于公开数据集book和Flight,通过基于草图构建的近似算法和精确计算权重的算法，提高了检测和修复效率。

Description

面向数据中台的错误检测和修复方法

技术领域

本发明涉及工业大数据技术领域，具体涉及一种面向数据中台的错误检测和修复方法。

背景技术

数据中台是从后台及业务中台中将数据导入，完成海量数据的存储、计算、产品包装过程，统一要辅助以数据治理，保证数据的输入输出质量，构成企业的核心数据能力。在数据中台中的一个核心技术就是数据质量管理，即如何有提升工业大数据的数据质量，例如修复目标数据集的错误数据，从而保证数据的输入输出质量，构成企业的核心数据能力，最终为前台基于属于数据的定制化提供了强大的支撑，也帮助业务中台基于数据反馈做持续的演进。与传统数据库的数据相比，工业大数据的数据由于数据采集的不确定性，其数据可能并不可靠，包含较多的错误，这给数据修复带来了挑战。因此，如何在数据中台的架构下检测工业大数据中的错误并修复是数据中台能够有效支持企业各类数据服务的必不可少的环节。当前的研究者提出了一系列传统数据库下一致性的修复技术，但是仍存在一些不足，例如并不能有效利用外面的数据源来帮助检测数据的不一致。数据中台集成了来自多个数据源的数据，多个数据源的数据的集成带来了困难，但也带来了解决数据质量问题的新机会。

发明内容

本发明为了克服以上技术的不足，提供了一种能够解决数据中台中数据治理里的数据错误问题的面向数据中台的错误检测和修复方法。

本发明克服其技术问题所采用的技术方案是：

一种面向数据中台的错误检测和修复方法，包括如下步骤：

a)从数据中台内的工业大数据中获取数据建立一个关系模式为R的目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)，其中A_i为第i个属性，i∈{1,2,…,m}，m为获取的工业大数据中的属性个数，t_j为第j个元组，j∈{1,2,...,n}，n为获取的工业大数据中的元组个数，目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)满足的函数依赖集合为Z＝{r₁,r₂,...,r_i,...,r_p}，其中r_i为第i条函数依赖规则，i∈{1,2,...,p}，p为函数依赖集合的大小，第j条函数依赖规则r_j的形式定义为LHS(r_j)→RHS(r_j)，其中LHS(r_j)为函数依赖规则r_j的前件，RHS(r_j)为函数依赖规则r_j的后件，LHS(r_j)为属性列表，LHS(r_j)＝A_j(1),A_j(2),...,A_j(o),...,A_j(s)，A_j(o)为关系模式R上的第j个属性，j(o)∈{1,2,...,m}，o∈{1,2,...,s}，s为前件中属性的个数，RHS(r_j)＝A_j(s+1)，A_j(s+1)为关系模式R上的第j(s+1)个属性，j(s+1)∈{1,2,...,m}；

b)从数据中台内的工业大数据中获取数据建立一个数据源集合S＝{S₁,S₂,...,S_i,...,S_o}，其中S_i为第i个数据源，i∈{1,2,...,o}，o为数据源的数量，第i个数据源S_i的关系模式为R_i，第i个数据源S_i的函数依赖集合为Z_i，第j条函数依赖规则r_j的形式定义为LHS(r_j)→RHS(r_j)，其中LHS(r_j)为函数依赖规则r_j的前件，RHS(r_j)为函数依赖规则r_j的后件，LHS(r_j)为属性列表，LHS(r_j)＝A_j(1),A_j(2),...,A_j(o′),...,A_j(s)，A_j(o′)为关系模式R_i上的第j(o′)个属性，j(o′)∈{1,2,...,|R_i|}，|R_i|为关系模式R_i中属性个数，o′∈{1,2,...,|R_i|}，s为前件中属性的个数，RHS(r_i)＝A_j(s+1)，A_j(s+1)为关系模式R_i上的第j(s+1)个属性，j(s+1)∈{1,2,...,m}；

c)设置子函数一，利用子函数一将目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)构建其在函数依赖集合Z＝{r₁,r₂,...,r_i,...,r_p}中第j条函数依赖规则r_j对应的草图Scratch_D(j)；

d)利用子函数一将数据源集合S＝{S₁,S₂,...,S_i,...,S_o}中的第i个数据源S_i构建其在函数依赖集合Z_i中第j条函数依赖规则r_j对应的草图Scratch(i,j)；

e)设置子函数二，利用子函数二计算第i个数据源S_i对目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,…,t_j,...,t_n)错误检测和修复的重要性权重W_i；

f)设置子函数三，利用子函数三对所有数据源按照其权重W_i从大到小的顺序进行排列，按照权重从大到小的的顺序对数据源依次进行访问，根据c个独立的哈希函数h₁-h_c计算得到工业大数据中获取数据的模式p的c个哈希值h₁(p)-h_c(p)，如果数据源集合S＝{S₁,S₂,...,S_i,...,S_o}中第i个数据源S_i在第j条函数依赖规则r_j上的布隆过滤器BF(i,j)上所有位置均为1，则第i个数据源S_i可被用于对模式p的错误检测和修复，如果数据源集合S＝{S₁,S₂,...,S_i,...,S_o}中第i个数据源S_i在第j条函数依赖规则r_j上的布隆过滤器BF(i,j)上所有位置不均为1，则第i个数据源S_i不可被用于对模式p的错误检测和修复；

g)设置子函数四，利用子函数四判断第i个数据源S_i是否可用于对模式p的错误检测和修复，如果第i个数据源S_i可被用于对模式p的错误检测和修复，则对第i个数据源S_i进行SQL查询模式p来判断第i个数据源S_i是否可以用于错误检测和修复，如果不能用于错误检测和修复，则访问下一个数据源后重复执行f)，如果可以用于错误检测和修复，则停止循环，用SQL查询模式p的查询结果对模式p进行错误检测和修复。

进一步的，步骤c)包括如下步骤：

c-1)构造目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)在第j条函数依赖规则r_j上的最小哈希值列表mh_D(j)，j∈{1,2,...,p}；

c-2)构造目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)在第j条函数依赖规则r_j上的布隆过滤器BF_D(j)；

c-3)最小哈希值列表mh_D(j)及布隆过滤器BF_D(j)共同构成目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)在第j条函数依赖规则r_j上的草图Scratch_D(j)。

进一步的，步骤c-1)中通过定义k个独立的哈希函数h₁-h_k，遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)中每个元组在函数依赖规则r_j的前件LHS(r_j)上的值，计算该值在哈希函数h₁-hk上的哈希值，得到k个最小哈希值列表mh_D(j)，mh_D(j)＝[mh₁(D),mh₂(D),...,mh_i(D),...,mh_k(D)]，mh_i(D)为每个元组在函数依赖规则r_j的前件LHS(r_j)上的值在第i个哈希函数hi上的哈希值，i∈{1,2,...,k}；步骤c-2)中初始化一个长度为L的位数组BF_D(j)，定义c个独立的哈希函数h₁-hc，将任意整数映射到1-L，将位数组BF_D(j)的所有位初始化为0后遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)中的每条元组，计算出第j个元组t_j在属性列表LHS(r_j)上的值在哈希函数h₁-h_c上的哈希值，得到h₁(t_j[LHS(r_j)]),h₂(t_j[LHS(r_j)]),...,h_i(t_j[LHS(r_j)]),...,h_c(t_j[LHS(r_j)])，其中h_i(t_j[LHS(r_j)])为第j个元组t_j在属性列表LHS(r_j)上的值在第i个哈希函数h_i上的哈希值，i∈{1,2,...,c}，将位数组BF_D(j)中c个位置的哈希值h₁(t_j[LHS(r_j)]),h₂(t_j[LHS(r_j)]),...,h_i(t_j[LHS(r_j)]),...,h_c(t_j[LHS(r_j)])置1。

进一步的，步骤d)包括如下步骤：

d-1)构造数据源集合S＝{S₁,S₂,...,S_i,...,S_o}中的第i个数据源S_i在第j条函数依赖规则r_j上的最小哈希值列表mh(i,j)，j∈{1,2,...,p}；

d-2)构造数据源集合S＝{S₁,S₂,...,S_i,...,S_o}中的第i个数据源S_i在第j条函数依赖规则r_j上的布隆过滤器BF(i,j)；

d-3)最小哈希值列表mh(i,j)及布隆过滤器BF(i,j)共同构成第i个数据源S_i在第j条函数依赖规则r_j上的草图Scratch(i,j)。

进一步的，步骤d-1)中通过定义k个独立的哈希函数h₁-h_k，遍历第i个数据源S_i中每个元组在函数依赖规则r_j的前件LHS(r_j)上的值，计算该值在哈希函数h₁-h_k上的哈希值，得到k个最小哈希值列表mh(i,j)，mh(i,j)＝[mh₁(S_i),mh₂(S_i),...,mh_i(S_i),...,mh_k(S_i)]，mh_i(S_i)为每个元组在函数依赖规则r_j的前件LHS(r_j)上的值在第i个哈希函数h_i上的哈希值，i∈{1,2,...,k}；步骤d-2)中初始化一个长度为L的位数组BF(i,j)，定义c个独立的哈希函数h₁-h_c，将任意整数映射到1-L，将位数组BF(i,j)的所有位初始化为0后遍历第i个数据源S_i中的每条元组，计算出第j个元组t_j在属性列表LHS(r_j)上的值在哈希函数h₁-h_c上的哈希值，得到h₁(t_j[LHS(r_j)]),h₂(t_j[LHS(r_j)]),...,h_i(t_j[LHS(r_j)]),...,h_c(t_j[LHS(r_j)])，其中h_i(t_j[LHS(r_j)])为第j个元组t_j在属性列表LHS(r_j)上的值在第i个哈希函数h_i上的哈希值，i∈{1,2,...,c}，将位数组BF(i,j)中c个位置的哈希值h₁(t_j[LHS(r_j)]),h₂(t_j[LHS(r_j)]),...,h_i(t_j[LHS(r_j)]),...,h_c(t_j[LHS(r_j)])置1。

进一步的，步骤e)包括如下步骤：

e-1)对权重W_i初始化为0；

e-2)遍历第i个数据源S_i和目标数据集D(A₁,A₂,…,A_i,…,A_m)＝(t₁,t₂,...,t_j,...,t_n)中的函数依赖的交集Z_i∩Z中的每一条函数依赖规则，计算第i个数据源S_i和目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)的最小哈希相似度s；

e-3)通过公式W_i＝W_i+s(n₁+n₂)/(1+s)更新权重W_i，式中s(n₁+n₂)/(1+s)为第i个数据源S_i在函数依赖规则r_j上对权重的覆盖度，n₁为第i个数据源S_i在前件LHS(r_j)下属性列表的投影下不同模式的数量，n₂为目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)在前件LHS(r_j)下属性列表的投影下不同模式的数量；

e-4)遍历完交集Z_i∩Z中的最后一条函数依赖规则后，计算得到的更新后的权重W_i为第i个数据源S_i的权重。

进一步的，步骤e-2)中第i个数据源S_i最小哈希值列表mh(i,j)＝[mh₁(S_i),mh₂(S_i),...,mh_i(S_i),...,mh_k(S_i)]，目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)最小哈希值列表mh_D(j)＝[mh₁(D),mh₂(D),...,mh_i(D),...,mh_k(D)]，通过公式s＝(mh_i(S_i)和mh_i(D)相等的数量)/k计算得到最小哈希相似度s。

本发明的有益效果是：本发明提出的对工业大数据中关系数据的错误数据的检测和修复方法可以有效检测数据集中的不能被规则检测出来的错误并对其就行修复，相对于公开数据集book和Flight,通过基于草图构建的近似算法和精确计算权重的算法，提高了检测和修复效率。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图1对本发明做进一步说明。

一种面向数据中台的错误检测和修复方法，包括如下步骤：

a)从数据中台内的工业大数据中获取数据建立一个关系模式为R的目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,…,t_j,...,t_n)，其中A_i为第i个属性，i∈{1,2,…,m}，m为获取的工业大数据中的属性个数，t_j为第j个元组，j∈{1,2,…,n}，n为获取的工业大数据中的元组个数，目标数据集D(A₁,A₂,…,A_i,…,A_m)＝(t₁,t₂,...,t_j,...,t_n)满足的函数依赖集合为Z＝{r₁,r₂,...,r_i,...,r_p}，其中r_i为第i条函数依赖规则，i∈{1,2,...,p}，p为函数依赖集合的大小，第j条函数依赖规则r_j的形式定义为LHS(r_j)→RHS(r_j)，其中LHS(r_j)为函数依赖规则r_j的前件，RHS(r_j)为函数依赖规则r_j的后件，LHS(r_j)为属性列表，LHS(r_j)＝A_j(1),A_j(2),...,A_j(o),...,A_j(s)，A_j(o)为关系模式R上的第j个属性，j(o)∈{1,2,...,m}，o∈{1,2,...,s}，s为前件中属性的个数，RHS(r_j)＝A_j(s+1)，A_j(s+1)为关系模式R上的第j(s+1)个属性，j(s+1)∈{1,2,...,m}；

b)从数据中台内的工业大数据中获取数据建立一个数据源集合S＝{S₁,S₂,...,S_i,...,S_o}，其中S_i为第i个数据源，i∈{1,2,...,o}，o为数据源的数量，第i个数据源S_i的关系模式为R_i，第i个数据源S_i的函数依赖集合为Z_i，第j条函数依赖规则r_j的形式定义为LHS(r_j)→RHS(r_j)，其中LHS(r_j)为函数依赖规则r_j的前件，RHS(r_j)为函数依赖规则r_j的后件，LHS(r_j)为属性列表，LHS(r_j)＝A_j(1),A_j(2),...,A_j(o′),...,A_j(s)，A_j(o′)为关系模式R_i上的第j(o′)个属性，j(o′)∈{1,2,...,|R_i|}，|R_i|为关系模式R_i中属性个数，o′∈{1,2,...,|R_i|}，s为前件中属性的个数，RHS(r_i)＝A_j(s+1)，A_j(s+1)为关系模式R_i上的第j(s+1)个属性，j(s+1)∈{1,2,...,m}。

c)设置子函数一，利用子函数一将目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)构建其在函数依赖集合Z＝{r₁,r₂,...,r_i,...,r_p}中第j条函数依赖规则r_j对应的草图Scratch_D(j)。

d)利用子函数一将数据源集合S＝{S₁,S₂,...,S_i,...,S_o}中的第i个数据源S_i构建其在函数依赖集合Z_i中第j条函数依赖规则r_j对应的草图Scratch(i,j)。

e)设置子函数二，利用子函数二计算第i个数据源S_i对目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)错误检测和修复的重要性权重W_i。

f)设置子函数三，利用子函数三对所有数据源按照其权重W_i从大到小的顺序进行排列，按照权重从大到小的的顺序对数据源依次进行访问，根据c个独立的哈希函数h₁-h_c计算得到工业大数据中获取数据的模式p的c个哈希值h₁(p)-h_c(p)，如果数据源集合S＝{S₁,S₂,...,S_i,...,S_o}中第i个数据源S_i在第j条函数依赖规则r_j上的布隆过滤器BF(i,j)上所有位置均为1，则第i个数据源S_i可被用于对模式p的错误检测和修复，如果数据源集合S＝{S₁,S₂,...,S_i,...,S_o}中第i个数据源S_i在第j条函数依赖规则r_j上的布隆过滤器BF(i,j)上所有位置不均为1，则第i个数据源S_i不可被用于对模式p的错误检测和修复。

g)设置子函数四，利用子函数四判断第i个数据源S_i是否可用于对模式p的错误检测和修复，如果第i个数据源S_i可被用于对模式p的错误检测和修复，则对第i个数据源S_i进行SQL查询模式p，例如SELECT RHS(r_j)FROM S_i WHERE LHS(r_j)＝p，通过查询来判断第i个数据源S_i是否可以用于错误检测和修复，如果不能用于错误检测和修复，则访问下一个数据源后重复执行f)，如果可以用于错误检测和修复，则停止循环，用SQL查询模式p的查询结果对模式p进行错误检测和修复。即比较查询结果和第j个元组t_j在属性列表RHS(r_j)上的值t_j(RHS(r_j))进行比较，如果相等则什么都不做，如不不相等，则将t_j(RHS(r_j))更新为在第i个数据源S_i中的查询结果。

可以有效检测数据集中的不能被规则检测出来的错误并对其就行修复。在真实的两个公开数据集book(包含1263个元组，894个相关的数据源，函数依赖为ISBN title)和flight(包含1200个元组，38个相关的数据源，函数依赖为flight#Scheduled departure)数据集上验证了该发明的有效性，该发明技术提升了原数据集的正确性。对于Book数据集，利用数据源能够对目标数据集中92％的数据进行错误检测，检测出并修复了290个错误。对于Flight数据集，利用数据源能够对目标数据集中75％的数据进行错误检测，检测出并修复了456个错误。在合成数据上将本发明中基于草图构建的近似算法和精确计算权重的算法进行了对比，发现本发明在精度上和精确算法相当，误差不超过10％，但是在效率上大大提升。当数据源数量达到1000时，本算法效率是精确算法的10倍。

实施例1：

在本发明的一个实施例中，步骤c)包括如下步骤：

c-1)构造目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)在第j条函数依赖规则r_j上的最小哈希值列表mh_D(j)，j∈{1,2,...,p}。即计算目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)所有元组在前件LHS(r)上的投影的实例构成的集合的最小哈希。

c-2)构造目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)在第j条函数依赖规则r_j上的布隆过滤器BF_D(j)。

具体的：

步骤c-1)中通过定义k个独立的哈希函数h₁-h_k，遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)中每个元组在函数依赖规则r_j的前件LHS(r_j)上的值，计算该值在哈希函数h₁-hk上的哈希值，得到k个最小哈希值列表mh_D(j)，mh_D(j)＝[mh₁(D),mh₂(D),...,mh_i(D),...,mh_k(D)]，mh_i(D)为每个元组在函数依赖规则r_j的前件LHS(r_j)上的值在第i个哈希函数hi上的哈希值，i∈{1,2,...,k}；步骤c-2)中初始化一个长度为L的位数组BF_D(j)，定义c个独立的哈希函数h₁-h_c，将任意整数映射到1-L，将位数组BF_D(j)的所有位初始化为0后遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,…,t_j,…,t_n)中的每条元组，计算出第j个元组t_j在属性列表LHS(r_j)上的值在哈希函数h₁-h_c上的哈希值，得到h₁(t_j[LHS(r_j)]),h₂(t_j[LHS(r_j)]),...,h_i(t_j[LHS(r_j)]),…,h_c(t_j[LHS(r_j)])，其中h_i(t_j[LHS(r_j)])为第j个元组t_j在属性列表LHS(r_j)上的值在第i个哈希函数h_i上的哈希值，i∈{1,2,…,c}，将位数组BF_D(j)中c个位置的哈希值h₁(t_j[LHS(r_j)]),h₂(t_j[LHS(r_j)]),...,h_i(t_j[LHS(r_j)]),...,h_c(t_j[LHS(r_j)])置1。

实施例2：

在本发明的一个实施例中，步骤d)包括如下步骤：

d-1)构造数据源集合S＝{S₁,S₂,...,S_i,...,S_o}中的第i个数据源S_i在第j条函数依赖规则r_j上的最小哈希值列表mh(i,j)，j∈{1,2,...,p}。

d-2)构造数据源集合S＝{S₁,S₂,...,S_i,...,S_o}中的第i个数据源S_i在第j条函数依赖规则r_j上的布隆过滤器BF(i,j)。

具体的：

步骤d-1)中通过定义k个独立的哈希函数h₁-h_k，遍历第i个数据源S_i中每个元组在函数依赖规则r_j的前件LHS(r_j)上的值，计算该值在哈希函数h₁-h_k上的哈希值，得到k个最小哈希值列表mh(i,j)，mh(i,j)＝[mh₁(S_i),mh₂(S_i),...,mh_i(S_i),...,mh_k(S_i)]，mh_i(S_i)为每个元组在函数依赖规则r_j的前件LHS(r_j)上的值在第i个哈希函数hi上的哈希值，i∈{1,2,...,k}；步骤d-2)中初始化一个长度为L的位数组BF(i,j)，定义c个独立的哈希函数h₁-h_c，将任意整数映射到1-L，将位数组BF(i,j)的所有位初始化为0后遍历第i个数据源S_i中的每条元组，计算出第j个元组t_j在属性列表LHS(r_j)上的值在哈希函数h₁-hc上的哈希值，得到h₁(t_j[LHS(r_j)]),h₂(t_j[LHS(r_j)]),…,h_i(t_j[LHS(r_j)]),...,h_c(t_j[LHS(r_j)])，其中h_i(t_j[LHS(r_j)])为第j个元组t_j在属性列表LHS(r_j)上的值在第i个哈希函数h_i上的哈希值，i∈{1,2,...,c}，将位数组BF(i,j)中c个位置的哈希值h₁(t_j[LHS(r_j)]),h₂(t_j[LHS(r_j)]),…,h_i(t_j[LHS(r_j)]),...,h_c(t_j[LHS(r_j)])置1。

实施例3：

在本发明的一个实施例中，步骤e)包括如下步骤：

e-1)对权重W_i初始化为0。

e-2)遍历第i个数据源S_i和目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)中的函数依赖的交集Z_i∩Z中的每一条函数依赖规则，计算第i个数据源S_i和目标数据集D(A₁,A₂,…,A_i,…,A_m)＝(t₁,t₂,...,t_j,...,t_n)的最小哈希相似度s。

e-3)通过公式Wi＝Wi+s(n₁+n₂)/(1+s)更新权重W_i，式中s(n₁+n₂)/(1+s)为第i个数据源S_i在函数依赖规则r_j上对权重的覆盖度，即第i个数据源S_i的模式和权重W_i的模式的交集大小，n₁为第i个数据源S_i在前件LHS(r_j)下属性列表的投影下不同模式的数量，n₂为目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)在前件LHS(r_j)下属性列表的投影下不同模式的数量。

e-4)遍历完交集Z_i∩Z中的最后一条函数依赖规则后，计算得到的更新后的权重W_i为第i个数据源S_i的权重。权重W_i越大，说明第i个数据源S_i对目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)的检测和修复能力越强。

具体的：

步骤e-2)中第i个数据源S_i最小哈希值列表mh(i,j)＝[mh₁(S_i),mh₂(S_i),...,mh_i(S_i),...,mh_k(S_i)]，目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)最小哈希值列表mh_D(j)＝[mh₁(D),mh₂(D),...,mh_i(D),...,mh_k(D)]，通过公式s＝(mh_i(S_i)和mh_i(D)相等的数量)/k计算得到最小哈希相似度s。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向数据中台的错误检测和修复方法，其特征在于，包括如下步骤：

a)从数据中台内的工业大数据中获取数据建立一个关系模式为R的目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)，其中A_i为第i个属性，i∈{1,2,...,m}，m为获取的工业大数据中的属性个数，t_j为第j个元组，j∈{1,2,...,n}，n为获取的工业大数据中的元组个数，目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)满足的函数依赖集合为Z＝{r₁,r₂,...,r_i,...,r_p}，其中r_i为第i条函数依赖规则，i∈{1,2,...,p}，p为函数依赖集合的大小，第j条函数依赖规则r_j的形式定义为LHS(r_j)→RHS(r_j)，其中LHS(r_j)为函数依赖规则r_j的前件，RHS(r_j)为函数依赖规则r_j的后件，LHS(r_j)为属性列表，LHS(r_j)＝A_j(1),A_j(2),...,A_j(o),...,A_j(s)，A_j(o)为关系模式R上的第j个属性，j(o)∈{1,2,...,m}，o∈{1,2,...,s}，s为前件中属性的个数，RHS(r_j)＝A_j(s+1)，A_j(s+1)为关系模式R上的第j(s+1)个属性，j(s+1)∈{1,2,...,m}；

e)设置子函数二，利用子函数二计算第i个数据源S_i对目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)错误检测和修复的重要性权重W_i；

g)设置子函数四，利用子函数四判断第i个数据源S_i是否可用于对模式p的错误检测和修复，如果第i个数据源S_i可被用于对模式p的错误检测和修复，则对第i个数据源S_i进行SQL查询模式p来判断第i个数据源S_i是否可以用于错误检测和修复，如果不能用于错误检测和修复，则访问下一个数据源后重复执行f)，如果可以用于错误检测和修复，则停止循环，用SQL查询模式p的查询结果对模式p进行错误检测和修复；

步骤c)包括如下步骤：

c-3)最小哈希值列表mh_D(j)及布隆过滤器BF_D(j)共同构成目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)在第j条函数依赖规则r_j上的草图Scratch_D(j)；

步骤d)包括如下步骤：

d-3)最小哈希值列表mh(i,j)及布隆过滤器BF(i,j)共同构成第i个数据源S_i在第j条函数依赖规则r_j上的草图Scratch(i,j)；

步骤e)包括如下步骤：

e-1)对权重W_i初始化为0；

e-2)遍历第i个数据源S_i和目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)中的函数依赖的交集Z_i∩Z中的每一条函数依赖规则，计算第i个数据源S_i和目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)的最小哈希相似度s；

2.根据权利要求1所述的面向数据中台的错误检测和修复方法，其特征在于：

步骤c-1)中通过定义k个独立的哈希函数h₁-h_k，遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)中每个元组在函数依赖规则r_j的前件LHS(r_j)上的值，计算该值在哈希函数h₁-h_k上的哈希值，得到k个最小哈希值列表mh_D(j)，mh_D(j)＝[mh₁(D),mh₂(D),...,mh_i(D),...,mh_k(D)]，mh_i(D)为每个元组在函数依赖规则r_j的前件LHS(r_j)上的值在第i个哈希函数h_i上的哈希值，i∈{1,2,...,k}；步骤c-2)中初始化一个长度为L的位数组BF_D(j)，定义c个独立的哈希函数h₁-h_c，将任意整数映射到1-L，将位数组BF_D(j)的所有位初始化为0后遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_n)中的每条元组，计算出第j个元组t_j在属性列表LHS(r_j)上的值在哈希函数h₁-h_c上的哈希值，得到

h₁(t_j[LHS(r_j)]),h₂(t_j[LHS(r_j)]),...,h_i(t_j[LHS(r_j)]),...,h_c(t_j[LHS(r_j)])，其中h_i(t_j[LHS(r_j)])为第j个元组t_j在属性列表LHS(r_j)上的值在第i个哈希函数h_i上的哈希值，i∈{1,2,...,c}，将位数组BF_D(j)中c个位置的哈希值h₁(t_j[LHS(r_j)]),h₂(t_j[LHS(r_j)]),...,h_i(t_j[LHS(r_j)]),...,h_c(t_j[LHS(r_j)])置1。

3.根据权利要求1所述的面向数据中台的错误检测和修复方法，其特征在于：

步骤d-1)中通过定义k个独立的哈希函数h₁-h_k，遍历第i个数据源S_i中每个元组在函数依赖规则r_j的前件LHS(r_j)上的值，计算该值在哈希函数h₁-h_k上的哈希值，得到k个最小哈希值列表mh(i,j)，mh(i,j)＝[mh₁(S_i),mh₂(S_i),...,mh_i(S_i),...,mh_k(S_i)]，mh_i(S_i)为每个元组在函数依赖规则r_j的前件LHS(r_j)上的值在第i个哈希函数h_i上的哈希值，i∈{1,2,...,k}；步骤d-2)中初始化一个长度为L的位数组BF(i,j)，定义c个独立的哈希函数h₁-h_c，将任意整数映射到1-L，将位数组BF(i,j)的所有位初始化为0后遍历第i个数据源S_i中的每条元组，计算出第j个元组t_j在属性列表LHS(r_j)上的值在哈希函数h₁-h_c上的哈希值，得到h₁(t_j[LHS(r_j)]),h₂(t_j[LHS(r_j)]),...,h_i(t_j[LHS(r_j)]),...,h_c(t_j[LHS(r_j)])，其中h_i(t_j[LHS(r_j)])为第j个元组t_j在属性列表LHS(r_j)上的值在第i个哈希函数h_i上的哈希值，i∈{1,2,...,c}，将位数组BF(i,j)中c个位置的哈希值h₁(t_j[LHS(r_j)]),h₂(t_j[LHS(r_j)]),...,h_i(t_j[LHS(r_j)]),...,h_c(t_j[LHS(r_j)])置1。

4.根据权利要求1所述的面向数据中台的错误检测和修复方法，其特征在于：