CN108197254A

CN108197254A - 一种基于近邻的数据修复方法

Info

Publication number: CN108197254A
Application number: CN201711485156.3A
Authority: CN
Inventors: ***; 宋韶旭; 王昳晗
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-22
Anticipated expiration: 2037-12-29
Also published as: CN108197254B

Abstract

本发明提供一种基于近邻的数据修复方法，包括：S1，基于数据点的全部属性，通过计算数据点在全属性空间上的K近邻距离，检测全属性空间上的异常数据点；S2，基于所述全部属性中的给定部分属性，通过计算所述异常数据点在给定部分属性子空间上的K近邻距离并进行数据异常判断，确定所述异常数据点的正常属性；S3，基于所述异常数据点的正常属性，利用给定运算方式，计算所述异常数据点的异常属性修复值，进行所述异常数据点的修复。本发明能够有效提高数据修复的准确性以及数据修复的运行效率。

Description

一种基于近邻的数据修复方法

技术领域

本发明涉及计算机数据管理技术领域，更具体地，涉及一种基于近邻的数据修复方法。

背景技术

当今大数据时代有着海量的数据可供分析、挖掘，用以为人们进行各种活动提供更多的便利。随着对数据利用的增多，数据质量问题逐渐受到人们的重视。数据质量问题即数据在其生命周期(产生、储存、加工、使用)中由于某些原因产生偏差，导致最终数据的不一致、不精确、不完整等问题。

造成数据质量问题的原因很多，如数据源故障、人为失误、储存介质受损等。诸多的因素导致数据质量在生产生活中普遍存在。而在实际中，由于数据质量问题造成的损失不容小视。据统计，数据错误每年对美国工业界造成的经济损失约占GDP的6％；在金融企业中，因数据质量问题导致的***欺诈失察在2008年即造成48亿美元的损失。

因此，如何修复已产生质量问题的数据便成了一个重要的研究方向。已有的数据修复方法大多基于某种约束规则，这些规则或由领域专家人为指定，或从部分训练数据中挖掘产生，但都会造成无法准确描述所修复数据集特点的问题。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明提供一种基于近邻的数据修复方法，用以有效提高数据修复的准确性以及数据修复的运行效率。

本发明提供一种基于近邻的数据修复方法，包括：S1，基于数据点的全部属性，通过计算数据点在全属性空间上的K近邻距离，检测全属性空间上的异常数据点；S2，基于所述全部属性中的给定部分属性，通过计算所述异常数据点在给定部分属性子空间上的K近邻距离并进行数据异常判断，确定所述异常数据点的正常属性；S3，基于所述异常数据点的正常属性，利用给定运算方式，计算所述异常数据点的异常属性修复值，进行所述异常数据点的修复。

其中，步骤S2中所述给定部分属性子空间包含所述全属性空间的多个不同属性子空间；相应的，所述S2的步骤进一步包括：基于每一个所述属性子空间对应的数据点属性，通过计算所述异常数据点分别在对应属性子空间上的K近邻距离，并分别进行异常判断，确定所述异常数据点相对各对应属性子空间的正常属性；相应的，所述S3的步骤进一步包括：S31，基于所述异常数据点相对各所述属性子空间的正常属性，利用给定运算方式，分别计算所述异常数据点相对各对应属性子空间的异常属性修复值；S32，根据给定选取规则，选取所述异常数据点相对各所述属性子空间的异常属性修复值中的最优修复值，根据所述最优修复值修复所述异常数据点的对应属性。

其中，所述S1的步骤进一步包括：S11，对应每一个数据点，分别计算其与所述全属性空间内所有其它数据点的距离，并进行排序，分别获取每一个数据点相对所述全属性空间的对应K近邻距离；S12，基于所述全属性空间内所有数据点对应的K近邻距离，计算全属性异常阈值；S13，通过判断每一个数据点对应的K近邻距离与所述全属性异常阈值的大小关系，检测所述全属性空间上的异常数据点。

其中，所述S2的步骤进一步包括：S21，对应每一个所述异常数据点，分别计算其与所述给定部分属性子空间内所有其它数据点的距离，并进行排序，分别获取每一个所述异常数据点相对所述给定部分属性子空间的对应K近邻距离；S22，基于所述给定部分属性子空间内所有所述异常数据点对应的K近邻距离，计算部分属性异常阈值；S23，通过判断所述异常数据点相对所述给定部分属性子空间的K近邻距离与所述部分属性异常阈值的大小关系，确定所述异常数据点相对所述给定部分属性子空间的正常属性。

其中，所述S32的步骤进一步包括：选取根据所述异常属性修复值进行修复后，在所述全属性空间上的K近邻距离小于所述全属性异常阈值，且修复后与对应的原始异常数据点间距离最小的所述异常数据点对应的异常属性修复值作为最优修复值，根据所述最优修复值修复所述异常数据点的对应属性。

其中，所述S23的步骤进一步包括：若所述异常数据点相对所述给定部分属性子空间的K近邻距离小于所述部分属性异常阈值，则判定所述异常数据点相对所述给定部分属性子空间为非异常，以所述给定部分属性子空间对应的属性为所述异常数据点的正常属性。

其中，所述S3的步骤进一步包括：相对所述异常数据点的每一个异常属性，求取所述异常数据点在对应给定部分属性子空间中各K近邻数据点的对应属性的平均值，作为对应异常属性的修复值，修复所述异常数据点的对应异常属性。

其中，所述S12的步骤进一步包括：求取所述全属性空间内所有数据点对应的K近邻距离的平均值μ以及标准差σ，确定μ+3σ为所述全属性异常阈值。

其中，所述S13的步骤进一步包括：分别比较所述全属性空间内每个数据点的K近邻距离与所述全属性异常阈值的大小关系，并判断其中K近邻距离大于所述全属性异常阈值的数据点为所述异常数据点。

其中，所述多个不同属性子空间包括所述全属性空间的所有属性子空间。

本发明提供的一种基于近邻的数据修复方法，通过引入全空间异常和子空间异常的概念，利用全空间K近邻距离的统计特点进行异常检测，利用子空间K近邻对异常数据点提出修复方案。并进一步的在所有的修复方案中，求满足修复后无异常的最小修复结果。本发明能够有效提高数据修复的准确性以及数据修复的运行效率。

附图说明

图1为本发明实施例一种基于近邻的数据修复方法的流程图；

图2为本发明实施例一种基于近邻的数据修复方法的流程图；

图3为本发明实施例一种基于部分属性子空间确定异常数据点的正常属性的流程图；

图4为本发明实施例一种基于异常数据点的正常属性计算其异常属性修复值的流程图；

图5为本发明实施例另一种基于近邻的数据修复方法的流程图；

图6为本发明实施例基于近邻的数据修复方法的实例示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

作为本发明实施例的一个实施例，本实施例提供一种基于近邻的数据修复方法，参考图1，为本发明实施例一种基于近邻的数据修复方法的流程图，包括：

S1，基于数据点的全部属性，通过计算数据点在全属性空间上的K近邻距离，检测全属性空间上的异常数据点；

S2，基于所述全部属性中的给定部分属性，通过计算所述异常数据点在给定部分属性子空间上的K近邻距离并进行数据异常判断，确定所述异常数据点的正常属性；

S3，基于所述异常数据点的正常属性，利用给定运算方式，计算所述异常数据点的异常属性修复值，进行所述异常数据点的修复。

本实施例可以理解为，考虑到K近邻算法目前在聚类问题上已得到了广泛的应用，但仍未被使用在数据修复领域中。其核心思想是将距离较近的数据点划分为同一类。而在存在质量问题的数据中，异常数据通常会变得远离其原本的近邻点，通过K近邻距离的统计分布规律，便可检测出数据中存在的异常点。同样利用异常数据的近邻点，可以对异常的数据值进行修复，使其达到更加接近正确值的状态。

利用这种方式，可以根据数据集的特点进行异常检测与修复，更具有针对性，从而达到更好的数据修复效果。利用数据全属性空间及部分属性子空间的K近邻信息检测并修复异常数据，选择不同空间上的最优修复方案，以便于提高数据修复准确率。

步骤S1可以理解为，是对全属性空间的K近邻异常检测。根据数据点的全部属性，检测在全空间上的K近邻距离存在异常的数据点。令p＝{p₁,p₂,...,p_n}表示所有数据点，数据的所有属性为R＝{A₁,A₂,...,A_m}，其中A_i,i≤m表示第i个属性。给定一种数据属性的距离计算公式dist_k＝dist(p_i[A_k],p_j[A_k])满足dist_k≥0，及一种数据距

离的聚合公式即可求出每两个数据点之间在某一属性集合上的距离，其中p_i[A_k]表示第i个数据点的第k个属性值。

其中，在一个实施例中，所述S1的进一步处理步骤参考图2，为本发明实施例一种检测全属性空间上的异常数据点的流程图，包括：

S11，对应每一个数据点，分别计算其与所述全属性空间内所有其它数据点的距离，并进行排序，分别获取每一个数据点相对所述全属性空间的对应K近邻距离。

可以理解为，本步骤计算K近邻距离。对一个数据点p_i，计算其与其它所有数据点之间在全属性空间R上的距离对这些距离按从小到大排列，其中第K个距离即为该点的K近邻距离。在这一步骤中，需要求出所有数据点的K近邻距离。

S12，基于所述全属性空间内所有数据点对应的K近邻距离，计算全属性异常阈值。

其中，在一个实施例中，所述S12的步骤进一步包括：求取所述全属性空间内所有数据点对应的K近邻距离的平均值μ以及标准差σ，确定μ+3σ为所述全属性异常阈值。

可以理解为，本步骤根据全属性空间内所有数据点对应的K近邻距离，确定K近邻距离正常阈值。其中一个实施例中，对所有数据点的K近邻距离进行统计，可以得到平均值为μ和标准差为σ。由此可以确定K近邻距离正常阈值为μ+3σ。

S13，通过判断每一个数据点对应的K近邻距离与所述全属性异常阈值的大小关系，检测所述全属性空间上的异常数据点。

其中，在一个实施例中，所述S13的步骤进一步包括：分别比较所述全属性空间内每个数据点的K近邻距离与所述全属性异常阈值的大小关系，并判断其中K近邻距离大于所述全属性异常阈值的数据点为所述异常数据点。

可以理解为，本步骤根据算得的全属性异常阈值检测数据异常。通过比较各数据点对应的K近邻距离与算得的全属性异常阈值，并将比较结果满足设定条件的数据点判断为异常数据点。其中可根据在步骤S12中得到的阈值，对所有数据点进行检测。若任一数据点的K近邻距离大于该阈值，则标记该数据点为异常数据。

步骤S2可以理解为，是对部分属性子空间的K近邻二次异常判断。给定部分属性记可以计算数据点在X子空间上的K近邻距离。当参考上述步骤的判断方法，判断全空间异常点的子空间K近邻距离不再是异常时，即可认为X是其正常属性。

其中，所述S2的进一步处理步骤参考图3，为本发明实施例一种基于部分属性子空间确定异常数据点的正常属性的流程图，包括：

S21，对应每一个所述异常数据点，分别计算其与所述给定部分属性子空间内所有其它数据点的距离，并进行排序，分别获取每一个所述异常数据点相对所述给定部分属性子空间的对应K近邻距离。

可以理解为，本步骤对根据上述实施例判断的异常数据点，分别计算各数据点相对由上述全属性空间中部分属性组成的给定部分属性子空间，在该子空间的K近邻距离，即计算子空间K近邻距离。其中，可采用如上述实施例步骤S11中的计算方法，计算异常数据点p_i在X子空间上与其他数据点的距离并进一步计算所有数据点在X子空间上的K近邻距离。

S22，基于所述给定部分属性子空间内所有所述异常数据点对应的K近邻距离，计算部分属性异常阈值。

可以理解为，本步骤确定子空间K近邻距离正常阈值。其中，在一个实施例中，可参见上述实施例步骤S12，对所有异常数据点的X子空间K近邻距离进行统计，得到平均值为μ_x，标准差为σ_x。由此可以确定K子空间K近邻距离正常阈值为μ_x+3σ_x。

S23，通过判断所述异常数据点相对所述给定部分属性子空间的K近邻距离与所述部分属性异常阈值的大小关系，确定所述异常数据点相对所述给定部分属性子空间的正常属性。

可以理解为，本步骤确定异常数据点的正常属性，以供对异常数据点的异常属性进行修复处理。通过比较异常数据点相对属性子空间的K近邻距离与部分属性异常阈值，选取使上述异常数据点满足非异常的属性子空间，则该属性子空间对应的属性作为该异常数据点的正常属性。

其中，在一个实施例中，所述S23的步骤进一步包括：若所述异常数据点相对所述给定部分属性子空间的K近邻距离小于所述部分属性异常阈值，则判定所述异常数据点相对所述给定部分属性子空间为非异常，以所述给定部分属性子空间对应的属性为所述异常数据点的正常属性。

可以理解为，对于在上述步骤S1中检测出的某一个异常数据点p_o，利用根据上述实施例步骤S13的方法检测X子空间K近邻距离是否为异常，即其X子空间K近邻距离是否大于步骤S22中所确定阈值。若异常数据点p_o在X子空间非异常，则标记X为该点的正常属性，R/X为该点的异常属性。

步骤S3可以理解为，在根据上述步骤获取异常数据点的正常属性之后，根据其正常属性，根据一定的计算原则，例如取正常属性的平均值，求得该异常数据点的异常属性的修复值。即以该修复值作为异常属性的取值，利用其K近邻点对异常属性R/X进行修复。

其中，在一个实施例中，所述S3的步骤进一步包括：相对所述异常数据点的每一个异常属性，求取所述异常数据点在对应给定部分属性子空间中各K近邻数据点的对应属性的平均值，作为对应异常属性的修复值，修复所述异常数据点的对应异常属性。

可以理解为，对于异常数据点p_o的某一异常属性A_o∈R/X，可利用其X子空间K近邻点的平均值进行修复，即求取目标异常数据点的正常属性的平均值，以该平均值作为对应异常属性的修复值。其中，在一个实施例中，标记异常数据点p_o的X子空间K近邻点为{p_j1,p_j2,...,p_jk}，满足其中，1≤r≤k。则异常数据点p_o的异常属性A_o的修复值为：

式中，p′o[Ao]表示异常数据点p_o修复后异常属性A_o的修复值，p_jr[A_o]表示异常数据点p_o的X子空间第r个K近邻数据点的A_o异常属性，k表示异常数据点p_o的X子空间K近邻数据点的总个数。

对异常属性集R/X的每一个属性修复，即为该异常数据点关于X子空间的修复方案。

本发明实施例提供的一种基于近邻的数据修复方法，通过引入全空间异常和子空间异常的概念，利用全空间K近邻距离的统计特点进行异常检测，利用子空间K近邻对异常数据点提出修复方案。并进一步的在所有的修复方案中，求满足修复后无异常的最小修复结果。本发明能够有效提高数据修复的准确性以及数据修复的运行效率。

其中，在一个实施例中，步骤S2中所述给定部分属性子空间包含所述全属性空间的多个不同属性子空间；

相应的，所述S2的步骤进一步包括：

基于每一个所述属性子空间对应的数据点属性，通过计算所述异常数据点分别在对应属性子空间上的K近邻距离，并分别进行异常判断，确定所述异常数据点相对各对应属性子空间的正常属性；

相应的，所述S3的进一步处理步骤参考图4，为本发明实施例一种基于异常数据点的正常属性计算其异常属性修复值的流程图，包括：

S31，基于所述异常数据点相对各所述属性子空间的正常属性，利用给定运算方式，分别计算所述异常数据点相对各对应属性子空间的异常属性修复值；

S32，根据给定选取规则，选取所述异常数据点相对各所述属性子空间的异常属性修复值中的最优修复值，根据所述最优修复值修复所述异常数据点的对应属性。

可以理解为，本实施例采用最小修复方案对异常数据点进行属性修复。参考图5，为本发明实施例另一种基于近邻的数据修复方法的流程图，首先在全属性R空间上寻找K近邻点，利用K近邻距离分布信息检测数据中的异常点。之后对异常数据在部分属性X子空间上寻找K近邻点，利用K近邻均值修复异常数据R/X属性。最后枚举属性X，将具有最小修复距离，且修复后不属于非异常的点作为修复结果。即，对于给定不同的子空间X，均可能产生不同的异常修复方案，根据最小修复原则，应选择满足要求的方案中具有最小修复距离的方案，作为最终的修复结果。

其中，在一个实施例中，所述多个不同属性子空间包括所述全属性空间的所有属性子空间。即，对于一异常数据点po，枚举所有属性R的子空间X，在所有子空间中寻找最小的修复方案作为对该异常数据点的最终修复方案。

其中，在另一个实施例中，所述S32的步骤进一步包括：选取根据所述异常属性修复值进行修复后，在所述全属性空间上的K近邻距离小于所述全属性异常阈值，且修复后与对应的原始异常数据点间距离最小的所述异常数据点对应的异常属性修复值作为最优修复值，根据所述最优修复值修复所述异常数据点的对应属性。

可以理解为，对于上述实施例的多个不同子空间，或者全属性空间的所有子空间，利用上述步骤S2中的计算方法，可以得到相应的不同的修复方案。在所有的修复方案中选择最优的修复结果，选择依据包括以下两点：

修复后数据点的全空间K近邻距离小于等于上述实施例步骤S12中所求全属性异常阈值；

修复后数据点p′_o与原始数据点po之间的距离最小。

为了进一步说明本发明的技术方案，本实施例进行举例说明，但不限制本发明所要求保护的范围。

如图6所示，为本发明实施例基于近邻的数据修复方法的实例示意图。图示主要包括全空间K近邻异常检测、子空间K近邻异常修复、选择最小修复三个主要步骤。具体操作如下：

步骤1，全空间K近邻异常检测。根据数据点的全部属性，检测在全空间上的K近邻距离存在异常的数据点。令p＝{p₁,p₂,p₃,p₄,p₅,p₆,p_o}表示所有的数据点，数据点的所有属性为R＝{x,y}。给定一种数据属性的距离计算公式为dist_A＝|p_i[A]-p_j[A]|满足dist_A≥0。其中A为x或y。给定数据距离的聚合计算公式为即可求出每两个数据点之间在某一个属性集合上的距离。异常检测过程具体又可分为如下步骤：

步骤1.1，计算K近邻距离。对于数据点p_i，计算其与其它所有数据点之间在全属性空间R上的距离对这些距离按从小到大的顺序排列，其中第K个距离即为该点的K近邻距离。

步骤1.2，确定K近邻距离正常阈值。对所有数据点的K近邻距离进行统计，可以得到平均值为μ，标准差为σ。由此可以确定K近邻距离正常阈值为μ+3σ。该阈值在图6中以虚线圆标出。

步骤1.3，根据阈值检测异常。根据在步骤1.2中得到的阈值，对数据点进行检测，数据点p_o的K近邻距离在图6中以虚线标出，即其与数据点p₆之间距离。

步骤2，子空间K近邻异常修复。给定部分属性假设X＝{x}，可以计算数据点在X子空间上的K近邻距离，当全空间异常点的子空间K近邻距离不再是异常时，即可认为X是其正常属性，同时可利用其K近邻点对异常属性R/X进行修复。具体又可分为如下步骤：

步骤2.1，计算子空间K近邻距离。参考步骤1.1中所述计算方法，计算数据点p_i在X子空间上与其他数据点的距离并进一步计算所有数据点在X子空间上的K近邻距离。

步骤2.2，确定子空间K近邻距离正常阈值。同步骤1.2，对所有数据点的X子空间K近邻距离进行统计，可以得到平均值为μ_x，标准差为σ_x。由此可以确定X子空间K近邻距离正常阈值为μ_x+3σ_x。

步骤2.3，确定异常点的正常属性。对于在步骤1中检测出的异常数据点p_o，利用与步骤1.3同理的计算方法检测其X子空间K近邻距离是否为异常，即其X子空间K近邻距离是否大于步骤2.2中所确定的阈值。从图6中可以看到，数据点p_o在X子空间非异常，则标记{x}为该点的正常属性，R/X＝{y}为该点的异常属性。

步骤2.4，修复异常属性。对于异常数据点p_o的异常属性y∈R/X，可利用其X子空间K近邻点的平均值进行修复。具体方法为，异常数据点p_o的X子空间K近邻点为{p₁,p₂,p₃}，则异常数据点p_o的异常属性y的修复值为p′_o[y]＝p₂[y]。由于异常属性集只有一个属性，因此此即为关于X子空间的修复方案。

步骤3，求最小修复方案。给定不同的子空间X，均可能产生不同的异常修复方案，根据最小修复原则，应选择满足要求的方案中具有最小修复距离的方案，作为最终的修复结果。具体又可分为如下步骤：

步骤3.1，对于任一异常数据点p_o，枚举所有属性R的子空间X。利用如步骤2中的计算步骤，可以得到各不同子空间对应的不同修复方案。根据上述步骤中，当X＝{x}时，有当X＝{y}时，有

步骤3.2，在步骤3.1中所有的修复方案中，选择最优的修复结果。根据步骤3.1所述的两种修复方案，均可将异常点修复为正常点。而的修复距离较小，为2，所以选择作为最终修复结果p′_o。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于近邻的数据修复方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤S2中所述给定部分属性子空间包含所述全属性空间的多个不同属性子空间；

相应的，所述S2的步骤进一步包括：

相应的，所述S3的步骤进一步包括：

3.根据权利要求1或2所述的方法，其特征在于，所述S1的步骤进一步包括：

S11，对应每一个数据点，分别计算其与所述全属性空间内所有其它数据点的距离，并进行排序，分别获取每一个数据点相对所述全属性空间的对应K近邻距离；

S12，基于所述全属性空间内所有数据点对应的K近邻距离，计算全属性异常阈值；

4.根据权利要求1或2所述的方法，其特征在于，所述S2的步骤进一步包括：

S21，对应每一个所述异常数据点，分别计算其与所述给定部分属性子空间内所有其它数据点的距离，并进行排序，分别获取每一个所述异常数据点相对所述给定部分属性子空间的对应K近邻距离；

S22，基于所述给定部分属性子空间内所有所述异常数据点对应的K近邻距离，计算部分属性异常阈值；

5.根据权利要求2所述的方法，其特征在于，所述S32的步骤进一步包括：

选取根据所述异常属性修复值进行修复后，在所述全属性空间上的K近邻距离小于所述全属性异常阈值，且修复后与对应的原始异常数据点间距离最小的所述异常数据点对应的异常属性修复值作为最优修复值，根据所述最优修复值修复所述异常数据点的对应属性。

6.根据权利要求4所述的方法，其特征在于，所述S23的步骤进一步包括：

若所述异常数据点相对所述给定部分属性子空间的K近邻距离小于所述部分属性异常阈值，则判定所述异常数据点相对所述给定部分属性子空间为非异常，以所述给定部分属性子空间对应的属性为所述异常数据点的正常属性。

7.根据权利要求6所述的方法，其特征在于，所述S3的步骤进一步包括：

相对所述异常数据点的每一个异常属性，求取所述异常数据点在对应给定部分属性子空间中各K近邻数据点的对应属性的平均值，作为对应异常属性的修复值，修复所述异常数据点的对应异常属性。

8.根据权利要求3所述的方法，其特征在于，所述S12的步骤进一步包括：

求取所述全属性空间内所有数据点对应的K近邻距离的平均值μ以及标准差σ，确定μ+3σ为所述全属性异常阈值。

9.根据权利要求8所述的方法，其特征在于，所述S13的步骤进一步包括：

分别比较所述全属性空间内每个数据点的K近邻距离与所述全属性异常阈值的大小关系，并判断其中K近邻距离大于所述全属性异常阈值的数据点为所述异常数据点。

10.根据权利要求2所述的方法，其特征在于，所述多个不同属性子空间包括所述全属性空间的所有属性子空间。