CN111737463B

CN111737463B - 大数据缺失值填充方法、装置和计算机可读存储器

Info

Publication number: CN111737463B
Application number: CN202010499997.5A
Authority: CN
Inventors: 王宏志; 秦谦; 姜涛
Original assignee: Jiangsu Mingtong Technology Co ltd
Current assignee: Jiangsu Mingtong Technology Co ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2024-02-09
Anticipated expiration: 2040-06-04
Also published as: CN111737463A

Abstract

本发明公开了大数据缺失值填充方法、装置和计算机可读存储器，对数据集中的缺失值按照语义进行区分，确定所有存在性缺失值；确定所有存在性缺失值的数值类型；对各待填充数值类型分别采用不同的方法进行缺失值填充。本发明对于数据中的缺失值按照语义分为三种，重点关注存在型缺失值，通过各用户提供各自的答案，从得到的答案可以分为一些是相似或相同的。本发明方法简单，复杂度大大降低，并且通过各用户提供答案可降低开销同时能提高填充准确度，实现面向大数据的缺失值填充，考虑到对大数据的适应性，本发明提供的计算机可读存储器中计算机程序被执行时可以完成三种类型数据的一轮计算，提升了填充效率。

Description

大数据缺失值填充方法、装置和计算机可读存储器

技术领域

本发明是属于大数据处理技术领域，具体涉及大数据缺失值填充方法、装置和计算机可读存储器。

背景技术

当今信息化时代下，数据已经渗透到每个行业和业务职能领域，成为重要的生产因素。而在现实生活中，不完整信息一直是一个长期存在的问题。人为疏忽，违反规则，外部因素的限制等等，都是导致不完整信息产生的原因。在数据库中常常发现一些需要的关键信息是缺失的。目前缺失值的填充方法大都是利用数据统计方法，如在多个估算数据集中平衡结果的方法。但是这种方法不具有针对性，且只适宜处理数值型的缺失值，对于多类别型缺失值则效果较差。目前还有方法采用人工填写或删除含缺失值的记录数据，但是当数据量达到一定级别时，耗费时间较多，效率和准确度会大大降低。

发明内容

本发明旨在解决现有技术中存在的上述技术问题，提供一种大数据缺失值填充方法、装置和计算机可读存储器，以实现针对多种类型的缺失值进行填充，同时提高了缺失值填充的效率和准确性。

为实现上述技术目的，本发明采用了以下技术方案。

一方面，本发明提供了一种大数据缺失值填充方法，包含以下步骤：

对数据集中的缺失值按照语义进行区分，确定所有存在性缺失值；确定所有存在性缺失值的数值类型；对各待填充数值类型分别采用不同的方法进行缺失值填充。

进一步地，针对数据集中的缺失值按照语义进行区分，获得三种缺失值类型，包括：不存在型缺失值、存在性缺失值和占位性缺失值，所述不存在型缺失值指对于数据在特定的域不存在一个有意义的值；所述存在性缺失值指数据的一个属性的值存在；所述占位性缺失值，指的是对于数据属性相关值不能确定是否存在还是存在。

进一步地，所有存在性缺失值的数值类型包括数值属性、可比较数值属性以及分类属性。

进一步地，所有存在性缺失值的数值类型包括数值属性，对于数值属性的缺失值的填充方法如下：利用预先各个确定可信度权重的用户为数值属性缺失值给出答案，取各个答案的加权平均值得到填充值，表达式如下：

其中输入是一个二元组集合S,其中每一个二元组(w_i,v_i)中w_i代表用户可信度权重，v_i代表该用户数值属性缺失值给出答案。

进一步地，所有存在性缺失值的数值类型包括可比较数值属性，对于可比较数值属性的缺失值填充方法如下：

利用预先各个确定可信度权重的用户为特定的可比较数值属性缺失值给出答案，计算任意两个用户给出的答案之间的相似值，将各相似值与预先确定的相似值阈值进行比较，将相似值大于相似值阈值的两个用户的答案确定为相似对；

根据相似对的相似值以及数据源的权重，表达式如下：

其中R为用户答案集合，A为待填充答案，T＝HashString(R)；其中T为建立的hash表用于统计R中不同元素；M＝Sim(T)；M为矩阵，用于存放T中不同元素的相似性；w_i为数据源的权重，M(t,v_j)为真值t的相似对的相似值，V_i为用户给出的答案，V_j为确定的相似对的相似值。

进一步地，所有存在性缺失值的数值类型包括分类属性，对于分类属性的缺失值填充方法如下：对各用户为特定的分类属性的缺失值给出的答案进行投票确定权重，对于权重之和最大的值作为填充值。

另一方面，本发明提供了一种大数据缺失值填充装置，包括缺失值类型划分模块、缺失值数值类型确定模块和缺失值填充模块；

所述缺失值类型划分模块，用于对数据集中的缺失值按照语义进行区分，确定所有存在性缺失值；

所述缺失值数值类型确定模块，用于确定所有存在性缺失值的数值类型；

所述缺失值填充模块，用于对各待填充数值类型分别采用不同的方法进行缺失值填充。

进一步地，所述缺失值填充模块包括数值属性填充模块，所述用于对于数值属性的缺失值进行填充，具体执行以下方法如下：利用预先各个确定可信度权重的用户为数值属性缺失值给出答案，取各个答案的加权平均值得到填充值，表达式如下：

进一步地，所述缺失值填充模块包括可比较数值属性填充模块，所述可比较数值属性填充模块用于对于可比较数值属性的缺失值填充，具体执行方法如下：

根据相似对的相似值以及，表达式如下：

进一步地，所述缺失值填充模块包括分类属性填充模块，所述分类属性填充模块用于对于分类属性的缺失值填充，执行的方法如下：对各用户为特定的分类属性的缺失值给出的答案进行投票确定权重，对于权重之和最大的值作为填充值。

本发明还提供了一种计算机可读存储器，其上存储有计算机程序，该程序被处理器执行时一方面技术方案中任何一个技术方案所提供的一种大数据缺失值填充方法的计算机程序代码，所述计算机程序代码基于Map-Reduce程序设计模型的算法，在该算法中，对数据进行有效分布，并且实现高效计算，以支持大规模数据，在MapReduce程序中，为了提升性能，对三种类型数据的填充过程进行了合并，使得在二轮MapReduce中可以完成三种类型数据的一轮计算，提升了填充效率。

有益技术效果：

本发明对于数据中的缺失值按照语义分为三种，重点关注存在型缺失值，通过各用户提供各自的答案，从得到的答案可以分为一些是相似或相同的。本发明方法简单，复杂度大大降低，并且通过各用户提供答案可降低开销同时能提高填充准确度，实现面向大数据的缺失值填充。

具体实施方式

以下结合具体实施方案进一步说明本发明。

实施例一、一种大数据缺失值填充方法，包含以下步骤：

将数据库中的缺失值按照语义来区分为三种类型：

(1)不存在型缺失值。它指对于特定的域不存在一个有意义的值。这种类型的缺失值通常是采用一个特殊值来代替它。

(2)存在性缺失值。如果元组中一个属性的值存在，但目前未知，那么这种缺失值就称为存在型缺失值。这种缺失值通常采用将一个默认值赋给它的方法。比如默认日期，默认属性，默认值等。

(3)占位性缺失值。它是缺失值语义中最不确定的一种，它指的是对于属性的相关值目前没有任何信息，可能不存在也可能存在。本发明用给一个例子来说明这三类缺失值。如表1所示。

表1用户信息

对于第一个元组，由于其婚姻状态为未婚，因此无配偶名字，所以此处的null为不存在型缺失值类型；对于第三个元组中由于邮编一定是存在的，因为此处的缺失值属于存在型缺失值。对于第四个元组和最后一个元组，由于其婚姻状态都是已婚，所以其配偶名字都是存在的，此处的null都为存在型缺失值；而若某元组的婚姻状态和配偶均未知，则婚姻状态为存在型缺失值，配偶处的null就表示没有任何信息，即为占位性缺失值。通常可按情况归为存在型缺失值或不存在型缺失值处理。通过上述分析，存在型缺失值是本发明主要分析的类型，该缺失值只是未知，实际上是存在的。

由于缺失值的类型是根据语义来分析的，所以需要人为的标注属性。例如上图中的数据库中有婚姻状态和配偶这两个属性涉及到不同类型的缺失值，在这两个属性值有空时，本发明只需挑出那些婚姻状态为已婚而配偶未知的记录即可。如上图经过筛选后的待处理记录见下表2。为了便于处理，为每个待处理的记录赋予唯一的task_id。

表2待处理记录

对同一个缺失属性输入了多个不同的结果，在这种情况下，需要从多个值中选择合适的值进行填充。实施例提出填充值选择方法。

填充值选择方法依赖于数据类型，本发明拟根据数据类型提出不同的结果选择策略。本发明根据数据之间比较方法的不同进行划分，依据比较方法划分的原因是由于需要依据属性值之间的差异选择填充值。依据差异计算方法，属性可以分为三类，即数值属性，可比较属性和分类属性。

其中数值属性是属性值之间的差别可以由两个值相减的绝对值直接得到；可比较属性是属性值之间存在远近之分但不能通过值相减直接得到；分类属性是两个分类属性值之间只有相同和不相同之分，但无法定量计算其差距的属性。整型和实型属于数值属性；字符串属性(如人名地名等)属于可比较属性，属性值之间的差异可以通过编辑距离计算但是不能通过相减直接得到，集合属性(如论文的作者名)也属于可比较属性，其差异可以通过Jaccard相似性计算；性别、职位等是分类属性，其只能区分相同与否，但是无法定量描述其差异。

分别考虑这三种类型属性填充值选择方法，其中假定用户(这里的用户只对缺失值答案的人，优选地，可以通过众包平台人力资源来寻求用户给出一个相对确切的答案)的信度已知，选择方法的输入是一个二元组集合S,其中每一个二元组(w_i,v_i)中w_i代表用户可信度的权重，v_i代表该用户输入的值。用户信度可以通过机器学习等方法得到。当用户是可信用户时,w_i为正值；当用户是恶意的用户时，w_i是负值，表示该用户的信息有负参考价值；当用户是随机输入用户时候，w_i＝0，表示该用户的信息没有参考价值。

对于数值属性，由于，可以通过可信用户给出答案的加权平均得到填充值，即

仅考虑可信用户是因为对于数值属性，恶意用户会有意给出错误的值，但该错误值与正确值之间并没有明确关联。本发明用一个例子来说明数值属性的选择过程。假设对于某大学的建校至今已走过多少年的问题共回收到了5个回答如表3，可见其中存在一个恶意用户，给出的数值是明显错误的，那么剔除恶意用户后根据可信用户的加权平均值计算：

表3某大学建校年份的不同结果

用户ID	可信度	给出结果
			A	0.90	93
B	0.83	92
			C	-0.50	-2
D	0.80	93
			E	0.56	90

则某大学已建校的年数：

(0.90*93+0.83*92+0.80*93+0.56*90)/(0.90+0.83+0.80+0.56)＝92.18

由于和数值属性同样原因，可比较属性的选择也仅考虑可信用户。举例说明，针对表5中生成的问题task_id＝10003,返回了若干个答案，如下表4。对于可比较属性，基于相似性的技术要求有相似性函数和一个阈值。相似性函数需要一对记录作为输入，并输出一个相似度值。越相似的两个答案，较高的输出值。基本方法是对所有记录的求相似度。如果对记录有不小于指定的阈值的相似性值，它们被认为是指相似的答案。

表4可比较属性实例

在表2中，假设两个记录的相似性被指定为他们的答案之间的Jaccard相似，与指定的阈值是0.6。Jaccard相似被定义为超过两个集合的并集的大小除以交集的大小。例如，比较具有相同的TASK_ID＝10003的答案时，r₁和r₅之间的Jaccard相似的答案是J(r₁,r₅)＝0.78。基于相似性的技术将考虑r₁，r₅指同一个实体，因为他们的Jaccard相似不小于阈值，即，J(r₁,r₅)≥0.6。同样，(r₁,r₂)将不会被认为是匹配的，因为J(r₁,r₂)＝0.46<0.6。

通过计算相似度得出的相似对为(r₁,r₃),(r₁,r₅),(r₃,r₅)。

Jaccard相似度计算的公式为：

在相似对中筛选出最佳答案的算法如下：

算法1:BestAnswer(R,A)

输入：用户评分集合R

输出：待填充答案A

T＝HashString(R)；//建立hash表T统计R中不同元素

M＝Sim(T)；//计算T中不同元素的相似性放到矩阵M中

for each t∈T do

return A

其中w_i为数据源的权重，M(t,v_j)为真值t的相似对的相似值，V_i为用户给出的答案，V_j为确定的相似对的相似值。

在上述例子中，可知经过计算***已将最佳答案”SanFrancisco”成功的写回到数据库中，生成表5中的结果。

表5待清洗记录

task_id	name	city	postcode	status	spouse
						10001	Hayes	Los Angeles		married	Adams
10002	Jackson	Silicon		married
						10003	Jim	San Francisco	NJ07974	married	LiLi
10004	Mary	New York	AK27	married

对于分类属性，本发明采用加权投票的方法求得填充值。即对于用户(w_i,v_i)，为值v_i投w_i票。对于可信用户，相当于给v_i增加w_i的支持度，对于恶意用户，由于w_i是负值，相当于减少v_i的投票。在投票结束后，权重最大的值被选择为填充值。本发明用一个例子来说明这个策略。某单位员工的员工类型的信息遗失有待填充，由于只有第一类员工，第二类员工，第三类员工三个答案，因此这就相当于一个投票***。具体值如表6所示。

表6加权投票实例

用户ID	可信度	给出的答案
			A	0.90	第一类员工
B	0.83	第一类员工
			C	-0.50	第一类员工
D	0.80	第二类员工
			E	0.56	第三类员工

第一类员工的权值为：0.90+0.83+(-0.50)＝1.23

第二类员工的权值为：0.80

第三类员工的权值为：0.56

由上可知，第一类员工的权值最高，即最佳填充值为第一类员工。

实施例二、一种大数据缺失值填充装置，包括缺失值类型划分模块、缺失值数值类型确定模块和缺失值填充模块；

基于以上实施例，所述缺失值填充模块包括数值属性填充模块，所述用于对于数值属性的缺失值进行填充，具体执行以下方法如下：利用预先各个确定可信度权重的用户为数值属性缺失值给出答案，取各个答案的加权平均值得到填充值，表达式如下：

基于以上实施例，所述缺失值填充模块包括可比较数值属性填充模块，所述可比较数值属性填充模块用于对于可比较数值属性的缺失值填充，具体执行方法如下：

根据相似对的相似值以及，表达式如下：

基于以上实施例，所述缺失值填充模块包括分类属性填充模块，所述分类属性填充模块用于对于分类属性的缺失值填充，执行的方法如下：对各用户为特定的分类属性的缺失值给出的答案进行投票确定权重，对于权重之和最大的值作为填充值。

本发明实施例还提供了一种计算机程序，执行权利要求以上技术方案中任何一个技术方案所提供的一种大数据缺失值填充方法的计算机程序代码，所述计算机程序代码基于Map-Reduce程序设计模型的算法，在该算法中，对数据进行有效分布，并且实现高效计算，以支持大规模数据，在MapReduce程序中，为了提升性能，对三种类型数据的填充过程进行了合并，使得在二轮MapReduce中可以完成三种类型数据的一轮计算，提升了填充效率。本发明提供的计算机程序基于MapReduce程序设计模型实现，并且在实现过程中针对***特点进行了优化，从而提升了***性能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法来描述的。应理解可由计算机程序指令实现本发明发明。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在说明书提供方法的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现本说明书中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现说明书中指定的功能的步骤。

以上对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种大数据缺失值填充方法，其特征在于，包含以下步骤：

对数据集中的缺失值按照语义进行区分，确定所有存在性缺失值；确定所有存在性缺失值的数值类型；对各待填充数值类型分别采用不同的方法进行缺失值填充；

所有存在性缺失值的数值类型包括数值属性，对于数值属性的缺失值的填充方法如下：利用预先各个确定可信度权重的用户为数值属性缺失值给出答案，取各个答案的加权平均值得到填充值，表达式如下：

其中输入是一个二元组集合S,其中每一个二元组(wi,vi)中wi代表用户可信度权重，vi代表该用户数值属性缺失值给出答案；

或，

所有存在性缺失值的数值类型包括可比较数值属性，对于可比较数值属性的缺失值填充方法如下：

根据相似对的相似值以及数据源的权重，表达式如下：

其中R为用户答案集合，A为待填充答案，T＝HashString(R)；其中T为建立的hash表用于统计R中不同元素；M＝Sim(T)；M为矩阵，用于存放T中不同元素的相似性；wi为数据源的权重，M(t,vj)为真值t的

相似对的相似值，Vi为用户给出的答案，Vj为确定的相似对的相似值；

或，

所有存在性缺失值的数值类型包括分类属性，对于分类属性的缺失值填充方法如下：对各用户为特定的分类属性的缺失值给出的答案进行投票确定权重，对于权重之和最大的值作为填充值。

2.根据权利要求1所述的一种大数据缺失值填充方法，其特征在于，针对数据集中的缺失值按照语义进行区分，获得三种缺失值类型，包括：不存在型缺失值、存在性缺失值和占位性缺失值，所述不存在型缺失值指对于数据在特定的域不存在一个有意义的值；所述存在性缺失值指数据的一个属性的值存在；所述占位性缺失值，指的是对于数据属性相关值不能确定是否存在还是存在。

3.一种大数据缺失值填充装置，其特征在于，包括缺失值类型划分模块、缺失值数值类型确定模块和缺失值填充模块；

所述缺失值填充模块，用于对各待填充数值类型分别采用不同的方法进行缺失值填充；

所述缺失值填充模块包括数值属性填充模块，所述用于对于数值属性的缺失值进行填充，具体执行以下方法如下：利用预先各个确定可信度权重的用户为数值属性缺失值给出答案，取各个答案的加权平均值得到填充值，表达式如下：

其中输入是一个二元组集合S,其中每一个二元组(w_i,v_i)中w_i代表用户可信度权重，v_i代表该用户数值属性缺失值给出答案；

或，

所述缺失值填充模块包括可比较数值属性填充模块，所述可比较数值属性填充模块用于对于可比较数值属性的缺失值填充，具体执行方法如下：

根据相似对的相似值以及，表达式如下：

其中R为用户答案集合，A为待填充答案，T＝HashString(R)；其中T为建立的hash表用于统计R中不同元素；M＝Sim(T)；M为矩阵，用于存放T中不同元素的相似性；w_i为数据源的权重，M(t,v_j)为真值t的相似对的相似值，V_i为用户给出的答案，V_j为确定的相似对的相似值；

或，

所述缺失值填充模块包括分类属性填充模块，所述分类属性填充模块用于对于分类属性的缺失值填充，执行的方法如下：对各用户为特定的分类属性的缺失值给出的答案进行投票确定权重，对于权重之和最大的值作为填充值。

4.一种计算机可读存储器，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～2中任何一个权利要求所述的方法，所述计算机程序基于Map-Reduce程序设计模型，对三种类型数据的填充过程进行合并，使得在二轮MapReduce中可以完成三种类型数据的一轮计算。