CN111737463B - 大数据缺失值填充方法、装置和计算机可读存储器 - Google Patents
大数据缺失值填充方法、装置和计算机可读存储器 Download PDFInfo
- Publication number
- CN111737463B CN111737463B CN202010499997.5A CN202010499997A CN111737463B CN 111737463 B CN111737463 B CN 111737463B CN 202010499997 A CN202010499997 A CN 202010499997A CN 111737463 B CN111737463 B CN 111737463B
- Authority
- CN
- China
- Prior art keywords
- value
- missing
- similarity
- filling
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000004590 computer program Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010187 selection method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000005429 filling process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 101100289061 Drosophila melanogaster lili gene Proteins 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了大数据缺失值填充方法、装置和计算机可读存储器,对数据集中的缺失值按照语义进行区分,确定所有存在性缺失值;确定所有存在性缺失值的数值类型;对各待填充数值类型分别采用不同的方法进行缺失值填充。本发明对于数据中的缺失值按照语义分为三种,重点关注存在型缺失值,通过各用户提供各自的答案,从得到的答案可以分为一些是相似或相同的。本发明方法简单,复杂度大大降低,并且通过各用户提供答案可降低开销同时能提高填充准确度,实现面向大数据的缺失值填充,考虑到对大数据的适应性,本发明提供的计算机可读存储器中计算机程序被执行时可以完成三种类型数据的一轮计算,提升了填充效率。
Description
技术领域
本发明是属于大数据处理技术领域,具体涉及大数据缺失值填充方法、装置和计算机可读存储器。
背景技术
当今信息化时代下,数据已经渗透到每个行业和业务职能领域,成为重要的生产因素。而在现实生活中,不完整信息一直是一个长期存在的问题。人为疏忽,违反规则,外部因素的限制等等,都是导致不完整信息产生的原因。在数据库中常常发现一些需要的关键信息是缺失的。目前缺失值的填充方法大都是利用数据统计方法,如在多个估算数据集中平衡结果的方法。但是这种方法不具有针对性,且只适宜处理数值型的缺失值,对于多类别型缺失值则效果较差。目前还有方法采用人工填写或删除含缺失值的记录数据,但是当数据量达到一定级别时,耗费时间较多,效率和准确度会大大降低。
发明内容
本发明旨在解决现有技术中存在的上述技术问题,提供一种大数据缺失值填充方法、装置和计算机可读存储器,以实现针对多种类型的缺失值进行填充,同时提高了缺失值填充的效率和准确性。
为实现上述技术目的,本发明采用了以下技术方案。
一方面,本发明提供了一种大数据缺失值填充方法,包含以下步骤:
对数据集中的缺失值按照语义进行区分,确定所有存在性缺失值;确定所有存在性缺失值的数值类型;对各待填充数值类型分别采用不同的方法进行缺失值填充。
进一步地,针对数据集中的缺失值按照语义进行区分,获得三种缺失值类型,包括:不存在型缺失值、存在性缺失值和占位性缺失值,所述不存在型缺失值指对于数据在特定的域不存在一个有意义的值;所述存在性缺失值指数据的一个属性的值存在;所述占位性缺失值,指的是对于数据属性相关值不能确定是否存在还是存在。
进一步地,所有存在性缺失值的数值类型包括数值属性、可比较数值属性以及分类属性。
进一步地,所有存在性缺失值的数值类型包括数值属性,对于数值属性的缺失值的填充方法如下:利用预先各个确定可信度权重的用户为数值属性缺失值给出答案,取各个答案的加权平均值得到填充值,表达式如下:
其中输入是一个二元组集合S,其中每一个二元组(wi,vi)中wi代表用户可信度权重,vi代表该用户数值属性缺失值给出答案。
进一步地,所有存在性缺失值的数值类型包括可比较数值属性,对于可比较数值属性的缺失值填充方法如下:
利用预先各个确定可信度权重的用户为特定的可比较数值属性缺失值给出答案,计算任意两个用户给出的答案之间的相似值,将各相似值与预先确定的相似值阈值进行比较,将相似值大于相似值阈值的两个用户的答案确定为相似对;
根据相似对的相似值以及数据源的权重,表达式如下:
其中R为用户答案集合,A为待填充答案,T=HashString(R);其中T为建立的hash表用于统计R中不同元素;M=Sim(T);M为矩阵,用于存放T中不同元素的相似性;wi为数据源的权重,M(t,vj)为真值t的相似对的相似值,Vi为用户给出的答案,Vj为确定的相似对的相似值。
进一步地,所有存在性缺失值的数值类型包括分类属性,对于分类属性的缺失值填充方法如下:对各用户为特定的分类属性的缺失值给出的答案进行投票确定权重,对于权重之和最大的值作为填充值。
另一方面,本发明提供了一种大数据缺失值填充装置,包括缺失值类型划分模块、缺失值数值类型确定模块和缺失值填充模块;
所述缺失值类型划分模块,用于对数据集中的缺失值按照语义进行区分,确定所有存在性缺失值;
所述缺失值数值类型确定模块,用于确定所有存在性缺失值的数值类型;
所述缺失值填充模块,用于对各待填充数值类型分别采用不同的方法进行缺失值填充。
进一步地,所述缺失值填充模块包括数值属性填充模块,所述用于对于数值属性的缺失值进行填充,具体执行以下方法如下:利用预先各个确定可信度权重的用户为数值属性缺失值给出答案,取各个答案的加权平均值得到填充值,表达式如下:
其中输入是一个二元组集合S,其中每一个二元组(wi,vi)中wi代表用户可信度权重,vi代表该用户数值属性缺失值给出答案。
进一步地,所述缺失值填充模块包括可比较数值属性填充模块,所述可比较数值属性填充模块用于对于可比较数值属性的缺失值填充,具体执行方法如下:
利用预先各个确定可信度权重的用户为特定的可比较数值属性缺失值给出答案,计算任意两个用户给出的答案之间的相似值,将各相似值与预先确定的相似值阈值进行比较,将相似值大于相似值阈值的两个用户的答案确定为相似对;
根据相似对的相似值以及,表达式如下:
其中R为用户答案集合,A为待填充答案,T=HashString(R);其中T为建立的hash表用于统计R中不同元素;M=Sim(T);M为矩阵,用于存放T中不同元素的相似性;wi为数据源的权重,M(t,vj)为真值t的相似对的相似值,Vi为用户给出的答案,Vj为确定的相似对的相似值。
进一步地,所述缺失值填充模块包括分类属性填充模块,所述分类属性填充模块用于对于分类属性的缺失值填充,执行的方法如下:对各用户为特定的分类属性的缺失值给出的答案进行投票确定权重,对于权重之和最大的值作为填充值。
本发明还提供了一种计算机可读存储器,其上存储有计算机程序,该程序被处理器执行时一方面技术方案中任何一个技术方案所提供的一种大数据缺失值填充方法的计算机程序代码,所述计算机程序代码基于Map-Reduce程序设计模型的算法,在该算法中,对数据进行有效分布,并且实现高效计算,以支持大规模数据,在MapReduce程序中,为了提升性能,对三种类型数据的填充过程进行了合并,使得在二轮MapReduce中可以完成三种类型数据的一轮计算,提升了填充效率。
有益技术效果:
本发明对于数据中的缺失值按照语义分为三种,重点关注存在型缺失值,通过各用户提供各自的答案,从得到的答案可以分为一些是相似或相同的。本发明方法简单,复杂度大大降低,并且通过各用户提供答案可降低开销同时能提高填充准确度,实现面向大数据的缺失值填充。
具体实施方式
以下结合具体实施方案进一步说明本发明。
实施例一、一种大数据缺失值填充方法,包含以下步骤:
对数据集中的缺失值按照语义进行区分,确定所有存在性缺失值;确定所有存在性缺失值的数值类型;对各待填充数值类型分别采用不同的方法进行缺失值填充。
将数据库中的缺失值按照语义来区分为三种类型:
(1)不存在型缺失值。它指对于特定的域不存在一个有意义的值。这种类型的缺失值通常是采用一个特殊值来代替它。
(2)存在性缺失值。如果元组中一个属性的值存在,但目前未知,那么这种缺失值就称为存在型缺失值。这种缺失值通常采用将一个默认值赋给它的方法。比如默认日期,默认属性,默认值等。
(3)占位性缺失值。它是缺失值语义中最不确定的一种,它指的是对于属性的相关值目前没有任何信息,可能不存在也可能存在。本发明用给一个例子来说明这三类缺失值。如表1所示。
表1用户信息
对于第一个元组,由于其婚姻状态为未婚,因此无配偶名字,所以此处的null为不存在型缺失值类型;对于第三个元组中由于邮编一定是存在的,因为此处的缺失值属于存在型缺失值。对于第四个元组和最后一个元组,由于其婚姻状态都是已婚,所以其配偶名字都是存在的,此处的null都为存在型缺失值;而若某元组的婚姻状态和配偶均未知,则婚姻状态为存在型缺失值,配偶处的null就表示没有任何信息,即为占位性缺失值。通常可按情况归为存在型缺失值或不存在型缺失值处理。通过上述分析,存在型缺失值是本发明主要分析的类型,该缺失值只是未知,实际上是存在的。
由于缺失值的类型是根据语义来分析的,所以需要人为的标注属性。例如上图中的数据库中有婚姻状态和配偶这两个属性涉及到不同类型的缺失值,在这两个属性值有空时,本发明只需挑出那些婚姻状态为已婚而配偶未知的记录即可。如上图经过筛选后的待处理记录见下表2。为了便于处理,为每个待处理的记录赋予唯一的task_id。
表2待处理记录
对同一个缺失属性输入了多个不同的结果,在这种情况下,需要从多个值中选择合适的值进行填充。实施例提出填充值选择方法。
填充值选择方法依赖于数据类型,本发明拟根据数据类型提出不同的结果选择策略。本发明根据数据之间比较方法的不同进行划分,依据比较方法划分的原因是由于需要依据属性值之间的差异选择填充值。依据差异计算方法,属性可以分为三类,即数值属性,可比较属性和分类属性。
其中数值属性是属性值之间的差别可以由两个值相减的绝对值直接得到;可比较属性是属性值之间存在远近之分但不能通过值相减直接得到;分类属性是两个分类属性值之间只有相同和不相同之分,但无法定量计算其差距的属性。整型和实型属于数值属性;字符串属性(如人名地名等)属于可比较属性,属性值之间的差异可以通过编辑距离计算但是不能通过相减直接得到,集合属性(如论文的作者名)也属于可比较属性,其差异可以通过Jaccard相似性计算;性别、职位等是分类属性,其只能区分相同与否,但是无法定量描述其差异。
分别考虑这三种类型属性填充值选择方法,其中假定用户(这里的用户只对缺失值答案的人,优选地,可以通过众包平台人力资源来寻求用户给出一个相对确切的答案)的信度已知,选择方法的输入是一个二元组集合S,其中每一个二元组(wi,vi)中wi代表用户可信度的权重,vi代表该用户输入的值。用户信度可以通过机器学习等方法得到。当用户是可信用户时,wi为正值;当用户是恶意的用户时,wi是负值,表示该用户的信息有负参考价值;当用户是随机输入用户时候,wi=0,表示该用户的信息没有参考价值。
对于数值属性,由于,可以通过可信用户给出答案的加权平均得到填充值,即
仅考虑可信用户是因为对于数值属性,恶意用户会有意给出错误的值,但该错误值与正确值之间并没有明确关联。本发明用一个例子来说明数值属性的选择过程。假设对于某大学的建校至今已走过多少年的问题共回收到了5个回答如表3,可见其中存在一个恶意用户,给出的数值是明显错误的,那么剔除恶意用户后根据可信用户的加权平均值计算:
表3某大学建校年份的不同结果
用户ID | 可信度 | 给出结果 |
A | 0.90 | 93 |
B | 0.83 | 92 |
C | -0.50 | -2 |
D | 0.80 | 93 |
E | 0.56 | 90 |
则某大学已建校的年数:
(0.90*93+0.83*92+0.80*93+0.56*90)/(0.90+0.83+0.80+0.56)=92.18
由于和数值属性同样原因,可比较属性的选择也仅考虑可信用户。举例说明,针对表5中生成的问题task_id=10003,返回了若干个答案,如下表4。对于可比较属性,基于相似性的技术要求有相似性函数和一个阈值。相似性函数需要一对记录作为输入,并输出一个相似度值。越相似的两个答案,较高的输出值。基本方法是对所有记录的求相似度。如果对记录有不小于指定的阈值的相似性值,它们被认为是指相似的答案。
表4可比较属性实例
在表2中,假设两个记录的相似性被指定为他们的答案之间的Jaccard相似,与指定的阈值是0.6。Jaccard相似被定义为超过两个集合的并集的大小除以交集的大小。例如,比较具有相同的TASK_ID=10003的答案时,r1和r5之间的Jaccard相似的答案是J(r1,r5)=0.78。基于相似性的技术将考虑r1,r5指同一个实体,因为他们的Jaccard相似不小于阈值,即,J(r1,r5)≥0.6。同样,(r1,r2)将不会被认为是匹配的,因为J(r1,r2)=0.46<0.6。
通过计算相似度得出的相似对为(r1,r3),(r1,r5),(r3,r5)。
Jaccard相似度计算的公式为:
在相似对中筛选出最佳答案的算法如下:
算法1:BestAnswer(R,A)
输入:用户评分集合R
输出:待填充答案A
T=HashString(R);//建立hash表T统计R中不同元素
M=Sim(T);//计算T中不同元素的相似性放到矩阵M中
for each t∈T do
return A
其中wi为数据源的权重,M(t,vj)为真值t的相似对的相似值,Vi为用户给出的答案,Vj为确定的相似对的相似值。
在上述例子中,可知经过计算***已将最佳答案”SanFrancisco”成功的写回到数据库中,生成表5中的结果。
表5待清洗记录
task_id | name | city | postcode | status | spouse |
10001 | Hayes | Los Angeles | married | Adams | |
10002 | Jackson | Silicon | married | ||
10003 | Jim | San Francisco | NJ07974 | married | LiLi |
10004 | Mary | New York | AK27 | married |
对于分类属性,本发明采用加权投票的方法求得填充值。即对于用户(wi,vi),为值vi投wi票。对于可信用户,相当于给vi增加wi的支持度,对于恶意用户,由于wi是负值,相当于减少vi的投票。在投票结束后,权重最大的值被选择为填充值。本发明用一个例子来说明这个策略。某单位员工的员工类型的信息遗失有待填充,由于只有第一类员工,第二类员工,第三类员工三个答案,因此这就相当于一个投票***。具体值如表6所示。
表6加权投票实例
用户ID | 可信度 | 给出的答案 |
A | 0.90 | 第一类员工 |
B | 0.83 | 第一类员工 |
C | -0.50 | 第一类员工 |
D | 0.80 | 第二类员工 |
E | 0.56 | 第三类员工 |
第一类员工的权值为:0.90+0.83+(-0.50)=1.23
第二类员工的权值为:0.80
第三类员工的权值为:0.56
由上可知,第一类员工的权值最高,即最佳填充值为第一类员工。
实施例二、一种大数据缺失值填充装置,包括缺失值类型划分模块、缺失值数值类型确定模块和缺失值填充模块;
所述缺失值类型划分模块,用于对数据集中的缺失值按照语义进行区分,确定所有存在性缺失值;
所述缺失值数值类型确定模块,用于确定所有存在性缺失值的数值类型;
所述缺失值填充模块,用于对各待填充数值类型分别采用不同的方法进行缺失值填充。
基于以上实施例,所述缺失值填充模块包括数值属性填充模块,所述用于对于数值属性的缺失值进行填充,具体执行以下方法如下:利用预先各个确定可信度权重的用户为数值属性缺失值给出答案,取各个答案的加权平均值得到填充值,表达式如下:
其中输入是一个二元组集合S,其中每一个二元组(wi,vi)中wi代表用户可信度权重,vi代表该用户数值属性缺失值给出答案。
基于以上实施例,所述缺失值填充模块包括可比较数值属性填充模块,所述可比较数值属性填充模块用于对于可比较数值属性的缺失值填充,具体执行方法如下:
利用预先各个确定可信度权重的用户为特定的可比较数值属性缺失值给出答案,计算任意两个用户给出的答案之间的相似值,将各相似值与预先确定的相似值阈值进行比较,将相似值大于相似值阈值的两个用户的答案确定为相似对;
根据相似对的相似值以及,表达式如下:
其中R为用户答案集合,A为待填充答案,T=HashString(R);其中T为建立的hash表用于统计R中不同元素;M=Sim(T);M为矩阵,用于存放T中不同元素的相似性;wi为数据源的权重,M(t,vj)为真值t的相似对的相似值,Vi为用户给出的答案,Vj为确定的相似对的相似值。
基于以上实施例,所述缺失值填充模块包括分类属性填充模块,所述分类属性填充模块用于对于分类属性的缺失值填充,执行的方法如下:对各用户为特定的分类属性的缺失值给出的答案进行投票确定权重,对于权重之和最大的值作为填充值。
本发明对于数据中的缺失值按照语义分为三种,重点关注存在型缺失值,通过各用户提供各自的答案,从得到的答案可以分为一些是相似或相同的。本发明方法简单,复杂度大大降低,并且通过各用户提供答案可降低开销同时能提高填充准确度,实现面向大数据的缺失值填充。
本发明实施例还提供了一种计算机程序,执行权利要求以上技术方案中任何一个技术方案所提供的一种大数据缺失值填充方法的计算机程序代码,所述计算机程序代码基于Map-Reduce程序设计模型的算法,在该算法中,对数据进行有效分布,并且实现高效计算,以支持大规模数据,在MapReduce程序中,为了提升性能,对三种类型数据的填充过程进行了合并,使得在二轮MapReduce中可以完成三种类型数据的一轮计算,提升了填充效率。本发明提供的计算机程序基于MapReduce程序设计模型实现,并且在实现过程中针对***特点进行了优化,从而提升了***性能。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法来描述的。应理解可由计算机程序指令实现本发明发明。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在说明书提供方法的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现本说明书中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现说明书中指定的功能的步骤。
以上对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (4)
1.一种大数据缺失值填充方法,其特征在于,包含以下步骤:
对数据集中的缺失值按照语义进行区分,确定所有存在性缺失值;确定所有存在性缺失值的数值类型;对各待填充数值类型分别采用不同的方法进行缺失值填充;
所有存在性缺失值的数值类型包括数值属性,对于数值属性的缺失值的填充方法如下:利用预先各个确定可信度权重的用户为数值属性缺失值给出答案,取各个答案的加权平均值得到填充值,表达式如下:
其中输入是一个二元组集合S,其中每一个二元组(wi,vi)中wi代表用户可信度权重,vi代表该用户数值属性缺失值给出答案;
或,
所有存在性缺失值的数值类型包括可比较数值属性,对于可比较数值属性的缺失值填充方法如下:
利用预先各个确定可信度权重的用户为特定的可比较数值属性缺失值给出答案,计算任意两个用户给出的答案之间的相似值,将各相似值与预先确定的相似值阈值进行比较,将相似值大于相似值阈值的两个用户的答案确定为相似对;
根据相似对的相似值以及数据源的权重,表达式如下:
其中R为用户答案集合,A为待填充答案,T=HashString(R);其中T为建立的hash表用于统计R中不同元素;M=Sim(T);M为矩阵,用于存放T中不同元素的相似性;wi为数据源的权重,M(t,vj)为真值t的
相似对的相似值,Vi为用户给出的答案,Vj为确定的相似对的相似值;
或,
所有存在性缺失值的数值类型包括分类属性,对于分类属性的缺失值填充方法如下:对各用户为特定的分类属性的缺失值给出的答案进行投票确定权重,对于权重之和最大的值作为填充值。
2.根据权利要求1所述的一种大数据缺失值填充方法,其特征在于,针对数据集中的缺失值按照语义进行区分,获得三种缺失值类型,包括:不存在型缺失值、存在性缺失值和占位性缺失值,所述不存在型缺失值指对于数据在特定的域不存在一个有意义的值;所述存在性缺失值指数据的一个属性的值存在;所述占位性缺失值,指的是对于数据属性相关值不能确定是否存在还是存在。
3.一种大数据缺失值填充装置,其特征在于,包括缺失值类型划分模块、缺失值数值类型确定模块和缺失值填充模块;
所述缺失值类型划分模块,用于对数据集中的缺失值按照语义进行区分,确定所有存在性缺失值;
所述缺失值数值类型确定模块,用于确定所有存在性缺失值的数值类型;
所述缺失值填充模块,用于对各待填充数值类型分别采用不同的方法进行缺失值填充;
所述缺失值填充模块包括数值属性填充模块,所述用于对于数值属性的缺失值进行填充,具体执行以下方法如下:利用预先各个确定可信度权重的用户为数值属性缺失值给出答案,取各个答案的加权平均值得到填充值,表达式如下:
其中输入是一个二元组集合S,其中每一个二元组(wi,vi)中wi代表用户可信度权重,vi代表该用户数值属性缺失值给出答案;
或,
所述缺失值填充模块包括可比较数值属性填充模块,所述可比较数值属性填充模块用于对于可比较数值属性的缺失值填充,具体执行方法如下:
利用预先各个确定可信度权重的用户为特定的可比较数值属性缺失值给出答案,计算任意两个用户给出的答案之间的相似值,将各相似值与预先确定的相似值阈值进行比较,将相似值大于相似值阈值的两个用户的答案确定为相似对;
根据相似对的相似值以及,表达式如下:
其中R为用户答案集合,A为待填充答案,T=HashString(R);其中T为建立的hash表用于统计R中不同元素;M=Sim(T);M为矩阵,用于存放T中不同元素的相似性;wi为数据源的权重,M(t,vj)为真值t的相似对的相似值,Vi为用户给出的答案,Vj为确定的相似对的相似值;
或,
所述缺失值填充模块包括分类属性填充模块,所述分类属性填充模块用于对于分类属性的缺失值填充,执行的方法如下:对各用户为特定的分类属性的缺失值给出的答案进行投票确定权重,对于权重之和最大的值作为填充值。
4.一种计算机可读存储器,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~2中任何一个权利要求所述的方法,所述计算机程序基于Map-Reduce程序设计模型,对三种类型数据的填充过程进行合并,使得在二轮MapReduce中可以完成三种类型数据的一轮计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010499997.5A CN111737463B (zh) | 2020-06-04 | 2020-06-04 | 大数据缺失值填充方法、装置和计算机可读存储器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010499997.5A CN111737463B (zh) | 2020-06-04 | 2020-06-04 | 大数据缺失值填充方法、装置和计算机可读存储器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737463A CN111737463A (zh) | 2020-10-02 |
CN111737463B true CN111737463B (zh) | 2024-02-09 |
Family
ID=72648989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010499997.5A Active CN111737463B (zh) | 2020-06-04 | 2020-06-04 | 大数据缺失值填充方法、装置和计算机可读存储器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737463B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112269803B (zh) * | 2020-10-21 | 2024-04-30 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 数据集填充方法及*** |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544218A (zh) * | 2013-09-29 | 2014-01-29 | 广西师范大学 | 非固定k值的最近邻填充方法 |
CN104133866A (zh) * | 2014-07-18 | 2014-11-05 | 国家电网公司 | 一种面向智能电网的缺失数据填充方法 |
CN104751502A (zh) * | 2015-04-17 | 2015-07-01 | 北京锐视康科技发展有限公司 | 一种用于扩大视野的ct图像重建方法 |
CN105868179A (zh) * | 2016-04-08 | 2016-08-17 | 上海智臻智能网络科技股份有限公司 | 一种智能问答方法及装置 |
CN106407258A (zh) * | 2016-08-24 | 2017-02-15 | 广东工业大学 | 一种缺失数据预测方法及装置 |
CN106844781A (zh) * | 2017-03-10 | 2017-06-13 | 广州视源电子科技股份有限公司 | 数据处理的方法及装置 |
CN106919719A (zh) * | 2017-03-16 | 2017-07-04 | 南京邮电大学 | 一种面向大数据的信息补全方法 |
CN108197080A (zh) * | 2016-12-08 | 2018-06-22 | 广东精点数据科技股份有限公司 | 一种基于多种算法融合的缺失值插补方法 |
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
CN110097920A (zh) * | 2019-04-10 | 2019-08-06 | 大连理工大学 | 一种基于近邻稳定性的代谢组学数据缺失值填充方法 |
CN110674621A (zh) * | 2018-07-03 | 2020-01-10 | 北京京东尚科信息技术有限公司 | 一种属性信息填充方法和装置 |
CN110957015A (zh) * | 2019-12-02 | 2020-04-03 | 南开大学 | 电子医疗记录数据的缺失值填充方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8452116B1 (en) * | 2008-09-19 | 2013-05-28 | Adobe Systems Incorporated | Estimating sensor sensitivity |
US9575965B2 (en) * | 2013-03-13 | 2017-02-21 | Red Hat, Inc. | Translation assessment based on computer-generated subjective translation quality score |
-
2020
- 2020-06-04 CN CN202010499997.5A patent/CN111737463B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544218A (zh) * | 2013-09-29 | 2014-01-29 | 广西师范大学 | 非固定k值的最近邻填充方法 |
CN104133866A (zh) * | 2014-07-18 | 2014-11-05 | 国家电网公司 | 一种面向智能电网的缺失数据填充方法 |
CN104751502A (zh) * | 2015-04-17 | 2015-07-01 | 北京锐视康科技发展有限公司 | 一种用于扩大视野的ct图像重建方法 |
CN105868179A (zh) * | 2016-04-08 | 2016-08-17 | 上海智臻智能网络科技股份有限公司 | 一种智能问答方法及装置 |
CN106407258A (zh) * | 2016-08-24 | 2017-02-15 | 广东工业大学 | 一种缺失数据预测方法及装置 |
CN108197080A (zh) * | 2016-12-08 | 2018-06-22 | 广东精点数据科技股份有限公司 | 一种基于多种算法融合的缺失值插补方法 |
CN106844781A (zh) * | 2017-03-10 | 2017-06-13 | 广州视源电子科技股份有限公司 | 数据处理的方法及装置 |
CN106919719A (zh) * | 2017-03-16 | 2017-07-04 | 南京邮电大学 | 一种面向大数据的信息补全方法 |
CN110674621A (zh) * | 2018-07-03 | 2020-01-10 | 北京京东尚科信息技术有限公司 | 一种属性信息填充方法和装置 |
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
CN110097920A (zh) * | 2019-04-10 | 2019-08-06 | 大连理工大学 | 一种基于近邻稳定性的代谢组学数据缺失值填充方法 |
CN110957015A (zh) * | 2019-12-02 | 2020-04-03 | 南开大学 | 电子医疗记录数据的缺失值填充方法 |
Non-Patent Citations (4)
Title |
---|
一种用于光伏电站数据采集***的数据处理方法;张海宁;张节潭;杨立滨;杜贵兰;赵越;杨晟;赵争鸣;;电器与能效管理技术(06);第8-13页 * |
云计算下相关性缺失大数据分块填补仿真;时巍;;计算机仿真(04);第437-440+445页 * |
结合缺失模式的不完整数据模糊聚类;郑奇斌;刁兴春;曹建军;;计算机科学(12);第64-69页 * |
缺失值填充:基于信息增益的方法;张红霞;;计算机工程与设计(第24期);第4810-4812页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111737463A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11681733B2 (en) | Massive scale heterogeneous data ingestion and user resolution | |
CN104462362B (zh) | 一种数据存储、查询、加载方法及装置 | |
Del Río et al. | On the use of mapreduce for imbalanced big data using random forest | |
Yakout et al. | Don't be scared: use scalable automatic repairing with maximal likelihood and bounded changes | |
US8949158B2 (en) | Cost-sensitive alternating decision trees for record linkage | |
KR101231560B1 (ko) | 데이터 클러스터와 유의어의 탐색과 수정에 대한 방법 및 시스템 | |
US11630853B2 (en) | Metadata classification | |
CN106294762B (zh) | 一种基于学习的实体识别方法 | |
TWI673617B (zh) | 使用者背景資訊的收集方法及裝置 | |
US20170116189A1 (en) | Search method and apparatus and storage medium | |
García‐Gil et al. | From big to smart data: Iterative ensemble filter for noise filtering in big data classification | |
US11321359B2 (en) | Review and curation of record clustering changes at large scale | |
CN111737463B (zh) | 大数据缺失值填充方法、装置和计算机可读存储器 | |
US20120166382A1 (en) | System and Method for Classifying Data Streams with Very Large Cardinality | |
CN111639077A (zh) | 数据治理方法、装置、电子设备、存储介质 | |
CN112598089B (zh) | 图像样本的筛选方法、装置、设备及介质 | |
Nguyen et al. | ScLink: Supervised instance matching system for heterogeneous repositories | |
CN115210705A (zh) | 具有无效值或等效值的关系表的向量嵌入模型 | |
Yi et al. | A method for entity resolution in high dimensional data using ensemble classifiers | |
Delaitre et al. | Classifying ELH ontologies in SQL databases | |
WO2022230226A1 (en) | A meta-learning data augmentation framework | |
CN113742495B (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 | |
Chen | Towards efficient and effective entity resolution for high-volume and variable data | |
US11544332B2 (en) | Bipartite graph construction | |
US20220035862A1 (en) | Context enriched data for machine learning model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |