CN113159194A - 一种基于属性动态选择与灰度关联分析的缺失值填补方法 - Google Patents

一种基于属性动态选择与灰度关联分析的缺失值填补方法 Download PDF

Info

Publication number
CN113159194A
CN113159194A CN202110454133.6A CN202110454133A CN113159194A CN 113159194 A CN113159194 A CN 113159194A CN 202110454133 A CN202110454133 A CN 202110454133A CN 113159194 A CN113159194 A CN 113159194A
Authority
CN
China
Prior art keywords
filling
value
attributes
attribute
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110454133.6A
Other languages
English (en)
Inventor
朱粤婕
王建新
严承
张志�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110454133.6A priority Critical patent/CN113159194A/zh
Publication of CN113159194A publication Critical patent/CN113159194A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于属性动态选择与灰度关联分析的缺失值填补方法,所述方法包括以下步骤:1.对包含缺失值的原始数据集基于朴素方法进行初始填补;2.执行属性动态选择,对每个待填补属性筛选出相关性较大的属性用于后续计算;3.执行K近邻距离计算,将高斯核函数优化后的属性间关联系数作为相关权重,得到待填补样本与其他样本间的灰度关联距离,由此距离排序获得最相近的K个邻居;4.根据待填补属性,对K个邻居的对应属性值进行加权计算,将其作为下一次填补初始值并继续迭代,直到两次填补结果收敛于某一阈值,将最后一次填补值作为最终填补值保存。本发明可实现数据处理中缺失值填补,具有适用性广,准确度高等优点。

Description

一种基于属性动态选择与灰度关联分析的缺失值填补方法
技术领域
本发明属于数据处理领域,具体涉及一种基于属性动态选择与灰 度关联分析的缺失值填补方法。
背景技术
随着健康中国战略的推进,以治病为中心转变为以人民健康发展 为中心的新主旨深入人心,人们的健康意识在不断提升,各类健康投 入也在迅猛攀升。越来越多的厂家将目光转向家用医疗检测仪和智慧 移动设备的研发生产,将其作为抢占健康市场的热门产品。医用健康 设备飞速发展不断更新原有健康管理方式,用户依托这些技术设备自 行采集的检测数据也在不断增长,将在国家层面的居民健康战略指导 和个人健康应用服务方面发挥重要作用。然而,这些智能健康检测设 备的某些技术问题,或是用户由于未按时采集、采集方式不当、数据 存储不及时等原因造成的数据缺失,都会导致后续的预测诊断和精准 指导出现偏差,难以达成预期目标。对于此类缺失问题,最好的解决 办法是进行有效的数据填补。
对于现有概念下的检测数据来说,其数据本身具有用户主体上的 同一性和时间上的连续性,数据间亦具有一定的相关性。因此在对此 类数据集上的缺失值进行填补时,可以采用身体状况相似或者时间上 接近的检测数据完成补缺,而这一思想与KNN填补算法高度契合。 同时,由于检测数据尚处于高速增长的过程中,其相应的样本属性会 随着技术的更新而持续变化。若是选择了需要根据数据进行模型训练 的机器学习算法进行缺失填补,则要根据变动后的数据不断的进行模 型训练,计算开销较大,填补效果也难以精准把控。基于以上原因, 本发明将在KNN填补算法的基础上,对检测数据集进行缺失值填补 研究。
在现有的KNN填补算法中,使用灰度距离代替欧式距离进行填 补的GKNN已经被证明在缺失值填补中取得了较好效果,但是GKNN 在距离计算中有两点不足值得进一步研究:第一,GKNN忽略了待填 补属性与其他属性间相关程度对距离的影响,在一定程度上使得近邻 选择出现偏差;第二,GKNN在距离计算中使用了除待填补属性外的 所有其他属性,使得与待填补属性相关性较小的其他属性对距离计算 结果产生影响。FWGKNN和CGKNN在GKNN的基础上引入了属性 间相关性计算结果作为距离计算中的权重,但是这两项工作依旧使用了所有属性进行距离计算,并没有对弱相关属性或是无关属性进行剔 除,难以精准完成近邻选择。
发明内容
针对现有填补算法的局限性,本发明提出一种基于属性动态选择 的缺失数据填补方法FSGKNN,此方法兼顾了GKNN距离计算中的 两处不足之处,对每个待填补算法进行对应的相关属性选择,并且在 后续距离计算中使用选择出的属性与待填补属性的相关系数作为权 重,从而使得填补值更加接近真实值。
为了实现上述目的,本发明提出一种基于属性动态选择的缺失数 据填补方法FSGKNN,其具体步骤如下:
步骤1:对包含缺失值的原始数据集进行基于朴素方法的初始填 补;
步骤2:在完成初始填补的基础上,执行属性动态选择,对每个 待填补属性只筛选出相关性较大的属性用于后续计算;
步骤3:采用灰度关联度作为样本间距离度量公式执行K近邻计 算,在距离计算中将高斯核函数优化后的属性间关联系数作为相关权 重,得到待填补样本与其他样本间的灰度关联距离,由此距离排序获 得最相近的K个邻居;
步骤4:根据待填补数据的具体属性,对K个邻居的同一属性值 进行加权计算,将其作为下一次填补的初始值并不断迭代,直到前后 两次填补值的差值收敛于某一邻域,此时将最后一次填补值作为最终 填补值保存。
作为进一步优选的,步骤1中的朴素填补方法候选采用均值/众 数填补法、线性回归法与随机填补法。其中,采用均值/众数填补法 时,对于连续待填补属性使用均值完成填补,对于离散待填补属性使 用众数完成填补。同样的,采用众数法进行初步填补时,也只挑选缺 失值所在属性对应最大频数变量完成填补。具体采用的朴素填补方法, 需要根据数据集情况实施实验分析确定。
作为进一步优选的,步骤2中的属性动态选择细分为如下步骤:
(1)相关性计算
采用灰色关联分析(GRA)以量化各种因素之间的影响以及数据 序列之间的关系,进而构建灰色关联模型,用于度量两个数据集或一 个数据集的两个变量之间的趋势关系。灰色关联系数(GRC)公式如 下所示:
Figure BDA0003039954300000041
其中xim为样本i的m属性值,xin为样本i的n属性值。ρ是一个 区分系数,取值区间为0-1,ρ值越小,属性间相关性的区分度越大。 灰度关联系数是将同一样本的两属性值之差与两属性在所有样本之 差的最大值最小值进行比较,度量的是数值上差异性的大小。本发明 将ρ的取值初步设定为0.1。
(2)计算相关系数矩阵
在初始填补后的完整数据集使用上述相关性计算方法得到对应 的相关系数矩阵S,公式如下所示:
Figure BDA0003039954300000042
其中m代表数据集中总属性的个数,矩阵的每一列数值即为该 属性与其他属性间的相关系数,例如p1m即为属性1与属性m之间的 相关系数。
(3)属性动态选择阈值设置
对于检测数据集,不同属性间存在的关联性不尽相同。某些属性 间呈现强相关性,某些属性之间也可能关联性较小。部分K近邻填 补算法研究中考虑使用不同权重来减少这些无关属性的影响,但并没 有提出更优解决办法。本发明对每一个包含缺失值的属性,都只选取 与其相关性排序靠前的部分属性用于后续的距离计算,从而减少无关 变量的对距离计算的影响。合适属性选择的关键在于对属性间相关系 数大小分布的把握。对于属性间相关性较强的数据样本,可去除个别 噪声属性,留下相关性强的属性用于后续距离计算,以免丢失有效信 息;而对于属性间相关性较弱的数据样本,只选择总体系数里占比较 高的相关属性用于距离计算。本发明提出对应属性相关系数均值 (F-MEAN),公式如下所示,旨在将每个待填补属性与其他属性的 相关系数均值作为特征选择阈值,只选择相关系数大于F-MEAN的 属性用于后续计算。
Figure BDA0003039954300000051
作为进一步优选的,步骤3中的距离计算细分为如下步骤:
(1)灰度关联距离计算
本发明使用灰色关联分析中的灰色关联系数(GRC)变体以及灰 色关联等级(GRG)来描述给定数据集中包含缺失值的样本与其他样 本之间的距离值。对于包含n个样本数据集D={x1,x2,x3......xn}, 其中每个样本xi都包含m个特征,表示为:xi=(xi1,xi2,xi3……xim)。 对于包含缺失值样本x1和其他样本xi之间关于属性k的灰色关联系数 (GRC)公式如下所示:
Figure BDA0003039954300000061
其中,i,j=1,2,……n;k,p=1,2,……m;ρ是一个区分 系数,取值区间为0-1。在具体的应用中,ρ需要根据整个数据集的 整体分布选择合适的值,在本方法中,将ρ的取值初步设定为0.5。
GRC是用来描述两个样本不同属性在整体属性中的相关趋势的, 而为了整合属性间的趋势,需要将其转变为样本间的相关趋势,计算 两个样本间的灰色关联等级(GRG),以两个样本间所有对应属性的 灰色关联系数均值作为距离度量标准,从而求得与缺失值所在样本距 离最小的K个邻居样本,公式如下所示:
Figure BDA0003039954300000062
(2)基于高斯核的权重优化
对于缺失值所在属性k,首先从系数矩阵S中取出与属性k相关 系数大于阈值的其他属性的相关系数,形成一维数组;然后,对一维 数组进行取正,以保证后续计算的准确性;接着,根据调整后的高斯 核函数变形公式,计算出相应的权重值,公式如下所示;最后,对各 权重值做归一化处理,得到最终用于计算的权重值。
Figure RE-GDA0003110720130000062
Max(ρk)代表与属性k相关的其他属性相关系数最大值,使得权 重值取值范围在(0,1)之间。σ是高斯核函数的宽度超参数,可根据 数据集的不同性质对其进行调整,防止过拟合现象的出现,在本发明 中根据文献参考值和实验效果设置为0.05。
(3)加权灰度关联度近邻距离计算
对于包含缺失值的样本x1和其他样本xi(i=2…n),为对应的属 性分配权重ω(x1k,xik)后,为其计算最终加权灰度关联距离GRG, 公式如下所示:
Figure BDA0003039954300000071
对于目标属性样本x1和其他样本xi(i=2…n)所求得的GRG(x1, xi)所组成的一维数组,对其进行降序排列,只选择排序靠前的K个 对应样本,用于后续的填补计算当中。K值的选择,很大程度上影响 算法的有效性与区间性,因此在本算法中,根据已有填补文献给定的 参考值
Figure BDA0003039954300000073
从(0,256)中进行了最佳K值选择实验,并将200作 为检测数据集的K值设定。
作为进一步优选的,步骤4中的近邻加权与迭代填补细分为如下 步骤:
(1)近邻加权
在得到与目标样本x1灰度关联距离最小的K个样本x2-xk+1之后, 根据近邻对应数值对缺失值进行填补。根据缺失值所在属性的具体类 型,可以将其分为连续加权填补和离散加权填补两类。
连续加权填补法进行连续属性缺失填补,具体计算公式如下所示:
Figure BDA0003039954300000072
其中,M1k为目标样本待填补值,Mik为各邻居样本在缺失属性上 的参考值。根据灰度关联距离的大小,在总距离中占比越大的,其权 重越小,因而其对应值在最终填补值中所占比例也小,越相近样本的 对应值在填补时重要性更高。
离散加权填补法,首先遍历K个邻居包含的所有类别来确定总 类别数;接着使用如下公式对每个类别的权重继续计算;最后选择最 高权重所在类别作为缺失填补值。
Figure BDA0003039954300000081
在K个邻居中,l为待填补离散属性中的某一类别,此类别共有 j个样本;x1为缺失值所在样本,xg为属于l类别的某一邻居样本;Ml代 表l类别中所有样本与待填补样本的距离权重,其值越高,说明在K 个邻居中这一类别的所有样本与缺失样本距离最小,缺失样本对于属 性属于该类别可能性越大。
(2)加权填补
在完成二次填补后,对数据集进行一次实时更新,将最新的填补 值用于下一轮的缺失值填补计算中,直到两次填补值的均方根误差之 差小于阈值ε=0.0001。为了防止算法陷入无限循环,在20次填补后 若还没有满足迭代条件,仍然使填补算法停止,并以第20次的完整 填补值作为最终填补值。
与现有技术相比,本发明提供了一种基于属性动态选择与灰度关 联分析的缺失值填补方法,具备以下有益效果:
本发明创造性地提出了属性动态选择方法,通过为不同的待填补 属性设计合适的阈值,筛选出与待填补属性呈强相关的属性,删减冗 余属性。使得在后续近邻距离计算中,强相关属性占比提高,冗余属 性造成的噪声干扰减小,为最终缺失值填补提供更可靠更准确的保障。 这一数据处理方法能够在进行后续研究前,对数据进行有效预填充, 使得缺失值更加接近原始值,减少对数据挖掘与分析的影响。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分, 与本发明的实施例一起用于解释本发明,并不构成对本发明的限制, 在附图中:
图1为本发明提出的一种基于属性动态选择的缺失数据填补方 法的操作流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部 分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普 通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于属性动态选择 的缺失数据填补方法,主要以下几个步骤:初始填补、动态属性选择、 灰度关联加权近邻计算、近邻加权与迭代填补。
本实施例采用心脏病实验数据Cardiovascular Disease dataset进 行说明,此数据集来自Kaggle公共数据平台(https://www.kaggle.com), 由Svetlana Ulianova等人在2019年整理而成;数据集包含70000个 用户样本,每个样本由用户ID,由11个异构属性,以及一个二分类 患病判断标签组成。表1展示了12个属性的具体属性名称、数据来 源、类型分布、和数据意义等。
心脏病实验数据Cardiovascular Disease dataset中属性具体情况 介绍如下表所示:
表1 Cardiovascular Disease dataset数据特征信息
Figure BDA0003039954300000101
参见图1,本实施例提供的基于属性动态选择与灰度关联分析的 缺失值填补方法具体、包括以下步骤:
(1)初始填补
对均值/众数填补法、线性回归法与随机填补法等三种朴素初始 填补方法在10%、20%、30%三种不同缺失率下实施填补实验,以RMSE为评判指标,得到效果对比结果如下表所示:
表2三种初始填补方法在不同缺失率下的RMSE比对
Figure BDA0003039954300000111
从表格中可以看出,在缺失率为10%时,线性回归填补法略优于均值 /众数填补法,但是在缺失率增大时,均值/众数填补法却表现的更稳 定。在三种算法中,随机填补法的均方根远远大于其他两种方法,不 予考虑。根据以上结果,本实施例选择均值/众数填补法作为初始填 补方法。
(2)动态属性选择
a.相关性计算:采用灰色关联分析(GRA)以量化各种因素之间 的影响以及数据序列之间的关系,进而构建灰色关联模型,用于度量 两个数据集或一个数据集的两个变量之间的趋势关系。灰色关联系数 (GRC)公式如下所示:
Figure BDA0003039954300000112
其中xim为样本i的m属性值,xin为样本i的n属性值。ρ是一个 区分系数,取值区间为0-1,ρ值越小,属性间相关性的区分度越大。 灰度关联系数是将同一样本的两属性值之差与两属性在所有样本之 差的最大值最小值进行比较,度量的是数值上差异性的大小。本发明 将ρ的取值初步设定为0.1。
b.计算相关系数矩阵,在初始填补后的完整数据集使用上述相关 性计算方法得到对应的相关系数矩阵S,公式如下所示:
Figure BDA0003039954300000121
其中m代表数据集中总属性的个数,矩阵的每一列数值即为该 属性与其他属性间的相关系数,例如p1m即为属性1与属性m之间的 相关系数。
c.属性动态选择阈值设置:对于检测数据集,不同属性间存在 的关联性不尽相同。某些属性间呈现强相关性,某些属性之间也可能 关联性较小。部分K近邻填补算法研究中考虑使用不同权重来减少 这些无关属性的影响,但并没有提出更优解决办法。本发明对每一个 包含缺失值的属性,都只选取与其相关性排序靠前的部分属性用于后 续的距离计算,从而减少无关变量的对距离计算的影响。合适属性选 择的关键在于对属性间相关系数大小分布的把握。对于属性间相关性 较强的数据样本,可去除个别噪声属性,留下相关性强的属性用于后 续距离计算,以免丢失有效信息;而对于属性间相关性较弱的数据样 本,只选择总体系数里占比较高的相关属性用于距离计算。本发明提 出对应属性相关系数均值(F-MEAN),公式如下所示,旨在将每个 待填补属性与其他属性的相关系数均值作为特征选择阈值,只选择相 关系数大于F-MEAN的属性用于后续计算。
Figure BDA0003039954300000122
(3)灰度关联加权距离计算
a.灰度关联距离计算
本发明使用灰色关联分析中的灰色关联系数(GRC)变体以及灰 色关联等级(GRG)来描述给定数据集中包含缺失值的样本与其他样 本之间的距离值。对于包含n个样本数据集D={x1,x2,x3......xn}, 其中每个样本xi都包含m个特征,表示为:xi=(xi1,xi2,xi3……xim)。 对于包含缺失值样本x1和其他样本xi之间关于属性k的灰色关联系数 (GRC)公式如下所示:
Figure BDA0003039954300000131
其中,i,j=1,2,……n;k,p=1,2,……m;ρ是一个区分 系数,取值区间为0-1。在具体的应用中,ρ需要根据整个数据集的 整体分布选择合适的值,在本方法中,将ρ的取值初步设定为0.5。
GRC是用来描述两个样本不同属性在整体属性中的相关趋势的, 而为了整合属性间的趋势,需要将其转变为样本间的相关趋势,计算 两个样本间的灰色关联等级(GRG),以两个样本间所有对应属性的 灰色关联系数均值作为距离度量标准,从而求得与缺失值所在样本距 离最小的K个邻居样本,公式如下所示:
Figure BDA0003039954300000132
b.基于高斯核的权重优化
对于缺失值所在属性k,首先从系数矩阵S中取出与属性k相关 系数大于阈值的其他属性的相关系数,形成一维数组;然后,对一维 数组进行取正,以保证后续计算的准确性;接着,根据调整后的高斯 核函数变形公式,计算出相应的权重值,公式如下所示;最后,对各 权重值做归一化处理,得到最终用于计算的权重值。
Figure RE-GDA0003110720130000133
Max(ρk)代表与属性k相关的其他属性相关系数最大值,使得权 重值取值范围在(0,1)之间。σ是高斯核函数的宽度超参数,可根据 数据集的不同性质对其进行调整,防止过拟合现象的出现,在本发明 中根据文献参考值和实验效果设置为0.05。
c.加权灰度关联度近邻距离计算
对于包含缺失值的样本x1和其他样本xi(i=2…n),为对应的属 性分配权重ω(x1k,xik)后,为其计算最终加权灰度关联距离GRG, 公式如下所示:
Figure BDA0003039954300000142
对于目标属性样本x1和其他样本xi(i=2…n)所求得的GRG(x1, xi)所组成的一维数组,对其进行降序排列,只选择排序靠前的K个 对应样本,用于后续的填补计算当中。K值的选择,很大程度上影响 算法的有效性与区间性,因此在本算法中,根据已有填补文献给定的 参考值
Figure BDA0003039954300000143
从(0,256)中进行了最佳K值选择实验,并将200作 为检测数据集的K值设定。
(4)近邻加权与迭代填补
在得到与目标样本x1灰度关联距离最小的K个样本x2-xk+1之后, 根据近邻对应数值对缺失值进行填补。根据缺失值所在属性的具体类 型,可以将其分为连续加权填补和离散加权填补两类。
连续加权填补法进行连续属性缺失填补,具体计算公式如下所示:
Figure BDA0003039954300000151
其中,M1k为目标样本待填补值,Mik为各邻居样本在缺失属性上 的参考值。根据灰度关联距离的大小,在总距离中占比越大的,其权 重越小,因而其对应值在最终填补值中所占比例也小,越相近样本的 对应值在填补时重要性更高。
离散加权填补法,首先遍历K个邻居包含的所有类别来确定总 类别数;接着使用如下公式对每个类别的权重继续计算;最后选择最 高权重所在类别作为缺失填补值。
Figure BDA0003039954300000152
在K个邻居中,l为待填补离散属性中的某一类别,此类别共有 j个样本;x1为缺失值所在样本,xg为属于l类别的某一邻居样本;Ml代 表l类别中所有样本与待填补样本的距离权重,其值越高,说明在K 个邻居中这一类别的所有样本与缺失样本距离最小,缺失样本对于属 性属于该类别可能性越大。
在完成二次填补后,对数据集进行一次实时更新,将最新的填补 值用于下一轮的缺失值填补计算中,直到两次填补值的均方根误差之 差小于阈值ε=0.0001。为了防止算法陷入无限循环,在20次填补后 若还没有满足迭代条件,仍然使填补算法停止,并以第20次的完整 填补值作为最终填补值。
按照上述步骤最终确定了本发明提出填补方法的所有细节。将四 种同类填补算法与本发明算法在不同缺失率上进行RMSE比对,结 果如下表所示:
表3其他4种KNN填补算法与FSGKNN算法比对
Figure BDA0003039954300000161
由表可知,在三种缺失率下,本发明所提出的基于属性动态选择 与灰度关联分析的缺失值填补方法填补后的数据集更接近真实数据 集,拥有更好的填补性能。
本实施例也采用UCI公共数据库进行说明,这些数据集包括三 种不同的类型:连续型、离散型和混合异构型,样本数量在150-958 之间,均为分类型数据集。表4展示了4个公共数据集的名称、样本 数量、属性数量和数据类型等。
表4UCI公共数据集介绍
Figure BDA0003039954300000171
按照最终步骤中本发明提出填补方法的所有细节。将四种同类填 补算法与本发明算法在以上公共数据集上进行RMSE比对,结果如 下表所示:
表5不同缺失率下UCI数据集RMSE比对值
Figure BDA0003039954300000172
从实验结果可以看出,FSGKNN算法在大多数情况下都表现出了 最佳的填补性能,并且获得了最小的均方根误差,能够实现有效的数 据填补,达到预期目标和效果。本发明基于属性动态选择和灰度关联 分析的基础上考虑了不同属性间相关性对距离计算与填补的影响,有 效提升了近邻寻找的可靠性,实验测试执行性大,适用性广,缺失值 填补效果较好。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术 人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这 些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权 利要求及其等同物限定。

Claims (2)

1.一种基于属性动态选择的缺失数据填补方法,其特征在于包括以下步骤:
步骤1:对包含缺失值的原始数据集基于朴素方法进行初始填补;
步骤2:在完成初始填补的基础上,执行属性动态选择,对每个待填补属性只筛选出相关性较大的属性用于后续计算;
步骤3:采用灰度关联度作为样本间距离度量公式执行K近邻计算,在距离计算中将高斯核函数优化后的属性间关联系数作为相关权重,得到待填补样本与其他样本间的灰度关联距离,由此距离排序获得最相近的K个邻居;
步骤4:根据待填补数据的具体属性,对K个邻居的同一属性值进行加权计算,将其作为下一次填补的初始值并不断迭代,直到前后两次填补值的差值收敛于某一邻域,此时将最后一次填补值作为最终填补值保存。
2.根据权利要求1所述一种基于属性动态选择的缺失数据填补方法,其特征在于:通过为不同的属性设计合适的阈值,动态地筛选出与待填补属性呈强相关的属性、删减冗余属性,为后续近邻距离计算提供更可靠更准确的保障。
CN202110454133.6A 2021-04-26 2021-04-26 一种基于属性动态选择与灰度关联分析的缺失值填补方法 Pending CN113159194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110454133.6A CN113159194A (zh) 2021-04-26 2021-04-26 一种基于属性动态选择与灰度关联分析的缺失值填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110454133.6A CN113159194A (zh) 2021-04-26 2021-04-26 一种基于属性动态选择与灰度关联分析的缺失值填补方法

Publications (1)

Publication Number Publication Date
CN113159194A true CN113159194A (zh) 2021-07-23

Family

ID=76870900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110454133.6A Pending CN113159194A (zh) 2021-04-26 2021-04-26 一种基于属性动态选择与灰度关联分析的缺失值填补方法

Country Status (1)

Country Link
CN (1) CN113159194A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780581A (zh) * 2021-09-10 2021-12-10 未鲲(上海)科技服务有限公司 基于knn算法的数据分析方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038460A (zh) * 2017-04-10 2017-08-11 南京航空航天大学 一种基于改进knn的船舶监控数据缺失值填补方法
CN109472343A (zh) * 2018-10-16 2019-03-15 上海电机学院 一种基于gknn的改进样本数据缺失值的填补算法
WO2020034593A1 (zh) * 2018-08-13 2020-02-20 平安科技(深圳)有限公司 人群绩效特征预测中的缺失特征处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038460A (zh) * 2017-04-10 2017-08-11 南京航空航天大学 一种基于改进knn的船舶监控数据缺失值填补方法
WO2020034593A1 (zh) * 2018-08-13 2020-02-20 平安科技(深圳)有限公司 人群绩效特征预测中的缺失特征处理方法及装置
CN109472343A (zh) * 2018-10-16 2019-03-15 上海电机学院 一种基于gknn的改进样本数据缺失值的填补算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赖晓晨等: "《基于机器学习数据缺失值填补理论与方法》", 30 September 2020, 机械工业出版社, pages: 209 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780581A (zh) * 2021-09-10 2021-12-10 未鲲(上海)科技服务有限公司 基于knn算法的数据分析方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Mampaey et al. Summarizing data succinctly with the most informative itemsets
CN111000553B (zh) 一种基于投票集成学习的心电数据智能分类方法
CN112766379A (zh) 一种基于深度学习多权重损失函数的数据均衡方法
CN108846259A (zh) 一种基于聚类和随机森林算法的基因分类方法及***
CN110222744A (zh) 一种基于属性加权的朴素贝叶斯分类模型改进方法
CN106202952A (zh) 一种基于机器学习的帕金森疾病诊断方法
CN111986811A (zh) 一种基于大数据的疾病预测***
CN112464005B (zh) 一种深度强化图像聚类方法
CN107945182A (zh) 基于卷积神经网络模型GoogleNet的玉米叶片病害识别方法
CN114494196B (zh) 基于遗传模糊树的视网膜糖尿病变深度网络检测方法
CN104615634A (zh) 基于方向特征的手掌静脉指导性快速检索方法
CN108595499A (zh) 一种克隆优化的粒子群聚类高维数据分析方法
CN113674864A (zh) 一种恶性肿瘤合并静脉血栓栓塞症风险预测方法
CN108877947A (zh) 基于迭代均值聚类的深度样本学习方法
CN112215259B (zh) 基因选择方法和装置
CN113159194A (zh) 一种基于属性动态选择与灰度关联分析的缺失值填补方法
CN109583272B (zh) 一种能够获取人体生活状态的足迹***
CN111612583B (zh) 一种基于聚类的个性化导购***
CN117727464A (zh) 基于医疗多视图疾病预测模型的训练方法及设备
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN111709441A (zh) 基于改进特征子集区分度的行为识别特征选择方法
CN110796198A (zh) 基于混合蚁群优化算法的高维特征筛选方法
Abut et al. A robust ensemble feature selector based on rank aggregation for developing new VO\textsubscript {2} max prediction models using support vector machines
CN116226629A (zh) 一种基于特征贡献的多模型特征选择方法及***
CN115472291A (zh) 基于改进樽海鞘优化bp神经网络的食管鳞癌生存预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination