CN103544218A - 非固定k值的最近邻填充方法 - Google Patents

非固定k值的最近邻填充方法 Download PDF

Info

Publication number
CN103544218A
CN103544218A CN201310452387.XA CN201310452387A CN103544218A CN 103544218 A CN103544218 A CN 103544218A CN 201310452387 A CN201310452387 A CN 201310452387A CN 103544218 A CN103544218 A CN 103544218A
Authority
CN
China
Prior art keywords
value
attribute
disappearance
log
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310452387.XA
Other languages
English (en)
Inventor
张师超
朱晓峰
刘星毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN201310452387.XA priority Critical patent/CN103544218A/zh
Publication of CN103544218A publication Critical patent/CN103544218A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明主要针对最近邻填充方法的缺点而提出,是非固定k值的最近邻填充方法,首先对各种不同类型的属性距离计算公式进行了合理的定义,然后使用稀疏编码的方式对每个缺失实例选择合适的k值,同时选取最符合该缺失实例的属性,最后通过得到的k值选择缺失实例最近的k个无缺失实例进行缺失值填充。本方法能解决缺失数据填充问题的实例问题,也能在不增加填充复杂度的情况下增强缺失值填充的合理性和提高填充质量。本发明易于实施,编写代码时只涉及到一些简单的数学模型。

Description

非固定k值的最近邻填充方法
技术领域
本发明涉及计算机科学与技术领域和信息技术领域,特别是一种使用非固定k值的最近邻方法填充缺失数据的方法。
背景技术
最近邻算法(kNN)的原理可以描述如下:两个具有最近距离的事例的关系是最紧密的。因此,如果一个事例有缺失(不论缺失在条件属性还是决策属性),都可以计算它跟数据集中其他没有缺失事例的距离,然后找到跟它距离最近的事例,最后,缺失数据的值就用它最近距离的事例该属性上的值(离散属性)或者平均值(连续属性)来代替。
由于最近邻方法是基于实例学习的懒惰学习方法(Lazy Learning),因为它实际并没有根据所给训练样本构造一个分类器,而是将所有训练样本首先存储起来,当要进行分类时,就临时进行计算处理。当然,如果用户不能指定k值时,需要事先从训练样本学习k值。与积极学习(Active Learning)方法,如决策树归纳方法和神经网络方法相比,后者在进行分类前就已构造好一个分类模型;因此前者,因为是懒惰学习方法,在训练样本数目迅速增加时,会导致最近邻算法的计算量迅速增加。由于有效的索引方法支持,这个问题得到了解决。于是,最近邻算法得到了广泛的应用,例如,填充缺失数据,分类等。由于容易理解,操作简单,效果明显,无论在科研还是实际生活中都具有广泛应用。例如,在对各种事例进行分类时,最近邻算法的分类精确率在二类问题或者多类问题中都非常高。在填充缺失数据方面,最近邻方法是最热门的冷卡方法,于1967年首次提出,目前已经被嵌入一些常见的软件中,例如,SAS等。
但是,最近邻填充算法存在一些明显的缺点:1、欧式距离的计算方法;2、k的取值;3、不同的实例取值相同。
大多数最近邻填充算法使用欧式距离公式计算两事例的距离。但是,很多文献已经证明欧式距离公式不能很好的处理离散型、连续性或者混合型属性。而实际应用中,各种不同类型的属性同时存在,例如,连续属性,二进制属性,无序离散型和有序离散型等(本发明中也把非连续性属性统称为离散属性)。
kNN填充方法中的参数k的取值却是一个非常值得关注的问题。在实验中,如果k取大了,可能容易导致随机性太严重,如果k取小了,样本数目就不够了,达不到统计意义上大样本容量的标准(从非科学意思的观点来看,希望大样本容量至少要30个以上)。并且,数据集不同,最好的k值也不同,通常k的最优选取要通过实验得到,这必然要增加实验的复杂度。这是一个公开性难题,所以k的取值得到了很多专家的注意,有建议k=5(当n>100,n是数据集缺失数据的个数)。仔细的读者会发现,在整个数据集中的所有缺失事例都要取一个确定好了的k个事例对自己进行填充。这个显然不合理,因为,有可能一些事例当k=5时填充结果很好,而另外一些事例的第五个邻居可能是自己的孤立点了。因此,对一个数据集取同一个k值是不合理的,而且这样的k是非常难取到的。
发明内容
本发明的目的在于提供简单而有效的缺失值填充方法。该方法可解决距离计算不合理和最近邻k值对所有缺失实例一样的问题。本发明首先定义一种简单有效的距离计算方法,然后使用稀疏编码的方式对每个缺失实例选择合适的k值,最后通过得到的k值选择缺失实例最近的k个无缺失实例进行缺失值填充。
本发明的技术方案包括下述步骤:
(1)把属性分成五类:连续型,对称二进制型,非对称二进制型,无序离散型和有序离散型;
并定义不同类属性实例的距离计算式;
(2)对每个缺失实例选择最近的k个训练实例,同时选取最符合该缺失实例的属性;
(3)计算缺失实例跟所有训练实例的距离,选取最近的k个无缺失实例,然后使用这k个无缺失实例对缺失实例进行缺失值填充。
其中,不同类属性实例的距离计算式如下:
混合类型:其中
Figure BDA0000389658290000022
代表事例i和j是否有缺失现象,如果有则为0,否则为1,f为在五类属性中第f类属性,n是属性个数,dij f即为事例i和j第f类属性的距离;
两个连续型:
Figure BDA0000389658290000023
其中n代表在事例i和j中有n个连续属性,Ai,k是事例i第k个属性的属性值,
Figure BDA0000389658290000024
是事例i中n个连续属性的平均值;
对称二进制型:
Figure BDA0000389658290000025
非对称二进制型:
Figure BDA0000389658290000026
其中q代表事例i和事例j的取值为“1”的个数,r代表事例i取值为“0”且事例j的取值为“1”的个数,s代表事例i取值为“1”且事例j的取值为“0”的个数,t代表事例i取值为“0”且事例j的取值为“0”的个数;
无序离散型:
Figure BDA0000389658290000027
其中,p为无序离散型属性的数据集个数,m是两个事例中有相同属性值的个数;
有序离散型:A和B之间的距离为:
dist ( A , B ) = 2 × log P ( common ( A , B ) ) log P ( description ( A , B ) ) = - 2 × log p ( A ∪ B ) - log p ( A ) - log p ( B ) , 其中common和description表示根据特定的领域取值,例如本发明中common(A,B)表示A和B的逻辑并运算,P(common(A,B))表示common(A,B)的概率,P(description(A,B))表示A概率和B概率的差。详细地,在步骤(2),采用稀疏编码的原理使用无缺失的所有实例集A对当前缺失实例进行重构回归,自动删除A中冗余或者噪音的属性,回归参数为非0的个数就是使用最近邻算法k的个数。
本发明的步骤(1)解决属性不同类的距离计算问题。这很好的解决了以往算法单一的把各种类型统一使用欧式距离来计算的不合理性。
步骤(2)解决最近邻填充算法k的取值和不同缺失实例k值应不同问题。每个缺失实例的最相近的邻居是不同的。本方法使用稀疏编码的方式决定当前缺失实例的邻居个数。这种思想更加符合实际应用。而且在选择邻居的过程中,本发明此步骤使用属性约简方法去掉一些属性的干扰。
步骤(3)是常见的最近邻填充算法。对每个缺失实例采用不同的k近邻填充方法。
本方法能解决缺失数据填充问题的实例问题,也能在不增加填充复杂度的情况下增强缺失值填充的合理性和提高填充质量。本发明易于实施,编写代码时只涉及到一些简单的数学模型。
具体实施方式
第一,各种混合距离计算。把研究中常见的属性分成五类:连续型,对称二进制,非对称二进制,无序离散型和有序离散型。本发明的距离定义如下:其中代表事例i和j是否有缺失现象,如果有则为0,否则为1。f为在五类属性中第f类属性,n是属性个数,dij f即为事例i和j第f类属性的距离。
A.连续值距离计算
两个连续值实例的距离计算公式:
Figure BDA0000389658290000034
其中n代表有在事例i和j中有n个连续属性,Ai,k是事例i第k个属性的属性值,
Figure BDA0000389658290000035
是事例i中n个连续属性的平均值。
B.对称二进制和非对称二进制属性距离计算
如果两个取值分布是均匀的,就说这个是对称二进制属性,否则为非对称二进制属性。例如,性别属性中,“男”和“女”是两个属性值,由于男和女的分布式均匀的,所以性别属性称为对称二进制属性,在计算两个事例此属性的距离时,对两个值的权值可以取相同。又比如,验证是否“患艾滋病”这个属性,有“是”和“非”两个取值,根据现实情况可以知道,“是”的概率要远远小于“非”的概率,因此在计算距离时,“非”取值的权要大于“是”取值的权重。本文根据相依表来计算二进制属性的距离,下表中q代表事例i和事例j的取值为“1”的个数,依次类推(见下表)。
Figure BDA0000389658290000041
本发明定义对称二进制距离公式为:非对称二进制的距离公式为:
Figure BDA0000389658290000043
其中q代表事例i和事例j的取值为“1”的个数,r代表事例i取值为“0”且事例j的取值为“1”的个数,s代表事例i取值为“1”且事例j的取值为“0”的个数,t代表事例i取值为“0”且事例j的取值为“0”的个数;观察这两个公式可以发现区别在分母,原因是非对称二进制属性的两个取值概率不同,权值也应该不同。
C.无序离散型属性
一些属性(例如颜色)的取值可以为“红色”,“蓝色”等,这些属性之间是没有顺序关系的,称为无序离散型属性,如果在总共p个无序离散型属性的数据集中,两个事例中有相同属性值得个数是m,则它们之间距离可以定义为:
D.有序性属性
一些离散属性的属性值是有顺序的,例如属性“排名”,“1”和“2”是有顺序的,但是又与连续属性不同,因为这些有序离散属性之间没有1-2之间的数据存在,因此,计算这样属性的距离也综合无序离散属性和连续属性的特点。例如属性‘quality’有5个有序的离散属性值:excellent,good,average,bad and awful。显然,“excellent”要好于“good”,但是我们不能确定到底好多少。本发明定义两属性值A和B之间的距离为:
dist ( A , B ) = 2 × log P ( common ( A , B ) ) log P ( description ( A , B ) ) = - 2 × log p ( A ∪ B ) - log p ( A ) - log p ( B )
其中‘common’和‘description’表示根据特定的领域取值,例如本发明中common(A,B)表示A和B的逻辑并运算,P(common(A,B))表示common(A,B)的概率,P(description(A,B))表示A概率和B概率的差。由上面公式,可以得出
dist ( ' excellent ' , ' good ' ) = 2 × log P ( ' excellent ' ∪ ' good ' ) log P ( ' excellent ' ) + log P ( ' good ' ) = 2 × log ( 0.1 + 0.2 ) ( log 0.1 + log 0.2 ) = 0.62
dist ( ' excellent ' , ' average ' ) = 2 × log P ( ' excellent ' ∪ ' good ' ∪ ' average ' ) log P ( ' excellent ' ) + log P ( ' good ' ) + log P ( ' average ' ) = 2 × log ( 0.1 + 0.2 + 0.4 ) log 0.1 + log 0.2 + log 0.4 = 0.15
结果显示,两有序离散型属性“excellent”和“good”之间的相似度大于属性“excellent”和属性“average”的相似度。
第二,对每个缺失实例选择最近的k个训练实例。同时选取最符合该缺失实例的属性。本发明采用稀疏编码的原理使用无缺失的所有实例集A对当前缺失实例进行重构回归。在回归分析过程中,自动删除A中冗余或者噪音的属性,即属性约简。而且回归的结果是稀疏的,即很多回归参数为0。这意味着,回归参数为0对应着的无缺失实例不必用来对当前缺失实例进行填充。回归参数非0个的个数就是下步使用最近邻算法k的个数。而且每个缺失实例得到的k是不同的。
第三,对缺失实例计算它跟所有训练实例的距离,选取最近的k个无缺失实例。然后使用这k个无缺失的实例对缺失实例进行缺失值填充。

Claims (3)

1.非固定k值的最近邻填充方法,其特征在于:包括下述步骤:
(1)把属性分成五类:连续型,对称二进制型,非对称二进制型,无序离散型和有序离散型;
并定义不同类属性实例的距离计算式;
(2)对每个缺失实例选择最近的k个训练实例,同时选取最符合该缺失实例的属性;
(3)计算缺失实例跟所有训练实例的距离,选取最近的k个无缺失实例,然后使用这k个无缺失实例对缺失实例进行缺失值填充。
2.权利要求1所述的方法,其特征在于:不同类属性实例的距离计算式如下:
混合类型:
Figure FDA0000389658280000011
其中
Figure FDA0000389658280000012
代表事例i和j是否有缺失现象,如果有则为0,否则为1,f为在五类属性中第f类属性,n是属性个数,dij f即为事例i和j第f类属性的距离;两个连续型:
Figure FDA0000389658280000013
其中n代表在事例i和j中有n个连续属性,Ai,k是事例i第k个属性的属性值,是事例i中n个连续属性的平均值;
对称二进制型:
Figure FDA0000389658280000015
非对称二进制型:
Figure FDA0000389658280000016
其中q代表事例i和事例j的取值为“1”的个数,r代表事例i取值为“0”且事例j的取值为“1”的个数,s代表事例i取值为“1”且事例j的取值为“0”的个数,t代表事例i取值为“0”且事例j的取值为“0”的个数;
无序离散型:
Figure FDA0000389658280000017
其中,p为无序离散型属性的数据集个数,m是两个事例中有相同属性值的个数;
有序离散型:A和B之间的距离为:
dist ( A , B ) = 2 × log P ( common ( A , B ) ) log P ( description ( A , B ) ) = - 2 × log p ( A ∪ B ) - log p ( A ) - log p ( B ) , 其中common和description表示根据特定的领域取值。
3.权利要求1所述的方法,其特征在于:在步骤(2),采用稀疏编码的原理使用无缺失的所有实例集A对当前缺失实例进行重构回归,自动删除A中冗余或者噪音的属性,回归参数为非0的个数就是使用最近邻算法k的个数。
CN201310452387.XA 2013-09-29 2013-09-29 非固定k值的最近邻填充方法 Pending CN103544218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310452387.XA CN103544218A (zh) 2013-09-29 2013-09-29 非固定k值的最近邻填充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310452387.XA CN103544218A (zh) 2013-09-29 2013-09-29 非固定k值的最近邻填充方法

Publications (1)

Publication Number Publication Date
CN103544218A true CN103544218A (zh) 2014-01-29

Family

ID=49967670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310452387.XA Pending CN103544218A (zh) 2013-09-29 2013-09-29 非固定k值的最近邻填充方法

Country Status (1)

Country Link
CN (1) CN103544218A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250431A (zh) * 2016-07-25 2016-12-21 华南师范大学 一种基于分类服装的颜色特征提取方法及服装检索***
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN107273429A (zh) * 2017-05-19 2017-10-20 哈工大大数据产业有限公司 一种基于深度学习的缺失值填充方法及***
CN110097170A (zh) * 2019-04-25 2019-08-06 深圳市豪斯莱科技有限公司 信息推送对象预测模型获取方法、终端及存储介质
CN111737463A (zh) * 2020-06-04 2020-10-02 江苏名通信息科技有限公司 大数据缺失值填充方法、装置和计算机程序
CN111784799A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 图像填充方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHICHAO ZHANG 等: "Missing data imputation by utilizing information within incomplete instances", 《THE JOURNAL OF SYSTEMS AND SOFTWARE》 *
SHICHAO ZHANG: "Shell-neighbor method and its application in missing data", 《APPLIED INTELLIGENCE》 *
刘星毅 等: "基于欧式距离的最近邻改进算法", 《广西科学院学报》 *
庄连生 等: "非负稀疏局部线性编码", 《软件学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250431A (zh) * 2016-07-25 2016-12-21 华南师范大学 一种基于分类服装的颜色特征提取方法及服装检索***
CN106250431B (zh) * 2016-07-25 2019-03-22 华南师范大学 一种基于分类服装的颜色特征提取方法及服装检索***
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN107193876B (zh) * 2017-04-21 2020-10-09 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN107273429A (zh) * 2017-05-19 2017-10-20 哈工大大数据产业有限公司 一种基于深度学习的缺失值填充方法及***
CN110097170A (zh) * 2019-04-25 2019-08-06 深圳市豪斯莱科技有限公司 信息推送对象预测模型获取方法、终端及存储介质
CN111737463A (zh) * 2020-06-04 2020-10-02 江苏名通信息科技有限公司 大数据缺失值填充方法、装置和计算机程序
CN111737463B (zh) * 2020-06-04 2024-02-09 江苏名通信息科技有限公司 大数据缺失值填充方法、装置和计算机可读存储器
CN111784799A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 图像填充方法、装置、设备及存储介质
CN111784799B (zh) * 2020-06-30 2024-01-12 北京百度网讯科技有限公司 图像填充方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Mienye et al. Prediction performance of improved decision tree-based algorithms: a review
CN103544218A (zh) 非固定k值的最近邻填充方法
CN110781406B (zh) 一种基于变分自动编码器的社交网络用户多属性推断方法
KR20210040248A (ko) 물질의 생성 구조-특성 역 계산 공동 설계
CN104866578B (zh) 一种不完整物联网数据混合填充方法
CN114239560B (zh) 三维图像分类方法、装置、设备和计算机可读存储介质
Zhao et al. Indexing 3D scenes using the interaction bisector surface
CN109829065B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN105512679A (zh) 一种基于极限学习机的零样本分类方法
EP3675061A1 (en) Forming a dataset for inference of editable feature trees
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN113704082A (zh) 模型评测方法、装置、电子设备及存储介质
CN113254810B (zh) 搜索结果输出方法、装置、计算机设备及可读存储介质
CN106934410A (zh) 数据的分类方法及***
CN105808582A (zh) 基于分层策略的决策树并行生成方法和装置
CN103077228A (zh) 一种基于集合特征向量的快速聚类方法和装置
CN110619364B (zh) 一种基于云模型的小波神经网络三维模型分类方法
Bruzzese et al. DESPOTA: DEndrogram slicing through a pemutation test approach
CN103310027B (zh) 用于地图模板匹配的规则提取方法
CN105138527B (zh) 一种数据分类回归方法及装置
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
Wang et al. Revealing the fog-of-war: A visualization-directed, uncertainty-aware approach for exploring high-dimensional data
Meng et al. Merged region based image retrieval
CN112905906A (zh) 一种融合局部协同与特征交叉的推荐方法及***
CN107944045B (zh) 基于t分布哈希的图像检索方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140129