CN103544218A

CN103544218A - 非固定k值的最近邻填充方法

Info

Publication number: CN103544218A
Application number: CN201310452387.XA
Authority: CN
Inventors: 张师超; 朱晓峰; 刘星毅
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2013-09-29
Filing date: 2013-09-29
Publication date: 2014-01-29

Abstract

本发明主要针对最近邻填充方法的缺点而提出，是非固定k值的最近邻填充方法，首先对各种不同类型的属性距离计算公式进行了合理的定义，然后使用稀疏编码的方式对每个缺失实例选择合适的k值，同时选取最符合该缺失实例的属性，最后通过得到的k值选择缺失实例最近的k个无缺失实例进行缺失值填充。本方法能解决缺失数据填充问题的实例问题，也能在不增加填充复杂度的情况下增强缺失值填充的合理性和提高填充质量。本发明易于实施，编写代码时只涉及到一些简单的数学模型。

Description

非固定k值的最近邻填充方法

技术领域

本发明涉及计算机科学与技术领域和信息技术领域，特别是一种使用非固定k值的最近邻方法填充缺失数据的方法。

背景技术

最近邻算法（kNN）的原理可以描述如下：两个具有最近距离的事例的关系是最紧密的。因此，如果一个事例有缺失（不论缺失在条件属性还是决策属性），都可以计算它跟数据集中其他没有缺失事例的距离，然后找到跟它距离最近的事例，最后，缺失数据的值就用它最近距离的事例该属性上的值（离散属性）或者平均值（连续属性）来代替。

由于最近邻方法是基于实例学习的懒惰学习方法（Lazy Learning），因为它实际并没有根据所给训练样本构造一个分类器，而是将所有训练样本首先存储起来，当要进行分类时，就临时进行计算处理。当然，如果用户不能指定k值时，需要事先从训练样本学习k值。与积极学习（Active Learning）方法，如决策树归纳方法和神经网络方法相比，后者在进行分类前就已构造好一个分类模型；因此前者，因为是懒惰学习方法，在训练样本数目迅速增加时，会导致最近邻算法的计算量迅速增加。由于有效的索引方法支持，这个问题得到了解决。于是，最近邻算法得到了广泛的应用，例如，填充缺失数据，分类等。由于容易理解，操作简单，效果明显，无论在科研还是实际生活中都具有广泛应用。例如，在对各种事例进行分类时，最近邻算法的分类精确率在二类问题或者多类问题中都非常高。在填充缺失数据方面，最近邻方法是最热门的冷卡方法，于1967年首次提出，目前已经被嵌入一些常见的软件中，例如，ＳＡＳ等。

但是，最近邻填充算法存在一些明显的缺点：1、欧式距离的计算方法；2、k的取值；3、不同的实例取值相同。

大多数最近邻填充算法使用欧式距离公式计算两事例的距离。但是，很多文献已经证明欧式距离公式不能很好的处理离散型、连续性或者混合型属性。而实际应用中，各种不同类型的属性同时存在，例如，连续属性，二进制属性，无序离散型和有序离散型等（本发明中也把非连续性属性统称为离散属性）。

kNN填充方法中的参数k的取值却是一个非常值得关注的问题。在实验中，如果k取大了，可能容易导致随机性太严重，如果k取小了，样本数目就不够了，达不到统计意义上大样本容量的标准（从非科学意思的观点来看，希望大样本容量至少要30个以上）。并且，数据集不同，最好的k值也不同，通常k的最优选取要通过实验得到，这必然要增加实验的复杂度。这是一个公开性难题，所以k的取值得到了很多专家的注意，有建议k=5（当n>100,n是数据集缺失数据的个数）。仔细的读者会发现，在整个数据集中的所有缺失事例都要取一个确定好了的k个事例对自己进行填充。这个显然不合理，因为，有可能一些事例当k=5时填充结果很好，而另外一些事例的第五个邻居可能是自己的孤立点了。因此，对一个数据集取同一个k值是不合理的，而且这样的k是非常难取到的。

发明内容

本发明的目的在于提供简单而有效的缺失值填充方法。该方法可解决距离计算不合理和最近邻k值对所有缺失实例一样的问题。本发明首先定义一种简单有效的距离计算方法，然后使用稀疏编码的方式对每个缺失实例选择合适的k值，最后通过得到的k值选择缺失实例最近的k个无缺失实例进行缺失值填充。

本发明的技术方案包括下述步骤：

（1）把属性分成五类：连续型，对称二进制型，非对称二进制型，无序离散型和有序离散型；

并定义不同类属性实例的距离计算式；

（2）对每个缺失实例选择最近的k个训练实例，同时选取最符合该缺失实例的属性；

（3）计算缺失实例跟所有训练实例的距离，选取最近的k个无缺失实例，然后使用这k个无缺失实例对缺失实例进行缺失值填充。

其中，不同类属性实例的距离计算式如下：

混合类型：其中

代表事例i和j是否有缺失现象，如果有则为0，否则为1，f为在五类属性中第f类属性，n是属性个数，d_ij ^f即为事例i和j第f类属性的距离；

两个连续型：

其中n代表在事例i和j中有n个连续属性，Ai,k是事例i第k个属性的属性值，

是事例i中n个连续属性的平均值；

对称二进制型：

非对称二进制型：

其中q代表事例i和事例j的取值为“1”的个数，r代表事例i取值为“0”且事例j的取值为“1”的个数，s代表事例i取值为“1”且事例j的取值为“0”的个数，t代表事例i取值为“0”且事例j的取值为“0”的个数；

无序离散型：

其中，p为无序离散型属性的数据集个数，m是两个事例中有相同属性值的个数；

有序离散型：A和B之间的距离为:

dist (A, B) = \frac{2 \times \log P (common (A, B))}{\log P (description (A, B))} = \frac{- 2 \times \log p (A \cup B)}{- \log p (A) - \log p (B)},

其中common和description表示根据特定的领域取值，例如本发明中common(A,B)表示A和B的逻辑并运算，P(common(A,B))表示common(A,B)的概率，P(description(A,B))表示A概率和B概率的差。详细地，在步骤（2），采用稀疏编码的原理使用无缺失的所有实例集A对当前缺失实例进行重构回归，自动删除A中冗余或者噪音的属性，回归参数为非0的个数就是使用最近邻算法k的个数。

本发明的步骤（1）解决属性不同类的距离计算问题。这很好的解决了以往算法单一的把各种类型统一使用欧式距离来计算的不合理性。

步骤（2）解决最近邻填充算法k的取值和不同缺失实例k值应不同问题。每个缺失实例的最相近的邻居是不同的。本方法使用稀疏编码的方式决定当前缺失实例的邻居个数。这种思想更加符合实际应用。而且在选择邻居的过程中，本发明此步骤使用属性约简方法去掉一些属性的干扰。

步骤（3）是常见的最近邻填充算法。对每个缺失实例采用不同的k近邻填充方法。

本方法能解决缺失数据填充问题的实例问题，也能在不增加填充复杂度的情况下增强缺失值填充的合理性和提高填充质量。本发明易于实施，编写代码时只涉及到一些简单的数学模型。

具体实施方式

第一，各种混合距离计算。把研究中常见的属性分成五类：连续型，对称二进制，非对称二进制，无序离散型和有序离散型。本发明的距离定义如下：其中代表事例i和j是否有缺失现象，如果有则为0，否则为1。f为在五类属性中第f类属性，n是属性个数，d_ij ^f即为事例i和j第f类属性的距离。

A.连续值距离计算

两个连续值实例的距离计算公式：

其中n代表有在事例i和j中有n个连续属性，A_i,k是事例i第k个属性的属性值，

是事例i中n个连续属性的平均值。

B.对称二进制和非对称二进制属性距离计算

如果两个取值分布是均匀的，就说这个是对称二进制属性，否则为非对称二进制属性。例如，性别属性中，“男”和“女”是两个属性值，由于男和女的分布式均匀的，所以性别属性称为对称二进制属性，在计算两个事例此属性的距离时，对两个值的权值可以取相同。又比如，验证是否“患艾滋病”这个属性，有“是”和“非”两个取值，根据现实情况可以知道，“是”的概率要远远小于“非”的概率，因此在计算距离时，“非”取值的权要大于“是”取值的权重。本文根据相依表来计算二进制属性的距离，下表中q代表事例i和事例j的取值为“1”的个数，依次类推（见下表）。

本发明定义对称二进制距离公式为：非对称二进制的距离公式为：

其中q代表事例i和事例j的取值为“1”的个数，r代表事例i取值为“0”且事例j的取值为“1”的个数，s代表事例i取值为“1”且事例j的取值为“0”的个数，t代表事例i取值为“0”且事例j的取值为“0”的个数；观察这两个公式可以发现区别在分母，原因是非对称二进制属性的两个取值概率不同，权值也应该不同。

C.无序离散型属性

一些属性（例如颜色）的取值可以为“红色”，“蓝色”等，这些属性之间是没有顺序关系的，称为无序离散型属性，如果在总共p个无序离散型属性的数据集中，两个事例中有相同属性值得个数是m，则它们之间距离可以定义为：

D.有序性属性

一些离散属性的属性值是有顺序的，例如属性“排名”，“1”和“2”是有顺序的，但是又与连续属性不同，因为这些有序离散属性之间没有1-2之间的数据存在，因此，计算这样属性的距离也综合无序离散属性和连续属性的特点。例如属性‘quality’有5个有序的离散属性值:excellent,good,average,bad and awful。显然，“excellent”要好于“good”，但是我们不能确定到底好多少。本发明定义两属性值A和B之间的距离为:

dist (A, B) = \frac{2 \times \log P (common (A, B))}{\log P (description (A, B))} = \frac{- 2 \times \log p (A \cup B)}{- \log p (A) - \log p (B)}

其中‘common’和‘description’表示根据特定的领域取值，例如本发明中common(A,B)表示A和B的逻辑并运算，P(common(A,B))表示common(A,B)的概率，P(description(A,B))表示A概率和B概率的差。由上面公式，可以得出

dist (' excellent',' good') = \frac{2 \times \log P (' excellent' \cup' good')}{\log P (' excellent') + \log P (' good')} = \frac{2 \times \log (0.1 + 0.2)}{(\log 0.1 + \log 0.2)} = 0.62

\begin{matrix} dist (' excellent',' average') = \frac{2 \times \log P (' excellent' \cup' good' \cup' average')}{\log P (' excellent') + \log P (' good') + \log P (' average')} \\ = \frac{2 \times \log (0.1 + 0.2 + 0.4)}{\log 0.1 + \log 0.2 + \log 0.4} = 0.15 \end{matrix}

结果显示，两有序离散型属性“excellent”和“good”之间的相似度大于属性“excellent”和属性“average”的相似度。

第二，对每个缺失实例选择最近的k个训练实例。同时选取最符合该缺失实例的属性。本发明采用稀疏编码的原理使用无缺失的所有实例集A对当前缺失实例进行重构回归。在回归分析过程中，自动删除A中冗余或者噪音的属性，即属性约简。而且回归的结果是稀疏的，即很多回归参数为0。这意味着，回归参数为0对应着的无缺失实例不必用来对当前缺失实例进行填充。回归参数非0个的个数就是下步使用最近邻算法k的个数。而且每个缺失实例得到的k是不同的。

第三，对缺失实例计算它跟所有训练实例的距离，选取最近的k个无缺失实例。然后使用这k个无缺失的实例对缺失实例进行缺失值填充。