CN105975992A

CN105975992A - 一种基于自适应升采样的不平衡数据集分类方法

Info

Publication number: CN105975992A
Application number: CN201610331709.9A
Authority: CN
Inventors: 吕卫; 李喆; 褚晶辉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-05-18
Filing date: 2016-05-18
Publication date: 2016-09-28

Abstract

本发明涉及一种基于自适应升采样的不平衡数据集分类方法，包括以下步骤：根据和计算不平衡数据集的不平衡率，计算需要新生成的正样本总数；以欧氏距离为度量，对于每个正样本，计算概率密度分布；)确定该正样本所需生成的新样本个数；生成新的正样本，将新生成的正样本点加入到原有的不平衡训练集中，使正负样本数目相同，即得到包含正样本和负样本各n_n个的新平衡训练集；对新生成的平衡训练集运用Adaboost算法进行训练，迭代T次后得到最终的分类模型。本发明可以提高不平衡数据集的分类性能。

Description

一种基于自适应升采样的不平衡数据集分类方法

所属技术领域

本发明涉及模式识别技术，具体涉及一种针对不平衡数据集的分类器。

背景技术

随着数据挖掘、模式识别与机器学***衡数据集的分类算法成为了研究热点。

近年来，科研人员提出了多种针对不平衡数据集的分类方法。根据作用对象的不同，这些方法主要可以被分为数据级方法和算法级方法两大类。

数据级方法主要通过对数据进行重采样来改变数据分布，使正负样本的数目基本相同，以此实现数据平衡。对负样本进行降采样和对正样本进行升采样均可达到这一目的。专利“基于有监督上采样学***衡的数据集并用于训练支持向量机。但由于该种方法只是将正样本进行复制后加入原有的数据集中，相当于每个正样本均被多次训练，容易出现过拟合现象，最终导致分类器性能下降。专利“基于欠抽样面向不平衡数据集的交通事件自动检测方法”(CN103927874A)采用降采样方法，从负样本集中随机抽取部分样本与全体正样本组成训练集对分类器进行训练。但由于丢弃了大量负样本，该方法无法保证抽取得到的负样本子集能够较好代表原有样本集，因此训练效果也不够理想。

算法级方法主要通过改进分类算法而非改变数据分布来解决不平衡分类问题。Adaboost是经典的算法级方法之一。这种方法通过将多个分类器级联，并不断增加错分样本的权重以提高将该类样本再次错分的代价，由此提高分类的准确率。然而，由于传统的Adaboost算法本身并未过多关注正样本，因此效果仍然不够理想。

从上述分析可以看出，数据级方法和算法级方法虽然都可以减轻数据不平衡对分类效果产生的影响，但两种方法均存在一定的局限性。

发明内容

本发明的目的是克服现有方法的不足，提出一种基于自适应升采样的不平衡数据集分类算法，以提高不平衡数据集的分类性能。本发明的技术方案如下：

一种基于自适应升采样的不平衡数据集分类方法，设原始不平衡数据集中正样本数目为n_p，负样本数目为n_n，该方法包括以下步骤：

(1)根据n_p和n_n计算不平衡数据集的不平衡率IR，由IR计算需要新生成的正样本总数G；

(2)以欧氏距离为度量，对于每个正样本i，搜索不平衡数据集中同其距离最近的K个最近邻样本，统计上述K个最近邻样本中负样本所占的比例，记为p_i，对各个正样本所得到的p_i值相加并进行归一化处理，将处理完成后得到的值记为r_i，此时各正样本的r_i值之和为1，即r_i形成概率密度分布，称r_i为正样本i的概率；

(3)对于每个正样本i，根据正样本总数G值与步骤(2)中得到的概率r_i确定该正样本所需生成的新样本个数g_i；

(4)对于每个正样本i，在步骤(2)中得到的K个最近邻样本中随机选取g_i个，分别与其组成样本对，在样本对的连线上随机选取一点即得到新生成的正样本，新的正样本生成过程完成后生成G个新的正样本点，将新生成的G个正样本点加入到原有的不平衡训练集中，使正负样本数目相同，即得到包含正样本和负样本各n_n个的新平衡训练集；

(5)记Adaboost算法的迭代次数为T，对新生成的平衡训练集运用Adaboost算法进行训练，迭代T次后得到最终的分类模型。

本发明针对不平衡数据集，将数据级方法和算法级方法结合的算法，并对升采样算法进行改进与优化，主要对在正负样本边界附近的正样本点进行升采样，对远离边界的正样本不做处理，以在不平衡数据集上获得更好的分类效果，结合了自适应升采样算法与Adaboost算法的优点，保证升采样中生成的新正样本主要集中在边界附近，同时通过组合分类器进行增强学习，提高分类器整体性能。经实验比较，本发明在多个分类器评价指标上具有明显优势。

附图说明

图1是Adaboost增强学习算法流程图。

图2是本发明的流程图。

具体实施方式

本发明受自适应升采样算法和图1所示Adaboost算法启发，将二者进行组合，形成一个集成分类器。下面结合附图对本发明作进一步详细的说明。

(1)取得测试和训练数据：本发明选择KEEL数据库中的车辆种类识别数据库，共包含样本846个。数据库中的正样本为小货车数据，共199个,即n_p＝199。负样本包含公交车、欧宝轿车、萨博汽车共三种车辆的数据，共647个,即n_n＝647。数据库中包含扭矩、转向半径、最大制动距离等共18维特征。按(1)式计算不平衡率，

IR＝n_n/n_p(1)

可得在本实验中不平衡率应为3.25。

(2)按(2)式计算需要生成的正样本个数,

G＝(n_n-n_p)×β(2)

其中，β是一个介于0到1之间的常数。当β＝1时，经升采样后正负样本的数目将完全相同，数据集达到完全平衡，本发明取β＝1。可知，需要生成的新正样本数目应为448。随后根据该值对正样本进行自适应升采样处理，使正负样本数目达到平衡。具体方法为：对于每个正样本，以欧氏距离作为度量，分别计算距其最近的K个样本点中负样本所占比例p_i:

p_i＝k_i/K,i＝1,...,n_p (3)

为保证准确判断每个正样本是否在正负样本边界附近，K应取较大值，但随着K值的增加，计算量也将明显增加。为保持较低计算复杂度，本发明对上述两需求进行折中处理，取K＝5。随后，对所有p_i进行归一化处理，使其表示为概率密度分布并计算每个正样本应生成的新正样本个数

g_{i} = \frac{p_{i}}{Σ_{j = 1}^{n_{p}} p_{j}} \times G - - - (4)

由(4)式可知，越靠近边界、邻近样本中负样本较多的样本点将被用于生成更多正样本，而远离边界、邻近样本均为正样本的样本点将不会被用于生成正样本。随后，对每一个正样本，在其K个最近邻样本点中随机选取g_i个，按(5)式方法生成新的正样本：

new_i＝x_i+λ(x_ni-x_i)(5)

其中，new_i是新生成的样本点，λ为一个取值在0到1之间的随机数，x_ni为被随机选中的邻近样本点。对于每个正样本，这一过程将进行g_i次。样本生成过程完成后，将新生成的样本点加入到原有的不平衡训练集中，即可得到新的平衡训练集。这种自适应的增采样方法可以确保新生成的训练集不存在不平衡问题，且新生成的样本主要位于正负样本区分难度较大的边界区域。

由图1和图2可看出，若直接进行随机升采样，将所有正样本点进行复制，则新生成的样本点将与原来的正样本点完全重合且分布在整个正样本空间内。而自适应升采样可以生成与原样本点不同的正样本，且新生成的正样本均在边界附近。

(3)本发明采取五折交叉验证对不平衡数据集进行训练与测试。训练与测试均选择C4.5决策树作为基分类器的Adaboost分类算法。其中，设C4.5决策树的最小叶节点数为2，置信度为0.25，树训练完成后需进行剪枝处理。所有数据在进入分类器前均完成归一化处理，即数据最小值为0，最大值为1。正样本数据标签为+1，负样本数据标签为-1。

将平衡的正负样本按五折交叉验证划分出训练集与测试集，此时训练集中应包含正负样本各518个。训练所用的样本个数为2n_n，即1036。取Adaboost算法的迭代次数T＝10，则按如下方法进行训练：

1.记各样本权值为D_t(i)，其中，t可取1到(T-1)之间的整数值，表示当前迭代轮次，i表示样本编号。初始化每个样本的权值均为D₁(i)＝1/(2n_n)，i＝1,...,2n_n.

2.将加权后的训练集用于训练分类器h_t，训练完成后计算其训练错误率

ϵ_{t} = Σ_{i = 1}^{m} D_{t} [y_{i} &NotEqual; h_{t} (x_{i})] - - - (6)

其中，t＝1,...T，为当前所处的迭代轮次数。ε_t为第t轮迭代的训练错误率，D_t(i)为该轮迭代中每个样本的权重，y_i为样本x_i所属的类别标签，取值为1或-1。h(x_i)为样本x_i经训练后的分类标签。

3.设第t轮迭代完成后得到的分类器在最终投票中的权重为α_t，根据每轮迭代中的训练错误率计算该轮迭代训练生成的分类器的权重为

α_{t} = \frac{1}{2} l n \frac{1 - ϵ_{t}}{ϵ_{t}} - - - (7)

同时，在下一轮迭代中，每个样本的权重更新为

D_{t + 1} (i) = \frac{D_{t} (i) \exp [- α_{t} y_{i} h_{t} (x_{i})]}{Z_{t}} - - - (8)

其中，Z_t为当前迭代轮次中各样本的权值之和，用于对各样本权值进行归一化处理。

4.执行2,3步骤共T次，完成全部迭代与权值更新过程，从而完成分类器训练。对于待分类的测试样本，其分类结果应为

s i g n (H (x) = Σ_{t = 1}^{T} α_{t} h_{t} (x)) - - - (9)

由(7)式可知，每个子分类器的权重由其分类错误率决定。错误率更低的分类器将在(9)式的投票过程中获得更高的权重。此外，对于单个样本，由式(8)可以看到，若样本的原始标签与分类结果不同，则指数幂的值将大于0，自然对数的结果将小于1，使得该样本在下轮迭代中的权重增加。反之，样本在下轮迭代中的权值将会减小。

将测试集样本输入完成训练的分类器中，测试样本的最终分类结果，如图2所示。

表1给出了直接运用C4.5决策树对不平衡数据集进行分类、对正样本进行随机升采样后运用C4.5进行分类及本发明所使用的方法进行分类分别得到的测试结果。我们采用以下几个指标对分类器性能进行评价：

表1分类算法结果与比较(同一指标下最好的结果用黑体标出)

由表1数据可以看出，直接使用C4.5决策树进行分类虽然可以得到最高的特异性指标，但灵敏度最低，证明此时数据不平衡现象对分类性能产生了明显影响。正样本的边界区域被侵噬，大量正样本被误分为负样本。经过简单的随机升采样后，这一问题有所缓解，但灵敏度与特异性的差距仍然较大；而本发明同时得到了良好的灵敏度和特异性指标，二者的几何平均值在参与对比的几种方法中同样最高，证明本发明对灵敏度和特异性有最佳折中。

综上所述，本发明可以在不平衡数据集上获得良好的分类效果，有效消除数据不平衡问题对分类带来的消极影响。

Claims

1.一种基于自适应升采样的不平衡数据集分类方法，设原始不平衡数据集中正样本数目为n_p，负样本数目为n_n，该方法包括以下步骤：