CN108470187A

CN108470187A - 一种基于扩充训练数据集的类别不平衡问题分类方法

Info

Publication number: CN108470187A
Application number: CN201810161468.7A
Authority: CN
Inventors: 俞彬; 王家兵
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2018-08-31

Abstract

本发明公开了一种基于扩充训练数据集的类别不平衡问题分类方法，步骤包括：获取分类任务所需的真实数据集；在真实数据集中筛选出少数类样本，并区分出靠近和远离决策边界的样本；将上述样本作为输入，运行一个生成式对抗网络，得到与真实数据相似的人工样本；将一定数量的人工样本加入到真实数据集中，得到混合数据集；将混合数据集作为输入，使用分类器进行分类任务。本发明结合CycleGAN模型与原始数据集中的边界信息，有效地模拟了真实数据的分布特征。本发明对小样本数据进行过采样，提高了分类器的精度，有效改善了类别不平衡问题对分类任务造成的影响。

Description

一种基于扩充训练数据集的类别不平衡问题分类方法

技术领域

本发明涉及数据挖掘中的分类优化技术领域，具体涉及一种基于扩充训练数据集的类别不平衡问题分类方法。

背景技术

随着网络信息化的不断加深，整个互联网的数据总量在不断增长。而如何充分发掘并利用蕴含在数据下的有用信息，则是近年来计算机科学领域的热点问题。对于海量数据集，各种机器学***衡在获取数据集的过程中就是一个常见的问题，具体表现为：数据集中某一类样本的数量和其余样本的数量相差甚远。例如在***诈骗的数据集中，绝大多数用户的行为都是正常的，只有极少一部分用户的行为会被判定诈骗。如果不去对数据集或算法进行相应改进，直接进行分类训练，其结果是少数类样本数据得不到充分的重视，严重情况下甚至会被分类器当作噪声而忽略，从而导致分类结果的严重偏差。

在这种背景下，如何从类别不平衡数据中获得理想中的结果，就成为需要深入探究的问题。当下对于不平衡问题主要有两大类优化方法：(1)改变数据集的原始分布，对多数类样本进行降采样，或对少数类样本进行过采样，或二者结合，使得数据集不同类别之间的数量尽量均衡；(2)优化分类器。如在训练时提升分类器对少数类样本的权重，使其得到充分重视。许多研究和实验都表明两种方法对分类结果的准确性皆有良好提升。

在针对少数类样本的过采样方法中，现有的方法大多是基于随机过采样和SMOTE算法的衍生。这些算法一般都具有较低的时间复杂度，因此在实验中对结果的提升较为有限：基于随机过采样的方法，对部分样本进行了重复采样，虽然增加了少数类样本的数量，但是一定程度上提高了过拟合的风险；基于SMOTE的过采样方法，往往都是在少数类样本内，依据某种规则进行数据扩充，这类方法克服了重复采样的缺点，但由于人工制定的规则往往不能较好模拟原始数据的分布，且不会在所有的数据集上都适用，因此结果准确性的提升有限。因此，如何找到一种泛化性能和自适应性能都好的过采样方法，就成为本领域内亟待解决的技术问题之一。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于扩充训练数据集的类别不平衡问题分类方法，其有着更强的拟合原始数据分布特征的能力，和更强的自适应性，对不同种类的数据集都有良好的过采样性能。

本发明的目的可以通过采取如下技术方案达到：

一种基于扩充训练数据集的类别不平衡问题分类方法，包括以下步骤：

获取类别不平衡的真实数据集，并筛选出其中的少数类样本；

在少数类样本中，区分出靠近决策边界的样本和远离决策边界的样本；

将两种少数类样本作为输入，训练一个生成式对抗网络，得到一系列与真实数据集分布相似的人工样本；

根据设置的采样率，将一定数量的人工样本加入到真实数据集中，得到混合数据集；

将混合数据集作为输入，使用分类器进行分类任务。

进一步地，所述的真实数据集样本中，多数类样本的数量多于少数类样本的数量，当针对二分类问题时，多数类样本与少数类样本的数量比在100:1～2:1之间。

进一步地，所述的区分出靠近决策边界的样本和远离决策边界的样本中区分靠近决策边界样本的方法如下：对于某个少数类样本，找出其在全部样本中的K个最近邻，K>2，如果最近邻中属于多数类的样本数量不少于K/2，则标记该少数类样本为靠近决策边界的样本；反之则标记该少数类样本为远离决策边界的样本，重复此步骤直到所有少数类样本都已标记。

进一步地，所述的生成式对抗网络为改进的CycleGAN网络，其定义如下：该网络模型中的参考域为少数类样本中靠近决策边界的部分，目标域为远离决策边界的部分，每轮训练中随机选择同样数量的两种样本作为本次训练的数据集，该网络模型包括两个生成器G和F，其中生成器G是从参考域到目标域的映射，生成器F是目标域到参考域的映射；该网络模型还包括两个判别器Dt和Dr，分别对由生成器G和F生成的人工样本做出判别，给出数值反映判别器认为该样本属于真实或人工样本的可能性；该网络模型还包括一个周期一致性损失函数，对真实数据和经生成器生成的相应人工数据进行约束。

进一步地，参考域R中的样本经过生成器G，得到人工样本G(R)，将G(R)与目标域T中的对应样本输入到判别器Dt，并计算得到本轮训练的一部分损失，计算公式如下：

目标域T中的样本经过生成器F，得到人工样本F(T)，将F(T)与参考域R中的对应样本输入到判别器Dr，并计算得到本轮训练的另一部分损失，计算公式如下：

G(R)经过生成器F，得到人工样本F(G(R))，F(T)经过生成器G，得到人工样本G(F(T))，通过计算F(G(R))与参考域R，G(F(T))与目标域T的差异，可以得到周期一致性损失，计算公式如下：

以上三部分损失函数加和得到本轮训练的整体损失函数，即

L(G,F,D_r,D_t)＝L_GAN(G,D_t,R,T)+L_GAN(F,D_r,R,T)+λL_cyc(G,F),λ>0

其中，G、F的目标是最小化以上值，Dr、Dt的目标是最大化以上值，在每一轮训练的最后，运用随机梯度下降法，更新网络中各个参数的权重。

进一步地，所述的改进的CycleGAN网络中生成器和判别器的训练等步长交替进行，即一次训练中，先更新一次生成器，再更新一次判别器，更新直到整体损失函数收敛或达到指定训练次数后停止。

进一步地，根据真实数据集的类别不平衡比率IR得到采样率(IR-1)，从人工样本中随机抽取(IR-1)*N+个并标注为少数类别，其中N+为真实少数类样本的数量，加入到真实数据集中并打乱，得到扩充后的混合数据集，其中，类别不平衡比率IR表示不同类别样本数量之间的失衡严重程度，其定义为多数类样本数量与少数类样本数量的比值。

本发明相对于现有技术具有如下的优点及效果：

本发明在原始数据集样本类别不平衡的情况下，针对少数类样本，利用边界信息，结合生成式对抗网络获得了额外的人工数据，以此扩充并平衡了原始数据集。通过此方法得到的人工样本由于在分布特征上和原始样本具有相似性，一定程度上可以扩充样本而不会带来过大的分布偏差，因此有效提高了类别不平衡数据的分类准确率。并且由于本发明只对原始数据集进行了扩充，因而对于各种分类器都具有良好的提升效果，具有自适应性。

附图说明

图1是本发明中一种基于扩充训练数据集的类别不平衡问题分类方法的流程示意图；

图2是本发明中改进的CycleGAN网络结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

类别不平衡问题在获取数据集的过程中是一个常见的问题，具体表现为：数据集中某一类样本的数量和其余样本的数量相差甚远。例如在***诈骗的数据集中，绝大多数用户的行为都是正常的，只有极少一部分用户的行为会被判定诈骗。如果不去对数据集或算法进行相应改进，直接进行分类训练，其结果是少数类样本数据得不到充分的重视，严重情况下甚至会被分类器当作噪声而忽略，从而导致分类结果的严重偏差。

在这种背景下，如何从类别不平衡数据中获得我们理想中的结果，就成为需要深入探究的问题。当下对于不平衡问题主要有两大类优化方法：(1)改变数据集的原始分布，对多数类样本进行降采样，或对少数类样本进行过采样，或二者结合，使得数据集不同类别之间的数量尽量均衡；(2)优化分类器，如在训练时提升分类器对少数类样本的权重，使其得到充分重视。许多研究和实验都表明两种方法对分类结果的准确性皆有良好提升。

本实施例从改变数据集原始分布的想法着手，利用原始数据集中的边界信息和生成式对抗网络的优势，制造人工数据扩充数据集，提高分类器准确率。

参加图1,所述分类方法包括：

步骤S100：获取训练数据集S；

在本步骤中，类别不平衡比率(Imbalanced Rate,IR)表示了不同类别样本数量之间的失衡严重程度，其定义为多数类样本数量与少数类样本数量的比值。以二分类问题为例，训练数据集S的类别不平衡比率应在100：1～2：1之间。

步骤S200：从S中筛选出少数类样本S+；

在本步骤中，如果S+中含有不同的类别，则应将各个类别的样本提取出来，单独进行步骤S300，S400和S500；

步骤S300：在S+中区分出靠近决策边界的样本S1和远离决策边界的样本S2。具体做法为：对于某个少数类样本，找出其在全部样本中的K个最近邻(K>2)。如果最近邻中属于多数类的样本数量不少于K/2，则标记该少数类样本为靠近决策边界的样本，简记为S1；反之则标记该少数类样本为远离决策边界的样本，简记为S2。重复此步骤直到所有少数类样本都已标记。

步骤S400：以靠近决策边界的样本S1、远离决策边界的样本S2为一对输入，训练一个CycleGAN，得到人工样本S*；

CycleGAN(Cycle-Consistent Adversarial Networks，周期一致性生成式对抗网络)是在GAN(Generative Adversarial Networks，生成式对抗网络)基础上的一种衍生模型。

GAN是Ian Goodfellow等人在2014年提出的一种非监督式学习方法，通过让两个神经网络相互博弈的方式进行学习。GAN由一个生成网络与一个判别网络组成。生成网络从潜在空间中随机采样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

CycleGAN是Jun-Yan Zhu等人于2017年提出的基于GAN的网络模型。CycleGAN中包含两组GAN，其中两个生成器分别是从参考域到目标域的映射，和从目标域到参考域的映射。CycleGAN的核心思想是，如果生成器从参考域映射到目标域的结果足够好，那么将这个结果用于反向映射，即从目标域到参考域的映射，得到的结果应当尽量与原始参考域一致。CycleGAN在风格迁移学***衡问题分类方法，对原有CycleGAN进行改进，构建新的适用于同种类样本数据扩充的网络模型。

基于CycleGAN的改进算法网络模型图见图2。

利用边界信息，结合CycleGAN生成人工样本，具体包含以下步骤：

每轮训练中，从靠近决策边界的样本S1、远离决策边界的样本S2中分别抽取同样数量的样本，分别作为参考域和目标域。

参考域R中的样本经过生成器G，得到人工样本G(R)。将G(R)与目标域T中的对应样本输入到判别器Dt，并计算得到本轮训练的一部分损失。计算公式如下：

目标域T中的样本经过生成器F，得到人工样本F(T)。将F(T)与参考域R中的对应样本输入到判别器Dr，并计算得到本轮训练的另一部分损失。计算公式如下：

G(R)经过生成器F，得到人工样本F(G(R))。类似地F(T)经过生成器G，得到人工样本G(F(T))。通过计算F(G(R))与参考域R，G(F(T))与目标域T的差异，可以得到周期一致性损失。计算公式如下：

以上三部分损失函数加和得到本轮训练的整体损失函数，即

L(G,F,D_r,D_t)＝L_GAN(G,D_t,R,T)+L_GAN(F,D_r,R,T)+λL_cyc(G,F),λ>0

其中，G，F的目标是最小化以上值，Dr，Dt的目标是最大化以上值。在每一轮训练的最后，运用随机梯度下降法，更新网络中各个参数的权重。

当L(G,F,Dr,Dt)的值收敛，或者训练的次数已经达到预先设计的阈值(>500次)时，停止整个网络的训练，此时获得训练完成的生成器G。

在S+中随机抽取一对样本，分别作为参考集和训练集，输入进生成器G，得到人工样本。反复多次进行此步骤，获得一定数量的人工样本S*。

步骤S500：根据真实数据集的不平衡比率IR得到采样率(IR-1)，从人工样本中随机抽取(IR-1)*N+个并标注为少数类别，其中N+为真实少数类样本的数量，加入到真实数据集中并打乱，得到扩充后的混合数据集S’。

步骤S600：使用混合数据集S’替代原始的真实数据集作为输入，训练分类器，得到最终的分类准确率。

本发明的有益之处在于，有效改善了不平衡样本数据集在分类任务训练时带来的结果偏差。传统的数据集扩充方法大多是基于随机重复采样的衍生，具有实现简单，时间复杂度低，但效果不佳的特点。本发明结合了深度学习领域中生成式对抗网络的优点，针对现有模型进行了改进，使得方法可以更好地拟合原始数据的分布特征，因此用扩充后的数据集进行分类任务训练会具有准确率上的提升。同时，本发明只针对数据集进行扩充，不需对分类算法本身做修改，因此在不同的分类器上都可直接使用，具有自适应性。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于扩充训练数据集的类别不平衡问题分类方法，其特征在于，包括以下步骤：

将混合数据集作为输入，使用分类器进行分类任务。

2.根据权利要求1所述的一种基于扩充训练数据集的类别不平衡问题分类方法，其特征在于，所述的真实数据集样本中，多数类样本的数量多于少数类样本的数量，当针对二分类问题时，多数类样本与少数类样本的数量比在100:1～2:1之间。

3.根据权利要求1所述的一种基于扩充训练数据集的类别不平衡问题分类方法，其特征在于，所述的区分出靠近决策边界的样本和远离决策边界的样本中区分靠近决策边界样本的方法如下：对于某个少数类样本，找出其在全部样本中的K个最近邻，K>2，如果最近邻中属于多数类的样本数量不少于K/2，则标记该少数类样本为靠近决策边界的样本；反之则标记该少数类样本为远离决策边界的样本，重复此步骤直到所有少数类样本都已标记。

4.根据权利要求1所述的一种基于扩充训练数据集的类别不平衡问题分类方法，其特征在于，所述的生成式对抗网络为改进的CycleGAN网络，其定义如下：该网络模型中的参考域为少数类样本中靠近决策边界的部分，目标域为远离决策边界的部分，每轮训练中随机选择同样数量的两种样本作为本次训练的数据集，该网络模型包括两个生成器G和F，其中生成器G是从参考域到目标域的映射，生成器F是目标域到参考域的映射；该网络模型还包括两个判别器Dt和Dr，分别对由生成器G和F生成的人工样本做出判别，给出数值反映判别器认为该样本属于真实或人工样本的可能性；该网络模型还包括一个周期一致性损失函数，对真实数据和经生成器生成的相应人工数据进行约束。

5.根据权利要求4所述的一种基于扩充训练数据集的类别不平衡问题分类方法，其特征在于，

参考域R中的样本经过生成器G，得到人工样本G(R)，将G(R)与目标域T中的对应样本输入到判别器Dt，并计算得到本轮训练的一部分损失，计算公式如下：

L_GAN(G,D_t,R,T)＝E_t～pdata(t)[logD_t(t)]+E_r～pdata(r)[log(1-D_t(G(r)))]；

L_GAN(F,D_r,R,T)＝E_r～pdata(r)[logD_r(r)]+E_t～pdata(t)[log(1-D_r(F(t)))]；

L_cyc(G,F)＝E_r～pdata(r)[‖F(G(r))-r‖₁]+E_t～pdata(t)[‖G(F(t))-t‖₁]

以上三部分损失函数加和得到本轮训练的整体损失函数，即

L(G,F,D_r,D_t)＝L_GAN(G,D_t,R,T)+L_GAN(F,D_r,R,T)+λL_cyc(G,F),λ>0

6.根据权利要求5所述的一种基于扩充训练数据集的类别不平衡问题分类方法，其特征在于，

所述的改进的CycleGAN网络中生成器和判别器的训练等步长交替进行，即一次训练中，先更新一次生成器，再更新一次判别器，更新直到整体损失函数收敛或达到指定训练次数后停止。

7.根据权利要求1所述的一种基于扩充训练数据集的类别不平衡问题分类方法，其特征在于，

根据真实数据集的类别不平衡比率IR得到采样率(IR-1)，从人工样本中随机抽取(IR-1)*N+个并标注为少数类别，其中N+为真实少数类样本的数量，加入到真实数据集中并打乱，得到扩充后的混合数据集，其中，类别不平衡比率IR表示不同类别样本数量之间的失衡严重程度，其定义为多数类样本数量与少数类样本数量的比值。