CN114943300A - 基于循环一致生成对抗网络的不平衡数据分类方法 - Google Patents

基于循环一致生成对抗网络的不平衡数据分类方法 Download PDF

Info

Publication number
CN114943300A
CN114943300A CN202210625335.7A CN202210625335A CN114943300A CN 114943300 A CN114943300 A CN 114943300A CN 202210625335 A CN202210625335 A CN 202210625335A CN 114943300 A CN114943300 A CN 114943300A
Authority
CN
China
Prior art keywords
data
data set
classification
target
twin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210625335.7A
Other languages
English (en)
Inventor
王利娟
杨绪前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210625335.7A priority Critical patent/CN114943300A/zh
Publication of CN114943300A publication Critical patent/CN114943300A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于循环一致生成对抗网络的不平衡数据分类方法,主要解决现有技术中分类模型对噪声数据敏感、数据层方法合成样本存在类间重叠以及合成样本特征多样性匮乏的问题。其实现步骤为:1)对原始数据集进行预处理;2)根据预处理后数据构建孪生数据对集;3)设计内部有两组判别器和生成器的循环一致生成对抗网络;4)用孪生数据对集中的数据对网络模型进行迭代训练,合成目标少数类样本数据;5)将目标少数类样本数据增强到原始数据集得到平衡数据集,并用该数据集训练基础分类器,完成分类。本发明能够能够在一定程度上降低分类模型对噪声数据的敏感度,有效提高分类结果准确率、改善分类性能,可用于网络异常检测。

Description

基于循环一致生成对抗网络的不平衡数据分类方法
技术领域
本发明属于数据处理技术领域,进一步涉及不平衡数据分类,具体为一种基于循环一致生成对抗网络的不平衡数据分类方法,可用于网络异常检测。
背景技术
数据不平衡问题广泛存在于各种数据驱动的工业场景中。为了从大量数据中提取有价值的信息,人们使用最广泛的数据处理技术是分类方法。不平衡数据分类的目的是通过对不平衡数据进行一定的处理,从而提高分类器的性能。不平衡数据主要存在两种情况,即类内不平衡和类间不平衡。类内不平衡指的是同一类别样本在特征空间上的分布不均衡,而类间不平衡指的是不同类别样本之间在数量上的不均衡。数量较多的类别被称为多数类,数量较少的类别被称为少数类。
目前,不平衡数据分类方法主要分为两个层面,即数据层面和算法层面。数据层面方法在数据预处理阶段实施,直接对不平衡数据进行处理。这种类型的方法通常对多数类进行欠采样以去除冗余,对少数类样本过采样以增加样本数量。之后,使用经过平衡处理的数据训练分类器,优化目标函数获得分类器的模型参数。不同的分类器(如深度神经网络、逻辑回归)使用不同的目标函数。算法层面方法对传统分类器进行改进设计,以减轻分类模型拟合时对多数类样本的偏重,同时强化其对少数类样本特征的学***衡数据分类。经典不平衡数据分类技术包括合成少数过采样算法SMOTE和自适应提升算法AdaBoost。在不平衡数据分类过程中,首先对用于训练分类器的数据集进行一定的不平衡处理,然后基于平衡处理后的数据集训练分类模型。具体来说,不平衡数据分类主要执行以下三个步骤:1)对训练数据进行单热编码、归一化等预处理操作;2)使用合适的策略对存在类间不平衡的训练数据进行平衡处理;3)使用平衡处理后的数据对分类器进行迭代训练。
现有的不平衡数据分类方法大多基于数据重用,并没有真正实现不平衡样本数据特征空间的扩充,导致分类器对少数类拟合困难。对于不平衡数据分类,亟待出现不仅能够解决常规分类问题,还可以应对不平衡数据给分类任务带来的例如模型预测准确率欠佳、分类边界不稳定、合成样本特征多样性匮乏等新问题的数据分类技术。
发明内容
本发明目的在于针对上述现有技术的不足,提出一种基于循环一致生成对抗网络的不平衡数据分类方法,用于解决现有不平衡数据分类技术中分类模型对噪声数据敏感、数据层方法合成样本存在类间重叠以及合成样本特征多样性匮乏的问题。该方法通过循环一致生成对抗网络合成少数类样本,对少数类样本特征的拆分重组在一定程度上降低了合成样本与多数类样本类间重叠的可能性,增加了少数类样本组合特征的多样性,然后将合成样本增强到原始数据集以实现训练集的平衡处理,从而提高分类器对不平衡数据的分类性能。本发明能够在一定程度上降低分类模型对噪声数据的敏感度,有效提高分类结果准确率、改善分类性能。
实现本发明方法的思路如下:设计由两个生成对抗网络构成,内部有两组判别器和生成器的循环一致生成对抗网络,首先将不同的少数类样本组合成孪生数据对的结构,作为循环一致生成对抗网络的输入数据;接着通过优化原始数据和合成数据之间的对抗损失,以及原始数据和基于合成的恢复数据之间的循环一致损失,来保证整体循环一致生成对抗网络的最优化,从而合成逼真的少数类样本,使得合成的少数类样本具有孪生数据对中不同类别样本的组合特征;然后将合成数据追加到原始数据集中作为分类器的训练集,经过迭代优化分类器,最终实现对不平衡数据的分类。
本发明实现上述目的具体步骤如下:
(1)对原始数据集进行预处理,得到预处理后数据集:
(2)构建孪生数据对集合:
(2.1)计算预处理后数据集中所有类的平均数量,将该平均数量所在十进制单位作为数量单位,判定少于该数量单位的类别为目标少数类;
(2.2)以步骤(2.1)得到的数量单位作为孪生数据对的目标构建数量,从目标少数类中随机选择数据构造孪生数据对;
(2.3)将所有所有孪生数据对以集合形式输出;
(3)建立循环一致生成对抗网络模型:
(3.1)构建结构相同的两个生成器,即第一生成器GXY和第二生成器GYX,然后构建这两个生成器的共同优化目标,即循环一致损失函数
Figure BDA00036770290300000313
Figure BDA0003677029030000031
其中,x表示单个训练数据,Pdata(x)表示数据在训练集上的概率分布,x~Pdata(x)表示数据x服从概率分布Pdata(x),
Figure BDA0003677029030000032
表示对服从分布Pdata(x)的每个训练数据x计算函数期望,y表示随机噪声数据,Pdata(y)表示噪声数据分布,
Figure BDA0003677029030000033
表示对每个随机噪声数据y计算函数期望,GXY(x)=Fake_Y表示生成器基于数据y合成的假数据,GYX(y)=Fake_X表示生成器基于数据x合成的假数据;
(3.2)构建结构相同的两个判别器,即第一判别器DX和第二判别器DY,然后构建这两个判别器的优化目标,即第一对抗损失函数
Figure BDA0003677029030000034
和第二对抗损失函数
Figure BDA0003677029030000035
Figure BDA0003677029030000036
Figure BDA0003677029030000037
(3.3)根据循环一致损失函数
Figure BDA0003677029030000038
第一对抗损失函数
Figure BDA0003677029030000039
和第二对抗损失函数
Figure BDA00036770290300000310
构建全局优化目标,即循环一致生成对抗网络模型:
Figure BDA00036770290300000311
其中,λ为控制循环一致损失函数
Figure BDA00036770290300000312
的相对重要性参数;
(4)合成目标少数类样本数据:
设定最大迭代次数为E、停止迭代阈值为ε,用孪生数据对集合中的数据迭代训练步骤(3)中构建的网络模型,直到当前迭代的函数值小于阈值ε或达到最大迭代次数E时,输出合成的假数据GXY(x)=Fake_Y,即合成的目标少数类样本数据;
(5)将合成的目标少数类样本数据补入预处理后数据集中,得到平衡训练数据集,并使用平衡数据集训练基础分类器,完成对不平衡数据的分类。
本发明与现有技术相比具有以下优点:
第一、由于本发明方法中考虑到噪声数据对分类性能和预测准确率的影响,采用将少数类样本和噪声数据一起进行合成,来解决算法层分类模型对噪声数据敏感的问题,从而有效提高了不平衡数据分类的准确性。
第二、相比现有方法中基于原始数据的插值操作来合成少数类样本的方式,本发明利用循环一致生成对抗网络合成少数类样本,生成的样本基于原始少数类样本特征的拆分重组,能够在一定程度避免了合成的少数类样本与多数类样本在特征空间上的重叠,解决现有数据层分类方法合成的样本在特征空间上存在数据类间重叠,导致分类边界不稳定的问题,从而提高不平衡数据的分类性能。
第三、本发明利用孪生数据对和循环一致生成对抗网络的组合设计来解决现有数据层分类方法合成的数据特征多样性不足的问题,从而提高不平衡数据的分类性能。现有数据层技术通过插值方式合成数据,合成的数据在特征空间上的位置通常密集存在于原始少数类样本附近,合成样本的特征多样性匮乏,不利于分类模型对少数类样本特征的拟合;本发明通过对少数类样本构建孪生数据对,保证循环一致生成对抗网络可学***衡数据的分类表现。
附图说明:
图1为本发明方法的实现流程图;
图2为本发明方法中网络的整体结构图示意图;
图3为本发明方法中循环一致生成对抗网络的生成器结构图;
图4为本发明方法中循环一致生成对抗网络的判别器结构图;
图5为本发明方法中循环一致生成对抗网络的生成器和判别器的对抗结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合具体实例及附图对本发明做进一步的描述。
参照附图1,本发明提出的基于循环一致生成对抗网络的不平衡数据分类方法的算法结构主要包括孪生数据对、循环一致生成对抗网络和基础分类器三个部分,具体如下:
孪生数据对:孪生数据对基于少数类样本配对而成,根据配对样本的类别是否相同,分为类别相同的正样本对和类别不同的负样本对。例如,对于少数类X和Y,对应的正样本对为(X,X)和(Y,Y),负样本对为(X,Y)和(Y,X)。
循环一致生成对抗网络:循环一致生成对抗网络包括四个子实体,即两个生成器GXY、GYX和两个判别器DX、DY。循环一致生成对抗网络基于孪生数据对合成目标少数类样本,该网络结构通过多次迭代优化生成器GXY、GYX和判别器DX、DY,最终输出同分布的Fake_X或Fake_Y作为合成的目标少数类样本。GXY和GYX是结构相同,但功能不同的两个生成器,GXY基于X域数据合成Y域数据,GYX基于Y域数据合成X域数据。DX和DY是结构相同,但功能不同的两个判别器;DX判别的是数据X和Fake_X,DY判别的是数据Y和Fake_Y;判别器DX的作用是基于数据X和假数据Fake_X计算对抗损失,来对自身进行优化,并对GYX进行优化反馈;判别器DY的作用是基于数据Y和假数据Fake_Y计算对抗损失,来对自身进行优化,并对GXY进行优化反馈。
基础分类器:基础分类器根据需要可自由选择,例如逻辑回归(LR)、K近邻算法(KNN)、决策树(DT)、支持向量机(SVM)、随机森林(RF)、高斯朴素贝叶斯(GaussianNB)、深度神经网络(DNN)等。循环一致生成对抗网络合成的少数类样本将被增强到原始数据集中,以实现数据的平衡处理,平衡处理后的数据作为基础分类器的训练集,经过迭代优化,最终实现对不平衡数据的分类。
参照图1-5,本发明提出的基于循环一致生成对抗网络的不平衡数据分类方法,包括如下步骤:
步骤1、对原始数据集进行预处理:
(1.1)对数据集进行缺失值、空值和去冗余处理;
(1.2)对步骤(1.1)处理后所得数据集中的状态信息项进行单热编码;
(1.3)对步骤(1.2)所得数据集中的数值项进行归一化处理;
(1.4)根据类别标签,将归一化处理之后得到的数据集拆分为多个子集,完成对原始数据集的预处理,得到预处理后数据集。
步骤2、构建孪生数据对:
(2.1)计算预处理后数据集中所有类的平均数量,并将该平均数量所在十进制单位作为少数类判定的数量单位,少于该数量单位的类别将被判定为目标少数类;
(2.2)以步骤(2.1)得到的数量单位作为孪生数据对的目标构建数量,从目标少数类中随机选择数据分别构造正样本对和负样本对,即孪生数据对(X,X)、(Y,Y)、(X,Y)和(Y,X);
(2.3)将步骤(2.2)中构造的所有所有孪生数据对以集合形式输出。
步骤3、构造循环一致生成对抗网络,并使用孪生数据对训练该网络以合成目标少数类样本数据。
(3.1)参照图3,构建结构相同的两个生成器,即第一生成器GXY和第二生成器GYX,然后构建这两个生成器的共同优化目标,即循环一致损失函数
Figure BDA0003677029030000061
两个生成器的二维卷积层采用的激活函数均为带泄露修正线性单元LeakyReLU,梯度优化方式为自适应梯度下降Adam;循环一致损失函数
Figure BDA0003677029030000062
表达式如下:
Figure BDA0003677029030000063
其中,x表示单个训练数据,Pdata(x)表示数据在训练集上的概率分布,x~Pdata(x)表示数据x服从概率分布Pdata(x),
Figure BDA0003677029030000064
表示对服从分布Pdata(x)的所有训练数据x计算函数期望,y表示随机噪声数据,Pdata(y)表示噪声数据分布,
Figure BDA0003677029030000065
表示对所有随机噪声数据y计算函数期望,GXY(x)=Fake_Y表示生成器基于数据y合成的假数据,GYX(y)=Fake_X表示生成器基于数据x合成的假数据;
(3.2)参照图4,构建结构相同的两个判别器,即第一判别器DX和第二判别器DY,然后构建这两个判别器的优化目标,该优化目标为两个组合优化目标,具体如下:
将第一生成器GXY和第二判别器DY进行组合,构建第一组合优化目标,即第一对抗损失函数
Figure BDA0003677029030000066
将第二生成器GYX和第一判别器DX进行组合,构建第二组合优化目标,即第二对抗损失函数
Figure BDA0003677029030000067
两个判别器的二维卷积层的激活函数均为带泄露修正线性单元LeakyReLU,梯度优化方式为自适应梯度下降Adam;对抗损失函数
Figure BDA0003677029030000071
Figure BDA0003677029030000072
的具体表达式如下:
Figure BDA0003677029030000073
Figure BDA0003677029030000074
(3.3)参照图2和图5,根据循环一致损失函数
Figure BDA0003677029030000075
第一对抗损失函数
Figure BDA0003677029030000076
和第二对抗损失函数
Figure BDA0003677029030000077
构建全局优化目标,即循环一致生成对抗网络模型:
Figure BDA0003677029030000078
其中,λ为控制循环一致损失函数
Figure BDA0003677029030000079
的相对重要性参数,全局优化方式为随机梯度下降SGD;
在循环一致生成对抗网络中,生成器GXY的作用是基于数据X生成假数据Fake_Y,基于假数据Fake_X生成数据Y的恢复数据Y';反之,GYX的作用是基于数据Y生成假数据Fake_X,和基于假数据Fake_Y生成数据X的恢复数据X';并通过分别计算数据X和恢复数据X'的循环一致损失损失来同时对GXY和GYX进行约束优化。判别器DX的作用基于数据X和假数据Fake_X计算对抗损失,来对自身进行优化,DY同理,最终基于循环一致损失和对抗损失计算全局优化损失函数。
(3.4)用孪生数据对集合训练步骤(3.4)构建的网络模型,过程如下:设定最大迭代次数为E、停止迭代阈值为ε,开始迭代训练,直到当前迭代的函数值小于阈值ε或达到最大迭代次数E时,输出当前迭代下生成器基于数据y合成的假数据GXY(x)=Fake_Y,即合成的目标少数类样本数据;
步骤4、将合成的目标少数类样本数据增强到原始数据集以实现数据平衡处理,并基于平衡处理后的平衡数据集训练基础分类器,具体如下:
(4.1)将步骤(3.4)中合成的数据补入预处理后数据集中,得到平衡训练数据集;
(4.2)使用平衡数据集训练基础分类器,完成对不平衡数据的分类。
下面结合实验示例,对本发明的效果作进一步的说明。
不平衡数据来源于异常检测中常用的两个数据集NSL-KDD和UNSW-NB15。NSL-KDD数据集的数据分布情况如表1所示,分别有一种正常数据(Normal)和四种异常类数据,即拒绝服务攻击(DoS)、探测攻击(Probe)、远程到本地攻击(R2L)和本地提权攻击(U2R)。UNSW-NB15数据集的数据分布情况如表2所示,分别有一种正常数据(Normal)和九种异常类数据,即模糊测试(Fuzzers)、Analysis(端口扫描)、Backdoors(后门攻击)、DoS(拒绝服务攻击)、Exploits(漏洞利用)、Generic(通用攻击)、Reconaissance(侦察攻击)、套壳攻击(Shellcode)和蠕虫攻击(Worms)。
表1 NSL-KDD数据集的数据分布情况
类别 Normal DoS Probe R2L U2R
样本数量 67343 11656 45927 995 52
表2 UNSW-NB15数据集的数据分布情况
类别 样本数量
Normal 2218761
Fuzzers 24246
Analysis 2677
Backdoors 2329
DoS 16353
Exploits 44525
Generic 215481
Reconnaissance 13987
Shellcode 1511
Worms 174
本实验采用TensorFlow框架,基于Python语言进行编程试验,详细过程如下:
1)对原始数据集进行预处理:原始的NSL-KDD和UNSW-NB数据集中均存在一些缺失值、空值和冗余项,为了保证不同数据集的通用性,对其中的状态信息项进行编码处理,对其中的数值项进行归一化处理;为了对需要进行数据合成的少数类进行筛选,按照类别标签进行子集拆分;
2)选择合适的少数类样本构建孪生数据对:根据表1和表2中不同类别样本的平均数据,确定NSL-KDD和UNSW-NB15数据集的平衡数据单位均为10000,分别选择其中数量少于10000的类别构建少数类样本;NSL-KDD中选择的少数类为U2R和R2L,UNSW-NB15中选择的少数类为Analysis、Backdoors、Shellcode和Worms;从这些少数类中随机选择数据分别构造正负样本对,并以集合形式输出;
3)训练循环一致生成对抗网络以合成目标少数类样本数据:首先根据数据的特征维度完成生成器和判别器网络的构建,然后基于初始化参数进行调参训练,其中,训练循环一致生成对抗网络以合成目标少数类样本数据,步骤如下:
(3.a)根据附图2所示生成器结构和表3所示生成器参数,构建结构相同的生成器GXY和GYX,然后根据附图1构建生成器GXY和GYX的共同优化目标,即循环一致损失函数
Figure BDA0003677029030000091
其中,二维卷积层(Convolution2D)采用的激活函数(activation)均为带泄露修正线性单元(LeakyReLU),批处理标准化层(BatchNormalization)采用默认参数,二维上采样层(UpSampling2D)的尺寸(size)为1,优化器为为自适应梯度下降(Adam);
表3 循环一致生成对抗网络参数设置
Figure BDA0003677029030000092
Figure BDA0003677029030000101
(3.b)根据附图3所示判别器结构和表3所示判别器参数,构建结构相同的判别器DX和DY,判别器通过对抗损失函数
Figure BDA0003677029030000102
进行优化,该函数计算的是目标变量Fake_Y和Y的均方误差(mse),同理,将生成器GYX和判别器DX分别进行组合,构建组合优化目标,即对抗损失函数
Figure BDA0003677029030000103
该函数计算的是目标变量Fake_X和X的均方误差,两个判别器的二维卷积层的激活函数均为带泄露修正线性单元(LeakyReLU),二维上采样层的动量(momentum)为0.8,梯度优化方式为自适应梯度下降(Adam);
(3.c)根据附图1和附图4所示结构将生成器和判别器对抗结构组合,并结合表3所示生成器和判别器的对抗网络结构参数,构建判别器和生成器的全局优化目标
Figure BDA0003677029030000104
该函数计算目标变量的均方误差(mse)和平均绝对误差(mae),全局优化方式为随机梯度下降(SGD);
(3.d)对孪生数据对(X,X)、(Y,Y)、(X,Y)和(Y,X)集合进行批处理,用于训练步骤(3.a)至(3.c)所构造的循环一致生成对抗网络,即对全局损失函数
Figure BDA0003677029030000105
进行E次迭代,直到其值小于阈值ε,输出该迭代阶段的合成数据GXY(x)=Fake_Y,作为所需合成的目标少数类样本;
4)将合成的目标少数类样本数据增强到原始数据集以实现数据平衡处理,步骤如下:
(4.1)将步骤(3.d)中合成的数据增强到步骤(1)中经过预处理的原始数据集NSL-KDD和UNSW-NB15中,得到相对平衡的训练数据集;
(4.2)使用平衡数据集训练基础分类器,最终完成对不平衡数据集NSL-KDD和UNSW-NB15的分类。
本实验采用准确率、精确度、检出率、误报率、F1分数、G-mean值和AUC值作为定量评价标准。
以经典的合成少数过采样方法(SMOTE)作为对照基准,结合八种常用基础分类器进行效果对比,所选用的基础分类器分别是逻辑回归(LR)、支持向量机(SVM)、深度神经网络(DNN)、决策树(DT)、K近邻(KNN)、随机森林(RF)、高斯朴素贝叶斯(GaussianNB)和自适应提升算法(AdaBoost)。实验结果如表4和表5所示,表中的所提方法就是本发明所用方法。
表4 不同方法在NSL-KDD数据集上的分类性能。
Figure BDA0003677029030000111
Figure BDA0003677029030000121
表5 不同方法在UNSW-NB15数据集上的分类性能。
Figure BDA0003677029030000122
Figure BDA0003677029030000131
上述实验数据分析证明了本发明所提方法的正确性与有效性。
本发明未详细说明部分属于本领域技术人员公知常识。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (7)

1.一种基于循环一致生成对抗网络的不平衡数据分类方法,包括如下步骤:
(1)对原始数据集进行预处理,得到预处理后数据集:
(2)构建孪生数据对集合:
(2.1)计算预处理后数据集中所有类的平均数量,将该平均数量所在十进制单位作为数量单位,判定少于该数量单位的类别为目标少数类;
(2.2)以步骤(2.1)得到的数量单位作为孪生数据对的目标构建数量,从目标少数类中随机选择数据构造孪生数据对;
(2.3)将所有所有孪生数据对以集合形式输出;
(3)建立循环一致生成对抗网络模型:
(3.1)构建结构相同的两个生成器,即第一生成器GXY和第二生成器GYX,然后构建这两个生成器的共同优化目标,即循环一致损失函数
Figure FDA0003677029020000011
Figure FDA0003677029020000012
其中,x表示单个训练数据,Pdata(x)表示数据在训练集上的概率分布,x~Pdata(x)表示数据x服从概率分布Pdata(x),
Figure FDA0003677029020000013
表示对服从分布Pdata(x)的每个训练数据x计算函数期望,y表示随机噪声数据,Pdata(y)表示噪声数据分布,
Figure FDA0003677029020000014
表示对每个随机噪声数据y计算函数期望,GXY(x)=Fake_Y表示生成器基于数据y合成的假数据,GYX(y)=Fake_X表示生成器基于数据x合成的假数据;
(3.2)构建结构相同的两个判别器,即第一判别器DX和第二判别器DY,然后构建这两个判别器的优化目标,即第一对抗损失函数
Figure FDA0003677029020000015
和第二对抗损失函数
Figure FDA0003677029020000016
Figure FDA0003677029020000017
Figure FDA0003677029020000018
(3.3)根据循环一致损失函数
Figure FDA0003677029020000021
第一对抗损失函数
Figure FDA0003677029020000022
和第二对抗损失函数
Figure FDA0003677029020000023
构建全局优化目标,即循环一致生成对抗网络模型:
Figure FDA0003677029020000024
其中,λ为控制循环一致损失函数
Figure FDA0003677029020000025
的相对重要性参数;
(4)合成目标少数类样本数据:
设定最大迭代次数为E、停止迭代阈值为ε,用孪生数据对集合中的数据迭代训练步骤(3)中构建的网络模型,直到当前迭代的函数值小于阈值ε或达到最大迭代次数E时,输出合成的假数据GXY(x)=Fake_Y,即合成的目标少数类样本数据;
(5)将合成的目标少数类样本数据补入预处理后数据集中,得到平衡训练数据集,并使用平衡数据集训练基础分类器,完成对不平衡数据的分类。
2.根据权利要求1所述的方法,其特征在于:步骤(1)中对原始数据集进行预处理,包括如下步骤:
(1.1)对数据集进行缺失值、空值和去冗余处理;
(1.2)对步骤(1.1)处理后所得数据集中的状态信息项进行单热编码;
(1.3)对步骤(1.2)所得数据集中的数值项进行归一化处理;
(1.4)根据类别标签,将归一化处理后的数据集拆分为多个子集,得到预处理后数据集。
3.根据权利要求1所述的方法,其特征在于:步骤(2.2)中构造的孪生数据对,是基于少数类样本配对而成,根据配对样本的类别是否相同,分为类别相同的正样本对和类别不同的负样本对。
4.根据权利要求1所述的方法,其特征在于:步骤(3.2)中两个判别器的优化目标,为两个组合优化目标,具体如下:
将第一生成器GXY和第二判别器DY进行组合,构建第一组合优化目标,即第一对抗损失函数
Figure FDA0003677029020000031
将第二生成器GYX和第一判别器DX进行组合,构建第二组合优化目标,即第二对抗损失函数
Figure FDA0003677029020000032
5.根据权利要求1所述的方法,其特征在于:步骤(3.1)中的两个生成器和步骤(3.2)中的两个判别器,其二维卷积层采用的激活函数均为带泄露修正线性单元LeakyReLU,梯度优化方式均为自适应梯度下降Adam。
6.根据权利要求1所述的方法,其特征在于:步骤(3.3)中全局优化,其优化方式采用随机梯度下降SGD。
7.根据权利要求1所述的方法,其特征在于:步骤(5)中的基础分类器根据需要进行选择,可选的分类器至少包括逻辑回归、K近邻算法、决策树、支持向量机、随机森林、高斯朴素贝叶斯和深度神经网络。
CN202210625335.7A 2022-06-02 2022-06-02 基于循环一致生成对抗网络的不平衡数据分类方法 Pending CN114943300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210625335.7A CN114943300A (zh) 2022-06-02 2022-06-02 基于循环一致生成对抗网络的不平衡数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210625335.7A CN114943300A (zh) 2022-06-02 2022-06-02 基于循环一致生成对抗网络的不平衡数据分类方法

Publications (1)

Publication Number Publication Date
CN114943300A true CN114943300A (zh) 2022-08-26

Family

ID=82909925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210625335.7A Pending CN114943300A (zh) 2022-06-02 2022-06-02 基于循环一致生成对抗网络的不平衡数据分类方法

Country Status (1)

Country Link
CN (1) CN114943300A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563690A (zh) * 2023-05-06 2023-08-08 中国民航大学 一种无人机传感器类不平衡数据异常检测方法及检测***
CN117312865A (zh) * 2023-11-30 2023-12-29 山东理工职业学院 基于非线性动态优化的数据分类模型的构建方法及装置
CN117523345A (zh) * 2024-01-08 2024-02-06 武汉理工大学 一种目标检测数据平衡方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563690A (zh) * 2023-05-06 2023-08-08 中国民航大学 一种无人机传感器类不平衡数据异常检测方法及检测***
CN117312865A (zh) * 2023-11-30 2023-12-29 山东理工职业学院 基于非线性动态优化的数据分类模型的构建方法及装置
CN117312865B (zh) * 2023-11-30 2024-02-27 山东理工职业学院 基于非线性动态优化的数据分类模型的构建方法及装置
CN117523345A (zh) * 2024-01-08 2024-02-06 武汉理工大学 一种目标检测数据平衡方法及装置
CN117523345B (zh) * 2024-01-08 2024-04-23 武汉理工大学 一种目标检测数据平衡方法及装置

Similar Documents

Publication Publication Date Title
CN114943300A (zh) 基于循环一致生成对抗网络的不平衡数据分类方法
Zhang et al. Binary differential evolution with self-learning for multi-objective feature selection
Wang et al. AdaBalGAN: An improved generative adversarial network with imbalanced learning for wafer defective pattern recognition
Tian et al. A pattern mining-based evolutionary algorithm for large-scale sparse multiobjective optimization problems
Elkano et al. Enhancing multiclass classification in FARC-HD fuzzy classifier: On the synergy between $ n $-dimensional overlap functions and decomposition strategies
Lee et al. Performance of machine learning algorithms for class-imbalanced process fault detection problems
Xue et al. Multi-objective evolutionary algorithms for filter based feature selection in classification
Nguyen et al. Particle swarm optimisation with genetic operators for feature selection
CN111340493B (zh) 一种多维度分布式异常交易行为检测方法
Rosales-Pérez et al. A hybrid surrogate-based approach for evolutionary multi-objective optimization
Ding et al. RGAN-EL: A GAN and ensemble learning-based hybrid approach for imbalanced data classification
Sheng et al. A differential evolution algorithm with adaptive niching and k-means operation for data clustering
Xie et al. A heterogeneous ensemble learning model based on data distribution for credit card fraud detection
Metiaf et al. Searching with direction awareness: Multi-objective genetic algorithm based on angle quantization and crowding distance MOGA-AQCD
CN115578248B (zh) 一种基于风格引导的泛化增强图像分类算法
Yang et al. Adversarial attacks on brain-inspired hyperdimensional computing-based classifiers
Babaei et al. Data augmentation by autoencoders for unsupervised anomaly detection
Parmar et al. A novel density peak clustering algorithm based on squared residual error
CN111881439A (zh) 一种基于对抗性正则化的识别模型设计方法
Soleymanzadeh et al. A Stable generative adversarial network architecture for network intrusion detection
Wu et al. Application of global optimization methods for feature selection and machine learning
Wang et al. A fuzzy consensus clustering based undersampling approach for class imbalanced learning
Akritidis et al. Conditional Data Synthesis with Deep Generative Models for Imbalanced Dataset Oversampling
Mustafa et al. Distribution based ensemble for class imbalance learning
Tasharrofi et al. DE-GCN: differential evolution as an optimization algorithm for graph convolutional networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination