CN110298450A - 一种基于生成式对抗网络的虚拟样本生成方法 - Google Patents

一种基于生成式对抗网络的虚拟样本生成方法 Download PDF

Info

Publication number
CN110298450A
CN110298450A CN201910424679.XA CN201910424679A CN110298450A CN 110298450 A CN110298450 A CN 110298450A CN 201910424679 A CN201910424679 A CN 201910424679A CN 110298450 A CN110298450 A CN 110298450A
Authority
CN
China
Prior art keywords
sample
data
generator
confrontation network
generation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910424679.XA
Other languages
English (en)
Inventor
卢剑
何良华
李旭升
颜野
朱学华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Peking University Third Hospital Peking University Third Clinical Medical College
Original Assignee
Tongji University
Peking University Third Hospital Peking University Third Clinical Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University, Peking University Third Hospital Peking University Third Clinical Medical College filed Critical Tongji University
Priority to CN201910424679.XA priority Critical patent/CN110298450A/zh
Publication of CN110298450A publication Critical patent/CN110298450A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于生成式对抗网络的虚拟样本生成方法,包括:基于WGAN‑GP改进模型对生成器的输入样本进行SVM分类预训练;根据所述SVM分类得到决策面的位置,并模拟生成位于所述决策面附近的少数类样本;根据生成样本与所述决策面的几何距离,设置生成样本的位置约束,以控制样本生成范围;根据所述位置约束建立PCGAN模型,并进行基于所述PCGAN模型的少数类样本扩充;通过所述PCGAN模型在SVM决策面附近生成符合原始分布的生成样本。本发明能提高生成式对抗网络的稳定性和实用性。

Description

一种基于生成式对抗网络的虚拟样本生成方法
技术领域
本发明涉及深度学习神经网络技术领域,具体涉及一种基于生成式对抗网络的虚拟样本生成方法。
背景技术
由于数据本身性质、获取难易程度以及经济因素等条件导致数据容易出现分布不平衡现象。而样本不平衡会使得分类模型出现决策面偏移的现象,导致无法得到理想的分类结果。以SVM分类器为例,在样本不均衡情况下的分类性能会随着不平衡率升高而下降。为解决样本不平衡问题,目前可以利用生成式对抗网络通过生成器与判别器的博弈,从而生成所需要的与原始样本分布非常近似的非人为干涉样本序列。但原始的GAN存在训练不稳定、在不平衡问题上分类效果不佳等缺点。
发明内容
本发明提供一种基于生成式对抗网络的虚拟样本生成方法,解决现有GAN模型在训练上不稳定和不平衡问题分类效果不好的问题,能提高生成式对抗网络的稳定性和实用性。
为实现以上目的,本发明提供以下技术方案:
一种基于生成式对抗网络的虚拟样本生成方法,包括:
基于WGAN-GP改进模型对生成器的输入样本进行SVM分类预训练;
根据所述SVM分类得到决策面的位置,并模拟生成位于所述决策面附近的少数类样本;
根据生成样本与所述决策面的几何距离,设置生成样本的位置约束,以控制样本生成范围;
根据所述位置约束建立PCGAN模型,并进行基于所述PCGAN模型的少数类样本扩充;
通过所述PCGAN模型在SVM决策面附近生成符合原始分布的生成样本。
优选的,还包括:
对生成样本进行数据筛选;
选择最好的生成数据重新训练SVM分类,进而得到新的决策面。
优选的,所述对生成样本进行数据筛选包括:
使用全员筛选,对生成样本计算其与原始样本及近邻样本的欧式距离及余弦相似性,并判断是否满足设定条件,如果是,则选择扩充样本。
优选的,所述使用全员筛选包括:
对于每个确定一系列第k个最近邻样本xj组成的SNeighbor,并对于每个通过遍历分别计算生成样本与少数类样本及近邻样本的距离;
如果||xi-xj||<||xk-xj||,则进一步计算(xi-xj)和(xk-xj)余弦相似性
如果余弦相似性大于阈值C,则将xi纳入扩充数据集Sexp
其中,xi、xj、xk分别为生成样本、少数类样本、第k个最近邻样本,Smin、Sgen、SNeighbor分别为少数类样本集、生成样本集、近邻样本集。
优选的,所述对生成样本进行数据筛选还包括:
使用基于Danger集的筛选,以筛选位于所述Danger集附近的符合样本分布的生成样本,其中,所述Danger集包括近邻样本集中含有多数类的少数类样本。
优选的,所述使用基于Danger集的筛选,包括:
对于确定一系列最近邻样本集SDanger,然后对每个样本判断最近邻样本集中属于多数类样本的个数,即|Si:m-NNSmaj|,对于满足不等式的xi形成SDanger
对于每个确定最近邻样本组成的数据集为SNeighbor,并对于每个遍历分别计算距离;
如果||xi-xj||<||xk-xj||,则进一步计算(xi-xj)和(xk-xj)余弦相似性;
如果余弦相似性大于阈值C,则将xi纳入扩充数据集Sexp
其中,SDanger为最近邻样本集中含有多数类的少数类样本集合、Si:m-NN为最近邻样本集、Smaj为多数类样本集。
优选的,所述对生成样本进行数据筛选还包括:
通过核方法将样本映射到高维可分空间中,根据生成样本到超平面间的距离,当距离小于所设定的阈值时,将生成样本纳入到扩充样本集中,其中,映射函数使用RBF核。
优选的,所述设置生成样本的位置约束,包括:
设置SmoothLoss的限制条件,所述限制条件为:
其中,x为样本的生成范围,y为smooth分段函数的分界值。
优选的,所述根据所述位置约束建立PCGAN模型,包括:
生成器的损失函数:
判别器的损失函数:
其中,E为期望、c为类别标签、x为原始样本、为生成器生成样本、为x~pdata两者之间的插值取样,ε~U[0,1]、pg为生成样本分布、pdata为样本真实分布、ppenalty的分布、λ为超参数、为梯度,L为限制位置的生成式对抗网络的表达,Lsmooth为生成样本的位置约束函数,LD为判别器的损失函数,LG为生成器的损失函数,D为真实样本的判别函数,G为样本的生成函数,w为决策面的权重向量,b为模型的位移项。
优选的,所述进行基于所述PCGAN模型的少数类样本扩充,包括:
(1)初始化设计的超参数,主要包括梯度惩罚系数λ1=10、决策面约束系数λ2=5、每轮对抗优化中判别器训练次数ncritic=3、每轮对抗优化中生成器器训练次数ngen=1、训练一批的数据个数m=10、Adam优化器超参数α=0.0001,β1=0.9,β2=0.99、初始化判别器参数和生成器参数θ0,然后训练Linear SVM得到其分割面参数(w,b);
(2)对于判别器训练中每批次的每个样本,先从真实样本集采样得到x~pdata以及类别标签c,然后从噪声分布中采样得到z~p(z),并将噪声映射到生成样本空间,即接着计算得到生成样本,其中ε~U[0,1];
(3)判别器损失函数的表达式为然后更新判别器参数,即
(4)重复执行步骤(2)~步骤(3)并且当执行该二重循环结束时停止训练,循环共ncritic×m次;
(5)对于生成器训练中每批次的每个样本,先从噪声分布中采样得到z~p(z),接着计算数据与决策面的几何距离
(6)根据SmoothL1Loss理论计算生成器损失函数,它的表达式为进一步更新生成器参数,即
(7)重复执行步骤(5)~步骤(6)并且当执行该二重循环结束时停止训练,循环共ngen×m次;
(7)重复执行步骤(2)~步骤(7)并且当生成网络的生成数据满足预设的数据要求时停止训练。
本发明提供一种基于生成式对抗网络的虚拟样本生成方法,通过在WGAN-GP模型添加了基于SVM理论的样本与决策面距离限制,从而对生成样本进行位置约束,然后在PCGAN生成样本后进行数据筛选,经过PCGAN模型生成样本及筛选之后,选取最好的生成样本重新训练SVM得到新的决策面。提升了生成式对抗网络模型处理离散型数据的稳定性,在不平衡问题分类上有良好的效果。
附图说明
为了更清楚地说明本发明的具体实施例,下面将对实施例中所需要使用的附图作简单地介绍。
图1是本发明提供的一种基于生成式对抗网络的虚拟样本生成方法的流程图;
图2是本发明实施例中基于对抗式生成网络的少数类样本扩充流程示意图;
图3是本发明实施例中上述技术方案相比于其他方法在cmc、pima数据集上的性能评价结果图;
图4是本发明实施例中上述技术方案相比于其他方法在robot、satlog数据集上的性能评价结果图;
图5是本发明实施例中上述技术方案相比于其他方法在haberman、semeion数据集上的性能评价结果图;
图6是本发明实施例中上述技术方案相比于其他方法在yeast、yeast_2数据集上的性能评价结果图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对当前原始GAN网络存在训练不稳定、在不平衡问题上分类效果不好的缺点,本发明提供一种基于生成式对抗网络的虚拟样本生成方法,通过在WGAN-GP模型添加了基于SVM理论的样本与决策面距离限制,从而对生成样本进行位置约束,然后在PCGAN生成样本后进行数据筛选,经过PCGAN模型生成样本及筛选之后,选取最好的生成样本重新训练SVM得到新的决策面。解决现有GAN模型在训练上不稳定和不平衡问题分类效果不好的问题,能提生成式对抗网络的实用性。
如图1所示,一种基于生成式对抗网络的虚拟样本生成方法,包括:
步骤1:基于WGAN-GP改进模型对生成器的输入样本进行SVM分类预训练;
步骤2:根据所述SVM分类得到决策面的位置,并模拟生成位于所述决策面附近的少数类样本;
步骤3:根据生成样本与所述决策面的几何距离,设置生成样本的位置约束,以控制样本生成范围;
步骤4:根据所述位置约束建立PCGAN模型,并进行基于所述PCGAN模型的少数类样本扩充;
步骤5:通过所述PCGAN模型在SVM决策面附近生成符合原始分布的生成样本。
进一步,该方法还包括:
步骤6:对生成样本进行数据筛选;
步骤7:选择最好的生成数据重新训练SVM分类,进而得到新的决策面。
具体地,在第一方面,基于WGAN-GP的改进PCGAN的建立方法包括如下步骤:
步骤S1:在生成部分预训练SVM,得到决策面的位置。
SVM理论中只有位于决策面附近的点对决策面的变化存在影响,因此本发明的主要目标是通过生成式对抗网络模拟生成位于决策面附近的少数类样本。
步骤S2:在生成器训练过程中,衡量生成样本与决策面的几何距离;
步骤S3:添加了SmoothLoss的限制条件,从而控制样本生成范围;
其中,SmoothLoss限制条件表述如下:
其中,x为样本的生成范围,y为smooth分段函数的分界值。
进一步地,所述的PCGAN的结构,目标表述如下:
其中,生成器的损失函数表述如下:
判别器的损失函数:
其中,E为期望、c为类别标签、x为原始样本、为生成器生成样本、为x~pdata两者之间的插值取样,ε~U[0,1]、pg为生成样本分布、pdata为样本真实分布、ppenalty的分布、λ为超参数、为梯度,L为限制位置的生成式对抗网络的表达,Lsmooth为生成样本的位置约束函数,LD为判别器的损失函数,LG为生成器的损失函数,D为真实样本的判别函数,G为样本的生成函数,w为决策面的权重向量,b为模型的位移项。
在第二方面,提出的三种样本生成后的筛选方法有,方法1:对于生成样本计算其与原始样本及近邻样本的欧式距离及余弦相似性,若满足特定条件,则选择扩充样本。方法2:筛选位于“Danger集”附近的符合样本分布的生成样本。其中,“Danger集”包括近邻样本集中含有多数类的少数类样本。方法3:本发明通过核方法将样本映射到高维可分空间中,根据生成样本到超平面间的距离,当距离小于所设定的阈值时,将生成样本纳入到扩充样本集中。
具体地,所述对生成样本进行数据筛选包括:使用全员筛选,对生成样本计算其与原始样本及近邻样本的欧式距离及余弦相似性,并判断是否满足设定条件,如果是,则选择扩充样本。
进一步,所述使用全员筛选包括:
对于每个确定一系列第k个最近邻样本xj组成的SNeighbor,并对于每个通过遍历分别计算生成样本与少数类样本及近邻样本的距离。如果||xi-xj||<||xk-xj||,则进一步计算(xi-xj)和(xk-xj)余弦相似性如果余弦相似性大于阈值C,则将xi纳入扩充数据集Sexp。其中,xi、xj、xk分别为生成样本、少数类样本、第k个最近邻样本,Smin、Sgen、SNeighbor分别为少数类样本集、生成样本集、近邻样本集。
所述对生成样本进行数据筛选还包括:使用基于Danger集的筛选,以筛选位于所述Danger集附近的符合样本分布的生成样本,其中,所述Danger集包括近邻样本集中含有多数类的少数类样本。
所述使用基于Danger集的筛选,包括:对于确定一系列最近邻样本集SDanger,然后对每个样本判断最近邻样本集中属于多数类样本的个数,即对于满足不等式的xi形成SDanger。对于每个确定最近邻样本组成的数据集为SNeighbor,并对于每个遍历 r分别计算距离。如果||xi-xj||<||xk-xj||,则进一步计算(xi-xj)和(xk-xj)余弦相似性;如果余弦相似性大于阈值C,则将xi纳入扩充数据集Sexp。其中,SDanger为最近邻样本集中含有多数类的少数类样本集合、Si:m-NN为最近邻样本集、Smaj为多数类样本集。
所述对生成样本进行数据筛选还包括:通过核方法将样本映射到高维可分空间中,根据生成样本到超平面间的距离,当距离小于所设定的阈值时,将生成样本纳入到扩充样本集中,其中,映射函数使用RBF核,样本筛选方法以欧氏距离和余弦相似度来衡量生成样本与真实样本之间的相似度。
需要说明的是,上述样本筛选实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
进一步,所述设置生成样本的位置约束,包括:
设置SmoothLoss的限制条件,所述限制条件为:
其中,x为样本的生成范围,y为smooth分段函数的分界值。
所述根据所述位置约束建立PCGAN模型,包括:
生成器的损失函数:
判别器的损失函数:
其中,E为期望、c为类别标签、x为原始样本、为生成器生成样本、为x~pdata两者之间的插值取样,ε~U[0,1]、pg为生成样本分布、pdata为样本真实分布、ppenalty的分布、λ为超参数、为梯度,L为限制位置的生成式对抗网络的表达,Lsmooth为生成样本的位置约束函数,LD为判别器的损失函数,LG为生成器的损失函数,D为真实样本的判别函数,G为样本的生成函数,w为决策面的权重向量,b为模型的位移项。
在一实施例中,基于对抗式生成网络的少数类样本扩充流程可以包括如下步骤:
(1)初始化设计的超参数,主要包括梯度惩罚系数λ1=10、决策面约束系数λ2=5、每轮对抗优化中判别器训练次数ncritic=3、每轮对抗优化中生成器器训练次数ngen=1、训练一批的数据个数m=10、Adam优化器超参数α=0.0001,β1=0.9,β2=0.99、初始化判别器参数和生成器参数θ0,然后训练Linear SVM得到其分割面参数(w,b);
(2)对于判别器训练中每批次的每个样本,先从真实样本集采样得到x~pdata以及类别标签c,然后从噪声分布中采样得到z~p(z),并将噪声映射到生成样本空间,即接着计算得到生成样本,其中ε~U[0,1]。
(3)判别器损失函数的表达式为然后更新判别器参数,即
(4)重复执行步骤(2)~步骤(3)并且当执行该二重循环结束时停止训练。循环共ncritic×m次。
(5)对于生成器训练中每批次的每个样本,先从噪声分布中采样得到z~p(z),接着计算数据与决策面的几何距离
(6)根据SmoothL1Loss理论计算生成器损失函数,它的表达式为进一步更新生成器参数,即
(7)重复执行步骤(5)~步骤(6)并且当执行该二重循环结束时停止训练。循环共ngen×m次。
(7)重复执行步骤(2)~步骤(7)并且当生成网络的生成数据满足预设的数据要求时停止训练。
在一实施例中,对上述样本生成流程进行具体说明。
实施例中目标数据集采用UCI数据库中的部分不平衡数据集,同时按照8:2的比例随机将该目标数据集划分为训练集和测试集,实验过程中每一个数据均是通过10次实验结果取平均数而得到的。其中使用F1-score、G-mean作为评价标准。对比算法包括:传统SVM算法、带有核(RBF)的SVM算法、SMOTE算法及本实施例中提出的技术方案。
参阅附图3,图3示例地示出了本实施例中上述技术方案相比于其他方法在cmc和pima数据集上的性能评价结果。
具体地,在cmc数据集上,本实施例中提出的PCGAN所生成的数据对分割面的平移起到推动作用,让分类效果提升了12.5%(与RBF SVM相比);在pima数据集上,本实施例中提出的PCGAN及筛选方法,是以SVM分割面修正为目标建立的模型,所生成的样本为PCGAN模拟原始样本的分布,而不是简单的聚类后线性插值,对于此类数据的处理表现得更为合理,因此相聚于RBF SVM提升了5.2%。
参阅附图4,图4示例地示出了本实施例中上述技术方案相比于其他方法在robot和stalog数据集上的性能评价结果。
具体地,在robot数据集上,本实施例中提出的PCGAN所生成的数据在此数据集上对于分割面的变化推动较小,结果略有提升,为0.7%;在stalog数据集上,本实施例与RBFSVM分类效果相近,但本方法为组内最佳。
参阅附图5,图5示例地示出了本实施例中上述技术方案相比于其他方法在haberman和semeion数据集上的性能评价结果。
具体地,在haberman数据集上,本实施例中提出的PCGAN能较好的模拟数据分布,使得分类效果有了质的提升,达到16.3%;在semeion数据集上,本实施例表现稳定,与RBFSVM效果相当。
参阅附图6,图6示例地示出了本实施例中上述技术方案相比于其他方法在yeast和yeast_2数据集上的性能评价结果。
具体地,在yeast和yeast_2数据集上,本实施例中提出的PCGAN和筛选方法生成样本过于集中,样本多样性不足,因此提升有限。
通过上述样本生成流程在8个UCI数据集上进行实验来验证PCGAN方法的性能,并发现其在绝大多数的数据集上的F1-score和G-mean表现都很突出,共14/16个指标达到第一,效果优于传统SVM算法、带有核(RBF)的SVM算法和SMOTE算法。
可见,本发明提供一种基于生成式对抗网络的虚拟样本生成方法,通过在WGAN-GP模型添加了基于SVM理论的样本与决策面距离限制,从而对生成样本进行位置约束,然后在PCGAN生成样本后,提出了三种基于欧式距离、余弦相似性的筛选方法。实验表明,所构建的少数类样本扩充流程提升了生成式对抗网络模型处理离散型数据的稳定性,在不平衡问题分类上有良好的效果。
以上依据图示所示的实施例详细说明了本发明的构造、特征及作用效果,以上所述仅为本发明的较佳实施例,但本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

Claims (10)

1.一种基于生成式对抗网络的虚拟样本生成方法,其特征在于,包括:
基于WGAN-GP改进模型对生成器的输入样本进行SVM分类预训练;
根据所述SVM分类得到决策面的位置,并模拟生成位于所述决策面附近的少数类样本;
根据生成样本与所述决策面的几何距离,设置生成样本的位置约束,以控制样本生成范围;
根据所述位置约束建立PCGAN模型,并进行基于所述PCGAN模型的少数类样本扩充;
通过所述PCGAN模型在SVM决策面附近生成符合原始分布的生成样本。
2.根据权利要求1所述的基于生成式对抗网络的虚拟样本生成方法,其特征在于,还包括:
对生成样本进行数据筛选;
选择最好的生成数据重新训练SVM分类,进而得到新的决策面。
3.根据权利要求2所述的基于生成式对抗网络的虚拟样本生成方法,其特征在于,所述对生成样本进行数据筛选包括:
使用全员筛选,对生成样本计算其与原始样本及近邻样本的欧式距离及余弦相似性,并判断是否满足设定条件,如果是,则选择扩充样本。
4.根据权利要求3所述的基于生成式对抗网络的虚拟样本生成方法,其特征在于,所述使用全员筛选包括:
对于每个确定一系列第k个最近邻样本xj组成的SNeighbor,并对于每个通过遍历分别计算生成样本与少数类样本及近邻样本的距离;
如果||xi-xj||<||xk-xj||,则进一步计算(xi-xj)和(xk-xj)余弦相似性
如果余弦相似性大于阈值C,则将xi纳入扩充数据集Sexp
其中,xi、xj、xk分别为生成样本、少数类样本、第k个最近邻样本,Smin、Sgen、SNeighbor分别为少数类样本集、生成样本集、近邻样本集。
5.根据权利要求4所述的基于生成式对抗网络的虚拟样本生成方法,其特征在于,所述对生成样本进行数据筛选还包括:
使用基于Danger集的筛选,以筛选位于所述Danger集附近的符合样本分布的生成样本,其中,所述Danger集包括近邻样本集中含有多数类的少数类样本。
6.根据权利要求5所述的基于生成式对抗网络的虚拟样本生成方法,其特征在于,所述使用基于Danger集的筛选,包括:
对于确定一系列最近邻样本集Si:m-NN,然后对每个样本判断最近邻样本集中属于多数类样本的个数,即对于满足不等式的xi形成SDanger
对于每个确定最近邻样本组成的数据集为SNeighbor,并对于每个遍历分别计算距离;
如果||xi-xj||<||xk-xj||,则进一步计算(xi-xj)和(xk-xj)余弦相似性;
如果余弦相似性大于阈值C,则将xi纳入扩充数据集Sexp
其中,SDanger为最近邻样本集中含有多数类的少数类样本集合、Si:m-NN为最近邻样本集、Smaj为多数类样本集。
7.根据权利要求6所述的基于生成式对抗网络的虚拟样本生成方法,其特征在于,所述对生成样本进行数据筛选还包括:
通过核方法将样本映射到高维可分空间中,根据生成样本到超平面间的距离,当距离小于所设定的阈值时,将生成样本纳入到扩充样本集中,其中,映射函数使用RBF核。
8.根据权利要求1所述的基于生成式对抗网络的虚拟样本生成方法,其特征在于,所述设置生成样本的位置约束,包括:
设置SmoothLoss的限制条件,所述限制条件为:
其中,x为样本的生成范围,y为smooth分段函数的分界值。
9.根据权利要求1所述的基于生成式对抗网络的虚拟样本生成方法,其特征在于,所述根据所述位置约束建立PCGAN模型,包括:
生成器的损失函数:
判别器的损失函数:
其中,E为期望、c为类别标签、x为原始样本、为生成器生成样本、为x~pdata两者之间的插值取样,ε~U[0,1]、pg为生成样本分布、pdata为样本真实分布、ppenalty的分布、λ为超参数、为梯度,L为限制位置的生成式对抗网络的表达,Lsmooth为生成样本的位置约束函数,LD为判别器的损失函数,LG为生成器的损失函数,D为真实样本的判别函数,G为样本的生成函数,w为决策面的权重向量,b为模型的位移项。
10.根据权利要求9所述的基于生成式对抗网络的虚拟样本生成方法,其特征在于,所述进行基于所述PCGAN模型的少数类样本扩充,包括:
(1)初始化设计的超参数,主要包括梯度惩罚系数λ1=10、决策面约束系数λ2=5、每轮对抗优化中判别器训练次数ncritic=3、每轮对抗优化中生成器器训练次数ngen=1、训练一批的数据个数m=10、Adam优化器超参数α=0.0001,β1=0.9,β2=0.99、初始化判别器参数和生成器参数θ0,然后训练Linear SVM得到其分割面参数(w,b);
(2)对于判别器训练中每批次的每个样本,先从真实样本集采样得到x~pdata以及类别标签c,然后从噪声分布中采样得到z~p(z),并将噪声映射到生成样本空间,即接着计算得到生成样本,其中ε~U[0,1];
(3)判别器损失函数的表达式为然后更新判别器参数,即
(4)重复执行步骤(2)~步骤(3)并且当执行该二重循环结束时停止训练,循环共ncritic×m次;
(5)对于生成器训练中每批次的每个样本,先从噪声分布中采样得到z~p(z),接着计算数据与决策面的几何距离
(6)根据SmoothL1Loss理论计算生成器损失函数,它的表达式为进一步更新生成器参数,即θ←Adam(▽θ·LG,θ,α,β12);
(7)重复执行步骤(5)~步骤(6)并且当执行该二重循环结束时停止训练,循环共ngen×m次;
(8)重复执行步骤(2)~步骤(7)并且当生成网络的生成数据满足预设的数据要求时停止训练。
CN201910424679.XA 2019-05-21 2019-05-21 一种基于生成式对抗网络的虚拟样本生成方法 Pending CN110298450A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910424679.XA CN110298450A (zh) 2019-05-21 2019-05-21 一种基于生成式对抗网络的虚拟样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910424679.XA CN110298450A (zh) 2019-05-21 2019-05-21 一种基于生成式对抗网络的虚拟样本生成方法

Publications (1)

Publication Number Publication Date
CN110298450A true CN110298450A (zh) 2019-10-01

Family

ID=68027023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910424679.XA Pending CN110298450A (zh) 2019-05-21 2019-05-21 一种基于生成式对抗网络的虚拟样本生成方法

Country Status (1)

Country Link
CN (1) CN110298450A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046755A (zh) * 2019-11-27 2020-04-21 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和计算机可读存储介质
CN111062310A (zh) * 2019-12-13 2020-04-24 哈尔滨工程大学 一种基于虚拟样本生成的少样本无人机图像识别方法
CN111310791A (zh) * 2020-01-17 2020-06-19 电子科技大学 一种基于小样本数目集的动态渐进式自动目标识别方法
CN112091727A (zh) * 2020-08-12 2020-12-18 上海交通大学 一种基于虚拟样本生成的刀具破损识别方法、装置和终端
CN113095446A (zh) * 2021-06-09 2021-07-09 中南大学 异常行为样本生成方法及***
CN114036356A (zh) * 2021-10-13 2022-02-11 中国科学院信息工程研究所 一种基于对抗生成网络流量增强的不均衡流量分类方法和***
EP4033317A1 (en) 2021-01-26 2022-07-27 Sedapta S.r.l. Method and system for managing a cyber-physical production system with predictive capabilities of anomalous operating conditions
IT202100029405A1 (it) 2021-11-22 2023-05-22 Genera Ip B V Un mezzo di potenziamento del contrasto per metodi e sistemi di diagnostica per immagini

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046755A (zh) * 2019-11-27 2020-04-21 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和计算机可读存储介质
CN111062310A (zh) * 2019-12-13 2020-04-24 哈尔滨工程大学 一种基于虚拟样本生成的少样本无人机图像识别方法
CN111062310B (zh) * 2019-12-13 2022-07-29 哈尔滨工程大学 一种基于虚拟样本生成的少样本无人机图像识别方法
CN111310791A (zh) * 2020-01-17 2020-06-19 电子科技大学 一种基于小样本数目集的动态渐进式自动目标识别方法
CN112091727A (zh) * 2020-08-12 2020-12-18 上海交通大学 一种基于虚拟样本生成的刀具破损识别方法、装置和终端
EP4033317A1 (en) 2021-01-26 2022-07-27 Sedapta S.r.l. Method and system for managing a cyber-physical production system with predictive capabilities of anomalous operating conditions
CN113095446A (zh) * 2021-06-09 2021-07-09 中南大学 异常行为样本生成方法及***
CN114036356A (zh) * 2021-10-13 2022-02-11 中国科学院信息工程研究所 一种基于对抗生成网络流量增强的不均衡流量分类方法和***
IT202100029405A1 (it) 2021-11-22 2023-05-22 Genera Ip B V Un mezzo di potenziamento del contrasto per metodi e sistemi di diagnostica per immagini
WO2023089589A1 (en) 2021-11-22 2023-05-25 Genera Ip B.V A contrast enhancing agent for diagnostic imaging methods and systems

Similar Documents

Publication Publication Date Title
CN110298450A (zh) 一种基于生成式对抗网络的虚拟样本生成方法
CN108665058A (zh) 一种基于分段损失的生成对抗网络方法
CN108564592A (zh) 基于动态多种群集成差分进化算法的图像分割方法
CN108009509A (zh) 车辆目标检测方法
CN109613006A (zh) 一种基于端到端神经网络的织物疵点检测方法
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN109461025A (zh) 一种基于机器学习的电能替代潜在客户预测方法
Obayashi et al. Niching and elitist models for mogas
Yi et al. An improved initialization center algorithm for K-means clustering
CN105005789B (zh) 一种基于视觉词汇的遥感图像地物分类方法
CN108229550A (zh) 一种基于多粒度级联森林网络的云图分类方法
CN104899607B (zh) 一种传统云纹图案的自动分类方法
CN106529574A (zh) 基于稀疏自动编码器和支持向量机的图像分类方法
CN110097060A (zh) 一种面向树干图像的开集识别方法
CN103714577A (zh) 一种适用于带纹理模型的三维模型简化方法
CN110362997A (zh) 一种基于生成对抗网络的恶意url过采样方法
CN109035289A (zh) 基于切比雪夫不等式h阈值的紫色土图像分割提取方法
CN109271427A (zh) 一种基于近邻密度和流形距离的聚类方法
CN109635140A (zh) 一种基于深度学习和密度峰值聚类的图像检索方法
CN107680099A (zh) 一种融合ifoa和f‑isodata的图像分割方法
CN109614520A (zh) 一种面向多模式图匹配的并行加速方法
CN109447321A (zh) 一种基于重采样粒子群优化的结构拓扑优化求解方法
CN109257160A (zh) 一种基于决策树的侧信道模板攻击方法
CN109583519A (zh) 一种基于p-Laplacian图卷积神经网络的半监督分类方法
CN108038292A (zh) 一种基于双代理技术的高效自适应采样方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination