CN108470187A - 一种基于扩充训练数据集的类别不平衡问题分类方法 - Google Patents

一种基于扩充训练数据集的类别不平衡问题分类方法 Download PDF

Info

Publication number
CN108470187A
CN108470187A CN201810161468.7A CN201810161468A CN108470187A CN 108470187 A CN108470187 A CN 108470187A CN 201810161468 A CN201810161468 A CN 201810161468A CN 108470187 A CN108470187 A CN 108470187A
Authority
CN
China
Prior art keywords
sample
class
data set
generator
artificial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810161468.7A
Other languages
English (en)
Inventor
俞彬
王家兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810161468.7A priority Critical patent/CN108470187A/zh
Publication of CN108470187A publication Critical patent/CN108470187A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于扩充训练数据集的类别不平衡问题分类方法,步骤包括:获取分类任务所需的真实数据集;在真实数据集中筛选出少数类样本,并区分出靠近和远离决策边界的样本;将上述样本作为输入,运行一个生成式对抗网络,得到与真实数据相似的人工样本;将一定数量的人工样本加入到真实数据集中,得到混合数据集;将混合数据集作为输入,使用分类器进行分类任务。本发明结合CycleGAN模型与原始数据集中的边界信息,有效地模拟了真实数据的分布特征。本发明对小样本数据进行过采样,提高了分类器的精度,有效改善了类别不平衡问题对分类任务造成的影响。

Description

一种基于扩充训练数据集的类别不平衡问题分类方法
技术领域
本发明涉及数据挖掘中的分类优化技术领域,具体涉及一种基于扩充训练数据集的类别不平衡问题分类方法。
背景技术
随着网络信息化的不断加深,整个互联网的数据总量在不断增长。而如何充分发掘并利用蕴含在数据下的有用信息,则是近年来计算机科学领域的热点问题。对于海量数据集,各种机器学***衡在获取数据集的过程中就是一个常见的问题,具体表现为:数据集中某一类样本的数量和其余样本的数量相差甚远。例如在***诈骗的数据集中,绝大多数用户的行为都是正常的,只有极少一部分用户的行为会被判定诈骗。如果不去对数据集或算法进行相应改进,直接进行分类训练,其结果是少数类样本数据得不到充分的重视,严重情况下甚至会被分类器当作噪声而忽略,从而导致分类结果的严重偏差。
在这种背景下,如何从类别不平衡数据中获得理想中的结果,就成为需要深入探究的问题。当下对于不平衡问题主要有两大类优化方法:(1)改变数据集的原始分布,对多数类样本进行降采样,或对少数类样本进行过采样,或二者结合,使得数据集不同类别之间的数量尽量均衡;(2)优化分类器。如在训练时提升分类器对少数类样本的权重,使其得到充分重视。许多研究和实验都表明两种方法对分类结果的准确性皆有良好提升。
在针对少数类样本的过采样方法中,现有的方法大多是基于随机过采样和SMOTE算法的衍生。这些算法一般都具有较低的时间复杂度,因此在实验中对结果的提升较为有限:基于随机过采样的方法,对部分样本进行了重复采样,虽然增加了少数类样本的数量,但是一定程度上提高了过拟合的风险;基于SMOTE的过采样方法,往往都是在少数类样本内,依据某种规则进行数据扩充,这类方法克服了重复采样的缺点,但由于人工制定的规则往往不能较好模拟原始数据的分布,且不会在所有的数据集上都适用,因此结果准确性的提升有限。因此,如何找到一种泛化性能和自适应性能都好的过采样方法,就成为本领域内亟待解决的技术问题之一。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于扩充训练数据集的类别不平衡问题分类方法,其有着更强的拟合原始数据分布特征的能力,和更强的自适应性,对不同种类的数据集都有良好的过采样性能。
本发明的目的可以通过采取如下技术方案达到:
一种基于扩充训练数据集的类别不平衡问题分类方法,包括以下步骤:
获取类别不平衡的真实数据集,并筛选出其中的少数类样本;
在少数类样本中,区分出靠近决策边界的样本和远离决策边界的样本;
将两种少数类样本作为输入,训练一个生成式对抗网络,得到一系列与真实数据集分布相似的人工样本;
根据设置的采样率,将一定数量的人工样本加入到真实数据集中,得到混合数据集;
将混合数据集作为输入,使用分类器进行分类任务。
进一步地,所述的真实数据集样本中,多数类样本的数量多于少数类样本的数量,当针对二分类问题时,多数类样本与少数类样本的数量比在100:1~2:1之间。
进一步地,所述的区分出靠近决策边界的样本和远离决策边界的样本中区分靠近决策边界样本的方法如下:对于某个少数类样本,找出其在全部样本中的K个最近邻,K>2,如果最近邻中属于多数类的样本数量不少于K/2,则标记该少数类样本为靠近决策边界的样本;反之则标记该少数类样本为远离决策边界的样本,重复此步骤直到所有少数类样本都已标记。
进一步地,所述的生成式对抗网络为改进的CycleGAN网络,其定义如下:该网络模型中的参考域为少数类样本中靠近决策边界的部分,目标域为远离决策边界的部分,每轮训练中随机选择同样数量的两种样本作为本次训练的数据集,该网络模型包括两个生成器G和F,其中生成器G是从参考域到目标域的映射,生成器F是目标域到参考域的映射;该网络模型还包括两个判别器Dt和Dr,分别对由生成器G和F生成的人工样本做出判别,给出数值反映判别器认为该样本属于真实或人工样本的可能性;该网络模型还包括一个周期一致性损失函数,对真实数据和经生成器生成的相应人工数据进行约束。
进一步地,参考域R中的样本经过生成器G,得到人工样本G(R),将G(R)与目标域T中的对应样本输入到判别器Dt,并计算得到本轮训练的一部分损失,计算公式如下:
目标域T中的样本经过生成器F,得到人工样本F(T),将F(T)与参考域R中的对应样本输入到判别器Dr,并计算得到本轮训练的另一部分损失,计算公式如下:
G(R)经过生成器F,得到人工样本F(G(R)),F(T)经过生成器G,得到人工样本G(F(T)),通过计算F(G(R))与参考域R,G(F(T))与目标域T的差异,可以得到周期一致性损失,计算公式如下:
以上三部分损失函数加和得到本轮训练的整体损失函数,即
L(G,F,Dr,Dt)=LGAN(G,Dt,R,T)+LGAN(F,Dr,R,T)+λLcyc(G,F),λ>0
其中,G、F的目标是最小化以上值,Dr、Dt的目标是最大化以上值,在每一轮训练的最后,运用随机梯度下降法,更新网络中各个参数的权重。
进一步地,所述的改进的CycleGAN网络中生成器和判别器的训练等步长交替进行,即一次训练中,先更新一次生成器,再更新一次判别器,更新直到整体损失函数收敛或达到指定训练次数后停止。
进一步地,根据真实数据集的类别不平衡比率IR得到采样率(IR-1),从人工样本中随机抽取(IR-1)*N+个并标注为少数类别,其中N+为真实少数类样本的数量,加入到真实数据集中并打乱,得到扩充后的混合数据集,其中,类别不平衡比率IR表示不同类别样本数量之间的失衡严重程度,其定义为多数类样本数量与少数类样本数量的比值。
本发明相对于现有技术具有如下的优点及效果:
本发明在原始数据集样本类别不平衡的情况下,针对少数类样本,利用边界信息,结合生成式对抗网络获得了额外的人工数据,以此扩充并平衡了原始数据集。通过此方法得到的人工样本由于在分布特征上和原始样本具有相似性,一定程度上可以扩充样本而不会带来过大的分布偏差,因此有效提高了类别不平衡数据的分类准确率。并且由于本发明只对原始数据集进行了扩充,因而对于各种分类器都具有良好的提升效果,具有自适应性。
附图说明
图1是本发明中一种基于扩充训练数据集的类别不平衡问题分类方法的流程示意图;
图2是本发明中改进的CycleGAN网络结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
类别不平衡问题在获取数据集的过程中是一个常见的问题,具体表现为:数据集中某一类样本的数量和其余样本的数量相差甚远。例如在***诈骗的数据集中,绝大多数用户的行为都是正常的,只有极少一部分用户的行为会被判定诈骗。如果不去对数据集或算法进行相应改进,直接进行分类训练,其结果是少数类样本数据得不到充分的重视,严重情况下甚至会被分类器当作噪声而忽略,从而导致分类结果的严重偏差。
在这种背景下,如何从类别不平衡数据中获得我们理想中的结果,就成为需要深入探究的问题。当下对于不平衡问题主要有两大类优化方法:(1)改变数据集的原始分布,对多数类样本进行降采样,或对少数类样本进行过采样,或二者结合,使得数据集不同类别之间的数量尽量均衡;(2)优化分类器,如在训练时提升分类器对少数类样本的权重,使其得到充分重视。许多研究和实验都表明两种方法对分类结果的准确性皆有良好提升。
本实施例从改变数据集原始分布的想法着手,利用原始数据集中的边界信息和生成式对抗网络的优势,制造人工数据扩充数据集,提高分类器准确率。
参加图1,所述分类方法包括:
步骤S100:获取训练数据集S;
在本步骤中,类别不平衡比率(Imbalanced Rate,IR)表示了不同类别样本数量之间的失衡严重程度,其定义为多数类样本数量与少数类样本数量的比值。以二分类问题为例,训练数据集S的类别不平衡比率应在100:1~2:1之间。
步骤S200:从S中筛选出少数类样本S+;
在本步骤中,如果S+中含有不同的类别,则应将各个类别的样本提取出来,单独进行步骤S300,S400和S500;
步骤S300:在S+中区分出靠近决策边界的样本S1和远离决策边界的样本S2。具体做法为:对于某个少数类样本,找出其在全部样本中的K个最近邻(K>2)。如果最近邻中属于多数类的样本数量不少于K/2,则标记该少数类样本为靠近决策边界的样本,简记为S1;反之则标记该少数类样本为远离决策边界的样本,简记为S2。重复此步骤直到所有少数类样本都已标记。
步骤S400:以靠近决策边界的样本S1、远离决策边界的样本S2为一对输入,训练一个CycleGAN,得到人工样本S*;
CycleGAN(Cycle-Consistent Adversarial Networks,周期一致性生成式对抗网络)是在GAN(Generative Adversarial Networks,生成式对抗网络)基础上的一种衍生模型。
GAN是Ian Goodfellow等人在2014年提出的一种非监督式学习方法,通过让两个神经网络相互博弈的方式进行学习。GAN由一个生成网络与一个判别网络组成。生成网络从潜在空间中随机采样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。
CycleGAN是Jun-Yan Zhu等人于2017年提出的基于GAN的网络模型。CycleGAN中包含两组GAN,其中两个生成器分别是从参考域到目标域的映射,和从目标域到参考域的映射。CycleGAN的核心思想是,如果生成器从参考域映射到目标域的结果足够好,那么将这个结果用于反向映射,即从目标域到参考域的映射,得到的结果应当尽量与原始参考域一致。CycleGAN在风格迁移学***衡问题分类方法,对原有CycleGAN进行改进,构建新的适用于同种类样本数据扩充的网络模型。
基于CycleGAN的改进算法网络模型图见图2。
利用边界信息,结合CycleGAN生成人工样本,具体包含以下步骤:
每轮训练中,从靠近决策边界的样本S1、远离决策边界的样本S2中分别抽取同样数量的样本,分别作为参考域和目标域。
参考域R中的样本经过生成器G,得到人工样本G(R)。将G(R)与目标域T中的对应样本输入到判别器Dt,并计算得到本轮训练的一部分损失。计算公式如下:
目标域T中的样本经过生成器F,得到人工样本F(T)。将F(T)与参考域R中的对应样本输入到判别器Dr,并计算得到本轮训练的另一部分损失。计算公式如下:
G(R)经过生成器F,得到人工样本F(G(R))。类似地F(T)经过生成器G,得到人工样本G(F(T))。通过计算F(G(R))与参考域R,G(F(T))与目标域T的差异,可以得到周期一致性损失。计算公式如下:
以上三部分损失函数加和得到本轮训练的整体损失函数,即
L(G,F,Dr,Dt)=LGAN(G,Dt,R,T)+LGAN(F,Dr,R,T)+λLcyc(G,F),λ>0
其中,G,F的目标是最小化以上值,Dr,Dt的目标是最大化以上值。在每一轮训练的最后,运用随机梯度下降法,更新网络中各个参数的权重。
当L(G,F,Dr,Dt)的值收敛,或者训练的次数已经达到预先设计的阈值(>500次)时,停止整个网络的训练,此时获得训练完成的生成器G。
在S+中随机抽取一对样本,分别作为参考集和训练集,输入进生成器G,得到人工样本。反复多次进行此步骤,获得一定数量的人工样本S*。
步骤S500:根据真实数据集的不平衡比率IR得到采样率(IR-1),从人工样本中随机抽取(IR-1)*N+个并标注为少数类别,其中N+为真实少数类样本的数量,加入到真实数据集中并打乱,得到扩充后的混合数据集S’。
步骤S600:使用混合数据集S’替代原始的真实数据集作为输入,训练分类器,得到最终的分类准确率。
本发明的有益之处在于,有效改善了不平衡样本数据集在分类任务训练时带来的结果偏差。传统的数据集扩充方法大多是基于随机重复采样的衍生,具有实现简单,时间复杂度低,但效果不佳的特点。本发明结合了深度学习领域中生成式对抗网络的优点,针对现有模型进行了改进,使得方法可以更好地拟合原始数据的分布特征,因此用扩充后的数据集进行分类任务训练会具有准确率上的提升。同时,本发明只针对数据集进行扩充,不需对分类算法本身做修改,因此在不同的分类器上都可直接使用,具有自适应性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于扩充训练数据集的类别不平衡问题分类方法,其特征在于,包括以下步骤:
获取类别不平衡的真实数据集,并筛选出其中的少数类样本;
在少数类样本中,区分出靠近决策边界的样本和远离决策边界的样本;
将两种少数类样本作为输入,训练一个生成式对抗网络,得到一系列与真实数据集分布相似的人工样本;
根据设置的采样率,将一定数量的人工样本加入到真实数据集中,得到混合数据集;
将混合数据集作为输入,使用分类器进行分类任务。
2.根据权利要求1所述的一种基于扩充训练数据集的类别不平衡问题分类方法,其特征在于,所述的真实数据集样本中,多数类样本的数量多于少数类样本的数量,当针对二分类问题时,多数类样本与少数类样本的数量比在100:1~2:1之间。
3.根据权利要求1所述的一种基于扩充训练数据集的类别不平衡问题分类方法,其特征在于,所述的区分出靠近决策边界的样本和远离决策边界的样本中区分靠近决策边界样本的方法如下:对于某个少数类样本,找出其在全部样本中的K个最近邻,K>2,如果最近邻中属于多数类的样本数量不少于K/2,则标记该少数类样本为靠近决策边界的样本;反之则标记该少数类样本为远离决策边界的样本,重复此步骤直到所有少数类样本都已标记。
4.根据权利要求1所述的一种基于扩充训练数据集的类别不平衡问题分类方法,其特征在于,所述的生成式对抗网络为改进的CycleGAN网络,其定义如下:该网络模型中的参考域为少数类样本中靠近决策边界的部分,目标域为远离决策边界的部分,每轮训练中随机选择同样数量的两种样本作为本次训练的数据集,该网络模型包括两个生成器G和F,其中生成器G是从参考域到目标域的映射,生成器F是目标域到参考域的映射;该网络模型还包括两个判别器Dt和Dr,分别对由生成器G和F生成的人工样本做出判别,给出数值反映判别器认为该样本属于真实或人工样本的可能性;该网络模型还包括一个周期一致性损失函数,对真实数据和经生成器生成的相应人工数据进行约束。
5.根据权利要求4所述的一种基于扩充训练数据集的类别不平衡问题分类方法,其特征在于,
参考域R中的样本经过生成器G,得到人工样本G(R),将G(R)与目标域T中的对应样本输入到判别器Dt,并计算得到本轮训练的一部分损失,计算公式如下:
LGAN(G,Dt,R,T)=Et~pdata(t)[logDt(t)]+Er~pdata(r)[log(1-Dt(G(r)))];
目标域T中的样本经过生成器F,得到人工样本F(T),将F(T)与参考域R中的对应样本输入到判别器Dr,并计算得到本轮训练的另一部分损失,计算公式如下:
LGAN(F,Dr,R,T)=Er~pdata(r)[logDr(r)]+Et~pdata(t)[log(1-Dr(F(t)))];
G(R)经过生成器F,得到人工样本F(G(R)),F(T)经过生成器G,得到人工样本G(F(T)),通过计算F(G(R))与参考域R,G(F(T))与目标域T的差异,可以得到周期一致性损失,计算公式如下:
Lcyc(G,F)=Er~pdata(r)[‖F(G(r))-r‖1]+Et~pdata(t)[‖G(F(t))-t‖1]
以上三部分损失函数加和得到本轮训练的整体损失函数,即
L(G,F,Dr,Dt)=LGAN(G,Dt,R,T)+LGAN(F,Dr,R,T)+λLcyc(G,F),λ>0
其中,G、F的目标是最小化以上值,Dr、Dt的目标是最大化以上值,在每一轮训练的最后,运用随机梯度下降法,更新网络中各个参数的权重。
6.根据权利要求5所述的一种基于扩充训练数据集的类别不平衡问题分类方法,其特征在于,
所述的改进的CycleGAN网络中生成器和判别器的训练等步长交替进行,即一次训练中,先更新一次生成器,再更新一次判别器,更新直到整体损失函数收敛或达到指定训练次数后停止。
7.根据权利要求1所述的一种基于扩充训练数据集的类别不平衡问题分类方法,其特征在于,
根据真实数据集的类别不平衡比率IR得到采样率(IR-1),从人工样本中随机抽取(IR-1)*N+个并标注为少数类别,其中N+为真实少数类样本的数量,加入到真实数据集中并打乱,得到扩充后的混合数据集,其中,类别不平衡比率IR表示不同类别样本数量之间的失衡严重程度,其定义为多数类样本数量与少数类样本数量的比值。
CN201810161468.7A 2018-02-26 2018-02-26 一种基于扩充训练数据集的类别不平衡问题分类方法 Pending CN108470187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810161468.7A CN108470187A (zh) 2018-02-26 2018-02-26 一种基于扩充训练数据集的类别不平衡问题分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810161468.7A CN108470187A (zh) 2018-02-26 2018-02-26 一种基于扩充训练数据集的类别不平衡问题分类方法

Publications (1)

Publication Number Publication Date
CN108470187A true CN108470187A (zh) 2018-08-31

Family

ID=63264986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810161468.7A Pending CN108470187A (zh) 2018-02-26 2018-02-26 一种基于扩充训练数据集的类别不平衡问题分类方法

Country Status (1)

Country Link
CN (1) CN108470187A (zh)

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214103A (zh) * 2018-09-25 2019-01-15 重庆青山工业有限责任公司 基于边界约束生成对抗网络的齿轮可靠性分析***
CN109448086A (zh) * 2018-09-26 2019-03-08 青岛中科慧畅信息科技有限公司 基于稀疏实采数据的分拣场景平行数据集构建方法
CN109492096A (zh) * 2018-10-23 2019-03-19 华东理工大学 一种基于几何结构集成的不平衡数据分类***
CN109508717A (zh) * 2018-10-09 2019-03-22 苏州科达科技股份有限公司 一种车牌识别方法、识别装置、识别设备及可读存储介质
CN109583497A (zh) * 2018-11-29 2019-04-05 中电科嘉兴新型智慧城市科技发展有限公司 一种对抗生成网络智能判断的数据质量规则自动生成方法及***
CN109766911A (zh) * 2018-12-04 2019-05-17 深圳先进技术研究院 一种行为预测方法
CN109816044A (zh) * 2019-02-11 2019-05-28 中南大学 一种基于wgan-gp和过采样的不平衡学习方法
CN109815943A (zh) * 2019-03-18 2019-05-28 北京石油化工学院 一种危化品仓储堆垛图片样本生成方法及***
CN109829849A (zh) * 2019-01-29 2019-05-31 深圳前海达闼云端智能科技有限公司 一种训练数据的生成方法、装置和终端
CN109948732A (zh) * 2019-03-29 2019-06-28 济南大学 基于非平衡学习的异常细胞远处转移分类方法及***
CN110008338A (zh) * 2019-03-04 2019-07-12 华南理工大学 一种融合gan和迁移学习的电商评价情感分析方法
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法
CN110362997A (zh) * 2019-06-04 2019-10-22 广东工业大学 一种基于生成对抗网络的恶意url过采样方法
CN110442722A (zh) * 2019-08-13 2019-11-12 北京金山数字娱乐科技有限公司 分类模型训练的方法及装置、数据分类的方法及装置
CN110889457A (zh) * 2019-12-03 2020-03-17 深圳奇迹智慧网络有限公司 样本图像分类训练方法、装置、计算机设备和存储介质
CN110888911A (zh) * 2019-10-11 2020-03-17 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机设备及存储介质
CN111091059A (zh) * 2019-11-19 2020-05-01 佛山市南海区广工大数控装备协同创新研究院 一种生活垃圾塑料瓶分类中的数据均衡方法
CN111461168A (zh) * 2020-03-02 2020-07-28 平安科技(深圳)有限公司 训练样本扩充方法、装置、电子设备及存储介质
CN111539467A (zh) * 2020-04-17 2020-08-14 北京工业大学 基于生成对抗网络为医疗影像数据集做数据增广的gan网络架构及方法
CN111832443A (zh) * 2020-06-28 2020-10-27 华中科技大学 一种施工违规行为检测模型的构建方法及其应用
CN112182257A (zh) * 2020-08-26 2021-01-05 合肥三恩信息科技有限公司 一种基于神经网络的人工智能数据清洗方法
CN112328588A (zh) * 2020-11-27 2021-02-05 哈尔滨工程大学 一种工业故障诊断非平衡时序数据扩充方法
CN112465023A (zh) * 2020-11-27 2021-03-09 自然资源部第一海洋研究所 一种地质方向人工神经网络训练数据的扩展算法
CN112508243A (zh) * 2020-11-25 2021-03-16 国网浙江省电力有限公司信息通信分公司 电力信息***多故障预测网络模型的训练方法及装置
CN112784930A (zh) * 2021-03-17 2021-05-11 西安电子科技大学 基于cacgan的hrrp识别数据库样本扩充方法
US20210216857A1 (en) * 2018-09-17 2021-07-15 Robert Bosch Gmbh Device and method for training an augmented discriminator
CN113177642A (zh) * 2021-05-24 2021-07-27 北京融七牛信息技术有限公司 一种针对数据不平衡的自动建模***
CN113269213A (zh) * 2020-02-17 2021-08-17 百度在线网络技术(北京)有限公司 训练集的获取方法、装置及电子设备
CN113673575A (zh) * 2021-07-26 2021-11-19 浙江大华技术股份有限公司 一种数据合成方法、图像处理模型的训练方法及相关装置
CN114581356A (zh) * 2022-05-09 2022-06-03 南京理工大学 基于风格迁移数据增广的图像增强模型泛化方法
CN114742177A (zh) * 2022-06-08 2022-07-12 南京信息工程大学 基于AGA-XGBoost和GWO-SVM的气象数据分类方法
CN114821681A (zh) * 2022-06-27 2022-07-29 深圳市魔力信息技术有限公司 一种指纹增广方法
CN116823817A (zh) * 2023-08-28 2023-09-29 江苏州际数码印花有限公司 一种基于深度学习的纺织提花缺陷检测方法及***
CN116994074A (zh) * 2023-09-27 2023-11-03 安徽大学 一种基于深度学习的摄像头脏污检测方法
WO2023221888A1 (zh) * 2022-05-19 2023-11-23 索尼集团公司 用于训练模型的方法、装置和***
CN117523345A (zh) * 2024-01-08 2024-02-06 武汉理工大学 一种目标检测数据平衡方法及装置

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210216857A1 (en) * 2018-09-17 2021-07-15 Robert Bosch Gmbh Device and method for training an augmented discriminator
CN109214103B (zh) * 2018-09-25 2023-01-20 重庆青山工业有限责任公司 基于边界约束生成对抗网络的齿轮可靠性分析***
CN109214103A (zh) * 2018-09-25 2019-01-15 重庆青山工业有限责任公司 基于边界约束生成对抗网络的齿轮可靠性分析***
CN109448086A (zh) * 2018-09-26 2019-03-08 青岛中科慧畅信息科技有限公司 基于稀疏实采数据的分拣场景平行数据集构建方法
CN109448086B (zh) * 2018-09-26 2023-03-31 青岛中科慧畅信息科技有限公司 基于稀疏实采数据的分拣场景平行数据集构建方法
CN109508717A (zh) * 2018-10-09 2019-03-22 苏州科达科技股份有限公司 一种车牌识别方法、识别装置、识别设备及可读存储介质
CN109492096A (zh) * 2018-10-23 2019-03-19 华东理工大学 一种基于几何结构集成的不平衡数据分类***
CN109583497A (zh) * 2018-11-29 2019-04-05 中电科嘉兴新型智慧城市科技发展有限公司 一种对抗生成网络智能判断的数据质量规则自动生成方法及***
CN109766911A (zh) * 2018-12-04 2019-05-17 深圳先进技术研究院 一种行为预测方法
CN109829849A (zh) * 2019-01-29 2019-05-31 深圳前海达闼云端智能科技有限公司 一种训练数据的生成方法、装置和终端
CN109829849B (zh) * 2019-01-29 2023-01-31 达闼机器人股份有限公司 一种训练数据的生成方法、装置和终端
CN109816044A (zh) * 2019-02-11 2019-05-28 中南大学 一种基于wgan-gp和过采样的不平衡学习方法
CN110008338A (zh) * 2019-03-04 2019-07-12 华南理工大学 一种融合gan和迁移学习的电商评价情感分析方法
CN110008338B (zh) * 2019-03-04 2021-01-19 华南理工大学 一种融合gan和迁移学习的电商评价情感分析方法
CN109815943A (zh) * 2019-03-18 2019-05-28 北京石油化工学院 一种危化品仓储堆垛图片样本生成方法及***
CN109948732A (zh) * 2019-03-29 2019-06-28 济南大学 基于非平衡学习的异常细胞远处转移分类方法及***
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法
CN110362997B (zh) * 2019-06-04 2023-01-17 广东工业大学 一种基于生成对抗网络的恶意url过采样方法
CN110362997A (zh) * 2019-06-04 2019-10-22 广东工业大学 一种基于生成对抗网络的恶意url过采样方法
CN110442722A (zh) * 2019-08-13 2019-11-12 北京金山数字娱乐科技有限公司 分类模型训练的方法及装置、数据分类的方法及装置
CN110442722B (zh) * 2019-08-13 2022-05-13 北京金山数字娱乐科技有限公司 分类模型训练的方法及装置、数据分类的方法及装置
CN110888911A (zh) * 2019-10-11 2020-03-17 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机设备及存储介质
CN111091059A (zh) * 2019-11-19 2020-05-01 佛山市南海区广工大数控装备协同创新研究院 一种生活垃圾塑料瓶分类中的数据均衡方法
CN110889457B (zh) * 2019-12-03 2022-08-19 深圳奇迹智慧网络有限公司 样本图像分类训练方法、装置、计算机设备和存储介质
CN110889457A (zh) * 2019-12-03 2020-03-17 深圳奇迹智慧网络有限公司 样本图像分类训练方法、装置、计算机设备和存储介质
CN113269213A (zh) * 2020-02-17 2021-08-17 百度在线网络技术(北京)有限公司 训练集的获取方法、装置及电子设备
CN111461168A (zh) * 2020-03-02 2020-07-28 平安科技(深圳)有限公司 训练样本扩充方法、装置、电子设备及存储介质
WO2021174723A1 (zh) * 2020-03-02 2021-09-10 平安科技(深圳)有限公司 训练样本扩充方法、装置、电子设备及存储介质
CN111539467A (zh) * 2020-04-17 2020-08-14 北京工业大学 基于生成对抗网络为医疗影像数据集做数据增广的gan网络架构及方法
CN111832443A (zh) * 2020-06-28 2020-10-27 华中科技大学 一种施工违规行为检测模型的构建方法及其应用
CN112182257A (zh) * 2020-08-26 2021-01-05 合肥三恩信息科技有限公司 一种基于神经网络的人工智能数据清洗方法
CN112508243A (zh) * 2020-11-25 2021-03-16 国网浙江省电力有限公司信息通信分公司 电力信息***多故障预测网络模型的训练方法及装置
CN112508243B (zh) * 2020-11-25 2022-09-09 国网浙江省电力有限公司信息通信分公司 电力信息***多故障预测网络模型的训练方法及装置
CN112328588A (zh) * 2020-11-27 2021-02-05 哈尔滨工程大学 一种工业故障诊断非平衡时序数据扩充方法
CN112465023A (zh) * 2020-11-27 2021-03-09 自然资源部第一海洋研究所 一种地质方向人工神经网络训练数据的扩展算法
CN112784930A (zh) * 2021-03-17 2021-05-11 西安电子科技大学 基于cacgan的hrrp识别数据库样本扩充方法
CN113177642A (zh) * 2021-05-24 2021-07-27 北京融七牛信息技术有限公司 一种针对数据不平衡的自动建模***
CN113673575A (zh) * 2021-07-26 2021-11-19 浙江大华技术股份有限公司 一种数据合成方法、图像处理模型的训练方法及相关装置
CN114581356A (zh) * 2022-05-09 2022-06-03 南京理工大学 基于风格迁移数据增广的图像增强模型泛化方法
WO2023221888A1 (zh) * 2022-05-19 2023-11-23 索尼集团公司 用于训练模型的方法、装置和***
CN114742177A (zh) * 2022-06-08 2022-07-12 南京信息工程大学 基于AGA-XGBoost和GWO-SVM的气象数据分类方法
CN114821681A (zh) * 2022-06-27 2022-07-29 深圳市魔力信息技术有限公司 一种指纹增广方法
CN116823817A (zh) * 2023-08-28 2023-09-29 江苏州际数码印花有限公司 一种基于深度学习的纺织提花缺陷检测方法及***
CN116823817B (zh) * 2023-08-28 2023-12-08 江苏州际数码印花有限公司 一种基于深度学习的纺织提花缺陷检测方法及***
CN116994074A (zh) * 2023-09-27 2023-11-03 安徽大学 一种基于深度学习的摄像头脏污检测方法
CN117523345A (zh) * 2024-01-08 2024-02-06 武汉理工大学 一种目标检测数据平衡方法及装置
CN117523345B (zh) * 2024-01-08 2024-04-23 武汉理工大学 一种目标检测数据平衡方法及装置

Similar Documents

Publication Publication Date Title
CN108470187A (zh) 一种基于扩充训练数据集的类别不平衡问题分类方法
Summerville Expanding expressive range: Evaluation methodologies for procedural content generation
Cheng et al. Evolutionary multiobjective optimization-based multimodal optimization: Fitness landscape approximation and peak detection
CN109492765A (zh) 一种基于迁移模型的图像增量学习方法
CN108960409A (zh) 标注数据生成方法、设备及计算机可读存储介质
CN108322349A (zh) 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108334949A (zh) 一种优化深度卷积神经网络结构的快速进化方法
CN111860638A (zh) 基于不平衡数据深度信念网络的并行入侵检测方法和***
Liu Automatic calibration of a rainfall–runoff model using a fast and elitist multi-objective particle swarm algorithm
CN105868775A (zh) 基于pso算法的不平衡样本分类方法
CN110362997A (zh) 一种基于生成对抗网络的恶意url过采样方法
CN110310345A (zh) 一种基于自动分工隐聚类生成对抗网络的图像生成方法
CN106960017A (zh) 电子书分类及其训练方法、装置和设备
CN109934615A (zh) 基于深度稀疏网络的产品营销方法
CN109871901A (zh) 一种基于混合采样和机器学***衡数据分类方法
CN108447048B (zh) 基于关注层的卷积神经网络图像特征处理方法
Ramirez-Cano et al. Player classification using a meta-clustering approach
CN109800785A (zh) 一种基于自表达相关的数据分类方法和装置
CN107944460A (zh) 一种应用于生物信息学中类别不平衡分类方法
CN109919313A (zh) 一种梯度传输的方法及分布式训练***
CN107481135A (zh) 一种基于bp神经网络的个人信用评价方法及***
CN107491447A (zh) 建立查询改写判别模型、查询改写判别的方法和对应装置
CN108920477A (zh) 一种基于二叉树结构的不平衡数据处理方法
Sebastian Performance evaluation by artificial neural network using WEKA
Afriliansyah et al. Prediction of Life Expectancy in Aceh Province by District City Using the Cyclical Order Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180831