CN112884075A - 一种流量数据增强方法、流量数据分类方法及相关装置 - Google Patents

一种流量数据增强方法、流量数据分类方法及相关装置 Download PDF

Info

Publication number
CN112884075A
CN112884075A CN202110310934.5A CN202110310934A CN112884075A CN 112884075 A CN112884075 A CN 112884075A CN 202110310934 A CN202110310934 A CN 202110310934A CN 112884075 A CN112884075 A CN 112884075A
Authority
CN
China
Prior art keywords
data
training
flow data
flow
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110310934.5A
Other languages
English (en)
Inventor
陈龙
王炜
江军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202110310934.5A priority Critical patent/CN112884075A/zh
Publication of CN112884075A publication Critical patent/CN112884075A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种流量数据增强方法、流量数据分类方法及相关装置,该方法包括:获取流量数据样本;对流量数据样本进行归并处理,获得归并处理后的流量数据;使用归并处理后的流量数据对生成对抗网络进行训练,获得生成对抗网络模型;使用生成对抗网络模型生成扩充流量样本;将扩充流量样本与归并处理后的流量数据结合,获得增强的流量数据集。在上述的实现过程中,通过训练后的生成对抗网络模型能够更好地生成扩充流量样本,从而获得扩充流量样本的流量数据集,有效地扩充了流量样本的数量。

Description

一种流量数据增强方法、流量数据分类方法及相关装置
技术领域
本申请涉及机器学习、人工智能和深度学习的技术领域,具体而言,涉及一种流量数据增强方法、流量数据分类方法及相关装置。
背景技术
目前,在深度学习模型的训练和推断过程中,常常需要很多样本来训练深度学习模型,才能够达到比较好的效果。然而,当训练深度学习模型所用的训练数据集中特定类样本数量较少时,该特定类样本的识别正确率就会比其它类别的识别正确率低很多。为了增加特定类样本的识别正确率,通常的做法是人工采集更多特定类样本作为训练数据,但是,在特殊场景(例如:网络攻击流量数据)下,但此种做法不仅效率低下而且很难采集到特定类样本。
发明内容
本申请实施例的目的在于提供一种流量数据增强方法、流量数据分类方法及相关装置,用于改善获取特定类样本效率低下的问题。
本申请实施例提供了一种流量数据增强方法,包括:获取流量数据样本;对流量数据样本进行归并处理,获得归并处理后的流量数据;使用归并处理后的流量数据对生成对抗网络进行训练,获得生成对抗网络模型;使用生成对抗网络模型生成扩充流量样本;将扩充流量样本与归并处理后的流量数据结合,获得增强的流量数据集。在上述的实现过程中,通过先使用归并处理后的流量数据对生成对抗网络进行训练,获得生成对抗网络模型,并使用生成对抗网络模型生成扩充流量样本,然后将扩充流量样本与归并处理后的流量数据结合;也就是说,通过训练后的生成对抗网络模型能够更好地生成扩充流量样本,从而获得扩充流量样本的流量数据集,有效地扩充了流量样本的数量。
可选地,在本申请实施例中,生成对抗网络包括:判别器以及生成器;使用归并处理后的流量数据对生成对抗网络进行训练,包括:对生成器进行预训练,获得预训练后的生成器;根据预训练后的生成器对判别器进行预训练,获得预训练后的判别器;在预训练完成后,迭代执行对抗训练流程,直至生成对抗网络收敛;对抗训练流程包括:获取噪声数据和类别标签向量;使用预训练后的生成器对噪声数据和类别标签向量进行生成运算,获得假数据序列;获取真数据序列,并使用预训练后的判别器对假数据序列、真数据序列和类别标签向量进行判别运算,获得判别结果数据和类别标签数据;使用判别结果数据、类别标签数据和真数据序列对预训练后的生成器和预训练后的判别器进行迭代训练。在上述的实现过程中,先对生成器和判别器进行预训练,然后通过迭代执行对抗训练流程,获得权重参数收敛的生成对抗网络模型,从而有效地提高了增强的流量数据质量。
可选地,在本申请实施例中,对生成器进行预训练,包括:随机初始化生成器和判别器的参数;以归并处理后的流量数据为训练数据,使用最大似然估计算法对生成器进行预训练,获得预训练后的生成器。在上述的实现过程中,通过使用最大似然估计算法对生成器进行预训练,从而避免了在没有预训练的情况下生成的流量数据质量差的问题,有效地提高了增强的流量数据质量。
可选地,在本申请实施例中,根据预训练后的生成器对判别器进行预训练,包括:使用预训练后的生成器生成初始数据;以初始数据为训练数据,以交叉熵函数为损失函数,对判别器进行预训练。在上述的实现过程中,通过以初始数据为训练数据,以交叉熵函数为损失函数,对判别器进行预训练,从而避免了在没有预训练的情况下生成的流量数据质量差的问题,有效地提高了增强的流量数据质量。
可选地,在本申请实施例中,对流量数据样本进行归并处理,包括:根据预设规则库删除流量数据样本中的冗余数据,获得删除冗余后的流量数据;根据时间戳规则对删除冗余后的流量数据进行数据归并处理。在上述的实现过程中,通过预设规则库删除流量数据样本中的冗余数据,并对删除冗余后的流量数据进行数据归并处理,从而避免了冗余数据导致生成的流量数据质量差的问题,有效地提高了增强的流量数据质量。
可选地,在本申请实施例中,生成对抗网络为辅助分类生成对抗网络AC-GAN。在上述的实现过程中,通过使用辅助分类生成对抗网络模型来对流量数据进行增强,从而让模型能够更加关注流量数据的分类信息,从而避免了生成的流量数据质量差的问题,有效地提高了增强的流量数据质量。
本申请实施例还提供了一种流量数据分类方法,包括:使用如上面描述的方法获得增强的流量数据集;使用增强的流量数据集训练神经网络,获得神经网络模型;使用神经网络模型对待分类流量数据进行分类,获得分类结果。在上述的实现过程中,通过使用增强的流量数据集训练神经网络,并使用神经网络模型对待分类流量数据进行分类,从而避免了数据不均衡导致使用神经网络模型进行分类的正确率低的问题,有效地提高了使用神经网络模型进行分类的正确率。
本申请实施例还提供了一种流量数据增强装置,包括:流量数据获取模块,用于获取流量数据样本;流量数据处理模块,用于对流量数据样本进行归并处理,获得归并处理后的流量数据;对抗模型获得模块,用于使用归并处理后的流量数据对生成对抗网络进行训练,获得生成对抗网络模型;流量样本扩充模块,用于使用生成对抗网络模型生成扩充流量样本;流量数据增强模块,用于将扩充流量样本与归并处理后的流量数据结合,获得增强的流量数据集。
可选地,在本申请实施例中,生成对抗网络包括:判别器以及生成器;网络模型获得模块,包括:生成器预训练模块,用于对生成器进行预训练,获得预训练后的生成器;判别器预训练模块,用于根据预训练后的生成器对判别器进行预训练,获得预训练后的判别器;网络模型训练模块,用于在预训练完成后,迭代执行对抗训练流程,直至生成对抗网络收敛;对抗训练流程包括:获取噪声数据和类别标签向量;使用预训练后的生成器对噪声数据和类别标签向量进行生成运算,获得假数据序列;获取真数据序列,并使用预训练后的判别器对假数据序列、真数据序列和类别标签向量进行判别运算,获得判别结果数据和类别标签数据;使用判别结果数据、类别标签数据和真数据序列对预训练后的生成器和预训练后的判别器进行迭代训练。
可选地,在本申请实施例中,生成器预训练模块,包括:参数初始化模块,用于随机初始化生成器和判别器的参数;第一预训练模块,用于以归并处理后的流量数据为训练数据,使用最大似然估计算法对生成器进行预训练,获得预训练后的生成器。
可选地,在本申请实施例中,判别器预训练模块,包括:初始数据生成模块,用于使用预训练后的生成器生成初始数据;第二预训练模块,用于以初始数据为训练数据,以交叉熵函数为损失函数,对判别器进行预训练。
可选地,在本申请实施例中,流量数据处理模块,包括:冗余数据删除模块,用于根据预设规则库删除流量数据样本中的冗余数据,获得删除冗余后的流量数据;数据归并处理模块,用于根据时间戳规则对删除冗余后的流量数据进行数据归并处理。
本申请实施例还提供了一种流量数据分类装置,包括:增强流量获得模块,用于使用如上面描述的方法获得增强的流量数据集;网络模型获得模块,用于使用增强的流量数据集训练神经网络,获得神经网络模型;分类结果获得模块,用于使用神经网络模型对待分类流量数据进行分类,获得分类结果。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的流量数据增强方法的流程示意图;
图2示出的本申请实施例提供的对抗训练流程的示意图;
图3示出的本申请实施例提供的流量数据分类方法的流程示意图;
图4示出的本申请实施例提供的流量数据增强装置的结构示意图;
图5示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例提供的流量数据增强方法、流量数据分类方法之前,先介绍本申请实施例中所涉及的一些概念:
数据增强,又称扩增训练数据集或数据扩增,是指对现有的训练数据进行扩增操作,以获得更多的训练数据,具体例如:假设训练数据是图像,那么可以改变图像的背景颜色或亮度、旋转图像角度或者裁剪图像大小等等操作,通过这些操作可以增加更多用于训练模型的图像数据。
数据分类模型,又称数据分类神经网络模型,是指对神经网络进行训练后获得的用于数据分类的神经网络模型,即将流量数据作为数据分类模型的输入,从而获得概率列表的输出,这里概率列表是指,将数据经过上述的数据分类神经网络模型进行计算获得的多个概率,这里的概率是指数据归属于各个分类的概率。
生成对抗网络(Generative Adversarial Network,GAN),又被称为生成对抗式网络,是机器学习中的一种学习范式,通过让两个神经网络相互博弈的方式进行学习;生成对抗网络由一个生成器(generator)与一个鉴别器(discriminator)组成,生成器从潜在空间(latent space)中随机取样作为输入数据,生成器的输出结果需要尽量模仿训练集中的真实样本;鉴别器的输入数据则为真实样本或生成器的输出数据(即生成器的输出结果),其目的是将生成器的输出数据从真实样本中尽可能分别出来;而生成器要尽可能地欺骗鉴别器(即尽可能让鉴别器分辨不出生成器的输出数据和真实样本),生成器和鉴别器相互对抗从而不断调整参数,最终目的是使鉴别器无法判断生成器的输出结果是否真实。
服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
需要说明的是,本申请实施例提供的流量数据增强方法、流量数据分类方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器,设备终端例如:智能手机、个人电脑(personal computer,PC)、平板电脑、个人数字助理(personal digital assistant,PDA)或者移动上网设备(mobile Internet device,MID)等。
在介绍本申请实施例提供的流量数据增强方法、流量数据分类方法之前,先介绍该流量数据增强方法、流量数据分类方法适用的应用场景,这里的应用场景包括但不限于:使用流量数据增强方法对网络上的特定类型流量数据进行增强,此处的特定类型包括:网络攻击、恶意程序和病毒蠕虫等等类型的流量;使用该流量数据分类方法对网络流量进行分类,可以将网络流量分为简单的恶意流量和非恶意流量,也可以将网络流量分为更加细致的恶意类别,此处的恶意类别例如:Web网络攻击类型、结构化查询语言(StructuredQuery Language,SQL)注入类型和病毒蠕虫类型等等。
请参见图1示出的本申请实施例提供的流量数据增强方法的流程示意图;该流量数据增强方法的主要思路是,通过先使用归并处理后的流量数据对生成对抗网络进行训练,获得生成对抗网络模型,并使用生成对抗网络模型生成扩充流量样本,然后将扩充流量样本与归并处理后的流量数据结合,从而获得扩充流量样本的流量数据集,有效地扩充了流量样本的数量;上述的流量数据增强方法可以包括:
步骤S110:获取流量数据样本。
流量数据样本,是指网络流量数据中的网络报文或者网络数据帧,通常情况下,很难收集到网络攻击流量数据样本,所以需要增加网络攻击流量数据样本的数量。
上述步骤S110的实施方式包括但不限于:第一种获得方式,在网络设备(例如路由器或者交换机等)上拦截其它设备发送的流量数据样本,将流量数据样本存储至文件***、数据库或移动存储设备中;第二种获得方式,获取预先存储的流量数据样本,具体例如:从文件***中获取流量数据样本,或者从数据库中获取流量数据样本,或者从移动存储设备中获取流量数据样本;第三种获得方式,使用浏览器等软件下载互联网上的流量数据样本压缩包,然后再从压缩包中解压获得流量数据样本。
在步骤S110之后,执行步骤S120:对流量数据样本进行归并处理,获得归并处理后的流量数据。
上述步骤S120的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,对流量数据样本进行类型标注,并删除冗余数据后进行数据归并处理,该实施方式例如:对流量数据样本进行类型标注,并根据预设规则库删除流量数据样本中的冗余数据,获得删除冗余后的流量数据,其中,此处的预设规则库可以根据具体情况进行设置,例如:针对超文本传输协议(Hyper Text Transfer Protocol,HTTP)报文去除网络路由报文头部数据,只保留报文载荷等等。然后,根据时间戳规则对删除冗余后的流量数据进行数据归并处理,具体例如:以时间粒度是分钟为例,将在9点1分接收到(删除冗余后)的流量数据统一存储为脚本对象简谱(JavaScript Object Notation,JSON)格式或者可扩展标记语言(eXtensible Markup Language,XML)格式,并将在9点2分接收到(删除冗余后)的流量数据统一存储为TXT格式或者CSV格式。
第二种实施方式,对流量数据样本进行类型标注,并修正字段值不齐全的数据后进行数据归并处理,该实施方式可以包括:对流量数据样本进行类型标注,并针对字段值不齐全的数据字段属性值补齐,具体例如:对所有数据进行统计,获取到所有数据的平均值或中位数,将平均值或中位数填充为该字段的缺失值,从而获得修正后的数据。当然,在具体的实施过程中还可以对修正后的数据进行聚类分析,获得多个簇类,将同一个簇类的数据归并在一起,并在簇类中建立每个数据的索引,以便于更快地查找数据。
在步骤S120之后,执行步骤S130:使用归并处理后的流量数据对生成对抗网络进行训练,获得生成对抗网络模型。
其中,生成对抗网络(Generative Adversarial Network,GAN)可以采用辅助分类生成对抗网络(Auxiliary ClassifierGenerative Adversarial Network,AC-GAN)、PacketCGAN、styleGAN、styleGAN2、WGAN(Wasserstein GAN)和WGAN-GP(Wasserstein GAN-gradient penalty)等;生成对抗网络包括:判别器和生成器,因此,在对生成对抗网络进行训练时,可以将判别器和生成器分开训练,也可以将判别器和生成器在一起训练。
上述步骤S130的实施方式可以包括如下步骤:
步骤S131:对生成器进行预训练,获得预训练后的生成器。
上述步骤S131的实施方式例如:将流量数据样本的数据集按照预设比例划分为训练集和测试集两部分,此处的预设比例可以根据具体情况进行设置,例如将训练集和测试集的比例设置为7比3,然后,使用训练集中的小部分比例数据对生成器进行预训练。预训练的具体过程例如:随机初始化生成器和判别器的参数,获得初始化的生成器和初始化的判别器;以归并处理后的流量数据为训练数据,使用最大似然估计算法对初始化的生成器进行预训练,获得预训练后的生成器。
步骤S132:根据预训练后的生成器对判别器进行预训练,获得预训练后的判别器。
上述步骤S132的实施方式例如:使用预训练后的生成器生成初始数据。以初始数据为训练数据,以交叉熵函数为损失函数,对初始化的判别器进行预训练,获得预训练后的判别器。
步骤S133:在预训练完成后,迭代执行对抗训练流程,直至生成对抗网络收敛。
请参见图2示出的本申请实施例提供的对抗训练流程的示意图;上述步骤S133中的对抗训练流程的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,以训练辅助分类生成对抗网络AC-GAN为例进行说明:首先,获取噪声数据(Noise_data)和类别标签向量(C_vector),此处的类别标签向量(C_vector)可以是训练数据标签信息的独热(One-Hot)编码张量;其次,使用预训练后的生成器(Generator)对噪声数据和类别标签向量进行生成运算,获得假数据序列(Fake_data_Seq);然后,获取真数据序列(Real_data),并使用预训练后的判别器(Discriminator)对假数据序列、真数据序列和类别标签向量进行判别运算,获得判别结果数据(Fake/Real)和类别标签数据(C1,C2,……,Cn),也就是说,判别器的输出有两个张量判别结果数据(即真假判断张量)和类别标签数据(即分类结果张量);最后,使用判别结果数据、类别标签数据和真数据序列对预训练后的生成器和预训练后的判别器进行迭代训练。
第二种实施方式,获取噪声数据,并使用预训练后的生成器对噪声数据进行运算,获得流量数据序列;其中,流量数据序列包括完整的流量数据序列和非完整的流量数据序列。采用蒙特卡洛树搜索算法对非完整的流量数据序列进行模拟,获得模拟的流量数据序列。将模拟的流量数据序列与完整的流量数据序列结合,形成新的流量数据序列。使用新的流量数据序列和归并处理后的流量数据训练判别器,并生成奖励值。利用策略梯度算法结合奖励值训练生成器。
在步骤S130之后,执行步骤S140:使用生成对抗网络模型生成扩充流量样本。
其中,在训练完生成对抗网络模型之后,只需要向生成器输入噪声数据,生成器就可以输出的流量样本,可以称为扩充流量样本。
上述步骤S140的实施方式例如:先使用生成对抗网络模型生成一批次扩充流量样本,并对该批次扩充流量样本的格式进行检查;判断该批次的扩充流量样本是否符合预设格式;若否,则将不符合预设格式的扩充流量样本剔除;若是,则将符合预设格式的扩充流量样本保留。
在步骤S140之后,执行步骤S150:将扩充流量样本与归并处理后的流量数据结合,获得增强的流量数据集。
上述步骤S150的数据结合方式有很多种,包括但不限于如下几种:
第一种结合方式,只是简单地将扩充流量样本的集合与归并处理后的流量数据集合进行合并(Synthesize),获得合并后的流量数据集合,此处的合并后的流量数据集合就是上述的增强流量数据集。
第二种结合方式,先确定需要合并的数量,再进行选择合并,该实施方式例如:假设上面需要增强的是恶意流量数据,且原来归并处理后的恶意流量数据有20条,非恶意流量数据有50条,此处的恶意流量数据的和非恶意流量数据就可以理解为数据标签。然后,根据归并处理后的恶意流量数据生成的扩充流量样本有60条,那么需要合并的数量为50-20=30条,故可以从60条扩充流量样本中筛选出30条即可,使得恶意流量数据的条数和非恶意流量数据的条数相等,从而改善在训练神经网络时的数据类别标签不均衡(classimbalance)问题。
在上述的实现过程中,通过先使用归并处理后的流量数据对生成对抗网络进行训练,获得生成对抗网络模型,并使用生成对抗网络模型生成扩充流量样本,然后将扩充流量样本与归并处理后的流量数据结合;也就是说,通过训练后的生成对抗网络模型能够更好地生成扩充流量样本,从而获得扩充流量样本的流量数据集,有效地扩充了流量样本的数量。
请参见图3示出的本申请实施例提供的流量数据分类方法的流程示意图;可以理解的是,在上面获得增强的流量数据集之后,还可以对流量数据进行分类,此处的流量数据分类方法可以包括:
步骤S210:使用如上面的流量数据增强方法对已经获得的流量数据样本进行数据增强,获得增强的流量数据集。
步骤S220:使用增强的流量数据集训练神经网络,获得神经网络模型。
上述步骤S220的实施方式例如:使用增强的流量数据集训练数据分类神经网络,获得数据分类神经网络模型;其中,可以使用的数据分类神经网络模型例如:卷积神经网络(Convolutional neural network,CNN)和深度神经网络(Deep Neural Networks,DNN)等等。
步骤S230:使用神经网络模型对待分类流量数据进行分类,获得分类结果。
上述步骤S230的实施方式例如:使用数据分类神经网络模型对待分类流量数据进行分类,获得分类结果;其中,可以使用的数据分类神经网络模型例如:LeNet网络模型、AlexNet网络模型、VGG网络模型、GoogLeNet网络模型和ResNet网络模型等等。
在上述的实现过程中,通过使用增强的流量数据集训练神经网络,并使用神经网络模型对待分类流量数据进行分类,从而避免了数据不均衡导致使用神经网络模型进行分类的正确率低的问题,有效地提高了使用神经网络模型进行分类的正确率。
请参见图4示出的本申请实施例提供的流量数据增强装置的结构示意图;本申请实施例还提供了一种流量数据增强装置300,包括:
流量数据获取模块310,用于获取流量数据样本。
流量数据处理模块320,用于对流量数据样本进行归并处理,获得归并处理后的流量数据。
对抗模型获得模块330,用于使用归并处理后的流量数据对生成对抗网络进行训练,获得生成对抗网络模型。
流量样本扩充模块340,用于使用生成对抗网络模型生成扩充流量样本。
流量数据增强模块350,用于将扩充流量样本与归并处理后的流量数据结合,获得增强的流量数据集。
可选地,在本申请实施例中,生成对抗网络包括:判别器以及生成器;网络模型获得模块,包括:
生成器预训练模块,用于对生成器进行预训练,获得预训练后的生成器。
判别器预训练模块,用于根据预训练后的生成器对判别器进行预训练,获得预训练后的判别器。
网络模型训练模块,用于在预训练完成后,迭代执行对抗训练流程,直至生成对抗网络收敛;对抗训练流程包括:获取噪声数据和类别标签向量;使用预训练后的生成器对噪声数据和类别标签向量进行生成运算,获得假数据序列;获取真数据序列,并使用预训练后的判别器对假数据序列、真数据序列和类别标签向量进行判别运算,获得判别结果数据和类别标签数据;使用判别结果数据、类别标签数据和真数据序列对预训练后的生成器和预训练后的判别器进行迭代训练。
可选地,在本申请实施例中,生成器预训练模块,包括:
参数初始化模块,用于随机初始化生成器和判别器的参数。
第一预训练模块,用于以归并处理后的流量数据为训练数据,使用最大似然估计算法对生成器进行预训练,获得预训练后的生成器。
可选地,在本申请实施例中,判别器预训练模块,包括:
初始数据生成模块,用于使用预训练后的生成器生成初始数据。
第二预训练模块,用于以初始数据为训练数据,以交叉熵函数为损失函数,对判别器进行预训练,获得预训练后的判别器。
可选地,在本申请实施例中,流量数据处理模块,包括:
冗余数据删除模块,用于根据预设规则库删除流量数据样本中的冗余数据,获得删除冗余后的流量数据。
数据归并处理模块,用于根据时间戳规则对删除冗余后的流量数据进行数据归并处理。
本申请实施例还提供了一种流量数据分类装置,包括:
增强流量获得模块,用于使用如上面描述的方法获得增强的流量数据集。
网络模型获得模块,用于使用增强的流量数据集训练神经网络,获得神经网络模型。
分类结果获得模块,用于使用神经网络模型对待分类流量数据进行分类,获得分类结果。
应理解的是,该装置与上述的流量数据增强方法、流量数据分类方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作***(operating system,OS)中的软件功能模块。
请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400,包括:处理器410和存储器420,存储器420存储有处理器410可执行的机器可读指令,机器可读指令被处理器410执行时执行如上的方法。
本申请实施例还提供了一种存储介质430,该存储介质430上存储有计算机程序,该计算机程序被处理器410运行时执行如上的方法。
其中,存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (10)

1.一种流量数据增强方法,其特征在于,包括:
获取流量数据样本;
对所述流量数据样本进行归并处理,获得归并处理后的流量数据;
使用所述归并处理后的流量数据对生成对抗网络进行训练,获得生成对抗网络模型;
使用所述生成对抗网络模型生成扩充流量样本;
将所述扩充流量样本与所述归并处理后的流量数据结合,获得增强的流量数据集。
2.根据权利要求1所述的方法,其特征在于,所述生成对抗网络包括:判别器以及生成器;所述使用所述归并处理后的流量数据对生成对抗网络进行训练,包括:
对所述生成器进行预训练,获得预训练后的生成器;
根据所述预训练后的生成器对所述判别器进行预训练,获得预训练后的判别器;
在预训练完成后,迭代执行对抗训练流程,直至所述生成对抗网络收敛;所述对抗训练流程包括:
获取噪声数据和类别标签向量;
使用所述预训练后的生成器对所述噪声数据和所述类别标签向量进行生成运算,获得假数据序列;
获取真数据序列,并使用所述预训练后的判别器对所述假数据序列、所述真数据序列和所述类别标签向量进行判别运算,获得判别结果数据和类别标签数据;
使用所述判别结果数据、所述类别标签数据和所述真数据序列对所述预训练后的生成器和所述预训练后的判别器进行迭代训练。
3.根据权利要求2所述的方法,其特征在于,所述对所述生成器进行预训练,包括:
随机初始化所述生成器和所述判别器的参数;
以所述归并处理后的流量数据为训练数据,使用最大似然估计算法对所述生成器进行预训练,获得所述预训练后的生成器。
4.根据权利要求3所述的方法,其特征在于,所述根据所述预训练后的生成器对所述判别器进行预训练,包括:
使用所述预训练后的生成器生成初始数据;
以所述初始数据为训练数据,以交叉熵函数为损失函数,对所述判别器进行预训练。
5.根据权利要求1所述的方法,其特征在于,所述对所述流量数据样本进行归并处理,包括:
根据预设规则库删除所述流量数据样本中的冗余数据,获得删除冗余后的流量数据;
根据时间戳规则对所述删除冗余后的流量数据进行数据归并处理。
6.根据权利要求1-5任一所述的方法,其特征在于,所述生成对抗网络为辅助分类生成对抗网络AC-GAN。
7.一种流量数据分类方法,其特征在于,包括:
使用如权利要求1-5中任一项所述的方法获得增强的流量数据集;
使用所述增强的流量数据集训练神经网络,获得神经网络模型;
使用所述神经网络模型对待分类流量数据进行分类,获得分类结果。
8.一种流量数据增强装置,其特征在于,包括:
流量数据获取模块,用于获取流量数据样本;
流量数据处理模块,用于对所述流量数据样本进行归并处理,获得归并处理后的流量数据;
对抗模型获得模块,用于使用所述归并处理后的流量数据对生成对抗网络进行训练,获得生成对抗网络模型;
流量样本扩充模块,用于使用所述生成对抗网络模型生成扩充流量样本;
流量数据增强模块,用于将所述扩充流量样本与所述归并处理后的流量数据结合,获得增强的流量数据集。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
CN202110310934.5A 2021-03-23 2021-03-23 一种流量数据增强方法、流量数据分类方法及相关装置 Pending CN112884075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110310934.5A CN112884075A (zh) 2021-03-23 2021-03-23 一种流量数据增强方法、流量数据分类方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110310934.5A CN112884075A (zh) 2021-03-23 2021-03-23 一种流量数据增强方法、流量数据分类方法及相关装置

Publications (1)

Publication Number Publication Date
CN112884075A true CN112884075A (zh) 2021-06-01

Family

ID=76042165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110310934.5A Pending CN112884075A (zh) 2021-03-23 2021-03-23 一种流量数据增强方法、流量数据分类方法及相关装置

Country Status (1)

Country Link
CN (1) CN112884075A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947706A (zh) * 2021-12-20 2022-01-18 四川师范大学 一种基于生成对抗网络的图像多样性增强方法与***
CN114553520A (zh) * 2022-02-21 2022-05-27 华南师范大学 网络攻击数据流合成方法、装置、电子设备及存储介质
CN116737793A (zh) * 2023-05-29 2023-09-12 南方电网能源发展研究院有限责任公司 碳排放流生成方法、模型训练方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180152467A1 (en) * 2016-11-30 2018-05-31 Cisco Technology, Inc. Leveraging synthetic traffic data samples for flow classifier training
CN109639479A (zh) * 2018-12-07 2019-04-16 北京邮电大学 基于生成对抗网络的网络流量数据增强方法及装置
CN111651642A (zh) * 2020-04-16 2020-09-11 南京邮电大学 一种基于改进型text-gan的流量数据集生成方法
CN112270351A (zh) * 2020-10-24 2021-01-26 国网江苏省电力有限公司信息通信分公司 基于辅助分类生成对抗网络的半监督加密流量识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180152467A1 (en) * 2016-11-30 2018-05-31 Cisco Technology, Inc. Leveraging synthetic traffic data samples for flow classifier training
CN109639479A (zh) * 2018-12-07 2019-04-16 北京邮电大学 基于生成对抗网络的网络流量数据增强方法及装置
CN111651642A (zh) * 2020-04-16 2020-09-11 南京邮电大学 一种基于改进型text-gan的流量数据集生成方法
CN112270351A (zh) * 2020-10-24 2021-01-26 国网江苏省电力有限公司信息通信分公司 基于辅助分类生成对抗网络的半监督加密流量识别方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
YUHE Z.等: "Enhancement of real-time traffic data in navigation clients", 《13TH INTERNATIONAL IEEE CONFERENCE ON INTELLIGENT TRANSPORTATION SYSTEMS》 *
冯旸赫 等: "《在线半监督学习理论及方法》", 31 January 2019, 北京:国防工业出版社 *
娄岩主编: "《大数据应用基础》", 31 October 2018 *
文常保 等: "《人工神经网络理论及应用》", 31 March 2019, 西安:西安电子科技大学出版社 *
曾琦 等: "基于半监督深度生成对抗网络的图像识别方法", 《测控技术》 *
李杰 等: "基于生成对抗网络的网络流量特征伪装技术", 《计算机工程》 *
杭州市数据资源管理局 编著: "《数据资源管理》", 30 November 2019, 杭州:浙江大学出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947706A (zh) * 2021-12-20 2022-01-18 四川师范大学 一种基于生成对抗网络的图像多样性增强方法与***
CN113947706B (zh) * 2021-12-20 2022-06-28 四川师范大学 一种基于生成对抗网络的图像多样性增强方法与***
CN114553520A (zh) * 2022-02-21 2022-05-27 华南师范大学 网络攻击数据流合成方法、装置、电子设备及存储介质
CN114553520B (zh) * 2022-02-21 2023-11-21 华南师范大学 网络攻击数据流合成方法、装置、电子设备及存储介质
CN116737793A (zh) * 2023-05-29 2023-09-12 南方电网能源发展研究院有限责任公司 碳排放流生成方法、模型训练方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN112884075A (zh) 一种流量数据增强方法、流量数据分类方法及相关装置
US10496924B1 (en) Dictionary DGA detector model
CN110210617B (zh) 一种基于特征增强的对抗样本生成方法及生成装置
CN111615702B (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN109086654B (zh) 手写模型训练方法、文本识别方法、装置、设备及介质
CN112861648B (zh) 文字识别方法、装置、电子设备及存储介质
US11212297B2 (en) Access classification device, access classification method, and recording medium
CN111967609B (zh) 模型参数验证方法、设备及可读存储介质
CN112862093A (zh) 一种图神经网络训练方法及装置
CN113987236B (zh) 基于图卷积网络的视觉检索模型的无监督训练方法和装置
WO2023246146A1 (zh) 基于优化规则决策树的目标安全识别方法及装置
CN113422782A (zh) 基于大数据的云服务漏洞分析方法及人工智能分析***
CN111368289A (zh) 一种恶意软件检测方法和装置
CN112884121A (zh) 基于生成对抗深度卷积网络的流量识别方法
CN114422271B (zh) 数据处理方法、装置、设备及可读存储介质
CN111783812B (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN116992299A (zh) 区块链交易异常检测模型的训练方法、检测方法及装置
CN114492601A (zh) 资源分类模型的训练方法、装置、电子设备及存储介质
CN112437022B (zh) 网络流量识别方法、设备及计算机存储介质
US20170039484A1 (en) Generating negative classifier data based on positive classifier data
CN112801186A (zh) 一种验证图像生成方法、装置及设备
CN111126420A (zh) 一种建立识别模型的方法及装置
CN112149121A (zh) 一种恶意文件识别方法、装置、设备及存储介质
CN114282218A (zh) 一种攻击检测方法、装置、电子设备及存储介质
CN110414845B (zh) 针对目标交易的风险评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210601