CN115334005B - 基于剪枝卷积神经网络和机器学习的加密流量识别方法 - Google Patents
基于剪枝卷积神经网络和机器学习的加密流量识别方法 Download PDFInfo
- Publication number
- CN115334005B CN115334005B CN202210337870.2A CN202210337870A CN115334005B CN 115334005 B CN115334005 B CN 115334005B CN 202210337870 A CN202210337870 A CN 202210337870A CN 115334005 B CN115334005 B CN 115334005B
- Authority
- CN
- China
- Prior art keywords
- neural network
- convolutional neural
- model
- machine learning
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 55
- 238000010801 machine learning Methods 0.000 title claims abstract description 20
- 238000013138 pruning Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 210000002569 neuron Anatomy 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 238000003066 decision tree Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 8
- 238000013145 classification model Methods 0.000 abstract description 7
- 239000000284 extract Substances 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2483—Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Hardware Design (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,包括数据预处理、构建CNN模型、模型剪枝、使用CNN提取高级特征向量和使用LightGBM分类的步骤。本发明的基于剪枝卷积神经网络和机器学习的加密流量识别方法,无需手工提取特征,利用CNN模型自动从原始流量文件中自动提取高级特征并进行分类,同时构建了一种基于剪枝的卷积神经网络模型,减少模型参数量,降低了计算开销,使用LightGBM根据加密流量的高级特征进行分类,以弱分类器来达到强分类的效果,提高了准确率,最终的模型会达到比其他分类模型更高的性能和精准率。
Description
技术领域
本发明涉及网络流量识别技术领域,尤其涉及一种基于剪枝卷积神经网络和机器学习的加密流量识别方法。
背景技术
网络流量识别技术在网络服务质量控制、流量计费、网络资源使用规划、恶意软件检测等应用中有着重要作用。随着网络信息技术的不断发展,越来越多的软件使用了SSL、SSH、VPN和Tor等加密或者端口混淆技术,加密流量的占比越来越高。
调查统计机构Netmarketshare称截至到2019年10月,加密Web流量的比例已经超过了九成,互联网上排名前100位的非Google网站中默认使用HTTPS的已有90位,在全球范围内,美国的HTTPS比例为92%,俄罗斯为85%,日本为80%,印尼为74%。这一变化对当前的流量检测方法带来了新的挑战,使得网络流量识别和分析变得愈加困难。
流量分类的前提便是不同流量的特征是独一无二的,当前的流量分类方法大致可以分为以下几种:
1)基于端口的分类方法。该方法基于应用服务都使用了IANA所分配的端口且保持不变这一前提上,根据流量所使用的端口号来区分不同流量类型。
2)基于有效载荷的分类方法。该方法又称为深度包检测,即根据静态的有效载荷特征来区分协议,可用于一些粗粒度的流量分类上。
3)基于统计学的分类方法。此类方法采用机器学习技术较多,是根据流量的统计学上的特征来区分不同类型的。这些特征大致可分为包级别和流级别两种,前者包括一些包长度、包到达间隔时间和方向等,后者包括一些上下行流量包数量、网络流时长、不同类型的流量包所占比例等。
当前的流量分类方法具有以下缺点:
1)基于端口的分类方法,当遇到应用软件使用了IANA规定之外的端口时,准确率会大大降低,并且恶意软件流量会使用随机或动态端口,该方法不能识别恶意软件流量。
2)基于有效载荷的分类方法,流量加密后会破坏它所依赖的载荷特征,只适合粗粒度的流量分类或未完全加密的场景。
3)基于深度学习的分类方法,该方法训练出来的分类模型参数量巨大,限制了模型部署条件。
发明内容
本发明针对基于深度学习的分类方法训练出来的分类模型参数量巨大的技术问题,提出一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,无需手工提取特征,直接从原始流量文件中自动提取高级特征并进行分类,并且对模型进行剪枝,减少模型参数量,卷积神经网络用于提取特征自动提取,LightGBM以弱分类器来达到强分类的效果,最终的模型会达到比其他分类模型更高的性能和精准率,适用于加密流量的高效检测。
为了实现上述目的,本发明提供如下技术方案:
本发明提供的一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,包括以下步骤:
S1:数据预处理;
S2:构建CNN模型,卷积神经网络主要由以下几层组成:输入层、卷积层、ReLU层、池层和全连接层;
S3:模型剪枝,重新训练模型,经过若干次迭代后得到一个优化的CNN模型;
S4:优化后CNN模型输出一个256维度的特征向量,作为LightGBM分类器的输入;
S5:LightGBM分类,LightGBM算法中的梯度决策树是通过对给定的训练数据集进行多次迭代得到的,每次迭代时,用梯度信息重新调整一棵新树,以加入前一棵迭代树,在函数空间中,上述过程为一个连续变化的线性组合过程,LightGBM集成所有叶节点的权重作为构建树的参考,然后确定分割点并计算一阶梯度和二阶梯度,经过多次迭代后,使得LightGBM分类器性能达到最优。
与现有技术相比,本发明的有益效果为:
本发明提供的一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,无需手工提取特征,利用CNN模型自动从原始流量文件中自动提取高级特征并进行分类,同时构建了一种基于剪枝的卷积神经网络模型,减少模型参数量,降低了计算开销,使用LightGBM根据加密流量的高级特征进行分类,以弱分类器来达到强分类的效果,提高了准确率,最终的模型会达到比其他分类模型更高的性能和精准率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于剪枝卷积神经网络和机器学习的加密流量识别方法流程图。
图2为本发明实施例提供的数据预处理流程图。
图3为本发明实施例提供的剪枝步骤流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,如图1所示,包括以下步骤:
S1:数据预处理:对原始流量文件进行处理,以适合CNN模型的标准输入;
步骤S1输入的加密流量使用公开数据集ISCXVPN2016,该数据集包含了6种传统的加密流量:Email、Chat、Streaming、File transfer、VoIP和P2P,6种对应的VPN加密流量:VPN-Email、VPN-Chat、VPN-Streaming、VPN-File transfer、VPN-VoIP和VPN-P2P。流量数据均是由Wireshark和tcpdump工具在真实环境中获取,共计28GB。
数据预处理步骤具体流程如图2所示。其中关键点如下:
去除不相关报文:即去除影响模型预测或有效载荷为空的数据包。真实环境中的流量会包含一些用于TCP建立、断开连接的数据包,比如包含SYN、ACK或FIN标志位的数据包,还有一些用于域名解析的数据包和有效载荷为空的数据包,这些数据包对于流量分类是不起作用的,反而会影响分类准确性,所以需要去除。
去除以太网帧头:以太网帧头包含了MAC地址,用于确认网络设备位置和在网络节点之间传输数据包,但是在流量分类中作用很小,所以需要删除以太网帧头。
掩盖IP地址:IP地址在流量分类中对模型有过拟合的影响,需要将源IP地址与目标IP地址置为0。
检查包长度:本方法使用了卷积神经网络,要求固定大小的输入,但是数据包的长度并不是一成不变的,所以要检查数据包的长度,如果长度小于规定的输入大小,需要在数据包末尾进行零填充。如果长度大于固定的输入大小,需要对数据包进行截断。确保流量包的长度符合CNN模型的输入大小。
归一化:不同评价指标往往具有不同的量纲,为解决数据指标之间的可比性,需要对数据包进行归一化处理,以字节为单位除以255,使得输入大小都在0到1之间。
S2:构建CNN模型。
卷积神经网络是一种包括卷积计算并具有深度结构的前馈神经网络,是目前最流行的深度学习算法之一。随着学习理论的深入和计算性能的提高,卷积神经网络得到了迅速的发展并已应用于计算机视觉、自然语言处理等。卷积神经网络主要由以下几层组成:输入层、卷积层、ReLU层、池层和全连接层。通过将这些层叠加,形成一个完整的卷积神经网络,最终输出256维度的特征向量,供后续的LightGBM分类器使用。输出的特征向量维度过高易导致结果过拟合且增加开销,维度过低会使得分类准确率降低,本发明经实验证明,特征向量维度选取为256最为合适。本发明使用的CNN模型结构如表1所示,其中关键点如下:
卷积层:Conv2D,二维卷积,流量数据包可转换成灰度图像,更适合用二维卷积进行处理。
激活函数:ReLU,如公式(1)所示,只在输入大于0时才激活一个节点,当输入小于0时,输出为0,当输入大于0时,输出等于输入。该函数可以去除卷积结果中的负值,保留正值不变。
ReLU(x)=max(0,x) (1)
批标准化:Batch Normalization,和普通的数据标准化类似,是将分散的数据统一的一种做法,也是优化神经网络的一种方法,把数据分成小批量进行随机梯度下降。如公式(2)所示,其中αi是某个神经元原始激活值,为经过标准化操作后的规范值。
损失函数:交叉熵损失函数(CrossEntropy Loss),如公式(3)所示,表示真实概率分布与预测概率分布之间的差异,交叉熵的值越小,模型预测效果越好。
输出层的激活函数:Softmax,当一个样本经过Softmax层并输出一个T*1的向量时,就会取这个向量中值最大的那个数的index作为这个样本的预测标签,公式如(4)所示。
Dropout:训练的时候会随机停止训练一些神经元,提高模型的鲁棒性,本模型设置dropout为0.5。
表1 CNN模型主要参数
网络层 | 操作 | 输入 | 卷积核 | 步长 | 填充 | 输出 | 权重数量 |
1 | Conv2D+ReLU+BN | 30*30 | 3*3 | 1 | Same | 8*30*30 | 80 |
2 | Conv2D+ReLU+BN | 8*30*30 | 3*3 | 2 | Same | 16*14*14 | 1168 |
3 | Conv2D+ReLU+BN | 16*14*14 | 3*3 | 2 | Same | 32*6*6 | 4640 |
4 | Conv2D+ReLU+BN | 32*6*6 | 3*3 | 1 | Same | 64*4*4 | 18496 |
5 | 全连接+Dropout | 64*4*4 | Null | Null | None | 256 | 262400 |
S3:模型剪枝,重新训练模型,经过若干次迭代后得到一个优化的CNN模型;
通常来说,神经网络的层数和参数越多,结果越好,但与此同时,消耗的计算资源随之增多。所以可使用剪枝技术来去除那些对预测结果影响较小的参数,根据模型的神经元对输出结果贡献程度进行排序,摒弃低贡献度的神经元,这样使得模型运行速度更快、模型文件更小。如图3所示,假设第一层有4个神经元,第二层有5个神经元,那么相应的权重矩阵就是4*5大小。剪枝过程如下:
将相邻两层神经元权重按照绝对值大小进行排序;
根据剪枝速率P剪去绝对值较小(如0.4)的权重,即将其置为0。
剪枝后,重新训练模型,经过若干次迭代后得到一个优化的CNN模型。
S4:优化后CNN模型输出一个256维度的特征向量,作为LightGBM分类器的输入;
S5:LightGBM分类。
LightGBM是一个实现了GBDT算法的框架,GBDT是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。与使用常规的CNN的全连接层作为分类器相比,LightGBM分类器支持高效率并行训练,并且具有更快的训练速度、更低的内存消耗,支持分布式快速处理海量数据,降低了检测模型的部署要求。
LightGBM算法中的梯度决策树是通过对给定的训练数据集进行多次迭代得到的,每次迭代时,用梯度信息重新调整一棵新树,以加入前一棵迭代树,在函数空间中,上述过程为一个连续变化的线性组合过程,如公式(6)所示:
χ为迭代树的函数空间,fq(xi)表示第q个树中第i个示例的预测值。
树的每个分割节点采用最佳分割点,在构建树模型时实际使用了贪婪方法。LightGBM集成所有叶节点的权重作为构建树的参考,然后确定分割点并计算一阶梯度和二阶梯度。
对于任何给定的树结构,LightGBM定义了每个特征在迭代树中被分割的总次数T_Split和特征在所有决策树中被用来分割后所带来的增益总和T_Gain作为衡量特征重要性的度量标准,具体定义如下:
其中,K为K轮迭代产生的K棵决策树。
经过多次迭代后,使得LightGBM分类器性能达到最优。
LightGBM与原始的CNN模型分类相比,提高了准确率和召回率,识别速度也有所加快。
本发明提供的一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,无需手工提取特征,利用CNN模型自动从原始流量文件中自动提取高级特征并进行分类,同时构建了一种基于剪枝的卷积神经网络模型,减少模型参数量,降低了计算开销,使用LightGBM根据加密流量的高级特征进行分类,以弱分类器来达到强分类的效果,提高了准确率,最终的模型会达到比其他分类模型更高的性能和精准率(见表2)。
表2本申请额模型与其他分类模型的对比
方法 | 准确率 | 召回率 | F1值 |
1D CNN | 0.89 | 0.89 | 0.89 |
CNN+LSTM | 0.91 | 0.91 | 0.91 |
SAE | 0.92 | 0.92 | 0.92 |
2D-CNN | 0.91 | 0.91 | 0.91 |
剪枝前的模型 | 0.90 | 0.86 | 0.88 |
剪枝后的模型(本申请) | 0.94 | 0.93 | 0.93 |
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特殊进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,其特征在于,包括以下步骤:
S1:数据预处理;步骤S1输入的加密流量使用公开数据集ISCXVPN2016,该数据集包含了6种传统的加密流量:Email、Chat、Streaming、File transfer、VoIP和P2P,6种对应的VPN加密流量:VPN-Email、VPN-Chat、VPN-Streaming、VPN-File transfer、VPN-VoIP和VPN-P2P;
S2:构建CNN模型,卷积神经网络主要由以下几层组成:输入层、卷积层、ReLU层、池层和全连接层;
S3:模型剪枝,重新训练模型,经过若干次迭代后得到一个优化的CNN模型;
S4:优化后CNN模型输出一个256维度的特征向量,作为LightGBM分类器的输入;
S5:LightGBM分类,LightGBM算法中的梯度决策树是通过对给定的训练数据集进行多次迭代得到的,每次迭代时,用梯度信息重新调整一棵新树,以加入前一棵迭代树,在函数空间中,上述过程为一个连续变化的线性组合过程,LightGBM集成所有叶节点的权重作为构建树的参考,然后确定分割点并计算一阶梯度和二阶梯度,经过多次迭代后,使得LightGBM分类器性能达到最优。
2.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法,其特征在于,步骤S1输入的流量数据均是由Wireshark和tcpdump工具在真实环境中获取,共计28GB。
3.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法,其特征在于,步骤S1数据预处理过程包括:
S11:读取pcap文件;
S12:去除不相关报文;
S13:去除以太网帧头;
S14:掩盖IP地址;
S15:检查包长度是否大于规定的输入大小,是则对数据包进行截断,否则在数据包末尾进行零填充,生成字节矩阵;
S16:对数据包进行归一化处理,以字节为单位除以255,使得输入大小都在0到1之间。
4.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法,其特征在于,步骤S2通过将输入层、卷积层、ReLU层、池层和全连接层的叠加,形成一个完整的卷积神经网络;
其中,卷积层为二维卷积;
激活函数ReLU如公式(1)所示:
ReLU(x)=max(0,x) (1)
批标准化如公式(2)所示:
其中αi是某个神经元原始激活值,为经过标准化操作后的规范值;
损失函数如公式(3)所示:
输出层的激活函数Softmax公式如(4)所示:
本模型设置dropout为0.5。
5.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法,其特征在于,步骤S3剪枝过程如下:
S31:将相邻两层神经元权重按照绝对值大小进行排序;
S32:根据剪枝速率P剪去绝对值小于0.4的权重,即将其置为0;
S33:剪枝后,重新训练模型,经过若干次迭代后得到一个优化的CNN模型。
6.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法,其特征在于,步骤S5的连续变化的线性组合过程如公式(6)所示:
χ为迭代树的函数空间,fq(xi)表示第q个树中第i个示例的预测值。
7.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法,其特征在于,步骤S5对于任何给定的树结构,LightGBM定义了每个特征在迭代树中被分割的总次数T_Split和特征在所有决策树中被用来分割后所带来的增益总和T_Gain作为衡量特征重要性的度量标准,具体定义如下:
其中,K为K轮迭代产生的K棵决策树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210337870.2A CN115334005B (zh) | 2022-03-31 | 2022-03-31 | 基于剪枝卷积神经网络和机器学习的加密流量识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210337870.2A CN115334005B (zh) | 2022-03-31 | 2022-03-31 | 基于剪枝卷积神经网络和机器学习的加密流量识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115334005A CN115334005A (zh) | 2022-11-11 |
CN115334005B true CN115334005B (zh) | 2024-03-22 |
Family
ID=83916441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210337870.2A Active CN115334005B (zh) | 2022-03-31 | 2022-03-31 | 基于剪枝卷积神经网络和机器学习的加密流量识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115334005B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116743506B (zh) * | 2023-08-14 | 2023-11-21 | 南京信息工程大学 | 一种基于四元数卷积神经网络的加密流量识别方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472778A (zh) * | 2019-07-29 | 2019-11-19 | 上海电力大学 | 一种基于Blending集成学习的短期负荷预测方法 |
CN112380781A (zh) * | 2020-11-30 | 2021-02-19 | 中国人民解放军国防科技大学 | 基于再分析资料和不平衡学习的卫星观测补全方法 |
WO2021088499A1 (zh) * | 2019-11-04 | 2021-05-14 | 西安交通大学 | 一种基于动态网络表征的***虚开识别方法及*** |
CN113159109A (zh) * | 2021-03-04 | 2021-07-23 | 北京邮电大学 | 一种基于数据驱动的无线网络流量预测方法 |
WO2021190379A1 (zh) * | 2020-03-25 | 2021-09-30 | 第四范式(北京)技术有限公司 | 实现自动机器学习的方法及装置 |
CN113489751A (zh) * | 2021-09-07 | 2021-10-08 | 浙江大学 | 一种基于深度学习的网络流量过滤规则转化方法 |
CN113537497A (zh) * | 2021-06-07 | 2021-10-22 | 贵州优联博睿科技有限公司 | 基于动态抽样的梯度提升决策树模型构建优化方法 |
CN113779608A (zh) * | 2021-09-17 | 2021-12-10 | 神谱科技(上海)有限公司 | 多方纵向联邦学习LightGBM训练中基于WOE掩码的数据保护方法 |
CN113901448A (zh) * | 2021-09-03 | 2022-01-07 | 燕山大学 | 基于卷积神经网络和轻量级梯度提升机的入侵检测方法 |
WO2022041394A1 (zh) * | 2020-08-28 | 2022-03-03 | 南京邮电大学 | 一种网络加密流量识别方法及装置 |
CN114189350A (zh) * | 2021-10-20 | 2022-03-15 | 北京交通大学 | 一种基于LightGBM的列车通信网络入侵检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932480B (zh) * | 2018-06-08 | 2022-03-15 | 电子科技大学 | 基于1d-cnn的分布式光纤传感信号特征学习与分类方法 |
CN111860628A (zh) * | 2020-07-08 | 2020-10-30 | 上海乘安科技集团有限公司 | 一种基于深度学习的流量识别与特征提取方法 |
-
2022
- 2022-03-31 CN CN202210337870.2A patent/CN115334005B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472778A (zh) * | 2019-07-29 | 2019-11-19 | 上海电力大学 | 一种基于Blending集成学习的短期负荷预测方法 |
WO2021088499A1 (zh) * | 2019-11-04 | 2021-05-14 | 西安交通大学 | 一种基于动态网络表征的***虚开识别方法及*** |
WO2021190379A1 (zh) * | 2020-03-25 | 2021-09-30 | 第四范式(北京)技术有限公司 | 实现自动机器学习的方法及装置 |
WO2022041394A1 (zh) * | 2020-08-28 | 2022-03-03 | 南京邮电大学 | 一种网络加密流量识别方法及装置 |
CN112380781A (zh) * | 2020-11-30 | 2021-02-19 | 中国人民解放军国防科技大学 | 基于再分析资料和不平衡学习的卫星观测补全方法 |
CN113159109A (zh) * | 2021-03-04 | 2021-07-23 | 北京邮电大学 | 一种基于数据驱动的无线网络流量预测方法 |
CN113537497A (zh) * | 2021-06-07 | 2021-10-22 | 贵州优联博睿科技有限公司 | 基于动态抽样的梯度提升决策树模型构建优化方法 |
CN113901448A (zh) * | 2021-09-03 | 2022-01-07 | 燕山大学 | 基于卷积神经网络和轻量级梯度提升机的入侵检测方法 |
CN113489751A (zh) * | 2021-09-07 | 2021-10-08 | 浙江大学 | 一种基于深度学习的网络流量过滤规则转化方法 |
CN113779608A (zh) * | 2021-09-17 | 2021-12-10 | 神谱科技(上海)有限公司 | 多方纵向联邦学习LightGBM训练中基于WOE掩码的数据保护方法 |
CN114189350A (zh) * | 2021-10-20 | 2022-03-15 | 北京交通大学 | 一种基于LightGBM的列车通信网络入侵检测方法 |
Non-Patent Citations (4)
Title |
---|
Fourier神经网络非线性拟合性能优化研究;陈诗雨;李小勇;杜杨杨;谢福起;;武汉大学学报(工学版)(第03期);全文 * |
Research_on_condition_assessment_for_distribution_vacuum_switch_cabinets_based_on_multi-source_information_fusion;chaoqun kang;《2015 5th International Conference on Electric Utility Deregulation and Restructuring and Power Technologies (DRPT)》;全文 * |
基于一维卷积神经网络的网络流量分类方法;李道全;王雪;于波;黄泰铭;;计算机工程与应用(第03期);全文 * |
流量的集成学习与重采样均衡分类方法;顾兆军;吴优;赵春迪;周景贤;;计算机工程与应用(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115334005A (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Byte segment neural network for network traffic classification | |
CN113515770B (zh) | 基于隐私保护确定目标业务模型的方法及装置 | |
CN108768986B (zh) | 一种加密流量分类方法及服务器、计算机可读存储介质 | |
CN114615093B (zh) | 基于流量重构与继承学习的匿名网络流量识别方法及装置 | |
CN111565156B (zh) | 一种对网络流量识别分类的方法 | |
CN112769752B (zh) | 一种基于机器学习集成模型的网络入侵检测方法 | |
CN113472751B (zh) | 一种基于数据包头的加密流量识别方法及装置 | |
CN115334005B (zh) | 基于剪枝卷积神经网络和机器学习的加密流量识别方法 | |
CN111817971B (zh) | 一种基于深度学习的数据中心网络流量拼接方法 | |
Coelho et al. | BACKORDERS: using random forests to detect DDoS attacks in programmable data planes | |
Ghalehgolabi et al. | Intrusion detection system using genetic algorithm and data mining techniques based on the reduction | |
Yan et al. | Principal Component Analysis Based Network Traffic Classification. | |
Chen et al. | Ride: Real-time intrusion detection via explainable machine learning implemented in a memristor hardware architecture | |
Min et al. | Online Internet traffic identification algorithm based on multistage classifier | |
CN114095447A (zh) | 一种基于知识蒸馏与自蒸馏的通信网络加密流量分类方法 | |
CN114124437B (zh) | 基于原型卷积网络的加密流量识别方法 | |
Lei et al. | Optimizing traffic classification using hybrid feature selection | |
CN112367325A (zh) | 基于闭合频繁项挖掘的未知协议报文聚类方法和*** | |
CN112839051A (zh) | 基于卷积神经网络的加密流量实时分类方法及装置 | |
Kong et al. | Fast abnormal identification for large scale internet traffic | |
CN113746707B (zh) | 一种基于分类器及网络结构的加密流量分类方法 | |
CN115442309B (zh) | 一种基于图神经网络的包粒度网络流量分类方法 | |
CN117034124B (zh) | 基于小样本学习的恶意流量分类方法、***、设备及介质 | |
Tatarnikova et al. | Detection of network attacks by deep learning method | |
CN115580490B (zh) | 工业互联网边缘设备行为检测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |