CN116405330B - 基于迁移学习的网络异常流量识别方法、装置和设备 - Google Patents
基于迁移学习的网络异常流量识别方法、装置和设备 Download PDFInfo
- Publication number
- CN116405330B CN116405330B CN202310674715.4A CN202310674715A CN116405330B CN 116405330 B CN116405330 B CN 116405330B CN 202310674715 A CN202310674715 A CN 202310674715A CN 116405330 B CN116405330 B CN 116405330B
- Authority
- CN
- China
- Prior art keywords
- model
- network
- features
- texture
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 31
- 238000013526 transfer learning Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000010586 diagram Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 21
- 238000003066 decision tree Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 238000012706 support-vector machine Methods 0.000 claims description 11
- 238000007477 logistic regression Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 6
- 238000013508 migration Methods 0.000 description 6
- 230000005012 migration Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明的实施例提供了基于迁移学习的网络异常流量识别方法、装置和设备。所述方法包括获取网络流量数据,进行预处理;对预处理后的网络流量数据分别提取词向量图和纹理特征;对所述词向量图和纹理特征通过CNN网络模型进行特征提取,得到显著特征;将所述显著特征输入基于Bagging算法的集成模型,输出异常流量特征。以此方式,可以完成对不同设备收集到的不同类别的网络异常流量的准确识别,提高迁移学习的性能和效果。
Description
技术领域
本发明一般涉及网络安全领域,并且更具体地,涉及基于迁移学习的网络异常流量识别方法、装置和设备。
背景技术
随着互联网大数据时代的快速发展,网络流量日益增长。如今对于网络流量的分类方法越来越复杂,网络异常流量的识别问题也引起了人们的重视。网络流量的有效识别对于梳理网络流量业务链、定位流量故障点和数据包丢失位置具有重要意义。面对日益庞大的网络流量数据,需要提出有效的识别方法,以实现网络流量精细化管理、保障计算机和终端设备的平稳运行,并维护健康绿色的网络环境。
然而,现有网络流量数据类别繁多,缺乏普遍认可的数据收集和标记方法,不同数据的收集方法和场景,导致存在不同的特征信息。同时,针对特定任务,收集足够大且具有代表性的数据集非常困难,训练深度模型所需的时间较长,为解决这些问题,迁移学习方法应运而生。
迁移学习允许在源任务上训练的模型应用于不同的目标任务,但只有当模型学习的特征具有一定的泛化性时才会有效。因此,在选择源任务和目标任务时需要注意它们之间的相似性,并设计相应的迁移学习方法来获得最佳的迁移效果。网络流量数据可能来自不同的网络环境或时间段,而这些环境之间可能存在较大的差异。这种领域差异会导致源领域(训练数据)和目标领域(测试数据)之间的分布不一致,进而影响迁移学习的性能。同时,网络流量数据集的获取和标记通常需要大量的时间和资源。对于特定的目标任务,可能存在数据集规模不足的情况,这可能会限制迁移学习的效果。
发明内容
根据本发明的实施例,提供了一种基于迁移学习的网络异常流量识别方案。本方案克服了数据集限制,完成对不同设备收集到的不同类别的网络异常流量的准确识别。
在本发明的第一方面,提供了一种基于迁移学习的网络异常流量识别方法。该方法包括:
获取网络流量数据,进行预处理;
对预处理后的网络流量数据分别提取词向量图和纹理特征;
对所述词向量图和纹理特征通过CNN网络模型进行特征提取,得到显著特征;
将所述显著特征输入基于Bagging算法的集成模型,输出异常流量特征。
进一步地,所述预处理,包括:
对所述网络流量数据的序列中连续相同的元素,只保留其中一个元素,将剩余的网络流量数据的序列长度统一为预设序列长度;和/或
将所述网络流量数据的序列中的短序列流量删除,将剩余的网络流量数据的序列长度统一为预设序列长度;所述短序列流量为字节少于预设字节阈值的流量数据。
进一步地,对预处理后的网络流量数据提取词向量图,包括:
将预处理后的网络流量数据进行分词,进行编码转化后过滤,得到词汇特征;
利用word2vec动态微调方法对所述词汇特征进行动态微调,得到训练特征;
利用所述训练特征对嵌入矩阵进行训练,得到训练后的嵌入矩阵,并输出词向量图。
进一步地,对预处理后的网络流量数据提取纹理特征,包括:
将预处理后的网络流量数据以字节集形式存储,生成字节集对应的字节图;
将所述字节图分别用第一尺寸和第二尺寸进行表示,得到第一尺寸图和第二尺寸图;
对所述第一尺寸图使用SIFT描述子进行特征提取,得到第一浅层纹理特征,再将所述第一浅层纹理特征使用ORB描述子进行特征提取,得到第一深层纹理特征;以及,对所述第二尺寸图使用SIFT描述子进行特征提取,得到第二浅层纹理特征,再将所述第二浅层纹理特征使用ORB描述子进行特征提取,得到第二深层纹理特征;
将所述第一深层纹理特征和第二深层纹理特征进行结合,得到纹理特征。
进一步地,所述对所述词向量图和纹理特征通过CNN网络模型进行特征提取,得到显著特征,包括:
将所述词向量图和纹理特征输入CNN网络模型,得到CNN网络模型的输出结果;所述输出结果形成序列;
将所述CNN网络模型的输出结果中的前N个特征作为显著特征;其中,N为正整数。
进一步地,所述基于Bagging算法的集成模型为基于Bagging算法对基础学习器进行集成的模型,用于通过Bagging算法对各个基础学习器的输出结果进行投票,得到异常流量识别结果。
进一步地,所述基础学习器包括高斯朴素贝叶斯模型、支持向量机模型、决策树模型、逻辑回归模型和K近邻模型;
所述高斯朴素贝叶斯模型为:其中,/>表示类变量,/>表示特征或属性;
所述支持向量机模型为:其中,/>为样本,/>为样本到超平面的距离,其中/>表示超平面法向量的转置;b为偏置项;/>为向量范数,/>为给定系数;n为样本维数;
所述决策树模型的损失函数为:Entropy 其中,/>表示事件概率;K为决策树分类上限;
所述逻辑回归模型为:其中,m为CNN模型处理后的特征;
所述K近邻模型为:其中,/>为训练目标;/>为指示函数;/>为样本编号;/>为样本;h表示K近邻模型。
在本发明的第二方面,提供了一种基于迁移学习的网络异常流量识别装置。该装置包括:
获取模块,用于获取网络流量数据,进行预处理;
第一提取模块,用于对预处理后的网络流量数据分别提取词向量图和纹理特征;
第二提取模块,用于对所述词向量图和纹理特征通过CNN网络模型进行特征提取,得到显著特征;
输出模块,用于将所述显著特征输入基于Bagging算法的集成模型,输出异常流量特征。
在本发明的第三方面,提供了一种电子设备。该电子设备至少一个处理器;以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明第一方面的方法。
在本发明的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本发明第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征,亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本发明各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了根据本发明的实施例的基于迁移学习的网络异常流量识别方法的流程图;
图2示出了根据本发明的实施例的集成模型的集成学习框架示意图;
图3示出了根据本发明的实施例的基于迁移学习的网络异常流量识别装置的方框图;
图4示出了能够实施本发明的实施例的示例性电子设备的方框图;
其中,900为电子设备、901为计算单元、902为ROM、903为RAM、904为总线、905为I/O接口、906为输入单元、907为输出单元、908为存储单元、909为通信单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1示出了本发明实施例的基于迁移学习的网络异常流量识别方法的流程图。
该方法包括:
S101、获取网络流量数据,进行预处理。
在本实施例中,通过设定sFlow方式的采样率,收集公共数据集 DARPA2000、CTU13、CIC-AAGM2017 和 CICMalDroid 2020。sFlow agent采集数据报文前128个字节,封装后发往sFlow receiver,数据报文中包括完整源和目标的MAC地址、协议类型、TCP/UDP、端口号、应用层协议以及URL信息,采集到的网络流量以HTTP流和TCP流存储为Pcap格式的文件。
作为本发明的一种实施例,所述预处理过程,包括:
首先过滤 Pcap 文件,选择特定时间段内的数据包,按照时间顺序严格排列并删除重复包。
将过滤结果存储到新文件中,对其进行归一化处理。
对所述网络流量数据的序列中连续相同的元素,只保留其中一个元素,将剩余的网络流量数据的序列长度统一为预设序列长度。例如,使用预设的序列长度(L)统一数据序列长度。长度大于 L的序列,保留其前 L个字符,长度小于 L的序列,通过填充零来使其长度统一。
将所述网络流量数据的序列中的短序列流量删除,将剩余的网络流量数据的序列长度统一为预设序列长度;所述短序列流量为字节少于预设字节阈值的流量数据。
作为本发明的一种实施例,在获取网络流量数据之前,需要确定任务类型。
所述确定任务类型具体包括:
基于协议、应用、业务类型、网站、用户动作、操作***等来对任务类别进行分类。
协议分类:该任务类别根据网络流量中所使用的协议对流量进行分类。常见的协议包括HTTP、FTP、DNS、SMTP等。对于协议分类任务,可以识别流量中所使用的具体协议类型。
应用分类:该任务类别根据网络流量所对应的应用程序对流量进行分类。例如,可以识别流量中的Web浏览器、邮件客户端、P2P应用等。这有助于了解流量中具体的应用使用情况。
业务类型分类:该任务类别根据网络流量所属的业务类型进行分类。一般将流量分为电子商务、社交媒体、视频流媒体等不同的业务类型。这有助于了解网络中不同业务类型的流量分布和行为特征。
S102、对预处理后的网络流量数据分别提取词向量图和纹理特征。
在本实施例中,对预处理后的网络流量数据提取词向量图,包括:
将预处理后的网络流量数据进行分词,进行编码转化后过滤,得到词汇特征。
具体地,所述过滤为黑名单过滤,包括:
定义一个黑名单列表,其中包含不希望出现的流量数据。对于编码后的数据,逐条进行检查,如果匹配到黑名单中的任何项,则将其过滤掉得到最终的词汇特征。
利用word2vec动态微调方法对所述词汇特征进行动态微调,得到训练特征。
所述word2vec动态微调方法,包括:
使用大规模通用语料库对word2vec模型进行初始预训练。使用词汇特征对预训练模型进行进一步训练并更新词向量和模型参数。使用训练好的微调模型对目标任务进行评估,并根据需要调整超参数、训练迭代次数等。
具体地,还可以将得到的训练特征转换为大量具有相同含义的向量,以达到对同一特征进行多种解释的目的。
利用所述训练特征对嵌入矩阵进行训练,得到训练后的嵌入矩阵,并输出词向量图。
在本实施例中,采用8维嵌入向量训练小数据集,1024维训练大数据集,选择HTTP和TCP中300个维度,其更高维的嵌入需要更多数据以实现更精细的词相关性。嵌入矩阵为M×N的矩阵,其中M为嵌入向量大小,N为独特网络特征数量。
现有网络攻击者意识到网络流量识别的技术和方法,并采取了一系列措施来隐藏其恶意活动,提高攻击的成功率和隐蔽性。针对此类异常流量经常被修改以规避静态和动态识别的问题,本发明还需要对预处理后的网络流量数据提取纹理特征,具体包括:
将预处理后的网络流量数据以字节集形式存储,生成字节集对应的字节图;字节集例如,。所述字节集对应的字节图即为灰度异常流量图像。
将所述字节图分别用第一尺寸和第二尺寸进行表示,得到第一尺寸图和第二尺寸图;所述第一尺寸例如为229×229;第二尺寸/>例如256×256。
对所述第一尺寸图使用SIFT描述子进行特征提取,得到第一浅层纹理特征,再将所述第一浅层纹理特征使用ORB描述子进行特征提取,得到第一深层纹理特征;以及,对所述第二尺寸图使用SIFT描述子进行特征提取,得到第二浅层纹理特征,再将所述第二浅层纹理特征使用ORB描述子进行特征提取,得到第二深层纹理特征。
在本实施例中,SIFT识别纹理内的关键点以及局部特征用于图像比较、对象跟踪和场景识别。ORB能够以较快速度提取特征点及其描述,充分利用两种技术的优势,将SIFT和ORB描述子相结合获得代表纹理特征的像素值,该方法可以有效地抵御署名修改和动态特征检测规避等反检测技术。
将所述第一深层纹理特征和第二深层纹理特征进行结合,得到纹理特征。
S103、对所述词向量图和纹理特征通过CNN网络模型进行特征提取,得到显著特征。
在本实施例中,对所述词向量图和纹理特征通过CNN网络模型进行特征提取,得到显著特征,包括:
将所述词向量图和纹理特征输入CNN网络模型,得到CNN网络模型的输出结果;所述输出结果形成序列。
将所述CNN网络模型的输出结果中的前N个特征作为显著特征;其中,N为正整数。
在本实施例中,所述CNN网络包含核为32,64,128的三个卷积层、最大池化层、dropout层和全连接层。所述词向量图和纹理特征先后通过32通道10×10卷积核,64通道7×7卷积核,128通道4×4卷积核。每次卷积后都输送至最大池化层,随后使用ReLU激活,最后输送至全连接层并使用dropout。最大池化减小参数空间的大小、参数的范围以及计算成本。作为本发明的一种实施例,将批归一化层嵌入CNN网络中,批归一化使结果平均值接近零,标准差接近1。在此CNN网络中,使用Softmax和Dropout层解决过拟合问题。
在本实施例中,CNN网络的输出为:其中,/>为第一层中第k个神经元的参数偏差,/>为第l − 1层中第i个神经元的输出,/>表示(l-1)层;1D表示卷积维数是1维;/>为从第l − 1层第i个神经元到第l层第k个神经元的核强度,f()为激活函数,Con()为卷积操作。
通过分析深层特征后,从CNN网络的输出中提取前N个显著特征用于异常流量识别。N例如取250,即取前250个显著特征。
S104、将所述显著特征输入基于Bagging算法的集成模型,输出异常流量特征。
在本实施例中,采用基于bagging的集成方法,首先使用训练数据构建基础学习器。所述基础学习器包括高斯朴素贝叶斯模型、支持向量机模型、决策树模型、逻辑回归模型和K近邻模型。随后使用测试数据验证基本模型的效率,其中每个基本模型产生唯一结果并综合各基本模型结果产生最优结果,集成模型的集成学习框架如图3所示。其中朴素贝叶斯算法执行分类任务,支持向量机算法做结果预测,决策树算法做规则提取,逻辑回归算法与K近邻算法用于加强二分类结果。将深层特征和显著特征输入至基于bagging的集成模型中,用于异常流量的分类及检测。
在本实施例中,所述高斯朴素贝叶斯模型为:其中,/>表示类变量,/>表示特征或属性,/>;此高斯朴素贝叶斯的条件概率源自正态分布,如下式所示:/>其中/>为标准差,/>为均值。
在本实施例中,为处理非线性离散问题,构造Sigmoid作为核函数的支持向量机,通过支持向量机模型计算SVM分类器的软裕度。
所述支持向量机模型为:其中,/>为样本,/>为样本到超平面的距离,其中/>表示超平面法向量的转置;b为偏置项;/>为向量范数,/>为给定系数;n为样本维数。
在本实施例中,在决策树模型中使用熵来估计决策节点的混乱程度,熵值的范围在0到1之间,熵值越低表示节点的纯度越高。
所述决策树模型的损失函数为:Entropy 其中,/>表示事件概率;K为决策树分类上限;Entropy为决策树模型的损失函数,仅当新节点的熵值低于其父节点时才允许进行决策树***。
在本实施例中,为更好的预测分类问题,采用逻辑回归模型来准确预测二元结果。所述逻辑回归模型为:其中,m为CNN模型处理后的特征。
在本实施例中,为了快速高效地解决建立在特殊数据集上的预测分类问题,采用K近邻模型。所述K近邻模型为:其中,/>为训练目标;/>为指示函数,即/>时I为1,否则I为0;/>为样本编号;/>为样本;h表示K近邻模型;。
具体的,本发明基于Bagging算法对各个基础学习器进行了集成,形成了集成模型,将各个基础学习器的输出结果进行累加,作为最终的输出结果。由于Bagging算法根据各个基础学习器的结果进行投票,最终投票结果即为输出结果。
由于使用随机样本来训练多个基础学习器,因此可以减少对任意单个样本的过度拟合,且面对高维或带有噪声的数据能够具有很强的鲁棒性。
根据本发明的实施例,能够兼顾来自不同网络环境或时间段的网络流量数据存在的差异性,在网络异常流量识别中,采用word2vec提取词向量特征,将字节流转变为图像,结合SIFT与ORB提取纹理特征,结合词向量特征与纹理特征提取出浅层异常流量特征;随后使用基于CNN的集成学习模型完成对深层特征的提取并识别出网络异常流量;提高迁移学习的性能和效果。克服了数据集限制,完成对不同设备收集到的不同类别的网络异常流量的准确识别。提出的特征提取框架也大大减少了网络训练时间,并降低了对数据集数量以及标签数的要求。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
如图3所示,装置300包括:
获取模块310,用于获取网络流量数据,进行预处理;
第一提取模块320,用于对预处理后的网络流量数据分别提取词向量图和纹理特征;
第二提取模块330,用于对所述词向量图和纹理特征通过CNN网络模型进行特征提取,得到显著特征;
输出模块340,用于将所述显著特征输入基于Bagging算法的集成模型,输出异常流量特征。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
图4示出了可以用来实施本发明的实施例的电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如方法S101~S104。例如,在一些实施例中,方法S101~S104可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的方法S101~S104的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法S101~S104。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (7)
1.一种基于迁移学习的网络异常流量识别方法,其特征在于,包括:
获取网络流量数据,进行预处理;
对预处理后的网络流量数据分别提取词向量图和纹理特征;
对所述词向量图和纹理特征通过CNN网络模型进行特征提取,得到显著特征;
将所述显著特征输入基于Bagging算法的集成模型,输出异常流量特征;
对预处理后的网络流量数据提取纹理特征,包括:
将预处理后的网络流量数据以字节集形式存储,生成字节集对应的字节图;
将所述字节图分别用第一尺寸和第二尺寸进行表示,得到第一尺寸图和第二尺寸图;
对所述第一尺寸图使用SIFT描述子进行特征提取,得到第一浅层纹理特征,再将所述第一浅层纹理特征使用ORB描述子进行特征提取,得到第一深层纹理特征;以及,对所述第二尺寸图使用SIFT描述子进行特征提取,得到第二浅层纹理特征,再将所述第二浅层纹理特征使用ORB描述子进行特征提取,得到第二深层纹理特征;
将所述第一深层纹理特征和第二深层纹理特征进行结合,得到纹理特征;
所述基于Bagging算法的集成模型为基于Bagging算法对基础学习器进行集成的模型,用于通过Bagging算法对各个基础学习器的输出结果进行投票,得到异常流量识别结果;
所述基础学习器包括高斯朴素贝叶斯模型、支持向量机模型、决策树模型、逻辑回归模型和K近邻模型;
所述高斯朴素贝叶斯模型为:其中,/>表示类变量,/>表示特征或属性;
所述支持向量机模型为:其中,为样本,/>为样本到超平面的距离,其中/>表示超平面法向量的转置;b为偏置项;/>为向量范数,/>为给定系数;n为样本维数;
所述决策树模型的损失函数为:Entropy 其中,/>表示事件概率;K为决策树分类上限;
所述逻辑回归模型为:其中,m为CNN模型处理后的特征;
所述K近邻模型为:其中,/>为训练目标;/>为指示函数;/>为样本编号;/>为样本;h表示K近邻模型。
2.根据权利要求1所述的方法,其特征在于,所述预处理,包括:
对所述网络流量数据的序列中连续相同的元素,只保留其中一个元素,将剩余的网络流量数据的序列长度统一为预设序列长度;和/或
将所述网络流量数据的序列中的短序列流量删除,将剩余的网络流量数据的序列长度统一为预设序列长度;所述短序列流量为字节少于预设字节阈值的流量数据。
3.根据权利要求1所述的方法,其特征在于,对预处理后的网络流量数据提取词向量图,包括:
将预处理后的网络流量数据进行分词,进行编码转化后过滤,得到词汇特征;
利用word2vec动态微调方法对所述词汇特征进行动态微调,得到训练特征;
利用所述训练特征对嵌入矩阵进行训练,得到训练后的嵌入矩阵,并输出词向量图。
4.根据权利要求1所述的方法,其特征在于,所述对所述词向量图和纹理特征通过CNN网络模型进行特征提取,得到显著特征,包括:
将所述词向量图和纹理特征输入CNN网络模型,得到CNN网络模型的输出结果;所述输出结果形成序列;
将所述CNN网络模型的输出结果中的前N个特征作为显著特征;其中,N为正整数。
5.一种基于迁移学习的网络异常流量识别装置,其特征在于,包括:
获取模块,用于获取网络流量数据,进行预处理;
第一提取模块,用于对预处理后的网络流量数据分别提取词向量图和纹理特征;
第二提取模块,用于对所述词向量图和纹理特征通过CNN网络模型进行特征提取,得到显著特征;
输出模块,用于将所述显著特征输入基于Bagging算法的集成模型,输出异常流量特征;
对预处理后的网络流量数据提取纹理特征,包括:
将预处理后的网络流量数据以字节集形式存储,生成字节集对应的字节图;
将所述字节图分别用第一尺寸和第二尺寸进行表示,得到第一尺寸图和第二尺寸图;
对所述第一尺寸图使用SIFT描述子进行特征提取,得到第一浅层纹理特征,再将所述第一浅层纹理特征使用ORB描述子进行特征提取,得到第一深层纹理特征;以及,对所述第二尺寸图使用SIFT描述子进行特征提取,得到第二浅层纹理特征,再将所述第二浅层纹理特征使用ORB描述子进行特征提取,得到第二深层纹理特征;
将所述第一深层纹理特征和第二深层纹理特征进行结合,得到纹理特征;
所述基于Bagging算法的集成模型为基于Bagging算法对基础学习器进行集成的模型,用于通过Bagging算法对各个基础学习器的输出结果进行投票,得到异常流量识别结果;
所述基础学习器包括高斯朴素贝叶斯模型、支持向量机模型、决策树模型、逻辑回归模型和K近邻模型;
所述高斯朴素贝叶斯模型为:其中,/>表示类变量,/>表示特征或属性;
所述支持向量机模型为:其中,为样本,/>为样本到超平面的距离,其中/>表示超平面法向量的转置;b为偏置项;/>为向量范数,/>为给定系数;n为样本维数;
所述决策树模型的损失函数为:Entropy 其中,/>表示事件概率;K为决策树分类上限;
所述逻辑回归模型为:其中,m为CNN模型处理后的特征;
所述K近邻模型为:其中,/>为训练目标;/>为指示函数;/>为样本编号;/>为样本;h表示K近邻模型。
6.一种电子设备,包括至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其特征在于,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。
7.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310674715.4A CN116405330B (zh) | 2023-06-08 | 2023-06-08 | 基于迁移学习的网络异常流量识别方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310674715.4A CN116405330B (zh) | 2023-06-08 | 2023-06-08 | 基于迁移学习的网络异常流量识别方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116405330A CN116405330A (zh) | 2023-07-07 |
CN116405330B true CN116405330B (zh) | 2023-08-22 |
Family
ID=87014629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310674715.4A Active CN116405330B (zh) | 2023-06-08 | 2023-06-08 | 基于迁移学习的网络异常流量识别方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116405330B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110971603A (zh) * | 2019-12-04 | 2020-04-07 | 四川虹微技术有限公司 | 一种基于深度学习的异常流量检测方法及*** |
CN112819039A (zh) * | 2021-01-14 | 2021-05-18 | 华中科技大学 | 基于多尺度集成特征编码的纹理识别模型建立方法及应用 |
CN113824729A (zh) * | 2021-09-27 | 2021-12-21 | 杭州安恒信息技术股份有限公司 | 一种加密流量检测方法、***及相关装置 |
CN114445671A (zh) * | 2021-12-22 | 2022-05-06 | 中国科学院信息工程研究所 | 一种基于设备类型的异常流量检测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220074635A (ko) * | 2020-11-27 | 2022-06-03 | 광주과학기술원 | 암호화된 보안 채널을 통해 악의적인 활동을 탐지하기 위한 방법 및 장치 |
-
2023
- 2023-06-08 CN CN202310674715.4A patent/CN116405330B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110971603A (zh) * | 2019-12-04 | 2020-04-07 | 四川虹微技术有限公司 | 一种基于深度学习的异常流量检测方法及*** |
CN112819039A (zh) * | 2021-01-14 | 2021-05-18 | 华中科技大学 | 基于多尺度集成特征编码的纹理识别模型建立方法及应用 |
CN113824729A (zh) * | 2021-09-27 | 2021-12-21 | 杭州安恒信息技术股份有限公司 | 一种加密流量检测方法、***及相关装置 |
CN114445671A (zh) * | 2021-12-22 | 2022-05-06 | 中国科学院信息工程研究所 | 一种基于设备类型的异常流量检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116405330A (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326764A (zh) | 训练图像识别模型和图像识别的方法和装置 | |
CN110929848B (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN113806746B (zh) | 基于改进cnn网络的恶意代码检测方法 | |
JP2023531350A (ja) | サンプル画像を増分する方法、画像検出モデルの訓練方法及び画像検出方法 | |
WO2023179429A1 (zh) | 一种视频数据的处理方法、装置、电子设备及存储介质 | |
CN112800919A (zh) | 一种检测目标类型视频方法、装置、设备以及存储介质 | |
CN114612743A (zh) | 深度学习模型的训练方法、目标对象识别方法和装置 | |
CN113971733A (zh) | 一种基于超图结构的模型训练方法、分类方法及装置 | |
CN114090601B (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
CN114898266A (zh) | 训练方法、图像处理方法、装置、电子设备以及存储介质 | |
CN114037059A (zh) | 预训练模型、模型的生成方法、数据处理方法及装置 | |
CN117095460A (zh) | 基于长短时关系预测编码的自监督群体行为识别方法及其识别*** | |
CN115482436B (zh) | 图像筛选模型的训练方法、装置以及图像筛选方法 | |
CN114724144B (zh) | 文本识别方法、模型的训练方法、装置、设备及介质 | |
CN116405330B (zh) | 基于迁移学习的网络异常流量识别方法、装置和设备 | |
CN114882334B (zh) | 用于生成预训练模型的方法、模型训练方法及装置 | |
CN115622810A (zh) | 一种基于机器学习算法的业务应用识别***及方法 | |
CN112926368B (zh) | 一种识别障碍物的方法和装置 | |
CN114359811A (zh) | 数据鉴伪方法、装置、电子设备以及存储介质 | |
CN114863162A (zh) | 对象分类方法、深度学习模型的训练方法、装置和设备 | |
CN115809687A (zh) | 一种图像处理网络的训练方法及装置 | |
CN113989152A (zh) | 图像增强方法、装置、设备以及存储介质 | |
CN114021637A (zh) | 一种基于度量空间下去中心化应用加密流量分类方法及装置 | |
CN110929118A (zh) | 网络数据处理方法、设备、装置、介质 | |
CN113139483A (zh) | 人体行为识别方法、装置、设备、存储介质以及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |