CN114826776B - 一种用于加密恶意流量的弱监督检测方法及*** - Google Patents

一种用于加密恶意流量的弱监督检测方法及*** Download PDF

Info

Publication number
CN114826776B
CN114826776B CN202210628110.7A CN202210628110A CN114826776B CN 114826776 B CN114826776 B CN 114826776B CN 202210628110 A CN202210628110 A CN 202210628110A CN 114826776 B CN114826776 B CN 114826776B
Authority
CN
China
Prior art keywords
sample
unlabeled
module
labeled
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210628110.7A
Other languages
English (en)
Other versions
CN114826776A (zh
Inventor
齐法制
刘珺怡
王佳荣
颜田
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of High Energy Physics of CAS
Original Assignee
Institute of High Energy Physics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of High Energy Physics of CAS filed Critical Institute of High Energy Physics of CAS
Priority to CN202210628110.7A priority Critical patent/CN114826776B/zh
Publication of CN114826776A publication Critical patent/CN114826776A/zh
Application granted granted Critical
Publication of CN114826776B publication Critical patent/CN114826776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种用于加密恶意流量的弱监督检测方法及***,其方法包括:S1:将采集的数据流包转化成图片,构建训练集Xi,对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled;S2:构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,生成器G基于随机噪声n得到生成样本Xgenerated=G(n);将生成样本Xgenerated、标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入判别器D,预测每类样本的分布概率,经过分类器C得到Xi的包级分类结果;S3:将带有包级分类标签的Xi进行多示例分割,并输入基于多示例学习的卷积神经网络,预测得到Xi的示例级分类结果。本发明提供的方法可有效地进行加密恶意流量的细粒度检测。

Description

一种用于加密恶意流量的弱监督检测方法及***
技术领域
本发明涉及信息安全技术领域,具体涉及一种用于加密恶意流量的弱监督检测方法及***。
背景技术
当前世界网络安全形势复杂多变,恶意流量的检测在抵御和防范攻击行为,在保障网络空间安全方面起着重要作用。流量加密传输方式的广泛应用,在保护通信安全和隐私的同时许多恶意软件也借此技术隐藏攻击信息,使得传统的基于端口和基于DPI的恶意流量检测方法失效。为了应对加密恶意流量检测,研究者们提出了基于机器学习的检测方法。基于机器学习的加密恶意流量检测方法通常构建统计特征,训练加密流量分类模型进行恶意流量识别,一方面,特征选择建立在丰富的经验、专业知识的基础上,需要耗费大量时间和人力。另一方面,大部分流量分类方案都采用有监督的学习方法训练模型,然而,获取大型细粒度标记流量训练集同样是一项繁琐的工作。
因此,如何利用少量粗标记样本和大量未标记样本实现加密恶意流量的细粒度分类成为一个亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提供一种用于加密恶意流量的弱监督检测方法及***。
本发明技术解决方案为:一种用于加密恶意流量的弱监督检测方法,包括:
步骤S1:采集网络数据流,对所述数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled
步骤S2:构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,所述生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将所述生成样本Xgenerated、所述训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入所述判别器D,预测每类样本的分布概率,经过所述分类器C得到粗分类的Xi的包级分类结果;
步骤S3:构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和Ladder Network模块;将带有粗分类标签的Xi经过所述多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予所述得分不同的权重,最后通过Ladder Network模块,预测得到细分类的Xi的示例级分类结果。
本发明与现有技术相比,具有以下优点:
1、本发明公开了一种用于加密恶意流量的弱监督检测方法,采用深度学习方法,运用图像分类技术解决流量分类问题,能够直接从原始数据中学习特征,有效地进行加密恶意流量的细粒度检测。
2、本发明针对弱标记样本问题,提出了一种新的基于生成对抗网络和多示例的弱监督学习框架,可用少量粗标记样本和大量未标记样本进行模型训练,减少了样本标记的工作量。
3、本发明利用Ladder Network作为分类网络,提高了在少量标记样本情况下加密恶意流量检测的准确率。
附图说明
图1为本发明实施例中一种用于加密恶意流量的弱监督检测方法的流程图;
图2为本发明实施例中从原始流量数据转换为单通道灰度图的流程示意图;
图3为本发明实施例中半监督生成对抗网络的结构示意图;
图4为本发明实施例中基于多示例学习的卷积神经网络的结构示意图;
图5为本发明实施例中一种用于加密恶意流量的弱监督检测***的结构框图。
具体实施方式
本发明提供了一种用于加密恶意流量的弱监督检测方法,采用深度学习方法,运用图像分类技术解决流量分类问题,能够直接从原始数据中学习特征,有效地进行加密恶意流量的细粒度检测。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种用于加密恶意流量的弱监督检测方法,包括下述步骤:
步骤S1:采集网络数据流,对数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled
步骤S2:构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将生成样本Xgenerated、训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入判别器D,预测每类样本的分布概率,经过分类器C得到粗分类的Xi的包级分类结果;
步骤S3:构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和LadderNetwork模块;将带有粗分类标签的Xi经过多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予得分不同的权重,最后通过LadderNetwork模块,预测得到细分类的Xi的示例级分类结果。
在一个实施例中,上述步骤S1:采集网络数据流,对数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled,具体包括:
步骤S11:对采集到的网络数据流进行分割,得到小型pcap数据包;对pcap数据包进行数据清洗,删除冗余数据,得到清洗后的pcap数据包;
首先,采集网络上的会话,包括双向流中的所有数据包,将所有具有相同五元组(源IP、目标IP、源端口、目标端口、传输协议)的一组数据包定义为属于同一数据流。利用开源工具SplitCap根据TCP和UDP会话分割原始数据流,拆分出多个小型pcap数据包。
其次,进行数据清洗。为获得pcap数据包中的有效负载,需要删除较小的会话,剔除pcap文件中的Global Header和Packet Header等非数据内容的字段,并对重复的数据包进行删除合并减少冗余。
步骤S12:对清洗后的pcap数据包进行裁剪,转化成单通道灰度图片Xi,其中,i∈[1,M],M为数据包个数;对Xi中部分样本进行标注,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled,其中,Y为标记样本的标签,具体包括:
对数据清洗后的每个pcap数据包进行裁剪,本发明实施例以784(28*28)字节为一组,长度不够时在末尾填充0x00。以每个字节表示为一个像素,从而将每个数据包转化成大小为28*28的单通道灰度图片。将得到的所有图片构建训练集Xi,i∈[1,M],M为数据包个数,并选择Xi中部分样本进行标记,得到标记样本(Xlabeled,Y),Xi中其余样本作为未标记样本Xunlabeled。例如,按照数据包的类别,将数据包标记为FTP或者木马程序。
图2展示了从原始的流量数据转换为单通道灰度图的流程示意图。
在一个实施例中,步骤S2:构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将生成样本Xgenerated、训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入判别器D,预测每类样本的分布概率,经过分类器C得到粗分类的Xi的包级分类结果,具体包括:
步骤S21:生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);
本步骤中,生成器的目标是使得生成样本尽可能接近真实样本,使得判别器无法区分生成样本和真实样本;
步骤S22:将生成样本Xgenerated、标记样本(Xlabeled,Y)和未标记样本Xunlabeled输入判别器D,利用判别器D得到每类样本的分布概率,再经过分类器C,得到每个Xi对应的包级标签Yi,其中Yi包括N+1个类别,其中前N类为标记样本(Xlabeled,Y)中Y所包含的类别,第N+1类为生成样本;
本步骤中,将生成样本Xgenerated、真实样本中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入判别器,判别器能够学习每标签类别的分布概率;联合训练生成器G和判别器/分类器D/C,利用下述损失函数作为优化目标函数,不断迭代更新和优化半监督生成对抗网络的参数,直到达到纳什均衡则网络收敛;
步骤S23:分别构建有标签样本损失函数Llabeled、无标签样本损失函数Lunlabeled和生成样本损失函数Lgenerated,如公式(1)~(3)所示,用于优化半监督生成对抗网络的参数:
Figure BDA0003678647840000041
Figure BDA0003678647840000042
Figure BDA0003678647840000043
其中,pdata为真实样本分布,pG为生成样本分布,pmodel为预测分类的概率;
步骤S24:半监督生成对抗网络的优化目标函数,如公式(4)所示:
Figure BDA0003678647840000051
其中,G为生成器,D为判别器。
如图3所示,为半监督生成对抗网络的结构示意图。
本发明实施例改进了半监督生成对抗网络,通过极大极小博弈来寻找生成器和判别器的纳什均衡。生成器根据输入的随机噪声训练网络,产生尽可能接近真实数据的样本。判别器联合带标签的少量真实样本、不带标签的大量真实样本以及不带标签的生成样本训练网络,生成粗粒度的分类标签。
由于训练集中只对少量pcap数据包标注了标签,且该标签是粗粒度的,经过半监督生成对抗网络基于pcap数据包进行分类,得到的包级分类标签也是粗粒度的,即标记为正常的pcap包均为正常流量,而标记为恶意的pcap包中可能也包含部分正常流量,故需要进行细粒度检测,对于pcap包中恶意流量的具***置进行标注。为了实现此目的,本发明实施例引入了多示例学习的方法,以示例instance作为最小训练单位,定义一个pcap包为一组示例的集合,利用步骤S2得到pcap数据包的包级粗粒度标签进行下述步骤S3的示例级细粒度标签的预测。
在一个实施例中,上述步骤S3:构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和Ladder Network模块;将带有粗分类标签的Xi经过多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予得分不同的权重,最后通过LadderNetwork模块,预测得到细分类的Xi的示例级分类结果,具体包括:
步骤S31:将带有包级标签Yi的Xi输入多示例学习标注模块,将包级标签Yi映射到标签域
Figure BDA0003678647840000052
即Xi被标记为正常0或可疑1:
令图片
Figure BDA0003678647840000053
其中,m为Xi中示例个数;如果Xi对应的pcap数据包中包含至少一条恶意流量,表明Xi中包含至少一个正示例,则
Figure BDA0003678647840000054
即Xi被标记为1,表示Xi为可疑数据包;如果Xi对应的pcap数据包中全部为正常流量,则
Figure BDA0003678647840000055
即Xi被标记为0,表示Xi正常数据包,标签域
Figure BDA0003678647840000056
与示例级标签
Figure BDA0003678647840000057
间的关系表示如公式(5)所示:
Figure BDA0003678647840000058
其中,
Figure BDA0003678647840000059
为Xi的示例级标签,
Figure BDA00036786478400000510
表示正示例,但在网络训练过程中
Figure BDA00036786478400000511
是未知的隐藏变量;
步骤S32:将被标记为可疑的Xi中的每个示例
Figure BDA0003678647840000061
输入卷积神经网络的卷积层进行特征提取,并使用池化层将提取的特征转换为N维特征向量
Figure BDA0003678647840000062
计算特征向量
Figure BDA0003678647840000063
在每个维度的得分
Figure BDA0003678647840000064
其中,k=1,2,...,N;如公式(6)所示;基于所有示例的得分,共同构成score map:
Figure BDA0003678647840000065
其中,变换函数fφ(·)将输入的
Figure BDA0003678647840000066
转换为特征向量
Figure BDA0003678647840000067
函数gψ(·)用于计算特征向量得分;φ、ψ均为卷积神经网络的参数;
在本步骤中,只将步骤S31中Xi被标记为1,即可疑的数据包输入卷积神经网络的卷积层进行特征提取,并转换为N维特征向量,其中N对应于前述标记样本(Xlabeled,Y)中Y所包含的类别数,计算Xi中各个示例被分为对应类别的得分,构建score map。
步骤S33:将
Figure BDA0003678647840000068
输入多示例池化模块,利用注意力机制将score map中的得分赋予不同权重进行聚合后得到聚合向量θ,θ及每个示例的注意力权重
Figure BDA0003678647840000069
如公式(7)~(8)所示:
Figure BDA00036786478400000610
Figure BDA00036786478400000611
其中,W是基于多示例学习的卷积神经网络的参数;b是多示例池化模块的参数,ωi是卷积层的中间特征向量;
本步骤中多示例池化模块(MILPooling)中通过加入注意力机制将score map中的得分赋予不同权重进行聚合,赋予关键示例更高的权重,以便更好地关注关键示例。
步骤S34:将聚合向量θ输入基于Ladder Network的分类器,输出两个预测标签:有噪声的输出标签
Figure BDA00036786478400000612
用于计算损失函数,无噪声的输出标签
Figure BDA00036786478400000613
用于分类:
分类器输出预测类别的概率分布如公式(9)所示:
Figure BDA00036786478400000614
其中,
Figure BDA00036786478400000615
为Ladder Network第l层与的第l-1层之间的权值,
Figure BDA00036786478400000616
为非加噪编码器第l层的隐变量,T为转置;
Figure BDA00036786478400000617
Figure BDA00036786478400000618
的无噪声标签;其中,i∈[1,M],j∈[1,m],i∈[1,M],L是Ladder network的层数;
如图4展示的基于多示例学习的卷积神经网络的结构示意图,其中,LadderNetwork是一个L层的编码器-解码器结构,由一个加噪编码器、一个非加噪编码器以及一个解码器构成。加噪编码器添加高斯噪声N(0,σ2)到
Figure BDA0003678647840000071
得到有噪声的输出标签
Figure BDA0003678647840000072
用于计算损失函数。解码器对加噪编码器的每层输出进行重构,提高分类器的抗噪性能。非加噪编码器的输出标签
Figure BDA0003678647840000073
用于得到分类结果;
步骤S35:构建总损失函数Ltotal
构建监督损失函数Lsupervised卷积神经网络产生的交叉熵损失,如公式(10)所示:
Figure BDA0003678647840000074
其中,
Figure BDA0003678647840000075
表示第,i个数据包的第,j个示例的有噪声的输出标签;
构建非监督损失Lunsupervised由LadderNetwork每层的重构误差产生,如公式(11)所示:
Figure BDA0003678647840000076
其中,λl为LadderNetwork中解码器第l层的损失函数权重,
Figure BDA0003678647840000077
分别为非加噪编码器和解码器第l层的中间层输出;ql为第l层的节点数量;
构建总损失函数,如公式(12)所示:
Ltotal=Lsupervised+Lunsupervised(12)
根据总体损失函数更新基于多示例学习的卷积神经网络参数如公式(13)所示:
Figure BDA0003678647840000078
其中,超参数λ为常数。
本发明公开了一种用于加密恶意流量的弱监督检测方法,采用深度学习方法,运用图像分类技术解决流量分类问题,能够直接从原始数据中学习特征,有效地进行加密恶意流量的细粒度检测。本发明针对弱标记样本问题,提出了一种新的基于生成对抗网络和多示例学习的弱监督学习框架,可用少量粗标记样本和大量未标记样本进行模型训练,减少了样本标记的工作量。本发明利用Ladder Network作为分类网络,提高了在少量标记样本情况下加密恶意流量检测的准确率。
实施例二
如图5所示,本发明实施例提供了一种用于加密恶意流量的弱监督检测***,包括下述模块:
构建样本集模块41,用于采集网络数据流,对数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled
粗粒度分类模块42,用于构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将生成样本Xgenerated、训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入判别器D,预测每类样本的分布概率,经过分类器C得到粗分类的Xi的包级分类结果;
细粒度分类模块43,用于构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和Ladder Network模块;将带有粗分类标签的Xi经过多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予得分不同的权重,最后通过LadderNetwork模块,预测得到细分类的Xi的示例级分类结果。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (4)

1.一种用于加密恶意流量的弱监督检测方法,其特征在于,包括:
步骤S1:采集网络数据流,对所述数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled
步骤S2:构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,所述生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将所述生成样本Xgenerated、所述训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入所述判别器D,预测每类样本的分布概率,经过所述分类器C得到粗分类的Xi的包级分类结果;
步骤S3:构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和Ladder Network模块;将带有粗分类标签的Xi经过所述多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予所述得分不同的权重,最后通过Ladder Network模块,预测得到细分类的Xi的示例级分类结果,具体包括:
步骤S31:将带有包级标签Yi的Xi输入多示例学习标注模块,将包级标签Yi映射到标签域
Figure FDA0004147685680000011
即Xi被标记为正常0或可疑1:
令图片
Figure FDA0004147685680000012
其中,m为Xi中示例个数;如果Xi对应的pcap数据包中包含至少一条恶意流量,表明Xi中包含至少一个正示例,则
Figure FDA0004147685680000013
即Xi被标记为1,表示Xi为可疑数据包;如果Xi对应的pcap数据包中全部为正常流量,则
Figure FDA0004147685680000014
即Xi被标记为0,表示Xi正常数据包,标签域
Figure FDA0004147685680000015
与示例级标签
Figure FDA0004147685680000016
间的关系表示如公式(5)所示:
Figure FDA0004147685680000017
其中,
Figure FDA0004147685680000018
为Xi的示例级标签,
Figure FDA0004147685680000019
表示正示例;
步骤S32:将被标记为可疑的Xi中的每个示例
Figure FDA00041476856800000110
输入所述卷积神经网络的卷积层进行特征提取,并使用池化层将提取的特征转换为N维特征向量
Figure FDA00041476856800000111
计算所述特征向量
Figure FDA00041476856800000112
在每个维度的得分
Figure FDA00041476856800000113
其中,k=1,2,...,N;如公式(6)所示;基于所有示例的得分,共同构成score map:
Figure FDA0004147685680000021
其中,变换函数fφ(·)将输入的
Figure FDA0004147685680000022
转换为特征向量
Figure FDA0004147685680000023
函数gψ(·)用于计算所述特征向量得分;φ、ψ均为所述卷积神经网络的参数;
步骤S33:将
Figure FDA0004147685680000024
输入多示例池化模块,利用注意力机制将score map中的得分赋予不同权重进行聚合后得到聚合向量θ,θ及每个示例的注意力权重
Figure FDA0004147685680000025
如公式(7)~(8)所示:
Figure FDA0004147685680000026
Figure FDA0004147685680000027
其中,W是基于多示例学习的卷积神经网络的参数;b是所述多示例池化模块的参数,ωi是所述卷积层的中间特征向量;
步骤S34:将所述聚合向量θ输入基于Ladder Network的分类器,输出两个预测标签:有噪声的输出标签
Figure FDA0004147685680000028
用于计算损失函数,无噪声的输出标签
Figure FDA0004147685680000029
用于分类:
分类器输出预测类别的概率分布如公式(9)所示:
Figure FDA00041476856800000210
其中,
Figure FDA00041476856800000211
为Ladder Network第l层与的第l-1层之间的权值,
Figure FDA00041476856800000212
为非加噪编码器第l层的隐变量,T为转置;
Figure FDA00041476856800000213
Figure FDA00041476856800000214
的无噪声标签;其中,i∈[1,M],j∈[1,m],i∈[1,M],L为Laddernetwork的层数;
步骤S35:构建总损失函数Ltotal
构建监督损失函数Lsupervised所述卷积神经网络产生的交叉熵损失,如公式(10)所示:
Figure FDA00041476856800000215
其中,
Figure FDA00041476856800000216
表示第i个数据包的第j个示例的有噪声的输出标签;
构建非监督损失Lunsupervised由Ladder Network每层的重构误差产生,如公式(11)所示:
Figure FDA00041476856800000217
其中,λl为Ladder Network中解码器第l层的损失函数权重,
Figure FDA00041476856800000218
分别为非加噪编码器和解码器第l层的中间层输出;ql为第l层的节点数量;
构建总损失函数,如公式(12)所示:
Ltotal=Lsupervised+Lunsupervised    (12)
根据所述总损失函数更新所述基于多示例学习的卷积神经网络参数如公式(13)所示:
Figure FDA0004147685680000031
其中,超参数λ为常数。
2.根据权利要求1所述的用于加密恶意流量的弱监督检测方法,其特征在于,所述步骤S1:采集网络数据流,对所述数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled,具体包括:
步骤S11:对采集到的网络数据流进行分割,得到M个pcap数据包;对所述pcap数据包进行数据清洗,删除冗余数据,得到清洗后pcap数据包;
步骤S12:对所述清洗后的pcap数据包进行裁剪,转化成单通道灰度图片,以此构建训练集Xi,其中,i∈[1,M],M为数据包个数;对Xi中部分样本进行标注,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled,其中,Y为所述标记样本的标签。
3.根据权利要求2所述的用于加密恶意流量的弱监督检测方法,其特征在于,所述步骤S2:构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,所述生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将所述生成样本Xgenerated、所述训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入所述判别器D,预测每类样本的分布概率,经过所述分类器C得到粗分类的Xi的包级分类结果,具体包括:
步骤S21:生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);
步骤S22:将所述生成样本Xgenerated、所述标记样本(Xlabeled,Y)和所述未标记样本Xunlabeled输入判别器D,利用所述判别器D得到每类样本的分布概率,再经过分类器C,得到每个Xi对应的包级标签Yi,其中Yi包括N+1个类别,其中前N类为所述标记样本(Xlabeled,Y)中Y所包含的类别,第N+1类为生成样本;
步骤S23:分别构建有标签样本损失函数Llabeled、无标签样本损失函数Lunlabeled和生成样本损失函数Lgenerated,如公式(1)~(3)所示,用于优化所述半监督生成对抗网络的参数:
Figure FDA0004147685680000032
Figure FDA0004147685680000033
Figure FDA0004147685680000034
其中,pdata为真实样本分布,pG为生成样本分布,pmodel为预测分类的概率;
步骤S24:所述半监督生成对抗网络的优化目标函数,如公式(4)所示:
Figure FDA0004147685680000041
其中,G为生成器,D为判别器。
4.一种用于加密恶意流量的弱监督检测***,其特征在于,包括下述模块:
构建样本集模块,用于采集网络数据流,对所述数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled
粗粒度分类模块,用于构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,所述生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将所述生成样本Xgenerated、所述训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入所述判别器D,预测每类样本的分布概率,经过所述分类器C得到粗分类的Xi的包级分类结果;
细粒度分类模块,用于构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和Ladder Network模块;将带有粗分类标签的Xi经过所述多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予所述得分不同的权重,最后通过LadderNetwork模块,预测得到细分类的Xi的示例级分类结果,具体包括:
步骤S31:将带有包级标签Yi的Xi输入多示例学习标注模块,将包级标签Yi映射到标签域
Figure FDA0004147685680000042
即Xi被标记为正常0或可疑1:
令图片
Figure FDA0004147685680000043
其中,m为Xi中示例个数;如果Xi对应的pcap数据包中包含至少一条恶意流量,表明Xi中包含至少一个正示例,则
Figure FDA0004147685680000044
即Xi被标记为1,表示Xi为可疑数据包;如果Xi对应的pcap数据包中全部为正常流量,则
Figure FDA0004147685680000045
即Xi被标记为0,表示Xi正常数据包,标签域
Figure FDA0004147685680000046
与示例级标签
Figure FDA0004147685680000047
间的关系表示如公式(5)所示:
Figure FDA0004147685680000048
其中,
Figure FDA0004147685680000049
为Xi的示例级标签,
Figure FDA00041476856800000410
表示正示例;
步骤S32:将被标记为可疑的Xi中的每个示例
Figure FDA00041476856800000411
输入所述卷积神经网络的卷积层进行特征提取,并使用池化层将提取的特征转换为N维特征向量
Figure FDA0004147685680000051
计算所述特征向量
Figure FDA0004147685680000052
在每个维度的得分
Figure FDA0004147685680000053
其中,k=1,2,...,N;如公式(6)所示;基于所有示例的得分,共同构成score map:
Figure FDA0004147685680000054
其中,变换函数fφ(·)将输入的
Figure FDA0004147685680000055
转换为特征向量
Figure FDA0004147685680000056
函数gψ(·)用于计算所述特征向量得分;φ、ψ均为所述卷积神经网络的参数;
步骤S33:将
Figure FDA0004147685680000057
输入多示例池化模块,利用注意力机制将score map中的得分赋予不同权重进行聚合后得到聚合向量θ,θ及每个示例的注意力权重
Figure FDA0004147685680000058
如公式(7)~(8)所示:
Figure FDA0004147685680000059
Figure FDA00041476856800000510
其中,W是基于多示例学习的卷积神经网络的参数;b是所述多示例池化模块的参数,ωi是所述卷积层的中间特征向量;
步骤S34:将所述聚合向量θ输入基于Ladder Network的分类器,输出两个预测标签:有噪声的输出标签
Figure FDA00041476856800000511
用于计算损失函数,无噪声的输出标签
Figure FDA00041476856800000512
用于分类:
分类器输出预测类别的概率分布如公式(9)所示:
Figure FDA00041476856800000513
其中,
Figure FDA00041476856800000514
为Ladder Network第l层与的第l-1层之间的权值,
Figure FDA00041476856800000515
为非加噪编码器第l层的隐变量,T为转置;
Figure FDA00041476856800000516
Figure FDA00041476856800000517
的无噪声标签;其中,i∈[1,M],j∈[1,m],i∈[1,M],L为Laddernetwork的层数;
步骤S35:构建总损失函数Ltotal
构建监督损失函数Lsupervised所述卷积神经网络产生的交叉熵损失,如公式(10)所示:
Figure FDA00041476856800000518
其中,
Figure FDA00041476856800000519
表示第i个数据包的第j个示例的有噪声的输出标签;
构建非监督损失Lunsupervised由Ladder Network每层的重构误差产生,如公式(11)所示:
Figure FDA00041476856800000520
其中,λl为Ladder Network中解码器第l层的损失函数权重,
Figure FDA0004147685680000061
分别为非加噪编码器和解码器第l层的中间层输出;ql为第l层的节点数量;
构建总损失函数,如公式(12)所示:
Ltotal=Lsupervised+Lunsupervised    (12)
根据所述总损失函数更新所述基于多示例学习的卷积神经网络参数如公式(13)所示:
Figure FDA0004147685680000062
其中,超参数λ为常数。
CN202210628110.7A 2022-06-06 2022-06-06 一种用于加密恶意流量的弱监督检测方法及*** Active CN114826776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210628110.7A CN114826776B (zh) 2022-06-06 2022-06-06 一种用于加密恶意流量的弱监督检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210628110.7A CN114826776B (zh) 2022-06-06 2022-06-06 一种用于加密恶意流量的弱监督检测方法及***

Publications (2)

Publication Number Publication Date
CN114826776A CN114826776A (zh) 2022-07-29
CN114826776B true CN114826776B (zh) 2023-05-02

Family

ID=82521329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210628110.7A Active CN114826776B (zh) 2022-06-06 2022-06-06 一种用于加密恶意流量的弱监督检测方法及***

Country Status (1)

Country Link
CN (1) CN114826776B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101817B (zh) * 2018-08-13 2023-09-01 亚信科技(成都)有限公司 一种识别恶意文件类别的方法及计算设备
CN116915512B (zh) * 2023-09-14 2023-12-01 国网江苏省电力有限公司常州供电分公司 电网中通信流量的检测方法、检测装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11182691B1 (en) * 2014-08-14 2021-11-23 Amazon Technologies, Inc. Category-based sampling of machine learning data
US20180024968A1 (en) * 2016-07-22 2018-01-25 Xerox Corporation System and method for domain adaptation using marginalized stacked denoising autoencoders with domain prediction regularization
CA2948499C (en) * 2016-11-16 2020-04-21 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
US10624558B2 (en) * 2017-08-10 2020-04-21 Siemens Healthcare Gmbh Protocol independent image processing with adversarial networks
EP3625727A1 (en) * 2017-11-14 2020-03-25 Google LLC Weakly-supervised action localization by sparse temporal pooling network
CN108510000B (zh) * 2018-03-30 2021-06-15 北京工商大学 复杂场景下行人细粒度属性的检测与识别方法
CA3061717A1 (en) * 2018-11-16 2020-05-16 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN110320162B (zh) * 2019-05-20 2021-04-23 广东省智能制造研究所 一种基于生成对抗网络的半监督高光谱数据定量分析方法
US11245691B1 (en) * 2020-01-15 2022-02-08 Ledgerdomain Inc. Secure messaging in a blockchain network
CN112598024B (zh) * 2020-12-03 2022-08-09 天津理工大学 一种基于深度多示例学习和自注意力的医学图像分类方法
CN114124551B (zh) * 2021-11-29 2023-05-23 中国电子科技集团公司第三十研究所 一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法

Also Published As

Publication number Publication date
CN114826776A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114826776B (zh) 一种用于加密恶意流量的弱监督检测方法及***
CN111585997B (zh) 一种基于少量标注数据的网络流量异常检测方法
Zhang et al. Deep learning–based network application classification for SDN
CN113079069B (zh) 一种面向大规模加密网络流量的混合粒度训练及分类方法
CN110751222A (zh) 基于cnn和lstm的在线加密流量分类方法
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及***
CN113489751A (zh) 一种基于深度学习的网络流量过滤规则转化方法
CN112434628A (zh) 基于主动学习和协同表示的小样本极化sar图像分类方法
CN116405419A (zh) 一种基于小样本学习的未知网络协议分类方法
Yan et al. TL-CNN-IDS: transfer learning-based intrusion detection system using convolutional neural network
Chen et al. Ride: Real-time intrusion detection via explainable machine learning implemented in a memristor hardware architecture
Wang et al. A two-phase approach to fast and accurate classification of encrypted traffic
CN114095447A (zh) 一种基于知识蒸馏与自蒸馏的通信网络加密流量分类方法
CN112383488B (zh) 一种适用于加密与非加密数据流的内容识别方法
CN117633657A (zh) 基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及计算机可读存储介质
CN117391188A (zh) 基于联邦ai计算的物联网模型训练方法
Xu et al. Trafficgcn: Mobile application encrypted traffic classification based on gcn
CN114979017B (zh) 基于工控***原始流量的深度学习协议识别方法及***
CN114338437B (zh) 网络流量分类方法、装置、电子设备及存储介质
CN114884894B (zh) 一种基于迁移学习的半监督网络流量分类方法
CN113904961B (zh) 一种用户行为识别方法、***、设备及存储介质
CN115688000A (zh) Sdn环境下基于改进的残差卷积网络的细粒度流量分类方法
KR102526935B1 (ko) 네트워크 침입 탐지 시스템 및 네트워크 침입 탐지 방법
Zhang et al. Encrypted network traffic classification: A data driven approach
CN115442309B (zh) 一种基于图神经网络的包粒度网络流量分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant