CN114006870A - 一种基于自监督卷积子空间聚类网络的网络流量识别方法 - Google Patents

一种基于自监督卷积子空间聚类网络的网络流量识别方法 Download PDF

Info

Publication number
CN114006870A
CN114006870A CN202111270837.4A CN202111270837A CN114006870A CN 114006870 A CN114006870 A CN 114006870A CN 202111270837 A CN202111270837 A CN 202111270837A CN 114006870 A CN114006870 A CN 114006870A
Authority
CN
China
Prior art keywords
network
data
clustering
self
supervision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111270837.4A
Other languages
English (en)
Inventor
王艺杰
杨东
吕珍珍
王文庆
崔逸群
邓楠轶
朱博迪
介银娟
董夏昕
朱召鹏
崔鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Thermal Power Research Institute Co Ltd
Huaneng Group Technology Innovation Center Co Ltd
Original Assignee
Xian Thermal Power Research Institute Co Ltd
Huaneng Group Technology Innovation Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Thermal Power Research Institute Co Ltd, Huaneng Group Technology Innovation Center Co Ltd filed Critical Xian Thermal Power Research Institute Co Ltd
Priority to CN202111270837.4A priority Critical patent/CN114006870A/zh
Publication of CN114006870A publication Critical patent/CN114006870A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于自监督卷积子空间聚类网络的网络流量识别方法,包括:对原始的网络流量数据进行预处理;初始化并预训练自编码器;训练卷积子空间聚类网络,学习数据的稀疏表示矩阵;通过在卷积子空间聚类网络中添加聚类模块,在聚类模块的相似度矩阵构造中使用余弦相似度来度量两个向量之间的距离,通过聚类模块生成伪标签;自监督学习,使用分类模块对数据进行分类操作,同时利用聚类模块生成的伪标签,计算分类结果同预期标签之间的误差,从而通过神经网络的反向传播,实现自监督的效果;通过最大似然估计法最终识别网络流量类型。本发明基于流量数据的统计特征而非数据帧所负载信息实现的,本发明对加密流量等也有良好的识别效果。

Description

一种基于自监督卷积子空间聚类网络的网络流量识别方法
技术领域
本发明属于深度学习、网络空间安全及流量识别技术领域,具体涉及一种基于自监督卷积子空间聚类网络的网络流量识别方法。
背景技术
随着网络应用的日益丰富和网络技术的不断发展,每时每刻都产生着大量的网络流量,网络流量是网络传输中各种信息的重要载体。海量的网络流量给网络安全管理和流量监管带来了非常大的挑战,针对网络流量的准确识别是有效网络安全管理和流量监管的重要前提,不仅可以提高网络传输的质量,还能保障网络安全的正常运营。现有的网络流量方法主要包括基于端口的识别方法、基于行为特征匹配的识别方法和深度报文检测方法,其中基于端口的识别方法只对使用常用端口和注册端口的网络协议流量识别具有准确性,基于行为特征匹配的识别方法时间复杂度和空间复杂度较高,而深度报文检测方法的智能识别能力较差。这些传统方法无法有效地完成网络流量识别的任务。
发明内容
为了克服以上技术问题,本发明提供了一种基于自监督卷积子空间聚类网络的网络流量识别方法,通过在深度神经网络中添加聚类模块和分类模块,实现利用数据内在特征构造自监督目标,进行网络的自我监督。其中聚类模块负责生成伪标签,分类模块负责利用伪标签和分类网络对学习过程进行监督。引入自监督后,将表示学习的过程和聚类过程融合起来,在一个统一的网络框架内进行训练,可以更好地学习有利于聚类任务的表示,继而提升聚类的准确率。得到最优的聚类结果之后,使用似然估计方法将聚类得到的各个类簇和具体的网络应用类型对应起来,实现网络流量识别的任务。
为了实现上述目的,本发明采用的技术方案是:
一种基于自监督卷积子空间聚类网络的网络流量识别方法,包括以下步骤;
1)数据预处理:
通过既定策略对采集的网络流量数据集进行过滤,并对各种不同格式的原始网络流量数据转换为统一的数据格式,且转换时避免造成关键数据项的丢失;
2)初始化并预训练自编码器:
初始化一个自编码器网络,然后将步骤1)的原始数据输入编码器中并进行预训练;
3)训练卷积子空间聚类网络,学习数据的稀疏表示矩阵:
进行卷积子空间聚类网络的训练,利用步骤2)学习得到的自编码器参数,初始化卷积子空间聚类网络中的自编码器部分,将原始数据输入到网络中;
4)构造伪标签:
通过步骤3)卷积子空间聚类网络学习得到的稀疏表示矩阵,构建相似度矩阵,接下来在相似度矩阵上应用谱聚类可以得到数据样本的聚类簇分割结果,通过谱聚类得到的聚类簇分割结果可以用来作为数据集的伪标签,尽管该结果并不是在所有样本数据上都是正确的,但是在充分预训练的前提下,它仍然包含有用的信息,利用这一点,用聚类生成的伪标签来监督网络的特征提取和稀疏矩阵学习的过程;
5)自监督学习:
自监督的构造主要通过添加监督学习领域的分类网络来实现,由于卷积子空间聚类网络能够很好地重构原始数据,其提取的数据特征即稀疏表示层包含足够的信息来预测数据样本点的标签,所以,在网络的稀疏表示层后面添加分类的网络,通过上一步聚类模块生成的伪标签作为分类的预期结果,就可以用来监督特征提取网络特征以及子空间聚类网络的学习;
6)识别网络流量类型:
通过最大似然估计法判定步骤5)聚类后的类簇和具体网络类型之间的映射关系,识别出网络流量类型。
所述步骤1)中数据集为UNB ISCX网络流量数据集,该数据集是针对属于邮件、即时通讯、流媒体、文件传输、VoIP和P2P五大类别下的13中应用收集的网络流量数据集,该数据集涉及的具体应用类型包括Filezilla、Hangouts、Skype、AIM、Facebook Chat、GmailChat、Mail、Torrent、Vimeo、Youtube、ICQ、Hangouts Audio和Skype Audio。
所述步骤1)中对网络流量数据的预处理中通过执行流过滤和流清洗的步骤对UNBISCX网络流量数据集进行处理,把每一条流记录的特征属性映射为相同数目的像素点,从而将含有噪声、不完整、不一致的原始数据转换成恰当的输入数据。
所述步骤2)中使用自编码器从整体上看是一个两头大中间小的纺锤形结构,由编码器和解码器两部分构成,即是由原始数据维度空间到潜在维度空间,再由潜在维度空间重建为原始数据空间的网络。本发明采用的是卷积的自编码器,即在编码器部分,每层堆叠的网络都是卷积的网络,在解码器部分,每层堆叠的都是反卷积网络。随机初始化自编码器网络参数之后,将待分析数据输入到网络中进行逐层预训练。
所述步骤3)中对卷积子空间聚类网络进行训练之前,先利用前一步中学习得到的自编码器参数初始化卷积子空间聚类网络中的自编码器部分,进而不断训练网络的整体结构,直到网络收敛。
所述步骤4)中构造数据的伪标签就是通过在卷积子空间聚类网络中添加聚类模块,在聚类模块的相似度矩阵构造中使用余弦相似度来度量两个向量之间的距离,进而使用谱聚类算法实现聚类,谱聚类就是将获得的数据转换成图,本发明使用KNN方法构造图数据结构,再在图数据结构的基础上实现谱聚类,在卷积子空间聚类网络中,利用训练阶段得到的数据稀疏表示,通过聚类模块生成伪标签。
所述步骤5)中的自监督是通过在卷积子空间聚类网络中学习到数据的稀疏表示的后面添加分类模块,所使用的分类模块采用传统监督学习领域的分类网络,对数据进行分类操作,同时利用聚类模块生成的伪标签,计算分类结果同预期标签之间的误差,从而通过神经网络的反向传播,实现自监督的效果。
所述步骤6)中识别网络流量类型,通过最大似然估计法判定聚类后的类簇和具体网络应用类型之间的映射关系,设B={b1,b2,…,bn}为数据集聚类之后的簇的集合,其中n表示簇的个数,D={d1,d2,…,dm}表示所需识别网络流量类型的集合,m表示应用种类的个数,应用个数小于等于簇的个数,对数据集的分类中存在相关映射f:B→D,通过最大似然估计来建立该映射关系f,所使用的概率公式为P(dj|bi)=hji/hi,其中1≤j≤m,1≤i≤n,上式中的hji表示簇bi中已经被标记为网络应用类型dj的数据流的数量,hi则表示簇bi所有数据对象数量之和,P(dj|bi)为将簇bi映射到具体网络应用类型dj的概率,数据流量和网络应用类型的概率匹配函数公式为
Figure BDA0003327952310000051
若设定最大似然估计的概率下限的值为x,利用上面的公式,当簇bi中标记为具体网络应用软件类型dj的已知类型样本对象占簇中所有数据对象总数的比例最大,且其值超过概率下限x时,将该数据流量识别成网络应用软件类型dj的数据,若d值没有达到概率下限x,该簇所对应的网络流量类型可标记为未知的网络应用类型,即所识别的流量为未知流量,至此,则完成了网络流量的识别工作。
本发明的有益效果:
本发明使用卷积子空间聚类网络学习网络流量数据的表示,并对原始数据进行降维,为了解决基于深度学习的聚类算法中表示学习和聚类过程的分离性,以及在训练过程中缺乏有效利用样本内在信息,本发明创造性地引入自监督方法,在原有网络的基础上加入聚类模块,实现对原本的无标签数据添加标签,同时添加分类模块,实现对网络学习的自监督效果。从而将原本的通过网络学习稀疏表示的过程同聚类过程有机结合起来,从而提升了识别网络流量的效果。
附图说明
图1为本发明总体流程图。
图2为本发明自监督学习识别流量的框架图。
具体实施方式
下面结合实施例对本发明作进一步详细说明。
如图1所示,显示了本发明基于自监督卷积子空间聚类网络提升识别网络流量效果的六大步骤,数据预处理、初始化并预训练自编码器、训练卷积子空间聚类网络并学习数据的稀疏表示矩阵、构造伪标签、自监督学习、识别网络流量类型。
如图2所示,显示了本发明中通过自监督学习识别网络流量类型的框架,本发明在卷积子空间聚类网络中加入自监督的方法,利用构造的分类模块和聚类模块来实现对网络的自监督,优化方法的整体表现。
本发明提供了一种基于自监督卷积子空间聚类网络的网络流量识别方法,本发明包括以下步骤:
步骤一、数据预处理。本发明选用的数据集为UNB ISCX网络流量数据集,该数据集是针对属于邮件、即时通讯、流媒体、文件传输、VoIP和P2P五大类别下的13中应用收集的网络流量数据集,该数据集涉及的具体应用类型包括Filezilla、Hangouts、Skype、AIM、Facebook Chat、Gmail Chat、Mail、Torrent、Vimeo、Youtube、ICQ、Hangouts Audio和SkypeAudio。进一步通过执行流过滤和流清洗的步骤对UNB ISCX网络流量数据集进行处理,把每一条流记录的特征属性映射为相同数目的像素点,从而将含有噪声、不完整、不一致的原始数据转换成恰当的适合本发明方法模型的输入数据。
步骤二、初始化并预训练自编码器。所使用的自编码器从整体上看是一个两头大中间小的纺锤形结构,由编码器和解码器两部分构成,即是由原始数据维度空间到潜在维度空间,再由潜在维度空间重建为原始数据空间的网络。本发明采用的是卷积的自编码器,即在编码器部分,每层堆叠的网络都是卷积的网络,在解码器部分,每层堆叠的都是反卷积网络。随机初始化自编码器网络参数之后,将待分析数据输入到网络中进行逐层预训练。
步骤三、训练卷积子空间聚类网络,学习数据的稀疏表示矩阵。对卷积子空间聚类网络进行训练之前,先利用前一步中学习得到的自编码器参数初始化卷积子空间聚类网络中的自编码器部分,将原始数据输入到网络中,进而不断训练网络的整体结构,直到网络收敛。
步骤四、构造伪标签。通过卷积子空间聚类网络学习得到的稀疏表示矩阵,可以构建相似度矩阵。接下来在相似度矩阵上应用谱聚类可以得到数据样本的聚类簇分割结果。通过谱聚类得到的聚类簇分割结果可以用来作为数据集的伪标签,尽管该结果并不是在所有样本数据上都是正确的,但是在充分预训练的前提下,它仍然包含有用的信息。利用这一点,可以用聚类生成的伪标签来监督网络的特征提取和稀疏矩阵学习的过程。构造数据的伪标签就是通过在卷积子空间聚类网络中添加聚类模块,在聚类模块的相似度矩阵构造中使用余弦相似度来度量两个向量之间的距离,进而使用谱聚类算法实现聚类,谱聚类就是将获得的数据转换成图,本发明使用KNN方法构造图数据结构,再在图数据结构的基础上实现谱聚类,在卷积子空间聚类网络中,利用训练阶段得到的数据稀疏表示,通过聚类模块生成伪标签。
步骤五、自监督学习。自监督的构造主要通过添加监督学习领域的分类网络来实现。由于卷积子空间聚类网络能够很好地重构原始数据,其提取的数据特征即稀疏表示层包含足够的信息来预测数据样本点的标签。所以,在网络的稀疏表示层后面添加分类的网络,所使用的分类模块采用传统监督学习领域的分类网络,对数据进行分类操作,通过上一步聚类模块生成的伪标签作为分类的预期结果,就可以计算分类结果同预期标签之间的误差,从而通过神经网络的反向传播,实现自监督的效果,不断监督特征提取网络特征以及子空间聚类网络的学习。
步骤六、识别网络流量类型。通过最大似然估计法判定聚类后的类簇和具体网络类型之间的映射关系,识别出网络流量类型。设B={b1,b2,…,bn}为数据集聚类之后的簇的集合,其中n表示簇的个数。D={d1,d2,…,dm}表示所需识别网络流量类型的集合,m表示应用种类的个数,应用个数小于等于簇的个数,对数据集的分类中存在相关映射f:B→D。通过最大似然估计来建立该映射关系f。所使用的概率公式为P(dj|bi)=hji/hi,其中1≤j≤m,1≤i≤n,上式中的hji表示簇bi中已经被标记为网络应用类型dj的数据流的数量。hi则表示簇bi所有数据对象数量之和。P(dj|bi)为将簇bi映射到具体网络应用类型dj的概率。数据流量和网络应用类型的概率匹配函数公式为
Figure BDA0003327952310000091
若设定最大似然估计的概率下限的值为x,利用上面的公式,当簇bi中标记为具体网络应用软件类型dj的已知类型样本对象占簇中所有数据对象总数的比例最大,且其值超过概率下限x时,将该数据流量识别成网络应用软件类型dj的数据。若d值没有达到概率下限x,该簇所对应的网络流量类型可标记为未知的网络应用类型,即所识别的流量为未知流量。至此,则完成了网络流量的识别工作。
本发明主要使用单应用识别准确率和整体应用识别准确率来评价方法的识别效果,其中的单应用识别准确率表示为正确识别某应用类型的流的数目与确定为某应用类型的流的数量的比值,而整体应用识别准确率表示为被正确识别为对应应用类型的流的数量与识别的目的数据集网络流量总量的比值,这两个评价指标的数值越高,表明方法的网络流量识别效果越好。
本发明具有以下特点:
1.不依赖于数据帧所负载的信息,对加密流量等有良好的识别效果;
2.引入的自监督学习方法使一定比例带有伪标签的数据样本能对整个方法模型进行有效映射指导,提升网络流量识别的效果。
卷积子空间聚类网络不仅可以对输入数据进行有效降维,还可以通过调整神经网络层数、优化网络训练过程等方式来学习所分析数据的隐含特征,并通过数据重建过程对数据进行恢复。而自监督学习的数据标签来自于数据自身,通过构建自监督任务及目标,优化神经网络,实现对学习过程的自监督,来提高学习表征的质量,从而提高后续任务的效果。
在对网络流量识别的过程中,本发明设计了一种基于自监督卷积子空间聚类网络的网络流量识别方法,将卷积子空间聚类网络和自监督学习方法结合起来解决依赖于数据帧所负载信息和难于识别加密流量的难题,有效地完成流量识别的任务。

Claims (8)

1.一种基于自监督卷积子空间聚类网络的网络流量识别方法,其特征在于,包括以下步骤;
1)数据预处理:
通过既定策略对采集的网络流量数据集进行过滤,并对各种不同格式的原始网络流量数据转换为统一的数据格式,且转换时避免造成关键数据项的丢失;
2)初始化并预训练自编码器:
初始化一个自编码器网络,然后将步骤1)的原始数据输入编码器中并进行预训练;
3)训练卷积子空间聚类网络,学习数据的稀疏表示矩阵:
进行卷积子空间聚类网络的训练,利用步骤2)学习得到的自编码器参数,初始化卷积子空间聚类网络中的自编码器部分,将原始数据输入到网络中;
4)构造伪标签:
通过步骤3)卷积子空间聚类网络学习得到的稀疏表示矩阵,构建相似度矩阵,接下来在相似度矩阵上应用谱聚类可以得到数据样本的聚类簇分割结果,通过谱聚类得到的聚类簇分割结果可以用来作为数据集的伪标签,尽管该结果并不是在所有样本数据上都是正确的,但是在充分预训练的前提下,它仍然包含有用的信息,利用这一点,用聚类生成的伪标签来监督网络的特征提取和稀疏矩阵学习的过程;
5)自监督学习:
自监督的构造主要通过添加监督学习领域的分类网络来实现,由于卷积子空间聚类网络能够很好地重构原始数据,其提取的数据特征即稀疏表示层包含足够的信息来预测数据样本点的标签,所以,在网络的稀疏表示层后面添加分类的网络,通过上一步聚类模块生成的伪标签作为分类的预期结果,就可以用来监督特征提取网络特征以及子空间聚类网络的学习;
6)识别网络流量类型:
通过最大似然估计法判定步骤5)聚类后的类簇和具体网络类型之间的映射关系,识别出网络流量类型。
2.根据权利要求1所述的一种基于自监督卷积子空间聚类网络的网络流量识别方法,其特征在于,所述步骤1)中数据集为UNB ISCX网络流量数据集,该数据集是针对属于邮件、即时通讯、流媒体、文件传输、VoIP和P2P五大类别下的13中应用收集的网络流量数据集,该数据集涉及的具体应用类型包括Filezilla、Hangouts、Skype、AIM、Facebook Chat、GmailChat、Mail、Torrent、Vimeo、Youtube、ICQ、Hangouts Audio和Skype Audio。
3.根据权利要求1所述的一种基于自监督卷积子空间聚类网络的网络流量识别方法,其特征在于,所述步骤1)中对网络流量数据的预处理中通过执行流过滤和流清洗的步骤对UNB ISCX网络流量数据集进行处理,把每一条流记录的特征属性映射为相同数目的像素点,从而将含有噪声、不完整、不一致的原始数据转换成恰当的输入数据。
4.根据权利要求1所述的一种基于自监督卷积子空间聚类网络的网络流量识别方法,其特征在于,所述步骤2)中使用自编码器从整体上看是一个两头大中间小的纺锤形结构,由编码器和解码器两部分构成,即是由原始数据维度空间到潜在维度空间,再由潜在维度空间重建为原始数据空间的网络。
5.根据权利要求1所述的一种基于自监督卷积子空间聚类网络的网络流量识别方法,其特征在于,所述步骤3)中对卷积子空间聚类网络进行训练之前,先利用前一步中学习得到的自编码器参数初始化卷积子空间聚类网络中的自编码器部分,进而不断训练网络的整体结构,直到网络收敛。
6.根据权利要求1所述的一种基于自监督卷积子空间聚类网络的网络流量识别方法,其特征在于,所述步骤4)中构造数据的伪标签就是通过在卷积子空间聚类网络中添加聚类模块,在聚类模块的相似度矩阵构造中使用余弦相似度来度量两个向量之间的距离,进而使用谱聚类算法实现聚类,谱聚类就是将获得的数据转换成图,使用KNN方法构造图数据结构,再在图数据结构的基础上实现谱聚类,在卷积子空间聚类网络中,利用训练阶段得到的数据稀疏表示,通过聚类模块生成伪标签。
7.根据权利要求1所述的一种基于自监督卷积子空间聚类网络的网络流量识别方法,其特征在于,所述步骤5)中的自监督是通过在卷积子空间聚类网络中学习到数据的稀疏表示的后面添加分类模块,所使用的分类模块采用传统监督学习领域的分类网络,对数据进行分类操作,同时利用聚类模块生成的伪标签,计算分类结果同预期标签之间的误差,从而通过神经网络的反向传播,实现自监督的效果。
8.根据权利要求1所述的一种基于自监督卷积子空间聚类网络的网络流量识别方法,其特征在于,所述步骤6)中识别网络流量类型,通过最大似然估计法判定聚类后的类簇和具体网络应用类型之间的映射关系,设B={b1,b2,…,bn}为数据集聚类之后的簇的集合,其中n表示簇的个数,D={d1,d2,…,dm}表示所需识别网络流量类型的集合,m表示应用种类的个数,应用个数小于等于簇的个数,对数据集的分类中存在相关映射f:B→D,通过最大似然估计来建立该映射关系f,所使用的概率公式为P(dj|bi)=hji/hi,其中1≤j≤m,1≤i≤n,上式中的hji表示簇bi中已经被标记为网络应用类型dj的数据流的数量,hi则表示簇bi所有数据对象数量之和,P(dj|bi)为将簇bi映射到具体网络应用类型dj的概率,数据流量和网络应用类型的概率匹配函数公式为
Figure FDA0003327952300000041
若设定最大似然估计的概率下限的值为x,利用上面的公式,当簇bi中标记为具体网络应用软件类型dj的已知类型样本对象占簇中所有数据对象总数的比例最大,且其值超过概率下限x时,将该数据流量识别成网络应用软件类型dj的数据,若d值没有达到概率下限x,该簇所对应的网络流量类型可标记为未知的网络应用类型,即所识别的流量为未知流量,至此,则完成了网络流量的识别工作。
CN202111270837.4A 2021-10-29 2021-10-29 一种基于自监督卷积子空间聚类网络的网络流量识别方法 Withdrawn CN114006870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111270837.4A CN114006870A (zh) 2021-10-29 2021-10-29 一种基于自监督卷积子空间聚类网络的网络流量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111270837.4A CN114006870A (zh) 2021-10-29 2021-10-29 一种基于自监督卷积子空间聚类网络的网络流量识别方法

Publications (1)

Publication Number Publication Date
CN114006870A true CN114006870A (zh) 2022-02-01

Family

ID=79925094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111270837.4A Withdrawn CN114006870A (zh) 2021-10-29 2021-10-29 一种基于自监督卷积子空间聚类网络的网络流量识别方法

Country Status (1)

Country Link
CN (1) CN114006870A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114679308A (zh) * 2022-03-21 2022-06-28 山东大学 一种基于双路自编码的未知流量识别方法及***
CN116827689A (zh) * 2023-08-29 2023-09-29 成都雨云科技有限公司 基于人工智能的边缘计算网关数据处理方法及网关
CN117527446A (zh) * 2024-01-03 2024-02-06 上海人工智能网络***工程技术研究中心有限公司 一种网络异常流量精细化检测方法
CN118070850A (zh) * 2024-04-18 2024-05-24 清华大学 数据中心网络流量生成方法、装置、介质及计算机程序

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114679308A (zh) * 2022-03-21 2022-06-28 山东大学 一种基于双路自编码的未知流量识别方法及***
CN114679308B (zh) * 2022-03-21 2023-04-07 山东大学 一种基于双路自编码的未知流量识别方法及***
CN116827689A (zh) * 2023-08-29 2023-09-29 成都雨云科技有限公司 基于人工智能的边缘计算网关数据处理方法及网关
CN116827689B (zh) * 2023-08-29 2023-11-14 成都雨云科技有限公司 基于人工智能的边缘计算网关数据处理方法及网关
CN117527446A (zh) * 2024-01-03 2024-02-06 上海人工智能网络***工程技术研究中心有限公司 一种网络异常流量精细化检测方法
CN117527446B (zh) * 2024-01-03 2024-03-12 上海人工智能网络***工程技术研究中心有限公司 一种网络异常流量精细化检测方法
CN118070850A (zh) * 2024-04-18 2024-05-24 清华大学 数据中心网络流量生成方法、装置、介质及计算机程序

Similar Documents

Publication Publication Date Title
CN111581405B (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN114006870A (zh) 一种基于自监督卷积子空间聚类网络的网络流量识别方法
CN113177132B (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN109902740B (zh) 一种基于多算法融合并行的再学习工业控制入侵检测方法
CN109711483B (zh) 一种基于Sparse Autoencoder的电力***运行方式聚类方法
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及***
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN112733965B (zh) 一种基于小样本学习的无标签图像分类方法
CN112434628B (zh) 基于主动学习和协同表示的小样本图像分类方法
Yang et al. One-class classification using generative adversarial networks
CN115037805B (zh) 一种基于深度聚类的未知网络协议识别方法、***、装置及存储介质
CN111680644B (zh) 一种基于深度空时特征学习的视频行为聚类方法
CN114333064A (zh) 基于多维原型重构增强学习的小样本行为识别方法及***
CN117670571B (zh) 基于异构消息图关系嵌入的增量式社交媒体事件检测方法
CN112990371B (zh) 一种基于特征扩增的无监督夜间图像分类方法
CN114399055A (zh) 一种基于联邦学习的域泛化方法
CN117131395A (zh) 一种基于高斯混合模型进行数据聚类的方法
CN115348215B (zh) 一种基于时空注意力机制的加密网络流量分类方法
CN114168782B (zh) 一种基于三元组网络的深度哈希图像检索方法
CN115759205A (zh) 基于多模型协作对比学习的负样本采样方法
CN112347842B (zh) 一种基于关联图的离线人脸聚类方法
Liu et al. A survey of image clustering: Taxonomy and recent methods
Chen et al. Semi-supervised convolutional neural networks with label propagation for image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220201