CN110572393A - 一种基于卷积神经网络的恶意软件流量分类方法 - Google Patents

一种基于卷积神经网络的恶意软件流量分类方法 Download PDF

Info

Publication number
CN110572393A
CN110572393A CN201910849786.7A CN201910849786A CN110572393A CN 110572393 A CN110572393 A CN 110572393A CN 201910849786 A CN201910849786 A CN 201910849786A CN 110572393 A CN110572393 A CN 110572393A
Authority
CN
China
Prior art keywords
convolutional neural
neural network
classification method
malicious software
malicious
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910849786.7A
Other languages
English (en)
Inventor
王书州
章丽娟
刘旭
胡漪逸
孟凯强
王亚龙
赵治博
朱晓贝
李维超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Rongpan Network Technology Co Ltd
Original Assignee
Henan Rongpan Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Rongpan Network Technology Co Ltd filed Critical Henan Rongpan Network Technology Co Ltd
Priority to CN201910849786.7A priority Critical patent/CN110572393A/zh
Publication of CN110572393A publication Critical patent/CN110572393A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Virology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于卷积神经网络的恶意软件流量分类方法,属于恶意软件流量检测技术领域,该基于卷积神经网络的恶意软件流量分类方法具体包括以下步骤:恶意代码映射为单通道的信号;信号处理生成信号的语谱图;语谱图转化为恒定大小的灰度图;卷积神经网络实现恶意代码的分类。本发明基于卷积神经网络从恶意软件生成的灰度图像中学习特征,用图像分类方法完成恶意软件分类;因为卷积神经网络可以从原始数据学习特征,不需要预先设计流量特性,不需要复杂的特征工程和较深入的相关领域专业知识,所以这种方法更加高效,适用范围更加广泛;有效的识别恶意软件的全局信息,可以基于全局信息对恶意软件的性质进行分析。

Description

一种基于卷积神经网络的恶意软件流量分类方法
技术领域
本发明属于恶意软件流量检测技术领域,尤其涉及一种基于卷积神经网络的恶意软件流量分类方法。
背景技术
恶意软件指各种形式的恶意或者入侵软件,例如计算机病毒、蠕虫、间谍软件、木马、广告软件等。这些恶意软件通常以可执行程序、脚本等形式存在。在计算机***安全领域,一个重要问题是进行恶意软件的检测与识别,以便能在恶意软件运行之前将其清除,避免给计算机***造成破坏或者给用户造成损失。
不仅仅黑帽黑客或者其他怀有恶意的软件作者,即使是信用良好的供应商提供的软件也可能包含恶意代码。一个例子是索尼曾经在其出售的唱片中植入了Rootkit。这是一种特洛伊木马,它静默安装并隐藏在购买者的计算机上,目的是防止唱片被非法复制。它还收集用户的聆听习惯,并无意中创建了可以被其他恶意软件所利用的漏洞。恶意软件检测现今面临的主要挑战是需要对大量有潜在恶意目的的数据和文件进行评估。例如,微软的实时检测反恶意软件产品部署在全球超过1.6亿台计算机上,每天会产生数千万个数据点,需要作为潜在的恶意软件进行分析。
卷积神经网络(ConvolutionalNeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeuralNetworks),是深度学***移不变分类(shift-invariantclassification),因此也被称为“平移不变人工神经网络(Shift-InvariantArtificialNeuralNetworks,SIANN)。
中国专利公开号为CN110062013A,发明创造的名称为一种针对恶意软件HTTP流量的检测***,包括:流量捕获模块:用于周期性捕获网络中的HTTP流量;行为建树模块:用于将HTTP流量进行预处后转换为行为树状图;特征提取模块:用于提取行为树状图中的各节点上的统计特征、内容特征和行为特征,再基于提取的统计特征、内容特征和行为特征转换为特征树状图。
但是,现有的反病毒和恶意软件检测产品通常使用特征值扫描技术,这种方法有很大的局限性;越来越多的恶意软件通过加密、混淆或者打包等方法躲避基于特征值的检测,这给传统的恶意软件分析和检测方法带来挑战,目前缺少一种基于卷积神经网络的,安全可靠效率高准确的恶意软件流量分类方法***。
所以,发明一种基于卷积神经网络的恶意软件流量分类方法显得非常必要。
发明内容
为了解决上述技术问题,本发明提供一种基于卷积神经网络的恶意软件流量分类方法,以解决现有的反病毒和恶意软件检测产品通常使用特征值扫描技术,这种方法有很大的局限性;越来越多的恶意软件通过加密、混淆或者打包等方法躲避基于特征值的检测,这给传统的恶意软件分析和检测方法带来挑战,目前缺少一种基于卷积神经网络的,安全可靠效率高准确的恶意软件流量分类方法***。
一种基于卷积神经网络的恶意软件流量分类方法具体包括以下步骤:
步骤一:恶意代码映射为单通道的信号;
步骤二:信号处理生成信号的语谱图;
步骤三:语谱图转化为恒定大小的灰度图;
步骤四:卷积神经网络实现恶意代码的分类。
优选地,在步骤一中,所述的恶意代码的映射用到文件属性(fp)对恶意软件分类非常有用,压缩率可以很大程度上描述文件的类型,本文提取了字节文件与反汇编文件大小和压缩率,并且获取了他们的比值。
优选地,在步骤二中,所述的语谱图的生成在汇编代码中,软件的行为通常由一些代码关键字符或者字符串(key)决定;程序节、操作码、应用编程接口调用和动态链接库在很大程度上描述了一个软件的行为与目的,这些属性的数量与分布具有一定的规律,统计他们出现的频率,与其占的比例;所述的语谱图的生成中用到熵;所述的熵(ent)是信息不确定性的一个测度,熵越大则表示信息的不确定程度越高。
优选地,在步骤二中,应用到N-gram,所述的N-gram是NLP领域中非常重要的一个概念,N-gram的一个主要作用是评估2段文字之间的差异程度,是模糊匹配中最常用的一种手段。
优选地,在步骤三中,所述的使用图像缩放算法将语谱图转化为恒定大小的灰度图。
优选地,在步骤三中,所述的恶意软件可以通过将每个字节解释为图像中的一个像素而把字节文件形象转化为灰度图像,将字节表示为像素,很容易可以得到图像的像素强度,因此提取图像的前300~600像素强度作为特。
优选地,在步骤四中,所述的分类用的分类器分别是常用的ExtraTreesClassiffier、支持向量机和一种渐进回归树的优化算法xgboost,对比多种分类器,最终实验使用多分类器融合,使用80%的xgboost和20%的ExtraTreesClassiffier作为分类算法。
与现有技术相比,本发明具有如下有益效果:由于本发明的一种基于卷积神经网络的恶意软件流量分类方法广泛应用于恶意软件流量检测技术领域。本发明基于卷积神经网络从恶意软件生成的灰度图像中学习特征,用图像分类方法完成恶意软件分类;因为卷积神经网络可以从原始数据学习特征,不需要预先设计流量特性;不需要复杂的特征工程和较深入的相关领域专业知识,所以这种方法更加高效,适用范围更加广泛;卷积神经网络通过局部链接、权值共享等方法,有效的识别恶意软件的全局信息,可以基于全局信息对恶意软件的性质进行分析,所以卷积神经网络比传统的机器学习方法有更好的效果。
附图说明
图1是基于卷积神经网络的恶意软件流量分类方法的流程图。
图2是基于卷积神经网络的恶意软件流量分类方法的实验操作示意图。
图3是实验数据一的记录图。
图4是实验数据二的记录图。
具体实施方式
以下结合附图对本发明做进一步描述:
如附图1所示
一种基于卷积神经网络的恶意软件流量分类方法具体包括以下步骤:
S101:恶意代码映射为单通道的信号;
S102:信号处理生成信号的语谱图;
S103:语谱图转化为恒定大小的灰度图;
S104:卷积神经网络实现恶意代码的分类。
上述实施例中,具体的,在S101中,所述的恶意代码的映射用到文件属性(fp)对恶意软件分类非常有用,压缩率可以很大程度上描述文件的类型,本文提取了字节文件与反汇编文件大小和压缩率,并且获取了他们的比值。
上述实施例中,具体的,在S102中,所述的语谱图的生成在汇编代码中,软件的行为通常由一些代码关键字符或者字符串(key)决定;程序节、操作码、应用编程接口调用和动态链接库在很大程度上描述了一个软件的行为与目的,这些属性的数量与分布具有一定的规律,统计他们出现的频率,与其占的比例;所述的语谱图的生成中用到熵;所述的熵(ent)是信息不确定性的一个测度,熵越大则表示信息的不确定程度越高。
上述实施例中,具体的,在S102中,所述的熵压缩了字节文件中每4kB块的字节,使用香农公式计算每块的熵e作为特征:
其中,p(i)代表这一块中字节i的频率;m代表窗口内不同字节的数量。信息熵描述了信息的不确定程度,同时也能表现出代码文件之间的逻辑,尽管恶意软件代码改变了软件原有的目的,但是其很难改***件原有的信息量。在恶意软件变种的过程中,会通过一些简单的手段隐藏恶意行为,却难以改变整个文件信息之间的逻辑,并且信息熵在描述信息分布的同时,也同时会描述出信息分布的变化,可以有效分析出恶意软件隐藏的恶意行为。
上述实施例中,具体的,在S102中,应用到N-gram,所述的N-gram是NLP领域中非常重要的一个概念,N-gram的一个主要作用是评估2段文字之间的差异程度,是模糊匹配中最常用的一种手段。一连串的十六进制代码可以通过N-gram有效的分析,捕获到代码中的关键信息。1-gram有256个特征,2-gram有65536个特征。本发明对于1-gram(1-gram)提取所有词的频率,而2-gram(2-gram)仅考虑最受欢迎的600词与特殊字符串的前2个字节。这些特殊字符串在2.2.2节中考虑过,但由于编码的问题,一部分在反汇编文件中不可见,于是再次使用。本发明将字节文件的一行作为1-gram(1-gram),本文选取了1000个文件中最常出现的一些行作为gram。
上述实施例中,具体的,在S103中,所述的使用图像缩放算法将语谱图转化为恒定大小的灰度图。
上述实施例中,具体的,在S103中,所述的恶意软件可以通过将每个字节解释为图像中的一个像素而把字节文件形象转化为灰度图像,将字节表示为像素,很容易可以得到图像的像素强度,因此提取图像的前300~600像素强度作为特。
上述实施例中,具体的,在S103中,所述的图像转化在asm文件中也进行了应用。将代码转换为图像,可以获得非常精致的纹理,这些纹理很大程度地描述了代码之间的相似程度以及代码的函数结构和代码之间的文件结构,恶意软件相似的行为也通常包括相同的代码或相同的函数调用,并且部分恶意软件作者通过将代码改为相似的格式用于隐藏部分恶意信息,将代码转为肉眼可见的图像,可以有效地分析代码在恶意行为上的相似之处。
上述实施例中,具体的,在S104中,所述的分类用的分类器分别是常用的ExtraTreesClassiffier、支持向量机和一种渐进回归树的优化算法xgboost,对比多种分类器,最终实验使用多分类器融合,使用80%的xgboost和20%的ExtraTreesClassiffier作为分类算法。
实施例1
本发明公开了一种基于卷积神经网络的恶意软件流量分类方法,利用本技术方案的一个具体应用实例:
实验步骤:TensorFlow被用作实验软件框架,运行在Ubuntu14.0464位操作***上。服务器是戴尔R720,有16核CPU和16GB内存。一个NvidiaTeslaK40mGPU被用作加速器。有十分之一的数据被随机选择作为测试数据,其余的是训练数据。小批量是50,成本函数是交叉熵。在TensorFlow中构建的梯度下降优化器被用作优化器。学习率为0.001,训练时间约40个。
评价指标:使用了四个评价指标:准确性(A)、精度(P)、召回率(R)、f1值(f1)。精度用于评价分类器的整体性能。精度、召回率和f1值被用来评估每一类流量的性能。
TP是正确分类为X的实例数,TN是正确分类为非X的实例数,FP是错误分类为X的实例数,而FN是错误分类为非X的实例数。
实验结果和分析:进行了八项实验以确定最佳的流量表征类型。图3显示了恶意软件和正常流量数据集的四种表示类型的准确性。从4个比较中可以发现,所有层的流量类的准确性总是高于L7(包层类型第7层)层。除了在正常流量中L7的会话和流的准确性是相等的,其他三个比较都表明,使用会话的流量类的准确性总是高于使用流。图4显示了nsi-ay的精度、召回率和f1值,它是20种流量类型之一。我们可以看到图3所示的模式。在所有的12个比较中,除了使用所有层的会话召回率比使用所有层的流量稍微低(0.24%),其他11个比较显示了如下模式:所有层的流量类的精度、召回率、f1值都比只有L7层的高,而且使用会话的精度、召回率、f1值都比使用流要高。不仅如此,同样的模式也可以在其他19类流量结果中找到。总之,所有的都比L7好,而且会话比流更好。
对于这种模式,可以给出一个直观的解释。因为会话包含双向流,因此包含更多的交互信息,而不是单向流。因为所有层表示都包含了比L7层更多的层,特别是包含端口和标记信息,所以它可以代表更多的关键信息,这证明了我们在第三节的B部分的假设。需要注意的是,许多类流量的L7层预处理结果记录要比所有层的预处理结果记录少得多,例如CTU107-1的L7层记录只有8,但所有层记录都是16386。当生成相同数量的训练数据时,需要使用L7比所有层表示更多的流量数据。因此,我们可以看到,所有层表示都比L7层表示更灵活。
综上所述,可以发现最佳类型的流量表示是会话+All,只有这种类型的流量表示被用来进行可伸缩性实验。
可扩展性实验结果与分析:表1显示了使用会话+所有流量表示的两种场景中三种类型的分类器的总体准确性。表V和VI显示了每一类流量的精度、召回率和f1值。由于二进制分类器的精度为100%,所以不需要显示二进制分类器的精度、召回率和f1值。
TABLE IV Accuracy of three classifiers(%)
TABLE V Precision,recall and f1 value of 20-classifiers(%)
DATA PR RC F1 DATA PR RC F1
Cridex 100 100 100 BitTrt 100 100 100
Geodo 100 99.9 99.9 Facetime 100 100 100
Htbot 99.8 100 99.9 FTP 100 100 100
Miuref 100 100 100 Gmail 98.4 99.3 98.8
Neris 96.3 92.9 94.6 MySQL 100 100 100
Nsis-ay 99.8 99.0 99.4 Outlook 99.2 98.1 98.7
Shifu 99.9 99.9 99.9 Skype 99.8 100 99.9
Tinba 100 100 100 SMB 100 100 100
Virut 90.7 95.6 93.1 Weibo 100 100 100
Zeus 100 100 100 Wow 100 99.9 99.9
TABLE VI Precision,recall and f1 value of 10-classifiers(%)
DATA PR RC F1 DATA PR RC F1
Cridex 100 100 100 BitTrt 100 100 100
Geodo 100 100 100 Facetime 100 100 100
Htbot 99.8 99.8 99.8 FTP 100 100 100
Miuref 100 100 100 Gmail 99.9 99.7 99.8
Neris 97.1 91.1 94.0 MySQL 100 100 100
Nsis-ay 99.7 99.3 99.5 Outlook 99.6 99.9 99.7
Shifu 99.9 99.8 99.8 Skype 100 100 100
Tinba 99.9 100 99.9 SMB 100 100 100
Virut 89.0 96.5 92.6 Weibo 100 100 100
Zeus 100 100 100 Wow 100 100 100
表1
表1显示四种分类器的准确度很高,即使是最低准确度也达到了98.52%。表V显示Neris和病毒流量的精度、召回率和f1值稍低(90%~96%),但其他18类流量均达到非常高的精度、召回率和f1值(高于99%)。表VI显示了相似的模式,Neris和病毒流量的指标值稍低一些(89%~97%),但是其他18个级别的流量都达到了很高的指标(高于99%)。为什么Neris和病毒会出现一些较低的指标,这可能是它们的特殊特征,需要进一步研究。综上所述,这三种分类器的平均准确度已经达到了99.41%,满足了实际使用的准确度要求。
由于交通数据集、软件设置和实验环境的不同,在各种恶意软件流量分类方法中进行公平的比较是不容易的。另一方面,三种类型的分类器都实现了相当高的精度。因此,我们不是在我们的方法和其他现有方法之间进行性能比较,而是将它们与一些重要的特性进行比较。表2显示了我们的方法和基于规则的Snort之间的一般比较,这是一个著名的NIDS,基于传统机器学习的Celik,前面提到的Gao和Javaid都使用了手工设计的流特性。
TABLE VII COMPARISON OF DIFFERENT METHODS
Characteristics Our’s Snort Celik Gao Javaid
Early stage detection Yes No Yes No No
Low false alarm rate Yes No Yes Yes Yes
Protocol independent Yes No Yes Yes Yes
Features auto extraction Yes No No Yes Yes
Raw Traffic data input Yes Yes No No No
表2
我们的方法具有早期恶意软件流量检测的能力,因为仅使用前几百个字节的每个会话。Snort需要匹配其位置不确定的流量指纹。Gao和Javaid需要从整个交通流中提取特征。所以它们都没有早期的检测特性。实验结果表明,该方法具有较低的误报率,且由于某些问题如难以精确地提取恶意软件的流量,使Snort的误报率较高。我们的方法是协议独立的,因为使用图像分类方法,而Snort需要为每个协议设计匹配规则。我们的方法可以自动提取特征,而Celik则没有这样的能力,这是基于典型的机器学习方法,如SVM。最后,我们的方法直接使用原始的流量数据集,相比之下,Gao和Javaid都使用手动设计的流特性数据集。
本发明的一种基于卷积神经网络的恶意软件流量分类方法广泛应用于恶意软件流量检测技术领域。本发明基于卷积神经网络从恶意软件生成的灰度图像中学习特征,用图像分类方法完成恶意软件分类;因为卷积神经网络可以从原始数据学习特征,不需要预先设计流量特性;不需要复杂的特征工程和较深入的相关领域专业知识,所以这种方法更加高效,适用范围更加广泛;卷积神经网络通过局部链接、权值共享等方法,有效的识别恶意软件的全局信息,可以基于全局信息对恶意软件的性质进行分析,所以卷积神经网络比传统的机器学习方法有更好的效果。
利用本发明所述的技术方案,或本领域的技术人员在本发明技术方案的启发下,设计出类似的技术方案,而达到上述技术效果的,均是落入本发明的保护范围。

Claims (10)

1.一种基于卷积神经网络的恶意软件流量分类方法,其特征在于,该基于卷积神经网络的恶意软件流量分类方法具体包括以下步骤:
步骤一:恶意代码映射为单通道的信号;
步骤二:信号处理生成信号的语谱图;
步骤三:语谱图转化为恒定大小的灰度图;
步骤四:卷积神经网络实现恶意代码的分类。
2.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法,其特征在于,在步骤一中,所述的恶意代码的映射用到文件属性(fp)对恶意软件分类非常有用,压缩率可以很大程度上描述文件的类型,本文提取了字节文件与反汇编文件大小和压缩率,并且获取了他们的比值。
3.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法,其特征在于,在步骤二中,所述的语谱图的生成在汇编代码中,软件的行为通常由一些代码关键字符或者字符串(key)决定;程序节、操作码、应用编程接口调用和动态链接库在很大程度上描述了一个软件的行为与目的,这些属性的数量与分布具有一定的规律,统计他们出现的频率,与其占的比例;所述的语谱图的生成中用到熵;所述的熵(ent)是信息不确定性的一个测度,熵越大则表示信息的不确定程度越高。
4.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法,其特征在于,在步骤三中,所述的使用图像缩放算法将语谱图转化为恒定大小的灰度图。
5.如权利要求4所述的基于卷积神经网络的恶意软件流量分类方法,其特征在于,在步骤三中,所述的恶意软件可以通过将每个字节解释为图像中的一个像素而把字节文件形象转化为灰度图像,将字节表示为像素,很容易可以得到图像的像素强度,因此提取图像的前300~600像素强度作为特。
6.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法,其特征在于,在步骤四中,所述的分类用的分类器分别是常用的ExtraTreesClassiffier、支持向量机和一种渐进回归树的优化算法xgboost,对比多种分类器,最终实验使用多分类器融合,使用80%的xgboost和20%的ExtraTreesClassiffier作为分类算法。
7.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法,其特征在于,在步骤二中,应用到N-gram,所述的N-gram是NLP领域中非常重要的一个概念,N-gram的一个主要作用是评估2段文字之间的差异程度,是模糊匹配中最常用的一种手段。
8.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法,其特征在于,在步骤四中,所述的分类用的分类器分别是常用的ExtraTreesClassiffier、支持向量机和一种渐进回归树的优化算法xgboost,对比多种分类器,最终实验使用多分类器融合,使用80%的xgboost和20%的ExtraTreesClassiffier作为分类算法。
9.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法,其特征在于,在步骤二中,所述的语谱图的生成中用到熵;所述的熵(ent)是信息不确定性的一个测度,熵越大则表示信息的不确定程度越高。
10.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法,其特征在于,在步骤二中,所述的熵压缩了字节文件中每4kB块的字节,使用香农公式计算每块的熵e作为特征:
其中,p(i)代表这一块中字节i的频率;m代表窗口内不同字节的数量。
CN201910849786.7A 2019-09-09 2019-09-09 一种基于卷积神经网络的恶意软件流量分类方法 Pending CN110572393A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910849786.7A CN110572393A (zh) 2019-09-09 2019-09-09 一种基于卷积神经网络的恶意软件流量分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910849786.7A CN110572393A (zh) 2019-09-09 2019-09-09 一种基于卷积神经网络的恶意软件流量分类方法

Publications (1)

Publication Number Publication Date
CN110572393A true CN110572393A (zh) 2019-12-13

Family

ID=68778578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910849786.7A Pending CN110572393A (zh) 2019-09-09 2019-09-09 一种基于卷积神经网络的恶意软件流量分类方法

Country Status (1)

Country Link
CN (1) CN110572393A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111181969A (zh) * 2019-12-30 2020-05-19 西安交通大学 一种基于自发流量的物联网设备识别方法
CN111259396A (zh) * 2020-02-01 2020-06-09 贵州师范学院 一种基于深度学习卷积神经网络的计算机病毒检测方法及深度学习神经网络的压缩方法
CN111552964A (zh) * 2020-04-07 2020-08-18 哈尔滨工程大学 一种基于静态分析的恶意软件分类方法
CN111552963A (zh) * 2020-04-07 2020-08-18 哈尔滨工程大学 一种基于结构熵序列的恶意软件分类方法
CN111581640A (zh) * 2020-04-02 2020-08-25 北京兰云科技有限公司 一种恶意软件检测方法、装置及设备、存储介质
CN111914254A (zh) * 2020-06-24 2020-11-10 中国科学院信息工程研究所 一种基于弱耦合sgan的恶意软件家族分类器生成方法、装置及可读存储介质
CN112422531A (zh) * 2020-11-05 2021-02-26 博智安全科技股份有限公司 基于CNN和XGBoost的网络流量异常行为检测方法
CN113282926A (zh) * 2021-05-25 2021-08-20 贵州师范大学 一种基于三通道图像的恶意软件分类方法
CN113705619A (zh) * 2021-08-03 2021-11-26 广州大学 一种恶意流量检测方法、***、计算机及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717512A (zh) * 2018-05-16 2018-10-30 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于卷积神经网络的恶意代码分类方法
CN109165688A (zh) * 2018-08-28 2019-01-08 暨南大学 一种安卓恶意软件家族分类器构建方法及其分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717512A (zh) * 2018-05-16 2018-10-30 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于卷积神经网络的恶意代码分类方法
CN109165688A (zh) * 2018-08-28 2019-01-08 暨南大学 一种安卓恶意软件家族分类器构建方法及其分类方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111181969A (zh) * 2019-12-30 2020-05-19 西安交通大学 一种基于自发流量的物联网设备识别方法
CN111259396A (zh) * 2020-02-01 2020-06-09 贵州师范学院 一种基于深度学习卷积神经网络的计算机病毒检测方法及深度学习神经网络的压缩方法
CN111581640A (zh) * 2020-04-02 2020-08-25 北京兰云科技有限公司 一种恶意软件检测方法、装置及设备、存储介质
CN111552964A (zh) * 2020-04-07 2020-08-18 哈尔滨工程大学 一种基于静态分析的恶意软件分类方法
CN111552963A (zh) * 2020-04-07 2020-08-18 哈尔滨工程大学 一种基于结构熵序列的恶意软件分类方法
CN111914254A (zh) * 2020-06-24 2020-11-10 中国科学院信息工程研究所 一种基于弱耦合sgan的恶意软件家族分类器生成方法、装置及可读存储介质
CN111914254B (zh) * 2020-06-24 2024-05-28 中国科学院信息工程研究所 一种基于弱耦合sgan的恶意软件家族分类器生成方法、装置及可读存储介质
CN112422531A (zh) * 2020-11-05 2021-02-26 博智安全科技股份有限公司 基于CNN和XGBoost的网络流量异常行为检测方法
CN113282926A (zh) * 2021-05-25 2021-08-20 贵州师范大学 一种基于三通道图像的恶意软件分类方法
CN113705619A (zh) * 2021-08-03 2021-11-26 广州大学 一种恶意流量检测方法、***、计算机及介质
CN113705619B (zh) * 2021-08-03 2023-09-12 广州大学 一种恶意流量检测方法、***、计算机及介质

Similar Documents

Publication Publication Date Title
CN110572393A (zh) 一种基于卷积神经网络的恶意软件流量分类方法
CN110765458B (zh) 一种基于深度学习的恶意软件图像格式检测方法及其装置
CN107908963B (zh) 一种自动化检测恶意代码核心特征的方法
RU2654146C1 (ru) Система и способ обнаружения вредоносных файлов с использованием элементов статического анализа
Gao et al. Malware classification for the cloud via semi-supervised transfer learning
CN109784056B (zh) 一种基于深度学习的恶意软件检测方法
CN110633570B (zh) 面向恶意软件汇编格式检测模型的黑盒攻击的防御方法
Tang et al. Dynamic API call sequence visualisation for malware classification
CN111027069B (zh) 恶意软件家族检测方法、存储介质和计算设备
CN110826059A (zh) 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置
CN110704840A (zh) 一种基于卷积神经网络cnn的恶意软件检测方法
US9762593B1 (en) Automatic generation of generic file signatures
RU2708356C1 (ru) Система и способ двухэтапной классификации файлов
CN111382434A (zh) 用于检测恶意文件的***和方法
KR101858620B1 (ko) 기계 학습을 이용한 자바스크립트 분석 장치 및 방법
CN111382438B (zh) 基于多尺度卷积神经网络的恶意软件检测方法
Zhong et al. Malware-on-the-brain: Illuminating malware byte codes with images for malware classification
CN113935033A (zh) 特征融合的恶意代码家族分类方法、装置和存储介质
CN113360912A (zh) 恶意软件检测方法、装置、设备及存储介质
CN114003910B (zh) 一种基于动态图对比学习的恶意变种实时检测方法
Kumar et al. Machine learning based malware detection in cloud environment using clustering approach
Kakisim et al. Sequential opcode embedding-based malware detection method
Yan et al. Automatic malware classification via PRICoLBP
Yoo et al. The image game: exploit kit detection based on recursive convolutional neural networks
Masabo et al. Improvement of malware classification using hybrid feature engineering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191213