CN110572393A

CN110572393A - 一种基于卷积神经网络的恶意软件流量分类方法

Info

Publication number: CN110572393A
Application number: CN201910849786.7A
Authority: CN
Inventors: 王书州; 章丽娟; 刘旭; 胡漪逸; 孟凯强; 王亚龙; 赵治博; 朱晓贝; 李维超
Original assignee: Henan Rongpan Network Technology Co Ltd
Current assignee: Henan Rongpan Network Technology Co Ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2019-12-13

Abstract

本发明提供一种基于卷积神经网络的恶意软件流量分类方法，属于恶意软件流量检测技术领域，该基于卷积神经网络的恶意软件流量分类方法具体包括以下步骤：恶意代码映射为单通道的信号；信号处理生成信号的语谱图；语谱图转化为恒定大小的灰度图；卷积神经网络实现恶意代码的分类。本发明基于卷积神经网络从恶意软件生成的灰度图像中学习特征，用图像分类方法完成恶意软件分类；因为卷积神经网络可以从原始数据学习特征，不需要预先设计流量特性，不需要复杂的特征工程和较深入的相关领域专业知识，所以这种方法更加高效，适用范围更加广泛；有效的识别恶意软件的全局信息，可以基于全局信息对恶意软件的性质进行分析。

Description

一种基于卷积神经网络的恶意软件流量分类方法

技术领域

本发明属于恶意软件流量检测技术领域，尤其涉及一种基于卷积神经网络的恶意软件流量分类方法。

背景技术

恶意软件指各种形式的恶意或者入侵软件，例如计算机病毒、蠕虫、间谍软件、木马、广告软件等。这些恶意软件通常以可执行程序、脚本等形式存在。在计算机***安全领域，一个重要问题是进行恶意软件的检测与识别，以便能在恶意软件运行之前将其清除，避免给计算机***造成破坏或者给用户造成损失。

不仅仅黑帽黑客或者其他怀有恶意的软件作者，即使是信用良好的供应商提供的软件也可能包含恶意代码。一个例子是索尼曾经在其出售的唱片中植入了Rootkit。这是一种特洛伊木马，它静默安装并隐藏在购买者的计算机上，目的是防止唱片被非法复制。它还收集用户的聆听习惯，并无意中创建了可以被其他恶意软件所利用的漏洞。恶意软件检测现今面临的主要挑战是需要对大量有潜在恶意目的的数据和文件进行评估。例如，微软的实时检测反恶意软件产品部署在全球超过1.6亿台计算机上，每天会产生数千万个数据点，需要作为潜在的恶意软件进行分析。

卷积神经网络(ConvolutionalNeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeuralNetworks)，是深度学***移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络(Shift-InvariantArtificialNeuralNetworks,SIANN)。

中国专利公开号为CN110062013A，发明创造的名称为一种针对恶意软件HTTP流量的检测***，包括：流量捕获模块：用于周期性捕获网络中的HTTP流量；行为建树模块：用于将HTTP流量进行预处后转换为行为树状图；特征提取模块：用于提取行为树状图中的各节点上的统计特征、内容特征和行为特征，再基于提取的统计特征、内容特征和行为特征转换为特征树状图。

但是，现有的反病毒和恶意软件检测产品通常使用特征值扫描技术，这种方法有很大的局限性；越来越多的恶意软件通过加密、混淆或者打包等方法躲避基于特征值的检测，这给传统的恶意软件分析和检测方法带来挑战，目前缺少一种基于卷积神经网络的，安全可靠效率高准确的恶意软件流量分类方法***。

所以，发明一种基于卷积神经网络的恶意软件流量分类方法显得非常必要。

发明内容

为了解决上述技术问题，本发明提供一种基于卷积神经网络的恶意软件流量分类方法，以解决现有的反病毒和恶意软件检测产品通常使用特征值扫描技术，这种方法有很大的局限性；越来越多的恶意软件通过加密、混淆或者打包等方法躲避基于特征值的检测，这给传统的恶意软件分析和检测方法带来挑战，目前缺少一种基于卷积神经网络的，安全可靠效率高准确的恶意软件流量分类方法***。

一种基于卷积神经网络的恶意软件流量分类方法具体包括以下步骤：

步骤一：恶意代码映射为单通道的信号；

步骤二：信号处理生成信号的语谱图；

步骤三：语谱图转化为恒定大小的灰度图；

步骤四：卷积神经网络实现恶意代码的分类。

优选地，在步骤一中，所述的恶意代码的映射用到文件属性(fp)对恶意软件分类非常有用，压缩率可以很大程度上描述文件的类型，本文提取了字节文件与反汇编文件大小和压缩率，并且获取了他们的比值。

优选地，在步骤二中，所述的语谱图的生成在汇编代码中，软件的行为通常由一些代码关键字符或者字符串(key)决定；程序节、操作码、应用编程接口调用和动态链接库在很大程度上描述了一个软件的行为与目的，这些属性的数量与分布具有一定的规律，统计他们出现的频率，与其占的比例；所述的语谱图的生成中用到熵；所述的熵(ent)是信息不确定性的一个测度，熵越大则表示信息的不确定程度越高。

优选地，在步骤二中，应用到N-gram，所述的N-gram是NLP领域中非常重要的一个概念，N-gram的一个主要作用是评估2段文字之间的差异程度，是模糊匹配中最常用的一种手段。

优选地，在步骤三中，所述的使用图像缩放算法将语谱图转化为恒定大小的灰度图。

优选地，在步骤三中，所述的恶意软件可以通过将每个字节解释为图像中的一个像素而把字节文件形象转化为灰度图像，将字节表示为像素，很容易可以得到图像的像素强度，因此提取图像的前300～600像素强度作为特。

优选地，在步骤四中，所述的分类用的分类器分别是常用的ExtraTreesClassiffier、支持向量机和一种渐进回归树的优化算法xgboost，对比多种分类器，最终实验使用多分类器融合，使用80％的xgboost和20％的ExtraTreesClassiffier作为分类算法。

与现有技术相比，本发明具有如下有益效果：由于本发明的一种基于卷积神经网络的恶意软件流量分类方法广泛应用于恶意软件流量检测技术领域。本发明基于卷积神经网络从恶意软件生成的灰度图像中学习特征，用图像分类方法完成恶意软件分类；因为卷积神经网络可以从原始数据学习特征，不需要预先设计流量特性；不需要复杂的特征工程和较深入的相关领域专业知识，所以这种方法更加高效，适用范围更加广泛；卷积神经网络通过局部链接、权值共享等方法，有效的识别恶意软件的全局信息，可以基于全局信息对恶意软件的性质进行分析，所以卷积神经网络比传统的机器学习方法有更好的效果。

附图说明

图1是基于卷积神经网络的恶意软件流量分类方法的流程图。

图2是基于卷积神经网络的恶意软件流量分类方法的实验操作示意图。

图3是实验数据一的记录图。

图4是实验数据二的记录图。

具体实施方式

以下结合附图对本发明做进一步描述：

如附图1所示

S101：恶意代码映射为单通道的信号；

S102：信号处理生成信号的语谱图；

S103：语谱图转化为恒定大小的灰度图；

S104：卷积神经网络实现恶意代码的分类。

上述实施例中，具体的，在S101中，所述的恶意代码的映射用到文件属性(fp)对恶意软件分类非常有用，压缩率可以很大程度上描述文件的类型，本文提取了字节文件与反汇编文件大小和压缩率，并且获取了他们的比值。

上述实施例中，具体的，在S102中，所述的语谱图的生成在汇编代码中，软件的行为通常由一些代码关键字符或者字符串(key)决定；程序节、操作码、应用编程接口调用和动态链接库在很大程度上描述了一个软件的行为与目的，这些属性的数量与分布具有一定的规律，统计他们出现的频率，与其占的比例；所述的语谱图的生成中用到熵；所述的熵(ent)是信息不确定性的一个测度，熵越大则表示信息的不确定程度越高。

上述实施例中，具体的，在S102中，所述的熵压缩了字节文件中每4kB块的字节，使用香农公式计算每块的熵e作为特征：

其中，p(i)代表这一块中字节i的频率；m代表窗口内不同字节的数量。信息熵描述了信息的不确定程度，同时也能表现出代码文件之间的逻辑，尽管恶意软件代码改变了软件原有的目的，但是其很难改***件原有的信息量。在恶意软件变种的过程中，会通过一些简单的手段隐藏恶意行为，却难以改变整个文件信息之间的逻辑，并且信息熵在描述信息分布的同时，也同时会描述出信息分布的变化，可以有效分析出恶意软件隐藏的恶意行为。

上述实施例中，具体的，在S102中，应用到N-gram，所述的N-gram是NLP领域中非常重要的一个概念，N-gram的一个主要作用是评估2段文字之间的差异程度，是模糊匹配中最常用的一种手段。一连串的十六进制代码可以通过N-gram有效的分析，捕获到代码中的关键信息。1-gram有256个特征，2-gram有65536个特征。本发明对于1-gram(1-gram)提取所有词的频率，而2-gram(2-gram)仅考虑最受欢迎的600词与特殊字符串的前2个字节。这些特殊字符串在2.2.2节中考虑过，但由于编码的问题，一部分在反汇编文件中不可见，于是再次使用。本发明将字节文件的一行作为1-gram(1-gram)，本文选取了1000个文件中最常出现的一些行作为gram。

上述实施例中，具体的，在S103中，所述的使用图像缩放算法将语谱图转化为恒定大小的灰度图。

上述实施例中，具体的，在S103中，所述的恶意软件可以通过将每个字节解释为图像中的一个像素而把字节文件形象转化为灰度图像，将字节表示为像素，很容易可以得到图像的像素强度，因此提取图像的前300～600像素强度作为特。

上述实施例中，具体的，在S103中，所述的图像转化在asm文件中也进行了应用。将代码转换为图像，可以获得非常精致的纹理，这些纹理很大程度地描述了代码之间的相似程度以及代码的函数结构和代码之间的文件结构，恶意软件相似的行为也通常包括相同的代码或相同的函数调用，并且部分恶意软件作者通过将代码改为相似的格式用于隐藏部分恶意信息，将代码转为肉眼可见的图像，可以有效地分析代码在恶意行为上的相似之处。

上述实施例中，具体的，在S104中，所述的分类用的分类器分别是常用的ExtraTreesClassiffier、支持向量机和一种渐进回归树的优化算法xgboost，对比多种分类器，最终实验使用多分类器融合，使用80％的xgboost和20％的ExtraTreesClassiffier作为分类算法。

实施例1

本发明公开了一种基于卷积神经网络的恶意软件流量分类方法，利用本技术方案的一个具体应用实例：

实验步骤：TensorFlow被用作实验软件框架，运行在Ubuntu14.0464位操作***上。服务器是戴尔R720，有16核CPU和16GB内存。一个NvidiaTeslaK40mGPU被用作加速器。有十分之一的数据被随机选择作为测试数据，其余的是训练数据。小批量是50，成本函数是交叉熵。在TensorFlow中构建的梯度下降优化器被用作优化器。学习率为0.001，训练时间约40个。

评价指标：使用了四个评价指标:准确性(A)、精度(P)、召回率(R)、f1值(f1)。精度用于评价分类器的整体性能。精度、召回率和f1值被用来评估每一类流量的性能。

TP是正确分类为X的实例数，TN是正确分类为非X的实例数，FP是错误分类为X的实例数，而FN是错误分类为非X的实例数。

实验结果和分析：进行了八项实验以确定最佳的流量表征类型。图3显示了恶意软件和正常流量数据集的四种表示类型的准确性。从4个比较中可以发现，所有层的流量类的准确性总是高于L7(包层类型第7层)层。除了在正常流量中L7的会话和流的准确性是相等的，其他三个比较都表明，使用会话的流量类的准确性总是高于使用流。图4显示了nsi-ay的精度、召回率和f1值，它是20种流量类型之一。我们可以看到图3所示的模式。在所有的12个比较中，除了使用所有层的会话召回率比使用所有层的流量稍微低(0.24％)，其他11个比较显示了如下模式:所有层的流量类的精度、召回率、f1值都比只有L7层的高，而且使用会话的精度、召回率、f1值都比使用流要高。不仅如此，同样的模式也可以在其他19类流量结果中找到。总之，所有的都比L7好，而且会话比流更好。

对于这种模式，可以给出一个直观的解释。因为会话包含双向流，因此包含更多的交互信息，而不是单向流。因为所有层表示都包含了比L7层更多的层，特别是包含端口和标记信息，所以它可以代表更多的关键信息，这证明了我们在第三节的B部分的假设。需要注意的是，许多类流量的L7层预处理结果记录要比所有层的预处理结果记录少得多，例如CTU107-1的L7层记录只有8，但所有层记录都是16386。当生成相同数量的训练数据时，需要使用L7比所有层表示更多的流量数据。因此，我们可以看到，所有层表示都比L7层表示更灵活。

综上所述，可以发现最佳类型的流量表示是会话+All，只有这种类型的流量表示被用来进行可伸缩性实验。

可扩展性实验结果与分析：表1显示了使用会话+所有流量表示的两种场景中三种类型的分类器的总体准确性。表V和VI显示了每一类流量的精度、召回率和f1值。由于二进制分类器的精度为100％，所以不需要显示二进制分类器的精度、召回率和f1值。

TABLE IV Accuracy of three classifiers(％)

TABLE V Precision，recall and f1 value of 20-classifiers(％)

DATA	PR	RC	F1	DATA	PR	RC	F1
								Cridex	100	100	100	BitTrt	100	100	100
Geodo	100	99.9	99.9	Facetime	100	100	100
								Htbot	99.8	100	99.9	FTP	100	100	100
Miuref	100	100	100	Gmail	98.4	99.3	98.8
								Neris	96.3	92.9	94.6	MySQL	100	100	100
Nsis-ay	99.8	99.0	99.4	Outlook	99.2	98.1	98.7
								Shifu	99.9	99.9	99.9	Skype	99.8	100	99.9
Tinba	100	100	100	SMB	100	100	100
								Virut	90.7	95.6	93.1	Weibo	100	100	100
Zeus	100	100	100	Wow	100	99.9	99.9

TABLE VI Precision，recall and f1 value of 10-classifiers(％)

DATA	PR	RC	F1	DATA	PR	RC	F1
								Cridex	100	100	100	BitTrt	100	100	100
Geodo	100	100	100	Facetime	100	100	100
								Htbot	99.8	99.8	99.8	FTP	100	100	100
Miuref	100	100	100	Gmail	99.9	99.7	99.8
								Neris	97.1	91.1	94.0	MySQL	100	100	100
Nsis-ay	99.7	99.3	99.5	Outlook	99.6	99.9	99.7
								Shifu	99.9	99.8	99.8	Skype	100	100	100
Tinba	99.9	100	99.9	SMB	100	100	100
								Virut	89.0	96.5	92.6	Weibo	100	100	100
Zeus	100	100	100	Wow	100	100	100

表1

表1显示四种分类器的准确度很高，即使是最低准确度也达到了98.52％。表V显示Neris和病毒流量的精度、召回率和f1值稍低(90％～96％)，但其他18类流量均达到非常高的精度、召回率和f1值(高于99％)。表VI显示了相似的模式，Neris和病毒流量的指标值稍低一些(89％～97％)，但是其他18个级别的流量都达到了很高的指标(高于99％)。为什么Neris和病毒会出现一些较低的指标，这可能是它们的特殊特征，需要进一步研究。综上所述，这三种分类器的平均准确度已经达到了99.41％，满足了实际使用的准确度要求。

由于交通数据集、软件设置和实验环境的不同，在各种恶意软件流量分类方法中进行公平的比较是不容易的。另一方面，三种类型的分类器都实现了相当高的精度。因此，我们不是在我们的方法和其他现有方法之间进行性能比较，而是将它们与一些重要的特性进行比较。表2显示了我们的方法和基于规则的Snort之间的一般比较，这是一个著名的NIDS，基于传统机器学习的Celik，前面提到的Gao和Javaid都使用了手工设计的流特性。

TABLE VII COMPARISON OF DIFFERENT METHODS

Characteristics	Our’s	Snort	Celik	Gao	Javaid
						Early stage detection	Yes	No	Yes	No	No
Low false alarm rate	Yes	No	Yes	Yes	Yes
						Protocol independent	Yes	No	Yes	Yes	Yes
Features auto extraction	Yes	No	No	Yes	Yes
						Raw Traffic data input	Yes	Yes	No	No	No

表2

我们的方法具有早期恶意软件流量检测的能力，因为仅使用前几百个字节的每个会话。Snort需要匹配其位置不确定的流量指纹。Gao和Javaid需要从整个交通流中提取特征。所以它们都没有早期的检测特性。实验结果表明，该方法具有较低的误报率，且由于某些问题如难以精确地提取恶意软件的流量，使Snort的误报率较高。我们的方法是协议独立的，因为使用图像分类方法，而Snort需要为每个协议设计匹配规则。我们的方法可以自动提取特征，而Celik则没有这样的能力，这是基于典型的机器学习方法，如SVM。最后，我们的方法直接使用原始的流量数据集，相比之下，Gao和Javaid都使用手动设计的流特性数据集。

本发明的一种基于卷积神经网络的恶意软件流量分类方法广泛应用于恶意软件流量检测技术领域。本发明基于卷积神经网络从恶意软件生成的灰度图像中学习特征，用图像分类方法完成恶意软件分类；因为卷积神经网络可以从原始数据学习特征，不需要预先设计流量特性；不需要复杂的特征工程和较深入的相关领域专业知识，所以这种方法更加高效，适用范围更加广泛；卷积神经网络通过局部链接、权值共享等方法，有效的识别恶意软件的全局信息，可以基于全局信息对恶意软件的性质进行分析，所以卷积神经网络比传统的机器学习方法有更好的效果。

利用本发明所述的技术方案，或本领域的技术人员在本发明技术方案的启发下，设计出类似的技术方案，而达到上述技术效果的，均是落入本发明的保护范围。

Claims

1.一种基于卷积神经网络的恶意软件流量分类方法，其特征在于，该基于卷积神经网络的恶意软件流量分类方法具体包括以下步骤：

步骤一：恶意代码映射为单通道的信号；

步骤二：信号处理生成信号的语谱图；

步骤三：语谱图转化为恒定大小的灰度图；

步骤四：卷积神经网络实现恶意代码的分类。

2.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法，其特征在于，在步骤一中，所述的恶意代码的映射用到文件属性(fp)对恶意软件分类非常有用，压缩率可以很大程度上描述文件的类型，本文提取了字节文件与反汇编文件大小和压缩率，并且获取了他们的比值。

3.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法，其特征在于，在步骤二中，所述的语谱图的生成在汇编代码中，软件的行为通常由一些代码关键字符或者字符串(key)决定；程序节、操作码、应用编程接口调用和动态链接库在很大程度上描述了一个软件的行为与目的，这些属性的数量与分布具有一定的规律，统计他们出现的频率，与其占的比例；所述的语谱图的生成中用到熵；所述的熵(ent)是信息不确定性的一个测度，熵越大则表示信息的不确定程度越高。

4.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法，其特征在于，在步骤三中，所述的使用图像缩放算法将语谱图转化为恒定大小的灰度图。

5.如权利要求4所述的基于卷积神经网络的恶意软件流量分类方法，其特征在于，在步骤三中，所述的恶意软件可以通过将每个字节解释为图像中的一个像素而把字节文件形象转化为灰度图像，将字节表示为像素，很容易可以得到图像的像素强度，因此提取图像的前300～600像素强度作为特。

6.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法，其特征在于，在步骤四中，所述的分类用的分类器分别是常用的ExtraTreesClassiffier、支持向量机和一种渐进回归树的优化算法xgboost，对比多种分类器，最终实验使用多分类器融合，使用80％的xgboost和20％的ExtraTreesClassiffier作为分类算法。

7.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法，其特征在于，在步骤二中，应用到N-gram，所述的N-gram是NLP领域中非常重要的一个概念，N-gram的一个主要作用是评估2段文字之间的差异程度，是模糊匹配中最常用的一种手段。

8.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法，其特征在于，在步骤四中，所述的分类用的分类器分别是常用的ExtraTreesClassiffier、支持向量机和一种渐进回归树的优化算法xgboost，对比多种分类器，最终实验使用多分类器融合，使用80％的xgboost和20％的ExtraTreesClassiffier作为分类算法。

9.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法，其特征在于，在步骤二中，所述的语谱图的生成中用到熵；所述的熵(ent)是信息不确定性的一个测度，熵越大则表示信息的不确定程度越高。

10.如权利要求1所述的基于卷积神经网络的恶意软件流量分类方法，其特征在于，在步骤二中，所述的熵压缩了字节文件中每4kB块的字节，使用香农公式计算每块的熵e作为特征：

其中，p(i)代表这一块中字节i的频率；m代表窗口内不同字节的数量。