CN109033833B

CN109033833B - 一种基于多特征与特征选择的恶意代码分类方法

Info

Publication number: CN109033833B
Application number: CN201810766624.2A
Authority: CN
Inventors: 金福生; 王茹楠; 秦勇
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2021-04-09
Anticipated expiration: 2038-07-13
Also published as: CN109033833A

Abstract

一种基于多特征与特征选择的恶意代码分类方法，属于计算机安全和机器学习技术领域。涉及一种通过融合恶意代码家族不同类别的特征得到多特征，并提出一种特征选择的方法处理多特征，具体通过融合像素特征以及n‑gram特征，得到表征恶意代码家族的多特征信息，通过使用L2正则项优化的带有L1正则项的逻辑回归模型对融合特征进行初步特征选择，然后使用线性判别分析对特征进行降维，最后使用K最近邻算法训练恶意代码分类器。本发明能够为训练过程提供更多维度的特征数据；能够解决关键特征无法被选取的问题；通过使用LDA进行特征降维，使映射后的样本具有更好的分类性能，不仅加快了训练速度，而且提高了模型的分类准确度。

Description

一种基于多特征与特征选择的恶意代码分类方法

技术领域

本发明涉及一种基于多特征与特征选择的恶意代码分类方法，属于计算机安全和机器学习技术领域。

背景技术

随着恶意代码技术的发展，恶意代码开始在传播过程中进行变形以躲避查杀，当前，同一个恶意代码的变种数量急剧提升，形态较本体也发生了较大的变化，对恶意代码的检测与防范是安全领域面临的一大挑战。

恶意代码是指一切旨在破坏计算机或网络***可靠性、实用性、安全性和数据完整性或消耗***资源的恶意程序。随着反恶意代码技术的逐步发展，主动防御技术、云查杀技术已越来越多的被安全厂商使用，但恶意代码静态检测的方法仍是效率最高，运用最广泛的恶意代码查杀技术。静态技术主要是通过文件结构解析、反汇编、反编译等方法对恶意代码进行分析，通常不实际运行代码，通过捕获恶意代码的程序流程和功能，得到用于检测和查杀恶意代码的特征定义。

恶意代码分类技术是防范恶意代码的关键技术，它能够为检测、控制和清除恶意代码提供重要依据，是安全领域的研究热点。近年来，机器学习方法被认为是解决分类问题的快速有效的方法，并受到越来越多的关注，有大量研究人员通过提取恶意代码家族的相关特征，使用机器学习的分类算法有效解决恶意代码家族类别分析。

然而，基于机器学习的恶意代码分类方法的效果，很大程度上依赖于提取到的恶意代码家族特征，过少的特征无法全面地表征恶意代码家族类型，而过多的特征不仅会造成训练速度下降，还会产生过拟合等问题限制分类的效果。

因此本发明提出了一种基于多特征和特征选择的恶意代码分类方法，通过融合多特征，获取到了大量表征恶意代码家族信息的特征，并使用一种4-LFE的方法进行特征选择，有效地避免了过拟合，提高了分类的准确度。

发明内容

本发明的目的在于提升现有恶意代码分类的准确率，提出了一种基于多特征和特征选择的恶意代码分类方法。

本发明的核心思想是：涉及一种通过融合恶意代码家族不同类别的特征得到多特征，并提出一种特征选择的方法处理多特征，具体通过融合像素特征以及n-gram特征，得到表征恶意代码家族的多特征信息，通过使用L2正则项优化的带有L1正则项的LogisticRegression模型对融合特征进行初步特征选择，然后使用线性判别分析对特征进行降维，最后使用K最近邻算法训练恶意代码分类器。

一种基于多特征和特征选择的恶意代码分类方法，简称为4-LFE方法，包括如下步骤：

步骤一：预处理恶意代码文件，即去除恶意代码文件的PE文件头，输出预处理后的恶意代码文件；

步骤二：使用步骤一输出的预处理后的恶意代码文件，生成恶意代码灰度图像，并基于此提取像素特征，具体包括以下子步骤；

步骤2.1转换步骤一输出的预处理后的恶意代码文件转换为十六进制文件，再按字节分割十六进制文件中的字符串，设定灰度矩阵宽度，生成恶意代码灰度图像；

步骤2.2设定像素特征维度，提取步骤2.1生成的恶意代码灰度图像的像素特征；

步骤三：提取步骤一输出的预处理后的恶意代码文件的n-gram特征，并与步骤二中提取的像素特征进行特征融合得到融合特征，再将融合特征存储到特征矩阵中，即得到一个包含多种特征的特征矩阵；

步骤三、具体为：

步骤3.1运行IDA反汇编脚本，输入步骤一预处理后的恶意代码文件，得到反汇编代码文件；

步骤3.2提取步骤3.1得到的反汇编代码文件中的操作码，设定n-gram滑动窗口长度，构建n-gram特征向量；

步骤3.3将步骤2.2得到的像素特征以及步骤3.2构建的n-gram特征向量存储到一个特征矩阵中，得到一个包含多种特征的特征矩阵；

步骤四：将步骤三存储到特征矩阵中的融合特征通过4-LFE方法进行特征选取和特征降维，输出d维特征；

其中，步骤四中采用的4-LFE方法包括以下几个子步骤：

步骤4.1构建逻辑回归模型；

其中，逻辑回归模型全称为Logistic Regression，简称LR；

步骤4.2使用相同的LR模型参数初始化带有L1正则项的LR模型和带有L2正则项的LR模型，分别为L1-LR和L2-LR；

其中，L1正则项、L2正则项分别如公式(1)、(2)：

其中，w_rq表示的是LR模型中的权重矩阵中第r行第q列的元素，|w_rq|表示权重矩阵中w_rp的绝对值，∑表示求和，λ为正则化参数，R,Q分别表示权重矩阵的行数和列数；

因此，L1-LR的损失函数如公式(3):

Cost_L1＝Cost0+L1 (3)

其中，Cost0为LR模型的原始损失函数；

L2-LR的损失函数如公式(4):

Cost_L2＝Cost0+L2 (4)

步骤4.3分别使用步骤三得到的融合特征训练L1-LR和L2-LR，得到L1-LR的权值矩阵，记为coef1_m×n；以及L2-LR的权值矩阵，记为coef2_m×n；

其中，m为L1-LR权值矩阵coef1和L2-LR权值矩阵coef2的行数，n为L1-LR权值矩阵coef1和L2-LR权值矩阵coef2的列数；

步骤4.4遍历步骤4.3得到的L1-LR的权值矩阵coef1中的每个系数，记当前遍历到的系数为coef；如果当前coef不为0，则记录此coef在矩阵中的位置i,j；

初始化一个一维矩阵，记为coef对应的特征的同类矩阵S，并将coef1[i][j]添加到矩阵S中；

其中，i的取值范围是0至m-1，j的取值范围是0至n-1；

步骤4.5记L2-LR的权值矩阵coef2中对应步骤4.4中记录的第i行第j列位置上的元素为coef2[i][j]，并且开始遍历coef2中第i行的权值系数；

如果当前遍历到的系数coef2[i][k]与coef2[i][j]之差小于设定阈值th，并且对应到L1-LR权值矩阵coef1[i][k]为0，则将coef2[i][k]也加入到步骤4.4中的矩阵S中；

继续遍历coef2中第i行的权值系数，直到coef2中第i行所有的权值系数都被访问；

其中，k的取值范围是0至n-1；

步骤4.6计算步骤4.5得到的矩阵S中元素的个数num以及coef对应的该特征的权值系数均值，即coef/num，将该值分别赋给L1-LR中的coef1[i][k]和coef1[i][j]；

步骤4.7循环步骤4.4至步骤4.6，直到遍历完coef1中的所有系数，得到更新后的L1-LR权值系数矩阵记为coef_new；

步骤4.8根据步骤4.7得到的更新后的L1-LR权值系数矩阵coef_new，对步骤三得到的融合特征矩阵进行特征选择，得到特征选择后的新的特征矩阵；

步骤4.9使用线性判别分析方法对步骤4.8输出的新的特征矩阵进行降维，得到d维特征；

其中，d的取值范围是1到分类类别数减1，即经过投影变换后的特征保留了每个恶意代码文件最重要的d维特征；

步骤五：选择K最近邻方法对步骤四输出的特征进行训练，得到一个恶意代码家族分类器；

其中，K最近邻方法的全称为K-NearestNeighbor，简称KNN。

有益效果

一种基于多特征与特征选择的恶意代码分类方法，与现有技术相比，具有如下有益效果：

1.本发明使用多特征表征恶意代码家族，能够为训练过程提供更多维度的特征数据；

2.本发明通过改进带有L1正则项的LR，使用L2正则项进行二次判定，能够有效克服L1-LR只能保留多目标值具有同等相关性特征中的一个的问题，解决关键特征无法被选取的问题；

3.本发明使用一种4-LFE的方法进行特征选择，具体通过使用LDA进行特征降维，使映射后的样本具有更好的分类性能，不仅加快了训练速度，而且提高了模型的分类准确度。

附图说明

图1是本发明一种基于多特征和特征选择的恶意代码分类方法的流程图；

图2是本发明一种基于多特征和特征选择的恶意代码分类方法步骤B中提

像素特征提取的流程图；

图3是本发明一种基于多特征和特征选择的恶意代码分类方法步骤B中生

成的一个样本集中的恶意代码灰度图像。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明，同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

实例1

本实施例1具体实施步骤如图1所示，所述方法包含以下步骤：

步骤A：恶意代码文件预处理；

本实施例中，使用的恶意代码样本为Microsoft提供的包含′.byte′文件和′.asm’文件的数据集，已经去除各恶意代码样本的PE文件头；

具体到本实施例，检查样本集中的文件，删除只包含’.bytes’文件或只包含′.asm′文件的恶意代码样本；

步骤B：生成恶意代码图像，提取像素特征；

恶意代码像素特征提取流程如图2；

具体到本实施例，使用’.asm’文件生成恶意代码图像，使用python进行特征提取；

首先读取’.asm’文件并将其转换为十六进制文件，然后按字节分割十六进制字符串，通过设定灰度矩阵的宽度为512，生成恶意代码灰度矩阵，使用python中Image.fromarray方法将灰度矩阵转化为灰度图，例如样本集中的一个恶意代码的灰度图如图3所示；

得到每个恶意代码样本的灰度图后，本实施例提取每个恶意代码灰度图的前2500个像素，并将其存储为恶意代码样本的像素特征；

步骤C：提取恶意代码文件的n-gram特征；

本实施例中首先从’.asm’文件获取Opcode序列，具体为使用python中的re模块的compile方法；然后设定n-gram的滑动窗口值为3，根据Opcode序列，统计对应的n-gram，存储到n-gram特征中；

将步骤B的像素特征与步骤C的n-gram特征存储在一个特征矩阵中，得到融合后的多特征；

步骤D；使用4-LFE方法选择融合特征；

在本实施例中，通过python的sklearn库实现L1-L2-LR方法；定义一个LR的类，对步骤四描述的方法4-LFE进行复现；首先初始化带有L1正则项的LR，其中本实施例通过设定LogisticRegression类中的参数penalty＝Ll来实现L1-LR，正则化系数C设置为0.1。然后使用相同模型参数初始化带有L2正则项的LR，其中LogisticRegression类中的参数penalty设置为L2；

具体到本实施例，分别采用步骤C得到的融合后的多特征矩阵对L1-LR、L2-LR进行训练，并得到对应的权值矩阵coef1和coef2；

按照步骤4.4至步骤4.7的方法对L1-LR的权值矩阵coef1进行更新，并得到新的L1-LR的权值矩阵coef_new；

其中，步骤4.5中的阈值th设定为0.5；

使用python中sklearn库中的selectfrommodel的方法对特征进行选择，得到特征选择后11234维特征；

步骤E：使用线性判别分析法对步骤D选择后的特征降维；

在本实施例中，使用python的sklearn库初始化LDA方法，然后输入步骤D选择得到的11234维特征，设定特征降维后的维度为7维，存储降维后的特征到新特征矩阵；

步骤F：使用K最近邻算法训练恶意代码分类器，得到分类结果；

具体到本实施例中，使用python的sklearn库初始化KNN算法，输入为步骤D得到的每个样本的7维恶意代码特征向量与类别标签，进行恶意代码分类器训练，然后使用划分数据集的测试集部分进行分类性能测试。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于多特征和特征选择的恶意代码分类方法，其特征在于：核心思想是：涉及一种通过融合恶意代码家族不同类别的特征得到多特征，并提出一种特征选择的方法处理多特征，具体通过融合像素特征以及n-gram特征，得到表征恶意代码家族的多特征信息，通过使用L2正则项优化的带有L1正则项的Logistic Regression模型对融合特征进行初步特征选择，然后使用线性判别分析对特征进行降维，最后使用K最近邻算法训练恶意代码分类器；包括如下步骤：

步骤二：使用步骤一输出的预处理后的恶意代码文件，生成恶意代码灰度图像，并基于此提取像素特征，具体包括如下子步骤：

步骤2.1将步骤一输出的预处理后的恶意代码文件转换为十六进制文件，再按字节分割十六进制文件中的字符串，设定灰度矩阵宽度，生成恶意代码灰度图像；

步骤2.2设定像素特征维度，提取步骤2.1生成的恶意代码灰度图像的像素特征；步骤三：提取步骤一输出的预处理后的恶意代码文件的n-gram特征，并与步骤二中提取的像素特征进行特征融合得到融合特征，再将融合特征存储到特征矩阵中，即得到一个包含多种特征的特征矩阵；

其中，步骤四中采用的4-LFE方法包括以下几个子步骤：

步骤4.1构建逻辑回归模型；

其中，逻辑回归模型全称为Logistic Regression，简称LR；

其中，L1正则项、L2正则项分别如公式(1)、(2)：

其中，w_rq表示的是LR模型中的权重矩阵中第r行第q列的元素，|w_rq|表示权重矩阵中w_rq的绝对值，∑表示求和，λ为正则化参数，R，Q分别表示权重矩阵的行数和列数；

因此，L1-LR的损失函数如公式(3)：

Cost_L1＝Cost0+L1 (3)

其中，Cost0为LR模型的原始损失函数；

L2-LR的损失函数如公式(4)：

Cost_L2＝Cost0+L2 (4)

步骤4.4遍历步骤4.3得到的L1-LR的权值矩阵coefl中的每个系数，记当前遍历到的系数为coef；如果当前coef不为0，则记录此coef在矩阵中的位置i，j；

其中，i的取值范围是0至m-1，j的取值范围是0至n-1；

其中，k的取值范围是0至n-1；

其中，K最近邻方法的全称为K-NearestNeighbor，简称KNN。

2.根据权利要求1所述的一种基于多特征和特征选择的恶意代码分类方法，其特征在于：步骤三、具体为：

步骤3.3将步骤2.2得到的像素特征以及步骤3.2构建的n-gram特征向量存储到一个特征矩阵中，得到一个包含多种特征的特征矩阵。