CN109886021A

CN109886021A - 一种基于api全局词向量和分层循环神经网络的恶意代码检测方法

Info

Publication number: CN109886021A
Application number: CN201910123187.7A
Authority: CN
Inventors: 高雅琪; 詹静; 樊旭东; 范雪; 刘一帆
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-06-14

Abstract

本发明公开了一种基于API全局词向量和分层循环神经网络的恶意代码检测方法，该恶意代码检测方法包括两个阶段：(S1)已知样本的训练阶段，本阶段的目的主要为得到使用已知样本训练之后的网络模型。(S2)未知样本的预测阶段，预测阶段的目的主要为使用(S1)中的网络模型预测未知代码是否为恶意代码。由于恶意代码进行远程攻击时会触发一系列***API，通常有较为频繁出现的序列组合。循环神经网络在处理时序信息方面有独特优势，将此优势与API时序结合，提出一种基于API时序序列的恶意代码检测方法，实现自动化的恶意代码检测，提高检测的正确率和检测速率，并能识别更多的未知恶意代码。

Description

一种基于API全局词向量和分层循环神经网络的恶意代码检测方法

技术领域

本发明涉及恶意代码检测领域，尤其涉及一种基于时序序列的恶意代码检测方法，属于计算机技术领域。

背景技术

随着计算机和网络的飞速发展，带给人们诸多便利的同时也带给人们一定的威胁。网络黑客针对各种网络漏洞发起各种恶意攻击。恶意代码的传播不仅会干扰网络以及软件的正常使用，破坏重要数据，给个人和企业造成重大损失。

目前比较成熟的恶意代码检测主要通过匹配特征库中的特征检测恶意代码(如基于签名的检测方法)。这种方法对数据库中存在的特征检测准确率很高，但不能识别混淆后和未知的恶意代码。基于行为的检测方法监视的是程序活动行为，通过执行相关代码捕获行为信息，不受混淆技术的影响，并在一定程度上能识别未知恶意代码。然而，上述两种方法都需要相关领域专家的大量经验知识，无法实现自动化检测。

深度学习是近几年来人工智能领域发展最快的技术之一，在自然语言处理等具有时序信息相关领域中(如，命名实体识别，中文文本情感分析，文章分类，词性标注，机器翻译，对话***等，循环神经网络等)，取得了巨大进展。恶意代码检测过程中会触发一系列含有时序信息API行为序列，循环神经网络可以通过学习其内在的行为时序信息检测恶意代码，因此在未知恶意代码检测方面具有较好应用前景。

发明内容

本发明利用深度学习思想，采用动态行为分析技术，提出一种基于API时序序列的恶意代码检测方法。由于恶意代码进行远程攻击时会触发一系列***API，通常有较为频繁出现的序列组合。循环神经网络在处理时序信息方面有独特优势，将此优势与API时序结合，提出一种基于API时序序列的恶意代码检测方法，实现自动化的恶意代码检测，提高检测的正确率和检测速率，并能识别更多的未知恶意代码。

本发明采用的技术方案为一种基于全局词向量及分层循环神经网络(Slice-LongShort-Term Memory Networks，S-LSTM)的恶意代码检测方法，该恶意代码检测方法包括两个阶段：S1已知样本的训练阶段，本阶段的目的主要为得到使用已知样本训练之后的网络模型。(S2)未知样本的预测阶段，预测阶段的目的主要为使用(S1)中的网络模型预测未知代码是否为恶意代码。

其中(S1)已知样本的训练阶段一共包含三个模块：(S1-1)特征表示模块，(S1-2)全局词向量生成模块，(S1-3)S-LSTM网络训练模块。

(S2)未知样本的预测阶段一共包含两个模块：(S2-1)特征表示模块，此模块运行过程与(S1-1)相同，(S2-2)S-LSTM网络预测模块。

对上述涉及到的模块做如下介绍：

首先，对(S1)已知样本的训练阶段涉及到的模块做如下介绍：

(S1-1)特征表示模块包括如下步骤：

步骤1，收集样本。收集恶意代码、正常代码以及代码标注组成样本训练集。

步骤2，获取样本API序列。在虚拟机中执行步骤1收集到的代码，使用API Hook技术捕获代码执行过程中调用的API，并按照调用的先后顺序组成API序列。

(S1-2)全局词向量生成模块包括如下步骤：

步骤1，生成样本词汇表C。对(S1-1)中生成的API序列进行API统计，组成API词汇表C，C＝{api₁,api₂,...,api_n}，n表示词汇表C中api的个数。

步骤2，对词汇表C中所有的API生成相应的语义词向量。使用word2vec方法中的CBOW模型对(S1-1)中生成的API序列进行训练，得到词汇表C中每个API的含有语义信息的词向量。

步骤3，对词汇表C中所有的API计算相应的信息增益值。使用信息增益方法计算词汇表C中每个API的信息增益值。

步骤4，对词汇表C中所有的API生成相应的全局词向量。对于词汇表C中的每个API，用步骤2中得到的词向量乘以步骤3中相应的信息增益值，得到每个API的全局词向量表示方法，组成全局词向量词汇表。

(S1-3)S-LSTM网络训练模块包括如下步骤：

步骤1，对网络输入序列进行切分操作。对(S1-1)中得到的API序列进行截断和填充操作到统一长度，并对操作之后的序列进行切分，使得子序列长度合适并满足S-LSTM网络的输入要求。

步骤2，设置网络超参数。对S-LSTM网络中的超参数如网络训练数据集的次数epochs，网络每次训练的样本数batch_size，学习率α进行设置。

步骤3，训练S-LSTM网络模型。将S1-1中生成的API序列用(S2-1)中生成的全局词向量表示，并作为S-LSTM网络的输入，得到训练之后的S-LSTM网络模型。

步骤4，对网络模型进行评价。网络训练过程采用5折交叉验证，其中4份作为训练集，剩下一份作为测试集，本发明的正确率为5折交叉验证的平均正确率，当平均正确率小于98％时，返回步骤2对网络超参数进行调整，直到网络平均正确率高于98％。

其次，对(S2)未知样本的预测阶段涉及到的模块做如下介绍：

(S2-1)特征表示模块步骤与(S1-1)相同，得到预测样本的API序列。

(S2-2)S-LSTM网络预测模块包括如下步骤：

步骤1，利用(S1-2)中生成的全局词向量词汇表，将(S2-1)中API序列用全局词向量表示。

步骤2，将步骤1中的词向量作为(S1-3)训练生成的S-LSTM网络的输入，得到未知样本的检测结果。

本方法利用深度学习的思想对恶意代码进行检测，与其他检测方法相比，有如下好处：

1、本发明提出了一种基于检测重要性的全局词向量方法。传统词向量word2vec方法只表示了上下文词语相关性关系，本发明提出的API全局词向量方法将API对检测的重要性信息融入传统的上下文相关性信息中，提高了恶意代码检测的准确率。在使用相同数据样本集(2000个恶意样本及910个非恶意样本)和LSTM网络进行恶意代码检测的前提下，经过5折交叉验证发现，与采用经典的word2vec方法输出的词向量作为LSTM的输入(5折交叉验证的平均检测正确率为98.69％)相比，采用本发明提出的全局词向量方法输出的词向量作为LSTM的输入(5折交叉验证的平均检测正确率为98.8％)，检测正确率有稳定提高(5折交叉验证正确率提高0.09％到0.14％不等，平均正确率提高0.11％)。

2、本发明提出了一种适用于恶意代码检测场景的分层循环神经网络快速检测方法。由于代码运行过程中会触发大量API，例如本发明使用的数据样本触发的API序列的平均长度为19000，提取的API序列特征会过多，从而导致检测时间过长。本发明将S-LSTM网络应用于恶意代码检测场景，将超长API序列划分为多个子序列，采用多层网络进行子序列并行检测。在使用相同数据样本集上和使用传统词向量word2vec方法作为网络输入的前提下，与采用传统LSTM网络进行检测相比，本发明提出的基于分层循环神经网络的恶意代码检测方法，能将检测时间从750分钟缩减到99分钟，检测时间减少了86.8％。

3、本发明方法提出的基于API全局词向量和分层循环神经网络的恶意代码检测方法，具有检测自动化程度高、准确识别未知恶意代码行为特点。在提高检测自动化程度方面，本方法只需要对已有样本的恶意性进行人工标记，与现有机器学习算法相比，不需要额外进行API行为特征选择，有利于提高检测自动化程度；在准确识别未知恶意代码行为方面，本方法主要通过循环神经网络发现的代码API行为时序关系进行恶意代码识别，因此能够识别未知但具有相似行为的恶意代码。而进行恶意代码行为识别的机器学习算法通常不直接识别这些API之间的时序关系，而是基于多个选择特征API(如设置共享文件夹NetShareAdd，强制结束一个进程TerminateProcess等)进行综合检测，因此更依赖样本质量。与K近邻算法(正确率为97.66％)，支持向量机(正确率为96.49％)，决策树(正确率为97.94％)等常用机器学习算法相比，本方法检测正确率为98.86％，正确率有明显提升(分别提高了1.2％，2.37％，0.92％)。

附图说明

图1本发明总体框架图

图2全局词向量模型结构图

图3S-LSTM网络结构

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的说明。

本发明的整体架构图如图1所示，恶意代码检测方法包括两个阶段：(S1)已知样本的训练阶段，本阶段的目的主要为得到使用已知样本训练之后的网络模型。(S2)未知样本的预测阶段，本阶段的目的主要为使用(S1)中的网络模型预测未知代码是否为恶意代码。

其中(S1)已知样本的训练阶段一共包含3个模块：(S1-1)特征表示模块，(S1-2)全局词向量生成模块，(S1-3)S-LSTM网络训练模块。

(S2)未知样本的预测阶段一共包含2个模块：(S2-1)特征表示模块，此模块运行过程与(S1-1)相同，(S2-2)S-LSTM网络预测模块。

首先，对(S1)已知样本的训练阶段涉及到的模块做如下介绍：

(S1-1)特征表示模块包括如下步骤：

步骤1，获取样本。收集恶意代码、正常代码以及代码标注组成样本训练集。恶意样本来自http://academictorrents.com/，正常样本来自***文件以及http://xiazai.zol.com.cn/。

(S1-2)全局词向量生成模块如图2所示，包括如下步骤：

步骤2，对词汇表C中所有的API生成相应的语义词向量v(w)。使用经典的word2vec方法中的CBOW模型对(S1-1)中生成的API序列进行训练，得到词汇表C中每个API的含有语义信息的词向量v(w)。

CBOW模型结构如图2左侧CBOW模型所示，分为输入层、投影出、输出层。CBOW模型是用周围词即Context(w)＝w_-c,...,w_-1,w₁,...,w_c来预测中心词w，本发明中w即API，c表示窗口大小。用条件概率p(w|Content(w))表示中心词w在窗口为c的上下文中出现的概率，CBOW模型的优化目标为为了求解G的局部最最大值，即使得词汇表中任意API的条件概率最大，首先，使用随机负采样法构造关于w的负样本集，词汇表不为w的API称为负样本，用NEG(w)表示负样本集；其次，使用随机梯度上升方法对G进行优化，当达到最大迭代次数时，G达到局部最大值。

步骤3，对词汇表C中所有的API计算相应的信息增益值IG(w)。使用信息增益方法计算词汇表C中每个API的信息增益值。信息增益值表示API为分类带来的信息量，带来的信息量越多，该API越重要。

步骤4，对词汇表C中所有的API生成相应的全局词向量V(w)。对于词汇表C中的每个API，用w表示，用步骤2中得到的词向量v(w)乘以步骤3中相应的信息增益值IG(w)，即V(w)＝v(w)*IG(w)，得到每个API的全局词向量V(w)表示方法，组成全局词向量词汇表，并保存在G_CBOW_File文件中。

(S1-3)S-LSTM网络训练模块包括如下步骤：

步骤1，切分输入序列，构建S-LSTM网络结构。对S1-1中得到的API序列进行截断和填充操作到统一长度，并对操作之后的序列进行切分，使得子序列长度合适。并且构建适合本发明的S-LSTM网络，S-LSTM网络结构包含输入层、隐藏层、输出层。本步骤介绍S-LSTM网络的输入层和隐藏层，输出层在步骤3介绍。

假设输入序列长度为[x₁,x₂,...,x_T]，其中x表示每一时刻的输入，T表示序列的长度。将序列X切分为n个子序列，子序列N的长度t＝T/n。因此输入序列X可表示为X＝[N₁,N₂,...,N_n]，对于给定的子序列N_p可表示为N_p＝[x_(p-1)*t+1,x_(p-1)*t+2,...,x_p*t]。同样，再将子序列N划分为n个等长的子序列，并且重复这样的操作k次，直到最底层的子序列长度合适，然后通过k次分割，得到k+1层网络。第0层网络的最小子序列长度为第0层最小子序列数量为s₀＝n^k，剩余网络层的子序列长度为l_p＝n，子序列数量为s_p＝n^k-p，其中p为网络的层数。

本发明中提取的API序列平均长度高达19000，并且在k＝2时网络模型取得最好效果。因此，本发明中T＝19683，k＝2，为了使序列能整分将n设置为27。本发明S-LSTM网络如图3所示，网络输入层的长度T＝19683，通过2次切分操作，得到3层隐藏层。隐藏层第0层子序列的数量为27，子序列长度为729；隐藏层第1层子序列数量为27，子序列长度为27；隐藏层第2层子序列长度为1，子序列长度为27，通过3层隐藏层得到最终隐层状态F。

步骤2，设置网络超参数。对S-LSTM网络中的超参数，根据经验值设置网络训练数据集的次数epoch＝15，网络每次训练的样本数batch_size＝30，学习率α＝0.01。

步骤3，训练S-LSTM网络模型。将(S1-1)中生成的API序列用(S2-1)中生成的全局词向量表示，并作为S-LSTM网络的输入，通过三层隐藏层之后得到最终隐层状态F，并通过softmax函数得到网络输出值如图3中的输出层。网络训练过程中通过binary_crossentropy损失函数即计算网络的损失，其中y表示实际值，表示输出值。网络使用Adam算法对网络进行优化，当达到最大迭代次数时，网络停止优化。

步骤4，对网络模型进行评价。网络训练过程采用5折交叉验证，其中9份作为训练集，剩下一份作为测试集，本发明的正确率为5折交叉验证的平均正确率，当平均正确率小于98％时，返回步骤2对网络超参数进行调整，直到网络平均正确率高于98％。

其次，对(S2)未知样本的预测阶段涉及到的模块做如下介绍：

(S2-2)S-LSTM网络预测模块包括如下步骤：

Claims

1.一种基于API全局词向量和分层循环神经网络的恶意代码检测方法，其特征在于：该恶意代码检测方法包括两个阶段：S1已知样本的训练阶段，本阶段的目的主要为得到使用已知样本训练之后的网络模型；(S2)未知样本的预测阶段，预测阶段的目的主要为使用(S1)中的网络模型预测未知代码是否为恶意代码；

其中(S1)已知样本的训练阶段一共包含三个模块：(S1-1)特征表示模块，(S1-2)全局词向量生成模块，(S1-3)S-LSTM网络训练模块；

2.根据权利要求1所述的一种基于API全局词向量和分层循环神经网络的恶意代码检测方法，其特征在于：(S1-1)特征表示模块包括如下步骤：

步骤1，收集样本；收集恶意代码、正常代码以及代码标注组成样本训练集；

步骤2，获取样本API序列；在虚拟机中执行步骤1收集到的代码，使用API Hook技术捕获代码执行过程中调用的API，并按照调用的先后顺序组成API序列。

3.根据权利要求1所述的一种基于API全局词向量和分层循环神经网络的恶意代码检测方法，其特征在于：(S1-2)全局词向量生成模块包括如下步骤：

步骤1，生成样本词汇表C；对(S1-1)中生成的API序列进行API统计，组成API词汇表C，C＝{api₁,api₂,...,api_n}，n表示词汇表C中api的个数；

步骤2，对词汇表C中所有的API生成相应的语义词向量；使用word2vec方法中的CBOW模型对(S1-1)中生成的API序列进行训练，得到词汇表C中每个API的含有语义信息的词向量；

步骤3，对词汇表C中所有的API计算相应的信息增益值；使用信息增益方法计算词汇表C中每个API的信息增益值；

步骤4，对词汇表C中所有的API生成相应的全局词向量；对于词汇表C中的每个API，用步骤2中得到的词向量乘以步骤3中相应的信息增益值，得到每个API的全局词向量表示方法，组成全局词向量词汇表。

4.根据权利要求1所述的一种基于API全局词向量和分层循环神经网络的恶意代码检测方法，其特征在于：(S1-3)S-LSTM网络训练模块包括如下步骤：

步骤1，对网络输入序列进行切分操作；对(S1-1)中得到的API序列进行截断和填充操作到统一长度，并对操作之后的序列进行切分，使得子序列长度合适并满足S-LSTM网络的输入要求；

步骤2，设置网络超参数；对S-LSTM网络中的超参数如网络训练数据集的次数epochs，网络每次训练的样本数batch_size，学习率α进行设置；

步骤3，训练S-LSTM网络模型；将S1-1中生成的API序列用(S2-1)中生成的全局词向量表示，并作为S-LSTM网络的输入，得到训练之后的S-LSTM网络模型；

步骤4，对网络模型进行评价；网络训练过程采用5折交叉验证，其中4份作为训练集，剩下一份作为测试集，本发明的正确率为5折交叉验证的平均正确率，当平均正确率小于98％时，返回步骤2对网络超参数进行调整，直到网络平均正确率高于98％。

5.根据权利要求1所述的一种基于API全局词向量和分层循环神经网络的恶意代码检测方法，其特征在于：(S2-1)特征表示模块步骤与(S1-1)相同，得到预测样本的API序列。

6.根据权利要求1所述的一种基于API全局词向量和分层循环神经网络的恶意代码检测方法，其特征在于：(S2-2)S-LSTM网络预测模块包括如下步骤：

步骤1，利用(S1-2)中生成的全局词向量词汇表，将(S2-1)中API序列用全局词向量表示；