CN104331436B

CN104331436B - 基于家族基因码的恶意代码快速归类方法

Info

Publication number: CN104331436B
Application number: CN201410571621.5A
Authority: CN
Inventors: 沈超; 程颢; 张泽华; 管晓宏
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2014-10-23
Filing date: 2014-10-23
Publication date: 2017-06-06
Anticipated expiration: 2034-10-23
Also published as: CN104331436A

Abstract

本发明公开了一种基于家族基因码的恶意代码快速归类方法，在多个行为层面上采用行为出现频数对恶意代码行为进行特征表示，基于海量恶意代码样本间的聚集性和差异性生成家族基因码，利用家族基因码与新增恶意代码特征向量的直接匹配实现恶意代码的准确和快速归类。本发明方法的优点在于：从多个行为层面刻画恶意代码的行为信息，利用相似恶意代码间的聚集性和差异性生成家族基因码，显著地提高了对恶意代码家族进行表示的准确性及普适性；同时，采用将恶意代码特征向量与家族基因码直接匹配的方法能够有效地提高恶意代码比对和归类的速度；此外，整个过程的算法均高度自动化，无需人为干预，增加了本方法的稳定性及准确性。

Description

基于家族基因码的恶意代码快速归类方法

技术领域

本发明涉及计算机安全防护技术，特别涉及一种计算机恶意代码归类方法。

背景技术

随着社会的进步与科技的发展，计算机已经渗透到了人们生活的方方面面，越来越多的个人信息(如图片、视频、聊天记录等)和敏感信息(如银行账号、商业资料等)被存储于计算机之中。同时，近年来以盗用、破坏这些信息为主要目的的恶意代码数量急剧增加，且呈现出变种多、智能化的特点，这使得计算机恶意代码的识别和分类问题引起各国政府和民众的极大重视。

现有的恶意代码归类方法主要从恶意代码静态特征或动态特征出发，大多集中在对已知的恶意代码的聚类分类上，对新增恶意代码的分类效果较差，同时恶意代码行为的特征分析形式单一且样本数量较少，缺乏准确性和普适性。

发明内容

本发明的目的是提供一种可以快速且准确地对计算机恶意代码进行归类的方法，特别是一种利用海量恶意代码样本经过聚类后得到的恶意代码家族基因码来实现对新增恶意代码快速准确归类的方法。

为达到以上目的，本发明是采取如下技术方案实现的：

一种基于家族基因码的恶意代码快速归类方法，其特征在于，包括下述两大步骤：

第一步，恶意代码家族基因码的生成，包括下述分步骤：

(1)获取由M个恶意代码样本构成的恶意代码样本集，其中，M至少为1000万；

(2)从恶意代码样本中提取行为信息；

(3)对所有恶意代码样本的各种行为出现的频数进行统计排序，选择频数总和不小于3的行为作为刻画恶意代码样本的行为向量；

(4)使用行为向量的每个元素在恶意代码行为信息中出现的频数构成该恶意代码样本的特征向量；

(5)采用曼哈顿距离算法计算恶意代码样本特征向量之间的距离，形成恶意代码样本集的距离矩阵D＝{d_ij}_M×M，其中,d_ij表示恶意代码样本i到恶意代码样本j的距离，矩阵D关于对角线对称；

(6)基于恶意代码样本集的距离矩阵D，从恶意代码样本集中提取出恶意代码家族基因码，以方便生成恶意代码家族。

第二步，恶意代码快速归类，包括下述分步骤：

(1)针对新增的恶意代码样本，提取其行为信息，与在恶意代码样本集中得到的行为向量进行比对，将行为向量中每个元素在新增恶意代码样本的行为信息中出现的频数作为该样本的特征向量；

(2)将新增恶意代码样本的特征向量与恶意代码家族基因码进行匹配，对新增恶意代码所属的类别进行判定。

上述方法中，第一步(2)中所述恶意代码的行为信息是指恶意代码在执行过程中对计算机资源的访问行为，包括API导入表的访问行为、文件操作行为、进程操作行为、注册表操作行为、动态链接库调用行为、钩子函数调用行为。

第一步(3)中所述选择频数总和不小于3的行为作为刻画恶意代码样本的行为向量，其具体步骤为：

(1)对恶意代码样本集中每个样本的行为信息进行统计分析，利用出现过的所有行为构成初始特征集；

(2)计算初始特征集中每个元素在所有样本的行为信息中出现频数的总和，排序并去除出现频数总和为1和2的元素，使用剩余的元素作为刻画恶意代码样本的特征。

第一步(6)中所述从样本集中提取恶意代码家族基因码的具体方法为：

1)将恶意代码样本间的距离d_ij(i<j)进行降序排列，取排列结果的中值作为截断距离d_c；

2)采用高斯核函数计算每个恶意代码样本的聚集度ρ_i，表示该样本被它的邻居样本的包裹程度，计算公式为：

3)生成恶意代码样本聚集度的降序排列下标序

4)计算每个恶意代码样本的差异度表示该恶意代码样本与其它聚集度大的恶意代码样本之间的距离，计算公式为：

5)针对每个恶意代码样本，计算该恶意代码样本作为家族基因码的决策值，该决策值为该恶意代码样本的聚集度和差异度的乘积；

6)将每个恶意代码样本作为家族基因码的决策值与预设的阈值ε进行比较，若大于该阈值，则判定该样本作为一个家族基因码，并存储于数据库中。

第二步(2)中所述根据特征向量与恶意代码家族基因码的匹配结果进行新增恶意代码样本类别判定的具体方法为：将新增恶意代码样本特征向量与数据库中每一个恶意代码家族基因码进行匹配，得到与该恶意代码家族基因码的相似度值，若存在相似度值大于预设阈值的情况，将该恶意代码样本归类为最大相似度值对应的恶意代码家族；若不存在相似度值大于预设阈值的情况，将该恶意代码样本归类为新增恶意代码家族。

第一步(4)中所构成的恶意代码样本特征向量，其存储方法为：使用索引矩阵进行存储，在索引矩阵中仅记录特征向量中大于0小于10的元素位置。

与现有方法相比，基于恶意代码家族基因码的归类技术具有显著的优势：首先，分析的恶意代码样本数量巨大，且采用动态和静态特征结合的方式从多个行为层面对恶意代码行为进行描述和刻画，利用相似恶意代码间的聚集性和差异性生成家族基因码，产生的恶意代码家族基因码具有代表性和普适性；其次，采用将恶意代码特征向量与家族基因码直接匹配的方式能够有效地增加恶意代码比对和归类的速度；此外，整个过程的算法均高度自动化，无需人为干预，增加了本方法的稳定性及准确性。

附图说明

图1是本发明方法的总体流程示意图。

图2是图1第一大步中的生成家族基因码步骤具体流程示意图。

图3是图1中第二大步的具体流程示意图。

具体实施方式

参见图1，本发明涉及了一种基于家族基因码的恶意代码快速归类方法，可用于对新增恶意代码的家族信息进行快速识别，实现对海量恶意代码快速且准确的归类。本发明包含家族基因码的生成和恶意代码的快速归类两个部分，具体实施步骤如下：

1)家族基因码的生成部分包括下述步骤：

(1)获取恶意代码样本集(包含M个恶意代码样本)。

(2)对每个恶意代码样本进行反汇编，分析反汇编结果并得到恶意代码的静态行为信息，包括API导入表调用行为，再将该恶意代码样本置于沙箱中运行，同时监测其对宿主计算机的动态操作行为，得到恶意代码的动态行为信息，包括文件操作行为，进程操作行为，注册表操作行为，动态链接库调用行为，钩子函数调用行为。对恶意代码样本集中每个样本的行为信息进行统计分析，利用出现过的所有行为构成初始特征集。

(3)在初始特征集中，对所有恶意代码样本的各种行为出现的频数进行统计排序，去除出现频数为1和2的元素，使用剩余的P个元素形成刻画恶意代码样本的行为向量C。其中元素是指每一类行为对恶意代码宿主计算机的特定目标资源的访问行为，包括对特定目标API函数的调用行为，对特定文件的操作行为，对特定进程的操作行为，对特定注册表的操作行为，对特定动态链接库的调用行为以及对特定钩子函数的调用行为。

(4)将行为向量C中每个元素在恶意代码行为信息中出现的频数作为该恶意代码样本的特征向量，对于恶意代码样本集中的每个恶意代码样本均生成一个P维的特征向量，共有M个特征向量，每个特征向量表示为V_j＝[S₁,S₂,S₃,…,S_P]，其中S_i表示在样本j的行为向量中第i个元素出现的频数；

(5)采用曼哈顿距离计算两两恶意代码样本之间的距离，生成恶意代码样本集的距离矩阵D，D为M×M的矩阵。其中d_ij表示样本i到样本j的距离，其中D内对角线元素均为0，并且D关于对角线对称；

(6)基于恶意代码样本集的距离矩阵D，从样本集中提取出家族基因码其具体实施步骤为：

3)生成恶意代码样本聚集度的降序排列下标序

4)计算每个恶意代码样本的差异度表示该样本与其它聚集度大的样本之间的距离，计算公式为

5)针对每个恶意代码样本，计算该样本作为家族基因码的决策值为该样本的聚集度和差异度的乘积γ_i＝ρ_iδ_i；

6)将每个恶意代码样本作为家族基因码的决策值γ_i与预设的阈值ε进行比较，若大于该阈值，则判定该样本作为一个家族基因码，并存储于数据库中。

(7)针对非恶意代码家族基因码的恶意代码样本，从距离矩阵中提取每个样本与所有家族基因码之间的距离，根据最近距离的原则对每个样本进行归类，形成恶意代码家族，并存储于数据库中。

2)恶意代码的快速归类部分，包括下述步骤：

(1)对于新增恶意代码样本B，对B进行反汇编，得到其静态特征，提取B的API导入表调用行为；在沙箱中运行B，并监测其对宿主计算机的动态操作行为,得到其动态特征，提取文件操作行为，进程操作行为，注册表操作行为，动态链接库调用行为，钩子函数调用行为；

(2)基于在基因码生成过程中获得恶意代码的行为向量C，对所获取的恶意代码样本B的行为信息进行特征提取，将行为向量C中每个元素在B的行为信息中出现的频数作为B的特征向量；

(3)将恶意代码样本B的特征向量与数据库中每一个家族的基因码进行匹配，计算它们之间的曼哈顿距离，作为B与该家族的相似度，若存在相似度值大于预设阈值的情况，将该恶意代码样本归类为最大相似度值对应的家族；若不存在相似度值大于预设阈值的情况，将该恶意代码样本归类为新增家族，并将B的特征向量填入数据库中并记为新增的家族。

Claims

1.一种基于家族基因码的恶意代码快速归类方法，其特征在于，包括下述两大步骤：

第一步，恶意代码家族基因码的生成，包括下述分步骤：

(2)从恶意代码样本中提取行为信息；

(6)基于恶意代码样本集的距离矩阵D，从恶意代码样本集中提取出恶意代码家族基因码，以方便生成恶意代码家族；

第二步，恶意代码快速归类，包括下述分步骤：

(2)将新增恶意代码样本的特征向量与恶意代码家族基因码进行匹配，对新增恶意代码所属的类别进行判定；

1)将恶意代码样本间的距离d_ij进行降序排列，i<j，取排列结果的中值作为截断距离d_c；

其中I_D为所有恶意样本的序号的集合；

3)生成恶意代码样本聚集度的降序排列下标序

δ_{s_{i}} = \{\begin{matrix} \min_{s_{j}, j < i} {d_{s_{i} s_{j}}}, & i &GreaterEqual; 2 \\ \min_{j &GreaterEqual; 2} {δ_{s_{j}}}, & i = 1 \end{matrix};

2.根据权利要求1所述的基于家族基因码的恶意代码快速归类方法，其特征在于，第一步(2)中所述恶意代码的行为信息是指恶意代码在执行过程中对计算机资源的访问行为，包括API导入表的访问行为、文件操作行为、进程操作行为、注册表操作行为、动态链接库调用行为、钩子函数调用行为。

3.根据权利要求1所述的基于家族基因码的恶意代码快速归类方法，其特征在于，第一步(3)中所述选择频数总和不小于3的行为作为刻画恶意代码样本的行为向量，其具体步骤为：

4.根据权利要求1所述的基于家族基因码的恶意代码快速归类方法，其特征在于，第二步(2)中所述根据特征向量与恶意代码家族基因码的匹配结果进行新增恶意代码样本类别判定的具体方法为：将新增恶意代码样本特征向量与数据库中每一个恶意代码家族基因码进行匹配，得到与该恶意代码家族基因码的相似度值，若存在相似度值大于预设阈值的情况，将该恶意代码样本归类为最大相似度值对应的恶意代码家族；若不存在相似度值大于预设阈值的情况，将该恶意代码样本归类为新增恶意代码家族。

5.根据权利要求1所述的基于家族基因码的恶意代码快速归类方法，其特征在于，第一步(4)中所构成的恶意代码样本特征向量，其存储方法为：使用索引矩阵进行存储，在索引矩阵中仅记录特征向量中大于0小于10的元素位置。