CN113468532B

CN113468532B - 恶意软件家族推断方法及***

Info

Publication number: CN113468532B
Application number: CN202110820216.2A
Authority: CN
Inventors: 朱宏宇; 田建伟; 田峥; 蒋永康; 李生红; 杨志邦; 黎曦; 李琪瑶; 张宇翔
Original assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2022-09-23
Anticipated expiration: 2041-07-20
Also published as: CN113468532A

Abstract

本发明公开了一种恶意软件家族推断方法，包括获取可执行程序并构建样本集；查询样本集并记录查询结果；采用多杀毒引擎扫描样本集并预处理扫描结果；利用启发式规则进行样本的恶意性推断并输出推断结果；进行最大似然估计建模并求解输出最终的家族推断结果。本发明还公开了一种实现所述恶意软件家族推断方法的***。本发明解决了杀毒引擎的标签波动问题和面对加壳样本时的高误报率问题，并降低了推断结果受家族流行度的影响，能够有效地实现大规模恶意软件家族数据集的自动化，且精确度高、鲁棒性强。

Description

恶意软件家族推断方法及***

技术领域

本发明属于计算机安全技术领域，具体涉及一种恶意软件家族推断方法及***。

背景技术

恶意软件是一个长期存在且日益严重的问题。近年，僵尸网络mirai和勒索软件wanncry等的肆虐，给公共基础设施和用户个人财产造成了巨大损失。恶意程序复杂性和规模的增长，推动着安全社区探索更好的分析工具和方法。

恶意软件的分类就是一个亟待改善的问题。恶意软件分类主要包含两个方面的任务：1)恶意软件检测，区分良性软件和恶意软件；2)恶意软件家族识别，区分不同类型的恶意软件。对程序恶意性的准确检测，能有效地阻断恶意软件的传播；对不同恶意软件家族的准确识别，能有效地减少人工分析成本，并进行恶意行为的溯源。当前，杀毒引擎主要使用基于特征签名的方法来实现上述恶意软件分类的任务。特征签名本质上是字符串的模式匹配，特定于检测到的恶意软件，需要安全分析人员手动创建，属于劳动密集型工作；所以，当多态和质变技术被恶意软件广泛应用时，特征签名的拓展便成为了难题。

机器学习被安全社区视为解决恶意软件家族分类难题的最有可能的途径。研究人员正在积极探索基于机器学习的恶意软件家族分类模型。与计算机视觉和自然语言处理领域一样，构建机器学习模型的首要任务是获取更多和更好的标记数据。众所周知，良好的数据集是提高机器学习***准确性的最有效方法之一。

恶意软件的人工标注需要扎实的专业背景；面对海量的程序样本，ImageNet(JiaDeng，2010)式的众包标注方法不再适用。目前，安全社区缺乏公认的恶意软件数据集，学术界对恶意软件的自动化标注也没有过多深入的研究；大多数模型在验证时的ground truth都是根据经验，从杀毒引擎的扫描结果中获取。对于软件的恶意性标注来说，一个普遍采用的策略是将可疑样本上传到VirusTotal，利用VirusTotal集成的数十个杀毒引擎扫描样本，然后通过N/K型门限策略确定样本的恶意性(N代表识别样本为恶意的杀毒引擎数，K代表总的杀毒引擎数)。例如，Saxe和Berlin等在2015年的工作，使用了N/K≥0.3的门限值；Incer等在2018年的工作使用了N≥4的门限值。而对于恶意软件的家族标注，广泛使用的是Marcos等在2016提出来的Avclass工具；Avclass从众多不一致的杀毒引擎结果中提取家族标签，然后利用复数投票(Plurality Vote)确定家族。遗憾的是，虽然Avclass能提取家族标签，但是其标签的精确度受家族流行度的影响十分明显。

Zhu等在2020年对杀毒引擎的研究表明：合理的k值选取，能有效地进行样本恶意性的标注。其研究同时也表明：1)杀毒引擎对样本的恶意性检测结果是随时间波动的，通常要长达数个月后才能趋于稳定；2)杀毒引擎对于新样本的恶意性误报率较高；3)杀毒引擎对加壳样本的恶意性检测误报率十分高；

综上，基于杀毒引擎的恶意软件家族推断仍然是一个开放的问题。

发明内容

本发明的目的在于提供一种精确度高、鲁棒性强的恶意软件家族推断方法。

本发明的目的之二在于提供一种实现所述恶意软件家族推断方法的***。

本发明提供的这种恶意软件家族推断方法，包括如下步骤：

S1.获取可执行程序，并构建样本集；

S2.对样本集中的可执行程序进行查询和记录；

S3.采用多杀毒引擎对样本集中的可执行程序进行扫描，并对扫描结果进行预处理；

S4.基于步骤S3得到的预处理结果，利用启发式规则进行样本的恶意性推断，并输出推断结果；

S5.基于步骤S3得到的预处理结果，进行最大似然估计建模并求解，输出和保存家族推断结果。

步骤S2所述的对样本集中的可执行程序进行查询和记录，具体为查询当前程序的推断结果是否已经存在：若存在，则直接返回推断结果；若不存在，则记录程序的出现时间和扫描时间。

步骤S3所述的采用多杀毒引擎对样本集中的可执行程序进行扫描，并对扫描结果进行预处理，具体为采用现有的多杀毒引擎，对样本集中的可执行程序进行扫描，并对扫描结果进行如下处理：相同结果过滤、结果标签分词、通用字符串和随机字符串过滤、恶意家族别名替换、恶意度计算和家族最大引擎同意度计算。

所述的相同结果过滤，具体为针对同一可执行程序，不同的杀毒引擎扫描并得到的标签模式不同；如果若干个杀毒引擎对同一个可执行程序的标签相同，则任意取一个标签并存储。

所述的恶意家族别名替换，具体为利用恶意软件家族别名数据库对家族别名进行替换，从而实现家族名称的统一；所述的恶意软件家族别名数据库，通过如下策略学习得到：记A和B为两个家族的名称，A→B为家族名A到B的规则；定义支持度support(A→B)＝P(AB)为A和B同时出现的概率，置信度confidence(A→B)＝P(B/A)＝P(AB)/P(A)为A出现时B出现的概率；若support(A→B)高于设定的门限值、confidence(A→B)高于设定的门限值且经过人工判定A→B具有别名意义，则认定B为A的别名；否则，认定B与A为不同的名称。

所述的恶意度计算，具体为采用如下公式计算恶意度E₁：

E₁＝n/K

式中n为结果过滤后将样本识别为恶意的杀毒引擎的数量；K为结果过滤后的杀毒引擎的总数。

所述的家族最大引擎同意度计算，具体为采用如下公式计算家族最大引擎同意度E₂：

E₂＝max(∑_i∈kf_ij)

式中f_ij为杀毒引擎i是否给出了家族标签j，且若杀毒引擎i给出了家族标签j则f_ij＝1，否则f_ij＝0。

步骤S4所述的基于步骤S3得到的预处理结果，利用启发式规则进行样本的恶意性推断，并输出推断结果，具体包括如下步骤，且每个步骤均输出Boolean结果(True,False)：

A.判定样本的扫描时间与样本的出现时间差是否大于设定门限值，输出判定结果r_a；

B.判定样本是否加壳，并输出判定结果r_b；

C.判定样本的恶意度是否大于设定的门限值，并输出判定结果r_c；

D.判定样本的家族最大引擎恶意度是否大于设定的门限值，输出判定结果r_d；

E.根据步骤A～步骤D的判定结果，采用如下算式计算样本的恶意性结果r：

r＝r_a&r_b&r_c&r_d

式中，&为与操作。

步骤S5所述的基于步骤S3得到的预处理结果，进行最大似然估计建模并求解，从而输出最终的家族推断结果，具体包括如下步骤：

设定有K个杀毒引擎，I个样本，J个家族，样本i的真实家族为Y_i，且服从概率为θ＝[θ₁,θ₂,...,θ_J]的随机分布，则对应的似然函数定义为

其中T_ij为指示变量且若q为样本i的真实家族，则T_iq＝1否则T_ij＝0，且j≠q；θ_j为样本i来自家族j的概率；

为杀毒引擎k将j家族样本识别为l家族的概率；且θ_j和

未知；采用期望最大化算法，寻找使得函数h得到最大值时的θ_j和

从而估计样本的真实家族标签

所述的期望最大化算法，具体为一个迭代优化过程，其中θ_j和

的估计式均为

通过循环计算h、θ_j和

的估计值，直至函数h收敛，此时算法结束，输出真实的家族标签。

本发明还提供了一种实现所述恶意软件家族推断方法的***，具体包括数据获取模块、数据库模块、扫描模块、恶意性推断模块和家族推断模块；数据获取模块、数据库模块、扫描模块、恶意性推断模块和家族推断模块依次串联；数据获取模块用于获取可执行程序，并构建样本集；数据库模块用于对样本集中的各个可执行程序进行查询，并记录结果；扫描模块用于采用多杀毒引擎对样本集中的可执行程序进行扫描，并对扫描结果进行预处理；恶意性推断模块用于基于得到的预处理结果，利用启发式规则进行样本的恶意性推断，并输出推断结果；家族推断模块用于基于得到的预处理结果，进行最大似然估计建模并求解，从而输出最终的家族推断结果。

本发明提供的这种恶意软件家族推断方法及***，创新性地将恶意软件的家族推断建模为两阶段任务，基于启发式规则的恶意性推断和基于期望最大化的家族推断：前者有效地解决了杀毒引擎的标签波动问题和面对加壳样本时的高误报率问题；后者通过最大似然估计建模和期望最大化方法尽可能地降低推断结果受家族流行度的影响，提高推断结果的精确度；因此本发明能有效地实现大规模恶意软件家族数据集的自动化标注，且精度度高、鲁棒性强。

附图说明

图1为本发明方法的方法流程示意图。

图2为本发明方法的实施例的可执行软件进入数据库查询的流程示意图。

图3为本发明方法的实施例的扫描结果预处理的流程示意图。

图4为本发明方法的实施例的恶意性推断的流程示意图。

图5为本发明方法的实施例的恶意家族推断的概率转移示意图。

图6为本发明的***的功能模块示意图。

具体实施方式

如图1所示为本发明方法的方法流程示意图：本发明提供的这种恶意软件家族推断方法，包括如下步骤：

S1.获取可执行程序，并构建样本集；

S2.对样本集中各个可执行程序进行查询和记录；具体为查询当前程序的推断结果是否已经存在，若存在，直接返回推断结果；若不存在，记录程序的出现时间和扫描时间；

S3.采用多杀毒引擎对样本集中的可执行程序进行扫描，并对扫描结果进行预处理；具体为采用现有的多杀毒引擎，对样本集中的可执行程序进行扫描，并对扫描结果进行如下处理：相同结果过滤、结果标签分词、通用字符串和随机字符串过滤、恶意家族别名替换、恶意度计算和家族最大引擎同意度计算；

具体实施时，相同结果过滤，具体为针对同一可执行程序，不同的杀毒引擎扫描并得到的标签模式不同；如果若干个杀毒引擎对同一个可执行程序的标签相同，则任意取一个标签并存储；

恶意家族别名替换，具体为利用恶意软件家族别名数据库对家族别名进行替换，从而实现家族名称的统一；所述的恶意软件家族别名数据库，通过如下策略学习得到：记A和B为两个家族的名称，A→B为家族名A到B的规则；定义支持度support(A→B)＝P(AB)为A和B同时出现的概率，置信度confidence(A→B)＝P(B/A)＝P(AB)/P(A)为A出现时B出现的概率；若support(A→B)高于设定的门限值、confidence(A→B)高于设定的门限值且经过人工判定A→B具有别名意义，则认定B为A的别名；否则，认定B与A为不同的名称；

恶意度计算，具体为采用如下公式计算恶意度E₁：

E₁＝n/K

式中n为结果过滤后将样本识别为恶意的杀毒引擎的数量；K为结果过滤后的杀毒引擎的总数；

家族最大引擎同意度计算，具体为采用如下公式计算家族最大引擎同意度E₂：

E₂＝max(∑_i∈kf_ij)

式中f_ij为杀毒引擎i是否给出了家族标签j，且若杀毒引擎i给出了家族标签j则f_ij＝1，否则f_ij＝0；

S4.基于步骤S3得到的预处理结果，利用启发式规则进行样本的恶意性推断，并输出推断结果；具体包括如下步骤，且每个步骤输Boolean结果(True,False)：

A.判定样本的扫描时间与样本的出现时间差是否大于设定门限值，输出判定结果r_a；比如，若判定样本的扫描时间与样本的出现时间差大于设定的门限值则r_a＝0，否则r_a＝1；

B.判定样本是否加壳，并输出判定结果r_b；比如，若判定样本加壳则r_b＝0，否则r_b＝1；

C.判定样本的恶意度是否大于设定的门限值，并输出判定结果r_c；比如，若判定样本的恶意度大于设定的门限值则r_c＝0，否则r_c＝1；

D.判定样本的家族最大引擎恶意度是否大于设定的门限值，输出判定结果r_d；比如，若判定样本的家族最大引擎恶意度大于设定的门限值则r_d＝0，否则r_d＝1；

r＝r_a&r_b&r_c&r_d

式中，&为与操作；比如，步骤A～步骤D的判定结果中，有任意一个判定结果为0，则最终的恶意性结果判定为0；

S5.基于步骤S3得到的预处理结果，进行最大似然估计建模并求解，从而输出最终的家族推断结果；具体包括如下步骤：

为杀毒引擎k将j家族样本识别为l家族的概率；且θ_j和

从而估计样本的真实家族标签

具体实施时，期望最大化算法，具体为一个迭代优化过程，其中θ_j和

的估计式均为

通过循环计算h、θ_j和

的估计值，直至函数h收敛，此时算法结束，输出真实的家族标签；

上述方法在具体实施时，采用浏览器/服务器架构，在服务器端配置各模块，完成扫描、推断等核心功能；浏览器端被配置为批量上传恶意软件和呈现恶意家族推断结果。

以下结合一个实施例，对本发明方法进行进一步说明：

本发明方法包括如下步骤：

S1.获取可执行程序，并构建样本集；

S2.对样本集中各个可执行程序进行查询和记录；如图3所示，具体包括：

可执行样本计算散列值(hash)、在数据库中查询；

若不存在、则进行扫描、恶意性推断和家族推断，更新数据库；

S3.采用多杀毒引擎对样本集中的可执行程序进行扫描，并对扫描结果进行预处理；如图4所示，具体包括：

调用杀毒引擎获取扫描结果；

相同结果过滤；

结果标签分词；

通用字符串和随机字符串过滤；

恶意家族别名替换；

恶意度和家族最大引擎同意度计算；

S4.基于步骤S3得到的预处理结果，利用启发式规则进行样本的恶意性推断，并输出推断结果；如图5所示，具体包括：

样本扫描时间与样本出现时间差的判定；

样本是否加壳判定；

样本恶意度判定；

家族最大引擎同意度判定；

S5.基于步骤S3得到的预处理结果，进行最大似然估计建模并求解，从而输出最终的家族推断结果。

如图6所示为本发明***的功能模块示意图：本发明还提供了一种实现所述恶意软件家族推断方法的***，具体包括数据获取模块、数据库模块、扫描模块、恶意性推断模块和家族推断模块；数据获取模块、数据库模块、扫描模块、恶意性推断模块和家族推断模块依次串联；数据获取模块用于获取可执行程序，并构建样本集；数据库模块用于对样本集中各个可执行程序进行查询，并记录查询结果；扫描模块用于采用多杀毒引擎对样本集中的可执行程序进行扫描，并对扫描结果进行预处理；恶意性推断模块用于基于得到的预处理结果，利用启发式规则进行样本的恶意性推断，并输出推断结果；家族推断模块用于基于得到的预处理结果，进行最大似然估计建模并求解，从而输出最终的家族推断结果。

Claims

1.一种恶意软件家族推断方法，包括如下步骤：

S1.获取可执行程序，并构建样本集；

S2.对样本集中的可执行程序进行查询和记录；

S3.采用多杀毒引擎对样本集中的可执行程序进行扫描，并对扫描结果进行预处理；具体为采用现有的多杀毒引擎，对样本集中的可执行程序进行扫描，并对扫描结果进行如下处理：相同结果过滤、结果标签分词、通用字符串和随机字符串过滤、恶意家族别名替换、恶意度计算和家族最大引擎恶意度计算；

所述的恶意家族别名替换，具体为利用恶意软件家族别名数据库对家族别名进行替换，从而实现家族名称的统一；所述的恶意软件家族别名数据库，通过如下策略学习得到：记A和B为两个家族的名称，A→B为家族名A到B的规则；定义支持度support(A→B)＝P(AB)为A和B同时出现的概率，置信度confidence(A→B)＝P(B/A)＝P(AB)/P(A)为A出现时B出现的概率；若support(A→B)高于设定的门限值、confidence(A→B)高于设定的门限值且经过人工判定A→B具有别名意义，则认定B为A的别名；否则，认定B与A为不同的名称；

所述的恶意度计算，具体为采用如下公式计算恶意度E₁：

E₁＝n/K

所述的家族最大引擎恶意度计算，具体为采用如下公式计算家族最大引擎恶意度E₂：

E₂＝max(∑_i∈kf_ij)

S4.基于步骤S3得到的预处理结果，利用启发式规则进行样本的恶意性推断，并输出推断结果；具体包括如下步骤，且每个步骤均输出Boolean结果：

B.判定样本是否加壳，并输出判定结果r_b；

r＝r_a&r_b&r_c&r_d

式中，&为与操作；

2.根据权利要求1所述的恶意软件家族推断方法，其特征在于步骤S2所述的对样本集中的可执行程序进行查询和记录，具体为查询当前程序的推断结果是否已经存在：若存在，则直接返回推断结果；若不存在，则记录程序的出现时间和扫描时间。

3.根据权利要求2所述的恶意软件家族推断方法，其特征在于步骤S5所述的基于步骤S3得到的预处理结果，进行最大似然估计建模并求解，从而输出最终的家族推断结果，具体包括如下步骤：

为杀毒引擎k将j家族样本识别为l家族的概率；且θ_j和

从而估计样本的真实家族标签

4.根据权利要求3所述的恶意软件家族推断方法，其特征在于所述的期望最大化算法，具体为一个迭代优化过程，其中θ_j和

的估计式均为

通过循环计算h、θ_j和

5.一种实现权利要求1～4之一所述的恶意软件家族推断方法的***，其特征在于具体包括数据获取模块、数据库模块、扫描模块、恶意性推断模块和家族推断模块；数据获取模块、数据库模块、扫描模块、恶意性推断模块和家族推断模块依次串联；数据获取模块用于获取可执行程序，并构建样本集；数据库模块用于对样本集中的各个可执行程序进行查询，并记录结果；扫描模块用于采用多杀毒引擎对样本集中的可执行程序进行扫描，并对扫描结果进行预处理；恶意性推断模块用于基于得到的预处理结果，利用启发式规则进行样本的恶意性推断，并输出推断结果；家族推断模块用于基于得到的预处理结果，进行最大似然估计建模并求解，从而输出最终的家族推断结果。