CN110414234A

CN110414234A - 恶意代码家族识别方法及装置

Info

Publication number: CN110414234A
Application number: CN201910577162.4A
Authority: CN
Inventors: 应凌云; 聂眉宁; 卢树强
Original assignee: Qax Technology Group Inc
Current assignee: Qax Technology Group Inc
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-11-05

Abstract

本发明实施例提供一种恶意代码家族识别方法及装置，其中，方法包括：获取目标恶意代码，提取所述目标恶意代码的动态行为数据；将所述目标恶意代码的动态行为数据输入恶意代码家族分类模型，识别出所述目标恶意代码的所属家族；其中，所述恶意代码家族分类模型是利用机器学习算法、对从不同家族的恶意代码样本中提取的动态行为数据进行训练后生成的。本发明实施例能够识别出目标恶意代码的所属家族，识别结果更加准确。

Description

恶意代码家族识别方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种恶意代码家族识别方法及装置。

背景技术

随着信息技术的飞速发展，每天都能够检测到成千上万条的恶意代码，恶意代码成为信息安全的重要威胁。这些恶意代码一部分是已知恶意代码的变种和一部分来自未知恶意代码家族。如何快速识别出这些恶意代码的所属家族，对于保障网络信息安全来说也是十分重要的。

目前，现有技术中提供了利用机器学习来识别恶意代码所属家族的方法，这些利用机器学习来识别恶意代码所属家族的方法都是基于恶意代码静态文件来进行的。

但是，现有的利用机器学习来识别恶意代码所属家族的方法的分类精度较低，特别是对于采用加壳、加密等保护技术的恶意代码，更难准确地分类识别出恶意代码所属家族。

发明内容

针对现有技术存在的问题，本发明实施例提供一种恶意代码家族识别方法及装置。

本发明实施例提供一种恶意代码家族识别方法，包括：

获取目标恶意代码，提取所述目标恶意代码的动态行为数据；

将所述目标恶意代码的动态行为数据输入恶意代码家族分类模型，识别出所述目标恶意代码的所属家族；

其中，所述恶意代码家族分类模型是利用机器学习算法、对从不同家族的恶意代码样本中提取的动态行为数据进行训练后生成的。

本发明实施例提供一种恶意代码家族识别装置，包括：

第一获取模块，用于获取目标恶意代码，提取所述目标恶意代码的动态行为数据；

识别模块，用于将所述目标恶意代码的动态行为数据输入恶意代码家族分类模型，识别出所述目标恶意代码的所属家族；

本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述方法的步骤。

本发明实施例提供的恶意代码家族识别方法及装置，通过提取所述目标恶意代码的动态行为数据，将目标恶意代码的动态行为数据输入恶意代码家族分类模型，识别出目标恶意代码的所属家族；其中，恶意代码家族分类模型是利用机器学习算法、对从不同家族的恶意代码样本中提取的动态行为数据进行训练后生成的，由此，能够识别出目标恶意代码的所属家族，识别结果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种恶意代码家族识别方法的流程示意图；

图2为本发明一实施例提供的一种恶意代码家族识别装置的结构示意图；

图3为本发明一实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明一实施例提供的一种恶意代码家族识别方法的流程示意图，如图1所示，本实施例的恶意代码家族识别方法，包括：

S1、获取目标恶意代码，提取所述目标恶意代码的动态行为数据。

可以理解的是，所述目标恶意代码的动态行为数据是所述目标恶意代码在运行过程中、对操作***的API(Application Programming Interface，应用程序编程接口)进行调用的各种动态行为的数据。举例来说，所述动态行为数据中的动态行为，可以包括：读文件、创建进程和写注册表等，本实施例不一一进行举例。

S2、将所述目标恶意代码的动态行为数据输入恶意代码家族分类模型，识别出所述目标恶意代码的所属家族。

可以理解的是，本实施例所述恶意代码家族分类模型能够基于所述目标恶意代码的动态行为数据，自动识别出所述目标恶意代码的所属家族。

可以理解的是，从不同家族的恶意代码样本中提取的动态行为数据是所述不同家族的恶意代码样本在运行过程中、对操作***的API进行调用的各种动态行为的数据；举例来说，所述动态行为数据中的动态行为，可以包括：读文件、创建进程和写注册表等，本实施例不一一进行举例。

可以理解的是，在人工智能领域，有多种机器学习算法，本实施例并不对其进行限制。

可以理解的是，恶意代码又称为恶意软件，是能够在计算机***中进行非授权操作的代码。恶意代码的编写大多是出于商业或探测他人资料的目的，如宣传某个产品、提供网络收费服务或对他人的计算机直接进行有意的破坏等，总的来说，它具有恶意破坏的目的、其本身为程序，以及通过执行发生作用3个特征。目前，新出现的许多恶意代码是已有恶意代码的变种，同源的恶意代码属于同一家族，如何快速识别出这些恶意代码的所属家族，对于保障网络信息安全来说是十分重要的。

可以理解的是，现有技术利用机器学习识别目标恶意代码所属家族的方法都是基于恶意代码的静态文件进行的，而本实施例是利用机器学习算法、基于动态行为数据进行分析的，可以更加准确地识别出目标恶意代码的所属家族，特别是对于采用加壳、加密等保护技术的恶意代码，能够更加准确地识别出恶意代码所属家族。

本实施例提供的恶意代码家族识别方法，通过获取目标恶意代码，提取所述目标恶意代码的动态行为数据，将所述目标恶意代码的动态行为数据输入恶意代码家族分类模型，识别出所述目标恶意代码的所属家族，其中，恶意代码家族分类模型是利用机器学习算法、对从不同家族的恶意代码样本中提取的动态行为数据进行训练后生成的，由此，能够识别出目标恶意代码的所属家族，识别结果更加准确，特别是对于采用加壳、加密等保护技术的恶意代码，可以更加准确地识别出恶意代码所属家族。

进一步地，在上述实施例的基础上，所述步骤S1中的“提取所述目标恶意代码的动态行为数据”，可以包括：

将所述目标恶意代码在动态沙箱的虚拟操作***层中运行，在运行过程中模拟对操作***的所有API进行调用的操作，触发并提取所述目标恶意代码产生的动态行为数据；

其中，所述动态沙箱包括：虚拟机层和虚拟操作***层，所述虚拟机层用于实现计算机物理硬件的虚拟化，所述虚拟操作***层用于运行并分析样本。

可以理解的是，在恶意代码分析领域，沙箱一般指“虚拟机”+“分析手段”。动态沙箱一般是在虚拟操作***中安装辅助分析工具实现的，因此动态沙箱的层级关系应该是：虚拟机层(用于实现虚拟化)+虚拟操作***层(用于运行样本和分析)。对于本实施例的动态沙箱，一个终端设备上设置有四层：物理硬件层、宿主机操作***层、虚拟硬件层、虚拟操作***层。其中，所述物理硬件层是真正的硬件，即服务器上插的CPU(中央处理器)、内存、硬盘等等；所述宿主机操作***层是安装在服务器上的操作***，即按电源按钮后，服务器启动进入的操作***，如linux等；所述虚拟硬件层是在宿主机操作***上运行的一个程序，这个程序会用纯软件的形式模拟出CPU、内存、硬盘等一系列硬件，即实现虚拟硬件层，也就是实现了虚拟机(即虚拟机层)的功能，因为是纯软件模拟的，因此可以模拟出和真实物理硬件层完全不一样的虚拟硬件，例如在x86架构的CPU的服务器上，虚拟硬件层中的虚拟CPU可以是ARM架构的；所述虚拟操作***层即虚拟机操作***，直接安装在虚拟硬件层上，可以是linux、windows、android等等，取决于待分析的样本程序希望运行在什么***中。

进一步地，在上述实施例的基础上，在所述步骤S2之前，本实施例所述方法还可以包括图中未示出的步骤P1-P3：

P1、获取不同家族的恶意代码样本。

P2、提取所述不同家族的恶意代码样本的动态行为数据。

在具体应用中，本实施例可以将所述不同家族的恶意代码样本在动态沙箱的虚拟操作***层中运行，在运行过程中模拟对操作***的所有API进行调用的操作，触发并提取所述不同家族的恶意代码样本产生的动态行为数据。

P3、利用机器学习算法，对所述动态行为数据进行训练，生成恶意代码家族分类模型。

在具体应用中，所提取的动态行为数据可以为动态行为记录文件，可以利用文本机器学习的模型，对所述动态行为数据进行训练，生成恶意代码家族分类模型；所提取的动态行为数据也可以是由动态行为记录文件转换成的图片，可以利用图片机器学习的模型，对所述动态行为数据进行训练，生成恶意代码家族分类模型。

本实施例提供的恶意代码家族识别方法，能够识别出目标恶意代码的所属家族，识别结果更加准确，特别是对于采用加壳、加密等保护技术的恶意代码，可以更加准确地识别出恶意代码所属家族。

图2示出了本发明一实施例提供的一种恶意代码家族识别装置的结构示意图，如图2所示，本实施例的恶意代码家族识别装置，包括：第一获取模块21和识别模块22；其中：

所述第一获取模块21，用于获取目标恶意代码，提取所述目标恶意代码的动态行为数据；

所述识别模块22，用于将所述目标恶意代码的动态行为数据输入恶意代码家族分类模型，识别出所述目标恶意代码的所属家族；

具体地，所述第一获取模块21获取目标恶意代码，提取所述目标恶意代码的动态行为数据；所述识别模块22将所述目标恶意代码的动态行为数据输入恶意代码家族分类模型，识别出所述目标恶意代码的所属家族；其中，所述恶意代码家族分类模型是利用机器学习算法、对从不同家族的恶意代码样本中提取的动态行为数据进行训练后生成的。

可以理解的是，所述目标恶意代码的动态行为数据是所述目标恶意代码在运行过程中、对操作***的API进行调用的各种动态行为的数据；举例来说，所述动态行为数据中的动态行为，可以包括：读文件、创建进程和写注册表等，本实施例不一一进行举例。

可以理解的是，可以理解的是，现有技术利用机器学习识别目标恶意代码所属家族的方法都是基于恶意代码的静态文件进行的，而本实施例所述装置是利用机器学习算法、基于动态行为数据进行分析的，可以更加准确地识别出目标恶意代码的所属家族，特别是对于采用加壳、加密等保护技术的恶意代码，能够更加准确地识别出恶意代码所属家族。

本实施例提供的恶意代码家族识别装置，通过第一获取模块获取目标恶意代码，提取所述目标恶意代码的动态行为数据，识别模块将所述目标恶意代码的动态行为数据输入恶意代码家族分类模型，识别出所述目标恶意代码的所属家族，其中，所述恶意代码家族分类模型是利用机器学习算法、对从不同家族的恶意代码样本中提取的动态行为数据进行训练后生成的，由此，能够识别出目标恶意代码的所属家族，识别结果更加准确，特别是对于采用加壳、加密等保护技术的恶意代码，可以更加准确地识别出恶意代码所属家族。

进一步地，在上述实施例的基础上，所述第一获取模块21，可具体用于

获取目标恶意代码；将所述目标恶意代码在动态沙箱的虚拟操作***层中运行，在运行过程中模拟对操作***的所有应用程序编程接口API进行调用的操作，触发并提取所述目标恶意代码产生的动态行为数据；

进一步地，在上述实施例的基础上，本实施例所述装置还可以包括图中未示出的：

第二获取模块，用于获取不同家族的恶意代码样本；

提取模块，用于提取所述不同家族的恶意代码样本的动态行为数据；

训练模块，用于利用机器学习算法，对所述动态行为数据进行训练，生成恶意代码家族分类模型。

在具体应用中，所述提取模块，可具体用于

将所述不同家族的恶意代码样本在动态沙箱的虚拟操作***层中运行，在运行过程中模拟对操作***的所有API进行调用的操作，触发并提取所述不同家族的恶意代码样本产生的动态行为数据；

可以理解的是，本实施例可以利用动态沙箱提取所述不同家族的恶意代码样本的动态行为数据。

在具体应用中，所提取的动态行为数据可以为动态行为记录文件，所述训练模块可以利用文本机器学习的模型，对所述动态行为数据进行训练，生成恶意代码家族分类模型；所提取的动态行为数据也可以是由动态行为记录文件转换成的图片，所述训练模块可以利用图片机器学习的模型，对所述动态行为数据进行训练，生成恶意代码家族分类模型。

本实施例提供的恶意代码家族识别装置，能够识别出目标恶意代码的所属家族，识别结果更加准确，特别是对于采用加壳、加密等保护技术的恶意代码，可以更加准确地识别出恶意代码所属家族。

本发明实施例提供的恶意代码家族识别装置，可以用于执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图3示出了本发明一实施例提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括存储器302、处理器301及存储在存储器302上并可在处理器301上运行的计算机程序，所述处理器301执行所述程序时实现上述方法的步骤，例如包括：获取目标恶意代码，提取所述目标恶意代码的动态行为数据；将所述目标恶意代码的动态行为数据输入恶意代码家族分类模型，识别出所述目标恶意代码的所属家族；其中，所述恶意代码家族分类模型是利用机器学习算法、对从不同家族的恶意代码样本中提取的动态行为数据进行训练后生成的。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤，例如包括：获取目标恶意代码，提取所述目标恶意代码的动态行为数据；将所述目标恶意代码的动态行为数据输入恶意代码家族分类模型，识别出所述目标恶意代码的所属家族；其中，所述恶意代码家族分类模型是利用机器学习算法、对从不同家族的恶意代码样本中提取的动态行为数据进行训练后生成的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种恶意代码家族识别方法，其特征在于，包括：

2.根据权利要求1所述的恶意代码家族识别方法，其特征在于，所述提取所述目标恶意代码的动态行为数据，包括：

将所述目标恶意代码在动态沙箱的虚拟操作***层中运行，在运行过程中模拟对操作***的所有应用程序编程接口API进行调用的操作，触发并提取所述目标恶意代码产生的动态行为数据；

3.根据权利要求1所述的恶意代码家族识别方法，其特征在于，在将所述目标恶意代码的动态行为数据输入恶意代码家族分类模型，识别出所述目标恶意代码的所属家族之前，所述方法还包括：

获取不同家族的恶意代码样本；

提取所述不同家族的恶意代码样本的动态行为数据；

利用机器学习算法，对所述动态行为数据进行训练，生成恶意代码家族分类模型。

4.根据权利要求3所述的恶意代码家族识别方法，其特征在于，所述提取所述不同家族的恶意代码样本的动态行为数据，包括：

5.一种恶意代码家族识别装置，其特征在于，包括：

6.根据权利要求5所述的恶意代码家族识别装置，其特征在于，所述第一获取模块，具体用于

7.根据权利要求5所述的恶意代码家族识别装置，其特征在于，所述装置还包括：

第二获取模块，用于获取不同家族的恶意代码样本；

8.根据权利要求7所述的恶意代码家族识别装置，其特征在于，所述提取模块，具体用于

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述恶意代码家族识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述恶意代码家族识别方法的步骤。