CN109522915B

CN109522915B - 病毒文件聚类方法、装置及可读介质

Info

Publication number: CN109522915B
Application number: CN201710855180.5A
Authority: CN
Inventors: 万文强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2022-08-23
Anticipated expiration: 2037-09-20
Also published as: CN109522915A

Abstract

本发明公开了一种病毒文件聚类方法及装置，属于计算机数据处理技术领域。所述方法包括：获取病毒文件在至少一个传播途径上的特征，得到病毒文件的特征值；根据病毒文件的特征值获取病毒文件的特征比特图；根据多个病毒文件中的任意两个病毒文件的特征比特图之间的匹配程度，对待聚类的多个病毒文件进行聚类。本发明通过根据病毒文件在传播途径上的特征值获取病毒文件的特征比特图，根据任意两个病毒文件的特征比特图之间的匹配程度，对待聚类的所有病毒文件进行并行聚类，解决了相关技术中根据病毒文件的特征逐一串行匹配聚类所导致的效率低下问题，提高了病毒文件聚类的效率，在面对大量病毒文件数据时，节省了处理时间。

Description

病毒文件聚类方法、装置及可读介质

技术领域

本发明涉及计算机数据处理技术领域，尤其涉及一种病毒文件聚类方法、装置及可读介质。

背景技术

近年来，制作病毒文件的作案人员呈现团伙化趋势，由于病毒文件的数量庞大，将大量的病毒文件进行准确的聚类，可以大幅提高执法人员对病毒作案团伙的违法犯罪行为的掌控。其中，病毒文件聚类就是将具有相同或相似特征的病毒文件归为同一类簇。比如，将同一犯罪团伙制作的同一类病毒文件进行聚类。

病毒文件的传播特征是病毒文件在传播途径上具有特征值，例如网页链接，电话号码之类的字符串。相关技术中，一种病毒文件的聚类方法包括：将待聚类的多个病毒文件中的任一病毒文件的传播特征与已有类簇的传播特征进行逐一串行匹配聚类，若该病毒文件的传播特征与某一类簇的传播特征相同，则将该病毒文件归入到该类簇中，若该病毒文件可归入到多个类簇，则将该多个类簇合并为新的类簇；若一个病毒文件的传播特征与已有的任一类簇都不相同，则将该病毒文件作为新的类簇。

相关技术中对病毒文件的聚类方法是串行逐个进行的，效率低下，当待聚类的病毒文件的数量较多时，相关技术对病毒文件的聚类方法处理速度很慢。

发明内容

本申请实施例提供了一种病毒文件聚类方法及装置，以解决相关技术中的病毒文件聚类方法的准确性不高的问题。所述技术方案如下：

第一方面，提供了一种病毒文件聚类方法，所述方法包括：

获取病毒文件在至少一个传播途径上的特征，得到所述病毒文件的特征值；

根据所述病毒文件的特征值获取所述病毒文件的特征比特图，其中，所述病毒文件的特征比特图的比特位数量与待聚类的多个病毒文件在所述传播途径上的特征值的总数量相同，且所述特征比特图中的每个比特位与一个传播途径上的一个特征值相对应，所述比特位的取值与所述病毒文件是否具有对应的特征值相关；

根据所述多个病毒文件中的任意两个病毒文件的特征比特图之间的匹配程度，对所述待聚类的多个病毒文件进行聚类。

第二方面，提供了一种病毒文件聚类装置，所述装置包括：

第一获取模块，用于获取病毒文件在至少一个传播途径上的特征，得到所述病毒文件的特征值；

第二获取模块，用于根据所述病毒文件的特征值获取所述病毒文件的特征比特图，其中，所述病毒文件的特征比特图的比特位数量与待聚类的多个病毒文件在所述传播途径上的特征值的总数量相同，且所述特征比特图中的每个比特位与一个传播途径上的一个特征值相对应，所述比特位的取值与所述病毒文件是否具有对应的特征值相关；

聚类模块，用于根据所述多个病毒文件中的任意两个病毒文件的特征比特图之间的匹配程度，对所述待聚类的多个病毒文件进行聚类。

在第二方面的第一种可能的实施方式中，所述第二获取模块还用于：

确定所述待聚类的多个病毒文件在所述传播途径上的特征值的总数量，根据所述总数量确定所述病毒文件的特征比特图的比特位数量；

当所述病毒文件具有目标特征值时，将所述病毒文件的特征比特图中与所述目标特征值对应的比特位的值设置为第一比特值；

当所述病毒文件未具有所述目标特征值时，将所述病毒文件的特征比特图中与所述目标特征值对应的比特位的值设置为第二比特值；

根据各个所述比特位的值，得到所述每个病毒文件的特征比特图。

结合第二方面的第一种可能的实施方式，在第二方面的第二种可能的实施方式中，所述聚类模块还用于：

根据所述多个病毒文件中的任意两个病毒文件的特征比特图确定所述两个病毒文件具有的相同特征值的数量；

当所述相同特征值的数量不小于所述第一阈值时，则确定所述两个病毒文件具有关联关系；

将所述多个病毒文件中具有关联关系的病毒文件聚类为一个第一级非孤立类簇。

结合第二方面的第二种可能的实施方式，在第二方面的第三种可能的实施方式中，所述聚类模块还用于：

将所述多个病毒文件中任意两个病毒文件的特征比特图进行与运算，得到与运算结果；

确定所述与运算结果中包括的第一比特值的数量，将所述与运算结果中包括的所述第一比特值的数量作为所述任意两个病毒文件具有的相同特征值的数量。

结合第二方面的第二种可能的实施方式，在第二方面的第四种可能的实施方式中，所述第二获取模块还用于：

获取所述第i级非孤立类簇的特征比特图，i≥1；

所述聚类模块还用于：

根据任意两个所述第i级非孤立类簇的特征比特图确定所述两个第i级非孤立类簇具有的相同特征值的数量；

当所述相同特征值的数量不小于第二阈值时，则确定所述两个第i级非孤立类簇具有关联关系，将所述两个第i级非孤立类簇聚类为第i+1级非孤立类簇；

当所述相同特征值的数量小于第二阈值时，则确定所述两个第i级非孤立类簇不具有关联关系；并将与其他每个第i级非孤立类簇均不具有关联关系的第i级非孤立类簇作为一个孤立类簇。

结合第二方面的第四种可能的实施方式，在第二方面的第五种可能的实施方式中，所述聚类模块还用于：

当i＝1时，将所述第i级非孤立类簇内的至少两个病毒文件的特征比特图进行或运算，得到第一或运算结果，将得到的所述第一或运算结果作为所述第i级非孤立类簇的特征比特图；

当i＞1时，将所述第i级非孤立类簇内的至少两个第i-1级非孤立类簇的特征比特图进行或运算，得到第二或运算结果，将得到的所述第二或运算结果作为所述第i级非孤立类簇的特征比特图。

结合第二方面的第四种可能的实施方式，在第二方面的第六种可能的实施方式中，所述聚类模块还用于：

对所述第i级非孤立类簇的特征比特图进行去重处理，根据去重之后的任意两个所述第i级非孤立类簇的特征比特图确定所述两个第i级非孤立类簇具有的相同特征值的数量。

结合第二方面的第二种可能的实施方式，在第二方面的第七种可能的实施方式中，所述聚类模块还用于：

将所述多个病毒文件中与其他每个病毒文件均不具有关联关系的病毒文件确定为一个孤立类簇。

结合第二方面的第四种可能的实施方式，第二方面第七种可能的实施方式，在第二方面的第八种可能的实施方式中，所述聚类模块还用于：

将每个所述孤立类簇进行编号，获得每个所述孤立类簇的标识号；

将每个所述孤立类簇的标识号作为每个所述孤立类簇对应的病毒作案团伙的标识号。

第三方面，提供了一种病毒文件聚类设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的病毒文件聚类方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如第一方面所述的病毒文件聚类方法。

本申请实施例提供的技术方案带来的有益效果是：

通过根据病毒文件在传播途径上的特征值获取病毒文件的特征比特图，根据任意两个病毒文件的特征比特图之间的匹配程度，对待聚类的所有病毒文件进行并行聚类，解决了相关技术中根据病毒文件的特征逐一串行匹配聚类所导致的效率低下问题，提高了病毒文件聚类的效率，在面对大量病毒文件数据时，节省了处理时间。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的流式计算***的框图；

图2是本发明一个实施例提供的病毒文件聚类方法的方法流程图；

图3是本发明另一个实施例提供的病毒文件聚类方法的方法流程图；

图4是本发明一个实施例提供的病毒文件聚类方法的原理图；

图5是本发明一个实施例提供的病毒文件聚类装置的结构框图；

图6是本发明一个实施例提供的病毒文件聚类设备的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

请参考图1，其示出了本发明一个实施例提供的流式计算***的框图。该流式计算***可以是一个分布式计算***。该流式计算***120用于将来自外部的数据源110的流式数据进行数据处理，得到结果数据；然后将结果数据输出给数据利用方的设备130进行持久化存储或利用。其中：

数据源110用于产生流式数据或静态数据集。数据源110可以是至少一个病毒文件特征数据库。

流式计算***120包括：管理节点122和至少一个计算节点124。可选地，可选地，管理节点122用于对各个计算节点124进行资源管理、主备管理、应用管理和任务管理中的至少一种。资源管理是指对各个计算节点124中的计算资源进行管理；主备管理是指对各个计算节点124在发生故障时，实现主备切换管理；应用管理是指对运行在流式计算***上的至少一个流式计算应用进行管理；任务管理是指对于一个流式计算应用对应的若干个任务进行管理。在不同的流式计算***中，管理节点122可能具有不同的名称，比如，主控节点(master node)。

管理节点122通过有线网络、无线网络或专用硬件接口与计算节点124相连。

计算节点124负责处理对流式数据的计算任务。当存在多个计算节点124时，多个计算节点124之间通过有线网络、无线网络或专用硬件接口相连。

可以理解的是，在虚拟化场景下，流计算***的管理节点122和计算节点124也可以由运行在通用硬件上的虚拟机来实现。本申请实施例不限定管理节点122是物理实体还是逻辑实体，也不限定计算节点124是物理实体还是逻辑实体。

数据利用方的设备130是用于对结果数据进行持久化存储或实时利用的设备，也称数据消费设备。数据利用方的设备130可以采用数据库作为存储形式。利用方的设备130可以是至少一个病毒作案团伙数据库。

请参考图2，其示出了本发明一个实施例提供的病毒文件聚类方法的方法流程图。本实施例以该病毒文件聚类方法用于病毒文件聚类设备中为例，该设备可以是电子计算机或分析服务器，该方法包括：

在步骤101中，病毒文件聚类设备获取病毒文件在至少一个传播途径上的特征，得到病毒文件的特征值。

同一病毒作案团伙制作的病毒往往具有不同的病毒传播途径，例如，电子邮件、短信、网页、社交通讯软件等，但是由于同一病毒作案团伙其往往具有相同或相近的违法犯罪目的，例如，针对同一目标用户的使用习惯引导进入同一钓鱼网站，因此团伙成员在制作病毒时在不同的传播途径具有相同的传播特征，例如，在电子邮件、短信、网页、社交通讯软件等传播的病毒都能够让中毒的用户自动链接到某一网址，该网址就是在该病毒作案团伙在电子邮件、短信、网页、社交通讯软件等传播途径上的特征。

病毒文件聚类设备分析并提取待聚类的所有病毒文件在其所有传播途径上的特征，其中，病毒文件为至少两个，特征为一至多个，传播途径为至少一个。在获得病毒文件的特征比特图之前，病毒文件聚类设备根据所有特征和所有传播途径的对应关系，对所有特征进行统一编码，获得所有特征在传播途径上的特征值。同时，在统一编码之后，根据病毒文件和特征的对应关系，获得了病毒文件和特征值的对应关系。

例如，如表一所示，病毒文件具有三种传播途径，分别为传播途径1、传播途径2、传播途径3，在传播途径1上具有特征A1、特征B1、特征C1，在传播途径2上具有特征A2、特征B2，在传播途径3上具有特征A3、特征B3、特征C3、特征D3，可按照顺序对特征A1至D3编码为0到8的特征值，通过将字符串的特征编码为数字的特征值，简化了运算。

表一

传播途径	特征	特征值
			传播途径1	特征A1	0
传播途径1	特征B1	1
			传播途径1	特征C1	2
传播途径2	特征A2	3
			传播途径2	特征B2	4
传播途径3	特征A3	5
			传播途径3	特征B3	6
传播途径3	特征C3	7
			传播途径3	特征D3	8

在步骤102中，病毒文件聚类设备根据病毒文件的特征值获取病毒文件的特征比特图。

特征比特图是通过比特值和比特位反映病毒文件在所有传播途径上的特征。对于任一病毒文件，当病毒文件具有目标特征值时，将病毒文件的特征比特图中与目标特征值对应的比特位的值设置为第一比特值；当病毒文件未具有目标特征值时，将病毒文件的特征比特图中与目标特征值对应的比特位的值设置为第二比特值；根据各个比特位的值，得到每个病毒文件的特征比特图。

例如，如表二所示，由于在传播途径1上具有三个特征值，因此传播途径1具有三个比特位，该三个比特位分别对应特征A1的特征值0、特征B1的特征值1、特征C1的特征值2；由于在传播途径2上具有两个特征值，因此传播途径2具有两个比特位，该两个比特位分别对应特征A2的特征值3、特征B2的特征值4；由于在传播途径3上具有四个特征值，因此传播途径3具有四个比特位，该四个比特位分别对应特征A3的特征值5、特征B3的特征值6、特征C3的特征值7、特征D3的特征值8，因此，对于每个病毒文件，其特征比特图具有九个比特位。若病毒文件1在传播途径1上具有特征A1，在传播途径2上具有特征A2，在传播途径3上具有特征A3，若第一比特值为1，第二比特值为0，根据表一所示的特征映射索引，获得病毒文件1的特征比特图为100101000。

表二

在步骤103中，病毒文件聚类设备根据多个病毒文件中的任意两个病毒文件的特征比特图之间的匹配程度，对待聚类的多个病毒文件进行聚类。

病毒文件聚类设备将待聚类的多个病毒文件中的任意两个病毒文件的特征比特图进行匹配，确定两个病毒文件具有的相同特征值的数量，若相同特征值的数量大于第一阈值，则归为同一类簇，若该相同特征值的数量不大于第一阈值，则不是同一类簇。

第一阈值可根据实际情况设置，例如，当第一阈值是0时，任意两个病毒若具有一个相同特征值，则归为同一类簇。

综上所述，本申请实施例中，通过根据病毒文件在传播途径上的特征值获取病毒文件的特征比特图，根据任意两个病毒文件的特征比特图之间的匹配程度，对待聚类的所有病毒文件进行并行聚类，由于特征比特图之间的匹配聚类方式为位运算，因此对硬件资源占有率低，可以实现并行的方式处理大量的病毒文件，解决了相关技术中根据病毒文件的特征逐一串行匹配聚类所导致的效率低下问题，提高了病毒文件聚类的效率，在面对大量病毒文件数据时，节省了处理时间。

请参考图3，其示出了本发明另一个实施例提供的病毒文件聚类方法的方法流程图。本实施例以该病毒文件聚类方法用于病毒文件聚类设备中为例，该设备可以是电子计算机或分析服务器，该方法包括：

在步骤201中，获取病毒文件在至少一个传播途径上的特征，得到病毒文件的特征值。

病毒文件聚类设备分析并提取待聚类的各个病毒文件在各自的传播途径上的特征，其中，病毒文件为至少两个，特征为一至多个，传播途径为至少一个。

病毒文件聚类设备根据特征和传播途径的对应关系，对所有特征统一编码，获得所有特征在所有传播途径上的特征值。同时，在统一编码之后，根据病毒文件和特征的对应关系，获得了病毒文件和特征值的对应关系。

在步骤202中，病毒聚类设备根据病毒文件的特征值获取病毒文件的特征比特图。

对于任一病毒文件，当病毒文件具有目标特征值时，将病毒文件的特征比特图中与目标特征值对应的比特位的值设置为第一比特值；当病毒文件未具有目标特征值时，将病毒文件的特征比特图中与目标特征值对应的比特位的值设置为第二比特值；根据各个比特位的值，得到该病毒文件的特征比特图。

在一个可选的实施例中，第一比特值为1，第二比特值为0。

例如，病毒文件聚类设备获得了五个病毒文件，分别为病毒文件1、病毒文件2、病毒文件3、病毒文件4、病毒文件5，该五个病毒文件在传播途径1、传播途径2、传播途径3上传播。该五个病毒文件具有特征A1、特征B1、特征C1、特征A2、特征B2、特征A3、特征B3、特征C3、特征D3，上述特征对应的特征值如表一所示，在传播途径1上具有特征A1的特征值0、特征B1的特征值1、特征C1的特征值2，在传播途径2上具有特征A2的特征值3、特征B2的特征值4，在传播途径3上具有特征A3的特征值5、特征B3的特征值6、特征C3的特征和7、特征D3的特征值8。由于在传播途径1上具有三个特征值，因此传播途径1具有三个比特位，该三个比特位分别对应特征A1的特征值0、特征B1的特征值1、特征C1的特征值2；由于在传播途径2上具有两个特征值，因此传播途径2具有两个比特位，该两个比特位分别对应特征A2的特征值3、特征B2的特征值4；由于在传播途径3上具有四个特征值，因此传播途径3具有四个比特位，该四个比特位分别对应特征A3的特征值5、特征B3的特征值6、特征C3的特征值7、特征D3的特征值8，因此，对于五个病毒文件中的任一病毒文件，其特征比特图具有九个比特位。

其中，病毒文件1具有特征A1、特征A2、特征A3，病毒文件2具有特征B1、特征B2、特征B3，病毒文件3具有特征A1、特征B2、特征C3，病毒文件4具有特征C1、特征D3，病毒文件5具有特征B3。

根据如表一所示的特征映射索引，获得每个病毒文件的特征比特图。如表三所示，病毒文件1的特征比特图为100101000，病毒文件2的特征比特图为010010100，病毒文件3的特征比特图为100010010，病毒文件4的特征比特图为001000001，病毒文件5的特征比特图为000000100。

表三

病毒文件	传播途径1	传播途径2	传播途径3	比特图
					病毒文件1	0	3	5	100101000
病毒文件2	1	4	6	010010100
					病毒文件3	0	4	7	100010010
病毒文件4	2	无	8	001000001
					病毒文件5	无	无	6	000000100

在步骤203中，病毒聚类设备根据多个病毒文件中的任意两个病毒文件的特征比特图确定两个病毒文件具有的相同特征值的数量。

病毒文件聚类设备将任意两个病毒文件的特征比特图进行匹配，确定该任意两个病毒文件具有的相同特征值的数量。

在一个可选的实施例中，将任意两个病毒文件的特征比特图进行与运算，得到与运算结果；确定与运算结果中包括的第一比特值的数量，将与运算结果中包括的第一比特值的数量作为任意两个病毒文件具有的相同特征值的数量。

例如，以病毒文件1为例，如表四所示，病毒文件1分别与病毒文件1、病毒文件2、病毒文件3、病毒文件4、病毒文件5进行与运算，得到与运算结果，统计与运算结果中包括第一比特值的数量，即包含比特值为1的数量，该数量可称之为基数。其中，病毒文件1分别与病毒文件1至病毒文件5的与运算结果的基数分别为3、0、1、0、0。

表四

病毒文件	特征比特图	病毒文件	特征比特图	与运算结果	基数
						病毒文件1	100101000	病毒文件1	100101000	100101000	3
病毒文件1	100101000	病毒文件2	010010100	000000000	0
						病毒文件1	100101000	病毒文件3	100010010	100000000	1
病毒文件1	100101000	病毒文件4	001000001	000000000	0
						病毒文件1	100101000	病毒文件5	000000100	000000000	0

在步骤204中，病毒聚类设备判断两个病毒文件具有的相同特征值的数量是否小于第一阈值。

若两个病毒文件具有的相同特征值的数量大于第一阈值，例如，当第一阈值为0时，若任意两个病毒文件至少具有一个相同特征值，则该两个病毒文件相同特征的数量大于0，进入步骤205a。

若病毒文件与其他任一病毒文件的相同特征值的数量均不大于第一阈值，例如，当第一阈值为0时，若病毒文件与其他任一病毒文件都不具有相同特征，则该病毒文件与其他任一病毒文件的相同特征值的数量为0，进入步骤205b。

在一个可选的实施例中，任意两个病毒文件与运算结果的基数大于第一阈值的，可归为同一类簇。若该阈值为0，例如，如表四所示，病毒文件1与病毒文件3的与运算结果的基数为1，则将病毒文件1与病毒文件3归为同一类簇。

在步骤205b中，病毒聚类设备确定两个病毒文件不关联，将与每个病毒文件均不关联的病毒文件作为一个孤立类簇。

若两个病毒文件具有相同特征值的数量不大于第一阈值，则病毒聚类设备确定两个病毒文件不具有关联关系，将与每个病毒文件均不关联的病毒文件作为一个孤立类簇。

在步骤205a中，病毒聚类设备确定两个病毒文件具有关联关系，将多个病毒文件中具有关联关系的病毒文件聚类为一个第一级非孤立类簇。

若两个病毒文件具有的相同特征值的数量大于第一阈值，病毒文件聚类设备确定两个病毒文件具有关联关系，将多个病毒文件中具有关联关系的病毒文件聚类为一个第一级非孤立类簇，完成了对待聚类病毒文件的聚类。

类簇是待聚类的病毒文件所属的类，每个类簇内具有至少一个病毒文件或其他类簇，每个类簇都具有特征比特图，该特征比特图通过其内的病毒文件或其他类簇获得。孤立类簇是其特征比特图与其他类簇的特征比特图没有关联关系的类簇，非孤立类簇是其特征比特图与其他类簇具有关联关系的类簇。

以上过程实现了根据任意两个病毒文件的特征比特图之间的匹配程度，对待聚类的所有病毒文件进行聚类为孤立类簇和非孤立类簇的过程。作为一种可选实施例，对于将待聚类的所有病毒文件聚类为孤立类簇和非孤立类簇之后，本申请实施例还提供了如下步骤。

在步骤206中，病毒聚类设备根据根据第i级非孤立类簇内的至少两个病毒文件获取第i级非孤立类簇的特征比特图，i≥1。

病毒文件聚类设备根据第i级非孤立类簇中每个病毒文件的特征比特图，获取第i级非孤立类簇的特征比特图。

在一个可选的实施例中，病毒文件聚类设备将每个第i级非孤立类簇内的病毒文件各自的特征比特图进行或运算，得到或运算结果，将得到的或运算结果作为第i级非孤立类簇的特征比特图。

例如，如表五所示，病毒文件1与病毒文件3相关联，构成同一第一级非孤立类簇，将病毒文件1与病毒文件3进行或运算，或运算结果100111010为病毒文件1与病毒文件3构成的第一级非孤立类簇的特征比特图。同理，病毒文件2与其相关联的病毒文件3、病毒文件5构成的第一级非孤立类簇的特征比特图为110010110；病毒文件3与其相关联的病毒文件1、病毒文件2构成的第一级非孤立类簇的特征比特图为110111110；病毒文件5与其相关联的病毒文件2构成的第一级非孤立类簇的特征比特图为010010100。

表五

病毒文件	相关联的病毒文件	或运算结果
			病毒文件1	病毒文件3	100111010
病毒文件2	病毒文件3、病毒文件5	110010110
			病毒文件3	病毒文件1、病毒文件2	110111110
病毒文件5	病毒文件2	010010100

在步骤207中，病毒聚类设备根据任意两个第i级非孤立类簇的特征比特图确定两个第i级非孤立类簇具有的相同特征值的数量。

病毒文件聚类设备将步骤206中获得的任意两个第i级非孤立类簇的特征比特图进行匹配聚类，确定该任意两个第i级非孤立类簇具有的相同特征值的数量。

在一个可选的实施例中，病毒文件聚类设备将任意两个第i级非孤立类簇的特征比特图进行匹配聚类之前，对步骤206中获得的第i级非孤立类簇进行去重处理。

去重处理，是将每次或运算中获得的特征比特图相同的第i级非孤立类簇去除，保留一个。由于每次或运算后可能会得到特征比特图相同的第i级非孤立类簇，为了避免重复运算，消耗计算资源，需要对每次或运算后得到的具有相同特征比特图的第i级非孤立类簇进行去除，保留其中一个。

在步骤208中，病毒聚类设备判断任意两个第i级非孤立类簇具有的相同特征值的数量是否小于第二阈值。

若两个第i级非孤立类簇具有的相同特征值的数量不小于第二阈值，例如，当第二阈值为0时，若任意两个第i级非孤立类簇至少具有一个相同特征值，则该两个第i级非孤立类簇相同特征值的数量大于0，进入步骤209a。

在步骤209a中，病毒聚类设备确定两个第i级非孤立类簇具有关联关系，将具有关联关系的第i级非孤立类簇聚类为同一个第(i+1)级非孤立类簇。

若两个第i级非孤立类簇具有相同特征值的数量不小于第二阈值时，病毒聚类设备确定两个第i级非孤立类簇具有关联关系，将具有关联关系的第i级非孤立类簇聚类为同一个第(i+1)级非孤立类簇。示意性的，通过一次聚类得到的孤立类簇为病毒文件4，非孤立类簇为病毒文件1、病毒文件3组成的第一级非孤立类簇，病毒文件2、病毒文件3以及病毒文件5组成的第一级孤立类簇，病毒文件5和病毒文件2组成的第一级非孤立类簇，通过循环的或运算和与运算后，将上述第一级非孤立类簇合并为第二级孤立类簇，进而将第一次聚类中并不关联的病毒文件关联起来，提高了聚类的准确度。

例如，病毒文件1与病毒文件2在第一次聚类中被确定为并不关联，但是通过第一非孤立类簇和第二非孤立类簇的与运算结果为100010010，与运算结果的基数为3，则确定第一孤立类簇和第二孤立类簇关联，因此病毒文件1、病毒文件2、病毒文件3以及病毒文件5都被归于同一新的非孤立类簇中。

在步骤210中，病毒聚类文件根据第(i+1)级非孤立类簇内的至少两个第i级非孤立类簇的特征比特图获取第(i+1)级非孤立类簇的特征比特图。

将所有关联的第i级非孤立类簇再次聚类为同一第(i+1)级非孤立类簇后，根据第(i+1)级非孤立类簇内的第i级非孤立类簇，获得第(i+1)级非孤立类簇的特征比特图。进入步骤207，反复循环迭代，直到将所有非孤立类簇归为孤立类簇。

在一个可选的实施例中，病毒文件聚类设备将每个第(i+1)级非孤立类簇内的第i级非孤立类簇的特征比特图进行或运算，得到或运算结果，将得到的或运算结果作为第(i+1)级非孤立类簇的特征比特图。

若第i级非孤立类簇与其他任一第i级非孤立类簇的相同特征值的数量均不大于第二阈值，例如，当第二阈值为0时，若第i级非孤立类簇与其他任一第i级非孤立类簇都不具有相同特征值，则该第i级非孤立类簇与其他任一第i级非孤立类簇的相同特征的数量为0，进入步骤209b。

在步骤209b中，病毒聚类设备确定两个第i级非孤立类簇不具有关联关系，将与其他每个第i级非孤立类簇均不具有关联关系的第i级非孤立类簇作为一个孤立类簇。

若第i级非孤立类簇与其他任一第i级非孤立类簇的相同特征值的数量均不大于第二阈值时，病毒文件聚类设备确定该第i级非孤立类簇与其他任一第i级非孤立类簇均不关联，将该第i级非孤立类簇作为一个孤立类簇。

通过上述步骤，病毒聚类设备获得了所有病毒文件的孤立类簇，并将所有待聚类的病毒文件归入所有的孤立类簇中。

在步骤211中，病毒聚类设备将每个孤立类簇进行编号，获得每个所述孤立类簇的标识号。

病毒聚类设备将上述步骤中获得的每个孤立类簇编号，将该编号作为每个孤立类簇的标识号。

在步骤212中，病毒聚类设备将每个孤立类簇的标识号作为每个孤立类簇对应的病毒作案团伙的标识号。

每个孤立类簇内包含的病毒文件为同一病毒作案团伙制作的病毒文件，因此将每个孤立类簇的标识号作为每个孤立类簇对应的病毒作案团伙的标识号，并对同一病毒作案团伙进行多维度的分析。

在一个可选的实施例中，病毒聚类设备将任一病毒文件的特征比特图与任一孤立类簇进行与运算，若与运算结果的基数大于第一阈值，则将该病毒文件归入该孤立类簇，若与运算的结果不大于第一阈值，则将该病毒文件的特征比特图与其他孤立类簇进行与运算，根据与运算结果的基数判断是否将该病毒文件归入其他孤立类簇。

在一个可选的实施例中，病毒聚类设备将所有孤立类簇生成临时标识号，并将上一个时间段获得的孤立类簇的临时标识号进行关联，获得的孤立类簇标识号，即，病毒作案团伙的标识号，执法人员可根据病毒作案团伙的标识号对归入该标识号下的病毒文件进行分析，获得病毒作案团伙的违法犯罪信息。

综上所述，本申请实施例中，通过根据病毒文件在传播途径上的特征值获取病毒文件的特征比特图，根据任意两个病毒文件的特征比特图之间的匹配程度，对待聚类的所有病毒文件进行并行聚类，由于特征比特图之间的匹配方式为位运算，因此对硬件资源占有率低，可以实现并行的方式处理大量的病毒文件，解决了相关技术中根据病毒文件的特征逐一串行匹配聚类所导致的效率低下问题，提高了病毒文件聚类的效率，在面对大量病毒文件数据时，节省了处理时间。

进一步的，本申请实施例中，通过将病毒文件的特征比特图循环迭代进行或运算和与运算，直到非孤立类簇的个数为零，得到最终的孤立类簇，将所有病毒文件归入最终的孤立类簇中，进而将通过一次聚类后并不关联的病毒文件关联起来，提高了病毒文件聚类的准确度。

在一个示意性的例子中，如图4所示，本实施例对病毒文件的聚类方式是基于病毒文件的特征比特图进行聚类，将基于病毒文件的特征比特图的聚类结果中的每一个类簇作为病毒团伙进行多维统计分析。

请参考图5，其示出了本发明另一个实施例提供的病毒文件聚类装置的结构框图。本实施例以该病毒文件聚类方法用于病毒文件聚类设备中为例，该设备可以是电子计算机或分析服务器，该装置包括：第一获取模块301、第二获取模块302以及聚类模块303。

第一获取模块301，用于获取病毒文件在至少一个传播途径上的特征，得到病毒文件的特征值；

第二获取模块302，用于根据病毒文件的特征值获取病毒文件的特征比特图，其中，病毒文件的特征比特图的比特位数量与待聚类的多个病毒文件在传播途径上的特征值的总数量相同，且特征比特图中的每个比特位与一个传播途径上的一个特征值相对应，比特位的取值与病毒文件是否具有对应的特征值相关；

聚类模块303，用于根据多个病毒文件中的任意两个病毒文件的特征比特图之间的匹配程度，对待聚类的多个病毒文件进行聚类。

在一个可选的实施例中，第二获取模块302还用于：

确定待聚类的多个病毒文件在传播途径上的特征值的总数量，根据总数量确定病毒文件的特征比特图的比特位数量；

当病毒文件具有目标特征值时，将病毒文件的特征比特图中与目标特征值对应的比特位的值设置为第一比特值；

当病毒文件未具有目标特征值时，将病毒文件的特征比特图中与目标特征值对应的比特位的值设置为第二比特值；

根据各个比特位的值，得到每个病毒文件的特征比特图。

在一个可选的实施例中，聚类模块303还用于：

根据多个病毒文件中的任意两个病毒文件的特征比特图确定两个病毒文件具有的相同特征值的数量；

当相同特征值的数量不小于第一阈值时，则确定两个病毒文件具有关联关系；

将多个病毒文件中具有关联关系的病毒文件聚类为一个第一级非孤立类簇。

在一个可选的实施例中，聚类模块303还用于：

将多个病毒文件中任意两个病毒文件的特征比特图进行与运算，得到与运算结果；

确定与运算结果中包括的第一比特值的数量，将与运算结果中包括的第一比特值的数量作为任意两个病毒文件具有的相同特征值的数量。

在一个可选的实施例中，第二获取模块302还用于：

获取第i级非孤立类簇的特征比特图；

聚类模块303还用于：

根据任意两个第i级非孤立类簇的特征比特图确定两个第i级非孤立类簇具有的相同特征值的数量；

当相同特征值的数量不小于第二阈值时，则确定两个第i级非孤立类簇具有关联关系，将两个第i级非孤立类簇聚类为第i+1级非孤立类簇；

当相同特征值的数量小于第二阈值时，则确定两个第i级非孤立类簇不具有关联关系；并将与其他每个第i级非孤立类簇均不具有关联关系的第i级非孤立类簇作为一个孤立类簇。

在一个可选实施例中，聚类模块303还用于：

当i＝1时，将第i级非孤立类簇内的至少两个病毒文件的特征比特图进行或运算，得到第一或运算结果，将得到的第一或运算结果作为第i级非孤立类簇的特征比特图；

当i＞1时，将第i级非孤立类簇内的至少两个第i-1级非孤立类簇的特征比特图进行或运算，得到第二或运算结果，将得到的第二或运算结果作为第i级非孤立类簇的特征比特图。

在一个可选的实施例中，聚类模块303还用于：

对第i级非孤立类簇的特征比特图进行去重处理，根据去重之后的任意两个第i级非孤立类簇的特征比特图确定两个第i级非孤立类簇具有的相同特征值的数量。

在一个可选的实施例中，聚类模块303还用于：

将多个病毒文件中与其他每个病毒文件均不具有关联关系的病毒文件确定为一个孤立类簇。

在一个可选的实施例中，聚类模块303还用于：

将每个孤立类簇进行编号，获得每个孤立类簇的标识号；

将每个孤立类簇的标识号作为每个孤立类簇对应的病毒作案团伙的标识号。

综上所述，本申请实施例中，病毒文件聚类装置通过根据病毒文件在传播途径上的特征值获取病毒文件的特征比特图，根据任意两个病毒文件的特征比特图之间的匹配程度，对待聚类的所有病毒文件进行并行聚类，由于特征比特图之间的匹配聚类方式为位运算，因此对硬件资源占有率低，可以实现并行的方式处理大量的病毒文件，解决了相关技术中根据病毒文件的特征逐一串行匹配聚类所导致的效率低下问题，提高了病毒文件聚类的效率，在面对大量病毒文件数据时，节省了处理时间。

进一步的，本申请实施例中，病毒文件聚类装置通过将病毒文件的特征比特图循环迭代进行或运算和与运算，直到非孤立类簇的个数为零，得到最终的孤立类簇，将所有病毒文件归入最终的孤立类簇中，进而将通过一次聚类后并不关联的病毒文件关联起来，提高了病毒文件聚类的准确度。

请参见图6，其示出了本发明一个实施例提供的病毒文件聚类设备的结构框图。该车辆控制设备包括：处理器401、存储器402以及网络接口403。

网络接口403通过总线或其它方式与处理器401相连，用于接收病毒文件。

处理器401可以是中央处理器(英文：central processing unit，CPU)，网络处理器(英文：network processor，NP)或者CPU和NP的组合。处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integratedcircuit，ASIC)，可编程逻辑器件(英文：programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，FPGA)，通用阵列逻辑(英文：generic array logic，GAL)或其任意组合。

存储器402通过总线或其它方式与处理器401相连，存储器402中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、至少一段程序、代码集或指令集由处理器401加载并执行以实现如图1或图2的病毒文件聚类方法。存储器402可以为易失性存储器(英文：volatile memory)，非易失性存储器(英文：non-volatile memory)或者它们的组合。易失性存储器可以为随机存取存储器(英文：random-access memory，RAM)，例如静态随机存取存储器(英文：static random access memory，SRAM)，动态随机存取存储器(英文：dynamic random access memory，DRAM)。非易失性存储器可以为只读存储器(英文：read only memory image，ROM)，例如可编程只读存储器(英文：programmable read onlymemory，PROM)，可擦除可编程只读存储器(英文：erasable programmable read onlymemory，EPROM)，电可擦除可编程只读存储器(英文：electrically erasableprogrammable read-only memory，EEPROM)。非易失性存储器也可以为快闪存储器(英文：flash memory)，磁存储器，例如磁带(英文：magnetic tape)，软盘(英文：floppy disk)，硬盘。非易失性存储器也可以为光盘。

本申请实施例还提供了一种计算机可读存储介质，该存储介质中一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如图1或图2所示的病毒文件聚类方法，可选地，该计算机可读存储介质包括高速存取存储器、非易失性存储器。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种病毒文件聚类方法，其特征在于，所述方法包括：

确定待聚类的多个病毒文件在所述传播途径上的特征值的总数量，根据所述总数量确定所述病毒文件的特征比特图的比特位数量；

将所述病毒文件的特征比特图中与所述病毒文件具有的特征对应的比特位的值设置为第一比特值；将所述病毒文件的特征比特图中与所述病毒文件不具有的特征对应的比特位的值设置为第二比特值；

根据各个所述比特位的值，得到每个所述病毒文件的特征比特图，其中，所述病毒文件的特征比特图的比特位数量与待聚类的所述多个病毒文件在所述传播途径上的特征值的总数量相同，且所述特征比特图中的每个比特位与一个传播途径上的一个特征相对应；

根据所述多个病毒文件中的任意两个病毒文件的特征比特图之间的匹配程度，对所述多个病毒文件进行聚类。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个病毒文件中的任意两个病毒文件的特征比特图之间的匹配程度，对所述多个病毒文件进行聚类，包括：

根据所述多个病毒文件中的任意两个病毒文件的特征比特图确定所述任意两个病毒文件具有的相同特征值的数量；

当所述相同特征值的数量不小于第一阈值时，则确定所述任意两个病毒文件具有关联关系；

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个病毒文件中的任意两个病毒文件的特征比特图确定所述任意两个病毒文件具有的相同特征值的数量，包括：

将所述多个病毒文件中的所述任意两个病毒文件的特征比特图进行与运算，得到与运算结果；

确定所述与运算结果中包括的第一比特值的数量，将所述与运算结果中包括的所述第一比特值的数量作为所述任意两个病毒文件具有的相同特征的数量。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取第i级非孤立类簇的特征比特图，i≥1；

根据任意两个第i级非孤立类簇的特征比特图确定所述任意两个第i级非孤立类簇具有的相同特征值的数量；

当所述相同特征值的数量不小于第二阈值时，则确定所述任意两个第i级非孤立类簇具有关联关系，将所述任意两个第i级非孤立类簇聚类为第i+1级非孤立类簇；

当所述相同特征值的数量小于第二阈值时，则确定所述任意两个第i级非孤立类簇不具有关联关系；并将与其他每个第i级非孤立类簇均不具有关联关系的所述第i级非孤立类簇作为一个孤立类簇。

5.根据权利要求4所述的方法，其特征在于，所述获取第i级非孤立类簇的特征比特图，包括：

当i=1时，将所述第i级非孤立类簇内的至少两个病毒文件的特征比特图进行或运算，得到第一或运算结果，将得到的所述第一或运算结果作为所述第i级非孤立类簇的特征比特图；

6.根据权利要求4所述的方法，其特征在于，所述根据任意两个第i级非孤立类簇的特征比特图确定所述任意两个第i级非孤立类簇具有的相同特征值的数量，包括：

对所述第i级非孤立类簇的特征比特图进行去重处理，根据去重之后的所述任意两个第i级非孤立类簇的特征比特图确定所述任意两个第i级非孤立类簇具有的相同特征值的数量。

7.根据权利要求2所述的方法，其特征在于，所述根据所述多个病毒文件中的任意两个病毒文件的特征比特图确定所述任意两个病毒文件具有的相同特征值的数量之后，还包括：

8.根据权利要求4或7所述的方法，其特征在于，所述方法还包括：

将每个所述孤立类簇进行编号，获得每个所述孤立类簇的标识号；将每个所述孤立类簇的标识号作为每个所述孤立类簇对应的病毒作案团伙的标识号。

9.一种病毒文件聚类装置，其特征在于，所述装置包括：

第二获取模块，用于确定待聚类的多个病毒文件在所述传播途径上的特征值的总数量，根据所述总数量确定所述病毒文件的特征比特图的比特位数量；将所述病毒文件的特征比特图中与所述病毒文件具有的特征对应的比特位的值设置为第一比特值；将所述病毒文件的特征比特图中与所述病毒文件不具有的特征对应的比特位的值设置为第二比特值；根据各个所述比特位的值，得到每个所述病毒文件的特征比特图，其中，所述病毒文件的特征比特图的比特位数量与待聚类的所述多个病毒文件在所述传播途径上的特征值的总数量相同，且所述特征比特图中的每个比特位与一个传播途径上的一个特征相对应；

聚类模块，用于根据所述多个病毒文件中的任意两个病毒文件的特征比特图之间的匹配程度，对所述多个病毒文件进行聚类。

10.根据权利要求9所述的装置，其特征在于，所述聚类模块还用于：

11.根据权利要求10所述的装置，其特征在于，所述聚类模块还用于：

12.一种病毒文件聚类设备，其特征在于，所述病毒文件聚类设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至8任一所述的病毒文件聚类方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至8任一所述的病毒文件聚类方法。