CN110309382B

CN110309382B - 基于多维特征的移动应用同源性边聚类方法

Info

Publication number: CN110309382B
Application number: CN201910520989.1A
Authority: CN
Inventors: 官全龙; 罗伟其; 张焕明; 崔林; 李荣君; 刘楚莹
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2021-05-28
Anticipated expiration: 2039-06-17
Also published as: CN110309382A

Abstract

本发明公开了一种基于多维特征的移动应用同源性边聚类方法，步骤如下：构建以移动应用软件关系图，移动应用软件作为关系图的顶点，由移动应用软件的不同特征比较算法得出软件之间的n种多维特征相似性分数作为关系图的边，形成“边”集合；设置相似分数阈值和有效分数个数阈值，过滤出“有效边”集合；计算“有效边”两两之间的距离；设置邻域半径，找出所有“有效边”的邻域；设置邻域密度阈值，找出所有“核心边”，形成“核心边对象”集合；从“核心边对象”集合中任一“核心边”开始遍历，将其所有密度可达的“有效边”聚成簇，最后得到软件同源家族分类情况。本发明有效克服以往基于单一距离的聚类，更公平地将软件进行同源家族分类。

Description

基于多维特征的移动应用同源性边聚类方法

技术领域

本发明涉及软件聚类技术领域，具体涉及一种基于多维特征的移动应用同源性边聚类方法。

背景技术

随着手机软件的快速发展，移动应用软件的数量日益增长，恶意应用数量也随之增加，安全***每天截获的恶意软件数以千万计，软件分析工作量也非常大。将软件进行同源家族分类，将同源家族的特征提取出来进行分析，可以大大减少软件分析样本的数量，减轻分析工作人员工作量。因此，目前亟待提出一种基于多维特征的移动应用同源性边聚类方法。

发明内容

本发明的目的是为了解决现有技术中的上述问题，提供一种基于多维特征的移动应用同源性边聚类方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于多维特征的移动应用同源性边聚类方法，所述的聚类方法包括以下步骤：

S1、构建以移动应用软件关系图，移动应用软件作为关系图的顶点，由移动应用软件的不同特征比较算法得出软件之间的n种多维特征相似性分数作为关系图的边，形成“边”集合Edge；

S2、设置相似分数阈值μ＝(μ₁,μ₂,μ₃……μ_n)和有效分数个数阈值α，过滤出“有效边”集合VaildEdge；

S3、计算“有效边”两两之间的距离；

S4、设置邻域半径r，找出所有“有效边”的邻域；

S5、设置邻域密度阈值minPts，找出所有“核心边”，形成“核心边对象”集合；

S6、从“核心边对象”集合中任一“核心边”开始遍历，将其所有密度可达的“有效边”聚成簇，直到所有“核心边”被访问过为止，根据聚成的簇结果最后得到软件同源家族分类情况。

进一步地，所述的“边”集合Edge如下：

Edge＝{(apk₁,apk₂):(s1₁₂,s2₁₂,s3₁₂,……,sn₁₂)，

(apk₁,apk₃):(s1₁₃,s2₁₃,s3₁₃,……,sn₁₃)，

……

(apk_i,apk_j):(s1_ij,s2_ij,s3_ij,……,sn_ij)，

……

(apk_m,apk_m-1):(s1_m(m-1),s2_m(m-1),s3_m(m-1),……,sn_m(m-1))}；

其中m表示数据集中移动软件个数，(apk_i,apk_j)表示移动软件数据集中第i个和第j个移动软件之间的“边”，sn_ij表示第n种软件相似性算法计算第i、j个软件的相似性分数，i＝1,2,……,m，j＝1,2,……,m。

进一步地，所述的步骤S2过程如下：

将(apk_i,apk_j)上的分数(s1_ij,s2_ij,s3_ij……sn_ij)与相似分数阈值(μ₁,μ₂,μ₃……μ_n)比较，即s1_ij与μ₁，s2_ij与μ₂……sn_ij与μ_n比较，当(apk_i,apk_j)上的分数(s1_ij,s2_ij,s3_ij……sn_ij)有不少于α个分数大于对应相似分数阈值μ时，那么“边”(apk_i,apk_j)为“有效边”；按照上述方法找到所有“有效边”，形成集合VaildEdge：

进一步地，所述的步骤S3过程如下：

计算“有效边”两两之间的距离，采用“有效边”(apk_i,apk_j)与(apk_x,apk_y)距离公式distance：

其中“有效边”(apk_x,apk_y)表示“有效边”集合中，除(apk_i,apk_j)以外的其他“有效边”，s1_ij,s2_ij,……,sn_ij表示第1,2,……,n种软件相似性算法计算第i、j个软件的相似性分数,s1_xy,s2_xy,……,sn_xy表示第1,2,……,n种软件相似性算法计算第x、y个软件的相似性分数。

进一步地，所述的步骤S4过程如下：

遍历“有效边”集合中的每条“有效边”(apk_i,apk_j)，i，j＝1，2……m，找到除有效边(apk_i,apk_j)本身外，所有与(apk_i,apk_j)的距离distance不大于r，且与(apk_i,apk_j)有共同节点的“有效边”，纳入(apk_i,apk_j)的邻域，得到有效边邻域Neib(apk_i,apk_j)；

Neib(apk_i,apk_j)＝{(apk_x,apk_y)|distance((apk_i,apk_j),(apk_x,apk_y))≤r,

CommonNode((apk_i,apk_j),(apk_x,apk_y))＝1，

(apk_i,apk_j)∈VaildEdge，(apk_x,apk_y)∈VaildEdge}；

其中，

进一步地，所述的步骤S5过程如下：

遍历所有“有效边”(apk_i,apk_j)，i，j＝1，2……m，计算每条“有效边”的邻域密度，即邻域内样本个数|Neib(apk_i,apk_j)|，当满足|Neib(apk_i,apk_j)|≥minPts时，则(apk_i,apk_j)为“核心边”，得到“核心边”集合CoreEdge：CoreEdge＝{(apk_i,apk_j)||Neib(apk_i,apk_j)|≥minPts，(apk_i,apk_j)∈VaildEdge}。

进一步地，所述的步骤S6过程如下：

从CoreEdge中任取一“核心边”edge_core＝(apk_i,apk_j)，标记为“已访问”，遍历“核心边”edge_core邻域中所有“有效边”样本edge_i(i≠core)，并判断edge_i是否为“核心边”，如果是，则按上述遍历edge_core邻域的方式继续遍历edge_i的邻域，最后将所有遍历过的“边”标记为“已访问”，将所有“已访问”的“边”聚成第一个簇；再从未遍历过的“核心边”中再任取一“核心边”edge_core，重复上述操作，聚成第k个簇，k＝2，3……直到CoreEdge中的所有“核心边”都被遍历过为止，根据聚成的簇结果最后得到软件同源家族分类情况。

本发明相对于现有技术具有如下的优点及效果：

本发明通过软件样本集的不同特征比较，获取软件之间的多维特征相似性分数，作为移动软件之间的关系边，再过滤出“有效边”作为聚类对象，根据邻域半径r，找到所有边的邻域，其中一条边邻域内所有的边在该边邻域半径r内，并且与该边有共同节点；根据邻域密度阈值MinPts找出所有核心边对象，从“核心边对象”集合中任一“核心边”开始遍历，将其所有密度可达的“有效边”聚成类簇，直到所有“核心边”被访问过为止，根据聚成的簇结果最后得到软件同源家族分类情况。本发明有效克服以往基于单一距离的聚类，更公平地将软件进行同源家族分类。

附图说明

图1是本发明公开的基于多维特征的移动应用同源性边聚类方法的流程图；

图2是本发明实施例中形成边集合和有效边集合的示意图；

图3是本发明实施例中边对象的邻域判断示意图；

图4是本发明实施例中核心边形成示意图，以虚线为例，判断该虚线是否为核心边。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种基于多维特征的移动应用同源性边聚类方法，包括以下步骤，

第一步、构建以移动应用软件关系图，移动应用软件作为关系图的顶点，由移动应用软件的不同特征比较算法得出软件之间的n种多维特征相似性分数作为关系图的边，形成“边”集合Edge；

其中，第一步中，获取“边”集合Edge，具体为，获取数据集中移动软件两两之间的n种相似性分数结果，形成“边”集合Edge，将每条边的多种相似性分数集中起来，作为边特征，如附图2：

Edge＝{(apk₁,apk₂):(s1₁₂,s2₁₂,s3₁₂,……,sn₁₂)，

(apk₁,apk₃):(s1₁₃,s2₁₃,s3₁₃,……,sn₁₃)，

……

(apk_i,apk_j):(s1_ij,s2_ij,s3_ij,……,sn_ij)，

……

(apk_m,apk_m-1):(s1_m(m-1),s2_m(m-1),s3_m(m-1),……,sn_m(m-1))}；

其中m表示数据集中移动软件个数，(apk_i,apk_j)表示移动软件数据集中第i个和第j个移动软件之间的“边”，(s1_ij,s2_ij,s3_ij……sn_ij)即边的多维特征，snij表示第n种软件相似性算法计算第i、j个软件的相似性分数，i＝1,2,……,m，j＝1,2,……,m。

第二步、设置相似分数阈值μ＝(μ₁,μ₂,μ₃……μ_n)和有效分数个数阈值α，过滤出“有效边”集合VaildEdge；

其中，第二步中，获取“有效边”集合VaildEdge，具体为，设置相似分数阈值μ＝(μ₁,μ₂,μ₃……μ_n)和有效分数个数阈值α，过滤出“有效边”集合VaildEdge，将(apk_i,apk_j)上的分数(s1_ij,s2_ij,s3_ij……sn_ij)与相似分数阈值(μ₁,μ₂,μ₃……μ_n)比较，即s1_ij与μ₁，s2_ij与μ₂……s_nij与μ_n比较，当(apk_i,apk_j)上的分数(s1_ij,s2_ij,s3_ij……sn_ij)有不少于α个分数大于对应相似分数阈值μ时，那么“边”(apk_i,apk_j)为“有效边”；按照上述方法找到所有“有效边”，形成集合VaildEdge：

第三步、计算“有效边”两两之间的距离；

其中，第三步中，计算“有效边”两两之间的距离，具体为，以边特征的欧式距离作为边的距离，(apk_i,apk_j)与(apk_x,apk_y)距离公式distance：

其中“有效边”(apk_x,apk_y)表示“有效边”集合中，除(apk_i,apk_j)以外的其他“有效边”。s1_ij,s2_ij,……,sn_ij表示第1,2,……,n种软件相似性算法计算第i、j个软件的相似性分数,s1_xy,s2_xy,……,sn_xy表示第1,2,……,n种软件相似性算法计算第x、y个软件的相似性分数。

第四步、设置邻域半径r，找出所有“有效边”的邻域；

其中，第四步中，遍历“有效边”集合中的每条“有效边”(apk_i,apk_j)，i，j＝1，2……m，找到除有效边(apk_i,apk_j)本身外，所有与(apk_i,apk_j)的距离distance不大于r，且与(apk_i,apk_j)有共同节点的“有效边”，纳入(apk_i,apk_j)的邻域，得到有效边邻域Neib(apk_i,apk_j)；

Neib(apk_i,apk_j)＝{(apk_x,apk_y)|distance((apk_i,apk_j),(apk_x,apk_y))≤r,

CommonNode((apk_i,apk_j),(apk_x,apk_y))＝1，

(apk_i,apk_j)∈VaildEdge，(apk_x,apk_y)∈VaildEdge}；

其中，

第五步、设置邻域密度阈值minPts，找出所有“核心边”，形成“核心边对象”集合；

其中，第五步中，设置邻域密度阈值minPts，找出所有“核心边”，形成“核心边对象”集合，具体为，设置邻域密度阈值minPts，找出所有“核心边”，形成“核心边对象”集合，遍历所有“有效边”(apk_i,apk_j)，i，j＝1，2……m，计算每条“有效边”的邻域密度，即邻域内样本个数|Neib(apki,apkj)|，当满足|Neib(apk_i,apk_j)|≥minPts时，则(apk_i,apk_j)为“核心边”，如附图4中，虚线代表某边，假设minPts＝3，该边的邻域中有3条边，即该虚线代表的边为核心边，得到“核心边”集合CoreEdge：

CoreEdge＝{(apk_i,apk_j)||Neib(apk_i,apk_j)|≥minPts，(apk_i,apk_j)∈VaildEdge}。

第六步、从“核心边对象”集合中任一“核心边”开始遍历，将其所有密度可达的“有效边”聚成簇，直到所有“核心边”被访问过为止。

其中，第六步中，从“核心边对象”集合中任一“核心边”开始遍历，将其所有密度可达的“有效边”聚成簇，直到所有“核心边”被访问过为止，具体为，从CoreEdge中任取一“核心边”edge_core＝(apk_i,apk_j)，标记为“已访问”，遍历“核心边”edge_core邻域中所有“有效边”样本edge_i(i≠core)，并判断edge_i是否为“核心边”，如果是，则按上述遍历edge_core邻域的方式继续遍历edge_i的邻域，最后将所有遍历过的“边”标记为“已访问”，将所有“已访问”的“边”聚成第一个簇；再从未遍历过的“核心边”中再任取一“核心边”edge_core，重复上述操作，聚成第k个簇，k＝2，3……直到CoreEdge中的所有“核心边”都被遍历过为止，根据聚成的簇结果最后得到软件同源家族分类情况。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多维特征的移动应用同源性边聚类方法，其特征在于，所述的聚类方法包括以下步骤：

S3、计算“有效边”两两之间的距离；

S4、设置邻域半径r，找出所有“有效边”的邻域；

2.根据权利要求1所述的基于多维特征的移动应用同源性边聚类方法，其特征在于，所述的“边”集合Edge如下：

Edge＝{(apk₁,apk₂):(s1₁₂,s2₁₂,s3₁₂,……,sn₁₂)，

(apk₁,apk₃):(s1₁₃,s2₁₃,s3₁₃,……,sn₁₃)，

……

(apk_i,apk_j):(s1_ij,s2_ij,s3_ij,……,sn_ij)，

……

(apk_m,apk_m-1):(s1_m(m-1),s2_m(m-1),s3_m(m-1),……,sn_m(m-1))}；

3.根据权利要求2所述的基于多维特征的移动应用同源性边聚类方法，其特征在于，所述的步骤S2过程如下：

4.根据权利要求3所述的基于多维特征的移动应用同源性边聚类方法，其特征在于，所述的步骤S3过程如下：

5.根据权利要求3所述的基于多维特征的移动应用同源性边聚类方法，其特征在于，所述的步骤S4过程如下：

Neib(apk_i,apk_j)＝{(apk_x,apk_y)|distance((apk_i,apk_j),(apk_x,apk_y))≤r,

CommonNode((apk_i,apk_j),(apk_x,apk_y))＝1，

(apk_i,apk_j)∈VaildEdge，(apk_x,apk_y)∈VaildEdge}；

其中，

6.根据权利要求3所述的基于多维特征的移动应用同源性边聚类方法，其特征在于，所述的步骤S5过程如下：

7.根据权利要求3所述的基于多维特征的移动应用同源性边聚类方法，其特征在于，所述的步骤S6过程如下：