CN108280350B

CN108280350B - 一种面向Android的移动网络终端恶意软件多特征检测方法

Info

Publication number: CN108280350B
Application number: CN201810109044.6A
Authority: CN
Inventors: 庄毅; 王军; 顾晶晶; 蒋理; 杨帆; 孙炳林
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2021-09-28
Anticipated expiration: 2038-02-05
Also published as: CN108280350A

Abstract

本发明公开了一种面向Android的移动网络终端恶意软件多特征检测方法。包括以下步骤：步骤1，获取Android软件数据集，包括恶意样本和非恶意样本；步骤2，分析恶意软件的安装包，提取软件的安装包特征，构造安装包特征向量；步骤3，获取软件申请的权限，构建权限列表；步骤4，反编译恶意软件的安装包，构建软件的敏感行为图，提取软件的敏感行为集；步骤5，对恶意样本中属于同一恶意软件家族的软件特征进行统计分析，构建恶意软件家族特征库；步骤6，提取软件特征，并进行恶意性判定及恶意家族分类。本发明选取软件包特征、权限特征和软件敏感行为调用特征作为恶意软件判定的依据，可提高软件恶意行为检测的准确性，同时具有恶意软件家族分类的能力。

Description

一种面向Android的移动网络终端恶意软件多特征检测方法

技术领域

本发明属于移动软件分析及信息安全领域，具体涉及一种面向Android的移动网络终端恶意软件多特征检测方法。

背景技术

Android恶意代码多标签检测问题，是在学术界和工业界中具有挑战性的难题。在判定软件恶意性的同时还应给出其所属家族。当前智能手机的应用已经涉及到人们生活的各个方面，而Android***在智能手机中占有大量的份额，因此准确的检测Android恶意代码，对于保护Android用户隐私和财产安全具有重要的意义和应用价值。

现有的Android恶意软件检测技术主要分为2类：分别为基于静态分析和基于动态分析的检测技术。动态分析方法模拟软件的执行，能够绕过静态方法遇到的代码混淆和加密等问题；但是动态测试代码覆盖率低,并且有些恶意程序可以防止自身在模拟器下运行。静态分析方法主要研究使用反编译技术或者在smali中间代码上进行控制流和数据流分析技术，能够对软件进行自动化分析，具有较高的检测效率，代码覆盖率高，适用于对大量软件样本进行分析；缺点是需要解决静态方法难以检测的代码混淆、加密以及在动态执行中才解码恶意代码的问题。为了应对该问题，已有研究者在恶意软件检测中考虑了加密、代码动态加载、Native代码动态加载等技术，如Riskranker和DroidRanger等。

目前已有许多学者针对Android恶意软件的多标签检测方法进行了相关研究。如Daniel Arp等人提出了基于静态分析方法的Android恶意代码多标签检测方法，在软件安装包中提取了大量的静态特征，并使用支持向量机进行分类，实现了高效检测；Yu Feng等人提出了描述Android恶意家族的特征描述语言，并使用特征匹配算法对待测软件进行分类，实现了基于语义的Android恶意软件检测；Chao Yang等人使用两级行为图表示方法描述软件的逻辑行为，结合静态污点分析和组件间的行为图，通过恶意行为模式分析判断软件的恶意性，并实现了对恶意家族的分类。

然而，现有的Android恶意软件多标签检测技术的研究，多选取恶意软件的所有样本进行分析，提取恶意软件所具有的特征，并以此作为待测软件恶意性判定的依据。而属于不同家族的恶意软件具有不同的恶意行为，其恶意性所表现出来的特征也具有较大差异。同一恶意软件家族的恶意软件，具有相似的恶意行为。但是，现有的恶意软件检测工具对于恶意软件的多标签检测能力较弱，如McAfee对于Genome数据集中的恶意样本进行检测时，将其中超过90％的样本检测为Trojan或Downloader，而实际上属于多个不同的恶意软件家族(如DroidDream等)。因此，速度和准确性均有待进一步提升，需要研究高效的恶意软件多标签检测方法。

发明内容

本发明的目的在于提供一种面向Android的移动网络终端恶意软件多特征检测方法，从而有效的提取Android恶意软件的特征，提高Android恶意软件检测的精度，并具有Android恶意家族分类的能力。

实现本发明的技术解决方案为：一种面向Android的移动网络终端恶意软件多特征检测方法，具体包括以下步骤：

步骤1、获取Android恶意软件样本，并标记各样本所属的Android恶意软件家族，然后获取非恶意软件样本，从而构建恶意和非恶意软件样本数据集；

步骤2、提取软件的安装包特征，包括：是否存在.so文件、是否存在用于root***的文件、是否存在异常文件，以及是否存在子程序，从而构造安装包特征向量F；

步骤3、使用反编译工具处理Android软件样本，解析AndroidManifest.xml文件，根据xml中的标记字段，提取软件申请的权限列表P；

步骤4、反编译安装包，构建软件函数调用图，定位其中的安全敏感方法，构建软件的敏感行为图SBG，然后采用数据流分析方法获得安全敏感方法的上下文信息，将被直接或间接调用的安全敏感方法构成软件的敏感行为集SBS；

步骤5、对恶意样本中属于同一恶意软件家族的软件特征进行统计分析，获取各特征分量出现的概率，构建Android恶意软件家族多特征模型M，从而构建恶意软件家族特征库；

步骤6、使用步骤2～4的方法提取待测软件的特征，将待测软件的特征与恶意软件家族特征库进行特征匹配，得到与之相似度最高的恶意软件家族名称，若相似度超过阈值则输出该软件为恶意软件，并输出其所属的恶意软件家族，否则输出该软件为良性软件。

本发明与现有技术相比，其显著优点为：1)本发明提出了一种面向Android的移动网络终端恶意软件多特征检测方法，针对不同的恶意软件家族，基于静态分析方法，从软件包特征、申请权限特征和软件的行为调用特征三个方面对软件进行分析；2)本发明采用统计分析方法，提取恶意软件家族的特征，构造恶意软件家族特征库，基于该特征库提出了恶意软件多标签检测方法，能够达到较好的恶意性判定精度和恶意家族分类精度。

下面结合附图对本发明作进一步详细阐述。

附图说明

图1为本发明的一种面向Android的移动网络终端恶意软件多特征检测方法的流程图。

图2为运用本发明的恶意软件检测精度及恶意家族分类精度与VirusTotal中部分引擎的对比结果。

具体实施方式

结合附图，本发明的一种面向Android的移动网络终端恶意软件多特征检测方法，包括以下步骤：

步骤2、提取软件的安装包特征，包括：是否存在.so文件、是否存在用于root***的文件、是否存在异常文件、以及是否存在子程序，从而构造安装包特征向量F；

所述异常文件指文件的后缀与文件内容本身指定的类型不匹配的文件；判断文件是否存在.so文件，并通过MD5值判断库文件是否为root exploit文件；判断jar文件、dex文件和apk文件是否存在子程序。

所述安全敏感方法包括：权限保护的方法、信息流Source/Sink方法和其他可疑方法；权限保护方法指Android***中需要申请权限才能使用的API，信息流Source/Sink方法指可能产生或发送敏感信息的方法，其他可疑方法包括动态加载函数、反射函数、加解密函数、Native代码执行及调用函数。

构建的软件函数调用图为下列四元组：

SBG＝(V^D,V^N,E,μ)

其中，V^D为软件敏感行为调用图中点集的子集，其中的任一节点v_d∈V^D为安全敏感方法的一种；V^N为软件敏感行为调用图中点集的子集，其中的任一节点v_n∈V^N为非安全敏感方法，但是直接或间接的调用了安全敏感方法；E∈V^N×V^D为软件敏感行为调用图边的集合，表示方法之间具有调用关系，其中任一条边e＝(v_n,v_d)∈E表示软件中的非安全敏感方法v_n∈V^N直接或间接的调用了安全敏感方法v_d∈V^D，或组件C_s中的方法v_n通过ICC直接或间接触发了组件C_t中的方法v_d；标记函数μ:V_d→<ID,EntryType,Para＞用于标记图中结点包含的内容，即该方法的上下文信息，包括方法ID、入口点类型EntryType和参数Para；

敏感行为集为如下所示的集合：

SBS＝{S₁,…,S_i,…,S_m}

其中，S_i＝{v|(v_i,v)∈E∧v_i∈V^N∧v∈V^D}为安全敏感方法集，表示敏感行为调用图SBG＝(V^D,V^N,E,μ)中，VN集合的第i个非敏感安全方法直接或间接调用的所有安全敏感方法构成的集合；m＝|V^N|为集合SBS的长度。

所述构建的Android恶意软件家族多特征模型为下列六元组：

M＝(SBS^c,α,F^c,β,P^c,γ)

其中，

为恶意软件家族共有的敏感行为集，通过统计分析同一恶意软件家族样本的敏感行为集SBS获得；标记函数

用于标记SBS^c中敏感方法集在恶意软件家族样本中出现的概率；F^c为通过分析同一恶意软件家族样本的安装包特征向量F，统计得到的恶意软件家族样本具有的共有软件安装包特征；标记函数β:f∈F^c→[0,1]用于标记F^c中各种特征在恶意软件家族样本中出现的概率；P^c为通过分析同一恶意软件家族样本的权限列表P，统计得到的恶意软件家族样本频繁申请的权限列表；标记函数γ:p∈P^c→[0,1]用于标记P^c中各权限在恶意软件家族样本中出现的概率。

所述待测软件与恶意软件家族的相似度表示为：

其中S_f为软件特征向量的相似度，S_p为权限列表的相似度，S_sbs为敏感行为集的相似度，μ_i为各相似度在计算时的权重值；

软件特征向量相似度S_f的计算方法为：给定待测软件的特征向量F＝{f₁,f₂,f₃，...，f_m}，待匹配的恶意软件家族多特征模型中的特征向量

以及对应的标记函数β，则：

按照各特征出现的概率计算相似度，若恶意家族多特征模型中的特征向量中的值均为0，则相似度为0；其中修正因子ω_f的计算方法为：向量F中所有使f_if_i ^c＝1的特征数量除以向量F^c中值为1的特征数量；

软件的权限列表相似度S_p的计算方法为：给定待测软件的权限列表P，待匹配的恶意软件家族多特征模型中的权限列表P^c＝{p₁ ^c,p₂ ^c,...,p_n ^c}，以及对应的标记函数γ，则：

其中修正因子ω_p的计算方法为：权限集合P中属于P^c的权限数量除以集合P^c的长度；当权限列表P^c中的元素

包含在待测软件的权限列表P中时，

值为1，否则为0；

敏感行为集相似度S_sbs的计算方法为：给定软件的敏感行为集SBS，待匹配的恶意软件家族多特征中的敏感行为集

以及对应的标记函数α，则：

式中，ω_sbs为修正因子，其计算方法为：SBS中所有使

的集合S_i ^c的数量除以集合SBS^c的长度；其中，函数

表示：在SBS中存在某一集合S，与集合

中的相似元素占两个集合所有元素的比例大于θ(0<θ≤1)。

由上可知，本发明采用统计分析方法，提取恶意软件家族的特征，构造恶意软件家族特征库，基于该特征库提出了恶意软件多标签检测方法，能够达到较好的恶意性判定精度和恶意家族分类精度。

为了使本领域技术人员更好地理解本发明中的技术问题、技术方案和技术效果，下面结合附图和具体实施例对本发明作进一步详细说明。

实施例

一种面向Android的移动网络终端恶意软件多特征检测方法，使用Drebin数据集和Google Play中获取的非恶意软件样本，构成数据集，恶意代码检测和家族分类具体包括以下步骤：

步骤1：将Drebin中的样本按照其所属的恶意家族进行分割，使用网络爬虫方法，在Google Play上获取非恶意软件，并使用VirusTotal在线检测服务进行验证，从而构建样本数据集，包括24个恶意软件家族的4486个恶意软件样本，和2140个良性软件样本；

步骤2：使用Zip解压缩工具将待分析的软件安装包解压缩，提取软件的安装包特征，包括：是否存在.so文件、是否存在用于root***的文件、是否存在异常文件，以及是否存在子程序，从而构造安装包特征向量F；判断是否存在用于root***的文件时，通过将现有的root exploit库文件的MD5值与软件安装包中的文件进行对比；判断是否存在异常文件，通过Apache Tika工具分析文件内容，获得文件类型，并与文件后缀进行对比；判断是否存在子程序，通过查看程序中是否存在jar文件、dex文件及apk文件实现；

步骤3：使用APKParser处理Android软件样本，解析AndroidManifest.xml文件，根据xml中的标记字段，提取软件申请的权限列表P；

步骤4：使用Soot工具反编译安装包，构建软件函数调用图，定位其中的安全敏感方法，构建软件的敏感行为图SBG，然后采用数据流分析方法获得安全敏感方法的上下文信息，将被直接或间接调用的安全敏感方法构成软件的敏感行为集SBS；

关注的安全敏感方法包括：权限保护的方法、信息流Source/Sink方法和其他可疑方法；权限保护的方法指Android***中需要申请权限才能使用的API，信息流Source/Sink方法指可能产生或发送敏感信息的方法，其他可疑方法包括动态加载函数、反射函数、加解密函数、Native代码执行及调用函数。

构建的敏感行为调用图为下列四元组：

SBG＝(V^D,V^N,E,μ)

其中，V^D为软件敏感行为调用图中点集的子集，其中的任一节点v_d∈V^D为安全敏感方法的一种；V^N为软件函数调用图中点集的子集，其中的任一节点v_n∈V^N为非安全敏感方法，但是直接或间接的调用了安全敏感方法；E∈V^N×V^D为敏感行为调用图边的集合，表示方法之间具有调用关系。其中任一条边e＝(v_n,v_d)∈E表示软件中的非安全敏感方法v_n∈V^N直接或间接的调用了安全敏感方法v_d∈V^D，或组件C_s中的方法v_n通过ICC直接或间接触发了组件C_t中的方法v_d；标记函数μ:V_d→<ID,EntryType,Para>用于标记图中顶点包含的内容，包括方法ID、入口点类型EntryType和参数Para。

敏感行为集为如下所示的集合：

SBS＝{S₁,S₂,…,S_m}

其中，S_i＝{v|(v_i,v)∈E∧v_i∈V^N∧v∈V^D}为安全敏感方法集，表示敏感行为调用图SBG＝(V^D,V^N,E,μ)中，V_n集合的第i个非敏感安全方法直接或间接调用的所有安全敏感方法构成的集合；m＝|V^N|为集合SBS的长度；

步骤5、选取24个恶意软件家族样本中的75％(3341个样本)作为特征提取的样本，构建恶意软件家族特征库。对恶意样本中属于同一恶意软件家族的软件特征进行统计分析，获取各特征分量出现的概率，构建Android恶意软件家族多特征模型M，从而构建恶意软件家族特征库；

构建的Android恶意软件家族多特征模型为下列六元组：

M＝(SBS^c,α,F^c,β,P^c,γ)

其中，

用于标记SBS^c中敏感方法集在恶意软件家族样本中出现的概率；F^c为通过分析同一恶意软件家族样本的安装包特征F，统计得到的恶意软件家族样本具有的共有软件安装包特征；标记函数β:f∈F^c→[0,1]用于标记F^c中各个特征在恶意软件家族样本中出现的概率；P^c为通过分析同一恶意软件家族样本的权限列表P，统计得到的恶意软件家族样本频繁申请的权限列表；标记函数γ:p∈P^c→[0,1]用于标记P^c中各权限在恶意软件家族样本中出现的概率；

步骤6、使用步骤2～4的方法提取待测软件的特征，将待测软件的特征与恶意软件家族特征库进行特征匹配，得到与之相似度最高的恶意软件家族名称，若相似度超过0.7则输出该软件为恶意软件，并输出其所属的恶意软件家族，否则输出该软件为良性软件；

待测软件与恶意软件家族的相似度表示为：

其中S_f为特征向量的相似度，S_p为权限列表的相似度，S_sbs为敏感行为集的相似度，μ_i为各相似度在计算时的权重值，实验中三个权重值均取

软件特征向量的相似度计算方法为，给定待测软件的特征向量F＝{f₁,f₂,f₃，...，f_m}，待匹配的恶意软件家族多特征模型中的特征向量F^c＝{f₁ ^c,f₂ ^c,f₃ ^c，...，f_m ^c}，以及对应的标记函数β，其相似度的计算方法如下式所示：

按照各特征出现的概率计算相似度，若恶意家族多特征模型中的特征向量的值均为0，则相似度为0。其中修正因子ω_f的计算方法为：向量F中所有使f_if_i ^c＝1的特征数量除以向量F^c中值为1的特征数量。

软件权限列表相似度的计算方法为，给定待测软件的权限列表P，待匹配的恶意软件家族多特征模型中的权限列表P^c＝{p₁ ^c,p₂ ^c,...,p_n ^c}，以及对应的标记函数γ，其相似度的计算方法如下式所示：

其中修正因子ω_p的计算方法为：权限集合P中属于P^c的权限数量除以集合P^c的长度。

敏感行为集相似度的计算方法为，给定软件的敏感行为集SBS，待匹配的恶意软件家族多特征中的敏感行为集

以及对应的标记函数α，其相似度的计算方法如下式所示：

为了防止特征较多的恶意软件家族覆盖特征较少的家族，引入修正因子ω_sbs，其计算方法为：SBS中所有使

的集合

的数量除以集合SBS^c的长度。其中，函数

表示：在SBS中存在某一集合S，与集合

中的相似元素占两个集合所有元素的比例大于80％。

使用上述方法对剩余25％(1145个)的恶意软件样本以及2140个良性软件样本进行测试实验，软件恶意性判定及恶意家族分类的结果，与VirusTotal中常见的8个反病毒引擎的检测结果的对比如图2所示。

由上可知，本发明选取软件包特征、权限特征和软件敏感行为调用特征作为恶意软件判定的依据，可提高软件恶意行为检测的准确性，同时具有恶意软件家族分类的能力。

Claims

1.一种面向Android的移动网络终端恶意软件多特征检测方法，其特征在于，包括以下步骤：

步骤4、反编译安装包，构建软件函数调用图，定位其中的安全敏感方法，构建软件的敏感行为图SBG，然后采用数据流分析方法获得安全敏感方法的上下文信息，将被直接或间接调用的安全敏感方法构成软件的敏感行为集SBS；构建的软件函数调用图为下列四元组：

SBG＝(V^D,V^N,E,μ)

其中，V^D为软件敏感行为调用图中点集的子集，其中的任一节点v_d∈V^D为安全敏感方法的一种；V^N为软件敏感行为调用图中点集的子集，其中的任一节点v_n∈V^N为非安全敏感方法，但是直接或间接的调用了安全敏感方法；E∈V^N×V^D为软件敏感行为调用图边的集合，表示方法之间具有调用关系，其中任一条边e＝(v_n,v_d)∈E表示软件中的非安全敏感方法v_n∈V^N直接或间接的调用了安全敏感方法v_d∈V^D，或组件C_s中的方法v_n通过ICC直接或间接触发了组件C_t中的方法v_d；标记函数μ:V_d→<ID,EntryType,Para>用于标记图中结点包含的内容，即V^D及V^N中方法的上下文信息，包括方法ID、入口点类型EntryType和参数Para；

敏感行为集为如下所示的集合：

SBS＝{S₁,…,S_i,…,S_m}

其中，S_i＝{v|(v_i,v)∈E∧v_i∈V^N∧v∈V^D}为安全敏感方法集，表示敏感行为调用图SBG＝(V^D,V^N,E,μ)中，V^N集合的第i个非敏感安全方法直接或间接调用的所有安全敏感方法构成的集合；m＝|V^N|为集合SBS的长度；

步骤6、使用步骤2～4的方法提取待测软件的特征，将待测软件的特征与恶意软件家族特征库进行特征匹配，得到与之相似度最高的恶意软件家族名称，若相似度超过阈值则输出该待测软件为恶意软件，并输出其所属的恶意软件家族，否则输出该待测软件为良性软件。

2.根据权利要求1所述的面向Android的移动网络终端恶意软件多特征检测方法，其特征在于，步骤2中的异常文件指文件的后缀与文件内容本身指定的类型不匹配的文件；判断文件是否存在.so文件，并通过MD5值判断库文件是否为rootexploit文件；判断jar文件、dex文件和apk文件是否存在子程序。

3.根据权利要求1所述的面向Android的移动网络终端恶意软件多特征检测方法，其特征在于，步骤4中的安全敏感方法包括：权限保护的方法、信息流Source/Sink方法和其他可疑方法；权限保护方法指Android***中需要申请权限才能使用的API，信息流Source/Sink方法指可能产生或发送敏感信息的方法，其他可疑方法包括动态加载函数、反射函数、加解密函数、Native代码执行及调用函数。

4.根据权利要求1所述的面向Android的移动网络终端恶意软件多特征检测方法，其特征在于，步骤5中构建的Android恶意软件家族多特征模型为下列六元组：

M＝(SBS^c,α,F^c,β,P^c,γ)

其中，