CN112100621B

CN112100621B - 一种基于敏感权限和api的安卓恶意应用检测方法

Info

Publication number: CN112100621B
Application number: CN202010951202.XA
Authority: CN
Inventors: 郭方方; 赵天宇; 孙思佳; 王慧强; 吕宏武; 冯光升; 李冰洋; 任威霖
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2022-05-20
Anticipated expiration: 2040-09-11
Also published as: CN112100621A

Abstract

本发明属于移动端网络安全技术领域，具体涉及一种基于敏感权限和API的安卓恶意应用检测方法。本发明解决了现有的安卓恶意应用检测静态分析时只关注那些具有高风险的特征，而忽略了低风险的特征的情况的问题。本发明在获取权限和API特征之后，不仅考虑了高风险的敏感特征，而且还考虑了低风险的敏感特征，通过计算每个权限和API的敏感度，去除掉敏感度低的、冗余的权限和API特征，减少了权限和API的数量，提高了对恶意应用程序检测的速度和准确度。

Description

一种基于敏感权限和API的安卓恶意应用检测方法

技术领域

本发明属于移动端网络安全技术领域，具体涉及一种基于敏感权限和API的安卓恶意应用检测方法。

背景技术

近年来，在各类移动智能设备操作***中，安卓***以其开源的特性迅速成为了移动终端的主流操作***。随着各类安卓下载平台的不断扩大，众多恶意应用开发者将攻击的眼光瞄准了Android应用。恶意应用的很多操作，可能用户甚至感受不到直至造成了损失，比如窃取用户隐私数据，包括电话簿、邮箱、位置、密码以及文件等，还有进行资费相关的恶意行为，如短信电话的恶意扣费、登录银行账户等等。在各个不同平台中，Android市场的高危应用和恶意应用数量之多居各应用市场之首。2019年全年，360安全大脑累计为全国手机用户拦截恶意程序攻击约9.5亿次，平均每天拦截手机恶意程序攻击约259.2万次。共截获移动端新增恶意程序样本约180.9万个，平均每天截获新增手机恶意程序样本约0.5万个。特别是5G时代的到来使得移动设备的使用越来越方便、快捷，但随之而来的安全问题也日益突出，所以如何有效地解决Android平台的安全问题，是当今世界一个热点研究领域。

为了更好的解决现如今安卓存在的问题，大量学者将研究重点放在安卓恶意应用程序的检测方法上。当前针对安卓恶意应用的检测方法主要可分为静态分析、动态分析。静态分析不用真正运行Android应用程序，而是使用逆向工程、模式匹配、静态***调用等技术，解析程序源代码或者字节码，对程序进行数据流分析、控制流分析，用来发现程序中可能存在的恶意行为执行路径。Hou S等人基于对从smali文件中提取的静态API调用的分析，将属于smali代码中某些方法的API调用进一步分类为一个块。然后根据生成的代码块，应用深度学习框架，用于检测未知的Android恶意软件。(Hou S,Saas A,Ye Y,etal.DroidDelver:An Android Malware Detection System Using Deep Belief NetworkBased on API Call Blocks[M]//Web-Age Information Management.SpringerInternational Publishing,2016.)动态分析是将应用置于真实设备环境或者虚拟设备环境中运行，生成尽可能多的执行路径去覆盖代码片段，并对运行时的行为进行监控，采取权限变更、网络I/O，***调用等程序运行时数据，然后对这些数据进行进一步分析以检测Android应用程序是否可能存在安全问题。因此，动态分析可以发现一些动态加载、代码混淆等应用运行时才可能出现的恶意行为。Dash等人提出的DroidScribe则收集了包括***调用、解码的Binder通信、抽象出的行为模式等多维度，多层级的动态特征，利用SVM分类算法，对恶意软件进行检测并分类。(Dash S K,Suarez-Tangil G,Khan S,etal.Droidscribe:Classifying android malware based on runtime behavior[C]//2016IEEE Security and Privacy Workshops(SPW).IEEE,2016:252-261)

综上所述，由于动态检测技术在时间和资源消耗上有较大开销，而且提取到的特征信息并不稳定，而静态检测很好地解决了这一困难。在实际应用中，安卓应用市场每一天都会上架很多应用程序，动态检测需要的花销很难在短时间内检测完平台上的恶意程序，静态检测技术则很好地把效率和开销平衡起来，以较低的时间和资源为代价，获得一个较高的检测精度，适合安卓应用市场的需求。

发明内容

本发明的目的在于解决现有的安卓恶意应用检测静态分析时只关注那些具有高风险的特征，而忽略了低风险的特征的情况，提供一种基于敏感权限和API的安卓恶意应用检测方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：输入待检测的安卓应用程序样本，取部分样本构造训练集，其余样本组成测试集；对训练集中安卓应用程序样本进行标定，将训练集划分为恶意应用程序集M和良性应用程序集B；设定敏感度阈值η、随机森林分类器中的参数d和k；

步骤2：获取训练集中安卓应用程序样本的权限特征集合P＝{p₁,p₂,…,p_i,…}和API特征集合A＝{a₁,a₂,…,a_i,…}；

步骤3：计算权限特征集合P中每一个权限p_i的敏感度S(p_i)；

其中，I(p_i,m)表示权限p_i和恶意应用程序的相关性，m∈M；I(p_i,b)表示权限p_i和良性应用程序的相关性，b∈B；p(p_i)为权限p_i出现在安卓应用程序样本中的概率；p(m)为安卓应用程序样本是恶意应用程序的概率；p(b)为安卓应用程序样本是良性应用程序的概率；p(p_i,m)为权限p_i出现在安卓应用程序样本中且该样本是恶意应用程序时的概率；p(p_i,b)为权限p_i出现在安卓应用程序样本中且该样本是良性应用程序时的概率；

步骤4：计算API特征集合A中每一个API特征a_i的敏感度S(a_i)；

其中，I(a_i,m)表示API特征a_i和恶意应用程序的相关性；I(a_i,b)表示API特征a_i和良性应用程序的相关性；p(a_i)为API特征a_i出现在安卓应用程序样本中的概率；p(a_i,m)为API特征a_i出现在安卓应用程序样本中且该样本是恶意应用程序时的概率；p(a_i,b)为API特征a_i出现在安卓应用程序样本中且该样本是良性应用程序时的概率；

步骤5：对权限特征集合P和API特征集合A进行筛选；

若权限特征集合P中权限p_i的敏感度S(p_i)大于敏感度阈值η，则在权限特征集合P中保留权限p_i；否则，在权限特征集合P中删除该权限；

若API特征集合A中API特征a_i的敏感度S(a_i)大于敏感度阈值η，则在API特征集合A中保留API特征a_i；否则，在在API特征集合A中删除该API特征；

步骤6：使用筛选后的权限特征集合P和API特征集合A构造随机森林分类器；

步骤6.1：从训练集的N个安卓应用程序样本中有放回的抽取N次，得到包含N个安卓应用程序样本的数据集D；其中，N为训练集中安卓应用程序样本的数量；

步骤6.2：在对每个节点进行***时，从权限特征集合P和API特征集合A中随机选出d个静态特征，分别计算d个静态特征的信息增益，选择信息增益最大的静态特征作为当前节点的***属性；基于节点的***属性对节点进行***，将数据集D中拥有该***属性的安卓应用程序样本分到该节点的左节点中，将其余安卓应用程序样本分到该节点的右节点中；

步骤6.3：对决策树中每个节点按照步骤6.2进行***，直到该节点的所有样例都属于恶意应用程序或者都属于良性应用程序时，该节点停止***；

步骤6.4：重复执行步骤6.1至步骤6.3，生成k棵决策树；将k棵决策树组合形成随机森林分类器；

步骤7：获取测试集中安卓应用程序样本的权限特征集合P_d和API特征集合A_d，将测试集的权限特征集合P_d和API特征集合A_d输入到训练好的随机森林分类器中，得到检测结果。

本发明还可以包括：

所述的步骤2中获取训练集中安卓应用程序样本的权限特征集合P＝{p₁,p₂,…,p_i,…}和API特征集合A＝{a₁,a₂,…,a_i,…}的方法具体为：

步骤2.1：使用工具apktool对训练集中安卓应用程序样本进行反编译，反编译后生成的文件包括AndroidManifest.xml、res文件夹、apktool.yml和smali文件夹；

步骤2.2：从AndroidManifest.xml中获取权限信息，并删除掉重复的权限，将所有去重后的权限特征构成一个权限特征集合P＝{p₁,p₂,…,p_i,…}；

步骤2.3：遍历每个smali文件，提取出所有API数据，包括API名称、参数和API返回值，对每个样本中提取的API信息进行去重，将去重后的API调用信息构成一个API特征集合A＝{a₁,a₂,…,a_i,…}。

本发明的有益效果在于：

本发明解决了现有的安卓恶意应用检测静态分析时只关注那些具有高风险的特征，而忽略了低风险的特征的情况的问题。本发明在获取权限和API特征之后，不仅考虑了高风险的敏感特征，而且还考虑了低风险的敏感特征，通过计算每个权限和API的敏感度，去除掉敏感度低的、冗余的权限和API特征，减少了权限和API的数量，提高了对恶意应用程序检测的速度和准确度。

附图说明

图1是一种基于敏感权限和API的安卓恶意应用检测方法的流程图。

图2是本发明实施例中对应的随机森林中的第i棵决策树,其中i＝{1,2,3,,k}。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明属于移动端网络安全领域，涉及一种安卓恶意应用检测方法，具体涉及一种基于敏感权限和API的安卓恶意应用检测方法。

由于动态检测技术在时间和资源消耗上有较大开销，而且提取到的特征信息并不稳定，而静态检测很好地解决了这一困难。在实际应用中，安卓应用市场每一天都会上架很多应用程序，动态检测需要的花销很难在短时间内检测完平台上的恶意程序，静态检测技术则很好地把效率和开销平衡起来，以较低的时间和资源为代价，获得一个较高的检测精度，适合安卓应用市场的需求。所以，本发明最终选择使用静态检测技术。但以往的方法提取静态特征时只关注那些高风险的敏感特征，往往忽略了低风险的敏感特征。而低风险的敏感特征同样也具备区分应用程序良与恶的强大能力。所以本发明提出一种基于敏感权限和API的安卓恶意应用检测方法，提取到的敏感权限和API中不仅有高风险的敏感特征，而且还有低风险的敏感特征，然后使用这些特征训练得到一个随机森林分类器进行分类，可以在一个较短时间内得到一个较高的检测率。

为了解决现有的安卓恶意应用检测静态分析时只关注那些具有高风险的特征，而忽略了低风险的特征的情况，本发明提出一种基于敏感API提取的安卓恶意应用检测方法。首先使用工具apktool对样本进行反编译来获取到样本中的权限和API调用信息，然后根据敏感度删除掉敏感度低的特征，保留敏感度高的特征形成一个特征集，这个特征集中包含了高风险和低风险的特征，最后根据特征集训练得到一个随机森林分类器来对未知应用程序进行分类。本发明的具体内容如下：

步骤1：获取安卓应用程序样本，包括恶意应用程序和良性应用程序。恶意应用程序是指任何有损于用户利益的应用程序，良性应用程序是指不损害用户利益的应用程序。

步骤2：获取应用程序样本中的静态特征，静态特征中仅包括权限特征和API调用信息。将权限特征构成一个权限特征集合P＝{p₁,p₂,…,p_i,…}，将API调用信息构成一个API特征集合A＝{a₁,a₂,…,a_i,…}。

步骤3：获得权限集合P中权限p_i的敏感度S(p_i)和API调用集合A中API调用a_i的敏感度S(a_i)。

步骤4：将S(p_i)与敏感度阈值η进行比较。如果S(p_i)＞η，则在集合P中保留该权限，否则，在集合P中删除该权限。将S(a_i)与敏感度阈值η进行比较。如果S(a_i)＞η，则在集合A中保留该API，否则，在集合A中删除该API。

步骤5：使用步骤4获取到的权限特征集和API特征集，结合已知的使用信息增益判断***属性的方法来构建出k棵决策树，这k棵决策树组合成为一个随机森林分类器。

步骤6：根据步骤2提取待检测应用程序中的权限特征集合P_d和API调用特征集合A_d，基于P_d和A_d使用随机森林分类器对待检测的应用程序进行检测。

上述步骤2所述获取应用程序样本中的静态特征的具体过程为：

(2.1)使用工具apktool对样本进行反编译，反编译后生成的文件包括AndroidManifest.xml、res文件夹、apktool.yml和smali文件夹。

(2.2)从AndroidManifest.xml中获取权限信息，并删除掉重复的权限，将所有去重后的权限特征构成一个权限特征集合P＝{p₁,p₂,…,p_i,…}。

(2.3)遍历每个smali文件，提取出所有API数据，包括API名称、参数和API返回值，对每个样本中提取的API信息进行去重，将去重后的API调用信息构成一个API特征集合A＝{a₁,a₂,…,a_i,…}。

上述步骤3所述获得权限集合P中权限p_i的敏感度S(p_i)和API调用集合A中API调用a_i的敏感度S(a_i)的具体过程为：

通过互信息公式获取权限p_i和恶意应用程序m的相关性I(p_i,m)，权限p_i和良性应用程序b的相关性I(p_i,b)。

其中，p(p_i)是权限p_i出现在样本中的概率，p(m)是应用程序是恶意应用程序的概率，p(b)是应用程序是良性应用程序的概率，p(p_i,m)是p_i出现在样本中同时应用程序是恶意应用程序时的概率，p(p_i,b)是p_i出现在样本中同时应用程序是良性应用程序时的概率。

由I(p_i,m)和I(p_i,b)可以计算出p_i的敏感度S(p_i)。

其中，S(p_i)的范围为[0,1]。当S(p_i)＝0时表示权限p_i在恶意应用程序和良性应用程序中都经常被使用是一个不敏感的权限。当S(p_i)＝1时表示权限p_i是一个敏感度高的权限，该权限是一个只在良性应用程序中调用的低风险的权限，或者是一个只在恶意应用程序中调用的高风险的权限。

而API调用a_i的敏感度S(a_i)的计算过程与权限p_i的敏感度S(p_i)是一样的。

本发明具有的有益效果是：本发明在获取权限和API特征之后，不仅考虑了高风险的敏感特征，而且还考虑了低风险的敏感特征，通过计算每个权限和API的敏感度，去除掉敏感度低的、冗余的权限和API特征，减少了权限和API的数量，提高了对恶意应用程序检测的速度和准确度。

实施例1：

一种基于敏感权限和API的安卓恶意应用检测方法，包括以下步骤：

由I(p_i,m)和I(p_i,b)可以计算出p_i的敏感度S(p_i)。

上述步骤5所述利用已知的方法构建一个随机森林分类器的具体过程为：

(5.1)N为训练样例的个数，从N个训练样例中不放回的抽取N次，最终得到一个包含N个训练样例的数据集D。

(5.2)在对每个节点进行***时，从M个静态特征中随机选出m个静态特征(M为权限特征和API特征的总和且m远远小于M)，分别计算这m个静态特征的信息增益g，选择信息增益最大的作为当前节点的***属性，基于***属性对每个节点进行***，将数据集D中拥有该***属性的的应用程序分到该节点的左节点中，没有拥有该***属性的应用程序分到该节点的右节点中。

(5.3)当前这棵决策树的每个节点都按照步骤(5.2)进行***，直到该节点的所有样例都属于恶意应用程序或者都属于良性应用程序时，该节点停止***。

(5.4)按照步骤(5.1)(5.2)(5.3)的顺序重复生成k棵决策树后，将这k棵决策树组合形成一个随机森林分类器。

上述步骤6使用随机森林分类器对待检测的应用程序进行检测的具体过程为：

(6.1)对于随机森林中的第i棵决策树，其形状如图2所示，对待检测应用程序进行判断时，首先判断节点1中的权限p₁是否存在于P_d中，如果存在，则转向节点1的左侧节点2。由于节点2是叶子节点，并且节点2中的应用程序都为良性，所以判断待检测应用程序为良性应用程序。如果不存在，则转向节点1的右侧节点3，判断节点3中的APIa₁是否存在于A_d中，如果不存在，则转向节点3的右侧节点5，节点5是叶子节点，并且节点5中都为恶意应用程序，所以判断待检测应用程序为恶意应用程序。

(6.2)让随机森林中的k棵决策树都按照步骤(6.1)对待检测应用程序进行判断，最终根据k个判断结果中的多数来决定待检测应用程序的类别。例如，一共有100个决策树，其中70个决策树判断为恶意应用程序，30个决策树判断为良性应用程序，则最终判断待检测应用程序为一个恶意应用程序。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于敏感权限和API的安卓恶意应用检测方法，其特征在于，包括以下步骤：

步骤3：计算权限特征集合P中每一个权限p_i的敏感度S(p_i)；

步骤4：计算API特征集合A中每一个API特征a_i的敏感度S(a_i)；

步骤5：对权限特征集合P和API特征集合A进行筛选；

若API特征集合A中API特征a_i的敏感度S(a_i)大于敏感度阈值η，则在API特征集合A中保留API特征a_i；否则，在API特征集合A中删除该API特征；

2.根据权利要求1所述的一种基于敏感权限和API的安卓恶意应用检测方法，其特征在于：所述的步骤2中获取训练集中安卓应用程序样本的权限特征集合P＝{p₁,p₂,…,p_i,…}和API特征集合A＝{a₁,a₂,…,a_i,…}的方法具体为：