CN108985060A - 一种大规模安卓恶意软件自动化检测***及方法 - Google Patents

一种大规模安卓恶意软件自动化检测***及方法 Download PDF

Info

Publication number
CN108985060A
CN108985060A CN201810723307.2A CN201810723307A CN108985060A CN 108985060 A CN108985060 A CN 108985060A CN 201810723307 A CN201810723307 A CN 201810723307A CN 108985060 A CN108985060 A CN 108985060A
Authority
CN
China
Prior art keywords
feature
software
file
module
android
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810723307.2A
Other languages
English (en)
Inventor
钱榕
唐瑶
王志强
池亚平
汪永好
张健毅
陈颖
赵绪营
张艳硕
马平川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
General Office Of Cpc Central Committee Institute Of Electronic Science And Technology
Original Assignee
General Office Of Cpc Central Committee Institute Of Electronic Science And Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by General Office Of Cpc Central Committee Institute Of Electronic Science And Technology filed Critical General Office Of Cpc Central Committee Institute Of Electronic Science And Technology
Priority to CN201810723307.2A priority Critical patent/CN108985060A/zh
Publication of CN108985060A publication Critical patent/CN108985060A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明涉及一种基于多类特征和机器学习的大规模恶意安卓软件自动化检测***及方法,收集安全软件和恶意软件库,利用Androguard和Droidbox等软件分析工具,从动态和静态两个角度分别收集每一个软件的特征,对表格的收据进行处理,在多个角度规定阈值,当某个特征不符合阈值要求时,删除此特征,运用支持向量机、神经网络、集成学习等算法进行检测,得出检测结果中最优的结果,实现大规模恶意软件自动化检测。本发明可对于未知应用进行安全识别,用于对大规模的恶意手机软件进行检测识别,保护用户的隐私安全。

Description

一种大规模安卓恶意软件自动化检测***及方法
技术领域
本发明涉及移动终端安全技术领域,特别涉及一种大规模恶意软件自动化检测***及方法。
背景技术
随着智能手机的普及,恶意软件也在快速地增长。对于Android操作***的移动设备,其开源特性导致其成为了恶意软件开发者的主要目标。
随着各种***漏洞的不断披露,现存的Android智能手机就像一艘漏水的船,纵然手机安全软件能够缓解一些安全隐患,但***中的漏洞仍未能有效修补,而Android安全软件又无法被授予***的最高权限,因而Android***安全问题一直非常棘手。传统的检测软件是不是恶意的主要靠人工来分析代码,但随着恶意软件的逐渐增多,这种方法在不可行。于是开始将机器学习的思想与恶意软件识别相结合。
综上所述,基于机器学习的恶意软件检测是解决Android手机安全的重要方案之一,但是当前市场上的检测方案只是单纯的针对一个软件进行分析,然后根据分析结果进行判定是否为恶意软件。提出的解决方案大部分为基于权限特征来检测恶意软件的,然而随着反编译、代码篡改、反汇编等技术的出现,仅仅依靠权限特征并不能很好的识别恶意软件,另外少数人提出动静结合的方法虽然在以往的基础上增加了特征选取的方式,但依旧无法比较全面的选取特征。其次是机器学习的算法上面,普遍的都会只选取一种算法进行测试,无论是机器学习还是深度学习,都无法统筹兼顾的提升总体学习的准确率。本专利提出的解决方案不仅在动静结合的基础上能够比较完整的提取样本的属性,还首次使用集成学习的方案进行学习,实验结果也证明了集成学习的恶意软件识别的效果比较突出。
发明内容
本发明主要解决的技术问题是:克服现有技术的不足,提出一种大规模安卓恶意软件自动化检测***及方法,可以使得大规模恶意软件检测变得高效,且检测结果准确率高,其中所有检测方案的检测率均大于0.8419,大量模型集中在0.95附近,最高的集成学习模型准确率可达到0.9969。
本发明技术解决方案:一种大规模安卓恶意软件自动化检测***,包括:样本处理模块、特征提取模块、预处理模块、机器学习模块和恶意软件检测模块;
样本处理模块:收录正常样本和恶意样本两种,其中正常样本2千余个,由GooglePlay商店获取,恶意样本2千余个,由网上已经公布出的恶意样本收集而来;利用文件哈希去除样本中的重复文件,并以哈希命名文件;前期对样本利用apktool工具进行反编译操作,获取样本的dex文件;再利用dex2jar工具获取到apk文件的源码;得到的文件包括安卓可执行文件、安卓配置文件和安卓源码文件;
特征提取模块:搭载五种分析工具的平台,五种工具分别为apktool、dex2jar、androguard、drozer和droidbox;对于用户提交的每一个待检测文件,利用上述五特困户工具进行检测得出对应的检测报告;其中apktool用来反编译安卓可执行文件得到安卓配置文件,在配置文件中提取到权限、意图调用、服务特征,利用dex2jar工具得到项目源码后对项目的API调用,Activity数量、java调用特征进行提取;androguard检测报告提取安卓的四大组件,即Activity,Service,BroadCastReceiver,ContentProvider的使用情况、NDK反射信息和签名信息特征;Drozer对APK存在的攻击面进行检测,检测报告中提取到攻击面特征;Drozbox检测报告中提取一段时间(用户自定义,本发明规定为20s)内用户对手机文件的操作方式、操作次数特征,收集特征并按照文件名字分类形成特征矩阵;
预处理模块:对特征提取模块获取的特征矩阵进行处理,去除掉无影响特征,得到初步的最能体现软件恶意性的特征组;
机器学习模块:通过机器学习分类算法进行准确率检测,得出在训练样本分别占总样本95%、85%、75%、65%、55%、45%等6种不同比例下的准确率,选取准确率最高的模型为后期调整参数的模型;通过实验结果显示集成学习为最优模型,在集成学习模型中,通过对四种参数进行调节,优化前期得出的模型;所述四种参数包括,通过减少权重提高准确率eta、树的最大深度max_depth、随机采样的比例subsample、随机采样列数的占比colsample_bytree;在max_path属性上,实验从3取到10,每次增长为1。eta属性上,从0.01取到0.2每次增长为0.01。subsample属性上从0.75到1每次增长为0.05;colsample_bytree属性上从0.5到1,每次增长为0.1;因属性较多,图4中只列举出不同max_depth下的最高准确率,即每种max_depth下其他参数进行调整后的最优结果;因参数较多,图4中只列举出不同max_depth下的最高准确率,即每种max_depth下其它参数进行调整后的最优结果;图4中max_depth从3到9,每行列举出eta、colsample_bytree和subsample经过调整后得到的最大准确率,包含此准确率下eta、colsample_bytree和subsample的具体数值。
恶意软件检测模块:此模块用户通过web访问,提交自己待检测的软件集合或者可下载此软件的网络连接,由服务器执行下载操作。服务端加载机器学习模块得到的准确率最高的,并且经过参数调优后的模型,通过模型检测后返回给用户检测结果;
在本发明中,首先通过样本处理模块获取到可以提取特征的文件;然后通过特征提取模块获取所有实验样本的特征;经过预处理模块对实验数据的处理,得出适合在机器学习模块检测的特征表;在机器学习模块检测其准确率,选取准确率高的模型,进行参数调优,得出最佳模型;最后在恶意软件检测模块实现用户提交检测数据,服务端返回检测结果。
所述预处理模块的处理方式采用移除无关属性、处理缺失值、处理密集特征和相关系性检查;其中:
所述移除无关属性为从特征提取模块获取的特征矩阵里面会有对模型检测无关的特征,在检测过程中,首先移除此部分特征,包括软件名即哈希,此特征用来唯一标识一个样本的特征组,但在实际检测中没有影响;
所述处理缺失值,特征提取模块获取的特征矩阵中会有数据处于无值状态,考虑到提取过程中会对软件拥有的特征进行分类赋值,所以缺失值代表此软件无此项特征,实验中统一赋值为零,例如特征模块在提取如权限类特征时,由于有些软件没有用到此特征,故在进行存储时便没有对此特征进行处理,这里对其进行填零操作,使其组成一张完整的特征表;
所述处理密集特征,在特征表中,会有部分属性所有样本均拥有或者均不拥有,称之为密集特征,对于这种特征,本发明设定阈值为95%,假如此项特征95%以上样本的值相同,那么移除此项特征;
所述相关系性检查,考虑到某些特征之间存在相关性,这样的特征会对实验结构产生影响,所以本***利用皮尔森相关系数求出它们之间的相关性,当大于规定的阈值时,依旧移除此项特征,本实验规定阈值为0.75;
上述四种处理方式为本实验的数据处理阶段,通过上述四种方式处理,移除掉对实验结果无影响或影响较小的特征,得到初步的机器学习模块需要使用的特征矩阵。
所述机器学习模块中的机器学习分类算法选用K近邻算法、朴素贝叶斯、决策树、逻辑回归、神经网络、支持向量机和集成学习。
本发明一种大规模安卓恶意软件自动化检测方法,包括以下步骤:
第一步,收集安全软件和恶意软件库作为初始样本集;
第二步,从动态和静态两个角度收集初始样本集的特征,形成安卓软件特征表格;
第三步,对所述安卓软件特征表格进行数据预处理;
第四步,利用机器学习算法对第三步预处理后的特征表格进行检测,选取准缺率最高的模型并对其进行参数调节,选取准确率最高的模型作为本发明的检测模型;
第五步,对于待检测的软件,利用最终检测模型对所选软件检测后返回结果。
第一步中,所述初始样本集包括恶意软件数据集和从Google play上爬取的正常软件数据集。其中正常样本2千余个,由Google Play商店获取,恶意样本2千余个,由网上已经公布出的恶意样本收集而来;利用文件哈希来去去除样本中的重复文件,并以哈希命名文件。
第二步中,所述静态角度为:收集涵盖安卓Activity、Service、BroadCastReceiver、ContentProvider组件、权限、意图和NDK反射的数据;所述动态角度为收集软件在规定时间内对安卓手机文件的读写操作、读写次数以及攻击面检测的使用情况。
第三步中,所述预处理为去除掉每一列数据量相似度小于5%或者大于95%的特征,用皮尔森相关系数去除掉相关性大于0.75的特征。
第四步中,所述机器学习算法为选用K近邻算法、朴素贝叶斯、决策树、逻辑回归、神经网络、支持向量机和集成学习,每一种算法分别划分95%、85%、75%、65%、55%、45%的测试集和训练集分别进行测试。
本发明与现有技术相比的优点在于:
(1)在特征选取上,采用动静结合的方法从四种工具上获得了较比其他解决方案更多,更能体现软件恶意性的特征,在特征选取方面更为全面。
(2)使用多种算法进行对比,不同的训练集占总样本比例划分,能更加准确的说明各个算法在恶意软件识别方面的适应性。
(3)首次提出将集成学习的方法引进到恶意软件识别当中,能够更加准确的对恶意软件进行识别。
现有的解决方案存在特征提取少,算法选择单一的问题,特征提取的合适度是影响检测结果一个很重要因素。而在机器学习的算法选取上,并不是越好的算法在所有检测结果上都很好,本发明在体征选取和算法选择上很好的解决了这些问题。本发明在动静结合的方法上,结合四种分析工具,获取到更多能够影响软件恶意性的特征,而动静结合、多种工具搭配使用、特征分析使得能够更全面更准确的提取到体现软件恶意性的特征。在学习算法选择上面,本方案选取了七种当前比较流行的学习算法,每种算法再细分为六种不同的分配比,使得更直观的分析每种算法的每个分配比的检测结果,这样就能保证本方案选取的算法是最贴合本实验数据的。本发明检测结果如图3所示,从图3中可以看出集成学习的准确率明显高于其他模型。在图3中可以看出,所有模型不同分配比例下的准确率均高于84%。并且每种分配比例下集成学习的准确率都是最高的,集成学习最差为97.93%,最高为99.69%。
附图说明
图1为本发明检测***框图;
图2为本发明软件特征提取图;
图3为本发明实验检测结果;
图4为本发明参数调优结果图。
具体实施方式
本发明解决方案通过以下方案实现:使用者通过本地提交待检测的安卓可执行文件,服务端负责对提交上来的样本进行分析,然后在***已经学习好的模型上面检测,得出结果,并返回给用户分析结果,对提交的软件集合自动的分类其是否为恶意软件。
1.本发明的实现过程为:
(1)收集安全软件和恶意软件库,恶意软件从Google play上获取固定数量的样本数量,加上已知恶意软件数据集,一同组成该方案的初始样本集。
(2)利用Androguard、Droidbox等软件分析工具,从动态和静态两个角度分别收集每一个软件的特征,形成一个安卓软件特征表格。
(3)对表格的收据进行处理,规定一个阈值,当某个特征所有样本的值的个数都大于阈值时,删除此特征。利用皮尔森相关系数进行判定两列的的相关系数,相关系数小于该方案规定的值的时候,同样删除此特征,这样就初步的把相关度小的系数去掉,增加了后期数据的准确性。
(4)用机器学习的七种算法(K近邻算法、朴素贝叶斯、决策树、逻辑回归、神经网络、支持向量机和集成学习)对获取到的数据进行处理,并调节训练集和测试集比例得出准确率最高的模型。
(5)存储识别率较高的模型,用于后期的检测。
(6)搭建检测平台,用户提交单个或大量符合要求的文件后,加载***提前选择好的模型,然后经过模型检测生成检测报告。
2.在步骤(1)中恶意软件从Google play上获取固定数量的样本数量,加上已知恶意软件数据集,一同组成该方案的初始样本集。
在步骤(2)中从静态分析中获取涵盖安卓四大组件、权限、意图和NDK反射的相关数据,从动态分析中收集软件在一定时间内对安卓收集文件***的使用情况,包括操作方式和操作次数。
在步骤(3)中对获取的样本特征集数据进行处理,首先去除掉每一列数据量小于5%或者大于95%的特征组,保留其数据量在5%至%95之间的数据,减小这种所有样本类似的的属性对检测结果的干扰。最后借用皮尔森相关系数,去除掉相关系数不符合标准的属性,得出最终结果集。
在步骤(4)中选用当前比较流行的七种算法,K近邻算法、朴素贝叶斯、决策树、逻辑回归、神经网络、支持向量机和集成学习。然后每一种算法分别划分六种不同比例(六种训练集比例分别为95%、85%、75%、65%、55%、45%)的测试集和训练集,分别测试,单个分析用于后期检测。
在步骤(5)中挑选其中准确率最高的模型,进行参数调优后存储其模型,方便下次直接加载使用。
在步骤(6)中建立检测平台,对于用户提交上来的待测数据集,先在平台上进行分析,提取特征后自动进行分类,将待测数据集分为恶意和正常两类。
下面进行详细说明。
如图1所示,使用者通过本地提交待检测的安卓安装文件,通过服务端分析后返回给用户分析结果,是否为恶意软件。服务端负责对提交上来的样本进行分析,然后在预先选择的模型上面检测,得出返回结果。
1.该方案的实现过程为:
(1)收集安全软件和恶意软件库,恶意软件从Google play上获取固定数量的样本数量,加上已知恶意软件数据集,一同组成该方案的初始样本集。
(2)***实现了搭载四种分析工具的平台,四种工具分别为apktool、androguard、drozer和droidbox。其中apktool用来反编译安卓安装文件获得权限、意图调用等信息。androguard用来对安卓的四大组件(Activity,Service,BroadCastReceiver,ContentProvider)的使用情况、NDK反射信息和签名信息等信息。Drozer可以对APK存在的攻击面等信息进行收集。Drozbox可以获取一段时间(用户自定义,本实验规定为20s)内用户对手机文件的操作方式、操作次数等信息。利用软件分析工具,从动态和静态两个角度分别收集每一个软件的特征,形成一个安卓软件特征表格,提取框架如图2.
(3)对表格的收据进行处理,规定一个阈值,当某个特征所有样本的值的个数都大于阈值时,删除此特征。利用皮尔森相关系数进行判定两列的的相关系数,相关系数小于该方案规定的值的时候,同样删除此特征,这样就初步的把相关度小的系数去掉,增加了后期数据的准确性。
(4)用机器学习的支持向量机、神经网络等算法对获取到的数据进行处理,并调节多个参数的出准确率最高的模型。
(5)存储识别率最高模型,进行参数调优后,储存其模型,用于后期的检测。
(6)用户提交符合要求的文件后,加载提前选择好的模型,然后经过模型检测生成检测报告并返回给用户。
2.在步骤(1)中恶意软件从Google play上爬取选取数量的样本数量,加上已知恶意软件数据集,一同组成该方案的初始样本集。
在步骤(2)中从静态分析中获取涵盖安卓四大组件(Activity,Service,BroadCastReceiver,ContentProvider)、权限、意图和NDK反射等特征,从动态分析中收集软件在一定时间内对安卓手机文件***的使用情况,包括操作方式和操作次数等特征。
在步骤(3)中对获取的样本特征集数据进行处理,首先去除掉每一列数据量小于5%或者大于95%的特征组,减小这种所有样本类似的的特征对检测结果的干扰。最后借用皮尔森相关系数,去除掉相关性大于0.75的特征,得出最终结果集。
在步骤(4)中选用当前比较流行的七种算法,K近邻算法、朴素贝叶斯、决策树、逻辑回归、神经网络、支持向量机和集成学习。然后每一种算法分别划分六种训练集比例分别为95%、85%、75%、65%、55%、45%的测试集和训练集,分别测试,单个分析用于后期检测。
在步骤(5)中挑选其中准确率最高的模型,进行参数调优后存储下模型,方便下次直接加载使用。
在步骤(6)中建立检测平台,用户通过web访问,提交自己待检测的软件集合或者可提交此软件的网络下载链接,由服务器执行下载操作。服务端加载以前储存的模型,通过模型将检测返回给用户检测集合的检测结果。

Claims (8)

1.一种大规模安卓恶意软件自动化检测***,其特征在于,包括:样本处理模块、特征提取模块、预处理模块、机器学习模块和恶意软件检测模块;
样本处理模块:收集正常样本和恶意样本两种,利用文件哈希去除样本中的重复文件,并以哈希命名文件;前期对样本利用apktool工具进行反编译操作,获取样本的dex文件;再利用dex2jar工具获取到apk文件的源码;得到的文件包括安卓可执行文件、安卓配置文件和安卓源码文件;
特征提取模块:搭载五种分析工具的平台,五种工具分别为apktool、dex2jar、androguard、drozer和droidbox;对于用户提交的每一个待检测文件,利用上述五特困户工具进行检测得出对应的检测报告;其中apktool用来反编译安卓可执行文件得到安卓配置文件,在配置文件中提取到权限、意图调用、服务特征,利用dex2jar工具得到项目源码后对项目的API调用,Activity数量、java调用特征进行提取;androguard检测报告提取安卓的四大组件,即Activity,Service,BroadCastReceiver,ContentProvider的使用情况、NDK反射信息和签名信息特征;Drozer对APK存在的攻击面进行检测,检测报告中提取到攻击面特征;Drozbox检测报告中提取一段时间内用户对手机文件的操作方式、操作次数特征,收集特征并按照文件名字分类形成特征矩阵;
预处理模块:对特征提取模块获取的特征矩阵进行处理,去除掉无影响特征,得到初步的最能体现软件恶意性的特征组;
机器学习模块:通过7种机器学习算法,即K近邻算法、贝叶斯、决策树、逻辑回归、神经网络、支持向量机和集成学习,进行准确率检测,得出训练样本不同比例下的准确率,选取准确率最高的模型为后期调整参数的模型;通过实验结果显示集成学习为最优模型,在集成学习算法得到的集成学习模型中,通过对四种参数进行调节,优化前期得出的模型;所述四种参数包括,通过减少权重提高准确率eta、树的最大深度max_depth、随机采样的比例subsample、随机采样列数的占比colsample_bytree;
恶意软件检测模块:用户通过web访问,提交自己待检测的软件集合或者可下载此软件的网络连接,由服务器执行下载操作;服务端加载以前储存de模型机器学习模块得到的准确率最高的,并且经过参数调优后的模型,通过模型通过此模型检验后返回给用户检测集合的检测结果;
首先通过样本处理模块获取到可以提取特征的文件;然后通过特征提取模块获取所有实验样本的特征;经过预处理模块对实验数据的处理,得出适合在机器学习模块检测的特征表;在机器学习模块检测其准确率,选取准确率高的模型,进行参数调优,得出最佳模型;最后实现用户提交检测数据,恶意软件检测模块返回检测结果。
2.根据权利要求1所述的一种大规模安卓恶意软件自动化检测***,其特征在于:所述预处理模块的处理方式采用移除无关属性、处理缺失值、处理密集特征和相关系性检查;其中:
所述移除无关属性为从特征提取模块获取的特征矩阵里面会有对模型检测无关的特征,在检测过程中,首先移除此部分特征,包括软件名即哈希,此特征用来唯一标识一个样本的特征组,但不影响检测结果;
所述处理缺失值,特征提取模块获取的特征矩阵中会有数据处于无值状态,考虑到提取过程中会对软件拥有的特征进行分类赋值,所以缺失值代表此软件无此项特征,实验中统一赋值为零;例如特征模块在提取如权限类特征时,有些软件没有用到此特征,故在进行存储时便没有对此特征进行处理,这里对其进行填零操作,使其组成一张完整的特征表;
所述处理密集特征,在特征表中,会有部分属性所有样本均拥有或者均不拥有,称之为密集特征;对于密集特征,设定阈值为95%,假如此项特征95%以上样本的值相同,那么移除此项特征;
所述相关系性检查,考虑到某些特征之间存在相关性,利用皮尔森相关系数求出它们之间的相关性,当大于规定的阈值时,依旧移除此项特征;
上述四种处理方式为数据处理阶段,通过上述四种方式处理,移除掉对实验结果无影响或影响较小的特征,得到机器学习模块所需要使用的特征矩阵。
3.根据权利要求1所述的一种大规模安卓恶意软件自动化检测***,其特征在于:所述机器学习模块中的机器学习分类算法选用K近邻算法、朴素贝叶斯、决策树、逻辑回归、神经网络、支持向量机和集成学习。
4.一种大规模安卓恶意软件自动化检测方法,其特征在于,包括以下步骤:
第一步,收集安全软件和恶意软件库作为初始样本集;
第二步,从动态和静态两个角度收集初始样本集的特征,形成安卓软件特征表格;
第三步,对所述安卓软件特征表格进行数据预处理;
第四步,利用机器学习算法对第三步预处理后的特征表格进行检测,选取准缺率最高的模型并对其进行参数调节,选取准确率最高的模型作为检测模型;
第五步,对于待检测的软件,利用最终检测模型对所选软件检测后返回结果。
5.根据权利要求4所述的大规模安卓恶意软件自动化检测方法,其特征在于:第一步中,所述初始样本集包括恶意软件数据集和从Google play上爬取的正常软件数据集,其中正常样本2千余个,由Google Play商店获取,恶意样本2千余个,由网上已经公布出的恶意样本收集而来;利用文件哈希来去除样本中的重复文件,并以哈希命名文件。
6.根据权利要求4所述的大规模安卓恶意软件自动化检测方法,其特征在于:第二步中,所述静态角度为:收集涵盖安卓Activity、Service、BroadCastReceiver、ContentProvider组件、权限、意图和NDK反射的数据;所述动态角度为收集软件在规定时间内对安卓手机文件的读写操作、读写次数以及攻击面检测的使用情况。
7.根据权利要求4所述的大规模安卓恶意软件自动化检测方法,其特征在于:第三步中,所述预处理为去除掉每一列数据量相似度小于5%或者大于95%的特征,用皮尔森相关系数去除掉相关性大于0.75的特征。
8.根据权利要求5所述的大规模安卓恶意软件自动化检测方法,其特征在于:第四步中,所述机器学习算法为选用K近邻算法、朴素贝叶斯、决策树、逻辑回归、神经网络、支持向量机和集成学习,每一种算法分别划分95%、85%、75%、65%、55%、45%的测试集和训练集分别进行测试。
CN201810723307.2A 2018-07-04 2018-07-04 一种大规模安卓恶意软件自动化检测***及方法 Pending CN108985060A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810723307.2A CN108985060A (zh) 2018-07-04 2018-07-04 一种大规模安卓恶意软件自动化检测***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810723307.2A CN108985060A (zh) 2018-07-04 2018-07-04 一种大规模安卓恶意软件自动化检测***及方法

Publications (1)

Publication Number Publication Date
CN108985060A true CN108985060A (zh) 2018-12-11

Family

ID=64536105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810723307.2A Pending CN108985060A (zh) 2018-07-04 2018-07-04 一种大规模安卓恶意软件自动化检测***及方法

Country Status (1)

Country Link
CN (1) CN108985060A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008700A (zh) * 2019-03-20 2019-07-12 北京大学 一种基于朴素贝叶斯的安卓恶意应用的检测方法及装置
CN110096878A (zh) * 2019-04-26 2019-08-06 武汉智美互联科技有限公司 一种恶意软件的检测方法
CN110263539A (zh) * 2019-05-15 2019-09-20 湖南警察学院 一种基于并行集成学习的安卓恶意应用检测方法及***
CN110704841A (zh) * 2019-09-24 2020-01-17 北京电子科技学院 一种基于卷积神经网络的大规模安卓恶意应用检测***及方法
CN110851834A (zh) * 2019-11-18 2020-02-28 北京工业大学 融合多特征分类的安卓恶意应用检测方法
CN111353160A (zh) * 2020-02-25 2020-06-30 融合安全(深圳)信息科技有限公司 软件漏洞异常智能检测***及方法
CN111417121A (zh) * 2020-02-17 2020-07-14 西安电子科技大学 具有隐私保护的多恶意软件混合检测方法、***、装置
CN111814147A (zh) * 2020-06-03 2020-10-23 武汉科技大学 基于模型库的安卓恶意软件检测方法
CN112241530A (zh) * 2019-07-19 2021-01-19 中国人民解放军战略支援部队信息工程大学 恶意pdf文档的检测方法及电子设备
CN112417447A (zh) * 2020-11-11 2021-02-26 北京京航计算通讯研究所 一种恶意代码分类结果的精确度验证方法及装置
CN112632538A (zh) * 2020-12-25 2021-04-09 北京工业大学 一种基于混合特征的安卓恶意软件检测方法及***
CN112668006A (zh) * 2021-01-04 2021-04-16 长春理工大学 基于多特征快速高效的安卓恶意软件检测方法
CN112883995A (zh) * 2020-12-30 2021-06-01 华北电力大学 基于集成学习的闭源电力工控***恶意行为识别方法及装置
CN113935031A (zh) * 2020-12-03 2022-01-14 网神信息技术(北京)股份有限公司 文件特征提取范围配置及静态恶意软件识别的方法、***
CN116821902A (zh) * 2023-05-04 2023-09-29 湖北省电子信息产品质量监督检验院 一种基于机器学习的恶意应用检测方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930210A (zh) * 2012-10-14 2013-02-13 江苏金陵科技集团公司 恶意程序行为自动化分析、检测与分类***及方法
CN104794398A (zh) * 2015-04-17 2015-07-22 天津大学 基于机器学***台恶意软件检测方法
CN105205396A (zh) * 2015-10-15 2015-12-30 上海交通大学 一种基于深度学习的安卓恶意代码检测***及其方法
CN106845220A (zh) * 2015-12-07 2017-06-13 深圳先进技术研究院 一种Android恶意软件检测***及方法
CN107180192A (zh) * 2017-05-09 2017-09-19 北京理工大学 基于多特征融合的安卓恶意应用程序检测方法和***
US20180083903A1 (en) * 2016-09-21 2018-03-22 King Fahd University Of Petroleum And Minerals Spam filtering in multimodal mobile communication

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930210A (zh) * 2012-10-14 2013-02-13 江苏金陵科技集团公司 恶意程序行为自动化分析、检测与分类***及方法
CN104794398A (zh) * 2015-04-17 2015-07-22 天津大学 基于机器学***台恶意软件检测方法
CN105205396A (zh) * 2015-10-15 2015-12-30 上海交通大学 一种基于深度学习的安卓恶意代码检测***及其方法
CN106845220A (zh) * 2015-12-07 2017-06-13 深圳先进技术研究院 一种Android恶意软件检测***及方法
US20180083903A1 (en) * 2016-09-21 2018-03-22 King Fahd University Of Petroleum And Minerals Spam filtering in multimodal mobile communication
CN107180192A (zh) * 2017-05-09 2017-09-19 北京理工大学 基于多特征融合的安卓恶意应用程序检测方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨欢 等: ""基于多类特征的Android应用恶意行为检测***"", 《计算机学报》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008700A (zh) * 2019-03-20 2019-07-12 北京大学 一种基于朴素贝叶斯的安卓恶意应用的检测方法及装置
CN110008700B (zh) * 2019-03-20 2020-12-22 北京大学 一种基于朴素贝叶斯的安卓恶意应用的检测方法及装置
CN110096878A (zh) * 2019-04-26 2019-08-06 武汉智美互联科技有限公司 一种恶意软件的检测方法
CN110263539A (zh) * 2019-05-15 2019-09-20 湖南警察学院 一种基于并行集成学习的安卓恶意应用检测方法及***
CN112241530A (zh) * 2019-07-19 2021-01-19 中国人民解放军战略支援部队信息工程大学 恶意pdf文档的检测方法及电子设备
CN110704841A (zh) * 2019-09-24 2020-01-17 北京电子科技学院 一种基于卷积神经网络的大规模安卓恶意应用检测***及方法
CN110851834A (zh) * 2019-11-18 2020-02-28 北京工业大学 融合多特征分类的安卓恶意应用检测方法
CN110851834B (zh) * 2019-11-18 2024-02-27 北京工业大学 融合多特征分类的安卓恶意应用检测方法
CN111417121B (zh) * 2020-02-17 2022-04-12 西安电子科技大学 具有隐私保护的多恶意软件混合检测方法、***、装置
CN111417121A (zh) * 2020-02-17 2020-07-14 西安电子科技大学 具有隐私保护的多恶意软件混合检测方法、***、装置
CN111353160A (zh) * 2020-02-25 2020-06-30 融合安全(深圳)信息科技有限公司 软件漏洞异常智能检测***及方法
CN111353160B (zh) * 2020-02-25 2022-08-16 融合安全(深圳)信息科技有限公司 软件漏洞异常智能检测***及方法
CN111814147A (zh) * 2020-06-03 2020-10-23 武汉科技大学 基于模型库的安卓恶意软件检测方法
CN112417447A (zh) * 2020-11-11 2021-02-26 北京京航计算通讯研究所 一种恶意代码分类结果的精确度验证方法及装置
CN113935031A (zh) * 2020-12-03 2022-01-14 网神信息技术(北京)股份有限公司 文件特征提取范围配置及静态恶意软件识别的方法、***
CN112632538A (zh) * 2020-12-25 2021-04-09 北京工业大学 一种基于混合特征的安卓恶意软件检测方法及***
CN112883995A (zh) * 2020-12-30 2021-06-01 华北电力大学 基于集成学习的闭源电力工控***恶意行为识别方法及装置
CN112668006A (zh) * 2021-01-04 2021-04-16 长春理工大学 基于多特征快速高效的安卓恶意软件检测方法
CN116821902A (zh) * 2023-05-04 2023-09-29 湖北省电子信息产品质量监督检验院 一种基于机器学习的恶意应用检测方法、装置及设备
CN116821902B (zh) * 2023-05-04 2024-02-06 湖北省电子信息产品质量监督检验院 一种基于机器学习的恶意应用检测方法、装置及设备

Similar Documents

Publication Publication Date Title
CN108985060A (zh) 一种大规模安卓恶意软件自动化检测***及方法
US11113394B2 (en) Data type recognition, model training and risk recognition methods, apparatuses and devices
Zheng et al. A comparative study of class rebalancing methods for security bug report classification
CN109697162B (zh) 一种基于开源代码库的软件缺陷自动检测方法
Pirscoveanu et al. Analysis of malware behavior: Type classification using machine learning
CN109241740B (zh) 恶意软件基准测试集生成方法及装置
CN111931179B (zh) 基于深度学习的云端恶意程序检测***及方法
CN108920954A (zh) 一种恶意代码自动化检测平台及方法
CN110704846B (zh) 一种人在回路的智能化安全漏洞发现方法
CN109886021A (zh) 一种基于api全局词向量和分层循环神经网络的恶意代码检测方法
CN108229170B (zh) 利用大数据和神经网络的软件分析方法和装置
CN109150873A (zh) 基于pso_svm优化算法的恶意域名检测***及方法
CN108460277A (zh) 一种自动化恶意代码变种检测方法
CN108733791A (zh) 网络事件检测方法
CN107368526A (zh) 一种数据处理方法及装置
CN114329455B (zh) 基于异构图嵌入的用户异常行为检测方法及装置
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN115063664A (zh) 用于工业视觉检测的模型学习方法、训练方法及***
CN117692242A (zh) 一种基于图谱分析的网络攻击路径分析方法
CN116361191A (zh) 一种基于人工智能的软件兼容性处理方法
CN111177388A (zh) 一种处理方法及计算机设备
Joshi et al. Fraud App Detection of Google Play Store Apps Using Decision Tree
CN110808947A (zh) 一种自动化的脆弱性量化评估方法及***
CN115455407A (zh) 一种基于机器学习的GitHub敏感信息泄露监控方法
CN113868650A (zh) 基于代码异质中间图表示的漏洞检测方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211