CN105488084A - 基于树同构的软件安装包分类方法及*** - Google Patents

基于树同构的软件安装包分类方法及*** Download PDF

Info

Publication number
CN105488084A
CN105488084A CN201410813440.9A CN201410813440A CN105488084A CN 105488084 A CN105488084 A CN 105488084A CN 201410813440 A CN201410813440 A CN 201410813440A CN 105488084 A CN105488084 A CN 105488084A
Authority
CN
China
Prior art keywords
installation kit
tree
tree structure
software installation
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410813440.9A
Other languages
English (en)
Inventor
刘爽
童志明
张栗伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Antiy Technology Co Ltd
Original Assignee
Harbin Antiy Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Antiy Technology Co Ltd filed Critical Harbin Antiy Technology Co Ltd
Priority to CN201410813440.9A priority Critical patent/CN105488084A/zh
Publication of CN105488084A publication Critical patent/CN105488084A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Stored Programmes (AREA)

Abstract

本发明提出了一种基于树同构的软件安装包分类方法及***,主要通过获取PE格式安装包的资源节信息,并将其形成树形结构,将所述的树形结构与树形结构库中的树结构进行依次对比,如果相似度超过预设值,则所述安装包与树形结构库中的树结构对应的软件属于同一分类。通过本发明的方法,能够实现对没有特征信息的安装包进行分类,使得分类更加合理。

Description

基于树同构的软件安装包分类方法及***
技术领域
本发明涉及网络安全领域,特别涉及一种基于树同构的软件安装包分类方法及***。
背景技术
目前IA32架构下的Windows平台软件安装包的分类方法,大多是基于安装包制作工具在其生成的安装包中保留下来的特征信息来进行分类的。对于没有保留特征信息的安装包制作工具,普通的分类器很难对其进行分类;而对于同一个安装包制作工具导出的不同语言的软件安装包,普通的分类器会将其分到多个类别中,使得分类结果并不准确合理。
发明内容
针对上述的分类缺陷,本发明提出一种基于树同构的软件安装包分类方法,能够解决安装包中无特征信息或不同语言导致分类差别的问题。
一种基于树同构的软件安装包分类方法,包括:
获取软件安装包;
分析所述软件安装包是否为合法的PE格式,如果是,则继续检测,否则丢弃所述安装包;
获取PE格式中的资源节段数据;
将所述资源节段数据,形成树形结构;
将所述树形结构与树形结构库中的树结构进行对比,若相似度超过预设值,则所述软件安装包为树形结构库中的树形结构对应的软件类别,否则所述软件安装包为新类别。
所述的方法中,所述资源节段数据包括:程序外观信息、字符串信息及光标信息。
一种基于树同构的软件安装包分类***,包括:
获取模块,用于获取软件安装包;
分析模块,用于分析所述软件安装包是否为合法的PE格式,如果是,则继续检测,否则丢弃所述安装包;获取PE格式中的资源节段数据;将所述资源节段数据,形成树形结构;
匹配模块,用于将所述树形结构与树形结构库中的树结构进行对比,若相似度超过预设值,则所述软件安装包为树形结构库中的树形结构对应的软件类别,否则所述软件安装包为新类别。
所述的***中,所述资源节段数据包括:程序外观信息、字符串信息及光标信息。
本发明的优势在于,IA32架构下的Windows平台的安装包程序文件属于PE格式,其中程序的外观信息、字符串信息、光标信息等信息都以资源的形式保存在PE文件中,形成一棵资源树。本发明按照资源树的结构对安装包程序进行分类,结构相同或类似的资源树所属的安装包程序划分为同一类别,可以实现对软件安装包更加合理分类的效果。
本发明提出了一种基于树同构的软件安装包分类方法及***,主要通过获取PE格式安装包的资源节信息,并将其形成树形结构,将所述的树形结构与树形结构库中的树结构进行依次对比,如果相似度超过预设值,则所述安装包与树形结构库中的树结构对应的软件属于同一分类。通过本发明的方法,能够实现对没有特征信息的安装包进行分类,使得分类更加合理。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于树同构的软件安装包分类方法实施例流程图;
图2为本发明一种基于树同构的软件安装包分类***实施例结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明。
针对上述的分类缺陷,本发明提出一种基于树同构的软件安装包分类方法,能够解决安装包中无特征信息或不同语言导致分类差别的问题。
一种基于树同构的软件安装包分类方法,如图1所示,包括:
S101:获取软件安装包;
S102:分析所述软件安装包是否为合法的PE格式,如果是,则继续检测执行S103,否则丢弃所述安装包;
S103:获取PE格式中的资源节段数据;
S104:将所述资源节段数据,形成树形结构;
S105:将所述树形结构与树形结构库中的树结构进行对比,判断相似度超过预设值,如果是,则所述软件安装包为树形结构库中的树形结构对应的软件类别,否则所述软件安装包为新类别。
所述的方法中,所述资源节段数据包括:程序外观信息、字符串信息及光标信息。
将所述树形结构与树形结构库中的树结构进行对比,判断相似度超过预设值的具体方法可为:采用树结构的最小表示法,为树的每层节点赋予一个测度,然后将每层的节点按照测度从小到大排序,两棵树的每层节点都完成基于测度的排序后得到序列化的结果,然后求得两棵树的测度序列化结果的最长公共子序列。最长公共子序列与两个树形结构相似度的百分比较高的,即为两个树形结构的相似度。当然还可以使用其他树形结构的比较方法,但本实施例所采用的方法比较较为准确。
一种基于树同构的软件安装包分类***,如图2所示,包括:
获取模块201,用于获取软件安装包;
分析模块202,用于分析所述软件安装包是否为合法的PE格式,如果是,则继续检测,否则丢弃所述安装包;获取PE格式中的资源节段数据;将所述资源节段数据,形成树形结构;
匹配模块203,用于将所述树形结构与树形结构库中的树结构进行对比,若相似度超过预设值,则所述软件安装包为树形结构库中的树形结构对应的软件类别,否则所述软件安装包为新类别。
所述的***中,所述资源节段数据包括:程序外观信息、字符串信息及光标信息。
本发明的优势在于,IA32架构下的Windows平台的安装包程序文件属于PE格式,其中程序的外观信息、字符串信息、光标信息等信息都以资源的形式保存在PE文件中,形成一棵资源树。本发明按照资源树的结构对安装包程序进行分类,结构相同或类似的资源树所属的安装包程序划分为同一类别,可以实现对软件安装包更加合理分类的效果。
本发明提出了一种基于树同构的软件安装包分类方法及***,主要通过获取PE格式安装包的资源节信息,并将其形成树形结构,将所述的树形结构与树形结构库中的树结构进行依次对比,如果相似度超过预设值,则所述安装包与树形结构库中的树结构对应的软件属于同一分类。通过本发明的方法,能够实现对没有特征信息的安装包进行分类,使得分类更加合理。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims (4)

1.一种基于树同构的软件安装包分类方法,其特征在于,包括:
获取软件安装包;
分析所述软件安装包是否为合法的PE格式,如果是,则继续检测,否则丢弃所述安装包;
获取PE格式中的资源节段数据;
将所述资源节段数据,形成树形结构;
将所述树形结构与树形结构库中的树结构进行对比,若相似度超过预设值,则所述软件安装包为树形结构库中的树形结构对应的软件类别,否则所述软件安装包为新类别。
2.如权利要求1所述的方法,其特征在于,所述资源节段数据包括:程序外观信息、字符串信息及光标信息。
3.一种基于树同构的软件安装包分类***,其特征在于,包括:
获取模块,用于获取软件安装包;
分析模块,用于分析所述软件安装包是否为合法的PE格式,如果是,则继续检测,否则丢弃所述安装包;获取PE格式中的资源节段数据;将所述资源节段数据,形成树形结构;
匹配模块,用于将所述树形结构与树形结构库中的树结构进行对比,若相似度超过预设值,则所述软件安装包为树形结构库中的树形结构对应的软件类别,否则所述软件安装包为新类别。
4.如权利要求3所述的***,其特征在于,所述资源节段数据包括:程序外观信息、字符串信息及光标信息。
CN201410813440.9A 2014-12-24 2014-12-24 基于树同构的软件安装包分类方法及*** Pending CN105488084A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410813440.9A CN105488084A (zh) 2014-12-24 2014-12-24 基于树同构的软件安装包分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410813440.9A CN105488084A (zh) 2014-12-24 2014-12-24 基于树同构的软件安装包分类方法及***

Publications (1)

Publication Number Publication Date
CN105488084A true CN105488084A (zh) 2016-04-13

Family

ID=55675062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410813440.9A Pending CN105488084A (zh) 2014-12-24 2014-12-24 基于树同构的软件安装包分类方法及***

Country Status (1)

Country Link
CN (1) CN105488084A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255522A (zh) * 2016-12-27 2018-07-06 北京金山云网络技术有限公司 一种应用程序分类方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020105541A1 (en) * 1999-10-27 2002-08-08 Fujitsu Limited Multimedia information arranging apparatus and arranging method
CN102722556A (zh) * 2012-05-29 2012-10-10 清华大学 一种基于相似性度量的模型比对方法
CN103067364A (zh) * 2012-12-21 2013-04-24 华为技术有限公司 病毒检测方法及设备
CN103761483A (zh) * 2014-01-27 2014-04-30 百度在线网络技术(北京)有限公司 恶意代码的检测方法及装置
CN104008333A (zh) * 2013-02-21 2014-08-27 腾讯科技(深圳)有限公司 一种安装包的检测方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020105541A1 (en) * 1999-10-27 2002-08-08 Fujitsu Limited Multimedia information arranging apparatus and arranging method
CN102722556A (zh) * 2012-05-29 2012-10-10 清华大学 一种基于相似性度量的模型比对方法
CN103067364A (zh) * 2012-12-21 2013-04-24 华为技术有限公司 病毒检测方法及设备
CN104008333A (zh) * 2013-02-21 2014-08-27 腾讯科技(深圳)有限公司 一种安装包的检测方法和设备
CN103761483A (zh) * 2014-01-27 2014-04-30 百度在线网络技术(北京)有限公司 恶意代码的检测方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255522A (zh) * 2016-12-27 2018-07-06 北京金山云网络技术有限公司 一种应用程序分类方法及装置

Similar Documents

Publication Publication Date Title
US9996617B2 (en) Methods and systems for searching logical patterns
Pont-Tuset et al. Measures and meta-measures for the supervised evaluation of image segmentation
US10552390B2 (en) Root cause analysis of performance problems
CN106104496A (zh) 用于任意时序的不受监督的异常检测
TWI464604B (zh) 資料分群方法與裝置、資料處理裝置及影像處理裝置
US20170053031A1 (en) Information forecast and acquisition method based on webpage link parameter analysis
CN106778851B (zh) 基于手机取证数据的社交关系预测***及其方法
CN105205397A (zh) 恶意程序样本分类方法及装置
CN107145778B (zh) 一种入侵检测方法及装置
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
IN2015DE02745A (zh)
JP6196196B2 (ja) ログ間因果推定装置、システム異常検知装置、ログ分析システム、及びログ分析方法
CN103744962A (zh) 一种实现K-means聚类的方法及装置
CN111126881A (zh) 一种工程造价风险预测评估方法
CN108234452B (zh) 一种网络数据包多层协议识别的***和方法
CN112270614B (zh) 一种面向制造企业全***优化设计的设计资源大数据建模方法
CN112446341A (zh) 告警事件识别方法、***、电子设备及存储介质
CN105488084A (zh) 基于树同构的软件安装包分类方法及***
CN106847306B (zh) 一种异常声音信号的检测方法及装置
CN103425579A (zh) 基于势函数的移动终端***安全测评方法
CN116939661A (zh) Sim卡异常检测方法和***、电子设备及存储介质
US10338197B2 (en) System and method for use of qualitative modeling for signal analysis
CN110968570A (zh) 面向电商平台的分布式大数据挖掘***
CN113918577A (zh) 数据表识别方法、装置、电子设备及存储介质
CN109754159B (zh) 一种电网运行日志的信息提取方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160413

RJ01 Rejection of invention patent application after publication