CN106548069A - 一种基于排序算法的特征提取***及方法 - Google Patents
一种基于排序算法的特征提取***及方法 Download PDFInfo
- Publication number
- CN106548069A CN106548069A CN201610563595.0A CN201610563595A CN106548069A CN 106548069 A CN106548069 A CN 106548069A CN 201610563595 A CN201610563595 A CN 201610563595A CN 106548069 A CN106548069 A CN 106548069A
- Authority
- CN
- China
- Prior art keywords
- feature
- unit
- samples
- features
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/561—Virus type analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Virology (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于排序算法的特征提取***及方法,包括:数据库单元,被配置存储包括一个或多个行为信息的特定数量的特征,所述特征设定为特征1;特征流入单元,被配置用于对一个或多个黑样本进行特征提取而产生相应特征,并存入数据库单元,所述相应特征设定为特征2;提取单元,被配置用于对一个或多个待检测样本进行特征提取而产生相应样本特征;检测单元,被配置基于接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;以及排序单元,被配置基于检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。本发明克服传统自动提取特征方式中未对所提特征进行筛选,导致所提特征质量参差不齐的问题。
Description
技术领域
本发明涉及计算机安全技术领域,更具体地涉及一种基于排序算法的特征提取***及方法。
背景技术
随着计算机技术的快速发展与互联网的广泛普及,网络安全事件层出不穷,大到国家级的攻击事件,小到普通网站被挂马,都与计算机病毒息息相关,从网络安全防范的角度来看,提取病毒的特征成为了识别病毒的首要任务,所谓特征即该病毒的标志,所提的特征对该类病毒的识别率高且不会引起非该类病毒的误报即为高质量的特征。
现有的病毒特征提取方法主要有两种,人工提取的方式和自动提取方式,常用的人工提取特征方式为,首先使用静态及动态的方式分析同家族病毒样本,再分析其字符串、网络行为等提出可以标识该类病毒或同家族病毒的特征,人工方式存在一定的局限性,首先特征效率不高,其次对所提特征的质量也因分析工程师的技术水平而定;常用的自动提取特征的方式为,对每个病毒样本或网络数据包使用相同的算法提取出特征,自动化特征为了避免误报通常是完整hash,这样通用性较差,数量庞大,效率较低。而且并未对所提特征进行筛选,即所有特征的等级相同,这导致所提的特征质量参差不齐,进而影响使用特征的杀毒引擎的检出率与误报率,无法满足在有限空间的环境使用需要高质量的特征的需求。
发明内容
为了解决上述技术问题,提供了根据本发明的一种基于排序算法的特征提取***及方法。
根据本发明的第一方面,提供了一种基于排序算法的特征提取***。该***包括:数据库单元,被配置成存储包括一个或多个行为信息的特定数量的特征,其中所述特征设定为特征1;特征流入单元,被配置成用于对一个或多个黑样本进行特征提取而产生相应特征,并将所述相应特征存入数据库单元,其中所述相应特征设定为特征2;提取单元,被配置成用于对一个或多个待检测样本进行特征提取而产生相应样本特征;检测单元,被配置成基于接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;以及排序单元,被配置成基于检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。
在一些实施例中,所述排名函数还包括以下公式来计算的评分函数S(f):
S(f)=S+n-m;
其中,所述任意特征元素f其初始评分设置为S,n表示所述样本特征中被所述任意特征元素f验证出的黑样本个数,m表示所述样本特征中被所述任意特征元素f验证为黑样本的白样本个数。
在一些实施例中,所述排序单元能够使用所述排名函数进行降序或升序排序。
在一些实施例中,还包括:
删除单元,被配置成基于所述排序而删除一个或多个特征形成所述特定数量的特征。
在一些实施例中,还包括:
删除单元,被配置成基于所述m值而删除所述一个或多个特征,其中m>3,则删除对应的所述特征元素f。
在一些实施例中,所述删除单元被配置成基于所述排序而删除排名靠后或靠前的预设数量的特征形成所述特定数量的特征。
根据本发明的第二方面,提供一种基于排序算法的特征提取方法,包括:基于所述数据库单元中存储的包括一个或多个行为信息的特定数量的特征,其中所述特征设定为特征1;基于所述特征流入单元对一个或多个黑样本进行特征提取而产生相应特征,并将所述相应特征存入数据库单元,其中所述相应特征设定为特征2;基于所述提取单元对一个或多个待检测样本进行特征提取而产生相应样本特征;基于所述检测单元接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;以及基于所述排序单元针对检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。
在一些实施例中,所述排名函数还包括以下公式来计算的评分函数S(f):
S(f)=S+n-m
其中,所述任意特征元素f其初始评分设置为S,n表示所述样本特征中被所述任意特征元素f验证出的黑样本个数,m表示所述样本特征中被所述任意特征元素f验证为黑样本的白样本个数。
在一些实施例中,所述排序单元能够使用所述排名函数进行降序或升序排序。
在一些实施例中,还包括:
基于删除单元针对所述排序而删除一个或多个特征形成所述特定数量的特征。
在一些实施例中,还包括:
基于删除单元针对所述m值而删除所述一个或多个特征,其中m>3,则删除对应的所述特征元素f。
在一些实施例中,所述删除单元基于所述排序而删除排名靠后或靠前的预设数量的特征形成所述特定数量的特征。
通过使用本发明的***和方法,可以利用已提取的特征来对样本特征进行对比检测,结合排序算法来对检测结果进行排名淘汰,以用来完善特征库中的特征,提高特征提取的效率的同时也能提取出高质量的特征,满足用户在有限空间的环境使用高质量特征的需要。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的基于排序算法的特征提取***的框图。
图2示出了根据本发明实施例的基于排序算法的特征提取方法的流程图。
具体实施方式
下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。虽然附图中显示了示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本发明的范围完整的传达给本领域的技术人员。
在下文中,将所有类型的计算机病毒(包括一般感染性病毒、Word 和Excel 宏病毒、引导区病毒、脚本病毒、木马、后门程序、键盘记录器、密码盗取者等等)的特征统称为“特征”,以方便描述。本领域技术人员应理解,下文中的“特征”可以是任何形式的计算机病毒特征。
图1示出了根据本发明实施例的基于排序算法的特征提取***的框图。如图1所示,***可以包括:数据库单元110、特征流入单元120、提取单元130、检测单元140、排序单元150。
数据库单元110,被配置成存储包括一个或多个行为信息的特定数量的特征,其中特征设定为特征1。
其中,特定数量的特征可以有用户设定,以维护一个有限的特征集合。这里所提到的特征可以是最初已经被认定为计算机病毒的特征,该阶段的特征提取在***建立时形成。
特征流入单元120,被配置成用于对一个或多个黑样本进行特征提取而产生相应特征,并将相应特征存入数据库单元,其中相应特征设定为特征2。
其中,特征流入单元120可以向特征集合内持续流入自动提取的黑样本特征,持续流入样本保证特征的持续增加、更新、繁殖。
提取单元130,被配置成用于对一个或多个待检测样本进行特征提取而产生相应样本特征。
其中,接收持续流入的大量的黑白样本,并对这些样本进行特征提取,产生相应样本特征。
在提取单元130中对持续流入的大量黑白样本进行特征提取,并将产生的若干样本特征发送到检测单元140,其中黑白样本由用户在特征流入之前进行检测设定。
检测单元140,被配置成基于接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;该检测结果中包括与特征元素f相符或不相符的样本特征数。
其中,在检测单元140中将任意一个特征元素f与提取单元130发送的若干样本特征进行逐一比对验证,优选的,检测出与特征元素f相匹配的样本特征中的黑白样本数分别用n、m表示,其中n、m都为正整数。
排序单元150,被配置成基于检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。
其中,检测单元140将包括这些检测结果发送给排序单元150。排序单元150接收到检测结果后,利用排名函数中的评分函数S(f)进行评分,并对一个或多个特征排名函数结果进行排序,优选的,排序单元150能够使用排名函数采用降序的方式进行排序。
在一些实施例中,排名函数还包括以下公式来计算的评分函数S(f):
S(f)=S+n-m;
其中,任意特征元素f其初始评分设置为S,n表示样本特征中被任意特征元素f验证出的黑样本个数,m表示样本特征中被任意特征元素f验证为黑样本的白样本个数。
在一些实施例中,排序单元150能够使用排名函数进行降序排序。其中,排序单元150还能够使用排名函数进行升序排序。
具体的,如果采用的是降序的排序方式,则删除靠后的一个或多个特征形成特定数量的特征;如果采用的是升序的排序方式,则删除靠前的一个或多个特征形成特定数量的特征。这里的排序和删除之间的关系可以根据用户的需求来设定。
在一些实施例中,还包括:
删除单元160,被配置成基于排序而删除一个或多个特征形成特定数量的特征。
在一些实施例中,还包括:
删除单元160,被配置成基于m值而删除一个或多个特征,其中m>3,则删除对应的特征元素f。
具体的,当检测到的白样本数m>3时,删除单元160将对应的特征元素f直接从特征集合中删除,则该删除的特征将不会再进行排序。
在一些实施例中,删除单元160被配置成基于排序而删除排名靠后或靠前的预设数量的特征形成特定数量的特征。
具体的,删除的数量可以由用户根据不同的生产环境来事先设置。
在另一个实施例中,删除的一个或多个特征与所述特征2的数量相同。其中,删除的特征数量与特征2的数量相同以产生特征1集合,并保证数量和用户设定的特定数量相同。
图2示出了根据本发明实施例的基于排序算法的特征提取方法的流程图,如图2所示,方法包括如下步骤:
S210,基于数据库单元110中存储的包括一个或多个行为信息的特定数量的特征,其中特征设定为特征1;
S220,基于特征流入单元120对一个或多个黑样本进行特征提取而产生相应特征,并将相应特征存入数据库单元,其中相应特征设定为特征2;
S230,基于提取单元130对一个或多个待检测样本进行特征提取而产生相应样本特征;
S240,基于检测单元140接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;
S250,基于排序单元150针对检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。
在一些实施例中,排名函数还包括以下公式来计算的评分函数S(f):
S(f)=S+n-m
其中,任意特征元素f其初始评分设置为S,n表示样本特征中被任意特征元素f验证出的黑样本个数,m表示样本特征中被任意特征元素f验证为黑样本的白样本个数。
在一些实施例中,排序单元150能够使用排名函数进行降序或升序排序。
在一些实施例中,还包括:
S260,基于删除单元160针对排序而删除一个或多个特征形成特定数量的特征。
在一些实施例中,还包括:
基于删除单元160 针对m值而删除一个或多个特征,其中m>3,则删除对应的特征元素f。
具体的,当检测到的白样本数m>3时,删除单元160将对应的特征元素f直接从特征集合中删除,则该删除的特征将不会再进行排序。
在一些实施例中,删除单元160基于排序而删除排名靠后或靠前的预设数量的特征形成特定数量的特征。
具体的,删除的数量可以由用户根据不同的生产环境来事先设置。
在另一个实施例中,删除的一个或多个特征与所述特征2的数量相同。其中,删除的特征数量与特征2的数量相同以产生特征1集合,并保证数量和用户设定的特定数量相同。
综上,本发明所公开的上述实施例,通过持续使用大量的黑白样本流入数据库特征库,利用已提取的特征来对该特征库内的所有特征做检出,进行对比检测,结合排序算法来对检测结果进行排名淘汰,定期删除,从而有效地实现快速得出验证特征的检出与误报情况,并不断完善特征库中的特征,提高特征提取的效率的同时也能提取出高质量的特征。
至此已经结合优选实施例对本发明进行了描述。应该理解,本领域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施例,而应由所附权利要求所限定。
Claims (12)
1.一种基于排序算法的特征提取***,其特征在于,包括:
数据库单元,被配置成存储包括一个或多个行为信息的特定数量的特征,其中所述特征设定为特征1;
特征流入单元,被配置成用于对一个或多个黑样本进行特征提取而产生相应特征,并将所述相应特征存入数据库单元,其中所述相应特征设定为特征2;
提取单元,被配置成用于对一个或多个待检测样本进行特征提取而产生相应样本特征;
检测单元,被配置成基于接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;以及
排序单元,被配置成基于检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。
2.根据权利要求1所述的***,其特征在于,所述排名函数还包括以下公式来计算的评分函数S(f):
S(f)=S+n-m;
其中,所述任意特征元素f其初始评分设置为S,n表示所述样本特征中被所述任意特征元素f验证出的黑样本个数,m表示所述样本特征中被所述任意特征元素f验证为黑样本的白样本个数。
3.根据权利要求1所述的***,其特征在于,所述排序单元能够使用所述排名函数进行降序或升序排序。
4.根据权利要求1至3任一项所述的***,其特征在于,还包括:
删除单元,被配置成基于所述排序而删除一个或多个特征形成所述特定数量的特征。
5.根据权利要求2所述的***,其特征在于,还包括:
删除单元,被配置成基于所述m值而删除所述一个或多个特征,其中m>3,则删除对应的所述特征元素f。
6.根据权利要求4所述的***,其特征在于,所述删除单元被配置成基于所述排序而删除排名靠后或靠前的预设数量的特征形成所述特定数量的特征。
7.一种基于排序算法的特征提取方法,其特征在于,包括:
基于所述数据库单元中存储的包括一个或多个行为信息的特定数量的特征,其中所述特征设定为特征1;
基于所述特征流入单元对一个或多个黑样本进行特征提取而产生相应特征,并将所述相应特征存入数据库单元,其中所述相应特征设定为特征2;
基于所述提取单元对一个或多个待检测样本进行特征提取而产生相应样本特征;
基于所述检测单元接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;以及
基于所述排序单元针对检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。
8.根据权利要求7所述的方法,其特征在于,所述排名函数还包括以下公式来计算的评分函数S(f):
S(f)=S+n-m
其中,所述任意特征元素f其初始评分设置为S,n表示所述样本特征中被所述任意特征元素f验证出的黑样本个数,m表示所述样本特征中被所述任意特征元素f验证为黑样本的白样本个数。
9.根据权利要求7所述的方法,其特征在于,所述排序单元能够使用所述排名函数进行降序或升序排序。
10.根据权利要求7至9任一项所述的方法,其特征在于,还包括:
基于删除单元针对所述排序而删除一个或多个特征形成所述特定数量的特征。
11.根据权利要求8所述的方法,其特征在于,还包括:
基于删除单元针对所述m值而删除所述一个或多个特征,其中m>3,则删除对应的所述特征元素f。
12.根据权利要求10所述的方法,其特征在于,所述删除单元基于所述排序而删除排名靠后或靠前的预设数量的特征形成所述特定数量的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610563595.0A CN106548069B (zh) | 2016-07-18 | 2016-07-18 | 一种基于排序算法的特征提取***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610563595.0A CN106548069B (zh) | 2016-07-18 | 2016-07-18 | 一种基于排序算法的特征提取***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106548069A true CN106548069A (zh) | 2017-03-29 |
CN106548069B CN106548069B (zh) | 2020-04-24 |
Family
ID=58367803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610563595.0A Active CN106548069B (zh) | 2016-07-18 | 2016-07-18 | 一种基于排序算法的特征提取***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106548069B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923617A (zh) * | 2010-08-18 | 2010-12-22 | 奇智软件(北京)有限公司 | 一种基于云的样本数据库动态维护方法 |
CN101984450A (zh) * | 2010-12-15 | 2011-03-09 | 北京安天电子设备有限公司 | 恶意代码检测方法和*** |
CN103632091A (zh) * | 2012-08-21 | 2014-03-12 | 腾讯科技(深圳)有限公司 | 恶意特征提取方法、装置及存储介质 |
CN103761476A (zh) * | 2013-12-30 | 2014-04-30 | 北京奇虎科技有限公司 | 特征提取的方法及装置 |
CN104700033A (zh) * | 2015-03-30 | 2015-06-10 | 北京瑞星信息技术有限公司 | 病毒检测的方法及装置 |
CN105743877A (zh) * | 2015-11-02 | 2016-07-06 | 哈尔滨安天科技股份有限公司 | 一种网络安全威胁情报处理方法及*** |
-
2016
- 2016-07-18 CN CN201610563595.0A patent/CN106548069B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923617A (zh) * | 2010-08-18 | 2010-12-22 | 奇智软件(北京)有限公司 | 一种基于云的样本数据库动态维护方法 |
CN101984450A (zh) * | 2010-12-15 | 2011-03-09 | 北京安天电子设备有限公司 | 恶意代码检测方法和*** |
CN103632091A (zh) * | 2012-08-21 | 2014-03-12 | 腾讯科技(深圳)有限公司 | 恶意特征提取方法、装置及存储介质 |
CN103761476A (zh) * | 2013-12-30 | 2014-04-30 | 北京奇虎科技有限公司 | 特征提取的方法及装置 |
CN104700033A (zh) * | 2015-03-30 | 2015-06-10 | 北京瑞星信息技术有限公司 | 病毒检测的方法及装置 |
CN105743877A (zh) * | 2015-11-02 | 2016-07-06 | 哈尔滨安天科技股份有限公司 | 一种网络安全威胁情报处理方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN106548069B (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599686B (zh) | 一种基于tlsh特征表示的恶意软件聚类方法 | |
KR101162051B1 (ko) | 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템 및 그 방법 | |
US11030311B1 (en) | Detecting and protecting against computing breaches based on lateral movement of a computer file within an enterprise | |
CN101924761B (zh) | 一种依据白名单进行恶意程序检测的方法 | |
Mohaisen et al. | Unveiling zeus: automated classification of malware samples | |
Gandotra et al. | Zero-day malware detection | |
CN105224600B (zh) | 一种样本相似度的检测方法及装置 | |
CN107368856B (zh) | 恶意软件的聚类方法及装置、计算机装置及可读存储介质 | |
US20120174227A1 (en) | System and Method for Detecting Unknown Malware | |
Tang et al. | A large-scale empirical study on industrial fake apps | |
CN110691080B (zh) | 自动溯源方法、装置、设备及介质 | |
Xiao et al. | From patching delays to infection symptoms: Using risk profiles for an early discovery of vulnerabilities exploited in the wild | |
CN107437026B (zh) | 一种基于广告网络拓扑的恶意网页广告检测方法 | |
CN111723371B (zh) | 构建恶意文件的检测模型以及检测恶意文件的方法 | |
WO2017197942A1 (zh) | 病毒库的获取方法及装置、设备、服务器、*** | |
CN105046152A (zh) | 基于函数调用图指纹的恶意软件检测方法 | |
CN111914257A (zh) | 文档检测的方法、装置、设备、及计算机存储介质 | |
CN107145779A (zh) | 一种离线恶意软件日志的识别方法和装置 | |
CN116010947A (zh) | 一种基于异质网络的Android恶意软件检测方法 | |
CN110362995A (zh) | 一种基于逆向与机器学习的恶意软件检测及分析*** | |
CN108182360B (zh) | 一种风险识别方法及其设备、存储介质、电子设备 | |
Kim et al. | Behavior-based anomaly detection on big data | |
CN103955644A (zh) | 一种基于终端自启动项的静态木马检测方法 | |
CN108959930A (zh) | 恶意pdf检测方法、***、数据存储设备和检测程序 | |
WO2018047027A1 (en) | A method for exploring traffic passive traces and grouping similar urls |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100080 Beijing city Haidian District minzhuang Road No. 3, Tsinghua Science Park Building 1 Yuquan Huigu a Applicant after: Beijing ahtech network Safe Technology Ltd Address before: 100080 Zhongguancun Haidian District street, No. 14, layer, 1 1415-16 Applicant before: Beijing Antiy Electronic Installation Co., Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |