CN106548069B - 一种基于排序算法的特征提取***及方法 - Google Patents

一种基于排序算法的特征提取***及方法 Download PDF

Info

Publication number
CN106548069B
CN106548069B CN201610563595.0A CN201610563595A CN106548069B CN 106548069 B CN106548069 B CN 106548069B CN 201610563595 A CN201610563595 A CN 201610563595A CN 106548069 B CN106548069 B CN 106548069B
Authority
CN
China
Prior art keywords
features
unit
feature
ranking
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610563595.0A
Other languages
English (en)
Other versions
CN106548069A (zh
Inventor
徐艺航
康学斌
肖新光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Antiy Network Technology Co Ltd
Original Assignee
Beijing Antiy Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Antiy Network Technology Co Ltd filed Critical Beijing Antiy Network Technology Co Ltd
Priority to CN201610563595.0A priority Critical patent/CN106548069B/zh
Publication of CN106548069A publication Critical patent/CN106548069A/zh
Application granted granted Critical
Publication of CN106548069B publication Critical patent/CN106548069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/561Virus type analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Virology (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于排序算法的特征提取***及方法,包括:数据库单元,被配置存储包括一个或多个行为信息的特定数量的特征,所述特征设定为特征1;特征流入单元,被配置用于对一个或多个黑样本进行特征提取而产生相应特征,并存入数据库单元,所述相应特征设定为特征2;提取单元,被配置用于对一个或多个待检测样本进行特征提取而产生相应样本特征;检测单元,被配置基于接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;以及排序单元,被配置基于检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。本发明克服传统自动提取特征方式中未对所提特征进行筛选,导致所提特征质量参差不齐的问题。

Description

一种基于排序算法的特征提取***及方法
技术领域
本发明涉及计算机安全技术领域,更具体地涉及一种基于排序算法的特征提取***及方法。
背景技术
随着计算机技术的快速发展与互联网的广泛普及,网络安全事件层出不穷,大到国家级的攻击事件,小到普通网站被挂马,都与计算机病毒息息相关,从网络安全防范的角度来看,提取病毒的特征成为了识别病毒的首要任务,所谓特征即该病毒的标志,所提的特征对该类病毒的识别率高且不会引起非该类病毒的误报即为高质量的特征。
现有的病毒特征提取方法主要有两种,人工提取的方式和自动提取方式,常用的人工提取特征方式为,首先使用静态及动态的方式分析同家族病毒样本,再分析其字符串、网络行为等提出可以标识该类病毒或同家族病毒的特征,人工方式存在一定的局限性,首先特征效率不高,其次对所提特征的质量也因分析工程师的技术水平而定;常用的自动提取特征的方式为,对每个病毒样本或网络数据包使用相同的算法提取出特征,自动化特征为了避免误报通常是完整hash,这样通用性较差,数量庞大,效率较低。而且并未对所提特征进行筛选,即所有特征的等级相同,这导致所提的特征质量参差不齐,进而影响使用特征的杀毒引擎的检出率与误报率,无法满足在有限空间的环境使用需要高质量的特征的需求。
发明内容
为了解决上述技术问题,提供了根据本发明的一种基于排序算法的特征提取***及方法。
根据本发明的第一方面,提供了一种基于排序算法的特征提取***。该***包括:数据库单元,被配置成存储包括一个或多个行为信息的特定数量的特征,其中所述特征设定为特征1;特征流入单元,被配置成用于对一个或多个黑样本进行特征提取而产生相应特征,并将所述相应特征存入数据库单元,其中所述相应特征设定为特征2;提取单元,被配置成用于对一个或多个待检测样本进行特征提取而产生相应样本特征;检测单元,被配置成基于接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;以及排序单元,被配置成基于检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。
在一些实施例中,所述排名函数还包括以下公式来计算的评分函数S(f):
S(f)=S+n-m;
其中,所述任意特征元素f其初始评分设置为S,n表示所述样本特征中被所述任意特征元素f验证出的黑样本个数,m表示所述样本特征中被所述任意特征元素f验证为黑样本的白样本个数。
在一些实施例中,所述排序单元能够使用所述排名函数进行降序或升序排序。
在一些实施例中,还包括:
删除单元,被配置成基于所述排序而删除一个或多个特征形成所述特定数量的特征。
在一些实施例中,还包括:
删除单元,被配置成基于所述m值而删除所述一个或多个特征,其中m>3,则删除对应的所述特征元素f。
在一些实施例中,所述删除单元被配置成基于所述排序而删除排名靠后或靠前的预设数量的特征形成所述特定数量的特征。
根据本发明的第二方面,提供一种基于排序算法的特征提取***的特征提取方法,包括:基于所述数据库单元中存储的包括一个或多个行为信息的特定数量的特征,其中所述特征设定为特征1;基于所述特征流入单元对一个或多个黑样本进行特征提取而产生相应特征,并将所述相应特征存入数据库单元,其中所述相应特征设定为特征2;基于所述提取单元对一个或多个待检测样本进行特征提取而产生相应样本特征;基于所述检测单元接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;以及基于所述排序单元针对检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。
在一些实施例中,所述排名函数还包括以下公式来计算的评分函数S(f):
S(f)=S+n-m
其中,所述任意特征元素f其初始评分设置为S,n表示所述样本特征中被所述任意特征元素f验证出的黑样本个数,m表示所述样本特征中被所述任意特征元素f验证为黑样本的白样本个数。
在一些实施例中,所述排序单元能够使用所述排名函数进行降序或升序排序。
在一些实施例中,还包括:
基于删除单元针对所述排序而删除一个或多个特征形成所述特定数量的特征。
在一些实施例中,还包括:
基于删除单元针对所述m值而删除所述一个或多个特征,其中m>3,则删除对应的所述特征元素f。
在一些实施例中,所述删除单元基于所述排序而删除排名靠后或靠前的预设数量的特征形成所述特定数量的特征。
通过使用本发明的***和方法,可以利用已提取的特征来对样本特征进行对比检测,结合排序算法来对检测结果进行排名淘汰,以用来完善特征库中的特征,提高特征提取的效率的同时也能提取出高质量的特征,满足用户在有限空间的环境使用高质量特征的需要。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的基于排序算法的特征提取***的框图。
图2示出了根据本发明实施例的基于排序算法的特征提取方法的流程图。
具体实施方式
下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。虽然附图中显示了示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本发明的范围完整的传达给本领域的技术人员。
在下文中,将所有类型的计算机病毒(包括一般感染性病毒、Word和Excel宏病毒、引导区病毒、脚本病毒、木马、后门程序、键盘记录器、密码盗取者等等)的特征统称为“特征”,以方便描述。本领域技术人员应理解,下文中的“特征”可以是任何形式的计算机病毒特征。
图1示出了根据本发明实施例的基于排序算法的特征提取***的框图。如图1所示,***可以包括:数据库单元110、特征流入单元120、提取单元130、检测单元140、排序单元150。
数据库单元110,被配置成存储包括一个或多个行为信息的特定数量的特征,其中特征设定为特征1。
其中,特定数量的特征可以有用户设定,以维护一个有限的特征集合。这里所提到的特征可以是最初已经被认定为计算机病毒的特征,该阶段的特征提取在***建立时形成。
特征流入单元120,被配置成用于对一个或多个黑样本进行特征提取而产生相应特征,并将相应特征存入数据库单元,其中相应特征设定为特征2。
其中,特征流入单元120可以向特征集合内持续流入自动提取的黑样本特征,持续流入样本保证特征的持续增加、更新、繁殖。
提取单元130,被配置成用于对一个或多个待检测样本进行特征提取而产生相应样本特征。
其中,接收持续流入的大量的黑白样本,并对这些样本进行特征提取,产生相应样本特征。
在提取单元130中对持续流入的大量黑白样本进行特征提取,并将产生的若干样本特征发送到检测单元140,其中黑白样本由用户在特征流入之前进行检测设定。
检测单元140,被配置成基于接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;该检测结果中包括与特征元素f相符或不相符的样本特征数。
其中,在检测单元140中将任意一个特征元素f与提取单元130发送的若干样本特征进行逐一比对验证,优选的,检测出与特征元素f相匹配的样本特征中的黑白样本数分别用n、m表示,其中n、m都为正整数。
排序单元150,被配置成基于检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。
其中,检测单元140将包括这些检测结果发送给排序单元150。排序单元150接收到检测结果后,利用排名函数中的评分函数S(f)进行评分,并对一个或多个特征排名函数结果进行排序,优选的,排序单元150能够使用排名函数采用降序的方式进行排序。
在一些实施例中,排名函数还包括以下公式来计算的评分函数S(f):
S(f)=S+n-m;
其中,任意特征元素f其初始评分设置为S,n表示样本特征中被任意特征元素f验证出的黑样本个数,m表示样本特征中被任意特征元素f验证为黑样本的白样本个数。
在一些实施例中,排序单元150能够使用排名函数进行降序排序。其中,排序单元150还能够使用排名函数进行升序排序。
具体的,如果采用的是降序的排序方式,则删除靠后的一个或多个特征形成特定数量的特征;如果采用的是升序的排序方式,则删除靠前的一个或多个特征形成特定数量的特征。这里的排序和删除之间的关系可以根据用户的需求来设定。
在一些实施例中,还包括:
删除单元160,被配置成基于排序而删除一个或多个特征形成特定数量的特征。
在一些实施例中,还包括:
删除单元160,被配置成基于m值而删除一个或多个特征,其中m>3,则删除对应的特征元素f。
具体的,当检测到的白样本数m>3时,删除单元160将对应的特征元素f直接从特征集合中删除,则该删除的特征将不会再进行排序。
在一些实施例中,删除单元160被配置成基于排序而删除排名靠后或靠前的预设数量的特征形成特定数量的特征。
具体的,删除的数量可以由用户根据不同的生产环境来事先设置。
在另一个实施例中,删除的一个或多个特征与所述特征2的数量相同。其中,删除的特征数量与特征2的数量相同以产生特征1集合,并保证数量和用户设定的特定数量相同。
图2示出了根据本发明实施例的基于排序算法的特征提取方法的流程图,如图2所示,方法包括如下步骤:
S210,基于数据库单元110中存储的包括一个或多个行为信息的特定数量的特征,其中特征设定为特征1;
S220,基于特征流入单元120对一个或多个黑样本进行特征提取而产生相应特征,并将相应特征存入数据库单元,其中相应特征设定为特征2;
S230,基于提取单元130对一个或多个待检测样本进行特征提取而产生相应样本特征;
S240,基于检测单元140接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;
S250,基于排序单元150针对检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。
在一些实施例中,排名函数还包括以下公式来计算的评分函数S(f):
S(f)=S+n-m
其中,任意特征元素f其初始评分设置为S,n表示样本特征中被任意特征元素f验证出的黑样本个数,m表示样本特征中被任意特征元素f验证为黑样本的白样本个数。
在一些实施例中,排序单元150能够使用排名函数进行降序或升序排序。
在一些实施例中,还包括:
S260,基于删除单元160针对排序而删除一个或多个特征形成特定数量的特征。
在一些实施例中,还包括:
基于删除单元160针对m值而删除一个或多个特征,其中m>3,则删除对应的特征元素f。
具体的,当检测到的白样本数m>3时,删除单元160将对应的特征元素f直接从特征集合中删除,则该删除的特征将不会再进行排序。
在一些实施例中,删除单元160基于排序而删除排名靠后或靠前的预设数量的特征形成特定数量的特征。
具体的,删除的数量可以由用户根据不同的生产环境来事先设置。
在另一个实施例中,删除的一个或多个特征与所述特征2的数量相同。其中,删除的特征数量与特征2的数量相同以产生特征1集合,并保证数量和用户设定的特定数量相同。
综上,本发明所公开的上述实施例,通过持续使用大量的黑白样本流入数据库特征库,利用已提取的特征来对该特征库内的所有特征做检出,进行对比检测,结合排序算法来对检测结果进行排名淘汰,定期删除,从而有效地实现快速得出验证特征的检出与误报情况,并不断完善特征库中的特征,提高特征提取的效率的同时也能提取出高质量的特征。
至此已经结合优选实施例对本发明进行了描述。应该理解,本领域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施例,而应由所附权利要求所限定。

Claims (12)

1.一种基于排序算法的特征提取***,其特征在于,包括:
数据库单元,被配置成存储包括一个或多个行为信息的特定数量的特征,其中所述特征设定为特征1;
特征流入单元,被配置成用于对一个或多个黑样本进行特征提取而产生相应特征,并将所述相应特征存入数据库单元,其中所述相应特征设定为特征2;
提取单元,被配置成用于对一个或多个待检测样本进行特征提取而产生相应样本特征;
检测单元,被配置成基于接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;以及
排序单元,被配置成基于检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。
2.根据权利要求1所述的***,其特征在于,所述排名函数还包括以下公式来计算的评分函数S(f):
S(f)=S+n-m;
其中,所述任意特征元素f其初始评分设置为S,n表示所述样本特征中被所述任意特征元素f验证出的黑样本个数,m表示所述样本特征中被所述任意特征元素f验证为黑样本的白样本个数。
3.根据权利要求1所述的***,其特征在于,所述排序单元能够使用所述排名函数进行降序或升序排序。
4.根据权利要求1至3任一项所述的***,其特征在于,还包括:
删除单元,被配置成基于所述排序而删除一个或多个特征形成所述特定数量的特征。
5.根据权利要求2所述的***,其特征在于,还包括:
删除单元,被配置成基于所述m值而删除所述一个或多个特征,其中m>3,则删除对应的所述特征元素f。
6.根据权利要求4所述的***,其特征在于,所述删除单元被配置成基于所述排序而删除排名靠后或靠前的预设数量的特征形成所述特定数量的特征。
7.一种如权利要求1所述的基于排序算法的特征提取***的特征提取方法,其特征在于,包括:
基于所述数据库单元中存储的包括一个或多个行为信息的特定数量的特征,其中所述特征设定为特征1;
基于所述特征流入单元对一个或多个黑样本进行特征提取而产生相应特征,并将所述相应特征存入数据库单元,其中所述相应特征设定为特征2;
基于所述提取单元对一个或多个待检测样本进行特征提取而产生相应样本特征;
基于所述检测单元接收的特征1和特征2中的任意一个特征元素f与样本特征进行比对验证的方式产生检测结果;以及
基于所述排序单元针对检测结果的排名函数结果对一个或多个特征进行包括顺序的排序。
8.根据权利要求7所述的方法,其特征在于,所述排名函数还包括以下公式来计算的评分函数S(f):
S(f)=S+n-m
其中,所述任意特征元素f其初始评分设置为S,n表示所述样本特征中被所述任意特征元素f验证出的黑样本个数,m表示所述样本特征中被所述任意特征元素f验证为黑样本的白样本个数。
9.根据权利要求7所述的方法,其特征在于,所述排序单元能够使用所述排名函数进行降序或升序排序。
10.根据权利要求7至9任一项所述的方法,其特征在于,还包括:
基于删除单元针对所述排序而删除一个或多个特征形成所述特定数量的特征。
11.根据权利要求8所述的方法,其特征在于,还包括:
基于删除单元针对所述m值而删除所述一个或多个特征,其中m>3,则删除对应的所述特征元素f。
12.根据权利要求10所述的方法,其特征在于,所述删除单元基于所述排序而删除排名靠后或靠前的预设数量的特征形成所述特定数量的特征。
CN201610563595.0A 2016-07-18 2016-07-18 一种基于排序算法的特征提取***及方法 Active CN106548069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610563595.0A CN106548069B (zh) 2016-07-18 2016-07-18 一种基于排序算法的特征提取***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610563595.0A CN106548069B (zh) 2016-07-18 2016-07-18 一种基于排序算法的特征提取***及方法

Publications (2)

Publication Number Publication Date
CN106548069A CN106548069A (zh) 2017-03-29
CN106548069B true CN106548069B (zh) 2020-04-24

Family

ID=58367803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610563595.0A Active CN106548069B (zh) 2016-07-18 2016-07-18 一种基于排序算法的特征提取***及方法

Country Status (1)

Country Link
CN (1) CN106548069B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923617A (zh) * 2010-08-18 2010-12-22 奇智软件(北京)有限公司 一种基于云的样本数据库动态维护方法
CN101984450A (zh) * 2010-12-15 2011-03-09 北京安天电子设备有限公司 恶意代码检测方法和***
CN103632091A (zh) * 2012-08-21 2014-03-12 腾讯科技(深圳)有限公司 恶意特征提取方法、装置及存储介质
CN103761476A (zh) * 2013-12-30 2014-04-30 北京奇虎科技有限公司 特征提取的方法及装置
CN104700033A (zh) * 2015-03-30 2015-06-10 北京瑞星信息技术有限公司 病毒检测的方法及装置
CN105743877A (zh) * 2015-11-02 2016-07-06 哈尔滨安天科技股份有限公司 一种网络安全威胁情报处理方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923617A (zh) * 2010-08-18 2010-12-22 奇智软件(北京)有限公司 一种基于云的样本数据库动态维护方法
CN101984450A (zh) * 2010-12-15 2011-03-09 北京安天电子设备有限公司 恶意代码检测方法和***
CN103632091A (zh) * 2012-08-21 2014-03-12 腾讯科技(深圳)有限公司 恶意特征提取方法、装置及存储介质
CN103761476A (zh) * 2013-12-30 2014-04-30 北京奇虎科技有限公司 特征提取的方法及装置
CN104700033A (zh) * 2015-03-30 2015-06-10 北京瑞星信息技术有限公司 病毒检测的方法及装置
CN105743877A (zh) * 2015-11-02 2016-07-06 哈尔滨安天科技股份有限公司 一种网络安全威胁情报处理方法及***

Also Published As

Publication number Publication date
CN106548069A (zh) 2017-03-29

Similar Documents

Publication Publication Date Title
US10303874B2 (en) Malicious code detection method based on community structure analysis
US10162967B1 (en) Methods and systems for identifying legitimate computer files
US9715588B2 (en) Method of detecting a malware based on a white list
KR101162051B1 (ko) 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템 및 그 방법
WO2019128529A1 (zh) Url攻击检测方法、装置以及电子设备
US8954519B2 (en) Systems and methods for spam detection using character histograms
US10789366B2 (en) Security information management system and security information management method
CN105224600B (zh) 一种样本相似度的检测方法及装置
US20120174227A1 (en) System and Method for Detecting Unknown Malware
CN111382430A (zh) 用于对计算机***的对象进行分类的***和方法
EP3346664B1 (en) Binary search of byte sequences using inverted indices
CN103020521B (zh) 木马扫描方法及***
Naik et al. Cyberthreat Hunting-Part 1: triaging ransomware using fuzzy hashing, import hashing and YARA rules
WO2020082763A1 (zh) 基于决策树的钓鱼网站检测方法、装置及计算机设备
US12021896B2 (en) Method for detecting webpage spoofing attacks
Naik et al. Augmented YARA rules fused with fuzzy hashing in ransomware triaging
CN111914257A (zh) 文档检测的方法、装置、设备、及计算机存储介质
KR20130071617A (ko) 변종 악성 코드를 탐지하기 위한 시스템 및 방법
WO2018047027A1 (en) A method for exploring traffic passive traces and grouping similar urls
US11487876B1 (en) Robust whitelisting of legitimate files using similarity score and suspiciousness score
CN111970272A (zh) 一种apt攻击操作识别方法
CN106548069B (zh) 一种基于排序算法的特征提取***及方法
Yazhmozhi et al. Natural language processing and Machine learning based phishing website detection system
CN103501294A (zh) 判断程序是否恶意的方法
Han Detection of web application attacks with request length module and regex pattern analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 Beijing city Haidian District minzhuang Road No. 3, Tsinghua Science Park Building 1 Yuquan Huigu a

Applicant after: Beijing ahtech network Safe Technology Ltd

Address before: 100080 Zhongguancun Haidian District street, No. 14, layer, 1 1415-16

Applicant before: Beijing Antiy Electronic Installation Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant