CN111666258B - 信息处理方法和装置、信息查询方法和装置 - Google Patents
信息处理方法和装置、信息查询方法和装置 Download PDFInfo
- Publication number
- CN111666258B CN111666258B CN201910168801.1A CN201910168801A CN111666258B CN 111666258 B CN111666258 B CN 111666258B CN 201910168801 A CN201910168801 A CN 201910168801A CN 111666258 B CN111666258 B CN 111666258B
- Authority
- CN
- China
- Prior art keywords
- target information
- characteristic data
- data
- information
- signature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000010365 information processing Effects 0.000 title claims abstract description 42
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 230000003068 static effect Effects 0.000 claims abstract description 44
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 description 16
- 238000000605 extraction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 241000700605 Viruses Species 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 102000006463 Talin Human genes 0.000 description 1
- 108010083809 Talin Proteins 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种信息处理方法和装置、信息查询方法和装置,信息处理方法包括确定待处理的多个目标信息;获取各个目标信息的特征数据;特征数据包括目标信息的静态特征数据和动态特征数据;对特征数据进行局部敏感哈希处理,得到各个目标信息各自对应的签名;将符合相似条件的签名所对应的目标信息归类到相同桶中。采用本申请提供的方案,无需将参考目标信息与每个目标信息进行两两比对,直接根据参考签名查找到参考目标信息所属的目标桶,便能从目标桶中一次性得到与参考目标信息相似的多个目标信息,提高了查询效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种信息处理方法、装置、计算机设备和存储介质,以及一种信息查询方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了信息相似度比对技术,将两个信息所包含的字符进行比对,可以计算出这两个信息间的相似度。以信息为域名为例,将两个域名所包含的字符进行比对,可以计算出这两个域名的相似度。
由于信息相似度比对技术的传播,越来越多的人们运用信息相似度比对技术来查找与目标信息相似的历史信息,例如运用信息相似度比对技术来判断目标域名是否为恶意域名,若目标域名与历史的恶意域名相似,则该目标域名为恶意域名。
但是,在运用传统的信息相似度比对技术来查找与目标信息相似的历史信息时,需要将目标信息与已知的大量历史信息进行两两比对,并且都是将目标信息中实际所展示的内容与已知的历史信息中实际所展示的内容进行对比,相似度覆盖不完全。例如判断目标域名是否为恶意域名时,需要将目标域名与已知的大量恶意域名进行两两比对,并且是将目标域名中实际所展示的内容与已知的恶意域名中实际所展示的内容进行对比,查询效率低。
发明内容
基于此,有必要针对上述问题,提供一种能够提高查询效率的信息分类方法、装置、计算机可读存储介质和计算机设备。
一种信息处理方法,包括:
确定待处理的多个目标信息;所述目标信息包括域名和文件中的一种;
获取各个所述目标信息的特征数据;所述特征数据包括所述目标信息的静态特征数据和动态特征数据;
对所述特征数据进行局部敏感哈希处理,得到各个所述目标信息各自对应的签名;
将符合相似条件的所述签名所对应的目标信息归类到相同桶中。
一种信息处理装置,所述装置包括:
目标信息确定模块,用于确定待处理的多个目标信息;所述目标信息包括域名和文件中的一种;
特征数据获取模块,用于获取各个所述目标信息的特征数据;所述特征数据包括所述目标信息的静态特征数据和动态特征数据;
特征数据处理模块,用于对所述特征数据进行局部敏感哈希处理,得到各个所述目标信息各自对应的签名;
目标信息归类模块,用于将符合相似条件的所述签名所对应的目标信息归类到相同桶中。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
确定待处理的多个目标信息;所述目标信息包括域名和文件中的一种;
获取各个所述目标信息的特征数据;所述特征数据包括所述目标信息的静态特征数据和动态特征数据;
对所述特征数据进行局部敏感哈希处理,得到各个所述目标信息各自对应的签名;
将符合相似条件的所述签名所对应的目标信息归类到相同桶中。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现以下步骤:
确定待处理的多个目标信息;所述目标信息包括域名和文件中的一种;
获取各个所述目标信息的特征数据;所述特征数据包括所述目标信息的静态特征数据和动态特征数据;
对所述特征数据进行局部敏感哈希处理,得到各个所述目标信息各自对应的签名;
将符合相似条件的所述签名所对应的目标信息归类到相同桶中。
上述信息处理方法、装置、计算机设备和存储介质,获取了多个目标信息的静态特征数据和动态特征数据,利用了更全面的特征数据对目标信息进行了更加准确的归类。并采用了局部敏感哈希处理得到各个目标信息的签名,使得原本相似的目标信息的签名仍然相似。将符合相似条件的签名所对应的目标信息归类到相同桶中,更加高效、准确地对目标信息进行了归类。这样当需要查找与参考目标信息相似的目标信息时,只需要查找参考目标信息所属的桶便能一次性得到与参考目标信息相似的多个目标信息,提高了查询效率。
一种信息查询方法,所述方法包括:
获取参考目标信息;所述参考目标信息包括域名和文件中的一种;
获取所述参考目标信息的参考特征数据;所述参考特征数据包括所述参考目标信息的静态特征数据和动态特征数据;
对所述参考特征数据进行局部敏感哈希处理,得到所述参考目标信息对应的参考签名;
根据所述参考签名查找与所述参考目标信息匹配的代表哈希值;
获取与所述参考目标信息匹配的代表哈希值对应的目标桶中的目标信息。
一种信息查询装置,所述装置包括:
参考目标信息获取模块,用于获取参考目标信息;所述参考目标信息包括域名和文件中的一种;
参考特征数据获取模块,用于获取所述参考目标信息的参考特征数据;所述参考特征数据包括所述参考目标信息的静态特征数据和动态特征数据;
参考特征数据处理模块,用于对所述参考特征数据进行局部敏感哈希处理,得到所述参考目标信息对应的参考签名;
参考目标信息匹配模块,用于根据所述参考签名查找与所述参考目标信息匹配的代表哈希值;
目标信息获取模块,用于获取与所述参考目标信息匹配的代表哈希值对应的目标桶中的目标信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取参考目标信息;所述参考目标信息包括域名和文件中的一种;
获取所述参考目标信息的参考特征数据;所述参考特征数据包括所述参考目标信息的静态特征数据和动态特征数据;
对所述参考特征数据进行局部敏感哈希处理,得到所述参考目标信息对应的参考签名;
根据所述参考签名查找与所述参考目标信息匹配的代表哈希值;
获取与所述参考目标信息匹配的代表哈希值对应的目标桶中的目标信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现以下步骤:
获取参考目标信息;所述参考目标信息包括域名和文件中的一种;
获取所述参考目标信息的参考特征数据;所述参考特征数据包括所述参考目标信息的静态特征数据和动态特征数据;
对所述参考特征数据进行局部敏感哈希处理,得到所述参考目标信息对应的参考签名;
根据所述参考签名查找与所述参考目标信息匹配的代表哈希值;
获取与所述参考目标信息匹配的代表哈希值对应的目标桶中的目标信息。
上述信息查询方法、装置、计算机设备和存储介质,获取了参考目标信息的静态特征数据和动态特征数据,并对这些特征数据进行局部敏感哈希处理,基于更全面的特征数据更加准确地得到参考目标信息的参考签名。无需将参考目标信息与每个目标信息进行两两比对,直接根据参考签名查找到参考目标信息所属的目标桶,便能从目标桶中一次性得到与参考目标信息相似的多个目标信息,提高了查询效率。
附图说明
图1为一个实施例中信息处理方法和信息查询方法的应用环境图;
图2为一个实施例中信息处理方法的流程示意图;
图3为另一个实施例中信息处理方法的流程示意图;
图4为一个实施例中哈希特征矩阵的示例图;
图5为另一个实施例中哈希特征矩阵的示例图;
图6为再一个实施例中信息处理方法的流程示意图;
图7为一个实施例中划分签名的示例图;
图8为一个实施例中信息查询方法的流程示意图;
图9为一个实施例中信息处理装置的结构框图;
图10为一个实施例中信息查询装置的结构框图;
图11为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中信息处理方法和信息查询方法的应用环境图。参照图1,该信息处理方法和信息查询方法应用于信息处理***。信息处理***包括特征数据库110、计算机设备120和信息分桶库130,特征数据库110、计算机设备120和信息分桶库130通过网络连接。
其中,计算机设备120可以是终端,也可以是服务器。可以理解的是,当计算机设备120为终端时,该计算机设备120还可以包括显示屏和输入装置等。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。当目标信息为域名时,信息分桶库130为域名分桶库。当目标信息为文件时,信息分桶库130为文件分桶库。
基于上述信息处理***,对信息处理方法进行说明:计算机设备120确定待处理的多个目标信息。目标信息包括域名和文件中的一种。计算机设备120从特征数据库110获取各个目标信息的特征数据。特征数据包括目标信息的静态特征数据和动态特征数据。计算机设备120对特征数据进行局部敏感哈希处理,得到各个目标信息各自对应的签名。计算机设备120将符合相似条件的签名所对应的目标信息归类到信息分桶库130的相同桶中。
基于上述信息处理***,对信息查询方法进行说明:计算机设备120获取参考目标信息。参考目标信息包括域名和文件中的一种。计算机设备120从特征数据库110获取参考目标信息的参考特征数据。参考特征数据包括参考目标信息的静态特征数据和动态特征数据。计算机设备120对参考特征数据进行局部敏感哈希处理,得到参考目标信息对应的参考签名。计算机设备120根据参考签名查找与参考目标信息匹配的代表哈希值,从信息分桶库130中获取与参考目标信息匹配的代表哈希值对应的目标桶中的目标信息。
如图2所示,在一个实施例中,提供了一种信息处理方法。本实施例主要以该方法应用于上述图1中的计算机设备来举例说明。参照图2,该信息处理方法具体包括如下步骤:
S202,确定待处理的多个目标信息;目标信息包括域名和文件中的一种。
其中,域名(Domain Name)是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。文件比如计算机文件和/或网络文件。计算机文件是以计算机硬盘为载体存储在计算机上的信息集合。网络文件是存储在云端的信息集合。文件具体可以包括文本文档、图片和程序等中的至少一种。
具体地,目标信息可以包括实时流目标信息和存量目标信息中的至少一种,实时流目标信息指计算机设备实时获取的目标信息,存量目标信息指计算机设备在历史时间获取的、且还未经过处理的目标信息。计算机设备从目标信息的源***获取实时流目标信息,并确定自身所存储的存量目标信息,得到待处理的多个目标信息。
在一个实施例中,实时流目标信息是计算机设备实时从目标信息的源***的域名日志中获取的目标信息。域名日志比如域名解析日志、域名查询日志等,域名解析日志指解析域名的解析记录。域名查询日志指被查询域名的查询记录。存量目标信息是计算机设备在历史时间从目标信息的源***的域名日志中获取的、且还未经过处理的目标信息。目标信息的源***是目标信息的来源,目标信息的源***具体可以是信息聚类***、被动信息***和信息云查杀***中的至少一种。
其中,信息聚类***指用于对信息进行聚类的***,例如当目标信息为域名时,信息聚类***便可以为用于对域名进行聚类的域名聚类***。当目标信息为文件时,信息聚类***便可以为用于对文件进行聚类的文件聚类***。被动信息***指记录有被查询过的目标信息的***,例如当目标信息为域名时,被动信息***便可以为记录有被查询过的域名的被动域名***,当目标信息为文件时,被动信息***便可以为记录有被查询过的文件的被动文件***。
信息云查杀***指记录有在云端被查询过恶意度的信息的***。例如当目标信息为域名时,信息云查杀***便可以为记录有在云端被查询过恶意度的域名的域名云查杀***。当目标信息为文件时,信息云查杀***便可以为记录有在云端被查询过恶意度的文件的文件云查杀***。
S204,获取各个目标信息的特征数据;特征数据包括目标信息的静态特征数据和动态特征数据。
其中,静态特征数据指表示目标信息的静态特征的数据,例如当目标信息为域名时,静态特征数据可以包括域名的长度和域名的顶级域名等。域名的顶级域名指域名最右边的字符组,用“.”与其他的字符分隔开,例如域名为“ww w.xx.com”,则“com”便为该域名的顶级域名。当目标信息为文件时,静态特征数据可以包括文件的类型和文件的编译时间等。
动态特征数据指表示目标信息的动态特征的数据,例如当目标信息为域名时,动态特征数据可以包括域名的解析特征和域名绑定的IP特征等,域名的解析特征比如在多个特定时间段内该域名的平均解析次数,域名绑定的IP特征比如域名对应的多个IP间的差异度范围。IP(Internet Protocol Address)指互联网协议地址。
当目标信息为文件时,动态特征数据可以包括文件的API调用特征和文件对应API的参数特征等,API(Application Programming Interface,)指应用程序编程接口,是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力。文件的API调用特征比如在多个特定时间段内该文件对应API的平均调用次数,文件对应API的参数特征比如文件对应的多个API间的差异度范围。
具体地,特征数据库记录有目标信息对应的目标信息历史数据,并基于目标信息历史数据记录了目标信息与其他实体之间的关系。计算机设备可以遍历特征数据库中各个目标信息对应的目标信息历史数据,以及目标信息与其他实体之间的关系,从各目标信息对应的目标信息历史数据和目标信息与其他实体之间的关系中,提取各个目标信息的静态特征数据和动态特征数据。
在一个实施例中,当目标信息为域名时,目标信息与其他实体之间的关系可以包括域名与IP、URL、注册信息、数字证书、病毒家族、CVE漏洞等多种实体之间的关系。域名与注册信息之间的关系例如域名与注册者之间的关系和/或域名与注册邮箱之间的关系,域名与IP之间的关系例如域名与绑定的IP之间的关系。
在一个实施例中,当目标信息为文件时,以目标信息为文件A,且文件A为压缩文件为例。则目标信息与其他实体之间的关系可以包括文件A与释放文件A所得到的文件B之间的关系。文件A与释放文件A所得到的文件B之间的关系比如“文件A-解压-文件B”,表示对文件A进行解压后,能够得到解压后的文件B。
以目标信息为文件A,且文件A为可执行文件为例。则目标信息与其他实体之间的关系可以包括文件A与执行文件A所得到的文件C之间的关系。文件A与释放文件A所得到的文件C之间的关系比如“文件A-执行-文件C”,表示执行文件A后,能够得到文件C。可执行文件(executable file)指的是可以由操作***进行加载执行的文件。在不同的操作***环境下,可执行程序的呈现方式不一样。例如在windows操作***下,可执行文件可以是.exe文件、.sys文件或.com等类型文件。
病毒家族指恶意域名或恶意文件所属的家族。CVE(Common Vulnerabiliti es&Exposures)漏洞为对广泛认同的信息安全漏洞或者已经暴露出来的弱点给出的一个公共的名称。使用该公共的名称,可以帮助用户在各自独立的各种漏洞数据库中和漏洞评估工具中共享数据。
在一个实施例中,当目标信息为域名时,静态特征数据可以包括域名的长度、域名的顶级域名、域名的元音辅音字符特征、域名数据占比和域名whois信息。域名的元音辅音字符特征指域名包括的字符中的元音字符和辅音字符的特征。域名的元音辅音字符特征比如可以包括元音字符在域名中的占比、连续辅音字符的最大长度和连续辅音字符的平均分布长度等等中的至少一种。域名数据占比指域名包括的各种数据在域名包括的数据中的占比,域名数据占比可以是域名字符占比,域名字符占比指各种字符在域名包括的字符中的占比,域名字符占比例如辅音字符在域名包括的字符中的占比。
动态特征数据可以包括域名的解析特征、域名绑定的IP特征、域名下载文件数据量和访问域名的文件分布情况等等。域名下载文件数据量指域名下载文件的数量。域名下载文件数据量具体可以是域名在多个时间段下载文件的平均数量,也可以是域名下载文件的总数量。访问域名的文件分布情况指通过访问域名所获取到的文件的分布情况。
在一个实施例中,当目标信息为文件时,静态特征数据可以包括文件的类型、编译时间、编译平台、导入导出时间表和包含的字节数量。文件的类型比如PDB类型。PDB(Program Database File)指程序数据库文件,是Palm OS操作***上数据文件类型,PDB的物理结构在我们目前使用的掌上电脑中,Palm操作***由于其功能强大、应用软件多等特点,占有很大的比例。
动态特征数据可以包括文件的API调用特征、文件对应API的参数特征和文件释放文件特征等等。文件释放文件是从“文件-释放-文件”这种关系中提取的动态特征数据,指文件A进行释放后所得到文件B的这个过程,则文件释放文件特征指文件释放文件这个过程的特征。例如压缩文件A1、压缩文件A2和压缩文件A3分别进行释放后,都能得到文件B。若文件B属于目标信息,则计算机设备可以将压缩文件A1、压缩文件A2和压缩文件A3的共同特征确定为文件B的动态特征数据。若压缩文件A1、压缩文件A2和压缩文件A3属于目标信息,则计算机设备可以将文件B分别确定为压缩文件A1、压缩文件A2和压缩文件A3的动态特征数据。
S206,对特征数据进行局部敏感哈希处理,得到各个目标信息各自对应的签名。
其中,局部敏感哈希(Local Sensitive Hashing,LSH)指一系列哈希处理,用于将高维数据空间中的数据映射到低维数据空间中。采用局部敏感哈希将高维数据空间中的两个相邻的数据映射到低维数据空间中,被映射到低维数据空间中的数据将会有很大的概率仍然相邻。采用局部敏感哈希将高维数据空间中的两个不相邻的数据映射到低维数据空间中,被映射到低维数据空间中的数据将会有很大的概率仍然不相邻。签名指对目标信息的特征数据进行局部敏感哈希处理后,所得到的各特征数据的目标哈希值形成的对应目标信息的摘要。
具体地,各个目标信息的多个特征数据可以形成各目标信息的特征数据集合,则每个目标信息对应有一个特征数据集合。对每个特征数据集合包括的多个特征数据分别进行局部敏感哈希处理,可以得到降维后的、且用数字表示的每个特征数据的目标哈希值,将这些特征数据的目标哈希值确定为对应的目标信息的签名。由于运用了局部敏感哈希处理,使得原本相似度高的特征数据集合所得到的签名的相似度仍然高,原本相似度低的特征数据集合所得到的签名的相似度仍然低。
S208,将符合相似条件的签名所对应的目标信息归类到相同桶中。
其中,桶指用于容纳多个相似的目标信息的虚拟容器。
具体地,相似条件是根据采用的局部敏感哈希处理来确定的。计算机设备可以将签名划分为多个签名组,每个签名组中包括多个特征数据的目标哈希值。当每个签名组中的目标哈希值由多个二进制比特位组成时,可以确定计算机对各目标信息的特征数据采用的是基于simhash的局部敏感哈希处理,则相似条件为同序号的签名组中所有对应位置的比特位相同。
当每个签名组中的目标哈希值为特征标识时,可以确定计算机对各目标信息的特征数据采用的是基于minhash的局部敏感哈希处理,则相似条件为同序号签名组中所有对应位置的特征标识相同。minhash和simhash均为一种哈希算法。计算机设备依次对各目标信息的同序号签名组进行遍历,每一次遍历到符合相似条件的多个目标信息的签名组时,便将该次所涉及的符合相似条件的签名组对应的目标信息归类到信息分桶库的相同桶中。
上述信息处理方法、装置、计算机设备和存储介质,获取了多个目标信息的静态特征数据和动态特征数据,利用了更全面的特征数据对目标信息进行了更加准确的归类。并采用了局部敏感哈希处理得到各个目标信息的签名,使得原本相似的目标信息的签名仍然相似。将符合相似条件的签名所对应的目标信息归类到相同桶中,更加高效、准确地对目标信息进行了归类。这样当需要查找与参考目标信息相似的目标信息时,只需要查找参考目标信息所属的桶便能一次性得到与参考目标信息相似的多个目标信息,提高了查询效率。
在一个实施例中,获取各个目标信息的特征数据包括:从基于目标信息历史数据生成的安全知识图谱中,获取各个目标信息的动态数据组和静态特征数据;动态数据组包括多个动态数据;从动态数据组中提取多个动态数据共同的动态特征数据,得到各个目标信息的特征数据。
其中,安全知识图谱是以图谱的形式记录有目标信息历史数据,并基于目标信息历史数据展示了目标信息与其他实体之间的关系的图数据库,安全知识图谱可以看作为一个记录有多种实体以及这些实体之间的社交关系的网络图。动态数据组指包括同类的多个动态数据的数据组。例如目标信息为域名,某个动态数据组为域名解析次数组,则该域名解析次数组中可以包括对应的域名分别在多个不同时间段被解析的次数。例如目标信息为文件,某个动态数据组为文件释放文件组,则该文件释放文件组中可以包括通过解压后,均可以得到目标文件的多个压缩文件的文件标识。
具体地,特征数据库可以为安全知识图谱。计算机设备可以从安全知识图谱记录的各目标信息对应的目标信息历史数据和展示的目标信息与其他实体之间的关系中,提取各个目标信息的静态特征数据,以及各个目标信息的动态数据组,每个动态数据组中包括同类的多个动态数据。计算机设备可以从每个动态数据组中包括的多个动态数据中提取对应目标信息的动态特征数据。使得计算机设备得到各个目标信息的特征数据。
对从动态数据组中提取多个动态数据共同的动态特征数据进行举例说明。例如,目标信息为文件,某个动态数据组为文件释放文件组,该文件释放文件组中包括以下三种实体关系:压缩文件A1与对压缩文件A1进行解压得到的文件B、压缩文件A2对压缩文件A2进行解压得到的文件B、压缩文件A3与对压缩文件A3进行解压得到的文件B。可以得出对压缩文件A1、压缩文件A2和压缩文件A3进行解压均能得到文件B。
则当压缩文件A1、压缩文件A2和压缩文件A3属于目标信息时,将文件B分别确定为压缩文件A1、压缩文件A2和压缩文件A3的动态数据特征。当文件B属于目标信息时,则计算机设备将压缩文件A1、压缩文件A2和压缩文件A3的共同特征作为文件B的动态数据特征。
在一个实施例中,从动态数据组中提取多个动态数据共同的动态特征数据包括:计算机设备分别确定各动态数据组对应的特征提取方式,按照确定的特征提取方式从动态数据组的多个动态数据中提取目标信息的动态特征数据。使得计算机设备得到各个目标信息的特征数据。
在一个实施例中,特征提取方式可以包括共同特征提取方式、均值计算提取方式和阈值关系提取方式等等。当某个动态数据组的特征提取方式为共同特征提取方式时,计算机设备可以提取该动态数据组包括的多个动态数据的共同特征,将提取的共同特征确定为对应目标信息的动态特征数据。当某个动态数据组的特征提取方式为均值计算提取方式时,以该动态数据组为域名解析次数组为例,计算机设备可以计算域名解析次数组中该域名在每个时间段被解析的平均次数,将计算的平均次数确定为对应目标信息的动态特征数据。
当某个动态数据组的特征提取方式为阈值关系提取方式时,仍然以该动态数据组为域名解析次数组为例。计算机设备可以将该域名在每个时间段的解析次数与解析次数阈值做比较,若大于或等于次数阈值的时间段比小于次数阈值的时间段的数量多,则确定该域名的解析次数高,将解析次数高确定为对应域名的动态特征数据。
上述实施例中,利用以图谱形式记录了各目标信息对应的目标信息历史数据和展示了目标信息与其他实体之间的关系的安全知识图谱,计算机设备可以更加便捷、高效地获取各个目标信息的动态数据组和静态特征数据。并且计算机设备是从动态数据组中提取目标信息的动态特征数据,使得提取的动态特征数据更加准确。
在一个实施例中,如图3所示,对特征数据进行局部敏感哈希处理,得到各个目标信息各自对应的签名包括:
S302,基于各个目标信息的各个特征数据确定哈希特征矩阵;
其中,哈希特征矩阵是由1和0组成的矩阵,1代表目标信息具有对应的特征数据,0代表目标信息不具有对应的特征数据。
具体地,计算机设备将各个目标信息对应的特征数据集合所包括的特征数据降维为1,不包括的特征数据降维为0,以此构成哈希特征矩阵。例如有四个目标信息的特征数据集合,分别为S1、S2和S3,S1={特征数据A、特征数据C、特征数据F},S2={特征数据A、特征数据B、特征数据D},S3={特征数据B、特征数据D、特征数据E}。则确定的哈希特征矩阵可以如图4所示。
S304,多次改变哈希特征矩阵的行顺序,并记录哈希特征矩阵处于不同行顺序时,各个目标信息对应的首个特征数据所对应的特征标识;
具体地,特征标识可以为哈希特征矩阵处于不同行顺序时,各个目标信息对应的首个特征数据的行序号。计算机设备对哈希特征矩阵的行顺序进行随机改变,并记录哈希特征矩阵处于不同行顺序时,各个目标信息的特征数据集合包括的首个特征数据的行序号。例如某一次被打乱后的哈希特征矩阵如图5所示,哈希特征矩阵包括0-5行,共6行。特征数据集合S1本次对应的首个特征数据为特征数据F,特征数据F的行序号为0。特征数据集合S2本次对应的首个特征数据为特征数据A,特征数据A的行序号为1。特征数据集合S3本次对应的首个特征数据为特征数据B,特征数据B的行序号为2。
S306,按照记录的特征标识,确定各个目标信息各自对应的签名。
具体地,计算机设备经过多次打乱哈希特征矩阵的行顺序后,可以分别得到确定的各个特征数据集合的多个行序号,将确定的每个特征数据集合的多个行序号,确定为对应目标信息对应的签名。例如计算机设备确定的S1的行序号包括:0、1、0、2和0,则01020便为S1对应的目标信息对应的签名。
本实施例是计算机设备采用基于minhash的局部敏感哈希处理时,对特征数据进行局部敏感哈希处理,得到各个目标信息各自对应的签名所包括的步骤。采用基于minhash的局部敏感哈希处理对特征数据进行处理,在计算大量的目标信息间的相似度时,可以更加快速地得到各个目标信息对应的签名。
在一个实施例中,如图6所示,对特征数据进行局部敏感哈希处理,得到各个目标信息各自对应的签名包括:
S602,对各个目标信息的各个特征数据进行哈希处理,得到各个特征数据的哈希值。
其中,哈希(Hash)就是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是哈希值。散列算法是一种将字符组成的字符串转换为固定长度(一般是更短长度)的数值或索引值的算法。
具体地,计算机设备将各个目标信息的各个特征数据转换为固定长度的输出,得到各个特征数据的哈希值。哈希值为二进制数“0”和“1”组成的比特位。
S604,按照各个特征数据的权重对各个特征数据的哈希值进行加权,得到加权哈希值。
具体地,每个目标信息的特征数据都有相应的权重,该权重是根据该特征数据对于目标信息的重要程度确定的,各个特征数据对于目标信息的重要程度可以是预设的,也可以是计算机设备根据历史信息处理记录预测的。例如特征数据A的哈希值为“01001”,特征数据A的权重为5,则计算及设备对特征数据A的哈希值进行加权,所得到的加权哈希值为“-5 5 -5 -5 5”。
S606,分别将各个目标信息的多个加权哈希值进行合并,得到合并后的哈希值。
具体地,各个目标信息分别对应有多个加权哈希值,计算机设备分别将各个目标信息的多个加权哈希值按照加权哈希值中比特位的对应顺序进行合并,得到每个目标信息对应的一个合并后的哈希值。例如各个目标信息分别对应有2个加权哈希值,计算机设备分别将每个目标信息的2个加权哈希值进行合并,比如某个目标信息的这2个加权哈希值分别为“-5 5 -5 -5 5”和“4 4 -4 -4 -4”,则计算机设备按照比特位的对应顺序将这2个加权哈希值进行合并的过程如下:“-5+4”、“5+4”、“-5-4”、“-5-4”、“5-4”,则得到合并后的哈希值为“-1 9 -9 -9 1”。
S608,分别对各个目标信息的合并后的哈希值进行降维,得到各个目标信息各自对应的签名。
其中,本实施例中的降维指将大于0的比特位置为1,小于0的比特位置为0。
具体地,计算机设备将各个目标信息的合并后的哈希值中大于0的比特位置为1,小于0的比特位置为0,得到各个目标信息各自对应的签名。例如某个目标信息对应的合并后的哈希值为“-1 9 -9 -9 1”,则计算机设备对“-1 9 -9 -9 1”进行降维后,得到“01001”,则该“01001”便为对应目标信息对应的签名。
本实施例是计算机设备采用基于simhash的局部敏感哈希处理时,计算机设备对特征数据进行局部敏感哈希处理,得到各个目标信息各自对应的签名所包括的步骤。采用基于simhash的局部敏感哈希处理对特征数据进行处理,可以更加快速地得到各个目标信息对应的签名。
在一个实施例中,将符合相似条件的签名所对应的目标信息归类到相同桶中包括:对每个签名进行划分,得到对应的目标信息的多个签名组;将各目标信息对应的相同序号的签名组进行比对,得到多个相同签名组;分别将各相同签名组对应的目标信息归类到相同桶中。
具体地,当确定计算机对各目标信息的特征数据采用的是基于minhash的局部敏感哈希处理时,每个签名中包括的每个行序号为对应特征数据的目标哈希值。计算机设备对每个签名包括的这些目标哈希值进行划分,得到对应的目标信息的多个签名组,一个签名组中包括多个行序号。例如每个签名包括6个行序号,计算机设备将每个签名划分成了3个签名组,则一个签名组中包括2个行序号。当确定计算机对各目标信息的特征数据采用的是基于simhash的局部敏感哈希处理时,每个签名中各个特征数据的目标哈希值为对应的多个比特位。每个签名包括的比特位的总位数可以为64位,则计算机设备确定需要划分的签名组数量为4个。计算机设备将各个64位的签名划分为4个16位的签名组。
计算机设备将各目标信息相同序号的签名组进行比对,当确定计算机对各目标信息的特征数据采用的是基于minhash的局部敏感哈希处理时,计算机设备将所有对应位置的行序号全部相同的多个相同序号的签名组确定为符合相似条件的签名组。将同序号的、且符合相似条件的签名组所对应的目标信息归类到相同桶中。
如图7所示,hmin表示哈希特征矩阵的行顺序被打乱的次数的顺序号,则h1min-h6min表示哈希特征矩阵的行顺序被打乱6次的顺序号,h1min-h6min分别表示哈希特征矩阵的行顺序第一次被打乱至第六次被打乱的顺序号,可以为1、2、3、4、5、6。
d1、d2和d3表示目标信息。h1min-h6min对应的d1的签名为“115816”、h1min-h6min对应的d2的签名为“115876”,h1min-h6min对应的d3的签名为“123416”。例如(h1min,d1)对应单元格中的“1”表示哈希特征矩阵第一次被打乱时,d1的特征数据集合具有的首个特征数据的行序号为1。例如(h3min,d2)对应单元格中的“5”表示哈希特征矩阵第三次被打乱时,d2的特征数据集合具有的首个特征数据的行序号为5。
图7中,每个目标新的签名被计算机设备划分成了3个签名组:Band1、Band2和Band3。每个签名组中包括2个目标哈希值。第一组(Band1)中,存在d1和d2对应的签名组中包括的目标哈希值全部相等,则需要将d1和d2归类到一个桶中,d3需要单独归类到一个桶中,如图7中的列“buckets”所示。第二组中,存在d1和d2对应的签名组中包括的目标哈希值全部相等,则需要将d1和d2归类到一个桶中,d3需要单独归类到一个桶中,如图7中的列“buckets”所示。第三组中,存在d2和d3对应的签名组中包括的目标哈希值全部相等,则需要将d2和d3归类到一个桶中,d1需要单独归类到一个桶中,如图7中的列“buckets”所示。计算机设备将需要归类到一个桶中的目标信息归类到信息分桶库的相同桶中。
当确定计算机设备对各目标信息的特征数据采用的是基于simhash的局部敏感哈希处理时,计算机设备将所有对应位置的比特位全部相同的多个签名组确定为符合相似条件的签名组,将同序号的、且符合相似条件的签名组所对应的目标信息归类到相同桶中。
本实施例中,计算机设备将各目标信息对应的相同序号的签名组进行比对,得到多个相同签名组,只需要将相同的签名组所对应的目标信息归类到相同桶中,高效地实现了对相似的目标信息的归类。
在一个实施例中,由于一个桶里的目标信息间相似,当计算机设备检测到一个桶中存在至少一个属于病毒家族的恶意目标信息时,代表桶里的其他目标信息也为恶意目标信息。计算机设备可以将该桶标记为恶意信息桶。计算机设备可以生成恶意信息桶里包含的各个目标信息的危险情报,将该危险情报发送至对应目标信息的源***。危险情报用于告知对应目标信息的源***存在恶意目标信息,以及标识对应目标信息的源***存在的恶意目标信息。
在一个实施例中,危险情报还可以携带有对应的恶意信息桶中包含的所有目标信息,以使对应目标信息的源***预防恶意信息桶里的其他恶意目标信息。
在一个实施例中,每个桶记录有根据相似条件从签名中提取的代表哈希值,如图8所示,该信息处理方法还包括:
S802,获取参考目标信息;参考目标信息包括域名和文件中的一种。
具体地,当计算机设备采用的局部敏感哈希处理为基于minhash的局部敏感哈希处理时,相似条件为同序号的签名组中所有对应位置的行序号相同,则计算机设备将签名组中包括的行序号确定为对应桶的代表哈希值。
当计算机设备采用的局部敏感哈希处理为基于simhash的局部敏感哈希处理时,相似条件为同序号的签名组中所有对应位置的比特位相同,则计算机设备将签名组中包括的比特位确定为对应桶的代表哈希值。当计算机设备接收到查询请求时,从该查询请求中获取参考目标信息,参考目标信息包括域名和文件中的一种。计算机设备需要从信息分桶库中查询参考目标信息所属的桶。
在一个实施例中,计算机设备可以预先将各个桶对应的签名组中的目标哈希值,确定为该桶的代表哈希值,并在该桶中记录对应签名组的序号和确定的代表哈希值。例如图7中存在第一组需要存储到相同桶中的[d1,d2],则可以将h1min和h2min对应的“11”确定为该桶的代表哈希值,并在该桶中记录对第一组的组序号“1”和代表哈希值“11”。
S804,获取参考目标信息的参考特征数据;参考特征数据包括参考目标信息的静态特征数据和动态特征数据。
具体地,特征数据库记录有参考目标信息对应的目标信息历史数据,并基于参考目标信息对应的目标信息历史数据,记录了参考目标信息与其他实体之间的关系。计算机设备可以遍历特征数据库中参考目标信息对应的目标信息历史数据,以及参考目标信息与其他实体之间的关系,从参考目标信息对应的目标信息历史数据和参考目标信息与其他实体之间的关系中,提取各个目标信息的静态特征数据和动态特征数据。
S806,对参考特征数据进行局部敏感哈希处理,得到参考目标信息对应的参考签名。
具体地,参考目标信息的多个参考特征数据可以形成参考目标信息的参考特征数据集合。对参考特征数据集合包括的多个参考特征数据分别进行局部敏感哈希处理,可以得到降维后的、且用数字表示的每个参考特征数据的参考哈希值,将这些参考特征数据的参考哈希值确定为对应的参考目标信息的参考签名。
进一步地,对参考目标信息的参考特征数据采用的局部敏感哈希处理与对目标信息的特征数据采用的局部敏感哈希处理相同。当桶对应的代表哈希值为对应签名组包括的行序号时,代表计算机设备对目标信息的特征数据采用的局部敏感哈希处理为基于minhash的局部敏感哈希处理,则计算机设备对参考特征数据采用的局部敏感哈希处理为基于minhash的局部敏感哈希处理。当桶对应的代表哈希值为对应签名组包括的比特位时,代表计算机设备对目标信息的特征数据采用的局部敏感哈希处理为基于simhash的局部敏感哈希处理,则计算机设备对参考特征数据采用的局部敏感哈希处理为基于simhash的局部敏感哈希处理。
S808,根据参考签名查找与参考目标信息匹配的代表哈希值。
具体地,当参考签名为计算机设备对参考特征数据进行基于simhash的局部敏感哈希处理得到的参考签名时,计算机设备将参考签名包括的参考哈希值进行划分,得到与目标相信的签名组数量相同的多个参考签名组,一个参考签名组中包括与目标信息的签名组中的行序号或比特位数量相同的多个参考哈希值。计算机设备从信息分类数据库中查找与各参考签名组匹配的代表哈希值。
与各参考签名组匹配的代表哈希值为与各参考签名组相同序号的、且完全相同的代表哈希值。例如某个参考签名组“23455”的序号为2,“23455”中的“2”、“3”、“4”、“5”和“5”是对应目标信息在某次哈希特征矩阵被打乱行顺序时,该目标信息具有的首个特征数据的行序号。则与该参考签名组匹配的代表哈希值为“23455”,且该代表哈希值对应签名组的序号也为2。例如某个参考签名组“01001”的序号为3,“01001”中的“0”和“1”均为二进制的比特位。则与该参考签名组匹配的代表哈希值为“01001”,且该代表哈希值对应签名组的序号也为3。
S810,获取与参考目标信息匹配的代表哈希值对应的目标桶中的目标信息。
具体地,计算机设备从信息分桶库中确定了与各参考哈希值匹配的代表哈希值。代表哈希值作为对应桶的桶标识记录于对应的桶中。计算机设备可以直接从与各参考哈希值匹配的代表哈希值对应的桶中获取目标信息,获取的这些目标信息都是与参考目标信息相似的目标信息。
上述信息查询方法、装置和计算机设备,获取了参考目标信息的静态特征数据和动态特征数据,并对这些特征数据进行局部敏感哈希处理,基于更全面的特征数据更加准确地得到参考目标信息的参考签名。无需将参考目标信息与每个目标信息进行两两比对,直接根据参考签名查找到参考目标信息所属的目标桶,便能从目标桶中一次性得到与参考目标信息相似的多个目标信息,提高了查询效率。
在一个实施例中,获取与参考目标信息匹配的代表哈希值对应的目标桶中的目标信息包括:确定与参考目标信息匹配的代表哈希值对应的目标桶;计算参考目标信息的特征数据集合与目标信息的相似度;从目标桶中获取大于或等于相似度阈值的相似度对应的目标信息。
具体地,计算机设备可以获取目标桶中所有目标信息的签名,将参考目标信息的参考签名与目标桶中各个目标信息的签名进行相似度计算。若参考签名由比特位组成,则计算机设备可以直接将参考签名与各签名进行位运算的比对,得到参考签名与各签名的相似度。
若参考签名由多个行序号组成,则计算机设备可以对参考签名与各签名进行Jaccard相似度计算,得到参考签名与各签名的Jaccard相似度。Jaccard相似度计算指将两个签名的交集个数除以并集个数,则Jaccard相似度取值范围为[0,1]。
本实施例中,计算参考目标信息与目标桶中的目标信息的相似度,获取大于或等于相似度阈值的相似度对应的目标信息,使得获取的与参考目标信息相似的目标信息更加精确。
在一个实施例中,若与参考签名匹配的代表哈希值对应的桶为恶意信息桶,则代表参考目标信息为恶意目标信息。计算机设备可以生成参考目标信息的危险情报,并发送至参考目标信息的源***。危险情报用于告知参考目标信息的源***存在恶意目标信息,以及标识参考目标信息为该源***存在的恶意目标信息。
在一个实施例中,危险情报还可以携带有与参考签名匹配的代表哈希值对应的恶意信息桶中的所有目标信息,以使参考目标信息的源***预防恶意信息桶里的其他恶意目标信息。
如图8所示,在一个实施例中,提供了一种信息查询方法。本实施例主要以该方法应用于上述图1中的计算机设备来举例说明。参照图8,该信息查询方法具体包括如下步骤:
S802,获取参考目标信息;参考目标信息包括域名和文件中的一种。
具体地,当计算机设备接收到查询请求时,从该查询请求中获取参考目标信息,参考目标信息包括域名和文件中的一种。计算机设备需要从信息分桶库中查询参考目标信息所属的桶。
S804,获取参考目标信息的参考特征数据;参考特征数据包括参考目标信息的静态特征数据和动态特征数据。
具体地,特征数据库记录有参考目标信息对应的目标信息历史数据,并基于参考目标信息对应的目标信息历史数据,记录了参考目标信息与其他实体之间的关系。计算机设备可以遍历特征数据库中参考目标信息对应的目标信息历史数据,以及参考目标信息与其他实体之间的关系,从参考目标信息对应的目标信息历史数据和参考目标信息与其他实体之间的关系中,提取各个目标信息的静态特征数据和动态特征数据。
S806,对参考特征数据进行局部敏感哈希处理,得到参考目标信息对应的参考签名。
具体地,参考目标信息的多个参考特征数据可以形成参考目标信息的参考特征数据集合。对参考特征数据集合包括的多个参考特征数据分别进行局部敏感哈希处理,可以得到降维后的、且用数字表示的每个参考特征数据的参考哈希值,将这些参考特征数据的参考哈希值确定为对应的参考目标信息的参考签名。
进一步地,对参考目标信息的参考特征数据采用的局部敏感哈希处理与对目标信息的特征数据采用的局部敏感哈希处理相同。当桶对应的代表哈希值为对应签名组包括的行序号时,代表计算机设备对目标信息的特征数据采用的局部敏感哈希处理为基于minhash的局部敏感哈希处理,则计算机设备对参考特征数据采用的局部敏感哈希处理为基于minhash的局部敏感哈希处理。当桶对应的代表哈希值为对应签名组包括的比特位时,代表计算机设备对目标信息的特征数据采用的局部敏感哈希处理为基于simhash的局部敏感哈希处理,则计算机设备对参考特征数据采用的局部敏感哈希处理为基于simhash的局部敏感哈希处理。
S808,根据参考签名查找与参考目标信息匹配的代表哈希值。
具体地,当参考签名为计算机设备对参考特征数据进行基于minhash的局部敏感哈希处理得到的参考签名时,计算机设备将参考签名包括的参考哈希值进行划分,得到与目标相信的签名组数量相同的多个参考签名组,一个参考签名组中包括与目标信息的签名组中的行序号或比特位数量相同的多个参考哈希值。计算机设备从信息分类数据库中查找与各参考签名组匹配的代表哈希值。
与各参考签名组匹配的代表哈希值为与各参考签名组相同序号的、且完全相同的代表哈希值。例如某个参考签名组“23455”的序号为2,“23455”中的“2”、“3”、“4”、“5”和“5”是对应目标信息在某次哈希特征矩阵被打乱行顺序时,该目标信息具有的首个特征数据的行序号。则与该参考签名组匹配的代表哈希值为“23455”,且该代表哈希值对应签名组的序号也为2。例如某个参考签名组“01001”的序号为3,“01001”中的“0”和“1”均为二进制的比特位。则与该参考签名组匹配的代表哈希值为“01001”,且该代表哈希值对应签名组的序号也为3。
在一个实施例中,计算机设备可以预先将各个桶对应的签名组中的目标哈希值,确定为该桶的代表哈希值,并在该桶中记录对应签名组的序号和确定的代表哈希值。例如图7中存在第一组需要存储到相同桶中的[d1,d2],则可以将h1min和h2min对应的“11”确定为该桶的代表哈希值,并在该桶中记录对第一组的组序号“1”和代表哈希值“11”。
S810,获取与参考目标信息匹配的代表哈希值对应的目标桶中的目标信息。
具体地,计算机设备从信息分桶库中确定了与各参考哈希值匹配的代表哈希值。代表哈希值作为对应桶的桶标识记录于对应的桶中。计算机设备可以直接从与各参考哈希值匹配的代表哈希值对应的桶中获取目标信息,获取的这些目标信息都是与参考目标信息相似的目标信息。
上述信息查询方法、装置和计算机设备,获取了参考目标信息的静态特征数据和动态特征数据,并对这些特征数据进行局部敏感哈希处理,基于更全面的特征数据更加准确地得到参考目标信息的参考签名。无需将参考目标信息与每个目标信息进行两两比对,直接根据参考签名查找到参考目标信息所属的目标桶,便能从目标桶中一次性得到与参考目标信息相似的多个目标信息,提高了查询效率。
在一个实施例中,获取与参考目标信息匹配的代表哈希值对应的目标桶中的目标信息包括:确定与参考目标信息匹配的代表哈希值对应的目标桶;计算参考目标信息的特征数据集合与目标信息的相似度;从目标桶中获取大于或等于相似度阈值的相似度对应的目标信息。
具体地,计算机设备可以获取目标桶中所有目标信息的签名,将参考目标信息的参考签名与目标桶中各个目标信息的签名进行相似度计算。若参考签名由比特位组成,则计算机设备可以直接将参考签名与各签名进行位运算的比对,得到参考签名与各签名的相似度。
若参考签名由行序号组成,则计算机设备可以对参考签名与各签名进行Jaccard相似度计算,得到参考签名与各签名的Jaccard相似度。Jaccard相似度计算指将两个签名的交集个数除以并集个数,则Jaccard相似度取值范围为[0,1]。
本实施例中,计算参考目标信息与目标桶中的目标信息的相似度,获取大于或等于相似度阈值的相似度对应的目标信息,使得获取的与参考目标信息相似的目标信息更加精确。
在一个实施例中,由于一个桶里的目标信息间相似,当计算机设备检测到一个桶中存在至少一个属于病毒家族的目标信息时,代表该桶里的其他目标信息也为恶意目标信息。计算机设备可以预先将该桶标记为恶意信息桶。
若与参考签名匹配的代表哈希值对应的桶为恶意信息桶,则代表参考目标信息为恶意目标信息。计算机设备可以生成参考目标信息的危险情报,并发送至参考目标信息的源***。危险情报用于告知参考目标信息的源***存在恶意目标信息,以及标识参考目标信息为该源***存在的恶意目标信息。
在一个实施例中,危险情报还可以携带有与参考签名匹配的代表哈希值对应的恶意信息桶中的所有目标信息,以使参考目标信息的源***预防恶意信息桶里的其他恶意目标信息。
应该理解的是,虽然图2、3、6和8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3、6和8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图9所示,在一个实施例中,提供了一种信息处理装置900,该信息处理装置包括目标信息确定模块901、特征数据获取模块902、特征数据处理模块903和目标信息归类模块904,其中:
目标信息确定模块901,用于确定待处理的多个目标信息;目标信息包括域名和文件中的一种;
特征数据获取模块902,用于获取各个目标信息的特征数据;特征数据包括目标信息的静态特征数据和动态特征数据;
特征数据处理模块903,用于对特征数据进行局部敏感哈希处理,得到各个目标信息各自对应的签名;
目标信息归类模块904,用于将符合相似条件的签名所对应的目标信息归类到相同桶中。
在一个实施例中,特征数据获取模块902还用于从基于目标信息历史数据生成的安全知识图谱中,获取各个目标信息的动态数据组和静态特征数据;动态数据组包括多个动态数据;从动态数据组中提取多个动态数据共同的动态特征数据,得到各个目标信息的特征数据。
在一个实施例中,特征数据处理模块903还用于基于各个目标信息的各个特征数据确定哈希特征矩阵;多次改变哈希特征矩阵的行顺序,并记录哈希特征矩阵处于不同行顺序时,各个目标信息对应的首个特征数据所对应的特征标识;按照记录的特征标识,确定各个目标信息各自对应的签名。
在一个实施例中,特征数据处理模块903还用于对各个目标信息的各个特征数据进行哈希处理,得到各个特征数据的哈希值;按照各个特征数据的权重对各个特征数据的哈希值进行加权,得到加权哈希值;分别将各个目标信息的多个加权哈希值进行合并,得到合并后的哈希值;分别对各个目标信息的合并后的哈希值进行降维,得到各个目标信息各自对应的签名。
在一个实施例中,目标信息归类模块904还用于对每个签名进行划分,得到对应的目标信息的多个签名组;将各目标信息对应的相同序号的签名组进行比对,得到多个相同签名组;分别将各相同签名组对应的目标信息归类到相同桶中;各个桶中包含的目标信息为相同桶。
在一个实施例中,每个桶记录有根据相似条件从签名中提取的代表哈希值,信息处理装置还包括信息查询模块,用于获取参考目标信息;参考目标信息包括域名和文件中的一种;获取参考目标信息的参考特征数据;参考特征数据包括参考目标信息的静态特征数据和动态特征数据;对参考特征数据进行局部敏感哈希处理,得到参考目标信息对应的参考签名;根据参考签名查找与参考目标信息匹配的代表哈希值;获取与参考目标信息匹配的代表哈希值对应的目标桶中的目标信息。
如图10所示,在一个实施例中,提供了一种信息查询装置1000,该装置包括参考目标信息获取模块1001、参考特征数据获取模块1002、参考特征数据处理模块1003、参考目标信息匹配模块1004和目标信息获取模块1005,其中:
参考目标信息获取模块1001,用于获取参考目标信息;参考目标信息包括域名和文件中的一种;
参考特征数据获取模块1002,用于获取参考目标信息的参考特征数据;参考特征数据包括参考目标信息的静态特征数据和动态特征数据;
参考特征数据处理模块1003,用于对参考特征数据进行局部敏感哈希处理,得到参考目标信息对应的参考签名;
参考目标信息匹配模块1004,用于根据参考签名查找与参考目标信息匹配的代表哈希值;
目标信息获取模块1005,用于获取与参考目标信息匹配的代表哈希值对应的目标桶中的目标信息。
图11示出了一个实施例中计算机设备的内部结构图。如图11所示,该计算机设备包括存储器和处理器,存储器中存储有计算机程序。计算机程序被处理器执行时,可以实现本申请提供的位图的索引搜索方法。该计算机设备可以是终端,也可以是服务器。可以理解的是,当计算机设备为终端时,该计算机设备还可以包括显示屏和输入装置等。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的信息处理装置或信息查询装置可以实现为一种计算机程序的形式,计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该信息处理装置或信息查询装置的各个程序模块,比如图9所示的目标信息确定模块901、特征数据获取模块902、特征数据处理模块903和目标信息归类模块904。比如图10所示的参考目标信息获取模块1001、参考特征数据获取模块1002、参考特征数据处理模块1003、参考目标信息匹配模块1004和目标信息获取模块1005。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的信息处理方法或信息查询方法中的步骤。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述信息处理方法或信息查询方法中的步骤。此处的信息处理方法或信息查询方法的步骤可以是上述各个实施例的信息处理方法或信息查询方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述信息处理方法或信息查询方法的步骤。此处的信息处理方法或信息查询方法的步骤可以是上述各个实施例的信息处理方法或信息查询方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (14)
1.一种信息处理方法,其特征在于,包括:
确定待处理的多个目标信息;所述目标信息包括域名和文件中的一种;
获取各个所述目标信息的特征数据;所述特征数据包括所述目标信息的静态特征数据和动态特征数据;所述目标信息的静态特征数据和动态特征数据是从基于目标信息历史数据生成的安全知识图谱中获取的;所述安全知识图谱是展示了目标信息与其他实体之间关系的图数据库;
对所述特征数据进行局部敏感哈希处理,得到各个所述目标信息各自对应的签名;
对每个所述签名进行划分,得到对应的目标信息的多个签名组;
将同序号的、且符合相似条件的所述签名组所对应的目标信息归类到相同桶中;
基于参考目标信息对应的参考签名,查找与所述参考目标信息匹配的代表哈希值;
获取与所述参考目标信息匹配的代表哈希值对应的目标桶中的所述目标信息。
2.根据权利要求1所述的方法,其特征在于,所述获取各个所述目标信息的特征数据包括:
从基于目标信息历史数据生成的安全知识图谱中,获取各个所述目标信息的动态数据组和静态特征数据;所述动态数据组包括多个动态数据;
从所述动态数据组中提取所述多个动态数据共同的动态特征数据,得到各个所述目标信息的特征数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述特征数据进行局部敏感哈希处理,得到各个所述目标信息各自对应的签名包括:
基于各个所述目标信息的各个所述特征数据确定哈希特征矩阵;
多次改变所述哈希特征矩阵的行顺序,并记录所述哈希特征矩阵处于不同行顺序时,各个所述目标信息对应的首个特征数据所对应的特征标识;
按照记录的所述特征标识,确定各个所述目标信息各自对应的签名。
4.根据权利要求1所述的方法,其特征在于,所述对所述特征数据进行局部敏感哈希处理,得到各个所述目标信息各自对应的签名包括:
对各个所述目标信息的各个所述特征数据进行哈希处理,得到各个所述特征数据的哈希值;
按照各个所述特征数据的权重对各个所述特征数据的哈希值进行加权,得到加权哈希值;
分别将各个所述目标信息的多个所述加权哈希值进行合并,得到合并后的哈希值;
分别对各个所述目标信息的合并后的哈希值进行降维,得到各个所述目标信息各自对应的签名。
5.根据权利要求1所述的方法,其特征在于,所述将同序号的、且符合相似条件的所述签名组所对应的目标信息归类到相同桶中包括:
将各目标信息对应的相同序号的签名组进行比对,得到多个相同签名组;
分别将各相同签名组对应的目标信息归类到相同桶中。
6.根据权利要求1-5任意一项所述的方法,其特征在于,每个所述桶记录有根据所述相似条件从所述签名中提取的代表哈希值,所述方法还包括:
获取参考目标信息;所述参考目标信息包括域名和文件中的一种;
获取所述参考目标信息的参考特征数据;所述参考特征数据包括所述参考目标信息的静态特征数据和动态特征数据;
对所述参考特征数据进行局部敏感哈希处理,得到所述参考目标信息对应的参考签名。
7.一种信息处理装置,其特征在于,所述装置包括:
目标信息确定模块,用于确定待处理的多个目标信息;所述目标信息包括域名和文件中的一种;
特征数据获取模块,用于获取各个所述目标信息的特征数据;所述特征数据包括所述目标信息的静态特征数据和动态特征数据;所述目标信息的静态特征数据和动态特征数据是从基于目标信息历史数据生成的安全知识图谱中获取的;所述安全知识图谱是展示了目标信息与其他实体之间关系的图数据库;
特征数据处理模块,用于对所述特征数据进行局部敏感哈希处理,得到各个所述目标信息各自对应的签名;
目标信息归类模块,用于对每个所述签名进行划分,得到对应的目标信息的多个签名组;将同序号的、且符合相似条件的所述签名组所对应的目标信息归类到相同桶中;
信息查询模块,用于基于参考目标信息对应的参考签名,查找与所述参考目标信息匹配的代表哈希值;获取与所述参考目标信息匹配的代表哈希值对应的目标桶中的所述目标信息。
8.根据权利要求7所述的信息处理装置,其特征在于,所述特征数据获取模块还用于从基于目标信息历史数据生成的安全知识图谱中,获取各个所述目标信息的动态数据组和静态特征数据;所述动态数据组包括多个动态数据;从所述动态数据组中提取所述多个动态数据共同的动态特征数据,得到各个所述目标信息的特征数据。
9.根据权利要求7所述的信息处理装置,其特征在于,所述特征数据处理模块还用于基于各个所述目标信息的各个所述特征数据确定哈希特征矩阵;多次改变所述哈希特征矩阵的行顺序,并记录所述哈希特征矩阵处于不同行顺序时,各个所述目标信息对应的首个特征数据所对应的特征标识;按照记录的所述特征标识,确定各个所述目标信息各自对应的签名。
10.根据权利要求7所述的信息处理装置,其特征在于,所述特征数据处理模块还用于对各个所述目标信息的各个所述特征数据进行哈希处理,得到各个所述特征数据的哈希值;按照各个所述特征数据的权重对各个所述特征数据的哈希值进行加权,得到加权哈希值;分别将各个所述目标信息的多个所述加权哈希值进行合并,得到合并后的哈希值;分别对各个所述目标信息的合并后的哈希值进行降维,得到各个所述目标信息各自对应的签名。
11.根据权利要求7所述的信息处理装置,其特征在于,所述目标信息归类模块还用于将各目标信息对应的相同序号的签名组进行比对,得到多个相同签名组;分别将各相同签名组对应的目标信息归类到相同桶中。
12.根据权利要求7-11任意一项所述的信息处理装置,其特征在于,每个所述桶记录有根据所述相似条件从所述签名中提取的代表哈希值,所述装置还包括:信息查询模块,用于获取参考目标信息;所述参考目标信息包括域名和文件中的一种;获取所述参考目标信息的参考特征数据;所述参考特征数据包括所述参考目标信息的静态特征数据和动态特征数据;对所述参考特征数据进行局部敏感哈希处理,得到所述参考目标信息对应的参考签名。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168801.1A CN111666258B (zh) | 2019-03-06 | 2019-03-06 | 信息处理方法和装置、信息查询方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168801.1A CN111666258B (zh) | 2019-03-06 | 2019-03-06 | 信息处理方法和装置、信息查询方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666258A CN111666258A (zh) | 2020-09-15 |
CN111666258B true CN111666258B (zh) | 2024-02-06 |
Family
ID=72381348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910168801.1A Active CN111666258B (zh) | 2019-03-06 | 2019-03-06 | 信息处理方法和装置、信息查询方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666258B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966649B (zh) * | 2020-10-21 | 2021-01-01 | 中国人民解放军国防科技大学 | 一种高效去重的轻量级在线文件存储方法及装置 |
CN112183092B (zh) * | 2020-10-30 | 2023-08-15 | 深圳平安智汇企业信息管理有限公司 | 简历查重方法、装置、设备及介质 |
CN112131571B (zh) * | 2020-11-20 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 威胁溯源方法及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978521A (zh) * | 2014-04-10 | 2015-10-14 | 北京启明星辰信息安全技术有限公司 | 一种实现恶意代码标注的方法及*** |
CN107180192A (zh) * | 2017-05-09 | 2017-09-19 | 北京理工大学 | 基于多特征融合的安卓恶意应用程序检测方法和*** |
CN107729557A (zh) * | 2017-11-08 | 2018-02-23 | 北京大学 | 一种编目信息的分类、检索方法和装置 |
CN109361643A (zh) * | 2018-06-22 | 2019-02-19 | ***通信集团广东有限公司 | 一种恶意样本的深度溯源方法 |
-
2019
- 2019-03-06 CN CN201910168801.1A patent/CN111666258B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978521A (zh) * | 2014-04-10 | 2015-10-14 | 北京启明星辰信息安全技术有限公司 | 一种实现恶意代码标注的方法及*** |
CN107180192A (zh) * | 2017-05-09 | 2017-09-19 | 北京理工大学 | 基于多特征融合的安卓恶意应用程序检测方法和*** |
CN107729557A (zh) * | 2017-11-08 | 2018-02-23 | 北京大学 | 一种编目信息的分类、检索方法和装置 |
CN109361643A (zh) * | 2018-06-22 | 2019-02-19 | ***通信集团广东有限公司 | 一种恶意样本的深度溯源方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111666258A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kirat et al. | Sigmal: A static signal processing based malware triage | |
AU2020223632B2 (en) | System and method for detecting data anomalies by analysing morphologies of known and/or unknown cybersecurity threats | |
CN111666258B (zh) | 信息处理方法和装置、信息查询方法和装置 | |
CN107704501B (zh) | 一种识别同源二进制文件的方法及*** | |
US10649997B2 (en) | Method, system and computer program product for performing numeric searches related to biometric information, for finding a matching biometric identifier in a biometric database | |
CN104025107A (zh) | 模糊列入白名单反恶意软件***及方法 | |
EP3346664B1 (en) | Binary search of byte sequences using inverted indices | |
Gül et al. | A survey on anti-forensics techniques | |
Al Fahdi et al. | A suspect-oriented intelligent and automated computer forensic analysis | |
US10083194B2 (en) | Process for obtaining candidate data from a remote storage server for comparison to a data to be identified | |
Lillis et al. | Expediting mrsh-v2 approximate matching with hierarchical bloom filter trees | |
CA3031113A1 (en) | Protected indexing and querying of large sets of textual data | |
CN117061254B (zh) | 异常流量检测方法、装置和计算机设备 | |
Paik et al. | Malware classification using a byte‐granularity feature based on structural entropy | |
US11487876B1 (en) | Robust whitelisting of legitimate files using similarity score and suspiciousness score | |
CN116821053A (zh) | 数据上报方法、装置、计算机设备和存储介质 | |
CN112347477A (zh) | 家族变种恶意文件挖掘方法和装置 | |
Ban et al. | An Empirical Study on the Effectiveness of Adversarial Examples in Malware Detection. | |
Han et al. | Distributed malware detection based on binary file features in cloud computing environment | |
CN114398887A (zh) | 一种文本分类方法、装置及电子设备 | |
US11263177B2 (en) | Identification of portions of data | |
Singh | Essential Characteristics of Approximate matching algorithms: A Survey of Practitioners Opinions and requirement regarding Approximate Matching | |
US8265428B2 (en) | Method and apparatus for detection of data in a data store | |
Kishore et al. | Faster file imaging framework for digital forensics | |
Jeyaseeli et al. | Design of an Efficient Smart Phone Data Extraction Tool Using Aho-Corasick Algorithm. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |