CN114021116B - 一种同源分析知识库的构建方法、同源分析方法及装置 - Google Patents

一种同源分析知识库的构建方法、同源分析方法及装置 Download PDF

Info

Publication number
CN114021116B
CN114021116B CN202210002635.XA CN202210002635A CN114021116B CN 114021116 B CN114021116 B CN 114021116B CN 202210002635 A CN202210002635 A CN 202210002635A CN 114021116 B CN114021116 B CN 114021116B
Authority
CN
China
Prior art keywords
homologous
unique identifier
homology
fuzzy hash
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210002635.XA
Other languages
English (en)
Other versions
CN114021116A (zh
Inventor
康吉金
曹剑锐
樊兴华
薛锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ThreatBook Technology Co Ltd
Original Assignee
Beijing ThreatBook Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ThreatBook Technology Co Ltd filed Critical Beijing ThreatBook Technology Co Ltd
Priority to CN202210002635.XA priority Critical patent/CN114021116B/zh
Publication of CN114021116A publication Critical patent/CN114021116A/zh
Application granted granted Critical
Publication of CN114021116B publication Critical patent/CN114021116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种同源分析知识库的构建方法、同源分析方法及装置,该同源分析知识库的构建方法包括:收集种子样本文件及其在在沙箱中运行时产生的中间文件;对上述两个文件进行格式识别,得到格式识别结果;对上述两个文件进行分析,得到与格式识别结果相匹配的模糊哈希;获取与模糊哈希相匹配的背景信息;根据背景信息,计算模糊哈希对应的同源权值;根据模糊哈希、同源权值以及背景信息,构建同源分析知识库。可见,该方法能够自动提取各种样本文件的模糊哈希和全局唯一标识符并形成同源知识库,以使各类设备可以根据该同源知识库进行自动化同源分析,从而避免传统方法中对人工分析的依赖,进而有利于提高同源分析效率与同源分析准确性。

Description

一种同源分析知识库的构建方法、同源分析方法及装置
技术领域
本申请涉及网络安全领域,具体而言,涉及一种同源分析知识库的构建方法、同源分析方法及装置。
背景技术
网络攻击是指针对计算机信息***、基础设施、计算机网络或个人计算机设备的攻击动作,网络攻击具体包含破坏、修改、使软件或服务不可用等行为。
近年来,网络安全问题日益突出,网络攻击呈现出高发且复杂化的趋势。 为了解决该类网络攻击的问题,各个企业或厂商都会聘用一些专业人才来对网络数据进行分析,从而使之能够应对不同的网络威胁。然而,在实践中发现,该种方式中仍然无法及时、高效地对网络数据进行分析,从而导致网络威胁仍然存在;同时,该种方式中人力限制较大,不利于高效、准确地进行网络安全防护。
发明内容
本申请实施例的目的在于提供一种同源分析知识库的构建方法、同源分析方法及装置,能够自动提取各种样本文件的模糊哈希和全局唯一标识符并形成同源知识库,以使各类设备可以根据该同源知识库进行自动化同源分析,从而避免传统方法中对人工分析的依赖,进而有利于提高同源分析效率与同源分析准确性。
本申请实施例第一方面提供了一种同源分析知识库的构建方法,包括:
收集种子样本文件;
收集所述种子样本文件在沙箱中运行时产生的中间文件;
对所述种子样本文件和所述中间文件进行格式识别,得到格式识别结果;
对所述种子样本文件和所述中间文件进行分析,得到与所述格式识别结果相匹配的模糊哈希和/或全局唯一标识符;
获取与所述模糊哈希和/或全局唯一标识符相匹配的背景信息;
根据所述背景信息,计算所述模糊哈希和/或所述全局唯一标识符对应的同源权值;
根据所述模糊哈希和/或所述全局唯一标识符、所述同源权值以及所述背景信息,构建同源分析知识库。
在上述实现过程中,该方法能够优先根据种子样本文件和沙箱中间文件确定对应的模糊哈希和全局唯一标识符,然后再通过该模糊哈希和全局唯一标识符相匹配的背景信息,再后该方法能够根据获取到的模糊哈希、全局唯一标识符和背景信息构建同源分析知识库,以使该同源分析知识库能够用于同源分析的过程中,从而提高同源分析的自动化程度和分析精度。
进一步地,所述收集种子样本文件的步骤,包括:
收集原始样本文件;
对所述原始样本进行分类整理,得到种子样本文件;其中,所述种子样本文件包括白样本文件、木马家族样本文件、APT组织样本文件中的一种或者多种。
进一步地,所述对所述种子样本文件和所述中间文件进行分析,得到与所述格式识别结果相匹配的模糊哈希和/或全局唯一标识符的步骤,包括:
确定与所述格式识别结果相匹配的静态解析和分析方案;
根据所述静态解析和分析方案,对所述种子样本文件和所述中间文件进行分析,得到模糊哈希和/或全局唯一标识符。
进一步地,所述根据所述背景信息,计算所述模糊哈希和/或所述全局唯一标识符对应的同源权值的步骤包括:
确定所述模糊哈希和/或所述全局唯一标识符相匹配的至少一个家族组织;
确定所述模糊哈希和/或所述全局唯一标识符在所述至少一个家族组织中出现的至少一个目标次数;
根据所述至少一个目标次数进行计算,得到总出现次数;
根据所述至少一个目标次数和所述总出现次数,计算所述模糊哈希和/或所述全局唯一标识符对应的同源权值。
本申请实施例第二方面提供了一种同源分析方法,所述同源分析方法中使用的同源分析知识库是通过本申请实施例第一方面中任一项所述的同源分析知识库的构建方法进行构建得到的,所述方法包括:
收集待分析样本文件;
收集所述待分析样本文件在沙箱中运行时产生的中间文件;
对所述待分析样本文件和所述中间文件进行格式识别,得到格式识别结果;
对所述待分析样本文件和所述中间文件进行分析,得到与所述格式识别结果相匹配的模糊哈希和/或全局唯一标识符;
根据所述同源分析知识库,确定与所述模糊哈希和/或所述全局唯一标识符相匹配的同源结果和同源信度。
在上述实现过程中,该方法可以通过同源分析知识库对待分析文件地模糊哈希和全局唯一标识符进行同源分析,从而得到相应的同源结果和同源信度,进而使得用户能够根据该同源结果和同源信度进行其他的安全分析与防护操作。
进一步地,所述根据所述同源分析知识库,确定与所述模糊哈希和/或所述全局唯一标识符相匹配的同源结果和同源信度的步骤包括:
在所述同源分析知识库中,查询与所述模糊哈希和/或所述全局唯一标识符相匹配的同源结果和匹配度;
在所述同源分析知识库中,获取与所述同源结果相匹配的同源权值;
计算所述匹配度和所述同源权值的乘积,得到同源信度值;
根据所述同源信度值,确定与所述模糊哈希和/或所述全局唯一标识符相匹配的同源信度。
本申请实施例第三方面提供了一种同源分析知识库的构建装置,所述同源分析知识库的构建装置包括:
第一收集单元,用于收集种子样本文件;
所述第一收集单元,还用于收集所述种子样本文件在沙箱中运行时产生的中间文件;
第一识别单元,用于对所述种子样本文件和所述中间文件进行格式识别,得到格式识别结果;
第一分析单元,用于对所述种子样本文件和所述中间文件进行分析,得到与所述格式识别结果相匹配的模糊哈希和/或全局唯一标识符;
第一获取单元,用于与所述模糊哈希和/或全局唯一标识符相匹配的背景信息;
第一计算单元,用于根据所述背景信息,计算所述模糊哈希和/或所述全局唯一标识符对应的同源权值;
第一构建单元,用于根据所述模糊哈希和/或所述全局唯一标识符、所述同源权值以及所述背景信息,构建同源分析知识库。
本申请实施例第四方面提供了一种同源分析装置,所述同源分析装置中使用的同源分析知识库是通过本申请实施例第三方面所述的同源分析知识库的构建装置构建的,所述同源分析装置包括:
第二收集单元,用于收集待分析样本文件;
所述第二收集单元,还用于收集所述待分析样本文件在沙箱中运行时产生的中间文件;
第二识别单元,用于对所述待分析样本文件和所述中间文件进行格式识别,得到格式识别结果;
第二分析单元,用于对所述待分析样本文件和所述中间文件进行分析,得到与所述格式识别结果相匹配的模糊哈希和/或全局唯一标识符;
第二确定单元,用于根据所述同源分析知识库,确定与所述模糊哈希和/或所述全局唯一标识符相匹配的同源结果和同源信度。
本申请实施例第五方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的同源分析知识库的构建方法。
本申请实施例第六方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的同源分析知识库的构建方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种同源分析知识库的构建方法的流程示意图;
图2为本申请实施例提供的一种同源分析方法的流程示意图;
图3为本申请实施例提供的一种同源分析知识库的构建装置的结构示意图;
图4为本申请实施例提供的一种同源分析装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本申请实施例提供了一种同源分析知识库的构建方法的流程示意图。其中,该同源分析知识库的构建方法包括:
S101、收集种子样本文件。
本实施例中,种子样本文件用于形成同源分析知识库。
作为一种可选的实施方式,步骤S101包括:
收集原始样本文件;
对原始样本进行分类整理,得到种子样本文件;其中,种子样本文件包括白样本文件、木马家族样本文件、APT组织样本文件中的一种或者多种。
本实施例中,该方法可以对收集到的原始样本文件进行分类整理,使得原始样本文件被分为白样本文件、木马家族样本文件和APT组织样本文件。
在本实施例中,该方法中还可以有其他的样本文件。
S102、收集种子样本文件在沙箱中运行时产生的中间文件。
本实施例中,该方法将收集到的种子样本文件投入到沙箱中运行,病实时收集该运行过程中产生的可执行文件等中间文件。
本实施例中,该方法对待分析样本文件格式识别,可以得到一个格式识别结果,该方法对中间文件进行格式识别,还可以得到一个格式识别结果。
在本实施例中,该方法可以实现对样本的扩展,从而增大样本数量,增加同源分析知识库的容量,进而为后续的同源分析过程提供更有效的支持。
S103、对种子样本文件和中间文件进行格式识别,得到格式识别结果。
本实施例中,格式识别结果包括其中.NET文件格式、PE文件格式、ELF文件格式、包含图标或能提取出图标的文件格式、DEX或包含DEX的文件、其他文件。
S104、对种子样本文件和中间文件进行分析,得到与格式识别结果相匹配的模糊哈希和/或全局唯一标识符。
本实施例中,因为种子样本文件和中间文件都不止一个,所以获取到的模糊哈希和/或全局唯一标识符也都不止一个。
作为一种可选的实施方式,步骤S104包括:
确定与格式识别结果相匹配的静态解析和分析方案;
根据静态解析和分析方案,对种子样本文件和中间文件进行分析,得到模糊哈希和/或全局唯一标识符。
本实施例中,该方法可以提取出ImpHash、impfuzzy、SSDEEP、Dexofuzzy、RichHash、TLSH、Telfhash、sdhash、peHash、DHash等模糊哈希,以及MVID(Module VersionID)和TLID(TypeLib ID)等GUID(全局唯一标识符)。
在本实施例中,MVID和TLID针对.NET文件;ImpHash、impfuzzy、RichHash、peHash、peHashNG针对PE文件;Telfhash针对ELF文件;DHash针对包含图标或能提取出图标的文件;Dexofuzzy针对DEX或包含DEX的文件;SSDEEP 、sdhash和TLSH针对所有文件。
S105、获取与模糊哈希和/或全局唯一标识符相匹配的背景信息。
本实施例中,当模糊哈希和/或全局唯一标识符不止一个的时候,该方法可以对模糊哈希和/或全局唯一标识符进行汇总分析。
在本实施例中,该方法在对模糊哈希和/或全局唯一标识符进行汇总分析之后,补充木马家族和黑客组织等背景信息,以便后续步骤形成同源知识库。
S106、确定模糊哈希和/或全局唯一标识符相匹配的至少一个家族组织。
本实施例中,该方法可以获取模糊哈希和/或全局唯一标识符对应的背景信息,并在该背景信息中提取出至少一个家族信息。其中,该家族信息可以为木马家族信息,也可以为APT组织信息。
S107、确定模糊哈希和/或全局唯一标识符在至少一个家族组织中出现的至少一个目标次数。
本实施例中,因为种子样本文件通常具有多个,所以可以模糊哈希和/或全局唯一标识符通常也会具有多个。其中,可以理解的是,模糊哈希和/或全局唯一标识符可以出现一样的。此时,一样的模糊哈希和/或全局唯一标识符还可以对应于不同的木马家族或APT组织。
举例来说,当一个模糊哈希对应的背景信息中包括多个木马家族时,记录该每个木马家族中都具有该模糊哈希。假如木马家族为family1和family2,那么该family1中具有该模糊哈希,该family2中也具有该模糊哈希。
然而,假设上述模糊哈希为hash1,那么通常来说会有多个种子样本文件的模糊哈希为hash1。例如,种子样本文件1、种子样本文件2、种子样本文件3的模糊哈希都为hash1。
但是,种子样本文件1的背景信息中只表明了hash1属于上述的family1;种子样本文件2的背景信息中也只表明了hash1属于上述的family1;种子样本文件3的背景信息中却表明了hash1属于上述的family1和family2。
那么,此时获取到的该模糊哈希hash1在family1中出现的次数为3,在family2中出现的次数为1。
S108、根据至少一个目标次数进行计算,得到总出现次数。
本实施例中,根据上述举例可知,该总出现次数应当为上述的3次和1次的和,即4次。
S109、根据至少一个目标次数和总出现次数,计算模糊哈希和/或全局唯一标识符对应的同源权值。
本实施例中,当模糊哈希和/或全局唯一标识符的背景信息中包括多个木马家族和APT组织时,一个同源权值可以用于指代一个同源权值组。
在本实施例中,基于上述的例子可以得知,hash1出现在family1中的次数为3,hash1出现在family2中的次数为1,hash1的总出现次数为4,。基于此,hash1对应于family1的同源权值应当为0.75,hash1对应于family2的同源权值应当为0.25。
就如上述过程所示,如果某模糊哈希或GUID在多个木马家族或APT组织中出现,则取对应木马家族或APT组织所占样本数量除以对应样本总数量,取小数点后两位作为提取的模糊哈希或GUID的同源权值。
结合上述步骤S106~S107举例,如模糊哈希hash1对应木马家族family1和family2的样本数量分别为7和3,哈希值Hash1关联样本总数为10,则哈希值hash1对应的同源权值为family1:0.70,family2:0.30。
本实施例中,如果某模糊哈希或GUID(全局唯一标识符)只在一个家族或组织中出现,则认为其对应权值为1。
S110、根据模糊哈希和/或全局唯一标识符、同源权值以及背景信息,构建同源分析知识库。
本实施例中,该方法针对每个模糊哈希或GUID都单独处理,处理完之后加入同源分析知识库,当所有的模糊哈希和GUID都入库完毕时,同源分析知识库构建完成。
在本实施例中,该方法可以随时加入新的样本文件参与构建,从而实现丰富同源分析知识库的效果。
实施这种实施方式,能够自动提取木马的模糊哈希和GUID指纹信息并形成同源知识库,无需过多依赖人工分析,降低成本低;还能够覆盖十余种模糊哈希和GUID,保证了对各种文件格式的同源支持,能有效规避传统同源分析通常只关注可执行文件的局限;还能够通过其多种角度的支持,在命中多条结果的时候可以提高同源的信度;还能够通过沙箱动态运行样本获取中间文件作为新的输入,一定程度上能对抗加壳、加密和混淆等对抗手段对同源效果的影响;还能够由人工持续输入验证过的属于某家族和组织的样本,持续丰富同源分析知识库。
本申请实施例中,该方法的执行主体可以为计算机、服务器等计算装置,对此本实施例中不作任何限定。
在本申请实施例中,该方法的执行主体还可以为智能手机、平板电脑等智能设备,对此本实施例中不作任何限定。
可见,实施本实施例所描述的同源分析知识库的构建方法,能够优先根据种子样本文件和沙箱中间文件确定对应的模糊哈希和全局唯一标识符,然后再通过该模糊哈希和全局唯一标识符相匹配的背景信息,再后该方法能够根据获取到的模糊哈希、全局唯一标识符和背景信息构建同源分析知识库,以使该同源分析知识库能够用于同源分析的过程中,从而提高同源分析的自动化程度和分析精度。
实施例2
请参看图2,图2为本申请实施例提供了一种同源分析方法的流程示意图。其中,该同源分析方法包括:
S201、收集待分析样本文件。
本实施例中,该方法可以接受用户输入的要进行同源分析的样本文件。
S202、收集待分析样本文件在沙箱中运行时产生的中间文件。
本实施例中,该方法使用沙箱分析上述的待分析样本文件,获取中间文件。
在本实施例中,该种方法可以对一个待分析样本文件进行样本扩展,从而使得该方法可以对两个文件进行同源分析,得到两个同源分析结果,从而能够在最后根据两个同源分析结果确定出该待分析样本的准确同源分析结果。
S203、对待分析样本文件和中间文件进行格式识别,得到格式识别结果。
本实施例中,该方法对待分析样本文件格式识别,可以得到一个格式识别结果,该方法对中间文件进行格式识别,还可以得到一个格式识别结果。
S204、对待分析样本文件和中间文件进行分析,得到与格式识别结果相匹配的模糊哈希和/或全局唯一标识符。
本实施例中,该方法可以对待分析样本文件和中间文件进行静态解析和分析,从而提取出与格式识别结果相匹配的模糊哈希和/或全局唯一标识符。
在本实施例中,格式识别结果与模糊哈希和/或全局唯一标识符之间的匹配关系可以参照实施例1中所描述的内容。
S205、在同源分析知识库中,查询与模糊哈希和/或全局唯一标识符相匹配的同源结果和匹配度。
本实施例中,匹配度用于表示该模糊哈希和/或全局唯一标识符与同源分析数据库中的模糊哈希和/或全局唯一标识符之间的匹配程度。其中,该匹配程度可以理解为相似程度。
在本实施例中,通过模糊哈希和/或全局唯一标识符可以确定出同源分析知识库中的模糊哈希和/或全局唯一标识符,该同源分析知识库中的模糊哈希和/或全局唯一标识符即为匹配结果。
S206、在同源分析知识库中,获取与同源结果相匹配的同源权值。
本实施例中,同源权值为同源分析知识库中的模糊哈希和/或全局唯一标识符所对应的同源权值。
S207、计算匹配度和同源权值的乘积,得到同源信度值。
举例来说,该方法可以对ImpHash、RichHash、peHash、peHashNG、DHash、Telfhash、MVID和TLID进行全词匹配,如命中则设匹配度权值为1,如无则为0;然后对impfuzzy、SSDEEP、Dexofuzzy、TLSH和sdhash则按对应匹配算法,取匹配度作为权值。如某样本提取的TLSH与同源知识库中某TLSH值进行比对,匹配度为70%,则设对应匹配度权值为0.70。在此基础上,如同源知识库中对应的TLSH的某家族Family3的同源权值为0.6,则该样本与Family3在TLSH角度的同源度为0.70乘以0.6,等于0.42,该0.42即为同源信度值。
S208、根据同源信度值,确定与模糊哈希和/或全局唯一标识符相匹配的同源信度。
本实施例中,如果该模糊哈希和/或全局唯一标识符只对应一个木马家族或APT组织,则直接输出同源结果(同源分析知识库中的模糊哈希和/或全局唯一标识符)和同源信度值(匹配度和同源权值的乘积,此时同源权值为1)。
本实施例中,如果该模糊哈希和/或全局唯一标识符对应多个木马家族或APT组织,则针对每个木马家族或APT组织进行权值计算(其中,该过程时计算单个模糊哈希或全局唯一标识符的匹配度与每个木马家族或APT组织之间的权值的过程),当计算完成时降序呈现权值计算结果。
在本实施例中,该方法可以然后累加多个同源信度值得到综合结果。
本实施例中,一个模糊哈希或全局唯一标识符对于一个木马家族或APT组织的同源信度值进行计算的公式为:同源信度值=匹配度*同源权值;当具有多个木马家族或APT组织时,综合多个同源信度值进行计算的公式为:综合同源信度值=同源信度值+同源信度值。
在本实施例中,综合同源信度值>=0.5,认为同源信度为高可信同源,0.2<综合同源信度值<=0.5,认为同源信度为中等可信同源;0<综合同源信度值<=0.2,认为同源信度为低可信同源;综合同源信度值为0,则为认为无同源结果。
实施这种实施方式,能够自动对新输入的样本进行分析,选择性将高价值的样本呈现给分析人员,一方面辅助分析人员进行同源和关联分析,一方面也能发现并及时跟进高价值线索;还能够从多角度进行同源分析,从而使得同源分析结果具备较好的可解释性;还能够结合统计分析,汇总多种结果,从而提高了同源分析的准确度。
本申请实施例中,该方法的执行主体可以为计算机、服务器等计算装置,对此本实施例中不作任何限定。
在本申请实施例中,该方法的执行主体还可以为智能手机、平板电脑等智能设备,对此本实施例中不作任何限定。
可见,实施本实施例所描述的同源分析方法,能够通过同源分析知识库对待分析文件地模糊哈希和全局唯一标识符进行同源分析,从而得到相应的同源结果和同源信度,进而使得用户能够根据该同源结果和同源信度进行其他的安全分析与防护操作。
实施例3
请参看图3,图3为本申请实施例提供的一种同源分析知识库的构建装置的结构示意图。如图3所示,该同源分析知识库的构建装置包括:
第一收集单元310,用于收集种子样本文件;
第一收集单元310,还用于收集种子样本文件在沙箱中运行时产生的中间文件;
第一识别单元320,用于对种子样本文件和中间文件进行格式识别,得到格式识别结果;
第一分析单元330,用于对种子样本文件和中间文件进行分析,得到与格式识别结果相匹配的模糊哈希和/或全局唯一标识符;
第一获取单元340,用于与模糊哈希和/或全局唯一标识符相匹配的背景信息;
第一计算单元350,用于根据背景信息,计算模糊哈希和/或全局唯一标识符对应的同源权值;
第一构建单元360,用于根据模糊哈希和/或全局唯一标识符、同源权值以及背景信息,构建同源分析知识库。
作为一种可选的实施方式,第一收集单元310包括:
收集子单元311,用于收集原始样本文件;
分类子单元312,用于对原始样本进行分类整理,得到种子样本文件;其中,种子样本文件包括白样本文件、木马家族样本文件、APT组织样本文件中的一种或者多种。
作为一种可选的实施方式,第一分析单元330包括:
匹配子单元331,用于确定与格式识别结果相匹配的静态解析和分析方案;
分析子单元332,用于根据静态解析和分析方案,对种子样本文件和中间文件进行分析,得到模糊哈希和/或全局唯一标识符。
作为一种可选的实施方式,第一计算单元350包括:
第一确定子单元351,用于确定模糊哈希和/或全局唯一标识符相匹配的至少一个家族组织;
第一确定子单元351,还用于确定模糊哈希和/或全局唯一标识符在至少一个家族组织中出现的至少一个目标次数;
第一计算子单元352,用于根据至少一个目标次数进行计算,得到总出现次数;
第一计算子单元352,还用于根据至少一个目标次数和总出现次数,计算模糊哈希和/或全局唯一标识符对应的同源权值。
本申请实施例中,对于同源分析知识库的构建装置的解释说明可以参照实施例1中的描述,对此本实施例中不再多加赘述。
可见,实施本实施例所描述的同源分析知识库的构建装置,能够优先根据种子样本文件和沙箱中间文件确定对应的模糊哈希和全局唯一标识符,然后再通过该模糊哈希和全局唯一标识符相匹配的背景信息,再后该方法能够根据获取到的模糊哈希、全局唯一标识符和背景信息构建同源分析知识库,以使该同源分析知识库能够用于同源分析的过程中,从而提高同源分析的自动化程度和分析精度。
实施例4
请参看图4,图4为本申请实施例提供的一种同源分析装置的结构示意图。如图4所示,该同源分析装置包括:
第二收集单元410,用于收集待分析样本文件;
第二收集单元410,还用于收集待分析样本文件在沙箱中运行时产生的中间文件;
第二识别单元420,用于对待分析样本文件和中间文件进行格式识别,得到格式识别结果;
第二分析单元430,用于对待分析样本文件和中间文件进行分析,得到与格式识别结果相匹配的模糊哈希和/或全局唯一标识符;
第二确定单元440,用于根据同源分析知识库,确定与模糊哈希和/或全局唯一标识符相匹配的同源结果和同源信度。
作为一种可选的实施方式,第二确定单元440包括:
查询子单元441,用于在同源分析知识库中,查询与模糊哈希和/或全局唯一标识符相匹配的同源结果和匹配度;
获取子单元442,用于在同源分析知识库中,获取与同源结果相匹配的同源权值;
第二计算子单元443,用于计算匹配度和同源权值的乘积,得到同源信度值;
第二确定子单元444,用于根据同源信度值,确定与模糊哈希和/或全局唯一标识符相匹配的同源信度。
本申请实施例中,对于同源分析装置的解释说明可以参照实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施本实施例所描述的同源分析装置,能够通过同源分析知识库对待分析文件地模糊哈希和全局唯一标识符进行同源分析,从而得到相应的同源结果和同源信度,进而使得用户能够根据该同源结果和同源信度进行其他的安全分析与防护操作。
本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例1中的同源分析知识库的构建方法或实施例2中的同源分析方法。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例1中的同源分析知识库的构建方法或实施例2中的同源分析方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种同源分析知识库的构建方法,其特征在于,包括:
收集种子样本文件;
收集所述种子样本文件在沙箱中运行时产生的中间文件;
对所述种子样本文件和所述中间文件进行格式识别,得到格式识别结果;
对所述种子样本文件和所述中间文件进行分析,得到与所述格式识别结果相匹配的模糊哈希和/或全局唯一标识符;
获取与所述模糊哈希和/或全局唯一标识符相匹配的背景信息;
根据所述背景信息,计算所述模糊哈希和/或所述全局唯一标识符对应的同源权值;
根据所述模糊哈希和/或所述全局唯一标识符、所述同源权值以及所述背景信息,构建同源分析知识库;
所述根据所述背景信息,计算所述模糊哈希和/或所述全局唯一标识符对应的同源权值的步骤包括:
确定所述模糊哈希和/或所述全局唯一标识符相匹配的至少一个家族组织;
确定所述模糊哈希和/或所述全局唯一标识符在所述至少一个家族组织中出现的至少一个目标次数;
根据所述至少一个目标次数进行计算,得到总出现次数;
根据所述至少一个目标次数和所述总出现次数,计算所述模糊哈希和/或所述全局唯一标识符对应的同源权值。
2.根据权利要求1所述的同源分析知识库的构建方法,其特征在于,所述收集种子样本文件的步骤,包括:
收集原始样本文件;
对所述原始样本进行分类整理,得到种子样本文件;其中,所述种子样本文件包括白样本文件、木马家族样本文件、APT组织样本文件中的一种或者多种。
3.根据权利要求1所述的同源分析知识库的构建方法,其特征在于,所述对所述种子样本文件和所述中间文件进行分析,得到与所述格式识别结果相匹配的模糊哈希和/或全局唯一标识符的步骤,包括:
确定与所述格式识别结果相匹配的静态解析和分析方案;
根据所述静态解析和分析方案,对所述种子样本文件和所述中间文件进行分析,得到模糊哈希和/或全局唯一标识符。
4.一种同源分析方法,其特征在于,所述同源分析方法中使用的同源分析知识库是通过权利要求1至3中任一项所述的同源分析知识库的构建方法进行构建得到的,包括:
收集待分析样本文件;
收集所述待分析样本文件在沙箱中运行时产生的中间文件;
对所述待分析样本文件和所述中间文件进行格式识别,得到格式识别结果;
对所述待分析样本文件和所述中间文件进行分析,得到与所述格式识别结果相匹配的模糊哈希和/或全局唯一标识符;
根据所述同源分析知识库,确定与所述模糊哈希和/或所述全局唯一标识符相匹配的同源结果和同源信度。
5.根据权利要求4所述的同源分析方法,其特征在于,所述根据所述同源分析知识库,确定与所述模糊哈希和/或所述全局唯一标识符相匹配的同源结果和同源信度的步骤包括:
在所述同源分析知识库中,查询与所述模糊哈希和/或所述全局唯一标识符相匹配的同源结果和匹配度;
在所述同源分析知识库中,获取与所述同源结果相匹配的同源权值;
计算所述匹配度和所述同源权值的乘积,得到同源信度值;
根据所述同源信度值,确定与所述模糊哈希和/或所述全局唯一标识符相匹配的同源信度。
6.一种同源分析知识库的构建装置,其特征在于,所述同源分析知识库的构建装置包括:
第一收集单元,用于收集种子样本文件;
所述第一收集单元,还用于收集所述种子样本文件在沙箱中运行时产生的中间文件;
第一识别单元,用于对所述种子样本文件和所述中间文件进行格式识别,得到格式识别结果;
第一分析单元,用于对所述种子样本文件和所述中间文件进行分析,得到与所述格式识别结果相匹配的模糊哈希和/或全局唯一标识符;
第一获取单元,用于与所述模糊哈希和/或全局唯一标识符相匹配的背景信息;
第一计算单元,用于根据所述背景信息,计算所述模糊哈希和/或所述全局唯一标识符对应的同源权值;
第一构建单元,用于根据所述模糊哈希和/或所述全局唯一标识符、所述同源权值以及所述背景信息,构建同源分析知识库;
所述第一计算单元包括:
第一确定子单元,用于确定模糊哈希和/或全局唯一标识符相匹配的至少一个家族组织;
所述第一确定子单元,还用于确定模糊哈希和/或全局唯一标识符在至少一个家族组织中出现的至少一个目标次数;
第一计算子单元,用于根据至少一个目标次数进行计算,得到总出现次数;
所述第一计算子单元,还用于根据至少一个目标次数和总出现次数,计算模糊哈希和/或全局唯一标识符对应的同源权值。
7.一种同源分析装置,其特征在于,同源分析装置中使用的同源分析知识库是通过权利要求6所述的同源分析知识库的构建装置构建的,所述同源分析装置包括:
第二收集单元,用于收集待分析样本文件;
所述第二收集单元,还用于收集所述待分析样本文件在沙箱中运行时产生的中间文件;
第二识别单元,用于对所述待分析样本文件和所述中间文件进行格式识别,得到格式识别结果;
第二分析单元,用于对所述待分析样本文件和所述中间文件进行分析,得到与所述格式识别结果相匹配的模糊哈希和/或全局唯一标识符;
第二确定单元,用于根据所述同源分析知识库,确定与所述模糊哈希和/或所述全局唯一标识符相匹配的同源结果和同源信度。
8.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至3中任一项所述的同源分析知识库的构建方法。
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至3任一项所述的同源分析知识库的构建方法。
CN202210002635.XA 2022-01-05 2022-01-05 一种同源分析知识库的构建方法、同源分析方法及装置 Active CN114021116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210002635.XA CN114021116B (zh) 2022-01-05 2022-01-05 一种同源分析知识库的构建方法、同源分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210002635.XA CN114021116B (zh) 2022-01-05 2022-01-05 一种同源分析知识库的构建方法、同源分析方法及装置

Publications (2)

Publication Number Publication Date
CN114021116A CN114021116A (zh) 2022-02-08
CN114021116B true CN114021116B (zh) 2022-03-29

Family

ID=80069351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210002635.XA Active CN114021116B (zh) 2022-01-05 2022-01-05 一种同源分析知识库的构建方法、同源分析方法及装置

Country Status (1)

Country Link
CN (1) CN114021116B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115622818B (zh) * 2022-12-20 2023-04-21 北京微步在线科技有限公司 一种网络攻击数据处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324888A (zh) * 2012-03-19 2013-09-25 哈尔滨安天科技股份有限公司 基于家族样本的病毒特征自动提取方法及***
CN109460386A (zh) * 2018-10-29 2019-03-12 杭州安恒信息技术股份有限公司 基于多维度模糊哈希匹配的恶意文件同源性分析方法及装置
CN111460445A (zh) * 2020-03-04 2020-07-28 奇安信科技集团股份有限公司 样本程序恶意程度自动识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222511B (zh) * 2019-06-21 2021-04-23 杭州安恒信息技术股份有限公司 恶意软件家族识别方法、装置及电子设备
US11616797B2 (en) * 2020-04-30 2023-03-28 Mcafee, Llc Large scale malware sample identification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324888A (zh) * 2012-03-19 2013-09-25 哈尔滨安天科技股份有限公司 基于家族样本的病毒特征自动提取方法及***
CN109460386A (zh) * 2018-10-29 2019-03-12 杭州安恒信息技术股份有限公司 基于多维度模糊哈希匹配的恶意文件同源性分析方法及装置
CN111460445A (zh) * 2020-03-04 2020-07-28 奇安信科技集团股份有限公司 样本程序恶意程度自动识别方法及装置

Also Published As

Publication number Publication date
CN114021116A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
US20210256127A1 (en) System and method for automated machine-learning, zero-day malware detection
US20150302197A1 (en) Apparatus and Method for Identifying Similarity Via Dynamic Decimation of Token Sequence N-Grams
US20140068768A1 (en) Apparatus and Method for Identifying Related Code Variants in Binaries
KR101589656B1 (ko) Api 기반 악성 코드 변종 탐지 조회 시스템 및 방법
CN111986792B (zh) 医疗机构评分方法、装置、设备及存储介质
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
CN110674360B (zh) 一种用于数据的溯源方法和***
CN111723371B (zh) 构建恶意文件的检测模型以及检测恶意文件的方法
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
EP2095277A1 (en) Fuzzy database matching
CN114021116B (zh) 一种同源分析知识库的构建方法、同源分析方法及装置
CN114124484A (zh) 网络攻击识别方法、***、装置、终端设备以及存储介质
JP5720536B2 (ja) 秘匿化データの検索のための情報処理方法及び装置
CN111311276B (zh) 一种异常用户团体的识别方法、识别装置及可读存储介质
CN114021138B (zh) 一种同源分析知识库的构建方法、同源分析方法及装置
CN112632000A (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
US10614102B2 (en) Method and system for creating entity records using existing data sources
Daskalaki et al. OtO matching system: a multi-strategy approach to instance matching
CN112131215B (zh) 自底向上的数据库信息获取方法及装置
CN113205442A (zh) 基于区块链的电子政务数据反馈管理方法及装置
Xiao et al. Matching similar functions in different versions of a malware
CN115622818B (zh) 一种网络攻击数据处理方法及装置
CN115048543B (zh) 图像相似判断方法、图像搜索方法及设备
CN114549880B (zh) 获取标识信息的方法、装置和电子设备
CN115150052B (zh) 攻击团伙的跟踪识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant