CN114117160A - 一种基于威胁情报的威胁分析图谱生成、应用方法及装置 - Google Patents
一种基于威胁情报的威胁分析图谱生成、应用方法及装置 Download PDFInfo
- Publication number
- CN114117160A CN114117160A CN202111335619.4A CN202111335619A CN114117160A CN 114117160 A CN114117160 A CN 114117160A CN 202111335619 A CN202111335619 A CN 202111335619A CN 114117160 A CN114117160 A CN 114117160A
- Authority
- CN
- China
- Prior art keywords
- data
- threat
- graph
- analysis
- threat intelligence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012545 processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 7
- 241000475481 Nebula Species 0.000 claims description 6
- 239000000758 substrate Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000004451 qualitative analysis Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012098 association analyses Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 244000035744 Hura crepitans Species 0.000 description 1
- 101100217298 Mus musculus Aspm gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种基于威胁情报的威胁分析图谱生成、应用方法及装置,涉及数据安全领域,该方法包括:获取待分析数据的多个数据类型;获取多个数据类型之间的多个数据关系;数据关系包括威胁情报之间的关联关系;确定与多个数据关系一一对应的多个数据关联指向;将多个数据类型定义为图谱顶点,将多个数据关系定义为图谱边线,根据多个数据关联指向构建基于威胁情报的威胁分析图谱。可见,实施这种实施方式,能够生成基于威胁情报的威胁分析图谱,该威胁图谱可以直接投入使用。同时,因为通过该方法生成的威胁分析图谱通常是适合用户网络环境的,因此,该方法能够更容易地获取与用户网络环境相适合的威胁情报。
Description
技术领域
本申请涉及数据安全领域,具体而言,涉及一种基于威胁情报的威胁分析图谱生成、应用方法及装置。
背景技术
目前,威胁情报的获取方式通常是在海量的日志数据中进行提取。具体的,在该过程中通常需要专业的威胁情报分析团队对海量的日志数据进行分析,然后再把分析出来的结果反馈给用户。然而,在实践中发现,该种威胁情报分析方式相当耗费人力物力,同时也存在分析出来的结果与用户自身的网络环境不相适应的情况。这就使得如何容易地获取与用户网络环境相适合的威胁情报成为了一个亟待解决的问题。
发明内容
本申请的目的在于提供一种基于威胁情报的威胁分析图谱生成、应用方法及装置,能够生成基于威胁情报的威胁分析图谱,该威胁图谱可以直接被用投入使用。同时,因为通过该方法生成的威胁分析图谱通常是适合用户网络环境的,因此,该方法能够更容易地获取与用户网络环境相适合的威胁情报。
本申请实施例第一方面提供了一种基于威胁情报的威胁分析图谱生成方法,所述方法包括:
获取待分析数据的多个数据类型;
获取所述多个数据类型之间的多个数据关系;所述数据关系包括所述威胁情报之间的关联关系;
确定与所述多个数据关系一一对应的多个数据关联指向;
将所述多个数据类型定义为图谱顶点,将所述多个数据关系定义为图谱边线,根据所述多个数据关联指向构建基于威胁情报的威胁分析图谱。
在上述实现过程中,该方法可以根据数据的数据类型和数据类型之间的关联关系确定出数据关联无向图,然后再在此基础上结合每种数据关系的数据关联指向,构建出威胁分析图谱,并将该威胁分析图谱基于威胁情报的场景当中。其中,所有的数据类型和关联关系都是基于指定网络环境中的威胁情报提出的,因此由该方法构建的威胁分析图谱具有很强的专业性与针对性。可见,实施这种实施方式,能够将适合用户网络环境的威胁图谱直接投入到威胁情报的分析过程中,从而使得该方法能够更容易、更方便地获取与用户网络环境相适合的威胁情报。
进一步地,所述获取所述多个数据类型之间的多个数据关系的步骤包括:
获取与所述多个数据类型一一对应的多个数据关系集合;其中,数据关系集合包括数据自相关关系子集合和数据互相关关系子集合;
对所述多个数据互相关关系子集合中的数据关系进行去重,得到去重结果;
组合所述去重结果和所述数据自相关关系子集合,得到所述多个数据类型之间的多个数据关系。
进一步地,根据所述多个数据关联指向构建基于威胁情报的威胁分析图谱的步骤包括:
提取每个数据关联指向的起始顶点和终止顶点;所述起始顶点和所述终止顶点皆为所述图谱顶点;
确定所述起始顶点和所述终止顶点之间的特定图谱边线;
在所述特定图谱边线的所述终止顶点端生成指向箭头,得到基于威胁情报的威胁分析图谱。
本申请实施例第二方面提供了一种基于威胁分析图谱的应用方法,所述方法包括:
获取所述待分析数据;
将所述待分析数据代入所述威胁分析图谱中进行数据构建,得到json数据;
将所述json数据推送到分布式文件***,并通过所述分布式文件***对所述json数据进行数据处理,得到图数据库。
进一步地,所述获取待分析数据的步骤包括:
获取基底数据;
提取所述基底数据中每个数据的基底数据类型和基底数据信息;
根据所述基底数据类型和所述基底数据信息进行计算,得到数据id;
在所述基底数据中剔除数据id相同的数据,得到待分析数据。
进一步地,所述方法还包括:
接收用户输入的查询内容;
在所述图数据库中查找与所述查询内容相匹配的查询数据;
对所述查询数据进行威胁分析,得到威胁情报分析结果;
对所述威胁情报分析结果进行可视化输出。
进一步地,所述对所述查询数据进行威胁分析,得到威胁情报分析结果的步骤包括:
获取所述查询数据在所述图数据库中的出度数据和入度数据;
在所述查询数据、所述出度数据以及所述入度数据中提取根节点数据和恶意节点数据;
对所述根节点数据和所述恶意节点数据进行定性分析,得到威胁情报分析结果。
进一步地,所述通过所述分布式文件***对所述json数据进行数据处理,得到图数据库的步骤包括:
在所述分布式文件***中,使用spark将所述json数据进行数据记录在nebula图数据库中。
本申请实施例第三方面提供了一种基于威胁情报的威胁分析图谱生成装置,所述基于威胁情报的威胁分析图谱生成装置包括:
获取单元,用于获取待分析数据的多个数据类型;
所述获取单元,还用于获取所述多个数据类型之间的多个数据关系;所述数据关系包括所述威胁情报之间的关联关系;
确定单元,用于确定与所述多个数据关系一一对应的多个数据关联指向;
构建单元,用于将所述多个数据类型定义为图谱顶点,将所述多个数据关系定义为图谱边线,根据所述多个数据关联指向构建基于威胁情报的威胁分析图谱。
在上述实现过程中,该装置能够生成具有很强的专业性与针对性的威胁分析图谱,并能够直接将其直接投入到威胁情报的分析过程中。可见,实施这种实施方式,该装置能够更容易、更方便地获取与用户网络环境相适合的威胁情报。
本申请实施例第四方面提供了一种基于威胁情报的威胁分析图谱应用装置,所述威胁分析图谱应用装置包括威胁分析图谱生成装置中的各个单元,并且该威胁分析图谱应用装置还包括:
所述获取单元,还用于获取待分析数据;
所述构建单元,还用于将所述待分析数据代入所述威胁分析图谱中进行数据构建,得到json数据;
处理单元,用于将所述json数据推送到分布式文件***,并通过所述分布式文件***对所述json数据进行数据处理,得到图数据库。
进一步地,所述基于威胁情报的威胁分析图谱应用装置还包括:
接收单元,用于接收用户输入的查询内容;
查询单元,用于在所述图数据库中查找与所述查询内容相匹配的查询数据;
分析单元,用于对所述查询数据进行威胁分析,得到威胁情报分析结果;
输出单元,用于对所述威胁情报分析结果进行可视化输出。
本申请实施例第五方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的基于威胁情报的威胁分析图谱生成方法。
本申请实施例第六方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的基于威胁情报的威胁分析图谱生成方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于威胁情报的威胁分析图谱生成方法的流程示意图;
图2为本申请实施例提供的另一种基于威胁情报的威胁分析图谱应用方法的流程示意图;
图3为本申请实施例提供的一种基于威胁情报的威胁分析图谱生成装置的结构示意图;
图4为本申请实施例提供的另一种基于威胁情报的威胁分析图谱生成装置的结构示意图;
图5为本申请实施例提供的威胁图谱关系建模模型示意图;
图6为本申请实施例提供的一种可视化图层展示效果图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本申请实施例提供了一种基于威胁情报的威胁分析图谱生成方法的流程示意图。其中,该基于威胁情报的威胁分析图谱生成方法包括:
S101、获取待分析数据的多个数据类型.
本实施例中,待分析数据包括众多数据,其中该些数据中有可能存在威胁情报。
本实施例中,基于图5建模模型的数据类型包括:V(ip),V(domain),V(url),V(report),V(hash),V(email),V(psha1),V(registrant_organization),V(registrant_name)。
作为一种可选的实施方式,获取待分析数据的多个数据类型的步骤包括:
提取所述待分析数据中的所有代码信息;
对每个代码信息进行识别,并对识别结果进行去重,得到多个数据类型。
本实施例中,待分析数据中存在代码形式的数据名称和数据内容。其中,该数据名称通常为数据类型,例如XX:YYYY,其中XX即为数据类型。
在本实施例中,该方法可以先获取所有的数据名称,并剔除明显不是“数据类型”的数据名称,然后再对剔除结果进行去重,得到多个数据类型。或者,该方法还可以根据预设的数据类型库中的数据类型,在待分析数据的代码信息中识别存储过的数据类型,从而获取到准确的数据类型,然后再通过去重获取到不重复的多个数据类型。
S102、获取多个数据类型之间的多个数据关系;数据关系包括威胁情报之间的关联关系。
本实施例中,数据发起网络连接时,可能会连接IP、域名或者URL,这类关系是connect;数据和数据之间的关系有release(释放文件)、download(下载文件)、alias(同一个样本的MD5和SHA256、SHA1之间的关系);同时,某个IP、域名或者URL也可能用来分发恶意文件,关系为delivery。
在本实施例中,上述的关系即为本申请描述的关联关系。
在本实施例中,基于图5建模模型的关联关系包括:E(contain),E(resolve),E(cname),E(subdomain),E(register),E(payload),E(connect),E(delivery),E(release),E(download),E(receiver),E(sender),E(bind)。
作为一种可选的实施方式,获取多个数据类型之间的多个数据关系的步骤包括:
获取与多个数据类型一一对应的多个数据关系集合;其中,数据关系集合包括数据自相关关系子集合和数据互相关关系子集合;
对多个数据互相关关系子集合中的数据关系进行去重,得到去重结果;
组合去重结果和数据自相关关系子集合,得到多个数据类型之间的多个数据关系。
S103、确定与多个数据关系一一对应的多个数据关联指向。
本实施例中,多个数据关联指向如下:
V(url)->E(delivery)->V(hash)
V(ip)->E(delivery)->V(hash)
V(ip)->E(sender)->V(email)
V(ip)->E(payload)->V(psha1)
V(ip)->E(bind)->V(certificates)
V(email)->E(register)->V(domain)
V(email)->E(sender)->V(hash)
V(hash)->E(connect)->V(url)
V(hash)->E(connect)->V(ip)
V(hash)->E(connect)->V(domain)
V(hash)->E(receiver)->V(email)
V(hash)->E(release)->V(hash)
V(hash)->E(download)->V(hash)
V(hash)->E(alias)->V(hash)
V(domain)->E(contain)->V(url)
V(domain)->E(delivery)->V(hash)
V(domain)->E(cname)->V(domain)
V(domain)->E(subdomain)->V(domain)
V(domain)->E(resolve)->V(ip)
V(domain)->E(payload)->V(psha1)
V(report)->E(contain)->V(hash)
V(report)->E(contain)->V(ip)
V(report)->E(contain)->V(certificates)
V(report)->E(contain)->V(url)
V(report)->E(contain)->V(domain)
V(report)->E(contain)->V(email)
V(registrant_organization)->E(register)->V(domain)
V(registrant_name)->E(register)->V(domain)。
S104、将多个数据类型定义为图谱顶点,将多个数据关系定义为图谱边线,根据多个数据关联指向构建基于威胁情报的威胁分析图谱。
本实施例中,数据关联指向可以使用link对象来定义。其中,箭头的方向分别代表source和target两个属性,分别存储源节点和目标节点的ID值,label属性来定义边的类型,同时通过定义顶点和边。这样,就能构造出威胁分析图谱表达相关的节点与边的关系。
作为一种可选的实施方式,根据多个数据关联指向构建基于威胁情报的威胁分析图谱的步骤包括:
提取每个数据关联指向的起始顶点和终止顶点;起始顶点和终止顶点皆为图谱顶点;
确定起始顶点和终止顶点之间的特定图谱边线;
在特定图谱边线的终止顶点端生成指向箭头,得到基于威胁情报的威胁分析图谱。
请参阅图5,图5示出了一种威胁图谱关系建模模型示意图。
举例来说,我们定义一个node对象,每个顶点都有对应的属性值,以一个domain类型的顶点值为www.***.com为例。定义label属性为顶点的类型,如:domain;name属性为www.***.com,通过定义id唯一性保证id不重复,ID计算规则采用md5(name+label)方式。其中,label定义顶点的类型内容。
实施这种实施方式,能够提高针对某一特定对象实体的图谱分析和发现能力,从而提高APT检测的能力与效率,实现一种多维度联合的分析方法。
本申请实施例中,该方法的执行主体可以为计算机、服务器等计算装置,对此本实施例中不作任何限定。
在本申请实施例中,该方法的执行主体还可以为智能手机、平板电脑等智能设备,对此本实施例中不作任何限定。
可见,实施本实施例所描述的基于威胁情报的威胁分析图谱生成方法,能够根据数据的数据类型和数据类型之间的关联关系确定出数据关联无向图,然后再在此基础上结合每种数据关系的数据关联指向,构建出威胁分析图谱,并将该威胁分析图谱投入实际应用当中。其中,所有的数据类型和关联关系都是基于指定网络环境中的威胁情报提出的,因此由该方法构建的威胁分析图谱具有很强的专业性与针对性。可见,实施这种实施方式,能够将威胁图谱直接投入到威胁情报的分析过程中。同时,因为该威胁分析图谱是适合用户网络环境的,所以该方法能够更容易、更方便地获取与用户网络环境相适合的威胁情报。
实施例2
请参看图2,图2为本申请实施例提供的一种基于威胁情报的威胁分析图谱应用方法的流程示意图。如图2所示,其中,该基于威胁情报的威胁分析图谱应用方法包括:
S201、获取待分析数据的多个数据类型。
S202、获取多个数据类型之间的多个数据关系;数据关系包括威胁情报之间的关联关系。
S203、确定与多个数据关系一一对应的多个数据关联指向。
S204、将多个数据类型定义为图谱顶点,将多个数据关系定义为图谱边线,根据多个数据关联指向构建基于威胁情报的威胁分析图谱。
S205、获取待分析数据。
作为一种可选的实施方式,获取待分析数据的步骤包括:
获取基底数据;
提取基底数据中每个数据的基底数据类型和基底数据信息;
根据基底数据类型和基底数据信息进行计算,得到数据id;
在基底数据中剔除数据id相同的数据,得到待分析数据。
本实施例中,基底数据是从基底数据源中提取的。
在本实施例中,基底数据至少有如下八类:
(1)样本鉴定结果类数据
沙箱的数据主要生成样本(hash)这个标签类型相关的关联关系,主要涉及如下几种边类型:connect(连接),download(下载),release(释放),delivery(分发),sender(发件箱地址),receiver(收件箱地址),payload(访问)。
(2)威胁情报类上下文关联数据
失陷检测库里的数据生成IP,DOMAIN,URL的关联数据,主要涉及边类型:contain(包含),IP包含的URL,DOMAIN包含的URL等关联关系。
(3)report人工智能语义分析的数据
基于分布式爬虫进行文章获取,利用人工智能进行语义分析,提取报告中包含的样本HASH,IP,DOMAIN,URL,Email,证书等实体信息,主要涉及的边类型:contain(包含)。
应用NLP算法模型的应用流程,建立实现包括分类、聚类、实体抽取、关键词抽取等功能,用于处理安全领域相关文章、blog、twitter等数据分析及提取。
(4)IP及domain映射上下文数据
将上面生产的IP和Domain数据进行上下文关联富化,主要的边类型包括:resolve(解析),cname(CNAME解析),并录入图数据库。
(5)基于whois数据源的数据
将上面生产的DOMAIN查询whois信息,与Email、registrant_name,registrant_organization建立关联关系register(注册),并实时更新关联关系信息。
(6)基于子域名查询的数据源中的数据
将上面生成DOMAIN查询子域名,建立subdomain(子域名)的关联关系。
(7)基于URL关系数据源
将上面生成的DOMAIN数据查询对应的URL信息,建立contain(包含)关系。
(8)其他本体数据
包括漏洞CVE信息、APT组织信息等,并建立contain等关系。
S206、将待分析数据代入威胁分析图谱中进行数据构建,得到json数据。
本实施例中,将待分析数据带入威胁分析图谱中可以得到基于知识图谱的威胁情报实体关系模型。在此基础上,对该模型进行数据构建,得到json数据。
实施这种实施方式,能够基于海量多类型大数据,将资产、威胁、漏洞、流量、日志等信息进行统一描述,从而打破数据鸿沟,建立安全实体、实体关系及相关属性的模型,并进一步应用知识推理的方法实现异常行为的分析。
S207、将json数据推送到分布式文件***,并通过分布式文件***对json数据进行数据处理,得到图数据库。
本实施例中,该方法将数据推送到大数据平台HDFS(分布式文件***)上。并使用spark进行数据处理,然后录入至nebula图数据库中。
在本实施例中,该方法可以利用nebula图数据库来存储和提供关联好的数据。
作为一种可选的实施方式,通过分布式文件***对json数据进行数据处理,得到图数据库的步骤包括:
在分布式文件***中,使用spark将json数据进行数据记录在nebula图数据库中。
S208、接收用户输入的查询内容。
本实施例中,该方法可以增加图数据库接口查询,并定义查询的类型,IP,DOMAIN,URL,Report等。对于不清晰的查询参数输入,使用other来进行传递node类型,定义search字段来高级搜索,传递一个条件列表,全部使用and语义,定义category为边类型查询,定义start开始时间和end结束时间,同时过滤掉无效数据且去重后,进行数量限定及筛选。
S209、在图数据库中查找与查询内容相匹配的查询数据。
本实施例中,针对统计边类型数量的查询,依据实体关系模型定义好总共的边类型列表数据,根据查询的node的类型提前计算好所需要的边类型去重,通过多任务并发去进行信息查询最终join返回查询数据及上下文信息。
在本实施例中,该方法可以通过获取的count统计值来去分类型去从数据库中获取数据,在发送查询之后,一起将所有结果合并返回。
S210、对查询数据进行威胁分析,得到威胁情报分析结果。
本实施例,威胁分析包括关联分析和定性分析。
在本实施例中,关联分析需要返回查询节点的所有出度和入度的关联顶点和边。定性分析需要返回相应的恶意节点和根节点。
在本实施例中,该方法可以通过结合已知APT家族关联IOC进行分析定性,结合数据多维度关联方式,针对多IOC查询分析的关联提供不同IOC信息,得到该线索可能的数据出度和入度内容,然后进行精准信息研判和定位。
作为一种可选的实施方式,对查询数据进行威胁分析,得到威胁情报分析结果的步骤包括:
获取查询数据在图数据库中的出度数据和入度数据;
在查询数据、出度数据以及入度数据中提取根节点数据和恶意节点数据;
对根节点数据和恶意节点数据进行定性分析,得到威胁情报分析结果。
实施这种实施方式,能够在图数据中查找威胁情报及其上下文线索,从而准确查找到不同类型的情报,进而减轻情报分析的工作量并能及大大提高追踪溯源的准确度。
本实施例中,恶意节点数据的提取规则可以包括:
①提取与特定目标或特定***相关的数据;
②提取传输路径多变的数据;
③提取持续性强的数据;
④提取隐蔽性高的数据。
本实施例中,对根节点数据和恶意节点数据进行定性分析,得到威胁情报分析结果的过程中,该方法可以对恶意节点数据进行精准信息研判和定位。具体的方式可以包括边缘计算恶意节点识别方法、似然多元分类的动态恶意节点检测方法、基于特征节点分析的恶意节点检测方法等等。
本实施例中,威胁分析图谱将搜索视为实体的搜索而非简单的字符串搜索。该威胁分析图谱可用于构建知识层级的查询***,以使其达到提升情报查询结果的相关程度及查询效率的目的。
S211、对威胁情报分析结果进行可视化输出。
本实施例中,该方法可以具体针对顶点数据进行一度及多度拓线展示,同时支持某一节点的详情关联分析。对于处理的线索可进行画布保存、分享至他人,提高追踪定位分析准确度。然后,构建展示2~4度层级关联效果,快速输出上下文关联信息。再然后,基于非连线关系的内容拓展,属性方面的分类聚类内容进行高级展示。
请参阅图6,图6示出了一种可视化图层展示效果图。其中,威胁情报与正常情报具有不一样的显示方式,以使威胁情报可以被相关工作人员所知悉。
可见,实施本实施例所描述的基于威胁情报的威胁分析图谱应用方法,能够将适合用户网络环境的威胁图谱直接投入到威胁情报的分析过程中,从而使得该方法能够更容易、更方便地获取与用户网络环境相适合的威胁情报。
实施例3
请参看图3,图3为本申请实施例提供的一种基于威胁情报的威胁分析图谱生成装置的结构示意图。如图3所示,该基于威胁情报的威胁分析图谱生成装置包括:
获取单元310,用于获取待分析数据的多个数据类型;
获取单元310,还用于获取多个数据类型之间的多个数据关系;数据关系包括威胁情报之间的关联关系;
确定单元320,用于确定与多个数据关系一一对应的多个数据关联指向;
构建单元330,用于将多个数据类型定义为图谱顶点,将多个数据关系定义为图谱边线,根据多个数据关联指向构建基于威胁情报的威胁分析图谱。
作为一种可选的实施方式,获取单元310具体用于获取与多个数据类型一一对应的多个数据关系集合;其中,数据关系集合包括数据自相关关系子集合和数据互相关关系子集合;
对多个数据互相关关系子集合中的数据关系进行去重,得到去重结果;
组合去重结果和数据自相关关系子集合,得到多个数据类型之间的多个数据关系。
作为一种可选的实施方式,构建单元330具体用于将多个数据类型定义为图谱顶点,将多个数据关系定义为图谱边线;
提取每个数据关联指向的起始顶点和终止顶点;起始顶点和终止顶点皆为图谱顶点;
确定起始顶点和终止顶点之间的特定图谱边线;
在特定图谱边线的终止顶点端生成指向箭头,得到基于威胁情报的威胁分析图谱。
本申请实施例中,对于基于威胁情报的威胁分析图谱生成装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施本实施例所描述的基于威胁情报的威胁分析图谱生成装置,能够生成具有很强的专业性与针对性的威胁分析图谱,并能够直接将其直接投入到威胁情报的分析过程中。可见,实施这种实施方式,该装置能够更容易、更方便地获取与用户网络环境相适合的威胁情报。
实施例4
请一并参阅图4,图4是本申请实施例提供的一种基于威胁情报的威胁分析图谱应用装置的结构示意图。其中,图4所示的基于威胁情报的威胁分析图谱生成装置是由图3所示的基于威胁情报的威胁分析图谱生成装置进行优化得到的。如图4所示,获取单元310,还用于获取待分析数据;
构建单元330,还用于将待分析数据代入威胁分析图谱中进行数据构建,得到json数据;
处理单元340,用于将json数据推送到分布式文件***,并通过分布式文件***对json数据进行数据处理,得到图数据库。
作为一种可选的实施方式,处理单元340具体用于将json数据推送到分布式文件***,并在所述分布式文件***中,使用spark将所述json数据进行数据记录在nebula图数据库中。
作为一种可选的实施方式,获取单元310包括:
第一子单元311,用于获取基底数据;
第二子单元312,用于提取基底数据中每个数据的基底数据类型和基底数据信息;
第三子单元313,用于根据基底数据类型和基底数据信息进行计算,得到数据id;
第四子单元314,用于在基底数据中剔除数据id相同的数据,得到待分析数据。
作为一种可选的实施方式,威胁分析图谱生成装置还包括:
接收单元350,用于接收用户输入的查询内容;
查询单元360,用于在图数据库中查找与查询内容相匹配的查询数据;
分析单元370,用于对查询数据进行威胁分析,得到威胁情报分析结果;
输出单元380,用于对威胁情报分析结果进行可视化输出。
作为一种可选的实施方式,分析单元370包括:
第五子单元371,用于获取查询数据在图数据库中的出度数据和入度数据;
第六子单元372,用于在查询数据、出度数据以及入度数据中提取根节点数据和恶意节点数据;
第七子单元373,用于对根节点数据和恶意节点数据进行定性分析,得到威胁情报分析结果。
本申请实施例中,对于基于威胁情报的威胁分析图谱生成装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施本实施例所描述的基于威胁情报的威胁分析图谱生成装置,能够生成具有很强的专业性与针对性的威胁分析图谱,并能够直接将其直接投入到威胁情报的分析过程中。可见,实施这种实施方式,该装置能够更容易、更方便地获取与用户网络环境相适合的威胁情报。
本申请实施例提供了一种电子设备,包括存储器以及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使电子设备执行本申请实施例1或实施例2中任一项基于威胁情报的威胁分析图谱生成方法。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序指令,计算机程序指令被一处理器读取并运行时,执行本申请实施例1或实施例2中任一项基于威胁情报的威胁分析图谱生成方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (12)
1.一种基于威胁情报的威胁分析图谱生成方法,其特征在于,所述方法包括:
获取待分析数据的多个数据类型;
获取所述多个数据类型之间的多个数据关系;所述数据关系包括所述威胁情报之间的关联关系;
确定与所述多个数据关系一一对应的多个数据关联指向;
将所述多个数据类型定义为图谱顶点,将所述多个数据关系定义为图谱边线,根据所述多个数据关联指向构建基于威胁情报的威胁分析图谱。
2.根据权利要求1所述的基于威胁情报的威胁分析图谱生成方法,其特征在于,所述获取所述多个数据类型之间的多个数据关系的步骤包括:
获取与所述多个数据类型一一对应的多个数据关系集合;其中,数据关系集合包括数据自相关关系子集合和数据互相关关系子集合;
对所述多个数据互相关关系子集合中的数据关系进行去重,得到去重结果;
组合所述去重结果和所述数据自相关关系子集合,得到所述多个数据类型之间的多个数据关系。
3.根据权利要求1所述的基于威胁情报的威胁分析图谱生成方法,其特征在于,根据所述多个数据关联指向构建基于威胁情报的威胁分析图谱的步骤包括:
提取每个数据关联指向的起始顶点和终止顶点;所述起始顶点和所述终止顶点皆为所述图谱顶点;
确定所述起始顶点和所述终止顶点之间的特定图谱边线;
在所述特定图谱边线的所述终止顶点端生成指向箭头,得到基于威胁情报的威胁分析图谱。
4.一种基于威胁分析图谱的应用方法,其特征在于,所述方法包括:
获取所述待分析数据;
将所述待分析数据代入所述威胁分析图谱中进行数据构建,得到json数据;
将所述json数据推送到分布式文件***,并通过所述分布式文件***对所述json数据进行数据处理,得到图数据库。
5.根据权利要求4所述的基于威胁分析图谱的应用方法,其特征在于,所述获取待分析数据的步骤包括:
获取基底数据;
提取所述基底数据中每个数据的基底数据类型和基底数据信息;
根据所述基底数据类型和所述基底数据信息进行计算,得到数据id;
在所述基底数据中剔除数据id相同的数据,得到待分析数据。
6.根据权利要求4所述的基于威胁分析图谱的应用方法,其特征在于,所述方法还包括:
接收用户输入的查询内容;
在所述图数据库中查找与所述查询内容相匹配的查询数据;
对所述查询数据进行威胁分析,得到威胁情报分析结果;
对所述威胁情报分析结果进行可视化输出。
7.根据权利要求6所述的基于威胁分析图谱的应用方法,其特征在于,所述对所述查询数据进行威胁分析,得到威胁情报分析结果的步骤包括:
获取所述查询数据在所述图数据库中的出度数据和入度数据;
在所述查询数据、所述出度数据以及所述入度数据中提取根节点数据和恶意节点数据;
对所述根节点数据和所述恶意节点数据进行定性分析,得到威胁情报分析结果。
8.根据权利要求4所述的基于威胁分析图谱的应用方法,所述通过所述分布式文件***对所述json数据进行数据处理,得到图数据库的步骤包括:
在所述分布式文件***中,使用spark将所述json数据进行数据记录在nebula图数据库中。
9.一种基于威胁情报的威胁分析图谱生成装置,其特征在于,所述基于威胁情报的威胁分析图谱生成装置包括:
获取单元,用于获取待分析数据的多个数据类型;
所述获取单元,还用于获取所述多个数据类型之间的多个数据关系;所述数据关系包括所述威胁情报之间的关联关系;
确定单元,用于确定与所述多个数据关系一一对应的多个数据关联指向;
构建单元,用于将所述多个数据类型定义为图谱顶点,将所述多个数据关系定义为图谱边线,根据所述多个数据关联指向构建基于威胁情报的威胁分析图谱。
10.一种基于威胁情报的威胁分析图谱应用装置,其特征在于,所述基于威胁情报的威胁分析图谱应用装置包括:
所述获取单元,还用于获取待分析数据;
所述构建单元,还用于将所述待分析数据代入所述威胁分析图谱中进行数据构建,得到json数据;
处理单元,用于将所述json数据推送到分布式文件***,并通过所述分布式文件***对所述json数据进行数据处理,得到图数据库。
11.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至8中任一项所述的方法。
12.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111335619.4A CN114117160A (zh) | 2021-11-11 | 2021-11-11 | 一种基于威胁情报的威胁分析图谱生成、应用方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111335619.4A CN114117160A (zh) | 2021-11-11 | 2021-11-11 | 一种基于威胁情报的威胁分析图谱生成、应用方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114117160A true CN114117160A (zh) | 2022-03-01 |
Family
ID=80378710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111335619.4A Pending CN114117160A (zh) | 2021-11-11 | 2021-11-11 | 一种基于威胁情报的威胁分析图谱生成、应用方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114117160A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210152574A1 (en) * | 2016-06-03 | 2021-05-20 | Mcafee, Llc | Determining computing system incidents using node graphs |
US11533324B2 (en) | 2017-12-08 | 2022-12-20 | Mcafee, Llc | Learning maliciousness in cybersecurity graphs |
CN115935722A (zh) * | 2023-03-09 | 2023-04-07 | 北京集度科技有限公司 | 过程失效模式与影响分析方法、设备及计算机程序产品 |
CN116389083A (zh) * | 2023-03-15 | 2023-07-04 | 中国华能集团有限公司北京招标分公司 | 一种威胁情报使用方法 |
CN116506235A (zh) * | 2023-06-29 | 2023-07-28 | 北京优特捷信息技术有限公司 | 一种威胁情报处理方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140201836A1 (en) * | 2012-08-23 | 2014-07-17 | David B. Amsler | Automated Internet Threat Detection and Mitigation System and Associated Methods |
CN107566376A (zh) * | 2017-09-11 | 2018-01-09 | 中国信息安全测评中心 | 一种威胁情报生成方法、装置及*** |
CN109857917A (zh) * | 2018-12-21 | 2019-06-07 | 中国科学院信息工程研究所 | 面向威胁情报的安全知识图谱构建方法及*** |
CN110717049A (zh) * | 2019-08-29 | 2020-01-21 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN111181959A (zh) * | 2019-12-30 | 2020-05-19 | 论客科技(广州)有限公司 | 一种基于邮件数据的威胁情报知识图谱构建方法及装置 |
CN112769775A (zh) * | 2020-12-25 | 2021-05-07 | 深信服科技股份有限公司 | 一种威胁情报关联分析方法、***、设备及计算机介质 |
CN113364802A (zh) * | 2021-06-25 | 2021-09-07 | 中国电子科技集团公司第十五研究所 | 安全告警威胁性研判方法及装置 |
-
2021
- 2021-11-11 CN CN202111335619.4A patent/CN114117160A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140201836A1 (en) * | 2012-08-23 | 2014-07-17 | David B. Amsler | Automated Internet Threat Detection and Mitigation System and Associated Methods |
CN107566376A (zh) * | 2017-09-11 | 2018-01-09 | 中国信息安全测评中心 | 一种威胁情报生成方法、装置及*** |
CN109857917A (zh) * | 2018-12-21 | 2019-06-07 | 中国科学院信息工程研究所 | 面向威胁情报的安全知识图谱构建方法及*** |
CN110717049A (zh) * | 2019-08-29 | 2020-01-21 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN111181959A (zh) * | 2019-12-30 | 2020-05-19 | 论客科技(广州)有限公司 | 一种基于邮件数据的威胁情报知识图谱构建方法及装置 |
CN112769775A (zh) * | 2020-12-25 | 2021-05-07 | 深信服科技股份有限公司 | 一种威胁情报关联分析方法、***、设备及计算机介质 |
CN113364802A (zh) * | 2021-06-25 | 2021-09-07 | 中国电子科技集团公司第十五研究所 | 安全告警威胁性研判方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210152574A1 (en) * | 2016-06-03 | 2021-05-20 | Mcafee, Llc | Determining computing system incidents using node graphs |
US11552967B2 (en) * | 2016-06-03 | 2023-01-10 | Mcafee, Llc | Determining computing system incidents using node graphs |
US11533324B2 (en) | 2017-12-08 | 2022-12-20 | Mcafee, Llc | Learning maliciousness in cybersecurity graphs |
CN115935722A (zh) * | 2023-03-09 | 2023-04-07 | 北京集度科技有限公司 | 过程失效模式与影响分析方法、设备及计算机程序产品 |
CN116389083A (zh) * | 2023-03-15 | 2023-07-04 | 中国华能集团有限公司北京招标分公司 | 一种威胁情报使用方法 |
CN116506235A (zh) * | 2023-06-29 | 2023-07-28 | 北京优特捷信息技术有限公司 | 一种威胁情报处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114117160A (zh) | 一种基于威胁情报的威胁分析图谱生成、应用方法及装置 | |
US6119124A (en) | Method for clustering closely resembling data objects | |
US7802299B2 (en) | Binary function database system | |
US8661004B2 (en) | Representing incomplete and uncertain information in graph data | |
KR20120018226A (ko) | 검색 부하들에 따라 균형이 맞춰지는 지문 데이터베이스를 갖는 미디어 식별 시스템 | |
US20160226993A1 (en) | Cache control for web application resources | |
CN107330079B (zh) | 基于人工智能呈现辟谣信息的方法和装置 | |
Debattista et al. | Quality assessment of linked datasets using probabilistic approximation | |
CN110008462A (zh) | 一种命令序列检测方法及命令序列处理方法 | |
CN106933880B (zh) | 一种标签数据泄漏渠道检测方法及装置 | |
US10891309B2 (en) | Data duplication detection in an in memory data grid (IMDG) | |
CN107463578B (zh) | 应用下载量统计数据去重方法、装置和终端设备 | |
US20200401569A1 (en) | System and method for data reconciliation | |
CN110188537B (zh) | 数据的分离存储方法及装置、存储介质、电子装置 | |
Joshi et al. | Intelligent clustering scheme for log data streams | |
CN107992538B (zh) | 报文日志生成方法、装置、查询方法及信息处理*** | |
US9256644B1 (en) | System for identifying and investigating shared and derived content | |
CN116032576A (zh) | 一种基于不确定性攻击资源图谱的构建方法及*** | |
US20150347402A1 (en) | System and method for enabling a client system to generate file system operations on a file system data set using a virtual namespace | |
Junjing et al. | Research on forensics of social network relationship based on big data | |
Dubettier et al. | File type identification tools for digital investigations | |
SalahEldeen et al. | Reading the correct history? Modeling temporal intention in resource sharing | |
CN114915485A (zh) | 基于ueba的异常行为分析方法及装置 | |
Risch et al. | Measuring and facilitating data repeatability in web science | |
CN114398428A (zh) | 一种数据分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100032 NO.332, 3rd floor, Building 102, 28 xinjiekouwai street, Xicheng District, Beijing Applicant after: QAX Technology Group Inc. Applicant after: Qianxin Wangshen information technology (Beijing) Co.,Ltd. Address before: 100032 NO.332, 3rd floor, Building 102, 28 xinjiekouwai street, Xicheng District, Beijing Applicant before: QAX Technology Group Inc. Applicant before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc. |
|
CB02 | Change of applicant information |