WO2024124640A1

WO2024124640A1 - 基于威胁分析图谱的节点分析方法及装置

Info

Publication number: WO2024124640A1
Application number: PCT/CN2022/144095
Authority: WO
Inventors: 刘浩然; 王占一; 吴萌; 黄朝文; 白敏�; 汪列军
Original assignee: 奇安信科技集团股份有限公司; 奇安信网神信息技术(北京)股份有限公司
Priority date: 2022-12-12
Filing date: 2022-12-30
Publication date: 2024-06-20
Also published as: CN116248325A

Abstract

本申请实施例提供一种基于威胁分析图谱的节点分析方法及装置，涉及网络安全技术领域，其中，所述方法包括：在源数据中提取目标数据，并将目标数据作为种子节点；目标数据为具有安全风险的数据；在图数据库中存储的威胁分析图谱中提取与所述种子节点关联的目标子图数据；确定所述目标子图数据中目标节点的节点表征；所述目标节点的节点表征中包含所述目标节点的节点数据和所述目标节点的邻居节点的节点数据；基于所述目标节点的节点表征对所述目标节点进行分析。本申请是仅确定种子节点关联的目标子图数据中目标节点的节点表征，无需对威胁分析图谱中的所有图数据进行计算和分析，从而提高了数据分析的效率。

Description

基于威胁分析图谱的节点分析方法及装置

相关申请的交叉引用

本申请要求于2022年12月12日提交的申请号为202211600664.2，名称为“基于威胁分析图谱的节点分析方法及装置”的中国专利申请的优先权，其通过引用方式全部并入本文。

技术领域

本申请涉及网络安全技术领域，尤其涉及一种基于威胁分析图谱的节点分析方法及装置。

背景技术

在网络安全技术领域，高级可持续威胁攻击(Advanced Persistent Threat，APT)组织活动十分隐蔽，但APT组织控制的网络流量可以通过网络层检测获得，所以可以基于对网络层的检测来分析APT组织的攻击行为。

相关技术中，通常是通过对网络层的检测获取日志数据，对日志数据进行分析，从海量日志数据中获得威胁情报。

但上述相关技术中，虽然获取的日志数据非常丰富，但是冗余度较高，所以对海量日志数据进行直接分析，会降低数据分析的效率。

发明内容

针对现有技术中的问题，本申请实施例提供一种基于威胁分析图谱的节点分析方法及装置。

具体地，本申请实施例提供了以下技术方案：

第一方面，本申请实施例提供了一种基于威胁分析图谱的节点分析方法，包括：

在源数据中提取目标数据，并将所述目标数据作为种子节点；所述目标数据为具有安全风险的数据；

在图数据库中存储的威胁分析图谱中提取与所述种子节点关联的目标子图数据；

确定所述目标子图数据中目标节点的节点表征；所述目标节点的节点表征中包含所述目标节点的节点数据和所述目标节点的邻居节点的节点数据；

基于所述目标节点的节点表征对所述目标节点进行分析

进一步地，所述在图数据库中存储的威胁分析图谱中提取与所述种子节点关联的目标子图数据，包括：

在所述威胁分析图谱中查找所述种子节点关联的预设跳数的目标关联数据；所述目标关联数据包括节点数据和边数据；

将所述种子节点的节点数据和所述目标关联数据进行组合，得到所述目标子图数据。

进一步地，所述确定所述目标子图数据中目标节点的节点表征，包括：

确定所述目标子图数据中每个节点的图嵌入向量；

基于每个节点的图嵌入向量确定目标节点的节点表征。

进一步地，所述确定所述目标子图数据中每个节点的图嵌入向量，包括：

获取当前业务场景；

在所述当前业务场景包括搜索结构相似节点的业务场景时，基于结构相似算法确定所述目标子图数据中每个节点的图嵌入向量；

在所述当前业务场景包括搜索内容相似节点的业务场景时，基于内容相似算法确定所述目标子图数据中每个节点的图嵌入向量。

进一步地，所述基于每个节点的图嵌入向量确定目标节点的节点表征，包括：

将每个所述节点的图嵌入向量输入至目标图神经网络模型中，得到所述目标图神经网络模型输出的目标节点的节点表征；

其中，所述目标图神经网络模型是基于多个节点的图嵌入向量样本训练得到的。

进一步地，所述目标图神经网络模型包括采集模块和聚合模块；

所述将每个所述节点的图嵌入向量输入至目标图神经网络模型中，得到所述目标图神经网络模型输出的目标节点的节点表征，包括：

将每个所述节点的图嵌入向量输入至所述采集模块，通过所述采集模块在每个所述节点的图嵌入向量采集所述目标节点的每个邻居节点的节点数据，并将每个邻居节点的节点数据和所述目标节点的节点数据发送至所述聚合模块；

通过所述聚合模块将所述每个邻居节点的节点数据和所述目标节点的节点数据进行聚合，得到节点聚合信息；

将所述节点聚合信息确定为所述目标节点的节点表征。

进一步地，所述基于所述目标节点的节点表征对所述目标节点进行分析，包括：

基于所述目标节点的节点表征确定所述目标节点的威胁风险系数，所述威胁风险系数用于表征所述目标节点的风险大小；

在确定所述目标节点的威胁风险系数大于预设系数值时，将所述目标节点的节点数据存储在陷落标识图数据库中，或者对所述目标节点进行告警，或者将所述目标节点的节点数据和所述目标节点的关联节点的节点数据进行显示。

将所述目标节点的节点表征与其他节点的节点表征进行对比分析，确定与所述目标节点相似的节点。

第二方面，本申请实施例还提供了一种基于威胁分析图谱的节点分析装置，包括：

第一提取单元，用于在源数据中提取目标数据，并将所述目标数据作为种子节点；所述目标数据为具有安全风险的数据；

第二提取单元，用于在图数据库中存储的威胁分析图谱中提取与所述种子节点关联的目标子图数据；

确定单元，用于确定所述目标子图数据中目标节点的节点表征；所述目标节点的节点表征中包含所述目标节点的节点数据和所述目标节点的邻居节点的节点数据；

分析单元，用于基于所述目标节点的节点表征对所述目标节点进行分析。

第三方面，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述基于威胁分析图谱的节点分析方法的步骤。

第四方面，本申请实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述基于威胁分析图谱的节点分析方法的步骤。

第五方面，本申请实施例还提供了一种计算机程序产品，其上存储有可执行指令，该指令被处理器执行时使处理器实现第一方面所述基于威胁分析图谱的节点分析方法的步骤。

本申请实施例提供的基于威胁分析图谱的节点分析方法及装置，将从源数据中提取的具有安全风险的目标数据作为种子节点，在威胁分析图谱中提取与种子节点关联的目标子图数据，确定目标子图数据中目标节点的节点表征，该节点表征中包含目标节点的节点数据和目标节点的邻居节点的节点数据，最后基于目标节点的节点表征对目标节点进行相关分析。可知，本申请是仅确定种子节点关联的目标子图数据中目标节点的节点表征，无需对威胁分析图谱中的所有图数据进行计算和分析，从而提高了数据分析的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于威胁分析图谱的节点分析方法的流程示意图之一；

图2是本申请实施例提供的目标子图数据提取的示意图；

图3是本申请实施例提供的基于威胁分析图谱的节点分析方法的流程示意图之二；

图4是本申请实施例提供的初始自编码模型的结构示意图；

图5是本申请实施例提供的目标子图数据转换为目标节点的节点表征的示意图；

图6是本申请实施例提供的基于威胁分析图谱的节点分析***的结构示意图；

图7是本申请实施例提供的基于威胁分析图谱的节点分析装置的结构示意图；

图8是本申请实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的基于威胁分析图谱的节点分析方法的流程示意图之一，如图1所示，该基于威胁分析图谱的节点分析方法包括以下步骤：

步骤101、在源数据中提取目标数据，并将所述目标数据作为种子节点；所述目标数据为具有安全风险的数据。

其中，源数据可以为沙箱中的数据、爬虫数据或陷落标识(Indicator of Compromise，IOC)数据等。陷落标识是一种威胁情报，即攻击者控制被害主机所使用的远程命令与控制服务器情报。IOC通常包括域名(domain)、网际互连协议(Internet Protocol，IP)、统一资源定位***(uniform resource locator，URL)、安全套接层(Secure Socket Layer，SSL)证书、哈希(HASH)等。

示例地，在网络空间中，每天产生海量的数据，包括但不限于恶意样本在沙箱中运行产生的网络行为数据、网络爬虫爬取互联网威胁风险数据、开源安全报告中的威胁情报数据等，定时采集多个源数据，从源数据中提取 domain、URL、IP等具有安全风险的目标数据作为种子节点。

步骤102、在图数据库中存储的威胁分析图谱中提取与所述种子节点关联的目标子图数据。

其中，图数据库可以为NebulaGraph，NebulaGraph是一个分布式图数据库，在图数据库中存储百亿级别的威胁分析图谱，威胁分析图谱包含多个节点和多个边，其中，节点表示实体，边表示两个实体间的关联关系；根据图数据的数据类型(节点类型、边类型)、图数据之间的关联关系确定出数据关联无向图，然后再在此基础上结合图数据之间的关联关系的数据关联指向，构建出威胁分析图谱，并将该威胁分析图谱投入实际应用当中。关系网络极具灵活性，能够在统一视图里展示异构信息。通过NebulaGraph提供的内置服务，可以基于不同规则查询图数据以及图数据间的关联关系。节点类型包含但不限定于V(IP)、V(domain)、V(URL)，其中，V表示节点；边类型包含但不限定于E(connect)、E(release)、E(download)、E(delivery)，其中，E表示边。数据发起网络连接时，可能会连接IP、域名或者URL，这类关系是连接(connect)；数据和数据之间可能用来释放文件，关系为释放(release)；数据和数据之间可能用来下载文件，关系为下载(download)，某个IP、域名或者URL也可能用来分发恶意文件，关系为分发(delivery)；上述所有的数据类型和关联关系都可以基于指定网络环境中的威胁情报提出，能够将威胁分析图谱直接投入到威胁情报的分析过程中。同时，因为该威胁分析图谱是适合用户网络环境的，所以更容易、更方便地基于威胁分析图谱获取与用户网络环境相适合的威胁情报。

示例地，在网络空间数据中对节点进行关联分析，并不需要全图数据分析，提取种子节点的几跳内的关联数据已经涵盖了足够信息，子图提取模块利用NebulaGraph提供的点、边查询服务，可以灵活的从NebulaGraph中提取不同规模的与种子节点关联的目标子图数据。提取后的目标子图数据保存为点数据和边数据，数据可以采用json格式。

其中，点数据中主要使用的字段包含但不限于用于：标识节点数据内容的字段、表示节点类型的字段、以及表示节点在图数据中的唯一标识的字段。例如，节点数据可以为：{"name":"b**du.com"，"label":"domain","vertexId":"0005d1b1f7fde4c98455d29ece315570"}，字段name中存储了节点数据，字段label表示节点类型为域名，字段vertexId表示节点的哈希值为0005d1b1f7fde4c98455d29ece315570。

边数据中主要使用的字段包含但不限于：表示节点在图数据中的唯一标识的字段和表示节点类型的字段。例如，边数据可以为：{"srcId":"2c238667ca0068cead9c529e06b8675d","dstId":"d878b8a1a12e3920a6a713f12a3d18e2","label":"contain"}。字段srcId表示节点1的哈希值为2c238667ca0068cead9c529e06b8675d，字段dstId表示节点2的哈希值为d878b8a1a12e3920a6a713f12a3d18e2，字段label表示边类型为包括(contain)。边的方向由字段srcId所代表的节点指向字段dstId所代表的节点。

步骤103、确定所述目标子图数据中目标节点的节点表征；所述目标节点的节点表征中包含所述目标节点的节点数据和所述目标节点的邻居节点的节点数据。

示例地，在提取到目标子图数据时，针对目标节点，在目标子图数据中确定目标节点的邻居节点，将目标节点的节点数据和目标节点的邻居节点的节点数据进行聚合，得到目标节点的节点表征；另外，目标节点可以为一个，也可以为多个，目标节点的具体数量可以基于实际需求来确定。

步骤104、基于所述目标节点的节点表征对所述目标节点进行分析。

示例地，在得到每个目标节点的节点表征时，可以基于每个目标节点的节点表征进行威胁分析、相似度分析等。

本申请实施例提供的基于威胁分析图谱的节点分析方法，将从源数据中提取的具有安全风险的目标数据作为种子节点，在威胁分析图谱中提取与种子节点关联的目标子图数据，确定目标子图数据中目标节点的节点表征，该节点表征中包含目标节点的节点数据和目标节点的邻居节点的节点数据，最后基于目标节点的节点表征对目标节点进行相关分析。可知，本申请是仅确定种子节点关联的目标子图数据中目标节点的节点表征，无需对威胁分析图谱中的所有图数据进行计算和分析，从而提高了数据分析的效率。

在一实施例中，上述步骤102具体可通过以下方式实现：

其中，预设跳数可以为1跳、2跳或者3跳等，具体可基于需求进行设定。

示例地，可以利用图数据库NebulaGraph提供的点、边查询服务，从NebulaGraph中提取不同规模的与种子节点关联的节点数据和边数据，再将种子节点的节点数据、与种子节点关联的节点数据和边数据进行组合，就可以得到目标子图数据；具体目标子图数据的规模大小是基于预设跳数数决定的。图2是本申请实施例提供的目标子图数据提取的示意图，如图2所示，从源数据201中提取种子节点202，子图提取模块203基于种子节点202在图数据库204的威胁分析图谱中提取得到目标子图数据205。在图2中，源数据201可以为沙箱数据、爬虫数据或陷落标识数据，种子节点202以节点A、节点B、节点C、节点E和节点F为例。

本申请实施例提供的基于威胁分析图谱的节点分析方法，基于图数据库NebulaGraph提供的点、边查询服务，提取与种子节点关联的目标子图数据，提取方便。

在一实施例中，图3是本申请实施例提供的基于威胁分析图谱的节点分析方法的流程示意图之二，如图3所示，上述步骤103具体可通过以下步骤实现：

步骤1031、确定所述目标子图数据中每个节点的图嵌入向量。

可选地，确定所述目标子图数据中每个节点的图嵌入向量具体可通过以下方式实现：

获取当前业务场景；

示例地，目标子图数据由边数据和节点数据组成，目标子图数据中的网络关系属于非欧空间数据，不方便直接处理和计算。而欧氏空间是一种向量空间，向量空间有更丰富的方法工具集，图嵌入是一种将图数据映射为低维稠密向量的过程，能够解决图数据难以高效输入机器学习算法的问题，能够在欧氏空间进行计算。图嵌入比邻接矩阵更实用，因为图嵌入可以把节点属性打包到一个维度更小的向量中，同时向量运算比图形上的运算更简单、更快。图嵌入的目的是将节点和边利用向量进行表示。即图嵌入就是将目标子图数据中的每个节点的节点数据转换为对应的图嵌入向量。图嵌入捕获目标子图数据的拓扑结构，更多的属性嵌入编码可以在以后的任务中获得更好的结果。具体地，可以根据不同业务场景来选择对应的算法，即在搜索结构相似节点的业务场景下，可以选择结构相似的算法确定目标子图数据中每个节点的图嵌入向量；在搜索内容相似节点的业务场景下，可以选择内容相似的算法确定目标子图数据中每个节点的图嵌入向量。

其中，内容相似算法是一种用于表示图结构中节点及关系的图嵌入表示的算法，包括但不限于TransE算法。可以广泛应用于后续各类基于图谱的任务，一条内容可以表示为一个三元组(srcId,label,dstId)，例如，三元组可以表示为：{"srcId":"2c238667ca0068cead9c529e06b8675d","dstId":"d878b8a1a12e3920a6a713f12a3d18e2","label":"contain"}，在此三元组中，字段srcId和字段dstId均为节点，可以用目标子图数据中节点的哈希值(md5)表示，contain是一种relation，用目标子图数据中的边表示。通常图嵌入向量的维度大小在64到512之间，具体可根据下游任务实际效果和业务需要灵活选择。

结构相似算法具体为：将目标子图数据中每个节点对应的边类型统计信息，将每个节点对应的边类型统计信息输入至目标自编码模型中，得到所述目标自编码模型输出的每个节点的图嵌入向量。其中，所述目标自编码模型是基于图结构样本中每个节点对应的边类型统计样本信息训练得到的。

具体地，目标自编码模型的具体训练过程为：获取大量图结构样本，确定每个图结构样本中每个节点对应的边类型统计样本信息，然后将图结构样本中每个节点对应的边类型统计样本信息输入至预先创建的初始自编码模型中，由初始自编码模型对每个节点对应的边类型统计样本信息进行特征分析，得到初始自编码模型输出的边类型统计预测信息，再基于边类型统计预测信息和边类型统计样本信息构建损失函数，基于损失函数对初始自编码模型的模型参数进行优化，直至达到收敛条件，模型训练完成。即上述通过归纳式学习的训练方式得到训练好的模型，此时从训练好的模型中取出从输入层到中间隐藏层作为目标自编码模型。图4是本申请实施例提供的初始自编码模型的结构示意图，如图4所示，编号为1的为输入层，编号为2的为中间隐藏层，编号为3的为输出层，将编号为1的输入层和编号为2的中间隐藏层作为目标自编码模型，也就是说虚线框内的部分作为目标自编码模型。

需要说明的是，初始自编码模型可以为三层深度神经网络(Deep Neural Networks，DNN)，也可以增加深度神经网络的层数，还可以采用其他网络结构；也可以采用向量降维(如PCA)或其他编码技术，本申请对此不做限定。

需要说明的是，在目标子图数据中每个节点对应的边类型统计信息太多时，可按批输入目标自编码模型进行预测计算，预测计算后，目标子图数据中每个节点均对应一个图嵌入向量，图嵌入向量的维度为目标自编码模型或其他编码结构的编码层维度。

步骤1032、基于每个节点的图嵌入向量确定目标节点的节点表征。

可选地，将每个所述节点的图嵌入向量输入至目标图神经网络模型中，得到所述目标图神经网络模型输出的目标节点的节点表征。

示例地，现实世界许多数据以图(Graph)的形式呈现，图神经网络模型是一种新的机器学习模型家族，图神经网络模型已被证明可以充分利用图数据的结构信息。机器学习模型促进了许多实际问题的实际解决方案，例如节点分类、恶意样本的相似性检测、恶意软件检测、欺诈检测等。消息传递范式是一种聚合邻接节点信息来更新中心节点信息的范式，它将卷积算子推广到了不规则数据领域，实现了图与神经网络的连接。消息传递范式因为简单、强大的特性，于是被人们广泛地使用。本申请基于每个节点的图嵌入向量和目标图神经网络模型确定目标节点的节点表征。

在一实施例中，所述目标图神经网络模型包括采集模块和聚合模块；将每个所述节点的图嵌入向量输入至目标图神经网络模型中，得到所述目标图神经网络模型输出的目标节点的节点表征，具体可通过以下方式实现：

将每个所述节点的图嵌入向量输入至所述采集模块，通过所述采集模块在每个所述节点的图嵌入向量中采集所述目标节点的每个邻居节点的节点数据，并将每个邻居节点的节点数据和所述目标节点的节点数据发送至所述聚合模块；

将所述节点聚合信息确定为所述目标节点的节点表征。

其中，目标图神经网络模型可以内置多种主流图神经网络算法，满足不同安全场景使用需求，包括但不限于GraphSAGE算法，下面以GraphSAGE算法为例。

GraphSAGE是一种图神经网络算法，解决了图卷积神经网络(Graph Convolutional Nueral Network，GCN)的局限性，GCN训练时需要用到整个图的邻接矩阵，依赖于具体的图结构，一般只能用在直推式学习。GraphSAGE使用多层聚合函数，每一层聚合函数会将节点及其邻居的信息聚合在一起得到下一层的特征向量，GraphSAGE采用了节点的邻域信息，不依赖于全局的图结构，GraphSAGE包含采样模块和聚合模块，首先使用节点之间的连接信息，对邻居节点进行采样，然后通过多层聚合函数不断地将相邻节点的信息聚合在一起，得到节点聚合信息，将节点聚合信息确定为目标节点的节点表征。另外，聚合函数可以为以下任意一种：均值聚合器(Mean aggregator)、图卷积聚合器(GCN aggregator)、长短记忆网络聚合器(LSTM aggregator)、池化聚合器(Pooling aggregator)。

图5是本申请实施例提供的目标子图数据转换为目标节点的节点表征的示意图，如图5所示，目标子图数据501中包括节点A、节点B、节点C、节点D、节点E和节点F，具体6个节点之间的连接关系如图5所示，图5中展示了一次邻居节点的节点信息传递到目标节点的过程，节点B的邻居节点包括节点A和节点C，将节点A的节点数据和节点C的节点数据进行线性变换后聚合到节点B，将节点B的节点数据、线性变换后的节点A的节点数据和节点C的节点数据，再经过线性变换后，得到节点B的节点聚合信息。节点C的邻居节点包括节点A、节点B、节点E和节点F，将节点A的节点数据、节点B的节点数据、节点E的节点数据和节点F的节点数据进行线性变换后聚合到节点C，将节点C的节点数据、线性变换后的节点A的节点数据、节点B的节点数据、节点E的节点数据和节点F的节点数据，再经过线性变换后，得到节点C的节点聚合信息。节点D的邻居节点包括节点A，将节点A的节点数据进行线性变换后聚合到节点D，将节点D的节点数据、线性变换后的节点A的节点数据，再经过线性变换后，得到节点D的节点聚合信息。

这样的“邻居节点信息传递到目标节点的过程”会进行多次。节点A的邻居节点B、邻居节点C和邻居节点D都已经发生过一次更新的节点信息，经过线性变换、聚合、再线性变换，产生了节点A的节点聚合信息，将节点A的节点聚合信息作为节点A的节点表征。

需要说明的是，目标图神经网络模型的训练过程可以为：将多个节点的图嵌入向量样本输入至初始图神经网络模型中，初始图神经网络模型采用的算法可以为GraphSAGE算法，由初始图神经网络模型采集样本节点的邻居节点的节点数据，并将样本节点的节点数据、以及样本节点的邻居节点的节点数据基于聚合函数进行聚合，得到样本节点的节点表征；基于样本节点的节点表征和样本节点的图嵌入向量构建损失函数，基于损失函数对初始图神经网络模型进行优化，直至达到收敛条件，最终得到目标图神经网络模型。

本申请实施例提供的基于威胁分析图谱的节点分析方法，基于每个节点的图嵌入向量和目标图神经网络模型确定目标节点的节点表征，在目标节点中增加了目标节点的邻居节点的节点信息，使得目标节点的节点表征包含的信息更多，这样，在后续基于目标节点的节点表征对目标节点进行分析时，能够提高分析的准确性。

在一实施例中，上述步骤104具体可通过以下方式实现：

示例地，为了搭建高度自动化平台及工具链，构建一个统一的、能吞吐海量异构多源数据，利用目标图神经网络模型进行检测、分析、追踪威胁事件，在得到目标图神经网络模型输出的目标节点的节点表征时，利用图神经网络对目标节点的节点表征进行分析，得到目标节点的威胁风险系数，再将目标节点的威胁风险系数与预设系数值进行比较，在确定目标节点的威胁风险系数大于预设系数值时，说明目标节点为风险节点，此时可以将目标节点的节点数据确定为陷落标识数据，并将目标节点的节点数据存储在陷落标识图数据库中，便于安全专家在图数据库中查看目标节点的节点数据；或者，在确定目标节点的威胁风险系数大于预设系数值时，还可以对目标节点进行告警，实现了对风险节点的预警；另外，还可以通过可视化方式展示目标节点的节点数据和目标节点的邻居节点的节点数据，辅助安全专家运营、分析和对抗。

需要说明的是，在确定目标节点的威胁风险系数大于预设系数值时，还可以进一步通过人工对目标节点进行研判和分析，在人工确定目标节点为高风险节点时，再将目标节点的节点数据存储在陷落标识图数据库中。

本申请实施例提供的基于威胁分析图谱的节点分析方法，可以利用目标图神经网络模型对每日产生的海量数据进行持续监测，实现了未知风险节点的预测以及风险节点的预警，另外，还可以显示目标节点的节点数据和目标节点的邻居节点的节点数据，能够辅助安全专家运营、分析和对抗。

在一实施例中，上述步骤104具体可通过以下方式实现：

示例地，可以得到多个节点的节点表征，可以将目标节点的节点表征与其他节点的节点表征进行相似度对比，进而确定出与目标节点相似的节点，这样，若确定目标节点为风险节点，则于目标节点相似的节点也属于风险节点。

本申请实施例提供的基于威胁分析图谱的节点分析方法，可以利用目标图神经网络模型对每日产生的海量数据进行持续监测，实现了相似节点的搜索。

图6是本申请实施例提供的基于威胁分析图谱的节点分析***的结构示意图，基于威胁分析图谱的节点分析***可以部署在服务器端，如图6所示，基于威胁分析图谱的节点分析***包括图数据存储模块601、子图提取模块602、图嵌入模块603、图计算模块604、数据后处理模块605和数据采集模块606；其中，数据采集模块用于采集源数据；图数据存储模块601用于存储威胁分析图谱，并提供查询服务；子图提取模块602用于基于种子节点在威胁分析图谱中提取目标子图数据；图嵌入模块603用于确定目标子图数据中每个节点的图嵌入向量；图计算模块604用于基于目标图神经网络模型和每个节点的图嵌入向量确定目标节点的节点表征；数据后处理模块605用于基于目标节点的节点表征对目标节点进行威胁分析，还用于基于目标节点的节点表征和其他节点的节点表征确定与目标节点相似的节点，还用于在确定目标节点为风险节点时，显示目标节点的节点数据和目标节点的关联节点的节点数据。

本申请实施例提供的基于威胁分析图谱的节点分析方法，基于威胁分析图谱，结合APT组织所使用的基础网络设施，对海量异构多源数据进行关联分析，以实现未知风险节点的计算、风险节点的预警和相似节点的搜索。

图7是本申请实施例提供的基于威胁分析图谱的节点分析装置的结构示意图，如图7所示，该基于威胁分析图谱的节点分析装置700包括第一提取单元701、第二提取单元702、确定单元703和分析单元704；其中：

第一提取单元701，用于在源数据中提取目标数据，并将所述目标数据作为种子节点；所述目标数据为具有安全风险的数据；

第二提取单元702，用于在图数据库中存储的威胁分析图谱中提取与所述种子节点关联的目标子图数据；

确定单元703，用于确定所述目标子图数据中目标节点的节点表征；所述目标节点的节点表征中包含所述目标节点的节点数据和所述目标节点的邻居节点的节点数据；

分析单元704，用于基于所述目标节点的节点表征对所述目标节点进行分析。

本申请实施例提供的基于威胁分析图谱的节点分析装置，将从源数据中提取的具有安全风险的目标数据作为种子节点，在威胁分析图谱中提取与种子节点关联的目标子图数据，确定目标子图数据中目标节点的节点表征，该节点表征中包含目标节点的节点数据和目标节点的邻居节点的节点数据，最后基于目标节点的节点表征对目标节点进行相关分析。可知，本申请是仅确定种子节点关联的目标子图数据中目标节点的节点表征，无需对威胁分析图谱中的所有图数据进行计算和分析，从而提高了数据分析的效率。

基于上述任一实施例，所述第一提取单元702具体用于：

基于上述任一实施例，所述确定单元703具体用于：

确定所述目标子图数据中每个节点的图嵌入向量；

基于每个节点的图嵌入向量确定目标节点的节点表征。

基于上述任一实施例，所述确定单元703还具体用于：

获取当前业务场景；

基于上述任一实施例，所述确定单元703还具体用于：

基于上述任一实施例，所述目标图神经网络模型包括采集模块和聚合模块；

所述确定单元703还具体用于：

将所述节点聚合信息确定为所述目标节点的节点表征。

基于上述任一实施例，所述分析单元704具体用于：

图8是本申请实施例提供的电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如下方法：在源数据中提取目标数据，并将所述目标数据作为种子节点；所述目标数据为具有安全风险的数据；

基于所述目标节点的节点表征对所述目标节点进行分析。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于威胁分析图谱的节点分析方法，例如包括：在源数据中提取目标数据，并将所述目标数据作为种子节点；所述目标数据为具有安全风险的数据；

基于所述目标节点的节点表征对所述目标节点进行分析。

又一方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于威胁分析图谱的节点分析方法，该方法包括：在源数据中提取目标数据，并将所述目标数据作为种子节点；所述目标数据为具有安全风险的数据；

基于所述目标节点的节点表征对所述目标节点进行分析。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

一种基于威胁分析图谱的节点分析方法，包括：

在源数据中提取目标数据，并将所述目标数据作为种子节点；所述目标数据为具有安全风险的数据；

在图数据库中存储的威胁分析图谱中提取与所述种子节点关联的目标子图数据；

确定所述目标子图数据中目标节点的节点表征；所述目标节点的节点表征中包含所述目标节点的节点数据和所述目标节点的邻居节点的节点数据；

基于所述目标节点的节点表征对所述目标节点进行分析。
根据权利要求1所述的基于威胁分析图谱的节点分析方法，其中，所述在图数据库中存储的威胁分析图谱中提取与所述种子节点关联的目标子图数据，包括：

在所述威胁分析图谱中查找所述种子节点关联的预设跳数的目标关联数据；所述目标关联数据包括节点数据和边数据；

将所述种子节点的节点数据和所述目标关联数据进行组合，得到所述目标子图数据。
根据权利要求1所述的基于威胁分析图谱的节点分析方法，其中，所述确定所述目标子图数据中目标节点的节点表征，包括：

确定所述目标子图数据中每个节点的图嵌入向量；

基于每个节点的图嵌入向量确定目标节点的节点表征。
根据权利要求3所述的基于威胁分析图谱的节点分析方法，其中，所述确定所述目标子图数据中每个节点的图嵌入向量，包括：

获取当前业务场景；

在所述当前业务场景包括搜索结构相似节点的业务场景时，基于结构相似算法确定所述目标子图数据中每个节点的图嵌入向量；

在所述当前业务场景包括搜索内容相似节点的业务场景时，基于内容相似算法确定所述目标子图数据中每个节点的图嵌入向量。
根据权利要求3所述的基于威胁分析图谱的节点分析方法，其中，所述基于每个节点的图嵌入向量确定目标节点的节点表征，包括：

将每个所述节点的图嵌入向量输入至目标图神经网络模型中，得到所述目标图神经网络模型输出的目标节点的节点表征；

其中，所述目标图神经网络模型是基于多个节点的图嵌入向量样本训练得到的。
根据权利要求5所述的基于威胁分析图谱的节点分析方法，其中，所述目标图神经网络模型包括采集模块和聚合模块；

所述将每个所述节点的图嵌入向量输入至目标图神经网络模型中，得到所述目标图神经网络模型输出的目标节点的节点表征，包括：

将每个所述节点的图嵌入向量输入至所述采集模块，通过所述采集模块在每个所述节点的图嵌入向量中采集所述目标节点的每个邻居节点的节点数据，并将每个邻居节点的节点数据和所述目标节点的节点数据发送至所述聚合模块；

通过所述聚合模块将所述每个邻居节点的节点数据和所述目标节点的节点数据进行聚合，得到节点聚合信息；

将所述节点聚合信息确定为所述目标节点的节点表征。
根据权利要求1-6任一项所述的基于威胁分析图谱的节点分析方法，其中，所述基于所述目标节点的节点表征对所述目标节点进行分析，包括：

基于所述目标节点的节点表征确定所述目标节点的威胁风险系数，所述威胁风险系数用于表征所述目标节点的风险大小；

在确定所述目标节点的威胁风险系数大于预设系数值时，将所述目标节点的节点数据存储在陷落标识图数据库中，或者对所述目标节点进行告警，或者将所述目标节点的节点数据和所述目标节点的关联节点的节点数据进行显示。
根据权利要求1-6任一项所述的基于威胁分析图谱的节点分析方法，其中，所述基于所述目标节点的节点表征对所述目标节点进行分析，包括：

将所述目标节点的节点表征与其他节点的节点表征进行对比分析，确定与所述目标节点相似的节点。
一种基于威胁分析图谱的节点分析装置，包括：

第一提取单元，用于在源数据中提取目标数据，并将所述目标数据作为种子节点；所述目标数据为具有安全风险的数据；

第二提取单元，用于在图数据库中存储的威胁分析图谱中提取与所述种子节点关联的目标子图数据；

确定单元，用于确定所述目标子图数据中目标节点的节点表征；所述目标节点的节点表征中包含所述目标节点的节点数据和所述目标节点的邻居节点的节点数据；

分析单元，用于基于所述目标节点的节点表征对所述目标节点进行分析。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至8任一项所述基于威胁分析图谱的节点分析方法。
一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1至8任一项所述基于威胁分析图谱的节点分析方法。
一种计算机程序产品，其上存储有可执行指令，该指令被处理器执行时使处理器实现如权利要求1至8中任一项所述基于威胁分析图谱的节点分析方法。