CN115834251B - 基于超图Transformer威胁狩猎模型建立方法 - Google Patents
基于超图Transformer威胁狩猎模型建立方法 Download PDFInfo
- Publication number
- CN115834251B CN115834251B CN202310108673.8A CN202310108673A CN115834251B CN 115834251 B CN115834251 B CN 115834251B CN 202310108673 A CN202310108673 A CN 202310108673A CN 115834251 B CN115834251 B CN 115834251B
- Authority
- CN
- China
- Prior art keywords
- log
- hypergraph
- layer
- matrix
- threat
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 72
- 238000010586 diagram Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 24
- 238000012550 audit Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000005295 random walk Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 241001235534 Graphis <ascomycete fungus> Species 0.000 claims 1
- 230000007123 defense Effects 0.000 abstract description 3
- 230000004044 response Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 14
- 238000003860 storage Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于超图Transformer威胁狩猎模型建立方法,所述建立方法包括以下步骤:将威胁情报和***日志作为输入数据,经过处理模块生成日志图,并输入到威胁狩猎模型中;威胁狩猎模型对输入数据进行编码和构建超图,再经过超图神经网络层处理生成矩阵数据;对预处理数据通过多头注意力机制提取特征,将特征映射到超边矩阵中,最终通过超边匹配实现对日志图的相似度分数计算,找到与网络威胁情报相匹配的新型电力***内核审计日志,完成威胁狩猎。这种模型可以适应不断更新变化的APT攻击,完成新型电力***APT攻击的威胁狩猎,实现针对APT攻击的快速响应和主动防御。
Description
技术领域
本发明涉及威胁狩猎模型建立技术领域,具体涉及基于超图Transformer威胁狩猎模型建立方法。
背景技术
由于新型电力***电源分布正在朝着分布式方向转变,跨空间的脆弱性增加导致受到APT攻击的风险增大,攻击者可以通过外部网络入侵并潜伏到新型电力***信息网络中,对新型电力***业务层进行修改,最终对电力***造成破坏,同时,在APT攻击潜伏的过程中会产生庞大的日志信息,导致传统的检测模型在训练时会丢失APT攻击特征或将恶意行为逐步训练成为正常行为,因此如何有效挖掘***日志库,主动发现长期隐藏的APT攻击是一个关键问题。
基于此,本申请提出基于超图Transformer威胁狩猎模型建立方法解决上述问题。
发明内容
本发明的目的是提供基于超图Transformer威胁狩猎模型建立方法,既能够在构建日志图时针对APT攻击长期潜伏性的特点最大程度地保留新型电力***APT攻击痕迹,同时又能够利用网络威胁情报自适应不断更新变化的APT攻击,以解决背景技术中不足。
为了实现上述目的,本发明提供如下技术方案:基于超图Transformer威胁狩猎模型建立方法,所述建立方法包括以下步骤:
S1:将威胁情报和***日志作为输入数据,对输入数据进行编码和构建超图,再经过超图神经网络层处理生成预处理数据;
S2:对预处理数据通过Transformer多头注意力机制提取特征数据;
S3:特征数据通过超边匹配算法计算分数,完成威胁情报在电力***日志库中的匹配,建立电力***APT攻击的HTTN威胁狩猎模型。
在一个优选的实施方式中,所述HTTN威胁狩猎模型进行威胁狩猎的步骤如下:
S1.1:通过各类操作***内核审计引擎采集电力***内核审计日志流,日志流经过流处理单元模块构建电力***日志图;
S1.2:收集各种开源或私有威胁情报库中的网络威胁情报,经过威胁情报处理模块生成威胁情报日志图;
S1.3:将电力***日志图与威胁情报日志图一同输入HTTN威胁狩猎模型中,通过对日志图匹配,计算新型电力***日志图子图与威胁情报日志图的分数;
S1.4:通过对HTTN威胁狩猎模型设置分数阈值,获取新型电力***日志库中所有与威胁情报相匹配的操作***日志,通过HTTN威胁狩猎模型发现未知APT攻击,完成APT攻击的威胁狩猎。
在一个优选的实施方式中,所述HTTN威胁狩猎模型包括图信息输入层、超图构造层、超图神经网络层、超图Transformer编码层、超边匹配层和函数计算层组成;
所述图信息输入层的生成步骤为:
N个日志图对组成数据输入,每个日志图对表示为
;
每个日志图或日志图/>,日志图的节点和边数是任意的;
任意一组日志图输入,日志图表示为/>,和/>分别表示节点数和边数;
使用邻接矩阵来表征日志图/>的连接信息,其中/>是实数集;
使用来表示日志图/>节点的特征矩阵,其中/>是节点的维度,日志图/>的表示方法与日志图/>相同。
在一个优选的实施方式中,所述超图构造层中,日志超图定义为,日志超图包括日志结点集/>、日志边集/>、日志结点特征矩阵/>和日志对角边权重矩阵/>,日志超图每条超边包含至少两个结点,使用关联矩阵/>来建模非成对结点关系,H中的条目定义为:
,
其中,表示关联矩阵中的元素赋值,如果两个节点之间有边,值为1,如果两个节点之间无边,值为0;节点v的次数表示为/>,/>表示定点的度;边e的次数表示为/>,节点度对角线矩阵和超边度对角矩阵分别表示为/>和/>。
在一个优选的实施方式中,所述超图构造层中,采用随机游走的方法构建电力***日志超图,对于每个日志节点v,选择在步长为K的普通日志图G上进行随机游走,然后将采样节点序列作为超边,得到了超边矩阵。
在一个优选的实施方式中,所述超图神经网络层中,在HTTN威胁狩猎模型中添加一层HGNN层,对于HGNN层中的第l层,以日志超图H和隐藏表示矩阵作为输入,然后计算下一层的节点:
,
其中是非线性激活函数,/>表示第l层训练参数矩阵,/>、/>、/>分别为对角结点度、边度和边权重矩阵,/>为训练参数矩阵。
在一个优选的实施方式中,所述HGNN层执行日志图节点-边-节点转换,使日志超图结构细化日志的超边特征。
在一个优选的实施方式中,所述超图Transformer编码层将经过超图神经网络层处理后的日志超边矩阵E输入到Transformer编码层,Transformer编码层提取日志超边矩阵中的核心特征,超图Transformer编码层包括多头注意力机制和前馈神经网络;
自注意力机制计算公式为:
,
,
,
,
式中,E为日志超边矩阵,Q、K、V分别是Query、Key和Value向量,分别来自E,代表Q、K向量的维度,/>、/>、/>为随机初始化矩阵;
多头注意力机制通过h个不同的线性变换对进行投影映射,最后将各个自注意力模块计算结果拼接起来,表达式为:
,
初始化多组权重矩阵、/>、/>,其中/>,分别计算各自的/>、/>、,再根据注意力机制计算公式得到/>,将各组/>拼接后与权值矩阵/>相乘,最后映射到原来的空间当中,得到和原来超边矩阵输入维度相同的/>;
前馈神经网络:由激活函数为RELU的全连接层和线性激活函数的全连接层构成,用于解决多头注意力机制对于超图神经网络层处理后的数据拟合程度不够的问题。
在一个优选的实施方式中,所述超边匹配层对超图对和/>超边之间的分数,构建超图对的分数矩阵/>,对于/>中每个超边/>,计算它与图对中另一个图/>的所有超边的高斯核函数计算分数:
,
其中,是/>中超边的数目,/>和/>表示超图/>和/>中的超边表示,/>控制高斯核函数的作用范围,/>值越大,高斯核函数的局部影响范围越大。
在一个优选的实施方式中,所述函数计算层中,矩阵经过全连接层处理后生成分数,计算公式为:
,
其中,G是训练图对的集合,并且表示日志图/>和日志图/>之间的实际分数。
在上述技术方案中,本发明提供的技术效果和优点:
本发明通过将网络威胁情报和新型电力***内核审计日志构建超图,经过HGNN层学习超图高阶节点之间的关系,将特征映射到超边矩阵中,采用Transformer编码层对超边矩阵添加多头注意力机制,最终通过超边匹配实现对日志图的相似度分数计算,找到与网络威胁情报相匹配的新型电力***内核审计日志,这种模型可以适应不断更新变化的APT攻击,完成新型电力***APT攻击的威胁狩猎,实现针对APT攻击的快速响应和主动防御。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明电力***的威胁狩猎流程图。
图2为本发明HTTN威胁狩猎模型的架构示意图。
图3为本发明Trojan日志超图的构建流程图。
图4为本发明的多头注意力机制示意图。
图5为本发明的各模型训练过程均方误差变化曲线图。
图6为本发明的各模型训练过程变化图。
图7为本发明的各模型训练过程精度@10变化图。
图8为本发明的各模型狩猎时间对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例所述基于超图Transformer威胁狩猎模型建立方法,所述建立方法包括以下步骤:
S1、将威胁情报和***日志作为输入数据,对输入数据进行编码和构建超图,再经过超图神经网络层处理生成预处理数据;
S2、对预处理数据通过Transformer多头注意力机制提取特征数据;
S3、特征数据通过超边匹配算法计算相似性分数,完成威胁情报在电力***日志库中的匹配,建立电力***APT攻击的HTTN威胁狩猎模型。
本申请通过将网络威胁情报和新型电力***内核审计日志构建超图,经过HGNN层学习超图高阶节点之间的关系,将特征映射到超边矩阵中,采用Transformer编码层对超边矩阵添加多头注意力机制,最终通过超边匹配实现对日志图的相似度分数计算,找到与网络威胁情报相匹配的新型电力***内核审计日志,这种模型可以适应不断更新变化的APT攻击,完成新型电力***APT攻击的威胁狩猎,实现针对APT攻击的快速响应和主动防御。
请参阅图1所示,所述HTTN威胁狩猎模型进行威胁狩猎的步骤如下:
1)通过各种类型操作***内核审计引擎实现对新型电力***内核审计日志流的采集,日志流经过流处理单元模块构建新型电力***日志图;
2)人为收集各种开源或私有威胁情报库中的网络威胁情报,经过威胁情报处理模块生成威胁情报日志图;
3)将新型电力***日志图与威胁情报日志图一同输入HTTN威胁狩猎模型中,通过对日志图相似性匹配,计算新型电力***日志图子图与威胁情报日志图的相似度分数;
4)威胁狩猎专家通过对HTTN威胁狩猎模型设置相似度分数阈值,获取新型电力***日志库中所有与威胁情报相匹配的操作***日志,通过HTTN威胁狩猎模型发现未知APT攻击,完成APT攻击的威胁狩猎。
实施例2
请参阅图2所示,所述HTTN威胁狩猎模型由图信息输入层、超图构造层、超图神经网络层、超图Transformer编码层、超边匹配层和相似度分数计算层组成。
其中,
图信息输入层:HTTN威胁狩猎模型的数据输入是由N个日志图对组成,每个日志图对可以表示为,其中对于每个日志图/>或日志图/>,日志图的节点和边数可以是任意的;对于任意一组日志图输入/>,日志图表示为/>,/>和/>分别表示节点数和边数,然后使用邻接矩阵/>来表征日志图/>的连接信息,其中R是实数集;使用/>来表示日志图/>节点的特征矩阵,其中/>是节点的维度,日志图/>的表示方法与日志图/>相同。
超图构造层:为了能够完成对***日志图的超边匹配,需要对信息输入层输入的日志图数据构建超图,日志超图定义为,日志超图由日志结点集/>、日志边集/>、日志结点特征矩阵/>和日志对角边权重矩阵/>组成,与普通日志图G不同,日志超图每条超边包含两个或多个结点;并使用关联矩阵/>来建模非成对结点关系,H中的条目定义为:
,
其中,表示关联矩阵中的元素赋值,如果两个节点之间有边,值为1,如果两个节点之间无边,值为0;节点v的次数表示为/>,/>表示定点的度;边e的次数表示为/>,节点度对角线矩阵和超边度对角矩阵分别表示为/>和/>。
在超图构造层中,本申请采用随机游走(RandomWalk)的方法构建新型电力***日志超图;
对于每个日志节点v,选择在步长为K的普通日志图G上进行随机游走,然后将采样节点序列作为超边,得到了超边矩阵。
请参阅图3所示,表示了APT攻击的一种Trojan攻击场景下日志超图的构建过程,其中,
节点A表示不受信任的外部地址;
节点B表示浏览器;
节点C表示Trojan文件;
节点D表示被执行的Trojan进程;
节点E表示dash脚本命令行;
节点F表示显示服务器网络配置的命令;
节点G表示显示主机名称的命令;
节点H表示监控服务器TCP/IP网络连接的命令;
节点I表示服务器内包含账号密码等敏感信息的配置文件;
这些配置文件的泄密可以直接导致攻击者侵入新型电力***业务层,篡改业务层数据等。
超图神经网络层:超图神经网络(HyperGraphNeuralNetwork,HGNN)是一种考虑高阶节点关系而不是成对节点关系的神经网络模型,由于新型电力***内核审计日志图节点之间关系具有复杂性以及APT攻击具有阶段性的特点,仅仅对日志图成对节点之间进行匹配训练无法充分提取日志图之间节点的相关性,因此训练出来的模型对于APT攻击威胁情报日志的匹配效果并不好。
又由于HGNN在编码日志节点位置相关性方面展现出比传统的图卷积网络(GraphConvolutionalNetwork,GCN)更好的性能,为了更好地捕捉日志超图中复杂的节点关系,我们在HTTN威胁狩猎模型中添加了一层HGNN层。其中,对于HGNN层中的第l层,它以日志超图H和隐藏表示矩阵作为输入,然后计算下一层的节点表示如下:
,
其中是非线性激活函数,/>表示第l层训练参数矩阵,/>、/>、/>分别为对角结点度、边度和边权重矩阵,/>为可训练参数矩阵。
HGNN层可以执行日志图节点-边-节点转换,让日志超图结构更好地细化日志的超边特征。而在HTTN威胁狩猎模型中,为了提高后续模块中超边匹配层中对超边的匹配效果,对新型电力***日志图采用了节点-边转换的方法,从而将节点特征嵌入到超边矩阵中。
HTTN威胁狩猎模型中初始日志节点可以学习处理/>参数矩阵特性,然后根据超边收集日志节点特征,形成超边特征矩阵/>,由/>实现,最后通过与矩阵H的相乘,聚合其相关超边特征,HGNN层可以充分提取新型电力***与威胁情报日志图中节点的位置与特征信息,提高后续超边匹配的相似度分数。
超图Transformer编码层:将经过超图神经网络层处理后的日志超边矩阵E输入到Transformer编码层。Transformer编码层可以提取日志超边矩阵中的核心特征,弱化日志超边之间的依赖问题。其中Transformer编码层主要由以下两种结构组成:
多头注意力机制:自注意力机制是对原有注意力机制的改进,是Transformer模型中的核心技术。自注意力计算公式如下:
(3),
式中,E为日志超边矩阵,Q、K、V分别是Query、Key和Value向量,分别来自E,代表Q、K向量的维度,/>、/>、/>为随机初始化矩阵,可以让模型在反向传播中学习到合适的参数;
而多头注意力机制可以发现日志超边中的位置特征,同时实现多套权重同时计算,并且彼此之间不共享权重,通过对注意力层的堆叠,使得日志超图中每个超边的节点注意周围节点的特征,多头注意力机制是通过h个不同的线性变换对进行投影映射;
如图4所示,最后将各个自注意力模块计算结果拼接起来,公式如下:
(4),
首先初始化多组权重矩阵、/>、/>,其中/>,分别计算各自的/>、、/>,再根据注意力机制计算公式得到/>,将各组/>拼接(Concat)后与权值矩阵相乘,最后映射到原来的空间当中,得到和原来超边矩阵输入维度相同的/>。
前馈神经网络:超图Transformer编码层的前馈神经网络主要是解决多头注意力机制对于超图神经网络层处理后的数据拟合程度不够的问题,以便更好地泛化函数,由激活函数为RELU的全连接层和线性激活函数的全连接层构成。
超边匹配层:由于日志超边之间的相关性对图匹配模型非常重要,因此我们在HTTN威胁狩猎模型中使用了超边匹配机制,传统的图匹配问题大多采用了逐个节点进行匹配,又由于APT攻击隐蔽性、长期纠缠性的特点,仅仅考虑日志图节点或者单条边的相关性会导致APT攻击的威胁情报在新型电力***日志库中的匹配效果并不好,因此,HTTN威胁狩猎模型并没有使用节点特征匹配,而是使用了超边匹配的方法,这与将整个图中所有节点进行匹配相比计算效率和计算的准确度更高;
超边匹配层的核心部分即是对超图对和/>超边之间的相似度分数,首先构建该图对的相似分数矩阵/>,对于/>中每个超边/>,计算它与图对中另一个图/>的所有超边的高斯核函数计算分数,即:
(5),
其中,是/>中超边的数目,/>和/>表示超图/>和/>中的超边表示,/>控制高斯核函数的作用范围,其值越大,高斯核函数的局部影响范围就越大。
相似度分数计算层:在获得日志图相似度分数矩阵之后,需要使用全连接层神经网络来逐步降低日志图相似度矩阵的维度,进而拟合出一个函数实现对日志图的相似度分数计算,全连接层的原理是通过矩阵的向量乘积,实现由一个特征空间线性变换到另一个特征空间,最终实现矩阵的降维;
相似度矩阵经过全连接层处理之后会生成一个相似分数,并用下面的均方误差损失函数与实际相似性分数进行比较,衡量模型对于新型电力***日志图与威胁情报日志图的匹配效果:
(6),
其中,G是训练图对的集合,并且表示日志图/>和日志图/>之间的实际相似性分数。
实施例3
为了验证HTTN威胁狩猎模型对于APT攻击威胁狩猎的准确率与高效性,本申请采用Linux内核审计日志与多种APT攻击场景混合的数据集,并与SimGNN、GraphSim、H2MN、HGMN等传统图回归模型进行对比实验,最终证明本申请所提出的HTTN威胁狩猎模型在APT攻击威胁情报的匹配中具有更好的表现。
实验准备和实验环境:实验的服务器版本为Ubuntu16.04,设备配置了4张NVIDIATITANRTX2080Ti显卡及10.2版本的CUDA,实验环境为python3.7版本,使用Pytorch框架编写,基于网格搜索实验确定HTTN威胁狩猎模型的最佳超参数,相关超参数如表1所示:
,
表1,
在HTTN威胁狩猎模型的训练过程中使用了Adam算法对模型参数进行优化,这是一种一阶的优化算法,可以替代传统的梯度下降过程,可以使训练过程所需内存更少、计算更为高效、适合解决电力***内核审计日志数据规模大的问题。
评价方法:为了对本申请提出的HTTN威胁狩猎模型匹配效果进行准确的评估,采用均方误差(Mean Square Error,MSE)、Spearman等级相关系数()和精度@10(precision@10,p@10)分别衡量模型性能;
其中MSE用来衡量预测相似度分数与真实相似度分数的平均平方方差,如公式(6);评估预测结果与真实排名结果之间的排名相关性;p@10计算预测相似度分数与实际相似度分数的交互作用除以10。
数据集介绍与预处理:本申请实验数据集来自于在某些APT攻击场景下的Linux内核审计日志,新型电力***属于分布式架构,其中各项服务大多部署在Linux服务器中,因此对于服务器安全性要求极高,而内核审计日志基于Linux底层对于用户***程序、进程、操作进行记录,可以对APT攻击的各个阶段日志信息进行收集。日志图中的一个节点代表一条命令或者程序,一条边代表命令或者程序之间的相关性。
在数据集中,我们随机选择了1000个日志图对,按照60%、20%、20%划分为训练集、测试集和验证集,由于APT攻击隐蔽性的特点,因此威胁情报所生成的日志图节点数量一般不会超过15个,对数据集使用了A*算法生成日志图对的相似度分数。
不同模型实验结果分析:实验将本申请所提出的HTTN威胁狩猎模型与传统的SimGNN、GraphSim,HGMN和H2MN图回归模型进行对比实验,实验结果如表2所示:
,
表2,
各模型训练过程效果对比如图5、图6、图7所示,在包含APT攻击的Linux日志数据集中,本申请所提出的HTTN威胁狩猎模型在均方误差指标上比SimGNN降低了0.81,比GraphSim模型降低了约0.27,比HGMN模型降低了约0.166,比H2MN模型降低了0.046;
在Spearman等级相关系数方面,本申请所提出的HTTN威胁狩猎模型相较于SimGNN提高了0.06,比GraphSim模型提高了0.0226,比HGMN模型提高了0.0076,比H2MN模型提高了0.0126;
在p@10指标方面,HTTN威胁狩猎模型相较于SimGNN提高了约0.1,比GraphSim模型提高了约0.015,比HGMN模型提高了0.0147,比H2MN模型提高了0.011。通过对MSE、和p@10指标的对比,可以充分证明HTTN威胁狩猎模型中对于日志图超边矩阵添加Transformer编码层多头注意力的有效性,相较于其他四种模型在威胁情报匹配方面取得了更好的效果。
当新型电力***遭受基于零日漏洞的APT攻击时,APT攻击存在于新型电力***的时间越长,则产生的危害也就越大,因此对于威胁狩猎模型的时间要求则是越短越好,我们对此进行了不同模型日志图相似度分数计算时间的对比实验,
实验结果如图8所示,HTTN威胁狩猎模型相较于SimGNN、GraphSim、HGMN模型对于日志图相似度分数的计算时间分别缩短了6.14、7.1和5.35毫秒,同时仅比H2MN模型所消耗的时间相差不大。由此可以看出HTTN威胁狩猎模型对于日志图对计算时间的优化。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本申请中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (3)
1.基于超图Transformer威胁狩猎模型建立方法,其特征在于:
所述威胁狩猎模型为HTTN威胁狩猎模型,包括图信息输入层、超图构造层、超图神经网络层、超图Transformer编码层、超边匹配层和函数计算层组成;
所述图信息输入层的生成步骤为:
N个日志图对组成数据输入,每个日志图对表示为
;
每个日志图或日志图/>,日志图的节点和边数是任意的;
任意一组日志图输入,日志图表示为/>,/>和/>分别表示节点数和边数;
使用邻接矩阵来表征日志图/>的连接信息,其中/>是实数集;
使用来表示日志图/>节点的特征矩阵,其中/>是节点的维度,日志图的表示方法与日志图/>相同;
所述超图构造层中,日志超图定义为,日志超图包括日志结点集/>、日志边集/>、日志结点特征矩阵/>和日志对角边权重矩阵/>,日志超图每条超边包含至少两个结点,使用关联矩阵/>来建模非成对结点关系,H中的条目定义为:
,
其中,表示关联矩阵中的元素赋值,如果两个节点之间有边,值为1,如果两个节点之间无边,值为0;节点v的次数表示为/>,/>表示定点的度;边e的次数表示为/>,节点度对角线矩阵和超边度对角矩阵分别表示为/>和/>;
所述超图神经网络层中,在HTTN威胁狩猎模型中添加一层HGNN层,对于HGNN层中的第l层,以日志超图H和隐藏表示矩阵作为输入,然后计算下一层的节点:
,
其中Sigmoid是非线性激活函数,/>表示第l层训练参数矩阵,/>、/>、/>分别为对角结点度、边度和边权重矩阵,/>为训练参数矩阵;
所述超图Transformer编码层将经过超图神经网络层处理后的日志超边矩阵E输入到Transformer编码层,Transformer编码层提取日志超边矩阵中的核心特征,超图Transformer编码层包括多头注意力机制和前馈神经网络;
自注意力机制计算公式为:
,
,
,
,
式中,E为日志超边矩阵,Q、K、V分别是Query、Key和Value向量,分别来自E,代表Q、K向量的维度,/>、/>、/>为随机初始化矩阵;
多头注意力机制通过h个不同的线性变换对进行投影映射,最后将各个自注意力模块计算结果拼接起来,表达式为:
,
,
初始化多组权重矩阵、/>、/>,其中/>,分别计算各自的/>、/>、/>,再根据注意力机制计算公式得到/>,将各组/>拼接后与权值矩阵/>相乘,最后映射到原来的空间当中,得到和原来超边矩阵输入维度相同的/>;
前馈神经网络:由激活函数为RELU的全连接层和线性激活函数的全连接层构成,用于解决多头注意力机制对于超图神经网络层处理后的数据拟合程度不够的问题;
所述超边匹配层对超图对和/>超边之间的分数,构建超图对的分数矩阵/>,对于/>中每个超边/>,计算它与图对中另一个图/>的所有超边的高斯核函数计算分数:
,
其中,是/>中超边的数目,/>和/>表示超图/>和/>中的超边表示,/>控制高斯核函数的作用范围,/>值越大,高斯核函数的局部影响范围越大;
所述函数计算层中,矩阵经过全连接层处理后生成分数,计算公式为:
,
其中,G是训练图对的集合,并且表示日志图/>和日志图/>之间的实际分数;
所述HTTN威胁狩猎模型进行威胁狩猎的步骤如下:
S1.1:通过各类操作***内核审计引擎采集电力***内核审计日志流,日志流经过流处理单元模块构建电力***日志图;
S1.2:收集各种开源或私有威胁情报库中的网络威胁情报,经过威胁情报处理模块生成威胁情报日志图;
S1.3:将电力***日志图与威胁情报日志图一同输入HTTN威胁狩猎模型中,通过对日志图匹配,计算新型电力***日志图子图与威胁情报日志图的分数;
S1.4:通过对HTTN威胁狩猎模型设置分数阈值,获取新型电力***日志库中所有与威胁情报相匹配的操作***日志,通过HTTN威胁狩猎模型发现未知APT攻击,完成APT攻击的威胁狩猎。
2.根据权利要求1所述的基于超图Transformer威胁狩猎模型建立方法,其特征在于:所述超图构造层中,采用随机游走的方法构建电力***日志超图,对于每个日志节点v,选择在步长为K的普通日志图G上进行随机游走,然后将采样节点序列作为超边,得到了超边矩阵。
3.根据权利要求1所述的基于超图Transformer威胁狩猎模型建立方法,其特征在于:所述HGNN层执行日志图节点-边-节点转换,使日志超图结构细化日志的超边特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310108673.8A CN115834251B (zh) | 2023-02-14 | 2023-02-14 | 基于超图Transformer威胁狩猎模型建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310108673.8A CN115834251B (zh) | 2023-02-14 | 2023-02-14 | 基于超图Transformer威胁狩猎模型建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115834251A CN115834251A (zh) | 2023-03-21 |
CN115834251B true CN115834251B (zh) | 2023-09-29 |
Family
ID=85521200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310108673.8A Active CN115834251B (zh) | 2023-02-14 | 2023-02-14 | 基于超图Transformer威胁狩猎模型建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115834251B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117240598B (zh) * | 2023-11-07 | 2024-02-20 | 国家工业信息安全发展研究中心 | 攻击检测方法、装置、终端设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112269316A (zh) * | 2020-10-28 | 2021-01-26 | 中国科学院信息工程研究所 | 一种基于图神经网络的高鲁棒性威胁狩猎***与方法 |
US11128649B1 (en) * | 2019-03-06 | 2021-09-21 | Trend Micro Incorporated | Systems and methods for detecting and responding to anomalous messaging and compromised accounts |
CN115221511A (zh) * | 2022-09-20 | 2022-10-21 | 国网江西省电力有限公司信息通信分公司 | 一种配电物联网威胁狩猎方法 |
CN115543951A (zh) * | 2022-11-30 | 2022-12-30 | 浙江工业大学 | 一种基于起源图的日志采集、压缩、存储方法 |
CN115664696A (zh) * | 2022-08-30 | 2023-01-31 | 华北电力大学 | 一种基于威胁狩猎的apt攻击主动防御方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9392007B2 (en) * | 2013-11-04 | 2016-07-12 | Crypteia Networks S.A. | System and method for identifying infected networks and systems from unknown attacks |
US10216938B2 (en) * | 2014-12-05 | 2019-02-26 | T-Mobile Usa, Inc. | Recombinant threat modeling |
-
2023
- 2023-02-14 CN CN202310108673.8A patent/CN115834251B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11128649B1 (en) * | 2019-03-06 | 2021-09-21 | Trend Micro Incorporated | Systems and methods for detecting and responding to anomalous messaging and compromised accounts |
CN112269316A (zh) * | 2020-10-28 | 2021-01-26 | 中国科学院信息工程研究所 | 一种基于图神经网络的高鲁棒性威胁狩猎***与方法 |
CN115664696A (zh) * | 2022-08-30 | 2023-01-31 | 华北电力大学 | 一种基于威胁狩猎的apt攻击主动防御方法 |
CN115221511A (zh) * | 2022-09-20 | 2022-10-21 | 国网江西省电力有限公司信息通信分公司 | 一种配电物联网威胁狩猎方法 |
CN115543951A (zh) * | 2022-11-30 | 2022-12-30 | 浙江工业大学 | 一种基于起源图的日志采集、压缩、存储方法 |
Non-Patent Citations (4)
Title |
---|
Khan Salman Muhammad ; Richard Rene ; Molyneaux Heather ; Cote Martel Danick ; Kamalanathan Elango Jackson Henry * |
Livingstone Steve ; Gaudet Manon ; Trask Dave.Cyber Threat Hunting: A Cognitive Endpoint Behavior Analytic System.International Journal of Cognitive Informatics and Natural Intelligence (IJCINI) .2022,全文. * |
徐嘉涔 ; 王轶骏 ; 薛质.网络空间威胁狩猎的研究综述.《通信技术》.2020,全文. * |
胡钊 ; 金文娴 ; 陈禹旭.关于威胁情报的研究分析.科技资讯.2021,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN115834251A (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113408743A (zh) | 联邦模型的生成方法、装置、电子设备和存储介质 | |
CN112165485A (zh) | 一种大规模网络安全态势智能预测方法 | |
Ma et al. | Learn to forget: Machine unlearning via neuron masking | |
CN107888616A (zh) | 基于URI的分类模型的构建方法和Webshell攻击网站的检测方法 | |
Inan et al. | Training data leakage analysis in language models | |
CN115834251B (zh) | 基于超图Transformer威胁狩猎模型建立方法 | |
CN111475838A (zh) | 基于深度神经网络的图数据匿名方法、装置、存储介质 | |
CN114091034A (zh) | 一种安全渗透测试方法、装置、电子设备及存储介质 | |
Taran et al. | Machine learning through cryptographic glasses: combating adversarial attacks by key-based diversified aggregation | |
Muslihi et al. | Detecting SQL injection on web application using deep learning techniques: a systematic literature review | |
CN115238827A (zh) | 保护隐私的样本检测***训练方法及装置 | |
Amouei et al. | RAT: Reinforcement-learning-driven and adaptive testing for vulnerability discovery in web application firewalls | |
Chen et al. | Dyn-backdoor: Backdoor attack on dynamic link prediction | |
CN114358278A (zh) | 神经网络模型的训练方法及装置 | |
CN115604032B (zh) | 一种电力***复杂多步攻击检测方法及*** | |
CN116962047A (zh) | 一种可解释的威胁情报生成方法、***及装置 | |
CN110290101B (zh) | 智能电网环境中基于深度信任网络的关联攻击行为识别方法 | |
CN116232694A (zh) | 轻量级网络入侵检测方法、装置、电子设备及存储介质 | |
Li et al. | Online alternate generator against adversarial attacks | |
Zhang et al. | SeqA-ITD: User behavior sequence augmentation for insider threat detection at multiple time granularities | |
Lin et al. | The prediction of network security situation based on deep learning method | |
Yao et al. | RemovalNet: DNN Fingerprint Removal Attacks | |
Krithivasan et al. | Sparsity turns adversarial: Energy and latency attacks on deep neural networks | |
CN114581086A (zh) | 基于动态时序网络的钓鱼账户检测方法及*** | |
Shukla et al. | On the evaluation of user privacy in deep neural networks using timing side channel |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |