CN115080964B - 基于图深度学习的数据流转异常检测方法及*** - Google Patents

基于图深度学习的数据流转异常检测方法及*** Download PDF

Info

Publication number
CN115080964B
CN115080964B CN202210979819.1A CN202210979819A CN115080964B CN 115080964 B CN115080964 B CN 115080964B CN 202210979819 A CN202210979819 A CN 202210979819A CN 115080964 B CN115080964 B CN 115080964B
Authority
CN
China
Prior art keywords
graph
time sequence
node
nodes
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210979819.1A
Other languages
English (en)
Other versions
CN115080964A (zh
Inventor
秦宝帅
黄峥
周倩如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Bizhi Technology Co ltd
Original Assignee
Hangzhou Bizhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Bizhi Technology Co ltd filed Critical Hangzhou Bizhi Technology Co ltd
Priority to CN202210979819.1A priority Critical patent/CN115080964B/zh
Publication of CN115080964A publication Critical patent/CN115080964A/zh
Application granted granted Critical
Publication of CN115080964B publication Critical patent/CN115080964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Operations Research (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于图深度学习的数据流转异常检测方法及***,包括如下步骤:S1.将分别在各个节点上的描述节点本身的时序特征作为输入数据;每个时序特征输入都将经过多层时序编码器,每层结构都由自动相关、序列分解、前向转播和序列分解组成,最终得到各个节点的时序特征编码;S2.将各个节点的时序特征编码与分布式***的图形结构做关联,形成原始图,进行后续的图计算,边为分布式***中数据流转的路径;S3.从拟合好的神经网络中得到节点的嵌入编码,输入到孤立森林当中,就可以检测节点间的离群节点,从而完成图形中节点的异常检测,可以对各种分布式***中的节点进行全面的异常检测,有效提高识别的准确率。

Description

基于图深度学习的数据流转异常检测方法及***
技术领域
本发明涉及数据安全治理、图表示学习及异常检测领域。尤其涉及一种数据治理场景下基于图深度学习的数据流转异常检测方法及***。
背景技术
异常检测是数据安全领域的一个重要分支,其定义是从正常的时间序列中识别不正常的事件或行为的过程。企业使用异常检测技术可以对网络数据、用户敏感访问和操作进行实时监测,当发现异常时,及时采取措施最终保障信息安全、减少企业损失。
数据安全治理场景下,海量数据在由服务器及终端组成的庞大且复杂的分布式***中的各类节点上流转,而其中的异常检测问题尤为重要。在实际部署中,彻底了解此类***异常检测的需求和挑战对于***的安全来说更是不得不面对的问题。虽然有许多不同的研究领域和应用领域处理这个问题,但很少有人试图深入研究此类***。大多数异常检测技术都是专门为某些应用领域开发的,而其他技术则更为通用。在本发明中提出了基于图的算法在识别复杂分布式***中不同类型的异常方面的方法,主要重点是深入研究图深度学习在跨复杂分布式***的应用,能够有效提高识别的准确率。
发明内容
针对现有技术存在的问题,本发明的目的在于实现了一种针对图结构的深度学习异常检测方法,旨在帮助解决分布式***中数据安全治理场景下数据流转的异常检测问题,提高识别准确率。
为实现上述目的,本发明提供一种基于图深度学习的数据流转异常检测方法,所述方法包括如下步骤:
S1.将分别在各个节点上的描述节点本身的时序特征作为输入数据;每个时序特征输入都将经过多层时序编码器,每层结构都由自动相关、序列分解、前向转播和序列分解组成,最终得到各个节点的时序特征编码;
S2.将各个节点的时序特征编码与分布式***的图形结构做关联,形成原始图,进行后续的图计算,边为分布式***中数据流转的路径;先将图分别做两次图增强,再分别通过参数共享的图深度网络编码器,得到两个节点的嵌入编码;通过计算两个节点的嵌入编码的损失,拟合整体的神经网络;
S3.从拟合好的神经网络中得到节点的嵌入编码,输入到孤立森林当中,就可以检测节点间的离群节点,从而完成图形中节点的异常检测。
进一步,步骤S1中,各个节点的时序特征编码为多维时序特征编码,所述多维时序特征编码包含节点本身的时序特征、季节性编码和趋势周期性编码三个组成部分,每个组成部分都可以视作一维时序特征编码;时序特征包括节点每个时刻的上下行流量,数据的敏感等级和数据的类型。
进一步,所述时序编码器由N层结构堆叠而成,考虑一个节点及一个特征下的一个时序信号,经过一层结构,通过自注意力机制可知,查询query、键key、值value都是该时序信号本身,通过自动相关模块得到编码,再加上时序信号本身,再通过序列分解得到下一层编码;编码通过前向转播再加上本身,再通过序列分解最终得到一个时序信号的三个编码,分别为时序本身、季节性编码和趋势周期性编码;对每个节点的每个特征的每个时序信号都做同样上述的操作就能够得到每个节点下的时序特征编码。
进一步,实现步骤S1的算法如下:
采用移动平均线来消除周期性波动,突出长期趋势;对于长度
Figure 418377DEST_PATH_IMAGE001
,输入系列
Figure 14443DEST_PATH_IMAGE002
Figure 6670DEST_PATH_IMAGE003
为实数域,
Figure 498831DEST_PATH_IMAGE004
为序列的维度,其过程为:
Figure 333932DEST_PATH_IMAGE005
Figure 343476DEST_PATH_IMAGE006
其中,
Figure 455789DEST_PATH_IMAGE007
分别表示季节和提取的趋势周期部分,采用移动平均函数
Figure 650010DEST_PATH_IMAGE008
进行移动平均,并使用填充操作来保持序列长度不变;用
Figure 582194DEST_PATH_IMAGE009
来总结方程,生成一个模型块;
关于模型输入,编码器部分的输入是步长为
Figure 520063DEST_PATH_IMAGE010
的时间序列
Figure 486882DEST_PATH_IMAGE011
,时序解码器的输入包含季节性部分
Figure 586425DEST_PATH_IMAGE012
和趋势周期部分
Figure 271484DEST_PATH_IMAGE013
,每个初始化由两部分组成:编码器输入为
Figure 747465DEST_PATH_IMAGE014
的后半部分,长度为
Figure 834369DEST_PATH_IMAGE015
,以提供最新信息,占位符为长度为
Figure 104814DEST_PATH_IMAGE016
的标量;公式化如下:
Figure 277169DEST_PATH_IMAGE017
Figure 432207DEST_PATH_IMAGE018
Figure 498252DEST_PATH_IMAGE019
其中
Figure 80543DEST_PATH_IMAGE020
分别表示
Figure 740194DEST_PATH_IMAGE014
的季节和趋势周期部分,以及
Figure 557978DEST_PATH_IMAGE021
表示分别用0和
Figure 619475DEST_PATH_IMAGE014
的平均值填充的占位符;
编码器侧重于季节性部分建模;编码器的输出包含过去的季节信息,有
Figure 638246DEST_PATH_IMAGE022
个编码器层;第
Figure 644248DEST_PATH_IMAGE023
个编码器层的总体方程总结为
Figure 141089DEST_PATH_IMAGE024
;具体如下:
Figure 57092DEST_PATH_IMAGE025
Figure 371399DEST_PATH_IMAGE026
其中
Figure 740063DEST_PATH_IMAGE027
是删除的趋势部分;
Figure 899649DEST_PATH_IMAGE028
Figure 139001DEST_PATH_IMAGE029
表示第
Figure 358629DEST_PATH_IMAGE023
层编码器的输出和
Figure 949011DEST_PATH_IMAGE030
为嵌入后的
Figure 906428DEST_PATH_IMAGE031
Figure 531444DEST_PATH_IMAGE032
Figure 921975DEST_PATH_IMAGE033
表示在第
Figure 999652DEST_PATH_IMAGE023
层第
Figure 766620DEST_PATH_IMAGE034
个序列分解块之后的季节性部分。
进一步,使用具有串联连接的自相关机制,以扩展信息利用率;自相关通过计算序列的自相关来发现基于周期的依赖关系,并通过时延聚合来聚合相似的子序列;对于一个实际的离散时间过程
Figure 511722DEST_PATH_IMAGE035
,由以下方程式得出自相关
Figure 948519DEST_PATH_IMAGE036
Figure 638127DEST_PATH_IMAGE037
Figure 84152DEST_PATH_IMAGE036
反映了
Figure 808394DEST_PATH_IMAGE035
及其
Figure 681672DEST_PATH_IMAGE038
滞后序列
Figure 468362DEST_PATH_IMAGE039
之间的时延相似性;使用自相关
Figure 842712DEST_PATH_IMAGE040
作为估计周期长度的非常规置信度;选择最可能的
Figure 296827DEST_PATH_IMAGE041
段周期
Figure 341006DEST_PATH_IMAGE042
,由估计周期的依赖关系得出,可通过相应的自相关进行加权计算;
关于时延聚合,评估周期之间的子序列通过基于周期的依赖连接,时延聚合块可以基于选择的时延
Figure 739627DEST_PATH_IMAGE042
来滚动序列;该操作可以对齐处于估计周期相同相位位置的类似子序列,最后使用归一化指数函数(
Figure 527454DEST_PATH_IMAGE043
)归一化置信度对子序列进行聚合;
以单头情况和长度为
Figure 695130DEST_PATH_IMAGE001
的时间序列
Figure 910211DEST_PATH_IMAGE044
为例,经过处理后,得到查询
Figure 796127DEST_PATH_IMAGE045
,键
Figure 856487DEST_PATH_IMAGE046
和值
Figure 144249DEST_PATH_IMAGE047
,自相关机制为:
Figure 530231DEST_PATH_IMAGE048
Figure 903444DEST_PATH_IMAGE049
Figure 767494DEST_PATH_IMAGE050
其中,
Figure 909763DEST_PATH_IMAGE051
是获取
Figure 466646DEST_PATH_IMAGE052
自相关的参数,并让
Figure 327155DEST_PATH_IMAGE053
,
Figure 994896DEST_PATH_IMAGE054
是一个超参数;
Figure 991671DEST_PATH_IMAGE055
是序列
Figure 578510DEST_PATH_IMAGE045
Figure 801681DEST_PATH_IMAGE046
之间的自相关;
Figure 397748DEST_PATH_IMAGE056
表示对
Figure 389975DEST_PATH_IMAGE044
的一种具有时延
Figure 153574DEST_PATH_IMAGE038
的操作,在此期间,移动到第一个位置以外的元素将在最后一个位置重新引入。
进一步,步骤S2中,还包括将时序特征编码输入到图深度学习模型进行训练,学习图节点的嵌入编码
Figure 864041DEST_PATH_IMAGE057
关于构成图数据,
Figure 139165DEST_PATH_IMAGE058
,图
Figure 110532DEST_PATH_IMAGE059
中节点为
Figure 445698DEST_PATH_IMAGE060
,边为
Figure 502516DEST_PATH_IMAGE061
,表示为元组
Figure 315751DEST_PATH_IMAGE062
,其中,
Figure 282570DEST_PATH_IMAGE063
为节点特征矩阵,
Figure 647693DEST_PATH_IMAGE041
为特征维度,
Figure 67173DEST_PATH_IMAGE064
为邻接矩阵且如果
Figure 808733DEST_PATH_IMAGE065
,则
Figure 630058DEST_PATH_IMAGE066
,反之亦然;
关于图数据增强,使用边删除和节点特征掩码两种增强,并生成输入图
Figure 166082DEST_PATH_IMAGE067
Figure 72858DEST_PATH_IMAGE068
的两个视图;在边删除的情况下,根据生成的大小为
Figure 493475DEST_PATH_IMAGE069
的掩码删除边,掩码的元素从伯努利分布
Figure 293940DEST_PATH_IMAGE070
进行采样;当涉及到节点特征掩码时,生成同样从伯努利分布
Figure 141811DEST_PATH_IMAGE071
中采样的大小为
Figure 660517DEST_PATH_IMAGE041
的掩码;
关于图编码器网络
Figure 619246DEST_PATH_IMAGE072
,它将一个增强图作为输入,并计算图中每个节点的
Figure 680742DEST_PATH_IMAGE073
维表示向量;指定特定的图注意力网络,两个增强图视图
Figure 292989DEST_PATH_IMAGE067
Figure 174358DEST_PATH_IMAGE068
通过相同的编码器,分别得到两个嵌入矩阵
Figure 936777DEST_PATH_IMAGE074
Figure 711835DEST_PATH_IMAGE075
关于损失函数,首先将嵌入矩阵
Figure 901508DEST_PATH_IMAGE074
Figure 129227DEST_PATH_IMAGE075
沿
Figure 429759DEST_PATH_IMAGE076
维度进行归一化,然后计算经验互相关矩阵
Figure 465848DEST_PATH_IMAGE077
::
Figure 685476DEST_PATH_IMAGE078
其中,
Figure 275858DEST_PATH_IMAGE079
是批次索引值,
Figure 380080DEST_PATH_IMAGE080
是嵌入的索引值;互相关矩阵
Figure 395309DEST_PATH_IMAGE081
通过巴洛孪生损失函数
Figure 661206DEST_PATH_IMAGE082
优化为等于单位矩阵;损失由两部分组成:
Figure 4462DEST_PATH_IMAGE083
其中,
Figure 505851DEST_PATH_IMAGE084
参数定义了优化总体损失函数时,不变性和冗余减少项之间的平衡;
训练后,将
Figure 250953DEST_PATH_IMAGE085
通过图注意力编码器网络得到图节点的嵌入编码
Figure 953330DEST_PATH_IMAGE057
进一步,使用孤立森林的异常检测算法,对各种分布式***中的节点进行全面的异常检测,将所有图节点的嵌入编码输入到孤立森林中,得到异常节点特征
Figure 642937DEST_PATH_IMAGE086
进一步,孤立森林算法如下:
随机抽取特征、随机选取分割值来建立决策树,从而将每一个样本分到一个独立的子节点上,得到
Figure 88962DEST_PATH_IMAGE022
个不相同的数;从超空间的角度看,就是不断地用随机选取的超平面切分样本点,直到所有的样本点都被这些超平面“孤立”起来,即与其他样本点分隔开;根据停止分割样本点的条件停止计算,将此时被 “孤立”的点判定为异常值。
另一方面,本发明提供一种基于图深度学习的数据流转异常检测***,所述***用于实现根据本发明的基于图深度学习的数据流转异常检测方法。
进一步,所述***包括时序编码器和图深度网络编码器,其中时序编码器用于实现每个节点下的时序特征编码;图深度网络编码器用于实现节点表示编码。
本发明的数据治理场景下基于图深度学习的数据流转异常检测方法及***,可以通过对原始节点的时序信号数据进行时序编码处理,将时序编码输入到图深度学习模型进行训练,得到准确的图节点的嵌入编码,基于深度学习的模型可以更好地学习及表征图中的每一个节点,同时结合后续孤立森林的异常检测算法,可以对各种分布式***中的节点进行全面的异常检测,有效提高识别的准确率。
本发明重点改进:
1. 现有技术中,对于图的异常检测方法,无法做到对图中节点的时序信号进行检测。而本发明通过时序编码器得到多维时序编码,而时序编码器作为整体深度网络的一部分。
2. 现有技术中,对于图的异常检测方法,均为有监督或半监督算法,对算法的应用方来说,需要对数据进行异常标注。而本发明为无监督算法,通过对深度网络和树模型的结合,规避了对数据的严苛要求,无需对数据进行异常标注。
3. 现有技术中,对于图的异常检测方法,能够利用的数据信息的维度不足,只能从时序信息、图结构信息、数值信息中利用一种。而本发明通过对整体算法的设计,兼顾三种数据信息,大大提升了算法的表达能力,相比现有技术,准确率也大幅提升。
附图说明
图1示出了根据本发明实施例一种基于图深度学习的数据流转异常检测方法及***的架构示意图;
图2示出了根据本发明实施例一种基于图深度学习的数据流转异常检测方法及***中自相关和时延聚合算法示意图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合图1、图2对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
根据本发明的一种数据治理场景下基于图深度学习的数据流转异常检测方法及***,所述方法包括如下步骤:
步骤S1,对原始节点的时序信号数据进行时序特征编码,得到时序特征编码
Figure 688570DEST_PATH_IMAGE087
首先,数据的输入是分别在各个节点上的描述节点本身的带有时序信息的特征。每个时序特征输入都将经过多层时序编码器,每层结构都由自动相关、序列分解、前向转播、序列分解组成,最终得到编码输出,包含本身的时序特征,季节性编码,趋势周期性编码三个组成部分,每个组成部分都可以视作一维时序特征编码。
本实施例中,采用一种分布式架构场景,数据在每个节点上流转传递,每个节点对应物理世界的服务器节点,终端节点等等。数据在各个节点所产生的属性或节点本身的属性就是节点的特征,有一般的特征,比如该节点的宽带信息、CPU、内存,也有带有时序的特征,比如该节点每个时刻的上下行流量,数据的敏感等级,数据的类型等。为了考虑一般情况,一般特征我们视为一种数值不随时间变化而变化的时序特征,这样我们归纳后,只考虑时序特征,方便了算法的设计。每个节点及每个时刻下的时序特征都将视作图数据节点信息的一个样本;而每个节点及每个特征下的时序信号将视作时序编码器(Autoformerencoder)的一个最小处理单元。
假设每个节点的数据输入时序信号
Figure 686482DEST_PATH_IMAGE088
取两个维度CPU和内存,那么形状为L
Figure 738752DEST_PATH_IMAGE089
2的矩阵
Figure 988468DEST_PATH_IMAGE088
=(
Figure 319215DEST_PATH_IMAGE090
Figure 363395DEST_PATH_IMAGE091
),
Figure 168540DEST_PATH_IMAGE092
为CPU值向量,
Figure 815422DEST_PATH_IMAGE093
为内存值向量。编号为
Figure 389623DEST_PATH_IMAGE094
的节点数据输入记为
Figure 463758DEST_PATH_IMAGE095
=(
Figure 756199DEST_PATH_IMAGE096
Figure 816559DEST_PATH_IMAGE097
)。之后将
Figure 104321DEST_PATH_IMAGE095
=(
Figure 490303DEST_PATH_IMAGE096
Figure 129094DEST_PATH_IMAGE097
)输入到时序编码器中。
时序编码器Autoformerencoder有N层结构堆叠而成,每层结构又由自动相关、序列分解、前向转播、序列分解组成。考虑一个节点及一个特征下的一个时序信号,经过一层结构,通过自注意力机制可知,查询query、键key、值value都是该时序信号本身,通过自动相关模块得到编码,再加上时序信号本身,再通过序列分解得到下一层编码。类似的,编码通过前向转播再加上本身,再通过序列分解最终得到一个时序信号的三个编码,时序本身、季节性编码和趋势周期性编码。
对每个节点的每个特征的每个时序信号都做同样上述的操作就回得到每个节点下的时序特征编码,以下简称“节点特征”。
为了处理复杂的时间模式,打破计算效率和信息利用的瓶颈,本发明将分解作为内置块引入深度模型,并将Autoformer作为分解架构。此外,本发明还将自相关机制用来发现基于周期的依赖关系,并聚合来自底层周期的相似子序列。
关于分解架构,包括内部串联分解块、自相关机制以及相应的编码器和解码器。序列分解块为了学***稳趋势。具体而言,本发明采用移动平均线来消除周期性波动,突出长期趋势。对于长度
Figure 993145DEST_PATH_IMAGE001
,输入系列
Figure 541938DEST_PATH_IMAGE002
Figure 957876DEST_PATH_IMAGE003
为实数域,
Figure 693751DEST_PATH_IMAGE004
为序列的维度,其过程为:
Figure 751706DEST_PATH_IMAGE098
Figure 889426DEST_PATH_IMAGE099
其中,
Figure 476265DEST_PATH_IMAGE007
分别表示季节和提取的趋势周期部分,本发明采用移动平均函数
Figure 699436DEST_PATH_IMAGE008
进行移动平均,并使用填充操作来保持序列长度不变。本发明用
Figure 170869DEST_PATH_IMAGE009
来总结方程,这是一个模型块。
关于模型输入,编码器部分的输入是步长为
Figure 287729DEST_PATH_IMAGE010
的时间序列
Figure 186415DEST_PATH_IMAGE011
,Autoformer解码器的输入包含季节性部分
Figure 287095DEST_PATH_IMAGE012
和趋势周期部分
Figure 31060DEST_PATH_IMAGE013
,每个初始化由两部分组成:编码器输入为
Figure 408952DEST_PATH_IMAGE014
的后半部分,长度为
Figure 603173DEST_PATH_IMAGE015
,以提供最新信息,占位符为长度为
Figure 800936DEST_PATH_IMAGE016
的标量。公式化如下:
Figure 614171DEST_PATH_IMAGE100
Figure 705624DEST_PATH_IMAGE101
Figure 211692DEST_PATH_IMAGE102
其中
Figure 896751DEST_PATH_IMAGE020
分别表示
Figure 372732DEST_PATH_IMAGE014
的季节和趋势周期部分,以及
Figure 459636DEST_PATH_IMAGE021
表示分别用0和
Figure 136605DEST_PATH_IMAGE014
的平均值填充的占位符。
编码器如图1所示,编码器侧重于季节性部分建模。编码器的输出包含过去的季节信息,假设本发明有
Figure 433595DEST_PATH_IMAGE022
个编码器层。第
Figure 323053DEST_PATH_IMAGE023
个编码器层的总体方程总结为
Figure 530044DEST_PATH_IMAGE024
。具体如下:
Figure 236968DEST_PATH_IMAGE103
Figure 896620DEST_PATH_IMAGE104
其中
Figure 855349DEST_PATH_IMAGE027
是删除的趋势部分。
Figure 775900DEST_PATH_IMAGE028
Figure 529092DEST_PATH_IMAGE029
表示第
Figure 676040DEST_PATH_IMAGE023
层编码器的输出和
Figure 568953DEST_PATH_IMAGE030
为嵌入后的
Figure 219377DEST_PATH_IMAGE031
Figure 143471DEST_PATH_IMAGE032
Figure 902348DEST_PATH_IMAGE033
表示在第
Figure 937300DEST_PATH_IMAGE023
层第
Figure 973389DEST_PATH_IMAGE034
个序列分解块之后的季节性部分。本发明的上述算法是迭代算法,趋势周期编码和季节性编码是算法最终的结果,趋势周期部分和季节性部分是迭代过程中的中间结果。
最终,我们通过时序编码器得到了季节性编码
Figure 193018DEST_PATH_IMAGE105
,其中包含了原始图中每个分布式服务器节点的CPU、内存信息。时序特征编码
Figure 314558DEST_PATH_IMAGE105
将作为原始图中节点的输入数据,后续进行之后的图相关计算。
图1完整的展示了本发明涉及的算法流程,原始图中每个圆形代表节点,每一个小方格代表每一维时序特征编码,链接圆形的直线为图的边。而时序特征编码由时序特征经过多层时序编码器计算得出,通过自动相关模块得到编码,再加上时序信号本身,再通过序列分解得到下一层编码;编码通过前向转播再加上本身,再通过序列分解最终得到一个时序信号的三个时序特征编码,分别为时序本身、季节性编码和趋势周期性编码。将原始图分别做两次图增强,再分别通过参数共享的图深度网络编码器,得到两个节点的嵌入编码;通过计算两个节点的嵌入编码的损失,拟合整体的神经网络。后使用孤立森林的异常检测算法,对各节点进行异常检测,将所有图节点的嵌入编码输入到孤立森林中,得到节点异常的概率后,从而判断图节点中的异常节点。
关于自相关机制,如图2所示左侧部分,本发明使用具有串联连接的自相关机制,以扩展信息利用率。自相关通过计算序列的自相关来发现基于周期的依赖关系,并通过时延聚合来聚合相似的子序列。
图2左侧展示了自动相关模块的内部结构,时序信号分别以查询queryQ、键keyK、值valueV三个路径进入线性层,其中Q,K的线性层计算结果通过傅里叶变换经过共轭相乘再进行逆傅里叶变换的方式加速自相关系数
Figure 153201DEST_PATH_IMAGE106
的计算,在通过取前k项的结果与V做时延聚合后拼接进入线性层得到自动相关模块的结果。图二右侧展示了时延聚合示意图,时延聚合可以基于选择的时延
Figure 902851DEST_PATH_IMAGE107
来滚动序列,使用归一化指数函数(Softmax)归一化置信度对子序列进行聚合。
可以观察到,周期之间相同的相位位置自然会提供类似的子过程。受随机过程理论的启发,对于一个实际的离散时间过程
Figure 168747DEST_PATH_IMAGE035
,本发明可以得到由以下方程式得出的自相关
Figure 512004DEST_PATH_IMAGE036
Figure 544551DEST_PATH_IMAGE108
Figure 24074DEST_PATH_IMAGE036
反映了
Figure 726451DEST_PATH_IMAGE035
及其
Figure 416058DEST_PATH_IMAGE038
滞后序列
Figure 596503DEST_PATH_IMAGE039
之间的时延相似性. 如图2所示
本发明使用自相关
Figure 320746DEST_PATH_IMAGE040
作为估计周期长度的非常规置信度。然后,本发明选择最可能的
Figure 928445DEST_PATH_IMAGE041
段周期
Figure 246294DEST_PATH_IMAGE042
,由上述估计周期的依赖关系得出,可通过相应的自相关进行加权计算。为了加速自相关的计算,在实际操作中如图2所示的左侧部分,对时延进行傅里叶变换后共轭相乘,再通过把相乘结果进行逆傅里叶变换的方式,得到最终的自相关
Figure 89485DEST_PATH_IMAGE040
。之后继续进行时延聚合的计算。
关于时延聚合,评估周期之间的子序列通过基于周期的依赖连接,因此,如图2所示右侧部分,时延聚合块可以基于选择的时延
Figure 543600DEST_PATH_IMAGE042
来滚动序列。该操作可以对齐处于估计周期相同相位位置的类似子序列,这与自注意力系列中的点积聚合不同。最后,本发明使用softmax归一化置信度对子序列进行聚合。
以单头情况和长度为
Figure 446834DEST_PATH_IMAGE001
的时间序列
Figure 251979DEST_PATH_IMAGE044
为例,经过处理后,本发明得到查询key
Figure 898861DEST_PATH_IMAGE045
,键key
Figure 473062DEST_PATH_IMAGE046
和值value
Figure 422563DEST_PATH_IMAGE047
,因此,它可以无缝地取代自注意力。自相关机制为:
Figure 308479DEST_PATH_IMAGE109
Figure 899998DEST_PATH_IMAGE110
Figure 187760DEST_PATH_IMAGE111
其中,
Figure 308162DEST_PATH_IMAGE051
是获取
Figure 87900DEST_PATH_IMAGE052
自相关的参数,并让
Figure 76584DEST_PATH_IMAGE053
,
Figure 359798DEST_PATH_IMAGE054
是一个超参数。
Figure 41315DEST_PATH_IMAGE055
是序列
Figure 777190DEST_PATH_IMAGE045
Figure 710511DEST_PATH_IMAGE046
之间的自相关。
Figure 707286DEST_PATH_IMAGE056
表示对
Figure 435070DEST_PATH_IMAGE044
的一种具有时延
Figure 48454DEST_PATH_IMAGE038
的操作,在此期间,移动到第一个位置以外的元素将在最后一个位置重新引入。
步骤S2,将时序编码输入到图深度学习模型进行训练,学习图节点的嵌入编码
Figure 254308DEST_PATH_IMAGE057
将各个节点的多维时序特征编码与分布式***的图形结构做关联,原始图就此形成,可以进行后续的图计算,每个节点的输入为多维时序特征编码,边为分布式***中数据流转的路径。先将图分别做两次数据增强,再分别通过共享权重的图深度网络编码器,得到两个节点的嵌入编码。通过计算两个节点的嵌入编码的损失,可以拟合整体的神经网络。
将各个节点的节点的输入与分布式***的图形结构做关联构成原始图,每个节点的输入为多维时序特征编码,边为分布式***中数据流转的路径。包含节点的输入编码信息的图数据视为图神经网络的输入数据。之后,图数据分别做两次图增强,图增强有两种方式,一种是节点掩码,也就是将部分节点的输入置0,另一种是边删除,也就是将一部分的边信息扔掉。等到两个增强后的图数据后,再分别通过同一权重的图深度网络编码器,得到两个节点的嵌入编码。
图深度网络编码器同样有N层结构堆叠而成,其中包括一个图注意力网络(图注意力层)和一个elu激活层。由于两个数据增强后的图数据一定不同,那么尽管通过同一个图深度网络编码器,得到的两个节点的嵌入编码也一定不同。再通过计算两个节点的嵌入编码的损失,期望两个参数不同却同源的嵌入编码尽可能相似,以此为依据就可以拟合整个神经网络的参数。神经网络训练好后,将原始的没经过图增强的图数据经过此神经网络,得到的节点的嵌入编码,才是最终的节点的嵌入编码。
关于构成图数据,
Figure 365309DEST_PATH_IMAGE058
,图
Figure 529574DEST_PATH_IMAGE059
中节点为
Figure 974462DEST_PATH_IMAGE060
,边为
Figure 374219DEST_PATH_IMAGE061
,表示为元组
Figure 486531DEST_PATH_IMAGE062
,其中,
Figure 415173DEST_PATH_IMAGE063
为节点特征矩阵,
Figure 878516DEST_PATH_IMAGE041
为特征维度,
Figure 691751DEST_PATH_IMAGE064
为邻接矩阵且如果
Figure 783204DEST_PATH_IMAGE065
,则
Figure 758113DEST_PATH_IMAGE066
,反之亦然。
关于图数据增强,本发明选择了两种增强——边删除、节点掩码,并生成输入图
Figure 708751DEST_PATH_IMAGE067
Figure 184732DEST_PATH_IMAGE068
的两个增强图。在边删除的情况下,本发明根据生成的大小为
Figure 6057DEST_PATH_IMAGE069
(图中的边数)的掩码删除边,掩码的元素从伯努利分布
Figure 807660DEST_PATH_IMAGE070
进行采样。当涉及到节点特征掩码时,本发明采用类似的方案,并生成同样从伯努利分布
Figure 714436DEST_PATH_IMAGE071
中采样的大小为
Figure 869474DEST_PATH_IMAGE041
的掩码。请注意,本发明在整个图的比例上做多维时序特征的节点掩码,即为每个节点上的同一位置的部分特征做节点掩码操作,本发明使用相同的参数来生成两个增强。
关于图编码器网络
Figure 935519DEST_PATH_IMAGE072
,它将一个增强图作为输入,并计算图中每个节点的
Figure 517810DEST_PATH_IMAGE073
维表示向量。本发明指定特定的
Figure 36516DEST_PATH_IMAGE112
编码器网络,两个增强图视图
Figure 995245DEST_PATH_IMAGE067
Figure 791163DEST_PATH_IMAGE068
通过相同的编码器,分别得到两个嵌入矩阵
Figure 934568DEST_PATH_IMAGE074
Figure 815936DEST_PATH_IMAGE075
关于损失函数,首先将嵌入矩阵
Figure 312777DEST_PATH_IMAGE074
Figure 353414DEST_PATH_IMAGE075
沿
Figure 543087DEST_PATH_IMAGE076
维度(平均值为零,标准偏差为1)进行归一化,然后计算经验互相关矩阵
Figure 911751DEST_PATH_IMAGE077
Figure 336916DEST_PATH_IMAGE078
其中,
Figure 107426DEST_PATH_IMAGE079
是批次索引值,
Figure 468001DEST_PATH_IMAGE080
是嵌入的索引值。互相关矩阵
Figure 448595DEST_PATH_IMAGE081
通过巴洛孪生损失函数
Figure 287238DEST_PATH_IMAGE082
优化为等于单位矩阵。损失由两部分组成:
Figure 912254DEST_PATH_IMAGE083
其中,
Figure 568364DEST_PATH_IMAGE084
参数定义了优化总体损失函数时,不变性和冗余减少项之间的平衡。
训练后,将
Figure 911620DEST_PATH_IMAGE085
通过图注意力网络得到图节点的嵌入编码
Figure 819533DEST_PATH_IMAGE057
原始图中编号为
Figure 423690DEST_PATH_IMAGE114
的节点嵌入编码为
Figure 126067DEST_PATH_IMAGE116
,包含了编号为
Figure 691040DEST_PATH_IMAGE114
的节点的CPU、内存信息和以编号为
Figure 996120DEST_PATH_IMAGE114
的节点为中心的周围邻居节点的CPU、内存信息的综合信息。
Figure 861308DEST_PATH_IMAGE116
作为节点向量,将作为孤立森林的输入特征向量,而每个节点将是孤立森林的样本。
步骤S3,使用孤立森林的异常检测算法,对各种分布式***中的节点进行全面的异常检测,将所有图节点的嵌入编码输入到孤立森林中,得到异常节点特征
Figure 469006DEST_PATH_IMAGE086
从拟合好的神经网络中得到节点表示编码,输入到孤立森林当中,就可以检测节点间的离群节点,从而完成图形中节点的异常检测。也就对应完成了物理世界服务器或终端节点某一时刻下的异常检测。
孤立森林是由
Figure 911489DEST_PATH_IMAGE022
个树构成的。每棵树的的学***面切分样本点,直到所有的样本点都被这些超平面“孤立”起来,即与其他样本点分隔开了。
然后,本发明可以看那些点用了较少的超平面就可以孤立出来——特别容易孤立出来的点。一般距离密度较高的地方比较远,所处位置的样本点密度较小,因而也更容易被孤立。因此,把非常容易被“孤立”的那些点判定为异常值。
为了避免算法无限制的训练下去、直到真的把所有点都孤立起来,对孤立森林设置一个停止分割样本点的条件。即树有一个高度限制,树的高度限制就是停止分割样本点的条件,高度限制的数值范围是一个正整数,是个经验值,比如5。需要切分很多次才能被孤立的样本点,所处的位置密度必然很高,这个点是异常点的概率很低。
影响孤立森林效果的几个主要参数:树的个数、先验异常比例contamination、每个树的训练样本数量。训练一个树的时候,孤立森林会从样本中随机抽取一定数量的样本——抽样的数量不宜过大,一般最大256个。
本次发明,在孤立森林的使用上选择默认参数,即树的个数为1000、先验异常比例contamination为0.1、每个树的训练样本数量为256。最终得到每个节点的异常的概率
Figure 615320DEST_PATH_IMAGE117
,大于0.5就认为是异常节点,异常节点的节点特征即为
Figure 524413DEST_PATH_IMAGE118
算法伪代码如下:
其中,嵌入编码Z即算法中的X - input data。
Figure 126296DEST_PATH_IMAGE119
Figure 914123DEST_PATH_IMAGE120
Figure 347379DEST_PATH_IMAGE121
另一方面,本发明提供一种基于图深度学习的数据流转异常检测***,所述***用于实现根据本发明的基于图深度学习的数据流转异常检测方法。
所述***包括时序编码器和图深度网络编码器,其中时序编码器用于实现每个节点下的时序特征编码;图深度网络编码器用于实现节点的嵌入编码。
本发明提供的数据治理场景下基于图深度学习的数据流转异常检测算法,合理有效,可以通过对原始节点的时序信号数据进行时序编码处理,将时序编码输入到图深度学习模型进行训练,得到准确的图节点的嵌入编码,基于深度学习的模型可以更好地学习及表征图中的每一个节点,同时结合后续孤立森林的异常检测算法,可以对各种分布式***中的节点进行全面的异常检测,识别的准确率高。
在本说明书的描述中,参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,本领域的技术人员可以在不产生矛盾的情况下,将本说明书中描述的不同实施例或示例以及其中的特征进行结合或组合。
上述内容虽然已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型等更新操作。

Claims (9)

1.基于图深度学习的数据流转异常检测方法,其特征在于,所述方法包括如下步骤:
S1.将分别在各个节点上的描述节点本身的时序特征作为输入数据;每个时序特征输入都将经过多层时序编码器,每层结构都由自动相关、序列分解、前向转播和序列分解组成,最终得到各个节点的时序特征编码;
S2.将各个节点的时序特征编码与分布式***的图形结构做关联,形成原始图,进行后续的图计算,边为分布式***中数据流转的路径;先将图分别做两次图增强,再分别通过参数共享的图深度网络编码器,得到两个节点的嵌入编码;通过计算两个节点的嵌入编码的损失,拟合整体的神经网络;
S3.从拟合好的神经网络中得到节点的嵌入编码,输入到孤立森林当中,就可以检测节点间的离群节点,从而完成图形中节点的异常检测;
步骤S1中,各个节点的时序特征编码为多维时序特征编码,所述多维时序特征编码包含节点本身的时序特征、季节性编码和趋势周期性编码三个组成部分,每个组成部分都可以视作一维时序特征编码;时序特征包括节点每个时刻的上下行流量,数据的敏感等级和数据的类型。
2.根据权利要求1所述的基于图深度学习的数据流转异常检测方法,其特征在于,所述时序编码器由N层结构堆叠而成,考虑一个节点及一个特征下的一个时序信号,经过一层结构,通过自注意力机制可知,查询query、键key和值value都是该时序信号本身,通过自动相关模块得到编码,再加上时序信号本身,再通过序列分解得到下一层编码;编码通过前向转播再加上本身,再通过序列分解最终得到一个时序信号的三个编码,分别为时序特征本身、季节性编码和趋势周期性编码;对每个节点的每个特征的每个时序信号都做同样上述的操作就能够得到每个节点下的时序特征编码。
3.根据权利要求2所述的基于图深度学习的数据流转异常检测方法,其特征在于,实现步骤S1的算法如下:
采用移动平均线来消除周期性波动,突出长期趋势;对于长度
Figure 920614DEST_PATH_IMAGE001
,输入系列
Figure 231640DEST_PATH_IMAGE002
Figure 65604DEST_PATH_IMAGE003
为实数域,
Figure 32554DEST_PATH_IMAGE004
为序列的维度,其过程为:
Figure 242956DEST_PATH_IMAGE005
Figure 861019DEST_PATH_IMAGE006
其中,
Figure 610757DEST_PATH_IMAGE007
分别表示季节和提取的趋势周期部分,采用移动平均函数
Figure 111008DEST_PATH_IMAGE008
进行移动平均,并使用填充操作来保持序列长度不变;用
Figure 344675DEST_PATH_IMAGE009
来总结方程,生成一个模型块;
关于模型输入,编码器部分的输入是步长为的时间序列
Figure 879561DEST_PATH_IMAGE010
,时序解码器的输入包含季节性部分
Figure 274902DEST_PATH_IMAGE011
和趋势周期部分
Figure 59187DEST_PATH_IMAGE012
,每个初始化由两部分组成:编码器输入为
Figure 299807DEST_PATH_IMAGE013
的后半部分,长度为
Figure 423620DEST_PATH_IMAGE014
,以提供最新信息,占位符为长度为
Figure 521021DEST_PATH_IMAGE015
的标量;公式化如下:
Figure 995864DEST_PATH_IMAGE016
Figure 102492DEST_PATH_IMAGE017
Figure 346391DEST_PATH_IMAGE018
其中
Figure 801643DEST_PATH_IMAGE019
分别表示
Figure 514515DEST_PATH_IMAGE013
的季节和趋势周期部分,以及
Figure 142943DEST_PATH_IMAGE020
表示分别用0和
Figure 585557DEST_PATH_IMAGE013
的平均值填充的占位符;
编码器侧重于季节性部分建模;编码器的输出包含过去的季节信息,有
Figure 871698DEST_PATH_IMAGE021
个编码器层;第
Figure 806288DEST_PATH_IMAGE022
个编码器层的总体方程总结为
Figure 989138DEST_PATH_IMAGE023
;具体如下:
Figure 942051DEST_PATH_IMAGE024
Figure 552155DEST_PATH_IMAGE025
其中
Figure 223308DEST_PATH_IMAGE026
是删除的趋势部分;
Figure 203990DEST_PATH_IMAGE027
Figure 276988DEST_PATH_IMAGE028
表示第
Figure 57994DEST_PATH_IMAGE029
层编码器的输出和
Figure 216442DEST_PATH_IMAGE030
为嵌入后的
Figure 537833DEST_PATH_IMAGE031
Figure 465338DEST_PATH_IMAGE032
Figure 417245DEST_PATH_IMAGE033
表示在第
Figure 797411DEST_PATH_IMAGE022
层第
Figure 860176DEST_PATH_IMAGE034
个序列分解块之后的季节性部分。
4.根据权利要求3所述的基于图深度学习的数据流转异常检测方法,其特征在于,使用具有串联连接的自相关机制,以扩展信息利用率;自相关通过计算序列的自相关来发现基于周期的依赖关系,并通过时延聚合来聚合相似的子序列;对于一个实际的离散时间过程
Figure 907766DEST_PATH_IMAGE035
,由以下方程式得出自相关
Figure 561732DEST_PATH_IMAGE036
Figure 445506DEST_PATH_IMAGE037
Figure 561229DEST_PATH_IMAGE036
反映了
Figure 479638DEST_PATH_IMAGE035
及其
Figure 553773DEST_PATH_IMAGE038
滞后序列
Figure 653404DEST_PATH_IMAGE039
之间的时延相似性;使用自相关
Figure 307240DEST_PATH_IMAGE040
作为估计周期长度的非常规置信度;选择最可能的
Figure 814575DEST_PATH_IMAGE041
段周期
Figure 528453DEST_PATH_IMAGE042
,由估计周期的依赖关系得出,可通过相应的自相关进行加权计算;
关于时延聚合,评估周期之间的子序列通过基于周期的依赖连接,时延聚合块可以基于选择的时延
Figure 386819DEST_PATH_IMAGE042
来滚动序列;该操作可以对齐处于估计周期相同相位位置的类似子序列,最后使用
Figure 391815DEST_PATH_IMAGE043
归一化置信度对子序列进行聚合;
以单头情况和长度为
Figure 737346DEST_PATH_IMAGE001
的时间序列
Figure 435175DEST_PATH_IMAGE044
为例,经过处理后,得到查询
Figure 764525DEST_PATH_IMAGE045
,键
Figure 776474DEST_PATH_IMAGE046
和值
Figure 976512DEST_PATH_IMAGE047
,自相关机制为:
Figure 48504DEST_PATH_IMAGE048
Figure 865150DEST_PATH_IMAGE049
Figure 415211DEST_PATH_IMAGE050
其中,
Figure 914DEST_PATH_IMAGE051
是获取
Figure 237948DEST_PATH_IMAGE052
自相关的参数,并让
Figure 276311DEST_PATH_IMAGE053
,
Figure 630063DEST_PATH_IMAGE054
是一个超参数;
Figure 335851DEST_PATH_IMAGE055
是序列
Figure 15225DEST_PATH_IMAGE045
Figure 557196DEST_PATH_IMAGE046
之间的自相关;
Figure 495065DEST_PATH_IMAGE056
表示对
Figure 540513DEST_PATH_IMAGE044
的一种具有时延
Figure 656367DEST_PATH_IMAGE038
的操作,在此期间,移动到第一个位置以外的元素将在最后一个位置重新引入。
5.根据权利要求1-4任一项所述的基于图深度学习的数据流转异常检测方法,其特征在于,步骤S2中,还包括将时序特征编码输入到图深度学习模型进行训练,学习图节点的嵌入编码
Figure 934902DEST_PATH_IMAGE057
关于构成图数据,
Figure 630456DEST_PATH_IMAGE058
,图
Figure 45257DEST_PATH_IMAGE059
中节点为
Figure 800855DEST_PATH_IMAGE060
,边为
Figure 35527DEST_PATH_IMAGE061
,表示为元组
Figure 552351DEST_PATH_IMAGE062
,其中,
Figure 821658DEST_PATH_IMAGE063
为节点特征矩阵,
Figure 748157DEST_PATH_IMAGE041
为特征维度,
Figure 470125DEST_PATH_IMAGE064
为邻接矩阵且如果
Figure 773062DEST_PATH_IMAGE065
,则
Figure 365717DEST_PATH_IMAGE066
,反之亦然;
关于图数据增强,使用边删除和节点特征掩码两种增强,并生成输入图
Figure 712385DEST_PATH_IMAGE067
Figure 937961DEST_PATH_IMAGE068
的两个视图;在边删除的情况下,根据生成的大小为
Figure 762697DEST_PATH_IMAGE069
的掩码删除边,掩码的元素从伯努利分布
Figure 757329DEST_PATH_IMAGE070
进行采样;当涉及到节点特征掩码时,生成同样从伯努利分布
Figure 274898DEST_PATH_IMAGE071
中采样的大小为
Figure 784508DEST_PATH_IMAGE041
的掩码;
关于图编码器网络
Figure 163668DEST_PATH_IMAGE072
,它将一个增强图作为输入,并计算图中每个节点的
Figure 262074DEST_PATH_IMAGE073
维表示向量;指定特定的图注意力网络,两个增强图
Figure 435698DEST_PATH_IMAGE067
Figure 150713DEST_PATH_IMAGE068
通过相同的编码器,分别得到两个嵌入矩阵
Figure 62125DEST_PATH_IMAGE074
Figure 15037DEST_PATH_IMAGE075
关于损失函数,首先将嵌入矩阵
Figure 625142DEST_PATH_IMAGE074
Figure 296294DEST_PATH_IMAGE075
沿
Figure 282836DEST_PATH_IMAGE076
维度进行归一化,然后计算经验互相关矩阵
Figure 152572DEST_PATH_IMAGE077
Figure 136840DEST_PATH_IMAGE078
其中,
Figure 295288DEST_PATH_IMAGE079
是批次索引值,
Figure 554363DEST_PATH_IMAGE080
是嵌入的索引值;互相关矩阵
Figure 747446DEST_PATH_IMAGE081
通过巴洛孪生损失函数
Figure 964932DEST_PATH_IMAGE082
优化为等于单位矩阵;损失由两部分组成:
Figure 345098DEST_PATH_IMAGE083
其中,
Figure 407863DEST_PATH_IMAGE084
参数定义了优化总体损失函数时,不变性和冗余减少项之间的平衡;
训练后,将
Figure 455454DEST_PATH_IMAGE085
通过图注意力网络得到图节点的嵌入编码
Figure 578261DEST_PATH_IMAGE057
6.根据权利要求5所述的基于图深度学习的数据流转异常检测方法,其特征在于,使用孤立森林的异常检测算法,对各种分布式***中的节点进行全面的异常检测,将所有图节点的嵌入编码输入到孤立森林中,得到异常节点特征
Figure 711303DEST_PATH_IMAGE086
7.根据权利要求6所述的基于图深度学习的数据流转异常检测方法,其特征在于,孤立森林算法如下:
随机抽取特征、随机选取分割值来建立决策树,从而将每一个样本分到一个独立的子节点上,得到
Figure 571899DEST_PATH_IMAGE021
个不相同的数;从超空间的角度看,就是不断地用随机选取的超平面切分样本点,直到所有的样本点都被这些超平面“孤立”起来,即与其他样本点分隔开;根据停止分割样本点的条件停止计算,将此时被 “孤立”的点判定为异常值。
8.基于图深度学习的数据流转异常检测***,其特征在于,所述***用于实现根据权利要求1-7任一项所述的基于图深度学习的数据流转异常检测方法。
9.根据权利要求8所述的基于图深度学习的数据流转异常检测***,其特征在于,所述***包括时序编码器和图深度网络编码器,其中时序编码器用于实现每个节点下的时序特征编码;图深度网络编码器用于实现节点表示编码。
CN202210979819.1A 2022-08-16 2022-08-16 基于图深度学习的数据流转异常检测方法及*** Active CN115080964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210979819.1A CN115080964B (zh) 2022-08-16 2022-08-16 基于图深度学习的数据流转异常检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210979819.1A CN115080964B (zh) 2022-08-16 2022-08-16 基于图深度学习的数据流转异常检测方法及***

Publications (2)

Publication Number Publication Date
CN115080964A CN115080964A (zh) 2022-09-20
CN115080964B true CN115080964B (zh) 2022-11-15

Family

ID=83244268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210979819.1A Active CN115080964B (zh) 2022-08-16 2022-08-16 基于图深度学习的数据流转异常检测方法及***

Country Status (1)

Country Link
CN (1) CN115080964B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116126961B (zh) * 2023-04-04 2023-07-04 河北中废通网络技术有限公司 再生循环物联信息***的防篡改无人值守过磅数据***
CN116128168A (zh) * 2023-04-17 2023-05-16 南京信息工程大学 基于因果扩充卷积和Autoformer的气象预测法
CN117312350B (zh) * 2023-11-28 2024-02-27 本溪钢铁(集团)信息自动化有限责任公司 钢铁行业碳排放数据管理方法及装置
CN117574308B (zh) * 2024-01-17 2024-03-26 江西金格信安云技术有限公司 基于人工智能的计量芯片异常检测方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308235A (zh) * 2020-10-27 2021-02-02 北京理工大学 一种时间序列数据流异常检测方法
CN114817773A (zh) * 2022-05-11 2022-07-29 中国科学院计算机网络信息中心 一种基于多级分解和融合的时序预测***及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373056B1 (en) * 2018-01-25 2019-08-06 SparkCognition, Inc. Unsupervised model building for clustering and anomaly detection
CN108985632A (zh) * 2018-07-16 2018-12-11 国网上海市电力公司 一种基于孤立森林算法的用电数据异常检测模型
CN111739078B (zh) * 2020-06-15 2022-11-18 大连理工大学 一种基于上下文注意力机制的单目无监督深度估计方法
CN114065862B (zh) * 2021-11-18 2024-02-13 南京航空航天大学 一种多维时序数据异常检测方法和***
CN114638342A (zh) * 2022-03-22 2022-06-17 哈尔滨理工大学 基于深度无监督自动编码器的图异常检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308235A (zh) * 2020-10-27 2021-02-02 北京理工大学 一种时间序列数据流异常检测方法
CN114817773A (zh) * 2022-05-11 2022-07-29 中国科学院计算机网络信息中心 一种基于多级分解和融合的时序预测***及方法

Also Published As

Publication number Publication date
CN115080964A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN115080964B (zh) 基于图深度学习的数据流转异常检测方法及***
Wang et al. Unsupervised metric fusion over multiview data by graph random walk-based cross-view diffusion
Tang et al. Tri-clustered tensor completion for social-aware image tag refinement
Ou et al. Asymmetric transitivity preserving graph embedding
Huang et al. Feature space singularity for out-of-distribution detection
Mancini et al. Learning graph embeddings for open world compositional zero-shot learning
Yang et al. Skeletonnet: A hybrid network with a skeleton-embedding process for multi-view image representation learning
Bai et al. Entropic dynamic time warping kernels for co-evolving financial time series analysis
Xie et al. Accurate recovery of missing network measurement data with localized tensor completion
Wang et al. Constrained low-rank representation for robust subspace clustering
Varna et al. Modeling and analysis of correlated binary fingerprints for content identification
Shang et al. Fuzzy double trace norm minimization for recommendation systems
Shi et al. Gigamae: Generalizable graph masked autoencoder via collaborative latent space reconstruction
CN115062779A (zh) 基于动态知识图谱的事件预测方法及装置
Chen et al. Deformable convolutional matrix factorization for document context-aware recommendation in social networks
Xie et al. Unsupervised abnormal detection using VAE with memory
Ye et al. Learning deep graph representations via convolutional neural networks
Liang et al. Crossnet: Cross-scene background subtraction network via 3d optical flow
Farhangi et al. Informative visual words construction to improve bag of words image representation
CN116467466A (zh) 基于知识图谱的编码推荐方法、装置、设备及介质
CN115240120B (zh) 一种基于对抗网络的行为识别方法及电子设备
Ruijuan et al. User abnormal behavior analysis based on neural network clustering
Wang et al. Supervised prototypical variational autoencoder for shilling attack detection in recommender systems
CN113065321B (zh) 基于lstm模型和超图的用户行为预测方法及***
Song et al. Unsupervised learning facial parameter regressor for action unit intensity estimation via differentiable renderer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant