CN116210211A

CN116210211A - 网络拓扑中的异常检测

Info

Publication number: CN116210211A
Application number: CN202180060830.1A
Authority: CN
Inventors: J·R·巴金斯; L·塔希尔; V·T·泰; I·曼宁
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-07-14
Filing date: 2021-06-29
Publication date: 2023-06-02
Also published as: US20220019887A1; AU2021309929A1; DE112021003747T5; GB2611988A; AU2021309929B2; WO2022013662A1; JP2023534696A; KR20230031889A

Abstract

公开了一种用于训练循环神经网络以创建用于网络拓扑中的异常检测的模型的方法。该方法包括基于将嵌入算法应用于网络的每个资源来创建针对网络中的每个资源的嵌入向量。然后，基于对网络中的资源的每个改变的一个或多个属性，创建针对所述改变的特征向量。因此，可以利用嵌入向量和特征向量来训练循环神经网络，以创建用于网络拓扑中的异常检测的模型。

Description

网络拓扑中的异常检测

技术领域

本发明一般涉及网络拓扑中的异常检测，并且更具体地涉及用于训练循环神经网络以创建用于网络拓扑中的异常检测的模型的方法。

背景技术

包括用于数据的存储、处理和通信的互连网络资源的现代计算网络环境通常随时间动态地改变。这在虚拟化网络环境中尤其如此，在虚拟化网络环境中，多个隔离的虚拟化资源可以在单个物理资源内被独立地创建和运行。这种虚拟化资源的示例，也称为“用户空间实例”，可以包括虚拟机和容器。虚拟化资源可以在网络上为特定目的而创建，然后一旦该目的被实现就被移除。例如，虚拟化资源的一个或多个副本可以在高需求时间期间被动态地创建，并且随后在需求返回到正常时被移除，以用于负载平衡的目的。类似地，可以出于水平缩放的目的创建虚拟化资源的附加副本。因此，在虚拟化网络环境中，例如使用集装箱容器(docker container)或Kubernetes实现容器化风格编排，在它们随着时间经历网络拓扑的改变并且这样的改变可以频繁发生的意义上是动态的。

对于网络中的异常检测，期望将网络资源与其相关联的数据(诸如与网络资源有关的数据记录)相关。然而，虚拟化网络环境中的异常检测由于动态改变的网络资源和网络拓扑而具有挑战性。具体地，执行特定角色的单个真实资源可以对应于多个虚拟化资源，每个虚拟化资源具有不同的标识符或标记。因此，检测到的与执行特定服务的真实资源相关的异常可以源自多个不同的且动态改变的资源(例如，副本)，并且因此包括多个不同的且动态改变的资源标识符或标签。

服务管理工具通常被部署，用以监视网络、IT环境和应用的健康。这些工具通常轮询可用性或监视关键性能指标(KPI)以评估健康。或者，设备本身可以发出事件以指示它需要注意，或者它可以将信息推到日志，然后该日志可以被监视以发现关键字的存在，从而使得操作者知道并且可以采取行动。

发明内容

本发明的各方面公开了一种用于训练循环神经网络以创建用于网络拓扑中的异常检测的模型的计算机实现的方法、装置和计算机程序产品。该计算机实现的方法可以由一个或多个计算机处理器实现，并且可以包括：基于将KubeNode2Vec方法应用于网络，来创建针对所述网络中的每个资源的嵌入向量；基于对所述网络中的资源的每个改变的一个或多个属性，来创建针对所述改变的特征向量；以及利用所述嵌入向量和所述特征向量来训练循环神经网络，以创建用于网络拓扑中的异常检测的模型。

在一个实施例中，该装置可以包括：预处理器，被配置为：基于将KubeNode2Vec方法应用于所述网络来创建针对所述网络中的每个资源的嵌入向量；以及基于对所述网络中资源的每个改变的一个或多个属性来创建针对所述改变的特征向量；以及训练处理器，其被配置为利用所述嵌入向量和所述特征向量来训练递归神经网络，以创建用于所述网络的拓扑中的异常检测的模型。

在另一实施例中，计算机程序产品可以包括一个或多个非暂态计算机可读存储介质和存储在一个或多个非暂态计算机可读存储介质上的程序指令，所述程序指令包括：用于基于将KubeNode2Vec方法应用于所述网络来创建针对所述网络中的每个资源的嵌入向量的程序指令；用于基于对所述网络中的资源的每个改变的一个或多个属性来为创建针对所述改变的特征向量的程序指令；以及利用所述嵌入向量和所述特征向量来训练递归神经网络以创建用于网络拓扑中的异常检测的模型的程序指令。

附图说明

现在将参考以下附图仅通过示例的方式描述本发明的优选实施例，其中：

图1描述了其中可以实现本发明的说明性实施例的各方面的示例性分布式***的图形表示；

图2是其中可以实现本发明的说明性实施例的各方面的示例***的框图；

图3示出了根据本发明的实施方式的用于训练循环神经网络以创建用于网络拓扑中的异常检测的模型的所提出的计算机实现的方法；

图4示出了根据本发明的实施例的被配置为训练循环神经网络以创建用于网络拓扑中的异常检测的模型的装置；

图5示出了根据本发明的实施例的用于输出异常检测的模型的神经网络的示例；以及

图6示出了根据本发明的实施例的用于创建异常检测的模型的神经网络的流程图。

具体实施方式

本发明的实施例可以提供一种用于训练循环神经网络以创建用于网络的拓扑中的异常检测的模型的方法。该训练方法可以包括：基于将KubeNode2Vec方法应用于网络，来创建针对该网络中的每个资源的嵌入向量；基于对该网络中的资源的每个改变的一个或多个属性，来创建针对该改变的特征向量；以及利用该嵌入向量和该特征向量来训练循环神经网络，以创建用于该网络的拓扑中的异常检测的模型。

实施例可以允许循环神经网络(RNN)通过从资源的嵌入和对资源的改变中学习，来学习网络的拓扑改变。因此，RNN可以学习临时拓扑改变，例如，通过使用对资源的嵌入的序列学习来进行学习，资源的嵌入被扩充了包含关于改变属性的信息的特征向量。

KubeNode2Vec嵌入方法能够利用对拓扑的历史改变来学***集群(pod)自动缩放)时，这在Kubernetes中特别有用，因为集群和/或新节点的副本可以取决于聚类的需要而被创建。因此，使用KubeNode2Vec更好地描述了动态环境的嵌入。

该实施例可以是一种序列学习方法，其扩充了辅助数据。这种方法的优点在于，它可以通过不仅基于在改变之前从所学习的历史中发生了什么其他改变而考虑该改变是否是可感知的，而且还考虑改变的其他重要特性，来检测动态环境的拓扑上的异常改变。

在一些实施例中，创建特征向量是基于对相应的改变属性进行独热编码(one-hotcode)或独冷编码(one-cold code)。

独热码编码(或独冷码编码)可以允许对特定特征(改变属性)的所有数据进行分类，而不向类别中的任一个给予较高值。相反，如果使用标签编码，则这可以给具有标签n(n个标签中的)的最后类别更高的数目，并且因此当由机器学习算法分析时具有不成比例的重要性(例如，n>1，n>n-1等)。

本发明还可以提供一种装置，其被配置为训练循环神经网络以创建用于网络拓扑中的异常检测的模型。该装置可以包括预处理器，其被配置为基于将嵌入算法应用于网络的资源来创建针对网络中的资源的嵌入向量，并且可以基于网络中的资源的改变的一个或多个属性来创建针对该改变的特征向量。该装置还可以包括训练处理器，其被配置为利用该嵌入向量和该特征向量来训练循环神经网络，以创建用于网络拓扑中的异常检测的模型。

本发明的这些和其它方面将从下面描述的实施例中显而易见，并将参照这些实施例进行阐述。

说明书中对“一个实施例”、“示例实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性，但是每个实施例可以不一定包括该特定特征、结构或特性。此外，这些短语不一定是指相同的实施例。此外，当结合实施例描述特定特征、结构或特性时，认为结合其它实施例来实现这种特征、结构或特性是在本领域技术人员的知识范围内的，而不管是否明确描述。

应当理解，附图仅仅是示意性的，并且不是按比例绘制的。还应当理解，在所有附图中使用相同的附图标记来表示相同或相似的部件。

KubeNode2Vec嵌入方法可以利用拓扑的历史改变来学***集群自动缩放)时，这在Kubernetes中特别有用，因为集群和/或新节点的副本可以被动态创建。

可以利用辅助数据附加地扩充该方法。这种方法的优点在于，它可以通过不仅基于在改变之前发生了什么其他改变(来自所学习的历史)而考虑该改变是否是可感知的，而且还考虑改变的其他重要特性，来检测动态环境的拓扑上的异常改变。

在一些实施例中，循环神经网络包括用于接收嵌入向量的输入层；跟随所述输入层的学习层；用于将所述特征向量与所述序列学习层的输出串联的串联层；一个或多个致密层；以及输出层，用于输出用于异常检测的模型。

例如，RNN的输入层可以是与嵌入向量的改变序列中的五个集群对应的五个嵌入向量。因此，RNN可以同时学习五个嵌入向量的序列和相应的特征向量。序列学习层可以用于保持嵌入向量的先前序列(改变序列)的一些记忆。序列学习层的输出因此可以包含关于正在处理的改变以及序列中的先前的改变(五个)的信息。

序列学习层的输出可以与对应于改变属性的特征向量串联。因此，一个或多个致密层可从改变序列和正在处理的改变的改变属性中学习。这意味着RNN可以学习基于拓扑改变和改变属性来检测网络(动态环境)的拓扑中的异常改变。

因此，RNN能够从向量的嵌入中学习(基于过去的嵌入)，并且其后学习与该改变序列相对应的特征(例如，改变时间、改变日期等)。因此，RNN可以被训练成输出与可能的未来改变对应的概率模型(以及相应的概率)。然后，例如通过观察改变和该改变发生的对应概率，可以检测异常。可以设置阈值概率以检测异常(例如，异常基于概率＜1％)。

在一些实施例中，改变属性是以下中的一个或多个：与作出改变的资源相对应的实体类型；改变类型；以及改变时间。

基于所选择的不同改变属性，RNN可以学习这些改变之间的不同抽象关系。可以根据用户偏好或将要检测的异常来选择不同的改变属性。在另一个示例中，CPU使用百分比可以是改变属性，以便检测CPU使用中的异常(例如，异常是基于CPU使用＞80％)。在又一个例子中，RNN可以知道某个改变类型是在每周星期三进行。因此，如果在星期三看到预期改变，则可以检测到异常。

在一些实施例中，创建特征向量可以基于对相应改变属性的独热编码或独冷编码。独热码编码(或独冷码编码)允许对具体特征(改变属性)的所有数据进行分类，而不向类别中的任何一个赋予较高值。

RNN还可以得知在某些时间段期间存在更多的改变。因此，如果在指定的繁忙时间段期间没有看到许多改变，则这可以用信号通知网络拓扑中的异常。例如，许多节点可能在工作日加入簇(cluster)，但不在周末加入簇。如果异常数量的节点在星期六期间加入，则这可以被标记为异常。

在一些实施例中，序列学习层可以是长短期记忆(LSTM)、LSTM层或门控循环单元(GRU)层。LSTM使用反馈连接来处理数据序列，并且非常适合于进行预测和确定事件发生的概率。另外，当需要学习长序列时，LSTM提供极好的“记忆”。

在一些实施例中，序列学习层可以是门控循环单元GRU层。GRU通常比LSTM训练得更快，并且在一些情况下可以优于LSTM。另外，GRU比LSTM简单，并且可以更简单地被修改。

在一些实施例中，训练循环神经网络可以基于序列学习。诸如序列到序列(Seq2Seq)之类的序列学习可以用于训练机器学习算法以将输入从一个域转换到另一个域。因此，机器学习算法可以被训练以接收网络拓扑中的改变，并将这些改变转换成对下一改变的预测。

本发明还可以提供一种装置，其被配置为训练循环神经网络以创建用于网络拓扑中的异常检测的模型。该装置可以包括预处理器，其被配置为基于将嵌入算法应用于网络的资源来创建针对该网络中的资源的嵌入向量，并且可以基于该网络中的资源的改变的一个或多个属性来创建针对该改变的特征向量。该装置还可以包括训练处理器，其被配置为利用该嵌入向量和该特征向量来训练循环神经网络，以创建用于网络拓扑中的异常检测的模型。

图1描述了其中可以实现示例性实施例的各方面的示例性分布式***的图形表示。分布式***100可以包括其中可以实现说明性实施例的各方面的计算机网络。分布式***100包含至少一个网络102，其是用于在分布式***100内连接在一起的各种设备和计算机之间提供通信链路的介质。网络102可以包括连接，诸如有线、无线通信链路或光纤电缆。

在所描述的例子中，第一服务器104和第二服务器106与存储***108一起连接到网络102，该存储***例如可以包括由多个存储单元形成的RAID存储阵列。然而，可以设想其它存储***。另外，客户端110、112和114也连接到网络102。客户端110、112和114可以是例如个人计算机、网络计算机等。在所描述的例子中，第一服务器104向客户端110、112和114提供数据，例如引导文件、操作***映像和应用。在所描述的例子中，客户端110、112和114是第一服务器104的客户端。分布式***100可以包括未示出的附加服务器、客户端和其他设备。

在所描述的示例中，分布式***100是因特网，其中网络102表示使用传输控制协议/因特网协议(TCP/IP)协议集来彼此通信的世界范围的网络和网关的集合。因特网的核心是主要实体或主机之间的高速数据通信线路的主干，其由路由数据和消息的数千个商业、政府、教育和其它计算机***组成。当然，分布式***100也可以被实现为包括多个不同类型的网络，例如内联网、局域网(LAN)、广域网(WAN)等。如上所述，图1旨在作为示例，而不是作为对本发明的不同实施例的体系结构限制，因此，图1中所示的特定元素不应被认为是对其中可实现本发明的说明性实施例的环境的限制。

网络102可以被配置为执行根据本发明的实施例的一个或多个方法，例如，控制所写入数据在存储***108内的存储。

图2是其中可以实现说明性实施例的各方面的示例***200的框图。***200是诸如图1中的客户端110的计算机的示例，实现本发明的说明性实施例的过程的计算机可用代码或指令可以位于其中。例如，***200可以被配置为实现根据实施例的预处理器和训练处理器。

在所描述的例子中，***200采用集线器体系结构，其包括北桥和存储器控制器集线器(NB/MCH)202以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)204。处理***206、主存储器208和图形处理器210连接到NB/MCH 202。图形处理器210可以通过加速图形端口(AGP)连接到NB/MCH 202。

在所描述的例子中，局域网(LAN)适配器212连接到SB/ICH 204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、硬盘驱动器(HDD)226、CD-ROM驱动器230、通用串行总线(USB)端口和其它通信端口232，以及PCI/PCIe设备234通过第一总线238和第二总线240连接到SB/ICH 204。PCI/PCIe设备可以包括例如以太网适配器、附加卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器，而PCIe不使用。ROM 224可以是例如闪速基本输入/输出***(BIOS)。

HDD 226和CD-ROM驱动器230通过第二总线240连接到SB/ICH 204。HDD 226和CD-ROM驱动器230可以使用例如集成驱动电子设备(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)设备236可以连接到SB/ICH 204。

操作***在处理***206上运行。操作***协调并提供对图2中的***200内的各种组件的控制。作为客户机，操作***可以是市场上可买到的操作***。面向对象的编程***，例如JavaTM编程***，可以与操作***一起运行，并提供从在***200上执行的JavaTM程序或应用程序到操作***的调用。

作为服务器，***200可以是例如运行高级交互执行

操作***或

操作***的/>

eSever^TM />

计算机***。***200可以是在处理***206中包括多个处理器的对称多处理器(SMP)***。或者，可以采用单处理器***。

用于操作***、编程***以及应用或程序的指令位于诸如HDD 226的存储设备上，并且可以被加载到主存储器208中以便由处理***206执行。类似地，根据实施例的一个或多个消息处理程序可以适于由存储设备和/或主存储器208存储。

用于本发明的说明性实施例的处理可以由处理***206使用计算机可用程序代码来执行，该计算机可用程序代码可以位于诸如主存储器208、ROM 224之类的存储器中，或者位于一个或多个***设备HDD 226和CD-ROM驱动器230中。

诸如图2所示的第一总线238或第二总线240的总线***可以包括一个或多个总线。当然，总线***可以使用任何类型的通信结构或体系结构来实现，所述通信结构或体系结构提供在附接到该结构或体系结构的不同组件或设备之间的数据传输。诸如图2的调制解调器222或网络适配器212之类的通信单元可以包括用于发送和接收数据的一个或多个设备。存储器可以是例如主存储器208、ROM 224，或诸如在图2中的NB/MCH 202中找到的缓存。

本领域的普通技术人员将理解，图1和2中的硬件可以根据实现而变化。除了图1和2中描述的硬件之外，或者作为其替代，可以使用其它内部硬件或***设备，例如闪存、等效的非易失性存储器，或光盘驱动器等。同样，在不脱离本发明的范围的情况下，除了前面提到的***之外，可以将示例性实施例的处理应用于多处理器数据处理***。

此外，***200可以采取多种不同数据处理***中的任何一种的形式，包括客户端计算设备、服务器计算设备、平板计算机、膝上型计算机、电话或其他通信设备、个人数字助理(PDA)等。在一些说明性示例中，***200可以是便携式计算设备，其配置有闪存以提供用于存储例如操作***文件和/或用户生成的数据的非易失性存储器。因此，***200本质上可以是任何已知的或以后开发的数据处理***，而没有架构限制。

图3示出了所提出的计算机实现的方法，用于训练循环神经网络308以创建用于网络302的拓扑中的异常检测的模型309。循环神经网络308可以包括输入层310、序列学习层311(例如，LSTM单元、GRU单元或任何其他序列学习方法等)、用于将特征向量与序列学习层311的输出串联的串联层312、一个或多个致密层313以及输出模型309以用于异常检测的输出层314。可以通过序列学习来完成对循环神经网络308的训练。

该方法基于为网络302中的资源创建嵌入向量304。嵌入向量304可以通过将KubeNode2Vec方法303应用于网络302的资源来创建。网络302的资源可以是提供计算能力/存储和/或与网络的使用有关的任何其它计算服务的独立服务。例如，资源可以是网络302中的节点。

也从网络302中创建特征向量306。特征向量306是基于针对网络302的拓扑发生的改变的属性。改变属性可以是例如实体类型(对应于作出改变的资源)、改变类型或改变时间(一周中的某天、改变的时间等)。创建特征向量306可以通过独热编码305(或独冷编码)来完成。

循环神经网络308因此可以用嵌入向量304和特征向量306来训练，以创建用于网络302的拓扑中的异常检测的模型。

图4示出了被配置为训练循环神经网络308以创建用于网络302的拓扑中的异常检测的模型309的装置。该装置包括预处理器402和训练处理器404。图4示出了通过将新资源406添加到网络302而对网络302的拓扑的改变。这可能是例如由于当前资源的复制。

对网络302的拓扑的改变(例如，创建副本集群)可以被输入到预处理器402。预处理器402可以基于将KubeNode2Vec方法应用于网络302中的资源来为网络302中的资源(例如，集群/节点/容器)创建嵌入向量304。

预处理器402还可以基于改变的一个或多个属性来创建针对网络302中的资源的改变的特征向量306。改变属性可以是例如实体类型(对应于作出改变的资源)、改变类型或改变时间(一周中的某天、改变的时间等)。创建特征向量306可以通过独热编码或独冷编码来完成。

训练处理器404可以被配置为利用嵌入向量304和特征向量306来训练循环神经网络，以创建用于网络302的拓扑中的异常检测的模型309。循环神经网络可以包含用于接收嵌入向量304的序列的输入层、跟随在输入层之后的序列学习层(例如，LSTM单元、GRU单元或任何其他序列学习方法等)、用于将特征向量306与序列学习层的输出串联的串联层、一个或多个致密层以及输出用于异常检测的模型309的输出层。

嵌入向量：

随后将基于Kubernetes***详细描述本发明的实施例。然而，应当注意，实施例不限于Kubernetes***，并且可以在其他网络架构中使用。

给定网络拓扑随时间的历史，可以在拓扑内学习资源的嵌入。这可以经由KubeNode2Vec方法A方法来完成，以利用拓扑的历史改变来学习抽象时间关系。选择该方法的原因是它迎合拓扑随时间的动态特性。

KubeNode2Vec方法可以接收包括网络拓扑的历史快照的网络拓扑信息。历史快照可以包括网络拓扑的最近快照和网络拓扑的一个或多个先前历史快照。特别地，快照可以包括在特定时间点的针对网络的资源和连接的布置的网络拓扑信息。网络拓扑信息可以从具有从网络拓扑发现机制等接收的快照数据的数据存储中获得。任何合适的网络拓扑发现机制可被用于捕获和维护网络拓扑信息，包括历史快照。如本领域技术人员将理解的，在资源被动态地添加到网络和从网络移除时，动态网络的拓扑随着时间而改变。因此，为单次快照获得的原始网络拓扑信息，例如最近的快照，不能包含足够的信息用于与网络相关的深度学习。根据本公开，包括多个快照的历史网络拓扑信息被用于深度学习。具体地，历史快照中的网络拓扑信息可以用于例如识别网络中可以随时间最低限度地改变的稳定部分，以及相反地网络中可以随时间频繁改变的部分。因此，历史快照的使用提供了更丰富的拓扑信息，以便于改进对动态网络的特征和行为的学习。

KubeNode2Vec方法可以在网络拓扑的每个快照中识别执行相同角色并且连接到相同非规模节点(non-scale node)集合的两个或更多个规模节点(scale node)。特别地，它可以将网络拓扑的每个历史快照中的节点与网络拓扑的相同快照中的其他节点进行比较。如上所述，KubeNode2Vec方法可以从与每个资源或节点相关联的拓扑元数据的数据参数中识别网络拓扑中的规模节点。此外，它可以从拓扑元数据中识别每个所识别的规模节点的角色，例如功能或目的，以及它到非规模节点的连接。可以理解，在网络拓扑中具有相同角色以及到非规模节点的相同连接的规模节点在网络中执行完全相同的角色或“功能”，例如，作为用于负载平衡等目的副本。因此，KubeNode2ec能够从拓扑信息中识别执行相同角色并连接到相同非规模节点的两个或更多个规模节点的组。可以理解，在网络拓扑的任何单次快照中，可以识别与不同角色或服务相关联的多组规模节点。

KubeNode2Vec方法可以通过用新创建的单个聚合节点替换具有相同角色并连接到相同非规模节点集合的一组规模节点内的规模节点，来修改每个网络拓扑快照。单个聚合节点可以具有新的节点标识符。因此，KubeNode2Vec可以修改每个快照以导出表示修改的网络拓扑的修改的拓扑信息。用单个聚合节点替换规模节点的过程在此被称为“折叠规模节点”，并且单个“聚合节点”在此被称为“合成节点”。在示例实现中，KubeNode2Vec可以用单个聚合节点替换属于所识别的一组规模节点的节点。因此，一组规模节点与相同的节点标识符相关联，即，用于聚合/合成节点的新标识符。此外，KubeNode2Vec可以用单个“聚合边”替换从一组规模节点中的规模节点开始的边的集合，该聚合边可以基于所组合的边的集合的权重的平均值来加权，或者使用用于组合边权重的另一合适的技术来加权。因此，它通过识别在网络内执行相同角色或服务的“缩放节点”，并将它们折叠成组合或聚合节点，来修改历史快照的网络拓扑信息，使得它们被视为单个资源以用于确定其特征表示。在示例实现中，KubeNode2Vec可以将由聚合节点表示的规模节点的原始节点标识符与对应的聚合节点标识符相关联。例如，它可以存储用于将原始节点标识符映射到聚合节点标识符的对应映射信息。

可以理解，KubeNode2Vec方法可以在动态网络中，例如在网络拓扑随时间频繁改变的虚拟化网络环境中，从节点(即网络资源)导出改进的特征表示。特别地，通过导出针对执行相同角色并且连接到相同非规模节点集合的规模节点的共同特征表示，可以更容易地使用特征表示来在网络拓扑中进行对资源和关联数据的关联和相关。

下面是伪码，其将Node2Vec算法适配用于执行KubeNode2Vec方法，作为示例：

先决条件：从最早时间到最晚时间迭代可用的网络拓扑信息，收集随时间的所有历史快照H以捕获对拓扑的改变。周期性地，或者每次发生特定改变时，捕获拓扑的快照H，并且将该网络拓扑快照的图添加到集合，例如，与相关联的时间戳一起。

CollapsScaleNode(图G＝(V，E，W))

对于V中具有相同角色并连接到相同“非规模节点”组ns的“规模节点”组s

用单个合成节点替换s

用新的边替换E中从集合s内的节点开始到集合ns的边。新的边的权重是折叠到其中的原始边的平均值。

返回G

LearnFeatures(拓扑的所有历史快照H、维度d、每节点的步(Walk)数量r、步长l、上下文大小k、返回p、进出q)

For拓扑的历史快照的集合H中的图形G＝(V,E,W)

Gc＝CollapseScaleNodes(G)

π＝PreprocessModifiedWeights(Gc,p,q)

G'＝(V,E,π)

将walk初始化为空

for iter＝1to r do

for节点u∈V do

walk＝node2vecWalk(G',u,l)

一步一步附加

f＝StochasticGradientDescent(k,d,walks)

返回f

node2vecWalk(图形G'＝(V,E,π)，起始节点u，长度l)

将walk初始化为[u]

for walk_iter＝1to l do

Curr＝walk[-1]

Vcurr＝GetNeighbors(Curr,G')

s＝AliassSample(Vcurr,π)

将s附加到walk

返回walk

/*使用与特征学习期间相同的采样策略轻而易举地获得表示节点的邻居的特征向量*/

generateNeighborSignatures(特征f,图G'＝(V,E,π))

初始化从向量到节点的空映射M

For G'中的节点v'

nb＝GetNeighbors(v,G')

sig＝学***均(从f可获得，f是调用上述学习的结果)

将(sig,v)添加到映射m

返回映射m

改变序列数据集：

构建改变序列数据集，对针对网络拓扑的所有历史改变进行迭代，并将它们记录在序列中，例如：

在每个改变上使用预定大小的滑动窗口，例如5，来收集改变序列。例如，从表中收集的一些序列是：

序列1：	Pod1	Pod3	Pod8	Pod12	Pod15
						序列2：	Pod3	Pod8	Pod12	Pod15	…
序列3：	Pod8	Pod12	Pod15	…	…
						序列4：	Pod12	Pod15	…	…	…

						序列n：	…	…	…	…	Pod94

可以变换改变序列，从而使得可以使用集群的向量表示(每个集群的嵌入向量)而不是它们的ID。在这个变换之后，可以获得改变序列的列表，其中改变序列是嵌入向量的序列。

特征数据集：

对于改变记录，可以构建包含例如实体类型、改变类型和时间细节等的附加属性的特征向量。由于实体类型具有分类性质，所以可以使用独热编码(或独冷编码)来创建特征向量。改变类型也具有分类性质，因此可以允许使用独热编码。对于时间细节，一天中的时间和一周中的天可以被看作两个分开的字段。类似地，独热编码可以相应地用于创建特征向量。在下表中可以找到针对一周中的某一天使用独热编码的例子：

日期	独热
		星期一	0000001
星期二	0000010
		星期三	0000100
星期四	0001000
		星期五	0010000
星期六	0100000
		星期天	1000000

在为三个方面(一天中的时间、一周中的天、改变类型)构造独热向量之后，它们可以被一起附加到单个特征向量中。应当注意，特征(改变属性)不限于所提到的三个特征，并且可以包括其他元数据/属性，诸如但不限于：地理位置、CPU百分比使用、RAM百分比使用、CPU温度等。例如，CPU使用可以被分类为“高”、“中”或“低”使用，并且然后被独热编码为“高”＝001、“中”＝010或“低”＝100。CPU的“高”使用可以是＞75％、＞80％、＞85％，或本领域技术人员能够导出的任何其他百分比。类似地，＜50％、＜45％、＜40％的CPU使用可以是“低”CPU使用。或者，CPU使用可以按0％到100％的比例以1％、5％、10％、20％等的步长来分类。

训练神经网络：

图5示出了用于输出用于异常检测的模型309的神经网络的示例。改变序列内的资源502(例如，集群、节点、容器等)及其表示附加特性的对应特征向量306可以用于训练循环神经网络。

在该示例中，神经网络是具有长短期记忆(LSTM)单元504的循环神经网络。固定大小的改变序列内的资源502可以被馈送到神经网络中。资源502的嵌入向量304可以经由KubeNode2Vec算法获得。该嵌入向量304可以被馈入LSTM单元504。注意，如在循环神经网络中典型的那样，除了在时间步骤处的通常输入之外，前一步LSTM单元504的输出被馈送到下一步。

在这些时间步骤处，LSTM单元504的输出与相应的特征向量306串联。通过用特征向量306扩充LSTM输出，网络可以学习与训练数据中存在的实体类型、改变类型和时间/季节模式相关的任何模式。或者，可以使用GRU单元代替LSTM。

串联的输入向量506可以被馈送到一个或多个致密层508中。最终输出层可以包含输出(Logits)510，其是可以用于创建模型309以便预测下一个改变的多项式分布。

图6示出了用于创建用于异常检测的模型309的神经网络的流程图。来自数据集602的改变序列中的资源502可被嵌入到嵌入向量304中并被馈送到LSTM单元504，如前所述。特征向量306和LSTM单元504的输出可以被串联，其中特征向量306已经被独热编码。然后，串联的输入向量506可以被馈送到致密层508中，其输出用于异常检测的模型309(基于多项式分布——输出510)。

将模型用于异常检测：

一旦训练了循环神经网络，由神经网络输出的模型309可以用于检测对网络拓扑结构的异常改变。

模型309可以产生表示对下一个改变的预测的多项式分布。该分布可以用于计算观察到的改变的可能性，并且如果改变低于阈值，则该改变可以被标记为异常。

在一个示例中，存在一种Kubernetes簇，其使用部署上的Kubernetes水平集群自动缩放。根据网络要求和规则，例如(但不限于)CPU利用率(例如，当节点的CPU利用率达到75％时，在第二节点上创建集群的副本)，在任何时候都可能有集群的许多副本。

通常，例如Node2Vec的嵌入方法可以在复制品之间进行区分。然而，使用本发明的方法实施例，KubeNode2Vec可以确定不同节点上的集群是(第一集群的)副本，即使第二节点之前从未被看到过(例如，使用Kubernetes上的群集自动定标器)。

因此，当创建集群的嵌入向量时，KubeNode2Vec方法可确定它们是相同的，并且因此获得针对集群(具有多个副本)的嵌入观察。这允许更多关于集群行为的信息被存储在嵌入向量304中。

因此，可以利用针对改变(例如正在产生的改变、正在启动的集群等)的嵌入向量304和特征向量306来训练神经网络。由神经网络输出的模型309也可以预测例如集群副本的创建，而不管模型309正在使用的节点。

在另一个示例中，循环神经网络可以被训练以学习集群中的容器的改变序列。由于集群的一般尺寸，用于容器的训练材料低得多并且花费更少的时间来训练循环神经网络。

可以输入在单个集群的容器中的改变以训练循环神经网络并提供对下一个改变的预测。例如，某些容器在一天的某些时间期间可能被使用得更多。因此，循环神经网络可以学习集群在正常情况下如何起作用，并且有助于检测异常行为。

或者，可能希望检测簇的节点(硬件计算机器和/或虚拟机)中的异常。在这种情况下，循环神经网络可以被训练以学习针对节点的改变序列。因此，模型309输出可以是表示节点的改变的预测的分布，并且因此可以检测节点的异常(或异常链)，可能用信号通知硬件问题。

然而，本发明的实施例的使用不限于Kubernetes***中的集群、容器或节点。本发明的实施例还可以用于(但不限于)节点网络、虚拟机网络、基于容器的架构等。

在一个示例中，本发明可以在创建关键性能指标(KPI)的上下文中使用。通过查看某一时段并确定改变的数量是否超过阈值(例如0)，异常拓扑改变可以用作KPI。在非常静态的环境中的拓扑改变可以指示问题。关于***的多个度量可以用于确定异常拓扑改变正在导致错误和/或延迟上升，或者异常拓扑改变通常导致拓扑成员或底层网络度量的不期望行为。

在本申请的上下文中，其中本发明的实施例构成方法，应当理解，这样的方法是用于由计算机执行的过程，即，是计算机可实现的方法。因此，该方法的各个步骤反映了计算机程序的各个部分，例如一个或多个算法的各个部分。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是，例如(但不限于)，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、存储级存储器(SCM)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如其上记录有指令的打孔卡或凹槽中的凸起结构之类的机械编码设备，以及上述的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在各自计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言(例如Smalltalk、C++等)以及常规的过程式编程语言(例如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，通过使用因特网服务提供商的因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的模块。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现在流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现在流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的***、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所提及的功能可以不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的***来实现。

已经出于说明的目的给出了本发明的各种实施例的描述，但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims

1.一种用于训练循环神经网络以创建用于网络的拓扑中的异常检测的模型的计算机实现的方法，所述计算机实现的方法包括：

基于将KubeNode2Vec方法应用于所述网络，来创建针对所述网络中的资源的嵌入向量；

基于对所述资源的改变的一个或多个属性来创建针对所述改变的一个或多个特征向量；以及

利用所述嵌入向量和所述特征向量来训练循环神经网络，以创建用于所述网络的拓扑中的异常检测的模型。

2.根据权利要求1所述的方法，其中，所述循环神经网络包括：

输入层，用于接收所述嵌入向量；

跟随在所述输入层之后的序列学习层；

串联层，用于将所述特征向量与所述序列学习层的输出串联；

一个或多个致密层；以及

输出层，用于输出所述模型以用于异常检测。

3.根据权利要求1或权利要求2所述的方法，其中，所述改变属性是以下各项中的一个或多个：

与做出所述改变的资源相对应的实体类型；

改变类型；以及

改变时间。

4.根据前述权利要求中任一项所述的方法，其中，创建特征向量是基于对对应的改变属性进行独热编码或独冷编码。

5.根据权利要求2所述的方法，其中，所述序列学习层是长短期记忆LSTM层。

6.根据权利要求2所述的方法，其中，所述序列学习层是门控循环单元GRU层。

7.根据前述权利要求中任一项所述的方法，其中，训练所述循环神经网络是基于序列学习的。

8.一种被配置为训练循环神经网络以创建用于网络的拓扑中的异常检测的模型的装置，所述装置包括：

预处理器，被配置为：

基于将KubeNode2Vec方法应用于所述网络，来创建针对所述网络中的每个资源的嵌入向量；

基于对所述网络中资源的每个改变的一个或多个属性来创建针对所述改变的特征向量，以及

训练处理器，被配置为利用所述嵌入向量和所述特征向量来训练循环神经网络，以创建用于所述网络的拓扑中的异常检测的模型。

9.根据权利要求8所述的装置，其中，所述循环神经网络包括：

输入层，被配置为接收嵌入向量；

跟随在所述输入层之后的序列学习层；

串联层，被配置为将所述特征向量与所述序列学习层的输出串联；

一个或多个致密层；以及

输出层，用于输出所述模型以用于异常检测。

10.根据权利要求8或权利要求9所述的装置，其中，所述改变属性是以下各项中的一个或多个：

与做出所述改变的资源相对应的实体类型；

改变类型；以及

改变时间。

11.根据权利要求8至10中任一项所述的装置，其中，创建特征向量是基于对对应的改变属性进行独热编码。

12.根据权利要求9所述的装置，其中，所述序列学习层是长短期记忆LSTM层。

13.根据权利要求9所述的装置，其中，所述序列学习层是门控循环单元GRU层。

14.根据权利要求8至13中的任一项所述的装置，其中，训练所述循环神经网络是基于序列学习的。

15.一种包括计算机可读介质的计算机程序产品，所述计算机可读介质包括在计算设备上可执行的软件代码部分，用于执行用于训练循环神经网络以创建用于网络的拓扑中的异常检测的模型的方法，所述计算机程序产品包括：

一个或多个非暂态计算机可读存储介质和存储在所述一个或多个非暂态计算机可读存储介质上的程序指令，所述程序指令包括：

用于基于将KubeNode2Vec方法应用于所述网络来创建针对所述网络中的每个资源的嵌入向量的程序指令；

用于基于对所述网络中的资源的每个改变的一个或多个属性来创建针对所述改变的特征向量的程序指令；以及

用于利用所述嵌入向量和所述特征向量来训练循环神经网络以创建用于所述网络的拓扑中的异常检测的模型的程序指令。

16.根据权利要求15所述的计算机程序产品，其中，所述循环神经网络包括：

输入层，用于接收所述嵌入向量；

跟随在所述输入层之后的序列学习层；

一个或多个致密层；以及

输出层，用于输出所述模型以用于异常检测。

17.根据权利要求15所述的计算机程序产品，其中所述改变属性是以下各项中的一个或多个：

与做出改变的资源相对应的实体类型；

改变类型；以及

改变时间。

18.根据权利要求15所述的计算机程序产品，其中，用于创建特征向量的程序指令基于对对应的改变属性进行独热编码或独冷编码。

19.根据权利要求16所述的计算机程序产品，其中，所述序列学习层是长短期记忆LSTM层。

20.根据权利要求16所述的计算机程序产品，其中，所述序列学习层是门控循环单元GRU层。