CN114978568A - 使用机器学习进行数据中心管理 - Google Patents

使用机器学习进行数据中心管理 Download PDF

Info

Publication number
CN114978568A
CN114978568A CN202210145920.7A CN202210145920A CN114978568A CN 114978568 A CN114978568 A CN 114978568A CN 202210145920 A CN202210145920 A CN 202210145920A CN 114978568 A CN114978568 A CN 114978568A
Authority
CN
China
Prior art keywords
performance
composite
data center
processor
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210145920.7A
Other languages
English (en)
Inventor
瓦迪姆·杰克曼
塔马·维克利兹基
加比·瓦妮莎·迪恩戈特
达维德·斯拉马
萨米尔·迪布
希·曼诺尔
贾勒·谢希克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mellanox Technologies Ltd
Original Assignee
Mellanox Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mellanox Technologies Ltd filed Critical Mellanox Technologies Ltd
Publication of CN114978568A publication Critical patent/CN114978568A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种用于数据中心管理的方法包括在包括多个组件的数据中心中,监控组件的多个性能测量。复合度量集合被自动定义,每个复合度量包括来自性能测量的两个或更多个性能测量的相应加权组合。为复合度量建立基线值。检测到一个或多个复合度量与相应基线值的异常偏差。

Description

使用机器学习进行数据中心管理
技术领域
本发明总体上涉及网络通信,尤其涉及数据中心中数据流量的监控和管理。
背景技术
在专利文献中以前已经提出了用于监控和管理网络通信的***。例如,美国专利10,721,243描述了一种用于识别和减轻恶意网络威胁的***和/或方法。相关的网络数据从跨网络的各种来源检索并分析以识别恶意网络威胁。当发现威胁时,***执行缓解动作以消除恶意网络威胁。在实施方式中,处理器检索与IP地址或域中的至少一个相关联的网络数据,其中网络数据包括指示由网络的多个元件收发的数据量的信息。处理器通过执行以下步骤分析网络数据并识别恶意网络威胁:将网络数据规范化为标准格式,用识别网络数据的至少一个标签来补充网络数据,确定网络数据是否指示一系列相同大小的分组已从一个公共位置传输到网络的多个元素,确定分组发出的端口类型,将网络数据存储在数据库中,根据与网络数据相关联的威胁对网络数据进行加权,其中网络数据与分组相关,并且其中基于分组发出的端口的类型对所述网络数据进行加权,并且为加权数据生成风险评分。基于加权数据的风险评分,处理器执行缓解动作以消除恶意网络威胁,其中缓解动作包括以下中的至少一项:空路由恶意网络威胁、发布识别实施恶意网络威胁的不良行为者的列表,或逻辑上将IP地址或域与网络分开。
作为另一个例子,中国专利CN 108353034B描述了一种中央基础设施监控***,其包括资产配置器和多个数据中心基础设施监控***。每个数据中心基础设施监控***与多个地理分布式数据中心的相应数据中心相关联,多个分布式数据中心包括多个物理基础设施资产中的一个或多个物理基础设施资产,用于支持相应数据中心内的***操作。资产配置器被配置为基于关于多个数据中心的多个基础设施资产的信息定义多个基础设施资产的标准属性模板,基于定义的模板生成逻辑上表示多个物理基础设施资产的基础设施资产数据,并通过基础设施资产数据关联基础设施资产层次结构内的物理基础设施资产,指示多个基础设施资产之间的连接和相互依赖性。
美国专利10,771,500描述了用于检测分布式拒绝服务(DDoS)攻击的***和方法。示例性方法包括从第一用户接收对在服务器上执行的服务的一个或多个请求,以及生成与第一用户相关联的第一向量,该第一向量包括指示第一用户访问服务的多个特征;计算第一向量和参考向量之间的比较,其中参考向量包括访问服务的多个用户的特征的平均分布,并基于第一向量和参考向量之间的比较确定服务受到拒绝服务攻击。***模块可以实现为实际的设备、***、组件、使用硬件实现的一组组件,例如微处理器***和软件指令集合。
发明内容
下文描述的本发明的实施方式提供了一种用于数据中心管理的方法,该方法包括在包括多个组件的数据中心中,监控所述组件的多个性能测量。自动定义复合度量集合,每个复合度量包括所述性能测量中的两个或更多个性能测量的相应加权组合。为所述复合度量建立基线值。检测一个或多个所述复合度量与所述相应基线值的异常偏差。
在一些实施方式中,检测所述异常偏差包括组合多个相应复合度量的多个偏差以产生组合偏差,以及检测所述组合偏差中的所述异常。
在一些实施方式中,自动定义所述复合度量集合包括运行机器学习(ML)过程,所述过程自动执行以下中的一项或多项:(i)选择要组合的性能测量组,以形成所述复合度量,以及(ii)为所述复合度量中的所述性能测量分配权重。
在一个实施方式中,检测所述异常偏差包括运行重复的自动过程,所述过程:(i)监控所述性能测量,(ii)响应于所监控的性能测量更新所述复合度量的定义,以及(iii)将所更新的复合度量与所述相应的基线值进行比较。
在另一实施方式中,该方法还包括在所述重复的自动过程的至少一些重复期间更新所述基线方程。
根据本发明的另一实施方式,还提供了一种用于数据中心管理的方法,该方法包括在包括多个组件的数据中心中,监控所述组件的多个性能测量。自动定义复合度量集合,每个复合度量包括所述性能测量中的两个或更多个性能测量的相应加权组合。基于所述复合度量得出一个或多个所述组件的潜在异常模式。
在一些实施方式中,导出潜在故障模式包括估计组件的未来异常时间。
在一个实施方式中,该方法还包括基于新收集的复合度量重复更新所估计的未来异常时间。
根据本发明的另一实施方式,还提供了一种用于数据中心管理的方法,该方法包括在包括多个硬件组件的数据中心中运行多个软件应用。自动导出映射,所述映射(i)为每个软件应用指定由所述软件应用使用的一个或多个所述硬件组件的相应子集,和(ii)为每个硬件组件指定使用所述硬件组件的一个或多个所述软件应用的相应子集。监控所述软件应用和所述硬件组件的性能,并根据所监控的性能和所述映射识别异常事件。
在一些实施方式中,识别所述异常事件包括检测一个或多个所述硬件组件的异常性能,并且使用所述映射识别与所述异常性能相关联的一个或多个所述软件应用。
在一个实施方式中,识别所述异常事件包括检测一个或多个所述软件应用的异常性能,以及使用所述映射识别与所述异常性能相关联的一个或多个所述硬件组件。
在一些实施方式中,自动导出所述映射包括:(i)为所述软件应用和所述硬件组件建立基线性能模式,以及(ii)响应于检测到与所述基线性能模式的异常偏差更新所述映射。
根据本发明的另一实施方式,还提供了一种用于数据中心管理的***,该***包括接口和处理器。该接口被配置为监控数据中心中的多个组件的多个性能测量。处理器被配置为:(i)自动定义复合度量集合,每个复合度量包括所述性能测量中的两个或更多个性能测量的相应加权组合,(ii)为所述复合度量建立基线值,以及(iii)检测一个或多个所述复合度量与所述相应基线值的异常偏差。
根据本发明的另一实施方式,还提供了一种用于数据中心管理的***,该***包括接口和处理器。该接口被配置为监控数据中心中的多个组件的多个性能测量。处理器被配置为:(i)自动定义复合度量集合,每个复合度量包括所述性能测量中的两个或更多个性能测量的相应加权组合,以及(ii)基于所述复合度量导出一个或多个所述组件的潜在异常模式。
根据本发明的另一实施方式,还提供了一种用于数据中心管理的***,该***包括接口和处理器。该接口被配置为与包括多个硬件组件并运行多个软件应用的数据中心通信。处理器被配置为:(a)自动导出映射,所述映射(i)为每个软件应用指定由所述软件应用使用的一个或多个所述硬件组件的相应子集,和(ii)为每个硬件组件指定使用所述硬件组件的一个或多个所述软件应用的相应子集,以及(b)监控所述软件应用和所述硬件组件的性能,并根据所监控的性能和所述映射识别异常事件。
结合附图,通过以下实施方式的详细描述,将更充分地理解本发明,其中:
附图说明
图1是根据本发明示例性实施方式的数据中心的管理***的示意框图;
图2A和图2B是根据本发明的示例性实施方式的图1的***的功能的示意图,图2B呈现了运行这些功能的统一结构管理器(UFM)版本;
图3是示意性描述根据本发明的示例性实施方式的使用图1的***管理数据中心的方法的流程图;
图4A至图4C是示出根据本发明的示例性实施方式的若干性能测量的实际值与预期值的图表;
图5A和图5B是分别示出根据本发明实施方式的包括异常事件的监控信息和异常之一的评分过程的图表;以及
图6是示出根据本发明的示例性实施方式的包括异常总和与实际特征异常事件的监控信息的图表。
具体实施方式
概述
出于各种原因,通信基础设施可能需要全面管理,一个示例是促进预防性维护,其中此类管理***检测硬件故障的风险并估计此类故障的时间。作为另一个示例,管理***可以检测和减轻对基础设施的网络攻击。
然而,通常很难以有用的方式获得和呈现不良事件的迹象,例如上文所述。例如,硬件功能的单一良性指示,例如网络组件(例如,网络接口卡、存储设备、交换机、插头等)的温度,可能会导致错误警报或不及时的服务呼叫。作为另一个示例,网络流量会根据应用的使用、地理位置、网络拓扑等显着变化。因此,这些分组中的信息是嘈杂的、不统一的,并且不容易用于生产性监控。
下文描述的本发明的实施方式提供了覆盖网络监控的几个关键领域的网络管理***和方法,包括:异常检测;故障预测;和网络威胁情报。所公开的技术包括定义复合度量以可靠地检测异常,其中例如,根据由管理***确定并随后更新的基线,这样的复合度量动态改变。
在一个实施方式中,所提供的管理***被配置为监控(例如,使用遥测和分析工具)包括多个硬件和软件组件的数据中心中的组件的多个性能测量。性能测量由管理***的接口电路收集,为此,接口电路与包括多个硬件组件并运行多个软件应用的数据中心通信。例如,这样的测量可以包括以下中的任何一项或多项:误码率或误帧率;数据速率;工作温度;能量消耗;上下时间;和任何其他适当的测量。管理***在与网络链接的接口中接收这样的网络组件信息;网络组件信息可以包括可能被在数据中心中运行的恶意应用消耗的参数。具体地,此类参数可用于检测在数据中心中运行的与网络攻击相关联的流氓或未经授权的应用。
管理***包括处理器,该处理器运行自动定义复合度量集合的算法。每个复合度量包括来自管理***的接口电路收集的两个或更多个性能测量中的相应加权组合。各种复合度量中使用的加权组合源自性能测量中检测到的相关性。为此,处理器运行机器学习(ML)算法,该算法识别性能测量中的相关性,以便为每个复合度量选择适当的性能测量集合。这种ML算法的特定的非限制性示例是XGboost梯度提升算法,它特别适用于以决策树集合的形式生成预测模型,该集合表示要用于构建复合度量的相关性能测量的演化子集。
处理器为构建的复合度量建立基线方程,并检测一个或多个复合度量与相应基线方程的异常偏差。
在一个实施方式中,在检测到总异常和的偏差(例如,在下面的方程2中定义的异常和)之后,处理器执行旨在识别一个或多个性能测量(其是总异常和的警告偏差的主要贡献者)的“深入”过程。为此,提供了统计估计,例如标准偏差的数量或中值绝对误差(MAE)偏差的数量,以估计性能测量的实际性能与其预期性能的偏差。深入可以包括估计超出方程2的总异常分数的给定偏差的主要性能测量贡献者的严重程度。
检测每个特征的异常偏差的非限制性示例是使用提供统计估计的异常分数,例如来自特征值的基线值的标准偏差的数量或平均绝对误差(MAE)(即,度量值)的数量,并根据标准偏差或MAE的数量分配严重程度。
例如,处理器可以使用功耗、组件温度和误码率的加权和的复合度量,其中只有复合度量的发散是有意义的,如下所述。在实践中,复合度量可以是多个监控参数的加权和,每个监控参数分别具有部分估计测量值。如果复合度量偏离其基线的标准偏差的给定阈值以上,则处理器指示将发生的风险,并指示前k个(例如,前3个)性能测量(即,特征)中的哪个超过n,范围为{0...,所有特征的计数}性能测量(即,特征),其中前k个特征(例如,功耗和/或组件温度和/或误码率)是监控的特征中的警报异常的主要贡献者。
在一些实施方式中,处理器通过运行ML过程来自动定义复合度量集合,ML过程自动执行以下中的一项或两项:(a)选择要组合的性能测量组以便形成复合度量,和/或(b)为复合度量中的性能测量分配权重。为了满足网络的动态环境,处理器通过运行重复的自动过程来检测异常偏差,该过程(i)监控性能测量,(ii)响应于监控的性能测量更新复合度量的定义,以及(iii)将更新的复合测量与相应的基线值进行比较。在这种重复自动期间,处理器可以至少在重复自动过程的某些情况下进一步更新基线方程。
在另一实施方式中,管理***被配置为基于一个月内学习的数据测量值得出一个或多个组件的潜在异常模式。在该实施方式中,所公开的技术训练ML算法以通过在(回顾性地已知)以前发生的故障之前的一段时间内(例如,在收集时间之前的1到8小时)收集监控信息(例如,ML算法的训练数据)以及ML算法随着时间的推移学习测量值的关系来预测未来的故障。
使用ML算法,处理器通过例如警告组件的未来故障时间来推导潜在的故障模式。处理器根据新收集的故障重复更新警告的未来故障时间。
在又一实施方式中,管理***被配置为在包括多个组件的数据中心中自动导出映射(例如,呈现在GUI上的映射),其为每个软件应用指定(i)软件应用使用的一个或多个硬件的相应子集,以及(ii)指定每个硬件组件中使用的一个或多个软件应用的相应子集。管理***监控硬件组件和软件应用的性能,以根据监控的性能和映射来识别异常事件。
在示例实施方式中,所公开的技术包括创建更新的映射文件的日常过程。实施每小时的过程,该过程使用此文件来获取更新的映射。
在一种情况下,管理***通过检测一个或多个硬件组件的异常性能来识别异常事件,并且通过使用映射,识别与异常性能相关联的一个或多个软件应用。在另一场景中,管理***通过检测一个或多个软件应用的异常性能来识别异常事件,并且通过使用映射,识别与异常性能相关联的一个或多个硬件组件。
在上述两种情况下,自动导出映射包括(a)为硬件组件和软件应用建立基线性能模式,以及(b)响应于检测到与基线性能模式的异常偏差更新映射。
除上述所有内容外,所公开的技术通过存储网络(例如,一个月的监控持续时间)的历史并分析与该历史相关的复合度量,给出网络状况的可见性。
通过提供使用能够进行异常检测、故障预测、网络威胁情报和结构可见性的复合度量/关系的管理***,所公开的技术(在示例性实施方式中)给出了一体化网络监控解决方案。
在未来故障检测的情况下,可以采取各种响应动作。例如,这些可以包括改变流量路径,其中有问题的节点从可用节点中被排除,或者在软件中重新定义用于重定向的可用端口。在网络安全问题,例如在不规则时间检测到可疑活动的情况下,可以丢弃相关应用,和/或可以采取任何其他合适的响应动作。
***描述
图1是根据本发明的示例性实施方式的数据中心102的管理***100的示意框图,其中***100管理数据中心102活动的至少一部分。在所描绘的实施方式中,管理***100包括与显示器1003链接的处理器1002、接口1004和存储软件110的存储器1006,处理器1002运行该软件110以执行***100的公开功能。软件110通常包括ML算法,例如(通过非限制性示例)上述XGboost算法,用于在可用性能测量集合中由ML算法发现的要相关的性能测量子集构建测量值之间的复合度量和关系(例如,方程)。
数据中心102包括由应用1024使用的多个硬件组件1022(例如,计算机、网络适配器、存储设备、分组交换机、电缆、插头等)。应用1024的示例可以包括视频流、分布式计算、数据库应用等。
***100可以例如利用数据中心的处理器、接口和存储器由设备定位作为数据中心102的一部分。
如图所示,***100的接口1004(通过链路104)接收来自数据中心102的实时遥测以及网络和数据流量参数,以监控数据中心102的组件的多个性能测量。从组件1022接收的典型遥测包括物理参数,例如温度、功耗等。接收的典型网络和数据流量参数包括使用中的端口、每个端口的数据速率和每个链路的错误率。
使用软件110,管理***100的处理器1002能够提供数据中心102的异常检测、故障预测、网络威胁情报和结构可见性。
在一个实施方式中,用户可以监控显示器1003上的事件并发起响应,包括向数据中心组件1022发送命令(通过链路108),以减轻将发生的硬件故障或网络攻击。另外或替代地,处理器1002可以自动发起响应,而无需用户干预。这种响应的一个示例是将流量从即将发生故障的路径转移到另一条路径。
在另一实施方式中,用户和/或处理器102可以附加地或替代地向第三方资源1033发送警报。
管理***说明
图2A和图2B是根据本发明的示例性实施方式的图1的***100的功能的示意图,图2B呈现了运行这些功能的统一结构管理器(UFM)版本。(
Figure BDA0003508941680000091
是Nvidia和Mellanox的注册商标。)图2A示出了数据中心102,其具有与管理***100双向通信的组件1022,管理***100运行属于分析类别的工具、AI和用于监控数据中心的附加工具102。管理***100提供监控输出,例如上述异常检测、故障预测、网络威胁情报和结构可见性。
图2B示出了UFM工具的三个平台形式的管理***的商业实施方式:遥测平台、数据分析企业平台和运行上述ML/AI应用的网络人工智能平台。
Figure BDA0003508941680000101
平台通过将增强的实时网络遥测与人工智能驱动的网络智能和分析相结合以支持横向扩展的InfiniBand数据中心来提供数据中心网络管理。
这三个UFM平台使数据中心运营商能够有效地提供、监控、管理和预防性故障排除和维护数据中心结构,以实现更高的结构资源利用率,从而提供竞争优势,同时降低运营成本。
图3是示意性描述根据本发明的示例性实施方式的使用图1的管理***100来管理数据中心102的方法的流程图。该过程可以分为两个工具系列。一个系列使用包括分析和“提取、转换、加载”(ETL)的工具,包括从网络组件收集元数据和遥测(通过管理***100)。另一个系列是管理***100应用于元数据和遥测信息的AI/ML工具。
该过程的分析/ETL阶段开始于管理***100在元数据获取步骤302上收集网络数据和流量参数(例如,元数据)。该步骤以更新时间段重复。ETL过程会生成多种类型的聚合,例如,每个节点和端口的每周平均计算,以及几周内平均同一天的相应小时数的平均计算。
并行地,管理***100在遥测获取步骤304以预定间隔(例如,五分钟)收集遥测数据。
在分段步骤306和308,管理***100的处理器1002将可编程密钥(pkey)拓扑与允许监控pkey性能的网络遥测相结合。
接下来,在数据排列步骤310,处理器1002排列每个阶段的数据和每次的记录。在步骤312中,处理器1002计算发生在网络数据、流量参数和遥测数据中的变化(称为“增量”)。然后处理器在Pkey加入步骤314加入每个节点和端口的Pkey,以便可以跟踪数据。
在导出步骤316,处理器1002导出网络信息,包括网络聚合、链路每周聚合、每小时异常检测、网络每周聚合和NW异常检测。在呈现步骤318由处理器例如在管理***100的显示器1003上呈现在步骤316中导出的信息。
该过程的AI/ML阶段开始于管理***100执行初步增量数据准备,以在异常警报的情况下用于上述后续深入调查。这种增量数据准备可以包括确定每个端口的每个计数器的平均值、计算每小时平均、更新添加的电缆数据、记录定义的相关性、更新定义的关系字典以及评估(例如,比较)当前每小时数据与预期的上述数据的平均计算(即,估计)。
接下来,处理器1002根据相关数据类型分割(322)数据,ML算法的一个分支提供(326)每小时/每天的信息分析,而另一个分支提供(328)每月的模型、相关字典和平均值以及每个节点和端口的每个计数器的std。如上所述,这两个分支都包括ML从相关的性能测量子集生成复合度量。
每小时/每日分析得到异常分数(在图5和图6中得出)和故障模型(326)的准确性,包括在预测步骤(325)估计1-24小时内的故障几率或根据每个设备的学习平均值和std估计概率。在呈现步骤318,例如在管理***100的显示器1003上,处理器呈现(330)设备和设备未来故障的异常得分概率。故障的示例包括导致通信中断的网络组件关闭和流量过度拥塞。
具体地,在步骤326和328期间,管理***100的处理器1002设置要与元数据和遥测信息一起使用的多个性能测量。例如,取决于用户选择或AI/ML算法的结果,设置的性能测量可能在上述预先指定的间隔和更新时间之间不同。性能测量的示例是:
·数据流量率
·位或帧错误率
·拥堵率
·硬件故障
·硬件功耗
处理器使用性能测量来计算复合度量,并分析这些度量以指示上述概率,如下图5和图6所述。
异常检测和评分
在一些实施方式中,一旦检测到异常,用户可以选择特定异常事件并查看特定设备的实际与平均性能测量。
图4A至图4C是示出根据本发明的示例性实施方式的若干性能测量的实际值与预期值的图表。
性能测量图表用于特定时间范围,例如,过去1/6/12/24小时、上周或上个月的跟踪。图4A示出了光缆功耗,并且如所见,当历史平均功率(402)持平时,实际功耗404上升。这种功耗性能测量的趋势本身不足以指示将发生的问题。
图4B示出了对等交换机温度,并且如所见,预期温度(406)大大低于组件的实际温度(408)。同样,组件温度性能测量的这种趋势本身不足以指示将发生的问题。
最后,图4C示出了组件的归一化数据拥塞百分比。如所见,历史数据拥塞(例如,作为容量分数的流量率)410远低于(412)数据拥塞的实际百分比。再一次,作为孤立的度量,数据拥塞性能的这种趋势本身不足以指示将发生的问题。
为了检测异常行为,所公开的技术利用数据中心组件x的复合度量,其定义为
方程1
Composite_metric(x)=∑i=1:Nwi·(performace_measure(x))
其中,权重wi总和为1。性能测量的数量N的范围可以从几个到几十。使用复合度量意味着寻找不同性能测量之间的相关性。仅当复合度量示出高于阈值的偏差,才声明可能表示异常行为的异常,如下所述。持续异常的发生(例如,在给定的监控持续时间(例如,超过几个小时的监控)内重复发生的异常)可以为这种异常检测设置标准。
通常,所监控的元件x可以是数据中心的组件或另一个更抽象的实体,例如元件的组合或拓扑功能。复合度量仅作为示例提供,并且可以使用其他定义(例如,非线性定义)。
图5A和图5B是分别示出根据本发明的示例性实施方式的包括异常事件的监控信息和异常之一的评分过程的图表。图5A的图表呈现了从复合度量计算的特定数据集合的显着重复异常的示例。如所见,随着时间的推移,可以在时间上彼此相隔5分钟的超过100个样本(样本#1、样本#2…、样本#100)被累积以覆盖大约6小时的监控。在6小时期间,管理***的处理器至少发出了3次异常警报。
在图5A中,曲线504是基于方程1的估计复合度量,曲线506是基于方程1的实际复合度量。例如,曲线504可以基于估计的性能测量。为清楚起见,图表垂直移动。
图5A的示例纯粹是作为示例提出的。任何其他合适的概率分布可用于定义异常事件。
如所见,实际值可能偏离预测值并且可能指示异常。例如,使用复合度量的偏差之和(即,特征值的偏差之和,在本文中也称为“异常和”)的度量来定义这种偏差的阈值:
方程2
Figure BDA0003508941680000131
Figure BDA0003508941680000132
在方程2中术语feature_value与Composite_metric值含义相同。
对于具有标准偏差σ的正态分布使用方程2的情况,中值绝对误差(MAE)。在一个实施方式中,高于给定阈值的异常分数将因此被视为真正异常的不可能事件与良性的可能偏差(例如,定义在检测时触发警报的偏差)区分开来。
虽然方程2被定义为偏差和,和只是组合偏差的一个示例。在替代实施方式中,可以使用组合两个或更多个单独偏差的任何其他合适的函数,例如偏差绝对值的乘法。一般来说,处理器可以将多个各自的复合度量的多个偏差进行组合以产生组合偏差,并检测组合偏差中的异常。
此外,一旦检测到异常,可以执行深入过程,以使用标准偏差分布(std)比较通过其自身行为检查特定硬件的性能。
在一般(例如,异常和)异常检测与以任何其他方式(例如使用上述std比较)进行的每个设备的检测完成之间匹配的情况下,设备将被定义为示出异常行为。
在图5A中存在三个样本,其中方程2的异常分数超过阈值。
为了更深入地了解方程2的含义,图5B呈现了正态分布方程的元件。在图5B中,值518表示预期的复合度量值,而值520表示实际的复合度量。两者之间的差异与MAE值522进行比较,在所示示例中等于(2/3)σ。
图6是示出根据本发明的示例性实施方式的包括异常和602和实际特征异常事件604、606和608的监控信息的图表。在图6中,可以通过前3个实际特征错误604、606、608看到总异常分数602之间的相关性。
可以看出,总异常分数602根据实际的特征误差值检测到数据中的异常。
这里描述的***配置,例如***100的配置,仅作为示例来描述。在替代实施方式中,可以使用任何其他合适的配置。本文描述的***配置,例如***100的配置,可以以软件、使用硬件或使用硬件和软件元件的组合来实现。***100的一些功能,例如处理器1002的功能,可以在通用处理器中实现,该处理器以软件编程以执行本文所述的功能。例如,软件可以通过网络或从主机以电子形式下载到处理器,或者它可以替代地或附加地被提供和/或存储在非暂时性有形介质上,例如磁性、光学、或电子存储器。
尽管这里描述的实施方式主要针对数据中心,但是这里描述的方法和***也可以用于与其他应用相关的监控。
因此应当理解,上述实施方式是作为示例引用的,并且本发明不限于上文已经具体示出和描述的内容。相反,本发明的范围包括上文描述的各种特征的组合和子组合,以及本领域技术人员在阅读上述描述后会想到的并且在现有技术中未公开的变化和修改。通过引用并入本专利申请的文件应被视为本申请的组成部分,除非在这些并入的文件中以与本说明书中明确或隐含的定义相冲突的方式定义的任何术语,仅应考虑本说明书中的定义。

Claims (26)

1.一种用于数据中心管理的方法,所述方法包括:
在包括多个组件的数据中心中,监控所述组件的多个性能测量;
自动定义复合度量集合,每个复合度量包括所述性能测量中的两个或更多个性能测量的相应加权组合;
为所述复合度量建立基线值;以及
检测一个或多个所述复合度量与所述相应基线值的异常偏差。
2.根据权利要求1所述的方法,其中检测所述异常偏差包括组合多个相应复合度量的多个偏差以产生组合偏差,以及检测所述组合偏差中的所述异常。
3.根据权利要求1所述的方法,其中自动定义所述复合度量集合包括运行机器学习(ML)过程,所述过程自动执行以下中的一项或多项:
选择要组合的性能测量组,以形成所述复合度量;以及
为所述复合度量中的所述性能测量分配权重。
4.根据权利要求1所述的方法,其中检测所述异常偏差包括运行重复的自动过程,所述过程:
监控所述性能测量;
响应于所监控的性能测量更新所述复合度量的定义;以及
将所更新的复合度量与所述相应的基线值进行比较。
5.根据权利要求4所述的方法,还包括在所述重复的自动过程的至少一些重复期间更新基线方程。
6.一种用于数据中心管理的方法,所述方法包括:
在包括多个组件的数据中心中,监控所述组件的多个性能测量;
自动定义复合度量集合,每个复合度量包括所述性能测量中的两个或更多个性能测量的相应加权组合;以及
基于所述复合度量得出一个或多个所述组件的潜在异常模式。
7.根据权利要求6所述的方法,其中自动定义所述复合度量集合包括运行机器学习(ML)过程,所述过程自动执行以下中的一项或多项:
选择要组合的性能测量组,以形成所述复合度量;以及
为所述复合度量中的所述性能测量分配权重。
8.根据权利要求6所述的方法,其中导出所述潜在故障模式包括估计所述组件的未来异常时间。
9.根据权利要求8所述的方法,包括基于新收集的复合度量重复更新所估计的未来异常时间。
10.一种用于数据中心管理的方法,所述方法包括:
在包括多个硬件组件的数据中心中运行多个软件应用;
自动导出映射,所述映射(i)为每个软件应用指定由所述软件应用使用的一个或多个所述硬件组件的相应子集,并且(ii)为每个硬件组件指定使用所述硬件组件的一个或多个所述软件应用的相应子集;以及
监控所述软件应用和所述硬件组件的性能,并且基于所监控的性能和所述映射来识别异常事件。
11.根据权利要求10所述的方法,其中识别所述异常事件包括检测一个或多个所述硬件组件的异常性能,并且使用所述映射识别与所述异常性能相关联的一个或多个所述软件应用。
12.根据权利要求10所述的方法,其中识别所述异常事件包括检测一个或多个所述软件应用的异常性能,以及使用所述映射识别与所述异常性能相关联的一个或多个所述硬件组件。
13.根据权利要求10所述的方法,其中自动导出所述映射包括:
为所述软件应用和所述硬件组件建立基线性能模式;以及
响应于检测到与所述基线性能模式的异常偏差更新所述映射。
14.一种用于数据中心管理的***,所述***包括:
接口,所述接口被配置为监控数据中心中的多个组件的多个性能测量;和
处理器,所述处理器被配置为:
自动定义复合度量集合,每个复合度量包括所述性能测量中的两个或更多个性能测量的相应加权组合;
为所述复合度量建立基线值;以及
检测一个或多个所述复合度量与所述相应基线值的异常偏差。
15.根据权利要求14所述的***,其中所述处理器被配置为通过组合多个相应复合度量的多个偏差以产生组合偏差,并检测所述组合偏差中的所述异常来检测所述异常偏差。
16.根据权利要求14所述的***,其中所述处理器被配置为通过运行机器学习(ML)过程自动定义所述复合度量集合,所述过程自动执行以下中的一项或多项:
选择要组合的性能测量组,以形成所述复合度量;以及
为所述复合度量中的所述性能测量分配权重。
17.根据权利要求14所述的***,其中所述处理器被配置为通过运行重复的自动过程来检测所述异常偏差,所述过程:
监控所述性能测量;
响应于所监控的性能测量更新所述复合度量的定义;以及
将所更新的复合度量与所述相应的基线值进行比较。
18.根据权利要求17所述的***,其中所述处理器还被配置为在所述重复的自动过程的至少一些重复期间更新所述基线值。
19.一种用于数据中心管理的***,所述***包括:
接口,所述接口被配置为监控数据中心中的多个组件的多个性能测量;和
处理器,所述处理器被配置为:
自动定义复合度量集合,每个复合度量包括所述性能测量中的两个或更多个性能测量的相应加权组合;以及
基于所述复合度量导出一个或多个所述组件的潜在异常模式。
20.根据权利要求19所述的***,其中所述处理器被配置为通过运行机器学习(ML)过程自动定义所述复合度量集合,所述过程自动执行以下中的一项或多项:
选择要组合的性能测量组,以形成所述复合度量;以及
为所述复合度量中的所述性能测量分配权重。
21.根据权利要求19所述的***,其中所述处理器被配置为通过估计所述组件的未来异常时间来导出所述潜在异常模式。
22.根据权利要求21所述的***,其中所述处理器还被配置为基于新收集的复合度量重复更新所估计的未来异常时间。
23.一种用于数据中心管理的***,所述***包括:
接口,所述接口被配置为与包括多个硬件组件并运行多个软件应用的数据中心通信;和
处理器,所述处理器被配置为:
自动导出映射,所述映射(i)为每个软件应用指定由所述软件应用使用的一个或多个所述硬件组件的相应子集,和(ii)为每个硬件组件指定使用所述硬件组件的一个或多个所述软件应用的相应子集;以及
监控所述软件应用和所述硬件组件的性能,并且基于所监控的性能和所述映射来识别异常事件。
24.根据权利要求23所述的***,其中所述处理器被配置为通过检测一个或多个所述硬件组件的异常性能来识别所述异常事件,并且使用所述映射来识别与所述异常性能相关联的一个或多个所述软件应用。
25.根据权利要求23所述的***,其中所述处理器被配置为识别所述异常事件包括检测一个或多个所述软件应用的异常性能,并且使用所述映射识别与所述异常性能相关联的一个或多个所述硬件组件。
26.根据权利要求23所述的***,其中所述处理器被配置为通过以下自动导出所述映射:
为所述软件应用和所述硬件组件建立基线性能模式;以及
响应于检测到与所述基线性能模式的异常偏差更新所述映射。
CN202210145920.7A 2021-02-23 2022-02-17 使用机器学习进行数据中心管理 Pending CN114978568A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/182,266 US11966319B2 (en) 2021-02-23 2021-02-23 Identifying anomalies in a data center using composite metrics and/or machine learning
US17/182,266 2021-02-23

Publications (1)

Publication Number Publication Date
CN114978568A true CN114978568A (zh) 2022-08-30

Family

ID=82702437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210145920.7A Pending CN114978568A (zh) 2021-02-23 2022-02-17 使用机器学习进行数据中心管理

Country Status (3)

Country Link
US (1) US11966319B2 (zh)
CN (1) CN114978568A (zh)
DE (1) DE102022201746A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11321213B2 (en) 2020-01-16 2022-05-03 Vmware, Inc. Correlation key used to correlate flow and con text data
US11991187B2 (en) 2021-01-22 2024-05-21 VMware LLC Security threat detection based on network flow analysis
US11895133B2 (en) * 2021-04-05 2024-02-06 Bank Of America Corporation Systems and methods for automated device activity analysis
US20220400127A1 (en) * 2021-06-09 2022-12-15 Microsoft Technology Licensing, Llc Anomalous user activity timing determinations
US20220417096A1 (en) * 2021-06-23 2022-12-29 Vmware, Inc. Automatic identification of policy misconfiguration
US11831667B2 (en) 2021-07-09 2023-11-28 Vmware, Inc. Identification of time-ordered sets of connections to identify threats to a datacenter
US11893125B2 (en) * 2021-10-14 2024-02-06 Cohesity, Inc. Providing a graphical representation of anomalous events
US11792151B2 (en) 2021-10-21 2023-10-17 Vmware, Inc. Detection of threats based on responses to name resolution requests
US12015591B2 (en) 2021-12-06 2024-06-18 VMware LLC Reuse of groups in security policy

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105247532A (zh) * 2013-03-18 2016-01-13 纽约市哥伦比亚大学理事会 使用硬件特征的无监督的基于异常的恶意软件检测
US20160147583A1 (en) * 2014-11-24 2016-05-26 Anodot Ltd. System and Method for Transforming Observed Metrics into Detected and Scored Anomalies
CN108353034A (zh) * 2016-01-11 2018-07-31 环球互连及数据中心公司 用于数据中心基础设施监测的架构
US20190020680A1 (en) * 2017-07-17 2019-01-17 AO Kaspersky Lab System and method of determining ddos attacks
US20190104136A1 (en) * 2012-09-28 2019-04-04 Level 3 Communications, Llc Apparatus, system and method for identifying and mitigating malicious network threats
CN110730156A (zh) * 2018-07-17 2020-01-24 国际商业机器公司 用于异常检测的分布式机器学习
US20200162342A1 (en) * 2018-11-21 2020-05-21 International Business Machines Corporation Cognitive data center management
US20200409780A1 (en) * 2019-06-27 2020-12-31 Capital One Services, Llc Baseline modeling for application dependency discovery, reporting, and management tool

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043658B1 (en) * 2012-05-31 2015-05-26 Amazon Technologies, Inc. Automatic testing and remediation based on confidence indicators
US9183033B2 (en) * 2012-12-06 2015-11-10 Industrial Technology Research Institute Method and system for analyzing root causes of relating performance issues among virtual machines to physical machines
CN105812170B (zh) * 2014-12-31 2019-01-18 华为技术有限公司 基于数据中心的故障分析方法和装置
US10423647B2 (en) * 2016-12-21 2019-09-24 Ca, Inc. Descriptive datacenter state comparison
US10884805B2 (en) * 2018-02-15 2021-01-05 Amazon Technologies, Inc. Dynamically configurable operation information collection
US11281552B2 (en) * 2018-05-02 2022-03-22 Visa International Service Association Self-learning alerting and anomaly detection
US10977154B2 (en) * 2018-08-03 2021-04-13 Dynatrace Llc Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
US11061796B2 (en) * 2019-02-19 2021-07-13 Vmware, Inc. Processes and systems that detect object abnormalities in a distributed computing system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190104136A1 (en) * 2012-09-28 2019-04-04 Level 3 Communications, Llc Apparatus, system and method for identifying and mitigating malicious network threats
CN105247532A (zh) * 2013-03-18 2016-01-13 纽约市哥伦比亚大学理事会 使用硬件特征的无监督的基于异常的恶意软件检测
US20160147583A1 (en) * 2014-11-24 2016-05-26 Anodot Ltd. System and Method for Transforming Observed Metrics into Detected and Scored Anomalies
CN108353034A (zh) * 2016-01-11 2018-07-31 环球互连及数据中心公司 用于数据中心基础设施监测的架构
US20190020680A1 (en) * 2017-07-17 2019-01-17 AO Kaspersky Lab System and method of determining ddos attacks
CN110730156A (zh) * 2018-07-17 2020-01-24 国际商业机器公司 用于异常检测的分布式机器学习
US20200162342A1 (en) * 2018-11-21 2020-05-21 International Business Machines Corporation Cognitive data center management
US20200409780A1 (en) * 2019-06-27 2020-12-31 Capital One Services, Llc Baseline modeling for application dependency discovery, reporting, and management tool

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
左昌盛;宋歌;: "基于机器学习的动态基线及其在银行网络流量数据监测中的应用", 金融经济, no. 20, pages 94 - 96 *

Also Published As

Publication number Publication date
DE102022201746A1 (de) 2022-08-25
US11966319B2 (en) 2024-04-23
US20220269577A1 (en) 2022-08-25

Similar Documents

Publication Publication Date Title
CN114978568A (zh) 使用机器学习进行数据中心管理
CN108494810B (zh) 面向攻击的网络安全态势预测方法、装置及***
TWI595375B (zh) 使用適應性行爲輪廓之異常檢測技術
EP2487860B1 (en) Method and system for improving security threats detection in communication networks
US8457928B2 (en) Automatic determination of dynamic threshold for accurate detection of abnormalities
AU2019201687B2 (en) Network device vulnerability prediction
CN108429651A (zh) 流量数据检测方法、装置、电子设备及计算机可读介质
US10205734B2 (en) Network sampling based path decomposition and anomaly detection
CN107579986B (zh) 一种复杂网络中网络安全检测的方法
CN108809745A (zh) 一种用户异常行为检测方法、装置及***
US9369364B2 (en) System for analysing network traffic and a method thereof
US9961047B2 (en) Network security management
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
KR101281456B1 (ko) 자기 유사성을 이용한 scada 네트워크의 이상증후를 탐지하는 장치 및 방법
Dalmazo et al. Expedite feature extraction for enhanced cloud anomaly detection
CN113032774B (zh) 异常检测模型的训练方法、装置、设备及计算机存储介质
CN114039837A (zh) 告警数据处理方法、装置、***、设备和存储介质
EP4332804A2 (en) System for automatically evaluating the quality of network traffic signatures
Zhao et al. A hybrid approach for smart alert generation
RU2781822C1 (ru) Система и способ автоматической оценки качества сигнатур сетевого трафика
CN117544420B (zh) 一种基于数据分析的融合***安全管理方法及***
KR20240084170A (ko) 장비 간 상관분석 기반의 자동 토폴로지 구성을 통한 오류 영향도 분석 장치
CN117938712A (zh) 一种基于大数据的网络监控方法及***
Lee et al. Proactive fault detection schema for enterprise information system using statistical process control
CN116684147A (zh) 基于溯源图、POI与Dijkstra算法的攻击调查方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination