CN115454778A

CN115454778A - 大规模云网络环境下的时序指标异常智能监控***

Info

Publication number: CN115454778A
Application number: CN202211188672.0A
Authority: CN
Inventors: 戚依宁; 杨帅; 韩泽鋆; 方崇荣; 吕彪; 祝顺民; 蒋江伟; 程鹏; 陈积明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2022-12-09
Anticipated expiration: 2042-09-27
Also published as: CN115454778B

Abstract

本发明公开了一种大规模云网络环境下的时序指标异常智能监控***，包括数据预处理模块、智能基线及预测值获取模块、异常告警模块等。数据预处理模块从云网络各网元节点采集时序指标数据；智能基线及预测值获取模块采用基于机器学习的方法获取时序指标数据的基线，根据基线获取每个时序指标数据的预测值，预测值在经过缩放后存入数据库；异常告警模块将实时流量时序指标数据与时序指标数据预测值进行比较，当预测值与实时值连续多次差距超过设定阈值时，触发告警。相比现有技术，本发明解决了云网络时序指标模型种类较多，难以用固定阈值监控的问题，保证以较低误报率和漏报率检测云网络时序指标异常。

Description

大规模云网络环境下的时序指标异常智能监控***

技术领域

本发明涉及云网络监测领域，尤其涉及一种大规模云网络环境下的时序指标异常智能监控系。

背景技术

1961年，图灵奖得主麦卡锡在演讲中提出，未来人们使用计算资源的方式将如同水、电一样便捷。六十年后的今天，依托于虚拟化、SDN等技术的云计算网络已逐渐实现了这一梦想，允许人们按需、共享地使用计算资源。目前，云计算网络已成为新一代的重要基础设施，越来越多的公司、个人选择将程序、数据、服务托管在云平台上。云计算网络的规模正在迅速增大，其提供的便捷、高效的计算资源，成为人们实现自己数字化业务的新兴载体。

云计算提供商们为自己种类繁多的业务收取费用，但是很少有提供商对云计算的可用性和性能做出保证。亚马逊、阿里云等云计算服务商，其云网络服务器遍布全球，底层架构非常复杂，尽管经过长期努力，故障概率达到了较低水平，但是由于用户数量众多，因此任何一个微小的异常，都有可能对整个云计算***造成灾难性后果。例如，2013年8月Amazon.com由于意外故障停机，持续时间45分钟，导致经济损失高达500万美元。如果这些故障能在刚发生的时候就被检测到，并且被准确定位，及时修复，不论是云计算提供商还是租户都将避免大量经济损失，云网络的性能也可以得到保证。因此，及时检测到云网络的异常，并响应异常，采取措施，对于云网络稳定性的维护至关重要。

但对于亚马逊、阿里云等大规模云网络而言，其网络规模巨大，结构复杂，异常检测需监控指标数据庞杂，检测难度巨大。具体而言，在此类大规模云网络下检测异常具有以下难点：

1.海量时序指标数据监控困难。云网络中包括虚拟机、虚拟交换机、负载均衡器、虚拟网关等不同组件，每个组件又涉及不同类型不同层级的监控指标，如指标聚合的时间维度和空间维度，每一项监控指标下有众多需要监控的时序指标数据，包括流量、丢包、时延、连接等。若为每条时序指标数据定制化地配备异常检测策略，需要巨大的人力成本。

2.时序指标数据模式多样。由于业务特征，云网络中时序数据往往存在各种特征，包括周期性、平稳性等。挖掘海量时序指标数据的特征，并根据其特征选择适合的异常检测方法难度大。

3.时序指标数据模式多变。不同时序指标数据的特征往往是不同的，而且随着承载具体业务的变化，云网络各时序指标数据特征往往也会发生变化，传统的基于固定阈值的异常检测方法常常会失效。

综上所述，在大规模云网络中，为海量网络时序指标数据设计合适的异常检测模式，实时监控网络异常难度大。

发明内容

本发明的目的是针对现有技术的不足，设计一套可部署在大规模云网络环境下的基于智能基线预测的针对海量时序指标数据的异常智能监控***。

本发明的目的是通过以下技术方案实现的：

本发明提供一种大规模云网络环境下的时序指标异常智能监控***，该***包括以下模块：

数据预处理模块：从云网络各网元节点采集时序指标数据，对时序指标数据进行清洗、聚合处理；

智能基线及预测值获取模块：获取经过数据预处理模块处理后的网络时序指标数据，采用基于机器学习的方法获取时序指标数据的基线，根据基线获取每个时序指标数据的预测值，预测值在经过缩放后存入数据库；

异常告警模块：将实时流量时序指标数据与时序指标数据预测值进行比较，当预测值与实时值连续多次差距超过设定阈值时，触发告警。

进一步地，该***还包括时序指标筛选模块，将数据预处理模块处理后的网络时序指标数据，通过周期性检验和平稳性检验分为以下四种筛选类型：周期性平稳指标、周期性非平稳指标、非周期性平稳指标、非周期性非平稳指标；统计分类为周期性平稳的网络时序指标数据，输入智能基线及预测值获取模块。

由于网络中存在大量的监控指标随机波动性强，特征不明显，并不适合用于异常监控，可能会导致大量误报，因此本发明将时序指标分为四种筛选类型，剔除难以进行异常监控的指标，保留周期性平稳指标，周期性平稳指标特征明确，波动规律性强，容易分析基线。

进一步地，所述时序指标筛选模块中，所述周期性检验可以选择包括但不限于由robustperiod方法实现，核心思路为用小波分解提出时序指标中的周期分量，该方案较不容易受到噪音的影响。为了降低小波分解复杂度，可以对时序数据进行降采样处理。

若时序指标被认为是非周期性序列，则平稳性检验方案使用多层降采样ADF算法，对非周期性序列进行不同程度的降采样之后，再通过ADF方法判断平稳性。只有不同程序的降采样序列均被判定为平稳后，才认定该非周期性序列为平稳的。本方案规避了ADF方法检测高频采样的长周期序列平稳性精度较低的问题。

若时序指标被认为是周期性序列，则平稳性检验方案使用分片子序列相关方法判断，即依据周期对时序指标进行分片，在降采样去除毛刺之后，对每个周期内的数据段进行互相关性判断，若相关性矩阵中所有值均高于阈值则判定为周期性平稳指标。

进一步地，根据时序指标特征，将时序指标分为两类，一类被称为正向指标，即网络正常运行情况下，该类时序指标数据应大于0，异常情况下，会出现时序指标数据下降的情况，例如流量bps指标、数据包pps指标等；一类被称为反向指标，即网络正常运行情况下，该类时序指标数据应为0，或者处于较低水平(例如恒定维持在一个较小值)，异常情况下，会出现时序指标数据陡增的情况，例如丢包pps指标、时延ms指标、计算机内存使用率指标、CPU使用率指标等。

进一步地，所述智能基线及预测值获取模块中，以下为一种获取方法：

S1：去除网络时序指标数据中存在的大量突刺与抖动。为保证监控鲁棒性，需要去除原始数据中的突刺和抖动，即去除原始数据中的离群点。去除突刺和抖动的具体方法为对原始数据计算一阶差分后，选取固定滑窗，使用turkey箱线图分析其中离群点，并做平滑处理。

具体地，对原始数据计算一阶差分，即为计算相邻点之间的差值，作为一阶差分结果。turkey箱线图法分析离群点即为找出小于Q1-1.5IQR与大于Q3+1.5IQR的值。

S2：提取网络时序指标数据的上下包络基线。由于网络时序指标数据通常存在较大抖动，为了进一步避免抖动干扰，本发明通过设置滑窗，选取每个滑窗中的最大值点与最小值点，作为上下包络基线的基础数据，并通过一次样条插值拟合缺失点，获得上下包络基线。

S3：对S1处理后得到的数据基线与S2中得到的上下包络基线进行分解，使用季节分解算法得到趋势分量、季节分量与残差分量。

具体地，季节分解算法可以选择基于局部多项式回归拟合的季节分解算法、基于移动平均的季节分解算法等。

S4：对S3中得到的趋势分量使用预测算法获取趋势预测数据，并叠加季节分量，获取S1处理后得到的数据基线与S2中得到的上下包络基线的预测值。

具体地，预测算法可以选择基于深度学***滑预测算法SES等。

S5：将S4中得到的预测值经过缩放后存入数据库。

进一步地，所述智能基线及预测值获取模块中，以下为另一种获取方法：

S1：获取时序指标基线。使用滑动窗口对时序指标数据进行平滑处理，不同类型的指标的平滑护理模式不同。具体地，若目标时序指标为正向指标，则取滑动窗口内数据的最小值，作为当前时间的基线值；若目标时序指标为反向指标，则取滑动窗口内数据的平均值，作为当前时间的基线值。

S2：根据时序指标基线获取预测值。以天为单位获得预测值。取过去一周(7天)的时序指标基线，基于过去一周(7天)的时序指标基线同时刻数据点获取当天该时刻数据点的预测值，不同类型的指标的预测模式不同。具体地，若目标时序指标为正向指标，取过去一周(7天)内同时刻的数据共7条，去掉最小值后，取剩余数据里的最小值作为该时刻的预测值；若目标时序指标为反向指标，取过去一周(7天)内同时刻的数据共7天，去掉最小值和最大值后，取剩余数据的均值作为该时刻的预测值。

S3：将S2中得到的预测值经过缩放后存入数据库。

进一步地，所述智能基线及预测值获取模块中，还可以采用多种基于机器学习的方法获取时序指标数据的基线，根据正向/反向指标类型确定基线合并规则，根据合并后的基线得到每个时序指标数据的最终预测值；具体为：

对于正向时序指标数据，选取多种基线获取方法的预测值之间的最小值；对于反向时序指标数据，选取多种基线获取方法的预测值之间的最大值。

进一步地，所述智能基线及预测值获取模块中，缩放比例由真实数据与预测数据之间的关系决定。对正向指标而言，即选取合适的缩放比例α，保证时序指标数据中实时值＜预测值*α的数据点占总数据点的比例不超过缩放比例阈值。对反向指标而言，即选取合适的缩放比例α，保证时序指标数据中实时值＞预测值*α的数据点占总数据点的比例不超过缩放比例阈值。缩放比例阈值可设定为0.1％。

进一步地，所述异常告警模块中，告警触发方法与指标类型有关。若目标时序指标为正向指标，则当实时时序指标数据下跌，并连续n次低于预测值设定阈值时触发告警；若目标时序指标为反向指标，则当实时时序指标数据上涨，并连续n次大于预测值设定阈值时触发告警，n为自定义值。

本发明与现有技术相比，具有如下的优点：

第一，通过基于机器学习的流量预测，针对时序指标计算智能基线进行自适应的阈值监控，解决大规模云网络场景下不同时序指标数据模型不同导致的无法基于固定阈值监控的问题，节省了大量人力成本；

第二，通过基于机器学习及特征识别的流量异常检测，学习网络时序指标的特征，大幅降低时序指标数据噪声，去除网络中大量突刺与抖动，大幅降低异常误报率；

第三，针对流量的不同特征，使用多种异常检测手段，可以有针对性地检测网络时序指标陡增、突降、频率变化等异常行为，提升异常检测的准确性。

附图说明

图1是本发明实施例提供的大规模云网络环境下的时序指标异常智能监控***结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明实施例提供的一种大规模云网络环境下的时序指标异常智能监控***，包括以下模块：

数据预处理模块：从云网络各网元节点采集时序指标数据，存入日志中心。存储于日志中心的时序指标数据将被导入到流数据处理平台Apache Flink，进行数据清洗、聚合处理。具体处理步骤为使用SQL语言聚合对应维表增加原始数据被省略的信息，如地域、集群等，去除脏数据，并按照一定的时间粒度聚合(如1min，30s等)最后输出结构化且符合智能基线及预测值获取模块要求的数据。清洗后的数据会被存入结构化数据库，一方面供给智能基线及预测值获取模块使用，另外同时作为数据仓库，长期储存数据，供发生异常时的溯源与其他相关研究。

智能基线及预测值获取模块：获取经过数据预处理模块处理后的网络时序指标数据，采用基于机器学习的方法获取时序指标数据的基线，根据基线获取每个时序指标数据的预测值，预测值在经过缩放后存入Mysql数据库。

异常告警模块：将实时流量时序指标数据采集进Flink等大数据处理平台，与时序指标数据预测值进行比较，当预测值与实时值连续多次差距超过设定阈值时，触发告警。

由于网络中存在大量的监控指标随机波动性强，特征不明显，并不适合用于异常监控，可能会导致大量误报，因此该***进一步设置时序指标筛选模块，将数据预处理模块处理后的网络时序指标数据，通过周期性检验和平稳性检验分为以下四种筛选类型：周期性平稳指标、周期性非平稳指标、非周期性平稳指标、非周期性非平稳指标。统计分类为周期性平稳的网络时序指标数据，输入智能基线及预测值获取模块。周期性平稳指标特征明确，波动规律性强，容易分析基线。

周期性检验可以选择包括但不限于由robustperiod方法实现，核心思路为用小波分解提出时序指标中的周期分量，该方案较不容易受到噪音的影响。为了降低小波分解复杂度，可以对时序数据进行降采样处理。

本实施例根据时序指标特征将时序指标分为两类，一类被称为正向指标，即网络正常运行情况下，该类时序指标数据应大于0，异常情况下，会出现时序指标数据下降的情况，例如流量bps指标、数据包pps指标等；一类被称为反向指标，即网络正常运行情况下，该类时序指标数据应为0，或者处于较低水平(例如恒定维持在一个较小值)，异常情况下，会出现时序指标数据陡增的情况，例如丢包pps指标、时延ms指标、计算机内存使用率指标、CPU使用率指标等。

在智能基线及预测值获取模块中，还可以采用多种基于机器学习的方法获取时序指标数据的基线，根据正向/反向指标类型确定基线合并规则，根据合并后的基线得到每个时序指标数据的最终预测值；具体为：

对于正向时序指标数据，选取多种基线获取方法的预测值之间的最小值；对于反向时序指标数据，选取多种基线获取方法的预测值之间的最大值。其中基线获取方法可以使用任何能够对时序数据进行预测的算法，本申请实施例中选取的基线获取方法共包括两种，是本发明根据云网络时序指标特征单独设计的方法，在下文详细介绍，但并不限于这两种方法。

由于时序指标数据预测值相比真实网络时序指标数据存在一定差距，为了能够尽可能的降低数据抖动导致的误告警，因此需要对预测出来的数据进行一定比例的放大或缩小。具体缩放比例由真实数据与预测数据之间的关系决定。为了降低误报率，本发明保证仅有一定比例的真实数据会被判断为异常数据，即保证一定比例的真实数据和经过缩放后的预测值比较之后，被认为超出边界。对正向指标而言，即选取合适的缩放比例α，保证时序指标数据中实时值＜预测值*α的数据点占总数据点的比例不超过缩放比例阈值。对反向指标而言，即选取合适的缩放比例α，保证时序指标数据中实时值＞预测值*α的数据点占总数据点的比例不超过缩放比例阈值。缩放比例阈值可设定为0.1％。经过缩放后的预测值为原预测值*α，将其存入Mysql数据库。

进一步地，在异常告警模块中，将实时流量时序指标数据采集进Flink等大数据处理平台，与时序指标数据预测值进行比较。具体对比方法为通过Flink等大数据处理平台，以预测值的Mysql数据库作为维表，时序指标数据作为数据源，通过时间字段、维度字段等进行join操作，将预测值与时序指标数据合并成一条时间序列供对比使用。当预测值与实时值连续多次差距超过设定阈值时，触发告警。具体的告警触发方法与指标类型有关，若目标时序指标为正向指标，则当实时时序指标数据下跌，并连续n次低于预测值设定阈值时触发告警；若目标时序指标为反向指标，则当实时时序指标数据上涨，并连续n次大于预测值设定阈值时触发告警，n为自定义值。

告警数据会供给云网络中的变更***与监控***使用。

变更***需要监控云网络中的变更，分析变更是否可能导致网络故障。通过将告警事件与变更对象进行关联，在对某台设备、某个集群进行变更前后，重点关注相关联的设备、集群、实例是否有关联的告警事件，并结合过去一段时间的告警数量，判断告警是否可信，之后根据得到的分析结果，给出变更正常或者变更可能会有问题的判断，可以用于辅助变更决策。

监控***用于监控云网络是否产生故障，由于云网络的设备、集群、实例的规模非常庞大，高达百万级，因此即使时序指标异常智能监控***检测精度达100％，所有异常均被发现。其中，大量的异常可能仅是轻微网络抖动和毛刺，对云网络性能的影响较小，无需针对性处理。这导致大量告警是无效告警，可被忽略。因此，需结合用户反馈，网络设备日志等信息，进一步评估告警风险程度，从更精细的维度分析当前告警会对云网络性能产生影响，筛选出真正危险的告警供工程师参考。

在一个实施例中，提供一种基线及预测值获取方法，包括以下步骤：

S1：去除网络时序指标数据中存在的大量突刺与抖动。为保证监控鲁棒性，需要去除原始数据中的突刺和抖动，即去除原始数据中的离群点。去除突刺和抖动的具体方法为对原始数据计算一阶差分后，即计算相邻点之间的差值。选取固定滑窗，使用turkey箱线图分析原始数据进行一阶差分后的离群点，并做平滑处理。turkey箱线图为由五个数值点组成的最小观测值(min)，下四分位数(Q1)，中位数(median)，上四分位数(Q3)，最大观测值(max)。由下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”，上四分位数到最大值之间建立一条延伸线。为了避免离群点的干扰，最小观测值(min)取Q1-1.5IQR，最大观测值(max)取Q3+1.5IQR。其中IQR＝Q3-Q1，因此本发明选取小于Q1-1.5IQR或大于Q3+1.5IQR的值为离群点。

S3：对S1处理后得到的数据基线与S2中得到的上下包络基线进行分解，使用季节分解算法得到趋势分量、季节分量与残差分量。季节分解算法可以选择基于局部多项式回归拟合的季节分解算法、基于移动平均的季节分解算法等，为了降低时间复杂度，本实施例选取基于移动平均的季节分解算法。

S4：对S3中得到3条线的趋势分量使用SES预测算法，获取趋势预测数据，并叠加季节分量，获取S1处理后得到的数据基线与S2中得到的上下包络基线的预测值。预测算法也可以选择基于深度学习的LSTM算法、基于统计学习的ARIMA。本申请实施例中选取SES预测算法的原因是该方案计算复杂度较低。使用SES算法在T时刻对T+1时刻的预测值

为：

其中y_T，y_T-1，y_T-2为时序指标y在各时刻的数据点，α为指数平滑参数。

S5：将S4中得到的预测值经过缩放后存入数据库。

在另一个实施例中，提供一种基线及预测值获取方法，包括以下步骤：

S3：将S2中得到的预测值经过缩放后存入数据库。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种大规模云网络环境下的时序指标异常智能监控***，其特征在于，包括以下模块：

2.根据权利要求1所述的***，其特征在于，该***还包括时序指标筛选模块，将数据预处理模块处理后的网络时序指标数据，通过周期性检验和平稳性检验分为以下四种筛选类型：周期性平稳指标、周期性非平稳指标、非周期性平稳指标、非周期性非平稳指标；统计分类为周期性平稳的网络时序指标数据，输入智能基线及预测值获取模块。

3.根据权利要求2所述的***，其特征在于，所述时序指标筛选模块中，所述周期性检验具体为，用频域周期算法robustperiod提出时序指标中的周期分量；

若时序指标被认为是非周期性序列，则平稳性检验使用多层降采样ADF算法，对非周期性序列进行不同程度的降采样之后，再通过ADF方法判断平稳性；只有不同程序的降采样序列均被判定为平稳后，才认定该非周期性序列为平稳的；

若时序指标被认为是周期性序列，则平稳性检验使用分片子序列相关方法判断，即依据周期对时序指标进行分片，在降采样去除毛刺之后，对每个周期内的数据段进行互相关性判断，若相关性矩阵中所有值均高于阈值则判定为周期性平稳指标。

4.根据权利要求1-3中任一项所述的***，其特征在于，根据时序指标特征将时序指标分为两类，一类被称为正向指标，即网络正常运行情况下，该类时序指标数据应大于0，异常情况下，会出现时序指标数据下降的情况；一类被称为反向指标，即网络正常运行情况下，该类时序指标数据应为0或者处于较低水平，异常情况下，会出现时序指标数据陡增的情况。

5.根据权利要求4所述的***，其特征在于，所述智能基线及预测值获取模块中，获取方法包括以下步骤：

S1：去除网络时序指标数据中存在的大量突刺与抖动，具体为：对原始数据计算一阶差分后，选取固定滑窗，使用turkey箱线图分析其中离群点，并做平滑处理；

S2：提取网络时序指标数据的上下包络基线，具体为：设置滑窗，选取每个滑窗中的最大值点与最小值点，作为上下包络基线的基础数据，并通过一次样条插值拟合缺失点，获得上下包络基线；

S3：对S1处理后得到的数据基线与S2中得到的上下包络基线进行分解，使用季节分解算法得到趋势分量、季节分量与残差分量；

S4：对S3中得到的趋势分量使用预测算法获取趋势预测数据，并叠加季节分量，获取S1处理后得到的数据基线与S2中得到的上下包络基线的预测值；

S5：将S4中得到的预测值经过缩放后存入数据库。

6.根据权利要求4所述的***，其特征在于，所述智能基线及预测值获取模块中，获取方法包括以下步骤：

S1：获取时序指标基线，使用滑动窗口对时序指标数据进行平滑处理；

S2：根据时序指标基线获取预测值，具体为：以天为单位获得预测值，取过去一周的时序指标基线，基于过去一周的时序指标基线同时刻数据点获取当天该时刻数据点的预测值；

S3：将S2中得到的预测值经过缩放后存入数据库。

7.根据权利要求6所述的***，其特征在于，所述智能基线及预测值获取模块中，在平滑处理时，若目标时序指标为正向指标，则取滑动窗口内数据的最小值，作为当前时间的基线值；若目标时序指标为反向指标，则取滑动窗口内数据的平均值，作为当前时间的基线值；

在预测时，若目标时序指标为正向指标，取过去一周内同时刻的数据共7条，去掉最小值后，取剩余数据里的最小值作为该时刻的预测值；若目标时序指标为反向指标，取过去一周内同时刻的数据共7天，去掉最小值和最大值后，取剩余数据的均值作为该时刻的预测值。

8.根据权利要求1所述的***，其特征在于，所述智能基线及预测值获取模块中，采用多种基于机器学习的方法获取时序指标数据的基线，根据正向/反向指标类型确定基线合并规则，根据合并后的基线得到每个时序指标数据的最终预测值；具体为：对于正向时序指标数据，选取多种基线获取方法的预测值之间的最小值；对于反向时序指标数据，选取多种基线获取方法的预测值之间的最大值。

9.根据权利要求1所述的***，其特征在于，所述智能基线及预测值获取模块中，缩放比例由真实数据与预测数据之间的关系决定，对于正向指标，即选取合适的缩放比例α，保证时序指标数据中实时值＜预测值*α的数据点占总数据点的比例不超过缩放比例阈值；对于反向指标，即选取合适的缩放比例α，保证时序指标数据中实时值＞预测值*α的数据点占总数据点的比例不超过缩放比例阈值。

10.根据权利要求1所述的***，其特征在于，所述异常告警模块中，若目标时序指标为正向指标，则当实时时序指标数据下跌，并连续n次低于预测值设定阈值时触发告警；若目标时序指标为反向指标，则当实时时序指标数据上涨，并连续n次大于预测值设定阈值时触发告警。