CN117093461A - 一种时延检测分析的方法、***、设备和存储介质 - Google Patents
一种时延检测分析的方法、***、设备和存储介质 Download PDFInfo
- Publication number
- CN117093461A CN117093461A CN202311117356.9A CN202311117356A CN117093461A CN 117093461 A CN117093461 A CN 117093461A CN 202311117356 A CN202311117356 A CN 202311117356A CN 117093461 A CN117093461 A CN 117093461A
- Authority
- CN
- China
- Prior art keywords
- data
- time delay
- throughput
- delay
- latency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 title claims abstract description 54
- 238000001514 detection method Methods 0.000 title claims description 37
- 238000004458 analytical method Methods 0.000 title claims description 36
- 238000012098 association analyses Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000004044 response Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 17
- 230000000875 corresponding effect Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 12
- 238000010219 correlation analysis Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 description 22
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012423 maintenance Methods 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3447—Performance evaluation by modeling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种时延检测分析的方法、***、设备和存储介质,方法包括:对获取的时延数据和吞吐量数据进行预处理;对预处理后的时延数据和吞吐量数据进行聚类,并根据聚类结果建立时延和吞吐量之间的关系模型;通过所述关系模型预测新的时延数据,根据新的时延数据与预设范围的关系确定是否产生告警;以及响应于产生告警,根据拓扑关系进行关联分析以确定与时延最相关的部件。本发明能够从整体上判断分布式存储***是否产生高时延事件,节省***资源的占用,效率较高。
Description
技术领域
本发明涉及分布式存储***领域,更具体地,特别是指一种时延检测分析的方法、***、设备和存储介质。
背景技术
当分布式存储处于高时延状态时会导致用户访问和检索数据时的延迟增加,会降低用户的满意度,并对用户体验产生负面影响。因此,对于分布式存储***而言,如何智能、及时有效地检测和处理高时延状态至关重要。然而,分布式存储高时延检测处理是一个具有挑战性的任务。首先,分布式存储***通常处理大规模的数据,涉及到大量的数据读写操作。在这种情况下,如果对***中的每一个部件进行建模并检测是否出现高时延状态,这对***资源是一个很大的开销,反而有可能增大***的时延;其次,如何判定分布式存储***是否出现了高时延状态,因为工作负载压力增加会影响***的时延变化,很显然,这种时延属于正常情况,如果把这种情况检测成异常状态并对其进行处理,会对运维资源造成极大浪费,因此,仅依靠时延进行建模检测是不可靠的;此外,时延阈值如何选择、确定什么样的时延被定义为高时延是一个挑战,因为分布式存储***所处工作环境不同,阈值也不可能一致,因此不能简单的选取一个范围作为阈值,要根据***的运行状态选取合适的阈值,尽量提高方法的通用性。
发明内容
有鉴于此,本发明实施例的目的在于提出一种时延检测分析的方法、***、电子设备及计算机可读存储介质,本发明从***水平出发进行高时延检测,只会占用有限的***资源;利用时延和吞吐量进行建模有助于过滤工作负载增加引起的时延增加的情况,降低高时延的误报率;利用多项式回归预测的置信区间,可以自动确定检测阈值,方法通用性好;对异常程度进行分级,并采用不同的告警策略。本发明能够及时检测和处理高时延,有助于提升***的稳定性、性能和用户体验,确保***在高效、可靠的状态下运行。
基于上述目的,本发明实施例的一方面提供了一种时延检测分析的方法,包括如下步骤:对获取的时延数据和吞吐量数据进行预处理;对预处理后的时延数据和吞吐量数据进行聚类,并根据聚类结果建立时延和吞吐量之间的关系模型;通过所述关系模型预测新的时延数据,根据新的时延数据与预设范围的关系确定是否产生告警;以及响应于产生告警,根据拓扑关系进行关联分析以确定与时延最相关的部件。
在一些实施方式中,所述对获取的时延数据和吞吐量数据进行预处理的步骤包括:获取各个节点的写时延和吞吐量数据,对于缺失数据使用上一时刻的数据进行填充,并计算填充后的数据的平均值。
在一些实施方式中,所述对预处理后的时延数据和吞吐量数据进行聚类的步骤包括:根据密度定义邻域,将数据点划分为核心点、边界点和噪声点,并将噪声点去除。
在一些实施方式中,所述根据聚类结果建立时延和吞吐量之间的关系模型的步骤包括:将吞吐量作为自变量,写时延作为因变量,将数据集拆分成训练集和测试集;使用所述训练集对多项式回归模型进行训练,并通过拟合多项式函数来学习吞吐量和写时延之间的关系;使用所述测试集计算预测结果与实际结果之间的误差指标以对训练好的多项式回归模型进行评估;以及根据评估结果动态调整多项式回归模型的参数。
在一些实施方式中,所述根据聚类结果建立时延和吞吐量之间的关系模型的步骤包括:根据写时延通过所述多项式回归模型计算预测值,并计算所述预测值的标准误差;以及根据所述标准误差、写时延和预测值计算置信区间。
在一些实施方式中,所述根据新的时延数据与预设范围的关系确定是否产生告警的步骤包括:计算连续的多个时刻对应的新的时延数据与置信上限的比值,并响应于所述多个时刻中超过一半的时刻对应的所述比值超过阈值,则进行告警。
在一些实施方式中,所述根据拓扑关系进行关联分析以确定与时延最相关的部件的步骤包括:将时延分别和存储节点、存储介质、交换机和路由器的时延进行相关性分析,使用皮尔逊相关系数法确定与时延最相关的部件。
本发明实施例的另一方面,提供了一种时延检测分析的***,包括:处理模块,用于对获取的时延数据和吞吐量数据进行预处理;聚类模块,用于对预处理后的时延数据和吞吐量数据进行聚类,并根据聚类结果建立时延和吞吐量之间的关系模型;告警模块,用于通过所述关系模型预测新的时延数据,根据新的时延数据与预设范围的关系确定是否产生告警;以及分析模块,用于响应于产生告警,根据拓扑关系进行关联分析以确定与时延最相关的部件。
本发明实施例的又一方面,还提供了一种电子设备,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现如上方法的步骤。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
本发明具有以下有益技术效果:
1、从***级水平出发,能够从整体上判断分布式存储***是否产生高时延事件,节省***资源的占用,效率较高;
2、利用DBSCAN聚类算法去除异常值,通过多项式回归建立正常指标的预测模型,通过置信区间确定阈值上限,阈值能够根据分布式存储***所处生产环境的不同进行自适应的调整,通用性较好;
3、使用写时延和吞吐量作为建模的输入,相较于仅利用时延数据进行建模,能够兼顾分布式存储***的工作负载,准确性更好,避免将正常工作负载增加引起的时延变化判定为异常情况,此外,异常程度评价模块能够根据持续时间和异常程度对高时延风险进行衡量,也能够过滤掉瞬时时延增加的正常情况,有助于降低误报率;
4、能够根据时延的不同程度选取不同的告警通知策略,同时根据分布式存储***的拓扑关系进行相关性分析,给出和***写时延变化最相关的多个部件,有助于运维人员的后续排查,提高分布式存储***的稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明提供的时延检测分析的方法的实施例的示意图;
图2为本发明提供的时延检测分析的方法的实施例的流程图;
图3为本发明提供的DBSCAN聚类示意图;
图4为本发明提供的多项式回归示意图;
图5为本发明提供的滑动窗口评价示意图;
图6为本发明提供的时延检测分析的***的实施例的示意图;
图7为本发明提供的时延检测分析的电子设备的实施例的硬件结构示意图;
图8为本发明提供的时延检测分析的计算机存储介质的实施例的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
本发明实施例的第一个方面,提出了一种时延检测分析的方法的实施例。图1示出的是本发明提供的时延检测分析的方法的实施例的示意图。
如图1所示,本发明实施例包括如下步骤:
S1、对获取的时延数据和吞吐量数据进行预处理;
S2、对预处理后的时延数据和吞吐量数据进行聚类,并根据聚类结果建立时延和吞吐量之间的关系模型;
S3、通过所述关系模型预测新的时延数据,根据新的时延数据与预设范围的关系确定是否产生告警;以及
S4、响应于产生告警,根据拓扑关系进行关联分析以确定与时延最相关的部件。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度的噪声应用空间聚类)是一种密度聚类算法,通过基于密度的方式将数据点划分为簇,并能有效地处理数据中的噪声和离群点。DBSCAN的核心思想是根据数据点的密度来划分簇,它不需要预先指定簇的数量,可以自动发现任意形状和大小的簇,并且对噪声和离群点具有鲁棒性以及相对较少的参数依赖性。多项式回归是一种非线性回归方法,用于建立自变量与因变量之间的多项式关系模型。它在学术和实际应用中都广泛使用,特别适用于探索数据中的非线性关系。多项式回归的核心思想是通过引入多项式的高次项来拟合非线性数据,将原始数据转化为多项式特征空间,利用最小二乘法或其他回归方法来估计回归系数,这使得模型能够适应更复杂的数据模式,并提供更准确的预测。因此,可以首先使用DBSCAN聚类算法去除数据中的异常点,然后对去除异常点的数据建立多项式回归模型,并计算出指标的正常范围,使用上限对***运行状态进行监控,检测是否发生高时延事件。
本发明实施例收集分布式存储***中的时延数据和吞吐量数据,然后对采集到的时延和吞吐量数据进行预处理,主要对缺失值进行处理,以确保数据的准确性和一致性。接着利用DBSCAN算法对预处理后的数据进行聚类,将相似模式的数据点划分到同一个簇中,而与其他模式差异较大的数据点则被认为是异常点,剔除异常点并使用前向填充的方式进行补全。对于去除异常值后的数据,使用多项式回归模型进行拟合,通过选择适当的多项式阶数,建立时延与吞吐量之间的关系模型。利用建立的多项式回归模型,计算出正常指标范围,并对新的时延数据进行预测。如果预测的时延值超过正常范围,那么该数据点可以被标记为高时延点。根据持续时间和严重程度对高时延事件进行评分;一旦超过设定的阈值,则产生告警,并根据拓扑关系进行关联分析,列举出与***时延曲线最相关的前五个部件。
图2为本发明提供的时延检测分析的方法的实施例的流程图,结合图2对本发明实施例进行说明。
对获取的时延数据和吞吐量数据进行预处理。
在一些实施方式中,所述对获取的时延数据和吞吐量数据进行预处理的步骤包括:获取各个节点的写时延和吞吐量数据,对于缺失数据使用上一时刻的数据进行填充,并计算填充后的数据的平均值。
主要获取各个节点的写时延和吞吐量指标,并计算出***某一时刻下的平均写时延和吞吐量指标:部署性能监测工具或代理程序来监测分布式存储***的时延和吞吐量。这些工具可以捕获和记录关键的性能指标数据,常见的监测工具包括Prometheus、Grafana、Nagios等。获取各个节点某时刻的写时延和吞吐量指标,对于缺失数据使用上一时刻的数据进行填充。然后对填充后的数据求均值,从而获取***某时刻的平均写时延和吞吐量指标。
对预处理后的时延数据和吞吐量数据进行聚类,并根据聚类结果建立时延和吞吐量之间的关系模型。
在一些实施方式中,所述对预处理后的时延数据和吞吐量数据进行聚类的步骤包括:根据密度定义邻域,将数据点划分为核心点、边界点和噪声点,并将噪声点去除。在建立正常指标多项式回归模型之前,要去除异常值的影响,主要是利用DBSCAN聚类算法去除异常值,DBSCAN算法通过基于密度的聚类特性,可以有效地识别数据中的异常值。异常值往往会被划分为噪声点,不属于任何聚类簇。因此,通过识别噪声点,可以确定数据中的异常值。DBSCAN算法的关键步骤是根据密度定义邻域,将数据点划分为核心点、边界点和噪声点。核心点是在邻域内拥有足够数量的样本点,边界点是在邻域内样本点不足但属于核心点的邻域,而噪声点是在邻域内样本点不足且不属于核心点的点。图3为本发明提供的DBSCAN聚类示意图,如图3所示,两个虚线框中的数据为两个不同的类别。
将获取的分布式存储***写时延和吞吐量指标按照吞吐量为横轴方向,写时延为纵轴方向组成DBSCAN算法的输入数据。确定DBSCAN算法的参数,包括邻域半径和最小邻域点数。邻域半径定义了一个样本的邻域范围,最小邻域点数表示一个核心点所需要的最小邻域内的样本数。使用欧氏距离计算数据集中样本之间的距离。应用DBSCAN算法对数据进行聚类。根据邻域半径和最小邻域点数的设定,将数据点划分为核心点、边界点和噪声点。识别噪声点作为异常值。噪声点是指在聚类过程中没有被归类到任何簇中的样本。并将其从数据中剔除,并用前一时刻的写时延和吞吐量进行填充。
使用多项式回归对去除异常值后的数据进行建模,从而得到***正常状态下的模型,并获取预测数据的置信区间,得到阈值。图4为本发明提供的多项式回归示意图,如图4所示,虚线为上限,实线为拟合曲线。
在一些实施方式中,所述根据聚类结果建立时延和吞吐量之间的关系模型的步骤包括:将吞吐量作为自变量,写时延作为因变量,将数据集拆分成训练集和测试集;使用所述训练集对多项式回归模型进行训练,并通过拟合多项式函数来学习吞吐量和写时延之间的关系;使用所述测试集计算预测结果与实际结果之间的误差指标以对训练好的多项式回归模型进行评估;以及根据评估结果动态调整多项式回归模型的参数。
将***的吞吐量作为自变量,写时延作为因变量,采用交叉验证的方式,将数据集拆分为训练集和测试集,选择多项式回归作为建模算法。使用训练集数据对多项式回归模型进行训练。通过拟合多项式函数来学习吞吐量和写时延之间的关系。使用测试集数据对训练好的模型进行评估,计算预测结果与实际结果之间的误差指标,如均方误差(MSE)、均方根误差(RMSE)等。根据评估结果,使用自动调参工具或网格搜索等技术调整模型的超参数,优化模型的性能。
在一些实施方式中,所述根据聚类结果建立时延和吞吐量之间的关系模型的步骤包括:根据写时延通过所述多项式回归模型计算预测值,并计算所述预测值的标准误差;以及根据所述标准误差、写时延和预测值计算置信区间。
假设得到的是二次多项式回归模型,形式为:y=β0+β1x+β2x2+ε,其中y是响应变量写时延,x是自变量吞吐量,β0、β1和β2是回归系数,ε是误差项。计算预测值的标准误差。可以通过以下公式计算:
其中,SE是标准误差,y是观测到的响应变量值,是根据回归模型计算得到的预测值,n是样本数量,k是回归模型中的参数数量。确定置信水平和自由度。选择95%或者99%的置信水平,自由度为n-k-1。根据所选的置信水平和自由度,查找相应的t分布或标准正态分布的临界值。对于大样本情况,可以使用标准正态分布的临界值;对于小样本情况,可以使用t分布的临界值γ。使用以下公式计算置信区间:
得到写时延预测值的置信区间后,可以使用置信上限作为阈值来检测写时延观测值是否为高时延点。
通过所述关系模型预测新的时延数据,根据新的时延数据与预设范围的关系确定是否产生告警。
在一些实施方式中,所述根据新的时延数据与预设范围的关系确定是否产生告警的步骤包括:计算连续的多个时刻对应的新的时延数据与置信上限的比值,并响应于所述多个时刻中超过一半的时刻对应的所述比值超过阈值,则进行告警。
分布式存储***运行过程中,时延瞬时增加有很大可能是因为工作负载压力变化导致,这种属于时延正常变化情况,是可接受的,如果不对这种情况加以判断,则会产生很高的误报率。因此,此步骤基于滑动窗口对异常程度进行评分,并通过计算时延观测值和建模得到的上限的比值即慢速比,综合评估时延的异常程度。
假设获取到的***时延的时间序列为Y=(y1,y2,…yt,…yn-1,yn),多项式回归预测模块得到的阈值上限为S=(s1,s2,…,st,…sn-1,sn),每个窗口包含5个数据点,假设此时滑动窗口得到的时延数据为Y5=(yt-2,yt-1,yt,yt+1,yt+2),得到的阈值上限数据为S5=(st-2,st-1,st,st+1,st+2),慢速比R=(rt-2,rt-1,rt,rt+1,rt+2)。
其中rt的阈值设置为1,比例为50%,也就是说当窗口内有超过50%的数目超过1,则认为此窗口形成一个高时延事件。
图5为本发明提供的滑动窗口评价示意图,如图5所示,为一个高时延窗口,实线为写时延点,虚线为建模获取的阈值上限,当超过上限时,则为异常点,用黑方块表示,否则为灰方块。如果两个连续的窗口均为高时延窗口,则被认为是一个整体。
在高延迟检测中,不能将瞬间的时延增加定义为异常状况,还要考虑持续时间。本专利根据时延异常的持续时间和严重程度分为不同的风险级别。例如,根据窗口的时延异常跨度,持续时间分为暂时性(从1到5分钟)、中度(从5到20分钟)和长期(20分钟以上)。此外,根据窗口平均慢速比,时延异常被评价为轻度(1≤SR<2)、中度(2≤SR<5)和重度(SR≥5),如下表所示。后续告警和关联模块可以根据严重程度选取不同的告警通知策略。
响应于产生告警,根据拓扑关系进行关联分析以确定与时延最相关的部件。
当延迟评分超过预设的阈值时,模块会生成相应的告警,并根据严重程度选取不同的方式通知相关人员或者监控***;关联分析模块则是自上而下使用相关系数法进行关联,找出变化趋势和分布式存储***变化趋势最相关的五个部件。
将告警信息集成到现有的监控***或工单***中,以便相关人员可以在其常用的工作界面上接收告警并进行处理,这种适用于所有等级的告警。邮件通知:将告警信息发送到相关人员的电子邮件地址,及时传达告警内容,并提供必要的详细信息,适用于重要的告警。短信通知:将告警信息通过短信发送到相关人员的手机。这是一种快速且直接的通知方式,适用于需要紧急响应的情况。电话呼叫:通过电话自动拨号***或人工呼叫相关人员,将告警信息直接传达给他们。这是一种紧急情况下的重要通知方式。
在一些实施方式中,所述根据拓扑关系进行关联分析以确定与时延最相关的部件的步骤包括:将时延分别和存储节点、存储介质、交换机和路由器的时延进行相关性分析,使用皮尔逊相关系数法确定与时延最相关的部件。
假设***时延变量为Y,需要进行关联分析的部件的时延变量为X,两个时间序列分别包含n个观测值。定义以下符号:X的观测x1,x2,…xt,…xn-1,xn,Y的观测为y1,y2,…yt,…yn-1,yn,X的均值为μx,Y的均值为μy,X的标准差为σx,Y的标准差为σy,皮尔逊相关系数可以通过以下公式计算得出:
该公式计算了变量X和Y之间的协方差,然后除以X和Y的标准差的乘积,以归一化相关系数的值。结果范围从-1到1,其中-1表示完全负相关,0表示无相关性,1表示完全正相关。其中关联部件可以是存储节点、存储介质、交换机或者路由器等,这需要在实际中根据***的拓扑关系来确定。
本发明实施例获取***的时延和吞吐量,然后通过DBSCAN去除异常点,并利用多项式回归建立正常指标的模型,并根据置信区间确定其指标上限作为后续时延异常检测的阈值,并根据持续时间和异常程度对时延风险进行评估,一旦发生高延迟事件,根据严重程度选取不同的告警策略,并进行关联分析,定位出与***时延变化相关性最高的五个部件(五个部件仅为举例说明,可以根据需要定位出其他数量的部件)。运维人员可以根据告警级别和关联分析结果,制定相应的应对措施,及时规避风险,提高***的稳定性,还可以节省运维成本。
本发明实施例准确获取分布式存储***各节点的写时延和吞吐量数据,对于缺失的数据使用上一时刻的数据进行填充,进而获取***的写时延和吞吐量数据。使用DBSCAN算法对预处理后的时延数据进行聚类分析,识别出时延异常点和正常点。DBSCAN算法基于密度可达性原理,能够发现不同密度的数据点,并将它们划分为不同的聚类簇。使用多项式回归方法,基于正常的时延、吞吐量数据点,建立多项式回归模型,可以捕捉时延指标与如吞吐量之间的非线性关系,提供对时延行为的更准确建模。通过对多项式回归模型的分析,计算出时延指标的置信区间。根据置信区间,确定正常时延的上限阈值,作为后续时延异常检测的阈值。当某时刻时延超过该阈值时,被判定为高延迟点。综合考虑异常持续时间和异常程度等因素,对高延迟事件进行风险评估,根据风险评估结果,确定高延迟事件的严重程度和持续性,为后续的告警策略和应对措施提供依据。根据高延迟事件的严重程度,选择适当的告警策略,包括邮件通知、短信提醒等,以及告警级别的设置。同时进行关联分析,找出与***时延变化最相关的五个部件或组件。综上,本发明通过获取***的时延和吞吐量数据,并利用聚类分析和回归建模技术,能够准确检测和分析分布式存储***中的高延迟事件。通过确定阈值、评估风险、选择告警策略和关联分析,可以帮助运维人员及时应对高延迟事件,提高***的稳定性和性能,并节省运维成本。这项技术具有实用价值,可以应用于各种分布式存储***,为运维团队提供了有效的工具和方法,以确保***的正常运行和优化。
需要特别指出的是,上述时延检测分析的方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于时延检测分析的方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种时延检测分析的***。如图6所示,***200包括如下模块:处理模块,用于对获取的时延数据和吞吐量数据进行预处理;聚类模块,用于对预处理后的时延数据和吞吐量数据进行聚类,并根据聚类结果建立时延和吞吐量之间的关系模型;告警模块,用于通过所述关系模型预测新的时延数据,根据新的时延数据与预设范围的关系确定是否产生告警;以及分析模块,用于响应于产生告警,根据拓扑关系进行关联分析以确定与时延最相关的部件。
在一些实施方式中,所述处理模块还用于:获取各个节点的写时延和吞吐量数据,对于缺失数据使用上一时刻的数据进行填充,并计算填充后的数据的平均值。
在一些实施方式中,所述聚类模块还用于:根据密度定义邻域,将数据点划分为核心点、边界点和噪声点,并将噪声点去除。
在一些实施方式中,所述聚类模块还用于:将吞吐量作为自变量,写时延作为因变量,将数据集拆分成训练集和测试集;使用所述训练集对多项式回归模型进行训练,并通过拟合多项式函数来学习吞吐量和写时延之间的关系;使用所述测试集计算预测结果与实际结果之间的误差指标以对训练好的多项式回归模型进行评估;以及根据评估结果动态调整多项式回归模型的参数。
在一些实施方式中,所述聚类模块还用于:根据写时延通过所述多项式回归模型计算预测值,并计算所述预测值的标准误差;以及根据所述标准误差、写时延和预测值计算置信区间。
在一些实施方式中,所述告警模块还用于:计算连续的多个时刻对应的新的时延数据与置信上限的比值,并响应于所述多个时刻中超过一半的时刻对应的所述比值超过阈值,则进行告警。
在一些实施方式中,所述分析模块还用于:将时延分别和存储节点、存储介质、交换机和路由器的时延进行相关性分析,使用皮尔逊相关系数法确定与时延最相关的部件。
基于上述目的,本发明实施例的第三个方面,提出了一种电子设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行以实现如下步骤:S1、对获取的时延数据和吞吐量数据进行预处理;S2、对预处理后的时延数据和吞吐量数据进行聚类,并根据聚类结果建立时延和吞吐量之间的关系模型;S3、通过所述关系模型预测新的时延数据,根据新的时延数据与预设范围的关系确定是否产生告警;以及S4、响应于产生告警,根据拓扑关系进行关联分析以确定与时延最相关的部件。
在一些实施方式中,所述对获取的时延数据和吞吐量数据进行预处理的步骤包括:获取各个节点的写时延和吞吐量数据,对于缺失数据使用上一时刻的数据进行填充,并计算填充后的数据的平均值。
在一些实施方式中,所述对预处理后的时延数据和吞吐量数据进行聚类的步骤包括:根据密度定义邻域,将数据点划分为核心点、边界点和噪声点,并将噪声点去除。
在一些实施方式中,所述根据聚类结果建立时延和吞吐量之间的关系模型的步骤包括:将吞吐量作为自变量,写时延作为因变量,将数据集拆分成训练集和测试集;使用所述训练集对多项式回归模型进行训练,并通过拟合多项式函数来学习吞吐量和写时延之间的关系;使用所述测试集计算预测结果与实际结果之间的误差指标以对训练好的多项式回归模型进行评估;以及根据评估结果动态调整多项式回归模型的参数。
在一些实施方式中,所述根据聚类结果建立时延和吞吐量之间的关系模型的步骤包括:根据写时延通过所述多项式回归模型计算预测值,并计算所述预测值的标准误差;以及根据所述标准误差、写时延和预测值计算置信区间。
在一些实施方式中,所述根据新的时延数据与预设范围的关系确定是否产生告警的步骤包括:计算连续的多个时刻对应的新的时延数据与置信上限的比值,并响应于所述多个时刻中超过一半的时刻对应的所述比值超过阈值,则进行告警。
在一些实施方式中,所述根据拓扑关系进行关联分析以确定与时延最相关的部件的步骤包括:将时延分别和存储节点、存储介质、交换机和路由器的时延进行相关性分析,使用皮尔逊相关系数法确定与时延最相关的部件。
如图7所示,为本发明提供的上述时延检测分析的电子设备的一个实施例的硬件结构示意图。
以如图7所示的装置为例,在该装置中包括一个处理器301以及一个存储器302。
处理器301和存储器302可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的时延检测分析的方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现时延检测分析的方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据时延检测分析的方法的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个时延检测分析的方法对应的计算机指令303存储在存储器302中,当被处理器301执行时,执行上述任意方法实施例中的时延检测分析的方法。
执行上述时延检测分析的方法的电子设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时执行时延检测分析的方法的计算机程序。
如图8所示,为本发明提供的上述时延检测分析的计算机存储介质的一个实施例的示意图。以如图8所示的计算机存储介质为例,计算机可读存储介质401存储有被处理器执行时执行如上方法的计算机程序402。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,时延检测分析的方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种时延检测分析的方法,其特征在于,包括如下步骤:
对获取的时延数据和吞吐量数据进行预处理;
对预处理后的时延数据和吞吐量数据进行聚类,并根据聚类结果建立时延和吞吐量之间的关系模型;
通过所述关系模型预测新的时延数据,根据新的时延数据与预设范围的关系确定是否产生告警;以及
响应于产生告警,根据拓扑关系进行关联分析以确定与时延最相关的部件。
2.根据权利要求1所述的时延检测分析的方法,其特征在于,所述对获取的时延数据和吞吐量数据进行预处理的步骤包括:
获取各个节点的写时延和吞吐量数据,对于缺失数据使用上一时刻的数据进行填充,并计算填充后的数据的平均值。
3.根据权利要求1所述的时延检测分析的方法,其特征在于,所述对预处理后的时延数据和吞吐量数据进行聚类的步骤包括:
根据密度定义邻域,将数据点划分为核心点、边界点和噪声点,并将噪声点去除。
4.根据权利要求1所述的时延检测分析的方法,其特征在于,所述根据聚类结果建立时延和吞吐量之间的关系模型的步骤包括:
将吞吐量作为自变量,写时延作为因变量,将数据集拆分成训练集和测试集;
使用所述训练集对多项式回归模型进行训练,并通过拟合多项式函数来学习吞吐量和写时延之间的关系;
使用所述测试集计算预测结果与实际结果之间的误差指标以对训练好的多项式回归模型进行评估;以及
根据评估结果动态调整多项式回归模型的参数。
5.根据权利要求4所述的时延检测分析的方法,其特征在于,所述根据聚类结果建立时延和吞吐量之间的关系模型的步骤包括:
根据写时延通过所述多项式回归模型计算预测值,并计算所述预测值的标准误差;以及
根据所述标准误差、写时延和预测值计算置信区间。
6.根据权利要求5所述的时延检测分析的方法,其特征在于,所述根据新的时延数据与预设范围的关系确定是否产生告警的步骤包括:
计算连续的多个时刻对应的新的时延数据与置信上限的比值,并响应于所述多个时刻中超过一半的时刻对应的所述比值超过阈值,则进行告警。
7.根据权利要求1所述的时延检测分析的方法,其特征在于,所述根据拓扑关系进行关联分析以确定与时延最相关的部件的步骤包括:
将时延分别和存储节点、存储介质、交换机和路由器的时延进行相关性分析,使用皮尔逊相关系数法确定与时延最相关的部件。
8.一种时延检测分析的***,其特征在于,包括:
处理模块,用于对获取的时延数据和吞吐量数据进行预处理;
聚类模块,用于对预处理后的时延数据和吞吐量数据进行聚类,并根据聚类结果建立时延和吞吐量之间的关系模型;
告警模块,用于通过所述关系模型预测新的时延数据,根据新的时延数据与预设范围的关系确定是否产生告警;以及
分析模块,用于响应于产生告警,根据拓扑关系进行关联分析以确定与时延最相关的部件。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311117356.9A CN117093461A (zh) | 2023-08-31 | 2023-08-31 | 一种时延检测分析的方法、***、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311117356.9A CN117093461A (zh) | 2023-08-31 | 2023-08-31 | 一种时延检测分析的方法、***、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117093461A true CN117093461A (zh) | 2023-11-21 |
Family
ID=88773425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311117356.9A Pending CN117093461A (zh) | 2023-08-31 | 2023-08-31 | 一种时延检测分析的方法、***、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117093461A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117459418A (zh) * | 2023-12-25 | 2024-01-26 | 天津神州海创科技有限公司 | 一种实时数据采集存储方法及*** |
CN117807055A (zh) * | 2024-02-29 | 2024-04-02 | 济南浪潮数据技术有限公司 | 存储***的关键性能指标预测、分析方法及相关装置 |
-
2023
- 2023-08-31 CN CN202311117356.9A patent/CN117093461A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117459418A (zh) * | 2023-12-25 | 2024-01-26 | 天津神州海创科技有限公司 | 一种实时数据采集存储方法及*** |
CN117459418B (zh) * | 2023-12-25 | 2024-03-08 | 天津神州海创科技有限公司 | 一种实时数据采集存储方法及*** |
CN117807055A (zh) * | 2024-02-29 | 2024-04-02 | 济南浪潮数据技术有限公司 | 存储***的关键性能指标预测、分析方法及相关装置 |
CN117807055B (zh) * | 2024-02-29 | 2024-06-07 | 济南浪潮数据技术有限公司 | 存储***的关键性能指标预测、分析方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117093461A (zh) | 一种时延检测分析的方法、***、设备和存储介质 | |
CN102957579B (zh) | 一种网络异常流量监测方法及装置 | |
CN111885012B (zh) | 基于多种网络设备信息采集的网络态势感知方法及*** | |
US9386030B2 (en) | System and method for correlating historical attacks with diverse indicators to generate indicator profiles for detecting and predicting future network attacks | |
CN109150564B (zh) | 一种用于小区故障告警的预测方法及装置 | |
CN110147387B (zh) | 一种根因分析方法、装置、设备及存储介质 | |
CN108206747B (zh) | 告警生成方法和*** | |
Ren et al. | An online adaptive approach to alert correlation | |
CN114978568A (zh) | 使用机器学习进行数据中心管理 | |
US20150207696A1 (en) | Predictive Anomaly Detection of Service Level Agreement in Multi-Subscriber IT Infrastructure | |
JP2018147172A (ja) | 異常検知装置、異常検知方法及びプログラム | |
EP3923517A1 (en) | System and method for predicting and handling short-term overflow | |
CN116471196B (zh) | 运维监控网络维护方法、***及设备 | |
CN115454778A (zh) | 大规模云网络环境下的时序指标异常智能监控*** | |
US8661113B2 (en) | Cross-cutting detection of event patterns | |
CN114095965A (zh) | 指标检测模型获取及故障定位方法、装置、设备及存储介质 | |
CN115237717A (zh) | 一种微服务异常检测方法和*** | |
CN117076258A (zh) | 一种基于互联网云端的远程监控方法及*** | |
CN115622867A (zh) | 一种工控***安全事件预警分类方法及*** | |
CN110647086B (zh) | 一种基于运行大数据分析的智能运维监控*** | |
CN111078503B (zh) | 一种异常监控方法及*** | |
CN116016288A (zh) | 工业设备的流量监测方法、装置、设备及存储介质 | |
Ndong et al. | Signal processing-based anomaly detection techniques: a comparative analysis | |
CN117376084A (zh) | 故障检测方法、电子设备及其介质 | |
KR101027242B1 (ko) | 공정 제어 네트워크에서의 장애 예측 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |