CN115509853A - 一种集群数据异常检测方法及电子设备 - Google Patents

一种集群数据异常检测方法及电子设备 Download PDF

Info

Publication number
CN115509853A
CN115509853A CN202211151012.5A CN202211151012A CN115509853A CN 115509853 A CN115509853 A CN 115509853A CN 202211151012 A CN202211151012 A CN 202211151012A CN 115509853 A CN115509853 A CN 115509853A
Authority
CN
China
Prior art keywords
cluster
application
different
data
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211151012.5A
Other languages
English (en)
Inventor
陆明
张彬
聂志远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202211151012.5A priority Critical patent/CN115509853A/zh
Publication of CN115509853A publication Critical patent/CN115509853A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种集群数据异常检测方法,包括:基于应用集群的配置信息确定应用集群与存储资源池的映射关系;基于所述映射关系生成不同应用集群在不同存储资源池的分组信息;基于所述分组信息对不同应用集群的关键存储指标进行聚合,确定不同应用集群在不同存储资源池的阈值策略;基于所述阈值策略在对应时间窗口内对目标对象的性能进行异常检测,所述目标对象包括各应用集群或各应用集群中各应用服务器中的至少一个。同时,本申请还提供一种电子设备。

Description

一种集群数据异常检测方法及电子设备
技术领域
本申请涉及数据处理技术,尤其涉及一种集群数据异常检测方法及电子设备。
背景技术
在云平台或虚拟化平台中面向存储***的运维活动中,往往会因为某些应用或者***产生的负载过大而造成存储***出现资源竞争,导致存储平台性能下降。例如对于大数据集群来说,往往单一节点负载波动有限,但是集群累积之后负载过大,观察更加困难,导致在存储平台性能异常时不能识别是哪个应用集群或数据集群导致的异常。
发明内容
有鉴于此,本申请实施例期望提供一种集群数据异常检测方法及电子设备。
为达到上述目的,本申请的技术方案是这样实现的:
根据本申请的一方面,提供一种集群数据异常检测方法,包括:
基于应用集群的配置信息确定应用集群与存储资源池的映射关系;
基于所述映射关系生成不同应用集群在不同存储资源池的分组信息;
基于所述分组信息对不同应用集群的关键存储指标进行聚合,以得到不同应用集群在不同存储资源池的阈值策略;
基于所述阈值策略在对应时间窗口内对目标对象的性能进行异常检测,所述目标对象包括各应用集群或各应用集群中各应用服务器中的至少一个。
上述方案中,所述基于所述阈值策略在对应时间窗口内对目标对象的性能进行异常检测,包括以下之一:
基于所述阈值策略在对应时间窗口内对各应用集群在历史时间窗口内的特定存储指标进行异常检测,所述特定存储指标包括各应用集群与各集群内节点之间的输入输出带宽流量和每秒读写操作的次数中的至少一个;
基于所述阈值策略在对应时间窗口内对各应用集群在历史时间窗口内的节点相关性存储指标进行异常检测;所述节点相关性存储指标包括各集群内节点间的输入输出带宽流量、各集群内节点间的流量节点数量、各集群内节点间的链路数量中的至少一个。
上述方案中,所述基于所述阈值策略在对应时间窗口内对各应用集群在历史时间窗口内的节点相关性存储指标进行异常检测,包括:
对历史时间窗口内各集群内节点的节点相关性存储指标的数据进行处理,得到各滑动窗口中的指标数据;
基于各集群内节点和各所述指标数据得到不同应用集群的指标相关性系数;
基于所述阈值策略将满足目标条件的指标相关性系数所对应的应用集群确定为异常应用集群,所述目标条件表征集群内节点之间指标相关系数较弱。
上述方案中,所述方法还包括:
如果检测结果表征至少一个目标对象存在性能异常,输出报警信息。
上述方案中,所述检测结果表征至少一个目标对象存在性能异常,包括:
获取历史时间窗口内各目标对象的特征聚合数据;
如果所述特征聚合数据的目标值超出边界阈值,确定所述至少一个目标对象存在性能异常;
所述目标值用于反映所述特征聚合数据的数据特性。
上述方案中,所述基于所述分组信息对不同应用集群的关键存储指标进行聚合,以得到不同应用集群在不同存储资源池的阈值策略,包括:
基于所述分组信息得到不同应用集群在不同存储资源池的历史负载数据;
对所述历史负载数据进行聚合计算,得到不同应用集群在不同存储资源池的边界阈值;
基于所述边界阈值生成所述阈值策略。
上述方案中,在所述基于所述阈值策略在对应时间窗口内对目标对象的性能进行异常检测之前,所述方法还包括:
获取所述存储资源池存在性能异常的开始时间;
基于所述阈值策略中的边界阈值对各应用集群在所述开始时间所对应的时间窗口内的历史数据进行异常检测;或者,对各应用集群在所述开始时间之前一段时间所对应的时间窗口内的历史数据进行异常检测。
上述方案中,所述方法还包括:
按照所述不同应用集群的指标相关性系数对各应用集群进行性能异常检测的排序;
根据排序结果呈现各指标相关性系数对应的应用集群范围下的监控指标数据。
上述方案中,所述方法还包括:
输出所述指标相关性系数的变化曲线图。
根据本申请的另一方面,提供一种电子设备,其中,所述电子设备包括:
确定单元,用于基于应用集群的配置信息确定应用集群与存储资源池的映射关系;
生成单元,用于基于所述映射关系生成不同应用集群在不同存储资源池的分组信息;
聚合单元,用于基于所述分组信息对不同应用集群的关键存储指标进行聚合,确定不同应用集群在不同存储资源池的阈值策略;
检测单元,用于基于所述阈值策略在对应时间窗口内对目标对象的性能进行异常检测,所述目标对象包括各应用集群或各应用集群中各应用服务器中的至少一个。
本申请提供的集群数据异常检测方法及电子设备,通过应用集群与存储资源池的映射关系生成不同应用集群在不同存储资源池的分组信息;基于所述分组信息对不同应用集群的关键存储指标进行聚合,确定不同应用集群在不同存储资源池的阈值策略;基于该阈值策略在对应时间窗口内对目标对象的性能进行异常检测。如此能够在大数据集群场景中,单一云硬盘性能波动不大,而存储平台受集群资源竞争影响出现严重性能风险的时候,能够快速定位出导致存储***异常的目标应用或节点。
附图说明
图1为本申请中集群数据异常检测方法的流程实现示意图一;
图2为本申请中阈值策略的生成方法流程示意图;
图3为本申请中对集群数据异常检测的方法流程示意图二;
图4为本申请中电子设备的结构组成示意图一;
图5是本申请中电子设备的结构组成示意图二。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
由前所述,由于在大数据集群场景中,往往会因为某些应用或者***产生的负载过大而造成存储***出现资源竞争,导致存储平台性能下降,而在存储平台性能异常时不能识别是哪个应用或数据导致的异常。通过本申请提供的方案,通过不同应用集群在不同存储资源池的分组信息对不同应用集群的关键存储指标进行聚合,得到不同应用集群在不同存储资源池的阈值策略;基于该阈值策略在对应时间窗口内对目标对象的性能进行异常检测。如此能够在大数据集群场景中,单一云硬盘性能波动不大,而存储平台受集群资源竞争影响出现严重性能风险的时候,能够快速定位出导致存储***异常的目标应用或节点。
以下结合说明书附图及具体实施例对本申请的技术方案做进一步的详细阐述。
图1为本申请中集群数据异常检测方法的流程实现示意图一,该方法可以应用于电子设备,该电子设备可以是服务器和客户端设备,该服务器包括云端服务器和实体服务器。如图1所示,该方法包括:
步骤101,基于应用集群的配置信息确定应用集群与存储资源池的映射关系;
这里,该电子设备可以通过云平台或虚拟化平台接口(或称为云平台或虚拟化平台数据库)、存储***接口和监控数据库获得应用集群的配置信息,基于该配置信息可以确定应用集群与存储资源池的映射关系。
具体地,该电子设备通过存储***接口可以确定存储资源池与交付磁盘(或称交付卷)的第一对应关系,通过云平台或虚拟化平台接口(或数据库)可以确定该交付磁盘(或交付卷)与物理机或虚拟机的第二对应关系,即这些交付磁盘(或交付卷)部署在哪些物理机或虚拟机上。该电子设备基于该第一对应关系和该第二对应关系可以确定应用集群内云硬盘与存储资源池的映射关系。
由于一个平台上可以运行多个应用集群,因此,该电子设备还可以通过监控数据库获得监控数据,根据该监控数据可以确定不同应用、不同数据库或不同数据平台集群与云硬盘的第三对应关系。
该电子设备基于该第一对应关系、该第二对应关系和该第三对应关系可以确定应用集群与存储资源池的映射关系。
步骤102,基于所述映射关系生成不同应用集群在不同存储资源池的分组信息;
本申请中,该电子设备可以基于不同应用集群和存储资源池的映射关系对不同应用集群在不同存储资源池进行分组,生成不同应用集群在不同存储资源池的分组信息。
这里,该分组信息包括但不限于各应用集群与各集群内节点(比如Elasticsearch(ES)。ES节点是一个基于Lucene的搜索服务器)的第一映射信息、各集群内节点与磁盘的第二映射信息、磁盘和存储资源池的第三映射信息。
该电子设备基于该第一映射信息可以确定各应用运行在哪个节点上,基于第二映射信息可以确定各节点上有哪些磁盘/卷,基于该第三映射信息可以确定各磁盘/卷由哪个存储资源池交付。
本申请中,该电子设备根据该分组信息还可以确定各应用集群中各节点的当前分布状态信息和历史分布状态信息。基于该历史分布状态信息和该当前分布状态信息可以确定哪些节点是扩容的,哪些节点是原始存在的。
步骤103,基于所述分组信息对不同应用集群的关键存储指标进行聚合,以得到不同应用集群在不同存储资源池的阈值策略;
本申请中,该关键存储指标包括但不限于输入/输出(I/O,Input/Output)带宽和每秒进行读写操作的次数(IOPS,Input/Output Operations Per Second)。
一种实现中,该电子设备可以基于不同应用集群在不同存储资源池的分组信息得到不同应用集群在不同存储资源池的历史负载数据;通过对该历史负载数据进行聚合计算,可以得到不同应用集群在不同存储资源池的边界阈值;基于该边界阈值生成所述阈值策略。
比如,该电子设备可以获取各应用集群内节点的I/O吞吐量,然后将各应用集群内节点的I/O吞吐量进行累加,得到各应用集群在不同存储资源池的总I/O吞吐量,将该总I/O吞吐量作为不同应用集群在不同存储资源池的边界阈值,从而实现对不同应用集群在不同存储资源池的I/O吞吐量的聚合计算。
步骤104,基于所述阈值策略在对应时间窗口内对目标对象的性能进行异常检测,所述目标对象包括各应用集群或各应用集群中各应用服务器中的至少一个。
在一个实现方式中,该电子设备可以基于该阈值策略在对应时间窗口内对各应用集群在历史时间窗口内的特定存储指标进行异常检测。
这里,该特定存储指标包括各应用集群与各集群内节点之间的I/O带宽流量和IOPS中的至少一个。该电子设备通过网关可以获得各应用集群与各集群内节点之间的I/O带宽和IOPS。然后基于百分位或基于标准差方式对该特定存储指标进行异常检测。
在另一个实现方式中,该电子设备还可以基于该阈值策略在对应时间窗口内对各应用集群在历史时间窗口内的节点相关性存储指标进行异常检测。
这里,该节点相关性存储指标包括各集群内节点间的输入输出带宽流量、各集群内节点间的流量节点数量、各集群内节点间的链路数量中的至少一个。
这里,集群内部节点间流量异常检测可以理解为是对集群内部东西向流量的检测。
例如,云平台或虚拟化平台上运行着Hadoop或Elasticsearch等大数据集群,当集群内部执行数据重新平衡(rebalance),则可能出现任何一个单一磁盘的性能波动都在正常监控范围内,但是平台性能陡增而造成存储平台性能异常。
本申请中,如果存储资源池(或称为存储平台)出现异常,且检测结果表征在对应时间窗口内存在集群内节点之间出现异常,或人工标注阈值检测异常,则记录为一次疑似风险,然后可以进行报警或输出异常报告。从而可以方便工程师快速定位到异常点,加快异常点的诊断速度。
本申请通过应用集群和存储资源池的映射关系对不同应用集群进行分组,根据不同应用集群在不同存储资源池的分组信息对不同应用集群的关键存储指标进行聚合,得到不同应用集群在不同存储资源池的阈值策略;基于该阈值策略在对应时间窗口内对目标对象的性能进行异常检测。如此能够在大数据集群场景中,单一云硬盘性能波动不大,而存储平台受集群资源竞争影响出现严重性能风险的时候,能够加快问题识别速度,快速定位出导致存储***异常的目标应用或节点。
本申请中,该电子设备在基于该阈值策略在对应时间窗口内对各应用集群在历史时间窗口内的节点相关性存储指标进行异常检测时,还可以对历史时间窗口内各集群内节点的节点相关性存储指标的数据进行处理,得到各滑动窗口中的指标数据;然后基于各集群内节点和各指标数据得到不同应用集群的指标相关性系数;基于该指标相关性系数建立指标相关系数图;基于该阈值策略将该指标相关系数图中满足目标条件的指标相关性系数所对应的应用集群确定为异常应用集群。
这里,该目标条件表征集群内节点之间指标相关系数较弱。
这里,指标相关性系数可以是指多个节点相同指标或相关指标之间的相关性系数。该指标相关性系数可以包括两个层面:
1.节点不同,指标相同;
2.节点相同或不同,指标相关;
需要强调的是,该指标相关性系数表征的是多个指标的关系,而不是一个指标的相关性系数。
本申请中,对节点间流量相关性执行异常检测,其过程具体如下:
a)对各个节点观测数据(例如,I/O带宽,IOPS等)执行平滑处理,例如重采样、指数平滑、核函数平滑或者卷积平滑等。
b)对平滑处理之后的数据进行滑动窗口处理,获得各个滑动窗口。作为可选步骤对获得滑动窗口的均值。
c)将各个节点和指标数据构造成为二维数据框,每个指标一个数据框,分别为节点和不同滑动窗口下的节点数值。
d)对c)的矩阵执行相关性分析,例如使用皮尔逊相关系数。进而获得不同节点之间相关指标的相关性系数。获得不同节点负载的相关性系数,并使用百分位记录相关性系数异常检测边界与数值。并将结果按照不同节点之间关系,构造相关图。
e)使用动态阈值,将相关性较弱的节点从相关图中移除,而只保留相关性偏高的节点范围。(这步的作用是算力优化)。
本申请中,该电子设备还可以按照不同应用集群的指标相关性系数对各应用集群进行性能异常检测的排序;根据排序结果呈现各指标相关性系数对应的应用集群范围下的监控指标数据。
本申请中,该电子设备还可以输出该指标相关性系数的变化曲线图。
本申请中,该电子设备具体还可以获取历史时间窗口内各目标对象的特征聚合数据;如果所述特征聚合数据的目标值超出边界阈值,确定所述至少一个目标对象存在性能异常;所述目标值用于反映所述特征聚合数据的数据特性。
比如,目标值可以是特征聚合数据的峰值、中值、均值或谷值。还可以是具有几何特性的数据,例如斜率、曲率、半径等等。
本申请中,如果出现存储平台异常,则触发该电子设备执行集群性能异常检测。这里,该电子设备在基于所述阈值策略在对应时间窗口内对目标对象的性能进行异常检测之前,还可以获取存储资源池存在性能异常的开始时间;基于所述阈值策略中的边界阈值对各应用集群在该开始时间所对应的时间窗口内的历史数据进行异常检测;或者,对各应用集群在该开始时间之前一段时间所对应的时间窗口内的历史数据进行异常检测。如果检测结果表征当前存在相关节点的数据指标相关性突破动态阈值,则标记为异常。且可能此时发生节点间流量过大的情况,或者出现rebalance(再平衡)的情况。
本申请中,该电子设备如果检测结果表征至少一个目标对象存在性能异常,输出报警信息。
这里的异常检测指标包括聚合之后的性能指标,也包括同时出现异动的节点数量,节点间流量异动链路数量(rebalance场景),存储平台缓存,存储平台CPU等指标。
如果集群消费云硬盘异动与存储平台异动发生时间相同,或提前某个有限的时间窗口,则异常a and异常b==true,表示集群异常可能导致平台异常,则触发报警或报告。
本申请提供的集群数据异常检测方法,通过云平台接口或数据库以及存储***接口获得交付磁盘所使用的存储***资源池。通过监控***,识别不同应用、数据库或大数据平台集群边界。通过对不同集群在不同存储资源池上进行分组,并基于分组信息进行关键存储指标聚合计算。对一段时间内聚合计算结果执行异常检测,或人工标注阈值范围。如果存储平台出现异常,且该时间窗口内存在结合异常检测或人工标注阈值检测异常,则记录为疑似风险进行报警或输出异常报告。能够在单一云硬盘性能波动不大,而存储平台受集群资源竞争影响出现严重性能风险的时候,加速问题识别,进而改善端到端问题解决效率。并且本申请提供的方法,其算法复杂度下,可靠性高。
图2为本申请中阈值策略的生成方法流程示意图,如图2所示,该方法包括:
步骤201,通过云平台或虚拟化平台及存储***接口获取云硬盘与资源池的映射关系;
步骤202,通过配置管理数据库(CMDB)、集群配置数据库或监控数据库识别不同应用、不同数据库或不同大数据平台集群边界;
步骤203,对不同应用集群在不同存储资源池上进行分组,生成不同应用集群的云硬盘消费不同资源池的分组信息;
这里,该分组信息包括不同应用集群的云硬盘的当前分布状态信息和分布历史记录信息。
步骤204,基于分组信息聚合不同存储资源池下的历史负载数据;
步骤205,将聚合结果中历史数据极值作为动态阈值边界;
步骤206,根据动态阈值边界确定不同集群在不同存储资源池的动态阈值。
这里,动态阈值又可称为阈值策略。
这里,还可以根据聚合结果人工标注动态阈值范围。
本申请中,该电子设备在执行聚合过程中,典型的聚合指标包括:
I/O带宽和读写IOPS。
图3为本申请中对集群数据异常检测的方法流程示意图二,如图3所示,该方法包括:
步骤301,确定存储平台存在性能异常;
这里,存储平台亦可称为存储资源池。
步骤302,基于CMDB、集群配置数据库或监控数据库识别存储平台异常的开始时间;
步骤303,获得不同应用集群的云硬盘消费不同存储资源池的历史分组信息;
这里,具体可以基于CMDB、集群配置数据库或监控数据库获得不同应用集群的云硬盘消费不同存储资源池的历史分组信息。
步骤304,获得各个特征聚合数据。
这里,该聚合数据中包括不同应用集群的云硬盘从平台异常开始时间之前一段时间内的历史聚合数据。
步骤305,根据阈值策略执行动态阈值检测;
这里,不仅需要对异常发生时刻进行检测,还需要对异常发生时刻之前一个时间窗口之内的历史数据进行检测。
步骤306,如果存储平台异常与集群异常同时出现,或者集群异常在平台异常时刻的前一时间窗口内出现异常,则触发报警;
步骤307,输出异常报告或输出异常消息的报警信息。
这里,异常消息的报警信息可以是报表,也可以是对接到其他业务***的消息,在此报警信息的输出形式并不限定,只要可以表示出存储平台异常或集群异常即可。
图4为本申请中电子设备的结构组成示意图一,如图4所示,该电子设备包括:
确定单元401,用于基于应用集群的配置信息确定应用集群与存储资源池的映射关系;
生成单元402,用于基于所述映射关系生成不同应用集群在不同存储资源池的分组信息;
聚合单元403,用于基于所述分组信息对不同应用集群的关键存储指标进行聚合,确定不同应用集群在不同存储资源池的阈值策略;
检测单元404,用于基于所述阈值策略在对应时间窗口内对目标对象的性能进行异常检测,所述目标对象包括各应用集群或各应用集群中各应用服务器中的至少一个。
优选方案中,检测单元404,具体用于基于所述阈值策略在对应时间窗口内对各应用集群在历史时间窗口内的特定存储指标进行异常检测,所述特定存储指标包括各应用集群与各集群内节点之间的输入输出带宽流量和每秒读写操作的次数中的至少一个;和/或
基于所述阈值策略在对应时间窗口内对各应用集群在历史时间窗口内的节点相关性存储指标进行异常检测;所述节点相关性存储指标包括各集群内节点间的输入输出带宽流量、各集群内节点间的流量节点数量、各集群内节点间的链路数量中的至少一个。
优选方案中,该电子设备还包括:处理单元405和建立单元406;
其中,处理单元405,用于对历史时间窗口内各集群内节点的节点相关性存储指标的数据进行处理,得到各滑动窗口中的指标数据;
确定单元401,还用于基于各集群内节点和各所述指标数据得到不同应用集群的指标相关性系数;
建立单元406,用于基于所述指标相关性系数建立指标相关系数图;
确定单元401,还用于基于所述阈值策略将所述指标相关系数图中满足目标条件的指标相关性系数所对应的应用集群确定为异常应用集群,所述目标条件表征集群内节点之间指标相关系数较弱。
优选方案中,输出单元407,用于如果检测结果表征至少一个目标对象存在性能异常,输出报警信息。
优选方案中,该电子设备还包括:
获取单元408,用于获取历史时间窗口内各目标对象的特征聚合数据;
确定单元401,还用于如果所述特征聚合数据的目标值超出边界阈值,确定所述至少一个目标对象存在性能异常;
所述目标值用于反映所述特征聚合数据的数据特性。
优选方案中,确定单元401,还用于基于所述分组信息得到不同应用集群在不同存储资源池的历史负载数据;
聚合单元403,具体用于对所述历史负载数据进行聚合计算,得到不同应用集群在不同存储资源池的边界阈值;
生成单元402,用于基于所述边界阈值生成所述阈值策略。
优选方案中,获取单元408,还用于获取所述存储资源池存在性能异常的开始时间;
检测单元404,具体用于基于所述阈值策略中的边界阈值对各应用集群在所述开始时间所对应的时间窗口内的历史数据进行异常检测;或者,对各应用集群在所述开始时间之前一段时间所对应的时间窗口内的历史数据进行异常检测。
优选方案中,该电子设备还包括:
排序单元409,用于按照所述不同应用集群的指标相关性系数对各应用集群进行性能异常检测的排序;
显示单元410,用于根据排序结果呈现各指标相关性系数对应的应用集群范围下的监控指标数据。
优选方案中,该输出单元407,还用于输出所述指标相关性系数的变化曲线图。
基于变化曲线图便于运维工程师加速决策。
通过本申请提供的方案,通过不同应用集群在不同存储资源池的分组信息对不同应用集群的关键存储指标进行聚合,得到不同应用集群在不同存储资源池的阈值策略;基于该阈值策略在对应时间窗口内对目标对象的性能进行异常检测。如此能够在大数据集群场景中,单一云硬盘性能波动不大,而存储平台受集群资源竞争影响出现严重性能风险的时候,能够快速定位出导致存储***异常的目标应用或节点。
需要说明的是:上述实施例提供的电子设备在对集群数据异常检测时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将电子设备的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的电子设备与上述提供的集群数据异常检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种电子设备,该电子设备包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行上述处理方法中任一项方法步骤。
图5是本申请中电子设备的结构组成示意图二,电子设备500可以是移动电话、计算机、数字广播终端、信息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等终端。图5所示的电子设备500包括:至少一个处理器501、存储器502、至少一个网络接口504和用户接口503。电子设备500中的各个组件通过总线***505耦合在一起。可理解,总线***505用于实现这些组件之间的连接通信。总线***505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线***505。
其中,用户接口503可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器502可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
本申请实施例中的存储器502用于存储各种类型的数据以支持电子设备500的操作。这些数据的示例包括:用于在电子设备500上操作的任何计算机程序,如操作***5021和应用程序5022;联系人数据;电话簿数据;消息;图片;音频等。其中,操作***5021包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022可以包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例方法的程序可以包含在应用程序5022中。
上述本申请实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
在示例性实施例中,本申请实施例还提供了一种计算机可读存储介质,例如包括计算机程序的存储器502,上述计算机程序可由电子设备500的处理器501执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机、平板设备、个人数字助理等。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器运行时,执行上述处理方法中任一项方法步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种集群数据异常检测方法,包括:
基于应用集群的配置信息确定应用集群与存储资源池的映射关系;
基于所述映射关系生成不同应用集群在不同存储资源池的分组信息;
基于所述分组信息对不同应用集群的关键存储指标进行聚合,确定不同应用集群在不同存储资源池的阈值策略;
基于所述阈值策略在对应时间窗口内对目标对象的性能进行异常检测,所述目标对象包括各应用集群或各应用集群中各应用服务器中的至少一个。
2.根据权利要求1所述的方法,其中,所述基于所述阈值策略在对应时间窗口内对目标对象的性能进行异常检测,包括以下之一:
基于所述阈值策略在对应时间窗口内对各应用集群在历史时间窗口内的特定存储指标进行异常检测,所述特定存储指标包括各应用集群与各集群内节点之间的输入输出带宽流量和每秒读写操作的次数中的至少一个;
基于所述阈值策略在对应时间窗口内对各应用集群在历史时间窗口内的节点相关性存储指标进行异常检测;所述节点相关性存储指标包括各集群内节点间的输入输出带宽流量、各集群内节点间的流量节点数量、各集群内节点间的链路数量中的至少一个。
3.根据权利要求2所述的方法,其中,所述基于所述阈值策略在对应时间窗口内对各应用集群在历史时间窗口内的节点相关性存储指标进行异常检测,包括:
对历史时间窗口内各集群内节点的节点相关性存储指标的数据进行处理,得到各滑动窗口中的指标数据;
基于各集群内节点和各所述指标数据得到不同应用集群的指标相关性系数;
基于所述阈值策略将满足目标条件的指标相关性系数所对应的应用集群确定为异常应用集群,所述目标条件表征集群内节点之间指标相关系数较弱。
4.根据权利要求1所述的方法,其中,所述方法还包括:
如果检测结果表征至少一个目标对象存在性能异常,输出报警信息。
5.根据权利要求4所述的方法,其中,所述检测结果表征至少一个目标对象存在性能异常,包括:
获取历史时间窗口内各目标对象的特征聚合数据;
如果所述特征聚合数据的目标值超出边界阈值,确定所述至少一个目标对象存在性能异常;
所述目标值用于反映所述特征聚合数据的数据特性。
6.根据权利要求1所述的方法,其中,所述基于所述分组信息对不同应用集群的关键存储指标进行聚合,以得到不同应用集群在不同存储资源池的阈值策略,包括:
基于所述分组信息得到不同应用集群在不同存储资源池的历史负载数据;
对所述历史负载数据进行聚合计算,得到不同应用集群在不同存储资源池的边界阈值;
基于所述边界阈值生成所述阈值策略。
7.根据权利要求1所述的方法,其中,在所述基于所述阈值策略在对应时间窗口内对目标对象的性能进行异常检测之前,所述方法还包括:
获取所述存储资源池存在性能异常的开始时间;
基于所述阈值策略中的边界阈值对各应用集群在所述开始时间所对应的时间窗口内的历史数据进行异常检测;或者,对各应用集群在所述开始时间之前一段时间所对应的时间窗口内的历史数据进行异常检测。
8.根据权利要求3所述的方法,其中,所述方法还包括:
按照所述不同应用集群的指标相关性系数对各应用集群进行性能异常检测的排序;
根据排序结果呈现各指标相关性系数对应的应用集群范围下的监控指标数据。
9.根据权利要求3所述的方法,其中,所述方法还包括:
输出所述指标相关性系数的变化曲线图。
10.一种电子设备,其中,所述电子设备包括:
确定单元,用于基于应用集群的配置信息确定应用集群与存储资源池的映射关系;
生成单元,用于基于所述映射关系生成不同应用集群在不同存储资源池的分组信息;
聚合单元,用于基于所述分组信息对不同应用集群的关键存储指标进行聚合,确定不同应用集群在不同存储资源池的阈值策略;
检测单元,用于基于所述阈值策略在对应时间窗口内对目标对象的性能进行异常检测,所述目标对象包括各应用集群或各应用集群中各应用服务器中的至少一个。
CN202211151012.5A 2022-09-21 2022-09-21 一种集群数据异常检测方法及电子设备 Pending CN115509853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211151012.5A CN115509853A (zh) 2022-09-21 2022-09-21 一种集群数据异常检测方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211151012.5A CN115509853A (zh) 2022-09-21 2022-09-21 一种集群数据异常检测方法及电子设备

Publications (1)

Publication Number Publication Date
CN115509853A true CN115509853A (zh) 2022-12-23

Family

ID=84504319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211151012.5A Pending CN115509853A (zh) 2022-09-21 2022-09-21 一种集群数据异常检测方法及电子设备

Country Status (1)

Country Link
CN (1) CN115509853A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118012718A (zh) * 2024-04-02 2024-05-10 北京大道云行科技有限公司 一种分布式存储***的实时监控方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118012718A (zh) * 2024-04-02 2024-05-10 北京大道云行科技有限公司 一种分布式存储***的实时监控方法

Similar Documents

Publication Publication Date Title
US20190286510A1 (en) Automatic correlation of dynamic system events within computing devices
CN107025153B (zh) 磁盘的故障预测方法和装置
US10809936B1 (en) Utilizing machine learning to detect events impacting performance of workloads running on storage systems
WO2020093637A1 (zh) 设备状态预测方法、***、计算机装置及存储介质
CN110471821B (zh) 异常变更检测方法、服务器及计算机可读存储介质
CN109976971B (zh) 硬盘状态监测方法和装置
CN110647447B (zh) 用于分布式***的异常实例检测方法、装置、设备和介质
CN116049146B (zh) 一种数据库故障处理方法、装置、设备及存储介质
CN113837596A (zh) 一种故障确定方法、装置、电子设备及存储介质
CN110807050B (zh) 性能分析方法、装置、计算机设备及存储介质
CN115509853A (zh) 一种集群数据异常检测方法及电子设备
CN108667740A (zh) 流量控制的方法、装置及***
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN115580528A (zh) 故障根因定位方法、装置、设备及可读存储介质
CN109144816A (zh) 一种节点健康度检测方法和***
CN114760190A (zh) 一种面向服务的融合网络性能异常检测方法
Bayram et al. Improving reliability with dynamic syndrome allocation in intelligent software defined data centers
CN116057902A (zh) 服务的健康指数
CN108810230B (zh) 一种获取来电提示信息的方法、装置及设备
CN111581044A (zh) 集群优化方法、装置、服务器及介质
US20190018723A1 (en) Aggregating metric scores
CN111815442B (zh) 一种链接预测的方法、装置和电子设备
CN115314404B (zh) 服务优化方法、装置、计算机设备及存储介质
CN112306824B (zh) 磁盘性能评估方法、***、设备及计算机可读存储介质
CN117439899B (zh) 一种基于大数据的通信机房巡检方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination