CN115543671A - 数据分析方法、装置、设备、存储介质及程序产品 - Google Patents

数据分析方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN115543671A
CN115543671A CN202211182174.5A CN202211182174A CN115543671A CN 115543671 A CN115543671 A CN 115543671A CN 202211182174 A CN202211182174 A CN 202211182174A CN 115543671 A CN115543671 A CN 115543671A
Authority
CN
China
Prior art keywords
node
data
indexes
cluster
slow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211182174.5A
Other languages
English (en)
Inventor
黄湘平
李申浩
崔波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202211182174.5A priority Critical patent/CN115543671A/zh
Publication of CN115543671A publication Critical patent/CN115543671A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供一种数据分析方法、装置、设备、存储介质及程序产品,本申请实施例涉及数据分析技术领域,该方法包括:采集目标集群中各个节点的数据指标;所述数据指标包括下述至少一项:节点任务状态指标、网络流量、操作***指标;根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率;根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点。本申请实例提供的方法能够克服现有技术无法在不影响生产运行的基础上,快速定位出集群中的慢节点的问题。

Description

数据分析方法、装置、设备、存储介质及程序产品
技术领域
本申请实施例涉及数据分析技术领域,尤其涉及一种数据分析方法、装置、设备、存储介质及程序产品。
背景技术
大型商业银行构建大数据中心的时候,会采用大规模并行处理(MassivelyParallel Processing,MPP)数据库集群(简称集群)。随着我信息科技发展,信息数据量和业务数据量均处于剧烈激增状态,大型商业银行所构建数据中心的规模也随之增加。为了承载更多的数据,MPP数据库集群的规模也越来越大,同一集群的机器数量也在不断增加。比如,根据业务数据量或者计算资源的需求,集群的节点数量通常会从几十个节点到几百个节点,由于每个节点使用频次不同,硬件本身品质也存在差异,在集群长期的使用过程中,节点本身的损耗也会逐渐产生区别,导致各节点的性能逐渐产生差异,对于MPP数据库来说,由于木桶效应,集群整体的性能通常取决于集群中性能最差的节点,如某一节点性能大幅下降,会严重影响整个集群的对外性能表现,同时也会造成其他节点资源的浪费。集群性能降低时,整体批次时间延长,这时就需要快速定位出集群中性能较低的节点,隔离出集群,进行修复。
目前,已有的方案是停止整个集群的业务,用手工的方式在每个节点开展性能测试,从性能测试的结果中进行人工比对,定位出性能较低的节点,再从这些节点中进行故障排查,进一步确定慢节点。整个过程人工操作,效率低,而且需要停止生产***的运行,即停止对外提供服务,极大的降低了整个***的业务连续性运行的能力。
因此,现有技术无法在不影响生产运行的基础上,快速定位出集群中的慢节点。
发明内容
本申请实施例提供一种数据分析方法、装置、设备、存储介质及程序产品,以克服现有技术无法在不影响生产运行的基础上,快速定位出集群中的慢节点的问题。
第一方面,本申请实施例提供一种数据分析方法,所述方法包括:
采集目标集群中各个节点的数据指标;所述数据指标包括下述至少一项:节点任务状态指标、网络流量、操作***指标;
根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率;
根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点。
在一种可能的设计中,所述节点任务状态指标包括:任务数量、任务占用资源信息、任务执行时间、传播延时、传输延时、排队延时;所述网络流量是通过旁路网络监测设备采集的;所述操作***指标包括:指令响应时间、网络时间协议误差时间、每秒交易量、CPU负载、内存使用率、磁盘容量占比、磁盘负载、节点文件数量;
所述根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率,包括:
针对各个所述节点,通过迭代自组织数据分析算法,检测所述节点的数据指标中的离群值以及无效值,并剔除所述离群值以及无效值,得到目标数据;
对所述数据指标中的特征进行关联分析,确定所述数据指标中特征之间的关联关系,并将所述关联关系作为特征关联指标;
将所述目标数据以及所述特征关联指标输入到所述机器学习模型中,预测得到所述节点的故障概率。
在一种可能的设计中,所述方法还包括:
周期性地采集多个集群中的每个集群中各个节点的数据指标,并将每个集群中各个节点的数据指标作为历史指标;
针对每个集群中各个节点,将所述历史指标进行预处理,得到目标历史数据,并根据历史指标,生成历史特征关联指标;
获取每个集群中各个节点是否为慢节点的历史分析结果;
将每个集群中各个节点的所述历史指标、对应的所述历史特征关联指标以及历史分析结果作为样本,并通过各个所述样本,训练机器学习模型。
在一种可能的设计中,所述目标集群为至少一个集群;所述方法还包括:
存储周期性采集的目标集群中各个节点的数据指标、数据指标采集时间、特征关联指标、节点的元数据以及对应的故障概率;
根据目标集群中各个节点的数据指标、数据指标采集时间、特征关联指标、节点的元数据以及对应的故障概率,生成集群慢节点监控数据库,用以支持节点数据的统一管理和包含故障概率的分析结果的追溯排查。
在一种可能的设计中,
所述根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点,包括:
针对各个所述节点,若预测的所述节点的故障概率大于或等于预设概率阈值,则确定所述节点为所述目标集群中的慢节点;
相应的,所述方法还包括:
针对所述慢节点,触发告警操作,并统计告警次数;
根据所述慢节点对应的数据指标采集时间、告警的次数以及数据指标,生成慢节点分析结果报表,用以支持判断是否进行节点隔离与修复。
在一种可能的设计中,所述方法还包括:
根据所述集群慢节点监控数据库,通过所述慢节点的标识,查找所述慢节点对应的历史相关数据;
根据所述历史相关数据和所述慢节点分析结果报表,确定所述慢节点形成的原因。
第二方面,本申请实施例提供一种数据分析装置,所述装置包括:
所述装置包括:
采集模块,用于采集目标集群中各个节点的数据指标;所述数据指标包括下述至少一项:节点任务状态指标、网络流量、操作***指标;
预测模块,用于根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率;
数据分析模块,用于根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点。
第三方面,本申请实施例提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的数据分析方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的数据分析方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的数据分析方法。
本实施例提供的数据分析方法、装置、设备、存储介质及程序产品,首先采集目标集群中各个节点的数据指标;所述数据指标包括下述至少一项:节点任务状态指标、网络流量、操作***指标;然后根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率;再根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点。因此,通过采集集群各节点性能密切相关的各项数据,基于建立的机器学习模型多维度分析,来预测节点的故障概率,无需停止对外业务服务,达到了较少地停机时间,实现了通过机器学习模型预测出故障概率,能够准确、快速地定位慢节点,进而能够支持判断是否进行节点隔离与修复,来保证业务***持续稳定运行。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据分析方法的场景示意图;
图2为本申请再一实施例提供的数据分析方法的场景示意图;
图3为本申请实施例提供的数据分析方法的流程示意图;
图4为本申请实施例提供的数据分析装置的结构示意图;
图5为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前,已有的方案是停止整个集群的业务,用手工的方式在每个节点开展性能测试,从性能测试的结果中进行人工比对,定位出性能较低的节点,再从这些节点中进行故障排查,进一步确定慢节点。整个过程人工操作,效率低,而且需要停止生产***的运行,即停止对外提供服务,极大的降低了整个***的业务连续性运行的能力。因此,现有技术无法在不影响生产运行的基础上,快速定位出集群中的慢节点。
针对现有技术存在的问题,本申请的技术构思是通过采集集群各节点性能密切相关的各项数据,基于建立的机器学习模型多维度分析,来预测节点的故障概率,无需停止对外业务服务,达到了较少地停机时间,实现了通过机器学习模型预测出故障概率,能够准确、快速地定位慢节点,进而能够支持判断是否进行节点隔离与修复,来保证业务***持续稳定运行。
术语解释:
MPP数据库集群:是针对分析工作负载进行了优化的数据库集群,有多台服务器组成,能够聚合和处理大型数据集,简称集群。
大数据中心:为处理大规模数据集建立的多个数据库集群和辅助***的***集合。
慢节点:在MPP集群内部的节点中,由于硬件老化,资源不足等原因,导致处理外部请求的速度低于阀值的节点。由于木桶效应,慢节点会导致整体集群的性能下降。
任务数量:集群中每个节点某个时间或者某个时间段上的任务数量。
任务占用资源信息(即任务占用资源情况):集群中各个节点上的任务所占资源情况。
任务执行时间:节点中各个历史任务和现存任务的执行时间。
传播延时:电信号或光信号从一个节点传播到另一节点所需时间。
传输延时:以给定传输速率传输一定数量的数据所需时间。
排队延时:多台服务器同时想在网络上发送数据时就会出现排队延时。
数据流量统计(即网络流量):引入旁路网络监测设备,对各节点的网络流量进行无打扰收集,增加关键***性能指标,加强对慢节点的检测准确度。指令响应时间:从执行指令到反馈执行结果所需时间。例如执行一条SQL语句所需时间。
网络时间协议(Network Time Protocol,NTP)误差:NTP误差时间。
性能测试指标(Transaction per Second,TPS):每秒交易量。
在实际应用中,参见图1所示,图1为本申请实施例提供的数据分析方法的场景示意图。本申请的执行主体可以是数据分析装置,该数据分析装置可以部署在电子设备中,比如终端设备或服务器。
示例性地,以一个集群为例,该集群由多台服务器组成,这里的服务器即为节点,如:节点1、节点2、…、节点n。其中,服务器之间是通过交换机连接的,与交换机连接的还可以有旁路网络监测设备,该旁路网络监测设备用无侵入的方式对各个节点的网络流量进行统计,增加采集的性能指标。
具体地,在集群各个节点设置数据采集模块,对各节点关键指标数据(即数据指标)进行收集,并作为性能分析数据;通过引入旁路网络监测设备,对各个节点的网络流量进行无打扰收集,增加关键***性能指标,加强对慢节点的检测准确度。然后采用迭代自组织数据分析算法检测采集到的原始数据(即数据指标)中离群值并剔除离群值及部分无效值,降低噪声数据对分析模型的影响,并且对采集到的原始指标(这里指数据指标)进行特征分析和关联分析,生成新的特征指标,并存储在特征指标库,用于后续周期中数据分析模型的优化。将预处理后的数据指标以及新的特征指标输入到建立好的机器学习模型中,输出各个节点的预测结果,即故障概率。基于故障概率以及预定义的概率阈值,确定哪个或哪些节点是慢节点,实现了快速、准确地定位性能较差的节点即慢节点。
其中,这里的数据分析装置可以为集群性能监控***,结合图2所示,图2为本申请再一实施例提供的数据分析方法的场景示意图。该集群性能监控***可以包括数据采集子***、数据处理和指标分析子***、数据管理子***以及查询和告警子***。
具体地,数据采集子***,用于周期性对集群进行相关指标采集,这里的相关指标可以包括但不限于集群任务状态(即节点任务状态)、网络层面指标(即网络流量)和***层面指标(即操作***指标)。
数据处理和指标分析子***,用于对于原始数据进行预处理,并建立机器学习算法模型对预处理后的指标进行分析,计算慢节点的概率。其中,新建独立节点或集群数据库,通过按照指定格式对统计指标数据进行统一存储,以备后续算法模型数据调用。
数据管理子***,用于存储特征指标库中的所有指标信息,集群节点元数据和慢节点概率值等。其中,数据管理子***将数据处理和指标分析子***分析加工过的数据进行保存,包括信息采集时间(这里指数据指标采集时间)、原始指标数据(这里指数据指标)、关联分析生成新的特征指标数据(这里指特征关联指标)、集群节点元数据和算法模型分析结果(这里指预测的故障概率)等,生成集群慢节点监控数据库,便于数据的统一管理和分析结果追溯排查。
查询和告警子***:运维人员可以登录查询和告警子***,对当前集群各节点的运行指标和慢节点风险进行查询,根据需要生成慢节点分析结果报表;根据需要设置慢节点告警阀值;对于慢节点分析值概率达到阀值以上的节点(即预测的故障概率大于或等于预设概率阈值的节点)触发告警,及时通知***人员是否进行节点隔离与修复。基于筛查结果进行节点隔离,并将筛查结果录入数据库。还用于支持优化数据库内历史数据,优化模型参数,进一步提高分析模型的精确度。
因此,通过采集集群各节点性能密切相关的各项数据,基于建立的机器学习模型多维度分析,来预测节点的故障概率,无需停止对外业务服务,达到了较少地停机时间,实现了通过机器学习模型预测出故障概率,能够准确、快速地定位慢节点,进而能够支持判断是否进行节点隔离与修复,来保证业务***持续稳定运行。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图3为本申请实施例提供的数据分析方法的流程示意图,该方法可以包括:
S301、采集目标集群中各个节点的数据指标。
其中,所述数据指标包括下述至少一项:节点任务状态指标、网络流量、操作***指标。
本实施例中,数据分析方法的执行主体可以是数据分析装置,该数据分析装置可以部署在电子设备中,比如终端设备、服务器等。具体地,可以通过在集群中每个节点(即服务器)安装数据采集模块或数据采集子***,进行周期性地采集数据指标,如节点任务状态指标、网络流量、操作***指标等。
S302、根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率。
本实施例中,可以通过训练机器学习模型,比如,神经网络模型,支持多输入多输出,即将各个节点的多维特征数据输入到训练好的神经网络模型中,输出用于确定各个节点是否为慢节点的预测结果,这里的预测结果可以是故障概率。因此,通过训练的机器学习模型能够预测用于确定节点是否为慢节点的故障概率,提高了慢节点定位效率以及准确率。
在一种可能的设计中,如何训练机器学习模型,可以通过以下步骤实现:
步骤a1、周期性地采集多个集群中的每个集群中各个节点的数据指标,并将每个集群中各个节点的数据指标作为历史指标;
步骤a2、针对每个集群中各个节点,将所述历史指标进行预处理,得到目标历史数据,并根据历史指标,生成历史特征关联指标;
步骤a3、获取每个集群中各个节点是否为慢节点的历史分析结果;
步骤a4、将每个集群中各个节点的所述历史指标、对应的所述历史特征关联指标以及历史分析结果作为样本,并通过各个所述样本,训练机器学习模型。
本实施例中,以一个集群为例,通过周期性地采集该集群中各个节点的数据指标,并将每个集群中各个节点的数据指标作为历史指标。在训练机器学习模型之前,为了降低噪声数据对模型的影响,可以先对数据指标进行预处理。这里预处理的过程可以是采用代自组织数据分析算法检测原始数据中的离群值并剔除离群值及部分无效值。
另外,为了增加输入量的维度,进而提高机器学习模型精度,可以对数据指标进行特征分析和关联分析,生成新的特征指标,即关联特征指标。
然后基于历史指标以及历史关联特征指标进行结果分析,如前期可以是基于数学模型和运维经验对慢节点进行排查和选择:一方面为定位慢节点问题积累经验方法,另一方面为机器学习算法模型训练提供训练数据支持。将分析结果(比如节点为慢节点,标记为0;节点为非慢节点,标记为1。)作为训练样本的标签。不断将历史分析数据(包括历史指标、历史关联特征指标以及分析结果)进行模型训练,优化模型参数。具体地对统计指标构建人工神经网络算法,拟合各统计指标与慢节点概率的函数解析式。
因此,通过训练的机器学习模型能够预测用于确定节点是否为慢节点的故障概率,提高了慢节点定位效率以及准确率。
S303根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点。
在一种可能的设计中,所述根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点,可以通过以下步骤实现:
针对各个所述节点,若预测的所述节点的故障概率大于或等于预设概率阈值,则确定所述节点为所述目标集群中的慢节点。
本公开实施例中,可以通过设定的阈值与故障概率比对,确定是否达到慢节点的条件。对于慢节点的概率达到阀值以上的节点触发告警,及时通知***人员是否进行节点隔离与修复。
本申请提供的数据分析方法,通过采集目标集群中各个节点的数据指标;所述数据指标包括下述至少一项:节点任务状态指标、网络流量、操作***指标;然后根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率;再根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点。因此,通过采集集群各节点性能密切相关的各项数据,基于建立的机器学习模型多维度分析,来预测节点的故障概率,无需停止对外业务服务,达到了较少地停机时间,实现了通过机器学习模型预测出故障概率,能够准确、快速地定位慢节点,进而能够支持判断是否进行节点隔离与修复,来保证业务***持续稳定运行。
在一种可能的设计中,所述根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率,可以通过以下步骤实现:
步骤b1、针对各个所述节点,通过迭代自组织数据分析算法,检测所述节点的数据指标中的离群值以及无效值,并剔除所述离群值以及无效值,得到目标数据;
步骤b2、对所述数据指标中的特征进行关联分析,确定所述数据指标中特征之间的关联关系,并将所述关联关系作为特征关联指标;
步骤b3、将所述目标数据以及所述特征关联指标输入到所述机器学习模型中,预测得到所述节点的故障概率。
其中,所述节点任务状态指标包括:任务数量、任务占用资源信息、任务执行时间、传播延时、传输延时、排队延时;所述网络流量是通过旁路网络监测设备采集的;所述操作***指标包括:指令响应时间、网络时间协议误差时间、每秒交易量、CPU负载、内存使用率、磁盘容量占比、磁盘负载、节点文件数量。
本实施例中,为了降低噪声数据对模型的影响,可以先对数据指标进行预处理,然后基于预处理后的指标结合由数据指标生成的新的指标作为输入量,输入到训练好的机器学习模型中,预测每个节点的故障概率。
具体地,通过迭代自组织数据分析算法,检测每个节点的数据指标中的离群值以及无效值,并剔除离群值以及无效值,得到每个节点对应的目标数据;为了进一步地提高机器学习模型精度,可以在多维度的目标数据基础上,增加新的指标,这里新的指标是通过对数据指标中的特征进行关联分析,确定数据指标中特征之间的关联关系,由所述关联关系作为特征关联指标即新的指标,再将每个节点的目标数据以及特征关联指标输入到所述机器学习模型中,预测得到每个节点的故障概率。
在一种可能的设计中,本实施例在上述实施例的基础上,对数据分析方法进行了详细说明。所述方法还可以通过以下步骤实现:
步骤c1、存储周期性采集的目标集群中各个节点的数据指标、数据指标采集时间、特征关联指标、节点的元数据以及对应的故障概率;
步骤c2、根据目标集群中各个节点的数据指标、数据指标采集时间、特征关联指标、节点的元数据以及对应的故障概率,生成集群慢节点监控数据库,用以支持节点数据的统一管理和包含故障概率的分析结果的追溯排查。
其中,所述目标集群为至少一个集群。
本实施例中,通过周期性地采集数据指标,生成集群慢节点监控数据库,用以支持节点数据的统一管理和包含故障概率的分析结果的追溯排查。
具体地,存储特征指标库中的所有指标信息(如数据指标和新的指标),集群节点元数据和慢节点概率值(即慢节点的故障概率)等。将指标数据以及新的指标在加工过程中存在的数据进行保存,包括信息采集时间、原始指标数据、关联分析生成新的特征指标数据、集群节点元数据和算法模型分析结果等,生成集群慢节点监控数据库,便于数据的统一管理和分析结果追溯排查。比如,监管监控慢节点在哪个阶段出现问题等。
在一种可能的设计中,数据分析方法,还可以通过以下步骤实现:
步骤d1、针对所述慢节点,触发告警操作,并统计告警次数;
步骤d2、根据所述慢节点对应的数据指标采集时间、告警的次数以及数据指标,生成慢节点分析结果报表,用以支持判断是否进行节点隔离与修复。
本实施例中,由于是周期性地采集,因此,每个采集周期,即可确定是否有慢节点,并对慢节点触发告警,以及统计告警次数,如目前阶段采集了三个周期,每个周期中均有慢节点1,则针对慢节点1在每个周期上均可以触发告警,并统计触发告警次数为3。
具体地,运维人员可以登录查询和告警子***,对当前集群各个节点的运行指标和慢节点风险进行查询,生成慢节点分析结果报表。对于慢节点分析值概率达到阀值以上的节点触发告警,及时通知***人员是否进行节点隔离与修复。
在一种可能的设计中,该数据分析方法还可以通过以下步骤实现:
步骤e1、根据所述集群慢节点监控数据库,通过所述慢节点的标识,查找所述慢节点对应的历史相关数据;
步骤e2、根据所述历史相关数据和所述慢节点分析结果报表,确定所述慢节点形成的原因。
本实施例中,可以根据慢节点的标识,从集群慢节点监控数据库中查找该慢节点对应的历史相关数据,比如,该慢节点的数据指标、数据指标采集时间、特征关联指标、节点的元数据以及对应的故障概率等,然后根据该慢节点的标识,从该慢节点分析结果报表中查找与对应的告警次数以及具体的指标,确定是否对该节点进行隔离与修复,如果筛查结果是进行节点隔离,并将筛查结果录入数据库,优化数据库内历史数据,优化模型参数,进一步提高分析模型的精确度。
为了实现所述数据分析方法,本实施例提供了一种数据分析装置。参见图4,图4为本申请实施例提供的数据分析装置的结构示意图;数据分析装置40,包括:
采集模块401,用于采集目标集群中各个节点的数据指标;所述数据指标包括下述至少一项:节点任务状态指标、网络流量、操作***指标;
预测模块402,用于根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率;
数据分析模块403,用于根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点。
本实施例中,通过设置采集模块401、预测模块402以及数据分析模块403,用于采集目标集群中各个节点的数据指标;所述数据指标包括下述至少一项:节点任务状态指标、网络流量、操作***指标;然后根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率;再根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点。因此,通过采集集群各节点性能密切相关的各项数据,基于建立的机器学习模型多维度分析,来预测节点的故障概率,无需停止对外业务服务,达到了较少地停机时间,实现了通过机器学习模型预测出故障概率,能够准确、快速地定位慢节点,进而能够支持判断是否进行节点隔离与修复,来保证业务***持续稳定运行。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在一种可能的设计中,所述节点任务状态指标包括:任务数量、任务占用资源信息、任务执行时间、传播延时、传输延时、排队延时;所述网络流量是通过旁路网络监测设备采集的;所述操作***指标包括:指令响应时间、网络时间协议误差时间、每秒交易量、CPU负载、内存使用率、磁盘容量占比、磁盘负载、节点文件数量;
所述预测模块,具体用于:
针对各个所述节点,通过迭代自组织数据分析算法,检测所述节点的数据指标中的离群值以及无效值,并剔除所述离群值以及无效值,得到目标数据;
对所述数据指标中的特征进行关联分析,确定所述数据指标中特征之间的关联关系,并将所述关联关系作为特征关联指标;
将所述目标数据以及所述特征关联指标输入到所述机器学习模型中,预测得到所述节点的故障概率。
在一种可能的设计中,所述数据分析装置还包括:模型训练模块;模型训练模块,用于:
周期性地采集多个集群中的每个集群中各个节点的数据指标,并将每个集群中各个节点的数据指标作为历史指标;
针对每个集群中各个节点,将所述历史指标进行预处理,得到目标历史数据,并根据历史指标,生成历史特征关联指标;
获取每个集群中各个节点是否为慢节点的历史分析结果;
将每个集群中各个节点的所述历史指标、对应的所述历史特征关联指标以及历史分析结果作为样本,并通过各个所述样本,训练机器学习模型。
在一种可能的设计中,所述目标集群为至少一个集群;所述数据分析装置还包括:存储模块和生成模块;
存储模块,用于存储周期性采集的目标集群中各个节点的数据指标、数据指标采集时间、特征关联指标、节点的元数据以及对应的故障概率;
生成模块,用于根据目标集群中各个节点的数据指标、数据指标采集时间、特征关联指标、节点的元数据以及对应的故障概率,生成集群慢节点监控数据库,用以支持节点数据的统一管理和包含故障概率的分析结果的追溯排查。
在一种可能的设计中,所述数据分析模块,具体用于:
针对各个所述节点,若预测的所述节点的故障概率大于或等于预设概率阈值,则确定所述节点为所述目标集群中的慢节点;
相应的,所述数据分析装置,还包括:告警模块;
告警模块,用于针对所述慢节点,触发告警操作,并统计告警次数;
其中,生成模块,还用于:
根据所述慢节点对应的数据指标采集时间、告警的次数以及数据指标,生成慢节点分析结果报表,用以支持判断是否进行节点隔离与修复。
在一种可能的设计中,所述数据分析装置还包括:处理模块;处理模块,用于:
根据所述集群慢节点监控数据库,通过所述慢节点的标识,查找所述慢节点对应的历史相关数据;
根据所述历史相关数据和所述慢节点分析结果报表,确定所述慢节点形成的原因。
为了实现所述数据分析方法,本实施例提供了一种电子设备。图5为本申请实施例提供的电子设备的结构示意图。如图5所示,本实施例的电子设备50包括:至少一个处理器501以及存储器502;其中,存储器502,用于存储计算机执行指令;至少一个处理器501,用于执行存储器存储的计算机执行指令,以实现上述实施例中所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的数据分析方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的数据分析方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponent,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种数据分析方法,其特征在于,所述方法包括:
采集目标集群中各个节点的数据指标;所述数据指标包括下述至少一项:节点任务状态指标、网络流量、操作***指标;
根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率;
根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点。
2.根据权利要求1所述的方法,其特征在于,所述节点任务状态指标包括:任务数量、任务占用资源信息、任务执行时间、传播延时、传输延时、排队延时;所述网络流量是通过旁路网络监测设备采集的;所述操作***指标包括:指令响应时间、网络时间协议误差时间、每秒交易量、CPU负载、内存使用率、磁盘容量占比、磁盘负载、节点文件数量;
所述根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率,包括:
针对各个所述节点,通过迭代自组织数据分析算法,检测所述节点的数据指标中的离群值以及无效值,并剔除所述离群值以及无效值,得到目标数据;
对所述数据指标中的特征进行关联分析,确定所述数据指标中特征之间的关联关系,并将所述关联关系作为特征关联指标;
将所述目标数据以及所述特征关联指标输入到所述机器学习模型中,预测得到所述节点的故障概率。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
周期性地采集多个集群中的每个集群中各个节点的数据指标,并将每个集群中各个节点的数据指标作为历史指标;
针对每个集群中各个节点,将所述历史指标进行预处理,得到目标历史数据,并根据历史指标,生成历史特征关联指标;
获取每个集群中各个节点是否为慢节点的历史分析结果;
将每个集群中各个节点的所述历史指标、对应的所述历史特征关联指标以及历史分析结果作为样本,并通过各个所述样本,训练机器学习模型。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述目标集群为至少一个集群;所述方法还包括:
存储周期性采集的目标集群中各个节点的数据指标、数据指标采集时间、特征关联指标、节点的元数据以及对应的故障概率;
根据目标集群中各个节点的数据指标、数据指标采集时间、特征关联指标、节点的元数据以及对应的故障概率,生成集群慢节点监控数据库,用以支持节点数据的统一管理和包含故障概率的分析结果的追溯排查。
5.根据权利要求4所述的方法,其特征在于,所述根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点,包括:
针对各个所述节点,若预测的所述节点的故障概率大于或等于预设概率阈值,则确定所述节点为所述目标集群中的慢节点;
相应的,所述方法还包括:
针对所述慢节点,触发告警操作,并统计告警次数;
根据所述慢节点对应的数据指标采集时间、告警的次数以及数据指标,生成慢节点分析结果报表,用以支持判断是否进行节点隔离与修复。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述集群慢节点监控数据库,通过所述慢节点的标识,查找所述慢节点对应的历史相关数据;
根据所述历史相关数据和所述慢节点分析结果报表,确定所述慢节点形成的原因。
7.一种数据分析装置,其特征在于,所述装置包括:
采集模块,用于采集目标集群中各个节点的数据指标;所述数据指标包括下述至少一项:节点任务状态指标、网络流量、操作***指标;
预测模块,用于根据各个所述节点的数据指标,通过机器学习模型,预测得到各个所述节点的故障概率;
数据分析模块,用于根据预测的各个所述节点的故障概率,确定所述目标集群中的慢节点。
8.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的数据分析方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至6任一项所述的数据分析方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的数据分析方法。
CN202211182174.5A 2022-09-27 2022-09-27 数据分析方法、装置、设备、存储介质及程序产品 Pending CN115543671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211182174.5A CN115543671A (zh) 2022-09-27 2022-09-27 数据分析方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211182174.5A CN115543671A (zh) 2022-09-27 2022-09-27 数据分析方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN115543671A true CN115543671A (zh) 2022-12-30

Family

ID=84730295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211182174.5A Pending CN115543671A (zh) 2022-09-27 2022-09-27 数据分析方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN115543671A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992235A (zh) * 2023-08-09 2023-11-03 哈尔滨天君科技有限公司 一种用于计算机并行化同步的大数据分析***及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992235A (zh) * 2023-08-09 2023-11-03 哈尔滨天君科技有限公司 一种用于计算机并行化同步的大数据分析***及方法

Similar Documents

Publication Publication Date Title
KR101984730B1 (ko) 서버 장애 자동 예측 시스템 및 자동 예측 방법
US9753801B2 (en) Detection method and information processing device
KR102522005B1 (ko) 가상 네트워크 관리를 위한 머신 러닝 기반 vnf 이상 탐지 시스템 및 방법
US10031829B2 (en) Method and system for it resources performance analysis
CN113254255B (zh) 一种云平台日志的分析方法、***、设备及介质
CN112148561B (zh) 业务***的运行状态预测方法、装置及服务器
CN111611146B (zh) 一种微服务故障预测方法和装置
Di et al. Exploring properties and correlations of fatal events in a large-scale hpc system
CN109857618B (zh) 一种监控方法、装置及***
CN112465237B (zh) 基于大数据分析的故障预测方法、装置、设备和存储介质
CN106951360B (zh) 数据统计完整度计算方法和***
CN112433928A (zh) 一种存储设备的故障预测方法、装置、设备及存储介质
CN114356734A (zh) 服务异常检测方法和装置、设备、存储介质
CN115543671A (zh) 数据分析方法、装置、设备、存储介质及程序产品
CN113722134A (zh) 一种集群故障处理方法、装置、设备及可读存储介质
CN115509797A (zh) 一种故障类别的确定方法、装置、设备及介质
US20140067773A1 (en) Transient detection for predictive health management of data processing systems
Turgeman et al. Context-aware incremental clustering of alerts in monitoring systems
Gu et al. Online failure forecast for fault-tolerant data stream processing
CN114566964B (zh) 一种配电网馈线自动化控制方法、装置、设备及存储介质
CN111614504A (zh) 基于时间序列和故障树分析的电网调控数据中心业务特性故障定位方法及***
CN115480948A (zh) 硬盘故障预测方法及相关设备
CN112732517B (zh) 一种磁盘故障告警方法、装置、设备及可读存储介质
CN112882854A (zh) 一种请求异常的处理方法及装置
CN112306831A (zh) 计算集群错误预测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination