CN112433926B - 基于it产品的故障分析方法、***、设备和存储介质 - Google Patents

基于it产品的故障分析方法、***、设备和存储介质 Download PDF

Info

Publication number
CN112433926B
CN112433926B CN202011357555.3A CN202011357555A CN112433926B CN 112433926 B CN112433926 B CN 112433926B CN 202011357555 A CN202011357555 A CN 202011357555A CN 112433926 B CN112433926 B CN 112433926B
Authority
CN
China
Prior art keywords
data
fault
health examination
health
result data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011357555.3A
Other languages
English (en)
Other versions
CN112433926A (zh
Inventor
蒋钊
刘富林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202011357555.3A priority Critical patent/CN112433926B/zh
Publication of CN112433926A publication Critical patent/CN112433926A/zh
Application granted granted Critical
Publication of CN112433926B publication Critical patent/CN112433926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种基于IT产品的故障分析方法、***、设备和存储介质。所述故障分析方法包括:对多种来源的健康检查数据和健康检查结果数据进行结构化处理后,根据其对应的属性信息进行存储并获取其增量数据;基于健康检查结果数据的增量数据计算第一预定时间段内的故障参数、第二预定时间段内的故障数量以及第三预定时间段内的故障数量平均值;当第二预定时间段内的故障数量和第三预定时间段内的故障数量平均值之间的比值超出故障参数限定的范围时确定运维环境异常。本公开提供的故障分析方法通过将多种来源的健康检查原始数据在时间维度上进行集中管理和分析,并根据通用指标分析不同领域的健康检查原始数据,能够确定运维环境的稳定性。

Description

基于IT产品的故障分析方法、***、设备和存储介质
技术领域
本发明涉及计算机应用技术领域,更为具体而言,涉及一种基于IT产品(信息技术产品)的故障分析方法、***、设备和存储介质。
背景技术
现有运维模式中对于故障信息的收集、管理、统计、分析都是依据各运维设备类型和运维指标而分离。数据之间不存在交互关联,也未曾进行过对比分析和关联性分析。这种管理和分析模式既无法将设备的健康状态完整的进行描述,也降低了数据的可用性。分析场景,分析指标等都无法跨领域进行适用,由此也会引发不同等级,不同判断标准之间的故障判断不准确,并且会耗费部分运维资源在单一故障场景的判断分析上。
例如,目前各领域所使用的健康检查方式主要分为以下三类:
第一类是通过各产品自带的指令获取当前产品的健康状态情况。该方式一般是依靠产品本身自检特性进行检查,其判断依据、判断标准都是产品自身设定好的。诸如存储设备的健康检查、服务器的健康检查中查看设备状态,仅为直接获取信息,无需进行任何处理和分析。
第二类是通过各产品自带的指令获取历史记录后人为或自动筛选出具有明确意义的信息。该方式主要是通过对过去一段时间内产品的历史记录进行简单分析,依据人工制定的标准去获取相关信息。诸如服务器健康检查中的故障日志分析。
第三种是通过各产品自带的指令获取当前产品的资源使用情况,再根据人为定制的指标进行判断。该方式主要是预先定义一个阈值,并实时检查产品当前资源的使用情况并进行判断,当资源使用超过设定的阈值时便判断为异常。诸如存储逻辑卷使用率的检查。
可见,现有健康检查因其底层数据来源不同,中间分析方式不同,上层指标需求多元化且存在领域之间的差异,导致其原始数据并未做到充分利用。其次当前检查项基本为设备当前的健康状态,并不存在与历史的健康状态进行对比,缺失时间维度的指标。
发明内容
为解决上述现有技术存在的问题或部分问题,本发明实施方式提供了一种基于IT产品的故障分析方法、***、设备和存储介质,通过将多种来源的健康检查数据和健康检查结果数据在时间维度上进行集中管理和分析,并根据通用指标对不同领域的健康检查原始数据进行分析,以确定运维环境的稳定性。
根据本发明的第一方面,本发明实施方式提供了一种基于IT产品的故障分析方法,其包括:根据数据来源分别获取所述IT产品的健康检查数据和健康检查结果数据;对所述健康检查数据和健康检查结果数据进行结构化处理,并根据结构化处理的健康检查数据和健康检查结果数据对应的属性信息进行存储;基于存储的健康检查数据和健康检查结果数据获取健康检查数据和健康检查结果数据的增量数据;基于所述健康检查结果数据的增量数据计算第一预定时间段内的故障参数;根据所述健康检查结果数据的增量数据获取所述IT产品在第二预定时间段内的故障数量,以及在第三预定时间段内的故障数量平均值;当所述第二预定时间段内的故障数量和第三预定时间段内的故障数量平均值之间的比值超出所述故障参数限定的范围时确定所述IT产品的运维环境异常。
本发明上述实施方式通过将不同来源的健康检查数据和健康检查结果数据结构化处理并根据属性信息存储,可以将不同领域的健康检查源数据和健康检查结果存放在一个统一的位置便于跨领域分析。并且,基于增量数据获取的故障参数判断IT产品的运维环境的异常情况,可以充分利用原始数据并从时间维度这一层面对健康检查结果进行分析,判断出当前运维环境的稳定性。
在本发明的一些实施方式中,基于所述健康检查结果数据的增量数据计算第一预定时间段内的故障参数包括:根据所述健康检查结果数据的增量数据计算所述IT产品在第一预定时间段内的故障数量的均值平方差,作为所述故障参数。
在本发明的一些实施方式中,所述故障分析方法还包括:根据所述健康检查结果数据的增量数据获取所述IT产品在第四预定时间段内的故障统计数据;基于所述故障统计数据获取故障记录曲线;根据所述故障记录曲线预测所述IT产品的运维环境的故障情况。
本发明上述实施方式通过故障记录曲线预测IT产品的运维环境的故障情况,能够根据预警防止故障发生,保障运维环境的安全性和可靠性。
在本发明的一些实施方式中,所述故障分析方法还包括:基于所述故障统计数据计算所述第四预定时间段内故障均值的最小平方差;根据计算得到的最小平方差预测故障情况的故障值范围。
本发明上述实施方式通过预测故障情况的故障值范围,能够为运维人员提供更加准确的故障预测信息,进一步提高运维环境的稳定性。
根据本发明的第二方面,本发明实施方式提供了一种基于IT产品的故障分析***,其包括:源数据获取模块,用于根据数据来源分别获取所述IT产品的健康检查数据和健康检查结果数据;数据存储模块,用于对所述健康检查数据和健康检查结果数据进行结构化处理,并根据结构化处理的健康检查数据和健康检查结果数据对应的属性信息进行存储;增量数据获取模块,用于基于存储的健康检查数据和健康检查结果数据获取健康检查数据和健康检查结果数据的增量数据;故障参数计算模块,用于基于所述健康检查结果数据的增量数据计算第一预定时间段内的故障参数;故障数量计算模块,用于根据所述健康检查结果数据的增量数据获取所述IT产品在第二预定时间段内的故障数量,以及在第三预定时间段内的故障数量平均值;异常判定模块,用于当所述第二预定时间段内的故障数量和第三预定时间段内的故障数量平均值之间的比值超出所述故障参数限定的范围时确定所述IT产品的运维环境异常。
本发明上述实施方式通过将不同来源的健康检查数据和健康检查结果数据结构化处理并根据属性信息存储,可以将不同领域的健康检查源数据和健康检查结果存放在一个统一的位置便于跨领域分析。并且,基于增量数据获取的故障参数判断IT产品的运维环境的异常情况,可以充分利用原始数据并从时间维度这一层面对健康检查结果进行分析,判断出当前运维环境的稳定性。
在本发明的一些实施方式中,基于所述健康检查结果数据的增量数据计算第一预定时间段内的故障参数包括:根据所述健康检查结果数据的增量数据计算所述IT产品在第一预定时间段内的故障数量的均值平方差,作为所述故障参数。
在本发明的一些实施方式中,所述故障分析***还包括故障预测模块,用于执行下述操作:根据所述健康检查结果数据的增量数据获取所述IT产品在第四预定时间段内的故障统计数据;基于所述故障统计数据获取故障记录曲线;根据所述故障记录曲线预测所述IT产品的运维环境的故障情况。
本发明上述实施方式通过故障记录曲线预测IT产品的运维环境的故障情况,能够根据预警防止故障发生,保障运维环境的安全性和可靠性。
在本发明的一些实施方式中,所述故障预测模块还用于执行下述操作:基于所述故障统计数据计算所述第四预定时间段内故障均值的最小平方差;根据计算得到的最小平方差预测故障情况的故障值范围。
本发明上述实施方式通过预测故障情况的故障值范围,能够为运维人员提供更加准确的故障预测信息,进一步提高运维环境的稳定性。
根据本发明的第三方面,本发明实施方式提供一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得计算机执行如下操作:所述操作包括如上任意一种实施方式所述故障分析方法所包含的步骤。
根据本发明的第四方面,本发明实施方式提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时能够实现如上任意一种实施方式所述的故障分析方法。
由上述可知,本发明实施方式提供的基于IT产品的故障分析方法、***、存储介质和设备,通过将多种来源的原始数据进行结构化处理并根据属性信息存储,可以跨领域集中管理健康检查的原始数据,进而实现跨领域的联合分析与比对。同时,基于增量数据获取的故障参数判断IT产品的运维环境的异常情况,从时间维度上对健康检查结果进行分析,以判断当前运维环境的稳定性。
附图说明
图1是根据本发明一种实施方式的基于IT产品的故障分析方法的流程示意图;
图2是根据本发明一种实施方式的基于IT产品的故障分析***的架构图。
具体实施方式
以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。
下面对本文中使用的术语进行简要说明。
IT产品:Information Technology产品,信息技术产品,涉及上层应用、操作***、中间件、底层硬件的服务器、网络设备等多种产品。
图1是根据本发明一种实施方式的基于IT产品的故障分析方法的流程示意图。其中,IT产品的运行环境为前后端分离:后端使用django框架(一个开放源代码的Web应用框架,由跨平台的计算机程序设计语言Python写成),通过python语言实现;前端使用vue框架(一套用于构建用户界面的渐进式框架),前端module(模块)为ant design(设计语言)。
如图1所示,在本发明的一种实施方式中,所述方法可包括:步骤S11、步骤S12、步骤S13、步骤S14、步骤S15和步骤S16,下面对上述步骤进行具体的描述。
在步骤S11中,根据数据来源分别获取IT产品的健康检查数据和健康检查结果数据。在可选的实施方式中,由于数据种类多样,在获取数据时需要根据数据来源的不同分别获取。例如:
1.保存为txt(文本文件)的文件将通过open()函数(Python语言中,用于打开文件)打开读取信息;
2.保存为excel文件(表格文件)的数据通过xlrd(Python语言中,读取Excel文件的扩展工具)模块打开读取信息;
3.保存为数据库的文件可通过直接访问数据库获取信息或通过json(一种数据格式)文件导出后再通过json模块读取信息。
在步骤S12中,对所述健康检查数据和健康检查结果数据进行结构化处理,并根据结构化处理的健康检查数据和健康检查结果数据对应的属性信息进行存储。由此,可以将不同领域之间的源数据(健康检查数据和健康检查结果数据)根据特定的关系进行关联然后进行分析,例如,机房环境的温湿度数据与存储设备的故障数量等进行比对,同一机房的服务器和存储进行比对等。
在一种可选的实施方式中,由于数据种类多样,对获取到的数据(健康检查数据和健康检查结果数据)进行初步的结构化处理成为标准数据,将便于集中分析展示的数据放在一张表中进行处理,将不便于集中分析展示的数据分别存放在不同的表中。其中,后端使用的django框架自带入库操作函数,用于将获取的数据进行存储。
在另一种可选的实施方式中,因获取到的数据格式不同,需根据不同的数据编写不同的函数对数据进行预处理,对预处理过后的数据根据其特点/属性分开保存。
在其他可选的实施方式中,对于可以集中分析展示的数据通过pandas模块(python的一个数据分析包)获取信息并进行结构化处理,将具有相同意义的数据放在同一列。例如,存储的故障信息和服务器的故障信息中的设备名、序列号放在同一列,故障部件放在一列,故障位置放在一列等。
可选的,对于暂时无法集中分析展示的数据则根据获取到的数据分别存放在不同的表中,后续若能与其他数据进行关联整理时再做调整。
在步骤S13中,基于存储的健康检查数据和健康检查结果数据获取健康检查数据和健康检查结果数据的增量数据。在一种可选的实施方式中,通过mysql(一种开放源代码的关系型数据库管理***)获取步骤S12中存储的健康检查数据和健康检查结果数据,之后,通过numpy模块(Python的一种开源的数值计算扩展)进行一些基本的加工计算(如,获取增量数据、获取统计数据等)。
在另一种可选的实施方式中,由于当前获取到的数据大多数为当前的信息,并没有与历史信息进行对比,所以是无法直接获取增量数据。因此,需要根据add_value()函数(增量数据获取函数),通过输入表名,所需要的数据名,筛选条件以及时间跨度便可以将最新的数据与历史中某一段数据进行比对,获取其增加的数据。
在其他可选的实施方式中,还可以基于存储的健康检查数据和健康检查结果数据获取统计数据,从而将获取的零散数据进行统计,具体而言,由于获取到的数据来源不一致,单独计算统计量并无太大所用,因此,当不同领域的数据放置在一起时,需要进行统一时间维度的统计数据比对。可选的,根据统计函数account_value(),通过输入表名,数据名,筛选条件,时间条件便可获得当前时间条件内的统计数据。
此外,还可以通过均值等多种数据加工方式对多种来源的健康检查数据和健康检查结果数据进行加工处理,由此,可以依据设计的应用场景标准对原始数据进行加工处理,并基于加工处理后的数据进行对应的分析判断。
在步骤S14中,基于所述健康检查结果数据的增量数据计算第一预定时间段内的故障参数。在一种可选的实施方式中,基于所述健康检查结果数据的增量数据计算第一预定时间段内的故障参数具体可以包括:根据所述健康检查结果数据的增量数据计算所述IT产品在第一预定时间段内的故障数量的均值平方差,作为所述故障参数。
在步骤S15中,根据所述健康检查结果数据的增量数据获取所述IT产品在第二预定时间段内的故障数量,以及在第三预定时间段内的故障数量平均值。
在步骤S16中,当所述第二预定时间段内的故障数量和第三预定时间段内的故障数量平均值之间的比值超出所述故障参数限定的范围时确定所述IT产品的运维环境异常。
需要说明的是,步骤S14和步骤S15中的“第一预定时间段”、“第二预定时间段”和“第三预定时间段”的具体值由运维人员进行设定。
本发明根据上述故障分析方法提供一种判断IT产品的运维环境是否异常的示例:
根据健康检查结果数据的增量数据获取过去一个月(即,第一预定时间段)的故障数量的均值平方差计算得到故障参数为0.2和1.8,则故障参数限定的正常范围为0.2~1.8。当单日(即,第二预定时间段)故障数量与前10日(即,第三预定时间段)故障数量平均值之间的比值超过1.8或小于0.2的情况下判断为当日运维情况存在故障率异常的情况。
根据该示例可知,上述故障分析方法中除时间范围以外无人工制定的任何数值。所获取的故障参数是通过实际数据计算生成的数值,基于该数值可以在时间维度上确认IT产品的运维环境的运行情况。并且,通过二次分析可以判断当前设备健康检查结果和历史健康检查结果之间差异,并进一步可以推测当前运维环境是否稳定等信息。
采用本发明实施方式的上述方法,通过将不同来源的健康检查数据和健康检查结果数据结构化处理并根据属性信息存储,可以将不同领域的健康检查源数据和健康检查结果存放在一个统一的位置进行集中管理和分析,便于实现跨领域的联合分析和对比。并且,通过计算通用类指标(故障参数)从时间维度上对IT产品的运维环境的健康状态进行分析,能够充分利用原始数据并从时间维度对健康检查结果进行二次分析,以确定当前运维环境的稳定性。
在一种可选的实施方式中,根据所述健康检查结果数据的增量数据获取所述IT产品在第四预定时间段内的故障统计数据;基于所述故障统计数据获取故障记录曲线;根据所述故障记录曲线预测所述IT产品的运维环境的故障情况。其中,第四预定时间段的具体数值由运维人员设定。可选的,基于所述故障统计数据计算所述第四预定时间段内故障均值的最小平方差;根据计算得到的最小平方差预测故障情况的故障值范围。
本发明根据上述可选的实施方式提供一种预测IT产品的运维环境的故障情况的示例:
A.获取当前日志的前一个月(即,第四预定时间段)的故障统计数据;
B.通过统计学方法计算出前一个月故障均值的最小平方差;
C.通过降温算法测算最为符合当前历史故障记录的曲线;
D.依据C中测算的曲线预测当日可能存在的故障。
E.依据最小平方差和预测的故障值推测出当日可能存在的故障值的范围。
通过故障记录曲线预测IT产品的运维环境的故障情况,并预测故障情况的故障值范围,能够根据预警防止故障发生,为运维人员提供较为准确的故障预测信息,保障运维环境的安全性和可靠性。
在另一种可选的实施方式中,针对IT产品的运维情况的稳定性分析可以通过下述方法实现:
a.获取当前日期前一个月的故障统计数据;
b.通过统计学方法计算出前一个月故障值的均值平方差;
c.通过统计学方法计算出前一个月故障值的均值加减均值平方差开方,得出前一个月中存在的误差较大的数据。
d.计算出误差较大的数据占总数的比值。
e.计算当前故障值与均值之间的比值,当该比值超过步骤d得到的比值时,则判断为当前故障值为误差较大的数据,即当前的运维情况不稳定。
在其他可选的实施方式中,故障信息获取处理分析后需要进行展示。可选的,在前端通过vue和ant design构建的模块进行展示。其中,展示可以分为两类:
一类是数据展示,这部分通过table(表格)进行展示。
另一类是统计图进行展示,这部分通过echarts(Enterprise Charts,商业级数据图表,提供直观,生动,可交互,可高度个性化定制的数据可视化图表)进行展示。
数据展示部分将各健康检查结果直接从数据库中获取后直接进行展示。
统计图展示则是从数据库中获取数据后进行整理再依据不同的展示参数进行展示,诸如line(Line Chart,折线图),bar(Bar Chart,柱状图),pie(Pie chart,饼状图)等不同的图表。同时图表支持数据钻取,可通过对图表的操作获取更深层次的数据。
此外,除上述两种数据展示外,还有少量的分析结果展示,这部分数据展示直接以文本格式返回至前端显示,并依据结果改变显示的色彩和字体。
通过对数据进行展示,为运维人员提供更加直观、清晰的运维情况。
图2是根据本发明一种实施方式的基于IT产品的故障分析***的架构图。
如图2所示,所述故障分析***包括:
源数据获取模块210,用于根据数据来源分别获取所述IT产品的健康检查数据和健康检查结果数据。
数据存储模块220,用于对所述健康检查数据和健康检查结果数据进行结构化处理,并根据结构化处理的健康检查数据和健康检查结果数据对应的属性信息进行存储。
增量数据获取模块230,用于基于存储的健康检查数据和健康检查结果数据获取健康检查数据和健康检查结果数据的增量数据。
故障参数计算模块240,用于基于所述健康检查结果数据的增量数据计算第一预定时间段内的故障参数。在一种可选的实施方式中,基于所述健康检查结果数据的增量数据计算第一预定时间段内的故障参数具体可以包括:根据所述健康检查结果数据的增量数据计算所述IT产品在第一预定时间段内的故障数量的均值平方差,作为所述故障参数。
故障数量计算模块250,用于根据所述健康检查结果数据的增量数据获取所述IT产品在第二预定时间段内的故障数量,以及在第三预定时间段内的故障数量平均值。
异常判定模块260,用于当所述第二预定时间段内的故障数量和第三预定时间段内的故障数量平均值之间的比值超出所述故障参数限定的范围时确定所述IT产品的运维环境异常。
故障预测模块270,用于根据所述健康检查结果数据的增量数据获取所述IT产品在第四预定时间段内的故障统计数据;基于所述故障统计数据获取故障记录曲线;根据所述故障记录曲线预测所述IT产品的运维环境的故障情况。可选的,故障预测模块270还用于基于所述故障统计数据计算所述第四预定时间段内故障均值的最小平方差;根据计算得到的最小平方差预测故障情况的故障值范围。
需要说明的是,各模块中的“第一预定时间段”、“第二预定时间段”、“第三预定时间段”和“第四预定时间段”的具体值由运维人员进行设定。
数据展示模块280,用于对获取的健康检查数据和健康检查结果数据、故障情况的信息进行处理分析后展示。可选的,在前端通过vue和ant design构建数据展示模块280进行展示。其中,展示可以分为两类:
一类是数据展示,这部分通过table(表格)进行展示。
另一类是统计图进行展示,这部分通过echarts(Enterprise Charts,商业级数据图表,提供直观,生动,可交互,可高度个性化定制的数据可视化图表)进行展示。
数据展示部分将各健康检查结果直接从数据库中获取后直接进行展示。
统计图展示则是从数据库中获取数据后进行整理再依据不同的展示参数进行展示,诸如line(Line Chart,折线图),bar(Bar Chart,柱状图),pie(Pie chart,饼状图)等不同的图表。同时图表支持数据钻取,可通过对图表的操作获取更深层次的数据。
此外,除上述两种数据展示外,还有少量的分析结果展示,这部分数据展示直接以文本格式返回至前端显示,并依据结果改变显示的色彩和字体。
采用本发明实施方式的故障分析***,通过将不同来源的健康检查数据和健康检查结果数据结构化处理并根据属性信息存储,可以将不同领域的健康检查源数据和健康检查结果存放在一个统一的位置进行集中管理和分析,便于实现跨领域的联合分析和对比。并且,通过计算通用类指标(故障参数)从时间维度上对IT产品的运维环境的健康状态进行分析,能够充分利用原始数据并从时间维度对健康检查结果进行二次分析,以确定当前运维环境的稳定性。此外,通过故障记录曲线预测IT产品的运维环境的故障情况,并预测故障情况的故障值范围,能够根据预警防止故障发生,为运维人员提供较为准确的故障预测信息,保障运维环境的安全性和可靠性。以及,通过对数据进行展示,为运维人员提供更加直观、清晰的运维情况,便于后续的故障处理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。
对应的,本发明实施方式还提供一种计算机可读存储介质,其上存储有计算机可读指令或程序,所述计算机可读指令或程序被处理器执行时,使得计算机执行如下操作:所述操作包括如上任意一种实施方式所述故障分析方法所包含的步骤,在此不再赘述。其中,所述存储介质可以包括:例如,光盘、硬盘、软盘、闪存、磁带等。
另外,本发明实施方式还提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令或程序,其中,所述一条或多条计算机指令或程序被所述处理器执行时能够实现如上任意一种实施方式所述的故障分析方法。所述计算机设备可以是,例如,服务器、台式计算机、笔记本计算机等。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。因此本发明的保护范围应以权利要求为准。

Claims (8)

1.一种基于IT信息技术产品的故障分析方法,其特征在于,所述故障分析方法包括:
根据数据来源分别获取IT产品的健康检查数据和健康检查结果数据;
对所述健康检查数据和健康检查结果数据进行结构化处理,并根据结构化处理的健康检查数据和健康检查结果数据对应的属性信息进行存储;
基于存储的健康检查数据和健康检查结果数据获取健康检查数据和健康检查结果数据的增量数据;
基于所述健康检查结果数据的增量数据计算第一预定时间段内的故障参数;
根据所述健康检查结果数据的增量数据获取所述IT产品在第二预定时间段内的故障数量,以及在第三预定时间段内的故障数量平均值;
当所述第二预定时间段内的故障数量和第三预定时间段内的故障数量平均值之间的比值超出所述故障参数限定的范围时确定所述IT产品的运维环境异常;
其中,基于所述健康检查结果数据的增量数据计算第一预定时间段内的故障参数包括:根据所述健康检查结果数据的增量数据计算所述IT产品在第一预定时间段内的故障数量的均值平方差,作为所述故障参数。
2.如权利要求1所述的故障分析方法,其特征在于,所述故障分析方法还包括:
根据所述健康检查结果数据的增量数据获取所述IT产品在第四预定时间段内的故障统计数据;
基于所述故障统计数据获取故障记录曲线;
根据所述故障记录曲线预测所述IT产品的运维环境的故障情况。
3.如权利要求2所述的故障分析方法,其特征在于,所述故障分析方法还包括:
基于所述故障统计数据计算所述第四预定时间段内故障均值的最小平方差;
根据计算得到的最小平方差预测故障情况的故障值范围。
4.一种基于IT产品的故障分析***,其特征在于,所述故障分析***包括:
源数据获取模块,用于根据数据来源分别获取所述IT产品的健康检查数据和健康检查结果数据;
数据存储模块,用于对所述健康检查数据和健康检查结果数据进行结构化处理,并根据结构化处理的健康检查数据和健康检查结果数据对应的属性信息进行存储;
增量数据获取模块,用于基于存储的健康检查数据和健康检查结果数据获取健康检查数据和健康检查结果数据的增量数据;
故障参数计算模块,用于基于所述健康检查结果数据的增量数据计算第一预定时间段内的故障参数;
故障数量计算模块,用于根据所述健康检查结果数据的增量数据获取所述IT产品在第二预定时间段内的故障数量,以及在第三预定时间段内的故障数量平均值;
异常判定模块,用于当所述第二预定时间段内的故障数量和第三预定时间段内的故障数量平均值之间的比值超出所述故障参数限定的范围时确定所述IT产品的运维环境异常;
其中,基于所述健康检查结果数据的增量数据计算第一预定时间段内的故障参数包括:根据所述健康检查结果数据的增量数据计算所述IT产品在第一预定时间段内的故障数量的均值平方差,作为所述故障参数。
5.如权利要求4所述的故障分析***,其特征在于,所述故障分析***还包括故障预测模块,用于执行下述操作:
根据所述健康检查结果数据的增量数据获取所述IT产品在第四预定时间段内的故障统计数据;
基于所述故障统计数据获取故障记录曲线;
根据所述故障记录曲线预测所述IT产品的运维环境的故障情况。
6.如权利要求5所述的故障分析***,其特征在于,所述故障预测模块还用于执行下述操作:
基于所述故障统计数据计算所述第四预定时间段内故障均值的最小平方差;
根据计算得到的最小平方差预测故障情况的故障值范围。
7.一种计算机存储介质,所述计算机存储介质储存计算机软件指令,其特征在于,所述计算机软件指令由处理器执行以实现如权利要求1-3中任一项所述的故障分析方法。
8.一种计算机设备,其包括存储器和处理器;
其特征在于,所述存储器用于存储一条或多条计算机指令,所述处理器执行所述一条或多条计算机指令以实现如权利要求1-3中任一项所述的故障分析方法。
CN202011357555.3A 2020-11-27 2020-11-27 基于it产品的故障分析方法、***、设备和存储介质 Active CN112433926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011357555.3A CN112433926B (zh) 2020-11-27 2020-11-27 基于it产品的故障分析方法、***、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011357555.3A CN112433926B (zh) 2020-11-27 2020-11-27 基于it产品的故障分析方法、***、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112433926A CN112433926A (zh) 2021-03-02
CN112433926B true CN112433926B (zh) 2024-03-01

Family

ID=74699259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011357555.3A Active CN112433926B (zh) 2020-11-27 2020-11-27 基于it产品的故障分析方法、***、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112433926B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776102A (zh) * 2016-12-27 2017-05-31 中国建设银行股份有限公司 一种应用***健康检查方法及***
CN109376877A (zh) * 2018-10-11 2019-02-22 华自科技股份有限公司 设备运维预警方法、装置、计算机设备和存储介质
CN111047082A (zh) * 2019-12-02 2020-04-21 广州智光电气股份有限公司 设备的预警方法及装置、存储介质和电子装置
CN111176872A (zh) * 2019-12-12 2020-05-19 北京邮电大学 面向it运维的监控数据处理方法、***、装置及存储介质
WO2020119369A1 (zh) * 2018-12-13 2020-06-18 平安普惠企业管理有限公司 智能it运维故障定位方法、装置、设备及可读存储介质
CN111459129A (zh) * 2020-03-04 2020-07-28 辽宁工程技术大学 一种电气***故障过程中故障事件重要性确定方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776102A (zh) * 2016-12-27 2017-05-31 中国建设银行股份有限公司 一种应用***健康检查方法及***
CN109376877A (zh) * 2018-10-11 2019-02-22 华自科技股份有限公司 设备运维预警方法、装置、计算机设备和存储介质
WO2020119369A1 (zh) * 2018-12-13 2020-06-18 平安普惠企业管理有限公司 智能it运维故障定位方法、装置、设备及可读存储介质
CN111047082A (zh) * 2019-12-02 2020-04-21 广州智光电气股份有限公司 设备的预警方法及装置、存储介质和电子装置
CN111176872A (zh) * 2019-12-12 2020-05-19 北京邮电大学 面向it运维的监控数据处理方法、***、装置及存储介质
CN111459129A (zh) * 2020-03-04 2020-07-28 辽宁工程技术大学 一种电气***故障过程中故障事件重要性确定方法

Also Published As

Publication number Publication date
CN112433926A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
EP3839758B1 (en) Data quality analysis
US7818342B2 (en) Tracking usage of data elements in electronic business communications
US8352867B2 (en) Predictive monitoring dashboard
US8370181B2 (en) System and method for supply chain data mining and analysis
US10380528B2 (en) Interactive approach for managing risk and transparency
US20080244319A1 (en) Method and Apparatus For Detecting Performance, Availability and Content Deviations in Enterprise Software Applications
EP3514700A1 (en) Dynamic outlier bias reduction system and method
US20080217005A1 (en) Automated oil well test classification
US9817742B2 (en) Detecting hardware and software problems in remote systems
CN109934268B (zh) 异常交易检测方法及***
US20130346163A1 (en) Automatically measuring the quality of product modules
US20120116827A1 (en) Plant analyzing system
US20210190740A1 (en) Automated chromatogram analysis for blood test evaluation
CN111177139A (zh) 基于数据质量体系的数据质量验证监控及预警方法和***
US20130152045A1 (en) Software internationalization estimation model
US8224690B2 (en) Graphical risk-based performance measurement and benchmarking system and method
JP6975086B2 (ja) 品質評価方法および品質評価装置
CN114202256A (zh) 架构升级预警方法、装置、智能终端及可读存储介质
CN112433926B (zh) 基于it产品的故障分析方法、***、设备和存储介质
US20180046927A1 (en) Data analysis device and analysis method
US11934776B2 (en) System and method for measuring user experience of information visualizations
CN113393169B (zh) 基于大数据技术的金融行业交易***性能指标分析方法
US9373084B2 (en) Computer system and information presentation method using computer system
CN110688273B (zh) 分类模型的监控方法、装置、终端以及计算机存储介质
US20130061201A1 (en) System and method for determining defect trends

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant