CN104794136A - 故障分析方法和装置 - Google Patents

故障分析方法和装置 Download PDF

Info

Publication number
CN104794136A
CN104794136A CN201410029699.4A CN201410029699A CN104794136A CN 104794136 A CN104794136 A CN 104794136A CN 201410029699 A CN201410029699 A CN 201410029699A CN 104794136 A CN104794136 A CN 104794136A
Authority
CN
China
Prior art keywords
event
matrix
fault analysis
matching degree
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410029699.4A
Other languages
English (en)
Inventor
刘克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410029699.4A priority Critical patent/CN104794136A/zh
Publication of CN104794136A publication Critical patent/CN104794136A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供一种故障分析方法和装置,其中,方法包括采集预设时间段内的数据;从所述数据中提取关键事件发生的时间点和所述时间点的运行参数,生成第一事件矩阵,所述第一事件矩阵的行代表时间点,所述时间点按时间先后顺序排列,所述第一事件矩阵的列代表运行参数,所述第一事件矩阵中的每个元素为所述运行参数在所述时间点的数值;计算所述第一事件矩阵与故障分析数据库中存储各个第二事件矩阵的匹配度;所述故障分析记录包含所述第二事件矩阵和所述第二事件矩阵对应的故障分析文档;根据匹配度最高的第二事件矩阵对应的故障分析文档,进行故障分析。本发明实施例的故障分析方法和装置,可以提高故障分析的准确性。

Description

故障分析方法和装置
技术领域
本发明实施例涉及通信技术,尤其涉及一种故障分析方法和装置。
背景技术
随着科学技术的飞速发展,设备或者***越来越复杂,尤以电信设备为例,对设备的故障分析也越来越困难。其中,故障分析包括对故障定位、故障预测等。
现有技术中,故障分析状态数据库中存储状态集合与故障原因的对应关系,通过采集告警发生时相关模块的状态,组成一个状态集合,然后用这个状态集合和数据库中的状态集合进行匹配,从而实现对故障的分析。
然而,同一个状态集合可能对应多个故障原因,因此,采用现有技术的方法,无法精确地对故障进行分析。
发明内容
本发明实施例提供一种故障分析方法和装置,以提高故障分析的准确性。
第一方面,本发明实施例提供一种故障分析方法,包括:
采集预设时间段内的数据;
从所述数据中提取关键事件发生的时间点和所述时间点的运行参数,生成第一事件矩阵,所述第一事件矩阵的行代表至少一个时间点,所述时间点按时间先后顺序排列,所述第一事件矩阵的列代表至少一个运行参数,所述第一事件矩阵中的每个元素为所述运行参数在所述时间点的数值;
将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度;其中,所述故障分析数据库中包含至少一条故障分析记录,所述故障分析记录包含所述第二事件矩阵和所述第二事件矩阵对应的故障分析文档;
根据匹配度最高的第二事件矩阵对应的故障分析文档,进行故障分析。
在第一方面的第一种可能的实现方式中,所述将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度,包括:
确定所述第一事件矩阵中的一列与所述第二事件矩阵中的一列互为匹配列,所述匹配列中包含至少一个相同的关键事件;
将所述匹配列的其他元素分别进行比较,计算所述匹配列的匹配度;
根据所述第一事件矩阵中关键事件发生的先后顺序的顺序匹配度、所述匹配列的匹配度,计算所述第一事件矩阵与所述第二事件矩阵的匹配度。
在第一方面的第二种可能的实现方式中,将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度,包括:
采用矩阵相似度识别算法将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度;或者,
将所述第一事件矩阵和所述第二事件矩阵转换为图像,根据图像相似度算法进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度。
根据第一方面、第一方面的第一种或第二种可能的实现方式,在第三种可能的实现方式中,所述第一事件矩阵中的每个运行参数对应一个权重系数,所述关键事件对应的运行参数的权重系数大于其他运行参数。
根据第一方面、第一方面的第一种至第三种可能的实现方式中的任意一种,在第四种可能的实现方式中,所述关键事件包括:告警、异常日志、***关键指标突变、用户操作、配置变更。
根据第一方面、第一方面的第一种至第四种可能的实现方式中的任意一种,在第五种可能的实现方式中,所述运行参数包括:***关键指标的值、***关键指标的变化趋势、***关键指标的变化幅度,***关键指标突变方向、告警名称、告警位置、输入的指令、配置变更、异常日志。
根据第一方面、第一方面的第一种至第五种可能的实现方式中的任意一种,在第六种可能的实现方式中,
所述故障分析文档包含以下至少一个:故障类型、故障位置、恢复策略。
根据第一方面、第一方面的第一种至第六种可能的实现方式中的任意一种,在第七种可能的实现方式中,
若匹配度最高的第二事件矩阵中包含第一事件矩阵之后的时间点以及对应的事件,则所述方法还包括:
根据所述匹配度最高的第二事件矩阵预测将要发生的事件。
根据第一方面、第一方面的第一种至第七种可能的实现方式中的任意一种,在第八种可能的实现方式中,在所述从所述数据中提取关键事件发生的时间点和所述时间点的运行参数之前,还包括:
接收异常事件提示信息或者接收用户发送的故障分析命令。
第二方面,本发明实施例提供一种故障分析方法,包括:
采集预设时间段内的数据;
从所述数据中提取关键事件发生的时间点;
根据所述关键事件发生的先后顺序生成关键事件序列;
将所述关键事件采用关键事件标识进行表示,构成第一事件字符串;
采用字符串匹配算法计算所述第一事件字符串与故障分析数据库中存储的至少一个第二事件字符串进行匹配,计算所述第一事件字符串与各个所述第二事件字符串的匹配度;其中,所述故障分析数据库中包含至少一条故障分析记录,所述故障分析记录包含所述第二事件字符串和所述第二事件字符串对应的故障分析文档;
根据匹配度最高的第二事件字符串对应的故障分析文档,进行故障分析。
在第二方面的第一种可能的实现方式中,所述关键事件包括:告警、异常日志、***关键指标突变、用户操作、配置变更。
根据第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,
所述故障分析文档包含以下至少一个:故障类型、故障位置、恢复策略。
根据第二方面、第二方面的第一种或第二种可能的实现方式,在第三种可能的实现方式中,
若匹配度最高的第二事件字符串中包含第一事件字符串之后的事件,则所述方法还包括:
根据所述匹配度最高的第二事件字符串预测将要发生的事件。
根据第二方面、第二方面的第一种至第三种可能的实现方式中的任意一种,在第四种可能的实现方式中,在所述从所述数据中提取关键事件发生的时间点之前,还包括:
接收异常事件提示信息或者接收用户发送的故障分析命令。
第三方面,本发明实施例提供一种故障分析装置,包括:
采集模块,用于采集预设时间段内的数据;
数据处理模块,用于从所述数据中提取关键事件发生的时间点和所述时间点的运行参数,生成第一事件矩阵,所述第一事件矩阵的行代表至少一个时间点,所述时间点按时间先后顺序排列,所述第一事件矩阵的列代表至少一个运行参数,所述第一事件矩阵中的每个元素为所述运行参数在所述时间点的数值;
分析模块,用于将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度;其中,所述故障分析数据库中包含至少一条故障分析记录,所述故障分析记录包含所述第二事件矩阵和所述第二事件矩阵对应的故障分析文档;
所述分析模块,还用于根据匹配度最高的第二事件矩阵对应的故障分析文档,进行故障分析。
在第三方面的第一种可能的实现方式中,所述分析模块具体用于:
确定所述第一事件矩阵中的一列与所述第二事件矩阵中的一列互为匹配列,所述匹配列中包含至少一个相同的关键事件;
将所述匹配列的其他元素分别进行比较,计算所述匹配列的匹配度;
根据所述第一事件矩阵中关键事件发生的先后顺序的顺序匹配度、所述匹配列的匹配度,计算所述第一事件矩阵与所述第二事件矩阵的匹配度。
在第三方面的第二种可能的实现方式中,所述分析模块具体用于:
采用矩阵相似度识别算法将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度;或者,
将所述第一事件矩阵和所述第二事件矩阵转换为图像,根据图像相似度算法进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度。
根据第三方面、第三方面的第一种或第二种可能的实现方式,在第三种可能的实现方式中,所述第一事件矩阵中的每个运行参数对应一个权重系数,所述关键事件对应的运行参数的权重系数大于其他运行参数。
根据第三方面、第三方面的第一种至第三种可能的实现方式中的任意一种,在第四种可能的实现方式中,所述关键事件包括:告警、异常日志、***关键指标突变、用户操作、配置变更。
根据第三方面、第三方面的第一种至第四种可能的实现方式中的任意一种,在第五种可能的实现方式中,所述运行参数包括:***关键指标的值、***关键指标的变化趋势、***关键指标的变化幅度,***关键指标突变方向、告警名称、告警位置、输入的指令、配置变更、异常日志。
根据第三方面、第三方面的第一种至第五种可能的实现方式中的任意一种,在第六种可能的实现方式中,
所述故障分析文档包含以下至少一个:故障类型、故障位置、恢复策略。
根据第三方面、第三方面的第一种至第六种可能的实现方式中的任意一种,在第七种可能的实现方式中,
若匹配度最高的第二事件矩阵中包含第一事件矩阵之后的时间点以及对应的事件,则所述分析模块还用于:
根据所述匹配度最高的第二事件矩阵预测将要发生的事件。
根据第三方面、第三方面的第一种至第七种可能的实现方式中的任意一种,在第八种可能的实现方式中,所述采集模块还用于:
在所述从所述数据中提取关键事件发生的时间点和所述时间点的运行参数之前,接收异常事件提示信息或者接收用户发送的故障分析命令。
第四方面,本发明实施例提供一种故障分析装置,包括:
采集模块,用于采集预设时间段内的数据;
数据处理模块,用于从所述数据中提取关键事件发生的时间点;
所述数据处理模块,还用于根据所述关键事件发生的先后顺序生成关键事件序列;
所述数据处理模块,还用于将所述关键事件采用关键事件标识进行表示,构成第一事件字符串;
分析模块,用于采用字符串匹配算法计算所述第一事件字符串与故障分析数据库中存储的至少一个第二事件字符串进行匹配,计算所述第一事件字符串与各个所述第二事件字符串的匹配度;其中,所述故障分析数据库中包含至少一条故障分析记录,所述故障分析记录包含所述第二事件字符串和所述第二事件字符串对应的故障分析文档;
所述分析模块,还用于根据匹配度最高的第二事件字符串对应的故障分析文档,进行故障分析。
在第四方面的第一种可能的实现方式中,所述关键事件包括:告警、异常日志、***关键指标突变、用户操作、配置变更。
根据第四方面或第四方面的第一种可能的实现方式,在第二种可能的实现方式中,
所述故障分析文档包含以下至少一个:故障类型、故障位置、恢复策略。
根据第四方面、第四方面的第一种或第二种可能的实现方式,在第三种可能的实现方式中,
若匹配度最高的第二事件字符串中包含第一事件字符串之后的事件,则所述分析模块还用于:
根据所述匹配度最高的第二事件字符串预测将要发生的事件。
根据第四方面、第四方面的第一种至第三种可能的实现方式中的任意一种,在第四种可能的实现方式中,所述采集模块还用于:
在所述从所述数据中提取关键事件发生的时间点之前,接收异常事件提示信息或者接收用户发送的故障分析命令。
本发明实施例故障分析方法和装置,通过从采集的预设时间段内的数据中提取关键事件发生的时间点和所述时间点的运行参数进行分析,即在故障分析时同时考虑了事件发生的时间,形成第一事件矩阵,再将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度时,也考虑了事件的先后顺序,因此,故障分析的结果更为准确。
本发明实施例故障分析方法和装置,通过从采集的预设时间段内的数据中提取关键事件发生的时间点并根据事件发生的先后顺序形成关键事件序列,再将该关键事件序列转化为第一事件字符串,然后将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件字符串进行匹配,计算所述第一事件字符串与各个所述第二事件字符串的匹配度,根据匹配度最高的第二事件字符串对应的故障分析文档进行故障分析和处理,由于考虑了事件的先后顺序,因此,故障分析的结果更为准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为云计算的计算机***的结构示意图;
图2为非云计算的计算机***的结构示意图;
图3为本发明故障分析方法实施例一的流程图;
图4为本实施例的方法所采集的数据的示意图;
图5为本实施例所提取的关键事件和其发生的时间点的示意图;
图6为第一事件矩阵的示意图;
图7为矩阵匹配方法的子流程图;
图8为本发明故障分析方法实施例二的流程图;
图9为本发明故障分析方法实施例二中生成的关键事件序列的示意图;
图10为本发明故障分析方法实施例二中生成的第一事件字符串的示意图;
图11为本发明故障分析装置实施例一的流程图;
图12为本发明故障分析装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着通信技术的飞速发展,通信设备或者通信***的功能日益强大,通信设备或者通信***的结构也越来越复杂,本发明为了提高故障分析的准确度,通过将预设事件段内发生的事件按照事件发生的时间先后顺序进行排列,与数据库中存储的故障记录进行匹配,数据库中的故障记录是基于历史数据建立的,即根据历史时间段内发生的事件、事件发生的先后顺序建立的,因此,能够更准确地定位故障原因。
本发明实施例的故障分析方法可以应用于云计算的计算机***,也可适用于非云计算的计算机***。图1为云计算的计算机***的结构示意图,如图1所示,该云计算的计算机***可以包含多个子***,每个子***可以分别收集各个对象的信息,保存在各自的数据库中,各个子***还可以包括监控模块、查询统计模块和操作处理模块,其中操作处理模块用于与客户端进行交互,接收用户的指令以及向用户呈现信息,例如,用户发送的故障分析命令通过操作处理模块传递给其它模块;本发明实施例提供的故障分析方法可以由集中部署的分析***来执行,该分析***包括数据处理模块、数据库和分析模块,其中,数据处理模块与各个子***的操作处理模块连接,从而获取各个子***收集的数据,即各个子***的操作处理模块相当于分析***的采集模块。图2为非云计算的计算机***的结构示意图,如图2所示,该非云计算的计算机***可以包含信息收集模块、数据库和操作处理模块,其中,信息收集模块用于收集各个对象的信息,并将数据保存在数据库中,操作处理模块则对数据库中的数据进行分析,并与客户端交互,接收用户的指令以及向用户呈现信息,例如,用户发送的故障分析命令通过操作处理模块传递给其它模块。图2中还示出了监控模块和查询统计模块。
其中,数据库中的数据来源有两部分,一部分是来自于子***,子***主要提供“事件数据”,另一部分是由客户端提供针对事件提供的故障分析分析文档。例如:“A事件数据”属于新发现的故障,在***中没有相匹配的故障,当用户分析出“A事件数据”的结论后,可以将该故障分析文档保存至数据库,同时处理过后的“A事件数据”也被保存至数据库,其中,对于图1所示的云计算的计算机***,该数据库为分析***的数据库;对于图2所示的非云计算的计算机***,该数据库为计算机的数据库。
图3为本发明故障分析方法实施例一的流程图,本实施例的方法可以由用户创建一个故障分析任务而触发执行,也可以由一个异常事件触发执行,异常事件可以包括告警、***关键指标KPI突变、出现异常日志或者出现高危操作等,也可以包括其他事件,本发明实施例对此不做限定。如图3所示,本实施例的故障分析方法可以包括:
步骤301、采集预设时间段内的数据。
具体实现时,预设时间段可以由用户事先指定,例如用户可以在创建故障分析任务时自定义一个时间段;或者,如果该故障分析任务是由异常事件触发的,则可以根据异常事件处理策略来设置,异常事件处理策略可以由用户自定义,根据异常事件的破坏等级或影响程度,制定相应的分析任务。在预先配置异常事件处理策略时,可以指定时间段为指异常事件发生前ta至异常事件发生后tb的时间段:T={t|ta≤t≤tb}。
即,在步骤301之前,本实施例的方法还可以包括:接收异常事件提示信息或者接收用户发送的故障分析命令。
所采集的数据可以为计算机运行的相关数据,例如可以包括但不限于***关键指标的变化趋势、变化幅度,***关键指标突变的时间及突变先后顺序,***关键指标的值,告警名称、告警位置、告警产生的时间及先后顺序,用户的操作及其操作时间和操作的先后顺序,配置变更及变更时间和变更的先后顺序等,如图4所示,图4为本实施例的方法所采集的数据的示意图。
步骤302、从所述数据中提取关键事件发生的时间点和所述时间点的运行参数,生成第一事件矩阵,所述第一事件矩阵的行代表至少一个时间点,所述时间点按时间先后顺序排列,所述第一事件矩阵的列代表至少一个运行参数,所述第一事件矩阵中的每个元素为所述运行参数在所述时间点的数值。
其中,关键事件包括但不限于告警、异常日志、***关键指标突变、用户操作、配置变更等。每个关键事件对应一个唯一的ID。对于***关键指标突变这一类关键事件,还可以进一步细分。例如KPI1突变,还可以进一步细分为KPI1健康时向上突变、向下突变,KPI1不健康时向上突变、向下突变等。
具体实现时,步骤302可以采用第一算法A1:提取时间段T={t|ta≤t≤tb}内,所有的关键事件和其发生的时间点,如图5所示,图5为本实施例所提取的关键事件和其发生的时间点的示意图,其中各个关键事件用k1,k2…kn表示,关键事件所对应的时间点用tk1,t k2,…t kn表示。同时,还提取所述关键事件发生时的运行参数,其中运行参数包括但不限于***关键指标的变化趋势、变化幅度,***关键指标的值,健康度等,并生成第一事件矩阵,如图6所示,图6为第一事件矩阵的示意图。图6中,所述运行参数的健康度在90%~100%之间用“■”表示;在75%~90%之间用“□”表示,小于75%用“◇”表示。用户可以针对不同的KPI,设置不同的健康度区间范围和表示方式;运行参数的变化幅度在±10%范围内用“●”表示;在±20%范围内用“○”表示,大于±20%用“◎”表示。用户可以针对不同的KPI,设置不同的变化幅度区间范围和表示方式;符号“★”表示在当前时间点有该事件,“-”表示在该时间点没有该事件。
可以看出,第一事件矩阵中,tk1~t kn每列均对应一个或多个关键事件。
进一步地,所述第一事件矩阵中的每个运行参数对应一个权重系数,所述关键事件对应的运行参数的权重系数大于其他运行参数。
对于第一事件矩阵中每一列的数据,可以将关键事件对应的数据作为该列的主数据,其余的数据为该列的次数据。进一步地,可以将主数据的权重系数设置得较高,次数据根据其与该列关键事件的关联程度高低,分别设置不同的权重系数,可以限制次数据的权重系数相对该列的主数据较低。例如,tk1列对应的关键事件是告警1,则告警1为K1列的主数据,权重系数较高。其余的告警、KPI、用户操作、异常日志等均为次数据,次数据根据其和告警1的关联程度高低,分别有不同的权重系数。同理,K3列对应的关键事件是KPI2突变,那KPI2的变化趋势、变化幅度、健康度等为K3列的主数据,权重系数较高。其余的KPI、告警、用户操作、异常日志等为次数据,次数据根据其和KPI2的关联程度高低,分别有不同的权重系数。
现有技术的故障分析方法通常需要人工对该故障进行建模,然后将分析结论和故障模型关联并保存至数据库,而为故障建模的工作量较大;在本实施例中,针对一个新的故障,生成第一事件矩阵的过程就是自动建立该故障模型的过程,不需要进行人工干预,因此,相比于现有技术的故障分析方法,本实施例的方法能够降低人力成本,也便于维护和升级。
步骤303、将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度;其中,所述故障分析数据库中包含至少一条故障分析记录,所述故障分析记录包含所述第二事件矩阵和所述第二事件矩阵对应的故障分析文档。
可选地,该步骤中所述将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度,可以采用如图7所示的方法,图7为矩阵匹配方法的子流程图,如图7所示,该方法可以包含如下子步骤:
步骤3031、确定所述第一事件矩阵中的一列与所述第二事件矩阵中的一列互为匹配列,所述匹配列中包含至少一个相同的关键事件。
具体实现时,可以分别从第一事件矩阵和第二事件矩阵中各取一列,如果这两列有至少一个相同的关键事件,则说明这两列互为匹配列。
步骤3032、将所述匹配列的其他元素分别进行比较,计算所述匹配列的匹配度。
具体地,可以根据主数据和次数据的权重计算得出所述匹配列的匹配度。
步骤3033、根据所述第一事件矩阵中关键事件发生的先后顺序的顺序匹配度、所述匹配列的匹配度,计算所述第一事件矩阵与所述第二事件矩阵的匹配度。
可选地,步骤303中所述将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度,还可以采用如下方法:
采用矩阵相似度识别算法将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度。
或者,还可以将所述第一事件矩阵和所述第二事件矩阵转换为图像,根据图像相似度算法进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度。具体的转换方式为:将每个事件赋予一个唯一的颜色(使用红绿蓝(red green blue,简称:RGB)色彩模式,在屏幕上重现16777216(256×256×256)种颜色),相同事件采用相同颜色,每个矩阵对应一个矩形图像,然后利用图像相似度算法比较第一事件矩阵和所述第二事件矩阵对应的两个图像的相似度。
步骤304、根据匹配度最高的第二事件矩阵对应的故障分析文档,进行故障分析。
进一步地,所述故障分析文档可以包含以下至少一个:故障类型、故障位置、恢复策略。具体地,可以包括故障类型、故障名称、故障定位、性能分析或预测结论,可能导致的后果,处理策略等。具体实现时,所述故障分析文档可以由用户分析总结,并保存到***数据库。
进一步地,若匹配度最高的第二事件矩阵中包含第一事件矩阵之后的时间点以及对应的事件,则在步骤304之后,所述方法还可以包括:
根据所述匹配度最高的第二事件矩阵预测将要发生的事件。
具体实现时,还可以按照预设的规则判断将要发生的事件是否为危险故障,例如,当判断结果为该将要发生的事件对计算机***有较大危害,则主动将信息发送给用户,提醒用户在未来的某个时间段内,有x%的概率可能会产生某种异常或者故障(若分析结果还得到发生该异常或故障的概率时,还可以同时呈现发生的概率),该异常或故障将会导致哪些后果;当判断结果为该将要发生的事件对计算机***没有太大影响时,则可以不发送信息给用户。
需要说明的是,在本实施例的方法应用的初期,尤其是当数据库存储的案例相对较少时,数据库中的第二事件矩阵与第一事件矩阵的匹配度可能都不太高,因此这时按照匹配度最高的第二事件矩阵对应的故障分析文档,进行故障分析的结果不一定非常准确。例如,与第一事件矩阵匹配度最高的依次是m,n,x,y,z事件矩阵,这几个事件矩阵与第一事件矩阵的匹配度分别为30.1%,30.0%,29.6%,25.0%,22.0%,这时,匹配度最高的m事件矩阵的匹配度也只有30.1%,因此,可以不根据匹配度最高的事件矩阵相关文档进行分析。当几个事件矩阵的匹配度接近或者匹配度均较低时,可以将这几个事件矩阵的匹配度以及分析文档均呈现给用户,让用户根据自己经验进行判断分析。
如果是***根据异常事件自动触发分析也是如此,例如,***自动分析完成后,可以给出Top5匹配事件矩阵的分析结论,给出的结论形式可以是:30.1%的可能是m事件所对应的故障,30.0%的可能是n事件所对应的故障,29.6%的可能是x事件所对应的故障,25.0%的可能是y事件所对应的故障,有22.0%可能是z事件所对应的故障,由于匹配度均较低,建议用户进行人工分析。
当然,给出的结论形式可以由用户自定义。另外,可以提示用户,当用户完成对第一事件的人工分析后,可以把分析结论保存至数据库,那么下次再发生和第一事件类似的事件,就会匹配出来匹配度更高的事件矩阵。
需要说明的是,如果是一个新出现的故障事件,也会存上上述情况与数据库中的各个第二事件矩阵的匹配度均较低的情况,因此,可以采用如上的处理方式。
本实施例,通过从采集的预设时间段内的数据中提取关键事件发生的时间点和所述时间点的运行参数进行分析,即在故障分析时同时考虑了事件发生的时间,形成第一事件矩阵,再将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度时,也考虑了事件的先后顺序,因此,故障分析的结果更为准确;另外,本实施例中,针对一个新的故障,生成第一事件矩阵的过程就是自动建立该故障模型的过程,不需要花费人工干预,用户只要在进行人工分析得出分析结论后,将分析结论保存至***即可,从而省去了花费专门人力去为每种不同故障构建故障模型的工作,从而本实施例的方法可以降低人力成本,便于维护和升级。
图8为本发明故障分析方法实施例二的流程图,本实施例的方法可以由用户创建一个故障分析任务而触发执行,也可以由一个异常事件触发执行,异常事件可以包括告警、***关键指标KPI突变、出现异常日志或者出现高危操作等,也可以包括其他事件,本发明实施例对此不做限定。本实施例与上述的故障分析方法实施例一的区别在于,本实施例在对数据进行分析时,将关键事件根据先后顺序构成事件字符串,而不是事件矩阵。如图8所示,本实施例的故障分析方法可以包括:
步骤801、采集预设时间段内的数据。
具体实现时,预设时间段可以由用户事先指定,例如用户可以在创建故障分析任务时自定义一个时间段;或者,如果该故障分析任务是由异常事件触发的,则可以根据异常事件处理策略来设置,异常事件处理策略可以由用户自定义,根据异常事件的破坏等级或影响程度,制定相应的分析任务。在预先配置异常事件处理策略时,可以指定时间段为指异常事件发生前ta至异常事件发生后tb的时间段:T={t|ta≤t≤tb}。
即,在步骤801之前,本实施例的方法还可以包括:接收异常事件提示信息或者接收用户发送的故障分析命令。
步骤802、从所述数据中提取关键事件发生的时间点。
其中,所述关键事件包括:告警、异常日志、***关键指标突变、用户操作、配置变更。
步骤803、根据所述关键事件发生的先后顺序生成关键事件序列。
步骤804、将所述关键事件采用关键事件标识进行表示,构成第一事件字符串。
步骤805、采用字符串匹配算法计算所述第一事件字符串与故障分析数据库中存储的至少一个第二事件字符串进行匹配,计算所述第一事件字符串与各个所述第二事件字符串的匹配度;其中,所述故障分析数据库中包含至少一条故障分析记录,所述故障分析记录包含所述第二事件字符串和所述第二事件字符串对应的故障分析文档。
步骤806、根据匹配度最高的第二事件字符串对应的故障分析文档,进行故障分析。
具体地,本实施例中,通过提取数据中的关键事件,并根据关键事件发生的先后顺序生成关键事件序列,如图9所示,图9为本发明故障分析方法实施例二中生成的关键事件序列的示意图。然后在步骤804中,用关键事件标识(ID)代替关键事件,得到一个特殊字符串,如图10所示,图10为本发明故障分析方法实施例二中生成的第一事件字符串的示意图。然后根据字符串匹配算法,计算第一事件字符串和数据库中已有的第二事件字符串的匹配度,并按照匹配度高低列出匹配的各个第二事件字符串,同时将该匹配的第二事件字符串对应的故障分析文档进行故障分析,也可以将该故障分析文档呈献给用户。
进一步地,所述故障分析文档可以包含以下至少一个:故障类型、故障位置、恢复策略。具体地,可以包括故障类型、故障名称、故障定位、性能分析或预测结论,可能导致的后果,处理策略等。具体实现时,所述故障分析文档可以由用户分析总结,并保存到***数据库。
进一步地,若匹配度最高的第二事件字符串中包含第一事件字符串之后的事件,则所述方法还包括:
根据所述匹配度最高的第二事件字符串预测将要发生的事件。
需要说明的是,在本实施例的方法应用的初期,尤其是当数据库存储的案例相对较少时,数据库中的第二事件字符串与第一事件字符串的匹配度可能都不太高,因此这时按照匹配度最高的第二事件字符串对应的故障分析文档,进行故障分析的结果不一定非常准确。例如,与第一事件字符串匹配度最高的依次是m,n,x,y,z事件矩阵,这几个事件字符串与第一事件字符串的匹配度分别为30.1%,30.0%,29.6%,25.0%,22.0%,这时,匹配度最高的m事件矩阵的匹配度也只有30.1%,因此,可以不根据匹配度最高的事件字符串的相关文档进行分析。当几个事件字符串的匹配度接近或者匹配度均较低时,可以将这几个事件矩阵的匹配度以及分析文档均呈现给用户,让用户根据自己经验进行判断分析。
如果是***根据异常事件自动触发分析也是如此,例如,***自动分析完成后,可以给出Top5匹配事件矩阵的分析结论,给出的结论形式可以是:30.1%的可能是m事件所对应的故障,30.0%的可能是n事件所对应的故障,29.6%的可能是x事件所对应的故障,25.0%的可能是y事件所对应的故障,有22.0%可能是z事件所对应的故障,由于匹配度均较低,建议用户进行人工分析。
当然,给出的结论形式可以由用户自定义。另外,可以提示用户,当用户完成对第一事件的人工分析后,可以把分析结论保存至数据库,那么下次再发生和第一事件类似的事件,就会匹配出来匹配度更高的事件字符串。
需要说明的是,如果是一个新出现的故障事件,也会存上上述情况与数据库中的各个第二事件字符串的匹配度均较低的情况,因此,可以采用如上的处理方式。
本实施例,通过从采集的预设时间段内的数据中提取关键事件发生的时间点并根据事件发生的先后顺序形成关键事件序列,再将该关键事件序列转化为第一事件字符串,然后将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件字符串进行匹配,计算所述第一事件字符串与各个所述第二事件字符串的匹配度,根据匹配度最高的第二事件字符串对应的故障分析文档进行故障分析和处理,由于考虑了事件的先后顺序,因此,故障分析的结果更为准确;另外,本实施例中,针对一个新的故障,生成第一事件字符串的过程就是自动建立该故障模型的过程,不需要花费人工干预,用户只要在进行人工分析得出分析结论后,将分析结论保存至***即可,从而省去了花费专门人力去为每种不同故障构建故障模型的工作,从而本实施例的方法可以降低人力成本,便于维护和升级。
图11为本发明故障分析装置实施例一的流程图,如图11所示,本实施例的装置1100可以包括:采集模块1101、数据处理模块1102和分析模块1103,其中,
采集模块1101,可以用于采集预设时间段内的数据;
数据处理模块1102,可以用于从所述数据中提取关键事件发生的时间点和所述时间点的运行参数,生成第一事件矩阵,所述第一事件矩阵的行代表至少一个时间点,所述时间点按时间先后顺序排列,所述第一事件矩阵的列代表至少一个运行参数,所述第一事件矩阵中的每个元素为所述运行参数在所述时间点的数值;
分析模块1103,可以用于将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度;其中,所述故障分析数据库中包含至少一条故障分析记录,所述故障分析记录包含所述第二事件矩阵和所述第二事件矩阵对应的故障分析文档;
所述分析模块1103,还可以用于根据匹配度最高的第二事件矩阵对应的故障分析文档,进行故障分析。
进一步地,所述分析模块1103具体用于:
确定所述第一事件矩阵中的一列与所述第二事件矩阵中的一列互为匹配列,所述匹配列中包含至少一个相同的关键事件;
将所述匹配列的其他元素分别进行比较,计算所述匹配列的匹配度;
根据所述第一事件矩阵中关键事件发生的先后顺序的顺序匹配度、所述匹配列的匹配度,计算所述第一事件矩阵与所述第二事件矩阵的匹配度。
进一步地,所述分析模块1103具体用于:
采用矩阵相似度识别算法将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度;或者,
将所述第一事件矩阵和所述第二事件矩阵转换为图像,根据图像相似度算法进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度。
进一步地,所述第一事件矩阵中的每个运行参数对应一个权重系数,所述关键事件对应的运行参数的权重系数大于其他运行参数。
进一步地,所述关键事件包括:告警、异常日志、***关键指标突变、用户操作、配置变更。
进一步地,所述运行参数包括:***关键指标的值、***关键指标的变化趋势、***关键指标的变化幅度,***关键指标突变方向、告警名称、告警位置、输入的指令、配置变更、异常日志。
进一步地,所述故障分析文档包含以下至少一个:故障类型、故障位置、恢复策略。
进一步地,若匹配度最高的第二事件矩阵中包含第一事件矩阵之后的时间点以及对应的事件,则所述分析模块1103还用于:
根据所述匹配度最高的第二事件矩阵预测将要发生的事件。
进一步地,所述采集模块1101,还可以用于在所述从所述数据中提取关键事件发生的时间点和所述时间点的运行参数之前,接收异常事件提示信息或者接收用户发送的故障分析命令。
其中,采集模块1101可以对应于图1或图2中示出的信息收集模块,在具体实现时,异常事件提示信息可以由图1或图2中示出的监控模块根据异常事件处理策略发出,并且,可以只发送给采集模块1101,也同时可以通过图1或图2中示出的操作处理模块发给客户端通知用户,还可以只发给客户端,这时用户可能会发送故障分析命令,采集模块1101则接收该故障分析命令。采集模块1101收到异常事件提示信息后,根据异常事件策略会触发相应的采集任务。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例的装置,通过从采集的预设时间段内的数据中提取关键事件发生的时间点和所述时间点的运行参数进行分析,即在故障分析时同时考虑了事件发生的时间,形成第一事件矩阵,再将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度时,也考虑了事件的先后顺序,因此,故障分析的结果更为准确;另外,本实施例中,针对一个新的故障,生成第一事件字符串的过程就是自动建立该故障模型的过程,不需要花费人工干预,用户只要在进行人工分析得出分析结论后,将分析结论保存至***即可,从而省去了花费专门人力去为每种不同故障构建故障模型的工作,从而本实施例的方法可以降低人力成本,便于维护和升级。
图12为本发明故障分析装置实施例二的结构示意图,如图12所示,本实施例的装置1200可以包括:采集模块1201、数据处理模块1202和分析模块1203,其中,
采集模块1201,用于采集预设时间段内的数据;
数据处理模块1202,用于从所述数据中提取关键事件发生的时间点;
所述数据处理模块1202,还用于根据所述关键事件发生的先后顺序生成关键事件序列;
所述数据处理模块1202,还用于将所述关键事件采用关键事件标识进行表示,构成第一事件字符串;
分析模块1203,用于采用字符串匹配算法计算所述第一事件字符串与故障分析数据库中存储的至少一个第二事件字符串进行匹配,计算所述第一事件字符串与各个所述第二事件字符串的匹配度;其中,所述故障分析数据库中包含至少一条故障分析记录,所述故障分析记录包含所述第二事件字符串和所述第二事件字符串对应的故障分析文档;
所述分析模块1203,还用于根据匹配度最高的第二事件字符串对应的故障分析文档,进行故障分析。
进一步地,所述关键事件包括:告警、异常日志、***关键指标突变、用户操作、配置变更。
进一步地,所述故障分析文档包含以下至少一个:故障类型、故障位置、恢复策略。
进一步地,若匹配度最高的第二事件字符串中包含第一事件字符串之后的事件,则所述分析模块1203还用于:
根据所述匹配度最高的第二事件字符串预测将要发生的事件。
进一步地,所述采集模块1201还可以用于在所述从所述数据中提取关键事件发生的时间点之前,接收异常事件提示信息或者接收用户发送的故障分析命令。
其中,采集模块1201可以对应于图1或图2中示出的信息收集模块,在具体实现时,异常事件提示信息可以由图1或图2中示出的监控模块根据异常事件处理策略发出,并且,可以只发送给采集模块1201,也同时可以通过图1或图2中示出的操作处理模块发给客户端通知用户,还可以只发给客户端,这时用户可能会发送故障分析命令,采集模块1201则接收该故障分析命令。采集模块1201收到异常事件提示信息后,根据异常事件策略会触发相应的采集任务。
本实施例的装置,可以用于执行图8所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例的装置,通过从采集的预设时间段内的数据中提取关键事件发生的时间点并根据事件发生的先后顺序形成关键事件序列,再将该关键事件序列转化为第一事件字符串,然后将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件字符串进行匹配,计算所述第一事件字符串与各个所述第二事件字符串的匹配度,根据匹配度最高的第二事件字符串对应的故障分析文档进行故障分析和处理,由于考虑了事件的先后顺序,因此,故障分析的结果更为准确;另外,本实施例中,针对一个新的故障,生成第一事件字符串的过程就是自动建立该故障模型的过程,不需要花费人工干预,用户只要在进行人工分析得出分析结论后,将分析结论保存至***即可,从而省去了花费专门人力去为每种不同故障构建故障模型的工作,从而本实施例的方法可以降低人力成本,便于维护和升级。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (28)

1.一种故障分析方法,其特征在于,包括:
采集预设时间段内的数据;
从所述数据中提取关键事件发生的时间点和所述时间点的运行参数,生成第一事件矩阵,所述第一事件矩阵的行代表至少一个时间点,所述时间点按时间先后顺序排列,所述第一事件矩阵的列代表至少一个运行参数,所述第一事件矩阵中的每个元素为所述运行参数在所述时间点的数值;
将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度;其中,所述故障分析数据库中包含至少一条故障分析记录,所述故障分析记录包含所述第二事件矩阵和所述第二事件矩阵对应的故障分析文档;
根据匹配度最高的第二事件矩阵对应的故障分析文档,进行故障分析。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度,包括:
确定所述第一事件矩阵中的一列与所述第二事件矩阵中的一列互为匹配列,所述匹配列中包含至少一个相同的关键事件;
将所述匹配列的其他元素分别进行比较,计算所述匹配列的匹配度;
根据所述第一事件矩阵中关键事件发生的先后顺序的顺序匹配度、所述匹配列的匹配度,计算所述第一事件矩阵与所述第二事件矩阵的匹配度。
3.根据权利要求1所述的方法,其特征在于,将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度,包括:
采用矩阵相似度识别算法将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度;或者,
将所述第一事件矩阵和所述第二事件矩阵转换为图像,根据图像相似度算法进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度。
4.根据权利要求1~3中任一项所述的方法,其特征在于,所述第一事件矩阵中的每个运行参数对应一个权重系数,所述关键事件对应的运行参数的权重系数大于其他运行参数。
5.根据权利要求1~4中任一项所述的方法,其特征在于,所述关键事件包括:告警、异常日志、***关键指标突变、用户操作、配置变更。
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述运行参数包括:***关键指标的值、***关键指标的变化趋势、***关键指标的变化幅度,***关键指标突变方向、告警名称、告警位置、输入的指令、配置变更、异常日志。
7.根据权利要求1~6中任一项所述的方法,其特征在于,
所述故障分析文档包含以下至少一个:故障类型、故障位置、恢复策略。
8.根据权利要求1~7中任一项所述的方法,其特征在于,
若匹配度最高的第二事件矩阵中包含第一事件矩阵之后的时间点以及对应的事件,则所述方法还包括:
根据所述匹配度最高的第二事件矩阵预测将要发生的事件。
9.根据权利要求1~8中任一项所述的方法,其特征在于,在所述从所述数据中提取关键事件发生的时间点和所述时间点的运行参数之前,还包括:
接收异常事件提示信息或者接收用户发送的故障分析命令。
10.一种故障分析方法,其特征在于,包括:
采集预设时间段内的数据;
从所述数据中提取关键事件发生的时间点;
根据所述关键事件发生的先后顺序生成关键事件序列;
将所述关键事件采用关键事件标识进行表示,构成第一事件字符串;
采用字符串匹配算法计算所述第一事件字符串与故障分析数据库中存储的至少一个第二事件字符串进行匹配,计算所述第一事件字符串与各个所述第二事件字符串的匹配度;其中,所述故障分析数据库中包含至少一条故障分析记录,所述故障分析记录包含所述第二事件字符串和所述第二事件字符串对应的故障分析文档;
根据匹配度最高的第二事件字符串对应的故障分析文档,进行故障分析。
11.根据权利要求10所述的方法,其特征在于,所述关键事件包括:告警、异常日志、***关键指标突变、用户操作、配置变更。
12.根据权利要求10或11所述的方法,其特征在于,
所述故障分析文档包含以下至少一个:故障类型、故障位置、恢复策略。
13.根据权利要求10~12中任一项所述的方法,其特征在于,
若匹配度最高的第二事件字符串中包含第一事件字符串之后的事件,则所述方法还包括:
根据所述匹配度最高的第二事件字符串预测将要发生的事件。
14.根据权利要求10~13中任一项所述的方法,其特征在于,在所述从所述数据中提取关键事件发生的时间点之前,还包括:
接收异常事件提示信息或者接收用户发送的故障分析命令。
15.一种故障分析装置,其特征在于,包括:
采集模块,用于采集预设时间段内的数据;
数据处理模块,用于从所述数据中提取关键事件发生的时间点和所述时间点的运行参数,生成第一事件矩阵,所述第一事件矩阵的行代表至少一个时间点,所述时间点按时间先后顺序排列,所述第一事件矩阵的列代表至少一个运行参数,所述第一事件矩阵中的每个元素为所述运行参数在所述时间点的数值;
分析模块,用于将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度;其中,所述故障分析数据库中包含至少一条故障分析记录,所述故障分析记录包含所述第二事件矩阵和所述第二事件矩阵对应的故障分析文档;
所述分析模块,还用于根据匹配度最高的第二事件矩阵对应的故障分析文档,进行故障分析。
16.根据权利要求15所述的装置,其特征在于,所述分析模块具体用于:
确定所述第一事件矩阵中的一列与所述第二事件矩阵中的一列互为匹配列,所述匹配列中包含至少一个相同的关键事件;
将所述匹配列的其他元素分别进行比较,计算所述匹配列的匹配度;
根据所述第一事件矩阵中关键事件发生的先后顺序的顺序匹配度、所述匹配列的匹配度,计算所述第一事件矩阵与所述第二事件矩阵的匹配度。
17.根据权利要求15所述的装置,其特征在于,所述分析模块具体用于:
采用矩阵相似度识别算法将所述第一事件矩阵与故障分析数据库中存储的至少一个第二事件矩阵进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度;或者,
将所述第一事件矩阵和所述第二事件矩阵转换为图像,根据图像相似度算法进行匹配,计算所述第一事件矩阵与各个所述第二事件矩阵的匹配度。
18.根据权利要求15~17中任一项所述的装置,其特征在于,所述第一事件矩阵中的每个运行参数对应一个权重系数,所述关键事件对应的运行参数的权重系数大于其他运行参数。
19.根据权利要求15~18中任一项所述的装置,其特征在于,所述关键事件包括:告警、异常日志、***关键指标突变、用户操作、配置变更。
20.根据权利要求15~19中任一项所述的装置,其特征在于,所述运行参数包括:***关键指标的值、***关键指标的变化趋势、***关键指标的变化幅度,***关键指标突变方向、告警名称、告警位置、输入的指令、配置变更、异常日志。
21.根据权利要求15~20中任一项所述的装置,其特征在于,
所述故障分析文档包含以下至少一个:故障类型、故障位置、恢复策略。
22.根据权利要求15~21中任一项所述的装置,其特征在于,
若匹配度最高的第二事件矩阵中包含第一事件矩阵之后的时间点以及对应的事件,则所述分析模块还用于:
根据所述匹配度最高的第二事件矩阵预测将要发生的事件。
23.根据权利要求15~22中任一项所述的装置,其特征在于,所述采集模块还用于:
在所述从所述数据中提取关键事件发生的时间点和所述时间点的运行参数之前,接收异常事件提示信息或者接收用户发送的故障分析命令。
24.一种故障分析装置,其特征在于,包括:
采集模块,用于采集预设时间段内的数据;
数据处理模块,用于从所述数据中提取关键事件发生的时间点;
所述数据处理模块,还用于根据所述关键事件发生的先后顺序生成关键事件序列;
所述数据处理模块,还用于将所述关键事件采用关键事件标识进行表示,构成第一事件字符串;
分析模块,用于采用字符串匹配算法计算所述第一事件字符串与故障分析数据库中存储的至少一个第二事件字符串进行匹配,计算所述第一事件字符串与各个所述第二事件字符串的匹配度;其中,所述故障分析数据库中包含至少一条故障分析记录,所述故障分析记录包含所述第二事件字符串和所述第二事件字符串对应的故障分析文档;
所述分析模块,还用于根据匹配度最高的第二事件字符串对应的故障分析文档,进行故障分析。
25.根据权利要求24所述的装置,其特征在于,所述关键事件包括:告警、异常日志、***关键指标突变、用户操作、配置变更。
26.根据权利要求24或25所述的装置,其特征在于,
所述故障分析文档包含以下至少一个:故障类型、故障位置、恢复策略。
27.根据权利要求24~26中任一项所述的装置,其特征在于,
若匹配度最高的第二事件字符串中包含第一事件字符串之后的事件,则所述分析模块还用于:
根据所述匹配度最高的第二事件字符串预测将要发生的事件。
28.根据权利要求24~27中任一项所述的装置,其特征在于,所述采集模块还用于:
在所述从所述数据中提取关键事件发生的时间点之前,接收异常事件提示信息或者接收用户发送的故障分析命令。
CN201410029699.4A 2014-01-22 2014-01-22 故障分析方法和装置 Pending CN104794136A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410029699.4A CN104794136A (zh) 2014-01-22 2014-01-22 故障分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410029699.4A CN104794136A (zh) 2014-01-22 2014-01-22 故障分析方法和装置

Publications (1)

Publication Number Publication Date
CN104794136A true CN104794136A (zh) 2015-07-22

Family

ID=53558930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410029699.4A Pending CN104794136A (zh) 2014-01-22 2014-01-22 故障分析方法和装置

Country Status (1)

Country Link
CN (1) CN104794136A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105471659A (zh) * 2015-12-25 2016-04-06 华为技术有限公司 一种故障根因分析方法和分析设备
CN105577440A (zh) * 2015-12-24 2016-05-11 华为技术有限公司 一种网络故障时间定位方法和分析设备
CN105812177A (zh) * 2016-03-08 2016-07-27 华为技术有限公司 一种网络故障处理方法和处理设备
CN106550271A (zh) * 2016-12-08 2017-03-29 深圳Tcl数字技术有限公司 电视机运行日志记录方法和装置
CN106603264A (zh) * 2015-10-20 2017-04-26 阿里巴巴集团控股有限公司 一种定位故障根源的方法和设备
CN107203450A (zh) * 2016-03-16 2017-09-26 伊姆西公司 故障的分类方法和设备
WO2018059402A1 (zh) * 2016-09-30 2018-04-05 华为技术有限公司 确定故障类型的方法和装置
CN108564344A (zh) * 2018-04-17 2018-09-21 许继电气股份有限公司 一种直流换流站故障数据自动采集方法及装置
CN108920296A (zh) * 2018-07-10 2018-11-30 郑州云海信息技术有限公司 一种故障定位方法、装置和计算机可读存储介质
CN109039710A (zh) * 2018-07-10 2018-12-18 中国联合网络通信集团有限公司 路由数据稽核方法、装置、服务器及存储介质
CN109342033A (zh) * 2018-09-11 2019-02-15 珠海格力电器股份有限公司 一种磁悬浮离心机的状态分析方法及***
CN109669844A (zh) * 2018-11-27 2019-04-23 平安科技(深圳)有限公司 设备故障处理方法、装置、设备和存储介质
CN109756382A (zh) * 2019-02-28 2019-05-14 新华三技术有限公司 故障定位方法和装置
CN110514960A (zh) * 2019-08-23 2019-11-29 索尔实业(集团)有限公司 一种电缆故障定位平台
CN110930115A (zh) * 2019-11-20 2020-03-27 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111404770A (zh) * 2020-02-29 2020-07-10 华为技术有限公司 网络设备、数据处理方法、装置、***及可读存储介质
CN112731903A (zh) * 2020-11-27 2021-04-30 成都飞机工业(集团)有限责任公司 一种全电传飞控故障的诊断***及方法
CN112782639A (zh) * 2020-12-22 2021-05-11 国网浙江海宁市供电有限公司 一种低压计量箱故障智能指示方法及指示器
CN112782638A (zh) * 2020-12-22 2021-05-11 国网浙江海宁市供电有限公司 一种低压计量箱内电能表故障诊断维护方法
WO2021147832A1 (zh) * 2020-01-23 2021-07-29 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库***、电子设备及存储介质
CN113825162A (zh) * 2020-06-19 2021-12-21 ***通信集团设计院有限公司 电信网络故障原因定位方法及装置
CN114641740A (zh) * 2019-11-05 2022-06-17 Abb瑞士股份有限公司 用于监测工业***中的电驱动器的方法和装置

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106603264A (zh) * 2015-10-20 2017-04-26 阿里巴巴集团控股有限公司 一种定位故障根源的方法和设备
CN105577440A (zh) * 2015-12-24 2016-05-11 华为技术有限公司 一种网络故障时间定位方法和分析设备
CN105577440B (zh) * 2015-12-24 2019-06-11 华为技术有限公司 一种网络故障时间定位方法和分析设备
CN105471659B (zh) * 2015-12-25 2019-03-01 华为技术有限公司 一种故障根因分析方法和分析设备
CN105471659A (zh) * 2015-12-25 2016-04-06 华为技术有限公司 一种故障根因分析方法和分析设备
CN105812177A (zh) * 2016-03-08 2016-07-27 华为技术有限公司 一种网络故障处理方法和处理设备
CN105812177B (zh) * 2016-03-08 2019-10-18 华为技术有限公司 一种网络故障处理方法和处理设备
CN107203450A (zh) * 2016-03-16 2017-09-26 伊姆西公司 故障的分类方法和设备
WO2018059402A1 (zh) * 2016-09-30 2018-04-05 华为技术有限公司 确定故障类型的方法和装置
US11140021B2 (en) 2016-09-30 2021-10-05 Huawei Technologies Co., Ltd. Method and apparatus for determining fault type
CN106550271A (zh) * 2016-12-08 2017-03-29 深圳Tcl数字技术有限公司 电视机运行日志记录方法和装置
CN108564344A (zh) * 2018-04-17 2018-09-21 许继电气股份有限公司 一种直流换流站故障数据自动采集方法及装置
CN109039710B (zh) * 2018-07-10 2021-06-01 中国联合网络通信集团有限公司 路由数据稽核方法、装置、服务器及存储介质
CN109039710A (zh) * 2018-07-10 2018-12-18 中国联合网络通信集团有限公司 路由数据稽核方法、装置、服务器及存储介质
CN108920296A (zh) * 2018-07-10 2018-11-30 郑州云海信息技术有限公司 一种故障定位方法、装置和计算机可读存储介质
CN109342033A (zh) * 2018-09-11 2019-02-15 珠海格力电器股份有限公司 一种磁悬浮离心机的状态分析方法及***
CN109669844A (zh) * 2018-11-27 2019-04-23 平安科技(深圳)有限公司 设备故障处理方法、装置、设备和存储介质
CN109756382A (zh) * 2019-02-28 2019-05-14 新华三技术有限公司 故障定位方法和装置
CN110514960A (zh) * 2019-08-23 2019-11-29 索尔实业(集团)有限公司 一种电缆故障定位平台
CN110514960B (zh) * 2019-08-23 2021-06-11 索尔实业(集团)有限公司 一种电缆故障定位平台
CN114641740A (zh) * 2019-11-05 2022-06-17 Abb瑞士股份有限公司 用于监测工业***中的电驱动器的方法和装置
CN110930115A (zh) * 2019-11-20 2020-03-27 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
WO2021147832A1 (zh) * 2020-01-23 2021-07-29 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库***、电子设备及存储介质
US12001275B2 (en) 2020-01-23 2024-06-04 Alibaba Group Holding Limited Data processing method, apparatus, database system, electronic device, and storage medium
CN111404770A (zh) * 2020-02-29 2020-07-10 华为技术有限公司 网络设备、数据处理方法、装置、***及可读存储介质
CN113825162A (zh) * 2020-06-19 2021-12-21 ***通信集团设计院有限公司 电信网络故障原因定位方法及装置
CN113825162B (zh) * 2020-06-19 2024-05-28 ***通信集团设计院有限公司 电信网络故障原因定位方法及装置
CN112731903A (zh) * 2020-11-27 2021-04-30 成都飞机工业(集团)有限责任公司 一种全电传飞控故障的诊断***及方法
CN112782638A (zh) * 2020-12-22 2021-05-11 国网浙江海宁市供电有限公司 一种低压计量箱内电能表故障诊断维护方法
CN112782639A (zh) * 2020-12-22 2021-05-11 国网浙江海宁市供电有限公司 一种低压计量箱故障智能指示方法及指示器
CN112782638B (zh) * 2020-12-22 2022-09-13 国网浙江海宁市供电有限公司 一种低压计量箱内电能表故障诊断维护方法

Similar Documents

Publication Publication Date Title
CN104794136A (zh) 故障分析方法和装置
CN104461842B (zh) 基于日志相似性来处理故障的方法和装置
CN112181758B (zh) 一种基于网络拓扑及实时告警的故障根因定位方法
US9626600B2 (en) Event analyzer and computer-readable storage medium
US11294754B2 (en) System and method for contextual event sequence analysis
KR20210019564A (ko) 운영 유지 시스템 및 방법
CN106104496A (zh) 用于任意时序的不受监督的异常检测
JP2019502191A (ja) サービス呼び出し情報処理の方法及びデバイス
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
CN107667370A (zh) 使用事件日志检测异常账户
CN109501834A (zh) 一种道岔转辙机故障预测方法及装置
JP5933463B2 (ja) ログ生起異常検知装置及び方法
CN111722952A (zh) 业务***的故障分析方法、***、设备和存储介质
CN109669844A (zh) 设备故障处理方法、装置、设备和存储介质
WO2015131558A1 (zh) 告警相关性数据挖掘方法和装置
CN103577514A (zh) 用于自动数据探索的方法和装置
CN112801316A (zh) 基于多指标数据的故障定位方法、***设备及存储介质
US11004002B2 (en) Information processing system, change point detection method, and recording medium
Dsouza et al. Preventive maintenance for fault detection in transfer nodes using machine learning
CN116986246A (zh) 一种用于对输煤皮带进行智能巡检***及巡检方法
Assaf et al. An anomaly detection and explainability framework using convolutional autoencoders for data storage systems
CN105069158B (zh) 数据挖掘方法及***
KR102024829B1 (ko) Cart 기반의 입력변수 랭킹을 이용한 산업공정의 고장변수 식별을 위한 장치 및 방법
CN113988690A (zh) 一种风险行为监测方法、装置及设备
CN107783879A (zh) 一种用于分析工作流执行路径的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150722