CN105740140A - 软件***故障诊断方法、服务器及*** - Google Patents

软件***故障诊断方法、服务器及*** Download PDF

Info

Publication number
CN105740140A
CN105740140A CN201410759411.9A CN201410759411A CN105740140A CN 105740140 A CN105740140 A CN 105740140A CN 201410759411 A CN201410759411 A CN 201410759411A CN 105740140 A CN105740140 A CN 105740140A
Authority
CN
China
Prior art keywords
attribute
fault
software
numbering
diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201410759411.9A
Other languages
English (en)
Inventor
杜征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201410759411.9A priority Critical patent/CN105740140A/zh
Priority to PCT/CN2015/085932 priority patent/WO2016090929A1/zh
Publication of CN105740140A publication Critical patent/CN105740140A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开了一种软件***故障诊断方法,该方法包括:通过网管***获取被诊断软件***的故障属性;根据故障属性在预设的规则数据库中进行匹配,根据故障属性与预设的规则数据库的匹配度生成故障诊断决策列表。本发明还公开了一种软件***故障诊断服务器及***。本发明实现了软件***故障的智能诊断与修复,软件***故障实时监测,在线更新诊断规则,大大提高了软件故障诊断与修复的效率和自动化程度,同时也提高诊断***本身的维护与改进效率,从而解决了现有软件***维护的学习成本高、维护不方便的技术问题。

Description

软件***故障诊断方法、服务器及***
技术领域
本发明涉及软件***故障自动化分析领域,尤其涉及一种软件***故障诊断方法、服务器及***。
背景技术
随着技术的进步,大型分布式软件***应用逐渐增多,面向通讯、网络服务、智能管理***等各个方面,而这类***的复杂性和规模对维护也提出了更高的要求,包括人员数量及人员技能,维护成本和难度不断增大。
在软件***的维护过程中,主要需要应对两个方面的问题,一方面是硬件问题,一方面是软件问题。硬件问题主要是由硬件异常造成的某组件工作不正常,可能是硬件损坏或者设计缺陷造成,影响***运行,此类问题往往现象比较集中,问题现象和问题原因的集合相对较少,较容易排查,通过整理输出硬件排查手册就可以满足要求;软件问题就比较复杂,一般是因为配置不合理、配置错误、网络组件不完整、资源规划不合理、传输或其他网络问题所引起的,同时由于网络的复杂性,这类软件问题的现象和问题原因的对应关系集合非常庞大,这需要维护人员具有优秀的技术基础和长期的技术积累才能解决软件***的问题,从而使得软件***维护的学习成本过高,也使软件***的维护群体无法面向普通用户或者一般维护人员,维护十分不方便。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种软件***故障诊断方法、服务器及***,旨在解决现有软件***维护的学习成本高、维护不方便的技术问题。
为实现上述目的,本发明提供的一种软件***故障诊断方法,所述软件***故障诊断方法包括以下步骤:
通过网管***获取被诊断软件***的故障属性;
根据所述故障属性在预设的规则数据库中进行匹配,根据所述故障属性与预设的规则数据库的匹配度生成故障诊断决策列表。
优选地,所述根据所述故障属性在预设的规则数据库中进行匹配,根据所述故障属性与预设的规则数据库的匹配度生成故障诊断决策列表的步骤之后还包括:
当所述故障属性与预设的规则数据库匹配不成功,则将所述故障属性发送至故障分析与规则开发端进行分析;
接收所述故障分析与规则开发端对匹配不成功的故障属性进行分析所得的处理新规则,并将所述处理新规则并入所述规则数据库中。
优选地,所述通过网管***获取被诊断软件***的故障属性的步骤之前还包括:
根据已验证的故障属性分别形成故障属性数据记录,并将该故障属性数据记录录入故障属性数据库中,其中,所述故障属性包括:配置属性、告警属性、性能指标属性、故障原因属性和解决办法属性;
建立故障现象与所述故障原因属性和解决办法属性组合的映射关系,并将该映射关系录入故障规则数据库,其中,所述故障现象包括所述配置属性、告警属性和性能指标属性,所述故障原因与解决办法属性一一对应;
将所述故障属性数据库和故障规则数据库一起并入规则数据库,所述故障属性数据库和故障规则数据库中的数据互相对应。
优选地,所述根据已验证的故障属性分别形成故障属性数据记录,并将该故障属性数据记录录入故障属性数据库中的步骤具体为:
采用数据记录方式存储所有已验证的故障属性,并将该已验证的故障属性分别成库并录入故障属性数据库中,所述故障属性数据库包括:
配置属性库,包括配置属性编号、软件故障编号队列和配置表;
告警属性库,包括告警属性编号、软件故障编号队列和告警特征;
性能指标属性库,包括性能指标属性编号、软件故障编号队列和性能指标特征;
故障原因属性库,包括故障原因属性编号、软件故障编号队列和故障原因描述;
解决办法属性库,包括解决办法属性编号、软件故障编号队列和解决办法描述。
优选地,所述故障规则数据库包括:软件故障编号、软件故障名称、配置属性组、告警属性组、性能指标属性组、故障原因属性组、解决办法属性组和是否软件缺陷标识;
所述配置属性包括配置属性编号和配置属性权值,所述告警属性包括告警属性编号和告警属性权值,所述性能指标属性包括性能指标编号和性能指标权值。
优选地,所述根据所述故障属性在预设的规则数据库中进行匹配,根据所述故障属性与预设的规则数据库的匹配度生成故障诊断决策列表的步骤包括:
将获取到的所述故障属性分别与所述故障属性数据库中的匹配告警属性库、配置属性库和性能指标属性库进行匹配;
将所述故障属性匹配到的故障属性对应的软件故障编号队列汇总排序,形成初步匹配故障表;若所述故障属性没有匹配到任何故障属性,则形成未知故障属性表,其中,所述初步匹配故障表包括匹配的软件故障编号、匹配的配置属性队列、匹配的告警属性队列、匹配的性能指标属性队列,各匹配的故障属性队列由匹配的故障属性编号组成;所述未知故障属性表包括未匹配的配置属性、未匹配的告警属性、未匹配的性能指标属性,各位匹配的故障属性队列由匹配的故障属性编号组成;
将所述初步匹配故障表与所述故障规则数据库中的故障属性编号与故障属性权值进行匹配,得出所述初步匹配故障表中个匹配故障的匹配度,其中,所述故障属性编号包括配置属性编号、告警属性编号和性能指标编号,所述故障属性权值包括配置属性权值、告警属性权值和性能指标权值;
根据所述初步匹配故障表中个匹配故障的匹配度由大至小对该匹配故障进行排序,并从故障规则数据库中提取与匹配故障相对应的故障原因属性和解决办法属性,形成故障诊断决策列表,其中所述故障诊断决策列表包括匹配软件故障编号、匹配软件故障名称、故障原因属性和解决办法属性。
此外,为实现上述目的,本发明还提供一种软件***故障诊断服务器,所述软件***故障诊断服务器包括:
故障属性获取模块,用于通过网管***获取被诊断软件***的故障属性;
匹配决策模块,用于根据所述故障属性在预设的规则数据库中进行匹配,生成匹配度由高到低的故障诊断决策列表。
优选地,所述软件***故障诊断服务器还包括匹配更新模块,所述匹配更新模块用于:
当所述故障属性与预设的规则数据库匹配不成功,则将所述故障属性发送至故障分析与规则开发端进行分析;
接收所述故障分析与规则开发端对匹配不成功的故障属性进行分析所得的处理新规则,并将所述处理新规则并入所述规则数据库中。
优选地,所述软件***故障诊断服务器还包括数据库模块,所述数据库模块包括:
属性建库单元,用于根据已验证的故障属性分别形成故障属性数据记录,并将该故障属性数据记录录入故障属性数据库中,其中,所述故障属性包括:配置属性、告警属性、性能指标属性、故障原因属性和解决办法属性;
诊断建库单元,用于建立故障现象与所述故障原因属性和解决办法属性组合的映射关系,并将该映射关系录入故障规则数据库,其中,所述故障现象包括所述配置属性、告警属性和性能指标属性,所述故障原因与解决办法属性一一对应;
规则建库单元,用于将所述故障属性数据库和故障规则数据库一起并入规则数据库,所述故障属性数据库和故障规则数据库中的数据互相对应。
优选地,所述属性建库单元还用于:
采用数据记录方式存储所有已验证的故障属性,并将该已验证的故障属性分别成库并录入故障属性数据库中,所述故障属性数据库包括:
配置属性库,包括配置属性编号、软件故障编号队列和配置表;
告警属性库,包括告警属性编号、软件故障编号队列和告警特征;
性能指标属性库,包括性能指标属性编号、软件故障编号队列和性能指标特征;
故障原因属性库,包括故障原因属性编号、软件故障编号队列和故障原因描述;
解决办法属性库,包括解决办法属性编号、软件故障编号队列和解决办法描述。
优选地,所述故障规则数据库包括:软件故障编号、软件故障名称、配置属性组、告警属性组、性能指标属性组、故障原因属性组、解决办法属性组和是否软件缺陷标识;
所述配置属性包括配置属性编号和配置属性权值,所述告警属性包括告警属性编号和告警属性权值,所述性能指标属性包括性能指标编号和性能指标权值。
优选地,所述匹配决策模块包括:
属性匹配单元,用于将获取到的所述故障属性分别与所述故障属性数据库中的匹配告警属性库、配置属性库和性能指标属性库进行匹配;
初步匹配单元,用于将所述故障属性匹配到的故障属性对应的软件故障编号队列汇总排序,形成初步匹配故障表;若所述故障属性没有匹配到任何故障属性,则形成未知故障属性表,其中,所述初步匹配故障表包括匹配的软件故障编号、匹配的配置属性队列、匹配的告警属性队列、匹配的性能指标属性队列,各匹配的故障属性队列由匹配的故障属性编号组成;所述未知故障属性表包括未匹配的配置属性、未匹配的告警属性、未匹配的性能指标属性,各位匹配的故障属性队列由匹配的故障属性编号组成;
权值匹配单元,用于将所述初步匹配故障表与所述故障规则数据库中的故障属性编号与故障属性权值进行匹配,得出所述初步匹配故障表中个匹配故障的匹配度,其中,所述故障属性编号包括配置属性编号、告警属性编号和性能指标编号,所述故障属性权值包括配置属性权值、告警属性权值和性能指标权值;
决策匹配单元,用于根据所述初步匹配故障表中个匹配故障的匹配度由大至小对该匹配故障进行排序,并从故障规则数据库中提取与匹配故障相对应的故障原因属性和解决办法属性,形成故障诊断决策列表,其中所述故障诊断决策列表包括匹配软件故障编号、匹配软件故障名称、故障原因属性和解决办法属性。
此外,为实现上述目的,本发明还提供一种软件***故障诊断***,所述软件***故障诊断***包括软件***诊断服务器、软件***客户端和故障分析与规则开发端,
所述软件***诊断服务器包括故障属性获取模块、匹配决策模块和匹配更新模块,其中,
所述故障属性获取模块,用于通过网管***获取被诊断软件***的故障属性;
所述匹配决策模块,用于根据所述故障属性在预设的规则数据库中进行匹配,生成匹配度由高到低的故障诊断决策列表;
所述匹配更新模块用于:
当所述故障属性与预设的规则数据库匹配不成功,则将所述故障属性发送至故障分析与规则开发端进行分析;
所述匹配更新模块还用于:接收所述故障分析与规则开发端对匹配不成功的故障属性进行分析所得的处理新规则,并将所述处理新规则并入所述规则数据库中;
所述软件***客户端,用于向软件***诊断服务器提供故障属性,以及接收所述故障诊断决策列表;
所述故障分析与规则开发端,用于接收所述软件***诊断服务器发送过来的匹配不成功的故障属性,并对该匹配不成功的故障属性进行分析得到处理新规则,将所述处理新规则并入所述规则数据库中。
本发明通过网管***获取被诊断软件***的故障属性,该故障属性包括配置属性、告警属性、性能指标属性、故障原因属性和解决办法属性,然后将被诊断软件***的已验证的配置属性、告警属性和性能指标属性的组合与对应的故障原因和解决办法组合建立映射关系,并将该映射关系建模和入库,形成包括软件故障属性数据库和故障规则数据库的规则数据库,最后根据被诊断软件***的故障属性在预设的规则数据库中进行匹配,根据故障属性与预设的规则数据库的匹配度生成故障诊断决策列表,将该故障诊断决策表发送至被诊断软件***的客户端,指导操作人员尝试恢复故障,如此,实现了软件***故障的智能诊断与修复,软件***故障实时监测,在线更新诊断规则,大大提高了软件故障诊断与修复的效率和自动化程度,同时也提高诊断***本身的维护与改进效率,从而解决了现有软件***维护的学习成本高、维护不方便的技术问题。
附图说明
图1为本发明软件***故障诊断方法第一实施例的流程示意图;
图2为本发明软件***故障诊断方法第二实施例的流程示意图;
图3为本发明软件***故障诊断方法第三实施例的流程示意图;
图4为图1中根据所述故障属性在预设的规则数据库中进行匹配,根据所述故障属性与预设的规则数据库的匹配度生成故障诊断决策列表的步骤的细化流程示意图;
图5为本发明软件***故障诊断服务器第一实施例的功能模块示意图;
图6为本发明软件***故障诊断服务器第二实施例的功能模块示意图;
图7为本发明软件***故障诊断服务器第三实施例的功能模块示意图;
图8为图7中数据库模块的细化功能模块示意图;
图9为图5中匹配决策模块的细化功能模块示意图;
图10为本发明软件***故障诊断***的功能模块示意图;
图11为本发明中故障属性数据库结构示意图;
图12为本发明中故障规则数据库结构示意图;
图13为本发明软件***故障诊断***的***部署图;
图14为本发明故障数据分析过程示意图;
图15为本发明基于规则数据库的软件故障诊断流程图;
图16为本发明中服务器端程序与客户端程序交互流程图;
图17为本发明中执行诊断计划的流程图;
图18为本发明中服务器端更新软件故障属性数据库的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种软件***故障诊断方法。
参照图1,图1为本发明软件***故障诊断方法第一实施例的流程示意图。
在第一实施例中,该软件***故障诊断方法包括以下步骤:
步骤S10,通过网管***获取被诊断软件***的故障属性;
在软件***故障诊断服务器(即网管服务器)安装并运行服务端程序,在软件***客户端(网管客户端)安装并运行客户端代理程序。客户端代理程序通过人机命令,编辑诊断任务和诊断计划,并通过TCP协议将包含诊断任务和诊断计划的消息发送至服务端程序以实时监控软件***状态;服务端程序在待诊断软件***的网管服务器中运行,获取客户端程序发来的诊断任务和诊断计划,并执行诊断任务,输出诊断结果反馈给客户端程序。
步骤S20,根据故障属性在预设的规则数据库中进行匹配,根据故障属性与预设的规则数据库的匹配度生成故障诊断决策列表。
根据故障属性在预设的规则数据库中进行匹配,匹配出于该故障属性相适的预设故障属性,并查找出预设故障属性对应的故障原因和故障解决办法,最后根据故障属性与预设故障属性的匹配度和相应的故障原因和故障解决办法生产故障诊断决策列表。
在本实施例中,通过网管***获取被诊断软件***的故障属性,该故障属性包括配置属性、告警属性、性能指标属性、故障原因属性和解决办法属性,然后将被诊断软件***的已验证的配置属性、告警属性和性能指标属性的组合与对应的故障原因和解决办法组合建立映射关系,并将该映射关系建模和入库,形成包括软件故障属性数据库和故障规则数据库的规则数据库,最后根据被诊断软件***的故障属性在预设的规则数据库中进行匹配,根据故障属性与预设的规则数据库的匹配度生成故障诊断决策列表,最后将该故障诊断决策表发送至被诊断软件***的客户端,指导操作人员尝试恢复故障,如此,实现了软件***故障的智能诊断与修复,软件***故障实时监测,在线更新诊断规则,大大提高了软件故障诊断与修复的效率和自动化程度,同时也提高诊断***本身的维护与改进效率,从而解决了现有软件***维护的学习成本高、维护不方便的技术问题。
进一步地,参照图2,图2为本发明软件***故障诊断方法第二实施例的流程示意图。
在第二实施例中,步骤S20之后还包括:
步骤S30,当故障属性与预设的规则数据库匹配不成功,则将故障属性发送至故障分析与规则开发端进行分析;
步骤S40,接收故障分析与规则开发端对匹配不成功的故障属性进行分析所得的处理新规则,并将处理新规则并入规则数据库中。
故障分析与规则开发端接收到匹配不成功的故障属性后,通过人机命令编辑和制定新的故障属性和故障诊断规则,并通过TCP协议将包含故障属性和故障诊断规则的消息同步到服务端程序。
在本实施例中,通过在生成故障诊断决策列表的同时,也对故障属性与预设的规则数控库的匹配过程进行判断,若匹配不成功,则将不成功故障属性(例如未知故障表和软件缺陷表)发送至故障分析与规则开发端,用于***开发人员分析并编辑新的故障属性和故障诊断规则,然后再次反馈给服务器端更新故障属性数据库和故障规则数据库,这样,在实现软件***故障的智能诊断和修复的同时,也实现了软件***的自动监控,在***运行时不断完善故障诊断规则,大大提高了软件故障诊断与修复的效率和自动化程度。
进一步地,参照图3,图3为本发明软件***故障诊断方法第三实施例的流程示意图,同时参照图11和图12。
在第三实施例中,步骤S20之前还包括:
步骤S50,根据已验证的故障属性分别形成故障属性数据记录,并将该故障属性数据记录录入故障属性数据库中,其中,故障属性包括:配置属性、告警属性、性能指标属性、故障原因属性和解决办法属性;
优选地,步骤S50具体为:
采用数据记录方式存储所有已验证的故障属性,并将该已验证的故障属性分别成库并录入故障属性数据库中,故障属性数据库包括:
配置属性库,包括配置属性编号、软件故障编号队列和配置表;
告警属性库,包括告警属性编号、软件故障编号队列和告警特征;
性能指标属性库,包括性能指标属性编号、软件故障编号队列和性能指标特征;
故障原因属性库,包括故障原因属性编号、软件故障编号队列和故障原因描述;
解决办法属性库,包括解决办法属性编号、软件故障编号队列和解决办法描述。
步骤S60,建立故障现象与故障原因属性和解决办法属性组合的映射关系,并将该映射关系录入故障规则数据库,其中,故障现象包括配置属性、告警属性和性能指标属性,故障原因与解决办法属性一一对应;
优选地,故障规则数据库包括:软件故障编号、软件故障名称、配置属性组、告警属性组、性能指标属性组、故障原因属性组、解决办法属性组和是否软件缺陷标识;配置属性包括配置属性编号和配置属性权值,告警属性包括告警属性编号和告警属性权值,性能指标属性包括性能指标编号和性能指标权值。
步骤S70,将故障属性数据库和故障规则数据库一起并入规则数据库,故障属性数据库和故障规则数据库中的数据互相对应。
将软件故障的属性和软件故障建立对应关系,形成软件***的故障规则数据库,由软件故障编号、软件故障名称、对应配置属性组、告警属性组、性能指标属性组、故障原因属性组、解决办法属性组和是否软件缺陷标识组成;归属软件故障的各属性队列,由属性编号和属性权重组成;软件故障归属关系库和各个属性库中的元素具有多对多的关系,互相建立索引表。
进一步地,参照图4,图4为图1中步骤S20的细化流程示意图。
在本实施例中,步骤S20包括:
步骤S201,将获取到的故障属性分别与故障属性数据库中的匹配告警属性库、配置属性库和性能指标属性库进行匹配;
服务端代理程序(服务器)把获取到的故障属性数据分别与故障属性数据库中的告警属性库、配置属性库和性能指标属性库匹配。
步骤S202,将故障属性匹配到的故障属性对应的软件故障编号队列汇总排序,形成初步匹配故障表;若故障属性没有匹配到任何故障属性,则形成未知故障属性表,其中,初步匹配故障表包括匹配的软件故障编号、匹配的配置属性队列、匹配的告警属性队列、匹配的性能指标属性队列,各匹配的故障属性队列由匹配的故障属性编号组成;未知故障属性表包括未匹配的配置属性、未匹配的告警属性、未匹配的性能指标属性,各位匹配的故障属性队列由匹配的故障属性编号组成;
将匹配到的故障属性对应的软件故障编号队列汇总排序,形成初步匹配故障表;若对应故障属性没有匹配到任何软件属性,则形成未知故障属性表;初步匹配故障表由匹配软件故障编号、匹配配置属性队列、匹配告警属性队列、匹配性能指标属性队列组成,各匹配属性队列由匹配的属性编号组成;未知故障属性表由未匹配配置数据、未匹配告警数据、未匹配性能指标数据组成,匹配属性队列由匹配的属性编号组成。
步骤S203,将初步匹配故障表与故障规则数据库中的故障属性编号与故障属性权值进行匹配,得出初步匹配故障表中个匹配故障的匹配度,其中,故障属性编号包括配置属性编号、告警属性编号和性能指标编号,故障属性权值包括配置属性权值、告警属性权值和性能指标权值;
服务器端代理程序根据软件故障归属关系中各故障属性在对应软件故障(即故障属性编号)中的权值,计算匹配故障表中各匹配故障的匹配度,并按匹配度重新排序,从故障规则数据库中提取故障原因和解决办法属性,形成故障诊断决策表。
步骤S204,根据初步匹配故障表中个匹配故障的匹配度由大至小对该匹配故障进行排序,并从故障规则数据库中提取与匹配故障相对应的故障原因属性和解决办法属性,形成故障诊断决策列表,其中故障诊断决策列表包括匹配软件故障编号、匹配软件故障名称、故障原因属性和解决办法属性。
故障诊断决策表由匹配软件故障编号、匹配软件故障名称、故障原因属性、解决办法属性;此外,在故障属性数据库与故障规则数据库的匹配对应过程中,判断是否存在软件缺陷,若存在将软件缺陷记录提出形成软件缺陷表,该软件缺陷表由标识为软件缺陷的初步匹配记录和匹配的各属性数据组成。完成上述分析后服务端程序分别将故障诊断决策表发往服务端程序,将未知故障属性表和软件缺陷表发往故障分析与规则开发客户端。
在本实施例中,服务端程序(服务器)根据客户端分析目标要求,自动获取对应目标的网管数据(故障属性),匹配规则库,按照匹配度排序形成故障诊断决策表及执行建议并返回给客户端,对于无法匹配或者匹配到软件缺陷的故障,将故障数据通知并发送到故障分析与规则开发客户端;具体地,首先服务端代理程序根据客户端发来的故障诊断任务或者执行定期监控计划,获取对象对应网管数据,通过故障属性数据库和故障诊断数据库的匹配,形成未知故障属性表、最终故障决策表和软件缺陷表,并分别将故障最终决策表发送给客户端代理程序,将未知故障属性表和软件缺陷表发送给故障分析与规则开发客户端程序;然后服务端代理程序接收到故障分析与规则开发客户端程序发来的新的故障属性和软件故障诊断规则,并同步更新到故障属性数据库和故障诊断数据库。
本发明的基本思想是:将待诊断软件***的已知故障对应的网管数据,包括配置数据、告警数据和性能指标数据,以及已知故障对应的故障原因和解决办法作为5种属性,组织为软件故障诊断规则,并将所有规则整理入库,形成软件故障诊断规则库,五种属性整理为故障属性数据库;将两种个库部署在被诊断软件***的网管服务器上;将服务端代理程序部署在网管服务器上,将客户端代理程序部署在客户端个人电脑机上,将故障分析与规则开发客户端部署在待诊断***开发方服务器上。服务器端代理程序根据诊断任务,通过获取网管上的数据,匹配故障属性数据库和故障诊断规则库,形成诊断结果,并分别反馈到客户端代理程序和故障分析与规则开发客户端,供客户端操作人员执行恢复措施以及***开发人员分析软件故障。
下面结合图13至图18对本发明软件***故障诊断方法做进一步地详细说明,该方法包括:
步骤1、服务端代理程序收到客户端发来的诊断对象,或者诊断计划周期性定时器超时,诊断过程开始;
步骤2、服务端代理程序根据诊断对象或者诊断计划中的诊断对象内容,确定诊断对象级别以及对象编号,在网管中分别提取对应对象编号的配置数据、告警数据、性能指标数据;
步骤3、将提取的配置数据和故障属性数据库中的配置属性数据库进行匹配,并记录匹配到的配置属性编号,计算匹配权值A,并提取对应配置属性的软件故障属性组;
步骤4、将提取的告警数据和故障属性数据库中的告警属性数据库进行匹配,并记录匹配到的告警属性编号,计算匹配权值B,并提取对应配置属性的软件故障属性组;。
步骤5、将提取的性能指标数据和故障属性数据库中的性能指标属性数据库进行匹配,并记录匹配到的性能指标属性编号,计算匹配权值C,并提取对应性能指标属性的软件故障属性组;
步骤6、将匹配到的软件故障属性组汇总,并以软件故障编号为索引,汇总对应匹配到的配置属性编号组、告警属性编号组和性能指标编号组和各属性的匹配权值;
步骤7、根据故障诊断规则库记录的软件故障和对应状态属性的权值(A,B,C)计算上一步骤中每一个匹配到的软件故障属性的最终匹配值Z并记录,根据最终匹配值Z进行排序,形成初步匹配故障表;
其中Z=A*A+B*B+C*C
步骤8、对于初步匹配故障表为空,且判断***存在异常,则将故障数据汇总形成未知故障属性表;若初步匹配故障表不为空,则提取故障诊断规则库记录的软件故障对应的软件原因属性和解决办法属性,形成软件故障决策表;
步骤9、根据故障诊断规则库记录的软件故障对应的是否软件缺陷属性,提取确认为软件缺陷的软件故障属性记录,以及匹配的故障数据,形成软件缺陷表;
步骤10、将软件故障决策表通过网管的网络***发送给客户端代理程序;将软件缺陷表和未知软件故障属性表发送给故障分析与规则开发客户端;
步骤11、诊断过程结束。
进一步地,步骤3具体包括以下步骤:
步骤3.1根据提取的配置数据和故障属性数据库中的配置属性库进行顺序匹配,配置属性数据库中的配置属性数据为开发人员编辑的匹配规则,具体表现为如下if-then形式:
if(提取的异常配置满足故障匹配规则)
then计算匹配权值and记录配置属性编号以及对应的软件故障编号
步骤3.2完成所有的配置属性库匹配后,以配置属性编号为索引,将匹配的配置属性编号及对应的匹配权值和对应的软件故障编号汇总;其他属性匹配过程与配置属性相同。
在本实施例中,通过将被诊断软件***的告警属性、性能属性和配置属性以及故障原因属性和解决办法属性建立对应关系,并进行建模和入库,形成故障属性数据库和故障规则数据库,将软件故障诊断和任务管理及人际交互划分为服务端程序和客户端代理程序,客户端代理程序通过建立故障诊断任务或者制定故障诊断计划,触发服务器端获取软件***故障数据并分析,生成故障诊断结果,将结果分为最终故障诊断决策表、未知故障表和软件缺陷表,并分别将最终故障诊断表反馈给客户端,指导操作人员尝试恢复故障;将未知故障表和软件缺陷表反馈给故障分析与规则开发客户端,用于***开发人员的分析并编辑新的故障属性和故障诊断规则,再次反馈给服务器端更新软件故障诊断属性数据库和软件故障诊断规则库。如此,实现了软件故障的智能诊断与修复,也实现了软件***故障的自动监控,同时可以在***运行时不断完善故障诊断规则,大大提高了软件故障诊断与修复的效率和自动化程度。
此外,参照图15、图16和图17,本发明还提供软件***故障诊断服务器(即服务器端)、软件***故障诊断客户端(即客户端)和故障分析与规则开发客户端之间的交互流程,具体步骤如下:
步骤a、客户端代理程序组织诊断任务或者诊断计划,封装成命令消息,并发送到服务端代理程序;
步骤b、服务端代理程序收到客户端发来的命令消息并解码,若为诊断任务则触发诊断过程,并返回诊断结果;若为诊断计划,则更新诊断计划,并返回诊断计划更新结果;
步骤c、客户端代理程序收到诊断结果,显示到人机界面;
步骤d、客户端代理程序收到诊断计划更新结果,显示到人机界面;
步骤e、若存在软件缺陷记录,服务端代理程序通过FTP发送软件缺陷消息到故障分析与规则开发客户端
步骤f、若诊断结果未匹配任何已知属性,则通知客户端发现未知故障,并组织未知故障属性表,通过FTP发送到故障分析与规则开发客户端
步骤g、服务器端代理程序若检测到诊断计划定时器超时,则执行诊断计划,步骤与步骤a—步骤f相同。
此外,参照图18,本发明还提供一种服务器端更新软件故障属性数据库的流程,具体步骤如下:
步骤A、***开发人员通过故障分析与规则开发客户端编辑新的故障属性和故障诊断规则,并封装为故障诊断规则消息,发送到服务端代理程序;
其中,故障属性包括配置属性、告警属性和性能指标属性的编号和故障诊断原语,故障诊断规则包括软件故障编号、五元属性和各属性在本软件故障中所占权值。
步骤B、服务器端代理程序收到故障诊断规则消息并解码,分别更新到故障属性数据库和故障诊断规则数据库;
步骤C、服务器端代理程序发送故障规则更新结果消息到故障分析与规则开发客户端。
步骤B具体包括以下步骤:
步骤B.1服务器端分别根据收到的故障属性的编号判断是否新增,如果是新增则直接在故障属性数据库新增记录,如果不是新增,则在原记录上更新故障诊断原语;
步骤B.2服务器端根据收到的软件故障的编号判断是否新增,如果是新增则直接在故障诊断规则数据库新增记录,如果不是新增,则在原记录上更新故障匹配数据。
本发明进一步提供一种软件***故障诊断服务器,参照图5,图5为本发明软件***故障诊断服务器第一实施例的功能模块示意图。
在第一实施例中,该软件***故障诊断服务器包括:
故障属性获取模块10,用于通过网管***获取被诊断软件***的故障属性;
在软件***故障诊断服务器(即网管服务器)安装并运行服务端程序,在软件***客户端(网管客户端)安装并运行客户端代理程序。客户端代理程序通过人机命令,编辑诊断任务和诊断计划,并通过TCP协议将包含诊断任务和诊断计划的消息发送至服务端程序以实时监控软件***状态;服务端程序在待诊断软件***的网管服务器中运行,获取客户端程序发来的诊断任务和诊断计划,并执行诊断任务,输出诊断结果反馈给客户端程序。
匹配决策模块20,用于根据故障属性在预设的规则数据库中进行匹配,生成匹配度由高到低的故障诊断决策列表。
根据故障属性在预设的规则数据库中进行匹配,匹配出于该故障属性相适的预设故障属性,并查找出预设故障属性对应的故障原因和故障解决办法,最后根据故障属性与预设故障属性的匹配度和相应的故障原因和故障解决办法生产故障诊断决策列表。
在本实施例中,通过网管***获取被诊断软件***的故障属性,该故障属性包括配置属性、告警属性、性能指标属性、故障原因属性和解决办法属性,然后将被诊断软件***的已验证的配置属性、告警属性和性能指标属性的组合与对应的故障原因和解决办法组合建立映射关系,并将该映射关系建模和入库,形成包括软件故障属性数据库和故障规则数据库的规则数据库,最后根据被诊断软件***的故障属性在预设的规则数据库中进行匹配,根据故障属性与预设的规则数据库的匹配度生成故障诊断决策列表,最后将该故障诊断决策表发送至被诊断软件***的客户端,指导操作人员尝试恢复故障,如此,实现了软件***故障的智能诊断与修复,软件***故障实时监测,在线更新诊断规则,大大提高了软件故障诊断与修复的效率和自动化程度,同时也提高诊断***本身的维护与改进效率,从而解决了现有软件***维护的学习成本高、维护不方便的技术问题。
进一步地,参照图6,图6为本发明软件***故障诊断服务器第二实施例的功能模块示意图。
在第二实施例中,软件***故障诊断服务器还包括匹配更新模块30,该匹配更新模块30用于:
当故障属性与预设的规则数据库匹配不成功,则将故障属性发送至故障分析与规则开发端进行分析;
接收故障分析与规则开发端对匹配不成功的故障属性进行分析所得的处理新规则,并将处理新规则并入规则数据库中。
故障分析与规则开发端接收到匹配不成功的故障属性后,通过人机命令编辑和制定新的故障属性和故障诊断规则,并通过TCP协议将包含故障属性和故障诊断规则的消息同步到服务端程序。
在本实施例中,通过在生成故障诊断决策列表的同时,也对故障属性与预设的规则数控库的匹配过程进行判断,若匹配不成功,则将不成功故障属性(例如未知故障表和软件缺陷表)发送至故障分析与规则开发端,用于***开发人员分析并编辑新的故障属性和故障诊断规则,然后再次反馈给服务器端更新故障属性数据库和故障规则数据库,这样,在实现软件***故障的智能诊断和修复的同时,也实现了软件***的自动监控,在***运行时不断完善故障诊断规则,大大提高了软件故障诊断与修复的效率和自动化程度。
进一步地,参照图7,图7为本发明软件***故障诊断服务器第三实施例的功能模块示意图,以及图8。
在第三实施例中,软件***故障诊断服务器还包括数据库模块40,数据库模块40包括:
属性建库单元401,用于根据已验证的故障属性分别形成故障属性数据记录,并将该故障属性数据记录录入故障属性数据库中,其中,故障属性包括:配置属性、告警属性、性能指标属性、故障原因属性和解决办法属性;
优选地,属性建库单元401还用于:
采用数据记录方式存储所有已验证的故障属性,并将该已验证的故障属性分别成库并录入故障属性数据库中,故障属性数据库包括:
配置属性库,包括配置属性编号、软件故障编号队列和配置表;
告警属性库,包括告警属性编号、软件故障编号队列和告警特征;
性能指标属性库,包括性能指标属性编号、软件故障编号队列和性能指标特征;
故障原因属性库,包括故障原因属性编号、软件故障编号队列和故障原因描述;
解决办法属性库,包括解决办法属性编号、软件故障编号队列和解决办法描述。
诊断建库单元402,用于建立故障现象与故障原因属性和解决办法属性组合的映射关系,并将该映射关系录入故障规则数据库,其中,故障现象包括配置属性、告警属性和性能指标属性,故障原因与解决办法属性一一对应;
优选地,故障规则数据库包括:软件故障编号、软件故障名称、配置属性组、告警属性组、性能指标属性组、故障原因属性组、解决办法属性组和是否软件缺陷标识;配置属性包括配置属性编号和配置属性权值,告警属性包括告警属性编号和告警属性权值,性能指标属性包括性能指标编号和性能指标权值。
规则建库单元403,用于将故障属性数据库和故障规则数据库一起并入规则数据库,故障属性数据库和故障规则数据库中的数据互相对应。
将软件故障的属性和软件故障建立对应关系,形成软件***的故障规则数据库,由软件故障编号、软件故障名称、对应配置属性组、告警属性组、性能指标属性组、故障原因属性组、解决办法属性组和是否软件缺陷标识组成;归属软件故障的各属性队列,由属性编号和属性权重组成;软件故障归属关系库和各个属性库中的元素具有多对多的关系,互相建立索引表。
进一步地,图9,图9为图5中匹配决策模块的细化功能模块示意图,匹配决策模块20包括:
属性匹配单元201,用于将获取到的故障属性分别与故障属性数据库中的匹配告警属性库、配置属性库和性能指标属性库进行匹配;
服务端代理程序(服务器)把获取到的故障属性数据分别与故障属性数据库中的告警属性库、配置属性库和性能指标属性库匹配。
初步匹配单元202,用于将故障属性匹配到的故障属性对应的软件故障编号队列汇总排序,形成初步匹配故障表;若故障属性没有匹配到任何故障属性,则形成未知故障属性表,其中,初步匹配故障表包括匹配的软件故障编号、匹配的配置属性队列、匹配的告警属性队列、匹配的性能指标属性队列,各匹配的故障属性队列由匹配的故障属性编号组成;未知故障属性表包括未匹配的配置属性、未匹配的告警属性、未匹配的性能指标属性,各位匹配的故障属性队列由匹配的故障属性编号组成;
将匹配到的故障属性对应的软件故障编号队列汇总排序,形成初步匹配故障表;若对应故障属性没有匹配到任何软件属性,则形成未知故障属性表;初步匹配故障表由匹配软件故障编号、匹配配置属性队列、匹配告警属性队列、匹配性能指标属性队列组成,各匹配属性队列由匹配的属性编号组成;未知故障属性表由未匹配配置数据、未匹配告警数据、未匹配性能指标数据组成,匹配属性队列由匹配的属性编号组成。
权值匹配单元203,用于将初步匹配故障表与故障规则数据库中的故障属性编号与故障属性权值进行匹配,得出初步匹配故障表中个匹配故障的匹配度,其中,故障属性编号包括配置属性编号、告警属性编号和性能指标编号,故障属性权值包括配置属性权值、告警属性权值和性能指标权值;
服务器端代理程序根据软件故障归属关系中各故障属性在对应软件故障(即故障属性编号)中的权值,计算匹配故障表中各匹配故障的匹配度,并按匹配度重新排序,从故障规则数据库中提取故障原因和解决办法属性,形成故障诊断决策表。
决策匹配单元204,用于根据初步匹配故障表中个匹配故障的匹配度由大至小对该匹配故障进行排序,并从故障规则数据库中提取与匹配故障相对应的故障原因属性和解决办法属性,形成故障诊断决策列表,其中故障诊断决策列表包括匹配软件故障编号、匹配软件故障名称、故障原因属性和解决办法属性。
故障诊断决策表由匹配软件故障编号、匹配软件故障名称、故障原因属性、解决办法属性;此外,在故障属性数据库与故障规则数据库的匹配对应过程中,判断是否存在软件缺陷,若存在将软件缺陷记录提出形成软件缺陷表,该软件缺陷表由标识为软件缺陷的初步匹配记录和匹配的各属性数据组成。完成上述分析后服务端程序分别将故障诊断决策表发往服务端程序,将未知故障属性表和软件缺陷表发往故障分析与规则开发客户端。
在本实施例中,服务端程序(服务器)根据客户端分析目标要求,自动获取对应目标的网管数据(故障属性),匹配规则库,按照匹配度排序形成故障诊断决策表及执行建议并返回给客户端,对于无法匹配或者匹配到软件缺陷的故障,将故障数据通知并发送到故障分析与规则开发客户端;具体地,首先服务端代理程序根据客户端发来的故障诊断任务或者执行定期监控计划,获取对象对应网管数据,通过故障属性数据库和故障诊断数据库的匹配,形成未知故障属性表、最终故障决策表和软件缺陷表,并分别将故障最终决策表发送给客户端代理程序,将未知故障属性表和软件缺陷表发送给故障分析与规则开发客户端程序;然后服务端代理程序接收到故障分析与规则开发客户端程序发来的新的故障属性和软件故障诊断规则,并同步更新到故障属性数据库和故障诊断数据库。
本发明进一步提供一种软件***故障诊断***,该软件***故障诊断***包括软件***诊断服务器100、软件***客户端200和故障分析与规则开发端300,
软件***诊断服务器100包括故障属性获取模块10、匹配决策模块20和匹配更新模块30,其中,
故障属性获取模块10,用于通过网管***获取被诊断软件***的故障属性;
匹配决策模块20,用于根据故障属性在预设的规则数据库中进行匹配,生成匹配度由高到低的故障诊断决策列表;
匹配更新模块30用于,当故障属性与预设的规则数据库匹配不成功,则将故障属性发送至故障分析与规则开发端进行分析;
匹配更新模块30还用于:接收故障分析与规则开发端对匹配不成功的故障属性进行分析所得的处理新规则,并将处理新规则并入规则数据库中;
软件***客户端200,用于向软件***诊断服务器提供故障属性,以及接收所述故障诊断决策列表;
故障分析与规则开发端300,用于接收软件***诊断服务器发送过来的匹配不成功的故障属性,并对该匹配不成功的故障属性进行分析得到处理新规则,将处理新规则并入规则数据库中。
在本实施例中,服务端程序(即软件***诊断服务器)在待诊断软件***的网管服务器中运行,根据要求获取网管数据;获取客户端代理程序发来的诊断任务和诊断计划,并执行任务诊断,输出诊断结果反馈给客户端;获取故障分析与规则开发客户端发来的故障属性和故障诊断规则,并更新到故障属性数据库和故障诊断规则库中。
客户端代理程序通过人机命令,编辑诊断任务和诊断计划,并通过TCP协议将包含诊断任务和诊断计划信息的消息发送给服务端程序;客户端代理程序获取服务端程序的诊断结果,并图形化展示,由操作人员根据诊断结果和修复执行建议进行操作,尝试恢复故障。故障分析与规则开发客户端程序,通过人机命令编辑和制定新的故障属性和故障诊断规则,并通过TCP协议将包含故障属性和故障诊断规则的消息同步到服务端程序;故障分析与规则开发客户端程序获取服务端程序FTP方式发来的诊断结果和故障数据,并提供给研发人员分析定位。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (13)

1.一种软件***故障诊断方法,其特征在于,所述软件***故障诊断方法包括以下步骤:
通过网管***获取被诊断软件***的故障属性;
根据所述故障属性在预设的规则数据库中进行匹配,根据所述故障属性与预设的规则数据库的匹配度生成故障诊断决策列表。
2.如权利要求1所述的软件***故障诊断方法,其特征在于,根据所述故障属性在预设的规则数据库中进行匹配,根据所述故障属性与预设的规则数据库的匹配度生成故障诊断决策列表的步骤之后还包括:
当所述故障属性与预设的规则数据库匹配不成功,则将所述故障属性发送至故障分析与规则开发端进行分析;
接收所述故障分析与规则开发端对匹配不成功的故障属性进行分析所得的处理新规则,并将所述处理新规则并入所述规则数据库中。
3.如权利要求1或2所述的软件***故障诊断方法,其特征在于,所述通过网管***获取被诊断软件***的故障属性的步骤之前还包括:
根据已验证的故障属性分别形成故障属性数据记录,并将该故障属性数据记录录入故障属性数据库中,其中,所述故障属性包括:配置属性、告警属性、性能指标属性、故障原因属性和解决办法属性;
建立故障现象与所述故障原因属性和解决办法属性组合的映射关系,并将该映射关系录入故障规则数据库,其中,所述故障现象包括所述配置属性、告警属性和性能指标属性,所述故障原因与解决办法属性一一对应;
将所述故障属性数据库和故障规则数据库一起并入规则数据库,所述故障属性数据库和故障规则数据库中的数据互相对应。
4.如权利要求3所述的软件***故障诊断方法,其特征在于,所述根据已验证的故障属性分别形成故障属性数据记录,并将该故障属性数据记录录入故障属性数据库中的步骤具体为:
采用数据记录方式存储所有已验证的故障属性,并将该已验证的故障属性分别成库并录入故障属性数据库中,所述故障属性数据库包括:
配置属性库,包括配置属性编号、软件故障编号队列和配置表;
告警属性库,包括告警属性编号、软件故障编号队列和告警特征;
性能指标属性库,包括性能指标属性编号、软件故障编号队列和性能指标特征;
故障原因属性库,包括故障原因属性编号、软件故障编号队列和故障原因描述;
解决办法属性库,包括解决办法属性编号、软件故障编号队列和解决办法描述。
5.如权利要求4所述的软件***故障诊断方法,其特征在于,
所述故障规则数据库包括:软件故障编号、软件故障名称、配置属性组、告警属性组、性能指标属性组、故障原因属性组、解决办法属性组和是否软件缺陷标识;
所述配置属性包括配置属性编号和配置属性权值,所述告警属性包括告警属性编号和告警属性权值,所述性能指标属性包括性能指标编号和性能指标权值。
6.如权利要求5所述的软件***故障诊断方法,其特征在于,所述根据所述故障属性在预设的规则数据库中进行匹配,根据所述故障属性与预设的规则数据库的匹配度生成故障诊断决策列表包括:
将获取到的所述故障属性分别与所述故障属性数据库中的匹配告警属性库、配置属性库和性能指标属性库进行匹配;
将所述故障属性匹配到的故障属性对应的软件故障编号队列汇总排序,形成初步匹配故障表;若所述故障属性没有匹配到任何故障属性,则形成未知故障属性表,其中,所述初步匹配故障表包括匹配的软件故障编号、匹配的配置属性队列、匹配的告警属性队列、匹配的性能指标属性队列,各匹配的故障属性队列由匹配的故障属性编号组成;所述未知故障属性表包括未匹配的配置属性、未匹配的告警属性、未匹配的性能指标属性,各位匹配的故障属性队列由匹配的故障属性编号组成;
将所述初步匹配故障表与所述故障规则数据库中的故障属性编号与故障属性权值进行匹配,得出所述初步匹配故障表中个匹配故障的匹配度,其中,所述故障属性编号包括配置属性编号、告警属性编号和性能指标编号,所述故障属性权值包括配置属性权值、告警属性权值和性能指标权值;
根据所述初步匹配故障表中个匹配故障的匹配度由大至小对该匹配故障进行排序,并从故障规则数据库中提取与匹配故障相对应的故障原因属性和解决办法属性,形成故障诊断决策列表,其中所述故障诊断决策列表包括匹配软件故障编号、匹配软件故障名称、故障原因属性和解决办法属性。
7.一种软件***故障诊断服务器,其特征在于,所述软件***故障诊断服务器包括:
故障属性获取模块,用于通过网管***获取被诊断软件***的故障属性;
匹配决策模块,用于根据所述故障属性在预设的规则数据库中进行匹配,生成匹配度由高到低的故障诊断决策列表。
8.如权利要求7所述的软件***故障诊断服务器,其特征在于,所述软件***故障诊断服务器还包括匹配更新模块,所述匹配更新模块用于:
当所述故障属性与预设的规则数据库匹配不成功,则将所述故障属性发送至故障分析与规则开发端进行分析;
接收所述故障分析与规则开发端对匹配不成功的故障属性进行分析所得的处理新规则,并将所述处理新规则并入所述规则数据库中。
9.如权利要求7或8所述的软件***故障诊断服务器,其特征在于,所述软件***故障诊断服务器还包括数据库模块,所述数据库模块包括:
属性建库单元,用于根据已验证的故障属性分别形成故障属性数据记录,并将该故障属性数据记录录入故障属性数据库中,其中,所述故障属性包括:配置属性、告警属性、性能指标属性、故障原因属性和解决办法属性;
诊断建库单元,用于建立故障现象与所述故障原因属性和解决办法属性组合的映射关系,并将该映射关系录入故障规则数据库,其中,所述故障现象包括所述配置属性、告警属性和性能指标属性,所述故障原因与解决办法属性一一对应;
规则建库单元,用于将所述故障属性数据库和故障规则数据库一起并入规则数据库,所述故障属性数据库和故障规则数据库中的数据互相对应。
10.如权利要求9所述的软件***故障诊断服务器,其特征在于,所述属性建库单元还用于:
采用数据记录方式存储所有已验证的故障属性,并将该已验证的故障属性分别成库并录入故障属性数据库中,所述故障属性数据库包括:
配置属性库,包括配置属性编号、软件故障编号队列和配置表;
告警属性库,包括告警属性编号、软件故障编号队列和告警特征;
性能指标属性库,包括性能指标属性编号、软件故障编号队列和性能指标特征;
故障原因属性库,包括故障原因属性编号、软件故障编号队列和故障原因描述;
解决办法属性库,包括解决办法属性编号、软件故障编号队列和解决办法描述。
11.如权利要求10所述的软件***故障诊断服务器,其特征在于,
所述故障规则数据库包括:软件故障编号、软件故障名称、配置属性组、告警属性组、性能指标属性组、故障原因属性组、解决办法属性组和是否软件缺陷标识;
所述配置属性包括配置属性编号和配置属性权值,所述告警属性包括告警属性编号和告警属性权值,所述性能指标属性包括性能指标编号和性能指标权值。
12.如权利要求11所述的软件***故障诊断服务器,其特征在于,所述匹配决策模块包括:
属性匹配单元,用于将获取到的所述故障属性分别与所述故障属性数据库中的匹配告警属性库、配置属性库和性能指标属性库进行匹配;
初步匹配单元,用于将所述故障属性匹配到的故障属性对应的软件故障编号队列汇总排序,形成初步匹配故障表;若所述故障属性没有匹配到任何故障属性,则形成未知故障属性表,其中,所述初步匹配故障表包括匹配的软件故障编号、匹配的配置属性队列、匹配的告警属性队列、匹配的性能指标属性队列,各匹配的故障属性队列由匹配的故障属性编号组成;所述未知故障属性表包括未匹配的配置属性、未匹配的告警属性、未匹配的性能指标属性,各位匹配的故障属性队列由匹配的故障属性编号组成;
权值匹配单元,用于将所述初步匹配故障表与所述故障规则数据库中的故障属性编号与故障属性权值进行匹配,得出所述初步匹配故障表中个匹配故障的匹配度,其中,所述故障属性编号包括配置属性编号、告警属性编号和性能指标编号,所述故障属性权值包括配置属性权值、告警属性权值和性能指标权值;
决策匹配单元,用于根据所述初步匹配故障表中个匹配故障的匹配度由大至小对该匹配故障进行排序,并从故障规则数据库中提取与匹配故障相对应的故障原因属性和解决办法属性,形成故障诊断决策列表,其中所述故障诊断决策列表包括匹配软件故障编号、匹配软件故障名称、故障原因属性和解决办法属性。
13.一种软件***故障诊断***,其特征在于,所述软件***故障诊断***包括软件***诊断服务器、软件***客户端和故障分析与规则开发端,
所述软件***诊断服务器包括故障属性获取模块、匹配决策模块和匹配更新模块,其中,
所述故障属性获取模块,用于通过网管***获取被诊断软件***的故障属性;
所述匹配决策模块,用于根据所述故障属性在预设的规则数据库中进行匹配,生成匹配度由高到低的故障诊断决策列表;
所述匹配更新模块用于:
当所述故障属性与预设的规则数据库匹配不成功,则将所述故障属性发送至故障分析与规则开发端进行分析;
所述匹配更新模块还用于:接收所述故障分析与规则开发端对匹配不成功的故障属性进行分析所得的处理新规则,并将所述处理新规则并入所述规则数据库中;
所述软件***客户端,用于向软件***诊断服务器提供故障属性,以及接收所述故障诊断决策列表;
所述故障分析与规则开发端,用于接收所述软件***诊断服务器发送过来的匹配不成功的故障属性,并对该匹配不成功的故障属性进行分析得到处理新规则,将所述处理新规则并入所述规则数据库中。
CN201410759411.9A 2014-12-10 2014-12-10 软件***故障诊断方法、服务器及*** Withdrawn CN105740140A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410759411.9A CN105740140A (zh) 2014-12-10 2014-12-10 软件***故障诊断方法、服务器及***
PCT/CN2015/085932 WO2016090929A1 (zh) 2014-12-10 2015-08-03 软件***故障诊断方法、服务器及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410759411.9A CN105740140A (zh) 2014-12-10 2014-12-10 软件***故障诊断方法、服务器及***

Publications (1)

Publication Number Publication Date
CN105740140A true CN105740140A (zh) 2016-07-06

Family

ID=56106596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410759411.9A Withdrawn CN105740140A (zh) 2014-12-10 2014-12-10 软件***故障诊断方法、服务器及***

Country Status (2)

Country Link
CN (1) CN105740140A (zh)
WO (1) WO2016090929A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106774271A (zh) * 2017-01-03 2017-05-31 中车株洲电力机车有限公司 一种城市轨道交通车辆故障诊断与显示***
CN107181630A (zh) * 2017-07-24 2017-09-19 郑州云海信息技术有限公司 云***中服务故障的处理方法和装置
CN107301131A (zh) * 2017-06-30 2017-10-27 郑州云海信息技术有限公司 一种分布式存储管理软件故障诊断方法及***
CN107329885A (zh) * 2017-07-21 2017-11-07 金鹏电子信息机器有限公司 一种基于图像数据特征差异性的预警方法
CN107943098A (zh) * 2018-01-01 2018-04-20 余绍祥 一种基于机器学习的智能运维机器人***
CN108073674A (zh) * 2016-11-18 2018-05-25 格芯公司 集成电路芯片中的***缺陷的故障标识数据库的早期开发
CN108363665A (zh) * 2018-02-09 2018-08-03 西安博达软件股份有限公司 一种基于云端的cms远程运维诊断***及方法
CN109062746A (zh) * 2018-07-27 2018-12-21 郑州云海信息技术有限公司 一种服务器管理单元的故障自诊断方法、装置及存储介质
CN109218042A (zh) * 2017-06-29 2019-01-15 中兴通讯股份有限公司 基于web服务器的故障诊断方法、装置及计算机可存储介质
CN109245910A (zh) * 2017-07-10 2019-01-18 中兴通讯股份有限公司 识别故障类型的方法及装置
CN109726071A (zh) * 2018-07-18 2019-05-07 平安科技(深圳)有限公司 ***故障处理方法、装置、设备及存储介质
CN112631192A (zh) * 2020-09-30 2021-04-09 中车青岛四方机车车辆股份有限公司 联挂和/或解挂监控***及运行方法、计算机、存储介质
CN113836044A (zh) * 2021-11-26 2021-12-24 华中科技大学 一种软件故障采集和分析的方法及***
WO2022022556A1 (zh) * 2020-07-29 2022-02-03 中兴通讯股份有限公司 故障的诊断方法及诊断规则确定方法、诊断功能部署方法,及相关设备和存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110635962B (zh) * 2018-06-25 2022-12-16 阿里巴巴集团控股有限公司 用于分布式***的异常分析方法及装置
CN111221890B (zh) * 2019-11-08 2024-03-12 中盈优创资讯科技有限公司 通用指标类自动监控预警方法及装置
CN112702196A (zh) * 2020-12-18 2021-04-23 上海中通吉网络技术有限公司 一种自动化故障处理方法和***
CN114116428A (zh) * 2021-12-01 2022-03-01 中国建设银行股份有限公司 调度***的故障诊断方法及设备
CN114500334B (zh) * 2021-12-31 2024-04-09 钉钉(中国)信息技术有限公司 服务端应用架构的诊断方法及装置
CN115225370B (zh) * 2022-07-18 2023-11-10 北京天融信网络安全技术有限公司 一种规则库优化方法、装置、电子设备及存储介质
CN115396287B (zh) * 2022-08-29 2023-05-12 武汉烽火技术服务有限公司 一种故障分析方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3489727B2 (ja) * 1999-09-03 2004-01-26 株式会社日立情報システムズ ソフトウェア障害判定方法およびそのプログラムを記録した記録媒体
CN1968148A (zh) * 2006-10-13 2007-05-23 华为技术有限公司 用于实现应用软件***与主机资源综合监管的网管***
CN101201788A (zh) * 2006-12-15 2008-06-18 中兴通讯股份有限公司 定位检测项的***
JP2008262510A (ja) * 2007-04-13 2008-10-30 Fuji Xerox Co Ltd 電子回路装置、故障診断装置、故障診断システム、及び故障診断プログラム。
CN102243497A (zh) * 2011-07-25 2011-11-16 江苏吉美思物联网产业股份有限公司 用于工程机械的基于物联网技术的远程智能分析服务***
CN103473400A (zh) * 2013-08-27 2013-12-25 北京航空航天大学 基于层次依赖建模的软件fmea方法
CN103684828A (zh) * 2012-09-18 2014-03-26 亿阳信通股份有限公司 一种电信设备故障的处理方法和装置
CN103699489A (zh) * 2014-01-03 2014-04-02 中国人民解放军装甲兵工程学院 一种基于知识库的软件远程故障诊断与修复方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3489727B2 (ja) * 1999-09-03 2004-01-26 株式会社日立情報システムズ ソフトウェア障害判定方法およびそのプログラムを記録した記録媒体
CN1968148A (zh) * 2006-10-13 2007-05-23 华为技术有限公司 用于实现应用软件***与主机资源综合监管的网管***
CN101201788A (zh) * 2006-12-15 2008-06-18 中兴通讯股份有限公司 定位检测项的***
JP2008262510A (ja) * 2007-04-13 2008-10-30 Fuji Xerox Co Ltd 電子回路装置、故障診断装置、故障診断システム、及び故障診断プログラム。
CN102243497A (zh) * 2011-07-25 2011-11-16 江苏吉美思物联网产业股份有限公司 用于工程机械的基于物联网技术的远程智能分析服务***
CN103684828A (zh) * 2012-09-18 2014-03-26 亿阳信通股份有限公司 一种电信设备故障的处理方法和装置
CN103473400A (zh) * 2013-08-27 2013-12-25 北京航空航天大学 基于层次依赖建模的软件fmea方法
CN103699489A (zh) * 2014-01-03 2014-04-02 中国人民解放军装甲兵工程学院 一种基于知识库的软件远程故障诊断与修复方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073674A (zh) * 2016-11-18 2018-05-25 格芯公司 集成电路芯片中的***缺陷的故障标识数据库的早期开发
CN106774271A (zh) * 2017-01-03 2017-05-31 中车株洲电力机车有限公司 一种城市轨道交通车辆故障诊断与显示***
CN106774271B (zh) * 2017-01-03 2020-06-23 中车株洲电力机车有限公司 一种城市轨道交通车辆故障诊断与显示***
CN109218042B (zh) * 2017-06-29 2023-04-18 中兴通讯股份有限公司 基于web服务器的故障诊断方法、装置及计算机可存储介质
CN109218042A (zh) * 2017-06-29 2019-01-15 中兴通讯股份有限公司 基于web服务器的故障诊断方法、装置及计算机可存储介质
CN107301131A (zh) * 2017-06-30 2017-10-27 郑州云海信息技术有限公司 一种分布式存储管理软件故障诊断方法及***
CN109245910A (zh) * 2017-07-10 2019-01-18 中兴通讯股份有限公司 识别故障类型的方法及装置
CN107329885A (zh) * 2017-07-21 2017-11-07 金鹏电子信息机器有限公司 一种基于图像数据特征差异性的预警方法
CN107181630A (zh) * 2017-07-24 2017-09-19 郑州云海信息技术有限公司 云***中服务故障的处理方法和装置
CN107943098A (zh) * 2018-01-01 2018-04-20 余绍祥 一种基于机器学习的智能运维机器人***
CN108363665A (zh) * 2018-02-09 2018-08-03 西安博达软件股份有限公司 一种基于云端的cms远程运维诊断***及方法
CN109726071A (zh) * 2018-07-18 2019-05-07 平安科技(深圳)有限公司 ***故障处理方法、装置、设备及存储介质
CN109062746A (zh) * 2018-07-27 2018-12-21 郑州云海信息技术有限公司 一种服务器管理单元的故障自诊断方法、装置及存储介质
WO2022022556A1 (zh) * 2020-07-29 2022-02-03 中兴通讯股份有限公司 故障的诊断方法及诊断规则确定方法、诊断功能部署方法,及相关设备和存储介质
CN112631192A (zh) * 2020-09-30 2021-04-09 中车青岛四方机车车辆股份有限公司 联挂和/或解挂监控***及运行方法、计算机、存储介质
CN113836044A (zh) * 2021-11-26 2021-12-24 华中科技大学 一种软件故障采集和分析的方法及***

Also Published As

Publication number Publication date
WO2016090929A1 (zh) 2016-06-16

Similar Documents

Publication Publication Date Title
CN105740140A (zh) 软件***故障诊断方法、服务器及***
CN111047082B (zh) 设备的预警方法及装置、存储介质和电子装置
CN111209131B (zh) 一种基于机器学习确定异构***的故障的方法和***
CN111985561B (zh) 一种智能电表的故障诊断方法、***及电子装置
CN103699489B (zh) 一种基于知识库的软件远程故障诊断与修复方法
CN109501834B (zh) 一种道岔转辙机故障预测方法及装置
CN111650921A (zh) 一种智能电网调控控制***设备故障诊断方法及***
CN104407977B (zh) 基于模型检测的分阶段任务***的自动化联调测试方法
CN113315222B (zh) 一种适用于电力***的智能变电站自动化设备运维管控***
CN110674189A (zh) 一种智能变电站二次状态监测与故障定位的方法
CN107018023A (zh) 一种服务器诊断方法、装置及***
CN103902816A (zh) 基于数据挖掘技术的带电检测数据处理方法
CN108051709A (zh) 基于人工智能技术的变压器状态在线评估分析方法
CN109885021A (zh) 一种基于实时采集数据对采集设备进行监测的方法及***
CN107066500B (zh) 一种基于pms模型的电网海量数据质量校验方法
CN106525415A (zh) 一种风电机组传动链健康状态评价***及方法
KR20110048771A (ko) 전력 텔레메트릭스의 엔지니어링 플랫폼 시스템 및 그 이용방법
WO2014148176A1 (ja) 情報収集システム、情報収集方法、及び記憶媒体
CN104267346A (zh) 一种发电机励磁***故障远程诊断方法
CN110971464A (zh) 一种适合灾备中心的运维自动化***
CN110956282A (zh) 一种配电自动化缺陷管理***及方法
CN109683923B (zh) 一种配电自动化***配置文件版本的校核方法及***
JP2015153196A (ja) 情報収集システム、情報収集方法、及び情報収集プログラム
CN103616877B (zh) 能源管网的监控诊断方法和***
CN117613908B (zh) 基于配电网络的智能运维方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20160706