CN111859047A - 一种故障解决方法及装置 - Google Patents

一种故障解决方法及装置 Download PDF

Info

Publication number
CN111859047A
CN111859047A CN201910329934.2A CN201910329934A CN111859047A CN 111859047 A CN111859047 A CN 111859047A CN 201910329934 A CN201910329934 A CN 201910329934A CN 111859047 A CN111859047 A CN 111859047A
Authority
CN
China
Prior art keywords
solution
atomic
fault
anomaly
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910329934.2A
Other languages
English (en)
Inventor
席佼佼
袁健清
徐日东
张文革
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201910329934.2A priority Critical patent/CN111859047A/zh
Publication of CN111859047A publication Critical patent/CN111859047A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种故障解决方法及装置。该方法包括:接收解决故障的方案匹配请求,方案匹配请求包括以下一个或多个参数:目标***名称、故障场景类型信息、原子异常类型;当在解决方案库中匹配到已有的解决方案时,绑定指标数据;根据指标数据以及已有的解决方案定义的原子异常组合逻辑,执行该原子异常组合逻辑中每个原子异常对应的原子算法;以及输出实例化后的解决方案。本申请的方案可以用于云服务中,采用本申请的方案,面对复杂问题,运维人员无需具有较深的算法知识,可以利用已经生成的解决方案进行故障分析,实现了采用人工智能方案解决各种复杂故障。

Description

一种故障解决方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种故障解决方法及装置。
背景技术
目前服务提供商一般采用云服务的方式提供业务,不再卖设备。除了简单的设备故障外,服务之间的依赖变得越来越复杂。一些复杂的问题需要通过智能分析手段解决,例如,性能劣化、负荷的合理调度、关键绩效指标(key performance indicator,KPI)异常(如业务成功率)、根因分析等。
故障智能治理是运维的一个主要场景,指的是基于人工智能和自动化手段实现对故障的预警、发现、诊断、定界、根因分析、快速恢复等。典型的智能故障治理方案是由算法专家预先离线或在线训练出模型,发布部署后由运维专家直接调用。
这种角色分工方案难以支撑不懂算法的运维专家简单、灵活地使用人工智能(artificial intelligence,AI)解决问题。具体原因是:算法专家通常对业务理解不足,其建模是从数据规律出发,可能导致模型结果在业务层面无法较好的吻合、甚至与业务逻辑相悖。运维专家在使用过程中发现模型需要优化,但其只理解业务特征而不懂算法,可能再次将问题抛给不懂业务的算法专家,容易陷入死循环。业务专家的领域知识没有有效转变为模型可用的规则或模式,仅停留在交流讨论层面。
业界的机器学***台设计时考虑的使用者是算法专家。运维专家对这些算法无法把握,无法通过这些平台构建面向运维问题的人工智能解决方案(AI solution),必须和算法专家协同工作。
可见,自动化机器学习无法解决运维专家和算法专家之间的知识领域鸿沟问题:对于运维专家,仍需要对机器学习算法有较深理解,如:如何选取算法、设定初始参数。对于算法专家,目前的这些自动化机器学习解决方案仅能提高模型训练效率,仍须首先将运维问题准确分解转换为算法问题。
因此,如何能让运维专家简单、灵活地使用AI来解决运维问题,是目前亟待解决的问题。
发明内容
本申请提供一种故障解决方法及装置,以让运维专家简单、灵活地使用人工智能方案解决各种复杂故障。
第一方面,提供了一种故障解决方法,所述方法包括:接收解决故障的方案匹配请求,所述方案匹配请求包括以下一个或多个参数:目标***名称、故障场景类型、原子异常类型;当在解决方案库中匹配到已有的解决方案时,绑定指标数据;根据所述指标数据以及所述已有的解决方案定义的原子异常组合逻辑,执行所述原子异常组合逻辑中每个原子异常对应的原子算法;以及输出实例化后的解决方案。在该方面中,面对复杂问题,无需具有较深的算法知识,可以利用已经生成的解决方案进行故障分析,实现了采用人工智能方案解决各种复杂故障。
在又一个实现中,所述方法还包括:存储所述实例化后的解决方案。在该实现中,当匹配到已有的解决方案时,直接将已有的解决方案实例化,采用实例化后的解决方案解决问题,方便、直接。
在又一个实现中,当在所述解决方案库中未匹配到已有的解决方案时,根据所述故障的数据规律,将所述故障分解为多个原子异常;查找每个原子异常对应的原子算法;以及根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。在该方面中,面对复杂问题,无需具有较深的算法知识,可以简单、灵活地通过编排原子算法,生成解决该问题的解决方案,实现了采用人工智能方案解决各种复杂问题。
在又一个实现中,所述方法还包括:对生成的所述故障的解决方案进行实例化;以及存储所述实例化后的解决方案。在该实现中,将通过编排原子算法得到的解决方案实例化,可以将该实例化后的解决方案用于实际问题的解决。
在又一个实现中,所述对生成的所述故障的解决方案进行实例化,包括:绑定指标数据;根据所述指标数据,执行每个原子异常对应的原子算法;以及输出实例化后的解决方案。
在又一个实现中,所述故障场景包括以下一个或多个类型:资源类故障、成功率类故障、时延类故障、性能类故障。在该实现中,通过明确的故障场景,可以索引到对应的解决方案以及将故障分解为相应的原子异常。
在又一个实现中,所述原子异常包括以下一个或多个类型:单指标突变、单指标趋势异常、单指标周期性异常、多指标相关性异常。在该实现中,通过明确各个类型的原子异常,可以根据故障类型,将故障分解为一个或多个类型的原子异常,从而可以通过编排原子异常对应的原子算法,得到解决问题的方案。
第二方面,提供了一种故障分析装置,所述装置包括:接收单元,用于接收解决故障的方案匹配请求,所述方案匹配请求包括以下一个或多个参数:目标***名称、故障场景类型、原子异常类型;第一绑定单元,用于当在解决方案库中匹配到已有的解决方案时,绑定指标数据;第一执行单元,用于根据所述指标数据以及所述已有的解决方案定义的原子异常组合逻辑,执行所述原子异常组合逻辑中每个原子异常对应的原子算法;以及第一输出单元,用于输出实例化后的解决方案。
在又一个实现中,所述装置还包括:第一存储单元,用于存储所述实例化后的解决方案。
在又一个实现中,所述装置还包括:分解单元,用于当在所述解决方案库中未匹配到已有的解决方案时,根据所述故障的数据规律,将所述故障分解为多个原子异常;查找单元,用于查找每个原子异常对应的原子算法;以及生成单元,用于根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。
在又一个实现中,所述装置还包括:实例化单元,用于对生成的所述故障的解决方案进行实例化;以及第二存储单元,用于存储所述实例化后的解决方案。
在又一个实现中,所述实例化单元包括:第二绑定单元,用于绑定指标数据;第二执行单元,用于根据所述指标数据,执行每个原子异常对应的原子算法;以及第二输出单元,用于输出实例化后的解决方案。
基于同一发明构思,由于该装置解决问题的原理以及有益效果可以参见上述方法实施方式以及所带来的有益效果,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
第三方面,提供了一种故障分析装置,所述装置包括:输入装置、输出装置、存储器和处理器;其中,所述存储器中存储一组程序代码,且所述处理器用于调用所述存储器中存储的程序代码,执行以下操作:控制所述输入装置接收解决故障的方案匹配请求,所述方案匹配请求包括以下一个或多个参数:目标***名称、故障场景类型、原子异常类型;当在解决方案库中匹配到已有的解决方案时,绑定指标数据;根据所述指标数据以及所述已有的解决方案定义的原子异常组合逻辑,执行所述原子异常组合逻辑中每个原子异常对应的原子算法;控制所述输出装置输出实例化后的解决方案。
在又一个实现中,所述处理器还执行如下操作:存储所述实例化后的解决方案。
在又一个实现中,当在所述解决方案库中未匹配到已有的解决方案时,根据所述故障的数据规律,将所述故障分解为多个原子异常;查找每个原子异常对应的原子算法;以及根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。
在另一个实现中,所述处理器还执行如下操作:对生成的所述故障的解决方案进行实例化;以及存储所述实例化后的解决方案。
在又一个实现中,所述处理器执行所述对生成的所述故障的解决方案进行实例化的操作,包括:绑定指标数据;根据所述指标数据,执行每个原子异常对应的原子算法;以及输出实例化后的解决方案。
基于同一发明构思,由于该装置解决问题的原理以及有益效果可以参见上述方法实施方式以及所带来的有益效果,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
第四方面,提供了一种生成故障的解决方案的方法,所述方法包括:获取故障的数据规律;将所述故障分解为多个原子异常;查找每个原子异常对应的原子算法;以及根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。在该方面中,面对复杂问题,无需具有较深的算法知识,可以简单、灵活地通过编排原子算法,生成解决该问题的解决方案,实现了采用人工智能方案解决各种复杂问题。
在一个实现中,所述原子异常包括以下一个或多个类型:单指标突变、单指标趋势异常、单指标周期性异常、多指标相关性异常。在该实现中,通过明确各个类型的原子异常,可以根据故障类型,将故障分解为一个或多个类型的原子异常,从而可以通过编排原子异常对应的原子算法,得到解决问题的方案。
在又一个实现中,所述方法还包括:对所述解决方案进行实例化;以及存储所述实例化后的解决方案。在该实现中,将通过编排原子算法得到的解决方案实例化,可以将该实例化后的解决方案用于实际问题的解决。
在又一个实现中,所述对所述解决方案进行实例化,包括:绑定指标数据;根据所述指标数据,执行每个原子异常对应的原子算法;以及输出实例化后的解决方案。
第五方面,提供了一种生成故障的解决方案的装置,所述装置包括解决方案编排模块,所述解决方案编排模块包括:获取单元,用于获取故障的数据规律;分解单元,用于将所述故障分解为多个原子异常;查找单元,用于查找每个原子异常对应的原子算法;以及生成单元,用于根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。
在一个实现中,所述原子异常包括以下一个或多个类型:单指标突变、单指标趋势异常、单指标周期性异常、多指标相关性异常。
在又一个实现中,所述装置还包括解决方案实例化模块,所述解决方案实例化模块包括:实例化单元,用于对所述解决方案进行实例化;以及存储单元,用于存储所述实例化后的解决方案。
在又一个实现中,所述实例化单元具体用于:绑定指标数据;根据所述指标数据,执行每个原子异常对应的原子算法;以及输出实例化后的解决方案。
基于同一发明构思,由于该装置解决问题的原理以及有益效果可以参见上述方法实施方式以及所带来的有益效果,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
第六方面,提供了一种生成故障的解决方案的装置,所述装置包括:输入装置、输出装置、存储器和处理器;其中,所述存储器中存储一组程序代码,且所述处理器用于调用所述存储器中存储的程序代码,执行以下操作:将所述故障分解为多个原子异常;查找每个原子异常对应的原子算法;以及根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。
在一个实现中,所述原子异常包括以下一个或多个类型:单指标突变、单指标趋势异常、单指标周期性异常、多指标相关性异常。
在又一个实现中,所述处理器还用于执行如下操作:对所述解决方案进行实例化;以及存储所述实例化后的解决方案。
在又一个实现中,所述处理器执行所述对所述解决方案进行实例化的步骤,包括:绑定指标数据;根据所述指标数据,执行每个原子异常对应的原子算法;以及输出实例化后的解决方案。
基于同一发明构思,由于该装置解决问题的原理以及有益效果可以参见上述方法实施方式以及所带来的有益效果,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
第七方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面、第四方面或其任一种实现所述的方法。
第八方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面、第四方面或其任一种实现所述的方法。
附图说明
下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为智能运维过程中各角色的关系示意图;
图2为本申请实施例提供的一种***架构示意图;
图3为本申请实施例提供的一种生成故障的解决方案的方法流程示意图;
图4为具体示例的一种生成故障的解决方案的示意图;
图5为本申请实施例提供的一种故障解决方法的流程示意图;
图6为本申请实施例提供的故障解决方法的又一种流程示意图;
图7为本申请实施例提供的故障解决方法的又一种流程示意图;
图8为示例的方案编排的界面示意图;
图9为对图5所示的故障解决方法的进一步详细的流程示意图;
图10为本申请实施例提供的一种生成故障的解决方案的模块结构示意图;
图11为本申请实施例提供的一种生成故障的解决方案的硬件结构示意图;
图12为本申请实施例提供的一种故障解决装置的模块结构示意图;
图13为本申请实施例提供的一种故障解决装置的硬件结构示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。
下面给出本申请可能涉及的几个术语的定义:
故障的解决方案,一般是人工智能解决方案(AI solution),指通过人工智能解决故障的方案,具体地是指一种能以人类智能相似的方式解决各种运维故障。***获取到故障的解决方案后,可以绑定对应的指标数据,根据该指标数据以及该解决方案定义的原子异常组合逻辑,执行该原子异常组合逻辑中每个原子异常对应的原子算法,最终输出实例化后的解决方案。用户可以将该实例化后的解决方案用于故障分析,解决各种复杂故障。且当解决方案库(AI Solution库)中没有现成的故障解决方案时,可以根据故障的数据规律,将该故障分解为多个原子异常,查找每个原子异常对应的原子算法,根据每个原子异常对应的原子算法,生成故障的解决方案,从而面对复杂问题,无需具有较深的算法知识,可以简单、灵活地通过编排原子算法,生成解决该问题的解决方案,实现了采用人工智能方案解决各种复杂问题。故障可以根据场景进行区分,具体地,包括以下多种类型的故障场景:成功率类故障、时延类故障、资源类故障、性能类故障。
原子异常,是指数据规律的任一个维度的异常。针对每一类型的故障场景,可以查找到对应的数据规律。原子异常包括以下多个类型:多指标相关性异常、单指标水平分量异常、单指标趋势分量异常和单指标周期分量异常。每个故障场景可以分解为若干个原子异常的逻辑组合。
原子算法,是指较底层的异常检测(anomaly detection)算法。异常检测是指通过攻击行为的特征库,采用特征匹配的方法确定攻击事件。异常检测也可以是指根据非正常行为(***或用户)和使用计算机非正常资源来检测入侵行为,其关键在于建立用户及***正常行为轮廓(Profile),检测实际活动以判断是否背离正常轮廓。异常检测方法首先定义一组***处于“正常”情况时的数据,如中央处理器(central processing unit,CPU)利用率、内存利用率、文件校验和等,然后进行分析确定是否出现异常。每个原子异常具有对应的原子算法。对于一类数据规律可以采用相似的原子算法进行应对。
在服务运维过程中,存在多种服务角色,如图1所示的智能运维过程中各角色的关系示意图,运维过程中主要涉及到以下几个角色:业务专家、运维专家和算法专家。如图1所示,其中,业务专家熟悉业务领域知识,但往往不擅长数据分析算法;运维专家熟悉业务运维过程中产生的问题的原因与过程,比如***一般有哪些问题,哪些问题经常出现,怎么分析排查及解决这些问题,同时对业务领域知识有一定的掌握。运维专家同样也不擅长数据分析算法;算法专家熟练掌握数据分析算法,但既不了解业务领域知识,也不懂运维问题。
针对目前存在的问题:算法专家通常对业务理解不足,其建模是从数据规律出发,可能导致模型结果在业务层面无法较好的吻合、甚至与业务逻辑相悖;运维专家在使用过程中发现模型需要优化,但其只理解业务特征而不懂算法,可能再次将问题抛给不懂业务的算法专家,容易陷入死循环。
图2为本申请实施例提供的一种故障解决***的架构示意图,该***可包括解决方案编排模块11和解决方案实例化模块12。其中,解决方案编排模块11用于获取故障的数据规律,将所述故障分解为多个原子异常,查找每个原子异常对应的原子算法,以及根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。生成的故障解决方案存储至解决方案库。解决方案实例化模块12用于对生成的所述解决方案进行实例化,存储所述实例化后的解决方案。具体地,解决方案实例化模块12从数据库中绑定指标数据,该指标数据是指该解决方案相关的数据。从原子异常算法仓库获取该解决方案包括的多个原子异常所对应的原子算法。将匹配数据(绑定指标数据)后的解决方案模板输入到机器学***台提供了多种原子算法的训练能力。一个解决方案的数据分析过程一般由一个或多个原子算法组成。实例化模块会去按照设定的流程一个一个的调用机器学习平台提供的原子算法训练能力,完成整个解决方案的模型训练。经过训练的解决方案模型存储至故障场景解决分析库。
该解决方案模板经具体应用***的数据进行实例化后,得到解决方案模型。将该解决方案模型应用到待检测数据集上,即可以进行该类故障场景的异常检测。
当发生运维故障时,向解决方案库寻求解决方案。因此,该***还可以包括解决方案匹配模块13。解决方案匹配模块13根据以下一个或多个参数:目标***名称、故障场景类型、原子异常类型,在解决方案库中查找匹配的解决方案。当在解决方案库中匹配到已有的解决方案时,绑定指标数据;根据所述指标数据以及所述已有的解决方案定义的原子异常组合逻辑,执行所述原子异常组合逻辑中每个原子异常对应的原子算法;以及输出实例化后的解决方案。
采用本申请的生成故障的解决方案方法、故障解决方法及装置,面对复杂问题,无需具有较深的算法知识,可以简单、灵活地通过编排原子算法,生成解决该问题的解决方案,并可以利用生成的解决方案进行故障分析,实现了采用人工智能方案解决各种复杂故障。
请参阅图3,为本申请实施例提供的一种生成故障的解决方案的方法流程示意图,其中:
S101、获取故障的数据规律。
运维问题可以归纳为资源类(例如,吞吐量)、成功率类、时延类、性能类问题,且其数据规律也可归纳为单指标突变(或者称单指标水平分量异常)、单指标趋势分量异常、单指标周期分量异常、多指标相关性异常,后面称这些为原子异常。如表1所示,为各个类型的原子异常的正常表现和异常表现。
表1
Figure BDA0002037370750000061
Figure BDA0002037370750000071
从算法角度出发,对于一类数据规律是可以采用相似算法模型进行应对的。
S102、将所述故障分解为多个原子异常。
基于此原理,可以将相似数据规律的运维问题借助编排技术转换为针对一类故障场景的解决方案,该解决方案以故障场景为输入,将每个故障场景分解为若干个数据规律原子异常的逻辑组合。其中,故障场景类型包括:成功率类故障、时延类故障、资源类故障、性能类故障。
S103、查找每个原子异常对应的原子算法。
各原子异常有其对应的原子算法。
具体地,可以在原子异常算法仓库查找每个原子异常对应的原子算法。
S104、根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,其中,所述解决方案为所述多个原子异常对应的原子算法的组合。
在查找到每个原子异常对应的原子算法后,根据工作流(workflow)来调用上述原子算法,最终输出一个包含了算法模型逻辑组合的故障分析检测方案,即AI solution模板。
进一步地,所述方法还可包括以下步骤:
S105、对所述解决方案进行实例化。
上述输出的是AI solution模板,AIsolution本身仅是针对一批数据的处理过程描述,进一步地,还可以对该AI solution模板进行实例化。AIsolution的实例化就是指明这些数据具体是哪些。对应的,步骤S105具体包括:绑定指标数据,根据所述指标数据,执行每个原子异常对应的原子算法;再输出实例化后的解决方案。
具体实现中,可以从数据库中绑定指标数据,该指标数据是指该AI solution模板相关的数据。从原子异常算法仓库获取该AI solution包括的多个原子异常所对应的原子算法。将匹配数据(绑定指标数据)后的AI solution模板输入到机器学***台提供了多种原子算法的训练能力。一个AI solution的数据分析过程一般由一个或多个原子算法组成。实例化模块会去按照设定的流程一个一个的调用机器学习平台提供的原子算法训练能力,完成整个AI solution的模型训练。
该AI solution模板经具体应用***的数据进行实例化后,得到AI solution模型。将该AI solution模型应用到待检测数据集上,即可以进行该类故障场景的异常检测。
S106、存储所述实例化后的解决方案。
经过实例化后的解决方案可以直接用于进行故障检测。将实例化后的AIsolution存储到故障场景分析库,可以用于后续该类型的故障检测。
图4为具体示例的一种生成故障的解决方案的示意图,该图主要描述了通过编排如何得到一个新的AI solution模板。输入故障场景,可以将每个故障场景分解为若干个原子异常的逻辑组合。例如,当发生内存泄漏(发生资源类故障)时,可以将该故障分解为多指标相关性异常(具体表现为:内存占用率和业务量相关规律发生异常)和单指标趋势异常(话务量指标不平稳,或者话务量平稳条件下内存占用率出现抬高趋势)。然后,将各个原子异常进行算法映射。目前的异常检测原子算法包括:时间序列异常检测(例如holt-winters、最小二乘法等)、相关性分析(pearson系数、信息熵等)、以及其它常用异常检测算法(例如,iForest、PCA、LOF等)。本示例中的多指标相关性异常对应的检测算法可以是pearson系数分析,单指标趋势异常对应的检测算法可以是静态阈值判断、holt-winters指数平滑预测。通过上述故障编排和算法映射,可以输出一个AI solution模板,将该AIsolution模板存储到AI solution库。然后,对AI solution模板进行实例化,绑定指标数据,根据绑定的指标数据,执行每个原子异常对应的原子算法,输出成熟可用的AIsolution模型,存储到故障场景智能分析库。仍以内存泄漏检测为例,在数据库中绑定资源占有率、内存消耗等相关数据,将绑定指标数据后的AI solution模板输入到机器学***台提供的原子算法训练能力,完成整个AIsolution的模型训练。
根据本申请实施例提供的一种生成故障的解决方案的方法,面对复杂问题,无需具有较深的算法知识,可以简单、灵活地通过编排原子算法,生成解决该问题的解决方案,并可以利用生成的解决方案进行故障分析,实现了采用人工智能方案解决各种复杂故障。图5示出了如何利用通过上述方法生成的解决方案解决故障。
请参阅图5,为本申请实施例提供的一种故障解决方法的流程示意图,其中:
S201、接收解决故障的方案匹配请求,所述方案匹配请求包括以下一个或多个参数:目标***名称、故障场景类型、原子异常类型。
当发生运维故障时,向解决故障的解决方案库寻求解决方案。这里的方案一般指人工智能解决方案。输入方案匹配请求,索引已有的方案。索引的参数包括:目标***名称、故障场景类型信息、原子异常类型。选择索引参数进行索引,因此,该方案匹配请求包括上述一个或多个索引参数。例如,目标***名称可以是***网元、音视频会议、物联网(internet of things,IoT);故障场景类型包括:成功率类故障、时延类故障、资源类故障、性能类故障;原子异常类型包括:水平分量异常、趋势分量异常、周期性异常、多指标相关性异常。
S202、判断解决方案库中是否存在已有的解决方案;如果是,则进行到步骤S203;否则,进一步地,可以跳转到步骤S206。
接收到方案匹配请求后,根据索引参数在解决方案库中索引已有的解决方案。如果之前***解决过类似的故障,***中可能存储了解决该类故障的方案,因此,根据索引参数,可以先在解决方案库中索引已有的解决方案(或者称AI solution模板)。如果索引到已有的方案,则可以直接采用该已有的方案,简单、方案。
S203、当在解决方案库中匹配到已有的解决方案时,绑定指标数据。
S204、根据所述指标数据以及所述已有的解决方案定义的原子异常组合逻辑,执行所述原子异常组合逻辑中每个原子异常对应的原子算法;
S205、输出实例化后的解决方案。
如果S202中匹配到已有的AI solution模板,则进一步地,可以对匹配到的AIsolution模板进行实例化。实例化过程包括上述步骤S203~S205。具体地,从数据库中绑定指标数据,该指标数据是指该AI solution模板相关的数据。从原子异常算法仓库获取该AIsolution包括的多个原子异常所对应的原子算法。将匹配数据(绑定指标数据)后的AIsolution模板输入到机器学***台提供了多种原子算法的训练能力。一个AI solution的数据分析过程一般由一个或多个原子算法组成。实例化模块会去按照设定的流程一个一个的调用机器学习平台提供的原子算法训练能力,完成整个AI solution的模型训练。
该AI solution模板经具体应用***的数据进行实例化后,得到AI solution模型。将该AI solution模型应用到待检测数据集上,即可以进行该类故障场景的异常检测。如图6所示,为本申请实施例提供的故障解决方法的一个流程示意图,该流程示意图为匹配到已有的方案进行故障分析的场景。以检测是否发生内存泄漏为例,可以以上述参数为关键词进行索引,在AI solution库中查找是否存在已有的AI solution。当在AI solution库中匹配到已有的AI solution模板时,将AI solution模板实例化。具体地,从数据库中绑定指标数据,该指标数据是指该AI solution模板相关的数据。从原子异常算法仓库获取该AIsolution包括的多个原子异常所对应的原子算法。将匹配数据(绑定指标数据)后的AIsolution模板输入到机器学***台提供了多种原子算法的训练能力。一个AI solution的数据分析过程一般由一个或多个原子算法组成。实例化模块会去按照设定的流程一个一个的调用机器学习平台提供的原子算法训练能力,完成整个AI solution的模型训练。该AI solution模板经具体应用***的数据进行实例化后,最终输出内存泄漏检测模型。
进一步地,还可以存储所述实例化后的已有的解决方案。
S206、当在解决方案库中未匹配到已有的解决方案时,根据所述故障的数据规律,将所述故障分解为多个原子异常。
如果在解决方案库中未匹配到已有的AI solution模板,则可以通过编排组合原子异常创建一个新的AI solution。
根据上述的故障场景类型描述,运维问题可以归纳为资源类(例如,吞吐量)、成功率类、时延类、性能类问题,且其数据规律也可归纳为单指标突变(或者称单指标水平分量异常)、单指标趋势分量异常、单指标周期分量异常、多指标相关性异常,后面称这些为原子异常。如表1所示,为各个类型的原子异常的正常表现和异常表现。
从算法角度出发,对于一类数据规律是可以采用相似算法模型进行应对的。
基于此原理,可以将相似数据规律的运维问题借助编排技术转换为针对一类故障场景的解决方案,该解决方案以故障场景为输入,将每个故障场景分解为若干个数据规律原子异常的逻辑组合。
S207、查找每个原子异常对应的原子算法。
各原子异常有其对应的原子算法
具体地,在原子异常算法仓库查找每个原子异常对应的原子算法。
S208、根据所述每个原子异常对应的原子算法,输出所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。
在查找到每个原子异常对应的原子算法后,根据工作流(workflow)来调用上述原子算法,最终输出一个包含了算法模型逻辑组合的故障分析检测方案,即AI solution模板。
S209、对生成的所述故障的解决方案进行实例化。
上述输出的是AI solution模板,AIsolution本身仅是针对一批数据的处理过程描述,进一步地,还可以对该AI solution模板进行实例化。AIsolution的实例化就是指明这些数据具体是哪些。
则步骤S206具体包括:绑定指标数据,根据所述指标数据,执行每个原子异常对应的原子算法,然后,输出实例化后的解决方案。
具体地,从数据库中绑定指标数据,该指标数据是指该AI solution模板相关的数据。从原子异常算法仓库获取该AI solution包括的多个原子异常所对应的原子算法。将匹配数据(绑定指标数据)后的AI solution模板输入到机器学***台提供了多种原子算法的训练能力。一个AI solution的数据分析过程一般由一个或多个原子算法组成。实例化模块会去按照设定的流程一个一个的调用机器学习平台提供的原子算法训练能力,完成整个AI solution的模型训练。
该AI solution模板经具体应用***的数据进行实例化后,得到AI solution模型。将该AI solution模型应用到待检测数据集上,即可以进行该类故障场景的异常检测。
S210、存储所述实例化后的解决方案。
经过实例化后的解决方案可以直接用于进行故障检测。将实例化后的AIsolution存储到故障场景分析库,可以用于后续该类型的故障检测。
图4为具体示例的一种生成故障的解决方案的示意图,该图主要描述了通过编排如何得到一个新的AI solution模板。输入故障场景,可以将每个故障场景分解为若干个原子异常的逻辑组合。例如,当发生内存泄漏(发生资源类故障)时,可以将该故障分解为多指标相关性异常(具体表现为:内存占用率和业务量相关规律发生异常)和单指标趋势异常(话务量指标不平稳,或者话务量平稳条件下内存占用率出现抬高趋势)。然后,将各个原子异常进行算法映射。目前的异常检测原子算法包括:时间序列异常检测(例如holt-winters、最小二乘法等)、相关性分析(pearson系数、信息熵等)、以及其它常用异常检测算法(例如,iForest、PCA、LOF等)。本示例中的多指标相关性异常对应的检测算法可以是pearson系数分析,单指标趋势异常对应的检测算法可以是静态阈值判断、holt-winters指数平滑预测。通过上述故障编排和算法映射,可以输出一个AI solution模板,将该AIsolution模板存储到AI solution库。然后,对AI solution模板进行实例化,绑定指标数据,根据绑定的指标数据,执行每个原子异常对应的原子算法,输出成熟可用的AIsolution模型,存储到故障场景智能分析库。仍以内存泄漏检测为例,在数据库中绑定资源占有率、内存消耗等相关数据,将绑定指标数据后的AI solution模板输入到机器学***台提供的原子算法训练能力,完成整个AIsolution的模型训练。
图7为本申请实施例提供的故障解决方法的又一种流程示意图,该流程示意图为用重新编排得到的方案进行故障分析的实例。当需要检测是否发生内存泄漏时,如果在AIsolution库没有匹配到已有的AI solution,可以基于已有的原子异常结合故障场景进行逻辑组合,形成一个新的AI solution。具体地,按原子异常的数据规律描述,根据故障场景编排原子异常算法的逻辑组合,输出新编排的AI solution;然后调用相关数据源,绑定指标数据;从原子异常算法仓库调用各个原子异常对应的原子算法;将绑定指标数据后的AIsolution模板输入到机器学***台提供的原子算法训练能力,完成整个AI solution的模型训练,输出内存泄漏检测模型。
需要说明的是,AI solution编排可以是编排一个全新的AI solution模板,也可以是对原有的AI solution模板进行优化。如图8所示,为本申请实施例提供的一个示例的AI solution编排的界面示意图,该编排是在载入已有的AI solution模板后,对已有的模板的某些原子异常对应的原子算法进行重新组合,并保存修改后的AI solution模板。如图8所示,载入内存泄漏的已有模板,考虑修改或者增加多指标相关性分析和单指标趋势异常检测两个原子异常对应的原子算法,绑定两个指标数据(指标1:内存占用率和指标2:话务量),执行对应的原子算法,输出新的AI solution模板。
由上可见,本申请已提供了基本故障场景检测的AI solution,运维专家可以简单地直接对号入座地进行选择。当故障场景较复杂,现有基本故障场景类AI solution无法匹配时,本申请已提供了数据规律的原子异常,可以通过原子异常对现有AI solution进行编排优化,输出一个新的AI solution。
根据本申请实施例提供的一种故障解决方法,面对复杂问题,无需具有较深的算法知识,可以利用已经生成的解决方案进行故障分析,实现了采用人工智能方案解决各种复杂故障。
请参阅图9,为对图5所示的故障解决方法的进一步详细的流程示意图。其中,该流程包括设计时的流程和运行时的流程。通过设计时的流程生成AI solution模型,通过运行时的流程使用该生成的AI solution模型。
进一步地,设计时的流程包括数据准备阶段、solution与模型创建阶段、模型训练和调优阶段、模型保存阶段;运行时的流程具体包括模型运行阶段。
该***有三类参与角色:算法工程师、运维工程师、运维平台。
1)首先描述设计时的流程(如图9中的1#线条对应的流程):
首先,创建训练任务,根据故障场景类型检索已有的AI solution模板。如果检索到已有的AI solution模板,则对AI solution进行实例化;如果没有检索到已有的AIsolution模板,则重新编排获得一个新的AI solution模板,并对该新的AI solution模板进行实例化。
重新编排获得一个新的AI solution模板,是指以故障场景为输入,将每个故障场景分解为若干个数据规律原子异常的逻辑组合,查找每个原子异常对应的原子算法;在查找到每个原子异常对应的原子算法后,根据工作流(workflow)从原子异常算法库来调用上述原子算法,最终输出一个包含了算法模型逻辑组合的故障分析检测方案,即AI solution模板。
在对AI solution模板实例化后,可以启动训练任务,进行模型训练。具体地,通过训练集验证模型是否满足期望的要求,比如准确率、漏报率。通过指定的数据分析过程(也就是这里讲的AI solution),生成数据特征描述文本,即通俗讲的模型。比如:可以是一个表示多个指标之间关系的简单数学公式。针对AIsolution中的可调参数进行调整,以求模型达到最优。使用带有标签的数据集进行测试,以评估模型是否可用。存放可用于推理的模型到故障场景智能分析库中。
2)数据采集及使用流程(如图9中的2#线条对应的流程):
数据从目标***中采集上来后,会同时存放到实时数据库和历史数据库。在用于训练和推理时都会先进行预处理和特征工程。实时数据库用于支撑模型调用的推理过程;历史数据库用于模型训练中提供训练集、验证集和测试集。
其中,训练集是指用于训练模型的数据;
验证集是指用于验证通过训练集生成模型是否满足期望的要求,比如准确率、漏报率;
测试集是指用于测试模型的数据集;
预处理指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。
数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。
特征工程:特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优。
3)模型评估流程(如图9中的3#线条对应的流程):
该流程为模型在部署进行推理应用后,为避免样本漂移带来的模型失效导致推理结果不满足上线要求而进行的校验动作。
具体地,根据设定的能力基线(一系列的模型能力指标),评价模型的能力。
4)运行时流程(如图9中的4#线条对应的流程):
该流程为模型部署后的推理应用过程。具体包括:创建推理任务,选择AIsolution模型;读取AI solution模型,输出分析结果。从而实现用生成的模型对新数据进行推理。
另外,在对推理结果有疑问时,可以将运维结果复盘,到特征样本库详细查看该结果的产生过程,以便分析问题所在。
基于上述实施例中的生成故障的解决方案的方法的同一构思,如图10所示,本申请实施例还提供一种生成故障的解决方案的装置100,该装置可用于实现上述图3所示的方法。该装置100包括解决方案编排模块11和解决方案实例化模块12。
示例性的,该解决方案编排模块11包括:获取单元111,用于获取故障的数据规律;分解单元112,用于将所述故障分解为多个原子异常;查找单元113,用于查找每个原子异常对应的原子算法;以及生成单元114,用于根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。
示例性的,在又一个实现中,所述解决方案实例化模块12包括:实例化单元121,用于对所述解决方案进行实例化;以及存储单元122,用于存储所述实例化后的解决方案。
示例性的,在又一个实现中,所述实例化单元121具体用于:绑定指标数据;根据所述指标数据,执行每个原子异常对应的原子算法;以及输出实例化后的解决方案。
示例性的,在一个实现中,所述原子异常包括以下一个或多个类型:单指标突变、单指标趋势异常、单指标周期性异常、多指标相关性异常。
有关上述解决方案编排模块11和解决方案实例化模块12更详细的描述可以参考上述图3所示的方法实施例中的相关描述得到,这里不加赘述。
根据本申请实施例提供的一种生成故障的解决方案的装置,面对复杂问题,无需具有较深的算法知识,可以简单、灵活地通过编排原子算法,输出解决该问题的解决方案,实现了采用人工智能方案解决各种复杂问题。
请参阅图11,为本申请实施例提供的一种生成故障的解决方案的装置的硬件结构示意图,该故障分析装置200包括:输入装置21、输出装置22、存储器23和处理器24(该装置中的处理器24的数量可以一个或多个,图11中以一个处理器为例)。在本发明的一些实施例中,输入装置21、输出装置22、存储器23和处理器24可通过总线或其它方式连接,其中,图11中以通过总线连接为例。
其中,处理器24用于执行以下操作:
将所述故障分解为多个原子异常;查找每个原子异常对应的原子算法;以及根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。
在一个实现中,所述原子异常包括以下一个或多个类型:单指标突变、单指标趋势异常、单指标周期性异常、多指标相关性异常。
在又一个实现中,所述处理器还用于执行如下操作:对所述解决方案进行实例化;以及存储所述实例化后的解决方案。
在又一个实现中,所述处理器执行所述对所述解决方案进行实例化的步骤,包括:绑定指标数据;根据所述指标数据,执行每个原子异常对应的原子算法;以及输出实例化后的解决方案。
其中,上述处理器可以是CPU,网络处理器(network processor,NP)或者CPU和NP的组合。
处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmablelogic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gatearray,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
存储器可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器还可以包括上述种类的存储器的组合。
根据本申请实施例提供的一种生成故障的解决方案的装置,面对复杂问题,无需具有较深的算法知识,可以简单、灵活地通过编排原子算法,输出解决该问题的解决方案,实现了采用人工智能方案解决各种复杂问题。
基于上述实施例中的故障解决方法的同一构思,如图12所示,本申请实施例还提供一种故障分析装置300,该故障分析装置可用于实现上述图5所示的方法。该故障分析装置包括300:接收单元31、第一绑定单元32、第一执行单元33、第一输出单元34,还可以包括第一存储单元35、分解单元36、查找单元37、生成单元38、实例化单元39、第二存储单元30。
示例性地,所述装置300包括:接收单元31,用于接收解决故障的方案匹配请求,所述方案匹配请求包括以下一个或多个参数:目标***名称、故障场景类型、原子异常类型;第一绑定单元32,用于当在解决方案库中匹配到已有的解决方案时,绑定指标数据;第一执行单元33,用于根据所述指标数据以及所述已有的解决方案定义的原子异常组合逻辑,执行所述原子异常组合逻辑中每个原子异常对应的原子算法;以及第一输出单元34,用于输出实例化后的解决方案。
在又一个实现中,所述装置还包括:第一存储单元35,用于存储所述实例化后的解决方案。
在又一个实现中,所述装置300还包括:分解单元36,用于当在所述解决方案库中未匹配到已有的解决方案时,根据所述故障的数据规律,将所述故障分解为多个原子异常;查找单元37,用于查找每个原子异常对应的原子算法;以及生成单元38,用于根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。
在另一个实现中,所述装置300还包括:实例化单元39,用于对生成的所述故障的解决方案进行实例化;以及第二存储单元30,用于存储所述实例化后的解决方案。
在另一个实现中,所述实例化单元39包括:第二绑定单元391,用于绑定指标数据;第二执行单元392,用于根据所述指标数据,执行每个原子异常对应的原子算法;以及第二输出单元393,用于输出实例化后的解决方案。
有关上述接收单元31、第一绑定单元32、第一执行单元33、第一输出单元34、第一存储单元35、分解单元36、查找单元37、生成单元38、实例化单元39、第二存储单元30更详细的描述可以参考上述图5所示的方法实施例中的相关描述得到,这里不加赘述。
根据本申请实施例提供的一种故障解决装置,面对复杂问题,无需具有较深的算法知识,可以利用已经生成的解决方案进行故障分析,实现了采用人工智能方案解决各种复杂故障。
请参阅图13,为本申请实施例提供的一种故障解决装置的硬件结构示意图,该故障解决装置400包括:输入装置41、输出装置42、存储器43和处理器44(该装置中的处理器44的数量可以一个或多个,图13中以一个处理器为例)。在本发明的一些实施例中,输入装置41、输出装置42、存储器43和处理器44可通过总线或其它方式连接,其中,图13中以通过总线连接为例。
其中,处理器44用于执行以下操作:
接收解决故障的方案匹配请求,所述方案匹配请求包括以下一个或多个参数:目标***名称、故障场景类型、原子异常类型;当在解决方案库中匹配到已有的解决方案时,绑定指标数据;根据所述指标数据以及所述已有的解决方案定义的原子异常组合逻辑,执行所述原子异常组合逻辑中每个原子异常对应的原子算法;以及输出实例化后的解决方案。
在一个实现中,处理器44还用于执行以下操作:存储所述实例化后的解决方案。
在又一个实现中,处理器44还用于执行以下操作:当在所述解决方案库中未匹配到已有的解决方案时,根据所述故障的数据规律,将所述故障分解为多个原子异常;查找每个原子异常对应的原子算法;以及根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。
在又一个实现中,处理器44还用于执行以下操作:对生成的所述故障的解决方案进行实例化;以及存储所述实例化后的解决方案。
在又一个实现中,处理器44执行所述对生成的所述故障的解决方案进行实例化的操作,包括:绑定指标数据;根据所述指标数据,执行每个原子异常对应的原子算法;以及输出实例化后的解决方案。
在又一个实现中,所述故障场景包括以下一个或多个类型:资源类故障、成功率类故障、时延类故障、性能类故障。
在又一个实现中,所述原子异常包括以下一个或多个类型:单指标突变、单指标趋势异常、单指标周期性异常、多指标相关性异常。
其中,上述处理器可以是CPU,网络处理器NP或者CPU和NP的组合。
处理器还可以进一步包括硬件芯片。上述硬件芯片可以是ASIC,PLD或其组合。上述PLD可以是CPLD,FPGA,GAL或其任意组合。
存储器可以包括易失性存储器,例如RAM;存储器也可以包括非易失性存储器,例如快闪存储器,HDD或SSD;存储器还可以包括上述种类的存储器的组合。
根据本申请实施例提供的一种故障分析装置,面对复杂问题,无需具有较深的算法知识,可以利用已经生成的解决方案进行故障分析,实现了采用人工智能方案解决各种复杂故障。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述方法。
本申请实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法。
需要说明的是,本申请实施例中的“多个”是指两个或两个以上,鉴于此,本申请实施例中也可以将“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。

Claims (17)

1.一种故障解决方法,其特征在于,所述方法包括:
接收解决故障的方案匹配请求,所述方案匹配请求包括以下一个或多个参数:目标***名称、故障场景类型、原子异常类型;
当在解决方案库中匹配到已有的解决方案时,绑定指标数据;
根据所述指标数据以及所述已有的解决方案定义的原子异常组合逻辑,执行所述原子异常组合逻辑中每个原子异常对应的原子算法;
输出实例化后的解决方案。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:存储所述实例化后的解决方案。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当在所述解决方案库中未匹配到已有的解决方案时,根据所述故障的数据规律,将所述故障分解为多个原子异常;
查找每个原子异常对应的原子算法;
根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对生成的所述故障的解决方案进行实例化;
存储所述实例化后的解决方案。
5.根据权利要求4所述的方法,其特征在于,所述对生成的所述故障的解决方案进行实例化,包括:
绑定指标数据;
根据所述指标数据,执行每个原子异常对应的原子算法;
输出实例化后的解决方案。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述故障场景包括以下一个或多个类型:资源类故障、成功率类故障、时延类故障、性能类故障。
7.根据权利要求1~5任一项所述的方法,其特征在于,所述原子异常包括以下一个或多个类型:单指标突变、单指标趋势异常、单指标周期性异常、多指标相关性异常。
8.一种故障分析装置,其特征在于,所述装置包括:
接收单元,用于接收解决故障的方案匹配请求,所述方案匹配请求包括以下一个或多个参数:目标***名称、故障场景类型、原子异常类型;
第一绑定单元,用于当在解决方案库中匹配到已有的解决方案时,绑定指标数据;
第一执行单元,用于根据所述指标数据以及所述已有的解决方案定义的原子异常组合逻辑,执行所述原子异常组合逻辑中每个原子异常对应的原子算法;
第一输出单元,用于输出实例化后的解决方案。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:第一存储单元,用于存储所述实例化后的解决方案。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
分解单元,用于当在所述解决方案库中未匹配到已有的解决方案时,根据所述故障的数据规律,将所述故障分解为多个原子异常;
查找单元,用于查找每个原子异常对应的原子算法;
生成单元,用于根据所述每个原子异常对应的原子算法,生成所述故障的解决方案,所述解决方案为所述多个原子异常对应的原子算法的组合。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
实例化单元,用于对生成的所述故障的解决方案进行实例化;
第二存储单元,用于存储所述实例化后的解决方案。
12.根据权利要求11所述的装置,其特征在于,所述实例化单元包括:
第二绑定单元,用于绑定指标数据;
第二执行单元,用于根据所述指标数据,执行每个原子异常对应的原子算法;
第二输出单元,用于输出实例化后的解决方案。
13.根据权利要求8~12任一项所述的装置,其特征在于,所述故障场景包括以下一个或多个类型:资源类故障、成功率类故障、时延类故障、性能类故障。
14.根据权利要求8~12任一项所述的装置,其特征在于,所述原子异常包括以下一个或多个类型:单指标突变、单指标趋势异常、单指标周期性异常、多指标相关性异常。
15.一种故障分析装置,其特征在于,所述装置包括:输入装置、输出装置、存储器和处理器;其中,所述存储器中存储一组程序代码,且所述处理器用于调用所述存储器中存储的程序代码,执行如权利要求1~7任一项所述的方法。
16.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如权利要求1~7任一项所述的方法。
17.一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如权利要求1~7任一项所述的方法。
CN201910329934.2A 2019-04-23 2019-04-23 一种故障解决方法及装置 Pending CN111859047A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910329934.2A CN111859047A (zh) 2019-04-23 2019-04-23 一种故障解决方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910329934.2A CN111859047A (zh) 2019-04-23 2019-04-23 一种故障解决方法及装置

Publications (1)

Publication Number Publication Date
CN111859047A true CN111859047A (zh) 2020-10-30

Family

ID=72951954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910329934.2A Pending CN111859047A (zh) 2019-04-23 2019-04-23 一种故障解决方法及装置

Country Status (1)

Country Link
CN (1) CN111859047A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330156A (zh) * 2020-11-06 2021-02-05 联通(浙江)产业互联网有限公司 Kpi管理方法、装置、设备以及存储介质
CN112446511A (zh) * 2020-11-20 2021-03-05 中国建设银行股份有限公司 一种故障处置方法、装置、介质及设备
CN113009896A (zh) * 2021-03-09 2021-06-22 国能大渡河猴子岩发电有限公司 基于边缘计算和云计算的生产控制方法及***
CN114285721A (zh) * 2021-11-02 2022-04-05 北京思特奇信息技术股份有限公司 故障自动化诊断方法及***
CN114693186A (zh) * 2022-05-31 2022-07-01 广东电网有限责任公司佛山供电局 一种差异化组合式变电站多故障事件分析处理方法和***
WO2022253054A1 (zh) * 2021-05-31 2022-12-08 中兴通讯股份有限公司 一种故障处理方法、装置、服务器及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103138960A (zh) * 2011-11-24 2013-06-05 百度在线网络技术(北京)有限公司 网络故障处理方法及装置
CN106341248A (zh) * 2015-07-09 2017-01-18 阿里巴巴集团控股有限公司 一种基于云平台的故障处理方法和装置
US20170102982A1 (en) * 2015-10-13 2017-04-13 Honeywell International Inc. Methods and apparatus for the creation and use of reusable fault model components in fault modeling and complex system prognostics
CN107291565A (zh) * 2017-06-09 2017-10-24 千寻位置网络有限公司 运维可视化自动化作业平台及实现方法
CN107888397A (zh) * 2016-09-30 2018-04-06 华为技术有限公司 确定故障类型的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103138960A (zh) * 2011-11-24 2013-06-05 百度在线网络技术(北京)有限公司 网络故障处理方法及装置
CN106341248A (zh) * 2015-07-09 2017-01-18 阿里巴巴集团控股有限公司 一种基于云平台的故障处理方法和装置
US20170102982A1 (en) * 2015-10-13 2017-04-13 Honeywell International Inc. Methods and apparatus for the creation and use of reusable fault model components in fault modeling and complex system prognostics
CN107888397A (zh) * 2016-09-30 2018-04-06 华为技术有限公司 确定故障类型的方法和装置
CN107291565A (zh) * 2017-06-09 2017-10-24 千寻位置网络有限公司 运维可视化自动化作业平台及实现方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330156A (zh) * 2020-11-06 2021-02-05 联通(浙江)产业互联网有限公司 Kpi管理方法、装置、设备以及存储介质
CN112330156B (zh) * 2020-11-06 2024-04-09 联通(浙江)产业互联网有限公司 Kpi管理方法、装置、设备以及存储介质
CN112446511A (zh) * 2020-11-20 2021-03-05 中国建设银行股份有限公司 一种故障处置方法、装置、介质及设备
CN113009896A (zh) * 2021-03-09 2021-06-22 国能大渡河猴子岩发电有限公司 基于边缘计算和云计算的生产控制方法及***
CN113009896B (zh) * 2021-03-09 2022-05-24 国能大渡河猴子岩发电有限公司 基于边缘计算和云计算的生产控制方法及***
WO2022253054A1 (zh) * 2021-05-31 2022-12-08 中兴通讯股份有限公司 一种故障处理方法、装置、服务器及存储介质
CN114285721A (zh) * 2021-11-02 2022-04-05 北京思特奇信息技术股份有限公司 故障自动化诊断方法及***
CN114285721B (zh) * 2021-11-02 2024-04-19 北京思特奇信息技术股份有限公司 故障自动化诊断方法及***
CN114693186A (zh) * 2022-05-31 2022-07-01 广东电网有限责任公司佛山供电局 一种差异化组合式变电站多故障事件分析处理方法和***
CN114693186B (zh) * 2022-05-31 2022-08-23 广东电网有限责任公司佛山供电局 一种差异化组合式变电站多故障事件分析处理方法和***

Similar Documents

Publication Publication Date Title
CN111859047A (zh) 一种故障解决方法及装置
Agrawal et al. Is" better data" better than" better data miners"? on the benefits of tuning SMOTE for defect prediction
US11126493B2 (en) Methods and systems for autonomous cloud application operations
US8098585B2 (en) Ranking the importance of alerts for problem determination in large systems
JP2018185808A (ja) ブロックチェーンに基づくスマート契約をテストする装置及び方法
US9122784B2 (en) Isolation of problems in a virtual environment
CN107168995B (zh) 一种数据处理方法及服务器
CN1425234A (zh) 利用面向目标的模糊逻辑决策规则评估网络的安全姿态的***和方法
US20170034001A1 (en) Isolation of problems in a virtual environment
CN111108481B (zh) 故障分析方法及相关设备
CN110457175B (zh) 业务数据处理方法、装置、电子设备及介质
US20230033680A1 (en) Communication Network Performance and Fault Analysis Using Learning Models with Model Interpretation
EP3682324A1 (en) Method and apparatus for finding long methods in code
US11704186B2 (en) Analysis of deep-level cause of fault of storage management
Xu et al. Logdc: Problem diagnosis for declartively-deployed cloud applications with log
Devine et al. Assessment and cross-product prediction of software product line quality: accounting for reuse across products, over multiple releases
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
CN114528175A (zh) 一种微服务应用***根因定位方法、装置、介质及设备
US20230105304A1 (en) Proactive avoidance of performance issues in computing environments
US20190354991A1 (en) System and method for managing service requests
Osman et al. The impact of feature selection on predicting the number of bugs
Sapna et al. Clustering test cases to achieve effective test selection
CN111782477A (zh) 异常日志监控方法、装置、计算机设备及存储介质
Dhanalaxmi et al. A review on software fault detection and prevention mechanism in software development activities
CN114416573A (zh) 一种应用程序的缺陷分析方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination