CN114528132A

CN114528132A - 存储***故障的深层次原因分析

Info

Publication number: CN114528132A
Application number: CN202011196738.1A
Authority: CN
Inventors: 李乃峰
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-05-24
Also published as: US11704186B2; US20220138032A1

Abstract

本公开的实施例提供了一种存储管理方法、电子设备和计算机程序产品。在该存储管理方法中，计算设备可以基于存储***的故障的描述信息，确定故障属于预定义的多个故障类别中的一个故障类别。然后，计算设备可以在预定的故障原因的层级结构的第一层级中，确定与故障类别相关联的至少一个故障原因。接着，计算设备可以在至少一个故障原因中，确定导致故障的第一故障原因。然后，计算设备可以基于第一故障原因，确定导致故障的最深层级的目标故障原因。通过本公开的实施例，存储***故障的根本原因可以准确地且高效地被确定，从而提供从根本上消除故障的可能性。

Description

存储***故障的深层次原因分析

技术领域

本公开的实施例一般地涉及计算机***或存储***，并且更特别地涉及一种存储管理方法、电子设备和计算机程序产品。

背景技术

在存储产品或存储***的开发或维护中，对故障分析功能的集成和故障自动测试的研究和努力已经持续多年。在该研究中，存储***故障的故障原因分析(也称为分诊)一直是最大的问题，因为存储***通常是非常复杂的。

在最常见的场景中，存储***故障的原因分析仍然是由工程师手动完成的。这需要工程师们付出太多的精力和沟通，并且减慢了存储产品的整体开发效率。特别是，存储产品经常包括涉及不同技术的许多组件。大多数工程师一般精通某个特定的技术领域，而对其他技术领域的组件知之甚少，从而无法对存储***的故障进行有效的故障原因分析。

发明内容

本公开的实施例提出了一种用于确定存储***故障的深层次原因的技术方案，并且具体提供了一种存储管理方法、电子设备和计算机程序产品。

在本公开的第一方面，提供了一种存储管理方法。该方法包括：基于存储***的故障的描述信息，确定故障属于预定义的多个故障类别中的一个故障类别。该方法还包括：在预定的故障原因的层级结构的第一层级中，确定与故障类别相关联的至少一个故障原因。该方法还包括：在至少一个故障原因中，确定导致故障的第一故障原因。该方法进一步包括：基于第一故障原因，确定导致故障的最深层级的目标故障原因。

在本公开的第二方面，提供了一种电子设备。该电子设备包括至少一个处理器以及存储有计算机程序指令的至少一个存储器。至少一个存储器和计算机程序指令被配置为，与至少一个处理器一起，使电子设备：基于存储***的故障的描述信息，确定故障属于预定义的多个故障类别中的一个故障类别。至少一个存储器和计算机程序指令还被配置为，与至少一个处理器一起，使电子设备：在预定的故障原因的层级结构的第一层级中，确定与故障类别相关联的至少一个故障原因。至少一个存储器和计算机程序指令还被配置为，与至少一个处理器一起，使电子设备：在至少一个故障原因中，确定导致故障的第一故障原因。至少一个存储器和计算机程序指令进一步被配置为，与至少一个处理器一起，使电子设备：基于第一故障原因，确定导致故障的最深层级的目标故障原因。

在本公开的第三方面，提供了一种计算机程序产品。该计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令。机器可执行指令在被执行时使机器执行根据第一方面的方法的步骤。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其他特征通过以下的描述将变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施例。

图1示出了本公开的实施例可以在其中实现的示例性故障分析***的示意图。

图2示出了根据本公开的实施例的示例性存储管理方法的流程图。

图3示出了根据本公开的实施例的示例性的故障诊断数据，其可以包括故障原因的层级结构以及故障类别与第一层级之间的相关性。

图4示出了根据本公开的实施例的示例性存储管理***的高层架构的示意图。

图5示出了根据本公开的实施例的在分类器、推理引擎和分析器之间的示例***互过程。

图6示出了可以被用来实施本公开的实施例的示例设备的框图。

贯穿所有附图，相同或者相似的参考标号被用来表示相同或者相似的组件。

具体实施方式

下面将参考附图中示出的若干示例性实施例来描述本公开的原理和精神。应当理解，描述这些实施例仅是为了使本领域的技术人员能够更好地理解并实现本公开，而并非以任何方式限制本公开的范围。在本文的描述和权利要求中，除非另有定义，否则本文中使用的所有技术术语和科学术语具有与本公开所属领域的普通技术人员通常所理解的含义。

如上文提到的，存储产品经常包括涉及不同技术的许多组件。大多数工程师一般精通某个特定的技术领域，而对其他技术领域的组件知之甚少，从而无法对存储***的故障进行有效的故障原因分析。因此，针对存储***的某个故障的原因分析可能需要工程师寻求其他工程师和其他领域技术人员的关注和帮助，才能使得故障原因分析变得有意义。这导致针对存储***故障的原因分析项目难以展开和扩展，因为其需要越来越多的人力来执行越来越多的故障分析工作。

一些传统的故障分析***试图基于对收集的故障数据进行扫描来检查明显的问题。然而，这样的故障分析***只能发现明显且常见的问题，却不能确定出需要跟踪的更深层次的故障原因或***缺陷。例如，传统的故障分析***通常无法指出故障的原因，指出与***缺陷无关的原因，或者提供引起故障的表象原因。因此，传统的故障分析***没有提供对于深层次故障原因的推理***或方案。这导致存储***或其他***中存在的故障无法被有效地从根本上消除或解决。

鉴于传统方案中存在的上述问题以及潜在的其他问题，本公开的实施例提出了一种用于确定存储***故障的深层次原因的技术方案。在本公开的实施例中，计算设备可以基于存储***的故障的描述信息，确定故障属于预定义的多个故障类别中的一个故障类别。然后，计算设备可以在预定的故障原因的层级结构的第一层级中，确定与故障类别相关联的至少一个故障原因。接着，计算设备可以在至少一个故障原因中，确定导致故障的第一故障原因。然后，计算设备可以基于第一故障原因，确定导致故障的最深层级的目标故障原因。

通过本公开的实施例，存储***或其他***中的故障的根本原因可以准确地且高效地被确定，从而提供从根本上有效地消除故障的可能性。基于此，本公开的实施例可以提供一种通用的***故障自动分析***，其可以有效地找出***故障的根本原因。也就是说，本公开的实施例可以为跨产品的任何通用的问题原因分析方案提供对根本原因的分析能力，这是***故障自动分诊的前提。下文参考附图来描述本公开的一些示例实施例。

图1示出了本公开的实施例可以在其中实现的示例性故障分析***100的示意图。如图1所示，故障分析***100可以包括计算设备110，其可以接收关于存储***中的故障的描述信息105。例如，***缺陷可以由存储***或相关的故障检测设备来提供。如本文使用的，故障的描述信息105一般是指用于描述所发生的故障的表现形式的信息，通常不涉及导致故障的原因信息。需要说明的是，尽管下文以存储***中的故障作为示例描述了本公开的一些实施例，但是本公开的实施例所提供的故障分析***100可以一般性地适用于可能发生故障的任何其他的***。

在接收到故障的描述信息105之后，计算设备110可以基于预定的故障原因的层级结构115来确定导致故障的目标故障原因125。如本文中使用的，故障原因的层级结构115可以是一种与各种各样的故障原因有关的数据或信息，其包括故障原因的多个不同层级，故障原因的每个层级中可能包括一个或多个故障原因。此外，故障原因的层级结构115还记录有不同层级的故障原因之间的关联性或相关性。例如，上一层级中的某个故障原因可能是由于其下一层级中的某个故障原因所导致的。

如本文中使用的，目标故障原因125可以是指对于某个特定的故障，计算设备110可以在故障原因的层级结构115中确定出的最深层级的故障原因。换言之，针对某个特定的故障，计算设备110可以在故障原因的层级结构115中逐层地确定出导致该故障的故障原因，例如第一层级的故障原因、第二层级的故障原因、第三层级的故障原因，等等，直到所确定得出的故障原因不再包括下一层级的故障原因。计算设备110此时所确定的故障原因即为目标故障原因125。在本文中，导致故障的目标故障原因125也可以称为该故障的根本原因。

在一些实施例中，计算设备110可以包括任何能够实现计算功能和/或控制功能的设备，包括但不限于，专用计算机、通用计算机、通用处理器、微处理器、微控制器、或状态机。计算设备110还可以实施为个体计算设备或计算设备的组合，例如，数字信号处理器(DSP)和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核心、或者任何其他这样的配置。另外要指出的是，在本公开的上下文中，计算设备110也可以称为电子设备110，这两个术语在本文中可以互换地使用。

在一些实施例中，本公开所涉及的存储***中的存储设备可以是能够提供存储服务或功能的任何具有存储能力的设备或***，包括但不限于，备份存储站点、云存储***、硬盘(HDD)、固态盘(SSD)、可移除盘、紧致盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘、串行附接小型计算机***接口(SCSI)存储盘(SAS)、串行高级技术附接(SATA)存储盘、任何其他磁性存储设备和任何其他光学存储设备、或它们的任何组合。

在一些实施例中，本公开所涉及的存储***中的数据源或客户端可以是指能够生成数据并接受数据存储服务的任何设备。在一些实施例中，这样的设备包括但不限于，个人计算机、平板计算机、膝上型计算机、笔记本计算机、上网本计算机、任何其他类型的计算机、蜂窝电话或智能电话、媒体播放器设备、电子书设备、移动WiFi设备、可穿戴计算设备、无线设备、移动设备、用户设备、以及任何其他类型的电子计算设备。

在一些实施例中，本公开所涉及的存储***中的各个组件之间的通信链路可以是能够实现这些组件之间的数据通信或控制信号通信的任何形式的连接或耦合，包括但不限于，同轴电缆、光纤电缆、双绞线、或无线技术(诸如红外、无线电和微波)。在一些实施例中，通信链路还可以包括但不限于，网卡、集线器、调制解调器、中继器、网桥、交换机、路由器等用于网络连接的设备、以及各种网络连接线路、无线链路等。在一些实施例中，通信链路可以包括各种类型的总线。在其他实施例中，通信链路可以包括计算机网络、通信网络、或者其他有线或无线网络。

应当理解，图1仅示意性地示出了故障分析***100中的与本公开的实施例相关的单元、元素、模块或组件。在实践中，故障分析***100还可以包括用于其他功能的其他单元、元素、模块或组件。此外，图1中示出的单元、元素、模块或组件的特定数目仅是示意性的，无意以任何方式限制本公开的范围。在其他实施例中，故障分析***100可以包括任何适当数目的计算设备和相关元素。因此，本公开的实施例不限于图1所描绘的具体场景，而是一般性地适用于任何需要执行故障分析的技术环境。

图2示出了根据本公开的实施例的示例性存储管理方法200的流程图。在一些实施例中，示例方法200可以由故障分析***100中的计算设备110来实现，例如可以由计算设备110的处理器或处理单元来实现，或者由计算设备110的各种功能模块来实现。在其他实施例中，示例方法200也可以由独立于故障分析***100的计算设备来实现，或者可以由故障分析***100中的其他单元或模块来实现。为了便于说明，将结合图1来描述示例方法200。

在框210处，计算设备110可以基于存储***的故障的描述信息105，来确定存储***的故障属于预定义的多个故障类别中的一个故障类别。换言之，计算设备110可以根据描述信息105对故障进行分类。如本文使用的，故障的描述信息105一般是指用于描述所发生的故障的表现形式的信息，其通常不涉及导致故障的原因信息。例如，描述信息105可以描述存储***在何时、何处、以何种形式出现了与何种预期功能不相符的故障，等等。当然，本公开的实施例的描述信息105不限于某种具体形式或具体内容，而是可以一般性地指代与故障有关的任何适当的相关信息。

由于描述信息105描述了故障的相关信息，并且已经存在预定义的多个故障类别，所以计算设备110可以根据预定的分类规则来确定描述信息105所描述的故障属于哪种故障类别。需要说明的是，计算设备110用于对故障进行分类的分类规则可以是与预定义的多个故障类别相对应的。作为示例，如果预定义的多个故障类别是较为宽泛的类别，诸如输入/输出(I/O)故障、操作***故障、存储介质故障、总线通信故障等，则故障的分类规则可以关注于描述信息105是否描述了对应于上述故障分类的较为宽泛的特征或关键词。作为另一示例，如果预定义的多个故障类别是更为细化的类别，诸如某个具体存储位置的输入/输出(I/O)故障、操作***的某个具体模块的故障、物理存储介质的某种特定类型的故障、总线通信的某种特定类型的故障等，则故障的分类规则可能需要确定描述信息105是否描述了对应于这些细化故障分类的更特定的特征或关键词。

因此，在一些实施例中，计算设备110用于对故障进行分类的分类规则可以是可配置的。也就是说，计算设备110可以根据故障类别的添加或变化来相应地配置或调整分类规则。关于此，需要说明的是，在一些实施例中，预定义的多个故障类别也是由计算设备110可配置或可更新的。也即，计算设备110可以根据需要对预定义的多个故障类别进行增加、减少、修改或调整，等等。另外，在故障类别未发生变化的情况下，计算设备110也可以对分类规则进行重新配置或调整，以便使得故障的分类更为精确。在这些实施例中，为了确定描述信息105所描述的故障属于哪种故障类别，计算设备110可以基于可配置的分类规则，将故障归类到某个特定的故障类别中。以此方式，计算设备110对故障分类的精确性和灵活性可以得到提高。

在框220处，计算设备110可以在预定的故障原因的层级结构115的第一层级中，确定与框210中得出的故障类别相关联的一个或多个故障原因。如本文中使用的，故障原因的层级结构115是指由不同层级的故障原因按照其相互之间的因果关系或其他关联性所组织的一种具有层次的组织结构。例如，在故障原因的层级结构115中，上一层级的故障原因相对于下一层级的故障原因可以是较为宽泛或概括性的原因，而下一层级的故障原因相对于上一层级的故障原因可以是较为具体或特定的原因。换言之，层级结构115中的故障原因的层级越低，意味着故障原因是更加底层的原因，也即更深层级的原因。

在一些实施例中，故障原因的层级结构115中的各个故障原因可以是与存储***或其他***所涉及的不同技术领域相关联的。在这样的实施例中，故障原因也可以称为“某个技术领域的问题或错误”。例如，与技术领域有关的较为高层级的故障原因可能是物理存储介质错误、总线通信错误、操作***软件错误、设备安装机械结构错误，等等。这些故障原因分别涉及存储硬件技术领域、总线通信技术领域、软件技术领域、机械安装技术领域，等等。又例如，与技术领域有关的较为低层级的故障原因可能是物理存储介质某个部分的错误、总线通信某个协议的错误、操作***软件某个模块的错误、设备安装机械结构某个部分的错误，等等。将理解，上面列举的不同技术领域的故障原因仅是示例性的，无意以任何方式限制本公开的范围。在其他实施例中，不同技术领域的故障原因可以涉及其他的技术领域，具有更多的层级，并且可以具有不同数目的层级。

一般而言，故障原因的层级结构115可以使用任何具有层级关系的结构形式来表示，例如用于表示各种故障原因之间的层级关系的表格、链式结构、或其他层级关系结构，等等。在一些实施例中，故障原因的层级结构115可以包括故障原因的树形结构，从而更加准确、清楚、简洁地表示故障原因的层级结构115中的各种故障原因之间的关联性。

在预定的故障原因的层级结构115中，计算设备110可以找出与框110中所确定的故障类别相关联的第一层级的故障原因，也即，最浅层级的故障原因。需要说明的是，计算设备110可以通过任何适当的方式，在层级结构115的第一层级中确定与特定故障类别相关联的一个或多个故障原因。例如，在一种“穷举”的方式中，计算设备110可以认为层级结构115的第一层级中的所有故障原因都是与特定故障类别有关的。然而，这种“穷举”方式在层级结构115的第一层级中包括较大数目的故障原因时可能是不利的。又例如，计算设备110可以根据特定故障类别的特征来确定与之有关的第一层级的故障原因。更具体地，如果故障类别是某个存储盘的I/O错误，则与之相关的第一层级的故障原因可能是物理存储介质错误、总线通信错误、或I/O软件错误，等等。

在一些实施例中，多个故障类别与故障原因的层级结构115的第一层级之间的关联性可以是预先确定的。例如，这种关联性可以根据历史数据或者技术经验等来确定，并且记录在故障诊断数据中。换言之，故障诊断数据可以记录多个故障类别与层级结构115的第一层级之间的相关性。在这样的情况下，在层级结构115的第一层级中确定与特定故障类别相关联的一个或多个故障原因时，计算设备110可以基于故障诊断数据来确定这样的一个或多个故障原因。如此，由于故障诊断数据可以根据历史数据和技术经验等不断地被完善和改进，所以计算设备110确定与某个故障类别相关联的第一层级的故障原因的准确性和效率可以被提高。下文将参考图3来描述故障诊断数据的一种具体示例。

图3示出了根据本公开的实施例的示例性的故障诊断数据300，其可以包括故障原因的层级结构115以及故障类别与第一层级之间的相关性305。需要说明的是，尽管在图3的示例中，故障诊断数据300被示出为包括相关性305和层级结构115两者，但这仅是示意性的，无意以任何方式限制本公开的范围。在其他实施例中，故障诊断数据300也可以仅包括故障类别与第一层级之间的相关性305，而不包括故障原因的层级结构115。此外，图3中示出的故障类别、故障原因、故障原因层级的特定数目、以及它们之间的特定相关性仅是示意性的，无意以任何方式限制本公开的范围。在其他实施例中，故障诊断数据300可以包括任何适当数目的故障类别、故障原因和故障原因层级，并且它们之间可以具有任何适当的相关性。

在图3的示例中，相关性305示出了故障类别302与层级结构115中的第一层级的故障原因311和313相关联。也即，故障原因311和313可能导致属于故障类别302的故障。类似地，相关性305示出了故障类别304与层级结构115中的第一层级的故障原因313相关联。也即，故障原因313可能导致属于故障类别304的故障。另外，相关性305示出了故障类别306与层级结构115中的第一层级的故障原因315和317相关联。也即，故障原因315和317可能导致属于故障类别306的故障。

在图3的示例中，层级结构115示出了第一层级的故障原因311包括第二层级的故障原因321、323和325。换言之，较为宽泛的故障原因311可能更具体地是由更为细化的故障原因321、323和325所引发的。类似地，层级结构115示出了第一层级的故障原因313包括第二层级的故障原因327和329。换言之，较为宽泛的故障原因313可能更具体地是由更为细化的故障原因327和329所引发的。此外，层级结构115示出了第一层级的故障原因315不包括第二层级的故障原因。再者，层级结构115示出了第一层级的故障原因317包括第二层级的故障原因329和333。换言之，较为宽泛的故障原因317可能更具体地是由更为细化的故障原因329和333所引发的。

进一步地，层级结构115示出了第二层级的故障原因323包括第三层级的故障原因331和333。换言之，较为宽泛的故障原因323可能更具体地是由更为细化的故障原因331和333所引发的。需要说明的是，对于第一层级的故障原因317而言，故障原因333是第二层级的故障原因，而对于第二层级的故障原因323，故障原因333则是第三层级的故障原因。因此，某个故障原因属于哪个层级可能取决于其上一层级的故障原因是哪个层级。

在一些实施例中，故障原因的层级结构115是可以扩展或更新的。因此，如果计算设备110确定未包括在层级结构115中的新故障原因，则计算设备110可以将新故障原因添加到层级结构115中。如此，故障原因的层级结构115的有效性和灵活性可以被改进。更一般地，除了添加新故障原因之外，计算设备110还可以根据需要在层级结构115中删除原有的故障原因，调整已有的故障原因的内容、或调整两个故障原因之间的相关性等，从而层级结构115的有效性和灵活性可以进一步被改进。

因此，在图3的示例中，假设计算设备110确定存储***的故障属于故障类别302，则计算设备110可以根据相关性305来确定出故障类别302与层级结构115的第一层级中的故障原因311和313相关联。类似地，如果计算设备110确定存储***的故障属于故障类别304，则计算设备110可以根据相关性305来确定出故障类别304与层级结构115的第一层级中的故障原因313相关联。而如果计算设备110确定存储***的故障属于故障类别306，则计算设备110可以根据相关性305来确定出故障类别306与层级结构115的第一层级中的故障原因315和317相关联。

返回参考图2，在框230处，在与框110中所确定的故障类别相关联的一个或多个第一层级的故障原因中，计算设备110可以确定导致故障的第一故障原因。也就是说，计算设备110可以在框220中所确定的一个或多个第一层级的故障原因中，找出导致故障的特定故障原因。在本文的描述中，为了指代的便利性，导致故障的第一层级的故障原因也可以称为第一故障原因。

将理解，计算设备110可以通过任何适当的方式来确定导致故障的第一故障原因。例如，故障的描述信息105中可能存在足够的信息以确定出第一故障原因。在其他实施例中，计算设备110可以逐个地排查与故障类别存在关联性的第一层级的多个故障原因，以确定出故障是由于哪个故障原因所引发的。具体地，计算设备110可以基于与第一层级中的上述一个或多个故障原因相关联的日志数据，来确定出第一故障原因。通过这样的方式，计算设备110确定第一故障原因的准确性可以提高。例如，如果与某个故障原因有关的日志数据指示存在该故障原因，则计算设备110可以确定导致故障的是该故障原因。反之，如果与某个故障原因有关的日志数据指示不存在该故障原因，则计算设备110可以确定导致故障的不是该故障原因。

在一些实施例中，层级结构115的不同层级的每个故障原因都可以设置有对应的故障分析组件，以专门针对特定的故障原因来分析是否发生了该故障原因。在这样的实施例中，为了确定导致故障的第一故障原因，计算设备110可以依次调用与上述一个或多个故障原因相对应的故障分析组件，从而执行针对不同故障原因的故障分析，以确定导致故障的第一故障原因。以此方式，由于对每个故障原因的分析是通过针对每个故障原因所设置的故障分析组件来完成的，所以故障原因的分析准确性和效率可以被提高。

在框240处，计算设备110可以基于导致故障的第一故障原因，确定导致故障的最深层级的目标故障原因125。也就是说，尽管计算设备110已经确定了导致故障的在层级结构115的第一层级中的第一故障原因，但是第一故障原因可能并不是导致故障的最深层次的原因。这是因为第一故障原因之下可能还存在第二层级的故障原因、第三层级的故障原因、第四层级的故障原因，等等。因此，计算设备110将在第一故障原因的基础上尽可能地确定出引起故障的最深层级的故障原因，从而可以提供在根源上排除故障的可能性。在本文的描述中，为了指代的便利性，导致故障的最深层级的故障原因也可以称为目标故障原因125。

更具体地，在基于第一故障原因确定目标故障原因125的过程中，如果第一故障原因之下不包括第二层级的故障原因，则计算设备110可以确定第一故障原因为目标故障原因125。如此，计算设备110可以确保所确定的目标故障原因125是最深层级的故障原因。例如，在图3的示例中，如果计算设备110确定第一故障原因为故障原因315，而故障原因315之下没有第二层级的故障原因，所以计算设备110可以确定故障原因315为导致故障的最深层级的目标故障原因125。

另一方面，如果第一故障原因包括第二层级的故障原因，则计算设备110可以在第二层级的故障原因中确定导致故障的第二故障原因。也就是说，在属于第一故障原因之下的第二层级的一个或多个故障原因中，计算设备110进一步确定出导致故障的在第二层级中的故障原因。在本文的描述中，为了指代的便利性，导致故障的第二层级的故障原因也可以称为第二故障原因。例如，在图3的示例中，如果计算设备110确定第一故障原因为故障原因311，而故障原因311之下存在第二层级的故障原因321、323和325，所以计算设备110可以在故障原因321、323和325中进一步确定出导致故障的第二故障原因。

将理解，计算设备110可以采用与确定第一故障原因类似的方式来确定第二故障原因。例如，故障的描述信息105中可能存在足够的信息以确定出第二故障原因。在其他实施例中，计算设备110可以逐个地排查第一故障原因之下的第二层级中的多个故障原因，以确定出故障是由第二层级中的哪个故障原因所引发的。具体地，计算设备110可以基于与第二层级中的多个故障原因相关联的日志数据，来确定第二故障原因。通过这样的方式，计算设备110可以提高确定第二故障原因的准确性。例如，如果与某个故障原因有关的日志数据指示存在该故障原因，则计算设备110可以确定导致故障的是该故障原因。反之，如果与某个故障原因有关的日志数据指示不存在该故障原因，则计算设备110可以确定导致故障的不是该故障原因。

如上文提到的，在一些实施例中，不同层级的每个故障原因都可以设置有对应的故障分析组件，以专门针对特定的故障原因来分析是否发生了该故障原因。在这样的实施例中，为了确定导致故障的第二故障原因，计算设备110可以依次调用与第一故障原因之下的多个第二层级的故障原因相对应的故障分析组件，来执行针对不同故障原因的故障分析，以确定导致故障的第二故障原因。以此方式，由于对每个故障原因的分析是通过针对每个故障原因所设置的故障分析组件来完成的，所以故障原因的分析准确性和效率可以被提高。

在确定了导致故障的第二故障原因之后，计算设备110可以基于第二故障原因来确定导致故障的最深层级的目标故障原因125。如此，计算设备110可以确保存在下一层级的故障原因的上层故障原因(例如，第一故障原因)不会被确定为目标故障原因125。具体地，在基于第二故障原因确定目标故障原因125时，如果第二故障原因之下不包括第三层级的故障原因，则计算设备110可以确定第二故障原因为目标故障原因125。如此，计算设备110可以确保所确定的目标故障原因125是最深层级的故障原因。另一方面，如果第二故障原因之下包括一个或多个第三层级的故障原因，则计算设备110可以通过上文描述的类似方式在第三层级中确定导致故障的第三故障原因。在本文的描述中，为了指代的便利性，导致故障的第三层级的故障原因也可以称为第三故障原因。

在确定了导致故障的第三故障原因之后，计算设备110可以基于第三故障原因来确定的最深层级的目标故障原因125。如此，计算设备110可以确保存在下一层级的故障原因的上层故障原因(例如，第二故障原因)不会被确定为目标故障原因125。通过这种逐层迭代的方式，计算设备110可以最终确定出导致故障的最深层级的目标故障原因125，不论故障原因的层级结构中存在多少个层级。因此，通过示例方法200，存储***故障的根本原因可以准确地且高效地被确定，从而提供从根本上消除故障的可能性。

图4示出了根据本公开的实施例的示例性存储管理***400的高层架构的示意图。在一些实施例中，存储管理***400可以用于实施图2中描绘的存储管理方法200，并且可以在图1中描绘的计算设备110中实现。在其他实施例中，存储管理***400中的各个模块、单元或组件中的一个或多个可以实施在不同的计算设备中。另外，在一些实施例中，存储管理***400可以实现在存储***中作为存储***的一部分。在其他实施例中，存储管理***400也可以独立于存储***来实现。此外，需要指出的是，存储管理***400所示出的组织架构形式并不限于存储***，而是可以一般性地适用于任何需要分析故障原因的***。在这种意义上，存储管理***400也可以称为具有挖掘故障根本原因的能力的通用问题分析***或通用分诊引擎。

如图4所示，存储管理***400可以包括分类器(也称为分类子***)410、推理引擎(也称为推理引擎子***)420和分析器(也称为分析器子***)430。分类器410可以从故障的描述信息105中定义和识别各种故障(或问题)，并且将其归类为预定义的故障类别之一。在一些实施例中，分类器410可以包括许多有关如何从描述信息105(也称为缺陷信息)中识别故障类别的可配置规则。

推理引擎420可以基于包括故障原因的层级结构115的故障诊断数据300(例如，故障原因的分类决策树)来进行推理。在一些实施例中，分类决策树可以将所有的故障原因与不同的技术领域相关联。需要指出的是，推理引擎420可以是一种通用的推理引擎，其可以使用不同的分类决策树而适用于不同的产品或***。

分析器430可以根据日志数据425(例如，脱机日志数据)或者实时的***检查来分析故障的更深层次的原因，或者确认特定技术领域中是否发生了某种类型的故障或问题。在一些实施例中，分析器430可以提供从最深层次分析问题的根本原因的详细功能和方法。在一些实施例中，分析器430可以对应于前文描述的故障分析组件。需要说明的是，在层级结构115中的每个故障功能都具有对应的故障分析组件(或分析器)的情况下，图4中所描绘的分析器430可以是指所有分析器的集合。在一些实施例中，分析器430可以遵循通用的应用程序接口(API)与推理引擎420和***中的其他组件互通。

通过存储管理***400，本公开的实施例可以提供跨产品的通用故障分析***，其能够基于故障的描述信息105(也称为故障报告)来识别故障类别，然后对其进行分类并且找到其背后的根本原因。此外，存储管理***400可以是与特定产品解耦的，也即与任何特定产品无关，其可以轻松定义和更新任何产品的分类决策树。在一些实施例中，各种分析器430可以与产品的技术体系结构天然地具有对应的关系，从而可以根据每种产品设计来提供对应的多个分析器430。例如，这些分析器430可以由产品的不同工程团队所拥有和维护。下文将参考图5来描述存储管理***400的示例工作流程。

图5示出了根据本公开的实施例的在分类器410、推理引擎420和分析器430之间的示例***互过程500。需要说明的是，在层级结构115中的每个故障原因存在对应的分析器的情况下，图5中的分析器430可以是指所有分析器的集合。在具体执行针对某个故障原因的相关操作时，图5中描绘的由分析器430执行的操作可以是由对应于特定故障原因的特定分析器来完成的。为了描述的方便，将参考图3所描绘的示例层级结构115来说明交互过程500。

如图5所示，假设分类器410基于故障的描述信息105将故障分类为图3中的故障类别302，则分类器410可以向推理引擎420发送(502)指示故障类别302的故障类别信息505。因此，推理引擎420可以从分类器410接收(504)故障类别信息505，从而确定故障属于故障类别302。然后，推理引擎420可以基于故障类别信息505指示的故障类别302确定出与之相关联的第一层级的故障原因311和313。在确定出第一层级的故障原因311和313之后，推理引擎420可以向分析器430(例如，故障原因311的分析器)发送(506)故障分析请求515。换言之，推理引擎420可以调度故障原因311的分析器来针对故障原因311进行故障分析。

在图5描述的示例中，在从推理引擎420接收(508)到故障分析请求515之后，分析器430(例如，故障原因311的分析器)可以确定出故障不是由故障原因311引起的。因此，分析器430(例如，故障原因311的分析器)可以向推理引擎420发送(510)针对故障原因311的否定消息525，以向推理引擎420表明故障不是由故障原因311所导致的。

在从分析器430(例如，故障原因311的分析器)接收(512)到否定消息525之后，推理引擎420可以向分析器430(例如，故障原因313的分析器)发送(514)故障分析请求535。换言之，推理引擎420可以调度故障原因313的分析器来针对故障原因313进行故障分析。在图5描述的示例中，在从推理引擎420接收(516)到故障分析请求535之后，分析器430(例如，故障原因313的分析器)可以确定故障是由故障原因313引起的，并且进一步确定是由故障原因313之下的第二层级的故障原因329所引起的。因此，分析器430(例如，故障原因313的分析器)可以向推理引擎420发送(518)故障原因329的指示信息545，以向推理引擎420表明故障是由更深层级的故障原因329所导致的。

在从分析器430(例如，故障原因313的分析器)接收(520)到故障原因329的指示信息545之后，推理引擎420可以向分析器430(例如，故障原因329的分析器)发送(522)故障分析请求555。换言之，推理引擎420可以调度故障原因329的分析器来针对故障原因329进行故障分析。

在从推理引擎420接收(524)到故障分析请求555之后，分析器430(例如，故障原因329的分析器)可以确定故障是由故障原因329引起的，并且进一步确定故障原因329之下不存在第三层级的故障原因。因此，分析器430(例如，故障原因329的分析器)可以向推理引擎420发送(526)肯定消息565，以向推理引擎420表明故障是由故障原因329所导致的。在从分析器430(例如，故障原因329的分析器)接收(528)到肯定消息565之后，推理引擎420可以向故障原因分析的发起者(例如，分类器410)发送(532)故障分析结果575，也即，故障的最深层次的目标故障原因125(或根本原因)为故障原因329。

由此可见，无论需要执行故障分析的产品多么复杂，无论故障分析需要执行多少步骤，本公开的实施例都可以尽可能深入地推理并且找出故障(或问题)的根本原因。例如，本公开的实施例最终确定出根本原因能力可以取决于产品设计和日志收集。此外，如果本公开的实施例检查的故障分析数据直接来自对实时***的诊断，则本公开的实施例也可以适用于实时***诊断。

图6示出了可以被用来实施本公开的实施例的示例设备600的框图。在一些实施例中，示例设备600可以是电子设备，其可以用于实施图1中的计算设备110。如图6中所示出的，示例设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储设备(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储设备(RAM)603中的计算机程序指令，来执行各种适当的动作和处理。在RAM 603中，还可存储示例设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

示例设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许示例设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如示例方法或示例过程可由处理单元601来执行。例如，在一些实施例中，各种示例方法或示例过程可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到示例设备600上。当计算机程序被加载到RAM 603并由CPU 601执行时，可以执行上文描述的示例方法或示例过程的一个或多个步骤。

如本文所使用的，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。本文还可能包括其他明确的和隐含的定义。

如本文所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可以包括运算、计算、处理、导出、调查、查找(例如，在表格、数据库或另一数据结构中查找)、查明等。此外，“确定”可以包括接收(例如，接收信息)、访问(例如，访问存储器中的数据)等。此外，“确定”可以包括解析、选择、选取、建立等。

应当注意，本公开的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行***，例如微处理器或者专用设计硬件来执行。本领域的技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。

此外，尽管在附图中以特定顺序描述了本公开的方法的操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤组合为一个步骤执行，和/或将一个步骤分解为多个步骤执行。还应当注意，根据本公开的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

虽然已经参考若干具体实施例描述了本公开，但是应当理解，本公开不限于所公开的具体实施例。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等效布置。

Claims

1.一种存储管理方法，包括：

基于存储***的故障的描述信息，确定所述故障属于预定义的多个故障类别中的一个故障类别；

在预定的故障原因的层级结构的第一层级中，确定与所述故障类别相关联的至少一个故障原因；

在所述至少一个故障原因中，确定导致所述故障的第一故障原因；以及

基于所述第一故障原因，确定导致所述故障的最深层级的目标故障原因。

2.根据权利要求1所述的方法，其中确定所述目标故障原因包括：

如果确定所述第一故障原因不包括故障原因的第二层级，则确定所述第一故障原因为所述目标故障原因。

3.根据权利要求1所述的方法，其中确定所述目标故障原因包括：

如果确定所述第一故障原因包括故障原因的第二层级，则在所述第二层级中确定导致所述故障的第二故障原因；以及

基于所述第二故障原因，确定所述目标故障原因。

4.根据权利要求3所述的方法，其中基于所述第二故障原因，确定所述目标故障原因包括：

如果确定所述第二故障原因包括故障原因的第三层级，则在所述第三层级中确定导致所述故障的第三故障原因；以及

基于所述第三故障原因，确定所述目标故障原因。

5.根据权利要求3所述的方法，其中基于所述第二故障原因，确定所述目标故障原因包括：

如果确定所述第二故障原因不包括故障原因的第三层级，则确定所述第二故障原因为所述目标故障原因。

6.根据权利要求3所述的方法，其中确定所述第二故障原因包括：

基于与所述第二层级中的多个故障原因相关联的日志数据，在所述多个故障原因中确定所述第二故障原因。

7.根据权利要求3所述的方法，其中确定所述第二故障原因包括：

依次调用与所述第二层级中的多个故障原因相对应的多个故障分析组件，以在所述多个故障原因中确定所述第二故障原因。

8.根据权利要求1所述的方法，其中确定所述至少一个故障原因包括：

基于故障诊断数据来确定所述至少一个故障原因，所述故障诊断数据记录所述多个故障类别与所述层级结构的第一层级之间的相关性。

9.根据权利要求1所述的方法，其中确定所述第一故障原因包括：

基于与所述至少一个故障原因相关联的日志数据，确定所述第一故障原因。

10.根据权利要求1所述的方法，其中确定所述第一故障原因包括：

依次调用与所述至少一个故障原因相对应的至少一个故障分析组件，以确定所述第一故障原因。

11.根据权利要求1所述的方法，其中确定所述故障类别包括：

基于可配置的分类规则，将所述故障归类到所述故障类别中。

12.根据权利要求1所述的方法，还包括：

如果确定未包括在所述层级结构中的新故障原因，则将所述新故障原因添加到所述层级结构中。

13.根据权利要求1所述的方法，其中所述层级结构包括故障原因的树形结构。

14.一种电子设备，包括：

至少一个处理器；以及

至少一个存储器，存储有计算机程序指令，所述至少一个存储器和所述计算机程序指令被配置为，与所述至少一个处理器一起，使所述电子设备：

15.根据权利要求14所述的电子设备，其中所述至少一个存储器和所述计算机程序指令被配置为，与所述至少一个处理器一起，使所述电子设备通过以下来确定所述目标故障原因：

16.根据权利要求14所述的电子设备，其中所述至少一个存储器和所述计算机程序指令被配置为，与所述至少一个处理器一起，使所述电子设备通过以下来确定所述目标故障原因：

基于所述第二故障原因，确定所述目标故障原因。

17.根据权利要求16所述的电子设备，其中所述至少一个存储器和所述计算机程序指令被配置为，与所述至少一个处理器一起，使所述电子设备通过以下来基于所述第二故障原因，确定所述目标故障原因：

基于所述第三故障原因，确定所述目标故障原因。

18.根据权利要求16所述的电子设备，其中所述至少一个存储器和所述计算机程序指令被配置为，与所述至少一个处理器一起，使所述电子设备通过以下来基于所述第二故障原因，确定所述目标故障原因：

19.根据权利要求16所述的电子设备，其中所述至少一个存储器和所述计算机程序指令被配置为，与所述至少一个处理器一起，使所述电子设备通过以下来确定所述第二故障原因：

20.根据权利要求16所述的电子设备，其中所述至少一个存储器和所述计算机程序指令被配置为，与所述至少一个处理器一起，使所述电子设备通过以下来确定所述第二故障原因：

21.根据权利要求14所述的电子设备，其中所述至少一个存储器和所述计算机程序指令被配置为，与所述至少一个处理器一起，使所述电子设备通过以下来确定所述至少一个故障原因：

22.根据权利要求14所述的电子设备，其中所述至少一个存储器和所述计算机程序指令被配置为，与所述至少一个处理器一起，使所述电子设备通过以下来确定所述第一故障原因：

23.根据权利要求14所述的电子设备，其中所述至少一个存储器和所述计算机程序指令被配置为，与所述至少一个处理器一起，使所述电子设备通过以下来确定所述第一故障原因：

24.根据权利要求14所述的电子设备，其中所述至少一个存储器和所述计算机程序指令被配置为，与所述至少一个处理器一起，使所述电子设备通过以下来确定所述故障类别：

25.根据权利要求14所述的电子设备，其中所述至少一个存储器和所述计算机程序指令还被配置为，与所述至少一个处理器一起，使所述电子设备：

26.根据权利要求14所述的电子设备，其中所述层级结构包括故障原因的树形结构。

27.一种计算机程序产品，所述计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1-13中任一项所述的方法的步骤。