CN117376084A

CN117376084A - 故障检测方法、电子设备及其介质

Info

Publication number: CN117376084A
Application number: CN202210776687.2A
Authority: CN
Inventors: 刘超; 龚航
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2024-01-09

Abstract

本申请涉及计算机安全技术领域，尤其涉及一种故障检测方法、电子设备及其介质。本申请的故障检测方法利用历史故障数据，训练故障检测模型，使故障检测模型能够根据实时的故障数据，检测出集群网络中各节点可能发生的故障的故障类型以及各节点发生每种类型故障对应的故障概率。然后根据各节点发生的故障类型以及每种故障类型对应的故障概率，从中选择出故障概率最大的故障类型，作为集群网络的故障类型。通过上述方法，在集群网络发生故障的情况下，即可检测出集群网络发生故障的故障类型，以及该故障对应的根因节点，使研发人员能够采取针对性的措施，排除故障问题，有效维护集群网络的运行。

Description

故障检测方法、电子设备及其介质

技术领域

本申请涉及计算机安全技术领域，尤其涉及一种故障检测方法、电子设备及其介质。

背景技术

集群网络(cluster)由于管理控制效率高、灵活度大等优点，是当前最主要的数据网络***。集群网络是由多个节点(node)组成的网络***，每个节点是一个独立主机，用于执行特定的任务，例如计算任务、监控任务、数据传输任务等等。

在这样的网络***中，某一个网络设备发生故障，可能会导致网络***中其他网络设备受到影响，因此需要尽快定位到出现故障的设备、故障类型、故障原因等，以便对网络故障进行快速修复。

目前的故障检测方法是根据集群网络的拓扑结构，确定集群网络中各节点之间链路连接，然后按照一定的因特网包探索器(packet internet groper，PING)策略获取集群网络中各节点之间的网络延迟值，也即PING值，再结合PING值与相应的阈值条件确定集群网络各链路是否发生故障，以及故障发生的位置。

但是，这种方法目前只能检测出各节点链路的通断状态，无法检测集群网络中设备的其他故障类型。

发明内容

为了解决上述问题，本申请提供一种故障检测方法、电子设备及其介质。下面对此展开介绍。

第一方面，本申请实施例提供了一种故障检测方法，应用于集群网络中的多个节点，包括：获取集群网络中第一节点的实时监控信息，从实时监控信息选择出异常实时监控信息；将第一节点的异常实时监控信息输入至故障检测模型，得到第一节点的第一故障信息，第一故障信息包括第一节点的推测故障类型以及与各推测故障类型对应的故障概率；根据第一节点的推测故障类型以及各推测故障类型对应的故障概率，确定集群网络的真实故障类型。

其中，集群网络中的各节点指的是集群网络的各设备。在一些实现方式中，本申请的故障检测方法可应用于集群网络中各个设备。并且本申请的故障检测方法可由集群网络中的某个设备执行，也可由集群网络外的其他设备执行用于检测集群网络的故障，本申请对此不作限制。

在一些实现方式中，第一节点可以是集群网络中的任一节点。获取集群网络中第一节点的实时监控信息指的是，获取集群网络中全部或部分的第一节点的实时监控信息。第一节点的实时监控信息包括能够获取到的第一节点的全部监控信息，例如表示各设备之间通信状态的抖动时延信息，比如PING值、PING带宽值，等等，本申请对此不作限制。

第一节点的异常实时监控信息指的是根据实时监控信息，确定出来的指标数值异常的监控信息。

第一节点的第一故障信息包括根据故障检测模型确定的第一节点的推测故障类型以及各推测故障类型对应的故障概率。其中，推测故障类型指的是根据故障检测模型根据异常实时监控信息得到的，第一节点可能发生的故障类型。

并且，在一些实现方式中，故障检测模型是根据集群网络中各节点的历史异常监控信息(即下文的历史故障数据)训练得到的，因此利用故障检测模型分析第一节点的异常实时监控信息，即可确定第一节点的异常实时监控信息对应哪一种故障类型以及该种故障类型的概率。

最后根据上述第一节点的推测故障类型以及故障概率，确定集群网络的真实故障类型。

通过上述方法，在集群网络发生故障的情况下，可通过故障检测模型检测出集群网络发生故障的故障类型，使研发人员能够采取针对性的措施，排除故障问题，有效维护集群网络的运行。

结合第一方面，在第一方面的可能的实现方式中，第一故障信息还包括第一节点为第一类节点时可能发生的故障类型、每种故障类型对应的故障概率以及第一节点为第二类节点时可能发生的故障类型、每种故障类型对应的故障概率，

该方法还包括：

利用第二节点为第二类节点时对应的各故障类型的故障概率，相应地增加节点在第一类节点的情况下相同故障类型的故障概率，得到第一节点的第二故障信息，其中，第二节点与第一节点互为相邻节点，第二故障信息包括调整后的第一节点为第一类节点时可能发生的故障类型、每种故障类型对应的故障概率以及第一节点为第二类节点时可能发生的故障类型、每种故障类型对应的故障概率。

其中，第一类节点指的是根因节点，第二类节点指的是受影响节点。也即为了确定出集群网络发生故障时对应的根因节点，第一故障信息还可以包括第一节点为根因节点时对应的推测故障类型以及每种推测故障类型对应的故障概率。可以理解，对应地，训练故障检测模型的历史异常监控信息也应包括各节点为根因节点时对应的历史异常监控信息和真实故障类型以及各节点为受影响节点时对应的历史异常监控信息和真实故障类型。

并且由于相邻节点之间更有可能发生同类型故障，因此可以利用第一节点相邻的第二节点的推测故障类型以及故障概率，调整第一节点在相同推测故障类型下的故障概率，得到调整后的第一节点的推测故障类型以及故障概率。在一些实现方式中，相邻节点包括在物理上连通的节点或处理的业务或数据具有依赖关系节点。

具体地，可以利用第二节点为受影响节点时对应的推测故障类型以及故障概率，增加第一节点为根因节点时，在相同推测故障类型下的故障概率，得到上述第二故障信息。

然后根据第二故障信息，确定集群网络发生的真实故障类型。

结合第一方面，在第一方面的可能的实现方式中，根据第一节点可能的故障类型以及各故障类型对应的故障概率，确定集群网络的故障类型，包括：

根据调整后的第一节点为第一类节点时的推测故障类型、每种故障类型对应的故障概率，将故障概率大于第一阈值对应的故障类型作为集群网络的故障类型。

也即，在确定第一节点的第二故障信息后，可根据第一节点是根因节点的情况下对应的各推测故障类型以及每种推测故障类型对应的故障概率，将故障概率大于第一阈值(即下文的故障概率阈值)对应的推测故障类型确定为集群网络的真实故障类型。

在一些实现方式中，如果故障概率大于第一阈值的推测故障类型有多个，则可以从中任一选择一个作为集群网络的真实故障类型，或者将多个推测故障类型均作为集群网络的故障类型，本申请对此不作限制。

结合第一方面，在第一方面的可能的实现方式中，根据实时监控信息，得到第一节点的异常实时监控信息，包括：

将实时监控信息与第一预设条件进行比较，删除实时监控信息中满足第一预设条件的监控信息，得到第一节点的异常实时监控信息。

也即，在一些实现方式中，可以将实时监控信息与其对应的第一预设条件(即下文中相应的条件)，进行比较，将满足第一预设条件的监控信息进行删除，得到第一节点的异常实时监控信息。

结合第一方面，在第一方面的可能的实现方式中，故障检测模型是利用各节点的历史异常监控信息训练得到的，各节点的历史异常监控信息包括各节点分别为第一类节点以及第二类节点时，发生的故障类型以及各故障类型对应的监控信息。

结合第一方面，在第一方面的可能的实现方式中，各节点的历史异常监控信息通过以下方式确定：

获取预设时长内集群网络中各节点的历史监控信息，比较各节点的历史监控信息与第二预设条件，去除历史监控信息中满足第二预设条件的监控信息，得到各节点的历史异常监控信息，其中，各节点的历史监控信息包括各节点分别为第一类节点以及第二类节点时对应的监控信息。其中，第二预设条件与第一预设条件是类似的，均为各监控信息对应的指标数据等正常时应满足的相应的条件。

第二方面，本申请实施例提供了一种模型训练方法，应用于电子设备，包括：

获取预设时长内集群网络中各节点的历史监控信息，从各节点的历史监控信息中选择出对应各节点的历史异常监控信息；利用各节点的历史异常监控信息和对应各节点的历史异常监控信息的故障类型，训练初始故障检测模型，得到故障检测模型。其中，历史异常监控信息即为下文的历史故障数据。

结合第二方面，在第二方面的可能的实现方式中，获取预设时长内集群网络中各节点的历史监控信息，从各节点的历史监控信息中选择出对应各节点的历史异常监控信息；利用各节点的历史异常监控信息和对应各节点的历史异常监控信息的故障类型，训练初始故障检测模型，得到故障检测模型。其中，预设时长为经验值或实验值，例如其取值可以为30天等等，本申请对此不作限制。

结合第二方面，在第二方面的可能的实现方式中，各节点的历史异常监控信息包括各节点分别为第一类节点以及第二类节点时，发生过的故障类型以及各故障类型对应的监控信息。也即，各节点的历史异常监控信息包括各节点为根因节点时对应的故障类型和各故障类型对应的监控信息，以及各节点为受影响节点时对应的故障类型和各故障类型对应的监控信息。

结合第二方面，在第二方面的可能的实现方式中，方法还包括：获取集群网络中第一节点的实时监控信息，根据实时监控信息，得到第一节点的异常监控信息；将第一节点的异常实时监控信息输入至故障检测模型，得到第一节点的第一故障信息，第一故障信息包括第一节点的推测故障类型以及与各推测故障类型对应的故障概率，以及

根据第一节点的推测故障类型以及各故障类型对应的故障概率，确定集群网络的真实故障类型。

结合第二方面，在第二方面的可能的实现方式中，初始故障检测模型至少包括以下任一种：卷积神经网络模型、全连接神经网络模型或前馈神经网络模型。在本申请的一些实现方式中，上述故障检测模型还可以是随机森林、决策树等分类模型，本申请对此不作限制。

第三方面，本申请实施例还提供了一种电子设备，该电子设备包括存储器，存储有计算机程序指令；处理器，所述处理器和存储器耦合，当所述存储器存储的计算机程序指令被所述处理器执行时使得所述电子设备实现上述第一方面中任一项所述的方法。

第四方面，本申请实施例还提供了一种电子设备，该电子设备包括存储器，存储有计算机程序指令；处理器，所述处理器和存储器耦合，当所述存储器存储的计算机程序指令被所述处理器执行时使得所述电子设备实现上述第二方面中任一项所述的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述第二方面中任一项所述的方法。

第七方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面中任一项所述的方法。

第八方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第二方面中任一项所述的方法。

可以理解的是，上述第三方面至第七方面的有益效果可以参见上述第一方面以及第二方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的一例故障检测方法的应用场景示意图；

图2是根据本申请实施例提供的一例故障图示意图；

图3a是根据本申请实施例提供的又一例故障图示意图；

图3b是根据本申请实施例提供的另一例故障图示意图；

图4是根据本申请实施例提供的一例方法流程示意图；

图5是根据本申请实施例提供的一例故障图示意图；

图6是根据本申请实施例提供的又一例方法流程示意图；

图7是根据本申请实施例提供的反压帧变化量与时间之间的关系示意图；

图8是根据本申请实施例提供的异常日志信息数量与时间之间的关系示意图；

图9是根据本申请实施例提供的PING拨测值与时间之间的关系示意图；

图10是根据本申请实施例提供的反压帧变化量与时间之间的关系示意图；

图11是根据本申请实施例提供的PING拨测值的三种特征值示意图；

图12是根据本申请实施例提供的一例故障图示意图；

图13是根据本申请实施例提供的另一例故障图示意图；

图14是根据本申请实施例提供的一例方法流程示意图；

图15是根据本申请实施例提供的一例故障图示意图；

图16是根据本申请实施例提供的另一例故障图示意图；

图17是根据本申请实施例提供的一例方法流程示意图；

图18是根据本申请实施例提供的一例故障图示意图；

图19是根据本申请实施例提供的一例指向关系示意图；

图20是根据本申请实施例提供的一例***结构示意图；

具体实施方式

下面将使用本领域技术人员通常采用的术语来描述说明性实施例的各个方面。需知下文所描述各实施方式仅仅是本申请一部分可能的实现方式，而不是全部的实施方式。本领域普通技术人员可知，随着新应用场景的出现，本申请各实施方式提供的技术方案对于类似的技术问题，同样适用。

目前，当集群网络中发生故障时，主要基于集群网络的拓扑结构，利用PING技术得到集群网络中各节点之间的PING值，然后根据PING值是否满足相应地阈值条件，确定各节点之间链路的通断状态，如果某两个节点之间的链路的PING值不满足相应地阈值条件，表明这两个节点之间的链路是断开的，否则表明这两个节点之间的链路是连通的。其中，PING技术指的是对一个设备发送测试数据包，看该设备是否有响应并统计响应时间，以测试网络的连通性。PING值是指从测试设备对网络服务器发送数据至接收到网络服务器反馈数据的时间，PING值通常以毫秒计算。一般来说，PING值越小说明网络连通情况越好。

具体地，以图1所示的集群网络结构为例进行说明。该集群网络1包括网元设备101、数据采集设备102以及网络设备103。其中，网元101指能够独立完成某种功能或任务的设备，例如路由器、交换机、服务器等等。数据采集设备102用于对集群网络1进行监控管理，采集集群网络1中各设备的相关数据，比如数据采集设备102可以采集集群网络1的监控信息，包括网元101的日志数据、指标数据以及网络中的各种告警信息。在一些实现方式中，数据采集设备102将采集到的数据发送至数据库进行存储。网络设备103是用于执行本申请各实现方式所述的故障检测方法的设备，用于对集群网络1进行故障检测。在本申请的实现方式中，网络设备103可以是网元101或数据采集设备102中的任意一种设备，也可以是独立于网元设备101以及数据采集设备102，并且能够与网元101、数据采集设备102可以通信集群网络中的其他设备或者集群网络外的其他设备，本申请对此不作限制。其中，图1所示的各设备在集群网络拓扑结构中均可称为节点设备或节点。

利用目前的方案，通过PING技术对集群网络进行故障检测时，仅能根据集群网络中各设备之间的链路，向各设备发送PING数据测试包，然后根据设备返回的PING值的大小与PING阈值条件之间的关系，确定该链路的通断情况。并不能仅凭PING值检测出集群网络的其他故障类型，例如设备质量劣化、设备本身的收发能力发生劣化、带宽性能的劣化等情况。

为了解决这个技术问题，本申请提供了一种故障检测方法。针对PING技术仅能识别集群网络中链路通断的问题，本申请的故障检测方法通过获取集群网络中各节点发生过的各类型故障对应的历史故障数据，训练故障检测模型，以使故障检测模型能够检测出集群网络中发生的其他故障类型。

可以理解，本申请一些实施例所提及的故障类型包括链路通断、设备质量劣化、网络连通时延过长，等等，本申请对此不作限制。

可以理解，本申请一些实施例所提及的历史故障数据可以包括集群网络中各节点发生过的故障、该故障对应的故障类型以及发生该故障时该节点的节点属性。其中，节点属性指的是该节点在发生该故障时是受影响节点还是根因节点。受影响节点指的是受到其他节点的故障影响而发生故障的节点。根因节点指的是该节点发生的故障并非受到其他节点故障的影响，并且，该节点发生的故障会影响其他节点，导致其他节点发生故障。比如，某节点X发生链路中断故障，受节点X的链路中断故障影响，节点Y发生数据丢包的故障，那么节点X为根因节点，而节点Y为受影响节点。

在本申请的一些实现方式中，上述故障检测模型可以是反馈神经网络模型(feedback neural network，FNN)、全连接神经网络(full connect neural network，FCNN)、卷积神经网络(convolution neural network，CNN)、循环神经网络(recurrentneural network，RNN)等神经网络模型，本申请对此不作限制。在本申请的一些实现方式中，上述故障检测模型还可以是随机森林、决策树等分类模型，本申请对此不作限制。

具体地，本申请的故障检测方法利用历史故障数据，对故障检测模型训练，使得故障检测模型能够根据实时的故障数据，检测出集群网络中各节点可能发生的故障的故障类型以及各节点发生每种类型故障对应的故障概率。其中，历史故障数据包括上述集群网络中各节点为根因节点时已经发生的故障类型和故障数据以及各节点为受影响节点时发生的故障类型和故障数据。

在一些实现方式中，如上文所言，某一节点发生故障会影响到其他节点，也即各节点的故障之间可能存在联系。因此，可以利用故障传播图(下称故障图)表示集群网络中各节点发生的故障。

也即，在一些实现方式中，可以利用故障图表示各节点的历史故障数据，然后利用各节点历史故障数据对应的故障图，对故障检测模型进行训练，得到训练好的故障检测模型。可以理解，训练好的故障检测模型能够根据输入的某节点的实时监控信息，检测出该节点可能发生的故障类型及其对应的故障概率。其中，在一些实现方式中，各节点实时的监控信息指的是监控集群网络运行情况，所利用的各节点的各类型指标数据。例如，各节点的日志告警数据、各节点通信的网络带宽、时延数据、各节点运行作业的时间/迭代时长等数据，本申请对此不作限制。

然后在检测集群网络发生的故障时，类似地，也利用故障图表示各节点的实时监控信息，然后将各节点的实时监控信息对应的故障图输入至故障检测模型，如上所述，故障检测模型会根据各节点的实时监控信息进行分析，然后输出各节点可能发生的故障类型及其对应的故障概率。

此外，可以理解，集群网络具有的监控信息更全面，更能通过监控信息判断集群网络的运行情况。因此，在一些实现方式中，可以假定某一节点具有当前集群网络中的全部监控信息，并利用该全部监控信息，生成该节点的全量故障图(下称第一故障图)。示例性地，图2示出了某节点的第一故障图示意图，其中，实线圆圈内数字1至N表示全部监控信息。其中，具体生成第一故障图的方式将在下文进行介绍。

然后，利用该节点的历史故障数据，对该第一故障图进行剪枝，得到反映该节点实际故障情况的第二故障图。在一些实现方式中，可以根据该节点的历史故障数据，去除第一故障图中，去除指标正常的监控信息，即可得到剪枝后的第二故障图。示例性地，图3a-图3b示出了根据该节点历史故障数据对某节点第一故障图进行剪枝后得到的第二故障图，其中，图3a中的虚线圆圈内的数字表示指标正常的监控信息，图3b表示去除指标正常的监控信息后，得到的表示该节点实际故障情况的第二故障图。

然后利用同样的方式，基于各节点的历史故障数据，得到各节点的第二故障图，并利用各节点的第二故障图对故障检测模型进行训练，使得故障检测模型能够根据各节点的实时监控信息对应的第二故障图，检测出对应实时监控信息，各节点可能发生的故障类型及其对应的故障概率。其中，各节点的实时监控信息对应的第二故障图是利用各节点的上述实时监控信息，对各节点的第一故障图进行剪枝得到的。具体对第一故障图进行剪枝得到第二故障图的方式将在下文进行介绍。

通过上述方式，即利用故障检测模型，对集群网络中各节点实时的监控信息进行分析检测，确定出各节点可能发生的故障类型及其对应的故障概率。

此外，如果节点X和节点Y是相互连通的节点或者节点X与节点Y处理的业务或数据具有依赖关系(例如节点X的输入数据依赖于节点Y的输出数据)，也即节点X与节点Y互为相邻节点，那么节点X与节点Y之间更有可能发生同一类型的故障。因此，在利用本申请的故障检测模型检测集群网络中发生的故障，得到集群网络各节点可能发生的故障类型及该故障类型对应的概率后，可假定某节点为根因节点，再根据该节点相邻节点对应的各类型故障的概率，调整该节点对应的各类型故障的概率。然后利用同样的方式，调整集群网络中各节点对应的各类型故障的概率，从调整后各节点对应的故障类型以及各类型对应的故障概率中，选择故障概率最大的节点作为集群网络发生故障的根因节点，并且将该根因节点对应的故障类型作为集群网络的故障类型。

通过上述方法，在集群网络发生故障的情况下，即可检测出集群网络发生故障的故障类型，以及该故障对应的根因节点，使研发人员能够采取针对性的措施，排除故障问题，有效维护集群网络的运行。

在一些实现方式中，为了更快定位集群网络发生的故障类型以及根因节点，还可以根据调整后各节点对应的故障类型以及各类型对应的故障概率，利用随机游走算法，从中选择出到达次数最多的节点的作为集群网络的根因节点，此时该节点为根因节点时对应的概率最大的故障类型即为集群网络的故障类型。其中，利用随机游走算法确定集群网络根因节点的方式将在下文介绍。

下文为便于描述，将根因节点称为第一类节点，受影响节点称为第二类节点，经过故障检测模型检测后得到的集群网络各节点可能发生的故障类型及概率称为第一故障信息。

为便于理解本申请的故障检测方法的实现过程，下面在图1所示的集群网络结构的基础上，结合其他附图进行介绍。

下面首先介绍本申请故障检测方法中第一故障图的构建方法。其中，下图各实施例对应的方法的执行主体，均可以为上述集群网络中的任意设备或集群网络外的任意设备，下文为便于理解，以执行主体是网络设备103为例。图4示出了一种第一故障图的构建方法，如图4所示，该方法包括：

401，采集监控信息。在一些实现方式中，可通过上述数据采集设备102采集集群网络的监控信息。其中，监控信息可以是集群网络的日志告警数据、设备之间通信的网络带宽、时延数据、集群网络中任意设备运行作业的时间/迭代时长等信息。

402，按照预设规则对监控信息进行分类。在一些实现方式中，可以对所获取的监控信息按照各自的属性信息进行划分。例如，可将表示集群网络中各设备之间通信状态的抖动时延信息，划分为第一类监控信息，将表示设备之间通信数据丢失等监控信息划分为第二类监控信息，将表示网络拥堵等监控信息划分为第三类监控信息，将表示设备之间链路故障类的监控信息，划分为第四类监控信息。

示例性地，各监控信息与其所属类别的对应关系可如下表1A所示：

表1A各监控信息与其所属类别的对应关系

可以理解，上述分类仅作为示例，在其他实现方式中，也可以按照其他分类规则对监控信息进行分类，分类后的数量可以少于上述四种分类，也可以多于上述四种分类，本申请对此不作限制。

403，将分类后的监控信息与所属的网络层进行关联，得到第一故障图。可以理解，节点一般可分为应用层，消息传递接口层(Message Passing Interface，MPI)，远程直接数据读取(remote direct memory access，RDMA)层，IP/ETH(Internet Protocol/ethernet)层等，每个监控信息可反映该节点的某一层的某项业务是否正常。因此将每个监控信息与所属的网络层进行关联，实则可以理解为获取该节点每一层的监控信息。

然后基于上述分类后的监控信息及其所属的网络层，即可得到如图5所示的第一故障图。其中，圆圈内数字1至N表示各种监控信息。

可以理解，本申请方法中402以及403的目的是为了能够根据故障图快速定位至故障发生的准确位置，以及方便研发人员了解某一类型故障发生后，各层随之发生的各种故障，使研发人员能快速排除相应的故障。如有需要，在一些实现方式中，也可以不对监控信息进行分类，并且不将监控信息与所属层之间进行关联，而是直接根据监控信息建立如图5所示的第一故障图，可以看出图5与上图2、图3a以及图3b的区别在于图5有明确的网络层以及监控信息类别的划分，而图2、图3a以及图3b则是直接根据监控信息建立的第一故障图，但二者在本质上均是由反映该节点故障与否的监控信息构成的第一故障图。本申请对此不作限制。

经过图4的方法得到各节点的第一故障图后，便可利用节点实际的故障数据，对第一故障图进行剪枝，得到表示该节点实际故障情况的第二故障图。下面结合图6介绍每个节点的故障传播图实例化的过程。如图5所示，该方法包括：

601，获取节点的监控信息。在一些实现方式中，可以通过数据采集设备102获取第一预设时长内的监控信息，以得到能够更加稳定表示节点故障与否的监控信息。其中，第一预设时长为经验值或实验值，其取值例如可为5秒。

在一些实现方式中，节点的监控信息包括节点的关键绩效指标(key performanceindicator，KPI)信息、日志信息以及PING拨测告警信息。其中，节点的KPI信息可以包括多种KPI值，比如包括节点的PING带宽值，RMDA带宽值等。日志信息也可以包括多种类型日志信息，例如链路异常日志信息、数据包丢失日志信息，数据包错包日志信息等等。

示例性地，在一些实现方式中，获取5秒内的反压帧变化量可如图7所示，其中横轴表示时间，纵轴表示某时刻对应的反压帧变化量。在一些实现方式中，获取5秒内的原始链路异常日志信息可如图8所示，其中，横轴表示时间，纵轴表示某时刻对应的该日志信息的数量。在一些实现方式中，获取5秒内的原始PING拨测告警信息可如图9所示，其中，横轴表示时间，纵轴表示某时刻对应的PING拨测告警信息。

在一些实现方式中，为了便于下文中比较监控信息与相应的阈值条件，并根据比较结果得到该节点的异常特征向量，可以对上述采集到的反压帧变化量、原始链路异常日志信息、原始PING值拨测告警信息等进行处理，得到更为简洁的图示。

例如，以反压帧变化量为例，可将大于或等于反压帧变化量阈值的反压帧变化量用“1”表示，低于反压帧变化量阈值的反压帧变化量用“0”表示。其中，反压帧变化量阈值为经验值或实验值。那么针对于图7，可得到如图10所示的5秒内反压帧变化量，其中，横轴依旧表示时间，纵轴表示PING带宽值。同理对于其他KPI值也可采用类似的方法进行归一化，得到该KPI值对应的简化图示。

可以理解，在其他实现方式中，也可采用其他方式进行类似的归一化。例如，对于链路异常日志信息，可以用“1”表示有链路异常日志信息，用“0”表示无链路异常日志信息。或者用“0”表示无链路异常日志信息，“1”表示有链路异常日志信息，但其数量小于某一数值，“2”表示有链路异常日志信息，且其数量大于某一数值等等。本申请对此不作限制。

602，比较监控信息和相应的条件，并根据比较结果，得到该节点的异常特征向量。在一些实现方式中，由于监控信息包括节点的KPI信息，日志信息以及PING拨测告警信息等多种监控信息，因此在比较监控信息和相应的条件时，需针对KPI信息、日志信息以及PING拨测告警信息分别进行比较。例如，判断KPI信息是否满足预设第一条件，日志信息是否满足预设第二条件，PING拨测告警信息是否满足预设第三条件。

并且，由于节点的KPI信息往往包含多种KPI值，比如节点的KPI信息包括节点的PING带宽值，反压帧变化量，接收端丢包量等，因此在对节点KPI信息和预设第一条件进行比较时，也需针对每一种KPI值分别进行判断，也即比较每一种KPI值与其对应的阈值条件。例如，比较节点的PING带宽值与PING带宽阈值条件，比较反压帧变化量与反压帧变化量阈值条件，以及比较接收端丢包量与接收端丢包量阈值条件。

在一些实现方式中，在针对某一种KPI值进行比较时，可以根据该第一预设时长内KPI值的变化特征，与该种KPI值对应的预设KPI变化特征集，确定该种KPI值对应的KPI特征值，然后比较该KPI特征值与预设KPI特征值，如果一致，则表明该种KPI值正常，如果不一致，则表明该种KPI值异常。其中，预设KPI变化特征集是根据采集到的各节点的各类KPI值的历史数据，并根据历史数据变化特征得到的，某种KPI值对应的预设KPI变化特征集可表示该种KPI值在任何情况下，可能的变化情况。

举例来说明，以KPI值是PING带宽值为例，假设PING带宽值在5秒内的预设KPI特征集包括如图11所示的三种变化特征值“1”，“2”，“3”，PING带宽值的变化特征对应的PING带宽值则如上图10所示属于“1”。假设PING值带宽值对应的预设KPI特征值为“1”，即图10所示的PING带宽值变化是集群网络没有发生故障时对应的正常变化，那么PING带宽值正常。假设PING带宽值对应的预设KPI特征值为“2”，即图10所示PING值带宽值变化是集群网络发生故障时对应的异常变化，那么PING值带宽值异常。其中，预设KPI特征值为经验值或实验值，可由研发人员依经验设置。需要说明的是，前述特征值“1”、“2”、“3”用于表示某KPI值的数值变换，例如某KPI值对应的波形形状，更具体地例如特征值“1”表示图11所示的第一种的波形图，特征值“2”表示图11所示的第二种波形图，特征值“3”表示图11所示的第三种波形图。在其他实现方式中，还可以用户其他数值来表示某KPI值对应的波形图形状，本申请对此不作限制。

同理，利用同样的方法，可得到每种KPI值对应的KPI特征值。在一些实现方式中，可以用“0”表示各类KPI值与对应的预设KPI值一致的KPI值，用“1”表示各KPI值与对应的预设KPI值不一致的KPI值，即可得到该节点KPI信息对应的异常特征向量。示例性地，假设该节点的KPI信息包括3种KPI值(PING带宽值，RMDA带宽值，mpi带宽值)，这三种KPI值对应的KPI特征值分别为[1，2，3]，这三种KPI值对应的预设KPI值分别为[1，1，2]，则比较可得该节点的KPI信息的异常特征向量为[0，1，1]，即该节点的KPI信息中，PING带宽值正常，RMDA值异常，mpi值异常。

而对于日志信息以及PING值拨测告警信息而言，也可采用类似的方式，得到日志信息对应的异常特征向量以及PING值拨测告警信息对应的异常特征向量。示例性地，假设日志信息包括2种，数据包丢包日志信息以及链路中断日志信息。假设第一预设时长内数据包丢失日志信息的特征值为1，链路中断日志信息的特征值也为1，则两种日志信息对应的特征值为[1，1]。假设这两种日志信息对应的预设特征值为[0，0]则比较可知该日志信息对应的异常特征向量为[1，1]，即该节点的日志信息中，数据包丢失日志信息以及链路中断日志信息均异常。示例性地，假设第一预设时长内PING值拨测告警信息的特征值为3，假设PING值拨测告警信息对应的预设特征值为2，则比较可知该PING值拨测告警信息的异常特征向量为[1]，即该节点的PING值拨测告警信息异常。

得到节点KPI信息、日志信息以及PING拨测值告警信息的异常特征向量后，即可得到该节点的异常特征向量。例如，以上文所言的KPI信息的异常特征向量[0，1，1]、日志信息的异常特征向量[1，1]以及PING值拨测告警信息的异常特征向量[1]为例，该节点的异常特征向量为[0，1，1，1，1，1]。

可以理解，节点的异常特征向量与节点对应的KPI信息、日志信息以及PING值拨测告警信息对应的数量有关，例如如果节点对应的KPI信息有7种，日志信息有6种，PING拨测告警信息有4种，则节点的异常特征向量可以是[1，1，1，0，0，0，1，0，1，1，1，1，0，0，1，1，0]。本申请对此不作限制。

603，根据该节点的异常特征向量，对该节点的第一故障图进行剪枝，得到该节点的第二故障图。也即，利用该节点的异常特征向量，对该节点的第一故障图进行实例化，得到符合该节点异常特征的第二故障图。

例如，以上图5所示的节点的第一故障图为例，圆圈1至7表示KPI信息，圆圈8至13表示日志信息，圆圈14至17表示PING拨测告警信息。

假设该节点异常特征向量为[1，0，1，1，0，0，1，1，0，1，1，0，0，0，0，0，1]，表明圆圈1、3、4、7表示的KPI值异常，圆圈8、10、11表示的日志信息异常，圆圈17表示的PING拨测告警信息异常，其他信息则正常。故针对图3所示的第一故障图，对第一故障图KPI信息、日志信息以及PING拨测告警信息正常的信息进行剪枝，保留异常信息，即如图12所示，虚线圆圈表示正常的KPI信息、日志信息、PING值信息，将这些正常信息剪枝后，即可得到如图13所示的该节点的第二故障图。

以上为针对某一节点的第一故障图得到该节点的第二故障图，也即对该节点的第一故障图进行实例化的过程。通过这种方式，可得到符合该节点异常特征的故障图。并且由于第二故障图是在该节点对应的第一故障图的基础上进行剪枝的，基于第一故障图的全面性(即包括了已知全部的监控信息)，第二故障图也可包括所能获取的能够表示该节点故障与否的全部信息，便于后续准确分析该节点的故障情况。

上文介绍了构建某节点的第一故障图以及对第一故障图进行剪枝得到第二故障图的过程。下面将介绍本申请中利用节点的第二故障图训练故障检测模型以及利用故障检测模型检测集群网络中节点故障的方法。

首先介绍利用节点的第二故障图训练故障检测模型的方法。如图14所示，该方法包括：

1401，获取集群网络中各节点的历史故障数据。其中，获取集群网络中各节点的历史故障数据的方法可参考上文获取节点的监控信息方法，此处不再赘述。其中，各节点的故障数据包括各节点异常的KPI信息、日志信息以及PING拨测告警信息。

在一些实现方式中，各节点的历史故障数据包括节点发生过各类故障对应的故障数据，以及与某一类故障类型对应的该节点的属性。其中，节点的属性即为上文所述的该节点为根因节点还是受影响节点，受影响节点是受根因节点发生故障的影响，也发生故障的节点。其中，根因节点称为第一类节点，受影响节点称为第二类节点。

例如，如图15所示，A节点的历史故障数据包括A节点发生过第一类型故障的故障数据、第二类型故障的故障数据…第N类型故障的故障数据，以及与第一类型故障对应的A节点的属性(例如A节点为第一类节点)，与第二类型故障对应的A节点的属性(例如A节点为第二类节点)…与第N类型故障对应的A节点的属性(例如A节点为第一类节点)。

1402，基于各节点的历史故障数据，以及各节点的第一故障图，得到各节点的第二故障图。其中，各节点的第一故障图的构建方式可参考上述方法401至403。得到各节点的历史故障数据后，即可通过上述方法602得到各节点的异常特征向量，然后即可利用上述方法603，针对各节点的第一故障图进行剪枝，得到各节点的第二故障图。更具体地，由于各节点的历史故障数据包括各节点发生过的故障类型以及与故障类型对应的各节点的属性，因此可得到各节点针对不同故障类型的第二故障图。

例如，继续以图15所示的A节点的历史故障数据为例，通过1302可得到如图16所示，A节点与故障类型以及A节点属性之间的对应关系图。具体如图16所示，A节点为第一类型故障的第一类节点对应的第二故障图1601，A节点为第二类型故障的第二类节点对应的第二故障图1602…A节点为第N类型故障的第二类节点对应的第二故障图160N。

1403，基于各节点的第二故障图和历史故障数据，训练故障检测模型。可以理解，由于历史故障数据中包括各节点发生过的故障类型以及与故障类型对应的各节点的属性，又通过1402得到各节点针对各类故障的第二故障图，因此可利用各节点针对各类故障的第二故障图、各节点针对各类故障时的节点属性训练故障检测模型。

在一些实现方式中，故障检测模型可以为卷积神经网络模型或者其他可用于机器学习的神经网络模型，本申请对此不作限制。

以故障检测模型为卷积神经网络模型为例，在一些实现方式中，可以将上述第二故障图以及各第二故障图对应的故障类型、节点的属性信息等划分为训练数据、验证数据以及测试数据，然后利用训练数据训练故障检测模型，利用验证数据验证故障检测模型，最后在利用测试数据检测故障检测模型是否符合要求。其中，划分训练数据、验证数据以及测试数据的方式可由研发人员依经验设置，例如将上述第二故障图以及各第二故障图对应的故障类型、节点的属性信息中60％的数据划分为训练数据，20％的数据划分为验证数据，20％的数据划分为测试数据。并且，在一些实现方式中，也可以采用其他数据划分方法，例如仅将上述第二故障图以及各第二故障图对应的故障类型、节点的属性信息中80％划分为训练数据、20％划分为测试数据。应理解，模型训练的方法本身是一项成熟的现有技术，本领域技术人员可在不付出创造性劳动的基础上，知悉模型训练方法相关的数据划分方法，故本申请对此不作限制。

在一些实现方式中，在故障检测模型训练过程中，需要将输入数据对应的第一输出数据，与该输入数据对应的预设输出数据进行比较，其中第一输出数据为经过故障检测模型处理后的输出数据，预设输出数据为该输入数据对应的参考数据，即某个节点的某种第二故障图对应的故障类型以及该节点的属性，如果第一输出数据与预设输出数据的相似度大于第一阈值，则表明故障检测模型的检测结果较为准确，如果第一输出数据与预设输出数据的相似度小于第一阈值，则表明故障检测模型的检测结果尚不准确，需继续利用训练数据训练故障检测模型，并同时修改故障检测模型中各网络层的权重、偏置等参数，使输入数据的第一输出数据与预设输出数据之间的相似度大于第一阈值，也即使故障检测模型的检测结果满足要求。其中，第一阈值为经验值或实验值。在一些实现方式中，计算第一输出数据与预设输出数据之间的相似度的方式可以是提取第一输出数据以及预设输出数据对应的特征向量(也即将第一输出数据以及预设输出数据进行向量化)，计算二者特征向量之间的向量欧式距离、余弦距离或汉明距离中的任一种，本申请对此不作限制。并且，对第一输出数据以及预设输出数据向量化的过程，属于现有技术，本领域技术人员可在不付出创造性劳动的前提下知悉，故此处不在赘述。

例如，继续以上图16所示的A节点与故障类型以及A节点属性之间的对应关系图为例，对于训练数据中，A节点的第一类型故障对应的第二故障图为输入数据，第一类型故障及其对应的A节点的属性(第一类节点)为上述预设输出数据，将该第二故障图输入故障检测模型后，得到该第二故障图对应的第一输出数据，则比较该第一输出数据与预设输出数据之间的相似度，根据相似度与相似度阈值之间的关系，确定故障检测模型是否符合要求。

在一些实现方式中，训练完成后的故障检测模型可表示为下式1：

其中，|X_i，k，X_j，k|表示某节点对应的某种故障类型下两个故障图之间的相似度，X_i，k可以表示，X表示节点，例如X可以为上图16中的A，表示A节点，i表示节点X某一类故障对应第二故障图，例如，A节点对应的第一类型故障的第二故障图，k表示该节点的某一种监控信息，例如，k可以表示A节点的第一类监控信息，T_k表示类型为k的监控信息中包括的特征，例如，T_k表示A节点的第一类监控信息的特征(诸如图5所示A节点第一类监控信息包括圆圈1、2、3、4、7、8、9，因此第一类监控信息的特征为[1，0，1，1，1，1，0，])，b_i表示第二故障图中的某一种信息b的异常特征向量，例如，b表示A节点的KPI信息的异常特征向量，比如图5所示的A节点的KPI信息包括圆圈1至7，故b_i＝[1，0，1，1，0，0，1]。

也即，在利用故障检测模型进行故障检测时，利用根据某节点对应的实时监控信息得到的该节点的第二故障图与上述根据集群网络中各节点历史故障数据得到的各个第二故障图进行相似度比较，得到该节点的实时监控信息对应的第二故障图与根据各节点历史故障数据得到的各个第二故障图之间的相似度。

下面结合图17介绍利用上述故障模型检测集群网络中节点故障的方法，其中，与上图4、图6、图14所示的内容一致的地方可参考上文相关描述，以下不再赘述。如图16所示，该方法包括：

1701，获取集群网络的实时监控信息。

1702，基于各节点的实时监控信息，以及各节点的第一故障图，得到各节点的第二故障图。

1703，基于各节点的第二故障图，利用故障检测模型得到各节点的第一故障信息。其中，各节点的第一故障信息包括各节点发生的故障类型、与该故障类型相应的概率以及各节点在各类故障类型下的节点属性。例如，对于B节点的第一故障信息而言，其可包括B节点发生第一类型故障的概率、第二类型故障的概率、…、第N类型故障的概率，以及第一类型故障对应下B节点的属性(比如第一类型故障下B节点可能为第一类节点)，第二类型故障下B节点的属性(比如第一类型故障下B节点可能为第二类节点)、…、第三类故障类型下B节点的属性(例如第一类型故障下B节点可能为第一类节点)。

示例性地，为便于理解，假设利用故障检测模型，基于节点B、C、D、E的实时监控信息得到的第二故障图进行检测，得到的节点B、C、D、E的第一故障信息如图18所示。其中，经过故障检测后，得到节点B可能的故障类型的概率，节点属性之间的对应关系如下表1B所示：

表1B节点B可能的故障类型的概率，节点属性之间的对应关系

在一些实现方式中，为了便于比较计算，可以将节点对应的故障类型、节点属性及概率以矩阵{t1，t1′，t2，t2′，t3，t3′，...tn，tn′}的形式表示，其中，tn表示该节点处于第N类型故障且为第一类节点的概率，tn′表示该节点处于第N类型故障且为第二类节点的概率。示例性地，上表1B中节点B对应的故障类型、节点属性以及概率表示为矩阵的形式，可为：{0.1，0.5，0，0，…，0，0}。

经过故障检测后，得到节点C可能的故障类型的概率，节点属性之间的对应关系如下表2所示：

表2节点C可能的故障类型的概率，节点属性之间的对应关系

同样，示例性地，上表2中节点C对应的故障类型、节点属性以及概率表示为矩阵的形式，可为：{0.2，0.4，0.75，0.3，…，0.7，0.2}。

经过故障检测后，得到节点D可能的故障类型的概率，节点属性之间的对应关系如下表3所示：

表3节点D可能的故障类型的概率，节点属性之间的对应关系

/>

同样，示例性地，上表3中节点D对应的故障类型、节点属性以及概率表示为矩阵的形式，可为：{0.8，0.6，0.3，0.7，…，0.01，0.03}。

经过故障检测后，得到节点E可能的故障类型的概率，节点属性之间的对应关系如下表4所示：

表4节点E可能的故障类型的概率，节点属性之间的对应关系

同样，示例性地，上表4中节点E对应的故障类型、节点属性以及概率表示为矩阵的形式，可为：{0.1，0.01，0.8，0.5，…，0.5，0.6}。

1704，利用各节点相邻的节点对应的第一故障信息，调整各节点的第一故障信息，得到各节点的第二故障信息。可以理解，与某个节点邻近的节点，更容易因该节点发生故障而产生故障，而且邻近节点的故障类型趋于相同。故可以利用某个节点邻近节点的第一故障信息，调整该节点的第一故障信息，得到该节点的第二故障信息。然后利用同样的方法，调整各个节点的第一故障信息，得到各个节点的第二故障信息。在一些实现方式中，相邻的节点包括与各节点具有物理连通关系的节点，例如两个节点之间通过网线进行连接，那么这两个节点互为相邻节点。在另一些实现方式中，相邻的节点还包括彼此之间具有业务依赖关系或数据依赖关系的节点，例如某节点的输入数据依赖另一节点的输出数据，那么这两个节点也互为相邻节点。

示例性地，以图18所示的节点B、C、D、E的第一故障信息为例，如图18所示，节点B的邻近节点为节点D和节点E。节点B对应的第一类故障信息表示为矩阵形为{0.1，0.5，0，0，…，0，0}，节点D对应的第一类故障信息表示为矩阵是：{0.8，0.6，0.3，0.7，…，0.01，0.03}，节点E对应的第一类故障信息表示为矩阵是：{0.8，0.6，0.8，0.5，…，0.5，0.6}。

假设利用节点D和节点E的第一故障信息调整节点B的第一故障信息，也即假定节点B为第一类节点，节点D和节点E为第二类节点。由于故障检测模型检测出节点B可能的故障类型包括第一类型故障，而故障检测模型检测出节点D的故障类型包括第一类型故障，第二类型故障，…，第N类型故障，故障检测模型检测出节点E的故障类型包括第一类型故障，第二类型故障，…，第N类型故障，因此针对节点B而言，其为第一类型故障的概率更高，故可提高节点B为第一类型故障的第一类节点的概率。例如将节点B第一类型故障的第一类节点的概率从0.1提升预设幅度至0.5。其中，预设幅度为经验值或实验值，可由研发人员根据需求设置。例如，研发人员将预设幅度设置成与邻居节点中第二类节点的概率相关的形式，比如预设幅度初始值为0，存在一个邻居节点第二类节点的概率大于50％，预设幅度增加10％，也即如果有多个(比如3个)邻居节点的第二类节点的概率均大于50％，则预设幅度为30％。本申请对此不作限制。

然后采用相同的方法，针对其他类故障类型下，节点B的第一类节点的概率也进行调整，即可得到节点B调整后的第二故障信息。示例性地，节点B调整后的第二故障信息可以为{0.5，0.5，0.5，0，…，0.25，0}.

同理，针对集群网络中其他节点，采用上述方法进行调整，即可得到各节点的第二故障信息。示例性地，假设针对上述节点C、D、E进行调整后，得到节点C的第二故障信息为{0.45，0.4，1.1，0.3，…，0.71，0.2}，节点D的第二故障信息为{1.2，0.6，0.55，0.7，…，0.3}，节点E的第二故障信息为{0.36，0.01，1.25，0.5，…，0.52}。

1705，根据各节点的第二故障信息，确定集群网络发生此次故障对应的多个第一类节点。得到各节点的第二故障信息后，即可根据各节点第二故障信息中的概率大小，确定多个第一类节点。在一些实现方式中，可以将第二故障信息中，每种故障类型中第一类节点概率小于第一阈值的节点去除，得到各类故障对应的多个第一类节点。其中，第一阈值为经验值或实验值，例如其取值可为0.5。例如，以504中节点B调整后的第二故障信息可以为{0.5，0.5，0.5，0，…，0.25，0}，节点C的第二故障信息为{0.45，0.4，1.1，0.3，…，0.71，0.2}，节点D的第二故障信息为{1.2，0.6，0.55，0.7，…，0.3，0.03}，节点E的第二故障信息为{0.36，0.01，1.25，0.5，…，0.52，0.6}为例，将各类故障类型中第一类节点的概率小于0.5的节点去除，可得到如下表5所示的各类故障、各类故障对应的第一类节点以及概率之间的对应关系。

表5各类故障、各类故障对应的第一类节点以及概率之间的对应关系

即集群网络中，发生第一类故障，且第一类节点为节点B的概率为0.5，发生第一类故障，且第一类节点为节点D的概率为1.2；发生第二类故障，且第一类节点为节点B的概率为0.5，发生第二类故障，且第一类节点为节点D的概率为0.55，发生第二类故障，且第一类节点为节点E的概率为1.25；发生第二类故障，且第一类节点为节点C的概率为0.71，发生第二类故障，且第一类节点为节点E的概率为0.52。

1706，判断集群网络中多个第一类节点中，是否存在故障概率大于故障概率阈值的第一类节点。其中，故障概率阈值为经验值或实验值，其取值例如可为0.8。也即，从多个第一类节点中筛选出最有可能是第一类节点的节点。

1707，在确定集群网络中多个第一类节点中，存在故障概率大于故障概率阈值的第一类节点的情况下，将故障概率最大的第一类节点对应的故障类型作为集群网络的故障类型。也即如果能够筛选出最有可能是第一类节点的节点，那么该节点对应的故障类型，则为集群网络发生的故障类型。

例如，以上表5所示的各类故障及各类故障对应的第一类节点为例，将故障概率小于0.8的第一类节点排除，即可得到如下表6所示的第一类节点、第一类节点对应的故障类型以及概率：

表6第一类节点、第一类节点对应的故障类型以及概率

第一类节点	故障类型	概率
			节点D	第一类型故障	1.2
节点E	第二类型故障	1.25
			……	……	……

也即集群网络发生第一类型故障对应的第一类节点为节点D的概率为1.2，集群网络发生第二类型故障对应的第一类节点为节点E的概率为1.25，…。那么，节点E对应的第二类型故障即为集群网络发生的故障，而此次故障的第一类节点即为节点E。

在一些实现方式中，如果故障概率大于故障概率阈值的故障类型有多个，则可以从中任一选择一个作为集群网络的故障类型，或者将多个故障类型均作为集群网络的故障类型，本申请对此不作限制。

1708，在确定集群网络中多个第一类节点中，不存在故障概率大于故障概率阈值的第一类节点的情况下，将此次集群网络的故障类型标记为未知故障类型。可以理解，如果经过上述方法无法筛选出最有可能是第一类节点的节点，则表示此次故障类型可能属于未知故障类型。而对于未知故障类型，则可通过人工排查的方式确定故障原因，然后将其作为历史故障数据，使用上图14所示的方法，重新训练故障检测模型，以便后续集群网络故障的检测。本申请对此不作限制。

在另一些实现方式中，对于根据上述1701至1704得到各节点的第二故障信息后，也采用利用随机游走算法，从各节点中确定集群网络发生故障的第一类节点以及故障类型。其中，随机游走算法指的是从图的任意一个节点出发，都有(1-a)的概率游走至这个节点的邻居节点，而以概率a随机跳跃到图中的任何一个顶点，其中a为跳转发生概率，然后在每次游走后得出一个概率分布，该概率分布表示了图中每一个顶点被访问到的概率。用这个概率分布作为下一次游走的输入并反复迭代这一过程。随机游走的迭代次数符合次数阈值后，即可得到较为平稳的概率分布，那么这个概率分布中概率最大的节点即可认为是集群网络的第一类节点，同时该节点在第一类节点时对应的故障概率最大的故障类型，即为该集群网络的故障类型。

具体地，上述过程包括：

(1)利用根据1701至1704得到的各节点的第二故障信息，针对于每个节点，将该节点为第一类节点时的各故障类型对应的概率相加，得到每个节点对应的第一故障概率，以及将该节点为第二类节点时对应的全部故障类型对应的概率相加，得到每个节点对应的第二故障概率。

为了便于理解，以节点O、P、Q为例进行说明。示例性地，假设节点O对应的第二故障信息如下表7所示：

表7节点O对应的第二故障信息

节点P对应的第二故障信息如下表8所示：

表8节点P对应的第二故障信息

节点Q对应的第二故障信息如下表9所示：

表9节点Q对应的第二故障信息

根据上表7至9，计算节点O、P、Q的第一故障概率以及第二故障概率。在一些实现方式中，由于直接对某节点为第一类节点时各故障类型对应的故障概率求和，结果可能会超过1，同样地，对某节点为第二类节点时故障类型对应的故障概率求和，结果也可能超过1。因此为了便于计算，可以对某节点为第一类节点时各故障类型对应的故障概率之和以及某节点为第二类节点时各故障类型对应的故障概率之和进行调整，使二者之和为1。具体调整方式本申请不作限制。

示例性地，节点O的第一故障概率以及第二故障概率如下表10所示：

表10节点O的第一故障概率以及第二故障概率

节点P的第一故障概率以及第二故障概率如下表11所示：

表11节点P的第一故障概率以及第二故障概率

节点Q的第一故障概率以及第二故障概率如下表12所示：

表12节点Q的第一故障概率以及第二故障概率

(2)根据各节点的第二故障概率，构建各节点之间的关系指向图。也即，由于各节点第二故障概率是各节点在第二类节点(也即受影响节点)时对应的各故障类型的故障概率之和，因此某节点的第二故障概率越大，表示该节点越容易受到其他节点的故障影响而发生故障。基于此，利用各节点中，第二故障概率大的节点与第二故障概率小的节点之间的指向关系(第二故障概率大的节点指向第二故障概率小的节点)，得到各节点之间的关系指向图。

示例性地，继续以节点O、节点P以及节点Q为例，节点O、节点P以及节点Q之间的关系指向图可如图18所示，节点O(第二故障概率为0.6)指向节点P(第二故障概率为0.5)以及节点Q(第二故障概率为0.2)，节点O(第二故障概率为0.6)指向节点P(第二故障概率为0.5)。

可以理解，上述节点O、节点P以及节点Q仅为示例性地，在本申请的实现方式中，关系指向图包括集群网络中各节点之间的指向关系。

可以理解，在本申请的一些实现方式中，也可以按照各节点之间的第一故障概率构建各节点之间的关系指向图，即由第一故障概率小的节点指向第一故障概率大的节点，此时关系指向图中各节点的指向关系与图18所示的指向关系应相反。

(3)利用随机游走算法，从任一节点出发，遍历各节点，统计游走过程中，到达次数超过次数阈值的节点。

可以理解，由于关系指向图中的指向关系是第二故障概率大的节点指向第二故障概率小的节点，因此在随机游走过程中，将各节点的第一故障概率作为随机游走时调转至各节点的概率，则随机游走过程中到达或跳转次数最多的节点，也即可能是第二故障概率最小的节点(最不容易受到其他节点故障而发生故障的节点)，亦即根因节点(第一类节点)。

例如，继续以上述图18所示的节点O、P、Q构成的关系指向图为例，假设随机游走从节点P出发，则下一次到达的节点更可能是第一故障概率更大(第二故障概率更小)的节点Q。

可以理解，上述游走过程中的跳转具有随机性，因此需要统计游走过程中到达次数超过次数阈值的节点，然后从这些节点中确定最有可能是集群网络发生此次故障的根因节点的节点。其中，次数阈值为经验值或实验值，可根据集群网络中节点的数量来确定，本申请对此不作限制。

(4)从到达次数超过次数阈值的节点中确定集群网络发生此次故障的第一类节点，并将该节点为第一类节点时对应的故障概率最大的故障类型作为集群网络的故障类型。

在一些实现方式中，可以从到达次数超过次数阈值的节点中，选择到达次数最多的节点作为集群网络发生此次故障的第一类节点。

然后从该节点为第一类节点时对应的各故障类型中，选择故障概率最大的故障类型，作为集群网络的故障类型。

例如，假设根据上述(1)至(3)确定的集群网络发生此次故障的第一类节点为上述节点Q，则由上表9可知，节点Q为第一类节点时，故障概率最大的故障类型为第二类型故障，因此该集群网络的故障类型为第二故障类型。

上述方法中，利用随机游走算法，根据各节点的第一故障概率或第二故障概率构成的关系指向图，进行随机游走。然后基于关系指向图中的指向关系(由第二故障概率大的节点指向第二故障概率小的节点或由第一故障概率小的节点指向第一故障概率大的节点)，得到随机游走过程中，到达次数超过上述次数阈值的节点，并从中选择中到达次数最多的节点作为集群网络的根因节点，同时将该节点为第一类节点时故障概率最大的故障类型作为集群网络的故障类型。可以理解，利用随机游走算法可以更快地得到集群网络的故障类型以及根因节点，提高了集群网络故障检测的效率。

图20示出了本申请实施例中的一种电子设备的框图。在一个实施例中，电子设备可以包括一个或多个处理器2004，与处理器2004中的至少一个连接的***控制逻辑2008，与***控制逻辑2008连接的***内存2012，与***控制逻辑2008连接的非易失性存储器(NVM)2020，以及与***控制逻辑2008连接的网络接口2020。

在一些实施例中，处理器2004可以包括一个或多个单核或多核处理器。在一些实施例中，处理器2004可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。

在一些实施例中，***控制逻辑2008可以包括任意合适的接口控制器，以向处理器2004中的至少一个和/或与***控制逻辑2008通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，***控制逻辑2008可以包括一个或多个存储器控制器，以提供连接到***内存2012的接口。***内存2012可以用于加载以及存储数据和/或指令。在一些实施例中电子设备的内存2012可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(Dynamic Random Access Memory，DRAM)。

NVM/存储器2020可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，NVM/存储器2020可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如硬盘驱动器(Hard Disk Drive，HDD)，光盘(Compact Disc，CD)驱动器，数字通用光盘(Digital Versatile Disc，DVD)驱动器中的至少一个。

NVM/存储器2020可以包括安装电子设备的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口920通过网络访问NVM/存储2020。

特别地，***内存2012和NVM/存储器2020可以分别包括：指令924的暂时副本和永久副本。指令2024可以包括：由处理器2004中的至少一个执行时导致电子设备实施上述构建方法的指令。在一些实施例中，指令2024、硬件、固件和/或其软件组件可另外地/替代地置于***控制逻辑2008，网络接口2020和/或处理器2004中。

网络接口2020可以包括收发器，用于为电子设备提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口2020可以集成于电子设备的其他组件。例如，网络接口2020可以集成在处理器2004，***内存2012，NVM/存储器2020，和具有指令的固件设备(未示出)中的至少一种，当处理器2004中的至少一个执行所述指令时，电子设备实现上述图4、图6、图14、图17所示的方法。

网络接口2020可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口2020可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一个实施例中，处理器904中的至少一个可以与用于***控制逻辑2008的一个或多个控制器的逻辑封装在一起，以形成***封装(system in package，SiP)。在一个实施例中，处理器2004中的至少一个可以与用于***控制逻辑2008的一个或多个控制器的逻辑集成在同一管芯上，以形成片上***(system-on-chip，SoC)。

电子设备可以进一步包括：输入/输出(I/O)设备2092。I/O设备2092可以包括用户界面，使得用户能够与电子设备进行交互；***组件接口的设计使得***组件也能够与电子设备交互。在一些实施例中，电子设备还包括传感器，用于确定与电子设备相关的环境条件和位置信息的至少一种。

在一些实施例中，***组件接口可以包括但不限于非易失性存储器端口、音频插孔和电源接口。

本申请实施例还提供了一种电子设备，该电子设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory，ROM)、随机存取存储器(random accessmemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种故障检测方法，应用于集群网络中的多个节点，其特征在于，包括：

获取集群网络中第一节点的实时监控信息，从所述实时监控信息选择出异常实时监控信息；

将所述第一节点的异常实时监控信息输入至故障检测模型，得到所述第一节点的第一故障信息，所述第一故障信息包括所述第一节点的推测故障类型以及与各推测故障类型对应的故障概率；

根据所述第一节点的推测故障类型以及各推测故障类型对应的故障概率，确定所述集群网络的真实故障类型。

2.根据权利要求1所述的方法，其特征在于，所述第一故障信息还包括所述第一节点为第一类节点时的推测故障类型、每种推测故障类型对应的故障概率以及所述第一节点为第二类节点时的推测故障类型、每种推测故障类型对应的故障概率，

所述方法还包括：

利用第二节点为第二类节点时对应的各推测故障类型的故障概率，相应地增加所述节点在第一类节点的情况下相同推测故障类型的故障概率，得到所述第一节点的第二故障信息，其中，所述第二节点与第一节点互为相邻节点，所述第二故障信息包括所述调整后的第一节点为第一类节点时推测故障类型、每种推测故障类型对应的故障概率以及所述第一节点为第二类节点时推测故障类型、每种推测故障类型对应的故障概率。

3.根据权利要求2所述的方法，其特征在于，所述根据所述推测故障类型以及各故障类型对应的故障概率，确定所述集群网络的故障类型，包括：

根据所述调整后的第一节点为第一类节点时的推测故障类型、每种推测故障类型对应的故障概率，将所述故障概率大于第一阈值对应的故障类型作为所述集群网络的故障类型。

4.根据权利要求1所述的方法，其特征在于，所述根据所述实时监控信息，得到所述第一节点的异常实时监控信息，包括：

将所述实时监控信息与第一预设条件进行比较，删除所述实时监控信息中满足所述第一预设条件的监控信息，得到所述第一节点的异常实时监控信息。

5.根据权利要求1所述的方法，其特征在于，所述故障检测模型是利用所述各节点的历史异常监控信息训练得到的，所述各节点的历史异常监控信息包括各节点分别为第一类节点以及第二类节点时，发生的故障类型以及各故障类型对应的监控信息。

6.根据权利要求5所述的方法，其特征在于，所述各节点的历史异常监控信息通过以下方式确定：

获取预设时长内集群网络中各节点的历史监控信息，比较所述各节点的历史监控信息与第二预设条件，去除所述历史监控信息中满足第二预设条件的监控信息，得到所述各节点的历史异常监控信息，其中，所述各节点的历史监控信息包括所述各节点分别为第一类节点以及第二类节点时对应的监控信息。

7.一种模型训练方法，应用于电子设备，其特征在于，包括：

获取预设时长内集群网络中各节点的历史监控信息，从所述各节点的历史监控信息中选择出对应所述各节点的历史异常监控信息；

利用所述各节点的历史异常监控信息和对应各节点的历史异常监控信息的故障类型，训练初始故障检测模型，得到故障检测模型。

8.根据权利要求7所述的方法，其特征在于，所述各节点的历史异常监控信息包括各节点分别为第一类节点以及第二类节点时，发生过的故障类型以及各故障类型对应的监控信息。

9.根据权利要求7或8所述的方法，其特征在于，所述方法还包括：

获取集群网络中第一节点的实时监控信息，根据所述实时监控信息，得到所述第一节点的异常实时监控信息；

将所述第一节点的异常监控信息输入至故障检测模型，得到所述第一节点的第一故障信息，所述第一故障信息包括所述第一节点的推测故障类型以及与各推测故障类型对应的故障概率，以及

根据所述第一节点推测故障类型以及各推测故障类型对应的故障概率，确定所述集群网络的真实故障类型。

10.根据权利要求7所述的方法，其特征在于，所述初始故障检测模型至少包括以下任一种：

卷积神经网络模型、全连接神经网络模型或前馈神经网络模型。

11.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储由电子设备的一个或多个处理器执行的指令，以及

处理器，是电子设备的处理器之一，用于执行权利要求1至6中任一项所述的方法。

12.一种电子设备，其特征在于，所述电子设备包括：

处理器，是电子设备的处理器之一，用于执行权利要求7至10所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，该指令在电子设备上执行时使电子设备执行权利要求1至6中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，该指令在电子设备上执行时使电子设备执行权利要求7至10所述的方法。