CN112436954A

CN112436954A - 用于故障诊断的概率探针选择方法、***、设备及应用

Info

Publication number: CN112436954A
Application number: CN202011076519.XA
Authority: CN
Inventors: 齐小刚; 李家慧; 汪直平; 刘立芳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-03-02
Anticipated expiration: 2040-10-10
Also published as: CN112436954B

Abstract

本发明属于网络通信技术领域，公开了一种用于故障诊断的概率探针选择方法、***、设备及应用，在故障检测阶段利用概率贪婪探针选择方法从可用探针集中选择能够覆盖所有网络节点的最少探针；并由探测站发送这些探针以检测网络中是否存在故障节点，一旦存在失效探针，说明网络中可能存在故障节点；触发故障定位过程，利用概率最小搜索探针选择方法对故障节点进行准确定位。本发明建立了大量的仿真实验评估所提算法的性能，结果显示该算法具有高故障定位准确率、低探测成本以及极强适应能力；在不确定性环境下，采用用于故障定位的概率最小搜索探针选择方法，能够降低不确定性因素的影响、提高故障定位准确率。

Description

用于故障诊断的概率探针选择方法、***、设备及应用

技术领域

本发明属于网络通信技术领域，尤其涉及一种用于故障诊断的概率探针选择方法、***、设备及应用。

背景技术

目前：近年来，随着全球互联网用户、移动智能设备、网络用户服务需求的增加，通信网络的规模和复杂程度呈急速增长趋势，这给网络管理***运行带来了巨大的挑战，其核心问题为故障管理。由于环境因素或设备老化易导致网络部件发生故障，这在大规模通信网络中是不可避免的，因此对通信网络进行实时故障诊断至关重要。对于通信网络，故障诊断过程包括两部分：故障检测和故障定位。故障检测是识别网络中是否存在故障的过程。在故障定位阶段利用现有信息推断故障的具***置。为了保证网络的正常运行，快速准确的故障检测和定位方法是目前所亟需的。

传统的网络故障诊断多采用被动监测的方法，即在网络设备上部署监测代理来监测网络。网络管理***将网络故障状态通过监测代理产生的告警作为网络的症状来推断出准确的故障状态。但被动监测方法主要局限性在于网络规模和复杂程度的急速增大使得故障告警和实际故障之间的关系变得更为复杂。告警也可能在传输的过程中被干扰、中断或丢失，且需部署远大于故障数量的监测代理。因此采用该方法准确识别网络故障的位置更为困难、所需成本更高。

近年来，主动探测的方法受到越来越多的关注，其根据在网络中发送称为探针的数据包的探测结果来检测网络中是否存在故障，即为故障检测过程。如果在该过程中检测出故障，那么为推断其准确位置，故障定位过程将被触发。如果未检测到故障，则设定合理的周期时间再次对网络进行检测。因此该方法具有快速准确推断网络健康状况的能力以及尽可能降低故障诊断成本的优点。

已有的采用主动探测的故障诊断方法大多以确定性环境为实际假设背景，其需要关于网络的完全信息状态，即节点与探针之间的关系应当是确定的。但在实际生活中，由于包括环境噪声在内的许多因素，网络中存在一定程度的不确定性以及不可靠性。因此在确定性环境下进行实验在多数实际情况下是不适合的，而应在与实际环境更为相似的不确定性环境(NDE)下进行实验。在该环境下所提网络故障诊断算法更具有实际意义，这也正是本发明所关注的研究方向。

主动探测技术主要由预计划探测和自适应探测组成，其能够获得端到端的性能统计信息，如延迟、吞吐量和丢包率等，从而具有及时响应的能力。预计划探测方法首次由Brodie等人提出，利用节点与探针之间的依赖关系建立依赖矩阵以选择探针。虽然其操作简单，但未考虑不确定性因素的影响，且需要向网络中所有目标节点发送探针进行故障检测，从而产生大量的管理流量。与预计划探测不同，Natu等人提出的自适应探测以故障检测和故障定位结果相互作用的方式，在故障定位阶段向故障检测阶段识别出的健康区域发送少量探针，向问题区域发送较多探针进行故障定位。这种探测技术能够极大程度减少探针使用数量，从而有效降低探测成本。Rish等人提出一种利用信息论的方法选择一组信息量最大的探针作为目标探针集的技术。Anuja和Tayal等人考虑在节点流量动态变化的网络中探针选择的问题。他们采用对链路赋予代表当前链路流量的权值，利用Dijkstra最短路径算法选择合适探针。Carmo等人讨论了在无线多跳网络中使用主动探测方案进行入侵检测的技术。探测站的选择也会影响探测效率和成本，因此有大量工作针对网络故障定位中探针集约简的探测站部署方法进行研究。但上述所提及的方法均基于网络节点与探针之间的依赖关系是完全确定的假设，而在实际NDE下是不适用的。

利用最少的探测站最小化选择探针的数量是一个NP-难问题。针对NDE大规模网络中降低故障检测误差和开销的问题，Dusia等人讨论了扩展候选探针集的三种启发式方法和图划分方法，以更有效地选择探针、降低探针选择的复杂性。Yu等人提出权衡预计划探测与自适应探测方法在流量负载和运行时间方面的优点和不足，将两种方法结合使用。但该方法中决定何时切换这两种方法的故障节点数量阈值对结果有较大影响，而得到该阈值需大量历史数据等信息。Boem等人考虑通信网络中的时延和丢包问题，提出再同步算法和分布式延迟补偿策略的虚拟传感器方案，但该方案没有考虑可能发生的多节点故障或传感器故障的情况。Lu等人针对计算机网络提出了将故障检测过程分阶段进行，该方法可以保证网络在不受大量探针严重干扰的情况下运行。但该方法缺少对故障节点具***置进行定位的过程，从而不能进行后续故障恢复等操作。

通过上述分析，现有技术存在的问题及缺陷为：

由于在不确定性环境下进行故障检测和故障定位需要考虑探针探测结果等的不确定性，这些不确定性因素均可造成一定程度的结果误差或不可靠性。同时，由于与故障检测过程相比，故障定位过程的复杂性大大提高，部分算法只考虑了不确定性环境下的故障检测过程，而没有考虑准确定位故障节点的故障定位过程。因此，目前仍没有完全适用于NDE故障定位的具体方法，尤其针对大规模通信网络中受不确定性因素影响较大的情况。

解决以上问题及缺陷的难度为：

1.考虑不确定性环境中由于噪声等环境因素的影响，可能存在经过所有均正常的节点的探针探测结果可能为失效的情况，这给故障检测和故障定位的结果均造成一定程度的识别误差及不确定性；

2.故障定位过程需要准确定位故障节点，比只需找出能够覆盖所有网络节点的最少探针以检测是否存在故障节点的故障检测过程复杂性大大提高，在不确定性环境下如何准确定位故障节点也是需要解决的难点问题之一。

解决以上问题及缺陷的意义为：

1.不确定性环境下由于环境因素或设备老化易导致网络部件发生故障，这在大规模通信网络中是不可避免的，为维持网络正常运转、确保网络的有效性和可靠性，实施故障管理策略是必不可少的；

2.考虑受不确定性因素影响的不确定性环境比确定性环境更与实际环境贴合，所开展的科研工作及所提算法更具有实际意义和应用价值；

3.现存确定性环境下的故障检测和定位方法用于不确定性环境中所得结果误差较大，不适用于不确定性环境下的故障诊断过程，而对通信网络进行实时有效故障诊断又是至关重要且亟需解决的问题。

发明内容

针对现有技术存在的问题，本发明提供了一种用于故障诊断的概率探针选择方法、***、设备及应用。

本发明是这样实现的，一种用于故障诊断的概率探针选择方法，所述用于故障诊断的概率探针选择方法包括：

在故障检测阶段利用概率贪婪探针选择方法从可用探针集中选择能够覆盖所有网络节点的最少探针；

由探测站发送这些探针检测网络中是否存在故障节点，一旦存在失效探针，说明网络中可能存在故障节点；

触发故障定位过程，利用概率最小搜索探针选择方法对故障节点进行准确定位。

进一步，所述概率贪婪探针选择方法确定具有最高检测难度的节点进行优先检测，选取检测到节点n_i需要的最少探针数量作为定量描述节点检测难度的指标，记为D_i，D_i越大，说明检测n_i所必需的探针数量越多，即该节点越难被检测到。

进一步，所述D_i的具体计算方法：

步骤一：初始化N中每个节点n_i的检测难度D_i＝0，覆盖率CVR(n_i)＝0，所有可用探针的探测成本L＝{l_j,1≤j≤m}以及节点被检测到时覆盖率需要达到的阈值THR；

步骤二：判断CVR(n_i)是否小于THR；如果是，转步骤三；如果否，转步骤四；

步骤三：选择具有最大P(p_j|n_i)的可用探针集P_A中的探针p_j作为所选探针，根据公式CVR(n_i)＝CVR(n_i)+P(p_j|n_i)-CVR(n_i)×P(p_j|n_i)更新节点的覆盖率，并从可用探针集中将p_j移除，根据所选探针的探测成本l_j更新对应节点的检测难度D_i＝D_i+l_j，转步骤二；

步骤四：此时节点n_i已经被覆盖或被检测到，对所有节点中除了探测站节点PS外未覆盖的其他节点，初始化可用探针集及节点覆盖率再进行上述判断，直到所有节点的检测难度均被计算。

进一步，初始化中为了判断节点是否已经被检测到，需要对覆盖率设置阈值THR，如果节点的覆盖率超过该阈值，则说明该节点已经被检测到，否则说明其还未被检测到；

在实际应用中，该阈值具有一定的上界，当所选阈值大于该上界，则至少存在一个节点即使选择所有可用探针也不能被检测到：

其中

表示节点n_i故障时，探针p_j探测结果正常的概率。

进一步，将由D_i的具体计算方法得到的D作为故障检测阶段概率贪婪探针选择方法的输入，具有最大D_i的节点作为优先检测的目标节点，利用概率贪婪探针选择方法依次选择探针检测各个节点，直到所有节点均被检测到；

利用概率贪婪探针选择方法依次选择探针检测各个节点的过程包括：

步骤一：初始化N中每个节点n_i的覆盖率CVR(n_i)＝0，未被检测到的节点集N_u＝N-PS，故障检测阶段选择的探针集

步骤二：判断N_u是否为空集；如果是，则此时所有节点均被检测到，算法结束；如果否，转步骤三；

步骤三：计算N_u中所有节点检测难度D_u，找出具有最大检测难度的节点集

对所有节点n_t∈N_t，计算所有可用探针中P(p_j|n_t)＞0的探针p_j的检测能力

选择具有最大检测能力的探针p_jmax，将其添加至P_DS且从P_A中移除；

步骤四：

由CVR(n_u)＝CVR(n_u)+P(p_jmax|n_u)-CVR(n_u)×P(p_jmax|n_u)更新节点覆盖率，判断CVR(n_u)是否小于THR；如果否，将n_u从N_u中移除。转步骤二。

进一步，所述概率最小搜索探针选择方法，根据故障检测阶段选择的探针集P_DS中探针的探测结果，可将探针分为正常探针和失效探针；由探针的探测结果可推断其途经节点的具体状态，将节点分为可正常工作的正常节点、不可正常工作的故障节点以及不确定是否可以正常工作的可疑节点，推断节点状态的具体方法采用通过探针探测结果推断节点状态的通用方法；

将识别出的正常节点集N_o、故障节点集N_f、可疑节点集N_s作为概率最小搜索探针选择方法的输入；执行有限次故障定位过程，每次故障定位过程直到所有节点的状态均被识别或确定为不可判定节点为止。

进一步，所述用于故障定位的概率最小搜索探针选择方法为：

步骤一：初始化故障定位阶段选择的探针集

每个节点n_s∈N_s的覆盖率CVR(n_s)＝0，不可判定节点集

设定执行故障定位次数W，已完成故障定位次数w＝0；

步骤二：判断w是否小于W；如果否，则此时故障定位迭代次数达到设定次数，算法结束；如果是，转步骤三；

步骤三：判断N_s是否为空集；如果是，则此次故障定位迭代结束，转步骤八；如果否，则更新该阶段需要定位的目标节点集N_g为N_s；

步骤四：判断N_g是否为空集；如果是，则转步骤三；如果否，将P_A中经过N_f中节点的探针移除以更新P_A，对所有节点n_g∈N_g，判断是否存在P(p_j|n_g)＞0的可用探针p_j；如果是，转步骤五；否则，转步骤六；

步骤五：添加经过节点n_g的探针中经过N_g中节点最少、N_g中节点覆盖率之和最高、具有最小探测成本l_j的探针p_j到P_LS中，并将p_j从P_A中移除。

根据公式CVR(n_s)＝CVR(n_s)+P(p_j|n_s)-CVR(n_s)×P(p_j|n_s)更新节点n_s的覆盖率CVR(n_s)，如果CVR(n_s)≥THR，将n_s从N_g中移除；

步骤六：添加n_g到N_d中，将N_d中的元素从N_s和N_f中移除；

步骤七：根据p_j的探测结果推断被p_j覆盖到的节点的状态，将故障节点、正常节点、可疑节点分别添加到N_f、N_o以及N_s中，将N_f和N_o中的节点从N_s和N_g中移除，将此次判断的节点n_g从N_g中移除，转步骤四；

步骤八：w＝w+1，更新N_s←N_f∪N_d，

转步骤二。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

触发故障定位过程，利用概率最小搜索探针选择算法对故障节点进行准确定位。

本发明的另一目的在于提供一种实施所述用于故障诊断的概率探针选择方法的用于故障诊断的概率探针选择***，所述用于故障诊断的概率探针选择***包括：

概率贪婪探针选择模块，用于在故障检测阶段利用概率贪婪探针选择方法从可用探针集中选择能够覆盖所有网络节点的最少探针；

故障节点判断模块，用于由探测站发送这些探针检测网络中是否存在故障节点，一旦存在失效探针，说明网络中可能存在故障节点；

概率最小搜索探针选择模块，触发故障定位过程，利用概率最小搜索探针选择算法对故障节点进行准确定位。

本发明的另一目的在于提供一种网络通信终端，所述网络通信终端搭载所述用于故障诊断的概率探针选择***。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明采用概率探针选择算法(PRPS)，包括用于故障检测的概率贪婪探针选择方法和用于故障定位的概率最小搜索探针选择方法。在故障检测阶段，利用基于节点覆盖率的概率贪婪探针选择方法，选择最少数量的探针覆盖网络中的所有节点。当识别出网络中可能存在故障时，触发故障定位过程，利用概率最小搜索探针选择方法进行故障定位。为降低不确定性因素对结果的影响，本发明提出更新识别出的节点集后对故障进行多次定位。本发明通过改变网络拓扑结构、网络参数等建立了大量的仿真实验评估所提算法的性能，结果显示该算法具有高故障定位准确率、低探测成本以及极强适应能力。

本发明提出NDE下进行故障检测的概率贪婪探针选择方法，其基本思想为结合条件概率、阈值、节点覆盖率等概念，选择最小数量能够实现网络节点全覆盖的探针，该方法可以极大程度的减少故障检测阶段探测成本。针对故障定位阶段，本发明提出概率最小搜索探针选择方法，其在适用于NDE的同时，能够降低不确定性因素的影响、提高故障定位准确率。

本发明建立了大量的仿真实验评估所提出的PRPS算法的性能，结果显示该算法具有高故障定位准确率、低探测成本以及极强适应能力。本发明在NDE下提出了一种尽可能消除不确定性因素影响、提高故障定位准确率的PRPS算法。该算法包括两部分：概率贪婪探针选择方法和概率最小搜索探针选择方法。首先在故障检测阶段利用概率贪婪探针选择方法从可用探针集中选择能够覆盖所有网络节点的最少探针，并由探测站发送这些探针检测网络中是否存在故障节点。一旦存在失效探针，说明网络中可能存在故障节点，此时触发故障定位过程，利用概率最小搜索探针选择方法对故障节点进行准确定位。为尽可能消除不确定性因素影响，可多次执行故障定位过程提高故障定位准确率。本发明也改变参数对所提算法性能进行评估，大量仿真实验表明PRPS算法对不同类型、不同参数的网络拓扑结构均具有高故障定位准确率、低探测成本以及极强适应能力。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的用于故障诊断的概率探针选择方法流程图。

图2是本发明实施例提供的用于故障诊断的概率探针选择***结构示意图；

图2中：1、概率贪婪探针选择模块；2、故障节点判断模块；3、概率最小搜索探针选择模块。

图3是本发明实施例提供的主动探测方法原理图。

图4是本发明实施例提供的二部贝叶斯网络模型实例图。

图5是本发明实施例提供的网络拓扑结构示意图。

图6是本发明实施例提供的故障检测阶段所有可用探针示意图。

图7是本发明实施例提供的故障检测阶段概率贪婪探针选择示意图。

图8(a)是本发明实施例提供的故障定位第一次探针选择示意图。

图8(b)是本发明实施例提供的故障定位第二次探针选择示意图。

图9(a)是本发明实施例提供的PRPS与随机选择探针(RPS)性能指标故障定位准确率(FLA)示意图。

图9(b)是本发明实施例提供的PRPS与RPS性能指标探测成本(PC)示意图。

图10(a)是本发明实施例提供的网络规模对FLA影响示意图。

图10(b)是本发明实施例提供的网络规模对PC影响示意图。

图11(a)是本发明实施例提供的故障节点比例对FLA影响示意图。

图11(b)是本发明实施例提供的故障节点比例对PC影响示意图。

图12(a)是本发明实施例提供的受不确定性因素影响的探针比例对FLA影响示意图。

图12(b)是本发明实施例提供的受不确定性因素影响的探针比例对PC影响示意图。

图13(a)是本发明实施例提供的探测站数量对FLA影响适应性评估示意图。

图13(b)是本发明实施例提供的探测站数量对PC影响适应性评估示意图。

图14(a)是本发明实施例提供的探测站部署方式对FLA影响适应性评估示意图。

图14(b)是本发明实施例提供的探测站部署方式对PC影响适应性评估示意图。

图15(a)是本发明实施例提供的网络类型对FLA影响适应性评估示意图。

图15(b)是本发明实施例提供的网络类型对PC影响适应性评估示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种用于故障诊断的概率探针选择方法、***、设备及应用，下面结合附图对本发明作详细的描述。

如图1所示，本发明提供的用于故障诊断的概率探针选择方法包括以下步骤：

S101：在故障检测阶段利用概率贪婪探针选择方法从可用探针集中选择能够覆盖所有网络节点的最少探针；

S102：由探测站发送这些探针检测网络中是否存在故障节点，一旦存在失效探针，说明网络中可能存在故障节点；

S103：触发故障定位过程，利用概率最小搜索探针选择方法对故障节点进行准确定位。

本发明提供的用于故障诊断的概率探针选择方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的用于故障诊断的概率探针选择方法仅仅是一个具体实施例而已。

如图2所示，本发明提供的用于故障诊断的概率探针选择***包括：

概率贪婪探针选择模块1，用于在故障检测阶段利用概率贪婪探针选择方法从可用探针集中选择能够覆盖所有网络节点的最少探针；

故障节点判断模块2，用于由探测站发送这些探针检测网络中是否存在故障节点，一旦存在失效探针，说明网络中可能存在故障节点；

概率最小搜索探针选择模块3，触发故障定位过程，利用概率最小搜索探针选择方法对故障节点进行准确定位。

下面结合附图对本发明的技术方案作进一步的描述。

本发明提出用于故障检测的概率贪婪探针选择方法和用于故障定位的概率最小搜索探针选择方法，其可在NDE下进行故障诊断的同时尽可能降低不确定性因素对故障定位准确率和探测成本的影响。

1.网络模型

本发明考虑采用主动探测的方法对网络故障节点进行检测和定位。主动探测方法的原理如图3所示，网络G＝(V,E)是由节点集V和由连接节点的链路组成的链路集E构成，其中节点集V包括探测站节点。本发明中均假设被选择为探测站的节点为正常节点。探测站向目标节点发送探针检测网络中是否存在故障节点，每个探针由于其目标节点以及途经节点不同而不同，如图3中从探测站到目标节点1存在两条路径。根据节点和探针之间的关系，可以很容易地识别探针传输路径上节点的状态。

由于主动探测技术依赖于探针进行故障节点检测，因此首先要考虑的是在NDE下如何刻画节点与探针之间的依赖关系。与现有大多数使用确定依赖信息的故障诊断算法不同，考虑到网络路由、逻辑拓扑、探针探测结果的不确定性，本发明考虑经过所有均正常的节点的探针探测结果仍有可能失效的不确定性概率，建立不确定的网络环境。本发明采用能够有效建模和分析复杂网络的二部贝叶斯网络模型刻画节点与探针之间的概率依赖关系。如图4所示，作为简化的贝叶斯网络，二部贝叶斯网络具有两层网络结构，可清晰刻画节点与探针之间的依赖关系。上层代表网络节点集N＝{n_i,1≤i≤n}，下层代表可用探针集P＝{p_j,1≤j≤m}，其中n和m分别代表N和P中元素的个数。使用概率语言量化节点与探针之间的不确定依赖关系是一种有效途径，因此上层各节点与下层各探针间的赋权值有向边可用于代表它们之间的依赖关系。对各有向边的权值为条件概率P(p_j|n_i)，其表示当节点n_i故障时，探针p_j失效事件的概率，即代表节点n_i与探针p_j之间的依赖关系强弱，其主要由网络路由选择状态以及不确定性概率决定并计算可得。

二部贝叶斯网络模型与网络拓扑结构具有密切关系。网络拓扑结构主要反映网络节点间的邻接关系，而二部贝叶斯网络下层代表的可用探针集，是根据从探测站出发到其余节点之间的可达路径得到的。以图4所举实例所示，该二部贝叶斯网络中节点n₁分别与探针p₁、p₂、p₄和p_m间具有有向边，则说明其是根据具有探针p₁、p₂、p₄和p_m经过节点n₁关系的网络拓扑得到的，其他节点与探针之间的关系易同理可得。根据网络拓扑结构以及不确定性概率，可将节点与探针之间的依赖关系以概率语言形式表示，从而构成与被检测网络相对应的二部贝叶斯网络，其中不确定性概率具体指探针经过各个节点的不确定性扰动概率，如p_j经过n_i的不确定性概率为a％，则代表当n_i正常时，由于其受到不确定性因素扰动导致p_j的探测结果失效的概率为a％。从而可根据p_j经过各个节点的不确定性概率计算当p_j经过的所有节点均正常时，其探测结果为失效的不确定性概率。因此，无论网络的节点规模多大、复杂程度多高，都可以根据网络拓扑结构以及不确定性概率信息抽象出对应的二部贝叶斯网络模型。

本发明为了建立所需解决实际问题的数学模型，定义一个m-维二元列向量Z＝{z_j,1≤j≤m}，其中z_j＝1或0表示相应的可用候选探针被选择或未被选择。候选探针p_j的探测成本由l_j表示，因此其组成的集合L＝{l_j,1≤j≤m}表示所有候选探针的探测成本。故障检测阶段探针选择问题的目标是在所有节点都被覆盖的约束下，选择一组候选探针，使所选探针的总探测成本最小。根据这一思想，本发明将故障检测探针选择问题归结为单目标优化问题(如公式(1)所示)。

相似地，故障定位阶段探针选择问题的目标是在所有节点状态被识别的约束下，选择一组候选探针，使所选探针的总探测成本最小，故障定位准确率(FLA)最大。可以注意到，最大化FLA和最小化FLA的相反数是等价的。因此，本发明将故障定位探针选择问题归结为一个多目标优化问题(如公式(2)所示)：

穷举所有可能的可用候选探针组合显然可以解决上述问题。然而，如公式(3)所示的所有可能组合数量表明在实际应用中，对于大规模网络，该解决方法在计算上是不可行的。为了降低探测成本，提高故障定位准确率以及实用性，本发明提出了一种启发式PRPS算法。

2.概率探针选择算法

本发明所提概率探针选择算法包括用于故障检测的概率贪婪探针选择方法和用于故障定位的概率最小搜索探针选择方法，其中在概率最小搜索探针选择方法中采用更新节点集多次进行故障定位探针选择的方法，降低不确定性因素对故障定位准确率的不良影响。

2.1概率贪婪探针选择

故障检测是网络故障诊断的首要步骤。故障检测阶段的结果直接影响是否需要执行故障定位过程，因此快速准确检测网络故障对网络故障管理***至关重要。主动探测方法通过发送探针来检测网络健康状况，当使用的探针探测结果均正常时，说明此时网络中不存在故障节点，否则说明此时网络中很有可能存在故障。因此，NDE下如何基于概率语言选择覆盖所有网络节点的探针以判断是否存在故障节点，同时最大程度降低故障检测成本是目前研究的热点。

在理想的确定环境下，当由逻辑拓扑关系得到探针经过某些节点时，这些节点一定会被该探针检测到，而不会受到不确定性因素的影响。但在受不确定性因素影响的NDE下如何确定某个节点是否已经被检测到是首要解决的问题。首先，采用Coverage的概念来定量描述节点被检测到的概率。Coverage(n_i)(下简化为CVR(n_i))表示节点n_i至少被一个选择的探针检测到的概率，或者说至少存在一个探针，当节点n_i故障时，该探针探测结果失效的概率。选定某个探针p_j对CVR(n_i)的影响可由指标计算公式(4)或(5)给出：

CVR(n_i)＝CVR(n_i)+CVR(n_i|p_j)-CVR(n_i)×CVR(n_i|p_j) (4)

CVR(n_i)＝CVR(n_i)+P(p_j|n_i)-CVR(n_i)×P(p_j|n_i) (5)

提出的概率贪婪探针选择方法首先需要确定具有最高检测难度的节点进行优先检测，因此本发明采用检测到节点n_i需要的最少探针数量作为定量描述节点检测难度的指标，记为D_i。D_i越大，说明检测节点n_i所必需的探针数量越多，即节点n_i越难被检测到。由此可见该指标可以有效地量化节点检测难度。关于D_i的具体计算方法如算法1所示。

算法1初始化中为了判断节点是否已经被检测到，需要对覆盖率设置阈值THR。如果节点的覆盖率超过该阈值，则说明该节点已经被检测到，否则说明该节点还未被检测到。当选择较小的阈值时，检测阶段需消耗的时间少，但准确率不高；当选择较大的阈值时，检测准确率提高，但需花费的时间变长。因此需要权衡检测效率和准确率的需求而设置合适的阈值以取得较好的效果。因此，公式(2)的第一个约束条件等价于：

在实际应用中，该阈值具有一定的上界，即所有初始可用探针均被选择时网络节点覆盖率的最小值，如公式(7)所示。当所选阈值大于该上界，则至少存在一个节点即使选择所有可用探针也不能被检测到：

其中

表示节点n_i故障时，探针p_j探测结果正常的概率。

将由算法1得到的D作为概率贪婪探针选择方法的输入，具有最大D_i的节点作为优先检测的目标节点，利用算法2依次选择探针检测各个节点，直到所有节点均被检测到。

如算法2的第2-10行所示，未检测到的节点中可能存在一个或多个具有最大检测难度的节点，应计算所有与这些节点相关的可用探针的检测能力，从其中选择具有最大检测能力的探针为所选探针。每个探针的检测能力为该探针对所有未检测到节点的覆盖率影响之和。可以注意到，贪婪的搜索策略可以利用少量探针检测尽可能多的节点。

算法2的11-17行为选择探针p_jmax后更新各个指标的过程，包括覆盖率、节点检测难度等。将更新后覆盖率达到阈值THR的节点更新为已检测到的节点，再重新计算各个节点此时的检测难度作为下一次循环过程的输入条件，重复上述过程直到所有节点均被检测到为止。

图5为由6个网络节点构成的网络拓扑结构图，其中节点n₃为探测站节点。初始化可用探针的探测路径为从探测站到其他各个节点的最短路径，即为图6所示的5个探针。每个探针探测路径上标出的概率为该探针经过相应节点的覆盖率。根据公式(7)可计算THR_UB＝0.9973，由所提算法2易得选择如图7所示的4个探针即可使得网络中所有节点均被检测到。

2.2概率最小搜索探针选择

在考虑经过所有均为正常节点的探针探测结果可能失效的NDE下，当故障检测过程检测出网络中存在故障节点时，为了找出故障节点准确位置和根本原因以进行后续网络故障节点恢复、提高网络抗毁性以及可靠性等操作，故障定位过程被触发。如何从可用探针集中选择最少的探针以快速准确定位故障节点，是故障定位阶段需要解决的问题。本发明正是针对这一问题提出了一种用于故障定位的概率最小搜索探针选择方法。

根据故障检测阶段选择的探针集P_DS中探针的探测结果，可将探针分为正常探针和失效探针。由探针的探测结果可推断其途经节点的具体状态，将节点分为可正常工作的正常节点、不可正常工作的故障节点以及不确定是否可以正常工作的可疑节点。

利用基于概率语言优化的最大搜索或最小搜索方法可从可用探针集P_A中选择最合适的探针进行故障定位。选择覆盖最大数量可疑节点的探针为所使用探针的方法称为最大搜索方法，其当探针探测结果正常时可提供大量故障定位信息，否则无法缩小故障节点搜索范围；最小搜索方法的主要思路与最大搜索方法相反，选择的是覆盖最小数量可疑节点的探针，当探针探测结果失效时可有效缩小搜索范围。由于本发明考虑的是探针经过故障节点即失效、经过所有均为正常的节点仍有可能失效的NDE，探针探测结果失效的概率比确定性环境高，因此利用最小搜索方法对故障定位阶段所需探针进行选择更为合适。

将识别出的正常节点集N_o、故障节点集N_f、可疑节点集N_s作为概率最小搜索探针选择方法的输入。用于故障定位的概率最小搜索探针选择算法具体过程由算法3给出。

在初始化阶段，本发明定义不可判定节点集N_d，其由节点状态最终无法被识别的节点组成。算法3中第1行为概率最小搜索探针选择算法的终止条件，执行所设定的合适次数故障定位过程以提高定位准确率，由仿真结果可见执行两次故障定位已可达到接近完美的结果。如算法3的6-25行所示，故障定位阶段选择经过最少可疑节点、可疑节点覆盖率之和最高、具有最小探测成本的探针p_j∈P_A。本发明考虑的不确定性因素可能造成正常节点被误判为故障节点的情况发生，因此对识别出的故障节点进行多次定位可提高故障定位的准确率。

所提出的概率最小搜索探针选择算法在图3网络拓扑中的实例如图8(a)和图8(b)所示。假设只有节点n₅为故障节点，其余均为正常节点，执行两次故障定位过程进行分析。故障检测阶段选择的探针为图7中的P_DS＝{p₁,p₂,p₃,p₄}，其中p₁受不确定性因素的影响探测结果失效。因此探测结果为P_f＝{p₁,p₃}，P_o＝{p₂,p₄}，则可识别出N_f＝{n₁}，N_o＝{n₂,n₆}，N_s＝{n₄,n₅}。利用算法3进行故障定位，第一次故障定位首先向可疑节点n₄发送探针p₅。假设其可覆盖n₄且受不确定性因素影响探测结果失效，则N_f＝N_f∪{n₄}＝{n₁,n₄}。更新可用探针集则不存在到达可疑节点n₅的探针，则N_d＝{n₅}。此时故障定位准确率小于100％。然后进行第二次故障定位，N_s＝N_f∪N_d＝＝{n₁,n₄,n₅}，

选择探针p₆、p₇、p₈进行定位。假设不确定性因素未改变这三个探针的探测结果，P_o＝P_o∪{p₆,p₇}，P_f＝P_f∪{p₈}，则N_o＝{n₁,n₂,n₃,n₄,n₆}，N_f＝{n₅}，此时故障定位准确率达到100％，说明再次进行故障定位可提高故障定位准确率。

下面结合仿真对本发明的技术效果作详细的描述。

1.仿真实验及其设置

为了对所提出的PRPS算法性能进行评估，本发明根据网络拓扑关系、网络规模、故障节点比例、受不确定性因素影响的探针比例等对所提算法在不同网络环境参数下的性能进行大量仿真实验。本发明将所提算法应用到具有不同网络规模、平均节点度、网络节点间邻接关系的网络拓扑结构上进行算法性能的对比验证。本发明使用的性能评价指标包括：故障定位准确率和探测成本。其中故障定位准确率为|(N_o∩N_ao)∪(N_f∩N_af)|/n，其中N_o,N_ao,N_f，N_af和n分别表示由PRPS算法推断出的正常节点集、实际正常节点集、推断出的故障节点集、实际故障节点集以及网络规模。探测成本以|P_DS∪P_LS|为量化指标，其中P_DS和P_LS分别代表故障检测和故障定位所选探针集。本发明所有的仿真对比实验均在网络平均节点度为5、10或15、最大节点度至多为50的无标度网络、小世界网络或随机网络上进行，节点与探针之间的不确定性关系服从高斯噪声分布，只改变需要考察的参数，而不改变其他参数。

本发明改变不同的参数来评估所提算法性能的优劣：(1)网络规模，即网络节点个数(n)：网络节点个数的增加，反映网络规模的增大，其网络拓扑结构也会相对变得更为复杂；(2)故障节点比例(α)：所有故障节点个数占网络节点总数的比例。具有相同网络规模的网络中，故障节点比例越高，说明故障节点的个数越多；(3)受不确定性因素影响的探针比例(β)：受到不确定性因素影响后探针探测结果与确定性环境下探针探测结果不一致的探针个数占所有探针总数的比例；(4)网络平均节点度：所有节点度数之和与网络节点总数之比，其为影响网络拓扑结构的重要参数。为验证多次执行故障定位过程对消除不确定性因素影响、提高故障定位准确率的效果，仿真实验将在概率最小搜索探针选择方法中执行两次故障定位过程，并将一次与两次故障定位过程所得故障定位准确率和探测成本进行对比。

2.PRPS与随机探针选择对比

本发明首先在n＝200及β＝(1/10,1/5)的无标度网络上将PRPS算法与随机选择探针覆盖所有节点、识别所有节点状态的方法进行对比。随机选择探针(RPS)算法仅执行一次故障定位且不依赖于PRPS中使用的探针检测能力等参数，仅根据探针覆盖或识别节点的数量进行探针选择。图9从故障定位准确率(图9(a))和探测成本(图9(b))对比了PRPS和RPS算法。PRPS Round 1和PRPS Round 2分别表示在PRPS算法中执行一次和两次故障定位过程。可以注意到，PRPS Round 2、PRPS Round 1和RPS的故障定位准确率依次递减，并且随着故障节点比例增加，RPS的探测成本比PRPS Round 1高，且逐渐接近PRPS Round 2。根据上述结果，本发明可以推断出PRPS在提高故障定位准确率、降低探测成本方面效果更优。

3.参数影响评估

为了研究改变的参数对故障定位准确率和探测成本的影响，本发明通过改变网络规模、故障节点比例和受不确定性因素影响的探针比例来评估这些参数的影响。

3.1网络规模影响

图10(a)和图10(b)展示在无标度网络上以α取5％、β取(1/10,1/5)为固定参数，改变网络节点个数n从100到1000以及平均节点度，考察变化参数对故障定位准确率以及探测成本的影响。随着网络规模增大，故障定位准确率稍有下降，探测成本逐渐增加。随着网络平均节点度的增大，执行一次故障定位过程后，由于探测成本增加，受不确定性因素影响的探针数量增加，故障定位准确率减小。但在执行第二次故障定位过程后，网络平均节点度越大，可用探针数量越多，导致需要更多探针进行故障检测而判断节点状态准确率提高。第二次与第一次故障定位相比，故障定位准确率提高5％-10％，且均在96％以上，说明多次执行故障定位过程或在概率最小搜索探针选择方法中设置W＞1能够有效降低不确定性因素的影响。而探测成本开销差别不大，这是因为其选择的探针大部分用于故障检测，只有少数探针用于故障定位。

3.2故障节点比例影响

图11(a)和图11(b)展示在无标度网络上以n取200、β取(1/10,1/5)为固定参数，改变故障节点比例α以及平均节点度，考察变化参数对故障定位准确率以及探测成本的影响。随着α增大，故障定位准确率下降，探测成本增加。第二次与第一次故障定位相比，故障定位准确率提高5％-8％，且均在95％以上，探测成本开销差别不大，说明所提多次执行故障定位的方法能够有效降低不确定性因素的影响。

3.3受不确定性因素影响的探针比例影响

图12(a)和图12(b)展示在无标度网络上以n取200、α取5％为固定参数，改变受不确定性因素影响的探针比例β为(0,1/2)以及平均节点度，考察变化参数对故障定位准确率以及探测成本的影响。随着β增大，故障定位准确率逐渐降低，探测成本逐渐增加。当β趋于1/2时，执行两次故障定位过程比执行一次的准确率至少可提高14.5％，且均在88％以上，同样说明多次执行故障定位过程能够有效降低不确定性因素的影响。

4.PRPS算法适应性评估

本发明评估了随着故障节点比例的变化PRPS算法对探测站数量、探测站部署方式和网络类型的适应性。

4.1探测站数量适应性

在上述大量仿真实验中，均默认选择具有最大节点度的网络节点为单个探测站。为考察探测站数量对性能指标的影响，在以n取200、β取(1/10,1/5)为固定参数，改变探测站数量的无标度网络上进行算法性能对比，此处选取1-3个探测站。如图13(a)和图13(b)所示，在执行两次故障定位过程后其故障定位准确率均在96％以上，选取探测站数量越高，故障定位准确率越高。同时由于选取探测站越多导致在故障检测阶段可用的探针数量增加，节点被检测到的阈值THR增大，从而探测成本呈较高速增加。

4.2探测站部署方式适应性

本发明评估三种不同探测站部署方式，包括Max、Min和Random。Max、Min和Random分别指的是从所有网络节点中选择具有最大度的节点、具有最小节点度的节点和随机选择节点作为探测站。正如上所述，上述大量仿真实验均默认以Max的方式部署探测站。为考察不同探测站部署方式对性能指标的影响，在以n取200、β取(1/10,1/5)为固定参数，改变探测站部署方式的无标度网络上进行算法性能对比。如图14(a)和图14(b)所示，与Min和Random方式相比，Max方式部署探测站的故障定位准确率更高、探测成本更低，因此应尽量按Max的方式部署探测站。

4.3网络类型适应性

在上述仿真实验中，均默认选取与现实网络一致的无标度网络作为仿真实验网络背景。为考察网络类型对性能指标的影响，以n取200、β取(1/10,1/5)为固定参数，选取无标度网络、小世界网络、随机网络作为实验网络进行算法性能考察。如图15(a)和图15(b)所示，在执行两次故障定位过程后三种网络类型故障定位准确率均在94％以上。与小世界网络和随机网络相比，选取无标度网络的故障定位准确率更高、探测成本更低。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行***，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种用于故障诊断的概率探针选择方法，其特征在于，所述用于故障诊断的概率探针选择方法包括：

2.如权利要求1所述的用于故障诊断的概率探针选择方法，其特征在于，所述概率贪婪探针选择方法确定具有最高检测难度的节点进行优先检测，引入检测到节点n_i需要的最少探针数量作为定量描述节点检测难度的指标，记为D_i，D_i越大，说明检测节点n_i所必需的探针数量越多，即节点n_i越难被检测到。

3.如权利要求2所述的用于故障诊断的概率探针选择方法，其特征在于，所述D_i的具体计算方法：

4.如权利要求3所述的用于故障诊断的概率探针选择方法，其特征在于，在D_i的具体计算方法初始化中为了判断在不确定性环境下节点是否已经被检测到，需要对覆盖率CVR设置阈值THR，如果节点的覆盖率超过该阈值，则说明该节点已经被检测到，否则说明该节点还未被检测到；

该阈值存在一个上界THR_UB，当所选阈值大于该上界，则至少存在一个节点即使选择所有可用探针也不能被检测到：

其中

表示节点n_i故障时，探针p_j探测结果正常的概率。

5.如权利要求1所述的用于故障诊断的概率探针选择方法，其特征在于，将由D_i具体计算方法得到的D作为概率贪婪探针选择方法的输入，具有最大D_i的节点作为优先检测的目标节点，利用故障检测阶段概率贪婪探针选择方法依次选择探针检测各个节点，直到所有节点均被检测到；

利用概率贪婪探针选择方法依次选择故障检测阶段所需探针的过程包括：

6.如权利要求1所述的用于故障诊断的概率探针选择方法，其特征在于，根据探针的探测结果可将故障检测阶段选择的探针集P_DS中的探针分为正常探针和失效探针；由探针的探测结果可推断其途经节点的具体状态，将节点分为可正常工作的正常节点、不可正常工作的故障节点以及不确定是否可以正常工作的可疑节点，推断节点状态的具体方法采用通过探针探测结果推断节点状态的通用方法；

将识别出的正常节点集N_o、故障节点集N_f、可疑节点集N_s作为概率最小搜索探针选择方法的输入，通过故障定位过程多次迭代，给出用于故障定位的概率最小搜索探针选择方法。

7.如权利要求6所述的用于故障诊断的概率探针选择方法，其特征在于，所述故障定位阶段概率最小搜索探针选择方法为：

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

9.一种实施权利要求1～7任意一项所述用于故障诊断的概率探针选择方法的用于故障诊断的概率探针选择***，其特征在于，所述用于故障诊断的概率探针选择***包括：

概率最小搜索探针选择模块，触发故障定位过程，利用概率最小搜索探针选择方法对故障节点进行准确定位。

10.一种网络通信终端，其特征在于，所述网络通信终端搭载权利要求9所述的用于故障诊断的概率探针选择***。