CN117650971A

CN117650971A - 一种通信***设备故障预防的方法和装置

Info

Publication number: CN117650971A
Application number: CN202311660988.XA
Authority: CN
Inventors: 范志强; 吴振威; 熊云飞; 赵明明; 李海涛
Original assignee: Wuhan Fiberhome Technical Services Co Ltd
Current assignee: Wuhan Fiberhome Technical Services Co Ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-03-05
Anticipated expiration: 2043-12-04
Also published as: CN117650971B

Abstract

本发明涉及故障预防领域，特别是涉及一种通信***设备故障预防的方法和装置。主要包括：将设备的原始特征数据预处理为相应的特征变量，并为每个特征变量设置相应的权重，生成加权特征变量；根据设备的拓扑结构，将加权特征变量组成单链结构的样本，将单链结构的样本放入第一孤立树的主干节点，通过第一孤立树识别异常样本点；将所有的异常样本点放入第二孤立树的主干节点，通过第二孤立树反向识别异常样本簇，根据异常样本点和/或异常样本簇对相应设备的故障进行预防。本发明可以提高孤立森林算法在通信***设备故障检测和预防的准确度，实现通信设备故障预防效果的优化。

Description

一种通信***设备故障预防的方法和装置

技术领域

本发明涉及故障预防领域，特别是涉及一种通信***设备故障预防的方法和装置。

背景技术

孤立森林(Isolation Forest，简写为iForest)算法是基于集成学习(ensemble)的异常检测方法，因此具有线性的时间复杂度。不同于KMeans、DBSCAN等算法，孤立森林不需要计算有关距离、密度的指标，可大幅度提升速度，减小***开销，且精准度较高，在处理大数据时，尤其是数据维度较多时，

速度优势明显，所以目前在工业界的应用范围比较广。常见的场景包括：网络安全中的攻击检测、金融交易欺诈检测、疾病侦测、噪声数据过滤(数据清洗)等。

进行通信***设备的故障检测和预防时，可以借用孤立森林算法的思想进行异常点识别。但是，孤立森林算法主要针对的是连续型结构化数据中单纯的数据点进行处理。而在实际的通信场景中，通信***的单一设备中可能会包含树状拓扑结构的多个节点，而非单一的数据点；同时，通信***中用于故障检测的数据，也并非单纯的数值型数据。因此，直接使用孤立森林算法对通信***设备故障进行检测和预测时，会由于通信***场景中设备的拓扑特性和数据特性，导致无法完成检测，或检测结果错误。

鉴于此，如何克服现有技术所存在的缺陷，解决无法直接使用孤立森林算法进行通信***故障预防的现象，是本技术领域待解决的问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明解决了无法直接使用孤立森林算法进行通信***故障预防的问题。

本发明实施例采用如下技术方案：

第一方面，本发明提供了一种通信***设备故障预防的方法，具体为：将设备的原始特征数据预处理为相应的特征变量，并为每个特征变量设置相应的权重，生成加权特征变量；根据设备的拓扑结构，将加权特征变量组成单链结构的样本，将单链结构的样本放入第一孤立树的主干节点，通过第一孤立树识别异常样本点；将所有的异常样本点放入第二孤立树的主干节点，通过第二孤立树反向识别异常样本簇，根据异常样本点和/或异常样本簇对相应设备的故障进行预防。

优选的，所述将设备的原始特征数据预处理为相应的特征变量，具体包括：对于缺失的原始特征数据，补全相应的特征变量；和/或，对于非数值类型的原始特征数据，处理为可量化计算的特征变量；和/或，对于数值类型的原始特征数据，进行强化预处理，以获取区分度更高的特征变量。

优选的，所述对于缺失的原始特征数据，补全相应的特征变量，具体包括：对于正常缺失的原始特征数据，将相应的特征变量赋值为该特征变量正常值域的中值；对于异常缺失的原始特征数据，将相应的特征变量赋值为该特征变量异常侧的一个极值。

优选的，所述对于非数值类型的原始特征数据，处理为可量化计算的特征变量，具体包括：对于序列型的原始特征数据，根据序列特性，将序列中的每个特征值映射为一个指定数值的特征变量；对于逻辑型的原始特征数据，根据逻辑特征对应的状态，将逻辑的每个状态作为一个特征变量，将每个特征变量赋值为相应的状态值。

优选的，所述对于数值类型的原始特征数据，进行强化预处理，以获取区分度更高的特征变量，具体包括：对于具有单侧异常特点的原始特征数据，获取超出正常值域的正常侧原始特征数据，将相应的特征变量赋值为正常值域相应侧的极值；对于正常值域和异常值域的差异小于指定差异度的特征变量，降低位于正常值域之内的特征变量的梯度，提高位于正常值域之外的特征变量的梯度。

优选的，所述为每个特征变量设置相应的权重，生成加权特征变量，具体包括：对于数值型或序列型的特征变量，为每个特征变量指定一个相应的权值；对于逻辑型的特征变量，获取该逻辑型变量的原始特征数据映射出的所有特征变量的数量，将该逻辑型变量的权值按照特征变量的数量划分为相应数量的分权值，将每个特征变量的权值指定为一个分权值。

优选的，所述根据设备的拓扑结构，将加权特征变量组成单链结构的样本，具体包括：以设备的主控节点作为根节点，分别获取设备上联方向的上联树结构和下联方向的下联树结构；获取上联树结构中根节点到每个叶节点的上联单链，获取下联树结构中根节点到每个叶节点的下联单链；获取上联单链和下联单链所有的一对一组合，以主控节点作为连接点，将每个组合中的上联单链和下联单链连接为一个单链结构，将加权特征变量放入单链结构相应的节点中。

优选的，所述将单链结构的样本放入第一孤立树的主干节点，通过第一孤立树识别异常样本点，具体包括：将每个设备中所有单链结构的样本作为样本集合，在样本集合中取出一个样本，放入第一孤立树的主干节点中；对第一孤立树进行训练，直至获取样本中加权特征变量的值孤立的样本，将获取的样本作为异常样本点；当一个设备的样本集合中所有的样本都被取出时，将所有样本都放回该设备的样本集合中，重新取出样本对第一孤立树进行训练，直至无法继续切分或孤立树到达指定高度。

优选的，所述将所有的异常样本点放入第二孤立树的主干节点，通过第二孤立树反向识别异常样本簇，具体包括：将所有的异常样本点放入第二孤立树的主干节点，对第二孤立树进行迭代计算，根据迭代计算的结果剔除孤立的异常样本点；将剩余的异常样本点进行聚类计算，根据聚类计算结果获取异常样本簇。

另一方面，本发明提供了一种通信***设备故障预防的装置，具体为：包括至少一个处理器和存储器，至少一个处理器和存储器之间通过数据总线连接，存储器存储能被至少一个处理器执行的指令，指令在被处理器执行后，用于完成第一方面中的通信***设备故障预防的方法。

与现有技术相比，本发明的有益效果在于：对原始特征数据进行预处理和加权，减少了数据特性对评估准确度的影响；将加权特征变量组成单链结构的样本，减少了拓扑特性对评估准确度的影响；两次使用孤立树进行预测，获取异常样本点和异常样本簇，进一步提升评估准确度。通过上述方法，提高了孤立森林算法在通信***设备故障检测和预防的准确度，实现通信设备故障预防效果的优化。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中孤立森林算法的训练过程示意图；

图2为现有技术中孤立森林算法判断异常点的过程示意图；

图3为本发明实施例提供的一种通信***设备故障预防的方法流程图；

图4为本发明实施例提供的方法中单侧异常数据预处理的原理示意图；

图5为本发明实施例提供的方法中强化预处理的原理示意图；

图6为本发明实施例提供的方法中原始特征数据预处理的流程示意图；

图7为本发明实施例提供的另一种通信***设备故障预防的方法流程图；

图8为本发明实施例提供的方法某个场景中设备拓扑示意图；

图9为本发明实施例提供的另一种通信***设备故障预防的方法流程图；

图10为本发明实施例提供的另一种通信***设备故障预防的方法流程图；

图11为本发明实施例提供的另一种通信***设备故障预防的方法流程图；

图12为本发明实施例提供的另一种通信***设备故障预防的方法流程图；

图13为本发明实施例提供的一种通信***设备故障预防的装置结构示意图；

其中，附图标记如下：

11：处理器；12：存储器。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明是一种特定功能***的体系结构，因此在具体实施例中主要说明各结构模组的功能逻辑关系，并不对具体软件和硬件实施方式做限定。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面就参考附图和实施例结合来详细说明本发明。

使用孤立森林算法进行异常判断时，将异常点定义为容易被孤立的离群点。在数据可视化时，离群点的图像特征为：分布稀疏，且距离高密度群体较远的点。从统计学来看，在数据空间里，若一个区域内只有分布稀疏的点，表示数据点落在此区域的概率很低，因此可以认为这些区域的点是异常的。

孤立森林算法的理论基础有两点：1.异常数据占总样本量的比例很小，其决定了其适合通过分辨离群的故障特征向量发现潜在故障点，因为故障点总是极少数。2.异常点的特征值与正常点的差异很大，可以通过针对性的故障特征数据强化处理来优化算法效果。

基于上述理论基础，孤立森林算法的算法思想为：用一个随机超平面对一个数据空间进行切分，一次切分完成后会生成两个子空间。下一步，再继续随机选取超平面，来切分第一步得到的两个子空间。以此循环下去，直到每个子空间里面只包含一个样本点为止。若某个样本点与其它所有样本点的距离都较大，则仅需要较少的切分次数，即可将其与其它样本点分开。

对应上述算法思想，现有的孤立森林算法分为两步：

步骤101：训练：从训练集中进行采样，构建孤立树(Isolation Tree，简写为iTree)，对孤立森林中的每棵iTree进行测试，记录孤立树的树结构中根节点至每个叶节点的路径长度。

步骤102：计算异常分数：根据异常分数计算公式，计算每个样本点的异常得分(anomaly score)。

在步骤101中，每棵iTree的训练方式如下：

步骤201：从训练集中随机选择m个点作为子样本，放入一棵iTree的主干节点。

步骤202：随机指定一个特征变量，在当前节点数据范围内，随机产生一个切分点p，切分点p位于当前节点数据中指定特征变量的最大值与最小值之间。

步骤203：基于切分点p生成一个超平面，该超平面将当前节点数据空间切分为2个子空间：把当前所选特征变量下小于p的点放在当前节点的左分支，把大于等于p的点放在当前节点的右分支。

步骤204：在节点的左分支和右分支节点递归步骤202和步骤203，不断构造新的叶节点。直到叶节点上只有一个数据，无法再继续切分；或，树已经生长到了指定高度。

进一步的，由于在检测时只关心路径长度较短的可能异常点，而并不关心路径很长的正常点。为了计算简便，可以对树的高度做限制，实际实施中，iTree的指定高度与子样本数量m有关。优选的，iTree的限高一般取log₂m，该值可以被视为一般场景中正常节点的平均高度。

如图1所示，为某个场景中对子样本进行切分训练的过程，x_i处于密度较高的区域，因此经过较多次数的切分才被分到了单独的子空间；而x₀落在样本点分布较稀疏的区域，只经历较少次数的切分即完成了鼓励。可见，在单棵iTree中，若某个叶节点到根节点的路径长度较短，表示该叶节点经历的切分次数较少，该叶节点为异常点的可能性较大。

由于切分过程是完全随机的，所以需要用ensemble的方法来使结果收敛，即反复从头开始切，然后计算每次切分结果的平均值。获得指定数量t棵孤立树后，可以用生成的孤立树来评估测试数据。即，根据步骤102计算异常分数s。

对于每个样本x，需要对其综合计算每棵孤立树的结果，通过下面的公式计算异常得分：

其中，h(x)为样本x在每棵孤立树的高度，c(m)为给定样本数m时路径长度的平均值。

通过c(m)对样本x的路径长度h(x)进行标准化处理，以标准化处理的结果作为样本x的异常得分，如图2所示：

(1)如果样本x的异常得分接近1，样本x一定是异常点；

(2)如果样本x的异常得分远小于0.5，样本x一定不是异常点；

(3)如果所有样本的异常得分都在0.5左右，表示该场景中可能不存在异常点。

通信设备的故障预防，需要从网络中的大量设备中找出性能、状态值离群的设备，符合孤立森林算法的主要特点。但是，如果将孤立森林常规方法直接应用于通信设备故障预防，并在工程实践中取得好的效果，还有以下问题需要解决。

1.单个通讯设备并不是一个单点结构，通常是树结构。因此，一台设备不能简单看作一个样本点。进行故障预防时，故障点的发掘应定位到设备内的某一节点位置，而不是以设备整体的树结构作为故障预防单位。

2.孤立森林算法主要针对的是连续型结构化数据，但通讯设备中有些特征变量不是连续型数据，而是逻辑值或序列值，例如：分类值、状态值等，这些非数值型的特征变量必须转换成孤立森林可以处理的数值变量形式。

3.孤立森林算法对于异常点的特征值与正常点的特征值差异很大的场景区分度较高，但通信设备有些特征变量的正常值域与异常值域的差异不是很大。

4.通信设备有很多特征变量具有单侧异常的特点，例如设备温度，通常正常值域在[40,60](单位：度)，越高越不正常，但也少数设备温度在30度左右甚至更低，这些正常值会因为“离群”而被误识别为异常。

5.通信设备的特征变量(性能、状态参数)的采集，难免会遇到少数缺失值，包括正常缺失和异常缺失，需要针对不同情况进行不同的补全预处理。

6.一般来说，iTree在计算过程中是随机指定一个特征变量，即每轮切分时，每个特征变量被选中的相对概率是相同的，假设都为1。在实际场景中，不是所有特征变量的对于故障识别中的权重都一样。

实施例1：

针对通信设备故障预防的问题特点，本实施例中，对孤立森林算法的数据预处理环节、iTree取样及孤立计算环节的规则进行优化，以提升通信设备故障预防的效果。

如图3所示，本发明实施例提供的通信***设备故障预防的方法具体步骤如下：

步骤301：将设备的原始特征数据预处理为相应的特征变量，并为每个特征变量设置相应的权重，生成加权特征变量。

进行故障预防时，首先需要获取每个设备的原始特征数据，原始特征数据可以通过设备上报或网管设备主动采集获得。实际实施中，原始特征数据可能包含逻辑值或序列值等非数值变量，或存在单侧异常，或存在数据缺失。因为，首先需要对原始特征数据进行预处理，获取到相应的特征变量。进一步的，为了区分不同特征变量在故障预防时的重要性，还需要对特征变量进行加权，获取到加权特征变量。

步骤302：根据设备的拓扑结构，将加权特征变量组成单链结构的样本，将单链结构的样本放入第一孤立树的主干节点，通过第一孤立树识别异常样本点。

为了符合设备的拓扑结构特性，将故障定位到设备拓扑结构的某个节点上，本实施例中，将加权特征变量根据设备的拓扑结构组成单链结构的样本，通过单链结构的样本消除树结构等拓扑结构对故障定位的影响。

获取到单链结构的样本后，即可将每个单链结构的样本依次放入第一iTree中，通过孤立森林算法对每棵第一iTree进行训练，计算该样本的异常分数，并通过样本的异常分数获取异常样本点。

步骤303：将所有的异常样本点放入孤立树的主干节点，通过孤立树反向识别异常样本簇，根据异常样本点和/或异常样本簇对相应设备的故障进行预防。

获取到异常样本点后，可以直接根据异常样本点所代表的特征项或异常样本点的位置，实现设备故障的预防。

进一步的，若靠近某台设备根节点的位置出现故障，经过该节点的所有单链的特征数据都会出现异常，从而围绕该节点形成异常样本簇。在实际场景中，也可以再次使用孤立森林算法，通过第二iTree获取异常样本簇，通过异常样本簇对设备的故障进行预防。

经过本实施例中提供的步骤301-步骤303后，即可消除掉孤立森林在通信***故障预防时存在的问题，更准确的进行故障预防。

为了消除问题2-5，针对不同类型的原始特征数据，需要进行将设备的原始特征数据预处理为相应的特征变量。

(1)对于缺失的原始特征数据，补全相应的特征变量。

(2)对于非数值类型的原始特征数据，处理为可量化计算的特征变量。

(3)对于数值类型的原始特征数据，进行强化预处理，以获取区分度更高的特征变量。

针对问题5，对于缺失的原始特征数据，需要补全相应的特征变量。

(1)对于正常缺失的原始特征数据，将相应的特征变量赋值为该特征变量正常值域的中值。

对于正常的原始特征数据缺失，例如：少数特定型号的设备不具备某个特征，或不支持提供某种特征值。该缺失不是由故障引起，也不会影响故障预防和定位，因此，本实施例提供的方法中，默认原始特征数据为正常值，统一赋值为该特征变量正常值域的中值。

例如，某型号业务盘没有温度传感器，不具备温度特征值。此时，将该型号业务盘的温度特征变量统一赋值为正常值域[40,60]的中值50。

(2)对于异常缺失的原始特征数据，将相应的特征变量赋值为该特征变量异常侧的一个极值。

异常的原始特征数据缺失，指设备本该提供却未能提供相应的原始特征数据，产生原因包括但不限于设备脱管、特征值溢出等。当出现异常缺失时，可以认为该设备处于异常状态，需要进行相应的故障定位，因此，本实施例提供的方法中，默认原始特征数据为异常值，赋值为该特征变量异常侧的一个极值。

针对问题2，对于非数值类型的原始特征数据，需要处理为可量化计算的特征变量。

(1)对于序列型的原始特征数据，根据序列特性，将序列中的每个特征值映射为一个指定数值的特征变量；

序列型的原始特征数据，指特征值不是数值型，但是又有顺序特征，例如：正常/闪断/长断，或正常/轻度/中度/重度。

为了便于进行计算和比较，本实施例提供的方法中，将序列中的每个特征值映射转换成为一个数值，并使其顺序、距离符合业务逻辑关系。例如，将“正常/轻度/中度/重度”，映射转换成“0/1/3/6”。

(2)对于逻辑型的原始特征数据，根据逻辑特征对应的状态，将逻辑的每个状态作为一个特征变量，将每个特征变量赋值为相应的状态值。

逻辑型的原始特征数据通常表示分类，例如，以布尔值表示的设备开关状态，可以看作包含两个状态的逻辑型特征变量。本实施例提供的方法中，可以将逻辑特征的每个状态作为一个特征变量，并为每个状态对应的特征变量赋予相应的特征值。

例如：逻辑型的原始特征数据可以采用One-Hot编码转换为特征变量：

1、统计原始特征数据X的状态的个数n；

2、将原始特征数据X拆解成n个特征变量：X₁至X_n。

例如，原始特征数据X的状态有A/B/C，每个状态间互斥，则转码后变成3个数值型的特征变量，每个特征变量具有相应的特征值：

例如，原始特征数据X的值为A时，对应的三个特征变量值分别为：X₁＝0b001，X₂＝0b010，X₃＝0b100。

针对问题3和问题4，对于数值类型的原始特征数据，也需要进行强化预处理，以获取区分度更高的特征变量。

(1)对于具有单侧异常特点的原始特征数据，获取超出正常值域的正常侧原始特征数据，将相应的特征变量赋值为正常值域相应侧的极值；

对于具有单侧异常特点的特征变量，对于超出通常的正常值范围但并非故障的特征变量，可以将全部赋值为正常值。实际实施中，可以采用ReLU类激活函数进行数据预处理，例如：ReLU、softplus等。常用的ReLU类函数如图4所示。

例如，某设备的业务盘温度，通常的正常值范围在40度-60度，仅有温度高于正常值范围上限的一侧视为故障，温度低于正常值范围下限的不视为故障。但也少数正常设备的温度在30度左右甚至更低，设备的正常温度低于正常值范围的下限。为了便于计算和比较，可以采用标准ReLU函数对原始特征数据进行处理，将低于正常值范围下限40度的特征值全部赋值为40度，以解决低温被识别为离群的问题。

(2)对于正常值域和异常值域的差异小于指定差异值的特征变量，降低位于正常值域之内的特征变量的梯度，提高位于正常值域之外的特征变量的梯度。

由于通信设备的精度要求较高，某些特征变量的正常值域与异常值域的差异不是很大，对特征特征值采用进行强化预处理。

例如，可以借用幂级数的特性，降低正常域的数值梯度，提高异常域的数

值梯度，从而让孤立切分的效果更优化。在某个实际场景中，根据场景特性和专家经验，在幂函数的基础上进行所需的变形和参数设置，获取以下梯度强化公式，降低正常值域梯度，增加异常值域梯度，以优化孤立效果。

其中，a为正常值域的中值，b为正常阈值宽度。

在上述公式中，f(x)对x求导可知，当x在正常值域内时，f(x)的导数不大于1，x不在正常值域内时，f(x)的导数大于1。且x离正常阈值越远，f(x)对x的导数越大。

例如，某设备光模块收光功率正常值域为[-28,-8](单位dm)，中值为-18，值域宽度为20，其原始特征数据代入上述公式后为：

转换后，数值分布情况如图5所示，正常阈值[-28,-8]范围内梯度不大于1，异常值域梯度大于1，且能够平滑过渡，在iTree计算时更有利于将异常值尽早切分孤立。

在实际实施中，上述的数据预处理过程可以使用如图6所示的过程进行整合，根据实际需要执行所有的预处理过程，或根据实际业务需要选择应使用的预处理过程。

在通信设备性能状态评估的工程实践中，不是所有的特征参数的重要性、可靠性、独立性都相同。因此，需要根据实际的场景需要、数据统计或专家经验等，对每个特征变量都赋予一个权重值，用于控制每轮切分时，每个特征变量被选中的相对概率。因此，针对问题6，在iTree计算之前，需要先对特征变量的权重进行预处理，从而量化控制每轮切分时，每个特征变量被选中作为切分点p的相对概率。

(1)对于数值型或序列型的特征变量，为每个特征变量指定一个相应的权值。

对于数值型的特征变量，可以直接针对其与故障预防的关联性指定相应的权值。重要性、可靠性、独立性等较高的特征变量，应具有较高的权重，即被选中的相对概率较大。

对于非数值型特征变量中的序列型特征变量，在预处理中已进行了相应的转化，因此，在设置权重时，也可以将其与数值型的特征变量进行一致的处理，直接为其制定相应的权值。

(2)对于逻辑型的特征变量，获取该逻辑型变量的原始特征数据映射出的所有特征变量的数量，将该逻辑型变量的权值按照特征变量的数量划分为相应数量的分权值，将每个特征变量的权值指定为一个分权值。

本实施例中，为了将逻辑型的非数值型的特征变量转换为相应的数值，需要将1个逻辑型的原始特征数据X拆分为n个特征变量。若直接进行拆分，会导致原始特征数据X在iTree中的影响权重是其它特征变量的n倍，即，被随机选中的概率变成了原来的n倍。因此，在iTree计算前，需要将X₁至X_n的权重进行分配，使X₁至X_n的权重之和等于原始特征数据X应有的权重。在实际实施中，可以简单的将原始特征数据X的权重进行均分，将X₁至X_n每个特征变量的权重降为原始特征数据X权重的1/n。

在实际的通信***中，很多设备并不是一个单点结构，一台设备不能简单看做一个样本点。针对问题1，本实施例中，将树结构的数据样本通过排列组合，分解成多个单链结构，每个单链作为一个样本点，来参与iTree计算。

如图7所示，可以通过以下方式将加权特征变量组成单链结构的样本。

步骤401：以设备的主控节点作为根节点，分别获取设备上联方向的上联树结构和下联方向的下联树结构。

任何一个子设备节点都可以用根-槽位号-接口号(Root-Slot-Port)形式的ID表达。例如：R表示根节点(主控盘)，R-11表示第11槽位(slot)的业务盘，R-11-3表示第11槽位(slot)业务盘下第3个PON口(port)。

以图8所示的设备为例，在主控盘的下联方向，存在3个层级的树结构(R-1-2)：主控盘-业务盘-无源光纤网络(Passive Optical Network，简写为PON)口：在主控盘的上联方向，也存在3个层级的树结构(2-1-R)：上联口-上联盘-主控盘。

步骤402：获取上联树结构中根节点到每个叶节点的上联单链，获取下联树结构中根节点到每个叶节点的下联单链。

为了便于获取到包含设备中全部层次的单链结构，即，由上联树结构的叶节点到下联树结构的叶节点的单链结构，可以将上联树结构和下联树结构各自分解成多个上联单链和多个下联单链，将上联单链和下联单链进行排列组合，再将上联单链和下联单链在主控盘处进行连接，即可获得设备中的每个单链结构。

以图8为例，上联向有2条单链：1-1-R，1-2-R；下联向也有2条单链：R-1-1，R-1-2。

步骤403：获取上联单链和下联单链所有的一对一组合，以主控节点作为连接点，将每个组合中的上联单链和下联单链连接为一个单链结构，将加权特征变量放入单链结构相应的节点中。

获取到所有的上联单链和所有的下联单链后，对上联单链和下联单链进行一对一的排列组合，形成全部单链。

排列组合形成4条单链结构，即该设备分解成了4个单链结构：1-1-R-1-1，1-1-R-1-2，1-2-R-1-1，1-2-R-1-2。

在每个单链结构中，都包含了设备的所有层次，并在设备的每一层次上有且只有一个节点。获取单链结构上每个节点的全部特征变量，再按单链结构的节点顺序连在一起，就组合成了该单链结构对应的样本的全部特征数据。

经过本实施例中提供的步骤401-步骤403后，即可将一个树结构的设备分解成了多个可用一维向量表达的样本，可以直接用于iTree计算。

单棵iTree训练的常规做法是从全部训练样本中随机选择m个作为子样本，放入一棵iTree的主干节点。而在通信***中，由于问题1，iTree的每个主干节点都包含多个单链结构的样本，每个样本对应的设备子节点并不相同，因此，无法直接使用常规的方法进行子样本的使用。

同时，由于问题3和问题4，现有的iTree子样本抽取方式可能会存在淹没(swamping)问题和遮盖(masking)问题。swamping指的是错误地将正常样本预测为异常。当正常样本很靠近异常样本时，孤立异常时需要的拆分次数会增加，使得从正常样本中区分出异常样本更加困难。masking指的是存在较多密集异常点形成异常簇，同样需要更多的拆分才能将他们孤立出来。

因此，本实施例中，还需要抽取子样本进行单棵iTree训练，而不是直接使用全部样本。

如图9所示，可以按照以下方式进行子样本的抽取。

步骤501：将每个设备中所有单链结构的样本作为样本集合，在样本集合中取出一个样本，放入第一孤立树的主干节点中。

由步骤401-步骤403中的样本构造方法可见，本实施例中，每个样本都包含一个设备中的一个单链结构的数据，每个设备中都包含多个样本。因此，对于每棵第一iTree，在每个设备的所有样本组成的样本集合中，只取一个单链结构的样本，以避免该设备根节点异常造成异常簇包含的多个异常单链样本难以被孤立。。同时，为了避免重复，做到遍历单链，每个样本取出后不放回。

步骤502：对第一孤立树进行训练，直至获取样本中加权特征变量的值孤立的样本，将获取的样本作为异常样本点。

抽取到一个样本后，即可将抽取到的样本作为现有iTree训练时的一个样本放入第一iTree中，并对第一iTree进行训练，通过第一iTree训练的结果获取到存在异常的样本。本实施例中，使用单链结构作为样本，某个样本的单链结构中任一个节点中存在孤立的加权特征变量，该样本即被视为异常样本点。

步骤503：当一个设备的样本集合中所有的样本都被取出时，将所有样本都放回该设备的样本集合中，重新取出样本对第一孤立树进行训练，直至无法继续切分或孤立树到达指定高度。

实际的通信***中，每个设备的拓扑结构不同，样本集合中包含的样本数也不同，一个设备的样本集合被取空后，其它设备的样本集合中可能仍有未处理的样本。为了使所有的样本都能被处理，当一个设备的样本集合被取空后，还需要将所有的样本全部放回设备的样本集合，以备继续随机取用。

直至所有样本都已完成切分，或孤立树达到指定高度，可以视为全部训练完成，结束第一iTree的训练。

经过本实施例中提供的步骤501-步骤503后，即可抽取用于单棵第一iTree训练的样本，并基于抽取到的样本完成单棵第一iTree的训练。

结合现有的孤立森林算法，步骤401-步骤403，以及步骤501-步骤503中的处理过程，可以使用如图10所示的方式进行实现。

使用上述样本抽取方法，能将设备根节点异常造成的异常簇所包含的异常样本全部拆分到不同的第一iTree，同时各样本被取用的机会均等。但是，将一个树结构的设备分解成多个单链结构的样本后，若异常点在靠近设备根节点的位置，也会造成masking问题。

因此，找出异常样本点之后，还需要整合全部第一iTree计算结果，使用如图11所示的方式，对全部样本点再进行第二iTree计算。

步骤601：将所有的异常样本点放入第二孤立树的主干节点，对第二孤立树进行迭代计算，根据迭代计算的结果剔除孤立的异常样本点。

使用第一iTree获取到的异常样本点中，包含相对孤立的异常样本点，也包含由相互聚集的一组异常样本点组成的异常样本簇。本实施例中，反向使用孤立森林算法的原理，通过第二iTree对获取到的全部异常样本点进行拆分，对孤立的异常样本点和聚集的异常样本点完成区分，再将识别出的孤立的异常样本点进行剔除，即可获取到聚集的异常样本点。

步骤602：将剩余的异常样本点进行聚类计算，根据聚类计算结果获取异常样本簇。

剔除孤立的异常样本点后，剩余的异常样本点间都互相聚集。在实际实施中，可能存在一个根节点故障，也可能存在多个根节点故障，对应多组聚集的异常样本点。因此，还需要对聚集的异常样本点进行聚类计算，以区分每一组聚集的异常样本点，将每一组聚集的异常样本点作为一个异常样本簇。

经过本实施例中提供的步骤601-步骤602后，即可查找到由根节点故障导致的异常样本簇。获取到的每一个异常样本簇，可能会指示一台设备根节点的位置发生的异常。由于根节点故障隐患的影响面更广，因此，在故障预防的工程实践中，使用异常样本簇进行故障预防具有更高的实用价值，

结合现有的孤立森林算法，步骤601-步骤602中的处理过程，可以使用如图12所示的方式进行实现。

本实施例提供的通信***设备故障预防的方法，具有以下有益效果：

1.将树结构的数据样本通过排列组合，分解成多个单链结构，解决了问题1中孤立森林算法无法处理树结构的样本数据的问题。

2.在一棵iTree中，每台设备只选择一个单链结构的样本，并且选择后样本不放回，直至该设备全部样本被取完，再将该设备的全部样本放回。以解决问题2中靠近根节点的异常造成异常节点关联的单链数据聚集，难以被孤立的问题。

3.单颗iTree训练时，通过控制特征变量随机选择的概率，来控制问题2中由逻辑型特征变量转码引发的权重问题。

4.单颗iTree训练时，通过控制特征变量随机选择的概率，来控制问题6中特征变量的权重设置问题。

5.所有iTree训练结束，找出单链结构的异常样本点，再对全部异常样本点进行孤立计算，反向找出聚集性的异常样本簇，从而找出可能存在的靠近设备根节点的异常节点，解决问题1中处理现有孤立森林算法无法处理树结构的设备拓扑的问题。

实施例2：

在上述实施例1提供的通信***设备故障预防方法的基础上，本发明还提供了一种可用于实现上述方法的通信***设备故障预防装置，如图13所示，是本发明实施例的装置架构示意图。本实施例的通信***设备故障预防装置包括一个或多个处理器11以及存储器12。其中，图13中以一个处理器11为例。

处理器11和存储器12可以通过总线或者其他方式连接，图13中以通过总线连接为例。

存储器12作为一种通信***设备故障预防的方法非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如实施例1中的通信***设备故障预防的方法。处理器11通过运行存储在存储器12中的非易失性软件程序、指令以及模块，从而执行通信***设备故障预防的装置的各种功能应用以及数据处理，即实现实施例1的通信***设备故障预防的方法。

存储器12可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器12可选包括相对于处理器11远程设置的存储器，这些远程存储器可以通过网络连接至处理器11。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

程序指令/模块存储在存储器12中，当被一个或者多个处理器11执行时，执行上述实施例1中的通信***设备故障预防的方法，例如，执行以上描述的图3、图7和图11所示的各个步骤。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(Read Only Memory，简写为：ROM)、随机存取存储器(Random AccessMemory，简写为：RAM)、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种通信***设备故障预防的方法，其特征在于，包括：

将设备的原始特征数据预处理为相应的特征变量，并为每个特征变量设置相应的权重，生成加权特征变量；

根据设备的拓扑结构，将加权特征变量组成单链结构的样本，将单链结构的样本放入第一孤立树的主干节点，通过第一孤立树识别异常样本点；

将所有的异常样本点放入第二孤立树的主干节点，通过第二孤立树反向识别异常样本簇，根据异常样本点和/或异常样本簇对相应设备的故障进行预防。

2.根据权利要求1所述的通信***设备故障预防的方法，其特征在于，所述将设备的原始特征数据预处理为相应的特征变量，具体包括：

对于缺失的原始特征数据，补全相应的特征变量；

和/或，对于非数值类型的原始特征数据，处理为可量化计算的特征变量；

和/或，对于数值类型的原始特征数据，进行强化预处理，以获取区分度更高的特征变量。

3.根据权利要求2所述的通信***设备故障预防的方法，其特征在于，所述对于缺失的原始特征数据，补全相应的特征变量，具体包括

对于正常缺失的原始特征数据，将相应的特征变量赋值为该特征变量正常值域的中值；

对于异常缺失的原始特征数据，将相应的特征变量赋值为该特征变量异常侧的一个极值。

4.根据权利要求2所述的通信***设备故障预防的方法，其特征在于，所述对于非数值类型的原始特征数据，处理为可量化计算的特征变量，具体包括：

对于序列型的原始特征数据，根据序列特性，将序列中的每个特征值映射为一个指定数值的特征变量；

对于逻辑型的原始特征数据，根据逻辑特征对应的状态，将逻辑的每个状态作为一个特征变量，将每个特征变量赋值为相应的状态值。

5.根据权利要求2所述的通信***设备故障预防的方法，其特征在于，所述对于数值类型的原始特征数据，进行强化预处理，以获取区分度更高的特征变量，具体包括：

对于具有单侧异常特点的原始特征数据，获取超出正常值域的正常侧原始特征数据，将相应的特征变量赋值为正常值域相应侧的极值；

对于正常值域和异常值域的差异小于指定差异值的特征变量，降低位于正常值域之内的特征变量的梯度，提高位于正常值域之外的特征变量的梯度。

6.根据权利要求1所述的通信***设备故障预防的方法，其特征在于，所述为每个特征变量设置相应的权重，生成加权特征变量，具体包括：

对于数值型或序列型的特征变量，为每个特征变量指定一个相应的权值；

对于逻辑型的特征变量，获取该逻辑型变量的原始特征数据映射出的所有特征变量的数量，将该逻辑型变量的权值按照特征变量的数量划分为相应数量的分权值，将每个特征变量的权值指定为一个分权值。

7.根据权利要求1所述的通信***设备故障预防的方法，其特征在于，所述根据设备的拓扑结构，将加权特征变量组成单链结构的样本，具体包括：

以设备的主控节点作为根节点，分别获取设备上联方向的上联树结构和下联方向的下联树结构；

获取上联树结构中根节点到每个叶节点的上联单链，获取下联树结构中根节点到每个叶节点的下联单链；

获取上联单链和下联单链所有的一对一组合，以主控节点作为连接点，将每个组合中的上联单链和下联单链连接为一个单链结构，将加权特征变量放入单链结构相应的节点中。

8.根据权利要求1所述的通信***设备故障预防的方法，其特征在于，所述将单链结构的样本放入第一孤立树的主干节点，通过第一孤立树识别异常样本点，具体包括：

将每个设备中所有单链结构的样本作为样本集合，在样本集合中取出一个样本，放入第一孤立树的主干节点中；

对第一孤立树进行训练，直至获取样本中加权特征变量的值孤立的样本，将获取的样本作为异常样本点；

当一个设备的样本集合中所有的样本都被取出时，将所有样本都放回该设备的样本集合中，重新取出样本对第一孤立树进行训练，直至无法继续切分或孤立树到达指定高度。

9.根据权利要求1所述的通信***设备故障预防的方法，其特征在于，所述将所有的异常样本点放入第二孤立树的主干节点，通过第二孤立树反向识别异常样本簇，具体包括：

将所有的异常样本点放入第二孤立树的主干节点，对第二孤立树进行迭代计算，根据迭代计算的结果剔除孤立的异常样本点；

将剩余的异常样本点进行聚类计算，根据聚类计算结果获取异常样本簇。

10.一种通信***设备故障预防的装置，其特征在于：

包括至少一个处理器和存储器，所述至少一个处理器和存储器之间通过数据总线连接，所述存储器存储能被所述至少一个处理器执行的指令，所述指令在被所述处理器执行后，用于完成权利要求1-9中任一项所述的通信***设备故障预防的方法。