CN115828140A

CN115828140A - 邻域互信息与随机森林相融合故障检测方法、***及应用

Info

Publication number: CN115828140A
Application number: CN202211602636.4A
Authority: CN
Inventors: 贾宝惠; 高源�; 李耀华; 温迪; 马金亮; 单泽众; 王若丁
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-03-21
Anticipated expiration: 2042-12-13
Also published as: CN115828140B

Abstract

本发明属于民机持续安全性分析管理技术领域，公开了邻域互信息与随机森林相融合故障检测方法、***及应用。首先基于传感器信号数据，构建加权复合评价指标，优化VMD模态分解参数，实现数据降噪，进行数据信号重构，构建高维特征数据集，利用NMI‑RF选择敏感且包含重要故障信息的特征子集，输入到在线贯序极限学习机进行故障诊断，最后应用美国凯斯西储大学深沟球轴承实验数据进行实例验证。本发明选用航空发动机基础的部件之一的滚动轴承作为研究对象，从而实现故障诊断。本发明通过分析诊断结果表明模型诊断方法可靠有效，本发明所采取的故障诊断技术对提高故障诊断以及排故效率具有重要意义。

Description

邻域互信息与随机森林相融合故障检测方法、***及应用

技术领域

本发明属于民机持续安全性分析管理技术领域，尤其涉及邻域互信息与随机森林相融合故障检测方法、***及应用。

背景技术

随着国产民机项目稳步发展，ARJ21已有多家航司开始运营，C919已经取得国内适航证并即将交付首批航司，CR929项目也有序推进，但适合于国产民机***设计理念的故障诊断技术尚未成熟，国外制造商提出的相关方法不能完全满足国产民机持续安全性需求，给国产民机运营安全管理工作带来了巨大挑战。

民机持续安全性分析管理建立在民机故障高效、快速、准确的基础之上，民机故障诊断技术是通过传感器对民机***运行状态和设备参数的监测，通过算法模型对监测数据进行分析处理，达到诊断设备故障的目的，以保障民机运行安全。伴随民机***的复杂化和人工智能的发展，单一的故障诊断知识库不能实现危险源高效、准确识别，无法满足民机全生命周期的安全性分析、控制与管理需要。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有技术采用的民机故障诊断方法可靠性差。

高可靠性和安全性的技术一直是我国民机需要突破的技术难题，现有的民用客机虽然已经具备较为完备的机载维修***，但只能局限于检测单一的故障，不检测***级故障，导致我国现有技术检测民机故障方法的可靠性差。

(2)现有技术采用的民机故障诊断方法准确率低。

故障诊断作为一种保障飞行安全的排故方法，应用于飞机的运营，维修等关键环节中，而现有的单一故障诊断方法没能从根本上提高民机整体的准确性，因此需要将单一的故障诊断方法向集合型的故障诊断方向转变，以提高方法的准确性。

目前故障诊断方法依据的原理主要分为两类：定性分析方法和定量分析方法，到目前为止，研究较为深入和广泛的定性分析方法主要有图论法、专家***和定性仿真。由于实际工程通常为复杂***，传统的基于定性及解析模型的方法，无法形成普遍的方法。本发明针对信号特征难以提取与挖掘故障对象关联有效信息的需求，结合信号分析处理和基于智能算法进行故障诊断的优势，以过程数据为研究对象，提取数据敏感的特征信息，从而实现故障诊断。

发明内容

为克服相关技术中存在的问题，本发明公开实施例提供了邻域互信息与随机森林相融合故障检测方法、***及应用。具体涉及一种基于参数优化VMD(Variational ModalDecomposition)的NMI-RF(Neighborhood Mutual Information-Random Forest)相融合故障诊断方法，即一种基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断方法。

所述技术方案如下：该邻域互信息与随机森林相融合故障检测方法，首先基于传感信号数据，构建加权复合评价指标，优化VMD(Variational Modal Decomposition)模态分解参数，实现数据降噪，进行数据信号重构，构建高维特征数据集，利用NMI-RF(Neighborhood Mutual Information-Random Forest)选择敏感且包含重要故障信息的特征子集，输入到在线贯序极限学习机进行故障诊断，最后应用美国凯斯西储大学深沟球轴承实验数据进行实例验证。

具体包括以下步骤：

S1、采用变分模态分解对传感器采集到的非线性、非平稳波形数据信号进行分析处理；

S2、提取特征参数，对原始信号序列去噪后，构造重构信号，分别提取原始信号和去噪信号的时域和频域特征，构建高维特征集合；

S3、通过reliefF算法计算属性重要度，根据步骤S2构建的特征集合，确定reliefF算法中最近邻样本个数，用k个最近邻距离的平均值进行权值迭代后赋予每维特征权重；

S4、通过MI算法计算属性相关性，将步骤S2的特征集合按照步骤S3所赋予的权重大小重新排序，设定互信息阈值，计算拟加入属性与约简集合中的其他属性互信息值，比较互信息值与阈值大小，衡量特征间冗余度；

S5、正域判定，根据步骤S4的属性相关性判断结果，通过特征属性划入正域样本大小作为判断标准，若拟加入属性使得划入正域样本增加，则选择该属性，进入步骤S6，若拟加入属性使得划入正域样本减少或无变动，则删除该特征属性；

S6、组合权重构建，采用随机森林算法基于分类器平均精确率减少作为评价指标，度量添加时域和频域特征扰动后每个特征对RF模型的影响程度，赋予特征重要性权重，并与步骤S5输出的特征属性权重相结合，构建组合权重；

S7、特征向量的选择，依据权重大小依次排列，重新得到特征矩阵，并逐渐递减特征维度，依次去除权重较小的特征向量，输入概率神经网络进行训练，获取不同特征子集分类准确率；

S8、确定OSELM网络参数，所述参数包括激活函数、隐含层个数以及故障样本的分配；

S9、OSELM网格训练与分类模型，基于ELM数学模型进入初始化阶段，求得隐含层权值0，进入在线顺序学习的阶段，通过批量添加调整单隐层神经网络的输出权重和训练完成的OSELM分类模型；

S10、故障诊断，基于划分的训练数据输入已训练完成的OSELM分类模型，并进行故障诊断结果分析。

步骤S1中，分析处理具体包括：采用线性组合的方式，利用方差贡献率将规划到同一尺度范围内的均方根误差RMSE和平滑度r两个评价指标定权处理，传感器采集到的非线性、非平稳波形数据信号分析处理表达式为：

式中，W_k为各个分量的方差累计贡献率、RMSE为均方根误差、r为平滑度。

步骤S2中，构建高维特征集合包括以下步骤：

S2.1、VMD分解：设定K的取值范围[2，10]，使VMD模型对信号进行分解，依次得到K个模态分量u_k；

S2.2、符合评价指标计算：将每一个分量与原始信号进行网格化处理，分别计算均方根误差RMSE和曲线平滑度r值；

S2.3、归一化处理：将均方根误差RMSE和曲线平滑度r值两个指标规划到同一尺度范围内，进行归一化处理；

S2.4、计算单个分量方差贡献：通过对信号分解的各IMF分量进行数据标准化处理，构造协方差矩阵，利用奇异值分解法对标准化后的数据矩阵进行线性变换，获得各IMF分量特征值，计算相对应的方差贡献率W_k；

S2.5、赋权：基于主成分降维思路，将每个分量的方差贡献率W_k作为权重，对归一化的符合评价指标赋权处理，得到第k个分量的加权复合评价指标值T_k；

S2.6、K值确定：依据权重最小值原则确定K值大小；

S2.7、评价：与粒子群、信息熵及合成峭度等确定变分模态分解参数K的方法进行重构信号误差比较；以及利用相关系数P和均方根误差RMSE分析去噪信号与原始信号的相似度和偏差程度；

S2.8、特征提取：将分解后的各IMF分量进行信号重构，与原始信号提取时频域特征指标，构建高维特征子集。

步骤S3中，所述通过reliefF算法计算属性重要度包括以下步骤：

S3.1、样本数据处理：在初始阶段，对提取的时域和频域特征集合，进行归一化处理；

S3.2、初始化相关参数：初始化约简集合red＝φ，邻域半径为δ，样本抽样次数为N，最近邻样本个数为K，互信息阈值为γ；

S3.3、样本抽样：假设包括f个特征的原始特征矩阵P＝[x₁,x₂,…,x_p]，从中划分训练数据矩阵D，包含n个样本，随机选择一个样本M＝[x_m1,x_m2,…,x_mf]，样本抽样迭代N次；

S3.4、选择最近邻样本：分别计算抽样样本M和相同类别与不同类别数据集的欧式距离，从中寻找最邻近距离样本L＝[x_l1,x_l2,…,x_ln]和H＝[x_h1,x_h2,…,x_hn]；其中欧式距离计算公式如下：

S3.5、更新特征系数权值：置零所有权重系数，按照以下规则进行相关特征权重的更新：基于某个同样特征，分别计算抽样样本M和距离样本L和距离样本H之间的欧式距离，记为ED_L和ED_H，通过比较ED_L和ED_H之间的大小来赋予各个特征权重，若D_L＞ED_H，该特征属性同类别样本欧式距离大于异类别样本欧式距离，降低该特征的权重；若ED_L＜ED_H，该特征属性同类别样本欧式距离小雨异类别样本欧式距离，增加该特征的权重；

完成N次抽样后，根据公式得到个特征的平均权重系数W，公式如下：

式中，W(x)_i的初始值为零，表示第x个特征在第i次迭代时的特征权重，m表示最大迭代总次数，k表示最近邻欧式距离个数，p(C)表示第C类样本所占总样本的比例，p(class(R))表示与样本R相同类别样本数所占总样本的比例，M_j(C)表示C类中与R不同类的第k个最近邻样本，用diff(x,R₁,R₂)衡量两样本之间的相似程度，表示为R₁、R₂在特征x上的距离，具体计算公式如下：

步骤S4中，通过MI算法计算属性相关性包括以下步骤：

S4.1、特征排序：将特征集合按照权重大小将原始特征进行重新排列；

S4.2、互信息判断：根据公式一次计算拟加入条件属性与约简集合属性全部互信息值I(X；Y)，公式如下：

若拟加入条件属性a_k与约简集合特征互信息值都小于阈值γ，则转入步骤S5，反正删除改属性。

步骤S5中：若条件属性加入后正域样本增加，则加入约简集合red，反之删除改属性；遍历所有条件属性，直至所有样本加入正域；输出初始约简集合red_j及其特征重要度W(A_j)(j＝1,2,…,n)；

步骤S6中：采用Bootstrap采样的方式为每颗决策树抽样产生训练集，构建RF模型，通过添加噪声干扰，基于OOBdata袋外数据计算误差值，度量约简集合特征red_j对模型准确率的影响，根据公式：

赋予特征权重W(B_j)；式中，errOOB1表示添加噪声前的袋外数据误差，errOOB2表示添加噪声后的袋外数据误差；根据公式：

构建组合权重W_j，并按照权重大小对初始约简集合特征red_j重新排序。

步骤S7中：使用序列后向选择方法从特征全集开始搜索，利用概率神经网络PNN比较不同特征数目对分类准确率的影响，选择最优特征子集red_x(x＝1,2,…,m,m＜n)；

步骤S8中：有N₀个任意训练样本(X_i,t_i)∈Rⁿ×R^m，其中X_i＝[x_i1,x_i2,…,x_in]^T为学习模型的输入值，t_i＝[t_i1,t_i2,…,t_in]^T为学习模型的期望输出，利用ELM数学模型，求得使满足||H₀β-T₀||的最小值β₀，其中

式中，g(·)表示为隐含层的激活函数，a_i表示为隐层权值，b_i表示为隐含层的偏差；接着采用最小二乘法和广义逆的思想，求出隐含层权值β₀为：

步骤S9中：基于求得隐含层权值β₀，进入在线学习阶段，更新模型输入数据矩阵，由在线学习的递推公式可得输出权重β，公式如下：

本发明的另一目的在于提供一种实现所述邻域互信息与随机森林相融合故障检测方法的邻域互信息与随机森林相融合故障检测***，该邻域互信息与随机森林相融合故障检测***包括：

分析处理模块，用于采用变分模态分解对传感器采集到的非线性、非平稳波形数据信号进行分析处理；

高维特征集合构建模块，用于特征参数的提取，对原始信号序列去噪后，构造重构信号构建高维特征集合；

属性重要度计算模块，用于reliefF计算属性重要度，根据构建的特征向量，确定reliefF最近邻样本个数，用k个最近邻距离的平均值进行权值迭代后赋予每维特征权重；

属性相关性计算模块，用于MI计算属性相关性，将原始特征集合按照权重大小重新排序，设定互信息阈值，计算拟加入属性与约简集合中的其他属性互信息值，比较互信息值与阈值大小，衡量特征间冗余度；

正域判定模块，用于根据特征属性相关性判断结果，进行正域判定；

组合权重构建模块，用于采用随机森林算法基于分类器平均精确率减少作为评价指标，直接度量添加特征扰动后每个特征对模型准确率的影响程度，赋予特征重要性权重，并与输出的特征属性权重相结合，构建组合权重；

特征向量的选择模块，用于依据权重大小依次排列，重新得到特征矩阵，并逐渐递减特征维度，依次去除权重较小的特征向量，输入概率神经网络进行训练，获取不同特征子集分类准确率；

OSELM网络参数确定模块，用于在OSELM网络训练前，参数确定主要涉及激活函数、隐含层个数以及故障样本的分配；

OSELM网格训练模块，用于基于ELM数学模型进入初始化阶段，求得隐含层权值0，进入在线顺序学习的阶段，通过批量添加调整单隐层神经网络的输出权重；

故障诊断模块，用于基于划分的训练数据输入已训练完成的OSELM分类模型，对故障诊断结果分析。

本发明的另一目的在于提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行所述邻域互信息与随机森林相融合故障检测方法。

本发明的另一目的在于提供一种航空发动机基础部件滚动轴承故障检测实验台，利用所述邻域互信息与随机森林相融合故障检测方法进行故障诊断。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果，具体描述如下：

本发明针对民机运行过程中时刻产生反映过程运行机理和状态的海量数据，提出一种结合信号分析处理和智能算法的故障诊断模型。具体步骤如下：首先基于故障信号数据，构建加权复合评价指标优化VMD模态分解参数，去除噪声干扰，进行信号重构，构建高维特征集，利用NMI-RF选择敏感且包含重要故障信息的特征子集，输入到在线贯序极限学习机进行故障诊断，最后应用美国凯斯西储大学深沟球轴承实验数据以及飞机液压***仿真数据进行实例验证。

第二、把技术方案看作一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明建立了基于参数优化的VMD的NMI-RF的OSELM故障诊断方法。基于美试验台采集滚动轴承振动实验数据进行验证，首先基于参数优化VMD对信号进行降噪，提取重构和原始信号时域和频域特征集合，通过基于relief F的NMI-RF特征选择方法选择最优特征向量，输入OSELM模型进行故障诊断，通过分析诊断结果表明模型诊断方法可靠有效，与其他方法的故障识别对比如图16所示。

本发明选用航空发动机基础的部件之一的滚动轴承作为研究对象，从而实现故障诊断。在完成参数优化VMD的信号降噪之后，提取重构和原始信号时域和频域特征集合，并通过基于reliefF的NMI-RF特征选择方法选择最优特征向量，最后输入OSELM模型进行故障诊断，通过分析诊断结果表明模型诊断方法可靠有效，本发明所采取的故障诊断技术对提高故障诊断以及排故效率具有重要意义。

本发明提供的OSELM算法是在线贯序极限学习机是在极限学习机基础上进行改进，克服了梯度下降算法需要多次迭代求解以及极限学习机采用批学习策略只能进行一次学习的缺点，可通过逐个或逐块数据的批量添加，实现快速故障诊断。本实例包括以下步骤：

本发明由于从航空发动机上直接获取故障轴承的振动数据难度较大、成本较高。本发明应用美国凯斯西储大学深沟球轴承试验数据进行验证本发明提出的故障诊断方法的可靠有效性。

第三、作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

(1)本发明的技术方案可以应用于航空公司的维修工作中；

(2)本发明的故障诊断方法能解决目前现有的方法所不能解决的复杂运行数据的识别分析需求；

(3)本发明基于粗糙集理论，利用ReliefF算法重新定义属性重要度的计算，构建组合权重，找到包含敏感且包含重要故障信息的特征子集；

(4)本发明将单一性的故障诊断方法转变为集合性的故障诊断方法；

(5)本发明的故障诊断方法经分析诊断结果表明该模型诊断方法可靠有效。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理；

图1是本发明实施例提供的邻域互信息与随机森林相融合故障检测方法流程图；

图2是本发明实施例提供的数据采集实验平台示意图；

图3是本发明实施例提供的不同方法确定参数下的VMD分解后的IMF分量重构信号与原始信号波形图一；

图4是本发明实施例提供的不同方法确定参数下的VMD分解后的IMF分量重构信号与原始信号波形图二；

图5是本发明实施例提供的基于加权复合评价准则获得的重构信号误差相对与另外两个准则曲线图一；

图6是本发明实施例提供的基于加权复合评价准则获得的重构信号误差相对与另外两个准则曲线图二；

图7是本发明实施例提供的reiefF迭代权重图；

图8是本发明实施例提供的relief F权重均值、RF权重以及组合权重图；

图9是本发明实施例提供的在不同特征维度下PNN分类准确度的大小，来确定最优特征子集，实验结果图；

图10是本发明实施例提供的样本比例3：1时故障识别率随OSELM隐含层神经元数量的变化图；

图11是本发明实施例提供的不同故障样本比例下，hardlim()激活函数的分类识别精度图一；

图12是本发明实施例提供的不同故障样本比例下，hardlim()激活函数的分类识别精度图二；

图13是本发明实施例提供的在样本比例下模型不同运行状态的故障识别对比结果图一；

图14是本发明实施例提供的在样本比例下模型不同运行状态的故障识别对比结果图二；

图15是本发明实施例提供的在样本比例下模型不同运行状态的故障识别对比结果图三；

图16是本发明实施例提供的同样本比例下模型的故障识别对比结果图；

图17是本发明实施例提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断***示意图；

图中：1、分析处理模块；2、高维特征集合构建模块；3、属性重要度计算模块；4、属性相关性计算模块；5、正域判定模块；6、组合权重构建模块；7、特征向量的选择模块；8、OSELM网络参数确定模块；9、OSELM网格训练模块；10、故障诊断模块；11、电机；12、检测轴承；13、传感器；14、信号处理终端。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

一、解释说明实施例：

实施例1

本发明实施例提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断方法包括以下步骤：

S1、采用变分模态分解对传感器13采集到的非线性、非平稳波形数据信号进行分析处理；

S2、特征参数的提取，对原始信号序列去噪后，构造重构信号，分别提取原始信号和去噪信号的时域和频域特征，构建高维特征集合；

S3、reliefF计算属性重要度，根据步骤S2构建的特征向量，确定reliefF最近邻样本个数，用k个最近邻距离的平均值进行权值迭代后赋予每维特征权重；

S4、MI计算属性相关性，将步骤S2的原始特征集合按照步骤S3所赋予的权重大小重新排序，设定互信息阈值，计算拟加入属性与约简集合中的其他属性互信息值，比较互信息值与阈值大小，衡量特征间冗余度；

S8、OSELM网络参数确定，所述参数确定包括激活函数、隐含层个数以及故障样本的分配；

实施例2

基于实施例1提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断方法，进一步地，步骤S1中，由于模态分量参数难以确定，采用主成分降维思想，利用方差贡献率构建加权复合评价指标，使得变分模态分解利用约束模型寻找最优解实现信号分解。

选取均方根误差(RMSE)、互相关系数(R)两个参数进行指标定权处理。

均方根误差(RMSE)描述了去噪后的估计信号与原始信号的整体偏差程度信息，其值越小表示去噪效果越好，其公式为：

互相关系数(R)体现了去噪信号与原始信号的拟合程度，其值越大，越接近1，去噪效果越好，其公式为：

由于均方根误差和平滑度变化趋势和基数不一样，需将其划分到同一尺度范围能进行定权处理，使其能够定量表达。利用主成分降维思想，对各分解IMF分量进行类似降维处理。

假设原始信号x(t)分解k个IMF分量，每个分量数据样本为n个，样本数据集矩阵可表示为：

对数据进行标准化处理，公式为：

其中

var(x_j)分别表示每列数据的平均值和标准差。

通过计算得到K个分量的相似矩阵R

求出矩阵特征值λ，得到各个分量的方差累积贡献率W_k：

采用线性组合的方式，利用方差贡献率将规划到同一尺度范围内的均方根误差RMSE和平滑度r两个评价指标定权处理：

实施例3

基于实施例1提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断方法，进一步地，步骤S2包含以下步骤：

S2.1、VMD分解：设定K的取值范围[2，10]，使VMD模型对信号进行分解，依次得到K个模态分量uk；

S2.3、归一化处理：将RMSE和r两个指标规划到同一尺度范围内，进行归一化处理；

S2.4、计算个分量方差贡献：通过对信号分解的各IMF分量进行数据标准化处理，构造协方差矩阵，利用奇异值分解法对标准化后的数据矩阵进行线性变换，由此获得各IMF分量特征值，计算相对应的方差贡献率W_k；

S2.6、K值确定：依据权重最小值原则确定K值大小；

S2.7、评价：主要从两个角度评价参数优化VMD确定模态分量参数k的效果。一是与粒子群、信息熵及合成峭度等确定变分模态分解参数K的方法进行重构信号误差比较；二是利用相关系数P和均方根误差RMSE分析去噪信号与原始信号的相似度和偏差程度，定量化的说明去噪精度；

实施例4

基于实施例1提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断方法，进一步地，步骤S3包括以下步骤：

S3.2、初始化相关参数：初始化约简集合red＝φ，邻域半径δ，样本抽样次数N，最近邻样本个数K，互信息阈值γ；

S3.4、选择最近邻样本：分别计算抽样样本M和相同类别与不同类别数据集的欧式距离，从中寻找最邻近距离样本L＝[x_l1,x_l2,…,x_ln]和H＝[x_h1,x_h2,…,x_hn]。其中欧式距离计算公式如下：

S3.5、更新特征系数权值：置零所有权重系数，按照以下规则进行相关特征权重的更新：基于某个同样特征，分别计算抽样样M和样本L和H之间的欧式距离，记为ED_L和ED_H，通过比较ED_L和ED_H之间的大小来赋予各个特征权重，若D_L＞ED_H，即该特征属性同类别样本欧式距离大于异类别样本欧式距离，说明该特征属性区分不同类别效果差，对于增加类别识别率具有很弱的影响效果，需降低该特征的权重。

若ED_L＜ED_H，即该特征属性同类别样本欧式距离小雨异类别样本欧式距离，说明该特征属性区分不同类别的效果好，对于增加类别识别率具有很强的影响效果，需要增加该特征的权重。完成N次抽样后，特征权重趋于稳定，变化幅度减弱，根据公式得到个特征的平均权重系数W。公式如下：

式中，W(x)_i初始值为零，表示第x个特征在第i次迭代时的特征权重，m表示最大迭代总次数，k表示最近邻欧式距离个数，p(C)表示第C类样本所占总样本的比例，p(class(R))表示与样本R相同类别样本数所占总样本的比例，M_j(C)表示C类中与R不同类的第k个最近邻样本，用diff(x,R₁,R₂)这个参数来衡量两样本之间的相似程度，表示为R₁、R₂在特征x上的距离。具体计算公式如下：

实施例5

基于实施例1提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断方法，进一步地，步骤S4包含以下步骤：

S4.2、互信息判断：根据公式一次计算拟加入条件属性与约简集合属性全部互信息值I(X；Y)。公式如下：

实施例6

基于实施例1提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断方法，进一步地，步骤S5中：若条件属性加入后正域样本增加，则加入约简集合red，反之删除改属性。遍历所有条件属性，直至所有样本加入正域。输出初始约简集合red_j及其特征重要度W(A_j)(j＝1,2,…,n)。

实施例7

基于实施例1提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断方法，进一步地，步骤S6中：采用Bootstrap采样的方式为每颗决策树抽样产生训练集，构建RF模型，通过添加噪声干扰，基于OOBdata袋外数据计算误差值，度量约简集合特征rsd_j对模型准确率的影响，根据公式

赋予特征权重W(B_j)。式中：errOOB1-添加噪声前的袋外数据误差，errOOB2-添加噪声后的袋外数据误差。根据公式：

实施例8

基于实施例1提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断方法，进一步地，步骤S7中：使用序列后向选择方法(SBS)从特征全集开始搜索，利用概率神经网络PNN比较不同特征数目对分类准确率的影响，选择最优特征子集red_x(x＝1,2,…,m,m＜n)。

实施例9

基于实施例1提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断方法，进一步地，步骤S8中：假设有N₀个任意训练样本(X_i,t_i)∈Rⁿ×R^m，其中X_i＝[x_i1,x_i2,…,x_in]^T为学习模型的输入值，t_i＝[t_i1,t_i2,…,t_in]^T为学习模型的期望输出，利用ELM数学模型，求得使满足||H₀β-T₀||的最小值β₀，其中：

式中，g(·)表示为隐含层的激活函数，a_i表示为隐层权值，b_i表示为隐含层的偏差。接着采用最小二乘法和广义逆的思想，求出隐含层权值β₀为：

实施例10

基于实施例1提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断方法，进一步地，步骤S9中：基于步骤S8求得隐含层权值β₀，进入在线学习阶段，更新模型输入数据矩阵，由在线学习的递推公式可得输出权重β，公式如下：

OS-ELM故障诊断模型需要对一些参数进行人为的选择，不同参数的选取会对诊断精度和算法性能产生影响。不同的激活函数、隐含层个数以及故障样本的分配会因其导数数值变化范围不同而对网络权值修正量的大小产生影响，从而引发了网络收敛速度的不同。常用的隐含层激活函数有：

(1)sigmoid()函数：

(2)rbf()函数：f(a,b,x)＝e^((-b)||x-a||^2))；

(3)sin()函数：f(a,b,x)＝sin(ax+b)。

实施例11

基于实施例1提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断方法，进一步地，步骤S10中：基于划分的训练数据输入已训练完成的OSELM分类模型，对其故障诊断结果分析。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

上述装置/单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程。

二、应用实施例：

应用例1

本发明实施例为航空发动机中的滚动轴承的故障诊断其具体步骤包括：

步骤S101：采用变分模态分解对传感器13采集到的非线性、非平稳波形数据信号进行分析处理。数据采集实验平台如下图2所示。

所述数据采集实验平台包括：电机11，用于对检测轴承12提供运动速度；

检测轴承12，用于提供不同故障程度和不同类型的轴承工况的数据样本；

传感器13，用于采集检测轴承12运动时产生的非线性、非平稳波形数据信号；

信号处理终端14，用于对产生的非线性、非平稳波形数据信号进行分析处理。

更具体的主要利用驱动端SKF6205故障轴承的振动数据进行研究，其参数如表1所示。

表1

由于模态分量参数难以确定，采用主成分降维思想，利用方差贡献率构建加权复合评价指标，使得变分模态分解利用约束模型寻找最优解实现信号分解。

示例性的，本发明实施例以电机0hp负荷、1797rpm转速以及点蚀位置为时钟6点钟方向采集的轴承信号，建立10个不同故障程度和类型的轴承工况的数据样本，使用每组信号前81920点平均分为40个样本，如表2所示。

表2

步骤S 102：基于参数优化的VMD的特征向量构建：

更具体的首先是VMD降噪：由于设备运行噪声的干扰，通过传感器13获得的信号包含大量冗余信号，所以为了实现信号降噪，以滚动轴承故障数据作为输入，进行VMD分解；

分解参数K的确定：若模态分量K值过小，则序列不完全分解，会滤除原始信号的重要特征信息，K值过大，则序列过度分解，造成模态混叠，影响故障诊断率，因此需合理设定K值；

示例性的，以外圈故障信号F4为例，进行VMD模型分解，初始化K＝2，设定K的搜索范围为[2，10]，得到不同参数K的系列分量BIMF，根据公式(1)和公式(2)计算不同K情况下各分量的均方根误差RMSE和平滑度r指标如表3和表4所示。

对表3和表4中数据进一步采用方差贡献率对归一化的两个指标进行赋权处理，结果如表5所示。

表3

表4

在本发明实施例中，根据权重最小值准则，将K＝7时VMD分解的IMF模态分量重构信号进行时频域特征提取，构建高维多域特征集；

为验证此方法的适用性和有效性，在轴承故障信号中选用滚珠体故障信号F3进行分析，并与其他确定VMD参数方法进行对比。

得到的不同方法确定参数下的VMD分解后的IMF分量重构信号与原始信号波形图如图3和图4所示。误差曲线图如图5和图6所示。

从图3和图4可以看出，三种准则下的重构信号与原始信号波形非常接近，没有看出明显的差异性。

从图5和图6可以看出，基于加权复合评价准则获得的重构信号误差相对与另外两个准则较小。

为了定量说明三种准则下的去噪精度，利用相关系数P和均方根误差RMSE分析重构信号与原始信号的相似度和偏差程度来说明此方法的去噪效果。

结果由表6可知在外圈故障和滚动体故障数据中，3种准则下，加权复合评价指标相关系数P值最高，RMSE最低。

由传统单一评价指标变化趋势特征及物理意义可知，相关系数值越大和均方根误差越小，说明去噪效果越好。

由此验证了此方法确定模态分解参数的可靠性。

表6

步骤S 103：基于reliefF属性重要度的NMI-RF特征选择：

基于10个不同故障程度和类型的轴承工况的数据样本，经变分模态分解降噪后，构建高维多域特征集r^400*58；进行归一化处理，然后采用基于reliefF属性重要度的NMI-RF特征选择方法对每个特征进行评估筛选，并选择故障敏感特征子集，以提高轴承故障诊断精度。

具体步骤为：互信息阈值选取计算属性间互信息时，需设定合理的互信息阈值γ，不同的γ会有不同的约简结果，直接影响模型故障类别识别精度。

如表7记录了不同阈值下的约简结果及分类精度。

对比表7可知，约简特征数目随着互信息阈值γ的增大而逐渐增加，且模型故障类别识别精度先增加后减少。

当阈值为0.8和0.81时，由于判断拟加入属性对约简集合中属性重要度较大的属性特征依赖度条件过于严苛，特征维度偏低且分类精度不高。

当阈值为0.84时分类精度最大，约简特征数目为11。因此，本文算法互信息阈值设定为0.84。

基于reliefF属性重要度的NMI约简后的特征集合及其特征权重，利用随机森林度量初始约简集合特征对模型准确率的影响赋予的特征权重，构建组合权重，根据权重大小重新排列不同的特征顺序。

reiefF迭代权重如图7所示，relief F权重均值、RF权重以及组合权重如图8所示。

由组合权重得出特征排序后，需进行进一步地特征筛选。

为了选择合适的特征数目K，依次删除特征属性以降低特征维度来作为PNN神经网络模型输入向量，进行分类训练。

分析在不同特征维度下PNN分类准确度的大小，来确定最优特征子集，实验结果如图9所示。

从图9可以看出，经组合权重reliefF-RF再次筛选特征数目为9时，分类精度达到最高，且高于RF和relief F单一权重获得最优特征子集的分类精度。

说明了基于Relief F属性重要度的NMI-RF特征选择算法相比单一特征选择算法在输入特征更少的基础上获取更高的分类精度。

表7

步骤S104：OSELM网络参数的确定：

OS-ELM算法的学习过程主要分为两部分：初始阶段和在线学习阶段；

示例性的，初始阶段中，假设有N₀个任意训练样本(X_i，t_i)∈Rⁿ×R^m，其中，X_i＝[x_i1，x_i2，x_i3...x_in]^T为学习模型的输入值，t_i＝[t_i1，t_i2，t_i3...t_in]^T为学习模型的期望输出，利用ELM数学模型，求得使满足||H₀β-T₀||的最小值β₀；

示例性的，在线学习阶段，更新模型输入数据矩阵，由在线学习的递推公式可得输出权重β；

OS-ELM故障诊断模型需要对一些参数进行人为的选择，不同参数的选取会对诊断精度和算法性能产生影响；

不同的激活函数、隐含层个数以及故障样本的分配会因其导数数值变化范围不同而对网络权值修正量的大小产生影响，从而引发了网络收敛速度的不同；

常用的隐含层激活函数有：

sigmoid()函数：

rbf()函数：

sin()函数：f(a,b,x)＝sin(ax+b)；

Hardlim()函数：

具体步骤：构建判断矩阵，基于三层网络结构的在线贯序极限学习机网络建立轴承故障诊断模型；

其中输入层神经元个数为9个时域和频域最优特征参量；

输出神经元由于包含10个运行状态，因此设置为10；

每种运行状态对应输出神经元输出结果的处理方式如下表8所示；

表8

设定OSELM模型参数基于最优特征子集作为OSELM网络模型输入向量R^400*9；

基于不同样本比例3：1、1：1、1：3时，分析sig()、hardlim()、sin()、rbf()函数随着神经元数目的增加OSELM故障识别率的变化趋势；

其样本比例3：1时故障识别率随OSELM隐含层神经元数量的变化如图10所示；

其样本比例1：1时故障识别率随OSELM隐含层神经元数量的变化如图11所示；

其样本比例1：3时故障识别率随OSELM隐含层神经元数量的变化如图12所示；

从图10至图12可知，在不同故障样本比例下，hardlim()激活函数的分类识别精度呈现出先增大后趋于在一数值下上下波动的趋势；

在sig()、sin()、rbf()三种激活函数下，OSELM网络识别准确率下降波动区间随着样本比例的增加逐渐向右移动；

当样本比例3：1时，sig()、sin()、rbf()函数的诊断准确率在OSELM网络神经元数量为[0，180]区间时，其类别识别精度先增大后缓慢减小；

示例性的，当神经元数量大于180时，网络准确率突然下降后逐渐增加且增加幅度较低；

当样本比例1：1时，sig()、sin()、rbf()函数在OSELM网络神经元数量为[0，80]区间时，其类别识别精度先增大后缓慢减小；

神经元数量在[80，100]区间时，网络准确率突然下降且下降幅度大于样本比例为1：1和3：1时的识别率；

示例性的，当神经元数目大于100时，网络准确率逐渐增加且趋于平稳；

当样本比例1：3时，sig()、sin()、rbf()函数在OS-ELM网络神经元数量在[0，80]区间时，其类别识别精度先增大后缓慢减；

经过轴承故障数据分析，OS-ELM网络各参数设置为：N0：BLOCK＝3：1，n HiddenNeurons＝50，Activation Function＝’rbf’时，OSELM故障准确率最高；

示例性的，诊断结果分析：为验证OS-ELM故障诊断方法的稳定有效性，与其他常见诊断网络模型(如PNN、GRNN)进行对比分析，输入数据均采用NMI-RF约简后的数据；

基于滚动轴承数据，来验证OSELM、GRNN、PNN三种网络模型在样本比例为3：1，1：1，1：3情况下，不同类别运行状态及模型整体故障识别率的变化情况；

表9表示为在不同样本比例下网络模型整体故障识别率的变化情况；

表9

图13至图15表示为在样本比例下模型不同运行状态的故障识别对比结果；

图16表示为不同样本比例下模型的故障识别对比结果；

从图13至图16可知，从类别的错误率而言，三种网络下F诊断准确率最低，且随着样本比例的减小而准确率有所下降；

从样本比例而言，在三种样本比例下PNN、GRNN、OSELM三种网络模型下，F1、F2、F4、F5、F8、F10故障诊断率都能保持在90％以上；

PNN神经网络其总体准确率基本不变，而类别F6和F7的准确率均有所下降；

从网络模型整体准确率而言，GRNN神经网络在三种样本比例下故障诊断准确率最低；

OSELM网络相较于GRNN、PNN网络模型而言，诊断准确率最高，模型诊断准确率均能达到0.96及以上；

说明了在三种样本比例下，OSELM网络模型相较于GRNN、PNN网络模型，具有稳定有效性；

如上所示，本发明实施例建立了基于参数优化的VMD的NMI-RF的OSELM故障诊断方法。基于美试验台采集滚动轴承振动实验数据进行验证，首先基于参数优化VMD对信号进行降噪，提取重构和原始信号时域和频域特征集合，通过基于relief F的NMI-RF特征选择方法选择最优特征向量，输入OSELM模型进行故障诊断，通过分析诊断结果表明模型诊断方法可靠有效。

应用例2

本发明实施例还提供了一种计算机设备，该计算机设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

应用例3

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

应用例4

本发明实施例还提供了一种信息数据处理终端，所述信息数据处理终端用于实现于电子装置上执行时，提供用户输入接口以实施如上述各方法实施例中的步骤，所述信息数据处理终端不限于手机、电脑、交换机。

应用例5

本发明实施例还提供了一种服务器，所述服务器用于实现于电子装置上执行时，提供用户输入接口以实施如上述各方法实施例中的步骤。

应用例6

本发明实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时可实现上述各个方法实施例中的步骤。

应用例7

如图17所示，本发明实施例提供的基于参数优化变分模态分解的邻域互信息与随机森林相融合故障诊断***包括：

分析处理模块1，用于采用变分模态分解对传感器13采集到的非线性、非平稳波形数据信号进行分析处理；

高维特征集合构建模块2，用于特征参数的提取，对原始信号序列去噪后，构造重构信号构建高维特征集合；

属性重要度计算模块3，用于reliefF计算属性重要度，根据构建的特征向量，确定reliefF最近邻样本个数，用k个最近邻距离的平均值进行权值迭代后赋予每维特征权重；

属性相关性计算模块4，用于MI计算属性相关性，将原始特征集合按照权重大小重新排序，设定互信息阈值，计算拟加入属性与约简集合中的其他属性互信息值，比较互信息值与阈值大小，来衡量特征间冗余度；

正域判定模块5，用于根据特征属性相关性判断结果，进行正域判定；

组合权重构建模块6，用于采用随机森林算法基于分类器平均精确率减少作为评价指标，直接度量添加特征扰动后每个特征对模型准确率的影响程度，赋予特征重要性权重，并与输出的特征属性权重相结合，构建组合权重；

特征向量的选择模块7，用于依据权重大小依次排列，重新得到特征矩阵，并逐渐递减特征维度，依次去除权重较小的特征向量，输入概率神经网络进行训练，来获取不同特征子集分类准确率；

OSELM网络参数确定模块8，用于在OSELM网络训练前，参数确定主要涉及激活函数、隐含层个数以及故障样本的分配；

OSELM网格训练模块9，用于基于ELM数学模型进入初始化阶段，求得隐含层权值0，进入在线顺序学习的阶段，通过批量添加调整单隐层神经网络的输出权重；

故障诊断模块10，用于基于划分的训练数据输入已训练完成的OSELM分类模型，对其故障诊断结果分析。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

以上所述，仅为本发明较优的具体的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种邻域互信息与随机森林相融合故障检测方法，其特征在于，该方法基于故障信号数据，构建加权复合评价指标优化VMD模态分解参数，去除噪声干扰，进行信号重构，构建高维特征集，利用NMI-RF选择包含故障信息的特征子集，输入到在线贯序极限学习机进行故障诊断；具体包括以下步骤：

S1、采用变分模态分解对传感器(13)采集到的非线性、非平稳波形数据信号进行分析处理；

S2、提取特征参数，对原始信号序列去噪后，构造重构信号，分别提取原始信号和去噪信号的时域特征和频域特征，构建高维特征集合；

S4、通过MI算法计算属性相关性，将步骤S2中的特征集合按照步骤S3所赋予的权重大小重新排序，设定互信息阈值，计算拟加入属性与约简集合中的属性互信息值，比较互信息值与阈值大小，衡量特征间冗余度；

S5、正域判定，根据步骤S4的属性相关性判断结果，通过特征属性划入正域样本大小作为判断标准，若拟加入属性使得划入正域样本增加，则选择拟加入的属性，进入步骤S6，若拟加入属性使得划入正域样本减少或无变动，则删除拟加入的属性；

S6、组合权重构建，采用随机森林算法，基于分类器平均精确率减少作为评价指标，度量添加时域特征和频域特征，扰动后每个特征对RF模型的影响程度，赋予特征重要性权重，并与步骤S5输出的特征属性权重相结合，构建组合权重；

2.根据权利要求1所述的邻域互信息与随机森林相融合故障检测方法，其特征在于，步骤S1中，分析处理具体包括：采用线性组合的方式，利用方差贡献率将规划到同一尺度范围内的均方根误差RMSE和平滑度r两个评价指标定权处理，传感器(13)采集到的非线性、非平稳波形数据信号分析处理表达式为：

3.根据权利要求1所述的邻域互信息与随机森林相融合故障检测方法，其特征在于，步骤S2中，构建高维特征集合包括以下步骤：

S2.6、K值确定：依据权重最小值原则确定K值大小；

4.根据权利要求1所述的邻域互信息与随机森林相融合故障检测方法，其特征在于，步骤S3中，所述通过reliefF算法计算属性重要度包括以下步骤：

S3.3、样本抽样：样本数据包括f个特征的原始特征矩阵P＝[x₁,x₂,…,x_p]，从中划分训练数据矩阵D，包含n个样本，随机选择一个样本M＝[x_m1,x_m2,…,x_mf]，样本抽样迭代N次；

式中：x_i为样本数据的原始特征；y_i为抽样样本数据的原始特征；

5.根据权利要求1所述的邻域互信息与随机森林相融合故障检测方法，其特征在于，步骤S4中，通过MI算法计算属性相关性包括以下步骤：

6.根据权利要求1所述的邻域互信息与随机森林相融合故障检测方法，其特征在于，步骤S5中：若条件属性加入后正域样本增加，则加入约简集合red，反之删除改属性；遍历所有条件属性，直至所有样本加入正域；输出初始约简集合red_j及其特征重要度W(A_j)(j＝1,2,…,n)；

构建组合权重W_j，并按照权重大小对初始约简集合特征red_j重新排序；

7.根据权利要求6所述的邻域互信息与随机森林相融合故障检测方法，其特征在于，步骤S9中：基于求得隐含层权值β₀，进入在线学习阶段，更新模型输入数据矩阵，由在线学习的递推公式可得输出权重β，公式如下：

8.一种实现如权利要求1-7任意一项所述邻域互信息与随机森林相融合故障检测方法的邻域互信息与随机森林相融合故障检测***，其特征在于，该邻域互信息与随机森林相融合故障检测***包括：

分析处理模块(1)，用于采用变分模态分解对传感器(13)采集到的非线性、非平稳波形数据信号进行分析处理；

高维特征集合构建模块(2)，用于特征参数的提取，对原始信号序列去噪后，构造重构信号构建高维特征集合；

属性重要度计算模块(3)，用于reliefF计算属性重要度，根据构建的特征向量，确定reliefF最近邻样本个数，用k个最近邻距离的平均值进行权值迭代后赋予每维特征权重；

属性相关性计算模块(4)，用于MI计算属性相关性，将原始特征集合按照权重大小重新排序，设定互信息阈值，计算拟加入属性与约简集合中的其他属性互信息值，比较互信息值与阈值大小，衡量特征间冗余度；

正域判定模块(5)，用于根据特征属性相关性判断结果，进行正域判定；

组合权重构建模块(6)，用于采用随机森林算法基于分类器平均精确率减少作为评价指标，直接度量添加特征扰动后每个特征对模型准确率的影响程度，赋予特征重要性权重，并与输出的特征属性权重相结合，构建组合权重；

特征向量的选择模块(7)，用于依据权重大小依次排列，重新得到特征矩阵，并逐渐递减特征维度，依次去除权重较小的特征向量，输入概率神经网络进行训练，获取不同特征子集分类准确率；

OSELM网络参数确定模块(8)，用于在OSELM网络训练前，参数确定主要涉及激活函数、隐含层个数以及故障样本的分配；

OSELM网格训练模块(9)，用于基于ELM数学模型进入初始化阶段，求得隐含层权值0，进入在线顺序学习的阶段，通过批量添加调整单隐层神经网络的输出权重；

故障诊断模块(10)，用于基于划分的训练数据输入已训练完成的OSELM分类模型，对故障诊断结果分析。

9.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求1-7任意一项所述邻域互信息与随机森林相融合故障检测方法。

10.一种航空发动机基础部件滚动轴承故障检测实验台，利用权利要求1-7任意一项所述邻域互信息与随机森林相融合故障检测方法进行故障诊断。