CN106845526B

CN106845526B - 一种基于大数据融合聚类分析的关联参数故障分类方法

Info

Publication number: CN106845526B
Application number: CN201611247433.2A
Authority: CN
Inventors: 董云帆; 房红征; 樊焕贞; 高健; 熊毅; 李蕊
Original assignee: Beijing Aerospace Measurement and Control Technology Co Ltd
Current assignee: Beijing Aerospace Measurement and Control Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2019-12-03
Anticipated expiration: 2036-12-29
Also published as: CN106845526A

Abstract

本发明提供的一种基于大数据融合聚类分析的关联参数故障分类方法，本发明的故障分类方法从装备运行的海量数据中，根据判读规则挑选故障数据，并进行有监督的机器自主聚类，形成关联参数故障自动分类结果，能够解决目前装备故障诊断过度依赖专家知识库，而忽略了各子***间深度非线性耦合的参数之间的关联关系的问题，以及实际装备型号运行中海量有效数据没有获得很好的挖掘利用的问题；同时，由于本发明的故障分类方法的实施无需依赖于对对象装备的精确物理建模，因此避免了传统复杂***难以建模的难处，实现了基于海量数据挖掘的故障智能分类及关联参数分析，具有准确率可控的故障分类能力。

Description

一种基于大数据融合聚类分析的关联参数故障分类方法

技术领域

本发明涉及装备故障预测和健康管理(PHM)领域，具体涉及一种基于大数据融合聚类分析的关联参数故障分类方法。

背景技术

故障预测和健康管理已经发展成为航空航天领域***后勤保障、维护和自主健康管理的重要支撑技术和基础，在“国家中长期科学和技术发展规划纲要2006－2020”中，“重大产品和重大设施寿命预测技术”作为前沿技术提出在近年的航天、航空科学技术学科发展报告中，均将PHM技术列为关键和支撑技术。

PHM技术已经成为一个涵盖基础材料、机械结构、能源、电子、自动测试、可靠性、信息等多领域的交叉学科和研究热门方向，具有重要的应用价值和现实意义。在大多数的工业***PHM应用中，建立复杂部件或***的数学或物理模型十分困难甚至无法实现，或识别模型的参数较为复杂，因此，部件或***设计、仿真、运行和维护等各个阶段的测试数据、传感器历史数据就成为掌握***性能下降的主要手段。

由此，基于测试或传感器历史数据挖掘的PHM方法逐渐获得重视并取得快速发展，成为PHM领域的重要研究热点。特别是针对航空航天等复杂***，很难直接获取或构建表征部件、***退化和剩余寿命的物理模型，同时，这些对象***和部件具备大量可用的状态监测和测试数据，因此，以数据驱动为主的PHM方法体系，获得美军、美国航空航天局及众多研究机构、工业企业的广泛重视。

数据驱动PHM方法是基于先进的传感器技术采集和获取与***属性有关的特征参数，并将这些特征参数和有用信息关联，借助智能算法和模型进行检测、分析和预测，给出目标***的剩余寿命分布、性能退化程度或任务失效的概率，从而为维护***和***保障提供决策信息。

在数据驱动PHM方法体系当中，方法流程、不同方法融合、模型选择、模型适应性等问题已成为了现今该领域内的研究重点，数据驱动PHM方法以其灵活的适应性和易用性获得了广泛的应用和推广。

发明内容

本发明的目的在于，为解决现有的数据驱动PHM方法存在着故障数据获取困难的技术问题，本发明提供一种基于大数据融合聚类分析的关联参数故障分类方法，用于改善现有复杂装备蕴含海量信息的运行数据未被有效挖掘、有效利用的现状。

为实现上述目的，本发明提供了一套完整的算法流程，进行运算和解析，得出最终的故障分类和参数关联概率模型。所述的关联参数故障分类方法包括：

步骤1)获取对象装备的各种运行数据。

步骤2)根据对象装备的设计资料，建立涵盖对象装备全部参数的参数判读规则库。参数判读规则库不仅包含参数的门限判断规则，同时也包含参数的趋势判断规则及跳变判断规则。

步骤3)以参数判读规则库的规则为准，对步骤1)中所有的运行数据筛选获得故障数据，将所有故障数据集合形成无分类故障数据集。

步骤4)以无分类故障数据集通过聚类算法进行有监督的数据自主聚类，获得满足要求的聚类数目和各项聚类中心。聚类的数目从2开始逐渐增大至适当的数目，最终选取使各聚类核平均加权距离不再减小的最小值为聚类的总数。同时，通过确定的各项聚类中心对无分类故障数据集进行分类获得分类故障数据集。

步骤5)将步骤3)中的无分类故障数据集采用映射-规约算法，生成参数关联概率模型，所述的参数关联概率模型包含对象装备中每条参数发生故障的同时，其他参数也发生故障的概率分布数据，数据从高到低排列成概率表格。

步骤6)以步骤4)中的分类故障数据集作为故障判别标准，采用最近邻算法，对步骤1)中获取的运行数据进行故障类别识别，获得故障分类结果。

步骤7)根据故障分类结果与步骤5)中的参数关联概率模型相结合，得出综合的故障诊断分类结果。综合诊断分类结果包含的内容为：故障分类结果、该故障分类结果的所有参数的概率分布数据。

作为上述技术方案的进一步改进，所述步骤1)中获取的运行数据的格式满足：每个完整的数据条目包含该数据条目发生的时刻以及在该时刻对象装备的所有参数值；每个数据条目中的单个数据值表征某一时刻的对象设备中一个参数的实测值；各数据条目之间按照发生时刻的先后顺序逐一排列。

作为上述技术方案的进一步改进，所述步骤3)中筛选的故障数据的格式满足：每个数据条目包含该数据条目发生的时刻以及在该时刻发生故障的全部故障参数；对于数据条目中发生故障的参数，根据参数判读规则库标注故障发生所触发的规则。

作为上述技术方案的进一步改进，所述的参数判读规则库包含参数的上下限、参数跳变异常判定规则、参数趋势渐变异常判定规则。

作为上述技术方案的进一步改进，所述的步骤4)具体包括：

步骤101)设定聚类数目K的初始个数为2个，依照当前的K值对无分类故障数据集进行聚类运算，获取K个聚类中心及其对应的K个聚类；

步骤102)计算K个聚类的平均轮廓系数，将K个聚类的平均轮廓系数与K-1个聚类的平均轮廓系数相比较，如果两个平均轮廓系数不变，则选取当前K值作为聚类总数，否则设定K＝K+1后重新执行步骤101)；所述的轮廓系数表示各聚类中包含的所有数据条目对应的向量点到聚类中心的几何距离的平均值；

步骤103)以步骤102)中确定的聚类总数对无分类故障数据集进行聚类运算，并通过获取的各项聚类中心对无分类故障数据集中的所有故障数据进行分类，获得分类故障数据集。

作为上述技术方案的进一步改进，所述的步骤101)中获取聚类中心的操作步骤包括：

步骤101-1)从对象装备的所有运行数据中随机挑选一个数据条目对应的向量点作为第一个聚类中心，并寻找与第一个聚类中心的几何距离最近的向量点作为第二聚类中心；

步骤101-2)计算每个聚类中心与其最近的聚类中心的几何距离Distance(x)，将所有几何距离Distance(x)相加获得总距离Sum(Distance(x))；

步骤101-3)随机选取一个能落在总距离Sum(Distance(x))中的数据条目对应的向量点Random，作为新增加的一个聚类中心，重新执行步骤101-2)，直至挑选出K个聚类中心。

作为上述技术方案的进一步改进，所述的步骤5)具体包括：

步骤201)依次将包含各条参数的全部故障数据条目分别映射到一起，形成各条参数对应的映射类，所述的映射类包含一个参数的全部故障数据条目及其出现的频度；

步骤202)计算每一映射类中故障数据条目的总数，作为概率计算的分母；

步骤203)累计每一映射类中包含除该映射类对应参数之外的其他参数出现的次数，作为概率计算的分子；

步骤204)将步骤203)中的分子与步骤202)中的分母之比，得到每一参数发生故障的同时，其他参数也发生故障的概率分布数据。

作为上述技术方案的进一步改进，所述的步骤6)具体包括：计算步骤1)中的所有运行数据与确定的各项聚类中心的几何距离，取最小的距离值与对应的聚类的平均轮廓系数进行比较，如果该距离值小于对应的聚类的平均轮廓系数，则判定运行数据为该聚类所对应的故障类型。

本发明的一种基于大数据融合聚类分析的关联参数故障分类方法优点在于：

本发明提供了一种定义清晰的、实际可操作的、具有良好效果的基于海量数据的融合聚类分析的关联参数故障分类方法，改善了现有故障诊断方法存在的以下几点技术问题：

1.目前装备故障诊断过度依赖专家知识库，而专家知识库在面对复杂***时，面临组合***问题，难以覆盖全部故障情况及其关联参数，忽略了各子***间深度耦合的参数之间的非线性关联关系的问题。对此，本发明的故障分类方法通过数据挖掘手段，挖掘不同子***间参数关联关系及其故障模式，从而能够有效改善上述问题。

2.现有数据驱动PHM方法局仅限于部件级故障诊断，而在复杂***级的故障诊断过程中，由于存在对复杂***整体精确建模的困难，对于混杂在正常数据中的不同种类故障数据主要依赖非监督式的机器学习聚类方法，聚类的结果既包含正常数据，也包含故障数据，并且故障数据分类性不佳。因而目前基于数据驱动的故障诊断方法，虽然在部件级诊断中取得了较好的效果，但在复杂***级诊断中，难以获得优于基于模型驱动的故障诊断方法。对此，本发明的故障分类方法融合了数据驱动方法和模型驱动方法的优点，利用已有的基于模型的专家知识库，对装备运行数据进行有监督(判读结果监督)的分类，大大提高了数据的分类性和收敛性，能够改善目前数据驱动PHM方法的分类效果不佳的问题。

附图说明

图1是本发明实施例中的一种基于大数据融合聚类分析的关联参数故障分类方法总体流程图。

图2a-图2d是本发明实施例中选取聚类总数执行的四次重复试验图。

图3是本发明实施例中聚类算法的操作流程图。

图4是本发明实施例中基于映射-规约算法的参数关联概率算法图。

具体实施方式

下面结合附图和实施例对本发明所述的一种基于大数据融合聚类分析的关联参数故障分类方法进行详细说明。

为了解决目前装备故障诊断过度依赖专家知识库，而专家知识库难以覆盖各子***间深度耦合的参数之间的非线性关联关系的问题，以及利用现有数据驱动方法在复杂***故障诊断中效果不佳，海量数据未被有效挖掘的现状，本发明提供了一种定义清晰的、实际可操作的、具有良好效果的、基于海量数据融合聚类分析的关联参数故障分类方法。

在本实施例中，本发明提供的基于大数据融合聚类分析的关联参数故障分类方法，采用某装备电源***为实例进行验证。经过数据预处理、规则建立、故障数据筛选、聚类、映射、规约等过程，形成综合的故障分类结果。

首先根据装备的实时运行数据及故障注入数据等数据来源，建立装备运行数据集，用于基于数据驱动的模型训练及验证。其次根据对象装备，建立装备参数判读规则库，用于对装备运行中参数的实时故障进行判读和检测。随后依据判读规则库，对装备运行过程的海量数据进行判读，从中分离出含有故障参数的数据条目。在分离出故障数据后，采用有监督的机器学习自主聚类方法进行故障种类聚类。利用生成的聚类进行故障判定，同时生成错误参数矩阵，并利用映射-规约(Map-Reduce)方法进行关联参数分析，形成分析结果。由此可知：本发明的故障分类方法从装备运行的海量数据中，根据判读规则挑选故障数据，并进行有监督的机器自主聚类，形成关联参数故障自动分类结果，能够解决目前装备故障诊断过度依赖专家知识库，而忽略了各子***间深度非线性耦合的参数之间的关联关系的问题，以及实际装备型号运行中海量有效数据没有获得很好的挖掘利用的问题；同时，由于本发明的故障分类方法的实施无需依赖于对对象装备的精确物理建模，因此避免了传统复杂***难以建模的难处。

参考图1所示，所述的关联参数故障分类方法具体包括：

步骤1)获取对象装备的各种运行数据；所述的运行数据包括故障注入仿真数据、模拟仿真数据、总线监测数据、BIT、IETM数据、维护和检测记录和已有传感数据等。

步骤2)根据对象装备的相关资料，进行对象分析，建立对象装备的参数判读规则库。规则库应包含对象装备全部参数的判读规则，例如包括但不限于参数的上下限(规定参数的上下限极值，超过则为故障的判定标准)、参数跳变异常判定规则(规定参数在短时间内值发生大幅度跳变的情形，并确定跳变程度及故障判定标准)、参数趋势渐变异常判定规则(由逐渐上升突变为逐渐下降等非正常趋势的故障判定标准)。

需要说明的是，为确保最终参数关联概率模型的完备性，本参数判读规则库的最低要求是包含每个参数的单个判定规则。因此无需要求对对象装备建立精确的物理模型以求得参数的关联表达式。

步骤3)在参数判读规则库完备的前提下，以参数判读规则库为基准，筛选步骤1)中获取的海量运行数据中的异常数据条目，此时可将参数判读规则库中的判读规则输入计算机，由计算机自动执行筛选。所述运行数据的格式应满足以下几条：

1、每个完整的数据条目应包含该数据条目发生的准确时刻以及在该时刻对象装备的所有参数值；

2、每个数据条目中的单个数据值应表征某一时刻的对象装备中一个参数的实测值；

3、各数据条目之间按照发生时刻的先后顺序逐一排列。

筛选出的故障数据应具备以下格式：

1、每个条目包含该数据条目发生的准确时刻；

2、每个条目包含该时刻发生了故障的全部故障参数，以便于后续进行映射和规约；

3、对于数据条目中发生故障的参数，根据参数判读规则库，标注故障发生所触发的规则(门限规则、跳变规则等)。

此时获取的数据是全部故障数据，并未进行分类。在获取故障数据后，进行数据的聚类运算。

步骤4)将无分类故障数据集通过聚类算法进行有监督的数据自主聚类，获得满足要求的聚类数目和各项聚类中心后，通过确定的各项聚类中心对无分类故障数据集中的所有故障数据进行分类，获得分类故障数据集。

聚类运算采用K-Means的方法，依据上一步中分离出的故障数据，进行机器自主聚类运算。其中第一步，也是最重要的一步，就是K值(聚类核的数目)的确定。K个聚类核，实际表征的就是K种故障情况。

本发明采用轮廓系数最优化的方法，用于选取K值。某个聚类的轮廓系数，指的是该聚类中包含的所有数据条目对应的向量点到该聚类中心的几何距离的平均值。在聚类完成后，轮廓系数越低，证明该聚类的分类效果越优秀。

参考图3所示，所述的步骤4)具体包括：

步骤101)从K＝2开始，设定聚类数目K的初始个数为2个，依照当前的K值对无分类故障数据集进行聚类运算，获取K个聚类中心及其对应的K个聚类。

步骤102)在聚类运算完成后，计算当前K值下，K个聚类的平均轮廓系数。将K个聚类的平均轮廓系数与K-1个聚类的平均轮廓系数相比较，当随着K的增加，轮廓系数逐渐收敛，不再减小时，即选取当前K值作为聚类总数，否则设定K＝K+1后重新执行步骤101)。如图2a、2b、2c、2d所示，为K值选取，分别进行了四次试验。在图中所示的四次试验中，随着K的增加，轮廓系数的变化会逐渐减小。当K达到11的时候，逐渐收敛。

基于上述步骤101)，在确定K值的过程中，针对每一个当前的K值，均需进行聚类中心的选取。首先是初始聚类中心(种子点)的选取。对于当前的K值，需要选取K个种子点。选取聚类中心的具体步骤如下：

步骤101-1)先从对象装备的所有运行数据库中随机挑一个数据条目对应的向量点作为第一个聚类中心，并寻找与第一个聚类中心的几何距离最近的向量点作为第二聚类中心。

步骤101-2)对于每个向量点，我们都计算其和最近的一个聚类中心的几何距离Distance(x)，并保存在一个数组里，然后把这些几何距离Distance(x)相加得到总距离Sum(Distance(x))。

步骤101-3)再取一个随机值，用权重的方式来计算获得下一个聚类中心。这个算法的实现是，随即选取一个能落在总距离Sum(Distance(x))中的数据条目对应的向量点Random，Random＝Random-Distance(x)，直到Random<＝0时，此时的点就是下一个选取的聚类中心。重复执行步骤101-2)和步骤101-3)，直到k个聚类中心被选出。

在选取聚类中心后，下一步是聚类的训练。对于每一个故障样本数据，计算其对应的向量点到各个聚类中心的几何距离，将其归类到距离最近的聚类中心，然后计算更新后的聚类的几何中心，并用新的几何中心替代该聚类的原中心。检查聚类中心是否发生变化，如果发生了变化(未收敛)，则不断重复上述过程。当聚类中心收敛(不再发生变化)时，聚类运算完成。

经过上述运算，在选取了最优化的K值，并进行了聚类运算之后，我们手中掌握的有效数据包括：无分类故障数据、聚类的数目K、各聚类核的向量参数以及属于各个聚类之下包含的(从属于该聚类的)故障数据详细条目。

接下来进行的是映射-规约的运算，该运算的目的是为了从海量的故障数据当中，发现参数之间的非线性耦合故障关联关系。

步骤5)将步骤3)中的无分类故障数据集采用映射-规约算法，生成参数关联概率模型，所述的参数关联概率模型包含对象装备中每一参数发生故障的同时，其他参数也发生故障的概率分布数据。

参考图4所示，所述的步骤5)具体包括：

步骤201)首先进行映射运算，即以无分类故障数据集为基础，进行从离散的故障数据到每个参数的映射。按照参数的次序，依次将包含各条参数的全部故障数据条目分别映射到一起，形成各条参数对应的映射类。映射运算的结果是包含每个参数的全部故障数据条目及其出现的频度。

经过映射运算，我们已经掌握了分别包含每一个参数的故障条目及其频度。例如，所有的包含参数1发生故障的故障条目，我们映射到了第一个映射集中(图4中第二层左侧第一个映射集)。所有的包含参数2发生故障的故障条目，我们映射到了第二个映射集中(图4中第二层左侧第二个映射集)，以此类推，获得所有参数的映射集。

以上述步骤获得的映射类为基础，进行规约运算。规约运算的目的，是计算出当某一参数发生故障的同一时刻，另外某个参数同时也发生故障的概率。以此来表征参数之间的故障关联关系。

步骤202)对于上述映射形成的每一个类，计算每一映射类中故障数据条目的总数(频度相加)，作为概率计算的分母。

步骤203)累计每一映射类中包含除该映射类对应参数之外的其他参数出现的次数，将其频度相加，作为概率计算的分子。

步骤204)将步骤203)中的分子与步骤202)中的分母之比，得到每一参数发生故障的同时，其他参数也发生故障的概率分布数据。以第一个映射类(所有包含参数1发生故障的数据组合)为例，在该映射类中，检索包含参数2的组合，将其频度相加，作为分子，除以该类故障条目的总数，以此计算参数1发生故障的同时，参数2也发生故障的概率。计算完参数2后，计算参数3至参数s(遍历完所有参数)。由此形成参数1的故障关联参数表。

以此类推，从第2个至第s个映射类，进行相同的规约运算。形成s个参数的故障关联参数表。

由此，数据的训练部分已经完成，我们掌握了K-Means生成的K种故障的聚类，以及映射-规约生成的参数关联概率模型。接下来可以利用装备运行数据集，进行实际的故障诊断和验证。

步骤6)以步骤4)中的分类故障数据集作为故障判别标准，对步骤1)中的所有运行数据采用最近邻算法进行故障类别识别，获得故障分类结果。在实际运行的过程中，对于一条新的运行数据条目，可以采用最近邻算法，分别计算其与K个故障聚类的聚类中心的几何距离，取最小的距离值(最近邻)。如果这个最小值小于该聚类的轮廓系数，即可判定运行数据为该聚类所对应的故障类型，以此进行故障诊断。

步骤7)将故障分类结果与步骤5)中的参数关联概率模型相结合，得出综合的诊断结果。综合的诊断结果包括：故障分类结果、主要的故障参数以及同主要故障参数关联概率较大(概率阈值可根据实际情况调整)的参数。

综上所述，依照本发明提供的基于大数据融合聚类分析的关联参数故障分类方法，实现了基于海量数据挖掘的故障智能分类及关联参数分析。具有准确率可控的故障分类能力。并且对于分类出的故障，根据参数关联概率模型，能够给出相关故障参数的关联概率，从而改进故障的智能诊断和维修决策的制定。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于大数据融合聚类分析的关联参数故障分类方法，其特征在于，包括：

步骤1)获取对象装备的各种运行数据；

步骤2)根据对象装备的相关资料，建立涵盖对象装备全部参数的参数判读规则库；

步骤3)以参数判读规则库的规则为准，对步骤1)中所有的运行数据筛选获得故障数据，将所有故障数据集合形成无分类故障数据集；

步骤4)将无分类故障数据集通过聚类算法进行有监督的数据自主聚类，获得满足要求的聚类数目和各项聚类中心后，通过确定的各项聚类中心对无分类故障数据集中的所有故障数据进行分类，获得分类故障数据集；

步骤5)将步骤3)中的无分类故障数据集采用映射-规约算法，生成参数关联概率模型，所述的参数关联概率模型包含对象装备中每一参数发生故障的同时，其他参数也发生故障的概率分布数据；所述的步骤5)具体包括：

步骤204)将步骤203)中的分子与步骤202)中的分母之比，得到每一参数发生故障的同时，其他参数也发生故障的概率分布数据；

步骤6)以步骤4)中的分类故障数据集作为故障判别标准，对步骤1)中的所有运行数据采用最近邻算法进行故障类别识别，获得故障分类结果；

步骤7)将故障分类结果与步骤5)中的参数关联概率模型相结合，获得发生该故障分类结果的所有参数的概率分布数据。

2.根据权利要求1所述的基于大数据融合聚类分析的关联参数故障分类方法，其特征在于，所述步骤1)中获取的运行数据的格式满足：每个完整的数据条目包含该数据条目发生的时刻以及在该时刻对象装备的所有参数值；每个数据条目中的单个数据值表征某一时刻的对象设备中一个参数的实测值；各数据条目之间按照发生时刻的先后顺序逐一排列。

3.根据权利要求1所述的基于大数据融合聚类分析的关联参数故障分类方法，其特征在于，所述步骤3)中筛选的故障数据的格式满足：每个数据条目包含该数据条目发生的时刻以及在该时刻发生故障的全部故障参数；对于数据条目中发生故障的参数，根据参数判读规则库标注故障发生所触发的规则。

4.根据权利要求1所述的基于大数据融合聚类分析的关联参数故障分类方法，其特征在于，所述的参数判读规则库包含参数的上下限、参数跳变异常判定规则、参数趋势渐变异常判定规则。

5.根据权利要求1所述的基于大数据融合聚类分析的关联参数故障分类方法，其特征在于，所述的步骤4)具体包括：

6.根据权利要求5所述的基于大数据融合聚类分析的关联参数故障分类方法，其特征在于，所述的步骤101)中获取聚类中心的操作步骤包括：

7.根据权利要求1所述的基于大数据融合聚类分析的关联参数故障分类方法，其特征在于，所述的步骤6)具体包括：计算步骤1)中的所有运行数据与确定的各项聚类中心的几何距离，取最小的距离值与对应的聚类的平均轮廓系数进行比较，如果该距离值小于对应的聚类的平均轮廓系数，则判定运行数据为该聚类所对应的故障类型。