WO2024124658A1

WO2024124658A1 - 基于案例学习与可诊断性分析的诊断算法量化推荐方法

Info

Publication number: WO2024124658A1
Application number: PCT/CN2023/072944
Authority: WO
Inventors: 陶来发; 李商羽; 王超; 索明亮; 丁宇; 吕琛; 于劲松; 唐荻音
Original assignee: 北京航空航天大学
Priority date: 2022-12-14
Filing date: 2023-01-18
Publication date: 2024-06-20
Also published as: CN115658371B; CN115658371A

Abstract

本申请提供了一种基于案例学习与可诊断性分析的诊断算法量化推荐方法，包括：获取待诊断对象的可诊断性要素集中各个可诊断性要素对应的可诊断性要素信息；可诊断性要素与故障诊断相关；将所有的可诊断性要素信息输入至训练好的推荐决策树模型中，通过推荐决策树模型输出针对待诊断对象的推荐结果，以使用推荐结果对应的目标故障诊断算法对待诊断对象进行故障诊断；推荐决策树模型与待诊断对象所属领域相同；在推荐决策树模型中，根据可诊断性要素信息对待诊断对象进行分类，以将待诊断对象划分至目标故障诊断算法的类别下。该方法有利于减少人为主观因素影响，提高故障诊断算法匹配的精确性，减少工程师的工作量，提高推荐匹配效率。

Description

基于案例学习与可诊断性分析的诊断算法量化推荐方法

相关申请的交叉引用

本申请要求于2022年12月14日提交中国国家知识产权局的申请号为202211598015.3、名称为“基于案例学习与可诊断性分析的诊断算法量化推荐方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及面向故障诊断算法推荐的技术领域，尤其是涉及一种基于案例学习与可诊断性分析的诊断算法量化推荐方法。

背景技术

故障诊断算法(故障预测与健康管理算法，PHM算法)通常用于对待检测对象进行故障检测，故障诊断算法有多种，不同的故障诊断算法对不同的待检测对象进行故障检测时，检测性能不同。具体地，不同的故障诊断算法对同一待检测对象进行故障检测时，检测性能可能不同；同一故障诊断算法对不同的待检测对象进行故障检测时，检测性能也可能不同。其中，有的故障诊断算法可能更适合检测待检测对象A，有的故障诊断算法更适合检测待检测对象B。

现有技术中，在为待检测对象选择故障诊断算法，并为其进行故障检测时，通常是工程师根据自己的工程经验进行选择，主观性较强。并且当同时存在多个待检测对象需要进行故障检测时，需要工程师逐一为各个待检测对象匹配故障诊断算法，导致工程师的工作量较大，匹配效率较低。

发明内容

有鉴于此，本申请的目的在于提供一种基于案例学习与可诊断性分析的诊断算法量化推荐方法，以减少人为主观因素影响，提高故障诊断算法匹配的精确性，以及减少工程师的工作量，提高匹配效率。

具体地，本申请提出了基于案例学习的故障诊断算法量化推荐技术范式，实现了从定性推荐到定量推荐的实质性转变，该技术范式具有高度实际工程应用价值。

基于案例学习的故障诊断算法量化推荐***推荐结果具有可解释性，其中决策树推荐器能够较好地学习到各类故障诊断算法的适用规则，可实现故障诊断算法的有效推荐。

基于案例学习的故障诊断算法量化推荐***无需专家经验，可以避免传统推荐中主观判断和定性分析的人为因素影响，有效吸收了现有诊断案例的实践经验，避免了大规模的建模和数据测试，使得推荐过程更具泛化性，推荐结果更具有客观性，推荐决策更加迅速高效。

第一方面，本申请的实施例提供了一种基于案例学习与可诊断性分析的诊断算法量化推荐方法，可以包括：

获取待诊断对象的可诊断性要素集中各个可诊断性要素对应的可诊断性要素信息；

将所有的所述可诊断性要素信息输入至训练好的推荐决策树模型中，通过所述推荐决策树模型输出针对所述待诊断对象的推荐结果，以使用所述推荐结果对应的目标故障诊断算法对所述待诊断对象进行故障诊断；

其中，所述推荐决策树模型与所述待诊断对象所属领域相同；在所述推荐决策树模型中，根据所述可诊断性要素信息对所述待诊断对象进行分类，以将所述待诊断对象划分至多个故障诊断算法中的所述目标故障诊断算法的类别下。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述方法还可以包括：

获取各个所述故障诊断算法各自对应的多个训练样本；所述训练样本中包含有样本诊断对象的所述可诊断性要素集中各个所述可诊断性要素对应的样本可诊断性要素信息，以及样本故障诊断算法的算法标签；所述样本故障诊断算法是该训练样本中为该样本诊断对象进行故障诊断时使用的所述故障诊断算法；所有所述样本诊断对象所属领域相同；

针对每个所述故障诊断算法，按照预设划分比例，对该故障诊断算法对应的所述训练样本进行划分，得到该故障诊断算法对应的第一训练集和第一测试集；

使用第二训练集建立满足建树截止条件的初始决策树模型；所述第二训练集为所有所述故障诊断算法对应的所述第一训练集的集合；

使用第二测试集对所述初始决策树模型进行测试，计算所述初始决策树模型的推荐准确率；所述第二测试集为所有所述故障诊断算法对应的所述第一测试集的集合；

当所述推荐准确率大于预设准确率时，将所述初始决策树模型确定为所述推荐决策树模型。

在一些实施方式中，当推荐决策树模型所属的工程行业领域为齿轮箱时，则用于训练所述推荐决策树模型时所使用的故障诊断算法可以包括支持向量机(SVM)、K近邻(KNN)、卷积神经网络(CNN)、自编码器(AE)、隐马尔可夫模型(HMM)、浅层人工神经网络(ANN)。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述使用第二训练集建立满足建树截止条件的初始决策树模型，可以包括：

针对所述第二训练集中的每个所述可诊断性要素，计算该可诊断性要素的第一基尼指数；

基于所有所述第一基尼指数，从所有所述可诊断性要素中筛选出第一基尼指数最小的第一可诊断性要素；

将第一可诊断性要素作为根节点，以及将所述第一可诊断性要素对应的第一样本可诊断性要素信息作为所述根节点的切分点；

获取按照根节点的切分点划分的每个分支下的分支训练集；

针对每个所述分支训练集，根据该分支训练集中的每个所述可诊断性要素，计算该可诊断性要素的第二基尼指数；

基于同一分支下的所有所述第二基尼指数，从该分支对应的所述分支训练集中包含的所有所述可诊断性要素中，筛选出第二基尼指数最小的第二可诊断性要素；

将所述第二可诊断性要素作为每个分支的***节点，并将所述第二可诊断性要素对应的第二样本可诊断性要素信息作为***节点的切分点；

判断当前决策树模型是否满足所述建树截止条件；

当所述当前决策树模型满足所述建树截止条件时，将所述当前决策树模型作为所述初始决策树模型；

当所述当前决策树模型不满足所述建树截止条件时，在所述当前决策树模型的基础上，将所述***节点作为当前新的根节点，重复执行获取按照根节点的切分点划分的每个分支下的分支训练集及后续步骤，直至当前决策树模型满足所述建树截止条件时停止，并将满足所述建树截止条件的当前决策树模型作为所述初始决策树模型。

结合第一方面的第二种可能的实施方式，本申请实施例提供了第一方面的第三种可能的实施方式，其中，所述建树截止条件可以包括以下中的任意一种或多种：所述当前决策树模型中节点层数达到预设层数；所述当前决策树模型中所述第二可诊断性要素的所述第二基尼指数小于预设阈值；所述当前决策树模型中所述***节点的切分点对应的分支下的分支训练集中包含的训练样本的数量小于预设数量。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，所述使用第二测试集对所述初始决策树模型进行测试，计算所述初始决策树模型的推荐准确率，可以包括：

对所述第二测试集进行划分，得到多个第三测试集；

针对每个所述第三测试集中的各个所述可诊断性要素，将所述可诊断性要素对应的样本可诊断性要素信息输入到所述初始决策树中，通过所述初始决策树模型输出针对所述样本诊断对象的样本推荐结果；

根据同一训练样本对应的所述样本推荐结果和所述算法标签，统计出在使用所述第三测试集对所述初始决策树模型进行测试时，所述初始决策树模型推荐正确的第一数量和推荐错误的第二数量，以根据所述第一数量和所述第二数量，确定出在使用所述第三测试集对所述初始决策树模型进行测试时，所述初始决策树模型的第一推荐准确率；

计算各个所述第三测试集对应的所述第一推荐准确率的平均值，以将所述平均值作为所述初始决策树模型的所述推荐准确率。

在一些实施例中，对所述第二测试集进行划分，得到多个第三测试集可以包括：对所述第二测试集进行平均划分，使得每个所述第三测试集中包含的训练样本的数量相同。

在一些实施方式中，所述初始决策树模型的所述第一推荐准确率可以为所述第一数量与第三数量的比值，所述第三数量为所述第一数量与所述第二数量之和。

结合第一方面，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述特定工程条件要素集可以包括以下中的多种：所属行业工程领域、对象类型、对象结构尺寸、使用工况、使用环境、使用条件，以及在工作过程中采集到的信号类型、信号路数、数据类型、数据量、特征类型、特征向量的维数，以及可诊断故障类型、可诊断故障程度。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第六种可能的实施方式，其中，所述故障诊断算法需求要素集可以包括以下中的任意一种或多种：故障诊断算法功能、故障诊断算法复杂度、故障诊断算法自主性、故障诊断算法性能。

在一些实施例中，所述故障诊断算法性能可以为以下中的任意一种或多种：故障诊断算法诊断的准确率、故障诊断算法诊断的均方根误差、故障诊断算法诊断的成熟度。

本申请实施例提供的一种基于案例学习与可诊断性分析的诊断算法量化推荐方法，该实施例中，将待诊断对象的所有可诊断性要素信息输入至训练好的推荐决策树模型中，推荐决策树模型根据可诊断性要素信息对待诊断对象进行分类，以将待诊断对象划分至多个故障诊断算法中的目标故障诊断算法的类别下，从而输出与目标故障诊断算法对应的推荐结果。该方法与现有技术中工程师根据自身的工程经验为待诊断对象匹配出故障诊断算法的方式相比，本实施例通过训练好的推荐决策树模型对待诊断对象推荐故障诊断算法，有利于减少人为主观因素影响，提高故障诊断算法匹配的精确性，以及减少工程师的工作量，降低PHM工程师准入门槛，提高推荐匹配效率。

本申请的第二方面还提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有指令，所述指令在由处理器执行时能够使所述处理器执行根据本发明的上述实施例所述的方法。

本申请的第三方面还还提供了一种计算机软件产品，所述计算机软件产品存储在计算机可读取存储介质中，所述计算机软件产品包含指令，所述指令在由处理器执行时能够使所述处理器执行根据本发明的上述实施例所述的方法。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种基于案例学习与可诊断性分析的诊断算法量化推荐方法的流程图；

图2示出了本申请实施例所提供的一种可诊断性要素集的示意图；

图3示出了本申请实施例所提供的一种训练样本的示意图；

图4示出了本申请实施例所提供的一种当前决策树模型的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到现有技术中，工程师在根据自己的工程经验为待检测对象匹配故障诊断算法时，会造成主观性较强、工作量较大、匹配效率较低的问题，基于此，本申请实施例提供了一种基于决策树的故障诊断算法的推荐方法，以减少人为主观因素影响，提高故障诊断算法匹配的精确性，以及减少工程师的工作量，提高匹配效率。下面通过实施例进行描述。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种基于决策树的故障诊断算法的推荐方法进行详细介绍。图1示出了本申请实施例所提供的一种基于案例学习与可诊断性分析的诊断算法量化推荐方法的流程图，如图1所示，该方法可以包括以下步骤S101-S102：

S101：获取待诊断对象的可诊断性要素集中各个可诊断性要素对应的可诊断性要素信息；可诊断性要素与故障诊断相关；可诊断性要素集包括特定工程条件要素集和故障诊断算法需求要素集。

该实施例中，待诊断对象具体可以为待诊断的机械部件。例如齿轮箱。图2示出了本申请实施例所提供的一种可诊断性要素集的示意图，如图2所示，特定工程条件要素集包括以下中的多种：所属行业工程领域、对象类型、对象结构尺寸、使用工况、使用环境、使用条件，以及在工作过程中采集到的信号类型、信号路数、数据类型、数据量、特征类型、特征向量的维数，以及可诊断故障类型、可诊断故障程度。

故障诊断算法需求要素集包括以下中的多种：故障诊断算法功能、故障诊断算法复杂度、故障诊断算法自主性、故障诊断算法性能。

其中，当可诊断性要素为所属行业工程领域时，待诊断对象的所属行业工程领域对应的可诊断性要素信息为：待诊断对象所属的行业工程领域，例如飞机类、风力机类、机械车辆类等。

当可诊断性要素为对象类型时，待诊断对象的对象类型对应的可诊断性要素信息为：待诊断对象属于哪种部件，例如齿轮或者轴承等。

当可诊断性要素为对象结构尺寸时，待诊断对象的对象结构尺寸对应的可诊断性要素信息为：待诊断对象的尺寸大小、齿数多少、传动结构等信息。

当可诊断性要素为使用工况时，待诊断对象的使用工况对应的可诊断性要素信息为：待诊断对象在工作过程中的一些定量工况信息，例如转速、工作负载等。

当可诊断性要素为使用环境时，待诊断对象的使用环境对应的可诊断性要素信息为：待诊断对象在实际运行过程中所面对的物理运行环境，比如温度、湿度、环境振动、环境噪声、环境干扰等。

当可诊断性要素为使用条件时，待诊断对象的使用条件对应的可诊断性要素信息为：在使用环境、使用工况中没有涉及到的一些背景信息，比如恒速条件(单工况)或者变速度(多工况)条件、单故障类型或者多故障类型等定性描述。

当可诊断性要素为在工作过程中采集到的信号的信号类型时，待诊断对象的信号类型对应的可诊断性要素信息为：通过各类采集传感器等采集设备采集到的，待诊断对象在工作过程中产生的信号的类型。其中，信号类型包括振动信号、电流信号、扭矩信号等。

当可诊断性要素为在工作过程中采集到的信号的信号路数时，待诊断对象的信号路数对应的可诊断性要素信息用于表示：待诊断对象在工作过程中采集设备一共采集到了几路信号，例如采集的是振动信号，具体包括振动X轴信号，振动Y轴信号，振动Z轴信号，那么共采集有3路信号。

当可诊断性要素为在工作过程中采集到的数据的数据类型时，待诊断对象的数据类型对应的可诊断性要素信息用于描述待诊断对象在工作过程中采集设备采集到的数据的结构特点，例如线性数据、非线性数据等。

当可诊断性要素为在工作过程中采集到的数据的数据量时，待诊断对象的数据量对应的可诊断性要素信息用于表示待诊断对象在工作过程中通过采集设备采集到的数据的数量。

当可诊断性要素为特征类型时，待诊断对象的特征类型对应的可诊断性要素信息用于表示：在采集到待诊断对象在工作过程中产生的数据后，从该数据中提出的特征类型，例如时域特征、频域特征或者其他特征等。

当可诊断性要素为特征向量的维数时，待诊断对象的特征向量的维数对应的可诊断性要素信息用于表示：在采集到待诊断对象在工作过程中产生的数据，且从该数据中提出的特征类型后，将该特征类型转换成用于表示该特征类型的特征向量，特征向量的维数指得是该特征向量具体是几维向量。

当可诊断性要素为可诊断故障类型时，待诊断对象的可诊断故障类型对应的可诊断性要素信息为：该待诊断对象可能发生的故障类型具体为哪些。例如，待诊断对象为齿轮箱，该齿轮箱可能发生的故障的类型包括：齿轮的断齿、磨损、裂纹故障，轴承的内圈、外圈、滚动体故障等。

当可诊断性要素为可诊断故障程度时，待诊断对象的可诊断故障程度对应的可诊断性要素信息为：该待诊断对象可能发生的故障程度具体为哪些。例如，待诊断对象为齿轮箱，该齿轮箱可能发生的故障的程度包括：轻度、中度和重度。当可诊断性要素为故障诊断算法功能时，待诊断对象的故障诊断算法功能对应的可诊断性要素信息为：希望决策树模型输出的目标故障诊断算法的功能。该实施例中，由于该待检测对象需要的算法为故障诊断算法，因此，希望决策树模型输出的算法的功能为故障诊断。

该实施例中，故障诊断算法复杂度为故障诊断算法的运行时间，和/或，故障诊断算法运行时占用存储空间大小。故障诊断算法运行时间是指故障诊断算法在运行过程中所需要的时长，故障诊断算法运行时占用存储空间大小是指故障诊断算法在运行过程中临时占用存储空间大小。当可诊断性要素为故障诊断算法复杂度时，待诊断对象的故障诊断算法复杂度对应的可诊断性要素信息为：希望决策树模型输出的目标故障诊断算法的复杂度在什么范围内(即希望决策树模型输出的目标故障诊断算法的运行时间在什么范围内，和/或，希望决策树模型输出的目标故障诊断算法在运行过程中临时占用存储空间大小在什么范围内)。

故障诊断算法自主性为故障诊断算法中超参数的数量。超参数的数量为该故障诊断算法在使用过程中人为可以调整的参数数量，从而来提高算法的诊断能力。当可诊断性要素为故障诊断算法自主性时，待诊断对象的故障诊断算法自主性对应的可诊断性要素信息为：希望决策树模型输出的目标故障诊断算法中超参数的数量的多少。

故障诊断算法性能为以下中的任意一种或多种：故障诊断算法诊断的准确率、故障诊断算法诊断的均方根误差、故障诊断算法诊断的成熟度。其中，故障诊断算法诊断的准确率表征故障诊断算法的诊断能力，故障诊断算法诊断的均方根误差用于衡量观测值(故障诊断算法诊断出的值)与真实值(实际值)之间的偏差。故障诊断算法诊断的成熟度可能是专家通过参考该故障诊断算法的生成时间、使用情况等因素进行评价的。当可诊断性要素为故障诊断算法性能时，待诊断对象的故障诊断算法性能对应的可诊断性要素信息为：希望决策树模型输出的目标故障诊断算法的性能情况，具体地，希望决策树模型输出的目标故障诊断算法的准确率达到多少，故障诊断算法诊断的均方根误差小于多少，故障诊断算法诊断的成熟度为多少等。

S102：将所有的可诊断性要素信息输入至训练好的推荐决策树模型中，通过推荐决策树模型输出针对待诊断对象的推荐结果，以使用推荐结果对应的目标故障诊断算法对待诊断对象进行故障诊断。

其中，推荐决策树模型与待诊断对象所属领域相同；在推荐决策树模型中，根据可诊断性要素信息对待诊断对象进行分类，以将待诊断对象划分至多个故障诊断算法中的目标故障诊断算法的类别下。

该实施例中，推荐决策树模型与待诊断对象所属的工程行业领域(即领域)相同，推荐决策树模型所属的工程行业领域是由该推荐决策树模型的训练样本决定的，即推荐决策树模型所属的工程行业领域与训练样本所属的工程行业领域相同。

将可诊断性要素信息输入至训练好的推荐决策树模型中之后，推荐决策树模型根据可诊断性要素信息对待诊断对象进行分类，以将待诊断对象划分至多个故障诊断算法中的目标故障诊断算法的类别下，然后推荐决策树模型根据划分出的目标故障诊断算法的类别，输出与目标故障诊断算法对应的推荐结果。

该实施例中，对待诊断对象进行故障诊断的目的是为了确定该待诊断对象是否存在故障，以及故障的具体情况。

该实施例中，针对差异化故障诊断算法，提出了面向用户需求、现有资源约束、算法能力约束等综合条件下的推荐方法；提出了算法模型推荐的新范式；有利于减少人为主观因素影响，提高故障诊断算法匹配的精确性，以及减少工程师的工作量，降低PHM工程师准入门槛，提高推荐匹配效率。

在一种可能的实施方式中，在执行步骤S101获取待诊断对象的可诊断性要素集中各个可诊断性要素对应的可诊断性要素信息之前，还可以包括：

S1001：获取各个故障诊断算法各自对应的多个训练样本；训练样本中包含有样本诊断对象的可诊断性要素集中各个可诊断性要素对应的样本可诊断性要素信息，以及样本故障诊断算法的算法标签；样本故障诊断算法是该训练样本中为该样本诊断对象进行故障诊断时使用的故障诊断算法；所有样本诊断对象所属领域相同。

该实施例中，以齿轮箱为例，当推荐决策树模型所属的工程行业领域为齿轮箱时，则用于训练该推荐决策树模型时所使用的故障诊断算法可以包括支持向量机(SVM)、K近邻(KNN)、卷积神经网络(CNN)、自编码器(AE)、隐马尔可夫模型(HMM)、浅层人工神经网络(ANN)。以上6类故障诊断算法覆盖了数据驱动的机器学习与深度学习经典分类算法，可解决不同情况下的齿轮箱故障诊断问题。

图3示出了本申请实施例所提供的一种训练样本的示意图，如图3所示，每个故障诊断算法对应一张图表，每个故障诊断算法对应多个训练样本，图表中每一横排表示一个训练样本。

当可诊断性要素为所属行业工程领域时，样本诊断对象的所属行业工程领域对应的样本可诊断性要素信息为：样本诊断对象所属的行业工程领域。当可诊断性要素为对象类型时，样本诊断对象的对象类型对应的可诊断性要素信息为：样本诊断对象属于哪种部件。当可诊断性要素为对象结构尺寸时，样本诊断对象的对象结构尺寸对应的可诊断性要素信息为：样本诊断对象的尺寸大小、齿数多少、传动结构等信息。当可诊断性要素为使用工况时，样本诊断对象的使用工况对应的可诊断性要素信息为：待诊断对象在工作过程中的一些定量工况信息。当可诊断性要素为使用环境时，样本诊断对象的使用环境对应的可诊断性要素信息为：待诊断对象在使用环境、使用工况中没有涉及到的一些背景信息。

当可诊断性要素为信号类型时，样本诊断对象的信号类型对应的可诊断性要素信息为：样本诊断对象在工作过程中产生的信号的类型。当可诊断性要素为信号路数时，样本诊断对象的信号路数对应的可诊断性要素信息为：样本诊断对象在工作过程中采集设备一共采集到了几路信号。当可诊断性要素为数据类型时，样本诊断对象的数据类型对应的可诊断性要素信息为：样本诊断对象在工作过程中通过采集设备采集到的数据的类型。当可诊断性要素为数据量时，样本诊断对象的数据量对应的可诊断性要素信息为：样本诊断对象在工作过程中通过采集设备采集到的数据的数量。

当可诊断性要素为特征类型时，样本诊断对象的特征类型对应的可诊断性要素信息为：在采集到样本诊断对象在工作过程中产生的数据后，从该数据中提取出的特征类型。当可诊断性要素为特征向量的维数时，样本诊断对象的特征向量的维数对应的可诊断性要素信息用于表示：在采集到样本诊断对象在工作过程中产生的数据，且从该数据中提取出的特征类型后，将该特征类型转换成用于表示该特征类型的特征向量，特征向量的维数指得是该特征向量具体是几维向量。

当可诊断性要素为可诊断故障类型时，样本诊断对象的可诊断故障类型对应的可诊断性要素信息为：该样本诊断对象可能发生的故障类型具体为哪些。当可诊断性要素为可诊断故障程度时，样本诊断对象的可诊断故障程度对应的可诊断性要素信息为：该样本诊断对象可能发生的故障程度具体为哪些。

当可诊断性要素为故障诊断算法功能时，样本诊断对象的故障诊断算法功能对应的可诊断性要素信息为：该训练样本中样本故障诊断算法的功能。当可诊断性要素为故障诊断算法复杂度时，样本诊断对象的故障诊断算法复杂度对应的可诊断性要素信息为：该训练样本中样本故障诊断算法的复杂度，即训练样本中样本故障诊断算法的运行时间，和/或，临时占用存储空间大小。当可诊断性要素为故障诊断算法自主性时，样本诊断对象的故障诊断算法自主性对应的可诊断性要素信息为：该训练样本中样本故障诊断算法中的超参数的数量。当可诊断性要素为故障诊断算法性能时，样本诊断对象的故障诊断算法性能对应的可诊断性要素信息为：该训练样本中样本故障诊断算法的准确率、均方根误差、成熟度。具体说明参考步骤S101实施例中的说明。

该实施例中，样本诊断对象为在历史时刻进行了故障诊断的对象，因此该实施例中，将历史时刻为该样本诊断对象进行故障诊断时使用的故障诊断算法作为该样本诊断对象的样本故障诊断算法。本实施例中，所有样本诊断对象所属的行业领域相同。

S1002：针对每个故障诊断算法，按照预设划分比例，对该故障诊断算法对应的训练样本进行划分，得到该故障诊断算法对应的第一训练集和第一测试集。

示例性的，当故障诊断算法“支持向量机”对应的训练样本的数量为100个，预设划分比例为8:2时，则对该故障诊断算法对应的训练样本进行划分后，得到该故障诊断算法对应的第一训练集中包含有80个训练样本，该故障诊断算法对应的第一测试集中包含有20个训练样本。

S1003：使用第二训练集建立满足建树截止条件的初始决策树模型；第二训练集为所有故障诊断算法对应的第一训练集的集合。

该实施例中，针对所有的故障诊断算法(即包括支持向量机、K近邻、卷积神经网络、自编码器、隐马尔可夫模型、浅层人工神经网络)，将各个故障诊断算法的第一训练集的集合作为第二训练集。例如，每个故障诊断算法对应的第一训练集中均包括80个训练样本，则第二训练集中共有480(6×80)个训练样本。

通过CART(Classification and Regression Tree)算法，使用第二训练集建立满足建树截止条件的初始决策树模型。本实施例中的初始决策树模型为CART初始决策树模型。

S1004：使用第二测试集对初始决策树模型进行测试，计算初始决策树模型的推荐准确率；第二测试集为所有故障诊断算法对应的第一测试集的集合。

将所有的故障诊断算法的第一测试集的集合作为第二测试集，使用第二测试集对初始决策树模型进行测试，计算初始决策树模型的推荐准确率。

S1005：当推荐准确率大于预设准确率时，将初始决策树模型确定为推荐决策树模型。

当推荐准确率不大于预设准确率时，继续对初始决策树模型进行训练，直至初始决策树模型的推荐准确率大于预设准确率。该实施例中预设准确率可以为70％-99％。具体的可以为75％。

在一种可能的实施例中，在执行步骤S1003使用第二训练集建立满足建树截止条件的初始决策树模型时，具体可以按照以下步骤执行：

S10031：针对第二训练集中的每个可诊断性要素信息，计算该可诊断性要素信息的第一基尼指数。

该实施例中，首先通过以下公式计算第二训练集对应的基尼值：

其中，Gini(S)为基尼值，基尼值是指从第二训练集中随机选出两个训练样本中的可诊断性要素，这两个可诊断性要素不属于同一个故障诊断算法对应的训练样本的概率值。基尼值旨在度量第二训练集的“不纯度”，其数值越小说明第二训练集的“纯净度”越高。M为故障诊断算法的总数量，该实施例中M为6。i表示第i个故障诊断算法，i的取值为1至6中的整数。p_i为第i个故障诊断算法对应的训练样本的数量占第二训练集中训练样本的总数量的比值。N_S表示第二训练集中训练样本的总数量，N_i表示第i个故障诊断算法对应的训练样本的数量。

通过以下公式计算第二训练集中的每个可诊断性要素的第一基尼指数：

其中，S表示第二训练集，b表示可诊断性要素，GiniIndex(S,b)为可诊断性要素b的第一基尼指数，M’表示通过可诊断性要素b对第二训练集划分后形成的分支数，K表示通过可诊断性要素b对第二训练集划分后形成的分支数中第K个分支。N_K表示第K个分支下包含的训练样本的数量。

S10032：基于所有第一基尼指数，从所有可诊断性要素中筛选出第一基尼指数最小的第一可诊断性要素。

S10033：将第一可诊断性要素作为根节点，以及将第一可诊断性要素对应的第一样本可诊断性要素信息作为根节点的切分点。

示例性的，图4示出了本申请实施例所提供的一种当前决策树模型的示意图，如图4所示，若所有可诊断性要素中第一基尼指数最小的第一可诊断性要素为样本诊断对象的可诊断故障程度，那么将样本诊断对象的可诊断故障程度作为根节点，将轻度、中度、重度(轻度、中度、重度为可诊断故障程度的可诊断性要素信息)作为该根节点的切分点。

S10034：获取按照根节点的切分点划分的每个分支下的分支训练集。

承接步骤S10033中的实施例，切分点为轻度时，该切分点对应的分支下的分支训练集为图3中轻度标记为1的训练样本构成的训练集。

值得注意的是，在历史时刻，使用样本故障诊断算法对样本诊断对象进行故障诊断时，是在不同的历史时刻诊断了多次，因此，在不同时刻进行诊断时，同一个可诊断性要素下的诊断结果可能有多种情况。例如，第一次诊断时样本诊断对象a的可诊断故障程度为轻度，第二次诊断可能为中度，第三次诊断可能为重度，因此训练样本中包含的样本诊断对象a的可诊断故障程度即包括了轻度，又包括了中度和重度。

S10035：针对每个分支训练集，根据该分支训练集中的每个可诊断性要素，计算该可诊断性要素的第二基尼指数。

该实施例中，在计算每个分支训练集中的每个可诊断性要素的第二基尼指数时，具体可以参考步骤S10031的实施例中的计算过程，本申请对此不在重复叙述。

S10036：基于同一分支下的所有第二基尼指数，从该分支对应的分支训练集中包含的所有可诊断性要素中，筛选出第二基尼指数最小的第二可诊断性要素。

S10037：将第二可诊断性要素作为每个分支的***节点，并将第二可诊断性要素对应的第二可诊断性要素信息作为***节点的切分点。

如图3所示，承接步骤S10034中的实施例，切分点轻度对应的分支下的所有可诊断性要素中，假设第二基尼指数最小的第二可诊断性要素为信号类型，则将信号类型作为该分支的***节点，将信号类型对应的第二可诊断性要素信息(即振动信号、扭矩信号、电流信号)作为***节点信号类型的切分点。

S10038：判断当前决策树模型是否满足建树截止条件。

其中，建树截止条件包括以下中的任意一种或多种：当前决策树模型中节点层数达到预设层数；当前决策树模型中第二可诊断性要素的第二基尼指数小于预设阈值；当前决策树模型中***节点的切分点对应的分支下的分支训练集中包含的训练样本的数量小于预设数量。

S10039：当当前决策树模型满足建树截止条件时，将当前决策树模型作为初始决策树模型。

S100310：当当前决策树模型不满足建树截止条件时，在当前决策树模型的基础上，将 ***节点作为当前新的根节点，重复执行获取按照根节点的切分点划分的每个分支下的分支训练集及后续步骤，直至当前决策树模型满足建树截止条件时停止，并将满足建树截止条件的当前决策树模型作为初始决策树模型。

在一种可能的实施例中，在执行步骤S1004使用第二测试集对初始决策树模型进行测试，计算初始决策树模型的推荐准确率时，具体可以按照以下步骤执行：

S10041：对第二测试集进行划分，得到多个第三测试集。

该实施例中，可以对第二测试集进行平均划分，使得每个第三测试集中包含的训练样本的数量相同。第三测试集的数量为多个。示例性的，第三测试集的数量可以为5个。

S10042：针对每个第三测试集中的各个可诊断性要素，将该可诊断性要素对应的样本可诊断性要素信息输入到初始决策树中，通过初始决策树模型输出针对样本诊断对象的样本推荐结果。

S10043：根据同一训练样本对应的样本推荐结果和算法标签，统计出在使用第三测试集对初始决策树模型进行测试时，初始决策树模型推荐正确的第一数量和推荐错误的第二数量，以根据第一数量和第二数量，确定出在使用第三测试集对初始决策树模型进行测试时，初始决策树模型的第一推荐准确率。

该实施例中，当初始决策树模型为样本诊断对象推荐出的样本推荐结果对应的样本故障诊断类型，与该样本诊断对象对应的算法标签相同，则表示初始决策树模型推荐正确。当初始决策树模型为样本诊断对象推荐出的样本推荐结果对应的样本故障诊断类型，与该样本诊断对象对应的算法标签不同，则表示初始决策树模型推荐错误。

第一推荐准确率为第一数量与第三数量的比值，第三数量为第一数量与第二数量之和。每个第三测试集对应一个第一推荐准确率。

S10044：计算各个第三测试集对应的第一推荐准确率的平均值，以将平均值作为初始决策树模型的推荐准确率。

在本申请所提供的实施例中，应该理解到，所揭露的方法，可以通过其它的方式实现。

另外，在本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

工业实用性

此外，可以理解的是，本申请的基于案例学习与可诊断性分析的诊断算法量化推荐方法是可以重现的，并且可以用在多种工业应用中。例如，本申请的基于案例学习与可诊断性分析的诊断算法量化推荐方法可以用于面向故障诊断算法推荐的技术领域。

Claims

一种基于案例学习与可诊断性分析的诊断算法量化推荐方法，其特征在于，包括：

获取待诊断对象的可诊断性要素集中各个可诊断性要素对应的可诊断性要素信息；所述可诊断性要素与故障诊断相关；所述可诊断性要素集包括特定工程条件要素集和故障诊断算法需求要素集；

将所有的所述可诊断性要素信息输入至训练好的推荐决策树模型中，通过所述推荐决策树模型输出针对所述待诊断对象的推荐结果，以使用所述推荐结果对应的目标故障诊断算法对所述待诊断对象进行故障诊断；

其中，所述推荐决策树模型与所述待诊断对象所属领域相同；在所述推荐决策树模型中，根据所述可诊断性要素信息对所述待诊断对象进行分类，以将所述待诊断对象划分至多个故障诊断算法中的所述目标故障诊断算法的类别下。
根据权利要求1所述方法，其特征在于，还包括：

获取各个所述故障诊断算法各自对应的多个训练样本；所述训练样本中包含有样本诊断对象的所述可诊断性要素集中各个所述可诊断性要素对应的样本可诊断性要素信息，以及样本故障诊断算法的算法标签；所述样本故障诊断算法是该训练样本中为该样本诊断对象进行故障诊断时使用的所述故障诊断算法；所有所述样本诊断对象所属领域相同；

针对每个所述故障诊断算法，按照预设划分比例，对该故障诊断算法对应的所述训练样本进行划分，得到该故障诊断算法对应的第一训练集和第一测试集；

使用第二训练集建立满足建树截止条件的初始决策树模型；所述第二训练集为所有所述故障诊断算法对应的所述第一训练集的集合；

使用第二测试集对所述初始决策树模型进行测试，计算所述初始决策树模型的推荐准确率；所述第二测试集为所有所述故障诊断算法对应的所述第一测试集的集合；

当所述推荐准确率大于预设准确率时，将所述初始决策树模型确定为所述推荐决策树模型。
根据权利要求2所述方法，其特征在于，当推荐决策树模型所属的工程行业领域为齿轮箱时，则用于训练所述推荐决策树模型时所使用的故障诊断算法包括支持向量机(SVM)、K近邻(KNN)、卷积神经网络(CNN)、自编码器(AE)、隐马尔可夫模型(HMM)、浅层人工神经网络(ANN)。
根据权利要求2或3所述方法，其特征在于，所述使用第二训练集建立满足建树截止条件的初始决策树模型，包括：

针对所述第二训练集中的每个所述可诊断性要素，计算该可诊断性要素的第一基尼指数；

基于所有所述第一基尼指数，从所有所述可诊断性要素中筛选出第一基尼指数最小的第一可诊断性要素；

将第一可诊断性要素作为根节点，以及将所述第一可诊断性要素对应的第一样本可诊断性要素信息作为所述根节点的切分点；

获取按照根节点的切分点划分的每个分支下的分支训练集；

针对每个所述分支训练集，根据该分支训练集中的每个所述可诊断性要素，计算该可诊断性要素的第二基尼指数；

基于同一分支下的所有所述第二基尼指数，从该分支对应的所述分支训练集中包含的所有所述可诊断性要素中，筛选出第二基尼指数最小的第二可诊断性要素；

将所述第二可诊断性要素作为每个分支的***节点，并将所述第二可诊断性要素对应的第二样本可诊断性要素信息作为***节点的切分点；

判断当前决策树模型是否满足所述建树截止条件；

当所述当前决策树模型满足所述建树截止条件时，将所述当前决策树模型作为所述初始决策树模型；

当所述当前决策树模型不满足所述建树截止条件时，在所述当前决策树模型的基础上，将所述***节点作为当前新的根节点，重复执行获取按照根节点的切分点划分的每个分支下的分支训练集及后续步骤，直至当前决策树模型满足所述建树截止条件时停止，并将满足所述建树截止条件的当前决策树模型作为所述初始决策树模型。
根据权利要求4所述方法，其特征在于，所述建树截止条件包括以下中的任意一种或多种：所述当前决策树模型中节点层数达到预设层数；所述当前决策树模型中所述第二可诊断性要素的所述第二基尼指数小于预设阈值；所述当前决策树模型中所述***节点的切分点对应的分支下的分支训练集中包含的训练样本的数量小于预设数量。
根据权利要求2所述方法，其特征在于，所述使用第二测试集对所述初始决策树模型进行测试，计算所述初始决策树模型的推荐准确率，包括：

对所述第二测试集进行划分，得到多个第三测试集；

针对每个所述第三测试集中的各个所述可诊断性要素，将所述可诊断性要素各自对应的样本可诊断性要素信息输入到所述初始决策树中，通过所述初始决策树模型输出针对所述样本诊断对象的样本推荐结果；

根据同一训练样本对应的所述样本推荐结果和所述算法标签，统计出在使用所述第三测试集对所述初始决策树模型进行测试时，所述初始决策树模型推荐正确的第一数量和推荐错误的第二数量，以根据所述第一数量和所述第二数量，确定出在使用所述第三测试集对所述初始决策树模型进行测试时，所述初始决策树模型的第一推荐准确率；

计算各个所述第三测试集对应的所述第一推荐准确率的平均值，以将所述平均值作为所述初始决策树模型的所述推荐准确率。
根据权利要求6所述方法，其特征在于，对所述第二测试集进行划分，得到多个第三测试集包括：对所述第二测试集进行平均划分，使得每个所述第三测试集中包含的训练样本的数量相同。
根据权利要求6或7所述方法，其特征在于，所述初始决策树模型的所述第一推荐准确率为所述第一数量与第三数量的比值，所述第三数量为所述第一数量与所述第二数量之和。
根据权利要求1至8中任一项所述方法，其特征在于，所述特定工程条件要素集包括以下中的多种：所属行业工程领域、对象类型、对象结构尺寸、使用工况、使用环境、使用条件，以及在工作过程中采集到的信号类型、信号路数、数据类型、数据量、特征类型、特征向量的维数，以及可诊断故障类型、可诊断故障程度。
根据权利要求1至9中任一项所述方法，其特征在于，所述故障诊断算法需求要素集包括以下中的多种：故障诊断算法功能、故障诊断算法复杂度、故障诊断算法自主性、故障诊断算法性能。
根据权利要求10所述方法，其特征在于，所述故障诊断算法性能为以下中的任意一种或多种：故障诊断算法诊断的准确率、故障诊断算法诊断的均方根误差、故障诊断算法诊断的成熟度。
一种计算机可读取存储介质，所述计算机可读取存储介质中存储有指令，所述指令在由处理器执行时能够使所述处理器执行根据权利要求1至11中任一项所述的方法。
一种计算机软件产品，所述计算机软件产品存储在计算机可读取存储介质中，所述计算机软件产品包含指令，所述指令在由处理器执行时能够使所述处理器执行根据权利要求1至11中任一项所述的方法。