CN110992985A

CN110992985A - 识别跑步机异音的识别模型确定方法、识别方法、***

Info

Publication number: CN110992985A
Application number: CN201911215795.7A
Authority: CN
Inventors: 刘承伟; 陈友元; 冯海泓; 洪峰; 孙晋
Original assignee: Shanghai Acoustics Laboratory Chinese Academy Of Sciences
Current assignee: Shanghai Acoustics Laboratory Chinese Academy Of Sciences
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-04-10

Abstract

一种跑步机异音识别模型的确定方法、跑步机异音的识别方法及识别***，基于声信号的短时平稳特性，对采集的振动信号进行时频特征提取。对于单一特征不能完全表征故障特性的缺点，采用梅尔倒谱系数、梅尔倒谱以及频谱色度作为异音检测的融合特征。并且通过对抗神经网络和音频数据扩增的手段，增加训练数据量和提升算法鲁棒性。利用多层卷积神经网络(CNN)具有局部感知、权值共享、池化降维等特性，提取振动信号的高阶特征，聚焦融合特征的局部信息，最后采用支持向量机(SVM)作为卷积网络的输出层，提高CNN网络在故障诊断方面的识别效果。

Description

识别跑步机异音的识别模型确定方法、识别方法、***

技术领域

本发明涉及跑步机异音识别技术领域，具体涉及识别跑步机异音的识别模型确定方法、识别方法、***。

背景技术

跑步机作为一种流行的健身器材，是大多数人选择运动的有效方式。然而随着物质追求的提高，越来越多的消费者提出对跑步机的体感要求，要求最大化减小电动机各机械运转部位的振动噪声。因此如何实时、快速、准确、低成本地检测出跑步机机械部件故障产生的振动噪声，最大程度降低不合格产品的出现，有效减小损失和跑步机中机械故障带来的问题，是目前亟待解决的问题。

发明内容

本申请提供一种识别跑步机异音的识别模型确定方法、识别跑步机异音的识别方法及识别***，可以有效模拟人耳识别跑步机异音，达到可靠、高效识别的目的。

本发明提供的技术方案如下：

本发明提供一种识别跑步机异音的识别模型确定方法，包括步骤：

采用传感器采集跑步机的振动声信号，根据经验丰富的工人进行异音判别，将所述振动声信号分类为正常振动声信号和异音振动声信号；

对分类的振动声信号进行预处理，基于不破坏信号连续性的条件下，进行截断处理；

对预处理的振动声信号提取不同类型的特征，并对提取的各类型特征进行特征组合形成多组融合特征；

通过机器学习、深度学习及机器学习和深度学习的组合分别对各组融合特征、各单一特征进行识别，通过识别结果获取最优识别模型及最优特征，将所述最优识别模型作为模拟人耳识别跑步机异音的识别模型，将所述最优特征作为模拟人耳识别跑步机异音时所需的提取特征。

进一步优选的，所述对分类的振动声信号进行预处理包括步骤：对采集的振动声信号进行截断处理，基于不破坏振动声信号连续性的条件下，选择表征所述正常振动声信号和异音振动声信号的振动声信号数据段。

进一步优选的，所述对分类的振动声信号进行预处理还包括步骤：

提取所述振动声信号数据段的时域特征、频域特征和时频域特征；

及分析所述正常振动声信号和异音振动声信号在时域特征、频域特征和时频域特征的不同；

根据所述不同，选取识别所述正常振动声信号和异音振动声信号的时频域特征。

进一步优选的，所述对预处理的振动声信号提取不同类型的特征包括步骤：对所述时频域特征提取MFCC特征、梅尔倒谱特征、频谱质心特征、色度特征和调性网络特征。

进一步优选的，所述MFCC特征的提取维度为40，所述梅尔倒谱特征的提取维度为128，所述频谱质心特征的提取维度为6，所述色度特征的提取维度为12，所述调性网络特征的提取维度为6。

进一步优选的，所述最优特征为MFCC特征、梅尔倒谱特征、色度特征的融合特征。

进一步优选的，所述最优识别模型为CNN-SVM模型，所述CNN-SVM模型的结构包括：输入层、卷积层、池化层、全连接层和与所述全连接层的输出端耦合的SVM。

本发明还提供一种识别跑步机异音的识别方法，包括步骤：

采集跑步机的振动声信号；

提取所述振动声信号的MFCC特征、梅尔倒谱特征和色度特征，并将所述MFCC特征、梅尔倒谱特征和色度特征进行融合形成融合特征；

采用CNN-SVM模型对所述融合特征进行识别，以识别所述振动声信号是否是异音振动声信号。

进一步优选的，所述CNN-SVM模型的结构包括：输入层、卷积层、池化层、全连接层和与所述全连接层的输出端耦合的SVM。

本发明还提供一种识别跑步机异音的识别***，包括：

采集模块，用于采集跑步机的振动声信号；

特征融合模块，用于提取所述振动声信号的MFCC特征、梅尔倒谱特征和色度特征，并将所述MFCC特征、梅尔倒谱特征和色度特征进行融合形成融合特征；

识别模块，用于采用CNN-SVM模型对所述融合特征进行识别，以识别所述振动声信号是否是异音振动声信号。

本发明提供的识别跑步机异音的识别模型确定方法、识别跑步机异音的识别方法及识别***，具有以下至少一种有益效果：

1)基于声信号的短时平稳特性，对采集的振动信号进行时频特征提取，基于融合特征识别跑步机异音，与单一音频特征相比，具有很好的识别效果、误报率低，克服了单一音频特征不能完全表征异音信号和正常信号的区别。

2)采用MFCC特征、梅尔倒谱特征和色度特征的融合特征能够提高不同环境下异音判别的听觉特性，更好地模拟人耳识别跑步机异音，并且通过对抗神经网络和音频数据扩增(高斯加噪、时间拉伸、音高调整等)的手段，增加训练数据量、提升算法鲁棒性和模型的泛化能力，利用多层卷积神经网络(CNN)具有局部感知、权值共享和池化降维特性，提取振动声信号的高阶特征，聚焦融合特征的局部信息。最后。基于样本间的最大化几何间隔特性寻找最优的分离超平面，采用支持向量机(SVM)作为卷积网络的输出层，提高CNN网络在故障诊断方面的识别效果。

3)基于时频域特征将一维时域信号转化为二维时频图像，将异音识别问题转化为图像识别问题，利用卷积网络具有强学习能力、有效提取信号高阶特征、降低数据维度、捕捉深层特征等特点，利用支持向量机具有很强的可解释性、最大化样本几何间隔、核函数技巧等特点，提高识别率和泛化能力。

附图说明

图1为本发明提供的识别模型确定方法流程图；

图2为MFCC特征提取流程图；

图3为为色度特征提取流程图；

图4为调性网络特征提取流程图；

图5为特征融合过程示意图；

图6为识别模型和融合特征最优选取示意图；

图7为CNN-SVM模型的网络模型示意图；

图8为跑步机异音识别方法流程图；

图9为跑步机异音识别***原理框图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

目前，大多数机械异音前期都是基于有经验的工人进行人耳判别，而通过人耳判别的方式，不仅对工人的经验有较高的要求，且工人常时间的判别容易出现听觉疲劳，造成误判，基于此，本发明提供一种能够模拟人耳识别跑步机异音的识别方法，为了能够模拟人耳识别跑步机异音，本发明还提供一种识别跑步机异音的识别模型确定方法，同时也给出了模拟人耳识别跑步机异音中最优的提取特征。

实施例一：

本实施例提供一种识别跑步机异音的识别模型确定方法，其流程图如图1所示，具体包括以下步骤。

S100：采用传感器采集跑步机的振动声信号，根据经验丰富的工人进行异音判别，将振动声信号分类为正常振动声信号和异音振动声信号。

将振动传感器吸附在跑步机上以采集跑步机的振动声信号，例如，振动传感器吸附于跑步机中主要器件的表面，如，振动传感器吸附于跑步机中的压力轮、跑步带、电机等。

采集振动声信号时，可以根据实际需求，设置不同的采样率，采集相应的振动声信号，优选的，当跑步机开始运转时开始采集，避免提前采集会出现采集信号初始阶段出现大量噪声或者静音信号，延迟采集会出现采集信号的信息缺失，造成识别困难、误报或者漏报的情况。

基于采集大量的振动声信号，先根据经验丰富的工人的听觉、主观评价对采集的振动声信号进行分类，该采集的振动声信号分类为正常振动声信号和异音振动声信号，并对分类的正常振动声信号和异音振动声信号进行相应的标签处理，例如，将正常振动声信号标为“1”，将异音振动声信号标为“0”，或者，将正常振动声信号标为“0”，将异音振动声信号标为“1”。

经过上述人工听觉将采集的振动声信号分为两类：正常振声信号和异音振动声信号，并基于标签对该两类信号进行分类存储，形成正常振动声信号库和异音振动声信号库。

S110：对分类的振动声信号进行预处理，基于不破坏信号连续性的条件下，进行截断处理。

因后续对振动声信号的特征提取时，只需要对采集的振动信号的部分信号数据片段提取特征即可，为了降低数据量，该预处理具体包括对采集的振动信号进行截断处理，基于不破坏振动声信号连续性的条件下，选择表征正常振动声信号和异音振动声信号的振动声信号数据段，将截断处理获取的振动声信号数据段形成样本。

进一步，为了提高识别模型的鲁棒性，本实施例还通过数据增强的方法对截断处理获取的振动声信号进行增强处理，例如，对振动声信号数据段加入噪声、调音、对抗神经网络、同类型信号加权融合等增加数据类型。

因振动声信号的特征提取是实现跑步机异音识别最为关键的一步，特征分析一般分为：时域特征、频域特征、时频域特征或者组合特征。

进一步，预处理还包括步骤：

提取振动声信号数据段的时域特征、频域特征和时频域特征；

及分析正常振动声信号和异音振动声信号在时域特征、频域特征和时频域特征的不同；

根据不同，选取识别正常振动声信号和异音振动声信号的时频域特征。

具体的，时域特征：基于声信号的短时平稳特性，运用数字信号处理的知识，将原始信号分帧处理，采用汉明窗对采集的振动信号进行滑动选取，这样的话连续的时域信号就变成了一段段离散的信号。常用的时域特征有：原始波形、过零率、短时能量、自相关函数。时域特征反映了信号在时域上的变化信息，然而忽略了频率信息。跑步机异音信号相比于正常信号来说，在时域上短时能量更大，过零率更低，低频成分更高。但是当它们作为异音识别的特征时，识别效果比较差，并没有充分反映两者在特征上的真正差异。

频域特征：基于声信号的短时平稳特性，分析异音信号在频域上的特征分布情况，通过傅里叶变化将振动信号分解成不同频率成分的叠加，直观上可以看出正常信号和异音信号的差别，然而异音信号和正常信号的频率都主要集中在低频段，特征差异不大。而且频域特征具有以下缺点：缺少时域信息，不适用于非稳定信号。振动信号本来就是非稳定信号。

时频域特征：基于声信号的短时平稳特性，通过短时傅里叶变化之后，一维时域信号变成二维时频图像，表征了异音信号和正常信号在时域和频域上的特征，充分考虑了信号的时间特性和空间特性。尤其是对于异音识别来说，基于人耳对不同声音的灵敏特性，采用多个三角滤波器对功率谱进行滤波等一系列步骤之后，获得梅尔倒谱系数(MFCC)，梅尔倒谱(log_Mel)，色度(Chroma_stft)等特征参数，可以更好的模拟人耳对于低频的敏感、音高的变化、谐频特征、不同频率段能量的改变等等特征的敏感特性。因此，时频域特征能更好的捕捉异音信号和正常信号在时频域上的差别。

S120：对预处理的振动声信号提取不同类型的特征，并对提取的各类型特征进行特征组合形成多组融合特征。

在本实施例中，对时频域特征提取MFCC特征、梅尔倒谱(log_Mel)特征，色度(Chroma_stft)特征、频谱质心特征(spectral_constrast)和调性网络(Tonnetz)特征。

其中，MFCC特征的提取流程如图2所示、色度特征的提取流程如图3所示，调性网络特征的提取流程如图4所示。

其中，对于提取的特征采用如下向量表示：

MFCC特征作为向量V₁，维度dim(V₁)＝(None，40)；

梅尔倒谱(log_Mel)特征作为向量V₂，维度dim(V₂)＝(None，128)；

频谱质心(spectral_contrast)特征作为向量V₃，维度dim(V₃)＝(None，6)；

色度(chroma_stft)特征作为向量V₄,维度dim(V₄)＝(None,12)；

调性网络(Tonnetz)特征作为向量V₅,维度dim(V₅)＝(None,6)；

为了充分体现异音信号和正常信号的差别，对于提取的特征值进行融合，从数学角度上来看，进行列向量变换，此过程当中融合特征向量的行数不变，而列数增加，特征的融合过程如图5所示。

例如，当选取的融合特征为LMC(MFCC、log_Mel、chroma)时，则融合后的维度dim(LMC)＝(None,180)，当选取的融合特征为LMS(MFCC、log_Mel、pectral_contrast)时，融合后的维度dim(LMS)＝(None,174),除此之外，还有其它融合特征值，例如，任意两个特征的融合、任意四个特征的融合等。因此，可以将提取的特征经融合后，可以获得：单一特征和多组融合特征，分别保存至不同的样本当中，用于后续的分类识别。

S130：通过机器学习、深度学习及机器学习和深度学习的组合分别对各组融合特征、各单一特征进行识别，通过识别结果获取最优识别模型及最优特征，将所述最优识别模型作为模拟人耳识别跑步机异音的识别模型，将所述最优特征作为模拟人耳识别跑步机异音时所需的提取特征。

具体的，设置分类器，分类器包括机器学习、深度学习机及机器学习和深度学习的组合，其中，机器学习包括：SVM(支持向量积)、逻辑回归、随机森林、K近邻。深度学习包括:DNN、CNN、RNN。机器学习和深度学习组合包括：CNN+SVM、CNN+ELM、CNN+PCA、CNN+GMM等。

将以上提取的各单一特征和各融合特征分别输入到不同的分类器当中训练、分类。对于不同的特征值和不同的分类器组合，根据它们的分类结果、误差、混淆矩阵等判决标准进行分析，选择最优的特征值和分类器组合，如图6所示。

通过各分类器的分类结果、误差、混淆矩阵等判决标准进行分析，获得，该最优特征为MFCC特征、梅尔倒谱特征、色度特征的融合特征，该最优识别模型为CNN-SVM模型。

优先的，CNN-SVM模型的结构包括：输入层、卷积层、池化层、全连接层和与全连接层的输出端耦合的SVM，其中，CNN-SVM模型的网络模型如图7所示，具体的，利用多层卷积神经网络(CNN)提取振动声信号的高阶特征，聚焦融合特征的局部信息，最后采用支持向量机(SVM)作为卷积网络的输出层，提高CNN网络在故障诊断方面的识别效果。

相比于其它机械异音检测方法，本实施例提供的识别模型，基于融合特征识别跑步机异音，具有很好的识别效果，误报率低。克服了单一音频特征不能完全表征异音和正常信号的区别，采用MFCC、色度特征、梅尔倒谱不同环境下异音判别的听觉特性。利用数据增强的方法，对原始音频进行加噪、旋转、调音等增强手段，在保证音频属性和特征不变的情况下，增加训练数据量和数据样本，增加算法的鲁棒性和模型的泛化能力。基于时频特征将一维时域信号转化为频谱图，将语音识别问题转化为图像识别问题，利用卷积网络具有强学习能力、有效提取信号高阶特征、降低数据维度、捕捉深层特征等特点，支持向量机具有很强的可解释性、最大化样本几何间隔、核函数技巧等特点，采用SVM作为最后一层的分类器，提高识别率和泛化能力。

实施例二：

基于实施例一，本实施例提供一种识别跑步机异音的识别方法，其流程图如图8所示，具体包括以下步骤。

S200：采集跑步机的振动声信号。

S210：提取振动声信号的MFCC特征、梅尔倒谱特征和色度特征，并将MFCC特征、梅尔倒谱特征和色度特征进行融合形成融合特征。

其中，MFCC特征作为向量V₁，维度dim(V₁)＝(None，40)、梅尔倒谱(log_Mel)特征作为向量V₂，维度dim(V₂)＝(None，128)、色度(chroma_stft)特征作为向量V₄,维度dim(V₄)＝(None,12)；故，融合特征为LMC(MFCC、log_Mel、chroma)时，融合后的维度dim(LMC)＝(None,180)。

S220：采用CNN-SVM模型对所述融合特征进行识别，以识别振动声信号是否是异音振动声信号。

优先的，CNN-SVM模型的结构包括：输入层、卷积层、池化层、全连接层和与全连接层的输出端耦合的SVM，具体的，利用多层卷积神经网络(CNN)提取振动声信号的高阶特征，聚焦融合特征的局部信息，最后采用支持向量机(SVM)作为卷积网络的输出层，提高CNN网络在故障诊断方面的识别效果。

相比于其它机械异音检测方法，本实施例提供的识别方法基于融合特征识别跑步机异，具有很好的识别效果，误报率低。克服了单一音频特征不能完全表征异音和正常信号的区别，采用MFCC、色度特征、梅尔倒谱不同环境下异音判别的听觉特性。利用数据增强的方法，对原始音频进行加噪、旋转、调音等增强手段，在保证音频属性和特征不变的情况下，增加训练数据量和数据样本，增加算法的鲁棒性和模型的泛化能力。基于时频特征将一维时域信号转化为频谱图，将语音识别问题转化为图像识别问题，利用卷积网络具有强学习能力、有效提取信号高阶特征、降低数据维度、捕捉深层特征等特点，支持向量机具有很强的可解释性、最大化样本几何间隔、核函数技巧等特点，采用SVM作为最后一层的分类器，提高识别率和泛化能力。

实施例三：

基于实施例二，本实施例提供一种识别跑步机异音的识别***，其原理图如图9所示，包括采集模块1、特征融合模块2和识别模块3。

采集模块1用于采集跑步机的振动声信号；具体的，采集模块1为振动传感器，具体应用时，将振动传感器吸附在跑步机上以采集跑步机的振动声信号，例如，振动传感器吸附于跑步机中主要器件的表面，如，振动传感器吸附于跑步机中的压力轮、跑步带、电机等。

特征融合模块2用于提取振动声信号的MFCC特征、梅尔倒谱特征和色度特征，并将MFCC特征、梅尔倒谱特征和色度特征进行融合形成融合特征。

具体的，特征融合模块2提取的MFCC特征作为向量V₁，维度dim(V₁)＝(None，40)、梅尔倒谱(log_Mel)特征作为向量V₂，维度dim(V₂)＝(None，128)、色度(chroma_stft)特征作为向量V₄,维度dim(V₄)＝(None,12)；故，融合特征为LMC(MFCC、log_Mel、chroma)时，融合后的维度dim(LMC)＝(None,180)。

识别模块用于采用CNN-SVM模型对所述融合特征进行识别，以识别振动声信号是否是异音振动声信号。

相比于其它机械异音检测，本实施例提供的识别***基于融合特征识别跑步机异音，具有很好的识别效果，误报率低。克服了单一音频特征不能完全表征异音和正常信号的区别，采用MFCC、色度特征、梅尔倒谱不同环境下异音判别的听觉特性。利用数据增强的方法，对原始音频进行加噪、旋转、调音等增强手段，在保证音频属性和特征不变的情况下，增加训练数据量和数据样本，增加算法的鲁棒性和模型的泛化能力。基于时频特征将一维时域信号转化为频谱图，将语音识别问题转化为图像识别问题，利用卷积网络具有强学习能力、有效提取信号高阶特征、降低数据维度、捕捉深层特征等特点，支持向量机具有很强的可解释性、最大化样本几何间隔、核函数技巧等特点，采用SVM作为最后一层的分类器，提高识别率和泛化能力。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种跑步机异音识别模型的确定方法，其特征在于，包括步骤：

2.如权利要求1所述的识别模型确定方法，其特征在于，所述对分类的振动声信号进行预处理包括步骤：对采集的振动声信号进行截断处理，基于不破坏振动声信号连续性的条件下，选择表征所述正常振动声信号和异音振动声信号的振动声信号数据段。

3.如权利要求2所述的识别模型确定方法，其特征在于，所述对分类的振动声信号进行预处理还包括步骤：

4.如权利要求3所述的识别模型确定方法，其特征在于，所述对预处理的振动声信号提取不同类型的特征包括步骤：对所述时频域特征提取MFCC特征、梅尔倒谱特征、频谱质心特征、色度特征和调性网络特征。

5.如权利要求4所述的识别模型确定方法，其特征在于，所述MFCC特征的提取维度为40，所述梅尔倒谱特征的提取维度为128，所述频谱质心特征的提取维度为6，所述色度特征的提取维度为12，所述调性网络特征的提取维度为6。

6.如权利要求5所述的识别模型确定方法，其特征在于，所述最优特征为MFCC特征、梅尔倒谱特征、色度特征的融合特征。

7.如权利要求1所述的识别模型确定方法，其特征在于，所述最优识别模型为CNN-SVM模型，所述CNN-SVM模型的结构包括：输入层、卷积层、池化层、全连接层和与所述全连接层的输出端耦合的SVM。

8.一种识别跑步机异音的识别方法，其特征在于，包括步骤：

采集跑步机的振动声信号；

定义采样率，采用汉明窗对振动信号进行滑动选取，分帧处理，提取所述振动声信号的MFCC特征、梅尔倒谱特征和色度特征，并将所述MFCC特征、梅尔倒谱特征和色度特征进行融合形成融合特征；

9.如权利要求8所述的识别方法，其特征在于，所述CNN-SVM模型的结构包括：输入层、卷积层、池化层、全连接层和与所述全连接层的输出端耦合的SVM。

10.一种识别跑步机异音的识别***，其特征在于，包括：

采集模块，用于采集跑步机的振动声信号；