CN110992985A - 识别跑步机异音的识别模型确定方法、识别方法、*** - Google Patents
识别跑步机异音的识别模型确定方法、识别方法、*** Download PDFInfo
- Publication number
- CN110992985A CN110992985A CN201911215795.7A CN201911215795A CN110992985A CN 110992985 A CN110992985 A CN 110992985A CN 201911215795 A CN201911215795 A CN 201911215795A CN 110992985 A CN110992985 A CN 110992985A
- Authority
- CN
- China
- Prior art keywords
- features
- vibration sound
- treadmill
- identification
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000005236 sound signal Effects 0.000 claims abstract description 105
- 230000004927 fusion Effects 0.000 claims abstract description 47
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000011176 pooling Methods 0.000 claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims abstract description 5
- 210000005069 ears Anatomy 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000013135 deep learning Methods 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims 1
- 238000012706 support-vector machine Methods 0.000 abstract description 27
- 230000000694 effects Effects 0.000 abstract description 10
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 238000012549 training Methods 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 230000007547 defect Effects 0.000 abstract description 5
- 238000003745 diagnosis Methods 0.000 abstract description 5
- 238000013527 convolutional neural network Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000009467 reduction Effects 0.000 abstract description 3
- 230000003321 amplification Effects 0.000 abstract description 2
- 238000003199 nucleic acid amplification method Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
一种跑步机异音识别模型的确定方法、跑步机异音的识别方法及识别***,基于声信号的短时平稳特性,对采集的振动信号进行时频特征提取。对于单一特征不能完全表征故障特性的缺点,采用梅尔倒谱系数、梅尔倒谱以及频谱色度作为异音检测的融合特征。并且通过对抗神经网络和音频数据扩增的手段,增加训练数据量和提升算法鲁棒性。利用多层卷积神经网络(CNN)具有局部感知、权值共享、池化降维等特性,提取振动信号的高阶特征,聚焦融合特征的局部信息,最后采用支持向量机(SVM)作为卷积网络的输出层,提高CNN网络在故障诊断方面的识别效果。
Description
技术领域
本发明涉及跑步机异音识别技术领域,具体涉及识别跑步机异音的识别模型确定方法、识别方法、***。
背景技术
跑步机作为一种流行的健身器材,是大多数人选择运动的有效方式。然而随着物质追求的提高,越来越多的消费者提出对跑步机的体感要求,要求最大化减小电动机各机械运转部位的振动噪声。因此如何实时、快速、准确、低成本地检测出跑步机机械部件故障产生的振动噪声,最大程度降低不合格产品的出现,有效减小损失和跑步机中机械故障带来的问题,是目前亟待解决的问题。
发明内容
本申请提供一种识别跑步机异音的识别模型确定方法、识别跑步机异音的识别方法及识别***,可以有效模拟人耳识别跑步机异音,达到可靠、高效识别的目的。
本发明提供的技术方案如下:
本发明提供一种识别跑步机异音的识别模型确定方法,包括步骤:
采用传感器采集跑步机的振动声信号,根据经验丰富的工人进行异音判别,将所述振动声信号分类为正常振动声信号和异音振动声信号;
对分类的振动声信号进行预处理,基于不破坏信号连续性的条件下,进行截断处理;
对预处理的振动声信号提取不同类型的特征,并对提取的各类型特征进行特征组合形成多组融合特征;
通过机器学习、深度学习及机器学习和深度学习的组合分别对各组融合特征、各单一特征进行识别,通过识别结果获取最优识别模型及最优特征,将所述最优识别模型作为模拟人耳识别跑步机异音的识别模型,将所述最优特征作为模拟人耳识别跑步机异音时所需的提取特征。
进一步优选的,所述对分类的振动声信号进行预处理包括步骤:对采集的振动声信号进行截断处理,基于不破坏振动声信号连续性的条件下,选择表征所述正常振动声信号和异音振动声信号的振动声信号数据段。
进一步优选的,所述对分类的振动声信号进行预处理还包括步骤:
提取所述振动声信号数据段的时域特征、频域特征和时频域特征;
及分析所述正常振动声信号和异音振动声信号在时域特征、频域特征和时频域特征的不同;
根据所述不同,选取识别所述正常振动声信号和异音振动声信号的时频域特征。
进一步优选的,所述对预处理的振动声信号提取不同类型的特征包括步骤:对所述时频域特征提取MFCC特征、梅尔倒谱特征、频谱质心特征、色度特征和调性网络特征。
进一步优选的,所述MFCC特征的提取维度为40,所述梅尔倒谱特征的提取维度为128,所述频谱质心特征的提取维度为6,所述色度特征的提取维度为12,所述调性网络特征的提取维度为6。
进一步优选的,所述最优特征为MFCC特征、梅尔倒谱特征、色度特征的融合特征。
进一步优选的,所述最优识别模型为CNN-SVM模型,所述CNN-SVM模型的结构包括:输入层、卷积层、池化层、全连接层和与所述全连接层的输出端耦合的SVM。
本发明还提供一种识别跑步机异音的识别方法,包括步骤:
采集跑步机的振动声信号;
提取所述振动声信号的MFCC特征、梅尔倒谱特征和色度特征,并将所述MFCC特征、梅尔倒谱特征和色度特征进行融合形成融合特征;
采用CNN-SVM模型对所述融合特征进行识别,以识别所述振动声信号是否是异音振动声信号。
进一步优选的,所述CNN-SVM模型的结构包括:输入层、卷积层、池化层、全连接层和与所述全连接层的输出端耦合的SVM。
本发明还提供一种识别跑步机异音的识别***,包括:
采集模块,用于采集跑步机的振动声信号;
特征融合模块,用于提取所述振动声信号的MFCC特征、梅尔倒谱特征和色度特征,并将所述MFCC特征、梅尔倒谱特征和色度特征进行融合形成融合特征;
识别模块,用于采用CNN-SVM模型对所述融合特征进行识别,以识别所述振动声信号是否是异音振动声信号。
本发明提供的识别跑步机异音的识别模型确定方法、识别跑步机异音的识别方法及识别***,具有以下至少一种有益效果:
1)基于声信号的短时平稳特性,对采集的振动信号进行时频特征提取,基于融合特征识别跑步机异音,与单一音频特征相比,具有很好的识别效果、误报率低,克服了单一音频特征不能完全表征异音信号和正常信号的区别。
2)采用MFCC特征、梅尔倒谱特征和色度特征的融合特征能够提高不同环境下异音判别的听觉特性,更好地模拟人耳识别跑步机异音,并且通过对抗神经网络和音频数据扩增(高斯加噪、时间拉伸、音高调整等)的手段,增加训练数据量、提升算法鲁棒性和模型的泛化能力,利用多层卷积神经网络(CNN)具有局部感知、权值共享和池化降维特性,提取振动声信号的高阶特征,聚焦融合特征的局部信息。最后。基于样本间的最大化几何间隔特性寻找最优的分离超平面,采用支持向量机(SVM)作为卷积网络的输出层,提高CNN网络在故障诊断方面的识别效果。
3)基于时频域特征将一维时域信号转化为二维时频图像,将异音识别问题转化为图像识别问题,利用卷积网络具有强学习能力、有效提取信号高阶特征、降低数据维度、捕捉深层特征等特点,利用支持向量机具有很强的可解释性、最大化样本几何间隔、核函数技巧等特点,提高识别率和泛化能力。
附图说明
图1为本发明提供的识别模型确定方法流程图;
图2为MFCC特征提取流程图;
图3为为色度特征提取流程图;
图4为调性网络特征提取流程图;
图5为特征融合过程示意图;
图6为识别模型和融合特征最优选取示意图;
图7为CNN-SVM模型的网络模型示意图;
图8为跑步机异音识别方法流程图;
图9为跑步机异音识别***原理框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
目前,大多数机械异音前期都是基于有经验的工人进行人耳判别,而通过人耳判别的方式,不仅对工人的经验有较高的要求,且工人常时间的判别容易出现听觉疲劳,造成误判,基于此,本发明提供一种能够模拟人耳识别跑步机异音的识别方法,为了能够模拟人耳识别跑步机异音,本发明还提供一种识别跑步机异音的识别模型确定方法,同时也给出了模拟人耳识别跑步机异音中最优的提取特征。
实施例一:
本实施例提供一种识别跑步机异音的识别模型确定方法,其流程图如图1所示,具体包括以下步骤。
S100:采用传感器采集跑步机的振动声信号,根据经验丰富的工人进行异音判别,将振动声信号分类为正常振动声信号和异音振动声信号。
将振动传感器吸附在跑步机上以采集跑步机的振动声信号,例如,振动传感器吸附于跑步机中主要器件的表面,如,振动传感器吸附于跑步机中的压力轮、跑步带、电机等。
采集振动声信号时,可以根据实际需求,设置不同的采样率,采集相应的振动声信号,优选的,当跑步机开始运转时开始采集,避免提前采集会出现采集信号初始阶段出现大量噪声或者静音信号,延迟采集会出现采集信号的信息缺失,造成识别困难、误报或者漏报的情况。
基于采集大量的振动声信号,先根据经验丰富的工人的听觉、主观评价对采集的振动声信号进行分类,该采集的振动声信号分类为正常振动声信号和异音振动声信号,并对分类的正常振动声信号和异音振动声信号进行相应的标签处理,例如,将正常振动声信号标为“1”,将异音振动声信号标为“0”,或者,将正常振动声信号标为“0”,将异音振动声信号标为“1”。
经过上述人工听觉将采集的振动声信号分为两类:正常振声信号和异音振动声信号,并基于标签对该两类信号进行分类存储,形成正常振动声信号库和异音振动声信号库。
S110:对分类的振动声信号进行预处理,基于不破坏信号连续性的条件下,进行截断处理。
因后续对振动声信号的特征提取时,只需要对采集的振动信号的部分信号数据片段提取特征即可,为了降低数据量,该预处理具体包括对采集的振动信号进行截断处理,基于不破坏振动声信号连续性的条件下,选择表征正常振动声信号和异音振动声信号的振动声信号数据段,将截断处理获取的振动声信号数据段形成样本。
进一步,为了提高识别模型的鲁棒性,本实施例还通过数据增强的方法对截断处理获取的振动声信号进行增强处理,例如,对振动声信号数据段加入噪声、调音、对抗神经网络、同类型信号加权融合等增加数据类型。
因振动声信号的特征提取是实现跑步机异音识别最为关键的一步,特征分析一般分为:时域特征、频域特征、时频域特征或者组合特征。
进一步,预处理还包括步骤:
提取振动声信号数据段的时域特征、频域特征和时频域特征;
及分析正常振动声信号和异音振动声信号在时域特征、频域特征和时频域特征的不同;
根据不同,选取识别正常振动声信号和异音振动声信号的时频域特征。
具体的,时域特征:基于声信号的短时平稳特性,运用数字信号处理的知识,将原始信号分帧处理,采用汉明窗对采集的振动信号进行滑动选取,这样的话连续的时域信号就变成了一段段离散的信号。常用的时域特征有:原始波形、过零率、短时能量、自相关函数。时域特征反映了信号在时域上的变化信息,然而忽略了频率信息。跑步机异音信号相比于正常信号来说,在时域上短时能量更大,过零率更低,低频成分更高。但是当它们作为异音识别的特征时,识别效果比较差,并没有充分反映两者在特征上的真正差异。
频域特征:基于声信号的短时平稳特性,分析异音信号在频域上的特征分布情况,通过傅里叶变化将振动信号分解成不同频率成分的叠加,直观上可以看出正常信号和异音信号的差别,然而异音信号和正常信号的频率都主要集中在低频段,特征差异不大。而且频域特征具有以下缺点:缺少时域信息,不适用于非稳定信号。振动信号本来就是非稳定信号。
时频域特征:基于声信号的短时平稳特性,通过短时傅里叶变化之后,一维时域信号变成二维时频图像,表征了异音信号和正常信号在时域和频域上的特征,充分考虑了信号的时间特性和空间特性。尤其是对于异音识别来说,基于人耳对不同声音的灵敏特性,采用多个三角滤波器对功率谱进行滤波等一系列步骤之后,获得梅尔倒谱系数(MFCC),梅尔倒谱(log_Mel),色度(Chroma_stft)等特征参数,可以更好的模拟人耳对于低频的敏感、音高的变化、谐频特征、不同频率段能量的改变等等特征的敏感特性。因此,时频域特征能更好的捕捉异音信号和正常信号在时频域上的差别。
S120:对预处理的振动声信号提取不同类型的特征,并对提取的各类型特征进行特征组合形成多组融合特征。
在本实施例中,对时频域特征提取MFCC特征、梅尔倒谱(log_Mel)特征,色度(Chroma_stft)特征、频谱质心特征(spectral_constrast)和调性网络(Tonnetz)特征。
其中,MFCC特征的提取流程如图2所示、色度特征的提取流程如图3所示,调性网络特征的提取流程如图4所示。
其中,对于提取的特征采用如下向量表示:
MFCC特征作为向量V1,维度dim(V1)=(None,40);
梅尔倒谱(log_Mel)特征作为向量V2,维度dim(V2)=(None,128);
频谱质心(spectral_contrast)特征作为向量V3,维度dim(V3)=(None,6);
色度(chroma_stft)特征作为向量V4,维度dim(V4)=(None,12);
调性网络(Tonnetz)特征作为向量V5,维度dim(V5)=(None,6);
为了充分体现异音信号和正常信号的差别,对于提取的特征值进行融合,从数学角度上来看,进行列向量变换,此过程当中融合特征向量的行数不变,而列数增加,特征的融合过程如图5所示。
例如,当选取的融合特征为LMC(MFCC、log_Mel、chroma)时,则融合后的维度dim(LMC)=(None,180),当选取的融合特征为LMS(MFCC、log_Mel、pectral_contrast)时,融合后的维度dim(LMS)=(None,174),除此之外,还有其它融合特征值,例如,任意两个特征的融合、任意四个特征的融合等。因此,可以将提取的特征经融合后,可以获得:单一特征和多组融合特征,分别保存至不同的样本当中,用于后续的分类识别。
S130:通过机器学习、深度学习及机器学习和深度学习的组合分别对各组融合特征、各单一特征进行识别,通过识别结果获取最优识别模型及最优特征,将所述最优识别模型作为模拟人耳识别跑步机异音的识别模型,将所述最优特征作为模拟人耳识别跑步机异音时所需的提取特征。
具体的,设置分类器,分类器包括机器学习、深度学习机及机器学习和深度学习的组合,其中,机器学习包括:SVM(支持向量积)、逻辑回归、随机森林、K近邻。深度学习包括:DNN、CNN、RNN。机器学习和深度学习组合包括:CNN+SVM、CNN+ELM、CNN+PCA、CNN+GMM等。
将以上提取的各单一特征和各融合特征分别输入到不同的分类器当中训练、分类。对于不同的特征值和不同的分类器组合,根据它们的分类结果、误差、混淆矩阵等判决标准进行分析,选择最优的特征值和分类器组合,如图6所示。
通过各分类器的分类结果、误差、混淆矩阵等判决标准进行分析,获得,该最优特征为MFCC特征、梅尔倒谱特征、色度特征的融合特征,该最优识别模型为CNN-SVM模型。
优先的,CNN-SVM模型的结构包括:输入层、卷积层、池化层、全连接层和与全连接层的输出端耦合的SVM,其中,CNN-SVM模型的网络模型如图7所示,具体的,利用多层卷积神经网络(CNN)提取振动声信号的高阶特征,聚焦融合特征的局部信息,最后采用支持向量机(SVM)作为卷积网络的输出层,提高CNN网络在故障诊断方面的识别效果。
相比于其它机械异音检测方法,本实施例提供的识别模型,基于融合特征识别跑步机异音,具有很好的识别效果,误报率低。克服了单一音频特征不能完全表征异音和正常信号的区别,采用MFCC、色度特征、梅尔倒谱不同环境下异音判别的听觉特性。利用数据增强的方法,对原始音频进行加噪、旋转、调音等增强手段,在保证音频属性和特征不变的情况下,增加训练数据量和数据样本,增加算法的鲁棒性和模型的泛化能力。基于时频特征将一维时域信号转化为频谱图,将语音识别问题转化为图像识别问题,利用卷积网络具有强学习能力、有效提取信号高阶特征、降低数据维度、捕捉深层特征等特点,支持向量机具有很强的可解释性、最大化样本几何间隔、核函数技巧等特点,采用SVM作为最后一层的分类器,提高识别率和泛化能力。
实施例二:
基于实施例一,本实施例提供一种识别跑步机异音的识别方法,其流程图如图8所示,具体包括以下步骤。
S200:采集跑步机的振动声信号。
将振动传感器吸附在跑步机上以采集跑步机的振动声信号,例如,振动传感器吸附于跑步机中主要器件的表面,如,振动传感器吸附于跑步机中的压力轮、跑步带、电机等。
采集振动声信号时,可以根据实际需求,设置不同的采样率,采集相应的振动声信号,优选的,当跑步机开始运转时开始采集,避免提前采集会出现采集信号初始阶段出现大量噪声或者静音信号,延迟采集会出现采集信号的信息缺失,造成识别困难、误报或者漏报的情况。
S210:提取振动声信号的MFCC特征、梅尔倒谱特征和色度特征,并将MFCC特征、梅尔倒谱特征和色度特征进行融合形成融合特征。
其中,MFCC特征作为向量V1,维度dim(V1)=(None,40)、梅尔倒谱(log_Mel)特征作为向量V2,维度dim(V2)=(None,128)、色度(chroma_stft)特征作为向量V4,维度dim(V4)=(None,12);故,融合特征为LMC(MFCC、log_Mel、chroma)时,融合后的维度dim(LMC)=(None,180)。
S220:采用CNN-SVM模型对所述融合特征进行识别,以识别振动声信号是否是异音振动声信号。
优先的,CNN-SVM模型的结构包括:输入层、卷积层、池化层、全连接层和与全连接层的输出端耦合的SVM,具体的,利用多层卷积神经网络(CNN)提取振动声信号的高阶特征,聚焦融合特征的局部信息,最后采用支持向量机(SVM)作为卷积网络的输出层,提高CNN网络在故障诊断方面的识别效果。
相比于其它机械异音检测方法,本实施例提供的识别方法基于融合特征识别跑步机异,具有很好的识别效果,误报率低。克服了单一音频特征不能完全表征异音和正常信号的区别,采用MFCC、色度特征、梅尔倒谱不同环境下异音判别的听觉特性。利用数据增强的方法,对原始音频进行加噪、旋转、调音等增强手段,在保证音频属性和特征不变的情况下,增加训练数据量和数据样本,增加算法的鲁棒性和模型的泛化能力。基于时频特征将一维时域信号转化为频谱图,将语音识别问题转化为图像识别问题,利用卷积网络具有强学习能力、有效提取信号高阶特征、降低数据维度、捕捉深层特征等特点,支持向量机具有很强的可解释性、最大化样本几何间隔、核函数技巧等特点,采用SVM作为最后一层的分类器,提高识别率和泛化能力。
实施例三:
基于实施例二,本实施例提供一种识别跑步机异音的识别***,其原理图如图9所示,包括采集模块1、特征融合模块2和识别模块3。
采集模块1用于采集跑步机的振动声信号;具体的,采集模块1为振动传感器,具体应用时,将振动传感器吸附在跑步机上以采集跑步机的振动声信号,例如,振动传感器吸附于跑步机中主要器件的表面,如,振动传感器吸附于跑步机中的压力轮、跑步带、电机等。
采集振动声信号时,可以根据实际需求,设置不同的采样率,采集相应的振动声信号,优选的,当跑步机开始运转时开始采集,避免提前采集会出现采集信号初始阶段出现大量噪声或者静音信号,延迟采集会出现采集信号的信息缺失,造成识别困难、误报或者漏报的情况。
特征融合模块2用于提取振动声信号的MFCC特征、梅尔倒谱特征和色度特征,并将MFCC特征、梅尔倒谱特征和色度特征进行融合形成融合特征。
具体的,特征融合模块2提取的MFCC特征作为向量V1,维度dim(V1)=(None,40)、梅尔倒谱(log_Mel)特征作为向量V2,维度dim(V2)=(None,128)、色度(chroma_stft)特征作为向量V4,维度dim(V4)=(None,12);故,融合特征为LMC(MFCC、log_Mel、chroma)时,融合后的维度dim(LMC)=(None,180)。
识别模块用于采用CNN-SVM模型对所述融合特征进行识别,以识别振动声信号是否是异音振动声信号。
优先的,CNN-SVM模型的结构包括:输入层、卷积层、池化层、全连接层和与全连接层的输出端耦合的SVM,具体的,利用多层卷积神经网络(CNN)提取振动声信号的高阶特征,聚焦融合特征的局部信息,最后采用支持向量机(SVM)作为卷积网络的输出层,提高CNN网络在故障诊断方面的识别效果。
相比于其它机械异音检测,本实施例提供的识别***基于融合特征识别跑步机异音,具有很好的识别效果,误报率低。克服了单一音频特征不能完全表征异音和正常信号的区别,采用MFCC、色度特征、梅尔倒谱不同环境下异音判别的听觉特性。利用数据增强的方法,对原始音频进行加噪、旋转、调音等增强手段,在保证音频属性和特征不变的情况下,增加训练数据量和数据样本,增加算法的鲁棒性和模型的泛化能力。基于时频特征将一维时域信号转化为频谱图,将语音识别问题转化为图像识别问题,利用卷积网络具有强学习能力、有效提取信号高阶特征、降低数据维度、捕捉深层特征等特点,支持向量机具有很强的可解释性、最大化样本几何间隔、核函数技巧等特点,采用SVM作为最后一层的分类器,提高识别率和泛化能力。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (10)
1.一种跑步机异音识别模型的确定方法,其特征在于,包括步骤:
采用传感器采集跑步机的振动声信号,根据经验丰富的工人进行异音判别,将所述振动声信号分类为正常振动声信号和异音振动声信号;
对分类的振动声信号进行预处理,基于不破坏信号连续性的条件下,进行截断处理;
对预处理的振动声信号提取不同类型的特征,并对提取的各类型特征进行特征组合形成多组融合特征;
通过机器学习、深度学习及机器学习和深度学习的组合分别对各组融合特征、各单一特征进行识别,通过识别结果获取最优识别模型及最优特征,将所述最优识别模型作为模拟人耳识别跑步机异音的识别模型,将所述最优特征作为模拟人耳识别跑步机异音时所需的提取特征。
2.如权利要求1所述的识别模型确定方法,其特征在于,所述对分类的振动声信号进行预处理包括步骤:对采集的振动声信号进行截断处理,基于不破坏振动声信号连续性的条件下,选择表征所述正常振动声信号和异音振动声信号的振动声信号数据段。
3.如权利要求2所述的识别模型确定方法,其特征在于,所述对分类的振动声信号进行预处理还包括步骤:
提取所述振动声信号数据段的时域特征、频域特征和时频域特征;
及分析所述正常振动声信号和异音振动声信号在时域特征、频域特征和时频域特征的不同;
根据所述不同,选取识别所述正常振动声信号和异音振动声信号的时频域特征。
4.如权利要求3所述的识别模型确定方法,其特征在于,所述对预处理的振动声信号提取不同类型的特征包括步骤:对所述时频域特征提取MFCC特征、梅尔倒谱特征、频谱质心特征、色度特征和调性网络特征。
5.如权利要求4所述的识别模型确定方法,其特征在于,所述MFCC特征的提取维度为40,所述梅尔倒谱特征的提取维度为128,所述频谱质心特征的提取维度为6,所述色度特征的提取维度为12,所述调性网络特征的提取维度为6。
6.如权利要求5所述的识别模型确定方法,其特征在于,所述最优特征为MFCC特征、梅尔倒谱特征、色度特征的融合特征。
7.如权利要求1所述的识别模型确定方法,其特征在于,所述最优识别模型为CNN-SVM模型,所述CNN-SVM模型的结构包括:输入层、卷积层、池化层、全连接层和与所述全连接层的输出端耦合的SVM。
8.一种识别跑步机异音的识别方法,其特征在于,包括步骤:
采集跑步机的振动声信号;
定义采样率,采用汉明窗对振动信号进行滑动选取,分帧处理,提取所述振动声信号的MFCC特征、梅尔倒谱特征和色度特征,并将所述MFCC特征、梅尔倒谱特征和色度特征进行融合形成融合特征;
采用CNN-SVM模型对所述融合特征进行识别,以识别所述振动声信号是否是异音振动声信号。
9.如权利要求8所述的识别方法,其特征在于,所述CNN-SVM模型的结构包括:输入层、卷积层、池化层、全连接层和与所述全连接层的输出端耦合的SVM。
10.一种识别跑步机异音的识别***,其特征在于,包括:
采集模块,用于采集跑步机的振动声信号;
特征融合模块,用于提取所述振动声信号的MFCC特征、梅尔倒谱特征和色度特征,并将所述MFCC特征、梅尔倒谱特征和色度特征进行融合形成融合特征;
识别模块,用于采用CNN-SVM模型对所述融合特征进行识别,以识别所述振动声信号是否是异音振动声信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911215795.7A CN110992985A (zh) | 2019-12-02 | 2019-12-02 | 识别跑步机异音的识别模型确定方法、识别方法、*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911215795.7A CN110992985A (zh) | 2019-12-02 | 2019-12-02 | 识别跑步机异音的识别模型确定方法、识别方法、*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110992985A true CN110992985A (zh) | 2020-04-10 |
Family
ID=70089364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911215795.7A Pending CN110992985A (zh) | 2019-12-02 | 2019-12-02 | 识别跑步机异音的识别模型确定方法、识别方法、*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110992985A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933186A (zh) * | 2020-10-12 | 2020-11-13 | 中国电力科学研究院有限公司 | 用于对有载分接开关进行故障识别的方法、装置及*** |
CN112101301A (zh) * | 2020-11-03 | 2020-12-18 | 武汉工程大学 | 一种螺杆水冷机组的好音稳定预警方法、装置及存储介质 |
CN112233692A (zh) * | 2020-09-28 | 2021-01-15 | 东莞市东纳通信有限公司 | 异音检测方法、装置、电子设备及存储介质 |
CN113780150A (zh) * | 2021-09-07 | 2021-12-10 | 广西电网有限责任公司贺州供电局 | 一种基于多维身体状态感知的疲劳检测方法及*** |
CN114155879A (zh) * | 2021-12-06 | 2022-03-08 | 哈尔滨工程大学 | 一种利用时频融合补偿异常感知及稳定性的异音检测方法 |
CN114352486A (zh) * | 2021-12-31 | 2022-04-15 | 西安翔迅科技有限责任公司 | 一种基于分类的风电机组叶片音频故障检测方法 |
CN116935894A (zh) * | 2023-09-19 | 2023-10-24 | 佛山科学技术学院 | 一种基于时频域突变特征的微电机异音识别方法及*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001108518A (ja) * | 1999-08-03 | 2001-04-20 | Mitsui Eng & Shipbuild Co Ltd | 異常検知方法および装置 |
CN106323452A (zh) * | 2015-07-06 | 2017-01-11 | 中达电子零组件(吴江)有限公司 | 一种设备异音的检测方法及检测装置 |
CN106404388A (zh) * | 2016-09-13 | 2017-02-15 | 西安科技大学 | 一种刮板输送机飘链故障诊断方法 |
CN107013449A (zh) * | 2017-04-18 | 2017-08-04 | 山东万腾电子科技有限公司 | 基于深度学习的声音信号识别压缩机故障的方法及*** |
US20180005463A1 (en) * | 2016-06-30 | 2018-01-04 | Massachusetts lnstitute of Technology | System, Device, and Method for Feature Generation, Selection, and Classification for Audio Detection of Anomalous Engine Operation |
CN109357749A (zh) * | 2018-09-04 | 2019-02-19 | 南京理工大学 | 一种基于dnn算法的电力设备音频信号分析方法 |
CN109658954A (zh) * | 2018-12-27 | 2019-04-19 | 广州势必可赢网络科技有限公司 | 一种用于机电设备的故障检测方法、装置及*** |
CN110132598A (zh) * | 2019-05-13 | 2019-08-16 | 中国矿业大学 | 旋转设备滚动轴承故障噪声诊断算法 |
CN110425710A (zh) * | 2019-08-30 | 2019-11-08 | 盈盛智创科技(广州)有限公司 | 一种空调的故障检测方法、装置、设备及存储介质 |
-
2019
- 2019-12-02 CN CN201911215795.7A patent/CN110992985A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001108518A (ja) * | 1999-08-03 | 2001-04-20 | Mitsui Eng & Shipbuild Co Ltd | 異常検知方法および装置 |
CN106323452A (zh) * | 2015-07-06 | 2017-01-11 | 中达电子零组件(吴江)有限公司 | 一种设备异音的检测方法及检测装置 |
US20180005463A1 (en) * | 2016-06-30 | 2018-01-04 | Massachusetts lnstitute of Technology | System, Device, and Method for Feature Generation, Selection, and Classification for Audio Detection of Anomalous Engine Operation |
CN106404388A (zh) * | 2016-09-13 | 2017-02-15 | 西安科技大学 | 一种刮板输送机飘链故障诊断方法 |
CN107013449A (zh) * | 2017-04-18 | 2017-08-04 | 山东万腾电子科技有限公司 | 基于深度学习的声音信号识别压缩机故障的方法及*** |
CN109357749A (zh) * | 2018-09-04 | 2019-02-19 | 南京理工大学 | 一种基于dnn算法的电力设备音频信号分析方法 |
CN109658954A (zh) * | 2018-12-27 | 2019-04-19 | 广州势必可赢网络科技有限公司 | 一种用于机电设备的故障检测方法、装置及*** |
CN110132598A (zh) * | 2019-05-13 | 2019-08-16 | 中国矿业大学 | 旋转设备滚动轴承故障噪声诊断算法 |
CN110425710A (zh) * | 2019-08-30 | 2019-11-08 | 盈盛智创科技(广州)有限公司 | 一种空调的故障检测方法、装置、设备及存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233692A (zh) * | 2020-09-28 | 2021-01-15 | 东莞市东纳通信有限公司 | 异音检测方法、装置、电子设备及存储介质 |
CN111933186A (zh) * | 2020-10-12 | 2020-11-13 | 中国电力科学研究院有限公司 | 用于对有载分接开关进行故障识别的方法、装置及*** |
CN112101301A (zh) * | 2020-11-03 | 2020-12-18 | 武汉工程大学 | 一种螺杆水冷机组的好音稳定预警方法、装置及存储介质 |
CN112101301B (zh) * | 2020-11-03 | 2021-02-26 | 武汉工程大学 | 一种螺杆水冷机组的好音稳定预警方法、装置及存储介质 |
CN113780150A (zh) * | 2021-09-07 | 2021-12-10 | 广西电网有限责任公司贺州供电局 | 一种基于多维身体状态感知的疲劳检测方法及*** |
CN114155879A (zh) * | 2021-12-06 | 2022-03-08 | 哈尔滨工程大学 | 一种利用时频融合补偿异常感知及稳定性的异音检测方法 |
CN114352486A (zh) * | 2021-12-31 | 2022-04-15 | 西安翔迅科技有限责任公司 | 一种基于分类的风电机组叶片音频故障检测方法 |
CN116935894A (zh) * | 2023-09-19 | 2023-10-24 | 佛山科学技术学院 | 一种基于时频域突变特征的微电机异音识别方法及*** |
CN116935894B (zh) * | 2023-09-19 | 2023-11-21 | 佛山科学技术学院 | 一种基于时频域突变特征的微电机异音识别方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110992985A (zh) | 识别跑步机异音的识别模型确定方法、识别方法、*** | |
Ittichaichareon et al. | Speech recognition using MFCC | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN109036382B (zh) | 一种基于kl散度的音频特征提取方法 | |
Singh et al. | Vector quantization approach for speaker recognition using MFCC and inverted MFCC | |
CN109285551B (zh) | 基于wmfcc和dnn的帕金森患者声纹识别方法 | |
CN110120230B (zh) | 一种声学事件检测方法及装置 | |
US20180277146A1 (en) | System and method for anhedonia measurement using acoustic and contextual cues | |
Gao et al. | Generalized spoofing detection inspired from audio generation artifacts | |
Turan et al. | Monitoring Infant's Emotional Cry in Domestic Environments Using the Capsule Network Architecture. | |
Srinivasan et al. | Classification of Normal and Pathological Voice using GA and SVM | |
Abidin et al. | Enhanced LBP texture features from time frequency representations for acoustic scene classification | |
Zhao et al. | Multi-stream spectro-temporal features for robust speech recognition. | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
CN115510909A (zh) | 一种dbscan进行异常声音特征的无监督算法 | |
Wu et al. | The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge. | |
Kharamat et al. | Durian ripeness classification from the knocking sounds using convolutional neural network | |
da Silva et al. | Evaluation of a sliding window mechanism as DataAugmentation over emotion detection on speech | |
Ghosal et al. | Automatic male-female voice discrimination | |
Neelima et al. | Mimicry voice detection using convolutional neural networks | |
KR20220091163A (ko) | 색상 속성을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법 | |
Neto et al. | Feature estimation for vocal fold edema detection using short-term cepstral analysis | |
García et al. | Acoustic features analysis for recognition of normal and hypoacustic infant cry based on neural networks | |
Diez Gaspon et al. | Deep learning for natural sound classification | |
Estrebou et al. | Voice recognition based on probabilistic SOM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |