CN109767785A - 基于卷积神经网络的环境噪声识别分类方法 - Google Patents
基于卷积神经网络的环境噪声识别分类方法 Download PDFInfo
- Publication number
- CN109767785A CN109767785A CN201910166344.2A CN201910166344A CN109767785A CN 109767785 A CN109767785 A CN 109767785A CN 201910166344 A CN201910166344 A CN 201910166344A CN 109767785 A CN109767785 A CN 109767785A
- Authority
- CN
- China
- Prior art keywords
- noise
- layer
- convolutional neural
- neural networks
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明为基于卷积神经网络的环境噪声识别分类方法,该方法包括下述步骤:步骤1,提取自然环境噪声,将其剪辑为时长300ms‑30s,频率转变为44.1kHz的噪声片段;步骤2,对噪声片段进行短时傅立叶变换,将一维时域信号转换为二维频域信号,得到声谱图;步骤3,提取信号的梅尔频谱倒谱系数(MFCC);步骤4,将所有噪声片段的80%作为训练集,其余的20%作为测试集;步骤5,用卷积神经网络模型进行噪声分类;步骤6,用训练集训练分类模型,用测试集验证该模型的准确性,完成基于卷积神经网络的环境噪声识别分类。本发明将声音片段输入,声音特征信息被提取,输出的是分类结果,可以实现自动提取声音特征信息。
Description
技术领域
本发明涉及一种基于卷积神经网络的环境噪声识别分类方法,属于环境噪声识别的领域。
背景技术
声音的识别是声音信号处理的一个基本问题,目前音频分类和识别的研究大部分集中在语音识别和音乐的分类上,对环境音频的识别和分类研究比较少。随着环保意识的提高,如何消除噪声污染越来越受人们的重视,噪声分类在近几年也已经成为国内外共同关注的话题,吸引着国内外的专家对此进行探讨。当前干净环境下的语音分类识别准确度已经很高,但是在低信噪比的情况下,或多个人讲话的情况下,识别率会大幅下降,这是因为目前的识别器把非语音的都统一归为一类:噪声。实际上现实中的噪声可能比语音还要复杂,如果也能对各种噪声类型建模,将有助于语音分类识别的改进。
日常生活中存在多种对人体有害的环境噪声,一般环境噪声大多来自随机的噪声源,
例如急驰而过的车辆、飞机的鸣笛、人们的喧闹、以及周围各式各样的噪声来源。设计环境噪声分类***可以有目的地分析和控制某一类别的噪声,以减少噪声污染。同时,人们可以非常熟练地感知和判断周围声场的一般特征,但是计算机没有足够的容量来匹配它,
因此开发自动提取这些信息的计算方法,在各种应用中具有巨大的潜力。而在现实生活中,多个声音经常同时存在并且被环境扭曲,所以需要大量的研究来准确地识别各个声源。噪声分类识别是语音分类识别的一种特殊情况,和语音相比,噪声具有音强变化混乱、频率变化不规律的特点,在实际应用中,环境噪声的分类识别需要大量的训练数据,
获取这些标记数据需要大量的人力和物力,而且还很费时,这是环境噪声分类的一大难点。研究噪声分类***可以清楚地知道噪声的类别,从而更精准地控制和消除噪声,让人们的生活环境更加舒适。因此,研究噪声分类***具有很大的现实意义。
《基于SVM模型的自然环境声音分类》介绍了利用支持向量机(SVM)进行声音的分类识别的方法,SVM可以很好地处理高维数据集,并且其泛化能力十分优秀。但是支持向量机算法在大规模训练样本和多分类问题上难以实现,同时SVM对缺失数据敏感。《基于深度神经网络的语音识别》介绍了利用BP神经网络进行语音识别的算法,但是BP神经网络学习速度慢,即使是一个简单的问题也需要成百上千次的学习,并且其网络推广能力有限。
发明内容
针对现有技术的不足,本发明拟解决的技术问题是,提供一种基于卷积神经网络的环境噪声识别分类方法。
本发明采用的技术方案是:
一种基于卷积神经网络的环境噪声识别分类方法,该方法包括下述步骤:
步骤1,提取自然环境噪声,将其剪辑为时长300ms-30s,频率转变为44.1kHz的噪声片段;
步骤2,对噪声片段进行短时傅立叶变换,将一维时域信号转换为二维频域信号,得到声谱图;
步骤3,提取信号的梅尔频谱倒谱系数(MFCC);
3-1将经过短时傅立叶变换得到的声谱图使用梅尔刻度滤波器组过滤,对短时傅立叶变换后得到的声谱图,分别跟每一个滤波器进行频率相乘累加,得到的数据即为该帧的能量值;
3-2将能量值取对数运算;
3-3进行离散余弦变换(DCT),得到MFCC系数;
3-4差分:将经过DCT得到的MFCC进行一阶或二阶差分,得到体现声音时域连续性的特征;
步骤4,将所有噪声片段的80%作为训练集,其余的20%作为测试集;
步骤5,用卷积神经网络模型进行噪声分类,卷积神经网络模型由三个2-D卷积层和交替的2-D池化层以及全连接层组成,池化层采取最大池化的方式,即选择池化窗口中最大值作为采样值,卷积层和池化层都使用全零填充方案;第一个卷积层采用7*7大小的卷积核,且卷积核每次滑动一个像素,一个声谱图使用同一个卷积核;第一个池化层采用3*3的输入域,上一层的节点作为下一层的一个节点的输入,且输入域不重叠;第二个卷积层的卷积核是5*5,第二个池化层的卷积核是3*3,第三个卷积层的卷积核是3*3;经过卷积层和池化层后,连接着一个全连接层,全连接层的每个节点都与上一层的所有节点相连接;在全连接层中,假设在P层有m个节点,P+1层有n个节点,则一共有m*n个连接,再加上每P+1层节点有一个偏置,则一共有m*n+n个训练参数;
步骤6,用训练集训练分类模型,用测试集验证该模型的准确性;
经过以上步骤,对测试集中的噪声样本进行处理,完成基于卷积神经网络的环境噪声识别分类。
与现有技术相比,本发明的有益效果为:
本发明方法中,环境噪声分类的实质就是提取声音特征,选取一种合适的分类模型,即基于卷积神经网络的环境噪声分类方法,首先利用短时傅立叶变换的时频转换的方法将一维声音信号转变为类似图像的二维信号,然后提取出声音特征,通过MFCC处理,可以将一些干扰噪声去除掉,这样一来,保留的特征几乎都是有效特征,最后利用CNN对采集到的数据集进行学习分类。
目前有许多分类模型被应用于各种声音的识别和分类,但是将其应用于环境噪声的分类的研究还比较少,利用这种方法对现实生活中的环境噪声进行分类识别,能达到90%的识别率,解决了BP神经网络容易陷入最优解的问题。此次发明的模型具有普适性,可以针对现实生活中的大量噪声数据进行识别分类,并且人为干预程度相对减少,使得训练的效果更加具有真实性。
本发明方法提取了MFCC特征,MFCC对特征进行了去相关和压缩,更适合CNN这种建模方式。采用短时傅立叶变换截取一部分源数据,即无论发现了什么频率成分,可以确定声音片段的特征一定是发生在该特定时间段内的,只存在于很短的时间区间内,克服现有傅立叶变换不能反映时间维度局部区域上的特征,缺少时间信息的标号不足。同时,本发明具有无需硬件设备,流程简单,分类速度较快,实验表明平均一秒可以分类一段声音片段。
本发明将声音片段输入,声音特征信息被提取,输出的是分类结果,可以实现自动提取声音特征信息。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明的操作流程图。首先将收集常见的噪声,将其剪辑成300ms-30s的噪声片段,对噪声片段STFT处理,将其从一维时域信号变为二维频域信号,提取信号的MFCC,之后将所有的噪声片段分成训练集和测试集,用卷积神经网络模型分类,先对训练集进行训练,最后对测试集进行分类,得出分析结果。
图2是短时傅立叶变换的示意图。首先将收集到的噪声片段经过预加重,目的是使信号的频谱变得平坦,将一段噪声片段分成若干帧,添加汉宁窗,对每帧进行傅立叶变换,最后堆叠每帧的结果,完成噪声的短时傅立叶变换。
图3是MFCC模型的特征提取流程图。将经过STFT后得到的频谱图通过MEL滤波器组,得到能量值,将能量值进行对数运算和DCT得到标准MFCC,最后经过差分得到可以体现声音连续性特征的MFCC。
图4是卷积层的模型示意图。卷积层采用7*7大小的卷积核,把每个上层节点上的参数值相乘得到的乘积及一个偏置参数相加得到一个输出,把这个输出输入到一个激活函数,激活函数的输出即为下一个节点的值。
图5是全连接层的模型示意图。全连接层中每个节点各自使用一套参数,假设在P层有m个节点,P+1层有n个节点,将P层中的各个节点中的参数与P+1层的各个参数相乘再与偏置参数相加,得出训练参数。
具体实施方式
以下是本发明优选实施例的详细描述,应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
本发明一种基于卷积神经网络的环境噪声识别分类方法,包括如下步骤:
步骤1,提取自然环境噪声,将其剪辑为时长300ms-30s,频率转变为44.1kHz的噪声片段。根据奈奎斯特采样定理,用两倍于一个正弦波的频率进行采样就能完全真实地还原该波形,用44.1kHz的采样频率,则可还原为最高22.05kHz的频率,而这个数值略高于人耳的听觉极限,足以真实再现世界上所有人能辨别的声音。
步骤2,对噪声片段进行短时傅立叶变换,将一维时域信号转换为二维频域信号;具体过程是:
2-1进行预加重,目的是为了突显高频的共振峰,使信号频谱变得平坦。也就是说在频域上面乘以一个系数,实际上就是通过了一个高通滤波器;
2-2将一段噪声片段分成若干帧;
2-3添加大小为10ms的汉宁窗,相比于矩形窗函数,会减弱短时傅立叶变换后的旁瓣大小以及频谱泄露;
2-4对每帧执行短时傅立叶变换;
2-5最后把每一帧的短时傅里叶变换结果沿另一个维度堆叠起来,得到类似于一幅图片的二维信号形式,称之为声谱图;
步骤3,提取信号的梅尔频谱倒谱系数(MFCC):
3-1将经过短时傅立叶变换得到的声谱图使用梅尔刻度滤波器组过滤,滤波器组中滤波器的个数一般选取18-22个。对短时傅立叶变换后得到的声谱图,分别跟每一个滤波器进行频率相乘累加,得到的数据即为该帧的能量值;
3-2将能量值取log(对数运算)。由于人耳对声音的感知并不是线性的,所以选取log这种非线性关系进行描述。
3-3进行离散余弦变换(DCT),得到MFCC系数。由于多个滤波器之间有重叠,所以步骤3-2获得取对数后的能量值之间具有相关性,进行离散余弦变换(DCT)可以对数据进行降维压缩和抽象,获得最后的特征参数,即得到MFCC系数。和傅立叶变换相比,DCT的结果没有虚部,更好计算。
3-4差分。标准的MFCC只反映了语音参数的静态特征,声音的动态特性可以用这些静态特征的差分谱来描述。将经过DCT得到的MFCC进行一阶或二阶差分,得到可以体现声音时域连续性的特征。
步骤4,将所有噪声片段的80%作为训练集,其余的20%作为测试集。
步骤5,用卷积神经网络模型进行噪声分类,卷积神经网络模型由三个2-D卷积层和交替的2-D池化层以及全连接层组成,池化层采取最大池化的方式,即选择池化窗口中最大值作为采样值,卷积层和池化层都使用全零填充方案;第一个卷积层采用7*7大小的卷积核,且卷积核每次滑动一个像素,一个声谱图使用同一个卷积核;第一个池化层采用3*3的输入域,上一层的节点作为下一层的一个节点的输入,且输入域不重叠;经过卷积层和池化层后,连接着一个全连接层,全连接层的每个节点都与上一层的所有节点相连接;在全连接层中,假设在P层有m个节点,P+1层有n个节点,则一共有m*n个连接,再加上每P+1层节点有一个偏置,则一共有m*n+n个训练参数。
步骤6,用训练集训练分类模型,用测试集验证该模型的准确性:
经过以上步骤,对测试集中的噪声样本进行处理,完成基于卷积神经网络的环境噪声识别分类。
本发明通过分析现有支持向量机及BP神经网络模型,根据其不足之处进行改进,提出了基于卷积神经网络模型的噪声分类方法。
首先将收集到的噪声数据集通过短时傅立叶变换由一位时域信号变为二维频域信号,然后根据MFSC提取出相应有效的特征,最后利用卷积神经网络进行识别分类。该模型为一个普适性模型,可以针对现实中的大量噪声数据进行识别分类。
本发明方法能尽可能简单准确地提取出噪声的特征。梅尔频率倒谱系数(MFCC)是一种基于人耳听觉***的非线性特征,相比于语音信号常用的短时能量、过零率等特征,MFCC可以通过比较简单的运算和较快的速度求得,并且充分考虑到了人耳听觉的非线性特性,因此对于环境噪声分类,将MFCC作为提取的特征是一种比较好的选择。由于噪声分类识别的训练数据比较大,需要提取的特征也比较多,常用于语音分类识别的BP神经网络和SVM等分类模型不适合处理大数据量的声音文件,而且其网络层次比较浅,特征的提取不够完全。因此对于环境噪声分类识别的问题,本发明采取了提取噪声的MFCC特征,利用卷积神经网络(CNN)进行分类。
实施例1
本实施例一种基于卷积神经网络的环境噪声识别分类方法,该方法的步骤是:
步骤1,利用麦克风收集自然环境中的噪声,剪辑为合适的时长的、频率转变为44.1kHz的噪声片段,本实施例中所有噪声片段的时长可以不等,整体时长在300ms-30s区间内即可。
步骤2,将噪声片段利用短时傅立叶变换由一维时域信号转变为二维频域信号,短时傅立叶变换的原理如图2所示:
2-1首先对读入的数据进行预加重,预加重的目的是对声音的高频部分进行加重,去除杂音影响,增加高频分辨率,使信号的频谱变得平坦。令数据通过一个高通滤波器,公式如下所示:
H(z)=1-kz-1 (1)
其中Hz称为幅频响应,表示不同频率的信号成分通过该***时所遇到的幅度变化,k的值介于0.9-1.0之间,这个系数和频率成正相关,本实施例中,k取的是0.97;z是信号的频率。
2-2将一段噪声片段分为若干帧。
2-3在加窗阶段,使用汉明窗来增加左边和右边的连续性,添加大小为10ms的汉明窗。因为相比于矩形窗函数,汉明窗可以减弱快速傅立叶变换以后的旁瓣大小以及频谱泄露;
2-4对每帧执行短时傅立叶变换;
2-5最后堆叠每帧的结果;
步骤3,提取信号的梅尔频谱倒谱系数(MFCC),图3为提取MFCC系数的流程图:
3-1将经过短时傅立叶变换得到的声谱图使用梅尔刻度滤波器组过滤。滤波器的个数一般选取18-22个为佳(本实施例中选为20个),对短时傅立叶变换后得到的声谱图,分别跟每一个滤波器进行频率相乘累加,得到的数据即为该帧的能量值;
3-2将能量值取log。由于人耳对声音的感知并不是线性的,所以选取log这种非线性关系进行描述。
3-3进行离散余弦变换(DCT)。由于滤波器之间有重叠,所以之前获得的能量值之间具有相关性,DCT可以对数据进行降维压缩和抽象,获得最后的特征参数。和傅立叶变换相比,DCT的结果没有虚部,更好计算。实现公式如下所示:
将取完log的能量值代入离散余弦变换,求出L阶MFCC系数。其中,ci表示第i个倒谱系数,L指MFCC系数阶数,通常取12-16,本实施例中选为14,mj表示第j个滤波器组输出的对数能量,N表示滤波器个数。
3-4差分。标准的MFCC只反映了语音参数的静态特征,声音的动态特性可以用这些静态特征的差分谱来描述。将经过DCT得到的MFCC进行一阶或二阶差分,得到可以体现声音时域连续性的特征。常用的是一阶差分,实现公式如下所示:
其中,dt表示第t个一阶差分;ct表示第t个倒谱系数;Θ表示一阶导数的时间差,可取1或2。
步骤4,将所有噪声片段的80%作为训练集,其余的20%作为测试集。
步骤5,用卷积神经网络模型进行噪声分类,模型由三个2-D卷积层和交替的2-D池化层以及一个全连接层组成,池化层采取最大池化的方式,即选择池化窗口中最大值作为采样值,卷积层和池化层都使用全零填充方案。
以第一组卷积层和池化层为例,第一个卷积层采用7*7大小的卷积核,且卷积核每次滑动一个像素,一个声谱图使用同一个卷积核,卷积核结构如图4所示,把每个上层节点上的参数值相乘得到的乘积及一个偏置参数相加得到一个输出,把这个输出输入到一个激活函数,激活函数的输出即为下一个节点的值。第一层池化层采用3*3的输入域,上一层的节点作为下一层的一个节点的输入,且输入域不重叠,池化层采取最大池化的方式,选取池化窗口中的最大值作为采样值。共有三个卷积层、两个池化层,第二个卷积层的卷积核是5*5,第二个池化层的卷积核是3*3,第三个卷积层的卷积核是3*3,除了卷积核不同其他的原理都和第一组相同。
全连接层也有偏置,全连接层的每个节点都与上一层的所有节点相连接,在全连接层中,假设在P层有m个节点,P+1层有n个节点,则一共有m*n个连接,再加上每P+1层节点有一个偏置,则一共有m*n+n个训练参数。结构如图5所示,图5中,左边第一层为P层,有6个节点,第二层为P+1层,有两个节点,一共有6*2=12层节点,再加上P+1层节点的偏置,图5所示的全连接层一共有6*2+2个训练参数。
步骤6,用训练集训练分类模型,用测试集验证该模型的准确性。
在具体进行环境噪声识别与分类过程中,首先需要采集数据,即利用麦克风收集日常生活中常见的噪声作为数据集。将其剪辑为300ms-30s,频率选为44.1kHz的噪声片段,将其80%作为训练集,20%作为数据集,对其进行短时傅立叶变换,提取梅尔频谱倒谱系数,最后将其送入卷积神经网络模型进行分类。
作为一个实施例,主要应用场景为街道,所选用的数据集中的噪声片段包括犬吠、小汽车、摩托车、公共汽车以及建筑噪声五种环境噪声,表1是实施例中的数据设置,表2为通过该卷积神经网络***的噪声分类结果:
表1数据设置
犬吠 | 小汽车 | 摩托车 | 公共汽车 | 建筑噪声 | 总数 | |
训练集 | 219 | 204 | 92 | 90 | 98 | 973 |
测试集 | 41 | 39 | 37 | 40 | 43 | 200 |
表2分类结果
由分类结果可以看出,此分类方法准确率可以达到90%以上,说明此方法具有较好的分类效果,即基于卷积神经网络的方法能对环境噪声进行较为准确的识别分类。
本发明未尽事宜为公知技术。
Claims (3)
1.一种基于卷积神经网络的环境噪声识别分类方法,该方法包括下述步骤:
步骤1,提取自然环境噪声,将其剪辑为时长300ms-30s,频率转变为44.1kHz的噪声片段;
步骤2,对噪声片段进行短时傅立叶变换,将一维时域信号转换为二维频域信号,得到声谱图;
步骤3,提取信号的梅尔频谱倒谱系数(MFCC);
3-1将经过短时傅立叶变换得到的声谱图使用梅尔刻度滤波器组过滤,对短时傅立叶变换后得到的声谱图,分别跟每一个滤波器进行频率相乘累加,得到的数据即为该帧的能量值;
3-2将能量值取对数运算;
3-3进行离散余弦变换(DCT),得到MFCC系数;
3-4差分:将经过DCT得到的MFCC进行一阶或二阶差分,得到体现声音时域连续性的特征;
步骤4,将所有噪声片段的80%作为训练集,其余的20%作为测试集;
步骤5,用卷积神经网络模型进行噪声分类,卷积神经网络模型由三个2-D卷积层和交替的2-D池化层以及全连接层组成,池化层采取最大池化的方式,即选择池化窗口中最大值作为采样值,卷积层和池化层都使用全零填充方案;第一个卷积层采用7*7大小的卷积核,且卷积核每次滑动一个像素,一个声谱图使用同一个卷积核;第一个池化层采用3*3的输入域,上一层的节点作为下一层的一个节点的输入,且输入域不重叠;第二个卷积层的卷积核是5*5,第二个池化层的卷积核是3*3,第三个卷积层的卷积核是3*3;经过卷积层和池化层后,连接着一个全连接层,全连接层的每个节点都与上一层的所有节点相连接;在全连接层中,假设在P层有m个节点,P+1层有n个节点,则一共有m*n个连接,再加上每P+1层节点有一个偏置,则一共有m*n+n个训练参数;
步骤6,用训练集训练分类模型,用测试集验证该模型的准确性,完成基于卷积神经网络的环境噪声识别分类。
2.根据权利要求1所述的基于卷积神经网络的环境噪声识别分类方法,其特征在于,所述短时傅立叶变换的具体过程是:
2-1进行预加重;
2-2将一段噪声片段分成若干帧;
2-3添加大小为10ms的汉宁窗;
2-4对每帧执行短时傅立叶变换;
2-5最后把每一帧的短时傅里叶变换结果沿另一个维度堆叠起来,得到声谱图。
3.根据权利要求1所述的基于卷积神经网络的环境噪声识别分类方法,其特征在于,所述滤波器组中滤波器的个数为18-22个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910166344.2A CN109767785A (zh) | 2019-03-06 | 2019-03-06 | 基于卷积神经网络的环境噪声识别分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910166344.2A CN109767785A (zh) | 2019-03-06 | 2019-03-06 | 基于卷积神经网络的环境噪声识别分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109767785A true CN109767785A (zh) | 2019-05-17 |
Family
ID=66457793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910166344.2A Pending CN109767785A (zh) | 2019-03-06 | 2019-03-06 | 基于卷积神经网络的环境噪声识别分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109767785A (zh) |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222781A (zh) * | 2019-06-12 | 2019-09-10 | 成都嗨翻屋科技有限公司 | 音频去噪方法、装置、用户终端及存储介质 |
CN110245608A (zh) * | 2019-06-14 | 2019-09-17 | 西北工业大学 | 一种基于半张量积神经网络的水下目标识别方法 |
CN110472587A (zh) * | 2019-08-19 | 2019-11-19 | 四川大学 | 基于cnn和声音时频特征图的微型振动马达缺陷识别方法及装置 |
CN110516086A (zh) * | 2019-07-12 | 2019-11-29 | 浙江工业大学 | 一种基于深度神经网络影视标签自动获取方法 |
CN110600054A (zh) * | 2019-09-06 | 2019-12-20 | 南京工程学院 | 基于网络模型融合的声场景分类方法 |
CN110867196A (zh) * | 2019-12-03 | 2020-03-06 | 桂林理工大学 | 一种基于深度学习及声音识别的机器设备状态监测*** |
CN110890102A (zh) * | 2019-09-07 | 2020-03-17 | 创新奇智(重庆)科技有限公司 | 一种基于rnn声纹识别的发动机缺陷检测算法 |
CN110933235A (zh) * | 2019-11-06 | 2020-03-27 | 杭州哲信信息技术有限公司 | 一种基于机器学习的智能呼叫***中的噪声去除方法 |
CN110931045A (zh) * | 2019-12-20 | 2020-03-27 | 重庆大学 | 基于卷积神经网络的音频特征生成方法 |
CN111009261A (zh) * | 2019-12-10 | 2020-04-14 | Oppo广东移动通信有限公司 | 到站提醒方法、装置、终端及存储介质 |
CN111028852A (zh) * | 2019-11-06 | 2020-04-17 | 杭州哲信信息技术有限公司 | 一种基于cnn的智能呼叫***中的噪声去除方法 |
CN111145779A (zh) * | 2019-12-26 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种音频文件的目标检测方法及相关设备 |
CN111326162A (zh) * | 2020-04-15 | 2020-06-23 | 厦门快商通科技股份有限公司 | 一种声纹特征的采集方法和装置以及设备 |
CN111445926A (zh) * | 2020-04-01 | 2020-07-24 | 杭州叙简科技股份有限公司 | 一种基于声音的农村道路交通事故警情识别方法 |
CN111583957A (zh) * | 2020-04-21 | 2020-08-25 | 华南理工大学 | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 |
CN111599376A (zh) * | 2020-06-01 | 2020-08-28 | 华南理工大学 | 一种基于空洞卷积循环神经网络的声音事件检测方法 |
CN111624585A (zh) * | 2020-05-21 | 2020-09-04 | 西北工业大学 | 一种基于卷积神经网络的水下目标被动检测方法 |
CN111625763A (zh) * | 2020-05-27 | 2020-09-04 | 郑州航空工业管理学院 | 一种基于数学模型的运行风险预测方法和预测*** |
CN112133326A (zh) * | 2020-09-08 | 2020-12-25 | 东南大学 | 一种基于对抗神经网络的枪声数据增广与检测方法 |
CN112347926A (zh) * | 2020-11-06 | 2021-02-09 | 天津市勘察设计院集团有限公司 | 基于建筑形态分布的高分辨率影像城中村检测方法 |
CN112364779A (zh) * | 2020-11-12 | 2021-02-12 | 中国电子科技集团公司第五十四研究所 | 信号处理与深-浅网络多模型融合的水声目标识别方法 |
CN112397090A (zh) * | 2020-11-09 | 2021-02-23 | 电子科技大学 | 一种基于fpga的实时声音分类方法及*** |
CN112419258A (zh) * | 2020-11-18 | 2021-02-26 | 西北工业大学 | 基于时频分割及卷积神经网络的鲁棒环境声音识别方法 |
CN112447187A (zh) * | 2019-09-02 | 2021-03-05 | 富士通株式会社 | 声音事件的识别装置和方法 |
CN112764003A (zh) * | 2021-01-14 | 2021-05-07 | 中山大学 | 一种雷达辐射源信号时频特征识别方法、装置及存储介质 |
CN113241094A (zh) * | 2021-05-08 | 2021-08-10 | 南京师范大学 | 一种基于子带谱熵法和深度卷积神经网络的汽车鸣笛识别方法 |
CN113362855A (zh) * | 2021-06-18 | 2021-09-07 | 哈尔滨工业大学 | 一种基于卷积神经网络关系建模的环境声音分类方法 |
CN113763986A (zh) * | 2021-09-07 | 2021-12-07 | 山东大学 | 一种基于声音分类模型的空调内机异常声音检测方法 |
CN113782054A (zh) * | 2021-09-22 | 2021-12-10 | 应急管理部国家自然灾害防治研究院 | 基于智能语音技术的闪电哨声波自动识别方法及*** |
CN114724549A (zh) * | 2022-06-09 | 2022-07-08 | 广州声博士声学技术有限公司 | 一种面向环境噪声的智能识别方法、装置、设备及存储介质 |
CN114861835A (zh) * | 2022-07-04 | 2022-08-05 | 浙江大学 | 一种基于非对称卷积的噪声性听力损失预测*** |
CN114881093A (zh) * | 2022-07-05 | 2022-08-09 | 北京理工大学 | 一种信号分类识别方法 |
CN115508260A (zh) * | 2022-08-23 | 2022-12-23 | 江西怡杉环保股份有限公司 | 一种用于扬尘噪声实时预警的***及方法 |
CN115659225A (zh) * | 2022-11-11 | 2023-01-31 | 河北农业大学 | 基于深度学习的蛋鸡舍噪声应激源识别分类方法 |
CN115662464A (zh) * | 2022-12-29 | 2023-01-31 | 广州市云景信息科技有限公司 | 一种智能识别环境噪声的方法及*** |
CN117238320A (zh) * | 2023-11-16 | 2023-12-15 | 天津大学 | 一种基于多特征融合卷积神经网络的噪声分类方法 |
CN117690451A (zh) * | 2024-01-29 | 2024-03-12 | 杭州爱华仪器有限公司 | 一种基于集成学习的神经网络噪声源分类的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100332222A1 (en) * | 2006-09-29 | 2010-12-30 | National Chiao Tung University | Intelligent classification method of vocal signal |
US20140288928A1 (en) * | 2013-03-25 | 2014-09-25 | Gerald Bradley PENN | System and method for applying a convolutional neural network to speech recognition |
CN107609488A (zh) * | 2017-08-21 | 2018-01-19 | 哈尔滨工程大学 | 一种基于深度卷积网络的舰船噪声识别分类方法 |
CN108073856A (zh) * | 2016-11-14 | 2018-05-25 | 华为技术有限公司 | 噪音信号的识别方法及装置 |
CN109036382A (zh) * | 2018-08-15 | 2018-12-18 | 武汉大学 | 一种基于kl散度的音频特征提取方法 |
CN109087655A (zh) * | 2018-07-30 | 2018-12-25 | 桂林电子科技大学 | 一种交通道路声音监测与异常声音识别*** |
-
2019
- 2019-03-06 CN CN201910166344.2A patent/CN109767785A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100332222A1 (en) * | 2006-09-29 | 2010-12-30 | National Chiao Tung University | Intelligent classification method of vocal signal |
US20140288928A1 (en) * | 2013-03-25 | 2014-09-25 | Gerald Bradley PENN | System and method for applying a convolutional neural network to speech recognition |
CN108073856A (zh) * | 2016-11-14 | 2018-05-25 | 华为技术有限公司 | 噪音信号的识别方法及装置 |
CN107609488A (zh) * | 2017-08-21 | 2018-01-19 | 哈尔滨工程大学 | 一种基于深度卷积网络的舰船噪声识别分类方法 |
CN109087655A (zh) * | 2018-07-30 | 2018-12-25 | 桂林电子科技大学 | 一种交通道路声音监测与异常声音识别*** |
CN109036382A (zh) * | 2018-08-15 | 2018-12-18 | 武汉大学 | 一种基于kl散度的音频特征提取方法 |
Non-Patent Citations (3)
Title |
---|
朱可卿 ET AL.: "《基于深度学习的船舶辐射噪声识别研究》", 《应用声学》 * |
蒋刚,龚迪琛等: "《工业机器人的听觉***》", 31 January 2011, 西南交通大学出版社 * |
谷立臣: "《工程信号分析与处理技术》", 28 February 2017, 西安电子科技大学出版社 * |
Cited By (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222781A (zh) * | 2019-06-12 | 2019-09-10 | 成都嗨翻屋科技有限公司 | 音频去噪方法、装置、用户终端及存储介质 |
CN110245608B (zh) * | 2019-06-14 | 2022-05-17 | 西北工业大学 | 一种基于半张量积神经网络的水下目标识别方法 |
CN110245608A (zh) * | 2019-06-14 | 2019-09-17 | 西北工业大学 | 一种基于半张量积神经网络的水下目标识别方法 |
CN110516086A (zh) * | 2019-07-12 | 2019-11-29 | 浙江工业大学 | 一种基于深度神经网络影视标签自动获取方法 |
CN110516086B (zh) * | 2019-07-12 | 2022-05-03 | 浙江工业大学 | 一种基于深度神经网络影视标签自动获取方法 |
CN110472587A (zh) * | 2019-08-19 | 2019-11-19 | 四川大学 | 基于cnn和声音时频特征图的微型振动马达缺陷识别方法及装置 |
CN110472587B (zh) * | 2019-08-19 | 2022-02-08 | 四川大学 | 基于cnn和声音时频特征图的微型振动马达缺陷识别方法及装置 |
CN112447187A (zh) * | 2019-09-02 | 2021-03-05 | 富士通株式会社 | 声音事件的识别装置和方法 |
CN110600054A (zh) * | 2019-09-06 | 2019-12-20 | 南京工程学院 | 基于网络模型融合的声场景分类方法 |
CN110600054B (zh) * | 2019-09-06 | 2021-09-21 | 南京工程学院 | 基于网络模型融合的声场景分类方法 |
CN110890102A (zh) * | 2019-09-07 | 2020-03-17 | 创新奇智(重庆)科技有限公司 | 一种基于rnn声纹识别的发动机缺陷检测算法 |
CN110933235B (zh) * | 2019-11-06 | 2021-07-27 | 杭州哲信信息技术有限公司 | 一种基于机器学习的智能呼叫***中的噪声识别方法 |
CN111028852A (zh) * | 2019-11-06 | 2020-04-17 | 杭州哲信信息技术有限公司 | 一种基于cnn的智能呼叫***中的噪声去除方法 |
CN110933235A (zh) * | 2019-11-06 | 2020-03-27 | 杭州哲信信息技术有限公司 | 一种基于机器学习的智能呼叫***中的噪声去除方法 |
CN110867196A (zh) * | 2019-12-03 | 2020-03-06 | 桂林理工大学 | 一种基于深度学习及声音识别的机器设备状态监测*** |
CN110867196B (zh) * | 2019-12-03 | 2024-04-05 | 桂林理工大学 | 一种基于深度学习及声音识别的机器设备状态监测*** |
CN111009261B (zh) * | 2019-12-10 | 2022-11-15 | Oppo广东移动通信有限公司 | 到站提醒方法、装置、终端及存储介质 |
CN111009261A (zh) * | 2019-12-10 | 2020-04-14 | Oppo广东移动通信有限公司 | 到站提醒方法、装置、终端及存储介质 |
CN110931045A (zh) * | 2019-12-20 | 2020-03-27 | 重庆大学 | 基于卷积神经网络的音频特征生成方法 |
CN111145779A (zh) * | 2019-12-26 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种音频文件的目标检测方法及相关设备 |
CN111445926B (zh) * | 2020-04-01 | 2023-01-03 | 杭州叙简科技股份有限公司 | 一种基于声音的农村道路交通事故警情识别方法 |
CN111445926A (zh) * | 2020-04-01 | 2020-07-24 | 杭州叙简科技股份有限公司 | 一种基于声音的农村道路交通事故警情识别方法 |
CN111326162A (zh) * | 2020-04-15 | 2020-06-23 | 厦门快商通科技股份有限公司 | 一种声纹特征的采集方法和装置以及设备 |
CN111583957B (zh) * | 2020-04-21 | 2023-04-28 | 华南理工大学 | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 |
CN111583957A (zh) * | 2020-04-21 | 2020-08-25 | 华南理工大学 | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 |
CN111624585A (zh) * | 2020-05-21 | 2020-09-04 | 西北工业大学 | 一种基于卷积神经网络的水下目标被动检测方法 |
CN111625763A (zh) * | 2020-05-27 | 2020-09-04 | 郑州航空工业管理学院 | 一种基于数学模型的运行风险预测方法和预测*** |
CN111599376B (zh) * | 2020-06-01 | 2023-02-14 | 华南理工大学 | 一种基于空洞卷积循环神经网络的声音事件检测方法 |
CN111599376A (zh) * | 2020-06-01 | 2020-08-28 | 华南理工大学 | 一种基于空洞卷积循环神经网络的声音事件检测方法 |
CN112133326A (zh) * | 2020-09-08 | 2020-12-25 | 东南大学 | 一种基于对抗神经网络的枪声数据增广与检测方法 |
CN112347926A (zh) * | 2020-11-06 | 2021-02-09 | 天津市勘察设计院集团有限公司 | 基于建筑形态分布的高分辨率影像城中村检测方法 |
CN112347926B (zh) * | 2020-11-06 | 2023-05-23 | 天津市勘察设计院集团有限公司 | 基于建筑形态分布的高分辨率影像城中村检测方法 |
CN112397090B (zh) * | 2020-11-09 | 2022-11-15 | 电子科技大学 | 一种基于fpga的实时声音分类方法及*** |
CN112397090A (zh) * | 2020-11-09 | 2021-02-23 | 电子科技大学 | 一种基于fpga的实时声音分类方法及*** |
CN112364779A (zh) * | 2020-11-12 | 2021-02-12 | 中国电子科技集团公司第五十四研究所 | 信号处理与深-浅网络多模型融合的水声目标识别方法 |
CN112419258B (zh) * | 2020-11-18 | 2024-05-14 | 西北工业大学 | 基于时频分割及卷积神经网络的鲁棒环境声音识别方法 |
CN112419258A (zh) * | 2020-11-18 | 2021-02-26 | 西北工业大学 | 基于时频分割及卷积神经网络的鲁棒环境声音识别方法 |
CN112764003A (zh) * | 2021-01-14 | 2021-05-07 | 中山大学 | 一种雷达辐射源信号时频特征识别方法、装置及存储介质 |
CN113241094B (zh) * | 2021-05-08 | 2024-05-07 | 南京师范大学 | 一种基于子带谱熵法和深度卷积神经网络的汽车鸣笛识别方法 |
CN113241094A (zh) * | 2021-05-08 | 2021-08-10 | 南京师范大学 | 一种基于子带谱熵法和深度卷积神经网络的汽车鸣笛识别方法 |
CN113362855A (zh) * | 2021-06-18 | 2021-09-07 | 哈尔滨工业大学 | 一种基于卷积神经网络关系建模的环境声音分类方法 |
CN113362855B (zh) * | 2021-06-18 | 2022-06-21 | 哈尔滨工业大学 | 一种基于卷积神经网络关系建模的环境声音分类方法 |
CN113763986A (zh) * | 2021-09-07 | 2021-12-07 | 山东大学 | 一种基于声音分类模型的空调内机异常声音检测方法 |
CN113763986B (zh) * | 2021-09-07 | 2024-02-02 | 山东大学 | 一种基于声音分类模型的空调内机异常声音检测方法 |
CN113782054B (zh) * | 2021-09-22 | 2023-09-15 | 应急管理部国家自然灾害防治研究院 | 基于智能语音技术的闪电哨声波自动识别方法及*** |
CN113782054A (zh) * | 2021-09-22 | 2021-12-10 | 应急管理部国家自然灾害防治研究院 | 基于智能语音技术的闪电哨声波自动识别方法及*** |
CN114724549A (zh) * | 2022-06-09 | 2022-07-08 | 广州声博士声学技术有限公司 | 一种面向环境噪声的智能识别方法、装置、设备及存储介质 |
CN114861835A (zh) * | 2022-07-04 | 2022-08-05 | 浙江大学 | 一种基于非对称卷积的噪声性听力损失预测*** |
CN114881093A (zh) * | 2022-07-05 | 2022-08-09 | 北京理工大学 | 一种信号分类识别方法 |
CN114881093B (zh) * | 2022-07-05 | 2022-11-18 | 北京理工大学 | 一种信号分类识别方法 |
CN115508260A (zh) * | 2022-08-23 | 2022-12-23 | 江西怡杉环保股份有限公司 | 一种用于扬尘噪声实时预警的***及方法 |
CN115659225A (zh) * | 2022-11-11 | 2023-01-31 | 河北农业大学 | 基于深度学习的蛋鸡舍噪声应激源识别分类方法 |
CN115662464A (zh) * | 2022-12-29 | 2023-01-31 | 广州市云景信息科技有限公司 | 一种智能识别环境噪声的方法及*** |
CN117238320A (zh) * | 2023-11-16 | 2023-12-15 | 天津大学 | 一种基于多特征融合卷积神经网络的噪声分类方法 |
CN117238320B (zh) * | 2023-11-16 | 2024-01-09 | 天津大学 | 一种基于多特征融合卷积神经网络的噪声分类方法 |
CN117690451A (zh) * | 2024-01-29 | 2024-03-12 | 杭州爱华仪器有限公司 | 一种基于集成学习的神经网络噪声源分类的方法及装置 |
CN117690451B (zh) * | 2024-01-29 | 2024-04-16 | 杭州爱华仪器有限公司 | 一种基于集成学习的神经网络噪声源分类的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767785A (zh) | 基于卷积神经网络的环境噪声识别分类方法 | |
CN101261832B (zh) | 汉语语音情感信息的提取及建模方法 | |
CN101710490B (zh) | 语音评测的噪声补偿方法及装置 | |
CN105957531B (zh) | 基于云平台的演讲内容提取方法及装置 | |
CN110880329B (zh) | 一种音频识别方法及设备、存储介质 | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN103531198B (zh) | 一种基于伪说话人聚类的语音情感特征规整化方法 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN110047510A (zh) | 音频识别方法、装置、计算机设备及存储介质 | |
CN101477798A (zh) | 一种分析和提取设定场景的音频数据的方法 | |
CN113724712B (zh) | 一种基于多特征融合和组合模型的鸟声识别方法 | |
CN114863937B (zh) | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 | |
CN106548786A (zh) | 一种音频数据的检测方法及*** | |
CN106024010A (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
CN103474072A (zh) | 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法 | |
CN109584904A (zh) | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 | |
CN114155876A (zh) | 一种基于音频信号的交通流识别方法、装置及存储介质 | |
CN109741759A (zh) | 一种面向特定鸟类物种的声学自动检测方法 | |
CN110728991A (zh) | 一种改进的录音设备识别算法 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其*** | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Xie et al. | Application of image processing techniques for frog call classification | |
CN110136746A (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
Yu | Research on music emotion classification based on CNN-LSTM network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190517 |
|
RJ01 | Rejection of invention patent application after publication |