CN110580915B - 基于可穿戴式设备的声源目标识别*** - Google Patents
基于可穿戴式设备的声源目标识别*** Download PDFInfo
- Publication number
- CN110580915B CN110580915B CN201910874151.2A CN201910874151A CN110580915B CN 110580915 B CN110580915 B CN 110580915B CN 201910874151 A CN201910874151 A CN 201910874151A CN 110580915 B CN110580915 B CN 110580915B
- Authority
- CN
- China
- Prior art keywords
- network
- training
- size
- coding
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 claims abstract description 236
- 230000004927 fusion Effects 0.000 claims abstract description 26
- 230000005236 sound signal Effects 0.000 claims abstract description 13
- 238000013461 design Methods 0.000 claims description 63
- 238000012360 testing method Methods 0.000 claims description 50
- 238000000605 extraction Methods 0.000 claims description 49
- 238000000034 method Methods 0.000 claims description 34
- 238000011176 pooling Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 22
- 238000009432 framing Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 238000003672 processing method Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 12
- 230000003750 conditioning effect Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 230000003137 locomotive effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000004804 winding Methods 0.000 claims 2
- 230000003321 amplification Effects 0.000 claims 1
- 230000008859 change Effects 0.000 claims 1
- 230000009849 deactivation Effects 0.000 claims 1
- 238000003199 nucleic acid amplification method Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 230000008034 disappearance Effects 0.000 abstract description 3
- 238000004880 explosion Methods 0.000 abstract description 3
- 239000004567 concrete Substances 0.000 description 14
- 230000002779 inactivation Effects 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明属于声音信号处理技术领域,具体涉及一种基于可穿戴式设备的声源目标识别***。本发明技术方案中,首先,两组训练稠密卷积编码‑解码网络对输入数据与人工提取特征分别训练编码网络抽象高级特征,基于稠密卷积的使用可以使我们能够训练深度更深的编码网络并增强重复特征的使用。其次,设计融合层融合两种编码网络提取的特征,最后利用一个卷积网络实现声源信号的分类。最终,本发明技术方案解决了现有技术中对识别精度产生负面影响、以及卷积网络当层数加深时还存在梯度消失或***,特征重复利用率等缺陷的问题。
Description
技术领域
本发明属于声音信号处理技术领域,具体涉及一种基于可穿戴式设备的声源目标识别***。
背景技术
声源目标识别是智能机器人***两项关键技术--视觉目标识别与声源目标识别技术之一。特别地当智能机器人在遮挡、烟雾、伪装、干扰等场景,光学和电磁探测设备无法使用的情况下,声学传感器仍然可以维持机器人对环境的感知,实现声源目标识别从而辅助机器人控制与决策。
声源目标识别的难点在于从复杂噪声环境中精确识别目标。传统的声源目标识别基于特征工程方法,即预先经过人工设计并从音频信号中提取的特征。提取特征后采用高斯混合模型、支撑向量机等模型聚类或分类,对其分类精度通常在65%~75%范围之内(TUT Acoustic Scenes 2017测试集)。传统声源目标识别技术识别精度不高的原因是人工设计特征偏重于对声音信号的整体认识如声高、音调以及沉默率,对于输入声音信号的逐层抽象能力不足。
目前流行的声源目标识别方法是基于不同卷积网络架构的深度学习方法。不同于传统方法依赖于特征工程,深度学习自动从输入数据(通常为经过短时傅里叶变换后的原始数据)逐层抽象并凝练特征最终用于声源目标识别任务,调参后,该方法通常可达到75%~85%(TUT Acoustic Scenes 2017测试集)的识别精度。卷积神经网络理论上仍有进一步提升的空间,由于卷积神经网络基于局部连接并权值共享使得卷积滤波器很难提取整体的高频(边缘和细节)信息,从而对识别精度产生负面影响。另外卷积网络当层数加深时还存在梯度消失或***,特征重复利用率等缺陷。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种基于可穿戴式设备的声源目标识别***。
(二)技术方案
为解决上述技术问题,本发明提供一种基于可穿戴式设备的声源目标识别***,所述***包括:传感器网络布设模块、声源信号采集模块、梅尔波段能量特征提取模块、人工设计特征提取模块、第一网络训练模块、第二网络训练模块、测试模块;
(1)传感器网络布设模块
所述传感器网络布设模块用于布阵声源识别传感器网络,其采用25元声音传感器构成立体阵列,进行声源信息探测定位,坐标原点设置声音传感器1,以XOY为平面,以1m为半径,等间距布设12个声音传感器,以XOZ为平面,以1m为半径,等间距布设12个声音传感器;由此共布设25个声音传感器;
(2)声源信号采集模块
所述声源信号采集模块用于采集声源传感器阵列信号;其包括:训练样本信号采集单元及测试样本信号采集单元;
(2.1)训练样本信号采集单元
所述训练样本信号采集单元用于采集训练样本信号,其将K类声源发生装置随机放置到传感器网络布阵区域内,由每类发生装置产生M个t秒声源样本信号共随机放置s次,声源信号发生后采用多路信号调理模块和多通道数据采集传输模块,采集到K类25通道M×s个t秒时长的传感器接收信号,作为声源信号传输至控制终端传感器:
X(i)(i=1,2,...K×M×s)
并记录相应声源样本信号类型标签:
Y(i)∈RK(i=1,2,...K×M×s)
标记传感器接收信号类型的标签同样为Y(i);
将(X(i),Y(i))作为训练样本,并对训练样本分别通过梅尔波段能量特征提取模块、人工设计特征提取模块来进行处理;
(2.2)测试样本信号采集单元
所述测试样本信号采集单元用于采集测试样本信号,其根据所述训练样本信号采集单元的采集方法再采集产生Mtest个t秒共随机放置stest次,获得声源样本信号并记录相应类型标签作为测试样本:
(3)梅尔波段能量特征提取模块,其包括:分帧单元、加窗单元、
所述梅尔波段能量特征提取模块用于提取声源信号的梅尔波段能量特征,其对采集到的25通道t秒时长的训练样本信号:
(X(i),Y(i))(i=1,2,...K×M×s);
所述梅尔波段能量特征提取模块包括:第一分帧单元、加窗单元、梅尔谱能量计算单元;
(3.1)第一分帧单元,其用于分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为P帧,每一帧信号T1毫秒,相邻帧间有T2毫秒重叠;满足关系:
(3.2)加窗单元,其用于加窗分帧后的声源信号;
(3.3)梅尔谱能量计算单元,其用于计算梅尔谱能量;
对于每一帧信号使用短时傅立叶变换,计算对数梅尔谱能量:
(4)人工设计特征提取模块
所述人工设计特征提取模块用于提取声源信号的人工设计特征;
对采集到的25通道t秒时长的训练样本信号
(X(i),Y(i))(i=1,2,...K×M×s);
所述人工设计特征提取模块包括:第二分帧单元、人工设计特征提取单元;
(4.1)第二分帧单元,其用于分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为Q帧,每一帧信号T1'毫秒,相邻帧间有T2'毫秒重叠;满足关系:
(4.2)人工设计特征提取单元,其利用开源工具提取人工设计特征;
对于单通道内每一帧训练样本信号进行人工设计特征提取,使用开源工具进行人工设计特征提取;选用的特征包括:大声喊叫域能量、等效矩形带宽能量、梅尔能量、谱能量、声调、音高、沉默率、梅尔倒谱系数、伽马语调系数共计Q个手工特征,得人工设计特征
(5)第一网络训练模块
所述第一网络训练模块用于训练稠密卷积编码网络,获得特征编码方式;
所述第一网络训练模块包括:第一编码解码网络训练单元、第二编码解码网络训练单元;
(5.1)所述第一编码解码网络训练单元用于训练编码解码网络ECNet1;
对于梅尔波段能量特征提取模块的K×M×s个25通道梅尔波段能量特征训练样本;通过梅尔波段能量特征训练样本训练编码解码网络ECNet1;编码解码网络ECNet1由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
其中,稠密模块由3个稠密卷积层组成,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法;编码解码网络的优化准则为最小化下列损失函数:
(5.2)第二编码解码网络训练单元
所述第二编码解码网络训练单元用于训练编码解码网络ECNet2;
所述第二编码解码网络训练单元通过梅尔波段能量特征提取模块的K×M×s个25通道人工设计特征训练样本训练编码解码网络ECNet2,编码解码网络ECNet2由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
其中密连模块由3个稠密卷积层组成,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法;编码解码网络的优化准则为最小化如下损失函数:
(6)第二网络训练模块
所述第二网络训练模块用于训练特征融合网络FusedNet;
所述第二网络训练模块包括:数据输入单元、编码特征融合单元、卷积子网络构建及训练单元;
(6.1)所述数据输入单元用于利用编码网络编码输入数据;
编码网络1:将P×P×25梅尔谱能级特征输入编码网络1,提取到P×P×100个特征图F11;
编码网络2:将Q×Q×25人工设计特征输入编码网络2,提取到Q×Q×100个特征图F12;
(6.2)编码特征融合单元
所述编码特征融合单元用于融合编码特征;
其对编码网络1得到的P×P×100个特征图F11经过W1×W1的池化单元池化为W×W×100个特征图F21;满足关系:
对编码网络2得到的Q×Q×100个特征图F12经过W2×W2的池化单元池化为W×W×100个特征图F22;满足关系:
将特征图F11与F12堆叠成W×W×200个特征图F;
F=[F21,F22];
(6.3)卷积子网络构建及训练单元
所述卷积子网络构建及训练单元用于构建并训练FusedNet中用于分类的卷积子网络Lenet-5;
所述卷积子网络构建及训练单元构建卷积子网络Lenet-5的过程如下:
将W×W×200个特征图F输入卷积分类网络,以Lenet-5为例,卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成;全连接层输出特征的5维稠密表示[y1,y2,y3,y4,y5],
表示属于五类中某类的概率;卷积分类网络(Lenet-5)结构具体如表4所示;
表4.卷积分类网络(Lenet-5)具体结构
所述卷积子网络构建及训练单元训练卷积子网络Lenet-5的过程如下:
各层都按概率20%使用了隐正则化处理方法;采用交叉熵损失函数,迭代50次,训练过程中一次取1000批次样本训练,学习率取0.01;得到卷积分类网络的参数Θconv;
(7)测试模块
所述测试模块用于测试FusedNet分类结果;
其中,所述声音传感器采用i436型拾音器。
其中,所述K类声源发生装置包括:枪声、炮声、喊话声、脚步声、机车声。
其中,所述开源工具采用Freesound开源工具。
其中,所述隐正则化处理方法包括随机失活算法。
其中,所述多通道数据采集传输模块嵌入在上位机当中,便于便携式采集数据。
其中,所述信号调理模块采用AGC自动增益放大电路。
其中,所述多通道数据采集传输模块采用24通道A/D采集卡。
表2.编解码网络ECNet1具体结构
表3.编解码网络具体结构
(三)有益效果
与现有技术相比较,本发明提出了一种基于可穿戴式设备的声源目标识别***。首先,两组训练稠密卷积编码-解码网络对输入数据与人工提取特征分别训练编码网络抽象高级特征,基于稠密卷积的使用可以使我们能够训练深度更深的编码网络并增强重复特征的使用。其次,设计融合层融合两种编码网络提取的特征,最后利用一个卷积网络实现声源信号的分类。最终,本发明技术方案解决了现有技术中对识别精度产生负面影响、以及卷积网络当层数加深时还存在梯度消失或***,特征重复利用率等缺陷的问题。
附图说明
图1为声源获取传感器阵列布置示意图。
图2为编码解码网络示意图。
图3为特征融合声源分类网络示意图。
图4为训练特征融合网络流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为解决现有技术问题,本发明提供一种基于可穿戴式设备的声源目标识别***,所述***包括:传感器网络布设模块、声源信号采集模块、梅尔波段能量特征提取模块、人工设计特征提取模块、第一网络训练模块、第二网络训练模块、测试模块;
(1)传感器网络布设模块
所述传感器网络布设模块用于布阵声源识别传感器网络,其采用25元声音传感器构成立体阵列,进行声源信息探测定位,如图1所示,坐标原点设置声音传感器1,以XOY为平面,以1m为半径,等间距布设12个声音传感器,以XOZ为平面,以1m为半径,等间距布设12个声音传感器;由此共布设25个声音传感器;
(2)声源信号采集模块
所述声源信号采集模块用于采集声源传感器阵列信号;其包括:训练样本信号采集单元及测试样本信号采集单元;
(2.1)训练样本信号采集单元
所述训练样本信号采集单元用于采集训练样本信号,其将K类声源发生装置随机放置到传感器网络布阵区域内,由每类发生装置产生M个t秒声源样本信号共随机放置s次,声源信号发生后采用多路信号调理模块和多通道数据采集传输模块,采集到K类25通道M×s个t秒时长的传感器接收信号,作为声源信号传输至控制终端传感器:
X(i)(i=1,2,...K×M×s)
并记录相应声源样本信号类型标签:
Y(i)∈RK(i=1,2,...K×M×s)的一位有效编码(one-hot向量);
标记传感器接收信号类型的标签同样为Y(i);
将(X(i),Y(i))作为训练样本,并对训练样本分别通过梅尔波段能量特征提取模块、人工设计特征提取模块来进行处理;
(2.2)测试样本信号采集单元
所述测试样本信号采集单元用于采集测试样本信号,其根据所述训练样本信号采集单元的采集方法再采集产生Mtest个t秒共随机放置stest次,获得声源样本信号并记录相应类型标签作为测试样本:
(3)梅尔波段能量特征提取模块,其包括:分帧单元、加窗单元、
所述梅尔波段能量特征提取模块用于提取声源信号的梅尔波段能量特征,其对采集到的25通道t秒时长的训练样本信号:
(X(i),Y(i))(i=1,2,...K×M×s);
所述梅尔波段能量特征提取模块包括:第一分帧单元、加窗单元、梅尔谱能量计算单元;
(3.1)第一分帧单元,其用于分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为P帧,每一帧信号T1毫秒,相邻帧间有T2毫秒重叠;满足关系:
(3.2)加窗单元,其用于加窗分帧后的声源信号;
(3.3)梅尔谱能量计算单元,其用于计算梅尔(Mel)谱能量;
对于每一帧信号使用短时傅立叶变换(SFT),计算对数梅尔谱能量:
(4)人工设计特征提取模块
所述人工设计特征提取模块用于提取声源信号的人工设计特征;
对采集到的25通道t秒时长的训练样本信号
(X(i),Y(i))(i=1,2,...K×M×s);
所述人工设计特征提取模块包括:第二分帧单元、人工设计特征提取单元;
(4.1)第二分帧单元,其用于分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为Q帧,每一帧信号T1'毫秒,相邻帧间有T2'毫秒重叠;满足关系:
(4.2)人工设计特征提取单元,其利用开源工具提取人工设计特征;
对于单通道内每一帧训练样本信号进行人工设计特征提取,使用开源工具进行人工设计特征提取;选用的特征包括:大声喊叫域(Bark)能量、等效矩形带宽(ERB)能量、梅尔能量、谱能量、声调(Tonal)、音高(Pitch)、沉默(Silence)率、梅尔倒谱系数、伽马语调系数共计Q个手工特征如表1所示,得人工设计特征
表1.Freesound特征提取器提取到的特征(以Q=362为例)
(5)第一网络训练模块
所述第一网络训练模块用于训练稠密卷积编码网络,获得特征编码方式;
所述第一网络训练模块包括:第一编码解码网络训练单元、第二编码解码网络训练单元;
(5.1)所述第一编码解码网络训练单元用于训练编码解码网络ECNet1;
对于梅尔波段能量特征提取模块的K×M×s个25通道梅尔波段能量特征训练样本;通过梅尔波段能量特征训练样本训练编码解码网络ECNet1;编码解码网络ECNet1由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
其中,稠密模块由3个稠密卷积层组成,如图2所示,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);编码解码网络的优化准则为最小化下列损失函数:
网络具体分层设计如表2.示例为佳;
表2.编解码网络ECNet1具体结构
(5.2)第二编码解码网络训练单元
所述第二编码解码网络训练单元用于训练编码解码网络ECNet2;
所述第二编码解码网络训练单元通过梅尔波段能量特征提取模块的K×M×s个25通道人工设计特征训练样本训练编码解码网络ECNet2,编码解码网络ECNet2由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
其中密连模块由3个稠密卷积层组成,如图2所示,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);编码解码网络的优化准则为最小化如下损失函数:
网络具体设计如表3示例为佳。
表3.编解码网络具体结构
(6)第二网络训练模块
所述第二网络训练模块用于训练特征融合网络FusedNet;
如图3,特征融合网络由3部分组成:预训练的编码网络1和预训练的编码网络2,特征融合层以及卷积分类层(以Lenet-5为例,参数为Θconv);具体流程图如图4;其中,预训练的编码网络1和预训练的编码网络2的参数分别为
所述第二网络训练模块包括:数据输入单元、编码特征融合单元、卷积子网络构建及训练单元;
(6.1)所述数据输入单元用于利用编码网络编码输入数据;
编码网络1:将P×P×25梅尔谱能级特征输入编码网络1,提取到P×P×100个特征图F11;
编码网络2:将Q×Q×25人工设计特征输入编码网络2,提取到Q×Q×100个特征图F12;
(6.2)编码特征融合单元
所述编码特征融合单元用于融合编码特征;
其对编码网络1得到的P×P×100个特征图F11经过W1×W1的池化单元池化为W×W×100个特征图F21;满足关系:
对编码网络2得到的Q×Q×100个特征图F12经过W2×W2的池化单元池化为W×W×100个特征图F22;满足关系:
将特征图F11与F12堆叠成W×W×200个特征图F;
F=[F21,F22];
(6.3)卷积子网络构建及训练单元
所述卷积子网络构建及训练单元用于构建并训练FusedNet中用于分类的卷积子网络Lenet-5;
所述卷积子网络构建及训练单元构建卷积子网络Lenet-5的过程如下:
将W×W×200个特征图F输入卷积分类网络,以Lenet-5为例,卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成;全连接层输出特征的5维稠密表示[y1,y2,y3,y4,y5],
表示属于五类中某类的概率;卷积分类网络(Lenet-5)结构具体如表4所示;
表4.卷积分类网络(Lenet-5)具体结构
所述卷积子网络构建及训练单元训练卷积子网络Lenet-5的过程如下:
各层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);采用交叉熵损失函数,迭代50次,训练过程中一次取1000批次样本训练,学习率取0.01;得到卷积分类网络的参数Θconv;
(7)测试模块
所述测试模块用于测试FusedNet分类结果;
其中,所述声音传感器采用i436型拾音器。
其中,所述K类声源发生装置包括:枪声、炮声、喊话声、脚步声、机车声。
其中,所述开源工具采用Freesound开源工具。
其中,所述隐正则化处理方法包括随机失活算法(dropout算法)。
其中,所述多通道数据采集传输模块嵌入在上位机当中,便于便携式采集数据。
其中,所述信号调理模块采用AGC自动增益放大电路。
其中,所述多通道数据采集传输模块采用24通道A/D采集卡。
表2.编解码网络ECNet1具体结构
表3.编解码网络具体结构
此外,本发明还提供一种基于特征融合网络的声源目标识别方法,所述方法包括如下步骤:
步骤1:布阵声源识别传感器网络;
采用25元声音传感器构成立体阵列,进行声源信息探测定位,如图1所示,坐标原点设置声音传感器1,以XOY为平面,以1m为半径,等间距布设12个声音传感器,以XOZ为平面,以1m为半径,等间距布设12个声音传感器;由此共布设25个声音传感器;
步骤2:采集声源传感器阵列信号;包括:
步骤21:采集训练样本信号;
将K类声源发生装置随机放置到传感器网络布阵区域内,由每类发生装置产生M个t秒声源样本信号共随机放置s次,声源信号发生后采用多路信号调理模块和多通道数据采集传输模块,采集到K类25通道M×s个t秒时长的传感器接收信号,作为声源信号传输至控制终端传感器:
X(i)(i=1,2,...K×M×s)
并记录相应声源样本信号类型标签:
Y(i)∈RK(i=1,2,...K×M×s),包含一位有效编码(one-hot向量);
标记传感器接收信号类型的标签同样为Y(i);
将(X(i),Y(i))作为训练样本,并对训练样本分别进行步骤3、步骤4处理;
步骤22:采集测试样本信号;
以上述步骤21的方法再采集产生Mtest个t秒共随机放置stest次,获得声源样本信号并记录相应类型标签作为测试样本:
步骤3:提取声源信号的梅尔波段能量特征;
对采集到的25通道t秒时长的训练样本信号:
(X(i),Y(i))(i=1,2,...K×M×s)
采用如下操作提取梅尔波段能量特征:
步骤31:分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为P帧,每一帧信号T1毫秒,相邻帧间有T2毫秒重叠;满足关系:
步骤32:加窗分帧后的声源信号;
步骤33:计算梅尔(Mel)谱能量;
对于每一帧信号使用短时傅立叶变换(SFT),计算对数梅尔谱能量:
步骤4:提取声源信号的人工设计特征;
对采集到的25通道t秒时长的训练样本信号
(X(i),Y(i))(i=1,2,...K×M×s);
采用如下操作提取人工设计特征:
步骤41:分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为Q帧,每一帧信号T1'毫秒,相邻帧间有T2'毫秒重叠;满足关系:
步骤42:利用开源工具提取人工设计特征;
对于单通道内每一帧训练样本信号进行人工设计特征提取,使用开源工具进行人工设计特征提取;选用的特征包括:大声喊叫域(Bark)能量、等效矩形带宽(ERB)能量、梅尔能量、谱能量、声调(Tonal)、音高(Pitch)、沉默(Silence)率、梅尔倒谱系数、伽马语调系数共计Q个手工特征如表1所示,得人工设计特征
表1.Freesound特征提取器提取到的特征(以Q=362为例)
步骤5:训练稠密卷积编码网络,获得特征编码方式;具体包括:
步骤5.1:训练编码解码网络ECNet1;
对于步骤3的K×M×s个25通道梅尔波段能量特征训练样本;通过梅尔波段能量特征训练样本训练编码解码网络ECNet1;编码解码网络ECNet1由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
其中,稠密模块由3个稠密卷积层组成,如图2所示,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);编码解码网络的优化准则为最小化下列损失函数:
网络具体分层设计如表2.示例为佳;
表2.编解码网络ECNet1具体结构
步骤5.2:训练编码解码网络ECNet2;
其中密连模块由3个稠密卷积层组成,如图2所示,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);编码解码网络的优化准则为最小化如下损失函数:
网络具体设计如表3示例为佳。
表3.编解码网络具体结构
步骤6:训练特征融合网络FusedNet;
如图3,特征融合网络由3部分组成:预训练的编码网络1和预训练的编码网络2,特征融合层以及卷积分类层(以Lenet-5为例,参数为Θconv);具体流程图如图4;其中,预训练的编码网络1和预训练的编码网络2的参数分别为
步骤6包括:
步骤61:利用编码网络编码输入数据;
编码网络1:将P×P×25梅尔谱能级特征输入编码网络1,提取到P×P×100个特征图F11;
编码网络2:将Q×Q×25人工设计特征输入编码网络2,提取到Q×Q×100个特征图F12;
步骤62:融合编码特征;
对编码网络1得到的P×P×100个特征图F11经过W1×W1的池化单元池化为W×W×100个特征图F21;满足关系:
对编码网络2得到的Q×Q×100个特征图F12经过W2×W2的池化单元池化为W×W×100个特征图F22;满足关系:
将特征图F11与F12堆叠成W×W×200个特征图F;
F=[F21,F22];
步骤63:构建并训练FusedNet中用于分类的卷积子网络Lenet-5;
步骤631:构建卷积子网络Lenet-5;
将W×W×200个特征图F输入卷积分类网络,以Lenet-5为例,卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成;全连接层输出特征的5维稠密表示[y1,y2,y3,y4,y5],
表示属于五类中某类的概率;卷积分类网络(Lenet-5)结构具体如表4所示;
表4.卷积分类网络(Lenet-5)具体结构
步骤632:训练卷积子网络Lenet-5;
各层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);采用交叉熵损失函数,迭代50次,训练过程中一次取1000批次样本训练,学习率取0.01;得到卷积分类网络的参数Θconv;
步骤7:测试FusedNet分类结果;
其中,所述声音传感器采用i436型拾音器。
其中,所述K类声源发生装置包括:枪声、炮声、喊话声、脚步声、机车声。
其中,所述开源工具采用Freesound开源工具。
其中,所述隐正则化处理方法包括随机失活算法(dropout算法)。
其中,所述多通道数据采集传输模块嵌入在上位机当中,便于便携式采集数据。
其中,所述信号调理模块采用AGC自动增益放大电路。
其中,所述多通道数据采集传输模块采用24通道A/D采集卡。
表2.编解码网络ECNet1具体结构
表3.编解码网络具体结构
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于可穿戴式设备的声源目标识别***,其特征在于,所述***包括:传感器网络布设模块、声源信号采集模块、梅尔波段能量特征提取模块、人工设计特征提取模块、第一网络训练模块、第二网络训练模块、测试模块;
(1)传感器网络布设模块
所述传感器网络布设模块用于布阵声源识别传感器网络,其采用25元声音传感器构成立体阵列,进行声源信息探测定位,坐标原点设置声音传感器1,以XOY为平面,以1m为半径,等间距布设12个声音传感器,以XOZ为平面,以1m为半径,等间距布设12个声音传感器;由此共布设25个声音传感器;
(2)声源信号采集模块
所述声源信号采集模块用于采集声源传感器阵列信号;其包括:训练样本信号采集单元及测试样本信号采集单元;
(2.1)训练样本信号采集单元
所述训练样本信号采集单元用于采集训练样本信号,其将K类声源发生装置随机放置到传感器网络布阵区域内,由每类发生装置产生M个t秒声源样本信号共随机放置s次,声源信号发生后采用多路信号调理模块和多通道数据采集传输模块,采集到K类25通道M×s个t秒时长的传感器接收信号,作为声源信号传输至控制终端传感器:
X(i),其中,i=1,2,...K×M×s;
并记录相应声源样本信号类型标签:
Y(i)∈RK,其中,i=1,2,...K×M×s;
标记传感器接收信号类型的标签同样为Y(i);
将(X(i),Y(i))作为训练样本,并对训练样本分别通过梅尔波段能量特征提取模块、人工设计特征提取模块来进行处理;
(2.2)测试样本信号采集单元
所述测试样本信号采集单元用于采集测试样本信号,其根据所述训练样本信号采集单元的采集方法再采集产生Mtest个t秒共随机放置stest次,获得声源样本信号并记录相应类型标签作为测试样本:
(3)梅尔波段能量特征提取模块,其包括:分帧单元、加窗单元、
所述梅尔波段能量特征提取模块用于提取声源信号的梅尔波段能量特征,其对采集到的25通道t秒时长的训练样本信号:
(X(i),Y(i)),其中,i=1,2,...K×M×s;
所述梅尔波段能量特征提取模块包括:第一分帧单元、加窗单元、梅尔谱能量计算单元;
(3.1)第一分帧单元,其用于分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K ×M×s)分为P帧,每一帧信号T1毫秒,相邻帧间有T2毫秒重叠;满足关系:
(3.2)加窗单元,其用于加窗分帧后的声源信号;
(3.3)梅尔谱能量计算单元,其用于计算梅尔谱能量;
对于每一帧信号使用短时傅立叶变换,计算对数梅尔谱能量:
(4)人工设计特征提取模块
所述人工设计特征提取模块用于提取声源信号的人工设计特征;
对采集到的25通道t秒时长的训练样本信号(X(i),Y(i)),其中,i=1,2,...K×M×s;
所述人工设计特征提取模块包括:第二分帧单元、人工设计特征提取单元;
(4.1)第二分帧单元,其用于分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K ×M×s)分为Q帧,每一帧信号T1′毫秒,相邻帧间有T′2毫秒重叠;满足关系:
(4.2)人工设计特征提取单元,其利用开源工具提取人工设计特征;
对于单通道内每一帧训练样本信号进行人工设计特征提取,使用开源工具进行人工设计特征提取;选用的特征包括:大声喊叫域能量、等效矩形带宽能量、梅尔能量、谱能量、声调、音高、沉默率、梅尔倒谱系数、伽马语调系数共计Q个手工特征,得人工设计特征
(5)第一网络训练模块
所述第一网络训练模块用于训练稠密卷积编码网络,获得特征编码方式;
所述第一网络训练模块包括:第一编码解码网络训练单元、第二编码解码网络训练单元;
(5.1)所述第一编码解码网络训练单元用于训练编码解码网络ECNet1;
对于梅尔波段能量特征提取模块的K×M×s个25通道梅尔波段能量特征训练样本;通过梅尔波段能量特征训练样本训练编码解码网络ECNet1;编码解码网络ECNet1由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
其中,稠密模块由3个稠密卷积层组成,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法;编码解码网络的优化准则为最小化下列损失函数:
(5.2)第二编码解码网络训练单元
所述第二编码解码网络训练单元用于训练编码解码网络ECNet2;
所述第二编码解码网络训练单元通过梅尔波段能量特征提取模块的K×M×s个25通道人工设计特征训练样本训练编码解码网络ECNet2,编码解码网络ECNet2由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
其中密连模块由3个稠密卷积层组成,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法;编码解码网络的优化准则为最小化如下损失函数:
(6)第二网络训练模块
所述第二网络训练模块用于训练特征融合网络FusedNet;
所述第二网络训练模块包括:数据输入单元、编码特征融合单元、卷积子网络构建及训练单元;
(6.1)所述数据输入单元用于利用编码网络编码输入数据;
编码网络1:将P×P×25梅尔谱能级特征输入编码网络1,提取到P×P×100个特征图F11;
编码网络2:将Q×Q×25人工设计特征输入编码网络2,提取到Q×Q×100个特征图F12;
(6.2)编码特征融合单元
所述编码特征融合单元用于融合编码特征;
其对编码网络1得到的P×P×100个特征图F11经过W1×W1的池化单元池化为W×W×100个特征图F21;满足关系:
对编码网络2得到的Q×Q×100个特征图F12经过W2×W2的池化单元池化为W×W×100个特征图F22;满足关系:
将特征图F11与F12堆叠成W×W×200个特征图F;
F=[F21,F22];
(6.3)卷积子网络构建及训练单元
所述卷积子网络构建及训练单元用于构建并训练FusedNet中用于分类的卷积子网络Lenet-5;
所述卷积子网络构建及训练单元构建卷积子网络Lenet-5的过程如下:
将W×W×200个特征图F输入卷积分类网络,在Lenet-5的情况下,卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成;全连接层输出特征的K维稠密表示[y1,y2,y3,y4,......yK],
表示属于K类中某类的概率;卷积分类网络Lenet-5结构具体如下所示;
层名:卷积层C6;输入大小:W×W×200;卷积核大小/数量/填充列数/步长:3×3×200/16/1/1;输出大小:W×W×16;
所述卷积子网络构建及训练单元训练卷积子网络Lenet-5的过程如下:
各层都按概率20%使用了隐正则化处理方法;采用交叉熵损失函数,迭代50次,训练过程中一次取1000批次样本训练,学习率取0.01;得到卷积分类网络的参数Θconv;
(7)测试模块
所述测试模块用于测试FusedNet分类结果;
2.如权利要求1所述的基于可穿戴式设备的声源目标识别***,其特征在于,所述声音传感器采用i436型拾音器。
3.如权利要求1所述的基于可穿戴式设备的声源目标识别***,其特征在于,所述K类声源发生装置包括:枪声、炮声、喊话声、脚步声、机车声。
4.如权利要求1所述的基于可穿戴式设备的声源目标识别***,其特征在于,所述开源工具采用Freesound开源工具。
5.如权利要求1所述的基于可穿戴式设备的声源目标识别***,其特征在于,所述隐正则化处理方法包括随机失活算法。
6.如权利要求1所述的基于可穿戴式设备的声源目标识别***,其特征在于,所述多通道数据采集传输模块嵌入在上位机当中,便于便携式采集数据。
7.如权利要求1所述的基于可穿戴式设备的声源目标识别***,其特征在于,所述信号调理模块采用AGC自动增益放大电路。
8.如权利要求1所述的基于可穿戴式设备的声源目标识别***,其特征在于,所述多通道数据采集传输模块采用24通道A/D采集卡。
9.如权利要求1所述的基于可穿戴式设备的声源目标识别***,其特征在于,所述编码解码网络ECNet1结构具体如下所示;迭代训练20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到编解码网络ECNet1的参数
编码解码网络ECNet1结构:
层名:卷积层C1;输入大小:P×P×25;卷积核大小/数量/填充列数/步长:3×3×25/16/1/1;输出大小:P×P×16;
层名:稠密卷积层DC1~3,密连模块1;输入大小:P×P×16;卷积核大小/数量/填充列数/步长:3×3×16/100/1/1;输出大小:P×P×100;
层名:卷积层2;输入大小:P×P×100;卷积核大小/数量/填充列数/步长:3×3×100/24/1/1;输出大小:P×P×24;
层名:卷积层3;输入大小:P×P×24;卷积核大小/数量/填充列数/步长:3×3×24/16/1/1;输出大小:P×P×16;
层名:卷积层4;输入大小:P×P×16;卷积核大小/数量/填充列数/步长:3×3×12/12/1/1;输出大小:P×P×12;
层名:卷积层5;输入大小:P×P×12;卷积核大小/数量/填充列数/步长:3×3×12/12/1/1;输出大小:P×P×12。
10.如权利要求1所述的基于可穿戴式设备的声源目标识别***,其特征在于,编码解码网络ECNet2结构具体如下所示;迭代训练ECNet2 20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到网络ECNet2的参数
编码解码网络ECNet2结构:
层名:卷积层C1;输入大小:Q×Q×25;卷积核大小/数量/填充列数/步长:3×3×25/16/1/1;输出大小:Q×Q×16;
层名:稠密卷积层DC1~3,密连模块1;输入大小:Q×Q×16;卷积核大小/数量/填充列数/步长:3×3×16/100/1/1;输出大小:Q×Q×100;
层名:卷积层2;输入大小:Q×Q×100;卷积核大小/数量/填充列数/步长:3×3×100/24/1/1;输出大小:Q×Q×24;
层名:卷积层3;输入大小:Q×Q×24;卷积核大小/数量/填充列数/步长:3×3×24/16/1/1;输出大小:Q×Q×16;
层名:卷积层4;输入大小:Q×Q×16;卷积核大小/数量/填充列数/步长:3×3×12/12/1/1;输出大小:Q×Q×12;
层名:卷积层5;输入大小:Q×Q×12;卷积核大小/数量/填充列数/步长:3×3×12/12/1/1;输出大小:Q×Q×12。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910874151.2A CN110580915B (zh) | 2019-09-17 | 2019-09-17 | 基于可穿戴式设备的声源目标识别*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910874151.2A CN110580915B (zh) | 2019-09-17 | 2019-09-17 | 基于可穿戴式设备的声源目标识别*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110580915A CN110580915A (zh) | 2019-12-17 |
CN110580915B true CN110580915B (zh) | 2022-03-25 |
Family
ID=68813103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910874151.2A Active CN110580915B (zh) | 2019-09-17 | 2019-09-17 | 基于可穿戴式设备的声源目标识别*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110580915B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111314934B (zh) * | 2020-02-14 | 2021-08-10 | 西北工业大学 | 一种统一最优判决的网络协同探测方法 |
CN115587337B (zh) * | 2022-12-14 | 2023-06-23 | 中国汽车技术研究中心有限公司 | 车门异响识别方法、设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107610692A (zh) * | 2017-09-22 | 2018-01-19 | 杭州电子科技大学 | 基于神经网络堆叠自编码器多特征融合的声音识别方法 |
CN108694951A (zh) * | 2018-05-22 | 2018-10-23 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN108804453A (zh) * | 2017-04-28 | 2018-11-13 | 上海荆虹电子科技有限公司 | 一种视音频识别方法及装置 |
CN109166593A (zh) * | 2018-08-17 | 2019-01-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN109406147A (zh) * | 2018-10-29 | 2019-03-01 | 安徽大学 | 一种变速工况下的列车轴承轨边声学诊断方法 |
CN110136745A (zh) * | 2019-05-08 | 2019-08-16 | 西北工业大学 | 一种基于卷积神经网络的汽车鸣笛识别方法 |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050027530A1 (en) * | 2003-07-31 | 2005-02-03 | Tieyan Fu | Audio-visual speaker identification using coupled hidden markov models |
CN106710599A (zh) * | 2016-12-02 | 2017-05-24 | 深圳撒哈拉数据科技有限公司 | 一种基于深度神经网络的特定声源检测方法与*** |
-
2019
- 2019-09-17 CN CN201910874151.2A patent/CN110580915B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804453A (zh) * | 2017-04-28 | 2018-11-13 | 上海荆虹电子科技有限公司 | 一种视音频识别方法及装置 |
CN107610692A (zh) * | 2017-09-22 | 2018-01-19 | 杭州电子科技大学 | 基于神经网络堆叠自编码器多特征融合的声音识别方法 |
CN108694951A (zh) * | 2018-05-22 | 2018-10-23 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN109166593A (zh) * | 2018-08-17 | 2019-01-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN109406147A (zh) * | 2018-10-29 | 2019-03-01 | 安徽大学 | 一种变速工况下的列车轴承轨边声学诊断方法 |
CN110136745A (zh) * | 2019-05-08 | 2019-08-16 | 西北工业大学 | 一种基于卷积神经网络的汽车鸣笛识别方法 |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
Non-Patent Citations (2)
Title |
---|
Novel TEO-based Gammatone Features for Environmental Sound Classification;Dharmesh M. Agrawal et al;《2017 25th European Signal Processing Conference (EUSIPCO)》;20171231;第1809-1813页 * |
基于特征融合的开挖器械声音识别算法研究;程飞;《中国优秀硕士学位论文全文数据库》;20190115;第23-34页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110580915A (zh) | 2019-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065030B (zh) | 基于卷积神经网络的环境声音识别方法及*** | |
CN107393542B (zh) | 一种基于双通道神经网络的鸟类物种识别方法 | |
US7457749B2 (en) | Noise-robust feature extraction using multi-layer principal component analysis | |
Sawhney et al. | Situational awareness from environmental sounds | |
CN108198561A (zh) | 一种基于卷积神经网络的翻录语音检测方法 | |
CN112735473B (zh) | 基于声音识别无人机的方法及*** | |
CN110600054A (zh) | 基于网络模型融合的声场景分类方法 | |
CN110580915B (zh) | 基于可穿戴式设备的声源目标识别*** | |
CN117095694B (zh) | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 | |
Dogan et al. | A novel ternary and signum kernelled linear hexadecimal pattern and hybrid feature selection based environmental sound classification method | |
CN113191178A (zh) | 一种基于听觉感知特征深度学习的水声目标识别方法 | |
CN110444225B (zh) | 基于特征融合网络的声源目标识别方法 | |
CN111613240A (zh) | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
Wang et al. | A novel underground pipeline surveillance system based on hybrid acoustic features | |
CN114898773A (zh) | 基于深度自注意力神经网络分类器的合成语音检测方法 | |
CN117877516A (zh) | 一种基于跨模型两阶段训练的声音事件检测方法 | |
CN111429916B (zh) | 一种声音信号记录*** | |
CN113793624A (zh) | 一种声学场景分类方法 | |
CN111179959B (zh) | 一种基于说话人嵌入空间的竞争说话人数量估计方法及*** | |
CN108735230A (zh) | 基于混合音频的背景音乐识别方法、装置及设备 | |
CN110808067A (zh) | 基于二值多频带能量分布的低信噪比声音事件检测方法 | |
CN115238738A (zh) | 构建水声目标识别模型的方法和装置 | |
CN113782051B (zh) | 广播效果分类方法及***、电子设备和存储介质 | |
CN113539298B (zh) | 一种基于云边端的声音大数据分析计算图像化*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |