CN110444225B - 基于特征融合网络的声源目标识别方法 - Google Patents

基于特征融合网络的声源目标识别方法 Download PDF

Info

Publication number
CN110444225B
CN110444225B CN201910874153.1A CN201910874153A CN110444225B CN 110444225 B CN110444225 B CN 110444225B CN 201910874153 A CN201910874153 A CN 201910874153A CN 110444225 B CN110444225 B CN 110444225B
Authority
CN
China
Prior art keywords
network
size
training
layer
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910874153.1A
Other languages
English (en)
Other versions
CN110444225A (zh
Inventor
崔敏
王彦博
李剑
王小亮
刘泽鹏
李冒金
王鹏程
刘志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North University of China
Original Assignee
North University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North University of China filed Critical North University of China
Priority to CN201910874153.1A priority Critical patent/CN110444225B/zh
Publication of CN110444225A publication Critical patent/CN110444225A/zh
Application granted granted Critical
Publication of CN110444225B publication Critical patent/CN110444225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Abstract

本发明属于声音信号处理技术领域,具体涉及一种基于特征融合网络的声源目标识别方法。本发明技术方案中,首先,两组训练稠密卷积编码‑解码网络对输入数据与人工提取特征分别训练编码网络抽象高级特征,基于稠密卷积的使用可以使我们能够训练深度更深的编码网络并增强重复特征的使用。其次,设计融合层融合两种编码网络提取的特征,最后利用一个卷积网络实现声源信号的分类。最终,本发明技术方案解决了现有技术中对识别精度产生负面影响、以及卷积网络当层数加深时还存在梯度消失或***,特征重复利用率等缺陷的问题。

Description

基于特征融合网络的声源目标识别方法
技术领域
本发明属于声音信号处理技术领域,具体涉及一种基于特征融合网络的声源目标识别方法。
背景技术
声源目标识别是智能机器人***两项关键技术--视觉目标识别与声源目标识别技术之一。特别地当智能机器人在遮挡、烟雾、伪装、干扰等场景,光学和电磁探测设备无法使用的情况下,声学传感器仍然可以维持机器人对环境的感知,实现声源目标识别从而辅助机器人控制与决策。
声源目标识别的难点在于从复杂噪声环境中精确识别目标。传统的声源目标识别基于特征工程方法,即预先经过人工设计并从音频信号中提取的特征。提取特征后采用高斯混合模型、支撑向量机等模型聚类或分类,对其分类精度通常在65%~75%范围之内(TUT Acoustic Scenes 2017测试集)。传统声源目标识别技术识别精度不高的原因是人工设计特征偏重于对声音信号的整体认识如声高、音调以及沉默率,对于输入声音信号的逐层抽象能力不足。
目前流行的声源目标识别方法是基于不同卷积网络架构的深度学习方法。不同于传统方法依赖于特征工程,深度学习自动从输入数据(通常为经过短时傅里叶变换后的原始数据)逐层抽象并凝练特征最终用于声源目标识别任务,调参后,该方法通常可达到75%~85%(TUT Acoustic Scenes 2017测试集)的识别精度。卷积神经网络理论上仍有进一步提升的空间,由于卷积神经网络基于局部连接并权值共享使得卷积滤波器很难提取整体的高频(边缘和细节)信息,从而对识别精度产生负面影响。另外卷积网络当层数加深时还存在梯度消失或***,特征重复利用率等缺陷。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种基于特征融合网络的声源目标识别方法。
(二)技术方案
为解决上述技术问题,本发明提供一种基于特征融合网络的声源目标识别方法,所述方法包括如下步骤:
步骤1:布阵声源识别传感器网络;
采用25元声音传感器构成立体阵列,进行声源信息探测定位,坐标原点设置声音传感器1,以XOY为平面,以1m为半径,等间距布设12个声音传感器,以XOZ为平面,以1m为半径,等间距布设12个声音传感器;由此共布设25个声音传感器;
步骤2:采集声源传感器阵列信号;包括:
步骤21:采集训练样本信号;
将K类声源发生装置随机放置到传感器网络布阵区域内,由每类发生装置产生M个t秒声源样本信号共随机放置s次,声源信号发生后采用多路信号调理模块和多通道数据采集传输模块,采集到K类25通道M×s个t秒时长的传感器接收信号,作为声源信号传输至控制终端传感器:
X(i)(i=1,2,...K×M×s)
并记录相应声源样本信号类型标签:
Y(i)∈RK(i=1,2,...K×M×s)
标记传感器接收信号类型的标签同样为Y(i)
将(X(i),Y(i))作为训练样本,并对训练样本分别进行步骤3、步骤4处理;
步骤22:采集测试样本信号;
以上述步骤21的方法再采集产生Mtest个t秒共随机放置stest次,获得声源样本信号并记录相应类型标签作为测试样本:
Figure BDA0002203792160000031
步骤3:提取声源信号的梅尔波段能量特征;
对采集到的25通道t秒时长的训练样本信号:
(X(i),Y(i))(i=1,2,...K×M×s)
采用如下操作提取梅尔波段能量特征:
步骤31:分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为P帧,每一帧信号T1毫秒,相邻帧间有T2毫秒重叠;满足关系:
Figure BDA0002203792160000032
得到分帧训练样本信号:
Figure BDA0002203792160000033
步骤32:加窗分帧后的声源信号;
为了消除各帧信号两端的不连续性,对分帧训练样本信号
Figure BDA0002203792160000034
加上40毫秒的哈明窗口;
步骤33:计算梅尔谱能量;
对于每一帧信号使用短时傅立叶变换,计算对数梅尔谱能量:
Figure BDA0002203792160000035
然后分割为P个尺度的梅尔波段能量特征样本
Figure BDA0002203792160000036
共得到K×M×s个梅尔波段能量特征
Figure BDA0002203792160000037
训练样本;
步骤4:提取声源信号的人工设计特征;
对采集到的25通道t秒时长的训练样本信号(X(i),Y(i))(i=1,2,...K×M×s);
采用如下操作提取人工设计特征:
步骤41:分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为Q帧,每一帧信号T1'毫秒,相邻帧间有T′2毫秒重叠;满足关系:
Figure BDA0002203792160000041
得到分帧训练样本信号
Figure BDA0002203792160000042
步骤42:利用开源工具提取人工设计特征;
对于单通道内每一帧训练样本信号
Figure BDA0002203792160000043
进行人工设计特征提取,使用开源工具进行人工设计特征提取;选用的特征包括:大声喊叫域能量、等效矩形带宽能量、梅尔能量、谱能量、声调、音高、沉默率、梅尔倒谱系数、伽马语调系数共计Q个手工特征,得人工设计特征
Figure BDA0002203792160000044
共得到K×M×s个人工设计特征
Figure BDA0002203792160000045
训练样本;
步骤5:训练稠密卷积编码网络,获得特征编码方式;具体包括:
步骤5.1:训练编码解码网络ECNet1
对于步骤3的K×M×s个25通道梅尔波段能量特征
Figure BDA0002203792160000046
训练样本;通过梅尔波段能量特征
Figure BDA0002203792160000047
训练样本训练编码解码网络ECNet1;编码解码网络ECNet1由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure BDA0002203792160000048
其中,稠密模块由3个稠密卷积层组成,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法;编码解码网络的优化准则为最小化下列损失函数:
Figure BDA0002203792160000049
训练得到编解码网络ECNet1的参数
Figure BDA00022037921600000410
步骤5.2:训练编码解码网络ECNet2
通过步骤3的K×M×s个25通道人工设计特征
Figure BDA0002203792160000051
训练样本训练编码解码网络ECNet2,编码解码网络ECNet2由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure BDA0002203792160000052
其中密连模块由3个稠密卷积层组成,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法;编码解码网络的优化准则为最小化如下损失函数:
Figure BDA0002203792160000053
训练得到网络ECNet2的参数
Figure BDA0002203792160000054
步骤6:训练特征融合网络FusedNet;
特征融合网络由3部分组成:预训练的编码网络1和预训练的编码网络2,特征融合层以及卷积分类层;其中,预训练的编码网络1和预训练的编码网络2的参数分别为
Figure BDA0002203792160000055
步骤6包括:
步骤61:利用编码网络编码输入数据;
将25通道梅尔波段能量特征
Figure BDA0002203792160000056
训练样本当作能量谱特征输入编码网络1编码梅尔波段能量特征;
编码网络1:将P×P×25梅尔谱能级特征输入编码网络1,提取到P×P×100个特征图F11
将25通道人工提取特征
Figure BDA0002203792160000057
训练样本当人工设计特征输入编码网络2编码人工设计能量特征;
编码网络2:将Q×Q×25人工设计特征输入编码网络2,提取到Q×Q×100个特征图F12
步骤62:融合编码特征;
对编码网络1得到的P×P×100个特征图F11经过W1×W1的池化单元池化为W×W×100个特征图F21;满足关系:
Figure BDA0002203792160000061
对编码网络2得到的Q×Q×100个特征图F12经过W2×W2的池化单元池化为W×W×100个特征图F22;满足关系:
Figure BDA0002203792160000062
将特征图F11与F12堆叠成W×W×200个特征图F;
F=[F21,F22];
步骤63:构建并训练FusedNet中用于分类的卷积子网络Lenet-5;
步骤631:构建卷积子网络Lenet-5;
将W×W×200个特征图F输入卷积分类网络,以Lenet-5为例,卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成;全连接层输出特征的5维稠密表示[y1,y2,y3,y4,y5],
经过Softmax变换
Figure BDA0002203792160000063
后,
Figure BDA0002203792160000064
表示属于五类中某类的概率;卷积分类网络(Lenet-5)结构具体如表4所示;
表4.卷积分类网络(Lenet-5)具体结构
Figure BDA0002203792160000065
Figure BDA0002203792160000071
步骤632:训练卷积子网络Lenet-5;
把K×M×s个样本输入卷积分类网络,输入交叉熵损失函数进行分类预测
Figure BDA0002203792160000072
对比,优化参数;
各层都按概率20%使用了隐正则化处理方法;采用交叉熵损失函数,迭代50次,训练过程中一次取1000批次样本训练,学习率取0.01;得到卷积分类网络的参数Θconv
步骤7:测试FusedNet分类结果;
将测试样本
Figure BDA0002203792160000073
输入网络得到预测分类结果Yi pred,与真实标签Yi test对比,统计预测正确率。
其中,所述声音传感器采用i436型拾音器。
其中,所述K类声源发生装置包括:枪声、炮声、喊话声、脚步声、机车声。
其中,所述开源工具采用Freesound开源工具。
其中,所述隐正则化处理方法包括随机失活算法。
其中,所述多通道数据采集传输模块嵌入在上位机当中,便于便携式采集数据。
其中,所述信号调理模块采用AGC自动增益放大电路。
其中,所述多通道数据采集传输模块采用24通道A/D采集卡。
其中,所述编码解码网络ECNet1结构具体如表2所示;迭代训练20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到编解码网络ECNet1的参数
Figure BDA0002203792160000074
表2.编解码网络ECNet1具体结构
Figure BDA0002203792160000075
Figure BDA0002203792160000081
其中,编码解码网络ECNet2结构具体如表3所示;迭代训练ECNet2 20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到网络ECNet2的参数
Figure BDA0002203792160000082
表3.编解码网络具体结构
Figure BDA0002203792160000083
(三)有益效果
与现有技术相比较,本发明提出了一种基于卷积神经网络与特征工程相融合的声源识别方法。首先,两组训练稠密卷积编码-解码网络对输入数据与人工提取特征分别训练编码网络抽象高级特征,基于稠密卷积的使用可以使我们能够训练深度更深的编码网络并增强重复特征的使用。其次,设计融合层融合两种编码网络提取的特征,最后利用一个卷积网络实现声源信号的分类。最终,本发明技术方案解决了现有技术中对识别精度产生负面影响、以及卷积网络当层数加深时还存在梯度消失或***,特征重复利用率等缺陷的问题。
附图说明
图1为声源获取传感器阵列布置示意图。
图2为编码解码网络示意图。
图3为特征融合声源分类网络示意图。
图4为训练特征融合网络流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为解决现有技术问题,本发明提供一种基于特征融合网络的声源目标识别方法,所述方法包括如下步骤:
步骤1:布阵声源识别传感器网络;
采用25元声音传感器构成立体阵列,进行声源信息探测定位,如图1所示,坐标原点设置声音传感器1,以XOY为平面,以1m为半径,等间距布设12个声音传感器,以XOZ为平面,以1m为半径,等间距布设12个声音传感器;由此共布设25个声音传感器;
步骤2:采集声源传感器阵列信号;包括:
步骤21:采集训练样本信号;
将K类声源发生装置随机放置到传感器网络布阵区域内,由每类发生装置产生M个t秒声源样本信号共随机放置s次,声源信号发生后采用多路信号调理模块和多通道数据采集传输模块,采集到K类25通道M×s个t秒时长的传感器接收信号,作为声源信号传输至控制终端传感器:
X(i)(i=1,2,...K×M×s)
并记录相应声源样本信号类型标签:
Y(i)∈RK(i=1,2,...K×M×s),包含一位有效编码(one-hot向量);
标记传感器接收信号类型的标签同样为Y(i)
将(X(i),Y(i))作为训练样本,并对训练样本分别进行步骤3、步骤4处理;
步骤22:采集测试样本信号;
以上述步骤21的方法再采集产生Mtest个t秒共随机放置stest次,获得声源样本信号并记录相应类型标签作为测试样本:
Figure BDA0002203792160000091
步骤3:提取声源信号的梅尔波段能量特征;
对采集到的25通道t秒时长的训练样本信号:
(X(i),Y(i))(i=1,2,...K×M×s)
采用如下操作提取梅尔波段能量特征:
步骤31:分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为P帧,每一帧信号T1毫秒,相邻帧间有T2毫秒重叠;满足关系:
Figure BDA0002203792160000101
得到分帧训练样本信号:
Figure BDA0002203792160000102
步骤32:加窗分帧后的声源信号;
为了消除各帧信号两端的不连续性,对分帧训练样本信号
Figure BDA0002203792160000103
加上40毫秒的哈明(Hamming)窗口;
步骤33:计算梅尔(Mel)谱能量;
对于每一帧信号使用短时傅立叶变换(SFT),计算对数梅尔谱能量:
Figure BDA0002203792160000104
然后分割为P个尺度的梅尔波段能量特征样本
Figure BDA0002203792160000105
共得到K×M×s个梅尔波段能量特征
Figure BDA0002203792160000106
训练样本;
步骤4:提取声源信号的人工设计特征;
对采集到的25通道t秒时长的训练样本信号(X(i),Y(i))(i=1,2,...K×M×s);
采用如下操作提取人工设计特征:
步骤41:分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为Q帧,每一帧信号T1'毫秒,相邻帧间有T′2毫秒重叠;满足关系:
Figure BDA0002203792160000107
得到分帧训练样本信号
Figure BDA0002203792160000111
步骤42:利用开源工具提取人工设计特征;
对于单通道内每一帧训练样本信号
Figure BDA0002203792160000112
进行人工设计特征提取,使用开源工具进行人工设计特征提取;选用的特征包括:大声喊叫域(Bark)能量、等效矩形带宽(ERB)能量、梅尔能量、谱能量、声调(Tonal)、音高(Pitch)、沉默(Silence)率、梅尔倒谱系数、伽马语调系数共计Q个手工特征如表1所示,得人工设计特征
Figure BDA0002203792160000113
表1.Freesound特征提取器提取到的特征(以Q=362为例)
Figure BDA0002203792160000114
共得到K×M×s个人工设计特征
Figure BDA0002203792160000115
训练样本;
步骤5:训练稠密卷积编码网络,获得特征编码方式;具体包括:
步骤5.1:训练编码解码网络ECNet1
对于步骤3的K×M×s个25通道梅尔波段能量特征
Figure BDA0002203792160000116
训练样本;通过梅尔波段能量特征
Figure BDA0002203792160000117
训练样本训练编码解码网络ECNet1;编码解码网络ECNet1由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure BDA0002203792160000118
其中,稠密模块由3个稠密卷积层组成,如图2所示,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);编码解码网络的优化准则为最小化下列损失函数:
Figure BDA0002203792160000121
网络具体分层设计如表2.示例为佳;
编码解码网络ECNet1结构具体如表2所示。迭代训练20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到编解码网络ECNet1的参数
Figure BDA0002203792160000122
表2.编解码网络ECNet1具体结构
Figure BDA0002203792160000123
步骤5.2:训练编码解码网络ECNet2
通过步骤3的K×M×s个25通道人工设计特征
Figure BDA0002203792160000124
训练样本训练编码解码网络ECNet2,编码解码网络ECNet2由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure BDA0002203792160000125
其中密连模块由3个稠密卷积层组成,如图2所示,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);编码解码网络的优化准则为最小化如下损失函数:
Figure BDA0002203792160000126
网络具体设计如表3示例为佳。
编码解码网络ECNet2结构具体如表3所示。迭代训练ECNet220次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到网络ECNet2的参数
Figure BDA0002203792160000131
表3.编解码网络具体结构
Figure BDA0002203792160000132
步骤6:训练特征融合网络FusedNet;
如图3,特征融合网络由3部分组成:预训练的编码网络1和预训练的编码网络2,特征融合层以及卷积分类层(以Lenet-5为例,参数为Θconv);具体流程图如图4;其中,预训练的编码网络1和预训练的编码网络2的参数分别为
Figure BDA0002203792160000133
步骤6包括:
步骤61:利用编码网络编码输入数据;
将25通道梅尔波段能量特征
Figure BDA0002203792160000134
训练样本当作能量谱特征输入编码网络1编码梅尔波段能量特征;
编码网络1:将P×P×25梅尔谱能级特征输入编码网络1,提取到P×P×100个特征图F11
将25通道人工提取特征
Figure BDA0002203792160000135
训练样本当人工设计特征输入编码网络2编码人工设计能量特征;
编码网络2:将Q×Q×25人工设计特征输入编码网络2,提取到Q×Q×100个特征图F12
步骤62:融合编码特征;
对编码网络1得到的P×P×100个特征图F11经过W1×W1的池化单元池化为W×W×100个特征图F21;满足关系:
Figure BDA0002203792160000141
对编码网络2得到的Q×Q×100个特征图F12经过W2×W2的池化单元池化为W×W×100个特征图F22;满足关系:
Figure BDA0002203792160000142
将特征图F11与F12堆叠成W×W×200个特征图F;
F=[F21,F22];
步骤63:构建并训练FusedNet中用于分类的卷积子网络Lenet-5;
步骤631:构建卷积子网络Lenet-5;
将W×W×200个特征图F输入卷积分类网络,以Lenet-5为例,卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成;全连接层输出特征的5维稠密表示[y1,y2,y3,y4,y5],
经过Softmax变换
Figure BDA0002203792160000143
后,
Figure BDA0002203792160000144
表示属于五类中某类的概率;卷积分类网络(Lenet-5)结构具体如表4所示;
表4.卷积分类网络(Lenet-5)具体结构
Figure BDA0002203792160000145
Figure BDA0002203792160000151
步骤632:训练卷积子网络Lenet-5;
把K×M×s个样本输入卷积分类网络,输入交叉熵损失函数进行分类预测
Figure BDA0002203792160000152
对比,优化参数;
各层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);采用交叉熵损失函数,迭代50次,训练过程中一次取1000批次样本训练,学习率取0.01;得到卷积分类网络的参数Θconv
步骤7:测试FusedNet分类结果;
将测试样本
Figure BDA0002203792160000153
输入网络得到预测分类结果Yi pred,与真实标签Yi test对比,统计预测正确率。
其中,所述声音传感器采用i436型拾音器。
其中,所述K类声源发生装置包括:枪声、炮声、喊话声、脚步声、机车声。
其中,所述开源工具采用Freesound开源工具。
其中,所述隐正则化处理方法包括随机失活算法(dropout算法)。
其中,所述多通道数据采集传输模块嵌入在上位机当中,便于便携式采集数据。
其中,所述信号调理模块采用AGC自动增益放大电路。
其中,所述多通道数据采集传输模块采用24通道A/D采集卡。
其中,所述编码解码网络ECNet1结构具体如表2所示;迭代训练20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到编解码网络ECNet1的参数
Figure BDA0002203792160000154
表2.编解码网络ECNet1具体结构
Figure BDA0002203792160000155
Figure BDA0002203792160000161
其中,编码解码网络ECNet2结构具体如表3所示;迭代训练ECNet2 20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到网络ECNet2的参数
Figure BDA0002203792160000162
表3.编解码网络具体结构
Figure BDA0002203792160000163
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于特征融合网络的声源目标识别方法,其特征在于,所述方法包括如下步骤:
步骤1:布阵声源识别传感器网络;
采用25元声音传感器构成立体阵列,进行声源信息探测定位,坐标原点设置声音传感器1,以XOY为平面,以1m为半径,等间距布设12个声音传感器,以XOZ为平面,以1m为半径,等间距布设12个声音传感器;由此共布设25个声音传感器;
步骤2:采集声源传感器阵列信号;包括:
步骤21:采集训练样本信号;
将K类声源发生装置随机放置到传感器网络布阵区域内,由每类发生装置产生M个t秒声源样本信号共随机放置s次,声源信号发生后采用多路信号调理模块和多通道数据采集传输模块,采集到K类25通道M×s个t秒时长的传感器接收信号,作为声源信号传输至控制终端传感器:
X(i),其中,i=1,2,...K×M×s;
并记录相应声源样本信号类型标签:
Y(i)∈RK,其中,i=1,2,...K×M×s;
标记传感器接收信号类型的标签同样为Y(i)
将(X(i),Y(i))作为训练样本,并对训练样本分别进行步骤3、步骤4处理;
步骤22:采集测试样本信号;
以上述步骤21的方法再采集产生Mtest个t秒共随机放置stest次,获得声源样本信号并记录相应类型标签作为测试样本:
Figure FDA0003293847130000011
其中,i=1,2,...K×Mtest×stest
步骤3:提取声源信号的梅尔波段能量特征;
对采集到的25通道t秒时长的训练样本信号:
(X(i),Y(i)),其中,i=1,2,...K×M×s;
采用如下操作提取梅尔波段能量特征:
步骤31:分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K ×M×s)分为P帧,每一帧信号T1毫秒,相邻帧间有T2毫秒重叠;满足关系:
Figure FDA0003293847130000021
得到分帧训练样本信号:
Figure FDA0003293847130000022
步骤32:加窗分帧后的声源信号;
为了消除各帧信号两端的不连续性,对分帧训练样本信号
Figure FDA0003293847130000023
加上40毫秒的哈明窗口;
步骤33:计算梅尔谱能量;
对于每一帧信号使用短时傅立叶变换,计算对数梅尔谱能量:
Figure FDA0003293847130000024
然后分割为P个尺度的梅尔波段能量特征样本
Figure FDA0003293847130000025
共得到K×M×s个梅尔波段能量特征
Figure FDA0003293847130000026
训练样本;
步骤4:提取声源信号的人工设计特征;
对采集到的25通道t秒时长的训练样本信号(X(i),Y(i)),其中,i=1,2,...K×M×s;
采用如下操作提取人工设计特征:
步骤41:分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K ×M×s)分为Q帧,每一帧信号T′1毫秒,相邻帧间有T′2毫秒重叠;满足关系:
Figure FDA0003293847130000027
得到分帧训练样本信号
Figure FDA0003293847130000028
步骤42:利用开源工具提取人工设计特征;
对于单通道内每一帧训练样本信号
Figure FDA0003293847130000031
进行人工设计特征提取,使用开源工具进行人工设计特征提取;选用的特征包括:大声喊叫域能量、等效矩形带宽能量、梅尔能量、谱能量、声调、音高、沉默率、梅尔倒谱系数、伽马语调系数共计Q个手工特征,得人工设计特征
Figure FDA0003293847130000032
共得到K×M×s个人工设计特征
Figure FDA0003293847130000033
训练样本;
步骤5:训练稠密卷积编码网络,获得特征编码方式;具体包括:
步骤5.1:训练编码解码网络ECNet1
对于步骤3的K×M×s个25通道梅尔波段能量特征
Figure FDA0003293847130000034
训练样本;通过梅尔波段能量特征
Figure FDA0003293847130000035
训练样本训练编码解码网络ECNet1;编码解码网络ECNet1由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure FDA0003293847130000036
其中,稠密模块由3个稠密卷积层组成,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法;编码解码网络的优化准则为最小化下列损失函数:
Figure FDA0003293847130000037
训练得到编解码网络ECNet1的参数
Figure FDA0003293847130000038
步骤5.2:训练编码解码网络ECNet2
通过步骤3的K×M×s个25通道人工设计特征
Figure FDA0003293847130000039
训练样本训练编码解码网络ECNet2,编码解码网络ECNet2由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure FDA00032938471300000310
其中密连模块由3个稠密卷积层组成,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法;编码解码网络的优化准则为最小化如下损失函数:
Figure FDA0003293847130000041
训练得到网络ECNet2的参数
Figure FDA0003293847130000042
步骤6:训练特征融合网络FusedNet;
特征融合网络由3部分组成:预训练的编码网络1和预训练的编码网络2,特征融合层以及卷积分类层;其中,预训练的编码网络1和预训练的编码网络2的参数分别为
Figure FDA0003293847130000043
步骤6包括:
步骤61:利用编码网络编码输入数据;
将25通道梅尔波段能量特征
Figure FDA0003293847130000044
其中i=1,2,...K×M×s,训练样本当作能量谱特征输入编码网络1编码梅尔波段能量特征;
编码网络1:将P×P×25梅尔谱能级特征输入编码网络1,提取到P×P×100个特征图F11
将25通道人工提取特征
Figure FDA0003293847130000045
其中i=1,2,...K×M×s,训练样本当人工设计特征输入编码网络2编码人工设计能量特征;
编码网络2:将Q×Q×25人工设计特征输入编码网络2,提取到Q×Q×100个特征图F12
步骤62:融合编码特征;
对编码网络1得到的P×P×100个特征图F11经过W1×W1的池化单元池化为W×W×100个特征图F21;满足关系:
Figure FDA0003293847130000046
对编码网络2得到的Q×Q×100个特征图F12经过W2×W2的池化单元池化为W×W×100个特征图F22;满足关系:
Figure FDA0003293847130000047
将特征图F11与F12堆叠成W×W×200个特征图F;
F=[F21,F22];
步骤63:构建并训练FusedNet中用于分类的卷积子网络Lenet-5;
步骤631:构建卷积子网络Lenet-5;
将W×W×200个特征图F输入卷积分类网络,在Lenet-5的情况下,卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成;全连接层输出特征的K维稠密表示[y1,y2,y3,y4,......yK],
经过Softmax变换
Figure FDA0003293847130000051
后,
Figure FDA0003293847130000052
表示属于K类中某类的概率;卷积分类网络Lenet-5结构具体如下所示;
层名:卷积层C6;输入大小:W×W×200;卷积核大小/数量/填充列数/步长:3×3×200/16/1/1;输出大小:W×W×16;
层名:池化层P6;输入大小:W×W×16;卷积核大小/数量/填充列数/步长:10×10/0/0/4;输出大小:
Figure FDA0003293847130000053
层名:卷积层C7;输入大小:
Figure FDA0003293847130000054
卷积核大小/数量/填充列数/步长:3×3×64/4/1/1;输出大小:
Figure FDA0003293847130000055
层名:池化层P7;输入大小:
Figure FDA0003293847130000056
卷积核大小/数量/填充列数/步长:4×4/0/0/4;输出大小:
Figure FDA0003293847130000057
层名:全连接层;输入大小:
Figure FDA0003293847130000058
输出大小:5;步骤632:训练卷积子网络Lenet-5;
把K×M×s个样本输入卷积分类网络,输入交叉熵损失函数进行分类预测
Figure FDA0003293847130000059
对比,优化参数;
各层都按概率20%使用了隐正则化处理方法;采用交叉熵损失函数,迭代50次,训练过程中一次取1000批次样本训练,学习率取0.01;得到卷积分类网络的参数Θconv
步骤7:测试FusedNet分类结果;
将测试样本
Figure FDA0003293847130000061
输入网络得到预测分类结果Yi pred,与真实标签Yi test对比,统计预测正确率。
2.如权利要求1所述的基于特征融合网络的声源目标识别方法,其特征在于,所述声音传感器采用i436型拾音器。
3.如权利要求1所述的基于特征融合网络的声源目标识别方法,其特征在于,所述K类声源发生装置包括:枪声、炮声、喊话声、脚步声、机车声。
4.如权利要求1所述的基于特征融合网络的声源目标识别方法,其特征在于,所述开源工具采用Freesound开源工具。
5.如权利要求1所述的基于特征融合网络的声源目标识别方法,其特征在于,所述隐正则化处理方法包括随机失活算法。
6.如权利要求1所述的基于特征融合网络的声源目标识别方法,其特征在于,所述多通道数据采集传输模块嵌入在上位机当中,便于便携式采集数据。
7.如权利要求1所述的基于特征融合网络的声源目标识别方法,其特征在于,所述信号调理模块采用AGC自动增益放大电路。
8.如权利要求1所述的基于特征融合网络的声源目标识别方法,其特征在于,所述多通道数据采集传输模块采用24通道A/D采集卡。
9.如权利要求1所述的基于特征融合网络的声源目标识别方法,其特征在于,所述编码解码网络ECNet1结构具体如下所示;迭代训练20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到编解码网络ECNet1的参数
Figure FDA0003293847130000062
编码解码网络ECNet1结构:
层名:卷积层C1;输入大小:P×P×25;卷积核大小/数量/填充列数/步长:3×3×25/16/1/1;输出大小:P×P×16;
层名:稠密卷积层DC1~3,密连模块1;输入大小:P×P×16;卷积核大小/数量/填充列数/步长:3×3×16/100/1/1;输出大小:P×P×100;
层名:卷积层2;输入大小:P×P×100;卷积核大小/数量/填充列数/步长:3×3×100/24/1/1;输出大小:P×P×24;
层名:卷积层3;输入大小:P×P×24;卷积核大小/数量/填充列数/步长:3×3×24/16/1/1;输出大小:P×P×16;
层名:卷积层4;输入大小:P×P×16;卷积核大小/数量/填充列数/步长:3×3×12/12/1/1;输出大小:P×P×12;
层名:卷积层5;输入大小:P×P×12;卷积核大小/数量/填充列数/步长:3×3×12/12/1/1;输出大小:P×P×12。
10. 如权利要求1所述的基于特征融合网络的声源目标识别方法,其特征在于,编码解码网络ECNet2结构具体如下所示;迭代训练ECNet2 20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到网络ECNet2的参数
Figure FDA0003293847130000071
编码解码网络ECNet2结构:
层名:卷积层C1;输入大小:Q×Q×25;卷积核大小/数量/填充列数/步长:3×3×25/16/1/1;输出大小:Q×Q×16;
层名:稠密卷积层DC1~3,密连模块1;输入大小:Q×Q×16;卷积核大小/数量/填充列数/步长:3×3×16/100/1/1;输出大小:Q×Q×100;
层名:卷积层2;输入大小:Q×Q×100;卷积核大小/数量/填充列数/步长:3×3×100/24/1/1;输出大小:Q×Q×24;
层名:卷积层3;输入大小:Q×Q×24;卷积核大小/数量/填充列数/步长:3×3×24/16/1/1;输出大小:Q×Q×16;
层名:卷积层4;输入大小:Q×Q×16;卷积核大小/数量/填充列数/步长:3×3×12/12/1/1;输出大小:Q×Q×12;
层名:卷积层5;输入大小:Q×Q×12;卷积核大小/数量/填充列数/步长:3×3×12/12/1/1;输出大小:Q×Q×12。
CN201910874153.1A 2019-09-17 2019-09-17 基于特征融合网络的声源目标识别方法 Active CN110444225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910874153.1A CN110444225B (zh) 2019-09-17 2019-09-17 基于特征融合网络的声源目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910874153.1A CN110444225B (zh) 2019-09-17 2019-09-17 基于特征融合网络的声源目标识别方法

Publications (2)

Publication Number Publication Date
CN110444225A CN110444225A (zh) 2019-11-12
CN110444225B true CN110444225B (zh) 2022-03-25

Family

ID=68440394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910874153.1A Active CN110444225B (zh) 2019-09-17 2019-09-17 基于特征融合网络的声源目标识别方法

Country Status (1)

Country Link
CN (1) CN110444225B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112690823A (zh) * 2020-12-22 2021-04-23 海南力维科贸有限公司 一种识别肺部生理声音的方法以及***
CN114831621B (zh) * 2022-05-23 2023-05-26 西安大数据与人工智能研究院 分布式超快磁共振成像方法及其成像***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610692A (zh) * 2017-09-22 2018-01-19 杭州电子科技大学 基于神经网络堆叠自编码器多特征融合的声音识别方法
CN108694951A (zh) * 2018-05-22 2018-10-23 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN108804453A (zh) * 2017-04-28 2018-11-13 上海荆虹电子科技有限公司 一种视音频识别方法及装置
CN109166593A (zh) * 2018-08-17 2019-01-08 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN109406147A (zh) * 2018-10-29 2019-03-01 安徽大学 一种变速工况下的列车轴承轨边声学诊断方法
CN110136745A (zh) * 2019-05-08 2019-08-16 西北工业大学 一种基于卷积神经网络的汽车鸣笛识别方法
CN110164476A (zh) * 2019-05-24 2019-08-23 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050027530A1 (en) * 2003-07-31 2005-02-03 Tieyan Fu Audio-visual speaker identification using coupled hidden markov models
CN106710599A (zh) * 2016-12-02 2017-05-24 深圳撒哈拉数据科技有限公司 一种基于深度神经网络的特定声源检测方法与***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804453A (zh) * 2017-04-28 2018-11-13 上海荆虹电子科技有限公司 一种视音频识别方法及装置
CN107610692A (zh) * 2017-09-22 2018-01-19 杭州电子科技大学 基于神经网络堆叠自编码器多特征融合的声音识别方法
CN108694951A (zh) * 2018-05-22 2018-10-23 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN109166593A (zh) * 2018-08-17 2019-01-08 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN109406147A (zh) * 2018-10-29 2019-03-01 安徽大学 一种变速工况下的列车轴承轨边声学诊断方法
CN110136745A (zh) * 2019-05-08 2019-08-16 西北工业大学 一种基于卷积神经网络的汽车鸣笛识别方法
CN110164476A (zh) * 2019-05-24 2019-08-23 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Novel TEO-based Gammatone Features for Environmental Sound Classification;Dharmesh M. Agrawal et al;《2017 25th European Signal Processing Conference (EUSIPCO)》;20171231;第1809-1813页 *
基于特征融合的开挖器械声音识别算法研究;程飞;《中国优秀硕士学位论文全文数据库》;20190115;第23-34页 *

Also Published As

Publication number Publication date
CN110444225A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN109065030B (zh) 基于卷积神经网络的环境声音识别方法及***
CN108711436B (zh) 基于高频和瓶颈特征的说话人验证***重放攻击检测方法
US7457749B2 (en) Noise-robust feature extraction using multi-layer principal component analysis
CN108198561A (zh) 一种基于卷积神经网络的翻录语音检测方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN110444225B (zh) 基于特征融合网络的声源目标识别方法
CN112735473A (zh) 基于声音识别无人机的方法及***
CN110580915B (zh) 基于可穿戴式设备的声源目标识别***
CN113191178A (zh) 一种基于听觉感知特征深度学习的水声目标识别方法
Dogan et al. A novel ternary and signum kernelled linear hexadecimal pattern and hybrid feature selection based environmental sound classification method
CN109243429A (zh) 一种语音建模方法及装置
CN112183582A (zh) 一种多特征融合的水下目标识别方法
CN111613240A (zh) 一种基于注意力机制和Bi-LSTM的伪装语音检测方法
Wang et al. A novel underground pipeline surveillance system based on hybrid acoustic features
CN114898773A (zh) 基于深度自注意力神经网络分类器的合成语音检测方法
CN117877516A (zh) 一种基于跨模型两阶段训练的声音事件检测方法
CN114093385A (zh) 一种无人机检测方法及装置
CN111179959B (zh) 一种基于说话人嵌入空间的竞争说话人数量估计方法及***
CN110808067A (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
CN116383719A (zh) 一种用于lfm雷达的mgf射频指纹识别方法
CN115238738A (zh) 构建水声目标识别模型的方法和装置
CN113782051B (zh) 广播效果分类方法及***、电子设备和存储介质
CN113539298B (zh) 一种基于云边端的声音大数据分析计算图像化***
CN112434716B (zh) 一种基于条件对抗神经网络的水下目标数据扩增方法及***
Abeßer Classifying Sounds in Polyphonic Urban Sound Scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant