CN113177536A - 基于深度残差收缩网络的车辆碰撞检测方法及装置 - Google Patents
基于深度残差收缩网络的车辆碰撞检测方法及装置 Download PDFInfo
- Publication number
- CN113177536A CN113177536A CN202110717159.5A CN202110717159A CN113177536A CN 113177536 A CN113177536 A CN 113177536A CN 202110717159 A CN202110717159 A CN 202110717159A CN 113177536 A CN113177536 A CN 113177536A
- Authority
- CN
- China
- Prior art keywords
- features
- layer
- vehicle collision
- formula
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 23
- 238000000354 decomposition reaction Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
- G06F2218/04—Denoising
- G06F2218/06—Denoising by applying a scale-space analysis, e.g. using wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本申请涉及智能交通技术领域,公开了一种基于深度残差收缩网络的车辆碰撞检测方法及装置,具体包括以下步骤:S1、采集车辆碰撞事故多发地段的实时音频数据作为样本数据,并对音频数据进行类别标注;S2、对采集的音频数据进行预处理;S3、对预处理后的音频数据进行特征计算;S4、特征融合;S5、构造深度残差收缩网络模型并进行模型训练,保存训练好的模型;S6、车辆碰撞预测,对新的输入样本做预处理、特征计算以及特征融合后输入至保存好的模型中,计算其属于每个类别的概率值大小,以此来判断是否发生了车辆碰撞。本申请能够更好的消除噪声,提高模型的精度,并最终提高车辆碰撞预测的精度。
Description
技术领域
本申请涉及智能交通技术领域,具体涉及一种基于深度残差收缩网络的车辆碰撞检测方法。
背景技术
随着社会经济不断的发展,道路上行驶的汽车逐渐增多,伴随着车辆碰撞事故的发生日益频繁,如何高效智能地检测车辆碰撞迫在眉睫。目前检测方法主要有基于视频图像的车流量统计判断方法和车辆车速突变检测方法。针对基于视频图像的车流量统计判断方法,在道路发生拥堵时,由于遮挡现象尤其严重,因此流量数据的可靠性大大降低,通过该方式反馈的事故信息比较滞后,并且由于视频检测的范围有限,如果碰撞导致的车辆停车行为不在视频画面中,还会会产生漏检的可能;而针对第二种方法,如果不是由于碰撞导致的车辆快速停车行为则会产生误判。
基于碰撞声信号的方法可以通过提取声信号的声频特征,实时检测碰撞事故的发生,也无需安装高清摄像头,降低了成本,但是由于受到环境背景噪声的干扰太大,而车辆碰撞事故发生现场通常伴随复杂的背景噪声,因此很容易产生误判的情况。
发明内容
为了克服上述现有技术中存在的问题和不足,本申请提出了一种基于声信号特征融合和深度残差收缩网络的车辆碰撞检测方法,本申请融合多种声信号特征,使用深度残差收缩网络进行模型训练,具有更好的鲁棒性,提高了预测准确度。
为了实现上述发明目的,本申请的技术方案如下:
一种基于深度残差收缩网络的车辆碰撞检测方法,包括以下步骤:
S1、采集车辆碰撞事故多发地段的实时音频数据作为样本数据,并对音频数据进行类别标注;
S2、对采集的音频数据进行预处理;
S3、对预处理后的音频数据进行特征计算,包括MFCC特征及其一阶差分计算、GFCC特征及其一阶差分计算以及小波能量特征计算,将计算得到的特征做归一化处理;
S4、特征融合,使用基于DCA特征融合策略分别对归一化后的MFCC特性和GFCC特征、特征与特征做特征变换,最大化变换后两个特征集中对应特征的相关关系,同时最大化不同类之间的差异,然后将变换后得到的新的MFCC特征、GFCC特征、特征、特征与小波能量特征依次使用concat方法进行拼接形成新的特征,用于神经网络模型的训练;
S5、构造深度残差收缩网络模型并进行模型训练,保存训练好的模型;
S6、车辆碰撞预测,对新的输入样本做预处理、特征计算以及特征融合后输入至保存好的模型中,计算其属于每个类别的概率值大小,概率值最大的那个类别就代表输入样本声音的类别,以此来判断是否发生了车辆碰撞。
进一步地,所述步骤S1中,采集的实时音频数据包括车辆碰撞声、喇叭声、人声、音乐以及轮胎摩擦声,存储为时长5s、采样频率为32kHz的音频文件,并进行类别标注。
进一步地,所述步骤S2中,读取音频数据,首先进行幅值归一化和滤波去噪处理,然后对音频数据进行预加重、分帧以及加窗操作。
进一步地,所述步骤S3中,MFCC特征及其一阶差分计算过程如下:
1)对预处理后的数据进行快速傅里叶变换,将数据从时域转换到频域,得到频谱上的能量分布,取其模的平方得到谱线能量;然后送入Mel三角滤波器组得到梅尔频谱图;对得到的梅尔频谱图进行对数运算以获得梅尔对数功率频谱图;最后对该对数功率频谱图进行离散余弦变换后就可得到MFCC特征,MFCC特征计算公式如下:
其中,t表示第t帧,k表示取第t帧前后各k帧的MFCC特征参数。
进一步地,所述步骤S3中,GFCC特征及其一阶差分计算过程如下:
1)对预处理后的数据进行快速傅里叶变换,将数据从时域转换到频域,得到频谱上的能量分布,取其模的平方得到谱线能量;然后送入Ganmmatone滤波器组得到Ganmmatone频谱图;对得到的Ganmmatone频谱图进行对数运算以获得Ganmmatone对数功率频谱图;最后对该对数功率频谱图进行离散余弦变换后就可得到GFCC特征;
Ganmmatone滤波器的时域表达式如下:
最终得到GFCC特征,其计算公式如下:
其中,t表示第t帧,k表示取第t帧前后各k帧的GFCC特征参数。
进一步地,所述步骤S3中,小波能量特征计算具体过程如下:
对预处理后的每帧数据做n层小波分解,得到低频概貌系数CA和高频细节系数;对高频细节系数 采用改进的阈值和改进的Garrote阈值函数做进一步地阈值处理,使用经过阈值处理后的小波分解系数计算小波系数能量;
改进的阈值计算公式如下:
改进的Garrote阈值函数计算公式如下:
使用经过阈值处理后的小波分解系数计算小波系数能量,计算公式如下:
经计算后,得到该帧声信号的小波能量特征如下:
进一步地,所述步骤S3中,归一化处理具体过程如下:
使用min-max归一化,对原始数据进行线性变换,映射到[0, 1]区间,转换公式如下:
进一步地,所述步骤S5具体如下:
1)构造深度残差收缩网络模型
所述深度残差收缩网络模型包括输入层、卷积层、深度残差收缩网络基本模块、全局均值池化层以及全连接输出层,构造过程如下:
首先构造深度残差收缩网络基本模块,模块中嵌入了一个子网络,用于自动地设置软阈值化所需要的阈值,采用通道间共享阈值的残差收缩模块,首先对输入特征图经过两次批标准化、ReLu激活函数和卷积层操作;然后对所有特征求绝对值,取其平均值记为特征;在另一条路径中,将特征的绝对值通过全局均值池化之后,输入到一个两层的全连接网络,然后使用 Sigmoid 函数将输出归一化到0和1之间,获得一个尺度参数,最终的阈值表示为;最后使用Tensorfow中的identify将原始输入特征图与阈值进行相加并返回;
a)构造输入层,接收神经网络模型的外部输入,并将其传递给卷积层,这里的外部输入是前述步骤计算的声信号特征;
b)构造卷积层,卷积层接收输入层的输出,然后通过重复一定次数的卷积操作,获得特征图,然后将特征图传递给深度残差收缩网络基本模块;
c)堆叠一定数目的深度残差收缩网络基本模块,卷积层输出的特征图经过这些深度残差收缩网络模块处理后传递给批标准化层;
d)构造批标准化层,激活函数ReLu和全局均值化层;
e)构造全连接输出层,接收来自全局均值化层的输出;
f)全连接输出层对应样本数据包含的所有类别,输出值是样本属于每个类别的概率值,取最大输出值对应的类别作为模型预测的样本类别;
2)模型训练
将计算后的特征数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行模型训练和测试,得出相应的准确率,最后取这10次结果的准确率的平均值作为对算法精度的估计,最后保存训练好的模型。
一种基于深度残差收缩网络的车辆碰撞检测装置,包括数据采集模块、数据预处理模块、特征提取模块、特征融合模块、模型训练模块以及预测输出模块,其中:
数据采集模块利用声音传感器采集车辆碰撞声、喇叭声、人声、音乐以及轮胎摩擦声等五个类别的音频数据并进行保存;
数据预处理模块读取保存的音频数据,对上述音频数据进行幅值归一化处理、滤波消噪处理、预加重、分帧以及加窗操作;
特征融合模块使用DCA特征融合策略及concat特征融合策略融合计算后的特征,DCA融合策略分别对MFCC特征与GFCC特征、特征与特征做变换,然后再将变换后的所有特征以及小波能量特征使用concat方法连接组合成新的声信号特征;
模型训练模块构建深度残差收缩网络模型并将融合后的新特征输入到深度残差收缩网络模型中进行训练,保存训练好的模型参数;
预测输出模块使用训练好的模型对新输入的声音信号样本进行碰撞预测,预测是否发生了车辆碰撞事故。
本申请的有益效果:
(1)本申请构建深度残差收缩网络使并进行模型训练,通过深度残差收缩网络的基本模块自动学习阈值,避免了人工设置阈值,每个样本都学习了各自的阈值,契合不同样本噪声含量不同的情况,能够更好的消除噪声,提高模型的精度,并最终提高车辆碰撞预测的精度。
(2)本申请对采集的音频数据进行了特征融合,相较于单一特征,更加适合复杂的交通领域的声音分类,因此具有更好的鲁棒性,提高了预测的准确度。
(3)本申请使用了基于DCA特征融合策略对MFCC特征和GFCC特征以及和做了特征变换,因此能够消除因不同特征集之间的相关性而产生的冗余信息,最后再将变换后的特征与小波能量特征做concat拼接,形成了新的特征,因此消除了冗余信息,特征维度得到了降低,减少了模型的训练时间并且提高了模型精度。
(4)传统的小波阈值去噪中,硬阈值函数和软阈值函数会导致去噪重构后的信号存在固定偏差和不连续等问题,Garrote阈值法虽然有效的克服了软、硬阈值法的缺点,但没有考虑到噪声在小波变换下随着尺度增大而减小的特性,因此采用改进的阈值和改进的Garrote阈值函数,既能兼顾各尺度下的不同阈值,又能进一步收缩高频细节系数。
附图说明
图1为本申请流程图。
具体实施方式
下面结合实施例对本申请作进一步地详细说明,但本申请的实施方式不限于此。
实施例1
参照说明书附图1,本实施例公开了一种基于深度残差收缩网络的车辆碰撞检测方法,所述方法通过一种基于特征融合和深度残差收缩网络的车辆碰撞检测装置实现,具体包括以下步骤:
S1、数据采集模块利用声音传感器采集车辆碰撞事故多发地段的实时音频数据作为样本数据,采集的实时音频数据包括车辆碰撞声、喇叭声、人声、音乐以及轮胎摩擦声,存储为时长5s、采样频率为32kHz的音频文件,并进行类别标注;
S2、数据预处理模块对采集的音频数据进行预处理,读取音频数据,先进行幅值归一化和滤波去噪处理,然后进行预加重、分帧、加窗等操作;
S3、特征提取模块对预处理后的音频数据进行特征计算,包括MFCC特征及其一阶差分计算、GFCC特征及其一阶差分计算以及小波能量特征计算,然后再将上述经计算后得到的特征进行归一化处理,具体过程如下:
S31、MFCC特征及其一阶差分计算:
1)对预处理后的音频数据进行快速傅里叶变换(FFT),将数据从时域转换到频域,得到频谱上的能量分布,取其模的平方得到谱线能量;然后送入Mel三角滤波器组得到梅尔频谱图;对得到的梅尔频谱图进行对数运算以获得梅尔对数功率频谱图;最后对该对数功率频谱图进行离散余弦变换后就可得到MFCC特征。MFCC计算公式如下:
其中,t表示第t帧,k表示取第t帧前后各k帧的MFCC特征参数;
S32、GFCC特征及其一阶差分计算:
GFCC特征的计算与MFCC特征计算基本相似,只是将使用的Mel滤波器更换为Gammatone滤波器,具体过程如下:
1)对预处理后的数据进行快速傅里叶变换,将数据从时域转换到频域,得到频谱上的能量分布,取其模的平方得到谱线能量;然后送入Ganmmatone滤波器组得到Ganmmatone频谱图;对得到的Ganmmatone频谱图进行对数运算以获得Ganmmatone对数功率频谱图;最后对该对数功率频谱图进行离散余弦变换后就可得到GFCC特征,Gammatone滤波器的时域表达式如下:
最终得到GFCC特征,其计算公式如下:
其中,t表示第t帧,k表示取第t帧前后各k帧的GFCC特征参数;
S33、小波能量特征计算:
首先对预处理后的每帧数据做n层小波分解,得到低频概貌系数CA和高频细节系数;由于传统的小波阈值去噪中,硬阈值函数和软阈值函数会导致去噪重构后的信号存在固定偏差和不连续等问题,Garrote阈值法虽然有效的克服了软、硬阈值法的缺点,但没有考虑到噪声在小波变换下随着尺度增大而减小的特性,因此本申请采用改进的阈值和改进的Garrote阈值函数对高频细节系数做进一步地的阈值处理,既能兼顾各尺度下的不同阈值,又能进一步收缩高频细节系数,最后使用经过阈值处理后的小波分解系数计算小波系数能量;
改进的阈值计算公式如下:
改进的Garrote阈值函数计算公式如下:
使用经过阈值处理后的小波分解系数计算小波系数能量,计算公式如下:
经计算后,得到该帧声信号的小波能量特征如下:
S34、计算特征归一化处理
将上述步骤S31-步骤S33计算得到的各种特征做归一化处理,归一化方法使用min-max归一化,对原始数据进行线性变换,映射到[0, 1]区间,转换公式如下:
S4、特征融合模块使用基于DCA特征融合策略分别对归一化后的MFCC特性和GFCC特征、特征与特征做特征变换,最大化变换后两个特征集中对应特征的相关关系,同时最大化不同类之间的差异,然后将变换后得到的新的MFCC特征、GFCC特征、特征、特征与小波能量特征依次使用concat方法进行拼接形成新的特征,用于神经网络模型的训练;
S5、模型训练模块构造深度残差收缩网络模型并进行模型训练;
1)构造深度残差收缩网络模型
所述深度残差收缩网络模型包括输入层、卷积层、深度残差收缩网络基本模块、全局均值池化层以及全连接输出层,构造过程如下:
g)首先构造深度残差收缩网络基本模块,深度残差收缩网络基本模块是深度残差网络基本模块的改进,在改进后的残差模块中,不仅有一个软阈值化函数作为非线性层,而且嵌入了一个子网络,用于自动地设置软阈值化所需要的阈值,进一步地,的本实施采用通道间共享阈值的残差收缩模块,首先对输入特征图经过两次批标准化、ReLu激活函数和卷积层操作;然后对所有特征求绝对值,取其平均值记为特征;在另一条路径中,将特征的绝对值通过全局均值池化之后,输入到一个两层的全连接网络,然后使用 Sigmoid 函数将输出归一化到0和1之间,获得一个尺度参数,最终的阈值表示为;最后使用Tensorfow中的identify将原始输入特征图与阈值进行相加并返回;
h)构造输入层,接收神经网络模型的外部输入,并将其传递给卷积层,这里的外部输入是前述步骤计算的声信号特征;
i)构造卷积层,卷积层接收输入层的输出,然后通过重复一定次数的卷积操作,获得特征图,然后将特征图传递给深度残差收缩网络基本模块,卷积操作的次数根据具体的试验情况进行调整;
j)堆叠一定数目的深度残差收缩网络基本模块,卷积层输出的特征图经过这些深度残差收缩网络模块处理后传递给批标准化层,堆叠的数量根据具体的试验情况进行调整,可以是10个,20个,甚至更多;
k)构造批标准化层,激活函数ReLu和全局均值化层;
l)构造全连接输出层,接收来自全局均值化层的输出;
m)全连接输出层对应样本数据包含的所有类别,输出值是样本属于每个类别的概率值,取最大输出值对应的类别作为模型预测的样本类别;
2)模型训练
将计算后的特征数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行模型训练和测试,得出相应的准确率,最后取这10次结果的准确率的平均值作为对算法精度的估计,若模型未达到预设精度,则对模型进行修改并重新进行训练直至精度满足要求,最后保存训练好的模型;
S6、预测输出模块对新的输入样本做预处理、特征计算以及特征融合后输入至保存好的模型中,计算其属于每个类别的概率值大小,概率值最大的那个类别就代表输入样本声音的类别,以此来判断是否发生了车辆碰撞。
实施例2
在实施例1的基础上,本实施例公开了用于实现上述检测方法的装置,一种基于深度残差收缩网络的车辆碰撞检测装置,所述装置具体包括依次通过信号连接的数据采集模块、数据预处理模块、特征提取模块、特征融合模块、模型训练模块以及预测输出模块,
其中:
数据采集模块利用声音传感器采集车辆碰撞声、喇叭声、人声、音乐以及轮胎摩擦声等五个类别的音频数据并进行保存,所述声音传感器设置在车辆事故多发地;
数据预处理模块读取保存的音频数据,对上述音频数据进行幅值归一化处理、滤波消噪处理、预加重、分帧、加窗等操作;
特征提取模块,计算预处理后的音频数据的各种声信号特征,例如梅尔倒谱系数特征MFCC及其一阶差分、Gammatone频率倒谱系数特征GFCC及其一阶差分、小波能量特征等,并对得到的特征进行归一化处理,消除数据之间存在的量纲上的差异性;
特征融合模块使用判别相关性分析(DCA)特征融合策略及concat特征融合策略融合计算后的特征,DCA特征融合是使用两个输入特征间的相关关系,计算两种变换,最大化变换后两个特征集中对应特征的相关关系,同时最大化不同类之间的差异,使用DCA融合策略分别对MFCC特征与GFCC特征、与特征做变换,然后再将变换后的所有特征以及小波能量特征使用concat方法连接组合成新的声信号特征;
模型训练模块构建深度残差收缩网络模型,并将融合后的新特征输入到深度残差收缩网络模型中进行训练,保存训练好的模型参数;
预测输出模块使用训练好的模型对新输入的声音信号样本进行碰撞预测,预测是否发生了车辆碰撞事故。
以上所述,仅是本申请的较佳实施例,并非对本申请做任何形式上的限制,凡是依据本申请的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本申请的保护范围之内。
Claims (9)
1.一种基于深度残差收缩网络的车辆碰撞检测方法,其特征在于:包括以下步骤:
S1、采集车辆碰撞事故多发地段的实时音频数据作为样本数据,并对音频数据进行类别标注;
S2、对采集的音频数据进行预处理;
S3、对预处理后的音频数据进行特征计算,包括MFCC特征及其一阶差分计算、GFCC特征及其一阶差分计算以及小波能量特征计算,将计算得到的特征做归一化处理;
S4、特征融合,使用基于DCA特征融合策略分别对归一化后的MFCC特性和GFCC特征、特征与特征做特征变换,最大化变换后两个特征集中对应特征的相关关系,同时最大化不同类之间的差异,然后将变换后得到的新的MFCC特征、GFCC特征、特征、特征与小波能量特征依次使用concat方法进行拼接形成新的特征,用于神经网络模型的训练;
S5、构造深度残差收缩网络模型并进行模型训练,保存训练好的模型;
S6、车辆碰撞预测,对新的输入样本做预处理、特征计算以及特征融合后输入至保存好的模型中,计算其属于每个类别的概率值大小,概率值最大的那个类别就代表输入样本声音的类别,以此来判断是否发生了车辆碰撞。
2.根据权利要求1所述的基于深度残差收缩网络的车辆碰撞检测方法,其特征在于:所述步骤S1中,采集的实时音频数据包括车辆碰撞声、喇叭声、人声、音乐以及轮胎摩擦声,存储为时长5s、采样频率为32kHz的音频文件,并进行类别标注。
3.根据权利要求1所述的基于深度残差收缩网络的车辆碰撞检测方法,其特征在于:所述步骤S2中,读取音频数据,首先进行幅值归一化和滤波去噪处理,然后对音频数据进行预加重、分帧以及加窗操作。
4.根据权利要求1所述的基于深度残差收缩网络的车辆碰撞检测方法,其特征在于,所述步骤S3中,MFCC特征及其一阶差分计算过程如下:
1)对预处理后的数据进行快速傅里叶变换,将数据从时域转换到频域,得到频谱上的能量分布,取其模的平方得到谱线能量;然后送入Mel三角滤波器组得到梅尔频谱图;对得到的梅尔频谱图进行对数运算以获得梅尔对数功率频谱图;最后对该对数功率频谱图进行离散余弦变换后就可得到MFCC特征,MFCC特征计算公式如下:
其中,t表示第t帧,k表示取第t帧前后各k帧的MFCC特征参数。
5.根据权利要求1所述的基于深度残差收缩网络的车辆碰撞检测方法,其特征在于,所述步骤S3中,GFCC特征及其一阶差分计算过程如下:
1)对预处理后的数据进行快速傅里叶变换,将数据从时域转换到频域,得到频谱上的能量分布,取其模的平方得到谱线能量;然后送入Ganmmatone滤波器组得到Ganmmatone频谱图;对得到的Ganmmatone频谱图进行对数运算以获得Ganmmatone对数功率频谱图;最后对该对数功率频谱图进行离散余弦变换后就可得到GFCC特征;
Ganmmatone滤波器的时域表达式如下:
最终得到GFCC特征,其计算公式如下:
其中,t表示第t帧,k表示取第t帧前后各k帧的GFCC特征参数。
6.根据权利要求1所述的基于深度残差收缩网络的车辆碰撞检测方法,其特征在于,所述步骤S3中,小波能量特征计算具体过程如下:
对预处理后的每帧数据做n层小波分解,得到低频概貌系数CA和高频细节系数;对高频细节系数 采用改进的阈值和改进的Garrote阈值函数做进一步地阈值处理,使用经过阈值处理后的小波分解系数计算小波系数能量;
改进的阈值计算公式如下:
改进的Garrote阈值函数计算公式如下:
使用经过阈值处理后的小波分解系数计算小波系数能量,计算公式如下:
经计算后,得到该帧声信号的小波能量特征如下:
8.根据权利要求1所述的基于深度残差收缩网络的车辆碰撞检测方法,其特征在于,所述步骤S5具体如下:
1)构造深度残差收缩网络模型
所述深度残差收缩网络模型包括输入层、卷积层、深度残差收缩网络基本模块、全局均值池化层以及全连接输出层,构造过程如下:
首先构造深度残差收缩网络基本模块,模块中嵌入了一个子网络,用于自动地设置软阈值化所需要的阈值,采用通道间共享阈值的残差收缩模块,首先对输入特征图经过两次批标准化、ReLu激活函数和卷积层操作;然后对所有特征求绝对值,取其平均值记为特征;在另一条路径中,将特征的绝对值通过全局均值池化之后,输入到一个两层的全连接网络,然后使用 Sigmoid 函数将输出归一化到0和1之间,获得一个尺度参数,最终的阈值表示为;最后使用Tensorfow中的identify将原始输入特征图与阈值进行相加并返回;
构造输入层,接收神经网络模型的外部输入,并将其传递给卷积层,这里的外部输入是前述步骤计算的声信号特征;
构造卷积层,卷积层接收输入层的输出,然后重复卷积操作,获得特征图,然后将特征图传递给深度残差收缩网络基本模块;
堆叠深度残差收缩网络基本模块,卷积层输出的特征图经过这些深度残差收缩网络模块处理后传递给批标准化层;
构造批标准化层,激活函数ReLu和全局均值化层;
构造全连接输出层,接收来自全局均值化层的输出;
全连接输出层对应样本数据包含的所有类别,输出值是样本属于每个类别的概率值,取最大输出值对应的类别作为模型预测的样本类别;
2)模型训练
将计算后的特征数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行模型训练和测试,得出相应的准确率,最后取这10次结果的准确率的平均值作为对算法精度的估计,最后保存训练好的模型。
9.一种基于深度残差收缩网络的车辆碰撞检测装置,其特征在于:包括数据采集模块、数据预处理模块、特征提取模块、特征融合模块、模型训练模块以及预测输出模块,其中:
数据采集模块利用声音传感器采集车辆碰撞声、喇叭声、人声、音乐以及轮胎摩擦声这五个类别的音频数据并进行保存;
数据预处理模块读取保存的音频数据,对上述音频数据进行幅值归一化处理、滤波消噪处理、预加重、分帧以及加窗操作;
特征融合模块使用DCA特征融合策略及concat特征融合策略融合计算后的特征, DCA融合策略分别对MFCC特征与GFCC特征、特征与特征做变换,然后再将变换后的所有特征以及小波能量特征使用concat方法连接组合成新的声信号特征;
模型训练模块构建深度残差收缩网络模型并将融合后的新特征输入到深度残差收缩网络模型中进行训练,保存训练好的模型参数;
预测输出模块使用训练好的模型对新输入的声音信号样本进行碰撞预测,预测是否发生了车辆碰撞事故。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110717159.5A CN113177536B (zh) | 2021-06-28 | 2021-06-28 | 基于深度残差收缩网络的车辆碰撞检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110717159.5A CN113177536B (zh) | 2021-06-28 | 2021-06-28 | 基于深度残差收缩网络的车辆碰撞检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113177536A true CN113177536A (zh) | 2021-07-27 |
CN113177536B CN113177536B (zh) | 2021-09-10 |
Family
ID=76927872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110717159.5A Active CN113177536B (zh) | 2021-06-28 | 2021-06-28 | 基于深度残差收缩网络的车辆碰撞检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113177536B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222258A1 (en) * | 2008-02-29 | 2009-09-03 | Takashi Fukuda | Voice activity detection system, method, and program product |
US20130250771A1 (en) * | 2012-03-20 | 2013-09-26 | Nokia Siemens Networks Oy | Device to device enhanced voice group call |
US20130272548A1 (en) * | 2012-04-13 | 2013-10-17 | Qualcomm Incorporated | Object recognition using multi-modal matching scheme |
CN104900229A (zh) * | 2015-05-25 | 2015-09-09 | 桂林电子科技大学信息科技学院 | 一种语音信号混合特征参数的提取方法 |
CN106021548A (zh) * | 2016-05-27 | 2016-10-12 | 大连楼兰科技股份有限公司 | 基于分布式人工智能图像识别的远程定损方法及*** |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
CN107708895A (zh) * | 2015-06-11 | 2018-02-16 | 瑞尼斯豪公司 | 增材制造设备和方法 |
CN108877146A (zh) * | 2018-09-03 | 2018-11-23 | 深圳市尼欧科技有限公司 | 一种基于智能语音识别的乘驾安全自动报警装置及其方法 |
CN109346103A (zh) * | 2018-10-30 | 2019-02-15 | 交通运输部公路科学研究所 | 一种用于公路隧道交通事件的音频检测方法 |
CN109961017A (zh) * | 2019-02-26 | 2019-07-02 | 杭州电子科技大学 | 一种基于卷积循环神经网络的心音信号分类方法 |
CN110097755A (zh) * | 2019-04-29 | 2019-08-06 | 东北大学 | 基于深度神经网络的高速公路交通流量状态识别方法 |
CN110917613A (zh) * | 2019-11-30 | 2020-03-27 | 吉林大学 | 一种基于振动触觉的游戏智能桌垫 |
CN111785285A (zh) * | 2020-05-22 | 2020-10-16 | 南京邮电大学 | 面向家居多特征参数融合的声纹识别方法 |
CN111951560A (zh) * | 2020-08-30 | 2020-11-17 | 北京嘀嘀无限科技发展有限公司 | 服务异常检测方法、训练服务异常检测模型的方法和训练声音模型的方法 |
CN112259107A (zh) * | 2020-09-28 | 2021-01-22 | 南京邮电大学 | 一种会议场景小样本条件下的声纹识别方法 |
CN112529177A (zh) * | 2020-12-04 | 2021-03-19 | 广州亚美智造科技有限公司 | 一种车辆碰撞检测方法及装置 |
US20210097370A1 (en) * | 2019-09-30 | 2021-04-01 | Wipro Limited | System and method for providing personalized driving or navigation assistance |
CN112651429A (zh) * | 2020-12-09 | 2021-04-13 | 歌尔股份有限公司 | 一种音频信号时序对齐方法和装置 |
US10981668B1 (en) * | 2020-02-28 | 2021-04-20 | American Standard Aerospace Products (Asap) | Apparatus, system and method of data recording |
CN113033654A (zh) * | 2021-03-23 | 2021-06-25 | 云南大学 | 基于WiFi信道状态信息的室内入侵检测方法及*** |
-
2021
- 2021-06-28 CN CN202110717159.5A patent/CN113177536B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222258A1 (en) * | 2008-02-29 | 2009-09-03 | Takashi Fukuda | Voice activity detection system, method, and program product |
US20130250771A1 (en) * | 2012-03-20 | 2013-09-26 | Nokia Siemens Networks Oy | Device to device enhanced voice group call |
US20130272548A1 (en) * | 2012-04-13 | 2013-10-17 | Qualcomm Incorporated | Object recognition using multi-modal matching scheme |
CN104900229A (zh) * | 2015-05-25 | 2015-09-09 | 桂林电子科技大学信息科技学院 | 一种语音信号混合特征参数的提取方法 |
CN107708895A (zh) * | 2015-06-11 | 2018-02-16 | 瑞尼斯豪公司 | 增材制造设备和方法 |
CN106021548A (zh) * | 2016-05-27 | 2016-10-12 | 大连楼兰科技股份有限公司 | 基于分布式人工智能图像识别的远程定损方法及*** |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
CN108877146A (zh) * | 2018-09-03 | 2018-11-23 | 深圳市尼欧科技有限公司 | 一种基于智能语音识别的乘驾安全自动报警装置及其方法 |
CN109346103A (zh) * | 2018-10-30 | 2019-02-15 | 交通运输部公路科学研究所 | 一种用于公路隧道交通事件的音频检测方法 |
CN109961017A (zh) * | 2019-02-26 | 2019-07-02 | 杭州电子科技大学 | 一种基于卷积循环神经网络的心音信号分类方法 |
CN110097755A (zh) * | 2019-04-29 | 2019-08-06 | 东北大学 | 基于深度神经网络的高速公路交通流量状态识别方法 |
US20210097370A1 (en) * | 2019-09-30 | 2021-04-01 | Wipro Limited | System and method for providing personalized driving or navigation assistance |
CN110917613A (zh) * | 2019-11-30 | 2020-03-27 | 吉林大学 | 一种基于振动触觉的游戏智能桌垫 |
US10981668B1 (en) * | 2020-02-28 | 2021-04-20 | American Standard Aerospace Products (Asap) | Apparatus, system and method of data recording |
CN111785285A (zh) * | 2020-05-22 | 2020-10-16 | 南京邮电大学 | 面向家居多特征参数融合的声纹识别方法 |
CN111951560A (zh) * | 2020-08-30 | 2020-11-17 | 北京嘀嘀无限科技发展有限公司 | 服务异常检测方法、训练服务异常检测模型的方法和训练声音模型的方法 |
CN112259107A (zh) * | 2020-09-28 | 2021-01-22 | 南京邮电大学 | 一种会议场景小样本条件下的声纹识别方法 |
CN112529177A (zh) * | 2020-12-04 | 2021-03-19 | 广州亚美智造科技有限公司 | 一种车辆碰撞检测方法及装置 |
CN112651429A (zh) * | 2020-12-09 | 2021-04-13 | 歌尔股份有限公司 | 一种音频信号时序对齐方法和装置 |
CN113033654A (zh) * | 2021-03-23 | 2021-06-25 | 云南大学 | 基于WiFi信道状态信息的室内入侵检测方法及*** |
Non-Patent Citations (3)
Title |
---|
ALABBASI H A 等: ""Adaptive wavelet thresholding with robust hybrid features for text-independent speaker identification system"", 《INTERNATIONAL JOURNAL OF ELECTRICAL & COMPUTER ENGINEERING 》 * |
梁洪波: ""基于DCA的自动驾驶车辆传感数据融合方法研究"", 《 安徽师范大学学报(自然科学版)》 * |
范文超: ""基于MGC参数和BP神经网络的汽车声音转换***研究"", 《中国硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113177536B (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN109949823A (zh) | 一种基于dwpt-mfcc与gmm的车内异响识别方法 | |
CN112446242A (zh) | 声学场景分类方法、装置及相应设备 | |
CN112908344B (zh) | 一种鸟鸣声智能识别方法、装置、设备和介质 | |
Wei et al. | A method of underwater acoustic signal classification based on deep neural network | |
CN115081473A (zh) | 一种多特征融合的制动噪声分类识别方法 | |
CN113488060A (zh) | 一种基于变分信息瓶颈的声纹识别方法及*** | |
CN115758082A (zh) | 一种轨道交通变压器故障诊断方法 | |
CN115346514A (zh) | 一种面向智能驾驶测评的音频预警智能识别方法 | |
CN112541533A (zh) | 一种基于神经网络与特征融合的改装车识别方法 | |
CN113053400B (zh) | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 | |
CN112052712B (zh) | 一种电力设备状态监测与故障识别方法及*** | |
CN113990303B (zh) | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 | |
CN116741159A (zh) | 音频分类及模型的训练方法、装置、电子设备和存储介质 | |
CN116741148A (zh) | 一种基于数字孪生的语音识别*** | |
CN116594057B (zh) | 一种基于深度学习和边缘计算的地震预警方法与装置 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN111968669B (zh) | 一种多元混合声信号分离方法及装置 | |
CN116884435A (zh) | 一种基于音频提示学习的声音事件检测方法及装置 | |
CN206781702U (zh) | 一种基于量子神经网络的语音识别汽车防盗*** | |
CN113177536B (zh) | 基于深度残差收缩网络的车辆碰撞检测方法及装置 | |
CN117457031A (zh) | 基于语音全局声学特征和局部频谱特征的情绪识别方法 | |
CN117332293A (zh) | 一种基于声音Mel频率特征的货车超载检测方法 | |
CN116168727A (zh) | 一种变压器异常声音检测方法、***、设备及存储介质 | |
Čavor et al. | Vehicle speed estimation from audio signals using 1d convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |