CN110047512A - 一种环境声音分类方法、***及相关装置 - Google Patents
一种环境声音分类方法、***及相关装置 Download PDFInfo
- Publication number
- CN110047512A CN110047512A CN201910339723.7A CN201910339723A CN110047512A CN 110047512 A CN110047512 A CN 110047512A CN 201910339723 A CN201910339723 A CN 201910339723A CN 110047512 A CN110047512 A CN 110047512A
- Authority
- CN
- China
- Prior art keywords
- model
- convolutional neural
- neural networks
- ambient sound
- default
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 85
- 238000012545 processing Methods 0.000 claims abstract description 16
- 239000000284 extract Substances 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 50
- 238000004590 computer program Methods 0.000 claims description 7
- 230000001537 neural effect Effects 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 5
- 108010001267 Protein Subunits Proteins 0.000 claims description 4
- 238000013499 data model Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请所提供的一种环境声音分类方法,包括:对目标区域内的环境声音进行采集,得到音频文件;对音频文件进行频谱图处理,提取出环境声音对应的物理特性数据;将物理特性数据输入预设混合分类预测模型,输出分类结果;其中,预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。该方法中预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成,即该预设混合分类预测模型综合了深度卷积神经网络模型和Light GBM模型的优点,增强了鲁棒性,能够提高环境声音分类的准确率。本申请还提供一种环境声音分类***、设备及计算机可读存储介质,均具有上述有益效果。
Description
技术领域
本申请涉及环境声音分类领域,特别涉及一种环境声音分类方法、***、设备及计算机可读存储介质。
背景技术
随着互联网和信息技术的迅速发展,人们的生活水平日益提高,对生活的质量及工作要求也越来越高,音频作为人们日常生活及商业活动过程中的一种媒介,深深影响着日常生活的行为。音频识别在如今的模式识别领域中是个前沿的研究课题,作为音频识别的一个主要研究分支,环境声音分类(Environmental Sound Classification,ESC)近期受到了许多专家学者的关注,成为了热门话题。ESC是机器分析其声学环境的最重要技术之一,广泛应用于监视、智能家居、场景分析和机器视听等领域。例如监管***需要检测周围异常的声音来自动报告紧急情况以启动应急方案,机器人需要对周围的环境声音进行分类和识别来做出判断等。与语音和音乐不同,环境声音的音频具有更多的多样性,拥有广泛的频率范围。近年来随着医疗保健、安全监控、预测生态环境变化等应用的增加,环境声音的分类识别越来越重要,环境声音的特征提取和分类准确率决定了***的性能,这将决定在应用领域上的***性能是否能更好的满足人类活动的需求。
传统的对环境声音分类的方法有基于机器学习以及浅层卷积神经网络结构模型进行训练预测分类,通过对声音文件进行提取log mel谱图(Mels)和gammatone谱图(GTs)等属性作为输入数据进行训练,最终得出分类预测模型进行预测。传统的基于机器学习的方法在处理此问题上表现出的效果往往不尽如意,得出的模型无法有效进行分类预测;而基于浅层卷积网络的模型结构往往训练出的模型准度依然有待提高。浅层卷积神经网络模型结构单一,无法确定是否达到最优结构,并且该模型结构单一,鲁棒性不足,多次的训练差别比较大。总之,传统的对环境声音分类的方法得出的分类结果准确率较低。
因此,如何能够提高环境声音分类的准确率是本领域技术人员亟需解决的技术问题。
发明内容
本申请的目的是提供一种环境声音分类方法、***、设备及计算机可读存储介质,能够提高环境声音分类的准确率。
为解决上述技术问题,本申请提供一种环境声音分类方法,包括:
对目标区域内的环境声音进行采集,得到音频文件;
对所述音频文件进行频谱图处理,提取出所述环境声音对应的物理特性数据;
将所述物理特性数据输入预设混合分类预测模型,输出分类结果;其中,所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。
优选地,所述将所述物理特性数据输入预设混合分类预测模型,输出分类结果,包括:
根据VGG模型的网络结构,构造原始深度卷积神经网络模型;
利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练,得到所述深度卷积神经网络模型;
在构建原始Light GBM模型后,利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练,得到所述Light GBM模型;
依次将所述深度卷积神经网络模型和所述Light GBM模型进行组合,得到所述预设混合分类预测模型;
将所述物理特性数据输入所述预设混合分类预测模型,输出所述分类结果。
优选地,所述利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练,得到所述深度卷积神经网络模型,包括:
在将所述样本物理特性数据输入所述原始深度卷积神经网络模型后,依次经过所述原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理,得到对应的输出值;
计算所述输出值与预设的目标值之间的误差值,并判断所述误差值是否大于预设期望值;
若所述误差值大于所述预设期望值,则根据所述误差值分别调整所述卷积层、所述池化层及所述全连接层的权值;
将所述样本物理特性数据输入所述权值调整后的原始深度卷积神经网络模型,得到对应的输出值;
在计算出所述输出值对应的误差值后,判断所述误差值是否大于所述预设期望值;
若所述误差值不大于所述预设期望值,则得到所述深度卷积神经网络模型。
优选地,所述在构建原始Light GBM模型后,利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练,得到所述Light GBM模型,包括:
在构建所述原始Light GBM模型后,利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重;
判断训练次数是否达到预设最大迭代次数;
若所述训练次数没有达到所述预设最大迭代次数,则返回执行所述利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重的步骤;
若所述训练次数达到所述预设最大迭代次数,则将各个所述弱分类器合并为强分类器作为所述Light GBM模型。
本申请还提供一种环境声音分类***,包括:
环境声音采集模块,用于对目标区域内的环境声音进行采集,得到音频文件;
物理特性数据提取模块,用于对所述音频文件进行频谱图处理,提取出所述环境声音对应的物理特性数据;
分类结果输出模块,用于将所述物理特性数据输入预设混合分类预测模型,输出分类结果;其中,所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。
优选地,所述分类结果输出模块,包括:
原始深度卷积神经网络模型构造单元,用于根据VGG模型的网络结构,构造原始深度卷积神经网络模型;
深度卷积神经网络模型获取单元,用于利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练,得到所述深度卷积神经网络模型;
Light GBM模型获取单元,用于在构建原始Light GBM模型后,利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练,得到所述Light GBM模型;
预设混合分类预测模型获取单元,用于依次将所述深度卷积神经网络模型和所述Light GBM模型进行组合,得到所述预设混合分类预测模型;
分类结果输出单元,用于将所述物理特性数据输入所述预设混合分类预测模型,输出所述分类结果。
优选地,所述深度卷积神经网络模型获取单元,包括:
处理子单元,用于在将所述样本物理特性数据输入所述原始深度卷积神经网络模型后,依次经过所述原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理,得到对应的输出值;
第一判断子单元,用于计算所述输出值与预设的目标值之间的误差值,并判断所述误差值是否大于预设期望值;
权值调整子单元,用于若所述误差值大于所述预设期望值,则根据所述误差值分别调整所述卷积层、所述池化层及所述全连接层的权值;
输出值获取子单元,用于将所述样本物理特性数据输入所述权值调整后的原始深度卷积神经网络模型,得到对应的输出值;
第二判断子单元,用于在计算出所述输出值对应的误差值后,判断所述误差值是否大于所述预设期望值;
深度卷积神经网络模型获取子单元,用于若所述误差值不大于所述预设期望值,则得到所述深度卷积神经网络模型。
优选地,所述Light GBM模型获取单元,包括:
权重确定子单元,用于在构建所述原始Light GBM模型后,利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重;
次数判断子单元,用于判断训练次数是否达到预设最大迭代次数;
步骤返回执行子单元,用于若所述训练次数没有达到所述预设最大迭代次数,则返回执行所述利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重的步骤;
弱分类器合并子单元,用于若所述训练次数达到所述预设最大迭代次数,则将各个所述弱分类器合并为强分类器作为所述Light GBM模型。
本申请还提供一种设备,包括:
存储器和处理器;其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现上述所述的环境声音分类方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的环境声音分类方法的步骤。
本申请所提供的一种环境声音分类方法,包括:对目标区域内的环境声音进行采集,得到音频文件;对所述音频文件进行频谱图处理,提取出所述环境声音对应的物理特性数据;将所述物理特性数据输入预设混合分类预测模型,输出分类结果;其中,所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。
该方法是将环境声音对应的物理特性数据输入预设混合分类预测模型,输出分类结果。由于该预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成,即该预设混合分类预测模型综合了深度卷积神经网络模型和Light GBM模型的优点,增强了鲁棒性,能够提高环境声音分类的准确率。本申请还提供一种环境声音分类***、设备及计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种环境声音分类方法的流程图;
图2为本申请实施例所提供的一种环境声音分类***的结构框图。
具体实施方式
本申请的核心是提供一种环境声音分类方法,能够提高环境声音分类的准确率。本申请的另一核心是提供一种环境声音分类***、设备及计算机可读存储介质。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
传统的对环境声音分类的方法有基于机器学习以及浅层卷积神经网络结构模型进行训练预测分类,通过对声音文件进行提取log mel谱图(Mels)和gammatone谱图(GTs)等属性作为输入数据进行训练,最终得出分类预测模型进行预测。传统的基于机器学习的方法在处理此问题上表现出的效果往往不尽如意,得出的模型无法有效进行分类预测;而基于浅层卷积网络的模型结构往往训练出的模型准度依然有待提高。浅层卷积神经网络模型结构单一,无法确定是否达到最优结构,并且该模型结构单一,鲁棒性不足,多次的训练差别比较大。总之,传统的对环境声音分类的方法得出的分类结果准确率较低。本申请提供的一种环境声音分类方法,能够提高环境声音分类的准确率,具体请参考图1,图1为本申请实施例所提供的一种环境声音分类方法的流程图,该环境声音分类方法具体包括:
S101、对目标区域内的环境声音进行采集,得到音频文件;
本申请实施例先是对目标区域内的环境声音进行采集,得到音频文件。在此对目标区域的位置、区域范围及目标区域内的环境声音均不作具体限定,应由本领域技术人员根据实际情况作出相应的设定。在此对采集环境声音的音频采集设备及采集时间也均不作具体限定,例如音频采集设备可以具体为录音机,采集时间可以是24小时。对于音频文件也不作具体限定,需根据实际情况而定。
S102、对音频文件进行频谱图处理,提取出环境声音对应的物理特性数据;
本申请实施例在得到音频文件后,对音频文件进行频谱图处理,提取出环境声音对应的物理特性数据。在此对于频谱图处理的方式不作具体限定,只要能够提取出环境声音对应的物理特性数据即可。
S103、将物理特性数据输入预设混合分类预测模型,输出分类结果;其中,预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。
本申请实施例在提取出环境声音对应的物理特性数据后,将物理特性数据输入预设混合分类预测模型,输出分类结果。本申请实施例中的预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成,也即该预设混合分类预测模型是深度卷积神经网络模型和Light GBM模型融合而成的,综合了两种模型的优点,增强了模型的鲁棒性,分类预测的效果更好。在此对于预设混合分类预测模型的构成方式不作具体限定,需根据实际情况而定。
进一步地,上述将物理特性数据输入预设混合分类预测模型,输出分类结果,通常包括:根据VGG模型的网络结构,构造原始深度卷积神经网络模型;利用样本物理特性数据对原始深度卷积神经网络模型进行模型训练,得到深度卷积神经网络模型;在构建原始Light GBM模型后,利用深度卷积神经网络模型的输出数据对原始Light GBM模型进行模型训练,得到Light GBM模型;依次将深度卷积神经网络模型和Light GBM模型进行组合,得到预设混合分类预测模型;将物理特性数据输入预设混合分类预测模型,输出分类结果。本申请实施例中的原始深度卷积神经网络模型的网络层结构是根据VGG模型的网络结构而构造的,即原始深度卷积神经网络模型的网络层结构类似于VGG模型的网络结构。利用深度卷积神经网络模型的输出数据对原始Light GBM模型进行模型训练,能够达到提高混合模型分类预测的准确率效果。
进一步地,上述利用样本物理特性数据对原始深度卷积神经网络模型进行模型训练,得到深度卷积神经网络模型,通常包括:在将样本物理特性数据输入原始深度卷积神经网络模型后,依次经过原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理,得到对应的输出值;计算输出值与预设的目标值之间的误差值,并判断误差值是否大于预设期望值;若误差值大于预设期望值,则根据误差值分别调整卷积层、池化层及全连接层的权值;将样本物理特性数据输入权值调整后的原始深度卷积神经网络模型,得到对应的输出值;在计算出输出值对应的误差值后,判断误差值是否大于预设期望值;若误差值不大于预设期望值,则得到深度卷积神经网络模型。本申请实施例对预设期望值不作具体限定,应由本领域技术人员根据实际情况进行设定。
进一步地,上述在构建原始Light GBM模型后,利用深度卷积神经网络模型的输出数据对原始Light GBM模型进行模型训练,得到Light GBM模型,通常包括:在构建原始Light GBM模型后,利用输出数据对原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个弱分类器的权重;判断训练次数是否达到预设最大迭代次数;若训练次数没有达到预设最大迭代次数,则返回执行利用输出数据对原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个弱分类器的权重的步骤;若训练次数达到预设最大迭代次数,则将各个弱分类器合并为强分类器作为Light GBM模型。在此对预设最大迭代次数不作具体限定,应由本领域技术人员根据实际情况进行设定。
本申请是将环境声音对应的物理特性数据输入预设混合分类预测模型,输出分类结果。由于该预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成,即该预设混合分类预测模型综合了深度卷积神经网络模型和Light GBM模型的优点,增强了鲁棒性,能够提高环境声音分类的准确率。
下面对本申请实施例提供的一种环境声音分类***、设备及计算机可读存储介质进行介绍,下文描述的环境声音分类***、设备及计算机可读存储介质与上文描述的环境声音分类方法可相互对应参照。
请参考图2,图2为本申请实施例所提供的一种环境声音分类***的结构框图;该环境声音分类***包括:
环境声音采集模块201,用于对目标区域内的环境声音进行采集,得到音频文件;
物理特性数据提取模块202,用于对音频文件进行频谱图处理,提取出环境声音对应的物理特性数据;
分类结果输出模块203,用于将物理特性数据输入预设混合分类预测模型,输出分类结果;其中,预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。
基于上述实施例,本实施例中分类结果输出模块203,通常包括:
原始深度卷积神经网络模型构造单元,用于根据VGG模型的网络结构,构造原始深度卷积神经网络模型;
深度卷积神经网络模型获取单元,用于利用样本物理特性数据对原始深度卷积神经网络模型进行模型训练,得到深度卷积神经网络模型;
Light GBM模型获取单元,用于在构建原始Light GBM模型后,利用深度卷积神经网络模型的输出数据对原始Light GBM模型进行模型训练,得到Light GBM模型;
预设混合分类预测模型获取单元,用于依次将深度卷积神经网络模型和LightGBM模型进行组合,得到预设混合分类预测模型;
分类结果输出单元,用于将物理特性数据输入预设混合分类预测模型,输出分类结果。
基于上述实施例,本实施例中深度卷积神经网络模型获取单元,通常包括:
处理子单元,用于在将样本物理特性数据输入原始深度卷积神经网络模型后,依次经过原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理,得到对应的输出值;
第一判断子单元,用于计算输出值与预设的目标值之间的误差值,并判断误差值是否大于预设期望值;
权值调整子单元,用于若误差值大于预设期望值,则根据误差值分别调整卷积层、池化层及全连接层的权值;
输出值获取子单元,用于将样本物理特性数据输入权值调整后的原始深度卷积神经网络模型,得到对应的输出值;
第二判断子单元,用于在计算出输出值对应的误差值后,判断误差值是否大于预设期望值;
深度卷积神经网络模型获取子单元,用于若误差值不大于预设期望值,则得到深度卷积神经网络模型。
基于上述实施例,本实施例中Light GBM模型获取单元,通常包括:
权重确定子单元,用于在构建原始Light GBM模型后,利用输出数据对原始LightGBM模型中的各个弱分类器进行训练,并根据训练误差确定各个弱分类器的权重;
次数判断子单元,用于判断训练次数是否达到预设最大迭代次数;
步骤返回执行子单元,用于若训练次数没有达到预设最大迭代次数,则返回执行利用输出数据对原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个弱分类器的权重的步骤;
弱分类器合并子单元,用于若训练次数达到预设最大迭代次数,则将各个弱分类器合并为强分类器作为Light GBM模型。
本申请还提供一种设备,包括:存储器和处理器;其中,存储器用于存储计算机程序,处理器用于执行计算机程序时实现上述任意实施例的环境声音分类方法的步骤。
本申请还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任意实施例的环境声音分类方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的***而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种门禁开启方法、***、门禁控制***及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种环境声音分类方法,其特征在于,包括:
对目标区域内的环境声音进行采集,得到音频文件;
对所述音频文件进行频谱图处理,提取出所述环境声音对应的物理特性数据;
将所述物理特性数据输入预设混合分类预测模型,输出分类结果;其中,所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。
2.根据权利要求1所述的环境声音分类方法,其特征在于,所述将所述物理特性数据输入预设混合分类预测模型,输出分类结果,包括:
根据VGG模型的网络结构,构造原始深度卷积神经网络模型;
利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练,得到所述深度卷积神经网络模型;
在构建原始Light GBM模型后,利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练,得到所述Light GBM模型;
依次将所述深度卷积神经网络模型和所述Light GBM模型进行组合,得到所述预设混合分类预测模型;
将所述物理特性数据输入所述预设混合分类预测模型,输出所述分类结果。
3.根据权利要求2所述的环境声音分类方法,其特征在于,所述利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练,得到所述深度卷积神经网络模型,包括:
在将所述样本物理特性数据输入所述原始深度卷积神经网络模型后,依次经过所述原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理,得到对应的输出值;
计算所述输出值与预设的目标值之间的误差值,并判断所述误差值是否大于预设期望值;
若所述误差值大于所述预设期望值,则根据所述误差值分别调整所述卷积层、所述池化层及所述全连接层的权值;
将所述样本物理特性数据输入所述权值调整后的原始深度卷积神经网络模型,得到对应的输出值;
在计算出所述输出值对应的误差值后,判断所述误差值是否大于所述预设期望值;
若所述误差值不大于所述预设期望值,则得到所述深度卷积神经网络模型。
4.根据权利要求2所述的环境声音分类方法,其特征在于,所述在构建原始Light GBM模型后,利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练,得到所述Light GBM模型,包括:
在构建所述原始Light GBM模型后,利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重;
判断训练次数是否达到预设最大迭代次数;
若所述训练次数没有达到所述预设最大迭代次数,则返回执行所述利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重的步骤;
若所述训练次数达到所述预设最大迭代次数,则将各个所述弱分类器合并为强分类器作为所述Light GBM模型。
5.一种环境声音分类***,其特征在于,包括:
环境声音采集模块,用于对目标区域内的环境声音进行采集,得到音频文件;
物理特性数据提取模块,用于对所述音频文件进行频谱图处理,提取出所述环境声音对应的物理特性数据;
分类结果输出模块,用于将所述物理特性数据输入预设混合分类预测模型,输出分类结果;其中,所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。
6.根据权利要求5所述的环境声音分类***,其特征在于,所述分类结果输出模块,包括:
原始深度卷积神经网络模型构造单元,用于根据VGG模型的网络结构,构造原始深度卷积神经网络模型;
深度卷积神经网络模型获取单元,用于利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练,得到所述深度卷积神经网络模型;
Light GBM模型获取单元,用于在构建原始Light GBM模型后,利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练,得到所述Light GBM模型;
预设混合分类预测模型获取单元,用于依次将所述深度卷积神经网络模型和所述Light GBM模型进行组合,得到所述预设混合分类预测模型;
分类结果输出单元,用于将所述物理特性数据输入所述预设混合分类预测模型,输出所述分类结果。
7.根据权利要求6所述的环境声音分类***,其特征在于,所述深度卷积神经网络模型获取单元,包括:
处理子单元,用于在将所述样本物理特性数据输入所述原始深度卷积神经网络模型后,依次经过所述原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理,得到对应的输出值;
第一判断子单元,用于计算所述输出值与预设的目标值之间的误差值,并判断所述误差值是否大于预设期望值;
权值调整子单元,用于若所述误差值大于所述预设期望值,则根据所述误差值分别调整所述卷积层、所述池化层及所述全连接层的权值;
输出值获取子单元,用于将所述样本物理特性数据输入所述权值调整后的原始深度卷积神经网络模型,得到对应的输出值;
第二判断子单元,用于在计算出所述输出值对应的误差值后,判断所述误差值是否大于所述预设期望值;
深度卷积神经网络模型获取子单元,用于若所述误差值不大于所述预设期望值,则得到所述深度卷积神经网络模型。
8.根据权利要求6所述的环境声音分类***,其特征在于,所述Light GBM模型获取单元,包括:
权重确定子单元,用于在构建所述原始Light GBM模型后,利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重;
次数判断子单元,用于判断训练次数是否达到预设最大迭代次数;
步骤返回执行子单元,用于若所述训练次数没有达到所述预设最大迭代次数,则返回执行所述利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重的步骤;
弱分类器合并子单元,用于若所述训练次数达到所述预设最大迭代次数,则将各个所述弱分类器合并为强分类器作为所述Light GBM模型。
9.一种设备,其特征在于,包括:
存储器和处理器;其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现如权利要求1至4任一项所述的环境声音分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的环境声音分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910339723.7A CN110047512B (zh) | 2019-04-25 | 2019-04-25 | 一种环境声音分类方法、***及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910339723.7A CN110047512B (zh) | 2019-04-25 | 2019-04-25 | 一种环境声音分类方法、***及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110047512A true CN110047512A (zh) | 2019-07-23 |
CN110047512B CN110047512B (zh) | 2021-04-16 |
Family
ID=67279393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910339723.7A Active CN110047512B (zh) | 2019-04-25 | 2019-04-25 | 一种环境声音分类方法、***及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110047512B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110755108A (zh) * | 2019-11-04 | 2020-02-07 | 合肥望闻健康科技有限公司 | 一种基于智能听诊器的心脏声音分类方法、***、装置及可读存储介质 |
CN111028852A (zh) * | 2019-11-06 | 2020-04-17 | 杭州哲信信息技术有限公司 | 一种基于cnn的智能呼叫***中的噪声去除方法 |
CN111314329A (zh) * | 2020-02-03 | 2020-06-19 | 杭州迪普科技股份有限公司 | 流量入侵检测***和方法 |
CN111370019A (zh) * | 2020-03-02 | 2020-07-03 | 字节跳动有限公司 | 声源分离方法及装置、神经网络的模型训练方法及装置 |
CN111540346A (zh) * | 2020-05-13 | 2020-08-14 | 慧言科技(天津)有限公司 | 一种远场声音分类方法和装置 |
CN112634946A (zh) * | 2020-12-25 | 2021-04-09 | 深圳市博瑞得科技有限公司 | 一种语音质量分类预测方法、计算机设备及存储介质 |
CN113658607A (zh) * | 2021-07-23 | 2021-11-16 | 南京理工大学 | 基于数据增强和卷积循环神经网络的环境声音分类方法 |
CN114234061A (zh) * | 2021-12-20 | 2022-03-25 | 北京工业大学 | 一种基于神经网络的带压运行供水管道漏水音智能判别方法 |
CN114420163A (zh) * | 2022-01-18 | 2022-04-29 | 小米汽车科技有限公司 | 声音识别方法、装置、存储介质、电子设备及车辆 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240720A (zh) * | 2013-06-24 | 2014-12-24 | 北京大学深圳研究生院 | 一种基于多重分形和信息融合的语音情感识别方法 |
US20150161995A1 (en) * | 2013-12-06 | 2015-06-11 | Nuance Communications, Inc. | Learning front-end speech recognition parameters within neural network training |
US20170200092A1 (en) * | 2016-01-11 | 2017-07-13 | International Business Machines Corporation | Creating deep learning models using feature augmentation |
CN107545890A (zh) * | 2017-08-31 | 2018-01-05 | 桂林电子科技大学 | 一种声音事件识别方法 |
CN108829810A (zh) * | 2018-06-08 | 2018-11-16 | 东莞迪赛软件技术有限公司 | 面向健康舆情的文本分类方法 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及*** |
CN109241524A (zh) * | 2018-08-13 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 语义解析方法及装置、计算机可读存储介质、电子设备 |
CN109378014A (zh) * | 2018-10-22 | 2019-02-22 | 华中师范大学 | 一种基于卷积神经网络的移动设备源识别方法及*** |
CN109448713A (zh) * | 2018-11-13 | 2019-03-08 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
CN109584888A (zh) * | 2019-01-16 | 2019-04-05 | 上海大学 | 基于机器学习的鸣笛识别方法 |
CN109657470A (zh) * | 2018-12-27 | 2019-04-19 | 北京天融信网络安全技术有限公司 | 恶意网页检测模型训练方法、恶意网页检测方法及*** |
-
2019
- 2019-04-25 CN CN201910339723.7A patent/CN110047512B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240720A (zh) * | 2013-06-24 | 2014-12-24 | 北京大学深圳研究生院 | 一种基于多重分形和信息融合的语音情感识别方法 |
US20150161995A1 (en) * | 2013-12-06 | 2015-06-11 | Nuance Communications, Inc. | Learning front-end speech recognition parameters within neural network training |
US20170200092A1 (en) * | 2016-01-11 | 2017-07-13 | International Business Machines Corporation | Creating deep learning models using feature augmentation |
CN107545890A (zh) * | 2017-08-31 | 2018-01-05 | 桂林电子科技大学 | 一种声音事件识别方法 |
CN108829810A (zh) * | 2018-06-08 | 2018-11-16 | 东莞迪赛软件技术有限公司 | 面向健康舆情的文本分类方法 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及*** |
CN109241524A (zh) * | 2018-08-13 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 语义解析方法及装置、计算机可读存储介质、电子设备 |
CN109378014A (zh) * | 2018-10-22 | 2019-02-22 | 华中师范大学 | 一种基于卷积神经网络的移动设备源识别方法及*** |
CN109448713A (zh) * | 2018-11-13 | 2019-03-08 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
CN109657470A (zh) * | 2018-12-27 | 2019-04-19 | 北京天融信网络安全技术有限公司 | 恶意网页检测模型训练方法、恶意网页检测方法及*** |
CN109584888A (zh) * | 2019-01-16 | 2019-04-05 | 上海大学 | 基于机器学习的鸣笛识别方法 |
Non-Patent Citations (1)
Title |
---|
KAUSTUMBH JAISWAL ET AL.: "《Sound Classification Using Convolutional Neural Networks》", 《2018 IEEE INTERNATIONAL CONFERENCE ON CLOUD COMPUTING IN EMERGING MARKETS (CCEM)》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110755108A (zh) * | 2019-11-04 | 2020-02-07 | 合肥望闻健康科技有限公司 | 一种基于智能听诊器的心脏声音分类方法、***、装置及可读存储介质 |
CN111028852A (zh) * | 2019-11-06 | 2020-04-17 | 杭州哲信信息技术有限公司 | 一种基于cnn的智能呼叫***中的噪声去除方法 |
CN111314329B (zh) * | 2020-02-03 | 2022-01-28 | 杭州迪普科技股份有限公司 | 流量入侵检测***和方法 |
CN111314329A (zh) * | 2020-02-03 | 2020-06-19 | 杭州迪普科技股份有限公司 | 流量入侵检测***和方法 |
CN111370019A (zh) * | 2020-03-02 | 2020-07-03 | 字节跳动有限公司 | 声源分离方法及装置、神经网络的模型训练方法及装置 |
CN111370019B (zh) * | 2020-03-02 | 2023-08-29 | 字节跳动有限公司 | 声源分离方法及装置、神经网络的模型训练方法及装置 |
CN111540346A (zh) * | 2020-05-13 | 2020-08-14 | 慧言科技(天津)有限公司 | 一种远场声音分类方法和装置 |
CN112634946B (zh) * | 2020-12-25 | 2022-04-12 | 博瑞得科技有限公司 | 一种语音质量分类预测方法、计算机设备及存储介质 |
CN112634946A (zh) * | 2020-12-25 | 2021-04-09 | 深圳市博瑞得科技有限公司 | 一种语音质量分类预测方法、计算机设备及存储介质 |
CN113658607A (zh) * | 2021-07-23 | 2021-11-16 | 南京理工大学 | 基于数据增强和卷积循环神经网络的环境声音分类方法 |
CN114234061A (zh) * | 2021-12-20 | 2022-03-25 | 北京工业大学 | 一种基于神经网络的带压运行供水管道漏水音智能判别方法 |
CN114234061B (zh) * | 2021-12-20 | 2024-06-21 | 北京工业大学 | 一种基于神经网络的带压运行供水管道漏水音智能判别方法 |
CN114420163A (zh) * | 2022-01-18 | 2022-04-29 | 小米汽车科技有限公司 | 声音识别方法、装置、存储介质、电子设备及车辆 |
WO2023137908A1 (zh) * | 2022-01-18 | 2023-07-27 | 小米汽车科技有限公司 | 声音识别方法、装置、介质、设备、程序产品及车辆 |
Also Published As
Publication number | Publication date |
---|---|
CN110047512B (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047512A (zh) | 一种环境声音分类方法、***及相关装置 | |
CN109889920A (zh) | 网络课程视频剪辑方法、***、设备及存储介质 | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN107480575A (zh) | 模型的训练方法、跨年龄人脸识别方法和对应的装置 | |
CN110210513A (zh) | 数据分类方法、装置及终端设备 | |
CN104252627A (zh) | Svm分类器训练样本获取方法、训练方法及其*** | |
CN106356077B (zh) | 一种笑声检测方法及装置 | |
CN102623009A (zh) | 一种基于短时分析的异常情绪自动检测和提取方法和*** | |
CN110634468B (zh) | 语音唤醒方法、装置、设备及计算机可读存储介质 | |
CN108564948A (zh) | 一种语音识别方法及电子设备 | |
CN109616097A (zh) | 语音数据处理方法、装置、设备及存储介质 | |
CN106302987A (zh) | 一种音频推荐方法及设备 | |
CN104538035A (zh) | 一种基于Fisher超向量的说话人识别方法及*** | |
CN110797031A (zh) | 语音变音检测方法、***、移动终端及存储介质 | |
CN111199469A (zh) | 用户还款模型生成方法、装置及电子设备 | |
CN110458600A (zh) | 画像模型训练方法、装置、计算机设备及存储介质 | |
CN109800309A (zh) | 课堂话语类型分类方法及装置 | |
CN105677636A (zh) | 智能问答***的信息处理方法及信息处理装置 | |
CN108053023A (zh) | 一种自动式意图分类方法及装置 | |
CN110147903A (zh) | 用于预测景区的客流量的方法、***及存储介质 | |
CN109815088A (zh) | 一种监控辅助方法及装置 | |
CN110781275B (zh) | 基于多特征的问题可回答性判别方法及计算机存储介质 | |
CN110580897A (zh) | 音频校验方法、装置、存储介质及电子设备 | |
US9269045B2 (en) | Auditory source separation in a spiking neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |