CN110047506A - 一种基于卷积神经网络和多核学习svm的关键音频检测方法 - Google Patents
一种基于卷积神经网络和多核学习svm的关键音频检测方法 Download PDFInfo
- Publication number
- CN110047506A CN110047506A CN201910319987.6A CN201910319987A CN110047506A CN 110047506 A CN110047506 A CN 110047506A CN 201910319987 A CN201910319987 A CN 201910319987A CN 110047506 A CN110047506 A CN 110047506A
- Authority
- CN
- China
- Prior art keywords
- audio
- convolutional neural
- neural networks
- original waveform
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 30
- 238000001514 detection method Methods 0.000 title claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 21
- 238000013480 data collection Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000012706 support-vector machine Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 238000001228 spectrum Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 9
- 238000012544 monitoring process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提出一种基于卷积神经网络和多核学习SVM的关键音频检测方法,包括步骤:S1:处理音频数据集,得到音频原始波形序列数据集和音频声谱图数据集;S2:建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络;S3:使用音频的原始波形序列数据集和声谱图数据集分别训练一维和二维卷积神经网络,得到对应的两个特征提取的网络模型;S4:输入音频的原始波形序列和声谱图分别至对应的两个网络模型,提取对应的特征;S5:输入两类特征至多核支持向量机,构建基于特征融合模型的核函数,进行音频分类。本发明所述检测方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合,提高了检测识别准确率。
Description
技术领域
本发明属于音频监控技术领域,主要涉及安防领域,具体来说,即安防领域下音频监控中的关键音频检测方法。
背景技术
随着多媒体技术发展,越来越多公共场所安装了音频监控以保障公共安全。声音信息中包含了不亚于图像信息的信息量,通过监控识别公共场合声音信息,可以迅速发现所关注的事件,从而做出应对。声音信息具有良好的实时性,对视频监控具有良好的辅助作用。
卷积神经网络本质上是多层感知机模型的简单扩展,然而对于他们***架构的更改带来更多的不同,使得他们更加适合用于图片分类,典型的卷积神经网络包含众多的网络层堆叠在一起:输入层、一群卷基层和池化层,有限数量的全连接层和输出层。
多核学习是一种特征融合方法,可以处理异质或不规则数据,巨大的样本量,样本的不均匀分布以及其他问题,在多核学习中,多种特征被组织成组,并且每个组拥有自己的核函数。这些不同的核函数被组合成一个新的核函数,该核函数用于分类器中。
发明内容
本发明提出一种基于卷积神经网络和多核学习SVM的音频事件检测方法,利用多核学习方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合的方法,以达到两种特征互补来提高音频事件检测识别准确率的目的。
为达到上述技术目的,本发明采取如下技术方案:
一种基于卷积神经网络和多核学习SVM的关键音频检测方法,包括步骤:
S1:处理音频数据集,得到音频原始波形序列数据集和音频声谱图数据集;
S2:分别建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络;
S3:使用音频的原始波形序列数据集和声谱图数据集分别训练一维卷积神经网络和二维卷积神经网络,得到对应的两个特征提取的网络模型;
S4:输入音频的原始波形序列和声谱图分别至对应的两个网络模型,提取得到对应的特征;
S5:输入两类特征至多核支持向量机,构建基于特征融合模型的核函数,进行音频分类。
进一步地,所述步骤S3具体实施步骤如下:
S3.1:音频原始波形序列输入至一维卷积神经网络中,输出该波形对应于各个音频类别的可能性,随着网络输入端和输出端的数据不断更新,更新网络参数,直到训练结束;
S3.2:音频声谱图输入至二维卷积神经网络中,输出该声谱图对应于各个音频类别的可能性,随着网络输入端和输出端的数据不断更新,更新网络参数,直到训练结束。
进一步地,所述数据集中含有多种类别音频事件,各个类音频数量大约相同,都是安全监控中的关键音频事件;
进一步地,所述一维和二维卷积神经网络结构中均包含卷基层,池化层和BatchNormalization层;
进一步地,所述多核支持向量机,采用不同的特征向量来得到不同的核函数,并将其线性加权获得新的核函数。
本发明与现有技术相比,具有如下优点:
1.本发明以深度学习的方法直接从音频的原始波形序列和声谱图中提取相应特征,使得特征对于目标类别更具有相关性。
2.本发明采用特征融合的方法,分别从音频时域特征和频域特征着手,使得特征具有互补性并且提高识别准确率。
附图说明
图1是本发明所述检测方法流程图;
图2是音频原始波形序列数据集示例图;
图3是音频声谱图数据集示例图;
图4是生成网络G1和G2的结构图;
图5是音频事件检测模型的流程图。
具体实施方式
以下参考附图,对本发明的进一步详细阐述。
现有音频事件检测模型,以分辨音频所属事件类别为训练目标。提取音频的原始波形序列和声谱图,得到音频的两种表示形式。如此,一个音频有两种储存方式,分别作为音频的的原始波形训练集Dwaveform和音频的声谱图训练集Dspec。最后为数据集中的数据打上相应的所属音频事件的类别标签。数据集示例图,如图2和图3所示。
基于不同的数据集,搭建不同的卷积神经网络。音频原始波形序列为一维信号,搭建一维卷积神经网络G1来提取音频原始波形中的特征进行音频事件的分类训练。音频声谱图为二维信号,搭建二维卷积神经网络G2来提取声谱图的特征进行音频事件的分类训练。网络G1和G2的结构如图4所示。
每个音频对应的原始波形序列和声谱图分别输入至网络G1和G2,分别提取网络的全连接层数据x1和x2作为从音频的原始波形序列提取的特征向量和从音频声谱图提取的特征向量。两种特征向量训练得到不同的核函数,并将其线性加权获得新的核函数,得到基于多特征融合的多核支持向量机。利用两类特征向量训练此类多核支持向量机,音频数据集共N类音频事件,所以要训练N*(N-1)个分类器,测试的时候将样本音频的原始波形序列和声谱图通过网络G1和G2得到的特征向量依次送入这10个分类器,采用一对一投票策略,将判定次数最多的类别作为此样本的分类结果。
由此,本发明提出了基于卷积神经网络和多核学习SVM的关键音频检测模型。模型结构如图5所示。
如图1所示,一种基于卷积神经网络和多核学习SVM的关键音频检测方法,涉及安全监控中遇到的异常音频。其实现过程是:在音频的原始波形序列的数据集和声谱图数据集基础上训练得到一个一维卷积神经网络和一个二维卷积神经网络,提取两个网络的全连接层作为两个网络提取的两类特征的特征向量,采用不同的特征向量来得到不同的核函数,并将其线性加权获得新的核函数,以此训练多核支持向量机。测试时将输入网络提取样本音频的两类特征至训练的多核支持向量机,根据判定次数最多的类别作为此样本的分类结果。
本发明的优选实施例如下:
一种基于卷积神经网络和多核学习SVM的关键音频检测方法,按如下步骤进行:
1.处理含有N类音频事件的音频数据集,得到数据集中每个音频所对应的原始波形序列和声谱图,分别整理成单独的原始波形序列数据集Dwaveform和声谱图数据集Dspec,并为数据集中的数据按音频事件的类别打上对应的标签Y;
2.建立一维卷积神经网络G1和二维卷积神经网络G2,两个网络的最后两层均为全连接层Lful和Softmax层,网络输出为关于输入数据所属各个音频事件类别的概率向量P,以保证网络训练可靠性;
3.训练过程中,输入数据集Dwaveform中数据到一维卷积神经网络,网络Softmax层输出属于各个音频事件类别的概率向量P。根据以下公式,更新网络参数:
训练过程中,输入数据集Dspec中数据到二维卷积神经网络,网络Softmax层输出属于各个音频事件类别的概率向量P。根据以下公式,更新网络参数:
4.根据步骤1,2,3可训练得到音频原始波形序列和音频声谱图的两个特征提取模型,分别输入原始波形序列和声谱图,提取网络G1和G2的全连接层作为训练得到的两类特征向量x1和x2;
5.根据步骤4得到的每段音频的特征向量x1和x2,采用不同的特征向量来得到不同的核函数,并将其线性加权获得新的核函数其中Km(xi,xj)为第种特征所对应的核函数,dm为这种特征对应的权值,由此得到基于多特征融合的多核支持向量机。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (5)
1.一种基于卷积神经网络和多核学习SVM的关键音频检测方法,其特征在于,包括步骤:
S1:处理音频数据集,得到音频原始波形序列数据集和音频声谱图数据集;
S2:分别建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络;
S3:使用音频原始波形序列数据集和音频声谱图数据集分别训练一维卷积神经网络和二维卷积神经网络,得到对应的两个特征提取的网络模型;
S4:输入音频的原始波形序列和声谱图分别至对应的两个网络模型,提取得到对应的特征;
S5:输入两类特征至多核支持向量机,构建基于特征融合模型的核函数,进行音频分类。
2.如权利要求1所述的一种基于卷积神经网络和多核学习SVM的关键音频检测方法,其特征在于,所述步骤S3具体实施步骤如下:
S3.1:音频原始波形序列输入至一维卷积神经网络中,输出该波形对应于各个音频类别的可能性,随着网络输入端和输出端的数据不断更新,更新网络参数,直到训练结束;
S3.2:音频声谱图输入至二维卷积神经网络中,输出该声谱图对应于各个音频类别的可能性,随着网络输入端和输出端的数据不断更新,更新网络参数,直到训练结束。
3.如权利要求1所述的一种基于卷积神经网络和多核学习SVM的关键音频检测方法,其特征在于:
所述音频原始波形序列数据集和音频声谱图数据集均含有多种类别音频事件,每个类别的音频数量相同。
4.如权利要求1所述的一种基于卷积神经网络和多核学习SVM的关键音频检测方法,其特征在于:
所述一维卷积神经网络和二维卷积神经网络结构中均包含卷基层、池化层和BatchNormalization层。
5.如权利要求4所述的一种基于卷积神经网络和多核学习SVM的关键音频检测方法,其特征在于:
所述多核支持向量机,采用不同的特征向量来得到不同的核函数,并将其线性加权获得新的核函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910319987.6A CN110047506B (zh) | 2019-04-19 | 2019-04-19 | 一种基于卷积神经网络和多核学习svm的关键音频检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910319987.6A CN110047506B (zh) | 2019-04-19 | 2019-04-19 | 一种基于卷积神经网络和多核学习svm的关键音频检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110047506A true CN110047506A (zh) | 2019-07-23 |
CN110047506B CN110047506B (zh) | 2021-08-20 |
Family
ID=67278194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910319987.6A Active CN110047506B (zh) | 2019-04-19 | 2019-04-19 | 一种基于卷积神经网络和多核学习svm的关键音频检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110047506B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674488A (zh) * | 2019-09-06 | 2020-01-10 | 深圳壹账通智能科技有限公司 | 基于神经网络的验证码识别方法、***及计算机设备 |
CN111724899A (zh) * | 2020-06-28 | 2020-09-29 | 湘潭大学 | 一种基于Fbank和MFCC融合特征的帕金森音频智能检测方法及*** |
CN112349297A (zh) * | 2020-11-10 | 2021-02-09 | 西安工程大学 | 一种基于麦克风阵列的抑郁症检测方法 |
CN113851115A (zh) * | 2021-09-07 | 2021-12-28 | 中国海洋大学 | 一种基于一维卷积神经网络的复杂声音识别方法 |
CN113866571A (zh) * | 2021-08-06 | 2021-12-31 | 厦门欧易奇机器人有限公司 | 一种局放源定位方法、装置以及设备 |
CN114155879A (zh) * | 2021-12-06 | 2022-03-08 | 哈尔滨工程大学 | 一种利用时频融合补偿异常感知及稳定性的异音检测方法 |
CN115273908A (zh) * | 2022-08-05 | 2022-11-01 | 东北农业大学 | 一种基于分类器融合的生猪咳嗽声音识别方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9396183B2 (en) * | 2011-03-08 | 2016-07-19 | At&T Intellectual Property I, L.P. | System and method for building diverse language models |
CN106250855A (zh) * | 2016-08-02 | 2016-12-21 | 南京邮电大学 | 一种基于多核学习的多模态情感识别方法 |
US20170270406A1 (en) * | 2016-03-18 | 2017-09-21 | Qualcomm Incorporated | Cloud-based processing using local device provided sensor data and labels |
CN107203782A (zh) * | 2017-05-23 | 2017-09-26 | 哈尔滨工业大学 | 基于卷积神经网络的大动态信噪比下通信干扰信号识别方法 |
CN107924491A (zh) * | 2015-08-04 | 2018-04-17 | 高通股份有限公司 | 未知类别的检测和用于未知类别的分类器的初始化 |
US20180129901A1 (en) * | 2016-11-07 | 2018-05-10 | Samsung Electronics Co., Ltd. | System on chip and method for data processing |
US20180181881A1 (en) * | 2016-12-22 | 2018-06-28 | Samsung Electronics Co., Ltd. | System and method for training deep learning classification networks |
CN108460395A (zh) * | 2017-02-17 | 2018-08-28 | 北京三星通信技术研究有限公司 | 目标检测方法和装置以及模糊处理方法和装置 |
US20180260699A1 (en) * | 2017-03-13 | 2018-09-13 | Intel IP Corporation | Technologies for deep machine learning with convolutional neural networks and reduced set support vector machines |
CN108764316A (zh) * | 2018-05-18 | 2018-11-06 | 河海大学 | 基于深度卷积神经网络和多核学习的遥感图像场景分类方法 |
CN108899049A (zh) * | 2018-05-31 | 2018-11-27 | 中国地质大学(武汉) | 一种基于卷积神经网络的语音情感识别方法及*** |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
CN109633588A (zh) * | 2018-12-29 | 2019-04-16 | 杭州电子科技大学 | 基于深度卷积神经网络的雷达辐射源识别方法 |
-
2019
- 2019-04-19 CN CN201910319987.6A patent/CN110047506B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9396183B2 (en) * | 2011-03-08 | 2016-07-19 | At&T Intellectual Property I, L.P. | System and method for building diverse language models |
CN107924491A (zh) * | 2015-08-04 | 2018-04-17 | 高通股份有限公司 | 未知类别的检测和用于未知类别的分类器的初始化 |
US20170270406A1 (en) * | 2016-03-18 | 2017-09-21 | Qualcomm Incorporated | Cloud-based processing using local device provided sensor data and labels |
CN106250855A (zh) * | 2016-08-02 | 2016-12-21 | 南京邮电大学 | 一种基于多核学习的多模态情感识别方法 |
US20180129901A1 (en) * | 2016-11-07 | 2018-05-10 | Samsung Electronics Co., Ltd. | System on chip and method for data processing |
US20180181881A1 (en) * | 2016-12-22 | 2018-06-28 | Samsung Electronics Co., Ltd. | System and method for training deep learning classification networks |
CN108460395A (zh) * | 2017-02-17 | 2018-08-28 | 北京三星通信技术研究有限公司 | 目标检测方法和装置以及模糊处理方法和装置 |
US20180260699A1 (en) * | 2017-03-13 | 2018-09-13 | Intel IP Corporation | Technologies for deep machine learning with convolutional neural networks and reduced set support vector machines |
CN107203782A (zh) * | 2017-05-23 | 2017-09-26 | 哈尔滨工业大学 | 基于卷积神经网络的大动态信噪比下通信干扰信号识别方法 |
CN108764316A (zh) * | 2018-05-18 | 2018-11-06 | 河海大学 | 基于深度卷积神经网络和多核学习的遥感图像场景分类方法 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
CN108899049A (zh) * | 2018-05-31 | 2018-11-27 | 中国地质大学(武汉) | 一种基于卷积神经网络的语音情感识别方法及*** |
CN109633588A (zh) * | 2018-12-29 | 2019-04-16 | 杭州电子科技大学 | 基于深度卷积神经网络的雷达辐射源识别方法 |
Non-Patent Citations (7)
Title |
---|
A. RABAOUI ET AL: "Improved One-class SVM Classifier for Sounds Classification", 《2007 IEEE CONFERENCE ON ADVANCED VIDEO AND SIGNAL BASED SURVEILLANCE》 * |
NA YING ET AL: "A New Improved Algorithm of Speech Enhancement Based on MCRA and Noncausal a Priori SNR Estimator", 《INTERNATIONAL CONFERENCE ON MECHATRONICS, ELECTRONIC, INDUSTRIAL AND CONTROL ENGINEERING (MEIC 2014)》 * |
SHAOBO LI ET AL: "An Ensemble Stacked Convolutional Neural Network Model for Environmental Event Sound Recognition", 《APPLIED SCIENCES》 * |
李昊奇等: "基于深度信念网络和线性单分类SVM 的高维异常检测", 《电信科学》 * |
李琪: "基于深度学习的音频场景识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王金华等: "基于语谱图提取深度空间注意特征的语音情感识别算法", 《电信科学》 * |
胡涛: "基于卷积神经网络的异常音频事件检测的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674488A (zh) * | 2019-09-06 | 2020-01-10 | 深圳壹账通智能科技有限公司 | 基于神经网络的验证码识别方法、***及计算机设备 |
CN110674488B (zh) * | 2019-09-06 | 2024-04-26 | 深圳壹账通智能科技有限公司 | 基于神经网络的验证码识别方法、***及计算机设备 |
CN111724899A (zh) * | 2020-06-28 | 2020-09-29 | 湘潭大学 | 一种基于Fbank和MFCC融合特征的帕金森音频智能检测方法及*** |
CN112349297A (zh) * | 2020-11-10 | 2021-02-09 | 西安工程大学 | 一种基于麦克风阵列的抑郁症检测方法 |
CN112349297B (zh) * | 2020-11-10 | 2023-07-04 | 西安工程大学 | 一种基于麦克风阵列的抑郁症检测方法 |
CN113866571A (zh) * | 2021-08-06 | 2021-12-31 | 厦门欧易奇机器人有限公司 | 一种局放源定位方法、装置以及设备 |
CN113851115A (zh) * | 2021-09-07 | 2021-12-28 | 中国海洋大学 | 一种基于一维卷积神经网络的复杂声音识别方法 |
CN114155879A (zh) * | 2021-12-06 | 2022-03-08 | 哈尔滨工程大学 | 一种利用时频融合补偿异常感知及稳定性的异音检测方法 |
CN115273908A (zh) * | 2022-08-05 | 2022-11-01 | 东北农业大学 | 一种基于分类器融合的生猪咳嗽声音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110047506B (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047506A (zh) | 一种基于卷积神经网络和多核学习svm的关键音频检测方法 | |
CN110119703B (zh) | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 | |
CN105320965B (zh) | 基于深度卷积神经网络的空谱联合的高光谱图像分类方法 | |
CN104063706B (zh) | 一种基于surf算法的视频指纹提取方法 | |
CN110516695A (zh) | 面向医学图像分类的对抗样本生成方法及*** | |
CN107506740A (zh) | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 | |
CN109711422A (zh) | 图像数据处理、模型的建立方法、装置、计算机设备和存储介质 | |
CN106651915B (zh) | 基于卷积神经网络的多尺度表达的目标跟踪方法 | |
CN103729678A (zh) | 一种基于改进dbn模型的水军检测方法及*** | |
CN109446991A (zh) | 基于全局和局部特征融合的步态识别方法 | |
CN107680077A (zh) | 一种基于多阶梯度特征的无参考图像质量评价方法 | |
CN108573209A (zh) | 一种基于人脸的单模型多输出的年龄性别识别方法及*** | |
CN108205684A (zh) | 图像消歧方法、装置、存储介质和电子设备 | |
CN108564111A (zh) | 一种基于邻域粗糙集特征选择的图像分类方法 | |
CN106203373B (zh) | 一种基于深度视觉词袋模型的人脸活体检测方法 | |
Li et al. | Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes | |
CN111694954B (zh) | 图像分类方法、装置和电子设备 | |
CN113869098A (zh) | 植物病害识别方法、装置、电子设备及存储介质 | |
CN110852369A (zh) | 联合3d/2d卷积网络和自适应光谱解混的高光谱图像分类方法 | |
CN109522953A (zh) | 基于网络嵌入算法和cnn对图结构数据进行分类的方法 | |
Stuchi et al. | Frequency learning for image classification | |
CN112395953A (zh) | 一种道面异物检测*** | |
Somervuo | Time–frequency warping of spectrograms applied to bird sound analyses | |
Svaigen et al. | Automatic drone identification through rhythm-based features for the internet of drones | |
Avianto et al. | CNN-Based Classification for Highly Similar Vehicle Model Using Multi-Task Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |