CN110600059B - 声学事件检测方法、装置、电子设备及存储介质 - Google Patents
声学事件检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110600059B CN110600059B CN201910838074.5A CN201910838074A CN110600059B CN 110600059 B CN110600059 B CN 110600059B CN 201910838074 A CN201910838074 A CN 201910838074A CN 110600059 B CN110600059 B CN 110600059B
- Authority
- CN
- China
- Prior art keywords
- acoustic event
- data
- acoustic
- sound
- characteristic data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 125000004122 cyclic group Chemical group 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 206010011469 Crying Diseases 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephone Function (AREA)
Abstract
本申请提供了一种声学事件检测方法、装置、电子设备及存储介质,通过获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据;根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据,所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件;根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。可以检测到同一时间段内发生的若干个声学事件,并确定其类别,大大提升了声学事件检测的效率。
Description
技术领域
本申请涉及声学识别领域,特别是一种声学事件检测方法、装置、电子设备及存储介质。
背景技术
随着技术的发展,越来越多的场景需要用到声学事件检测技术,声学事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础,并将在未来类人机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。
在现实中往往是同一时间段会发生不同的声学事件,比如孩子正在啼哭时门铃响了,这一段声音数据就包括这“哭声”和“门铃声”两种声学事件,现有的声学事件检测方法主要是通过模板匹配,传统机器学习分类算法以及深度神经网络算法进行声学事件分类检测,一次只能检测一类事件是否发生,无法检测出同一时间段发生的多种声学事件,在检测时十分不便。
发明内容
基于上述问题,本申请提供了一种声学事件检测方法、装置、电子设备及计算机存储介质,可以检测同一时间段内发生的复数个声学事件,大大提高了检测效率。
本申请实施例第一方面提供了一种声学事件检测方法,所述方法包括:
获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据;
根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据,所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件;
根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。
本申请实施例第二方面提供了一种声学事件检测装置,所述装置包括处理单元和通信单元,其中,
所述处理单元,用于通过所述通信单元获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据;以及根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据,所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件;以及根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。
一种电子设备,其特征在于,包括应用处理器、输入设备、输出设备和存储器,所述应用处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述应用处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面所述的方法。
本申请实施例第四方面提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如本申请实施例第一方面任一方法中的部分或全部方法步骤。
本申请实施例第五方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
通过实施上述申请实施例,可以得到以下有益效果:
上述声学事件检测方法、装置、电子设备及存储介质,通过获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据;根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据,所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件;根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。可以检测到同一时间段内发生的若干个声学事件,并确定其类别,大大提升了声学事件检测的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的声学事件检测方法的***构架图;
图2为本申请实施例中一种声学事件检测方法的流程示意图;
图3为本申请实施例中一种基于图2的声音数据处理方法的流程示意图;
图4为本申请实施例中另一种声学事件检测方法的流程示意图;
图5为本申请实施例中一种声音检测模型的结构示意图;
图6为本申请实施例中一种电子设备的结构示意图;
图7为本申请实施例中一种声学事件检测装置的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”是用于表示非特定的任意一个对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子设备可以是具备通信能力的电子设备,该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。
目前,现有声学事件检测一般是模板匹配,传统机器学习分类算法以及深度神经网络算法进行声学事件分类检测,一次只能检测一个声学事件,若同一时段内发生了多个声学事件,现有方法无法同时将每个声学事件都检测出来,这使得声学事件检测的效率十分低下。
基于上述问题,本申请提供了一种声学事件检测方法,下面对本申请实施例进行详细介绍。
如图1所示,图1为本申请实施例中声学事件检测方法的***构架图,包括声音采集模块110和处理器120,其中,上述声音采集模块110可以采用麦克风阵列采集原始声音数据,上述原始声音数据包括在第一区域范围内第一时段的声音,第一区域和第一时段可以为预先设置的任意一个区域和任意一个时段,上述处理器120与上述声音采集模块110连接,并获取上述声音采集模块110采集到的原始声音数据进行处理。具体的,上述处理器120可以通过声学事件模型对上述原始声音数据进行处理,该声学事件模型可以包括卷积神经网络模块和循环神经网络模块,通过多头注意力机制Multi-Head Attention可以根据声学事件之间的不同频率同时识别多个声学事件的特征,完成同一时段内的多个声学事件的检测。
通过上述***构架,可以检测到同一时间段内发生的若干个声学事件,并确定其类别,大大提升了声学事件检测的效率。
下面结合图2对本申请实施例中一种声学事件检测方法作详细说明,图2为本申请实施例中一种声学事件检测方法的流程示意图,具体包括以下步骤:
步骤201,电子设备获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据。
其中,上述原始声音数据为未经过处理的原始音频信号,其时长可以根据第一时段的变化而变化,如设定第一时段为10秒,则每个原始语音数据的时长都为10秒。上述声学事件为连续音频信号流中具有明确语义的片段,如“哭泣声”“***声”等都属于声学事件,可以通过声音采集模块采集原始声音数据,上述声音采集模块可以独立存在,也可以集成在上述电子设备上,当上述声音采集模块独立存在时,需要与上述电子设备有线或无线连接以传输上述原始声音数据。
可选的,上述电子设备可以对采集到的原始声音数据做一个筛选,将不存在声学事件的原始声音数据过滤掉,只获取包括至少一个声学事件的原始声音数据。
具体的,上述电子设备获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据之前,可以对采集到的原始语音数据进行过滤筛选,上述电子设备可以内置声学事件的相关参数,当获取到原始声音数据时,根据上述相关参数判断上述原始声音数据中是否存在声学事件,若不存在声学事件,则将该原始声音数据过滤掉;若存在至少一个声学事件,则获取该包含至少一个声学事件的原始语音数据。
通过电子设备获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据,可以避免对未产生声学事件的原始声音数据进行检测,提升了声学事件检测方法的效率。
步骤202,所述电子设备根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据。
其中,不同的声学事件,其频域特征也不相同,上述频域特征即声音频率,上述声学事件特征数据用于表征所述原始声音数据中的声学事件。
其中,上述电子设备先对上述原始声音数据进行处理确定声音特征数据,上述声音特征数据包括滤波器组Fbank特征,处理过程如图3所示,图3为本申请实施例中一种基于图2的声音数据处理方法的流程示意图,具体包括:
预加重,预加重以帧为单位进行,因为高频端大约在800Hz以上按6dB/oct(倍频程)衰减,频率越高相应的成分越小,为此要在对原始声音数据进行分析之前对其高频部分加以提升,避免后续的快速傅里叶变换出现数值问题,且可以改善高频信噪比。
分帧,为了避免窗边界对信号的遗漏,每两帧间要有帧迭(帧与帧之间需要重叠一部分)。通常的选择是帧长25ms,帧移为10ms,即每两帧之间重叠10ms。要分帧是因为语音信号是快速变化的,而傅里叶变换适用于分析平稳的信号。若帧与帧之间没有重叠,由于帧与帧连接处的信号会因为加窗而被弱化,这部分的信息可能会丢失。
加窗,傅里叶变换要求输入信号是平稳的,但是音频信号从整体上来讲是不平稳的。每帧信号通常要与一个平滑的窗函数相乘,让帧两端平滑地衰减到零,这样可以降低傅里叶变换后旁瓣的强度,取得更高质量的频谱,可以对每一帧加汉明窗函数,对帧信号边缘进行平滑处理。
快速傅里叶变换,对加窗函数之后的每一帧进行快速傅里叶变换得到能量谱,通过傅里叶变换转换为频域可以将复杂声波分成各种频率的声波,方便神经网络模型进行学习。
梅尔滤波器组滤波,利用梅尔滤波器对上一个步骤中的能量谱进行滤波,再取对数即可得到Log fbank,上述Log fbank即为Fbank特征。
其中,在得到Fbank特征之后,通过在预先训练好的声学事件模型中输入上述Fbank特征生成上述至少一个声学事件的至少一个声学事件特征数据。上述声学事件模型可以包括卷积神经网络模型,通过上述卷积神经网络模块对上述Fbank特征进行处理得到处理后的声音特征数据,并通过多头注意力Multi-Head Attention机制将上述处理后的声音特征数据按照频域特征进行分类生成上述至少一个声学事件的至少一个声学事件特征数据,上述声学事件特征数据包括以下至少一种:声音频率、波形图、基音、子带能量和短时能量等。通过对声学事件的频率维度进行Multi-Head Attention,根据频率的映射关系可以使不同的子空间关注到不同频率的声学事件得到每个声学事件对应的子空间特征,之后通过点积注意力机制Scaled Dot-Product Attention将上述子空间特征级联并输出上述声学事件特征数据。通过Scaled Dot-Product Attention可以减少计算量,提高声学事件检测的速度。
需要说明的是,上述声学事件特征数据可以包括以下至少一种:声音频率、波形图、基音、子带能量和短时能量等,其具体的声学事件识别方式为现有的声音识别等技术,在此不做赘述。
可见,通过所述电子设备根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据,可以根据频域特征做Multi-Head Attention来确定不同的声学事件对应的声学事件特征数据,大大提高了检测效率。
步骤203,所述电子设备根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。
其中,首先可以将所述至少一个声学事件特征数据按照预设帧数进行拆分得到拆分后的声学事件特征数据,上述预设帧数与原始声音数据的时长可以根据采样率来确定,如每40帧对应1s,在此不做具体限定,将上述声学事件特征数据按照预设帧数进行拆分可以减少计算量;
接着,通过循环神经网络RNN模块对所述拆分后的声学事件特征数据进行循环计算得到计算结果,并合并所述拆分后的声学事件特征数据对应的计算结果得到平均声学事件特征数据,上述循环计算即,将每一帧对应的声学事件特征数据都计算一次,由于每一帧声学事件特征数据都可以对应多个参数,所以循环计算可以提高检测的准确率,为后续输出结果做铺垫;
最后,通过在全连接FC层中输入所述平均声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别,通过声学事件模型自动确定上述时间段内发生的声学事件的类别,具体的声学事件的类别可以根据声学事件模型可识别的声学事件来确定,在此不做具体限定。
通过所述电子设备根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别,可以检测到同一时间段内发生的若干个声学事件,并确定其类别,大大提升了声学事件检测的效率。
下面结合图4对本申请实施例中另一种声学事件检测方法作详细说明,图4为本申请实施例中另一种声学事件检测方法的流程示意图,具体包括以下步骤:
步骤401,电子设备通过训练获取训练好的声学事件模型。
其中,在声学事件模型中输入训练数据,该训练数据可以为带有声学事件标签的声音数据,根据上述声学事件模型输出的预测声学事件与上述声学事件标签的差别确定损失函数,该损失函数可以为二元交叉熵函数,结合梯度下降法进行训练直到训练完成。在此对该训练方法不做赘述。
通过训练获取训练好的声学事件模型,可以提高声学事件检测的准确性。
步骤402,所述电子设备获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据。
步骤403,所述电子设备根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据。
步骤404,所述电子设备根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。
步骤405,所述电子设备通过激活函数确定所述每个声学事件对应的发生概率。
其中,上述激活函数可以为Sigmoid函数,公式如下:
Sigmoid函数也叫Logistic函数,用于隐层神经元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。可以得到每个声学事件的发生概率。
通过激活函数确定所述每个声学事件对应的发生概率,可以对发生概率较低的声学事件进行排除,减少检测过程中的失误。
步骤406,所述电子设备判断所述每个声学事件对应的发生概率是否大于预设阈值。
其中,上述预设阈值可以手动调整,根据场景环境的不同灵活切换,当声学事件对应的发生概率大于预设阈值时,执行步骤408;当声学事件对应的发生概率小于或等于上述预设阈值时,执行步骤407。需要说明的是,每个声学事件对应的发生概率各自独立,且判断过程可以同时进行。
步骤407,所述电子设备输出提示信息。
其中,上述提示信息可以用于表示无法识别该声学事件,提示信息可以以音频播报、视频播放、图片显示、显示灯闪烁等形式输出,在此不做具体限定。
步骤408,所述电子设备确定所述声学事件发生。
通过上述步骤,可以检测到同一时间段内发生的若干个声学事件,并确定其类别,大大提升了声学事件检测的效率。
上述未详细说明的步骤参见图2中所描述的方法,在此不再赘述。
下面结合图5对本申请实施例中的声学事件检测方法进行举例说明,图5为本申请实施例中一种声学事件模型的结构示意图,首先从声音特征数据输入上述声学事件模型的卷积神经网络模块开始说明:
假设声音特征数据为640帧、每一帧对应128个参数的Fbank特征(640,128),首先对该Fbank特征进行批量归一化BatchNorm处理,BatchNorm可以在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布,接着通过3×3的卷积层,该卷积层的输出通道数为16,再经过池化层进行平均池化,得到降维后的特征,此处降维可以理解为对帧数进行了压缩,降维后的1帧相当于原来的4帧,这样可以显著提高检测的速度。之后通过Multi-Head Attention得到160帧、每一帧对应32个参数的声学事件特征。
之后,将上述声学事件特征输入循环神经网络RNN模块进行循环计算,该RNN包括门控循环单元GRU,接着经过随机失活Dropout处理之后进入全连接层FC得到每个声学事件的类别,最后通过Sigmoid函数得到每个声学事件的发生概率。
与上述图2、图4所示的实施例一致的,请参阅图6,图6为本申请实施例中一种电子设备600的结构示意图,包括应用处理器610、输入设备620、输出设备630和存储器640,所述应用处理器610、输入设备620、输出设备630和存储器640相互连接,其中,所述存储器640用于存储计算机程序,所述计算机程序包括程序指令,所述应用处理器610被配置用于调用所述程序指令,执行图2、图4中所描述的全部或部分步骤。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
下面结合图7对本申请实施例中一种声学事件检测装置700作详细说明。图7为本申请实施例中一种声学事件检测装置的结构示意图,包括处理单元710和通信单元720,其中,
所述处理单元710,用于通过所述通信单元720获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据;以及根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据,所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件;以及根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。
在一个可能的实施例中,所述根据所述原始声音数据生成所述至少一个声学事件的至少一个声学事件特征数据,所述处理单元710具体用于:
对所述原始声音数据进行处理确定声音特征数据,所述声音特征数据包括滤波器组Fbank特征;
通过在预先训练好的声学事件模型中输入所述Fbank特征生成所述至少一个声学事件的至少一个声学事件特征数据。
在一个可能的实施例中,所述声学事件模型包括卷积神经网络模块;所述通过在声学事件模型中输入所述Fbank特征生成所述至少一个声学事件的至少一个声学事件特征数据,所述处理单元710具体用于:
通过所述卷积神经网络模块对所述Fbank特征进行处理得到处理后的声音特征数据;
通过多头注意力机制将所述处理后的声音特征数据按照所述频域特征进行分类生成所述至少一个声学事件的至少一个声学事件特征数据,所述声学事件特征数据包括以下至少一种:声音频率、波形图、基音、子带能量和短时能量。
在一个可能的实施例中,所述声学事件模型包括循环神经网络模块和全连接层,所述根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别,所述处理单元710具体用于:
将所述至少一个声学事件特征数据按照预设帧数进行拆分得到拆分后的声学事件特征数据;
通过所述循环神经网络模块对所述拆分后的声学事件特征数据进行循环计算得到计算结果,并合并所述拆分后的声学事件特征数据对应的计算结果得到平均声学事件特征数据;
通过在所述全连接层中输入所述平均声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。
在一个可能的实施例中,所述通过在所述全连接层中输入所述平均声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别之后,所述处理单元710还用于:
通过激活函数确定所述每个声学事件对应的发生概率;
判断所述每个声学事件对应的发生概率是否大于预设阈值;
若所述声学事件对应的发生概率大于预设阈值,则确定所述声学事件发生。
在一个可能的实施例中,所述判断所述每个声学事件对应的发生概率是否大于预设阈值之后,所述处理单元710还用于:
若所述声学事件对应的发生概率小于或等于预设阈值,则输出提示信息,所述提示信息用于表示无法识别所述声学事件。
在一个可能的实施例中,所述对所述原始声音数据进行处理确定声音特征数据,所述处理单元710具体用于:
对所述声音数据执行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组滤波确定所述声音特征数据,所述声音特征数据包括滤波器组Fbanks特征。
其中,所述声学事件检测装置700还可以包括存储单元730,用于存储电子设备的程序代码和数据。所述处理单元710可以是处理器,所述通信单元720可以是触控显示屏或者收发器,存储单元730可以是存储器。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.一种声学事件检测方法,其特征在于,所述方法包括:
获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据;
对所述原始声音数据进行处理确定声音特征数据,所述声音特征数据包括滤波器组Fbank特征;
通过卷积神经网络模块对所述Fbank特征进行处理得到处理后的声音特征数据;
通过多头注意力机制将所述处理后的声音特征数据按照频域特征进行分类生成所述至少一个声学事件的至少一个声学事件特征数据,所述声学事件特征数据包括以下至少一种:声音频率、波形图、基音、子带能量和短时能量,所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件;
根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别,包括:
将所述至少一个声学事件特征数据按照预设帧数进行拆分得到拆分后的声学事件特征数据;
通过循环神经网络模块对所述拆分后的声学事件特征数据进行循环计算得到计算结果,并合并所述拆分后的声学事件特征数据对应的计算结果得到平均声学事件特征数据;
通过在全连接层中输入所述平均声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。
3.根据权利要求2所述的方法,其特征在于,所述通过在所述全连接层中输入所述平均声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别之后,所述方法还包括:
通过激活函数确定所述每个声学事件对应的发生概率;
判断所述每个声学事件对应的发生概率是否大于预设阈值;
若所述声学事件对应的发生概率大于预设阈值,则确定所述声学事件发生。
4.根据权利要求3所述的方法,其特征在于,所述判断所述每个声学事件对应的发生概率是否大于预设阈值之后,所述方法还包括:
若所述声学事件对应的发生概率小于或等于预设阈值,则输出提示信息,所述提示信息用于表示无法识别所述声学事件。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述对所述原始声音数据进行处理确定声音特征数据,包括:
对所述声音数据执行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组滤波确定所述声音特征数据,所述声音特征数据包括所述滤波器组Fbanks特征。
6.一种声学事件检测装置,其特征在于,所述装置包括处理单元和通信单元,其中,
所述处理单元,用于通过所述通信单元获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据;以及对所述原始声音数据进行处理确定声音特征数据,所述声音特征数据包括滤波器组Fbank特征;通过卷积神经网络模块对所述Fbank特征进行处理得到处理后的声音特征数据;通过多头注意力机制将所述处理后的声音特征数据按照频域特征进行分类生成所述至少一个声学事件的至少一个声学事件特征数据,所述声学事件特征数据包括以下至少一种:声音频率、波形图、基音、子带能量和短时能量,所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件;根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。
7.一种电子设备,其特征在于,包括应用处理器、输入设备、输出设备和存储器,所述应用处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述应用处理器被配置用于调用所述程序指令,执行如权利要求1~5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910838074.5A CN110600059B (zh) | 2019-09-05 | 2019-09-05 | 声学事件检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910838074.5A CN110600059B (zh) | 2019-09-05 | 2019-09-05 | 声学事件检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110600059A CN110600059A (zh) | 2019-12-20 |
CN110600059B true CN110600059B (zh) | 2022-03-15 |
Family
ID=68857747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910838074.5A Active CN110600059B (zh) | 2019-09-05 | 2019-09-05 | 声学事件检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110600059B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292767B (zh) * | 2020-02-10 | 2023-02-14 | 厦门快商通科技股份有限公司 | 一种音频事件检测方法和装置以及设备 |
CN111325386B (zh) * | 2020-02-11 | 2023-07-07 | Oppo广东移动通信有限公司 | 交通工具运行状态的预测方法、装置、终端及存储介质 |
CN113362851A (zh) * | 2020-03-06 | 2021-09-07 | 上海其高电子科技有限公司 | 基于深度学习交通场景声音分类的方法及*** |
CN113838478B (zh) * | 2020-06-08 | 2024-04-09 | 华为技术有限公司 | 异常事件检测方法、装置和电子设备 |
CN111899760B (zh) * | 2020-07-17 | 2024-05-07 | 北京达佳互联信息技术有限公司 | 音频事件的检测方法、装置、电子设备及存储介质 |
CN111933188B (zh) * | 2020-09-14 | 2021-02-05 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112863550B (zh) * | 2021-03-01 | 2022-08-16 | 德鲁动力科技(成都)有限公司 | 基于注意力残差学习的哭声检测方法及*** |
CN113362854B (zh) * | 2021-06-03 | 2022-11-15 | 哈尔滨工业大学 | 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备 |
CN117373488B (zh) * | 2023-12-08 | 2024-02-13 | 富迪科技(南京)有限公司 | 一种音频实时场景识别*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180061439A1 (en) * | 2016-08-31 | 2018-03-01 | Gregory Frederick Diamos | Automatic audio captioning |
CN108648748A (zh) * | 2018-03-30 | 2018-10-12 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
CN109473119A (zh) * | 2017-09-07 | 2019-03-15 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN109859760A (zh) * | 2019-02-19 | 2019-06-07 | 成都富王科技有限公司 | 基于深度学习的电话机器人语音识别结果校正方法 |
CN110070895A (zh) * | 2019-03-11 | 2019-07-30 | 江苏大学 | 一种基于监督变分编码器因素分解的混合声音事件检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3696810B1 (en) * | 2017-12-15 | 2024-06-12 | Google LLC | Training encoder model and/or using trained encoder model to determine responsive action(s) for natural language input |
CN110120230B (zh) * | 2019-01-08 | 2021-06-01 | 国家计算机网络与信息安全管理中心 | 一种声学事件检测方法及装置 |
-
2019
- 2019-09-05 CN CN201910838074.5A patent/CN110600059B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180061439A1 (en) * | 2016-08-31 | 2018-03-01 | Gregory Frederick Diamos | Automatic audio captioning |
CN109473119A (zh) * | 2017-09-07 | 2019-03-15 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
CN108648748A (zh) * | 2018-03-30 | 2018-10-12 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN109859760A (zh) * | 2019-02-19 | 2019-06-07 | 成都富王科技有限公司 | 基于深度学习的电话机器人语音识别结果校正方法 |
CN110070895A (zh) * | 2019-03-11 | 2019-07-30 | 江苏大学 | 一种基于监督变分编码器因素分解的混合声音事件检测方法 |
Non-Patent Citations (4)
Title |
---|
"LARGE-SCALE WEAKLY SUPERVISED AUDIO CLASSIFICATION USING GATED CONVOLUTIONAL NEURAL NETWORK";Yong Xu等;《arXiv:1710.00343v1 [cs.SD]》;20171001;摘要,第1页右栏倒数第2段,2.1 CRNN基线,4.1 实验设置,4.2.2 弱监督声学事件检测SED,图1、2 * |
"Self-attention mechanism based system for dcase2018 challenge task1 and task4";Jun Wang等;《Proc. DCASE Challenge,2018》;20181231;2.3 自注意力结构,3.1 家庭环境中大规模弱标签半监督声学事件检测,图1、2 * |
"基于注意力机制的声音场景深度分类模型研究";夏子琪;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190215(第02期);全文 * |
Yong Xu等."LARGE-SCALE WEAKLY SUPERVISED AUDIO CLASSIFICATION USING GATED CONVOLUTIONAL NEURAL NETWORK".《arXiv:1710.00343v1 [cs.SD]》.2017, * |
Also Published As
Publication number | Publication date |
---|---|
CN110600059A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600059B (zh) | 声学事件检测方法、装置、电子设备及存储介质 | |
CN110853618B (zh) | 一种语种识别的方法、模型训练的方法、装置及设备 | |
CN110648692B (zh) | 语音端点检测方法及*** | |
CN111354371B (zh) | 交通工具运行状态的预测方法、装置、终端及存储介质 | |
CN112949708B (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
CN110097890A (zh) | 一种语音处理方法、装置和用于语音处理的装置 | |
CN113205820B (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
CN110880328B (zh) | 到站提醒方法、装置、终端及存储介质 | |
CN111312292A (zh) | 基于语音的情绪识别方法、装置、电子设备及存储介质 | |
CN106548786A (zh) | 一种音频数据的检测方法及*** | |
CN111696580A (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN111868823A (zh) | 一种声源分离方法、装置及设备 | |
CN114373476A (zh) | 一种基于多尺度残差注意力网络的声音场景分类方法 | |
CN114338623A (zh) | 音频的处理方法、装置、设备、介质及计算机程序产品 | |
CN112420049A (zh) | 数据处理方法、装置及存储介质 | |
CN110232909A (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN112735466B (zh) | 一种音频检测方法及装置 | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
Hajihashemi et al. | Novel time-frequency based scheme for detecting sound events from sound background in audio segments | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
CN115910018A (zh) | 一种提高静音舱语音私密性的方法和装置 | |
CN114678038A (zh) | 音频噪声检测方法、计算机设备和计算机程序产品 | |
CN111782860A (zh) | 一种音频检测方法及装置、存储介质 | |
CN114664325A (zh) | 一种异常声音识别方法、***、终端设备及计算机可读存储介质 | |
CN113257284B (zh) | 语音活动检测模型训练、语音活动检测方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |