CN110600059B

CN110600059B - 声学事件检测方法、装置、电子设备及存储介质

Info

Publication number: CN110600059B
Application number: CN201910838074.5A
Authority: CN
Inventors: 刘文龙
Original assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2022-03-15
Anticipated expiration: 2039-09-05
Also published as: CN110600059A

Abstract

本申请提供了一种声学事件检测方法、装置、电子设备及存储介质，通过获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据；根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据，所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件；根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。可以检测到同一时间段内发生的若干个声学事件，并确定其类别，大大提升了声学事件检测的效率。

Description

声学事件检测方法、装置、电子设备及存储介质

技术领域

本申请涉及声学识别领域，特别是一种声学事件检测方法、装置、电子设备及存储介质。

背景技术

随着技术的发展，越来越多的场景需要用到声学事件检测技术，声学事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础，并将在未来类人机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。

在现实中往往是同一时间段会发生不同的声学事件，比如孩子正在啼哭时门铃响了，这一段声音数据就包括这“哭声”和“门铃声”两种声学事件，现有的声学事件检测方法主要是通过模板匹配，传统机器学习分类算法以及深度神经网络算法进行声学事件分类检测，一次只能检测一类事件是否发生，无法检测出同一时间段发生的多种声学事件，在检测时十分不便。

发明内容

基于上述问题，本申请提供了一种声学事件检测方法、装置、电子设备及计算机存储介质，可以检测同一时间段内发生的复数个声学事件，大大提高了检测效率。

本申请实施例第一方面提供了一种声学事件检测方法，所述方法包括：

获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据；

根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据，所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件；

根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。

本申请实施例第二方面提供了一种声学事件检测装置，所述装置包括处理单元和通信单元，其中，

所述处理单元，用于通过所述通信单元获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据；以及根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据，所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件；以及根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。

一种电子设备，其特征在于，包括应用处理器、输入设备、输出设备和存储器，所述应用处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述应用处理器被配置用于调用所述程序指令，执行如本申请实施例第一方面所述的方法。

本申请实施例第四方面提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如本申请实施例第一方面任一方法中的部分或全部方法步骤。

本申请实施例第五方面提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

通过实施上述申请实施例，可以得到以下有益效果：

上述声学事件检测方法、装置、电子设备及存储介质，通过获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据；根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据，所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件；根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。可以检测到同一时间段内发生的若干个声学事件，并确定其类别，大大提升了声学事件检测的效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的声学事件检测方法的***构架图；

图2为本申请实施例中一种声学事件检测方法的流程示意图；

图3为本申请实施例中一种基于图2的声音数据处理方法的流程示意图；

图4为本申请实施例中另一种声学事件检测方法的流程示意图；

图5为本申请实施例中一种声音检测模型的结构示意图；

图6为本申请实施例中一种电子设备的结构示意图；

图7为本申请实施例中一种声学事件检测装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”是用于表示非特定的任意一个对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的电子设备可以是具备通信能力的电子设备，该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminal device)等等。

目前，现有声学事件检测一般是模板匹配，传统机器学习分类算法以及深度神经网络算法进行声学事件分类检测，一次只能检测一个声学事件，若同一时段内发生了多个声学事件，现有方法无法同时将每个声学事件都检测出来，这使得声学事件检测的效率十分低下。

基于上述问题，本申请提供了一种声学事件检测方法，下面对本申请实施例进行详细介绍。

如图1所示，图1为本申请实施例中声学事件检测方法的***构架图，包括声音采集模块110和处理器120，其中，上述声音采集模块110可以采用麦克风阵列采集原始声音数据，上述原始声音数据包括在第一区域范围内第一时段的声音，第一区域和第一时段可以为预先设置的任意一个区域和任意一个时段，上述处理器120与上述声音采集模块110连接，并获取上述声音采集模块110采集到的原始声音数据进行处理。具体的，上述处理器120可以通过声学事件模型对上述原始声音数据进行处理，该声学事件模型可以包括卷积神经网络模块和循环神经网络模块，通过多头注意力机制Multi-Head Attention可以根据声学事件之间的不同频率同时识别多个声学事件的特征，完成同一时段内的多个声学事件的检测。

通过上述***构架，可以检测到同一时间段内发生的若干个声学事件，并确定其类别，大大提升了声学事件检测的效率。

下面结合图2对本申请实施例中一种声学事件检测方法作详细说明，图2为本申请实施例中一种声学事件检测方法的流程示意图，具体包括以下步骤：

步骤201，电子设备获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据。

其中，上述原始声音数据为未经过处理的原始音频信号，其时长可以根据第一时段的变化而变化，如设定第一时段为10秒，则每个原始语音数据的时长都为10秒。上述声学事件为连续音频信号流中具有明确语义的片段，如“哭泣声”“***声”等都属于声学事件，可以通过声音采集模块采集原始声音数据，上述声音采集模块可以独立存在，也可以集成在上述电子设备上，当上述声音采集模块独立存在时，需要与上述电子设备有线或无线连接以传输上述原始声音数据。

可选的，上述电子设备可以对采集到的原始声音数据做一个筛选，将不存在声学事件的原始声音数据过滤掉，只获取包括至少一个声学事件的原始声音数据。

具体的，上述电子设备获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据之前，可以对采集到的原始语音数据进行过滤筛选，上述电子设备可以内置声学事件的相关参数，当获取到原始声音数据时，根据上述相关参数判断上述原始声音数据中是否存在声学事件，若不存在声学事件，则将该原始声音数据过滤掉；若存在至少一个声学事件，则获取该包含至少一个声学事件的原始语音数据。

通过电子设备获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据，可以避免对未产生声学事件的原始声音数据进行检测，提升了声学事件检测方法的效率。

步骤202，所述电子设备根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据。

其中，不同的声学事件，其频域特征也不相同，上述频域特征即声音频率，上述声学事件特征数据用于表征所述原始声音数据中的声学事件。

其中，上述电子设备先对上述原始声音数据进行处理确定声音特征数据，上述声音特征数据包括滤波器组Fbank特征，处理过程如图3所示，图3为本申请实施例中一种基于图2的声音数据处理方法的流程示意图，具体包括：

预加重，预加重以帧为单位进行，因为高频端大约在800Hz以上按6dB/oct(倍频程)衰减，频率越高相应的成分越小，为此要在对原始声音数据进行分析之前对其高频部分加以提升，避免后续的快速傅里叶变换出现数值问题，且可以改善高频信噪比。

分帧，为了避免窗边界对信号的遗漏，每两帧间要有帧迭(帧与帧之间需要重叠一部分)。通常的选择是帧长25ms，帧移为10ms，即每两帧之间重叠10ms。要分帧是因为语音信号是快速变化的，而傅里叶变换适用于分析平稳的信号。若帧与帧之间没有重叠，由于帧与帧连接处的信号会因为加窗而被弱化，这部分的信息可能会丢失。

加窗，傅里叶变换要求输入信号是平稳的，但是音频信号从整体上来讲是不平稳的。每帧信号通常要与一个平滑的窗函数相乘，让帧两端平滑地衰减到零，这样可以降低傅里叶变换后旁瓣的强度，取得更高质量的频谱，可以对每一帧加汉明窗函数，对帧信号边缘进行平滑处理。

快速傅里叶变换，对加窗函数之后的每一帧进行快速傅里叶变换得到能量谱，通过傅里叶变换转换为频域可以将复杂声波分成各种频率的声波，方便神经网络模型进行学习。

梅尔滤波器组滤波，利用梅尔滤波器对上一个步骤中的能量谱进行滤波，再取对数即可得到Log fbank，上述Log fbank即为Fbank特征。

其中，在得到Fbank特征之后，通过在预先训练好的声学事件模型中输入上述Fbank特征生成上述至少一个声学事件的至少一个声学事件特征数据。上述声学事件模型可以包括卷积神经网络模型，通过上述卷积神经网络模块对上述Fbank特征进行处理得到处理后的声音特征数据，并通过多头注意力Multi-Head Attention机制将上述处理后的声音特征数据按照频域特征进行分类生成上述至少一个声学事件的至少一个声学事件特征数据，上述声学事件特征数据包括以下至少一种：声音频率、波形图、基音、子带能量和短时能量等。通过对声学事件的频率维度进行Multi-Head Attention，根据频率的映射关系可以使不同的子空间关注到不同频率的声学事件得到每个声学事件对应的子空间特征，之后通过点积注意力机制Scaled Dot-Product Attention将上述子空间特征级联并输出上述声学事件特征数据。通过Scaled Dot-Product Attention可以减少计算量，提高声学事件检测的速度。

需要说明的是，上述声学事件特征数据可以包括以下至少一种：声音频率、波形图、基音、子带能量和短时能量等，其具体的声学事件识别方式为现有的声音识别等技术，在此不做赘述。

可见，通过所述电子设备根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据，可以根据频域特征做Multi-Head Attention来确定不同的声学事件对应的声学事件特征数据，大大提高了检测效率。

步骤203，所述电子设备根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。

其中，首先可以将所述至少一个声学事件特征数据按照预设帧数进行拆分得到拆分后的声学事件特征数据，上述预设帧数与原始声音数据的时长可以根据采样率来确定，如每40帧对应1s，在此不做具体限定，将上述声学事件特征数据按照预设帧数进行拆分可以减少计算量；

接着，通过循环神经网络RNN模块对所述拆分后的声学事件特征数据进行循环计算得到计算结果，并合并所述拆分后的声学事件特征数据对应的计算结果得到平均声学事件特征数据，上述循环计算即，将每一帧对应的声学事件特征数据都计算一次，由于每一帧声学事件特征数据都可以对应多个参数，所以循环计算可以提高检测的准确率，为后续输出结果做铺垫；

最后，通过在全连接FC层中输入所述平均声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别，通过声学事件模型自动确定上述时间段内发生的声学事件的类别，具体的声学事件的类别可以根据声学事件模型可识别的声学事件来确定，在此不做具体限定。

通过所述电子设备根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别，可以检测到同一时间段内发生的若干个声学事件，并确定其类别，大大提升了声学事件检测的效率。

下面结合图4对本申请实施例中另一种声学事件检测方法作详细说明，图4为本申请实施例中另一种声学事件检测方法的流程示意图，具体包括以下步骤：

步骤401，电子设备通过训练获取训练好的声学事件模型。

其中，在声学事件模型中输入训练数据，该训练数据可以为带有声学事件标签的声音数据，根据上述声学事件模型输出的预测声学事件与上述声学事件标签的差别确定损失函数，该损失函数可以为二元交叉熵函数，结合梯度下降法进行训练直到训练完成。在此对该训练方法不做赘述。

通过训练获取训练好的声学事件模型，可以提高声学事件检测的准确性。

步骤402，所述电子设备获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据。

步骤403，所述电子设备根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据。

步骤404，所述电子设备根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。

步骤405，所述电子设备通过激活函数确定所述每个声学事件对应的发生概率。

其中，上述激活函数可以为Sigmoid函数，公式如下：

Sigmoid函数也叫Logistic函数，用于隐层神经元输出，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间，可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。可以得到每个声学事件的发生概率。

通过激活函数确定所述每个声学事件对应的发生概率，可以对发生概率较低的声学事件进行排除，减少检测过程中的失误。

步骤406，所述电子设备判断所述每个声学事件对应的发生概率是否大于预设阈值。

其中，上述预设阈值可以手动调整，根据场景环境的不同灵活切换，当声学事件对应的发生概率大于预设阈值时，执行步骤408；当声学事件对应的发生概率小于或等于上述预设阈值时，执行步骤407。需要说明的是，每个声学事件对应的发生概率各自独立，且判断过程可以同时进行。

步骤407，所述电子设备输出提示信息。

其中，上述提示信息可以用于表示无法识别该声学事件，提示信息可以以音频播报、视频播放、图片显示、显示灯闪烁等形式输出，在此不做具体限定。

步骤408，所述电子设备确定所述声学事件发生。

通过上述步骤，可以检测到同一时间段内发生的若干个声学事件，并确定其类别，大大提升了声学事件检测的效率。

上述未详细说明的步骤参见图2中所描述的方法，在此不再赘述。

下面结合图5对本申请实施例中的声学事件检测方法进行举例说明，图5为本申请实施例中一种声学事件模型的结构示意图，首先从声音特征数据输入上述声学事件模型的卷积神经网络模块开始说明：

假设声音特征数据为640帧、每一帧对应128个参数的Fbank特征(640,128)，首先对该Fbank特征进行批量归一化BatchNorm处理，BatchNorm可以在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布，接着通过3×3的卷积层，该卷积层的输出通道数为16，再经过池化层进行平均池化，得到降维后的特征，此处降维可以理解为对帧数进行了压缩，降维后的1帧相当于原来的4帧，这样可以显著提高检测的速度。之后通过Multi-Head Attention得到160帧、每一帧对应32个参数的声学事件特征。

之后，将上述声学事件特征输入循环神经网络RNN模块进行循环计算，该RNN包括门控循环单元GRU，接着经过随机失活Dropout处理之后进入全连接层FC得到每个声学事件的类别，最后通过Sigmoid函数得到每个声学事件的发生概率。

与上述图2、图4所示的实施例一致的，请参阅图6，图6为本申请实施例中一种电子设备600的结构示意图，包括应用处理器610、输入设备620、输出设备630和存储器640，所述应用处理器610、输入设备620、输出设备630和存储器640相互连接，其中，所述存储器640用于存储计算机程序，所述计算机程序包括程序指令，所述应用处理器610被配置用于调用所述程序指令，执行图2、图4中所描述的全部或部分步骤。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

下面结合图7对本申请实施例中一种声学事件检测装置700作详细说明。图7为本申请实施例中一种声学事件检测装置的结构示意图，包括处理单元710和通信单元720，其中，

所述处理单元710，用于通过所述通信单元720获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据；以及根据所述原始声音数据中的频域特征生成所述至少一个声学事件的至少一个声学事件特征数据，所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件；以及根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。

在一个可能的实施例中，所述根据所述原始声音数据生成所述至少一个声学事件的至少一个声学事件特征数据，所述处理单元710具体用于：

对所述原始声音数据进行处理确定声音特征数据，所述声音特征数据包括滤波器组Fbank特征；

通过在预先训练好的声学事件模型中输入所述Fbank特征生成所述至少一个声学事件的至少一个声学事件特征数据。

在一个可能的实施例中，所述声学事件模型包括卷积神经网络模块；所述通过在声学事件模型中输入所述Fbank特征生成所述至少一个声学事件的至少一个声学事件特征数据，所述处理单元710具体用于：

通过所述卷积神经网络模块对所述Fbank特征进行处理得到处理后的声音特征数据；

通过多头注意力机制将所述处理后的声音特征数据按照所述频域特征进行分类生成所述至少一个声学事件的至少一个声学事件特征数据，所述声学事件特征数据包括以下至少一种：声音频率、波形图、基音、子带能量和短时能量。

在一个可能的实施例中，所述声学事件模型包括循环神经网络模块和全连接层，所述根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别，所述处理单元710具体用于：

将所述至少一个声学事件特征数据按照预设帧数进行拆分得到拆分后的声学事件特征数据；

通过所述循环神经网络模块对所述拆分后的声学事件特征数据进行循环计算得到计算结果，并合并所述拆分后的声学事件特征数据对应的计算结果得到平均声学事件特征数据；

通过在所述全连接层中输入所述平均声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。

在一个可能的实施例中，所述通过在所述全连接层中输入所述平均声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别之后，所述处理单元710还用于：

通过激活函数确定所述每个声学事件对应的发生概率；

判断所述每个声学事件对应的发生概率是否大于预设阈值；

若所述声学事件对应的发生概率大于预设阈值，则确定所述声学事件发生。

在一个可能的实施例中，所述判断所述每个声学事件对应的发生概率是否大于预设阈值之后，所述处理单元710还用于：

若所述声学事件对应的发生概率小于或等于预设阈值，则输出提示信息，所述提示信息用于表示无法识别所述声学事件。

在一个可能的实施例中，所述对所述原始声音数据进行处理确定声音特征数据，所述处理单元710具体用于：

对所述声音数据执行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组滤波确定所述声音特征数据，所述声音特征数据包括滤波器组Fbanks特征。

其中，所述声学事件检测装置700还可以包括存储单元730，用于存储电子设备的程序代码和数据。所述处理单元710可以是处理器，所述通信单元720可以是触控显示屏或者收发器，存储单元730可以是存储器。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种声学事件检测方法，其特征在于，所述方法包括：

通过卷积神经网络模块对所述Fbank特征进行处理得到处理后的声音特征数据；

通过多头注意力机制将所述处理后的声音特征数据按照频域特征进行分类生成所述至少一个声学事件的至少一个声学事件特征数据，所述声学事件特征数据包括以下至少一种：声音频率、波形图、基音、子带能量和短时能量，所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件；

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别，包括：

通过循环神经网络模块对所述拆分后的声学事件特征数据进行循环计算得到计算结果，并合并所述拆分后的声学事件特征数据对应的计算结果得到平均声学事件特征数据；

通过在全连接层中输入所述平均声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。

3.根据权利要求2所述的方法，其特征在于，所述通过在所述全连接层中输入所述平均声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别之后，所述方法还包括：

通过激活函数确定所述每个声学事件对应的发生概率；

判断所述每个声学事件对应的发生概率是否大于预设阈值；

4.根据权利要求3所述的方法，其特征在于，所述判断所述每个声学事件对应的发生概率是否大于预设阈值之后，所述方法还包括：

5.根据权利要求1~4任一项所述的方法，其特征在于，所述对所述原始声音数据进行处理确定声音特征数据，包括：

对所述声音数据执行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组滤波确定所述声音特征数据，所述声音特征数据包括所述滤波器组Fbanks特征。

6.一种声学事件检测装置，其特征在于，所述装置包括处理单元和通信单元，其中，

所述处理单元，用于通过所述通信单元获取在第一区域的第一时段内采集到的至少一个声学事件的原始声音数据；以及对所述原始声音数据进行处理确定声音特征数据，所述声音特征数据包括滤波器组Fbank特征；通过卷积神经网络模块对所述Fbank特征进行处理得到处理后的声音特征数据；通过多头注意力机制将所述处理后的声音特征数据按照频域特征进行分类生成所述至少一个声学事件的至少一个声学事件特征数据，所述声学事件特征数据包括以下至少一种：声音频率、波形图、基音、子带能量和短时能量，所述至少一个声学事件特征数据用于表征所述原始声音数据中的声学事件；根据所述至少一个声学事件特征数据确定所述至少一个声学事件中每个声学事件的类别。

7.一种电子设备，其特征在于，包括应用处理器、输入设备、输出设备和存储器，所述应用处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述应用处理器被配置用于调用所述程序指令，执行如权利要求1~5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1~5任一项所述的方法。