CN112418173A

CN112418173A - 异常声音识别方法、装置及电子设备

Info

Publication number: CN112418173A
Application number: CN202011442660.7A
Authority: CN
Inventors: 陈孝良; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-02-26

Abstract

本公开提供一种异常声音识别方法、装置及电子设备，所述方法包括：实时获取声音信号；对所述声音信号提取声学特征；将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音。本公开实施例能够提高异常声音识别的准确率。

Description

异常声音识别方法、装置及电子设备

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种异常声音识别方法、装置及电子设备。

背景技术

异常声音识别在智能监控、场景辨识及安全监测等场合具有广泛应用。异常声音是指在安静的环境下突然出现的非语音声，例如，玻璃破碎声音、婴儿哭声、***声及敲门声等。相关技术中，通过统计声音信号的能量以及过零率等参数，从声音信号中提取出异常声音片段，再识别异常声音片段的异常声音类型。

然而，通过声音信号的能量以及过零率等参数确定异常声音片段的误差较大，使得异常声音识别的准确率较低。

发明内容

本公开实施例提供一种异常声音识别方法、装置及电子设备，以解决现有技术中通过声音信号的能量以及过零率等参数确定异常声音片段的误差较大，使得异常声音识别的准确率较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本公开实施例提供了一种异常声音识别方法，所述方法包括：

实时获取声音信号；

对所述声音信号提取声学特征；

将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音。

第二方面，本公开实施例提供了一种异常声音识别装置，所述装置包括：

第一获取模块，用于实时获取声音信号；

提取模块，用于对所述声音信号提取声学特征；

识别模块，用于将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音。

第三方面，本公开实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的异常声音识别方法中的步骤。

第四方面，本公开实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的异常声音识别方法中的步骤。

本公开实施例中，通过实时获取声音信号；对所述声音信号提取声学特征；将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音。这样，能够通过神经网络模型识别所述声音信号中是否包括异常声音，且在所述声音信号中存在异常声音的情况下，能够识别异常声音的类型，从而不需要预先通过声音信号的能量以及过零率等参数确定异常声音片段，能够提高异常声音识别的准确率，并且能够在线、实时对声音信号进行检测。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种异常声音识别方法的流程图；

图2是本公开实施例提供的一种异常声音识别装置的结构示意图之一；

图3是本公开实施例提供的一种异常声音识别装置的结构示意图之二；

图4是本公开实施例提供的一种异常声音识别装置的结构示意图之三；

图5是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本公开实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端及可穿戴设备等。

参见图1，图1是本公开实施例提供的一种异常声音识别方法的流程图，如图1所示，包括以下步骤：

步骤101、实时获取声音信号。

其中，所述声音信号可以是通过声音传感器实时采集的声音信号。示例地，所述声音信号可以是在公共场所实时采集的声音信号。所述声音信号中可能会包括***声、尖叫声以及狗叫声等异常声音，所述异常声音可以是典型异常声音，例如，可以是公共场所典型异常声音。

步骤102、对所述声音信号提取声学特征。

其中，所述声学特征可以为声学前端特征。所述声学特征可以为滤波器组特征(filter banks特征)，或者可以是MFCC(Mel-Frequency Cepstral Coefficien梅尔倒谱系数)特征，或者还可以是其他声学特征等等。所述对所述声音信号提取声学特征，可以是，对所述声音信号进行分帧处理，并对分帧处理后的声音信号提取声学特征。示例地，可以对所述声音信号进行分帧处理，并对分帧处理后的声音信号提取滤波器组特征，获取所述滤波器组特征的一阶差分特征和二阶差分特征，其中，所述声学特征包括所述滤波器组特征、所述一阶差分特征和二阶差分特征。

步骤103、将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音。

其中，所述神经网络模型可以为TDNN(时延神经网络)模型，CNN(卷积神经网络)模型，DNN(深度神经网络)模型，LSTM(长短期记忆)模型，或者GRU(循环神经网络)模型等等，本实施例对此不进行限定。所述神经网络模型可以用于分类，实现识别异常声音。可以采用多种类型的异常声音的声音样本以及不包括异常声音的声音样本对神经网络模型进行训练，从而使得训练的神经网络模型能够识别当前的声音信号是非异常声音，或者是多种类型的异常声音中的其中一类异常声音。可以基于所述神经网络模型的输出层的输出结果识别所述声音信号中的异常声音。

另外，所述神经网络模型可以包括与所述神经网络模型的输出层直接或间接连接的多个中间层，所述将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音，可以包括：将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，获取所述多个中间层中至少一个中间层的输出结果；将所述至少一个中间层的输出结果与预先获取的特征平均信息进行匹配；基于匹配结果识别所述声音信号中的异常声音。示例地，所述多个中间层包括与所述神经网络模型的输出层连接的嵌入层，可以获取所述嵌入层的第一输出结果，将所述嵌入层的第一输出结果与预设特征信息进行匹配，基于匹配结果识别所述声音信号中的异常声音。

在实际应用中，可以将预设时长的声音信号的声学特征输入预先训练的神经网络模型，基于所述神经网络模型的输出识别该预设时长的声音信号中的异常声音。例如，可以将800ms的声音信号的声学特征输入预先训练的神经网络模型，通过该神经网络模型判定该800ms的声音信号中是否包括N-1类异常声音中的其中一类异常声音。

可选的，所述神经网络模型包括与所述神经网络模型的输出层连接的嵌入层，所述将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音，包括：

将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，获取所述嵌入层的第一输出结果；

将所述嵌入层的第一输出结果与预设特征信息进行匹配；

基于匹配结果识别所述声音信号中的异常声音。

其中，所述嵌入层(embedding层)的维度可以固定设置，例如，可以设置为512维。嵌入层的第一输出结果可以是嵌入向量，嵌入向量的维度与嵌入层的维度相同，例如，在嵌入层为512维的情况下，嵌入向量为512维的向量。

另外，所述预设特征信息可以包括一个或多个特征平均信息。在需要判断声音信号是否包括某个特定类型的异常声音的场景下，所述预设特征信息可以包括一个特征平均信息，例如，在需要判断声音信号是否包括婴儿哭声的场景下，所述预设特征信息可以包括婴儿哭声对应的特征平均信息。在所述预设特征信息仅包括一个特征平均信息的情况下，所述基于匹配结果识别所述声音信号中的异常声音，包括：若所述第一输出结果与所述预设特征信息匹配，则确定所述声音信号包括所述预设特征信息对应的异常声音。

该实施方式中，通过神经网络模型的嵌入层的第一输出结果识别所述声音信号中的异常声音，能够利用神经网络模型的中间输出信息识别异常声音，对异常声音识别的准确率较高。

可选的，所述预设特征信息包括多个特征平均信息，所述多个特征平均信息中每个特征平均信息对应一种异常声音类型，所述将所述嵌入层的第一输出结果与预设特征信息进行匹配，包括：

将所述嵌入层的第一输出结果与所述多个特征平均信息分别进行匹配；

所述基于匹配结果识别所述声音信号中的异常声音，包括：

将与目标特征平均信息对应的异常声音类型确定为所述声音信号中的异常声音的类型，其中，所述目标特征平均信息为所述多个特征平均信息中与所述嵌入层的第一输出结果匹配程度最高的特征平均信息。

其中，与所述第一输出结果匹配程度最高的特征平均信息，可以是，与所述第一输出结果的相似度最高的特征平均信息。所述将所述嵌入层的第一输出结果与所述多个特征平均信息分别进行匹配，可以是，分别计算所述嵌入层的第一输出结果与所述多个特征平均信息的向量相似度，目标特征平均信息为所述多个特征平均信息中向量相似度最高的特征平均信息。可以通过皮尔逊相关系数、欧几里德距离、cosine相似度或者马氏距离等方法计算向量相似度，本实施例对此不进行限定。

该实施方式中，通过逐一将所述嵌入层的第一输出结果与所述多个特征平均信息分别进行匹配，能够较为准确地确定异常声音的类型，减少误判的概率。

可选的，所述将所述嵌入层的第一输出结果与所述多个特征平均信息分别进行匹配之前，所述方法还包括：

将属于第一异常声音类型的多个异常声音样本分别输入所述神经网络模型，所述第一异常声音类型为多种异常声音类型中的任意一种异常声音类型；

获取所述神经网络模型的嵌入层对所述多个异常声音样本中每个异常声音样本的第二输出结果；

基于所述多个异常声音样本的第二输出结果确定所述第一异常声音类型对应的特征平均信息。

其中，所述多种异常声音类型可以包括***声、尖叫声以及狗叫声等多种异常声音类型。所述基于所述多个异常声音样本的第二输出结果确定所述第一异常声音类型对应的特征平均信息，可以是，获取所述多个异常声音样本的第二输出结果的平均值，将所述多个异常声音样本的第二输出结果的平均值确定为所述第一异常声音类型对应的特征平均信息；或者还可以是，获取所述多个异常声音样本中每个异常声音样本的第二输出结果与对应的预设系数的乘积，将所述多个异常声音样本对应的乘积相加，将相加后得到的值除以异常声音样本的总数量，得到所述第一异常声音类型对应的特征平均信息。每个异常声音样本对应的预设系数可以相同，也可以不同。

该实施方式中，通过将属于第一异常声音类型的多个异常声音样本分别输入所述神经网络模型，确定所述第一异常声音类型对应的特征平均信息，能够较为准确地确定第一异常声音类型的声音特征，从而能够较为准确地识别异常声音的类型。

可选的，所述基于所述多个异常声音样本的第二输出结果确定所述第一异常声音类型对应的特征平均信息，包括：

获取所述多个异常声音样本的第二输出结果的平均值；

将所述多个异常声音样本的第二输出结果的平均值确定为所述第一异常声音类型对应的特征平均信息。

其中，所述多个异常声音样本的第二输出结果可以包括多个向量，例如，可以包括多个512维的向量。所述多个异常声音样本的第二输出结果的平均值可以是所述多个向量相加后再除以异常声音样本的总数量得到的向量。

在实际应用中，以识别婴儿哭声为例，可以将婴儿哭声的声音样本输入所述神经网络模型，获取婴儿哭声的特征平均信息，在需要检测声音信号是否包括婴儿哭声时，可以将声音信号输入训练好的神经网络模型，将神经网络模型的嵌入层的第一输出结果与婴儿哭声的特征平均信息进行比较，判断声音信号是否为婴儿哭声。

该实施方式中，将所述多个异常声音样本的第二输出结果的平均值确定为所述第一异常声音类型对应的特征平均信息，能够通过平均的方式尽可能准确地确定第一异常声音类型的声音特征，从而能够较为准确地识别异常声音的类型。

可选的，所述对所述声音信号提取声学特征，包括：

对所述声音信号进行分帧处理，并对分帧处理后的声音信号提取滤波器组特征；

获取所述滤波器组特征的一阶差分特征和二阶差分特征；

其中，所述声学特征包括所述滤波器组特征、所述一阶差分特征和二阶差分特征。

另外，所述滤波器组特征，也就是，Fbank特征。filter banks特征可以模仿人耳的方式对声音信号进行处理，人耳对声音频谱的响应是非线性的，在声音信号的处理过程中，采用filter banks特征可以提高声音信号处理的性能。可以通过对声音信号逐帧进行傅里叶变换和梅尔滤波，然后通过取对数，得到filter banks特征。在实际应用中，可以对声音信号进行傅里叶变换，得到声音信号的频域特征，对声音信号的频域特征进行梅尔滤波，得到滤波结果，对所述滤波结果取对数，得到声音信号的filter banks特征。

需要说明的是，可以对所述filter banks特征进行一阶差分，得到所述filterbanks特征的一阶差分特征，对所述filter banks特征进行二阶差分，得到所述filterbanks特征的二阶差分特征。示例地，可以对分帧处理后的声音信号提取filter banks特征，得到20维的filter banks特征，对该20维的filter banks特征填充一阶差分特征和二阶差分特征，构成60维的filter banks特征，将该60维的filter banks特征作为声音信号的声学特征。

该实施方式中，所述声学特征包括所述滤波器组特征、所述一阶差分特征和二阶差分特征，能够较为准确地获取声音信号的声学特征。

可选的，所述神经网络模型包括输出层，所述将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音，包括：

将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，并基于所述神经网络模型的输出层的输出结果识别所述声音信号中的异常声音。

其中，所述神经网络模型可以被训练为分类器，在异常声音的类型为N类的情况下，则神经网络模型的输出层的隐藏节点数可以为N，分别对应N-1类异常声音以及非异常声音，N为正整数。神经网络模型的输出层的输出结果可以包括N个概率值，分别对应N-1类异常声音以及一类非异常声音，所述基于所述神经网络模型的输出层的输出结果识别所述声音信号中的异常声音，可以包括：基于N个概率值中概率最大的概率值确定当前时刻的声音信号是非异常声音，或者当前时刻的声音信号包括N-1类异常声音中的其中一类异常声音。

示例地，异常声音的类型为20类，则神经网络模型的输出层的隐藏节点数可以为21，分别对应20类异常声音以及非异常声音，神经网络模型的输出层的输出结果包括21个概率值，分别对应20类异常声音以及一类非异常声音，例如，当21个概率值中对应***声的异常声音的概率值最大时，表示当前声音信号包括***声。

该实施方式中，基于所述神经网络模型的输出层的输出结果识别所述声音信号中的异常声音，从而不需要预先通过声音信号的能量以及过零率等参数确定异常声音片段，能够提高异常声音识别的准确率。

参见图2，图2是本公开实施例提供的一种异常声音识别装置的结构示意图之一，如图2所示，所述装置200包括：

第一获取模块201，用于实时获取声音信号；

提取模块202，用于对所述声音信号提取声学特征；

识别模块203，用于将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音。

可选的，所述神经网络模型包括与所述神经网络模型的输出层连接的嵌入层，如图3所示，所述识别模块203包括：

获取单元2031，用于将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，获取所述嵌入层的第一输出结果；

匹配单元2032，用于将所述嵌入层的第一输出结果与预设特征信息进行匹配；

识别单元2033，用于基于匹配结果识别所述声音信号中的异常声音。

可选的，所述预设特征信息包括多个特征平均信息，所述多个特征平均信息中每个特征平均信息对应一种异常声音类型，所述匹配单元2032具体用于：

所述识别单元2033具体用于：

可选的，如图4所示，所述装置200还包括：

输入模块204，用于将属于第一异常声音类型的多个异常声音样本分别输入所述神经网络模型，所述第一异常声音类型为多种异常声音类型中的任意一种异常声音类型；

第二获取模块205，用于获取所述神经网络模型的嵌入层对所述多个异常声音样本中每个异常声音样本的第二输出结果；

确定模块206，用于基于所述多个异常声音样本的第二输出结果确定所述第一异常声音类型对应的特征平均信息。

可选的，所述确定模块206具体用于：

获取所述多个异常声音样本的第二输出结果的平均值；

可选的，所述提取模块202具体用于：

获取所述滤波器组特征的一阶差分特征和二阶差分特征；

可选的，所述神经网络模型包括输出层，所述识别模块203具体用于：

异常声音识别装置能够实现图1的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

请参见图5，图5是本公开实施例提供的一种电子设备的结构示意图，如图5所示，电子设备300包括：存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的程序，其中：

所述处理器301读取存储器302中的程序，用于执行：

实时获取声音信号；

对所述声音信号提取声学特征；

可选的，所述神经网络模型包括与所述神经网络模型的输出层连接的嵌入层，所述处理器301执行的所述将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音，包括：

将所述嵌入层的第一输出结果与预设特征信息进行匹配；

基于匹配结果识别所述声音信号中的异常声音。

可选的，所述预设特征信息包括多个特征平均信息，所述多个特征平均信息中每个特征平均信息对应一种异常声音类型，所述处理器301执行的所述将所述嵌入层的第一输出结果与预设特征信息进行匹配，包括：

所述处理器301执行的所述基于匹配结果识别所述声音信号中的异常声音，包括：

可选的，所述处理器301还用于执行：

可选的，所述处理器301执行的所述基于所述多个异常声音样本的第二输出结果确定所述第一异常声音类型对应的特征平均信息，包括：

获取所述多个异常声音样本的第二输出结果的平均值；

可选的，所述处理器301执行的所述对所述声音信号提取声学特征，包括：

获取所述滤波器组特征的一阶差分特征和二阶差分特征；

可选的，所述神经网络模型包括输出层，所述处理器301执行的所述将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音，包括：

在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器301代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。

处理器301负责管理总线架构和通常的处理，存储器302可以存储处理器301在执行操作时所使用的数据。

需要说明的是，本公开实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现，以及达到相同的有益效果，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述异常声音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本公开各个实施例所述的方法。

上面结合附图对本公开的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种异常声音识别方法，其特征在于，所述方法包括：

实时获取声音信号；

对所述声音信号提取声学特征；

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括与所述神经网络模型的输出层连接的嵌入层，所述将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音，包括：

将所述嵌入层的第一输出结果与预设特征信息进行匹配；

基于匹配结果识别所述声音信号中的异常声音。

3.根据权利要求2所述的方法，其特征在于，所述预设特征信息包括多个特征平均信息，所述多个特征平均信息中每个特征平均信息对应一种异常声音类型，所述将所述嵌入层的第一输出结果与预设特征信息进行匹配，包括：

所述基于匹配结果识别所述声音信号中的异常声音，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述嵌入层的第一输出结果与所述多个特征平均信息分别进行匹配之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述多个异常声音样本的第二输出结果确定所述第一异常声音类型对应的特征平均信息，包括：

获取所述多个异常声音样本的第二输出结果的平均值；

6.根据权利要求1所述的方法，其特征在于，所述对所述声音信号提取声学特征，包括：

获取所述滤波器组特征的一阶差分特征和二阶差分特征；

7.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括输出层，所述将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于所述神经网络模型识别所述声音信号中的异常声音，包括：

8.一种异常声音识别装置，其特征在于，所述装置包括：

第一获取模块，用于实时获取声音信号；

提取模块，用于对所述声音信号提取声学特征；

9.根据权利要求8所述的装置，其特征在于，所述神经网络模型包括与所述神经网络模型的输出层连接的嵌入层，所述识别模块包括：

获取单元，用于将所述声学特征输入预先训练的用于识别异常声音的神经网络模型，获取所述嵌入层的第一输出结果；

匹配单元，用于将所述嵌入层的第一输出结果与预设特征信息进行匹配；

识别单元，用于基于匹配结果识别所述声音信号中的异常声音。

10.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的异常声音识别方法中的步骤。