CN112863550B

CN112863550B - 基于注意力残差学习的哭声检测方法及***

Info

Publication number: CN112863550B
Application number: CN202110224859.0A
Authority: CN
Inventors: 李学生; 李晨; 朱麒宇
Original assignee: Delu Power Technology Chengdu Co ltd
Current assignee: Delu Power Technology Chengdu Co ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2022-08-16
Anticipated expiration: 2041-03-01
Also published as: CN112863550A

Abstract

本发明涉及基于注意力残差学习的哭声检测方法及***，包括S1，收集哭声数据；S2，将哭声数据分为训练集和验证集；S3，采用训练集对构建的基于注意力机制的残差神经网络进行训练，获得训练好的基于注意力机制的残差神经网络；并采用验证集对训练结果进行评估。本发明引入残差网络的方法解决层数特别大的CNN模型的梯度消失的问题，引入注意力机制去使得残差模型可以更加注重能表达哭声的特征上，可改善在真实场景中哭声识别的准确率，提高在实际场景的泛化能力。

Description

基于注意力残差学习的哭声检测方法及***

技术领域

本发明涉及声音识别技术领域，尤其涉及基于注意力残差学习的哭声检测方法及***。

背景技术

现有的四足声音识别因为缺少异常声检测，特别在家庭陪伴犬中，哭声是婴幼儿表达自己的主要方式，婴幼儿哭声的自动检测在家庭陪伴领域有重要作用，能有效减少看护家长的负担。已有的研究做了很多关于特征和模型选取以及对于婴儿哭声发声机理的工作，普遍使用传统的机器学习方法如SVM以及采用CNN模型对语谱图进行分类。

传统的机器学习方法如SVM普遍依赖于特征的选取，特征选取的好坏决定了识别结果的好坏，并且特征的选择很难以全面反映婴幼儿哭声的特点，而卷积神经网络虽然能从语谱图中学习特征，但由于层数加深使得训练困难，浅层的CNN模型用在婴幼儿哭声检测上的结果效果不佳，并且哭声识别在实际环境主要挑战是噪声的不确定性和不稳定性。

在含有不稳定噪声的实际环境中，如果仅使用单一或者过少的特征，会严重导致哭声识别的识别率过低，但是采用复杂特征的模型中，深层的CNN网络模型会有潜在的梯度消失问题。

发明内容

本发明为了解决上述技术问题提供基于注意力残差学习的哭声检测方法及***。

本发明通过下述技术方案实现：

基于注意力残差学习的哭声检测方法，包括以下步骤：

S1，收集哭声数据；

S2，将哭声数据分为训练集和验证集；

S3，采用训练集对构建的基于注意力机制的残差神经网络进行训练，获得训练好的残差神经网络；并采用验证集对训练结果进行评估。

进一步的，所述残差神经网络包括依次串联的Block1、第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5；所述Block1的输出通过跳跃连接单元连接所述第二Block2的输入，所述第二Block2的输入通过跳跃连接单元连接第一Block4的输入；

所述第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5中均引入了混合注意力机制。

进一步的，所述Block1包括用于实现2倍下采样的二维卷积层；

所述第一Block4、第二Block4、第三Block4均包括第三Block2和第四Block2；所述第三Block2与第四Block2串联；

所述第一Block2、第二Block2、第三Block2和第四Block2均包括两个二维卷积层，其第二个二维卷积层后方引入了混合注意力机制；

所述Block5包括两个二维卷积层和sigmoid层，其第一个二维卷积层的前方引入了混合注意力机制。

进一步的，所述第三Block2的输入通过包含Block3的跳跃连接单元与第四Block2的输入连接；

所述Block3包括两个并行的二维池化层和用于将所述两个二维池化层的输出在最后一个张量维度上进行组合并输出的Concatenate层。

进一步的，第三Block4中所包含的block3中的二维池化层的池化区域用来实现2倍下采样，padding用来使得输入图像面积和输入图像面积相等，concatenate层用于将两个并行的二维池化层的输出在最后一个张量维度上进行组合并输出。

进一步的，其特征在于：所述混合注意力机制的公式为：

S＝σ((F_up(F_res(F_res(F_dn(U))+F_up(F_res(F_res(F_dn(F_res(F_dn(U))))))))*

W₁+b₁)*W₂+b₂ (1)

式(1)中，F_dn表示最大池化，F_up表示双线值插值，S为得到的注意力机制权重，F_res表示残差机制计算流程，σ表示sigmoid函数；w₁、w₂为卷积核权重；b₁、b₂为卷积核偏差。

进一步的，Block1的二维卷积层的卷积核个数为24；

所述第一Block2和第二Block2中的二维卷积层的卷积核大小、个数以及步数均相同；

第一Block4中的第三Block2和第四Block2所含的二维卷积层的卷积核个数均为48；

第二Block4中的第三Block2和第四Block2所含的二维卷积层的卷积核个数均为96；

第三Block4中的第三Block2和第四Block2所含的二维卷积层的卷积核个数均为192；

所述第三Block2用于实现2倍的下采样；

Block5的第一个二维卷积层的卷积核个数增加到768；第二个二维卷积层的卷积核大小为1，个数为1。

近一步的，所述S1中，根据信噪比对样本进行扩增。

进一步的，所述S2之前对收集的哭声数据进行预处理，预处理包括两种方式：

方式一：对语音信号进行预加重；

方式二：对语音信号进行分帧和加窗。

进一步的，所述S3中，先对训练集中的数据进行特征提取，将提取的音频特征用于训练残差神经网络；

所述音频特征包括短时过零率、短时平均能量、短时平均幅度、能量熵、频谱质心、谱熵、频谱通量、梅尔频率倒谱系数、色谱图中的至少一种。

基于注意力残差学习的哭声检测***，包括：

第一数据采集模块：用于采集待检测声音数据；

第二数据采集模块：用于采集样本数据；

数据预处理模块：用于对样本数据进行预处理：

特征提取模块：用于提取样本数据中的音频特征：

哭声模型模块：用于利用基于注意力机制的残差神经网络算法，对训练样本数据中的音频特征进行训练，获取哭声模型；

哭声识别模块：用于将待检测声音数据输入所述哭声模型中进行计算，确定所述待检测声音数据是否为哭声。

与现有技术相比，本发明具有以下有益效果：

本发明引入残差网络的方法解决层数特别大的CNN模型的梯度消失的问题，引入注意力机制去使得残差模型可以更加注重能表达哭声的特征上；本发明可改善在真实场景中哭声识别的准确率，提高在实际场景的泛化能力。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。

图1是模型训练的流程图；

图2是残差块的原理图；

图3是基于注意力机制的残差神经网络的结构图；

图4是Block1的结构图；

图5是Block2的结构图；

图6是Block3的结构图；

图7是Block5的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

如图1所示，本发明公开的基于注意力残差学习的哭声检测方法，包括以下步骤：

S1，收集哭声数据；

S2，将哭声数据分为训练集和验证集；

S3，采用训练集对构建的基于注意力机制的残差神经网络进行训练，获得训练好的基于注意力机制的残差神经网络；并采用验证集对训练结果进行评估。

将待测声音数据输入训练好的基于注意力机制的残差神经网络，识别其是否为哭声。

基于上述方法，本发明公开一实施例。

实施例1

如图1所示，本实施例包括以下步骤：

步骤1，收集哭声数据样本。

本实施例中数据集来源主要有三个：

从GitHub上“Donate a cry”项目中收集到的450条清晰的哭声数据；从ESC-50数据集中Crying baby类别中收集40条哭声数据；手动从网络中收录400条哭声数据。

所有的数据都是去除静音之后，每条数据长度为5秒，负样本是从ESC-50数据集其他类别中收录的数据。所以正样本(婴儿哭声)总共有890条数据，负样本同样收集了900条数据。这样正负样本比较均衡。

由于数据样本比较少，同时为了更符合实际应用环境，本实施例还提供了一种对收集到的样本数据中做数据扩增的方法，具体如下：

从UrbanSound8K中选取了家庭室内常见的室内环境噪声，例如空调声音等，经过测试发现不同的信噪比会导致模型的性能不同，噪声强度越大(信噪比越低)模型的准确率有明显变差，最终选择信噪比为35dB进行样本扩增。

信噪比：指一段语音信号中有用语音信号和信号掺杂的噪声信号功率的比值。可采用公式(1)计算信噪比：

式(1)中，s(n)为语音信号，r(n)为噪声信号。

本实施例最终选取50％的样本数据进行样本扩增，这样得到了1335条正样本，1350条负样本。

本发明根据不同信噪比对数据添加噪声，实现样本数据扩增，可改善在真实场景中哭声识别的准确率，提高在实际场景的泛化能力。

步骤2，数据预处理。

本实施例主要采用两种方法进行数据预处理：预加重、分帧和加窗。

2.1预加重。

在口腔产生声音的过程中，声音的能量集中在低频，高频信号会在处理过程中被滤除掉，语音产生过程中高频的衰减比较大，预加重操作就是为了弥补高频部分的衰减，具体的操作就是将音频信号送进一阶FIR高通滤波改进动态域，使得预加重之后的语音信号频谱更为平坦，预加重的表达式：

H(z)＝1-αz^-1 (2)

式(2)中，α是常数代表了预加重系数，决定了预加重强度，取值范围为0.9<α<1。

2.2分帧和加窗。

音频信号中，频率是随着时间变化的，无法直接对整段音频提取特征，通常认为，将语音信号划分为10ms～30ms的语音片段中，短时间内具有平稳性。

分帧一般通过加窗来实现，加窗公式：

S_w(n)＝S(n)W(n) (3)

式(3)中，S(n)表示原始信号，W(n)表示窗函数。

常用的窗函数有矩形窗、Hamming窗、Hanning窗。

其中，矩形窗公式：

Hamming窗公式：

Hanning窗公式公式：

本实施例采取Hamming窗作为窗函数。并且在窗长和帧移中选取的值为：窗长选取2048个点，帧移选取1024个点，在之后的特征提取中效果最好。

步骤3，构造训练集和验证集。

步骤4，对训练接中的数据进行特征提取与特征组合。

虽然神经网络具备自信提取数据中所含信息的能力，但是对原始的音频信号直接进行处理是非常困难的，所以特征工程是非常必须的，良好的特征提取可以大大提升神经网络的识别性能，提高训练准确度与效率，语音的特征提取是非常成熟的，常用的声音特征有以下几种：

1，短时过零率：定义在单位时间内信号过零的次数为过零率，短时过零率可以直观对应到信号波形穿过时间轴的次数。

2，短时平均能量：短时平均能量这一特征参数可以辅助区分清音和浊音，在信噪比较高，信号较为纯净、所含噪声成分少的情况下，短时平均能量还可以用于划分有声和无声片段，从而将静默片段剪除。

短时平均能量的数学定义为一帧之内信号幅值的加权平方和，其数学表示为：

式(7)中，X(m)代表声音信号，w(.)代表窗函数。

3，短时平均幅度：短时平均能量需要计算信号采样值的平方和，平方计算对信号平直过于敏感，在具体计算时如果遇到有高电平，短时平均能量很容易急剧增大，甚至产生溢出。为克服这一缺陷，短时平均幅度用绝对值之和代替了平方和，同样可以衡量声音强度的变化。其数学表示为：

式(8)中，X(m)代表声音信号，w(.)代表窗函数。

4，能量熵：能量熵可以描述音频信号在时间变化程度，可作为音频特征。如果信号的能量包络中存在突然变化，则该特征具有较高的值。

5，频谱质心：频谱质心代表声音能量集中在哪一频率段。频谱质心的值越高，表示信号的能量越集中在更高的频率内。低频成分较多的声音听感较为低沉压抑，频谱质心相对较低，高频成分较多的声音听感较为高亢欢快，频谱质心相对较高。

6，谱熵：谱熵可以检测音频信号所含有的复杂性，复杂性越大，谱熵越大。其数学表示为：

式(9)中，f(w)为一帧信号内的谱密度函数。

7，频谱通量：频谱通量可以量化频谱随时间产生的变化，频谱稳定或接近恒定的信号具有低的频谱通量，例如高斯白噪声，而具有突变的频谱变化，则有高的频谱通量。

8，梅尔频率倒谱系数：梅尔频率倒谱系数是语音处理中非常重要的特征，是信号的对数功率在非线性梅尔频率刻度上进行线性余弦变化，梅尔频率倒谱系数又称MFCC，MFCC可以反映人耳听觉频率的非线性特征。其数学表示为：

式(10)中，f是线性频率，单位是HZ。

9，色谱图：色谱图是将整个频谱划分到12个频段上，对应音乐八度的音节，可以根据不同的色度进行划分。

经过使用不同的特征组合进行训练可得，结果如表1所示：

表1：不同特征组合对模型的提升能力表

表1中：MSG代表对数梅尔谱图，MFCC代表梅尔倒谱系数，CG代表色谱图，ZCR代表过零率。

因此，本实施例最终选取的音频特征为：对数梅尔谱图、梅尔倒谱系数、色谱图以及过零率的特征组合。

步骤5，设计基于注意力机制的残差神经网络，并采用训练集对该残差神经网络进行训练。

卷积神经网络的性能表现是与网络深度强相关的，越深的网络结构可以使得识别效果提高，然而在实践中，当卷积网络深度到达一定深度之后，模型表现会不再提高，甚至表现会变得更差，这种现象被称作梯度消失。在卷积网络中加入残差块，而残差单元可以跳层连接，使得在深度卷积网络中，可以将某些层的输出跨越中间层直接传递到后面的层。

如图2所示，残差块通过函数R(x)将输入传递到输出，并与输出F(x)相加，此时网络的学习目标也随之改变，不再是整体输出H(x),变为输出与输入的差异。

本实施例设计了如图3所示的基于注意力机制的残差神经网络，其包括：依次串联的Block1、第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5。

Block1的输出通过跳跃连接单元连接第二Block2的输入，第二Block2的输入通过跳跃连接单元连接第一Block4的输入；所述第一Block4、第二Block4、第三Block4均包括第三Block2、第四Block2和Block3。所述第三Block2与第四Block2串联，第三Block2的输入通过包含Block3的跳跃连接单元与第四Block2的输入连接。

如图4所示，Block1包括Batch Normalization层和为了实现2倍下采样的二维卷积层(Conv2D)。二维卷积层卷积核大小为3×3，个数为24，步幅为(1,2)，实现2倍的下采样。

如图5所示，Block2包括两个二维卷积层，其第二个二维卷积层后方引入了混合注意力机制(Interpolated-attn)。混合注意力机制的公式为：

S＝σ((F_up(F_res(F_res(F_dn(U))+F_up(F_res(F_res(F_dn(F_res(F_dn(U))))))))*

W₁+b₁)*W₂+b₂ (11)

式(11)中，F_dn表示最大池化，F_up表示双线值插值，S为得到的注意力机制权重，F_res表示残差机制计算流程，σ表示sigmoid函数；w₁、w₂为卷积核权重；b₁、b₂为卷积核偏差。

这里引入混合注意力机制，通道数目从输入到输出的网络各层不变，该模块利用下采样对空间维度进行缩小维度，以此增加卷积提取特征的感受野，这样能够更有效的推断输入图像中高频特征所在的区域，然后利用插值进行上采样，这样在扩大维度的同时，更好的定位特征区域。

如图6所示，Block3包括两个并行的二维池化层和用于将两个二维池化层的输出在最后一个张量维度上进行组合并输出的Concatenate层。

第三block4中所包含的block3中，maxpooling2d的池化区域用来实现2倍下采样，padding用来使得输入图像面积和输入图像面积相等，concatenate将两个并行的二维池化层的输出在最后一个张量维度上进行组合并输出。

如图7所示，Block5包括两个二维卷积层和sigmoid层，其第一个二维卷积层的前方也引入了混合注意力机制。

本实施例中Block1中的二维卷积层是为了实现2倍的下采样。

第一block2、第二block2中的二维卷积层的卷积核大小个数以及步数都是一样的。

但是，在第一block4中的两个block2所所含的二维卷积层个数均增加至48个；第二block4中的两个block2的卷积核个数增加至96个；第三block4中的两个block2卷积核增加到192个，这三个block4中的block2里，每次都是第一个block2中是为了实现2倍的下采样。

Block5的第一个二维卷积层的卷积核个数增加到768，第二个二维卷积层的卷积核大小为1，个数为1。经过GlobalAveragePooling2D和1维的sigmoid，最终输出预测结果，判断是否为哭声。

本实施例获得的最后模型的识别能力如表2所示：

表2：本发明与不使用注意力机制的残差网络的对比表

模型	模型分数
		不带注意力机制的残差网络	96.5％
带注意力机制的残差网络	98.6％

从表2可以看出，本发明在残差网络中加入注意力机制之后，残差网络表现的更加出色，同时残差网络本身也解决卷积神经网络深度过深可能导致的梯度消失问题。

本发明公开的基于注意力残差学习的哭声检测***，包括：

第一数据采集模块：用于采集待检测声音数据；

第二数据采集模块：用于采集样本数据；

数据预处理模块：用于对样本数据进行预处理：

特征提取模块：用于提取样本数据中的音频特征：

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于注意力残差学习的哭声检测方法，其特征在于：包括以下步骤：

S1，收集哭声数据；

S2，将哭声数据分为训练集和验证集；

S3，采用训练集对构建的基于注意力机制的残差神经网络进行训练，获得训练好的残差神经网络；并采用验证集对训练结果进行评估；

所述残差神经网络包括依次串联的Block1、第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5；所述Block1的输出通过跳跃连接单元连接所述第二Block2的输入，所述第二Block2的输入通过跳跃连接单元连接第一Block4的输入；

所述第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5中均引入了混合注意力机制；

所述Block1包括用于实现2倍下采样的二维卷积层；

所述Block5包括两个二维卷积层和sigmoid层，其第一个二维卷积层的前方引入了混合注意力机制；

所述第三Block2的输入通过包含Block3的跳跃连接单元与第四Block2的输入连接；

2.根据权利要求1所述的基于注意力残差学习的哭声检测方法，其特征在于：第三Block4中所包含的block3中的二维池化层的池化区域用来实现2倍下采样，padding用来使得输入图像面积和输入图像面积相等，concatenate层用于将两个并行的二维池化层的输出在最后一个张量维度上进行组合并输出。

3.根据权利要求1或2所述的基于注意力残差学习的哭声检测方法，其特征在于：所述混合注意力机制的公式为：

（1）

式（1）中，

表示最大池化，

表示双线值插值，S为得到的注意力机制权重，

表示sigmoid函数；

、

为卷积核权重；

、

为卷积核偏差。

4.根据权利要求1或2所述的基于注意力残差学习的哭声检测方法，其特征在于：所述S1中，根据信噪比对样本进行扩增。

5.根据权利要求1所述的基于注意力残差学习的哭声检测方法，其特征在于：所述S2之前对收集的哭声数据进行预处理，预处理包括两种方式：

方式一：对语音信号进行预加重；

方式二：对语音信号进行分帧和加窗。

6.根据权利要求1或5所述的基于注意力残差学习的哭声检测方法，其特征在于：所述S3中，先对训练集中的数据进行特征提取，将提取的音频特征用于训练残差神经网络；

7.基于注意力残差学习的哭声检测***，其特征在于：包括：

第一数据采集模块：用于采集待检测声音数据；

第二数据采集模块：用于采集样本数据；

数据预处理模块：用于对样本数据进行预处理：

特征提取模块：用于提取样本数据中的音频特征：

哭声识别模块：用于将待检测声音数据输入所述哭声模型中进行计算，确定所述待检测声音数据是否为哭声；

残差神经网络包括依次串联的Block1、第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5；所述Block1的输出通过跳跃连接单元连接所述第二Block2的输入，所述第二Block2的输入通过跳跃连接单元连接第一Block4的输入；

所述Block1包括用于实现2倍下采样的二维卷积层；