CN111862991A

CN111862991A - 一种婴儿哭声的识别方法及***

Info

Publication number: CN111862991A
Application number: CN201910362576.5A
Authority: CN
Inventors: 董勤波
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2020-10-30

Abstract

本发明公开了一种婴儿哭声的识别方法及***，本发明实施例在识别婴儿哭声时基于声纹识别技术，采用声纹识别技术对从采集的婴儿哭声的提取特征进行声纹识别，确认该婴儿哭声对应的婴儿年龄；再根据婴儿年龄输入到对应的针对不同婴儿年龄建立的哭声类别识别神经网络模型中，得到该婴儿哭声对应的婴儿哭声类别，从而确认婴儿哭声的具体含义，以确定婴儿对应的各种状况。由于本发明实施例在识别婴儿哭声过程中，采用了相结合的声纹识别技术及神经网络技术，所以识别的准确度及精确度比较高，简单且易于执行。

Description

一种婴儿哭声的识别方法及***

技术领域

本发明涉及语音识别技术，特别识别一种婴儿哭声的识别方法及***。

背景技术

随着语音识别技术的发展，将语音识别应用到越来越多的领域，比如识别婴儿各种类别的哭声，以确定婴儿对应的各种状况。针对婴儿哭声的识别，一般采用的方法为：采用语音采集技术采集哭声，将采集得到的哭声与已设置的婴儿哭声相匹配，确定是否为婴儿哭声，再将确认的婴儿哭声与已设置的哭声类别相匹配，匹配成功后，就可以确认采集的哭声对应的哭声类别，最终确认婴儿哭声的具体含义。

采用上述婴儿哭声的识别方法比较繁琐和困难，需要两次匹配才能识别得到婴儿哭声的含义。更进一步地，其识别婴儿哭声常常采用语音识别技术识别，由于不用类别的婴儿哭声差别不很大，且匹配的数据库样本受限，在采用语音识别技术识别时准确度及精确度不高，常常会识别错误，造成用户体验度不高。

发明内容

有鉴于此，本发明实施例提供一种婴儿哭声的识别方法，该方法能够简单且容易地准确识别婴儿哭声。

本发明实施例还提供一种婴儿哭声的识别***，该***能够简单且容易地准确识别婴儿哭声。

本发明实施例是这样实现的：

一种婴儿哭声的识别方法，包括：

采集含有婴儿哭声的音频信号；

提取所述音频信号的特征；

采用声纹识别方式将所述音频信号的特征转换为所述音频的婴儿哭声特征序列；

根据设置的不同婴儿哭声特征序列对应婴儿年龄的对应关系，确定所述音频的婴儿哭声特征序列对应的婴儿年龄；

将所述音频信号的婴儿哭声特征序列输入到设置的对应所述婴儿年龄的哭声类别识别神经网络模型中，输出所述音频信号的特征对应的婴儿哭声类别。

所述采用声纹识别方式将所述音频信号的特征转换为所述音频的婴儿哭声特征序列包括：

设置声纹识别神经网络模型，将所述音频信号的特征输入到设置的声纹识别神经网络模型中，输出所述音频的婴儿哭声特征序列。

在所述采集含有婴儿哭声的音频信号之前，所述方法包括：

计算设定时间段内接收音频信号的平均能量，判断所述接收的音频信号的平均能量是否超过设置的能量阈值，如果是，执行所述采集含有婴儿哭声的音频信号的步骤。

所述提取所述音频信号的特征包括：

采用梅尔Mel滤波方式提取梅尔频率倒普系数MFCC特征，将MFCC特征作为所述音频信号的特征。

所述方法还包括：

设置不同婴儿哭声特征序列对应婴儿识别身份的对应关系，确定所述音频的婴儿哭声特征序列对应的婴儿识别身份。

所述方法还包括：

当未输出所述音频信号的特征对应的婴儿哭声类别时，输出所述音频信号的特征对应的非婴儿哭声类别，或不知含义的哭声类别。

所述输出所述音频信号的特征对应婴儿哭声类别包括：

获取得到对应婴儿哭声类别的输出概率；

将所述对应婴儿哭声类别的输出概率进行平滑处理后，作为所述音频信号的特征对应婴儿哭声类别。

一种婴儿哭声的识别***，包括：信号检测单元、特征提取单元、声纹识别单元，和哭声检测及分类单元，其中，

信号检测单元，用于采集含有婴儿哭声的音频信号，提取所述音频信号的特征；

声纹识别单元，用于将所述音频信号的特征转换为所述音频的婴儿哭声特征序列，根据设置的不同婴儿哭声特征序列对应婴儿年龄的对应关系，确定所述音频的婴儿哭声特征序列对应的婴儿年龄；

哭声检测及分类单元，用于将所述音频信号的婴儿哭声特征序列输入到设置的对应所述婴儿年龄的哭声类别识别神经网络模型中，输出所述音频信号的特征对应婴儿哭声类别。

一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如上述任一项所述的婴儿哭声的识别方法的步骤。

一种电子设备，包括上述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。

如上可见，本发明实施例在识别婴儿哭声时基于声纹识别技术，采用声纹识别技术对从采集的婴儿哭声的提取特征进行声纹识别，确认该婴儿哭声对应的婴儿年龄；再根据婴儿年龄输入到对应的针对不同婴儿年龄建立的哭声类别识别神经网络模型中，得到该婴儿哭声对应的婴儿哭声类别，从而确认婴儿哭声的具体含义，以确定婴儿对应的各种状况。由于本发明实施例在识别婴儿哭声过程中，采用了相结合的声纹识别技术及神经网络技术，所以识别的准确度及精确度比较高，简单且易于执行。

附图说明

图1为本发明实施例提供的一种婴儿哭声的识别方法流程图；

图2为本发明实施例提供的提取所述音频信号的特征过程示意图；

图3为本发明实施例提供的一种婴儿哭声识别的***结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

采用背景技术提供的方法识别婴儿哭声，采用的是语音识别技术且需要多次匹配才能得到该哭声对应的哭声含义，所以识别精确度及准确度不高，且比较繁琐及困难。为了克服上述缺点，本发明实施例在识别婴儿哭声时基于声纹识别技术，采用声纹识别技术对从采集的婴儿哭声的提取特征进行声纹识别，确认该婴儿哭声对应的婴儿年龄；再根据婴儿年龄输入到对应的针对不同婴儿年龄建立的哭声类别识别神经网络模型中，得到该婴儿哭声对应的哭声类别，从而确认婴儿哭声的具体含义，以确定婴儿对应的各种状况。

由于本发明实施例在识别婴儿哭声过程中，采用了相结合的声纹识别技术及神经网络技术，所以识别的准确度及精确度比较高，简单且易于执行。。

在这里，声纹识别(Voice Print Recognition)作为生物识别的一种，是根据说话人的声波特性进行身份辨别的技术，其与口音及语言无关。本发明实施例就采用这个语音识别技术进行婴儿哭声的年龄分类。

图1为本发明实施例提供的婴儿哭声的识别方法流程图，其具体步骤为：

步骤100、采集含有婴儿哭声的音频信号；

步骤101、提取所述音频信号的特征；

步骤102、采用声纹识别方式将所述音频信号的特征转换为所述音频的婴儿哭声特征序列；

步骤103、设置不同婴儿哭声特征序列对应婴儿年龄的对应关系，根据所述对应关系，确定所述音频的婴儿哭声特征序列对应的婴儿年龄；

步骤104、设置不同婴儿年龄对应的哭声类别识别神经网络模型，将所述音频信号的婴儿哭声特征输入对应所述婴儿年龄的哭声类别识别神经网络模型中，输出得到所述音频信号的特征对应的婴儿哭声类别。

在该方法中，步骤102包括：

在该方法中，由于本发明实施例的目的主要是识别婴儿哭声及对应的婴儿哭声类别，所以步骤100只需要判断是否有声音即可，所以在采集时，可以基于短时能量的方法，具体地说就是计算设定时间段内接收的音频平均能量，当判断大于所设置的能量阈值时，认为需要作为采集的音频信号，进行后续提取过程。

也就是说，步骤100在所述采集含有婴儿哭声的音频信号之前，所述方法包括：

计算设定时间段内接收音频信号的平均能量，判断所述接收的音频信号的平均能量是否超过设置的能量阈值，如果是，确定采集，执行所述采集含有婴儿哭声的音频信号的步骤。

在该方法中，步骤103要采用声纹识别技术，需要匹配的特征，所以在步骤102进行所述音频信号的婴儿哭声特征提取，提取方式可以采用梅尔滤波(Mel)方式提取梅尔频率倒普系数(MFCC)特征，该MFCC特征为多维特征，将该MFCC特征作为所述音频信号的特征。

具体过程如图2所示，图2为本发明实施例提供的提取所述音频信号的特征过程示意图，具体包括：

步骤一，对所述音频信号进行加窗分帧，对其中的高频部分预加重，使得所述音频信号在高频部分的权重加大；对每个窗内的信号点进行傅里叶(FFT)计算，实现从时域信号到频域信号的转换；

步骤二，采用Mel滤波器对转换后的所述音频信号进行滤波，得到所述音频信号的MFFC特征；

Mel滤波器是对人耳频率选择特性的一种模拟滤波器。人耳之所以能从嘈杂的背景噪声中听到语音信号，其中一个原因是因为人的内膜基底膜对外来信号会产生调节作用。对于不同的频率，在相应的临界带宽内的信号会引起基底膜上不同位置的振动，所以可以采用Mel滤波器滤波音频来模仿人耳感觉，减少噪声对婴儿哭声的影响。临界带宽随着频率的变化而变化并与Mel滤波器的Mel频率的增长一致，在1000赫兹(Hz)以下，近似线性分别，带宽约为100赫兹左右；在1000Hz以上带宽呈对数增长。

Mel滤波器滤波公式为：Mel(f)＝1127ln(1+f/700)

在本步骤中，根据临界带的划分，可以将所述信号的频域划分成一系列三角形的滤波器组，称之为Mel频率滤波器组，滤波器组中的每个三角滤波器的跨度与在Mel标度上是相等的。滤波器的带宽覆盖所述音频信号的0～1/2采样率的带宽，其中，第i个滤波器频率响应如公式(1)所示：

其中，f[i]为三角滤波器的中心频率，满足：

Mel(f[i+1])-Mel(f[i-1])＝Mel(f[i])-Mel(f[i-1])

MFCC特征充分利用了人耳听觉原理和倒谱的解相关特性，且MFCC特征具有对卷积性信道失真进行补偿的能力，对上述经过滤波的所述音频进行余弦(DCT)变换，取前N维特征就得到MFCC特征：

y_t＝DCT(log(M[θ](fft(x_t))))。

在该方法的步骤102和步骤103中，分为两个阶段，一个阶段为声纹识别训练阶段，一个阶段为声纹识别阶段。其中，在声纹识别训练阶段设置声纹识别神经网络模型及设置不同婴儿哭声特征序列对应婴儿年龄的对应关系；在声纹识别阶段进行所述音频信号的特征对应的婴儿年龄识别。

在这里，声纹识别是文本无关的声纹识别，在训练阶段只需要标注音频对应的说话人信息，在本发明实施例中训练数据为婴儿的年龄及所对应的所述音频的婴儿哭声特征序列，更进一步地，还可以设置婴儿识别身份及年龄对应的所述音频的婴儿哭声特征序列。具体地说，在声纹识别训练阶段，设置每个婴儿年龄，或者每个婴儿识别身份及年龄对应的多个不同的婴儿哭声音频特征，将不同的婴儿哭声音频特征作为输入，输入到要训练的声纹识别神经网络模型中，输出为婴儿哭声特征序列，并将婴儿哭声特征序列与婴儿年龄的对应关系，或者婴儿识别身份及年龄对应的所述音频的婴儿哭声特征序列的对应关系存储在设置的数据库中。

在声纹识别过程中，就是先将所述音频信号的特征输入到所设置的声纹识别神经网络模型中后输出得到所述音频的婴儿哭声特征序列，根据对应关系，确定对应的婴儿年龄。进一步地，也可以根据婴儿身份识别的对应关系确定婴儿识别身份。

从上述描述可以看出，本发明实施例的声纹识别神经网络模型可以采用前馈型神经网络、反馈型神经网络或自组织特征映射神经网络，诸如BP或RNN等类型的神经网络，主要包括输入层、隐藏层及输出层，隐藏层是由多层的卷积函数算法层构成的。在设置时，需要对声纹识别神经网络模型进行训练，即将不同的音频信号的特征训练样本输入到声纹识别神经网络模型中，然后输出对应的音频的婴儿哭声特征序列，将输出的音频的婴儿哭声特征序列，及不同的音频信号的特征训练样本真正对应的音频的婴儿哭声特征序列相比较，确定两者的差别信息，然后根据差别信息对声纹识别神经网络模型中的隐藏层的卷积函数算法进行调整，直到声纹识别神经网络模型的识别准确，

在训练完成后，就可以将提取的所述音频信号的特征输入到设置的声纹识别神经网络模型中进行处理，最终输出得到准确的音频的婴儿哭声特征序列。

在该方法的步骤104中，所设置的哭声类别识别神经网络模型分为输入层、输出层及若干隐藏层，输入层输入的就是所述音频的婴儿哭声特征序列，经过模型中的若干隐藏层，输出层包括了各种婴儿哭声类别，还包括非哭声类别以及表征模糊的且不知含义的哭声类别。也就是说，输出层的输出个数为婴儿哭声类别个数加2，输出层的个数加2包括了非哭声类别以及表征模糊的且不知含义的哭声类别。

本发明实施例的哭声类别识别神经网络模型可以采用前馈型神经网络、反馈型神经网络或自组织特征映射神经网络，诸如BP或RNN等类型的神经网络，其中的隐藏层是由多层的卷积函数算法层构成的。在设置时，需要对哭声类别识别神经网络模型进行训练，即将不同的音频信号的婴儿哭声特征序列训练样本输入到哭声类别识别神经网络模型中，然后输出对应的婴儿哭声类别，将输出的婴儿哭声类别，及不同的音频信号的婴儿哭声特征序列训练样本真正对应的婴儿哭声类别相比较，确定两者的差别信息，然后根据差别信息对哭声类别识别神经网络模型中的隐藏层的卷积函数算法层进行调整，直到哭声类别识别神经网络模型的识别准确，

在训练完成后，就可以将转换得到的所述音频的婴儿哭声特征序列输入到设置的哭声类别识别神经网络模型中进行处理，最终输出得到准确的婴儿哭声类别。

在该方法的步骤104中，还包括：当未输出所述音频信号的特征对应的婴儿哭声类别时，可以输出所述音频信号的特征对应的非婴儿哭声类别，或不知含义的婴儿哭声类别。

在这里，哭声类别识别神经网络模型中的输出层输出的是每个婴儿哭声类别所对应的概率，这个模型是针对不同婴儿年龄训练建立的。因此，输出所述音频信号的特征对应婴儿哭声类别也是针对每个婴儿类别的输出概率。

在该方法中，所述输出所述音频信号的特征对应婴儿哭声类别包括：

获取得到对应婴儿哭声类别的输出概率；将所述对应婴儿哭声类别的输出概率进行平滑处理后，作为所述音频信号的特征对应婴儿哭声类别。

在这里，考虑到婴儿哭声持续时间比较长，所述平滑处理可以提高最终确认的婴儿哭声类别准确性。所述平滑处理可以采用滤波等方式，去除不必要的概率分量。

在该方法中，所述婴儿年龄可以分为几个阶段，比如将婴儿年龄分为0个月～6个月，6个月～12个月，12～24个月以上这五个类别，这样，就会设置对应不同婴儿年龄的5个的哭声类别识别神经网络模型。

图3为本发明实施例提供的婴儿哭声的识别***结构示意图，包括：信号检测单元、特征提取单元、声纹识别单元，和哭声检测及分类单元，其中，

在该***中，还包括后处理单元，用于输出的所述音频信号的特征对应婴儿哭声类别为对应婴儿哭声的概率时，对所述对应婴儿哭声的概率进行平滑处理。

在该***中，所述声纹识别单元，还用于设置声纹识别神经网络模型，将所述音频信号的特征输入到设置的声纹识别神经网络模型中，输出所述音频的婴儿哭声特征序列。

在该***中，所述信号检测单元，还用于计算设定时间段内接收音频信号的平均能量，判断所述接收的音频信号的平均能量是否超过设置的能量阈值，如果是，执行所述采集含有婴儿哭声的音频信号的步骤。

在该***中，所述信号检测单元，还用于采用梅尔Mel滤波方式提取梅尔频率倒普系数MFCC特征，将MFCC特征作为所述音频信号的特征。

在该***中，所述声纹识别单元，还用于设置不同婴儿哭声特征序列对应婴儿识别身份的对应关系，确定所述音频的婴儿哭声特征序列对应的婴儿识别身份。

在该***中，哭声检测及分类单元，还用于当未输出所述音频信号的特征对应的婴儿哭声类别时，输出所述音频信号的特征对应的非婴儿哭声类别，或不知含义的哭声类别。

在该***中，哭声检测及分类单元，还用于输出所述音频信号的特征对应婴儿哭声类别包括：获取得到对应婴儿哭声类别的输出概率；

该***还包括后处理单元，用于输出的所述音频信号的特征对应婴儿哭声类别为对应婴儿哭声的概率时，对所述对应婴儿哭声的概率进行平滑处理。

在本发明实施例中，还包括一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行上述婴儿哭声的识别方法的步骤。

在本发明实施例中，还包括一种电子设备，执行上述非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。

可以看出，本发明实施例提供的方法及***，可以基于声纹识别技术识别婴儿年龄，根据婴儿年龄分类采用对应的哭声类别识别神经网络确定婴儿哭声类别，从而得到更加准确的婴儿哭声检测和分类结果。本发明实施例采用深度学习构造的哭声类别识别神经网络模型，实现婴儿哭声的类别分类，这不需要预设对应关系，并且将婴儿的哭声检测和分类两个任务结合在一个任务中完成，灵活准确。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种婴儿哭声的识别方法，其特征在于，包括：

采集含有婴儿哭声的音频信号；

提取所述音频信号的特征；

采用声纹识别方式将所述音频信号的特征转换为所述音频的婴儿哭声特征序列；根据设置的不同婴儿哭声特征序列对应婴儿年龄的对应关系，确定所述音频的婴儿哭声特征序列对应的婴儿年龄；

2.如权利要求1所述的方法，其特征在于，所述采用声纹识别方式将所述音频信号的特征转换为所述音频的婴儿哭声特征序列包括：

3.如权利要求1所述的方法，其特征在于，在所述采集含有婴儿哭声的音频信号之前，所述方法包括：

4.如权利要求1所述的方法，其特征在于，所述提取所述音频信号的特征包括：

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，所述输出所述音频信号的特征对应婴儿哭声类别包括：

获取得到对应婴儿哭声类别的输出概率；

8.一种婴儿哭声的识别***，其特征在于，包括：信号检测单元、特征提取单元、声纹识别单元，和哭声检测及分类单元，其中，

9.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至7中任一项所述的婴儿哭声的识别方法的步骤。

10.一种电子设备，其特征在于，包括如权利要求10所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。