CN108461091A

CN108461091A - 面向家居环境的智能哭声检测方法

Info

Publication number: CN108461091A
Application number: CN201810208673.4A
Authority: CN
Inventors: 张晖; 毛小旺
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2018-08-28

Abstract

本发明揭示了一种面向家居环境的智能哭声检测方法，本方法首先建立样本数据库，并对样本库中的数据进行分类训练GMM模型，再以GMM模型各个分量的均值参数，作为SVM模型的训练样本，训练出混合识别GMM‑SVM模型。本方法可在智能终端本地进行哭声检测，摆脱对服务端的依赖，大大缩短了检测周期，提升用户的业务体验。此外，本方法中的模型充分考虑了同类音频数据之间的相似性和不同类数据之间的差异性，比单模型判决***具有更佳的识别准确率，且识别速率也能极大提升，为哭声检测产品中提供了优秀的解决方案。

Description

面向家居环境的智能哭声检测方法

技术领域

本发明涉及一种检测方法，具体涉及一种面向家居环境的智能哭声检测方法，属于智能家居领域。

背景技术

近年来，随着人工智能、机器学***的提高，而日益增长的个性化、定制化的业务需求。

具体而言，婴幼儿是家庭的重要成员，需要得到家长的额外照顾。又由于其身心仍处于发育阶段、尚未成熟，因此对于新生婴儿来说，妥善的照顾是不可或缺的。一般而言，新生婴儿仅能藉由哭泣的方式表达情绪与需求，而在不同的情绪或需求下其所发出的哭声也有所不同。因此，婴儿的父母或照护人可以依据新生婴儿的哭声来概略判断婴儿的需求与情绪，进而采取不同的行动。

正是由于上述两方面的原因，针对年轻父母因工作或家务繁忙，容易对新生婴儿疏于看护的社会现象，目前市面上出现了多种智能哭声检测技术，也有厂商研发了相关的婴儿哭声检测产品，如小米公司的小蚁摄像头、360公司的水滴摄像机等，但此类产品大都采用的是“本地+云端”检测架构，检测周期长，对网络质量要求高；而智能终端本地只进行一些简单功能实现，过度依赖于服务端。此类产品虽然都贴上智能化的标签，但更确切的说，应该是“伪智能”。

综上所述，如何克服上述现有技术上的不足，提出一种面向家居环境的智能哭声检测方法，进而使产品摆脱对云端的依赖，缩短检测周期，提升用户的业务体验，就成为了本领域内的技术人员亟待解决的问题。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种面向家居环境的智能哭声检测方法。

本发明的目的，将通过以下技术方案得以实现：

一种面向家居环境的智能哭声检测方法，包括如下步骤，

S1，采集哭声与非哭声语音信号，分两类存入样本库；并对样本库中各类语音信号进行预处理，得到各类语音信号对应的语音帧序列；

S2，对S1中所述语音帧序列中每一帧，提取24维的音频特征，得到各类语音信号对应特征向量序列；

S3，以S2中所述特征向量序列，作为GMM训练样本，采用EM算法，分别训练哭声GMM模型和非哭声GMM模型；并提取训练好的GMM模型中各个高斯分量的均值参数，组成均值向量序列；

S4，对S3所述均值向量序列中每一个向量，添加类别标签，并保存到均值特征样本集；并以均值特征样本集作为训练样本，训练SVM模型；

S5，采集待识别的音频信号，并按照S1至S2的方法，提取信号对应的音频特征序列；其次，将音频特征序列中每一帧信号，与S3中所述均值向量序列中每一个均值向量，计算二者的似然概率，取概率最大值所对应的均值向量，作为GMM模型对该帧信号的判决结果；最后，遍历音频特征序列中所有帧，得到均值向量序列X＝{X₁,X₂,...,X_p,...,X_L}；其中，X_p为第p帧信号对应的均值向量，L为音频特征序列长度；

S6，将S5中所述均值向量序列X＝{X₁,X₂,...,X_p,...,X_L}，输入SVM模型，逐帧进行判决，最后将每帧判决结果h(X_p)，按照下式进行累加求均值，得到最终音频文件的识别结果R；

其中，h(X_p)为SVM模型判决函数，输出值为1或-1；若R取值为正，则待识别音频信号判决为哭声；若R取值为负，则待识别音频信号判决为非哭声。

优选地，S1中所述对各类语音信号进行预处理，具体包括如下步骤，

S201，将采集到的各类语音信号，转换成对应数字信号，分两类存入样本库；

S202，对S201所述数字信号，依次进行归一化、预加重、分帧、加窗处理后，得到各类语音信号对应的语音帧序列。

优选地，S2中所述对语音帧序列中每一帧信号，提取24维的音频特征，具体包括如下步骤，

S301，对语音帧序列中每一帧信号，经过FFT变换、Mel滤波器组、对数变换、DCT变换后提取12维的MFCC特征C(m)；

其中，C_i(m)代表语音帧序列中第i帧信号的MFCC特征，1≤i≤L，L为音频帧序列长度；m为特征分量的标号，1≤m≤12；

S302，对S301所述MFCC特征C(m)，按照如下差分公式，计算12维差分MFCC特征ΔC(m)；

其中，ΔC_l(m)代表音频帧序列中第l帧信号的差分MFCC特征，2≤l≤L-2，-2≤k≤2；

S303，将S301与S302所述特征合并，组成24维的音频特征C＝{c₁,c₂,.._w.c,,₂.c₄.，.,1≤w}≤24。

优选地，S3中所述用特征向量序列训练GMM模型过程中，采用改进的K-means方法对GMM模型进行初始化，具体包括如下步骤，

S401，根据GMM设置的分量数M，从特征向量序列中，随机选取M个聚类中心点O＝{O₁,O₂,...,O_j,...,O_M}；其中，O_j表示第j个聚类中心，是24维向量；

S402，计算特征向量序列中，第n帧特征向量C_n＝{c_n1,c_n2,...,c_nw,...,c_n2}₄中数据的方差其中，1≤w≤24；

S403，采用如下所示加权的欧氏距离公式，比较第n帧特征向量与各个聚类中心的距离Dis(n,O_j)，1≤j≤M，选取最小距离对应的聚类中心，作为第n帧特征向量的聚类结果；

S404，对特征向量序列中所有帧，执行S402至S403操作，得到所有帧的聚类结果；

S405，重新划分每个类的聚类中心，以每个类所包含特征向量的均值作为该类新的聚类中心；并计算新、旧聚类中心的欧式距，是否小于0.001；若是，初始化过程结束；否则，继续迭代进行S402至S404的处理步骤，直至满足新、旧聚类中心的欧式距小于0.001的条件。

与现有技术相比，本发明的突出效果为：本发明所提及的面向家居环境的智能哭声检测方法能够帮助哭声检测产品在智能终端本地实现哭声检测的功能，从而使其摆脱了对云端的依赖，大大缩短了检测周期，提升用户的业务体验。本发明中所使用的混合模型充分考虑了同类音频数据之间的相似性和不同类数据之间的差异性，比单模型判决***具有更佳的识别准确率，且识别速率也能极大提升，为市面上的各类哭声检测产品提供了优秀的解决方案。

综上所述，本发明使用效果良好，具有很高的使用及推广价值。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明提供的面向家居环境的智能哭声检测技术流程图。

具体实施方式

为了更加详细的描述本发明提出的一种面向家居环境的智能哭声检测技术。结合附图，举例说明如下：

图1显示了本发明提出的一种面向家居环境的智能哭声检测技术流程图，具体执行步骤如下：

步骤S101，采集哭声与非哭声语音信号，分两类存入样本库；并对样本库中各类语音信号进行预处理，得到各类语音信号对应的语音帧序列；具体为：

1.1，将采集到的各类语音信号，转换成对应数字信号，分两类存入样本库；

1.2，对上一步获取的数字信号，依次进行归一化、预加重、分帧、加窗处理后，得到各类语音信号对应的语音帧序列。

步骤S102，对步骤S101所述语音帧序列中每一帧，提取MFCC+差分MFCC特征共24维，得到各类语音信号对应特征向量序列；具体为：

2.1，对语音帧序列中每一帧信号，经过FFT变换、Mel滤波器组、对数变换、DCT变换后提取12维的MFCC特征C(m)；其中，C_i(m)代表语音帧序列中第i帧信号的MFCC特征，1≤i≤L，L为音频帧序列长度；m为特征分量的标号，1≤m≤12；

2.2，对S301所述MFCC特征C(m)，按照如下差分公式，计算12维差分MFCC特征ΔC(m)；

2.3，将上述两个步骤所提取到的特征进行合并，组成24维的音频特征向量C＝{c₁,c₂,...,c_w,...,c₂₄}，1≤w≤24。

步骤S103，以步骤S102所述特征向量序列，作为GMM训练样本，分别训练哭声GMM模型和非哭声GMM模型；并提取训练好的GMM模型中各个高斯分量的均值参数，组成均值向量序列；具体为：

设置GMM模型的混合分量数为16，对GMM模型训练之前先采用改进的K-means算法对GMM进行参数初始化，挑选出各个分量的初始权重、均值、方差，初始化方法如下

3.1，根据GMM设置的分量数M，从特征向量序列中，随机选取M个聚类中心点O＝{O₁,O₂,...,O_j,...,O_M}；其中，O_j表示第j个聚类中心，是24维向量；

3.2，计算特征向量序列中，第n帧特征向量C_n＝{c_n1,c_n2,...,c_nw,...,c_n24}中数据的方差其中，1≤w≤24；

3.3，采用如下所示加权的欧氏距离公式，比较第n帧特征向量与各个聚类中心的距离Dis(n,O_j)，1≤j≤M，选取最小距离对应的聚类中心，作为第n帧特征向量的聚类结果；

3.4，对特征向量序列中所有帧，执行步骤3.2至3.3操作，得到所有帧的聚类结果；

3.5，重新划分每个类的聚类中心，以每个类所包含特征向量的均值作为该类新的聚类中心；并计算新、旧聚类中心的欧式距，是否小于0.001；若是，初始化过程结束；否则，继续迭代进行S402至S404的处理步骤，直至满足新、旧聚类中心的欧式距小于0.001的条件。

步骤S104，对步骤S103所述均值向量序列中每一个向量，分别添加哭声或非哭声类别标签，并保存到均值特征样本集；并以均值特征样本集作为训练样本，训练SVM模型；

步骤S105，采集待识别的音频信号，并按照步骤S101至S102的方法，提取信号对应的音频特征序列；其次，将音频特征序列中每一帧信号，与步骤S103中所述均值向量序列中每一个均值向量，计算二者的似然概率，取概率最大值所对应的均值向量，作为GMM模型对该帧信号的判决结果；最后，遍历音频特征序列中所有帧，得到均值向量序列X＝{X₁,X₂,...,X_p,...,X_L}；其中，X_p为第p帧信号对应的均值向量，L为音频特征序列长度；

步骤S106，将步骤5中所述均值向量序列X＝{X₁,X₂,...,X_p,...,X_L}，输入SVM模型，逐帧进行判决，最后将每帧判决结果h(X_p)，按照下式进行累加求均值，得到最终音频文件的识别结果R；

综上所述，本发明所提及的面向家居环境的智能哭声检测方法能够帮助哭声检测产品在智能终端本地实现哭声检测的功能，从而使其摆脱了对云端的依赖，大大缩短了检测周期，提升用户的业务体验。本发明中的方法首先需要建立样本数据库，并对样本库中的数据进行分类训练，得到哭声与非哭声GMM模型，再以两个GMM模型中各个分量的均值参数，作为SVM模型的训练样本，训练出混合识别GMM-SVM模型。此模型充分考虑了同类音频数据之间的相似性和不同类数据之间的差异性，比单模型判决***具有更佳的识别性能，为在智能家居产品中实现哭声检测功能，提供了优秀的技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种面向家居环境的智能哭声检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的面向家居环境的智能哭声检测方法，其特征在于，S1中所述对各类语音信号进行预处理，具体包括如下步骤：

3.根据权利要求1所述的面向家居环境的智能哭声检测方法，其特征在于，S2中所述对语音帧序列中每一帧信号，提取24维的音频特征，具体包括如下步骤：

S303，将S301与S302所述特征合并，组成24维的音频特征C＝{c₁,c₂,...,c_w,...,c₂₄}，1≤w≤24。

4.根据权利要求1所述的面向家居环境的智能哭声检测方法，其特征在于，S3中所述用特征向量序列训练GMM模型过程中，采用改进的K-means方法对GMM模型进行初始化，具体包括如下步骤：

S402，计算特征向量序列中，第n帧特征向量

C_n＝{c_n1,c_n2,...,c_nw,...,c_n24}

中数据的方差其中，1≤w≤24；