CN104347066B

CN104347066B - 基于深层神经网络的婴儿啼哭声识别方法及***

Info

Publication number: CN104347066B
Application number: CN201310347807.8A
Authority: CN
Inventors: 景亚鹏; 张峰; 吴义坚
Original assignee: Shanghai Zhangmen Science and Technology Co Ltd
Current assignee: Shanghai Zhangmen Science and Technology Co Ltd
Priority date: 2013-08-09
Filing date: 2013-08-09
Publication date: 2019-11-12
Anticipated expiration: 2033-08-09
Also published as: CN104347066A

Abstract

本发明提供了一种基于深层神经网络的婴儿啼哭声识别方法及***，所述方法包括采集训练用婴儿啼哭声数据；对所述训练用婴儿啼哭声数据进行分类标注；提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件；根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值；根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型；采集待识别的婴儿啼哭声数据，提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数；根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别，能够提高对婴儿啼哭声的识别率。

Description

基于深层神经网络的婴儿啼哭声识别方法及***

技术领域

本发明涉及一种基于深层神经网络的婴儿啼哭声识别方法及***。

背景技术

婴儿啼哭声识别的研究自上个世纪六七十年代就已出现，限于之前的技术水平和数据规模，有应用前景的产品和技术不多，少量面市的产品也大多存在识别性能不可靠、技术含量低等缺点。这一方面是由于历史上婴儿啼哭声数据采集和标注的规模较小，有的甚至只有几十段音频，通常只能对差异度特别大的哭声类型进行有效识别，如健康婴儿和聋儿哭声的识别，难以充分挖掘婴儿啼哭声背后的规律，对更多状态的区分可靠性不高；另一方面是由于之前做婴儿哭声识别多是采用普通神经网络模型，普通神经网络的建模能力有限，不能充分对婴儿啼哭声建模，因而对有限状态的识别率也不高，很少有成功应用。

发明内容

本发明的目的在于提供一种基于深层神经网络的婴儿啼哭声识别方法及***，能够提高对婴儿啼哭声的识别率。

为解决上述问题，本发明提供一种基于深层神经网络的婴儿啼哭声识别方法，包括：

采集训练用婴儿啼哭声数据；

对所述训练用婴儿啼哭声数据进行分类标注；

提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件；

根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值；

根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型；

采集待识别的婴儿啼哭声数据，提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数；

根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别。

进一步的，在上述方法中，对所述训练用婴儿啼哭声数据进行分类标注的步骤之前还包括：

对所述训练用婴儿啼哭声数据进行剔除噪音和背景说话声的预处理。

进一步的，在上述方法中，所述分类标注包括病理性婴儿啼哭声和非病理性婴儿啼哭声。

进一步的，在上述方法中，根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值的步骤中，

从第四层开始的每一层初始权值包括：从第一层至第N-2层中相邻两层之间的第一权值以及从第N-2层至第N层中相邻两层之间的随机权值，其中，N为待获取初始权值的当前层的层数，N为大于等于四的正整数。

进一步的，在上述方法中，根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值的步骤中，采用逐层预训练的方式得到深层神经网络的层数为九层。

根据本发明的另一面，提供一种基于深层神经网络的婴儿啼哭声识别***，包括：

第一采集模块，用于采集训练用婴儿啼哭声数据；

标注模块，用于对所述训练用婴儿啼哭声数据进行分类标注；

第一提取模块，用于提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件；

初始权值模块，用于根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值；

哭声模型模块，用于根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型；

第二采集模块，用于采集待识别的婴儿啼哭声数据，提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数；

哭声识别器模块，用于根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别。

进一步的，在上述***中，所述标注模块，还用于在对所述训练用婴儿啼哭声数据进行分类标注之前，对所述训练用婴儿啼哭声数据进行剔除噪音和背景说话声的预处理。

进一步的，在上述***中，所述标注模块进行的所述分类标注包括病理性婴儿啼哭声和非病理性婴儿啼哭声。

进一步的，在上述***中，所述初始权值模块得到深层神经网络中从第四层开始的每一层初始权值包括：从第一层至第N-2层中相邻两层之间的第一权值以及从第N-2层至第N层中相邻两层之间的随机权值，其中，N为待获取初始权值的当前层的层数，N为大于等于四的正整数。

进一步的，在上述***中，所述初始权值模块采用逐层预训练的方式得到深层神经网络的层数为九层。

与现有技术相比，本发明通过采集训练用婴儿啼哭声数据；对所述训练用婴儿啼哭声数据进行分类标注；提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件；根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值；根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型；采集待识别的婴儿啼哭声数据，提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数；根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别，能够提高对婴儿啼哭声的识别率。

附图说明

图1是本发明一实施例的基于深层神经网络的婴儿啼哭声识别方法的流程图；

图2是本发明一实施例的基于深层神经网络的婴儿啼哭声识别***的模块图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本发明提供一种基于深层神经网络的婴儿啼哭声识别方法，包括步骤S1～步骤S8。

步骤S1，采集训练用婴儿啼哭声数据；

优选的，步骤S3之前还可包括：

步骤S2，对所述训练用婴儿啼哭声数据进行剔除噪音和背景说话声的预处理。

步骤S3，对所述训练用婴儿啼哭声数据进行分类标注；

优选的，所述分类标注包括病理性婴儿啼哭声和非病理性婴儿啼哭声。具体的，婴儿啼哭声数据的采集和分类标注可在专业的儿童医院进行，对每个婴儿录制约2分钟的哭声音频，由育儿专家确定婴儿啼哭时的原因，将所有原因归为病理性和非病理性两类，并对音频进行标记。得到全部录音数据后，对数据进行筛选，剔除噪音太多、说话声太多等不符合要求的数据，从而生成数据量较全的婴儿啼哭声数据库。

步骤S4，提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数（MFCC）以生成训练用数据文件；具体的，得到训练用婴儿啼哭声数据后，提取每段音频的MFCC参数，加上标注后生成训练用数据文件，可将文件中每连续11帧的特征数据合并，以充分利用连续多帧的相关性信息。

步骤S5，根据所述训练用数据文件并采用逐层预训练的方式（layer-wise pre-training）得到深层神经网络中每一层的初始权值；

优选的，步骤S5中，从第四层开始的每一层初始权值包括：从第一层至第N-2层中相邻两层之间的第一权值以及从第N-2层至第N层中相邻两层之间的随机权值，其中，N为待获取初始权值的当前层的层数，N为大于等于四的正整数。

较佳的，步骤S5中，采用逐层预训练的方式得到深层神经网络（DNN）的层数为九层。

具体的，步骤S5为预训练阶段，采用逐层预训练的方式得到深层神经网络的初始权值，即从三层网络开始进行有监督的神经网络训练，然后增加到四层网络，其中，第四层网络的初始权值包含了第三层网络训练得到的第一二层之间的第一权值w₁₂和两层随机权值r_w₂₃和r_w₃₄……依此类推，直到第九层神经网络。为叙述方便起见，上述权值也包含偏置，即输出恒为1的结点与其他层结点的连接权值。详细的，以九层的深层神经网络来说，第四层网络的初始权值包含了第三层网络训练得到的第一二层之间的第一权值w₁₂和两层随机权值r_w₂₃、r_w₃₄，第五层网络的初始权值包含了第四层网络训练得到的第一二三层之间的第一权值w_12、w₂₃和两层随机权值r_w₃₄、r_w₄₅，第六层网络的初始权值包含了第五层网络训练得到的第一二三四层之间的第一权值w_12、w_23、w₃₄和两层随机权值r_w₄₅、r_w₅₆，第七层网络的初始权值包含了第六层网络训练得到的第一二三四五层之间的第一权值w_12、w_23、w_34、w₄₅和两层随机权值r_w₅₆、r_w₆₇，第八层网络的初始权值包含了第七层网络训练得到的第一二三四五六层之间的第一权值w_12、w_23、w_34、w_45、w₅₆和两层随机权值r_w₆₇、r_w₇₈，第九层网络的初始权值包含了第八层网络训练得到的第一二三四五六七层之间的第一权值w_12、w_23、w_34、w_45、w_56、w₆₇和两层随机权值r_w₇₈、r_w₈₉。

步骤S6，根据深层神经网络中所有层的初始权值并采用BP算法（back-propagation algorithm）获取所述深层神经网络的哭声模型；具体的，步骤S6为正式训练阶段，采用预训练阶段得到的多层神经网络如九层的初始权值进行标准的BP神经网络训练。

步骤S7，采集待识别的婴儿啼哭声数据，提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数；

步骤S8，根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别。

本实施例利用利用逐层预训练的方式（layer-wise pre-training）得到深层神经网络的初始权值，然后用传统的BP算法（back-propagation algorithm）训练该深层神经网络得到最终的网络模型以用于识别，能够利用深层神经网络对婴儿啼哭声做出病理性和非病理性识别，与普通神经网络模型相比，识别率有较大提升。

实施例二

如图2所示，本发明还提供另一种基于深层神经网络的婴儿啼哭声识别***，包括第一采集模块1、标注模块2、第一提取模块3、初始权值模块4、哭声模型模块5、第二采集模块6、哭声识别器模块7。

第一采集模块1，用于采集训练用婴儿啼哭声数据；

标注模块2，用于对所述训练用婴儿啼哭声数据进行分类标注；

优选的，所述标注模块2，还用于在对所述训练用婴儿啼哭声数据进行分类标注之前，对所述训练用婴儿啼哭声数据进行剔除噪音和背景说话声的预处理。

较佳的，所述标注模块2进行的所述分类标注包括病理性婴儿啼哭声和非病理性婴儿啼哭声。

第一提取模块3，用于提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件；

初始权值模块4，用于根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值；

优选的，所述初始权值模块4得到深层神经网络中从第四层开始的每一层初始权值包括：从第一层至第N-2层中相邻两层之间的第一权值以及从第N-2层至第N层中相邻两层之间的随机权值，其中，N为待获取初始权值的当前层的层数，N为大于等于四的正整数。

较佳的，所述初始权值模块4采用逐层预训练的方式得到深层神经网络的层数为九层。

哭声模型模块5，用于根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型；

第二采集模块6，用于采集待识别的婴儿啼哭声数据，提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数；

哭声识别器模块7，用于根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别。

本实施例二的其它详细内容具体可参见实施例一的相应部分，在此不再赘述。

综上所述，本发明通过采集训练用婴儿啼哭声数据；对所述训练用婴儿啼哭声数据进行分类标注；提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件；根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值；根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型；采集待识别的婴儿啼哭声数据，提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数；根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别，能够提高对婴儿啼哭声的识别率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于深层神经网络的婴儿啼哭声识别方法，其特征在于，包括：

采集训练用婴儿啼哭声数据；

对所述训练用婴儿啼哭声数据进行分类标注；

根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别，

其中，根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值的步骤中，

从第四层开始的每一层初始权值包括：从第一层至第N-2层中各相邻两层之间的第一权值以及从第N-2层至第N层中各相邻两层之间的随机权值，其中，N为待获取初始权值的当前层的层数，N为大于等于四的正整数。

2.如权利要求1所述的基于深层神经网络的婴儿啼哭声识别方法，其特征在于，对所述训练用婴儿啼哭声数据进行分类标注的步骤之前还包括：

3.如权利要求1所述的基于深层神经网络的婴儿啼哭声识别方法，其特征在于，所述分类标注包括病理性婴儿啼哭声和非病理性婴儿啼哭声。

4.如权利要求1所述的基于深层神经网络的婴儿啼哭声识别方法，其特征在于，根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值的步骤中，采用逐层预训练的方式得到深层神经网络的层数为九层。

5.一种基于深层神经网络的婴儿啼哭声识别***，其特征在于，包括：

第一采集模块，用于采集训练用婴儿啼哭声数据；

哭声识别器模块，用于根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别，

其中，所述初始权值模块得到深层神经网络中从第四层开始的每一层初始权值包括：从第一层至第N-2层中各相邻两层之间的第一权值以及从第N-2层至第N层中各相邻两层之间的随机权值，其中，N为待获取初始权值的当前层的层数，N为大于等于四的正整数。

6.如权利要求5所述的基于深层神经网络的婴儿啼哭声识别***，其特征在于，所述标注模块，还用于在对所述训练用婴儿啼哭声数据进行分类标注之前，对所述训练用婴儿啼哭声数据进行剔除噪音和背景说话声的预处理。

7.如权利要求5所述的基于深层神经网络的婴儿啼哭声识别***，其特征在于，所述标注模块进行的所述分类标注包括病理性婴儿啼哭声和非病理性婴儿啼哭声。

8.如权利要求5所述的基于深层神经网络的婴儿啼哭声识别***，其特征在于，所述初始权值模块采用逐层预训练的方式得到深层神经网络的层数为九层。