CN104347066B - 基于深层神经网络的婴儿啼哭声识别方法及*** - Google Patents

基于深层神经网络的婴儿啼哭声识别方法及*** Download PDF

Info

Publication number
CN104347066B
CN104347066B CN201310347807.8A CN201310347807A CN104347066B CN 104347066 B CN104347066 B CN 104347066B CN 201310347807 A CN201310347807 A CN 201310347807A CN 104347066 B CN104347066 B CN 104347066B
Authority
CN
China
Prior art keywords
layer
network
training
neural
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310347807.8A
Other languages
English (en)
Other versions
CN104347066A (zh
Inventor
景亚鹏
张峰
吴义坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhangmen Science and Technology Co Ltd
Original Assignee
Shanghai Zhangmen Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhangmen Science and Technology Co Ltd filed Critical Shanghai Zhangmen Science and Technology Co Ltd
Priority to CN201310347807.8A priority Critical patent/CN104347066B/zh
Publication of CN104347066A publication Critical patent/CN104347066A/zh
Application granted granted Critical
Publication of CN104347066B publication Critical patent/CN104347066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深层神经网络的婴儿啼哭声识别方法及***,所述方法包括采集训练用婴儿啼哭声数据;对所述训练用婴儿啼哭声数据进行分类标注;提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件;根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值;根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型;采集待识别的婴儿啼哭声数据,提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数;根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别,能够提高对婴儿啼哭声的识别率。

Description

基于深层神经网络的婴儿啼哭声识别方法及***
技术领域
本发明涉及一种基于深层神经网络的婴儿啼哭声识别方法及***。
背景技术
婴儿啼哭声识别的研究自上个世纪六七十年代就已出现,限于之前的技术水平和数据规模,有应用前景的产品和技术不多,少量面市的产品也大多存在识别性能不可靠、技术含量低等缺点。这一方面是由于历史上婴儿啼哭声数据采集和标注的规模较小,有的甚至只有几十段音频,通常只能对差异度特别大的哭声类型进行有效识别,如健康婴儿和聋儿哭声的识别,难以充分挖掘婴儿啼哭声背后的规律,对更多状态的区分可靠性不高;另一方面是由于之前做婴儿哭声识别多是采用普通神经网络模型,普通神经网络的建模能力有限,不能充分对婴儿啼哭声建模,因而对有限状态的识别率也不高,很少有成功应用。
发明内容
本发明的目的在于提供一种基于深层神经网络的婴儿啼哭声识别方法及***,能够提高对婴儿啼哭声的识别率。
为解决上述问题,本发明提供一种基于深层神经网络的婴儿啼哭声识别方法,包括:
采集训练用婴儿啼哭声数据;
对所述训练用婴儿啼哭声数据进行分类标注;
提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件;
根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值;
根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型;
采集待识别的婴儿啼哭声数据,提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数;
根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别。
进一步的,在上述方法中,对所述训练用婴儿啼哭声数据进行分类标注的步骤之前还包括:
对所述训练用婴儿啼哭声数据进行剔除噪音和背景说话声的预处理。
进一步的,在上述方法中,所述分类标注包括病理性婴儿啼哭声和非病理性婴儿啼哭声。
进一步的,在上述方法中,根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值的步骤中,
从第四层开始的每一层初始权值包括:从第一层至第N-2层中相邻两层之间的第一权值以及从第N-2层至第N层中相邻两层之间的随机权值,其中,N为待获取初始权值的当前层的层数,N为大于等于四的正整数。
进一步的,在上述方法中,根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值的步骤中,采用逐层预训练的方式得到深层神经网络的层数为九层。
根据本发明的另一面,提供一种基于深层神经网络的婴儿啼哭声识别***,包括:
第一采集模块,用于采集训练用婴儿啼哭声数据;
标注模块,用于对所述训练用婴儿啼哭声数据进行分类标注;
第一提取模块,用于提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件;
初始权值模块,用于根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值;
哭声模型模块,用于根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型;
第二采集模块,用于采集待识别的婴儿啼哭声数据,提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数;
哭声识别器模块,用于根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别。
进一步的,在上述***中,所述标注模块,还用于在对所述训练用婴儿啼哭声数据进行分类标注之前,对所述训练用婴儿啼哭声数据进行剔除噪音和背景说话声的预处理。
进一步的,在上述***中,所述标注模块进行的所述分类标注包括病理性婴儿啼哭声和非病理性婴儿啼哭声。
进一步的,在上述***中,所述初始权值模块得到深层神经网络中从第四层开始的每一层初始权值包括:从第一层至第N-2层中相邻两层之间的第一权值以及从第N-2层至第N层中相邻两层之间的随机权值,其中,N为待获取初始权值的当前层的层数,N为大于等于四的正整数。
进一步的,在上述***中,所述初始权值模块采用逐层预训练的方式得到深层神经网络的层数为九层。
与现有技术相比,本发明通过采集训练用婴儿啼哭声数据;对所述训练用婴儿啼哭声数据进行分类标注;提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件;根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值;根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型;采集待识别的婴儿啼哭声数据,提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数;根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别,能够提高对婴儿啼哭声的识别率。
附图说明
图1是本发明一实施例的基于深层神经网络的婴儿啼哭声识别方法的流程图;
图2是本发明一实施例的基于深层神经网络的婴儿啼哭声识别***的模块图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本发明提供一种基于深层神经网络的婴儿啼哭声识别方法,包括步骤S1~步骤S8。
步骤S1,采集训练用婴儿啼哭声数据;
优选的,步骤S3之前还可包括:
步骤S2,对所述训练用婴儿啼哭声数据进行剔除噪音和背景说话声的预处理。
步骤S3,对所述训练用婴儿啼哭声数据进行分类标注;
优选的,所述分类标注包括病理性婴儿啼哭声和非病理性婴儿啼哭声。具体的,婴儿啼哭声数据的采集和分类标注可在专业的儿童医院进行,对每个婴儿录制约2分钟的哭声音频,由育儿专家确定婴儿啼哭时的原因,将所有原因归为病理性和非病理性两类,并对音频进行标记。得到全部录音数据后,对数据进行筛选,剔除噪音太多、说话声太多等不符合要求的数据,从而生成数据量较全的婴儿啼哭声数据库。
步骤S4,提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数(MFCC)以生成训练用数据文件;具体的,得到训练用婴儿啼哭声数据后,提取每段音频的MFCC参数,加上标注后生成训练用数据文件,可将文件中每连续11帧的特征数据合并,以充分利用连续多帧的相关性信息。
步骤S5,根据所述训练用数据文件并采用逐层预训练的方式(layer-wise pre-training)得到深层神经网络中每一层的初始权值;
优选的,步骤S5中,从第四层开始的每一层初始权值包括:从第一层至第N-2层中相邻两层之间的第一权值以及从第N-2层至第N层中相邻两层之间的随机权值,其中,N为待获取初始权值的当前层的层数,N为大于等于四的正整数。
较佳的,步骤S5中,采用逐层预训练的方式得到深层神经网络(DNN)的层数为九层。
具体的,步骤S5为预训练阶段,采用逐层预训练的方式得到深层神经网络的初始权值,即从三层网络开始进行有监督的神经网络训练,然后增加到四层网络,其中,第四层网络的初始权值包含了第三层网络训练得到的第一二层之间的第一权值w12和两层随机权值r_w23和r_w34……依此类推,直到第九层神经网络。为叙述方便起见,上述权值也包含偏置,即输出恒为1的结点与其他层结点的连接权值。详细的,以九层的深层神经网络来说,第四层网络的初始权值包含了第三层网络训练得到的第一二层之间的第一权值w12和两层随机权值r_w23、r_w34,第五层网络的初始权值包含了第四层网络训练得到的第一二三层之间的第一权值w12、w23和两层随机权值r_w34、r_w45,第六层网络的初始权值包含了第五层网络训练得到的第一二三四层之间的第一权值w12、w23、w34和两层随机权值r_w45、r_w56,第七层网络的初始权值包含了第六层网络训练得到的第一二三四五层之间的第一权值w12、w23、w34、w45和两层随机权值r_w56、r_w67,第八层网络的初始权值包含了第七层网络训练得到的第一二三四五六层之间的第一权值w12、w23、w34、w45、w56和两层随机权值r_w67、r_w78,第九层网络的初始权值包含了第八层网络训练得到的第一二三四五六七层之间的第一权值w12、w23、w34、w45、w56、w67和两层随机权值r_w78、r_w89
步骤S6,根据深层神经网络中所有层的初始权值并采用BP算法(back-propagation algorithm)获取所述深层神经网络的哭声模型;具体的,步骤S6为正式训练阶段,采用预训练阶段得到的多层神经网络如九层的初始权值进行标准的BP神经网络训练。
步骤S7,采集待识别的婴儿啼哭声数据,提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数;
步骤S8,根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别。
本实施例利用利用逐层预训练的方式(layer-wise pre-training)得到深层神经网络的初始权值,然后用传统的BP算法(back-propagation algorithm)训练该深层神经网络得到最终的网络模型以用于识别,能够利用深层神经网络对婴儿啼哭声做出病理性和非病理性识别,与普通神经网络模型相比,识别率有较大提升。
实施例二
如图2所示,本发明还提供另一种基于深层神经网络的婴儿啼哭声识别***,包括第一采集模块1、标注模块2、第一提取模块3、初始权值模块4、哭声模型模块5、第二采集模块6、哭声识别器模块7。
第一采集模块1,用于采集训练用婴儿啼哭声数据;
标注模块2,用于对所述训练用婴儿啼哭声数据进行分类标注;
优选的,所述标注模块2,还用于在对所述训练用婴儿啼哭声数据进行分类标注之前,对所述训练用婴儿啼哭声数据进行剔除噪音和背景说话声的预处理。
较佳的,所述标注模块2进行的所述分类标注包括病理性婴儿啼哭声和非病理性婴儿啼哭声。
第一提取模块3,用于提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件;
初始权值模块4,用于根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值;
优选的,所述初始权值模块4得到深层神经网络中从第四层开始的每一层初始权值包括:从第一层至第N-2层中相邻两层之间的第一权值以及从第N-2层至第N层中相邻两层之间的随机权值,其中,N为待获取初始权值的当前层的层数,N为大于等于四的正整数。
较佳的,所述初始权值模块4采用逐层预训练的方式得到深层神经网络的层数为九层。
哭声模型模块5,用于根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型;
第二采集模块6,用于采集待识别的婴儿啼哭声数据,提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数;
哭声识别器模块7,用于根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别。
本实施例二的其它详细内容具体可参见实施例一的相应部分,在此不再赘述。
综上所述,本发明通过采集训练用婴儿啼哭声数据;对所述训练用婴儿啼哭声数据进行分类标注;提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件;根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值;根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型;采集待识别的婴儿啼哭声数据,提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数;根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别,能够提高对婴儿啼哭声的识别率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (8)

1.一种基于深层神经网络的婴儿啼哭声识别方法,其特征在于,包括:
采集训练用婴儿啼哭声数据;
对所述训练用婴儿啼哭声数据进行分类标注;
提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件;
根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值;
根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型;
采集待识别的婴儿啼哭声数据,提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数;
根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别,
其中,根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值的步骤中,
从第四层开始的每一层初始权值包括:从第一层至第N-2层中各相邻两层之间的第一权值以及从第N-2层至第N层中各相邻两层之间的随机权值,其中,N为待获取初始权值的当前层的层数,N为大于等于四的正整数。
2.如权利要求1所述的基于深层神经网络的婴儿啼哭声识别方法,其特征在于,对所述训练用婴儿啼哭声数据进行分类标注的步骤之前还包括:
对所述训练用婴儿啼哭声数据进行剔除噪音和背景说话声的预处理。
3.如权利要求1所述的基于深层神经网络的婴儿啼哭声识别方法,其特征在于,所述分类标注包括病理性婴儿啼哭声和非病理性婴儿啼哭声。
4.如权利要求1所述的基于深层神经网络的婴儿啼哭声识别方法,其特征在于,根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值的步骤中,采用逐层预训练的方式得到深层神经网络的层数为九层。
5.一种基于深层神经网络的婴儿啼哭声识别***,其特征在于,包括:
第一采集模块,用于采集训练用婴儿啼哭声数据;
标注模块,用于对所述训练用婴儿啼哭声数据进行分类标注;
第一提取模块,用于提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件;
初始权值模块,用于根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值;
哭声模型模块,用于根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型;
第二采集模块,用于采集待识别的婴儿啼哭声数据,提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数;
哭声识别器模块,用于根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别,
其中,所述初始权值模块得到深层神经网络中从第四层开始的每一层初始权值包括:从第一层至第N-2层中各相邻两层之间的第一权值以及从第N-2层至第N层中各相邻两层之间的随机权值,其中,N为待获取初始权值的当前层的层数,N为大于等于四的正整数。
6.如权利要求5所述的基于深层神经网络的婴儿啼哭声识别***,其特征在于,所述标注模块,还用于在对所述训练用婴儿啼哭声数据进行分类标注之前,对所述训练用婴儿啼哭声数据进行剔除噪音和背景说话声的预处理。
7.如权利要求5所述的基于深层神经网络的婴儿啼哭声识别***,其特征在于,所述标注模块进行的所述分类标注包括病理性婴儿啼哭声和非病理性婴儿啼哭声。
8.如权利要求5所述的基于深层神经网络的婴儿啼哭声识别***,其特征在于,所述初始权值模块采用逐层预训练的方式得到深层神经网络的层数为九层。
CN201310347807.8A 2013-08-09 2013-08-09 基于深层神经网络的婴儿啼哭声识别方法及*** Active CN104347066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310347807.8A CN104347066B (zh) 2013-08-09 2013-08-09 基于深层神经网络的婴儿啼哭声识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310347807.8A CN104347066B (zh) 2013-08-09 2013-08-09 基于深层神经网络的婴儿啼哭声识别方法及***

Publications (2)

Publication Number Publication Date
CN104347066A CN104347066A (zh) 2015-02-11
CN104347066B true CN104347066B (zh) 2019-11-12

Family

ID=52502541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310347807.8A Active CN104347066B (zh) 2013-08-09 2013-08-09 基于深层神经网络的婴儿啼哭声识别方法及***

Country Status (1)

Country Link
CN (1) CN104347066B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139869B (zh) * 2015-07-27 2018-11-30 安徽清新互联信息科技有限公司 一种基于区间差分特征的婴儿啼哭检测方法
CN105551504B (zh) * 2015-12-03 2019-04-23 Oppo广东移动通信有限公司 一种基于哭声触发智能移动终端功能应用的方法及装置
CN106653001B (zh) * 2016-11-17 2020-03-27 沈晓明 婴儿哭声的辩识方法及其***
CN107393556B (zh) * 2017-07-17 2021-03-12 京东方科技集团股份有限公司 一种实现音频处理的方法及装置
CN107767874B (zh) * 2017-09-04 2020-08-28 南方医科大学南方医院 一种婴儿啼哭声识别提示方法及***
CN108053841A (zh) * 2017-10-23 2018-05-18 平安科技(深圳)有限公司 利用语音进行疾病预测的方法及应用服务器
CN108806723B (zh) * 2018-05-21 2021-08-17 深圳市沃特沃德股份有限公司 婴儿语音识别方法及装置
CN108922518B (zh) * 2018-07-18 2020-10-23 苏州思必驰信息科技有限公司 语音数据扩增方法和***
CN108847244A (zh) * 2018-08-22 2018-11-20 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于mfcc和改进bp神经网络的声纹识别方法及***
CN109357749B (zh) * 2018-09-04 2020-12-04 南京理工大学 一种基于dnn算法的电力设备音频信号分析方法
CN109065034B (zh) * 2018-09-25 2023-09-08 河南理工大学 一种基于声音特征识别的婴儿哭声翻译方法
CN109065074A (zh) * 2018-09-25 2018-12-21 河南理工大学 一种婴儿语音声音翻译器
CN109272987A (zh) * 2018-09-25 2019-01-25 河南理工大学 一种分选煤和矸石的声音识别方法
CN111276159A (zh) * 2018-12-05 2020-06-12 阿里健康信息技术有限公司 一种婴儿发音分析方法及服务器
CN109509484A (zh) * 2018-12-25 2019-03-22 科大讯飞股份有限公司 一种婴儿啼哭原因的预测方法及装置
CN109903780A (zh) * 2019-02-22 2019-06-18 宝宝树(北京)信息技术有限公司 哭声原因模型建立方法、***及哭声原因辨别方法
CN110070893A (zh) * 2019-03-25 2019-07-30 成都品果科技有限公司 一种利用婴儿哭声进行情感分析的***、方法和装置
CN111862991A (zh) * 2019-04-30 2020-10-30 杭州海康威视数字技术股份有限公司 一种婴儿哭声的识别方法及***
CN111883174A (zh) * 2019-06-26 2020-11-03 深圳数字生命研究院 声音的识别方法及装置、存储介质和电子装置
CN113270115B (zh) * 2020-02-17 2023-04-11 广东美的制冷设备有限公司 婴儿监护设备及其婴儿监护方法、控制装置和存储介质
EP3940698A1 (en) 2020-07-13 2022-01-19 Zoundream AG A computer-implemented method of providing data for an automated baby cry assessment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049792A (zh) * 2011-11-26 2013-04-17 微软公司 深层神经网络的辨别预训练
CN103117060A (zh) * 2013-01-18 2013-05-22 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN2290908Y (zh) * 1997-06-06 1998-09-09 周民智 婴儿啼哭原因显示器
EP1382012B1 (en) * 2002-03-26 2007-01-17 Council of Scientific and Industrial Research Improved performance of artificial neural network models in the presence of instrumental noise and measurement errors
US7136809B2 (en) * 2002-10-31 2006-11-14 United Technologies Corporation Method for performing an empirical test for the presence of bi-modal data
JP4899177B2 (ja) * 2004-11-22 2012-03-21 独立行政法人理化学研究所 自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラム
JP2008293259A (ja) * 2007-05-24 2008-12-04 Sony Corp データ処理装置、データ処理方法、及びプログラム
CN202512880U (zh) * 2012-03-31 2012-10-31 武汉大学 一种婴儿哭声识别装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049792A (zh) * 2011-11-26 2013-04-17 微软公司 深层神经网络的辨别预训练
CN103117060A (zh) * 2013-01-18 2013-05-22 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
婴儿啼哭声分析与模式分类;雷云珊;《中国优秀硕士学位论文全文数据库(电子期刊)医药卫生科技辑》;20070215;正文第13-14、53-56、59页 *

Also Published As

Publication number Publication date
CN104347066A (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
CN104347066B (zh) 基于深层神经网络的婴儿啼哭声识别方法及***
CN104067314B (zh) 人形图像分割方法
CN108922518A (zh) 语音数据扩增方法和***
CN103544963B (zh) 一种基于核半监督判别分析的语音情感识别方法
CN111444873B (zh) 视频中人物真伪的检测方法、装置、电子设备及存储介质
CN105096941A (zh) 语音识别方法以及装置
CN109147799A (zh) 一种语音识别的方法、装置、设备及计算机存储介质
CN109036436A (zh) 一种声纹数据库建立方法、声纹识别方法、装置及***
CN102509084A (zh) 一种基于多示例学习的恐怖视频场景识别方法
JP2011525012A5 (zh)
CN101593273A (zh) 一种基于模糊综合评价的视频情感内容识别方法
CN107039036A (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
CN106531157A (zh) 语音识别中的正则化口音自适应方法
CN109599125A (zh) 一种重叠音检测方法及相关装置
CN109509484A (zh) 一种婴儿啼哭原因的预测方法及装置
CN110348409A (zh) 一种基于声纹生成人脸图像的方法和装置
CN107679031A (zh) 基于堆叠降噪自编码机的广告博文识别方法
CN109902632A (zh) 一种面向老人异常的视频分析装置及视频分析方法
Gong et al. Vocalsound: A dataset for improving human vocal sounds recognition
CN110096617A (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN111785303B (zh) 模型训练方法、模仿音检测方法、装置、设备及存储介质
CN109002529A (zh) 音频检索方法及装置
CN107274883A (zh) 语音信号重构方法及装置
CN112580722B (zh) 一种基于条件对抗自动编码机的广义零样本图像识别方法
CN109903780A (zh) 哭声原因模型建立方法、***及哭声原因辨别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190219

Address after: 201203 7, 1 Lane 666 lane, Zhang Heng Road, Pudong New Area, Shanghai.

Applicant after: SHANGHAI ZHANGMEN TECHNOLOGY CO., LTD.

Address before: Room 102, Building 3, No. 356 Guoshoujing Road, Zhangjiang High-tech Park, Pudong New Area, Shanghai, 201203

Applicant before: Shengle Information Technology (Shanghai) Co., Ltd.

GR01 Patent grant
GR01 Patent grant