CN103280220A - 一种实时的婴儿啼哭声识别方法 - Google Patents

一种实时的婴儿啼哭声识别方法 Download PDF

Info

Publication number
CN103280220A
CN103280220A CN2013101484229A CN201310148422A CN103280220A CN 103280220 A CN103280220 A CN 103280220A CN 2013101484229 A CN2013101484229 A CN 2013101484229A CN 201310148422 A CN201310148422 A CN 201310148422A CN 103280220 A CN103280220 A CN 103280220A
Authority
CN
China
Prior art keywords
real
time
crying
sound
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101484229A
Other languages
English (en)
Other versions
CN103280220B (zh
Inventor
刘宏
李晓飞
付卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201310148422.9A priority Critical patent/CN103280220B/zh
Publication of CN103280220A publication Critical patent/CN103280220A/zh
Application granted granted Critical
Publication of CN103280220B publication Critical patent/CN103280220B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种实时的婴儿啼哭声识别方法,其步骤包括:1)录制婴儿啼哭声信号并建立声音库,进行预处理;2)当啼哭声开始时,采集得到婴儿啼哭声后采样得到实时数字信号,并在固定时间窗内对实时数字信号中的完整语音段依次进行分帧、加窗处理后提取得到实时特征向量序列;3)将实时特征向量序列与该GMM模板进行匹配,得到似然度最大的类,将最大的类作为识别结果,并对当前识别结果进行投票;4)当啼哭声结束后,根据投票结果判断婴儿啼哭声类别,完成识别,进行婴儿状况处理。本发明能够实时快速地判别婴儿啼哭声属于饥饿型、困倦型、尿湿型和疼痛型中的哪种类型,辅助护理人员及时反应、识别性能高。

Description

一种实时的婴儿啼哭声识别方法
技术领域
本发明涉及一种应用在家庭智能监护领域的音频处理技术,特别是婴儿啼哭声分析与识别方法。属于信息技术领域。
背景技术
利用计算机来进行人类语音识别是近几年在人工智能领域中非常热门的研究方向之一,首先利用语音采集工具进行语音采集,然后对所采集语音信号进行智能的分析处理,并给出反馈。婴儿啼哭是婴儿与外界交互的重要方式,相当于成年人的语音,婴儿啼哭声会因为其意图的差异而有所不同。将婴儿的哭声作为一种特殊的语音信号进行分析处理,并将不同的哭声进行准确的分类进而对其情感进行识别,可以有效地辅助护理人员对婴儿进行恰当的护理。
基本上,婴儿啼哭自动分类过程是一个模式分类的问题。类似于自动语音识别,其主要的两大步骤分别是:语音信号处理和模式分类。首先通过麦克风接收原始的新生儿哭声信号,并进行模数转换,把模拟声音信号转换成数字信号。在信号处理阶段,首先对原始信号进行预处理:降噪和滤波,信号预加重,分帧并加窗,对于每帧信号提取特征时域的特征和频域特征组成特征向量,由多帧特征向量组成特征向量序列。特征向量序列可以有效表征声音信号。模式分类阶段,通过与分类器中的先验知识进行比对从而得出分类结果。现有的婴儿啼哭声分类方法包括以下步骤:
1、语音录入,预滤波、模数变换。先把录入的模拟声音信号进行预滤波,高通滤波抑制50HZ电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分,防止混叠干扰。对模拟声音信号进行采样和量化得到数字信号。
2、预加重。信号通过高频加重滤波器冲激响应H(z)=1-0.95z-1,以补偿嘴唇辐射带来的高频衰减。
3、分帧、加窗。由于语音信号的慢时变性,整体非平稳,局部平稳,一般认为语音信号在10-30ms内是平稳的,可以把声音信号按照20ms的长度进行分帧。分帧函数为:
xk(n)=w(n)s(Nk+n)      n=0,1...N-1;k=0,1...L-1                  (1)
其中N为帧长,L为帧数。w(n)为窗函数,它的选择(形状和长度)对短时分析参数的特性影响很大,常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗,可以很好地反应语音信号的特性变化,汉明窗表达式为:
Figure BDA00003106209900021
4、特征提取。每帧信号可以提取特征以表征本帧信号的时域和频谱特性,现有用于婴儿啼哭声识别的特征包括啼哭的节拍、停顿及呼气持续时间、基音频率、共振峰结构、梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)等。
5、分类。在分类算法方面,由于婴儿的啼哭声跟成人的语音的发声原理是相同的,所以通常是采用类似于语音识别的算法。现有的啼哭声分类识别方法主要包括三类:人工神经网络方法、隐马尔可夫模型(HMM)方法,贝叶斯分类算法。
现有的方法一般采用类似于语音识别方法的特征和分类器,没有考虑到某些婴儿啼哭声独有的特性。与正常的语音信号不同,婴儿啼哭声并没有严格的起始截止点,其信号内容也没有严格的时序性。现有的方法一般从啼哭声信号中截取一段进行识别(如啼哭声起始1秒等),作为识别结果,不符合婴儿啼哭声持续时间较长的性质,并且不能反映长时的时域特性,如信号持续时间、信号幅度起伏、节拍等,影响了识别性能。
发明内容
本发明考虑婴儿啼哭的特性,选取合适的婴儿啼哭声类别,采用有效的特征参数。本发明考虑啼哭声通常持续时间较长的特点,对啼哭声进行实时的处理与识别。通过实时地检测婴儿啼哭声,并对一个较短的时间窗内的哭声信号进行识别,给出当前时间窗的识别结果,然后综合当前时间之前的所有时间段的识别结果,通过投票机制,给出当前时间总体识别结果。一方面,可以保证啼哭声实时识别,在啼哭开始较短的时间内给出识别结果,辅助护理人员及时采取有效的措施;另一方面,通过利用多个时间窗的数据,直至识别结果收敛,保证识别结果的有效。本发明针对一个婴儿啼哭声***一般只面临一个婴儿的实际情况,对分类器模板进行无监督的更新,以使其更能反映该婴儿的声音特性,提高识别性能。
本发明为一种实时的婴儿啼哭声识别方法,具体内容为:
1)录制婴儿啼哭声信号并建立声音库,进行预处理;
1-1)根据设定的哭声类别将录制得到的婴儿啼哭声信号转化为数字信号后分类录入声音库中得到多个完整的语音段;
1-2)在固定时间窗内对所述语音段依次进行分帧、加窗处理后提取得到模板特征向量序列;
1-3)根据所述特征向量序列采用期望最大化EM算法训练啼哭声的混合高斯模型GMM模板,将所述GMM模板储存入库;
2)当啼哭声开始时,采集得到婴儿啼哭声后采样得到实时数字信号,并在固定时间窗内对所述实时数字信号中的完整语音段依次进行分帧、加窗处理后提取得到实时特征向量序列;
3)将所述实时特征向量序列与该GMM模板进行匹配,得到似然度最大的类,将所述最大的类作为识别结果,并对当前识别结果进行投票;
4)当啼哭声结束后,根据投票结果判断婴儿啼哭声类别,完成识别。
更进一步,根据不同声音频谱提取的设定哭声类别分为饥饿型、困倦型、尿湿型和疼痛型四种及含义模糊的模糊类哭声。
更进一步,所述特征向量提取特征选择以下一种或多种:啼哭节拍、停顿及呼气持续时间、基音频率、共振峰结构、梅尔频率倒谱系数MFCC、线性预测系数LPC。
更进一步,所述实时特征向量序列根据梅尔频率倒谱系数MFCC特征提取2种时域特征,若当前帧xk(n)属于第m个主波,
1)该帧啼哭节拍为:
Tempo k = 1 End m - End m - 1
2)该帧主波能量梯度为:
Gradk=Energym-Energym-1
所述特征向量的总维数为15。
更进一步,所述分帧信号xk(n)经过加窗分帧后得到,所述分帧信号xk(n)的能量为
Figure BDA00003106209900032
定义一次明显的啼哭声为一个主波,第m个主波设为Cm,第m个主波Cm,则,
起始帧为:
Startm={k|Ek≥TH&Ek-1<TH}
终止帧为:
Endm={k|Ek≥TH&Ek+1<TH}
主波能量为:
Energy m = 1 End m - Start m + 1 &Sigma; k = Start m End m E k
其中,Ek-1为第k-1帧的能量,TH为判断主波的能量阈值。
更进一步,所述特征向量序列对于GMM的似然度为:
p ( x ) = &Sigma; k = 1 K &omega; k N ( x / &mu; k , &Sigma; k )
其中,K为GMM中高斯成分的个数,k为高斯成分的计数,x为当前特征向量,ωk为高斯分量的权重,μk为高斯分量的均值和Σk为高斯分量的方差,N(·)表示高斯分布概率密度函数。
更进一步,将所述特征向量序列对于GMM的似然度最大的结果作为最匹配结果r,将当前识别结果的投票数加1按照如下公式对识别结果进行投票,所述投票的初始值为0:
Vote i = Vote i + 1 if r = i Vote i
其中,i为四种哭声类型的序号,i=1,2,3,4,Votei为第i类哭声的得票数,投票票数最多总体识别结果:
R = arg max i Vote i .
更进一步,当啼哭声结束时,总体识别结果按照如下公式进行判断:
Figure BDA00003106209900045
其中,W为时间窗的个数,即总票数,R表示总体识别结果得票数最多的类,如果最大票数小于w/2,则判定该段啼哭声属于模糊类。
更进一步,若最终啼哭声被识别为非模糊类时,就投票结果作为最终识别结果的时间窗信号,采用最大后验概率MAP方法进行GMM模板高斯均值更新:
MAP ( &mu; ^ k ) : &mu; ^ k = &tau; k &mu; k + &Sigma; t = 1 T c kt o t &tau; k + &Sigma; t = 1 T c kt ,
其中表示对于当前自适应数据第k个高斯分量所占的比重,ot为自适应数据,参数τk控制着自适应对先验信息μk的依赖程度。
更进一步,所述加窗、分帧处理中,分帧函数为:
xk(n)=w(n)s(Nk+n)    n=0,1...N-1;k=0,1...L-1
其中N为帧长,L为帧数,w(n)为窗函数,所述w(n)为汉明窗:
Figure BDA00003106209900051
本发明的技术效果:
本发明通过对婴儿啼哭声信号进行实时的识别,并以投票方式给出总体识别结果,可以实时快速地判别婴儿啼哭声属于饥饿型、困倦型、尿湿型和疼痛型中的哪种类型,辅助护理人员及时反应。根据婴儿啼哭声的特点提取了合适的特征,根据多个时间窗的综合判断,可以取得较好的识别性能。基于时间窗的模板无监督更新,使模板更能反映特定婴儿的声音特性,随着针对某个婴儿的啼哭声识别***的应用时间和次数的积累,该***针对该婴儿的识别性能会逐步提高。
附图说明
图1是本发识别方法流程示意图。
图2a-图2b是本发明一实施例中识别过程中啼哭声示意图,其中,图2a是时间窗内“饥饿型”信号采样图,图2b是时间窗内投票结果示意图。
具体实施方法
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先定义哭声类别,即哭声识别空间。由于婴儿啼哭声的类别定义主观性较大,并且也实际存在一些含义模糊的婴儿啼哭声,因此本发明定义的婴儿啼哭声类别包括4个定义明确、特性明显的哭声:饥饿型、困倦型、尿湿型和疼痛型,分类如下:
饥饿型哭声先短促哭一声,然后停顿一下,再短促哭一声,再停顿,由弱变强,再由强变弱,声音响亮。
困倦型哭声每个声音拉得很长,哭声很强烈。
尿湿型哭声突然发声,不会很大声,节奏较缓慢,哭过几声后无人应答便慢慢停止哭闹。
疼痛型哭声是刺耳的尖叫,伴随着短促的呼吸暂停,然后又会紧跟着另外一阵刺耳的尖叫。不同的啼哭声具有不同声音频谱,并在时域上表现迥异,可以通过提取这种差异性辨别婴儿啼哭声。
另外定义一个模糊类,不属于上述四种类型的,或者含义模糊的哭声被识别为模糊类,需要护理人员鉴别。共5类哭声。
由于与正常的语音信号不同,婴儿啼哭声并没有严格的起始截止点,其信号内容也没有严格的时序性。本发明采用混合高斯模型(GMM,《语音信号处理》第2版,赵力编著,机械工业出版社,228-230页)对于啼哭声信号特征向量序列进行建模。首先分别训练4类啼哭声饥饿型GMM、困倦型GMM、尿湿型GMM和疼痛型GMM。每种啼哭声采用多段完整的啼哭声信号基于期望最大化(EM)算法(《语音信号处理》第2版,赵力编著,机械工业出版社,228-230页)进行训练。
识别阶段,考虑啼哭声通常持续时间较长的特点,通过实时录入啼哭声信号,对一个较短的时间窗内(当前t秒)的哭声信号进行识别,给出当前时间窗的识别结果,然后综合当前时间之前的所有时间段的识别结果,通过投票机制,给出当前时间总体识别结果。对当前一个时间窗具体算法如下:
1)对当前时间窗内哭声信号进行分帧、加窗处理;
2)提取特征向量序列;
3)识别的似然度定义为,即用得到的特征向量序列分别与4类已训练好的啼哭声GMM模板进行匹配,特征向量对于GMM的似然度为:
p ( x ) = &Sigma; k = 1 K &omega; k N ( x / &mu; k , &Sigma; k ) - - - ( 3 )
其中,K为GMM中高斯成分的个数,k为高斯成分的计数,x为当前特征向量,ωk为高斯分量的权重,μk为高斯分量的均值和Σk为高斯分量的方差,N(·)表示高斯分布概率密度函数。最匹配(似然度最大)的类为识别结果r;
4)对识别结果进行投票,
Vote i = Vote i + 1 if r = i Vote i - - - ( 4 )
即当前识别结果的投票数加1,其中,i为四种哭声类型的序号,i=1,2,3,4,Votei为第i类哭声的得票数。
5)当前时刻总体识别结果,
R = arg max i Vote i . - - - ( 5 )
即票数最多的类为总体识别结果。
当啼哭声结束时,
其中W为时间窗的个数,即总票数,R表示总体识别结果得票数最多的类。当啼哭声结束时必须要求总体识别结果的得票数过半,否则判定该信号为模糊类。
本发明针对一个婴儿啼哭声***一般只面临一个婴儿的实际情况,对分类器模板进行无监督的更新,以使其更能反映该婴儿的声音特性,若最终啼哭声被识别为非模糊类时,利用投票结果为最终识别结果的时间窗信号,采用最大后验概率(MAP)方法(李虎生,杨明杰,刘润生.汉语数码语音识别自适应算法。电路与***学报,1999,4(2):1-6)进行GMM模板高斯均值更新:
MAP ( &mu; ^ k ) : &mu; ^ k = &tau; k &mu; k + &Sigma; t = 1 T c kt o t &tau; k + &Sigma; t = 1 T c kt - - - ( 7 )
其中 c kt = &omega; k N ( o t / &mu; k , &Sigma; k ) &Sigma; k &omega; k N ( o t / &mu; k , &Sigma; k ) - - - ( 8 )
表示对于当前自适应数据,第k个高斯分量所占的比重,ot为自适应数据,参数τk控制着自适应对先验信息μk的依赖程度。只利用了投票结果为最终识别结果的时间窗信号进行更新,保证了更新后的模板更符合特定婴儿的啼哭声特点,避免了无监督更新可能会导致的模板恶化。
训练时要用多个婴儿的数据进行,训练出初始模板,所述训练中多段完整的啼哭声信号,是指不同婴儿或者同一婴儿不同发声的同一类别多段啼哭声,完整的啼哭声包括从啼哭开始至啼哭结束的连续不间断声音信号。训练阶段,是在安静环境下录制的,或者选取没有噪声干扰的婴儿哭声。
上述过程中时间窗为等时长的,投票的初始值为0。
上述过程中模板更新采用与模板训练相同的特征向量序列。
所述提取特征向量具体描述为:
经过加窗分帧后,可得分帧信号xk(n),在本发明中定义该帧的能量为
Figure BDA00003106209900081
定义一次明显的啼哭声为一个主波,第m个主波设为Cm,每个主波包括起始点,终止点和能量3个参数。第m个主波Cm起始帧为:
Startm={k|Ek≥TH&Ek-1<TH}         (9)
其中,Ek-1为第k-1帧的能量。终止帧为
Endm={k|Ek≥TH&Ek+1<TH}       (10)
本发明中定义能量为
Energy m = 1 End m - Start m + 1 &Sigma; k = Start m End m E k - - - ( 11 )
TH为判断主波的能量阈值。每帧信号都属于一个主波(静音帧属于该帧之后的第一个主波)。
本发明选取12维梅尔频率倒谱系数MFCC特征(《语音信号处理》第2版,赵力编著,机械工业出版社,51-53页),另定义3种时域特征:
1)信号总持续时间。不同的啼哭声的持续时间不同,例如尿湿型啼哭声,婴儿在啼哭几声后如果无人应答会慢慢停止哭闹。训练阶段每帧特征的持续时间采用该段完整信号的总长度;识别阶段每帧特征的持续时间采用啼哭声开始至当前时间窗的时间。
2)啼哭节拍。如饥饿型啼哭声较急促,节拍较快;困倦型啼哭声每个声音拉得很长,节拍较慢;尿湿型啼哭声突然发声,节奏较慢;疼痛性短促尖锐,节拍较快。
若当前帧xk(n)属于第m个主波,则该帧啼哭节拍定义为:
Tempo k = 1 End m - End m - 1 - - - ( 12 )
即节拍为当前帧所在主波持续帧数的倒数。
3)主波能量梯度。反应了啼哭声信号幅度的变化。如烦躁型哭声忽大忽小。若当前帧xk(n)属于第m个主波,则其主波能量梯度定义为:
Gradk=Energym-Energym-1                  (13)
特征向量的总维数为15。
图1显示了本发明的识别方法流程图,包括训练部分和识别部分。
一种实时的婴儿啼哭声识别方法,其步骤包括:
1)录制婴儿啼哭声信号并建立声音库,进行预处理;
所述预处理为:
1-1)根据设定的哭声类别将录制得到的婴儿啼哭声信号转化为数字信号后分类录入声音库中得到多个完整的语音段;
1-2)在固定时间窗内对所述语音段依次进行分帧、加窗处理后提取得到模板特征向量序列;
1-3)根据所述特征向量序列采用期望最大化EM算法训练啼哭声的混合高斯模型GMM模板,将所述GMM模板储存入库;
2)当啼哭声开始时,采集得到婴儿啼哭声后采样得到实时数字信号,并在固定时间窗内对所述实时数字信号中的完整语音段依次进行分帧、加窗处理后提取得到实时特征向量序列;
3)将所述实时特征向量序列与该GMM模板进行匹配,得到似然度最大的类,将所述最大的类作为识别结果,并对当前识别结果进行投票;
4)当啼哭声结束后,根据投票结果判断婴儿啼哭声类别,完成识别,进行婴儿状况处理。
本发明的4种婴儿啼哭声模板训练过程如下:
1、录制婴儿啼哭声声音库并标定。每种哭声类型录制20个婴儿,每个婴儿同一哭声类
型录制2段;
2、预滤波,高通滤波抑制50HZ电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分;模数变换,采样频率为11025HZ,位数为16bit;
3、对于每个完整的语音段,分帧、加窗。帧长为256采样点,帧移为128采样点。窗函数选取汉明窗;
4、特征提取。提取12维MFCC特征及3维时域特征,共15维;
5、分别利用40个特征向量序列,基于期望最大化(EM)算法训练4种啼哭声的GMM模板λl,l=1,2,3,4,模板采用8高斯混合模型。
本发明的婴儿啼哭声识别实现过程如下:
1、图2a显示了本发明实时识别一段“饥饿型”啼哭声的实例,利用麦克风采集婴儿啼哭声,采集3秒信号作为当前时间窗,采用固定时长的时间窗,时间窗记数为w=w+1;
2、进行预滤波;模数变换,采样频率为11025HZ,位数为16bit;
3、分帧、加窗。帧长为256采样点,帧移为256采样点。窗函数选取汉明窗,两秒信号的帧数为87;
4、特征提取。提取12维MFCC特征及3维时域特征,共15维。其中信号总持续时间采用啼哭声开始至当前时间窗的总时间,随着时间的推移,该特征会越来越精确;
5、模板匹配。当前时间窗的特征向量序列与4种啼哭声的模板进行匹配。特征矢量序列为Xk,k=1,…,87,4个模板为λl,l=1,2,3,4。则匹配似然度为:
P l = &Pi; k = 1 87 &Sigma; mix = 1 8 &omega; mix N ( X k / &mu; mix , &Sigma; mix ) , l = 1,2,3,4 - - - ( 14 )
其中,μmix高斯分量最小均值Σmix,高斯分量最小方差,ωmix高斯分量最小权重;N(·)表示高斯分布概率密度函数;
6、投票,当前时间窗识别结果的票数加1,当前时间窗识别结果为:
Figure BDA00003106209900102
记录该时间窗结果rw=r,投票Voter=Voter+1;
7、当前时间窗总体识别结果:
Figure BDA00003106209900103
如图2b所示的投票结果;
8、若啼哭声信号未结束,回到步骤1;若啼哭声信号结束,判断整段啼哭声是否为模糊类,如果最大票数小于w/2,则判定该段啼哭声属于模糊类,反之,则对集合{w|rw=R}中的时间窗信号利用该段啼哭声总持续时间修正原特征,根据公式(7)进行模板高斯均值更新。
上述实例只是本发明的举例,尽管为说明目的公开了本发明的实例,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于该实例的内容。

Claims (10)

1.一种实时的婴儿啼哭声识别方法,其步骤包括:
1)录制婴儿啼哭声信号并建立声音库,进行预处理;
1-1)根据设定的哭声类别将录制得到的婴儿啼哭声信号转化为数字信号后分类录入声音库中得到多个完整的语音段;
1-2)在固定时间窗内对所述语音段依次进行分帧、加窗处理后提取得到模板特征向量序列;
1-3)根据所述特征向量序列采用期望最大化EM算法训练啼哭声的混合高斯模型GMM模板,将所述GMM模板储存入库;
2)当啼哭声开始时,采集得到婴儿啼哭声后采样得到实时数字信号,并在固定时间窗内对所述实时数字信号中的完整语音段依次进行分帧、加窗处理后提取得到实时特征向量序列;
3)将所述实时特征向量序列与该GMM模板进行匹配,得到似然度最大的类,将所述最大的类作为识别结果,并对当前识别结果进行投票;
4)当啼哭声结束后,根据投票结果判断婴儿啼哭声类别,完成识别。
2.如权利要求1所述的实时的婴儿啼哭声识别方法,其特征在于,根据不同声音频谱提取的设定哭声类别分为饥饿型、困倦型、尿湿型和疼痛型四种及含义模糊的模糊类哭声。
3.如权利要求1所述的实时的婴儿啼哭声识别方法,其特征在于,所述特征向量提取特征选择以下一种或多种:啼哭节拍、停顿及呼气持续时间、基音频率、共振峰结构、梅尔频率倒谱系数MFCC、线性预测系数LPC。
4.如权利要求3所述的实时的婴儿啼哭声识别方法,其特征在于,所述实时特征向量序列根据梅尔频率倒谱系数MFCC特征提取2种时域特征,若当前帧xk(n)属于第m个主波,
1)该帧啼哭节拍为:
Tempo k = 1 End m - End m - 1
2)该帧主波能量梯度为:
Gradk=Energym-Energym-1
所述特征向量的总维数为15。
5.如权利要求1或4所述的实时的婴儿啼哭声识别方法,其特征在于,所述分帧信号xk(n)经过加窗分帧后得到,所述分帧信号xk(n)的能量为
Figure FDA00003106209800012
定义一次明显的啼哭声为一个主波,第m个主波设为Cm,第m个主波Cm,则,
起始帧为:
Startm={k|Ek≥TH&Ek-1<TH}
终止帧为:
Endm={k|Ek≥TH&Ek+1<TH}
主波能量为:
Energy m = 1 End m - Start m + 1 &Sigma; k = Start m End m E k
其中,Ek-1为第k-1帧的能量,TH为判断主波的能量阈值。
6.如权利要求1所述的实时的婴儿啼哭声识别方法,其特征在于,所述特征向量序列对于GMM的似然度为:
p ( x ) = &Sigma; k = 1 K &omega; k N ( x / &mu; k , &Sigma; k )
其中,K为GMM中高斯成分的个数,k为高斯成分的计数,x为当前特征向量,ωk为高斯分量的权重,μk为高斯分量的均值和Σk为高斯分量的方差,N(·)表示高斯分布概率密度函数。
7.如权利要求6所述的实时的婴儿啼哭声识别方法,其特征在于,将所述特征向量序列对于GMM的似然度最大的结果作为最匹配结果r,将当前识别结果的投票数加1按照如下公式对识别结果进行投票,所述投票的初始值为0:
Vote i = Vote i + 1 if r = i Vote i
其中,i为四种哭声类型的序号,i=1,2,3,4,Votei为第i类哭声的得票数,投票票数最多总体识别结果:
R = arg max i Vote i .
8.如权利要求7所述的实时的婴儿啼哭声识别方法,其特征在于,当啼哭声结束时,总体识别结果按照如下公式进行判断:
Figure FDA00003106209800025
其中,W为时间窗的个数,即总票数,R表示总体识别结果得票数最多的类,如果最大票数小于w/2,则判定该段啼哭声属于模糊类。
9.如权利要求8所述的实时的婴儿啼哭声识别方法,其特征在于,若最终啼哭声被识别为非模糊类时,就投票结果作为最终识别结果的时间窗信号,采用最大后验概率MAP方法进行GMM模板高斯均值更新:
MAP ( &mu; ^ k ) : &mu; ^ k = &tau; k &mu; k + &Sigma; t = 1 T c kt o t &tau; k + &Sigma; t = 1 T c kt ,
其中
Figure FDA00003106209800032
表示对于当前自适应数据第k个高斯分量所占的比重,ot为自适应数据,参数τk控制着自适应对先验信息μk的依赖程度。
10.如权利要求1所述的实时的婴儿啼哭声识别方法,其特征在于,所述加窗、分帧处理中,分帧函数为:
xk(n)=w(n)s(Nk+n)    n=0,1...N-1;k=0,1...L-1
其中N为帧长,L为帧数,w(n)为窗函数,所述w(n)为汉明窗:0≤n≤N-1。
CN201310148422.9A 2013-04-25 2013-04-25 一种实时的婴儿啼哭声识别方法 Expired - Fee Related CN103280220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310148422.9A CN103280220B (zh) 2013-04-25 2013-04-25 一种实时的婴儿啼哭声识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310148422.9A CN103280220B (zh) 2013-04-25 2013-04-25 一种实时的婴儿啼哭声识别方法

Publications (2)

Publication Number Publication Date
CN103280220A true CN103280220A (zh) 2013-09-04
CN103280220B CN103280220B (zh) 2015-11-18

Family

ID=49062714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310148422.9A Expired - Fee Related CN103280220B (zh) 2013-04-25 2013-04-25 一种实时的婴儿啼哭声识别方法

Country Status (1)

Country Link
CN (1) CN103280220B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680057A (zh) * 2013-12-06 2014-03-26 闻泰通讯股份有限公司 使用电子设备监测婴儿哭闹的方法及***
CN103985383A (zh) * 2014-05-30 2014-08-13 上海斐讯数据通信技术有限公司 婴儿或宠物保姆方法及适用该方法的保姆***和保姆机
CN104984472A (zh) * 2015-06-24 2015-10-21 广州三瑞医疗器械有限公司 基于语音识别的镇痛控制方法及其装置
CN105139869A (zh) * 2015-07-27 2015-12-09 安徽清新互联信息科技有限公司 一种基于区间差分特征的婴儿啼哭检测方法
CN105243780A (zh) * 2015-09-11 2016-01-13 中山大学 一种儿童安全监控方法及***
CN105286799A (zh) * 2015-11-23 2016-02-03 金建设 基于信息融合的婴儿状态与欲望识别***与方法
CN105336325A (zh) * 2015-09-25 2016-02-17 百度在线网络技术(北京)有限公司 语音信号识别处理方法及装置
CN105719663A (zh) * 2014-12-23 2016-06-29 郑载孝 婴儿哭声分析方法
CN106255026A (zh) * 2016-08-08 2016-12-21 浙江大学 基于语音模式识别和振动反馈的助残装置及交互方法
CN106297805A (zh) * 2016-08-02 2017-01-04 电子科技大学 一种基于呼吸特征的说话人识别方法
CN106295158A (zh) * 2016-08-04 2017-01-04 青岛歌尔声学科技有限公司 一种婴幼儿自动辅助管理***、管理方法和设备
CN106530608A (zh) * 2016-12-23 2017-03-22 重庆墨希科技有限公司 一种用于监测婴幼儿的智能手环
CN106653001A (zh) * 2016-11-17 2017-05-10 沈晓明 婴儿哭声的辩识方法及其***
CN106653059A (zh) * 2016-11-17 2017-05-10 沈晓明 婴儿啼哭原因的自动识别方法及其***
CN107112011A (zh) * 2014-12-22 2017-08-29 英特尔公司 用于音频特征提取的倒谱方差归一化
EP3236469A1 (en) * 2016-04-22 2017-10-25 Beijing Xiaomi Mobile Software Co., Ltd. Object monitoring method and device
CN107564541A (zh) * 2017-09-04 2018-01-09 南方医科大学南方医院 一种便携式婴儿啼哭声识别器及其识别方法
CN107569394A (zh) * 2017-08-18 2018-01-12 亚月(武汉)智能科技有限公司 具有自动喂奶功能的冲泡装置
CN107591162A (zh) * 2017-07-28 2018-01-16 南京邮电大学 基于模式匹配的哭声识别方法及智能看护***
CN107767874A (zh) * 2017-09-04 2018-03-06 南方医科大学南方医院 一种婴儿啼哭声识别提示方法及***
CN108492829A (zh) * 2018-03-13 2018-09-04 广州势必可赢网络科技有限公司 一种婴儿哭闹提醒方法、装置及***
CN108564967A (zh) * 2018-03-14 2018-09-21 南京邮电大学 面向哭声检测***的Mel能量声纹特征提取方法
CN109065034A (zh) * 2018-09-25 2018-12-21 河南理工大学 一种基于声音特征识别的婴儿哭声翻译方法
CN109512399A (zh) * 2018-12-29 2019-03-26 浙江大学 一种基于哭声的婴儿疼痛等级识别方法
CN109658953A (zh) * 2019-01-12 2019-04-19 深圳先进技术研究院 一种婴儿哭声识别方法、装置及设备
CN109903780A (zh) * 2019-02-22 2019-06-18 宝宝树(北京)信息技术有限公司 哭声原因模型建立方法、***及哭声原因辨别方法
CN110265041A (zh) * 2019-07-01 2019-09-20 河南牧业经济学院 一种收集、分析猪的发声行为的方法和***
CN110319424A (zh) * 2019-07-12 2019-10-11 南京林业大学 一种多功能的婴儿夜间看护装置及其看护方法
CN110460809A (zh) * 2019-07-05 2019-11-15 苏宁智能终端有限公司 一种婴儿哭声侦测方法、装置及智能摄像头设备
CN110751942A (zh) * 2018-07-20 2020-02-04 北京京东金融科技控股有限公司 一种识别特征声音的方法和装置
CN110870760A (zh) * 2018-08-29 2020-03-10 北京洪泰同创信息技术有限公司 一种婴儿监护***及婴儿监护方法
CN111785300A (zh) * 2020-06-12 2020-10-16 北京快鱼电子股份公司 一种基于深度神经网络的哭声检测方法和***
CN111786860A (zh) * 2020-06-29 2020-10-16 广东美的制冷设备有限公司 家电及其控制方法和计算机可读存储介质
CN111835561A (zh) * 2020-06-29 2020-10-27 中国平安财产保险股份有限公司 基于用户行为数据的异常用户群体检测方法、装置、设备
CN111883174A (zh) * 2019-06-26 2020-11-03 深圳数字生命研究院 声音的识别方法及装置、存储介质和电子装置
CN113270115A (zh) * 2020-02-17 2021-08-17 广东美的制冷设备有限公司 婴儿监护设备及其婴儿监护方法、控制装置和存储介质
TWI747392B (zh) * 2020-07-22 2021-11-21 國立雲林科技大學 嬰兒哭聲辨識修正方法及其系統
TWI766673B (zh) * 2021-05-05 2022-06-01 量子音樂股份有限公司 嬰兒哭聲分析方法及其分析裝置
CN116631443A (zh) * 2021-02-26 2023-08-22 武汉星巡智能科技有限公司 基于振动频谱对比的婴儿哭声类别检测方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020135485A1 (en) * 2001-03-22 2002-09-26 Meiji University Legal Person System and method for analyzing baby cries
JP2006324742A (ja) * 2005-05-17 2006-11-30 Matsushita Electric Ind Co Ltd 映像表示装置、映像表示方法および映像表示プログラム
CN101807396A (zh) * 2010-04-02 2010-08-18 陕西师范大学 婴儿哭闹自动记录装置及方法
CN102332263A (zh) * 2011-09-23 2012-01-25 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020135485A1 (en) * 2001-03-22 2002-09-26 Meiji University Legal Person System and method for analyzing baby cries
JP2006324742A (ja) * 2005-05-17 2006-11-30 Matsushita Electric Ind Co Ltd 映像表示装置、映像表示方法および映像表示プログラム
CN101807396A (zh) * 2010-04-02 2010-08-18 陕西师范大学 婴儿哭闹自动记录装置及方法
CN102332263A (zh) * 2011-09-23 2012-01-25 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680057A (zh) * 2013-12-06 2014-03-26 闻泰通讯股份有限公司 使用电子设备监测婴儿哭闹的方法及***
CN103985383A (zh) * 2014-05-30 2014-08-13 上海斐讯数据通信技术有限公司 婴儿或宠物保姆方法及适用该方法的保姆***和保姆机
CN107112011A (zh) * 2014-12-22 2017-08-29 英特尔公司 用于音频特征提取的倒谱方差归一化
US10629184B2 (en) 2014-12-22 2020-04-21 Intel Corporation Cepstral variance normalization for audio feature extraction
CN105719663A (zh) * 2014-12-23 2016-06-29 郑载孝 婴儿哭声分析方法
CN104984472A (zh) * 2015-06-24 2015-10-21 广州三瑞医疗器械有限公司 基于语音识别的镇痛控制方法及其装置
CN104984472B (zh) * 2015-06-24 2018-08-21 广州三瑞医疗器械有限公司 基于语音识别的镇痛控制方法及其装置
CN105139869A (zh) * 2015-07-27 2015-12-09 安徽清新互联信息科技有限公司 一种基于区间差分特征的婴儿啼哭检测方法
CN105243780A (zh) * 2015-09-11 2016-01-13 中山大学 一种儿童安全监控方法及***
CN105336325A (zh) * 2015-09-25 2016-02-17 百度在线网络技术(北京)有限公司 语音信号识别处理方法及装置
CN105286799A (zh) * 2015-11-23 2016-02-03 金建设 基于信息融合的婴儿状态与欲望识别***与方法
CN105286799B (zh) * 2015-11-23 2018-07-24 金建设 基于信息融合的婴儿状态与欲望识别***与方法
EP3236469A1 (en) * 2016-04-22 2017-10-25 Beijing Xiaomi Mobile Software Co., Ltd. Object monitoring method and device
US10122916B2 (en) 2016-04-22 2018-11-06 Beijing Xiaomi Mobile Software Co., Ltd. Object monitoring method and device
CN106297805B (zh) * 2016-08-02 2019-07-05 电子科技大学 一种基于呼吸特征的说话人识别方法
CN106297805A (zh) * 2016-08-02 2017-01-04 电子科技大学 一种基于呼吸特征的说话人识别方法
CN106295158B (zh) * 2016-08-04 2019-07-09 青岛歌尔声学科技有限公司 一种婴幼儿自动辅助管理***、管理方法和设备
CN106295158A (zh) * 2016-08-04 2017-01-04 青岛歌尔声学科技有限公司 一种婴幼儿自动辅助管理***、管理方法和设备
CN106255026A (zh) * 2016-08-08 2016-12-21 浙江大学 基于语音模式识别和振动反馈的助残装置及交互方法
CN106653059A (zh) * 2016-11-17 2017-05-10 沈晓明 婴儿啼哭原因的自动识别方法及其***
CN106653001A (zh) * 2016-11-17 2017-05-10 沈晓明 婴儿哭声的辩识方法及其***
CN106653001B (zh) * 2016-11-17 2020-03-27 沈晓明 婴儿哭声的辩识方法及其***
CN106530608A (zh) * 2016-12-23 2017-03-22 重庆墨希科技有限公司 一种用于监测婴幼儿的智能手环
CN107591162A (zh) * 2017-07-28 2018-01-16 南京邮电大学 基于模式匹配的哭声识别方法及智能看护***
CN107591162B (zh) * 2017-07-28 2021-01-12 南京邮电大学 基于模式匹配的哭声识别方法及智能看护***
CN107569394A (zh) * 2017-08-18 2018-01-12 亚月(武汉)智能科技有限公司 具有自动喂奶功能的冲泡装置
CN107767874B (zh) * 2017-09-04 2020-08-28 南方医科大学南方医院 一种婴儿啼哭声识别提示方法及***
CN107564541A (zh) * 2017-09-04 2018-01-09 南方医科大学南方医院 一种便携式婴儿啼哭声识别器及其识别方法
CN107564541B (zh) * 2017-09-04 2018-11-02 南方医科大学南方医院 一种便携式婴儿啼哭声识别器及其识别方法
CN107767874A (zh) * 2017-09-04 2018-03-06 南方医科大学南方医院 一种婴儿啼哭声识别提示方法及***
CN108492829A (zh) * 2018-03-13 2018-09-04 广州势必可赢网络科技有限公司 一种婴儿哭闹提醒方法、装置及***
CN108564967B (zh) * 2018-03-14 2021-05-18 南京邮电大学 面向哭声检测***的Mel能量声纹特征提取方法
CN108564967A (zh) * 2018-03-14 2018-09-21 南京邮电大学 面向哭声检测***的Mel能量声纹特征提取方法
CN110751942A (zh) * 2018-07-20 2020-02-04 北京京东金融科技控股有限公司 一种识别特征声音的方法和装置
CN110870760A (zh) * 2018-08-29 2020-03-10 北京洪泰同创信息技术有限公司 一种婴儿监护***及婴儿监护方法
CN109065034B (zh) * 2018-09-25 2023-09-08 河南理工大学 一种基于声音特征识别的婴儿哭声翻译方法
CN109065034A (zh) * 2018-09-25 2018-12-21 河南理工大学 一种基于声音特征识别的婴儿哭声翻译方法
CN109512399B (zh) * 2018-12-29 2022-12-09 浙江大学 一种基于哭声的婴儿疼痛等级识别方法
CN109512399A (zh) * 2018-12-29 2019-03-26 浙江大学 一种基于哭声的婴儿疼痛等级识别方法
CN109658953A (zh) * 2019-01-12 2019-04-19 深圳先进技术研究院 一种婴儿哭声识别方法、装置及设备
CN109903780A (zh) * 2019-02-22 2019-06-18 宝宝树(北京)信息技术有限公司 哭声原因模型建立方法、***及哭声原因辨别方法
CN111883174A (zh) * 2019-06-26 2020-11-03 深圳数字生命研究院 声音的识别方法及装置、存储介质和电子装置
WO2020259057A1 (zh) * 2019-06-26 2020-12-30 深圳数字生命研究院 声音的识别方法及装置、存储介质和电子装置
CN110265041A (zh) * 2019-07-01 2019-09-20 河南牧业经济学院 一种收集、分析猪的发声行为的方法和***
CN110460809A (zh) * 2019-07-05 2019-11-15 苏宁智能终端有限公司 一种婴儿哭声侦测方法、装置及智能摄像头设备
CN110319424A (zh) * 2019-07-12 2019-10-11 南京林业大学 一种多功能的婴儿夜间看护装置及其看护方法
CN113270115A (zh) * 2020-02-17 2021-08-17 广东美的制冷设备有限公司 婴儿监护设备及其婴儿监护方法、控制装置和存储介质
CN113270115B (zh) * 2020-02-17 2023-04-11 广东美的制冷设备有限公司 婴儿监护设备及其婴儿监护方法、控制装置和存储介质
CN111785300B (zh) * 2020-06-12 2021-05-25 北京快鱼电子股份公司 一种基于深度神经网络的哭声检测方法和***
CN111785300A (zh) * 2020-06-12 2020-10-16 北京快鱼电子股份公司 一种基于深度神经网络的哭声检测方法和***
CN111835561A (zh) * 2020-06-29 2020-10-27 中国平安财产保险股份有限公司 基于用户行为数据的异常用户群体检测方法、装置、设备
CN111786860A (zh) * 2020-06-29 2020-10-16 广东美的制冷设备有限公司 家电及其控制方法和计算机可读存储介质
TWI747392B (zh) * 2020-07-22 2021-11-21 國立雲林科技大學 嬰兒哭聲辨識修正方法及其系統
US11380348B2 (en) 2020-07-22 2022-07-05 National Yunlin University Of Science And Technology Method and system for correcting infant crying identification
CN116631443A (zh) * 2021-02-26 2023-08-22 武汉星巡智能科技有限公司 基于振动频谱对比的婴儿哭声类别检测方法、装置及设备
CN116631443B (zh) * 2021-02-26 2024-05-07 武汉星巡智能科技有限公司 基于振动频谱对比的婴儿哭声类别检测方法、装置及设备
TWI766673B (zh) * 2021-05-05 2022-06-01 量子音樂股份有限公司 嬰兒哭聲分析方法及其分析裝置

Also Published As

Publication number Publication date
CN103280220B (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN103280220B (zh) 一种实时的婴儿啼哭声识别方法
CN101261832B (zh) 汉语语音情感信息的提取及建模方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN103310789B (zh) 一种基于改进的并行模型组合的声音事件识别方法
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
Schluter et al. Using phase spectrum information for improved speech recognition performance
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN102968990B (zh) 说话人识别方法和***
CN101923855A (zh) 文本无关的声纹识别***
CN104700843A (zh) 一种年龄识别的方法及装置
CN105206270A (zh) 一种组合pca和rbm的孤立数字语音识别分类***及方法
CN103065629A (zh) 一种仿人机器人的语音识别***
CN109192200B (zh) 一种语音识别方法
CN104900229A (zh) 一种语音信号混合特征参数的提取方法
CN109949823A (zh) 一种基于dwpt-mfcc与gmm的车内异响识别方法
CN102982803A (zh) 基于hrsf及改进dtw算法的孤立词语音识别方法
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN104887263A (zh) 一种基于心音多维特征提取的身份识别算法及其***
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译***及其语言识别方法
CN113539294A (zh) 一种生猪异常状态声音采集及识别方法
Yusnita et al. Automatic gender recognition using linear prediction coefficients and artificial neural network on speech signal
CN112397074A (zh) 基于mfcc和向量元学习的声纹识别方法
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
CN107391994A (zh) 一种基于心音认证的Windows登入认证***方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151118

Termination date: 20170425