CN102968986B - 基于长时特征和短时特征的重叠语音与单人语音区分方法 - Google Patents
基于长时特征和短时特征的重叠语音与单人语音区分方法 Download PDFInfo
- Publication number
- CN102968986B CN102968986B CN201210442113.8A CN201210442113A CN102968986B CN 102968986 B CN102968986 B CN 102968986B CN 201210442113 A CN201210442113 A CN 201210442113A CN 102968986 B CN102968986 B CN 102968986B
- Authority
- CN
- China
- Prior art keywords
- voice
- short
- time characteristic
- matrix
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:读入语音;语音预处理,包括预加重、分帧、加窗;提取短时特征参数,从每帧语音中提取各种短时特征参数;提取长时特征参数,计算短时特征参数的统计特征;训练高斯混合模型:采用期望最大化算法训练四个高斯混合模型;模型融合判决:从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入,将这两种模型的输出概率进行加权得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。与采用短时特征的方法相比,本方法取得了更好的区分效果,区分准确率平均提高了5.9%。
Description
技术领域
本发明涉及语音信号处理和模式识别技术,尤其涉及一种基于长时特征和短时特征的重叠语音与单人语音区分方法。
背景技术
重叠语音(Overlapped Speech,OS)是指多人同时说话时所产生的语音。在多人会话语音中重叠语音频繁出现,例如在ICSI会议语音数据库中,6~14%的语音存在重叠。由于重叠语音与单人语音(一个发音人所产生的语音)的声学特性不同,因此重叠语音的出现将导致目前处理单人语音的语音识别***、说话人分割聚类***的性能急剧下降。将重叠语音与单人语音区分开,对于提高多说话人语音识别的性能、说话人分割聚类性能、语音处理***的实用性都具有非常重要的意义。
目前,文献报道的重叠语音与单人语音的区分方法所采用的特征都是短时特征(Short-term Features,SF),即从短时语音帧(20~40毫秒)中提取的特征。这些短时特征也被应用于语音识别、说话人识别中。例如,梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)、短时能量(Short Time Energy,STE)、过零率(Zero-Crossing Rate,ZCR)等。尽管短时帧层的特征参数能够较好地刻画重叠语音与单人语音的某些差异,但它们却不能刻画上述两种语音在统计意义的差异,例如特征的均值差异、最大值差异、最小值差异、中值差异、均方差的差异等。也就是说,短时特征参数不能有效表征重叠语音与单人语音的统计特性差异。
发明内容
本发明的目的在于解决现有技术所存在的不足,提供一种基于长时特征和短时特征的重叠语音与单人语音区分方法:
一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:
S1读入语音:读入记录有重叠语音或单人语音的语音文件;
S2语音预处理:对读入的语音文件进行预加重、分帧、加窗;
S3提取短时特征:从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率,将提取的短时特征拼接得到短时特征矩阵;
S4提取长时特征:计算短时特征矩阵的统计特征,所述统计特征包括均值、最大值、最小值、中值、均方差,得到长时特征矩阵;
S5训练高斯混合模型:采用EM算法训练四个高斯混合模型,包括单人语音的短时特征模型、单人语音的长时特征模型、重叠语音的短时特征模型、重叠语音的长时特征模型;
S6模型融合判决:将短时特征矩阵和长时特征矩阵分别输入短时特征模型和长时特征模型,所述短时特征模型包括单人语音的短时特征模型和重叠语音的短时特征模型,长时特征模型包括单人语音的长时特征模型和重叠语音的长时特征模型,并将这两种模型的输出概率进行加权得到总的概率输出值,根据总的概率输出值将测试语音判为重叠语音或单人语音,实现重叠语音与单人语音的区分。
所述S2中对读入的语音文件进行预加重、分帧、加窗,具体步骤为:
S2.1预加重,具体为:设置数字滤波器的Z传递函数为H(z)=1-αz-1,其中α取值为:0.9≤α≤1,读入的语音通过数字滤波器后实现预加重;
S2.2分帧、加窗,具体步骤为:
S2.2.1设置语音帧的帧长为40毫秒、帧移为20毫秒,帧长和帧移所对应的采样点个数分别为N=0.04×fs和S=0.02×fs,其中fs为语音采样频率,将输入语音分割成T个语音帧x't(n),且每个语音帧包含N个采样点;
S2.2.2计算汉明窗函数ω(n):
S2.2.3对每一个语音帧x't(n)加汉明窗,得到xt(n):
所述S3从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率,将提取的短时特征拼接得到短时特征矩阵,具体包括如下步骤:
S3.1提取梅尔频率倒谱系数及其一阶差分,具体为:
S3.1.1对第t帧语音信号xt(n)做离散傅立叶变换,得到线性频谱Xt(k):
S3.1.2将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),
S3.1.3将上述对数频谱St(m)经过离散余弦变换变换到倒谱域,得到第t帧梅尔频率倒谱系数Ct(p):
S3.1.4计算第t帧梅尔频率倒谱系数的一阶差分C′t(p):
其中,Q为常数,Q优选值为3;
S3.1.5对每帧语音重复步骤S3.1.1~S3.1.4,得到所有T帧语音的梅尔频率倒谱系数及其一阶差分,将它们按帧的顺序组合成一个梅尔频率倒谱系数矩阵与一阶差分矩阵,再将这两个矩阵合并构成特征矩阵;
S3.2提取短时能量:
S3.2.1计算第t帧短时能量STEt:
S3.2.2将T帧短时能量STEt拼接成大小为T×1的短时能量特征矩阵STE:
STE=[STE1,STE2,...,STET]TRS,
上式中,TRS表示矩阵的转置
S3.3提取过零率,具体为:
S3.3.1计算第t帧过零率ZCRt:
式中sgn(·)为符号函数;
S3.3.2将T帧过零率ZCRt拼接成大小为T×1的过零率特征矩阵ZCR:
ZCR=[ZCR1,ZCR2,...,ZCRT]TRS;
S3.4将MFCCs、ΔMFCCs、STE和ZCR拼接成短时特征矩阵SF:
SF=[MFCCs,△MFCCS,STE,ZCR]T×D
式中,D表示短时特征矩阵的维数。
所述S5采用EM算法训练四个高斯混合模型,具体步骤为:
S5.1设一个G阶混合分量的D维高斯混合模型表示为:
式中:wi表示混合权重系数,bi(F)是D维高斯概率分布,表示为:
式中:ui表示均值,∑i表示协方差矩阵,一个高斯模型表示为:θ={wi,ui,Σi},大小为T×D的特征矩阵F=[F1,F2,...,FT]TRS输入高斯混合模型θ,得到的概率值为:
S5.2求期望:计算函数Q(θ,θ*):
Q(θ,θ*)=E{lnP[(F,i)|θ]}
整理得:
式中ln(·)表示自然对数函数,根据贝叶斯公式,训练特征矩阵在第i个高斯的概率为:
S5.3最大化:根据Q(θ,θ*)函数估计θ*={wi,ui,Σi}:
S5.4EM算法迭代高斯混合模型:当似然函数值达到最大时停止迭代,即当P(F|θ*)值相对上次迭代时的P(F|θ)值增幅小于设定的阈值10-4,则停止迭代,得到最终的模型参数:
混合权重系数:
均值矢量:
协方差矩阵:
S5.5从单人语音的训练样本中提取短时特征矩阵SFS、从重叠语音的训练样本中提取短时特征矩阵SFO;
从单人语音的训练样本中提取长时特征矩阵LFS、从重叠语音的训练样本中提取长时特征矩阵LFO;将SFS、SFO、LFS和LFO依次作为特征矩阵F,再重复S5.1-S5.4训练得到单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL。
所述S6模型融合判决的步骤包括:
S6.1将S3中提取的短时特征矩阵SF和S4中提取的长时特征矩阵LF按照S5训练得到θSS和θSL,并按下式进行模型融合,得到最终的输出概率值:
P1=(1-β)×ln(p(SF|θSS))+β×ln(p(LF|θSL)),
上式中,p(SF|θSS)表示特征矩阵SF输入模型θSS时所得到的输出概率,p(LF|θSL)表示特征矩阵LF输入模型θSL时所得到的输出概率,β为加权系数且取值为:0≤β≤1;
S6.2将上述SF和LF分别输入θOS和θOL,并按下式进行模型融合,得到最终的输出概率值:
P2=(1-β)×ln(p(SF|θOS))+β×ln(p(LF|θOL));
S6.3如果P1>P2,则该测试样本被判为单人语音,否则被判为重叠语音。
本发明的有益效果是:结合长时特征和短时特征,并将长时特征模型和短时特征模型进行融合,利用长时特征和短时特征的互补性提高重叠语音与单人语音区分时的准确率。与目前仅采用短时特征的方法相比,区分准确率提高了5.9%。
附图说明
图1为本发明的工作流程图。
具体实施方式
下面结合具体的实施例与说明书附图进行详细描述。
如图1所示,一种基于长时特征和短时特征的重叠语音与单人语音区分方法,具体包括如下步骤:
步骤101,读入语音文件。语音文件记录有单人语音或重叠语音数据,可以是各种格式的音频文件,例如WAV、RAM、MP3、VOX等。
步骤102,对读入的语音进行预处理,包括预加重、分帧、加窗。
所述预处理具体包括以下步骤:
1)预加重:设置数字滤波器的Z传递函数为H(z)=1-αz-1,其中α为预加重系数且取值为0.95,读入的语音通过该数字滤波器后实现预加重处理;
2)分帧、加窗:
2.1)设置语音帧的帧长为40毫秒、帧移为20毫秒,帧长和帧移所对应的采样点个数分别为N=0.04×fs和S=0.02×fs,其中fs为语音采样频率,将读入语音分割成T个语音帧x't(n),且每帧包含N个采样点;所述N和S越大,同一个语音段被分帧之后得到的帧数T就越小,反之则越大。
2.2)计算汉明窗函数:
2.3)对每一个语音帧x′t(n)加汉明窗,得到xt(n):
步骤103,从经过预处理的语音帧中提取包括梅尔频率倒谱系数MFCCs、一阶差分ΔMFCCs、短时能量STE和过零率ZCR的短时特征,并将它们拼接成一个短时特征矩阵SF。具体步骤如下:
1)提取MFCCs及其一阶差分ΔMFCCs:
1.1)对第t帧语音xt(n)做离散傅立叶变换(Discrete Fourier Transformation,DFT)得到线性频谱Xt(k):
1.2)将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)之间的间隔也较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,f(m)定义如下:
其中,fl、fh为滤波器的频率应用范围的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性谱Xt(k)到对数谱St(m)的函数式为:
1.3)将上述对数频谱St(m)经过离散余弦变换变换到倒谱域,得到第t帧MFCCs,Ct(p):
1.4)计算第t帧MFCCs的一阶差分ΔMFCCs,C′t(p):
其中,Q为常数,实验时取值为3;
1.5)对每帧语音重复步骤1.1)~1.4),得到所有T帧语音的MFCCs和ΔMFCCs,将它们按帧的顺序组合成一个MFCCs矩阵和ΔMFCCs矩阵,再将这两个矩阵合并构成特征矩阵[MFCCs,ΔMFCCs]。
2)提取短时能量,具体为:
2.1)计算第t帧短时能量STEt:
2.2)将T帧短时能量STEt拼接成大小为T×1的短时能量特征矩阵STE:
STE=[STE1,STE2,...,STET]TRS,
式中TRS表示矩阵的转置;
3)提取过零率,具体为:
3.1)计算第t帧过零率ZCRt:
式中sgn(·)为符号函数;
3.2)将T帧过零率ZCRt拼接成大小为T×1的过零率特征矩阵ZCR:
ZCR=[ZCR1,ZCR2,...,ZCRT]TRS;
4)将MFCCs、ΔMFCCs、STE和ZCR拼接成短时特征矩阵SF:
SF=[MFCCs,△MFCCS,STE,ZCR]T×D
式中D表示短时特征矩阵的维数,与所采用的短时特征个数有关,文中采用3个短时特征。如果MFCC和Delta-MFCC各取12阶,STE和ZCR各取1阶,则D值为26。其实,MFCC和ΔMFCCs的阶数确定时,D的值就确定了。
步骤104,计算短时特征参数的统计特征,包括均值、最大值、最小值、中值、均方差,得到长时特征矩阵LF。具体步骤如下:
1)计算均值特征Mean,具体为:
1.1)计算短时特征矩阵SF各维的均值Meanj:
1.2)将各维均值拼接成均值矩阵Mean:
Mean=[Mean1,Mean2,...,MeanD]1×D;
2)计算最大值特征Maxi,具体为:
2.1)计算短时特征矩阵SF各维的最大值Maxij:
式中max(·)表示计算最大值;
2.2)将各维最大值拼接成最大值矩阵Maxi:
Maxi=[Maxi1,Maxi2,...,MaxiD]1×D;
3)计算最小值特征Mini,具体为:
3.1)计算短时特征矩阵SF各维的最小值Minij:
式中min(·)表示计算最小值;
3.2)将各维最小值拼接成最小值矩阵Mini:
Mini=[Mini1,Mini2,...,MiniD]1×D;
4)计算中值特征Medi,具体为:
4.1)计算短时特征矩阵SF各维的中值Medij:
式中median(·)表示计算中值;
4.2)将各维中值拼接成中值矩阵Medi:
Medi=[Medi1,Medi2,...,MediD]1×D;
5)计算标准差特征Std,具体为:
5.1)计算短时特征矩阵SF各维的标准差Stdj:
式中std(·)表示计算标准差;
5.2)将各维标准差拼接成标准差矩阵Std:
Std=[Std1,Std2,...,StdD]1×D;
6)将上述提取出来的5个长时特征拼接成长时特征矩阵LF:
LF=[Mean,Maxi,Mini,Medi,Std]1×D',
式中D'=5×D为长时特征矩阵的维数。
步骤105,采用EM算法训练四个高斯混合模型(GMM):单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL。具体步骤如下:
1)设一个G阶混合分量的D维GMM表示为:
式中wi表示混合权重系数,bi(F)是D维高斯概率分布,表示为:
式中ui表示均值,表示∑i协方差矩阵,一个GMM表示为:θ={wi,ui,Σi},大小为T×D的特征矩阵F=[F1,F2,...,FT]TRS输入高斯混合模型θ,得到的概率值(似然函数值)为:
2)求期望:计算函数Q(θ,θ*):
Q(θ,θ*)=E{lnP[(F,i)|θ]}
整理得:
式中ln(·)表示自然对数函数,根据贝叶斯公式,训练特征矩阵在第i个高斯的概率为:
3)最大化:根据Q(θ,θ*)函数估计θ*={wi,ui,Σi}:
4)EM算法迭代高斯混合模型GMM:当似然函数的值达到最大时停止迭代,即当P(F|θ*)值相对上次迭代时的P(F|θ)值增幅小于设定的阈值10-4,则停止迭代,得到最终的模型参数:
混合权重系数:
均值矢量:
协方差矩阵:
5)按照步骤103,从单人语音的训练样本中提取短时特征矩阵SFS、从重叠语音的训练样本中提取短时特征矩阵SFO;按照步骤104,从单人语音的训练样本中提取长时特征矩阵LFS、从重叠语音的训练样本中提取长时特征矩阵LFO;将SFS、SFO、LFS和LFO依次作为特征矩阵F,再重复步骤1)至4)(即重复采用EM算法)训练得到四个高斯混合模型:单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL。
步骤106,将短时特征矩阵SF和长时特征矩阵LF分别输入短时特征模型θS和长时特征模型θL,将这两种模型的输出概率(p(SF|θS)和p(LF|θL))进行加权(融合)得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。具体步骤如下:
1)分别按照步骤103和步骤104,从读入的测试样本中依次提取短时特征矩阵SF和长时特征矩阵LF;
2)将上述SF和LF分别输入步骤105训练得到的θSS和θSL,并按下式进行模型融合,得到最终的输出概率值:
P1=(1-β)×ln(p(SF|θSS))+β×ln(p(LF|θSL)),
上式中,p(SF|θSS)表示特征矩阵SF输入模型θSS时所得到的输出概率,p(LF|θSL)表示特征矩阵LF输入模型θSL时所得到的输出概率,β为加权系数且取值为:0≤β≤1;
3)将上述SF和LF分别输入θOS和θOL,并按下式进行模型融合,得到最终的输出概率值:
P2=(1-β)×ln(p(SF|θOS))+β×ln(p(LF|θOL));
4)如果P1>P2,则该测试样本被判为单人语音,否则被判为重叠语音;
5)重复步骤1)至4),直到所有测试样本被处理完为止,从而实现重叠语音与单人语音的区分。
所述N、T、n、D均为正整数。
实施例1
实验数据取自汉语普通话自然口语对话语料库(Chinese Annotated Dialogueand Conversation Corpus,CADCC)。语音数据由经过挑选的标准普通话发音人在专业录音环境下录制,共计12个对话单元,每一对话单元有两位发音人。采样频率为16kHz,16bit量化,并保存为单声道WAV格式,库容量约1.6GB。训练数据中,重叠语音样本和单人语音样本各500个;测试数据中,重叠语音样本和单人语音样本分别为427个和505个。重叠语音及单人语音样本的时长范围为0.8~6秒。对每个语音样本分帧并提取特征,帧长为40毫秒,帧移为20毫秒。短时特征矩阵的维数D=28,其中MFCCs和ΔMFCCs的维数各为13,短时能量和过零率的维数各为1。长时特征矩阵的维数D'=140。令NO和NS分别表示标注为重叠语音和单人语音的样本总数(NO+NS表示待区分重叠语音和单人语音样本的总数),N'O和N'S分别表示被正确区分的重叠语音和单人语音样本个数。区分正确率(Discrimination Accuracy,DA)定义为:
为了评估本方法的有效性,实验比较了本方法与基于短时特征的方法的性能差异。实验讨论了7种常用高斯混合度(G)情况下,两种方法的性能差异。表1给出了加权系数β为0~1,高斯混合度G分别为4、8、16、20、25、30、32时的实验结果。
表1区分重叠语音与单人语音的实验结果
根据模型融合表达式P1(或P2),β等于0时的结果即为基于短时特征的区分方法的结果,β等于1.0时的结果即为基于长时特征的区分方法的结果。从表1可知:当高斯混合度G从4增大到32时,(1)长时特征的区分能力都优于短时特征的能力,而且本方法(基于长时特征和短时特征的方法)的区分能力是最优的,验证了本方法的有效性;(2)在β=0.7~1.0时,本方法都取得了最高的区分正确率;(3)在上述7种高斯混合度的情况下,当β=0.8时,本方法的平均区分正确率最高且为92.3%,而基于短时特征的方法(β=0)的平均区分正确率仅为86.4%;与后者相比,区分正确率提高了5.9%。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种基于长时特征和短时特征的重叠语音与单人语音区分方法,其特征在于,包括如下步骤:
S1读入语音:读入记录有重叠语音或单人语音的语音文件;
S2语音预处理:对读入的语音文件进行预加重、分帧、加窗;
S3提取短时特征:从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数MFCCs及其一阶差分ΔMFCCs、短时能量STE、过零率ZCR,将提取的短时特征拼接得到短时特征矩阵SF;
S4提取长时特征:计算短时特征矩阵SF的统计特征,所述统计特征包括均值、最大值、最小值、中值、标准差,得到长时特征矩阵LF;
S5训练高斯混合模型:采用期望最大化算法即EM算法训练四个高斯混合模型,包括单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL,采用期望最大化算法即EM算法训练上述四个高斯混合模型的具体步骤为:
S5.1设一个G阶混合分量的D维高斯混合模型表示为:
其中:D表示特征矩阵的维数,θ表示高斯混合模型,F表示输入高斯混合模型θ的特征矩阵,wi表示第i个高斯模型θi的混合权重系数,bi(F)是第i个D维高斯概率分布,表示为:
式中:ui表示均值,∑i表示协方差矩阵,TRS表示矩阵的转置,一个高斯模型表示为:θi={wi,ui,Σi},大小为T×D的特征矩阵F=[F1,F2,...,FT]TRS输入高斯混合模型θ,得到的概率值为:
式中:T表示特征的帧数,Ft表示第t帧特征矢量;
S5.2求期望:计算函数Q(θ,θ*):
Q(θ,θ*)=E{lnP[(F,θi)|θ]},
整理得:
式中ln(·)表示自然对数函数,根据贝叶斯公式,训练特征矩阵在第i个高斯模型θi的输出概率为:
S5.3最大化:根据Q(θ,θ*)函数估计θ*={w′i,u′i,Σ′i}:
S5.4期望最大化算法即EM算法迭代高斯混合模型:当似然函数值达到最大时停止迭代,即当P(F|θ*)值相对上次迭代时的P(F|θ)值增幅小于设定的阈值,则停止迭代,得到最终的模型参数,所述模型参数如下:
混合权重系数:
均值矢量:
协方差矩阵:
S5.5从单人语音的训练样本中提取单人语音短时特征矩阵SFS、从重叠语音的训练样本中提取重叠语音短时特征矩阵SFO、从单人语音的训练样本中提取单 人长时特征矩阵LFS、从重叠语音的训练样本中提取重叠语音长时特征矩阵LFO;将单人语音短时特征矩阵SFS、重叠语音短时特征矩阵SFO、单人语音长时特征矩阵LFS和重叠语音长时特征矩阵LFO依次作为特征矩阵F,再重复S5.1‐S5.4训练得到单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL;
S6模型融合判决:具体步骤包括:
S6.1将S3中提取的短时特征矩阵SF和S4中提取的长时特征矩阵LF按照S5训练得到单人语音的短时特征模型θSS和单人语音的长时特征模型θSL,并按下式进行模型融合,得到最终的输出概率值:
P1=(1-β)×ln(p(SF|θSS))+β×ln(p(LF|θSL)),
上式中,p(SF|θSS)表示短时特征矩阵SF输入单人语音的短时特征模型θSS时所得到的输出概率,p(LF|θSL)表示长时特征矩阵LF输入单人语音的长时特征模型θSL时所得到的输出概率,β为加权系数且取值为:0≤β≤1;
S6.2将上述SF和LF分别输入重叠语音的短时特征模型θOS和重叠语音的长时特征模型θOL,并按下式进行模型融合,得到最终的输出概率值:
P2=(1-β)×ln(p(SF|θOS))+β×ln(p(LF|θOL));
S6.3如果P1>P2,则测试样本即读入的语音文件被判为单人语音,否则被判为重叠语音。
2.根据权利要求1所述的区分方法,其特征在于,所述S2中对读入的语音文件进行预加重、分帧、加窗,具体步骤为:
S2.1所述预加重,具体为:设置数字滤波器的Z传递函数为H(z)=1-αz-1,其中α取值为:0.9≤α≤1,读入的语音文件通过数字滤波器后实现预加重;
S2.2所述分帧、加窗,具体步骤为:
S2.2.1设置语音帧的帧长为40毫秒、帧移为20毫秒,帧长和帧移所对应的采样点个数分别为N=0.04×fs和S=0.02×fs,其中fs为语音采样频率,将输入语音信号分割成T个语音帧x't(n),且每个语音帧包含N个采样点;
S2.2.2计算汉明窗函数ω(n):
S2.2.3对每一个语音帧x't(n)加汉明窗,得到xt(n):
3.根据权利要求1所述的区分方法,其特征在于,所述S3从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数MFCCs及其一阶差分ΔMFCCs、短时能量STE、过零率ZCR,将提取的短时特征拼接得到短时特征矩阵SF,具体包括如下步骤:
S3.1提取梅尔频率倒谱系数MFCCs及其一阶差分ΔMFCCs,具体为:
S3.1.1对第t帧语音信号xt(n)做离散傅立叶变换,得到线性频谱Xt(k):
S3.1.2将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),0≤m<M,其中M为梅尔滤波器的个数;
S3.1.3将上述对数频谱St(m)经过离散余弦变换变换到倒谱域,得到第t帧梅尔频率倒谱系数Ct(p):
其中,P为梅尔频率倒谱系数的阶数;
S3.1.4计算第t帧梅尔频率倒谱系数的一阶差分C′t(p):
其中,Q为常数;
S3.1.5对每帧语音重复步骤S3.1.1~S3.1.4,得到所有T帧语音的梅尔频率倒谱系数MFCCs及其一阶差分ΔMFCCs,将它们按帧的顺序组合成一个梅尔频率倒谱系数矩阵MFCCs与一阶差分矩阵ΔMFCCs,再将这两个矩阵合并构成特征矩阵[MFCCs,ΔMFCCs];
S3.2提取短时能量,具体为:
S3.2.1计算第t帧短时能量STEt:
S3.2.2将T帧短时能量STEt拼接成大小为T×1的短时能量特征矩阵STE:
STE=[STE1,STE2,...,STET]TRS,
上式中,TRS表示矩阵的转置,T表示帧数;
S3.3提取过零率,具体为:
S3.3.1计算第t帧过零率ZCRt:
式中sgn(·)为符号函数;
S3.3.2将T帧过零率ZCRt拼接成大小为T×1的过零率特征矩阵ZCR:
ZCR=[ZCR1,ZCR2,...,ZCRT]TRS;
S3.4将梅尔频率倒谱系数矩阵MFCCs、一阶差分矩阵ΔMFCCs、短时能量矩阵STE和过零率矩阵ZCR拼接成短时特征矩阵SF:
SF=[MFCCs,△MFCCs,STE,ZCR]T×D,
式中,D表示短时特征矩阵SF的维数。
4.根据权利要求1所述的区分方法,其特征在于,所述S4计算短时特征矩阵SF的统计特征,所述统计特征包括均值、最大值、最小值、中值、标准差,得到长时特征矩阵LF,具体步骤为:
S4.1计算均值特征,具体为:
S4.1.1计算短时特征矩阵SF各维的均值Meanj:
其中,SFt,j表示第t帧第j维短时特征值,D为短时特征的维数,T为短时特征的帧数;
S4.1.2将各维均值拼接成均值矩阵Mean:
Mean=[Mean1,Mean2,...,MeanD]1×D;
S4.2计算最大值特征,具体为:
S4.2.1计算短时特征矩阵SF各维的最大值Maxij:
式中max(·)表示计算最大值;
S4.2.2将各维最大值拼接成最大值矩阵Maxi:
Maxi=[Maxi1,Maxi2,...,MaxiD]1×D;
S4.3计算最小值特征,具体为:
S4.3.1计算短时特征矩阵SF各维的最小值Minij:
式中min(·)表示计算最小值;
S4.3.2将各维最小值拼接成最小值矩阵Mini:
Mini=[Mini1,Mini2,...,MiniD]1×D;
S4.4计算中值特征,具体为:
S4.4.1计算短时特征矩阵SF各维的中值Medij:
式中median(·)表示计算中值;
S4.4.2将各维中值拼接成中值矩阵Medi:
Medi=[Medi1,Medi2,...,MediD]1×D;
S4.5计算标准差特征,具体为:
S4.5.1计算短时特征矩阵SF各维的标准差Stdj:
式中std(·)表示计算标准差;
S4.5.2将各维标准差拼接成标准差矩阵Std:
Std=[Std1,Std2,...,StdD]1×D;
S4.6将上述提取出来的均值、最大值、最小值、中值、标准差特征拼接成长时特征矩阵LF:
LF=[Mean,Maxi,Mini,Medi,Std]1×D',
式中D'=5×D为长时特征矩阵LF的维数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210442113.8A CN102968986B (zh) | 2012-11-07 | 2012-11-07 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210442113.8A CN102968986B (zh) | 2012-11-07 | 2012-11-07 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102968986A CN102968986A (zh) | 2013-03-13 |
CN102968986B true CN102968986B (zh) | 2015-01-28 |
Family
ID=47799093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210442113.8A Expired - Fee Related CN102968986B (zh) | 2012-11-07 | 2012-11-07 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102968986B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135492A (zh) * | 2019-05-13 | 2019-08-16 | 山东大学 | 基于多高斯模型的设备故障诊断与异常检测方法及*** |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530432A (zh) * | 2013-09-24 | 2014-01-22 | 华南理工大学 | 一种具有语音提取功能的会议记录器及语音提取方法 |
CN104992707A (zh) * | 2015-05-19 | 2015-10-21 | 四川大学 | 一种腭裂语音喉塞音自动识别算法及装置 |
CN106611604B (zh) * | 2015-10-23 | 2020-04-14 | 中国科学院声学研究所 | 一种基于深度神经网络的自动语音叠音检测方法 |
CN106847267B (zh) * | 2015-12-04 | 2020-04-14 | 中国科学院声学研究所 | 一种连续语音流中的叠音检测方法 |
CN105578115B (zh) * | 2015-12-22 | 2016-10-26 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评估功能的网络教学方法及*** |
CN106920557A (zh) * | 2015-12-24 | 2017-07-04 | 中国电信股份有限公司 | 一种基于小波变换的分布声纹识别方法和装置 |
CN106531195B (zh) * | 2016-11-08 | 2019-09-27 | 北京理工大学 | 一种对话冲突检测方法及装置 |
CN106941005A (zh) * | 2017-02-24 | 2017-07-11 | 华南理工大学 | 一种基于语音声学特征的声带异常检测方法 |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
CN106982286B (zh) * | 2017-04-26 | 2020-06-09 | 温州青苗影视传媒有限公司 | 一种录音方法、设备和计算机可读存储介质 |
CN107045870B (zh) * | 2017-05-23 | 2020-06-26 | 南京理工大学 | 一种基于特征值编码的语音信号端点检测方法 |
CN108169639B (zh) * | 2017-12-29 | 2020-05-19 | 南京康尼环网开关设备有限公司 | 基于并行长短时记忆神经网络的识别开关柜故障的方法 |
CN108305616B (zh) * | 2018-01-16 | 2021-03-16 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
CN110411554B (zh) * | 2018-04-27 | 2022-04-29 | 华为技术有限公司 | 一种电机设备检测方法、装置及*** |
CN108766459B (zh) * | 2018-06-13 | 2020-07-17 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及*** |
CN109431517A (zh) * | 2018-11-13 | 2019-03-08 | 四川长虹电器股份有限公司 | 一种基于心音的身份识别方法 |
CN109871817B (zh) * | 2019-02-27 | 2021-08-27 | 河北工业大学 | 基于足底压力和自适应集成学习的行走状态识别方法 |
CN112331181A (zh) * | 2019-07-30 | 2021-02-05 | 中国科学院声学研究所 | 一种基于多说话人条件下目标说话人语音提取方法 |
CN110648656A (zh) * | 2019-08-28 | 2020-01-03 | 北京达佳互联信息技术有限公司 | 语音端点检测方法、装置、电子设备及存储介质 |
CN110675845A (zh) * | 2019-09-25 | 2020-01-10 | 杨岱锦 | 人声哼唱精确识别算法及数字记谱方法 |
CN111145782B (zh) * | 2019-12-20 | 2021-07-13 | 深圳追一科技有限公司 | 重叠语音识别方法、装置、计算机设备和存储介质 |
CN111640456B (zh) * | 2020-06-04 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 叠音检测方法、装置和设备 |
CN112750459B (zh) * | 2020-08-10 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 音频场景识别方法、装置、设备及计算机可读存储介质 |
CN112002347B (zh) * | 2020-08-14 | 2024-05-14 | 海宁奕斯伟集成电路设计有限公司 | 语音检测方法、装置和电子设备 |
CN112687390B (zh) * | 2021-03-12 | 2021-06-18 | 中国科学院自动化研究所 | 基于混合网络和lp范数池化的抑郁状态检测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1920947A (zh) * | 2006-09-15 | 2007-02-28 | 清华大学 | 用于低比特率音频编码的语音/音乐检测器 |
CN101236742A (zh) * | 2008-03-03 | 2008-08-06 | 中兴通讯股份有限公司 | 音乐/非音乐的实时检测方法和装置 |
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN102623007A (zh) * | 2011-01-30 | 2012-08-01 | 清华大学 | 基于可变时长的音频特征分类方法 |
CN102682760A (zh) * | 2011-03-07 | 2012-09-19 | 株式会社理光 | 重叠语音检测方法和*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8798983B2 (en) * | 2009-03-30 | 2014-08-05 | Microsoft Corporation | Adaptation for statistical language model |
-
2012
- 2012-11-07 CN CN201210442113.8A patent/CN102968986B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1920947A (zh) * | 2006-09-15 | 2007-02-28 | 清华大学 | 用于低比特率音频编码的语音/音乐检测器 |
CN101236742A (zh) * | 2008-03-03 | 2008-08-06 | 中兴通讯股份有限公司 | 音乐/非音乐的实时检测方法和装置 |
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN102623007A (zh) * | 2011-01-30 | 2012-08-01 | 清华大学 | 基于可变时长的音频特征分类方法 |
CN102682760A (zh) * | 2011-03-07 | 2012-09-19 | 株式会社理光 | 重叠语音检测方法和*** |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135492A (zh) * | 2019-05-13 | 2019-08-16 | 山东大学 | 基于多高斯模型的设备故障诊断与异常检测方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN102968986A (zh) | 2013-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102968986B (zh) | 基于长时特征和短时特征的重叠语音与单人语音区分方法 | |
Ai et al. | Classification of speech dysfluencies with MFCC and LPCC features | |
CN102800316B (zh) | 基于神经网络的声纹识别***的最优码本设计方法 | |
Ali et al. | Automatic speech recognition technique for Bangla words | |
CN102968990B (zh) | 说话人识别方法和*** | |
CN110970036B (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
CN101226743A (zh) | 基于中性和情感声纹模型转换的说话人识别方法 | |
CN102486920A (zh) | 音频事件检测方法和装置 | |
CN102655003B (zh) | 基于声道调制信号mfcc的汉语语音情感点识别方法 | |
Sinith et al. | A novel method for text-independent speaker identification using MFCC and GMM | |
Tolba | A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach | |
CN103985390A (zh) | 一种基于伽马通相关图语音特征参数提取方法 | |
Chauhan et al. | Speech to text converter using Gaussian Mixture Model (GMM) | |
CN103258537A (zh) | 利用特征结合对语音情感进行识别的方法及其装置 | |
Nidhyananthan et al. | Language and text-independent speaker identification system using GMM | |
Gamit et al. | Isolated words recognition using mfcc lpc and neural network | |
Chee et al. | Automatic detection of prolongations and repetitions using LPCC | |
Kaur et al. | Analysis of feature extraction methods for speaker dependent speech recognition | |
Sapijaszko et al. | An overview of recent window based feature extraction algorithms for speaker recognition | |
Le et al. | A study of voice source and vocal tract filter based features in cognitive load classification | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Vachhani et al. | Use of PLP cepstral features for phonetic segmentation | |
Medhi et al. | Isolated assamese speech recognition using artificial neural network | |
Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language | |
Jagtap et al. | Speaker verification using Gaussian mixture model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150128 Termination date: 20201107 |
|
CF01 | Termination of patent right due to non-payment of annual fee |