CN104361894A - 一种基于输出的客观语音质量评估的方法 - Google Patents

一种基于输出的客观语音质量评估的方法 Download PDF

Info

Publication number
CN104361894A
CN104361894A CN201410696593.XA CN201410696593A CN104361894A CN 104361894 A CN104361894 A CN 104361894A CN 201410696593 A CN201410696593 A CN 201410696593A CN 104361894 A CN104361894 A CN 104361894A
Authority
CN
China
Prior art keywords
sigma
model
beta
state
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410696593.XA
Other languages
English (en)
Inventor
李庆生
刘良江
卞昕
柏文琦
周鑫
彭正梁
徐昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN MEASUREMENT INSPECTION RESEARCH INSTITUTE
National Institute of Metrology
Hunan Institute of Metrology and Test
Original Assignee
HUNAN MEASUREMENT INSPECTION RESEARCH INSTITUTE
National Institute of Metrology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUNAN MEASUREMENT INSPECTION RESEARCH INSTITUTE, National Institute of Metrology filed Critical HUNAN MEASUREMENT INSPECTION RESEARCH INSTITUTE
Priority to CN201410696593.XA priority Critical patent/CN104361894A/zh
Publication of CN104361894A publication Critical patent/CN104361894A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于输出的客观语音质量评估的方法,其步骤如下:首先提取干净语音的非均匀线形预测倒谱系数用来对GMM-HMM模型进行训练,通过训练给干净语音建立参考模型;然后由所述参考模型和失真语音的非均匀线形预测倒谱系数向量可以得到它们之间的一致性测度;最后,通过多元非线性回归模型建立主观MOS分和一致性测度之间的映射关系,可以得到对MOS分的客观预测模型,通过所述客观预测模型进行语音质量的客观评价。本发明建立主观MOS分和客观测度之间的映射关系,得到对主观MOS分的预测模型,使得分更接近主观质量。

Description

一种基于输出的客观语音质量评估的方法
技术领域
本发明涉及语音信号处理技术领域,具体为一种基于输出的客观语音质量评估的方法。
背景技术
语音质量客观评价从评价方法上可分为侵入式(intrusive)和非侵入式(non-intrusive)。侵入式的评价通常也被称为双端或基于输入-输出的评价,它是以语音***的输入信号和输出信号之间的误差大小来判断语音质量的好坏,通过提取两端语音信号的特征参量来建立评价模型。非侵入式的评价也被称为单端或基于输出的评价,它仅根据语音***的输出信号来进行质量评价。基于输入-输出的评价,在评价语音质量时必须要有原始语音。而在实际应用中,某些场合中难以或者不便于采集到原始语音材料。因此,对该的语音材料的评估需要有一种科学客观的语音质量评估方法。
在客观语音质量评估中,选择特征参数是至关重要的,它影响着评估***的性能。由于人耳对声音的感知特性并不是以线性频率为尺度来变化的,而是用称之为巴克的临界频带的一系列有限频段来表达。故一般在特征参数提取时要通过频谱弯折来实现对人的听觉特性的模拟。如在MFCC参数时,将频谱转化为基于Mel评标的非线性频谱。带宽类似人耳听觉临界谱带的滤波器组来实现频谱弯折。而PLP参数将频域划分为22个频带,取中间20个频带。将每个频带内的能量谱与知觉驱动的加权重函数相乘得到临界听觉谱带,以此实现频谱弯折。显然在上面两种特征参数提取时,线性频率和弯曲频率间的变换计算量是比较大的。
发明内容
本申请的目的在于克服现有技术的不足,提供一种基于输出的客观语音质量评估的方法,这种方法在评估时不需要原始语音,通过结合非均匀线性预测倒谱系数和GMM-HMM的语音质量客观评估方法,建立主观MOS分和客观测度之间的映射关系,得到对主观MOS分的预测模型,从而可以用来客观评价编码或经信道传输后的语音质量。
为了达到上述目的,本发明的技术方案如下:
一种基于输出的客观语音质量评估的方法,其步骤如下:
首先提取干净语音的非均匀线形预测倒谱系数用来对GMM-HMM模型进行训练,通过训练给干净语音建立参考模型;
然后由所述参考模型和失真语音的非均匀线形预测倒谱系数向量可以得到它们之间的一致性测度;
最后,通过多元非线性回归模型建立主观MOS分和一致性测度之间的映射关系,可以得到对MOS分的客观预测模型,通过所述客观预测模型进行语音质量的客观评价。
进一步,所述非均匀线形预测倒谱系数为5阶的非均匀感知线性预测倒谱(NLPC)的特征参数,其处理步骤如下:
1、预处理,在提取NLPC参数前要进行预处理,预处理包括预加重,分帧和加窗:
(1)预加重,所述预加重用具有6dB/倍频程的提升高频特性的数字滤波器来实现,其传递函数为:
H(z)=1-μz-1   (1)
其中μ为预加重系数,可取为1或比1稍小的值,一般取μ=0.95;
(2)分帧,将语音信号划分为一个一个的短时段,每一短时段称为一帧,每一帧的长度为10-30ms,所述分帧为交叠分段的方法,即每一帧的帧尾与下一帧的帧头是重叠的;
(3)加窗,设帧信号为x(n),窗函数为w(n),则加窗后的信号y(n)为:
y(n)=x(n)w(n),0≤n≤N-1   (2)
其中,N为每帧的取样点数,所述窗函数是Hamming窗,即升余弦窗:
w(n)=0.54-0.46cos[2πn/(N-1)],0≤n≤N-1   (3)
2、基于Bark双线性变换的频谱弯折,设线性频域为z平面,弯曲频域为l平面,则选择三个特殊的点(ζ1,z1)、(ζ2,z2)和(ζ3,z3),通过一阶双线性变换可以确定z平面和l平面的映射关系:
( ζ - ζ 1 ) ( ζ 2 - ζ 3 ) ( ζ 2 - ζ 1 ) ( ζ - ζ 3 ) = ( z - z 1 ) ( z 2 - z 3 ) ( z 2 - z 1 ) ( z - z 3 ) - - - ( 4 )
考虑到线性频域和Bark谱域的特点,则取z1=ζ1=1,z2=ζ2=-1,可以得到下式:
z = A p ( ζ ) = ζ + ρ 1 + ζρ - - - ( 5 )
其中z和ω为复数,常数ρ为弯折系数,且0<ρ<1;显然式(7-4)为全通***,它将z平面的单位圆映射为ζ平面的单位圆;在进行频谱弯折时,z为线性频域,ζ为Bark谱域,则有z=e,ζ=e;故弯曲频率θ可以由下式求出:
θ = arctan [ ( 1 - ρ 2 ) sin ω - 2 ρ + ( 1 + ρ 2 ) cos ω ] - - - ( 6 )
若原始***具有截止频率为ωp的分段恒定低通频率响应,经过双线性变换,***将同样具有类似的截止频率为θp的低通响应,ρ、ωp和θp满足如下公式:
ρ = sin [ ( θ p - ω p ) / 2 ] sin [ ( θ p + ω p ) / 2 ] - - - ( 7 )
对ρ的优化取决于语音信号的采样频率fs,本发明采用的ρ的优化形式:
ρ Y = 1.067 [ 2 π arctan ( 0.6583 f s ) ] 1 2 - 0.191 - - - ( 8 )
3、非均匀线性预测倒谱的特征参数提取,非均匀线性预测倒谱特征参数的计算步骤如下:
1)通过每帧语音信号,采用p阶线性预测分析计算出声道全极点传输函数H(z)
H ( z ) = G A ( z ) = G 1 - Σ k = 1 P a k z - k - - - ( 9 )
式中G为增益常数,ak为第k阶线性预测参数,取p=12;
2)对向量a(n)=[1,-a1,…-ap]进行DFT变换得到A(e);在A(e)上非均匀取M个点,则有
A ~ ( k ) = Σ n = 0 p a n e - j θ k n , k = 0,1 , . . . , M - 1 - - - ( 10 )
其中θk为利用双线性变换逼近的巴克频率刻度,它与原始线性频率之间的关系为:
θ k = arctan [ e j 2 πk / M + ρ 1 + ρe j 2 πk / M ] - - - ( 11 )
其中ρ是由采样频率决定的频率弯折因子,考虑Bark谱域有22个频带,本发明中M取为88;
3)弯折后的LPC谱为
P ~ ( k ) = G 2 | A ~ ( k ) | 2 - - - ( 12 )
用q阶AR模型来逼近得到声道时域相应的自相关函数:
r ( n ) = 1 M Σ k = 0 M - 1 P ~ ( k ) cos ( 2 πkn / M ) , n = 0,1 , . . . , q - - - ( 13 )
4)根据莱文逊-德宾(Levinson-Durbin)算法,从r(n)可以求得一组新的线性预测系数n=0,1,…,q,根据式(7-14)可以由线性预测系数得出倒谱系数cn,该参数即为NLPC参数:
c 1 = a ~ 1
c n = a ~ n + &Sigma; k = 1 n - 1 ( 1 - k n ) a ~ k c n - k , 1 < n &le; p
c n = &Sigma; k = 1 n - 1 ( 1 - k n ) a ~ k c n - k , n > p - - - ( 14 ) .
进一步,所述参考语音模型是通过采用HMM模型对特征向量进行分类,然后通过GMM对每一类特征向量建模,其方法如下:
1、基于GMM-HMM的语音建模和训练,设观测的特征向量序列为O=o1,o2,…,oT,该序列的状态模型序列为S=s1,s2,…,sN,则该序列的HMM模型可表示为:
λ=(π,A,B)   (15)
其中,π={πi=P(s1=i),i=1,2,…,N}为初始状态概率矢量;A={aij}为状态间跳转的转移概率矩阵,aij为从状态i跳转到状态j的概率;B={bi(ot)=P(ot|st=i),2≤i≤N-1}为状态的输出概率分布集;
对连续HMM模型,观测序列为连续信号,其与状态j对应的信号空间用M个混合高斯密度函数的和来表示:
b j ( o t ) = &Sigma; k = 1 M c jk N ( o t , &mu; jk , C jk ) , 1 &le; j &le; N - - - ( 16 )
N ( o t , &mu; jk , C jk ) = ( 2 &pi; ) - D / 2 | C jk | - 1 / 2 exp ( - 1 2 ( o t - &mu; jk ) T C jk - 1 ( o t - &mu; jk ) ) - - - ( 17 )
其中,cjk表示状态j的第k个高斯混合密度函数的系数;μjk是高斯密度函数的均值向量;Cjk为协方差矩阵,D为观测序列O的维数;HMM参数可以观测序列O=o1,o2,…,oT估计得到,估计的目标是使模型与训练数据的似然函数P(O|λ)最大化来估计最新的λ,即使这可以采用EM算法来实现,所述EM算法包含两部分:前向后向概率计算和HMM参数及高斯混合参数的再估计;
上述似然函数p(O|λ)的前向概率计算公式如下:
P ( O | &lambda; ) = &Sigma; i = 1 N &alpha; T ( i ) - - - ( 18 )
其中
a1(i)=πbi(o1),1≤i≤N
&alpha; t + 1 ( i ) = [ &Sigma; i = 1 N &alpha; t ( i ) a ij ] b j ( o t + 1 ) , 1 &le; t &le; T - 1 , 1 &le; j &le; N
似然函数p(O|λ)的后向概率计算公式如下:
P ( O | &lambda; ) = &Sigma; i = 1 N &pi; i b 1 ( o i ) &beta; 1 ( i ) - - - ( 19 )
其中
βi(T)=1,1≤i≤N
&beta; t ( i ) = &Sigma; j = 1 N a ij b j ( o i + 1 ) &beta; t + 1 ( j ) , t = T - 1 , T - 2 , . . . , 1,1 &le; j &le; N
对给定观测序列O=o1,o2,…,oT通过重估计得到最新的λ,在此定义ξt(i,j)为t时刻状态为si且t+1时刻状态为sj的概率,可由下式得到
&xi; t ( i , j ) = P S | O , &lambda; ( s t = s i , s t + 1 = s j | O , &lambda; ) = &alpha; t ( i ) a ij b j ( o t + 1 ) &beta; t + 1 ( j ) &Sigma; i = 1 N &Sigma; j = 1 N &alpha; t ( i ) a ij b j ( o t + 1 ) &beta; t + 1 ( j ) - - - ( 20 )
在给定模型λ和观测序列O的条件下,状态si在时刻t的后验概率为
&gamma; t ( i ) = P S | O , &lambda; ( s t = i | O , &lambda; ) = &alpha; t ( i ) &beta; t ( i ) &Sigma; j = 1 N &alpha; t ( i ) &beta; t ( i ) = &Sigma; j = 1 N &xi; t ( i , j ) - - - ( 21 )
由此,HMM参数λ重估计如下
&pi; &OverBar; i = &gamma; 1 ( i ) - - - ( 22 )
a &OverBar; ij = &Sigma; t = 1 T - 1 &xi; t ( i , j ) &Sigma; t = 1 T - 1 &gamma; t ( i ) - - - ( 23 )
在t时刻状态j第k个高斯混合分量的参数cjk,μjk和Cjk可以由下列式子重新估计:
c &OverBar; jk = &Sigma; t = 1 T &gamma; t ( j , k ) &Sigma; t = 1 T &Sigma; k = 1 M &gamma; t ( j , k ) - - - ( 24 )
&mu; &OverBar; jk = &Sigma; t = 1 T &gamma; t ( j , k ) o t &Sigma; t = 1 T &gamma; t ( j , k ) - - - ( 25 )
C &OverBar; jk = &Sigma; t = 1 T &gamma; t ( j , k ) ( o t - &mu; jk ) ( o t - &mu; jk ) T &Sigma; t = 1 T &gamma; t ( j , k ) - - - ( 26 )
其中,γt(j,k)表示在t时刻状态j第k个高斯混合分量的概率,可由下式得到
&gamma; t ( j , k ) = &alpha; t ( j ) &beta; t ( j ) &Sigma; i = 1 N &alpha; t ( i ) &beta; t ( i ) [ c jk N ( o t , &mu; jk , C jk ) &Sigma; m = 1 M c jm N ( o t , &mu; jm , C jm ) ] - - - ( 27 )
2、基于多元非线性自回归分析的MOS分预测,在对参考语音建模及训练后,对失真语音的特征向量序列可以由Viterbi译码算法计算其状态模型序列 S t = { s t 1 , s t 2 , . . . , s t T } , 使
P { O t , S t | &lambda; } = max S P { O t , S | &lambda; } - - - ( 28 )
同时也可得到第i帧的失真语音特征向量序列处于对应状态模型的概率其中S=s1,s2,…,sN,当所有失真语音特征向量序列的状态模型确定后,此段语音中所有处于状态模型si的语音帧数由可以计算出来,状态模型si下参考语音参数模型与失真语音参数向量的一致性测度的计算公式如下:
c i = 1 N s i &Sigma; j = 1 N s i log p ( o j | s i ) - - - ( 29 )
其中oj是处于状态模型si的第j个失真语音参数向量,ci表示处于状态模型si语音帧的一致性测度,其值越大表示失真语音与参考语音一致性越好,对每一类状态模型的失真语音帧都计算出其一致性测度,然后通过MOS映射来得到最终对失真语音MOS分的预测值;
求出每一类语音帧的一致性测度后可以用一种函数映射关系来表示一致性测度与MOS分的映射关系:
其中,f(·)为预测函数,它可以是线性或非线性回归关系,也可以是多项式拟合关系;ε为预测方差;是通过f(·)预测出的MOS分,假定MOS分映射关系f(·)为非线性关系,通过多元非线性回归模型来建立;
主观MOS分与一致性测度间的映射关系f(·)的非线性关系可用如下多元非线性回归模型描述:
f ( c i ) = &Sigma; i = 1 N &Sigma; k = 1 K &beta; ik c i k + &beta; 0 - - - ( 31 )
其中,表示处于状态模型si语音帧的一致性测度ci的k次方;令则上述多元非线性回归模型可以转化为多元线性回归模型,即
f ( c i ) = &Sigma; i = 1 N ( &beta; i 1 c i 1 + &beta; i 2 c i 2 + . . . + &beta; iK c iK ) + &beta; 0 - - - ( 32 )
F=[f(1)(ci),f(2)(ci),…,f(n)(ci)]   (33)
β=[β011,…,β1K,…,βN1,…,βNK]T   (34)
C = 1 c 11 ( 1 ) . . . c 1 K ( 1 ) . . . c N 1 ( 1 ) . . . c NK ( 1 ) 1 c 11 ( 2 ) . . . c 1 K ( 2 ) . . . c N 1 ( 2 ) . . . c NK ( 2 ) . . . . . . . . . . . . . . . . . . . . . . . . 1 c 11 ( n ) . . . c 1 K ( n ) . . . c N 1 ( n ) . . . c NK ( n ) - - - ( 35 )
其中,f(1)(ci),f(2)(ci),…,f(n)(ci)表示1,2,…,n个观测值;矩阵C中各元素的上标代表各模型一致性测度的1,2,…,n个观测值;
根据最小二乘法原理,回归系数的估计值应满足
( C T C ) &beta; ^ = C T F - - - ( 36 )
式中,C是n行(N×K+1)列的矩阵;N为HMM参考模型的个数;K为多项式的阶数;(N×K+1)表示多元非线性回归模型转化为多元线性回归模型的变量数;所述观测值的个数n要大于变量数,所述矩阵C是行满秩矩阵,CT是列满秩矩阵,根据矩阵的秩的性质有
R(C)=R(CT)=R(CTC)   (37)
矩阵CTC是满秩矩阵,即对称矩阵CTC可逆,从而(CTC)-1存在,β的最小二乘估计
&beta; ^ = ( C T C ) - 1 C T F - - - ( 38 )
对式(38)根据最小二乘法进行求解,便可求得回归系数。
本发明具有以下优点:
1)用Bark双线性变换来逼近Bark频率刻度,从而拉伸语音的低频信息和压制高频信息,得到一种称为非均匀线性预测倒谱的特征参数。它可用于语音鲁棒性分析和语音识别,抑制依赖于说话人的特征,保留语音段的语言学的质量;
2)本发明建立主观MOS分和客观测度之间的映射关系,得到对主观MOS分的预测模型,使得分更接近主观质量。
附图说明
图1为基于GMM-HMM模型的语音质量评估算法的原理框图。
具体实施方式
1.NLPC倒谱特征参数提取
为了减少计算量,本发明采用Bark双线性变换来逼近Bark频率刻度,从而拉伸语音的低频信息和压制高频信息,得到一种称为非均匀线性预测倒谱的特征参数。它可用于语音鲁棒性分析和语音识别,抑制依赖于说话人的特征,保留语音段的语言学的质量。考虑到高阶参数中包含了较多依赖于说话人的特征信息,故本发明采用5阶的非均匀感知线性预测倒谱(NLPC,Non-uniform Linear Prediction Cepstrum)的特征参数来进行语音质量分析。
1.1.预处理
在提取NLPC参数前要进行预处理,预处理包括预加重,分帧和加窗:
(1)预加重
由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB/倍频程跌落,为此要进行预加重。预加重的目的是将更为有用的高频部分的频谱进行提升,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于进行频谱分析或声道参数分析。预加重一般用具有6dB/倍频程的提升高频特性的数字滤波器来实现,其传递函数为:
H(z)=1-μz-1   (1)
其中μ为预加重系数,可取为1或比1稍小的值,一般取μ=0.95。
(2)分帧
由于语音信号的准平稳特性,使得只在短时段上才可视为是一个平稳过程,可以用对平稳过程的分析方法进行分析,因此需要将语音信号划分为一个一个的短时段,每一短时段称为一帧,每一帧的长度大概为10-30ms。分帧可以采用连续分段的方法,但为了使帧与帧之间平滑过渡,保持其连贯性,一般采用交叠分段的方法,即每一帧的帧尾与下一帧的帧头是重叠的。
(3)加窗
为了减小语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过渡到零,就要让语音帧乘以一个窗函数。设帧信号为x(n),窗函数为w(n),则加窗后的信号y(n)为:
y(n)=x(n)w(n),0≤n≤N-1   (2)
其中,N为每帧的取样点数。
常用的窗函数是Hamming窗,即升余弦窗:
w(n)=0.54-0.46cos[2πn/(N-1)],0≤n≤N-1   (3)
1.2.基于Bark双线性变换的频谱弯折
频谱弯折的目的在于使得低频部分被扩展,而高频部分被压缩,完成了线性频率到弯曲频率的变换。若能确立线性频域到弯曲频域的映射关系,就能很方便地实现频谱弯折。设线性频域为z平面,弯曲频域为l平面,则选择三个特殊的点(ζ1,z1)、(ζ2,z2)和(ζ3,z3),通过一阶双线性变换可以确定z平面和l平面的映射关系:
( &zeta; - &zeta; 1 ) ( &zeta; 2 - &zeta; 3 ) ( &zeta; 2 - &zeta; 1 ) ( &zeta; - &zeta; 3 ) = ( z - z 1 ) ( z 2 - z 3 ) ( z 2 - z 1 ) ( z - z 3 ) - - - ( 4 )
考虑到线性频域和Bark谱域的特点,则取z1=ζ1=1,z2=ζ2=-1。可以得到下式:
z = A p ( &zeta; ) = &zeta; + &rho; 1 + &zeta;&rho; - - - ( 5 )
其中z和ω为复数,常数ρ为弯折系数,且0<ρ<1。显然式(7-4)为全通***,它将z平面的单位圆映射为ζ平面的单位圆。在进行频谱弯折时,z为线性频域,ζ为Bark谱域,则有z=e,ζ=e。故弯曲频率θ可以由下式求出:
&theta; = arctan [ ( 1 - &rho; 2 ) sin &omega; - 2 &rho; + ( 1 + &rho; 2 ) cos &omega; ] - - - ( 6 )
若原始***具有截止频率为ωp的分段恒定低通频率响应,经过双线性变换,***将同样具有类似的截止频率为θp的低通响应,ρ、ωp和θp满足如下公式:
&rho; = sin [ ( &theta; p - &omega; p ) / 2 ] sin [ ( &theta; p + &omega; p ) / 2 ] - - - ( 7 )
对ρ的优化取决于语音信号的采样频率fs,本发明采用的ρ的优化形式:
&rho; Y = 1.067 [ 2 &pi; arctan ( 0.6583 f s ) ] 1 2 - 0.191 - - - ( 8 )
1.3.非均匀线性预测倒谱的特征参数提取
非均匀线性预测倒谱特征参数的计算步骤如下:
1)通过每帧语音信号,采用p阶线性预测分析计算出声道全极点传输函数H(z)
H ( z ) = G A ( z ) = G 1 - &Sigma; k = 1 P a k z - k - - - ( 9 )
式中G为增益常数,ak为第k阶线性预测参数。本发明中取p=12。
2)对向量a(n)=[1,-a1,…-ap]进行DFT变换得到A(e)。在A(e)上非均匀取M个点,则有
A ~ ( k ) = &Sigma; n = 0 p a n e - j &theta; k n , k = 0,1 , . . . , M - 1 - - - ( 10 )
其中θk为利用双线性变换逼近的巴克频率刻度,它与原始线性频率之间的关系为:
&theta; k = arctan [ e j 2 &pi;k / M + &rho; 1 + &rho;e j 2 &pi;k / M ] - - - ( 11 )
其中ρ是由采样频率决定的频率弯折因子,考虑Bark谱域有22个频带,本发明中M取为88。
3)弯折后的LPC谱为
P ~ ( k ) = G 2 | A ~ ( k ) | 2 - - - ( 12 )
用q阶AR模型来逼近得到声道时域相应的自相关函数:
r ( n ) = 1 M &Sigma; k = 0 M - 1 P ~ ( k ) cos ( 2 &pi;kn / M ) , n = 0,1 , . . . , q - - - ( 13 )
4)根据莱文逊-德宾(Levinson-Durbin)算法,从r(n)可以求得一组新的线性预测系数n=0,1,…,q。根据式(7-14)可以由线性预测系数得出倒谱系数cn,该参数即为NLPC参数。
c 1 = a ~ 1
c n = a ~ n + &Sigma; k = 1 n - 1 ( 1 - k n ) a ~ k c n - k , 1 < n &le; p
c n = &Sigma; k = 1 n - 1 ( 1 - k n ) a ~ k c n - k , n > p - - - ( 14 )
2.基于GMM-HMM非侵入式语音质量评估
在基于非侵入式的语音质量评估方法中,因为没有原始语音,所以必须建立参考语音模型,通过对比失真语音特征向量与参考语音模型的距离来预测失真语音的质量。为了建立参考语音模型,本发明中采用HMM模型对特征向量进行分类,然后通过GMM对每一类特征向量建模。
2.1.基于GMM-HMM的语音建模和训练
设观测的特征向量序列为O=o1,o2,…,oT,该序列的状态模型序列为S=s1,s2,…,sN,则该序列的HMM模型可表示为:
λ=(π,A,B)   (15)
其中,π={πi=P(s1=i),i=1,2,…,N}为初始状态概率矢量;A={aij}为状态间跳转的转移概率矩阵,aij为从状态i跳转到状态j的概率;B={bi(ot)=P(ot|st=i),2≤i≤N-1}为状态的输出概率分布集。
对连续HMM模型,观测序列为连续信号,其与状态j对应的信号空间用M个混合高斯密度函数的和来表示:
b j ( o t ) = &Sigma; k = 1 M c jk N ( o t , &mu; jk , C jk ) , 1 &le; j &le; N - - - ( 16 )
N ( o t , &mu; jk , C jk ) = ( 2 &pi; ) - D / 2 | C jk | - 1 / 2 exp ( - 1 2 ( o t - &mu; jk ) T C jk - 1 ( o t - &mu; jk ) ) - - - ( 17 )
其中,cjk表示状态j的第k个高斯混合密度函数的系数;μjk是高斯密度函数的均值向量;Cjk为协方差矩阵,D为观测序列O的维数。HMM参数可以观测序列O=o1,o2,…,oT估计得到,估计的目标是使模型与训练数据的似然函数P(O|λ)最大化来估计最新的λ,即使这可以采用EM算法(又称为Baum-Welch算法)来实现。这一算法包含两部分:前向后向概率计算和HMM参数及高斯混合参数的再估计。
似然函数p(O|λ)的前向概率计算公式如下:
P ( O | &lambda; ) = &Sigma; i = 1 N &alpha; T ( i ) - - - ( 18 )
其中
a1(i)=πbi(o1),1≤i≤N
&alpha; t + 1 ( i ) = [ &Sigma; i = 1 N &alpha; t ( i ) a ij ] b j ( o t + 1 ) , 1 &le; t &le; T - 1 , 1 &le; j &le; N
似然函数p(O|λ)的后向概率计算公式如下:
P ( O | &lambda; ) = &Sigma; i = 1 N &pi; i b 1 ( o i ) &beta; 1 ( i ) - - - ( 19 )
其中
βi(T)=1,1≤i≤N
&beta; t ( i ) = &Sigma; j = 1 N a ij b j ( o i + 1 ) &beta; t + 1 ( j ) , t = T - 1 , T - 2 , . . . , 1,1 &le; j &le; N
对给定观测序列O=o1,o2,…,oT通过重估计得到最新的λ。在此定义ξt(i,j)为t时刻状态为si且t+1时刻状态为sj的概率,可由下式得到
&xi; t ( i , j ) = P S | O , &lambda; ( s t = s i , s t + 1 = s j | O , &lambda; ) = &alpha; t ( i ) a ij b j ( o t + 1 ) &beta; t + 1 ( j ) &Sigma; i = 1 N &Sigma; j = 1 N &alpha; t ( i ) a ij b j ( o t + 1 ) &beta; t + 1 ( j ) - - - ( 20 )
在给定模型λ和观测序列O的条件下,状态si在时刻t的后验概率为
&gamma; t ( i ) = P S | O , &lambda; ( s t = i | O , &lambda; ) = &alpha; t ( i ) &beta; t ( i ) &Sigma; j = 1 N &alpha; t ( i ) &beta; t ( i ) = &Sigma; j = 1 N &xi; t ( i , j ) - - - ( 21 )
由此,HMM参数λ重估计如下
&pi; &OverBar; i = &gamma; 1 ( i ) - - - ( 22 )
a &OverBar; ij = &Sigma; t = 1 T - 1 &xi; t ( i , j ) &Sigma; t = 1 T - 1 &gamma; t ( i ) - - - ( 23 )
在t时刻状态j第k个高斯混合分量的参数cjk,μjk和Cjk可以由下列式子重新估计:
c &OverBar; jk = &Sigma; t = 1 T &gamma; t ( j , k ) &Sigma; t = 1 T &Sigma; k = 1 M &gamma; t ( j , k ) - - - ( 24 )
&mu; &OverBar; jk = &Sigma; t = 1 T &gamma; t ( j , k ) o t &Sigma; t = 1 T &gamma; t ( j , k ) - - - ( 25 )
C &OverBar; jk = &Sigma; t = 1 T &gamma; t ( j , k ) ( o t - &mu; jk ) ( o t - &mu; jk ) T &Sigma; t = 1 T &gamma; t ( j , k ) - - - ( 26 )
其中,γt(j,k)表示在t时刻状态j第k个高斯混合分量的概率,可由下式得到
&gamma; t ( j , k ) = &alpha; t ( j ) &beta; t ( j ) &Sigma; i = 1 N &alpha; t ( i ) &beta; t ( i ) [ c jk N ( o t , &mu; jk , C jk ) &Sigma; m = 1 M c jm N ( o t , &mu; jm , C jm ) ] - - - ( 27 )
2.2.基于多元非线性自回归分析的MOS分预测
在对参考语音建模及训练后,对失真语音的特征向量序列可以由Viterbi(维特比)译码算法计算其状态模型序列使
P { O t , S t | &lambda; } = max S P { O t , S | &lambda; } - - - ( 28 )
同时也可得到第i帧的失真语音特征向量序列处于对应状态模型的概率其中S=s1,s2,…,sN。当所有失真语音特征向量序列的状态模型确定后,此段语音中所有处于状态模型si的语音帧数由可以计算出来。状态模型si下参考语音参数模型与失真语音参数向量的一致性测度的计算公式如下:
c i = 1 N s i &Sigma; j = 1 N s i log p ( o j | s i ) - - - ( 29 )
其中oj是处于状态模型si的第j个失真语音参数向量。ci表示处于状态模型si语音帧的一致性测度,其值越大表示失真语音与参考语音一致性越好。对每一类状态模型的失真语音帧都计算出其一致性测度,然后通过MOS映射来得到最终对失真语音MOS分的预测值。
求出每一类语音帧的一致性测度后可以用一种函数映射关系来表示一致性测度与MOS分的映射关系:
其中,f(·)为预测函数,它可以是线性或非线性回归关系,也可以是多项式拟合关系;ε为预测方差;是通过f(·)预测出的MOS分。本发明中假定MOS分映射关系f(·)为非线性关系,通过多元非线性回归模型来建立。
主观MOS分与一致性测度间的映射关系f(·)的非线性关系可用如下多元非线性回归模型描述:
f ( c i ) = &Sigma; i = 1 N &Sigma; k = 1 K &beta; ik c i k + &beta; 0 - - - ( 31 )
其中,表示处于状态模型si语音帧的一致性测度ci的k次方。令则上述多元非线性回归模型可以转化为多元线性回归模型,即
f ( c i ) = &Sigma; i = 1 N ( &beta; i 1 c i 1 + &beta; i 2 c i 2 + . . . + &beta; iK c iK ) + &beta; 0 - - - ( 32 )
F=[f(1)(ci),f(2)(ci),…,f(n)(ci)]   (33)
β=[β011,…,β1K,…,βN1,…,βNK]T   (34)
C = 1 c 11 ( 1 ) . . . c 1 K ( 1 ) . . . c N 1 ( 1 ) . . . c NK ( 1 ) 1 c 11 ( 2 ) . . . c 1 K ( 2 ) . . . c N 1 ( 2 ) . . . c NK ( 2 ) . . . . . . . . . . . . . . . . . . . . . . . . 1 c 11 ( n ) . . . c 1 K ( n ) . . . c N 1 ( n ) . . . c NK ( n ) - - - ( 35 )
其中,f(1)(ci),f(2)(ci),…,f(n)(ci)表示1,2,…,n个观测值;矩阵C中各元素的上标代表各模型一致性测度的1,2,…,n个观测值。
根据最小二乘法原理,回归系数的估计值应满足
( C T C ) &beta; ^ = C T F - - - ( 36 )
式中,C是n行(N×K+1)列的矩阵;N为HMM参考模型的个数;K为多项式的阶数;(N×K+1)表示多元非线性回归模型转化为多元线性回归模型的变量数。为了获得比较准确的结果,通常观测值的个数n要大于变量数。因此,矩阵C是行满秩矩阵,CT是列满秩矩阵。根据矩阵的秩的性质有
R(C)=R(CT)=R(CTC)   (37)
因此,矩阵CTC是满秩矩阵,即对称矩阵CTC可逆,从而(CTC)-1存在。因此β的最小二乘估计
&beta; ^ = ( C T C ) - 1 C T F - - - ( 38 )
对式(38)根据最小二乘法进行求解,便可求得回归系数。
3.基于NLPC系数和GMM-HMM模型的非侵入式语音质量评估方法
基于NLPC系数和GMM-HMM模型的非侵入式语音质量评估方法原理框图如图1所示。具体步骤为:
1)原始语音经过通信***后得到失真语音,为了得到失真语音的MOS分估计,采用非均匀线性预测倒谱进行特征参数提取。
2)采用HMM模型对参考语音信号的特征向量进行分类,然后通过GMM对每一类特征向量可能分布建模。
3)提取参考语音的特征矢量送入参考模型,计算与每一类GMM模型的一致性测度。
以一致性量度值作为语音质量的指标,通过多元非线性函数建立主观MOS分和一致性测度之间的映射关系,与MOS分的映射得到MOS分估计值。
虽然上面的举例了一些特定实施例来说明和描述本发明,但并不意味着本发明仅局限于其中的各种细节。相反地,在等价于权利要求书的范畴和范围内可以不偏离本发明精神地在各种细节上做出各种修改。

Claims (3)

1.一种基于输出的客观语音质量评估的方法,其步骤如下:
首先提取干净语音的非均匀线形预测倒谱系数用来对GMM-HMM模型进行训练,通过训练给干净语音建立参考模型;
然后由所述参考模型和失真语音的非均匀线形预测倒谱系数向量可以得到它们之间的一致性测度;
最后,通过多元非线性回归模型建立主观MOS分和一致性测度之间的映射关系,可以得到对MOS分的客观预测模型,通过所述客观预测模型进行语音质量的客观评价。
2.根据权利要求1所述的一种基于输出的客观语音质量评估的方法,其特征在于:所述非均匀线形预测倒谱系数为5阶的非均匀感知线性预测倒谱(NLPC)的特征参数,其处理步骤如下:
一)预处理,在提取NLPC参数前要进行预处理,预处理包括预加重,分帧和加窗:
(1)预加重,所述预加重用具有6dB/倍频程的提升高频特性的数字滤波器来实现,其传递函数为:
H(z)=1-μz-1    (1)
其中μ为预加重系数,可取为1或比1稍小的值,一般取μ=0.95;
(2)分帧,将语音信号划分为一个一个的短时段,每一短时段称为一帧,每一帧的长度为10-30ms,所述分帧为交叠分段的方法,即每一帧的帧尾与下一帧的帧头是重叠的;
(3)加窗,设帧信号为x(n),窗函数为w(n),则加窗后的信号y(n)为:
y(n)=x(n)w(n),0≤n≤N-1    (2)
其中,N为每帧的取样点数,所述窗函数是Hamming窗,即升余弦窗:
w(n)=0.54-0.46cos[2πn/(N-1)],0≤n≤N-1    (3)
二)基于Bark双线性变换的频谱弯折,设线性频域为z平面,弯曲频域为l平面,则选择三个特殊的点通过一阶双线性变换可以确定z平面和l平面的映射关系:
考虑到线性频域和Bark谱域的特点,则取可以得到下式:
其中z和ω为复数,常数ρ为弯折系数,且0<ρ<1;显然式(7-4)为全通***,它将z平面的单位圆映射为平面的单位圆;在进行频谱弯折时,z为线性频域,为Bark谱域,则有z=e,故弯曲频率θ可以由下式求出:
&theta; = arctan [ ( 1 - &rho; 2 ) sin &omega; - 2 &rho; + ( 1 + &rho; 2 ) cos &omega; ] - - - ( 6 )
若原始***具有截止频率为ωp的分段恒定低通频率响应,经过双线性变换,***将同样具有类似的截止频率为θp的低通响应,ρ、ωp和θp满足如下公式:
&rho; = sin [ ( &theta; p - &omega; p ) / 2 ] sin [ ( &theta; p + &omega; p ) / 2 ] - - - ( 7 )
对ρ的优化取决于语音信号的采样频率fs,本方法采用的ρ的优化形式:
&rho; Y = 1.067 [ 2 &pi; arctan ( 0.6583 f s ) ] 1 2 - 0.191 - - - ( 8 )
三)非均匀线性预测倒谱的特征参数提取,非均匀线性预测倒谱特征参数的计算步骤如下:
1)通过每帧语音信号,采用p阶线性预测分析计算出声道全极点传输函数H(z)
H ( z ) = G A ( z ) = G 1 - &Sigma; k = 1 P a k z - k - - - ( 9 )
式中G为增益常数,ak为第k阶线性预测参数,取p=12;
2)对向量a(n)=[1,-a1,…-ap]进行DFT变换得到A(e);在A(e)上非均匀取M个点,则有
A ~ ( k ) = &Sigma; n = 0 p a n e - j &theta; k n k = 0,1 , . . . , M - 1 - - - ( 10 )
其中θk为利用双线性变换逼近的巴克频率刻度,它与原始线性频率之间的关系为:
&theta; k = arctan [ e j 2 &pi;k / M + &rho; 1 + &rho;e j 2 &pi;k / M ] - - - ( 11 )
其中ρ是由采样频率决定的频率弯折因子,考虑Bark谱域有22个频带,本发明中M取为88;
3)弯折后的LPC谱为
P ~ ( k ) = G 2 | A ~ ( k ) | 2 - - - ( 12 )
用q阶AR模型来逼近得到声道时域相应的自相关函数:
r ( n ) = 1 M &Sigma; k = 0 M - 1 P ~ ( k ) cos ( 2 &pi;kn / M ) n = 0,1 , . . . , q - - - ( 13 )
4)根据莱文逊-德宾(Levinson-Durbin)算法,从r(n)可以求得一组新的线性预测系数n=0,1,…,q,根据式(7-14)可以由线性预测系数得出倒谱系数cn,该参数即为NLPC参数:
c 1 = a ~ 1
c n = a ~ n + &Sigma; k = 1 n - 1 ( 1 - k n ) a ~ k c n - k , 1 < n &le; p
c n = &Sigma; k = 1 n - 1 ( 1 - k n ) a ~ k c n - k , n > p - - - ( 14 ) .
3.根据权利要求2所述的一种基于输出的客观语音质量评估的方法,其特征在于:所述参考语音模型是通过采用HMM模型对特征向量进行分类,然后通过GMM对每一类特征向量建模,其方法如下:
一)基于GMM-HMM的语音建模和训练,设观测的特征向量序列为O=o1,o2,…,oT,该序列的状态模型序列为S=s1,s2,…,sN,则该序列的HMM模型可表示为:
λ=(π,A,B)    (15)
其中,π={πi=P(s1=i),i=1,2,…,N}为初始状态概率矢量;A={aij}为状态间跳转的转移概率矩阵,aij为从状态i跳转到状态j的概率;B={bi(ot)=P(ot|st=i),2≤i≤N-1}为状态的输出概率分布集;
对连续HMM模型,观测序列为连续信号,其与状态j对应的信号空间用M个混合高斯密度函数的和来表示:
b j ( o t ) = &Sigma; k = 1 M c jk N ( o t , &mu; jk , C jk ) , 1 &le; j &le; N - - - ( 16 )
N ( o t , &mu; jk , C jk ) = ( 2 &pi; ) - D / 2 | C jk | - 1 / 2 exp ( - 1 2 ( o t - &mu; jk ) T C jk - 1 ( o t - &mu; jk ) ) - - - ( 17 )
其中,cjk表示状态j的第k个高斯混合密度函数的系数;μjk是高斯密度函数的均值向量;Cjk为协方差矩阵,D为观测序列O的维数;HMM参数可以观测序列O=o1,o2,…,oT估计得到,估计的目标是使模型与训练数据的似然函数P(O|λ)最大化来估计最新的λ,即使这可以采用EM算法来实现,所述EM算法包含两部分:前向后向概率计算和HMM参数及高斯混合参数的再估计;
上述似然函数p(O|λ)的前向概率计算公式如下:
P ( O | &lambda; ) = &Sigma; i = 1 N &alpha; T ( i ) - - - ( 18 )
其中
a1(i)=πbi(o1),1≤i≤N
&alpha; t + 1 ( i ) = [ &Sigma; i = 1 N &alpha; t ( i ) a ij ] b j ( o t + 1 ) , 1 &le; t &le; T - 1,1 &le; j &le; N
似然函数p(O|λ)的后向概率计算公式如下:
P ( O | &lambda; ) = &Sigma; i = 1 N &pi; i b 1 ( o i ) &beta; 1 ( i ) - - - ( 19 )
其中
βi(T)=1,1≤i≤N
&beta; t ( i ) = &Sigma; j = 1 N a ij b j ( o i + 1 ) &beta; t + 1 ( j ) , t = T - 1 , T - 2 , . . . , 1,1 &le; j &le; N
对给定观测序列O=o1,o2,…,oT通过重估计得到最新的λ,在此定义ξt(i,j)为t时刻状态为si且t+1时刻状态为sj的概率,可由下式得到
&xi; t ( i , j ) = P S | O , &lambda; ( s t = s i , s t + 1 = s j | O , &lambda; ) = &alpha; t ( i ) a ij b j ( o t + 1 ) &beta; t + 1 ( j ) &Sigma; i = 1 N &Sigma; j = 1 N &alpha; t ( i ) a ij b j ( o t + 1 ) &beta; t + 1 ( j ) - - - ( 20 )
在给定模型λ和观测序列O的条件下,状态si在时刻t的后验概率为
&gamma; t ( i ) = P S | O , &lambda; ( s t = i | O , &lambda; ) = &alpha; t ( i ) &beta; t ( i ) &Sigma; j = 1 N &alpha; t ( i ) &beta; t ( i ) = &Sigma; j = 1 N &xi; t ( i , j ) - - - ( 21 )
由此,HMM参数λ重估计如下
&pi; &OverBar; i = &gamma; 1 ( i ) - - - ( 22 )
a &OverBar; ij = &Sigma; t = 1 T - 1 &xi; t ( i , j ) &Sigma; t = 1 T - 1 &gamma; t ( i ) - - - ( 23 )
在t时刻状态j第k个高斯混合分量的参数cjk,μjk和Cjk可以由下列式子重新估计:
c &OverBar; jk = &Sigma; t = 1 T &gamma; t ( j , k ) &Sigma; t = 1 T &Sigma; k = 1 M &gamma; t ( j , k ) - - - ( 24 )
&mu; &OverBar; jk = &Sigma; t = 1 T &gamma; t ( j , k ) o t &Sigma; t = 1 T &gamma; t ( j , k ) - - - ( 25 )
C &OverBar; jk = &Sigma; t = 1 T &gamma; t ( j , k ) ( o t - &mu; jk ) ( o t - &mu; jk ) T &Sigma; t = 1 T &gamma; t ( j , k ) - - - ( 26 )
其中,γt(j,k)表示在t时刻状态j第k个高斯混合分量的概率,可由下式得到
&gamma; t ( j , k ) = &alpha; t ( j ) &beta; t ( j ) &Sigma; i = 1 N &alpha; t ( i ) &beta; t ( i ) [ c jk N ( o t , &mu; jk , C jk ) &Sigma; m = 1 M c jm N ( o t , &mu; jm , C jm ) ] - - - ( 27 )
二)基于多元非线性自回归分析的MOS分预测,在对参考语音建模及训练后,对失真语音的特征向量序列可以由Viterbi译码算法计算其状态模型序列 S t = { s t 1 , s t 2 , . . . , s t T } , 使
P { O t , S t | &lambda; } = max S P { O t , S | &lambda; } - - - ( 28 )
同时也可得到第i帧的失真语音特征向量序列处于对应状态模型的概率其中S=s1,s2,…,sN,当所有失真语音特征向量序列的状态模型确定后,此段语音中所有处于状态模型si的语音帧数由可以计算出来,状态模型si下参考语音参数模型与失真语音参数向量的一致性测度的计算公式如下:
c i = 1 N s i &Sigma; j = 1 N s i log p ( o j | s i ) - - - ( 29 )
其中oj是处于状态模型si的第j个失真语音参数向量,ci表示处于状态模型si语音帧的一致性测度,其值越大表示失真语音与参考语音一致性越好,对每一类状态模型的失真语音帧都计算出其一致性测度,然后通过MOS映射来得到最终对失真语音MOS分的预测值;
求出每一类语音帧的一致性测度后可以用一种函数映射关系来表示一致性测度与MOS分的映射关系:
其中,f(·)为预测函数,它可以是线性或非线性回归关系,也可以是多项式拟合关系;ε为预测方差;是通过f(·)预测出的MOS分,假定MOS分映射关系f(·)为非线性关系,通过多元非线性回归模型来建立;
主观MOS分与一致性测度间的映射关系f(·)的非线性关系可用如下多元非线性回归模型描述:
f ( c i ) = &Sigma; i = 1 N &Sigma; k = 1 K &beta; ik c i k + &beta; 0 - - - ( 31 )
其中,表示处于状态模型si语音帧的一致性测度ci的k次方;令则上述多元非线性回归模型可以转化为多元线性回归模型,即
f ( c i ) = &Sigma; i = 1 N ( &beta; i 1 c i 1 + &beta; i 2 c i 2 + . . . + &beta; iK c iK ) + &beta; 0 - - - ( 32 )
F=[f(1)(ci),f(2)(ci),…,f(n)(ci)]    (33)
β=[β011,…,β1K,…,βN1,…,βNK]T    (34)
C = 1 c 11 ( 1 ) . . . c 1 K ( 1 ) . . . c N 1 ( 1 ) . . . c NK ( 1 ) 1 c 11 ( 2 ) . . . c 1 K ( 2 ) . . . c N 1 ( 2 ) . . . c Nk ( 2 ) . . . . . . . . . . . . . . . . . . . . . . . . 1 c 11 ( n ) . . . c 1 K ( n ) . . . c N 1 ( n ) . . . c Nk ( n ) - - - ( 35 )
其中,f(1)(ci),f(2)(ci),…,f(n)(ci)表示1,2,…,n个观测值;矩阵C中各元素的上标代表各模型一致性测度的1,2,…,n个观测值;
根据最小二乘法原理,回归系数的估计值应满足
( C T C ) &beta; ^ = C T F - - - ( 36 )
式中,C是n行(N×K+1)列的矩阵;N为HMM参考模型的个数;K为多项式的阶数;(N×K+1)表示多元非线性回归模型转化为多元线性回归模型的变量数;所述观测值的个数n要大于变量数,所述矩阵C是行满秩矩阵,CT是列满秩矩阵,根据矩阵的秩的性质有
R(C)=R(CT)=R(CTC)    (37)
矩阵CTC是满秩矩阵,即对称矩阵CTC可逆,从而(CTC)-1存在,β的最小二乘估计
&beta; ^ = ( C T C ) - 1 C T F - - - ( 38 )
对式(38)根据最小二乘法进行求解,便可求得回归系数。
CN201410696593.XA 2014-11-27 2014-11-27 一种基于输出的客观语音质量评估的方法 Pending CN104361894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410696593.XA CN104361894A (zh) 2014-11-27 2014-11-27 一种基于输出的客观语音质量评估的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410696593.XA CN104361894A (zh) 2014-11-27 2014-11-27 一种基于输出的客观语音质量评估的方法

Publications (1)

Publication Number Publication Date
CN104361894A true CN104361894A (zh) 2015-02-18

Family

ID=52529150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410696593.XA Pending CN104361894A (zh) 2014-11-27 2014-11-27 一种基于输出的客观语音质量评估的方法

Country Status (1)

Country Link
CN (1) CN104361894A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679335A (zh) * 2015-12-21 2016-06-15 南京华苏科技股份有限公司 基于无线分析的语音质量评估方法及***
CN106531190A (zh) * 2016-10-12 2017-03-22 科大讯飞股份有限公司 语音质量评价方法和装置
CN107123427A (zh) * 2016-02-21 2017-09-01 珠海格力电器股份有限公司 一种确定噪声声品质的方法及装置
CN107180640A (zh) * 2017-04-13 2017-09-19 广东工业大学 一种相位相关的高密度叠窗频谱计算方法
CN107358966A (zh) * 2017-06-27 2017-11-17 北京理工大学 基于深度学习语音增强的无参考语音质量客观评估方法
CN109065072A (zh) * 2018-09-30 2018-12-21 中国科学院声学研究所 一种基于深度神经网络的语音质量客观评价方法
CN109599093A (zh) * 2018-10-26 2019-04-09 北京中关村科金技术有限公司 智能质检的关键词检测方法、装置、设备及可读存储介质
CN109979486A (zh) * 2017-12-28 2019-07-05 ***通信集团北京有限公司 一种语音质量评估方法及装置
CN110501423A (zh) * 2019-08-15 2019-11-26 重庆大学 一种基于频域分段的高分辨率最小方差超声成像方法
CN111091816A (zh) * 2020-03-19 2020-05-01 北京五岳鑫信息技术股份有限公司 一种基于语音评测的数据处理***及方法
CN111968677A (zh) * 2020-08-21 2020-11-20 南京工程学院 面向免验配助听器的语音质量自评估方法
CN112447166A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 一种针对目标频谱矩阵的处理方法及装置
CN113411456A (zh) * 2021-06-29 2021-09-17 中国人民解放军63892部队 一种基于语音识别的话音质量评估方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645475A (zh) * 2005-01-18 2005-07-27 中国电子科技集团公司第三十研究所 客观音质评价归一化主客观统计相关模型的建立方法
US7194093B1 (en) * 1998-05-13 2007-03-20 Deutsche Telekom Ag Measurement method for perceptually adapted quality evaluation of audio signals
CN101145344A (zh) * 2006-09-15 2008-03-19 华为技术有限公司 线谱频率矢量量化的方法及***
CN102157147A (zh) * 2011-03-08 2011-08-17 公安部第一研究所 一种拾音***语音质量客观评价的测试方法
CN102881289A (zh) * 2012-09-11 2013-01-16 重庆大学 一种基于听觉感知特性的语音质量客观评价方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7194093B1 (en) * 1998-05-13 2007-03-20 Deutsche Telekom Ag Measurement method for perceptually adapted quality evaluation of audio signals
CN1645475A (zh) * 2005-01-18 2005-07-27 中国电子科技集团公司第三十研究所 客观音质评价归一化主客观统计相关模型的建立方法
CN101145344A (zh) * 2006-09-15 2008-03-19 华为技术有限公司 线谱频率矢量量化的方法及***
CN102157147A (zh) * 2011-03-08 2011-08-17 公安部第一研究所 一种拾音***语音质量客观评价的测试方法
CN102881289A (zh) * 2012-09-11 2013-01-16 重庆大学 一种基于听觉感知特性的语音质量客观评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
尹伟: "基于模型的语音增强方法及质量评估研究", 《中国博士学位论文全文数据库》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679335B (zh) * 2015-12-21 2019-08-13 南京华苏科技有限公司 基于无线分析的语音质量评估方法及***
CN105679335A (zh) * 2015-12-21 2016-06-15 南京华苏科技股份有限公司 基于无线分析的语音质量评估方法及***
CN107123427A (zh) * 2016-02-21 2017-09-01 珠海格力电器股份有限公司 一种确定噪声声品质的方法及装置
CN107123427B (zh) * 2016-02-21 2020-04-28 珠海格力电器股份有限公司 一种确定噪声声品质的方法及装置
CN106531190A (zh) * 2016-10-12 2017-03-22 科大讯飞股份有限公司 语音质量评价方法和装置
US10964337B2 (en) 2016-10-12 2021-03-30 Iflytek Co., Ltd. Method, device, and storage medium for evaluating speech quality
WO2018068396A1 (zh) * 2016-10-12 2018-04-19 科大讯飞股份有限公司 语音质量评价方法和装置
CN106531190B (zh) * 2016-10-12 2020-05-05 科大讯飞股份有限公司 语音质量评价方法和装置
CN107180640B (zh) * 2017-04-13 2020-06-12 广东工业大学 一种相位相关的高密度叠窗频谱计算方法
CN107180640A (zh) * 2017-04-13 2017-09-19 广东工业大学 一种相位相关的高密度叠窗频谱计算方法
CN107358966A (zh) * 2017-06-27 2017-11-17 北京理工大学 基于深度学习语音增强的无参考语音质量客观评估方法
CN107358966B (zh) * 2017-06-27 2020-05-12 北京理工大学 基于深度学习语音增强的无参考语音质量客观评估方法
CN109979486A (zh) * 2017-12-28 2019-07-05 ***通信集团北京有限公司 一种语音质量评估方法及装置
CN109979486B (zh) * 2017-12-28 2021-07-09 ***通信集团北京有限公司 一种语音质量评估方法及装置
CN109065072A (zh) * 2018-09-30 2018-12-21 中国科学院声学研究所 一种基于深度神经网络的语音质量客观评价方法
CN109599093A (zh) * 2018-10-26 2019-04-09 北京中关村科金技术有限公司 智能质检的关键词检测方法、装置、设备及可读存储介质
CN109599093B (zh) * 2018-10-26 2021-11-26 北京中关村科金技术有限公司 智能质检的关键词检测方法、装置、设备及可读存储介质
CN110501423A (zh) * 2019-08-15 2019-11-26 重庆大学 一种基于频域分段的高分辨率最小方差超声成像方法
CN112447166A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 一种针对目标频谱矩阵的处理方法及装置
CN111091816A (zh) * 2020-03-19 2020-05-01 北京五岳鑫信息技术股份有限公司 一种基于语音评测的数据处理***及方法
CN111968677A (zh) * 2020-08-21 2020-11-20 南京工程学院 面向免验配助听器的语音质量自评估方法
CN111968677B (zh) * 2020-08-21 2021-09-07 南京工程学院 面向免验配助听器的语音质量自评估方法
CN113411456A (zh) * 2021-06-29 2021-09-17 中国人民解放军63892部队 一种基于语音识别的话音质量评估方法及装置

Similar Documents

Publication Publication Date Title
CN104361894A (zh) 一种基于输出的客观语音质量评估的方法
CN102881289B (zh) 一种基于听觉感知特性的语音质量客观评价方法
CN109256150B (zh) 基于机器学习的语音情感识别***及方法
CN111048071B (zh) 语音数据处理方法、装置、计算机设备和存储介质
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
Sajjan et al. Comparison of DTW and HMM for isolated word recognition
CN107293306B (zh) 一种基于输出的客观语音质量的评估方法
CN103440864A (zh) 基于语音的人格特征预测方法
CN106992011A (zh) 基于mf‑plpcc特征的工程机械声音识别方法
Deshmukh et al. Speech based emotion recognition using machine learning
CN101527141A (zh) 基于径向基神经网络的耳语音转换为正常语音的方法
CN101853661A (zh) 基于非监督学习的噪声谱估计与语音活动度检测方法
CN111326169A (zh) 一种语音质量的评价方法及装置
CN104269180A (zh) 一种用于语音质量客观评价的准干净语音构造方法
US20070203694A1 (en) Single-sided speech quality measurement
CN106997765A (zh) 人声音色的定量表征方法
CN110648684A (zh) 一种基于WaveNet的骨导语音增强波形生成方法
Chen et al. Bayesian model based non-intrusive speech quality evaluation
Jing et al. Speaker recognition based on principal component analysis of LPCC and MFCC
CN105916090A (zh) 一种基于智能化语音识别技术的助听器***
AU2021101586A4 (en) A System and a Method for Non-Intrusive Speech Quality and Intelligibility Evaluation Measures using FLANN Model
CN105741853A (zh) 一种基于共振峰频率的数字语音感知哈希方法
Ijima et al. Objective Evaluation Using Association Between Dimensions Within Spectral Features for Statistical Parametric Speech Synthesis.
Mahdi et al. New single-ended objective measure for non-intrusive speech quality evaluation
CN112233693B (zh) 一种音质评估方法、装置和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Li Qingxian

Inventor after: Liu Liangjiang

Inventor after: Bian Cuan

Inventor after: Bai Wenqi

Inventor after: Zhou Xin

Inventor after: Peng Zhengliang

Inventor after: Xu Yu

Inventor before: Li Qingsheng

Inventor before: Liu Liangjiang

Inventor before: Bian Cuan

Inventor before: Bai Wenqi

Inventor before: Zhou Xin

Inventor before: Peng Zhengliang

Inventor before: Xu Yu

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: LI QINGSHENG LIU LIANGJIANG BIAN XIN BAI WENQI ZHOU XIN PENG ZHENGLIANG XU YU TO: LI QINGXIAN LIU LIANGJIANG BIAN XIN BAI WENQI ZHOU XIN PENG ZHENGLIANG XU YU

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150218