CN1131473A

CN1131473A - 在速率可变的声码器中选择编码速率的方法和装置

Info

Publication number: CN1131473A
Application number: CN95190717A
Authority: CN
Inventors: 安德鲁·P·德雅克; 威廉·R·加德纳
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1994-08-10
Filing date: 1995-08-01
Publication date: 1996-09-18
Anticipated expiration: 2015-08-01
Also published as: US5742734A; EP1424686A3; ATE235734T1; HK1015185A1; DE69535452T2; DE69530066D1; FI122272B; ATE285620T1; ES2233739T3; ATE298124T1; CA2488918C; ES2281854T3; JP4680958B2; EP1239465B2; JP2007293355A; JP2011209733A; FI961112A; JP4680956B2; EP1530201B1; ES2299122T3

Abstract

本发明提供一种降低把低能量非嗓音话音作为背景噪声进行编码的概率的方法。用数字副带滤波器(4)和(6)把输入信号分成副带，在副带速率判定部件(12)和(14)中把这些副带中的能量与一组阈值比较，然后在编码速率选择器(16)内检查这些比较结果，通过这些步骤来确定编码速率。用这种方法，可以把非嗓音话音与背景噪声区别开。本发明还提供一种用输入信号的信噪比设置阈值电平的装置，本发明还提供一种用速率可变的声码器对音乐进行编码的方法，它通过检查输入信号的周期性以把音乐与背景噪声区别开来。

Description

在速率可变的声码器中选择编码速率的方法和装置

本发明涉及一种声码器。本发明尤其涉及在速率可变的声码器中确定话音编码速率的新颖的和经改进的方法。

速率可变话音压缩***一般在开始进行编码之前使用一些速率确定算法。这种速率确定算法把较高的比特率编码方法赋予了有话音出现的音频信号段，把较低的比特率编码方法赋予无声段。在这种方法中，可以实现较低的平均比特率，而重新构成的话音仍保持较高质量。因此，为了有效地进行工作，速率可变的话音声码器需要一种健全的速率确定算法，以能在各种背景噪声环境中区别话音和无声。

在1991年6月11日申请的，名称为“速率可变的声码器”的待批美国专利申请No.07/713/661中揭示了这样一种速率可变的话音压缩***或速率可变的声码器，该专利申请已转让给本发明的受让人，援引在此，以作参考。在这种速率可变的声码器的特定的实现方法中，用码激励线性预测编码技术(CELP)以根据话音活动性的程度确定的几种速率中的一种速率对输入话音进行编码。话音的活动性程度根据除了有声话音之外还可以包含背景噪声的输入音频样值内的能量来确定。为了使声码器在各种背景噪声下都提供高质量的声音编码，需要一种合适的调整阈值的技术来补偿背景噪声对速率判定算法的影响。

声码器一般用在诸如蜂窝电话等通信设备或个人通信设备中，以对转换成数字形式进行传输的模拟音频信号进行数字信号压缩。在可以使用蜂窝电话或个人通信设备的移动的环境中，高的背景噪声能量使得用基于信号能量的速率确定算法难以把低能量的非嗓音声音从低背景噪声中区分开来。因此，经常对非嗓音声音以较低的比特率进行编码，声音质量下降，诸如“s”、“x”、“ch”、“sh”、“t”等辅音在重新构成的话音中被丢失。

根据仅把背景噪声能量作为依据的速率判定的声码器在设定阈值时没有考虑信号相对于背景噪声的强度。当背景噪声提高时，根据仅把背景噪声作为依据的声码器必然会一起压缩阈值。如果信号电平仍然维持不变，但设置阈值电平的校正方法是把信号电平与背景噪声电平一起提升，那么，压缩阈值电平不是最佳的解决方法。在速率可变的声码器内需要另一种考虑了信号强度的设置阈值电平的方法。

剩余的决定性的问题是在通过基于背景噪声能量的速率判定声码器来播放音乐时产生的。当人在说话时，他们必须暂停以便呼吸，这可以把阈值重新设置到适当的背景噪声电平上。然而，在通过声码器传输时，在音乐持续的情况下，没有暂停发生，并且阈值将持续提高，一直到开始对音乐以小于全速率的速率进行编码。在这种情况下，速率可变的编码器把音乐与背景噪声混为一谈。

本发明是一种新颖的和经改进的在速率可变的声码器内确定编码速率的方法和装置。本发明的第一个目的是提供一种方法，用这种方法可降低把低能量的非嗓音话音作为背景噪声进行编码的概率。在本发明中，把输入信号滤波成高频分量和低频分量。然后单独地对输入信号的滤波信号进行分析，以检测是否有话音的存在。因为非嗓音话音有高频分量，所以相对于高频带来说其强度与背景噪声相比的区别比在整个频带上与背景噪声相比的区别来得更大。

本发明的第二个目的是提供一种装置，这种装置在设置阈值时考虑了信号能量以及背景噪声能量。在本发明中，根据输入信号的信噪比(SNR)的估计值来设定声音检测阈值。在一个典型的实施例中，把在存在话音期间的信号能量估计为最大信号能量，把在无声期间的背景噪声能量估计为最小信号能量。

本发明的第三个目的是提供一种通过速率可变的声码器对音乐进行编码的方法。在一个典型的实施例中，速率选择装置检测阈值电平上升的连续帧的数量，并检查帧数的周期。如果输入信号是有周期性的，这表示存在音乐。如果检测到有音乐存在，那么把阈值设置到以全速率对信号进行编码的电平上。

通过下面结合附图的详细描述，本发明的特征、目的和优点将变得更明显，在整个描述中相同的参考字符表示相同的部件。

图1是本发明的方框图。

参见图1，把输入信号S(n)提供给副带能量计算部件4和副带能量计算部件6。输入信号S(n)包含音频信号和背景噪声。音频信号一般为话音，但也可以是音乐。在一个典型的实施例中，以每二十毫秒帧160样值的形式提供S(n)。在一个典型的实施例中，输入信号S(n)的频率分量从0kHz到4kHz，大约与人的话音信号的带宽相似。

在一个典型的实施例中，把4kHz的输入信号S(n)滤波成两个分立的副带。这个分立的副带分别在0到2kHz和2kHz到4kHz之间。在一个典型的实施例中，可以用副带滤波器把输入信号分成副带，这种设计在已有技术中属于熟知的技术，并且在1994年2月1日提交的，名称为“频率选择自适应滤波”的美国专利申请No.08/189,819中有详细的描述，该申请已转让给本发明的受让人，援引在此以作参考。

对于低通滤波器，副带滤波器的脉冲响应表示为hL(n)，对于高通滤波器，副带滤波器的脉冲响应表示为hH(n)。可以如现有技术中所熟知的那样，简单地取副带滤波器输出的样值平方之和计算得到的信号的所产生的副带分量的能量，给出RL(0)和RH(0)值。

在一个较佳实施例中，当把输入信号S(n)提供给副带能量计算部件4时，如下计算输入帧的低频分量的能量值RL(0)：

R_{L} (0) = R_{S} (0) R_{hL} (0) + 2 \cdot Σ_{i = 1}^{L - 1} R_{S} (i) \cdot R_{hL} (i) - - - - - - - (1)

其中，L为具有脉冲响应hL(n)的低通滤波器内的抽头数，RS(i)为输入信号S(n)的自相关函数，它由下式给出：

其中，N为帧内的样值数，R_hL是低通滤波器hL(n)的自相关函数，由下式给出：

＝0 (3)

其它在副带能量计算部件6内用相似的方式计算高频能量RH(0)。

可以在减小计算负荷之前计算副带滤波器的自相关函数的值。另外，把计算得到的一些RS(i)值在对输入信号S(n)进行编码时的另一些计算中使用，这进一步减轻了本发明的编码速率选择的方法的纯计算负荷。例如，运算LPC滤波器抽头值需要计算一组输入信号自相关系数。

对LPC滤波器抽头值的计算在现有技术中是众所周知的，并且在上面提到美国专利申请08/004,484中有详细的描述。如果一种是用需要十个抽头的LPC滤波器对话音进行编码，除了在对信号进行编码所用的之外，仅需要计算i值从11到L-1的RS(i)值，因为，i值从0到10的RS(i)在计算LPC滤波器抽头值时已经使用了。在一个典型的实施例中，副带滤波器具有17个抽头，L＝17。

副带能量计算部件4向副带速率判定部件12提供计算得到的RL(0)值，副带能量计算部件6向副带速率判定部件14提供计算得到的RH(0)值。速率判定部件12把RL(0)值与两个预定的阈值TL1/2和TLfull作比较，把根据比较结果选定建议的编码速率RATEL。速率的选定方式如下：RATEL＝八分之一速率 RL(0)≤TL1/2 (4)RATEL＝半速率 TL1/2＜RL(0)≤TLfull (5)RATEL＝全速率 RL(0)＞TLfull (6)副带速率判定部件14以相似的方式工作，并根据高频能量值RH(0)和一组不同的阈值TH1/2和THfull来选择一建议的编码速率。副带速率判定部件12把其建议的编码速率RATEL提供给编码速率选择部件16，副带速率判定部件14把其建议的编码速率RATEH提供给编码速率选择部件16。在一个典型的实施例中，编码速率选择部件16选择两个建议的速率中较高的一个速率，并把较高的速率作为选出的编码速率(ENCODING RATE)提供。

副带能量计算部件4还把低频能量值RL(0)提供给阈值修正部件8，计算下一输入帧的阈值TL1/2和TLfull。相似地，副带能量计算部件6把高频能量值RH(0)提供给阈值修正部件10，计算下一输入帧的阈值TL1/2和Tlfull。

阈值修正部件8接收低频能量值RL(0)，并确定S(n)是否含有背景噪声或音频信号。在一个典型的实现方法中，阈值修正部件8确定是否有音频信号存在的方法是检查归一化自相关函数NACF，它由下式给出：

NACF = \max_{T} \frac{Σ_{n = 0}^{N - 1} e (n) \cdot (n - T)}{\frac{1}{2} [Σ_{n = 0}^{N - 1} e^{2} (n) + Σ_{n = 0}^{N - 1} e^{2} (n - T)]} - - - - - - - - (7)

其中，e(n)为话音质量的特性分量残留信号，它由LPC滤波器滤波输入信号S(n)引起。

由LPC滤波器对信号滤波的设计在现有技术中是众所周知的，并且在上面提及的美国专利申请08/004,484中有详细的描述。LPC滤波器对输入信号S(n)进行滤波，除去话音质量特性分量的相互影响。把NACF与阈值比较，确定是否出现了音频信号。如果NACF大于预定的阈值，它指示输入帧具有表示诸如话音或音乐的音频信号存在的周期性特征。请注意，当一部分话音和音乐不是周期性时，表现出NACF的值较小，背景噪声一般决不会显示出周期性，因此NACF几乎总是表现出较小的值。

如果确定S(n)包含背景噪声，NACF值小于阈值TH1，那末把值RL(0)用于更新当前背景噪声估计值BGNL的值。在一个典型的实施例中，TH1为0.35。把RL(0)与当前的背景噪声估计值BGNL比较。如果RL(0)小于BGNL，那末不管NACF的值如何，总把背景噪声估计值BGNL设置成等于RL(0)值。

背景噪声估计值只有在NACF小于阈值TH1时才增加。如果RL(0)大于BGNL，并且NACF小于TH1，那么把背景噪声能量BGNL设置成α1*BGNL，其中，α1为大于1的数字。在一个典型的实施例中，α1等于1.03。只要NACF小于阈值TH1，并且RL(0)大于BGNL的当前值，那末BGNL就继续增加，直到BGNL到达预定的最大值BGNmax，在该点上，背景估计值BGNL被设置到BGN-max。

如果NACF值超过第二预定值TH2表示检测到音频信号，则更新信号能量估计值SL。在一个典型的实施例中，TH2被设置成0.5。把RL(0)的值与当前低通信号能量估计值SL比较。如果RL(0)大于当前SL值，则把SL设置成等于RL(0)。如果RL(0)小于当前SL值，而且仅在NACF大于TH2时，把SL设置成等于α2*SL。在一个典型的实施例中，α2被设置为0.96。

然后，阈值修正部件8根据下面的等式8计算信噪比估计值：

SN R_{L} = 10 \cdot \log [\frac{S_{L}}{BG N_{L}}] - - - - - - - (8)

然后，阈值修正部件8根据下面的等式9—12确定量化了的信噪比ISNRL的指数：

I_{SNRL} = nint [\frac{SNRL - 20}{5}],

对20＜SNR_L＜55， (9)

＝0，对SNR_L≤20，

＝7，对SNR_L≥55。 (10)其中nint是把小数值四舍五入到最近的整数的函数。

然后阈值修正部件8根据信噪比指数ISNRL选择或计算两个换算系数kL1/2/和kLfull。下面的表1提供了一个典型的换算值查找表：表1

ISNRL KL1/2 Klfull

0 7.0 9.0

1 7.0 12.6

2 8.0 17.0

3 8.6 18.5

4 8.9 19.4

5 9.4 20.9

6 11.0 25.5

7 15.8 39.8这两个值用于根据下面式子计算选择速率的阈值：

T_L1/2＝K_L1/2*BGN_L (11)和

T_Lfull＝K_Lfull*BGN_L (12)其中，T_L1/2为低频半速率阈值，T_Lfull为低频全速率阈值。

阈值修正部件8向速率判定部件12提供修正后的阈值T_L1/2和T_Lfull。阈值修正部件10以相似的方式工作，并向副带速率判定部件14提供阈值T_H1/2和T_Hfull。

音频信号能量估计值S的初始值(S可以是SL或SH)如下进行设置。把初始信号能量估计值SINIT设置到-18.0dBm0，其中3.17dBm0表示全正弦波的信号强度，在一个典型的实施例中，它是一个幅度范围从-8031到8031的数字正弦波。SINIT一直被使用，直到确定出现了有声信号。

开始检测有声信号的方法是把NACF值与一阈值比较，当NACF在预定的连续数帧超过该阈值时，则确定出现了有声信号。在一个典型的实施例中，NACF必须连续10帧超过阈值。在这个条件得到满足后，在前10帧把信号能量估计值S设置到最大信号能量。

最初把背景噪声估计值BGNL的初始值设置成BGNmax。只要接收到的副带帧能量小于BGNmax，就把背景噪声估计值复位到接收到的副带能量电平值上，并如上所述产生背景噪声BGNL估计值。

在一个较佳实施例中，当跟了一串全速率话音帧时产生释放延迟情况，则检测低速率帧。在一个典型的实施例中，当在对四个连续的话音帧以全速率进行编码后跟一幅把编码速率设置到小于全速率的速率，并且计算得到的信噪比小于预定最小的SNR的帧时，把该帧的编码速率设置到全速率。在一个典型的实施例中，如在公式8中定义的那样，预定最小SNR为27.5dB。

在一较佳实施例中，释放延迟的帧数是信噪比的函数。在一个典型的实施例中，释放延迟的帧数如下确定：

释放延迟帧数＝1 22.5＜SNR＜27.5 (13)

释放延迟帧数＝2 SNR≤22.5 (14)

释放延迟帧数＝0 SNR≥27.5 (15)

本发明还提供一种检测是否有音乐存在的方法，如上所述音乐缺少可以测量背景噪声以进行复位的暂停。该检测音乐是否存在的方法假设在通话开始时没有出现音乐。这可以使本发明的编码速率选择装置适当地估计初始背景噪声能量BGNinit。因为音乐不象背景噪声具有周期性的特征，本发明检查NACF的值来区别音乐和背景噪声。本发明的音乐检测方法根据下式计算平均NACF：

NAC F_{AVE} = \frac{1}{T} Σ_{i = 1}^{T} NACF (i), - - - - - - - (16)

其中NACF由公式7定义，T为连续帧数，在这些帧中估计的背景噪声值从初始背景噪声估计值BGNINIT已经并正在增加。

如果背景噪声BGN对预定的帧数T已经增加，并且NAC-FAVE超过了预定阈值，那么检测到了音乐，把背景噪声BGN复位到BGNinit。应注意，为了使该方法可行，必须把值T设置得足够小，以使编码速率不低于全速率。因此，T值应当设置成有声信号和BGNinit的函数。

提供了上面对较佳实施例的描述能使本技术领域的熟练人员实现或使用本发明。对于本技术领域的熟练人员来说对这些实施例的各种变化是容易的，此处限定的一般原理可以应用于其它实施例而无需创造性技能。因此，本发明并不限于此处所示的实施例，它被赋予与由此处的原理和新颖的特征相一致的最宽的范围。

Claims

1.一种为速率可变声码器确定编码速率的装置，其特征在于，包含：

副带能量计算装置，用于接收输入信号，根据预定的副带能量计算公式确定多个副带能量值；

速率确定装置，用于接收所述多个副带能量值，根据所述多个副带能量值确定所述编码速率。

2.如权利要求1所述的装置，其特征在于，所述副带能量计算装置根据下面公式确定各所述多个副带的能量值：

其中L为低通滤波器h_L(n)内的抽头数，R_s(i)为输入信号S(n)的自相关函数，R_hL为带通滤波器hbp(n)的自相关函数。

3.如权利要求1所述的装置，其特征在于，进一步包含设置在所述副带能量计算装置和所述速率确定装置之间的阈值计算装置，用于接收所述副带能量值，根据多个副带能量值确定一组编码速率阈值。

4.如权利要求3所述的装置，其特征在于，所述阈值计算装置根据所述多个副带能量值确定信噪比。

5.如权利要求4所述的装置，其特征在于，所述阈值计算装置根据所述信噪比确定换算值。

6.如权利要求5所述的装置，其特征在于，阈值计算装置通过把背景噪声估计值与所述换算值相乘来确定至少一个阈值。

7.如权利要求1所述的装置，其特征在于，所述速率确定装置把所述多个副带能量值中的至少一个与至少一个的阈值比较以确定所述编码速率。

8.如权利要求6所述的装置，其特征在于，所述速率确定装置把所述多个副带能量值中的至少一个与所述至少一个阈值比较以确定所述编码速率。

9.如权利要求1所述的装置，其特征在于，所述速率确定装置确定多个建议的编码速率，每个建议的编码速率对应于所述多个副带能量值中的每一个值，所述速率确定装置根据所述多个建议的编码速率确定所述编码速率。

10.一种确定速率可变的声码器的编码速率的装置，其特征在于，包含：

信噪比装置，用于接收输入信号，根据所述输入信号确定信噪比值；

速率确定装置，接收所述信噪比值，根据所述信噪比值确定所述编码速率。

11.一种确定速率可变的声码器的编码速率的装置，其特征在于，包含：

副带能量计算器，它接收输入信号，并根据预定的副带能量计算公式确定多个副带能量值；

速率选择器，它接收所述多个副带能量值，并根据所述多个副带能量值选择所述编码速率。

12.如权利要求11所述的装置，其特征在于，所述副带能量计算器根据下式确定各所述多个副带能量值：

13.如权利要求11所述的装置，其特征在于，进一步包含设置在所述副带能量计算器和所述速率选择器之间的阈值计算器，接收所述副带能量值，并根据多个副带能量值确定一组编码速率阈值。

14.如权利要求13所述的装置，其特征在于，所述阈值计算器根据所述多个副带能量值确定信噪比值。

15.如权利要求14所述的装置，其特征在于，所述阈值计算器根据所述信噪比确定换算值。

16.如权利要求15所述的装置，其特征在于，阈值计算器通过把背景噪声估计值与所述换算值相乘来确定至少一个阈值。

17.如权利要求11所述的装置，其特征在于，所述速率选择器把所述多个副带能量值中的至少一个值与至少一个的阈值比较，确定所述编码速率。

18.如权利要求16所述的装置，其特征在于，所述速率选择器把所述多个副带能量值中的至少一个值与所述至少一个的阈值比较，确定所述编码速率。

19.如权利要求11所述的装置，其特征在于，所述速率选择器确定多个建议的编码速率，各建议的编码速率对应于各所述副带能量值，所述速率选择器根据所述多个建议的编码速率确定所述编码速率。

20.一种确定速率可变的声码器的编码速率的装置，其特征在于，包含：

信噪比计算器，它接收输入信号，并根据所述输入信号确定信噪比值；

速率选择器，它接收所述信噪比值，并根据所述信噪比值选择所述编码速率。

21.一种确定速率可变的声码器的编码速率的方法，其特征在于，包含下列步骤：

接收输入信号；

根据预定的副带能量计算公式确定多个副带能量值；和

根据所述多个副带能量值确定所述编码速率。

22.如权利要求21所述的方法，其特征在于，所述确定多个副带能量值的步骤根据下式进行：

23.如权利要求21所述的方法，其特征在于，进一步包含下列步骤，根据多个副带能量值确定一组编码速率阈值。

24.如权利要求23所述的方法，其特征在于，所述确定一组编码速率阈值的步骤根据所述多个副带能量值确定信噪比值。

25.如权利要求24所述的方法，其特征在于，所述确定一组编码速率阈值的步骤根据所述信噪比值确定换算值。

26.如权利要求25所述的方法，其特征在于，所述确定一组编码速率阈值的步骤通过把背景噪声估计值与所述换算值相乘来确定所述速率阈值。

27.如权利要求21所述的方法，其特征在于，所述确定所述编码速率的步骤把所述多个副带能量值中的至少一个值与至少一个的阈值比较，确定所述编码速率。

28.如权利要求26所述的方法，其特征在于，所述确定所述编码速率的步骤把所述多个副带能量值中的至少一个值与所述至少一个的阈值比较，以确定所述编码速率。

29.如权利要注21所述的方法，其特征在于，进一步包含下列步骤：根据各所述多个副带能量值产生建议的编码速率，所述确定编码速率的步骤选择所述建议的编码速率中的一个。

30.一种确定速率可变的声码器的编码速率的方法，其特征在于，包含下列步骤：

接收输入信号；

根据所述输入信号确定信噪比值；和

根据所述信噪比值确定所述编码速率。