CN102341852B

CN102341852B - 滤波语音信号的方法和滤波器

Info

Publication number: CN102341852B
Application number: CN2010800098391A
Authority: CN
Inventors: 科恩·贝尔纳德·福斯; 斯特凡·施特罗默
Original assignee: Skype Ltd Ireland
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2009-01-06
Filing date: 2010-01-05
Publication date: 2013-11-20
Anticipated expiration: 2030-01-05
Also published as: EP2384509A1; WO2010079168A1; EP2384509B1; GB2466668A; US8352250B2; CN102341852A; GB0900138D0; US20100174535A1

Abstract

在通信网络中用于语音编码的语音信号滤波的方法和滤波器。所述方法包括：确定滤波器的截止频率，其中，低于所述截止频率的频率范围内的语音信号的成分由滤波器进行衰减；在所述滤波器处接收语音信号；确定所述接收到的语音信号的至少一个参数，所述至少一个参数提供要衰减的所述接收到的语音信号的成分的能量的指示；以及根据所述至少一个参数调节所述截止频率，从而调节要衰减的频率范围；其中，所述至少一个参数包括所述语音信号的基音频率，并且其中，所述截止频率被调节为不大于确定的基音频率。

Description

滤波语音信号的方法和滤波器

技术领域

本发明涉及在通信网络中对语音进行滤波。

背景技术

通信网络使用户之间在网络上进行实时语音通信。随着时间推移，通信网络的用户数量快速增加，而且每个用户都期望更好质量的语音通信。为了满足用户的期望，实时通信应用的核心部分是语音编码器，所述语音编码器压缩音频信号以便于在网络上进行高效传输。

语音编码器的复杂性日益增加，因此音频信号可以进一步被压缩而不会使所述信号的质量降低到可接收水平以下。现代的语音编码器尤其适合压缩作为语音信号的音频信号。当用户收听语音信号时，他对所述语音的理解能力对语音信号的某些成分的依赖大于对语音信号的其他成分的依赖。为了反映此种情况，语音编码器能够分析进来的语音信号，并以不丢失语音信号的较重要的信息成分而压缩语音信号的方式来压缩语音信号。

理想地，进来的语音信号仅由待编码的语音组成。在这种理想的情况下，在压缩语音信号时，在语音编码器中进行的语音分析以及编码会非常有效。

然而，事实上，进来的语音信号几乎总是包含所需的语音和一些背景噪声。所述背景噪声会影响在语音编码器中进行的语音分析以及编码，使得其不如在没有背景噪声的理想情况下有效。

人的语音在低频率（例如，在0-80Hz的范围内）时通常不具有强的成分。然而，低频噪声通常能够具有由机器等引起的大的振幅。

在语音编码器的语音分析以及编码的输入中还可能存在不需要的直流偏置。所述直流偏置和低频噪声对编码过程有损害，因为它们会导致在语音分析中的数值问题并且会增加编码伪像（coding artifact）。当所述信号被编码并且被送至接收解码器时，在编码过程中的数值问题和编码伪像会产生听起来更嘈杂的经解码信号。

因此，在所述语音信号被分析和编码之前，希望从进来的语音信号中除去低频噪声和直流偏置。

过去，高通滤波器已应用于进来的语音信号以除去直流偏置和低频噪声。用于这种高通滤波器的典型截止频率为80-150Hz。图1显示作为频率的函数的典型语音信号的能量的曲线图。使用具有高截止频率(例如，150Hz)的高通滤波器是有益的，因为可以从输入信号中除去更多的低频噪声。这具有降低在编码过程中由背景噪声产生的数值问题和编码伪像的优点。然而，如果将高通滤波器的截止频率设定为高值，则除去更大部分的语音信号。在编码语音信号之前除去太多的语音信号显然是不利的。如图1所示，如果将截止频率设定为150Hz，那么图1所示的语音信号的第一大峰值(在大约120Hz处)被除去。然而，如果将截止频率设定为80Hz，则除去了更少的背景噪声。尤其，频率在80Hz和语音信号的第一大峰值(在大约120Hz)之间的背景噪声没有被除去。

因此，为了在尽可能多地除去低频噪声的需求与确保不除去太多的语音信号的需求之间平衡，在选择高通滤波器的截止频率时存在问题。

发明内容

在本发明的一个方案中，提供了一种在通信网络中用于语音编码的语音信号滤波方法，所述方法包括：确定滤波器的截止频率，其中，低于所述截止频率的频率范围内的语音信号的成分由滤波器进行衰减；在所述滤波器处接收语音信号；确定所述接收到的语音信号的至少一个参数，所述至少一个参数提供要衰减的所述接收到的语音信号的成分的能量的指示；以及根据所述至少一个参数来调节所述截止频率，从而调节要衰减的频率范围。所述至少一个参数包括所述语音信号的基音频率。所述截止频率被调节为不大于确定的基音频率。

所述至少一个参数可进一步包括所述语音信号的信噪比。

所述方法可进一步包括：利用所述信噪比计算信号质量标准；以及根据所述的信号质量标准来调节确定的基音频率。

所述方法可进一步包括：对多个所述接收到的语音信号的帧平滑所述确定的基音频率。

可以使用所述接收到的语音信号的基音延迟来确定基音频率，所述方法进一步包括：通过使所述语音信号的第一帧与由所述基音延迟所延迟的所述语音信号的第二帧相关联来确定基音关联值，其中，所述关联值在阈值以下的帧被分类为清音帧，而所述关联值至少为所述阈值的帧被分类为浊音帧，并且其中，对浊音帧进行基音频率的平滑，而对清音帧保持经平滑的基音频率不变。

可将所述截止频率调节为等于确定的基音频率。当信噪比提高时，可降低所述截止频率。所述信号可被拆分为频率子带，并且所述信噪比为最低频率子带的信噪比。

可以动态地确定所述至少一个参数，并且可以动态地调节所述截止频率。对于接收到的语音信号的每帧可以至少确定一次所述至少一个参数，并且对于接收到的语音信号的每帧可以至少调节一次所述截止频率。

要衰减的所述接收到的语音信号的成分可为包含语音的语音信号的语音成分。

在本发明的另一个方案中，提供了一种在通信网络中用于语音编码的语音信号滤波的滤波器，所述滤波器具有：截止频率，其中，低于所述截止频率的频率范围内的语音信号的成分由滤波器进行衰减；确定所述接收到的语音信号的至少一个参数的部件，所述至少一个参数提供要衰减的所述接收到的语音信号的成分的能量的指示；以及根据所述至少一个参数调节所述截止频率从而调节要衰减的频率范围的部件。所述至少一个参数包括所述语音信号的基音频率。设置用于调节截止频率的所述部件以使得所述截止频率被调节为不大于所述确定的基音频率。

所述至少一个参数可包括所述语音信号的信噪比。所述至少一个参数可包括基音延迟和所述语音信号的信噪比。

所述滤波器可进一步具有：利用所述信噪比来计算信号质量标准的部件；以及根据所述信号质量标准来调节确定的基音频率的部件。

所述滤波器可进一步包括对多个接收到的语音信号的帧平滑确定的基音频率的部件。

利用所述接收到的语音信号的基音延迟可以确定所述基音频率。所述滤波器进一步包括：通过使所述语音信号的第一帧与由所述基音延迟所延迟的信号的第二帧相关联来确定基音关联值的部件，其中，所述关联值在阈值以下的帧被分类为清音帧，而所述关联值至少为阈值的帧被分类为浊音帧，并且其中，对浊音帧进行所述基音频率的平滑，而对清音帧保持经平滑的基音频率不变。

可以将所述截止频率调节为等于所述确定的基音频率。在信噪比增加时，用于调节所述截止频率的所述部件可降低截止频率。

所述滤波器可进一步包括将所述语音信号拆分成频率子带的部件，其中所述信噪比为最低频率子带的信噪比。

可以设置包括用于执行上述方法的计算机可读指令的计算机可读介质。

附图说明

为了更好地理解本发明以及显示可以如何实施本发明，现在将通过实例的方式以下列附图为参考，其中：

图1显示作为频率的函数的典型语音信号的能量的曲线图；

图2为语音编码器的示意图；

图3显示语音编码器的更详细的示意图；

图4为在语音编码器处执行的方法的流程图；

图5为噪声整形量化器的框图；以及

图6为解码器的框图。

具体实施方式

首先参考图示语音编码器200的图2。所述语音编码器200包括：高通滤波器202、语音分析块204、噪声整形量化器206和算术编码块208。

在高通滤波器202和语音分析块204处从输入设备(例如话筒)接收输入的语音信号。所述语音信号可包括语音或背景噪声或其他干扰。以取样频率Fs按帧对所述输入的语音信号进行取样。作为示例，所述取样频率可为16kHz，并且所述帧的持续时间可为20毫秒。设置所述高通滤波器202以滤波所述语音信号，来衰减语音信号的具有低于所述滤波器202的截止频率的频率的成分。在语音分析块204处和在噪声整形量化器206处接收经滤波的语音信号。

所述语音分析块204使用所述语音信号和经滤波的语音信号来确定接收的语音信号的参数。参数(在图1中被标为“滤波器参数”)被输出到高通滤波器202。根据在语音分析块204中确定的参数来调节所述高通滤波器202 的截止频率。

下面将更加详细地描述所述滤波器参数，并且所述滤波器参数可包括语音信号的信噪比和/或语音信号的基音延迟。

将噪声整形参数从语音分析块204输出到噪声整形量化器206。所述噪声整形量化器206产生量化索引(quantization indices)，所述量化索引被输出到算术编码块208。所述算术编码块208从语音分析块204接收编码参数。为了从输出设备(例如，有线的调制解调器或无线的收发器)进行传输，设置所述算术编码块208以基于其输入产生输出比特流。

图3显示编码器200的更详细的图。所述语音分析块204的成分示于图2中。所述语音分析块204包括：话音活动检测器302、线性预测编码(LPC)分析块304、第一向量量化器206、开环基音分析块308、长期预测(LTP)分析块310、第二向量量化器312和噪声整形分析块314。所述话音活动检测器302包括用于确定输入信号的SNR(信噪比)的SNR模块316。所述开环基音分析块308包括用于确定输入信号的基音延迟的基音延迟模块318。所述话音活动检测器302具有被设置来接收所述输入语音信号的输入端、联接到高通滤波器202的第一输出端和联接到开环基音分析块308的第二输出端。所述高通滤波器202具有联接到所述LPC分析块304和噪声整形分析块314的输入端的输出端。所述LPC分析块具有联接到所述第一向量量化器306的输入端的输出端，并且所述第一向量量化器306具有联接到算术编码块208和噪声整形量化器206的输入端的输出端。所述LPC分析块304具有联接到开环基音分析块308和LTP分析块310的输入端的输出端。所述LTP分析块310具有联接到所述第二向量量化器312的输入端的输出端，并且所述第二向量量化器312具有联接到算术编码块208和噪声整形量化器206的输入端的输出端。所述开环基音分析块308具有联接到LTP分析块310、噪声整形分析块314和高通滤波器202的输入端的输出端。所述噪声整形分析块314具有联接到算术编码块208和噪声整形量化器206的输入端的输出端。

对输入语音信号的每帧，设置所述话音活动检测器302以确定话音活动、波谱倾斜和信噪估算量的标准。利用所述SNR模块316确定所述信噪估算量。

在一个实施方式中，所述话音活动检测器302利用半带滤波器组的序列将信号拆分成四个频率子带：0-F_s/16、F_s/16-F_s/8、F_s/8-F_s/4、F_s/4-F_s/2，其中F_s为取样频率(16kHz或24kHz)。可以通过一阶MA(移动平均)滤波器 (H(z)＝1-z^-1)在话音活动检测器302中对最低子带(0-F_s/16)进行高通滤波以除去最低频率。对于语音信号的每帧，计算每个子带的信号能量。在各子带中，噪声水平估值器测量背景噪声水平，并且将SNR值计算为能量对噪声水平的比率的对数。利用这些中间变量，计算下列参数：

●平均SNR-子带SNR值的平均值

●平滑的子带SNR-时间平滑的子带SNR值

●语音活动水平-基于平均SNR和子带能量的加权平均值

●波谱倾斜-子带SNR的加权平均，对低子带具有正权重，而对高子带具有负权重。

如上所述，设置所述高通滤波器202以对取样的语音信号进行滤波，来除去包含小的语音能量并且可包含噪音的波谱的最低部分。

现在参考图4，图4显示出在语音编码器中执行的方法的流程图。在步骤S402所述语音编码器200接收语音信号。如上所述，在高通滤波器202处以及在语音分析块204的话音活动检测器302处接收语音信号。所述语音信号可被拆分成帧，例如，每帧的持续时间可为20毫秒。

在步骤S404，如上所述，在话音活动检测器302的SNR模块316中确定所述语音信号的SNR值。还是如上所述，可以通过SNR模块316来确定所述语音信号的最低频率子带(0-F_s/16)的平滑的SNR值。

高通滤波器202从话音活动检测器302接收最低子带的平滑的子带SNR。高通滤波器202还可以从话音活动检测器302接收话音活动水平。

在步骤S406，如上所述，在开环基音分析块308的基音延迟模块318中确定所述语音信号的基音延迟。所述基音延迟及时给出在任何给定点处的语音信号的近似周期的指示。利用下面更详细描述的关联方法确定基音延迟。

高通滤波器202从开环基音分析块308接收基音延迟值。如下所述，利用接收的基音延迟，高通滤波器202可以确定平滑的基音频率。

在步骤S408，调节高通滤波器202的截止频率。在优选的实施方式中，设置高通滤波器202以基于最低子带的平滑的子带SNR和平滑的基音频率来调节其截止频率。在另一实施方式中，可以仅基于最低子带的平滑的子带SNR来调节高通滤波器202的截止频率。在另一实施方式中，可以仅基于平滑的基音频率来调节高通滤波器202的截止频率。

如果最低子带的平滑的子带SNR的值在阈值以下，则设置所述截止频率为高值。在一个实施方式中，当确定的语音信号的SNR值增加时，所述截止频率降低。通过这种方法，当在语音信号中存在很少的噪声时，降低截止频率以使更少的输入语音信号被衰减。相似地，当确定的语音信号的SNR值降低时，所述截止频率升高，使得当在语音信号中存在许多噪声时，输入语音信号的更大频率范围被衰减。

按照如下所述根据确定的基音延迟计算平滑的基音频率：

以Hz计的基音频率的对数(LP)计算为取样频率F_s和在前一帧结束时确定的基音延迟的比率。因此对于第k帧，基音频率(LP(k))的对数用下式表示：

LP(k)＝log(Fs/Lag(k-1))

根据由话音活动检测器302确定的对于第k帧的最低子带的平滑的子带SNR(SNR(k))计算具有值在0和1之间的低频信号质量标准(Q)。如在上述实例中所描述的，当取样频率为16Hz并且最低子带为0-F_s/16时，那么最低子带的频率范围为0-1000Hz。根据下列等式计算对于第k帧的低频信号质量标准(Q(k))：

Q(k)＝sigmoid(0.25(SNR(k)-16))

其中，sigmoid函数定义为

sigmoid (a) = \frac{1}{1 + \exp (- a)}

对于高值的SNR，Q也高。对于低值的SNR，Q也低。可使用所述低频信号质量标准(Q)来调节基音频率的对数(LP)，以使得当对于低频率SNR为高时降低基音频率的对数(LP)。通过利用经调节的基音频率的对数，当对于低频率SNR为高时，可以降低利用经调节的基音频率的对数计算的截止频率。根据下列等式计算对于第k帧的经调节的基音频率的对数(LP_adjusted(k))：

LP_adjusted(k)＝LP(k)+0.5(0.6-Q(k))-Q(k)²(LP(k)-log(P_min))

其中，P_min为允许的最低截止频率，例如，80Hz。对每帧递归地平滑经调节的基音频率的对数，使得对于第k帧，平滑的基音频率的对数(LP_smooth(k))用下式表示：

LP_smooth(k)＝LP_smooth(k-1)+coef(LP_adjusted(k)-LP_smooth(k-1))

如果LP_adjusted(k)＞LP_smooth(k-1)，则平滑系数coef等于0.1，否则等于0.3。平滑系数的这种适应性具有如下效果：使平滑滤波器(smoother)在开环基音分析块308中发现的基音频率的范围的低端附近跟踪基音频率的对数。

平滑的基音频率的对数的以上计算仅对浊音帧进行；对于清音帧，平滑的基音频率的对数保持不变。

通过将对于第k帧的平滑的基音频率的对数(LP_smooth(k)转换回线性域可以获得高通滤波器的截止频率，以使得根据下列等式响应第k帧的接收而调节所述截止频率Fc：

F_c(k)＝exp(LP_smooth(k))

当在输入语音信号的最低频率处存在大量的背景噪声时(即，当最低子带的平滑的SNR值为低时)，将高通滤波器202的截止频率调节为近似于语音信号的第一语音谐波的频率。语音信号的第一谐波具有等于基音频率的频率。因此，将截止频率调节为检测到的基音频率使高通滤波器202衰减尽可能多的低频噪声而不除去太多的语音信号，即，不衰减语音信号的第一谐波。可以将截止频率确定为不大于语音信号的基音频率，以使得不衰减语音信号的第一谐波(例如，图1所示的在约120Hz处的峰值)。

语音信号确实含有一些在第一谐波以下的能量。因此，当存在很少或没有背景噪声时(即，当最低子带的平滑的SNR值为高时)，在低频率衰减更少的输入信号是有益的。当在低频率处的SNR值为高时，这可以通过从基音频率降低截止频率来实现。如上所述，通过基于信噪比(SNR(k))计算经调节的基音频率的对数LP_adjusted(k)以及利用经调节的基音频率的对数来确定截止频率F_c(k)，可以进行截止频率的这种调节。

因为利用平滑的基音频率的对数来确定截止频率，因此可以平滑地调节截止频率。截止频率的平滑使编码的信号给人的感觉更加稳定和令人愉悦。

在优选的实施方式中，当将语音信号的第k帧输入到高通滤波器202时，高通滤波器202的截止频率具有响应在前一帧(即，第(k-1)帧)进行的语音分析而已被调节的值(F_c(k-1))。

在可选的实施方式中，在被输入到高通滤波器202以前，第k帧被输入到缓冲器。然而，第k帧被直接输入到语音分析块204中。按照这种方式，在第k帧位于缓冲器中时，可以对第k帧进行语音分析以调节截止频率。然后，当第k帧被输入到高通滤波器202时，高通滤波器202的截止频率具有响应对第k帧进行的语音分析而已被调节的截止频率。

在本发明的优选实施方式中，所述高通滤波器202为二阶ARMA(自回归移动平均)滤波器。

由语音分析块204确定的参数被实时确定。这能够实时地调节高通滤波器202的截止频率。例如，对于语音信号的每帧，可以由语音分析块204确定参数，以使得对于语音信号的每帧可以调节高通滤波器202的截止频率。滤波器参数的动态确定和高通滤波器202的截止频率的动态调节使高通滤波器202的截止频率跟踪语音信号的变化。通过这种方法，高通滤波器202的截止频率能够对语音信号的变化作出反应，其目的是优化要衰减的信号的量。调节高通滤波器202的截止频率的目的是尽可能多地除去在低频处的背景噪声而不从语音信号中衰减不能接受的语音的能量的量。在优选的实施方式中，所述截止频率实时地动态跟随语音信号的基音频率，使得截止频率从不会超过基音频率。通过这种方法，语音的第一谐波(在基音频率处)不会被衰减，而在低于基音频率的频率处语音信号的成分会被衰减。通过这种方法，能够尽可能多地衰减在低频处的噪声而不衰减语音信号的第一谐波。

最低子带的SNR值和基音延迟二者都给出包含在由高通滤波器202衰减的语音信号的语音成分中的能量的量的指示。当最低子带的SNR值为高时，从语音信号衰减较少的包含在语音成分中语音能量。当基音延迟表示低于截止频率的基音频率时，由高通滤波器202衰减语音的第一谐波。由于第一谐波包含大量的能量，所以衰减第一谐波导致从语音信号中衰减大量的语音能量。为了调节高通滤波器202的截止频率，可以使用发出由高通滤波器202衰减的语音成分的能量的指示的其他参数。以这种方式，可以调节从语音信号中要衰减的语音能量的量。

现在我们给出优选实施方式的语音编码器200的细节。

高通滤波器202的输出x_HP被输入到线性预测编码(LPC)分析块304，所述线性预测编码(LPC)分析块304利用使LPC残差r_LPC的能量最小化的协方差方法计算16个LPC系数a_i：

r_{LPC} (n) = x_{HP} (n) - Σ_{i = 1}^{16} x_{HP} (n - i) a_{i}

其中，n为样本数量。LPC系数与LPC分析滤波器一起使用以产生LPC 残差。

所述LPC系数被转变为线谱频率(LSF)向量。利用第一向量量化器306(具有10级的多级向量量化器(MSVQ))来量化所述LSF，产生共同表示经量化的LSF的10个LSF索引。经量化的LSF被转换回去以产生用于噪声整形量化器206的经量化的LPC系数。

所述LPC残差被输入到开环基音分析块308，每5毫秒子帧产生一个基音延迟，即每帧四个基音延迟。在与从56Hz至500Hz的基音频率对应的32样本和288个样本之间选择基音延迟，覆盖典型语音信号中所出现的范围。此外，所述基音分析产生作为当前帧的信号和由基音延迟值延迟的信号的归一化关联的基音关联值。关联值在0.5的阈值以下的帧被分类为清音帧，即，不包含周期性信号，而所有其他的帧被分类为浊音帧。所述基音延迟被输入到算术编码块108和噪声整形量化器206。

对于浊音帧，在LPC残差上进行长期预测分析。所述LPC残差r_LPC被从LPC分析块304提供到LTP分析块310。对于各子帧，所述LTP分析块310求解正规方程组来找到5个线性预测滤波器系数b(i)，以使得对于该子帧在LTP残差r_LTP中的能量最小化：

r_{LTP} (n) = r_{LPC} (n) - Σ_{i = - 2}^{2} r_{LPC} (h - lag - i) b (i)

利用向量量化器(VQ)量化各帧的LTP系数。产生的码本索引(codebook index)被输入到算术编码块208，而量化的LTP系数b_Q被输入到噪声整形量化器。

通过噪声整形分析块314分析高通滤波器202的输出，以找到在噪声整形量化器中使用的滤波器系数和量化增益。所述滤波器系数确定量化噪声在波谱上的分布，并且选择滤波器系数使得量化为最不易听见的。所述量化增益确定残差量化器的步长，并且按此控制比特率和量化噪声水平之间的平衡。

对每5毫秒的子帧计算并应用所有噪声整形参数。首先，在16毫秒的加窗信号块上进行第十六阶的噪声整形LPC分析。相对于当前的子帧，所述信号块具有5毫秒的超前，并且所述窗口为不对称的正弦窗口。用自相关法进行所述噪声整形LPC分析。从噪声整形LPC分析发现所述量化增益为所述残差能量的平方根，乘以常数以将平均比特率设定为所需的水平。对于浊音帧，所述量化增益进一步乘以由所述基音分析确定的基音关联值的倒数的0.5 倍，以降低对于浊音信号来说更容易听到的量化噪声的水平。对各子帧量化所述量化增益，并且将量化索引输入到算术编码块208。将经量化的量化增益输入到噪声整形量化器206。

接下来，通过将带宽扩展应用到在噪声整形LPC分析中发现的系数来找到一组短期噪声整形系数a_shape(i)。根据下式，所述带宽扩展将噪声整形LPC多项式的根向原点移动：

a_shape(i)＝a_autocorr(i)gⁱ

其中，a_autocorr(i)为从噪声整形LPC分析发现的第i个系数，并且对于带宽扩展因子g，发现0.94的值可以得到良好的结果。

对于浊音帧，所述噪声整形量化器也适用于长期噪声整形。噪声整形量化器利用下面描述的三个滤波器抽头(filter tap)：

b_shape＝0.5sqrt(基音关联)[0.25，0.5，0.25]

将所述短期和长期噪声整形系数输入到噪声整形量化器206。

如图1所示，将高通滤波器202的输出也输入到噪声整形量化器206。

现在参照图5讨论噪声整形量化器206的示例。

所述噪声整形量化器206包括：第一加法级502、第一减法级504、第一放大器506、标量量化器508、第二放大器509、第二加法级510、整形滤波器512、预测滤波器514和第二减法级516。所述整形滤波器512包括第三加法级518、长期整形块520、第三减法级522和短期整形块524。所述预测滤波器514包括第四加法级526、长期预测块528、第四减法级530和短期预测块532。

所述第一加法级502具有被设置为从高通滤波器202接收输入的输入端，以及联接到所述第三加法级518的输出端的另一个输入端。所述第一减法级具有联接到所述第一加法级502和第四加法级526的输出端的输入端。第一放大器具有联接到第一减法级的输出端的信号输入端和联接到标量量化器508的输入端的输出端。所述第一放大器506还具有联接到噪声整形分析块314的输出端的控制输入端。所述标量量化器508具有联接到所述第二放大器509和算术编码块208的输入端的输出端。所述第二放大器509还具有联接到噪声整形分析块514的输出端的控制输入端，以及联接到所述第二加法级510的输入端的输出端。所述第二加法级510的另一个输入端被联接到第四加法级526的输出端。第二加法级的输出端被联接回到第一加法级502的输入端、短期预测块532的输入端和第四减法级530。所述短期预测块532的输出端被联接到第四减法级530的另一个输入端。所述第四加法级526具有联接到长期预测块528和短期预测块532的输出端的输入端。所述第二加法级510的输出端被进一步联接到第二减法级516的输入端，并且第二减法级516的另一个输入端被联接到高通滤波器202的输入端。第二减法级516的输出端被联接到短期整形块524和第三减法级522的输入端。短期整形块524的输出端被联接到第三减法级522的另一个输入端。所述第三加法级518具有联接到长期整形块520和短期预测块524的输出端的输入端。

所述噪声整形量化器206的目的是以加权由量化产生的畸变噪声的方式将LTP残差信号量化成人的耳朵更能容忍的噪声的频谱的部分。

在操作中，除了每帧更新一次的LPC系数以外，对每个子帧更新所有的增益以及滤波器系数和增益。所述噪声整形量化器206产生与在解码器中最终产生的输出信号基本上相同的经量化的输出信号。在第二减法级516处从该经量化的输出信号减去输入信号以获得量化误差信号e(n)。所述量化误差信号被输入到整形滤波器512，这将在后面详细描述。为了实现量化噪声的波谱整形，将整形滤波器512的输出与第一加法级502处的所述输入信号相加。在第一减法级504，从得到的信号减去预测滤波器514的输出(将在后面详细描述)以产生残差信号。在第一放大器506处使所述残差信号乘以来自噪声整形分析块314的经量化的量化增益的倒数，并输入到标量量化器508。标量量化器508的量化索引表示被输入到算术编码块208的激励信号。所述标量量化器508还输出量化信号，其在所述第二放大器509乘以来自噪声整形分析块314的经量化的量化增益以产生激励信号。所述预测滤波器514的输出在第二加法级处与所述激励信号相加以形成经量化的输出信号。所述经量化的输出信号y(n)被输入到预测滤波器514。

就术语而言，注意在术语“残差”和“激励”之间存在小的差异。从输入语音信号减去预测获得残差。激励是仅基于量化器的输出。通常，所述残差仅是量化器的输入，而激励为量化器的输出。

所述整形滤波器512输入量化误差信号e(n)到短期整形滤波器524，根据下式，所述短期整形滤波器524利用短期整形系数a_shape(i)来产生短期整形信号s_short(n)：

s_{short} (n) = Σ_{i = 1}^{16} e (n - i) a_{shape} (i)

在第三加法级522处从量化误差信号减去短期整形信号以产生整形残差信号f(n)。根据下式，所述整形残差信号被输入到长期整形滤波器520，所述长期整形滤波器520利用长期整形系数b_shape(i)来产生长期整形信号s_long(n)：

s_{long} (n) = Σ_{i = - 2}^{2} f (n - lag - i) b_{shape} (i)

在第三加法级518处将短期和长期整形信号加在一起以产生整形滤波器输出信号。

根据下式，所述预测滤波器514输入经量化的输出信号y(n)到短期预测器532，所述短期预测器532利用量化的LPC系数a_Q(i)来产生短期预测信号P_short(n)：

p_{short} (n) = Σ_{i = 1}^{16} y (n - i) a_{Q} (i)

在第四减法级530处从经量化的输出信号减去所述短期预测信号以产生LPC激励信号e_LPC(n)。根据下式，所述LPC激励信号被输入到长期预测器528，所述长期预测器528利用经量化的长期预测系数b_Q(i)以产生长期预测信号p_long(n)：

p_{long} (n) = Σ_{i = - 2}^{2} e_{LPC} (n - lag - i) b_{Q} (i)

在第四加法级526处将短期和长期预测信号加在一起以产生预测滤波器输出信号。

由算术编码块208将所述LSF索引、LTP索引、量化增益索引、基音延迟和激励量化索引各自进行算术编码并且多路复用以产生有效载荷比特流。所述算术编码块208利用具有各索引的概率值的查询表。通过运行语音训练信号的数据库以及测量各索引值的频率来生成所述查询表。通过归一化步骤将所述频率转换成概率。

现在参照图6描述用于对根据本发明的实施方式编码的信号进行解码的示例性解码器600。

所述解码器600包括：算术解码去量化块602、激励产生块604、LTP合成滤波器606和LPC合成滤波器608。所述算术解码去量化块602具有设置为从输入设备(例如有线的调制解调器或无线的收发机)接收经编码的比特流的输入端，并且具有联接到各激励产生块604、LTP合成滤波器606和LPC合成滤波器608的输入端的输出端。所述激励产生块604具有联接到LTP合成滤波器606的输入端的输出端，并且所述LTP合成块606具有连接到LPC合成滤波器608的输入端的输出端。所述LPC合成滤波器具有设置为提供经解码的输出端以便于供给输出设备(例如扬声器或耳机)的输出端。

在算术解码去量化块602处，经算术编码的比特流被去多路复用和解码以产生LSF索引、LTP索引、量化增益索引、基音延迟和激励量化索引的信号。通过添加十级MSVQ的码本向量将所述LSF索引变换为经量化的LSF。所述经量化的LSF被转换为经量化的LPC系数。通过在量化码本中查询将所述LTP索引和增益索引变换为经量化的LTP系数和量化增益。

在激励产生块604处，所述激励量化索引信号乘以量化增益以产生激励信号e(n)。

根据下式，利用基音延迟和经量化的LTP系数b_Q(i)，所述激励信号被输入到LTP合成滤波器606以产生LPC激励信号e_LPC(n)：

e_{LPC} (n) = e (n) + Σ_{i = - 2}^{2} e (n - lag - i) b_{Q} (i)

根据下式，利用经量化的LPC系数a_Q，所述LPC激励信号被输入到LPC合成滤波器以产生经解码的语音信号y(n)：

y (n) = e_{LPC} (n) + Σ_{i = 1}^{16} e_{LPC} (n - i) a_{Q} (i)

优选在软件中实现编码器200和解码器600，以使得各部件202-532和602-608包括储存在一个或多个存储设备中并且在处理器中运行的软件的模块。本发明的优选应用是对在基于数据包的网络(例如互联网)上传输的语音进行编码，优选使用在互联网上实现的对等(P2P)网络，例如，作为实况电话的一部分，例如IP语音(VoIP)电话。在这种情况下，优选在通过P2P网络通信的两个用户的最终用户终端上执行的客户端应用软件中实现所述编码器200和解码器600。

应该理解仅通过实施例的方式描述了以上实施方式。根据在此披露的内容，其他的应用和配置对本领域技术人员是显而易见的。本发明的范围不受限于所描述的实施方式，而是仅受限于下面的权利要求。

Claims

1.一种在通信网络中为了语音编码而滤波语音信号的方法，所述方法包括：

确定滤波器的截止频率，其中低于所述截止频率的频率范围内的所述语音信号的成分要由所述滤波器来衰减；

在所述滤波器处接收所述语音信号；

确定所述语音信号的至少一个参数，所述至少一个参数提供要衰减的所述语音信号的成分的能量的指示；以及

根据所述至少一个参数来调节所述截止频率，从而调节要衰减的频率范围，

其中所述至少一个参数包括所述语音信号的基音频率，并且其中所述截止频率被调节为不大于所述基音频率。

2.根据权利要求1所述的方法，其中所述至少一个参数进一步包括所述语音信号的信噪比。

3.根据权利要求2所述的方法，进一步包括：

利用所述信噪比，计算信号质量标准；以及

根据所述信号质量标准，调节所述基音频率。

4.根据权利要求1-3中任一项所述的方法，进一步包括对所述语音信号的多个接收到的帧平滑所述基音频率。

5.根据权利要求4所述的方法，其中所述语音信号的基音延迟用于确定所述基音频率，所述方法进一步包括通过使所述语音信号的第一帧与由所述基音延迟所延迟的语音信号的第二帧相关联来确定基音关联值，其中，其关联值低于阈值的帧被分类为清音帧，而其关联值至少为所述阈值的帧被分类为浊音帧，并且其中，对浊音帧执行所述基音频率的平滑，而对清音帧保持经平滑的基音频率不变。

6.根据权利要求1-3中任一项所述的方法，其中所述截止频率被调节为等于所述基音频率。

7.根据权利要求2或3所述的方法，其中当所述信噪比提高时，降低所述截止频率。

8.根据权利要求2或3所述的方法，其中将所述语音信号拆分为频率子带，并且所述信噪比为最低频率子带的信噪比。

9.根据权利要求1-3中任一项所述的方法，其中动态地确定所述至少一个参数并且动态地调节所述截止频率。

10.根据权利要求1-3中任一项所述的方法，其中对于所述语音信号的每帧至少确定一次所述至少一个参数，并且对于所述语音信号的每帧至少调节一次所述截止频率。

11.根据权利要求1-3中任一项所述的方法，其中要衰减的所述语音信号的成分为包含语音的所述语音信号的语音成分。

12.一种用于在通信网络中为了语音编码而滤波语音信号的滤波器，所述滤波器具有：

截止频率，其中低于所述截止频率的频率范围内的所述语音信号的成分要由所述滤波器来衰减；

用于确定所述语音信号的至少一个参数的部件，所述至少一个参数提供要衰减的所述语音信号的成分的能量的指示；以及

用于根据所述至少一个参数来调节所述截止频率从而调节要衰减的频率范围的部件，

其中所述至少一个参数包括所述语音信号的基音频率，并且设置用于调节所述截止频率的所述部件，使得所述截止频率被调节为不大于所述基音频率。

13.根据权利要求12所述的滤波器，其中所述至少一个参数进一步包括所述语音信号的信噪比。

14.根据权利要求13所述的滤波器，进一步具有：

用于利用所述信噪比来计算信号质量标准的部件；以及

用于根据所述信号质量标准来调节基音频率的部件。

15.根据权利要求12-14中任一项所述的滤波器，进一步包括用于对所述语音信号的多个接收到的帧平滑所述基音频率的部件。

16.根据权利要求15所述的滤波器，其中利用所述语音信号的基音延迟来确定所述基音频率，所述滤波器进一步包括用于通过使所述语音信号的第一帧与由所述基音延迟所延迟的信号的第二帧相关联来确定基音关联值的部件，其中，其关联值低于阈值的帧被分类为清音帧，而其关联值至少为所述阈值的帧被分类为浊音帧，并且其中，对浊音帧执行所述基音频率的平滑，而对清音帧保持经平滑的基音频率不变。

17.根据权利要求12-14中任一项所述的滤波器，其中所述截止频率被调节为等于所述基音频率。

18.根据权利要求13或14所述的滤波器，其中当所述信噪比提高时，用于调节所述截止频率的所述部件降低所述截止频率。

19.根据权利要求13或14所述的滤波器，进一步包括用于将所述语音信号拆分为频率子带的部件，其中所述信噪比为最低频率子带的信噪比。

20.根据权利要求12-14中任一项所述的滤波器，其中动态地确定所述至少一个参数，并且动态地调节所述截止频率。

21.根据权利要求12-14中任一项所述的滤波器，其中对于所述语音信号的每帧至少确定一次所述至少一个参数，并且对于所述语音信号的每帧至少调节一次所述截止频率。

22.根据权利要求12-14中任一项所述的滤波器，其中要衰减的所述语音信号的成分为包含语音的所述语音信号的语音成分。