CN1132155C

CN1132155C - 确定语音编码参数的方法和设备

Info

Publication number: CN1132155C
Application number: CN008026408A
Authority: CN
Inventors: A·维海塔罗; E·帕尔亚宁
Original assignee: Nokia Mobile Phones Ltd
Current assignee: Nokia Oyj; Nokia Technologies Oy
Priority date: 1999-01-08
Filing date: 2000-01-04
Publication date: 2003-12-24
Anticipated expiration: 2020-01-04
Also published as: WO2000041163A3; FI990033A0; ATE360249T1; WO2000041163A2; AU2112700A; JP4545941B2; US6587817B1; EP1145221B1; FI990033A; DE60034429T2; EP1145221A2; DE60034429D1; HK1042578A1; EP1145221A3; JP2004513381A; ES2284473T3; HK1042578B; CN1337042A; FI114833B

Abstract

一种包括组成包含语音样本的第一噪声缩减帧(18)的方法；利用第一窗函数对帧开窗口。对于被开窗口的帧，执行噪声缩减以产生第二噪声缩减帧(19；45)。要组成的语音编码的帧(44)包括至少两个相继的、部分相互相加的第二噪声缩减帧(45，46)的噪声缩减样本。根据所述的语音编码帧(44)，确定一组语音编码参数Pj。语音编码帧中的前视部分(42)至少部分利用第一斜坡(41)组成，第一斜坡(10，41)包括第二噪声缩减帧中的一组最近的噪声缩减样本，并不与任何其他的第二噪声缩减帧中的样本相加。本方法减少由于语音编码和噪声缩减而引起的延时。

Description

确定语音编码参数的方法和设备

技术领域

本发明涉及语音编码并特别涉及语音编码帧的组成。

背景技术

延时通常是在一个事件与另一个同它相连的事件之间的期间。在移动通信***中，延时发生在信号发送与信号接收之间，该延时是由许多不同因素交互作用引起的，例如，由于语音编码，信道编码和信号的传播延时引起的。长的响应时间在会话中产生不自然的感觉，因而，由***引起的延时总是使通信更困难。因此，目标是使***的每一部分中的延时为最小。

一种延时的来源是在信号处理中所用的窗口。窗口的用途是使信号形成为在进一步处理中所需要的形式。例如，通常情况下在移动通信***中所使用的噪声缩减器主要工作在频率域，因此，将要噪声缩减的信号通常利用快速富里衰变换(FFT)逐帧地从时间域变换到频率域。为了使FFT按所希望的方式起作用，将分成帧的样本在FFT以前应该开窗口。

图1通过一个例子表示将一个帧F(n)开窗口成为梯形形式的步骤。在开窗口过程中，将包含在该帧F(n)中的样本集用一个窗函数相乘，使得由此得到的窗W(n)19包括第一斜坡10(在此以后称为前斜坡)，包含该帧中的更近的样本，第二斜坡11(在此以后称为后斜坡)，包含该帧中的较老的样本，和在它们之间的余下的窗口部分12。在本例的开窗口过程中，位于第一和第二斜坡之间的窗口部分12的样本被乘以1，也就是它们的值保持不变。将前斜坡10的样本乘以递降的函数，其中前斜坡10中最老的样本的系数接近1，最新的样本的系数接近0。相应地，将后斜坡11的样本乘以递升的函数，其中后斜坡11中最老的样本的系数接近0，最新的样本的系数接近1。

为了语音编码器的噪声缩减，通常情况下该噪声缩减帧F(n)(参考号18)由新的样本组成的输入帧16，和前面的输入帧中最老的样本集15组成。因此，将样本17用于组成两个相继的输入帧。图1还表示出经常使用在涉及FFT的开窗口过程中的叠加方法。在该方法中，将相继的窗口的噪声缩减帧中噪声缩减样本的部分彼此相加，以便改进相继帧之间的调节。在图1所示的例子中，将相继帧F(n)和F(n+1)中斜坡10和13的噪声缩减样本相加，使得将从帧F(n)的较新样本算得的前斜坡10的数据逐个样本地与从帧F(n+1)的较老样本算得的斜坡13相加，以使重迭斜坡的系数之和是1。然而，由于叠加方法，在整个随后的帧F(n+1)的噪声缩减被执行以前，由前斜坡10所表示的部分不可能进一步被从噪声缩减过程发送，在整个下一帧被接收到以前，下一帧F(n+1)中任何噪声缩减过程不可能开始。因此，在信号处理中使用叠加方法引起了附加的延时D1，等于斜坡10的长度。

图2中的简化方框图示出依据现有技术，处理由分成帧的样本组成的信号的阶段。方框21如上所述，表示将一个帧的开窗口，方框22表示用于开窗口帧的噪声缩减算法的性能，包括至少一个在被开窗口的数据上实施的FFT和它的逆变换。方框23表示依据叠加开窗口方法实施的操作，其中对于该窗口的第一斜坡10，14存储噪声缩减数据，等待处理下一帧，并且其中将所存储的数据与下一帧的第二斜坡13的数据相加。方框24表示与信号预处理有关的语音编码，通常情况下包括高通滤波和用于语音编码的信号定标。数据被从方框24传送到方框25用于语音编码。

在当前移动电话***中所使用的语音编码解码器(例如，CELP，ACELP)是基于线性预测(CELP＝码激励线性预测)。在线性预测中，将信号逐帧地编码。将包含在这些帧中的数据开窗口，并且根据该开窗口的数据，计算一组自相关系数，将它用于确定线性预测函数的系数，该系数将被用作编码参数。

以上是在数据传输中所使用的一种已知的程序，其中典型情况下利用并不属于要处理的帧的较新数据，例如，在一种应用于语音帧的程序中。在某些语音编码算法中，例如依据由电子联盟/远程通信工业联合会(EIA/TIA)所规定的IS-641标准的一种算法，用于语音编码的线性预测(LP)参数是从包含，除了要分析的帧以外，属于前面的和随后的帧的样本的窗口算得的。将属于随后的帧的样本称为前视样本。一种相应的装置也已被提议使用，例如，在自适应多速率(AMR)编码解码器方面。

图3表示在依据IS-641标准的线性预测中所使用的前视。每个20-ms长的语音帧30被开窗成为也包含属于前面的和随后的帧的样本的一个非对称窗口31。将由较新样本组成的窗口31的部分称为前视部分32。对于每个窗完成一次LP分析。如图3中可见，与前视有关的开窗口过程在与前视部分32的长度对应的信号中引起一种算法延时D2。因为作为噪声缩减开窗口的结果，用于语音编码的信号的到达已经被延时D1时间，将延时D2与以前所描述的噪声缩减附加的延迟D1相加。

发明内容

依据本发明，一种用于产生语音编码帧的方法，该方法包括以下步骤：

组成一系列部分重迭的包含语音样本的第一帧；

用第一窗函数处理第一帧系列中的第一帧，用于产生具有第一斜坡的第二开窗的帧；

对第二帧执行噪声缩减，用于产生包括噪声被缩减的语音样本的第三帧；和

组成包括至少相互部分地相加的两个相继的第三帧的噪声缩减样本的语音编码帧；

其特征在于，该方法还包括以下步骤：

组成语音编码帧，使得它具有前视部分，该部分至少部分地由第一斜坡的噪声被缩减语音样本组成，这些第一斜坡的噪声被缩减的语音样本并不与要组成语音编码帧的任何其他的噪声缩减的语音样本相加。

有利的是，以上所描述的算法延时的联合影响可被本发明的方法和实现该方法的设备缩减。

有利的是，通过利用在语音编码开窗中在噪声缩减中已经实施的开窗口过程，由处理阶段引起的该算法延时并不相互相加。

一种依据本发明的语音编码器被描述在权利要求10中，一种依据本发明的移动站被描述在权利要求13中。本发明的实施方案被描述在从属的权利要求中。

附图说明

下面通过参考附图更详细地解释本发明，其中

图1通过作为例子提出将一个帧F开窗口成为梯形形式(先前技术)来说明开窗过程；

图2以方框图的形式(先前技术)示出对由分成帧的样本组成的信号的处理；

图3示出在依据IS-641标准(先前技术)的线性预测中的前视；

图4以简化的形式示出本发明的原理；

图5以流程图的形式示出依据本发明的方法；

图6以方框图的形式示出依据本发明的一种语音编码器的功能；和

图7以方框图的形式示出依据本发明的一种移动站；

具体实施方式

图1到3在上面已被描述。

图4以简化的形式，说明在依据本发明的语音编码中缩减算法延时的原理。时间轴NR描述在噪声缩减22中所使用的开窗口过程，时间轴SC描述在语音编码25中所使用的开窗口过程。在噪声缩减和语音编码中所使用的帧的长度之间的比率与本发明没有关系，但最好语音编码帧的长度是后斜坡11和噪声缩减帧19的窗口部分12之和的倍数。因此，语音编码帧的长度是所述的和乘以整数N＝1，2，...。在所提出的实施方案中，采用依据IS-641标准的语音编码开窗口，并假定，在噪声缩减中所使用的开窗过程是这样的，使得在语音编码中所使用的帧的长度是在噪声缩减中所使用的帧的长度的两倍，并不限制本发明为所选的长度或它们的比率。在所提出的实施方案中，一种具有余弦形式的函数被用于噪声缩减窗的斜坡，语音编码窗是一种由汉明窗组成的不对称窗并且所组成的窗函数利用余弦函数：

w (n) = 0,54 - 0,46 \cos (\frac{2 πn}{2 L_{1} - 1}) - - - n = 0, . . ., L_{1} - 1 - - - (1)

w (n) = \cos (\frac{2 π (n - L_{1})}{{4 L}_{2} - 1}) - - - n = L_{1}, . . ., L_{1} + L_{2} - 1

其中n是窗中样本的指数，L₁＝200，L₂＝40。

在依据现有技术的解决方案中，由对应于斜坡41长度的噪声缩减叠加开窗引起的延时D1和为前视斜坡42的长度的语音编码所需的延时D2影响信号的处理。在依据本发明的解决方案中，在噪声缩减开窗中所计算的斜坡41被用于语音编码前视中，从而当噪声缩减样本被编码和从与此有关的噪声缩减开窗获得的斜坡41被在语音编码方框25中接收到时，语音帧可被立即分析和编码。在这种情况下，由噪声缩减引起的延时D1并不与由语音编码开窗引起的延时D2相加，代替的是，它与由前视引起的算法延时合并，使得过程的总算法延时小于依据先前技术的解决方案中延时。依据本发明的方案是可能的，因为在前视中，包含在前视部分中的样本，当分析要编码的帧时，只被用作辅助信息，也就是并不专诚地根据包含在前视部分中的样本组成输出信号。

为了达到依据本发明的效果，与要组成语音编码帧的最新样本43有关的噪声缩减开窗的斜坡41被与噪声缩减的样本40，43一起传送供语音编码。噪声缩减开窗与语音编码开窗最好被安排成在时间上重迭，使得至少一个噪声缩减开窗斜坡41与每个语音编码帧的前视部分42至少部分地符合。

在图4中所示的实施方案中，在语音编码中所用的窗的前斜坡和在噪声缩减中所用的窗的前斜坡具有相同的长度，并且相同的窗函数被用于前斜坡，也就是斜坡是相同的。就本发明而论，这是一种计算上优选的方案，因为，在这种情况下，从噪声缩减开窗所获得的斜坡可被直接用作语音编码的前视部分，算法延时被缩减而不需要附加的处理。例如，在图4中所示的情况下，依据本发明，从窗W(n-2)47的噪声被缩减样本40，两个噪声缩减窗W(n)，W(n-1)(参考号46，45)的噪声被缩减样本43，和与窗W(n)45的样本有关的噪声被缩减开窗斜坡41组成语音编码窗44。噪声缩减样本40，43被语音编码窗函数处理并根据从被开窗的样本40，43组成的窗44和所述的斜坡41完成自相关分析。在这种情况下，由噪声缩减引起的，长度是斜坡41的长度的延时与由语音编码前视引起的延时合并，并且它们的联合影响被减少。

在图5中的方框图用作说明一种依据本发明的用于处理语音的方法。步骤51表示与语音编码有关的信号预处理，这在先前技术中是已知的，包括高通滤波和用于语音编码阶段的信号定标。在步骤52中，已预处理的样本被如上所示的第一窗函数处理。步骤53描述用于被开窗帧的噪声缩减算法的性能，包括至少一个FFT和它的逆变换，在被开窗的数据上实施操作。步骤54描述依据叠加方法的操作，在其中如上所示，噪声被缩减和被开窗的样本被存储和相加。在步骤54以后，本方法包括两个不同的分支，第一分支55包括语音编码算法，其中帧不必要开窗口，第二分支56，57，包括语音编码算法(例如，LPC)，其中开窗口是需要的。

在第二语音编码分支中，利用噪声被缩减样本组成第二窗口(步骤56)。在依据本发明的方法中，从给定数量的被接收到的噪声被缩减的样本和与最新接收到的样本有关的噪声缩减开窗的前斜坡组成第二窗口。因为噪声被缩减斜坡的预处理需要几个附加的步骤，因此与先前技术不同，在噪声缩减开窗和噪声缩减以前，在步骤51中进行预处理。根据第二窗口计算一组语音编码参数Pj(例如LP参数)(步骤57)，这些参数被传送到第一语音编码分支55用于其他的语音编码算法。在第一分支55中产生的语音编码参数rj，依据先前技术，能够利用与编码器对应的解码器重建语音。

然而，利用本发明不只是限于统一窗口，而且也可能有不同的长度比率和形状(也就是在斜坡上所用的开窗函数不同的比率)。如果包含噪声缩减的最新样本与语音编码前视部分42那样长，但所述的前斜坡41和前视部分42具有不同的形状，要传送的前斜坡41必须在方框54中或被传送的前斜坡41必须在方框56中逐个样本用补偿在开窗中所用的函数之间的差别的校正函数相乘。在这种情况下，缩减算法延时引起过程中的计算延时，然而，典型情况下，比起要缩减的算法延时具有较小的影响。

噪声缩减前斜坡和前视部分的长度可以是相互不同的。如果噪声缩减器的前斜坡比前视部分长，算法延时自然依据所述的前斜坡确定。另外，前斜坡的样本，或在前视中所使用的前斜坡的部分必须逐个样本用补偿在开窗中所用的函数之间的差别的校正函数相乘。如果噪声缩减器的前斜坡41比前视部分42短，所述的前斜坡41和所需数量的跟随其后的新样本被传送供语音编码25，以便将前视部分的长度完整。从噪声缩减获得的前斜坡和随后的样本必须再次用补偿差别的校正函数处理。

图6中的方框图用作说明依据本发明的一种语音编码器的功能。编码器60包括输入61，用于接收包含由语音确定的样本的帧Fj，和输出62，用于提供根据样本确定的语音参数rj。输入61被安排成对接收到的帧预处理供语音编码和将帧开窗成为优选的形状供噪声缩减。编码器还包括处理装置63，被适配成根据从输入61接收到的被开窗的噪声缩减帧，实施用于确定语音参数的操作。处理装置包括一个噪声缩减器64，其中被接收到的噪声缩减帧用一种专门的噪声缩减算法处理。噪声缩减帧被发送到一个相加器65，被连到存储器69，用于存储包含在相继的噪声缩减帧中的样本，至少关于噪声缩减开窗的前斜坡的样本。相继的噪声缩减帧的样本被相加器65相互相加，以改善相继帧互相适应的方式，最好前面的噪声缩减帧的前斜坡10被与要处理的噪声缩减帧的后斜坡13相加。处理装置也包括一个编码部件66。依据本发明，编码部件66包括两个不同的分支，第一分支67包括语音编码算法，其中帧不必要被开窗口，和第二分支68，包括语音编码算法(例如LPC)，其中开窗口是需要的。依据本发明，相加器65被安排成传送与要组成语音编码帧的最新样本对应的噪声缩减窗的前斜坡10至少到编码部件66的第二分支68，用于在第二语音编码分支中开窗口。在第二分支68中，如上所示，所述的斜坡被用于组成第二窗，由此，由噪声缩减开窗口和语音编码开窗口引起的算法延时的联合影响被减小。藉助于在第一67和第二分析分支68中所实施的所述的语音编码算法，以对于本领域的技术人员已知的方式确定语音编码参数rj，使得通过与编码器对应的解码器能够将语音重建。以上提到的先前技术功能的更详细描述可以在，例如，EIA/TIA标准IS-641中找到。

在图7中的方框图用作说明依据本发明的一种移动站70，移动站包括一个中央处理单元71，控制移动站的各种功能，一个用户接口72(典型情况下至少一个键盘，显示器，话筒，和扬声器)，使得能与用户通信，和一个存储器73，典型情况下至少由一个非挥发性和挥发性存储器组成。另外，移动站包括无线电部分74，使得能与移动通信***的网络部分通信。在移动通信***中，语音被以编码的形式传送，因此，在无线电部分74和用户接口72之间最好有一个编码解码器75，编码解码器包括一个用于对语音编码的编码器和一个用于对语音解码的解码器。根据从通过用户接口72接收到的语音信号取得的样本，由编码器计算一组语音参数。用于通过无线电部分74发送到接收机。相应地，通过无线电部分接收到的语音参数被解码，并根据被解码的参数，被接收到的语音被重建，供通过用户接口72输出。如上所示，依据本发明，一个移动站的编码解码器包括装置63，69，当连同语音编码算法实施开窗口时，用于利用在噪声缩减中所确定的第一开窗口斜坡。

本文通过举例提出了本发明的执行过程和实施方案。本领域的技术人员将认识到，本发明并不限于以上提出的实施方案的细节，也可用另一种形式来实现本发明而不偏离本发明的特征。以上提出的实施方案应该被认为是用作说明而不是限制。因此，实现和利用本发明的可能性仅由所公开的权利要求限定。因此，用于实现由权利要求所确定的本发明的各种选择方案，包括等效实施方案，都属于本发明的范围。

Claims

1.一种用于产生语音编码帧(44)的方法，本方法包括以下步骤：

组成一系列部分重迭的包含语音样本的第一帧(18)；

用第一窗函数处理第一帧系列(18)中的第一帧，用于产生第二、被开窗口的、具有第一斜坡的帧；

在第二帧上执行噪声缩减，用于产生包括噪声缩减的语音样本的第三帧(19；45)；和

组成语音编码帧(44)，包括至少部分地相互相加的两个相继的第三帧(45，46)的噪声缩减样本，

其特征在于，本方法还包括以下步骤：

组成语音编码帧(44)，使其具有一个前视部分(42)，至少部分地由第一斜坡(41)的噪声缩减语音样本组成，这些第一斜坡的噪声缩减语音样本并不与要组成的语音编码帧(44)的任何其他噪声缩减语音样本相加。

2.依据权利要求1的方法，其特征在于：在组成所述的语音编码帧以前，所述的噪声缩减样本(40，43)利用第二窗函数处理。

3.依据权利要求2的方法，其特征在于：当指向于第一斜坡的样本时，第一窗函数和第二窗函数被安排成产生相同的结果。

4.依据权利要求1-3之中任何一项权利要求的方法，其特征在于：该前视部分中至少某些噪声缩减的语音样本等于第一斜坡中噪声缩减的语音样本。

5.依据权利要求1-3之中任何一项权利要求的方法，其特征在于：第三帧(19)包括相应于第一斜坡(10)的、从帧的较早的样本中经过处理的第二斜坡(11)，本方法还包括：

将要处理的第三帧(19)中的第二斜坡(11)的样本与前面的第三帧中的第一斜坡的噪声缩减样本相加。

6.依据权利要求2的方法，其特征在于：当指向第一斜坡的样本时，第一窗函数和第二窗函数被安排成产生不同的结果，由此，也在本方法中，第一斜坡(41)的样本利用一种专门的校正函数进行处理。

7.依据权利要求1或2的方法，其特征在于：该前视部分中的至少某些噪声缩减的语音样本是利用第一斜坡中的噪声缩减语音样本的校正函数组成的。

8.依据权利要求1-3之中任何一项权利要求的方法，其特征在于：一组线性预测(LP)参数是根据语音编码帧(44)确定的。

9.依据权利要求1-3之中任何一项权利要求的方法，其特征在于：语音样本的预处理是在噪声缩减以前执行的。

10.一种语音编码器(60)，包括

输入部件(61)，用于组成一系列部分重迭的包含语音样本的第一帧(18)；

一种装置，用于利用第一窗函数处理第一帧系列(18)中的第一帧，以组成第二、被开窗口的、具有第一斜坡的帧；

噪声缩减器(64)，用于在第二帧上执行噪声缩减，以组成包括噪声缩减样本的第三帧(19)；

编码部件(66)，包括用于组成语音编码帧(44)的装置(65，68)，语音编码帧(44)包括至少部分地相互相加的两个相继的第三帧(45)的噪声缩减样本，和装置(68)，用于根据所述的语音编码帧(44)确定语音编码参数(Pj)；

其特征在于：

该编码部件(66)还包括组成语音编码帧(44)的装置(65，68)，使得语音编码帧(44)具有至少部分地由第一斜坡(41)组成的前视部分(42)，第一斜坡中噪声缩减的语音样本并不与要组成的语音编码帧(44)中的任何其他的缩减语音样本相加。

11.依据权利要求10的语音编码器，其特征在于：所述的编码部件(66)包括装置(68)，用于与组成语音编码帧(44)相联系利用第二窗函数处理所述的噪声缩减样本(40，43)。

12.依据权利要求10或11的编码器，其特征在于：第三帧(19)包括对应于第一斜坡(10)、从较早的样本中处理的第二斜坡(11)，并且编码器还包括相加器(65)，用于将要被处理的第三帧(19)中的第二斜坡(11)的噪声缩减样本与前面的第三帧中的第一斜坡的噪声缩减样本相加。

13.一种具有语音编码器(60)的移动站(70)，包括：

输入部件(61)，用于组成包含语音样本的一系列部分重迭的第一帧(18)；

一种装置，用于利用第一窗函数处理第一帧系列(18)中的第一帧，以组成具有第一斜坡的第二、被开窗口的帧；

其特征在于：

编码部件(66)还包括用于组成语音编码帧(44)的装置(65，68)，使得语音编码帧(44)具有至少部分地利用第一斜坡(41)组成的前视部分(42)，第一斜坡中的噪声缩减语音样本并不与要组成的语音编码帧(44)的任何其他的噪声缩减语音样本相加。