CN1078371C

CN1078371C - 带有减小频谱失真后置滤波器的数字语解码器

Info

Publication number: CN1078371C
Application number: CN90108435.2A
Authority: CN
Inventors: 伊拉·阿兰·杰尔森; 马可·安托尼·贾修可
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1989-10-17
Filing date: 1990-10-15
Publication date: 2002-01-23
Anticipated expiration: 2005-10-15
Also published as: EP0570362A4; DE69033011D1; AU635342B2; WO1991006093A1; EP0570362A1; JPH05500573A; DE69033011T2; ES2131498T3; AU6411490A; ATE177867T1; EP0570362B1; CN1051101A; JP3158434B2

Abstract

合成语言平台中的自适应频谱后置滤波器具有分母特性，此特性与上述的LPC滤波器的阶段相一致，并且还具有分子特性，此特性通过频谱平滑技术的应用，被开发成为分母特性的函数。这就使得分子能够追踪分母但不会带来频谱失真。这种失真，换言之。以有害的方式影响了处理过程。

Description

利用可减小频谱失真的后置滤波器的数字语言合成方法

本发明涉及语言编合成方法，更具体地说涉及使用后置滤波器以增强语言质量的数字语言合成方法。

语言编码器与解码器从技术上来讲已为人所知，一些语言编码器将模拟语音样本转变成数字化形式，接着使用线性预测编码表示出频谱语言信息。另外一些语言编码器通过提供一个激励信号(它与原来的语音信号有关)改进通常所用的线性预测编码(LPC)技术。

美国专利号4,817,157描述了一种具有改进了的矢量激励源的语言编码器和解码器，其中可以访问编码本激励矢量的编码本以选取最合适现有信息的编码本矢量信号，并用来从LPC滤波器提供一个合成语言信号，它最能反应出原来的信号。

合成语言信号一旦形成，经常使用各式各样的后置LPC滤波器进一步改善信号。自适应频谱后置滤波器就是一种这样的滤波器。它典型的作用是为了提高合成语言的感觉质量。另外一种滤波器是后置增强滤波器。它使语言合成结果变得清晰。

自适应频谱后置滤波器的典型形式为：

\hat{H} (Z) = \frac{1 - A (\frac{Z}{η})}{1 - A (\frac{Z}{V})}

这里0≤η≤v＜1

\frac{1}{1 - A (Z)}

代表有关的LPC滤波器。

在上述后置滤波器表示式中分母项强调了合成语言频谱的构形成分，同时减小频谱的谷值。(在两个极端的情况下，置v＝0，结果为全通滤波器，而置v＝1结果得到与有关的LPC滤波器一样的分母项。)分子项试图取消，由分母引入的一般频谱形状。在现有技术应用中，v常定在0.8左右，η定在0.5左右。

实际上，分子的多项式在追踪分母的频谱形状时，仅有部分成功(事实上滤波器的频谱特性随时间摆动)，误差本身清楚地表明它是随时间改变的后置滤波器语言清晰度的调制。

因此，需要有一种后置滤波合成语言的方法，以提高合成语言的感觉质量，同时减小对语言清晰度的不利影响。语言清晰度本身最好也能得到更好地控制。

这些需要和其它的需要，通过这里揭示的后置滤波器的设备实际上得到满足。根据本发明，可以提供一种后置滤波器。这一后置滤波器的特征是具有第一组成部分和第二组成部分。第一组成部分包括一套系数。将这些系数变换成替换定义域的一套参数。然后处理它们以得到一套修正了的参数。然后用这些参数来提供一套表征第二组成部分的系数。

根据本发明的数字语言合成方法包括以下步骤：

A)向LPC滤波器提供一个激励信号；

B)从LPC滤波器提供一个合成语言信号；

C)配置一个语言合成后置滤波器，它要求有第一部分和第二部分；

D)提供一个含有第一套系数的第一部分；

E)将第一套系数中至少一部分变换到替换定义域的一套参数；

F)处理替换定义域的一套参数，以提供修正过的第一套系数；

G)利用修正过的第一套系数得到语言合成后置滤波器用的第二部分；

H)用第一部分和第二部分滤波语言合成后置滤波器中的合成语言信号，以提供一个滤了波的合成语言信号，其中第二部分自适应地追踪第一部分的一般频谱形状，从而最大限度地减少可能由此滤波步骤引入的随时间变化的频谱倾斜；

I)将滤波过的合成语言信号变为可听信号。

在一个实施方案中，代表第一部分的z变换(滤波器)系数，被变换到自相关定义域。然后将使用了带宽扩展函数的频谱平滑技术应用到自相关序列上。通过Levinson循环，由修正过的自相关序列计算出第二部分多项式系数。这样在上边提出的滤波器特征式中，第一组成部分用来作分母，第二组成部分用来作分子。

通过这一过程，A(Z/v)多项式的频谱平滑形式代替了分子多项式。带宽展开格式不改变平滑的频谱包络线。这样，A(Z/v)多项式的频谱平滑带宽展开形式极大地减小了频谱随时间的摆动。并允许分子自适应追踪分母的一般频谱形状并且将它删除。

在另一个实施方案中，用一个附加后置增强滤波器能够更多地控制后置滤波的语言清晰度。这个滤波器是下式的一阶滤波器。

\tilde{H} (Z) = 1 - u Z^{- 1}

典型情况下：0.2≤u≤0.5

图1为根据本发明所构成的无线电的方块图；

图2是一流程图，说明了根据本发明的自适应频谱滤波器的特性。

1989年3月28日授与Ira Gerson的美国专利4,817,157(“带有改进了的矢量激发源的数字语言编码器”)一文中极其详细地描述了数字语言编码器和解码器。正如在上述参考材料中已有详细论述，这一发明可用采用合适的数字信号处理器的语言编码器实现，例如Motorala DSP56000系列器件的语言编码器(或解码器)。

图1中，实施本发明的无线电(100)包括：用于接受语言编码无线电频率(射频RF)信号(101)的天线(102)。射频单元(103)处理收到的信号，再现语言编码信息。此信息送到参数解码器(105)，形成用于各式各样后序处理过程所需的控制参数。如上所述的激励源(104)，利用提供给它的参数，产生一个激励信号。将由激励源(104)产生的这一合成激励信号送到LPC滤波器(106)。LPC滤波器(106)根据编码的信息产生一个合成的语言信号。这一合成的语言信号然后经过音调后置滤波(107)和自适应频谱后置滤波器(108)，以加强重新构造的语言的质量。如果希望的话，还可以加一个后置增强滤波器(109)，以进一步增强合成语言信号。(有关频谱后置滤波器(108)及后置增强滤波器(109)的进一步细节，将在下面给出。)

语言信号然后在声音处理单元(111)中得到处理，并由声音转换器(112)还原成声音。通过DSP(113)的适当编程可提供激励源(104)、LPC滤波器(106)、音调后置滤波器(107)、自适应频谱后置滤波器(108)、及后置增强滤波器(109)。

依照本发明，自适应频谱后置滤波器(108)具有第一部分和第二部分的特征。第一部分为分母，它与LPC滤波器(106)的滤波特点有关；第二部分为分子，它自适应追踪分母的一般频谱形状，并将它删除。这样一种滤波器的一般形式可在下面提到的一篇文章中找到详尽描述。这篇文章的标题是“使用自适应后置滤波以每秒4800比特速度进行实时矢量APC语言编码”。作者是Chen和Gersho，发表在1987年4月，《声音，语言，信号处理国际会议文件汇编》第2185—2188页。

依据这一发明，将频谱平滑技术应用到分母多项式上产生了分子。这些技术在题为“PARCOR语言分解一合成中的频谱平滑技术”一文中作了描述，作者为Tohkura，Itakura和Hashmoto此文发表在1978年12月编辑的IEEE声音，语言，信号处理学报上。

在一个实施方案中，代表分母的z变换系数变换到自相关定义域。(这种变换的例子可在Markel，J.D.Gray，A.H，Jr的“语言的线性预测”中找到。(Springer—Verlag，柏林，Heideberg，纽约，1976))。频谱平滑技术带宽展开函数然后应用到了自相关序列上。这种应用使用了通过Levinson循环由修正了的自相关序列计算出的分子多项式系数。在一个实施方案中，自相关系数乘上了下列因数，以提供合成的分子系数：

自相关时带频谱平滑因数

0 1.0000000

1 0.9230769

2 0.7252747

3 0.4835164

4 0.2719780

5 0.1279896

6 4.9773753E-02

7 1.5718028E-02

8 3.9295070E-03

9 7.4847753E-04

10 1.0206513E-04

然后用分子和分母来确定自适应频谱后置滤波器(108)的特性。

当然，直接使用LPC滤波器信息也是可能的，通过类似的过程，由此产生分子项也是可能的。这是因为，如上所述，用LPC滤波器的信息产生了分母项。

通过这一过程，分母多项式的频谱平滑形式提供了分子多项式。分母多项式的频谱平滑带宽展开形式有效地减小了频谱随时间的摆动，并允许分子自适应追踪分母的一般频谱形状，并且将它删除。根据听力试验，使用了约为1200Hz的带宽展开因数(它规定了运用于分母上的平滑度)。

图2的流程图有助于理解上述后置滤波器的特性。如上所述，自适应频谱后置滤波器的特征在于一个第一部分或分母及一个第二部分成分子。第一部分可表示为：

1 - A (\frac{Z}{V})

在方框(202)，′提供。在随后的步骤203中，代表第一部分的z变换系数被转换到自相关域。在方框204，将一频谱平滑带宽扩展函数加到自相关序列，在方框205，利用Levinson循环，从前一步骤204中修正的自相关序列中计算出分子(第二部分)多项式系数。

分子式第二部分可表示成

1-B(z)

最后，在步骤206，利用第一和第二部分描写自适应频谱后置滤波器的特征，它可表示为：

\frac{1 - B (Z)}{1 - A (\frac{Z}{V})}

可以提供后置增强滤波器(109)从而更多地控制后置滤波的语言清晰度。这个滤波器是下式的一阶滤波器：

\tilde{H} (Z) = 1 - u Z^{- 1}

典型情况下：0.2≤u≤0.5。

Claims

1.利用可减小频谱失真的后置滤波器的数字语言合成方法包括以下步骤：

A)向LPC滤波器提供一个激励信号；

B)从LPC滤波器提供一个合成语言信号；

D)提供一个含有第一套系数的第一部分；

H)用第一部分和第二部分滤波语言合成后置滤波器中的合成语言信号，以提供一个滤了波的合成语言信号。其中第二部分自适应地追踪第一部分的一般频谱形状，从而最大限度地减少可能由此滤波步骤引入的随时间变化的频谱倾斜；

I)将滤波过的合成语言信号变为可听信号。

2.权利要求1中的方法，其中LPC滤滤器至少部分地由下列表达式定义：

\frac{1}{1 - A (Z)}

3.权利要求2中的方法，其中语言合成后置滤波器的第一部分为下列形式

1 - A (\frac{Z}{ν})

如在Z变换表达式中所表示的那样。

4.权利要求3中的方法，其中v≈0.8。

5.权利要求1中的方法，进一步包括以下步骤：

1)将在后置增强滤波器中的合成语言信号滤波，实际上以Z变换表达式定义则为：

\tilde{H} (Z) = 1 - u Z^{- 1}

这里0.2≤u≤0.5

6.用于产生合成语言信号的方法，包括下列步骤：

A)接收含有编码语言信息的射频信号；

B)从编码语言信息中再现激励信号；

C)向LPC滤波器提供激励信号；

D)从LPC滤波器中得到合成语言信号；

E)提供一语言合成后置滤波器，它要求有第一部分和第二部分；

F)提供语言合成后置滤波器使用的，含有第一套系数的第一部分；其特征进一步由以下各步骤构成：

G)将第一套系数中至少一部分变换到替换定义域一套参数；

H)处理替换定义域一套参数，以提供修正过的第一套系数；

I)利用修正过的第一套系数提供语言合成后置滤波器用的第二部分；

J)用第一部分和第二部分过滤语言合成后置滤波器中的合成语言信号，以提供一个滤了波的合成语言信号，其中，第二部分自适应地追踪第一部分的一般频谱形状，从而最大限度地减少可能由此滤波步骤引入的随时间变化的频谱倾斜；

K)将滤波过的合成语言信号变为可听信号。

7.权利要求6中的方法，其中LPC滤波器至少部分地由下列表达式定义：

\frac{1}{1 - A (Z)}

8.权利要求6中的方法，其中语言合成后置滤波器的第一部分为下列形式

1 - A (\frac{Z}{ν})

如在Z变换表达式中所表示的那样。

9.权利要求8中的方法，其中v≈0.8。

10.权利要求6中的方法，进一步包括以下步骤：

1)将在后置增强滤波器中的合成语言信号滤波，实际上以Z变换表达式定义为：

\tilde{H} (Z) = 1 - u Z^{- 1}

这里0.2≤u≤0.5

11.权利要求4或9的方法中的运行步骤还包括放大步骤。

15.权利要求4或9的方法中的替换定义域一套参数，是自相关定义域参数。