CN1078371C - 带有减小频谱失真后置滤波器的数字语解码器 - Google Patents
带有减小频谱失真后置滤波器的数字语解码器 Download PDFInfo
- Publication number
- CN1078371C CN1078371C CN90108435.2A CN90108435A CN1078371C CN 1078371 C CN1078371 C CN 1078371C CN 90108435 A CN90108435 A CN 90108435A CN 1078371 C CN1078371 C CN 1078371C
- Authority
- CN
- China
- Prior art keywords
- postfilter
- language
- synthetic
- synthesized speech
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 27
- 230000003292 diminished effect Effects 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 14
- 238000005086 pumping Methods 0.000 claims description 7
- 238000010189 synthetic method Methods 0.000 claims description 5
- 230000036962 time dependent Effects 0.000 claims description 3
- 230000003321 amplification Effects 0.000 claims 1
- 238000003199 nucleic acid amplification method Methods 0.000 claims 1
- 238000011017 operating method Methods 0.000 claims 1
- 238000009499 grossing Methods 0.000 abstract description 11
- 230000003044 adaptive effect Effects 0.000 abstract description 10
- 230000002411 adverse Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 6
- 239000004615 ingredient Substances 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
合成语言平台中的自适应频谱后置滤波器具有分母特性,此特性与上述的LPC滤波器的阶段相一致,并且还具有分子特性,此特性通过频谱平滑技术的应用,被开发成为分母特性的函数。这就使得分子能够追踪分母但不会带来频谱失真。这种失真,换言之。以有害的方式影响了处理过程。
Description
本发明涉及语言编合成方法,更具体地说涉及使用后置滤波器以增强语言质量的数字语言合成方法。
语言编码器与解码器从技术上来讲已为人所知,一些语言编码器将模拟语音样本转变成数字化形式,接着使用线性预测编码表示出频谱语言信息。另外一些语言编码器通过提供一个激励信号(它与原来的语音信号有关)改进通常所用的线性预测编码(LPC)技术。
美国专利号4,817,157描述了一种具有改进了的矢量激励源的语言编码器和解码器,其中可以访问编码本激励矢量的编码本以选取最合适现有信息的编码本矢量信号,并用来从LPC滤波器提供一个合成语言信号,它最能反应出原来的信号。
合成语言信号一旦形成,经常使用各式各样的后置LPC滤波器进一步改善信号。自适应频谱后置滤波器就是一种这样的滤波器。它典型的作用是为了提高合成语言的感觉质量。另外一种滤波器是后置增强滤波器。它使语言合成结果变得清晰。
自适应频谱后置滤波器的典型形式为:
这里0≤η≤v<1 代表有关的LPC滤波器。
在上述后置滤波器表示式中分母项强调了合成语言频谱的构形成分,同时减小频谱的谷值。(在两个极端的情况下,置v=0,结果为全通滤波器,而置v=1结果得到与有关的LPC滤波器一样的分母项。)分子项试图取消,由分母引入的一般频谱形状。在现有技术应用中,v常定在0.8左右,η定在0.5左右。
实际上,分子的多项式在追踪分母的频谱形状时,仅有部分成功(事实上滤波器的频谱特性随时间摆动),误差本身清楚地表明它是随时间改变的后置滤波器语言清晰度的调制。
因此,需要有一种后置滤波合成语言的方法,以提高合成语言的感觉质量,同时减小对语言清晰度的不利影响。语言清晰度本身最好也能得到更好地控制。
这些需要和其它的需要,通过这里揭示的后置滤波器的设备实际上得到满足。根据本发明,可以提供一种后置滤波器。这一后置滤波器的特征是具有第一组成部分和第二组成部分。第一组成部分包括一套系数。将这些系数变换成替换定义域的一套参数。然后处理它们以得到一套修正了的参数。然后用这些参数来提供一套表征第二组成部分的系数。
根据本发明的数字语言合成方法包括以下步骤:
A)向LPC滤波器提供一个激励信号;
B)从LPC滤波器提供一个合成语言信号;
C)配置一个语言合成后置滤波器,它要求有第一部分和第二部分;
D)提供一个含有第一套系数的第一部分;
E)将第一套系数中至少一部分变换到替换定义域的一套参数;
F)处理替换定义域的一套参数,以提供修正过的第一套系数;
G)利用修正过的第一套系数得到语言合成后置滤波器用的第二部分;
H)用第一部分和第二部分滤波语言合成后置滤波器中的合成语言信号,以提供一个滤了波的合成语言信号,其中第二部分自适应地追踪第一部分的一般频谱形状,从而最大限度地减少可能由此滤波步骤引入的随时间变化的频谱倾斜;
I)将滤波过的合成语言信号变为可听信号。
在一个实施方案中,代表第一部分的z变换(滤波器)系数,被变换到自相关定义域。然后将使用了带宽扩展函数的频谱平滑技术应用到自相关序列上。通过Levinson循环,由修正过的自相关序列计算出第二部分多项式系数。这样在上边提出的滤波器特征式中,第一组成部分用来作分母,第二组成部分用来作分子。
通过这一过程,A(Z/v)多项式的频谱平滑形式代替了分子多项式。带宽展开格式不改变平滑的频谱包络线。这样,A(Z/v)多项式的频谱平滑带宽展开形式极大地减小了频谱随时间的摆动。并允许分子自适应追踪分母的一般频谱形状并且将它删除。
在另一个实施方案中,用一个附加后置增强滤波器能够更多地控制后置滤波的语言清晰度。这个滤波器是下式的一阶滤波器。
图1为根据本发明所构成的无线电的方块图;
图2是一流程图,说明了根据本发明的自适应频谱滤波器的特性。
1989年3月28日授与Ira Gerson的美国专利4,817,157(“带有改进了的矢量激发源的数字语言编码器”)一文中极其详细地描述了数字语言编码器和解码器。正如在上述参考材料中已有详细论述,这一发明可用采用合适的数字信号处理器的语言编码器实现,例如Motorala DSP56000系列器件的语言编码器(或解码器)。
图1中,实施本发明的无线电(100)包括:用于接受语言编码无线电频率(射频RF)信号(101)的天线(102)。射频单元(103)处理收到的信号,再现语言编码信息。此信息送到参数解码器(105),形成用于各式各样后序处理过程所需的控制参数。如上所述的激励源(104),利用提供给它的参数,产生一个激励信号。将由激励源(104)产生的这一合成激励信号送到LPC滤波器(106)。LPC滤波器(106)根据编码的信息产生一个合成的语言信号。这一合成的语言信号然后经过音调后置滤波(107)和自适应频谱后置滤波器(108),以加强重新构造的语言的质量。如果希望的话,还可以加一个后置增强滤波器(109),以进一步增强合成语言信号。(有关频谱后置滤波器(108)及后置增强滤波器(109)的进一步细节,将在下面给出。)
语言信号然后在声音处理单元(111)中得到处理,并由声音转换器(112)还原成声音。通过DSP(113)的适当编程可提供激励源(104)、LPC滤波器(106)、音调后置滤波器(107)、自适应频谱后置滤波器(108)、及后置增强滤波器(109)。
依照本发明,自适应频谱后置滤波器(108)具有第一部分和第二部分的特征。第一部分为分母,它与LPC滤波器(106)的滤波特点有关;第二部分为分子,它自适应追踪分母的一般频谱形状,并将它删除。这样一种滤波器的一般形式可在下面提到的一篇文章中找到详尽描述。这篇文章的标题是“使用自适应后置滤波以每秒4800比特速度进行实时矢量APC语言编码”。作者是Chen和Gersho,发表在1987年4月,《声音,语言,信号处理国际会议文件汇编》第2185—2188页。
依据这一发明,将频谱平滑技术应用到分母多项式上产生了分子。这些技术在题为“PARCOR语言分解一合成中的频谱平滑技术”一文中作了描述,作者为Tohkura,Itakura和Hashmoto此文发表在1978年12月编辑的IEEE声音,语言,信号处理学报上。
在一个实施方案中,代表分母的z变换系数变换到自相关定义域。(这种变换的例子可在Markel,J.D.Gray,A.H,Jr的“语言的线性预测”中找到。(Springer—Verlag,柏林,Heideberg,纽约,1976))。频谱平滑技术带宽展开函数然后应用到了自相关序列上。这种应用使用了通过Levinson循环由修正了的自相关序列计算出的分子多项式系数。在一个实施方案中,自相关系数乘上了下列因数,以提供合成的分子系数:
自相关时带 频谱平滑因数
0 1.0000000
1 0.9230769
2 0.7252747
3 0.4835164
4 0.2719780
5 0.1279896
6 4.9773753E-02
7 1.5718028E-02
8 3.9295070E-03
9 7.4847753E-04
10 1.0206513E-04
然后用分子和分母来确定自适应频谱后置滤波器(108)的特性。
当然,直接使用LPC滤波器信息也是可能的,通过类似的过程,由此产生分子项也是可能的。这是因为,如上所述,用LPC滤波器的信息产生了分母项。
通过这一过程,分母多项式的频谱平滑形式提供了分子多项式。分母多项式的频谱平滑带宽展开形式有效地减小了频谱随时间的摆动,并允许分子自适应追踪分母的一般频谱形状,并且将它删除。根据听力试验,使用了约为1200Hz的带宽展开因数(它规定了运用于分母上的平滑度)。
图2的流程图有助于理解上述后置滤波器的特性。如上所述,自适应频谱后置滤波器的特征在于一个第一部分或分母及一个第二部分成分子。第一部分可表示为: 在方框(202),′提供。在随后的步骤203中,代表第一部分的z变换系数被转换到自相关域。在方框204,将一频谱平滑带宽扩展函数加到自相关序列,在方框205,利用Levinson循环,从前一步骤204中修正的自相关序列中计算出分子(第二部分)多项式系数。
分子式第二部分可表示成
1-B(z)
最后,在步骤206,利用第一和第二部分描写自适应频谱后置滤波器的特征,它可表示为:
可以提供后置增强滤波器(109)从而更多地控制后置滤波的语言清晰度。这个滤波器是下式的一阶滤波器: 典型情况下:0.2≤u≤0.5。
Claims (12)
1.利用可减小频谱失真的后置滤波器的数字语言合成方法包括以下步骤:
A)向LPC滤波器提供一个激励信号;
B)从LPC滤波器提供一个合成语言信号;
C)配置一个语言合成后置滤波器,它要求有第一部分和第二部分;
D)提供一个含有第一套系数的第一部分;
E)将第一套系数中至少一部分变换到替换定义域的一套参数;
F)处理替换定义域的一套参数,以提供修正过的第一套系数;
G)利用修正过的第一套系数得到语言合成后置滤波器用的第二部分;
H)用第一部分和第二部分滤波语言合成后置滤波器中的合成语言信号,以提供一个滤了波的合成语言信号。其中第二部分自适应地追踪第一部分的一般频谱形状,从而最大限度地减少可能由此滤波步骤引入的随时间变化的频谱倾斜;
I)将滤波过的合成语言信号变为可听信号。
2.权利要求1中的方法,其中LPC滤滤器至少部分地由下列表达式定义:
3.权利要求2中的方法,其中语言合成后置滤波器的第一部分为下列形式 如在Z变换表达式中所表示的那样。
4.权利要求3中的方法,其中v≈0.8。
5.权利要求1中的方法,进一步包括以下步骤:
1)将在后置增强滤波器中的合成语言信号滤波,实际上以Z变换表达式定义则为:
这里0.2≤u≤0.5
6.用于产生合成语言信号的方法,包括下列步骤:
A)接收含有编码语言信息的射频信号;
B)从编码语言信息中再现激励信号;
C)向LPC滤波器提供激励信号;
D)从LPC滤波器中得到合成语言信号;
E)提供一语言合成后置滤波器,它要求有第一部分和第二部分;
F)提供语言合成后置滤波器使用的,含有第一套系数的第一部分;其特征进一步由以下各步骤构成:
G)将第一套系数中至少一部分变换到替换定义域一套参数;
H)处理替换定义域一套参数,以提供修正过的第一套系数;
I)利用修正过的第一套系数提供语言合成后置滤波器用的第二部分;
J)用第一部分和第二部分过滤语言合成后置滤波器中的合成语言信号,以提供一个滤了波的合成语言信号,其中,第二部分自适应地追踪第一部分的一般频谱形状,从而最大限度地减少可能由此滤波步骤引入的随时间变化的频谱倾斜;
K)将滤波过的合成语言信号变为可听信号。
7.权利要求6中的方法,其中LPC滤波器至少部分地由下列表达式定义:
8.权利要求6中的方法,其中语言合成后置滤波器的第一部分为下列形式 如在Z变换表达式中所表示的那样。
9.权利要求8中的方法,其中v≈0.8。
10.权利要求6中的方法,进一步包括以下步骤:
1)将在后置增强滤波器中的合成语言信号滤波,实际上以Z变换表达式定义为:
这里0.2≤u≤0.5
11.权利要求4或9的方法中的运行步骤还包括放大步骤。
15.权利要求4或9的方法中的替换定义域一套参数,是自相关定义域参数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US42292689A | 1989-10-17 | 1989-10-17 | |
US07/422,926 | 1989-10-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1051101A CN1051101A (zh) | 1991-05-01 |
CN1078371C true CN1078371C (zh) | 2002-01-23 |
Family
ID=23676980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN90108435.2A Expired - Lifetime CN1078371C (zh) | 1989-10-17 | 1990-10-15 | 带有减小频谱失真后置滤波器的数字语解码器 |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP0570362B1 (zh) |
JP (1) | JP3158434B2 (zh) |
CN (1) | CN1078371C (zh) |
AT (1) | ATE177867T1 (zh) |
AU (1) | AU635342B2 (zh) |
DE (1) | DE69033011T2 (zh) |
ES (1) | ES2131498T3 (zh) |
WO (1) | WO1991006093A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2729246A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
FR2729244B1 (fr) * | 1995-01-06 | 1997-03-28 | Matra Communication | Procede de codage de parole a analyse par synthese |
FR2729247A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
JP2993396B2 (ja) * | 1995-05-12 | 1999-12-20 | 三菱電機株式会社 | 音声加工フィルタ及び音声合成装置 |
DE19643900C1 (de) * | 1996-10-30 | 1998-02-12 | Ericsson Telefon Ab L M | Nachfiltern von Hörsignalen, speziell von Sprachsignalen |
US6137844A (en) * | 1998-02-02 | 2000-10-24 | Oki Telecom, Inc. | Digital filter for noise and error removal in transmitted analog signals |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4301329A (en) * | 1978-01-09 | 1981-11-17 | Nippon Electric Co., Ltd. | Speech analysis and synthesis apparatus |
US4617676A (en) * | 1984-09-04 | 1986-10-14 | At&T Bell Laboratories | Predictive communication system filtering arrangement |
JP2535833B2 (ja) * | 1986-07-03 | 1996-09-18 | 日本電気株式会社 | 集積回路 |
US4852169A (en) * | 1986-12-16 | 1989-07-25 | GTE Laboratories, Incorporation | Method for enhancing the quality of coded speech |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
US4817157A (en) * | 1988-01-07 | 1989-03-28 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
-
1990
- 1990-09-17 AU AU64114/90A patent/AU635342B2/en not_active Expired
- 1990-09-17 ES ES90913916T patent/ES2131498T3/es not_active Expired - Lifetime
- 1990-09-17 EP EP90913916A patent/EP0570362B1/en not_active Expired - Lifetime
- 1990-09-17 JP JP51307390A patent/JP3158434B2/ja not_active Expired - Lifetime
- 1990-09-17 AT AT90913916T patent/ATE177867T1/de not_active IP Right Cessation
- 1990-09-17 DE DE69033011T patent/DE69033011T2/de not_active Expired - Lifetime
- 1990-09-17 WO PCT/US1990/005190 patent/WO1991006093A1/en active IP Right Grant
- 1990-10-15 CN CN90108435.2A patent/CN1078371C/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0570362A4 (en) | 1993-07-01 |
DE69033011D1 (de) | 1999-04-22 |
AU635342B2 (en) | 1993-03-18 |
WO1991006093A1 (en) | 1991-05-02 |
EP0570362A1 (en) | 1993-11-24 |
JPH05500573A (ja) | 1993-02-04 |
DE69033011T2 (de) | 2001-10-04 |
ES2131498T3 (es) | 1999-08-01 |
AU6411490A (en) | 1991-05-16 |
ATE177867T1 (de) | 1999-04-15 |
EP0570362B1 (en) | 1999-03-17 |
CN1051101A (zh) | 1991-05-01 |
JP3158434B2 (ja) | 2001-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
EP1959435B1 (en) | Speech encoder | |
JP3678519B2 (ja) | オーディオ周波数信号の線形予測解析方法およびその応用を含むオーディオ周波数信号のコーディングならびにデコーディングの方法 | |
JP4550289B2 (ja) | Celp符号変換 | |
KR100304682B1 (ko) | 음성 코더용 고속 여기 코딩 | |
US6385576B2 (en) | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch | |
JP2002328700A (ja) | フレーム消去の隠蔽およびその方法 | |
JPH1091194A (ja) | 音声復号化方法及び装置 | |
CN1735927A (zh) | 用于高质量语音编码转换的方法和装置 | |
JP3357795B2 (ja) | 音声符号化方法および装置 | |
US6768978B2 (en) | Speech coding/decoding method and apparatus | |
JP3396480B2 (ja) | 多重モード音声コーダのためのエラー保護 | |
CN1078371C (zh) | 带有减小频谱失真后置滤波器的数字语解码器 | |
US5241650A (en) | Digital speech decoder having a postfilter with reduced spectral distortion | |
JP2001154699A (ja) | フレーム消去の隠蔽及びその方法 | |
US20020040299A1 (en) | Apparatus and method for performing orthogonal transform, apparatus and method for performing inverse orthogonal transform, apparatus and method for performing transform encoding, and apparatus and method for encoding data | |
US6058360A (en) | Postfiltering audio signals especially speech signals | |
JP3319556B2 (ja) | ホルマント強調方法 | |
JP3515853B2 (ja) | 音声符号/復号化方式及び装置 | |
Srinonchat | New technique to reduce bit rate of LPC-10 speech coder | |
JPH05165497A (ja) | コード励振線形予測符号化器及び復号化器 | |
JPH0786952A (ja) | 音声の予測符号化方法 | |
CA2513842C (en) | Apparatus and method for speech coding | |
KR100421816B1 (ko) | 음성복호화방법 및 휴대용 단말장치 | |
JPH04352199A (ja) | 音声符号化及び復号化方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CX01 | Expiry of patent term |
Expiration termination date: 20101015 Granted publication date: 20020123 |