JP4558205B2 - スピーチコーダパラメータの量子化方法 - Google Patents
スピーチコーダパラメータの量子化方法 Download PDFInfo
- Publication number
- JP4558205B2 JP4558205B2 JP2000575121A JP2000575121A JP4558205B2 JP 4558205 B2 JP4558205 B2 JP 4558205B2 JP 2000575121 A JP2000575121 A JP 2000575121A JP 2000575121 A JP2000575121 A JP 2000575121A JP 4558205 B2 JP4558205 B2 JP 4558205B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- transmitted
- energy
- vector
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013139 quantization Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 43
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 37
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 37
- 230000007704 transition Effects 0.000 claims abstract description 19
- 230000003595 spectral effect Effects 0.000 claims abstract description 10
- 238000013213 extrapolation Methods 0.000 claims abstract description 5
- 230000006866 deterioration Effects 0.000 claims abstract 2
- 230000005236 sound signal Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 10
- 230000005284 excitation Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000000737 periodic effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Machine Translation (AREA)
- Devices For Executing Special Programs (AREA)
- Executing Machine-Instructions (AREA)
Description
本発明はスピーチエンコーディング方法に関する。当該方法は、特に1200bps程度の非常に低いビットレートの、衛星通信、インターネット電話、静的自動応答装置、音声ページャに採用される音声符号化器において使用することができる。
【0002】
音声符号化器の目的は、人間の耳にとって元の音声信号になるべく近く聞こえる音声信号を、可能な限り少ない2値化データで再生することである。
【0003】
この目的のために、音声符号化器は音声信号の完全にパラメータ化されたモデルを使用する。使用されるパラメータは、剛性フィルタを刺激してパラメータ化するための、発音された声の周期特性や発音されていない音のランダム特性、「ピッチ」とも呼ばれる発音された声の基本周波数、エネルギーの時間変化と信号のスペクトルの包絡線等である。フィルタリングは、一般に、線形予測デジタルフィルタによって行われる。
【0004】
これらの種々のパラメータは、音声信号について、パラメータや符号化器に依存するが、10msから30msの時間フレーム毎に、1回から数回程度、周期的に推定される。これらの値は分析装置で準備され、一般的には別の合成装置に伝達される。
【0005】
低ビットレート音声符号化器の分野では、LPC10として知られる2400bit/秒符号化器が長い間使用されてきた。この符号化器の構造と、低ビットレートにおける動作は以下の文献に開示されている。
NATO標準STANAG−4198−Ed1「2400bpsで線形予測符号化された音声の共通な取り扱いを確保するためのパラメータと符号化特性(Parameters and coding characteristics that must be common to assure interoperability of 2400 bps linear predictive encoded speech)」1984年2月13日、および、B. Mouy, D de la NoueとG. Goudezeuneによる「NATO STANAG 4479:HF−ECCMシステムにおける800bps音声符号化器とチャネル符号化のための標準(A Standard for an 800 bps Vocoder and Channel Coding in HF-ECCM system)」、音響、音声と信号処理に関するIEEE国際コンファレンス、デトロイト、1955年5月、480−483ページ。
【0006】
これらの音声符号化器によって再生される人の声は完全に聞き取れはするものの、音質が劣悪なために、この適用分野は専門的又は軍事的な分野に限定されている。近年、MBE、PWIやMELPと呼ばれる新しいモデルが導入されるに伴って、低ビットレートスピーチ符号化は大幅に改善された。
【0007】
MBEモデルは、D. W. GriffinとJ. S. Limによる「マルチバンド音声符号化励振(Multiband Vocoders Excitation)」、音響、音声と信号処理に関するIEEE論文集、第36巻、第8号、1223−1235ページ、1988年に記載されている。
【0008】
PWIモデルは、W. B. KleijnとJ. Haogenによる「符号化と合成のための波形補間(Waveform Interpolation for Coding and Synthesis)」、W. B. KleijnとK.K. Paliwal編の「音声符号化と合成」Elsevier出版、1995年に記載されている。
【0009】
最後に、MELPモデルは、L. M. Supplee, R. P. Cohn, J.S. ColluraとA. V. McCreeによる「MELP:2400bit/sにおける新しい連邦標準(MELP: The New Federal Standard At 2400 bits/s)、音響、音声と信号処理に関するIEEE国際コンファレンス、1591から1594ページ、ミュンヘン、1997年に記載されている。
【0010】
これらの2400bit/sモデルで再生された音声は大部分の民間及び商業分野で許容できるものになった。しかし、2400bit/s以下のビットレートでは(代表的には1200bit/sあるいはそれ以下)、再生スピーチの品質は不十分で、この欠点を補うために、別の技術が使用されている。第1の技術は、2種類のバリエーションがそれぞれ、既に紹介したB. Mouy, P. de la NoueとG. Goudezeuneの文献と、Y. Shohamによる「1.2から2.4kbpsにおける極めて単純化された補間を伴う音声符号化(Very Low Complexity Interpolative Speech Coding at 1.2 To 2.4 Kbps)」音響、音声と信号処理に関するIEEE国際コンファレンス、1599−1602ページ、ミュンヘン、1997年4月に記載されている、セグメント分割音声符号化技術である。
【0011】
しかしながら、今のところ、セグメント分割音声符号化器は民生及び商業用に利用するために十分な品質を有していないように見える。
【0012】
第2の技術は、認識と合成の原理を組み合わせて用いる音声符号化器で使用されている技術である。この分野の研究は基礎研究分野にとどまっている。使用されているビットレートは1200bit/sよりもはるかに低く(代表的な値は50から200bit/s)であり、品質は低く、しばしば人の声を認識することができない。この種の音声符号化器は、J. Cernocky, G. BaudoinとG. Cholletによる「音声アプローチを超えるセグメント分割音声符号化器(Segmental Vocoder - Going Beyond The Phonetic Approach)」、音響、音声と信号処理に関するIEEE国際コンファレンス、605−698ページ、シアトル、1998年5月12−15日に開示されている。
【0013】
本発明の目的は上述の欠点を解消することである。
【0014】
上記の目的を達成するために、本発明は、音声信号のパラメータを符号化して送信する分析部と、該送信されたパラメータを受信して復号化する合成部とを使用して、非常に低いビットレートの音声符号化器によって音声通信のための音声符号化と復号化を行い、線形予測合成フィルタを使用して音声信号を再構成し、パラメータを分析し、ピッチと、音声遷移周波数とエネルギーとスペクトル包絡線を、音声信号を所定の長さのフレームに分割して記述する方法であって、N個の連続するフレームのパラメータを集めてスーパーフレームを作成し、スーパーフレームごとに音声の遷移周波数のベクトル量子化を行い、もっとも頻繁に発生する形状のみを劣化させないように送信し、最も頻度の低い形状を最も頻繁に発生する形状の中の絶対誤差が最も近いものによって置換し、スーパーフレームごとに1つの値をスカラー量子化してピッチを符号化し、ベクトル量子化されたサブパケットの値から少ない数の値のみを選択してエネルギーを符号化し、送信された値に対して補間又は補外を行って送信されなかったエネルギー値を復活させ、特定の数のフィルタのみを選択することによって、ベクトル量子化を使用してスペクトル包絡パラメータを線形予測合成フィルタによる符号化のために符号化し、送信されなかったパラメータを送信されたフィルタのパラメータを補間又は補外処理することによって復活させる方法によって達成する。
【0015】
本発明の他の特徴と利点は図面を参照して行う以下の記述によって明らかにする。
図1は、本発明の実施において使用するHSX型の音声符号化器の混合励振モデルを示す図である。
図2は、本発明において使用するHSX型の音声符号化器の「分析」部の機能を示す図である。
図3は、本発明において使用するHSX型の音声符号化器の合成部分の機能を示す図である。
図4は、本発明にかかる方法の主要な処理過程を示すフローチャートである。 図5は、連続した3つのフレームの音声遷移周波数の形状の分布を示す表である。
図6は、本発明を実行するために使用する音声遷移周波数のベクトル量子化表である。
図7は、本発明において、音声信号のエネルギーを符号化するための選択と補間を示したリストである。
図8は、線形予測LPCフィルタの符号化のための補間/補外と選択を示すリストである。
図9は、本発明に基づく1200bit/sHSX型の音声符号化器による符号化に必要なビットの配分表である。
【0016】
本発明の方法では、1200bit/s高性能音声符号化器を作成する基本として、HSXまたは「調和確率過程励振」音声符号化器として知られている音声符号化器を使用する。
【0017】
この種の音声符号化器は、C. Laflamme, R. Salami, R. MatmtiとJ. P. Adoulによる「4kbit/s以下による調和確率過程励振(HSX)音声符号化(Harmonic Stochastic Excitation (HSX) Speech Coding Below 4kbits/s)」、音響、音声と信号解析に関するIEEE国際コンファレンス、204−207ページ、アトランタ、1996年5月に記載されている。
【0018】
本発明に基づく方法は、最も少ないbit/sレートによって、複雑な音声信号を完全に再生することを可能にする最も有効なパラメータ符号化に関するものである。
【0019】
図1に概念を示すように、HSX音声符号化器は、合成部で単純な混合励振モデルを使用する線形予測音声符号化器である。このモデルでは、周期的なパルスの連続がLPC合成フィルタの低周波数を励起し、ノイズのレベルが同フィルタの高周波数を励起する。図1は、2つのフィルタチャネルを有する混合励起の原理を説明するものである。周期的なパルスの連続によって刺激される第1のチャネルl1はローパスフィルタ処理を行い、確率過程としてのノイズ信号で刺激される第2のチャネルl2がハイパスフィルタとして作用する。2つのチャネルのフィルタのカットオフ又は遷移周波数fcは同じであり、時間と共に変化する。2つのチャネルのフィルタは互いに相補的である。加算器2は2つのチャネルから得られた信号を合計する。加算器2の出力部で得られるスペクトル信号が平坦になるように、ゲインgアンプ3が第1のフィルタチャネルのゲインを調節する。
【0020】
音声符号化器の分析部の機能を図2に示す。分析を行うために、音声信号はまずハイパスフィルタ4を通され、次に、8kHzで採取した180のサンプルからなる22.5ms長のフレームにセグメント分割される。各フレームに対してステップ5で2つの線形予測解析を行う。ステップ6と7では、部分的に白色化された信号を、4つのサブバンドにフィルタ処理する。ロバストピッチフォロア8が第1のサブバンドを実施する。声を含む音声の低周波数帯と音声を含まない音声の高周波数帯との間の遷移周波数fcは、4つのサブバンドについてステップ9で測定される音声レートによって決定される。最終的に、エネルギーを測定してステップ10でピッチが同期するようにフレームごとに4回符号化する。
【0021】
ピッチフォロアと音声分析装置9の特性が、決定を1フレーム分遅らせることによって大幅に改善されるので、その結果得られるパラメータ、つまり、合成フィルタ、ピッチ、ヴォイシング、遷移周波数とエネルギーの係数は1フレーム分遅れて符号化される。
【0022】
図3に示す音声符号化器HSXの合成部では、図1に示すように、調和信号と、スペクトルの包絡線が調和信号と相補的なランダム信号を合計することによって、合成フィルタの励振信号を作成する。調和成分は、求める周期の間隔をあけて複数のパルスを予め設計されたバンドパスフィルタ11を通すことによって作成する。ランダム成分は、フーリエ逆変換と時間重ね合わせ操作を組み合わせた発生装置12によって得られる。合成LPCフィルタ14は、フレームごとに4回補間処理を行う。フィルタ14の出力部に設けられた聴覚フィルタ15が、元の音声信号に含まれる鼻音の特徴を再現する。最終的に、自動ゲイン制御装置によって、出力信号のピッチ同期したエネルギーが送信された信号のエネルギーと同じになるように調整される。
【0023】
ビットレートが1200bit/sのように低いと、22.5msごとに4つのパラメータ、つまり、ピッチ、音声遷移周波数、エネルギーとLPCフィルタ係数を、フレームごとに2つ、正確に符号化することは不可能である。
【0024】
安定した時間の中の所々に急速な変化を含むパラメータの変化の時間的な特徴を最も有効に使用するために、本発明による方法では、、図4に示す5つの主要な過程17から21を含む。ステップ17では、音声符号化器はN個の音声符号化フレームを組み合わせてスーパーフレームを作成する。例えば、Nの値として3を選択する。これは、この場合に、2値ビットレートの削減と量子化方法によってもたらされる遅延との間に適当なバランスが得られるからである。さらに、この方法では、現在の誤り訂正を伴う符号化とインターレース技術を利用することができる。
【0025】
音声遷移周波数は、4つの周波数、例えば0、750、2000と3625Hzのみを使用して、ベクトル量子化を使用してステップ18で符号化される。この条件では、各周波数を符号化して3つのフレームからなるスーパーフレームのヴォイシング特性を正確に送信するためには、フレームごとに2ビット、全体で6ビットあれば十分である。しかし、極めて希にのみ起きるヴォイシング特性が存在するので、これらは再生された音声の聞き取りの容易さや品質に有意な役目を果たさないので、通常の音声信号の処理にとって特徴を表すものと考える必要はない。これは、例えば、フレームが完全に0から3625Hzの音声を含んでおり、音声を全く含まない2つのフレームの間に存在するような場合である。
【0026】
図5に示す一覧表は、123158個の音声フレームを有するデータベースの連続する3つのフレームのヴォイシングパターンの分布状態を示すものである。この表では、最も頻度の低い32種類のパターンは、部分的又は完全に音声を含むフレームの4%未満において発生するに過ぎない。これらのパターンを、最も出現頻度が高い32のパターンのうちの絶対値が最も近いものによって置き換えることで生じる音質劣化は、感知不能である。このことは、スーパーフレームに対してヴォイシング送信周波数のベクトル量子化を行うことで1ビットを節約することができることを示している。音声パターンのベクトル量子化を図6において22で参照する表に示す。表22は、アドレスビットの誤差によって生じる平均二乗誤差を最小にするようにしたものである。
【0027】
ピッチはステップ19で符号化される。16から148の間のサンプルゾーンと対数軸に関して均一な量子化ピッチを有する6ビットのスカラー量子化器を有する。3つの連続するフレームに対して1つの値が送信される。3つのピッチの値と量子化される値の算出と、量子化された値から3つのピッチの値を再生する方法は、解析のヴォイシング遷移周波数による相違を有する。この方法を以下に示す。
【0028】
1.音声を有するフレームがなければ、6ビットをゼロに設定し、復号化ピッチは任意の値、例えば、スーパーフレームを構成する各フレームについて45サンプル、に固定する。
2.前のスーパーフレームの最後のフレームと、現在のスーパーフレームのすべてのフレームが音声を含んでいれば、換言すれば、ヴォイシングの遷移周波数がゼロよりも大きければ、量子化された値は、現在のスーパーフレームの最後のフレームのピッチの値であって、この値が次に標的となる。復号化器では、現在のスーパーフレームの3番目のフレームのピッチの復号価値が量子化の標的として、現在のスーパーフレームの最初の2つのフレームの復号化されたピッチの値は、前のスーパーフレームから伝達された値と量子化された標的値との間を線形補間することで再現される。
3.その他すべての音声パターンに関して、量子化されるのは、現在のスーパーフレームの3つのフレームのピッチの値に重み付けを行った値である。重み付け係数は、対象となるフレームのヴォイシング遷移周波数に、以下に示すように比例する。
【数1】
【0029】
復号化器では、現在のスーパーフレームを構成する3つのフレームの復号化されたピッチの値は、量子化された重み付け平均値に等しい。
【0030】
さらに、2と3の場合には、記憶された音声に自然な感じを与え、過剰に周期的な信号の作成を抑制する目的で、フレーム1、2と3の合成に使用するピッチの値に対して軽いトレモロを意図的に加える。この関係を以下に示す。
使用するピッチ(1)=0.995x復号化されたピッチ(1)
使用するピッチ(2)=1.005x復号化されたピッチ(2)
使用するピッチ(3)=1.000x復号化されたピッチ(3)
【0031】
ピッチの値のスカラー量子化を行うのは、これによって連続する2値データに誤差が広がることを抑制できるからである。さらに、符号化パターン2と3は互いに近似しているので、ヴォイシング周波数の誤った復号化に影響を受けない。
【0032】
エネルギーの符号化はステップ20で行われる。エネルギーの符号化は、図7の表23に示すように、R. M. Grayによる「ベクトル量子化(Vector Quantization)」、IEEEジャーナル、ASPマガジン、第1巻、4−29ページ、1984年4月に記載されているタイプのベクトル量子化を使用することにより、行われる。分析部で、各スーパーフレームに対して、0から11の番号を付番した12のエネルギーの値を計算し、12のうちの6つのエネルギーの値だけを送信する。分析部により3つの値を有する2つのベクトルを構成することができる。各ベクトルは6ビットで量子化される。選択されたパターンの番号を送信するために2ビット使用する。合成部での復号化において、補間によって量子化されていないエネルギーの値を再生する。
【0033】
図7に示した表に記載されているように、認められる選択パターンは4つだけである。このパターンは、12の安定なエネルギーの値に関するベクトルか、フレーム1、2、3を通じてエネルギーが急激に変化するベクトルを有効に符号化するために最適化されたものである。分析部では、エネルギーベクトルを4つのパターンのうちの1つを使用して符号化し、実際に送信されるパターンは合計二乗誤差を最小にするものである。
【0034】
この過程で、送信されるダイアグラムの番号を指定するビットは、その値の誤差はエネルギーの値の変化に極一時的な影響を与えるだけなので敏感とは考えられていない。さらに、エネルギー値のベクトル量子化表は、アドレスビットの誤差によって生じる平均二乗誤差を最小にするように調整されている。
【0035】
音声信号の包絡線をモデル化する係数の符号化はステップ21においてベクトル量子化する。この符号化によって合成部で使用するデジタルフィルタの係数を決定することが可能になる。0から5までの番号を付番した10の係数を有する6つのLPCフィルタが、各スーパーフレームに対して分析部で算出され、6つのフィルタのうちの3つのみが送信される。6つのベクトルは、例えば、F. Itakuraによる「線形予測係数の線スペクトル表現(Line Spectrum Representation of Linear Predictive Coefficients)」米国音響学会誌第57巻、P.S.35、1975年に開示された方法に従って、LSFスペクトル線の10個の組からなる6つのベクトルに変換される。線スペクトルの組はエネルギー符号化において使用したのと同様な手法で符号化することができる.この方法は、3つのLPCフィルタの選択と、各ベクトルの18ビットへの量子化からなる。当該量子化は、例えば、それぞれに9ビットが割り当てられる5つの連続したLSFフィルタの2つのサブパケットに関連するSPLIT−VQ型の予測係数を0.6としたオープンループ予測ベクトル量子化器によって行うことができる。使用された選択パターンの番号を送信するために2ビットが使用される。復号化器のレベルでは、LPCフィルタが量子化されないときは、例えば、線形補間によって量子化されたLPCフィルタの値、又は前のフィルタLPCの重複を有する補外によって推定される。例えば、パケットによるベクトル量子化方法は、K.K. Paliwal, B.S. Atalによる「24ビット/フレームのLPCパラメータの有効なベクトル量子化(Efficient Vector Quantization of LPC Parameters at 24 bit/frame)」、音声と楽音処理に関するIEEE論文集、第1巻、1993年1月に開示された方法に準拠することができる。
【0036】
図8の表24に記載されているように、認められている選択パターンは4つのみである。これらのパターンは、スペクトル包絡線が安定な領域かフレーム1、2、3を通じてスペクトルの包絡が急激に変化する領域を有効に符号化することを可能にする。すべてのLPCフィルタが次に、4つのパターンのいずれかにしたがって、符号化されるが、実際に送信されるパターンは合計二乗誤差を最小にするものである。
【0037】
エネルギーの符号化と同様に、パターンの特性を指定するビットは、その値に誤差があってもLPCフィルタの時刻変化には極わずかの影響しか与えないので、感度が高いとは考えられていない。さらに、LSFフィルタのベクトル量子化表が、合成部において、アドレッシングビットの誤差によって生じる平均二乗誤差が最小になるように設定される。
【0038】
本発明に基づく符号化方法によるLSF、エネルギー、ピッチとヴォイシングパラメータの送信のためのビット割り当てを図9の表に示す。ここでは、67.5msごとにパラメータの符号化を行い、各スーパーフレームにおいて信号パラメータの符号化に81ビットを使用することができる、1200bit/s音声符号化器を前提としている。上記81ビットは、54のLSFビット、LSFフィルタパターンのデシメーション用の2ビット、エネルギー用の6ビット2つ、ピッチ用の6ビット及びヴォイシング用の5ビットを含む。
【図面の簡単な説明】
【図1】 図1は、本発明の実施において使用するHSX型の音声符号化器の混合励振モデルを示す図である。
【図2】 図2は、本発明において使用するHSX型の音声符号化器の「分析」部の機能を示す図である。
【図3】 図3は、本発明において使用するHSX型の音声符号化器の合成部分の機能を示す図である。
【図4】 図4は、本発明にかかる方法の主要な処理過程を示すフローチャートである。
【図5】 図5は、連続した3つのフレームの音声遷移周波数の形状の分布を示す表である。
【図6】 図6は、本発明を実行するために使用する音声遷移周波数のベクトル量子化表である。
【図7】 図7は、本発明において、音声信号のエネルギーを符号化するための選択と補間を示したリストである。
【図8】 図8は、線形予測LPCフィルタの符号化のための補間/補外と選択を示すリストである。
【図9】 図9は、本発明に基づく1200bit/sHSX型の音声符号化器による符号化に必要なビットの配分表である。
Claims (12)
- 音声信号のパラメータを符号化して送信する分析部(4、・・・10)と、該送信されたパラメータを受信して復号化する合成部(11、・・・16)とを具備し、合成部は、パラメータを解析し、音声信号を連続する所定の長さの複数のフレームに分割してピッチ(8)とヴォイシング遷移周波数(9)とエネルギー(10)とスペクトル包絡線(5)とを記述するパラメータを分析する線形予測合成フィルタを通じて音声信号を再生する音声通信のための音声符号化と復号化方法であって、分析部では、N個の連続するフレームのパラメータを集めてスーパーフレームを作成し(17)、分析部では、スーパーフレームごとにヴォイシング遷移周波数のベクトル量子化を行い、劣化を生じないように、最も頻度の低いパターンを最も頻繁に発生するパターンの中の絶対誤差が最も近いものによって置換して最も頻繁に発生するパターンのみを送信し(18)、分析部では、スーパーフレームごとに1つの値をスカラー量子化してピッチを符号化し(19)、分析部では、複数の計算されたエネルギーの値の中からいくつかのエネルギーの値を選択し、ベクトル量子化により量子化されたベクトルの中のこれらのエネルギーの値を集めることにより、エネルギーを符号化し(20)、合成部では、送信された値に対して補間又は補外を行って送信されなかったエネルギー値を復活させ、分析部では、選択が認められている線形予測合成フィルタの係数の中から特定の数の線形予測合成フィルタの係数のみを選択して、ベクトル量子化を使用してスペクトル包絡線を線形予測合成フィルタのために符号化し(21)、合成部では、送信されなかった線形予測合成フィルタの係数を送信された線形予測合成フィルタの係数を補間又は補外処理することによって復活させることを特徴とする方法。
- ピッチの量子化された値は、すべてにわたって音声を含む安定領域のピッチの最後の値か、全域に渡って音声を含むわけではない領域の、ヴォイシング遷移周波数で重み付けを行った平均値のうちのいずれかであることを特徴とする請求項1に記載の方法。
- ピッチの値がスーパーフレームの最後の値であったときに、補間によって他の値を作成することを特徴とする請求項2に記載の方法。
- 合成部で使用するピッチの値は復号化されたピッチを再生された音声に軽微なトレモロを生じさせる係数を掛けたものであることを特徴とする請求項3に記載の方法。
- パラメータは連続するN=3個のフレームについて集められることを特徴とする請求項1ないし4のいずれかに記載の方法。
- ヴォイシング遷移周波数は4つあり、3つの周波数がグループ化された32のパターンを有する量子化表(22)によってベクトル符号化される請求項5に記載の方法。
- フレームごとにエネルギーを4回測定し、スーパーフレームに対応する12のエネルギーの値のうちの6つのみを、3つの値を有する2つのベクトルとして送信する(23)ことを特徴とする請求項5又は6のいずれかに記載の方法。
- エネルギー(23)を4つのパターンで符号化し、各パターンは2つのベクトルによって表現され、第1のパターンは、スーパーフレームに対応する12のエネルギーベクトルが安定しており、その他のパターンはフレームごとに定義され、4つのパターンのうち合計二乗誤差を最小にするパターンを送信する請求項7に記載の方法。
- −第1のパターンにおいては、第1のベクトルの1、3、5番目のエネルギーの値と、第2のベクトルの7、9、11番目のエネルギーの値のみを送信し、
−第2のパターンにおいては、第1のベクトルの0、1、2番目のエネルギーの値と、第2のベクトルの3,7,11番目のエネルギーの値のみを送信し、
−第3のパターンにおいては、第1のベクトルの1、4、5番目のエネルギーの値と、第2のベクトルの6、7、11番目のエネルギーの値のみを送信し、
−第4のパターンでは、第1のベクトルの2、5、8番目のエネルギーの値と、第2のベクトルの第9、10、11番目のエネルギーの値のみを送信する請求項8に記載の方法。 - 線形予測合成フィルタの符号化した係数を、4つのパターンにしたがって、スペクトル包絡線が最も安定する領域か、スーパーフレームの1、2又は3番目のフレームを通じてスペクトル包絡線が最も急速に変化する領域を最も有効に符号化するように選択することを特徴とする請求項1ないし9のうちのいずれかに記載の方法。
- 合成部では、0から5までの番号を付番した10の係数を有する6つの線形予測合成フィルタを使用し(24)、
−第1のパターンでは、スペクトル包絡線が安定している場合の線形予測合成フィルタ1、3、5の係数のみを送信し、
−第1のフレームに対応する第2のパターンでは、線形予測合成フィルタ0、1、4の係数のみを送信し、
−第2のフレームに相当する第3のパターンでは、線形予測合成フィルタ2、3、5の係数のみを送信し、
−第3のフレームに対応する第4のパターンでは、線形予測合成フィルタ1、4、5の係数のみを送信し、
4つのパターンのうち有効に送信されるパターンは合計二乗誤差を最小にするものであり、送信されない線形予測合成フィルタの係数は合成部において補間か補外によって算出することを特徴とする請求項10に記載の方法。 - 線形予測合成フィルタの係数は54ビットに符号化され、これにデシメーションパターンの送信用に2ビットを追加し、エネルギーは6ビットの2倍で符号化してこれにデシメーションパターンの送信のために2ビットを追加し、ピッチは6ビットで符号化してヴォイシング遷移周波数を5ビットで符号化して、67.5msのスーパーフレームを合計81ビットとすることを特徴とする請求項1ないし11のいずれかに記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR98/12500 | 1998-10-06 | ||
FR9812500A FR2784218B1 (fr) | 1998-10-06 | 1998-10-06 | Procede de codage de la parole a bas debit |
PCT/FR1999/002348 WO2000021077A1 (fr) | 1998-10-06 | 1999-10-01 | Procede de quantification des parametres d'un codeur de parole |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002527778A JP2002527778A (ja) | 2002-08-27 |
JP2002527778A5 JP2002527778A5 (ja) | 2010-07-01 |
JP4558205B2 true JP4558205B2 (ja) | 2010-10-06 |
Family
ID=9531246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000575121A Expired - Fee Related JP4558205B2 (ja) | 1998-10-06 | 1999-10-01 | スピーチコーダパラメータの量子化方法 |
Country Status (13)
Country | Link |
---|---|
US (1) | US6687667B1 (ja) |
EP (1) | EP1125283B1 (ja) |
JP (1) | JP4558205B2 (ja) |
KR (1) | KR20010075491A (ja) |
AT (1) | ATE222016T1 (ja) |
AU (1) | AU768744B2 (ja) |
CA (1) | CA2345373A1 (ja) |
DE (1) | DE69902480T2 (ja) |
FR (1) | FR2784218B1 (ja) |
IL (1) | IL141911A0 (ja) |
MX (1) | MXPA01003150A (ja) |
TW (1) | TW463143B (ja) |
WO (1) | WO2000021077A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
FR2815457B1 (fr) * | 2000-10-18 | 2003-02-14 | Thomson Csf | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
KR100355033B1 (ko) * | 2000-12-30 | 2002-10-19 | 주식회사 실트로닉 테크놀로지 | 선형예측 분석을 이용한 워터마크 삽입/추출 장치 및 그방법 |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US7668712B2 (en) | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US7831421B2 (en) | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US7177804B2 (en) | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7707034B2 (en) | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
CN101009096B (zh) * | 2006-12-15 | 2011-01-26 | 清华大学 | 子带清浊音模糊判决的方法 |
EP2122610B1 (en) * | 2007-01-31 | 2018-12-26 | Telecom Italia S.p.A. | Customizable method and system for emotional recognition |
KR101317269B1 (ko) | 2007-06-07 | 2013-10-14 | 삼성전자주식회사 | 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치 |
CA2729752C (en) * | 2008-07-10 | 2018-06-05 | Voiceage Corporation | Multi-reference lpc filter quantization and inverse quantization device and method |
GB2466201B (en) * | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
GB0822537D0 (en) | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
US9465836B2 (en) * | 2010-12-23 | 2016-10-11 | Sap Se | Enhanced business object retrieval |
CA2913578C (en) | 2013-06-21 | 2018-05-22 | Michael Schnabel | Apparatus and method for generating an adaptive spectral shape of comfort noise |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5255339A (en) * | 1991-07-19 | 1993-10-19 | Motorola, Inc. | Low bit rate vocoder means and method |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
DE69724819D1 (de) * | 1996-07-05 | 2003-10-16 | Univ Manchester | Sprachkodier- und dekodiersystem |
US6131084A (en) * | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
FR2774827B1 (fr) * | 1998-02-06 | 2000-04-14 | France Telecom | Procede de decodage d'un flux binaire representatif d'un signal audio |
US6094629A (en) * | 1998-07-13 | 2000-07-25 | Lockheed Martin Corp. | Speech coding system and method including spectral quantizer |
FR2786908B1 (fr) * | 1998-12-04 | 2001-06-08 | Thomson Csf | Procede et dispositif pour le traitement des sons pour correction auditive des malentendants |
-
1998
- 1998-10-06 FR FR9812500A patent/FR2784218B1/fr not_active Expired - Fee Related
-
1999
- 1999-10-01 KR KR1020017004080A patent/KR20010075491A/ko not_active Application Discontinuation
- 1999-10-01 DE DE69902480T patent/DE69902480T2/de not_active Expired - Lifetime
- 1999-10-01 MX MXPA01003150A patent/MXPA01003150A/es not_active IP Right Cessation
- 1999-10-01 US US09/806,993 patent/US6687667B1/en not_active Expired - Lifetime
- 1999-10-01 WO PCT/FR1999/002348 patent/WO2000021077A1/fr not_active Application Discontinuation
- 1999-10-01 IL IL14191199A patent/IL141911A0/xx unknown
- 1999-10-01 CA CA002345373A patent/CA2345373A1/fr not_active Abandoned
- 1999-10-01 AU AU58702/99A patent/AU768744B2/en not_active Ceased
- 1999-10-01 EP EP99946281A patent/EP1125283B1/fr not_active Expired - Lifetime
- 1999-10-01 JP JP2000575121A patent/JP4558205B2/ja not_active Expired - Fee Related
- 1999-10-01 AT AT99946281T patent/ATE222016T1/de not_active IP Right Cessation
-
2000
- 2000-03-30 TW TW089105887A patent/TW463143B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
TW463143B (en) | 2001-11-11 |
JP2002527778A (ja) | 2002-08-27 |
DE69902480T2 (de) | 2003-05-22 |
FR2784218B1 (fr) | 2000-12-08 |
EP1125283A1 (fr) | 2001-08-22 |
AU768744B2 (en) | 2004-01-08 |
CA2345373A1 (fr) | 2000-04-13 |
IL141911A0 (en) | 2002-03-10 |
WO2000021077A1 (fr) | 2000-04-13 |
FR2784218A1 (fr) | 2000-04-07 |
MXPA01003150A (es) | 2002-07-02 |
EP1125283B1 (fr) | 2002-08-07 |
AU5870299A (en) | 2000-04-26 |
ATE222016T1 (de) | 2002-08-15 |
KR20010075491A (ko) | 2001-08-09 |
DE69902480D1 (de) | 2002-09-12 |
US6687667B1 (en) | 2004-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2179228C (en) | Method and apparatus for reproducing speech signals and method for transmitting same | |
JP4558205B2 (ja) | スピーチコーダパラメータの量子化方法 | |
CA2169822C (en) | Synthesis of speech using regenerated phase information | |
EP1202251B1 (en) | Transcoder for prevention of tandem coding of speech | |
KR100427753B1 (ko) | 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치 | |
JP4550289B2 (ja) | Celp符号変換 | |
JP3490685B2 (ja) | 広帯域信号の符号化における適応帯域ピッチ探索のための方法および装置 | |
JP5343098B2 (ja) | スーパーフレーム構造のlpcハーモニックボコーダ | |
EP0673013B1 (en) | Signal encoding and decoding system | |
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
US5749065A (en) | Speech encoding method, speech decoding method and speech encoding/decoding method | |
JP2003512654A (ja) | 音声の可変レートコーディングのための方法およびその装置 | |
EP1096476B1 (en) | Speech signal decoding | |
US20040111257A1 (en) | Transcoding apparatus and method between CELP-based codecs using bandwidth extension | |
JP3050978B2 (ja) | 音声符号化方法 | |
EP1397655A1 (en) | Method and device for coding speech in analysis-by-synthesis speech coders | |
Gournay et al. | A 1200 bits/s HSX speech coder for very-low-bit-rate communications | |
US7295974B1 (en) | Encoding in speech compression | |
EP1035538A2 (en) | Multimode quantizing of the prediction residual in a speech coder | |
JPH08160996A (ja) | 音声符号化装置 | |
JPH034300A (ja) | 音声符号化復号化方式 | |
KR20120032443A (ko) | 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치 | |
JPH09185395A (ja) | 音声符号化装置及び音声復号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061002 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090721 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20091020 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20091027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100112 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100409 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100416 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20100510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100622 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100721 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |