JP4558205B2 - スピーチコーダパラメータの量子化方法 - Google Patents

スピーチコーダパラメータの量子化方法 Download PDF

Info

Publication number
JP4558205B2
JP4558205B2 JP2000575121A JP2000575121A JP4558205B2 JP 4558205 B2 JP4558205 B2 JP 4558205B2 JP 2000575121 A JP2000575121 A JP 2000575121A JP 2000575121 A JP2000575121 A JP 2000575121A JP 4558205 B2 JP4558205 B2 JP 4558205B2
Authority
JP
Japan
Prior art keywords
pattern
transmitted
energy
vector
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000575121A
Other languages
English (en)
Other versions
JP2002527778A (ja
JP2002527778A5 (ja
Inventor
フィリップ グルネイ,
フレデリック シャルティエ,
Original Assignee
タレス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by タレス filed Critical タレス
Publication of JP2002527778A publication Critical patent/JP2002527778A/ja
Publication of JP2002527778A5 publication Critical patent/JP2002527778A5/ja
Application granted granted Critical
Publication of JP4558205B2 publication Critical patent/JP4558205B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Machine Translation (AREA)
  • Devices For Executing Special Programs (AREA)
  • Executing Machine-Instructions (AREA)

Description

【0001】
本発明はスピーチエンコーディング方法に関する。当該方法は、特に1200bps程度の非常に低いビットレートの、衛星通信、インターネット電話、静的自動応答装置、音声ページャに採用される音声符号化器において使用することができる。
【0002】
音声符号化器の目的は、人間の耳にとって元の音声信号になるべく近く聞こえる音声信号を、可能な限り少ない2値化データで再生することである。
【0003】
この目的のために、音声符号化器は音声信号の完全にパラメータ化されたモデルを使用する。使用されるパラメータは、剛性フィルタを刺激してパラメータ化するための、発音された声の周期特性や発音されていない音のランダム特性、「ピッチ」とも呼ばれる発音された声の基本周波数、エネルギーの時間変化と信号のスペクトルの包絡線等である。フィルタリングは、一般に、線形予測デジタルフィルタによって行われる。
【0004】
これらの種々のパラメータは、音声信号について、パラメータや符号化器に依存するが、10msから30msの時間フレーム毎に、1回から数回程度、周期的に推定される。これらの値は分析装置で準備され、一般的には別の合成装置に伝達される。
【0005】
低ビットレート音声符号化器の分野では、LPC10として知られる2400bit/秒符号化器が長い間使用されてきた。この符号化器の構造と、低ビットレートにおける動作は以下の文献に開示されている。
NATO標準STANAG−4198−Ed1「2400bpsで線形予測符号化された音声の共通な取り扱いを確保するためのパラメータと符号化特性(Parameters and coding characteristics that must be common to assure interoperability of 2400 bps linear predictive encoded speech)」1984年2月13日、および、B. Mouy, D de la NoueとG. Goudezeuneによる「NATO STANAG 4479:HF−ECCMシステムにおける800bps音声符号化器とチャネル符号化のための標準(A Standard for an 800 bps Vocoder and Channel Coding in HF-ECCM system)」、音響、音声と信号処理に関するIEEE国際コンファレンス、デトロイト、1955年5月、480−483ページ。
【0006】
これらの音声符号化器によって再生される人の声は完全に聞き取れはするものの、音質が劣悪なために、この適用分野は専門的又は軍事的な分野に限定されている。近年、MBE、PWIやMELPと呼ばれる新しいモデルが導入されるに伴って、低ビットレートスピーチ符号化は大幅に改善された。
【0007】
MBEモデルは、D. W. GriffinとJ. S. Limによる「マルチバンド音声符号化励振(Multiband Vocoders Excitation)」、音響、音声と信号処理に関するIEEE論文集、第36巻、第8号、1223−1235ページ、1988年に記載されている。
【0008】
PWIモデルは、W. B. KleijnとJ. Haogenによる「符号化と合成のための波形補間(Waveform Interpolation for Coding and Synthesis)」、W. B. KleijnとK.K. Paliwal編の「音声符号化と合成」Elsevier出版、1995年に記載されている。
【0009】
最後に、MELPモデルは、L. M. Supplee, R. P. Cohn, J.S. ColluraとA. V. McCreeによる「MELP:2400bit/sにおける新しい連邦標準(MELP: The New Federal Standard At 2400 bits/s)、音響、音声と信号処理に関するIEEE国際コンファレンス、1591から1594ページ、ミュンヘン、1997年に記載されている。
【0010】
これらの2400bit/sモデルで再生された音声は大部分の民間及び商業分野で許容できるものになった。しかし、2400bit/s以下のビットレートでは(代表的には1200bit/sあるいはそれ以下)、再生スピーチの品質は不十分で、この欠点を補うために、別の技術が使用されている。第1の技術は、2種類のバリエーションがそれぞれ、既に紹介したB. Mouy, P. de la NoueとG. Goudezeuneの文献と、Y. Shohamによる「1.2から2.4kbpsにおける極めて単純化された補間を伴う音声符号化(Very Low Complexity Interpolative Speech Coding at 1.2 To 2.4 Kbps)」音響、音声と信号処理に関するIEEE国際コンファレンス、1599−1602ページ、ミュンヘン、1997年4月に記載されている、セグメント分割音声符号化技術である。
【0011】
しかしながら、今のところ、セグメント分割音声符号化器は民生及び商業用に利用するために十分な品質を有していないように見える。
【0012】
第2の技術は、認識と合成の原理を組み合わせて用いる音声符号化器で使用されている技術である。この分野の研究は基礎研究分野にとどまっている。使用されているビットレートは1200bit/sよりもはるかに低く(代表的な値は50から200bit/s)であり、品質は低く、しばしば人の声を認識することができない。この種の音声符号化器は、J. Cernocky, G. BaudoinとG. Cholletによる「音声アプローチを超えるセグメント分割音声符号化器(Segmental Vocoder - Going Beyond The Phonetic Approach)」、音響、音声と信号処理に関するIEEE国際コンファレンス、605−698ページ、シアトル、1998年5月12−15日に開示されている。
【0013】
本発明の目的は上述の欠点を解消することである。
【0014】
上記の目的を達成するために、本発明は、音声信号のパラメータを符号化して送信する分析部と、該送信されたパラメータを受信して復号化する合成部とを使用して、非常に低いビットレートの音声符号化器によって音声通信のための音声符号化と復号化を行い、線形予測合成フィルタを使用して音声信号を再構成し、パラメータを分析し、ピッチと、音声遷移周波数とエネルギーとスペクトル包絡線を、音声信号を所定の長さのフレームに分割して記述する方法であって、N個の連続するフレームのパラメータを集めてスーパーフレームを作成し、スーパーフレームごとに音声の遷移周波数のベクトル量子化を行い、もっとも頻繁に発生する形状のみを劣化させないように送信し、最も頻度の低い形状を最も頻繁に発生する形状の中の絶対誤差が最も近いものによって置換し、スーパーフレームごとに1つの値をスカラー量子化してピッチを符号化し、ベクトル量子化されたサブパケットの値から少ない数の値のみを選択してエネルギーを符号化し、送信された値に対して補間又は補外を行って送信されなかったエネルギー値を復活させ、特定の数のフィルタのみを選択することによって、ベクトル量子化を使用してスペクトル包絡パラメータを線形予測合成フィルタによる符号化のために符号化し、送信されなかったパラメータを送信されたフィルタのパラメータを補間又は補外処理することによって復活させる方法によって達成する。
【0015】
本発明の他の特徴と利点は図面を参照して行う以下の記述によって明らかにする。
図1は、本発明の実施において使用するHSX型の音声符号化器の混合励振モデルを示す図である。
図2は、本発明において使用するHSX型の音声符号化器の「分析」部の機能を示す図である。
図3は、本発明において使用するHSX型の音声符号化器の合成部分の機能を示す図である。
図4は、本発明にかかる方法の主要な処理過程を示すフローチャートである。 図5は、連続した3つのフレームの音声遷移周波数の形状の分布を示す表である。
図6は、本発明を実行するために使用する音声遷移周波数のベクトル量子化表である。
図7は、本発明において、音声信号のエネルギーを符号化するための選択と補間を示したリストである。
図8は、線形予測LPCフィルタの符号化のための補間/補外と選択を示すリストである。
図9は、本発明に基づく1200bit/sHSX型の音声符号化器による符号化に必要なビットの配分表である。
【0016】
本発明の方法では、1200bit/s高性能音声符号化器を作成する基本として、HSXまたは「調和確率過程励振」音声符号化器として知られている音声符号化器を使用する。
【0017】
この種の音声符号化器は、C. Laflamme, R. Salami, R. MatmtiとJ. P. Adoulによる「4kbit/s以下による調和確率過程励振(HSX)音声符号化(Harmonic Stochastic Excitation (HSX) Speech Coding Below 4kbits/s)」、音響、音声と信号解析に関するIEEE国際コンファレンス、204−207ページ、アトランタ、1996年5月に記載されている。
【0018】
本発明に基づく方法は、最も少ないbit/sレートによって、複雑な音声信号を完全に再生することを可能にする最も有効なパラメータ符号化に関するものである。
【0019】
図1に概念を示すように、HSX音声符号化器は、合成部で単純な混合励振モデルを使用する線形予測音声符号化器である。このモデルでは、周期的なパルスの連続がLPC合成フィルタの低周波数を励起し、ノイズのレベルが同フィルタの高周波数を励起する。図1は、2つのフィルタチャネルを有する混合励起の原理を説明するものである。周期的なパルスの連続によって刺激される第1のチャネルl1はローパスフィルタ処理を行い、確率過程としてのノイズ信号で刺激される第2のチャネルl2がハイパスフィルタとして作用する。2つのチャネルのフィルタのカットオフ又は遷移周波数fcは同じであり、時間と共に変化する。2つのチャネルのフィルタは互いに相補的である。加算器2は2つのチャネルから得られた信号を合計する。加算器2の出力部で得られるスペクトル信号が平坦になるように、ゲインgアンプ3が第1のフィルタチャネルのゲインを調節する。
【0020】
音声符号化器の分析部の機能を図2に示す。分析を行うために、音声信号はまずハイパスフィルタ4を通され、次に、8kHzで採取した180のサンプルからなる22.5ms長のフレームにセグメント分割される。各フレームに対してステップ5で2つの線形予測解析を行う。ステップ6と7では、部分的に白色化された信号を、4つのサブバンドにフィルタ処理する。ロバストピッチフォロア8が第1のサブバンドを実施する。声を含む音声の低周波数帯と音声を含まない音声の高周波数帯との間の遷移周波数fcは、4つのサブバンドについてステップ9で測定される音声レートによって決定される。最終的に、エネルギーを測定してステップ10でピッチが同期するようにフレームごとに4回符号化する。
【0021】
ピッチフォロアと音声分析装置9の特性が、決定を1フレーム分遅らせることによって大幅に改善されるので、その結果得られるパラメータ、つまり、合成フィルタ、ピッチ、ヴォイシング、遷移周波数とエネルギーの係数は1フレーム分遅れて符号化される。
【0022】
図3に示す音声符号化器HSXの合成部では、図1に示すように、調和信号と、スペクトルの包絡線が調和信号と相補的なランダム信号を合計することによって、合成フィルタの励振信号を作成する。調和成分は、求める周期の間隔をあけて複数のパルスを予め設計されたバンドパスフィルタ11を通すことによって作成する。ランダム成分は、フーリエ逆変換と時間重ね合わせ操作を組み合わせた発生装置12によって得られる。合成LPCフィルタ14は、フレームごとに4回補間処理を行う。フィルタ14の出力部に設けられた聴覚フィルタ15が、元の音声信号に含まれる鼻音の特徴を再現する。最終的に、自動ゲイン制御装置によって、出力信号のピッチ同期したエネルギーが送信された信号のエネルギーと同じになるように調整される。
【0023】
ビットレートが1200bit/sのように低いと、22.5msごとに4つのパラメータ、つまり、ピッチ、音声遷移周波数、エネルギーとLPCフィルタ係数を、フレームごとに2つ、正確に符号化することは不可能である。
【0024】
安定した時間の中の所々に急速な変化を含むパラメータの変化の時間的な特徴を最も有効に使用するために、本発明による方法では、、図4に示す5つの主要な過程17から21を含む。ステップ17では、音声符号化器はN個の音声符号化フレームを組み合わせてスーパーフレームを作成する。例えば、Nの値として3を選択する。これは、この場合に、2値ビットレートの削減と量子化方法によってもたらされる遅延との間に適当なバランスが得られるからである。さらに、この方法では、現在の誤り訂正を伴う符号化とインターレース技術を利用することができる。
【0025】
音声遷移周波数は、4つの周波数、例えば0、750、2000と3625Hzのみを使用して、ベクトル量子化を使用してステップ18で符号化される。この条件では、各周波数を符号化して3つのフレームからなるスーパーフレームのヴォイシング特性を正確に送信するためには、フレームごとに2ビット、全体で6ビットあれば十分である。しかし、極めて希にのみ起きるヴォイシング特性が存在するので、これらは再生された音声の聞き取りの容易さや品質に有意な役目を果たさないので、通常の音声信号の処理にとって特徴を表すものと考える必要はない。これは、例えば、フレームが完全に0から3625Hzの音声を含んでおり、音声を全く含まない2つのフレームの間に存在するような場合である。
【0026】
図5に示す一覧表は、123158個の音声フレームを有するデータベースの連続する3つのフレームのヴォイシングパターンの分布状態を示すものである。この表では、最も頻度の低い32種類のパターンは、部分的又は完全に音声を含むフレームの4%未満において発生するに過ぎない。これらのパターンを、最も出現頻度が高い32のパターンのうちの絶対値が最も近いものによって置き換えることで生じる音質劣化は、感知不能である。このことは、スーパーフレームに対してヴォイシング送信周波数のベクトル量子化を行うことで1ビットを節約することができることを示している。音声パターンのベクトル量子化を図6において22で参照する表に示す。表22は、アドレスビットの誤差によって生じる平均二乗誤差を最小にするようにしたものである。
【0027】
ピッチはステップ19で符号化される。16から148の間のサンプルゾーンと対数軸に関して均一な量子化ピッチを有する6ビットのスカラー量子化器を有する。3つの連続するフレームに対して1つの値が送信される。3つのピッチの値と量子化される値の算出と、量子化された値から3つのピッチの値を再生する方法は、解析のヴォイシング遷移周波数による相違を有する。この方法を以下に示す。
【0028】
1.音声を有するフレームがなければ、6ビットをゼロに設定し、復号化ピッチは任意の値、例えば、スーパーフレームを構成する各フレームについて45サンプル、に固定する。
2.前のスーパーフレームの最後のフレームと、現在のスーパーフレームのすべてのフレームが音声を含んでいれば、換言すれば、ヴォイシングの遷移周波数がゼロよりも大きければ、量子化された値は、現在のスーパーフレームの最後のフレームのピッチの値であって、この値が次に標的となる。復号化器では、現在のスーパーフレームの3番目のフレームのピッチの復号価値が量子化の標的として、現在のスーパーフレームの最初の2つのフレームの復号化されたピッチの値は、前のスーパーフレームから伝達された値と量子化された標的値との間を線形補間することで再現される。
3.その他すべての音声パターンに関して、量子化されるのは、現在のスーパーフレームの3つのフレームのピッチの値に重み付けを行った値である。重み付け係数は、対象となるフレームのヴォイシング遷移周波数に、以下に示すように比例する。
【数1】
Figure 0004558205
【0029】
復号化器では、現在のスーパーフレームを構成する3つのフレームの復号化されたピッチの値は、量子化された重み付け平均値に等しい。
【0030】
さらに、2と3の場合には、記憶された音声に自然な感じを与え、過剰に周期的な信号の作成を抑制する目的で、フレーム1、2と3の合成に使用するピッチの値に対して軽いトレモロを意図的に加える。この関係を以下に示す。
使用するピッチ(1)=0.995x復号化されたピッチ(1)
使用するピッチ(2)=1.005x復号化されたピッチ(2)
使用するピッチ(3)=1.000x復号化されたピッチ(3)
【0031】
ピッチの値のスカラー量子化を行うのは、これによって連続する2値データに誤差が広がることを抑制できるからである。さらに、符号化パターン2と3は互いに近似しているので、ヴォイシング周波数の誤った復号化に影響を受けない。
【0032】
エネルギーの符号化はステップ20で行われる。エネルギーの符号化は、図7の表23に示すように、R. M. Grayによる「ベクトル量子化(Vector Quantization)」、IEEEジャーナル、ASPマガジン、第1巻、4−29ページ、1984年4月に記載されているタイプのベクトル量子化を使用することにより、行われる。分析部で、各スーパーフレームに対して、0から11の番号を付番した12のエネルギーの値を計算し、12のうちの6つのエネルギーの値だけを送信する。分析部により3つの値を有する2つのベクトルを構成することができる。各ベクトルは6ビットで量子化される。選択されたパターンの番号を送信するために2ビット使用する。合成部での復号化において、補間によって量子化されていないエネルギーの値を再生する。
【0033】
図7に示した表に記載されているように、認められる選択パターンは4つだけである。このパターンは、12の安定なエネルギーの値に関するベクトルか、フレーム1、2、3を通じてエネルギーが急激に変化するベクトルを有効に符号化するために最適化されたものである。分析部では、エネルギーベクトルを4つのパターンのうちの1つを使用して符号化し、実際に送信されるパターンは合計二乗誤差を最小にするものである。
【0034】
この過程で、送信されるダイアグラムの番号を指定するビットは、その値の誤差はエネルギーの値の変化に極一時的な影響を与えるだけなので敏感とは考えられていない。さらに、エネルギー値のベクトル量子化表は、アドレスビットの誤差によって生じる平均二乗誤差を最小にするように調整されている。
【0035】
音声信号の包絡線をモデル化する係数の符号化はステップ21においてベクトル量子化する。この符号化によって合成部で使用するデジタルフィルタの係数を決定することが可能になる。0から5までの番号を付番した10の係数を有する6つのLPCフィルタが、各スーパーフレームに対して分析部で算出され、6つのフィルタのうちの3つのみが送信される。6つのベクトルは、例えば、F. Itakuraによる「線形予測係数の線スペクトル表現(Line Spectrum Representation of Linear Predictive Coefficients)」米国音響学会誌第57巻、P.S.35、1975年に開示された方法に従って、LSFスペクトル線の10個の組からなる6つのベクトルに変換される。線スペクトルの組はエネルギー符号化において使用したのと同様な手法で符号化することができる.この方法は、3つのLPCフィルタの選択と、各ベクトルの18ビットへの量子化からなる。当該量子化は、例えば、それぞれに9ビットが割り当てられる5つの連続したLSFフィルタの2つのサブパケットに関連するSPLIT−VQ型の予測係数を0.6としたオープンループ予測ベクトル量子化器によって行うことができる。使用された選択パターンの番号を送信するために2ビットが使用される。復号化器のレベルでは、LPCフィルタが量子化されないときは、例えば、線形補間によって量子化されたLPCフィルタの値、又は前のフィルタLPCの重複を有する補外によって推定される。例えば、パケットによるベクトル量子化方法は、K.K. Paliwal, B.S. Atalによる「24ビット/フレームのLPCパラメータの有効なベクトル量子化(Efficient Vector Quantization of LPC Parameters at 24 bit/frame)」、音声と楽音処理に関するIEEE論文集、第1巻、1993年1月に開示された方法に準拠することができる。
【0036】
図8の表24に記載されているように、認められている選択パターンは4つのみである。これらのパターンは、スペクトル包絡線が安定な領域かフレーム1、2、3を通じてスペクトルの包絡が急激に変化する領域を有効に符号化することを可能にする。すべてのLPCフィルタが次に、4つのパターンのいずれかにしたがって、符号化されるが、実際に送信されるパターンは合計二乗誤差を最小にするものである。
【0037】
エネルギーの符号化と同様に、パターンの特性を指定するビットは、その値に誤差があってもLPCフィルタの時刻変化には極わずかの影響しか与えないので、感度が高いとは考えられていない。さらに、LSFフィルタのベクトル量子化表が、合成部において、アドレッシングビットの誤差によって生じる平均二乗誤差が最小になるように設定される。
【0038】
本発明に基づく符号化方法によるLSF、エネルギー、ピッチとヴォイシングパラメータの送信のためのビット割り当てを図9の表に示す。ここでは、67.5msごとにパラメータの符号化を行い、各スーパーフレームにおいて信号パラメータの符号化に81ビットを使用することができる、1200bit/s音声符号化器を前提としている。上記81ビットは、54のLSFビット、LSFフィルタパターンのデシメーション用の2ビット、エネルギー用の6ビット2つ、ピッチ用の6ビット及びヴォイシング用の5ビットを含む。
【図面の簡単な説明】
【図1】 図1は、本発明の実施において使用するHSX型の音声符号化器の混合励振モデルを示す図である。
【図2】 図2は、本発明において使用するHSX型の音声符号化器の「分析」部の機能を示す図である。
【図3】 図3は、本発明において使用するHSX型の音声符号化器の合成部分の機能を示す図である。
【図4】 図4は、本発明にかかる方法の主要な処理過程を示すフローチャートである。
【図5】 図5は、連続した3つのフレームの音声遷移周波数の形状の分布を示す表である。
【図6】 図6は、本発明を実行するために使用する音声遷移周波数のベクトル量子化表である。
【図7】 図7は、本発明において、音声信号のエネルギーを符号化するための選択と補間を示したリストである。
【図8】 図8は、線形予測LPCフィルタの符号化のための補間/補外と選択を示すリストである。
【図9】 図9は、本発明に基づく1200bit/sHSX型の音声符号化器による符号化に必要なビットの配分表である。

Claims (12)

  1. 音声信号のパラメータを符号化して送信する分析部(4、・・・10)と、該送信されたパラメータを受信して復号化する合成部(11、・・・16)とを具備し、合成部は、パラメータを解析し、音声信号を連続する所定の長さの複数のフレームに分割してピッチ(8)とヴォイシング遷移周波数(9)とエネルギー(10)とスペクトル包絡線(5)とを記述するパラメータを分析する線形予測合成フィルタを通じて音声信号を再生する音声通信のための音声符号化と復号化方法であって、分析部では、N個の連続するフレームのパラメータを集めてスーパーフレームを作成し(17)、分析部では、スーパーフレームごとにヴォイシング遷移周波数のベクトル量子化を行い、劣化を生じないように、最も頻度の低いパターンを最も頻繁に発生するパターンの中の絶対誤差が最も近いものによって置換して最も頻繁に発生するパターンのみを送信し(18)、分析部では、スーパーフレームごとに1つの値をスカラー量子化してピッチを符号化し(19)、分析部では、複数の計算されたエネルギーの値の中からいくつかのエネルギーの値を選択し、ベクトル量子化により量子化されたベクトルの中のこれらのエネルギーの値を集めることにより、エネルギーを符号化し(20)、合成部では、送信された値に対して補間又は補外を行って送信されなかったエネルギー値を復活させ、分析部では、選択が認められている線形予測合成フィルタの係数の中から特定の数の線形予測合成フィルタの係数のみを選択して、ベクトル量子化を使用してスペクトル包絡線を線形予測合成フィルタのために符号化し(21)、合成部では、送信されなかった線形予測合成フィルタの係数を送信された線形予測合成フィルタの係数を補間又は補外処理することによって復活させることを特徴とする方法。
  2. ピッチの量子化された値は、すべてにわたって音声を含む安定領域のピッチの最後の値か、全域に渡って音声を含むわけではない領域の、ヴォイシング遷移周波数で重み付けを行った平均値のうちのいずれかであることを特徴とする請求項1に記載の方法。
  3. ピッチの値がスーパーフレームの最後の値であったときに、補間によって他の値を作成することを特徴とする請求項2に記載の方法。
  4. 合成部で使用するピッチの値は復号化されたピッチを再生された音声に軽微なトレモロを生じさせる係数を掛けたものであることを特徴とする請求項3に記載の方法。
  5. パラメータは連続するN=3個のフレームについて集められることを特徴とする請求項1ないし4のいずれかに記載の方法。
  6. ヴォイシング遷移周波数は4つあり、3つの周波数がグループ化された32のパターンを有する量子化表(22)によってベクトル符号化される請求項5に記載の方法。
  7. フレームごとにエネルギーを4回測定し、スーパーフレームに対応する12のエネルギーの値のうちの6つのみを、3つの値を有する2つのベクトルとして送信する(23)ことを特徴とする請求項5又は6のいずれかに記載の方法。
  8. エネルギー(23)を4つのパターンで符号化し、各パターンは2つのベクトルによって表現され、第1のパターンは、スーパーフレームに対応する12のエネルギーベクトルが安定しており、その他のパターンはフレームごとに定義され、4つのパターンのうち合計二乗誤差を最小にするパターンを送信する請求項7に記載の方法。
  9. −第1のパターンにおいては、第1のベクトルの1、3、5番目のエネルギーの値と、第2のベクトルの7、9、11番目のエネルギーの値のみを送信し、
    −第2のパターンにおいては、第1のベクトルの0、1、2番目のエネルギーの値と、第2のベクトルの3,7,11番目のエネルギーの値のみを送信し、
    −第3のパターンにおいては、第1のベクトルの1、4、5番目のエネルギーの値と、第2のベクトルの6、7、11番目のエネルギーの値のみを送信し、
    −第4のパターンでは、第1のベクトルの2、5、8番目のエネルギーの値と、第2のベクトルの第9、10、11番目のエネルギーの値のみを送信する請求項8に記載の方法。
  10. 線形予測合成フィルタの符号化した係数を、4つのパターンにしたがって、スペクトル包絡線が最も安定する領域か、スーパーフレームの1、2又は3番目のフレームを通じてスペクトル包絡線が最も急速に変化する領域を最も有効に符号化するように選択することを特徴とする請求項1ないし9のうちのいずれかに記載の方法。
  11. 合成部では、0から5までの番号を付番した10の係数を有する6つの線形予測合成フィルタを使用し(24)、
    −第1のパターンでは、スペクトル包絡線が安定している場合の線形予測合成フィルタ1、3、5の係数のみを送信し、
    −第1のフレームに対応する第2のパターンでは、線形予測合成フィルタ0、1、4の係数のみを送信し、
    −第2のフレームに相当する第3のパターンでは、線形予測合成フィルタ2、3、5の係数のみを送信し、
    −第3のフレームに対応する第4のパターンでは、線形予測合成フィルタ1、4、5の係数のみを送信し、
    4つのパターンのうち有効に送信されるパターンは合計二乗誤差を最小にするものであり、送信されない線形予測合成フィルタの係数は合成部において補間か補外によって算出することを特徴とする請求項10に記載の方法。
  12. 線形予測合成フィルタの係数は54ビットに符号化され、これにデシメーションパターンの送信用に2ビットを追加し、エネルギーは6ビットの2倍で符号化してこれにデシメーションパターンの送信のために2ビットを追加し、ピッチは6ビットで符号化してヴォイシング遷移周波数を5ビットで符号化して、67.5msのスーパーフレームを合計81ビットとすることを特徴とする請求項1ないし11のいずれかに記載の方法。
JP2000575121A 1998-10-06 1999-10-01 スピーチコーダパラメータの量子化方法 Expired - Fee Related JP4558205B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR98/12500 1998-10-06
FR9812500A FR2784218B1 (fr) 1998-10-06 1998-10-06 Procede de codage de la parole a bas debit
PCT/FR1999/002348 WO2000021077A1 (fr) 1998-10-06 1999-10-01 Procede de quantification des parametres d'un codeur de parole

Publications (3)

Publication Number Publication Date
JP2002527778A JP2002527778A (ja) 2002-08-27
JP2002527778A5 JP2002527778A5 (ja) 2010-07-01
JP4558205B2 true JP4558205B2 (ja) 2010-10-06

Family

ID=9531246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000575121A Expired - Fee Related JP4558205B2 (ja) 1998-10-06 1999-10-01 スピーチコーダパラメータの量子化方法

Country Status (13)

Country Link
US (1) US6687667B1 (ja)
EP (1) EP1125283B1 (ja)
JP (1) JP4558205B2 (ja)
KR (1) KR20010075491A (ja)
AT (1) ATE222016T1 (ja)
AU (1) AU768744B2 (ja)
CA (1) CA2345373A1 (ja)
DE (1) DE69902480T2 (ja)
FR (1) FR2784218B1 (ja)
IL (1) IL141911A0 (ja)
MX (1) MXPA01003150A (ja)
TW (1) TW463143B (ja)
WO (1) WO2000021077A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
FR2815457B1 (fr) * 2000-10-18 2003-02-14 Thomson Csf Procede de codage de la prosodie pour un codeur de parole a tres bas debit
KR100355033B1 (ko) * 2000-12-30 2002-10-19 주식회사 실트로닉 테크놀로지 선형예측 분석을 이용한 워터마크 삽입/추출 장치 및 그방법
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7668712B2 (en) 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US7831421B2 (en) 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
CN101009096B (zh) * 2006-12-15 2011-01-26 清华大学 子带清浊音模糊判决的方法
EP2122610B1 (en) * 2007-01-31 2018-12-26 Telecom Italia S.p.A. Customizable method and system for emotional recognition
KR101317269B1 (ko) 2007-06-07 2013-10-14 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치
CA2729752C (en) * 2008-07-10 2018-06-05 Voiceage Corporation Multi-reference lpc filter quantization and inverse quantization device and method
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
US9465836B2 (en) * 2010-12-23 2016-10-11 Sap Se Enhanced business object retrieval
CA2913578C (en) 2013-06-21 2018-05-22 Michael Schnabel Apparatus and method for generating an adaptive spectral shape of comfort noise

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5255339A (en) * 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
DE69724819D1 (de) * 1996-07-05 2003-10-16 Univ Manchester Sprachkodier- und dekodiersystem
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
FR2774827B1 (fr) * 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
US6094629A (en) * 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
FR2786908B1 (fr) * 1998-12-04 2001-06-08 Thomson Csf Procede et dispositif pour le traitement des sons pour correction auditive des malentendants

Also Published As

Publication number Publication date
TW463143B (en) 2001-11-11
JP2002527778A (ja) 2002-08-27
DE69902480T2 (de) 2003-05-22
FR2784218B1 (fr) 2000-12-08
EP1125283A1 (fr) 2001-08-22
AU768744B2 (en) 2004-01-08
CA2345373A1 (fr) 2000-04-13
IL141911A0 (en) 2002-03-10
WO2000021077A1 (fr) 2000-04-13
FR2784218A1 (fr) 2000-04-07
MXPA01003150A (es) 2002-07-02
EP1125283B1 (fr) 2002-08-07
AU5870299A (en) 2000-04-26
ATE222016T1 (de) 2002-08-15
KR20010075491A (ko) 2001-08-09
DE69902480D1 (de) 2002-09-12
US6687667B1 (en) 2004-02-03

Similar Documents

Publication Publication Date Title
CA2179228C (en) Method and apparatus for reproducing speech signals and method for transmitting same
JP4558205B2 (ja) スピーチコーダパラメータの量子化方法
CA2169822C (en) Synthesis of speech using regenerated phase information
EP1202251B1 (en) Transcoder for prevention of tandem coding of speech
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
JP4550289B2 (ja) Celp符号変換
JP3490685B2 (ja) 広帯域信号の符号化における適応帯域ピッチ探索のための方法および装置
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
EP0673013B1 (en) Signal encoding and decoding system
JP3653826B2 (ja) 音声復号化方法及び装置
US5749065A (en) Speech encoding method, speech decoding method and speech encoding/decoding method
JP2003512654A (ja) 音声の可変レートコーディングのための方法およびその装置
EP1096476B1 (en) Speech signal decoding
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
JP3050978B2 (ja) 音声符号化方法
EP1397655A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
Gournay et al. A 1200 bits/s HSX speech coder for very-low-bit-rate communications
US7295974B1 (en) Encoding in speech compression
EP1035538A2 (en) Multimode quantizing of the prediction residual in a speech coder
JPH08160996A (ja) 音声符号化装置
JPH034300A (ja) 音声符号化復号化方式
KR20120032443A (ko) 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치
JPH09185395A (ja) 音声符号化装置及び音声復号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090721

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091020

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100409

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100416

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20100510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100622

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100721

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130730

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees