JP4489960B2

JP4489960B2 - 音声の無声セグメントの低ビットレート符号化

Info

Publication number: JP4489960B2
Application number: JP2000583003A
Authority: JP
Inventors: ダス、アミタバ; マンジュナス、シャラス
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1998-11-13
Filing date: 1999-11-12
Publication date: 2010-06-23
Anticipated expiration: 2019-11-12
Also published as: ES2238860T3; JP2002530705A; US6820052B2; ATE286617T1; HK1042370B; WO2000030074A1; US20020184007A1; US20050043944A1; CN1241169C; DE69923079T2; US6463407B2; EP1129450B1; DE69923079D1; AU1620700A; KR20010080455A; CN1815558B; CN1342309A; KR100592627B1; US7146310B2; HK1042370A1

Description

【０００１】
（発明の背景）
Ｉ．発明の分野
本発明は、一般に音声処理の分野、より詳細には音声の無声セグメントの低ビットレートコーディングのための方法および装置に関するものである。
ＩＩ．技術の背景
ディジタル技術による音声の伝送は、特に長距離およびディジタル無線電話応用において広く行きわたるようになった。次に、これは、認識される再構成声質を維持している間にチャネルを介して送信できる最少の情報量を決定することに興味を生じた。音声が単にサンプリングおよびディジタル化によって伝送される場合、約６４キロビット／秒（ｋｂｐｓ）のデータ転送速度が従来のアナログ電話の声質を得るために必要である。しかしながら、適切なコーディング、伝送および受信機での再合成が後に続く音声分析の使用によって、データ転送速度の著しい減少を得ることができる。
【０００２】
人間の音声生成のモデルに関連するパラメータを抽出することによって音声を圧縮する技術を使用する装置は音声コーダと呼ばれる。音声コーダは、入力音声信号を時間のブロックあるいは分析フレームに分割する。音声コーダは、一般的にはエンコーダおよびデコーダ、すなわちコーデックを含む。エンコーダは、入力音声フレームを分析し、所定の関連パラメータを抽出し、次にこのパラメータを２進表示、すなわちビットのセットあるいは２進データパケットに量子化する。このデータパケットは、通信チャネルを介して受信機およびデコーダに伝送される。このデコーダは、データパケットを処理し、このデータパケットを非量子化し、パラメータを生成し、それから非量子化パラメータを使用して音声フレームを再合成化する。
【０００３】
音声コーダの機能は、音声固有の自然冗長の全てを取り除くことによって低ビットレート信号に圧縮することにある。このディジタル圧縮は、入力音声フレームをパラメータのセットで表示し、このパラメータをビットのセットで表示するために量子化を使用することによって得られる。入力音声フレームが多数のビットＮ_ｉを有し、音声コーダによって発生されるデータパケットは多数のビットＮ_ｏを有する場合、音声コーダによって得られる圧縮率はＣｒ＝Ｎ_ｉ／Ｎ_ｏである。この努力目標は、目標圧縮率を得る間、復号化音声の高声質を保持することにある。音声コーダの性能は、（１）音声モデル、あるいは前述された分析処理および合成処理の組合せをいかに十分に実行するか、および（２）いかに完全にパラメータ量子化処理がフレーム当たりＮ_ｏビットの目標ビットレートでいかに十分に実行されるかによって決まる。したがって、音声モデルの目的は、各フレームに対するわずかなパラメータのセットを有する音声信号、すなわち目標声質の本質を捕まえることである。
【０００４】
低ビットレートで音声を効率的に符号化する１つの有効な技術は、マルチモードコーディングである。マルチモードコーダは、異なるモード、あるいは符号化−復号化アルゴリズムを異なる種類の入力音声フレームに適用する。各モード、あるいは符号化−復号化処理は、最も有効な方法で所定の種類の音声セグメント（すなわち、有声、無声、背景雑音）を表示するようにカスタマイズする。外部モード決定機構は、入力音声フレームを検査し、どのモードをフレームに適用するかに関する決定を行う。一般的には、モード決定は、入力フレームの中から多数のパラメータを抽出し、これらを評価し、どのモードを適用するかについての決定を行うことによって開ループの方法で行われる。したがって、モード決定は、出力音声の正確な状態、すなわち、出力音声が声質あるいはいかなる他の性能量に関して入力音声とどれほど類似しているかを前以て知らないで行われる。音声コーデックのための典型的な開ループモード決定は、本発明の譲受人に譲渡され、引用文献としてここに完全に組み込まれる米国特許第５，４１４，７９６号に記載されている。
【０００５】
マルチモードコーディングは、各フレームに対して同じビット数Ｎ_ｏを使用する固定レートであってもよいし、あるいは異なるビットレートが異なるモードのために使用される可変レートであってもよい。可変レートコーディングの目的は、目標品質を得るのに十分なレベルにコーデックパラメータを符号化するのに必要なビット量だけを使用することにある。結果として、固定レートの声質と同じ目標声質の比較的高いレートのコーダは、可変ビットレート（ＶＢＲ）技術を使用して明らかに比較的低い平均レートで得ることができる。典型的な可変レート音声コーダは、本発明の譲受人に譲渡され、引用文献としてここに予め完全に組み込まれる米国特許第５，４１４，７９６号に示されている。
【０００６】
現在、低ビットレート（すなわち、２．４〜４ｋｂｐｓおよびそれ以下の範囲にある）の媒体で作動する高品質音声コーダを開発する研究関心および強い営利的要求のうねりがある。用途の分野は、無線電話、衛星通信、インターネット電話、様々なマルチメディアおよび音声ストリーム用途、音声メール、および他の音声蓄積システムを含んでいる。駆動力は、高容量に対する要求およびパケット損失状態の下での確固不動の要求がある。様々な最近の音声コーディング標準化の努力は低レート音声コーディングアルゴリズムの研究および開発を推進する他の直接の原動力である。低レート音声コーダは、許容可能な用途の帯域幅当たりより多くのチャネル、すなわちユーザを形成し、適当なチャネルコーディングの他のレイヤと結合された低レート音声コーダは、コーダ仕様の全ビットバジェットに適合でき、チャネルエラー状態の下で確固不動の性能を与える。
【０００７】
したがって、マルチモードＶＢＲ音声コーディングは低ビットレートで音声を符号化するのに有効な方法である。従来のマルチモード方式は、有効な符号化方式、様々な音声のセグメント（例えば、無声、有声、遷移）に対するモードならびに背景雑音あるいは無声に対するモードの設計を必要とする。音声コーダの全性能は、各モードがいかに十分に実行するかによって決まり、コーダの平均レートは、音声の無声セグメント、有声セグメント、および他のセグメントに対する異なるモードのビットレートによって決まる。低平均レートで目標品質を得るために、そのいくつかが低ビットレートで作動しなければならない有効な高性能モードを設計することが必要である。一般的には、有声音声セグメントおよび無声音声セグメントは、高ビットレートで捕まえられ、背景雑音および無声セグメントは、かなり比較的低いレートで作動するモードで表示される。したがって、フレーム当たり最少のビット数を使用している間、音声の無声セグメントを正確に捕まえる低ビットレート符号化技術に対する要求がある。
【０００８】
（発明の概要）
本発明は、フレーム当たり最少ビットを使用している間、音声の無声セグメントを正確に捕まえる低ビットレートコーディング技術に向けられる。したがって、本発明の一態様では、音声の無声セグメントを符号化する方法は、有利なことには、高時間分解能エネルギー係数を音声のフレームから抽出するステップと、高時間分解能エネルギー係数を量子化するステップと、量子化エネルギー係数から高時間分解能エネルギーエンベロープを生成するステップと、エネルギーエンベロープの量子化値を有するランダムに発生された雑音ベクトルを形成することによって残余信号を再構成するステップとを含む。
【０００９】
本発明の他の態様では、音声の無声セグメントを符号化する音声コーダは、有利なことには、高時間分解能エネルギー係数を音声のフレームから抽出する手段と、高時間分解能エネルギー係数を量子化する手段と、高時間分解能エネルギーエンベロープを量子化エネルギー係数から生成する手段と、エネルギーエンベロープの量子化値を有するランダムに発生された雑音ベクトルを形成することによって残余信号を再構成する手段とを含んでいる。
【００１０】
本発明の他の態様では、音声の無声セグメントを符号化する音声コーダは、有利なことには、高時間分解能エネルギー係数を音声のフレームから抽出するように構成されたモジュールと、高時間分解能エネルギー係数を量子化するように構成されたモジュールと、高時間分解能エネルギーエンベロープを量子化エネルギー係数から生成するように構成されたモジュールと、エネルギーエンベロープの量子化値を有するランダムに発生された雑音ベクトルを形成することによって残余信号を再構成するように構成されたモジュールとを含む。
【００１１】
（好ましい実施形態の詳細な説明）
図１では、第１のエンコーダ１０は、ディジタル化音声サンプルｓ（ｎ）を受信し、伝送媒体１２、すなわち通信チャネル１２上で、第１のデコーダ１４に伝送するためにこのサンプルｓ（ｎ）を符号化する。このデコーダ１４は、符号化音声サンプルを復号化し、出力音声信号ｓ_{ＳＹＮＴＨ}（ｎ）を合成する。反対方向に伝送するために、第２のエンコーダ１６は、通信チャネル１８上で伝送されるディジタル化音声サンプルｓ（ｎ）を符号化する。第２のデコーダ２０は、符号化音声サンプルを受信し、復号化し、合成出力音声信号ｓ_{ＳＹＮＴＨ}（ｎ）を生成する。
【００１２】
音声サンプルｓ（ｎ）は、例えば、パルス符号変調（ＰＣＭ）、圧伸μ法、あるいはＡ法を技術で公知の様々な方法のいずれかに従ってディジタル化および量子化された音声信号を示す。当該技術で公知であるように、音声サンプルｓ（ｎ）は、入力データのフレームに構成され、各フレームは、所定数のディジタル化音声サンプルｓ（ｎ）を含む。典型的な実施形態では、８ｋＨｚのサンプリングレートが使用され、各２０ｍｓフレームは１６０のサンプルを含む。後述される実施形態では、データ伝送速度は、８ｋｂｐｓ（フルレート）から４ｋｂｐｓ（ハーフレート）へ２ｋｂｐｓ（１／４レート）へ１ｋｂｐｓ（１／８レート）にまでフレーム毎に基づいて変えられてもよい。比較的低いビットレートは比較的少ない音声情報を含むフレームに対して選択的に使用されてもよいために、データ伝送速度を変えることは有利である。当業者に理解されているように、他のサンプリング速度、フレームサイズおよびデータ伝送速度が使用されてもよい。
【００１３】
第１のエンコーダ１０および第２のエンコーダ２０は共に、第１の音声コーダ、あるいは音声コーデックを含む。同様に、第２のエンコーダ１６および第１のエンコーダ１４は共に第２の音声コーダを含む。音声コーダは、ディジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、個別ゲートロジック、ファームウェア、あるいは任意の従来のプログラマブルソフトウェアモジュールおよびマイクロプロセッサで実現されてもよいことが当業者に分かる。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、レジスタ、当該技術で公知の任意の形式の書込み可能な媒体にあってもよい。それとは別に、任意の従来のプロセッサ、コントローラ、あるいは状態機械はマイクロプロセッサの代わりにされてもよい。特に音声符号化のために設計された典型的なＡＳＩＣは、本発明の譲受人に譲渡され、引用文献としてここに完全に組み込まれる米国特許第５，７２７，１２３号および１９９４年２月１６日に出願され、本発明の譲受人に譲渡され、引用文献としてここに完全に組み込まれる名称が「ボコーダＡＳＩＣ」と題された米国特許出願第０８／１９７，４１７号に記載されている。
【００１４】
図２では、音声コーダで使用されてもよいエンコーダ１００は、モード決定モジュール１０２と、ピッチ推定モジュール１０４と、ＬＰ分析モジュール１０６と、ＬＰ分析フィルタ１０８と、ＬＰ量子化モジュール１１０と、残余量子化モジュール１１２とを含んでいる。入力音声フレームｓ（ｎ）は、モード決定モジュール１０２、ピッチ推定モジュール１０４、ＬＰ分析モジュール１０６、およびＬＰ分析フィルタ１０８に供給される。モード決定モジュール１０２は、各入力音声フレームｓ（ｎ）の周期性に基づいてモードインデックスＩ_ＭおよびモードＭを発生する。周期性に従って音声フレームを分類する様々な方法は、１９９７年３月１１日に出願され、本発明の譲受人に譲渡され、引用文献としてここに完全に組み込まれる名称が「減少された速度の可変速度ボコーディングを実行する方法および装置」と題された米国特許出願第０８／８１５，３５４号に記載されている。このような方法は、米国電気通信工業会工業暫定規格ＴＩＡ／ＥＩＡＩＳ−１２７およびＴＩＡ／ＥＩＡＩＳ−７３３にも組込まれる。
【００１５】
ピッチ推定モジュール１０４は、ピッチインデックスＩ_ｐおよび遅れ値Ｐ_０を各入力音声フレームｓ（ｎ）に基づいて発生する。ＬＰ分析モジュール１０６は、各入力音声フレームｓ（ｎ）の線形予測分析を実行し、ＬＰパラメータａを発生する。ＬＰパラメータａは、ＬＰ量子化モジュール１１０に供給される。ＬＰ量子化モジュール１１０はモードＭも受信する。ＬＰ量子化モジュール１１０は、ＬＰインデックスＩ_ＬＰおよび量子化ＬＰパラメータａを発生する。ＬＰ分析フィルタ１０８は、入力音声フレームｓ（ｎ）に加えて量子化ＬＰパラメータａを受信する。ＬＰ分析フィルタ１０８は、入力音声フレームｓ（ｎ）と量子化線形予測パラメータａとの間のエラーを示すＬＰ残余信号Ｒ[ｎ]を発生する。ＬＰ残余Ｒ［ｎ］、モードＭ、および量子化ＬＰパラメータａは残余量子化モジュール１１２に供給される。これらの値に基づいて、残余量子化１１２は、残余インデックスＩ_Ｒおよび量子化残余信号Ｒ［ｎ］を発生する。
【００１６】
図３において、音声コーダで使用されてもよいデコーダ２００は、ＬＰパラメータ復号化モジュール２０２と、残余復号化モジュール２０４と、モード復号化モジュール２０６と、ＬＰ合成フィルタ２０８とを含む。モード復号化モジュール２０６は、モードインデックスＩ_Ｍを受信し、復号化し、それからモードＭを生成する。ＬＰパラメータ復号化モジュール２０２は、モードＭおよびＬＰインデックスＩ_ＬＰを受信する。ＬＰパラメータ復号化モジュール２０２は、受信値を復号化し、量子化ＬＰパラメータａを発生する。残余復号化モジュール２０４は、残余インデックスＩ_Ｒ、ピッチインデックスＩ_ｐ、およびモードインデックスＩ_Ｍを受信する。残余復号化モジュール２０４は、受信値を復号化し、量子化残余信号Ｒ［ｎ］を生成する。量子化残余信号Ｒ［ｎ］および量子化ＬＰパラメータａは、それから復号化出力音声信号ｓ［ｎ］を合成するＬＰ合成フィルタ２０８に供給される。
【００１７】
図２のエンコーダ１００および図３のデコーダの様々なモジュールの動作および実装は、当該技術で公知であり、引用文献としてここに完全に組み込まれるＬ．Ｂ．Ｒａｂｉｎｅｒ＆Ｒ．Ｗ．Ｓｃｈａｆｅｒ著の論文「音声信号のディジタル処理（３９６〜４５３）（１９７８）」に詳述される。典型的なエンコーダおよび典型的なデコーダは、引用文献としてここに予め完全に組み込まれる米国特許第５，４１４，７９６号に記載されている。
【００１８】
図４のフローチャートは、一実施形態による音声の無声セグメントのための低ビットレートコーディングを示す。図４の実施形態に示された低ビット無声コーディングモードは、有利なことには、フレーム当たり少数のビットを有する無声セグメントを正確に捕まえることによって全体の高声質を保持している間、マルチモード音声コーダに比較的低い平均ビットレートを与える。
【００１９】
ステップ３００では、コーダは、外部速度決定を実行し、入力音声フレームを無声あるいは非無声のいずれかと確認する。速度決定は、フレームのエネルギー（Ｅ）、フレーム周期性（Ｒｐ）およびスペクトル傾斜（Ｔｓ）のような音声フレームＳ［ｎ］（ここで、ｎ＝１、２、３、．．．Ｎである）から抽出される多数のパラメータを考察することによって行われる。このパラメータは、所定の閾値のセットで比較される。現フレームが比較の結果に基づいて無声であるかどうかに関する決定が行われる。現フレームが無声である場合、現フレームは、後述されるように無声フレームとして復号化される。
【００２０】
フレームエネルギーは、有利なことには、下記の式に従って決定されてもよい。
【数１】

【００２１】
フレーム周期性は、有利なことには、下記の式に従って決定されてもよい。
【数２】

【００２２】
ここで、Ｒ（ｘ［ｎ］、ｘ［ｎ＋ｋ］）は、ｘの自己相関関数である。スペクトル傾斜は、有利なことには、下記の式に従って決定されてもよい。
【数３】

【００２３】
ここで、ＥｈおよびＥｌは、Ｓｌ［ｎ］およびＳｈ［ｎ］のエネルギー値であり、ＳｌおよびＳｈは、原音声フレームＳ［ｎ］のローパス成分およびハイパス成分であり、その成分は、有利なことには、一組のローパスフィルタおよびハイパスフィルタによって発生されてもよい。
【００２４】
ステップ３０２では、ＬＰ分析は、無声フレームの線形予測の残余を生成するように行われる。線形予測（ＬＰ）分析は、両方とも引用文献としてここに完全に組み込まれる前述の米国特許第５，４１４，７９６号およびＬ．Ｂ．Ｒａｂｉｎｅｒ＆Ｒ．Ｗ．Ｓｃｈａｆｅｒ著の論文「音声信号のディジタル処理（３９６〜４５８）（１９７８）」に記載されているように当該技術分野で公知である技術で行われる。Ｎサンプルの無声ＬＰ残余のＲ［ｎ］（ここで、ｎ＝１、２、．．．Ｎである）は、入力音声フレームＳ［ｎ］（ここで、ｎ＝１、２、．．．Ｎである）から形成される。ＬＰパラメータは、上記で列挙された引用文献のいずれかに記載されているように公知のＬＳＰ量子化技術で線形スペクトル対（ＬＳＰ）領域で量子化される。原音声信号振幅対個別時間インデックスのグラフは図５のＡに示されている。量子化無声音声信号振幅対個別時間インデックスのグラフは図５のＢに示されている。原無声残余信号振幅対個別時間インデックスのグラフは図５のＣに示されている。エネルギーエンベロープ振幅対個別時間インデックスのグラフは図５のＤに示されている。量子化無声残余信号振幅対個別時間インデックスは図５のＥに示されている。
【００２５】
ステップ３０４では、無声残余の精時間分解能エネルギーパラメータが抽出される。多数（Ｍ）のローカルエネルギーパラメータＥ_ｉ（ここで、ｎ＝１、２、．．．Ｍである）は、下記のステップを実行することによって無声残余Ｒ［ｎ］から抽出される。Ｎサンプルの残余Ｒ［ｎ］は、（Ｍ−２）個のサブブロックＸ_ｉ（ここで、ｎ＝１、２、．．．Ｍ−１である）に分割され、各ブロックＸ_ｉは、Ｌ＝Ｎ／（Ｍ−２）の長さを有する。Ｌサンプルの過去残余ブロックＸ_ｉは、前フレームの過去量子化残余から得られる。（Ｌサンプルの過去残余ブロックＸ_ｉは、最後の音声フレームのＮサンプル残余の最後のＬ個のサンプルを組み込む）。Ｌサンプルの将来残余ブロックＸ_Ｍは次のフレームのＬＰ残余から得られる。（Ｌサンプル将来残余ブロックＸ_Ｍは、次の音声フレームのＮサンプルのＬＰ残余の最初のＬ個のサンプルを組み込む）。多数ＭのローカルエネルギーパラメータＥ_ｉ（ここで、ｉ＝１、２、．．．Ｍ）は、下記の式に従ってＭ個のブロックＸ_ｉ（ここで、ｉ＝１、２、．．．Ｍ）の各々から形成される。
【数４】

【００２６】
ステップ３０６では、Ｍ個のエネルギーパラメータは、ピラミッドベクトル量子化（ＰＶＤ）方法に従ってＮｒビットで符号化される。したがって、Ｍ−１個のローカルエネルギー値Ｅ_ｉ（ここで、ｉ＝２、３、，．．．Ｍ）は、量子化エネルギー値Ｗ_ｉ（ここで、ｉ＝２、３、．．．Ｍ）を形成するようにＮｒビットで符号化される。ビットＮ_１、Ｎ_２、．．．Ｎ_ｋを有するＫステップのＰＶＱ符号化方式は、Ｎ_１＋Ｎ_２＋．．．Ｎ_ｋ＝Ｎｒのように使用され、全ビット数は無声残余Ｒ［ｎ］を量子化するのに役立つ。ｋ（ここで、ｋ＝１、２、．．．Ｋ）ステージの各々に関して、下記のステップが実行される。第１のステージ（すなわち、ｋ＝１）に関しては、バンド数は、Ｂ_ｋ＝Ｂ_１＝１に設定され、バンド長はＬ_ｋ＝１に設定される。各バンドＢ_ｋに関しては、平均値ｍｅａｎ_ｊ（ここで、ｊ＝１，２，．．．Ｂ_ｋ）は下記の式による。
【数５】

【００２７】
Ｂ_ｋ平均値ｍｅａｎ_ｊ（ここで、ｊ＝１、２、．．．Ｂ_ｋ）は、量子化平均値ｍｅａｎ_ｊ（ここで、ｊ＝１、２、．．．Ｂ_ｋ）のセットを形成するようにＮ_ｋ＝Ｎ_ｊビットで量子化される。各バンドＢ_ｋに属するエネルギーは、関連量子化平均値ｑｍｅａｎ_ｊによって分割され、新しい組のエネルギー値｛Ｅ_ｋ，ｊ｝＝｛Ｅ_ｉ，ｊ｝（ここで、ｉ＝１、２、．．．Ｍ）を生成する。各ｉ（ここで、ｉ＝１、２、３、．．．Ｍ）に対する第１のステージの場合（すなわち、ｋ＝１の場合）下記の式が得られる。
【数６】

【００２８】
サブバンドに分解し、各バンドに対する平均値を抽出し、このステージに役立つビットで平均値を量子化し、それからサブバンドの成分をサブバンドの量子化平均値で割るステップは、各々のその後のステージｋ（ここで、ｋ＝２、３、．．．ｋ−１）に対して繰り返される。
【００２９】
第Ｋ番目のステージでは、Ｂ_ｋ個のサブバンドの各々のサブベクトルは、Ｎ_ｋビットの全部を使用して各バンドに対して設計された個別のＶＱｓで量子化される。Ｍ＝８およびステージ＝４に対するＰＶＱ符号化ステップは図６に例として示される。
【００３０】
ステップ３０８では、Ｍ個の量子化エネルギーベクトルが形成される。Ｍ個の量子化エネルギーベクトルは、コードブックおよびＰＶＱ情報を示すＮｒビットから前述のＰＶＱ符号化処理を最終の残余サブベクトルおよび量子化平均値で逆にすることによって形成される。Ｍ＝３およびステージｋ＝３に対するＰＶＱ復号化ステップは図７に例として示される。当業者が理解されるように、無声（ＵＶ）利得は、任意の従来の符号化技術で量子化されてもよい。符号化方式は、図４〜図７に関して説明される実施形態のＰＶＱ方式に制限される必要がない。
【００３１】
ステップ３１０では、高分解能エネルギーエンベロープが形成される。Ｎサンプル（すなわち、音声フレーム長）の高時間分解能エネルギーエンベロープＥＮＶ［ｎ］（ここで、ｉ＝１、２、３、．．．Ｎ）は、後述された計算に従って復号化エネルギー値Ｗｉ（ここで、ｉ＝１、２、３、．．．Ｍ）から形成される。Ｍ個のエネルギー値は、音声の現残余のＭ−２個のサブフレームのエネルギーを示し、各サブフレームは長さＬ＝Ｎ／Ｍを有する。値Ｗ_ＩおよびＷ_Ｍは、残余の最後のフレームの過去のＬ個のサンプルのエネルギーおよび残余の次のフレームの将来のＬ個のサンプルのエネルギーそれぞれを示している。
【００３２】
Ｗ_ｍ−１、Ｗ_ｍ、およびＷ_ｍ＋１が、（ｍ−１）番目のサブバンド、ｍ番目のサブバンド、および（ｍ＋１）番目のサブバンドのエネルギーのそれぞれを示す場合、ｍ番目のサブフレームを示すｎ＝ｍ^＊Ｌ−Ｌ／２〜ｎ＝ｍ^＊Ｌ＋Ｌ／２に対するエネルギーエンベロープＥＮＶ［ｎ］のサンプルは下記のように計算される。ｎ＝ｍ^＊Ｌ−Ｌ／２に対して、ｎ＝ｍ^＊Ｌまで、
【数７】

【００３３】
である。
さらに、ｎ＝ｍ^＊Ｌに対して、ｎ＝ｍ^＊Ｌ＋Ｌ／２まで、
【数８】

【００３４】
である。
【００３５】
エネルギーエンベロープＥＮＶ［ｎ］を計算するステップは、Ｍ−１個のバンドの各々に対して繰り返され、現残余フレームに対する全エネルギーエンベロープＥＮＶ［ｎ］（ここで、ｎ＝１、２、．．Ｎ）を計算するためにｍ＝２、３、４、，．．．Ｍとする。
【００３６】
ステップ３１２では、量子化無声残余は、エネルギーエンベロープＥＮＶ［ｎ］を有するランダム雑音を特徴付けることによって形成される。量子化無声残余ｑＲ［ｎ］は下記の式に従って形成される。
【数９】

【００３７】
ｎ＝１、２、．．．Ｎに対してｑＲ［ｎ］＝Ｎｏｉｓｅ［ｎ］^＊ＥＮＶ［ｎ］である。
ここで、Ｎｏｉｓｅ［ｎ］は、有利なことには、エンコーダおよびデコーダと同期する乱数発生器によって人工的に発生される単位分散を有するランダム白色雑音信号である。
【００３８】
ステップ３１４では、量子化無声音声フレームが形成される。量子化無声残余ｑＳ［ｎ］は、当該技術分野で公知であり、両方とも引用文献としてここに完全に組み込まれる前述の米国特許第５，４１４，７９６号およびＬ．Ｂ．Ｒａｂｉｎｅｒ＆Ｒ．Ｗ．Ｓｃｈａｆｅｒ著の論文「音声信号のディジタル処理（３９６〜４５８）（１９７８）」に記載されるように従来のＬＰ合成技術による量子化無声音声の逆ＬＰフィルタリングによって発生される。
【００３９】
一実施形態では、例えば、下記のように規定される知覚信号対雑音比（ＰＳＮＲ）のような知覚誤差量を測定することによって実行できる。
【数１０】

【００４０】
ここで、ｘ［ｎ］＝ｈ［ｎ］^＊Ｒ［ｎ］、およびｅ（ｎ）＝ｈ［ｎ］^＊ｑＲ［ｎ］であり、“^＊”は、畳み込みあるいはフィルタリング演算を示し、ｈ（ｎ）は、知覚重み付けＬＰフィルタであり、Ｒ［ｎ］およびｑＲ［ｎ］は、それぞれ原無声残余および量子化無声残余である。ＰＳＮＲは所定の閾値と比較される。ＰＳＮＲが閾値よりも小さい場合、無声符号化方式は十分に実行しなくて、高速度符号化モードは、その代わりに現フレームをより正確に捕まえるために適用されてもよい。一方、ＰＳＮＲが所定の閾値を超える場合、無声符号化方式は十分実行し、モード決定が保持される。
【００４１】
本発明の好ましい実施形態はこのように図示され、説明されている。しかしながら、多数の変更は本発明の精神あるいは範囲から逸脱しないでここに開示された実施形態に対して行われてもよい。したがって、本発明は上記の特許請求の範囲による以外限定されるべきでない。
【図面の簡単な説明】
【図１】音声コーダによって各端で終端される通信チャネルのブロック図である。
【図２】エンコーダのブロック図である。
【図３】デコーダのブロック図である。
【図４】音声の無声セグメントに対する低ビットレート符号化のステップを示すフローチャートである。
【図５】信号振幅対個別時間インデックスのグラフである。
【図６】ピラミッドベクトル量子化の符号化処理を示す機能図である。
【図７】ピラミッドベクトル量子化の復号化処理を示す機能図である。
【符号の説明】
１０、１６…エンコーダ、１４、２０…デコーダ、１００…エンコーダ、１０２…モード決定モジュル、１０４…ピッチ推定モジュール、１０６…ＬＰ分析フィルタ、１１０…ＬＰ量子化モジュール、１１２…残余量子化モジュール、２００…デコーダ、２０２…ＬＰ復号化モジュール、２０４…残余復号化モジュール、２０６…モード復号化モジュール、２０８…ＬＰ合成フィルタ

Claims

音声の無声セグメントを符号化する方法であって、
音声のセグメントの複数のサブブロックについてのエネルギー係数を抽出するステップと、
前記エネルギー係数を量子化するステップと、
前記量子化されたエネルギー係数からエネルギーエンベロープを生成するステップと、
前記エネルギーエンベロープを有するランダムに発生される雑音ベクトルを形成することによって残余信号を再構成するステップとを含む方法。
前記量子化ステップがピラミッドベクトル量子化方式に従って実行される請求項１の方法。
前記生成するステップが線形補間で行われる請求項１の方法。
後処理性能量を得るステップと、前記後処理性能量を所定の閾値と比較するステップとをさらに含む請求項１の方法。
前記生成するステップが、残余の前のフレームの所定の過去のサンプル数のエネルギーの表示を含むエネルギーエンベロープを生成することを含む請求項１の方法。
前記生成するステップが、残余の次のフレームの所定の将来のサンプル数のエネルギーの表示を含むエネルギーエンベロープを生成することを含む請求項１の方法。
音声の無声セグメントを符号する音声コーダであって、
音声のセグメントの複数のサブブロックについてのエネルギー係数を抽出する手段と、
前記エネルギー係数を量子化する手段と、
前記量子化されたエネルギー係数からエネルギーエンベロープを生成する手段と、
前記エネルギーエンベロープを有するランダムに発生される雑音ベクトルを形成することによって残余信号を再構成する手段とを備えている音声コーダ。
前記量子化する手段が、ピラミッドベクトル量子化方式に従って量子化する手段を含む請求項７の音声コーダ。
前記生成する手段が線形補間モジュールを含む請求項７の音声コーダ。
後処理性能量を得る手段と、前記後処理性能量を所定の閾値と比較する手段とをさらに含む請求項７の音声コーダ。
前記生成する手段が、残余の前のフレームの所定の過去のサンプル数のエネルギーの表示を含むエネルギーエンベロープを生成する手段を含む請求項７の音声コーダ。
前記生成する手段が、残余の次のフレームの所定の将来のサンプル数のエネルギーの表示を含むエネルギーエンベロープを生成する手段を含む請求項７の音声コーダ。
音声の無声セグメントを符号化する音声コーダであって、
音声のセグメントの複数のサブブロックについてのエネルギー係数を抽出するように構成されたモジュールと、
前記エネルギー係数を量子化するように構成されたモジュールと、
前記量子化されたエネルギー係数からエネルギーエンベロープを生成するように構成されたモジュールと、
前記エネルギーエンベロープを有するランダムに発生される雑音ベクトルを形成することによって残余信号を再構成するように構成されたモジュールとを備えている音声コーダ。
前記量子化がピラミッドベクトル量子化方式に従って行われる請求項１３の音声コーダ。
前記生成が線形補間に従って実行される請求項１３の音声コーダ。
後処理性能量を得て、所定の閾値と比較するように構成されたモジュールをさらに含む請求項１３の音声コーダ。
前記エネルギーエンベロープが残余の前のフレームの所定の過去のサンプル数のエネルギーの表示を含む請求項１３の音声コーダ。
前記エネルギーエンベロープが残余の次のフレームの所定の将来のサンプル数のエネルギーの表示を含む請求項１３の音声コーダ。