JP2010500819A - 複数の量子化パターンの効率的な知覚的関連検索による音声及びオーディオを量子化するための方法 - Google Patents

複数の量子化パターンの効率的な知覚的関連検索による音声及びオーディオを量子化するための方法 Download PDF

Info

Publication number
JP2010500819A
JP2010500819A JP2009523846A JP2009523846A JP2010500819A JP 2010500819 A JP2010500819 A JP 2010500819A JP 2009523846 A JP2009523846 A JP 2009523846A JP 2009523846 A JP2009523846 A JP 2009523846A JP 2010500819 A JP2010500819 A JP 2010500819A
Authority
JP
Japan
Prior art keywords
quantization
pattern
prototype
patterns
bits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009523846A
Other languages
English (en)
Inventor
ショーン, エー. ランプラシャッド,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2010500819A publication Critical patent/JP2010500819A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

複数の量子化パターンの知覚的関連検索を用いてデータを量子化するための方法及び装置を本明細書に開示する。一実施形態では、方法は、複数の量子化パターンの知覚的関連検索を行うステップであり、複数の原型パターンのうちの1つ及び前記原型パターンのうちの1つに関連付けられた順列が、前記目標ベクトルを量子化するために選択され、前記複数の原型パターンにおける各原型パターンが、前記ベクトル全体にわたり量子化を指示することができるステップと、前記1つの原型パターン、前記関連付けられた順列、及び両者から生じる量子化情報を、エンコーダによって複数のビットに変換するステップと、前記ビットをビットストリームの一部分として転送するステップとを含む。
【選択図】図2

Description

優先権
[0001]本特許出願では、2006年8月11日に出願された「A Method for Quantizing Speech and Audio Through an Efficient Perceptually Relevant Search of Multiple Quantization Patterns」という名称の対応する仮特許出願第60/837164号の優先権を主張し、参照によりこれを組み込む。
関連出願
[0002]本出願は、2006年4月19日に出願され、本発明の法人譲受人に譲渡された「Quantization of Speech and Audio Coding Parameters Using Partial Information on Atypical Subsequences」という名称の同時係属の米国特許出願第11/408125号に関連する。
発明の分野
[0003]本発明は、ベクトル量子化の分野に関し、より詳細には、複数の量子化パターンの知覚的に関連する検索により、例えば音声及びオーディオなどの情報を量子化することに関する。
発明の背景
[0004]音声及びオーディオコーダは、一般に、冗長性除去、知覚的無関連性除去、及び効率的量子化技法の組合せを用いて、信号を符号化する。この組合せにより、今日の先端的な音声及びオーディオエンコーダの大多数は、1又は2ビット/入力サンプル未満のレートで動作する。これは、しばしば、多数のパラメータが、平均して1〜2ビット/パラメータ未満の非常に低いレートで量子化されることを意味する。このような低いレートでは、特に量子化及び無関連性除去ステップにおいて問題が生じるおそれがある。
[0005]量子化ステップは、音声又はオーディオを表すパラメータを1つ又は複数の有限ビット列に変換するプロセスを意味する。パラメータは、個々に量子化することができる。本明細書では、他のパラメータに関する情報を含まないビットの列として表す。パラメータが「s」ビットで表現される場合、この表現に対し最大で2の選択肢を考えることができる。このような選択肢は、「コードブック」として知られるものにまとめることができる。単一パラメータの量子化の場合、コードブックのエントリは、元のパラメータを表すための複数の異なる選択肢を表すスカラである。
[0006]複数のパラメータを合同で量子化することもでき、その結果、ビット列は、2つ以上のパラメータからなるグループを示す。このような場合、コードブックのエントリは、各エントリは複数のパラメータの表現となる多次元エントリである。このプロセスの1つの実現形態が、「ベクトル量子化器」である。合同の量子化は、より効率的な量子化をもたらすことが多いが、ビット数「s」が、全てのパラメータのビットの合計であるとすると、より大きくなるため、しばしば複雑さの面で不利益が生じることがある。
[0007]量子化で生成されるビットは、デコーダに送られ、(複数の)元の音声/オーディオパラメータの近似を回復するために使用される。このパラメータの近似が元のパラメータと異なるとき、この差異は、元のパラメータに加えられたノイズと考えることができる。このノイズは、本明細書では量子化ノイズと呼ぶ。
[0008]オーディオ及び音声については、このような量子化ノイズが、信号における歪みとして再生中に認識されることがある。これは、量子化パラメータが元のパラメータとは異なるので、復号化された信号は一般に元の信号とは異なるからである。
[0009]実際に量子化される信号パラメータは、多くの形態をとることが可能である。使用される最も一般的なパラメータのうちには、例えば、変形離散コサイン変換(MDCT)又はフィルタバンクのような周波数領域変換、及び/又は時間領域サンプル/係数によって得られるような周波数領域サンプル/係数がある。これらの場合、ノイズは、異なる時間及び/又は周波数領域における歪み効果として認識される。
[0010]無関連性除去のプロセスは、ノイズが再生において知覚できない又は最小限の効果になるようにノイズに所望の特徴が与えられるプロセスを指す。例えば、ノイズは、再生中に人間の聴覚系が認識できない程の低いレベルとすることができる。
[0011]このような無関連性除去プロセスの一部分のある実現形態では、量子化プロセスにおいていくつかのパラメータが完全に無視できることに留意されたい。これは、(複数の)パラメータに対しゼロビットが送られる場合である。デコーダでは、このようなパラメータは、復号化プロセスで無視されるか、又は何らかの既知の固定値又はランダム値に設定される。全ての場合において、このようなパラメータを無視することによってこのパラメータに導入される量子化ノイズがある。
[0012]無関連性除去は、元のパラメータを対象として充分な近似を送るプロセス、すなわち、適正なビット数を決定し送ることにより、ノイズが所定の望ましいレベルとなり、したがって再生中の望ましい知覚効果が達成されるプロセスとすることができる。
[0013]冗長性除去プロセスは、信号の効率的量子化を可能にするパラメータ表現を作成するプロセスを指す。例えば、この表現により、異なるパラメータに対するビットの効率的分配を促進することができる。例えば、いくつかの表現は、元の信号エネルギをできるだけ少数のパラメータに集中させる。MDCTなどの表現は、多くのオーディオ及び音声信号に適用されるときに、そのような性質を有している。これにより、少数のパラメータにビットリソースを集中し、より重要ではないパラメータがほとんど又は全くビットを受け取らないようにすることが可能になる。
[0014]このMDCT表現(及び類似のタイプの周波数領域表現)はまた、音声信号における周波数成分を表すため、更なる利点がある。周波数成分に応じた知覚的歪みは、非常に詳細に検討された題材である。したがって、このような表現は、無関連性除去にも有用である。
[0015]良好なオーディオ/音声コーダを設計する際は、量子化、冗長性除去及び無関連性除去プロセスの相対的効力に強い相互依存性がある。例えば、量子化オプションを選択する際(多くの選択肢がある場合)、量子化プロセスが生成する可能性があるノイズのタイプ又はレベルの予測を試みることができる。例えば、各量子化オプションが導入すると期待される(平均)ノイズを使用して、それぞれのオプションが有しうる潜在的な知覚効果を予測することができる。これにより、平均期待値に基づいた信号適応的様式で量子化ステップの前に符号化(量子化)決定/オプションが前もって選択されるプロセスを導くことができる。
[0016]一般に、量子化プロセスが良好な又は全体的に「行儀良い」予測可能な結果をもたらすことが期待される場合、事前に決定を行うことができる。例えば、設計者は、前もって、エンコーダが信号を充分に量子化するために充分なビットを有し、したがって、量子化された信号が有する量子化ノイズの量は、知覚できないならば、非常に少ないか又はたいていの場合非常に少ないことを知ることができる。このような行儀良いシナリオは、例えば、充分に高いビットレートで信号を量子化する状況でありうる。それは、オーディオ信号が少数のパラメータで表現できるようになされたシナリオでありうる。そのような場合、量子化、冗長性除去、及び無関連性除去のプロセスは、半独立的に動作することができ、それぞれがそれぞれの望ましい結果に達することが可能なことが分かる。
[0017]例えば、このようなシナリオでは、無関連性除去プロセスが、事前に計算された知覚に関連する「ノイズ閾値」を使用して量子化プロセスを指示することができる。一部のオーディオコーダは、パラメータ量子化ステップの前に、「知覚ノイズ閾値」(上限値のセット)を計算し、これに、パラメータ毎に量子化ノイズが従う必要がある。例えば、各MDCT係数はそれぞれの閾値を超えるノイズを持ってはならない。この閾値(しばしば値のベクトルである)は、パラメータの量子化ノイズの望ましい限界をパラメータ毎に指定する。このような閾値がしばしば実現できることを事前に知ることにより、かかる手法が実行可能になる。
[0018]このプロセスの1つの改良点は、符号化が偶然にもいずれのパラメータについても閾値を得ることに成功しない場合、この閾値に小さな修正を加えることである。パラメータのグループが「デルタ」のノイズ閾値(上限)を実現する必要があり、コーダはそれを行うために「b」ビットのみを有している事例を例として挙げる。そのような1つのプロセスを図1Aに示す。ステップサイズ「デルタ」で均一なスカラ量子化器を使用する場合、量子化ステップは、パラメータ毎に値の良好な近似を与えるために「デルタ」ステップをどのように行うことができるかを指定する整数を割り当てる。例えば、パラメータが−1.33の値を有しデルタが0.50の場合、信号を近似するために−3「デルタ」ステップを要することを指定することができる。ここでは、元のパラメータの表現が−1.5であり、ノイズレベルが−1.50と−1.33の差の絶対値、すなわち0.17であり、これはデルタより小さい。
[0019]上述の例では、元のパラメータがマップされる数値インデックスは、−3である。次いで、この番号がビット列にマップされる。この場合、一定の数のビットにインデックスをマップすることができ、例えば、3ビットで、−3,−2,−1,0,1,2,3,4のような8個の固有の整数値を表すのに充分である。或いは、例えばハフマン符号化におけるように、一部の整数値がより頻繁に使用されることを利用して、可変数のビットを使用することができ、この場合、各可変ビット表現をストリームから一意にパースすることができる。このような技法は、オーディオ符号化技術の当業者に広く知られており、実際、オーディオコーダ設計で頻繁に用いられる。
[0020]しかし、主な問題は、しばしば、各パラメータ上のノイズが「デルタ」より小さいことを保証するために必要なビット数が、全てのパラメータが符号化されるまで分からないことが多いことである。しばしば、使用されるビット数は、ハフマン符号化など可変長符号化技法が使用される場合、可変でありうる。「デルタ」に対する量子化の最後に、ビット数が、プロセスについてエンコーダが有する最大値「b」を超える可能性がある。
[0021]時としてこの問題を解決するために、閾値にわずかな修正を加え(例えば、許容ノイズレベルを倍数で増加させ)、再符号化を行うことができる。図1Aを参照すると、オーディオコーダは、許容総ビット数「n(1)+n(2)+…+n(N)」を実現する値を見つけるために、異なるレベルの「デルタ」、具体的には増加するデルタ値の系列を検査することができる。一般に、「デルタ」が大きいほど、必要とされる総ビット数が少ない。この古典的な反復プロセスは、ある種のオーディオコーダ設計においてしばしば「レートループ(rate-loop)」と呼ばれる。このような元の閾値に対するわずかな修正により、有効な新規の(得ることがより容易な)知覚可能閾値がもたらされる。
[0022]しかし、上述のように、このようなプロセスは、符号化ステップ、具体的には量子化が行儀良い場合のみに魅力的でありうる。非常に低いビットレートでは、3つのプロセスの正確な合同の挙動、具体的には無関連性除去及び量子化ステップの合同の挙動を事前に正確に予測することが、難しいことがある。その1つの理由は、低いレートで量子化プロセスによって導入されたノイズのレベル(及びランダム性)が潜在的に非常に高いことである。実際に、導入される実際の量子化ノイズが所与の量子化オプションについて非常にランダムで且つ高いレベルの場合、量子化オプションの真の知覚効果の正確な評価は、量子化の後まで不可能なことがある。特に、ノイズのレベルが閾値より大きくパラメータからパラメータに変化することを考慮して、知覚的評価が行われなければならない。実際、このような場合は、「デルタ」を増加することなど元のターゲットの知覚閾値に対する単純な修正は、意味をなさないことがある。詳細には、最終的な量子化の結果に関連すると容易に予め決定できる単一のターゲットの知覚閾値又は知覚閾値のセットが存在しないことがある。つまり、期待(平均的挙動)及び予測に基づいて事前にオプションを選択するある種の古典的手法が、効率的でない場合があることを意味する。知覚の依存性及び複雑さについては以下でより詳細に論じる。
[0023]上述のように、統計的冗長性除去、非関連性除去、及び量子化のプロセスは、かなり相互依存的である。単に冗長性除去ステップを改善することによりこの問題を解決することが必ずしも簡単ではないことを言及する必要がある。例えば、冗長性除去ステップが非常に効率的な場合、これは、しばしば、ほとんどの信号表現が少数のパラメータにまとめられていることを意味する。例えば、ここで、元の「N」音声/オーディオ信号パラメータのエネルギのほとんどが、このステップによって新しい信号パラメータ「T」に主に濃縮される(ここで、TはNより非常に小さい)。これが発生したとき、それは、量子化及び無関連性除去ステップに役立つが、低いレートにおいて、しばしば、全ての新しい「T」パラメータを非常に高い忠実度に量子化することができない。複数の冗長性除去オプションを考慮できる際は、最終的に、無関連性除去及び量子化の合同の動作が、低いレートで非常に重要である。
[0024]知覚原理が、無関連性除去ステップ、すなわち量子化を指示する。このような原理により、パラメータ毎又は合同して多数のパラメータにわたりノイズがどのように認識されるかについて予測が行うことができる。このようなプロセスの1つの実現形態が、「絶対知覚閾値」であり、これは先述の手法に深く関連する。この事例では、低いノイズレベルで、人間の聴覚系が(複数の)当該の選択されたレベルより上/下のノイズを認識することができるかどうかに関する決定を反映する閾値を単純に計算すればよい。この(複数の)レベルは、信号に適応する。そのような場合、知覚閾値は、そのレベルより低いとノイズが知覚されない又は非常に低い許容レベルで知覚されるパラメータの量子化ノイズレベルのセットを指定する。パラメータ毎のレベルは二分決定を行うポイントを表すので、それにより計算が非常に単純化される。量子化はレベルの違反がないこと又は違反が稀にしかないことを保証しさえすればよいので、量子化が単純化されて、音声又はオーディオ信号の望ましい符号化がもたらされる。しかし、そのような想定される低いターゲットとされるノイズレベルについても、こうした「絶対知覚閾値」を生成するための計算を行うことは、既に計算集約的である可能性がある。
[0025]より高いレベルのノイズ、すなわち、1つ又は複数のパラメータについて「絶対知覚閾値」に強く違反するノイズに関する知覚効果を計算することは、ノイズが認識されるかどうかだけでなく、それがどのように認識されるか及び/又はどんなレベルで認識されるかを決定しなければならないため、より複雑となる。この状況は、「閾上」ノイズ、すなわち、知覚の閾値より上のノイズの状況である。この場合、パラメータ毎に実現されるノイズの正確なレベルは、単にそれらの絶対値に対する関係を超えて重要である。また、それらが導入するノイズが時間及び/又は周波数において充分に近い場合は特に、1つのパラメータに対する閾上ノイズは、しばしば、別のパラメータからのノイズと知覚的に相互作用する。したがって、量子化の後まで閾上ノイズの知覚効果は正確に決定できないことが多い。これは、「閾上」での動作時に、領域パラメータを、独立して量子化することができない、例えば、各パラメータをそれ自体の「閾値」に対して検査するような様式で量子化することができないことを示唆する。
[0026]量子化ノイズが「絶対知覚閾値」に準拠するコーダでは、コーダが、量子化プロセスの前に、無関連性除去ステップにおける知覚閾値又はターゲットのレベルのセットを計算することができる。次いで、閾値は、事前に量子化プロセスが実現するものを知らずに、その量子化プロセスのターゲットとして使用される。これは、「開ループ」プロセスとして知られる実現形態である。このように、このプロセスは、いくつかの決定が(数学的複雑性を所与として)前もって行われ、それらの決定は再び行われない、又は閾値を増加するなど単純な修正しか行われないという利点がある。本明細書では、これを開ループでありうる他のプロセスと区別するために「開ループ知覚プロセス」と称する。
[0027]しかし、前述のように、低いビットレートでは、無関連性除去及び量子化ステップの正確な合同したパフォーマンスを、量子化プロセスの前に正確に予測することが難しい又は不可能なことがある。「開ループ知覚」プロセスは、このシナリオでは魅力が低い。これは、ノイズが現在知覚可能すなわち前述のような閾上であり、量子化プロセスが非常にランダムに振る舞うことができ、本来的に良好な量子化がパラメータの合同の符号化であるはずであるからである。この場合、しばしば、パフォーマンスの知覚的決定より前に、量子化ノイズの正確なレベル又は高精度のレベルの推定を知る必要がある。低いビットレートでの量子化プロセスによって導入されるノイズの本質的に高いレベル及び変動性から困難が生じる。これを前提とすると、導入されるノイズの事前推定は、しばしば不正確であるため、推定がほとんど役立たないことがある。
[0028]期待されるレベルの推定が不可能な場合、最悪値を使用することもできるが、それが過度に保守的な決定及び更なる非効率を招くおそれがある。
[0029]この問題を解決するために、「閉ループ」プロセスが使用される。この場合、複数の仮定及び/又は複数の量子化オプションが行われ、それぞれが知覚的に評価されるのは、どんな量子化ノイズが各オプションから生じるか分かる量子化ステップの後である。
[0030]この場合、「閉ループ知覚プロセス」において、それぞれのオプションが生成する正確なノイズを計算して、全ての量子化オプションを検査し、次いで、最良の知覚的優位をもってオプションを選択することができる。ある種のコーダでは、単にそれを行う。例えば、いくつかの異なるヒューリスティクスを使用して基となる知覚閾値を修正すること、及び/又は、いくつかの異なる量子化表現を使用し、量子化ステップがターゲットの閾値を実現する組合せを作成することを望むことができる。
[0031]実際、究極的には、パラメータのグループに割り当てられた所与のビット数「b」について、潜在的に最大「2」までの考えられうる閾値及び/又は量子化オプションが存在し、それぞれが、与えられた信号に対して非常にランダムで且つ予測不可能なノイズパターンを有し、したがって知覚効果を有する可能性がある。しかし、計算的な複雑さの理由で、全ての量子化オプション及びそれらの実際の知覚効果を検査することは、実用的ではないことが多い。
[0032]例えば、1ビット/パラメータでの40個のパラメータの量子化は、最大240個のオプションが存在しうることを意味する。究極的にはオプション毎に、オーディオコーダはしばしば1秒に何千ものパラメータを量子化することを考慮すると、全てのグループが高い「閾上」ノイズレベルを有するので、全てのグループに対し知覚評価を行わなければならない可能性がある。
[0033]これらの理由により、本来的に「閉ループ知覚プロセス」設計は、「2」個の独立した選択肢に対する全数検索ではありえない。
[0034]閉ループプロセスを使用する1つの方法は、複雑な閾上モデルを著しく単純化することである。これを行う1つの方法は、閾上モデルを単純な近似基準に置き換えることである。しばしば使用されるそのような基準のタイプの1つは、信号適応加重平均二乗誤差(WMSE)歪み基準である。これは、例えば、ITU−T勧告G729及び他のITU−T及びESTI規格で使用される代数符号励振線形予測(ACELP)設計など多数の音声符号化設計において行われるものである。単純化されたMSEのような基準によって、コーダは、古典的量子化コードブックを検索するための古典的MSEベースの手順を利用することができる。そうした「代数構造化」コードブックのようなコードブック、或いは「ツリー」、「積」、又は「多段」ベクトル量子化器は、検索プロセスにおいて2個の選択肢の大部分を放棄することによって効率的に「2」個の選択肢を検索することができるように設計される。
[0035]しかし、この場合、多くのベクトル量子化構造が、しばしば、ノイズが複数の異なるパラメータにどのように割り振られることができるかと非常に明確な関連を有することがない。WMSE基準に依拠するブラインド設計は、しばしば複数の可能性を整理するのに役立つ。そのように、検索プロセスの複雑性をコードブック設計における構造によって効率的に減少できるが、「2」個の選択肢のうち有意味な部分が、検査される必要がある。例えば、各段にb/2ビットを有する2段のコードブック設計では、2b/2+2b/2個の選択肢のオーダーで考慮をしなければならない。つまり、コードブック設計におけるノイズの明確な制御なしに、効率的量子化を保証するために、充分な数の選択肢が考慮に入れられ検索されることを保証する必要がある。これは、その検索を可能にするために、平均二乗誤差に基づく測定など単純化された知覚基準の使用を必要とし、フィールド内の多くの作業が、検索を効率的に行い、たとえWMSE基準を使用しても検索をうまく振る舞う設計を用意するために費やされる。より正確且つ複雑な基準でうまく振る舞う設計は、しばしば考慮されずまた不可能である。
[0036]また、コーダが加重平均二乗誤差(WMSE)測定を使用するとき、実際のノイズが、検索の最後に、望ましくはより重く加重された領域がより少ないノイズを有するように指示される加重指示のように分配されることを、この測定は暗黙に想定することに留意すべきである。しかし、実際には、異なるパラメータについてのノイズの正確なレベルは、特に低いレートでの加重によって、望まれる一般的傾向に従う場合もあればそうでない場合もある。図1Bの例を参照のこと。加重測定及びその測定のためのコードブックの設計は、ノイズがおよそ望ましく振る舞うことが期待される(MSE基準内の)加算を用いることによって個々のノイズレベルの精密な効果を単純化し隠蔽する。
[0037]検索の可能性の数は、少なくとも1つの後述される従来技術の実装形態において減少されている。これに対し、ACELPにおけるコードブック構造及び他の古典的ベクトル量子化器設計は、その構造が選択肢の数を2未満に効率的に減少させる検索を可能にするが、複雑な知覚基準とともに使用することができない。本来、この検索は、MSEのような基準に直接結合されたときに単に効率的に機能する。動作するACELPベースの検索メカニズムの例は、ITU−T勧告G.729で使用されて、それにより、40個の残余時間サンプルが、信号適応WMSE基準とともに合同で量子化される。
[0038]また、「絶対知覚閾値」がレートルックにおける単純な手段で必ず修正されるため、オーディオコーダ内のたいていの「レートループ」検索は、知覚パフォーマンスの最適化は弱く取り扱うだけで、ビットレートの問題を取り扱うことを何度も繰り返すことが重要である。ここではレートループが「閉ループ」要素を有するが、本来、検索は、結果としての現在知覚可能な量子化ノイズの閾上知覚効果を注意深く最適化することよりも、レート歪みの最適化に関わる。このような効果は、正確なノイズレベルが分かった後でのみ正確に予測可能であり、単にノイズレベルを閾値に突き合わせてチェックすることによっては評価されない。
[0039]簡潔に言えば、音声及びオーディオ符号化における上記の両方の古典的な手法は、以下のものを有することがある。
a)それらが歪み距離を単純化するときの先天的な非効率性、及び/又は、
例えば、真の知覚でもWMSEを使用することが、より複雑である
b)オプションを限定する過度に保守的な制約
例えば、スケールファクタバンド内の最大均一レベルを課すこと、及び/又は、
c)ノイズレベルに対する過度に保守的な仮定、及び/又は、
例えば、実際の又は「より実際に近い」平均レベルよりむしろ最大レベルを使用すること
d)それらの意図したノイズ割当てと実際のノイズ割当ての間の誤差、
例えば、
a.誤差が、WMSE基準を使用することにより仮定しうる形状/特徴で分布しない、
b.誤差は実際に変動しうるため期待又は予測されたレベルがわずかしか有用でないことがある。
e)ベクトル量子化又は構造化されたコードブック表現による複数のパラメータを合同で符号化するときに個々のパラメータに割り当てられるノイズレベルの非常にわずかな明示制御。
[0040]これは、低いビットレートで動作するとき特に起こる可能性がある。その結果、コーダが、知覚パフォーマンスと予測を結び付けようとするか、又は量子化を指示する際に単純化した仮定を使用するとき、非効率性がある。
[0041]最近では、半順序量子化方式と称される新しい量子化オプションのクラスがあり、これは、パラメータのベクトル全体にビット割当ての有意味なパターン(及びそれによる推定ノイズ割当て)を意図的に作り出すことができる特性を有する。
[0042]「b」ビット量子化方式では、原型パターン「P」が使用されて、順列符号によく似た原型パターンの限定順列によって全て関係付けられた2<<2の可能なパターンが生成されるが、この場合、古典的「順列符号」としての符号語の要素ではなくビット割当てを順序変更する。例えば、パターン「P」
P=p(1),p(2),…,p(N)
は、要素「p(j)」を有し、それぞれが、「N」個の全パラメータのうちの特定のパラメータがどのように量子化されるかを定義する。しばしば、このような複数の順列の部分集合のみが考慮に入れられることがあり、例えば、以下のような2つの当該の順列のみでありうる。
p(2),p(1),p(3),p(4),p(5),…,p(N) 及び p(3),p(1),p(2),p(4),p(5),…,p(N)
[0043]順列の限定(半順序)の1つの動機は、一部のi及びjについてp(j)=p(i)であり、したがって同じ順列が等価に作られることがしばしばあるという事実に由来する。例えば、上記において、p(1)=p(2)=p(3)ならば、2つの上記のパターンは同じであり、異なる順列として区別されない。
[0044]より一般的には、他の理由のため順列を限定することができ、例えば、新しいパターン(順列)におけるより高い値p(j)に集中する(又は拡がる)順列を限定することができる。この場合、「p(j)」は、ビット割当てであり、実際、低いビットレートにおいて、そのような有意味なパターンを用いることが、等しいパターンのビット割当て(全てのi,jについてp(i)=p(j))をいずれか作り出す他の量子化技法より効率的になりうることが示されている。
[0045]そのようなビット割当ての等しいパターンは、推定されるノイズ割当ての等しいパターンと等価になりうる。例えば、p(i)のそれがノイズ割当てである場合、p(i)=p(j)=「デルタ」は、図1の場合と同様のターゲットを作り出す割当てである。全ての場合に、固有の順列の数2は、N!より小さい(しばしば、かなり小さい)と考えられる。
[0046]パターンがビット割当てであり、各パラメータの量子化プロセスが、パラメータに対する所定の数の割当てビットを使用するように制約される場合、割当てに使用されるビットの総数は事前に知られ、例えば、パターンは、p(1)+p(2)+…p(N)ビットを使用する。したがって、図1Aのプロセスと同様に、使用される「デルタ」の数及びしたがって費やされるビットが不確定ではない。
[0047]また、この手順には、良好な順列を求める検索において単純化がある。量子化手順を実装する1つの方法は、ビット(又はノイズ)割当てを順序変更しないが、量子化パターンP=p(1),p(2),…,p(N)を固定しながら、目標ベクトルX=x(1),x(2),…,x(N)に順序変更する。用語「半順序」は、知覚的関連性のエネルギの点からx(j)の順序を部分的に順序付けることによって、x(j)の順序を順序変更することがしばしば良いという事実から生じる。
[0048]複数の原型パターンを考える場合、例えば、g=2パターンP(1),P(2),…,P(g)で、これにおいて、パターンP(k)がそれ自体で、半順序(限定された順列)で関係付けられた2c(k)パターンを生成する場合、パフォーマンスは更に改善されうることも示されている。例えば、
パターン1:P(1)=p(1,1),p(2,2),…p(N,1)
パターン2:P(1)=p(1,2),p(2,2),…p(N,2)

パターンg:P(1)=p(1,g),p(2,g),…p(N,g)
ただし、(前記の例でのp(i)のように)p(i,j)は、どのようにパラメータを量子化するかを指定する値である。「b」ビットが量子化で使用されるようにするためには、全てのパラメータk=1,2,…,gについて、
d+c(k)+p(1,k)+p(2,k)+…+p(N,k)=b
である。
[0049]更に、所与のパターンP(k)について、わずかな(又は絶対知覚閾値計算よりわずかに大きい)計算で識別を行うことができ、2c(k)パターンのうちから最良の知覚的優位を有する。
発明の概要
[0050]複数の量子化パターンの知覚的関連検索を用いてデータを量子化するための方法及び装置を本明細書に開示する。一実施形態では、方法は、複数の量子化パターンの知覚的関連検索を行うステップであり、複数の原型パターンのうちの1つ及び前記原型パターンのうちの1つに関連付けられた順列が、前記目標ベクトルを量子化するために選択され、前記複数の原型パターンにおける各原型パターンが、前記ベクトル全体にわたり量子化を指示することができるステップと、前記1つの原型パターン、前記関連付けられた順列、及び両者から生じる量子化情報を、エンコーダによって複数のビットに変換するステップと、前記ビットをビットストリームの一部分として転送するステップとを含む。
[0051]本発明は、以下に与える詳細な説明及び本発明の種々の実施形態の添付図面から、より理解されるであろうが、それらは、単に説明及び理解のためであり、特定の実施形態に本発明が限定されるように解釈されるべきではない。
本発明の詳細な説明
[0052]複数の量子化パターンの知覚的関連検索を用いてデータを量子化するための技法を説明する。一実施形態において、量子化オプションの効率的であるが限定された部分集合(例えば、2のオプション、ここで、2は、「b」ビットを使用してパラメータのグループを量子化するための2の可能な有意味なオプションの合計最大よりはるかに小さい)。
[0053]一実施形態では、(知覚に関連する様式でオプションの部分集合を限定し、そのようなオプションが検索に充分値するほど異なっていることを注意深く確認する)複数オプションの方法と(実際の又は仮定された)各ノイズ割当てパターンの知覚効果を予測する測定との組合せが用いられる。このようにして、合同の方法を達成することができ、この方法は、効率的且つ柔軟で有効な様式で、既知の検査された量子化ノイズ及び知覚効果に基づいて量子化オプションをより良く検索し選択することができ、他方で、前もってオプションの良好な部分集合を選択して実際の検査を少数の良好なオプションに限定することによって計算を少なくするため、より高度な知覚基準(歪みモデル)を考慮することを可能にしている。
[0054]本発明の一実施形態では、閉ループ知覚プロセスが使用され、このプロセスは、高速(限定された)閉ループ検索を可能にするコードブック構造を備え、知覚考慮に直接関係付けられた構造を備え、異なる知覚効果を有する複数のオプションを選択することを可能にする。
[0055]以下の説明では、本発明のより完全な説明を与えるために数多くの詳細が示される。しかし、本発明がこれら特定の詳細なしに本発明が実施されうることは当業者には明らかであろう。他の例では、周知の構造及び装置は、本発明を不明瞭にするのを避けるために詳細に示されるのではなくブロック図の形態で示される。
[0056]以下の詳細な説明の一部は、コンピュータメモリ内のデータビットに対する操作のアルゴリズム及び記号表現の観点で提示される。これらのアルゴリズムの記述及び表現は、データ処理技術の当業者がその作業の内容を最も効果的に他の当業者に伝えるために使用する手段である。アルゴリズムは、ここでは、また一般的に、望ましい結果を導く一連の首尾一貫したステップとして考えられる。これらのステップは、物理量の物理的操作を要するステップである。必須ではないが通常は、これらの量は、格納、転送、結合、比較、及び他の操作がなされうる電気又は磁気信号の形態をとる。これらの信号を、主に一般的な用法であるという理由で、ビット、値、要素、シンボル、文字、項、又は番号などとして呼ぶことが時として好都合であることが分かっている。
[0057]しかし、上記及び類似の用語の全ては、該当する物理量に関連付けられるべきであり、これらの物理量に適用される便利なラベルに過ぎないことに留意すべきである。以下の議論において明らかなように、特にことわりがない限り、「処理」、「コンピューティング」、「計算」、「決定」、又は「表示」などの用語を使用する議論は、説明全体を通して、コンピュータシステム又は類似の電子コンピューティングデバイスの動作及びプロセスを指していることを理解されたい。それらは、コンピュータシステムのレジスタ及びメモリにおける物理量(電子的量)として表現されるデータを操作して、同様にコンピュータシステムのメモリ又はレジスタ、或いは他のそうした情報記憶装置、伝送装置、又は表示装置における物理量として表現される他のデータに変形するものである。
[0058]本発明はまた、本明細書における動作を行うための装置に関する。この装置は、要求される用途のために特別に構成されてもよく、或いは、コンピュータに格納されたコンピュータプログラムによって選択的に起動又は再構成される汎用コンピュータを備えてもよい。そのようなコンピュータプログラムは、コンピュータ可読記憶媒体に格納することができ、コンピュータ可読記憶媒体は、以下に限定されないが、フロッピーディスク、光ディスク、CD−ROM、及び光磁気ディスクなどを含む任意のタイプのディスク、読取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気又は光カード、或いは、電子命令の格納に適した任意のタイプの媒体であり、それぞれコンピュータシステムバスに結合されるものである。
[0059]本明細書に提示されるアルゴリズム及び表示は、どの特定のコンピュータ又は他の装置にも固有のものとしては関係付けられない。様々な汎用システムが、本明細書の教示によるプログラムとともに使用してもよく、必須の方法ステップを行うために、より特化した装置を構成することが好都合となることもある。種々のこれらのシステムのための必須の構造は、以下の説明から明らかとなろう。また、本発明は、いかなる特定のプログラミング言語も参照せずに説明される。本明細書に記載される本発明の教示を実施するために種々のプログラミング言語が使用可能であることは理解されよう。
[0060]機械可読媒体は、機械(例えば、コンピュータ)によって読取り可能な形態で情報を格納又は伝送するための任意のメカニズムを含む。例えば、機械可読媒体としては、読取り専用メモリ(「ROM」)、ランダムアクセスメモリ(「RAM」)、磁気ディスクストレージ媒体、光ストレージ媒体、フラッシュメモリ装置、電気、光、音響、又は他の形態の伝搬信号(例えば、搬送波、赤外線信号、デジタル信号など)などがある。
[概要]
[0061]以下に述べるように、多くのノイズ割当てパターンを自身で考慮する基礎の量子化方式を用いて、多くのノイズ割当てパターンをそれらの知覚的(マスキング)効果に関して効率的に識別し検査することを可能にする技法を開示する。この様式では、各原型パターンの高速(性質的に部分的開ループの)検索を行い、次いで、各パターンについて選択を行い、閉ループプロセスを用いてノイズの有意味なパターンの実際の量子化ノイズを小さな数「m」(M=g≦m<2)についてのみ計算することによって、最良の実際の知覚的優位を有する量子化オプションを求める検索を達成することができる。値「m」は、しばしば2よりもはるかに小さい。一実施形態では、m=gであるが、一般性を失わずに、それ以上の順列が考えられる。例えば、2つの原型パターンが実際に同じである場合、結果として、単一パターンの2つの順列が考慮されうるという効果がある。目標ベクトルの2つの可能な順序に基づいて、所与の固有の原型パターンに対して2つ以上の順列を考慮することもできる。パターンの数及びしたがって閉ループ検査の数を限定する能力により、最終決定を行う際の複雑な知覚基準が使用できるようになる。このような基準は、量子化ノイズの「閾上」効果を予測する際に、より正確である。
[0062]一実施形態では、順列(半順序)符号化方式が使用され、(少なくとも平均で)より高いエネルギ要素がより大きなビット割当てを受け取るように、(緩く又は正確に)ビットパターンをパラメータのセットにマッチさせる。
[0063]したがって、複数オプション、限定された順列/半順序、知覚基準を有する量子化方式の新規の組合せにより、量子化の限定された閉ループ知覚プロセスを有する効率的な(限定された)組み合わされた開ループがもたらされる。一実施形態では、3つの主要要素、すなわち、M個の原型ビット割当てパターンのセットと、高速検索知覚的関連検索方法と、決定を行うために使用される知覚的測定とによって組合せが実装され、それらは新規の態様で一緒に動作する。これら3つの要素は、目標ベクトルを量子化するために使用するために、全ての原型パターンを検査しパターン(例えば、最良のパターン)を選択する働きをする。
[0064]図2は、目標ベクトルを量子化するためのプロセスの一実施形態のフロー図である。このプロセスは、ハードウェア(回路、専用ロジックなど)、(汎用コンピュータシステム又は専用機で実行されるような)ソフトウェア、又は両者の組合せを含むことができる処理ロジックによって行われる。
[0065]図2を参照すると、プロセスは、複数の量子化パターンの知覚的関連検索を行う処理ロジックによって開始され、知覚的関連検索では、複数の原型パターンのうちの1つ(例えば、原型ビット割当てパターン)及びそれに関連付けられた順列が、目標ベクトルを量子化するために選択される(処理ブロック201)。一実施形態では、それら原型パターンにおける各原型パターンは、ベクトル全体にわたり量子化を指示することができる。
[0066]一実施形態では、複数の量子化パターンの知覚的関連検索を行うステップが、原型パターンの順列を選択するステップと、歪み基準を使用して選択された順列を検索することによって、原型パターンのうちの1つ及びそれに関連付けられた順列を選択するステップとを含む。一実施形態では、複数の原型パターンの順列を選択するステップが、開ループの態様で行われる。一実施形態では、原型パターンの順列を選択するステップが、各原型パターンにおける要素を再順序付けせずに目標ベクトルの要素を順序に再順序付けすることによって、暗黙的に行われる。一実施形態では、目標ベクトルの要素が、エネルギに基づいて、全順序及び緩やかな順序からなる群から選択された順序に再順序付けされる。順序が、半順序又は全順序とすることができる。一実施形態では、目標ベクトルの要素が、知覚的関連性に基づいて、全順序及び緩やかな順序からなる群から選択された順序に再順序付けされる。順序は、半順序又は全順序とすることができる。
[0067]一実施形態では、1つの原型パターンが、量子化時に、目標ベクトルにおける各要素に割り当てられるビットの数を指定する。別の実施形態では、1つの原型パターンが、量子化時にベクトルにおける各要素に割り当てられる量子化ステップサイズを定義する。更に他の実施形態では、1つの原型パターンが、量子化を行うための量子化器のローカル次元を指定する。一実施形態では、ローカル次元が、合同で量子化される目標ベクトルにおける要素の数を示す。一実施形態では、原型量子化パターンのそれぞれが、等価な量子化オプションを定義する反復された要素を有する。
[0068]知覚的関連検索を行った後、処理ロジックは、エンコーダを使用して、1つの原型パターン、関連付けられた順列、及び両者から生じる量子化情報を、複数のビットに変換する(処理ブロック202)。
[0069]符号化動作の後、処理ロジックは、ビットをビットストリームの一部分として転送する(処理ブロック203)。一実施形態では、ビットをビットストリームの一部分として転送するステップが、ビットストリームをデコーダに転送するステップを含む。他の実施形態では、ビットをビットストリームの一部分として転送するステップが、ビットストリームをメモリに格納するステップを含む。
[0070]図3は、符号化プロセスの一実施形態のフロー図である。このプロセスは、ハードウェア(回路、専用ロジックなど)、(汎用コンピュータシステム又は専用機で実行されるような)ソフトウェア、又は両者の組合せを含むことができる処理ロジックによって行われる。処理ロジックは、エンコーダの一部分とすることができる。
[0071]図3を参照すると、符号化プロセスが始まる前に、エンコーダは、パラメータのグループに対してグローバル要件Bを設定する。Bは、任意のグローバル要件とすることができる。一実施形態では、Bは、グローバルビットレート要件である。
[0072]グローバル要件Bが、この要件に従う原型パターンP(1),…,P(M)のセットを示唆する(処理ブロック301)。このセットは、B毎のコーダ設計段階において事前にオフラインで計算することができる。一実施形態では、パターンは、エンコーダ及びデコーダに知られる。
[0073]これらのパターンP(1),…,P(M)は、目標ベクトルX=x(1),x(2),…,x(N)の量子化を指示する。一実施形態では、これらのパターンは、原型ノイズレベルパターンのセットである。別の実施形態では、これらのパターンは、量子化方法又は量子化方法の解像度を定義する任意のパラメータのパターンのセットである。例えば、パターンは、コードブックのサイズと固定レート符号を有する量子化インデックスを符号化するために必要なビットの数とを指定するビットとしてよく、又は、パターンは、例えば均一スカラ量子化器などの正規の量子化器を定義するステップサイズとしてよく、又は、パターンは、(関連する特性と、したがって)量子化器に使用するコードブックとを指定するパラメータとしてよい。一実施形態では、重要な点は、原型ビット割当てパターンのセットが、有意味な(すなわち非均一な)パターンのセットであり、それを知覚的に意味のある態様に配列(順序変更)できることである。
[0074]N個のパラメータX=x(1),x(2),…,x(N)を量子化する場合、原型パターンp(k)は、「N」個の音声/オーディオパラメータについてのN個の量子化オプションの系列とすることができる。一実施形態では、P(k)=f(1,k),f(2,k),…,f(N,k)であり、ただし、パラメータf(i,j)は、例えば上述のように、量子化方法又は量子化方法の解像度を指定する値である。原型パターンは、(例えば、可変次元符号化において)値f(i,j)が、2つ以上のパラメータについて使用される場合、N個より少ないパラメータの系列でありうる。
[0075]P(k)の順列は、整数1,2,…,Nの順列によって2つの可能な方法において定義され実施される。当該の整数のこの順列は、固有のインデックスi(1),i(2),…,i(N)の系列であり、ただし、全てのw,v=1,…,Nについて、1≦i(w)≦N、且つ、w≠vならばi(w)≠i(v)である。一実施形態では、この順列は、原型パターンを取得し、それを別のパターンP2(k)=f(i(1),k),f(i(2),k),…,f(i(N),k)にマップする。この場合、f(i(j),k)は、パラメータx(j)の量子化を指示するために使用される。別の実施形態では、この順列は、ベクトルXを取得し、それをXnew=[x(i(1)),x(i(2)),…,x(i(N))]に順序変更する。この場合、f(j(k),k)は、x(i(j))の量子化を指示する。両方のプロセスを等価にする1対の順列(一方は他方の「逆」順列によって定義される)が存在することに留意されたい。
[0076]一実施形態では、原型パターンP(k)が、最大Q(k)個までの可能な順列を許容する。N個のパラメータを量子化する場合、最大N!個の順列がありうる。しかし、パターンが、反復される値(例えば、P(k)=[1,1,2,2,2,3,4,4,…])を有する場合、N!より小さいQ(k)個の固有のパターンがある。一実施形態では、上述のような他の基準を使用して順列が限定される。
[0077]一実施形態では、そのようなパラメータの複数のセット(例えば、原型パターンの複数のセット)があり、それが、異なるスケールファクタバンドやビットレートなどを対象にする。一実施形態では、パターンのセットが、例えば、グローバルビットレート要件Bによって選択される。
[0078]図3を戻って参照すると、グローバル要件Bの設定により、処理ロジックが、変数kを1に初期化し、処理ロジックがXに基づいてパターンp(k)の順列の1つを事前選択することからプロセスが開始する(処理ブロック302)。一実施形態では、高速検索知覚的関連検索方法が、原型パターンの順列の1つ(又は少数)を選択するために使用される。一実施形態では、これは、上述のように、エネルギを使用してXの緩やかな順序又は全順序によって行われる。一実施形態では、順列は、インデックスz(k)によって定義される。
[0079]次いで、処理ロジックは、p(k)の順列が指示するようにXを量子化する(処理ブロック303)。一実施形態では、処理ロジックはまた、量子化インデックスをパラメータI(k)に格納する。
[0080]処理ロジックは、X及びXの量子化バージョンを使用して、順列についてのノイズ及び知覚効果を計算する(処理ブロック304)。一実施形態では、処理ロジックは、決定を行うために知覚的測定を使用する。一実施形態では、知覚的測定は、複数の要素からなる信号適応機能であり、それらは、例えば、マスキングレベル計算、エネルギ及び他の測定値を知覚的ラウドネスやエネルギの拡散などにマップする関数などであるが、これらに限定されない。一実施形態では、処理ロジックは、変数kについての効果を示す測定値を格納する。
[0081]その後、処理ロジックは、k<パターンの数Mであるかを検査する(処理ブロック305)。そうである場合、処理ロジックは、kを1つ増分し、処理ブロック302に移行し、プロセスが引き続き反復する。そうでない場合、処理ロジックは、処理ブロック306に移行する。
[0082]処理ブロック306で、処理ロジックは、最小の知覚効果を有するkを選択する。本明細書では、これをkと称する。
[0083]kが選択されると、処理ロジックは、B(他の何らかのプロセスからデコーダに知らされていない場合)と、kと、順列を定義するインデックスz(k)と、量子化インデックスを格納する順列I(k)とを符号化し、この順序でそれらをビットストリーム内にパックするが(処理ブロック307)、デコーダが順序を認識している限り他の順序が使用されてもよい。
[0084]一実施形態では、パラメータのグループを量子化するために使用されるビットの総数は、総ビット又はノイズレベル制約に準拠してもしなくてもよい。例えば、一実施形態では、システムがパターンの所与のセットについてBビットの強い制約を有する場合、量子化がビット割当てパターンを使用しているとき、下記の制約が使用されうる。
Roundup(log2[m])+Roundup(log2[Q(k)])+原型パターンkにおけるビットの合計=B
これは、k、z(k)、及びI(k)を指定するために充分なビット数となる。
[0085]つまり、符号化の際に、最終的に選択された原型パターンP(k)が、符号化パラメータを使用してデコーダに示される。一実施形態では、それは、Roundup(log2(m))ビットを使用して2進列に符号化される。これは、図3におけるパラメータkを符号化する1つの方法となる。また、選択された順列z(k)は、Roundup(log2[Q(k)])ビット未満の2進列で指定されうる。一実施形態では、パラメータk、z(k)、及びI(k)は、上述のように別個に符号化されずに合同で符号化される。
[0086]ビットストリーム内へのパックがなされると、処理ロジックは、ビットストリームを出力311として送る(処理ブロック308)。一実施形態では、ビットストリームはメモリに送られる。別の実施形態では、ビットストリームはその後の復号化のためにデコーダに送られる。
[0087]図4は、復号化プロセスの他の実施形態のフロー図である。このプロセスは、ハードウェア(回路、専用ロジックなど)、(汎用コンピュータシステム又は専用機で実行されるような)ソフトウェア、又は両者の組合せを含むことができる処理ロジックによって行われる。処理ロジックは、デコーダの一部分とすることができる。
[0088]図4を参照すると、デコーダにおける処理ロジックは、ストリーム410を受け取り、ストリーム410を復号化して、B(処理ブロック401)、k(処理ブロック402)、z(k)(処理ブロック403)、及びI(k)(処理ブロック404)を得る。上述のように、Bは、パラメータのグループについてのエンコーダのグローバル要件であり、この要件は、原型パターンP(1),…,P(M)のセットを示唆する(405)。
[0089]B、k、z(k)、及びI(k)を回復した後、処理ロジックは、順序変更されたパターン内の割当て毎にP(k)、z(k)、及びI(k)を使用して、それぞれのパラメータの量子化バージョンを回復する(処理ブロック406)。
[0090]次いで、P(k)、z(k)、及びそれぞれのパラメータの量子化バージョンが与えられると、処理ロジックは、それらを適切な順序でyに配列し(411)、それが「x」の量子化バージョンである。
[0091]上述の実施形態に対し他の更に一般的な変形形態がある。例えば、(B)における原型パターン毎に単一の順列を選択する代わりに、少数を実際に選択することができる。これを図5に示す。
[0092]図5は、符号化プロセスの他の実施形態のフロー図である。このプロセスは、ハードウェア(回路、専用ロジックなど)、(汎用コンピュータシステム又は専用機で実行されるような)ソフトウェア、又は両者の組合せを含むことができる処理ロジックによって行われる。処理ロジックは、エンコーダの一部分とすることができる。
[0093]図5を参照すると、符号化プロセスが始まる前に、エンコーダは、パラメータのグループに対してグローバル要件Bを設定する。このグローバル要件は、原型パターンP(1),…,P(M)のセットを示唆する(処理ブロック501)。
[0094]Bのグローバル要件の設定により、処理ロジックが、変数kを1に初期化し、処理ロジックがXに基づいてパターンp(k)の順列のいくつかn(k)を事前選択することからプロセスが開始する(処理ブロック502)。一実施形態では、各順列sは、インデックス1<=z2(k,s)<=Q(k)によって定義される。
[0095]次いで、処理ロジックは、p(k)の順列が指示するようにXを量子化する(処理ブロック503)。一実施形態では、処理ロジックはまた、量子化インデックスをパラメータI2(k,s)に格納する。
[0096]処理ロジックは、X及びXの量子化バージョンを使用して、s順列のそれぞれについてノイズ及び知覚効果を計算し(処理ブロック504A)、最良のn(k)オプションを選択する(処理ブロック504B)。本明細書では、この選択はsと称する。処理ロジックはまた、z(k)=z2(k,s)、及びI(k)=I2(k,s)を設定する。
[0097]その後、処理ロジックは、k<パターンの数Mであるかを検査する(処理ブロック505)。そうである場合、処理ロジックは、kを1つ増分し、処理ブロック502に移行し、プロセスが引き続き反復する。そうでない場合、処理ロジックは、処理ブロック506に移行する。
[0098]ブロック506の処理で、処理論理は、最小の知覚効果を有するkを選択する。上述のように、本明細書では、これをkと称する。
[0099]kが選択されると、処理ロジックは、B(他の何らかのプロセスからデコーダに知らされていない場合)と、kと、順列を定義するインデックスz(k)と、量子化インデックスを格納する順列I(k)とを符号化し、この順序でそれらをビットストリーム内にパックするが(処理ブロック507)、デコーダが順序を認識している限り他の順序が使用されてもよい。
[00100]ビットストリーム内へのパックがなされると、処理ロジックは、ビットストリームを出力511として送る(処理ブロック508)。一実施形態では、ビットストリームはメモリに送られる。別の実施形態では、ビットストリームはその後の復号化のためにデコーダに送られる。
[第1の好ましい実施形態]
[00101]好ましい一実施形態では、図3及び5の両方で以下の特徴を用いることができる。原型パターンに関して、第1の好ましい実施形態では、原型パターンがビット割当てパターンである。つまり、原型パターンの値p(j)又はp(i,j)のそれぞれが、その値によって指示される量子化パラメータ符号化のインデックスを指定するために使用されるビット数を正確に指定する。
[00102]また、第1の好ましい実施形態では、一般により多くのビットを(緩く又は正確に)より高いエネルギの値x(j)に割り当てる順列を使用することにより、目標Xに対する原型パターンの最良の順列の選択が計算される。これは、上述の一般的原理に従い、この原理では、当該の要素が、より知覚的関連性がある傾向にあること、及び、それらをより高い忠実度で符号化することにより、他の要素に(量子化によって)導入されるノイズをマスキングする際のそれらの有効性が増大されることが示される。
[00103]一実施形態では、これは、原型パターンがビット割当て値の降順で配列されることを最初に確かにすることによって実装することができ、すなわち、原型パターンP(k)=[a,b,c,d,c,…]である場合、目標は、a≧b≧c≧d≧e≧…である。パターンが順序変更されず、むしろ、ベクトルXが、
x(1),x(2),…,x(N)→x(i(1)),x(i(2)),…,x(i(N))
であり、大まかにx(i(1)),x(i(2)),…,x(i(N))は降順のエネルギの順である。当該の「大まかな」順序の例は、最初のm<Nのみが正しく順序付けられる。他の例は、P(k)に反復される値があり、同じ値p(j,k)についての対応する値「x(i(j))」の相対的順序が問題にならない事例に関わる。原型パターン毎にエンコーダにおいて順列が選択されXに適用され、その原型パターンを有する量子化(及びその順列)が検査され、「最良」の順列が選択され、選択を一意に指定する情報がデコーダに送られる。デコーダでは、量子化バージョンが、まず、順序変更されていない選択された原型によって指示されるように順序変更されていない形態で回復される。これは、この原型パターンについてエンコーダで選択された順列に関する情報が与えられると、逆の順列にされる。
[00104]P(k)=(p(1,k),p(2,k),…,p(i,N))がビット割当てパターンの場合、パラメータへの割当てp(i,k)の検査は、2p(i,k)の選択肢より多くの検査を伴わないことに留意されたい。例えば、古典的なスカラ又はベクトル量子化器が構造なしに使用される場合、コードブックは、2p(i,k)のコードワードで表される2p(i,k)の選択肢を含むことになる。量子化プロセスは、これらの選択肢のうちの1つを選択し、それは、しばしば最小量子化ノイズを与えるものである。したがって、2c(k)の選択肢(2c(kは、しばしばN!より小さい)から必要とされる順列が容易に決定されるとすると、パターンP(k)の検査に伴う検索の選択肢は、2p(1,k)+2p(2,k)+…+2p(N,k)より多くない。これは、VQにおける「積符号」設計と複雑さについて同様であるが、知覚考慮が追加されて、それにより、事前選択順列が、知覚的に関連する様式で2c(k)の選択肢から選択される。例えば、積符号が知覚的関連構造を有していない場合、2c(k)×(2p(1,k)+2p(2,k)+…+2p(N,k))までの選択肢を検査する必要がある。
[00105]パターン「p(k)」毎にノイズが分かると、パターン毎の選択された順列を所与として、順列とパターンの最終的な合同の選択の決定、及びしたがって量子化が、複雑な知覚基準を使用して、パターン毎に1つ(m=M)又は複数(m>M)の「m」個の選択肢に対する検査である。この場合、mは、2よりはるかに小さく、また、ACELPのような古典的設計又は多くのベクトル量子化器が考慮する必要がある選択肢の数よりはるかに小さい。
[00106]第1の好ましい実施形態では、所与の量子化オプションについて知覚歪みを計算する際に、ベクトルXは、(例えば、スケールファクタバンドの場合のように)周波数が連続した周波数領域係数からなることが仮定される。また、以下のことも仮定される。すなわち、目標ベクトルX=x(1),x(2),…,x(N);所与のオプション(原型パターン及び順列)に対する量子化された値が、Y=y(1),y(2),…,y(N)によって与えられる;当該のオプションに対する誤りのエネルギパターンが、E=e(1),e(2),…,e(N)である(ただし、e(j)=(x(j)−y(j)));絶対知覚マスキングレベルパターンM(X,Y)=m(1),m(2),…,m(N)が、目標Xについて選択され、それは、「絶対知覚閾値」の決定と同様又は全く同じようにしばしばXによって場合によってはYによって定義される;加重関数W=w(1),w(2),…,w(N)もまた選択されうる;各要素T=t(1),t(2),…,t(N)毎に信号と独立した(エネルギ換算の)絶対聴覚閾値が選択される;並びに、指数法則「q」が使用されることが仮定される。
[00107]一実施形態では、Xに対して量子化値Yを評価する際に使用される知覚歪み関数「D(X,Y)」は、2006年8月11日出願の「A Method for Quantizing Speech and Audio Through an Efficient Perceptually Relevant Search of Multiple Quantization Patterns」という名称の米国特許出願第60/837164号に記載されるものと同様の形態をとり、その式(13)は、
Figure 2010500819

の値を使用する。
[00108]そのような歪み関数は、従来の全数検索での使用が非実用的な場合があるほどの複雑さを有する。これは、累乗q、比における除算演算、及び、M(X,Y)の計算に起因するもので、M(X,Y)がYに強く依存し、したがって各オプションに適応する必要がある場合に特にそうである。
[00109]更に、本発明の実用的関心事の非常に大きな部分であるが、より精密且つより複雑になるのは、歪み関数に拡散が適用される場合である。ここで、拡散関数B=b(−L1),b(−L1+1),…,b(0),b(1),…,b(L2+1)が、エネルギが、人間の内耳の中央階にどのように拡散されうるかを考慮する。中央階は、異なる周波数範囲に応答する我々の「有毛」(神経)細胞を含む構造である。異なるセルに対する範囲は重複する。この場合、拡散を表現するために、上記の関数においてe(k)及びx(k)の代わりに値e2(k)及びx2(k)を使用し、このとき、E2=e2(1),e2(2),…,e2(N)=conv(E,B)、並びに、X2=x2(1),x2(2),…,x2(N)=conv(Y,B)である。この演算conv()は、信号処理の当業者に知られている古典的な畳込み演算である。この演算の実施には、一般に、k<1且つk>Nについて値e(k)及びx(k)を必要とする。この畳込み演算を介する追加的でより精密な評価では、古典的量子化技法での全数検索が更に非実用的になる。
[00110]より一般的には、下記のD2( )のように、マスキング上のノイズエネルギを知覚的ラウドネス測定にマップする任意の正関数L( )を使用することができる。ここでもやはり、「e」は、「e2」に置き換えることができる。
Figure 2010500819
[00111]そのようなラウドネス測定は、「q」がおよそ1/3から1/2の範囲になりうる「D(X,Y)」にあるような、べき乗則のような関数の形態をとることが多い。ラウドネス測定はまた、適応型のべき乗則を有することもでき、例えば、
L(s)=W(s)×sq(s)
であり、式中、W( )はエネルギ依存のスケーリングであり、q( )はエネルギ依存の指数である。知られているように、エネルギから知覚ラウドネスへの写像は、信号エネルギに応じて異なるべき乗則(指数)に従い、一般に、低いレベルに対して、より大きなべき乗則(エネルギの増加を伴うラウドネスのより速い増加)及びより高い信号レベルに対して、より小さいべき乗則が用いられる。
(第1の好ましい実施形態の代替形態)
[00112]上述の第1の好ましい実施形態に組み込まれうるいくつかの代替形態。以下の代替形態は、第1の好ましい実施形態を更に改良するために、一緒に、別個に、又は任意の組合せで組み込むことができる。
[00113]一実施形態では、パラメータをソートしそれにより順列を決定する知覚的関連性を改良することができる。前述のように、MDCT係数のようなパラメータの知覚的関連性は、そのエネルギと関係付けられることが多い。より高いエネルギを有する信号パラメータは、より低いエネルギを有する信号パラメータより小さくない(等しい又は大きい場合がある)値「p(i,k)」が与えられるべきである。一実施形態では、このプロセスは、例えば絶対知覚閾値のような知覚閾値に対するエネルギの比に関係付けられる知覚的関連性を示す、より複雑な改良を含む。様々な周波数依存加重及びべき乗則を結果に適用することによって更なる改良を考えることができる。
[00114]一実施形態では、マスキング閾値M(X,Y)の値が、信号適応絶対知覚閾値である。
[00115]一実施形態では、マスキング閾値M(X,Y)の値が、信号エネルギのスケーリングされたバージョンである。
[00116]一実施形態では、原型ビットパターンは、エンコーダによって生成されXに関してデコーダに送られるストリームが、予め定められた(全てのパターンについて固定された値の)ビット数であるようになされる。例えば、それは、Bビットとすることができ、Bは、Xに割り当てられるビットの数である。一実施形態では、ストリームは、B、k、z(k)、及びI(k)を(場合により)指定するための情報からなる。一実施形態では、kは、固定ビット数により指定される。この場合、それは、全てのパターンについて、
Figure 2010500819

であることを意味する。例えば、B=10の場合、4つの可能な原型パターンがあり(つまり、kを指定するために2ビットを要する)、ここで、各原型パターンは、8個の許容される順列を有し(つまり、kにかかわらずz(k)を指定するために3ビットを要する)、各パターンは、合計が10−3−2=5ビットの(ビット割当てを表現する)正の整数の系列である。
[00117]一実施形態では、原型ビットパターンは、異なる信号に対する異なる知覚効果をもたらす非常に特定的な特性を有する。例えば、Nが与えられると、パターンは、黙示的に、少数のインデックスにおける許容される(大部分又は)全てのビットカウントの濃縮を表現することができる(例えば、1,2,「m」<Nまでのインデックス)。例えば、N=4の9ビットについて、原型パターンは、以下のようになりうる。
1つのインデックスへの濃縮の場合の例示的原型パターン:[9,0,0,0]
2つのインデックスへの濃縮の場合の例示的原型パターン:[5,4,0,0]
3つのインデックスへの濃縮の場合の例示的原型パターン:[3,3,3,0]
[00118]一実施形態では、複数の原型パターンが使用される場合、ある原型パターンが選択され、それは、利用可能なビットの均等な(又はできる限り均等な)割当て、すなわち、全てのi,jについてf(i|k)≒f(j,k)であるパターンP(k)を表現する。上記の例では、N=4且つ9ビットであり、こうしたパターンは、[2,2,2,3]となる。こうしたパターンの4つの固有の順列がある。
[00119]原型パターンは、「0」、「3」、「2」のような数が繰り返される上述の例のように、反復される値を有することがしばしばある。これは、結果として、パターン毎にN!個未満の固有の順列がある特性を有する。例えば、[2,2,3,3]の場合、このようなパターンの4個の固有の順列がある。固有の順列を指定するには、2ビットの情報が必要となる。
[00120]一実施形態では、最良のパターンを選択される際に、ビット割当てが順序変更されベクトルXは順序変更されない。
[00121]好ましい第1と併せた上述の知覚測定の全ては、一緒にした全ての要素の歪みは個々の要素の歪みの合計である、歪みの加法モデルを構成する。これは、真の人間の知覚の完全な表現ではない。したがって、他の実施形態では、より高度な形態の歪み関数が使用され、この関数は、複数のノイズ要素がどのように一緒に知覚されるかをより注意深く考慮する。これらの歪み関数の例は、L.E.Humesら「Models of the additivity of masking」、Journal of the Acoustical Soc.of America、85巻3号、1285−1294頁、1989年3月、及び、Harvey Fletcher「The ASA Edition of Speech and Hearing in Communication」、Jont B.Allen編、The Acoustical Society of America by the American Institute of Physics、1995年発行に記載されている。聴覚の臨界帯域より幅が小さいスケールファクタバンドの一例では、Xの各要素を個別の要素として考えなくてよい(又は考えるべきではない)。むしろ、全エネルギ及び全マスキングが、1つの単位として考えられる。結局、人間の耳は、周波数で接近したそのような要素を区別することができない。このような場合、D(X,Y)の下記の修正が有用な場合がある。
Figure 2010500819

これは、拡散関数「B」が、畳込みとしてではなく、単純に、全てのkについてb(k)=1の内積として適用される例である。上記で、Mt及びTは、スケールファクタバンドに対する共通のマスキング及び聴覚閾値(例えば、上述の「絶対知覚閾値」)である。
[第2の好ましい実施形態]
[00122]第2の好ましい実施形態では、図3及び5の両方で以下の特徴を用いることができる。原型パターンに関して、第2の好ましい実施形態では、原型パターンが、より一般的に量子化パターンである。例えば、一実施形態では、スカラ量子化の場合、パターンは、量子化ステップサイズのパターンである。そして、これは、場合によっては均一ではないステップサイズのパターン
[Δ(1),Δ(2),Δ(3),…,Δ(N)]
となる。これは、例えば、
[Δ,Δ,Δ,…,Δ]
のような基本的に均一なパターンとなる図1Aのプロセスとは異なる。別の実施形態では、量子化パターンは、使用される量子化器の特徴を指示する任意のパラメータのパターンを含む。既述のコードブックサイズ(すなわちビット数)及びステップサイズの他に、当該のいくつかの特徴としては、量子化オプションの対象となるダイナミックレンジ、量子化器の次元、及び、可変長符号(例えば、ハフマン符号)を量子化インデックスに適用した後に量子化インデックスが生成する最大ビットのいずれか又はそれらの組合せがある。一実施形態における量子化器の次元の事例では、パターン
[d(1),d(2),…,d(h)]
があり、ここで、d(1)+d(2)+…+d(h)=Nである。すなわち、「N」次元の目標X全体を対象にするのに充分な「次元」がある。
[00123]第2の好ましい実施形態では、目標Xについての原型パターンの最良の順列の選択の精神は、第1の好ましい実施形態におけるそれと同様である。一般に、より高い忠実度でより高いエネルギの要素を量子化する量子化オプションは、より高いエネルギ要素に割り当てられる。これは、第1の好ましい実施形態と同様に、まず原型パターンを順序付け、次いで、エネルギに基づいて部分的(又は完全に)Xを再順序付けすることによって実装することができる。
[00124]第2の好ましい実施形態では、第1の好ましい実施形態と同様の様式で知覚歪みが計算される。
(第2の好ましい実施形態の代替形態)
[00125]以下の第2の好ましい実施形態に対する改良は、上述の特徴と一緒に、別個に、又は任意の組合せで組み込むことができる。
[00126]複数の原型パターンが使用されるとき、各原型パターンは、ある種のグローバル基準に(大まかに)従う。例えば、原型パターン
P(k)=[Δ(1,k),Δ(2,k),Δ(3,k),…,Δ(N,k)]
を有するスカラ量子化器に対するステップサイズパターンの場合、ある種のそうした基準は、
Figure 2010500819

となりうる。ただし、Cは、オプションが導入しうる全ノイズエネルギのある種の共通の上限である。
[00127]一実施形態では、原型ビットパターンは、非常に特定的な特性を有する。より詳細には、Nが与えられると、パターンは、黙示的に、少数のインデックスにおける量子化リソースの大部分の濃縮を表現することができる(例えば、1,2,「m」<Nまでのインデックス)。例えば、第1の好ましい実施形態と同様に、パターンは、少数の小さなΔを有することができる。
[00128]一実施形態では、複数の原型パターンが使用される場合、1つの原型パターンは、量子化リソースの均等な(又はできる限り均等な)割当てを表現することができる。
[00129]他の実施形態では、原型パターンは、反復される値をしばしば有する。
[00130]他の実施形態では、最良のパターンを選択される際に、量子化パターンが順序変更されベクトルXは順序変更されない。
[符号化及び復号化システムの更なる例]
[00131]図6は、符号化システムの一実施形態のブロック図である。図6を参照すると、ブロックのそれぞれは、ハードウェア(回路、専用ロジックなど)、(汎用コンピュータシステム又は専用機で実行されるような)ソフトウェア、又は両者の組合せに実装されうる。
[00132]図6を参照すると、入力目標ベクトル601が検索エンジン602によって受け取られる。グローバルパラメータBの入力(605)に基づいて、検索エンジン602が、原型パターンP(1),…,P(M)の順列のグループの1つを選択するために検索を行い、それらは、ストレージ(例えば、メモリ)603に格納される。一実施形態では、行われる検索は、図3に関連して説明されたものと同じである。他の実施形態では、行われる検索は、図5に関連して説明されたものと同じである。
[00133]検索の結果、検索エンジン602は、k、z(k)、及びI(k)(606)をエンコーダ607に出力する。エンコーダ607は、k、z(k)、及びI(k)(606)を符号化し、また(デコーダによって知られていない場合)Bを任意選択で符号化して、符号化データを作成する。パッカ608は、符号化データを、出力ストリーム609として出力されるビットストリームにパックする。一実施形態では、パッカ608によって行われるパック動作は、エンコーダ607によって行われる。
[00134]図7は、復号化システムの一実施形態のブロック図である。図7を参照すると、ブロックのそれぞれは、ハードウェア(回路、専用ロジックなど)、(汎用コンピュータシステム又は専用機で実行されるような)ソフトウェア、又は両者の組合せに実装されうる。
[00135]図7を参照すると、デコーダ702は、ビットストリーム701を受け取り、逆量子化されるベクトル毎に、k、z(k)、及びI(k)と、任意選択でBを回復する。逆量子化器703が、順序変更されたパターン内の割り当て毎にこれらの出力を受け取り、それぞれのパラメータ704の量子化バージョンを回復し、それぞれのパラメータ704の量子化バージョンを配列ユニット705に出力する。kについての原型パターン及びインデックスz(k)によって定義される順列に基づいて、配列ユニット705は、それぞれのパラメータ704の量子化バージョンを適切な順序に配列する。
[コンピュータシステムの例]
[00136]図8は、本明細書に記載の動作の1つ又は複数を行うことができる例示的コンピュータシステムのブロック図である。図8を参照すると、コンピュータシステム800は、例示的クライアント又はサーバコンピュータシステムを含むことができる。コンピュータシステム800は、情報を伝達するための通信メカニズム又はバス811、及び情報を処理するためのバス811と結合されたプロセッサ812を備える。プロセッサ812には、例えば、Pentium(商標)、PowerPC(商標)、Alpha(商標)などのマイクロプロセッサが含まれるが、マイクロプロセッサだけに限られない。
[00137]システム800は更に、プロセッサ812に実行される情報及び命令を格納するためにバス811に結合された(メインメモリと呼ばれる)ランダムアクセスメモリ(RAM)又は他の動的記憶装置804を備える。メインメモリ804はまた、プロセッサ812による命令の実行の際に一時変数又は他の中間情報を格納するために使用することができる。
[00138]コンピュータシステム800はまた、プロセッサ812のための静的情報及び命令を格納するためにバス811に結合された読取り専用メモリ(ROM)及び/又は他の静的記憶装置806と、磁気ディスク又は光ディスク及びそれに対応するディスクドライブのようなデータ記憶装置807とを備える。データ記憶装置807は、情報及び命令を格納するためにバス811に結合される。
[00139]コンピュータシステム800は更に、コンピュータユーザへ情報を表示するためにバス811に結合された陰極線管(CRT)又は液晶ディスプレイ(LCD)のようなディスプレイ装置821に結合することができる。英数字及び他のキーを含む英数字入力装置822もまた、プロセッサ812に情報及びコマンドの選択を伝達するためにバス811に結合することができる。追加のユーザ入力装置は、マウス、トラックボール、トラックパッド、スタイラス、又はカーソル方向キーなどのカーソル制御823であり、方向情報及びコマンド選択をプロセッサ812に伝達するため、並びにディスプレイ821上のカーソル移動を制御するために、バス811に結合される。
[00140]バス811に結合されうる他のデバイスとして、ハードコピー装置824があり、紙、フィルム、又は同様のタイプの媒体などの媒体上に情報を記録するために使用することができる。バス811に結合されうる他のデバイスとして、電話又は携帯装置への通信のための有線/無線通信機能825がある。
[00141]システム800の及び関連するハードウェアの任意又は全ての要素が、本発明において使用されうることに留意されたい。しかし、コンピュータシステムの他の構成が、これらデバイスの一部又は全てを含むこともできることは理解されよう。
[00142]本発明の多くの改変及び修正が、以上の説明を読んだ後に当業者には明らかになることは疑いないが、例示として示され説明されたいずれの特定の実施形態も、限定として考えられることは全く意図されていない。したがって、種々の実施形態の詳細への言及は、本発明に本質的と見なされる特徴のみを自身に列挙する特許請求の範囲の範囲を限定するものではない。
均一なレベルを有する量子化例を示す図である。 低いビットレート及び高いビットレートにおける加重関数及び可能な結果の例を示す図である。 目標ベクトルを量子化するためのプロセスの一実施形態を示すフロー図である。 符号化プロセスの一実施形態を示すフロー図である。 復号化プロセスの他の実施形態を示すフロー図である。 符号化プロセスの他の実施形態を示すフロー図である。 符号化システムの一実施形態を示すブロック図である。 復号化システムの一実施形態を示すブロック図である。 例示的コンピュータシステムを示すブロック図である。

Claims (4)

  1. 目標ベクトルを量子化するための方法であって、
    複数の量子化パターンの知覚的関連検索を行うステップであって、複数の原型パターンのうちの1つ及び前記原型パターンのうちの1つに関連付けられた順列が、前記目標ベクトルを量子化するために選択され、前記複数の原型パターンにおける各原型パターンが、前記ベクトル全体にわたり量子化を指示することができるステップと、
    前記1つの原型パターン、前記関連付けられた順列、及び両者から生じる量子化情報を、エンコーダによって複数のビットに変換するステップと、
    前記ビットをビットストリームの一部分として転送するステップと
    を含む方法。
  2. 複数の量子化パターンの検索を行い、目標ベクトルを量子化するために、知覚的関連性に基づいて、複数の原型パターンのうちの1つ及び前記原型パターンのうちの1つに関連付けられた順列を選択するための選択器であって、前記複数の原型パターンにおける各原型パターンが、前記ベクトル全体にわたり量子化を指示することができる、選択器と、
    前記1つの原型パターン、前記関連付けられた順列、及び両者から生じる量子化情報を、複数のビットに変換し、前記ビットをビットストリームの一部分として転送するためのエンコーダと
    を備える装置。
  3. 命令を格納する1つ又は複数のコンピュータ可読媒体を備える製品であって、前記命令は、システムによって実行されたときに前記システムに方法を実行させ、前記方法は、
    複数の量子化パターンの知覚的関連検索を行うステップであって、複数の原型パターンのうちの1つ及び前記原型パターンのうちの1つに関連付けられた順列が、前記目標ベクトルを量子化するために選択され、前記複数の原型パターンにおける各原型パターンが、前記ベクトル全体にわたり量子化を指示することができるステップと、
    前記1つの原型パターン、前記関連付けられた順列、及び両者から生じる量子化情報を、エンコーダによって複数のビットに変換するステップと、
    前記ビットをビットストリームの一部分として転送するステップと
    を含む製品。
  4. ビットストリームを復元するための方法であって、
    前記ビットストリームを受け取るステップと、
    前記ビットストリーム内のビットを復号化するステップと、
    前記復号化されたビットによって識別された量子化パターン、順列、及び量子化インデックスを使用して、パラメータの量子化バージョンを回復するステップと、
    前記量子化パターン及び前記順列を再順序付けすることによって、前記目標ベクトルの量子化バージョンを作成するステップと
    を含む方法。
JP2009523846A 2006-08-11 2007-08-08 複数の量子化パターンの効率的な知覚的関連検索による音声及びオーディオを量子化するための方法 Pending JP2010500819A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US83716406P 2006-08-11 2006-08-11
US11/835,273 US7873514B2 (en) 2006-08-11 2007-08-07 Method for quantizing speech and audio through an efficient perceptually relevant search of multiple quantization patterns
PCT/US2007/017719 WO2008021185A2 (en) 2006-08-11 2007-08-08 A method for quantizing speech and audio through an efficient perceptually relevant search of multiple quantization patterns

Publications (1)

Publication Number Publication Date
JP2010500819A true JP2010500819A (ja) 2010-01-07

Family

ID=38952080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009523846A Pending JP2010500819A (ja) 2006-08-11 2007-08-08 複数の量子化パターンの効率的な知覚的関連検索による音声及びオーディオを量子化するための方法

Country Status (3)

Country Link
US (1) US7873514B2 (ja)
JP (1) JP2010500819A (ja)
WO (1) WO2008021185A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013538374A (ja) * 2010-09-15 2013-10-10 サムスン エレクトロニクス カンパニー リミテッド 高周波数帯域幅拡張のための符号化/復号化装置及びその方法
JP2016105174A (ja) * 2010-12-29 2016-06-09 サムスン エレクトロニクス カンパニー リミテッド 高周波数帯域幅拡張のための符号化/復号化装置及びその方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0617447A2 (pt) * 2005-10-14 2012-04-17 Matsushita Electric Ind Co Ltd codificador de transformada e método de codificação de transformada
CA2701757C (en) * 2007-10-12 2016-11-22 Panasonic Corporation Vector quantization apparatus, vector dequantization apparatus and the methods
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US9716901B2 (en) * 2012-05-23 2017-07-25 Google Inc. Quantization with distinct weighting of coherent and incoherent quantization error

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11191739A (ja) * 1997-12-25 1999-07-13 Nippon Telegr & Teleph Corp <Ntt> 共役構造ベクトル量子化方法、その装置及びプログラム記録媒体
JP2001251192A (ja) * 2000-03-06 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 共役構造ベクトル量子化方法
JP2005258478A (ja) * 2005-06-06 2005-09-22 Matsushita Electric Ind Co Ltd 符号化装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5194950A (en) * 1988-02-29 1993-03-16 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
US7885809B2 (en) 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11191739A (ja) * 1997-12-25 1999-07-13 Nippon Telegr & Teleph Corp <Ntt> 共役構造ベクトル量子化方法、その装置及びプログラム記録媒体
JP2001251192A (ja) * 2000-03-06 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 共役構造ベクトル量子化方法
JP2005258478A (ja) * 2005-06-06 2005-09-22 Matsushita Electric Ind Co Ltd 符号化装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013538374A (ja) * 2010-09-15 2013-10-10 サムスン エレクトロニクス カンパニー リミテッド 高周波数帯域幅拡張のための符号化/復号化装置及びその方法
US9183847B2 (en) 2010-09-15 2015-11-10 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding signal for high frequency bandwidth extension
JP2017076133A (ja) * 2010-09-15 2017-04-20 サムスン エレクトロニクス カンパニー リミテッド 高周波数帯域幅拡張のための符号化/復号化装置及びその方法
US9837090B2 (en) 2010-09-15 2017-12-05 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding signal for high frequency bandwidth extension
JP2018120236A (ja) * 2010-09-15 2018-08-02 サムスン エレクトロニクス カンパニー リミテッド 高周波数帯域幅拡張のための符号化/復号化装置及びその方法
US10152983B2 (en) 2010-09-15 2018-12-11 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high frequency bandwidth extension
US10418043B2 (en) 2010-09-15 2019-09-17 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding signal for high frequency bandwidth extension
JP2016105174A (ja) * 2010-12-29 2016-06-09 サムスン エレクトロニクス カンパニー リミテッド 高周波数帯域幅拡張のための符号化/復号化装置及びその方法
US10453466B2 (en) 2010-12-29 2019-10-22 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high frequency bandwidth extension
US10811022B2 (en) 2010-12-29 2020-10-20 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high frequency bandwidth extension

Also Published As

Publication number Publication date
US7873514B2 (en) 2011-01-18
WO2008021185A2 (en) 2008-02-21
WO2008021185A3 (en) 2008-04-17
US20080040107A1 (en) 2008-02-14

Similar Documents

Publication Publication Date Title
JP5658307B2 (ja) ディジタルメディアの効率的コーディング用のバンドを入手するための周波数セグメント化
JP5456310B2 (ja) ディジタル・メディア・スペクトル・データの効率的コーディングに使用される辞書内のコードワードの変更
US9171550B2 (en) Context-based arithmetic encoding apparatus and method and context-based arithmetic decoding apparatus and method
JP4963498B2 (ja) 非典型的な部分系列に関する部分情報を用いた音声及びオーディオ符号化パラメータの量子化
US7433824B2 (en) Entropy coding by adapting coding between level and run-length/level modes
US7822601B2 (en) Adaptive vector Huffman coding and decoding based on a sum of values of audio data symbols
CN101601087B (zh) 用于编码和解码的设备
US20070168197A1 (en) Audio coding
WO2006054583A1 (ja) オーディオ信号符号化装置および方法
US20130114733A1 (en) Encoding method, decoding method, device, program, and recording medium
JP2010500819A (ja) 複数の量子化パターンの効率的な知覚的関連検索による音声及びオーディオを量子化するための方法
JP7257965B2 (ja) デジタルオーディオ信号における差分データ
JP2017227904A (ja) 符号化方法、符号化装置、プログラム、および記録媒体
US9425820B2 (en) Vector quantization with non-uniform distributions
JP4639073B2 (ja) オーディオ信号符号化装置および方法
US20130101028A1 (en) Encoding method, decoding method, device, program, and recording medium
EP2372699B1 (en) Coding of audio or video samples using multiple quantizers
WO2022201632A1 (ja) 符号化装置、復号装置、符号化方法、及び、復号方法
WO2023100494A1 (ja) 符号化装置、復号装置、符号化方法、及び、復号方法
KR20230127716A (ko) 백색 잡음 모델링을 이용한 오디오 코덱 설계 및 테스트 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110628

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111025