JP5283046B2 - ピーク検出に基づく選択的スケーリングマスク計算 - Google Patents

ピーク検出に基づく選択的スケーリングマスク計算 Download PDF

Info

Publication number
JP5283046B2
JP5283046B2 JP2011543540A JP2011543540A JP5283046B2 JP 5283046 B2 JP5283046 B2 JP 5283046B2 JP 2011543540 A JP2011543540 A JP 2011543540A JP 2011543540 A JP2011543540 A JP 2011543540A JP 5283046 B2 JP5283046 B2 JP 5283046B2
Authority
JP
Japan
Prior art keywords
vector
signal
gain
acoustic
acoustic signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011543540A
Other languages
English (en)
Other versions
JP2012514224A (ja
Inventor
ピー. アシュリー、ジェームズ
ミタル、ウダー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Original Assignee
Motorola Mobility LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Mobility LLC filed Critical Motorola Mobility LLC
Publication of JP2012514224A publication Critical patent/JP2012514224A/ja
Application granted granted Critical
Publication of JP5283046B2 publication Critical patent/JP5283046B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、一般的に、通信システムに関し、特に、そのような通信システムにおける音声及び音響信号の符号化に関する。
参照関連出願
本出願は、モトローラ社が本出願と共に共同所有する以下の米国出願に関連する。出願第12/345165号、表題「マルチチャネル音響符号化システム内において拡張レイヤを生成するための方法及び装置」(代理人整理No.CS36250AUD)、出願第12/345141号、表題「ピーク検出に基づく選択的スケーリングマスク計算」(代理人整理No.CS36251AUD)、及び出願第12/345117号、表題「マルチチャネル音響符号化システム内において拡張レイヤを生成するための方法及び装置」(代理人整理No.CS36627AUD)。これらは、全て2008年12月29日同一日に本明細書と共に出願されたものである。
デジタル音声及び音響信号の圧縮は知られている。圧縮には、一般的に、通信チャネルを介した効率的な信号の送信や、固体メモリ装置又はコンピュータハードディスク等のデジタル媒体装置への圧縮信号の記憶が必要である。多くの圧縮(又は「符号化」)技法があるが、デジタル音声符号化において極めて一般的である1つの方法は、符号励振線形予測(CELP)として知られるものである。これは、「合成による解析(analysis−by−synthesis)」符号化アルゴリズムの系統の1つである。一般的に、合成による解析とは、符号化処理を意味し、これによって、デジタルモデルの多数のパラメータを用いて、一組の候補信号が合成され、これら候補信号は、入力信号と比較され、歪みについて解析される。そして、最小歪みを生成する一組のパラメータが、送信又は記憶され、最終的に、元の入力信号の推定値を復元するために用いられる。CELPは、コードブック・インデックスに応じてコードブックから読み出される各々本質的に複数組のコードベクトルを含む1つ又は複数のコードブックを用いる特定の合成による解析法である。
最近のCELPコーダでは、適度に低いデータレートで高品質の音声及び音響再生を維持するには、問題がある。このことは、特に、CELP音声モデルへの適合が良くない音楽又は他の一般的な音響信号に当てはまる。この場合、モデル不整合が、そのような方法を用いる設備のエンドユーザにとって容認できない著しい音響品質の低下を招くことがある。従って、特に、音楽及び他の非音声タイプ入力装置のために、低ビットレートでのCELPタイプ音声コーダの性能改善のニーズがある。
従来技術による埋め込み式音声/音響圧縮システムのブロック図。 図1の拡張レイヤ・エンコーダの更に詳細な例を示す図。 図1の拡張レイヤ・エンコーダの更に詳細な例を示す図。 拡張レイヤ・エンコーダ及びデコーダのブロック図。 多レイヤ埋め込み式符号化システムのブロック図。 レイヤ4エンコーダ及びデコーダのブロック図。 図4及び図6のエンコーダの動作を示すフローチャート。 従来技術による埋め込み式音声/音響圧縮システムのブロック図。 図8の拡張レイヤ・エンコーダの更に詳細な例を示す図。 様々な実施形態に基づく拡張レイヤ・エンコーダ及びデコーダのブロック図。 様々な実施形態に基づく拡張レイヤ・エンコーダ及びデコーダのブロック図。 様々な実施形態に基づく多チャネル音響信号符号化のフローチャート。 様々な実施形態に基づく多チャネル音響信号符号化のフローチャート。 様々な実施形態に基づく多チャネル音響信号の復号化のフローチャート。 様々な実施形態によるマスク生成に基づくピーク検出の周波数グラフ。 様々な実施形態に基づくピークマスク生成を用いたコアレイヤスケーリングの周波数グラフ。 様々な実施形態によるピーク検出に基づくマスク生成を用いた符号化及び復号化のための方法論を示すフロー図。 様々な実施形態によるピーク検出に基づくマスク生成を用いた符号化及び復号化のための方法論を示すフロー図。 様々な実施形態によるピーク検出に基づくマスク生成を用いた符号化及び復号化のための方法論を示すフロー図。
添付図では、別々の全ての図において、同様な参照数字が、同じ又は機能的に同様な要素を指す。これらの図は、下記詳細な説明と共に明細書に組み込まれ、その一部を形成し、そして、本発明が含まれる概念の様々な実施形態を示す役割も果たし、また、それら実施形態の様々な原理や利点について説明する役割も果たす。
当業者は、図の要素が、簡単明瞭化のために示されており、必ずしも縮尺通りに描かれていないことを認識されるであろう。例えば、図の要素には、様々な実施形態の理解を改善する一助とするために、他の要素と比較して寸法を誇張したものがある。更に、説明及び図面は、例示された順番を必ずしも必要とするとは限らない。更に、或るアクション及び/又はステップについて、特定の発生順番での記述又は描写があり得ることを認識されるであろうが、当業者は、そのような順序に対する特殊性は、実際には必要でないことを理解されたい。装置及び方法の構成要素は、適宜、慣例的な記号で図面に示すが、本明細書の説明の利益を有する当業者にとって容易に識別できる細目で本開示を不明瞭にしないように、様々な実施形態の理解に関連する特定の詳細項目のみを示す。従って、図を簡単明瞭にする目的のために、実用的に実現可能な実施形態において有用な又は必要な周知の要素は、これらの様々な実施形態の閲覧を妨げないために、描写しないことを認識されたい。
上記ニーズに対処するために、音響符号化システム内において拡張レイヤを生成するための方法及び装置について、本明細書に述べる。動作中、符号化される入力信号を受信し符号化して、符号化音響信号を生成する。そして、符号化音響信号を複数の利得値で変倍して、各々対応する利得値を有する複数の変倍した符号化音響信号を生成し、また、入力信号と各変倍した符号化音響信号との間に存在する複数の誤差値を求める。そして、入力信号と変倍した符号化音響信号との間に存在する低誤差値になる変倍した符号化音響信号に対応する利得値を選択する。最後に、符号化音響信号に対する拡張レイヤの一部として低誤差値を利得値と共に送信する。
従来技術による埋め込み式音声/音響圧縮システムを図1に示す。入力音響信号s(n)は、まず、コアレイヤ・エンコーダ110によって処理され、これは、これらの目的のために、CELPタイプ音声符号化アルゴリズムであってよい。符号化されたビットストリームは、チャネル125に送信されると共に、ローカルコアレイヤ・デコーダ115に入力され、ここで、再生コア音響信号s(n)が生成される。次に、拡張レイヤ・エンコーダ120を用いて、信号s(n)及びs(n)の何らかの比較に基づく追加情報を符号化し、また、オプションとして、コアレイヤ・デコーダ115からのパラメータを用いてもよい。コアレイヤ・デコーダ115と同様に、コアレイヤ・デコーダ130は、コアレイヤ・ビットストリーム・パラメータをコアレイヤ出力音響信号(下式。以下、^s(n)と表記)に変換する。
Figure 0005283046
そして、拡張レイヤデコーダ135は、チャネル125からの拡張レイヤ・ビットストリーム及び信号^s(n)を用いて、拡張出音響信号(下式。以下、^s(n)と表記)を生成する。
Figure 0005283046
定のチャネル125が、高品質音響符号化アルゴリズムに対応した帯域幅要件を一貫してサポートし得ないことある。しかしながら、埋め込み式コーダによって、チャネル125から一部のビットストリーム(例えば、コアレイヤ・ビットストリームだけ)を受信して、例えば、拡張レイヤ・ビットストリームが消失又は破損した場合、コア出力音響だけを生成し得る。しかしながら、埋め込み式と非埋め込み式コーダとの間には、更に、異なる埋め込み式符号化最適化対象間には、品質のトレードオフがある。即ち、より高い品質拡張レイヤ符号化は、コアと拡張レイヤとの間のより良いバランスの達成や、拡張レイヤのパケットエラーレートの低下につながる送信特性改善(例えば、輻輳の低減)のための全体的なデータレートの低減を支援し得る。
従来技術による拡張レイヤ・エンコーダ120の更に詳細な例を図2に示す。ここで、誤差信号発生器210は、誤差信号エンコーダ220による処理のために、重み付けされた差信号をMDCT(変形離散コサイン変換)領域に変換する。誤差信号Eは、下式で与えられる。
Figure 0005283046
上式において、Wは、コアレイヤ・デコーダ115からのLP(線形予測)フィルタ係数A(z)に基づく知覚重み付け行列、sは、入力音響信号s(n)からのサンプルのベクトル(即ち、フレーム)、s (n)は、コアレイヤ・デコーダ115からのサンプルの対応するベクトルである。MDCT処理の例については、ITU−T勧告G.729.1に記載されている。そして、誤差信号Eは、誤差信号エンコーダ220によって処理され、符号語iを生成し、その後、チャネル125に送信される。この例の場合、留意すべき重要なことは、誤差信号エンコーダ220は、1つの誤差信号Eだけが提示され、1つの対応する符号語iが出力されることである。この理由は、後で明らかになる。
そして、拡張レイヤデコーダ135は、符号化されたビットストリームをチャネル125から受信し、ビットストリームを適切に多重分離して、符号語iを生成する。誤差信号デコーダ230は、符号語iを用いて、拡張レイヤ誤差信号(下式。以下、^Eと表記)を復元する。
Figure 0005283046
そして、拡張レイヤ誤差信号は、信号結合器240によって、コアレイヤ出力音響信号^s(n)と下式のように組み合わせられ、拡張出力音響信号^s(n)が生成される。
Figure 0005283046
上式において、MDCT−1は、MDCTの逆数(重複加算を含む)であり、W−1は、知覚重み付け行列の逆数である。
拡張レイヤ・エンコーダの他の例を図3に示す。ここで、誤差信号発生器315による誤差信号Eの生成には、適応プリスケーリングを伴うが、この場合、コアレイヤ出音響信号(n)に対する何らかの修正が行われる。この処理により、幾つかの数のビットが生成されるが、これらは、拡張レイヤ・エンコーダ310に符号語iとして示される。
更に、拡張レイヤ・エンコーダ310は、入力音響信号s(n)及び変換されたコアレイヤ出力音響Sが、誤差信号エンコーダ320に入力されることを示す。これらの信号は、拡張レイヤ誤差信号Eの符号化改善のための心理音響学的モデルを構築するために用いられる。そして、符号語i及びiは、マルチプレクサ(MUX)325によって多重化され、そして、チャネル125に送られ、引き続き、拡張レイヤデコーダ330により復号される。符号化ビットストリームは、デマルチプレクサ(DEMUX)335によって受信され、これによりビットストリームが成分i及びiに分離される。そして、符号語iは、誤差信号デコーダ340によって用いられ、拡張レイヤ誤差信号^Eが復元される。信号結合器345は、符号語を用いて、何らかの方法で信号^s(n)を変倍し、そして、その結果を拡張レイヤ誤差信号^Eと組み合わせて、拡張出力音響信号^s(n)を生成する。
形態を図4に示す。この図は、拡張レイヤ・エンコーダ410が、スケーリングユニット415によってコアレイヤ出力信号s(n)を受信することを示す。所定の組の利得{g}を用いて、複数の変倍されたコアレイヤ出力音響信号{S}が生成されるが、この場合、g及びSは、それぞれの組のj番目の候補である。第1形態の場合、スケーリングユニット415内では、信号s(n)が、(MDCT)領域において、次のように処理される。
Figure 0005283046
上式において、Wは、何らかの知覚重み付け行列であってよく、sは、コアレイヤ・デコーダ115からのサンプルのベクトルであり、MDCTは、当分野で知られている演算であり、Gは、利得ベクトル候補gを利用することによって形成される利得行列であってよく、Mは、利得ベクトル候補の数である。第1形態では、多くの可能性が存在するが、Gは、ベクトルgを対角成分(diagonal)として用い、ゼロをそれ以外の全てに用いる(即ち、対角行列)。例えば、Gは、帯行列であってよく、又は、単純なスカラー量に恒等行列Iを乗算したものであってもよい。他の選択肢として、信号Sを時間領域に残すことには、何らかの利点が存在し得る。又は、離散フーリエ変換(DFT)領域等の異なる領域に音響を変換すると有益な場合がある。多くのそのような変換が、当分野で知られている。これらの場合、スケーリングユニットは、それぞれのベクトル領域に基づき、適切なSを出力し得る。
しかしながら、いずれにせよ、コアレイヤ出力音響を変倍する最大の理由は、入力信号とコアレイヤコーデックとの間の大幅な差異を引き起こし得るモデル不整合(又は何らかの他の符号化欠陥)を補正するためである。例えば、入力音響信号が、本来、音楽信号であり、コアレイヤコーデックが、音声モデルに基づく場合、コアレイヤ出力は、極度に歪んだ信号特性を含むことがあり、この場合、音声品質の観点から、1つ又は複数の拡張レイヤを経由した補足的信号符号化を適用する前に、この信号成分のエネルギを選択的に低減することが有益である。
次に、利得変倍されたコアレイヤ音響候補ベクトルS及び入力音響s(n)は、誤差信号発生器420への入力として用いられ得る。代表的な形態では、入力音響信号s(n)は、S及びSがそれ相応に整合するように、ベクトルSに変換される。即ち、s(n)を表すベクトルsは、sと時間(位相)整合され、また、第1の形態では、下式のように、対応する演算を適用し得る。
Figure 0005283046
この式は、入力音響とMDCTスペクトル領域の利得変倍されたコアレイヤ出力音響との間の重み付けされた差異を表す複数の誤差信号ベクトルEを生成する。異なる領域を考慮する他の形態では、上式は、それぞれの処理領域に基づき、修正し得る。
次に、利得セレクタ425は、第形態に基づき、複数の誤差信号ベクトルEを評価するために用いられ、最適な誤差ベクトルE、最適な利得パラメータg、その後、対応する利得インデックスiを生成する。利得セレクタ425は、様々な方法を用いて、最適なパラメータE及びgを求め得るが、これらの方法には、閉ループ法(例えば、歪み計量値の最小化)、開ループ法(例えば、ヒューリスティック分類、モデル性能推定、等)、又は両方法の組合せを含んでよい。例示の形態では、偏りのある歪み計量値を用い得るが、これは、元の音響信号ベクトルSと複合再生信号ベクトルとの間の偏りのあるエネルギ差として、下式の如く与えられる。
Figure 0005283046
上式において、^Eは、誤差信号ベクトルEの定量化された推定値であってよく、βは、知覚的に最適な利得誤差インデックスjを選択する判断を補うために用いる偏り項であってよい。信号ベクトルのベクトル量子化のための代表的な方法は、他の多くの方法が可能であるが、米国特許出願第11/531122号明細書、表題「信号の低複雑性組み合わせ符号化のための装置及び方法(Apparatus and Method for Low Complexity Combinatorial Coding
of Signals)」に記載されている。E=S−Sであることを認識すると、式(5)は、次のように書き換えられる。
Figure 0005283046
この式において、下記項
Figure 0005283046
は、非量子化誤差信号と量子化誤差信号との間の差のエネルギを表す。理解しやすいように、この量は、「残留エネルギ」と称してもよく、また更に、「利得選択判断基準」を評価するために用いてよく、この場合、最適な利得パラメータgが選択される。多くのものが可能であるが、1つのそのような利得選択判断基準は、式(6)において与えられる。
偏り項βの必要性は、式(3)及び(4)の誤差重み付け関数Wが、ベクトル^E全体において同等に知覚可能な歪みを適切に生成できない場合に生じ得る。例えば、誤差重み付け関数Wは、誤差スペクトルを或る程度まで「良く見せる」ために試しに用いてよいが、人間の耳による歪みの知覚により、低周波数に対する重み付けを大きくすることには、何らかの利点が存在し得る。低周波数に対して誤差重み付けを大きくした結果、高周波信号は、拡張レイヤによってはモデル化が不十分なことがある。これらの場合、Sの高周波成分を減衰しないgの値側に歪み計量値を偏らせることには、直接的な利益があり、この結果、高周波数のモデル化が不十分あっても、最終的な再生音響信号では、不快な又は不自然な響きのアーティファクトになることはない。1つのそのような例は、無声音声信号の事例である。この場合、入力音響は、一般的に、人の口からの空気の乱流から生成された中乃至高周波数雑音のような信号から構成されている。コアレイヤ・エンコーダは、この種類の波形を直接符号化しないことがあるが、雑音モデルを用いて、同様な響きの音響信号を生成し得る。これによって、入力音響とコアレイヤ出力音響信号との間の相関関係は、一般的に、小さくなることがある。しかしながら、第1の形態では、誤差信号ベクトルEは、入力音響とコアレイヤ音響出力信号との間の差異に基づく。これらの信号は、互いにあまり良好に関係付けられないことから、誤差信号Eのエネルギは、必ずしも入力音響又はコアレイヤ出力音響のいずれかより小さいとは限らない。その場合、式(6)の誤差を最小化すると、利得スケーリングが大胆になり過ぎることがあり、これにより、可聴アーティファクトの可能性が生じる。
他の場合、偏り係数βjは、入力音響及び/又はコアレイヤ出力音響信号の他の信号特性に基づいてよい。例えば、信号のスペクトルのピーク対平均値比は、その信号の高調波コンテンツの表示を与え得る。音声や或る種類の音楽等の信号は、高い高調波コンテンツ、従って、高ピーク対平均値比を有し得る。しかしながら、音声コーデックにより処理された音楽信号は、符号化モデル不整合により品質が悪化することがあり、その結果、コアレイヤ出力信号スペクトルは、入力信号スペクトルと比較して、ピーク対平均値比が減少することがある。この場合、コアレイヤ出力音響を低いエネルギに利得変倍し、これによって、拡張レイヤ符号化の複合出力音響に対する効果がもっと顕著になるように、最小化処理において偏りの量を低減することは有益であり得る。逆に、或る種類の音声又は音楽入力信号は、より小さいピーク対平均値比を呈し得るが、この場合、信号は、もっと雑音のあるものとして知覚されることがあり、従って、誤差偏りを大きくすることによって、コアレイヤ出力音響のスケーリングを小さくすることから利益を得ることができる。βの偏り係数を生成する関数の例は、下式で与えられる。
Figure 0005283046
上式において、λは、何らかのしきい値であってよく、ベクトルΦのピーク対平均値比は、下式で与えられる。
Figure 0005283046
上式において、
Figure 0005283046
(以下、Yk1k2と表記)は、y(k)のベクトル部分集合であり、Yk1k2=y(k);k≦k≦kである。
最適な利得インデックスjが式(6)から求められると、対応する符号語iが生成され、また、最適な誤差ベクトルEが、誤差信号エンコーダ430に送られ、ここで、Eは、他の符号語と共に(MUX435による)多重化に適した形式に符号化されて送信され、対応するデコーダによって用いられる。代表的な形態では、誤差信号エンコーダ408は、階乗パルス符号化(FPC)を用いる。この方法は、ベクトルEの符号化に関連した計数処理が、^Eを生成するために用いられるベクトル生成処理から独立していることから、処理の複雑さの観点から有益である。
拡張レイヤデコーダ450は、これらの処理を反転して、拡張出力音響信号^s(n)を生成する。更に、具体的には、i及びiは、デコーダ450によって受信され、iは、DEMUX455によって、誤差信号デコーダ460に送られ、そこで、最適な誤差ベクトルEが、符号語から導出される。最適な誤差ベクトルEは、信号結合器465に渡され、そこで、受信された^s(n)は、式(2)でのように修正され、^s(n)が生成される。
形態は、図5に示す多レイヤ埋め込み式符号化システムを伴う。ここで、この例のために与えられた5つの埋め込み式レイヤがあることが分かる。レイヤ1及び2は、双方共、音声コーデックベースであってよく、レイヤ3、4、及び5は、MDCT拡張レイヤであってよい。従って、エンコーダ502及び504は、音声コーデックを利用して、符号化された入力信号s(n)を生成し、出力し得る。エンコーダ510、610、及び514には、拡張レイヤ・エンコーダが含まれ、各々、符号化信号に異なる拡張を出力する。前述の形態と同様、レイヤ3(エンコーダ510)誤差信号ベクトルは、下式で与えることができる。
Figure 0005283046
上式において、S=MDCT{Ws}は、重み付けされ変換された入力信号であり、S=MDCT{Ws}は、重み付けされ変換された信号であり、レイヤ1/2デコーダ506から生成された信号である。本形態において、レイヤ3は、低レート量子化レイヤであってよく、そして、このように、対応する量子化された誤差信号^E=Q{E}を符号化するためのビットは比較的少ないことがある。これらの制約条件下で良好な品質を提供するために、E内の係数の一部だけを量子化してよい。符号化される係数の位置は、固定又は変動してよいが、変動が許される場合、これらの位置を識別するために、デコーダに追加情報を送る必要があることがある。例えば、符号化位置の範囲がkで始まりkで終わり、0≦k<k<Nである場合、量子化された誤差信号ベクトル^Eは、その範囲内だけにおいてゼロ以外の値を含み、その範囲外の位置ではゼロを含み得る。位置及び範囲情報は、用いられる符号化方法に依存して、非明示的であってもよい。例えば、音響符号化においては、周波数の帯域が、知覚的に重要であるとみなされ、また、信号ベクトルの符号化が、それらの周波数に集中することは知られている。これらの状況では、符号化範囲は、変動する可能性があり、連続した組の周波数に跨らないことがある。しかしながら、いずれにしても、この信号が量子化されると、複合符号化出力スペクトルは、下式のように構成し得る。
Figure 0005283046
これは、次に、レイヤ4エンコーダ610への入力として用いられる。
レイヤ4エンコーダ610は、前述の形態の拡張レイヤ・エンコーダ410と同様である。利得ベクトル候補gを用いて、対応する誤差ベクトルは、下式のように記述し得る。
Figure 0005283046
上式において、Gは、ベクトルgを対角要素として備えた利得行列であってよい。しかしながら、本形態では、利得ベクトルgは、以下の通り、量子化された誤差信号ベクトル^Eに関係し得る。量子化された誤差信号ベクトル^Eは、例えば、ベクトル位置kで始まりベクトル位置kで終わる周波数範囲を限定し得ることから、レイヤ3出力信号Sは、その範囲内において極めて正確に符号化されると推定される。従って、本発明により、利得ベクトルgは、レイヤ3誤差信号ベクトルの符号化位置k及びkに基づき、調整される。具体的には、それらの位置において信号完全性を保持するために、対応する個々の利得要素は、下式のように、一定値αに設定してよい。
Figure 0005283046
上式において、一般的に、0≦γ(k)≦1であり、g(k)は、j番目の候補ベクトルのk番目の位置の利得である。代表的な形態では、定数の値は1(α=1)であるが、多くの値が可能である。更に、周波数範囲は、複数の開始及び終了位置を跨ってよい。即ち、式(12)は、誤差信号^Eの何らかの関数に基づく変動利得の非連続範囲に分化してよく、より一般的には、以下のように表現し得る。
Figure 0005283046
この例の場合、既に量子化された誤差信号^Eの対応する位置がゼロ以外である場合、固定利得αが、g(k)を生成するために用いられ、^Eの対応する位置がゼロである場合、利得関数γ(k)が、用いられる。1つの可能な利得関数は、下式で定義し得る。
Figure 0005283046
上式において、Δは、ステップサイズ(例えば、Δ≒2.2dB)であり、αは、定数であり、Mは、候補の数であり(例えば、M=4であり、これは、2ビットだけを用いて表し得る)、k及びkは、それぞれ低及び高遮断周波数であり、これらに対して利得低減が行われる。パラメータk及びkの導入は、スケーリングが、或る周波数範囲においてのみ望まれるシステムでは、有用である。例えば、或る形態では、高い周波数は、コアレイヤによって適切にモデル化されない可能性があり、従って、高い周波数帯内のエネルギは、入力音響信号のそれより本質的に小さい可能性がある。その場合、全体的な誤差エネルギが、結果的に増大し得ることから、その範囲の信号におけるレイヤ3出力のスケーリングからは、ほとんど又は全く利益が無いことがある。
要約すると、複数の利得ベクトル候補gは、既に符号化された信号ベクトル、この場合、^Eの符号化要素の何らかの関数に基づく。このことは、一般的には、下式で表現できる。
Figure 0005283046
対応するデコーダ動作は、図5の右側に示す。様々なレイヤの符号化ビットストリーム(i乃至i)が受信されるにつれて、より高い品質の出力信号が、コアレイヤ(レイヤ1)デコーダを介して拡張レイヤの階層に構築される。即ち、この特定の形態の場合、最初の2つのレイヤは、時間領域音声モデル符号化(例えば、CELP)から構成され、残りの3つのレイヤは、変換領域符号化(例えば、MDCT)から構成されるため、システムの最終的な出力^s(n)は、下式に従って生成される。
Figure 0005283046
上式において、
Figure 0005283046
(以下、^e(n)と表記)は、レイヤ2時間領域拡張レイヤ信号であり、
Figure 0005283046
(以下、上式の左辺は、^Sと表記する。尚、以下、本表記において、添え字がxの場合、^Sと表現し、添え字が無い場合、^Sと表現する)は、レイヤ2出音響信号^s(n)に対応する重み付けされたMDCTベクトルである。この式において、全体的な出力信号^s(n)は、受信される連続したビットストリームレイヤの最も高いレベルから求めることができる。本形態では、下位レベルレイヤが、チャネルから適切に受信される確率がより高く、従って、符号語集合、{i}、{i}、{i}等は、式(16)における拡張レイヤ復号の適切なレベルを決定すると仮定している。
図6は、レイヤ4エンコーダ610及びデコーダ650を示すブロック図である。図6に示すエンコーダ及びデコーダは、スケーリングユニット615及び670によって用いられる利得値が、それぞれ周波数選択利得発生器630及び660を介して導出されることを除き、図4に示すものと同様である。動作中、レイヤ3出音響信号は、レイヤ3エンコーダから出力され、スケーリングユニット615によって受信される。更に、レイヤ3誤差ベクトル^Eは、レイヤ3エンコーダ510から出力され、周波数選択利得発生器630によって受信される。上述したように、量子化された誤差信号ベクトル^Eは、周波数範囲を限定し得ることから、利得ベクトルgは、例えば、式12に示す位置k及びkに基づき、又は式13のもっと一般的な式に基づき、調整される。
変倍された音響Sは、スケーリングユニット615から出力され、誤差信号発生器620によって受信される。上述したように、誤差信号発生器620は、入力音響信号Sを受信し、スケーリングユニット615によって用いられる各スケーリングベクトルの誤差値Eを求める。これらの誤差ベクトルは、最適な利得値gに基づき誤差ベクトル及び特定の誤差Eを求める際に用いられる利得値と共に利得セレクタ635に渡される。最適な利得gを表す符号語(i)は、最適な誤差ベクトルEと共に、利得セレクタ635から出力され、誤差信号エンコーダ640に渡され、そこで、符号語iが決定され、出力される。i及びiは、双方共、多重化装置645に出力され、チャネル125を介して、レイヤ4デコーダ650に送信される。
レイヤ4デコーダ650の動作中、i及びiは、チャネル125から受信され、DEMUX655によって多重分離される。利得符号語i及びレイヤ3誤差ベクトル^Eは、周波数選択利得発生器660への入力として用いられ、エンコーダ610の対応する方法に基づき利得ベクトルgを生成する。次に、利得ベクトルgは、スケーリングユニット670内においてレイヤ3再生音響ベクトル^Sに適用され、そして、その出力は、符号語iの復号により誤差信号デコーダ655から得られたレイヤ4拡張レイヤ誤差ベクトルEと信号結合器675において組み合わせられ、図示したように、レイヤ4再生出音響信号^Sを生成する。
図7は、本発明の第1及び第2実施形態によるエンコーダの動作を示すフローチャート700である。上述したように、両実施形態は、符号化された音響を複数のスケーリング値で変倍して、誤差が最も小さくなるスケーリング値を選択する拡張レイヤを利用する。しかしながら、本発明の第2実施形態では、利得値を生成するために、周波数選択利得発生器630を用いる。
論理フローは、ブロック710で始まり、ここで、コアレイヤ・エンコーダは、符号化される入力信号を受信し、その入力信号を符号化して、符号化音響信号を生成する。拡張レイヤ・エンコーダ410は、符号化音響信号(s(n))を受信し、スケーリングユニット415は、複数の利得値で符号化音響信号を変倍して、各々対応する利得値を有する複数の変倍符号化音響信号を生成する(ブロック720)。ブロック730では、誤差信号発生器420は、入力信号と複数の各変倍符号化音響信号との間に存在する複数の誤差値を求める。次に、利得セレクタ425は、複数の利得値から1つの利得値を選択する(ブロック740)。上述したように、利得値(g)は、入力信号と変倍符号化音響信号との間に存在する低誤差値(E)になる変倍符号化音響信号に対応する。最後に、ブロック750において、送信器440は、符号化音響信号に対する拡張レイヤの一部として、利得値(g)と共に低誤差値(E)を送信する。当業者は認識されるように、E及びgは、双方共、送信に先立って、適切に符号化される。
上述したように、受信器側では、符号化音響信号が、拡張レイヤと共に受信される。拡張レイヤは、利得値(g)及び利得値に対応した誤差信号(E)が含まれる符号化音響信号に対する拡張である。
ステレオのためのコアレイヤスケーリング
上記説明において、各レイヤがモノラル信号を符号化している埋め込み式符号化システムについて述べた。次は、ステレオ又は他の多チャネル信号を符号化するための埋め込み式符号化システムである。説明を簡単にするために、2つの音響入力(供給源)からなるステレオ信号の文脈での技術について述べるが、本明細書に述べた代表的な実施形態は、多チャネル音響入力の場合のように、ステレオ信号が3つ以上の音響入力を有する場合に簡単に拡張し得る。制限ではなく説明の目的のために、2つの音響入力は、左側信号(s)及び右側信号(s)からなるステレオ信号であり、この場合、s及びsは、音響データのフレームを表すn次元列ベクトルである。更に、説明を簡単にするために、2つのレイヤ、即ち、コアレイヤ及び拡張レイヤからなる埋め込み式符号化システムについて詳細に説明する。提案した考え方は、多レイヤ埋め込み式符号化システムに簡単に拡張できる。更に、コーデックは、それ自体埋め込まれていない。即ち、1つのレイヤだけを有し得るが、そのコーデックの一部のビットは、ステレオ専用であり、他のビットは、モノラル信号専用である。
単にモノラル信号を符号化するコアレイヤと、より高い周波数又はステレオ信号のいずれかを符号化する拡張レイヤと、からなる埋め込み式ステレオコーデックが知られている。その限定された場面では、コアレイヤは、s及びsの組合せから得られたモノラル信号(1つ又は複数)を符号化して、符号化モノラル信号(下式。以下、^sと表記)
Figure 0005283046
を生成する。モノラル信号を生成するために用いる2×1組み合わせ行列をHとすると、次のようになる。
Figure 0005283046
尚、式(17)において、sは、単なる右側チャネル信号の代わりに、右側音響信号の遅延版であってもよい。例えば、遅延は、sと遅延版のsとの相関関係を最大にするように計算してよい。行列Hが[0.5 0.5]である場合、式17は、それぞれの右側及び左側チャネルが等しく重み付けされ、即ち、S=0.5s+0.5sになる。本明細書に提示された実施形態は、モノラル信号を符号化するコアレイヤ及びステレオ信号を符号化する拡張レイヤに限定されない。埋め込み式コーデックのコアレイヤ並びに拡張レイヤは、双方共、多チャネル音響信号を符号化し得る。コアレイヤ多チャネルによって符号化される多チャネル音響信号におけるチャネルの数は、拡張レイヤによって符号化し得る多チャネル音響信号におけるチャネルの数より少なくてよい。それぞれコアレイヤ及び拡張レイヤによって符号化されるチャネルの数を(m,n)とする。埋め込み式システムによって符号化されるn個の音響チャネルをs、s、s、…、sで表すものとする。コアレイヤによって符号化されるmチャネルは、これらから導出され、以下のように得られる。
Figure 0005283046
上式において、Hは、n×m行列である。
前述したように、コアレイヤは、モノラル信号sを符号化して、コアレイヤ符号化信号^sを生成する。^sからのステレオ成分の推定値を生成するために、バランス係数を計算する。このバランス係数は、以下のように算出する。
Figure 0005283046
組み合わせ行列Hが[0.5 0.5]であれば、下式を示すことができる。
Figure 0005283046
この比により、一方のパラメータだけを量子化することができ、他方は最初のものから簡単に抽出できることに留意されたい。ステレオ出力を次のように算出する。
Figure 0005283046
次節では、時間領域の代わりに周波数領域について論じる。従って、周波数領域の対応する信号は、大文字で表現する、即ち、S、^S、S、S、^S、^Sは、それぞれ、s、^s、s、s、^s、^sの周波数領域表現である。周波数領域のバランス係数は、周波数領域の項を用いて計算し、下式によって与えられる。
Figure 0005283046
及び
Figure 0005283046
周波数領域において、ベクトルは、更に、非重複サブベクトルに分割してよい。即ち、次元nのベクトルSは、次元m、m、…mのt個のサブベクトル、S、S、…、Sに分割してよく、下式のようになる。
Figure 0005283046
この場合、下式の如く、異なるサブベクトルについて異なるバランス係数を演算できる。
Figure 0005283046
本例のバランス係数は、利得の検討から独立している。
次に、図8及び9において、ステレオ及び他の多チャネル信号に該当する従来技術の図を示す。図8の従来技術による埋め込み式音声/音響圧縮システム800は、図1と同様であるが、本例では、複数の音響入力信号を左側及び右側ステレオ入力信号S(n)として示す。これらの入力音響信号は、結合器810に供給され、結合器810は、図示した入力音響s(n)を生成する。複数の入力信号は、更に、図示した拡張レイヤ・エンコーダ820に供給される。復号側では、拡張レイヤデコーダ830は、図示したように、拡張出力音響信号^s、^sを生成する。
図9は、図8において用い得る従来の拡張レイヤ・エンコーダ900を示す。複数の音響入力は、図示するように、コアレイヤ出力音響信号と共に、バランス係数発生器に供給される。拡張レイヤ・エンコーダ910のバランス係数発生器920は、複数の音響入力を受信して、信号iを生成し、信号iは、図示するように、MUX325に渡される。信号iは、バランス係数を表す。好適な実施形態では、iは、バランス係数を表すビットシーケンスである。デコーダ側では、この信号iは、バランス係数デコーダ940によって受信され、図示するように、デコーダ940は、バランス係数要素W(n)及びW(n)を生成し、これらは、図示するように、信号結合器950によって受信される。
多チャネルバランス係数計算
前述したように、多くの状況下で、モノラル信号の符号化に用いるコーデックは、単一チャネル音声用に構成されており、これにより、コーデックモデルによって完全にサポートされない信号の符号化に用いられる時はいつでも符号化モデル雑音を生じる。音楽信号及び他の非音声的信号は、音声モデルに基づくコアレイヤコーデックによって適切にモデル化されない一部の信号である。図1乃至7に関する上記説明は、コアレイヤによって符号化される信号への周波数選択利得の適用を提示した。スケーリングは、最適化され、音響入力と変倍された符号化信号との間の特定の歪み(誤差値)が最小になった。上述の手法は、単一チャネル信号については良好に機能するが、拡張レイヤがステレオ又は他の多チャネル信号を符号化している際、コアレイヤスケーリングを適用する場合には、最適でないことがある。
ステレオ信号等の多チャネル信号のモノラル成分は、2つ以上のステレオ音響入力の組合せから得られることから、組み合わせられた信号sも、単一チャネル音声モデルに適合せず、従って、組み合わせられた信号を符号化する時、コアレイヤコーデックは、雑音を生成することがある。従って、埋め込み式符号化システムでは、コアレイヤ符号化信号のスケーリングを可能にし、これによって、コアレイヤにより生成された雑音を低減する手法に対するニーズがある。上述したモノラル信号手法では、特定の歪みの尺度(これに基づき、周波数選択的スケーリングが得られた)は、モノラル信号の誤差に基づく。この誤差E(j)を上式(11)に示す。しかしながら、モノラル信号だけの歪みは、ステレオ通信システムの品質改善には充分でない。式(11)に含まれるスケーリングは、1のスケーリング係数による又はいずれか他の個別の関数によるものであってよい。
ステレオ信号の場合、歪みの尺度は、右側及び左側チャネル双方の歪みを取り込むべきである。それぞれ左側及び右側チャネルの誤差ベクトルをE及びEとすると、E及びEは、下式で与えられる。
Figure 0005283046
従来技術において、AMR−WB+標準規格において述べたように、例えば、これらの誤差ベクトルは、以下のように算出される。
Figure 0005283046
次に、周波数選択利得ベクトルg(0≦j<M)が、^Sに適用される場合について考える。この周波数選択利得ベクトルは、Gとして行列形式で表され、この場合、Gは、対角要素gの対角行列である。各ベクトルGについて、誤差ベクトルは、次のように計算される。
Figure 0005283046
上式において、ステレオ信号の推定値は、項W・G・^Sによって与えられる。利得行列Gは、単位行列又はいずれか他の対角行列であってよいことが分かり、可能な推定値全てが、全変倍信号の候補となるわけではないことが認識される。
ステレオの品質を改善するために最小化される歪みの尺度εは、下式のように、2つの誤差ベクトルの関数である。
Figure 0005283046
歪みの値は、複数の歪み尺度で構成されていることが分かる。
選択される周波数選択利得ベクトルのインデックスjは、下式で与えられる。
Figure 0005283046
代表的な実施形態では、歪みの尺度は、下式で与えられる歪みである。
Figure 0005283046
又は、下式で与えられる重み付けされた又は偏りのある歪みであってよい。
Figure 0005283046
偏りB及びBは、左側及び右側チャネルエネルギの関数であってよい。
前述したように、周波数領域では、ベクトルは、更に非重複サブベクトルに分割し得る。提案された技法を拡張して、周波数領域ベクトルのサブベクトルへの分割を含むようにするために、(27)に用いられるバランス係数を各サブベクトルについて計算する。従って、各周波数選択利得の誤差ベクトルE及びEは、下式で与えられる誤差サブベクトルの連結によって形成される。
Figure 0005283046
(28)における歪みの尺度εは、今や、上記誤差サブベクトルの連結によって形成された誤差ベクトルの関数である。
バランス係数の算出
従来技術を用いて生成されたバランス係数(式21)は、コアレイヤの出力から独立している。しかしながら、(30)及び(31)において与えられた歪みの尺度を最小化するために、対応する歪みを最小化するバランス係数の算出が有益なことがある。次に、バランス係数W及びWは、下式のように算出し得る。
Figure 0005283046
上式において、バランス係数は、例えば、図11の図面に示すように、利得から独立していることが分かる。この式は、式(30)及び(31)における歪みを最小化する。そのようなバランス係数を用いることの問題は、今や下式で示す通りである。
Figure 0005283046
従って、W及びWを量子化するために別々のビットフィールドを必要とし得る。このことは、制約条件W(j)=2−W(j)を最適化に課すことによって回避し得る。この制約条件により、式(30)の最適解が、下式で与えられる。
Figure 0005283046
上式において、バランス係数は、図示するように、利得項に依存し、図面中の図10は、従属バランス係数を示す。偏り係数B及びBが1である場合、下式が成立する。
Figure 0005283046
式(33)及び(36)における項S^Sは、変倍符号化音響信号と多チャネル音響信号の複数の音響信号のうちの少なくとも1つとの間の相関値を表す。
ステレオ符号化において、音声の起点の方向及び位置は、平均平方歪みよりも重要なことがある。左側チャネルエネルギ及び右側チャネルエネルギの比は、従って、重み付けされた歪みの尺度を最小化することよりもむしろ、方向(又は音声の起点の位置)のより良い指標であり得る。そのような場面では、式(35)及び(36)で算出されたバランス係数は、バランス係数を計算するための良い方法ではあり得ない。必要なことは、符号化前後での左側及び右側チャネルエネルギの比を同じに維持することである。符号化前及び符号化後のチャネルエネルギの比は、それぞれ下式で与えられる。
Figure 0005283046
これらの2つのエネルギ比を等しいとし、また、仮定W(j)=2−W(j)を用いると、下式を得る。
Figure 0005283046
上式は、生成されたバランス係数のバランス係数成分を与える。(38)で算出したバランス係数は、今やGから独立しており、従って、もはやjの関数ではなく、利得の検討から独立した自己相関バランス係数を提供することに留意されたい。従属バランス係数は、図面中の図10にも示す。この結果を式29及び32に用いると、最適なコアレイヤ・スケーリング・インデックスjの選択を拡張して、連結されたベクトル・セグメントkを含むことができ、下式が成立する。
Figure 0005283046
これは、最適な利得値の式である。この利得値j*のインデックスは、拡張レイヤ・エンコーダの出力信号として送信される。
次に、図10において、様々な実施形態に基づく拡張レイヤ・エンコーダ及び拡張レイヤデコーダのブロック図1000を示す。入力音響信号s(n)は、拡張レイヤ・エンコーダ1010のバランス係数発生器1050及び利得ベクトル発生器1020の誤差信号(歪み信号)発生器1030によって受信される。コアレイヤからの符号化音響信号^S(n)は、図示するように、利得ベクトル発生器1020のスケーリングユニット1025によって受信される。スケーリングユニット1025は、複数の利得値で符号化音響信号^S(n)を変倍して、複数の候補符号化音響信号を生成するように動作し、この場合、候補符号化音響信号のうちの少なくとも1つが変倍される。上述したように、1又は任意の所望の恒等関数による変倍を用いてよい。スケーリングユニット1025は、変倍された音響Sを出力し、これは、バランス係数発生器1050によって受信される。拡張レイヤ・エンコーダ1010によって受信された多チャネル音響信号の1つの音響信号に各々対応する複数のバランス係数成分を有するバランス係数の生成については、式(18)、(21)、(24)、及び(33)に対応して上述した。このことは、図示するように、バランス係数発生器1050によって達成され、図示するように、バランス係数成分^S(n)、^S(n)を生成する。式(38)に関連して上述したように、バランス係数発生器1030は、利得から独立しているものとしてバランス係数を示す。
利得ベクトル発生器1020は、式(27)、(28)、及び(29)において述べたように、多チャネル音響信号の推定値を生成するために、符号化音響信号に適用される利得値決定の責任を負っている。このことは、スケーリングユニット1025及びバランス係数発生器1050によって達成されるが、これらは、共に機能して、バランス係数及び少なくとも1つの変倍符号化音響信号に基づき、その推定値を生成する。利得値は、バランス係数及び多チャネル音響信号に基づいており、この場合、利得値は、多チャネル音響信号と多チャネル音響信号の推定値との間の歪み値を最小化するように構成される。式(30)は、多チャネル入力信号の推定値及び実際の入力信号それ自体の関数としての歪み値の生成について記述している。従って、バランス係数成分は、スケーリングユニット1025によって用いられる各スケーリングベクトルの誤差値Eを求めるために、入力音響信号s(n)と共に、誤差信号発生器1030によって受信される。これらの誤差ベクトルは、最適な利得値gに基づき誤差ベクトル及び特定の誤差Eを求める際に用いられる利得値と共に、利得セレクタ1035に渡される。そして、利得セレクタ1035は、可能な利得値の最適な利得値gの表現を求めるために、多チャネル入力信号の推定値及び実際の信号それ自体に基づき歪み値を評価するように、動作する。最適な利得gを表す符号語(i)は、図示するように、利得セレクタ1035から出力され、MUX多重化装置1040によって受信される。
及びiは、双方共、多重化装置1040に出力され、送信器1045によって、チャネル125を介して拡張レイヤデコーダ1060に送信される。利得値iの表現は、出力され、図示するように、チャネル125に送信されるが、必要に応じて、記憶してもよい。
デコーダ側では、拡張レイヤデコーダ1060の動作中、i及びiは、チャネル125から受信され、DEMUX1065によって多重分離される。従って、拡張レイヤデコーダは、符号化音響信号^S(n)、符号化バランス係数i及び符号化利得値iを受信する。利得ベクトルデコーダ1070には、図示するように、周波数選択利得発生器1075及びスケーリングユニット1080が含まれる。利得ベクトルデコーダ1070は、符号化利得値から復号利得値を生成する。符号化利得値iは、周波数選択利得発生器1075に入力され、エンコーダ1010の対応する方法により利得ベクトルgを生成する。そして、利得ベクトルgは、スケーリングユニット1080に適用され、このユニットは、復号利得値gで符号化音響信号^S(n)を変倍して、変倍音響信号を生成する。信号結合器1095は、変倍音響信号G^S(n)に対するバランス係数デコーダ1090の符号化バランス係数出力信号を受信して、拡張出力音響信号として示す復号多チャネル音響信号を生成し出力する。
例示の拡張レイヤ・エンコーダ及び拡張レイヤデコーダのブロック図1100において、上記式(33)に関連して述べたように、バランス係数発生器1050は、利得に依存するバランス係数を生成する。このことは、G信号1110を生成する誤差信号発生器によって示す。
次に、図12乃至14に示すフローは、本明細書に提示した様々な実施形態の方法論を網羅する。図12のフロー1200では、多チャネル音響信号を符号化するための方法を提示する。ブロック1210では、複数の音響信号を有する多チャネル音響信号を受信する。ブロック1220において、多チャネル音響信号は、符号化され、符号化音響信号を生成する。符号化音響信号は、一例として図面に示すように、モノラル、又は、ステレオ信号等の多チャネル信号のいずれかであってよい。更に、符号化音響信号には、複数のチャネルを含み得る。コアレイヤには、複数のチャネルがあってよく、また、拡張レイヤにおけるチャネルの数は、コアレイヤにおけるチャネルの数より大きくてよい。次に、ブロック1230において、各々多チャネル音響信号の1つの音響信号に対応したバランス係数成分を有するバランス係数を生成する。式(18)、(21)、(24)、(33)は、バランス係数の生成について記述している。各バランス係数成分は、式(38)においてそうであるように、生成された他のバランス係数成分に依存し得る。バランス係数の生成には、例えば、式(33)、(36)のように、変倍符号化音響信号と多チャネル音響信号の複数の音響信号のうちの少なくとも1つの信号との間の相関関係値を生成する工程を含み得る。複数の音響信号のうちの少なくとも1つの信号間の自己相関は、式(38)のように生成してよく、これから、平方根を生成できる。ブロック1240では、バランス係数及び多チャネル音響信号に基づき多チャネル音響信号の推定値を生成するために符号化音響信号に適用される利得値を求める。利得値は、多チャネル音響信号と多チャネル音響信号の推定値との間の歪み値を最小化するように構成される。式(27)、(28)、(29)、(30)は、利得値を求める工程を記述している。利得値は、符号化音響信号を変倍するための複数の利得値から選択して、変倍符号化音響信号を生成してよい。歪み値は、この推定値に基づき生成し得る。即ち、利得値は、歪み値に基づいてよい。ブロック1250において、利得値の表現は、送信及び/又は記憶するために出力される。
図13のフロー1300は、様々な実施形態に基づく多チャネル音響信号を符号化するための他の方法論について述べている。ブロック1310では、複数の音響信号を有する多チャネル音響信号を受信する。ブロック1320において、多チャネル音響信号は、符号化され、符号化音響信号を生成する。ブロック1310及び1320の処理は、上述したように、コアレイヤ・エンコーダによって実施される。前述したように、符号化音響信号は、図に一例として示すように、モノラル、又は、ステレオ信号等の多チャネル信号のいずれであってもよい。更に、符号化音響信号には、複数のチャネルを含み得る。コアレイヤには、複数のチャネルがあってよく、また、拡張レイヤにおけるチャネルの数は、コアレイヤにおけるチャネルの数より大きくてよい。
ブロック1330において、符号化音響信号は、複数の利得値で変倍され、複数の候補符号化音響信号が生成されるが、この場合、候補符号化音響信号のうちの少なくとも1つが、変倍される。スケーリングは、利得ベクトル発生器のスケーリングユニットによって達成される。上述したように、符号化音響信号のスケーリングには、単位利得値でスケーリングする工程が含まれる。複数の利得値のうちのその利得値は、上述したように、ベクトルgを対角要素として備えた利得行列であってよい。利得行列は、周波数選択的であってよく、コアレイヤの出力、即ち、図面に示した符号化音響信号に依存し得る。利得値は、符号化音響信号を変倍し、また、変倍符号化音響信号を生成するための複数の利得値から選択してよい。ブロック1340では、各々多チャネル音響信号の1つの音響信号に対応したバランス係数成分を有するバランス係数が、生成される。バランス係数生成は、バランス係数発生器によって実施される。各バランス係数成分は、式(38)の場合のように、生成された他のバランス係数成分に依存し得る。バランス係数の生成には、例えば、式(33)、(36)のように、変倍符号化音響信号と多チャネル音響信号の複数の音響信号のうちの少なくとも1つの信号との間の相関関係値を生成する工程を含み得る。複数の音響信号のうちの少なくとも1つの信号間の自己相関は、式(38)のように、生成してよく、これから、平方根を生成できる。
ブロック1350において、多チャネル音響信号の推定値が、バランス係数及び少なくとも1つの変倍符号化音響信号に基づき生成される。推定値は、変倍符号化音響信号(1つ又は複数)及び生成されたバランス係数に基づき生成される。推定値には、複数の候補符号化音響信号に対応する複数の推定値を含み得る。ブロック1360において、歪み値は、利得値のうちの最適な利得値の表現を求めるために、多チャネル音響信号の推定値及び多チャネル音響信号に基づき、評価及び/又は生成し得る。歪み値には、複数の推定値に対応する複数の歪み値を含み得る。歪み値の評価は、利得セレクタ回路によって達成される。最適な利得値の提示は、式(39)によって与えられる。ブロック1370において、利得値は、出力して、送信及び/又は記憶し得る。拡張レイヤ・エンコーダの送信器は、上述したように、利得値表現を送信し得る。
図14のフローチャート1400で具現化した処理は、多チャネル音響信号の復号を示す。ブロック1410では、符号化音響信号、符号化バランス係数、及び符号化利得値を受信する。ブロック1420では、復号利得値を符号化利得値から生成する。利得値は、上述した利得行列であってよく、また、利得行列は、周波数選択的であってよい。利得行列は、更に、コアレイヤの出力として受信された符号化音響に依存し得る。更に、符号化音響信号は、図面に一例として示すように、モノラル、又はステレオ信号等の多チャネル信号のいずれかであってよい。更に、符号化音響信号には、複数のチャネルを含み得る。例えば、コアレイヤには、複数のチャネルがあってよく、また、拡張レイヤにおけるチャネルの数は、コアレイヤにおけるチャネルの数より大きくてよい。
ブロック1430では、符号化音響信号が復号利得値で変倍され、変倍音響信号を生成する。符号化バランス係数は、変倍音響信号に適用され、ブロック1440において、復号多チャネル音響信号が生成される。復号多チャネル音響信号は、ブロック1450において出力される。
ピーク検出に基づく選択的スケーリングマスク計算
周波数選択利得行列Gは、対角要素が利得ベクトルgを形成する対角行列であり、上記(14)のように、下式で定義し得る。
Figure 0005283046
上式において、Δは、ステップサイズ(例えば、Δ≒2.0dB)であり、αは、定数であり、Mは、候補の数(例えば、M=8で、これは3ビットだけを用いて表し得る)であり、k及びkは、それぞれ低及び高遮断周波数であり、これに対して、利得低減を行い得る。ここでkは、k番目のMDCT又はフーリエ変換係数を表す。gは、周波数選択的であるが、先行レイヤの出力から独立であることに留意されたい。利得ベクトルgは、先行符号化信号ベクトル、この場合、^Sの符号化要素の何らかの関数に基づいてよい。このことは、次のように表現できる。
Figure 0005283046
多レイヤ(3レイヤ以上の)埋め込み式符号化システムでは、利得ベクトルgによって変倍される出力^Sは、少なくとも2つの先行レイヤの寄与から得られる。即ち、下式が成立する。
Figure 0005283046
上式において、^Sは、第1レイヤ(コアレイヤ)の出力であり、^Eは、第2レイヤ又は第1拡張レイヤの寄与である。この場合、利得ベクトルgは、先行符号化信号ベクトル^Sの符号化要素の何らかの関数及び第1拡張レイヤの寄与であり得る。即ち、下式が成立する。
Figure 0005283046
下位レイヤの符号化モデルによる可聴雑音のほとんどは、谷であってピークではないことが観察された。言い換えると、スペクトルピークにおいて、元のスペクトルと符号化スペクトルとの間の整合の方が良好である。従って、ピークは、変更すべきでない、即ち、スケーリングは、谷に限定すべきである。この観察を利点として用いるために、実施形態の1つでは、式(41)の関数は、^Sのピーク及び谷に基づく。検出された^Sのピーク大きさに基づくスケーリングマスクをΨ(^S)とする。スケーリングマスクは、検出されたピークにゼロ以外の値があるベクトル値の関数であり得る。即ち、下式が成立する。
Figure 0005283046
上式において、^sは、^Sのi番目の要素である。こうして、式(41)は、次のように修正し得る。
Figure 0005283046
様々な手法をピーク検出に用い得る。好適な実施形態では、ピークは、絶対スペクトル|^S|を2つの別個の重み付けされた平均化フィルタを通過させ、そして、フィルタ処理された出力を比較することによって、検出される。2つの平均化フィルタの行列表現をA及びAとする。このとき、ピーク検出関数は、下式で与えられる。
Figure 0005283046
上式において、βは、経験的しきい値である。
説明例として、図15及び図16を参照する。ここで、MDCT領域における符号化信号|^S|の絶対値は、双方のグラフにおいて、1510として与えられる。この信号は、「調子笛」からの音声を表すが、これは、図示するように、規則正しく離間した高調波シーケンスを生成する。この信号は、この信号の基本周波数が、音声信号にとって妥当と見なされる範囲を超えていることから、音声モデルに基づきコアレイヤ・コーダを用いて符号化するのが困難である。これにより、コアレイヤによって生成される極めて高いレベルの雑音が生じ、これは、符号化信号1510を元の信号|S|(1610)のモノラル版と比較することによって観察することができる。
符号化信号(1510)から、しきい値発生器を用いて、しきい値1520を生成するが、これは、式46中の式βA|^S|に対応する。ここでAは、好適な実施形態において、長さ45の余弦窓で信号|^S|の畳み込みを実現する畳み込み行列である。多くの窓形状が可能であり、異なる長さを含み得る。更に、好適な実施形態において、Aは、恒等行列である。そして、ピーク検出器は、信号1510をしきい値1520と比較して、1530として示すスケーリングマスクΨ(^S)を生成する。
次に、(式45に与えられる)コアレイヤ・スケーリング・ベクトル候補を用いて、符号化信号|^S|のピーク間の雑音を変倍して、変倍再生信号1620を生成することができる。最適候補は、上記又はその他で示した式39において述べた処理に基づき、選択し得る。
次に、図17乃至19のフロー図は、様々な実施形態に基づき上述したピーク検出による選択的なスケーリングマスク計算に対応した方法論を示す。図17のフロー図1700では、ブロック1710において、受信音響信号の再生音響ベクトル^Sの一組のピークを検出する。音響信号は、複数のレイヤに埋め込んでよい。再生音響ベクトル^Sは、周波数領域であってよく、その一組のピークは、周波数領域ピークであってよい。その一組のピークの検出は、例えば、式(46)によって与えられるピーク検出関数に基づき実施される。尚、この組は、全てが減衰され、ピークがない場合にそうであるように、空であってもよい。ブロック1720では、その検出した一組のピークに基づくスケーリングマスクΨ(^S)を生成する。次に、ブロック1730では、少なくともスケーリングマスク及び利得ベクトルを表すインデックスjに基づき利得ベクトルgを生成する。ブロック1740では、利得ベクトルにより再生音響信号を変倍して、変倍再生音響信号を生成する。ブロック1750では、音響信号及び変倍再生音響信号に基づく歪みを生成する。生成された歪みに基づく利得ベクトルのインデックスが、ブロック1760において出力される。
次に、図18のフロー図1800は、或る実施形態に基づき、音響信号を符号化する他の実施形態を示す。ブロック1810では、音響信号を受信する。音響信号は、複数のレイヤに埋め込んでよい。次に、ブロック1820では、音響信号を符号化して、再生音響ベクトル^Sを生成する。再生音響ベクトル^Sは、周波数領域であってよく、その一組のピークは、周波数領域ピークであってよい。ブロック1830では、受信音響信号の再生音響ベクトル^Sの一組のピークを検出する。その一組のピークの検出は、例えば、式(46)によって与えられるピーク検出関数に基づき実施される。また、留意すべきことは、この組は、全てが減衰され、ピークがない場合にそうであるように、空であってもよい。ブロック1840では、その検出した一組のピークに基づくスケーリングマスクΨ(^S)を生成する。ブロック1850では、スケーリングマスクに基づく複数の利得ベクトルgを生成する。ブロック1860では、再生音響信号を複数の利得ベクトルで変倍して、複数の変倍再生音響信号を生成する。次に、ブロック1870では、音響信号及び複数の変倍再生音響信号に基づき、複数の歪みを生成する。利得ベクトルは、ブロック1880において、複数の歪みに基づき、複数の利得ベクトルから選択される。利得ベクトルは、複数の歪みのうちの最小歪みに一致するように、選択してよい。利得ベクトルを表すインデックスは、ブロック1890において、出力され、送信及び/又は記憶される。
上述した図17乃至18に示したエンコーダフローは、前述した装置構造によって実現し得る。フロー1700を参照すると、音響信号を符号化するように動作可能な装置において、拡張レイヤ・エンコーダ1010の利得ベクトル発生器1020の利得セレクタ1035等の利得セレクタが、受信音響信号の再生音響ベクトル^Sの一組のピークを検出し、その検出した一組のピークに基づき、スケーリングマスクΨ(^S)を生成する。また、音響信号は、複数のレイヤに埋め込んでよい。再生音響ベクトル^Sは、周波数領域であってよく、その一組のピークは、周波数領域ピークであってよい。その一組のピークの検出は、例えば、式(46)によって与えられるピーク検出関数に基づき実施される。尚、一組のピークは、信号中の全てが減衰されている場合、ゼロであってよい。利得ベクトル発生器1020のスケーリングユニット1025等のスケーリングユニットは、少なくともスケーリングマスク及び利得ベクトルを表すインデックスjに基づき利得ベクトルgを生成し、利得ベクトルで再生音響信号を変倍して、変倍再生音響信号を生成する。利得ベクトル発生器1020の誤差信号発生器1030は、音響信号及び変倍再生音響信号に基づき、歪みを生成する。拡張レイヤデコーダ1010の送信器1045等の送信器は、生成された歪みに基づく利得ベクトルのインデックスを出力するように動作可能である。
図18のフロー1800を参照すると、音響信号を符号化するように動作可能な装置では、エンコーダが、音響信号を受信して、音響信号を符号化し、再生音響ベクトル^Sを生成する。利得ベクトル発生器1020のスケーリングユニット1025等のスケーリングユニットは、受信音響信号の再生音響ベクトル^Sの一組のピークを検出し、その検出した一組のピークに基づきスケーリングマスクΨ(^S)を生成し、スケーリングマスクに基づき複数の利得ベクトルgを生成し、複数の利得ベクトルで再生音響信号を変倍して、複数の変倍再生音響信号を生成する。誤差信号発生器1030は、音響信号及び複数の変倍再生音響信号に基づき、複数の歪みを生成する。利得セレクタ1035等の利得セレクタは、複数の歪みに基づき、複数の利得ベクトルから利得ベクトルを選択する。送信器1045は、例えば、後で送信及び/又は記憶するために、利得ベクトルを表すインデックスを出力する。
図19のフロー図1900は、音響信号を復号する方法を示す。ブロック1910では、再生音響ベクトル^S及び利得ベクトルを表すインデックスを受信する。ブロック1920では、再生音響ベクトルの一組のピークを検出する。その一組のピークの検出は、例えば、式(46)によって与えられるピーク検出関数に基づき実施される。また、留意すべきことは、この組は、全てが減衰され、ピークがない場合にそうであるように、空であってもよい。ブロック1930では、その検出した一組のピークに基づき、スケーリングマスクΨ(^S)を生成する。ブロック1940では、少なくともスケーリングマスク及び利得ベクトルを表すインデックスに基づき、利得ベクトルgを生成する。ブロック1950では、再生音響ベクトルを利得ベクトルで変倍し、変倍再生音響信号を生成する。本方法には、更に、再生音響ベクトルに対する拡張を生成し、そして、変倍再生音響信号と再生音響ベクトルに対する拡張を組み合わせて、拡張復号信号を生成する工程を含み得る。
図19に示すデコーダフローは、前述した装置構造によって実現し得る。音響信号を復号するように動作可能な装置において、例えば、拡張レイヤデコーダ1060の利得ベクトルデコーダ1070は、再生音響ベクトル^S及び利得ベクトルを表すインデックスiを受信する。図10に示すように、iは、利得発生器1075によって受信され、一方、再生音響ベクトル^Sは、利得ベクトルデコーダ1070のスケーリングユニット1080によって受信される。利得ベクトルデコーダ1070の利得発生器1075等の利得セレクタは、再生音響ベクトルの一組のピークを検出し、その検出した一組のピークに基づきスケーリングマスクΨ(^S)を生成し、少なくともスケーリングマスク及び利得ベクトルを表すインデックスに基づき、利得ベクトルgを生成する。また、この組は、信号がほとんど減衰される場合、ファイルが空であってよい。利得セレクタは、例えば、式(46)に与えられたピーク検出関数に基づき、この組のピークを検出する。スケーリングユニット1080は、例えば、利得ベクトルで再生音響ベクトルを変倍して、変倍再生音響信号を生成する。
更に、図6の拡張レイヤデコーダの誤差信号デコーダ665等の誤差信号デコーダは、再生音響ベクトルに対する拡張を生成し得る。図6の信号結合器675の様な信号結合器は、変倍再生音響信号と再生音響ベクトルに対する拡張を組み合わせて、拡張復号信号を生成する。
更に、図12乃至14のバランス係数指向のフロー及び図17乃至19のピーク検出指向のフローの選択的なスケーリングマスクは、双方共、様々な組合せで実施でき、また、本明細書に述べた装置及び構造によってそのようにサポートされることに留意されたい。
本発明について、特に、特定の実施形態を参照して示し説明したが、形態及び細目の様々な変更が、本発明の精神及び範囲から逸脱することなく、それらに行い得ることは、当業者によって理解されるであろう。例えば、上記技法は、電気通信システムのチャネルを介した送信及び受信の観点で述べたが、本技法は、固体メモリ装置又はコンピュータハードディスク等のデジタル媒体装置における記憶容量を低減する目的のために信号圧縮システムを用いるシステムにも同様に適用し得る。そのような変更は、以下の請求項の範囲内に入ることを意図している。

Claims (15)

  1. 音響信号を復号する装置において、
    再生音響ベクトル(下式。以下、^Sと表記)
    と利得ベクトルを表すインデックスとを受信する拡張レイヤデコーダの利得ベクトルデコーダであって、該利得ベクトルデコーダの利得セレクタは利得ベクトルを表すインデックスを受信する、利得ベクトルデコーダと、
    Figure 0005283046
    再生音響ベクトルにおける一組のピークを検出し、検出した前記一組のピークに基づき、スケーリングマスクを生成し、少なくともスケーリングマスクと利得ベクトルを表すインデックスとに基づき、利得ベクトルgを生成する、利得ベクトルデコーダの利得セレクタと、
    利得ベクトルで再生音響ベクトルを変倍して、変倍した再生音響信号を生成する、利得ベクトルデコーダのスケーリングユニットと、を備える装置。
  2. 再生音響ベクトルに対する拡張を生成する誤差信号デコーダと、
    変倍した再生音響信号と再生音響ベクトルに対する拡張とを組み合わせて、拡張した復号信号を生成する、拡張レイヤデコーダの信号結合器と、をさらに備える請求項1に記載の装置。
  3. 利得セレクタは、下式に示すピーク検出関数によって前記一組のピークを検出する、請求項1に記載の装置。
    Figure 0005283046
  4. 音響信号は複数のレイヤに埋め込まれている、請求項1に記載の装置。
  5. 再生音響ベクトル^Sは周波数領域にあり、前記一組のピークは周波数領域ピークである、請求項1に記載の装置。
  6. 符号化音響信号と、符号化バランス係数と、符号化利得値とを受信するデコーダであって、
    拡張レイヤデコーダの利得ベクトルデコーダは符号化利得値から復号利得値を生成し、
    拡張レイヤデコーダのスケーリングユニットは復号利得値で符号化音響信号を変倍して、変倍した音響信号を生成する、デコーダをさらに備え、
    変倍した音響信号に符号化バランス係数を適用して、復号多チャネル音響信号を生成し、復号多チャネル音響信号を出力する信号結合器をさらに備える、請求項1に記載の装置。
  7. 音響信号を復号するための方法において、
    再生音響ベクトル^Sと利得ベクトルを表すインデックスとを受信する工程と、
    再生音響ベクトルにおける一組のピークを検出する工程と、
    検出した前記一組のピークに基づき、スケーリングマスクを生成する工程と、
    少なくともスケーリングマスクと利得ベクトルを表すインデックスとに基づき、利得ベクトルgを生成する工程と、
    利得ベクトルで再生音響ベクトルを変倍して、変倍した再生音響信号を生成する工程と、を備える方法。
  8. 再生音響ベクトルに対する拡張を生成する工程と、
    変倍した再生音響信号と再生音響ベクトルに対する拡張とを組み合わせて、拡張復号信号を生成する工程と、をさらに備える請求項7に記載の方法。
  9. 前記一組のピークを検出する工程は、下式に示すピーク検出関数を含む、請求項7に記載の方法。
    Figure 0005283046
  10. 符号化音響信号と、符号化バランス係数と、符号化利得値とを受信する工程と、
    符号化利得値から復号利得値を生成する工程と、
    復号利得値で符号化音響信号を変倍して、変倍した音響信号を生成する工程と、
    変倍した音響信号に符号化バランス係数を適用して、復号多チャネル音響信号を生成する工程と、
    復号多チャネル音響信号を出力する工程と、をさらに備える請求項7に記載の方法。
  11. 音響信号を符号化するための方法において、
    音響信号を受信する工程と、
    音響信号を符号化して、再生音響ベクトル^Sを生成する工程と、
    受信した音響信号の再生音響ベクトル^Sにおいて一組のピークを検出する工程と、
    検出した前記一組のピークに基づき、スケーリングマスクを生成する工程と、
    スケーリングマスクに基づき、複数の利得ベクトルgを生成する工程と、
    前記複数の利得ベクトルで再生音響信号を変倍して、複数の変倍した再生音響信号を生成する工程と、
    音響信号と前記複数の変倍した再生音響信号とに基づき、複数の歪みを生成する工程と、
    前記複数の歪みに基づき、前記複数の利得ベクトルから1つの利得ベクトルを選択する工程と、
    前記利得ベクトルを表すインデックスを送信及び記憶のうちの少なくとも1つのために出力する工程と、を備える方法。
  12. 複数の歪みのうちの最小の歪みに相当する利得ベクトルが選択される、請求項11に記載の方法。
  13. 前記一組のピークを検出する工程は、下式に示すピーク検出関数を含む、請求項11に記載の方法。
    Figure 0005283046
  14. 音響信号は複数のレイヤに埋め込まれている、請求項11に記載の方法。
  15. 再生音響ベクトル^Sは周波数領域にあり、前記一組のピークは周波数領域ピークである、請求項11に記載の方法。
JP2011543540A 2008-12-29 2009-12-03 ピーク検出に基づく選択的スケーリングマスク計算 Active JP5283046B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/345,096 2008-12-29
US12/345,096 US8200496B2 (en) 2008-12-29 2008-12-29 Audio signal decoder and method for producing a scaled reconstructed audio signal
PCT/US2009/066627 WO2010077557A1 (en) 2008-12-29 2009-12-03 Selective scaling mask computation based on peak detection

Publications (2)

Publication Number Publication Date
JP2012514224A JP2012514224A (ja) 2012-06-21
JP5283046B2 true JP5283046B2 (ja) 2013-09-04

Family

ID=41693452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011543540A Active JP5283046B2 (ja) 2008-12-29 2009-12-03 ピーク検出に基づく選択的スケーリングマスク計算

Country Status (8)

Country Link
US (1) US8200496B2 (ja)
EP (1) EP2382626B1 (ja)
JP (1) JP5283046B2 (ja)
KR (1) KR101275892B1 (ja)
CN (1) CN102272831B (ja)
BR (1) BRPI0923749B1 (ja)
ES (1) ES2430414T3 (ja)
WO (1) WO2010077557A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
US8149144B2 (en) * 2009-12-31 2012-04-03 Motorola Mobility, Inc. Hybrid arithmetic-combinatorial encoder
WO2011086923A1 (ja) * 2010-01-14 2011-07-21 パナソニック株式会社 符号化装置、復号装置、スペクトル変動量算出方法及びスペクトル振幅調整方法
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
CN101964188B (zh) * 2010-04-09 2012-09-05 华为技术有限公司 语音信号编码、解码方法、装置及编解码***
US9508356B2 (en) * 2010-04-19 2016-11-29 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
US9449607B2 (en) * 2012-01-06 2016-09-20 Qualcomm Incorporated Systems and methods for detecting overflow
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
KR102086047B1 (ko) * 2015-12-11 2020-03-06 한국전자통신연구원 시간 영역을 기반으로 오디오 신호에 데이터를 삽입하거나 오디오 신호로부터 데이터를 추출하는 방법 및 장치

Family Cites Families (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4560977A (en) 1982-06-11 1985-12-24 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4670851A (en) 1984-01-09 1987-06-02 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4727354A (en) 1987-01-07 1988-02-23 Unisys Corporation System for selecting best fit vector code in vector quantization encoding
JP2527351B2 (ja) 1987-02-25 1996-08-21 富士写真フイルム株式会社 画像デ―タの圧縮方法
US5067152A (en) 1989-01-30 1991-11-19 Information Technologies Research, Inc. Method and apparatus for vector quantization
EP0419752B1 (en) 1989-09-25 1995-05-10 Rai Radiotelevisione Italiana System for encoding and transmitting video signals comprising motion vectors
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
WO1993018505A1 (en) 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6263312B1 (en) 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
ES2247741T3 (es) 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
US6253185B1 (en) 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
US6904174B1 (en) 1998-12-11 2005-06-07 Intel Corporation Simplified predictive video encoder
US6480822B2 (en) 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
CA2246532A1 (en) 1998-09-04 2000-03-04 Northern Telecom Limited Perceptual audio coding
US6453287B1 (en) 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
WO2000060579A1 (en) * 1999-04-05 2000-10-12 Hughes Electronics Corporation A frequency domain interpolative speech codec system
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6504877B1 (en) 1999-12-14 2003-01-07 Agere Systems Inc. Successively refinable Trellis-Based Scalar Vector quantizers
JP4149637B2 (ja) * 2000-05-25 2008-09-10 株式会社東芝 半導体装置
US6304196B1 (en) 2000-10-19 2001-10-16 Integrated Device Technology, Inc. Disparity and transition density control system and method
AUPR105000A0 (en) 2000-10-27 2000-11-23 Canon Kabushiki Kaisha Method for generating and detecting marks
JP3404024B2 (ja) 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3636094B2 (ja) 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4506039B2 (ja) 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6662154B2 (en) 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
WO2003073741A2 (en) 2002-02-21 2003-09-04 The Regents Of The University Of California Scalable compression of audio and other signals
KR100711989B1 (ko) 2002-03-12 2007-05-02 노키아 코포레이션 효율적으로 개선된 스케일러블 오디오 부호화
JP4304360B2 (ja) * 2002-05-22 2009-07-29 日本電気株式会社 音声符号化復号方式間の符号変換方法および装置とその記憶媒体
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US7876966B2 (en) 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
CN100583241C (zh) 2003-04-30 2010-01-20 松下电器产业株式会社 音频编码设备、音频解码设备、音频编码方法和音频解码方法
JP4669394B2 (ja) * 2003-05-20 2011-04-13 パナソニック株式会社 オーディオ信号の帯域を拡張するための方法及び装置
JP4123109B2 (ja) 2003-08-29 2008-07-23 日本ビクター株式会社 変調装置及び変調方法並びに復調装置及び復調方法
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
PL3561810T3 (pl) 2004-04-05 2023-09-04 Koninklijke Philips N.V. Sposób kodowania lewego i prawego sygnału wejściowego audio, odpowiedni koder, dekoder i produkt w postaci programu komputerowego
US20060022374A1 (en) 2004-07-28 2006-02-02 Sun Turn Industrial Co., Ltd. Processing method for making column-shaped foam
US6975253B1 (en) 2004-08-06 2005-12-13 Analog Devices, Inc. System and method for static Huffman decoding
US7161507B2 (en) 2004-08-20 2007-01-09 1St Works Corporation Fast, practically optimal entropy coding
US20060047522A1 (en) 2004-08-26 2006-03-02 Nokia Corporation Method, apparatus and computer program to provide predictor adaptation for advanced audio coding (AAC) system
JP4771674B2 (ja) 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
ATE545131T1 (de) 2004-12-27 2012-02-15 Panasonic Corp Tonkodierungsvorrichtung und tonkodierungsmethode
JP4116628B2 (ja) * 2005-02-08 2008-07-09 株式会社東芝 オーディオ符号化方法およびオーディオ符号化装置
US20060190246A1 (en) 2005-02-23 2006-08-24 Via Telecom Co., Ltd. Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC
ATE406651T1 (de) 2005-03-30 2008-09-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
US7885809B2 (en) 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
FR2888699A1 (fr) 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
DE602006018618D1 (de) 2005-07-22 2011-01-13 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
EP1912206B1 (en) 2005-08-31 2013-01-09 Panasonic Corporation Stereo encoding device, stereo decoding device, and stereo encoding method
US8069035B2 (en) 2005-10-14 2011-11-29 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, and methods of them
EP1959431B1 (en) 2005-11-30 2010-06-23 Panasonic Corporation Scalable coding apparatus and scalable coding method
WO2007093726A2 (fr) 2006-02-14 2007-08-23 France Telecom Dispositif de ponderation perceptuelle en codage/decodage audio
US20070239294A1 (en) 2006-03-29 2007-10-11 Andrea Brueckner Hearing instrument having audio feedback capability
JP2007293118A (ja) * 2006-04-26 2007-11-08 Sony Corp 符号化方法および符号化装置
US7230550B1 (en) 2006-05-16 2007-06-12 Motorola, Inc. Low-complexity bit-robust method and system for combining codewords to form a single codeword
US7414549B1 (en) 2006-08-04 2008-08-19 The Texas A&M University System Wyner-Ziv coding based on TCQ and LDPC codes
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8285555B2 (en) 2006-11-21 2012-10-09 Samsung Electronics Co., Ltd. Method, medium, and system scalably encoding/decoding audio/speech
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US20090234642A1 (en) 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US7889103B2 (en) 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
KR101227729B1 (ko) 2008-07-11 2013-01-29 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
US20100088090A1 (en) 2008-10-08 2010-04-08 Motorola, Inc. Arithmetic encoding for celp speech encoders
US8140342B2 (en) 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
JP5269195B2 (ja) * 2009-05-29 2013-08-21 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法及びそのプログラム
US8442837B2 (en) 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
US11342764B2 (en) 2018-11-28 2022-05-24 Shenzhen Innokin Technology Co., Ltd. Low voltage charging control and protection circuit for electronic cigarette and method of charging the electronic cigarette using the circuit

Also Published As

Publication number Publication date
BRPI0923749A2 (pt) 2016-01-19
JP2012514224A (ja) 2012-06-21
KR101275892B1 (ko) 2013-06-17
EP2382626A1 (en) 2011-11-02
US8200496B2 (en) 2012-06-12
KR20110111442A (ko) 2011-10-11
CN102272831A (zh) 2011-12-07
US20100169087A1 (en) 2010-07-01
BRPI0923749A8 (pt) 2017-07-11
ES2430414T3 (es) 2013-11-20
WO2010077557A1 (en) 2010-07-08
CN102272831B (zh) 2013-08-14
EP2382626B1 (en) 2013-09-18
BRPI0923749B1 (pt) 2020-03-17

Similar Documents

Publication Publication Date Title
JP5283046B2 (ja) ピーク検出に基づく選択的スケーリングマスク計算
JP5285162B2 (ja) ピーク検出に基づいた選択型スケーリングマスク演算
KR101274827B1 (ko) 다수 채널 오디오 신호를 디코딩하기 위한 장치 및 방법, 및 다수 채널 오디오 신호를 코딩하기 위한 방법
KR101125429B1 (ko) 오디오 코딩 시스템내에서 향상 계층을 발생시키는 방법 및 장치
US8175888B2 (en) Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8321229B2 (en) Apparatus, medium and method to encode and decode high frequency signal
US9177569B2 (en) Apparatus, medium and method to encode and decode high frequency signal

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121026

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121102

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121130

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121207

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130104

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130520

R150 Certificate of patent or registration of utility model

Ref document number: 5283046

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250