JP2012512441A

JP2012512441A - ピーク検出に基づいた選択型スケーリングマスク演算

Info

Publication number: JP2012512441A
Application number: JP2011542225A
Authority: JP
Inventors: ピー．アシュリー、ジェームズ; ミタル、ウダー
Original assignee: Motorola Mobility LLC
Current assignee: Motorola Mobility LLC
Priority date: 2008-12-29
Filing date: 2009-12-07
Publication date: 2012-05-31
Anticipated expiration: 2029-12-07
Also published as: CN102272832A; KR101274802B1; EP2382627B1; EP2382627A1; US20100169100A1; WO2010077587A1; BRPI0923750A2; ES2432625T3; JP5285162B2; US8140342B2; CN102272832B; KR20110110267A

Abstract

受信されたオーディオ信号の再構築されたオーディオベクトル＾Ｓにおけるピークの組が検出され、検出されたピークの組に基づいたスケーリングマスクΨ（＾Ｓ）が生成される。少なくともスケーリングマスクと、ゲインベクトルを表すインデックスｊとに基づいてゲインベクトルｇ^＊が生成される。再構築オーディオ信号は、ゲインベクトルでスケーリングされ、スケーリングされた再構築オーディオ信号を生成する。オーディオ信号とスケーリングされた再構築オーディオ信号とに基づいて歪みが生成される。生成された歪みに基づいたゲインベクトルのインデックスが出力される。

Description

本開示は、一般に通信システムに関し、特に、かかる通信システムにおけるスピーチ信号とオーディオ信号との符号化に関する。
（関連出願の相互参照）
本出願は、モトローラ社が本出願と合わせて所有する以下の米国出願に関する。

「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＧＥＮＥＲＡＴＩＮＧＡＮＥＮＨＡＮＣＥＭＥＮＴＬＡＹＥＲＷＩＴＨＩＮＡＭＵＬＴＩＰＬＥ−ＣＨＡＮＮＥＬＡＵＤＩＯＣＯＤＩＮＧＳＹＳＴＥＭ（マルチ・チャネル・オーディオ符号化システム内で拡張レイヤを生成するための方法および装置）」と題する出願番号第１２／３４５，１６５号（代理人整理番号ＣＳ３６２５０ＡＵＤ）、
「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＧＥＮＥＲＡＴＩＮＧＡＮＥＮＨＡＮＣＥＭＥＮＴＬＡＹＥＲＷＩＴＨＩＮＡＭＵＬＴＩＰＬＥ−ＣＨＡＮＮＥＬＡＵＤＩＯＣＯＤＩＮＧＳＹＳＴＥＭ（マルチ・チャネル・オーディオ符号化システム内で拡張レイヤを生成するための方法および装置）」と題する出願番号第１２／３４５，１１７号（代理人整理番号ＣＳ３６６２７ＡＵＤ）、および
「ＳＥＬＥＣＴＩＶＥＳＣＡＬＩＮＧＭＡＳＫＣＯＭＰＵＴＡＴＩＯＮＢＡＳＥＤＯＮＰＥＡＫＤＥＴＥＣＴＩＯＮ（ピーク検出に基づいた選択型マスク演算）」と題する出願番号第１２３４５，０９６号（代理人整理番号ＣＳ３６６５５ＡＵＤ」で、すべて本出願と同一日に出願されている。

デジタルのスピーチ信号とオーディオ信号との圧縮については周知である。圧縮は、一般に、通信チャネル経由で信号を効率的に送信したり、圧縮信号を、ソリッドステート・メモリ・デバイスやコンピュータ・ハード・ディスクなどのデジタル・メディア・デバイスに保存したりする目的で必要とされる。多数の圧縮（すなわち「符号化」）技法が存在するが、これまで非常に人気の高かったデジタルスピーチ符号化方法の１つが符号励振線形予測（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：ＣＥＬＰ）と呼ばれるもので、この方法は、「合成による分析」符号化アルゴリズムという系統の１つである。合成による分析とは一般に、デジタルモデルの複数のパラメータが、入力信号と比較され、歪みが分析される１組の候補信号を合成する目的で使用される符号化プロセスを表す。その後、最小の歪みをもたらす１組のパラメータが送信または格納され、最終的には元の入力信号の推定値を再構築する目的で使用される。ＣＥＬＰは、各々がコードブックインデックスに応答してコードブックから取得されるコード・ベクトルのセットを本質的に備える１つもしくは複数のコードブックを使用する特定の合成による分析法である。

現代のＣＥＬＰコーダでは、合理的に低いデータ速度で質の高いスピーチおよびオーディオ再生を維持することに関して課題がある。このことは、ＣＥＬＰスピーチモデルに十分に適合しない音楽または他の汎用オーディオ信号で特に該当する。このような場合では、モデルの不適合によって、かかる方法を用いる器材のエンドユーザが許容できないほど劣悪なオーディオ品質を生じ得る。そのため、特に音楽および他の非スピーチタイプ入力を対象に、低ビットレートでのＣＥＬＰタイプ・スピーチ・コーダの性能向上に対するニーズが依然として存在する。

先行技術による組み込み型スピーチ／オーディオ圧縮システムのブロック図である。図１の拡張レイヤエンコーダの詳細な実施形態である。図１の拡張レイヤエンコーダの詳細な実施形態である。拡張レイヤエンコーダおよびデコーダのブロック図である。マルチレイヤ組み込み型符号化システムのブロック図である。レイヤ４のエンコーダおよびデコーダのブロック図である。図４および図６のエンコーダの動作を示すフローチャートである。先行技術による組み込み型スピーチ／オーディオ圧縮システムのブロック図である。図８の拡張レイヤエンコーダの詳細な実施形態である。各種実施形態にかかる拡張レイヤエンコーダおよびデコーダのブロック図である。各種実施形態にかかる拡張レイヤエンコーダおよびデコーダのブロック図である。各種実施形態にかかるマルチ・チャネル・オーディオ信号エンコーディングのフローチャートである。各種実施形態にかかるマルチ・チャネル・オーディオ信号エンコーディングのフローチャートである。各種実施形態にかかるマルチ・チャネル・オーディオ信号の復号を示すフローチャートである。各種実施形態にかかるマスク生成に基づいたピーク検出の周波数プロットである。各種実施形態にかかるピークマスク生成を使用したコア・レイヤ・スケーリングの周波数プロットである。各種実施形態にかかる、ピーク検出に基づいたマスク生成を使用してエンコードおよび復号を行うための方法を表すフロー図である。各種実施形態にかかる、ピーク検出に基づいたマスク生成を使用してエンコードおよび復号を行うための方法を表すフロー図である。各種実施形態にかかる、ピーク検出に基づいたマスク生成を使用してエンコードおよび復号を行うための方法を表すフロー図である。

添付の図面において、同じ参照番号は、それぞれの図を通じて同一または機能上同様の要素を言及し、下記の詳細な説明と共に本明細書に援用されて明細書の一部を形成する。添付の図面は、請求された発明を含む概念の各種実施形態をさらに表し、それらの実施形態の各種原理と利点とを説明する役割を果たす。

当業者であれば、図内の要素が簡潔化と明瞭化のために示されるものであり、必ずしも正しい尺度で描かれてはいないことがわかるであろう。例えば、図内の一部の要素の寸法は、各種実施形態についての理解度向上を支援するために、他の要素に対して誇張されている場合がある。加えて、説明および図面は、図示された順序を必ずしも必須とするものではない。特定の動作および／またはステップが特定の発生順に記載または描写されている場合があることをさらに理解されたい一方で、当業者であれば、順序に関するかかる具体性が実際には要求されないことも理解するであろう。装置および方法の構成要素は、慣習的な記号によって図面に適宜表されており、本明細書の記載内容の便益を有する当業者にとって容易に明らかであろう詳細によって本開示を不明瞭にすることのないよう、各種実施形態の理解に関わる具体的な詳細だけを示している。したがって、説明の簡潔・明瞭化という点から、これらの各種実施形態を、余計な要素に煩わされることなく簡便に参照するために、商業的に可能な実施形態で有用または必要であっても、一般的かつ十分に理解される要素については描かれていない場合がある。

上述のニーズに対処するために、オーディオ符号化システム内で拡張レイヤを生成するための方法および装置が本明細書に記載されている。動作時には、符号化される入力信号が受信され、符号化オーディオ信号を生成する。符号化オーディオ信号はその後、関連付けられたゲイン値を各々が有する複数のゲイン値でスケーリングされ、複数のスケーリングされた符号化オーディオ信号を生成する。そして、入力信号と、複数のスケーリングされた符号化オーディオ信号の各々との間に存在する複数のエラー値が決定される。その後、スケーリングされた符号化オーディオ信号と関連付けられているゲイン値が選択され、入力信号と、スケーリングされた符号化オーディオ信号との間に存在するエラー値が小さくなる。最終的には、この低エラー値は、拡張レイヤの一部として、ゲイン値と共に、符号化オーディオ信号に送信される。

先行技術による組み込み型スピーチ／オーディオ圧縮システムが図１に示されている。入力オーディオｓ（ｎ）はまず、コア・レイヤ・エンコーダ１２０によって処理される。そのために、ＣＥＬＰタイプのスピーチ符号化アルゴリズムが使用され得る。エンコードされたビットストリームは、チャネル１２５に送信されると共に、ローカルコア・レイヤ・デコーダ１１５に入力され、そこで、再構築されたコアオーディオ信号ｓ_ｃ（ｎ）が生成される。その後、拡張レイヤエンコーダ１２０を使用して、信号ｓ（ｎ）とｓ_ｃ（ｎ）との何らかの比較に基づいて追加情報を符号化し、任意でコア・レイヤ・デコーダ１１５からのパラメータを使用し得る。コア・レイヤ・デコーダ１１５と同様、コア・レイヤ・デコーダ１３０も、コア・レイヤ・ビットストリーム・パラメータをコア・レイヤ・オーディオ信号＾ｓ_ｃ（ｎ）に変換する。その後、拡張レイヤデコーダ１３５が、チャネル１２５からの拡張レイヤビットストリームと信号＾ｓ_ｃ（ｎ）とを使用して、拡張されたオーディオ出力信号＾ｓ（ｎ）を生成する。

かかる組み込み型符号化システムの主な利点は、特定のチャネル１２５が質の高いオーディオ符号化アルゴリズムと関連付けられた帯域幅要件を一貫してサポートできるとは限らないという点である。しかし、組み込み型コーダにより、チャネル１２５から部分的なビットストリーム（例えばコア・レイヤ・ビットストリームのみ）を受信して、例えば、拡張レイヤビットストリームが消失または破損したときにコア出力オーディオだけを生成することができる。ただし、組み込み型コーダと非組み込み型コーダとの間、さらには組み込み型符号化のさまざまな最適化目的の間でも、質のトレードオフが存在する。すなわち、質の高い拡張レイヤ符号化は、コアレイヤと拡張レイヤとの間のバランスを改善するのに役立ち得ると共に、全体的なデータレートの低下によって伝送特性（渋滞の低減など）が向上するため、拡張レイヤのパケットエラー率が低下し得る。

先行技術による拡張レイヤエンコーダ１２０のより詳細な実施形態が図２に挙げられている。ここで、エラー信号ジェネレータ２１０は、エラー信号エンコーダ２２０により、処理のためにＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ：変形離散コサイン変換）領域に形態変換される重み付き差分信号から成る。エラー信号Ｅは、次式によって与えられる。

Ｅ＝ＭＤＣＴ｛Ｗ（ｓ−ｓ_ｃ）｝（１）
式中、Ｗはコア・レイヤ・デコーダ１１５からのＬＰ（線形予測）フィルタ係数Ａ（ｚ）に基づいた概念的な重み付き行列であり、ｓは入力オーディオ信号ｓ（ｎ）からのサンプルのベクトル（すなわちフレーム）、ｓ_ｃはコア・レイヤ・デコーダ１１５からの対応するサンプルのベクトルである。ＭＤＣＴプロセス例が、ＩＴＵ−Ｔ勧告Ｇ．７２９．１に記載されている。その後エラー信号Ｅがエラー信号エンコーダ２２０によって処理されてコード語ｉ_Ｅを生み出し、このコード語はその後チャネル１２５に送信される。本実施形態では、エラー信号エンコーダ１２０がただ１つのエラー信号Ｅで表され、関連付けられた１つのコード語ｉ_Ｅを出力するという点に注意することが重要である。その理由は、後で明らかになるであろう。

拡張レイヤデコーダ１３５はその後、チャネル１２５からエンコードされたビットストリームを受信し、ビットストリームを適切に非多重化してコード語ｉ_Ｅを生成する。エラー信号デコーダ２３０は、コード語ｉ_Ｅを使用して拡張レイヤエラー信号＾Ｅを再構築する。次にこのエラー信号は、信号コンバイナ２４０によって以下のとおりコアレイヤ出力オーディオ信号＾ｓ_ｃ（ｎ）と組み合わされ、拡張オーディオ出力信号＾ｓ（ｎ）を生成する。

＾ｓ＝ｓ_ｃ＋Ｗ^−１ＭＤＣＴ^−１｛＾Ｅ｝（２）
式中、ＭＤＣＴ^−１は逆ＭＤＣＴ（Ｏｖｅｒｌａｐ−Ａｄｄを含む）であり、Ｗ^−１は概念的な逆重み付き行列である。

拡張レイヤエンコーダの別の実施例が図３に示されている。ここでは、エラー信号ジェネレータ３１５によるエラー信号Ｅの生成が適応型プリスケーリングを伴い、その際にコア・レイヤ・オーディオ出力ｓ_ｃ（ｎ）に対する何らかの改変が実行される。このプロセスにより、複数のビットが生成され、それらがコード語ｉ_ｓとして拡張レイヤエンコーダ１２０に示される。

加えて、拡張レイヤエンコーダ１２０は、入力オーディオ信号ｓ（ｎ）および変換されたコアレイヤ出力オーディオＳ_ｃがエラー信号エンコーダ３２０に入力されている様子を示す。これらの信号は、拡張レイヤエラー信号Ｅの改善された符号化用の音響心理モデルを構築する目的で使用される。その後コード語ｉ_ｓおよびｉ_Ｅは、ＭＵＸ３２５によって多重化された後、チャネル１２５に送られ、拡張レイヤデコーダ１３５によって以降のデコードが行われる。符号化されたビットストリームはｄｅｍｕｘ３３５によって受信され、ビットストリームを成分ｉ_Ｓとｉ_Ｅとに分けられる。その後、コード語ｉ_Ｅは、エラー信号デコーダ３４０によって使用され、拡張レイヤエラー信号＾Ｅを再構築する。信号コンバイナ３４５は、スケーリングビットｉ_ｓを使用した方法で信号＾ｓ_ｃ（ｎ）をスケーリングした後、結果を拡張レイヤエラー信号＾Ｅと組み合わせて、拡張オーディオ出力信号＾ｓ（ｎ）を生成する。

本発明の第１実施形態が図４に示されている。この図は、スケーリングユニット４１５によってコアレイヤ出力信号ｓ_ｃ（ｎ）を受信する拡張レイヤエンコーダ４１０を示している。複数のスケーリングされたコアレイヤ出力信号｛Ｓ｝を生成するために、所定のゲインの組｛ｇ｝が使用される。式中、ｇ_ｊおよびＳ_ｊは、それぞれの組のｊ番目の候補である。スケーリングユニット４１５内で、第１実施形態が（ＭＤＣＴ）領域で信号ｓ_ｃ（ｎ）信号を処理する式は以下のとおり。

Ｓ_ｊ＝Ｇ_ｊ×ＭＤＣＴ｛Ｗｓ_ｃ｝；０≦ｊ＜Ｍ（３）
式中、Ｗは何らかの概念的な重み付き行列であり得、ｓ_ｃはコア・レイヤ・デコーダ１１５からのサンプルのベクトルであり、ＭＤＣＴは当該技術において周知の動作であり、Ｇ_ｊはゲインベクトル候補ｇ_ｊを利用して形成されるゲイン行列であり得、Ｍはゲインベクトル候補の数である。第１実施形態では、数多くの可能性が存在するが、Ｇ_ｊがベクトルｇ_ｊを対角線として使用し、その他の場所ではゼロ（すなわち、対角行列）を使用する。例えば、Ｇ_ｊは帯行列であり得るか、恒等行列Ｉによって乗算される単純なスカラ量でさえあり得る。あるいは、時間領域に信号Ｓ_ｊを残すことに何らかの利点が存在し得る場合もあれば、オーディオを離散型フーリエ変換（ＤＦＴ）領域など異なる領域に変換した方が有利である場合もあり得る。かかる多くの変換は、当該技術において周知である。これらの場合では、スケーリングユニットがそれぞれのベクトル領域に基づいて適切なＳ_ｊを出力し得る。

しかしいずれにせよ、コアレイヤ出力オーディオをスケーリングする第１の理由は、入力信号とコア・レイヤ・コーデックとの間で有意な差をもたらし得るモデルの不一致（またはその他何らかの符号化欠陥）を補償することである。例えば、入力オーディオ信号が主として楽音信号であり、コア・レイヤ・コーデックがスピーチモデルに基づいている場合、コアレイヤ出力は大きく歪んだ信号特性を含み得る。その場合には、１つもしくは複数の拡張レイヤを経由して信号を追補的に符号化する前に、この信号成分のエネルギーを選択的に低減する方が、音質という点から見て有益である。

ゲインスケーリングされたコア・レイヤ・オーディオ候補ベクトルＳ_ｊおよび入力オーディオｓ（ｎ）は、その後エラー信号ジェネレータ４２０への入力として使用され得る。例示的実施形態では、ＳおよびＳ_ｊが対応して整合するように入力オーディオ信号ｓ（ｎ）がベクトルＳに変換される。すなわち、ｓ（ｎ）を表しているベクトルｓは、ｓ_ｃと時間（フェーズ）的に整合しており、対応する動作は、本実施形態において、次式で表されるように適用され得る。

Ｅ_ｊ＝ＭＤＣＴ｛Ｗｓ｝−Ｓ_ｊ；０≦ｊ＜Ｍ（４）
この式は、入力オーディオと、ＭＤＣＴスペクトル領域におけるゲインスケーリングされたコアレイヤ出力オーディオとの間の重み付き差分を表す複数のエラー信号ベクトルＥ_ｊを生じる。さまざまな領域が考慮される他の実施形態では、それぞれの処理領域に基づいて上記の式が改変され得る。

その後、本発明の第１実施形態に従ってゲインセレクタ４２５を使用して複数のエラー信号ベクトルＥ_ｊが求められ、最適なエラーベクトルＥ^＊、最適なゲインパラメータｇ^＊、続いて対応ゲインインデックスｉ_ｇを生成する。ゲインセレクタ４２５は、さまざまな方法を用いて最適なパラメータＥ^＊とｇ^＊とを決定する。具体的には、閉ループ方式（歪み距離の最小化など）、開ループ方式（ヒューリスティック分類、モデル性能推定など）、または両方式の組み合わせを伴い得る。例示的実施形態では、バイアスされた歪み距離が使用され得る。この距離は次式で表され、元のオーディオ信号ベクトルＳと再構築されたコンポジット信号ベクトルとの間のバイアスされたエネルギー差分として与えられる。

式中、＾Ｅ_ｊはエラー信号ベクトルＥ_ｊの量子化された推定値、β_ｊは、概念上最適なゲイン・エラー・インデックスｊ^＊を選択するという決定を補完する目的で使用されるバイアス項であり得る。信号ベクトルのベクトル量子化のための例示的な方法が、「ＡＰＰＡＲＡＴＵＳＡＮＤＭＥＴＨＯＤＦＯＲＬＯＷＣＯＭＰＬＥＸＩＴＹＣＯＭＢＩＮＡＴＯＲＩＡＬＣＯＤＩＮＧＯＦＳＩＧＮＡＬＳ（信号の低複雑度組み合わせコーディングのための装置および方法）」と題する米国特許出願番号第１１／５３１１２２号に記載されているが、他にも数多くの方法が可能である。Ｅ_ｊ＝Ｓ−Ｓ_ｊと認識すると、等式（５）は以下のように書き直され得る。

この式で、項ε_ｊ＝｜Ｅ_ｊ−＾Ｅ_ｊ｜^２は、非量子化されたエラー信号と量子化されたエラー信号との間のエネルギー差を表す。明瞭化のために、この量は「残余エネルギー」と呼ばれることがあり、「ゲイン選択基準」を評価する目的でさらに使用され得る。この場合には、最適ゲインパラメータｇ^＊が選択される。かかるゲイン選択基準は等式（６）で表されるが、多数の表示形態が可能である。

等式（３）および（４）におけるエラー重み付け関数Ｗがベクトル＾Ｅ_ｊ全体で等しく認識可能な歪みを十分に生成することができない場合から、バイアス項βの必要性が生じ得る。例えば、エラー重み付け関数Ｗは、エラースペクトルをある程度「白く」しようとする目的で使用され得るものの、人間の耳による歪みの認識を理由に、低周波数に対する重みを増やすことに一定の利点が存在し得る。低周波数におけるエラーの重み付けを増やした結果、高周波数信号は、拡張レイヤによって不完全にモデル化され得る。これらの場合では、Ｓ_ｊの高周波数成分を減衰させないｇ_ｊの値の方へ歪みの大きさをバイアスすることに直接的な利点があり得るため、高周波数を不完全にモデル化しても、最終的に再構築されたオーディオ信号の響きが不快あるいは不自然にはならない。かかる一例が、無声スピーチ信号の場合である。この場合では、入力オーディオが、人間の口から生じた空気の乱流から生み出される中高周波数の雑音のような信号で構成されるのが一般的である。コア・レイヤ・エンコーダはこのタイプの波形を直接符号化しないかもしれないが、雑音モデルを使用して同様の響きを有するオーディオ信号を生成し得る。その結果、入力オーディオとコアレイヤ出力オーディオ信号との間の相関は一般に低くなり得る。ただし、本実施形態では、エラー信号ベクトルＥ_ｊが入力オーディオとコア・レイヤ・オーディオ出力信号との差異に基づいている。これらの信号はあまり相関していない可能性があるので、エラー信号Ｅ_ｊのエネルギーが、入力オーディオまたはコアレイヤ出力オーディオより必ずしも低いとは限らない。そのような場合では、等式（６）でエラーを最小化すると、ゲインスケーリングが過剰になる場合があり、結果的に可聴アーティファクトの可能性が生じ得る。

別の場合では、バイアス係数β_ｊが、入力オーディオおよび／またはコアレイヤ出力オーディオ信号の他の信号特性に基づき得る。例えば、信号のスペクトルのピーク対平均値比は、その信号のハーモニックコンテントを示し得る。話し言葉やある種の音楽などの信号は、高いハーモニックコンテントを有し得ることから、高いピーク対平均値比を有し得る。ただし、スピーチコーデックによって処理された楽音信号は、符号化モデルの不一致により低質となり得る。その結果、コアレイヤ出力信号スペクトルが、入力信号スペクトルと比較したときに低いピーク対平均値比を有し得る。このような場合では、コアレイヤ出力オーディオが低エネルギーにゲインスケーリングできるようにするために、最小化プロセスにおけるバイアスの量を減らすのが有益である場合があり、それによって拡張レイヤ符号化がコンポジット出力オーディオにより顕著な影響を及ぼし得る。逆に言えば、ある種のスピーチまたは音楽入力信号は、低いピーク対平均値比を呈し得る。その場合、その信号は雑音が多いものとして認識され得るため、エラーバイアスを増やすことにより、コアレイヤ出力オーディオのスケーリング減少による便益が生まれ得る。β_ｊのバイアス係数を生成するための関数例は次式のとおりである。

式中、λは何らかのしきい値であり、ベクトルφ_ｙのピーク対平均値比は次式によって表され得る。

式中ｙ_ｋ１ｋ２は、ｙ（ｋ）のベクトルサブセットであり、ｙ_ｋ１ｋ２＝ｙ（ｋ）；ｋ_１≦ｋ≦ｋ_２である。

最適なゲインインデックスｊ^＊が等式（６）から決定されると、関連付けられたコード語ｉ_ｇが生成され、最適なエラーベクトルＥ^＊がエラー信号エンコーダ４３０に送られる。Ｅ^＊は、（ＭＵＸ４４０により、）他のコード語との多重化に適した形態に符号化されて送信され、対応するデコーダによって使用される。例示的実施形態では、エラー信号エンコーダ４０８が、階乗パルス符号化（ＦＰＣ）を使用する。ベクトルＥ^＊の符号化と関連付けられた列挙プロセスが、＾Ｅ_ｊを生成する目的で使用されるベクトル生成プロセスから独立しているため、この方法は処理の複雑さという点から見て有利である。

拡張レイヤデコーダ４５０は、これらのプロセスを逆転させて、拡張オーディオ出力＾ｓ（ｎ）を生成する。具体的には、ｉ_ｇおよびｉ_Ｅがデコーダ４５０によって受信され、ｉ_Ｅがデマルチプレクサ４５５によってエラー信号デコーダ４６０に送信され、そこで最適なエラーベクトルＥ^＊がコード語から導かれる。最適なエラーベクトルＥ^＊は信号コンバイナ４６５に渡され、受信した＾ｓ_ｃ（ｎ）が等式（２）などで改変され、＾ｓ（ｎ）を生成する。

本発明の第２実施形態は、図５に示すとおり、マルチレイヤ組み込み型符号化システムを伴う。ここでは、本実施例を対象とする５つの組み込み型レイヤがあることが確認できる。レイヤ１および２は共にスピーチ・コーデック・ベース・レイヤ、レイヤ３、４および５は、ＭＤＣＴ拡張レイヤであり得る。そのため、エンコーダ５０２および５０３は、スピーチコーデックを利用して、エンコードされた入力信号ｓ（ｎ）を生み出し、出力する。エンコーダ５１０、６１０および５１４は拡張レイヤエンコーダを備え、各々が、エンコードされた信号に対する異なる拡張を出力する。先述の実施形態と同様、レイヤ３（エンコーダ５１０）のエラー信号ベクトルは、次式によって表され得る。

Ｅ_３＝Ｓ−Ｓ_２（９）
式中、Ｓ＝ＭＤＣＴ｛Ｗｓ｝は、重み付けされた変換済み入力信号であり、Ｓ_２＝ＭＤＣＴ｛Ｗｓ_２｝は、レイヤ１／２のデコーダ５０６から生成された、重み付けされた変換済み信号である。本実施形態では、レイヤ３が低速量子化レイヤであり得るため、対応する量子化されたエラー信号＾Ｅ_３＝Ｑ｛Ｅ_３｝を符号化するための比較的少数のビットが存在し得る。これらの制約下で優れた質を提供するために、Ｅ_３内の係数の一部分だけが量子化され得る。符号化される係数の位置は一定または可変であり得るが、変化することが許可されている場合には、これらの位置を特定するためにデコーダに追加情報を送る必要があり得る。例えば、符号化された位置の範囲の始点がｋ_ｓで終点がｋ_ｅであり、０≦ｋ_ｓ＜ｋ_ｅ＜Ｎであれば、量子化されたエラー信号ベクトル＾Ｅ_３は、その範囲内でのみゼロ以外の値を含む場合があり、その範囲から外れた位置はゼロになる。使用される符号化方法に応じて、位置・範囲情報は暗黙的でもあり得る。例えば、周波数帯が認識上重要であると考えられ得ること、および信号ベクトルの符号化はそれらの周波数に集中し得ることは、オーディオ符号化において周知である。これらの状況では、符号化範囲が可変であってよく、連続する周波数の組に及んではならない。しかし、いずれにせよ、この信号が量子化されると、コンポジット符号化出力スペクトルは次式によって構成され得る。

Ｓ_３＝＾Ｅ_３＋Ｓ_２（１０）
このスペクトルはその後、レイヤ４エンコーダ６１０への入力として使用される。
レイヤ４のエンコーダ６１０は、先述の実施形態の拡張レイヤエンコーダ４１０と似ている。ゲインベクトル候補ｇ_ｊを使用した場合、対応するエラーベクトルは次式のように記述され得る。

Ｅ_４（ｊ）＝Ｓ−Ｇ_ｊＳ_３（１１）
式中、Ｇ_ｊはベクトルｇ_ｊを対角成分とするゲイン行列であり得る。ただし本実施形態において、ゲインベクトルｇ_ｊは量子化されたエラー信号ベクトル＾Ｅ_３と以下のように関連し得る。量子化されたエラー信号ベクトル＾Ｅ_３は、例えばベクトル位置ｋ_ｓを始点とし、ベクトル位置ｋ_ｅを終点とする周波数範囲に制限され得るため、レイヤ３の出力信号Ｓ_３は、その範囲内でかなり正確に符号化されるものと推定される。そのため、本発明によれば、ゲインベクトルｇ_ｊは、レイヤ３のエラー信号ベクトルｋ_ｓとｋ_ｅとの符号化位置に基づいて調整される。具体的には、それらの箇所で信号の完全性を維持するために、対応する個々のゲイン要素は一定値αに設定され得る。つまり次式のとおりである。

式中、０≦γ_ｊ（ｋ）≦１であり、ｇ_ｊ（ｋ）がｊ番目の候補ベクトルのｋ番目の位置のゲインであるのが一般的である。例示的実施形態では、定数の値が１（α＝１）だが、多くの値が可能である。加えて、周波数範囲は複数の起点および終点位置に及び得る。すなわち、等式（１２）は、エラー信号＾Ｅ_３の何らかの関数に基づいた連続しない可変ゲイン範囲に分割され、一般的には次式で書き表され得る。

本実施例の場合、前に量子化されたエラー信号＾Ｅ_３における対応位置がゼロでなければ、一定ゲインαがｇ_ｊ（ｋ）を生成する目的で使用され、＾Ｅ_３における対応位置がゼロであれば、ゲイン関数γ_ｊ（ｋ）が使用される。１つの潜在的なゲイン関数は、次式のように定義され得る。

式中、Δはステップサイズ（例えばΔ〜２．２ｄＢ）であり、αは定数であり、Ｍは候補の数（例えばＭ＝４であれば、２ビット使用するだけで表すことができる）であり、ｋ_ｉおよびｋ_ｈはそれぞれ低周波および高周波カットオフ値であり、これらの値を超えると、ゲインリダクションが行われ得る。パラメータｋ_ｉおよびｋ_ｈの導入は、特定の周波数範囲でのみスケーリングが所望されるシステムで有用である。例えば、所与の実施形態では、高周波がコアレイヤによって適切にモデル化されないため、高周波数帯域内のエネルギーが、入力オーディオ信号におけるエネルギーよりも本質的に低い場合がある。そのような場合では、全体的なエラーエネルギーが結果的に増大し得るため、その領域信号でレイヤ３の出力をスケーリングすることにメリットがほとんどないか、皆無である。

要約すると、複数のゲインベクトル候補ｇ_ｊは、先に符号化された信号ベクトル、この場合では＾Ｅ_３の何らか関数に基づいている。これは一般に次式で表すことができる。
ｇ_ｊ（ｋ）＝ｆ（ｋ，＾Ｅ_３）（１５）
対応するデコーダの動作が図５の右側に示されている。符号化ビットストリーム（ｉ_１からｉ_５）の各種レイヤが受信されると、より質の高い出力信号がコアレイヤ（レイヤ１）デコーダを経て拡張レイヤの階層に構築される。すなわち、この実施形態であれば、最初の２層が時間領域スピーチモデル符号化（ＣＥＬＰなど）から成り、残りの３層が変換領域符号化（ＭＤＣＴなど）から成り、システムの最終的な出力＾ｓ（ｎ）が次式に従って生成される。

式中、＾ｅ_２（ｎ）は、レイヤ２の時間領域拡張レイヤ信号であり、＾Ｓ_２＝ＭＤＣＴ｛Ｗｓ_２｝は、レイヤ２のオーディオ出力＾ｓ_２（ｎ）に対応する重み付きＭＤＣＴベクトルである。この式では、全体出力信号＾ｓ（ｎ）が、受信される連続ビットストリームレイヤの最上位レベルから決定され得る。本実施形態では、低レベルレイヤの方が、チャネルから適切に受信される可能性が高いため、コード語セット｛ｉ_１｝、｛ｉ_１ｉ_２｝、｛ｉ_１ｉ_２ｉ_３｝などが、等式（１６）における拡張レイヤデコードの適正レベルを決定すると仮定される。

図６は、レイヤ４のエンコーダ６１０とデコーダ６５０とを示すブロック図である。図６に示すエンコーダおよびデコーダは、図４に示すものと似ているが、スケーリングユニット６１５および６７０によって使用されるゲイン値が、それぞれ周波数選択型ゲインジェネレータ６３０および６６０を介して導かれるという点が異なる。動作時、レイヤ３のオーディオ出力Ｓ_３は、レイヤ３のエンコーダから出力され、スケーリングユニット６１５によって受信される。加えて、レイヤ３のエラーベクトル＾Ｅ_３は、レイヤ３のエンコーダ５１０から出力され、周波数選択型ゲインジェネレータ６３０によって受信される。既述のとおり、量子化されたエラー信号ベクトル＾Ｅ_３は周波数範囲が制限され得るため、例えばゲインベクトルｇ_ｊは、等式１２に示す位置ｋ_ｓおよびｋ_ｅなどに基づいて調整される。等式１３に、さらに一般的な式が示されている。

スケーリングされたオーディオＳ_ｊは、スケーリングユニット６１５から出力され、エラー信号ジェネレータ６２０によって受信される。上記のとおり、エラー信号ジェネレータ６２０は、入力オーディオ信号Ｓを受信し、スケーリングユニット６１５によって利用されるスケーリングベクトルごとにエラー値Ｅ_ｊを決定する。これらのエラーベクトルは、エラーベクトルと、最適なゲイン値ｇ^＊に基づいて特定のエラーＥ^＊とを決定する際に使用されたゲイン値と共に、ゲインセレクタ回路６３５に渡される。最適なゲインｇ^＊がゲインセレクタ６３５から出力されていることを表すコード語（ｉ_ｇ）が、最適エラーベクトルＥ^＊と共にエラー信号エンコーダ６４０に渡され、そこでコード語ｉ_Ｅが決定および出力される。ｉ_ｇおよびｉ_Ｅは共にマルチプレクサ６４５に出力され、チャネル１２５を経由してレイヤ４のデコーダ６５０に送信される。

レイヤ４のデコーダ６５０の動作時にｉ_ｇおよびｉ_Ｅがチャネル１２５から受信され、デマルチプレクサ６５５によって非多重化される。ゲインコード語ｉ_ｇおよびレイヤ３のエラーベクトル＾Ｅ_３は、周波数選択型ゲインジェネレータ６６０への入力として使用され、エンコーダ６１０の対応方法に従ってゲインベクトルｇ^＊を生成する。その後ゲインベクトルｇ^＊は、スケーリングユニット６７０内のレイヤ３の再構築されたオーディオベクトル＾Ｓ_３に適用され、その出力はその後、コード語ｉ_Ｅのデコードによってエラー信号デコーダ６５５から取得されたレイヤ４の拡張レイヤ・エラー・ベクトルＥ^＊と信号コンバイナ６７５で組み合わされ、図示するとおり、レイヤ４の再構築されたオーディオ出力＾Ｓ_４を生成する。

図７は、本発明の第１および第２の実施形態にかかるエンコーダの動作を示すフローチャート７００である。上記のとおり、両実施形態は、複数のスケーリング値でエンコードされたオーディオをスケーリングし、その後そのスケーリング値を選択してエラー値を最小化する拡張レイヤを利用する。ただし、本発明の第２の実施形態では、ゲイン値を生成するために周波数選択型ゲインジェネレータ６３０が利用される。

論理フローが始まるのはブロック７１０で、コア・レイヤ・エンコーダが、符号化される入力信号を受信し、入力信号を符号化して符号化オーディオ信号を生成する。拡張レイヤエンコーダ４１０が符号化オーディオ信号（ｓ_ｃ（ｎ））を受信し、スケーリングユニット４１５が、符号化オーディオ信号を複数のゲイン値でスケーリングして、関連付けられたゲイン値を各々が有する複数のスケーリングされた符号化オーディオ信号を生成する（ブロック７２０）。ブロック７３０で、エラー信号ジェネレータ４２０が、入力信号と、複数のスケーリングされた符号化オーディオ信号の各々との間に存在する複数のエラー値を決定する。その後、ゲインセレクタ４２５が複数のゲイン値からゲイン値を選択する（ブロック７４０）。上記のとおり、ゲイン値（ｇ^＊）は、スケーリングされた符号化オーディオ信号と関連付けられており、入力信号と、スケーリングされた符号化オーディオ信号との間に低エラー値（Ｅ^＊）が存在する結果となる。最後にブロック７５０で、トランスミッタ４４０が低エラー値（Ｅ^＊）をゲイン値（ｇ^＊）と共に、拡張レイヤの一部として符号化オーディオ信号に送信する。当業者であれば承知のとおり、送信前にＥ^＊とｇ^＊との両方が適切にエンコードされる。

上記のとおり、受信側で、符号化オーディオ信号は、拡張レイヤと共に受信される。拡張レイヤは、ゲイン値（ｇ^＊）と、ゲイン値と関連付けられたエラー信号（Ｅ^＊）とを備える符号化オーディオ信号に対する拡張である。

ステレオ用コア・レイヤ・スケーリング
上記説明では、組み込み型符号化システムについて説明されており、そこではレイヤの各々がモノラル信号を符号化していた。ここからは、ステレオまたは他のマルチチャネル信号を符号化するための組み込み型符号化システムについて説明する。簡潔化のため、２つのオーディオ入力（ソース）から成るステレオ信号という状況における技術について説明しているが、本明細書に記載されている例示的実施形態は、マルチ・チャネル・オーディオ入力の場合と同様、ステレオ信号が２つより多いオーディオ入力を有する場合にまで容易に拡大することができる。限定ではなく例示のために、２つのオーディオ入力は、左側の信号（Ｓ_Ｌ）と右側の信号（Ｓ_Ｒ）とから成るステレオ信号、式中Ｓ_ＬおよびＳ_Ｒはオーディオデータのフレームを表すｎ次元の列ベクトルとする。再度簡潔化のために、コアレイヤおよび拡張レイヤという２つの層から成る組み込み型符号化システムについて詳細に述べる。提案される考えは、マルチレイヤ組み込み型符号化システムにまで容易に拡大することができる。また、コーデック自体は組み込むことができず、すなわち１層のみ有することができ、そのコーデックの一部のビットはビットのステレオ専用であり、残りのビットがモノラル信号である。

単にモノラル信号を符号化するだけのコアレイヤと、高周波数またはステレオ信号を符号化する拡張レイヤとから成る組み込み型ステレオコーデックが知られている。その限られた場面において、コアレイヤは、Ｓ_ＬとＳ_Ｒとの組み合わせから取得されるモノラル信号（ｓ）を符号化して、符号化されたモノラル信号＾ｓを生成する。Ｈは、モノラル信号の生成に使用される２×１の組み合わせ行列であり、次式で表される。

ｓ＝（ｓ_Ｌｓ_Ｒ）Ｈ（１７）
なお、等式（１７）では、Ｓ_Ｒが単なる右側チャネル信号ではなく、右側オーディオ信号の遅延バージョンであり得る。この遅延は、例えば、Ｓ_Ｌの相関とＳ_Ｒの遅延バージョンとを最大化する目的で計算され得る。行列Ｈが［０．５０．５］^Ｔであれば、等式１７によって左右それぞれのチャネルの重み付けが等価、すなわちｓ＝０．５ｓ_Ｌ＋０．５ｓ_Ｒとなる。本明細書に記載されている実施形態は、モノラル信号を符号化するコアレイヤと、ステレオ信号を符号化する拡張レイヤとに制限されない。組み込み型コーデックのコアレイヤおよび拡張レイヤは共に、マルチ・チャネル・オーディオ信号を符号化し得る。コア・レイヤ・マルチチャネルによって符号化されるマルチ・チャネル・オーディオ信号におけるチャネル数は、拡張レイヤによって符号化され得るマルチ・チャネル・オーディオ信号におけるチャネル数よりも少ない場合がある。（ｍ，ｎ）は、それぞれコアレイヤと拡張レイヤとによって符号化されるチャネルの数とする。Ｓ_１、Ｓ_２、Ｓ_３、．．．、Ｓ_ｎは、組み込み型システムによって符号化されるｎ個の音声チャネルを表すものとする。コアレイヤによって符号化されるｍチャネルはこれらから導かれ、次式によって取得される。

［ｓ^１ｓ^２．．．ｓ^ｍ］＝［ｓ_１ｓ_２．．．ｓ_ｎ］Ｈ（１７ａ）
式中、Ｈはｎ×ｍの行列である。
先述のとおり、コアレイヤは、モノラル信号ｓをエンコードして、コアレイヤによって符号化された信号＾ｓを生成する。＾ｓからステレオ成分の推定値を生成するために、バランス係数が計算される。このバランス係数は、次式のように演算される。

組み合わせ行列Ｈが［０．５０．５］^Ｔであれば、次式のように表わすことができる。

ｗ_Ｌ＝２−ｗ_Ｒ（１９）
この比は、１つのパラメータのみの量子化を可能にし、他は最初のパラメータから容易に抽出可能であるできることに注意されたい。ステレオ出力は、次式によって計算される。

＾ｓ_Ｌ＝ｗ_Ｌ＾ｓ、＾ｓ_Ｒ＝ｗ_Ｒ＾ｓ（２０）
次のセクションでは、時間領域ではなく周波数領域について説明する。周波数領域内の対応信号は大文字で表記される。すなわち、Ｓ、＾Ｓ、Ｓ_Ｌ、Ｓ_Ｒ、＾Ｓ_Ｌ、および＾Ｓ_Ｒは、それぞれｓ、＾ｓ、ｓ_Ｌ、ｓ_Ｒ、＾ｓ_Ｌ、および＾ｓ_Ｒの周波数領域信号を表す。周波数領域におけるバランス係数は、周波数領域の項を使用して演算され、次式によって計算される。

かつ
＾Ｓ_Ｌ＝Ｗ_Ｌ＾Ｓ，＾Ｓ_Ｒ＝Ｗ_Ｒ＾Ｓ（２２）
周波数領域では、これらのベクトルが、重複しないサブベクトルにさらに分割され得る。すなわち、次元数ｎのベクトルＳであれば、次式で表される次元数ｍ_１、ｍ_２、．．．ｍ_ｉのｔ個のサブベクトル、Ｓ_１、Ｓ、．．．、Ｓ_ｉに分割され得る。

この場合、異なるサブベクトルに対して異なるバランス係数を演算すること、すなわち次式のように表すことができる。

この事例におけるバランス係数は、ゲインが考慮されていない。

次に図８および図９を参照すると、ステレオおよび他のマルチチャネル信号に関連する先行技術による図面が示されている。図８の先行技術による組み込み型スピーチ／オーディオ圧縮システム８００は、図１と似ているが、本実施例で左右のステレオ入力信号Ｓ（ｎ）で示されているマルチオーディオ入力信号を有する。これらの入力オーディオ信号は、図示のとおり入力オーディオｓ（ｎ）を生成するコンバイナ８１０に供給される。これら複数の入力信号は、図示のとおり拡張レイヤエンコーダ８２０にも提供される。デコード側では、拡張レイヤデコーダ８３０が、図示のとおり拡張出力オーディオ信号＾ｓ_Ｌ＾ｓ_Ｒを生成する。

図９は、図８で使用され得る従来の拡張レイヤエンコーダ９００を表す。図示のとおり、複数のオーディオ入力が、コアレイヤ出力オーディオ信号と共にバランス係数ジェネレータに提供される。拡張レイヤエンコーダ９１０のバランス係数ジェネレータ９２０が、複数のオーディオ入力を受信して信号ｉ_Ｂを生成する。この信号は、図示のとおりＭＵＸ３２５に渡される。信号ｉ_Ｂは、バランス係数の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）である。好適な実施形態では、ｉ_Ｂが、バランス係数を表すビットシーケンスである。デコーダ側では、この信号ｉ_Ｂが、図示のとおりバランス係数要素Ｗ_Ｌ（ｎ）とＷ_Ｒ（ｎ）とを生成するバランス係数デコーダ９４０によって受信され、図示のとおり信号コンバイナ９５０によって受信される。

マルチチャネルバランス係数演算
先述のとおり、多くの状況で、モノラル信号の符号化のために使用されるコーデックはシングル・チャネル・スピーチ用に設計されているため、コーデックモデルによって完全にはサポートされていない信号の符号化に使用されると、必ず符号化モデルノイズを生む。楽音信号および他の非スピーチ信号は、スピーチモデルに基づいたコア・レイヤ・コーデックによって適切にモデル化されない信号の例である。上記説明では、図１〜図７に関して、コアレイヤによって符号化された信号に周波数選択型ゲインを適用することが提案された。オーディオ入力と、スケーリングされ符号化された信号との間での特定の歪み（エラー値）を最小化するために、スケーリングが最適化された。上記の手法は、シングルチャネル信号の場合には良好に機能するが、拡張レイヤがステレオまたは他のマルチチャネル信号を符号化しているときにコア・レイヤ・スケーリングを適用するには最適でない場合がある。

ステレオ信号などマルチチャネル信号のモノラル成分は２つ以上のステレオオーディオ入力の組み合わせから取得されるため、組み合わされた信号ｓもシングル・チャネル・スピーチ・モデルに適合し得ないことから、組み合わされた信号を符号化するときに、コア・レイヤ・コーデックがノイズを生み出し得る。そのため、組み込み型符号化システムでコアレイヤによって符号化された信号のスケーリングを可能にし、それによって、コアレイヤによって生成されるノイズを減らす手法に対する必要性がある。上記のモノラル信号手法では、周波数選択型スケーリングを取得した際の特定の歪みの測定が、モノラル信号におけるエラーに基づいていた。このエラーＥ_４（ｊ）は、上の等式（１１）で表される。しかし、モノラル信号の歪みだけでは、ステレオ通信システムの質を改善するのに十分でない。等式（１１）に含まれるスケーリングは、単位スケーリング係数（１）による場合、またはその他任意の恒等関数による場合がある。

ステレオ信号の場合には、歪み測定値によって、左右両チャネルの歪みを捕捉するべきである。Ｅ_ＬとＥ_Ｒとを、それぞれ左および右のチャネルのエラーベクトルとし、これらは次式によって与えられる。

Ｅ_Ｌ＝Ｓ_Ｌ−＾Ｓ_Ｌ、Ｅ_Ｒ＝Ｓ_Ｒ−＾Ｓ_Ｒ（２５）
例えばＡＭＲ−ＷＢ＋標準に記載されているとおり、先行技術では、これらのエラーベクトルが次式によって計算される。

Ｅ_Ｌ＝Ｓ_Ｌ−Ｗ_Ｌ・＾Ｓ、Ｅ_Ｒ＝Ｓ_Ｒ−Ｗ_Ｒ・＾Ｓ（２６）
次に、周波数選択型ゲインベクトルｇ_ｊ（０≦ｊ＜Ｍ）が＾Ｓに適用される場合を考える。この周波数選択型ゲインベクトルは、行列形態でＧ_ｊとして表記され、式中Ｇ_ｊは、対角要素ｇ_ｊを有する対角行列である。各ベクトルＧ_ｊについて、エラーベクトルは次式によって計算される。

Ｅ_Ｌ（ｊ）＝Ｓ_Ｌ−Ｗ_Ｌ・Ｇ_ｊ・＾Ｓ、Ｅ_Ｒ（ｊ）＝Ｓ_Ｒ−Ｗ_Ｒ・Ｇ_ｊ・＾Ｓ（２７）
ステレオ信号の推定値が、項Ｗ・Ｇ_ｊ・＾Ｓによって与えられる。ゲイン行列Ｇが単位行列（１）またはその他任意の対角行列であり得ることが確認でき、すべての潜在的推定値がスケーリングされたすべての信号に対して実行され得るわけではないことが認識される。

ステレオの質を改善するために最小化される歪み測定値εは、２つのエラーベクトルの関数であり、すなわち次式によって表される。
ε_ｊ＝ｆ（Ｅ_Ｌ（ｊ）、Ｅ_Ｒ（ｊ））（２８）
歪み値が複数の歪み測定値から成り得ることが確認できる。

選択されている周波数選択型ゲインベクトルのインデックスｊは、次式によって与えられる。

例示的実施形態では、歪み測定値が、次式によって表される平均二乗歪みである。

ε_ｊ＝‖Ｅ_Ｌ（ｊ）‖^２＋‖Ｅ_Ｒ（ｊ）‖^２（３０）
あるいは、次式によって表される重み付けまたはバイアスされた歪みであり得る。
ε_ｊ＝Ｂ_Ｌ‖Ｅ_Ｌ（ｊ）‖^２＋Ｂ_Ｒ‖Ｅ_Ｒ（ｊ）‖^２（３１）
バイアスＢ_ＬおよびＢ_Ｒは、左および右のチャネルのエネルギーの関数であり得る。

先述のとおり、周波数領域では、ベクトルが重複しないサブベクトルにさらに分割され得る。提案された技法を、周波数領域ベクトルをサブベクトルに分割することを含むように拡大するために、（２７）で使用するバランス係数は、サブベクトルごとに演算される。したがって、各周波数選択型ゲインのエラーベクトルＥ_ＬおよびＥ_Ｒは、次式によって与えられるエラー・サブ・ベクトルの連結によって形成される。

Ｅ_Ｌｋ（ｊ）＝Ｓ_Ｌｋ−Ｗ_Ｌｋ・Ｇ_ｊｋ・＾Ｓ_ｋ、Ｅ_Ｒｋ（ｊ）＝Ｓ_Ｒｋ−Ｗ_Ｒｋ・Ｇ_ｊｋ・＾Ｓ_ｋ（３２）
（２８）における歪み測定値εは、上記エラー・サブ・ベクトルの連結によって形成されたエラーベクトルの関数ということになる。

バランス係数の演算
先行技術を使用して生成されたバランス係数（等式２１）は、コアレイヤの出力から独立している。しかし、（３０）および（３１）で求められる歪み測定値を最小化するために、バランス係数を演算して対応する歪みを最小化することも有益であり得る。バランス係数Ｗ_ＬおよびＷ_Ｒは、次式によって演算され得る。

式中、例えば図１１の図面に示すとおり、バランス係数がゲインから独立していることが確認できる。この等式は、等式（３０）と（３１）とにおける歪みを最小化する。かかるバランス係数の使用に関する課題は、次式に示すとおりである。

Ｗ_Ｌ（ｊ）≠２−Ｗ_Ｒ（ｊ）（３４）
したがって、Ｗ_ＬとＷ_Ｒとを量子化するために別々のビットフィールドが必要とされ得る。これは、最適化に際してＷ_Ｌ（ｊ）＝２−Ｗ_Ｒ（ｊ）という制約を課すことによって回避され得る。この制約に伴い、等式（３０）に最適解は、次式によって与えられる。

式中、バランス係数は、図示のとおりゲイン項に依存する。図面の図１０は、依存型バランス係数を表している。バイアス係数Ｂ_ＬおよびＢ_Ｒが１つである場合には、次式が成立する。

等式（３３）と（３６）とにおける項Ｓ^ＴＧ_ｊ＾Ｓは、スケーリングされた符号化オーディオ信号と、マルチ・チャネル・オーディオ信号のうち少なくとも１つのオーディオ信号と間の相関値を表す。

ステレオ符号化では、平均二乗歪みよりも音源の方向と位置の方が重要であり得る。そのため、左チャネルのエネルギーと右チャネルのエネルギーとの比は、重み付き歪み測定値を最小化することよりもむしろ、方向（または音源の位置）をより良好に明示し得る。かかる場面では、等式（３５）と（３６）とで演算されたバランス係数が、バランス係数を計算するための良好な手法でない場合がある。必要なのは、符号化の前後で左右のチャネルのエネルギーの比を維持することである。符号化の前および後のチャネルのエネルギーの比は、それぞれ次式によって与えられる。

これらの２つのエネルギー比を等しくし、Ｗ_Ｌ（ｊ）＝２−Ｗ_Ｒ（ｊ）という仮定を使用することにより、次式が得られる。

この式は、生成されたバランス係数のバランス係数成分を与える。なお、（３８）で計算されたバランス係数は、Ｇ_ｊから独立しているため、もはやｊの関数ではなく、ゲインを考慮していない自己相関バランス係数を提供する。依存型バランス係数は、図面の図１０にさらに示されている。この結果を等式２９および３２で使用することにより、次式に表すとおり、最適なコア・レイヤ・スケーリング・インデックスｊの選択を、連結されたベクトル部分ｋを含むように拡張することができる。

この式は、最適なゲイン値の表現である。このゲイン値ｊ^＊というインデックスが、拡張レイヤエンコーダの出力信号として送信される。

次に図１０を参照すると、各種実施形態にかかる拡張レイヤエンコーダと拡張レイヤデコーダとのブロック図１０００が示されている。入力オーディオ信号ｓ（ｎ）は、拡張レイヤエンコーダ１０１０のバランス係数ジェネレータ１０５０とゲイン・ベクトル・ジェネレータ１０２０のエラー信号（歪み信号）ジェネレータ１０３０とによって受信される。図示のとおり、コアレイヤ＾Ｓ（ｎ）からの符号化オーディオ信号は、ゲイン・ベクトル・ジェネレータ１０２０のスケーリングユニット１０２５によって受信される。スケーリングユニット１０２５は、複数のゲイン値で符号化オーディオ信号＾Ｓ（ｎ）をスケーリングするように動作して複数の符号化オーディオ信号の候補を生成し、それらの符号化オーディオ信号の候補のうち少なくとも１つがスケーリングされる。前述のとおり、１つまたは任意の所望の恒等関数によるスケーリングが用いられ得る。スケーリングユニット１０２５が、スケーリングされたオーディオＳ_ｊを出力し、この信号はバランス係数ジェネレータ１０３０によって受信される。拡張レイヤエンコーダ１０１０によって受信されるマルチ・チャネル・オーディオ信号のオーディオ信号と各々関連付けられている複数のバランス係数成分を有するバランス係数を生成することについては、等式（１８）、（２１）、（２４）および（３３）との関連ですでに述べられている。この処理は、図示のとおりバランス係数ジェネレータ１０５０によって達成され、バランス係数成分＾Ｓ_Ｌ（ｎ）、＾Ｓ_Ｒ（ｎ）を生成する。等式（３８）との関連で既述のとおり、バランス係数ジェネレータ１０３０は、バランス係数をゲインから独立したものとして表している。

等式（２７）、（２８）および（２９）で既述のとおり、ゲイン・ベクトル・ジェネレータ１０２０は、マルチ・チャネル・オーディオ信号の推定値を生成するために符号化オーディオ信号に適用されるゲイン値の決定を担う。この処理は、スケーリングユニット１０２５とバランス係数ジェネレータ１０５０とによって達成され、これらが協力して、バランス係数と少なくとも１つのスケーリングされた符号化オーディオ信号とに基づいた推定値を生成する。ゲイン値は、バランス係数とマルチ・チャネル・オーディオ信号とに基づいており、このゲイン値は、マルチ・チャネル・オーディオ信号とマルチ・チャネル・オーディオ信号の推定値との間の歪み値を最小化するように構成されている。等式（３０）は、マルチチャネル入力信号の推定値と実際の入力信号自体との関数として歪み値を生成することを述べている。そのため、スケーリングユニット１０２５によって利用されるスケーリングベクトルごとにエラー値Ｅ_ｊを決定するために、バランス係数成分が入力オーディオ信号ｓ（ｎ）と共に、エラー信号ジェネレータ１０３０によって受信される。これらのエラーベクトルは、エラーベクトルと、最適なゲイン値ｇ^＊に基づいた特定のエラーＥ^＊とを決定する際に使用されたゲイン値と共に、ゲインセレクタ回路１０３５に渡される。その後、ゲインセレクタ１０３５が、潜在的なゲイン値の最適なゲインの表現ｇ^＊を決定するために、マルチチャネル入力信号の推定値と実際の信号自体とに基づいて歪み値を評価するように動作する。図示のとおり、最適なゲインｇ^＊を表すコード語（ｉ_ｇ）がゲインセレクタ１０３５から出力され、ＭＵＸマルチプレクサ１０４０によって受信される。

ｉ_ｇおよびｉ_Ｂは共に、マルチプレクサ１０４０に出力され、トランスミッタ１０４５により、チャネル１２５を経由して拡張レイヤデコーダ１０６０に送信される。ゲイン値ｉ_ｇの表現は、図示のとおりチャネル１２５への送信のために出力されるが、所望であれば格納しても良い。

デコーダ側では、拡張レイヤデコーダ１０６０の動作時に、ｉ_ｇおよびｉ_Ｅがチャネル１２５から受信され、デマルチプレクサ１０６５によって非多重化される。そのため、拡張レイヤデコーダは、符号化オーディオ信号＾Ｓ（ｎ）と、符号化されたバランス係数ｉ_Ｂと、符号化されたゲイン値ｉ_ｇとを受信する。ゲイン・ベクトル・デコーダ１０７０は、図示のとおり、周波数選択型ゲインジェネレータ１０７５とスケーリングユニット１０８０とを備える。ゲイン・ベクトル・デコーダ１０７０は、符号化されたゲイン値から被復号ゲイン値を生成する。符号化されたゲイン値ｉ_ｇは、エンコーダ１０１０の対応する方法に従ってゲインベクトルｇ^＊を生成するために、周波数選択型ゲインジェネレータ１０７５に入力される。その後ゲインベクトルｇ^＊はスケーリングユニット１０８０に適用され、被復号ゲイン値ｇ^＊で符号化オーディオ信号＾Ｓ（ｎ）をスケーリングして、スケーリングされたオーディオ信号を生成する。信号コンバイナ１０９５は、スケーリングされたオーディオ信号Ｇ_ｊ＾Ｓ（ｎ）に対するバランス係数デコーダ１０９０の符号化されたバランス係数出力信号を受信して、拡張出力オーディオ信号として示されている被復号マルチ・チャネル・オーディオ信号を生成し、出力する。

上記等式（３３）との関連で述べられている例示的な拡張レイヤエンコーダおよび拡張レイヤデコーダのブロック図１１００では、バランス係数ジェネレータ１０３０が、ゲインに依存しているバランス係数を生成する。これは、Ｇ_ｊ信号１１１０を生成するエラー信号ジェネレータによって表されている。

次に図１２〜図１４を参照すると、本明細書に記載されている各種実施形態の方法論を網羅するフローが示されている。図１２のフロー１２００には、マルチ・チャネル・オーディオ信号を符号化するための方法が示されている。ブロック１２１０で、複数のオーディオ信号を有するマルチ・チャネル・オーディオ信号が受信される。ブロック１２２０で、このマルチ・チャネル・オーディオ信号が符号化され、符号化オーディオ信号を生成する。符号化オーディオ信号は、図面に表されているステレオ信号などのモノラルまたはマルチチャネル信号であり得る。さらに、符号化オーディオ信号は、複数のチャネルを備え得る。コアレイヤには１つより多くのチャネルが存在する場合があり、拡張レイヤのチャネル数は、コアレイヤのチャネル数よりも多い場合がある。次にブロック１２３０で、マルチ・チャネル・オーディオ信号のオーディオ信号と各々関連付けられているバランス係数成分を有するバランス係数が生成される。等式（１８）、（２１）、（２４）、（３３）は、バランス係数の生成について説明している。各バランス係数成分は、等式（３８）に示すとおり、生成された他のバランス係数成分に依存し得る。バランス係数を生成することは、等式（３３）、（３６）などで、スケーリングされた符号化オーディオ信号と、マルチ・チャネル・オーディオ信号のうちの少なくとも１つのオーディオ信号との間の相関値を生成することを含み得る。等式（３８）に示すとおり、少なくとも１つのオーディオ信号間での自己相関が生成され、そこから平方根を生成することができる。ブロック１２４０で、バランス係数とマルチ・チャネル・オーディオ信号とに基づいてマルチ・チャネル・オーディオ信号の推定値を生成するために符号化オーディオ信号に適用されるゲイン値が決定される。ゲイン値は、マルチ・チャネル・オーディオ信号とマルチ・チャネル・オーディオ信号の推定値との間の歪み値を最小化するように構成される。等式（２７）、（２８）、（２９）、（３０）は、ゲイン値の決定について説明している。符号化オーディオ信号をスケーリングし、スケーリングされた符号化オーディオ信号を生成するために、複数のゲイン値からゲイン値が選択され得る。歪み値は、この推定値に基づいて生成され得る。ゲイン値は、この歪み値に基づき得る。ブロック１２５０で、ゲイン値の表現が、送信および／または格納のために出力される。

各種実施形態によれば、図１３のフロー１３００は、マルチ・チャネル・オーディオ信号を符号化するための別の方法論を説明している。ブロック１３１０で、複数のオーディオ信号を有するマルチ・チャネル・オーディオ信号が受信される。ブロック１３２０で、このマルチ・チャネル・オーディオ信号が符号化され、符号化オーディオ信号を生成する。ブロック１３１０および１３２０のプロセスは、先述のとおり、コア・レイヤ・エンコーダによって実行される。先述のとおり、符号化オーディオ信号は、図面に表されているステレオ信号などのモノラルまたはマルチチャネル信号であり得る。さらに、符号化オーディオ信号は、複数のチャネルを備え得る。コアレイヤには１つより多くのチャネルが存在する場合があり、拡張レイヤのチャネル数は、コアレイヤのチャネル数よりも多い場合がある。

ブロック１３３０で、符号化オーディオ信号が複数のゲイン値でスケーリングされて複数の符号化オーディオ信号の候補を生成し、これらの符号化オーディオ信号の候補のうちの少なくとも１つがスケーリングされる。スケーリングは、ゲイン・ベクトル・ジェネレータのスケーリングユニットによって達成される。既述のとおり、符号化オーディオ信号をスケーリングすることは、ゲイン値１つでスケーリングすることを含み得る。複数のゲイン値のうちのゲイン値は、先述のとおり、ベクトルｇ_ｊを対角成分として有するゲイン行列であり得る。このゲイン行列は周波数選択型であり得る。それはコアレイヤの出力、すなわち図面に表されている符号化オーディオ信号に依存する場合があり得る。符号化オーディオ信号をスケーリングし、スケーリングされた符号化オーディオ信号を生成するために、複数のゲイン値からゲイン値が選択され得る。ブロック１３４０で、マルチ・チャネル・オーディオ信号のオーディオ信号と各々関連付けられているバランス係数成分を有するバランス係数が生成される。バランス係数の生成は、バランス係数ジェネレータによって実行される。各バランス係数成分は、等式（３８）に示すとおり、生成された他のバランス係数成分に依存し得る。バランス係数を生成することは、等式（３３）、（３６）などで、スケーリングされた符号化オーディオ信号と、マルチ・チャネル・オーディオ信号のうちの少なくとも１つのオーディオ信号との間の相関値を生成することを含み得る。等式（３８）に示すとおり、少なくとも１つのオーディオ信号間での自己相関が生成され、そこから平方根を生成することができる。

ブロック１３５０で、バランス係数と少なくとも１つのスケーリングされた符号化オーディオ信号とに基づいてマルチ・チャネル・オーディオ信号の推定値が生成される。この推定値は、スケーリングされた符号化オーディオ信号と、生成されたバランス係数とに基づいて生成される。この推定値は、複数の符号化オーディオ信号の候補に対応する複数の推定値を備え得る。ブロック１３６０で、ゲイン値の最適なゲイン値の表現を決定するために、マルチ・チャネル・オーディオ信号の推定値とマルチ・チャネル・オーディオ信号とに基づいて歪み値が推定および／または生成され得る。この歪み値は、複数の推定値に対応する複数の歪み値を備え得る。この歪み値の推定値は、ゲインセレクタ回路によって達成される。最適なゲイン値は、等式（３９）によって与えられる。ブロック１３７０で、ゲイン値の表現が、送信および／または格納のために出力され得る。拡張レイヤエンコーダのトランスミッタは、先述のとおりゲイン値の表現を送信することができる。

図１４のフローチャート１４００で実施されるプロセスは、マルチ・チャネル・オーディオ信号の復号を表している。ブロック１４１０で、符号化オーディオ信号、符号化されたバランス係数および符号化されたゲイン値が受信される。ブロック１４２０で、符号化されたゲイン値から被復号ゲイン値が生成される。ゲイン値は先述のとおりゲイン行列である場合があり、ゲイン行列は周波数選択型であり得る。ゲイン行列は、コアレイヤの出力として受信される符号化されたオーディオに依存している場合もある。さらに、符号化オーディオ信号は、モノラル信号であっても、図面に例示されているステレオ信号などのマルチチャネル信号であっても良い。加えて、符号化オーディオ信号は、複数のチャネルを備え得る。例えば、コアレイヤには１つより多くのチャネルが存在する場合があり、拡張レイヤのチャネル数は、コアレイヤのチャネル数よりも多い場合がある。

ブロック１４３０で、符号化オーディオ信号が被復号ゲイン値でスケーリングされ、スケーリングされたオーディオ信号を生成する。ブロック１４４０で、スケーリングされたオーディオ信号に符号化されたバランス係数が適用され、被復号マルチ・チャネル・オーディオ信号を生成する。ブロック１４５０で、被復号マルチ・チャネル・オーディオ信号が出力される。

ピーク検出に基づいた選択型スケーリングマスク演算
対角要素がゲインベクトルｇ_ｊを形成している対角行列である周波数選択型ゲイン行列Ｇ_ｊは、上記（１４）のように定義され得る。

式中、Δはステップサイズ（例えばΔ〜２．０ｄＢ）であり、αは定数であり、Ｍは候補の数（例えばＭ＝８であれば、３ビット使用するだけで表すことができる）であり、ｋ_ｌおよびｋ_ｈはそれぞれ低周波および高周波カットオフ値であり、これらの値を超えると、ゲインリダクションが行われ得る。ここでｋは、ｋ番目のＭＤＣＴまたはフーリエ変換係数を表す。ｇ_ｊは周波数選択型であるが、先のレイヤの出力からは独立していることに注意されたい。ゲインベクトルｇ_ｊは、先に符号化された信号ベクトル、この場合では＾Ｓの符号化された要素の何らかの関数に基づき得る。これは次式で表現することができる。

ｇ_ｊ（ｋ）＝ｆ（ｋ，＾Ｓ）（４１）
（２層より多い）マルチレイヤの組み込み型符号化システムで、ゲインベクトルｇ_ｊによってスケーリングされる出力＾Ｓが、少なくとも前２層の寄与度から取得される。すなわち次式のとおりである。

＾Ｓ＝＾Ｅ_２＋＾Ｓ_１（４２）
式中、＾Ｓ_１は第１層（コアレイヤ）の出力であり、＾Ｅ_２は第２の層または第１の拡張レイヤの寄与度である。この場合、ゲインベクトルｇ_ｊが、先に符号化された信号ベクトル＾Ｓの符号化された要素と、第１の拡張レイヤの寄与度との何らかの関数であり得る。

ｇ_ｊ（ｋ）＝ｆ（ｋ，＾Ｓ，＾Ｅ_２）（４３）
低い方の層の符号化モデルによる可聴ノイズの大半は谷に存在し、ピークには存在しないことが観察された。換言すれば、スペクトルピークに、元のスペクトルと符号化されたスペクトルとの間の良好な一致が存在する。そのため、ピークは変更すべきでない。すなわちスケーリングは谷に限定すべきである。この観察を好都合に使用するために、実施形態のうちの１つでは、等式（４１）の関数が＾Ｓのピークと谷とに基づいている。Ψ（＾Ｓ）は、検出された＾Ｓのピーク規模に基づいたスケーリングマスクとする。スケーリングマスクは、検出されたピークでゼロ以外の値を有するベクトル値関数である場合があり、すなわち次式によって表される。

式中、＾ｓ_ｉは＾Ｓのｉ番目の要素である。等式（４１）は、次式のように改変することができる。

ピーク検出にはさまざまな手法を用いることができる。好適な実施形態では、２つの重み付き平均化フィルタを通じて絶対スペクトル｜＾Ｓ｜を渡し、フィルタ処理された出力を比較することによってピークが検出される。Ａ_１およびＡ_２は、２つの平均化フィルタの行列表現とする。ｌ_１およびｌ_２（ｌ_１＞ｌ_２）は、２つのフィルタの長さとする。ピーク検出関数は次式として与えられる。

式中、βは経験的しきい値である。

具体例として、図１５と図１６とを参照する。ここでは、ＭＤＣＴ領域における符号化された信号の絶対値｜＾Ｓ｜が１５１０として両プロットに描かれている。この信号は「ピッチパイプ」からの音を表し、図示のとおり一定間隔の調和数列を成す。この信号の基本周波数は、スピーチ信号にとって妥当とみなされる範囲を超えているため、スピーチモデルに基づいたコア・レイヤ・コーダを使用してこの信号を符号化するのは困難である。そのため、相当高いレベルのノイズがコアレイヤによって生み出される。このノイズは、符号化された信号１５１０を元の信号｜Ｓ｜（１６１０）のモノラルバージョンと比較することによって観察することができる。

符号化された信号（１５１０）から、しきい値ジェネレータを使用して、等式４５の式βＡ_１｜＾Ｓ｜に対応するしきい値１５２０が生み出される。ここでＡ_１は、好適な実施形態で、長さ４５の余弦窓で信号｜＾Ｓ｜のコンボリューションを実装するコンボリューション行列である。数多くのウインドウ形状が可能であり、異なる長さを備え得る。また、好適な実施形態において、Ａ_２は恒等行列である。その後、ピーク検出器が信号１５１０をしきい値１５２０と比較して、１５３０として示すスケーリングマスクΨ（＾Ｓ）を生成する。

その後、（等式４５で与えられた）コア・レイヤ・スケーリング・ベクトル候補を使用して、符号化された信号｜＾Ｓ｜のピーク間でノイズをスケーリングし、スケーリングされた再構築信号１６２０を生成することができる。最適候補は、上記等式３９または他で記載されているプロセスに従って選択され得る。

次に図１７〜図１９を参照すると、各種実施形態に従って上記のピーク検出に基づいた選択型スケーリングマスク演算と関連付けられた方法論を表すフロー図が示される。図１７のフロー図１７００では、ブロック１７１０で、受信されたオーディオ信号の再構築されたオーディオベクトル＾Ｓにおけるピークの組が検出される。このオーディオ信号は、複数の層に組み込まれ得る。再構築されたオーディオベクトル＾Ｓは周波数領域に、ピークの組は周波数領域のピークに存在し得る。ピークの組の検出は、例えば等式（４６）によって与えられるピーク検出関数に従って実行される。なお、すべてが減衰していてピークが存在しない場合のように、この組が空であることもある。ブロック１７２０で、検出されたピークの組に基づいたスケーリングマスクΨ（＾Ｓ）が生成される。その後ブロック１７３０で、少なくともスケーリングマスクと、ゲインベクトルを表すインデックスｊとに基づいたゲインベクトルｇ^＊が生成される。ブロック１７４０で、スケーリングされた再構築オーディオ信号を生成するためのゲインベクトルを有する再構築オーディオ信号がスケーリングされる。ブロック１７５０で、オーディオ信号とスケーリングされた再構築オーディオ信号とに基づいて歪みが生成される。ブロック１７６０で、生成された歪みに基づいたゲインベクトルのインデックスが出力される。

次に図１８を参照すると、フロー図１８００は、ある実施形態にかかる、オーディオ信号をエンコードする代替実施形態を表す。ブロック１８１０で、オーディオ信号が受信される。このオーディオ信号は、複数の層に組み込まれ得る。オーディオ信号はその後、ブロック１８２０でエンコードされ、再構築されたオーディオベクトル＾Ｓを生成する。再構築されたオーディオベクトル＾Ｓは周波数領域に、ピークの組は周波数領域のピークに存在し得る。ブロック１８３０で、受信されたオーディオ信号の再構築されたオーディオベクトル＾Ｓにおけるピークの組が検出される。ピークの組の検出は、例えば等式（４６）によって与えられるピーク検出関数に従って実行される。なお、繰り返しになるが、すべてが減衰していてピークが存在しない場合のように、この組が空であることもある。ブロック１８４０で、検出されたピークの組に基づいたスケーリングマスクΨ（＾Ｓ）が生成される。ブロック１８５０で、スケーリングマスクに基づいた複数のゲインベクトルｇ_ｊが生成される。再構築オーディオ信号は、ブロック１８６０で複数のゲインベクトルでスケーリングされ、複数のスケーリングされた再構築オーディオ信号を生成する。次にブロック１８７０で、オーディオ信号および複数のスケーリングされた再構築オーディオ信号とに基づいて複数の歪みが生成される。ブロック１８８０で、複数の歪みに基づいて複数のゲインベクトルからゲインベクトルが選択される。このゲインベクトルは、複数の歪みの最小の歪みと一致すべく選択され得る。ブロック１８９０で、ゲインベクトルを表すインデックスが出力され、送信および／または格納される。

上記の図１７〜図１８に表されたエンコーダのフローは、先述の装置構造によって実装することができる。フロー１７００を参照すると、オーディオ信号を符号化するように動作可能な装置で、拡張レイヤエンコーダ１０１０のゲイン・ベクトル・ジェネレータ１０２０のゲインセレクタ１０３５などのゲインセレクタが、受信されたオーディオ信号の再構築されたオーディオベクトル＾Ｓにおけるピークの組を検出し、検出されたピークの組に基づいてスケーリングマスクΨ（＾Ｓ）を生成する。繰り返しになるが、このオーディオ信号は、複数の層に組み込まれ得る。再構築されたオーディオベクトル＾Ｓは周波数領域に、ピークの組は周波数領域のピークに存在し得る。ピークの組の検出は、例えば等式（４６）によって与えられるピーク検出関数に従って実行される。なお、信号内のすべてが減衰した場合には、ピークの組が存在しないこともあり得る。ゲイン・ベクトル・ジェネレータ１０２０のスケーリングユニット１０２５などのスケーリングユニットが、ゲインベクトルを表すスケーリングマスクとインデックスｊとに少なくとも基づいてゲインベクトルｇ^＊を生成し、ゲインベクトルで再構築オーディオ信号をスケーリングして、スケーリングされた再構築オーディオ信号を生成する。ゲイン・ベクトル・ジェネレータ１０２５のエラー信号ジェネレータ１０３０は、オーディオ信号とスケーリングされた再構築オーディオ信号とに基づいて歪みを生成する。拡張レイヤデコーダ１０１０のトランスミッタ１０４５などのトランスミッタは、生成された歪みに基づいてゲインベクトルＳのインデックスを出力するように動作可能である。

図１８のフロー１８００を参照すると、オーディオ信号を符号化するように動作可能な装置で、エンコーダが、オーディオ信号を受信し、そのオーディオ信号をエンコードして、再構築されたオーディオベクトルＳを生成する。ゲイン・ベクトル・ジェネレータ１０２０のスケーリングユニット１０２５などのスケーリングユニットが、受信されたオーディオ信号のオーディオベクトル＾Ｓにおけるピークの組を検出し、検出されたピークの組に基づいてスケーリングマスクΨ（＾Ｓ）を生成し、スケーリングマスクに基づいて複数のゲインベクトルｇ_ｊを生成し、複数のゲインベクトルで再構築オーディオ信号をスケーリングして、複数のスケーリングされた再構築オーディオ信号を生成する。エラー信号ジェネレータ１０３０は、このオーディオ信号と、複数のスケーリングされた再構築オーディオ信号とに基づいて複数の歪みを生成する。ゲインセレクタ１０３５などのゲインセレクタは、複数の歪みに基づいて、複数のゲインベクトルからゲインベクトルを選択する。例えば、トランスミッタ１０４５は、ゲインベクトルを表すインデックスを出力する。この出力は、後に伝送および／または格納される。

図１９のフロー図１９００には、オーディオ信号を復号する方法が表されている。ブロック１９１０で、再構築されたオーディオベクトル＾Ｓおよびゲインベクトルを表すインデックスが受信される。ブロック１９２０で、再構築されたオーディオベクトルにおけるピークの組が検出される。ピークの組の検出は、例えば等式（４６）によって与えられるピーク検出関数に従って実行される。なお、繰り返しになるが、すべてが減衰していてピークが存在しない場合のように、この組が空であることもある。ブロック１９３０で、検出されたピークの組に基づいたスケーリングマスクΨ（＾Ｓ）が生成される。ブロック１９４０で、少なくともスケーリングマスクと、ゲインベクトルを表すインデックスとに基づいたゲインベクトルｇ^＊が生成される。ブロック１９５０で、この再構築オーディオ信号がゲインベクトルでスケーリングされ、スケーリングされた再構築オーディオ信号を生成する。この方法は、再構築されたオーディオベクトルに対する拡張を生成すること、その後、拡張された復号信号を生成するために、スケーリングされた再構築オーディオ信号とその拡張とを、再構築されたオーディオベクトルに組み合せることをさらに含み得る。

図１９に表されるデコーダのフローは、先述の装置構造によって実装することができる。オーディオ信号を復号するように動作可能な装置では、例えば、拡張レイヤデコーダ１０６０のゲイン・ベクトル・デコーダ１０７０が、再構築されたオーディオベクトル＾Ｓと、ゲインベクトルを表すインデックスｉ_ｇとを受信する。図１０に示すとおり、ｉ_ｇがゲインセレクタ１０７５によって受信される一方で、再構築されたオーディオベクトル＾Ｓがゲイン・ベクトル・デコーダ１０７０のスケーリングユニット１０８０によって受信される。ゲイン・ベクトル・デコーダ１０７０のゲインセレクタ１０７５などのゲインセレクタは、再構築されたオーディオベクトルにおけるピークの組を検出し、検出されたピークの組に基づいてスケーリングマスクΨ（＾Ｓ）を生成し、少なくともスケーリングマスクとゲインベクトルが表すインデックスとに基づいてゲインベクトルｇ^＊を生成する。繰り返しになるが、信号の大部分が減衰している場合には、このピークの組にファイルが存在しないこともあり得る。ゲインセレクタは、例えば等式（４６）で表されるようなピーク検出関数に従ってピークの組を検出する。例えば、スケーリングユニット１０８０は、再構築されたオーディオベクトルをゲインベクトルでスケーリングして、スケーリングされた再構築オーディオ信号を生成する。

さらに、図６における拡張レイヤデコーダのエラー信号デコーダ６６５などのエラー信号デコーダは、再構築されたオーディオベクトルに対する拡張を生成し得る。図６の信号コンバイナ６７５のような信号コンバイナは、スケーリングされた再構築オーディオ信号と、再構築されたオーディオベクトルに対する拡張とを組み合わせて、拡張復号信号を生成する。

図１２〜図１４のバランス係数の有向フローおよび図１７〜図１９のピーク検出を伴う選択型スケーリングマスクの有向フローは共に、さまざまな組み合わせで実行され得ると共に、本明細書に記載されている装置と構造とによってそのようにサポートされている点にも注意されたい。

特定の実施形態を参照しながら本発明を明示および説明してきたが、当業者であれば、本発明の精神および範囲から逸脱することなく、形態と詳細の各種変更が可能であることが理解されよう。例えば、上記技法は電気通信システムにおけるチャネル経由での送受信について記載されているものの、これらの技法は、ソリッド・ステート・メモリ・デバイスまたはコンピュータ・ハード・ディスクなどのデジタル・メディア・デバイスにおける格納要件を軽減する目的で信号圧縮システムを使用するシステムに等しく適用され得る。かかる変更は以下の請求項の範囲内に収まるものと意図される。

本明細書および特許請求の範囲における＾ｓ、＾Ｓ、及び＾ｅは、それぞれ、国際出願の明細書および特許請求の範囲における

を示すものとして用いられている。

Claims

オーディオ信号を符号化するように動作可能な装置であって、
受信されたオーディオ信号の再構築されたオーディオベクトル＾Ｓにおけるピークの組を検出し、検出されたピークの組に基づいてスケーリングマスクΨ（＾Ｓ）を生成する、拡張レイヤエンコーダのゲイン・ベクトル・ジェネレータのゲインセレクタと、
少なくとも前記スケーリングマスクと、ゲインベクトルを表すインデックスｊとに基づいてゲインベクトルｇ^＊を生成し、前記ゲインベクトルで再構築オーディオ信号をスケーリングして、スケーリングされた再構築オーディオ信号を生成する、前記ゲイン・ベクトル・ジェネレータのスケーリングユニットと、
前記オーディオ信号と前記スケーリングされた再構築オーディオ信号とに基づいて歪みを生成する、前記ゲイン・ベクトル・ジェネレータのエラー信号ジェネレータと、
生成された歪みに基づいて前記ゲインベクトルのインデックスを出力する、前記拡張レイヤエンコーダのトランスミッタと
を備える装置。
前記ゲインセレクタが、

によって与えられるピーク検出関数にさらに従ってピークの組を検出し、式中、βがしきい値である、請求項１に記載の装置。
前記オーディオ信号が複数の層に組み込まれている、請求項１に記載の装置。
前記再構築されたオーディオベクトル＾Ｓが周波数領域内にあり、前記ピークの組が周波数領域のピークである、請求項１に記載の装置。
複数のオーディオ信号を含むマルチ・チャネル・オーディオ信号を受信し、前記マルチ・チャネル・オーディオ信号を符号化して符号化オーディオ信号を生成するエンコーダと、
符号化オーディオ信号を受信し、各々が前記マルチ・チャネル・オーディオ信号の複数のオーディオ信号のうちのオーディオ信号と関連付けられた複数のバランス係数成分を有するバランス係数を生成する、前記拡張レイヤエンコーダのバランス係数ジェネレータと、
を備え、前記拡張レイヤエンコーダのゲイン・ベクトル・ジェネレータが、前記符号化オーディオ信号に適用されるゲイン値を決定して、前記バランス係数と前記マルチ・チャネル・オーディオ信号とに基づいて前記マルチ・チャネル・オーディオ信号の推定値を生成し、前記ゲイン値が、前記マルチ・チャネル・オーディオ信号と前記マルチ・チャネル・オーディオ信号の前記推定値との間の歪み値を最小化するように構成されており、前記トランスミッタが、送信と格納とのうちの少なくとも一方のために前記ゲイン値の表現をさらに送信する、請求項１に記載の装置。
前記拡張レイヤエンコーダの前記スケーリングユニットが、複数のゲイン値で前記符号化オーディオ信号をスケーリングして、複数の符号化オーディオ信号の候補を生成し、前記符号化オーディオ信号の候補うちの少なくとも１つはスケーリングされており、
前記スケーリングユニットと前記バランス係数ジェネレータとが、前記バランス係数と前記複数の符号化オーディオ信号の候補のうちの少なくとも１つのスケーリングされた符号化オーディオ信号に基づいて前記マルチ・チャネル・オーディオ信号の推定値を生成し、
前記拡張レイヤエンコーダのゲインセレクタが、前記マルチ・チャネル・オーディオ信号の推定値と前記マルチ・チャネル・オーディオ信号とに基づいて歪み値を評価して、前記複数のゲイン値の最適なゲインの表現を決定する、請求項５に記載の装置。
オーディオ信号をエンコードするように動作可能な装置であって、
オーディオ信号を受信し、前記オーディオ信号をエンコードして、再構築されたオーディオベクトル＾Ｓを生成するエンコーダと、
受信されたオーディオ信号の前記再構築されたオーディオベクトル＾Ｓにおけるピークの組を検出し、検出されたピークの組に基づいてスケーリングマスクΨ（＾Ｓ）を生成し、前記スケーリングマスクに基づいて複数のゲインベクトルｇ_ｊを生成し、前記複数のゲインベクトルで再構築オーディオ信号をスケーリングして、複数のスケーリングされた再構築オーディオ信号を生成する拡張レイヤエンコーダのゲイン・ベクトル・ジェネレータのスケーリングユニットと、
前記オーディオ信号と前記複数のスケーリングされた再構築オーディオ信号とに基づいて複数の歪みを生成する、前記ゲイン・ベクトル・ジェネレータのエラー信号ジェネレータと、
前記複数の歪みに基づいて前記複数のゲインベクトルからゲインベクトルを選択する、前記ゲイン・ベクトル・ジェネレータのゲインセレクタと、
前記ゲインベクトルを表すインデックスを、送信すること、及び格納することのうちの少なくとも一方のために出力する、前記拡張レイヤエンコーダのトランスミッタと
を備える装置。
前記複数の歪みのうちの最小の歪みと一致するゲインベクトルが選択される、請求項７に記載の装置。
前記スケーリングユニットが、

によって与えられるピーク検出関数に従って前記ピークの組を検出し、式中、βがしきい値である、請求項７に記載の装置。
前記オーディオ信号が複数の層に組み込まれている、請求項７に記載の装置。
前記再構築されたオーディオベクトル＾Ｓが周波数領域内にあり、前記ピークの組が周波数領域のピークである、請求項７に記載の装置。
オーディオ信号をエンコードするための方法であって、
受信されたオーディオ信号の再構築されたオーディオベクトル＾Ｓにおけるピークの組を検出すること、
検出されたピークの組に基づいてスケーリングマスクΨ（＾Ｓ）を生成すること、
少なくとも前記スケーリングマスクと、ゲインベクトルを表すインデックスｊとに基づいてゲインベクトルｇ^＊を生成すること、
前記ゲインベクトルで再構築オーディオ信号をスケーリングして、スケーリングされた再構築オーディオ信号を生成すること、
前記オーディオ信号と前記スケーリングされた再構築オーディオ信号とに基づいて歪みを生成すること、
生成された歪みに基づいて前記ゲインベクトルのインデックスを出力すること
を含む方法。
前記ピークの組を検出することが、

によって与えられるピーク検出関数をさらに備え、式中、βがしきい値である、請求項１２に記載の方法。
前記オーディオ信号が複数の層に組み込まれている、請求項１２に記載の方法。
前記再構築されたオーディオベクトル＾Ｓが周波数領域内にあり、前記ピークの組が周波数領域のピークである、請求項１２に記載の方法。
複数のオーディオ信号を含むマルチ・チャネル・オーディオ信号を受信すること、
前記マルチ・チャネル・オーディオ信号を符号化して、符号化オーディオ信号を生成すること、
前記マルチ・チャネル・オーディオ信号の前記複数のオーディオ信号のうちのオーディオ信号と各々関連付けられた複数のバランス係数成分を有するバランス係数を生成すること、
前記符号化オーディオ信号に適用されるゲイン値を決定して、前記バランス係数と前記マルチ・チャネル・オーディオ信号とに基づいて前記マルチ・チャネル・オーディオ信号の推定値を生成することであって、前記ゲイン値が、前記マルチ・チャネル・オーディオ信号と前記マルチ・チャネル・オーディオ信号の推定値との間の歪み値を最小化するように構成されている、前記推定値を生成すること、
送信と格納とのうちの少なくとも一方のために前記ゲイン値の表現を出力すること
をさらに含む、請求項１２の方法。
複数のオーディオ信号を含むマルチ・チャネル・オーディオ信号を受信すること、
前記マルチ・チャネル・オーディオ信号を符号化して符号化オーディオ信号を生成すること、
前記符号化オーディオ信号を複数のゲイン値でスケーリングして、複数の符号化オーディオ信号の候補を生成することであって、前記符号化オーディオ信号の候補のうちの少なくとも１つはスケーリングされている、前記複数の符号化オーディオ信号の候補を生成すること、
前記マルチ・チャネル・オーディオ信号の前記複数のオーディオ信号のうちのオーディオ信号と各々関連付けられた複数のバランス係数成分を有するバランス係数を生成すること、
前記バランス係数と前記複数の符号化オーディオ信号の候補のうちの前記少なくとも１つのスケーリングされた符号化オーディオ信号とに基づいて前記マルチ・チャネル・オーディオ信号の推定値を生成すること、
前記マルチ・チャネル・オーディオ信号の推定値と前記マルチ・チャネル・オーディオ信号とに基づいて歪み値を評価して、前記複数のゲイン値のうちの最適なゲイン値の表現を決定すること、
送信と格納とのうちの少なくとも一方のために前記最適なゲイン値の表現を出力すること
をさらに含む、請求項１２の方法。