JP5017121B2

JP5017121B2 - 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化

Info

Publication number: JP5017121B2
Application number: JP2007544407A
Authority: JP
Inventors: フォラー，クリストフ
Original assignee: Agere Systems LLC
Current assignee: Agere Systems LLC
Priority date: 2004-11-30
Filing date: 2005-11-22
Publication date: 2012-09-05
Anticipated expiration: 2025-11-22
Also published as: US20090150161A1; WO2006060278A1; JP2008522243A; KR20070086849A; EP1817766A1; US7761304B2; EP1817766B1; DE602005017302D1; KR101236259B1

Description

関連出願の相互参照
本願は、その教示が参照によって本明細書に組み込まれている、弁理士整理番号Ｆａｌｌｅｒ２１として２００４年１１月３０日に出願した米国仮出願第６０／６３１８０８号の利益を主張するものである。
本願の主題は、次の米国特許出願の主題に関連し、これらの米国特許出願のすべての教示が、参照によって本明細書に組み込まれている。
○弁理士整理番号Ｆａｌｌｅｒ５として２００１年５月４日に出願した米国特許出願第０９／８４８８７７号、
○弁理士整理番号Ｂａｕｍｇａｒｔｅ１−６−８として２００１年１１月７日に出願した米国特許出願第１０／０４５４５８号（これ自体は、２００１年８月１０日に出願した米国仮出願第６０／３１１５６５号の利益を主張する）、
○弁理士整理番号Ｂａｕｍｇａｒｔｅ２−１０として２００２年５月２４日に出願した米国特許出願第１０／１５５４３７号、
○弁理士整理番号Ｂａｕｍｇａｒｔｅ３−１１として２００２年９月１８日に出願した米国特許出願第１０／２４６５７０号、
○弁理士整理番号Ｂａｕｍｇａｒｔｅ７−１２として２００４年４月１日に出願した米国特許出願第１０／８１５５９１号、
○弁理士整理番号Ｂａｕｍｇａｒｔｅ８−７−１５として２００４年９月８日に出願した米国特許出願第１０／９３６４６４号、
○２００４年１月２０日に出願した米国特許出願第１０／７６２１００号（Ｆａｌｌｅｒ１３−１）、
○弁理士整理番号Ａｌｌａｍａｎｃｈｅ１−２−１７−３として２００４年１２月７日に出願した米国特許出願第１１／００６４９２号、
○弁理士整理番号Ａｌｌａｍａｎｃｈｅ２−３−１８−４として２００４年１２月７日に出願した米国特許出願第１１／００６４８２号、
○弁理士整理番号Ｆａｌｌｅｒ２２−５として２００５年１月１０日に出願した米国特許出願第１１／０３２６８９号、および
○弁理士整理番号Ｆａｌｌｅｒ２０として２００５年２月１５日に出願した米国特許出願第１１／０５８７４７号（これ自体は、２００４年１１月３０日に出願した米国仮出願第６０／６３１９１７号の利益を主張する）。
本願の主題は、次の論文に記載の主題にも関連し、これらの論文のすべての教示が、参照によって本明細書に組み込まれている。
○Ｆ．ＢａｕｍｇａｒｔｅａｎｄＣ．Ｆａｌｌｅｒ、「ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ−ＰａｒｔＩ：Ｐｓｙｃｈｏａｃｏｕｓｔｉｃｆｕｎｄａｍｅｎｔａｌｓａｎｄｄｅｓｉｇｎｐｒｉｎｃｉｐｌｅｓ」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．，ｖｏｌ．１１，ｎｏ．６、２００３年１１月、
○Ｃ．ＦａｌｌｅｒａｎｄＦ．Ｂａｕｍｇａｒｔｅ、「ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ−ＰａｒｔＩＩ：Ｓｃｈｅｍｅｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．，ｖｏｌ．１１，ｎｏ．６、２００３年１１月、および
○Ｃ．Ｆａｌｌｅｒ、「Ｃｏｄｉｎｇｏｆｓｐａｔｉａｌａｕｄｉｏｃｏｍｐａｔｉｂｌｅｗｉｔｈｄｉｆｆｅｒｅｎｔｐｌａｙｂａｃｋｆｏｒｍａｔｓ」、Ｐｒｅｐｒｉｎｔ１１７ｔｈＣｏｎｖ．Ａｕｄ．Ｅｎｇ．Ｓｏｃ．、２００４年１０月。
本発明は、オーディオ信号のエンコーディングと、エンコードされたオーディオ・データからのオーディトリ・シーン（ａｕｄｉｔｏｒｙｓｃｅｎｅ）の後続合成とに関する。

人が、特定のオーディトオ・ソースによって生成されたオーディオ信号（すなわち、サウンド）を聞く時に、そのオーディオ信号は、通常、その人の左右の耳に、２つの異なる時刻に２つの異なるオーディオ（たとえば、デシベル）レベルで到着し、ここで、この異なる時刻およびレベルは、それを介してオーディオ信号が移動してそれぞれ左右の耳に達する経路の差の関数である。その人の脳は、時刻およびレベルにおけるこれらの差を解釈して、その人に、受け取られたオーディオ信号がその人に対する相対的な特定の位置（たとえば、方向および距離）に置かれたオーディトオ・ソースによって生成されていることの知覚を与える。オーディトリ・シーンは、ある人に対して相対的な１つまたは複数の異なる位置に置かれた１つまたは複数の異なるオーディトオ・ソースによって生成されるオーディオ信号をその人が同時に聞くことの正味の影響である。

脳によるこの処理の存在を使用して、オーディトリ・シーンを合成することができ、ここで、１つまたは複数の異なるオーディトオ・ソースからのオーディオ信号は、異なるオーディトオ・ソースがリスナに対して相対的に異なる位置に置かれていることの知覚を与える左右のオーディオ信号を生成するために意図的に変更される。

図１に、従来のバイノーラル信号シンセサイザ１００の高水準ブロック図を示すが、このバイノーラル信号シンセサイザ１００は、単一のオーディトオ・ソース信号（たとえば、モノ信号）をバイノーラル信号の左右のオーディオ信号に変換し、ここで、バイノーラル信号は、リスナの鼓膜で受け取られる２つの信号と定義される。オーディトオ・ソース信号に加えて、シンセサイザ１００は、リスナに対する相対的なオーディトオ・ソースの所望の位置に対応する空間的キュー（ｓｐａｔｉａｌｃｕｅ）の組を受け取る。通常の実施態様では、空間的キューの組に、チャネル間レベル差（ｉｎｔｅｒ−ｃｈａｎｎｅｌｌｅｖｅｌｄｉｆｆｅｒｅｎｃｅ、ＩＣＬＤ）値（それぞれ左右の耳で受け取られた左右のオーディオ信号の間のオーディオ・レベルの差を識別する）と、チャネル間時間差（ｉｎｔｅｒ−ｃｈａｎｎｅｌｔｉｍｅｄｉｆｆｅｒｅｎｃｅ、ＩＣＴＤ）値（それぞれ左右の耳で受け取られた左右のオーディオ信号の間の到着の時刻の差を識別する）とが含まれる。それに加えてまたは代替物として、いくつかの合成技法は、頭部伝達関数（ＨＲＴＦ）とも称する、信号源から鼓膜までのサウンドに関する方向依存の伝達関数のモデリングを用いる。たとえば、その教示が参照によって本明細書に組み込まれている、Ｊ．Ｂｌａｕｅｒｔ、「ＴｈｅＰｓｙｃｈｏｐｈｙｓｉｃｓｏｆＨｕｍａｎＳｏｕｎｄＬｏｃａｌｉｚａｔｉｏｎ」、ＭＩＴＰｒｅｓｓ、１９８３年を参照されたい。

図１のバイノーラル信号シンセサイザ１００を使用することによって、単一オーディトオ・ソースによって生成されたモノ・オーディオ信号を処理し、ヘッドホンを介して聞かれる時に、耳ごとのオーディオ信号を生成するために空間的キューの適当な組（たとえば、ＩＣＬＤ、ＩＣＴＤ、および／またはＨＲＴＦ）を適用することによって、オーディトオ・ソースが空間的に置かれるようにすることができる。たとえば、Ｄ．Ｒ．Ｂｅｇａｕｌｔ、「３−ＤＳｏｕｎｄｆｏｒＶｉｒｔｕａｌＲｅａｌｉｔｙａｎｄＭｕｌｔｉｍｅｄｉａ」、ＡｃａｄｅｍｉｃＰｒｅｓｓ、米国マイアミ州ケンブリッジ、１９９４年を参照されたい。

図１のバイノーラル信号シンセサイザ１００は、最も単純なタイプのオーディトリ・シーンすなわち、リスナに対して相対的に置かれた単一の音源を有するオーディトリ・シーンを生成する。リスナに対して相対的に異なる位置に置かれた２つ以上の音源を含むより複雑なオーディトリ・シーンは、本質的にバイノーラル信号シンセサイザの２つ以上のインスタンスを使用して実施されるオーディトリ・シーン・シンセサイザを使用して生成することができ、ここで、各バイノーラル信号シンセサイザ・インスタンスは、異なるオーディオ・ソースに対応するバイノーラル信号を生成する。各異なるオーディオ・ソースは、リスナに対して相対的に異なる位置を有するので、空間的キューの異なる組が、異なるオーディオ・ソースごとにバイノーラル・オーディオ信号を生成するのに使用される。
米国仮出願第６０／６３１８０８号米国特許出願第０９／８４８８７７号米国特許出願第１０／０４５４５８号米国仮出願第６０／３１１５６５号米国特許出願第１０／１５５４３７号米国特許出願第１０／２４６５７０号米国特許出願第１０／８１５５９１号米国特許出願第１０／９３６４６４号米国特許出願第１０／７６２１００号米国特許出願第１１／００６４９２号米国特許出願第１１／００６４８２号米国特許出願第１１／０３２６８９号米国特許出願第１１／０５８７４７号米国仮出願第６０／６３１９１７号Ｆ．ＢａｕｍｇａｒｔｅａｎｄＣ．Ｆａｌｌｅｒ、「ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ−ＰａｒｔＩ：Ｐｓｙｃｈｏａｃｏｕｓｔｉｃｆｕｎｄａｍｅｎｔａｌｓａｎｄｄｅｓｉｇｎｐｒｉｎｃｉｐｌｅｓ」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．，ｖｏｌ．１１，ｎｏ．６、２００３年１１月Ｃ．ＦａｌｌｅｒａｎｄＦ．Ｂａｕｍｇａｒｔｅ、「ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ−ＰａｒｔＩＩ：Ｓｃｈｅｍｅｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．，ｖｏｌ．１１，ｎｏ．６、２００３年１１月Ｃ．Ｆａｌｌｅｒ、「Ｃｏｄｉｎｇｏｆｓｐａｔｉａｌａｕｄｉｏｃｏｍｐａｔｉｂｌｅｗｉｔｈｄｉｆｆｅｒｅｎｔｐｌａｙｂａｃｋｆｏｒｍａｔｓ」、Ｐｒｅｐｒｉｎｔ１１７ｔｈＣｏｎｖ．Ａｕｄ．Ｅｎｇ．Ｓｏｃ．、２００４年１０月Ｊ．Ｂｌａｕｅｒｔ、「ＴｈｅＰｓｙｃｈｏｐｈｙｓｉｃｓｏｆＨｕｍａｎＳｏｕｎｄＬｏｃａｌｉｚａｔｉｏｎ」、ＭＩＴＰｒｅｓｓ、１９８３年Ｄ．Ｒ．Ｂｅｇａｕｌｔ、「３−ＤＳｏｕｎｄｆｏｒＶｉｒｔｕａｌＲｅａｌｉｔｙａｎｄＭｕｌｔｉｍｅｄｉａ」、ＡｃａｄｅｍｉｃＰｒｅｓｓ、米国マイアミ州ケンブリッジ、１９９４年Ｃ．Ｆａｌｌｅｒ、「Ｐａｒａｍｅｔｒｉｃｍｕｌｔｉ−ｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇ：Ｓｙｎｔｈｅｓｉｓｏｆｃｏｈｅｒｅｎｃｅｃｕｅｓ」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．、２００３年Ｅ．Ｓｃｈｕｉｊｅｒｓ、Ｗ．Ｏｏｍｅｎ、Ｂ．ｄｅｎＢｒｉｎｋｅｒ、およびＪ．Ｂｒｅｅｂａａｒｔ、「Ａｄｖａｎｃｅｓｉｎｐａｒａｍｅｔｒｉｃｃｏｄｉｎｇｆｏｒｈｉｇｈ−ｑｕａｌｉｔｙａｕｄｉｏ」、Ｐｒｅｐｒｉｎｔ１１４ｔｈＣｏｎｖ．Ａｕｄ．Ｅｎｇ．Ｓｏｃ．、２００３年３月Ｊ．Ｅｎｇｄｅｇａｒｄ、Ｈ．Ｐｕｒｎｈａｇｅｎ、Ｊ．Ｒｏｄｅｎ、およびＬ．Ｌｉｌｊｅｒｙｄ、「Ｓｙｎｔｈｅｔｉｃａｍｂｉｅｎｃｅｉｎｐａｒａｍｅｔｒｉｃｓｔｅｒｅｏｃｏｄｉｎｇ」、Ｐｒｅｐｒｉｎｔ１１７ｔｈＣｏｎｖ．Ａｕｄ．Ｅｎｇ．Ｓｏｃ．、２００４年５月

改善されたオーディオ・チャネルをエンコードする方法、装置、および機械可読媒体を提供することにある。

一実施形態によれば、本発明は、オーディオ・チャネルをエンコードする方法、装置、および機械可読媒体である。１つまたは複数のキュー・コードが、Ｃ個の入力チャネルについて生成され、Ｃ個の入力チャネルは、少なくとも１つのダウンミキシングされたチャネルを生成するためにダウンミキシングされる。タイム・ラグが、少なくとも１つのダウンミキシングされたチャネルとＥ個の外部的に供給されるチャネルのうちの少なくとも１つとの間で推定され、Ｃ＞Ｅ≧１である。Ｅ個の外部的に供給されるチャネルと１つまたは複数のキュー・コードとの間の相対タイミングが、Ｅ個の外部的に供給されるチャネルと１つまたは複数のキュー・コードとの間の同期化を改善するために、推定されたタイム・ラグに基づいて調整される。Ｅ個の外部的に供給されるチャネルおよび１つまたは複数のキュー・コードは、デコーダが１つまたは複数のキュー・コードに基づいてＥ個の外部的に供給されるチャネルのデコーディング中に合成処理を実行できるようにするために送出される。

もう１つの実施形態によれば、本発明は、（１）Ｃ個の入力チャネルの１つまたは複数のキュー・コードを生成することと、（２）少なくとも１つのダウンミキシングされたチャネルを生成するために、Ｃ個の入力チャネルをダウンミキシングすることと、（３）Ｃ＞Ｅ≧１である、少なくとも１つのダウンミキシングされたチャネルとＥ個の外部的に供給されるチャネルのうちの少なくとも１つとの間のタイム・ラグを推定することと、（４）Ｅ個の外部的に供給されるチャネルと１つまたは複数のキュー・コードとの間の同期化を改善するために、推定されたタイム・ラグに基づいて、Ｅ個の外部的に供給されるチャネルと１つまたは複数のキュー・コードとの間の相対タイミングを調整することと、（５）エンコードされたオーディオ・ビットストリームを形成するために、Ｅ個の外部的に供給されるチャネルおよび１つまたは複数のキュー・コードを組み合わせることとによって生成されるエンコードされたオーディオ・ビットストリームである。

本発明の他の態様、特徴、および利点は、次の詳細な説明、添付の特許請求の範囲、および添付図面からより十分に明白になり、添付図面では、類似する符号が類似する要素または同一の要素を識別する。

バイノーラル・キュー・コーディング（ｂｉｎａｕｒａｌｃｕｅｃｏｄｉｎｇ、ＢＣＣ）では、エンコーダは、Ｃ個の入力オーディオ・チャネルをエンコードしてＥ個の被送出オーディオ・チャネルを生成し、ここでＣ＞Ｅ≧１である。具体的に言うと、Ｃ個の入力チャネルのうちの２つ以上が、周波数領域で供給され、１つまたは複数のキュー・コードが、周波数領域のその２つ以上の入力チャネル内の１つまたは複数の異なる周波数帯のそれぞれについて生成される。さらに、Ｃ個の入力チャネルが、Ｅ個の被送出チャネルを生成するためにダウンミキシングされる。いくつかのダウンミキシング実施態様では、Ｅ個の被送出チャネルのうちの少なくとも１つは、Ｃ個の入力チャネルのうちの２つ以上に基づき、Ｅ個の被送出チャネルのうちの少なくとも１つは、Ｃ個の入力チャネルのうちの単一の１つだけに基づく。

一実施形態で、ＢＣＣコーダは、２つ以上のフィルタ・バンク、コード・エスティメータ、およびダウンミキサを有する。２つ以上のフィルタ・バンクは、Ｃ個の入力チャネルのうちの２つ以上を時間領域から周波数領域に変換する。コード・エスティメータは、２つ以上の変換された入力チャネル内の１つまたは複数の異なる周波数帯のそれぞれについて１つまたは複数のキュー・コードを生成する。ダウンミキサは、Ｃ個の入力チャネルをダウンミキシングして、Ｅ個の被送出チャネルを生成し、ここで、Ｃ＞Ｅ≧１である。

ＢＣＣデコーディングでは、Ｅ個の被送出オーディオ・チャネルが、Ｃ個の再生（すなわち、合成された）オーディオ・チャネルを生成するためにデコードされる。具体的に言うと、１つまたは複数の異なる周波数帯のそれぞれについて、Ｅ個の被送出チャネルのうちの１つまたは複数が、周波数領域でアップミキシングされて、周波数領域のＣ個の再生チャネルのうちの２つ以上を生成し、ここで、Ｃ＞Ｅ≧１である。１つまたは複数のキュー・コードが、周波数領域の２つ以上の再生チャネル内の１つまたは複数の異なる周波数帯のそれぞれに適用されて、２つ以上の変更されたチャネルが生成され、これらの２つ以上の変更されたチャネルは、周波数領域から時間領域に変換される。いくつかのアップミキシング実施態様では、Ｃ個の再生チャネルのうちの少なくとも１つは、Ｅ個の被送出チャネルのうちの少なくとも１つおよび少なくとも１つのキュー・コードに基づき、Ｃ個の再生チャネルのうちの少なくとも１つは、Ｅ個の被送出チャネルのうちの単一の１つだけに基づき、どのキュー・コードからも独立である。

一実施形態で、ＢＣＣデコーダは、アップミキサ、シンセサイザ、および１つまたは複数の逆フィルタ・バンクを有する。１つまたは複数の異なる周波数帯のそれぞれについて、アップミキサは、周波数領域のＥ個の被送出チャネルのうちの１つまたは複数をアップミキシングして、周波数領域のＣ個の再生チャネルのうちの２つ以上を生成し、ここで、Ｃ＞Ｅ≧１である。シンセサイザは、１つまたは複数のキュー・コードを周波数領域の２つ以上の再生チャネル内の１つまたは複数の異なる周波数帯のそれぞれに適用して、２つ以上の変更されたチャネルを生成する。１つまたは複数の逆フィルタ・バンクは、２つ以上の変更されたチャネルを周波数領域から時間領域に変換する。

特定の実施態様に応じて、所与の再生チャネルを、２つ以上の被送出チャネルの組合せではなく、単一の被送出チャネルに基づくものとすることができる。たとえば、１つの被送出チャネルだけがある場合に、Ｃ個の再生チャネルのそれぞれは、その１つの被送出チャネルに基づく。これらの情況では、アップミキシングは、対応する被送出チャネルをコピーすることに対応する。したがって、１つの被送出チャネルだけがある応用例では、アップミキサを、再生チャネルごとに被送出チャネルをコピーするリプリケータを使用して実施することができる。

ＢＣＣエンコーダおよび／またはＢＣＣデコーダを、たとえば、ディジタル・ビデオ・レコーダ／プレイヤ、ディジタル・オーディオ・レコーダ／プレイヤ、コンピュータ、衛星送信器／受信器、ケーブル送信器／受信器、地上波放送送信器／受信器、ホーム・エンターテイメント・システム、およびムービー・シアター・システムを含む２つ以上のシステムまたは応用例に組み込むことができる。

包括的なＢＣＣ処理
図２は、エンコーダ２０２とデコーダ２０４とを含む包括的なバイノーラル・キュー・コーディング（ＢＣＣ）オーディオ処理システム２００のブロック図である。エンコーダ２０２には、ダウンミキサ２０６とＢＣＣエスティメータ２０８とが含まれる。

ダウンミキサ２０６は、Ｃ個の入力オーディオ・チャネルｘ_ｉ（ｎ）をＥ個の被送出オーディオ・チャネルｙ_ｉ（ｎ）に変換し、ここで、Ｃ＞Ｅ≧１である。本明細書では、変数ｎを使用して表される信号は、時間領域信号であり、変数ｋを使用して表される信号は、周波数領域信号である。特定の実施態様に応じて、ダウンミキシングを、時間領域または周波数領域のいずれかで実施することができる。ＢＣＣエスティメータ２０８は、Ｃ個の入力オーディオ・チャネルからＢＣＣコードを生成し、これらのＢＣＣコードを、Ｅ個の被送出オーディオ・チャネルに対する帯域内サイド情報または帯域外サイド情報のいずれかとして送出する。通常のＢＣＣコードには、周波数および時間の関数として入力チャネルのある対の間で推定された、チャネル間時間差（ＩＣＴＤ）データ、チャネル間レベル差（ＩＣＬＤ）データ、およびチャネル間相関（ｉｎｔｅｒ−ｃｈａｎｎｅｌｃｏｒｒｅｌａｔｉｏｎ、ＩＣＣ）データのうちの１つまたは複数が含まれる。特定の実施態様は、入力チャネルのどの特定の対の間でＢＣＣコードが推定されるかを規定する。

ＩＣＣデータは、バイノーラル信号のコヒーレンスに対応し、このコヒーレンスは、オーディオ・ソースの知覚される幅に関連する。オーディオ・ソースが幅広いほど、結果のバイノーラル信号の左チャネルと右チャネルとの間のコヒーレンスは小さい。たとえば、公会堂のステージ全体に広がったオーケストラに対応するバイノーラル信号のコヒーレンスは、通常、単独で演奏される単一のバイオリンに対応するバイノーラル信号のコヒーレンスより小さい。一般に、より小さいコヒーレンスを有するオーディオ信号は、通常、聴覚空間内でより広がっているものとして知覚される。したがって、ＩＣＣデータは、通常、見かけのソース幅とリスナ・エンベロップメント（ｌｉｓｔｅｎｅｒｅｎｖｅｌｏｐｍｅｎｔ）の度合とに関連する。たとえば、Ｊ．Ｂｌａｕｅｒｔ、「ＴｈｅＰｓｙｃｈｏｐｈｙｓｉｃｓｏｆＨｕｍａｎＳｏｕｎｄＬｏｃａｌｉｚａｔｉｏｎ」、ＭＩＴＰｒｅｓｓ、１９８３年を参照されたい。

特定の応用例に応じて、Ｅ個の被送出オーディオ・チャネルおよび対応するＢＣＣコードを、デコーダ２０４に直接に送出するか、デコーダ２０４による後続アクセスのためにある適切なタイプのストレージ・デバイスに保管することができる。情況に応じて、用語「送出」は、デコーダへの直接送出またはデコーダへの後続供給のための保管のいずれかを指すことができる。どちらの場合でも、デコーダ２０４は、被送出オーディオ・チャネルとサイド情報とを受け取り、アップミキシングおよびＢＣＣコードを使用するＢＣＣ合成を実行して、Ｅ個の被送出オーディオ・チャネルを、オーディオ再生用のＥ個を超える（必ずではないが通常はＣ個の）再生オーディオ・チャネル

に変換する。特定の実施態様に応じて、アップミキシングを、時間領域または周波数領域のいずれかで実行することができる。

図２に示されたＢＣＣ処理に加えて、包括的なＢＣＣオーディオ処理システムには、さらに、それぞれ、エンコーダでオーディオ信号を圧縮し、デコーダでオーディオ信号を圧縮解除するために、追加のエンコーディング・ステージおよびデコーディング・ステージを含めることができる。これらのオーディオ・コーデックは、パルス符号変調（ＰＣＭ）、差分ＰＣＭ（ＤＰＣＭ）、または適応ＤＰＣＭ（ＡＤＰＣＭ）に基づくものなどの従来のオーディオ圧縮／圧縮解除技法に基づくものとすることができる。

ダウンミキサ２０６が単一の和信号を生成する（すなわち、Ｅ＝１）場合に、ＢＣＣコーディングは、モノ・オーディオ信号を表すのに必要なものよりごくわずかに高いビットレートでマルチチャネル・オーディオ信号を表すことができる。これがそうであるのは、チャネル対の間の推定されたＩＣＴＤデータ、ＩＣＬＤデータ、およびＩＣＣデータが、オーディオ波形より約２桁少ない情報を含むからである。

ＢＣＣコーディングの低いビットレートだけではなく、その後方互換性態様も、重要である。単一の被送出和信号は、オリジナルのステレオ信号またはマルチチャネル信号のモノ・ダウンミックスに対応する。ステレオ・サウンド再現またはマルチチャネル・サウンド再現をサポートしないレシーバについて、被送出和信号に聞き入ることは、低プロファイル・モノ再現機器でオーディオ素材を提示する有効な方法である。したがって、ＢＣＣコーディングは、モノ・オーディオ素材の配信を伴う既存サービスをマルチチャネル・オーディオに向かって機能強化するのに使用することもできる。たとえば、ＢＣＣサイド情報を既存送出チャネルに埋め込むことができる場合に、既存のモノ・オーディオ・ラジオ放送システムを、ステレオ再生またはマルチチャネル再生のために機能強化することができる。マルチチャネル・オーディオをステレオ・オーディオに対応する２つの和信号にダウンミキシングする場合に、類似する機能が存在する。

ＢＣＣは、ある時間および周波数の分解能を用いてオーディオ信号を処理する。使用される周波数分解能は、主に、人間の聴覚系の周波数分解能によって誘導される。音響心理学は、空間的知覚が、音響入力信号の臨界帯域表現に基づく可能性が最も高いことを示唆する。この周波数分解能は、人間の聴覚系の臨界帯域幅と等しいかこれに比例する帯域幅を有するサブバンドを有する可逆フィルタ・バンク（たとえば、高速フーリエ変換（ＦＦＴ）または直交ミラー・フィルタ（ＱＭＦ）に基づく）を使用することによって考慮される。

包括的なダウンミキシング
好ましい実施態様では、１つまたは複数の被送出和信号に、入力オーディオ信号の信号成分のすべてが含まれる。目標は、各信号成分が十分に維持されることである。オーディオ入力チャネルの単純な合計は、しばしば、信号成分の増幅または減衰をもたらす。言い換えると、「単純な」和の信号成分の電力は、しばしば、各チャネルの対応する信号成分の電力の和より大きいまたはこれより小さい。和信号の信号成分の電力が、全入力チャネルの対応する電力とほぼ同一になるように和信号を等化するダウンミキシング技法を、使用することができる。

図３に、ＢＣＣシステム２００のある種の実施態様による、図２のダウンミキサ２０６に使用できるダウンミキサ３００のブロック図を示す。ダウンミキサ３００は、入力チャネルｘ_ｉ（ｎ）ごとのフィルタ・バンク（ＦＢ）３０２、ダウンミキシング・ブロック３０４、任意選択のスケーリング／遅延ブロック３０６、およびエンコードされたチャネルｙ_ｉ（ｎ）ごとの逆ＦＢ（ＩＦＢ）３０８を有する。

各フィルタ・バンク３０２は、時間領域の対応するディジタル入力チャネルｘ_ｉ（ｎ）の各フレーム（たとえば、２０ミリ秒）を周波数領域の１組の入力係数

に変換する。ダウンミキシング・ブロック３０４は、Ｃ個の対応する入力係数の各サブバンドを、Ｅ個のダウンミキシングされた周波数領域係数の対応するサブバンドにダウンミキシングする。式（１）は、入力係数のｋ番目のサブバンド

の、次のようなダウンミキシングされた係数のｋ番目のサブバンド

を生成するためのダウンミキシングを表す。

ここで、Ｄ_ＣＥは、実数値を有するＣ×Ｅダウンミキシング行列である。

任意選択のスケーリング／遅延ブロック３０６には、乗算器３１０の組が含まれ、この乗算器３１０のそれぞれは、対応するダウンミキシングされた係数

に倍率ｅ_ｉ（ｋ）を乗じて、対応するスケーリングされた係数

を生成する。このスケーリング演算の動機付けは、チャネルごとの任意の重み付け因数を用いるダウンミキシングについて一般化された等化と同等である。入力チャネルが独立である場合に、各サブバンド内のダウンミキシングされた信号の電力

は、次の式（２）によって与えられる。

ここで、

は、Ｃ×Ｅダウンミキシング行列Ｄ_ＣＥの各行列要素を二乗することによって導出され、

は、入力チャネルｉのサブバンドｋの電力である。

サブバンドが独立でない場合に、ダウンミキシングされた信号の電力値

は、それぞれ信号成分が同相または位相外れである場合の信号増幅または信号打ち消しに起因して、式（２）を使用して計算される値より大きいまたはこれより小さい。これを防ぐために、式（１）のダウンミキシング動作が、サブバンドで適用され、これに、乗算器３１０によるスケーリング動作が続く。倍率ｅ_ｉ（ｋ）（１≦ｉ≦Ｅ）は、次の式（３）を使用して導出することができる。

ここで、

は、式（２）によって計算されるサブバンド電力であり、

は、対応するダウンミキシングされたサブバンド信号

の電力である。

任意選択のスケーリングを提供することに加えて、またはその代わりに、スケーリング／遅延ブロック３０６は、任意選択として信号に遅延を適用することができる。
各逆フィルタ・バンク３０８は、周波数領域の対応するスケーリングされた係数

を、対応するディジタルの被送出チャネルｙ_ｉ（ｎ）のフレームに変換する。

図３には、Ｃ個すべての入力チャネルが後続ダウンミキシングのために周波数領域に変換されることが示されているが、代替実施態様では、Ｃ個の入力チャネルのうちの１つまたは複数（ただし、Ｃ−１個未満）が、図３に示された処理の一部またはすべてを迂回し、同等の個数の変更されないオーディオ・チャネルとして送出されることができる。特定の実施態様に応じて、これらの変更されないオーディオ・チャネルは、被送出ＢＣＣコードを生成する際に図２のＢＣＣエスティメータ２０８によって使用されてもされなくてもよい。

単一の和信号ｙ（ｎ）を生成するダウンミキサ３００の実施態様では、Ｅ＝１であり、各入力チャネルｃの各サブバンドの信号

は、以下のように、次の式（４）に従って加算され、因数ｅ（ｋ）をかけられる。

因数ｅ（ｋ）は、次の式（５）によって、次のように与えられる。

ここで、

は、時間インデックスｋでの

の電力の短時間推定値であり、

は、

の電力の短時間推定値である。等化されたサブバンドは、時間領域に戻って変換され、和信号ｙ（ｎ）をもたらし、この和信号ｙ（ｎ）がＢＣＣデコーダに送出される。

包括的なＢＣＣ合成
図４に、ＢＣＣシステム２００のある種の実施態様による、図２のデコーダ２０４に使用できるＢＣＣシンセサイザ４００のブロック図を示す。ＢＣＣシンセサイザ４００は、被送出チャネルｙ_ｉ（ｎ）ごとのフィルタ・バンク４０２、アップミキシング・ブロック４０４、遅延４０６、乗算器４０８、デ・コリレーション（ｄｅ−ｃｏｒｒｅｌａｔｉｏｎ）ブロック４１０、および再生チャネル

ごとの逆フィルタ・バンク４１２を有する。

各フィルタ・バンク４０２は、時間領域の対応するディジタル被送出チャネルｙ_ｉ（ｎ）の各フレームを、周波数領域の入力係数

の組に変換する。アップミキシング・ブロック４０４は、Ｅ個の対応する被送出チャネル係数の各サブバンドを、Ｃ個のアップミキシングされた周波数領域係数の対応するサブバンドにアップミキシングする。式（４）は、被送出チャネル係数のｋ番目のサブバンド

の、アップミキシングされた係数のｋ番目のサブバンド

を生成するための、次のようなアップミキシングを表す。

ここで、Ｕ_ＥＣは、実数値を有するＥ×Ｃアップミキシング行列である。周波数領域でアップミキシングを実行することは、アップミキシングを各異なるサブバンドで個別に適用することを可能にする。

各遅延４０６は、ＩＣＴＤデータの対応するＢＣＣコードに基づく遅延値ｄ_ｉ（ｋ）を適用して、所望のＩＣＴＤ値が再生チャネルのある対の間に現れることを保証する。各乗算器４０８は、ＩＣＬＤデータの対応するＢＣＣコードに基づく倍率ａ_ｉ（ｋ）を適用して、所望のＩＣＬＤ値が再生チャネルのある対の間に現れることを保証する。デ・コリレーション・ブロック４１０は、ＩＣＣデータの対応するＢＣＣコードに基づくデ・コリレーション動作Ａを実行して、所望のＩＣＣ値が再生チャネルのある対の間に現れることを保証する。デ・コリレーション・ブロック４１０の動作のさらなる詳細は、Ｂａｕｍｇａｒｔｅ２−１０として２００２年５月２４日に出願した米国特許出願第１０／１５５４３７号に見出すことができる。

ＩＣＬＤ値の合成は、ＩＣＴＤ値およびＩＣＣ値の合成より面倒でない可能性がある。というのは、ＩＣＬＤ合成が、単にサブバンド信号のスケーリングを用いるからである。ＩＣＬＤキューは、最も一般的に使用されるディレクショナル・キュー（ｄｉｒｅｃｔｉｏｎａｌｃｕｅ）なので、通常は、ＩＣＬＤ値がオリジナル・オーディオ信号のＩＣＬＤ値を近似することが、より重要である。したがって、ＩＣＬＤデータを、すべてのチャネル対の間で推定することができる。各サブバンドの倍率ａ_ｉ（ｋ）（１≦ｉ≦Ｃ）は、各再生チャネルのサブバンド電力がオリジナル入力オーディオ・チャネルの対応する電力を近似するようになるように選択されることが好ましい。

１つの目標は、ＩＣＴＤ値およびＩＣＣ値の合成に関して相対的に少数の信号変更を適用することとすることができる。したがって、ＢＣＣデータに、すべてのチャネル対のＩＣＴＤ値およびＩＣＣ値を含めないものとすることができる。その場合に、ＢＣＣシンセサイザ４００は、あるチャネル対の間でのみＩＣＴＤ値およびＩＣＣ値を合成するはずである。
各逆フィルタ・バンク４１２は、周波数領域の対応する合成された係数

の組を、対応するディジタル再生チャネル

のフレームに変換する。

図４には、Ｅ個のすべての被送出チャネルが後続のアップミキシングおよびＢＣＣ処理のために周波数領域に変換されることが示されているが、代替実施態様では、Ｅ個の被送出チャネルのうちの１つまたは複数（ただし、すべてではない）が、図４に示された処理の一部またはすべてを迂回することができる。たとえば、１つまたは複数の被送出チャネルを、アップミキシングを一切受けない変更されないチャネルとすることができる。Ｃ個の再生チャネルのうちの１つまたは複数であることに加えて、これらの変更されないチャネルを、他の再生チャネルのうちの１つまたは複数を合成するためにＢＣＣ処理が適用される基準チャネルとして使用することができるが、そうする必要はない。どちらの場合でも、そのような変更されないチャネルは、残りの再生チャネルを生成するのに使用されるアップミキシングおよび／またはＢＣＣ処理に伴う処理時間を補償するために、遅延を受ける場合がある。

図４には、Ｃ個の再生チャネルがＥ個の被送出チャネルから合成されることが示され、Ｃは、オリジナル入力チャネルの個数でもあったが、ＢＣＣ合成が、再生チャネルのその個数に限定されないことに留意されたい。一般に、再生チャネルの個数は、Ｃより大きい個数またはＣより小さい個数を含む、おそらくは再生チャネルの個数が被送出チャネルの個数以下である情況さえ含む、チャネルの任意の個数とすることができる。

オーディオ・チャネルの間の「知覚的に関連する差」
単一の和信号を仮定すると、ＢＣＣは、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣがオリジナル・オーディオ信号の対応するキューを近似するように、ステレオ・オーディオ信号またはマルチチャネル・オーディオ信号を合成する。次では、オーディトリ・スペイシャル・イメージ（ａｕｄｉｔｏｒｙｓｐａｔｉａｌｉｍａｇｅ）属性に関するＩＣＴＤ、ＩＣＬＤ、およびＩＣＣの役割を述べる。

スペイシャル・ヒアリング（ｓｐａｔｉａｌｈｅａｒｉｎｇ）に関する知識は、１つのオーディトリ・イベントについて、ＩＣＴＤおよびＩＣＬＤが、知覚される方向に関連することを暗示する。１つのソースのバイノーラル・ルーム・インパルス応答（ｂｉｎａｕｒａｌｒｏｏｍｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ、ＢＲＩＲ）を考慮する場合に、オーディトリ・イベントの幅とリスナ・エンベロップメントとＢＲＩＲの早期の部分および後期の部分について推定されたＩＣＣデータとの間に関係がある。しかし、ＩＣＣと一般的な信号のこれらのプロパティ（ＢＲＩＲだけではなく）との間の関係は、単純ではない。

ステレオ・オーディオ信号およびマルチチャネル・オーディオ信号は、通常、囲まれた空間での録音から生じる反射信号成分によって重畳されるまたは空間的印象を人工的に作成するために録音エンジニアによって追加される同時にアクティブなソース信号の複雑な混合物を含む。異なるソース信号およびその反射は、時間−周波数平面内で異なる領域を占める。これは、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣによって反映され、この３つは、時間および周波数の関数として変化する。この場合に、瞬間的なＩＣＴＤ、ＩＣＬＤ、およびＩＣＣとオーディトリ・イベント方向と空間的印象との間の関係は、明白ではない。ＢＣＣのある種の実施形態の戦略は、これらのキューがオリジナル・オーディオ信号の対応するキューを近似するように、これらのキューを盲目的に合成することである。

等価長方形帯域幅（ｅｑｕｉｖａｌｅｎｔｒｅｃｔａｎｇｕｌａｒｂａｎｄｗｉｄｔｈ、ＥＲＢ）の２倍と等しい帯域幅のサブバンドを有するフィルタ・バンクが、使用される。インフォーマル・リスニング（ｉｎｆｏｒｍａｌｌｉｓｔｅｎｉｎｇ）は、ＢＣＣのオーディオ品質が、より高い周波数分解能を選択した時に顕著には改善されないことを明らかにする。より低い周波数分解能が望ましい可能性がある。というのは、より低い周波数分解能が、デコーダに送出される必要があるより少ないＩＣＴＤ値、ＩＣＬＤ値、およびＩＣＣ値をもたらし、したがってより低いビットレートをもたらすからである。

時間分解能に関して、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣは、通常、規則的な時間間隔で考慮される。ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣが約４ｍｓから約１６ｍｓおきに考慮される時に、高い性能が得られる。キューが非常に短い時間間隔で考慮されない限り、先行音効果が直接には考慮されないことに留意されたい。古典的なサウンド刺激のリード／ラグ対（ｌｅａｄ−ｌａｇｐａｉｒ）を仮定すると、リードおよびラグが、１組のキューだけが合成される時間間隔に含まれる場合に、リードの局所化優位（ｌｏｃａｌｉｚａｔｉｏｎｄｏｍｉｎａｎｃｅ）は、考慮されない。これにもかかわらず、ＢＣＣは、平均して約８７（すなわち、「優秀な」オーディオ品質）、およびある種のオーディオ信号についてほぼ１００までの平均ＭＵＳＨＲＡスコアに反映されるオーディオ品質を達成する。

基準信号と合成された信号との間のしばしば達成される知覚的に小さい差は、広範囲のオーディトリ・スペイシャル・イメージ属性に関連するキューが、規則的な時間間隔でＩＣＴＤ、ＩＣＬＤ、およびＩＣＣを合成することによって暗黙のうちに考慮されていることを暗示する。次では、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣが、ある範囲のオーディトリ・スペイシャル・イメージ属性にどのように関係し得るかに関するいくつかの議論を与える。

空間的キューの推定
次では、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣがどのように推定されるかを説明する。これらの（量子化され、コーディングされた）空間的キューの送出のビットレートは、２〜３ｋｂ／ｓに過ぎないものとすることができ、したがって、ＢＣＣを用いると、ステレオ・オーディオ信号およびマルチチャネル・オーディオ信号を、単一オーディオ・チャネルに必要なものに近いビットレートで送出することが可能である。

図５に、本発明の一実施形態による図２のＢＣＣエスティメータ２０８のブロック図を示す。ＢＣＣエスティメータ２０８には、図３のフィルタ・バンク３０２と同一とすることができるフィルタ・バンク（ＦＢ）５０２と、フィルタ・バンク５０２によって生成された異なる周波数サブバンドごとにＩＣＴＤ空間的キュー、ＩＣＬＤ空間的キュー、およびＩＣＣ空間的キューを生成する推定ブロック５０４とが含まれる。

ステレオ信号のＩＣＴＤ、ＩＣＬＤ、およびＩＣＣの推定
次の測定値が、２つの（たとえば、ステレオ）オーディオ・チャネルの対応するサブバンド信号

および

のＩＣＴＤ、ＩＣＬＤ、およびＩＣＣに使用される。
○ＩＣＴＤ［サンプル単位］：

正規化された相互相関関数の短時間推定値は、次の式（８）によって与えられる。

ここで、
ｄ_１＝ｍａｘ｛−ｄ，０｝
ｄ_２＝ｍａｘ｛ｄ，０｝（９）
であり、

は、

の平均値の短時間推定値である。
○ＩＣＬＤ［ｄＢ］：

○ＩＣＣ：

正規化された相互相関の絶対値が考慮され、ｃ_１２（ｋ）が［０，１］の範囲を有することに留意されたい。

マルチチャネル・オーディオ信号のＩＣＴＤ、ＩＣＬＤ、およびＩＣＣの推定
３つ以上の入力チャネルがある場合には、通常、Ｃ＝５チャネルの場合について図６に示されているように、基準チャネル（たとえば、チャネル番号１）と他のチャネルとの間でＩＣＴＤおよびＩＣＬＤを定義することが十分であり、ここで、τ_１ｃ（ｋ）およびΔＬ_１ｃ（ｋ）は、それぞれ基準チャネル１とチャネルｃとの間のＩＣＴＤおよびＩＣＬＤを表す。

ＩＣＴＤおよびＩＣＬＤとは異なって、ＩＣＣは、通常、より多くの自由度を有する。定義されるＩＣＣは、すべての可能な入力チャネル対の間で異なる値を有することができる。Ｃ個のチャネルについて、Ｃ（Ｃ−１）／２個の可能なチャネル対があり、たとえば、５チャネルの場合には、図７（ａ）に示されているように１０個のチャネル対がある。しかし、そのような方式は、各時間インデックスに、サブバンドごとに、Ｃ（Ｃ−１）／２個のＩＣＣ値が推定され、送出されることを必要とし、高い計算的複雑さおよび高いビットレートをもたらす。

代替案では、サブバンドごとに、ＩＣＴＤおよびＩＣＬＤが、サブバンド内の対応する信号成分のオーディトリ・イベントがレンダリングされる方向を決定する。次に、サブバンドごとに１つの単一のＩＣＣパラメータを使用して、すべてのオーディオ・チャネルの間の全体的コヒーレンスを記述することができる。各時間インデックスに各サブバンド内で最大のエネルギを有する２つのチャネルの間でのみＩＣＣキューを推定し、送出することによって、よい結果を得ることができる。これが図７（ｂ）に示されており、図７（ｂ）では、時刻ｋ−１およびｋについて、それぞれチャネル対（３，４）および（１，２）が最も強い。ヒューリスティック・ルールを、他のチャネル対の間のＩＣＣを決定するのに使用することができる。

空間的キューの合成
図８に、単一の被送出和信号ｓ（ｎ）と空間的キューとを与えられてステレオ・オーディオ信号またはマルチチャネル・オーディオ信号を生成するのにＢＣＣデコーダ内で使用できる、図４のＢＣＣシンセサイザ４００の実施態様のブロック図を示す。和信号ｓ（ｎ）は、サブバンドに分解され、ここで、

は、１つのそのようなサブバンドを表す。出力チャネルのそれぞれの対応するサブバンドを生成するために、遅延ｄ_ｃ、倍率ａ_ｃ、およびフィルタｈ_ｃが、和信号の対応するサブバンドに適用される（表記を単純にするために、時間インデックスｋは、遅延、倍率、およびフィルタでは無視される）。ＩＣＴＤは、遅延を課すことによって合成され、ＩＣＬＤは、スケーリングを課すことによって合成され、ＩＣＣは、デ・コリレーション・フィルタを課すことによって合成される。図８に示された処理は、各サブバンドに独立に適用される。

ＩＣＴＤ合成
遅延ｄ_ｃは、次の式（１２）に従って、ＩＣＴＤ τ_１ｃ（ｋ）から決定される。

基準チャネルの遅延ｄ_１は、遅延ｄ_ｃの最大の大きさが最小化されるように計算される。サブバンド信号がより小さく変更されるほど、アーチファクトが発生する危険が少ない。サブバンド・サンプリング・レートが、ＩＣＴＤ合成について十分に高い時間分解能を提供しない場合には、適切な全通過フィルタを使用することによって、遅延をより正確に課すことができる。

ＩＣＬＤ合成
出力サブバンド信号が、チャネルｃと基準チャネル１との間で所望のＩＣＬＤ ΔＬ_１２（ｋ）を有するためには、利得係数ａ_ｃが、次の式（１３）を満足しなければならない。

さらに、出力サブバンドは、全出力チャネルの電力の和が入力和信号の電力と等しくなるように正規化されることが好ましい。各サブバンドの総オリジナル信号電力が、和信号で保存されるので、この正規化は、各出力チャネルの絶対サブバンド電力がオリジナル・エンコーダ入力オーディオ信号の対応する電力を近似することをもたらす。これらの制約を与えられて、倍率ａ_ｃは、次の式（１４）によって与えられる。

ＩＣＣ合成
ある種の実施形態で、ＩＣＣ合成の目的は、ＩＣＴＤおよびＩＣＬＤに影響せずに、遅延およびスケーリングが適用された後のサブバンド間の相関を減らすことである。これは、ＩＣＴＤおよびＩＣＬＤが、平均変動が各サブバンド内で０になる（聴覚臨界帯域）ように周波数の関数として効果的に変更されるように、図８のフィルタｈ_ｃを指定することによって達成することができる。

図９に、ＩＣＴＤおよびＩＣＬＤが周波数の関数としてサブバンド内でどのように変更されるかを示す。ＩＣＴＤおよびＩＣＬＤの変動の振幅は、デ・コリレーションの度合を決定し、ＩＣＣの関数として制御される。ＩＣＴＤが、滑らかに変更される（図９（ａ）に示されているように）が、ＩＣＬＤが、ランダムに変更される（図９（ｂ）に示されているように）ことに留意されたい。ＩＣＬＤをＩＣＴＤのように滑らかに変更することができるが、これは、結果のオーディオ信号のより多くの相関をもたらすはずである。

ＩＣＣを合成する、特にマルチチャネルＩＣＣ合成に適する、もう１つの方法が、その教示が参照によって本明細書に組み込まれているＣ．Ｆａｌｌｅｒ、「Ｐａｒａｍｅｔｒｉｃｍｕｌｔｉ−ｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇ：Ｓｙｎｔｈｅｓｉｓｏｆｃｏｈｅｒｅｎｃｅｃｕｅｓ」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．、２００３年でより詳細に説明されている。時間および周波数の関数として、ある量の人工的な後期残響が、所望のＩＣＣを達成するために出力チャネルのそれぞれに追加される。さらに、結果の信号のスペクトル包絡がオリジナル・オーディオ信号のスペクトル包絡に近づくように、スペクトル変更を適用することができる。

ステレオ信号（またはオーディオ・チャネル対）に関する他の関連するおよび関連しないＩＣＣ合成技法が、その両方の教示が参照によって本明細書に組み込まれている、Ｅ．Ｓｃｈｕｉｊｅｒｓ、Ｗ．Ｏｏｍｅｎ、Ｂ．ｄｅｎＢｒｉｎｋｅｒ、およびＪ．Ｂｒｅｅｂａａｒｔ、「Ａｄｖａｎｃｅｓｉｎｐａｒａｍｅｔｒｉｃｃｏｄｉｎｇｆｏｒｈｉｇｈ−ｑｕａｌｉｔｙａｕｄｉｏ」、Ｐｒｅｐｒｉｎｔ１１４ｔｈＣｏｎｖ．Ａｕｄ．Ｅｎｇ．Ｓｏｃ．、２００３年３月と、Ｊ．Ｅｎｇｄｅｇａｒｄ、Ｈ．Ｐｕｒｎｈａｇｅｎ、Ｊ．Ｒｏｄｅｎ、およびＬ．Ｌｉｌｊｅｒｙｄ、「Ｓｙｎｔｈｅｔｉｃａｍｂｉｅｎｃｅｉｎｐａｒａｍｅｔｒｉｃｓｔｅｒｅｏｃｏｄｉｎｇ」、Ｐｒｅｐｒｉｎｔ１１７ｔｈＣｏｎｖ．Ａｕｄ．Ｅｎｇ．Ｓｏｃ．、２００４年５月とに提示されている。

Ｃ−ｔｏ−ＥＢＣＣ
前に説明したように、ＢＣＣは、２つ以上の送出チャネルを用いて実施することができる。Ｃ個のオーディオ・チャネルを１つの単一（被送出）チャネルではなくＥ個のチャネルとして表す、Ｃ−ｔｏ−ＥＢＣＣと表されるＢＣＣの変形形態を説明した。Ｃ−ｔｏ−ＥＢＣＣには、次の（少なくとも）２つの動機付けがある。

○１つの送出チャネルを用いるＢＣＣは、ステレオ・オーディオ再生またはマルチチャネル・オーディオ再生のために既存のモノ・システムをアップグレードする後方互換性経路を提供する。アップグレードされたシステムは、さらにＢＣＣサイド情報を送出しながら、既存のモノ・インフラストラクチャを介してＢＣＣダウンミキシングされた和信号を送出する。Ｃ−ｔｏ−ＥＢＣＣは、Ｃ個のチャネルのオーディオの、Ｅ個のチャネルの後方互換性コーディングに適用可能である。

○Ｃ−ｔｏ−ＥＢＣＣは、被送出チャネルの個数の削減の異なる度合に関するスケーラビリティを導入する。送出されるオーディオ・チャネルが多いほど、オーディオ品質がよりよくなることが期待される。

ＩＣＴＤキュー、ＩＣＬＤキュー、およびＩＣＣキューを定義する方法など、Ｃ−ｔｏ−ＥＢＣＣの信号処理の詳細は、２００４年１月２０日に出願した米国特許出願第１０／７６２１００号（Ｆａｌｌｅｒ１３−１）に記載されている。

外部的に供給されるダウンミックスとのコーディングの同期化
図２に、Ｃ個の入力チャネルがＥ個のダウンミキシングされたチャネルにダウンミキシングされ、このＥ個のダウンミキシングされたチャネルが、サイド情報としてのＣ個の入力チャネルから導出された空間的キュー（たとえば、ＩＣＴＤ、ＩＣＬＤ、および／またはＩＣＣ）と一緒に送出／コーディングされる、Ｃ−ｔｏ−ＥＢＣＣ方式を示す。例示的な５−ｔｏ−２ＢＣＣ方式では、５つのサラウンド・チャネルが、ステレオにダウンミキシングされる。レガシ・レシーバは、ステレオを再生するが、機能強化された（すなわち、ＢＣＣ対応の）レシーバは、サイド情報に基づいてＢＣＣ合成を実施して、５チャネル・サラウンド信号を回復する。

通常、ステレオ信号およびマルチチャネル（たとえば、サラウンド）信号が作られる時に、これらの信号は、スタジオ・エンジニアによって個別に最適化／ミキシングされる。図２のダウンミキサ２０６によって実施されるものなどのマルチチャネル信号の自動ダウンミキシングによって生成されるステレオ信号は、通常、スタジオ・エンジニアによる手動最適制作によって生成されるステレオ信号より劣る。レガシ・レシーバが高品質ステレオを再生できるようにするためには、１つの可能性は、ダウンミキサ２０６によって生成されるものなどのダウンミキシングされたステレオ信号ではなく、スタジオ・エンジニアによって生成されたステレオ信号などの外部的に供給されるステレオ信号を空間的キューと共に送出することである。

図１０は、ＢＣＣエンコーダ１００２とＢＣＣデコーダ１００４とを有するＢＣＣオーディオ処理システム１０００のブロック図である。ＢＣＣエスティメータ１００８（図２のＢＣＣエスティメータ２０８に類似する）は、マルチチャネル（たとえば、サラウンド）入力信号（ｘ_１（ｎ），…，ｘ_Ｃ（ｎ））からＢＣＣサイド情報１０１０を生成し、エンコーダ１００２は、そのＢＣＣサイド情報を、マルチチャネル信号に対応する外部的に供給されるステレオ信号（ｙ_１（ｎ），ｙ_２（ｎ））と一緒にデコーダ１００４に送出する。ＢＣＣシンセサイザ１０１２（図２のＢＣＣシンセサイザに類似する）は、受け取ったＢＣＣサイド情報１０１０を受け取ったステレオ信号（ｙ_１（ｎ），ｙ_２（ｎ））に適用して、マルチチャネル信号の合成された版

を生成する。

マルチチャネル入力信号がＢＣＣエスティメータ１００８に供給されることに加えて、図１０には、外部的に供給されるステレオ信号がＢＣＣエスティメータ１００８に印加されることも示されている。ある種の実施態様で、ＢＣＣエスティメータ１００８は、ＢＣＣサイド情報を生成する際に、外部的に供給されるステレオ信号に絶対に頼らない。他の実施態様では、ある種の情況で、ＢＣＣエスティメータ１００８が、たとえば、スタジオ・エンジニアリングされるダウンミキシング過程の結果として、外部的に供給されるステレオ信号がマルチチャネル入力信号と十分に異なる時に、ＢＣＣサイド情報を生成するのに、外部的に供給されるステレオ信号を使用する場合がある。

図１０に示されたＢＣＣ方式は、外部的に供給されるステレオ信号が、マルチチャネル入力信号とよく同期化されていることを前提とする。これが、真ではない場合がある。ステレオ信号とマルチチャネル信号との間に遅延がある場合があるだけではなく、その遅延が、時間の関数として変化する場合がある。

図１１は、本発明の一実施形態による、ＢＣＣエンコーダ１１０２とＢＣＣデコーダ１１０４とを有するＢＣＣオーディオ処理システム１１００のブロック図である。図１１からわかるように、図１０のＢＣＣエスティメータ１００８に類似するＢＣＣエスティメータ１１０８に加えて、ＢＣＣエンコーダ１１０２は、ダウンミキサ１１０６（図２のダウンミキサ２０６に類似する）と、固定遅延モジュール１１１４および１１１６と、遅延エスティメータ１１１８と、プログラマブル遅延モジュール１１２０とを含む。

ダウンミキサ１１０６は、マルチチャネル入力信号をダウンミキシングして、ダウンミキシングされたステレオ信号を生成し、このダウンミキシングされたステレオ信号は、固定遅延モジュール１１１４および１１１６からの外部的に供給されるステレオ信号の遅延された版と一緒に遅延エスティメータ１１１８に印加される。遅延エスティメータ１１１８は、この２つのステレオ信号を比較して、この２つのステレオ信号の間の遅延の推定値を生成する（たとえば、時間において適応式に、およびおそらくは異なる周波数帯について個別に）。その推定された遅延に基づいて、遅延エスティメータ１１１８は、制御信号を生成し、この制御信号は、この２つのステレオ信号の間の推定された遅延について補償するためにＢＣＣエスティメータ１１０８によって生成されるＢＣＣサイド情報にプログラマブル遅延モジュール１１２０によって適用される遅延の量を制御し、その結果、サイド情報１１１０が、デコーダ１１０４への送出について、遅延されたステレオ信号とよく同期化されるようになる。

固定遅延モジュール１１１４および１１１６によって適用される遅延は、（１）ダウンミキサ１１０６、ＢＣＣエスティメータ１１０８、および遅延エスティメータ１１１８に関連する処理遅延について補償し、（２）プログラマブル遅延モジュール１１２０によって適用される遅延が必ず正の遅延であることを保証するように設計される。

特定の実施態様に応じて、プログラマブル遅延モジュール１１２０は、必要に応じてキューをスキップするか繰り返すことによって、あるいは、より洗練されて、ある適切な補間技法（たとえば、線形補間）を適用することによって、ＢＣＣサイド情報に適用される遅延を調整することができる。理論上、代替の（より非実用的ではあるが）実施形態では、ＢＣＣサイド情報を圧縮しまたは展開するのではなく、ＢＣＣサイド情報と外部的に供給されるステレオ信号との相対タイミングを、ステレオ信号および／またはマルチチャネル入力信号を圧縮しまたは展開することによって調整することができる。

図１２は、本発明の一実施形態による、２つのオーディオ波形ｚ_１（ｎ）とｚ_２（ｎ）との間の遅延を推定するために遅延エスティメータ１１１８によって実施される処理を表すブロック図である。一実施態様で、ｚ_１（ｎ）は、図１１のダウンミキサ１１０６によって生成されたダウンミキシングされたステレオ信号の特定のチャネル（たとえば、右チャネルまたは左チャネル）に対応するものとすることができ、その場合に、ｚ_２（ｎ）は、遅延された外部的に供給されるステレオ信号の対応するチャネルに対応する。もう１つの可能な実施態様では、ｚ_１（ｎ）は、図１１のダウンミキサ１１０６によって生成されたダウンミキシングされたステレオ信号のチャネルの和に対応するものとすることができ、この場合に、ｚ_２（ｎ）は、遅延された外部的に供給されるステレオ信号のチャネルの対応する和に対応する。

図１２で表されているように、各オーディオ波形は、対応するフィルタ・バンク（ＦＢ）１２０２によって、サブバンド領域に変換される。遅延推定ブロック１２０４は、これらのサブバンドのうちの１つまたは複数（おそらくはすべて）の電力の短時間推定値を生成し、ここで、時刻ｋのサブバンド電力推定値のベクトルを、Ｚ_１（ｋ）およびＺ_２（ｋ）と表す（代替案では、サブバンドの大きさの短時間推定値を使用することができる）。遅延推定ブロック１２０４は、次の式（１５）に従って、正規化されたベクトル相互相関関数ｃ_ｓｚ（ｄ）を計算することによって、この２つの波形の間の時間的スペクトル的類似性を測定する。

ここで、Ｅ｛・｝は、数学的期待値を表し、「・」は、ベクトル・ドット積演算子であり、ｄは、タイム・ラグ・インデックスである。

この２つの波形の間の遅延は、経時的に変化する可能性があるので、式（１５）の短時間推定値γ（ｋ，ｄ）を、次の式（１６）に従って計算することができる。

ここで、
ａ_１２（ｋ，ｄ）＝αＺ_１（ｋ）・Ｚ_２（ｋ−ｄ）＋（１−α）ａ_１２（ｋ−１，ｄ）
ａ_１１（ｋ，ｄ）＝αＺ_１（ｋ−ｄ）・Ｚ_１（ｋ−ｄ）＋（１−α）ａ_１１（ｋ−１，ｄ）
ａ_２２（ｋ，ｄ）＝αＺ_２（ｋ）・Ｚ_２（ｋ）＋（１−α）ａ_２２（ｋ−１，ｄ）
であり、α∈［０，１］は、次の式（１７）によって与えられる指数関数的に減衰する推定ウィンドウＴの時定数を決定する、指定された定数である。

ここで、ｆ_ｓは、（ダウンサンプリングされた）サブバンド・サンプリング周波数を表す。

遅延推定ブロック１２０４は、次の式（１８）に従って、正規化されたベクトル相互相関関数γ（ｋ，ｄ）の最大値のラグｄとして遅延ｄ（ｋ）を推定する。

計算された遅延ｄ（ｋ）の時間分解能が、サブバンド・サンプリング・インターバル１／ｆ_ｓによって制限されることに留意されたい。

相互相関関数の正規化は、次の式（１９）に従って、瞬間的な正規化された相互相関関数の最大値として定義される２つの波形の間の類似性の推定値（たとえば、コヒーレンスｃ_１２（ｎ））を得るために導入される。

品質を改善するために、コヒーレンスｃ_１２（ｎ）が１に十分に近くはない場合に、外部的に供給されるステレオ信号がマルチチャネル・オーディオ内容に非常に似てはいないという仮定の下でよりよい結果が得られるように、ＢＣＣキューを調整することができる。

図１２に表された処理は、２つのフルバンド・オーディオ波形に適用することができるが、代替実施態様では、この処理を、異なる周波数で異なる遅延を有するオーディオ信号に関して異なる周波数帯で独立に適用することができる。

本発明のある種の実施態様で、遅延エスティメータ１１１８が２つのステレオ信号の間のタイム・ラグの推定値を生成するために、１つのダウンミキシングされたステレオ・チャネルだけ（たとえば、右チャネルだけまたは左チャネルだけのいずれか）が、対応する遅延された外部的に供給されるステレオ・チャネルと共に遅延エスティメータ１１１８に供給される必要があることに留意されたい。代替案では、１つの遅延推定値を、左チャネルについて生成し、もう１つの推定値を、右チャネルについて生成することができる。その場合に、より大きいコヒーレンスｃ_１２（ｎ）を有する遅延推定値を使用することができ、あるいは、この２つの遅延推定値の加重平均を計算することができ、ここで、重み付けは、２つの遅延推定値に関連するコヒーレンスの相対的な大きさの関数である。

説明された遅延推定アルゴリズムは、サブバンド信号の時間包絡の間の遅延を推定することに基づく。時間包絡（たとえば、電力値／大きさ値だけ）の使用は、このアルゴリズムを位相に鈍感にするので、このアルゴリズムは、オーディオ波形がかなり異なる時、たとえば、オーディオ効果がマルチチャネル・ステレオと外部的に供給されるステレオ信号との間で異なって処理される時に、堅牢である。
本発明をＣ−ｔｏ−２ＢＣＣ方式の文脈で説明してきたが、本発明は、Ｃ＞Ｅ≧１である任意の適切なＣ−ｔｏ−ＥＢＣＣ方式で実施することができる。

さらなる代替実施形態
本発明を、キュー・コードが１つまたは複数のオーディオ・チャネル（すなわち、Ｅ個の被送出チャネル）と共に送出されるＢＣＣコーディング方式の文脈で説明してきたが、代替実施形態では、キュー・コードを、被送出チャネルを既に有し、おそらくは他のＢＣＣコードを既に有する場所（たとえば、デコーダまたはストレージ・デバイス）に送出することができる。

本発明を、ＢＣＣコーディング方式の文脈で説明してきたが、本発明は、オーディオ信号がデ・コリレートされる他のオーディオ処理システムまたは信号をデ・コリレートする必要がある他のオーディオ処理の文脈で実施することもできる。

本発明を、エンコーダが、時間領域の入力オーディオ信号を受け取り、時間領域の被送出オーディオ信号を生成し、デコーダが、時間領域の被送出オーディオ信号を受け取り、時間領域の再生オーディオ信号を生成する実施態様の文脈で説明してきたが、本発明は、それに限定されない。たとえば、他の実施態様では、入力オーディオ信号、被送出オーディオ信号、および再生オーディオ信号のうちのいずれか１つまたは複数を、周波数領域で表すことができる。

ＢＣＣエンコーダおよび／またはＢＣＣデコーダを、テレビジョン配信または電子音楽配信、ムービー・シアター、放送、ストリーミング、および／または受信のためのシステムを含むさまざまな異なる応用例またはシステムと共に使用するかこれに組み込むことができる。これには、たとえば、地上波、衛星、ケーブル、インターネット、イントラネット、または物理的媒体（たとえば、コンパクト・ディスク、ディジタル多用途ディスク、半導体チップ、ハード・ドライブ、メモリ・カード、および類似物）を介する送出をエンコードし／デコードするシステムが含まれる。ＢＣＣエンコーダおよび／またはＢＣＣデコーダを、たとえば、２つ以上の機械、プラットフォーム、もしくは媒体について発行することができる、娯楽（アクション、ロール・プレイ、ストラテジ、アドベンチャ、シミュレーション、レース、スポーツ、アーケード、トランプ、およびボード・ゲーム）および／または教育のためにユーザと対話することを意図された対話型ソフトウェア製品を含む、ゲームおよびゲーム・システムで使用することもできる。さらに、ＢＣＣエンコーダおよび／またはＢＣＣデコーダを、オーディオ・レコーダ／プレイヤまたはＣＤ−ＲＯＭ／ＤＶＤシステムに組み込むことができる。ＢＣＣエンコーダおよび／またはＢＣＣデコーダを、ディジタル・デコーディングを組み込んだＰＣソフトウェア・アプリケーション（たとえば、プレイヤ、デコーダ）およびディジタル・エンコーディング機能を組み込んだソフトウェア・アプリケーション（たとえば、エンコーダ、リッパ、レコーダ、およびジュークボックス）に組み込むこともできる。

本発明を、単一の集積回路（ＡＳＩＣまたはＦＰＧＡなど）、２つ以上チップ・モジュール、単一のカード、または２つ以上カード回路パックとしての可能な実施態様を含む、回路に基づくプロセスとして実施することができる。当業者に明白であるとおり、回路要素のさまざまな機能を、ソフトウェア・プログラム内の処理ステップとして実施することもできる。そのようなソフトウェアは、たとえば、ディジタル信号プロセッサ、マイクロコントローラ、または汎用コンピュータ内で使用することができる。

本発明は、方法およびこれらの方法を実践する装置の形で実施することができる。本発明は、フロッピ・ディスケット、ＣＤ−ＲＯＭ、ハード・ドライブ、または任意の他の機械可読記憶媒体などの有形の媒体内で実施されたプログラム・コードの形で実施することもでき、ここで、そのプログラム・コードがコンピュータなどの機械にロードされ、その機械によって実行される時に、その機械は、本発明を実践する装置になる。本発明を、たとえば、記憶媒体に保管される、機械にロードされかつ／または機械によって実行される、あるいは電気的ワイヤリングもしくはケーブリングを介して、光ファイバを介して、または電磁放射を介してなどのある送出媒体または担体を介して送出されるいずれかのプログラム・コードの形で実施することもでき、ここで、そのプログラム・コードがコンピュータなどの機械にロードされ、その機械によって実行される時に、その機械は、本発明を実践する装置になる。汎用プロセッサで実施される時に、プログラム・コード・セグメントは、プロセッサと組み合わさって、特定の論理回路に似て動作する独自のデバイスを提供する。

本発明を、本発明の方法および／または装置を使用して生成される、媒体を介して電気的にまたは光学的に送出される信号値、磁気記録媒体内に保管された磁界変動などのビットストリームまたは他のシーケンスの形で実施することもできる。

さらに、本発明の性質を説明するために説明され、図示された詳細、材料、および部分の配置におけるさまざまな変更を、添付の特許請求の範囲で表される本発明の範囲から逸脱せずに当業者が作ることができることを理解されたい。

添付の特許請求の範囲の方法クレームの工程は、存在する場合に、対応するラベル付けを有する特定のシーケンスで列挙されるが、請求項の詳説がこれらの工程の一部またはすべてを実施する特定のシーケンスを他の形で暗示しない限り、これらの工程は、その特定のシーケンスで実施されることに限定されることを必ずしも意図されていない。

従来のバイノーラル信号シンセサイザを示す高水準ブロック図である。包括的なバイノーラル・キュー・コーディング（ＢＣＣ）オーディオ処理システムを示すブロック図である。図２のダウンミキサに使用できるダウンミキサを示すブロック図である。図２のデコーダに使用できるＢＣＣシンセサイザを示すブロック図である。本発明の一実施形態による図２のＢＣＣエスティメータを示すブロック図である。５チャネル・オーディオのＩＣＴＤデータおよびＩＣＬＤデータの生成を示す図である。５チャネル・オーディオのＩＣＣデータの生成を示す図である。単一の被送出和信号ｓ（ｎ）と空間的キューとを与えられてステレオ・オーディオ信号またはマルチチャネル・オーディオ信号を生成するのにＢＣＣデコーダ内で使用できる、図４のＢＣＣシンセサイザの実施態様を示すブロック図である。ＩＣＴＤおよびＩＣＬＤが周波数の関数としてサブバンド内でどのように変更されるかを示す図である。外部的に供給されるダウンミキシングされた信号と一緒にＢＣＣサイド情報を送出するＢＣＣオーディオ処理システムを示すブロック図である。本発明の一実施形態によるＢＣＣオーディオ処理システムを示すブロック図である。本発明の一実施形態による、２つのオーディオ波形の間の遅延を推定するために図１１の遅延エスティメータによって実施される処理を示すブロック図である。

Claims

オーディオ・チャネルをエンコードする方法であって、
オーディトリ・シーンに対応するＣ個の入力チャネルの１つまたは複数のキュー・コードを生成する工程、
少なくとも１つのダウンミキシングされたチャネルを生成するために前記Ｃ個の入力チャネルをダウンミキシングする工程、
前記少なくとも１つのダウンミキシングされたチャネルと前記オーディトリ・シーンに対応するＥ個の外部的に供給されるチャネルのうちの少なくとも１つとの間のタイム・ラグを、Ｃ＞Ｅ≧１の条件下で、推定する工程、
前記Ｅ個の外部的に供給されるチャネルと前記１つまたは複数のキュー・コードとの間の同期化を改善するために、前記推定されたタイム・ラグに基づいて、前記Ｅ個の外部的に供給されるチャネルと前記１つまたは複数のキュー・コードとの間の相対タイミングを調整する工程、及び
デコーダが前記１つまたは複数のキュー・コードに基づいて前記Ｅ個の外部的に供給されるチャネルのデコーディング中に合成処理を実行できるようにするために、前記Ｅ個の外部的に供給されるチャネルおよび前記１つまたは複数のキュー・コードを送出する工程とからなることを特徴とするオーディオ・チャネルをエンコードする方法。
前記Ｃ個の入力チャネルは、Ｅ個のダウンミキシングされたチャネルを生成するためにダウンミキシングされ、Ｅ＞１であり、
前記Ｅ個の外部的に供給されるチャネルと前記Ｅ個のダウンミキシングされたチャネルとの間の推定されたタイム・ラグは、各外部的に供給されるチャネルと対応するダウンミキシングされたチャネルとの間のチャネル間タイム・ラグを推定することによって生成されることを特徴とする請求項１に記載のオーディオ・チャネルをエンコードする方法。
前記推定されたタイム・ラグは、２つ以上のチャネル間タイム・ラグの加重平均に基づくことを特徴とする請求項２に記載のオーディオ・チャネルをエンコードする方法。
前記推定されたタイム・ラグは、最大のコヒーレンスを有する対応するチャネルの対の前記チャネル間タイム・ラグに対応することを特徴とする請求項２に記載のオーディオ・チャネルをエンコードする方法。
前記Ｅ個の外部的に供給されるチャネルと前記１つまたは複数のキュー・コードとの間の前記相対タイミングは、必要に応じてキュー・コードをスキップするか繰り返すこと、又は必要に応じてキュー・コードの間で補間することによって調整されることを特徴とする請求項１に記載のオーディオ・チャネルをエンコードする方法。
前記少なくとも１つのダウンミキシングされたチャネルと前記少なくとも１つの外部的に供給されるチャネルとの間の前記タイム・ラグは、
この２つのチャネルをサブバンド領域に変換することと、
前記サブバンド領域で１つまたは複数のサブバンドのチャネル電力または大きさの短時間推定値を計算することと、
前記短時間推定値に基づいて、正規化されたベクトル相互相関関数を計算することと、
前記正規化されたベクトル相互相関関数を最大にする遅延値に基づいて前記タイム・ラグを選択することと
によって推定することを特徴とする請求項１に記載のオーディオ・チャネルをエンコードする方法。
前記正規化されたベクトル相互相関関数ｃ_ｓｚ（ｄ）は、

によって与えられ、ここで、
Ｅ｛・｝は、数学的期待値を表し、
Ｚ_１（ｋ）は、時刻ｋの前記２つのチャネルのうちの一方の短期間推定値のベクトルであり、
Ｚ_２（ｋ−ｄ）は、時刻（ｋ−ｄ）の他方のチャネルの前記短期間推定値のベクトルであり、
「・」は、ベクトル・ドット積演算子であり、
ｄは、タイム・ラグ・インデックスであることを特徴とする請求項６に記載のオーディオ・チャネルをエンコードする方法。
前記正規化されたベクトル相互相関関数γ（ｋ，ｄ）は、

によって与えられ、ここで、
ａ_１２（ｋ，ｄ）＝αＺ_１（ｋ）・Ｚ_２（ｋ−ｄ）＋（１−α）ａ_１２（ｋ−１，ｄ）
ａ_１１（ｋ，ｄ）＝αＺ_１（ｋ−ｄ）・Ｚ_１（ｋ−ｄ）＋（１−α）ａ_１１（ｋ−１，ｄ）
ａ_２２（ｋ，ｄ）＝αＺ_２（ｋ）・Ｚ_２（ｋ）＋（１−α）ａ_２２（ｋ−１，ｄ）
Ｚ_１（ｋ）は、時刻ｋの前記２つのチャネルのうちの一方の前記短期間推定値のベクトルであり、
Ｚ_２（ｋ−ｄ）は、時刻（ｋ−ｄ）の他方のチャネルの前記短期間推定値のベクトルであり、
α∈［０，１］は、両端を含む０と１との間の指定された定数であることを特徴とする請求項６に記載のオーディオ・チャネルをエンコードする方法。
前記Ｅ個の外部的に供給されるチャネルと前記１つまたは複数のキュー・コードとの間の前記相対タイミングの調整が正の時間遅延を伴うことを保証するために、前記Ｅ個の外部的に供給されるチャネルを遅延させることをさらに含むことを特徴とする請求項１に記載のオーディオ・チャネルをエンコードする方法。
オーディオ・チャネルをエンコードする装置であって、
オーディトリ・シーンに対応するＣ個の入力チャネルの１つまたは複数のキュー・コードを生成するように適合されたコード・エスティメータ、
少なくとも１つのダウンミキシングされたチャネルを生成するために前記Ｃ個の入力チャネルをダウンミキシングするように適合されたダウンミキサ、
前記少なくとも１つのダウンミキシングされたチャネルと前記オーディトリ・シーンに対応するＥ個の外部的に供給されるチャネルのうちの少なくとも１つとの間のタイム・ラグを、Ｃ＞Ｅ≧１の条件下で、推定するように適合された遅延エスティメータ、及び
前記Ｅ個の外部的に供給されるチャネルと前記１つまたは複数のキュー・コードとの間の同期化を改善するために、前記推定されたタイム・ラグに基づいて、前記Ｅ個の外部的に供給されるチャネルと前記１つまたは複数のキュー・コードとの間の相対タイミングを調整するように適合されたプログラマブル遅延モジュールを含み、
前記装置は、デコーダが前記１つまたは複数のキュー・コードに基づいて前記Ｅ個の外部的に供給されるチャネルのデコーディング中に合成処理を実行できるようにするために、前記Ｅ個の外部的に供給されるチャネルおよび前記１つまたは複数のキュー・コードを送出するように適合されることを特徴とするオーディオ・チャネルをエンコードする装置。