JP2006325162A

JP2006325162A - バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置

Info

Publication number: JP2006325162A
Application number: JP2005148763A
Authority: JP
Inventors: Rin Ryuu Wei; リン・リュウウェイ; Sen Chon Kok; セン・チョンコク; Naoya Tanaka; 直也田中; Hon Neo Sua; ホン・ネオスア
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-05-20
Filing date: 2005-05-20
Publication date: 2006-11-30

Abstract

【課題】従来のマルチチャネル音声信号符号化では、通常、チャネル分離における全てのステージおよびチャネルに対して一つまたは同じ残響信号または無相関信号を用いている。結果として得られる復元信号の音像は、一聴して音幅の狭さを感じさせるような改善の余地を残すものである。
【解決手段】本発明は、音像改善を図るため、（一つの）ダウンミックス音声信号を入力として用いて、必要な特性を持つ（複数の）無相関音声信号を生成する装置、およびチャネル分離を目的として上記無相関信号を用いる。また本発明は、音像改善のために、ＩＣＣの代わりに適宜ＩＣＣＨを用いる。
【選択図】図６

Description

本明細書においては、符号化処理においてバイノーラルキューを抽出して、ダウンミックス信号を生成し、復号化処理において前記バイノーラルキューを前記ダウンミックス信号に適用することでマルチチャネル音声信号を圧縮する装置に関する発明について詳細に説明する。本発明は、トレーニング用シミュレータ、カーオーディオシステム、家庭用またはビジネス用のオーディオ・ビデオシステム等に適用可能である。

本発明は、従来のマルチチャネル音声符号化技術を改良した技術を提供する。本発明の目的は、ビットレートに制約がある場合でも、知覚上のクオリティー（空間的イメージや音の忠実度など）を保ちつつマルチチャネル音声信号の符号化を行うことである。ビットレートが低くなると、マルチチャネル音声信号の送信や記憶に必要とされる帯域幅や記憶容量を低減できる。また本発明は、従来技術との互換性を保つため、従来の符号化方式や規格をベースとしている。

少ないビットでステレオ音声信号を表現するための従来技術の例としてジョイントステレオ符号化がある。ジョイントステレオ符号化の方法として、Ｍｉｄｄｌｅ／Ｓｉｄｅ（ＭＳ）ステレオ符号化およびインテンシティーステレオ符号化が一般に用いられる。ＭＳステレオ符号化は、音声信号間の相関性が高い場合に非常に効率的な符号化方法である。なぜなら、ＭＳステレオ符号化においては、右チャネルと左チャネルの代わりに和（Ｍまたはミドル）チャネルと差分（Ｓまたはサイド）チャネルとが用いられるが、この場合、差分信号は非常に小さいからである。インテンシティーステレオ符号化では、高周波数の信号において、Ｌ信号およびＲ信号を、一つの代表信号と方向性情報とで置き換えることでビットレートの低減を実現している。これは、高周波数の信号位相に対しては感度が低いという人間の聴覚システムが持つ特徴を利用したものである。

通常、音声信号が人間の左右の耳に届くまでには時間差があり、左右の耳に届く音声レベルも異なる。これらの差は、音声信号がそれぞれ異なる経路を通って左右の耳に届くことに起因する。聴き手の脳は、音声信号が左右の耳に届くまでの時間差とレベル差を分析し、聴き手に対して、受け取った音声信号の音源が当該聴き手に対してどの位置にあるのかを知覚させる。聴き手は、その音源の方向および距離の両方を識別できる。一または複数の異なる場所にある一または複数の音源から音声信号を受け取った聴き手は、聴覚情景を描くことが可能となる。

特許文献１、２、および３によれば、近年、ビットレートの低減を目的として、音声符号化処理においてチャネル間レベル／強度差（ＩＬＤ）、チャネル間位相／遅延差（ＩＰＤ）、チャネル間干渉性／相関性（ＩＣＣ）等のバイノーラルキューが多く用いられている。バイノーラルキューは、まず符号化処理においてオリジナル音声信号から導出された後、ダウンミック信号とともに送出され、復号化処理において音声信号を復元するために前記ダウンミックス信号を変換するために用いられる。ＩＬＤキューからは二つの信号間の相対的な信号パワーを測定でき、ＩＰＤキューからは音が両耳に届くまでの時間差を測定でき、ＩＣＣキューからは二つのチャネル間の干渉性や類似度を測定できる。これらのキューは、マルチチャネル音声信号の音源の拡散性、位置関係、方向性を特定し、聴き手が聴覚的情景を頭の中で構成するのを助ける空間的パラメータとなる。

図１は、音声符号化においてバイノーラルキューを用いる典型的な音声エンコーダ／デコーダ（コーデック）を示す図である。符号化処理において、音声信号はフレームごとに処理される。ダウンミックスモジュール（１００）は、左（Ｌ）チャネルおよび右（Ｒ）チャネルをダウンミックスし、ダウンミックス信号Ｍを生成する。ここで、Ｍ＝（Ｌ＋Ｒ）／２である。これら３つの信号Ｌ、ＲおよびＭを入力として、バイノーラルキュー抽出モジュール（１０２）はバイノーラルキューを生成する。これらのバイノーラルキューは、通常、周波数だけの領域、または時間領域と周波数領域とのハイブリッド型の領域において生成される。バイノーラルキューの生成は、通常、モジュール（１０２）に対して、高速フーリエ変換（ＦＦＴ）、変形離散コサイン変換（ＭＤＣＴ）等の時間−周波数変換の関数、またはＱＭＦバンク等のハイブリッド型の時間−周波数変換の関数を実装することで実現される。一般に、上述のようなコーデックにおいては、音声信号処理はフレーム単位で行われる。

次に、オーディオエンコーダ（１０４）はＭから圧縮ビットストリームを生成する。モジュール（１０６）は、量子化されたバイノーラルキューと前記ビットストリームとを多重化し、完全なビットストリームを形成する。一般にオーディオエンコーダにおいては、ＭＰ３やＡＡＣ等の規格に基づくアルゴリズムが用いられる。

復号化処理において、デマルチプレクサ（１０８）は、伝送媒体または記憶媒体を介して受信したＭのビットストリームをバイノーラルキュー副情報から分離する。オーディオデコーダ（１１０）はダウンミックス信号Ｍを再生する。再生されたダウンミックス信号Ｍは、マルチチャネル分離モジュール（１１２）に送出さる。マルチチャネル分離モジュール（１１２）は、ダウンミックス信号と逆量子化されたバイノーラルキューとを入力とし、マルチチャネル信号を復元する。

上記ビットレート低減という課題だけでなく、音声信号の聴覚上のクオリティーを保つという課題も存在する。復号された音声信号のクオリティーを向上させるための技術が数多く存在するが、そのうち非特許文献１は、音の聴覚上のクオリティーを向上させるためにエコーや残響を用いる手法を提案している。離散時間信号処理に基づく人工的な残響は、１９６０年代初めにその使用が始まって以来非特許文献２、音響工学の分野において広く利用されている。音響工学における残響の応用例として、室内音響学シミュレーション、音楽知覚クオリティーの向上、相関性のない出力の生成等が挙げられる。

非特許文献１は、相関性のない出力を生成するためにフィードバック遅延システム（ＦＤＮ）を用いた実装について記載している。図２はＦＤＮの例を示す図である。ＦＤＮは、オールパスフィルタ（２０２）と、複数の遅延線（２０４〜２１０）と、フィードバック行列（２１２）とで構成される。フィードバック行列によって、各遅延線からの出力を各遅延入力にフィードバックすることが可能になる。特に、ＳｔａｕｔｎｅｒおよびＰｕｃｋｅｔｔｅが提案するＦＤＮ（非特許文献３）は、互いに非干渉的であり無相関的である出力を生成できるという望ましい特徴を有しているため、チャネル分離に利用できる。例えば図３に示すＭおよびＭ_0,revのように、互いに非干渉的であり無相関的である二つの出力は直交的なベクトル関係を有している。

本発明は、従来のバイノーラルキュー符号化に基づく手法を改善することを目的とする。特に、本発明では、チャネル分離の過程において追加的に無相関信号および残響信号を用いる。これによって、チャネル分離ステージ毎に、他のステージで用いられた残響信号とは異なる残響信号を用いることが可能となる。
International Patent Publication WO03/090208A1, "Parametric Representation of Spatial Audio" US2003/0035553A1, "Backwards-Compatible Perceptual Coding of Spatial Cues" US2003/0236583A1, "Hybrid Multi-channel/Cue Coding/Decoding of Audio Signals" Karls, M., Brandenburg, K., et al, "Applications of Digital Signal Processing to Audio and Acoustics", Kluwear Academic Press. Schroeder MR. (1962), "Natural Sounding Artificial Reverberation". J. Audio Eng. Soc., 10(3) Stautner J and Puckette M. (1982), "Designing multi-channel reverberators". Computer Music Journal. 6(1): 52-65. JP2004/248989, "Encoding and Decoding Devices for Audio Signals"

本発明は、符号化処理においてＱＭＦフィルタバンクを用いて音声チャネルを時間−周波数（Ｔ／Ｆ）表現に変換するバイノーラルキュー符号化方法に関する。本明細書では、Ｘに対する処理が時間−周波数領域で行われる場合、Ｘの量または関数をＸ（ｔ，ｆ）と
表記する。

チャネル分離の際、全てのチャネルに対して同じ残響信号または無相関信号(Ｍ_rev（ｔ，ｆ）)を用いると、結果として得られる復元信号の音像は、一聴して音幅の狭さを感じさせるような改善の余地を残すものである。

空間音声符号化においてマルチチャネル信号を分離するために、パラメトリックステレオ（ＰＳ）モジュール（４０４）〜（４１２）を、図４に示すようにカスケード接続する。このような構成により、符号化・復号化処理において、受け取る残響のレベルをチャネルごとに異ならせることができる。例えば、図４の例では、チャネルＣおよびチャネルＬＦＥが受け取る残響のレベルは、他のチャネルが受け取る残響レベルより低くなる。

本発明の実施の形態１では、チャネル分離のために、ダウンミックス音声信号を入力として用いて、互いに直交的で無相関的な音声信号を生成する装置を提案する。

実施の形態２では、まずダウンミックスチャネルとオリジナルチャネルとの間のベクトル関係をバイノーラルキューから決定した後、前記ダウンミックス信号と当該ダウンミックス信号に直交である信号との間の正確なベクトル関係をシミュレートするための新しいミキシング方法を提案する。

実施の形態３では、上記複数の無相関信号と上記新しいミキシング方法とを組み合わせて用いることで、チャネル分離をマルチチャネルに応用する方法を提案する。

本発明は、チャネル分離ステージ毎に異なる残響信号（Ｍ_i,rev（ｔ，ｆ））を用いることで音像の向上を目指す。これによって、復元された各チャネルは、復元の時点で他のチャネルとは十分に“異なる”ことになり、結果として音幅と音像が向上する。さらに本発明では、全ての残響信号は確実に同時に生成され、チャネル分離において各チャネルは確実に同じレベルの残響信号を受け取ることができる。

本発明は、従来技術による方法で生成された復元音声信号の音像と比較して改善された音像の生成を実現する。これは、チャネル分離ステージ毎に異なる残響信号を用いることができるように、複数の残響信号を生成する無相関器を実装すること、およびＩＣＣの代わりに適宜ＩＣＣＨを用いることで実現される。

以下に示す実施の形態は、本発明の様々な進歩性の原理を例示しているにすぎず、以下に示す詳細な説明に対して種々変形を加えることが可能であることは、当業者であれば容易に理解するところである。従って、本発明は特許請求の範囲によってのみ制限されるものであって、以下に示す詳細な具体例よって限定されるものではない。

さらに、ここでは、ステレオ−モノラル−ステレオ（以降、“２-１-２ケース”と記す）および５チャネル−モノラル−５チャネル（以降、“５-１-５ケース”と記す）の２つのケースのみを示しているが、本発明はこれに限定されるものではない。これを、ＭオリジナルチャネルおよびＮダウンミックスチャネルとして一般化することができる。

本発明の実施の形態１において、図２に示す無相関器（２００）は、一つのダウンミックス信号から、互いに干渉性がなく無相関的な出力を生成する。無相関器の出力Ｍ_revは、互いに無相関的であり、直交である。遅延線（２０４〜２１０）の遅延長は、図２においてｍ₀、ｍ₁、ｍ₂、およびｍ₃として示されるように、互いに素である必要がある。

非特許文献３において指摘されているように、フィードバック行列Ａ（２１２）において、出力Ｍ_i,revが互いに干渉性を持たないように遅延出力をミックスする。信号間に互いに干渉性がないということは、それらの信号が互いに直交であることを意味する。このような関係を数学的に表現すると以下のようになる。

上記数式、および以降の説明において、● は内積を表わす。

さらに、オリジナル信号（Ｍ）の残響信号（Ｍ_rev）が当該オリジナル信号（Ｍ）に対して直交であるというモデルは音響工学においては広く受け入れられている。オールパスフィルタ（２０２）によって、ＦＤＮで生成されるすべての信号はオリジナルダウンミックス信号Ｍに対して確実に直交である。これを数学的に表現すると、

図５において、非特許文献３が５-１-５ケースで用いているフィードバック行列Ａの例を行列（５００）として示している。行列（５００）はユニタリー行列であり、行列要素は次の関係が満たされるように設定される。

本発明の実施の形態２では、チャネル分離のために、バイノーラルキューを用いてダウンミックスチャネルとオリジナルチャネルとの間のベクトル関係を導出するという新しいミキシング方法を説明する。

図６は２-１-２ケースにおける符号化処理を示す図である。変換モジュール（６００）は、例えば複素ＱＭＦフィルタバンクであり、オリジナルチャネルＬ（ｔ）およびＲ（ｔ）を処理し、それぞれの時間−周波数表現Ｌ（ｔ，f）およびＲ（ｔ，f）を生成する。時間−周波数領域において、一つの信号は連続する複数のサブバンドを含んでおり、それぞれのサブバンドはオリジナル信号の狭い周波数帯域を表している。周波数帯域の幅にバリエーションを持たせるために、ＱＭＦフィルタバンクを複数のステージで構成することができる。これによって、より細かな分割が求められるサブバンドに対しては狭い周波数帯域を与えることができ、より粗い分割が求められるサブバンドに対しては広い周波数帯域を与えることができる。

ダウンミックスモジュール（６０２）は、Ｌ（ｔ，f）およびＲ（ｔ，f）を処理してダウンミックス信号Ｍ（ｔ，f）を生成する。図６においては”重み付け”を用いた方法を示す。

本発明では、ＩＬＤキューを用いてレベル調整を行う。モジュール（６０４）は、Ｌ（ｔ，f）およびＲ（ｔ，f）を処理し、ＩＬＤ（ｌ，ｂ）およびＢｏｒｄｅｒを生成する。図７に示すように、時間−周波数領域において、まずＬ（ｔ，f）を周波数方向に複数の帯域（７００）に分割する。それぞれの帯域は複数のサブバンドを含む。耳が持つ音響心理学的特性を利用して、低周波数帯域は、高周波数帯域よりもサブバンドの数が少なくなっており、高周波数帯域よりも細かく分割される。例えば、最適な処理を行うためには、サブバンドへの分割を行う際に分割位置を正確に微調整することが望ましいが、音響心理学の分野でよく知られている”バーク尺度”または”臨界帯域”を用いて分割を行ってもよい。

Ｌ（ｔ，f）およびＲ（ｔ，f）はさらに時間方向にＢｏｒｄｅｒ（７０２）で周波数帯域（ｌ，ｂ）に分割され、これに対してＥ_L（ｌ，ｂ）およびＥ_R（ｌ，ｂ）を計算する。本明細書においては、ｌは時間的区分の指標であり、ｂは（周波数）帯域の指標を示す。Ｂｏｒｄｅｒの最適な配置場所は、Ｅ_L（ｌ，ｂ）およびＥ_R（ｌ，ｂ）の比率の急激な変化に代表される過渡事象が発生する時間的位置である。次にモジュール（６０４）は、次の数式に基づきＩＬＤ（ｌ,ｂ）を算出する。

符号化処理において、モジュール（６０６）はＬ（ｔ，f）およびＲ（ｔ，f）を処理してＩＣＣキューを求める。ＩＣＣ（ｌ，ｂ）以下の数式を用いて求められる。

さらに、符号化処理において、モジュール（６０８）はＬ（ｔ，f）およびＲ（ｔ，f）を処理し高周波数サブバンド（＞１．５ｋＨｚのみ）に対する高周波数ＩＣＣＨ（ＩＣＣＨ）キューを求める。ＩＣＣＨ（ｌ，ｂ）は以下の数式を用いて求められる。

ＩＣＣ（ｌ，ｂ）およびＩＬＤ（ｌ，ｂ）は、チャネル分離において、Ｍに対する二つのチャネルの実際の信号強度を導出するためのゲインファクターを算出するために用いられる。ＩＣＣ（ｌ，ｂ）に関しては、低周波数におけるＬとＲとの間の位相関係の計測にも用いられる。結果として、ＩＣＣ（ｌ，ｂ）は、ＬとＲの分離度合いの計測にも役立つ。しかしながら高周波数（通常、＞１．５ｋＨｚ）においては、音が分離していることによってもたらされる効果は、位相差ではなく、ＬおよびＲの波形の類似度または相関性に影響される。よって、このような波形相関の計測にはＩＣＣＨ（ｌ，ｂ）の利用がより適している。

図１におけるモジュール（１０２）の出力として示すように、上記バイノーラルキューは、符号化処理における副情報の一部となる。図８に示すように、バイノーラルキュー生成のための全処理は、モジュール（８００）においてＬ（ｔ，f）およびＲ（ｔ，f）を入力として実行され、ＩＣＣ（ｌ，ｂ）、ＩＣＣＨ（ｌ，ｂ）、Ｂｏｒｄｅｒ、およびＩＬＤ（ｌ，ｂ）が出力される。

図９は、上述のバイノーラルキューを利用してチャネル分離を行う復号化処理を示す図である。変換モジュール（９００）はダウンミックス信号Ｍ（ｔ）を処理し、時間−周波数表現Ｍ（ｔ，f）に変換する。この場合、変換モジュールは複素ＱＭＦフィルタバンクである。

無相関器（９０２）はＭ（ｔ，f）を処理し、チャネル分離に用いるための直交信号を二つ生成する。図２に示されるモジュール（２００）は、そのような無相関器の一例である。本実施の形態においては、無相関器としてモジュール（２００）を想定し、チャネル分離に用いる信号としてＭ（ｔ，f）およびＭ_0,rev（ｔ，f）を想定する。実際上、図９に示すＳ１（ｔ，f）およびＳ２（ｔ，f）はそれぞれ図２に示すＭ（ｔ，f）およびＭ_0,rev（ｔ，f）である。

次に復号化処理において、モジュール（９０６）はモジュール（９０４）からの出力に基づいてチャネル分離を行う。モジュール（９０４）は（ｌ，ｂ）として示される帯域それぞれについて、バイノーラルキューＢｏｒｄｅｒ、ＩＬＤ（ｌ，ｂ）、ＩＣＣ（ｌ，ｂ）、およびＩＣＣＨ（ｌ，ｂ）からミキシング係数ｇ_L（ｌ，ｂ）、ｇ_R（
ｌ，ｂ）、θ_L（ｌ，ｂ）、およびθ_R（ｌ，ｂ
）を求める。これらのミキシング係数はモジュール（９０６）に送られる。モジュール（９０６）は、求められたミキシング係数に基づいてミキシングファクターｇ_L1（ｌ，ｂ）、ｇ_L2（ｌ，ｂ）、ｇ_R1（ｌ，ｂ）、およびｇ_R2（ｌ，ｂ）を算出し、チャネル分離を行う。

ミキシング係数の算出およびチャネル分離についての数学的根拠については後述する。記載の簡略化を図るため、以下では（ｌ，ｂ）の表記を省略する。

図６に示すダウンミックス処理を参照して、Ｌ、Ｒ、およびＭのエネルギー間の関係を以下のように導出する。

従来、ＩＬＤおよびＩＣＣは以下のように定義されている。

このため、Ｌ’チャネルおよびＲ’チャネルを分離するために、Ｍを適切なレベルにまで増幅するのに必要なゲイン係数ｇ_Lおよびｇ_Rは、上記ＩＬＤおよびＩＣＣの定義を数式Ｅ_Mに代入することで求めることができる。

チャネル分離を完了させるために、θ_Lおよびθ_Rとして示される二つのチャネルの分離の度合いを求める必要がある。図１０はＭ、ＬおよびＲ間のベクトル関係を幾何学的に示した図である（特許文献４）。ここでは、角度測定はすべて図１０を参照して行うものとする。高周波数（通常、＞１．５ｋＨｚ）に対しては（θ_L＋θ_R）をθ＝ｃｏｓ^-1（ＩＣＣＨ）に設定し、低周波数に対しては（θ_L＋θ_R）をθ＝ｃｏｓ^-1（
ＩＣＣ）に設定する。

タンジェントの三角関数の定義を適用することで、θ_Rは次のように導出される。

同様に、θ_Lは次のように導出される

モジュール（９０６）は、二つの無相関信号Ｓ１（ｔ，ｆ）およびＳ２（ｔ，ｆ）をミキシングしてＬおよびＲを復元することでチャネル分離を行い、Ｌ’およびＲ’を得る。なお、Ｌ’およびＲ’はオリジナルのＬおよびＲを複製したものではなく、シミュレーションしたものである。実施の形態１で説明したように、無相関器（２００）は、｜Ｍ｜＝｜Ｍ_0,rev｜となるように、そして信号ＭおよびＭ_0,revが直交的なベクトル関係を有すように設計されている。図３を参照し、ＸをＬおよびＲとすると、ミキシング処理は、ミ
キシングファクターｇ_L1、ｇ_L2、ｇ_R1、およびｇ_R2を用いてＭおよびＭ_0,revをスケーリングすることと、それに続くベクトル加算によって表される。ｇ_L1、ｇ_L2、ｇ_R1、およびｇ_R2は、ｇ_L、ｇ_R、θ_L、およびθ_Rから導出されるが、これについては後述する。

Ｌ’を導出するためには、次の２つの要件が満たされている必要がある。

および

この二つの連立方程式ｇ_L1およびｇ_L2を解くことで、左チャネルＬ’を導出するためのミキシングファクターを求めることができる。

同様に、右チャネルＲ’を導出するためのミキシングファクターを以下のように求めることができる。

上記のようにして導出されたミキシングファクターを用い、Ｌ’およびＲ’を以下のように表現できる。

モジュール（９０８）は、分離されたチャネルＬ’およびＲ’を逆変換し、時間領域信号Ｌ’（ｔ）およびＲ’（ｔ）を形成する。

本発明の実施の形態３では、実施の形態１に示した無相関器（２００）と、実施の形態２に示した新しいミキシング方法とをマルチチャネルに対するチャネル分離に応用する方法を示す。

本発明の実施の形態２で説明したように、チャネルは、二つの直交信号に対して適切なミキシングファクターを付加することで復元される。復元された信号Ｘは通常、次のようになる。

この数式において、ｇ_xはゲイン係数を示し、θ_xは分離の度合いを示す。

本実施の形態では、５-１-５ケースを用いて説明を行う。また、以下の数式をダウンミックス用の数式として想定する。

上記数式において、ＬおよびＲは二つのフロント（前方）チャネルを示し、Ｌ_sおよびＲ_sは二つのリア（後方）チャネルを示し、Ｃはセントラル（中央）チャネルを示す。

図１１は５-１-５ケースにおける符号化処理を示す図である。同処理においては、ＢＣＣ符号化モジュール（１１００）〜（１１０６）を用いて異なる４通りのチャネルの組合せに対して処理を行うことで４つのバイノーラルキューセットを生成する。一つ目のバイノーラルキューセットは、モジュール（１１００）においてＣチャネルと中間ダウンミックスチャネル（Ｌ＋０．７０７Ｌ_s＋Ｒ＋０．７０７Ｒ_s）を入力として生成される。モジュール（１１０２）〜（１１０６）も同様の機能を持つが、それぞれ異なる入力を用いることでそれぞれ異なるバイノーラルキューセットを生成する。生成された４つのバイノーラルキューセットは、マルチステージ復号化処理においてダウンミックスチャネルＭをＬ、Ｒ、Ｌ_s、Ｒ_sおよびＣに繰り返し分離するために用いられる。

図１２はチャネル分離の前に実行される復号化処理を示す図である。同前処理においては、本発明の実施の形態１と同様に、ダウンミックスチャネルＭに対してＱＭＦ変換（１２００）および無相関処理（１２０２）を行い、複数の直交残響信号Ｍ_i，_rev（ｔ，ｆ）を生成する（ｉ＝０、１、２、３）。

バイノーラルキューセット１をＭＣＣモジュール（１２０４）において処理し、二つのミキシングファクターセット（ｇ_c、θ_c）および（ｇ_M1、θ_M1）を生成する。この処理は、Ｍ（ｔ，ｆ）をＣ（ｔ，ｆ）とＭ₁（ｔ，ｆ）とに分離するために行われる。ここで、Ｍ₁（ｔ，ｆ）＝（Ｌ（ｔ，ｆ）＋０．７０７Ｌ_s（ｔ，ｆ）＋Ｒ（ｔ，ｆ）＋０．７０７Ｒ_s（ｔ，ｆ））／３．４１４である。[数１９]より、Ｍ（ｔ，ｆ）＝０．２９３Ｃ（ｔ，ｆ）＋０．７０７Ｍ₁（ｔ，ｆ）を求めることは容易であり、重み付けの値として０．２９３および０．７０７をＣ（ｔ，ｆ）およびＭ₁（ｔ，ｆ）にそれぞれ用いる。

バイノーラルキューセット２をＭＣＣモジュール（１２０６）において処理し、二つのミキシングファクターセット（ｇ_M2、θ_M2）および（ｇ_M3、θ_M3）を生成する。この処理はＭ₁（ｔ，ｆ）をＭ₂（ｔ，ｆ）＝（Ｌ（ｔ，ｆ）＋Ｒ（ｔ，ｆ））／２とＭ₃（ｔ，ｆ）＝（Ｌ_s（ｔ，ｆ）＋Ｒ_s（ｔ，ｆ））／２とに分離するために行われる。[数１９]より、Ｍ₁（ｔ，ｆ）＝０．５８６Ｍ₂（ｔ，ｆ）＋０．４１４Ｍ₃（ｔ，ｆ）を求めることは容易であり、重み付けの値として０．５８６および０．４１４をＭ₂（ｔ，ｆ）およびＭ₃（ｔ，ｆ）にそれぞれ用いる。

バイノーラルキューセット３をＭＣＣモジュール（１２０８）において処理し、二つのミキシングファクターセット（ｇ_L、θ_L）および（ｇ_R、θ_R）を生成する。この処理はＭ₂（ｔ，ｆ）をＬ（ｔ，ｆ）とＲ（
ｔ，ｆ）とに分離するために行われる。Ｍ₂（ｔ，ｆ）＝０．５Ｌ（ｔ，ｆ）＋０．５Ｒ（ｔ，ｆ）であるため、重み付けの値として０．５を用いる。

バイノーラルキューセット４をＭＣＣモジュール（１２１０）において処理し、二つのミキシングファクターセット（ｇ_Ls、θ_Ls）および（ｇ_Rs、θ_Rs）を生成する。この処理はＭ₃（ｔ，ｆ）をＬ_s（ｔ，ｆ）とＲ_s（ｔ，ｆ）とに分離するために行われる。Ｍ₃（ｔ，ｆ）＝０．５Ｌ_s（ｔ，ｆ）＋０．５Ｒ_s（ｔ，ｆ）であるため、重み付けの値として０．５を用いる。

図１３は上記マルチステージチャネル分離および復号化処理を示す図である。チャネル分離モジュール（１３０２）〜（１３０８）は、ダウンミックス信号Ｍ（ｔ，ｆ）および中間信号Ｍ_i（ｔ，ｆ）（ｉ＝０、１、２、３）と、無相関器（１２０２）によって生成された残響信号Ｍ_i,rev（ｔ，ｆ）（ｉ＝０、１、２、３）とに関連する一連の反復演算において、ミキシング係数の組合せを行う。各チャネル分離モジュールの出力は次のチャネル分離モジュールの入力となることがある。これは出力が以下のいずれかの場合に起こる。すなわち、出力が合成信号であって、これをさらに分離することで個々の音声信号が得られる場合、またはさらに分離できる他の合成信号が得られる場合である。具体的には、モジュール（１３０２）はＭ(ｔ，ｆ)、Ｍ_0,rev（ｔ，ｆ）、（ｇ_c，θ_c）および（ｇ_M1、θ_M1）を取り込んで処理し、Ｍ(ｔ，ｆ)をＭ１(ｔ，ｆ)とＣ’(ｔ，ｆ)とに分離する。この場合、Ｍ１(ｔ，ｆ)は複数の信号を含むため、モジュール（１３０４）に渡され、さらにチャネル分離される。一方、Ｃ’(ｔ，ｆ)はセンターチャネルの復元信号であるため、モジュール（１３１０）に渡され、時間領域表現に逆変換される。モジュール（１３０４）〜（１３０８）においても同様の処理が行われる。チャネル分離モジュールが復元チャネルを得るために用いる数式は以下のとおりである。

中間信号は以下のようになる。

有効なチャネル分離の条件として、一つのステージで分離された二つのチャネル間の相関性が、ＢＣＣから推測されたものである必要がある。この条件を満たしているかどうかは以下のように証明できる。

上記チャネル分離は有効である。なぜなら、

図１３に示す逆ＱＭＦモジュール（１３１０）〜（１３１８）を用いて、全ての合成チャネルを時間領域信号に変換することができる。

（その他変形例）
なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。

（１）上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

（４）本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。

また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

（５）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

本発明は、トレーニング用シミュレータ、カーオーディオシステム、家庭用またはビジネス用のオーディオ・ビデオシステム等に適用可能である。

典型的なバイノーラルキューコーデック。フィードバック遅延ネットワークを用いる無相関器。二つの直交信号ベクトルの和による信号合成。カスケード型ＰＳモジュールの実装（従来技術）。フィードバック行列の例。２-１-２ケースにおける空間音声復号化処理。時間・周波数表現における帯域分割。バイノーラルキュー抽出モジュール。２-１-２ケースにおける空間音声復号化処理。ステレオ音ペアおよびそれらのダウンミックスの幾何学的表現。５-１-５ケースにおける空間音声符号化処理の一部。チャネル分離の前に行われる復号化処理。本発明が用いるチャネル分割・復号化処理（５-１-５ケース）。

符号の説明

６００変換モジュール
６０２ダウンミックスモジュール
６０４ＩＬＤモジュール
６０６ＩＣＣモジュール
６０８ＩＣＣＨモジュール
８００２−１ＢＣＣ符号化モジュール
９００ＱＭＦフィルタバンク
９０２無相関器
９０４ミキシング係数算出モジュール
９０６チャネル分離モジュール
９０８ＱＭＦ-1フィルタバンク

Claims

一つの音声信号を処理して、互いに非干渉である複数の残響信号を生成する装置であって、
（ａ）オールパスフィルタを用いて前記音声信号を処理して、中間残響信号を生成し、
（ｂ）フィードバック遅延ネットワーク（ＦＤＮ）を用いて前記中間残響信号を処理して、複数の残響信号を生成する
ことを特徴とする装置。
請求項１に記載の装置であって、前記ＦＤＮは、互いに素である遅延長を有するフィードフォワード遅延線と、フィードバック行列を有するフィードバック経路とを含む
ことを特徴とする装置。
請求項１および請求項２に記載の装置であって、前記フィードバック行列は、（１）ユニタリー行列であり、（２）それぞれの残響信号のエネルギーが同じになり、それぞれの残響信号が互いに非干渉かつ直交になるような行列要素を持つ
ことを特徴とする装置。
複数の信号を、合成ダウンミックス信号とバイノーラルキュー（ＢＣ）情報とからなるビットストリームに符号化する装置であって、
（ａ）前記複数の信号を用いてダウンミックス信号を生成し、
（ｂ）前記複数の信号とダウンミックス信号とを、ハイブリッド時間−周波数表現に変換し、それらを周波数軸に沿って複数の帯域に分割し、
（ｃ）反復的に行われるマルチステージ復号化処理において、前記ダウンミックス信号を個々の信号に分離するためのチャネル分離ステージを導出し、
（ｄ）各チャネル分離ステージにおいて、前記複数の帯域を時間方向にさらに周波数領域に分割する境界（Ｂｏｒｄｅｒ）を決定し、
（ｅ）各チャネル分離ステージにおいて、前記複数の信号およびダウンミックス信号を用いて、周波数帯域毎のＢＣ情報を算出する
ことを特徴とする装置。
請求項４に記載の装置であって、各チャネル分離ステージにおいて、複数の信号からなる入力合成ダウンミックス信号を、それぞれが（１）複数の信号からなる他の合成信号である、または（２）一つの信号である、二つの信号に分離する
ことを特徴とする装置。
請求項４に記載の装置であって、前記境界は、ＩＬＤにおける大きな変化に代表される、過渡事象が発生する時間的位置に配置される
ことを特徴とする装置。
請求項４に記載の装置であって、前記バイノーラルキュー情報は、必要に応じて、分離される二つの信号間のチャネル間レベル差キュー、チャネル間干渉性キュー、および高周波数チャネル間干渉性キューを含む
ことを特徴とする装置。
請求項４および請求項７に記載の装置であって、ＩＬＤキューは一つの周波数帯域において分離される二つの信号間のエネルギー比である
ことを特徴とする装置。
請求項４および請求項７に記載の装置であって、ＩＣＣキューは、一つの周波数帯域において分離される二つの信号間の、位相の相関性を計測するために用いられる
ことを特徴とする装置。
請求項４および請求項７に記載の装置であって、ＩＣＣＨキューは、一つの周波数帯域において分離される二つの信号間の、位相ではなく波形の相関性を計測するために用いられる
ことを特徴とする装置。
合成ダウンミックス信号とＢＣ情報とからなるビットストリームを、重み係数を用いて複数の個々の信号に復号化する装置であって、
（ａ）前記合成ダウンミックス信号をハイブリッド時間−周波数表現に変換し、それらを周波数軸に沿って複数の帯域に分割し、
（ｂ）請求項１に記載の装置の実装を前記ダウンミックス信号に対して適用して、チャネル分離に用いる複数の残響無相関信号を生成し、
（ｃ）各チャネル分離ステージにおいて、ミキシング係数算出（ＭＣＣ）モジュールを用いて、重み係数と、Ｂｏｒｄｅｒ、ＩＬＤ，ＩＣＣ、およびＩＣＣＨを含むバイノーラルキューとで構成される全てのセットを処理してミキシング係数を導出し、
（ｄ）各チャネル分離ステージにおいて、チャネル分離（ＣＳ）モジュールで前記合成ダウンミックス信号と、前記残響無相関信号のうちいずれかの残響無相関信号とを前記ミキシング係数を用いて変調し、それらを、それぞれが単一の信号、または合成信号である二つの出力信号に分離し、
（ｅ）前記出力信号が合成信号である場合、他のＣＳモジュールにおいて、当該出力信号を、それまで未使用の残響信号を用いて、全ての合成信号が個々の信号に分離されるまで繰り返し処理し、
（ｆ）全ての個々の信号を時間−周波数表現から時間領域に逆変換して、マルチチャネル音声信号を復元する
ことを特徴とする装置。
請求項１、３、および１１に記載の装置であって、前記複数の残響無相関信号は、互いにかつ入力ダウンミックス信号に対して直交である
ことを特徴とする装置。
請求項１１に記載の装置であって、前記ＭＭＣは、対応するチャネル分離ステージにおいて出力された二つの出力信号のそれぞれに適用される前記ＢＣ情報と重み係数とに基づいて２つのミキシング係数セットを生成する
ことを特徴とする装置。