JP2006325162A - バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置 - Google Patents

バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置 Download PDF

Info

Publication number
JP2006325162A
JP2006325162A JP2005148763A JP2005148763A JP2006325162A JP 2006325162 A JP2006325162 A JP 2006325162A JP 2005148763 A JP2005148763 A JP 2005148763A JP 2005148763 A JP2005148763 A JP 2005148763A JP 2006325162 A JP2006325162 A JP 2006325162A
Authority
JP
Japan
Prior art keywords
signals
signal
channel
channel separation
queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005148763A
Other languages
English (en)
Inventor
Rin Ryuu Wei
リン・リュウ ウェイ
Sen Chon Kok
セン・チョン コク
Naoya Tanaka
直也 田中
Hon Neo Sua
ホン・ネオ スア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2005148763A priority Critical patent/JP2006325162A/ja
Publication of JP2006325162A publication Critical patent/JP2006325162A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic Arrangements (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 従来のマルチチャネル音声信号符号化では、通常、チャネル分離における全てのステージおよびチャネルに対して一つまたは同じ残響信号または無相関信号を用いている。結果として得られる復元信号の音像は、一聴して音幅の狭さを感じさせるような改善の余地を残すものである。
【解決手段】本発明は、音像改善を図るため、(一つの)ダウンミックス音声信号を入力として用いて、必要な特性を持つ(複数の)無相関音声信号を生成する装置、およびチャネル分離を目的として上記無相関信号を用いる。また本発明は、音像改善のために、ICCの代わりに適宜ICCHを用いる。
【選択図】 図6

Description

本明細書においては、符号化処理においてバイノーラルキューを抽出して、ダウンミックス信号を生成し、復号化処理において前記バイノーラルキューを前記ダウンミックス信号に適用することでマルチチャネル音声信号を圧縮する装置に関する発明について詳細に説明する。本発明は、トレーニング用シミュレータ、カーオーディオシステム、家庭用またはビジネス用のオーディオ・ビデオシステム等に適用可能である。
本発明は、従来のマルチチャネル音声符号化技術を改良した技術を提供する。本発明の目的は、ビットレートに制約がある場合でも、知覚上のクオリティー(空間的イメージや音の忠実度など)を保ちつつマルチチャネル音声信号の符号化を行うことである。ビットレートが低くなると、マルチチャネル音声信号の送信や記憶に必要とされる帯域幅や記憶容量を低減できる。また本発明は、従来技術との互換性を保つため、従来の符号化方式や規格をベースとしている。
少ないビットでステレオ音声信号を表現するための従来技術の例としてジョイントステレオ符号化がある。ジョイントステレオ符号化の方法として、Middle/Side(MS)ステレオ符号化およびインテンシティーステレオ符号化が一般に用いられる。MSステレオ符号化は、音声信号間の相関性が高い場合に非常に効率的な符号化方法である。なぜなら、MSステレオ符号化においては、右チャネルと左チャネルの代わりに和(Mまたはミドル)チャネルと差分(Sまたはサイド)チャネルとが用いられるが、この場合、差分信号は非常に小さいからである。インテンシティーステレオ符号化では、高周波数の信号において、L信号およびR信号を、一つの代表信号と方向性情報とで置き換えることでビットレートの低減を実現している。これは、高周波数の信号位相に対しては感度が低いという人間の聴覚システムが持つ特徴を利用したものである。
通常、音声信号が人間の左右の耳に届くまでには時間差があり、左右の耳に届く音声レベルも異なる。これらの差は、音声信号がそれぞれ異なる経路を通って左右の耳に届くことに起因する。聴き手の脳は、音声信号が左右の耳に届くまでの時間差とレベル差を分析し、聴き手に対して、受け取った音声信号の音源が当該聴き手に対してどの位置にあるのかを知覚させる。聴き手は、その音源の方向および距離の両方を識別できる。一または複数の異なる場所にある一または複数の音源から音声信号を受け取った聴き手は、聴覚情景を描くことが可能となる。
特許文献1、2、および3によれば、近年、ビットレートの低減を目的として、音声符号化処理においてチャネル間レベル/強度差(ILD)、チャネル間位相/遅延差(IPD)、チャネル間干渉性/相関性(ICC)等のバイノーラルキューが多く用いられている。バイノーラルキューは、まず符号化処理においてオリジナル音声信号から導出された後、ダウンミック信号とともに送出され、復号化処理において音声信号を復元するために前記ダウンミックス信号を変換するために用いられる。ILDキューからは二つの信号間の相対的な信号パワーを測定でき、IPDキューからは音が両耳に届くまでの時間差を測定でき、ICCキューからは二つのチャネル間の干渉性や類似度を測定できる。これらのキューは、マルチチャネル音声信号の音源の拡散性、位置関係、方向性を特定し、聴き手が聴覚的情景を頭の中で構成するのを助ける空間的パラメータとなる。
図1は、音声符号化においてバイノーラルキューを用いる典型的な音声エンコーダ/デコーダ(コーデック)を示す図である。符号化処理において、音声信号はフレームごとに処理される。ダウンミックスモジュール(100)は、左(L)チャネルおよび右(R)チャネルをダウンミックスし、ダウンミックス信号Mを生成する。ここで、M=(L+R)/2である。これら3つの信号L、RおよびMを入力として、バイノーラルキュー抽出モジュール(102)はバイノーラルキューを生成する。これらのバイノーラルキューは、通常、周波数だけの領域、または時間領域と周波数領域とのハイブリッド型の領域において生成される。バイノーラルキューの生成は、通常、モジュール(102)に対して、高速フーリエ変換(FFT)、変形離散コサイン変換(MDCT)等の時間−周波数変換の関数、またはQMFバンク等のハイブリッド型の時間−周波数変換の関数を実装することで実現される。一般に、上述のようなコーデックにおいては、音声信号処理はフレーム単位で行われる。
次に、オーディオエンコーダ(104)はMから圧縮ビットストリームを生成する。モジュール(106)は、量子化されたバイノーラルキューと前記ビットストリームとを多重化し、完全なビットストリームを形成する。一般にオーディオエンコーダにおいては、MP3やAAC等の規格に基づくアルゴリズムが用いられる。
復号化処理において、デマルチプレクサ(108)は、伝送媒体または記憶媒体を介して受信したMのビットストリームをバイノーラルキュー副情報から分離する。オーディオデコーダ(110)はダウンミックス信号Mを再生する。再生されたダウンミックス信号Mは、マルチチャネル分離モジュール(112)に送出さる。マルチチャネル分離モジュール(112)は、ダウンミックス信号と逆量子化されたバイノーラルキューとを入力とし、マルチチャネル信号を復元する。
上記ビットレート低減という課題だけでなく、音声信号の聴覚上のクオリティーを保つという課題も存在する。復号された音声信号のクオリティーを向上させるための技術が数多く存在するが、そのうち非特許文献1は、音の聴覚上のクオリティーを向上させるためにエコーや残響を用いる手法を提案している。離散時間信号処理に基づく人工的な残響は、1960年代初めにその使用が始まって以来非特許文献2、音響工学の分野において広く利用されている。音響工学における残響の応用例として、室内音響学シミュレーション、音楽知覚クオリティーの向上、相関性のない出力の生成等が挙げられる。
非特許文献1は、相関性のない出力を生成するためにフィードバック遅延システム(FDN)を用いた実装について記載している。図2はFDNの例を示す図である。FDNは、オールパスフィルタ(202)と、複数の遅延線(204〜210)と、フィードバック行列(212)とで構成される。フィードバック行列によって、各遅延線からの出力を各遅延入力にフィードバックすることが可能になる。特に、StautnerおよびPucketteが提案するFDN(非特許文献3)は、互いに非干渉的であり無相関的である出力を生成できるという望ましい特徴を有しているため、チャネル分離に利用できる。例えば図3に示すMおよびM0,revのように、互いに非干渉的であり無相関的である二つの出力は直交的なベクトル関係を有している。
本発明は、従来のバイノーラルキュー符号化に基づく手法を改善することを目的とする。特に、本発明では、チャネル分離の過程において追加的に無相関信号および残響信号を用いる。これによって、チャネル分離ステージ毎に、他のステージで用いられた残響信号とは異なる残響信号を用いることが可能となる。
International Patent Publication WO03/090208A1, "Parametric Representation of Spatial Audio" US2003/0035553A1, "Backwards-Compatible Perceptual Coding of Spatial Cues" US2003/0236583A1, "Hybrid Multi-channel/Cue Coding/Decoding of Audio Signals" Karls, M., Brandenburg, K., et al, "Applications of Digital Signal Processing to Audio and Acoustics", Kluwear Academic Press. Schroeder MR. (1962), "Natural Sounding Artificial Reverberation". J. Audio Eng. Soc., 10(3) Stautner J and Puckette M. (1982), "Designing multi-channel reverberators". Computer Music Journal. 6(1): 52-65. JP2004/248989, "Encoding and Decoding Devices for Audio Signals"
本発明は、符号化処理においてQMFフィルタバンクを用いて音声チャネルを時間−周波数(T/F)表現に変換するバイノーラルキュー符号化方法に関する。本明細書では、Xに対する処理が時間−周波数領域で行われる場合、Xの量または関数をX(t,f)と
表記する。
チャネル分離の際、全てのチャネルに対して同じ残響信号または無相関信号(Mrev(t,f))を用いると、結果として得られる復元信号の音像は、一聴して音幅の狭さを感じさせるような改善の余地を残すものである。
空間音声符号化においてマルチチャネル信号を分離するために、パラメトリックステレオ(PS)モジュール(404)〜(412)を、図4に示すようにカスケード接続する。このような構成により、符号化・復号化処理において、受け取る残響のレベルをチャネルごとに異ならせることができる。例えば、図4の例では、チャネルCおよびチャネルLFEが受け取る残響のレベルは、他のチャネルが受け取る残響レベルより低くなる。
本発明の実施の形態1では、チャネル分離のために、ダウンミックス音声信号を入力として用いて、互いに直交的で無相関的な音声信号を生成する装置を提案する。
実施の形態2では、まずダウンミックスチャネルとオリジナルチャネルとの間のベクトル関係をバイノーラルキューから決定した後、前記ダウンミックス信号と当該ダウンミックス信号に直交である信号との間の正確なベクトル関係をシミュレートするための新しいミキシング方法を提案する。
実施の形態3では、上記複数の無相関信号と上記新しいミキシング方法とを組み合わせて用いることで、チャネル分離をマルチチャネルに応用する方法を提案する。
本発明は、チャネル分離ステージ毎に異なる残響信号(Mi,rev(t,f))を用いることで音像の向上を目指す。これによって、復元された各チャネルは、復元の時点で他のチャネルとは十分に“異なる”ことになり、結果として音幅と音像が向上する。さらに本発明では、全ての残響信号は確実に同時に生成され、チャネル分離において各チャネルは確実に同じレベルの残響信号を受け取ることができる。
本発明は、従来技術による方法で生成された復元音声信号の音像と比較して改善された音像の生成を実現する。これは、チャネル分離ステージ毎に異なる残響信号を用いることができるように、複数の残響信号を生成する無相関器を実装すること、およびICCの代わりに適宜ICCHを用いることで実現される。
以下に示す実施の形態は、本発明の様々な進歩性の原理を例示しているにすぎず、以下に示す詳細な説明に対して種々変形を加えることが可能であることは、当業者であれば容易に理解するところである。従って、本発明は特許請求の範囲によってのみ制限されるものであって、以下に示す詳細な具体例よって限定されるものではない。
さらに、ここでは、ステレオ−モノラル−ステレオ(以降、“2-1-2ケース”と記す)および5チャネル−モノラル−5チャネル(以降、“5-1-5ケース”と記す)の2つのケースのみを示しているが、本発明はこれに限定されるものではない。これを、MオリジナルチャネルおよびNダウンミックスチャネルとして一般化することができる。
本発明の実施の形態1において、図2に示す無相関器(200)は、一つのダウンミックス信号から、互いに干渉性がなく無相関的な出力を生成する。無相関器の出力Mrevは、互いに無相関的であり、直交である。遅延線(204〜210)の遅延長は、図2においてm0、m1、m2、およびm3として示されるように、互いに素である必要がある。
非特許文献3において指摘されているように、フィードバック行列A(212)において、出力Mi,revが互いに干渉性を持たないように遅延出力をミックスする。信号間に互いに干渉性がないということは、それらの信号が互いに直交であることを意味する。このような関係を数学的に表現すると以下のようになる。
Figure 2006325162
上記数式、および以降の説明において、● は内積を表わす。
さらに、オリジナル信号(M)の残響信号(Mrev)が当該オリジナル信号(M)に対して直交であるというモデルは音響工学においては広く受け入れられている。オールパスフィルタ(202)によって、FDNで生成されるすべての信号はオリジナルダウンミックス信号Mに対して確実に直交である。これを数学的に表現すると、
Figure 2006325162
図5において、非特許文献3が5-1-5ケースで用いているフィードバック行列Aの例を行列(500)として示している。行列(500)はユニタリー行列であり、行列要素は次の関係が満たされるように設定される。
Figure 2006325162
本発明の実施の形態2では、チャネル分離のために、バイノーラルキューを用いてダウンミックスチャネルとオリジナルチャネルとの間のベクトル関係を導出するという新しいミキシング方法を説明する。
図6は2-1-2ケースにおける符号化処理を示す図である。変換モジュール(600)は、例えば複素QMFフィルタバンクであり、オリジナルチャネルL(t)およびR(t)を処理し、それぞれの時間−周波数表現L(t,f) およびR(t,f)を生成する。時間−周波数領域において、一つの信号は連続する複数のサブバンドを含んでおり、それぞれのサブバンドはオリジナル信号の狭い周波数帯域を表している。周波数帯域の幅にバリエーションを持たせるために、QMFフィルタバンクを複数のステージで構成することができる。これによって、より細かな分割が求められるサブバンドに対しては狭い周波数帯域を与えることができ、より粗い分割が求められるサブバンドに対しては広い周波数帯域を与えることができる。
ダウンミックスモジュール(602)は、L(t,f) およびR(t,f)を処理してダウンミックス信号M(t,f)を生成する。図6においては”重み付け”を用いた方法を示す。
本発明では、ILDキューを用いてレベル調整を行う。モジュール(604)は、L(t,f)およびR(t,f)を処理し、ILD(l,b)およびBorderを生成する。図7に示すように、時間−周波数領域において、まずL(t,f)を周波数方向に複数の帯域(700)に分割する。それぞれの帯域は複数のサブバンドを含む。耳が持つ音響心理学的特性を利用して、低周波数帯域は、高周波数帯域よりもサブバンドの数が少なくなっており、高周波数帯域よりも細かく分割される。例えば、最適な処理を行うためには、サブバンドへの分割を行う際に分割位置を正確に微調整することが望ましいが、音響心理学の分野でよく知られている”バーク尺度”または”臨界帯域”を用いて分割を行ってもよい。
L(t,f)およびR(t,f)はさらに時間方向にBorder(702)で周波数帯域(l,b) に分割され、これに対してEL(l,b)およびER(l,b)を計算する。本明細書においては、lは時間的区分の指標であり、bは(周波数)帯域の指標を示す。Borderの最適な配置場所は、EL(l,b)およびER(l,b)の比率の急激な変化に代表される過渡事象が発生する時間的位置である。次にモジュール(604)は、次の数式に基づきILD(l,b)を算出する。
Figure 2006325162
符号化処理において、モジュール(606)はL(t,f)およびR(t,f)を処理してICCキューを求める。ICC(l,b)以下の数式を用いて求められる。
Figure 2006325162
さらに、符号化処理において、モジュール(608)はL(t,f)およびR(t,f)を処理し高周波数サブバンド(>1.5kHzのみ)に対する高周波数ICCH(ICCH)キューを求める。ICCH(l,b)は以下の数式を用いて求められる。
Figure 2006325162
ICC(l,b)およびILD(l,b)は、チャネル分離において、Mに対する二つのチャネルの実際の信号強度を導出するためのゲインファクターを算出するために用いられる。ICC(l,b)に関しては、低周波数におけるLとRとの間の位相関係の計測にも用いられる。結果として、ICC(l,b)は、LとRの分離度合いの計測にも役立つ。しかしながら高周波数(通常、>1.5kHz)においては、音が分離していることによってもたらされる効果は、位相差ではなく、LおよびRの波形の類似度または相関性に影響される。よって、このような波形相関の計測にはICCH(l,b)の利用がより適している。
図1におけるモジュール(102)の出力として示すように、上記バイノーラルキューは、符号化処理における副情報の一部となる。図8に示すように、バイノーラルキュー生成のための全処理は、モジュール(800)においてL(t,f)およびR(t,f)を入力として実行され、ICC(l,b)、ICCH(l,b)、Border、およびILD(l,b)が出力される。
図9は、上述のバイノーラルキューを利用してチャネル分離を行う復号化処理を示す図である。変換モジュール(900)はダウンミックス信号M(t)を処理し、時間−周波数表現M(t,f)に変換する。この場合、変換モジュールは複素QMFフィルタバンクである。
無相関器(902)はM(t,f)を処理し、チャネル分離に用いるための直交信号を二つ生成する。図2に示されるモジュール(200)は、そのような無相関器の一例である。本実施の形態においては、無相関器としてモジュール(200)を想定し、チャネル分離に用いる信号としてM(t,f)およびM0,rev(t,f)を想定する。実際上、図9に示すS1(t,f)およびS2(t,f)はそれぞれ図2に示すM(t,f)およびM0,rev(t,f)である。
次に復号化処理において、モジュール(906)はモジュール(904)からの出力に基づいてチャネル分離を行う。モジュール(904)は(l,b)として示される帯域それぞれについて、バイノーラルキューBorder、ILD(l,b)、ICC(l,b)、およびICCH(l,b)からミキシング係数gL(l,b)、gR
l,b)、θL(l,b)、およびθR(l,b
)を求める。これらのミキシング係数はモジュール(906)に送られる。モジュール(906)は、求められたミキシング係数に基づいてミキシングファクターgL1(l,b)、gL2(l,b)、gR1(l,b)、およびgR2(l,b)を算出し、チャネル分離を行う。
ミキシング係数の算出およびチャネル分離についての数学的根拠については後述する。記載の簡略化を図るため、以下では(l,b)の表記を省略する。
図6に示すダウンミックス処理を参照して、L、R、およびMのエネルギー間の関係を以下のように導出する。
Figure 2006325162
従来、ILDおよびICCは以下のように定義されている。
Figure 2006325162
このため、L’チャネルおよびR’チャネルを分離するために、Mを適切なレベルにまで増幅するのに必要なゲイン係数gLおよびgRは、上記ILDおよびICCの定義を数式EMに代入することで求めることができる。
Figure 2006325162
Figure 2006325162
チャネル分離を完了させるために、θLおよびθRとして示される二つのチャネルの分離の度合いを求める必要がある。図10はM、LおよびR間のベクトル関係を幾何学的に示した図である(特許文献4)。ここでは、角度測定はすべて図10を参照して行うものとする。高周波数(通常、>1.5kHz)に対しては(θL+θR)をθ=cos-1(ICCH)に設定し、低周波数に対しては(θL+θR)をθ=cos-1
ICC)に設定する。
タンジェントの三角関数の定義を適用することで、θRは次のように導出される。
Figure 2006325162
同様に、θLは次のように導出される
Figure 2006325162
モジュール(906)は、二つの無相関信号S1(t,f)およびS2(t,f)をミキシングしてLおよびRを復元することでチャネル分離を行い、L’およびR’を得る。なお、L’およびR’はオリジナルのLおよびRを複製したものではなく、シミュレーションしたものである。実施の形態1で説明したように、無相関器(200)は、|M|=|M0,rev|となるように、そして信号MおよびM0,revが直交的なベクトル関係を有すように設計されている。図3を参照し、XをLおよびRとすると、ミキシング処理は、ミ
キシングファクターgL1、gL2、gR1、およびgR2を用いてMおよびM0,revをスケーリングすることと、それに続くベクトル加算によって表される。gL1、gL2、gR1、およびgR2は、gL、gR、θL、およびθRから導出されるが、これについては後述する。

L’を導出するためには、次の2つの要件が満たされている必要がある。
Figure 2006325162
および
Figure 2006325162
この二つの連立方程式gL1およびgL2を解くことで、左チャネルL’を導出するためのミキシングファクターを求めることができる。
Figure 2006325162
同様に、右チャネルR’を導出するためのミキシングファクターを以下のように求めることができる。
Figure 2006325162
上記のようにして導出されたミキシングファクターを用い、L’およびR’を以下のように表現できる。
Figure 2006325162
モジュール(908)は、分離されたチャネルL’およびR’を逆変換し、時間領域信号L’(t)およびR’(t)を形成する。
本発明の実施の形態3では、実施の形態1に示した無相関器(200)と、実施の形態2に示した新しいミキシング方法とをマルチチャネルに対するチャネル分離に応用する方法を示す。
本発明の実施の形態2で説明したように、チャネルは、二つの直交信号に対して適切なミキシングファクターを付加することで復元される。復元された信号Xは通常、次のようになる。
Figure 2006325162
この数式において、gxはゲイン係数を示し、θxは分離の度合いを示す。
本実施の形態では、5-1-5ケースを用いて説明を行う。また、以下の数式をダウンミックス用の数式として想定する。
Figure 2006325162
上記数式において、LおよびRは二つのフロント(前方)チャネルを示し、LsおよびRsは二つのリア(後方)チャネルを示し、Cはセントラル(中央)チャネルを示す。
図11は5-1-5ケースにおける符号化処理を示す図である。同処理においては、BCC符号化モジュール(1100)〜(1106)を用いて異なる4通りのチャネルの組合せに対して処理を行うことで4つのバイノーラルキューセットを生成する。一つ目のバイノーラルキューセットは、モジュール(1100)においてCチャネルと中間ダウンミックスチャネル(L+0.707Ls+R+0.707Rs)を入力として生成される。モジュール(1102)〜(1106)も同様の機能を持つが、それぞれ異なる入力を用いることでそれぞれ異なるバイノーラルキューセットを生成する。生成された4つのバイノーラルキューセットは、マルチステージ復号化処理においてダウンミックスチャネルMをL、R、Ls、RsおよびCに繰り返し分離するために用いられる。
図12はチャネル分離の前に実行される復号化処理を示す図である。同前処理においては、本発明の実施の形態1と同様に、ダウンミックスチャネルMに対してQMF変換(1200)および無相関処理(1202)を行い、複数の直交残響信号Mirev(t,f)を生成する(i=0、1、2、3)。
バイノーラルキューセット1をMCCモジュール(1204)において処理し、二つのミキシングファクターセット(gc、θc)および(gM1、θM1)を生成する。この処理は、M(t,f)をC(t,f)とM1(t,f)とに分離するために行われる。ここで、M1(t,f)=(L(t,f)+0.707Ls(t,f)+R(t,f)+0.707Rs(t,f))/3.414である。[数19]より、M(t,f)=0.293C(t,f)+0.707M1(t,f)を求めることは容易であり、重み付けの値として0.293および0.707をC(t,f)およびM1(t,f)にそれぞれ用いる。
バイノーラルキューセット2をMCCモジュール(1206)において処理し、二つのミキシングファクターセット(gM2、θM2)および(gM3、θM3)を生成する。この処理はM1(t,f)をM2(t,f)=(L(t,f)+R(t,f))/2とM3(t,f)=(Ls(t,f)+Rs(t,f))/2とに分離するために行われる。[数19]より、M1(t,f)=0.586M2(t,f)+0.414M3(t,f)を求めることは容易であり、重み付けの値として0.586および0.414をM2(t,f)およびM3(t,f)にそれぞれ用いる。
バイノーラルキューセット3をMCCモジュール(1208)において処理し、二つのミキシングファクターセット(gL、θL)および(gR、θR)を生成する。この処理はM2(t,f)をL(t,f)とR(
t,f)とに分離するために行われる。M2(t,f)=0.5L(t,f)+0.5R(t,f)であるため、重み付けの値として0.5を用いる。
バイノーラルキューセット4をMCCモジュール(1210)において処理し、二つのミキシングファクターセット(gLs、θLs)および(gRs、θRs)を生成する。この処理はM3(t,f)をLs(t,f)とRs(t,f)とに分離するために行われる。M3(t,f)=0.5Ls(t,f)+0.5Rs(t,f)であるため、重み付けの値として0.5を用いる。
図13は上記マルチステージチャネル分離および復号化処理を示す図である。チャネル分離モジュール(1302)〜(1308)は、ダウンミックス信号M(t,f)および中間信号Mi(t,f)(i=0、1、2、3)と、無相関器(1202)によって生成された残響信号Mi,rev(t,f)(i=0、1、2、3)とに関連する一連の反復演算において、ミキシング係数の組合せを行う。各チャネル分離モジュールの出力は次のチャネル分離モジュールの入力となることがある。これは出力が以下のいずれかの場合に起こる。すなわち、出力が合成信号であって、これをさらに分離することで個々の音声信号が得られる場合、またはさらに分離できる他の合成信号が得られる場合である。具体的には、モジュール(1302)はM(t,f)、M0,rev(t,f)、(gc,θc)および(gM1、θM1)を取り込んで処理し、M(t,f)をM1(t,f)とC’(t,f)とに分離する。この場合、M1(t,f)は複数の信号を含むため、モジュール(1304)に渡され、さらにチャネル分離される。一方、C’(t,f)はセンターチャネルの復元信号であるため、モジュール(1310)に渡され、時間領域表現に逆変換される。モジュール(1304)〜(1308)においても同様の処理が行われる。チャネル分離モジュールが復元チャネルを得るために用いる数式は以下のとおりである。
Figure 2006325162
中間信号は以下のようになる。
Figure 2006325162
有効なチャネル分離の条件として、一つのステージで分離された二つのチャネル間の相関性が、BCCから推測されたものである必要がある。この条件を満たしているかどうかは以下のように証明できる。
Figure 2006325162
上記チャネル分離は有効である。なぜなら、
Figure 2006325162
図13に示す逆QMFモジュール(1310)〜(1318)を用いて、全ての合成チャネルを時間領域信号に変換することができる。
(その他変形例)
なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
本発明は、トレーニング用シミュレータ、カーオーディオシステム、家庭用またはビジネス用のオーディオ・ビデオシステム等に適用可能である。
典型的なバイノーラルキューコーデック。 フィードバック遅延ネットワークを用いる無相関器。 二つの直交信号ベクトルの和による信号合成。 カスケード型PSモジュールの実装(従来技術)。 フィードバック行列の例。 2-1-2ケースにおける空間音声復号化処理。 時間・周波数表現における帯域分割。 バイノーラルキュー抽出モジュール。 2-1-2ケースにおける空間音声復号化処理。 ステレオ音ペアおよびそれらのダウンミックスの幾何学的表現。 5-1-5ケースにおける空間音声符号化処理の一部。 チャネル分離の前に行われる復号化処理。 本発明が用いるチャネル分割・復号化処理(5-1-5ケース)。
符号の説明
600 変換モジュール
602 ダウンミックスモジュール
604 ILDモジュール
606 ICCモジュール
608 ICCHモジュール
800 2−1BCC符号化モジュール
900 QMFフィルタバンク
902 無相関器
904 ミキシング係数算出モジュール
906 チャネル分離モジュール
908 QMF-1フィルタバンク

Claims (13)

  1. 一つの音声信号を処理して、互いに非干渉である複数の残響信号を生成する装置であって、
    (a) オールパスフィルタを用いて前記音声信号を処理して、中間残響信号を生成し、
    (b) フィードバック遅延ネットワーク(FDN)を用いて前記中間残響信号を処理して、複数の残響信号を生成する
    ことを特徴とする装置。
  2. 請求項1に記載の装置であって、前記FDNは、互いに素である遅延長を有するフィードフォワード遅延線と、フィードバック行列を有するフィードバック経路とを含む
    ことを特徴とする装置。
  3. 請求項1および請求項2に記載の装置であって、前記フィードバック行列は、(1)ユニタリー行列であり、(2)それぞれの残響信号のエネルギーが同じになり、それぞれの残響信号が互いに非干渉かつ直交になるような行列要素を持つ
    ことを特徴とする装置。
  4. 複数の信号を、合成ダウンミックス信号とバイノーラルキュー(BC)情報とからなるビットストリームに符号化する装置であって、
    (a) 前記複数の信号を用いてダウンミックス信号を生成し、
    (b) 前記複数の信号とダウンミックス信号とを、ハイブリッド時間−周波数表現に変換し、それらを周波数軸に沿って複数の帯域に分割し、
    (c) 反復的に行われるマルチステージ復号化処理において、前記ダウンミックス信号を個々の信号に分離するためのチャネル分離ステージを導出し、
    (d)各チャネル分離ステージにおいて、前記複数の帯域を時間方向にさらに周波数領域に分割する境界(Border)を決定し、
    (e) 各チャネル分離ステージにおいて、前記複数の信号およびダウンミックス信号を用いて、周波数帯域毎のBC情報を算出する
    ことを特徴とする装置。
  5. 請求項4に記載の装置であって、各チャネル分離ステージにおいて、複数の信号からなる入力合成ダウンミックス信号を、それぞれが(1)複数の信号からなる他の合成信号である、または(2)一つの信号である、二つの信号に分離する
    ことを特徴とする装置。
  6. 請求項4に記載の装置であって、前記境界は、ILDにおける大きな変化に代表される、過渡事象が発生する時間的位置に配置される
    ことを特徴とする装置。
  7. 請求項4に記載の装置であって、前記バイノーラルキュー情報は、必要に応じて、分離される二つの信号間のチャネル間レベル差キュー、チャネル間干渉性キュー、および高周波数チャネル間干渉性キューを含む
    ことを特徴とする装置。
  8. 請求項4および請求項7に記載の装置であって、ILDキューは一つの周波数帯域において分離される二つの信号間のエネルギー比である
    ことを特徴とする装置。
  9. 請求項4および請求項7に記載の装置であって、ICCキューは、一つの周波数帯域において分離される二つの信号間の、位相の相関性を計測するために用いられる
    ことを特徴とする装置。
  10. 請求項4および請求項7に記載の装置であって、ICCHキューは、一つの周波数帯域において分離される二つの信号間の、位相ではなく波形の相関性を計測するために用いられる
    ことを特徴とする装置。
  11. 合成ダウンミックス信号とBC情報とからなるビットストリームを、重み係数を用いて複数の個々の信号に復号化する装置であって、
    (a) 前記合成ダウンミックス信号をハイブリッド時間−周波数表現に変換し、それらを周波数軸に沿って複数の帯域に分割し、
    (b) 請求項1に記載の装置の実装を前記ダウンミックス信号に対して適用して、チャネル分離に用いる複数の残響無相関信号を生成し、
    (c) 各チャネル分離ステージにおいて、ミキシング係数算出(MCC)モジュールを用いて、重み係数と、Border、ILD,ICC、およびICCHを含むバイノーラルキューとで構成される全てのセットを処理してミキシング係数を導出し、
    (d) 各チャネル分離ステージにおいて、チャネル分離(CS)モジュールで前記合成ダウンミックス信号と、前記残響無相関信号のうちいずれかの残響無相関信号とを前記ミキシング係数を用いて変調し、それらを、それぞれが単一の信号、または合成信号である二つの出力信号に分離し、
    (e) 前記出力信号が合成信号である場合、他のCSモジュールにおいて、当該出力信号を、それまで未使用の残響信号を用いて、全ての合成信号が個々の信号に分離されるまで繰り返し処理し、
    (f) 全ての個々の信号を時間−周波数表現から時間領域に逆変換して、マルチチャネル音声信号を復元する
    ことを特徴とする装置。
  12. 請求項1、3、および11に記載の装置であって、前記複数の残響無相関信号は、互いにかつ入力ダウンミックス信号に対して直交である
    ことを特徴とする装置。
  13. 請求項11に記載の装置であって、前記MMCは、対応するチャネル分離ステージにおいて出力された二つの出力信号のそれぞれに適用される前記BC情報と重み係数とに基づいて2つのミキシング係数セットを生成する
    ことを特徴とする装置。

JP2005148763A 2005-05-20 2005-05-20 バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置 Pending JP2006325162A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005148763A JP2006325162A (ja) 2005-05-20 2005-05-20 バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005148763A JP2006325162A (ja) 2005-05-20 2005-05-20 バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置

Publications (1)

Publication Number Publication Date
JP2006325162A true JP2006325162A (ja) 2006-11-30

Family

ID=37544461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005148763A Pending JP2006325162A (ja) 2005-05-20 2005-05-20 バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置

Country Status (1)

Country Link
JP (1) JP2006325162A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011114932A1 (ja) 2010-03-17 2011-09-22 ソニー株式会社 音声処理装置、音声処理方法、およびプログラム
JP2012124616A (ja) * 2010-12-06 2012-06-28 Fujitsu Ten Ltd 音場制御装置
JP2013511062A (ja) * 2009-11-12 2013-03-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメトリックエンコード及びデコード
JP2015506653A (ja) * 2012-02-24 2015-03-02 ドルビー・インターナショナル・アーベー オーディオ処理
US9818411B2 (en) 2008-07-14 2017-11-14 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9818411B2 (en) 2008-07-14 2017-11-14 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
US10403293B2 (en) 2008-07-14 2019-09-03 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
US10714103B2 (en) 2008-07-14 2020-07-14 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
US11705137B2 (en) 2008-07-14 2023-07-18 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
JP2013511062A (ja) * 2009-11-12 2013-03-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメトリックエンコード及びデコード
WO2011114932A1 (ja) 2010-03-17 2011-09-22 ソニー株式会社 音声処理装置、音声処理方法、およびプログラム
JP2011197105A (ja) * 2010-03-17 2011-10-06 Sony Corp 音声処理装置、音声処理方法、およびプログラム
CN102792369A (zh) * 2010-03-17 2012-11-21 索尼公司 语音处理装置、语音处理方法和程序
US8977541B2 (en) 2010-03-17 2015-03-10 Sony Corporation Speech processing apparatus, speech processing method and program
JP2012124616A (ja) * 2010-12-06 2012-06-28 Fujitsu Ten Ltd 音場制御装置
JP2015506653A (ja) * 2012-02-24 2015-03-02 ドルビー・インターナショナル・アーベー オーディオ処理
US9728194B2 (en) 2012-02-24 2017-08-08 Dolby International Ab Audio processing

Similar Documents

Publication Publication Date Title
JP5185340B2 (ja) マルチチャネルオーディオ信号を表示するための装置と方法
EP1906706B1 (en) Audio decoder
RU2409911C2 (ru) Декодирование бинауральных аудиосигналов
TWI415111B (zh) 空間解碼器單元、空間解碼器裝置、音訊系統、消費型電子裝置、產生一對雙耳輸出聲道之方法及電腦可讀媒體
US8296158B2 (en) Methods and apparatuses for encoding and decoding object-based audio signals
JP4934427B2 (ja) 音声信号復号化装置及び音声信号符号化装置
JP4918490B2 (ja) エネルギー整形装置及びエネルギー整形方法
TWI404429B (zh) 用於將多頻道音訊信號編碼/解碼之方法與裝置
JP6329629B2 (ja) 領域の音場データを圧縮および解凍するための方法および装置
JP5053849B2 (ja) マルチチャンネル音響信号処理装置およびマルチチャンネル音響信号処理方法
CN116741188A (zh) 立体声音频编码器和解码器
JP4988716B2 (ja) オーディオ信号のデコーディング方法及び装置
JP2015528925A (ja) オーディオ信号処理装置および方法
KR100745688B1 (ko) 다채널 오디오 신호 부호화/복호화 방법 및 장치
JP2006325162A (ja) バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置
JP6686015B2 (ja) オーディオ信号のパラメトリック混合
JP2006323314A (ja) マルチチャネル音声信号をバイノーラルキュー符号化する装置
Baumgarte et al. Audio coder enhancement using scalable binaural cue coding with equalized mixing
JP2007104601A (ja) マルチチャンネル符号化における頭部伝達関数をサポートするための装置
WO2007080224A1 (en) Decoding of binaural audio signals
MX2008008829A (en) Decoding of binaural audio signals