JP5156386B2 - 空間音声のパラメトリック符号化のためのコンパクトなサイド情報 - Google Patents

空間音声のパラメトリック符号化のためのコンパクトなサイド情報 Download PDF

Info

Publication number
JP5156386B2
JP5156386B2 JP2007549803A JP2007549803A JP5156386B2 JP 5156386 B2 JP5156386 B2 JP 5156386B2 JP 2007549803 A JP2007549803 A JP 2007549803A JP 2007549803 A JP2007549803 A JP 2007549803A JP 5156386 B2 JP5156386 B2 JP 5156386B2
Authority
JP
Japan
Prior art keywords
channels
cue
code
estimated
codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007549803A
Other languages
English (en)
Other versions
JP2008527431A (ja
Inventor
ユールゲン ヘレ
クリストフ フォーラー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agere Systems LLC
Original Assignee
Agere Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agere Systems LLC filed Critical Agere Systems LLC
Publication of JP2008527431A publication Critical patent/JP2008527431A/ja
Application granted granted Critical
Publication of JP5156386B2 publication Critical patent/JP5156386B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

関連出願のクロスリファレンス
本出願の対象は、下記の米国特許出願に関連しており、これらのすべての教示は、参考として本明細書に組み込まれる。
○ 2001年5月4日、代理人整理番号Faller5として出願された、米国特許出願第09/848,877号;
○ 2001年11月7日、代理人整理番号Baumgarte1−6−8として出願された、米国特許出願第10/045,458号。該出願自体は2001年8月10日に出願された米国特許仮出願第60/311,565号の出願日付の利益を主張した;
○ 2002年5月24日、代理人整理番号Baumgarte2−10として出願された、米国特許出願第10/155,437号;
○ 2002年9月18日、代理人整理番号Baumgarte3−11として出願された、米国特許出願第10/246,570号;
○ 2004年4月1日、代理人整理番号Baumgarte7−12として出願された、米国特許出願第10/815,591号;
○ 2004年9月8日、代理人整理番号Baumgarte8−7−15として出願された、米国特許出願第10/936,464号;
○ 2004年1月20日出願された(Faller13−1)、米国特許出願第10/762,100号;
○ 2004年12月7日、代理人整理番号Allamanche1−2−17−3として出願された、米国特許出願第11/006,492号;および
○ 2004年12月7日、代理人整理番号Allamanche2−3−18−4として出願された、米国特許出願第11/006, 号。
また、本出願の対象は、以下の論文に記載された対象とも関連し、これら論文のすべての教示は、参考として本明細書に組み込まれる。
○ F.Baumgarte(バウムガルテ)およびC.Faller(ファーラー)、「バイノーラルキューコーディング−−パートI:心理音響的原理および設計原則(Binaural Cue Coding−−Part I: Psychoacoustic fundamantals and design principle)」,IEEE Trans. on Speech and Audio Proc.(音声および音響処理)、巻11、No.6、2003年11月;
○ C.Faller(ファーラー)およびF.Baumgarte(バウムガルテ)、「バイノーラルキューコーディング−−パートII:スキームおよびアプリケーション(Binaural Cue Coding−−Part II: Schemes and applications)」,IEEE Trans.on Speech and Audio Proc.(音声および音響処理)、巻11、No.6、2003年11月;
○ C.Faller(ファーラー)、「異なる再生フォーマットと互換性のある空間音声符号化(Coding of spatial audio compatible with different playback formats)」,2004年10月、オーディオ技術協会(Aud.Eng.Soc.)、第117回大会発表抄録。
本発明は、音声信号の符号化、およびその後の符号化された音声データからの聴覚情景の合成に関する。
人が、特定の音声源により生成された音声信号(すなわち音)を聞く場合、通常、音声信号は、その人の左と右との耳に、2つの異なる時間および2つの異なる音声レベル(例えば、デシベル)で到達することになり、これら異なる時間とレベルとは、該音声信号が、伝わって左と右との耳に到達するそれぞれの経路の差の関数である。聴取者の頭脳は、聞いた音声信号が、聴取者に対しある特定の位置(例えば、方角および距離)に所在する音声源から発生しているという知覚をその聴取者に与えるために、これら時間とレベルの差を解釈する。聴覚情景は、ある人に対し1つ以上の異なる位置に置かれた、1つ以上の異なる音声源によって生成された音声源を、その人が同時に聞いた場合の総合効果である。
この頭脳による処理過程の存在を聴覚情景の合成に用いることができる。そこでは1つ以上の異なる音声源からの音声は、さまざまな音声源が聴取者に対しさまざまな位置に置かれているという知覚を与えるように、左および右の音声信号に生成するために、意図的に修正される。
図1は、従来型のバイノーラル信号シンセサイザ100の上位ブロック図を示し、該シンセサイザは、単一音声源の信号(例えば、モノラル信号)をバイノーラル信号の左右の音声信号に変換し、バイノーラル信号は、聴取者の鼓膜に受音される2つの信号として定義される。音声源信号に加えて、シンセサイザ100は、聴取者に対する音声源の所望の位置に対応する空間音響情報(spatial cue)のセットを受信する。典型的実装例において、空間音響情報のセットは、チャネル間レベル差(ICLD)値(左と右との耳でそれぞれ聴取される左右の音声信号間の音声レベルの差を識別する)およびチャネル間時間差(ICTD)値(左と右との耳でそれぞれ聴取される左右の音声信号の間の着信時間の差を識別する)を含む。これに加え、またはこれに代えて、一部の合成技術は、頭部伝達関数(HRTF)とも呼ばれる、信号源から鼓膜への音響に対する方向依存性伝達関数(direction−dependent transfer function)のモデリングが使われる。例えば、J.Blauert(ブラウエルト)の、人間、音響の局在性の精神物理学(Psychophysics of Human Sound Localization)、MITプレス、1983年を参照するとよい。前記の教示は参考として本明細書に組み込まれる。
図1のバイノーラル信号シンセサイザ100を使って、単一の音響源によって生成されたモノラル音声信号を処理し、適切な空間音響情報のセット(例えば、ICLD、ICTD、および/またはHRTF)を用いて音源を空間的に配置し、ヘッドフォーンで聴いたときに、左右各々の耳のための音声信号を生成することができる。例えば、D.R.Begault(ベゴート)の、バーチャルリアリティおよびマルチメディアのための3−D音響(3−D Sound for Virtual Reality and Multimedia), Academic Press、マサチューセッツ州ケンブリッジ、1994年を参照するとよい。
図1のバイノーラル信号シンセサイザ100は、聴取者に対し配置された単一の音声源を有する、最も単純な種類の聴覚情景を生成する。基本的には、バイノーラル信号合成装置の複数のインスタンスを使って実行される聴覚情景シンセサイザを用いて、聴取者に対しいろいろな位置に配置された2つ以上の音声源を含むもっと複雑な聴覚情景を生成することができ、バイノーラル信号合成装置の各インスタンスは、異なる音声源に対応するバイノーラル信号を生成する。各異なる音声源は、聴取者に対して異なる場所を占めているので、各異なる音声源に対するバイノーラル音声信号を生成するため、異なった空間音響情報セットが使われる。
米国特許出願第09/848,877号 米国特許出願第10/045,458号 米国特許出願第10/155,437号 米国特許出願第10/246,570号 米国特許出願第10/815,591号 米国特許出願第10/936,464号 米国特許出願第10/762,100号 米国特許出願第11/006,492号 F.Baumgarte(バウムガルテ)およびC.Faller(ファーラー)、「バイノーラルキューコーディング−−パートI:心理音響的原理および設計原則(Binaural Cue Coding−−Part I: Psychoacoustic fundamantals and design principle)」,IEEE Trans. on Speech and Audio Proc.(音声および音響処理)、巻11、No.6、2003年11月 C.Faller(ファーラー)およびF.Baumgarte(バウムガルテ)、「バイノーラルキューコーディング−−パートII:スキームおよびアプリケーション(Binaural Cue Coding−−Part II: Schemes and applications)」,IEEE Trans.on Speech and Audio Proc.(音声および音響処理)、巻11、No.6、2003年11月 C.Faller(ファーラー)、「異なる再生フォーマットと互換性のある空間音声符号化(Coding of spatial audio compatible with different playback formats)」,2004年10月、オーディオ技術協会(Aud.Eng.Soc.)、第117回大会発表抄録
1つの実施形態によれば、本発明は、音声チャネルを符号化するための方法、装置、およびマシン可読媒体である。2つ以上の音声チャネルに対し1つ以上のキューコードが生成され、少なくとも、1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、各推定されたキューコードは、2つ以上の音声チャネルのグループから推定される。
別の実施形態によれば、本発明は、E個の送信チャネルを生成するために、C個の入力音声チャネルを符号化する装置である。該装置は、コード推定器およびダウンミキサを含む。コード推定器は、2つ以上の音声チャネルに対し1つ以上のキューコードを生成し、少なくとも1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、各推定されたキューコードは、2つ以上の音声チャネルのグループから推定される。ダウンミキサは、E個の送信チャネルを生成するために、C個の入力チャネルをダウンミックスし、C>E≧1であり、該装置は、キューコードについての情報を送信し、デコーダが、E個の送信チャネルの復号過程で合成処理を行えるようにするように適応される。
別の実施形態によれば、本発明は、音声チャネルを符号化することにより生成される符号化音声ビットストリームであり、2つ以上の音声チャネルに対し1つ以上のキューコードが生成され、少なくとも、1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、各推定されたキューコードは、2つ以上の音声チャネルのグループから推定される。2つ以上の音声チャネルに対応する、1つ以上のキューコードとE≧1であるE個の送信音声チャネルとは、符号化音声ビットストリーム中にエンコードされる。
別の実施形態によれば、本発明は、1つ以上のキューコードとE個の送信音声チャネルとを含む符号化音声ビットストリームである。2つ以上の音声チャネルに対し1つ以上のキューコードが生成され、少なくとも1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、各推定されたキューコードは、2つ以上の音声チャネルのグループから推定される。E個の送信音声チャネルは、2つ以上の音声チャネルに対応する。
別の実施形態によれば、本発明は、E個の送信音声チャネルを復号してC個の再生音声チャネルを生成するための方法、装置、およびマシン可読媒体であり、C>E≧1である。E個の送信チャネルに対応するキューコードが受信され、少なくとも、1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、各推定されたキューコードは、E個の送信チャネルに対応する音声チャネルの2つ以上のチャネルのグループから推定される。1つ以上のE個の送信チャネルが、1つ以上のアップミックスされたチャネルを生成するために、アップミックスされる。キューコードを1つ以上のアップミックスされたチャネルに適用して、1つ以上のC個の再生チャネルが合成され、2つ以上の導出キューコードが組合せキューコードから導き出され、各導出キューコードは、2つ以上の合成チャネルを生成するために、適用される。
以降の詳細な説明、添付の特許請求内容、および添付図面により、本発明の各種の特徴、機能、および利点は、さらに十分に明確化されよう。図面中の同一の参照番号は、類似または同一の要素を特定する。
図1は、従来型のバイノーラル信号シンセサイザの上位ブロック図を示す。
図2は、一般的なバイノーラルキューコーディング(BCC)音声処理システムのブロック図である。
図3は、図2のダウンミキサとして使用可能なダウンミキサのブロック図を示す。
図4は、図2のデコーダとして使用可能なBCCシンセサイザのブロック図を示す。
図5は、本発明の1つの実施形態による、図2のBCC推定器のブロック図を示す。
図6は、5チャネルオーディオに対するICTDおよびICLDデータの生成を示す。
図7は、5チャネルオーディオに対するICCデータの生成を示す。
図8は、BCCデコーダの中で使用可能な、送信された信号和s(n)と空間音響情報とからステレオまたはマルチチャネル生成するための、図4のBCCシンセサイザの実装例のブロック図を示す。
図9は、サブバンド内で、ICTDおよびICLDが、周波数の関数としてどのように変化するかを示す。
図10は、5対2BCCスキームのため、図2のデコーダとして使用可能なBCCシンセサイザのブロック図を示す。
図11は、本発明の1つの実施形態に関連する、図2に示されるようなBCCシステムによる処理の流れ図を示す。
バイノーラルキューコーディング(BCC)において、エンコーダは、E個の送信音声チャネルを生成するために、C個の入力チャネルを符号化し、C>E≧1である。具体的には、C個の入力チャネルの2つ以上が周波数領域で供給され、該周波数領域における2つ以上の入力各チャネルの中の、1つ以上の異なる周波数バンドの各々に対し、1つ以上のキューコードが生成される。また、該C個の入力チャネルは、E個の送信チャネルを生成するために、ダウンミックスされる。一部のダウンミックス実施例において、E個の送信チャネルの少なくとも1つは、C個の入力チャネルの2つ以上に基づいており、E個の送信チャネルの少なくとも1つは、C個の入力チャネルの1つ、それだけに基づいている。
1つの実施形態において、BCCエンコーダは、2つ以上のフィルタバンク、1つのコード推定器およびダウンミキサを備える。2つ以上のフィルタバンクは、C個の入力チャネルの2つ以上を時間領域から周波数領域に変換する。コード推定器は、2つ以上の変換された入力チャネル中の、1つ以上の異なる周波数バンドの各々に対し、1つ以上のキューコードを生成する。ダウンミキサは、E個の送信チャネルを生成するために、C個の入力チャネルをダウンミックスし、C>E≧1である。
BCC復号では、C個の再生音声チャネルを生成するために、E個の送信音声チャネルが復号される。具体的には、E個の送信チャネルの1つ以上は、周波数領域において、周波数領域におけるC個の再生チャネルの2つ以上を生成するために、1つ以上の異なる周波数バンドごとにアップミックスされ、C>E≧1である。該周波数領域における2つ以上の再生チャネル中の1つ以上の異なる周波数バンドの各々に対し、1つ以上のキューコードが、2つ以上の修正チャネルを生成するために適用され、該2つ以上の修正チャネルは、周波数領域から時間領域に変換される。一部のアップサンプリング実施例において、C個の再生チャネルの少なくとも1つは、E個の送信チャネルの少なくとも1つと、少なくとも1つのキューコードとに基づいており、C個の再生チャネルの少なくとも1つは、E個の送信チャネルのただ1つに基づいており、いかなるキューコードにも依存していない。
1つの実施形態において、BCCデコーダは、アップミキサ、シンセサイザ、および1つ以上の逆方向フィルタバンクを有する。アップミキサは、周波数領域におけるC個の再生チャネルの2つ以上を生成するために、周波数領域におけるE個の送信チャネルの1つ以上を、1つ以上の異なる周波数バンドごとにアップミックスし、C>E≧1である。シンセサイザは、2つ以上の修正チャネルを生成するために、1つ以上のキューコードを、周波数領域における2つ以上の再生チャネルの中の1つ以上の異なる周波数バンドの各々に適用する。1つ以上の逆方向フィルタバンクは、該2つ以上の修正チャネルを周波数領域から時間領域に変換する。
特定の実施例によっては、所定の再生チャネルを、2つ以上の送信チャネルの組合せでなく、単一の送信チャネルに基づかせることができる。例えば、1つの送信チャネルしかない場合、C個の再生チャネルの各々は、その1つの送信チャネルに基づくことになる。こういった状況では、アップミキシングは、当該送信チャネルをコピーすることに一致する。従って、送信チャネルが1つしかない場合のアプリケーションに対しては、各再生チャネルのため当該送信チャネルをコピーする複製器をアップミキサとして使うことができる。
BCCエンコーダ、および/またはデコーダを、例えば、デジタルビデオレコーダ/プレーヤー、デジタルオーディオレコーダ/プレーヤー、コンピュータ、衛星送信機/受信機、有線送信機/受信機、地上波放送送信機/受信機、ホームエンターテインメントシステム、および映画館システムを含め、多くのシステムまたはアプリケーションに組み入れることができる。
一般的BCC処理
図2は、エンコーダ202およびデコーダ204を含む、一般的なバイノーラルキューコーディング(BCC)音声処理システム200のブロック図である。エンコーダ202は、ダウンミキサ206およびBCC推定器208を含む。
ダウンミキサ206は、C個の入力音声チャネルxi(n)をE個の送信音声チャネルyi(n)に変換し、C>E≧1である。本明細書では、変数nを使って表現された信号は、時間領域の信号であり、変数kを使って表現された信号は、周波数領域の信号である。特定の実施例によっては、時間領域または周波数領域のいずれにおいても、ダウンミキシングを実施することができる。BCC推定器208は、C個の入力音声チャネルからBCCコードを生成し、それらBCCコードを、E個送信音声チャネルに関連するバンド内、またはバンド外いずれかのサイド情報として送信する。典型的なBCCコードは、周波数および時間の関数として入力チャネルの特定のペアの間で推定された、チャネル間時間差(ICTD)、チャネル間レベル差(ICLD)およびチャネル間相関度(ICC)データの1つ以上を含む。該特定の実施例では、入力チャネルのどの特定ペアの間でBCCコードが推定されるかが指定される。
ICCデータは、バイノーラル信号のコヒーレンスに対応し、知覚される音声源の幅に関連している。音声源の幅が広いほど、得られるバイノーラル信号の左チャネルと右チャネルとの間のコヒーレンスは低くなる。例えば、ホールのステージいっぱいに拡がったオーケストラに対応するバイノーラル信号のコヒーレンスは、通常、単一のバイオリンのソロ演奏に対応するバイノーラル信号のコヒーレンスよりも小さい。一般的に、より低いコヒーレンスを持つ音声信号は、通例、聴覚空間において大きな広がりを持って知覚される。従って、ICCデータは、典型的には見かけ上の音源の幅および聴取者の包み込み状態に関係する。例えば、J.Blauert(ブラウエルト)の、人間、音響の局在性の精神物理学(Psychophysics of Human Sound Localization)、MITプレス、1983年を参照するとよい。
Figure 0005156386
一般的なBCC音声処理システムは、エンコーダで音声信号をさらに圧縮し該音声信号をデコーダで解凍するために、図2に示したBCC処理に加え、追加の符号化および復号化ステージを含む。これらの音声コーデックを、パルス符号変調(PCM)、差分PCM(DPCM)、または適応的DPCM(ADPCM)に基づく技法といった既存技術の音声圧縮/解凍技法に基づいたものとすることができる。
ダウンミキサ206が、単一の和信号(すなわちE=1)を生成する場合でも、BCC符号化は、モノラル音声信号を表現するために必要なビットレートより僅かに高いビットレートで、マルチチャネル音声信号を表現することができる。これが可能なのは、チャネルペアの間の推定されたICTD、ICLD、およびICCのデータが、音声波形より約2桁低い情報量しか包含していないからである。
BCC符号化の低いビットレートだけでなく、その下位互換性の面も興味深い。単一の送信和信号は、元のステレオ、またはマルチチャネル信号のモノラルダウンミックスに対応する。ステレオ、またはマルチチャネル音響の再生に対応していない受信器にとって、該送信和信号を聴取することは、低仕様のモノラル再生装置で音声題材を表現する妥当な方法である。従って、モノラル音声の配信に関わる既存のサービスをマルチチャネル音声に格上げするため、BCC符号化を使うこともできる。例えば、BCCサイド情報を既存の送信チャネルに組み込むことができれば、既存のモノラル音声ラジオ放送システムを、ステレオ、またはマルチチャネル再生放送に格上げすることができる。マルチチャネルを、ステレオ音声に対応する2つの和信号にダウンミックスする場合にも、同様なことが可能である。
BCCは、特定の時間および周波数処理方法を使って音声信号を処理する。使用される周波数処理方法は、人間の聴覚システムの周波数処理方法を大いに利用している。心理音響学は、空間知覚が、聴覚入力信号の臨界帯域の表現に基づいている可能性が高いことを示唆している。この周波数処理方法は、人間の聴覚システムの臨界帯域幅と等しいかこれと比例する帯域幅を持つサブバンドを備えた可逆フィルタバンク(例えば、高速フーリエ変換(FFT)または直交ミラーフィルタ(QMF)に基づくもの)を使って設定される。
一般的ダウンミキシング
好適な実施例において、送信和信号は、入力音声信号のすべての信号成分を包含する。目標は、各信号成分が完全に維持されることである。音声入力チャネルを単に合算するだけでは、多くの場合、信号成分の増幅または減衰を生じる。いいかえれば、多くの場合、「単純」な和における信号成分のパワーは、各チャネルの対応信号成分のパワーの和よりも大きいか、または小さくなる。ダウンミキシング技法を使って、和信号中の信号成分のパワーが、すべての入力チャネル中の対応パワーとほほ同じになるように、和信号を等化することができる。
図3は、BCCシステム200の特定の実施例による、図2のダウンミキサ206として使用可能なダウンミキサ300のブロック図を示す。ダウンミキサ300は、各入力チャネルxi(n)に対するフィルタバンク(FB)302、ダウンミキシングブロック304、オプションのスケーリング/遅延ブロック306、および、各符号化チャネルyi(n)に対する逆方向FB(IFB)308を有する。
Figure 0005156386
Figure 0005156386
Figure 0005156386
Figure 0005156386
Figure 0005156386
Figure 0005156386
Figure 0005156386
Figure 0005156386
Figure 0005156386
オプションのスケーリングの実施に加え、またはこれに代えて、スケーリング/遅延ブロック306は、オプションとして、信号に遅延を適用することができる。
Figure 0005156386
図3では、C個の入力チャネルのすべてが、周波数領域に変換されその後ダウンミックスされるように示されているが、別の実施例では、C個の入力チャネルの1つ以上(但しC−1より少ない数)を、図3に示された処理の一部、またはすべてをバイパスして、修正前の音声チャネルと同じ数で送信することができよう。特定の実施形態に応じ、図2のBCC推定器208は、送信BCCコードを生成する際、これら修正無しのチャネルを使うことも使わないこともできよう。
Figure 0005156386
Figure 0005156386
係数e(k)は、式(5)により、次のように与えられる。
Figure 0005156386
Figure 0005156386
Figure 0005156386
Figure 0005156386
Figure 0005156386
Figure 0005156386
各遅延素子406は、再生チャネルの特定のペアの間に所望のICTD値が現れることを確実にするために、ICTDデータの対応BCCコードに基づいて遅延値di(k)を適用する。各乗算素子408は、再生チャネルの特定のペアの間に所望のICLD値が現れることを確実にするために、ICLDデータの対応BCCコードに基づいて、スケーリング係数ai(k)を適用する。相関ブロック410は、再生チャネルの特定のペアの間に所望のICC値が現れることを確実にするために、ICCデータの対応BCCコードに基づいて、デ・コリレーション操作Aを実施する。Baumgarte2−10として2002年5月24日に出願された米国特許出願第10/155,437号に、相関ブロック410の機能についてのさらなる記載がされている。
ICLD値の合成は、ICTDおよびICC値の合成ほどには面倒でない、というのは、ICLD合成にはサブバンド信号のスケーリングが必要なだけだからである。ICLDキューは、最も広く使用されている方向キューなので、通常、ICLDを値を元の音声信号の値に近付けることは、より重要である。従って、全チャネルペアの間のICLDデータを推定することもできよう。各サブバンドに対するスケーリング係数ai(k)(1≦i≦C)は、望ましくは、各再生チャネルのサブバンドのパワーが、元の入力チャネルの対応するパワーに近似するように選択される。
1つの目標は、ICTDおよびICC値を合成するために、比較的少ない信号修正を適用するとしてもよい。そこで、BCCデータは、全チャネルペアに対するICTDおよびICC値を含めないようにすることができよう。この場合、BCCシンセサイザ400は、特定のチャネルペアの間だけのICTDおよびICC値を合成することになろう。
Figure 0005156386
図4には、送信チャネルE個のすべてが、周波数領域に変換され、その後アップミックスされ、BCC処理されるように示されているが、別の実施例では、E個の送信チャネルの1つ以上(但しすべてではない)は、図4に示された処理の一部、またはすべてをバイパスすることができよう。例えば、送信チャネルの1つ以上は、一切アップミキシングの対象としない無修正チャネルとすることができる。これら無修正チャネルは、C個の再生チャネルの1つ以上に割り当てるのに併せ、順番に、他の再生チャネルの1つ以上を合成するためのBCC処理に適用する参照チャネルとして使うこともできよう。いずれの場合においても、このような無修正チャネルについては、遅延処理の対象とし、残りの再生チャネルを生成するため費やされるアップミキシング、および/またはBCC処理に要する処理時間を補償することができる。
なお、図4には、E個の送信チャネルから、元の入力チャネルの数でもあったC個の再生チャネルが合成されるように示されているが、BCC合成は、この数の再生チャネルに限定されるものではない。C個よりも多い、または少ない数を含め、場合によっては、再生チャネルの数が送信チャネルの数以下である状況も含め、一般に再生チャネルの数を任意の数とすることができる。
音声チャネルの間の「知覚的に適切な差」
ICTD、ICLD、およびICCによって、元の音声信号の対応キューに近似されたステレオ、またはマルチチャネル音声信号をBCC合成する、単一の和信号を想定する。以下に、聴覚空間イメージ特性に関連させて、ICTD、ICLD、およびICCの役割が説明される。
空間聴覚についての知識によれば、ICTDおよびICLDは、1つの聴覚事象に対する知覚方向に関連することが知られている。1つの音源に対するバイノーラル室内インパルス応答(BRIR)を検討すると、聴覚事象および聴取者包み込み状態の幅と、BRIRの前後の時間部分で推定されたICCデータとの間には関連がある。但し、ICCと、各種信号に対するこれら特性(BRIRだけでなく)との間の関係は単純なものではない。
ステレオおよびマルチチャネル音声信号は、通常、閉ざされた空間での録音によりもたらされ、また、空間印象を人為的に生成するため録音技術者によって加えられた反響信号成分が重畳された、同時並行の対象音源信号の複雑な混成を含む。さまざまな音源からの信号およびそれらの反響は、時間−周波数プレーン中のさまざまな領域を占める。これはICTD、ICLD、およびICCに反映され、これらのキューは時間および周波数の関数として変化する。こういった場合、瞬間的なICTD、ICLD、およびICCと、聴覚事象の方向および空間印象との間の関係は明確ではない。BCCの一部の実施形態の方策は、これらのキューは、元の音声信号の対応キューに近似するよう無分別に合成される。
等価矩形帯域幅(ERB)の2倍の帯域幅のサブバンドを持つフィルタバンクが使用される。非公式な試聴は、高い周波数分解能を選択すると、BCCの音声品質の顕著な改善は見られない。低めの周波数分解能が望ましい、というのは、これにより、デコーダに送信するICTD、ICLD、およびICC値の数が減り、ビットレートが下がるからである。
時間分解能に関しては、ICTD、ICLD、およびICCは、通常、一定の時間間隔に設定される。ICTD、ICLD、およびICCを4〜16msに設定すると好成績が得られる。なお、非常に短い時間間隔のキューを設定しないと、直接的な先行音効果は得られない。古典的な音刺激の進み遅れペアを想定すると、進み音と遅れ音との間隔が、1セットのキューしか合成できないような時間になってしまった場合、進み音の先行音影響効果(localization dominance)は考慮されない。こうした事情にもかかわらず、BCCは、一般的なMUSHRA法採点で、平均で約87点(すなわち「優秀」な音声品質)、特定の音声信号では100点に近い成績を達成している。
参照信号と合成信号との間の小さな知覚の差が、たいがいは実現されることは、一定の時間間隔でICTD、ICLD、およびICCが合成することによって、聴覚空間イメージの広範囲の特性に関連するキューが、暗に取り入れられていることを意味している。以下に、どのように、ICTD、ICLD、およびICCを一連の聴覚空間イメージ特性と関連付けることができるかについて、少し説明する。
空間音響情報の推定
以下に、どのようにICTD、ICLD、およびICCが推定されるかを説明する。これらの(量子化され、および符号化された)空間音響情報を送信するためのビットレートは、わずかのkb/sにすることができ、これにより、BCCを用いて、単一の音声チャネルに必要なビットレート近いレートで、ステレオおよびマルチチャネル音声信号を送信することができる。
図5は、本発明の1つの実施形態によるBCC推定器208のブロック図を示す。BCC推定器208は、図3のフィルタバンク302と同じものとするフィルタバンク(FB)502と、フィルタバンク502により生成された各異なる周波数サブバンドに対するICTD、ICLD、およびICC空間音響情報を生成する、推定ブロック504とを含む。
Figure 0005156386
Figure 0005156386
上式中の正規化相互相関関係の短時間推定値は、次の式(8)で与えられる。
Figure 0005156386
Figure 0005156386
Figure 0005156386
Figure 0005156386
Figure 0005156386
なお、正規化相互相関度は絶対値で設定され、C12(k)は[0,1]の範囲を取る。
マルチチャネル音声信号に対するICTD、ICLD、およびICCの推定
2より多い入力チャネルがある場合、図6のC=5のケースに示すように、参照チャネル(例えば、チャネル番号1)と他のチャネルとの間のICTDおよびICLDを設定すれば通常は十分であり、図6のτ1c(k)およびΔL1c(k)は、それぞれ、参照チャネル1とチャネルcとの間のICTDおよびICLDを表す。
ICTDおよびICLDとは対照的に、ICCは、通常もっと多くの自由度を有する。定義上のICCは、想定されるすべての入力チャネルペアとの間でさまざまな値を取ることができる。C個のチャネルに対して、C(C−1)/2個のチャネルペアがあり得、例えば、5チャネルに対しては、図7(a)に示すように10のチャネルペアがある。しかしながら、このようなスキームは、各時間点におけるサブバンドごとに、C(C−1)/2個のICC値が推定され、および送信され、高い計算複雑性と高いビットレートとをもたらす。
これに代えて、各サブバンドに対して、ICTDとICLDとは、サブバンド中の対応信号成分による聴覚事象が聞こえて来る方向を決定する。併せ、サブバンドごとに単一のICCパラメータが、全チャネル間の全体的コヒーレンスを表現するために用いられる。各時間インデックスにおいて、各サブバンドの中で最大エネルギーのサブバンドを有する2つのチャネルの間だけのICCキューを推定し、送信することによって良好な結果を得ることができる。これは図7(b)に示されており、時間点k−1およびkにおいて、それぞれチャネルペア(3,4)および(1,2)が最強となっている。発見的ルールが、他のチャネルペアの間のICCを決定するために使われる。
Figure 0005156386
ICTDの合成
遅延値dcは、次の式(12)により、ICTD、τ1c(k)から算定される。
Figure 0005156386
参照チャネルに対する遅延値d1は、遅延値dc中の最大の値が最小化されるように計算される。サブバンド信号の修正度が小さいほど、アーチファクトが発生する危険が少なくなる。サブバンドサンプリングレートが、ICTD合成のために十分な高さの時間分解能が得られない場合には、適切なオールパスフィルタを使い、より高精度で遅延値を課すことができる。
ICLDの合成
出力サブバンド信号が、チャネルcと参照チャネル1との間で所望のICLD、ΔL12(k)を持つようにするためには、利得係数acが次の式(13)を満たすようにする必要がある。
Figure 0005156386
さらに、出力サブバンドは、望ましくは、全出力チャネルのパワーの和が、入力和信号のパワーと等しくなるように正規化される。各サブバンドにおける元の信号の合計パワーは、和信号で維持されているので、この正規化の結果、元のエンコーダへの入力音声信号の対応パワーに近似された、各出力チャネルの絶対サブバンドパワーが得られる。これらの制約条件を与えて、スケール係数acは、以下の式(14)で与えられる。
Figure 0005156386
ICCの合成
一部の実施形態において、ICC合成の目的は、ICTDおよびICLDに影響を与えることなく、遅延およびスケーリングが適用された後のサブバンド間の相関度を低減することである。これは、各サブバンド(聴覚臨界帯域)内の変化の平均がゼロになるようにしながら、ICTDおよびICLDが周波数の関数として効果的に変化するように、図8のフィルタhcを設計することによって達成することができる。
図9は、サブバンド内で、ICTDとICLDとが周波数の関数としてどのように変化するかを示す。ICTDおよびICLDの変化の振幅は、デ・コリレーションの程度を規定し、ICCの関数として制御される。なお、ICTDは(図9(a)に示すように)滑らかに変化するが、ICLDは(図9(b)に示すように)ランダムに変化する。ICLDをICTDのように滑らかに変化させることもできるが、そうすると、得られる音声信号のさらなるカラレーションを招くことになる。
特にマルチチャネルのICC合成に適した、ICCを合成するための別の方法が、C,Faller(ファーラー)の「パラメトリックマルチチャネル音声符号化: コヒーレンスキューの合成(Prametric multi−channel audio coding: Synthesis of coherence cue)」、IEEE Trans.on Speech and Audio Proc.(音声および音響処理)、2003年、に記載されており、その教示は参考として本明細書に組み入れられる。所望のICCを達成するため、各々の出力チャネルに特定量の人為的残響が、時間および周波数の関数として加えられる。さらに、得られた信号のスペクトル包絡線が元の音声信号のスペクトル包絡線に近くなるようにスペクトル修正を適用することができる。
関連のあるまたは関連のない、他のステレオ信号(または音声チャネルペア)に対するICC合成技法が、E.Schuijers(シュイジャース)、W.Oomen(オーメン)、B.den Brinker(デン・ブリンカー)、J.Breebaart(ブリーバート)の「高品質オーディオのためのパラメトリック符号化の進展(Advances in parametric coding for high−quality audio)」、オーディオ技術協会(Aud. Eng. Soc.)第114回大会発表抄録、2003年3月;ならびに、J.Engdegard(エングデガード)、H.Purnhagen(プルネハンゲン)、J.Roden(ローデン)およびL.Liljeryd(リルジェリド)の「パラメトリックステレオ符号化の合成環境(Synthetic ambience in parametric stereo coding)」,オーディオ技術協会,第117回大会発表抄録、2004年5月に発表されており、これら双方の教示は、参考として本明細書に組み入れられる。
C対EのBCC
前に述べたように、BCCを1つ以上の送信チャネルに対し実施することができる。C個の音声チャネルを、単一の(送信)チャネルでなくE個のチャネルとして表す、C対E・BCCといわれるBCCのバリエーションについて説明してきた。C対E・BCCには、少なくとも2つの利点がある。
○ BCCを使った送信チャネルは、既存のモノラルシステムを、ステレオ、またはマルチチャネル音声再生にアップグレードするための、下位互換性のある送信路を提供する。アップグレードされたシステムは、BCCダウンミックスされた和信号を、既存のモノラルのインフラを通して送信し、これに加えBCCサイド情報を送信する。C対E・BCCは、C個のチャネルの音声を下位互換性のあるように符号化されたE個のチャネルに適用することができる。
○ C対E・BCCは、送信チャネル数の低減の程度の違いに応じたスケーラビリティを取り入れる。送信される音声チャネルが多いほど、音声品質を向上することができよう。どのようにICTD、ICLD、およびICCキューを設定するかといった、C対E・BCCの処理の詳細が、2004年1月20日に出願(Faller13−1)された米国特許出願第10/762,100号に記載されている。
コンパクトなサイド情報
前述したように、典型的BCCスキームでは、エンコーダは、音声チャネルのいろいろなペア、またはグループの間で推定されたICTD、ICLD、および/またはICCコードをデコーダに送信する。このサイド情報は、BCC復号の後マルチチャネル音声信号を得るために、(例えば、モノラル、またはステレオへの)ダウンミックス信号に加えて送信される。従って、復号された音響本来の品質を低下させることなく、サイド情報の量を最少化することが望まれる。
通常、ICLDおよびICTD値は、1つの参照チャネルと関連付けられているので、C個の符号化チャネルの特性を表現するために、C−1個のICLD値とICTD値とがあればよい。これに対し、ICCは、チャネルの任意のペアの間で設定される。従って、C個の符号化チャネルに対し、C(C−1)/2個のICCペアがあり得る。これは、5つの符号化チャネルに対し10のICCペアに相当する。実際上は、送信されるICC情報の量を制限するために、一部のペアに対するICC情報だけが送信される。
Figure 0005156386
Figure 0005156386
本発明の1つの実施形態によれば、図10の5対2BCCスキームに関連して、対応BCCエンコーダは、前面/後方のデ・コリレーションの全体量を効率的に表す単一の組合せICC値を生成するために、各サブバンドの「左/左後方」チャネルペアに対して推定されたICC値を、「右/右後方」チャネルペアに対して推定されたICC値と組合せ、ICCサイド情報としてBCCデコーダに送信される。非公式な実験は、この簡素化が、実質的に音声品質の損失にならないことを示した。その一方で、低減は、2倍のICC情報を送信した。
一般に、本発明の実施形態は、異なるチャネルペア、またはチャネルのグループの間で推定された、2つ以上の異なるICCを組合せて送信するBCCスキームを対象としており、該組合せICCは、次の式(15)で表される。

ICCtransmitted=f(ICC1、ICC2、…、ICCN) (15)

上式のfはN個の異なるICCを組合せる関数である。
空間イメージを表現する組合せICC指標を得るために、個々のチャネルの重要度を取り入れた関数fの重み付き平均値を用いて、実効性を向上することができ、該チャネルの重要度を、次の式(16)で表すように、チャネルのパワーに基づくものとすることができる。
Figure 0005156386
上式のpiはサブバンド中の対応チャネルペアのパワーである。この場合、より強いチャネルペアから推定されたICCは、より弱いチャネルペアから推定されたICCよりも大きく重み付けされる。チャネルペアの組合せパワーpiは、各サブバンドに対する個別のチャネルパワーの和として計算することができる。
デコーダでは、ICCtransmittedから、各チャネルペアに対するICCを導き出すことができる。考えられる1つの実施事例において、デコーダは、各チャネルペアに対し、導出ICCコードとして、ICCtransmittedをそのまま使用する。例えば、図110の5対2BCCスキームに関連し、左/左後方チャネルペアおよび右/右後方チャネルペア双方のデ・コリレーションのため、ICCtransmittedを直接に使用することができる。
考えられる別の実施例では、デコーダが合成された信号からチャネルペアのパワーを推定する場合、式(16)の重み付けを推定することができ、デコーダの処理は、2つ個別の知覚的に最適化されたICCコードを導き出すためのルールを生成するために、この情報と他の知覚的および信号上の統計的引数とを最適に使う。
特定の5対2BCCスキームに関連させて、ICC値の組合せを説明してきたが、E=1のものも含め、任意のC対E・BBCスキームに関連させて本発明を実施することができる。
図11は、図2で示したような、本発明の1つの実施形態に関連したBBCシステムの処理過程の流れ図を示す。図11は、ICCが関わる処理過程に関連するステップだけを示している。
具体的には、BCCエンコーダは、チャネルの2つ以上のグループの間を推定し(ステップ1102)、1つ以上の組合せICC値を生成するために、これら推定されたICC値の2つ以上を組合せ(ステップ1104)、該組合せICC値を(場合により1つ以上の「組合せ無し」のICC値と一緒に)BCCサイド情報として、BCCデコーダに送信する(ステップ1106)。BCCデコーダは、受信した組合せICC値から2つ以上のICC値を導き出し(ステップ1108)、導き出したICC値(および、場合により、受信した1つ以上の組合せ無しICCを使って)チャネルのグループをデ・コリレーションする(ステップ1110)。
さらなる別の実施形態
図10の5対2BCCスキームに関連させて本発明を説明してきた。この実施例では、BCCエンコーダは、(1)4つの異なるチャネルで構成される2つのチャネルペア(すなわち、左/左後方、および右/右後方)に対する2つのICCコードを推定し、(2)BCCデコーダに送信する組合せICCコードを生成するために、これら2つのコードを平均する。BCCデコーダは、(1)送信されてきた組合せICCコードから2つのICCコードを導き出し(組合せICCコードを、そのまま、双方の導き出されたICCコードの代わりに使うこともできる)、(2)4つのデ・コリレーションされたチャネル(すなわち、合成された左、左後方、右、および右後方チャネル)を生成するために、導き出された2つのICCコードの各々を、合成チャネルの個々のペアに適用する。
本発明を、他の状況で実施することもできる。例えば、BCCエンコーダは、3つの入力チャネルA、B、およびCから、2つのICCコードを推定し、1つの推定されたICCコードは、チャネルAおよびBに対応し、他方の推定されたICCコードは、チャネルAおよびCに対応するようにできよう。この場合、エンコーダは、入力チャネルの2つのペアから2つのICCコードを推定すると言ってもよく、該入力チャネルの2つのペアは、共通のチャネル(すなわち、入力チャネルA)を分かち合うことになろう。次いで、エンコーダは、2つの推定されたICCコードに基づいて1つの組合せICCコードを生成し送信することができよう。次に、BCCデコーダは、送信された組合せICCコードから2つのICCコードを導き出し、3つのデ・コリレーションされたチャネル(すなわち、合成チャネルA、B、およびC)を合成するために、それら2つの導出ICCコードを適用する。この場合、デ・コリレーションされたチャネルペアを生成するために、各導出ICCコードが適用され、デ・コリレーションされたチャネルの2つのペアは、共通のチャネル(すなわち、合成されたチャネルA)を分かち合うことになると言えよう。
組合せICCコードを用いるBCC符号化スキームに関連させて本発明を説明してきたが、組合せICCコードを用いるのに代えて、またはこれに加えて、ICTDコード、および/またはICLDコードのような、ICCコード以外の2つ以上のBCCキューコードを組合せて生成された、組合せBCCキューコードを用いるBCC符号化スキームと関連させて本発明を実施することもできる。
ICTD、ICLD、およびICCコードを用いるBCC符号化スキームに関連させて本発明を説明してきたが、これら3種類のコードのうち1つまたは2つだけを使って(例えば、ICLDとICCとを使うがICTDは使わない)、および/または1つ以上の追加種類のコードを使って本発明を実施することもできる。
図10に提示した5対2BCCスキームにおいて、2つの送信チャネルy1(n)およびy2(n)は、典型的には、図6および図7に示された5チャネルに、特定な一段階のダウンミキシングを適用して生成され、チャネルy1は、チャネル1、3、および4の重み付き和として生成され、チャネルy2は、チャネル2、3、および5の重み付き和として生成されており、各々の重み付き和において、例えば、チャネル3に対する重み係数は、他の2つのチャネルの各々に適用される重み係数の半分である。この一段階BCCスキームにおいて、推定されたBCCキューコードは、元の5つの入力チャネルの異なるペアに対応している。例えば、推定されたICCコードの1つのセットはチャネル1と4とに基づいており、推定されたICCコードの別のセットは、チャネル2と4とに基づいている。
多段階のBCCスキームにおいて、別のチャネルは、シーケンシャルにダウンミックスされ、BCCキューコードグループは、ダウンミキシングシーケンスの各段階における異なったチャネルグループに潜在的に対応している。例えば、図6および7の5チャネルの場合であれば、BCCエンコーダでは、元の左チャネルと左後方チャネルとが、これら2つの元チャネルに対応して生成されたBCCキューコードの第一セットから第一ダウンミックス左チャネルを形成するために、ダウンミックスされる。同様に、元の右および右後方チャネルが、これら2つの元チャネルに対応して生成されたBCCキューコードの第二セットから第一ダウンミックス右チャネルを形成するために、ダウンミックスされる。第二ダウンミキシング段階では、第一ダウンミックス左チャネルと元のセンターチャネルとに対応する生成されたBCCキューコードの第三セットから第二ダウンミックス左チャネルを形成するために、第一ダウンミックス左チャネルは、元のセンターチャネルと共にダウンミックスされる。同様に、第一ダウンミックス右チャネルと元のセンターチャネルとに対応する生成されたBCCキューコードの第四セットから第二ダウンミックス右チャネルを形成するために、第一ダウンミックス右チャネルは、元のセンターチャネルと共にダウンミックスされる。次いで、第二ダウンミックス左チャネルと右チャネルとが、サイド情報として上記4つすべてのBCCキューコードのセットと共に送信することができよう。これを受けて、類似の方法により、対応するBCCデコーダは、2つの送信「ステレオ」チャネルから、5つの出力チャネルを合成するために、2段階のシーケンシャルアップミキシングスキームの異なる段階で、これら4つのBCCキューコードを逐次に適用する。
組合せICCキューコードを、他のBCCコードと併せ、1つ以上の音声チャネル(すなわち、E個の送信チャネル)と一緒に送信するBCC符号化スキームに関連させて、本発明を説明してきたが、別の実施形態において、組合せICCキューコードを単独で、または他のBCCコードと共に、送信されたチャネル、および場合により他の送信されたBCCコードが既に存在している場所(例えば、デコーダまたは記憶デバイス)に送信することもできよう。
BCC符号化スキームに関連させて本発明を説明してきたが、音声信号が、デ・コリレーションされる他の音声処理システム、または信号をデ・コリレーションする必要のある他の音声処理過程に関連して本発明を実施することもできる。
エンコーダは、時間領域の音声入力信号を受信し、時間領域の送信音声信号を生成し、デコーダは、時間領域の送信信号を受信し、時間領域の再生音声信号を生成する実施例に関連させて、本発明を説明してきたが、本発明は前記に限定されない。例えば、他の実施例において、入力、送信、および再生音声信号の任意の1つ以上を周波数領域で表現することができよう。
BCCエンコーダ、および/またはデコーダは、テレビジョンまたは電子音楽配信のシステム、映画館、放送、ストリーミング、および/または受信を含め、各種多様なアプリケーション、またはシステムと関連させて、またはそれらに組み入れて使用することができる。これらには、例えば、地上波、衛星、ケーブル、インターネット、イントラネット、または物理媒体(例えば、コンパクトディスク、デジタル多目的ディスク、半導体チップ、ハードドライブ、メモリカードなど)を介する送信を、符号化/復号化するためのシステムが含まれる。また、例えば、複数のマシン、プラットフォーム、または媒体を対象に出版される、エンターテインメント(アクション、ロールプレイ、ストラテジー、アドベンチャ、シミュレーション、レース、スポーツ、ゲームセンター、カード、およびボードゲーム)用および/または教育用としてユーザとの相互交流を意図された双方向ソフトウエアを含め、ゲームおよびゲームシステムにBBCエンコーダおよび/またはデコーダを用いることができる。さらに、BBCエンコーダおよび/またはデコーダを、オーディオレコーダ/プレーヤーまたはCD−ROM/DVDシステムに組み込むことができる。また、BBCエンコーダおよび/またはデコーダを、デジタル復号処理を内蔵するPCソフトウエアアプリケーション(例えば、プレーヤー、デコーダ)、またはデジタル符号化機能を内蔵するソフトウエアアプリケーション(例えば、エンコーダ、リッパー、レコーダ、およびジュークボックス)中に組み込むこともできる。
本発明を、1つの(ASICまたはFPGAのような)集積回路、マルチチップモジュール、一枚のカード、またはマルチカード回路パックとしての可能な実装を含め、回路ベースのプロセスとして実施することができる。当業者には自明のように、回路エレメントのさまざまな機能は、ソフトウエアプログラムの処理ステップとしても実行することができる。こういったソフトウエアを、例えば、デジタル信号プロセッサ、マイクロコントローラ、または汎用コンピュータで用いることができる。
本発明は、方法およびそれらの方法を実践する装置の形で具現することができる。また、本発明を、フロッピー(登録商標)ディスク、CD−ROM、ハードドライブ、または他の任意のマシン可読の記憶媒体のような有形の媒体の中に具現されたプログラムコードの形で具体化し、該プログラムコードを、コンピュータなどのマシンにロードし実行させると、該マシンが本発明を実行する装置となるようにすることができる。同様に、記憶媒体に格納された形であれ、マシンにロードされ、および/または実行される形であれ、あるいは、電線、ケーブル、光ファイバーを通しまたは電磁放射を介するといった、何らかの送信媒体、または搬送波による伝送の形であれ、本発明をプログラムコードの形で具現し、該プログラムコードを、コンピュータのようなマシンによりロードされ実行されると、そのマシンが本発明を実行する装置となるようにすることもできる。汎用プロセッサで実行されると、プログラムコードのセグメントが該プロセッサと組合さって、特定の論理回路と同じように動作する固有のデバイスが構成される。
当業者は、添付の特許請求内容に表された本発明の範囲を逸脱することなく、本発明の本質の説明のために記載、図示された構成部分の細部、材料および配列にさまざまな変更を加えることができよう。
添付の方法の請求項の中のステップが、対応する標識と共に特定の順序で記載されていても、その請求項の記述内容に、それらのステップの一部、またはすべてをその特定順序で実施する意味が別途に含まれていなければ、それらステップの提示は、必ずしもその特定の順序での実施に限定することを意図したものではない。
従来型のバイノーラル信号シンセサイザの上位ブロック図を示す。 一般的なバイノーラルキューコーディング(BCC)音声処理システムのブロック図である。 図2のダウンミキサとして使用可能なダウンミキサのブロック図を示す。 図2のデコーダとして使用可能なBCCシンセサイザのブロック図を示す。 本発明の1つの実施形態による、図2のBCC推定器のブロック図を示す。 5チャネルオーディオに対するICTDおよびICLDデータの生成を示す。 5チャネルオーディオに対するICCデータの生成を示す。 BCCデコーダの中で使用可能な、送信された信号和s(n)と空間音響情報とからステレオまたはマルチチャネル生成するために、図4のBCCシンセサイザの実装例のブロック図を示す。 サブバンド内で、ICTDおよびICLDが、周波数の関数としてどのように変化するかを示す。 5対2BCCスキームのため、図2のデコーダとして使用可能なBCCシンセサイザのブロック図を示す。 本発明の1つの実施形態に関連する、図2に示されるようなBCCシステムによる処理の流れ図を示す。

Claims (28)

  1. 音声チャネルを符号化する方法であって、前記方法は、
    2つ以上の音声チャネルに対し1つ以上のキューコードを生成する工程であって、
    少なくとも1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、
    各推定されたキューコードは、前記音声チャネルの2つ以上のグループから推定されている、生成工程と、
    前記1つ以上のキューコードを送信する工程とを含む方法。
  2. 前記2つ以上の音声チャネルに対応するE個の送信音声チャネルを送信する工程をさらに含み、E≧1である、請求項1に記載の方法。
  3. 前記2つ以上の音声チャネルはC個の入力音声チャネルを含み、C>Eであり、
    前記C個の入力チャネルは、前記E個の送信チャネルを生成するために、ダウンミックスされる、請求項2に記載の方法。
  4. 前記1つ以上のキューコードは、デコーダが、E個の送信チャネルの復号の過程で、前記組合せキューコードに基づいて合成処理を実行することを可能にするために、送信され、前記E個送信音声チャネルは、前記2つ以上の音声チャネルに対応しており、E≧1である、請求項1に記載の方法。
  5. 前記1つ以上のキューコードは、組合せチャネル間相関度(ICC)コード、組合せチャネル間レベル差(ICLD)コード、および組合せチャネル間時間差(ICTD)コードの1つ以上を含む、請求項1に記載の方法。
  6. 前記組合せキューコードは、前記2つ以上の推定されたキューコードの平均値として生成される、請求項1に記載の方法。
  7. 前記組合せキューコードは、前記2つ以上の推定されたキューコードの重み付き平均値として生成される、請求項6に記載の方法。
  8. 前記組合せキューコードを生成するため使われる各推定されたキューコードは、前記重み付き平均値を生成するために使われる重み係数と関連付けられており、
    各推定されたキューコードに対する前記重み係数は、前記推定されたキューコードに対応するチャネルの前記グループの中のパワーに基づく、請求項7に記載の方法。
  9. 前記組合せキューコードは、組合せICCコードである、請求項1に記載の方法。
  10. 前記2つ以上の音声チャネルは、左チャネル、左後方チャネル、右チャネル、および右後方チャネルを含み、
    前記左および左後方チャネルから第一推定されたICCコードが生成され、
    前記右および右後方チャネルから第二推定されたICCコードが生成され、
    前記組合せICCコードは、前記第一および第二推定されたICCコードを組合せて生成される、請求項9に記載の方法。
  11. 音声チャネルを符号化するための装置であって、前記装置は、
    2つ以上の音声チャネルに対する1つ以上のキューコードを生成するための手段であって、
    少なくとも1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、
    各推定されたキューコードは、前記音声チャネルの2つ以上のグループから推定されている、生成手段と、
    前記1つ以上のキューコードを送信するための手段とを含む装置。
  12. E個の送信音声チャネル生成するために、C個の入力音声チャネルを符号化する装置であって、前記装置は、
    2つ以上の音声チャネルに対する1つ以上のキューコードを生成するように適応されたコード推定器であって、
    少なくとも1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、
    各推定されたキューコードは、前記音声チャネルの2つ以上のグループから推定されている、推定器と、
    前記E個の送信チャネルを生成するために、C個の入力チャネルをダウンミックスするように適応されたダウンミキサであって、C>E≧1であり、前記装置は、デコーダが、前記E個の送信チャネルを復号する過程で合成処理を実行することを可能にするために、前記キューコードについての情報を送信するように適応されるダウンミキサとを含む装置。
  13. 前記装置は、デジタルビデオレコーダ、デジタルオーディオレコーダ、コンピュータ、衛星送信機、ケーブル送信機、地上波送信機、ホームエンターテインメントシステム、および映画館システムから成るグループから選択されたシステムであり、
    前記システムは、前記コード推定器および前記ダウンミキサを含む、請求項12に記載の装置。
  14. コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータによって前記プログラムが実行されると、前記コンピュータは、音声チャネルを符号化する方法を実行し、前記方法は、
    2つ以上の音声チャネルに対する1つ以上のキューコードを生成する工程であって、
    少なくとも1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、
    各推定されたキューコードは、前記音声チャネルの2つ以上のグループから推定されている、生成工程と、
    前記1つ以上のキューコードを送信する、または保存する工程とを含む方法を、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  15. C個の再生音声チャネルを生成するために、E個の送信音声チャネルを復号する方法であって、C>E≧1であり、前記方法は、
    前記E個の送信チャネルに対応するキューコードを受信する工程であって、
    少なくとも1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、
    各推定されたキューコードは、前記E個の送信チャネルに対応する2つ以上の音声チャネルのグループから推定されている、受信工程と、
    1つ以上のアップミックスされたチャネルを生成するために、前記E個の送信チャネルの1つ以上をアップミックスする工程と、
    前記キューコードを前記1つ以上のアップミックスされたチャネルに適用して、前記C個の再生チャネルの1つ以上を合成する工程であって、
    前記組合せキューコードから2つ以上の導出キューコードが導き出され、
    2つ以上の合成チャネルを生成するために、各導出キューコードが適用される合成工程とを含む方法。
  16. 前記キューコードは、組合せICCコード、組合せICLDコード、および組合せICTDコードの1つ以上を含む、請求項1に記載の方法。
  17. 前記組合せキューコードは、前記2つ以上の推定されたキューコードの平均値である、請求項1に記載の方法。
  18. 前記組合せキューコードは、前記2つ以上の推定されたキューコードの重み付き平均値である、請求項1に記載の方法。
  19. 前記組合せキューコードを生成するために使われる各推定されたキューコードは、前記重み付き平均値を生成する際に使われる重み係数に関連付けられており、
    各推定されたキューコードに対する前記重み係数は、前記推定されたキューコードに対応するチャネルの前記グループのパワーに基づいている、請求項18に記載の方法。
  20. 前記2つ以上の導出キューコードは、
    各推定されたキューコードに関連する、2つ以上のチャネルのグループの各々に対する重み係数を導き出し、
    前記組合せキューコードと導き出された2つ以上の重み係数との関数として、前記2つ以上の導出キューコードを導き出すことによって得られる、請求項1に記載の方法。
  21. 各導き出された重み係数は、
    推定されたキューコードに対応する、前記チャネルグループ中のパワーを推定し、
    異なる推定されたキューコードに対応する異なるチャネルグループの前記推定されたパワーに基づいて、前記重み係数を導き出すことによって得られる、請求項2に記載の方法。
  22. 前記組合せキューコードは、組合せICCコードである、請求項1に記載の方法。
  23. 前記2つ以上の音声チャネルは、左チャネル、左後方チャネル、右チャネル、および右後方チャネルを含み、
    前記左および左後方チャネルから、第一推定されたICCコードが生成され、
    前記右および右後方チャネルから、第二推定されたICCコードが生成され、
    前記第一および第二推定されたICCコードを組合せて、前記組合せICCコードが生成される、請求項2に記載の方法。
  24. 合成された左および左後方チャネルをデ・コリレーションするために、前記組合せICCコードが使用され、
    合成された右および右後方チャネルをデ・コリレーションするために、前記組合せICCコードが使用される、請求項2に記載の方法。
  25. C個の再生音声チャネルを生成するために、E個の送信音声チャネルを復号する装置であって、C>E≧1であり、前記装置は、
    前記E個の送信チャネルに対応するキューコードを受信するための手段であって、
    少なくとも1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、
    各推定されたキューコードは、前記E個の送信チャネルに対応する2つ以上の音声チャネルのグループから推定されている、受信手段と、
    1つ以上のアップミックスされたチャネルを生成するために、前記E個の送信チャネルの1つ以上をアップミックスする手段と、
    前記キューコードを、前記1つ以上のアップミックスされたチャネルに適用して、前記C個の再生チャネルの1つ以上を合成するための手段であって、
    前記組合せキューコードから2つ以上の導出キューコードが導き出され、
    2つ以上の合成チャネルを生成するために、各導出キューコードが適用される、合成手段とを含む装置。
  26. C個の再生音声チャネルを生成するために、E個の送信音声チャネルを復号する装置であって、C>E≧1であり、前記装置は、
    前記E個の送信チャネルに対応するキューコードを受信するように適応された受信器であって、
    少なくとも1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、
    各推定されたキューコードは、前記E個の送信チャネルに対応する2つ以上の音声チャネルのグループから推定されている、受信器と、
    1つ以上のアップミックスされたチャネルを生成するために、前記E個の送信チャネルの1つ以上をアップミックスするように適応されたアップミキサと、
    前記キューコードを前記1つ以上のアップミックスされたチャネルに適用して、前記C個の再生チャネルの1つ以上を合成するように適応されたシンセサイザであって、
    前記組合せキューコードから2つ以上の導出キューコードが導き出され、
    2つ以上の合成チャネルを生成するために、各導出キューコードが適用される、シンセサイザとを含む装置。
  27. 前記装置は、デジタルビデオプレーヤー、デジタルオーディオプレーヤー、コンピュータ、衛星受信機、ケーブル受信機、地上波放送受信機、ホームエンターテインメントシステム、および映画館システムから成るグループから選択されたシステムであり、
    前記システムは、前記受信器、前記アップミキサ、および前記シンセサイザを含む、請求項2に記載の装置。
  28. コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータによって前記プログラムが実行されると、前記コンピュータは、C個の再生音声チャネルを生成するために、E個の送信音声チャネルを復号する方法を実行し、C>E≧1であり、前記方法は、
    前記E個の送信チャネルに対応するキューコードを受信する工程であって、
    少なくとも1つのキューコードは、2つ以上の推定されたキューコードを組合せて生成された組合せキューコードであり、
    各推定されたキューコードは、前記E個の送信チャネルに対応する2つ以上の音声チャネルのグループから推定されている、受信工程と、
    1つ以上のアップミックスされたチャネルを生成するために、前記E個の送信チャネルの1つ以上をアップミックスする工程と、
    前記キューコードを前記1つ以上のアップミックスされたチャネルに適用することによって、前記C個の再生チャネルの1つ以上を合成する工程であって、
    前記組合せキューコードから2つ以上の導出キューコードが導き出され、
    2つ以上の合成チャネルを生成するために、各導出キューコードが適用される、合成工程とを含む方法を、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007549803A 2005-01-10 2005-09-30 空間音声のパラメトリック符号化のためのコンパクトなサイド情報 Active JP5156386B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/032,689 US7903824B2 (en) 2005-01-10 2005-01-10 Compact side information for parametric coding of spatial audio
US11/032,689 2005-01-10
PCT/EP2005/010595 WO2006072270A1 (en) 2005-01-10 2005-09-30 Compact side information for parametric coding of spatial audio

Publications (2)

Publication Number Publication Date
JP2008527431A JP2008527431A (ja) 2008-07-24
JP5156386B2 true JP5156386B2 (ja) 2013-03-06

Family

ID=35798481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007549803A Active JP5156386B2 (ja) 2005-01-10 2005-09-30 空間音声のパラメトリック符号化のためのコンパクトなサイド情報

Country Status (17)

Country Link
US (1) US7903824B2 (ja)
EP (1) EP1829026B1 (ja)
JP (1) JP5156386B2 (ja)
KR (1) KR100895609B1 (ja)
CN (1) CN101160618B (ja)
AU (1) AU2005324210C1 (ja)
CA (1) CA2593290C (ja)
ES (1) ES2623365T3 (ja)
IL (1) IL184340A (ja)
MX (1) MX2007008262A (ja)
MY (1) MY142581A (ja)
NO (1) NO339299B1 (ja)
PL (1) PL1829026T3 (ja)
PT (1) PT1829026T (ja)
RU (1) RU2383939C2 (ja)
TW (1) TWI289025B (ja)
WO (1) WO2006072270A1 (ja)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9008812B2 (en) 2008-06-19 2015-04-14 Sirius Xm Radio Inc. Method and apparatus for using selected content tracks from two or more program channels to automatically generate a blended mix channel for playback to a user upon selection of a corresponding preset button on a user interface
US8223975B2 (en) * 2008-06-19 2012-07-17 Xm Satellite Radio Inc. Method and apparatus for multiplexing audio program channels from one or more received broadcast streams to provide a playlist style listening experience to users
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
KR100682904B1 (ko) 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
ATE406651T1 (de) * 2005-03-30 2008-09-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
EP1905002B1 (en) * 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
WO2007013780A1 (en) * 2005-07-29 2007-02-01 Lg Electronics Inc. Method for signaling of splitting information
MX2008001307A (es) * 2005-07-29 2008-03-19 Lg Electronics Inc Metodo para la senalizacion de informacion de division.
US20080221907A1 (en) * 2005-09-14 2008-09-11 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
WO2007032648A1 (en) * 2005-09-14 2007-03-22 Lg Electronics Inc. Method and apparatus for decoding an audio signal
US8111830B2 (en) * 2005-12-19 2012-02-07 Samsung Electronics Co., Ltd. Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
KR101366291B1 (ko) * 2006-01-19 2014-02-21 엘지전자 주식회사 신호 디코딩 방법 및 장치
EP1974348B1 (en) * 2006-01-19 2013-07-24 LG Electronics, Inc. Method and apparatus for processing a media signal
KR20080093024A (ko) * 2006-02-07 2008-10-17 엘지전자 주식회사 부호화/복호화 장치 및 방법
KR20080093422A (ko) * 2006-02-09 2008-10-21 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치
ES2407820T3 (es) * 2006-02-23 2013-06-14 Lg Electronics Inc. Método y aparato para procesar una señal de audio
KR100773562B1 (ko) 2006-03-06 2007-11-07 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR100754220B1 (ko) * 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
JP2009532712A (ja) * 2006-03-30 2009-09-10 エルジー エレクトロニクス インコーポレイティド メディア信号処理方法及び装置
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
US20080235006A1 (en) 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
JP5232791B2 (ja) * 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
US7555354B2 (en) * 2006-10-20 2009-06-30 Creative Technology Ltd Method and apparatus for spatial reformatting of multi-channel audio content
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
JP5541928B2 (ja) * 2007-03-09 2014-07-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
KR20080082917A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
JP2010538571A (ja) 2007-09-06 2010-12-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
GB2467668B (en) * 2007-10-03 2011-12-07 Creative Tech Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US8374883B2 (en) * 2007-10-31 2013-02-12 Panasonic Corporation Encoder and decoder using inter channel prediction based on optimally determined signals
KR101438389B1 (ko) * 2007-11-15 2014-09-05 삼성전자주식회사 오디오 매트릭스 디코딩 방법 및 장치
US9886503B2 (en) 2007-12-27 2018-02-06 Sirius Xm Radio Inc. Method and apparatus for multiplexing audio program channels from one or more received broadcast streams to provide a playlist style listening experience to users
US8831936B2 (en) 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
CN102084418B (zh) * 2008-07-01 2013-03-06 诺基亚公司 用于调整多通道音频信号的空间线索信息的设备和方法
US8639368B2 (en) * 2008-07-15 2014-01-28 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2146341B1 (en) 2008-07-15 2013-09-11 LG Electronics Inc. A method and an apparatus for processing an audio signal
CN101809656B (zh) * 2008-07-29 2013-03-13 松下电器产业株式会社 音响编码装置、音响解码装置、音响编码解码装置及会议***
US8346380B2 (en) * 2008-09-25 2013-01-01 Lg Electronics Inc. Method and an apparatus for processing a signal
KR20100035121A (ko) * 2008-09-25 2010-04-02 엘지전자 주식회사 신호 처리 방법 및 이의 장치
EP2169666B1 (en) * 2008-09-25 2015-07-15 Lg Electronics Inc. A method and an apparatus for processing a signal
MX2011006248A (es) * 2009-04-08 2011-07-20 Fraunhofer Ges Forschung Aparato, metodo y programa de computacion para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavizacion de valor de fase.
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
EP2439736A1 (en) * 2009-06-02 2012-04-11 Panasonic Corporation Down-mixing device, encoder, and method therefor
TWI463485B (zh) * 2009-09-29 2014-12-01 Fraunhofer Ges Forschung 音訊信號解碼器或編碼器、用以提供上混信號表示型態或位元串流表示型態之方法、電腦程式及機器可存取媒體
MX2012004569A (es) * 2009-10-20 2012-06-08 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, metodo para codificar informacion de audio, metodo para decodificar informacion de audio y programa de computacion que usa la deteccion de un grupo de valores espectrales previamente decodificados.
WO2011086066A1 (en) 2010-01-12 2011-07-21 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a modification of a number representation of a numeric previous context value
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
KR101666465B1 (ko) 2010-07-22 2016-10-17 삼성전자주식회사 다채널 오디오 신호 부호화/복호화 장치 및 방법
TWI489450B (zh) 2010-12-03 2015-06-21 Fraunhofer Ges Forschung 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
WO2013149673A1 (en) 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Method for inter-channel difference estimation and spatial audio coding device
JP5977434B2 (ja) * 2012-04-05 2016-08-24 ホアウェイ・テクノロジーズ・カンパニー・リミテッド パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器
US9622014B2 (en) 2012-06-19 2017-04-11 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
EP2873073A1 (en) * 2012-07-12 2015-05-20 Dolby Laboratories Licensing Corporation Embedding data in stereo audio using saturation parameter modulation
BR112015025092B1 (pt) * 2013-04-05 2022-01-11 Dolby International Ab Sistema de processamento de áudio e método para processar um fluxo de bits de áudio
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
EP2989631A4 (en) 2013-04-26 2016-12-21 Nokia Technologies Oy AUDIO SIGNAL ENCODER
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
ES2709248T3 (es) 2014-01-03 2019-04-15 Dolby Laboratories Licensing Corp Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación
CN104768121A (zh) 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
EP3095117B1 (en) 2014-01-13 2018-08-22 Nokia Technologies Oy Multi-channel audio signal classifier
CN106716525B (zh) * 2014-09-25 2020-10-23 杜比实验室特许公司 下混音频信号中的声音对象***
WO2024081957A1 (en) * 2022-10-14 2024-04-18 Virtuel Works Llc Binaural externalization processing

Family Cites Families (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US611958A (en) * 1898-10-04 Jar or bottle fastener
US4236039A (en) * 1976-07-19 1980-11-25 National Research Development Corporation Signal matrixing for directional reproduction of sound
CA1268546A (en) 1985-08-30 1990-05-01 Shigenobu Minami Stereophonic voice signal transmission system
US4812132A (en) * 1986-05-16 1989-03-14 Asea Ab Arrangement for distributing a cable assemblage betwen two mutually rotatable component parts
DE3639753A1 (de) 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
DE3943879B4 (de) 1989-04-17 2008-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
WO1992012607A1 (en) * 1991-01-08 1992-07-23 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
DE4209544A1 (de) 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5371799A (en) 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
US5463424A (en) 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
JP3227942B2 (ja) 1993-10-26 2001-11-12 ソニー株式会社 高能率符号化装置
DE4409368A1 (de) 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP3277679B2 (ja) 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JPH0969783A (ja) 1995-08-31 1997-03-11 Nippon Steel Corp オーディオデータ符号化装置
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5771295A (en) 1995-12-26 1998-06-23 Rocktron Corporation 5-2-5 matrix system
JP3793235B2 (ja) 1996-02-08 2006-07-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 2チャネル伝送及び1チャネル伝送に適合するnチャネル伝送
US7012630B2 (en) 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
US5825776A (en) 1996-02-27 1998-10-20 Ericsson Inc. Circuitry and method for transmitting voice and data signals upon a wireless communication channel
US5889843A (en) 1996-03-04 1999-03-30 Interval Research Corporation Methods and systems for creating a spatial auditory environment in an audio conference system
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US6987856B1 (en) 1996-06-19 2006-01-17 Board Of Trustees Of The University Of Illinois Binaural signal processing techniques
US6697491B1 (en) 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
JP3707153B2 (ja) 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
SG54379A1 (en) 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
SG54383A1 (en) 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6111958A (en) 1997-03-21 2000-08-29 Euphonics, Incorporated Audio spatial enhancement apparatus and methods
US5946352A (en) 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US5860060A (en) 1997-05-02 1999-01-12 Texas Instruments Incorporated Method for left/right channel self-alignment
US6108584A (en) 1997-07-09 2000-08-22 Sony Corporation Multichannel digital audio decoding method and apparatus
DE19730130C2 (de) 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6021389A (en) 1998-03-20 2000-02-01 Scientific Learning Corp. Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
TW444511B (en) 1998-04-14 2001-07-01 Inst Information Industry Multi-channel sound effect simulation equipment and method
JP3657120B2 (ja) 1998-07-30 2005-06-08 株式会社アーニス・サウンド・テクノロジーズ 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP2000151413A (ja) 1998-11-10 2000-05-30 Matsushita Electric Ind Co Ltd オーディオ符号化における適応ダイナミック可変ビット割り当て方法
JP2000152399A (ja) 1998-11-12 2000-05-30 Yamaha Corp 音場効果制御装置
US6408327B1 (en) 1998-12-22 2002-06-18 Nortel Networks Limited Synthetic stereo conferencing over LAN/WAN
US6282631B1 (en) 1998-12-23 2001-08-28 National Semiconductor Corporation Programmable RISC-DSP architecture
MY123651A (en) 1999-04-07 2006-05-31 Dolby Laboratories Licensing Corp Matrix improvements to lossless encoding and decoding
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
JP4438127B2 (ja) 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6823018B1 (en) 1999-07-28 2004-11-23 At&T Corp. Multiple description coding communication system
US6434191B1 (en) 1999-09-30 2002-08-13 Telcordia Technologies, Inc. Adaptive layered coding for voice over wireless IP applications
US6614936B1 (en) 1999-12-03 2003-09-02 Microsoft Corporation System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding
US6498852B2 (en) 1999-12-07 2002-12-24 Anthony Grimani Automatic LFE audio signal derivation system
US6845163B1 (en) 1999-12-21 2005-01-18 At&T Corp Microphone array for preserving soundfield perceptual cues
JP4842483B2 (ja) 1999-12-24 2011-12-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャネルオーディオ信号処理装置及び方法
US6782366B1 (en) 2000-05-15 2004-08-24 Lsi Logic Corporation Method for independent dynamic range control
JP2001339311A (ja) 2000-05-26 2001-12-07 Yamaha Corp オーディオ信号圧縮回路および伸長回路
US6850496B1 (en) 2000-06-09 2005-02-01 Cisco Technology, Inc. Virtual conference room for voice conferencing
US6973184B1 (en) 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US7236838B2 (en) 2000-08-29 2007-06-26 Matsushita Electric Industrial Co., Ltd. Signal processing apparatus, signal processing method, program and recording medium
JP3426207B2 (ja) 2000-10-26 2003-07-14 三菱電機株式会社 音声符号化方法および装置
TW510144B (en) 2000-12-27 2002-11-11 C Media Electronics Inc Method and structure to output four-channel analog signal using two channel audio hardware
US6885992B2 (en) 2001-01-26 2005-04-26 Cirrus Logic, Inc. Efficient PCM buffer
US20030035553A1 (en) 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US6934676B2 (en) 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
US7668317B2 (en) 2001-05-30 2010-02-23 Sony Corporation Audio post processing in DVD, DTV and other audio visual products
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US7225027B2 (en) 2001-08-27 2007-05-29 Regents Of The University Of California Cochlear implants and apparatus/methods for improving audio signals by use of frequency-amplitude-modulation-encoding (FAME) strategies
CN1705980A (zh) 2002-02-18 2005-12-07 皇家飞利浦电子股份有限公司 参数音频编码
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
BRPI0304540B1 (pt) * 2002-04-22 2017-12-12 Koninklijke Philips N. V Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
CN1647156B (zh) 2002-04-22 2010-05-26 皇家飞利浦电子股份有限公司 参数编码方法、参数编码器、用于提供音频信号的设备、解码方法、解码器、用于提供解码后的多声道音频信号的设备
JP4187719B2 (ja) 2002-05-03 2008-11-26 ハーマン インターナショナル インダストリーズ インコーポレイテッド マルチチャネル・ダウンミキシング装置
US6940540B2 (en) 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
JP4322207B2 (ja) * 2002-07-12 2009-08-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法
AU2003281128A1 (en) 2002-07-16 2004-02-02 Koninklijke Philips Electronics N.V. Audio coding
JP4649208B2 (ja) 2002-07-16 2011-03-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオコーディング
ES2278192T3 (es) 2002-11-28 2007-08-01 Koninklijke Philips Electronics N.V. Codificacion de una señal de audio.
ES2273216T3 (es) 2003-02-11 2007-05-01 Koninklijke Philips Electronics N.V. Codificacion de audio.
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
KR20050116828A (ko) 2003-03-24 2005-12-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 다채널 신호를 나타내는 주 및 부 신호의 코딩
US20050069143A1 (en) 2003-09-30 2005-03-31 Budnikov Dmitry N. Filtering for spatial audio rendering
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7840401B2 (en) 2005-10-24 2010-11-23 Lg Electronics Inc. Removing time delays in signal paths

Also Published As

Publication number Publication date
AU2005324210A1 (en) 2006-07-13
ES2623365T3 (es) 2017-07-11
WO2006072270A1 (en) 2006-07-13
PL1829026T3 (pl) 2017-09-29
JP2008527431A (ja) 2008-07-24
KR20070110266A (ko) 2007-11-16
IL184340A0 (en) 2007-10-31
EP1829026B1 (en) 2017-01-25
US7903824B2 (en) 2011-03-08
BRPI0518507A2 (pt) 2008-11-25
TWI289025B (en) 2007-10-21
MY142581A (en) 2010-12-15
MX2007008262A (es) 2007-08-22
CA2593290C (en) 2011-07-12
CA2593290A1 (en) 2006-07-13
TW200631449A (en) 2006-09-01
US20060153408A1 (en) 2006-07-13
NO339299B1 (no) 2016-11-21
NO20074122L (no) 2007-08-09
PT1829026T (pt) 2017-05-04
RU2007130545A (ru) 2009-02-20
AU2005324210C1 (en) 2011-03-17
RU2383939C2 (ru) 2010-03-10
CN101160618A (zh) 2008-04-09
AU2005324210B2 (en) 2009-11-19
CN101160618B (zh) 2012-03-21
KR100895609B1 (ko) 2009-04-30
EP1829026A1 (en) 2007-09-05
IL184340A (en) 2011-10-31

Similar Documents

Publication Publication Date Title
JP5156386B2 (ja) 空間音声のパラメトリック符号化のためのコンパクトなサイド情報
JP5106115B2 (ja) オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
JP4856653B2 (ja) 被送出チャネルに基づくキューを用いる空間オーディオのパラメトリック・コーディング
JP5017121B2 (ja) 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
US7644003B2 (en) Cue-based audio coding/decoding
JP4625084B2 (ja) バイノーラルキュー符号化方法等のための拡散音の整形
BRPI0518507B1 (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101124

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110223

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110224

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110302

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120302

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5156386

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250