JP5917777B2 - 3dオーディオのための強化されガイドされるダウンミクス能力を提供するための装置および方法 - Google Patents

3dオーディオのための強化されガイドされるダウンミクス能力を提供するための装置および方法 Download PDF

Info

Publication number
JP5917777B2
JP5917777B2 JP2015531556A JP2015531556A JP5917777B2 JP 5917777 B2 JP5917777 B2 JP 5917777B2 JP 2015531556 A JP2015531556 A JP 2015531556A JP 2015531556 A JP2015531556 A JP 2015531556A JP 5917777 B2 JP5917777 B2 JP 5917777B2
Authority
JP
Japan
Prior art keywords
audio
channels
audio input
channel
audio output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015531556A
Other languages
English (en)
Other versions
JP2015532062A (ja
Inventor
ボルスム、アルネ
シュライナー、シュテファン
フックス、ハーラルト
クラッツ、ミヒャエル
グリル、ベルンハルト
シャラー、ゼバスティアン
Original Assignee
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー., フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. filed Critical フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Publication of JP2015532062A publication Critical patent/JP2015532062A/ja
Application granted granted Critical
Publication of JP5917777B2 publication Critical patent/JP5917777B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Description

本発明は、オーディオ信号処理に関し、かつ詳細には強化されたダウンミクスの実現、特に3Dオーディオのための強化されガイドされるダウンミクス能力実現のための装置および方法に関する。
音声の空間再生のために使用されるラウドスピーカの数が増えている。過去のサラウンド音声再生(5.1等)が、単一面に限定されていたのに対して、高位置スピーカを有する新規なチャネルフォーマットが、3Dオーディオ再生に関して導入されている。
ラウドスピーカにより再生されるべき信号は、かつては特定のスピーカに直接関連付けられ、ディスクリートにまたはパラメトリックに記憶されかつ送信されていた。この種のフォーマットについては、それらが、音声再生システムのラウドスピーカのはっきり定義された数および位置に関連したものと言うことができる。したがって、オーディオ信号を送信または記憶する前に、特定の再生フォーマットを考慮する必要がある。
しかしながら、すでにこの原則にもいくつか例外が存在する。たとえば、マルチチャネルオーディオ信号(5サラウンドオーディオチャネルまたは5.1サラウンドオーディオチャネル等)は、2チャネルのステレオラウドスピーカセットアップで再生するにはダウンミクスする必要がある。5つのサラウンドチャネルをステレオシステムの2つのラウドスピーカで再生するやり方についてはルールが存在する。
また、ステレオチャネルが導入された時には、単一のモノラウドスピーカにより2つのステレオチャネルのオーディオコンテンツを再生するやり方にはルールが存在した。
フォーマットの数が増え、それによりラウドスピーカを配置する可能な態様が増えたので、送信または記憶の前に再生システムのラウドスピーカのセットアップを考慮することは、ほとんど不可能になる。したがって、実際のラウドスピーカセットアップに入来のオーディオ信号を適合させることが必要となる。
サラウンド音声から2チャネルのステレオにダウンミクスするために様々な方法が使用できる。依然として広く使用されている、静的ダウンミクス係数による時間領域ダウンミクスは、ITUダウンミクスと呼ばれることが多い(非特許文献5)。一部ダウンミクス係数の動的調節を伴う他の時間領域ダウンミクスの方法が、マトリクスサラウンド技術のエンコーダにおいて採用されている(非特許文献6および7)。
非特許文献3において、2チャネルステレオパノラマに折りたたんだリアチャネルにミックスした直接音源は、マスキングによって判別不可能になるか、さもなければ他の音源をマスキングする可能性がある。
空間オーディオコーディング(SAC)技術の開発過程で、エンコーダの一部として周波数選択的ダウンミクスアルゴリズムが導入された(非特許文献8および9)。特に、得られるオーディオチャネルにエネルギ均一化を適用することにより音声のカラリゼーションを減じることができ、音源のローカル化のレベル均衡および安定性が維持される。他のダウンミクスシステムにおいてもエネルギ均一化を行う(非特許文献9、10および12)。
リアチャネルが残響のようなアンビエンスの音声のみを含む場合、アンビエンス(残響、広大さ)の低減は、マルチチャネル信号のリアチャネルを減衰することによりITUダウンミクスにおいて解決される(非特許文献5)。リアチャネルにダイレクトサウンドも含む場合には、ダウンミクスにおいてリアチャネルのダイレクト部分も減衰されてしまうので、この減衰方法は適切ではない。したがって、より高度なアンビエンス減衰アルゴリズムが求められる。
AC‐3およびHE-AACのようなオーディオコーデックは、5から2(ステレオ)へのオーディオチャネルのダウンミクスのためのダウンミクス係数を含むいわゆるメタデータをオーディストリームとともに送信する手段を提供する。結果として得られるステレオ信号における選択されたオーディオチャネル(中央、リアチャネル)の量が、送信されたゲイン値により制御される。これらの係数は、時間変数であることが可能だが、プログラムの1アイテムの継続期間の間は、通常定数のままである。
「Logic7」マトリックスシステムで使用される解決法は、リアチャネルが十分にアンビエントであると考えられる場合にのみこれらを減衰する信号適応アプローチを導入している。これは、フロントチャネルのパワーをリアチャネルのパワーに比較することにより行われる。この方法では、リアチャネルがアンビエンスのみを含む場合には、フロントチャネルよりパワーはかなり小さいと仮定する。リアチャネルに比べフロントチャネルのパワーが大きいほど、ダウンミクスプロセスにおいて、リアチャネルがより減衰される。この仮定は、特にクラッシックのコンテンツを有するサラウンド制作物について成り立つ場合があるかもしれないが、他の各種信号については成り立たない場合もある。
したがって、オーディオ信号処理のための改良された概念が強く求められていると考えられる。
US 7,412,380 B1: Ambience extraction and modification for enhancement and upmix of audio signals US 7,567,845 B1: Ambience generation for stereo signals US 2009/0092258 A1: CORRELATION-BASED METHOD FOR AMBIENCE EXTRACTION FROM TWO-CHANNEL AUDIO SIGNALS US 2010/0030563 A1: Uhle, Walther, Herre, Hellmuth, Janssen: APPARATUS AND METHOD FOR GENERATING AN AMBIENT SIGNAL FROM AN AUDIO SIGNAL, APPARATUS AND METHOD FOR DERIVING A MULTI-CHANNEL AUDIO SIGNAL FROM AN AUDIO SIGNAL AND COMPUTER PROGRAM
J.M. Eargle: Stereo/Mono Disc Compatibility: A Survey of the Problems, 35th AES Convention, October 1968 P. Schreiber: Four Channels and Compatibility, J. Audio Eng. Soc., Vol. 19, Issue 4, April 1971 (2) D. Griesinger: Surround from stereo,Workshop #12, 115th AES Convention, 2003 E. C, Cherry (1953): Some experiments on the recognition of speech, with one and with two ears, Journal of the Acoustical Society of America 25, 975979 ITU-R Recommendation BS.775-1 Multi-channel Stereophonic Sound System with or without Accompanying Picture, International Telecommunications Union, Geneva, Switzerland, 1992-1994 D. Griesinger: Progress in 5-2-5 Matrix Systems, 103rd AES Convention, September 1997 J. Hull: Surround sound past, present, and future, Dolby Laboratories, 1999, www.dolby.com/tech/ C. Faller, F. Baumgarte: Binaural Cue Coding Applied to Stereo and Multi -Channel Audio Compression, 112th AES Convention, Munich 2002 C. Faller, F. Baumgarte: Binaural Cue Coding Part II: Schemes and Applications, IEEE Trans. Speech and Audio Proc., vol. 11, no. 6, pp. 520-531, Nov. 2003 J. Breebaart, J. Herre, C. Faller, J. Rdn, F. Myburg, S. Disch, H. Purnhagen, G. Hotho, M. Neusinger, K. Kjrling, W. Oomen: MPEG Spatial Audio Coding / MPEG Surround: Overview and Current Status, 119th AES Convention, October 2005. ISO/IEC 14496-3, Chapter 4.5.1.2.2 B. Runow, J. Deigmoeller: Optimierter Stereo - Downmix von 5.1-Mehrkanalproduktionen (An optimized Stereo Downmix of a multichannel audio production), 25. Tonmeistertagung - VDT international convention, November 2008 J. Thompson, A. Warner, B. Sm ith: An Active Multichannel Downmix Enhancement for Minimizing Spatial and Spectral Distortions, 127 AES Convention, October 2009 C. Faller: Multiple-Loudspeaker Playback of Stereo Signals. JAES Volume 54 Issue 11 pp. 1051 -1064; November 2006 AVENDANO, Carlos u. JOT, Jean-Marc: Ambience Extraction and Synthesis from Stereo Signals for Multi-Channel Audio Mix-Up. In: Proc.or IEEE Internat. Conf. on Acoustics, Speech and Signal Processing (ICASSP), May 2002 J. Herre, H. Purnhagen, J. Breebaart, C. Faller, S.Disch, K. Kjoerling, E. Schuijers, J. Hilpert, and F. Myburg, The Reference Model Architecture for MPEG Spatial Audio Coding, presented at the 118th Convention of the Audio Engineering Society, J. Audio Eng. Soc. (Abstracts), vol. 53, pp. 693, 694 (2005 July/Aug.), convention paper 6447 Ville Pulkki: Spatial Sound Reproduction with Directional Audio Coding. JAES Volume 55 Issue 6 pp. 503-516; June 2007 ETSI TS 101 154, Chapter C MPEG-4 downmix metadata DVB downmix metadata
本発明の目的は、オーディオ信号処理のための改良された概念を提供することである。本発明の目的は、請求項1に記載の装置、請求項13に記載のシステム、請求項14に記載の方法および請求項15に記載のコンピュータプログラムにより達成される。
3以上のオーディオ入力チャネルから2以上のオーディオ出力チャネルを生成するための装置が提供される。この装置は、3以上のオーディオ入力チャネルを受信しかつサイド情報を受信するための受信インタフェースを含む。さらに、この装置は、2以上のオーディオ出力チャネルを取得するために、サイド情報に基づいて3以上のオーディオ入力チャネルをダウンミクスするためのダウンミキサを含む。オーディオ出力チャネルの数はオーディオ入力チャネルの数より少ない。サイド情報が、3以上のオーディオ入力チャネルのうちの少なくとも1つの特徴、1以上のオーディオ入力チャネル内に記録される1以上の音波の特徴、または1以上のオーディオ入力チャネル内に記録される1以上の音波を発した1以上の音源の特徴を示す。
実施例は、オーディオ信号とともにサイド情報を送信して、入来のオーディオ信号のフォーマットから再生システムのフォーマットへフォーマット変換プロセスをガイドするという概念に基づく。
実施例によれば、ダウンミキサが、サイド情報に基づいて3以上のオーディオ入力チャネルのうち2以上のオーディオ入力チャネルを修正して修正されたオーディオチャネルのグループを取得し、かつ修正されたオーディオチャネルの前記グループの各修正されたオーディオチャネルを組み合わせて前記オーディオ出力チャネルを取得することにより、2以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。
実施例では、ダウンミキサが、たとえば、サイド情報に基づいて3以上のオーディオ入力チャネルの各オーディオ入力チャネルを修正して修正されたオーディオチャネルのグループを取得し、かつ修正されたオーディオチャネルの前記グループの各修正されたオーディオチャネルを組み合わせて前記オーディオ出力チャネルを取得することにより、2以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。
実施例によれば、ダウンミキサは、たとえば、1以上のオーディオ入力チャネルの1オーディオ入力チャネルおよびサイド情報に基づき重みを決定しかつ前記オーディオ入力チャネルに前記重みを適用して、修正されたオーディオチャネルのグル―プの各修正されたオーディオチャネルを生成することにより2以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。
実施例において、サイド情報が3以上のオーディオ入力チャネルの各々のアンビエンスの量を示し得る。ダウンミキサが、3以上のオーディオ入力チャネルの各々のアンビエンス量に基づいて3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するよう構成され得る。
他の実施例によれば、サイド情報が、3以上のオーディオ入力チャネルの各々の拡散性または3以上のオーディオ入力チャネルの各々の指向性を示し得る。ダウンミキサが、3以上のオーディオ入力チャネルの各々の拡散性または3以上のオーディオ入力チャネルの各々の指向性に基づいて3以上のオーディオ入力チャネルをダウンミクスして2以上のオーディオ出力チャネルを取得するよう構成され得る。
他の実施例において、サイド情報が音声の到来方向を示し得る。ダウンミキサが、音声の到来方向に基づいて3以上のオーディオ入力チャネルをダウンミクスして2以上のオーディオ出力チャネルを取得するよう構成され得る。
実施例において、2以上のオーディオ出力チャネルの各々がラウドスピーカを操作するためのラウドスピーカチャネルでもよい。
実施例によれば、装置が、2以上のラウドスピーカのグループのうちの1ラウドスピーカに2以上のオーディオ出力チャネルの各々をフィードするように構成され得る。ダウンミキサが、3以上の仮定のラウドスピーカ位置の第1のグループの各仮定のラウドスピーカ位置と2以上の実際のラウドスピーカ位置の第2のグループの各実際のラウドスピーカ位置とに基づいて、3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するよう構成され得る。2以上の実際のラウドスピーカ位置の第2のグループの各実際のラウドスピーカ位置が、2以上のラウドスピーカのグループのうちの1ラウドスピーカの位置を示し得る。
実施例において、3以上のオーディオ入力チャネルの各オーディオ入力チャネルが、3以上の仮定のラウドスピーカ位置の第1のグループの仮定のラウドスピーカ位置に割り当てられ得る。2以上のオーディオ出力チャネルの各オーディオ出力チャネルが、2以上の実際のラウドスピーカ位置の第2のグループの1つの実際のラウドスピーカ位置に割り当てられ得る。ダウンミキサが、3以上のオーディオ入力チャネルのうち少なくとも2つと、3以上のオーディオ入力チャネルのうち前記少なくとも2つの各々の仮定のラウドスピーカ位置と、前記オーディオ出力チャネルの実際のラウドスピーカ位置とに基づいて、2以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。
実施例によれば、3以上のオーディオ入力チャネルの各々が、3以上のオーディオオブジェクトの1つのオブジェクトのオーディオ信号を含む。サイド情報が、3以上のオーディオオブジェクトの各オーディオオブジェクトについて、前記オーディオオブジェクトの位置を示すオーディオオブジェクト位置を含む。ダウンミキサが、3以上のオーディオオブジェクトの各々のオーディオオブジェクト位置に基づいて3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するよう構成れる。
実施例において、ダウンミキサが、サイド情報に基づいて4以上のオーディオ入力チャネルをダウンミクスして3以上のオーディオ出力チャネルを取得するよう構成される。
さらに、システムが提供される。このシステムは、3以上の未処理のオーディオチャネルを符号化して3以上の符号化されたオーディオチャネルを取得し、かつ3以上の未処理のオーディオチャネルに関する追加の情報を符号化してサイド情報を取得するためのエンコーダを含む。さらに、システムは、3以上のオーディオ入力チャネルとして3以上の符号化されたオーディオチャネルを受信し、サイド情報を受信しかつサイド情報に基づき、3以上のオーディオ入力チャネルから2以上のオーディオ出力チャネルを生成するための、上記実施例の1つによる装置を含む。
さらに、3以上のオーディオ入力チャネルから2以上のオーディオ出力チャネルを生成するための方法が提供される。この方法は、3以上のオーディオ入力チャネルをおよびサイド情報を受信するステップと、2以上のオーディオ出力チャネルを取得するため、サイド情報に基づいて3以上のオーディオ入力チャネルをダウンミクスするステップとを含む。
オーディオ出力チャネルの数は、オーディオ入力チャネルの数より少ない。オーディオ入力チャネルが、音源が発する音声の記録を含み、かつサイド情報が音声の特徴または音源の特徴を示す。
さらに、コンピュータまたは信号処理装置で実行された際に、上記の方法を実現するためのコンピュータプログラムが提供される。
以下では、本発明の実施例について、図面を参照してより詳細に説明する。
実施例による、3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するための装置の図である。 実施例によるダウンミキサの図である。 オーディオ出力チャネルの各々がオーディオ入力チャネルの各々に基づいて生成される、実施例によるシナリオを示す図である。 オーディオ出力チャネルの各々が、オーディオ入力チャネルのちょうど2つに基づいて生成される、実施例による他のシナリオを示す図である。 実際のラウドスピーカ位置に対する送信された空間表現信号のマッピングを示す図である。 他の高レベルに対する高い空間信号のマッピングを示す図である。 異なるラウドスピーカ位置についてのソース信号のこのようなレンダリングを示す図である。 実施例によるシステムの図である。 実施例によるシステムの他の図である。
図1は、実施例による3以上のオーディオ入力チャネルから2以上のオーディオ出力チャネルを生成するための装置100を示す。
装置100は、3以上のオーディオ入力チャネルを受信しかつサイド情報を受信するための受信インタフェース110を含む。
また、装置100は、サイド情報に基づいて3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するためのダウンミキサ120を含む。
オーディオ出力チャネルの数は、オーディオ入力チャネルの数より少ない。サイド情報は、3以上のオーディオ入力チャネルの少なくとも1つの特徴、1以上のオーディオ入力チャネル内に記録される1以上の音波の特徴または1以上のオーディオ入力チャネル内に記録される1以上の音波を発した1以上の音源の特徴を示す。
図2は、実施例によるダウンミキサ120を示す別の図である。図2に示すガイダンス情報がサイド情報である。
図7は、様々なラウドスピーカ位置のためのソース信号のレンダリングを示す図である。レンダリング伝達関数は、たとえば音波の到来方向を示す角度(方位角および仰角)、音源から記録するマイクロホンまでの距離等の距離および/または拡散性に依存し、これらのパラメータがたとえば周波数に依存し得る。
実施例によれば、ガイドなしのダウンミクス法等のブラインドダウンミクス法とは対照的に、信号チェーンの受信側でのダウンミクスプロセスに対する影響を考慮するため、制御データまたは記述的情報がオーディオ信号とともに送信される。このサイド情報は、信号チェーンの送出部側/エンコーダ側で計算されるか、またはユーザの入力により付与され得る。このサイド情報は、たとえば符号化されたオーディオ信号と多重化されたビットストリームで送信され得る。
特定の実施例によれば、ダウンミキサ120は、たとえばサイド情報に依存して4以上のオーディオ入力チャネルをダウンミクスして3以上のオーディオ出力チャネルを取得するよう構成され得る。
実施例において、2以上のオーディオ出力チャネルの各々は、たとえばラウドスピーカを操作するためのラウドスピーカチャネルでもよい。
たとえば、特定の他の実施例において、ダウンミキサ120は、7個のオーディオ入力チャネルをダウンミクスして3以上のオーディオ出力チャネルを取得するよう構成され得る。他の特定の実施例において、ダウンミキサ120は、9個のオーディオ入力チャネルをダウンミクスして3以上のオーディオ出力チャネルを取得するよう構成され得る。さらに他の特定の実施例では、ダウンミキサ120は、24個のチャネルをダウンミクスして、3以上のオーディオ出力チャネルを取得するよう構成され得る。
さらに他の特定の実施例において、ダウンミキサ120は、7以上のオーディオ入力チャネルをダウンミクスして、たとえば5チャネルサラウンドシステムの5つのオーディオチャネル等、ちょうど5つのオーディオ出力チャネルを取得するよう構成され得る。さらに他の特定の実施例において、ダウンミキサ120は、7以上のオーディオ入力チャネルをダウンミクスして、5.1サラウンドシステムの6つのオーディオチャネル等、ちょうど6つのオーディオ出力チャネルを取得するよう構成され得る。
実施例によれば、ダウンミキサは、サイド情報に基づき3以上のオーディオ入力チャネルのうち少なくとも2のオーディオ入力チャネルを修正し、修正されたオーディオチャネルのグループを取得し、かつ修正されたオーディオチャネルの前記グループの各修正されたオーディオチャネルを組み合わせて、前記オーディオ出力チャネルを取得することにより、2以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。
実施例において、ダウンミキサは、たとえば、サイド情報に基づいて、3以上のオーディオ入力チャネルの各オーディオ入力チャネルを修正して、修正されたオーディオチャネルのグループを取得し、かつ修正されたオーディオチャネルの前記グループの各修正されたオーディオチャネルを組み合わせることにより前記オーディオ出力チャネルを取得することにより、2以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。
実施例によれば、ダウンミキサ120は、たとえば1以上のオーディオ入力チャネルの1オーディオ入力チャネルとサイド情報とに基づき、重みを決定し、かつ前記オーディオ入力チャネルに対して前記重みを適用して、修正されたオーディオチャネルのグループの各修正されたオーディオチャネルを生成することにより、2以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。
図3は、このような実施例を示す。オーディオ入力チャネル(AIC、AIC、AIC、AIC)の各々に基づく各オーディオ出力チャネル(AOC、AOC、AOC)を示す。
たとえば、第1のオーディオ出力チャネルAOCについて考察する。
ダウンミキサ120は、オーディオ入力チャネルおよびサイド情報に基づいて、各オーディオ入力チャネルAIC、AIC、AIC、AICのための重みg1,1、g1,2、g1,3、g1,4を決定するよう構成される。また、ダウンミキサ120は、各重みg1,1、g1,2、g1,3、g1,4をそのオーディオ入力チャネルAIC、AIC、AIC、AICに適用するよう構成される。
たとえば、ダウンミキサは、オーディオ入力チャネルの各時間領域サンプルに重みを乗算することにより、そのオーディオ入力チャネルに重みを適用するよう構成され得る(オーディオ入力チャネルが時間領域で表される場合等)。または、たとえばダウンミキサは、オーディオ入力チャネルの各スペクトル値に重みを乗算することによりそのオーディオ入力チャネルに重みを適用するよう構成され得る(オーディオ入力チャネルがスペクトル領域、周波数領域または時間周波数領域で表される場合等)。重みg1,1、g1,2、g1,3、g1,4を適用することにより得られた修正されたオーディオチャネル(MAC1,1、MAC1,2、MAC1,3、MAC1,4)を加算する等、組み合わせて、オーディオ出力チャネルAOCの1つを取得する。
重みg2,1、g2,2、g2,3、g2,4を決定し、各重みをそのオーディオ入力チャネルAIC、AIC、AIC、AICに適用し、かつ結果として得られる修正されたオーディオチャネルMAC2,1、MAC2,2、MAC2,3、MAC2,4を組み合わせることにより、同様に第2のオーディオ出力チャネルAOCを決定する。
同様に、重みg3,1、g3,2、g3,3、g3,4を決定し、各重みをそのオーディオ入力チャネルAIC、AIC、AIC、AICに適用し、かつ結果として得られる修正されたオーディオチャネルMAC3,1、MAC3,2、MAC3,3、MAC3,4を組み合わせることにより、第3のオーディオ出力チャネルAOCを決定する。
図4は、オーディオ出力チャネルの各々が、3以上のオーディオ入力チャネルの各オーディオ入力チャネルを修正することで生成されるのではなく、オーディオ入力チャネルのうち2つのみを修正して、これら2つのオーディオ入力チャネルを組み合わせることにより生成される実施例を示す。
たとえば、図4において、オーディオ入力チャネルとして4つのチャネルが受信され(LS=左サラウンド入力チャネル、L=左入力チャネル、R=右入力チャネル、RS=右サラウンド入力チャネル)、かつオーディオ入力チャネルをダウンミクスすることにより、3つのオーディオ出力チャネルが生成されることになる(L=左出力チャネル、R=右出力チャネル、C=中央出力チャネル)。
図4において、左出力チャネルLは、左サラウンド入力チャネルLSおよび左入力チャネルLに基づいて生成される。この目的で、ダウンミキサ120は、それぞれサイド情報に基づいて、左サラウンド入力チャネルLSのための重みg1,1および左入力チャネルLのための重みg1,2を生成し、各重みをそのオーディオ入力チャネルに適用して左出力チャネルLを取得する。
また、中央出力チャネルCは、左入力チャネルLおよび右入力チャネルRに基づいて生成される。この目的で、ダウンミキサ120は、いずれもサイド情報に基づき、左入力チャネルLのための重みg2,2および右入力チャネルRのための重みg2,3を生成し、各重みをそのオーディオ入力に適用して中央出力チャネルCを取得する。
さらに、右出力チャネルRは、右入力チャネルRおよび右サラウンド入力チャネルRSに基づいて生成される。この目的で、ダウンミキサ120は、いずれもサイド情報に基づいて、右入力チャネルRのための重みg3,3および右サラウンド入力チャネルRSのための重みg3,4を生成し、各重みをそのオーディオ入力チャネルに適用して左出力チャネルRを取得する。
本発明の実施例は、以下の知見が動機となっている。
前提技術は、ビットストリームのメタデータとしてダウンミクス係数を提供する。
係数、追加チャネル(元のチャネル構成のオーディオチャネル等、高さ情報等)および/または目標のチャネル構成で使用される追加のフォーマットを周波数選択的にダウンミクスすることにより、前提技術を拡張する方法が考えられる。言い換えれば、3Dオーディオフォーマットのためのダウンミクスマトリクスは、入力フォーマットの追加チャネル、特に3Dオーディオフォーマットの高さチャネルにより拡張することができるはずである。追加のフォーマットについては、複数の出力フォーマットを3Dオーディオによりサポートする必要がある。5.0または5.1信号では、ステレオまたはおそらくモノに対してのみダウンミクスは有効だが、より多くのチャネルを含むチャネル構成では、いくつかの出力フォーマットが適切である点を考慮する必要がある。22.2チャネルでは、モノ、ステレオ、5.1または異なる7.1バリアント等が考えられる。
しかしながら、これらの拡張された係数の伝送のために予想されるビットレートはかなり高くなると考えられる。特定のフォーマットでは、追加のダウンミクス係数を定義し、これらを既存のダウンミクスメタデータと組み合わせることが妥当だと考えられる(MPEGへの7.1提案、出力ドキュメントN12980を参照)。
3Dオーディオに関しては、送り手および受け手側で予想されるチャネル構成の組み合わせは多数あり、データ量は、許容可能なビットレートを超える。しかしながら、冗長性の低減(ホフマン符号化等)で、データ量を許容可能な程度に減らすことも考えられる。
さらに、上記のダウンミクス係数をパラメータ的に特徴づけることも可能である。
しかしながら、それでも予想されるビットレートはこのような方法ではかなり増大すると考えられる。
上記から、確立した方法を拡張することは一般に実用向きでないということであり、その理由のひとつは、結果としてデータのレートが不釣り合いに高くなると考えられる点である。
時間領域における一般的ダウンミクスの仕様は以下のように公式化され得る。
(t)=cnm・x(t)
ここで、y(t)はダウンミクスの出力信号であり、x(t)は入力信号であり、nは入力オーディオチャネルの指数であり、mは出力チャネルの指数である。n番目の出力チャネルに対するm番目の入力チャネルのダウンミクス係数が、cnmに相当する。以下の式による5チャネル信号および2チャネルステレオ信号のダウンミクスの例が知られている。
L’(t)=L(t)+c・C(t)+c・LS(t)
R’(t)=R(t)+c・C(t)+c・RS(t)
ダウンミクス係数は静的でありかつオーディオ信号の各サンプルに適用される。これらは、オーディオビットストリームにメタデータとして加えられ得る。「周波数選択的ダウンミクス係数」という用語は、特定の周波数帯に別のダウンミクス係数を使用する可能性に関して使用される。時間可変係数と組み合わせて、デコーダ側ダウンミクスを、エンコーダから制御してもよい。その場合、オーディオフレームのためのダウンミクスの仕様は以下のとおりになる。
(k,s)=cnm(k)・x(k,s)
ここで、kは、周波数帯(ハイブリッドQMF帯等)であり、sはハイブリッドQMF帯のサブサンプルである。
上記のとおり、これらの係数の伝送は、高ビットレートとなることが考えられる。
本発明の実施例は、記述的サイド情報を採用する。ダウンミキサ120は、このような(記述的)サイド情報に基づき3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するよう構成される。
オーディオ信号の特徴について考慮できるので、オーディオチャネル、オーディオチャネルの組み合わせまたはオーディオオブジェクトに関する記述的情報で、ダウンミクスプロセスを改善できる。
一般に、このようなサイド情報は、3以上のオーディオ入力チャネルのうち1以上の特徴または1以上のオーディオ入力チャネル内に記録される1以上の音波の特徴または1以上のオーディオ入力チャネル内に記録される1以上の音波を発した1以上の音源の特徴を示す。
サイド情報の例には、以下のパラメータのうち1以上が考えられる。
ドライ/ウエット比
アンビエンスの量
拡散性
指向性
音源幅
音源距離
到来方向
こられのパラメータの定義は当業者には周知である。これらのパラメータの定義については、添付の文献を参照(特許文献1から4、非特許文献1から20を参照)。たとえば、アンビエンスの量についての定義は、非特許文献15、特許文献1、2、3および4ならびに非特許文献14に示される。ドライ/ウエット比の定義については、直接/アンビエンスの定義から直接的に導き出すことができ、当業者には周知である。指向性および拡散性と言う用語については、非特許文献17に説明され、これも当業者には周知である。
上記のパラメータは、サイド情報として提供され、Mチャネル入力信号からNチャネル出力信号を生成するレンダリングプロセスを導き、ダウンミクスの場合には、NはMより小さい。
サイド情報として提供されるパラメータは必ずしも定数ではない。むしろ、パラメータは経時的に可変である(パラメータは時間変数)。
一般に、サイド情報は、周波数選択的に入手可能なパラメータを含み得る。
送信されたサイド情報の適用は、デコーダ側の後処理/レンダリングにおいて行われる。パラメータの評価および重み付けは、目標のチャネル構成および他の再生(rendition)側特性に依存する。
上記のパラメータは、チャネル、チャネルのグループまたはオブジェクトに関連し得る。
パラメータは、ダウンミクスプロセスにおいて、ダウンミキサ120によるダウンミクスの際に、チャネルまたはオブジェクトの重み付けを決定するよう使用され得る。
例として、高さチャネルが、残響および/または反響のみを含む場合、ダウンミクスの際に音質にマイナスの影響を有するかもしれない。したがって、この場合、ダウンミクスから生じるオーディオチャネルにおけるそのシェアは、小さくする必要がある。したがって、ダウンミクスを制御する場合、「アンビエンス量」パラメータの値が高いと、このチャネルのダウンミクス係数は低くなると考えられる。対照的に、直接的な信号を含む場合には、ダウンミクスから生じるオーディオチャネルにおいては、より広範囲に反映されて、ダウンミクス係数はより高くなるはずである(より高い重みになる)。
たとえば、3Dオーディオ制作物の高さチャネルが、エンベロープメント(envelopment)の目的で、直接信号成分ならびに反響および残響を含み得る。これらの高さチャネルが、水平面のチャネルと混合されると、後者は、得られる混合において望まれないものになり、一方、直接成分のフォアグラウンドのオーディオコンテントはその全量によってダウンミクスされる必要がある。
この情報を使用してダウンミクス係数を調整することができる(周波数選択的に適切な部分で)。この点は、上記のすべてのパラメータに当てはまる。周波数選択性によりダウンミクスの制御をより細かく行うことができる。
たとえば、修正されたオーディオチャネルを取得するためにオーディオ入力チャネルに適用される重みは、それぞれのサイド情報に基づいて決定されても良い。
たとえば、フォアグランドチャネル(サラウンドシステムの左、中央または右チャネル等)は、オーディオ出力チャネルとして生成され、バックグラウンドチャネル(サラウンドシステムの左サラウンドチャネルまたは右サラウンドチャネル等)としては生成しない場合、次のようになる。
サイド情報が、オーディオ入力チャネルのアンビエンスの量が高いことを示す場合、フォアグラウンドのオーディオ出力チャネルを生成するために、このオーディオ入力チャネルについて小さな重みを決定し得る。これにより、このオーディオ入力チャネルから生じる修正オーディオチャネルは、それぞれのオーディオ出力チャネルを生成するためには、ほんのわずか考慮されるだけである。
サイド情報が、オーディオ入力チャネルのアンビエンスの量が低いことを示す場合、フォアグラウンドのオーディオ出力チャネルを生成するために、このオーディオ入力チャネルについてより大きい重みを決定し得る。これにより、このオーディオ入力チャネルから生じる修正オーディオチャネルは、それぞれのオーディオ出力チャネルを生成するために大きく考慮される。
実施例において、サイド情報が、3以上のオーディオ入力チャネルの各々のアンビエンス量を示し得る。ダウンミキサは、3以上のオーディオ入力チャネルの各々のアンビエンス量に基づいて3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するよう構成され得る。
たとえば、サイド情報には、3以上のオーディオ入力チャネルの各オーディオ入力チャネルについてアンビエンス量を指定するパラメータを含み得る。たとえば、各オーディオ入力チャネルは、アンビエント信号部および/または直接信号部を含み得る。たとえば、オーディオ入力チャネルのアンビエンス量を実数aと指定することができ、ここでiは、3以上のオーディオ入力チャネルの1つを示し、かつaは、たとえば0≦a≦1の範囲である。a=0は、それぞれのオーディオ入力チャネルがアンビエント信号部を含まないことを示し得る。a=1は、それぞれのオーディオ入力チャネルがアンビエント信号部のみを含むことを示し得る。一般に、オーディオ入力チャネルのアンビエンス量は、たとえば、オーディオ入力チャネル内のアンビエント信号部の量を示し得る。
たとえば、図3を再び参照して、実施例において、アンビエント信号部が、常に望ましくないものと決めることが考えられる。対応のダウンミキサ120が、たとえば以下の式により図3の重みを決定し得る。
c,i=(1−a)/4
ここでc∈{1,2,3}、i∈{1,2,3,4}、0≦a≦1
この実施例では、3以上のオーディオ出力チャネルの各々について、すべての重みが等しく決定される。
しかしながら、他の実施例については、いくつかのオーディオ出力チャネルについては、他のオーディオ出力チャネルについてよりもアンビエンスがより許容可能であると決めることができる。たとえば、図3による実施例では、第1のオーディオ出力チャネルAOCおよび第3のオーディオ出力チャネルAOCについては、第2のオーディオ出力チャネルAOCの場合より、アンビエンスはより許容可能であると決めることができる。その場合、対応のダウンミキサ120が、たとえば以下の式に従って図3の重みを決定し得る。
1,i=(1−(a/2))/4、ここで、i∈{1,2,3,4}、0≦a≦1、
2,i=(1−a)/4、ここでi∈{1,2,3,4}、0≦a≦1、
3,i=(1−(a/2))/4、ここで、i∈{1,2,3,4}、0≦a≦1
この実施例では、3以上のオーディオ出力チャネルのうちの1つの重みを、同3以上のオーディオ出力チャネルの他の1つの重みとは異なるように決定する。
図4の重みは、図3に関して記載した2つの例と同様に、たとえば第1の例と同様に決定され得る。
1,1=(1−a)/2、g1,2=(1−a)/2、g2,2=(1−a)/2、g2,3=(1−a)/2、g3,3=(1−a)/2、g3,4=(1−a)/2
図3および図4の重みgc,iも、何らかの他の適当な方法で決定してもよい。
他の実施例によれば、サイド情報は、3以上のオーディオ入力チャネルの各々の拡散性または3以上のオーディオ入力チャネルの各々の指向性を示し得る。ダウンミキサは、3以上のオーディオ入力チャネルの各々の拡散性または3以上のオーディオ入力チャネルの各々の指向性に基づいて、3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するよう構成され得る。
この実施例において、サイド情報はたとえば3以上のオーディオ入力チャネルのうちの各オーディオ入力チャネルに関する拡散性を指定するパラメータを含み得る。たとえば、各オーディオ入力チャネルは、拡散信号部および/または直接信号部を含み得る。たとえば、あるオーディオ入力チャネルの拡散性は、実数dとして指定してもよく、ここで、iは、3以上のオーディオ入力チャネルの1つを表し、かつdは、例えば、0≦d≦1の範囲である。d=0は、それぞれのオーディオ入力チャネルが拡散信号部を含まないことを示し得る。d=1は、それぞれのオーディオ入力チャネルが拡散信号部のみを含むことを示し得る。一般には、オーディオ入力チャネルの拡散性は、たとえばオーディオ入力チャネル内の拡散信号部の量を示し得る。
重みgc,iは、図3の例において、例えば、以下のように決定することが可能である。
c,i=(1−d)/4、ここでc∈{1,2,3}、i∈{1,2,3,4}、0≦d≦1
または、たとえば
1,i=(1−(d/2))/4、ここでi∈{1,2,3,4}、0≦d≦1
2,i=(1−d)/4、ここでi∈{1,2,3,4}、0≦d≦1、
3,i=(1−(d/2))/4、ここでi∈{1,2,3,4}、0≦d≦1
または、他の何らかの適切な方法で決定され得る。
または、サイド情報はたとえば3以上のオーディオ入力チャネルのうちの各オーディオ入力チャネルの指向性を指定するパラメータを含んでもよい。たとえば、あるオーディオ入力チャネルの指向性は、実数dとして指定することが可能で、ここでiは、3以上のオーディオ入力チャネルのうちの1つを表し、dは、たとえば0≦dir≦1の範囲である。dir=0は、それぞれのオーディオ入力チャネルの信号部が低い指向性を有することを示し得る。dir=1は、それぞれのオーディオ入力チャネルの信号部が高い指向性を有することを示し得る。
重みgc,iは、図3の例において、例えば、以下のように決定することが可能である。
c,i=dir/4、ここでc∈{1,2,3}、i∈{1,2,3,4}、0≦dir≦1
または、たとえば
1,i=0.125+dir/8、ここでi∈{1,2,3,4}、0≦dir≦1
2,i=dir/4、ここでi∈{1,2,3,4}、0≦dir≦1
3,i=0.125+dir/8、ここでi∈{1,2,3,4}、0≦dir≦1
または、他の何らかの適切な方法で決定され得る。
他の実施例では、サイド情報は音声の到来方向を示し得る。ダウンミキサは、音声の到来方向に基づいて3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するよう構成され得る。
到来方向とは、たとえば、音波の到来方向である。オーディオ入力チャネルにより記録される音波の到来方向を、たとえば、角度jとして指定することができ、ここでiは、3以上のオーディオ入力チャネルの1つを表し、jは、たとえば0°≦j<360°の範囲である。90°に近い到来方向を有する音波の音声部分は、たとえば、高い重みを有し、270°に近い到来方向を有する音波は低い重みを有することになるかまたはオーディオ出力信号においては全く重みを持たない。重みgc,iは、図3の例ではたとえば以下のように決定され得る。
c,i=(1+sinj)/8
ここでc∈{1,2,3}、i∈{1,2,3,4}、0°≦j<360°
270°の到来方向が、オーディオ出力チャネルAOCの場合よりも、オーディオ出力チャネルAOCおよびAOCにとってより許容可能な場合、重みgc,iはたとえば以下のように決定され得る。
1,i=(1.5+(sinj)/2)/8
ここで、i∈{1,2,3,4}、0°≦j<360°
2,i=(1+sinj)/8
ここで、i∈{1,2,3,4}、0°≦j<360°
3,i=(1.5+(sinj)/2)/8、ここで、i∈{1,2,3,4}、0°≦j<360°
または、他の何らかの適切な方法で決定され得る。
記述的サイド情報を採用して様々なラウドスピーカのセッティングでオーディオ信号の再生を実現するために、たとえば、以下のパラメータのうち1以上を採用することが可能である。
到来方向(水平および鉛直)
視聴者との差
音の幅(「拡散性」)
オブジェクト優先の3Dオーディオでは特に、目標のフォーマットのラウドスピーカに対するオブジェクトのマッピングを制御するためにこれらのパラメータを採用し得る。
さらに、これらのパラメータはたとえば周波数選択的に入手可能である。
「拡散性」の値の範囲。点音源―平面波―全方向的に到来する音波。なお、拡散性は、アンビエンスとは異なるかもしれない(サイケ調のフィーチャー映画作品においてどこからともなく聞こえる声等を参照)。
実施例によれば、装置100は、2以上のラウドスピーカのグループのうちのあるラウドスピーカに2以上のオーディオ出力チャネルの各々をフィードするよう構成され得る。ダウンミキサ120は、3以上の仮定のラウドスピーカ位置の第1のグループのうちの各仮定のラウドスピーカ位置および2以上の実際のラウドスピーカ位置の第2のグループのうちの各実際のラウドスピーカ位置に基づいて、3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するよう構成され得る。2以上の実際のラウドスピーカ位置の第2のグループのうちの各実際のラウドスピーカ位置は、2以上のラウドスピーカのグループのうちのあるラウドスピーカの位置を示し得る。
たとえば、あるオーディオ入力チャネルが、ある仮定のラウドスピーカ位置に割り当てられてもよい。さらに、第1のオーディオ出力チャネルを第1の実際のラウドスピーカ位置の第1のラウドスピーカについて生成しかつ第2のオーディオ出力チャネルを第2の実際のラウドスピーカ位置の第2のラウドスピーカについて生成する。第1の実際のラウドスピーカ位置と仮定のラウドスピーカ位置との距離が、第2の実際のラウドスピーカ位置と仮定のラウドスピーカ位置との距離より小さければ、たとえばオーディオ入力チャネルは、第2のオーディオ出力チャネルよりも第1のオーディオ出力チャネルに対してより影響を与える。
たとえば、第1の重みと第2の重みを生成しても良い。第1の重みは、第1の実際のラウドスピーカ位置と仮定のラウドスピーカ位置との距離に依存し得る。第2の重みは、第2の実際のラウドスピーカ位置と仮定のラウドスピーカ位置との距離に依存し得る。第1の重みは第2の重みより大きい。第1のオーディオ出力チャネルを生成するために、第1の重みをオーディオ入力チャネルに適用して、第1の修正されたオーディオチャネルを生成する。第2のオーディオ出力チャネルを生成するために、第2の重みをオーディオ入力チャネルに適用して、第2の修正されたオーディオチャネルを生成する。さらなる修正されたオーディオチャネルも、それぞれ他のオーディオ出力チャネルおよび/または他のオーディオ入力チャネルについて同様に生成され得る。2以上のオーディオ出力チャネルの各オーディオ出力チャネルを、その修正されたオーディオチャネルを組み合わせることにより生成し得る。
図5は、実際のラウドスピーカ位置に対する送信された空間表現信号のこのようなマッピングを示す図である。仮定のラウドスピーカ位置511、512、513、514および515は、仮定のラウドスピーカ位置の第1のグループに属する。実際のラウドスピーカ位置521、522および523は、実際のラウドスピーカ位置の第2のグループに属する。
たとえば、仮定のラウドスピーカ位置512の仮定のラウドスピーカのオーディオ入力チャネルが、第1の実際のラウドスピーカ位置521の第1の実物のラウドスピーカの第1のオーディオ出力信号および第2の実際のラウドスピーカ位置522の第2の実物のラウドスピーカの第2のオーディオ出力信号にどのように影響を与えるかは、仮定の位置512(またはその仮想位置532)が、第1の実際のラウドスピーカ位置521および第2の実際のラウドスピーカ位置522にどれだけ近接するかに依存する。仮定のラウドスピーカ位置が実際のラウドスピーカ位置に近いほど、オーディオ入力チャネルが対応のオーディオ出力チャネルに与える影響は大きい。
図5において、fは、仮定のラウドスピーカ位置512のラウドスピーカのためのオーディオ入力チャネルを示す。gは、第1の実際のラウドスピーカ位置521の第1の実際のラウドスピーカのための第1のオーディオ出力チャネルを示し、gは、第2の実際のラウドスピーカ位置522の第2の実際のラウドスピーカのための第2のオーディオ出力チャネルを示し、αは方位角を示し、βは仰角を示す。ここで、方位角αおよび仰角βは、たとえば実際のラウドスピーカ位置から仮定のラウドスピーカ位置へのまたはその逆の方向を示す。
実施例において、3以上のオーディオ入力チャネルの各オーディオ入力チャネルを、3以上の仮定のラウドスピーカ位置の第1のグループのうちのある仮定のラウドスピーカ位置に割り当てることができる。たとえば、オーディオ入力チャネルが、仮定のラウドスピーカ位置でラウドスピーカによりプレイバックされるとすれば、このオーディオ入力チャネルがその仮定のラウドスピーカ位置に割り当てられる。2以上のオーディオ出力チャネルのうちの各オーディオ出力チャネルが、2以上の実際のラウドスピーカ位置の第2のグループのある実際のラウドスピーカ位置に割り当てられ得る。たとえば、オーディオ出力チャネルが、実際のラウドスピーカ位置でラウドスピーカによりプレイバックされるとすれば、このオーディオ出力チャネルはその実際のラウドスピーカ位置に割り当てられる。ダウンミキサは、3以上のオーディオ入力チャネルのうちの少なくとも2つ、3以上のオーディオ入力チャネルのうちの前記少なくとも2つのうちの各々の仮定のラウドスピーカ位置および前記オーディオ出力チャネルの実際のラウドスピーカ位置に基づいて、2以上のオーディオ出力チェネルの各オーディオ出力チャネルを生成するよう構成され得る。
図6は他の高い位置に対する高い空間信号のマッピングを示す図である。送信される空間信号(チャネル)は、高いスピーカ面におけるスピーカのためのチャネルかまたは高くないスピーカ面のスピーカためのチャネルのいずれかである。すべての実物のラウドスピーカが1つのラウドスピーカ面(高くないスピーカ面)に位置する場合、高いスピーカ面のスピーカのためのチャネルを高くないスピーカ面のスピーカにフィードする必要がある。
この目的で、サイド情報は、高いスピーカ面におけるスピーカの仮定のラウドスピーカ位置611に関する情報を含む。高くないスピーカ面における対応の仮想位置631がダウンミキサにより決定され、仮定の高いスピーカのためのオーディオ入力チャネルを修正することにより生成される修正されたオーディオチャネルを、実際に使用可能なスピーカの実際のラウドスピーカ位置621、622、623、624に依存して生成する。
ダウンミクスをより細かく制御するために、周波数選択性を採用してもよい。「アンビエンスの量」の例を使用して、高さチャネルは、空間成分および直接成分の両方を含み得る。異なる特性を有する周波数成分を、応じて特徴づけてもよい。
実施例によれば、3以上のオーディオ入力チェネルの各々が、3以上のオーディオオブジェクトのあるオーディオオブジェクトのオーディオ信号を含む。サイド情報は、3以上のオーディオオブジェクトの各オーディオオブジェクトについて、前記オーディオオブジェクトの位置を示すオーディオオブジェクト位置を含む。ダウンミキサは、3以上のオーディオオブジェクトの各々のオーディオオブジェクト位置に基づいて3以上のオーディオ入力チャネルをダウンミクスして2以上のオーディオ出力チャネルを取得するよう構成される。
たとえば、第1のオーディオ入力チャネルは、第1のオーディオオブジェクトのオーディオ信号を含む。第1のラウドスピーカは、第1の実際のラウドスピーカ位置に配置され得る。第2のラウドスピーカは、第2の実際のラウドスピーカ位置に配置され得る。第1の実際のラウドスピーカ位置と第1のオーディオオブジェクトの位置との距離は、第2の実際のラウドスピーカ位置と第1のオーディオオブジェクトの位置との距離より短くなり得る。そこで、第1のラウドスピーカのための第1のオーディオ出力チャネルおよび第2のラウドスピーカのための第2のオーディオ出力チャネルが生成され、それにより第1のオーディオオブジェクトのオーディオ信号が第2のオーディオ出力チャネルよりも第1のオーディオ出力チャネルにおいてより大きな影響を持つようになっている。
たとえば、第1の重みおよび第2の重みを生成し得る。第1の重みは、第1の実際のラウドスピーカ位置と、第1のオーディオオブジェクトの位置との間の距離に依存し得る。第2の重みは、第2の実際のラウドスピーカ位置と、第2のオーディオオブジェクトの位置との間の距離に依存し得る。第1の重みは第2の重みより大きい。第1のオーディオ出力チャネルを生成するために、第1の重みを第1のオーディオオブジェクトのオーディオ信号に適用して第1の修正されたオーディオチャネル生成する。第2のオーディオ出力チャネルを生成するため、第2の重みを第1のオーディオオブジェクトのオーディオ信号に適用して、第2の修正されたオーディオチャネルを生成し得る。さらなる修正されたオーディオチャネルが、それぞれ他のオーディオ出力チャネルおよび/または他のオーディオオブジェクトのために同様に生成され得る。2以上のオーディオ出力チャネルの各オーディオ出力チャネルが、その修正されたオーディオチャネルを組み合わせることにより生成され得る。
図8は、実施例によるシステムを示す図である。
このシステムは、3以上の未処理のオーディオチャネルを符号化して3以上の符号化されたオーディオチャネルを取得しかつ3以上の未処理のオーディオチャネルに関する追加の情報を符号化してサイド情報を取得するためのエンコーダ810を含む。
さらに、このシステムは、3以上の符号化されたオーディオチャネルを3以上のオーディオ入力チャネルとして受信し、サイド情報を受信しかつサイド情報に基づいて3以上のオーディオ入力チャネルから2以上のオーディオ出力チャネルを生成するための、上記実施例の1つに従う装置100を含む。
図9は、実施例によるシステムの他の図である。図示されるガイダンス情報がサイド情報である。2以上のオーディオ出力チャネルを生成するために、エンコーダ810により符号化されたM個の符号化されたオーディオチャネルが、装置100(「ダウンミクス」と示す)にフィードされる。N個のオーディオ出力チャネルが、M個の符号化されたオーディオチャネル(装置820のオーディオ入力チャネル)をダウンミクスすることにより生成される。実施例において、N<Mが成り立つ。
装置に関連していくつかの特徴について説明したが、これらの特徴が対応の方法の説明をも表すことは明らかで、その場合、ブロックや装置が方法ステップまたは方法ステップの特徴に相当する。同様に、方法ステップに関連して説明した特徴はまた対応するブロックやアイテムの説明または対応する装置の特徴をも表す。
発明の分解された信号をデジタル記憶媒体に記憶するかまたはインターネット等の無線送信媒体、または有線送信媒体のような送信媒体上で送信することができる。
特定の実施要件によって、発明の実施例をハードウェアまたはソフトウェアで実現することができる。実装は、それぞれの方法を実行するようにプログラム可能なコンピュータシステムと協働する(または協働可能な)、電子的に可読な制御信号を記憶したデジタル記憶媒体、たとえば、フロッピーディスク、DVD,CD,ROM,PROM,EPROM,EEPROMまたはフラッシュメモリを使用して行うことができる。
本発明のいくつかの実施例は、ここに記載の方法の1つが実行されるよう、プログラム可能なコンピュータシステムと協働可能な電子的に可読な制御信号を有する非一過性のデータキャリアを含む。
一般に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として実現されることが可能で、そのプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されると、方法の1つを実行するよう動作する。プログラムコードは、たとえば機械可読なキャリア上に記憶され得る。
他の実施例は、機械可読なキャリア上に記憶される、ここに記載の方法の1つを実行するためのコンピュータプログラムを含む。
すなわち、発明の方法の実施例は、コンピュータプログラムがコンピュータ上で実行された際に、ここに記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、発明の方法の他の実施例は、ここに記載の方法の1つを実行するためのコンピュータプログラムを記録するデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。
したがって、発明の方法の他の実施例は、ここに記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスはたとえばインターネットを介するデータ通信接続により転送されるよう構成されてもよい。
他の実施例は、ここに記載の方法の1つを実行するよう構成または適合されるコンピュータまたはプログラマブル論理装置等の処理手段を含む。
他の実施例は、ここに記載の方法の1つを実行するためのコンピュータプログラムをインストールするコンピュータを含む。
いくつかの実施例においては、プログラマブル論理装置(例えば、フィールドプログラマブルゲートアレイ)を使用して、ここに記載の方法の機能性の一部または全部を実行してもよい。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、ここに記載の方法の1つを実行するために、マイクロプロセッサと協働し得る。一般に、これらの方法は、何らかのハードウェア装置により実行されることが好ましい。
上記の実施例は、本発明の原則を示すものに過ぎない。当然ながら、ここに記載の構成および詳細には変形および変更が可能であることは当業者には明らかになろう。したがって、添付の請求の範囲により限定され、実施例の記載および説明により提示される特定の詳細により限定されないことを意図する。

Claims (10)

  1. 3以上のオーディオ入力チャネルから2以上のオーディオ出力チャネルを生成するための装置(100)であって、装置(100)が、
    3以上のオーディオ入力チャネルを受信しかつサイド情報を受信するための受信インターフェース(110)と、
    各オーディオ入力チャネルのための重みを使用してサイド情報に基づいて3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するためのダウンミキサ(120)とを含み、
    オーディオ出力チャネルの数がオーディオ入力チャネルの数より少なく
    サイド情報が、3以上のオーディオ入力チャネルの少なくとも1つの特徴、1以上のオーディオ入力チャネル内に記録される1以上の音波の特徴または1以上のオーディオ入力チャネル内に記録される1以上の音波を発した1以上の音源の特徴を示し、
    ダウンミキサが、サイド情報に基づいて各オーディオ入力チャネルのための重みを決定するように構成され、
    装置(100)が、2以上のラウドスピーカのグループのうちの1ラウドスピーカに2以上のオーディオ出力チャネルの各々をフィードするように構成され、
    ダウンミキサ(120)が、3以上の仮定のラウドスピーカ位置の第1のグループの各仮定のラウドスピーカ位置と2以上の実際のラウドスピーカ位置の第2のグループの各実際のラウドスピーカ位置とに基づいて、3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するよう構成され、
    2以上の実際のラウドスピーカ位置の第2のグループの各実際のラウドスピーカ位置が、2以上のラウドスピーカのグループのうちの1ラウドスピーカの位置を示し、
    3以上のオーディオ入力チャネルの各オーディオ入力チャネルが、3以上の仮定のラウドスピーカ位置の第1のグループの1つの仮定のラウドスピーカ位置に割り当てられ、
    2以上のオーディオ出力チャネルの各オーディオ出力チャネルが、2以上の実際のラウドスピーカ位置の第2のグループの1つの実際のラウドスピーカ位置に割り当てられ、
    ダウンミキサ(120)が、3以上のオーディオ入力チャネルのうち少なくとも2つと、3以上のオーディオ入力チャネルのうち前記少なくとも2つの各々の仮定のラウドスピーカ位置と、前記オーディオ出力チャネルの実際のラウドスピーカ位置とに基づいて、2以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され、
    サイド情報が3以上のオーディオ入力チャネルの各々のアンビエンス量を含み、
    ダウンミキサ(120)が、3以上のオーディオ入力チャネルの各々のアンビエンス量に基づいて3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するよう構成される、装置。
  2. ダウンミキサ(120)が、サイド情報に基づいて3以上のオーディオ入力チャネルのうち少なくとも2つのオーディオ入力チャネルを修正して修正されたオーディオチャネルのグループを取得し、かつ修正されたオーディオチャネルの前記グループの各修正されたオーディオチャネルを組み合わせて前記オーディオ出力チャネルを取得することにより、2以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成される、請求項1に記載の装置(100)。
  3. ダウンミキサ(120)が、サイド情報に基づいて3以上のオーディオ入力チャネルの各オーディオ入力チャネルを修正して修正されたオーディオチャネルのグループを取得し、かつ修正されたオーディオチャネルの前記グループの各修正されたオーディオチャネルを組み合わせて前記オーディオ出力チャネルを取得することにより、2以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成される、請求項2に記載の装置(100)。
  4. ダウンミキサ(120)が、1以上のオーディオ入力チャネルの1オーディオ入力チャネルおよびサイド情報に基づき重みを決定しかつ前記オーディオ入力チャネルに前記重みを適用して、修正されたオーディオチャネルのグループの各修正されたオーディオチャネルを生成することにより、2以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成される、請求項2または3に記載の装置(100)。
  5. サイド情報が3以上のオーディオ入力チャネルの各々の拡散性または3以上のオーディオ入力チャネルの各々の指向性を示し、かつ
    ダウンミキサ(120)が、3以上のオーディオ入力チャネルの各々の拡散性または3以上のオーディオ入力チャネルの各々の指向性に基づいて3以上のオーディオ入力チャネルをダウンミクスして、2以上のオーディオ出力チャネルを取得するよう構成される、請求項1から請求項4のいずれかに記載の装置(100)。
  6. サイド情報が、音声の到来方向を示し、かつ
    ダウンミキサ(120)が、音声の到来方向に基づいて3以上のオーディオ入力チャネルをダウンミクスして2以上のオーディオ出力チャネルを取得するよう構成される、請求項1から請求項5のいずれかに記載の装置(100)。
  7. ウンミキサ(120)が、サイド情報に基づいて以上のオーディオ入力チャネルをダウンミクスして以上のオーディオ出力チャネルを取得するよう構成される、請求項1から請求項6のいずれかに記載の装置(100)。
  8. 3以上の未処理のオーディオチャネルを符号化して3以上の符号化されたオーディオチャネルを取得し、かつ3以上の未処理のオーディオチャネルに関する追加の情報を符号化してサイド情報を取得するためのエンコーダ(810)と、
    3以上のオーディオ入力チャネルとして3以上の符号化されたオーディオチャネルを受信し、サイド情報を受信しかつサイド情報に基づき、3以上のオーディオ入力チャネルから2以上のオーディオ出力チャネルを生成するための、請求項1から請求項7のいずれかに記載の装置(100)とを含む、システム。
  9. 3以上のオーディオ入力チャネルから2以上のオーディオ出力チャネルを生成するための方法であって、
    3以上のオーディオ入力チャネルおよびサイド情報を受信するステップと、
    各オーディオ入力チャネルのための重みを使用してサイド情報に基づいて3以上のオーディオ入力チャネルをダウンミクスして2以上のオーディオ出力チャネルを取得するステップとを含み、
    オーディオ出力チャネルの数が、オーディオ入力チャネルの数より少なく、かつ
    サイド情報が3以上のオーディオ入力チャネルのうちの少なくとも1つの特徴、1以上のオーディオ入力チャネル内に記録される1以上の音波の特徴または1以上のオーディオ入力チャネル内に記録される1以上の音波を発した1以上の音源の特徴を示し、
    重みがサイド情報に基づいて各オーディオ入力チャネルのために決定され、
    2以上のオーディオ出力チャネルの各々が2以上のラウドスピーカのグループのうちの1ラウドスピーカにフィードされ、
    3以上のオーディオ入力チャネルが、3以上の仮定のラウドスピーカ位置の第1のグループの各仮定のラウドスピーカ位置と2以上の実際のラウドスピーカ位置の第2のグループの各実際のラウドスピーカ位置とに基づいて、ダウンミクスされて、2以上のオーディオ出力チャネルが取得され、
    2以上の実際のラウドスピーカ位置の第2のグループの各実際のラウドスピーカ位置が、2以上のラウドスピーカのグループのうちの1ラウドスピーカの位置を示し、
    3以上のオーディオ入力チャネルの各オーディオ入力チャネルが、3以上の仮定のラウドスピーカ位置の第1のグループの1つの仮定のラウドスピーカ位置に割り当てられ、
    2以上のオーディオ出力チャネルの各オーディオ出力チャネルが、2以上の実際のラウドスピーカ位置の第2のグループの1つの実際のラウドスピーカ位置に割り当てられ、
    2以上のオーディオ出力チャネルの各オーディオ出力チャネルが、3以上のオーディオ入力チャネルのうち少なくとも2つと、3以上のオーディオ入力チャネルのうち前記少なくとも2つの各々の仮定のラウドスピーカ位置と、前記オーディオ出力チャネルの実際のラウドスピーカ位置とに基づいて、生成され、
    サイド情報が3以上のオーディオ入力チャネルの各々のアンビエンス量を含み、
    3以上のオーディオ入力チャネルの各々のアンビエンス量に基づいて3以上のオーディオ入力チャネルがダウンミクスされて、2以上のオーディオ出力チャネルが取得される、方法。
  10. コンピュータまたは信号処理装置で実行された際に、請求項に記載の方法を実現するためのコンピュータプログラム。
JP2015531556A 2012-09-12 2013-09-12 3dオーディオのための強化されガイドされるダウンミクス能力を提供するための装置および方法 Active JP5917777B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261699990P 2012-09-12 2012-09-12
US61/699,990 2012-09-12
PCT/EP2013/068903 WO2014041067A1 (en) 2012-09-12 2013-09-12 Apparatus and method for providing enhanced guided downmix capabilities for 3d audio

Publications (2)

Publication Number Publication Date
JP2015532062A JP2015532062A (ja) 2015-11-05
JP5917777B2 true JP5917777B2 (ja) 2016-05-18

Family

ID=49226131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015531556A Active JP5917777B2 (ja) 2012-09-12 2013-09-12 3dオーディオのための強化されガイドされるダウンミクス能力を提供するための装置および方法

Country Status (20)

Country Link
US (4) US9653084B2 (ja)
EP (1) EP2896221B1 (ja)
JP (1) JP5917777B2 (ja)
KR (1) KR101685408B1 (ja)
CN (1) CN104782145B (ja)
AR (1) AR092540A1 (ja)
AU (1) AU2013314299B2 (ja)
BR (6) BR112015005456B1 (ja)
CA (1) CA2884525C (ja)
ES (1) ES2610223T3 (ja)
HK (1) HK1212537A1 (ja)
MX (1) MX343564B (ja)
MY (1) MY181365A (ja)
PL (1) PL2896221T3 (ja)
PT (1) PT2896221T (ja)
RU (1) RU2635884C2 (ja)
SG (1) SG11201501876VA (ja)
TW (1) TWI545562B (ja)
WO (1) WO2014041067A1 (ja)
ZA (1) ZA201502353B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112015005456B1 (pt) * 2012-09-12 2022-03-29 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
US10075795B2 (en) * 2013-04-19 2018-09-11 Electronics And Telecommunications Research Institute Apparatus and method for processing multi-channel audio signal
EP2830332A3 (en) * 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
KR102160254B1 (ko) 2014-01-10 2020-09-25 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
RU2646337C1 (ru) * 2014-03-28 2018-03-02 Самсунг Электроникс Ко., Лтд. Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи
CN110213709B (zh) * 2014-06-26 2021-06-15 三星电子株式会社 用于渲染声学信号的方法和设备及计算机可读记录介质
EP3213323B1 (en) 2014-10-31 2018-12-12 Dolby International AB Parametric encoding and decoding of multichannel audio signals
US10475463B2 (en) * 2015-02-10 2019-11-12 Sony Corporation Transmission device, transmission method, reception device, and reception method for audio streams
GB2540175A (en) * 2015-07-08 2017-01-11 Nokia Technologies Oy Spatial audio processing apparatus
US10659904B2 (en) 2016-09-23 2020-05-19 Gaudio Lab, Inc. Method and device for processing binaural audio signal
US10356545B2 (en) * 2016-09-23 2019-07-16 Gaudio Lab, Inc. Method and device for processing audio signal by using metadata
GB2572419A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
US11356791B2 (en) 2018-12-27 2022-06-07 Gilberto Torres Ayala Vector audio panning and playback system
EP3925236B1 (en) 2019-02-13 2024-07-17 Dolby Laboratories Licensing Corporation Adaptive loudness normalization for audio object clustering
WO2020249480A1 (en) * 2019-06-12 2020-12-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Packet loss concealment for dirac based spatial audio coding
WO2022258876A1 (en) * 2021-06-10 2022-12-15 Nokia Technologies Oy Parametric spatial audio rendering
DE102021122597A1 (de) 2021-09-01 2023-03-02 Synotec Psychoinformatik Gmbh Mobiler, immersiver 3D-Audioraum

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0795698A (ja) 1993-09-21 1995-04-07 Sony Corp オーディオ再生装置
US7567845B1 (en) * 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
JP3519724B2 (ja) * 2002-10-25 2004-04-19 パイオニア株式会社 情報記録媒体、情報記録装置及び情報記録方法並びに情報再生装置及び情報再生方法
US7412380B1 (en) 2003-12-17 2008-08-12 Creative Technology Ltd. Ambience extraction and modification for enhancement and upmix of audio signals
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US7490044B2 (en) * 2004-06-08 2009-02-10 Bose Corporation Audio signal processing
US7853022B2 (en) 2004-10-28 2010-12-14 Thompson Jeffrey K Audio spatial environment engine
JP2006197391A (ja) 2005-01-14 2006-07-27 Toshiba Corp 音声ミクシング処理装置及び音声ミクシング処理方法
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US20060262936A1 (en) * 2005-05-13 2006-11-23 Pioneer Corporation Virtual surround decoder apparatus
DE602006016017D1 (de) 2006-01-09 2010-09-16 Nokia Corp Steuerung der dekodierung binauraler audiosignale
EP1989920B1 (en) 2006-02-21 2010-01-20 Koninklijke Philips Electronics N.V. Audio encoding and decoding
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US9014377B2 (en) 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
RU2431940C2 (ru) * 2006-10-16 2011-10-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аппаратура и метод многоканального параметрического преобразования
DE102006050068B4 (de) 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
JP5450085B2 (ja) * 2006-12-07 2014-03-26 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
RU2417549C2 (ru) * 2006-12-07 2011-04-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки аудиосигнала
US8296158B2 (en) * 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8908873B2 (en) * 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8107631B2 (en) 2007-10-04 2012-01-31 Creative Technology Ltd Correlation-based method for ambience extraction from two-channel audio signals
MX2010003807A (es) 2007-10-09 2010-07-28 Koninkl Philips Electronics Nv Metodo y aparato para generar una señal de audio binaural.
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
EP2396637A1 (en) * 2009-02-13 2011-12-21 Nokia Corp. Ambience coding and decoding for audio applications
JP2012525051A (ja) * 2009-04-21 2012-10-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号の合成
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
US8976972B2 (en) * 2009-10-12 2015-03-10 Orange Processing of sound data encoded in a sub-band domain
EP2464146A1 (en) * 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
US9026450B2 (en) * 2011-03-09 2015-05-05 Dts Llc System for dynamically creating and rendering audio objects
AU2012279357B2 (en) * 2011-07-01 2016-01-14 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
US9473870B2 (en) * 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
BR112015005456B1 (pt) * 2012-09-12 2022-03-29 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
KR102226420B1 (ko) * 2013-10-24 2021-03-11 삼성전자주식회사 다채널 오디오 신호 생성 방법 및 이를 수행하기 위한 장치

Also Published As

Publication number Publication date
AU2013314299A1 (en) 2015-04-02
MY181365A (en) 2020-12-21
SG11201501876VA (en) 2015-04-29
CA2884525A1 (en) 2014-03-20
HK1212537A1 (en) 2016-06-10
AR092540A1 (es) 2015-04-22
US20190287540A1 (en) 2019-09-19
US10950246B2 (en) 2021-03-16
KR101685408B1 (ko) 2016-12-20
US20210134304A1 (en) 2021-05-06
TWI545562B (zh) 2016-08-11
US10347259B2 (en) 2019-07-09
BR122021021487B1 (pt) 2022-11-22
JP2015532062A (ja) 2015-11-05
US20150199973A1 (en) 2015-07-16
BR122021021500B1 (pt) 2022-10-25
CN104782145B (zh) 2017-10-13
US20170249946A1 (en) 2017-08-31
PL2896221T3 (pl) 2017-04-28
CN104782145A (zh) 2015-07-15
WO2014041067A1 (en) 2014-03-20
AU2013314299B2 (en) 2016-05-05
CA2884525C (en) 2017-12-12
EP2896221A1 (en) 2015-07-22
KR20150064079A (ko) 2015-06-10
US9653084B2 (en) 2017-05-16
BR122021021494B1 (pt) 2022-11-16
BR112015005456B1 (pt) 2022-03-29
EP2896221B1 (en) 2016-11-02
RU2015113161A (ru) 2016-11-10
MX2015003195A (es) 2015-07-14
BR112015005456A2 (pt) 2017-07-04
TW201411606A (zh) 2014-03-16
MX343564B (es) 2016-11-09
ZA201502353B (en) 2016-01-27
BR122021021506B1 (pt) 2023-01-31
RU2635884C2 (ru) 2017-11-16
BR122021021503B1 (pt) 2023-04-11
ES2610223T3 (es) 2017-04-26
PT2896221T (pt) 2017-01-30

Similar Documents

Publication Publication Date Title
US10950246B2 (en) Apparatus and method for providing enhanced guided downmix capabilities for 3D audio
RU2635903C2 (ru) Способ и процессор сигналов для преобразования множества входных каналов из конфигурации входных каналов в выходные каналы из конфигурации выходных каналов
US9478225B2 (en) Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
JP5437638B2 (ja) マルチチャンネル復号化方法
JP5081838B2 (ja) オーディオ符号化及び復号
US9761229B2 (en) Systems, methods, apparatus, and computer-readable media for audio object clustering
US20090164221A1 (en) Methods and apparatuses for encoding and decoding object-based audio signals
JP2012198556A (ja) オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160406

R150 Certificate of patent or registration of utility model

Ref document number: 5917777

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250