JP2022548400A - ハイブリッド式近距離/遠距離場スピーカー仮想化 - Google Patents

ハイブリッド式近距離/遠距離場スピーカー仮想化 Download PDF

Info

Publication number
JP2022548400A
JP2022548400A JP2022518350A JP2022518350A JP2022548400A JP 2022548400 A JP2022548400 A JP 2022548400A JP 2022518350 A JP2022518350 A JP 2022518350A JP 2022518350 A JP2022518350 A JP 2022518350A JP 2022548400 A JP2022548400 A JP 2022548400A
Authority
JP
Japan
Prior art keywords
field
far
signal
audio
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022518350A
Other languages
English (en)
Inventor
エール. ツィンゴズ,ニコラ
シュレシュ パンケイ,サテジ
プタンヴィード,ヴィマル
アン キャリー クラム,ポピー
ロス ベイカー,ジェフリー
エリック エステン,イアン
デイリー,スコット
ポール ダーシー,ダニエル
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022548400A publication Critical patent/JP2022548400A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/009Signal processing in [PA] systems to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2400/00Loudspeakers
    • H04R2400/11Aspects regarding the frame of loudspeaker transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

ハイブリッド近距離/遠距離場スピーカー仮想化のための実施形態が開示される。ある実施形態では、方法は:チャネル・ベースのオーディオまたはオーディオ・オブジェクトを含むソース信号を受領するステップと;前記ソース信号および混合モードに基づいて、近距離場利得および遠距離場利得を生成するステップと;少なくとも部分的には、前記ソース信号および前記遠距離場利得に基づいて、遠距離場信号を生成するステップと;スピーカー仮想化器を使用して、遠距離場スピーカーを通じた遠距離場音響オーディオの再生のための前記遠距離場信号を、オーディオ再生環境にレンダリングするステップと;前記ソース信号および前記近距離場利得に基づいて近距離場信号を生成するステップと;前記遠距離場信号を前記遠距離場スピーカーに提供する前に、前記近距離場信号を近距離場再生装置または該近距離場再生装置に結合された中間装置に送信するステップと;前記遠距離場信号を前記遠距離場スピーカーに提供するステップと;前記遠距離場音響オーディオに同期的に重なるように、前記近距離場信号を前記近距離場スピーカーに提供するステップとを含む。

Description

関連出願への相互参照
本願は、2019年9月23日に出願された米国仮出願第62/903,975号、2019年9月23日に出願された米国仮出願第62/904,027号、および2020年9月11日に出願された米国仮出願第63/077,517号の優先権を主張するものであり、そのそれぞれが、その全体において参照により本明細書に組み込まれる。
技術分野
本開示は、一般に、オーディオ信号処理に関する。
典型的なシネマ・サウンドトラックは、画面上、オフスクリーン、見えない含意される要素および画像、ダイアログ、ノイズおよびサウンドエフェクトに対応する多くの異なるサウンドエレメントを含み、これらは、異なるスクリーン上の要素から発し、バックグラウンド音楽および環境エフェクトと組み合わされて、全体的な聴衆体験を作り出す。クリエーターとプロデューサーの芸術的意図は、これらの音を、音源の位置、強度、動き、および他の同様のパラメータに関してスクリーン上に示されるものにできるだけ密接に対応する仕方で再生されるようにする欲求を表している。
伝統的なチャネル・ベースのオーディオ・システムは、ステレオや5.1システムなどの再生環境における個々のスピーカーに、スピーカー・フィードの形でオーディオ・コンテンツを送る。聴取者体験をさらに改善するために、いくつかのホームシアター・システムは、オーディオ・オブジェクトを利用する音の三次元(3D)空間呈示を提供するために、オブジェクト・ベースのオーディオを用いる。オーディオ・オブジェクトは、みかけのソース位置(たとえば、3D座標)、みかけのソース幅、および他のパラメータの関連するパラメトリック・ソース記述を有するオーディオ信号である。
ホームシアター・システムは、映画館よりもスピーカーの数が少なく、よって、クリエーターの芸術的意図に従って3D音を再生する能力が低い。実際、すべての聴取環境における欠点は、聴取環境の周辺部であり、よって、聴取者からの近さまたは遠さの深淵な感覚を作り出す能力が限られていることである。スピーカー仮想化アルゴリズムは、物理的なスピーカーが存在しない、再生環境におけるさまざまな位置で、音を再生するために、ホームシアター・システムにおいてしばしば使用される。しかしながら、一部の3Dサウンドは、ステレオ・スピーカーのみでは、またはさらには5.1サラウンドシステムを使用しても、再生できない。これらは、ホームシアター・システムにおいて見出される最も一般的なスピーカー・レイアウトである。
ハイブリッド近距離/遠距離場スピーカー仮想化のための実施形態が開示される。ある実施形態では、方法は、メディア・ソース装置を使用して、チャネル・ベースのオーディオまたはオーディオ・オブジェクトのうちの少なくとも1つを含むソース信号を受領するステップと;前記メディア・ソース装置を使用して、ソース信号および混合モードに基づいて一つまたは複数の近距離場利得および一つまたは複数の遠距離場利得を生成するステップと;前記メディア・ソース装置を使用して、少なくとも部分的には、前記ソース信号および前記一つまたは複数の遠距離場利得に基づいて、遠距離場信号を生成するステップと;スピーカー仮想化器を使用して、遠距離場スピーカーを通じた遠距離場音響オーディオの再生のための前記遠距離場信号を、オーディオ再生環境にレンダリングするステップと;前記メディア・ソース装置を使用して、前記ソース信号および前記一つまたは複数の近距離場利得に基づいて近距離場信号を生成するステップと;前記遠距離場信号を前記遠距離場スピーカーに提供する前に、前記近距離場信号を近距離場再生装置または該近距離場再生装置に結合された中間装置に送信するステップと;前記遠距離場信号を前記遠距離場スピーカーに提供するステップとを含む。
ある実施形態では、本方法はさらに:前記ソース信号を低周波信号および高周波信号にフィルタリングするステップと;近距離場低周波利得および近距離場高周波利得を含む2つの近距離場利得のセットを生成するステップと;遠距離場低周波利得および遠距離場高周波利得を含む2つの遠距離場利得のセットを生成するステップと;前記低周波信号および前記高周波信号の重み付けされた線形結合に基づいて前記近距離場信号を生成するステップであって、前記低周波信号は前記近距離場低周波利得によって重み付けされ、前記高周波信号は前記近距離場高周波利得によって重み付けされる、ステップと;前記低周波信号および前記高周波信号の重み付けされた線形結合に基づいて前記遠距離場信号を生成するステップであって、前記低周波信号が前記遠距離場低周波利得によって重み付けされ、前記高周波信号が前記遠距離場高周波利得によって重み付けされる、ステップとを含む。
ある実施形態では、前記混合モードは、少なくとも部分的には、前記オーディオ再生環境における前記遠距離場スピーカーのレイアウトと、前記遠距離場スピーカーまたは前記近距離場再生装置に結合された前記近距離場スピーカーの一つまたは複数の特性とに基づく。
ある実施形態では、前記混合モードは、サラウンドサウンド・レンダリングであり、本方法はさらに:前記一つまたは複数の近距離場利得および前記一つまたは複数の遠距離場利得を、すべてのサラウンド・チャネル・ベースのオーディオまたはサラウンド・オーディオ・オブジェクトを前記近距離場信号に含め、すべての前方のチャネル・ベースのオーディオまたは前方のオーディオ・オブジェクトを前記遠距離場信号に含めるように設定するステップを含む。
ある実施形態では、本方法はさらに:前記近距離場および遠距離場スピーカー特性に基づいて、前記遠距離場スピーカーが前記近距離場スピーカーよりも低周波数を再生する能力が高いことを判別するステップと:前記一つまたは複数の近距離場利得および前記一つまたは複数の遠距離場利得を、低周波のチャネル・ベースのオーディオまたは低周波のオーディオ・オブジェクトのすべてを前記遠距離場信号に含めるように設定するステップとを含む。
ある実施形態では、本方法は、前記ソース信号が距離効果を含むことを判別するステップと;前記一つまたは複数の近距離場利得および前記一つまたは複数の遠距離場利得を、前記遠距離場スピーカーと前記オーディオ再生環境における指定された位置との間の正規化された距離の関数であるように設定するステップとをさらに含む。
ある実施形態では、本方法はさらに:前記ソース信号が、前記ソース信号における特定のタイプのオーディオ・コンテンツを向上させるためのチャネル・ベースのオーディオまたはオーディオ・オブジェクトを含むことを判別するステップと;前記特定のタイプのオーディオ・コンテンツを向上させるための前記チャネル・ベースのオーディオまたはオーディオ・オブジェクトを前記近距離場信号に含めるように、前記一つまたは複数の近距離場利得および前記一つまたは複数の遠隔場利得を設定するステップとを含む。
ある実施形態では、前記特定のタイプのオーディオ・コンテンツは、ダイアログ・コンテンツである。
ある実施形態では、前記ソース信号は、前記一つまたは複数の近距離場利得および前記一つまたは複数の遠距離場利得を含むメタデータとともに受領される。
ある実施形態では、前記メタデータは、前記ソース信号が、前記遠距離場スピーカーおよび前記近距離場スピーカーを使用するハイブリッド・スピーカー仮想化のために使用できることを示すデータを含む。
ある実施形態では、前記近距離場信号、またはレンダリングされた近距離場信号、およびレンダリングされた遠距離場信号は、前記近距離場音響オーディオの、前記遠距離場音響オーディオとの同期オーバーレイを支援するための不可聴マーカー信号を含む。
ある実施形態では、本方法は、さらに:前記オーディオ再生環境においてユーザーの頭部姿勢情報を取得するステップと;前記頭部姿勢情報を使用して前記近距離場信号をレンダリングするステップとを含む。
ある実施形態では、前記近距離場スピーカーの周波数応答を補償するために、レンダリングされた近距離場信号に対して等化が適用される。
ある実施形態では、前記近距離場信号またはレンダリングされた近距離場信号は、無線チャネルを通じて前記近距離場再生装置に提供される。
ある実施形態では、前記近距離場信号またはレンダリングされた近距離場信号を前記近距離場再生装置に提供するステップは、さらに:前記メディア・ソース装置を使用して、前記近距離場信号またはレンダリングされた近距離場信号を、前記近距離場再生装置に結合された中間装置に送信するステップを含む。
ある実施形態では、前記近距離場スピーカーの周波数応答を補償するために、レンダリングされた遠距離場信号に対して等化が適用される。
ある実施形態では、前記近距離場音響オーディオの、前記遠距離場音響オーディオとの同期オーバーレイを支援するために、前記近距離場信号またはレンダリングされた近距離場信号に関連するタイムスタンプが、前記メディア・ソース装置によって、前記近距離場再生装置または中間装置に、提供される。
ある実施形態では、前記遠距離場信号および前記近距離場信号を、少なくとも部分的には、前記ソース信号および前記一つまたは複数の遠距離場利得に基づいて生成するステップは:前記ソース信号を前記メディア・ソース装置のバッファに格納するステップと;前記バッファにおける第1の位置に格納された前記ソース信号の第1の組のフレームを取り出すステップであって、前記第1の位置が第1の時間に対応する、ステップと;前記メディア・ソース装置を使用して、少なくとも部分的には、前記第1の組のフレームおよび前記一つまたは複数の遠距離場利得に基づいて前記遠距離場信号を生成するステップと;前記バッファにおける第2の位置に格納された前記ソース信号の第2の組のフレームを取り出すステップであって、前記第2の位置は前記第1の位置よりも前の第2の時間に対応する、ステップと;前記メディア・ソース装置を使用して、少なくとも部分的には、前記第2の組のフレームおよび前記一つまたは複数の近距離場利得に基づいて前記近距離場信号を生成するステップとをさらに含む。
ある実施形態では、方法は:オーディオ再生環境において、メディア・ソース装置によって送信された近距離場信号を受領するステップであって、前記近距離場信号は、前記オーディオ再生環境に位置するユーザーの耳に近接する、またはユーザーの耳に挿入された近距離場スピーカーを通じた投射のための、低周波および高周波のチャネル・ベースのオーディオまたはオーディオ・オブジェクトの重み付けされた線形結合を含む、ステップと;一つまたは複数のプロセッサを使用して、前記近距離場信号をデジタル近距離場データに変換するステップと;前記一つまたは複数のプロセッサを使用して、前記デジタル近距離場データをバッファリングするステップと;一つまたは複数のマイクロフォンを使用して、遠距離場スピーカーによって投射された遠距離場音響オーディオを捕捉するステップと;前記一つまたは複数のプロセッサを使用して、前記遠距離場オーディオをデジタル遠距離場データに変換するステップと;前記一つまたは複数のプロセッサを使用して、前記デジタル遠距離場データをバッファリングするステップと;前記一つまたは複数のプロセッサおよびバッファ内容を使用して、時間オフセットを決定するステップと;前記一つまたは複数のプロセッサを使用して、ローカル時間オフセット集合を前記時間オフセットに加えて、全時間オフセットを生成するステップと;前記一つまたは複数のプロセッサを使用して、前記全時間オフセットを使用して、前記近距離場スピーカーを通じた前記近距離場データの再生を開始するステップであって、それにより、前記近距離場スピーカーによって投射された近距離場音響データが前記遠距離場音響オーディオと同期的にオーバーレイされるようにする、ステップとを含む。
ある実施形態では、方法は:メディア・ソース装置を使用して、チャネル・ベースのオーディオまたはオーディオ・オブジェクトのうちの少なくとも1つを含むソース信号を受領するステップと;前記メディア・ソース装置を使用して、少なくとも部分的には、前記ソース信号に基づく遠距離場信号を生成するステップと;前記メディア・ソース装置を使用して、遠距離場スピーカーを通じた再生のための前記遠距離場信号をオーディオ再生環境にレンダリングするステップと;前記メディア・ソース装置を使用して、少なくとも部分的には、前記ソース信号に基づいて一つまたは複数の近距離場信号を生成するステップと;前記遠距離場信号を前記遠距離場のスピーカーに提供する前に、前記近距離場信号を、近距離場再生装置または前記近距離場スピーカーに結合された中間装置に送信するステップと;前記レンダリングされた遠距離場信号を、前記オーディオ再生環境への投射のために、前記遠距離場スピーカーに提供するステップとを含む。
ある実施形態では、前記近距離場信号は、向上されたダイアログを含む。
ある実施形態では、前記近距離場再生装置または前記中間装置に送られる少なくとも2つの近距離場信号があり、第1の近距離場信号は、前記近距離場装置の近距離場スピーカーを通じた再生のために近距離場音響オーディオにレンダリングされ、第2の近距離場信号は、前記遠距離場音響オーディオを前記第1の近距離場信号と同期させるのを支援するために使用される。
ある実施形態では、前記近距離場再生装置に送られる少なくとも2つの近距離場信号があり、第1の近距離場信号は、第1の言語でのダイアログ内容を含み、前記第2の近距離場信号は、前記第1の言語とは異なる第2の言語でのダイアログ内容を含む。
ある実施形態では、前記近距離場信号および前記レンダリングされた遠距離場信号は、前記近距離場音響オーディオの前記遠距離場音響オーディオとの同期的なオーバーレイを支援するために、可聴でないマーカー信号を含む。
ある実施形態では、本方法はさらに:オーディオ再生環境においてメディア・ソース装置によって送信された近距離場信号を無線受信機を使用して受信するステップと;一つまたは複数のプロセッサを使用して、前記近距離場信号をデジタル近距離場データに変換するステップと;前記一つまたは複数のプロセッサを使用して、前記デジタル近距離場データにバッファリングするステップと;一つまたは複数のマイクロフォンを使用して、遠距離場スピーカーによって投射された遠距離場音響オーディオを捕捉するステップと;前記一つまたは複数のプロセッサを使用して、前記遠距離場音響オーディオをデジタル遠距離場データに変換するステップと;前記一つまたは複数のプロセッサを使用して、前記デジタル遠距離場データをバッファリングするステップと;前記一つまたは複数のプロセッサおよびバッファ内容を使用して、時間オフセットを決定するステップと;前記一つまたは複数のプロセッサを使用して、ローカル時間オフセット集合を前記時間オフセットに加えて全時間オフセットを生成するステップと;前記一つまたは複数のプロセッサを使用して、前記全時間オフセットを使用して、前記近距離場スピーカーを通じた前記近距離場データの再生を開始するステップであって、それにより前記近距離場スピーカーによって投射された近距離場音響データが、前記遠距離場音響オーディオと同期してオーバーレイされるようにするステップとをさらに含む。
ある実施形態では、本方法は:前記近距離場再生装置の一つまたは複数のマイクロフォンを使用して、前記オーディオ再生環境から目標音声を捕捉するステップと;前記一つまたは複数のプロセッサを使用して、捕捉された目標音声をデジタルデータに変換するステップと;前記一つまたは複数のプロセッサを使用して、電気音響伝達関数を近似するフィルタを使用して、前記デジタルデータを反転することによって、アンチ音声を生成するステップと;前記一つまたは複数のプロセッサを使用して、前記アンチ音声を使用して、前記目標音声をキャンセルするステップとをさらに含む。
ある実施形態では、前記遠距離場音響オーディオは、目標音声である第1の言語での第1のダイアログを含み、キャンセルされる第1のダイアログは、第1の言語とは異なる第2の言語での第2のダイアログで置き換えられ、第2の言語のダイアログは、二次近距離場信号に含まれる。
ある実施形態では、前記遠距離場音響オーディオは、目標音声である第1のコメンタリーを含み、キャンセルされた第1のコメンタリーは、第1のコメンタリーとは異なる第2のコメンタリーで置き換えられ、第2のコメンタリーは、二次近距離場信号に含まれる。
ある実施形態では、前記遠距離場音響オーディオは、前記遠距離場音響オーディオをミュートするよう前記アンチ音声によってキャンセルされた前記目標音声である。
ある実施形態では、一つまたは複数のオーディオ・オブジェクトの映画館レンダリングと近距離場再生装置レンダリングとの間の差が、前記近距離場信号に含まれ、前記近距離場音響オーディオをレンダリングするために使用され、それにより、前記映画館レンダリングには含まれるが、前記近距離場再生装置レンダリングには含まれない前記一つまたは複数のオーディオ・オブジェクトが、前記近距離場音響オーディオのレンダリングから除外される。
ある実施形態では、前記オーディオ再生環境におけるオブジェクト対聴取者距離の関数として重み付けが適用され、それにより、聴取者に近接して聞こえることが意図された一つまたは複数の特定の音が、前記近距離場信号においてのみ伝達され、前記近距離場信号は、前記遠距離場音響オーディオにおける同じ特定の一つまたは複数の音をキャンセルするために使用される。
ある実施形態では、前記近距離場信号は、向上された空間性を提供するために、聴取者の頭部伝達関数(HRTF)によって修正される。
ある実施形態では、装置は:一つまたは複数のプロセッサと;前記一つまたは複数のプロセッサによって実行されると、前記一つまたは複数のプロセッサに前述の方法のいずれかを実行させる命令を記憶するメモリとを備える。
ある実施形態では、命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令は、一つまたは複数のプロセッサによって実行されると、該一つまたは複数のプロセッサに前述の方法のいずれかを実行させる、記憶媒体。
本明細書に開示される特定の実施形態は、以下の利点の一つまたは複数を提供する。近距離場および遠距離場スピーカー仮想化を含むオーディオ再生システムは、オーディオが遠距離場スピーカーのみを使用して再生のためにレンダリングされるときに、欠落している、不完全である、または認識できない高さ、奥行き、または他の空間的な情報を追加することによって、ユーザーの聴取体験を向上させる。
以下に参照される添付の図面において、さまざまな実施形態がブロック図、フローチャート、および他の図で示されている。フローチャートまたはブロック内の各ブロックは、指定された論理機能を実行するための一つまたは複数の実行可能な命令を含むモジュール、プログラム、またはコードの一部を表すことができる。これらのブロックは、方法のステップを実施するための特定のシーケンスで示されているが、必ずしも厳密に例示されたシーケンスに従って実行されなくてもよい。たとえば、それらは、それぞれの動作の性質に応じて、逆のシーケンスで、または同時に実行されてもよい。また、ブロック図および/またはフローチャートおよびその組み合わせにおける各ブロックは、指定された機能/動作を実行するための専用のソフトウェアベースまたはハードウェアベースのシステムによって、または専用のハードウェアおよびコンピュータ命令の組み合わせによって実施あれうることに留意されたい。
ある実施形態による、オーディオを向上させるためのハイブリッド近距離/遠距離場スピーカー仮想化を含むオーディオ再生環境を示す。
ある実施形態による、オーディオを向上させるためのハイブリッド近距離/遠距離場スピーカー仮想化のための処理パイプラインのフロー図である。
ある実施形態による、近距離場信号の早期送信を含む、近距離場信号の無線送信のためのタイムラインを示す。
ある実施形態による、近距離場音響オーディオの再生を遠距離場音響オーディオと同期させるための全時間オフセットを決定するための処理パイプラインのブロック図である。
ある実施形態による、近距離場音響オーディオの再生を遠距離場音響オーディオと同期させるための処理パイプラインのブロック図である。
ある実施形態による、オーディオを向上させるためのハイブリッド近距離/遠距離場スピーカー仮想化のプロセスのフロー図である。
ある実施形態による、近距離場音響オーディオの再生を遠距離場音響オーディオと同期させるプロセスのフロー図である。
ある実施形態による、近距離場音響オーディオの再生を遠距離場音響オーディオと同期させる代替プロセスのフロー図である。
ある実施形態による、近距離場音響オーディオの再生を遠距離場音響オーディオと同期させる別の代替プロセスのフロー図である。
ある実施形態による、図1~図6を参照して説明した特徴およびプロセスを実装するための、メディア・ソース装置アーキテクチャーのブロック図である。
ある実施形態による、図1~図6を参照して説明した特徴およびプロセスを実装するための近距離場再生装置アーキテクチャーのブロック図である。
さまざまな図面で使用される同一の参照記号は、同様の要素を示す。
命名法と定義
下記の記述は、本開示のいくつかの革新的な側面およびこれらの革新的な側面が実装されうるコンテキストの例を記述する目的のためのある種の実装に向けられる。しかしながら、本稿の教示は、さまざまな異なる仕方で適用できる。さらに、記載される実施形態は、多様なハードウェア、ソフトウェア、ファームウェアなどで実装されうる。たとえば、本願の諸側面は、少なくとも部分的には、装置、二つ以上のデバイスを含むシステム、方法、コンピュータ・プログラム・プロダクトなどで具現されうる。
よって、本願の諸側面は、ハードウェア、ソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)および/またはソフトウェアおよびハードウェアの組み合わせの形を取りうる。開示される実施形態は、本稿において「回路」、「モジュール」または「エンジン」と称されうる。本願のいくつかの側面は、コンピュータ可読プログラムコードが具現されている一つまたは複数の非一時的媒体において具現されるコンピュータ・プログラム・プロダクトの形を取りうる。そのような非一時的媒体は、たとえば、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラム可能な読み出し専用メモリ(EPROMまたはフラッシュメモリ)、ポータブルなコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイスまたは上記の任意の好適な組み合わせを含みうる。よって、本開示の教示は、図面に示されるおよび/または本稿に記載される実装に限定されることは意図されておらず、広い適用可能性をもつ。
本明細書中で使用される場合、以下の用語は、以下の関連する意味を有する:
「チャネル」という用語は、オーディオ信号に、位置がチャネル識別子(たとえば、左前方または右上サラウンド)としてコード化されるメタデータを加えたものを意味する。
「チャネル・ベースのオーディオ」という用語は、関連する公称位置を有するスピーカー・ゾーンのあらかじめ定義されたセット(たとえば、5.1、7.1、9.1など)を通じた再生のためにフォーマットされたオーディオである。
用語「オーディオ・オブジェクト」または「オブジェクト・ベースのオーディオ」は、みかけのソース位置(たとえば、3D座標)、みかけのソース幅などのような、パラメトリックなソース記述を有する一つまたは複数のオーディオ信号を意味する。
「オーディオ再生環境」という用語は、オーディオ・コンテンツの単独での、またはビデオもしくは他のコンテンツと一緒の再生のために使用することができ、家庭、映画館、劇場、講堂、スタジオ、ゲーム・コンソール等において具現できる、部屋のような、任意の開放された、部分的に囲まれた、または完全に囲まれた領域を意味する。
「レンダリング」という用語は、オーディオ・オブジェクト位置データを特定のチャネルにマッピングすることを意味する。
「バイノーラル」レンダリングという用語は、左右(L/R)のバイノーラル信号がL/Rの耳に送られることを意味する。バイノーラル・レンダリングは、空間化の感覚を向上させるために、一般的なまたはパーソナル化された頭部伝達関数(HRTF)、HRTFの諸側面、たとえば両耳間レベル差および時間差などを使用することができる。
用語「メディア・ソース装置」は、ビットストリームに含まれる、または媒体(たとえば、Ultra-HDまたはBlu-ray(登録商標)、DVD)に格納されるメディア・コンテンツ(たとえば、オーディオ、ビデオ)を再生する任意の装置であり、テレビシステム、セットトップボックス、デジタル・メディア受信機、サラウンド・サウンド・システム、ポータブルコンピュータ、タブレットコンピュータなどを含むが、これらに限定されない。
「遠距離場スピーカー(far-field speaker)」という用語は、メディア・ソース装置に有線接続されているか、または無線接続されている任意のラウドスピーカーであって、オーディオ再生環境において固定した物理的位置に位置しており、かつ、聴取者の耳の近くに位置したり、または耳に挿入されたりしていないものである。ステレオ・スピーカー、サラウンドスピーカー、低周波向上(LFE)装置、サウンドバー等を含むが、これらに限定されない。
「近距離場スピーカー(near-field speaker)」という用語は、近距離場再生装置内に埋め込まれているか、またはそれに結合されており、聴取者の耳の近くに位置する、または耳に挿入されている任意のラウドスピーカーである。
用語「近距離場再生装置」は、近距離場スピーカーを含むか、または近距離場スピーカーに結合される任意の装置であり、ヘッドフォン、イヤーバッド、ヘッドセット、イヤホン、スマート眼鏡、ゲーム用コントローラ/装置、拡張現実(AR)、仮想現実(VR)ヘッドセット、補聴器、骨伝導装置、またはユーザーの耳に近接して音を提供する任意の他の手段を含むが、これらに限定されない。近距離場再生装置は、2つの装置、たとえば、真にワイヤレスなイヤーバッドのペアであってもよい。代替的に、近距離場再生装置は、2つのイヤーカップを備えた1対のヘッドフォンのような、2つの耳で使用するための単一の装置であってもよい。近距離場再生装置は、片耳のみで使用するように設計されてもよい。
ある実施形態では、近距離場再生装置は、遠距離場音響オーディオを含みうるユーザーの近くの音を捕捉するための少なくとも1つのマイクロフォンを含む。各耳に1つのマイクロフォンがあってもよい。マイクロフォンは、頭の上のヘッドフォン・バンド上などの中心点、または各耳からのワイヤが集束する中心点にある1つであってもよい。複数のマイクロフォン、たとえば、各耳の内側または近傍に1つがあってもよい。
ある実施形態では、近距離場再生装置は、アナログ‐デジタル変換器(ADC)、中央処理装置(CPU)、デジタル信号プロセッサ(DSP)、およびメモリを含む、マイクロフォンおよび他のオーディオ・データに対して信号処理を実行するための通常の要素を含んでいてもよい。近距離場再生装置は、デジタル‐アナログ変換器(DAC)および増幅器のような、オーディオの再生のための通常の要素を含んでいてもよい。
ある実施形態では、近距離場再生装置は、少なくとも1つの近距離場スピーカーを、理想的には、各耳に近接した1つの近距離場スピーカーを含む。近距離場スピーカーは、平衡電機子(balanced armature)、伝統的なダイナミックドライバ、または骨伝導トランスデューサを含むことができる。
ある実施形態では、近距離場再生装置は、近距離場信号の受領のために、メディア・ソース・システム装置または中間装置(たとえば、パーソナルモバイル装置)へのリンクを含む。リンクは、Wi-Fi、Bluetooth、またはBluetooth低エネルギー(BLE)のような無線周波数(RF)リンクであってもよく、またはリンクはワイヤであってもよい。
ある実施形態では、近距離場信号は、アナログ信号またはデジタル的にエンコードされた信号のような、多くがよく知られているフォーマットで該リンクを通じて送信される。デジタル的にエンコードされた信号は、必要なデータ帯域幅を減らすために、Opus、AAC、またはG.772のようなコーデックを用いてエンコードされてもよい。
ある実施形態では、近距離場再生装置は、リンクを介して近距離場信号をも受領しながら、遠距離場音響オーディオ(以下に定義される)を含む周囲オーディオのマイクロフォン測定を行ってもよい。信号処理(以下に説明する)を使用して、近距離場再生装置は、遠距離場音響オーディオと近距離場音響オーディオ(以下に定義する)との間の時間オフセットを決定することができる。次いで、時間オフセットを用いて、近距離場音響オーディオを、近距離場スピーカーから、遠距離場スピーカーによってオーディオ再生環境中に投射される遠距離場音響オーディオと同期的に重ね合わせて再生する。
用語「中間装置」は、メディア・ソース装置と近距離場再生装置との間に結合され、メディア・ソース装置から受領されるオーディオ信号を処理および/またはレンダリングし、処理/レンダリングされたオーディオ信号を有線または無線接続を通じて近距離場再生装置に送信するように構成された装置である。
ある実施形態では、中間装置はスマートフォンのようなパーソナル・モバイル装置であり、典型的には、近距離場再生装置の中に収まるよりも大きなバッテリーと高い計算能力を含む。よって、パーソナル装置は、近距離場再生装置と連携して使用し、近距離場再生装置によって必要とされる電力を低減し、それにより、そのバッテリー寿命を延ばすのに便利である。この目的のために、近距離場再生装置内のコンポーネントのいくつかは、パーソナル・モバイル装置内に優先的に配置されうる。
たとえば、近距離場再生装置とパーソナル・モバイル装置との間のリンクがワイヤである場合、マイクロフォン信号およびスピーカー信号は、完全にパーソナル・モバイル装置内で測定、処理、または生成され、ワイヤに沿って送信されるため、耳の装置は、ADC、CPUもしくはDSP、DAC、または増幅器を必要としなくてもよい。この場合、近距離場再生装置は、マイクロフォン付きヘッドフォンと同様であってもよい。単純なヘッドフォンがマイクロフォンをもたない場合、パーソナル・モバイル装置上のマイクロフォンを用いて遠距離音響オーディオを測定することが可能でありうる。しかしながら、これは理想的ではない。なぜなら、ユーザーはしばしば、ポケットやバッグ内にモバイルデバイスを入れ、遠距離場音響オーディオがこもってしまうからである。
近距離場再生装置とパーソナル・モバイル装置との間の通信リンクが無線である場合、近距離場再生装置は、信号測定、処理、および生成のための構成要素を含むことができる。リンクを介した通信に対する計算の相対的な電力効率に依存して、すべての信号処理を耳装置内に保持すること、または処理のために測定値をパーソナル・モバイル装置に絶えずオフロードすることが、より電力効率がよい場合がある。全体的なシステムは、信号処理を実行するための計算能力を有するが、この能力は、コンポーネント間で分散されてもよい。
ある実施形態では、パーソナル・モバイル装置は、比較的エネルギー消費量の多いRFプロトコルを介して娯楽機器からの近距離場信号を受領し、比較的低エネルギーのプロトコルを介してそれを近距離場再生デバイスに再送することができる。高エネルギープロトコルのいくつかの例は、セルラー無線およびWiFiを含む。比較的低エネルギーのプロトコルのいくつかの例は、BluetoothおよびBluetooth Low Energy(BLE)を含む。近距離場再生装置が有線ヘッドフォンである場合、パーソナル・モバイル装置は、RFプロトコルを介して娯楽装置から二次ストリームを受領し、それを近距離場再生装置に有線で送信することができる。
ある実施形態では、パーソナル・モバイル装置は、グラフィカル・ユーザー・インターフェース(GUI)のためのスクリーンまたはコントロールを提供することができる。
ある実施形態では、パーソナル・モバイル装置は、近距離場再生デバイスのためのチャージング・キャリー・ケースであってもよい。
「ソース信号」という用語は、オーディオ・コンテンツまたはオーディオおよびその他のコンテンツ(たとえば、オーディオとビデオ)のビットストリームを含み、ここで、オーディオ・コンテンツは、オーディオ・サンプルおよび関連するメタデータのフレームを含んでいてもよく、各オーディオ・サンプルは、チャネル(たとえば、左、右、中央、サラウンド)またはオーディオ・オブジェクトに関連付けられる。オーディオ・コンテンツは、たとえば、音楽、ダイアログおよびサウンドエフェクトを含むことができる。
「遠距離音響オーディオ」とは、遠距離ラウドスピーカーからオーディオ再生環境に投射されるオーディオを意味する。
用語「近距離場音響オーディオ」は、近距離場スピーカーからユーザーの耳(たとえば、イヤーバッド)またはユーザーの耳の近位に投射されるオーディオを意味する(たとえば、ヘッドフォン)。
概観
以下の詳細な説明は、オーディオを向上させるためのハイブリッド近距離/遠距離場スピーカー仮想化に向けられている。ある実施形態では、オーディオ再生環境に位置するメディア・ソース装置は、チャネル・ベースのオーディオ、オブジェクト・ベースのオーディオ、またはチャネル・ベースのオーディオとオブジェクト・ベースのオーディオの組み合わせを含む時間領域ソース信号を受領する。メディア・ソース装置内のクロスオーバー・フィルタは、ソース信号を低周波時間領域信号と高周波時間領域信号にフィルタリングする。低周波時間領域信号と高周波時間領域信号の重み付けされた線形組合せである近距離場信号と遠距離場信号が生成され、近距離場および遠距離場信号に対する低周波および高周波時間領域信号の寄与は、それぞれ近距離場利得および遠距離場利得のセットによって決定される。ある実施形態では、利得は、遠距離場スピーカー・レイアウトと、遠距離場スピーカーおよび近距離場スピーカーの特性とを考慮に入れる混合アルゴリズムによって生成される。
近距離場および遠距離場信号は、それぞれ近距離場および遠距離場オーディオ処理パイプラインにルーティングされ、そこで信号は、任意的に等化または圧縮のような後処理処置を受ける近距離場および遠距離場信号にレンダリングされる。ある実施形態では、低周波コンテンツ(たとえば、<40Hz)が、クロス・フィルターによってフィルタリングされ、近距離場および遠距離場信号処理パイプラインをバイパスしてLFE装置に直接送られる。
任意の後処理処置が適用された後、レンダリングされた遠距離場信号は遠距離場スピーカー・フィードに供給され、その結果、遠距離場音響オーディオがオーディオ再生環境に投射される。遠距離場音響オーディオの投射の前、および任意の後処理処置が適用された後、レンダリングされた近距離場信号は、近距離場スピーカーを通じた再生のために近距離場再生装置に無線送信するために、無線送信器に供給される。近距離場スピーカーは、遠距離場音響オーディオにオーバーレイされ、それと同期している近距離場音響オーディオを投射する。
ある実施形態では、レンダリングされた近距離場信号は、第1の無線通信リンク(たとえば、WiFiまたはBluetooth通信リンク)を通じて中間装置によって受領され、第2の無線通信チャネル(たとえば、Bluetoothチャネル)を通じて、近距離場再生装置に送信される前に、さらに処理される。ある実施形態では、近距離場信号は、メディア・ソース装置ではなく、近距離場再生装置または中間装置によってレンダリングされる。
ある実施形態では、遠距離場音響オーディオと近距離場音響オーディオとの同期のために使用される全時間オフセットが、近距離場再生装置または中間装置において計算される。たとえば、遠距離場音響オーディオの複数のサンプルは、近距離場再生装置または中間装置の一つまたは複数のマイクロフォンによって捕捉され、近距離場再生装置または中間装置の第1のバッファに格納されうる。同様に、無線リンクを通じて受領されたレンダリングされた(またはレンダリングされていない)近距離場信号の複数のサンプルが、近距離場再生装置または中間装置の第2のバッファに格納されることができる。次いで、第1および第2のバッファ内容を相関させて、2つの信号間の時間オフセットを決定する。
ある実施形態では、近距離場再生装置および/または中間装置におけるローカル信号処理、および無線通信チャネルを通じて中間装置から近距離場再生装置へオーディオを送信するのに必要な時間を考慮したローカル時間オフセットが計算される。ローカル時間オフセットは、前記相関から帰結する時間オフセットに加算され、全時間オフセットを決定する。次いで、実質的にアーチファクトのない向上されたオーディオの再生のために、近距離場音響オーディオを遠距離場音響オーディオと同期させるよう、全時間オフセットを使用する。
例示的なオーディオ再生環境の例
図1は、ある実施形態による、オーディオを向上させるためのハイブリッド近距離/遠距離場スピーカー仮想化を含むオーディオ再生環境100を示す。オーディオ再生環境100は、メディア・ソース装置101、遠距離場スピーカー102、LFE装置108、中間装置110および近距離場再生装置105を含む。一つまたは複数のマイクロフォン107が近距離場再生装置105および/または中間装置110に取り付けられているか、内蔵されている。無線トランシーバ106は、近距離場再生装置105に取り付けられた、または埋め込まれた状態で示されており、無線トランシーバ103、109は、遠距離場スピーカー102(または代替的にはメディア・ソース装置101)およびLFE装置108にそれぞれ取り付けられた、または埋め込まれた状態で示されている。無線トランシーバ(図示せず)が、中間装置110内に埋め込まれている。
オーディオ再生環境100は、ハイブリッド遠近距離場スピーカー仮想化のための一例の環境に過ぎず、他のオーディオ再生環境も、開示された実施形態に適用可能であり、これは、より多いまたはより少ないスピーカー、異なるタイプのスピーカーまたはスピーカー・アレイ、より多いまたはより少ないマイクロフォンおよびより多いまたはより少ない(または異なる)近距離馬再生装置または中間装置を含むが、これらに限定されないことを理解しておくべきである。たとえば、オーディオ再生環境100は、それぞれが独自の近距離場再生装置を有する複数のプレーヤーを有するゲーム環境とすることができる。
図1において、ユーザー104は、それぞれ、メディア・ソース装置101(たとえばテレビ)および遠距離場スピーカー102(たとえばサウンドバー)を通じて再生されるメディアコンテンツ(たとえば映画)を視聴している。メディアコンテンツは、チャネルおよびオーディオ・オブジェクトの組み合わせを含むソース信号のフレームに含まれる。ある実施形態では、ソース信号は、WiFi接続を通じてデジタル・メディア受信機(図示せず)に結合された広域ネットワーク(たとえば、インターネット)を通じて提供されることができる。デジタル・メディア受信機(DMR)は、たとえば、HDMI(登録商標)ポートおよび/または光リンクを用いてメディア・ソース装置101に結合される。別の実施形態では、ソース信号は、同軸ケーブルを通じてテレビジョン・セットトップボックス内に、そしてメディア・ソース装置101内に受領されうる。さらに別の実施形態では、ソース信号は、アンテナまたは衛星ディッシュを通じて受領された放送信号から抽出される。他の実施形態では、メディアプレーヤーが、ソース信号を提供し、ソース信号は、記憶媒体(たとえば、Ultra-HD、Blu-ray(登録商標)またはDVDディスク)から取り出され、メディア・ソース装置101に提供される。
ソース信号の再生中に、遠距離場スピーカー102は遠距離場音響オーディオをオーディオ再生環境100に投射する。さらに、ソース信号中の低周波コンテンツ(たとえば、サブベース周波数コンテンツ(sub bass frequency content))は、LFE装置108に提供され、LFE装置はこの例では、たとえば、Bluetoothペアリング・プロトコルを使用して、遠距離場スピーカー102と「ペアリング」される。無線送信機103は、低周波コンテンツ(たとえば、サブベース周波数コンテンツ)を有する無線周波数(RF)信号をオーディオ再生環境100に送信し、そこで、LFE装置108に取り付けられた、またはLFE装置108に埋め込まれた無線受信機109によって受領され、LFE装置108によってオーディオ再生環境100中に投射される。
ある種のメディアコンテンツについては、記載される例示的なオーディオ再生環境100は、ある種のタイプのオーディオ・コンテンツを扱うのがうまくないことがある。たとえば、ある種のサウンドエフェクトは、ユーザー104の上方に位置する天井オブジェクトとして、他者中心または自己中心性の基準系でエンコードされてもよい。図1に示されるサウンドバーのような遠距離場スピーカー102は、コンテンツ作成者の意図するようにこれらの天井オブジェクトをレンダリングできないことがある。そのようなコンテンツについては、近距離場再生装置105を使用して、コンテンツ作成者の意図に従って、バイノーラル・レンダリングされた近距離場信号を再生することができる。たとえば、より良好な結果を得るために、頭上を飛んでいるヘリコプタのサウンドエフェクトは、遠距離場スピーカー102ではなく、近距離場再生装置105のステレオ近距離場スピーカー上での再生のためにレンダリングされてもよい。
オーディオ再生環境100には、いくつかの問題がある。以下の図3を参照して説明するように、音響伝搬時間、無線伝送時間、および信号処理時間の総合の結果として、遠距離場音響オーディオおよび近距離場音響オーディオが同期しないことになりうる。この問題への解決策は、図4のAおよびBを参照して説明される。
オーディオ再生環境100に関連する別の問題は、近距離場スピーカーの構造(たとえばクローズドバック・ヘッドフォン(closed-back headphones))または周波数応答(たとえば貧弱な低周波数応答)に起因する、近距離場スピーカーによる耳の閉塞である。閉塞は、低閉塞イヤーバッドまたは他のオープンバック・ヘッドフォン(open-back headphones)を使用することにより軽減できる。近距離場スピーカーの周波数応答は等化(EQ)を用いて補償できる。たとえば、近距離場スピーカー・フィードに信号を送る前に、レンダリングされた近距離場スピーカー入力信号に、平均または較正されたEQプロファイル(たとえば、近距離場スピーカーの固有周波数応答プロファイルの逆または鏡像であるEQプロファイル)を適用することができる。
単一のユーザーが存在する実施形態では、近距離場再生装置105は、無線トランシーバ103、106を通じてメディア・ソース装置101と通信し、近距離場スピーカーの周波数応答のような近距離場スピーカー特性を示すデータ、および/またはオーディオ閉塞データを提供し、これらデータは、レンダリングされた遠距離場信号のEQを調整するために、メディア・ソース装置101内の等化器によって使用される。たとえば、近距離場スピーカーが特定の周波数帯域(たとえば、高周波帯域)におけるオーディオ・データを3dBだけ減衰させることをオーディオ閉塞データが示している場合、これらの周波数帯域はレンダリングされた遠距離場信号において約3dBだけブーストされることができる。
ある実施形態では、レンダリングされた近距離場スピーカー入力信号の少なくとも一部は、近距離場スピーカーの非平坦性を補償するために、同じ近距離場スピーカー・タイプの多くのインスタンスに基づく平均目標等化に少なくとも部分的に基づいて、等化される。たとえば、一組のヘッドフォンのためのレンダリングされた近距離場信号は、平均目標等化に鑑みて、周波数帯域について3dBだけ減衰されてもよい。なぜなら、平均目標等化は、ヘッドフォンの一組によって引き起こされるオーディオ閉塞について必要であるよりも3dB多く、その周波数帯域について、レンダリングされた遠距離場信号をブーストさせる結果となるからである。
レイテンシーが要因となる実施形態では、聴取環境の周囲音が、中間装置またはヘッドフォンの一つまたは複数のマイクロフォンを使用して捕捉され、該閉塞の逆を用いてヘッドフォン内で補償される。上述の処理の最終結果は、近距離場スピーカーが、遠距離場スピーカー102によって投射される遠距離場音響オーディオと同期的に重ねられる近距離場音響オーディオを投射することである。よって、ある種のオーディオ・コンテンツについては、遠距離場スピーカー102のみを使用した再生のためにそのようなオーディオ・コンテンツがレンダリングされるときには欠落している、不完全である、または認識できない高さ、奥行き、または他の空間的な情報を加えることによって、ユーザー104の聴取体験を高めるために、近距離場スピーカーを使用することができる。
例示的な信号処理パイプライン
図2は、ある実施形態による、オーディオを向上させるためのハイブリッド近距離/遠距離場仮想化のための処理パイプライン200のフロー図である。ソース信号s(t)は、クロスオーバー・フィルタ201および利得生成器210に入力される。ソース信号は、チャネル・ベースのオーディオ、オブジェクト・ベースのオーディオ、またはチャネル・ベースのオーディオとオブジェクト・ベースのオーディオの両方を含むことができる。クロスオーバー・フィルタ201(たとえば、ハイパス・フィルタ)の出力は、低周波信号lf(t)および高周波信号hf(t)である。クロスオーバー・フィルタ201は、任意の所望のクロスオーバー周波数fcを実装することができる。たとえば、fcは100Hzであってもよく、100Hz未満の周波数を含む低周波数信号lf(t)と、100Hzを超える周波数を含む高周波数信号hf(t)を与える。
ある実施形態では、利得生成器210は、2つの遠距離場利得Gf(t)、Gf'(t)、および2つの近距離場利得Gn(t)、Gn'(t)を生成する。利得Gf(t)およびGn(t)は高周波信号hf(t)に適用され、利得Gf(t)およびGn'(t)はそれぞれ遠距離場混合モジュール202および近距離場混合モジュール207において、低周波信号lf(t)に適用される。上付きの「'」は低周波を示すことに注意されたい。
ある実施形態では、利得は、たとえば、非特許文献1のセクション2、3~4ページに記載されている振幅パンニング方法に従って決定されてもよい。いくつかの実施形態では、たとえば、非特許文献2に記載されているように、対応する音響平面波または球面波の合成を含む方法のような、他の方法が、遠距離場のオーディオ・オブジェクトをパンするために使用されてもよい。いくつかの実装形態では、利得のうちの少なくともいくつかの利得は周波数依存性であってもよい。近距離場利得および遠距離場利得はいずれも、オーディオ再生環境100におけるオブジェクトまたはチャネル位置および遠距離場スピーカー・レイアウトに関係してもよい。
V. Pulkki、Compensating Displacement of Amplitude-Panned Virtual Sources、Audio Engineering Society (AES) International Conference on Virtual, Synthetic and Entertainment Audio D. de Vries、Wave Field Synthesis、AES Monograph 1999
ある実施形態では、ソース信号s(t)を近距離場信号と遠距離場信号に分割するのではなく、ソース信号s(t)は、上述の諸方法を使用した近距離場再生装置上での再生のためにあらかじめレンダリングされている2つのチャネル(L/Rステレオチャネル)を含む。これらの「耳」トラックは、手動プロセスを使用して作成することもできる。たとえば、映画館の実施形態では、コンテンツ著作プロセスの間に、オブジェクトを「耳」または「近距離」としてマーク付けすることができる。映画館オーディオがパッケージされる仕方のため、これらのトラックは事前にレンダリングされ、デジタルシネマパッケージ(digital cinema package、DCP)の一部として提供される。DCPの他の部分は、チャネル・ベースのオーディオおよび完全なドルビー・アトモス(登録商標)チャネルを含めることができる。ホームエンターテイメントの実施形態では、2つの別々のあらかじめレンダリングされた「耳」トラックにコンテンツを提供することができる。「耳」トラックは、格納されるときに、他のオーディオトラックおよびビデオトラックに対して、時間的にオフセットされることができる。このように、記憶装置からのメディアデータの2つの読み込みは、オーディオを早期に近距離場再生装置に送信するためには、要求されない。
例示的な混合モード
一般に、Gf(t)=Gf'(t)およびGn(t)=Gn'(t)である。しかしながら、遠距離場スピーカー206-1~206-nが低周波を再生する能力がより高い場合には、Gn'(t)=0およびGf'(t)=1と設定することによって、すべてのオーディオ・コンテンツを遠距離場スピーカー仮想化器203にルーティングすることができる。
チャネル・ベースのオーディオを使用する伝統的なサラウンド・レンダリングについては、前方スピーカー(たとえばL/Rステレオ・スピーカーおよびLFE装置)のみが存在する場合、混合機能は、Gn(t)=1.0およびGf(t)=0.0を適用することによって、すべてのサラウンドチャネルを近距離場スピーカー仮想化器208にルーティングし、Gn(t)=0.0およびGf(t)=1.0を適用することによってすべての前方スピーカー・チャネル(たとえばL/Rスピーカー・チャネル)を遠距離場スピーカー仮想化器203にルーティングすることができる。
距離効果をレンダリングするために、遠距離場スピーカー仮想化器203と近距離場スピーカー仮想化器208の両方が、オーディオ再生環境100の中心(たとえば、部屋の中心またはユーザー104の選好される聴取位置)までの(正規化された)距離rの関数として、Gn(t)=1.0-rおよびGf(t)=sqrt(1.0-Gn(t)*Gn(t))のように混合される。これは、0.0(100%近距離場)と1.0(100%遠距離場)の間のrについてである。
ある実施形態では、オーディオ・コンテンツのある割合は、遠距離場スピーカーおよび近距離場スピーカーを通じて再生されて、向上層(たとえば、ダイアログ向上層)を提供することができ、ここで、オーディオ・オブジェクトまたは中心チャネルは、Gf(t)=1.0およびGn(t)>0.0でレンダリングされる。
ある実施形態では、遠距離場混合モジュール202の出力は、遠距離場信号f(t)であり、これは、高周波および低周波信号hf(t)、lft(t)の重み付けされた線形結合であり、ここで、重みは、遠距離場利得Gf(t)、Gf'(t)である:
f(t)=Gf'(t)*lf(t)+Gf(t)*hf(t) [1]
遠距離場信号f(t)は、遠距離場スピーカー仮想化器203に入力され、それがレンダリングされた遠距離場信号F(t)を生成する。レンダリングされた遠距離場信号F(t)は、ベクトルベース振幅パン(vector-based amplitude panning、VBAP)および複数方向振幅パン(multiple-direction amplitude panning、MDAP)を含むがこれらに限定されない、任意の数の物理スピーカーを利用する任意の所望されるスピーカー仮想化アルゴリズムを使用して生成することができる。
レンダリングされた遠距離場信号F(t)は、レンダリングされた遠距離場信号F(t)に任意の所望の後処理(たとえば、等化、圧縮)を適用するために、任意的な遠距離場後処理器204に入力される。次いで、レンダリングされ、任意的に後処理された遠距離場信号F(t)が、遠距離場スピーカー206-1~206-nに結合されたオーディオ・サブシステム205に入力される。オーディオ・サブシステム205は、遠距離場スピーカー206-1~206-nを駆動するための電気信号を生成するためのさまざまなエレクトロニクス(たとえば、増幅器、フィルタ)を含む。該電気信号に応答して、遠距離場スピーカー206-1~206-nは、遠距離場音響オーディオをオーディオ再生環境100に投射する。ある実施形態では、上述の遠距離場処理パイプラインは、完全にまたは部分的に、中央処理装置および/またはデジタル信号プロセッサ上で実行されるソフトウェアにおいて実装される。
ここで図2の近距離場処理パイプラインを参照すると、近距離場混合モジュール207の出力は、近距離場信号n(t)であり、これは、高周波および低周波信号hf(t)、lf(t)の重み付けされた線形結合であり、ここで重みは近距離場利得Gn(t)、Gn'(t)である:
n(t)=Gn'(t)*lf(t)+Gn(t)*hf(t) [2]
ある実施形態では、近距離場信号n(t)は、無線トランシーバ103に直接入力され、該無線トランシーバ103が、近距離場信号n(t)をエンコードして無線通信チャネルを通じて近距離場再生装置105または中間装置110に送信する。近距離場信号は近距離場再生装置に送達され、ユーザーの耳の近位にある近距離場スピーカーを通じて再生される近距離場音響オーディオになる。
ある実施形態では、近距離場信号は、遠距離場音響オーディオの一部または全部の増強(augmentation)である。たとえば、近距離場信号は、ダイアログのみを含むことができ、それにより、遠距離場音響オーディオおよび近距離場音響オーディオを一緒に聴く効果は、向上され、より聞き取りやすいダイアログとなる。あるいはまた、近距離場信号は、ダイアログと背景(たとえば、音楽、エフェクトなど)の混合を提供することができ、それにより、正味の効果は、パーソナル化された、より没入的な体験となる。
ある実装では、近距離場信号は、空間的サウンド・システムにおけるユーザー近接音のように、聴取者に近接して知覚されることが意図される音を含む。そのようなシステムでは、たとえばシーンを通って頭上を飛行する飛行機の音のようなオーディオ・オブジェクトが、時間の経過とともに変化する可能性のあるオーディオ・オブジェクト座標に基づいて、オーディオ再生環境内の一組のスピーカーにレンダリングされ、よって、オーディオ・オブジェクト音源は、オーディオ再生環境内で移動するようにみえる。しかしながら、サウンド・システム・スピーカーは、典型的には、部屋または映画館の周部にあるので、聴取者からの近さまたは遠さの深淵な感覚を作り出す能力が限られている。これは、典型的には、ユーザーの耳の近くのスピーカーに、そして該スピーカーを通じてオーディオをパンすることによって解決される。
ある実施形態では、近距離場信号は、映画の特定のキャラクターの上または周囲で発生する映画の音など、芸術的な理由で聴取者の近くで知覚されることが意図される音を含むことができる。キャラクターに近いものである心拍、呼吸、衣ずれ、足音、ささやきなどが聴取者に近いところで聞こえると、そのキャラクターとの感情的なつながり、共感、または個人的な感情移入を引き起こす。
ある実施形態では、近距離場信号は、空間的オーディオ・システムを備えた部屋における最適な聴取位置のサイズを増加させるために聴取者の近くで再生されるように意図された音を含むことができる。近距離場信号は遠距離場音響オーディオと同期するので、ユーザーの位置にまたはユーザーの位置を通じてパンされるオーディオ・オブジェクトは、遠距離場スピーカーからの音響移動時間について補正される。
ある実施形態では、近距離場信号は、室内音響の欠陥を補正するために使用される音を含む。たとえば、近距離場信号は、レンダリングされた遠距離場信号の完全なコピーでありうる。遠距離場音響オーディオは近距離場再生装置のマイクロフォンでサンプリングされ、近距離場再生装置または中間装置において近距離場信号と比較される。遠距離音響オーディオが、何らかの意味で、たとえば部屋の中のユーザーの位置に起因してある種の周波数成分を欠くことによって、欠陥があると見出される場合、それらの周波数成分は、近距離スピーカーにおける再生の前に、増強されうる。
近距離場信号の諸側面は、ユーザーによって、自分の好みに合わせてカスタマイズ可能であってもよい。カスタマイズのためのいくつかのオプションは、近距離場信号のタイプの間での選択、2つ以上の周波数帯域におけるラウドネス等化の調整、または近距離場信号の空間化を含みうる。近距離場信号のタイプは、ダイアログのみ、ダイアログ、音楽、エフェクトの組み合わせ、または代替言語トラックを含むことができる。
近距離場信号は、多様な方法で生成されうる。1つの方法は意図的オーサリングであり、娯楽コンテンツの特定の部分に対する一つまたは複数の可能な近距離場信号が、メディア作成プロセスの一部としてオーサリングできる。たとえば、クリーンな(すなわち、孤立し、他のサウンドのない)ダイアログ・トラックを作成することができる。あるいは、空間オーディオ・オブジェクトが、ユーザーの近位の近距離場スピーカーにレンダリングされるようにする座標を通じて意図的にパンされることができる。あるいは、ある種の音、たとえば、感情移入できる主人公の上または周囲で発生した音などを、ユーザーの近くに配置するために、芸術的な選択を行うことができる。
近距離場信号生成のための別の方法は、メディアコンテンツ生成中に自動的にまたはアルゴリズム的にそうすることである。たとえば、5.1または類似のオーディオミックス内の中央チャネルはダイアログを含むことが多く、LチャネルおよびRチャネルは、典型的には、他のすべてのサウンドの主要部分を含むため、L+C+Rが近距離場信号として使用できる。同様に、近距離場信号の目標が向上されたダイアログを提供することである場合、深層学習または当該技術分野で公知の他の方法を用いて、クリーンなダイアログを抽出することができる。
近距離場信号はまた、メディア再生時に自動的またはアルゴリズム的に作成することもできる。前述のような娯楽装置の多くでは、中央処理装置(CUP)またはデジタル信号プロセッサ(DSP)のような内部計算資源を使用して、近距離場信号として使用するためのダイアログを抽出したり、あるいはチャネルを結合することができる。遠距離場音響オーディオ信号および近距離場信号は、時間オフセット計算を改善する目的で挿入された信号またはデータを含んでいてもよく、たとえば、マーカー信号は、単純な超音波トーンであってもよく、または、以下にさらに詳細に説明するように、情報を伝達するためまたは検出性を改善するために変調されてもよい。
代替的な実施形態では、近距離場信号n(t)が近距離場スピーカー仮想化器208に入力され、それがレンダリングされた近距離場信号N(t)を生成する。レンダリングされた近距離場信号N(t)は、たとえば、頭部伝達関数(HRTF)を使用するバイノーラル(立体音響)レンダリングアルゴリズムを使用して生成されることができる。ある実施形態では、近距離場スピーカー仮想化器208は、近距離場信号n(t)およびユーザー104の頭の姿勢を受領し、それからレンダリングされた近距離場信号N(t)を生成し、出力する。ユーザー104の頭の姿勢は、遠距離場スピーカー206-1~206-nまたはオーディオ再生環境100に対するユーザー104の配向および可能性としては頭部位置を出力する頭部追跡装置(たとえば、カメラ、Bluetoothトラッカー)のリアルタイム入力に基づいて決定されうる。
ある実施形態では、レンダリングされた近距離場信号N(t)は、レンダリングされた近距離場信号N(t)に任意の所望される後処理(たとえば等化)を適用するために、任意的な近距離場後処理器209に入力される。たとえば、等化は、近距離場スピーカーの周波数応答における欠陥を補償するために適用できる。次いで、レンダリングされたまたは任意的に後処理された近距離場信号N(t)が無線トランシーバ103に入力され、無線トランシーバ103が、レンダリングされた近距離場信号N(t)をエンコードし、無線通信チャネルを通じて近距離場再生装置105または中間装置110に送信する。
以下にさらに詳しく説明するように、近距離場信号n(t)、またはレンダリングされた近距離場信号N(t)は、遠距離場音響オーディオと近距離場音響オーディオとの同期オーバーレイを許容するために、遠距離場音響オーディオの投射よりも早く送信される。以下、近距離場信号n(t)が近距離場再生装置または中間装置110に送信される実施形態を説明する。
ある実施形態では、無線トランシーバ103は、BluetoothまたはWiFiトランシーバであるか、またはカスタム無線技術/プロトコルを使用する。ある実施形態では、図2を参照して上述した近距離場処理パイプラインは、中央処理装置および/またはデジタル信号プロセッサ上で動作するソフトウェアで完全にまたは部分的に実装できる。
ある実施形態では、近距離場再生装置105および/または中間装置110は、メディア・ソース装置101ではなく、近距離場スピーカー仮想化器208および近距離場後処理器209を含む。この実施形態では、利得Gn(t)、Gf(t)および近距離場信号n(t)は、無線トランシーバ103によって近距離場再生装置105または中間装置110に送信される。次いで、中間装置110は、近距離場信号n(t)をレンダリングされた近距離場信号N(t)にレンダリングし、レンダリングされた信号を近距離場再生装置105(たとえば、ヘッドフォン、イヤーバッド、またはヘッドセットなど)に送信する。近距離場再生装置105は、近距離場再生装置105に埋め込まれた、または結合された近距離場スピーカーを通じて、近距離場音響オーディオを、ユーザー104の耳の近くまたは中に投射する。
ある実施形態では、利得Gn(t)、Gf(t)は、ヘッドエンドまたは他のネットワークベースのコンテンツサービスプロバイダーまたは配信者においてあらかじめ計算され、ビットストリームの一つまたは複数の層(たとえば、トランスポート層)においてメタデータとしてメディア・ソース装置101に送信され、そこでソース信号および利得が多重分離され、デコードされ、利得は、ソース信号のオーディオ・コンテンツに適用される。これにより、オーディオ・コンテンツの作者は、さまざまなオーディオ再生環境におけるさまざまなスピーカー・レイアウト上で、ハイブリッド近距離/遠距離場スピーカー仮想化で使用できる、当該オーディオ・コンテンツの異なるバージョンを作成することができる。加えて、メタデータは、ビットストリームが遠距離場利得および近距離場利得を含むことをデコーダに対して示す一つまたは複数のフラグ(たとえば、一つまたは複数のビット)を含むことができ、よって、ハイブリッド近距離/遠距離場スピーカー仮想化での使用に適している。
ある実施形態では、近距離場信号および遠距離場信号の一方または両方をネットワークコンピュータ上で生成し、メディア・ソース装置に送達することができ、遠距離場信号は、任意的に、遠距離場スピーカーから投射される前にさらに処理され、近距離場信号は、任意的に、前述のように近距離場再生装置または中間装置に送信される前に、さらに処理される。
近距離場信号の早期送信
図3は、ある実施形態による、早期送信の利点を示す、近距離場信号n(t)の無線送信のための例示的なタイムラインを示す。タイムラインは、遠距離場音響オーディオの伝搬時間対近距離場無線伝送レイテンシーおよび信号処理時間を示す。遠距離場音響オーディオは、t=0で遠距離場スピーカー206-1~206-nから離れて伝搬を開始し、t=10msにおいてユーザー104の位置に到達する(遠距離場スピーカー206-1~206-nから約3メートルの距離を想定)。図3に示されるタイムラインは、10倍ごとの非線形スケールであり、ここで負の数はt=0よりも早い時間を示す(たとえば、-0.01はt=0よりも10ms前である)。同期を可能にするために、遠距離場音響オーディオが近距離場再生装置105または中間装置110のマイクロフォン107に到達する前またはちょうど同時に、近距離場信号n(t)の無線伝送が受領および復号され、すべての同期信号処理およびレンダリングが完了されるべきである。
図3を参照すると、タイムライン(a)は、カスタム無線プロトコル(消費者電子機器では一般には使用されない)が、どのようにして短い伝送レイテンシーを提供することができ、レンダリングされた近距離場信号が時間内に利用可能であることを可能にすることができるかを示す。タイムライン(b)は、普遍的なプロトコル(たとえば、WiFi、Bluetooth)が時間内に近距離場信号を送達しないことを示す。タイムライン(c)は、どのように無線伝送をt=0秒よりも早く任意に開始し、任意の伝送レイテンシーを補償し、任意の信号処理時間を考慮して、遠距離音響オーディオと近距離音響オーディオの同期を可能にすることができるかを示している。
近距離場信号を送達し、同期させるために必要な伝送、デコード、および信号処理時間が重要でありうる。Wi-FiやBluetoothのような消費者電子機器で一般に使用される無線伝送方法は、数十ミリ秒から数百ミリ秒の範囲のレイテンシーを有する。さらに、無線伝送は、必要な帯域幅を最小にするためにデジタル情報を圧縮するデジタルコーデックを用いてオーディオをエンコードすることが多い。ひとたび受領されると、符号化された信号をデコードし、オーディオ信号を復元するために、ある程度の信号処理時間が必要とされる。同期のための信号処理は、以下に詳細に説明されるが、何百万もの計算操作を必要とすることがある。使用されるプロセッサの速度に依存して、デコードおよび信号処理も、特に、計算能力が低い可能性があるバッテリー電力のエンドポイント装置において、長時間を必要とすることもある。
音は3ミリ秒弱で1メートル進む。家庭の居間や映画館にいるユーザーは、遠距離場スピーカーから1メートルから数十メートルの間にあることがあるため、期待される音の移動時間は約3msから100msの範囲である。近距離場信号n(t)、および該信号のその後の処理が遠距離場音響オーディオの移動時間よりも長い時間を必要とする場合、近距離場信号n(t)は遅すぎて到着し、近距離場音響オーディオと遠距離場音響オーディオの同期は不可能である。
ユーザーが遠距離場スピーカーからずっと遠く離れている状況、たとえば大きなコンサート会場では、近距離場信号n(t)が、同期を許容するのに十分な時間内にそれらのユーザーに到達することが可能でありうる。さらに、無線プロトコルがそれほどユビキタスではないか、あるいは可能性としてはカスタム構築された技術である場合、無線伝送レイテンシーは、遠距離場音響オーディオの移動時間よりも短くすることができる。しかしながら、ほとんどの消費者のパーソナル・モバイル装置にすでに組み込まれているのでない無線プロトコルを使用することは、無線受信のための二次的な機器を必要とする。
より良い解決策は、一般的な無線プロトコルを用いて、ただし遠距離場音響オーディオが近距離場再生装置105に到達すると期待されるよりも十分に早く、近距離場信号n(t)を送達することである。たとえば、Wi-Fiルータを通じた送信が最悪の場合のレイテンシー250msを生じ、デコードおよび同期が20msを必要とし、期待される音響移動時間が10msである場合、近距離場信号n(t)の近距離場再生装置105(または中間装置110)への送信は、レンダリングされた遠距離場信号F(t)が遠距離場スピーカー206-1~206-nのスピーカー・フィードに供給されるよりも260ms以上前であり、そのような近距離場信号n(t)の早期送信は、近距離場再生装置105(または中間装置110)における同期のために十分な時間を提供する。実際には、300msから1000msの前進時間(advance time)が有効である。
近距離場信号n(t)の早期送信は、ステージ音(ボーカル、インストゥルメントなど)がすぐ外側に、次いでほぼ同時に増幅器およびスピーカーを通じて伝搬し、任意の電子記録および無線伝送は音生成の瞬間よりも後にのみ開始できるライブイベントでは不可能であることに留意されたい。しかしながら、「ライブ」イベントでは、一部または全部の音が無線ですぐに送信され、次いで、スピーカーから再生する前に遅延させることができ、その結果、無線送信は受信され、使用されるための時間をもつ。これは、電子楽器のような音響的にすぐに伝播しないステージ音について、またはスピーカー音量が任意のステージ音をマスクするのに十分大きい場合に特に有効でありうる。ライブイベントに出席していないユーザーへのライブイベントの早期送信も可能である。たとえば、自宅のエンターテインメント・システム上のフットボールゲームの視聴者は、ネットワーク検閲遅延、信号処理遅延、放送および伝送装置遅延などによって数秒遅延された後にはじめて、自宅でエンターテインメント・コンテンツを受領しうる。通例、そのような遅延は積み重なって、簡単に、少なくとも数秒になる。
近距離場スピーカー信号n(t)の早期送信にはいくつかの方法がある。ある実施形態では、メディアを受領または再生し、遠距離場音響オーディオを送達するメディア・ソース装置101は、ソース信号を含むバッファを有する。このバッファは2回読まれる。遠距離場スピーカー入力信号F(t)、および可能性としては関連するビデオを送達するために、バッファ内の第1の位置から1度、そして近距離場信号n(t)を近距離場再生装置105または中間装置110に送達するために、所望の前進時間だけ1回目よりも後に、バッファ内の第2の位置から2回目である。これらの2つのバッファの読み取りの順序は切り換えることができる。重要なのは、バッファ内の相対的な位置だけである。ある実施形態では、レンダリングされた遠距離場信号F(t)のための1つのバッファおよび近距離場信号n(t)のための1つのバッファのような、複数のバッファが存在することができる。
別の実施形態では、メディア・ソース装置101は、オーディオ・コンテンツおよびビデオ・コンテンツを含むソース信号を摂取するように構成される。摂取されたソース信号は、指定された遅延を可能にするためにバッファリングされる。近距離場信号n(t)は近距離場再生装置105に送信され、そこで、近距離場音響オーディオとして近距離場スピーカーを通して投射される。指定された遅延の後、オーディオおよびビデオがバッファから読み込まれ、オーディオは上述のように処理され、遠距離音響オーディオが生成される。
発見手段
ある実施形態では、近距離場再生装置105(任意的な中間装置110を備える)は、近距離場信号n(t)が利用可能であるときを理解するためのハードウェアまたはソフトウェアを含む。これは、Wi-Fiネットワーク上にマルチキャスト・パケットがあるかどうかを傾聴するのと同じくらい単純なことでありうる。これは、Apple Bonjour(登録商標)のような、ゼロ構成ネットワーキング・プロトコルのさまざまな方法を使用して達成することもできる。
同期のためのタイムスタンプ伝送
有線または無線のネットワーク化された装置がそれらのクロックを同期させるために情報を共有することができる周知の方法がある。2つの例は、ネットワーク時刻プロトコル(Network Time Protocol、NTP)とIEEE1588の精密時刻プロトコル(Precision Time Protocol、PTP)である。メディア・ソース装置101および近距離場再生装置105(または中間装置110)が、そのような方法を用いてそれらのクロックを同期させた場合、タイムスタンプされたオーディオパケットは、合意された時刻に各装置によって同期して再生されることができる。
より詳細な例では、DMR(Apple(登録商標)TV DMRなど)と中間装置(スマートフォンなど)は、NTPを使用して、同期したクロックをもつ。近距離場信号n(t)のフレームは、同じフレームが高精細マルチメディアインターフェース(HDMI(登録商標))および/または光リンクを通じてメディア・ソース装置101(たとえばテレビ)を通じて再生される前に、DMRから中間装置500msへWiFiを使用して伝送される。近距離場信号n(t)のフレームは、それぞれ、フレームがユーザーの耳の中に再生されるべき正確な時刻を中間装置110に対して示すタイムスタンプを含む。中間装置110は、中間装置110から近距離場再生装置105へ近距離場信号n(t)を送信するのに必要な時間の調整を行って、指示された時刻においてオーディオのフレームを再生する。
タイムスタンプの使用は、近距離場音響オーディオが遠距離場音響オーディオと一緒に同期して再生されることを保証するものではない。これは、少なくとも、タイムスタンプが、遠距離場音響オーディオを再生するためのメディア・ソース装置101における処理時間、中間装置110から近距離場再生装置105への無線信号伝送レイテンシー、および遠距離場スピーカー206-1~206-nからオーディオ生成環境100内のユーザー104の位置への遠距離場音響オーディオの音響伝送時間など、いくつかの時間誤差の源を自動的考慮するものではないためである。それにもかかわらず、タイムスタンプを使用することは、探索される必要がある、可能な遅延時間の範囲を減らし、それにより計算時間と電力消費を減らす。タイムスタンプはまた、音響同期が失敗した場合に、同期のための2番目によい遅延時間をも提供することができる。以下に記載されるより厳密な時間オフセット決定と組み合わせて、タイムスタンプは、近い推定値、音響同期が失敗したときの既知の良好なフォールバック、および複雑さおよび電力消費の低減を提供することができる。
時間オフセットの決定
ネガティブな聴取体験を回避するために、近距離場音響オーディオは、近距離場再生装置105によって遠距離場音響オーディオと一緒に同期して再生される。近距離場音響オーディオと遠距離場音響オーディオとの間のわずかな時間差は、数ミリ秒のオーダーであり、顕著で不快なスペクトルの色付け(spectral coloration)を引き起こしうる。時間差が10~30msに、そしてさらに近づくと、スペクトルの色付けはより低い周波数まで広がり、次いで、くし形フィルタとなる。すると、ユーザー104は、オーディオ・コンテンツの2つのコピーを聞く。遅延が小さい場合は、これは近いエコーのように聞こえ、遅延が大きい場合は遠いエコーのように聞こえることがある。さらに大きな時間遅延では、オーディオ・コンテンツのコピーを聴くことは、非常に楽しくない認知的負担を引き起こす。
これらの負の効果を回避するために、近距離場音響オーディオは、近距離場再生装置105によって遠距離場音響オーディオと同期してオーバーレイされる。ある実施形態では、同期的オーバーレイを達成するために近距離場音響オーディオのどのセグメントが近距離場スピーカーに送られるべきかを示すために、遠距離場音響オーディオと近距離場音響オーディオとの間の全時間オフセットが決定される。全時間オフセット決定は、図4Aを参照して説明した方法のうち一つまたは複数を使用して達成される。
時間オフセット決定の例示的な方法
図4Aは、ある実施形態による、近距離場音響オーディオの再生を遠距離場音響オーディオと同期させるための全時間オフセットを決定するための処理パイプライン400aのブロック図である。近距離場再生装置105(または中間装置110)において、一つまたは複数のマイクロフォン107が、遠距離場スピーカー206-1~206-nによって投射された遠距離場音響オーディオのサンプルを捕捉する。サンプルは、アナログフロントエンド(AFE)およびデジタル信号プロセッサ(DSP)401aによって捕捉され、処理されて、遠距離場データ・バッファ403bに格納されるデジタル遠距離場データを生成する。ある実施形態では、AFEは、前置増幅器およびアナログ‐デジタル変換器(ADC)を含むことができる。遠距離場音響オーディオを受領する前に(図3参照)、近距離場信号n(t)が無線トランシーバ106によって受領され、AFE/DSP 401bを使用して処理される。AFE/DSP 401bは、たとえば、近距離場信号n(t)を復調/復号するための回路を含む。復調/復号された近距離場信号n(t)は、近距離場データ・バッファ403bに格納されるデジタル近距離場データに変換される。
次に、バッファ403a、403bにそれぞれ格納された遠距離場データと近距離場データを相関法を用いて比較する。ある実施形態では、バッファ403a、403bは、それぞれ1秒のデータを格納する。バッファ403a、403bの内容間の時間オフセットは、バッファ403bに格納された近距離場データに対してバッファ403aに格納された遠距離場データを相関させる相関器404によって決定される。相関は、時間領域でブルートフォースを用いて相関器404によって実現でき、あるいは、たとえば高速フーリエ変換(FFT)を用いてバッファリングされたデータを周波数領域に変換した後に、周波数領域で実行されることもできる。ある実施形態では、相関器404は、公知の位相変換のある一般化相互相関(generalized cross correlation with phase transform、GCC-PHAT)アルゴリズムを、時間領域または周波数領域において実装することができる。
ある実施形態では、近距離場信号n(t)およびレンダリングされた遠距離場信号F(t)は、可聴でない高周波マーカー信号を含む。そのようなマーカー信号は、単純な超音波トーンであってもよく、または情報を伝達するため、または検出可能性を改善するために変調されてもよい。たとえば、マーカー信号は、ほとんどの人が聞くことができないが、ほとんどのオーディオ機器が通過させる周波数範囲内である18.5kHzより上であることができる。そのようなマーカー信号は、遠距離場音響オーディオおよび近距離場信号の両方に共通であるため、遠距離場音響オーディオと近距離場信号との間の時間オフセット計算を改善するために使用することができる。ある実施形態では、マーカー信号が近距離場スピーカーから再生されないように、マーカー信号はそれぞれマーカー信号抽出器402a、402bを使用して、AFE/DSP 401aおよびAFE/DSP 401bによって抽出される。実施形態において、マーカー信号抽出器402a、402bは、相関器404に提供される高周波の可聴でない時間マーカー信号をフィルタリングして除去する低域通過フィルタである。
相関器404の出力は、時間オフセットおよび信頼度指標である。時間オフセットは、近距離場再生装置105または中間装置110のマイクロフォン107における遠距離場音響オーディオの到着と、近距離場再生装置105における近距離場信号n(t)の到着との間の時間である。時間オフセットは、バッファ403bのどの部分を近距離場再生装置105の近距離場スピーカーを通じて再生するかを示し、遠距離場音響オーディオへの近距離場音響オーディオの完璧な同期オーバーレイのためにほぼ十分である。
全時間オフセットは、相関器404によって出力される時間オフセットに対して、追加の固定されたローカル時間オフセット405を加えることによって決定できる。ローカル時間オフセットは、パケット送信時間、伝搬遅延、および処理遅延を含むがこれらに限定されない、中間装置110から近距離場再生装置105へ近距離場信号n(t)を送るために必要とされる追加時間を含む。このローカル・オフセット時間は、中間装置110によって正確に測定できる。
ある実施形態では、上述した全時間オフセット決定は、スタートアップまたはセットアップ・ステップの間に一度だけ生起するのではなく、連続的である。たとえば、全時間オフセットは、毎秒1回、または毎秒数回計算されることができる。このデューティサイクルは、同期を、オーディオ再生環境100内のユーザー104の変化する位置に適応させることを許容する。図4Aに示される全時間オフセットの計算は、近距離場再生装置105または中間装置110で行われるが、原理的には、全時間オフセット計算は、単一の近距離場再生装置105を有するアプリケーションなどの特定のアプリケーションにおいては、メディア・ソース装置101において行われることができる。
ある実施形態では、相関器404は、同期が達成されたことを信頼すべきときを知るために、信頼度指標をも出力する。1つの適切な信頼度指標は、時間オフセット値によってシフトされたバッファ403a、404b間の既知のピアソン相関係数であり、この相関係数は、線形相関の指標を出力し、ここで、「1」は全面的な正の線形相関であり、「0」は線形相関がないことであり、「-1」は全面的な負の線形相関である。
図4Bは、ある実施形態による、近距離場音響オーディオの再生を遠距離場音響オーディオと同期させるための処理パイプライン400bのブロック図である。ある実施形態では、同期器406は、入力として、バッファ403bからのデジタル近距離場データ、および処理パイプライン403aから出力される全時間オフセットおよび信頼度指標を受領し、レンダリングされた近距離場信号に対して全時間オフセットを適用して、近距離場音響オーディオ再生を遠距離場音響オーディオと同期させる。ある実施形態では、全時間オフセットは、その対応する信頼度指標が、バッファ403a、403bの内容の間の正の線形相関を示す(すなわち、正の閾値を超える)場合にのみ使用される。信頼度指標が線形相関を示さない場合(すなわち、正の閾値を下回る場合)、同期器406は、レンダリングされた近距離場信号N(t)に対して全時間オフセットを適用しない。あるいはまた、事前に決定された全時間オフセットを使用することができる。
ある実施形態では、同期器406は、レンダリングされた近距離場信号における、再生を開始する正確なサンプルに対応する近距離場データ・バッファ403b中へのポインタを提供する計算または演算を実行する。レンダリングされた近距離場信号を再生することは、ポインタ位置から始まるバッファ403bからのフレームを取り出すことを意味しうる。ポインタの位置は、単一のオーディオ・サンプルを示してもよい。バッファ403bから取り出されたオーディオ・データのフレーム境界は、バッファ403b内にデータを配置または格納するときに使用されるフレーム境界と整列されていてもいなくてもよく、よって、オーディオは任意の時刻から再生できる。
いくつかの動作シナリオにおいては、本明細書に記載される同期アルゴリズムは、バッファ内のいくつかのサンプルを2回以上再生させるか、またはスキップさせることができる。これは、聴取者が遠距離場のスピーカーに近づく、または遠ざかるときに起こりうる。そのような場合、混合操作を行って、オーディオ・アーチファクト(たとえば、反復またはスキップなど)を聞こえなくしたり、あるいはそれほど目立たなくしたりすることができる。
近距離場信号n(t)、およびレンダリングされた遠距離場信号F(t)から生成された遠距離場音響オーディオは時間的対応をもち、よって、それぞれが、他方に同期された場合に同時に聞こえることが意図されるオーディオを含む、または提供する。たとえば、遠距離音響オーディオは、戦争映画のフル・オーディオであってもよく、大音響ノイズによって部分的に不明瞭にされたダイアログを含む。近距離場信号n(t)またはそこから生成されるユーザー近接音は、同じダイアログだが、「クリーン」な、またはノイズによって不明瞭にされていないものを含んでいてもよい。この例における時間対応は、正確に同時のダイアログの多数である。2つの発声または他のオーディオ・イベントの間の正確な時間のような時間間隔は、各信号において同じ長さを持つことができる。
二次的な近距離場信号
ある実施形態では、近距離場信号は、耳の中での再生のために意図されたオーディオ信号と、追加の目的のための二次的な近距離場信号とを含んでいてもよい。二次的な近距離場信号の1つの使用は、同期を改善するための追加情報を提供することである。たとえば、近距離場信号の耳チャネルが疎である場合、近距離場信号および遠距離場音響オーディオの両方に共通する多くの信号は存在しない。その場合、同期化は困難であるか、またはまれである。その場合、二次的な近距離場信号は、遠距離場音響オーディオと共通の追加的な信号を提供し、近距離場音響オーディオに遠距離場音響オーディオを同期的に重ねるために、同期は、二次的な近距離場信号に対して作用する。
別の実施形態では、二次的な近距離場信号は、耳の中での再生のために意図された代替コンテンツを含む。このコンテンツは、遠距離場音響オーディオと共通ではないことがありうる。たとえば、遠距離場音響オーディオは、映画についての少なくとも英語ダイアログを含んでいてもよく、二次的な近距離場信号は、代替言語でのダイアログを含んでいてもよい。同期は、遠距離場音響オーディオおよび近距離場信号で作用するが、二次的な近距離場信号は耳の中で再生される。いくつかの実装では、代替コンテンツは、視覚障害のあるユーザーのためのシーンおよびアクションの聴覚記述を含むことができる。
同期されたストリーム打ち消し
早期送達と同期は、能動的雑音除去(active noise cancellation、ANC)のためのユニークな機会を呈する。耳装置における伝統的なANCは、打ち消される目標音声を測定するためにマイクロフォンに依存している。常に、レイテンシーと時間的応答の問題がある。音は測定された後、非常に短時間で鼓膜に到達し、その間にアンチ音を算出し、発生させなければならない。これはしばしば、特に高周波数では、不可能である。しかしながら、目標音が近距離場信号または二次的な近距離場信号の一部であり、遠距離場音響オーディオの一部でもある場合には、典型的なANCの欠点の一部を伴わずに、目標音は能動的に打ち消すことができる、すなわち、遠距離場音響オーディオから除去されうる。そのような目標音の例は:ダイアログ、複数の座席位置を有する劇場全体で共有されることが意図される音、聴覚障害のある人についてマスキングを引き起こす、ダイアログでない動的な大音量の音(たとえば、音楽、爆発)を含む。
ANCマイクロフォンは、典型的には、フィードフォワード打ち消しのために外側に向いており、および/またはフィードバック打ち消しのためにイヤーカップまたは外耳道の内部にある。フィードフォワード、フィードバック打ち消しの両方において、打ち消し対象の音声がマイクロフォンによって測定される。アナログ‐デジタル変換器(ADC)はマイクロフォン信号をデジタルデータに変換する。次いで、アルゴリズムが、関連する電気音響伝達関数を近似するフィルタを用いて、その音を反転し、周囲音と破壊的に干渉することができるアンチ音を生成する。フィルタは、変化する条件の間に良好に機能するように、適応的であってもよい。アンチ音は、デジタル‐アナログ変換器(DAC)によってアナログ信号に再変換される。増幅器が、典型的なダイナミックドライバまたは平衡電機子のようなトランスデューサを用いて、耳の中にアンチ音を再生する。
このシステムのすべての構成要素は、動作に時間を必要とする。マイクロフォン、ADC、フィルタ、DAC、スピーカー増幅器を含む各ステージは、動作に数十マイクロ秒以上を必要とすることがある。全体的なレイテンシーは、100マイクロ秒以上のオーダーでありうる。このレイテンシーは、より高い周波数での利用可能な位相マージンを減少させることによって、能動的ノイズ打ち消しを大きく損なう。たとえば、100マイクロ秒の遅延は、1kHzの音波の1周期の10%である。
近距離場信号または二次的な近距離場信号の成分が、打ち消し対象の音である場合、これらの信号の早期送達は、打ち消されるべき音の事前知識を構成する。ノイズ打ち消しフィルタの出力は事前に計算されることができ、他のすべてのシステム・コンポーネント遅延が補償されることができるので、これらのフィルタおよびシステム・コンポーネントの動作遅延は重要ではない。これは、打ち消されるべき音の事前知識がない一般的なノイズ打ち消しとは異なる状況である。
ある実施形態では、同期されたストリーム打ち消しを使用して、遠距離場音響オーディオからダイアログを除去する。それにより、代替言語でのダイアログに置き換えることができる。能動音声打ち消しは、遠距離場音響オーディオからもとのダイアログを除去するために、近距離場信号において耳装置に送信されるもとのダイアログを対象にする。二次的な近距離場信号を介して送信される代替言語のダイアログ・トラックが、代わりに再生されることができる。
ある実施形態では、同期されたストリーム打ち消しを使用して、スポーツ・コンテンツにおける可能なコメンタリーのうちから選択する。遠距離場音響オーディオは、たとえば、フットボールゲームのための「ホーム」コメンタリーを含む。このゲームの個々の視聴者は、代わりに「アウェー」チームのためのコメンタリーを聞くことを選ぶことができる。遠距離場音響オーディオにおける「ホーム」コメンタリーは、近距離場信号を介して近距離場再生装置に送達され、音声打ち消しの対象となる。二次的な近距離場信号は、個々の視聴者に「アウェー」コメンタリーを送達する。
ある実施形態では、同期されたストリーム打ち消しを使用して、遠距離場音響オーディオ全体を実質的にミュートする。たとえば、視聴者は娯楽メディアを視聴し、遠距離場音響オーディオが室内で再生される。近距離場信号は、遠距離場音響オーディオのコピーを含み、音声打ち消しの対象となる。このモードは、視聴者が近くの人の話を聞きたい場合に有用でありうる。
ある実施形態では、同期されたストリーム打ち消しが、空間的なオーディオ娯楽システム内の空間的オーディオを修正するために使用される。たとえば、サラウンド・サウンド・システムを備えた映画館において、一部のユーザーは、本明細書に開示されているような近距離場再生装置を有し、一部のユーザーは有さないことがある。近距離場再生装置をもたないユーザーは、通常の映画館体験をフルに与えられることができる。よって、レンダリングされた遠距離場信号は、完全な空間的オーディオ・オブジェクト音を含む。近距離場信号は、空間的オーディオ・オブジェクトがユーザーの近距離場再生装置を通じてパンされる、ユーザー近接チャネルを含む。同じ空間的オーディオ・オブジェクトの映画専用システムおよび近距離場信号へのレンダリングは、実質的に異なっていてもよく、よって、近距離場再生装置を有するユーザーは、空間的オーディオ体験が余分な室内音によって減少されてしまう。ある実施形態では、オーディオ・オブジェクトの映画館遠距離場信号レンダリングと、同じオーディオ・オブジェクトの近距離場装置レンダリングとの間の差は、二次的な近距離場信号中に入れられ、近距離場再生装置または中間装置での音声打ち消しの対象とすることができる。
いくつかの実装では、オーディオ再生環境において、オブジェクトから聴取者までの距離の関数として重み付けが適用され、それにより、聴取者の近くで聞こえることが意図されたオーディオ・オブジェクトは、近距離場信号においてのみ伝達され、二次的な近距離場信号は、たとえば劇場の聴衆全体によって共有される、共通のオーディオ・オブジェクトからの音を打ち消す。これにより、共有される音声信号についてはできないような仕方で、聴取者にきわめて近い(またはさらには頭の中での)音の配置が可能になる。
別の実施形態では、同期されたストリーム打ち消しは、近距離場信号と二次的な近距離場信号との組み合わせを使用して、音響信号空間のいずれかの境界に近いなど、サラウンドサウンド(または他の3D音響技術)を備える劇場における理想的でない座席位置について補償する。つまり、部屋の片側に近い、後ろのすみ、などである。このようにして、聴取者は、ミキシングエンジニアの意図にずっと近い知覚的レンダリングを受け取ることができる。
ある実施形態では、同期されたストリーム打ち消しは、たとえば最小平均二乗(LMS)適応フィルタ・アルゴリズムのようなアルゴリズムを使用して、捕捉された遠距離場音響オーディオを含むマイクロフォン信号を近距離場信号とマッチさせるフィルタを構築する。次いで、そのフィルタを反転させ、近距離場信号に適用して、アンチ音を発生させることができる。次いで、アンチ音が正しい瞬間に再生され、近距離場信号と共通である遠距離音響オーディオの部分を打ち消す。
代替的な実施形態では、アルゴリズムおよびフィルタは、遠距離場音響オーディオおよび近距離場信号に共通ではないすべての音を目標にするように設計される。この実施形態では、フィルタは、近距離場信号にないすべての音を目標にして、近距離場信号にある音以外のすべての音が打ち消され、ユーザーは近距離場信号にある音のみを聞く。たとえば、近距離場信号が遠距離場信号のコピーである場合、近距離場再生装置または中間装置において、会話または台所の音のような余分な室内音が打ち消されることができる。ある実施形態では、遠距離場音響オーディオは、近距離場装置または中間装置の一つまたは複数のマイクロフォンによって捕捉され、近距離場再生装置において部分的にレンダリングされ、近距離場スピーカーによる外耳道の任意の閉塞について補償する。周囲音のユーザー体験を向上させることが望まれる場合、オーディオ再生環境におけるすべての周囲音を遮断することは望ましくない場合がある。たとえば、いくつかのイヤーバッドは、ほとんどの人の耳を部分的に閉塞する。閉塞は、望ましくない仕方で、ユーザーの周囲音の知覚を減衰させ、可能性としては色付ける。これを補正するために、ある実施形態では、閉塞の効果が測定され、周囲音の欠落部分が近距離場信号に加え戻されてから、近距離場再生装置を通じた再生のためにレンダリングされる。
図5は、ある実施形態による、オーディオを向上させるためのハイブリッド近距離/遠距離場スピーカー仮想化のプロセス500のフロー図である。プロセス500は、たとえば、図9を参照して記載されるメディア・ソース装置アーキテクチャーによって実現できる。
プロセス500は、ソース信号を取得する(501)ことによって始まる。ソース信号は、チャネル・ベースのオーディオ、オブジェクト・ベースのオーディオ、またはチャネル・ベースのオーディオとオブジェクト・ベースのオーディオの組み合わせを含むことができる。ソース信号は、テレビジョンシステム、セットトップボックスまたはDMRのようなメディア・ソース装置によって提供されることができる。ソース信号は、ネットワークまたは記憶装置(たとえば、Ultra-HD、Blu-ray(登録商標)またはDVDディスク)から受領されたビットストリームであってもよい。
プロセス500は、ソース信号、遠距離場スピーカー・レイアウト、ならびに遠距離場および近距離場スピーカー特性に基づいて遠距離場および近距離場利得を生成する(502)ことによって継続する。たとえば、ソース信号のオーディオ・コンテンツ内のオーディオ・オブジェクトがユーザーの頭上に位置し、メディア・ソース装置がサウンドバーである場合、オーディオ・オブジェクト全体が、レンダリングされた近距離場スピーカー入力信号に含まれ、それにより近距離場再生装置または中間装置によってバイノーラルにレンダリングされることができるように、利得が計算される。
プロセス500は、利得を使用して、遠距離場信号および近距離場信号を生成する(503)ことによって継続する。たとえば、遠距離場信号および近距離場信号は、クロス・フィルターによって出力される低周波信号および高周波信号の重み付けされた線形結合であることができ、重みは低周波および高周波利得である。
プロセス500は、遠距離場信号をレンダリングし、任意的にはレンダリングされた遠距離場信号を後処理する(505)ことによって継続する。たとえば、任意の既知のアルゴリズムを用いて遠距離場信号(たとえば、VBAP)をレンダリングすることができ、近距離場信号はHRTFを用いてバイノーラルにレンダリングできる。ある実施形態では、近距離場信号は、近距離場再生装置に送信される前に、メディア・ソース装置においてレンダリング/後処理される。
プロセス500は、近距離場再生装置または中間装置に近距離場信号を早期に送信し(506)、レンダリングされた遠距離場信号を遠距離場スピーカー・フィードに送信する(507)ことによって継続する。たとえば、近距離場信号は、図3、図4のAおよびBを参照して説明したように、遠距離場音響オーディオと同期するための全時間オフセットを計算するのに十分な時間を提供するために、近距離場再生装置または中間装置に送信される。
図6は、ある実施形態による、近距離場音響オーディオの再生を遠距離場音響オーディオと同期させるプロセスのフロー図である。プロセス600は、たとえば、図10を参照して記載される近距離場再生装置アーキテクチャーによって実現できる。
プロセス600は、早期に送信された近距離場信号を受領する(601)ことによって始まる。たとえば、図1および図2を参照して説明したように、第1のチャネル・ベースのオーディオおよび/またはオーディオ・オブジェクトを含む近距離場信号が有線または無線チャネルを通じて受領されることができる。
プロセス600は、遠距離場音響オーディオを受領する(602)ことによって継続する。たとえば、第2のチャネル・ベースのオーディオおよび/またはオーディオ・オブジェクトを含むレンダリングされた遠距離場信号が、一つまたは複数のマイクロフォンによって捕捉される。プロセス600は、図4Aを参照して説明したように、マイクロフォン出力をデジタル遠距離場データに変換し、近距離場信号をデジタル近距離場データに変換し(603)、デジタル遠距離場データおよびデジタル近距離場データをバッファに格納する(604)ことによって継続する。
プロセス600は、図4Aを参照して説明したように、バッファ内容を使用し、ローカル時間オフセットを加えることによって、全時間オフセットおよび任意的な信頼性指標を決定する(605)ことによって継続する。
プロセス600は、近距離場スピーカーによって投射される近距離場音響データが遠距離場音響と同期して重ねられるように、全時間オフセットを使用して、近距離場スピーカーを通じて近距離場データの再生を開始する(606)ことによって継続する。ある実施形態では、同期は、相関を示す信頼度指標に基づいて適用される。
図7は、ある実施形態による、近距離場音響オーディオの再生を遠距離場音響オーディオと同期させる代替プロセス700のフロー図である。プロセス700は、たとえば、図9を参照して記載されるメディア・ソース装置アーキテクチャーによって実現できる。
プロセス700は、図2を参照して説明したように、チャネル・ベースのオーディオまたはオーディオ・オブジェクトの少なくとも1つを含むソース信号を、メディア・ソース装置を用いて受領する(701)ことによって始まる。
プロセス700は、図2を参照して説明したように、メディア・ソース装置を使用して、少なくとも部分的にはソース信号に基づいて、遠距離場信号を生成することによって継続する。
プロセス700は、図2を参照して説明したように、遠距離場スピーカーを通じた遠距離場音響オーディオの再生のための遠距離場信号を、メディア・ソース装置を使って、オーディオ再生環境中にレンダリングする(703)ことによって継続する。
プロセス700は、図2を参照して説明したように、メディア・ソース装置を用いて、少なくとも部分的にはソース信号に基づいて、一つまたは複数の近距離場信号を生成する(704)ことによって継続する。
プロセス700は、遠距離場信号を遠距離場スピーカーに提供する前に、図2を参照して説明したように、近距離場信号を近距離場再生装置または近距離場スピーカーに結合された中間装置に送信する(705)ことによって継続する。
プロセス700は、図2を参照して説明したように、オーディオ再生環境への投射のために、レンダリングされた遠距離場信号を遠距離場スピーカーに提供する(706)ことによって継続する。
図8は、ある実施形態による、近距離場音響オーディオの再生を遠距離場音響オーディオと同期させる別の代替プロセス800のフロー図である。プロセス800は、たとえば、図10を参照して説明した近距離場再生装置アーキテクチャーによって実現できる。
プロセス800は、図4Aを参照して説明したように、無線受信機を使用して、オーディオ再生環境においてメディア・ソース装置によって送信された近距離場信号を受信する(801)ことによって始まることができる。
プロセス800は、図4Aを参照して説明したように、一つまたは複数のプロセッサを使用して、近距離場信号をデジタル近距離場データに変換する(802)ことによって継続する。
プロセス800は、図4Aを参照して説明したように、前記一つまたは複数のプロセッサを使用して、デジタル近距離場データをバッファリングする(803)ことによって継続する。
プロセス800は、図4Aを参照して説明したように、一つまたは複数のマイクロフォンを使用して、遠距離場スピーカーによって投射された遠距離場音響オーディオを捕捉する(804)ことによって継続する。
プロセス800は、図4Aを参照して説明したように、前記一つまたは複数のプロセッサを使用して、遠距離場音響オーディオをデジタル遠距離場データに変換する(805)ことによって継続する。
プロセス800は、図4Aを参照して説明したように、前記一つまたは複数のプロセッサを使用して、デジタル遠距離場データをバッファリングする(806)ことによって継続する。
プロセス800は、図4Aを参照して説明したように、前記一つまたは複数のプロセッサおよびバッファ内容を使用して、時間オフセットを決定する(807)ことによって継続する。
プロセス800は、図4Aを参照して説明したように、前記一つまたは複数のプロセッサを使用して、前記時間オフセットにローカル時間オフセットセットを加えて、全時間オフセットを生成する(808)ことによって継続する。
プロセス800は、図4Bに説明されているように、前記一つまたは複数のプロセッサを使用して、全時間オフセットを使用して近距離場スピーカーを通じた近距離場データの再生を開始することによって継続する。それにより、近距離場スピーカーによって投射される近距離場音響データは、遠距離場音響オーディオと同期して重ねられる(809)。
図9は、ある実施形態による、図1~図8を参照して説明した特徴およびプロセスを実装するための、メディア・ソース装置アーキテクチャー900のブロック図である。アーキテクチャー900は、無線インターフェース901、入力ユーザー・インターフェース902、有線インターフェース903、I/Oポート904、スピーカー・アレイ905、オーディオ・サブシステム906、電力インターフェース907、LEDインジケータ908、論理および制御装置909、メモリ910、オーディオ・プロセッサ912を含む。これらの構成要素のそれぞれは、一つまたは複数のバス913に結合される。メモリ910は、さらに、図2を参照して説明したように使用するためのバッファ914を含む。アーキテクチャー900は、テレビシステム、セットトップボックス、DMR、パーソナルコンピュータ、サラウンド・サウンド・システムなどにおいて実装されることができる。
無線インターフェース901は、無線トランシーバチップまたはチップセットと、無線ルータ(たとえば、WiFiルータ)、リモコン、無線近距離場再生装置、無線中間装置、およびメディア・ソース装置と通信することを望む任意の他の装置から無線通信を受信するための一つまたは複数のアンテナとを含む。
入力ユーザー・インターフェース902は、機械的ボタン、スイッチ、および/またはタッチ・インターフェースのような、ユーザーがメディア・ソース装置を制御および管理できるようにするための入力機構を含む。
有線インターフェース903は、種々のI/Oポート904(たとえば、Bluetooth、WiFi、HDMI(登録商標)、光)からの通信を処理するための回路を含み、オーディオ・サブシステム906は、オーディオ増幅器、およびスピーカー・アレイ905を駆動するために必要な他の回路を含む。
スピーカー・アレイ905は、単一のハウジング内に一緒に配置されるか、独立したハウジング内に配置されるかにかかわらず、任意の数、サイズおよびタイプのスピーカーを含むことができる。
電力インターフェース907は、電力マネージャと、ACコンセントまたはUSBポートまたは他の任意の電力供給装置からの電力を調整するための回路とを含む。
LEDインジケータ908は、装置の種々の動作のための目に見えるフィードバックをユーザーに提供する。
論理および制御装置909は、中央処理装置、マイクロコントローラ装置、またはメディア・ソース装置の種々の機能を制御するための任意の他の回路を含む。
メモリ910は、RAM、ROMおよびフラッシュメモリのような任意のタイプのメモリでありうる。
オーディオ・プロセッサ912は、コーデックを実装し、スピーカー・アレイ905を通じた出力のためにオーディオ・コンテンツを準備するDSPであってもよい。
図10は、ある実施形態による、図1~図8を参照して説明した特徴およびプロセスを実装するための近距離場再生装置アーキテクチャー1000のブロック図である。アーキテクチャー1000は、無線インターフェース1001、ユーザー・インターフェース1002、触覚インターフェース1003、オーディオ・サブシステム1004、スピーカー1005、マイクロフォン1006、エネルギー蓄積/バッテリー充電器1007、入力電力インターフェース/保護回路1008、センサー1009、メモリ1010、およびオーディオ・プロセッサ1011を含む。これらの構成要素のそれぞれは、一つまたは複数のバス1013に結合される。メモリ1010は、バッファ1012をさらに含む。アーキテクチャー1000は、ヘッドフォン、イヤーバッド、イヤホン、ヘッドセット、ゲームハードウェア、スマート眼鏡、ヘッドギア、AR/VRゴーグル、スマートスピーカー、椅子スピーカー、種々の自動車内装トリムピース等で実現することができる。
無線インターフェース1001は、無線トランシーバチップと、メディア・ソース装置および/または中間装置ならびに近距離場再生装置と通信することを望む任意の他の装置に/から無線通信を受信/送信するための一つまたは複数のアンテナとを含む。
入力ユーザー・インターフェース1002は、機械的ボタン、スイッチ、および/またはタッチ・インターフェースのようなエンドポイント装置をユーザーが制御および管理できるようにするための入力機構を含む。
触覚インターフェース1003は、ユーザーに対して力のフィードバックを提供するための触覚エンジンを含み、オーディオ・サブシステム1004は、オーディオ増幅器およびスピーカー1005を駆動するために必要な他の任意の回路を含む。
スピーカー1004は、ヘッドフォン、イヤーバッド等に見られるようなステレオ・スピーカーを含むことができる。
オーディオ・サブシステム1004は、一つまたは複数のマイクロフォン1006からの信号を処理するための回路(たとえば、前置増幅器、ADC、フィルタ)を含む。
入力電力インターフェース/保護回路1008は、エネルギー蓄積部1007(たとえば、再充電可能バッテリー)、USBポート、充電マット、充電ドック、または他の任意の電源からの電力を調整するための回路を含む。
センサー1009は、動きセンサー(たとえば、加速度計、ジャイロ)およびバイオセンサー(たとえば、指紋検出器)を含んでいてもよい。
メモリ1010は、RAM、ROMおよび/またはフラッシュメモリのような任意のタイプのメモリでありうる。
バッファ1012(たとえば、図4Aのバッファ403a、403b)は、メモリ1010の一部から生成され、図4Aを参照して上述したように、全時間オフセットを決定するためのオーディオ・データを記憶するために使用されうる。
本稿は多くの個別的な実装の詳細を含んでいるが、これらは、特許請求されうるものの範囲に対する限定として解釈されるべきではなく、むしろ具体的な実施形態に特有でありうる特徴の説明として解釈されるべきである。別々の実施形態の文脈において本明細書に記載されるある種の特徴が、単一の実施形態において組み合わせて実装されることもできる。逆に、単一の実施形態の文脈において説明されるさまざまな特徴が、複数の実施形態において別々に、または任意の適切なサブコンビネーションにおいて実装されることもできる。さらに、上記では特徴は、ある種の組み合わせにおいて作用するものとして記載され、当初はそのようにクレームされることさえありうるが、クレームされた組み合わせからの一つまたは複数の特徴は、場合によっては、その組み合わせから切り出されることができ、クレームされた組み合わせは、サブコンビネーションまたはサブコンビネーションの変形に向けられうる。図に示されている論理フローは、望ましい結果を達成するために示されている特定の順序や逐次順を必要とするものではない。加えて、他のステップが提供されてもよく、またはステップが記載されたフローから除去されてもよく、他の構成要素が記載されたシステムに追加されてもよく、または記載されたシステムから除去されてもよい。よって、他の実装が、以下の特許請求の範囲の範囲内である。

Claims (36)

  1. メディア・ソース装置を使用して、チャネル・ベースのオーディオまたはオーディオ・オブジェクトのうちの少なくとも1つを含むソース信号を受領するステップと;
    前記メディア・ソース装置を使用して、前記ソース信号および混合モードに基づいて、一つまたは複数の近距離場利得および一つまたは複数の遠距離場利得を生成するステップと;
    前記メディア・ソース装置を使用して、少なくとも部分的には、前記ソース信号および前記一つまたは複数の遠距離場利得に基づいて、遠距離場信号を生成するステップと;
    スピーカー仮想化器を使用して、遠距離場スピーカーを通じた遠距離場音響オーディオの再生のための前記遠距離場信号を、オーディオ再生環境にレンダリングするステップと;
    前記メディア・ソース装置を使用して、前記ソース信号および前記一つまたは複数の近距離場利得に基づいて近距離場信号を生成するステップと;
    前記遠距離場信号を前記遠距離場スピーカーに提供する前に、前記近距離場信号を近距離場再生装置または該近距離場再生装置に結合された中間装置に送信するステップと;
    前記遠距離場信号を前記遠距離場スピーカーに提供するステップとを含む、
    方法。
  2. 前記ソース信号を低周波信号および高周波信号にフィルタリングするステップと;
    近距離場低周波利得および近距離場高周波利得を含む2つの近距離場利得のセットを生成するステップと;
    遠距離場低周波利得および遠距離場高周波利得を含む2つの遠距離場利得のセットを生成するステップと;
    前記低周波信号および前記高周波信号の重み付けされた線形結合に基づいて前記近距離場信号を生成するステップであって、前記低周波信号は前記近距離場低周波利得によって重み付けされ、前記高周波信号は前記近距離場高周波利得によって重み付けされる、ステップと;
    前記低周波信号および前記高周波信号の重み付けされた線形結合に基づいて前記遠距離場信号を生成するステップであって、前記低周波信号が前記遠距離場低周波利得によって重み付けされ、前記高周波信号が前記遠距離場高周波利得によって重み付けされる、ステップとを含む、
    請求項1に記載の方法。
  3. 前記混合モードは、少なくとも部分的には、前記オーディオ再生環境における前記遠距離場スピーカーのレイアウトと、前記遠距離場スピーカーまたは前記近距離場再生装置に結合された近距離場スピーカーの一つまたは複数の特性とに基づく、請求項1または2に記載の方法。
  4. 前記混合モードは、サラウンドサウンド・レンダリングであり、当該方法はさらに:
    前記一つまたは複数の近距離場利得および前記一つまたは複数の遠距離場利得を、すべてのサラウンド・チャネル・ベースのオーディオまたはサラウンド・オーディオ・オブジェクトを前記近距離場信号に含め、すべての前方のチャネル・ベースのオーディオまたは前方のオーディオ・オブジェクトを前記遠距離場信号に含めるように設定するステップを含む、
    請求項3に記載の方法。
  5. 前記近距離場および遠距離場スピーカー特性に基づいて、前記遠距離場スピーカーが前記近距離場スピーカーよりも低周波数を再生する能力が高いことを判別するステップと:
    前記一つまたは複数の近距離場利得および前記一つまたは複数の遠距離場利得を、前記低周波のチャネル・ベースのオーディオまたは低周波のオーディオ・オブジェクトのすべてを前記遠距離場信号に含めるように設定するステップとを含む、
    請求項3または4に記載の方法。
  6. 前記ソース信号が距離効果を含むことを判別するステップと;
    前記一つまたは複数の近距離場利得および前記一つまたは複数の遠距離場利得を、前記遠距離場スピーカーと前記オーディオ再生環境における指定された位置との間の正規化された距離の関数であるように設定するステップとをさらに含む、
    請求項3ないし5のうちいずれか一項に記載の方法。
  7. 前記ソース信号が、前記ソース信号における特定のタイプのオーディオ・コンテンツを向上させるためのチャネル・ベースのオーディオまたはオーディオ・オブジェクトを含むことを判別するステップと;
    前記特定のタイプのオーディオ・コンテンツを向上させるための前記チャネル・ベースのオーディオまたはオーディオ・オブジェクトを前記近距離場信号に含めるように、前記一つまたは複数の近距離場利得および前記一つまたは複数の遠隔場利得を設定するステップとをさらに含む、
    請求項3ないし6のうちいずれか一項に記載の方法。
  8. 前記特定のタイプのオーディオ・コンテンツは、ダイアログ・コンテンツである、請求項7に記載の方法。
  9. 前記ソース信号は、前記一つまたは複数の近距離場利得および前記一つまたは複数の遠距離場利得を含むメタデータとともに受領される、請求項1ないし8のうちいずれか一項に記載の方法。
  10. 前記メタデータは、前記ソース信号が、前記遠距離場スピーカーおよび前記近距離場スピーカーを使用するハイブリッド・スピーカー仮想化のために使用できることを示すデータを含む、請求項9に記載の方法。
  11. 前記近距離場信号、または前記レンダリングされた近距離場信号、および前記レンダリングされた遠距離場信号は、前記近距離場音響オーディオの、前記遠距離場音響オーディオとの同期オーバーレイを支援するための不可聴マーカー信号を含む、請求項1ないし10のうちいずれか一項に記載の方法。
  12. 前記オーディオ再生環境においてユーザーの頭部姿勢情報を取得するステップと;
    前記頭部姿勢情報を使用して前記近距離場信号をレンダリングするステップとを含む、
    請求項1ないし11のうちいずれか一項に記載の方法。
  13. 前記近距離場スピーカーの周波数応答を補償するために、前記レンダリングされた近距離場信号に対して等化が適用される、請求項1ないし12のうちいずれか一項に記載の方法。
  14. 前記近距離場信号または前記レンダリングされた近距離場信号は、無線チャネルを通じて前記近距離場再生装置に提供される、請求項1ないし13のうちいずれか一項に記載の方法。
  15. 前記近距離場信号または前記レンダリングされた近距離場信号を前記近距離場再生装置に提供するステップは、さらに:
    前記メディア・ソース装置を使用して、前記近距離場信号またはレンダリングされた近距離場信号を、前記近距離場再生装置に結合された中間装置に送信するステップを含む、
    請求項1ないし14のうちいずれか一項に記載の方法。
  16. 前記近距離場スピーカーの周波数応答を補償するために、前記レンダリングされた遠距離場信号に対して等化が適用される、請求項1ないし15のうちいずれか一項に記載の方法。
  17. 前記近距離場音響オーディオの、前記遠距離場音響オーディオとの同期オーバーレイを支援するために、前記近距離場信号またはレンダリングされた近距離場信号に関連するタイムスタンプが、前記メディア・ソース装置によって、前記近距離場再生装置または中間装置に提供される、請求項1ないし16のうちいずれか一項に記載の方法。
  18. 前記遠距離場信号および前記近距離場信号を、少なくとも部分的には、前記ソース信号および前記一つまたは複数の遠距離場利得に基づいて生成するステップは:
    前記ソース信号を前記メディア・ソース装置のバッファに格納するステップと;
    前記バッファにおける第1の位置に格納された前記ソース信号の第1の組のフレームを取り出すステップであって、前記第1の位置が第1の時間に対応する、ステップと;
    前記メディア・ソース装置を使用して、少なくとも部分的には、前記第1の組のフレームおよび前記一つまたは複数の遠距離場利得に基づいて前記遠距離場信号を生成するステップと;
    前記バッファにおける第2の位置に格納された前記ソース信号の第2の組のフレームを取り出すステップであって、前記第2の位置は前記第1の位置よりも前の第2の時間に対応する、ステップと;
    前記メディア・ソース装置を使用して、少なくとも部分的には、前記第2の組のフレームおよび前記一つまたは複数の近距離場利得に基づいて前記近距離場信号を生成するステップとをさらに含む、
    請求項1ないし17のうちいずれか一項に記載の方法。
  19. オーディオ再生環境において、メディア・ソース装置によって送信された近距離場信号を受領するステップであって、前記近距離場信号は、前記オーディオ再生環境に位置するユーザーの耳に近接する、またはユーザーの耳に挿入された近距離場スピーカーを通じた投射のための、低周波および高周波のチャネル・ベースのオーディオまたはオーディオ・オブジェクトの重み付けされた線形結合を含む、ステップと;
    一つまたは複数のプロセッサを使用して、前記近距離場信号をデジタル近距離場データに変換するステップと;
    前記一つまたは複数のプロセッサを使用して、前記デジタル近距離場データをバッファリングするステップと;
    一つまたは複数のマイクロフォンを使用して、遠距離場スピーカーによって投射された遠距離場音響オーディオを捕捉するステップと;
    前記一つまたは複数のプロセッサを使用して、前記遠距離場オーディオをデジタル遠距離場データに変換するステップと;
    前記一つまたは複数のプロセッサを使用して、前記デジタル遠距離場データをバッファリングするステップと;
    前記一つまたは複数のプロセッサおよびバッファ内容を使用して、時間オフセットを決定するステップと;
    前記一つまたは複数のプロセッサを使用して、ローカル時間オフセットセットを前記時間オフセットに加えて、全時間オフセットを生成するステップと;
    前記一つまたは複数のプロセッサを使用して、前記全時間オフセットを使用して、前記近距離場スピーカーを通じた前記近距離場データの再生を開始するステップであって、それにより、前記近距離場スピーカーによって投射された近距離場音響データが前記遠距離場音響オーディオと同期的にオーバーレイされるようにする、ステップとを含む、
    方法。
  20. 一つまたは複数のプロセッサと;
    前記一つまたは複数のプロセッサによって実行されると前記一つまたは複数のプロセッサに請求項1ないし20のうちいずれか一項に記載の方法を実行させる命令を記憶しているメモリとを有する、
    装置。
  21. 一つまたは複数のプロセッサによって実行されると前記一つまたは複数のプロセッサに請求項1ないし20のうちいずれか一項に記載の方法を実行させる命令を記憶している非一時的なコンピュータ読み取り可能な記憶媒体。
  22. メディア・ソース装置を使用して、チャネル・ベースのオーディオまたはオーディオ・オブジェクトのうちの少なくとも1つを含むソース信号を受領するステップと;
    前記メディア・ソース装置を使用して、少なくとも部分的には前記ソース信号に基づいて遠距離場信号を生成するステップと;
    前記メディア・ソース装置を使用して、遠距離場スピーカーを通じた再生のための前記遠距離場信号をオーディオ再生環境にレンダリングするステップと;
    前記メディア・ソース装置を使用して、少なくとも部分的には前記ソース信号に基づいて一つまたは複数の近距離場信号を生成するステップと;
    前記遠距離場信号を前記遠距離場のスピーカーに提供する前に、前記近距離場信号を、近距離場再生装置または前記近距離場スピーカーに結合された中間装置に送信するステップと;
    前記レンダリングされた遠距離場信号を、前記オーディオ再生環境への投射のために、前記遠距離場スピーカーに提供するステップとを含む、
    方法。
    一つまたは複数のプロセッサと;
    前記一つまたは複数のプロセッサによって実行されると前記一つまたは複数のプロセッサに請求項1ないし20のうちいずれか一項に記載の方法を実行させる命令を記憶しているメモリとを有する、
    装置。
  23. 前記近距離場信号は向上されたダイアログを含む、請求項22に記載の方法。
  24. 前記近距離場再生装置または前記中間装置に送られる少なくとも2つの近距離場信号があり、第1の近距離場信号は、前記近距離場装置の近距離場スピーカーを通じた再生のために近距離場音響オーディオにレンダリングされ、第2の近距離場信号は、前記遠距離場音響オーディオを前記第1の近距離場信号と同期させるのを支援するために使用される、請求項22または23に記載の方法。
  25. 前記近距離場再生装置に送られる少なくとも2つの近距離場信号があり、第1の近距離場信号は、第1の言語でのダイアログ内容を含み、前記第2の近距離場信号は、前記第1の言語とは異なる第2の言語でのダイアログ内容を含む、請求項22ないし24のうちいずれか一項に記載の方法。
  26. 前記近距離場信号および前記レンダリングされた遠距離場信号は、前記近距離場音響オーディオの前記遠距離場音響オーディオとの同期的なオーバーレイを支援するために、可聴でないマーカー信号を含む、請求項22ないし25のうちいずれか一項に記載の方法。
  27. オーディオ再生環境においてメディア・ソース装置によって送信された近距離場信号を無線受信機を使用して受信するステップと;
    一つまたは複数のプロセッサを使用して、前記近距離場信号をデジタル近距離場データに変換するステップと;
    前記一つまたは複数のプロセッサを使用して、前記デジタル近距離場データにバッファリングするステップと;
    一つまたは複数のマイクロフォンを使用して、遠距離場スピーカーによって投射された遠距離場音響オーディオを捕捉するステップと;
    前記一つまたは複数のプロセッサを使用して、前記遠距離場音響オーディオをデジタル遠距離場データに変換するステップと;
    前記一つまたは複数のプロセッサを使用して、前記デジタル遠距離場データをバッファリングするステップと;
    前記一つまたは複数のプロセッサおよびバッファ内容を使用して、時間オフセットを決定するステップと;
    前記一つまたは複数のプロセッサを使用して、ローカル時間オフセットセットを前記時間オフセットに加えて全時間オフセットを生成するステップと;
    前記一つまたは複数のプロセッサを使用して、前記全時間オフセットを使用して、近距離場スピーカーを通じた前記近距離場データの再生を開始するステップであって、それにより前記近距離場スピーカーによって投射された近距離場音響データが、前記遠距離場音響オーディオと同期してオーバーレイされるようにするステップとを含む、
    方法。
  28. 前記近距離場再生装置の一つまたは複数のマイクロフォンを使用して、前記オーディオ再生環境からの目標音声を捕捉するステップと;
    前記一つまたは複数のプロセッサを使用して、捕捉された目標音声をデジタルデータに変換するステップと;
    前記一つまたは複数のプロセッサを使用して、電気音響伝達関数を近似するフィルタを使用して前記デジタルデータを反転することによって、アンチ音声を生成するステップと;
    前記一つまたは複数のプロセッサを使用して、前記アンチ音声を使用して、前記目標音声を打ち消すステップとをさらに含む、
    請求項27に記載の方法。
  29. 前記遠距離場音響オーディオは、前記目標音声である第1の言語での第1のダイアログを含み、打ち消された第1のダイアログは、前記第1の言語とは異なる第2の言語での第2のダイアログで置き換えられ、前記第2の言語のダイアログは、二次的な近距離場信号に含まれる、請求項28に記載の方法。
  30. 前記遠距離場音響オーディオは、前記目標音声である第1のコメンタリーを含み、打ち消された第1のコメンタリーは、前記第1のコメンタリーとは異なる第2のコメンタリーで置き換えられ、前記第2のコメンタリーは、二次的な近距離場信号に含まれる、請求項28または29に記載の方法。
  31. 前記遠距離場音響オーディオは、前記遠距離場音響オーディオをミュートするよう前記アンチ音声によって打ち消される前記目標音声である、請求項28ないし30のうちいずれか一項に記載の方法。
  32. 一つまたは複数のオーディオ・オブジェクトの映画館レンダリングと近距離場再生装置レンダリングとの間の差が、前記近距離場信号に含まれ、前記近距離場音響オーディオをレンダリングするために使用され、それにより、前記映画館レンダリングには含まれるが、前記近距離場再生装置レンダリングには含まれない前記一つまたは複数のオーディオ・オブジェクトが、前記近距離場音響オーディオのレンダリングから除外される、請求項28に記載の方法。
  33. 前記オーディオ再生環境におけるオブジェクトから聴取者までの距離の関数として重み付けが適用され、それにより、聴取者に近接して聞こえることが意図された一つまたは複数の特定の音が、前記近距離場信号においてのみ伝達され、前記近距離場信号は、前記遠距離場音響オーディオにおける同じ特定の一つまたは複数の音を打ち消すために使用される、請求項32に記載の方法。
  34. 前記近距離場信号は、向上された空間性を提供するために、聴取者の頭部伝達関数(HRTF)によって修正される、請求項27ないし33のうちいずれか一項に記載の方法。
  35. 一つまたは複数のプロセッサと;
    前記一つまたは複数のプロセッサによって実行されると、前記一つまたは複数のプロセッサに請求項22ないし34のうちいずれか一項に記載の方法を実行させる命令を記憶しているメモリとを有する、
    装置。
  36. 一つまたは複数のプロセッサによって実行されると、前記一つまたは複数のプロセッサに請求項22ないし34のうちいずれか一項に記載の方法を実行させる命令を記憶している非一時的なコンピュータ読み取り可能な記憶媒体。
JP2022518350A 2019-09-23 2020-09-22 ハイブリッド式近距離/遠距離場スピーカー仮想化 Pending JP2022548400A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201962904027P 2019-09-23 2019-09-23
US201962903975P 2019-09-23 2019-09-23
US62/904,027 2019-09-23
US62/903,975 2019-09-23
US202063077517P 2020-09-11 2020-09-11
US63/077,517 2020-09-11
PCT/US2020/052065 WO2021061680A2 (en) 2019-09-23 2020-09-22 Hybrid near/far-field speaker virtualization

Publications (1)

Publication Number Publication Date
JP2022548400A true JP2022548400A (ja) 2022-11-18

Family

ID=74068654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022518350A Pending JP2022548400A (ja) 2019-09-23 2020-09-22 ハイブリッド式近距離/遠距離場スピーカー仮想化

Country Status (5)

Country Link
US (1) US20220345845A1 (ja)
EP (1) EP4035418A2 (ja)
JP (1) JP2022548400A (ja)
CN (1) CN114424583A (ja)
WO (1) WO2021061680A2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10575094B1 (en) * 2018-12-13 2020-02-25 Dts, Inc. Combination of immersive and binaural sound
CN117880696B (zh) * 2022-10-12 2024-07-16 广州开得联软件技术有限公司 混音方法、装置、计算机设备以及存储介质
CN117636907B (zh) * 2024-01-25 2024-04-12 中国传媒大学 基于广义互相关的音频数据处理方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102483042B1 (ko) * 2016-06-17 2022-12-29 디티에스, 인코포레이티드 근거리/원거리 렌더링을 사용한 거리 패닝
CN109791441A (zh) * 2016-08-01 2019-05-21 奇跃公司 具有空间化音频的混合现实***
GB2573362B (en) * 2018-02-08 2021-12-01 Dolby Laboratories Licensing Corp Combined near-field and far-field audio rendering and playback

Also Published As

Publication number Publication date
CN114424583A (zh) 2022-04-29
WO2021061680A2 (en) 2021-04-01
US20220345845A1 (en) 2022-10-27
EP4035418A2 (en) 2022-08-03
WO2021061680A3 (en) 2021-09-02

Similar Documents

Publication Publication Date Title
US8787602B2 (en) Device for and a method of processing audio data
US7123731B2 (en) System and method for optimization of three-dimensional audio
JP6167178B2 (ja) オブジェクトに基づくオーディオのための反射音レンダリング
JP5325988B2 (ja) 補聴器システムにおいてバイノーラル・ステレオにレンダリングする方法および補聴器システム
KR101512992B1 (ko) 오디오 데이터를 처리하기 위한 디바이스 및 방법
CN103053180B (zh) 用于声音再现的***和方法
US8199942B2 (en) Targeted sound detection and generation for audio headset
US20220345845A1 (en) Method, Systems and Apparatus for Hybrid Near/Far Virtualization for Enhanced Consumer Surround Sound
JP2009509185A (ja) 同期音声データ処理のための音声データ処理装置及び方法
JP2010538571A (ja) オーディオ信号のデコーディング方法及び装置
KR20060041736A (ko) 음향 재생 장치 및 음향 재생 방법
US20230008591A1 (en) Systems and methods of providing spatial audio associated with a simulated environment
US11727950B2 (en) Systems, devices, and methods for synchronizing audio
Quackenbush et al. MPEG standards for compressed representation of immersive audio
US20190246230A1 (en) Virtual localization of sound
US20190182557A1 (en) Method of presenting media
WO2011068192A1 (ja) 音響変換装置
US20230113703A1 (en) Method and system for audio bridging with an output device
JP2022128177A (ja) 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム
JP2013201669A (ja) 音データ処理装置
JP2006157106A (ja) 音響再生装置及び音響再生システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230921