JP7285967B2 - フォービエイテッドオーディオレンダリング - Google Patents

フォービエイテッドオーディオレンダリング Download PDF

Info

Publication number
JP7285967B2
JP7285967B2 JP2021570183A JP2021570183A JP7285967B2 JP 7285967 B2 JP7285967 B2 JP 7285967B2 JP 2021570183 A JP2021570183 A JP 2021570183A JP 2021570183 A JP2021570183 A JP 2021570183A JP 7285967 B2 JP7285967 B2 JP 7285967B2
Authority
JP
Japan
Prior art keywords
rendering
sound signal
sound
rendering quality
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021570183A
Other languages
English (en)
Other versions
JP2022536255A (ja
Inventor
マーティン ウォルシュ
エドワード シュタイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS Inc filed Critical DTS Inc
Publication of JP2022536255A publication Critical patent/JP2022536255A/ja
Application granted granted Critical
Publication of JP7285967B2 publication Critical patent/JP7285967B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Description

(関連出願及び優先権主張)
本出願は、2019年5月31日に出願され、名称が「フォービエイテッドオーディオレンダリング(Foveated Audio Rendering)」である米国仮出願第62/855,225号に関連し、優先権を主張するものであり、その全体が引用により本明細書に組み込まれる。
(技術分野)
本明細書に記載される技術は、空間的オーディオレンダリングのためのシステム及び方法に関する。
個々のオーディオ信号が様々な位置から生じている(例えば、3D空間に定位される)という認識を生成するのに、オーディオバーチャライザーを使用することができる。オーディオバーチャライザーは、複数のスピーカー又はヘッドフォンを用いてオーディオを再生する際に用いることができる。音源を仮想化する技術は、リスナーに対する音源の位置に基づいて、当該音源をレンダリングすることを含む。しかしながら、特に複数の音源については、リスナーとの相対的な音源位置をレンダリングすることは、技術的に複雑で計算コストが高くなる可能性がある。改善されたオーディオバーチャライザーが必要とされている。
米国特許第5,974,380号明細書 米国特許第5,978,762号明細書 米国特許第6,487,535号明細書
一実施形態による、ユーザの視野の概略図である。 一実施形態による、オーディオ品質レンダリング決定エンジンの概略図である。 一実施形態による、ユーザ音響スフィアの概略図である。 一実施形態による、サウンドレンダリングシステムの方法の概略図である。 例示的な一実施形態による、仮想サラウンドシステムの概略図である。
本発明の主題は、オーディオ仮想化が直面する技術的問題に対する技術的解決策を提供する。オーディオ仮想化が直面する技術的な複雑さ及び計算強度を低減するために、技術的解決策は、異なる品質レベルでオーディオオブジェクトをバイノーラルにレンダリングすることを含み、各音源の品質レベルは、ユーザの視野に対する相対的な位置に基づいて選択することができる。一例として、この技術的解決策は、ユーザの中心視野の外側にある音源のオーディオ品質を低下させることにより、技術的複雑さ及び計算強度を低減する。また、この解決策は、オブジェクトオーディオがどこから生じているのかユーザが分からない場合に、オーディオレンダリングの精度を検証するユーザの能力が低いことを利用している。一般的、人間は、注視方向を中心とした約60度の円弧に通常は限定された強い視力を有する。この強い中央視力を担う目の部分が中心窩(フォービエ)であり、本明細書で使用する場合、この強い中央視力領域に対するオーディオオブジェクトの位置に基づいてオーディオオブジェクトをレンダリングすることを、「フォービエイテッドオーディオレンダリング」と呼ぶ。一例として、この強い中央視力領域内のサウンドオブジェクトに対して、高品質のオーディオレンダリングを適用することができる。逆に、より複雑度の低いアルゴリズムを、レンダリングされるオブジェクトが見えない他の領域に適用することができるが、ユーザは、複雑度の低いアルゴリズムに関連する定位エラーに気づく可能性が低いか、又は気づくことができなくなるであろう。これらの技術的解決策は、より複雑なシステムの処理を軽減し、低い技術的コスト及び計算コストで遙かに高品質なレンダリングを提供する可能性がある。
添付図面に関して以下に記載される詳細な説明は、本発明の主題の現在好ましい実施形態の説明として意図するものであり、本発明の主題を構築又は利用できる唯一の形態を表すことを意図するものではない。本説明は、例証する実施形態に関して本発明の主題を構築し動作させる機能及びステップシーケンスを示す。同じ又は同等の機能及びシーケンスは、本発明の主題の範囲内に包含されるものとする様々な実施形態によって達成できる点を理解されたい。更に、関係を示す用語(例えば、第1、第2)の使用は、単に1つの構成要素を別の構成要素から区別するためだけに用いられ、何れかの実際のこのような関係又はこのような構成要素間の順序を必ずしも必要とするか又は示唆するものではない点を理解されたい。
図1は、一実施形態による、ユーザ視野100の概略図である。ユーザ110は、関連する全視野120を有することができる。全視野120は、複数の領域に細分化することができる。焦点領域130は、ユーザの真正面にあることができ、焦点領域130は、ユーザの全視野120の中央部分の約30度を含むことができる。3D視野140は、焦点領域130を超えてユーザの全視野120の中央部分の約60度を含むように拡張することができる。一例では、ユーザ110は、3D視野140内で3Dでオブジェクトを見ることができる。周辺視野150は、3D視野140を超えてユーザの全視野120の中央部分の約120度を含むように拡張することができる。3D視野140に加えて、周辺視野150は、左周辺領域160及び右周辺領域165を含むことができる。両眼では左周辺領域160及び右周辺領域165にてオブジェクトを観察することができるが、これらの領域では視力が低下しているため、これらのオブジェクトは2Dで見られることになる。また、視野120は、右目が見えない左のみの領域170を含むことができ、左目が見えない右のみの領域175を含むこともできる。
1又は2以上の音源180は、ユーザの視野120内に配置することができる。音源180からのオーディオは、ユーザ110の各鼓膜に別個の音響経路を進むことができる。音源180から各鼓膜への別個の経路は、固有の音源鼓膜周波数応答及び両耳間時間差(ITD)を生成する。この周波数特性とITDを組み合わせて、バイノーラル頭部伝達関数(HRTF)などの音響モデルを形成することができる。音源180からユーザ110の各鼓膜までの各音響経路は、対応するHRTFの固有のペアを有することができる。各ユーザ110は、僅かに異なる頭部形状又は耳形状を有する場合があるので、頭部形状又は耳形状に応じて対応する僅かに異なるHRTFを有することができる。特定の音源180の位置から音を正確に再現するために、各ユーザ110についてHRTF値を測定し、そのHRTFを音源180で畳み込み、音源180の位置からのオーディオをレンダリングすることができる。HRTFは、特定の場所からの音源180の正確な再現を特定のユーザ110に対して提供するが、全てのユーザの全ての場所から全てのタイプの音を測定して、全ての実施可能なHRTFを生成することは実用的ではない。HRTF測定値の数を低減するために、HRTFペアを特定の場所でサンプリングし、サンプリングされる位置の間の位置について、HRTFを補間することができる。このHRTF補間を用いて再現されるオーディオ品質は、サンプル位置の数を増加することにより、又はHRTF補間を改善することにより向上させることができる。
HRTF補間は、様々な方法論を用いて実施することができる。一実施形態では、HRTF補間は、マルチチャネルスピーカーミックスの生成(例えば、ベクトルベースの振幅パンニング、Ambisonics)、及び汎用HRTFを使用したスピーカーの仮想化を含むことができる。この解決策は、効率的であるが、ITD及びHRTFが不正確で正面のイメージングが減少することになる場合など、品質が低下する可能性がある。この解決策は、マルチチャネルゲーム、マルチチャネル映画、又はインタラクティブ3Dオーディオ(I3DA)に利用することができる。一実施形態では、HRTF補間は、各音源の最小位相HRTFとITDの線形結合を含むことができる。これにより、ITDの精度が改善されることを通じて、低周波精度の改善をもたらすことができる。しかしながら、これはまた、HRTFの高密度データベース(例えば、少なくとも100個のHRTF)がないと、HRTF補間の性能を低下させる可能性があり、実装するための計算コストがより高くなる可能性がある。一実施形態では、HRTF補間は、各音源の周波数領域補間とパーソナライズされたHRTFの組み合わせを含むことができる。これは、補間されたHRTFの音源位置をより正確に再現することに焦点を当て、正面定位及び外在化の性能改善を提供することができるが、実装するには計算コストが高い可能性がある。
音源180の位置に基づくHRTF位置と補間の組み合わせを選択することで、改善されたHRTFオーディオレンダリング性能を提供することができる。計算強度を低減しながら、HRTFレンダリングの性能を向上させるために、最高品質のHRTFレンダリングを焦点領域130内のオーディオオブジェクトに適用することができ、視野120内の焦点領域130から次第に遠ざかる領域に対しては、HRTFレンダリング品質を低下させることができる。視野120内の細分化された領域に基づくHRTFのこの選択を用いて、低減されたオーディオ品質のレンダリングがユーザに認識されない特定の領域において、この低減されたオーディオ品質のレンダリングを選択することができる。更に、視野120内の細分化された領域の遷移にてシームレスな遷移を用いて、ユーザ110が領域間の遷移を検出する能力を低減又は排除することができる。視野120内の領域及び視野外の領域を用いて、以下の図2に関して説明されるなど、各音源に適用されるレンダリング品質を決定することができる。
図2は、一実施形態による、オーディオ品質レンダリング決定エンジン200の概略図である。決定エンジン200は、音源位置を決定すること(210)から始めることができる。1又は2以上の音源位置が視野220内にあるときには、音源は、個別化HRTF225の複雑な周波数領域補間に基づいてレンダリングすることができる。1又は2以上の音源位置が視野220の外で周辺領域230内にある場合、音源は、ソースごとのITD235を用いた線形時間領域HRTF補間に基づいてレンダリングすることができる。1又は2以上の音源位置が、視野220の外で且つ周辺領域230の外であるが、サラウンド領域240内にある場合、音源は、仮想スピーカー245に基づいてレンダリングすることができる。
2つの領域間の境界上又は境界付近の音源は、利用可能なHRTF測定値、視覚領域境界、又は視覚領域の許容範囲の組み合わせに基づいて補間することができる。一実施形態では、視野220、周辺領域230、及びサラウンド領域240間の各遷移において、HRTF測定を行うことができる。領域間の遷移でHRTF測定を行うことにより、オーディオ品質レンダリング決定エンジン200は、隣接する領域間の1又は2以上のレンダリング品質の間のシームレスな遷移を提供することができ、このような遷移はユーザにとって聴覚的に透明であるようになる。遷移は、ユーザの正面を中心とした60度の円錐セクションの円錐面のような遷移角度を含むことができる。遷移は、ユーザの正面を中心とした60度の円錐セクションの円錐面の両側に5度ずつのような遷移領域を含むことができる。一実施形態では、遷移又は遷移領域の位置は、近隣のHRTF測定値の位置に基づいて決定される。例えば、視野220と周辺領域230との間の遷移点は、ユーザの正面を中心とした約60度の円弧に最も近いHRTF測定位置に基づいて決定することができる。遷移点の決定は、隣接する2つのレンダリング品質の結果を、シームレスな聴覚的連続性を実現するために十分に類似した結果を提供するように調整することを含むことができる。一例として、シームレスな遷移は、境界で測定されたHRTFを使用することを含み、ソースごとのITDは、共通のITDが適用されることを保証しながら、測定されたHRTFをベースラインレンダリングとして使用することができる。
視覚領域の許容範囲は、利用可能なHRTF測定値と組み合わせて使用して、視覚領域境界を決定することができる。例えば、HRTFが、視野220の外にあるが、視野220の視覚領域の許容範囲内にある場合、HRTFの位置は、視野220と周辺領域230との間の境界として使用することができる。HRTFを使用した音源のレンダリングは、領域遷移時にHRTF測定を行うことによって、又はHRTF測定の数を低減することによって、又はユーザの音響スフィア全体にわたってHRTFレンダリングモデルを実装する必要性を回避することによってなど、利用可能なHRTF測定に基づいて領域を変化させることによって簡素化される。
1又は2以上の遷移又は遷移領域を使用することで、本明細書に記載されたシステム及び方法の可検出性を提供することができる。例えば、HRTF遷移の実装は、遷移領域のうちの1又は2以上にてオーディオ遷移を検出することによって検出することができる。更に、ITDを正確に測定し、領域間のクロスフェージングと比較することができる。同様に、周波数領域HRTF補間を観察して、正面領域の線形補間と比較することができる。
図3は、一実施形態による、ユーザ音響スフィア300の概略図である。音響スフィア300は、視野領域310を含むことができ、この視野領域は、視野220を60度の視円錐に拡張することができる。一例では、視野領域310内の音源は、周波数領域HRTF補間に基づいてレンダリングすることができ、決定されたITDに基づく補償を含むことができる。特に、HRTF補間を実行して、隣接する測定されたHRTFから1又は2以上の中間HRTFフィルタを導出することができ、ITDは、測定又は式に基づいて決定することができ、また、オーディオオブジェクトは、補間されたHRTF及び関連するITDに基づいてフィルタリングすることができる。音響スフィア300は、視野領域310の周辺を含むことができ、これは、周辺領域230を120度の視円錐まで拡張することができる。一例では、周辺領域230内の音源は、時間領域頭部インパルス応答(HRIR)補間に基づいてレンダリングすることができ、決定されたITDに基づく補償を含むことができる。特に、時間領域HRIR補間を実行して、1又は2以上の測定されたHRTFから中間HRTFフィルタを導出することができ、ITDは、測定又は式に基づいて導出することができ、オーディオオブジェクトは、補間されたHRTF及び関連するITDを用いてフィルタリングすることができる。一例として、HRIRサンプリングは、均一なサンプリングを含まない場合がある。サラウンドオーディオレンダリングは、サラウンド領域330に適用することができ、ここでサラウンド領域330は、周辺領域320と視野領域310の両方の外側にあることができる。一例では、サラウンド領域330内の音源は、1又は2以上のラウドスピーカー位置にて測定されたHRIRを使用するなど、ラウドスピーカーアレイ全体のベクトルベースの振幅パンニングに基づいてレンダリングすることができる。図3に関して3つのゾーンが図示され検討されているが、追加のゾーンを識別又は使用して、1又は2以上の音源をレンダリングすることができる。
音響スフィア300は、1又は2以上の仮想現実又は複合現実アプリケーションにおいてオーディオをレンダリングする際に特に有用とすることができる。仮想現実アプリケーションの場合、ユーザは、主として注視方向の1又は2以上のオブジェクトに集中している。音響スフィア300と本明細書に記載されたオーディオレンダリングを使用することにより、仮想現実における高品質のレンダリングは、仮想現実ユーザの周りの大きな空間で起こっているように知覚することができる。複合現実感アプリケーション(例えば、拡張現実アプリケーション)では、HRTFレンダリング及び補間を改善するために、現実音源と仮想音源とをミックスすることができる。仮想現実又は複合現実アプリケーションでは、注視方向内の音発生オブジェクトについて、オーディオ及び視覚品質の両方を向上させることができる。
図4は、一実施形態による、サウンドレンダリングシステムの方法400の概略図である。方法400は、ユーザビュー方向410を決定することを含むことができる。ユーザビュー方向410は、ユーザ位置の正面にあるように決定することができ、又はインタラクティブ方向入力(例えば、ビデオゲームコントローラ)、視線追跡デバイス、又は他の入力に基づいて、ユーザビュー方向410を含むように修正することができる。方法400は、ユーザの焦点場420を有する1又は2以上のオーディオオブジェクトを識別することができる。方法400は、ユーザの焦点場内のオブジェクトをより高品質のレンダリング430でレンダリングすることを含むことができ、ユーザの焦点場の外のオブジェクトをより低品質のレンダリング435でレンダリングすることを含むことができる。上述したような、ユーザの焦点の追加領域及び追加のレンダリング品質を使用することができる。方法400は、1又は2以上のレンダリングされたオーディオオブジェクトを組み合わせて、ユーザに出力することを含むことができる。一実施形態では、方法400は、方法400へのアクセスを可能にするために、ソフトウェア内又はソフトウェア開発キット(SDK)内に実装することができる。これらの様々な使用焦点領域を用いて、このジグザグのオーディオ実装の複雑さを提供することができるが、図5に関して図示され説明されたような、シミュレートされた物理的スピーカー位置を使用することができる。
図5は、例示的な実施形態による、仮想サラウンドシステム500の概略図である。仮想サラウンドシステム500は、上述したジグザグオーディオ実装の複雑さを、仮想サラウンド音源のセットに適用できる例示的なシステムである。仮想サラウンドシステム500は、バイノーラルヘッドフォン520などを介して、ユーザ510にシミュレートされたサラウンドサウンドを提供することができる。ユーザは、スクリーン530上のビデオを見ている間、ヘッドフォン520を使用することができる。仮想サラウンドシステム500を用いて、シミュレートされた5.1サラウンドサウンドを提供することができるなど、複数のシミュレートされたサラウンドチャネルを提供することができる。システム500は、スクリーン530の近くに配置されるようにシミュレートすることができる仮想センターチャネル540を含むことができる。システム500は、仮想左フロント・スピーカー550、仮想右フロント・スピーカー555、仮想左リア・スピーカー560、仮想右リア・スピーカー565、及び仮想サブウーファ570を含む、仮想左及び右スピーカーのペアを含むことができる。仮想サラウンドシステム500は、シミュレートされた5.1サラウンドサウンドを提供するよう示されているが、システム500は、7.1、11.1、22.2、又は他のサラウンドサウンド構成をシミュレートするのに使用することができる。
上述のジグザグのオーディオ実装の複雑さは、仮想サラウンドシステム500における仮想サラウンド音源のセットに適用することができる。音源は、関連する5.1オーディオチャネルのセットを有することができ、仮想サラウンドシステム500は、5.1仮想スピーカーの各々の仮想位置を中心とした領域において、最適シミュレートされたオーディオレンダリングを提供するのに使用することができる。一例として、個別化HRTFの複素周波数領域補間を各仮想スピーカーの位置にて用いることができ、音源ごとのITDでの線形時間領域HRTF補間を仮想スピーカーの何れかの間で用いることができる。仮想スピーカーの位置を焦点領域と組み合わせて用いて、シミュレートされたオーディオレンダリングを決定することができる。一例として、フロント仮想スピーカー540、550、555の位置では、個別化HRTFの複素周波数領域補間を使用することができ、ユーザの全視野内のフロント仮想スピーカー540、550、555の間では、音源ごとのITDを用いた線形時間領域HRTF補間を使用することができ、リア仮想スピーカー560、565及びサブウーファ570では、仮想ラウドスピーカーが使用することができる。
本開示は、その例示的な実施形態を参照して詳細に説明してきたが、様々な変更及び修正を本実施形態の範囲から逸脱することなく行うことができることは、当業者には明らかであろう。従って、本開示は、添付の特許請求の範囲及びその均等物の範囲内にあることを条件として、本開示の修正及び変形を保護することを意図している。
本発明の主題は、オーディオ信号(すなわち、物理的サウンドを表す信号)を処理することに関する。これらのオーディオ信号は、デジタル電子信号により表される。本実施形態の記載において、概念を例示するためにアナログ波形を図示し又は検討する場合がある。しかしながら、本発明の主題の典型的な実施形態は、デジタルバイト又はワードの時系列の関連にて動作し、これらのバイト又はワードは、アナログ信号又は最終的には物理的サウンドの離散的近似値を形成することを理解されたい。この離散的なデジタル信号は、周期的にサンプリングされたオーディオ波形のデジタル表現に対応している。均一なサンプリングのためには、波形は、対象の周波数に対してナイキストのサンプリング定理を満たすのに十分な速度以上で又はそれを超えてサンプリングする必要がある。典型的な実施形態において、約44,100サンプル/秒(例えば、44.1kHz)の均一なサンプリングレートを使用できるが、代替として、より高いサンプリングレート(例えば、96kHz、128kHz)を使用することもできる。量子化方式及びビット分解能は、標準的なデジタル信号処理技術に従って、特定のアプリケーションの要件を満たすように選択する必要がある。本発明の主題の技術及び装置は、典型的には、複数のチャネルにおいて相互に依存して適用されることになる。例えば、「サラウンド」オーディオシステム(例えば、2以上のチャネルを有する)の関連で使用することができる。
本明細書で使用される場合、「デジタルオーディオ信号」又は「オーディオ信号」は、単なる数学的抽象化を記述したものではなく、機械又は装置によって検出可能な物理媒体において具現化された又は物理媒体によって伝えられる情報を示している。これらの用語は、記録された信号又は送信された信号を含み、パルスコード変調(PCM)又は他の符号化を含む、あらゆる形態の符号化による伝達を含むと理解すべきである。出力、入力、又は中間のオーディオ信号は、MPEG、ATRAC、AC3、又は米国特許第5,974,380号、第5,978,762号、及び第6,487,535号に記載されているような、DTS社の独占的所有権のある方法を含む、様々な既知の方法の何れかで符号化又は圧縮することができる。当業者であれば理解されるように、特定の圧縮・符号化方式に対応するためには、計算を幾らか変更する必要がある。
ソフトウェアでは、オーディオ「コーデック」は、所定のオーディオファイルフォーマット又はストリーミングオーディオフォーマットに従ってデジタルオーディオデータをフォーマットするコンピュータプログラムを含む。ほとんどのコーデックは、QuickTime Player、XMMS、Winamp、Windows(登録商標) Media Player、Pro Logic、又は他のコーデックなどの1又は2以上のマルチメディアプレーヤーにインターフェースするライブラリとして実装されている。ハードウェアにおいて、オーディオコーデックとは、アナログオーディオをデジタル信号としてエンコードして、デジタルをアナログにデコードする単一又は複数のデバイスを指す。換言すると、オーディオコーデックは、共通のクロックで動作するアナログ・デジタル・コンバータ(ADC)とデジタル・アナログ・コンバータ(DAC)の両方を含む。
オーディオコーデックは、DVDプレーヤー、Blu-Rayプレーヤー、TVチューナー、CDプレーヤー、ハンドヘルドプレーヤー、インターネットオーディオ/ビデオデバイス、ゲームコンソール、携帯電話、又は他の電子デバイスなどの家庭用電子デバイスに実装することができる。家庭用電子デバイスは、IBM PowerPC、Intel Pentium (x86)プロセッサ、又は他のプロセッサなど、このような1又は2以上の従来型のプロセッサを表すことができる中央処理装置(CPU)を含む。ランダム・アクセス・メモリ(RAM)は、CPUによって実行されたデータ処理動作の結果を一時的に格納し、専用のメモリチャネルを介して相互接続される。家庭用電子デバイスはまた、ハードドライブなどの永久記憶装置を含むことができ、これらもまたI/Oバスを介してCPUと通信する。また、テープドライブ、光ディスクドライブ、又は他の記憶装置などの他のタイプの記憶装置を接続することができる。グラフィックスカードはまた、ビデオバスを介してCPUに接続することができ、ここでグラフィックスカードは、表示データを表す信号をディスプレイモニターに送信する。キーボード又はマウスなどの外部周辺データ入力デバイスは、USBポートを介してオーディオ再生システムに接続することができる。USBコントローラは、USBポートに接続された外部周辺機器のデータ及び命令をCPUとの間で変換する。プリンター、マイクロフォン、スピーカー、又は他のデバイスなどの追加デバイスを家庭用電子デバイスに接続することができる。
家庭用電子デバイスは、ワシントン州レドモンドのマイクロソフト社のWINDOWS(登録商標)、カリフォルニア州クパチーノのアップル社のMAC OS、アンドロイド(登録商標)などのモバイル・オペレーティング・システム用に設計されたモバイルGUIの様々なバージョン、又は他のオペレーティングシステムなど、グラフィカル・ユーザ・インターフェース(GUI)を有するオペレーティングシステムを使用することができる。家庭用電子デバイスは、1又は2以上のコンピュータプログラムを実行することができる。一般的に、オペレーティングシステム及びコンピュータプログラムは、コンピュータ可読媒体において有形的に具現化され、ここでコンピュータ可読媒体は、ハードドライブを含む固定又はリムーバブルデータストレージのうちの1又は2以上を含む。オペレーティングシステム及びコンピュータプログラムの両方が、CPUによる実行のために、前述のデータ記憶装置からRAMにロードすることができる。コンピュータプログラムは、CPUによって読み取られて実行されたときに、CPUに本発明の主題のステップ又は特徴を実行するステップを実行させる命令を含むことができる。
オーディオコーデックは、様々な構成又はアーキテクチャを含むことができる。本発明の主題の範囲を逸脱することなく、このような何れかの構成又はアーキテクチャを容易に置き換えることができる。当業者であれば、上述のシーケンスがコンピュータ可読媒体において最も一般的に使用されているが、本発明の主題の範囲から逸脱することなく置き換えることができる他の既存のシーケンスが存在することを認識するであろう。
オーディオコーデックの一実施形態の要素は、ハードウェア、ファームウェア、ソフトウェア、又はこれらの任意の組み合わせによって実装することができる。ハードウェアとして実装される場合、オーディオコーデックは、単一のオーディオ信号プロセッサに利用することができ、又は様々な処理構成要素に分散することができる。ソフトウェアにて実装される場合、本発明の主題の実施形態の要素は、必要なタスクを実行するためのコードセグメントを含むことができる。ソフトウェアは、本発明の主題の一実施形態に記載されている動作を実行するための実際のコードを含むか、又は動作をエミュレート又はシミュレートするコードを含むことが好ましい。プログラム又はコードセグメントは、プロセッサ又はマシンアクセス可能な媒体に格納されるか、又は伝送媒体を介して搬送波(例えば、搬送波によって変調された信号)で具現化されたコンピュータデータ信号によって伝送することができる。「プロセッサ可読又はアクセス可能な媒体」又は「機械可読又はアクセス可能媒体」は、情報を格納、送信、又は転送することができる任意の媒体を含むことができる。
プロセッサ可読媒体の実施例は、電子回路、半導体記憶素子、リードオンリーメモリ(ROM)、フラッシュ・メモリ、消去可能ROM(EPROM)、フロッピー・ディスケット、コンパクトディスク(CD)ROM、光ディスク、ハードディスク、光ファイバー媒体、無線周波数(RF)リンク、又は他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、空気、電磁、RFリンク、又は他の伝送媒体などの伝送媒体にわたって伝搬することができるあらゆる信号を含むことができる。コードセグメントは、インターネット、イントラネット、別のネットワークなどのコンピュータネットワークを介してダウンロードすることができる。機械アクセス可能媒体は、製造物品で具現化することができる。機械アクセス可能媒体は、機械によってアクセスされたときに、以下に記載される動作を機械に実行させるデータを含むことができる。ここで用語「データ」とは、機械読み取り可能な目的でエンコードされたあらゆるタイプの情報を指し、プログラム、コード、データ、ファイル、又は他の情報を含むことができる。
本発明の主題の実施形態は、ソフトウェアによって実装することができる。ソフトウェアは、互いに結合された複数のモジュールを含むことができる。ソフトウェアモジュールは、変数、パラメータ、引数、ポインター、結果、更新された変数、ポインター、又は他の入力又は出力を生成、送信、受信、又は処理するために、別のモジュールに結合される。ソフトウェアモジュールはまた、プラットフォーム上で実行されているオペレーティングシステムと対話するためのソフトウェアドライバ又はインターフェースとすることができる。ソフトウェアモジュールはまた、ハードウェアデバイスとの間でデータを構成、設定、初期化、送信、又は受信するためのハードウェアドライバとすることができる。
本発明の主題の実施形態は、通常、フローチャート、フローダイアグラム、構造ダイアグラム、又はブロックダイアグラムとして描かれたプロセスとして説明することができる。ブロック図では、逐次処理として動作を記述することができるが、多くの処理は並行して又は同時に実行することができる。加えて、動作の順序は再配列することができる。プロセスは、その動作が完了した時点で終了することができる。プロセスは、方法、プログラム、手順、又は他のステップのグループに対応することができる。
本明細書は、特にラウドスピーカー又はヘッドフォン(例えば、ヘッドセット)アプリケーションにおいて、オーディオ信号を合成するための方法及び装置を含む。本開示の態様は、ラウドスピーカー又はヘッドセットを含む例示的なシステムの関連で提示されているが、記載された方法及び装置は、このようなシステムに限定されず、また、本明細書の教示は、オーディオ信号の合成を含む他の方法及び装置に適用可能であることを理解されたい。実施形態の説明において使用される場合、オーディオオブジェクトは、3D位置データを含む。このため、オーディオオブジェクトは、3D位置データを有する音源の特定の組み合わせ表現を含むことが理解されるべきであり、これは典型的には動的位置である。対照的に、「音源」とは、最終的ミックス又はレンダリングにおいて再生又は再現するためのオーディオ信号であり、意図された静的又は動的なレンダリング方法又は目的を有する。例えば、音源は「フロントレフト」という信号とすることができ、又は、低周波効果(「LFE」)チャネルに再生されるか、或いは右に90度パンすることができる。
本明細書で開示された方法及び装置をより良好に例証するために、ここでは実施形態の非限定的なリストが提供される。
実施例1は、サウンドレンダリングシステムであって、1又は2以上のプロセッサと、命令を含む記憶装置と、を備え、上記命令が、1又は2以上のプロセッサによって実行されたときに、第1のレンダリング品質を用いて第1のサウンド信号をレンダリングし、第1のサウンド信号が中央視覚領域内の第1の音源に関連付けられ、第2のレンダリング品質を用いて第2のサウンド信号をレンダリングし、第2のサウンド信号が周辺視覚領域内の第2の音源に関連付けられ、第1のレンダリング品質が第2のレンダリング品質を上回る、ように1又は2以上のプロセッサを構成する。
実施例2では、実施例1の主題は、任意選択的に、第1のレンダリング品質が、個別化された頭部伝達関数(HRTF)の複素周波数領域補間を含み、第2のレンダリング品質が、音源ごとの聴覚間時間差(ITD)を有する線形時間領域HRTF補間を含む、ことを含む。
実施例3では、実施例1~2のうちの何れか1又は2以上の実施例の主題は、任意選択的に、中央視覚領域は、中央視覚視力と関連付けられ、周辺視覚領域は、周辺視覚視力と関連付けられ、中央視覚視力は、周辺視覚視力を上回る、ことを含む。
実施例4では、実施例3の主題は、任意選択的に、中央視覚領域は、ユーザ注視方向に中央円錐領域を含み、周辺視覚領域は、ユーザの視野内にあり及び中央円錐領域の外にある周辺円錐領域を含む、ことを含む。
実施例5では、実施例3~4の何れか1又は2以上の実施例の主題は、任意選択的に、上記命令は更に、遷移レンダリング品質を用いて遷移サウンド信号をレンダリングするように1又は2以上のプロセッサを構成し、遷移サウンド信号は、遷移境界領域内の遷移音源に関連付けられ、遷移境界領域は、中央円錐領域の周囲に沿って中央円錐領域及び周辺円錐領域によって共有され、遷移レンダリング品質は、第1のレンダリング品質と第2のレンダリング品質との間でシームレスなオーディオ品質遷移を提供することを含む。
実施例6では、実施例5の主題は、任意選択的に、遷移境界領域が、HRTFサンプリング位置を含むように選択されることを含む。
実施例7では、実施例6の主題は、任意選択的に、遷移境界領域にて共通ITDが適用されることを含む。
実施例8では、実施例1~7のうちの何れか1又は2以上の実施例の主題は、任意選択的に、上記命令は更に、第3のレンダリング品質を用いて第3のサウンド信号をレンダリングするように1又は2以上のプロセッサを構成し、第3のサウンド信号は、周辺視覚領域の外の非可視領域内の第3の音源に関連付けられ、第2のレンダリング品質は第3のレンダリング品質を上回る、ことを含む。
実施例9では、実施例8の主題は、任意選択的に、第3のレンダリング品質が仮想ラウドスピーカーのレンダリングを含むことを含む。
実施例10では、例1~9のうちの何れか1又は2以上の実施例の主題は、任意選択的に、上記命令が更に、第1のサウンド信号及び第2のサウンド信号に基づいてミックス出力信号を生成し、ミックス出力信号を可聴サウンド再生装置に出力する、ように1又は2以上のプロセッサを構成することを含む。
実施例11では、実施例10の主題は、任意選択的に、可聴サウンド再生装置がバイノーラルサウンド再生装置を含み、第1のレンダリング品質を用いて第1のサウンド信号をレンダリングすることは、第1の頭部伝達関数(HRTF)を用いて第1のサウンド信号を第1のバイノーラルオーディオ信号にレンダリングすることを含み、第2のレンダリング品質を用いて第2のサウンド信号をレンダリングすることは、第2のHRTFを用いて第2のサウンド信号を第2のバイノーラルオーディオ信号にレンダリングすることを含む、ことを含む。
実施例12は、サウンドレンダリング方法であって、第1のレンダリング品質を用いて第1のサウンド信号をレンダリングするステップであって、第1のサウンド信号は、中央視覚領域内の第1の音源に関連付けられているステップと、第2のレンダリング品質を用いて第2のサウンド信号をレンダリングするステップであって、第2のサウンド信号は、周辺視覚領域内の第2の音源に関連付けられ、第1のレンダリング品質は第2のレンダリング品質を上回る、ステップと、を含むサウンドレンダリング方法。
実施例13では、実施例12の主題は、任意選択的に、第1のレンダリング品質が、個別化された頭部伝達関数(HRTF)の複素周波数領域補間を含み、第2のレンダリング品質が、音源ごとの聴覚間時間差(ITD)を有する線形時間領域HRTF補間を含む、ことを含む。
実施例14では、実施例12~13のうちの何れか1又は2以上の実施例の主題は、任意選択的に、中央視覚領域は、中央視覚視力と関連付けられ、周辺視覚領域は、周辺視覚視力と関連付けられ、中央視覚視力は、周辺視覚視力を上回る、ことを含む。
実施例15では、実施例14の主題は、任意選択的に、中央視覚領域は、ユーザ注視方向に中央円錐領域を含み、周辺視覚領域は、ユーザの視野内にあり中央円錐領域の外にある周辺円錐領域を含む、ことを含む。
実施例16では、実施例14~15のうちの何れか1又は2以上の実施例の主題は、任意選択的に、遷移レンダリング品質を用いて遷移サウンド信号をレンダリングするステップを含み、遷移サウンド信号は、遷移境界領域内の遷移音源に関連付けられ、遷移境界領域は、中央円錐領域の周囲に沿って中央円錐領域及び周辺円錐領域によって共有され、遷移レンダリング品質は、第1のレンダリング品質と第2のレンダリング品質との間のシームレスなオーディオ品質遷移を提供する、ことを含む。
実施例17では、実施例16の主題は、任意選択的に、遷移境界領域がHRTFサンプリング位置を含むように選択されることを含む。
実施例18では、実施例16~17のうちの何れか1又は2以上の実施例の主題は、任意選択的に、共通ITDが遷移境界領域で適用されることを含む。
実施例19では、実施例12~18のうちの何れか1又は2以上の実施例の主題は、任意選択的に、第3のレンダリング品質を用いて第3のサウンド信号をレンダリングするステップを含み、第3のサウンド信号は、周辺視覚領域の外の非可視領域内の第3の音源に関連付けられ、第2のレンダリング品質は第3のレンダリング品質を上回る、ことを含む。
実施例20では、実施例19の主題は、任意選択的に、第3のレンダリング品質が仮想ラウドスピーカーレンダリングを含むことを含む。
実施例21では、実施例12~20のうちの何れか1又は2以上の実施例の主題は、第1のサウンド信号及び第2のサウンド信号に基づいてミックス出力信号を生成するステップと、ミックス出力信号を可聴サウンド再生装置に出力するステップとを含む。
実施例22では、実施例21の主題は、任意選択的に、可聴サウンド再生装置がバイノーラルサウンド再生装置を含み、第1のレンダリング品質を用いて第1のサウンド信号をレンダリングするステップが、第1の頭部伝達関数(HRTF)を用いて第1のサウンド信号を第1のバイノーラルオーディオ信号にレンダリングするステップを含み、第2のレンダリング品質を用いて第2のサウンド信号のレンダリングするステップが、第2のHRTFを用いて第2のサウンド信号を第2のバイノーラルオーディオ信号にレンダリングするステップを含む、ことを含む。
実施例23は、命令を含む1又は2以上の機械読取可能な媒体であり、この命令は、コンピューティングシステムによって実行されたときに、コンピューティングシステムに実施例12~22の方法の何れかを実行させる。
実施例24は、実施例12~22の方法の何れかを実行するための手段を含む装置である。
実施例25は、複数の命令を含む機械読取可能なストレージ媒体であって、デバイスのプロセッサによって実行されたときに、デバイスに、第1のレンダリング品質を用いて第1のサウンド信号をレンダリングし、第1のサウンド信号が中央視覚領域内の第1の音源に関連付けられ、第2のレンダリング品質を用いて第2のサウンド信号をレンダリングし、第2のサウンド信号が周辺視覚領域内の第2の音源に関連付けられ、第1のレンダリング品質が第2のレンダリング品質を上回る、ようにさせる。
実施例26では、実施例25の主題は、任意選択的に、第1のレンダリング品質が、個別化された頭部伝達関数(HRTF)の複素周波数領域補間を含み、第2のレンダリング品質が、音源ごとの聴覚間時間差(ITD)を有する線形時間領域HRTF補間を含む、ことを含む。
実施例27では、実施例25~26のうちの何れか1又は2以上の実施例の主題は、任意選択的に、中央視覚領域が中央視覚視力と関連付けられ、周辺視覚領域が周辺視覚視力と関連付けられ、中央視覚視力は周辺視覚視力を上回る、ことを含む。
実施例28では、実施例27の主題は、任意選択的に、中央視覚領域がユーザ注視方向に中央円錐領域を含み、周辺視覚領域が、ユーザの視野内で中央円錐領域の外の周辺円錐領域を含む、ことを含む。
実施例29では、実施例27~28のうちの何れか1又は2以上の実施例の主題は、任意選択的に、更にデバイスに、遷移レンダリング品質を用いて遷移サウンド信号をレンダリングさせ、遷移サウンド信号が、遷移境界領域内の遷移音源に関連付けられ、遷移境界領域が、中央円錐領域の周囲に沿って中央円錐領域と周辺円錐領域とによって共有され、遷移レンダリング品質は、第1のレンダリング品質と第2のレンダリング品質との間のシームレスなオーディオ品質遷移を提供する、ようにさせる命令を含む。
実施例30では、実施例29の主題は、任意選択的に、遷移境界領域が、HRTFサンプリング位置を含むように選択されることを含む。
実施例31では、実施例29~30のうちの何れか1又は2以上の実施例の主題は、任意選択的に、共通ITDが遷移境界領域で適用されることを含む。
実施例32では、実施例25~31のうちの何れか1又は2以上の実施例の主題は、任意選択的に、更にデバイスに、第3のレンダリング品質を用いて第3のサウンド信号をレンダリングさせ、第3のサウンド信号は、周辺視覚領域の外の非可視領域内の第3の音源に関連付けられ、第2のレンダリング品質は、第3のレンダリング品質を上回る、ようにさせる命令を含む。
実施例33では、実施例32の主題は、任意選択的に、第3のレンダリング品質が仮想ラウドスピーカーレンダリングを含むことを含む。
実施例34では、実施例25~33のうちの何れか1又は2以上の実施例の主題は、任意選択的に、更にデバイスに、第1のサウンド信号及び第2のサウンド信号に基づいてミックス出力信号を生成させ、ミックス出力信号を可聴サウンド再生デバイスに出力する、ようにさせる命令を含む。
実施例35では、実施例34の主題は、任意選択的に、可聴サウンド再生装置がバイノーラルサウンド再生装置を含み、第1のレンダリング品質を使用する第1のサウンド信号のレンダリングが、第1の頭部伝達関数(HRTF)を用いて第1のバイノーラルオーディオ信号に第1のサウンド信号をレンダリングすることを含み、第2のレンダリング品質を使用する第2のサウンド信号のレンダリングは、第2のHRTFを用いて第2のバイノーラルオーディオ信号に第2のサウンド信号をレンダリングすることを含む、ことを含む。
実施例36は、第1のレンダリング品質を用いて第1のサウンド信号をレンダリングするステップであって、第1のサウンド信号は、中央視覚領域内の第1の音源に関連付けられているステップと、第2のレンダリング品質を用いて第2のサウンド信号をレンダリングするステップであって、第2のサウンド信号は、周辺視覚領域内の第2の音源に関連付けられているステップと、第1のレンダリング品質は、第2のレンダリング品質を上回る、ことを含むサウンドレンダリング装置を含む。
実施例37では、例36の主題は、任意選択的に、第1のレンダリング品質が、個別化された頭部伝達関数(HRTF)の複素周波数領域補間を含み、第2のレンダリング品質が、音源ごとの聴覚間時間差(ITD)を有する線形時間領域HRTF補間を含む、ことを含む。
実施例38では、実施例36~37のうちの何れか1又は2以上の実施例の主題は、任意選択的に、中央視覚領域は、中央視覚視力と関連付けられ、周辺視覚領域は、周辺視覚視力と関連付けられ、中央視覚視力は、周辺視覚視力を上回る、ことを含む。
実施例39では、実施例38の主題は、任意選択的に、中央視覚領域は、ユーザ注視方向に中央円錐領域を含み、周辺視覚領域は、ユーザの視野内で中央円錐領域の外の周辺円錐領域を含む、ことを含む。
実施例40では、実施例38~39のうちの何れか1又は2以上の実施例の主題は、任意選択的に、遷移レンダリング品質を用いて遷移サウンド信号をレンダリングすることを含み、遷移サウンド信号は、遷移境界領域内の遷移音源に関連付けられ、遷移境界領域は、中央円錐領域の周囲に沿って中央円錐領域と周辺円錐領域とによって共有され、遷移レンダリング品質は、第1のレンダリング品質と第2のレンダリング品質との間のシームレスなオーディオ品質遷移を提供する、ことを含む。
実施例41では、実施例40の主題は、任意選択的に、遷移境界領域がHRTFサンプリング位置を含むように選択される、ことを含む。
実施例42では、実施例40~41のうちの何れか1又は2以上の実施例の主題は、任意選択的に、共通ITDが遷移境界領域にて適用される、ことを含む。
実施例43では、実施例39~42のうちの何れか1又は2以上の実施例の主題は、任意選択的に、第3のレンダリング品質を用いて第3のサウンド信号をレンダリングすることを含み、第3のサウンド信号は、周辺視覚領域の外の非可視領域内の第3の音源に関連付けられ、第2のレンダリング品質は、第3のレンダリング品質を上回る、ことを含む。
実施例44では、実施例43の主題は、任意選択的に、第3のレンダリング品質が仮想ラウドスピーカーレンダリングを含む、ことを含む。
実施例45では、実施例36~44のうちの何れか1又は2以上の実施例の主題は、任意選択的に、第1のサウンド信号及び第2のサウンド信号に基づいてミックス出力信号を生成すること、及びミックス出力信号を可聴サウンド再生装置に出力することを含む。
実施例46では、実施例45の主題は、任意選択的に、可聴サウンド再生装置がバイノーラルサウンド再生装置を含み、第1のレンダリング品質を用いた第1のサウンド信号のレンダリングが、第1の頭部伝達関数(HRTF)を用いて第1のバイノーラルオーディオ信号に第1のサウンド信号をレンダリングすることを含み、第2のレンダリング品質を用いた第2のサウンド信号のレンダリングが、第2のHRTFを用いて第2のバイノーラルオーディオ信号に第2のサウンド信号をレンダリングすることを含む、ことを含む。
実施例47は、機械によって実行されたときに、機械に実施例1~46の何れかの操作を実行させる命令を含む1又は2以上の機械読取可能な媒体である。
実施例48は、実施例1~46の何れかの動作を実行するための手段を含む装置である。
実施例49は、実施例1~46の何れかの動作を実行するシステムである。
実施例50は、実施例1~46の何れかの動作を実行するための方法である。
上記の詳細な説明は、この詳細な説明の一部を形成する添付図面の参照を含む。図面は、例証として特定の実施形態を示す。これらの実施形態はまた、「実施例」として本明細書で参照される。このような実施例は、図示又は説明されたものに加えて要素を含むことができる。更に、本発明の主題は、特定の実施例(又はこの1又は2以上の態様)に関して、又は本明細書で図示又は説明された他の実施例(又はこの1又は2以上の態様)に関しての何れかにおいて、図示又は説明された要素(又はこの1又は2以上の態様)の何れかの組み合わせ又は置換を含むことができる。
本明細書において、用語「a」又は「an」は、特許文書で共通するように、「少なくとも1つ」又は「1又は2以上」の他の何れかの事例又は使用に関係なく1又は1よりも多いものを含むのに使用される。本明細書において、用語「or(又は)」は、非排他的であることを指すのに使用され、すなわち、別途指示がない限り、「A又はB」が「BではなくA」、「AではなくB」、及び「A及びB」を含むものとする。本明細書において、「including」及び「in which」は、それぞれの用語「comprising」及び「wherein」の一般的意味の等価物として使用される。また、以下の請求項において、用語「including」及び「comprising」は、非制限的なものであり、すなわち、請求項におけるこのような用語の後に列挙された用語に加えて要素を含むシステム、デバイス、製品、組成物、配合物、又はプロセスは、当該請求項の範囲内にあるものと見なされる。更に、以下の請求項において、「第1」、「第2」、及び「第3」などの用語語は、単に標識として用いられ、これらの対象に対して数値的要件を課すものではない。
上記の説明は例証であり限定ではないものとする。例えば、上述の実施例(又はこの1又は2以上の態様)は、互いに組み合わせて用いることができる。上記の説明を読むと、当業者によってなど、他の実施形態を用いることができる。要約は、読んだ人が技術的開示の本質を迅速に確認できるようにするために提供される。この要約は、請求項の範囲又は意味を解釈又は限定するのに用いられないという条件の下で提示される。上記の詳細な説明では、様々な特徴を共にグループ化して、本開示を簡素化することができる。これは、特許請求されていない開示された特徴が何れかの請求項に必須であるという意図として解釈すべきではない。むしろ、本発明の主題は、特定の開示された実施形態の全てではない特徴によって成立することができる。従って、以下の請求項は、本明細書で詳細な説明に組み入れられ、各請求項は、別個の実施形態として単独で成立しており、このような実施形態が様々な組み合わせ又は置換で互いに組み合わせ得ることが企図される。本発明の範囲は、このような請求項が与えられる均等物の全範囲と共に添付の請求項を参照して決定すべきである。
100 ユーザ視野
110 ユーザ
120 全視野
130 焦点領域
140 3D視野
150 周辺視野
160 左周辺領域
165 右周辺領域
170 左のみの領域
175 右のみの領域
180 音源

Claims (23)

  1. サウンドレンダリングシステムであって、
    1又は2以上のプロセッサと、
    命令を含む記憶装置と、
    を備え、
    前記命令が、前記1又は2以上のプロセッサによって実行されたときに、
    第1のレンダリング品質を用いて第1のサウンド信号をレンダリングし、前記第1のサウンド信号が中央視覚領域内の第1の音源に関連付けられ、前記第1のレンダリング品質が、個別化された頭部伝達関数(HRTF)の複素周波数領域補間を含み、
    第2のレンダリング品質を用いて第2のサウンド信号をレンダリングし、前記第2のサウンド信号が周辺視覚領域内の第2の音源に関連付けられ、前記第2のレンダリング品質は、音源ごとに計算された両耳間時間差(ITD)を用いた線形時間領域HRTF補間を含み、前記第1のレンダリング品質が前記第2のレンダリング品質を上回る、
    ように前記1又は2以上のプロセッサを構成する、
    ことを特徴とするサウンドレンダリングシステム。
  2. 前記中央視覚領域は、中央視力と関連付けられ、
    前記周辺視覚領域は、周辺視力と関連付けられ、
    前記中央視力は、前記周辺視力を上回る、
    請求項1に記載のシステム。
  3. 前記中央視覚領域は、ユーザ注視方向に中央円錐領域を含み、
    前記周辺視覚領域は、ユーザ視野内にあり前記中央円錐領域の外にある周辺円錐領域を含む、
    請求項2に記載のシステム。
  4. 前記命令は更に、遷移レンダリング品質を用いて遷移サウンド信号をレンダリングするように前記1又は2以上のプロセッサを構成し、前記遷移サウンド信号は、遷移境界領域内の遷移音源に関連付けられ、前記遷移境界領域は、前記中央円錐領域の周囲に沿って前記中央円錐領域及び前記周辺円錐領域によって共有され、前記遷移レンダリング品質は、前記第1のレンダリング品質と前記第2のレンダリング品質との間でシームレスなオーディオ品質遷移を提供する、
    請求項2に記載のシステム。
  5. 前記遷移境界領域は、HRTFサンプリング位置を含むように選択される、
    請求項4に記載のシステム。
  6. 前記遷移境界領域にて共通ITDが適用される、
    請求項5に記載のシステム。
  7. 前記命令は更に、第3のレンダリング品質を用いて第3のサウンド信号をレンダリングするように前記1又は2以上のプロセッサを構成し、前記第3のサウンド信号は、前記周辺視覚領域の外の非可視領域内の第3の音源に関連付けられ、前記第2のレンダリング品質は、前記第3のレンダリング品質を上回る、
    請求項1に記載のシステム。
  8. 前記第3のレンダリング品質は、仮想ラウドスピーカーのレンダリングを含む、
    請求項7に記載のシステム。
  9. 前記命令は更に、
    前記第1のサウンド信号及び前記第2のサウンド信号に基づいてミックス出力信号を生成し、
    前記ミックス出力信号を可聴サウンド再生装置に出力する、
    ように前記1又は2以上のプロセッサを構成する、
    請求項1に記載のシステム。
  10. 前記可聴サウンド再生装置は、バイノーラルサウンド再生装置を含み、
    前記第1のレンダリング品質を用いて前記第1のサウンド信号をレンダリングすることは、第1の頭部伝達関数(HRTF)を用いて前記第1のサウンド信号を第1のバイノーラルオーディオ信号にレンダリングすることを含み、
    前記第2のレンダリング品質を用いて前記第2のサウンド信号をレンダリングすることは、第2のHRTFを用いて第2のサウンド信号を第2のバイノーラルオーディオ信号にレンダリングすることを含む、
    請求項9に記載のシステム。
  11. サウンドレンダリング方法であって、
    第1のレンダリング品質を用いて第1のサウンド信号をレンダリングするステップであって、前記第1のサウンド信号は中央視覚領域内の第1の音源に関連付けられ、前記第1のレンダリング品質は、個別化された頭部伝達関数(HRTF)の複素周波数領域補間を含む、ステップと、
    第2のレンダリング品質を用いて第2のサウンド信号をレンダリングするステップであって、前記第2のサウンド信号は、周辺視覚領域内の第2の音源に関連付けられ、前記第2のレンダリング品質は、音源ごとに計算された両耳間時間差(ITD)を用いた線形時間領域HRTF補間を含み、前記第1のレンダリング品質は前記第2のレンダリング品質を上回る、ステップと、
    を含む、サウンドレンダリング方法。
  12. 前記中央視覚領域は、中央視力と関連付けられ、
    前記周辺視覚領域は、周辺視力と関連付けられ、
    前記中央視力は、前記周辺視力を上回る、
    請求項11に記載の方法。
  13. 前記中央視覚領域は、ユーザ注視方向に中央円錐領域を含み、
    前記周辺視覚領域は、ユーザ視野内にあり前記中央円錐領域の外にある周辺円錐領域を含む、
    請求項12に記載の方法
  14. 遷移レンダリング品質を用いて遷移サウンド信号をレンダリングするステップを更に含み、前記遷移サウンド信号は、遷移境界領域内の遷移音源に関連付けられ、前記遷移境界領域は、前記中央円錐領域の周囲に沿って前記中央円錐領域及び前記周辺円錐領域によって共有され、前記遷移レンダリング品質は、前記第1のレンダリング品質と前記第2のレンダリング品質との間でシームレスなオーディオ品質遷移を提供する、請求項12に記載の方法。
  15. 前記遷移境界領域は、HRTFサンプリング位置を含むように選択される、請求項14に記載の方法。
  16. 前記遷移境界領域にて共通ITDが適用される、請求項14に記載の方法。
  17. 第3のレンダリング品質を用いて第3のサウンド信号をレンダリングするステップを更に含み、前記第3のサウンド信号は、前記周辺視覚領域の外の非可視領域内の第3の音源に関連付けられ、前記第2のレンダリング品質は、前記第3のレンダリング品質を上回る、
    請求項11に記載の方法。
  18. 前記第3のレンダリング品質は、仮想ラウドスピーカーのレンダリングを含む、請求項17に記載の方法。
  19. 前記第1のサウンド信号及び前記第2のサウンド信号に基づいてミックス出力信号を生成するステップと、
    前記ミックス出力信号を可聴サウンド再生装置に出力するステップと、
    を更に含む、請求項11に記載の方法。
  20. 前記可聴サウンド再生装置は、バイノーラルサウンド再生装置を含み、
    前記第1のレンダリング品質を用いて前記第1のサウンド信号をレンダリングするステップは、第1の頭部伝達関数(HRTF)を用いて前記第1のサウンド信号を第1のバイノーラルオーディオ信号にレンダリングするステップを含み、
    前記第2のレンダリング品質を用いて前記第2のサウンド信号をレンダリングするステップは、第2のHRTFを用いて前記第2のサウンド信号を第2のバイノーラルオーディオ信号にレンダリングするステップを含む、
    請求項19に記載の方法。
  21. デバイスのプロセッサによって実行されたときに前記デバイスに対して動作を実行させる複数の命令を含む機械可読ストレージ媒体であって、
    前記動作が、
    第1のレンダリング品質を用いて第1のサウンド信号をレンダリングするステップであって、前記第1のサウンド信号が中央視覚領域内の第1の音源に関連付けられ、前記第1のレンダリング品質は、個別化された頭部伝達関数(HRTF)の複素周波数領域補間を含む、ステップと、
    第2のレンダリング品質を用いて第2のサウンド信号をレンダリングするステップであって、前記第2のサウンド信号が周辺視覚領域内の第2の音源に関連付けられ、前記第2のレンダリング品質は、音源ごとに計算された両耳間時間差(ITD)を用いた線形時間領域HRTF補間を含み、前記第1のレンダリング品質が前記第2のレンダリング品質を上回る、ステップと、
    を含む、機械可読ストレージ媒体。
  22. 前記命令が更に、第3のレンダリング品質を用いて第3のサウンド信号をレンダリングするように前記デバイスに行わせ、第3のサウンド信号は、周辺視覚領域の外の非可視領域内の第3の音源に関連付けられ、第2のレンダリング品質は、第3のレンダリング品質を上回る、
    請求項21に記載の機械読取可能なストレージ媒体。
  23. 前記命令が更に、前記デバイスに、
    前記第1のサウンド信号及び前記第2のサウンド信号に基づいてミックス出力信号を生成し、
    前記ミックス出力信号を可聴サウンド再生装置に出力する、
    ように行わせる、請求項21に記載の機械読取可能なストレージ媒体。
JP2021570183A 2019-05-31 2019-06-10 フォービエイテッドオーディオレンダリング Active JP7285967B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962855225P 2019-05-31 2019-05-31
US62/855,225 2019-05-31
PCT/US2019/036315 WO2020242506A1 (en) 2019-05-31 2019-06-10 Foveated audio rendering

Publications (2)

Publication Number Publication Date
JP2022536255A JP2022536255A (ja) 2022-08-15
JP7285967B2 true JP7285967B2 (ja) 2023-06-02

Family

ID=67002442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021570183A Active JP7285967B2 (ja) 2019-05-31 2019-06-10 フォービエイテッドオーディオレンダリング

Country Status (5)

Country Link
US (1) US10869152B1 (ja)
JP (1) JP7285967B2 (ja)
KR (1) KR102565131B1 (ja)
CN (1) CN113950845B (ja)
WO (1) WO2020242506A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019224292A1 (en) * 2018-05-23 2019-11-28 Koninklijke Kpn N.V. Adapting acoustic rendering to image-based object
GB2592388A (en) * 2020-02-26 2021-09-01 Nokia Technologies Oy Audio rendering with spatial metadata interpolation
US20230051841A1 (en) * 2021-07-30 2023-02-16 Qualcomm Incorporated Xr rendering for 3d audio content and audio codec

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001218293A (ja) 2000-02-02 2001-08-10 Matsushita Electric Ind Co Ltd ヘッドホンシステム
JP2011505106A (ja) 2007-11-28 2011-02-17 クゥアルコム・インコーポレイテッド オーディオミクスチャ内での音源に関する別個の知覚位置を提供する方法および装置
JP2011530913A (ja) 2008-08-13 2011-12-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 空間出力マルチチャネルオーディオ信号を決定する装置
JP2013223098A (ja) 2012-04-16 2013-10-28 Fujitsu Ltd 音声処理装置、音声処理方法および音声処理プログラム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US8229134B2 (en) 2007-05-24 2012-07-24 University Of Maryland Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images
US8428269B1 (en) 2009-05-20 2013-04-23 The United States Of America As Represented By The Secretary Of The Air Force Head related transfer function (HRTF) enhancement for improved vertical-polar localization in spatial audio systems
US10585472B2 (en) * 2011-08-12 2020-03-10 Sony Interactive Entertainment Inc. Wireless head mounted display with differential rendering and sound localization
US20140205134A1 (en) * 2011-09-08 2014-07-24 Nec Casio Mobile Communications, Ltd. Electronic device
EP2754005A4 (en) * 2011-09-08 2015-04-22 Intel Corp LOCATION SELECTION BASED ON LOOK FOR AUDIOVISUAL READING
US9622006B2 (en) * 2012-03-23 2017-04-11 Dolby Laboratories Licensing Corporation Method and system for head-related transfer function generation by linear mixing of head-related transfer functions
US9622011B2 (en) * 2012-08-31 2017-04-11 Dolby Laboratories Licensing Corporation Virtual rendering of object-based audio
US9826328B2 (en) 2012-08-31 2017-11-21 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
US9179232B2 (en) 2012-09-17 2015-11-03 Nokia Technologies Oy Method and apparatus for associating audio objects with content and geo-location
US8854447B2 (en) * 2012-12-21 2014-10-07 United Video Properties, Inc. Systems and methods for automatically adjusting audio based on gaze point
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
CN105247894B (zh) 2013-05-16 2017-11-07 皇家飞利浦有限公司 音频装置及其方法
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
US9143880B2 (en) 2013-08-23 2015-09-22 Tobii Ab Systems and methods for providing audio to a user based on gaze input
EP2842529A1 (en) 2013-08-30 2015-03-04 GN Store Nord A/S Audio rendering system categorising geospatial objects
WO2016126907A1 (en) * 2015-02-06 2016-08-11 Dolby Laboratories Licensing Corporation Hybrid, priority-based rendering system and method for adaptive audio
US11010956B2 (en) * 2015-12-09 2021-05-18 Imagination Technologies Limited Foveated rendering
WO2017218973A1 (en) 2016-06-17 2017-12-21 Edward Stein Distance panning using near / far-field rendering
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
JP2019533404A (ja) * 2016-09-23 2019-11-14 ガウディオ・ラボ・インコーポレイテッド バイノーラルオーディオ信号処理方法及び装置
US9980078B2 (en) * 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
KR102623391B1 (ko) * 2017-01-10 2024-01-11 삼성전자주식회사 영상 출력 방법 및 이를 지원하는 전자 장치
US10623883B2 (en) * 2017-04-26 2020-04-14 Hewlett-Packard Development Company, L.P. Matrix decomposition of audio signal processing filters for spatial rendering
US10339692B2 (en) * 2017-06-09 2019-07-02 Sony Interactive Entertainment Inc. Foveal adaptation of particles and simulation models in a foveated rendering system
US10405126B2 (en) * 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
JP7345460B2 (ja) * 2017-10-18 2023-09-15 ディーティーエス・インコーポレイテッド 3dオーディオバーチャライゼーションのためのオーディオ信号のプレコンディショニング
US10609503B2 (en) * 2018-04-08 2020-03-31 Dts, Inc. Ambisonic depth extraction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001218293A (ja) 2000-02-02 2001-08-10 Matsushita Electric Ind Co Ltd ヘッドホンシステム
JP2011505106A (ja) 2007-11-28 2011-02-17 クゥアルコム・インコーポレイテッド オーディオミクスチャ内での音源に関する別個の知覚位置を提供する方法および装置
JP2011530913A (ja) 2008-08-13 2011-12-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 空間出力マルチチャネルオーディオ信号を決定する装置
JP2013223098A (ja) 2012-04-16 2013-10-28 Fujitsu Ltd 音声処理装置、音声処理方法および音声処理プログラム

Also Published As

Publication number Publication date
US20200382894A1 (en) 2020-12-03
CN113950845A (zh) 2022-01-18
CN113950845B (zh) 2023-08-04
KR20220013381A (ko) 2022-02-04
KR102565131B1 (ko) 2023-08-08
US10869152B1 (en) 2020-12-15
WO2020242506A1 (en) 2020-12-03
JP2022536255A (ja) 2022-08-15

Similar Documents

Publication Publication Date Title
US10820134B2 (en) Near-field binaural rendering
US10609503B2 (en) Ambisonic depth extraction
US9530421B2 (en) Encoding and reproduction of three dimensional audio soundtracks
JP7285967B2 (ja) フォービエイテッドオーディオレンダリング
KR20090117897A (ko) 다채널 오디오 포맷들 사이의 변환 장치 및 방법
CN113348677B (zh) 沉浸式和双耳声音的组合
EP2802161A1 (en) Method and device for localizing multichannel audio signal
CN113678470A (zh) 混合扬声器和转换器
JP6896626B2 (ja) ヘッドホンを通じて頭部外面化3dオーディオを生成するシステム及び方法
WO2023035218A1 (en) Multi-channel audio processing method, system and stereo apparatus

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230424

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230523

R150 Certificate of patent or registration of utility model

Ref document number: 7285967

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150