JP6078556B2 - Audio rendering system and method therefor - Google Patents

Audio rendering system and method therefor Download PDF

Info

Publication number
JP6078556B2
JP6078556B2 JP2014552726A JP2014552726A JP6078556B2 JP 6078556 B2 JP6078556 B2 JP 6078556B2 JP 2014552726 A JP2014552726 A JP 2014552726A JP 2014552726 A JP2014552726 A JP 2014552726A JP 6078556 B2 JP6078556 B2 JP 6078556B2
Authority
JP
Japan
Prior art keywords
audio
signal
speaker
speaker arrangement
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014552726A
Other languages
Japanese (ja)
Other versions
JP2015508245A (en
Inventor
ロラント ジャック,ベルント
ロラント ジャック,ベルント
サカリ ハルマ,アキ
サカリ ハルマ,アキ
ヒュム パク,ムン
ヒュム パク,ムン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2015508245A publication Critical patent/JP2015508245A/en
Application granted granted Critical
Publication of JP6078556B2 publication Critical patent/JP6078556B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/34Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means
    • H04R1/345Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means for loudspeakers
    • H04R1/347Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means for loudspeakers for obtaining a phase-shift between the front and back acoustic wave
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2203/00Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
    • H04R2203/12Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明はオーディオ・レンダリング・システムに、排他的にではないが詳細には、サラウンド・サウンド・オーディオ・レンダリング・システムのような空間的オーディオ・レンダリング・システムに関する。   The present invention relates to audio rendering systems and more particularly, but not exclusively, to spatial audio rendering systems such as surround sound audio rendering systems.

単純なステレオを超える多チャネル・オーディオ・レンダリング、特に多チャネル空間的サウンド・レンダリングが、サラウンド・サウンド・ホームシネマ・システムのようなアプリケーションを通じて一般的になっている。典型的には、そのようなシステムは聴取位置に対して特定の空間的位置に位置されるスピーカーを使う。たとえば、5.1ホームシネマ・システムは、一つのスピーカーが聴取位置の真正面(中央チャネル)、一つのスピーカーが聴取位置の前方左側、一つのスピーカーが聴取位置の前方右側、一つのスピーカーが聴取位置の後方左側、そして一つのスピーカーが聴取位置の後方右側に位置される五つのスピーカーを介して空間的サウンドを提供する。さらに、非空間的な低域スピーカーがしばしば設けられる。   Multi-channel audio rendering beyond simple stereo, especially multi-channel spatial sound rendering, has become common throughout applications such as surround sound home cinema systems. Typically, such systems use speakers that are located at a specific spatial location relative to the listening location. For example, in a 5.1 home cinema system, one speaker is directly in front of the listening position (center channel), one speaker is in front of the listening position, one speaker is in front of the listening position, and one speaker is behind the listening position. Spatial sound is provided through five speakers located on the left side and one speaker on the right side behind the listening position. In addition, non-spatial low frequency speakers are often provided.

そのような通常のシステムは、聴取位置に対する特定の公称位置におけるオーディオ信号の再生に基づいている。典型的には各オーディオ・チャネルについて一つのスピーカーが設けられ、よってスピーカーはシステムについてのあらかじめ決定されたまたは公称上の位置に対応する位置に配置される必要がある。   Such conventional systems are based on the reproduction of an audio signal at a specific nominal position relative to the listening position. Typically, one speaker is provided for each audio channel, so the speakers need to be placed at a location corresponding to a predetermined or nominal location for the system.

空間的多チャネル、特にサラウンド・サウンド・システムでは、多くのオーディオ・システムでは、より熱中させるユーザー経験を提供することが望まれている。これはたとえば、新たな位置に配置でき、それにより所与の聴取位置にいる聴取者にとってより包み込むようなサウンド・レンダリングを提供する追加的なスピーカーを導入することによって達成できる。しかしながら、コンテンツはしばしば特定の、典型的にはレガシー駆動のフォーマットで提供されるので、オーディオ・レンダリング・システムは多くのそのようなアプリケーションにおいて、受け取った信号から新たなチャネルを生成することが要求されることがある。たとえば、ステレオ信号について、聴取位置の横または背後からレンダリングされることのできるチャネルを導出することが望ましいことがありうる。五チャネル・サラウンド・サウンド・システムについては、たとえば聴取者より高まった位置からまたは聴取者の横にレンダリングするための第六および第七のチャネルを生成することが望ましいことがありうる。   In spatial multi-channel, especially surround sound systems, it is desirable for many audio systems to provide a more immersive user experience. This can be accomplished, for example, by introducing additional speakers that can be placed at new locations, thereby providing more sound rendering for the listener at a given listening location. However, since content is often provided in specific, typically legacy-driven formats, audio rendering systems are required to generate new channels from received signals in many such applications. Sometimes. For example, it may be desirable for a stereo signal to derive a channel that can be rendered from the side or behind the listening position. For a five channel surround sound system, it may be desirable to generate sixth and seventh channels for rendering, for example, from an elevated position above the listener or next to the listener.

このように、オーディオ・レンダリング・システムは、追加的なチャネルを生成するために一つまたは複数の入力チャネルの上方混合〔アップミキシング〕を実行してもよい。よって、システムは、与えられた入力オーディオ信号から追加的なスピーカー駆動信号を合成するアルゴリズムを用いてもよい。   In this manner, the audio rendering system may perform upmixing of one or more input channels to generate additional channels. Thus, the system may use an algorithm that synthesizes additional speaker drive signals from a given input audio signal.

しかしながら、そのような上方混合についての決定的な問題は、空間的歪みまたは他の歪みが導入されるべきではなく、結果として得られるレンダリングされたオーディオステージは相変わらず自然なものとして知覚されるべきであるということである。具体的には、より熱中させるおよび包み込むようなサウンド経験が、結果としてたとえば空間的によく定義された音源がその知覚される位置を変えることなく、提供されることが望ましい。   However, the decisive problem with such upmixing is that spatial or other distortions should not be introduced and the resulting rendered audio stage should still be perceived as natural. That is. Specifically, it is desirable that a more immersive and enveloping sound experience be provided without changing the perceived position of the resulting spatially well-defined sound source, for example.

新しいチャネルを合成するためのオーディオの上方混合のためには多くのアルゴリズムおよびアプローチが提案されているが、これらは最適なパフォーマンスを与えないきらいがある。具体的には、合成されたチャネルを生成してレンダリングするたいていのレンダリング・システムは、最適ではない出現経験を提供する傾向があるおよび/または空間的によく定義された音源に空間的な歪みを導入する傾向がある。   Many algorithms and approaches have been proposed for audio up-mixing to synthesize new channels, but these may not give optimal performance. Specifically, most rendering systems that generate and render synthesized channels tend to provide suboptimal appearance experiences and / or apply spatial distortion to spatially well-defined sound sources. There is a tendency to introduce.

よって、改善されたオーディオ・レンダリング・アプローチ、特に上方混合が一つまたは複数の追加的なチャネルを合成することを許容するオーディオ・レンダリング・アプローチが有利であろう。特に、向上した柔軟性、低下した複雑さ、改善されたユーザー経験、より包み込むようなサウンド経験、低下した空間的歪みおよび/または改善されたパフォーマンスを許容するオーディオ・レンダリング・アプローチが有利であろう。   Thus, an improved audio rendering approach, particularly an audio rendering approach that allows upward mixing to synthesize one or more additional channels would be advantageous. In particular, an audio rendering approach that allows increased flexibility, reduced complexity, improved user experience, more enveloping sound experience, reduced spatial distortion and / or improved performance would be advantageous. .

よって、本発明は、単独でまたは任意の組み合わせにおいて上述した欠点の一つまたは複数を好ましくは緩和、軽減または解消しようとするものである。   Thus, the present invention preferably seeks to mitigate, alleviate or eliminate one or more of the above-mentioned drawbacks, alone or in any combination.

本発明のある側面によれば、オーディオ・レンダラーと;前記オーディオ・レンダラーに結合され、聴取位置にオーディオをレンダリングするよう構成された第一のスピーカー配置であって、該第一のスピーカー配置から前記聴取位置への方向が前記第一のスピーカー配置の主ローブの3dBビーム幅の範囲内である指向性放射パターンを有する、第一のスピーカー配置と;前記オーディオ・レンダラーに結合され、聴取位置にオーディオをレンダリングするよう構成された第二のスピーカー配置であって、該第二のスピーカー配置から前記聴取位置への方向が前記第二のスピーカー配置の主ローブの3dBビーム幅の外側である指向性放射パターンを有する、第二のスピーカー配置とを有するオーディオ・レンダリング・システムであって、前記オーディオ・レンダラーは:多チャネル・オーディオ信号を受領する受領器と;前記多チャネル・オーディオ信号の第一チャネル信号および第二チャネル信号についての相関指標を生成するための相関推定器と;相関指標に応答して前記第一チャネル信号を第一のオーディオ信号および第二のオーディオ信号に上方混合する上方混合器であって、前記第二のオーディオ信号は前記第一のオーディオ信号より拡散した音に対応する、上方混合器と;前記第一のオーディオ信号から前記第一のスピーカー配置を駆動するための第一のドライバと;前記第二のオーディオ信号から前記第二のスピーカーを駆動するための第二のドライバとを有する、システムが提供される。   According to one aspect of the invention, an audio renderer; a first speaker arrangement coupled to the audio renderer and configured to render audio at a listening position, wherein the first speaker arrangement A first loudspeaker arrangement having a directional radiation pattern whose direction to the listening position is within the 3 dB beamwidth of the main lobe of the first loudspeaker arrangement; coupled to the audio renderer and audio to the listening position A second speaker arrangement configured to render a directional radiation whose direction from the second speaker arrangement to the listening position is outside the 3 dB beamwidth of the main lobe of the second speaker arrangement An audio rendering system having a second speaker arrangement having a pattern, wherein The Dio Renderer: a receiver for receiving a multi-channel audio signal; a correlation estimator for generating a correlation index for the first channel signal and the second channel signal of the multi-channel audio signal; In response, an upper mixer that upwardly mixes the first channel signal into a first audio signal and a second audio signal, the second audio signal corresponding to a diffused sound from the first audio signal An upper mixer; a first driver for driving the first speaker arrangement from the first audio signal; and a second for driving the second speaker from the second audio signal There is provided a system comprising:

本発明は、聴取者に対する改善されたユーザー経験を提供してもよい。特に、より包み込むような、より没頭させるユーザー経験がしばしば達成されうる。多くのシナリオでは、拡張されたサウンドステージが知覚できる。サウンドステージは自然なものとして知覚されることができ、空間的によく定義された位置の空間的歪みが低減されうる。特に、二つのチャネルの間の相関/コヒーレンスに基づく上方混合と、非反射経路および反射経路を使うレンダリングとの組み合わせは、多くの実装において、改善された知覚されるサウンドステージ拡張を提供しうる。特に、それは典型的には強い空間的手がかりをもたないものとして知覚される環境音の空間的拡張を許容しつつ、同時に、特定のよく定義された個々の空間的音源が不変に感じられることを許容しうる。このアプローチは、特に、サウンドステージにおける個別的な音源を変えることなく、一般的な環境音を拡張して、ますますユーザーを取り囲むよう知覚されるようにするオーディオ・レンダリングを与えうる。   The present invention may provide an improved user experience for the listener. In particular, a more immersive and more immersive user experience can often be achieved. In many scenarios, an extended sound stage can be perceived. The sound stage can be perceived as natural and the spatial distortion of well-defined locations can be reduced. In particular, the combination of upward mixing based on correlation / coherence between two channels and rendering using non-reflective and reflective paths may provide improved perceived sound stage enhancement in many implementations. In particular, it allows the spatial expansion of environmental sounds that are typically perceived as having no strong spatial cues, while at the same time making certain well-defined individual spatial sources feel unchanged. Can be tolerated. This approach can particularly provide audio rendering that extends the general ambient sound to make it increasingly perceived to surround the user without changing the individual sound sources in the sound stage.

特に、非拡散音/直接音に空間的歪みや誤りを導入することなく、拡散音が、より抱擁するようなサウンドステージを提供するよう空間的に拡張されうる。   In particular, the diffuse sound can be spatially expanded to provide a more embrace sound stage without introducing spatial distortion or error to the non-diffuse sound / direct sound.

多くの実施形態において、多くのオーディオ信号について、本アプローチは、明瞭に定位可能であるとともに非常に包囲的な環境音を送達することができることがある。これは典型的には、いかなるユーザー対話もなしに達成されうる。   In many embodiments, for many audio signals, this approach may be able to deliver a highly ambient environmental sound that is clearly localizable. This can typically be achieved without any user interaction.

多くの実施形態において、第一および第二のチャネルは具体的には、ステレオまたはサラウンド・サウンド・セットアップの左前方および右前方チャネルであってもよい。多くの実施形態において、第一および第二のチャネルは具体的には、サラウンド・サウンド・セットアップの左サラウンドおよび右サラウンド・チャネルであってもよい。第一チャネル信号に適用される上方混合は第二チャネル信号にも適用されてもよい。   In many embodiments, the first and second channels may specifically be the left front and right front channels of a stereo or surround sound setup. In many embodiments, the first and second channels may specifically be the surround sound setup left surround and right surround channels. The upper mixing applied to the first channel signal may also be applied to the second channel signal.

二つのスピーカー配置からの指向性放射パターンは、実質的に同じであっても、あるいは異なっていてもよい。主ローブのビーム幅はいくつかの実施形態では比較的狭くてもよく(たとえば±20°)、あるいはたとえば他の実施形態では比較的広くてもよい(たとえば±120°)。いくつかの実施形態では、第一のスピーカー配置は二つ(以上)の実質的に等しいローブをもつ指向性放射パターンを有していてもよく、その場合、これらの主ローブのいずれかがその3dBビーム幅内に聴取位置への方向を含んでいてもよい。いくつかの実施形態では、第二のスピーカー配置は二つ(以上)の実質的に等しいローブをもつ指向性放射パターンを有していてもよく、その場合、これらの主ローブのいずれもその3dBビーム幅内に聴取位置への方向を含まないのでもよい。たとえば、バイポーラー・スピーカーによって実装される第二のスピーカー配置については、両方のローブが聴取位置への方向をその3dBビーム幅内に含まないことになる。   The directional radiation patterns from the two speaker arrangements may be substantially the same or different. The main lobe beam width may be relatively narrow (eg, ± 20 °) in some embodiments, or may be relatively wide (eg, ± 120 °) in other embodiments, for example. In some embodiments, the first speaker arrangement may have a directional radiation pattern with two (or more) substantially equal lobes, in which case either of these main lobes is its The direction to the listening position may be included within the 3 dB beam width. In some embodiments, the second speaker arrangement may have a directional radiation pattern with two (or more) substantially equal lobes, in which case any of these main lobes is 3 dB The direction to the listening position may not be included in the beam width. For example, for a second speaker arrangement implemented by bipolar speakers, both lobes will not include the direction to the listening position within their 3 dB beamwidth.

第一のスピーカー配置は、使用に際して、主として非反射音響経路に沿って聴取位置にオーディオをレンダリングしてもよい。第一のスピーカーは具体的には、最初の波面後の最初の20ms以内に第一のスピーカー配置から聴取位置に到達するオーディオ・エネルギーの半分超が一つまたは複数の直接経路を介して到達するよう構成されていてもよい。上記20ms以内の音の一部は可能性としては反射音響経路を通じて聴取位置に到達してもよいが、この時間区間内に第一のスピーカー配置から聴取位置に到達するオーディオ・エネルギーの半分超は多くの実施形態およびシナリオでは、反射されたものではないことになる。上記20msの時間区間外の音は、典型的には残響音であることとなり、空間的手がかりはわずかであり、弱い。残響音は部屋の音響効果のみに依存し、スピーカー・セットアップおよび配置には依存しない傾向がある。   The first speaker arrangement, in use, may render audio at a listening position primarily along a non-reflective acoustic path. Specifically, the first speaker reaches more than half of the audio energy that reaches the listening position from the first speaker arrangement within the first 20ms after the first wavefront, via one or more direct paths. It may be configured as follows. Some of the above 20 ms of sound may possibly reach the listening position through the reflected acoustic path, but over half of the audio energy reaching the listening position from the first speaker arrangement within this time interval In many embodiments and scenarios, it will not be reflected. The sound outside the 20 ms time interval is typically a reverberant sound, and has few spatial cues and is weak. Reverberation tends to depend only on room acoustics and not on speaker setup and placement.

第二のスピーカー配置は、使用に際して、主として反射音響経路に沿って聴取位置にオーディオをレンダリングしてもよい。第二のスピーカーは具体的には、最初の波面後の最初の20ms以内に第二のスピーカー配置から聴取位置に到達するオーディオ・エネルギーの半分超が一つまたは複数の直接経路を介して到達するのではないよう構成されていてもよい。上記20ms以内の音の一部は可能性としては非反射音響経路を通じて聴取位置に到達してもよいが、この時間区間内に第二のスピーカー配置から聴取位置に到達するオーディオ・エネルギーの半分超は多くの実施形態およびシナリオでは、少なくとも一度反射されていることになる。典型的な反射は、レンダリング・システムが位置している部屋の壁、天井または床からであってもよい。   In use, the second speaker arrangement may render audio at listening positions primarily along the reflected acoustic path. Specifically, the second speaker reaches more than half of the audio energy that reaches the listening position from the second speaker arrangement within the first 20ms after the first wavefront, via one or more direct paths. You may be comprised so that it may not be. Some of the above 20 ms of sound may possibly reach the listening position through a non-reflective acoustic path, but over half of the audio energy that reaches the listening position from the second speaker arrangement within this time interval. In many embodiments and scenarios, it will be reflected at least once. A typical reflection may be from the wall, ceiling or floor of the room where the rendering system is located.

第二のオーディオ信号は、第一のオーディオ信号より拡散した音に対応することができる。これは、第二のオーディオ信号は、第一のオーディオ信号についてよりも、相関指標が第一チャネル信号と第二チャネル信号との間のより低い相関を示す信号成分の割合が高いという意味においてである。第二のオーディオ信号は第一のオーディオ信号より(第一および第二のチャネルの間の)より相関していない音に対応することができる。第一および第二のオーディオ信号がより拡散したまたはより拡散していない音を表わすまたはそのような音に対応するという言及をするとき、この言及は、入力多チャネル信号によって表わされるオーディオ・シーンとの関連で考えられる。このオーディオ・シーンは、いくつかの空間的によく定義された(点状の)源および空間的によく定義されていないより拡散した音成分をもつオーディオ環境を表わしていてもよい。第二のオーディオ信号は、第一のオーディオ信号よりも、入力多チャネル/捕捉されたオーディオ・シーンの拡散音のエネルギーのより高い割合を含むという意味で、第一のオーディオ信号より拡散した音に対応することができる。同様に、第一のオーディオ信号は、第二のオーディオ信号より入力多チャネル/捕捉されたオーディオ・シーンの空間的によく定義されたオーディオ源のオーディオ・エネルギーのより高い割合を含んでいることによって、第二のオーディオ信号より拡散していない音に対応することができる。このように、ある信号がある度合いの拡散性を表わすという言及をするとき、これは、もとの多チャネル信号から、よって捕捉されたオーディオ・シーンから含んでいる音成分の特性に関係しうる。拡散性/非拡散性という用語は、信号に言及するときは、一般に、指向性/非指向性、定位可能/定位不可能および/または前景/背景のような用語に対応することがある。   The second audio signal can correspond to a sound diffused from the first audio signal. This means that the second audio signal has a higher proportion of signal components whose correlation index indicates a lower correlation between the first channel signal and the second channel signal than for the first audio signal. is there. The second audio signal can correspond to a less correlated sound (between the first and second channels) than the first audio signal. When referring to the first and second audio signals representing or corresponding to more diffused or less diffused sound, this reference refers to the audio scene represented by the input multichannel signal and It can be considered in relation to This audio scene may represent an audio environment with several spatially well-defined (point-like) sources and more spatially undefined sound components. The second audio signal has a more diffused sound than the first audio signal in the sense that it contains a higher percentage of the energy of the diffuse sound of the input multi-channel / captured audio scene than the first audio signal. Can respond. Similarly, the first audio signal contains a higher percentage of the audio energy of the spatially well-defined audio source of the input multi-channel / captured audio scene than the second audio signal. It is possible to deal with a sound that is less diffused than the second audio signal. Thus, when referring to a signal representing a certain degree of diffusivity, this may be related to the characteristics of the sound component contained from the original multi-channel signal and thus from the captured audio scene. . The term diffusive / non-diffusive when referring to a signal may generally correspond to terms such as directivity / non-directivity, localizable / non-localizable and / or foreground / background.

第一のオーディオ信号は主として、空間的に特定的なオーディオ源(点状源のような)に対応する第一チャネル信号の音成分を含んでいてもよい。一方、第二のオーディオ信号は主として、空間的に非特定的な環境音に対応する第一チャネル信号の音成分を含んでいてもよい。具体的には、第二のオーディオ信号は主として背景音を反映していてもよく、一方、第一のオーディオ信号は主として特定的な前景音源を反映していてもよい。   The first audio signal may mainly include the sound component of the first channel signal corresponding to a spatially specific audio source (such as a point source). On the other hand, the second audio signal may mainly include a sound component of the first channel signal corresponding to a spatially non-specific environmental sound. Specifically, the second audio signal may primarily reflect background sound, while the first audio signal may primarily reflect a specific foreground sound source.

本発明のある任意的な特徴によれば、前記オーディオ・レンダラーは、第一チャネル信号を複数の時間‐周波数区間に分割するよう構成されており、前記相関推定器は、各時間‐周波数区間について相関値を生成するよう構成されており、前記上方混合器は、各時間周波数区間について、その時間周波数区間についての第一チャネル信号の信号値に、前記時間‐周波数区間についての相関値の単調減少関数である第一の重みによって重み付けすることによって、第二のオーディオ信号を生成するよう構成されている。   According to an optional feature of the invention, the audio renderer is configured to divide the first channel signal into a plurality of time-frequency intervals, the correlation estimator for each time-frequency interval. The upper mixer is configured to generate a correlation value, and for each time frequency interval, the upper mixer monotonically decreases the correlation value for the time-frequency interval to the signal value of the first channel signal for that time frequency interval. A second audio signal is generated by weighting with a first weight that is a function.

これは、特に有利なアプローチを提供することがある。特に、これはチャネル間で高度に相関している音成分と高度に相関していない音成分の効率的な分離を提供することがある。このアプローチは、第一のオーディオ・チャネルの拡散音成分に対応する第二のオーディオ信号の効果的な生成を許容しうる。   This may provide a particularly advantageous approach. In particular, this may provide efficient separation of sound components that are highly correlated between channels and sound components that are not highly correlated. This approach may allow effective generation of a second audio signal corresponding to the diffuse sound component of the first audio channel.

本発明のある任意的な特徴によれば、前記上方混合器はさらに、各時間周波数区間について、その時間周波数区間についての第一チャネル信号の信号値に、前記時間‐周波数区間についての相関値の単調増加関数である第二の重みによって重み付けすることによって、第一のオーディオ信号を生成するよう構成されている。   According to an optional feature of the invention, the upper mixer further includes, for each time frequency interval, a signal value of the first channel signal for that time frequency interval, and a correlation value for said time-frequency interval. The first audio signal is generated by weighting with a second weight that is a monotonically increasing function.

これは、特に有利なアプローチを提供することがある。特に、これはチャネル間で高度に相関している音成分と高度に相関していない音成分の効率的な分離を提供することがある。このアプローチは、第一のオーディオ・チャネルの非拡散音成分に対応する第一のオーディオ信号と、第一のオーディオ・チャネルの拡散音成分に対応する第二のオーディオ信号との効果的な生成を許容しうる。   This may provide a particularly advantageous approach. In particular, this may provide efficient separation of sound components that are highly correlated between channels and sound components that are not highly correlated. This approach effectively produces a first audio signal that corresponds to the non-spread component of the first audio channel and a second audio signal that corresponds to the diffuse component of the first audio channel. Acceptable.

本発明のある任意的な特徴によれば、前記上方混合器はさらに、前記第一チャネル信号および前記第二チャネル信号についてのエネルギー差推定値に応じて前記重みを決定するよう構成されている。   According to an optional feature of the invention, the upper mixer is further configured to determine the weight according to an energy difference estimate for the first channel signal and the second channel signal.

このアプローチは、たとえば拡散音と非拡散音への改善された分離を許容しうる。特に、前記第一および第二のチャネルの一つに計画されている、すなわちエネルギーが前記チャネルの一つに主として位置している空間的によく定義された(たとえば点状の)源について改善された考慮を提供しうる。   This approach may allow improved separation into diffuse and non-diffuse sounds, for example. In particular, it is improved for spatially well-defined (eg punctiform) sources that are planned for one of the first and second channels, ie the energy is mainly located in one of the channels. Can provide additional consideration.

前記エネルギー差は、個々の時間周波数区間において、時間周波数区間の群に対して、あるいは全周波数に対して評価されてもよい。   The energy difference may be evaluated in individual time frequency intervals, for a group of time frequency intervals, or for all frequencies.

利得は、前記エネルギー差の関数として決定されてもよく、特に、前記エネルギー差の単調減少関数であってもよい。   The gain may be determined as a function of the energy difference, and in particular may be a monotonically decreasing function of the energy difference.

本発明のある任意的な特徴によれば、前記相関推定器は、複数の時間周波数区間の相関値の周波数平均に応じて前記周波数区間についての相関値を決定するよう構成されている。   According to an optional feature of the invention, the correlation estimator is configured to determine a correlation value for the frequency interval according to a frequency average of correlation values of a plurality of time frequency intervals.

これは改善されたパフォーマンスを提供することがあり、特に、多くの実施形態において、また多くの信号について、前記第一チャネル信号の上方混合によって引き起こされる歪みを低減しうる。   This may provide improved performance, and in particular, in many embodiments and for many signals, may reduce distortion caused by up-mixing of the first channel signal.

本発明のある任意的な特徴によれば、前記上方混合器はさらに、前記多チャネル信号についてのオーディオ・コンテンツ特性に応じて前記重みを決定するよう構成されている。   According to an optional feature of the invention, the upper mixer is further configured to determine the weight according to audio content characteristics for the multi-channel signal.

これは多くの実施形態において改善されたユーザー経験を提供しうる。たとえば、特定のオーディオ信号の拡散音および非拡散音のレンダリングの改善された適応を提供しうる。たとえば、そのオーディオ・コンテンツにとってより適切なサウンドステージが生成されうる。   This may provide an improved user experience in many embodiments. For example, it may provide improved adaptation of the diffuse and non-diffuse sound rendering of a particular audio signal. For example, a sound stage that is more appropriate for the audio content may be generated.

本発明のある任意的な特徴によれば、前記オーディオ・レンダラーは、前記第一のオーディオ信号のレンダリング属性を、前記第二のオーディオ信号とは独立に修正するよう構成されていてもよい。   According to an optional feature of the invention, the audio renderer may be configured to modify a rendering attribute of the first audio signal independently of the second audio signal.

これは多くの実施形態において改善されたユーザー経験を提供しうる。たとえば、特定のオーディオ信号の拡散音および非拡散音のレンダリングの改善された適応を提供しうる。たとえば、そのオーディオ・コンテンツにとってより適切なサウンドステージが生成されうる。   This may provide an improved user experience in many embodiments. For example, it may provide improved adaptation of the diffuse and non-diffuse sound rendering of a particular audio signal. For example, a sound stage that is more appropriate for the audio content may be generated.

本発明のある任意的な特徴によれば、前記レンダリング属性は前記第一のオーディオ信号についてのオーディオ・レベルである。   According to an optional feature of the invention, the rendering attribute is an audio level for the first audio signal.

これは多くの実施形態において改善されたユーザー経験を提供しうる。たとえば、環境背景音および前景音の源の間のバランスが動的に変えられることを許容しうる。   This may provide an improved user experience in many embodiments. For example, the balance between the environmental background sound and the source of the foreground sound can be allowed to change dynamically.

代替的または追加的に、前記オーディオ・レンダラーは、前記第二のオーディオ信号のオーディオ・レベルを、前記第一のオーディオ信号とは独立に修正するよう構成されていてもよい。   Alternatively or additionally, the audio renderer may be configured to modify the audio level of the second audio signal independently of the first audio signal.

本発明のある任意的な特徴によれば、前記レンダリング属性は空間的オーディオ放射パターン属性である。   According to an optional feature of the invention, the rendering attribute is a spatial audio radiation pattern attribute.

これは多くの実施形態において改善されたユーザー経験を提供しうる。特に、オーディオ放射パターンが、環境背景音および前景の点状音源のレンダリングについて独立に最適化されることを許容しうる。オーディオ放射パターン属性は、たとえば動的に可変なビーム形成器とともに使われるスピーカー・アレイのビーム・パターン/形状の属性であってもよい。   This may provide an improved user experience in many embodiments. In particular, the audio radiation pattern may be allowed to be independently optimized for the rendering of environmental background sounds and foreground point sources. The audio radiation pattern attribute may be, for example, a beam pattern / shape attribute of a speaker array used with a dynamically variable beamformer.

代替的または追加的に、前記オーディオ・レンダラーは、前記第二のオーディオ信号の空間的オーディオ放射パターン属性を、前記第一のオーディオ信号とは独立に修正するよう構成されていてもよい。   Alternatively or additionally, the audio renderer may be configured to modify a spatial audio radiation pattern attribute of the second audio signal independently of the first audio signal.

本発明のある任意的な特徴によれば、前記第二のスピーカー配置についての指向性放射パターンは聴取位置の方向において落ち込み〔ノッチ〕をもつ。   According to an optional feature of the invention, the directional radiation pattern for the second speaker arrangement has a notch in the direction of the listening position.

これは、レンダリングされる拡散音成分の改善された知覚を提供することによって、改善されたユーザー経験を提供しうる。第二のスピーカー配置は特に、第二のドライバに含まれるビーム形成器によって制御されるオーディオ・アレイであってもよい。適応的ビーム形成器は、(可能性としては動的に)聴取位置の方向にヌルを方向制御するよう構成されていてもよい。   This can provide an improved user experience by providing an improved perception of the diffuse sound component to be rendered. The second speaker arrangement may in particular be an audio array controlled by a beamformer included in the second driver. The adaptive beamformer may be configured to direct the null in the direction of the listening position (possibly dynamically).

本発明のある任意的な特徴によれば、第二のスピーカー配置はバイポーラー・スピーカー配置を有する。   According to an optional feature of the invention, the second speaker arrangement comprises a bipolar speaker arrangement.

これは、複雑さの低い実装を維持しつつ有利なパフォーマンスを許容しうる。   This may allow advantageous performance while maintaining a low complexity implementation.

本発明のある任意的な特徴によれば、第一のスピーカー配置および第二のスピーカー配置は一つのスピーカー・エンクロージャーに含まれる。   According to one optional feature of the invention, the first speaker arrangement and the second speaker arrangement are contained in one speaker enclosure.

これは実際的な実装を提供することがあり、多くの場合において、オーディオ環境において一つのスピーカー・エンクロージャーを配置するだけでよいので、ユーザーにとって有利でありうる。二つのスピーカー配置は、異なる方向に向けられた一つまたは複数の駆動ユニットの別個の複数のセットによって実装されてもよい。もう一つの例として、第一および第二のスピーカー配置は、第一および第二のオーディオ信号のそれぞれについて異なるビーム形成器によって駆動される単一のオーディオ・アレイによって実装されてもよい。それらのビーム形成器は異なる方向にビームを生成する。   This may provide a practical implementation and in many cases may be advantageous to the user as only one speaker enclosure needs to be placed in the audio environment. The two speaker arrangements may be implemented by separate sets of one or more drive units oriented in different directions. As another example, the first and second speaker arrangements may be implemented by a single audio array driven by different beamformers for each of the first and second audio signals. These beamformers produce beams in different directions.

本発明のある任意的な特徴によれば、前記多チャネル・オーディオ信号は空間的多チャネル信号であり、その各チャネルはある空間的スピーカー配位の公称位置に関連付けられており、第二のスピーカー配置は前記公称位置とは異なる位置に位置されている。   According to an optional feature of the invention, the multi-channel audio signal is a spatial multi-channel signal, each channel being associated with a nominal position of a spatial speaker configuration and a second speaker. The arrangement is located at a position different from the nominal position.

これは、多くの実施形態において、改善されたユーザー経験およびより包み込むようなサウンド・レンダリングを提供しうる。特に、点状オーディオ源の位置を維持したまま、より大きなサウンドステージの知覚を提供しうる。   This may provide an improved user experience and more enveloping sound rendering in many embodiments. In particular, it may provide greater sound stage perception while maintaining the position of the point audio source.

本発明のある任意的な特徴によれば、前記第二のドライバは高められたスピーカー位置に関連付けられている。   According to an optional feature of the invention, the second driver is associated with an elevated speaker position.

これは、多くの実施形態において、改善されたユーザー経験およびより包み込むようなサウンド・レンダリングを提供しうる。特に、点状オーディオ源の位置を維持したまま、より大きなサウンドステージの知覚を提供しうる。   This may provide an improved user experience and more enveloping sound rendering in many embodiments. In particular, it may provide greater sound stage perception while maintaining the position of the point audio source.

本発明のある側面によれば、オーディオをレンダリングする方法が提供される。   According to one aspect of the invention, a method for rendering audio is provided.

本発明のこれらおよびその他の側面、特徴および利点は、以下に記述する実施形態から明白となり、これを参照することで明快にされるであろう。   These and other aspects, features and advantages of the present invention will be apparent from and will be elucidated with reference to the embodiments described hereinafter.

本発明の実施形態は、あくまでも例として、付属の図面を参照して記述される。
本発明のいくつかの実施形態に基づくオーディオ・レンダリング・システムの要素の例を示す図である。 本発明のいくつかの実施形態に基づくオーディオ・レンダラーの要素の例を示す図である。 多チャネル・オーディオ信号の二つのチャネル間の相関指標の例を示す図である。
Embodiments of the present invention are described by way of example only with reference to the accompanying drawings.
FIG. 2 illustrates an example of elements of an audio rendering system according to some embodiments of the present invention. FIG. 4 illustrates an example of an audio renderer element according to some embodiments of the present invention. It is a figure which shows the example of the correlation parameter | index between two channels of a multi-channel audio signal.

以下の記述は、空間的サラウンド・サウンド・システムに適用可能な本発明の実施形態に焦点を当てているが、本発明はこの用途に限定されず、他の多くのオーディオ・レンダリング・システムに対しておよびこれにおいて適用可能であることは理解されるであろう。   The following description focuses on embodiments of the present invention applicable to spatial surround sound systems, but the present invention is not limited to this application and is intended for many other audio rendering systems. It will be understood that this is applicable to and in this regard.

図1は、本発明のいくつかの実施形態に基づくオーディオ・レンダリング・システムの例を示している。   FIG. 1 illustrates an example of an audio rendering system according to some embodiments of the present invention.

本システムにおいて、オーディオ・レンダラー101は多チャネル信号を受領する。それは、この特定の例では、五チャネル空間的多チャネル信号である。多チャネル信号は、聴取位置103に対して特定の空間的位置に位置されたスピーカーに関連付けられた空間的チャネルをもつ通常の五チャネル信号であってもよい。たとえば、5.1ホームシネマ・システムは、一つのスピーカー105が聴取位置の真正面(中央チャネル)、一つのスピーカー107が聴取位置の前方左側、一つのスピーカー109が聴取位置の前方右側、一つのスピーカー111が聴取位置の後方左側、そして一つのスピーカー113が聴取位置の後方右側に位置される五つのスピーカーを介して空間的サウンドを提供する。さらに、非空間的な低域効果チャネルが低域スピーカー(図示せず)により設けられ、レンダリングされてもよい。   In this system, the audio renderer 101 receives a multi-channel signal. It is a five-channel spatial multichannel signal in this particular example. The multi-channel signal may be a regular five-channel signal with a spatial channel associated with a speaker located at a specific spatial position relative to the listening position 103. For example, in a 5.1 home cinema system, one speaker 105 is directly in front of the listening position (center channel), one speaker 107 is the front left side of the listening position, one speaker 109 is the front right side of the listening position, and one speaker 111 is Spatial sound is provided through five speakers located on the rear left side of the listening position and one speaker 113 on the right rear side of the listening position. In addition, a non-spatial low-frequency effect channel may be provided and rendered by a low-frequency speaker (not shown).

このように、図1のシステムは、聴取位置103にいる聴取者に空間的サウンド経験を提供しうる。しかしながら、単に通常の五チャネル・レンダリングを提供するのではなく、図1のシステムは、受領された信号から追加的なチャネルを合成するようさらに構成される。具体的には、図1のシステムは、一つのチャネルを二つのチャネルに分解し、該二つのチャネルを二つの異なるスピーカー配置からレンダリングしてもよい。   As such, the system of FIG. 1 can provide a spatial sound experience to a listener at the listening location 103. However, rather than simply providing normal five-channel rendering, the system of FIG. 1 is further configured to synthesize additional channels from the received signal. Specifically, the system of FIG. 1 may break one channel into two channels and render the two channels from two different speaker arrangements.

この特定の例では、左前方チャネルが第一の信号および第二の信号に分解される。ここで、第一の信号は、左前方チャネルのための公称位置に特に位置されていてもよい第一のスピーカー109を駆動し、第二の信号は第一のスピーカー109と共位置であってもよく、あるいは他のところに位置していてもよい第二のスピーカーを駆動する。   In this particular example, the left front channel is broken down into a first signal and a second signal. Here, the first signal drives the first speaker 109, which may be specifically located in the nominal position for the left front channel, and the second signal is co-located with the first speaker 109. Or a second speaker, which may be located elsewhere, may be driven.

今の例では、右前方チャネルは同様に分解され、それにより追加的なスピーカー配置117が追加的な信号をレンダリングするために使われる。   In the present example, the right front channel is similarly decomposed so that an additional speaker arrangement 117 is used to render the additional signal.

本システムでは、このように、二つの前方横チャネルのそれぞれにおける信号は二つの異なる信号に分割される。さらに、生成される信号の一方は、特定的な(点状)音源からの音のような非拡散音に主として対応し、一方、他方の信号はより拡散した音に主として対応する。この区別および分解は、多チャネル・オーディオ信号の異なるチャネルの間の相関の評価に基づいている。特に、点状源はチャネル間の高度の相関を示す傾向があり、一方、たとえば残響効果、非指向性雑音などに由来する音のような拡散音は、高度の相関を示さない傾向がある。本システムでは、異なる信号を異なるようにレンダリングすることによって、これら二つのチャネルの個々の特性がさらに強調される。特に、非拡散信号は多分に直接音響経路を介してレンダリングされ、一方、拡散信号は多分に間接経路を介してレンダリングされる。   In this system, the signal in each of the two front lateral channels is thus split into two different signals. Furthermore, one of the generated signals mainly corresponds to non-diffused sound such as sound from a specific (point-like) sound source, while the other signal mainly corresponds to more diffused sound. This distinction and decomposition is based on an evaluation of the correlation between different channels of the multi-channel audio signal. In particular, point sources tend to show a high degree of correlation between channels, while diffuse sounds such as sounds originating from reverberation effects, non-directional noise, etc. tend not to show a high degree of correlation. The system further emphasizes the individual characteristics of these two channels by rendering different signals differently. In particular, the non-spread signal is most likely rendered via the direct acoustic path, while the diffuse signal is most likely rendered via the indirect path.

本システムは特に、環境の、より拡散した背景音と特定的な空間的によく定義された前景音源との間の区別をしようとする盲目的な分解アルゴリズムを適用してもよい。   The system may in particular apply a blind decomposition algorithm that attempts to distinguish between more diffuse background sounds of the environment and a specific spatially well-defined foreground sound source.

たとえば、映画におけるオーディオ・シーンはしばしば、聴取者に対して前景にある音源(ダイアログおよび何らかの効果)およびより遠距離にあるまたは背景にある音要素(環境の音および時には背景音楽)からなることがある。後者の型の音は典型的には、特定的な空間手がかりの乏しい拡散音であろう。   For example, an audio scene in a movie often consists of a sound source in the foreground (dialogs and some effects) and a sound element at a greater distance or in the background (environmental sound and sometimes background music) to the listener. is there. The latter type of sound will typically be a diffuse sound that lacks specific spatial cues.

理論上は、このようにしたコンテンツの盲目的な分解は追加的な手がかりなしではきわめて難しい。しかしながら、多くのステレオおよび多チャネル録音では、もとの混合はすでに、前景と背景の音要素が異なる仕方で混合される仕方で生成されている。具体的には、しばしば前景の音要素は典型的には一つか二つのスピーカーでのみ現われ、その場合、それらの要素はゼロ時間遅延において大きな信号レベル相互相関をもつ。他方、背景の音要素は典型的には二つ以上のスピーカーに配置され、典型的にはチャネル対の間でのゼロ遅延相互相関は弱い。主として一つのチャネルにパンされるいくつかの前景音も低い相互層間を示すことがあるが、後述するように、そのようなシナリオは明示的に検出され、補償されうる。   Theoretically, such a blind decomposition of content is extremely difficult without additional clues. However, in many stereo and multi-channel recordings, the original mix is already generated in a way that the foreground and background sound elements are mixed differently. In particular, often the foreground sound elements typically appear only in one or two speakers, in which case they have a large signal level cross-correlation at zero time delay. On the other hand, background sound elements are typically placed in more than one speaker, and the zero delay cross-correlation between channel pairs is typically weak. Some foreground sounds that are mainly panned into one channel may also show low inter-layers, but such scenarios can be explicitly detected and compensated for, as described below.

図1のシステムでは、信号の相関ベースの分解が使われ、これはしばしば、一方が主として拡散背景音に対応し、他方が主として非拡散前景音要素に対応する二つの信号を生成できることを達成することができる。   In the system of FIG. 1, correlation-based decomposition of the signal is used, which often accomplishes that it can generate two signals, one mainly corresponding to diffuse background sound and the other mainly corresponding to non-diffused foreground sound elements. be able to.

本システムでは、これら二つの信号は、異なる指向性放射パターンをもつスピーカー配置によってレンダリングされることができる。具体的には、前景信号をレンダリングするスピーカー配置は、直接聴取位置103に向けられてもよい。すなわち、聴取位置は、そのスピーカー配置の主ローブの(3dB)ビーム幅内にはいってもよい。対照的に、背景信号をレンダリングするスピーカー配置は、直接聴取位置103から背けるように向けられてもよい。よって、このスピーカー配置については、聴取位置は、主ローブの(3dB)ビーム幅の外であってもよい。よって、そのような配置は、反射音響経路を介してレンダリングされる音の割合に対する直接音響経路を介してレンダリングされる音の割合が、背景オブジェクトのレンダリングよりも前景オブジェクトのレンダリングについて、ずっと高いことを保証しうる。このように、レンダリングされる音の相対的な拡散性は、前景オブジェクトに比して背景オブジェクトについて高められる。   In this system, these two signals can be rendered by speaker arrangements with different directional radiation patterns. Specifically, the speaker arrangement for rendering the foreground signal may be directed directly to the listening position 103. That is, the listening position may be within the (3 dB) beam width of the main lobe of the speaker arrangement. In contrast, the speaker arrangement for rendering the background signal may be directed away from the listening position 103 directly. Thus, for this speaker arrangement, the listening position may be outside the (3 dB) beam width of the main lobe. Thus, such an arrangement is such that the ratio of sound rendered via the direct acoustic path to the ratio of sound rendered via the reflected acoustic path is much higher for foreground object rendering than for background object rendering. Can be guaranteed. In this way, the relative diffusivity of the rendered sound is enhanced for the background object compared to the foreground object.

具体的には、ひとたび分解されたオーディオ信号が生成されたら、前景信号は、(20msの)非残響時間区間については主として直接音響経路を介して聴取位置103に信号をレンダリングするスピーカー配置によって再生されることができ、それにより強い空間的手がかりを提供し、その結果、明瞭に定位できる音像ができる。他方、背景信号は、(20msの)非残響時間区間については主として反射される経路を介して聴取位置103にオーディオをレンダリングするスピーカー配置によって再生されてもよく、それにより背景音の拡散性の増大を与える。これは、音が多くの方向から到来するように知覚される、より包み込むような聴取経験を提供するために追加的な背景チャネルが使用されることができるので、多くの実施形態において特に有利でありうる。このように、前景チャネルを使って特定的な前景音源の位置が変化しないことを保証しつつ、より大きなサウンドステージの知覚が達成されうる。   Specifically, once the decomposed audio signal is generated, the foreground signal is played back by a speaker arrangement that renders the signal to the listening position 103 primarily via the direct acoustic path for non-reverberation time intervals (20 ms). Thereby providing strong spatial cues, resulting in a sound image that can be clearly localized. On the other hand, the background signal may be played by a loudspeaker arrangement that renders audio to the listening position 103 via a path that is primarily reflected for non-reverberant time intervals (20 ms), thereby increasing the diffusibility of the background sound. give. This is particularly advantageous in many embodiments because additional background channels can be used to provide a more wrapping listening experience where the sound is perceived as coming from many directions. It is possible. In this way, greater sound stage perception can be achieved while using the foreground channel to ensure that the position of the particular foreground sound source does not change.

図2は、図1のシステムのうち、一つの入力チャネルからの二つの出力チャネルの生成に関係するいくつかの要素の例を示している。具体的には、図2は図1の左前方チャネルについての要素を示していると考えてもよいが、このアプローチは右前方チャネルにも適用可能であり、実は、のちに異なる仕方でレンダリングされる二つの出力チャネルに上方混合される、いかなるオーディオ信号にも等しく可能であることは理解されるであろう。   FIG. 2 shows an example of several elements related to the generation of two output channels from one input channel in the system of FIG. In particular, although FIG. 2 may be considered to show the elements for the left front channel of FIG. 1, this approach is also applicable to the right front channel and is actually rendered differently later. It will be appreciated that any audio signal that is mixed up into two output channels is equally possible.

図2は、多チャネル信号を受領するよう構成された受領器201を有するオーディオ・レンダラー101を示している。   FIG. 2 shows an audio renderer 101 having a receiver 201 configured to receive a multi-channel signal.

受領器201は、多チャネル信号の信号の一つの信号をフィードされる上方混合器203に結合されている。この例では、上方混合器203は左前方チャネルをフィードされる。上方混合器203は、受領した信号を上方混合して二つの出力信号を生成するよう構成されている。第二の信号は、第二の信号より拡散音のより高い割合を含む。よって、上方混合器203は入力信号を、主として、拡散したまたは空間的によく定義されていない音源に対応する音成分と、拡散しておらず典型的には空間的に比較的よく定義されている音成分とに分割してもよい。第一の信号は典型的には主として特定的な前景要素に対応してもよく、一方、第二の信号は典型的には背景音に対応してもよい。以下、二つの信号は前景信号および背景信号と称される。   The receiver 201 is coupled to an upper mixer 203 fed with one of the multi-channel signals. In this example, the upper mixer 203 is fed through the left front channel. The upper mixer 203 is configured to mix the received signal upward to generate two output signals. The second signal includes a higher percentage of diffuse sound than the second signal. Thus, the upper mixer 203 has an input signal mainly composed of sound components corresponding to a diffused or poorly spatially defined sound source, and typically not diffused and typically relatively well defined spatially. It may be divided into sound components. The first signal may typically correspond primarily to a particular foreground element, while the second signal may typically correspond to a background sound. Hereinafter, the two signals are referred to as a foreground signal and a background signal.

本システムでは、前景信号と背景信号への分解は、多チャネル信号の二つのチャネルの間の相関を考えることによって実行される。このアプローチは、特に、拡散/背景信号が、多チャネル信号の異なるチャネル間の低い相関をもつよう生成される傾向があり、一方、点状の/特定的な前景オブジェクトは高い相関をもつ傾向があることを活用しうる。このように、上方混合器203は、高い相関をもつ音成分を前景信号に、低い相関をもつ音成分を背景信号に差し向けようとすることによって、信号を分解してもよい。こうして、前景信号は、背景信号よりも、相関した音成分のより高い濃度をもちうる。   In this system, the decomposition into foreground and background signals is performed by considering the correlation between the two channels of the multichannel signal. This approach in particular tends to generate spread / background signals to have a low correlation between different channels of a multi-channel signal, while pointed / specific foreground objects tend to have a high correlation. You can take advantage of something. As described above, the upper mixer 203 may decompose the signal by trying to direct a sound component having a high correlation to the foreground signal and a sound component having a low correlation to the background signal. Thus, the foreground signal can have a higher density of correlated sound components than the background signal.

前景信号は、上方混合器203および外部スピーカー配置107に結合されている第一のドライバ205にフィードされる。外部スピーカー配置107(以下では前景スピーカー107と称される)は一つまたは複数のスピーカー・ドライバ/オーディオ・トランスデューサを有していてもよい。   The foreground signal is fed to a first driver 205 that is coupled to the upper mixer 203 and the external speaker arrangement 107. External speaker arrangement 107 (hereinafter referred to as foreground speaker 107) may have one or more speaker drivers / audio transducers.

背景信号は、上方混合器203および外部スピーカー配置115に結合されている第二のドライバ207にフィードされる。外部スピーカー配置115(以下では背景スピーカー115と称される)は一つまたは複数のスピーカー・ドライバ/オーディオ・トランスデューサを有していてもよい。   The background signal is fed to a second driver 207 that is coupled to the upper mixer 203 and the external speaker arrangement 115. External speaker arrangement 115 (hereinafter referred to as background speaker 115) may include one or more speaker drivers / audio transducers.

このように、二つの生成された信号は異なるスピーカー配置(speaker arrangement)(簡単のためスピーカーとも称されるが、複数のスピーカー・ドライバを有していてもよく、実は、たとえばオーディオ・アレイおよび諸チャネルをレンダリングするためのビーム形成を使って、いくつかのスピーカー・ドライバを共有していてもよいことは理解されるであろう)を使って独立にレンダリングされる。   Thus, the two generated signals are different speaker arrangements (also called speakers for simplicity, but may have multiple speaker drivers, in fact, for example, audio arrays and various It will be appreciated that beam forming to render the channel may be used to share several speaker drivers).

さらに、個々のスピーカーは、レンダリングされるオーディオ信号の特定の型に特に好適なレンダリングを提供するよう構成されている。こうして、スピーカーの特性は、二つの生成される信号の個々の特性について特に有利なレンダリングを提供するようなものである。   Furthermore, the individual speakers are configured to provide a rendering that is particularly suitable for the particular type of audio signal being rendered. Thus, the speaker characteristics are such that they provide a particularly advantageous rendering for the individual characteristics of the two generated signals.

本システムでは、前景スピーカー配置107および背景スピーカー配置115はいずれも指向性スピーカーであり、よって指向性放射パターン(たとえば、放射の角度の関数としての相対的な利得として与えられる)をもつ。指向性放射パターンは、最大放射レベル(最大利得)が達成される主ローブを有する。そのような主ローブのビーム幅は、放射(パワー)レベル(利得)が最大放射レベル(利得)より3dB低いところまで低下した二つの点の間のビームの幅として与えられる3dBビーム幅として決定されてもよい。(バイポーラー・スピーカーのような)いくつかのスピーカー配置については、放射パターンは複数の同一のローブを示してもよい(すなわち、二つ以上の主ローブがあってもよい)。   In this system, both the foreground speaker arrangement 107 and the background speaker arrangement 115 are directional speakers and thus have a directional radiation pattern (eg, given as a relative gain as a function of the angle of radiation). The directional radiation pattern has a main lobe in which the maximum radiation level (maximum gain) is achieved. The beam width of such a main lobe is determined as the 3 dB beam width given as the beam width between two points where the radiation (power) level (gain) has dropped to 3 dB below the maximum radiation level (gain). May be. For some speaker arrangements (such as bipolar speakers), the radiation pattern may exhibit multiple identical lobes (ie, there may be more than one main lobe).

D1のシステムでは、前景スピーカー配置107は、聴取位置103が主ローブの(または二つ以上ある場合には主ローブの任意のものの)3dBビーム幅内にはいるよう配置される。対照的に、背景スピーカー配置115は、聴取位置103が主ローブの(または二つ以上ある場合にはすべての主ローブの)3dBビーム幅内にはいらないよう配置される。この配置は特に、前景信号の、(後述するように初期の非残響時間区間での)主として直接音響経路に沿ったレンダリングを許容しうる。一方、背景信号は、(やはり前記非残響時間区間内で)主として反射音響経路に沿ってレンダリングされる。   In the D1 system, the foreground speaker arrangement 107 is arranged such that the listening position 103 is within the 3 dB beamwidth of the main lobe (or any of the main lobes if there are more than one). In contrast, the background speaker arrangement 115 is arranged such that the listening position 103 does not fall within the 3 dB beamwidth of the main lobe (or all main lobes if there are more than two). This arrangement may in particular allow rendering of the foreground signal primarily along the acoustic path (in the initial non-reverberation time interval as described below). On the other hand, the background signal is rendered mainly along the reflected acoustic path (again within the non-reverberation time interval).

特に図1のシステムでは、前景スピーカー107は、20msの非残響時間区間内では主として前景スピーカー107から聴取位置107への非反射音響経路に沿ってレンダリングされるオーディオを聴取位置にレンダリングするよう構成される。こうして、前景スピーカー107からの最初の波面後の最初の20ms以内のオーディオ・エネルギーの少なくとも半分は、聴取位置103に直接的な非反射経路を介して到達する。実際、多くのシナリオにおいて、音エネルギーの少なくとも75%またさらには90%が直接経路を介しうる。そのような直接的なレンダリングは、強い空間的手がかりを与え、聴取者に、前景スピーカー107からレンダリングされた音成分が前景スピーカー107の位置から発しているように知覚されることを許容する空間的手がかりを与える。これは、他の空間的チャネルからの(特に前方右および中央チャネルからの)対応する音成分とともに、特定的な空間的によく定義されたオーディオ要素がサウンドシーンにおいて位置され、特定的なよく定義された位置をもつ音源として知覚されることを許容するパン効果を提供する。   In particular, in the system of FIG. 1, the foreground speaker 107 is configured to render audio at the listening position that is rendered mainly along a non-reflective acoustic path from the foreground speaker 107 to the listening position 107 within a 20 ms non-reverberation time interval. The Thus, at least half of the audio energy within the first 20 ms after the first wavefront from the foreground speaker 107 reaches the listening position 103 via a direct non-reflective path. In fact, in many scenarios, at least 75% or even 90% of the sound energy can be routed directly. Such direct rendering provides strong spatial cues and allows the listener to perceive the sound component rendered from the foreground speaker 107 to be perceived as originating from the position of the foreground speaker 107. Give a clue. This is because specific spatially well-defined audio elements are located in the sound scene along with corresponding sound components from other spatial channels (especially from the front right and center channels). Providing a pan effect that allows it to be perceived as a sound source having a defined position.

対照的に、背景スピーカー115は、20msの非残響時間区間内では主として背景スピーカー115から聴取位置103への反射音響経路に沿ってレンダリングされるオーディオを聴取位置にレンダリングするよう構成される。こうして、背景スピーカー115からの(最初の波面から20ms以内の)早期のオーディオ・エネルギーの少なくとも半分は、聴取位置103に非直接的な、反射されたレンダリングを介して到達する。実際、多くのシナリオにおいて、音エネルギーの少なくとも75%またさらには90%が反射経路を介しうる。反射は、システムが位置している室内の壁、床、天井、障害物などから生じてもよい。   In contrast, the background speaker 115 is configured to render at the listening position audio that is rendered mainly along the reflected acoustic path from the background speaker 115 to the listening position 103 within the 20 ms non-reverberation time interval. Thus, at least half of the early audio energy (within 20 ms from the first wavefront) from the background speaker 115 reaches the listening position 103 via an indirect, reflected rendering. In fact, in many scenarios, at least 75% or even 90% of the sound energy can go through the reflection path. Reflections may arise from walls, floors, ceilings, obstacles, etc. in the room where the system is located.

そのような間接的なレンダリングの結果として、レンダリングされるオーディオは時間および空間の両方において広がり、それは聴取者に与えられる、スピーカー位置に関係する空間的手がかりの量を減らすことになる。聴取者はその代わり、広がった、より著しい拡散特性をもつ音を知覚しうる。このように、反射された音の使用は、より拡散した背景または環境音に対応する背景信号の拡散性の性質を高める。そのような拡散音は、たとえばファントム・オーディオ源または移動したオーディオ源の知覚を導入することなく、より大きな、より包み込むようなサウンドシーンの知覚を聴取者に与えるのに特に好適である。   As a result of such indirect rendering, the rendered audio will spread in both time and space, which will reduce the amount of spatial cues related to the speaker position that are provided to the listener. Instead, the listener may perceive a sound that is spread and has a more pronounced diffusion characteristic. Thus, the use of reflected sound enhances the diffusive nature of the background signal corresponding to a more diffuse background or environmental sound. Such diffuse sound is particularly suitable for giving the listener a perception of a larger, more wrapping sound scene without introducing, for example, the perception of a phantom audio source or a moved audio source.

諸サウンド・レンダリング・システムにおいて、レンダリングされるエネルギーのかなりの部分は聴取位置に残響信号成分として到達する。スピーカーから聴取位置への音響伝達関数のそのような残響尾部は比較的長く、推定するのが難しいことがある。さらに、残響伝搬は特定のスピーカー・セットアップとは独立である傾向があり、一般には主として部屋の特性に依存する。   In sound rendering systems, a significant portion of the rendered energy reaches the listening position as a reverberant signal component. Such a reverberation tail of the acoustic transfer function from the speaker to the listening position is relatively long and can be difficult to estimate. Furthermore, reverberation propagation tends to be independent of a particular speaker setup and generally depends primarily on room characteristics.

残響尾部は、聴取者に対して非常に限られた空間的手がかりを提供する。図2のシステムでは、二つのスピーカー配置のレンダリングの間の区別は、空間的知覚における区別を提供するために使われる。よって、それらは初期の非残響時間区間については非常に異なるレンダリングを提供するよう構成され、残響尾部についての特性はそれほど有意ではない。したがって、それらのスピーカー配置は、20msの伝搬時間差区間として定義される非残響時間区間内では非常に異なるレンダリングを与えるよう構成されるが、この20msの伝搬時間差区間外では、レンダリング特性は有意とは考えられず、実際、二つのレンダリング・システムについて同じであってもよい。   The reverberation tail provides very limited spatial cues for the listener. In the system of FIG. 2, the distinction between the rendering of the two speaker arrangements is used to provide a distinction in spatial perception. Thus, they are configured to provide very different renderings for the initial non-reverberation time interval and the characteristics for the reverberation tail are not as significant. Therefore, their speaker arrangements are configured to give very different renderings within the non-reverberation time interval defined as the 20 ms propagation time difference interval, but outside this 20 ms propagation time difference interval, the rendering characteristics are not significant. Unthinkable, in fact, it may be the same for the two rendering systems.

このように、二つのスピーカー配置は、最初の波面から20ms以内に聴取位置103に到達するオーディオは第一のスピーカー配置101について直接経路を介して到達するよう構成される。等価だが、スピーカー配置から聴取位置103への音響伝達関数の最も早期の0でない値から(すなわち、聴取位置に到達する最初の波面から)最初の20msは、前景スピーカー107にとっては主として直接音響経路の結果であり、背景スピーカー115にとっては主として反射された経路の結果である。   In this way, the two speaker arrangements are configured such that audio that reaches the listening position 103 within 20 ms from the first wavefront reaches the first speaker arrangement 101 via a direct path. Equivalent, but from the earliest non-zero value of the acoustic transfer function from the speaker placement to the listening position 103 (ie from the first wavefront reaching the listening position), the first 20 ms is mainly for the foreground speaker 107 in the direct acoustic path. It is the result, mainly for the background speaker 115, the result of the reflected path.

以下では、レンダリングにおける区別および前景スピーカー107と背景スピーカー115のレンダリングの間の差への言及は、簡単のため、特性がこの20msの時間区間についてであることに明示的に言及しないことがあるが、たとえばレンダリングが主として直接音響経路または間接音響経路を介することへの言及がこの時間区間内で考えられるべきであることは理解されるであろう。   In the following, the distinction in rendering and the reference to the difference between the rendering of the foreground speaker 107 and the background speaker 115 may not be explicitly mentioned that the characteristics are for this 20 ms time interval for simplicity. It will be appreciated that references to, for example, rendering primarily via the direct or indirect acoustic path should be considered within this time interval.

上方混合器203は、上方混合されるチャネル(今の特定の例では左前方チャネル)と他のチャネルとの相関の評価に基づいて前景および背景信号を生成するよう構成される。特に、上方混合されるチャネルと他のチャネルとの間の相関を示す相関指標が、新しい信号を合成するために上方混合器によって使用される。   The upper mixer 203 is configured to generate foreground and background signals based on an evaluation of the correlation between the channel to be mixed upward (the left front channel in the present specific example) and other channels. In particular, a correlation index indicative of the correlation between the channel to be mixed up and the other channel is used by the upper mixer to synthesize a new signal.

よって、オーディオ・レンダラー101は、上方混合されるチャネルの信号と他のチャネルの信号についての相関指標を生成するよう構成されている相関推定器213を有する。考えているチャネルが左前方チャネルである例では、相関指標は典型的には、多くのシナリオにおいて、有利には、左前方チャネルの右前方チャネルに対する相関を示してもよい。たとえば、考えているチャネルが左サラウンド・チャネルである例については、相関指標は典型的には、多くのシナリオにおいて、有利には、左サラウンド・チャネルの右サラウンド・チャネルに対する相関を示してもよい。これらの相関は、むろん、それぞれ右前方チャネルおよび右サラウンド・チャネルについても等しく適切である。   Thus, the audio renderer 101 has a correlation estimator 213 that is configured to generate correlation indicators for the signals of the channel to be mixed up and the signals of other channels. In the example where the channel under consideration is the left front channel, the correlation index may typically indicate the correlation of the left front channel to the right front channel in many scenarios. For example, for an example where the channel under consideration is a left surround channel, the correlation index may typically indicate the correlation of the left surround channel to the right surround channel in many scenarios. . These correlations are of course equally suitable for the right front channel and the right surround channel, respectively.

図2の例では、相関推定器213は、直接相関を実行することによって相関指標を生成するよう構成されている。相関指標は、時間‐周波数タイルとも称される複数の時間周波数区間のそれぞれについて特定の相関値を有していてもよい。実際、信号の上方混合は時間‐周波数タイルにおいて実行されてもよく、相関指標は各時間‐周波数タイルについて相関値を与えてもよい。   In the example of FIG. 2, the correlation estimator 213 is configured to generate a correlation index by performing direct correlation. The correlation index may have a specific correlation value for each of a plurality of time frequency sections, also referred to as time-frequency tiles. Indeed, up-mixing of the signal may be performed in the time-frequency tile and the correlation index may give a correlation value for each time-frequency tile.

いくつかの実施形態では、相関指標の分解能は、上方混合の時間‐周波数タイルの分解能より低くてもよい。たとえば、相関値は、いくつかの知覚的有意性帯域(perceptual significance band)のそれぞれについて、たとえばいくつかのERB帯域のそれぞれについて与えられてもよい。各知覚的有意性帯域は複数の時間‐周波数タイルをカバーしてもよい。   In some embodiments, the resolution of the correlation index may be lower than the resolution of the upmixed time-frequency tile. For example, a correlation value may be given for each of several perceptual significance bands, for example for each of several ERB bands. Each perceptual significance band may cover multiple time-frequency tiles.

相関指標は上方混合器203にフィードされてもよく、上方混合器203はそれぞれ前景および背景信号についての利得を決定することに進むことができる。特に、入力信号はセグメント分割されて周波数領域に変換されてもよい。時間セグメントにおける各周波数領域値(FFTビン値)について(すなわち、各時間周波数タイルについて)、上方混合器203は、前景信号値を、対応する時間‐周波数タイルについての相関値から導出される前景利得をそれに乗算することによって生成してもよい。前景利得は、相関が増すにつれて増大してもよい。結果として、入力信号の相関した成分の高い重み付けを有する周波数領域信号が生成される。   The correlation indicator may be fed to the upper mixer 203, which can proceed to determine the gain for the foreground and background signals, respectively. In particular, the input signal may be segmented and converted to the frequency domain. For each frequency domain value (FFT bin value) in the time segment (ie, for each time frequency tile), the upper mixer 203 calculates the foreground signal value from the correlation value for the corresponding time-frequency tile. May be multiplied by it. The foreground gain may increase as the correlation increases. As a result, a frequency domain signal having a high weighting of the correlated components of the input signal is generated.

同様に、時間セグメントにおける各周波数領域値(FFTビン値)について(すなわち、各時間周波数タイルについて)、上方混合器203は、背景信号値を、対応する時間‐周波数タイルについての相関値から導出される背景利得をそれに乗算することによって生成してもよい。背景利得は、相関が増すにつれて減少してもよい。結果として、入力信号の相関した成分の低い重み付けを有する周波数領域信号が生成される。   Similarly, for each frequency domain value (FFT bin value) in the time segment (ie, for each time frequency tile), the upper mixer 203 derives the background signal value from the correlation value for the corresponding time-frequency tile. May be generated by multiplying it by a background gain. The background gain may decrease as the correlation increases. As a result, a frequency domain signal having a low weighting of the correlated components of the input signal is generated.

二つの生成された周波数信号は次いでもとの時間領域に変換されて、背景信号および前景信号を与えてもよい。   The two generated frequency signals may then be converted to the original time domain to provide a background signal and a foreground signal.

上方混合器203は、特に、信号の全体的なエネルギー・レベルを厳密にまたは近似的に維持するよう、前景利得および背景利得を決定してもよい(特に、利得の和または平方和が1とされてもよい)。上方混合器203はさらに、知覚される音質を改善しうる、利得の周波数領域平滑化を提供するよう構成されていてもよい。   The upper mixer 203 may determine the foreground gain and the background gain, in particular to maintain the overall energy level of the signal strictly or approximately (in particular, the gain sum or square sum is 1 and May be). Upper mixer 203 may further be configured to provide frequency domain smoothing of the gain that may improve perceived sound quality.

より詳細には、入力信号は、短時間入力信号ベクトル
x(n)=[x(n), x(n−1), …, x(n−K+1)]T
または離散フーリエ変換を使って得られるスペクトル・ベクトル
X(n,ω)=Fwx(n)
によって与えられてもよい。ここで、Fはフーリエ基底関数の行列であり、窓関数wはたとえば対角線上でハニング窓関数係数および他所で0の対角行列である。
More specifically, the input signal is a short-time input signal vector.
x (n) = [x (n), x (n−1),…, x (n−K + 1)] T
Or a spectral vector obtained using the discrete Fourier transform
X (n, ω) = Fwx (n)
May be given by: Here, F is a matrix of Fourier basis functions, and the window function w is, for example, a Hanning window function coefficient on a diagonal line and a diagonal matrix of 0 elsewhere.

今の特定の例では、左前方および右前方チャネルが上方混合され、よって上方混合はステレオ信号
X(n,ω)=[X1(n,ω), X2(n,ω)]
に適用される。
In the particular example now, the left front and right front channels are mixed up, so the top mixing is a stereo signal.
X (n, ω) = [X 1 (n, ω), X 2 (n, ω)]
Applies to

そのようなステレオ・ベクトル信号のMチャネル・ベクトル信号   M channel vector signal of such a stereo vector signal

Figure 0006078556
への上方混合は、各変換成分について別個に実行できる。ω番目の周波数成分について、上方混合されたベクトル信号は次式によって与えられる。
Figure 0006078556
Upward mixing can be performed separately for each conversion component. For the ω-th frequency component, the upmixed vector signal is given by

Figure 0006078556
ここで、G(n,ω)は行列演算である。
Figure 0006078556
Here, G (n, ω) is a matrix operation.

フィルタ行列は今の特定の例では、次の形に書ける。   The filter matrix can now be written as:

Figure 0006078556
この行列は左チャネルと右チャネルを混合しない(行列中の0)。これは設計上の選択であり、チャネル交差項が0でなく、両側の間の混合を生じるアルゴリズムを設計することも可能であることは理解されるであろう。これは典型的には、前景チャネルの合成についてよりも背景チャネルの合成についてより有益でありうる。
Figure 0006078556
This matrix does not mix the left and right channels (0 in the matrix). It will be appreciated that this is a design choice and it is possible to design an algorithm that does not have a channel crossing term of 0 and produces a blend between the two sides. This may typically be more beneficial for background channel synthesis than foreground channel synthesis.

行列の利得は相関指標から決定される。   The gain of the matrix is determined from the correlation index.

さらに、前景信号についての重み(すなわち、g11およびg31)は、相関指標の(特に、その時間周波数タイルにおける相関値の)単調増加関数として決定される。こうして、特定の時間周波数タイルの信号エネルギーの前景信号への割り当ては、二つの空間的チャネルが相関しているほど、増大する。利得は他のパラメータおよび事情にも依存していてもよいが、相関値との関係は単調増加となることは理解されるであろう。 Furthermore, the weights (ie g 11 and g 31 ) for the foreground signal are determined as a monotonically increasing function of the correlation index (especially the correlation value at that time-frequency tile). Thus, the allocation of the signal energy of a particular time frequency tile to the foreground signal increases as the two spatial channels are correlated. It will be appreciated that the gain may depend on other parameters and circumstances, but the relationship with the correlation value is monotonically increasing.

背景信号についての重み(すなわち、g22およびg42)は、相関指標の(特に、その時間周波数タイルにおける相関値の)単調減少関数として決定される。こうして、特定の時間周波数タイルの信号エネルギーの背景信号への割り当ては、二つの空間的チャネルの相関が少ないほど、すなわちより拡散音に対応するほど、増大する。利得は他のパラメータおよび事情にも依存していてもよいが、相関値との関係は単調減少となることは理解されるであろう。 The weights for the background signal (ie g 22 and g 42 ) are determined as a monotonically decreasing function of the correlation index (especially the correlation value at that time-frequency tile). Thus, the allocation of the signal energy of a particular temporal frequency tile to the background signal increases as the correlation between the two spatial channels is less, i.e., corresponding to more diffuse sound. It will be appreciated that the gain may depend on other parameters and circumstances, but the relationship with the correlation value is monotonically decreasing.

このように、上方混合器203は両側の横前方信号を、相関している信号成分および相関していない信号成分に、よって典型的には拡散した環境音および非拡散前景音に、分解する。   Thus, the upper mixer 203 decomposes the lateral front signals on both sides into correlated and uncorrelated signal components, and thus typically into diffuse environmental and non-diffused foreground sounds.

相関推定器213は、今の特定の例では二つの前方チャネルの間である相関値を決定する。二入力データ・シーケンスについて、相関係数は次のように定義できる。   Correlation estimator 213 determines a correlation value that is between the two forward channels in the present specific example. For a two-input data sequence, the correlation coefficient can be defined as follows:

Figure 0006078556
ここで、<…>は変数n上での二つのデータ・セットの内積の期待値の計算を表わす。相関係数Cの値が1に近づくとき、それら二つのチャネルにおいてコンテンツがコヒーレントであると言うことができる。
Figure 0006078556
Here, <...> represents the calculation of the expected value of the inner product of the two data sets on the variable n. When the value of the correlation coefficient C approaches 1, it can be said that the content is coherent in these two channels.

二つの入力チャネルの信号パワーおよび積は、各周波数ビンにおいて次のように得ることができる:
φij(n,ω)=Xi(n,ω)Xj(n,ω)* (i,j=1,2)
ここで、*は複素共役を表わす。これらの瞬時量が与えられると、たとえば適応パラメータλ1をもつ一次積分器(first-order integrator)を使って、時間方向フィルタリングが適用されて、
φij(n,ω)=λ1φij(n,ω)+(1−λ1ij(n−1,ω)
によって与えられるスライディング窓推定値を生じてもよい。
The signal power and product of the two input channels can be obtained in each frequency bin as follows:
φ ij (n, ω) = X i (n, ω) X j (n, ω) * (i, j = 1,2)
Here, * represents a complex conjugate. Given these instantaneous quantities, time-direction filtering is applied, for example using a first-order integrator with an adaptive parameter λ 1 ,
φ ij (n, ω) = λ 1 φ ij (n, ω) + (1−λ 1 ) φ ij (n−1, ω)
May yield a sliding window estimate given by:

すると、各時間‐周波数タイルについての相関値は次のように決定されてもよい。   The correlation value for each time-frequency tile may then be determined as follows:

Figure 0006078556
しばしば、(周波数)ビンごとの演算のため、周波数領域における可変性の高いどんな関数も、オーディオ信号処理のための利得関数として適用されると、かなりの量の可聴アーチファクトを生じることがある。図3の黒い実線は、そのような重み付け(利得)関数の例を示している。これは実際には、上記の諸公式に従って得られた相関値である。この曲線上の各値は、重み付け関数の所望される機能性を表わしていてもよいが、多くのシナリオでは、周波数方向における追加的な平均化プロセスがオーディオ品質を実質的に改善しうる。
Figure 0006078556
Often, because of (frequency) bin-by-bin operations, any highly variable function in the frequency domain can produce a significant amount of audible artifacts when applied as a gain function for audio signal processing. The solid black line in FIG. 3 shows an example of such a weighting (gain) function. This is actually a correlation value obtained according to the above formulas. Each value on this curve may represent the desired functionality of the weighting function, but in many scenarios an additional averaging process in the frequency direction can substantially improve audio quality.

したがって、図2のシステムでは、相関推定器213はさらに、複数の時間周波数区間の相関値の(重み付けされた)周波数平均化に応じて、所与の時間周波数区間について相関値を決定するよう構成されている。こうして、スペクトル平滑化が実行できる。   Accordingly, in the system of FIG. 2, the correlation estimator 213 is further configured to determine a correlation value for a given time frequency interval in response to (weighted) frequency averaging of the correlation values of the plurality of time frequency intervals. Has been. In this way, spectrum smoothing can be performed.

よって、相関値は次のように決定されてもよい。   Therefore, the correlation value may be determined as follows.

Figure 0006078556
ここで、S[・]は、好適な周波数平滑化関数を示す。たとえば、三角状または矩形の平滑化関数が適用されてもよい。複雑さの低い例として、平滑化関数Sは単に、現在の時間周波数タイルについての未平滑化相関値およびN個の(周波数領域において)周辺の未平滑化相関値の平均を決定してもよい。
Figure 0006078556
Here, S [•] represents a suitable frequency smoothing function. For example, a triangular or rectangular smoothing function may be applied. As a low complexity example, the smoothing function S may simply determine the average of the unsmoothed correlation values for the current temporal frequency tile and N (in the frequency domain) surrounding unsmoothed correlation values. .

すると、個々の利得係数
gkp(n,ω) k=1,2, p=1,…,4
はたとえば次のように決定されてもよい。
Then individual gain factors
g kp (n, ω) k = 1,2, p = 1,…, 4
May be determined, for example, as follows.

Figure 0006078556
いくつかの実施形態では、他のパラメータまたは特性が利得を決定するときに考慮に入れられてもよい。特に、図2のシステムでは、相関推定器213は任意的に、それらのチャネルについてのエネルギー差推定値に応じて利得を決定してもよい。
Figure 0006078556
In some embodiments, other parameters or characteristics may be taken into account when determining gain. In particular, in the system of FIG. 2, correlation estimator 213 may optionally determine the gain as a function of the energy difference estimate for those channels.

具体的には、考慮されてもよい重要な特殊なケースは、強い空間的によく定義された音源が一つのスピーカーに集中しているとき、たとえば音源が左または右にハード・パンされるときである。この場合にも相関係数は小さくなり、これはシステムに対して、対応する時間‐周波数領域が環境拡散音である可能性が高いことを指示することになる。これは通例、望ましくない。極端な横パンされたコンテンツは典型的には、拡散してレンダリングされるのではなく、ステレオ像において極端な横にあることが意図されているからである。   Specifically, an important special case that may be considered is when a strong spatially well-defined sound source is concentrated on one speaker, for example when the sound source is hard panned to the left or right It is. Again, the correlation coefficient is small, which indicates to the system that the corresponding time-frequency domain is likely to be ambient diffuse sound. This is usually undesirable. This is because extreme horizontally panned content is typically not rendered diffusely, but rather intended to be extremely lateral in a stereo image.

たとえば、登場人物の声がステージ上を左から右へ(または右から左へ)動く映画オーディオ・トラックのいくつかの例がある。動きが極端な右または左のパン方向で開始または終了する場合には、単純な相関ベースの分離では、動きの開始または終了時に声がいきなり拡散かつ環境音になることになりうる。これは、非常に気づきやすいアーチファクトである。これは、振幅パンに基づく他の多くの動的な空間的効果にも当てはまる。   For example, there are some examples of movie audio tracks in which the voice of a character moves on the stage from left to right (or from right to left). If the motion starts or ends in extreme right or left pan directions, simple correlation-based separation can cause the voice to suddenly become diffuse and environmental sound at the start or end of the motion. This is a very noticeable artifact. This is also true for many other dynamic spatial effects based on amplitude panning.

本システムは、そのような問題に特に対処しようとしてもよい。これは、今の例では、チャネル間のエネルギー差に応じて利得を適応させることによってなされる。   The system may attempt to specifically address such issues. This is done in the present example by adapting the gain according to the energy difference between the channels.

具体的には、利得についての追加的な重み関数h(n,ω)が、二つのチャネル間の信号エネルギー差の推定値に基づいて決定されてもよい。   Specifically, an additional weighting function h (n, ω) for gain may be determined based on an estimate of the signal energy difference between the two channels.

第一に、二つの入力チャネル間の振幅差が各周波数ビンにおいて計算される:
E(n,ω)=log(Xi(n,ω))−log(Xj(n,ω))
次いで、各フレームにおいて、得られた推定値に時間積分および周波数領域平滑化を適用して、重み関数h(n,ω)を
h(n,ω)=S[λ2h(n,ω)+(1−λ2)E(n−1,ω)]
と更新する。
First, the amplitude difference between the two input channels is calculated in each frequency bin:
E (n, ω) = log (X i (n, ω)) − log (X j (n, ω))
Next, in each frame, time integration and frequency domain smoothing are applied to the obtained estimated value to obtain a weight function h (n, ω).
h (n, ω) = S [λ 2 h (n, ω) + (1−λ 2 ) E (n−1, ω)]
And update.

関数h(n,ω)は、チャネル1が支配的なスペクトル領域では正であり、他方のチャネルがより多くのエネルギーをもつエリアでは負である。最後に、h(n,ω)の正および負の値は、たとえばロジスティック関数
f(x)=(2/(1+exp(−x)/χ))+2
を使って、
The function h (n, ω) is positive in the spectral region where channel 1 is dominant and negative in the area where the other channel has more energy. Finally, the positive and negative values of h (n, ω) are for example logistic functions
f (x) = (2 / (1 + exp (−x) / χ)) + 2
Use

Figure 0006078556
によって範囲[0,1]に別個にマッピングされる。
Figure 0006078556
Is mapped separately to the range [0,1].

このマッピング関数のパラメータは典型的にはχ=0.6である。χ=0.0の値では、実際には、ハード・パンされる横信号の解消のない方法を得ることになる。このパラメータの値は自由に選ぶことができる。   The parameter of this mapping function is typically χ = 0.6. A value of χ = 0.0 actually results in a method that does not eliminate the hard panned lateral signal. The value of this parameter can be chosen freely.

最後に、実際の利得gkp(n,ω)は次のように計算されることができる。 Finally, the actual gain g kp (n, ω) can be calculated as follows:

Figure 0006078556
ここで、これらの式は次のエネルギー規格化項を使っている。
Figure 0006078556
Here, these equations use the following energy normalization terms.

Figure 0006078556
このように、本システムは、拡散した環境/背景音に対応する可能性の高い成分および非拡散の前景音に対応する可能性の高い成分を分離し、それにより特徴的な属性をもつ二つの相異なるチャネルへの上方混合を提供する。
Figure 0006078556
In this way, the system separates components that are likely to correspond to diffuse environment / background sounds and those that are likely to correspond to non-diffused foreground sounds, thereby providing two distinct attributes. Provides upward mixing into different channels.

多くのシステムにおいて、オーディオ・レンダラー101は、二つのチャネルについてのレンダリングの属性を個々に適応させるよう構成されていてもよい。よって、オーディオ・レンダラー101は、信号の一方についてのレンダリング属性を、他方の信号についての設定とは独立に変更または設定することができる。レンダリング信号処理は特に、たとえば拡散性の度合いの適用可能な限界を制御するために、ユーザー制御によって適応されてもよい。   In many systems, the audio renderer 101 may be configured to individually adapt the rendering attributes for the two channels. Therefore, the audio renderer 101 can change or set the rendering attribute for one of the signals independently of the setting for the other signal. The rendering signal processing may in particular be adapted by user control, for example to control the applicable limit of the degree of diffusivity.

例として、オーディオ・レンダラー101は、信号の一方についてのオーディオ・レベルを、他方の信号とは独立に設定することができる。たとえば、前景信号についてのボリュームに対する背景信号についてのボリュームが修正されてもよく、望ましいオーディオ経験を提供するよう設定されてもよい。このように、本システムでは、背景および前景のボリュームが、二つの前方横信号について個々に設定されてもよい。これは、多くのシナリオにおいて改善されたユーザー経験を提供しうる。たとえば、これは、背景音に対するダイアログの強調を許容でき、それによりたとえば耳が遠いユーザーを補助することができる。   As an example, the audio renderer 101 can set the audio level for one of the signals independently of the other signal. For example, the volume for the background signal relative to the volume for the foreground signal may be modified and set to provide the desired audio experience. Thus, in the present system, the background and foreground volumes may be set individually for the two front lateral signals. This can provide an improved user experience in many scenarios. For example, this can allow the dialog to be emphasized against background sounds, thereby assisting a user who is far away, for example.

もう一つの例として、本システムは、二つの信号について個々に空間的レンダリング特性を変更してもよい。このように、前方横チャネルについての拡散背景音および直接前景音を伝統的なシステムの場合と同じ仕方でレンダリングするのではなく、本システムは個々の型の音を異なる仕方でレンダリングすることができ、特に、前景音を、スピーカーの位置に関係する強い空間的手がかりを与えるようにレンダリングすることができる。一方、背景音は反射される経路を介してレンダリングされ、そのためその音をレンダリングするスピーカーの位置についての強い空間的手がかりを与えない。   As another example, the system may change the spatial rendering characteristics for two signals individually. Thus, rather than rendering the diffuse background sound and direct foreground sound for the front lateral channel in the same way as in traditional systems, the system can render each type of sound differently. In particular, the foreground sound can be rendered to give strong spatial cues related to the position of the speaker. On the other hand, the background sound is rendered through the reflected path and thus does not give a strong spatial clue as to the position of the speaker that renders the sound.

さらに、いくつかの実施形態では、スピーカー107、115の一方についての放射パターン(たとえばビーム・パターン)が動的に適応可能であってもよい。たとえば、スピーカー107、105の一方が、動的適応可能ビーム形成器をもつスピーカー・アレイを使って実装されてもよい。実際、いくつかの実施形態では、同じオーディオ・アレイが、異なるビーム形成器と一緒になって、背景信号および前景信号の両方をレンダリングしてもよい。すなわち、両方のスピーカー配置105、117が同じオーディオ・アレイによって、ただし異なる方向でのレンダリングを与えるための異なるビーム形成パラメータを使って実装されてもよい。   Further, in some embodiments, the radiation pattern (eg, beam pattern) for one of the speakers 107, 115 may be dynamically adaptable. For example, one of the speakers 107, 105 may be implemented using a speaker array with a dynamically adaptable beamformer. In fact, in some embodiments, the same audio array may be combined with different beamformers to render both background and foreground signals. That is, both speaker arrangements 105, 117 may be implemented with the same audio array, but with different beamforming parameters to provide rendering in different directions.

動的ビーム形成をもつ場合、システムは、二つの信号について異なる方向におけるオーディオ・レンダリングを個々に方向制御してもよい。たとえば、システムは、聴取者の位置を、ビデオ・ベースの頭部追跡システムを使って、追跡してもよい。その際、ビーム形成パラメータは、ユーザーの位置に基づいて二つの信号について個々に適応されてもよい。たとえば前景信号については、ビーム形状の最大を聴取位置の方向に向けるようビーム形成重みが設定されることができ、一方、背景信号については、聴取位置の方向にヌルを向けるようビーム形成重みが設定されることができる。   With dynamic beamforming, the system may individually control audio rendering in different directions for the two signals. For example, the system may track the location of the listener using a video-based head tracking system. In doing so, the beamforming parameters may be individually adapted for the two signals based on the user's position. For example, for the foreground signal, the beam forming weight can be set so that the maximum beam shape is directed toward the listening position, while for the background signal, the beam forming weight is set so that null is directed toward the listening position. Can be done.

個々の実施形態の個別的な選好、要求および制約に依存してスピーカー配置107、115の異なる実装が使用できることは理解されるであろう。   It will be appreciated that different implementations of speaker arrangements 107, 115 may be used depending on the individual preferences, requirements and constraints of the individual embodiments.

実際、上述したように、スピーカー配置は、二つの異なるビーム形成器(あるいは等価なことだが、異なるビーム形成重みを使う同じ物理的なビーム形成機能)によって駆動される一つまたは二つのオーディオ・アレイとして実装されてもよい。ビーム形成重みは、いくつかの実施形態では、固定であってもよく、それにより固定された放射パターンを与えてもよい。そのような場合、オーディオ・アレイは、前景信号については聴取位置に強い直接経路を与えるような角度にされてもよいが、背景信号についてはそうではなく、むしろ、アレイは、聴取位置の方向においてビーム・パターンの落ち込み(典型的にはヌル)を与えるような角度にされてもよい。   In fact, as described above, the speaker arrangement is one or two audio arrays driven by two different beamformers (or equivalently, the same physical beamforming function using different beamforming weights). May be implemented as The beamforming weight may be fixed in some embodiments, thereby providing a fixed radiation pattern. In such a case, the audio array may be angled to give a strong direct path to the listening position for the foreground signal, but not for the background signal, rather, the array is in the direction of the listening position. It may be angled to provide beam pattern dip (typically null).

他の実施形態では、より複雑さの低いアプローチが使われてもよい。たとえば、前景信号について使われるスピーカーは、聴取位置のほうに向けられた通常のスピーカー・ドライバであってもよい。背景スピーカー配置は、聴取位置から離れるほうに、典型的には好適な反射を提供するため壁のほうに、向けられた通常のスピーカー・ドライバであってもよい。   In other embodiments, a less complex approach may be used. For example, the speaker used for the foreground signal may be a normal speaker driver directed towards the listening position. The background speaker arrangement may be a normal speaker driver directed away from the listening position, typically towards the wall to provide a suitable reflection.

多くの実施形態において、二つのスピーカー115、107は、放射パターンが異なる方向になるような配置で、単一のスピーカー・エンクロージャーに含まれることができる。具体的には、前景スピーカーは前方発射配位に位置されてもよく、一方、背景スピーカーは側方発射配位に位置されていてもよい。スピーカー・エンクロージャーが公称位置に位置され、聴取位置のほうに向けられるとき、前景スピーカーは主として直接経路に沿ってオーディオをレンダリングし、一方、背景スピーカーは典型的には、たとえばスピーカーの横の壁からの反射を介してオーディオをレンダリングすることになる。   In many embodiments, the two speakers 115, 107 can be included in a single speaker enclosure in an arrangement such that the radiation patterns are in different directions. Specifically, the foreground speaker may be located in a forward launch configuration, while the background speaker may be located in a side launch configuration. When the speaker enclosure is positioned in the nominal position and is directed towards the listening position, the foreground speaker renders the audio mainly along the direct path, while the background speaker is typically e.g. from the side wall of the speaker Will render the audio through the reflections.

多くの実施形態では、背景スピーカー配置115は、バイポーラー・スピーカー配置によって実装されてもよい。それにより、二つのドライバは同じ駆動信号を、ただし180°の位相差をもってフィードされてもよく、二つのドライバは反対方向に向けられる。このアプローチは、二つの反対方向への強い音放射を、中間でのヌルとともに、生成することになる。ヌルは聴取位置の方向に向けられることができる。この配置は、複雑さの低い、よって低コストの実装を提供するが、それでいていくつかの方向において背景信号の強いレンダリングを提供でき、それにより多くの異なる反射を提供できる。さらに、直接経路オーディオ・レンダリングは最小にされることができる。よって、背景信号の拡散レンダリングが低コスト実装を介して達成できる。このアプローチは、バイポーラー配置の二つのドライバが側方発射配位に配置されており、前景信号をレンダリングするために使われる第三のドライバが前方発射配位に配置された単一のエンクロージャー内の実装について特に好適でありうる。   In many embodiments, the background speaker arrangement 115 may be implemented by a bipolar speaker arrangement. Thereby, the two drivers may feed the same drive signal, but with a phase difference of 180 °, the two drivers being directed in opposite directions. This approach will produce strong sound radiation in two opposite directions, with an intermediate null. The null can be directed in the direction of the listening position. This arrangement provides a low complexity and thus low cost implementation, yet can provide a strong rendering of the background signal in several directions, thereby providing many different reflections. Furthermore, direct path audio rendering can be minimized. Thus, diffuse rendering of the background signal can be achieved through a low cost implementation. In this approach, two drivers in a bipolar configuration are placed in a lateral launch configuration, and a third driver used to render the foreground signal is placed in a single enclosure placed in a forward launch configuration. May be particularly suitable for the implementation.

いくつかの実施形態では、背景信号および前景信号はいずれも、同じ位置から、実際、それらが生成される空間的オーディオ・チャネルに関連付けられた公称位置または参照位置からレンダリングされてもよい。そのようなアプローチは特に、両方のスピーカー配置を有する単一のスピーカー・エンクロージャーを使ってもよい。   In some embodiments, both the background signal and the foreground signal may be rendered from the same location, in fact from the nominal or reference location associated with the spatial audio channel from which they are generated. Such an approach may in particular use a single speaker enclosure with both speaker arrangements.

しかしながら、他の実施形態では、生成された信号の少なくとも一つは、異なる位置からレンダリングされてもよい。特に、多くの実施形態において、前景信号は上方混合されたチャネルの参照位置または公称位置からレンダリングされてもよい。これは、オーディオステージにおける前景オブジェクトの位置が修正されないことを保証する。しかしながら、背景信号は前景信号とは異なる位置から、特に上方混合されるチャネルの公称位置とは別の位置からレンダリングされてもよい。これは、拡張されたサウンドステージを提供することができ、特に、実質的により大きなサウンドステージの知覚を提供しうる。   However, in other embodiments, at least one of the generated signals may be rendered from a different location. In particular, in many embodiments, the foreground signal may be rendered from the reference or nominal position of the upmixed channel. This ensures that the position of the foreground object on the audio stage is not modified. However, the background signal may be rendered from a different position than the foreground signal, in particular from a position different from the nominal position of the channel being mixed up. This can provide an extended sound stage, and in particular can provide a substantially greater perception of the sound stage.

具体的には、背景スピーカーは高められたスピーカーからレンダリングされてもよく、それにより公称上、レンダリング配位に関連付けられている水平面外に広がるサウンドステージを提供しうる。   Specifically, the background speaker may be rendered from an elevated speaker, thereby providing a sound stage that extends nominally outside the horizontal plane associated with the rendering configuration.

いくつかの実施形態では、同様の効果が、(少なくとも部分的に)上方発射スピーカー・ドライバを背景信号について使って達成されてもよい。ここで、上方発射スピーカーは前景信号についてのスピーカー・ドライバ(単数または複数)と同じエンクロージャー内に設けられる。   In some embodiments, a similar effect may be achieved using (at least in part) an upper firing speaker driver for the background signal. Here, the upper firing speaker is provided in the same enclosure as the speaker driver (s) for the foreground signal.

(たとえば聴取者の上の)高められた音の再生を許容するシステムについて、本アプローチは、そのような高められた位置のスピーカーについて適切な信号を生成するよう適応されることができる。たいていの場合、ディスクまたは放送のような利用可能なメディアは専用の高さ信号を含まない。これを克服するために、記載される上方混合アルゴリズムが使用されてもよい。既存の解決策はしばしば、他のチャネルと無相関でない信号を生成し、それにより潜在的に、主たる音源を含む完全な音像を高める。これらの源の所望される位置がたいていの場合、水平面上にあり、高められた位置からのレンダリングは水平面からの位置オフセットが導入される結果になるので、好都合ではない。他の解決策は、やや低いオーディオ・レベルで高さ信号を生成することによって、この問題を回避する。いずれの場合にも、高められたスピーカーの可能な利点は完全には使われない。しかしながら、記載されるアプローチは、より拡散した背景音に主として対応するオーディオ信号成分を抽出するために使用できる。次いで、対応する信号は、たとえば高められたスピーカーを通じて再生されることができ、それにより音的包み込みおよび現実感を増し、一方、位置シフトのような煩わしいアーチファクトは導入しない。   For systems that allow enhanced sound reproduction (eg, on the listener), this approach can be adapted to generate an appropriate signal for such enhanced speakers. In most cases, available media such as discs or broadcasts do not include a dedicated height signal. To overcome this, the described upper mixing algorithm may be used. Existing solutions often generate signals that are not uncorrelated with other channels, thereby potentially enhancing the complete sound image including the main sound source. The desired position of these sources is in most cases on the horizontal plane and rendering from an elevated position is not convenient as it results in a position offset from the horizontal plane being introduced. Other solutions avoid this problem by generating a height signal with a slightly lower audio level. In either case, the possible benefits of enhanced speakers are not fully used. However, the described approach can be used to extract audio signal components that primarily correspond to a more diffuse background sound. The corresponding signal can then be played, for example, through an enhanced speaker, thereby increasing sound wrapping and realism, while not introducing annoying artifacts such as position shifting.

いくつかの実施形態では、記載されるアプローチは、複数のチャネル/チャネル・セットに適用されてもよい。たとえば、前方左および右チャネルについての記載されるアプローチは、サラウンド左および右チャネルに適用されてもよい。このように、個別的な例として、本システムは、5.1サラウンド・サウンド・オーディオの空間的チャネルのような五つの入力信号を受け容れてもよく、中央、指向性の左/右/サラウンド左/サラウンド右および拡散性の左/右/サラウンド左/サラウンド右である九つのスピーカー信号を出力してもよい。   In some embodiments, the described approach may be applied to multiple channels / channel sets. For example, the approach described for the front left and right channels may be applied to the surround left and right channels. Thus, as a specific example, the system may accept five input signals, such as 5.1 surround sound audio spatial channels, center, directional left / right / surround left / Nine speaker signals may be output: surround right and diffuse left / right / surround left / surround right.

いくつかの実施形態では、分解された信号は、それらの信号の少なくとも一つについて、再合成されてもよい。具体的には、公称位置におけるスピーカーのための出力信号は、前景信号および背景信号の組み合わせとして生成されてもよい。この再結合は、拡散背景音が、第二のスピーカー(たとえば高められたスピーカー)からのみならず、もとの位置からもレンダリングされることを許容しうる。しかしながら、典型的には、直接経路に沿ってのレンダリングおよび追加的なスピーカーによって与えられる背景音の追加的レンダリングについて補償するために、背景信号成分の相対レベルは、もとの信号に対して、低減させられる。   In some embodiments, the decomposed signals may be recombined for at least one of those signals. Specifically, the output signal for the speaker at the nominal position may be generated as a combination of foreground and background signals. This recombination may allow the diffuse background sound to be rendered not only from the second speaker (eg, an elevated speaker) but also from the original position. Typically, however, the relative level of the background signal component is relative to the original signal to compensate for rendering along the direct path and for additional rendering of background sound provided by additional speakers. Can be reduced.

いくつかの実施形態では、上方混合器203はさらに、受領された多チャネル信号についてのオーディオ・コンテンツ特性に応答して、入力信号を背景信号と前景信号に分解するために使われる利得を決定するよう構成される。   In some embodiments, the upper mixer 203 further determines a gain used to decompose the input signal into a background signal and a foreground signal in response to audio content characteristics for the received multi-channel signal. It is configured as follows.

実際、利得因子を修正することによって、直接チャネルと環境チャネルとの間のバランスが調整されることができ、これは特に、オーディオ・コンテンツに依存して処理を自動的に適応させるために使用されてもよい。   In fact, by modifying the gain factor, the balance between the direct channel and the environment channel can be adjusted, which is used in particular to automatically adapt the processing depending on the audio content. May be.

オーディオ・コンテンツはたとえば、コンテンツを記述するメタデータによって特徴付けられてもよい。たとえば、オーディオが、たとえばテレビジョン番組のオーディオに対応する場合、オーディオがたとえばサッカー・ゲーム(前景の源はほとんどなく、かなりの拡散背景音(群衆の環境音)がある)から、討論番組(前景音源がほとんどなく、典型的には背景音がほとんどない)からなどのいずれの音であるかを記述するためにメタデータが提供されてもよい。利得は、そのような値に依存して調整されてもよい。たとえば、各コンテンツ・カテゴリーについて、背景および前景分解についての利得を(反対方向に)スケーリングするスケール因子が記憶されていてもよい。   Audio content may be characterized, for example, by metadata describing the content. For example, if the audio corresponds to, for example, the audio of a television program, the audio may be from a soccer game (with few sources of foreground, with significant diffuse background sound (crowd ambient sound)), and a debate program (foreground Metadata may be provided to describe which sound, such as from a sound source is scarce and typically has little background sound. The gain may be adjusted depending on such values. For example, for each content category, a scale factor may be stored that scales the gain for background and foreground decomposition (in the opposite direction).

いくつかの実施形態では、適応は、平均された周波数応答、すべての多チャネルの相対信号エネルギーなどといった、オーディオ信号の特性に応答してであってもよい。   In some embodiments, the adaptation may be in response to characteristics of the audio signal, such as an averaged frequency response, all multi-channel relative signal energies, etc.

上記の記述は明確のため本発明の実施形態を、種々の機能的な回路、ユニットおよびプロセッサに言及しつつ記述していることが理解されるであろう。しかしながら、本発明を損なうことなく、異なる機能的な回路、ユニットまたはプロセッサの間での任意の好適な機能の分配が使用されうることは明白であろう。たとえば、別個のプロセッサまたはコントローラによって実行されるよう示されている機能が同じプロセッサまたはコントローラによって実行されてもよい。よって、特定の機能ユニットまたは回路への言及は、厳密な論理的または物理的な構造または編成を示すというよりは、記載される機能を提供する好適な手段に言及したものとしてのみ見るべきである。   It will be understood that the above description has described embodiments of the invention with reference to various functional circuits, units and processors for clarity. However, it will be apparent that any suitable distribution of functionality between different functional circuits, units or processors may be used without detracting from the invention. For example, functionality illustrated to be performed by separate processors or controllers may be performed by the same processor or controller. Thus, a reference to a particular functional unit or circuit should be viewed only as a reference to a suitable means for providing the described function, rather than to indicate a precise logical or physical structure or organization. .

本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの任意の組み合わせを含むいかなる好適な形で実装されることもできる。本発明は任意的に、少なくとも部分的に、一つまたは複数のデータ・プロセッサおよび/またはデジタル信号プロセッサ上で走るコンピュータ・ソフトウェアとして実装されてもよい。本発明のある実施形態の要素およびコンポーネントは、物理的、機能的および論理的に、任意の好適な仕方で実装されてもよい。実際、機能は単一のユニットに、複数のユニットに、または他の機能ユニットの一部として実装されてもよい。よって、本発明は、単一のユニットで実装されてもよいし、あるいは物理的および機能的に、異なるユニット、回路およびプロセッサの間で分散されていてもよい。   The invention can be implemented in any suitable form including hardware, software, firmware or any combination of these. The invention may optionally be implemented at least in part as computer software running on one or more data processors and / or digital signal processors. The elements and components of an embodiment of the invention may be implemented in any suitable manner, physically, functionally and logically. Indeed, functions may be implemented in a single unit, in multiple units, or as part of other functional units. Thus, the present invention may be implemented in a single unit or may be physically and functionally distributed between different units, circuits and processors.

本発明はいくつかの実施形態との関連で述べてきたが、本稿に記載される特定の形に限定されることは意図されていない。むしろ、本発明の範囲は付属の請求項によってのみ限定される。さらに、ある特徴が特定の実施形態との関連で記載されているように見えることがありうるが、当業者は、記載される諸実施形態のさまざまな特徴が本発明に基づいて組み合わされてもよいことを認識するであろう。請求項において、有する/含むの語は他の要素またはステップの存在を排除するものではない。   Although the present invention has been described in connection with some embodiments, it is not intended to be limited to the specific form set forth herein. Rather, the scope of the present invention is limited only by the accompanying claims. Further, although certain features may appear to be described in the context of particular embodiments, those skilled in the art will recognize that various features of the described embodiments may be combined in accordance with the present invention. You will recognize the good. In the claims, the word comprising / including does not exclude the presence of other elements or steps.

さらに、個別に挙げられてはいても、複数の手段、要素、回路または方法ステップが、たとえば単一の回路、ユニットまたはプロセッサによって実装されてもよい。さらに、個々の特徴が異なる請求項に含まれていたとしても、それらは可能性としては有利に組み合わされうるのであって、異なる請求項に含まれていることが、特徴の組み合わせが実現可能でないおよび/または有利でないことを含意するものではない。また、ある特徴があるカテゴリーの請求項に含まれていることは、このカテゴリーへの限定を含意するのではなく、むしろ、その特徴が適宜他のカテゴリーの請求項にも等しく適用可能であることを示す。さらに、請求項における特徴の順序は、それらの特徴が作用しなければならないいかなる特定の順序をも含意しない。特に、方法請求項における個々のステップの順序はそれらのステップがその順序で実行されなければならないことを含意するものではない。むしろ、ステップは任意の好適な順序で実行されうる。さらに、単数形での言及は複数を排除するものではない。「ある」「第一の」「第二の」などの言及は複数を排除するものではない。請求項における参照符号は、単に明快にするための例として与えられているのであって、いかなる仕方であれ特許請求の範囲を限定するものと解釈してはならない。   Moreover, although individually listed, a plurality of means, elements, circuits or method steps may be implemented by eg a single circuit, unit or processor. Furthermore, even if individual features are included in different claims, they can possibly be advantageously combined, and it is not feasible that combinations of features are included in different claims. And / or does not imply that it is not advantageous. Also, the inclusion of a feature in one category of claims does not imply a limitation to this category, but rather the feature is equally applicable to claims in other categories as appropriate. Indicates. Furthermore, the order of the features in the claims does not imply any particular order in which those features must work. In particular, the order of the individual steps in the method claims does not imply that the steps must be performed in that order. Rather, the steps can be performed in any suitable order. In addition, singular references do not exclude a plurality. References to “a”, “first”, “second”, etc. do not exclude a plurality. Reference signs in the claims are provided merely as a clarifying example and shall not be construed as limiting the claims in any way.

Claims (15)

オーディオ・レンダラーと;
前記オーディオ・レンダラーに結合され、聴取位置にオーディオをレンダリングするよう構成された第一のスピーカー配置であって、該第一のスピーカー配置から前記聴取位置への方向が前記第一のスピーカー配置の主ローブの3dBビーム幅の範囲内である指向性放射パターンを有する、第一のスピーカー配置と;
前記オーディオ・レンダラーに結合され、聴取位置にオーディオをレンダリングするよう構成された第二のスピーカー配置であって、該第二のスピーカー配置から前記聴取位置への方向が前記第二のスピーカー配置の主ローブの3dBビーム幅の外側である指向性放射パターンを有する、第二のスピーカー配置とを有するオーディオ・レンダリング・システムであって、
前記オーディオ・レンダラーは:
多チャネル・オーディオ信号を受領する受領器と;
前記多チャネル・オーディオ信号の第一チャネル信号および第二チャネル信号についての相関指標を生成するための相関推定器と;
相関指標に応答して前記第一チャネル信号を第一のオーディオ信号および第二のオーディオ信号に上方混合する上方混合器であって、前記第二のオーディオ信号は前記第一のオーディオ信号より拡散した音に対応する、上方混合器と;
前記第一のオーディオ信号から前記第一のスピーカー配置を駆動するための第一のドライバと;
前記第二のオーディオ信号から前記第二のスピーカー配置を駆動するための第二のドライバとを有する、
オーディオ・レンダリング・システム。
With an audio renderer;
A first speaker arrangement coupled to the audio renderer and configured to render audio at a listening position, wherein a direction from the first speaker arrangement to the listening position is the main of the first speaker arrangement; A first speaker arrangement having a directional radiation pattern that is within the 3 dB beamwidth of the lobe;
A second speaker arrangement coupled to the audio renderer and configured to render audio at a listening position, wherein a direction from the second speaker arrangement to the listening position is the main of the second speaker arrangement. An audio rendering system having a second speaker arrangement with a directional radiation pattern that is outside the 3 dB beamwidth of the lobe,
The audio renderer is:
A receiver for receiving a multi-channel audio signal;
A correlation estimator for generating a correlation index for the first channel signal and the second channel signal of the multi-channel audio signal;
An upper mixer for up-mixing the first channel signal into a first audio signal and a second audio signal in response to a correlation index, wherein the second audio signal is more spread than the first audio signal An upper mixer corresponding to the sound;
A first driver for driving the first speaker arrangement from the first audio signal;
A second driver for driving the second speaker arrangement from the second audio signal;
Audio rendering system.
前記オーディオ・レンダラーは、前記第一チャネル信号を複数の時間‐周波数区間に分割するよう構成されており、前記相関推定器は、各時間‐周波数区間について相関値を生成するよう構成されており、前記上方混合器は、各時間周波数区間について、その時間周波数区間についての前記第一チャネル信号の信号値に、前記時間‐周波数区間についての相関値の単調減少関数である第一の重みによって重み付けすることによって、前記第二のオーディオ信号を生成するよう構成されている、
請求項1記載のオーディオ・レンダリング・システム。
The audio renderer is configured to divide the first channel signal into a plurality of time-frequency intervals, and the correlation estimator is configured to generate a correlation value for each time-frequency interval; The upper mixer, for each time frequency interval, weights the signal value of the first channel signal for that time frequency interval with a first weight that is a monotonically decreasing function of the correlation value for the time-frequency interval. Is configured to generate the second audio signal,
The audio rendering system of claim 1.
前記上方混合器はさらに、各時間周波数区間について、その時間周波数区間についての前記第一チャネル信号の信号値に、前記時間‐周波数区間についての相関値の単調増加関数である第二の重みによって重み付けすることによって、前記第一のオーディオ信号を生成するよう構成されている、
請求項2記載のオーディオ・レンダリング・システム。
The upper mixer further weights, for each time frequency interval, the signal value of the first channel signal for that time frequency interval with a second weight that is a monotonically increasing function of the correlation value for the time-frequency interval. Configured to generate the first audio signal by:
The audio rendering system of claim 2.
前記上方混合器はさらに、前記第一チャネル信号および前記第二チャネル信号についてのエネルギー差推定値に応じて前記重みを決定するよう構成されている、請求項2記載のオーディオ・レンダリング・システム。   The audio rendering system of claim 2, wherein the upper mixer is further configured to determine the weight in response to an energy difference estimate for the first channel signal and the second channel signal. 前記相関推定器は、前記時間‐周波数区間についての相関値を、複数の時間周波数区間の相関値の周波数平均に応じて決定するよう構成されている、請求項2記載のオーディオ・レンダリング・システム。 The correlation estimator, wherein the time - the correlation value for frequency intervals, is configured to determine according to the frequency average of the correlation values of a plurality of time-frequency interval, according to claim 2, wherein the audio rendering system . 前記上方混合器はさらに、前記多チャネル信号についてのオーディオ・コンテンツ特性に応じて前記重みを決定するようさらに構成されている、請求項2記載のオーディオ・レンダリング・システム。   The audio rendering system of claim 2, wherein the upper mixer is further configured to determine the weight in response to audio content characteristics for the multi-channel signal. 前記オーディオ・レンダラーは、前記第一のオーディオ信号のレンダリング属性を、前記第二のオーディオ信号とは独立に修正するよう構成されている、請求項1記載のオーディオ・レンダリング・システム。   The audio rendering system of claim 1, wherein the audio renderer is configured to modify a rendering attribute of the first audio signal independently of the second audio signal. 前記レンダリング属性は前記第一のオーディオ信号についてのオーディオ・レベルである、請求項7記載のオーディオ・レンダリング・システム。   The audio rendering system of claim 7, wherein the rendering attribute is an audio level for the first audio signal. 前記レンダリング属性は空間的オーディオ放射パターン属性である、請求項7記載のオーディオ・レンダリング・システム。   The audio rendering system of claim 7, wherein the rendering attribute is a spatial audio radiation pattern attribute. 前記第二のスピーカー配置についての指向性放射パターンは前記聴取位置の方向において落ち込みをもつ、請求項1記載のオーディオ・レンダリング・システム。   The audio rendering system of claim 1, wherein the directional radiation pattern for the second speaker arrangement has a dip in the direction of the listening position. 前記第二のスピーカー配置はバイポーラー・スピーカー配置を有する、請求項1記載のオーディオ・レンダリング・システム。   The audio rendering system of claim 1, wherein the second speaker arrangement comprises a bipolar speaker arrangement. 前記第一のスピーカー配置および前記第二のスピーカー配置は一つのスピーカー・エンクロージャーに含まれる、請求項1記載のオーディオ・レンダリング・システム。   The audio rendering system of claim 1, wherein the first speaker arrangement and the second speaker arrangement are included in a single speaker enclosure. 前記多チャネル・オーディオ信号は空間的多チャネル信号であり、その各チャネルはある空間的スピーカー配位の公称位置に関連付けられており、前記第二のスピーカー配置は前記公称位置とは異なる位置に位置されている、請求項1記載のオーディオ・レンダリング・システム。   The multi-channel audio signal is a spatial multi-channel signal, each channel being associated with a nominal position of a spatial speaker arrangement, and the second speaker arrangement is located at a position different from the nominal position. The audio rendering system of claim 1, wherein: 前記第二のドライバは高められたスピーカー位置に関連付けられている、請求項1記載のオーディオ・レンダリング・システム。   The audio rendering system of claim 1, wherein the second driver is associated with an elevated speaker position. 第一のスピーカー配置および第二のスピーカー配置からオーディオをレンダリングする方法であって、前記第一のスピーカー配置は、該第一のスピーカー配置から聴取位置への方向が前記第一のスピーカー配置の主ローブの3dBビーム幅の範囲内である指向性放射パターンを有し、前記第二のスピーカー配置は、該第二のスピーカー配置から前記聴取位置への方向が前記第二のスピーカー配置の主ローブの3dBビーム幅の外側である指向性放射パターンを有しており、当該方法は:
多チャネル信号を受領する段階と;
前記多チャネル信号の第一チャネル信号および第二チャネル信号についての相関指標を生成する段階と;
相関指標に応答して前記第一チャネル信号を第一のオーディオ信号および第二のオーディオ信号に上方混合する段階であって、前記第二のオーディオ信号は前記第一のオーディオ信号より拡散した音に対応する、段階と;
前記第一のオーディオ信号から前記第一のスピーカーを駆動する段階と;
前記第二のオーディオ信号から前記第二のスピーカーを駆動する段階とを含む、
方法。
A method of rendering audio from a first speaker arrangement and a second speaker arrangement, wherein the first speaker arrangement is such that the direction from the first speaker arrangement to the listening position is the main of the first speaker arrangement. Having a directional radiation pattern that is within the 3 dB beam width of the lobe, wherein the second speaker arrangement has a direction from the second speaker arrangement to the listening position of the main lobe of the second speaker arrangement. It has a directional radiation pattern that is outside the 3dB beamwidth and the method is:
Receiving a multi-channel signal;
Generating a correlation index for the first channel signal and the second channel signal of the multi-channel signal;
In response to the correlation index, the first channel signal is mixed up into the first audio signal and the second audio signal, and the second audio signal is diffused to the sound from the first audio signal. Corresponding steps;
Driving the first speaker from the first audio signal;
Driving the second speaker from the second audio signal;
Method.
JP2014552726A 2012-01-23 2013-01-14 Audio rendering system and method therefor Expired - Fee Related JP6078556B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261589438P 2012-01-23 2012-01-23
US61/589,438 2012-01-23
PCT/IB2013/050331 WO2013111034A2 (en) 2012-01-23 2013-01-14 Audio rendering system and method therefor

Publications (2)

Publication Number Publication Date
JP2015508245A JP2015508245A (en) 2015-03-16
JP6078556B2 true JP6078556B2 (en) 2017-02-08

Family

ID=47891792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014552726A Expired - Fee Related JP6078556B2 (en) 2012-01-23 2013-01-14 Audio rendering system and method therefor

Country Status (4)

Country Link
EP (1) EP2807833A2 (en)
JP (1) JP6078556B2 (en)
CN (1) CN104041079A (en)
WO (1) WO2013111034A2 (en)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5985108B2 (en) 2013-03-19 2016-09-07 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Method and apparatus for determining the position of a microphone
CH709272A2 (en) * 2014-02-28 2015-08-28 Stormingswiss S Rl C O Fidacor S Rl Autonomous residual determination and extraction of low-residual additional signals.
WO2015173422A1 (en) * 2014-05-15 2015-11-19 Stormingswiss Sàrl Method and apparatus for generating an upmix from a downmix without residuals
CN111556426B (en) * 2015-02-06 2022-03-25 杜比实验室特许公司 Hybrid priority-based rendering system and method for adaptive audio
DE102015008000A1 (en) * 2015-06-24 2016-12-29 Saalakustik.De Gmbh Method for reproducing sound in reflection environments, in particular in listening rooms
CN109076306B (en) * 2016-04-12 2021-04-13 皇家飞利浦有限公司 Spatial audio processing to emphasize sound sources close to focus
US10869151B2 (en) 2016-05-31 2020-12-15 Sharp Kabushiki Kaisha Speaker system, audio signal rendering apparatus, and program
GB2574239A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
US11586411B2 (en) * 2018-08-30 2023-02-21 Hewlett-Packard Development Company, L.P. Spatial characteristics of multi-channel source audio
GB201818959D0 (en) 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
US11956616B2 (en) * 2019-03-04 2024-04-09 Steelseries France Apparatus and method for audio analysis
EP4236378A3 (en) * 2019-05-03 2023-09-13 Dolby Laboratories Licensing Corporation Rendering audio objects with multiple types of renderers
EP3761672B1 (en) 2019-07-02 2023-04-05 Dolby International AB Using metadata to aggregate signal processing operations
GB2587371A (en) * 2019-09-25 2021-03-31 Nokia Technologies Oy Presentation of premixed content in 6 degree of freedom scenes
US11373662B2 (en) 2020-11-03 2022-06-28 Bose Corporation Audio system height channel up-mixing
CN114040319B (en) * 2021-11-17 2023-11-14 青岛海信移动通信技术有限公司 Method, device, equipment and medium for optimizing playback quality of terminal equipment

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837825A (en) * 1987-02-28 1989-06-06 Shivers Clarence L Passive ambience recovery system for the reproduction of sound
US7231060B2 (en) * 1997-08-26 2007-06-12 Color Kinetics Incorporated Systems and methods of generating control signals
US7254239B2 (en) * 2001-02-09 2007-08-07 Thx Ltd. Sound system and method of sound reproduction
GB0219245D0 (en) * 2002-08-17 2002-09-25 Kh Technology Corp Combination loudspeaker unit
JP4418774B2 (en) * 2005-05-13 2010-02-24 アルパイン株式会社 Audio apparatus and surround sound generation method
BRPI0707969B1 (en) * 2006-02-21 2020-01-21 Koninklijke Philips Electonics N V audio encoder, audio decoder, audio encoding method, receiver for receiving an audio signal, transmitter, method for transmitting an audio output data stream, and computer program product
CN201328191Y (en) * 2008-12-18 2009-10-14 固昌通讯股份有限公司 Multi-track sound-source switching box and multi-track acoustic system
KR101485462B1 (en) * 2009-01-16 2015-01-22 삼성전자주식회사 Method and apparatus for adaptive remastering of rear audio channel
US20120045065A1 (en) * 2009-04-17 2012-02-23 Pioneer Corporation Surround signal generating device, surround signal generating method and surround signal generating program
EP2578000A1 (en) * 2010-06-02 2013-04-10 Koninklijke Philips Electronics N.V. System and method for sound processing

Also Published As

Publication number Publication date
WO2013111034A2 (en) 2013-08-01
WO2013111034A3 (en) 2014-01-23
CN104041079A (en) 2014-09-10
EP2807833A2 (en) 2014-12-03
JP2015508245A (en) 2015-03-16

Similar Documents

Publication Publication Date Title
JP6078556B2 (en) Audio rendering system and method therefor
JP6595039B2 (en) Spatial ducking audio generated via a beamforming loudspeaker array
JP6186436B2 (en) Reflective and direct rendering of up-mixed content to individually specifiable drivers
JP6818841B2 (en) Generation of binaural audio in response to multi-channel audio using at least one feedback delay network
JP5955862B2 (en) Immersive audio rendering system
CN108781341B (en) Sound processing method and sound processing device
JP2016509429A (en) Audio apparatus and method therefor
US8472652B2 (en) Audio reproduction system comprising narrow and wide directivity loudspeakers
KR20210037748A (en) Generating binaural audio in response to multi-channel audio using at least one feedback delay network
WO2019229199A1 (en) Adaptive remixing of audio content
KR20160012204A (en) Mixing desk, sound signal generator, method and computer program for providing a sound signal
US10524080B1 (en) System to move a virtual sound away from a listener using a crosstalk canceler
AU2016219549A1 (en) System and method for enhancing virtual audio height perception
US9877137B2 (en) Systems and methods for playing a venue-specific object-based audio
US20180262859A1 (en) Method for sound reproduction in reflection environments, in particular in listening rooms
Blauert Hearing of music in three spatial dimensions
JP5708724B2 (en) Sound reproduction apparatus and program
JP7447533B2 (en) Sound signal processing method and sound signal processing device
Schlemmer Reverb Design
JP2023530516A (en) Apparatus and method for generating diffuse reverberation signals
JP2023548570A (en) Audio system height channel up mixing
KR20240090970A (en) Audio device and method of operation thereof
von Schultzendorff et al. Real-diffuse enveloping sound reproduction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151002

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160926

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170116

R150 Certificate of patent or registration of utility model

Ref document number: 6078556

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees