JP4499165B2 - Method for generating and consuming a three-dimensional sound scene having a sound source with enhanced spatiality - Google Patents

Method for generating and consuming a three-dimensional sound scene having a sound source with enhanced spatiality Download PDF

Info

Publication number
JP4499165B2
JP4499165B2 JP2008052618A JP2008052618A JP4499165B2 JP 4499165 B2 JP4499165 B2 JP 4499165B2 JP 2008052618 A JP2008052618 A JP 2008052618A JP 2008052618 A JP2008052618 A JP 2008052618A JP 4499165 B2 JP4499165 B2 JP 4499165B2
Authority
JP
Japan
Prior art keywords
sound source
sound
dimensional
scene
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2008052618A
Other languages
Japanese (ja)
Other versions
JP2008172826A (en
Inventor
ジョン イル ソ
デ ユン ジャン
キョン オク カン
ジン ウン キム
チェトゥク アン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of JP2008172826A publication Critical patent/JP2008172826A/en
Application granted granted Critical
Publication of JP4499165B2 publication Critical patent/JP4499165B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Description

本発明は、空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法に関し、さらに詳しくは、3次元音響シーンにおいて、音源が有する空間性を拡張させるための3次元音響シーンの生成及び消費方法に関する。   The present invention relates to a method for generating and consuming a three-dimensional sound scene having a sound source with enhanced spatiality, and more particularly, to generate a three-dimensional sound scene for expanding the spatial property of a sound source in a three-dimensional sound scene. And a consumption method.

一般に、コンテンツ提供サーバは、所定の方式に従ってコンテンツを符号化(encoding)してコンテンツ消費端末に伝送し、コンテンツ消費端末は、所定の方式に従ってコンテンツを復号化(decoding)して伝送されたコンテンツを出力する。   In general, the content providing server encodes the content according to a predetermined method and transmits the encoded content to the content consuming terminal, and the content consuming terminal decodes the content according to the predetermined method and transmits the transmitted content. Output.

従って、コンテンツ提供サーバは、コンテンツを符号化するための符号化部と、符号化されたコンテンツを送信するための送信部とを含む。コンテンツ消費端末は、送信されたコンテンツを受信する受信部、受信されたコンテンツを復号化する復号化部及び復号されたコンテンツをユーザに出力する出力部を含む。   Therefore, the content providing server includes an encoding unit for encoding the content and a transmission unit for transmitting the encoded content. The content consuming terminal includes a receiving unit that receives the transmitted content, a decoding unit that decodes the received content, and an output unit that outputs the decoded content to the user.

今まで知られているオーディオ/ビデオ信号の符号化/復号化方式は非常に多様である。その中で、MPEG−4による符号化/復号化方式が最近に広く用いられている。MPEG−4は、低い伝送率で動画を伝送するために、MPEG(Moving Picture Experts Group)が定義したデータ圧縮及び復元技術に関する標準である。   There are a great variety of encoding / decoding methods for audio / video signals known so far. Among them, an encoding / decoding system based on MPEG-4 has been widely used recently. MPEG-4 is a standard for data compression and decompression technology defined by the Moving Picture Experts Group (MPEG) to transmit moving images at a low transmission rate.

MPEG−4によれば、任意形状のオブジェクト(object)を符号化することができる。従って、コンテンツ消費端末は、複数のオブジェクトが合成されたシーンを消費できる。このため、MPEG−4は、音響オブジェクトの表示方法と特性とを指定するためのシーン記述(Scene Description)言語としてAudioBIFS(Audio Binary Format for Scene)を定義している。   According to MPEG-4, an arbitrarily shaped object can be encoded. Therefore, the content consumption terminal can consume a scene in which a plurality of objects are combined. Therefore, MPEG-4 defines AudioBIFS (Audio Binary Format for Scene) as a scene description language for designating the display method and characteristics of an acoustic object.

一方、映像物の発展と共に、ユーザはもっと実在感のある音質と画質のコンテンツを消費することを望む。上述したMPEG−4 AudioBIFS では、3次元音響シーンの空間感を表現するために、AudioFXノード及びDirectiveSoundノードなどを使用する。このようなノードにおいて、音源のモデリングは点音源(point-source)に依存するが、点音源は、3次元音響空間で描写しやすく、具現することも容易である。   On the other hand, with the development of video products, users want to consume more realistic sound quality and image quality content. In the MPEG-4 AudioBIFS described above, an AudioFX node, a DirectSound node, and the like are used to express a spatial feeling of a three-dimensional sound scene. In such a node, sound source modeling depends on a point-source, but a point sound source is easy to describe and implement in a three-dimensional acoustic space.

しかし、現実の音源は、点よりは2次元以上の次元を持っている場合がもっと多く、重要なことは、音源の形状が人間に認識されることができるという点である(特許文献1)。   However, actual sound sources often have two or more dimensions rather than points, and what is important is that the shape of the sound source can be recognized by humans (Patent Document 1). .

例えば、直線に伸びている海岸線に当る波の音は点音源でない、1次元的な線音源として認識されることができる。従って、AudioBIFSを用いて3次元音響シーンの現実感を一層向上させるためには、音源の大きさ(size)と形状(shape)とが表現されなければならず、そうでない場合は、3次元音響シーンにおいて、音響オブジェクトの現実感は深刻に毀損される。   For example, the sound of a wave hitting a coastline extending in a straight line can be recognized as a one-dimensional line sound source that is not a point sound source. Therefore, in order to further improve the realism of the three-dimensional sound scene using AudioBIFS, the size and shape of the sound source must be expressed, otherwise the three-dimensional sound is expressed. In the scene, the reality of the acoustic object is seriously damaged.

即ち、3次元音響シーンに1次元以上の次元を有する音源を付与するためには、音源の空間性を記述できなければならない。   That is, in order to give a sound source having one or more dimensions to a three-dimensional sound scene, it is necessary to describe the spatial characteristics of the sound source.

J. Baluert, Spatial Hearing ,The MIT Press, Cambridge Mass,1996J. Baluert, Spatial Hearing, The MIT Press, Cambridge Mass, 1996 A. J .Beskhout,D.de Vries,and P.Vogel,"Acoustic coutrol by wave field synthesis,"J.Aoust.Soc.Am.Vol.93,No.5.pp.2764-2778,May 1993A. J. Beskhout, D. de Vries, and P. Vogel, "Acoustic coutrol by wave field synthesis," J. Aoust. Soc. Am. Vol. 93, No. 5.pp. 2764-2778, May 1993

本発明は上述した問題を解決するためになされたものであって、その目的は、3次元音響シーン記述情報に音源の空間性拡張情報を含む音源特性情報を含むことにより、空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法を提供することである。   The present invention has been made to solve the above-described problems, and its purpose is to expand spatiality by including sound source characteristic information including spatial extension information of a sound source in the three-dimensional sound scene description information. The present invention provides a method for generating and consuming a three-dimensional sound scene having a sound source.

前記のような目的を達成するための本発明は、空間性が拡張された音源を有する3次元音響シーン(3D audio scene)の生成方法であって、音響オブジェクトを生成するステップと、前記音響オブジェクトに対する音源特性情報を含む3次元音響シーン記述情報を生成するステップとを含み、前記音源特性情報は、3次元空間で表現される音源の大きさ及び形状情報である音源の空間性拡張情報を含む。   In order to achieve the above object, the present invention provides a method for generating a three-dimensional audio scene having a sound source with enhanced spatiality, the step of generating an acoustic object, and the acoustic object Generating three-dimensional sound scene description information including sound source characteristic information for the sound source, and the sound source characteristic information includes sound source spatiality extension information that is size and shape information of the sound source expressed in the three-dimensional space. .

また、本発明は、空間性が拡張された音源を有する3次元音響シーンの消費方法(A method for consuming a 3D audio scene)であって、音響オブジェクト及び前記音響オブジェクトに対する音源特性情報を含む3次元音響シーン記述情報を受信するステップと、前記3次元音響シーン記述情報に基づいて前記音響オブジェクトを出力するステップとを含み、前記音源特性情報は、3次元空間で表現される音源の大きさ及び形状情報である音源の空間性拡張情報を含む。   The present invention is also a method for consuming a 3D audio scene having a sound source with enhanced spatiality, and includes a sound object and sound source characteristic information for the sound object. Receiving sound scene description information; and outputting the sound object based on the three-dimensional sound scene description information, wherein the sound source characteristic information is a size and shape of a sound source expressed in a three-dimensional space. It includes information about the spatial extension of the sound source.

本発明によれば、コンテンツ音源の空間性を拡張する装置及び方法を提示して、より効果的な3次元音響を作り出すことができる効果がある。   According to the present invention, it is possible to present an apparatus and method for extending the spatiality of a content sound source, and to produce more effective three-dimensional sound.

以下の内容は単に本発明の原理を例示する。従って、当業者は例え本明細書に明確に説明されたり、図示されてはいないが、本発明の原理を具現し、本発明の概念と範囲に含まれた多様な装置を発明できる。また、本明細書に列挙された全ての条件部用語及び実施例などは原則的に、本発明の概念が理解されるようにするための目的のみに明確に意図され、このように、特別に列挙された実施例及び状態に制限的でないものとして理解しなければならない。   The following merely illustrates the principles of the invention. Accordingly, those skilled in the art will be able to invent various devices that embody the principles of the present invention and fall within the concept and scope of the present invention, although not specifically described or illustrated herein. In addition, all the terms of the conditions and examples listed in the present specification are in principle intended only for the purpose of making the concept of the present invention understandable. It should be understood as not limiting to the listed examples and conditions.

また、本発明の原理、観点及び実施例だけでなく、特定の実施例を列挙する全ての詳細な説明は、このような事項の構造的及び機能的均等物を含むように意図されるものとして理解しなければならない。なお、このような均等物などは、現在公知された均等物だけでなく、将来に開発される均等物、即ち、構造と関係なく、同じ機能を行うように発明された全ての素子を含むものとして理解しなければならない。   Further, not only the principles, aspects and embodiments of the present invention, but also all the detailed descriptions listing specific embodiments are intended to include structural and functional equivalents of such matters. Must understand. Such equivalents are not only equivalents that are currently known, but also equivalents that will be developed in the future, that is, those that include all elements invented to perform the same function regardless of the structure. Must be understood as.

従って、例えば、本明細書のブロック図は本発明の原理を具体化する例示的な回路の概念的な観点を表すものとして理解しなければならない。これと同様に、全てのフローチャート、状態変換図、擬似コードなどはコンピュータが読み取り可能な媒体に実質的に表すことができ、コンピュータまたはプロセッサが明確に示されているか否かに関わらず、コンピュータまたはプロセッサにより行われる多様なプロセスを表すものとして理解しなければならない。   Thus, for example, the block diagrams herein should be understood as representing a conceptual view of an exemplary circuit embodying the principles of the invention. Similarly, all flowcharts, state transformation diagrams, pseudo code, etc. can be substantially represented on a computer readable medium, whether or not the computer or processor is clearly shown. It must be understood as representing the various processes performed by the processor.

プロセッサまたはこれと類似した概念として表示された機能ブロックを含む図面に示された多様な素子の機能は、専用ハードウェアだけでなく、適切なソフトウェアと関連してソフトウェアを実行する能力を有したハードウェアの使用に提供され得る。プロセッサにより提供される時、前記機能は単一専用プロセッサ、単一共有プロセッサ、或いは、複数の個別的プロセッサにより提供されることができ、これらのうち、一部は共有されることができる。   The functions of the various elements shown in the drawings, including functional blocks displayed as a processor or similar concept, include not only dedicated hardware but also hardware capable of executing software in conjunction with appropriate software. Can be provided for use of clothing. When provided by a processor, the functionality can be provided by a single dedicated processor, a single shared processor, or multiple individual processors, some of which can be shared.

またプロセッサ、制御、またはこれと類似した概念として提示される用語の明確な使用は、ソフトウェアを実行する能力を有したハードウェアを排他的に引用して解析されてはいけないし、制限無しでデジタル信号プロセッサ(DSP)ハードウェア、ソフトウェアを格納するためのROM、RAM及び不揮発性メモリを暗示的に含むことと理解しなければならない。また、周知慣用の他のハードウェアも含まれることができる。   Also, the explicit use of terms presented as processors, controls, or similar concepts should not be parsed exclusively with reference to hardware capable of running software, and digital without limitation. It should be understood that it implicitly includes signal processor (DSP) hardware, ROM for storing software, RAM and non-volatile memory. Also other hardware known and customary can be included.

本明細書の請求の範囲において、詳細な説明に記載された機能を行うための手段として表現された構成要素は、例えば、前記機能を行う回路素子の組み合わせまたはファームウェア/マイクロコードなどを含む全ての形式のソフトウェアを含む機能を行う全ての方法を含むものとして意図され、上記の機能を行うように、上記ソフトウェアを実行するための適切な回路と組み合わせられる。このような請求の範囲により定義される本発明は、多様に列挙された手段により提供される機能などが結合され、請求項が要求する方式と結合されるため、上記の機能を提供できるいかなる手段も本明細書から把握されるものと均等なものとして理解しなければならない。   In the claims of this specification, components expressed as means for performing the functions described in the detailed description include all combinations including circuit element combinations or firmware / microcode performing the functions, for example. It is intended to include all methods of performing functions, including software in the form, combined with appropriate circuitry to execute the software to perform the functions described above. The invention defined by such claims is combined with functions provided by variously listed means, and is combined with the system required by the claims, so any means capable of providing the above functions. Should be understood as equivalent to those grasped from this specification.

上述した目的、特徴及び長所などは、添付された図面と関連した次の詳細な説明を通してより明確になるだろう。まず、各図面の構成要素などに参照番号を付することにおいて、同じ構成要素などに限っては、例え、異なる図面上に表示されても、できるだけ同じ番号を持つようにしていることに留意しなければならない。また、本発明を説明するにおいて、関連した公知技術に対する具体的な説明が本発明の要旨を不必要にする恐れがあると判断される場合、その詳細な説明を省略する。以下、添付された図面を参照して本発明に係る好ましい実施例を詳細に説明する。   The above-described objects, features, and advantages will become more apparent through the following detailed description in conjunction with the accompanying drawings. First, in assigning reference numbers to components in each drawing, it should be noted that the same components have the same number as much as possible even if they are displayed on different drawings. There must be. Further, in the description of the present invention, when it is determined that a specific description of a related known technique may make the gist of the present invention unnecessary, a detailed description thereof will be omitted. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

図1は多様な形状と大きさとを有することのできる音源を説明するための図面である。図1A乃至図1Dに示されているように、音源は点、連続した線、面及び体積を有した空間になることができる。音源は任意の形状と大きさとを有するため、このような音源を記述することは非常に複雑になる恐れがある。しかし、モデリングしようとする音源形状を調整すれば、音源をそれほど複雑でないように記述することができる。   FIG. 1 illustrates a sound source that can have various shapes and sizes. As shown in FIGS. 1A to 1D, a sound source can be a space having points, continuous lines, surfaces, and volumes. Since a sound source has an arbitrary shape and size, it can be very complicated to describe such a sound source. However, if the shape of the sound source to be modeled is adjusted, the sound source can be described so as not to be so complicated.

本発明では、多様な形状と大きさとを有する音源を簡単にモデリングするために、点音源が仮想音源(Virtual sound source)の次元に等しく分布することと仮定する。その結果、多様な形態の音源は点音源の連続した配列で表現されることができる。この時、仮想オブジェクト上の各点音源の位置は、3次元シーンで定義された音源のベクトル位置を用いて計算することができる。   In the present invention, in order to easily model sound sources having various shapes and sizes, it is assumed that the point sound sources are equally distributed in the dimension of the virtual sound source. As a result, various types of sound sources can be represented by a continuous array of point sound sources. At this time, the position of each point sound source on the virtual object can be calculated using the vector position of the sound source defined in the three-dimensional scene.

複数の点音源で空間音源をモデリングすれば、空間音源はAudioBIFSで定義されたノードを用いて記述されなければならず、AudioFXノードを用いれば、いかなる効果でも3次元シーンに含ませることができる。従って、空間音源に対応する効果は、AudioFXノードを通してプログラミングされ、3次元シーンに挿入されることができる。   If a spatial sound source is modeled by a plurality of point sound sources, the spatial sound source must be described using a node defined in AudioBIFS, and any effect can be included in a three-dimensional scene using an AudioFX node. Therefore, the effect corresponding to the spatial sound source can be programmed through the AudioFX node and inserted into the 3D scene.

しかし、この場合、非常に複雑なDSP(Digital Signal Processing)アルゴリズムが要求され、音源の次元を調整することも極めて困難である。   However, in this case, a very complicated DSP (Digital Signal Processing) algorithm is required, and it is extremely difficult to adjust the dimension of the sound source.

また、AudioBIFSを用いてオブジェクトの有限次元に分布している点音源をグルーピングし、前記音源グループを変換して空間的な位置及び方向を変更することができる。まず、複数のDirectiveSoundノードを用いて点音源の特徴を記述する。点音源の位置はオブジェクト表面に均一に分布するように計算する。   Also, it is possible to change the spatial position and direction by grouping point sound sources distributed in a finite dimension of an object using AudioBIFS and converting the sound source groups. First, a point sound source feature is described using a plurality of DirectSound nodes. The position of the point sound source is calculated so as to be uniformly distributed on the object surface.

次に、前記点音源を空間エイリアシング(spatial aleasing)を排除できる空間上の距離に位置させる(特許文献2)。グループノードを用いて前記点音源をグルーピングすることにより、空間音源は3次元音響シーンでベクトル化されることができる。   Next, the point sound source is positioned at a spatial distance that can eliminate spatial aliasing (Patent Document 2). By grouping the point sound sources using group nodes, the spatial sound sources can be vectorized in a three-dimensional acoustic scene.

図2はAudioBIFSシーンの例示的な概略図であって、仮想音源の概念を示している。線音源の軸に沿って均一に分布している3個の点音源を用いて仮想の連続的な線音源がモデリングされている。   FIG. 2 is an exemplary schematic diagram of an AudioBIFS scene showing the concept of a virtual sound source. A virtual continuous line sound source is modeled using three point sound sources that are uniformly distributed along the axis of the line sound source.

このような仮想音源の概念に従って点音源の位置は(xo−dx、yo−dy、zo−dz)(xo、yo、zo)及び(xo+dx、yo+dy、zo+dz)として設定される。ここで、dx、dy及びdzは、angleフィールド及びdirectionフィールドに定義されている聴取者と音源位置との間のベクトルと、音源の方向ベクトル間の角度とから計算することができる。   According to such a virtual sound source concept, the position of the point sound source is set as (xo-dx, yo-dy, zo-dz) (xo, yo, zo) and (xo + dx, yo + dy, zo + dz). Here, dx, dy, and dz can be calculated from the vector between the listener and the sound source position defined in the angle field and the direction field, and the angle between the direction vectors of the sound source.

図2に示された例示的な概略図は、複数の点音源で空間音源を記述している。AudioBIFSは、このような特定のシーン記述を支援できるようにみえる。しかし、このような方法は、不必要な音響オブジェクト定義があまり多く要求される。1つのオブジェクトをモデリングするために、複数のオブジェクトが定義されるためである。MPEG−4のハイブリッド記述(hybrid description)の主な目的がより多いオブジェクト指向表現(object oriented representation)であるとすれば、一つの空間音源をモデリングするために用いられる点音源が結合されて一つのオブジェクトに再生産されることが好ましい。   The exemplary schematic shown in FIG. 2 describes a spatial sound source with a plurality of point sound sources. AudioBIFS seems to be able to support such a specific scene description. However, this method requires too many unnecessary acoustic object definitions. This is because a plurality of objects are defined to model one object. If the main purpose of the hybrid description in MPEG-4 is an object oriented representation, the point sources used to model one spatial source are combined into one Preferably it is reproduced in the object.

本発明によれば、音源の形状及び大きさ属性を記述するために、AudioBIFSのDirectiveSoundノードに新しいフィールドが追加される。図3は本発明に係るDirectiveSoundノードの概略図であって、音源の空間性拡張情報が追加されたことを例示している。   According to the present invention, a new field is added to the AudioBIFS DirectSound node to describe the shape and size attributes of the sound source. FIG. 3 is a schematic diagram of a DirectSound node according to the present invention, and illustrates the addition of sound source spatiality extension information.

図3に示されているように、「sourceDimensions」フィールド値に応じて対応される新しいレンダリング設計が「DirectiveSound」ノードに適用される。「sourceDimensions」フィールドは音源の形状情報もさらに含んでいる。もし、「sourceDimensions」フィールド値が「0、0、0」であれば、音源は1つの点になり、音源を拡張するための追加的な記述が「DirectiveSound」ノードに適用されない。   As shown in FIG. 3, a new rendering design corresponding to the "sourceDimensions" field value is applied to the "DirectiveSound" node. The “sourceDimensions” field further includes shape information of the sound source. If the “sourceDimensions” field value is “0, 0, 0”, the sound source is one point, and no additional description for extending the sound source is applied to the “DirectiveSound” node.

「sourceDimensions」フィールド値が「0、0、0」でない、ある値を有すれば、音源の次元は仮想的に拡張される。「DirectiveSound」ノードのlocationフィールド及びdirectionフィールドで音源の位置及び方向が各々定義される。「sourceDimensions」フィールド値に基づいて当該音源の次元は「direction」フィールドに定義されるベクトルに垂直な方向に拡張される。   If the “sourceDimensions” field value has a value other than “0, 0, 0”, the dimension of the sound source is virtually expanded. The position and direction of the sound source are respectively defined in the location field and the direction field of the “DirectiveSound” node. Based on the “sourceDimensions” field value, the dimension of the sound source is expanded in a direction perpendicular to the vector defined in the “direction” field.

「location」フィールドは、拡張された音源の幾何学的中央を定義し、「sourceDimension」フィールドの値は、音源の3次元的大きさ(size)を定義する。従って、Δx、Δy、Δzの値に応じて空間に拡張される音源の大きさが決められる。   The “location” field defines the geometric center of the expanded sound source, and the value of the “source Dimension” field defines the three-dimensional size of the sound source. Accordingly, the size of the sound source to be expanded into the space is determined according to the values of Δx, Δy, and Δz.

図4は本発明に係る音源拡張過程を説明するための図である。図示されているように、「sourceDimension」フィールドの値は、(0、Δy、Δz)であり、(Δy≠0、Δz≠0)、これは、Δy×Δzの面積を有する面音源を示す。   FIG. 4 is a diagram for explaining a sound source expansion process according to the present invention. As shown in the drawing, the value of the “sourceDimension” field is (0, Δy, Δz), and (Δy ≠ 0, Δz ≠ 0), which indicates a surface sound source having an area of Δy × Δz.

図示された音源は、「sourceDimension」フィールド値(0、Δy、Δz)に基づいて、「direction」フィールドに定義されたベクトルに垂直な方向に拡張されて面音源をなす。このように、音源の次元と位置とが定義されると、点音源は拡張された音源の表面に位置する。本発明では、拡張された音源の表面に点音源が均等に分布するように点音源の位置を計算する。   The illustrated sound source is expanded in the direction perpendicular to the vector defined in the “direction” field based on the “source Dimension” field values (0, Δy, Δz) to form a surface sound source. Thus, when the dimension and position of the sound source are defined, the point sound source is located on the surface of the expanded sound source. In the present invention, the position of the point sound source is calculated so that the point sound sources are evenly distributed on the surface of the expanded sound source.

図5A乃至図5Cは本発明によって多様な音源形状による点音源の分布を説明するための図である。   5A to 5C are diagrams for explaining the distribution of point sound sources according to various sound source shapes according to the present invention.

音源の次元と距離は自由変数であるため、ユーザが知覚できる音源の大きさは自由に構成することができる。   Since the dimension and distance of the sound source are free variables, the size of the sound source that can be perceived by the user can be freely configured.

例えば、マイクロホンの配列を用いて録音されたマルチトラックオーディオ信号は図5Aのように点音源の線拡張により表現されることができる。この場合、「sourceDimension」フィールドの値は(0、0、Δz)である。   For example, a multi-track audio signal recorded using a microphone array can be expressed by line expansion of a point sound source as shown in FIG. 5A. In this case, the value of the “sourceDimension” field is (0, 0, Δz).

また、互いに異なる音響信号が拡散音源を生成するために、本発明に係る点音源の拡張として表現されることができる。   Also, different acoustic signals can be expressed as an extension of the point sound source according to the present invention in order to generate a diffuse sound source.

図5B及び5Cは、点音源の拡散により表現される面音源と体積を持つ空間音源を示す。図5Bの場合、「sourceDimension」フィールドの値は(0、Δy、Δz)であり、図5Cの場合、「sourceDimension」フィールドの値は(Δx、Δy、Δz)である。   5B and 5C show a spatial sound source having a surface sound source and a volume expressed by diffusion of a point sound source. In the case of FIG. 5B, the value of the “source Dimension” field is (0, Δy, Δz), and in the case of FIG. 5C, the value of the “source Dimension” field is (Δx, Δy, Δz).

このように、空間音源の次元が定義されることにより、点音源の数(即ち、入力オーディオチャネル数)は拡張された音源での点音源密度を決める。   Thus, by defining the dimension of the spatial sound source, the number of point sound sources (ie, the number of input audio channels) determines the point sound source density in the expanded sound source.

もし、「AudioSource」ノードが「source」フィールドで定義されると、「numChan」フィールドの値は使用される点音源の数を表すことができる。   If the “AudioSource” node is defined in the “source” field, the value of the “numChan” field can represent the number of point sound sources used.

そして、「DirectiveSound」ノードの「angle」、「directivity」及び「frequency」フィールドで定義された方向性は、拡張された音源に含まれた全ての点音源に同一に適用されることができる。   The directionality defined in the “angle”, “directivity”, and “frequency” fields of the “DirectiveSound” node can be applied to all point sound sources included in the expanded sound source.

なお、本発明は、上記の実施の形態に限定されるものではなく、本発明に係る技術的思想から逸脱しない範囲で様々な変更が可能であり、それらも本発明の技術的範囲に属する。   In addition, this invention is not limited to said embodiment, A various change is possible in the range which does not deviate from the technical idea which concerns on this invention, and they also belong to the technical scope of this invention.

多様な形状を有することのできる音源を説明するための図である。It is a figure for demonstrating the sound source which can have various shapes. 連続した点音源をグルーピングして空間音源を表現する方法を説明するための図である。It is a figure for demonstrating the method of grouping the continuous point sound source and expressing a spatial sound source. 本発明に従ってAudioBIFSの「DirectiveSound」音源の空間性拡張情報が追加されたことを例示する図である。FIG. 10 is a diagram illustrating that spatial extension information of “DirectiveSound” sound source of AudioBIFS is added according to the present invention. 本発明に係る音源拡張過程を説明するための図である。It is a figure for demonstrating the sound source expansion process which concerns on this invention. 本発明に従って多様な音源形状による点音源の分布を説明するための図である。It is a figure for demonstrating distribution of the point sound source by various sound source shapes according to this invention.

Claims (4)

空間性が拡張された音源を有する3次元音響シーンの生成方法であって、
音響オブジェクトを生成するステップと、
前記音響オブジェクトに対する音源特性情報を含む3次元音響シーン記述情報を生成するステップとを含み、
前記音源特性情報は、3次元空間において複数の点音源による直方体で表現される音源の大きさ及び形状情報である音源の空間性拡張情報を含む
ことを特徴とする3次元音響シーンの生成方法。
A method for generating a three-dimensional sound scene having a sound source with enhanced spatiality,
Generating an acoustic object;
Generating 3D sound scene description information including sound source characteristic information for the sound object,
The method of generating a three-dimensional sound scene, wherein the sound source characteristic information includes sound source spatiality extension information which is size and shape information of a sound source expressed by a rectangular parallelepiped with a plurality of point sound sources in a three- dimensional space.
空間性が拡張された音源を有する3次元音響シーンの消費方法であって、
音響オブジェクト及び該音響オブジェクトに対する音源特性情報を含む3次元音響シーンの記述情報を受信するステップと、
前記3次元音響シーンの記述情報に基づいて、前記音響オブジェクトを出力するステップとを含み、
前記音源特性情報は、3次元空間において複数の点音源による直方体で表現される音源の大きさ及び形状情報である音源の空間性拡張情報を含む
ことを特徴とする3次元音響シーンの消費方法。
A method for consuming a three-dimensional sound scene having a sound source with enhanced spatiality,
Receiving description information of a three-dimensional sound scene including sound objects and sound source characteristic information for the sound objects;
Outputting the acoustic object based on description information of the three-dimensional acoustic scene,
The method of consuming a three-dimensional sound scene, wherein the sound source characteristic information includes sound source spatiality extension information which is size and shape information of a sound source expressed in a rectangular parallelepiped with a plurality of point sound sources in a three- dimensional space.
空間性が拡張された音源を有する3次元音響シーンの処理方法であって、
音響オブジェクトに対する音源特性情報を含む3次元音響シーンの記述情報を生成するステップと、
前記音響オブジェクト及び前記音響オブジェクトに対する音源特性情報を含む3次元音響シーンの技術情報を符号化するステップとを含み、
前記音源特性情報は、3次元空間において複数の点音源による直方体で表現される音源の大きさ及び形状情報である音源の空間性拡張情報を含む
ことを特徴とする3次元音響シーンの処理方法。
A method for processing a three-dimensional sound scene having a sound source with enhanced spatiality,
Generating description information of a three-dimensional sound scene including sound source characteristic information for an acoustic object;
Encoding the technical information of the three-dimensional sound scene including the sound object and sound source characteristic information for the sound object,
The method of processing a three-dimensional sound scene, wherein the sound source characteristic information includes sound source spatiality extension information which is size and shape information of a sound source expressed in a rectangular parallelepiped by a plurality of point sound sources in a three- dimensional space.
空間性が拡張された音源を有する3次元音響シーンの処理方法であって、
音響オブジェクト及び該音響オブジェクトに対する音源特性情報を含む3次元音響シーンの記述情報を復号化するステップと、
前記3次元音響シーンの記述情報に基づいて、前記音響オブジェクトを出力するステップとを含み、
前記音源特性情報は、3次元空間において複数の点音源による直方体で表現される音源の大きさ及び形状情報である音源の空間性拡張情報を含む
ことを特徴とする3次元音響シーンの処理方法。
A method for processing a three-dimensional sound scene having a sound source with enhanced spatiality,
Decoding the description information of the three-dimensional sound scene including the sound object and sound source characteristic information for the sound object;
Outputting the acoustic object based on description information of the three-dimensional acoustic scene,
The method of processing a three-dimensional sound scene, wherein the sound source characteristic information includes sound source spatiality extension information which is size and shape information of a sound source expressed in a rectangular parallelepiped by a plurality of point sound sources in a three- dimensional space.
JP2008052618A 2002-10-15 2008-03-03 Method for generating and consuming a three-dimensional sound scene having a sound source with enhanced spatiality Expired - Lifetime JP4499165B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20020062962 2002-10-15
KR1020030071345A KR100626661B1 (en) 2002-10-15 2003-10-14 Method of Processing 3D Audio Scene with Extended Spatiality of Sound Source

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004545046A Division JP4578243B2 (en) 2002-10-15 2003-10-15 Method for generating and consuming a three-dimensional sound scene having a sound source with enhanced spatiality

Publications (2)

Publication Number Publication Date
JP2008172826A JP2008172826A (en) 2008-07-24
JP4499165B2 true JP4499165B2 (en) 2010-07-07

Family

ID=35719320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008052618A Expired - Lifetime JP4499165B2 (en) 2002-10-15 2008-03-03 Method for generating and consuming a three-dimensional sound scene having a sound source with enhanced spatiality

Country Status (3)

Country Link
JP (1) JP4499165B2 (en)
KR (1) KR100626661B1 (en)
CN (1) CN100553374C (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100802179B1 (en) * 2005-12-08 2008-02-12 한국전자통신연구원 Object-based 3-dimensional audio service system using preset audio scenes and its method
KR100934928B1 (en) * 2008-03-20 2010-01-06 박승민 Display Apparatus having sound effect of three dimensional coordinates corresponding to the object location in a scene
KR101353467B1 (en) * 2009-08-28 2014-01-23 한국산업은행 Display Apparatus having sound effect of three dimensional coordinates corresponding to the object location in a scene
KR101596840B1 (en) * 2009-10-29 2016-02-23 엘지전자 주식회사 Mobile terminal and Method of controlling the same
KR101764175B1 (en) 2010-05-04 2017-08-14 삼성전자주식회사 Method and apparatus for reproducing stereophonic sound
TWI489450B (en) 2010-12-03 2015-06-21 Fraunhofer Ges Forschung Apparatus and method for generating audio output signal or data stream, and system, computer-readable medium and computer program associated therewith
KR101410977B1 (en) * 2013-05-31 2014-07-01 한국산업은행 Apparatus and method for designating speaker corresponding to object
KR101469104B1 (en) * 2013-05-31 2014-12-04 한국산업은행 Apparatus and method for designating speaker channel corresponding to object
KR102658471B1 (en) * 2020-12-29 2024-04-18 한국전자통신연구원 Method and Apparatus for Processing Audio Signal based on Extent Sound Source
CN113660063B (en) * 2021-08-18 2023-12-08 杭州网易智企科技有限公司 Spatial audio data processing method and device, storage medium and electronic equipment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267675A (en) * 1999-03-16 2000-09-29 Sega Enterp Ltd Acoustical signal processor
JP2001251698A (en) * 2000-03-07 2001-09-14 Canon Inc Sound processing system, its control method and storage medium
JP2002218599A (en) * 2001-01-16 2002-08-02 Sony Corp Sound signal processing unit, sound signal processing method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267675A (en) * 1999-03-16 2000-09-29 Sega Enterp Ltd Acoustical signal processor
JP2001251698A (en) * 2000-03-07 2001-09-14 Canon Inc Sound processing system, its control method and storage medium
JP2002218599A (en) * 2001-01-16 2002-08-02 Sony Corp Sound signal processing unit, sound signal processing method

Also Published As

Publication number Publication date
KR100626661B1 (en) 2006-09-22
CN1714600A (en) 2005-12-28
KR20040034443A (en) 2004-04-28
JP2008172826A (en) 2008-07-24
CN100553374C (en) 2009-10-21

Similar Documents

Publication Publication Date Title
JP4578243B2 (en) Method for generating and consuming a three-dimensional sound scene having a sound source with enhanced spatiality
JP4499165B2 (en) Method for generating and consuming a three-dimensional sound scene having a sound source with enhanced spatiality
TWI786356B (en) Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
Neugebauer Digital transformation
EP3343349B1 (en) An apparatus and associated methods in the field of virtual reality
KR101004836B1 (en) Method for coding and decoding the wideness of a sound source in an audio scene
US11429340B2 (en) Audio capture and rendering for extended reality experiences
CN114731483A (en) Sound field adaptation for virtual reality audio
US20230007427A1 (en) Audio scene change signaling
JP2022137213A (en) Signal processing device and method, and program
CN114630145A (en) Multimedia data synthesis method, equipment and storage medium
JP2019514050A (en) Interactive audio metadata manipulation
CN110191745B (en) Game streaming using spatial audio
KR20240096835A (en) Renderers, decoders, encoders, methods and bitstreams using spatially extended sound sources.
Kares et al. Streaming immersive audio content
US11696085B2 (en) Apparatus, method and computer program for providing notifications
TW202117705A (en) Methods, apparatus and systems for representation, encoding, and decoding of discrete directivity data
RU2780536C1 (en) Equipment and method for reproducing a spatially extended sound source or equipment and method for forming a bitstream from a spatially extended sound source
JP7399549B2 (en) Techniques for signaling audio mixing gain in teleconferencing and telepresence for remote terminals
GB2568726A (en) Object prioritisation of virtual content
KR100626670B1 (en) Method for Generating and Consuming Audio scene for processing reverberation sound
Dantele et al. Implementation of mpeg-4 audio nodes in an interactive virtual 3d environment
KR20020039101A (en) Method for realtime processing image/sound of 2D/3D image and 3D sound in multimedia content
JP2023066402A (en) Method and apparatus for audio transition between acoustic environments
CN114128312A (en) Audio rendering for low frequency effects

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100319

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100414

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4499165

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term