KR20170095105A - Apparatus and method for generating metadata of hybrid audio signal - Google Patents

Apparatus and method for generating metadata of hybrid audio signal Download PDF

Info

Publication number
KR20170095105A
KR20170095105A KR1020160067491A KR20160067491A KR20170095105A KR 20170095105 A KR20170095105 A KR 20170095105A KR 1020160067491 A KR1020160067491 A KR 1020160067491A KR 20160067491 A KR20160067491 A KR 20160067491A KR 20170095105 A KR20170095105 A KR 20170095105A
Authority
KR
South Korea
Prior art keywords
audio signal
based audio
metadata
content
channel
Prior art date
Application number
KR1020160067491A
Other languages
Korean (ko)
Inventor
유재현
이용주
장대영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20170095105A publication Critical patent/KR20170095105A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

Disclosed are an apparatus and a method for generating metadata of a hybrid audio signal. A method for generating metadata of content includes the steps of: receiving the content including a channel-based audio signal and an object-based audio signal; and generating the metadata of the content, which includes at least one among the channel-based audio signal included in the content, the object-based audio signal included in the content, a name of the object-based audio signal, an azimuth of the object-based audio signal, a gain of the object-based audio signal, a distance between the object-based audio signal and a user, and a priority of a rendering method of the object-based audio signal. Accordingly, the present invention can generate and provide the metadata of the content including the channel-based audio signal and the object-based audio signal.

Description

하이브리드 오디오 신호의 메타 데이터 생성 장치 및 그 방법{APPARATUS AND METHOD FOR GENERATING METADATA OF HYBRID AUDIO SIGNAL}[0001] APPARATUS AND METHOD FOR GENERATING METHOD OF HYBRID AUDIO SIGNAL [0002]

본 발명은 채널기반 및 객체기반 멀티채널 오디오 재생 방법에서 오디오 신호의 메타데이터를 생성하는 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for generating metadata of an audio signal in a channel-based and object-based multi-channel audio playback method.

UHDTV에서 활용되는 다양한 멀티채널 오디오 포맷에 대한 표준 논의가 활발히 진행되고 있다. Standards for various multi-channel audio formats used in UHDTV are being actively discussed.

기존의 채널기반 오디오 포맷뿐 아니라 객체기반 신호에 대한 논의도 활발하게 이루어져 Dolby Atmos 나 MDA(Multi-Dimensional Audio) 와 같은 차세대 오디오 규격도 발표되고 있다. In addition to the existing channel-based audio formats, object-based signals are being actively discussed, and next-generation audio standards such as Dolby Atmos and MDA (Multi-Dimensional Audio) are also being published.

또 객체기반 신호가 활용되는 만큼 해당 객체 신호에 대한 정보를 담을 수 있는 메타데이터가 필요해지는데, 여러 표준화 단체에서 논의되고 있는 모델들은 지나치게 광범위한 데이터를 담고 있다. In addition, as the object-based signal is utilized, the metadata required to hold information about the object signal is required. Models discussed in various standardization groups contain an extremely wide range of data.

따라서, 가장 간단하면서도 꼭 필요한 정보들만 담은 메타데이터를 생성하는 방법이 요청되고 있다.Therefore, there is a demand for a method of generating metadata that contains only the simplest but necessary information.

본 발명은 채널 기반 오디오 신호, 및 객체 기반 오디오 신호를 포함하는 컨텐츠를 위한 메타 데이터를 생성하는 장치 및 방법을 제공할 수 있다.The present invention can provide an apparatus and method for generating metadata for content including channel based audio signals and object based audio signals.

본 발명의 일실시예에 따른 컨텐츠의 메타 데이터 생성 방법은 채널 기반 오디오 신호, 및 객체 기반 오디오 신호를 포함하는 컨텐츠를 수신하는 단계; 및 상기 컨텐츠에 포함된 채널 기반 오디오 신호, 상기 컨텐츠에 포함된 객체 기반 오디오 신호, 상기 객체 기반 오디오 신호의 이름, 상기 객체 기반 오디오 신호의 방위각, 상기 객체 기반 오디오 신호의 이득(gain), 상기 객체 기반 오디오 신호와 사용자 간의 거리, 및 상기 객체 기반 오디오 신호의 렌더링 방식의 우선 순위 중 적어도 하나를 포함하는 상기 컨텐츠의 메타 데이터를 생성하는 단계를 포함할 수 있다.According to another aspect of the present invention, there is provided a method of generating content metadata, the method comprising: receiving content including a channel-based audio signal and an object-based audio signal; And an object-based audio signal contained in the content, a name of the object-based audio signal, an azimuth of the object-based audio signal, a gain of the object-based audio signal, Based audio signal, a distance between the audio signal and the user, and a priority of the rendering method of the object-based audio signal.

본 발명의 일실시예에 의하면, 채널 기반 오디오 신호, 및 객체 기반 오디오 신호를 포함하는 컨텐츠를 위한 메타 데이터를 생성하여 제공할 수 있다.According to an embodiment of the present invention, metadata for a content including a channel-based audio signal and an object-based audio signal can be generated and provided.

도 1은 본 발명의 일실시예에 따른 메타 데이터 생성 장치를 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 메타 데이터의 구성 일례이다.
도 3은 도 2의 구성을 사용한 메타 데이터의 일례이다.
도 4는 본 발명의 일실시예에 따른 메타 데이터 생성 방법을 도시한 플로우차트이다.
도 5는 본 발명의 일실시예에 따른 메타 데이터를 수신한 컨텐츠 처리 장치의 동작 방법을 도시한 플로우차트이다.
1 is a block diagram illustrating a metadata generating apparatus according to an embodiment of the present invention.
2 is an example of the configuration of metadata according to an embodiment of the present invention.
Fig. 3 is an example of metadata using the configuration of Fig.
4 is a flowchart illustrating a method of generating metadata according to an exemplary embodiment of the present invention.
5 is a flowchart illustrating an operation method of a content processing apparatus that receives metadata according to an embodiment of the present invention.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 메타 데이터 생성 방법은 메타 데이터 생성 장치에 의해 수행될 수 있다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. The metadata generation method according to an embodiment of the present invention may be performed by a metadata generation apparatus.

도 1은 본 발명의 일실시예에 따른 메타 데이터 생성 장치를 나타내는 도면이다.1 is a block diagram illustrating a metadata generating apparatus according to an embodiment of the present invention.

메타 데이터 생성 장치(100)는 도 1에 도시된 바와 같이 통신기(111) 및 프로세서(112)를 포함할 수 있다. The metadata generating apparatus 100 may include a communicator 111 and a processor 112 as shown in FIG.

통신기(111)는 채널 기반 오디오 신호, 및 객체 기반 오디오 신호를 포함하는 컨텐츠를 수신할 수 있다.The communicator 111 may receive content including a channel based audio signal, and an object based audio signal.

프로세서(112)는 객체 기반 신호의 공간 상 렌더링을 위한 정보를 제공하기 위한 메타 데이터를 생성할 수 있다. 이때, 컨텐츠가 채널 기반 오디오 신호, 및 객체 기반 오디오 신호를 포함하고 있으므로, 프로세서(112)는 컨텐츠에 포함된 각각의 오디오 스트림이 채널 신호인지 객체 신호인지에 대한 구분하기 위한 메타 데이터를 생성할 수 있다. 또한, 컨텐츠에 포함된 오디오 스트림이 객체 신호인 경우, 프로세서(112)는 공간 상의 렌더링을 위한 매핑 정보와 청취자로부터의 거리 및 이득(gain) 정보가 포함된 메타 데이터를 생성할 수 있다. The processor 112 may generate metadata for providing information for spatial rendering of the object-based signal. At this time, since the content includes the channel-based audio signal and the object-based audio signal, the processor 112 can generate metadata for distinguishing whether each audio stream included in the content is a channel signal or an object signal have. Also, when the audio stream included in the content is an object signal, the processor 112 may generate metadata including mapping information for rendering in space, distance from the listener, and gain information.

즉, 프로세서(112)는 컨텐츠에 포함된 채널 기반 오디오 신호, 컨텐츠에 포함된 객체 기반 오디오 신호, 객체 기반 오디오 신호의 이름, 객체 기반 오디오 신호의 방위각, 객체 기반 오디오 신호의 볼륨, 객체 기반 오디오 신호와 사용자 간의 거리, 및 객체 기반 오디오 신호의 렌더링 방식의 우선 순위 중 적어도 하나를 포함하는 컨텐츠의 메타 데이터를 생성할 수 있다.In other words, the processor 112 may include a channel based audio signal included in the content, an object based audio signal included in the content, a name of the object based audio signal, an azimuth of the object based audio signal, a volume of the object based audio signal, The distance between the user and the user, and the priority of the rendering method of the object-based audio signal.

그리고, 통신기(111)는 수신한 컨텐츠와 프로세서(112)가 생성한 메타 데이터를 컨텐츠 처리 장치(120)로 전송할 수 있다.The communicator 111 can transmit the received content and the metadata generated by the processor 112 to the content processing apparatus 120. [

컨텐츠 처리 장치(120)의 통신기(121)는 메타 데이터 생성 장치(100)의 통신기(111)로부터 컨텐츠와 메타 데이터를 수신할 수 있다.The communicator 121 of the content processing apparatus 120 can receive the content and the metadata from the communicator 111 of the metadata generation apparatus 100. [

컨텐츠 처리 장치(120)의 프로세서(122)는 통신기(121)가 수신한 메타 데이터를 이용하여 컨텐츠의 렌더링 방식을 식별할 수 있다. 이때, 프로세서(122)는 식별한 렌더링 방식에 따라 컨텐츠를 렌더링할 수 있다. 그리고, 프로세서(122)는 렌더링된 컨텐츠를 재생할 수 있다.The processor 122 of the content processing apparatus 120 can identify the rendering method of the content using the metadata received by the communicator 121. [ At this time, the processor 122 may render the content according to the identified rendering method. The processor 122 may then play the rendered content.

메타 데이터 생성 장치(100)는 채널 기반 오디오 신호, 및 객체 기반 오디오 신호를 포함하는 컨텐츠를 위한 메타 데이터를 생성하여 제공할 수 있다.The metadata generation apparatus 100 may generate and provide metadata for a content including a channel-based audio signal and an object-based audio signal.

도 2는 본 발명의 일실시예에 따른 메타 데이터의 구성 일례이다.2 is an example of the configuration of metadata according to an embodiment of the present invention.

도 2는 메타 데이터 생성 장치(100)가 수신한 컨텐츠가 5.1채널 신호와 3개의 객체 신호를 포함하는 컨텐츠인 경우, 메타 데이터 생성 장치(100)가 생성하는 메타 데이터의 구성 일례이다.2 shows an example of the structure of metadata generated by the metadata generation apparatus 100 when the metadata received from the metadata generation apparatus 100 is a content including a 5.1 channel signal and three object signals.

메타 데이터의 1번째 데이터는 도 2에 도시된 바와 같이 컨텐츠에 포함된 채널기반 오디오 신호의 개수이고, 메타 데이터의 2번째 데이터는 컨텐츠에 포함된 객체기반 오디오 신호의 개수일 수 있다.The first data of the metadata is the number of the channel-based audio signals included in the content as shown in FIG. 2, and the second data of the metadata may be the number of the object-based audio signals included in the content.

또한, 메타 데이터의 3번째 데이터 내지 8번째 데이터는 메타 데이터의 1번째 데이터에서 정의된 채널 개수에 따라 입력된 더미 데이터일 수 있다.The third to eighth data of the meta data may be dummy data inputted according to the number of channels defined in the first data of the meta data.

메타 데이터의 9번째 데이터는 컨텐츠에 포함된 객체 기반 오디오 신호들 중 1번째 객체 기반 오디오 신호의 정의자일 수 있다.The ninth data of the metadata may be a definer of the first object-based audio signal among the object-based audio signals included in the content.

메타 데이터의 10번째 데이터는 1번째 객체 기반 오디오 신호의 이름이고, 메타 데이터의 11번째 데이터는 1번째 객체 기반 오디오 신호의 수평 방위각일 수 있다.The tenth data of the metadata is the name of the first object-based audio signal, and the eleventh data of the metadata may be the horizontal azimuth of the first object-based audio signal.

또한, 메타 데이터의 12번째 데이터는 1번째 객체 기반 오디오 신호의 수직 방위각이고, 메타 데이터의 13번째 데이터는 1번째 객체 기반 오디오 신호의 청취자로부터의 거리일 수 있다.The twelfth data of the metadata may be a vertical azimuth angle of the first object based audio signal and the thirteenth data of the metadata may be a distance from the listener of the first object based audio signal.

그리고, 메타 데이터의 14번째 데이터는 1번째 객체 기반 오디오 신호의 이득(gain)이고, 메타 데이터의 15번째 데이터는 1번째 객체 기반 오디오 신호의 우선 순위 렌더링 방식일 수 있다.The 14th data of the metadata may be a gain of the first object based audio signal and the 15th data of the metadata may be a priority rendering method of the first object based audio signal.

메타 데이터의 16번째 데이터 내지 메타 데이터의 22번째 데이터는 컨텐츠에 포함된 객체기반 오디오 신호 중 2번째 객체 기반 오디오 신호와 관련된 정보들이며, 메타 데이터의 23번째 데이터 내지 메타 데이터의 29번째 데이터는 컨텐츠에 포함된 객체기반 오디오 신호 중 3번째 객체 기반 오디오 신호와 관련된 정보일 수 있다.The 16th data of the metadata or the 22nd data of the metadata are the information related to the second object-based audio signal of the object-based audio signal included in the content, and the 23rd data of the metadata or the 29th data of the metadata are stored in the content And may be information related to the third object-based audio signal among the included object-based audio signals.

이때, 메타 데이터의 15번째 데이터, 메타 데이터의 12번째 데이터, 메타 데이터의 29번째 데이터인 우선 순위 렌더링 방식은 재생 환경 정보의 렌더링 방식에 대한 우선 순위 정보일 수 있다. 즉, 우선 순위 렌더링 방식은 객체 기반 오디오 신호가 재생될 환경의 우선 순위를 나타낼 수 있다.At this time, the priority rendering method, which is the 15th data of the metadata, the 12th data of the metadata, and the 29th data of the metadata, may be the priority information for the rendering method of the reproduction environment information. That is, the priority rendering method can represent the priority of the environment in which the object-based audio signal is reproduced.

예를 들어, 15번째 데이터처럼 우선 순위 렌더링 방식이 Panning인 경우, 컨텐츠 처리 장치(120)는 패닝(panning) 렌더링 알고리즘으로 1번째 객체 기반 오디오 신호를 렌더링할 수 있다. 그리고, 재생 환경들 중 라우드 스피커가 있는 경우, 컨텐츠 처리 장치(120)는 1번째 객체 기반 오디오 신호가 라우드 스피커에서 재생되도록 할 수 있다. 다만, 재생 환경들 중 라우드 스피커가 없는 경우, 컨텐츠 처리 장치(120)는 1번째 객체 기반 오디오 신호가 라우드 스피커가 아닌 다른 재생 환경에서 재생되도록 할 수도 있다. For example, when the priority rendering method is panning as in the 15th data, the content processing apparatus 120 may render the first object-based audio signal with a panning rendering algorithm. And, if there is a loudspeaker among the reproduction environments, the content processing apparatus 120 may cause the first object-based audio signal to be reproduced from the loudspeaker. However, if there is no loudspeaker among the playback environments, the content processing apparatus 120 may cause the first object-based audio signal to be played in a playback environment other than the loudspeaker.

즉, 복수의 재생 환경 중에서 우선 순위 렌더링 방식에 대응하는 재생 환경이 있는 경우, 컨텐츠 처리 장치(120)는 해당 객체 기반 오디오 신호가 해당 재생 환경에서 재생되도록 할 수 있다. 그리고, 복수의 재생 환경 중에서 우선 순위 렌더링 방식에 대응하는 재생 환경이 없는 경우, 컨텐츠 처리 장치(120)는 해당 객체 기반 오디오 신호를 다음 우선 순위를 가지는 재생 방식으로 재생 시킬 수 있다. 예를 들어, 우선 순위는 1. Panning, 2. Binaural, 3. Transaural일 수 있다.That is, if there is a reproduction environment corresponding to the priority rendering method among the plurality of reproduction environments, the content processing apparatus 120 may cause the object-based audio signal to be reproduced in the reproduction environment. If there is no reproduction environment corresponding to the priority rendering method among the plurality of reproduction environments, the content processing apparatus 120 can reproduce the object-based audio signal in the reproduction mode having the next priority. For example, the priority may be 1. Panning, 2. Binaural, 3. Transaural.

또한, 22번째 데이터처럼 우선 순위 렌더링 방식이 Binaural인 경우, 컨텐츠 처리 장치(120)는 바이노럴 렌더링으로 2번째 객체 기반 오디오 신호를 렌더링할 수 있다. 그리고, 재생 환경들 중 헤드폰이 있는 경우, 컨텐츠 처리 장치(120)는 2번째 객체 기반 오디오 신호가 헤드폰에서 재생되도록 할 수 있다.Also, if the priority rendering method is binaural as in the 22nd data, the content processing apparatus 120 can render a second object-based audio signal by binaural rendering. If there is a headphone in the reproduction environments, the content processing apparatus 120 may cause the second object-based audio signal to be reproduced in the headphone.

그리고, 29번째 데이터처럼 우선 순위 렌더링 방식이 Transaural인 경우, 컨텐츠 처리 장치(120)는 트랜스오럴 렌더링으로 2번째 객체 기반 오디오 신호를 렌더링할 수 있다. 그리고, 재생 환경들 중 라우드 스피커가 있는 경우, 컨텐츠 처리 장치(120)는 3번째 객체 기반 오디오 신호가 라우드 스피커에서 재생되도록 할 수 있다.If the priority rendering method is Transaural as in the 29th data, the content processing apparatus 120 may render the second object-based audio signal by transional rendering. And, if there is a loudspeaker among the reproduction environments, the content processing apparatus 120 may cause the third object-based audio signal to be reproduced from the loudspeaker.

도 3은 도 2의 구성을 사용한 메타 데이터의 일례이다.Fig. 3 is an example of metadata using the configuration of Fig.

도 3은 6개의 채널 신호와 3개의 객체 신호를 포함하는 컨텐츠인 경우, 메타 데이터 생성 장치(100)가 생성하는 메타 데이터의 구성 일례이다.3 is an example of the configuration of metadata generated by the metadata generation apparatus 100 when the content includes six channel signals and three object signals.

우선 순위 렌더링 방식은 도 2와 같이 명칭으로 기재될 수도 있고, 도 3과 같이 숫자로 기재될 수도 있다. 도 3에서 우선 순위 렌더링 방식의 0은 Panning이고 1은 Binaural이며, 2는 Transaural일 수 있다.The priority rendering method may be denominated as shown in FIG. 2 or numerically as shown in FIG. In FIG. 3, 0 of the priority rendering scheme is panning, 1 is Binaural, and 2 is Transaural.

도 4는 본 발명의 일실시예에 따른 메타 데이터 생성 방법을 도시한 플로우차트이다.4 is a flowchart illustrating a method of generating metadata according to an exemplary embodiment of the present invention.

단계(410)에서 통신기(111)는 채널 기반 오디오 신호, 및 객체 기반 오디오 신호를 포함하는 컨텐츠를 수신할 수 있다.In step 410, the communicator 111 may receive content that includes a channel-based audio signal, and an object-based audio signal.

단계(420)에서 프로세서(112)는 단계(410)에서 수신한 컨텐츠에 포함된 채널 기반 오디오 신호, 컨텐츠에 포함된 객체 기반 오디오 신호, 객체 기반 오디오 신호의 이름, 객체 기반 오디오 신호의 방위각, 객체 기반 오디오 신호의 볼륨, 객체 기반 오디오 신호와 사용자 간의 거리, 및 객체 기반 오디오 신호의 렌더링 방식의 우선 순위 중 적어도 하나를 포함하는 컨텐츠의 메타 데이터를 생성할 수 있다.In step 420, the processor 112 receives the channel-based audio signal contained in the content received in step 410, the object-based audio signal contained in the content, the name of the object-based audio signal, the azimuth of the object- Based audio signal, the volume of the audio signal based on the object, the distance between the object-based audio signal and the user, and the priority of the rendering method of the object-based audio signal.

단계(430)에서 통신기(111)는 단계(410)에서 수신한 컨텐츠와 단계(420)에서 생성한 메타 데이터를 컨텐츠 처리 장치(120)로 전송할 수 있다.In step 430, the communicator 111 may transmit the content received in step 410 and the metadata generated in step 420 to the content processing apparatus 120.

도 5는 본 발명의 일실시예에 따른 메타 데이터를 수신한 컨텐츠 처리 장치의 동작 방법을 도시한 플로우차트이다.5 is a flowchart illustrating an operation method of a content processing apparatus that receives metadata according to an embodiment of the present invention.

단계(510)에서 통신기(121)는 메타 데이터 생성 장치(100)의 통신기(111)로부터 컨텐츠와 메타 데이터를 수신할 수 있다.In step 510, the communicator 121 may receive the content and the metadata from the communicator 111 of the metadata generation apparatus 100.

단계(520)에서 프로세서(122)는 단계(510)에서 수신한 메타 데이터를 이용하여 컨텐츠의 렌더링 방식을 식별할 수 있다. In operation 520, the processor 122 may identify the rendering method of the content using the metadata received in operation 510.

단계(530)에서 프로세서(122)는 단계(540)에서 식별한 렌더링 방식에 따라 컨텐츠를 렌더링할 수 있다. In step 530, the processor 122 may render the content according to the rendering method identified in step 540. [

단계(540)에서 프로세서(122)는 단계(530)에서 렌더링된 컨텐츠를 단계(540)에서 식별한 렌더링 방식에 대응하는 재생 환경에서 재생할 수 있다.In step 540, the processor 122 may play the rendered content in step 530 in a playback environment corresponding to the rendering method identified in step 540. [

본 발명은 채널 기반 오디오 신호, 및 객체 기반 오디오 신호를 포함하는 컨텐츠를 위한 메타 데이터를 생성하여 제공할 수 있다.The present invention can generate and provide metadata for a content including a channel-based audio signal and an object-based audio signal.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.While the invention has been shown and described with reference to certain preferred embodiments thereof, it will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. This is possible.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined by the equivalents of the claims, as well as the claims.

110: 메타 데이터 생성 장치
120: 컨텐츠 처리 장치
110: Metadata generation device
120: Content processing device

Claims (1)

채널 기반 오디오 신호, 및 객체 기반 오디오 신호를 포함하는 컨텐츠를 수신하는 단계; 및
상기 컨텐츠에 포함된 채널 기반 오디오 신호, 상기 컨텐츠에 포함된 객체 기반 오디오 신호, 상기 객체 기반 오디오 신호의 이름, 상기 객체 기반 오디오 신호의 방위각, 상기 객체 기반 오디오 신호의 이득(gain), 상기 객체 기반 오디오 신호와 사용자 간의 거리, 및 상기 객체 기반 오디오 신호의 렌더링 방식의 우선 순위 중 적어도 하나를 포함하는 상기 컨텐츠의 메타 데이터를 생성하는 단계
를 포함하는 컨텐츠의 메타 데이터 생성 방법.
A channel-based audio signal, and an object-based audio signal; And
Based audio signal contained in the content, an object-based audio signal contained in the content, a name of the object-based audio signal, an azimuth of the object-based audio signal, a gain of the object- Generating metadata of the content including at least one of a distance between the audio signal and the user, and a priority of the rendering method of the object-based audio signal
And generating metadata of the contents.
KR1020160067491A 2016-02-12 2016-05-31 Apparatus and method for generating metadata of hybrid audio signal KR20170095105A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160016426 2016-02-12
KR20160016426 2016-02-12

Publications (1)

Publication Number Publication Date
KR20170095105A true KR20170095105A (en) 2017-08-22

Family

ID=59757943

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160067491A KR20170095105A (en) 2016-02-12 2016-05-31 Apparatus and method for generating metadata of hybrid audio signal

Country Status (1)

Country Link
KR (1) KR20170095105A (en)

Similar Documents

Publication Publication Date Title
US10674262B2 (en) Merging audio signals with spatial metadata
US11902762B2 (en) Orientation-aware surround sound playback
US9014378B2 (en) Enhancing the reproduction of multiple audio channels
US10271156B2 (en) Audio signal processing method
KR102149411B1 (en) Apparatus and method for generating audio data, apparatus and method for playing audio data
US11250863B2 (en) Frame coding for spatial audio data
EP3468233A1 (en) Sound processing device, sound processing method, and program
JP6663490B2 (en) Speaker system, audio signal rendering device and program
KR102049602B1 (en) Apparatus and method for generating multimedia data, method and apparatus for playing multimedia data
KR102370672B1 (en) Method and apparatus for providing audio data, method and apparatus for providing audio metadata, method and apparatus for playing audio data
KR20180122451A (en) Interactive audio metadata handling
KR20170095105A (en) Apparatus and method for generating metadata of hybrid audio signal
US10405122B1 (en) Stereophonic sound generating method and apparatus using multi-rendering scheme and stereophonic sound reproducing method and apparatus using multi-rendering scheme
KR102421292B1 (en) System and method for reproducing audio object signal
CN115348528A (en) Sound bed rendering item data mapping method, device, equipment and storage medium
CN113923264A (en) Scene-based audio channel metadata and generation method, device and storage medium
CN113938811A (en) Audio channel metadata based on sound bed, generation method, equipment and storage medium
KR20190133123A (en) Apparatus and method for generating multimedia data, method and apparatus for playing multimedia data