KR101865213B1 - 효율적인 객체 메타데이터 코딩을 위한 장치 및 방법 - Google Patents

효율적인 객체 메타데이터 코딩을 위한 장치 및 방법 Download PDF

Info

Publication number
KR101865213B1
KR101865213B1 KR1020167004622A KR20167004622A KR101865213B1 KR 101865213 B1 KR101865213 B1 KR 101865213B1 KR 1020167004622 A KR1020167004622 A KR 1020167004622A KR 20167004622 A KR20167004622 A KR 20167004622A KR 101865213 B1 KR101865213 B1 KR 101865213B1
Authority
KR
South Korea
Prior art keywords
metadata
signals
signal
audio
samples
Prior art date
Application number
KR1020167004622A
Other languages
English (en)
Other versions
KR20160036585A (ko
Inventor
크리스티안 보르스
크리스티안 에르텔
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20130177378 external-priority patent/EP2830045A1/en
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20160036585A publication Critical patent/KR20160036585A/ko
Application granted granted Critical
Publication of KR101865213B1 publication Critical patent/KR101865213B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

하나 이상의 오디오 채널들을 생성하기 위한 장치(100)가 제공된다. 장치(100)는 하나 이상의 압축된 메타데이터 신호들을 수신하기 위한 메타데이터 디코더(110)를 포함한다. 하나 이상의 압축된 메타데이터 신호들 각각은 복수의 제 1 메타데이터 샘플들을 포함한다. 하나 이상의 압축된 메타데이터 신호들 각각의 제 1 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타낸다. 메타데이터 디코더(110)는 하나 이상의 재구성된 메타데이터 신호들을 생성하도록 구성되어, 하나 이상의 재구성된 메타데이터 신호들 각각은 하나 이상의 압축된 메타데이터 신호들 중 하나의 압축된 메타데이터의 제 1 메타데이터 샘플들을 포함하고, 복수의 제 2 메타데이터 샘플들을 더 포함한다. 메타데이터 디코더(110)는 재구성된 메타데이터 신호의 상기 제 1 메타데이터 샘플들 중 적어도 2개에 따라 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들 각각을 생성하도록 구성된다. 더욱이, 장치(100)는 하나 이상의 오디오 객체 신호들에 따라, 그리고 하나 이상의 재구성된 메타데이터 신호들에 따라 하나 이상의 오디오 채널들을 생성하기 위한 오디오 채널 생성기(120)를 포함한다. 더욱이, 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치가 제공된다.

Description

효율적인 객체 메타데이터 코딩을 위한 장치 및 방법{APPARATUS AND METHOD FOR EFFICIENT OBJECT METADATA CODING}
본 발명은 오디오 인코딩/디코딩에 관한 것으로, 특히 공간 오디오 디코딩 및 공간 오디오 객체 코딩에 관한 것으로, 더 구체적으로 효율적인 객체 메타데이터 코딩 장치 및 방법에 관한 것이다.
공간 오디오 코딩 툴은 종래 기술에 잘 알려져 있고, 예를 들어 MPEG 서라운드 표준에서 표준화된다. 공간 오디오 코딩은 재생 설정에서의 그들의 위치에 의해 식별되는 5 또는 7 채널들, 예를 들어 좌측 채널, 중앙 채널, 우측 채널, 좌측 서라운드 채널, 우측 서라운드 채널 및 저주파수 개선 채널과 같은 원본 입력 채널들로부터 시작한다. 공간 오디오 인코더는 통상적으로 원본 채널들로부터 하나 이상의 다운믹스 채널들을 도출하고, 추가적으로 채널 코히어런스(coherence) 값들, 채널간 위상차, 채널간 시간 차 등에서의 채널간 레벨 차이와 같이 공간 큐와 관련된 파라미터 데이터를 도출한다. 하나 이상의 다운 믹스 채널은 원본 입력 채널의 근사화된 버전인 출력 채널을 결국 얻기 위해 다운 믹스 채널 및 연관된 파라미터 데이터를 디코딩하는 공간 오디오 디코더에 공간 큐를 나타내는 파라메트릭 부가 정보와 함께 전송된다. 출력 설정에서 채널의 배치는 통상적으로 고정되고, 예를 들면, 5.1 포맷, 7.1 포맷 등이다.
이러한 채널 기반 오디오 포맷은, 각 채널이 주어진 위치에서 특정 스피커에 관련하는 다중 채널 오디오 콘텐츠를 저장하거나 전송하기 위해 널리 사용된다. 이러한 종류의 포맷들의 충실한 재생은, 스피커가 오디오 신호의 재생시 사용된 스피커와 동일한 위치에 배치된 스피커 설정을 요구한다. 스피커들의 수가 증가하는 것이 진정 실감나는 3D 오디오 장면의 재생을 개선하지만, 이러한 요건을 충족하는 것이 점점 더 어려워진다 - 특히 거실과 같은 거주 환경에서. 특정 스피커 설정을 가질 필요는, 스피커 신호가 특히 재생 설정을 위해 렌더링되는 객체 기반 접근법에 의해 극복될 수 있다.
예를 들어, 공간 오디오 객체 코딩 툴은 종래 기술에 널리 공지되어 있으며, MPEG SAOCG 표준(SAOC = 공간 오디오 객체 코딩)에서 표준화되어 있다. 원본 채널들에서 시작하는 공간 오디오 코딩과 대조적으로, 공간 오디오 객체 코딩은 특정 렌더링 재생 설정에 대해 자동으로 지정되지 않는 오디오 객체에서 시작한다. 대신, 재생 장면의 오디오 객체의 배치는 가요성이고, 공간 오디오 객체 코딩 디코더에 특정 렌더링 정보를 입력하여 사용자에 의해 결정될 수 있다. 대안적으로 또는 추가적으로, 특정 오디오 객체가 시간이 지남에 따라 일반적으로 배치될 재생 설정에서의 위치를 갖는 정보는 추가적인 부가 정보 또는 메타데이터로서 전송될 수 있다. 특정 데이터 압축을 얻기 위해, 오디오 객체의 개수는 특정 다운믹스 정보에 따라 객체를 다운믹싱하여 입력 객체로부터 하나 이상의 전송 채널을 계산하는 SAOC 인코더에 의해 인코딩된다. 더욱이, SAOC 인코더는 객체 레벨 차이(OLD), 객체 코히어런스 값 등과 같은 객체 간 큐를 나타내는 파라메트릭 부가 정보를 계산한다. SAC(SAC = 공간 오디오 코딩)에서와 같이, 객체 간 파라미터 데이터는 개별적인 시간/주파수 타일들(tiles)에 대해 계산되는데, 즉, 1024 또는 2048 개의 샘플들, 24, 32, 64 등을 포함하는 오디오 신호의 특정 프레임에 대해, 주파수 대역은, 결국, 파라메트릭 데이터가 각 프레임 및 각 주파수에 대해 존재하도록 고려된다. 예를 들어, 오디오 피스(piece)가 20 프레임을 가질 때, 그리고 각 프레임이 32개의 주파수 대역으로 세분화될 때, 시간/주파수 타일의 수는 640이다.
객체 기반 방법에서, 음장은 이산 오디오 객체에 의해 기술된다. 이것은 특히 3D 공간에서 각 음원의 시변 위치를 나타내는 객체 메타데이터를 필요로 한다.종래 기술에서의 제 1 메타데이터 코딩 개념은, 여전히 개발 [1] 하에 있는 오디오 장면 설명, 공간 사운드 설명 교환 포맷(SpatDIF)이다. 이것은 객체 기반 사운드 장면에 대한 교환 포맷으로서 설계되고, 객체 궤적에 대한 임의의 압축 방법을 제공하지 않는다. SpatDIF는 객체 메타데이터 [2]를 구성하기 위해 텍스트 기반의 오픈 사운드 제어(OSC) 포맷을 사용한다. 하지만, 단순한 텍스트 기반의 표현은 객체 궤적의 압축 전송을 위한 옵션이 아니다.
종래 기술의 또 다른 메타데이터 개념은 오디오 장면 설명 포맷(ASDF) [3], 동일한 단점을 갖는 텍스트 기반의 솔루션이다. 데이터는 확장 가능한 마크 업 언어(xML) [4,5]의 서브셋인 동기화 멀티미디어 통합 언어(SMIL)의 확장에 의해 구성된다.
종래 기술에서 추가 메타데이터 개념은 장면(AudioBIFS)을 위한 오디오 이진 포맷, MPEG-4 규격 [6,7]의 부분인 이진 포맷이다. 이것은 시청각 3D 장면과 대화형 가상 현실 응용 [8]의 설명을 위해 개발된 xML 기반의 가상 현실 모델링 언어(VRML)와 밀접하게 관련있다. 복합 AudioBIFS 규격은 객체의 움직임 경로를 규정하기 위해 장면 그래프를 사용한다. AudioBIFS의 주요 단점은, 데이터 스트림에 대한 제한 시스템 지연 및 랜덤 액세스가 요구되는 실시간 동작을 위해 설계되지 않는다. 또한, 객체의 위치의 인코딩은 인간 청취자의 제한된 국부화 성능을 이용하지 않는다. 시청각 장면 내의 고정 청취자 위치의 경우, 객체 데이터는 비트의 더 낮은 수로 양자화될 수 있다 [9]. 따라서 AudioBIFS에 인가된 객체 메타데이터의 인코딩은 데이터 압축에 대해서는 효율적이지 못하다.
따라서 개선된 경우, 효율적인 객체 메타데이터 코딩 개념이 제공되는 것이 크게 인식된다.
본 발명의 목적은 효율적인 객체 메타데이터 코딩에 대한 향상된 개념을 제공하는 것이다. 본 발명의 목적은, 제 1항에 따른 장치에 의해, 제 8항에 따른 장치에 의해, 제 14항에 따른 시스템에 의해, 제 15항에 따른 방법에 의해, 제 16항에 따른 방법에 의해, 그리고 제 17항에 따른 컴퓨터 프로그램에 의해 해결된다.
하나 이상의 오디오 채널들을 생성하기 위한 장치가 제공된다. 장치는 하나 이상의 압축된 메타데이터 신호들을 수신하기 위한 메타데이터 디코더를 포함한다. 하나 이상의 압축된 메타데이터 신호들 각각은 복수의 제 1 메타데이터 샘플들을 포함한다. 하나 이상의 압축된 메타데이터 신호들 각각의 상기 제 1 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타낸다. 메타데이터 디코더는 하나 이상의 재구성된 메타데이터 신호들을 생성하도록 구성되어, 하나 이상의 재구성된 메타데이터 신호들 각각은 하나 이상의 압축된 메타데이터 신호들 중 하나의 압축된 메타데이터의 제 1 메타데이터 샘플들을 포함하고, 복수의 제 2 메타데이터 샘플들을 더 포함한다. 더욱이, 메타데이터 디코더는 재구성된 메타데이터 신호의 제 1 메타데이터 샘플들 중 적어도 2개에 따라 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들 각각을 생성하도록 구성된다. 더욱이, 장치는 하나 이상의 오디오 객체 신호들에 따라, 그리고 하나 이상의 재구성된 메타데이터 신호들에 따라 하나 이상의 오디오 채널들을 생성하기 위한 오디오 채널 생성기를 포함한다.
더욱이, 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치가 제공된다. 장치는 하나 이상의 원본 메타데이터 신호들을 수신하기 위한 메타데이터 인코더를 포함한다. 하나 이상의 원래 메타데이터 신호들 각각은 복수의 메타데이터 샘플들을 포함한다. 하나 이상의 원본 메타데이터 신호들 각각의 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타낸다. 메타데이터 인코더는 하나 이상의 압축된 메타데이터 신호들을 생성하도록 구성되어, 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호는 원본 메타데이터 신호들 중 하나의 원본 메타데이터 신호의 메타데이터 샘플들 중 2개 이상의 메타데이터 샘플들의 제 1 그룹을 포함하고, 상기 압축된 메타데이터 신호는 상기 원본 메타데이터 신호들의 상기 하나의 원본 메타데이터 신호의 상기 메타데이터 샘플들의 다른 2개 이상의 메타데이터 샘플들의 제 2 그룹의 임의의 메타데이터 샘플을 포함하지 않는다. 더욱이, 하나 이상의 인코딩된 오디오 신호들을 얻기 위해 하나 이상의 오디오 객체 신호들을 인코딩하기 위한 오디오 인코더를 포함한다.
더욱이, 시스템이 제공된다. 시스템은 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치를 포함한다. 더욱이, 시스템은 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 수신하고, 하나 이상의 인코딩된 오디오 신호들에 따라 그리고 하나 이상의 압축된 메타데이터 신호들에 따라 하나 이상의 오디오 채널들을 생성하기 위한 장치를 포함한다.
실시예들에 따라, 객체 메타데이터를 위한 데이터 압축 개념들이 제공되고, 이것은 제한된 데이터율로 채널들을 송신하기 위한 효율적인 압축 메커니즘을 달성한다. 더욱이, 순수한 방위각 변화들, 예를 들어 카메라 회전들에 대한 양호한 압축률이 달성된다. 더욱이, 제공된 개념들은 불연속적인 궤적들, 예를 들어 위치 도약들을 지지한다. 더욱이, 낮은 디코딩 복잡도가 실현된다. 더욱이, 제한된 재초기화 시간을 갖는 랜덤 액세스가 달성된다.
더욱이, 하나 이상의 오디오 채널들을 생성하기 위한 방법이 제공된다. 방법은:
- 하나 이상의 압축된 메타데이터 신호들을 수신하는 단계로서, 하나 이상의 압축된 메타데이터 신호들 각각은 복수의 제 1 메타데이터 샘플들을 포함하고, 하나 이상의 압축된 메타데이터 신호들 각각의 제 1 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 포함하는, 수신하는 단계,
- 하나 이상의 재구성된 메타데이터 신호들을 생성하는 단계로서, 하나 이상의 재구성된 메타데이터 신호들 각각은 하나 이상의 압축된 메타데이터 신호들 중 하나의 압축된 메타데이터의 제 1 메타데이터 샘플들을 포함하고, 복수의 제 2 메타데이터 샘플들을 더 포함하고, 하나 이상의 재구성된 메타데이터 신호들을 생성하는 단계는 재구성된 메타데이터 신호의 제 1 메타데이터 샘플들 중 적어도 2개에 따라 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호의 상기 제 2 메타데이터 샘플들 각각을 생성하는 단계를 포함하는, 생성하는 단계, 및
- 하나 이상의 오디오 객체 신호들에 따라, 그리고 하나 이상의 재구성된 메타데이터 신호들에 따라 하나 이상의 오디오 채널들을 생성하는 단계를
포함한다.
더욱이, 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하는 방법이 제공된다. 방법은
- 하나 이상의 원본 메타데이터 신호들을 수신하는 단계로서, 하나 이상의 원래 메타데이터 신호들 각각은 복수의 메타데이터 샘플들을 포함하고, 하나 이상의 원본 메타데이터 신호들 각각의 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타내는, 수신하는 단계,
- 하나 이상의 압축된 메타데이터 신호들을 생성하는 단계로서, 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호는 원본 메타데이터 신호들 중 하나의 원본 메타데이터 신호의 메타데이터 샘플들 중 2개 이상의 메타데이터 샘플들의 제 1 그룹을 포함하고, 압축된 메타데이터 신호는 원본 메타데이터 신호들의 하나의 원본 메타데이터 신호의 메타데이터 샘플들의 다른 2개 이상의 메타데이터 샘플들의 제 2 그룹의 임의의 메타데이터 샘플을 포함하지 않는, 생성하는 단계, 및
- 하나 이상의 인코딩된 오디오 신호들을 얻기 위해 하나 이상의 오디오 객체 신호들을 인코딩하는 단계를 포함한다.
더욱이, 컴퓨터 또는 신호 프로세서 상에서 실행될 때 전술한 방법을 구현하기 위한 컴퓨터 프로그램이 달성된다.
다음에서, 본 발명의 실시예들은 도면들을 참조하여 더 구체적으로 기재된다.
도 1은 실시예에 따라 하나 이상의 오디오 채널들을 생성하기 위한 장치를 도시한 도면.
도 2는 실시예에 따라 하나 이상의 인코딩된 오디오 신호와 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치를 도시한 도면.
도 3은 실시예에 따른 시스템을 도시한 도면.
도 4는 방위각, 앙각 및 반경에 의해 표현된 원점으로부터 3차원 공간에서 오디오 객체의 위치를 도시한 도면.
도 5는, 오디오 객체들의 위치들 및 오디오 채널 생성기에 의해 가정된 스피커 설정을 도시한 도면.
도 6은 실시예에 따른 메타데이터를 인코딩을 도시한 도면.
도 7은 실시예에 따른 메타데이터를 디코딩을 도시한 도면.
도 8은 다른 실시예에 따른 메타데이터 인코딩을 도시한 도면.
도 9는 다른 실시예에 따른 메타데이터 디코딩을 도시한 도면.
도 10은 추가 실시예에 따른 메타데이터 인코딩을 도시한 도면.
도 11은 추가 실시예에 따른 메타데이터 디코딩을 도시한 도면.
도 12는 3D 오디오 인코더의 제 1 실시예를 도시한 도면.
도 13은 3D 오디오 디코더의 제 1 실시예를 도시한 도면.
도 14는 3D 오디오 인코더의 제 2 실시예를 도시한 도면.
도 15는 3D 오디오 디코더의 제 2 실시예를 도시한 도면.
도 16은 3D 오디오 인코더의 제 3 실시예를 도시한 도면.
도 17은 3D 오디오 디코더의 제 3 실시예를 도시한 도면.
도 2는 일 실시예에 따른 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치(250)를 도시한다.
상기 장치(250)는 하나 이상의 원본 메타데이터 신호들을 수신하기 위한 메타데이터 인코더(210)를 포함한다. 하나 이상의 원본 메타데이터 신호들 각각은 다수의 메타데이터 샘플들을 포함한다. 하나 이상의 원본 메타데이터 신호들 각각의 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들 중 하나의 오디오 객체 신호와 연관된 정보를 표시한다. 메타데이터 인코더(210)는 하나 이상의 압축된 메타데이터 신호들을 생성하도록 구성되며, 그 결과 하나 이상의 압축된 메타데이터 신호들의 각각의 압축된 메타데이터 신호는 원본 메타데이터 신호들 중 하나의 메타데이터 신호의 메타데이터 샘플들 중 2개 이상의 메타데이터 샘플들의 제 1 그룹을 포함하며, 상기 압축된 메타데이터 신호는 원본 메타데이터 신호들 중 상기 하나의 메타데이터 신호의 메타데이터 샘플들 중 다른 2개 이상의 메타데이터 샘플들의 제 2 그룹의 임의의 메타데이터 샘플을 포함하지 않는다.
또한, 상기 장치(250)는 하나 이상의 인코딩된 오디오 신호들을 획득하기 위해 하나 이상의 오디오 객체 신호들을 인코딩하기 위한 오디오 인코더(220)를 포함한다. 예를 들어, 오디오 채널 생성기는 하나 이상의 인코딩된 오디오 신호들로서 하나 이상의 SAOC 전송 채널들을 획득하기 위하여 하나 이상의 오디오 객체 신호들을 인코딩하기 위한 현재 기술(the state of the art)에 따른 SAOC 인코더를 포함할 수 있다. 대안적으로 또는 추가적으로 하나 이상의 오디오 객체 채널들을 인코딩하기 위한 다양한 다른 인코딩 기법들이 하나 이상의 오디오 객체 채널들을 인코딩하기 위해 사용될 수 있다.
도 1은 일 실시예에 따른 하나 이상의 오디오 채널들을 생성하기 위한 장치(100)를 도시한다.
상기 장치(100)는 하나 이상의 압축된 메타데이터 신호들을 수신하기 위한 메타데이터 디코더(110)를 포함한다. 하나 이상의 압축된 메타데이터 신호들 각각은 다수의 제 1 메타데이터 샘플들을 포함한다. 하나 이상의 압축된 메타데이터 신호들 각각의 제 1 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들 중 하나의 오디오 객체 신호와 연관된 정보를 표시한다. 메타데이터 디코더(110)는 하나 이상의 재구성된 메타데이터 신호들을 생성하도록 구성되며, 그 결과 하나 이상의 재구성된 메타데이터 신호들 각각은 하나 이상의 압축된 메타데이터 신호들 중 하나의 압축된 메타데이터 신호의 제 1 메타데이터 샘플들을 포함하며 추가적으로 다수의 제 2 메타데이터 샘플들을 포함한다. 또한, 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 제 1 메타데이터 샘플들 중 적어도 2개에 의존하여 하나 이상의 재구성된 메타데이터 신호들의 각각의 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들 각각을 생성하도록 구성된다.
또한, 상기 장치(100)는 하나 이상의 오디오 객체 신호들에 의존하여 그리고 하나 이상의 재구성된 메타데이터 신호들에 의존하여 하나 이상의 오디오 채널들을 생성하기 위한 오디오 채널 생성기(120)를 포함한다.
메타데이터 샘플들을 참조할 때, 메타데이터 샘플이 자신의 메타데이터 샘플 값에 의해서 뿐만 아니라, 자신이 관련되는 시간 인스턴스에 의해서도 특징지워진다는 것을 유의하도록 한다. 예를 들어, 이러한 시간 인스턴스는 오디오 시퀀스의 시작과 관련되거나 또는 이와 유사할 수 있다. 예를 들어, 인덱스 n 또는 k는 메타데이터 신호에서 메타데이터 샘플의 위치를 식별할 수 있으며, 이에 의해 (시작 시간과 관련되는) (상대적인) 시간 인스턴스가 표시된다. 2개의 메타데이터 샘플들이 상이한 시간 인스턴스들과 관련될 때 이러한 2개의 메타데이터 샘플들은 상이한 메타데이터 샘플들이며, 이들의 메타데이터 샘플 값들이 동일할 때라도 종종 그러한 경우가 될 수 있음을 유의하도록 한다.
위의 실시예들은 오디오 객체 신호와 연관되는 (메타데이터 신호에 의해 포함되는) 메타데이터 정보가 종종 느리게 변화한다는 발견에 기반한다.
예를 들어, 메타데이터 신호는 오디오 객체에 대한 위치 정보(예를 들어, 오디오 객체의 위치를 정의하는 방위각(azimuth angle), 앙각(elevation angle) 또는 반경(radius))를 표시할 수 있다. 대부분의 경우에 오디오 객체의 위치는 변하지 않거나 또는 단지 느리게 변한다고 가정될 수 있다.
또는, 메타데이터 신호는, 예를 들어, 오디오 객체의 볼륨(volume)(예를 들어, 이득)을 표시할 수 있으며, 대부분의 경우에 오디오 객체의 불륨은 또한 느리게 변한다고 가정될 수 있다.
이러한 이유로, 매 시간 인스턴스에서 (완전한) 메타데이터 정보를 전송하는 것이 필요하지 않다. 대신에, (완전한) 메타데이터 정보는 단지 특정 시간 인스턴스들에서, 예를 들어, 주기적으로, 예를 들어, 매 N번째 시간 인스턴스에서, 예를 들어, 0, N, 2N, 3N 등의 시간 포인트에서 전송된다. 디코더 측에서, 중간 시간 포인트들(예를 들어, 시간 포인트들 1, 2,..., N-1)에 대하여, 메타데이터는 그후에 2개 이상의 시간 포인트들에 대하여 메타데이터 샘플들에 기반하여 근사화될 수 있다. 예를 들어, 시간 포인트들 1, 2,..., N-1에 대한 메타데이터 샘플들은 예컨대 시간 보간을 이용함으로써, 시간 포인트들 0 및 N에 대하여 메타데이터 샘플들에 의존하여 디코더 측에서 근사화될 수 있다. 이전에 논의된 바와 같이, 이러한 접근 방식은 일반적으로 오디오 객체들에 대한 메타데이터가 느리게 변화한다는 발견에 기반한다.
예를 들어, 실시예에서, 3개의 메타데이터 신호는 3D 공간에서의 오디오 객체의 위치를 지정한다. 메타데이터 신호들 중 제 1 신호는, 예를 들어, 오디오 객체의 위치의 방위각을 지정할 수 있다. 메타데이터 신호들 중 제 2 신호는, 예를 들어, 오디오 객체의 위치의 앙각을 지정할 수 있다. 메타데이터신호들 중 제 3 신호는, 예를 들어, 오디오 객체의 거리에 관한 반경을 지정할 수 있다.
방위각, 앙각 및 반경은 원점으로부터 3D 공간에서 오디오 객체의 위치를 모호하게 정의한다. 이는 도 4를 참조하여 도시된다.
도 4는 방위각, 앙각 및 반경에 의해 표현된 원점(400)으로부터 3차원(3D) 공간에서의 오디오 객체의 위치(410)를 도시한다.
앙각은, 예를 들면, 원점으로부터 객체 위치로의 직선과 xy 평면(x 축 및 Y 축에 의해 정의되는 평면) 상으로의 이 직선의 법선 투사 사이의 각도를 지정한다. 방위각은, 예를 들면, x 축과 상기 법선 투사 사이의 각도를 정의한다. 방위각과 앙각을 지정함으로써, 기점(400) 및 오디오 객체의 위치(410)를 통한 직선(415)이 정의될 수 있다. 또한 반경을 지정함으로써, 오디오 객체의 정확한 위치(410)가 정의될 수 있다.
실시예에서, 방위각은 범위에 대해 정의된다: -180°<방위각 ≤180°, 앙각은 범위에 대해 정의된다: 90°≤앙각 ≤ -90° 및 반경은 예를 들어 미터[m](0m보다 크거나 같은) 단위로 정의될 수 있다.
다른 실시예에서, 예를 들면, xyz 좌표계에서 오디오 객체 위치의 모든 x 값이 제로보다 크거나 같은 것으로 간주 될 수 있는 경우, 방위각은 범위에 대해 정의될 수 있고: -90°≤ 방위각 ≤ -90°, 앙각은 범위에 대해 정의될 수 있고: -90°≤ 앙각 ≤ -90°, 반경은, 예를 들면, 미터[m] 단위로 정의될 수 있다.
다른 실시예에서, 메타데이터 신호는, 방위각이 범위에 대해 정의될 수 있고: -128°≤ 방위각 ≤ -128°, 앙각이 범위에 대해 정의될 수 있고: -32°≤ 앙각 ≤ -32°, 반경이, 예를 들면, 로그 스케일 상에서 정의될 수 있도록 스케일링될 수 있다. 일부 실시예에서, 원본 메타데이터 신호, 처리된 메타데이터 신호 및 재구성된 메타데이터 신호 각각은 하나 이상의 오디오 객체 신호들 중 하나의 볼륨의 스케일링된 정보 및/또는 위치 정보의 스케일링된 표현을 포함 할 수 있다.
오디오 채널 생성기(120)는, 예를 들어, 하나 이상의 오디오 객체 신호에 따라 그리고 재구성된 메타데이터 신호에 따라, 하나 이상의 오디오 채널을 생성하도록 구성될 수 있고, 재구성된 메타데이터 신호는 예를 들어, 오디오 객체의 위치를 나타낼 수 있다.
도 5는 오디오 채널 생성기에 의해 가정된 오디오 객체의 위치 및 스피커 설정을 도시한다. xyz 좌표계의 원점(500)이 도시된다. 또한, 제 1 오디오 객체의 위치(510)와 제 2 오디오 객체의 위치(520)가 도시되어 있다. 또한, 도 5는, 오디오 채널 생성기(120)가 네 개의 스피커를 위한 네 개의 오디오 채널을 생성하는 경우 시나리오를 도시한다. 오디오 채널 생성기(120)는 네 개의 스피커(511, 512, 513 및 514)가 도 5에 도시된 위치에 배치되어 있다고 가정한다.
도 5에서, 제 1 오디오 객체는 스피커(511 및 512)의 가정된 위치에 가까운 위치(510)에 위치되고, 스피커(513 및 514)로부터 멀리 떨어져 위치된다. 그러므로, 오디오 채널 생성기(120)는, 제 1 오디오 객체(510)가 스피커(511 및 512)에 의해 재생되지만, 스피커(513 및 514)에 의해 재생되지 않도록 4개의 오디오 채널들을 생성할 수 있다.
다른 실시예에서, 오디오 채널 생성기(120)는. 제 1 오디오 객체(510)가 스피커(511 및 512)에 의해 높은 볼륨으로 그리고 스피커(513 및 514)에 의해 낮은 볼륨으로 재성되도록 4개의 오디오 채널을 생성할 수 있다.
또한, 제 2 오디오 객체는 스피커(513 및 514)의 가정된 위치에 가까운 위치(520)에 위치되고, 스피커(511 및 512)로부터 멀리 떨어지게 위치된다. 그러므로, 오디오 채널 생성기(120)는 제 2 오디오 객체(520)가 스피커(513 및 514)에 의해 재생되지만, 스피커(511 및 512)에 의해 재생되지 않도록 4개의 오디오 채널들을 생성할 수 있다.
다른 실시예에서, 오디오 채널 생성기(120)는, 제 2 오디오 객체(520)가 스피커(513 및 514)에 의해 높은 볼륨으로 그리고 스피커(511 및 512)에 의해 낮은 볼륨으로 재성되도록 4개의 오디오 채널을 생성할 수 있다.
대안적인 실시예에서, 두 개의 메타데이터 신호만이 오디오 객체의 위치를 지정하는데 사용된다. 예를 들어, 모든 오디오 객체가 단일 평면 내에 위치되는 것으로 가정할 때, 단지 방위각과 반경은, 예를 들어, 지정될 수 있다.
또 다른 실시예에서, 각각의 오디오 객체에 대해, 단일의 메타데이터 신호가 인코딩되고, 위치 정보로서 송신된다. 예를 들어, 단지 방위각은 오디오 객체(예를 들어, 모든 오디오 객체는 중심점으로부터 동일한 거리를 갖는 동일 평면상에 위치하며, 따라서 동일한 반경을 갖는 것으로 가정되는 것이 가정될 수 있다)에 대한 위치 정보로서 지정될 수 있다. 방위 정보는, 예를 들어, 오디오 객체가 좌측 스피커에 가깝고 우측 스피커로부터 멀리 위치하는지를 결정하기에 충분할 수 있다. 이러한 상황에서, 오디오 채널 생성기(120)는, 예를 들어, 오디오 객체가 좌측 스피커 뿐 아니라 우측 스피커에 의해 재생되도록 하나 이상의 오디오 채널을 생성할 수 있다.
예를 들어, 벡터 기반 진폭 패닝(VBAP)은, 스피커의 오디오 채널 각각 내에서의 오디오 객체 신호의 가중치를 결정하는데 이용될 수 있다(예를 들어, [11]을 참조). 예를 들어, VBAP에 대하여, 오디오 객체가 가상 소스에 관한 것임이 가정된다.
실시예에서, 추가 메타데이터 신호는 볼륨을 지정할 수 있고, 예를 들면, 각 오디오 객체에 대한 이득(예를 들어, 데시벨 [dB]로 표시)을 지정할 수 있다.
예를 들어, 도 5에서, 제 1 이득 값은 위치(520)에 위치한 제 2 오디오 객체에 대한 다른 추가의 메타데이터 신호에 의해 지정된 제 2 이득 값보다 높은 위치(510)에 위치한 제 1 오디오 객체에 대한 추가 메타데이터 신호에 의해 지정될 수 있다. 그러한 상황에서, 스피커(511 및 512)는, 스피커(513 및 514)가 제 2 오디오 객체를 재생하는 볼륨보다 더 높은 볼륨을 갖는 제 1 오디오 객체를 재생할 수 있다.
실시예는, 또한 오디오 객체의 그러한 이득 값이 종종 느리게 변화한다고 가정한다. 따라서, 시간의 모든 지점에서 이러한 메타데이터 정보를 송신할 필요가 없다. 대신에, 메타데이터 정보는 시간의 특정 지점에서만 전송된다. 시간의 중간 지점에서, 메타데이터 정보는, 예를 들어, 송신된, 이전의 메타데이터 샘플 및 후속 메타데이터 샘플을 사용하여 근사화될 수 있다. 예를 들어, 선형 보간은 중간 값들의 근사에 이용될 수 있다. 예를 들어, 각 오디오 객체들의 이득, 방위각, 앙각 및/또는 반경은, 메타 데이터가 송신되지 않은 경우 시간의 지점에 대해 근사화될 수 있다.
이러한 접근법에 의해, 메타데이터의 송신률에 상당한 절감이 달성될 수 있다.
도 3은 실시예에 따른 시스템을 도시한다.
시스템은 전술한 바와 같이 하나 이상의 인코딩된 오디오 신호와 하나 이상의 처리된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치(250)를 포함한다.
또한, 시스템은 하나 이상의 인코딩된 음성 신호 및 상기 하나 이상의 처리 된 메타데이터 신호를 수신하고, 하나 이상의 인코딩된 오디오 신호에 따라 그리고 하나 이상의 처리된 메타데이터 신호에 따라 하나 이상의 오디오 채널들을 생성하기 위한 장치(100)를 포함한다.
예를 들어, 하나 이상의 인코딩된 오디오 신호는, 인코딩을 위한 장치(250)가 하나 이상의 오디오 객체를 인코딩하기 위한 SAOC 인코더를 사용할 때, 하나 이상의 오디오 객체 신호를 획득하기 위해 종래 기술에 따른 SAOC 디코더를 이용함으로써 하나 이상의 오디오 채널을 생성하기 위한 장치(100)에 의해 디코딩될 수 있다.
제한된 재초기화 시간을 가지고 랜덤 액세스를 허용하기 위해 메타데이터에 대한 예로서 객체 위치를 고려하여, 실시예는 주기적으로 모든 객체 위치들의 전체 재전송을 제공한다.
실시예에 따라, 장치(100)는 랜덤 액세스 정보를 수신하도록 구성되고, 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호에 대해, 랜덤 액세스 정보는 상기 압축된 메타데이터 신호의 액세스된 신호 부분을 나타내고, 상기 메타데이터 신호의 적어도 하나의 다른 신호 부분은 상기 랜덤 액세스 정보에 의해 표시되지 않고, 메타데이터 디코더(110)는 상기 압축된 메타데이터 신호의 상기 액세스된 신호 부분의 제 1 메타데이터 샘플들에 따라, 상기 압축된 메타데이터 신호의 임의의 다른 신호 부분의 임의의 다른 제 1 메타데이터 샘플들에 따르지 않고 하나 이상의 재구성된 메타데이터 신호들 중 하나를 생성하도록 구성된다. 즉, 랜덤 액세스 정보를 지정함으로써, 각 압축된 메타데이터 신호들의 부분이 규정될 수 있고, 상기 메타데이터 신호의 다른 부분들은 지정되지 않는다. 이 경우에, 다른 부분들이 아니라 상기 압축된 메타데이터 신호의 지정된 부분만이 재구성된 메타데이터 신호들 중 하나로서 재구성된다. 재구성이 가능한데, 이는 상기 압축된 메타데이터 신호의 송신된 제 1 메타데이터 샘플들이 특정한 시간-지점(points-in-time)에 대한 상기 압축된 메타데이터 신호의 완전한 메타데이터 정보를 나타내기 때문이다(하지만, 다른 시간-지점에 대해, 메타데이터 정보는 송신되지 않는다).
도 6은 실시예에 따른 메타데이터를 도시한다. 실시예에 따른 메타데이터 인코더(210)는 도 6에 의해 도시된 메타데이터 인코딩을 구현하도록 구성될 수 있다.
도 6에서, s(n)는 원본 메타데이터 신호들 중 하나를 나타낼 수 있다. 예를 들면, s(n)는 오디오 객체들 중 하나의 방위각의 함수를 나타내고, n(예를 들면 원본 메타데이터 신호의 샘플 위치를 나타내는 것에 의해)은 시간을 나타낼 수 있다.
오디오 샘플링률보다 훨씬 낮은 샘플링률(예를 들어, 1:1024 이하)로 샘플링되는 시변 궤도 요소{s(n)}는 양자화되고(611 참조), N의 인자만큼 다운 샘플링(612 참조)된다. 이것은 z(k)로 표시하는 전술한 규칙적으로 송신된 디지털 신호를 초래한다.
z(k)는 하나 이상의 메타데이터 압축된 신호 중 하나이다. 예를 들어,
Figure 112017072212916-pct00001
의 매 N 번째의 메타데이터 샘플은 또한 압축된 메타데이터 신호(z(k))의 메타데이터 샘플인 한편, 매 N 번째의 메타데이터 샘플 사이의 다른 N-1 메타데이터 샘플들은 압축된 메타데이터 신호(z(k))의 메타데이터 샘플들이 아니다.
예를 들면, s(n)에서, n은 시간(예를 들어, 원본 메타데이터 신호에서의 샘플 위치들을 나타냄으로써)을 나타내고, 여기서 n은 양의 정수 또는 0이다(예를 들어, 시작 시간: n = 0). n은 다운샘플링 인자이다. 예를 들어, N=32 또는 임의의 다른 적합한 다운샘플링 인자.
예를 들어, 원본 메타데이터 신호(s)로부터 압축된 메타데이터 신호(z)를 얻기 위해 612에서 다운샘플링하는 것이 예를 들어 실현될 수 있어서:
Figure 112016017512995-pct00002
; k는 양의 정수 또는 0(k=0,1,2,...)
따라서:
Figure 112016017512995-pct00003
도 7은 실시예에 따른 메타데이터 디코딩을 도시한다. 실시예에 따른 메타데이터 디코더(110)는 도 7에 도시된 메타데이터 디코딩을 구현하도록 구성될 수 있다.
도 7에 도시된 실시예에 따르면. 메타데이터 디코더(110)는 하나 이상의 압축된 메타데이터 신호들 중 하나를 업샘플링함으로써 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호를 생성하도록 구성되며, 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 제 1 메타데이터 샘플들 중 적어도 2개에 따라 선형 보간을 수행함으로써 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들 각각을 생성하도록 구성된다.
따라서, 각각의 재구성된 메타데이터 신호는 압축된 메타데이터 신호의 모든 메타데이터 샘플들(이들 샘플들은 하나 이상의 압축된 메타데이터 신호의 "제 1 메타 샘플들"이라 함)을 포함한다.
업샘플링을 수행함으로써, 추가 ( "제 2") 메타데이터 샘플들은 재구성된 메타데이터 신호에 추가된다. 업샘플링하는 단계는, 재구성된 메타데이터 신호에서의 어떤 위치들에서 추가 (제 2) 메타데이터 샘플들이 메타데이터 신호(예를 들어, "상대" 시간 인스턴트에서)에 추가되는 지를 결정한다.
선형 보간을 수행함으로써, 제 2 메타 샘플들의 메타데이터 샘플 값이 결정된다. 선형 보간은 압축된 메타데이터 신호의 2개의 메타데이터 샘플들(재구성된 메타데이터 신호의 제 1 메타데이터 샘플들이 된)에 기초하여 수행된다.
실시예에 따라, 선형 보간을 수행하여 제 2 메타데이터 샘플을 업샘플링 및 생성하는 것은 예를 들어, 단일 단계로 수행 될 수 있다.
도 7에서, 선형 보간(722 참조)과 함께 역 업샘플링 프로세스(721 참조)는 원본 신호의 대략적 근사화를 초래한다. 역 업샘플링 프로세스(721 참조) 및 선형 보간(722 참조)은, 예를 들어, 단일 단계로 수행 될 수 있다.
예를 들어, 디코더 측 상의 업샘플링(721)와 선형 보간(722)은, 예를 들어 다음과 같이 수행될 수 있다:
s'(k·N)=z(k); 여기서 k는 양의 정수 또는 0
Figure 112016017512995-pct00004
; j는 1 ≤ j ≤N-1을 갖는 정수
여기서, z(k)는 압축된 메타데이터 신호(z)의 실제로 수신된 메타데이터 샘플이고, z(k-1)은 압축된 메타데이터 신호(z)의 메타데이터 샘플이고, 이것은 실제로 수신된 메타데이터 샘플(z(k)) 바로 전에 수신되었다.
도 8은 다른 실시예에 따른 메타데이터 인코딩을 도시한다. 실시예에 따른 메타데이터 인코더(210)는 도 8에 도시된 메타데이터 인코딩을 수행하도록 구성될 수 있다.
실시예에서, 예를 들어, 도 8에 의해 도시된 바와 같이, 메타데이터 인코딩에서, 미세 구조는 지연 보상 입력 신호와 선형 보간 거친 근사화 사이의 인코딩 차이에 의해 지정될 수 있다.
이러한 실시예에 따르면, 선형 보간과 함께 역 업샘플링 프로세스가 또한 인코더 측에서 메타데이터 인코딩의 일부로서 수행된다(도 6에서 621 및 622 참조). 또한, 역 업샘플링 프로세스(621 참조) 및 선형 보간(622 참조)는, 예를 들어, 단일 단계로 수행될 수 있다.
이미 전술한 바와 같이, 메타데이터 인코더(210)는 하나 이상의 압축된 메타데이터 신호를 생성하도록 구성되어, 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호는 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호의 메타데이터 샘플들 중 2개 이상의 샘플들의 제 1 그룹을 포함한다. 상기 압축된 메타데이터 신호는 상기 원본 메타데이터 신호와 연관된 것으로 간주 될 수 있다.
하나 이상의 원본 메타데이터 신호의 원본 메타데이터 신호에 의해 포함되고, 상기 원본 메타데이터 신호와 연관된 압축된 메타데이터 신호에 의해 포함되는 각 메타데이터 샘플들은 복수의 제 1 메타데이터 샘플들의 하나로서 간주될 수 있다.
또한, 하나 이상의 원본 메타데이터 신호의 원본 메타데이터 신호에 의해 포함되고, 상기 원본 메타데이터 신호와 연관된 압축된 메타데이터 신호에 의해 포함되지 않는 각 메타데이터 샘플들은 복수의 제 2 메타데이터 샘플들의 하나이다.
도 8의 실시예에 따라. 메타데이터 인코더(210)는 하나 이상의 원본 메타데이터 샘플들 중 상기 하나의 제 1 메타데이터 샘플들의 적어도 2개에 따라 선형 보간을 수행하여 원본 메타데이터 신호들 중 하나의 복수의 제 1 메타데이터 샘플들 각각에 대한 근사화된 메타데이터 샘플을 생성하도록 구성된다.
또한, 도 8의 실시예에서. 메타데이터 인코더(210)는 하나 이상의 원본 메타데이터 신호들의 상기 복수의 제 2 메타데이터 샘플들의 각 제 2 메타데이터 샘플에 대한 차이 값을 생성하도록 구성되어, 상기 차이 값은 상기 제 2 메타데이터 샘플과 상기 제 2 메타데이터 샘플의 근사화된 메타데이터 샘플 사이의 차이를 나타낸다.
도 10을 참조하여 나중에 기재된 바람직한 실시예에서, 예를 들어, 메타데이터 인코더(210)는, 하나 이상의 원본 메타데이터 신호들의 상기 하나의 상기 복수의 제 2 메타데이터 샘플들의 차이 값들의 적어도 하나에 대하여 상기 차이 값들의 적어도 하나 각각이 임계값보다 큰지의 여부를 결정하도록 구성될 수 있다.
도 8에 따른 실시예에서, 근사화된 메타데이터 샘플은, 예를 들어, 압축된 메타데이터 신호(z(k))에 대한 업샘플링을 수행함으로써, 그리고 선형 보간을 수행함으로써 결정될 수 있다(예를 들어, 샘플들 신호 s"의 s"(n)로서). 업샘플링 및 선형 보간은 예를 들어, 도면 부호 721 및 722를 참조하여 메타데이터 디코딩에 대해 기재된 바와 같이, 예를 들어 동일한 방식으로, 인코더 측(도 6에서 621 및 622를 참조) 상의 메타데이터 인코딩의 부분으로서 수행될 수 있다:
s"(k·N)=z(k); 여기서 k는 양의 정수 또는 0
Figure 112016017512995-pct00005
; j는 1 ≤ j ≤N-1을 갖는 정수
예를 들어, 도 8에 의해 도시된 실시예에서, 메타데이터 인코딩을 수행할 때 차이 값이 차이에 대해 630에서 결정될 수 있다.
s(n) - s''(n), 예를 들어, (k-1)ㆍN <n <kㆍN을 갖는 모든 n에 대해, 또는
예를 들어, (k-1)ㆍN <n ≤kㆍN을 갖는 모든 n에 대해
실시예에서, 이러한 차이 값 중 하나 이상은 메타데이터 디코더로 송신된다.
도 9는 다른 실시예에 따른 메타데이터 디코딩을 도시한다. 실시예에 따른 메타데이터 디코더(110)는 도 9에 도시된 메타데이터 디코딩을 구현하도록 구성될 수 있다.
이미 위에서 설명된 바와 같이, 하나 이상의 재구성된 메타데이터 신호의 각 재구성된 메타데이터 신호는 하나 이상의 압축된 메타데이터 신호의 압축된 메타데이터의 제 1 메타데이터 샘플들을 포함한다. 상기 재구성된 메타데이터 신호는 상기 압축된 메타데이터 신호와 연관된 것으로 간주된다.
도 9에 도시된 실시예에서, 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호에 대한 복수의 근사화된 메타데이터 샘플들을 생성함으로써 하나 이상의 재구성된 메타데이터 신호 각각의 제 2 메타데이터 샘플들을 생성하도록 구성되고, 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 제 1 메타데이터의 적어도 2개에 따라 복수의 근사화된 메타데이터 샘플들 각각을 생성하도록 구성된다. 예를 들어, 이들 근사화된 메타데이터 샘플들은 도 7을 참조하여 기재된 선형 보간에 의해 생성될 수 있다.
도 9에 도시된 실시예에 따르면. 메타데이터 디코더(110)는 하나 이상의 압축된 메타데이터 신호의 압축된 메타데이터 시호에 대한 복수의 차이 값들을 수신하도록 구성된다. 메타데이터 디코더(110)는 또한, 상기 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들을 획득하기 위해 상기 압축된 메타데이터 신호와 연관된 재구성된 메타데이터 신호의 근사화된 메타데이터 샘플들 중 하나에 복수의 차이 값들 각각을 추가하도록 구성된다.
차이 값이 수신된 모든 이러한 근사화된 메타 샘플에 대해, 그 차이 값은 제 2 메타데이터 샘플들을 획득하기 위해 근사화된 메타데이터 샘플에 추가된다.
실시예에 따르면, 차이 값이 수신되지 않은 근사화된 메타데이터 샘플은 재구성된 메타데이터 신호의 제 2 메타데이터 샘플로서 사용된다.
하지만, 상이한 실시예에서, 차이 값이 근사화된 메타데이터 샘플에 대해 수신되지 않는다면, 근사화된 차이 값은 수신된 차이 값 중 하나 이상에 따라 근사화된 메타데이터 샘플에 대해 생성되고, 상기 근사화된 메타데이터 샘플은 상기 근사화된 메타데이터 샘플에 추가되고, 아래를 참조하자.
도 9에 도시된 실시예에 따르면. 수신된 차이 값은 업샘플링된 메타데이터 신호의 대응하는 메타데이터 샘플들에 추가된다(730 참조). 이에 의해, 차이 값이 송신된 대응하는 보간된 메타데이터 샘플은 올바른 메타데이터 샘플들을 획득하기 위해, 필요시 보정될 수 있다.
도 8에서의 메타데이터 인코딩으로 돌아가면. 바람직한 실시예에서, 보다 적은 비트는 메타데이터 샘플을 인코딩하는데 사용된 비트의 수보다 차이 값을 인코딩하는데 사용된다. 이들 실시예는 대부분 (예를 들어, N) 후속 메타데이터 샘플이 약간 다를 수 있다는 발견에 기초한다. 예를 들어, 메타데이터 샘플의 한 종류가 예를 들어, 8 비트만큼 인코딩되는 경우, 이들 메타데이터 샘플은 256 상이한 값 중에서 하나를 취할 수 있다. (예를 들어, N) 후속 메타데이터 값의 일반적인 약간의 변화로 인해서, 예를 들어, 5 비트만큼, 차이 값만을 인코딩하는 데 충분한 것으로 간주 될 수 있다. 따라서, 차이 값이 송신되는 경우에도, 송신된 비트의 수가 감소될 수 있다.
바람직한 실시예에서, 하나 이상의 차이 값은 송신되고, 하나 이상의 차이 값 각각은 메타데이터 샘플 각각보다 더 적은 비트들로 인코딩되고, 차이 값 각각은 정수 값이다.
실시예에 따라, 메타데이터 인코더(110)는 비트의 제 1 수를 가진 하나 이상의 압축된 메타데이터 신호들 중 하나의 메타데이터의 샘플 중 하나 이상을 인코딩하도록 구성되고, 하나 이상의 압축된 메타데이터 신호 중 상기 하나의 메타데이터 샘플의 상기 하나 이상 각각은 정수를 나타낸다. 더욱이, 메타데이터 인코더(110)는 비트의 제 2 수를 갖는 하나 이상의 차이 값을 인코딩하도록 구성되고, 상기 하나 이상의 차이 값 각각은 정수이고, 비트의 제 2 수는 비트의 제 1 수보다 작다.
예를 들어, 일 실시예에서, 메타데이터 샘플들이 8 비트들로 인코딩되는 방위각을 표현할 수 있다. 예를 들어, 방위각은 -90≤방위각≤90 사이의 정수일 수 있다. 그리하여, 방위각은 181개의 상이한 값들에서 취할 수 있다. 그러나, (예를 들어, N개의) 후속적인 방위각 샘플들이 단지 예컨대 ±15보다 많지 않게 상이하다고 가정할 수 있는 경우에, 5 비트(25=32)는 차이 값들을 인코딩하는데 충분할 수 있다. 차이 값들이 정수들로서 표현되는 경우에, 차이 값들의 결정은 자동적으로, 전송될, 추가 값들을 적절한 값 범위로 변환한다.
예를 들어, 제 1 오디오 객체의 제 1 방위각 값이 60°이고 후속 값이 45 °로부터 75 °까지 변화하는 경우를 고려해보자. 더욱이, 제 2 오디오 객체의 제 2 방위각 값이 -30°이고, 그 후속 값이 -45°로부터 -15°까지 변한다는 것을 고려해보자. 제 1 오디오 객체의 후속 값과 제 2 오디오 객체의 후속 값 모두에 대한 차이 값을 결정함으로써, 제 1 방위각 값 및 제 2 방위각 값의 차이 값은 -15°으로부터 +15°까지의 값 범위에 있어서, 5 비트는 차이 값 각각을 인코딩하기에 충분하고, 차이 값을 인코딩한 비트 시퀀스는, 제 1 방위각의 차이 값과 제 2 방위각 값의 차이 값에 대해 동일한 의미를 갖는다.
실시예에서, 메타데이터 샘플이 압축된 메타데이터 신호 내에 존재하지 않는 각각의 차이 값은 디코딩 측으로 송신된다. 또한, 실시예에 따르면, 메타데이터 샘플이 압축된 메타데이터 신호 내에 존재하지 않는 각 차이 값은 메타데이터 디코더에 의해 수신되고 처리된다. 하지만, 도 10 및 11에 도시된 바람직한 실시예들 몇몇은 상이한 개념을 실현한다.
도 10은 추가 실시예에 따른 메타데이터 인코딩을 도시한다. 실시예에 따른 메타데이터 인코더(210)는 도 10에 도시된 메타데이터 인코딩을 수행하도록 구성될 수 있다.
이전의 실시예 중 몇몇에서와 같이, 도 10에서, 차이 값은, 예를 들면, 압축된 메타데이터 신호에 의해 포함되지 않은 원본 메타데이터 신호의 각 메타데이터 샘플에 대해 결정된다. 예를 들어, 시간 인스턴트 n=0 및 시간 인스턴트 n=N에서의 메타데이터 샘플이 압축된 메타데이터 신호에 의해 포함되지만, 메타데이터 샘플이 시간 인스턴트 n=1 내지 n=N-1에 있을 때, 차이 값은 시간 인스턴트 n=1 내지 n=N-1에 대해 결정된다.
그러나, 도 10의 실시예에 따라, 다각형 근사화는 640에서 수행된다. 메타데이터 인코더(210)는, 어떤 차이 값이 송신될 것인지, 그리고 차이 값이 또한 송신될 것인지의 여부를 결정하도록 구성된다.
예를 들어, 메타데이터 인코더(210)는 임계 값보다 큰 차이 값을 갖는 그러한 차이 값만을 송신하도록 구성될 수 있다.
다른 실시예에서, 메타데이터 인코더(210)는, 대응하는 메타데이터에 대한 그러한 차이 값의 비율이 임계 값보다 클 때 그러한 차이 값만을 송신하도록 구성될 수 있다.
실시예에서, 메타데이터 인코더(210)는 ,이 차이 절대 값이 임계 값보다 큰지의 여부에 따라 가장 큰 차이 절대 값에 대해 검사한다. 이 차이 절대 값이 임계 값보다 큰 경우, 차이 값은 송신되고, 그렇지 않으면 차이 값은 송신되지 않고 검사는 종료한다. 모든 차이 값이 임계 값보다 작을 때까지, 검사는 제 2 가장 큰 차이 값, 제 3 가장 큰 값 등에 대해 계속된다.
모든 차이 값이 반드시 송신되지 않기 때문에, 실시예에 따르면, 메타데이터 인코더(210)는 차이 값 그 자체(도 10에서 값들 y1[k]...yn -1[k] 중 하나)(의 크기)를 인코딩할 뿐만 아니라, 차이 값이 관련되는 원본 메타데이터 신호의 메타데이터 샘플(도 10에서 값들 x1[k]...xn -1[k] 중 하나)의 정보를 송신한다. 예를 들어, 메타데이터 인코더(210)는 차이 값이 관련되는 시간의 인스턴트를 인코딩할 수 있다. 예를 들어, 메타데이터 인코더(210)는, 압축된 메타데이터 신호로 이미 송신된, 메타데이터 샘플들(0 및 N) 사이의 메타데이터 샘플, 차이 값이 관련되는 지를 나타내기 위해 1 내지 N-1의 값을 인코딩할 수 있다. 다각형 근사화의 출력의 값들(x1[k]...xn-1[k] y1[k]...yn - 1[k])을 기술하는 것은 모든 이들 값들이 송신된다는 것을 의미하지 않고, 그 대신 차이 값들에 따라 이들 값 쌍들의 어느 것도 송신되지 않거나, 하나, 또는 몇몇 또는 전부가 송신된다는 것을 의미한다.
실시예에서, 메타데이터 인코더(210)는 예를 들어, N 연속적인 차이 값의 세그먼트와, 양자화된 다각형 지점[xi, yi]의 가변 수에 의해 형성되는 다각형의 코스(course)에 의해 각각의 세그먼트에 근사화할 수 있다.
충분한 정밀도로 차이 신호를 근사화할 필요가 있는 다각형 지점들의 수가 N보다 평균적으로 상당히 더 작다는 것이 예상될 수 있다. 그리고 [xi, yi]이 작은 정수일 때, 비트의 낮은 수로 인코딩될 수 있다.
도 11은 추가 실시예에 따른 메타데이터 디코딩을 도시한다. 실시예에 따른 메타데이터 디코더(110)는 도 11에 도시된 메타데이터 디코딩을 구현하도록 구성 될 수 있다.
실시예에서, 메타데이터 디코더(110)는 약간의 차이 값을 수신하고 730에 대응하는 선형 보간 메타데이터 샘플에 이러한 차이 값을 추가한다.
일부 실시예에서, 메타데이터 디코더(110)는 730에서 대응하는 선형 보간 메타데이터 샘플에 수신된 차이 값을 추가하고, 차이 값이 수신되고 변경되지 않은 다른 선형 보간 메타데이터 샘플을 남긴다.
그러나 다른 개념을 실현하는 실시예가 이제 설명된다.
이러한 실시예에 따르면, 메타데이터 디코더(110)는 하나 이상의 압축된 메타데이터 신호의 압축된 메타데이터 신호에 대한 복수의 차이 값을 수신하도록 구성된다. 차이 값 각각은 "수신된 차이 값"으로 지칭될 수 있다. 수신된 차이 값은 수신된 차이 값이 관련되는 상기 압축된 메타데이터 신호(로부터 구성된)와 연관된 재구성된 메타데이터 신호의 근사화된 메타데이터 샘플 중 하나에 할당된다.
도 9에 대해 이미 설명된 바와 같이, 메타데이터 디코더(110)는 상기 수신된 차이 값과 연관되는 근사화된 메타데이터 샘플에 복수의 수신된 차이 값의 각 수신된 차이 값을 추가하도록 구성된다. 수신된 차이 값을 근사화된 메타데이터 샘플에 추가함으로써, 상기 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들의 하나가 얻어진다.
그러나, 몇몇(또는 때때로, 대부분)의 근사화된 메타데이터 샘플에 대해, 종종 차이 값은 수신되지 않는다.
몇몇 실시예에서, 메타데이터 디코더(110)는, 예를 들면, 복수의 수신된 값들이 상기 근사화된 메타데이터 샘플과 연관되지 않을 때, 상기 압축된 메타데이터 신호와 연관된 재구성된 메타데이터 신호의 복수의 근사화된 메타데이터 샘플의 각 근사화된 메타데이터 샘플에 대한 복수의 수신된 차이 값의 하나 이상에 따라 근사화된 차이 값을 결정하도록 구성될 수 있다.
즉, 차이 값이 수신되지 않은 모든 근사화된 메타데이터 샘플에 대해, 근사화된 차이 값은 수신된 차이 값 중 하나 이상에 따라 생성된다.
메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들 중 다른 하나를 획득하기 위해 상기 근사화된 차이 값의 근사화된 메타데이터 샘플에 복수의 근사화된 차이 값의 각 근사화된 차이 값을 추가하도록 구성된다.
그러나, 다른 실시예에서, 메타데이터 디코더(110)는 단계(740)에서 수신 된 그러한 차이 값에 따라 선형 보간을 수행하여, 차이 값이 수신되지 않은 그러한 메타데이터 샘플들에 대한 차이 값을 근사화한다.
예를 들어, 제 1 차이 값과 제 2 차이 값이 수신되면, 이러한 수신된 차이 값 사이에 위치된 차이 값은 예를 들어, 선형 보간을 이용하여 근사화될 수 있다.
예를 들어, 시간 인스턴트 n=15에서의 제 1 차이 값이 차이 값(d[15]=5)를 가질 때. 그리고 시간 인스턴트 n=18에서의 제 2 차이 값이 차이 값(d[18]=2)를 가질 때. n=16, 및 d=17에 대한 차이 값은 d[16] = 4 및 d[17]=3으로서 선형으로 근사화될 수 있다.
추가 실시예에서, 메타데이터 샘플이 압축된 메타데이터 신호에 의해 포함될 때, 상기 메타데이터 샘플의 차이 값은 0인 것으로 간주되고, 수신되지 않은 차이 값의 선형 보간은 제로인 것으로 간주되는 상기 메타데이터 샘플에 기초하여 메타데이터 디코더에 의해 수행될 수 있다.
예를 들어, 하나의 차이 값(d= 8)이 n=16에 대해 송신될 때, 그리고 n=0 및 n=32에 대해, 메타데이터 샘플이 압축된 메타데이터 신호로 송신될 때, n=0 및 n=32에서의 송신되지 않은 차이 값은 0인 것으로 간주된다.
n은 시간을 표시하고, d[n]를 시간 인스턴트(n)에서의 차이 값으로 두자. 이 때:
d[16] = (8) (수신된 차이 값)
d[0] = 0(z(k)에 메타데이터 샘플이 존재할 때 차이 값으로 간주됨)
d[32] = 0(z(k)에 메타데이터 샘플이 존재할 때 차이 값으로 간주됨)
근사화된 차이 값 :
d[1] = 0.5; d[2] = 1; d[3]=1.5; d[4] = 2; d[5] = 2.5; d[6] = 3; d[7] = 3.5; d[8] = 4;
d[9] = 4.5; d[10] = 5; d[11]= 5.5; d[12] = 6; d[13] = 6.5; d[14] = 7; d[15] = 7.5;
d[17] = 7.5; d[18] = 7; d[19] = 6.5; d[20] = 6; d[21] = 5.5; d[22] = 5; d[23] = 4.5; d[24] = 4;
d[25]= 3.5; d[26] = 3; d[27] = 2.5; d[28] = 2; d[29]= 1.5; d[30] = 1; d[31] = 0.5.
실시예에서, 수신된 및 근사화된 차이 값은 (730에서) 대응하는 선형 보간된 샘플들에 추가된다.
다음에서, 바람직한 실시예들이 설명된다.
(객체) 메타데이터 인코더는 예를 들어, 주어진 크기(N)의 룩-어헤드(look-ahead) 버퍼를 이용하여 규칙적으로 (서브)샘플링된 시퀀스를 결합하여 인코딩될 수 있다. 이 버퍼가 충진되자마자, 전체 데이터 블록은 인코딩되고 송신된다. 인코딩된 객체 데이터는 2 부분으로 구성될 수 있고, 인트라코딩된 객체 데이터, 및 선택적으로 각 세그먼트의 미세 구조를 포함하는 차동 데이터 부분.
인트라코딩된 객체 데이터는 규칙적인 격자(예를 들어, 길이 1024의 매 32 오디오 프레임) 상에 샘플링되는 양자화 값(z(k))을 포함한다. 부울 변수는, 값이 각 객체에 대해 개별적으로 지정되거나, 값이 모든 객체들에 공통적으로 따른다는 것을 나타내는데 사용될 수 있다.
디코더는 선형 보간에 의해 인트라코딩된 객체 데이터로부터 거친 궤적을 도출하도록 구성될 수 있다. 궤적의 미세 구조는, 입력 궤적과 선형 보간 사이의 인코딩된 차이를 포함하는 차동 데이터 부분에 의해 주어진다. 방위각, 앙각, 반경 및 이득 값에 대한 상이한 양자화 단계들과 조합하여 다각형 표현은 원하는 부적절함 감소를 초래한다.
다각형 표현은, 회귀를 이용하지 않고 추가 중단 선정에 의해 원본 접근법과 상이한 라머-더글라스-푀커 알고리즘[10, 11]의 변형, 즉 모든 객체들 및 모든 객체 성분들에 대한 다각형 지점들의 최대치로부터 얻어질 수 있다.
결과적인 다각형 지점들은 비트 스트림 내에 지정되는 가변 워드 길이를 이용하여 차동 데이터 부분에서 인코딩될 수 있다. 추가 부울 변수들은 동일한 값의 공통 인코딩을 나타낸다.
다음에서, 실시예에 따른 객체 메타데이터 프레임 및 실시예에 따른 심볼 표현이 기재된다.
효율성의 이유로, 주기적으로 (서브)샘플링된 궤적 값들의 시퀀스가 결합하여 인코딩된다. 인코더는 주어진 크기의 룩-어헤드 버퍼를 이용할 수 있고, 이러한 버퍼가 충진되자마자, 전체 데이터 버퍼가 인코딩되고 송신된다. 이러한 인코딩된 객체 데이터(예를 들어, 객체 메타데이터에 대한 페이로드)는 예를 들어, 2개의 부분, 즉 인트라코딩된 객체 데이터(제 1 부분) 및 선택적으로 차동 데이터 부분(제 2 부분)을 포함할 수 있다.
다음 구문의 일부 또는 모든 부분은, 예를 들어, 이용될 수 있다:
Figure 112016017512995-pct00006
다음에서, 일 실시예에 따른 인트라코딩된 객체 데이터가 설명된다:
인코딩된 객체 메타데이터의 랜덤 액세스를 지원하기 위하여, 모든 객체 메타데이터의 완전하고 자기-포함된(self-contained) 규격(specification)이 규칙적으로 전송될 필요가 있다. 이것은 규칙적 그리드(예를 들어, 길이 1024의 매 32개 프레임들)로 샘플링되는 양자화된 값들을 포함하는 인트라코딩된 객체 데이터("I-프레임들")를 통해 실현된다. 이러한 I-프레임들은 다음의 구문을 가질 수 있고, 여기서 position_azimuth, position_elevation, position_radius, 및 gain_factor는 현재의 I-프레임 이후의 iframe_period 프레임들에서 양자화된 값들을 규정한다:
Figure 112016017512995-pct00007
Figure 112016017512995-pct00008
다음에서, 실시예에 따른 차동 객체 데이터가 기재된다.
더 큰 정밀도를 갖는 근사화는 감소된 수의 샘플링 지점에 기초하여 다각형 코스를 송신함으로써 달성된다. 그 결과, 매우 산재된 3-차원 매트릭스가 송신될 수 있고, 여기서 제 1 차원은 객체 인덱스일 수 있고, 제 2 차원은 메타데이터 성분들(방위각, 앙각, 반경 및 이득)에 의해 형성될 수 있고, 제 3 차원은 다각형 샘플링 지점들의 프레임 인덱스일 수 있다. 추가 조치 없이, 매트릭스의 요소가 값을 포함하는 표시는 미리 num _object * num _components * (ifram _period-1) 비트를 요구한다. 이러한 양의 비트를 감소시키는 제 1 단계는, 4개의 성분 중 하나에 속하는 적어도 하나의 값인지의 여부를 나타내는 4개의 플래그들을 추가할 수 있다. 예를 들어, 드문 경우들에서만, 차동 반경 또는 이득 값이 있다는 것이 예상될 수 있다. 감소된 3-차원 매트릭스의 제 3 치수는 iframe_period-1 요소를 갖는 벡터를 포함한다. 매우 작은 수의 다각형 지점들이 예상되면, 프레임 인덱스들의 세트 및 이러한 세트의 농도에 의해 이러한 벡터를 파라미터화하는 것이 더 효율적일 수 있다. 예를 들어, Nperiod=32 프레임의 ifram _period, 16 다각형 지점의 최대 수에 대해, 이 방법은 Npoints < (32-log2(16))/log2(32) = 56 다각형 지점들에 대해 선호가능할 수 있다. 실시예에 따라, 그러한 코딩 방식에 대한 다음의 구문이 이용된다:
Figure 112016017512995-pct00009
Figure 112016017512995-pct00010
Figure 112016017512995-pct00011
매크로 offset _ data()는 심플 비트필드로서 또는 전술한 개념들을 이용하여 다각형 지점들의 위치들(프레임 오프셋들)을 인코딩한다. num _ bits 값들은 큰 위치적 도약들을 허용하는 한편, 차동 데이터의 나머지는 더 작은 워드 크기로 인코딩된다.
특히, 실시예에서, 상기 매트로들은 예를 들어 다음의 의미를 가질 수 있다:
실시예에 따른 object_data() 페이로드들의 정의:
has _ differential _ metadata는 차동 객체 메타데이터가 존재하는 지의 여부를 나타냄
실시예에 따른 intracoded _object_ metadata () 페이로드들의 정의:
ifperiod는 독립적인 프레임들 사이에서의 프레임들의 수를 정의함
common_azimuth는 공통 방위각 각이 모든 개체에 사용되는 지의 여부를 나타냄
default_azimuth는 공통 방위각의 값을 정의함
position_azimuth은 공통 방위각 값이 없는 경우, 각 객체에 대한 값이 송신됨
common_elevation은 공통 앙각 값이 각 모든 객체에 대해 사용되는지 여부를 나타냄
default _ elevation은 공통 앙각의 값을 정의함
position _ elevation은 공통 앙각 값이 없는 경우에 각 객체에 대한 값이 송신됨
common _ radius은 공통 반경 값이 모든 객체에 대해 사용되는 지의 여부를 나타냄
default_radius는 공통 반경의 값을 정의함
position_radius는 공통 반경 값이 없는 경우, 각 객체에 대한 값이 송신됨
common_gain은 일반적인 이득 값이 모든 객체에 대해 사용되는 지의 여부를 나타냄
default_gain은 공통 이득 인자의 값을 정의함
gain_factor 공통 이득 값이 없는 경우, 각 객체에 대한 값이 송신됨
position_ azimuth 단지 하나의 객체가 존재하는 경우, 이것은 방위각임
position_ elevation 단지 하나의 객체가 존재하는 경우, 이것은 앙각임
position_ radius 단지 하나의 객체가 존재하는 경우, 이것은 반경임
gain_factor 단지 하나의 객체가 존재하는 경우 이것은 이득 인자임
실시예에 따른 differential _ object _ metadata () 페이로드들의 정의:
bits_per_ point 다각형 지점들의 수를 나타내는데 요구된 비트의 수
fixed_azimuth 방위각이 모든 객체에 대해 고정되는 지의 여부를 나타내는 플래그
flag_azimuth 방위각 값이 변하는 지의 여부를 나타내는 객체당 플래그
nbits _azimuth 차동 값을 표현하는데 얼마난 많은 비트가 요구되는 지
differential_ azimuth 선형 보간된 및 실제 값 사이의 차이의 값
fixed_elevation 앙각 값이 모든 객체에 대해 고정되는 지의 여부를 나타내는 플래그
flag_elevation 앙가 값이 변하는 지의 여부를 나타내는 객체당 플래그
nbits _elevation 차동 값을 표현하는데 얼마나 많은 비트가 요구되는 지
differential_elevation 선형 보간된 및 실제 값 사이의 차이의 값
fixed_radius 반경이 모든 객체에 대해 고정되는 지의 여부를 나타내는 플래그
flag_radius 반경이 변하는 지의 여부를 나타내는 객체당 플래그
nbits _radius 차동 값을 표현하는데 얼마나 많은 비트가 요구되는 지
differential_radius 선형 보간된 및 실제 값 사이의 차이의 값
fixed_gain 이득 인자가 모든 객체에 대해 고정되는 지의 여부를 나타내는 플래그
flag_gain 이득 반경이 변하는 지의 여부를 나타내는 플래그
nbits _gain 차동 값을 표현하는데 얼마나 많은 비트가 요구되는 지
differential_gain 선형 보간된 및 실제 값 사이의 차이의 값
실시예에 따른 offset_data() 페이로드들의 정의:
bitfield _syntax 다각형 인덱스들을 갖는 벡터가 비트 스트림에 존재하는 지의 여부를 나타내는 플래그
offset_ bitfield 다각형 지점이 있는 지의 여부에 따라 iframe_period의 각 지점에 대한 플래그를 포함하는 부울 어레이
npoints 다각형 지점들의 수에서 1을 뺀 값(num_points = npoints + 1)
foffset iframe_period(frame_offset = foffset+1) 내의 다각형 지점들의 시간 슬라이스 인덱스
일 실시예에 따르면, 메타데이터는 예컨대 정의된 타임스탬프들에서 (예를 들어, 방위각, 앙각 및 반경에 의해 표시되는) 주어진 위치들로서 매 오디오 객체에 대하여 전달될 수 있다.
종래 기술에서, 낮은 비트율에서 허용가능한 오디오 품질이 얻어지도록 한 편으로 채널 코딩과 다른 한 편으로 객체 코딩을 조합하는 융통성있는 기술은 존재하지 않는다.
이러한 제한은 3D 오디오 코덱 시스템에 의해 극복된다. 이제, 3D 오디오 코덱 시스템이 설명된다.
도 12는 본 발명의 실시예에 따른 3D 오디오 인코더를 도시한다. 3D 오디오 인코더는 오디오 출력 데이터(501)를 얻기 위해 오디오 입력 데이터(101)를 인코딩하기 위해 구성된다. 3D 오디오 인코더는 CH에 의해 표시된 복수의 오디오 채널 및 OBJ로 표시된 복수의 오디오 객체를 수신하기 위한 입력 인터페이스를 포함한다. 또한, 도 12에 도시된 바와 같이, 입력 인터페이스 (1100)는 하나 이상의 복수의 오디오 객체(OBJ)에 관련된 메타데이터를 추가적으로 수신한다. 또한, 3D 오디오 인코더는 복수의 사전-믹싱된 채널들을 얻기 위해 복수의 객체들과 복수의 채널들을 믹싱하기 위한 믹서(200)를 포함하고, 각 사전-믹싱된 채널은 채널의 오디오 데이터 및 적어도 하나의 객체의 오디오 데이터를 포함한다.
또한, 3D 오디오 인코더는 코어 인코더 입력 데이터를 코어 인코딩하기 위한 코어 인코더(300), 하나 이상의 복수의 오디오 객체에 관련된 메타데이터를 압축하기 위한 메타데이터 압축기(400)를 포함한다.
또한, 3D 오디오 인코더는 여러 동작 모드들 중 하나에서 믹서를 제어하기 위한 모드 제어기(600), 코어 인코더 및/또는 출력 인터페이스(500)를 포함할 수 있고, 제 1 모드에서, 코어 인코더는 믹서에 의한 어떠한 상호 작용 없이, 즉 믹서(200)에 의한 어떠한 믹싱 없이 입력 인터페이스(1100)에 의해 수신된 복수의 오디오 객체들 및 복수의 오디오 채널들을 인코딩하도록 구성된다. 하지만, 믹서(200)가 활성화된 제 2 모드에서, 코어 인코더는 복수의 믹싱된 채널들, 즉 블록(200)에 의해 생성된 출력을 인코딩한다. 이러한 후자의 경우에, 어떠한 객체 데이터도 더 이상 인코딩하지 않는 것이 바람직하다. 그 대신, 오디오 객체들의 위치들을 나타내는 메타데이터는 메타데이터에 의해 표시된 채널들 상에 객체들을 렌더링하기 위해 믹서(200)에 의해 이미 사용된다. 즉, 믹서(200)는 오디오 객체들을 사전 렌더링하기 위해 복수의 오디오 객체들에 관련돤 메타데이터를 이용하고, 사전-렌더링된 오디오 객체들은 믹서의 출력에서 믹싱된 채널들을 얻기 위해 채널들과 믹싱된다. 이 실시예에서, 임의의 객체들은 송신될 필요가 없을 수 있고, 이것은 또한 블록(400)에 의한 출력으로서 압축된 메타데이터에 적용된다. 하지만, 인터페이스(1100)에 입력된 모든 객체들이 믹싱되는 것은 아니고, 특정 양의 객체들이 믹싱되면, 그럼에도 불구하고 나머지 비-믹싱된 객체들 및 연관된 메타데이터만이 각각 코어 인코더(300) 또는 메타데이터 압축기(400)에 송신된다.
도 12에서, 메타데이터 압축기(400)는 전술한 실시예 중 하나에 따라 인코딩된 오디오 정보를 생성하기 위한 장치(250)의 메타데이터 인코더(210)이다. 또한, 도 12에서, 믹서(200) 및 코어 인코더(300)는 전술한 실시예 중 하나에 따라 인코딩된 오디오 정보를 생성하기 위한 장치(250)의 오디오 인코더(220)를 함께 형성한다.
도 14는 추가적으로, SAOC 인코더(800)를 포함하는 3D 오디오 인코더의 추가 실시예를 도시한다. SAOC 인코더(800)는 공간 오디오 객체 인코더 입력 데이터로부터 하나 이상의 전송 채널들과 파라메트릭 데이터를 생성하기 위해 구성된다. 도 14에 도시된 바와 같이. 공간 오디오 객체 인코더 입력 데이터는 사전-렌더러/믹서에 의해 처리되지 않은 객체이다. 대안적으로, 사전-렌더러/믹서가, 개별 채널/객체 코딩이 활성화된 모드 1로서 우회된다고 가정하면, 입력 인터페이스(1100)에 입력된 모든 객체는 SAOC 인코더(800)에 의해 인코딩된다.또한, 도 14에 도시된 바와 같이, 코어 인코더(300)는 USAC 인코더, 즉 MPEG-USAC 표준(USAC = 통합 음성 및 오디오 코딩)에서 정의되고 표준화된 인코더로서 바람직하게 구현된다. 도 14에 도시된 전체 3D 오디오 인코더의 출력은 개별적인 데이터 유형에 대한 컨테이너-형 구조를 갖는 MPEG 4 데이터 스트림이다. 또한, 메타데이터는 "OAM" 데이터로서 표시되고, 도 12에서의 메타데이터 압축기(400)는 QAM 인코더(400)에 대응하여, USAC 인코더(300)에 입력되는 압축된 OAM 데이터를 얻고, USAC 인코더(300)는 도 14에서 알 수 있듯이, 인코딩된 채널/객체 데이터를 가질 뿐 아니라 압축된 OAM 데이터를 갖는 MP4 출력 데이터 스트림을 얻기 위해 출력 인터페이스를 추가적으로 포함한다.
도 14에서, OAM 인코더(400)는 전술한 실시예 중 하나에 따라 인코딩된 오디오 정보를 생성하기 위한 장치(250)의 메타데이터 인코더(210)이다. 또한, 도 14에서, SAOC 인코더(800) 및 USAC 인코더(300)는 전술한 실시예 중 하나에 따라 인코딩된 오디오 정보를 생성하기 위한 장치(250)의 오디오 인코더(220)를 함께 형성한다.
도 16은 3D 오디오 인코더의 추가 실시예를 도시하고, 여기서 도 14와 대조적으로, SAOC 인코더는 SAOC 인코딩 알고리즘을 가지고, 이 모드에서 활성화되지 않는 사전-렌더러/믹서(200)에 제공된 채널들을 인코딩하고, 또는 대안적으로 사전-렌더링된 채널들에 객체들을 더한 것을 SAOC 인코딩하도록 구성될 수 있다. 따라서, 도 16에서. SAOC 인코더(800)는 상이한 3개의 유형의 입력 데이터, 즉 어떠한 사전-렌더링된 객체들을 갖지 않은 채널들, 사전-렌더링된 객체들을 갖는 채널들 또는 객체들 단독으로 동작할 수 있다. 또한, 처리를 위해 SAOC 인코더(800)가 디코더 측에서 동일한 데이터, 즉, 원본 OAM 데이터가 아니라 손실 압축에 의해 얻어진 데이터를 이용하도록 도 16에서 추가 OAM 디코더(420)를 제공하는 것이 바람직하다.
도 16에서, 3D 오디오 인코더는 여러 개별 모드에서 동작할 수 있다.도 12의 정황에서 논의된 바와 같이 제 1 및 제 2 모드뿐 외에도, 도 16의 3D 오디오 인코더는, 사전-렌더러/믹서(200)가 활성화되지 않을 때 코어 인코더가 개별 객체들로부터 하나 이상의 전송 채널들을 생성하는 제 3 모드로 추가적으로 동작할 수 있다. 대안적으로 또는 추가적으로, 이러한 제 3 모드에서, SAOC 인코더(800)는 즉, 다시 도 12의 믹서(200)에 대응하는 사전-렌더러/믹서(200)가 활성화되지 않을 때 원본 채널로부터 하나 이상의 대안적인 또는 추가적인 전송 채널을 생성할 수 있다.
마지막으로, SAOC 인코더(800)는, 3D 오디오 인코더가 제 4 모드로 구성될 때, 사전-렌더러/믹서에 의해 생성된 채널에 사전-렌더링된 객체들을 더한 것을 인코딩할 수 있다. 따라서, 제 4 모드에서, 가장 낮은 비트율 응용들은, 채널들 및 객체들이 "SAOC-SI"로서 도 3 및 도 5에 표시된 바와 같이 개별적인 SAOC 전송 채널들 및 연관된 부가 정보로 완전히 변환되었고, 추가적으로 이러한 제 4 모드에서 어떠한 압축된 메타데이터도 송신될 필요가 없다는 점으로 인해 양호한 품질을 제공할 것이다.
도 16에서, OAM 인코더(400)는 전술한 실시예 중 하나에 따라 인코딩된 오디오 정보를 생성하기 위한 장치(250)의 메타데이터 인코더(210)이다. 또한, 도 16에서, SAOC 인코더(800) 및 USAC 인코더(300)는 전술한 실시예 중 하나에 따라 인코딩된 오디오 정보를 생성하기 위한 장치(250)의 오디오 인코더(220)를 함께 형성한다.
실시예에 따라, 오디오 출력 데이터(501)를 얻기 위해 오디오 입력 데이터(101)를 인코딩하기 위한 장치가 제공된다. 오디오 입력 데이터(101)를 인코딩하기 위한 장치는:
- 복수의 오디오 채널들, 복수의 오디오 객체들, 및 복수의 오디오 객체들 중 하나 이상에 관련된 메타데이터를 수신하기 위한 입력 인터페이스(1100),
- 복수의 사전-믹싱된 채널들을 얻기 위해 복수의 객체들 및 복수의 채널들을 믹싱하기 위한 믹서(200)로서, 각 사전-믹싱된 채널은 채널의 오디오 데이터 및 적어도 하나의 객체의 오디오 데이터를 포함하는, 믹서(200), 및
- 전술한 바와 같이 메타데이터 인코더 및 오디오 인코더를 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치(250)를 포함한다.
인코딩된 오디오 정보를 생성하기 위한 장치(250)의 오디오 인코더(220)는 코어 인코더 입력 데이터를 코어 인코딩하기 위한 코어 인코더(300)이다.
인코딩된 오디오 정보를 생성하기 위한 장치(250)의 메타데이터 인코더 (210)는 하나 이상의 복수의 오디오 객체에 관련된 메타데이터를 압축하기 위한 메타데이터 압축기(400)이다.
도 13은 본 발명의 실시예에 따른 3D 오디오 디코더를 도시한다. 3D 오디오 디코더는 입력으로서, 인코딩된 오디오 데이터, 즉, 도 12의 데이터(501)를 수신한다.
3D 오디오 디코더는 메타데이터 압축 해제기(1400), 코어 디코더(1300), 객체 프로세서(1200), 모드 제어기(1600) 및 후치 프로세서(1700)를 포함한다.
특히, 3D 오디오 디코더는 인코딩된 오디오 데이터를 디코딩하기 위해 구성되고, 입력 인터페이스는 인코딩된 오디오 데이터를 수신하기 위해 구성되고, 인코딩된 오디오 데이터는 복수의 인코딩된 채널 및 복수의 인코딩된 객체들 및 복수의 객체들에 관련된 압축된 메타데이터를 특정 모드에서 수신하기 위해 구성된다.
또한, 코어 디코더(1300)는 복수의 인코딩된 채널들 및 복수의 인코딩된 객체들을 디코딩하기 위해 구성되고, 추가적으로, 메타데이터 압축 해제기는 압축된 메타데이터를 압축 해제하기 위해 구성된다.
또한, 객체 프로세서(1200)는 객체 데이터 및 디코딩된 채널들을 포함하는 미리 결정된 수의 출력 채널들을 얻기 위해 압축 해제된 메타데이터를 이용하여 코어 디코더(1300)에 의해 생성된 복수의 디코딩된 객체들을 처리하기 위해 구성된다. 1205로 표시된 이들 출력 채널들은 후치 프로세서(1700)에 입력된다. 후치 프로세서(1700)는 다수의 출력 채널들(1205)을, 5.1, 7.1 등의 출력 포맷과 같은 스피커 출력 포맷 또는 입체 음향 출력 포맷일 수 있는 특정 출력 포맷으로 변환하기 위해 구성된다.바람직하게는, 3D 오디오 디코더는 모드 표시를 검출하기 위해 인코딩된 데이터를 분석하기 위해 구성되는 모드 제어기(1600)를 포함한다. 그러므로, 모드 제어기(1600)는 도 13에서의 입력 인터페이스(1100)에 연결된다. 그러나, 대안적으로, 모드 제어기가 약;d[ 반드시 있을 필요는 없다. 그 대신에, 융통성있는 오디오 디코더는 사용자 입력 또는 임의의 다른 제어와 같은 임의의 다른 유형의 제어 데이터에 의해 사전 설정될 수 있다. 도 13에서의 3D 오디오 디코더. 및 바람직하게 모드 제어기(1600)에 의해 제어된 3D 오디오 디코더는 객체 프로세서를 우회하고 복수의 디코딩된 채널들을 후치 프로세서(1700)에 공급하도록 구성된다. 이것은, 즉 모드 2가 도 12의 3D 오디오 인코더에 적용될 때, 사전-렌더링된 채널들이 수신되는 모드 2에서의 동작이다. 대안적으로, 모드 1이 3D 오디오 인코더에 적용될 때, 즉 3D 오디오 인코더가 개별적인 채널/객체 코딩을 수행할 때, 객체 프로세서(1200)는 우회하지 않고, 복수의 디코딩된 채널들 및 복수의 디코딩된 객체들은 메타데이터 압축 해제기(1400)에 의해 생성된 압축 해제된 메타데이터와 함께 객체 프로세서(1200)에 공급된다.
바람직하게, 모드 1 또는 모드 2가 적용되는 지의 여부의 표시는 인코딩된 오디오 데이터에 포함되고, 모드 제어기(1600)는 모드 표시를 검출하기 위해 인코딩된 데이터를 분석한다. 모드 1은, 모드 표시가 인코딩된 오디오 데이터가 인코딩된 채널들 및 인코딩된 객체들을 포함한다는 것을 표시할 때 사용되고, 모드 2는, 모드 표시가 인코딩된 오디오 데이터가 어떠한 오디오 객체들도 포함하지 않는다는 것, 즉 도 12의 3D 오디오 인코더의 모드 2에 의해 얻어진 사전-렌더링된 채널들만을 포함한다는 것을 나타낼 때 적용된다.
도 13에서, 메타데이터 압축 해제기(1400)는 전술한 실시예 중 어느 하나에 따라 하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 메타데이터 디코더(110)이다. 또한, 도 13에서, 코어 디코더(1300), 객체 프로세서(1200) 및 후치 프로세서(1700)는 상술한 실시예 중 하나에 따라 하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 오디오 디코더(120)를 함께 형성한다.
도 15는 도 13의 3D 디코더와 비교된 바람직한 실시예를 도시하고, 도 15의 실시예는 도 14의 3D 오디오 인코더에 대응한다. 도 13의 3D 오디오 디코더 구현에 더하여, 도 15에서의 3D 오디오 디코더는 SAOC 디코더(1800)를 포함한다. 더욱이, 도 13의 객체 프로세서(1200)는 별개의 객체 렌더러(1210) 및 믹서(1220)로서 구현되는 한편, 모드에 따라, 객체 렌더러(1210)의 기능은 SAOC 디코더(1800)에 의해 또한 구현될 수 있다.
또한, 후치 프로세서(1700)는 입체 음향 렌더러(1710) 또는 포맷 변환기(1720)로서 구현된다. 대안적으로, 도 13의 데이터(1205)의 직접 출력은 또한 1730에 의해 도시된 바와 같이 구현될 수 있다. 따라서, 유연성을 갖고 더 작은 포맷이 요구되는 경우 후치-처리하기 위해 22.2 또는 32와 같은 가장 높은 수의 채널들 상에서 디코더에서의 처리를 수행하는 것이 바람직하다. 하지만, 5.1 포맷과 같은 작은 포맷만이 요구된다는 것이 바로 도입부로부터 명백하게 될 때, SAOC 디코더 및/또는 USAC 디코더를 통한 특정 제어가 불필요한 업믹싱 동작들 및 후속 다운믹싱 동작들을 피하기 위해 적용될 수 있다는 것이 숏컷(1727)에 의해 도 13 또는 도 6에 의해 표시된 바와 같이 바람직하다.
본 발명의 바람직한 실시예에서, 객체 프로세서(1200)는 SAOC 디코더(1800)를 포함하고, SAOC 디코더는 코어 디코더에 의해 출력된 하나 이상의 전송 채널들 및 연관된 파라메트릭 데이터를 디코딩하기 위해, 그리고 복수의 렌더링된 오디오 객체들을 얻기 위해 압축 해제된 메타데이터를 이용하기 위해 구성된다. 이 때문에, OAM 출력은 박스(1800)에 연결된다.
또한, 객체 프로세서(1200)는 코어 디코더에 의해 출력된 디코딩된 객체들을 렌더링하도록 구성되고, 이러한 디코딩된 객체들은 SAOC 전송 채널에서 인코딩되지 않고 객체 렌더러(1210)로 표시된 바와 같이 일반적으로 단일 채널링된 요소들에서 개별적으로 인코딩된다. 더욱이, 디코더는 믹서의 출력을 스피커들에 출력하기 위해 출력(1730)에 대응하는 출력 인터페이스를 포함한다.
추가 실시예에서, 객체 프로세서(1200)는 인코딩된 오디오 신호 또는 인코딩된 오디오 채널을 표현하는 하나 이상의 전송 채널들 및 연관된 파라메트릭 부가 정보를 디코딩하기 위한 공간 오디오 객체 코딩 디코더(1800)를 포함하고, 공간 오디오 객체 코딩 디코더는 연관된 파라메트릭 정보 및 압축 해제된 메타데이터를, 예를 들어, SAOC의 더 이른 버전에 정의된 것과 같이 출력 포맷을 직접 렌더링하기 위해 사용가능한 트랜스코딩된 파라메트릭 부가 정보로 트랜스코딩하도록 구성된다. 후치 프로세서(1700)는 디코딩된 전송 채널들 및 트랜스코딩된 파라메트릭 부가 정보를 이용하여 출력 포맷의 오디오 채널들을 계산하기 위해 구성된다. 후치 프로세서에 의해 수행되는 처리는 MPEG 서라운드 처리와 유사할 수 있거나 또는 BCC 처리 등과 같은 임의의 다른 처리일 수 있다.
추가 실시예에서, 객체 프로세서(1200)는 디코딩된(코어 디코더에 의해) 전송 채널들 및 파라메트릭 부가 정보를 이용하여 출력 포맷에 대한 채널 신호들을 직접 업믹싱 및 렌더링하도록 구성된 공간 오디오 객체 코딩 디코더(1800)를 포함한다.
더욱이, 그리고 중요하게, 도 13의 객체 프로세서(1200)는. 채널들로 믹싱된 사전-렌더링된 객체들이 존재할 때, 즉 도 12의 믹서(200)가 활성화될 때 USAC 디코더(1300)에 의해 출력된 데이터를 입력으로서 직접 수신하는 믹서(1220)를 추가적으로 포함한다. 추가적으로, 믹서(1220)는 SAOC 디코딩 없이 객체 렌더링을 수행하는 객체 렌더러로부터 데이터를 수신한다. 더욱이, 믹서는 SAOC 디코더 출력 데이터, 즉 SAOC 렌더링된 객체들을 수신한다.
믹서(1220)는 출력 인터페이스(1730), 입체 음향 렌더러(1710). 및 포맷 변환기(1720)에 연결된다. 입체 음향 렌더러(1710)는 헤드 관련 전달 함수들 또는 입체 음향 룸 임펄스 응답(BRIR)을 사용하여 출력 채널들을 두 개의 입체 음향 채널로 렌더링하기 위해 구성된다. 포맷 변환기(1720)는 출력 채널들을 믹서의 출력 채널(1205)보다 낮은 수의 채널들을 갖는 출력 포맷으로 변환하기 위해 구성되고, 포맷 변환기(1720)는 5.1 스피커들 등과 같은 재생 레이아웃에 관한 정보를 요구한다.
도 15에서, OAM 디코더(1400)는 전술한 실시예의 하나에 따라 하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 메타데이터 디코더(110)이다. 또한, 도 15에서, 객체 렌더러(1210), USAC 디코더(1300) 및 믹서(1220)는 전술한 실시예의 하나에 따라 하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 오디오 디코더(120)를 함께 형성한다.
도 17의 3D 오디오 디코더는, SAOC 디코더가 렌더링된 객체들을 생성할 수 없지만 렌더링된 채널들을 생성할 수 있다는 점에서 도 17의 3D 오디오 디코더와 상이하고, 이것은 도 16의 3D 오디오 인코더가 사용되었고 채널들/사전-렌더링된 객체들과 SAOC 인코더(800) 입력 인터페이스 사이의 연결(900)이 활성화될 때 그러하다.
또한, 벡터 기반 진폭 패닝(VBAP) 스테이지(1810)가 구성되고, SAOC 디코더로부터 재생 레이아웃에 관한 정보를 수하고, 렌더링 매트릭스를 SAOC 디코더에 출력하여, SAOC 디코더는 결국, 1205의 높은 채널 포맷, 즉 32 스피커에서 믹서의 어떠한 추가 동작 없이 렌더링된 채널들을 제공할 수 있다.
VBAP 블록은 바람직하게 렌더링 매트릭스를 도출하도록 디코딩된 OAM 데이터를 수신한다. 더 일반적으로, 바람직하게는 재생 레이아웃뿐만 아니라, 입력 신호가 재생 레이아웃 상에서 렌더링되어야 하는 위치의 기하학적 정보를 요구한다. 이 기하학적 입력 데이터는 SAOC를 이용하여 송신된 채널들에 대한 객체들 또는 채널 위치 정보에 대한 OAM 데이터일 수 있다.
하지만, 단지 특정 출력 인터페이스가 요구되면, VBAP 상태(1810)는 예컨대, 5.1 출력에 대한 요구된 랜더링 매트릭스를 미리 제공할 수 있다. SAOC 디코더(1800) SAOC 전송 채널, 연관된 파라 메트릭 데이터와 압축 해제된 메타데이터로부터 직접 렌더링을 수행하고, 믹서(1220)의 어떠한 상호 작용 없이 요구된 출력 포맷으로의 직접 렌더링을 수행한다. 하지만, 모드들 사이의 특정 믹스가 적용될 때, 즉 여러 채널들이 SAOC 인코딩되지만 모든 채널들이 SAOC 인코딩되지 않은 경우, 또는 여러 객체들이 SAOC 인코딩되지만 모든 객체들이 SAOC 인코딩되지 않은 경우, 또는 채널들을 갖는 사전-렌더링된 객체들의 특정 양이 SAOC 디코딩되고 나머지 채널들이 SAOC 처리되지 않을 때, 믹서는 개별적인 입력 부분들로부터, 즉 코어 디코더(1300)로부터 직접, 객체 렌더러(1210) 및 SAOC 디코더(1800)로부터 직접 데이터를 수집할 것이다.
도 17에서, OAM 디코더(1400)는 전술한 실시예의 하나에 따라 하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 메타데이터 디코더(110)이다. 또한, 도 17에서, 객체 렌더러(1210), USAC 디코더(1300), 및 믹서(1220)는 전술한 실시예의 하나에 따라 하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 오디오 디코더(120)를 함께 형성한다.
인코딩된 오디오 데이터를 디코딩하기 위한 장치가 제공된다. 인코딩된 오디오 데이터를 디코딩하기 위한 장치는
- 인코딩된 오디오 데이터를 수신하기 위한 입력 인터페이스(1100)로서, 인코딩된 오디오 데이터는 복수의 인코딩된 채널들 또는 복수의 인코딩된 객체들 또는 복수의 객체들에 관련된 압축 메타데이터를 포함하는, 입력 인터페이스(1100), 및
- 전술한 바와 같이 하나 이상의 오디오 채널들을 생성하기 위한 오디오 채널 생성기(120) 및 메타데이터 디코더(110)를 포함하는 장치(100)를
포함한다.
하나 생성 이상의 오디오 채널을 생성하기 위한 장치(100)의 메타데이터 디코더(110)는 압축된 메타데이터를 압축 해제하기 위한 메타데이터 압축 해제기(400)이다.
하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 오디오 채널 생성기(120)는 복수의 인코딩된 채널들 및 복수의 인코딩된 객체들을 디코딩하기 위한 코어 디코더(1300)를 포함한다.
또한, 오디오 채널 생성기(120)는 객체들로부터의 오디오 데이터 및 디코딩된 채널들을 포함하는 다수의 출력 채널들(1205)을 얻기 위해 압축 해제된 메타데이터를 이용하여 복수의 디코딩된 객체들을 처리하기 위한 객체 프로세서(1200)를 더 포함한다.
또한, 오디오 채널 생성기(120)는 다수의 출력 채널들(1205)을 출력 포맷으로 변환하기 위한 후치 프로세서(1700)를 포함한다.
몇몇 양상들이 장치의 정황에서 기재되었지만, 이들 양상들이 또한 대응하는 방법의 설명을 나타내고, 여기서 블록 또는 디바이스가 방법 단계 또는 방법 단계의 특징에 대응한다는 것이 명확하다. 유사하게, 방법 단계의 정황에서 기재된 양상들은 또한 대응하는 블록 또는 항목 또는 대응하는 장치의 특징의 설명을 나타낸다.
본 발명의 압축 해제된 신호는 디지털 저장 매체 상에 저장될 수 있거나 인터넷과 같은 무선 송신 매체 상에서 송신될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM, 또는 FLASH 메모리를 이용하여 수행될 수 있는데, 이러한 디지털 저장 매체는 그 위에 저장된 전자적으로 판독가능한 제어 신호들을 갖고, 각 방법이 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 그러므로, 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.
본 발명에 따른 몇몇 실시예들은, 본 명세서에 기재된 방법들 중 하나가 수행되도록, 프로그래밍가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 비-임시 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 프로그램 코드는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 방법들 중 하나를 수행하기 위해 동작가능하다. 프로그램 코드는 예를 들어, 기계 판독가능한 캐리어 상에 저장될 수 있다.
다른 실시예들은 기계 판독가능한 캐리어 상에 저장된, 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 그러므로, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
그러므로, 본 발명의 방법들의 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 그 위에 리코딩되게 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다.
그러므로, 본 발명의 방법의 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 시퀀스 또는 데이터 스트림이다. 예를 들어, 신호들의 시퀀스들 또는 데이터 스트림은 데이터 통신 접속을 통해, 예를 들어, 인터넷을 통해, 전송되도록 구성될 수 있다.
추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하도록 구성되거나 적응된 처리 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 논리 디바이스를 포함한다.
추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 위에 설치된 컴퓨터를 포함한다.
몇몇 실시예들에서, 프로그래밍가능 논리 디바이스(예를 들어, 전계 프로그래밍가능 게이트 어레이)는 본 명세서에 기재된 방법들의 기능들 중 몇몇 또는 전부를 수행하는데 사용될 수 있다. 몇몇 실시예들에서, 필드 프로그래밍가능 게이트 어레이는 본 명세서에 기재된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 임의의 하드웨어 장치에 의해 바람직하게 수행된다.
전술한 실시예들은 본 발명의 원리들을 위해 단지 예시적이다. 본 명세서에 기재된 세부사항들 및 배치들의 변형들 및 변경들이 당업자에게 명백하다는 것이 이해된다. 그러므로, 본 명세서에서 실시예들의 기재 및 설명에 의해 제공된 특정 세부사항들에 의해서가 아니라 다음의 특허 청구항들의 범주에 의해서만 제한되도록 의도된다.
인용 문헌들
[1] Peters, N., Lossius, T. and Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, Jul. 2012.
[2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Greece, 1997.
[3] Matthias Geier, Jens Ahrens, and Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, December 2010.
[4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dec. 2008.
[5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", Nov. 2008.
[6] MPEG, "ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio", 2009.
[7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Germany, May 2004
[8] Web3D, "International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997.
[9] Sporer, T. (2012), "Codierung rㅴumlicher Audiosignale mit leicht-gewichtigen Audio-Objekten", Proc. Annual Meeting of the German Audiological Society (DGA), Erlangen, Germany, Mar. 2012.
[10] Ramer, U. (1972), "An iterative procedure for the polygonal approximation of plane curves", Computer Graphics and Image Processing, 1(3), 244-256.
[11] Douglas, D.; Peucker, T. (1973), "Algorithms for the reduction of the number of points required to represent a digitized line or its caricature", The Canadian Cartographer 10(2), 112-122.
[12] Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning"; J. Audio Eng. Soc., Volume 45, Issue 6, pp. 456-466, June 1997.

Claims (19)

  1. 하나 이상의 오디오 채널들을 생성하기 위한 장치(100)로서,
    하나 이상의 압축된 메타데이터 신호들을 수신하기 위한 메타데이터 디코더(110)로서, 상기 하나 이상의 압축된 메타데이터 신호들 각각은 복수의 제 1 메타데이터 샘플들을 포함하고, 상기 하나 이상의 압축된 메타데이터 신호들 각각의 상기 제 1 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타내고, 상기 메타데이터 디코더(110)는 하나 이상의 재구성된 메타데이터 신호들을 생성하도록 구성되고, 그리고
    상기 하나 이상의 오디오 객체 신호들에 따라 그리고 상기 하나 이상의 재구성된 메타데이터 신호들에 따라 상기 하나 이상의 오디오 채널들을 생성하기 위한 오디오 채널 생성기(120)를 포함하고,
    상기 메타데이터 디코더(110)는 상기 하나 이상의 재구성된 메타데이터 신호들을 생성하도록 구성되어, 상기 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호는 상기 하나 이상의 압축된 메타데이터 신호들의 압축된 메타데이터 신호의 상기 제 1 메타데이터 샘플들을 포함하고, 상기 재구성된 메타데이터 신호는 상기 압축된 메타데이터 신호와 연관되고, 복수의 제 2 메타데이터 샘플들을 더 포함하고, 상기 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호에 대한 복수의 근사화된(approximated) 메타데이터 샘플들을 생성함으로써 상기 하나 이상의 재구성된 메타데이터 신호들 각각의 상기 제 2 메타데이터 샘플들을 생성하도록 구성되고, 상기 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 상기 제 1 메타데이터 샘플들의 적어도 2개에 따라 상기 복수의 근사화된 메타데이터 샘플들 각각을 생성하도록 구성되고, 그리고
    상기 메타데이터 디코더(110)는 하나 이상의 압축된 메타데이터 신호들의 압축된 메타데이터 신호에 대한 복수의 차이 값들을 수신하도록 구성되고, 상기 재구성된 메타데이터 신호의 상기 제 2 메타데이터 샘플들을 얻기 위해 상기 압축된 메타데이터 신호와 연관되는 상기 재구성된 메타데이터의 상기 근사화된 메타데이터 샘플들 중 하나에 상기 복수의 차이 값들 각각을 추가하도록 구성되는, 하나 이상의 오디오 채널들을 생성하기 위한 장치.
  2. 제 1항에 있어서, 상기 메타데이터 디코더(110)는 상기 하나 이상의 압축된 메타데이터 신호들의 하나를 업샘플링(upsampling)함으로써 상기 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호를 생성하도록 구성되고, 상기 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 상기 제 1 메타데이터 샘플들의 적어도 2개에 따라 선형 보간을 수행함으로써 상기 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호의 상기 제 2 메타데이터 샘플들 각각을 생성하도록 구성되는, 하나 이상의 오디오 채널들을 생성하기 위한 장치.
  3. 제 1항에 있어서,
    상기 메타데이터 디코더(110)는 상기 하나 이상의 압축된 메타데이터 신호들의 압축된 메타데이터 신호에 대한 상기 복수의 차이 값들을 수신하도록 구성되고, 상기 차이 값들 각각은 상기 압축된 메타데이터 신호와 연관되는 상기 재구성된 메타데이터 신호의 상기 근사화된 메타데이터 샘플들 중 하나에 할당된 수신된 차이 값이고,
    상기 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 상기 제 2 메타데이터 샘플들 중 하나를 얻기 위해 상기 수신된 차이 값과 연관된 상기 근사화된 메타데이터 샘플에 상기 복수의 수신된 차이 값들의 각 수신된 차이값을 추가하도록 구성되고,
    상기 메타데이터 디코더(110)는, 상기 복수의 수신된 차이 값들이 상기 근사화된 메타데이터 샘플과 연관되지 않을 때, 상기 압축된 메타데이터 신호와 연관된 상기 재구성된 메타데이터 신호의 상기 복수의 근사화된 메타데이터 샘플들의 각 근사화된 메타데이터 샘플에 대한 상기 복수의 수신된 차이 값들 하나 이상에 따라 근사화된 차이 값을 결정하도록 구성되고,
    상기 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 상기 제 2 메타데이터 샘플들 중 다른 것을 얻기 위해 상기 근사화된 차이 값의 상기 근사화된 메타데이터 샘플에 상기 복수의 근사화된 차이 값들의 각 근사화된 차이 값을 추가하도록 구성되는, 하나 이상의 오디오 채널들을 생성하기 위한 장치.
  4. 제 1 항에 있어서,
    상기 하나 이상의 재구성된 메타데이터 신호들의 적어도 하나는 상기 하나 이상의 오디오 객체 신호들 중 하나에 관한 위치 정보를 포함하거나, 상기 하나 이상의 오디오 객체 신호들의 상기 하나에 관한 상기 위치 정보의 스케일링된 표현(scaled representation)을 포함하고,
    상기 오디오 채널 생성기(120)는 상기 하나 이상의 오디오 객체 신호들의 상기 하나에 따라, 그리고 상기 위치 정보에 따라 상기 하나 이상의 오디오 채널들 중 적어도 하나를 생성하도록 구성되는, 하나 이상의 오디오 채널들을 생성하기 위한 장치.
  5. 제 1항에 있어서,
    상기 하나 이상의 재구성된 메타데이터 신호들의 적어도 하나는 상기 하나 이상의 오디오 객체 신호들 중 하나의 볼륨(volume)을 포함하거나, 상기 하나 이상의 오디오 객체 신호들의 상기 하나의 상기 볼륨의 스케일링된 표현을 포함하고,
    상기 오디오 채널 생성기(120)는 상기 하나 이상의 오디오 객체 신호들의 상기 하나에 따라 그리고 상기 볼륨에 따라 상기 하나 이상의 오디오 채널들 중 적어도 하나를 생성하도록 구성되는, 하나 이상의 오디오 채널들을 생성하기 위한 장치.
  6. 제 1항에 있어서,
    상기 장치(100)는 랜덤 액세스 정보를 수신하도록 구성되고, 상기 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호에 대해, 상기 랜덤 액세스 정보는 상기 압축된 메타데이터 신호의 액세스된 신호 부분을 나타내고, 상기 메타데이터 신호의 적어도 하나의 다른 신호 부분은 상기 랜덤 액세스 정보에 의해 표시되지 않고, 상기 메타데이터 디코더(110)는 상기 압축된 메타데이터 신호의 상기 액세스된 신호 부분의 상기 제 1 메타데이터 샘플들에 따라, 상기 압축된 메타데이터 신호의 임의의 다른 신호 부분의 임의의 다른 제 1 메타데이터 샘플들에 따르지 않고 상기 하나 이상의 재구성된 메타데이터 신호들 중 하나를 생성하도록 구성되는, 하나 이상의 오디오 채널들을 생성하기 위한 장치.
  7. 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치(250)로서,
    하나 이상의 원본 메타데이터 신호들을 수신하기 위한 메타데이터 인코더(210)로서, 상기 하나 이상의 원본 메타데이터 신호들 각각은 복수의 메타데이터 샘플들을 포함하고, 상기 하나 이상의 원본 메타데이터 신호들 각각의 상기 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타내고, 상기 메타데이터 인코더(210)는 상기 하나 이상의 압축된 메타데이터 신호들을 생성하도록 구성되고, 그리고
    상기 하나 이상의 인코딩된 오디오 신호들을 얻기 위해 상기 하나 이상의 오디오 객체 신호들을 인코딩하기 위한 오디오 인코더(220)를 포함하고,
    상기 메타데이터 인코더(210)는 상기 하나 이상의 압축된 메타데이터 신호들을 생성하도록 구성되어, 상기 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호는 상기 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호의 상기 메타데이터 샘플들 중 2개 이상의 메타데이터 샘플들의 제 1 그룹을 포함하고, 상기 압축된 메타데이터 신호는 상기 원본 메타데이터 신호와 연관되고, 상기 압축된 메타데이터 신호는 상기 원본 메타데이터 신호들의 상기 하나의 원본 메타데이터 신호의 상기 메타데이터 샘플들의 다른 2개 이상의 메타데이터 샘플들의 제 2 그룹의 임의의 메타데이터 샘플을 포함하지 않고, 그리고
    상기 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호에 의해 포함되고, 또한 상기 원본 메타데이터 신호와 연관된 상기 압축된 메타데이터 신호에 의해 포함되는 상기 메타데이터 샘플들 각각은 복수의 제 1 메타데이터 샘플들 중 하나이고,
    상기 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호에 의해 포함되고, 상기 원본 메타데이터 신호와 연관된 상기 압축된 메타데이터 신호에 의해 포함되지 않는 상기 메타데이터 샘플들 각각은 복수의 제 2 메타데이터 샘플들 중 하나이고,
    상기 메타데이터 인코더(210)는 상기 하나 이상의 원본 메타데이터 신호들 중 상기 하나의 원본 메타데이터 신호의 상기 제 1 메타데이터 샘플들 중 적어도 2개에 따라 선형 보간을 수행함으로써 상기 원본 메타데이터 신호들 중 하나의 원본 메타데이터 신호의 복수의 제 2 메타데이터 샘플들 각각에 대한 근사화된 메타데이터 샘플을 생성하도록 구성되고,
    상기 메타데이터 인코더(210)는 상기 하나 이상의 원본 메타데이터 신호들 중 상기 하나의 원본 메타데이터 신호의 상기 복수의 제 2 메타데이터 샘플들의 각 제 2 메타데이터 샘플의 차이 값을 생성하도록 구성되어, 상기 차이 값은 상기 제 2 메타데이터 샘플과 상기 제 2 메타데이터 샘플의 상기 근사화된 메타데이터 샘플 사이의 차이를 나타내는, 인코딩된 오디오 정보를 생성하기 위한 장치.
  8. 제 7 항에 있어서,
    상기 메타데이터 인코더(210)는, 상기 하나 이상의 원본 메타데이터 신호들의 상기 하나의 원본 메타데이터 신호의 상기 복수의 제 2 메타데이터 샘플들의 상기 차이 값들의 적어도 하나에 대하여 상기 차이 값들의 적어도 하나 각각이 임계값보다 큰지의 여부를 결정하도록 구성되는, 인코딩된 오디오 정보를 생성하기 위한 장치.
  9. 제 7 항에 있어서,
    상기 메타데이터 인코더(210)는 비트들의 제 1 수로 상기 하나 이상의 압축된 메타데이터 신호들 중 하나의 압축된 메타데이터 신호의 상기 메타데이터 샘플들의 하나 이상을 인코딩하도록 구성되고, 상기 하나 이상의 압축된 메타데이터 신호들의 상기 하나의 압축된 메타데이터 신호의 상기 메타데이터 샘플들의 상기 하나 이상 각각은 정수를 나타내고,
    상기 메타데이터 인코더(210)는 비트들의 제 2 수로 상기 복수의 제 2 메타데이터 샘플들의 상기 차이 값들의 하나 이상을 인코딩하도록 구성되고, 상기 복수의 메타데이터 샘플들의 상기 차이 값들의 상기 하나 이상 각각은 정수를 나타내고,
    상기 비트들의 제 2 수는 상기 비트들의 제 1 수보다 작은, 인코딩된 오디오 정보를 생성하기 위한 장치.
  10. 제 7 항에 있어서,
    상기 하나 이상의 원본 메타데이터 신호들의 적어도 하나는 상기 하나 이상의 오디오 객체 신호들 중 하나에 관한 위치 정보를 포함하거나, 상기 하나 이상의 오디오 객체 신호들의 상기 하나의 오디오 객체 신호에 관한 상기 위치 정보의 스케일링된 표현을 포함하고,
    상기 메타데이터 인코더(210)는 상기 하나 이상의 메타데이터 신호들의 상기 적어도 하나에 따라 상기 하나 이상의 압축된 메타데이터 신호들의 적어도 하나를 생성하도록 구성되는, 인코딩된 오디오 정보를 생성하기 위한 장치.
  11. 제 7 항에 있어서,
    상기 하나 이상의 원본 메타데이터 신호들의 적어도 하나는 상기 하나 이상의 오디오 객체 신호들의 하나의 오디오 객체 신호의 볼륨을 포함하거나, 상기 하나 이상의 오디오 객체 신호들의 상기 하나의 오디오 객체 신호의 상기 볼륨의 스케일링된 표현을 포함하고,
    상기 메타데이터 인코더(210)는 상기 하나 이상의 원본 메타데이터 신호들의 상기 적어도 하나에 따라 상기 하나 이상의 압축된 메타데이터 신호들의 적어도 하나를 생성하도록 구성되는, 인코딩된 오디오 정보를 생성하기 위한 장치.
  12. 시스템으로서,
    하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 제 7항 내지 제 11항 중 어느 한 항에 따른 장치(250), 및
    상기 하나 이상의 인코딩된 오디오 신호들 및 상기 하나 이상의 압축된 메타데이터 신호들을 수신하고, 상기 하나 이상의 인코딩된 오디오 신호들에 따라 그리고 상기 하나 이상의 압축된 메타데이터 신호들에 따라 하나 이상의 오디오 채널들을 생성하기 위한 제 1항 내지 제 6항 중 어느 한 항에 따른 장치(100)를 포함하는, 시스템.
  13. 하나 이상의 오디오 채널들을 생성하기 위한 방법으로서,
    하나 이상의 압축된 메타데이터 신호들을 수신하는 단계로서, 상기 하나 이상의 압축된 메타데이터 신호들 각각은 복수의 제 1 메타데이터 샘플들을 포함하고, 상기 하나 이상의 압축된 메타데이터 신호들 각각의 상기 제 1 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 포함하는, 수신하는 단계, 및
    하나 이상의 재구성된 메타데이터 신호들을 생성하는 단계를 포함하고,
    상기 하나 이상의 오디오 객체 신호들에 따라 그리고 상기 하나 이상의 재구성된 메타데이터 신호들에 따라 상기 하나 이상의 오디오 채널들을 생성하는 단계를 포함하고,
    상기 하나 이상의 재구성된 메타데이터 신호들을 생성하는 단계는 상기 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호가 상기 하나 이상의 압축된 메타데이터 신호들의 압축된 메타데이터 신호의 상기 제 1 메타데이터 샘플들을 포함하고, 상기 재구성된 메타데이터 신호가 상기 압축된 메타데이터 신호와 연관되고, 복수의 제 2 메타데이터 샘플들을 더 포함하도록 수행되고, 상기 하나 이상의 재구성된 메타데이터 신호들을 생성하는 단계는 상기 재구성된 메타데이터 신호에 대한 복수의 근사화된 메타데이터 샘플들을 생성함으로써 상기 하나 이상의 재구성된 메타데이터 신호들 각각의 상기 제 2 메타데이터 샘플들을 생성하는 단계를 포함하고, 상기 복수의 근사화된 메타데이터 샘플를 각각을 생성하는 단계는 상기 재구성된 메타데이터 신호의 상기 제 1 메타데이터 샘플들 중 적어도 2개에 따라 수행되고, 그리고
    상기 방법은 상기 하나 이상의 압축된 메타데이터 신호들의 압축된 메타데이터에 대한 복수의 차이 값들을 수신하는 단계와, 상기 재구성된 메타데이터 신호의 상기 제 2 메타데이터 샘플들을 얻기 위해 상기 압축된 메타데이터 신호와 연관되는 상기 재구성된 메타데이터 신호의 상기 근사화된 메타데이터 샘플들의 하나에 상기 복수의 차이 값들 각각을 추가하는 단계를 더 포함하는, 하나 이상의 오디오 채널들을 생성하기 위한 방법.
  14. 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하는 방법으로서,
    하나 이상의 원본 메타데이터 신호들을 수신하는 단계로서, 상기 하나 이상의 원본 메타데이터 신호들 각각은 복수의 메타데이터 샘플들을 포함하고, 상기 하나 이상의 원본 메타데이터 신호들 각각의 상기 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타내는, 수신하는 단계,
    상기 하나 이상의 압축된 메타데이터 신호들을 생성하는 단계, 및
    상기 하나 이상의 인코딩된 오디오 신호들을 얻기 위해 상기 하나 이상의 오디오 객체 신호들을 인코딩하는 단계를 포함하고,
    상기 하나 이상의 압축된 메타데이터 신호들을 생성하는 단계는 상기 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호가 상기 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호의 상기 메타데이터 샘플들 중 2개 이상의 메타데이터 샘플들의 제 1 그룹을 포함하고, 상기 압축된 메타데이터 신호가 상기 원본 메타데이터 신호와 연관되고, 상기 압축된 메타데이터 신호가 상기 원본 메타데이터 신호들의 상기 하나의 원본 메타데이터 신호의 상기 메타데이터 샘플들의 다른 2개 이상의 메타데이터 샘플들의 제 2 그룹의 임의의 메타데이터 샘플을 포함하지 않도록 수행되고, 그리고
    상기 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호에 의해 포함되고, 또한 상기 원본 메타데이터 신호와 연관된 상기 압축된 메타데이터 신호에 의해 포함되는 상기 메타데이터 샘플들 각각은 복수의 제 1 메타데이터 샘플들 중 하나이고,
    상기 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호에 의해 포함되고, 상기 원본 메타데이터 신호와 연관된 상기 압축된 메타데이터 신호에 의해 포함되지 않는 상기 메타데이터 샘플들 각각은 복수의 제 2 메타데이터 샘플들 중 하나이고,
    상기 방법은 상기 하나 이상의 원본 메타데이터 신호들 중 상기 하나의 원본 메타데이터 신호의 상기 제 1 메타데이터 샘플들 중 적어도 2개에 따라 선형 보간을 수행함으로써 상기 원본 메타데이터 신호들 중 하나의 원본 메타데이터 신호의 복수의 제 2 메타데이터 샘플들 각각에 대한 근사화된 메타데이터 샘플을 생성하는 단계를 더 포함하고,
    상기 방법은 상기 하나 이상의 원본 메타데이터 신호들 중 상기 하나의 원본 메타데이터 신호의 상기 복수의 제 2 메타데이터 샘플들의 각 제 2 메타데이터 샘플의 차이 값을 생성하는 단계를 더 포함하고, 상기 차이 값은 상기 제 2 메타데이터 샘플과 상기 제 2 메타데이터 샘플의 상기 근사화된 메타데이터 샘플 사이의 차이를 나타내는, 인코딩된 오디오 정보를 생성하는 방법.
  15. 컴퓨터 또는 신호 프로세서 상에서 실행될 때 제 13항 또는 제 14항의 방법을 구현하기 위하여 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램.
  16. 오디오 출력 데이터(501)를 얻기 위해 오디오 입력 데이터(101)를 인코딩하기 위한 장치로서,
    복수의 오디오 채널들, 복수의 오디오 객체들, 및 상기 복수의 오디오 객체들 중 하나 이상에 관련된 메타데이터를 수신하기 위한 입력 인터페이스(1100),
    복수의 사전-믹싱된 채널들을 얻기 위해 상기 복수의 객체들 및 상기 복수의 채널들을 믹싱하기 위한 믹서(200)로서, 각 사전-믹싱된 채널은 채널의 오디오 데이터 및 적어도 하나의 객체의 오디오 데이터를 포함하는, 믹서(200), 및
    제 7항 내지 제 11항 중 어느 한 항에 따른 장치(250)를 포함하고,
    제 7항 내지 제 11항 중 어느 한 항에 따른 장치(250)의 상기 오디오 인코더(220)는 코어 인코더 입력 데이터를 코어 인코딩하기 위한 코어 인코더(300)이고,
    제 7항 내지 제 11항 중 어느 한 항에 따른 장치(250)의 상기 메타데이터 인코더(210)는 상기 복수의 오디오 객체들의 하나 이상에 관련된 상기 메타데이터를 압축하기 위한 메타데이터 압축기(400)인, 오디오 출력 데이터를 얻기 위해 오디오 입력 데이터를 인코딩하기 위한 장치.
  17. 인코딩된 오디오 데이터를 디코딩하기 위한 장치로서,
    상기 인코딩된 오디오 데이터를 수신하기 위한 입력 인터페이스(1100)로서, 상기 인코딩된 오디오 데이터는 복수의 인코딩된 채널들 또는 복수의 인코딩된 객체들, 또는 상기 복수의 객체들에 관련된 압축 메타데이터를 포함하는, 입력 인터페이스(1100),
    제 1항 내지 제 6항 중 어느 한 항에 따른 장치(100)를 포함하고,
    제 1항 내지 제 6항 중 어느 한 항에 따른 장치(200)의 상기 메타데이터 디코더(110)는 압축된 메타데이터를 압축 해제하기 위한 메타데이터 압축 해제기(400)이고,
    제 1항 내지 제 6항 중 어느 한 항에 따른 장치(100)의 상기 오디오 채널 생성기(120)는 상기 복수의 인코딩된 채널들 및 상기 복수의 인코딩된 객체들을 디코딩하기 위한 코어 디코더(1300)를 포함하고,
    상기 오디오 채널 생성기(120)는 상기 객체들로부터의 오디오 데이터 및 상기 디코딩된 채널들을 포함하는 다수의 출력 채널들(1205)을 얻기 위해 상기 압축 해제된 메타데이터를 이용하여 상기 복수의 디코딩된 객체들을 처리하기 위한 객체 프로세서(1200)를 더 포함하고,
    상기 오디오 채널 생성기(120)는 상기 다수의 출력 채널들(1205)을 출력 포맷으로 변환하기 위한 후치 프로세서(1700)를 더 포함하는, 인코딩된 오디오 데이터를 디코딩하기 위한 장치.
  18. 삭제
  19. 삭제
KR1020167004622A 2013-07-22 2014-07-16 효율적인 객체 메타데이터 코딩을 위한 장치 및 방법 KR101865213B1 (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
EP13177367 2013-07-22
EP13177378.0 2013-07-22
EP13177365 2013-07-22
EP13177365.7 2013-07-22
EP13177367.3 2013-07-22
EP20130177378 EP2830045A1 (en) 2013-07-22 2013-07-22 Concept for audio encoding and decoding for audio channels and audio objects
EP13189284.6A EP2830049A1 (en) 2013-07-22 2013-10-18 Apparatus and method for efficient object metadata coding
EP13189284.6 2013-10-18
PCT/EP2014/065299 WO2015011000A1 (en) 2013-07-22 2014-07-16 Apparatus and method for efficient object metadata coding

Publications (2)

Publication Number Publication Date
KR20160036585A KR20160036585A (ko) 2016-04-04
KR101865213B1 true KR101865213B1 (ko) 2018-06-07

Family

ID=49385151

Family Applications (5)

Application Number Title Priority Date Filing Date
KR1020237012205A KR20230054741A (ko) 2013-07-22 2014-07-16 저 지연 객체 메타데이터 코딩을 위한 장치 및 방법
KR1020167004622A KR101865213B1 (ko) 2013-07-22 2014-07-16 효율적인 객체 메타데이터 코딩을 위한 장치 및 방법
KR1020217012288A KR20210048599A (ko) 2013-07-22 2014-07-16 저 지연 객체 메타데이터 코딩을 위한 장치 및 방법
KR1020167004615A KR20160033775A (ko) 2013-07-22 2014-07-16 저 지연 객체 메타데이터 코딩을 위한 장치 및 방법
KR1020187016512A KR20180069095A (ko) 2013-07-22 2014-07-16 저 지연 객체 메타데이터 코딩을 위한 장치 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020237012205A KR20230054741A (ko) 2013-07-22 2014-07-16 저 지연 객체 메타데이터 코딩을 위한 장치 및 방법

Family Applications After (3)

Application Number Title Priority Date Filing Date
KR1020217012288A KR20210048599A (ko) 2013-07-22 2014-07-16 저 지연 객체 메타데이터 코딩을 위한 장치 및 방법
KR1020167004615A KR20160033775A (ko) 2013-07-22 2014-07-16 저 지연 객체 메타데이터 코딩을 위한 장치 및 방법
KR1020187016512A KR20180069095A (ko) 2013-07-22 2014-07-16 저 지연 객체 메타데이터 코딩을 위한 장치 및 방법

Country Status (16)

Country Link
US (8) US9743210B2 (ko)
EP (4) EP2830047A1 (ko)
JP (2) JP6239110B2 (ko)
KR (5) KR20230054741A (ko)
CN (2) CN105474309B (ko)
AU (2) AU2014295271B2 (ko)
BR (2) BR112016001140B1 (ko)
CA (2) CA2918860C (ko)
ES (1) ES2881076T3 (ko)
MX (2) MX357577B (ko)
MY (1) MY176994A (ko)
RU (2) RU2666282C2 (ko)
SG (2) SG11201600471YA (ko)
TW (1) TWI560703B (ko)
WO (2) WO2015011000A1 (ko)
ZA (2) ZA201601044B (ko)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830047A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
RU2678481C2 (ru) 2013-11-05 2019-01-29 Сони Корпорейшн Устройство обработки информации, способ обработки информации и программа
CN106796804B (zh) 2014-10-02 2020-09-18 杜比国际公司 用于对话增强的解码方法和解码器
TWI631835B (zh) * 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
TWI771266B (zh) * 2015-03-13 2022-07-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
BR112017002758B1 (pt) * 2015-06-17 2022-12-20 Sony Corporation Dispositivo e método de transmissão, e, dispositivo e método de recepção
JP6461029B2 (ja) * 2016-03-10 2019-01-30 株式会社東芝 時系列データ圧縮装置
EP3453190A4 (en) * 2016-05-06 2020-01-15 DTS, Inc. SYSTEMS FOR IMMERSIVE AUDIO PLAYBACK
EP3293987B1 (en) * 2016-09-13 2020-10-21 Nokia Technologies Oy Audio processing
EP3566473B8 (en) * 2017-03-06 2022-06-15 Dolby International AB Integrated reconstruction and rendering of audio signals
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
CN111164679B (zh) * 2017-10-05 2024-04-09 索尼公司 编码装置和方法、解码装置和方法以及程序
TWI703557B (zh) * 2017-10-18 2020-09-01 宏達國際電子股份有限公司 聲音播放裝置、方法及非暫態儲存媒體
JP7396267B2 (ja) * 2018-03-29 2023-12-12 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
US11540075B2 (en) * 2018-04-10 2022-12-27 Gaudio Lab, Inc. Method and device for processing audio signal, using metadata
CN115346539A (zh) * 2018-04-11 2022-11-15 杜比国际公司 用于音频渲染的预渲染信号的方法、设备和***
US10999693B2 (en) * 2018-06-25 2021-05-04 Qualcomm Incorporated Rendering different portions of audio data using different renderers
BR112021008089A2 (pt) 2018-11-02 2021-08-03 Dolby International Ab codificador de áudio e decodificador de áudio
US11379420B2 (en) * 2019-03-08 2022-07-05 Nvidia Corporation Decompression techniques for processing compressed data suitable for artificial neural networks
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
BR112021025420A2 (pt) * 2019-07-08 2022-02-01 Voiceage Corp Método e sistema para codificar metadados em fluxos de áudio e para adaptação de taxa de bits intraobjeto e interobjeto flexível
GB2586214A (en) * 2019-07-31 2021-02-17 Nokia Technologies Oy Quantization of spatial audio direction parameters
GB2586586A (en) * 2019-08-16 2021-03-03 Nokia Technologies Oy Quantization of spatial audio direction parameters
EP4032086A4 (en) * 2019-09-17 2023-05-10 Nokia Technologies Oy SPATIAL AUDIO PARAMETERS CODING AND ASSOCIATED DECODING
CN115668364A (zh) 2020-05-26 2023-01-31 杜比国际公司 利用高效的闪避增益应用改善主-相关联音频体验
US20230377587A1 (en) * 2020-10-05 2023-11-23 Nokia Technologies Oy Quantisation of audio parameters

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090112579A (ko) * 2008-04-23 2009-10-28 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
US20120183162A1 (en) * 2010-03-23 2012-07-19 Dolby Laboratories Licensing Corporation Techniques for Localized Perceptual Audio

Family Cites Families (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2605361A (en) 1950-06-29 1952-07-29 Bell Telephone Labor Inc Differential quantization of communication signals
JP3576936B2 (ja) 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
GB2417866B (en) 2004-09-03 2007-09-19 Sony Uk Ltd Data transmission
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
ATE406651T1 (de) 2005-03-30 2008-09-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
ATE473502T1 (de) 2005-03-30 2010-07-15 Koninkl Philips Electronics Nv Mehrkanal-audiocodierung
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN101288115A (zh) 2005-10-13 2008-10-15 Lg电子株式会社 用于处理信号的方法和装置
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN101410891A (zh) 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
DE602007004451D1 (de) 2006-02-21 2010-03-11 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
EP2005787B1 (en) 2006-04-03 2012-01-25 Srs Labs, Inc. Audio signal processing
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
US8326609B2 (en) 2006-06-29 2012-12-04 Lg Electronics Inc. Method and apparatus for an audio signal processing
MY151651A (en) * 2006-07-04 2014-06-30 Dolby Int Ab Filter compressor and method for manufacturing compressed subband filter impulse responses
EP2575129A1 (en) 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
MX2008012250A (es) 2006-09-29 2008-10-07 Lg Electronics Inc Metodos y aparatos para codificar y descodificar señales de audio basadas en objeto.
MY145497A (en) 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008063034A1 (en) 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
EP2595148A3 (en) 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for coding multi-object audio signals
CN101542596B (zh) 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
WO2008100100A1 (en) 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
RU2394283C1 (ru) * 2007-02-14 2010-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
KR20080082917A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
JP5541928B2 (ja) 2007-03-09 2014-07-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP5161893B2 (ja) 2007-03-16 2013-03-13 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
US7991622B2 (en) 2007-03-20 2011-08-02 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
KR101422745B1 (ko) 2007-03-30 2014-07-24 한국전자통신연구원 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩장치 및 방법
ES2452348T3 (es) 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
MY146431A (en) * 2007-06-11 2012-08-15 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009045178A1 (en) * 2007-10-05 2009-04-09 Agency For Science, Technology And Research A method of transcoding a data stream and a data transcoder
WO2009049895A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
MX2010002629A (es) 2007-11-21 2010-06-02 Lg Electronics Inc Metodo y aparato para procesar una señal.
KR101024924B1 (ko) 2008-01-23 2011-03-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
KR101061129B1 (ko) 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
AU2009267525B2 (en) 2008-07-11 2012-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal synthesizer and audio signal encoder
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2146341B1 (en) * 2008-07-15 2013-09-11 LG Electronics Inc. A method and an apparatus for processing an audio signal
PL2146344T3 (pl) 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
KR20100035121A (ko) 2008-09-25 2010-04-02 엘지전자 주식회사 신호 처리 방법 및 이의 장치
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US8351612B2 (en) 2008-12-02 2013-01-08 Electronics And Telecommunications Research Institute Apparatus for generating and playing object based audio contents
KR20100065121A (ko) 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
US8620008B2 (en) 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8139773B2 (en) 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
WO2010090019A1 (ja) 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
RU2520329C2 (ru) 2009-03-17 2014-06-20 Долби Интернешнл Аб Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
US8909521B2 (en) 2009-06-03 2014-12-09 Nippon Telegraph And Telephone Corporation Coding method, coding apparatus, coding program, and recording medium therefor
TWI404050B (zh) 2009-06-08 2013-08-01 Mstar Semiconductor Inc 多聲道音頻信號解碼方法與裝置
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
CN102460573B (zh) 2009-06-24 2014-08-20 弗兰霍菲尔运输应用研究公司 音频信号译码器、对音频信号译码的方法
CN102171754B (zh) 2009-07-31 2013-06-26 松下电器产业株式会社 编码装置以及解码装置
KR101805212B1 (ko) 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
TWI463485B (zh) 2009-09-29 2014-12-01 Fraunhofer Ges Forschung 音訊信號解碼器或編碼器、用以提供上混信號表示型態或位元串流表示型態之方法、電腦程式及機器可存取媒體
WO2011048067A1 (en) 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Apparatus for providing an upmix signal representation on the basis of a downmix signal representation, apparatus for providing a bitstream representing a multichannel audio signal, methods, computer program and bitstream using a distortion control signaling
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US20110153857A1 (en) * 2009-12-23 2011-06-23 Research In Motion Limited Method for partial loading and viewing a document attachment on a portable electronic device
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
US8675748B2 (en) * 2010-05-25 2014-03-18 CSR Technology, Inc. Systems and methods for intra communication system information transfer
US8755432B2 (en) * 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
TWI489450B (zh) 2010-12-03 2015-06-21 Fraunhofer Ges Forschung 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
TWI716169B (zh) 2010-12-03 2021-01-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
CN103649706B (zh) 2011-03-16 2015-11-25 Dts(英属维尔京群岛)有限公司 三维音频音轨的编码及再现
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
JP5740531B2 (ja) * 2011-07-01 2015-06-24 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトベースオーディオのアップミキシング
KR102185941B1 (ko) * 2011-07-01 2020-12-03 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
CA3151342A1 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and tools for enhanced 3d audio authoring and rendering
CN102931969B (zh) * 2011-08-12 2015-03-04 智原科技股份有限公司 数据提取的方法与装置
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
CN103890841B (zh) 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
WO2013075753A1 (en) 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
CN105229731B (zh) 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830047A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090112579A (ko) * 2008-04-23 2009-10-28 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
US20120183162A1 (en) * 2010-03-23 2012-07-19 Dolby Laboratories Licensing Corporation Techniques for Localized Perceptual Audio

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Jonas Engdegard, et al. Spatial audio object coding (SAOC) - The upcoming MPEG standard on parametric object based audio coding. Audio Engineering Society Convention 124. 2008.05.20. *
Jonas Engdegard, et al. Spatial audio object coding (SAOC) - The upcoming MPEG standard on parametric object based audio coding. Audio Engineering Society Convention 124. 2008.05.20.*
Jurgen Herre, et al. MPEG Spatial Audio Object Coding-the ISO/MPEG standard for efficient coding of interactive audio scenes. Journal of the Audio Engineering Society, 2012.09. Vol.60. No.9, pp.655-67 *
Text of ISO/IEC13818-7:2004 (MPEG-2 AAC 3rd edition). ISO/IEC JTC1/SC29/WG11 N6428. 2004.03. *
Text of ISO/IEC13818-7:2004 (MPEG-2 AAC 3rd edition). ISO/IEC JTC1/SC29/WG11 N6428. 2004.03.*

Also Published As

Publication number Publication date
WO2015011000A1 (en) 2015-01-29
BR112016001140A2 (ko) 2017-07-25
CA2918166A1 (en) 2015-01-29
AU2014295271B2 (en) 2017-10-12
US20200275229A1 (en) 2020-08-27
US20160142850A1 (en) 2016-05-19
BR112016001140B1 (pt) 2022-10-25
EP3025330A1 (en) 2016-06-01
CN105474309A (zh) 2016-04-06
WO2015010996A1 (en) 2015-01-29
ZA201601044B (en) 2017-08-30
CA2918860A1 (en) 2015-01-29
EP3025332A1 (en) 2016-06-01
US20170366911A1 (en) 2017-12-21
US9743210B2 (en) 2017-08-22
EP3025330B1 (en) 2021-05-05
CN105474310A (zh) 2016-04-06
US11463831B2 (en) 2022-10-04
MX2016000907A (es) 2016-05-05
JP2016528541A (ja) 2016-09-15
TWI560703B (en) 2016-12-01
BR112016001139A2 (ko) 2017-07-25
KR20230054741A (ko) 2023-04-25
MX2016000908A (es) 2016-05-05
AU2014295267A1 (en) 2016-02-11
US20200275228A1 (en) 2020-08-27
JP2016525714A (ja) 2016-08-25
US9788136B2 (en) 2017-10-10
KR20210048599A (ko) 2021-05-03
US10715943B2 (en) 2020-07-14
RU2672175C2 (ru) 2018-11-12
US11337019B2 (en) 2022-05-17
BR112016001139B1 (pt) 2022-03-03
RU2016105691A (ru) 2017-08-28
CA2918860C (en) 2018-04-10
JP6239109B2 (ja) 2017-11-29
RU2666282C2 (ru) 2018-09-06
US10659900B2 (en) 2020-05-19
EP2830047A1 (en) 2015-01-28
US20190222949A1 (en) 2019-07-18
KR20160033775A (ko) 2016-03-28
MX357576B (es) 2018-07-16
EP2830049A1 (en) 2015-01-28
AU2014295267B2 (en) 2017-10-05
TW201523591A (zh) 2015-06-16
KR20180069095A (ko) 2018-06-22
AU2014295271A1 (en) 2016-03-10
CA2918166C (en) 2019-01-08
CN105474310B (zh) 2020-05-12
JP6239110B2 (ja) 2017-11-29
CN105474309B (zh) 2019-08-23
US10277998B2 (en) 2019-04-30
US20160133263A1 (en) 2016-05-12
ES2881076T3 (es) 2021-11-26
KR20160036585A (ko) 2016-04-04
MX357577B (es) 2018-07-16
US11910176B2 (en) 2024-02-20
US20220329958A1 (en) 2022-10-13
CN111883148A (zh) 2020-11-03
US20170311106A1 (en) 2017-10-26
ZA201601045B (en) 2017-11-29
MY176994A (en) 2020-08-31
SG11201600469TA (en) 2016-02-26
RU2016105682A (ru) 2017-08-28
SG11201600471YA (en) 2016-02-26

Similar Documents

Publication Publication Date Title
KR101865213B1 (ko) 효율적인 객체 메타데이터 코딩을 위한 장치 및 방법
JP2016527558A (ja) 3dオーディオコンテンツのsaocダウンミックスを実現する装置及び方法
CN111883148B (zh) 用于低延迟对象元数据编码的装置及方法
TW201528251A (zh) 有效率物件元數據編碼的裝置及其方法

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)