KR101865213B1

KR101865213B1 - 효율적인 객체 메타데이터 코딩을 위한 장치 및 방법

Info

Publication number: KR101865213B1
Application number: KR1020167004622A
Authority: KR
Inventors: 크리스티안 보르스; 크리스티안 에르텔
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2013-07-22
Filing date: 2014-07-16
Publication date: 2018-06-07
Also published as: WO2015011000A1; BR112016001140A2; CA2918166A1; AU2014295271B2; US20200275229A1; US20160142850A1; BR112016001140B1; EP3025330A1; CN105474309A; WO2015010996A1; ZA201601044B; CA2918860A1; EP3025332A1; US20170366911A1; US9743210B2; EP3025330B1; CN105474310A; US11463831B2; MX2016000907A; JP2016528541A

Abstract

하나 이상의 오디오 채널들을 생성하기 위한 장치(100)가 제공된다. 장치(100)는 하나 이상의 압축된 메타데이터 신호들을 수신하기 위한 메타데이터 디코더(110)를 포함한다. 하나 이상의 압축된 메타데이터 신호들 각각은 복수의 제 1 메타데이터 샘플들을 포함한다. 하나 이상의 압축된 메타데이터 신호들 각각의 제 1 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타낸다. 메타데이터 디코더(110)는 하나 이상의 재구성된 메타데이터 신호들을 생성하도록 구성되어, 하나 이상의 재구성된 메타데이터 신호들 각각은 하나 이상의 압축된 메타데이터 신호들 중 하나의 압축된 메타데이터의 제 1 메타데이터 샘플들을 포함하고, 복수의 제 2 메타데이터 샘플들을 더 포함한다. 메타데이터 디코더(110)는 재구성된 메타데이터 신호의 상기 제 1 메타데이터 샘플들 중 적어도 2개에 따라 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들 각각을 생성하도록 구성된다. 더욱이, 장치(100)는 하나 이상의 오디오 객체 신호들에 따라, 그리고 하나 이상의 재구성된 메타데이터 신호들에 따라 하나 이상의 오디오 채널들을 생성하기 위한 오디오 채널 생성기(120)를 포함한다. 더욱이, 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치가 제공된다.

Description

효율적인 객체 메타데이터 코딩을 위한 장치 및 방법{APPARATUS AND METHOD FOR EFFICIENT OBJECT METADATA CODING}

본 발명은 오디오 인코딩/디코딩에 관한 것으로, 특히 공간 오디오 디코딩 및 공간 오디오 객체 코딩에 관한 것으로, 더 구체적으로 효율적인 객체 메타데이터 코딩 장치 및 방법에 관한 것이다.

공간 오디오 코딩 툴은 종래 기술에 잘 알려져 있고, 예를 들어 MPEG 서라운드 표준에서 표준화된다. 공간 오디오 코딩은 재생 설정에서의 그들의 위치에 의해 식별되는 5 또는 7 채널들, 예를 들어 좌측 채널, 중앙 채널, 우측 채널, 좌측 서라운드 채널, 우측 서라운드 채널 및 저주파수 개선 채널과 같은 원본 입력 채널들로부터 시작한다. 공간 오디오 인코더는 통상적으로 원본 채널들로부터 하나 이상의 다운믹스 채널들을 도출하고, 추가적으로 채널 코히어런스(coherence) 값들, 채널간 위상차, 채널간 시간 차 등에서의 채널간 레벨 차이와 같이 공간 큐와 관련된 파라미터 데이터를 도출한다. 하나 이상의 다운 믹스 채널은 원본 입력 채널의 근사화된 버전인 출력 채널을 결국 얻기 위해 다운 믹스 채널 및 연관된 파라미터 데이터를 디코딩하는 공간 오디오 디코더에 공간 큐를 나타내는 파라메트릭 부가 정보와 함께 전송된다. 출력 설정에서 채널의 배치는 통상적으로 고정되고, 예를 들면, 5.1 포맷, 7.1 포맷 등이다.

이러한 채널 기반 오디오 포맷은, 각 채널이 주어진 위치에서 특정 스피커에 관련하는 다중 채널 오디오 콘텐츠를 저장하거나 전송하기 위해 널리 사용된다. 이러한 종류의 포맷들의 충실한 재생은, 스피커가 오디오 신호의 재생시 사용된 스피커와 동일한 위치에 배치된 스피커 설정을 요구한다. 스피커들의 수가 증가하는 것이 진정 실감나는 3D 오디오 장면의 재생을 개선하지만, 이러한 요건을 충족하는 것이 점점 더 어려워진다 - 특히 거실과 같은 거주 환경에서. 특정 스피커 설정을 가질 필요는, 스피커 신호가 특히 재생 설정을 위해 렌더링되는 객체 기반 접근법에 의해 극복될 수 있다.

예를 들어, 공간 오디오 객체 코딩 툴은 종래 기술에 널리 공지되어 있으며, MPEG SAOCG 표준(SAOC = 공간 오디오 객체 코딩)에서 표준화되어 있다. 원본 채널들에서 시작하는 공간 오디오 코딩과 대조적으로, 공간 오디오 객체 코딩은 특정 렌더링 재생 설정에 대해 자동으로 지정되지 않는 오디오 객체에서 시작한다. 대신, 재생 장면의 오디오 객체의 배치는 가요성이고, 공간 오디오 객체 코딩 디코더에 특정 렌더링 정보를 입력하여 사용자에 의해 결정될 수 있다. 대안적으로 또는 추가적으로, 특정 오디오 객체가 시간이 지남에 따라 일반적으로 배치될 재생 설정에서의 위치를 갖는 정보는 추가적인 부가 정보 또는 메타데이터로서 전송될 수 있다. 특정 데이터 압축을 얻기 위해, 오디오 객체의 개수는 특정 다운믹스 정보에 따라 객체를 다운믹싱하여 입력 객체로부터 하나 이상의 전송 채널을 계산하는 SAOC 인코더에 의해 인코딩된다. 더욱이, SAOC 인코더는 객체 레벨 차이(OLD), 객체 코히어런스 값 등과 같은 객체 간 큐를 나타내는 파라메트릭 부가 정보를 계산한다. SAC(SAC = 공간 오디오 코딩)에서와 같이, 객체 간 파라미터 데이터는 개별적인 시간/주파수 타일들(tiles)에 대해 계산되는데, 즉, 1024 또는 2048 개의 샘플들, 24, 32, 64 등을 포함하는 오디오 신호의 특정 프레임에 대해, 주파수 대역은, 결국, 파라메트릭 데이터가 각 프레임 및 각 주파수에 대해 존재하도록 고려된다. 예를 들어, 오디오 피스(piece)가 20 프레임을 가질 때, 그리고 각 프레임이 32개의 주파수 대역으로 세분화될 때, 시간/주파수 타일의 수는 640이다.

객체 기반 방법에서, 음장은 이산 오디오 객체에 의해 기술된다. 이것은 특히 3D 공간에서 각 음원의 시변 위치를 나타내는 객체 메타데이터를 필요로 한다.종래 기술에서의 제 1 메타데이터 코딩 개념은, 여전히 개발 [1] 하에 있는 오디오 장면 설명, 공간 사운드 설명 교환 포맷(SpatDIF)이다. 이것은 객체 기반 사운드 장면에 대한 교환 포맷으로서 설계되고, 객체 궤적에 대한 임의의 압축 방법을 제공하지 않는다. SpatDIF는 객체 메타데이터 [2]를 구성하기 위해 텍스트 기반의 오픈 사운드 제어(OSC) 포맷을 사용한다. 하지만, 단순한 텍스트 기반의 표현은 객체 궤적의 압축 전송을 위한 옵션이 아니다.

종래 기술의 또 다른 메타데이터 개념은 오디오 장면 설명 포맷(ASDF) [3], 동일한 단점을 갖는 텍스트 기반의 솔루션이다. 데이터는 확장 가능한 마크 업 언어(xML) [4,5]의 서브셋인 동기화 멀티미디어 통합 언어(SMIL)의 확장에 의해 구성된다.

종래 기술에서 추가 메타데이터 개념은 장면(AudioBIFS)을 위한 오디오 이진 포맷, MPEG-4 규격 [6,7]의 부분인 이진 포맷이다. 이것은 시청각 3D 장면과 대화형 가상 현실 응용 [8]의 설명을 위해 개발된 xML 기반의 가상 현실 모델링 언어(VRML)와 밀접하게 관련있다. 복합 AudioBIFS 규격은 객체의 움직임 경로를 규정하기 위해 장면 그래프를 사용한다. AudioBIFS의 주요 단점은, 데이터 스트림에 대한 제한 시스템 지연 및 랜덤 액세스가 요구되는 실시간 동작을 위해 설계되지 않는다. 또한, 객체의 위치의 인코딩은 인간 청취자의 제한된 국부화 성능을 이용하지 않는다. 시청각 장면 내의 고정 청취자 위치의 경우, 객체 데이터는 비트의 더 낮은 수로 양자화될 수 있다 [9]. 따라서 AudioBIFS에 인가된 객체 메타데이터의 인코딩은 데이터 압축에 대해서는 효율적이지 못하다.

따라서 개선된 경우, 효율적인 객체 메타데이터 코딩 개념이 제공되는 것이 크게 인식된다.

본 발명의 목적은 효율적인 객체 메타데이터 코딩에 대한 향상된 개념을 제공하는 것이다. 본 발명의 목적은, 제 1항에 따른 장치에 의해, 제 8항에 따른 장치에 의해, 제 14항에 따른 시스템에 의해, 제 15항에 따른 방법에 의해, 제 16항에 따른 방법에 의해, 그리고 제 17항에 따른 컴퓨터 프로그램에 의해 해결된다.

하나 이상의 오디오 채널들을 생성하기 위한 장치가 제공된다. 장치는 하나 이상의 압축된 메타데이터 신호들을 수신하기 위한 메타데이터 디코더를 포함한다. 하나 이상의 압축된 메타데이터 신호들 각각은 복수의 제 1 메타데이터 샘플들을 포함한다. 하나 이상의 압축된 메타데이터 신호들 각각의 상기 제 1 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타낸다. 메타데이터 디코더는 하나 이상의 재구성된 메타데이터 신호들을 생성하도록 구성되어, 하나 이상의 재구성된 메타데이터 신호들 각각은 하나 이상의 압축된 메타데이터 신호들 중 하나의 압축된 메타데이터의 제 1 메타데이터 샘플들을 포함하고, 복수의 제 2 메타데이터 샘플들을 더 포함한다. 더욱이, 메타데이터 디코더는 재구성된 메타데이터 신호의 제 1 메타데이터 샘플들 중 적어도 2개에 따라 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들 각각을 생성하도록 구성된다. 더욱이, 장치는 하나 이상의 오디오 객체 신호들에 따라, 그리고 하나 이상의 재구성된 메타데이터 신호들에 따라 하나 이상의 오디오 채널들을 생성하기 위한 오디오 채널 생성기를 포함한다.

더욱이, 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치가 제공된다. 장치는 하나 이상의 원본 메타데이터 신호들을 수신하기 위한 메타데이터 인코더를 포함한다. 하나 이상의 원래 메타데이터 신호들 각각은 복수의 메타데이터 샘플들을 포함한다. 하나 이상의 원본 메타데이터 신호들 각각의 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타낸다. 메타데이터 인코더는 하나 이상의 압축된 메타데이터 신호들을 생성하도록 구성되어, 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호는 원본 메타데이터 신호들 중 하나의 원본 메타데이터 신호의 메타데이터 샘플들 중 2개 이상의 메타데이터 샘플들의 제 1 그룹을 포함하고, 상기 압축된 메타데이터 신호는 상기 원본 메타데이터 신호들의 상기 하나의 원본 메타데이터 신호의 상기 메타데이터 샘플들의 다른 2개 이상의 메타데이터 샘플들의 제 2 그룹의 임의의 메타데이터 샘플을 포함하지 않는다. 더욱이, 하나 이상의 인코딩된 오디오 신호들을 얻기 위해 하나 이상의 오디오 객체 신호들을 인코딩하기 위한 오디오 인코더를 포함한다.

더욱이, 시스템이 제공된다. 시스템은 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치를 포함한다. 더욱이, 시스템은 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 수신하고, 하나 이상의 인코딩된 오디오 신호들에 따라 그리고 하나 이상의 압축된 메타데이터 신호들에 따라 하나 이상의 오디오 채널들을 생성하기 위한 장치를 포함한다.

실시예들에 따라, 객체 메타데이터를 위한 데이터 압축 개념들이 제공되고, 이것은 제한된 데이터율로 채널들을 송신하기 위한 효율적인 압축 메커니즘을 달성한다. 더욱이, 순수한 방위각 변화들, 예를 들어 카메라 회전들에 대한 양호한 압축률이 달성된다. 더욱이, 제공된 개념들은 불연속적인 궤적들, 예를 들어 위치 도약들을 지지한다. 더욱이, 낮은 디코딩 복잡도가 실현된다. 더욱이, 제한된 재초기화 시간을 갖는 랜덤 액세스가 달성된다.

더욱이, 하나 이상의 오디오 채널들을 생성하기 위한 방법이 제공된다. 방법은:

- 하나 이상의 압축된 메타데이터 신호들을 수신하는 단계로서, 하나 이상의 압축된 메타데이터 신호들 각각은 복수의 제 1 메타데이터 샘플들을 포함하고, 하나 이상의 압축된 메타데이터 신호들 각각의 제 1 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 포함하는, 수신하는 단계,

- 하나 이상의 재구성된 메타데이터 신호들을 생성하는 단계로서, 하나 이상의 재구성된 메타데이터 신호들 각각은 하나 이상의 압축된 메타데이터 신호들 중 하나의 압축된 메타데이터의 제 1 메타데이터 샘플들을 포함하고, 복수의 제 2 메타데이터 샘플들을 더 포함하고, 하나 이상의 재구성된 메타데이터 신호들을 생성하는 단계는 재구성된 메타데이터 신호의 제 1 메타데이터 샘플들 중 적어도 2개에 따라 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호의 상기 제 2 메타데이터 샘플들 각각을 생성하는 단계를 포함하는, 생성하는 단계, 및

- 하나 이상의 오디오 객체 신호들에 따라, 그리고 하나 이상의 재구성된 메타데이터 신호들에 따라 하나 이상의 오디오 채널들을 생성하는 단계를

포함한다.

더욱이, 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하는 방법이 제공된다. 방법은

- 하나 이상의 원본 메타데이터 신호들을 수신하는 단계로서, 하나 이상의 원래 메타데이터 신호들 각각은 복수의 메타데이터 샘플들을 포함하고, 하나 이상의 원본 메타데이터 신호들 각각의 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타내는, 수신하는 단계,

- 하나 이상의 압축된 메타데이터 신호들을 생성하는 단계로서, 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호는 원본 메타데이터 신호들 중 하나의 원본 메타데이터 신호의 메타데이터 샘플들 중 2개 이상의 메타데이터 샘플들의 제 1 그룹을 포함하고, 압축된 메타데이터 신호는 원본 메타데이터 신호들의 하나의 원본 메타데이터 신호의 메타데이터 샘플들의 다른 2개 이상의 메타데이터 샘플들의 제 2 그룹의 임의의 메타데이터 샘플을 포함하지 않는, 생성하는 단계, 및

- 하나 이상의 인코딩된 오디오 신호들을 얻기 위해 하나 이상의 오디오 객체 신호들을 인코딩하는 단계를 포함한다.

더욱이, 컴퓨터 또는 신호 프로세서 상에서 실행될 때 전술한 방법을 구현하기 위한 컴퓨터 프로그램이 달성된다.

다음에서, 본 발명의 실시예들은 도면들을 참조하여 더 구체적으로 기재된다.

도 1은 실시예에 따라 하나 이상의 오디오 채널들을 생성하기 위한 장치를 도시한 도면.
도 2는 실시예에 따라 하나 이상의 인코딩된 오디오 신호와 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치를 도시한 도면.
도 3은 실시예에 따른 시스템을 도시한 도면.
도 4는 방위각, 앙각 및 반경에 의해 표현된 원점으로부터 3차원 공간에서 오디오 객체의 위치를 도시한 도면.
도 5는, 오디오 객체들의 위치들 및 오디오 채널 생성기에 의해 가정된 스피커 설정을 도시한 도면.
도 6은 실시예에 따른 메타데이터를 인코딩을 도시한 도면.
도 7은 실시예에 따른 메타데이터를 디코딩을 도시한 도면.
도 8은 다른 실시예에 따른 메타데이터 인코딩을 도시한 도면.
도 9는 다른 실시예에 따른 메타데이터 디코딩을 도시한 도면.
도 10은 추가 실시예에 따른 메타데이터 인코딩을 도시한 도면.
도 11은 추가 실시예에 따른 메타데이터 디코딩을 도시한 도면.
도 12는 3D 오디오 인코더의 제 1 실시예를 도시한 도면.
도 13은 3D 오디오 디코더의 제 1 실시예를 도시한 도면.
도 14는 3D 오디오 인코더의 제 2 실시예를 도시한 도면.
도 15는 3D 오디오 디코더의 제 2 실시예를 도시한 도면.
도 16은 3D 오디오 인코더의 제 3 실시예를 도시한 도면.
도 17은 3D 오디오 디코더의 제 3 실시예를 도시한 도면.

도 2는 일 실시예에 따른 하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치(250)를 도시한다.

상기 장치(250)는 하나 이상의 원본 메타데이터 신호들을 수신하기 위한 메타데이터 인코더(210)를 포함한다. 하나 이상의 원본 메타데이터 신호들 각각은 다수의 메타데이터 샘플들을 포함한다. 하나 이상의 원본 메타데이터 신호들 각각의 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들 중 하나의 오디오 객체 신호와 연관된 정보를 표시한다. 메타데이터 인코더(210)는 하나 이상의 압축된 메타데이터 신호들을 생성하도록 구성되며, 그 결과 하나 이상의 압축된 메타데이터 신호들의 각각의 압축된 메타데이터 신호는 원본 메타데이터 신호들 중 하나의 메타데이터 신호의 메타데이터 샘플들 중 2개 이상의 메타데이터 샘플들의 제 1 그룹을 포함하며, 상기 압축된 메타데이터 신호는 원본 메타데이터 신호들 중 상기 하나의 메타데이터 신호의 메타데이터 샘플들 중 다른 2개 이상의 메타데이터 샘플들의 제 2 그룹의 임의의 메타데이터 샘플을 포함하지 않는다.

또한, 상기 장치(250)는 하나 이상의 인코딩된 오디오 신호들을 획득하기 위해 하나 이상의 오디오 객체 신호들을 인코딩하기 위한 오디오 인코더(220)를 포함한다. 예를 들어, 오디오 채널 생성기는 하나 이상의 인코딩된 오디오 신호들로서 하나 이상의 SAOC 전송 채널들을 획득하기 위하여 하나 이상의 오디오 객체 신호들을 인코딩하기 위한 현재 기술(the state of the art)에 따른 SAOC 인코더를 포함할 수 있다. 대안적으로 또는 추가적으로 하나 이상의 오디오 객체 채널들을 인코딩하기 위한 다양한 다른 인코딩 기법들이 하나 이상의 오디오 객체 채널들을 인코딩하기 위해 사용될 수 있다.

도 1은 일 실시예에 따른 하나 이상의 오디오 채널들을 생성하기 위한 장치(100)를 도시한다.

상기 장치(100)는 하나 이상의 압축된 메타데이터 신호들을 수신하기 위한 메타데이터 디코더(110)를 포함한다. 하나 이상의 압축된 메타데이터 신호들 각각은 다수의 제 1 메타데이터 샘플들을 포함한다. 하나 이상의 압축된 메타데이터 신호들 각각의 제 1 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들 중 하나의 오디오 객체 신호와 연관된 정보를 표시한다. 메타데이터 디코더(110)는 하나 이상의 재구성된 메타데이터 신호들을 생성하도록 구성되며, 그 결과 하나 이상의 재구성된 메타데이터 신호들 각각은 하나 이상의 압축된 메타데이터 신호들 중 하나의 압축된 메타데이터 신호의 제 1 메타데이터 샘플들을 포함하며 추가적으로 다수의 제 2 메타데이터 샘플들을 포함한다. 또한, 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 제 1 메타데이터 샘플들 중 적어도 2개에 의존하여 하나 이상의 재구성된 메타데이터 신호들의 각각의 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들 각각을 생성하도록 구성된다.

또한, 상기 장치(100)는 하나 이상의 오디오 객체 신호들에 의존하여 그리고 하나 이상의 재구성된 메타데이터 신호들에 의존하여 하나 이상의 오디오 채널들을 생성하기 위한 오디오 채널 생성기(120)를 포함한다.

메타데이터 샘플들을 참조할 때, 메타데이터 샘플이 자신의 메타데이터 샘플 값에 의해서 뿐만 아니라, 자신이 관련되는 시간 인스턴스에 의해서도 특징지워진다는 것을 유의하도록 한다. 예를 들어, 이러한 시간 인스턴스는 오디오 시퀀스의 시작과 관련되거나 또는 이와 유사할 수 있다. 예를 들어, 인덱스 n 또는 k는 메타데이터 신호에서 메타데이터 샘플의 위치를 식별할 수 있으며, 이에 의해 (시작 시간과 관련되는) (상대적인) 시간 인스턴스가 표시된다. 2개의 메타데이터 샘플들이 상이한 시간 인스턴스들과 관련될 때 이러한 2개의 메타데이터 샘플들은 상이한 메타데이터 샘플들이며, 이들의 메타데이터 샘플 값들이 동일할 때라도 종종 그러한 경우가 될 수 있음을 유의하도록 한다.

위의 실시예들은 오디오 객체 신호와 연관되는 (메타데이터 신호에 의해 포함되는) 메타데이터 정보가 종종 느리게 변화한다는 발견에 기반한다.

예를 들어, 메타데이터 신호는 오디오 객체에 대한 위치 정보(예를 들어, 오디오 객체의 위치를 정의하는 방위각(azimuth angle), 앙각(elevation angle) 또는 반경(radius))를 표시할 수 있다. 대부분의 경우에 오디오 객체의 위치는 변하지 않거나 또는 단지 느리게 변한다고 가정될 수 있다.

또는, 메타데이터 신호는, 예를 들어, 오디오 객체의 볼륨(volume)(예를 들어, 이득)을 표시할 수 있으며, 대부분의 경우에 오디오 객체의 불륨은 또한 느리게 변한다고 가정될 수 있다.

이러한 이유로, 매 시간 인스턴스에서 (완전한) 메타데이터 정보를 전송하는 것이 필요하지 않다. 대신에, (완전한) 메타데이터 정보는 단지 특정 시간 인스턴스들에서, 예를 들어, 주기적으로, 예를 들어, 매 N번째 시간 인스턴스에서, 예를 들어, 0, N, 2N, 3N 등의 시간 포인트에서 전송된다. 디코더 측에서, 중간 시간 포인트들(예를 들어, 시간 포인트들 1, 2,..., N-1)에 대하여, 메타데이터는 그후에 2개 이상의 시간 포인트들에 대하여 메타데이터 샘플들에 기반하여 근사화될 수 있다. 예를 들어, 시간 포인트들 1, 2,..., N-1에 대한 메타데이터 샘플들은 예컨대 시간 보간을 이용함으로써, 시간 포인트들 0 및 N에 대하여 메타데이터 샘플들에 의존하여 디코더 측에서 근사화될 수 있다. 이전에 논의된 바와 같이, 이러한 접근 방식은 일반적으로 오디오 객체들에 대한 메타데이터가 느리게 변화한다는 발견에 기반한다.

예를 들어, 실시예에서, 3개의 메타데이터 신호는 3D 공간에서의 오디오 객체의 위치를 지정한다. 메타데이터 신호들 중 제 1 신호는, 예를 들어, 오디오 객체의 위치의 방위각을 지정할 수 있다. 메타데이터 신호들 중 제 2 신호는, 예를 들어, 오디오 객체의 위치의 앙각을 지정할 수 있다. 메타데이터신호들 중 제 3 신호는, 예를 들어, 오디오 객체의 거리에 관한 반경을 지정할 수 있다.

방위각, 앙각 및 반경은 원점으로부터 3D 공간에서 오디오 객체의 위치를 모호하게 정의한다. 이는 도 4를 참조하여 도시된다.

도 4는 방위각, 앙각 및 반경에 의해 표현된 원점(400)으로부터 3차원(3D) 공간에서의 오디오 객체의 위치(410)를 도시한다.

앙각은, 예를 들면, 원점으로부터 객체 위치로의 직선과 xy 평면(x 축 및 Y 축에 의해 정의되는 평면) 상으로의 이 직선의 법선 투사 사이의 각도를 지정한다. 방위각은, 예를 들면, x 축과 상기 법선 투사 사이의 각도를 정의한다. 방위각과 앙각을 지정함으로써, 기점(400) 및 오디오 객체의 위치(410)를 통한 직선(415)이 정의될 수 있다. 또한 반경을 지정함으로써, 오디오 객체의 정확한 위치(410)가 정의될 수 있다.

실시예에서, 방위각은 범위에 대해 정의된다: -180°<방위각 ≤180°, 앙각은 범위에 대해 정의된다: 90°≤앙각 ≤ -90° 및 반경은 예를 들어 미터[m](0m보다 크거나 같은) 단위로 정의될 수 있다.

다른 실시예에서, 예를 들면, xyz 좌표계에서 오디오 객체 위치의 모든 x 값이 제로보다 크거나 같은 것으로 간주 될 수 있는 경우, 방위각은 범위에 대해 정의될 수 있고: -90°≤ 방위각 ≤ -90°, 앙각은 범위에 대해 정의될 수 있고: -90°≤ 앙각 ≤ -90°, 반경은, 예를 들면, 미터[m] 단위로 정의될 수 있다.

다른 실시예에서, 메타데이터 신호는, 방위각이 범위에 대해 정의될 수 있고: -128°≤ 방위각 ≤ -128°, 앙각이 범위에 대해 정의될 수 있고: -32°≤ 앙각 ≤ -32°, 반경이, 예를 들면, 로그 스케일 상에서 정의될 수 있도록 스케일링될 수 있다. 일부 실시예에서, 원본 메타데이터 신호, 처리된 메타데이터 신호 및 재구성된 메타데이터 신호 각각은 하나 이상의 오디오 객체 신호들 중 하나의 볼륨의 스케일링된 정보 및/또는 위치 정보의 스케일링된 표현을 포함 할 수 있다.

오디오 채널 생성기(120)는, 예를 들어, 하나 이상의 오디오 객체 신호에 따라 그리고 재구성된 메타데이터 신호에 따라, 하나 이상의 오디오 채널을 생성하도록 구성될 수 있고, 재구성된 메타데이터 신호는 예를 들어, 오디오 객체의 위치를 나타낼 수 있다.

도 5는 오디오 채널 생성기에 의해 가정된 오디오 객체의 위치 및 스피커 설정을 도시한다. xyz 좌표계의 원점(500)이 도시된다. 또한, 제 1 오디오 객체의 위치(510)와 제 2 오디오 객체의 위치(520)가 도시되어 있다. 또한, 도 5는, 오디오 채널 생성기(120)가 네 개의 스피커를 위한 네 개의 오디오 채널을 생성하는 경우 시나리오를 도시한다. 오디오 채널 생성기(120)는 네 개의 스피커(511, 512, 513 및 514)가 도 5에 도시된 위치에 배치되어 있다고 가정한다.

도 5에서, 제 1 오디오 객체는 스피커(511 및 512)의 가정된 위치에 가까운 위치(510)에 위치되고, 스피커(513 및 514)로부터 멀리 떨어져 위치된다. 그러므로, 오디오 채널 생성기(120)는, 제 1 오디오 객체(510)가 스피커(511 및 512)에 의해 재생되지만, 스피커(513 및 514)에 의해 재생되지 않도록 4개의 오디오 채널들을 생성할 수 있다.

다른 실시예에서, 오디오 채널 생성기(120)는. 제 1 오디오 객체(510)가 스피커(511 및 512)에 의해 높은 볼륨으로 그리고 스피커(513 및 514)에 의해 낮은 볼륨으로 재성되도록 4개의 오디오 채널을 생성할 수 있다.

또한, 제 2 오디오 객체는 스피커(513 및 514)의 가정된 위치에 가까운 위치(520)에 위치되고, 스피커(511 및 512)로부터 멀리 떨어지게 위치된다. 그러므로, 오디오 채널 생성기(120)는 제 2 오디오 객체(520)가 스피커(513 및 514)에 의해 재생되지만, 스피커(511 및 512)에 의해 재생되지 않도록 4개의 오디오 채널들을 생성할 수 있다.

다른 실시예에서, 오디오 채널 생성기(120)는, 제 2 오디오 객체(520)가 스피커(513 및 514)에 의해 높은 볼륨으로 그리고 스피커(511 및 512)에 의해 낮은 볼륨으로 재성되도록 4개의 오디오 채널을 생성할 수 있다.

대안적인 실시예에서, 두 개의 메타데이터 신호만이 오디오 객체의 위치를 지정하는데 사용된다. 예를 들어, 모든 오디오 객체가 단일 평면 내에 위치되는 것으로 가정할 때, 단지 방위각과 반경은, 예를 들어, 지정될 수 있다.

또 다른 실시예에서, 각각의 오디오 객체에 대해, 단일의 메타데이터 신호가 인코딩되고, 위치 정보로서 송신된다. 예를 들어, 단지 방위각은 오디오 객체(예를 들어, 모든 오디오 객체는 중심점으로부터 동일한 거리를 갖는 동일 평면상에 위치하며, 따라서 동일한 반경을 갖는 것으로 가정되는 것이 가정될 수 있다)에 대한 위치 정보로서 지정될 수 있다. 방위 정보는, 예를 들어, 오디오 객체가 좌측 스피커에 가깝고 우측 스피커로부터 멀리 위치하는지를 결정하기에 충분할 수 있다. 이러한 상황에서, 오디오 채널 생성기(120)는, 예를 들어, 오디오 객체가 좌측 스피커 뿐 아니라 우측 스피커에 의해 재생되도록 하나 이상의 오디오 채널을 생성할 수 있다.

예를 들어, 벡터 기반 진폭 패닝(VBAP)은, 스피커의 오디오 채널 각각 내에서의 오디오 객체 신호의 가중치를 결정하는데 이용될 수 있다(예를 들어, [11]을 참조). 예를 들어, VBAP에 대하여, 오디오 객체가 가상 소스에 관한 것임이 가정된다.

실시예에서, 추가 메타데이터 신호는 볼륨을 지정할 수 있고, 예를 들면, 각 오디오 객체에 대한 이득(예를 들어, 데시벨 [dB]로 표시)을 지정할 수 있다.

예를 들어, 도 5에서, 제 1 이득 값은 위치(520)에 위치한 제 2 오디오 객체에 대한 다른 추가의 메타데이터 신호에 의해 지정된 제 2 이득 값보다 높은 위치(510)에 위치한 제 1 오디오 객체에 대한 추가 메타데이터 신호에 의해 지정될 수 있다. 그러한 상황에서, 스피커(511 및 512)는, 스피커(513 및 514)가 제 2 오디오 객체를 재생하는 볼륨보다 더 높은 볼륨을 갖는 제 1 오디오 객체를 재생할 수 있다.

실시예는, 또한 오디오 객체의 그러한 이득 값이 종종 느리게 변화한다고 가정한다. 따라서, 시간의 모든 지점에서 이러한 메타데이터 정보를 송신할 필요가 없다. 대신에, 메타데이터 정보는 시간의 특정 지점에서만 전송된다. 시간의 중간 지점에서, 메타데이터 정보는, 예를 들어, 송신된, 이전의 메타데이터 샘플 및 후속 메타데이터 샘플을 사용하여 근사화될 수 있다. 예를 들어, 선형 보간은 중간 값들의 근사에 이용될 수 있다. 예를 들어, 각 오디오 객체들의 이득, 방위각, 앙각 및/또는 반경은, 메타 데이터가 송신되지 않은 경우 시간의 지점에 대해 근사화될 수 있다.

이러한 접근법에 의해, 메타데이터의 송신률에 상당한 절감이 달성될 수 있다.

도 3은 실시예에 따른 시스템을 도시한다.

시스템은 전술한 바와 같이 하나 이상의 인코딩된 오디오 신호와 하나 이상의 처리된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치(250)를 포함한다.

또한, 시스템은 하나 이상의 인코딩된 음성 신호 및 상기 하나 이상의 처리 된 메타데이터 신호를 수신하고, 하나 이상의 인코딩된 오디오 신호에 따라 그리고 하나 이상의 처리된 메타데이터 신호에 따라 하나 이상의 오디오 채널들을 생성하기 위한 장치(100)를 포함한다.

예를 들어, 하나 이상의 인코딩된 오디오 신호는, 인코딩을 위한 장치(250)가 하나 이상의 오디오 객체를 인코딩하기 위한 SAOC 인코더를 사용할 때, 하나 이상의 오디오 객체 신호를 획득하기 위해 종래 기술에 따른 SAOC 디코더를 이용함으로써 하나 이상의 오디오 채널을 생성하기 위한 장치(100)에 의해 디코딩될 수 있다.

제한된 재초기화 시간을 가지고 랜덤 액세스를 허용하기 위해 메타데이터에 대한 예로서 객체 위치를 고려하여, 실시예는 주기적으로 모든 객체 위치들의 전체 재전송을 제공한다.

실시예에 따라, 장치(100)는 랜덤 액세스 정보를 수신하도록 구성되고, 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호에 대해, 랜덤 액세스 정보는 상기 압축된 메타데이터 신호의 액세스된 신호 부분을 나타내고, 상기 메타데이터 신호의 적어도 하나의 다른 신호 부분은 상기 랜덤 액세스 정보에 의해 표시되지 않고, 메타데이터 디코더(110)는 상기 압축된 메타데이터 신호의 상기 액세스된 신호 부분의 제 1 메타데이터 샘플들에 따라, 상기 압축된 메타데이터 신호의 임의의 다른 신호 부분의 임의의 다른 제 1 메타데이터 샘플들에 따르지 않고 하나 이상의 재구성된 메타데이터 신호들 중 하나를 생성하도록 구성된다. 즉, 랜덤 액세스 정보를 지정함으로써, 각 압축된 메타데이터 신호들의 부분이 규정될 수 있고, 상기 메타데이터 신호의 다른 부분들은 지정되지 않는다. 이 경우에, 다른 부분들이 아니라 상기 압축된 메타데이터 신호의 지정된 부분만이 재구성된 메타데이터 신호들 중 하나로서 재구성된다. 재구성이 가능한데, 이는 상기 압축된 메타데이터 신호의 송신된 제 1 메타데이터 샘플들이 특정한 시간-지점(points-in-time)에 대한 상기 압축된 메타데이터 신호의 완전한 메타데이터 정보를 나타내기 때문이다(하지만, 다른 시간-지점에 대해, 메타데이터 정보는 송신되지 않는다).

도 6은 실시예에 따른 메타데이터를 도시한다. 실시예에 따른 메타데이터 인코더(210)는 도 6에 의해 도시된 메타데이터 인코딩을 구현하도록 구성될 수 있다.

도 6에서, s(n)는 원본 메타데이터 신호들 중 하나를 나타낼 수 있다. 예를 들면, s(n)는 오디오 객체들 중 하나의 방위각의 함수를 나타내고, n(예를 들면 원본 메타데이터 신호의 샘플 위치를 나타내는 것에 의해)은 시간을 나타낼 수 있다.

오디오 샘플링률보다 훨씬 낮은 샘플링률(예를 들어, 1:1024 이하)로 샘플링되는 시변 궤도 요소{s(n)}는 양자화되고(611 참조), N의 인자만큼 다운 샘플링(612 참조)된다. 이것은 z(k)로 표시하는 전술한 규칙적으로 송신된 디지털 신호를 초래한다.

z(k)는 하나 이상의 메타데이터 압축된 신호 중 하나이다. 예를 들어,

의 매 N 번째의 메타데이터 샘플은 또한 압축된 메타데이터 신호(z(k))의 메타데이터 샘플인 한편, 매 N 번째의 메타데이터 샘플 사이의 다른 N-1 메타데이터 샘플들은 압축된 메타데이터 신호(z(k))의 메타데이터 샘플들이 아니다.

예를 들면, s(n)에서, n은 시간(예를 들어, 원본 메타데이터 신호에서의 샘플 위치들을 나타냄으로써)을 나타내고, 여기서 n은 양의 정수 또는 0이다(예를 들어, 시작 시간: n = 0). n은 다운샘플링 인자이다. 예를 들어, N=32 또는 임의의 다른 적합한 다운샘플링 인자.

예를 들어, 원본 메타데이터 신호(s)로부터 압축된 메타데이터 신호(z)를 얻기 위해 612에서 다운샘플링하는 것이 예를 들어 실현될 수 있어서:

; k는 양의 정수 또는 0(k=0,1,2,...)

따라서:

도 7은 실시예에 따른 메타데이터 디코딩을 도시한다. 실시예에 따른 메타데이터 디코더(110)는 도 7에 도시된 메타데이터 디코딩을 구현하도록 구성될 수 있다.

도 7에 도시된 실시예에 따르면. 메타데이터 디코더(110)는 하나 이상의 압축된 메타데이터 신호들 중 하나를 업샘플링함으로써 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호를 생성하도록 구성되며, 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 제 1 메타데이터 샘플들 중 적어도 2개에 따라 선형 보간을 수행함으로써 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들 각각을 생성하도록 구성된다.

따라서, 각각의 재구성된 메타데이터 신호는 압축된 메타데이터 신호의 모든 메타데이터 샘플들(이들 샘플들은 하나 이상의 압축된 메타데이터 신호의 "제 1 메타 샘플들"이라 함)을 포함한다.

업샘플링을 수행함으로써, 추가 ( "제 2") 메타데이터 샘플들은 재구성된 메타데이터 신호에 추가된다. 업샘플링하는 단계는, 재구성된 메타데이터 신호에서의 어떤 위치들에서 추가 (제 2) 메타데이터 샘플들이 메타데이터 신호(예를 들어, "상대" 시간 인스턴트에서)에 추가되는 지를 결정한다.

선형 보간을 수행함으로써, 제 2 메타 샘플들의 메타데이터 샘플 값이 결정된다. 선형 보간은 압축된 메타데이터 신호의 2개의 메타데이터 샘플들(재구성된 메타데이터 신호의 제 1 메타데이터 샘플들이 된)에 기초하여 수행된다.

실시예에 따라, 선형 보간을 수행하여 제 2 메타데이터 샘플을 업샘플링 및 생성하는 것은 예를 들어, 단일 단계로 수행 될 수 있다.

도 7에서, 선형 보간(722 참조)과 함께 역 업샘플링 프로세스(721 참조)는 원본 신호의 대략적 근사화를 초래한다. 역 업샘플링 프로세스(721 참조) 및 선형 보간(722 참조)은, 예를 들어, 단일 단계로 수행 될 수 있다.

예를 들어, 디코더 측 상의 업샘플링(721)와 선형 보간(722)은, 예를 들어 다음과 같이 수행될 수 있다:

s'(k·N)=z(k); 여기서 k는 양의 정수 또는 0

; j는 1 ≤ j ≤N-1을 갖는 정수

여기서, z(k)는 압축된 메타데이터 신호(z)의 실제로 수신된 메타데이터 샘플이고, z(k-1)은 압축된 메타데이터 신호(z)의 메타데이터 샘플이고, 이것은 실제로 수신된 메타데이터 샘플(z(k)) 바로 전에 수신되었다.

도 8은 다른 실시예에 따른 메타데이터 인코딩을 도시한다. 실시예에 따른 메타데이터 인코더(210)는 도 8에 도시된 메타데이터 인코딩을 수행하도록 구성될 수 있다.

실시예에서, 예를 들어, 도 8에 의해 도시된 바와 같이, 메타데이터 인코딩에서, 미세 구조는 지연 보상 입력 신호와 선형 보간 거친 근사화 사이의 인코딩 차이에 의해 지정될 수 있다.

이러한 실시예에 따르면, 선형 보간과 함께 역 업샘플링 프로세스가 또한 인코더 측에서 메타데이터 인코딩의 일부로서 수행된다(도 6에서 621 및 622 참조). 또한, 역 업샘플링 프로세스(621 참조) 및 선형 보간(622 참조)는, 예를 들어, 단일 단계로 수행될 수 있다.

이미 전술한 바와 같이, 메타데이터 인코더(210)는 하나 이상의 압축된 메타데이터 신호를 생성하도록 구성되어, 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호는 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호의 메타데이터 샘플들 중 2개 이상의 샘플들의 제 1 그룹을 포함한다. 상기 압축된 메타데이터 신호는 상기 원본 메타데이터 신호와 연관된 것으로 간주 될 수 있다.

하나 이상의 원본 메타데이터 신호의 원본 메타데이터 신호에 의해 포함되고, 상기 원본 메타데이터 신호와 연관된 압축된 메타데이터 신호에 의해 포함되는 각 메타데이터 샘플들은 복수의 제 1 메타데이터 샘플들의 하나로서 간주될 수 있다.

또한, 하나 이상의 원본 메타데이터 신호의 원본 메타데이터 신호에 의해 포함되고, 상기 원본 메타데이터 신호와 연관된 압축된 메타데이터 신호에 의해 포함되지 않는 각 메타데이터 샘플들은 복수의 제 2 메타데이터 샘플들의 하나이다.

도 8의 실시예에 따라. 메타데이터 인코더(210)는 하나 이상의 원본 메타데이터 샘플들 중 상기 하나의 제 1 메타데이터 샘플들의 적어도 2개에 따라 선형 보간을 수행하여 원본 메타데이터 신호들 중 하나의 복수의 제 1 메타데이터 샘플들 각각에 대한 근사화된 메타데이터 샘플을 생성하도록 구성된다.

또한, 도 8의 실시예에서. 메타데이터 인코더(210)는 하나 이상의 원본 메타데이터 신호들의 상기 복수의 제 2 메타데이터 샘플들의 각 제 2 메타데이터 샘플에 대한 차이 값을 생성하도록 구성되어, 상기 차이 값은 상기 제 2 메타데이터 샘플과 상기 제 2 메타데이터 샘플의 근사화된 메타데이터 샘플 사이의 차이를 나타낸다.

도 10을 참조하여 나중에 기재된 바람직한 실시예에서, 예를 들어, 메타데이터 인코더(210)는, 하나 이상의 원본 메타데이터 신호들의 상기 하나의 상기 복수의 제 2 메타데이터 샘플들의 차이 값들의 적어도 하나에 대하여 상기 차이 값들의 적어도 하나 각각이 임계값보다 큰지의 여부를 결정하도록 구성될 수 있다.

도 8에 따른 실시예에서, 근사화된 메타데이터 샘플은, 예를 들어, 압축된 메타데이터 신호(z(k))에 대한 업샘플링을 수행함으로써, 그리고 선형 보간을 수행함으로써 결정될 수 있다(예를 들어, 샘플들 신호 s"의 s"(n)로서). 업샘플링 및 선형 보간은 예를 들어, 도면 부호 721 및 722를 참조하여 메타데이터 디코딩에 대해 기재된 바와 같이, 예를 들어 동일한 방식으로, 인코더 측(도 6에서 621 및 622를 참조) 상의 메타데이터 인코딩의 부분으로서 수행될 수 있다:

s"(k·N)=z(k); 여기서 k는 양의 정수 또는 0

; j는 1 ≤ j ≤N-1을 갖는 정수

예를 들어, 도 8에 의해 도시된 실시예에서, 메타데이터 인코딩을 수행할 때 차이 값이 차이에 대해 630에서 결정될 수 있다.

s(n) - s''(n), 예를 들어, (k-1)ㆍN <n <kㆍN을 갖는 모든 n에 대해, 또는

예를 들어, (k-1)ㆍN <n ≤kㆍN을 갖는 모든 n에 대해

실시예에서, 이러한 차이 값 중 하나 이상은 메타데이터 디코더로 송신된다.

도 9는 다른 실시예에 따른 메타데이터 디코딩을 도시한다. 실시예에 따른 메타데이터 디코더(110)는 도 9에 도시된 메타데이터 디코딩을 구현하도록 구성될 수 있다.

이미 위에서 설명된 바와 같이, 하나 이상의 재구성된 메타데이터 신호의 각 재구성된 메타데이터 신호는 하나 이상의 압축된 메타데이터 신호의 압축된 메타데이터의 제 1 메타데이터 샘플들을 포함한다. 상기 재구성된 메타데이터 신호는 상기 압축된 메타데이터 신호와 연관된 것으로 간주된다.

도 9에 도시된 실시예에서, 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호에 대한 복수의 근사화된 메타데이터 샘플들을 생성함으로써 하나 이상의 재구성된 메타데이터 신호 각각의 제 2 메타데이터 샘플들을 생성하도록 구성되고, 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 제 1 메타데이터의 적어도 2개에 따라 복수의 근사화된 메타데이터 샘플들 각각을 생성하도록 구성된다. 예를 들어, 이들 근사화된 메타데이터 샘플들은 도 7을 참조하여 기재된 선형 보간에 의해 생성될 수 있다.

도 9에 도시된 실시예에 따르면. 메타데이터 디코더(110)는 하나 이상의 압축된 메타데이터 신호의 압축된 메타데이터 시호에 대한 복수의 차이 값들을 수신하도록 구성된다. 메타데이터 디코더(110)는 또한, 상기 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들을 획득하기 위해 상기 압축된 메타데이터 신호와 연관된 재구성된 메타데이터 신호의 근사화된 메타데이터 샘플들 중 하나에 복수의 차이 값들 각각을 추가하도록 구성된다.

차이 값이 수신된 모든 이러한 근사화된 메타 샘플에 대해, 그 차이 값은 제 2 메타데이터 샘플들을 획득하기 위해 근사화된 메타데이터 샘플에 추가된다.

실시예에 따르면, 차이 값이 수신되지 않은 근사화된 메타데이터 샘플은 재구성된 메타데이터 신호의 제 2 메타데이터 샘플로서 사용된다.

하지만, 상이한 실시예에서, 차이 값이 근사화된 메타데이터 샘플에 대해 수신되지 않는다면, 근사화된 차이 값은 수신된 차이 값 중 하나 이상에 따라 근사화된 메타데이터 샘플에 대해 생성되고, 상기 근사화된 메타데이터 샘플은 상기 근사화된 메타데이터 샘플에 추가되고, 아래를 참조하자.

도 9에 도시된 실시예에 따르면. 수신된 차이 값은 업샘플링된 메타데이터 신호의 대응하는 메타데이터 샘플들에 추가된다(730 참조). 이에 의해, 차이 값이 송신된 대응하는 보간된 메타데이터 샘플은 올바른 메타데이터 샘플들을 획득하기 위해, 필요시 보정될 수 있다.

도 8에서의 메타데이터 인코딩으로 돌아가면. 바람직한 실시예에서, 보다 적은 비트는 메타데이터 샘플을 인코딩하는데 사용된 비트의 수보다 차이 값을 인코딩하는데 사용된다. 이들 실시예는 대부분 (예를 들어, N) 후속 메타데이터 샘플이 약간 다를 수 있다는 발견에 기초한다. 예를 들어, 메타데이터 샘플의 한 종류가 예를 들어, 8 비트만큼 인코딩되는 경우, 이들 메타데이터 샘플은 256 상이한 값 중에서 하나를 취할 수 있다. (예를 들어, N) 후속 메타데이터 값의 일반적인 약간의 변화로 인해서, 예를 들어, 5 비트만큼, 차이 값만을 인코딩하는 데 충분한 것으로 간주 될 수 있다. 따라서, 차이 값이 송신되는 경우에도, 송신된 비트의 수가 감소될 수 있다.

바람직한 실시예에서, 하나 이상의 차이 값은 송신되고, 하나 이상의 차이 값 각각은 메타데이터 샘플 각각보다 더 적은 비트들로 인코딩되고, 차이 값 각각은 정수 값이다.

실시예에 따라, 메타데이터 인코더(110)는 비트의 제 1 수를 가진 하나 이상의 압축된 메타데이터 신호들 중 하나의 메타데이터의 샘플 중 하나 이상을 인코딩하도록 구성되고, 하나 이상의 압축된 메타데이터 신호 중 상기 하나의 메타데이터 샘플의 상기 하나 이상 각각은 정수를 나타낸다. 더욱이, 메타데이터 인코더(110)는 비트의 제 2 수를 갖는 하나 이상의 차이 값을 인코딩하도록 구성되고, 상기 하나 이상의 차이 값 각각은 정수이고, 비트의 제 2 수는 비트의 제 1 수보다 작다.

예를 들어, 일 실시예에서, 메타데이터 샘플들이 8 비트들로 인코딩되는 방위각을 표현할 수 있다. 예를 들어, 방위각은 -90≤방위각≤90 사이의 정수일 수 있다. 그리하여, 방위각은 181개의 상이한 값들에서 취할 수 있다. 그러나, (예를 들어, N개의) 후속적인 방위각 샘플들이 단지 예컨대 ±15보다 많지 않게 상이하다고 가정할 수 있는 경우에, 5 비트(2⁵=32)는 차이 값들을 인코딩하는데 충분할 수 있다. 차이 값들이 정수들로서 표현되는 경우에, 차이 값들의 결정은 자동적으로, 전송될, 추가 값들을 적절한 값 범위로 변환한다.

예를 들어, 제 1 오디오 객체의 제 1 방위각 값이 60°이고 후속 값이 45 °로부터 75 °까지 변화하는 경우를 고려해보자. 더욱이, 제 2 오디오 객체의 제 2 방위각 값이 -30°이고, 그 후속 값이 -45°로부터 -15°까지 변한다는 것을 고려해보자. 제 1 오디오 객체의 후속 값과 제 2 오디오 객체의 후속 값 모두에 대한 차이 값을 결정함으로써, 제 1 방위각 값 및 제 2 방위각 값의 차이 값은 -15°으로부터 +15°까지의 값 범위에 있어서, 5 비트는 차이 값 각각을 인코딩하기에 충분하고, 차이 값을 인코딩한 비트 시퀀스는, 제 1 방위각의 차이 값과 제 2 방위각 값의 차이 값에 대해 동일한 의미를 갖는다.

실시예에서, 메타데이터 샘플이 압축된 메타데이터 신호 내에 존재하지 않는 각각의 차이 값은 디코딩 측으로 송신된다. 또한, 실시예에 따르면, 메타데이터 샘플이 압축된 메타데이터 신호 내에 존재하지 않는 각 차이 값은 메타데이터 디코더에 의해 수신되고 처리된다. 하지만, 도 10 및 11에 도시된 바람직한 실시예들 몇몇은 상이한 개념을 실현한다.

도 10은 추가 실시예에 따른 메타데이터 인코딩을 도시한다. 실시예에 따른 메타데이터 인코더(210)는 도 10에 도시된 메타데이터 인코딩을 수행하도록 구성될 수 있다.

이전의 실시예 중 몇몇에서와 같이, 도 10에서, 차이 값은, 예를 들면, 압축된 메타데이터 신호에 의해 포함되지 않은 원본 메타데이터 신호의 각 메타데이터 샘플에 대해 결정된다. 예를 들어, 시간 인스턴트 n=0 및 시간 인스턴트 n=N에서의 메타데이터 샘플이 압축된 메타데이터 신호에 의해 포함되지만, 메타데이터 샘플이 시간 인스턴트 n=1 내지 n=N-1에 있을 때, 차이 값은 시간 인스턴트 n=1 내지 n=N-1에 대해 결정된다.

그러나, 도 10의 실시예에 따라, 다각형 근사화는 640에서 수행된다. 메타데이터 인코더(210)는, 어떤 차이 값이 송신될 것인지, 그리고 차이 값이 또한 송신될 것인지의 여부를 결정하도록 구성된다.

예를 들어, 메타데이터 인코더(210)는 임계 값보다 큰 차이 값을 갖는 그러한 차이 값만을 송신하도록 구성될 수 있다.

다른 실시예에서, 메타데이터 인코더(210)는, 대응하는 메타데이터에 대한 그러한 차이 값의 비율이 임계 값보다 클 때 그러한 차이 값만을 송신하도록 구성될 수 있다.

실시예에서, 메타데이터 인코더(210)는 ,이 차이 절대 값이 임계 값보다 큰지의 여부에 따라 가장 큰 차이 절대 값에 대해 검사한다. 이 차이 절대 값이 임계 값보다 큰 경우, 차이 값은 송신되고, 그렇지 않으면 차이 값은 송신되지 않고 검사는 종료한다. 모든 차이 값이 임계 값보다 작을 때까지, 검사는 제 2 가장 큰 차이 값, 제 3 가장 큰 값 등에 대해 계속된다.

모든 차이 값이 반드시 송신되지 않기 때문에, 실시예에 따르면, 메타데이터 인코더(210)는 차이 값 그 자체(도 10에서 값들 y₁[k]...y_n _-1[k] 중 하나)(의 크기)를 인코딩할 뿐만 아니라, 차이 값이 관련되는 원본 메타데이터 신호의 메타데이터 샘플(도 10에서 값들 x₁[k]...x_n _-1[k] 중 하나)의 정보를 송신한다. 예를 들어, 메타데이터 인코더(210)는 차이 값이 관련되는 시간의 인스턴트를 인코딩할 수 있다. 예를 들어, 메타데이터 인코더(210)는, 압축된 메타데이터 신호로 이미 송신된, 메타데이터 샘플들(0 및 N) 사이의 메타데이터 샘플, 차이 값이 관련되는 지를 나타내기 위해 1 내지 N-１의 값을 인코딩할 수 있다. 다각형 근사화의 출력의 값들(x₁[k]...x_n-1[k] y₁[k]...y_n _- ₁[k])을 기술하는 것은 모든 이들 값들이 송신된다는 것을 의미하지 않고, 그 대신 차이 값들에 따라 이들 값 쌍들의 어느 것도 송신되지 않거나, 하나, 또는 몇몇 또는 전부가 송신된다는 것을 의미한다.

실시예에서, 메타데이터 인코더(210)는 예를 들어, N 연속적인 차이 값의 세그먼트와, 양자화된 다각형 지점[x_i, y_i]의 가변 수에 의해 형성되는 다각형의 코스(course)에 의해 각각의 세그먼트에 근사화할 수 있다.

충분한 정밀도로 차이 신호를 근사화할 필요가 있는 다각형 지점들의 수가 N보다 평균적으로 상당히 더 작다는 것이 예상될 수 있다. 그리고 [x_i, y_i]이 작은 정수일 때, 비트의 낮은 수로 인코딩될 수 있다.

도 11은 추가 실시예에 따른 메타데이터 디코딩을 도시한다. 실시예에 따른 메타데이터 디코더(110)는 도 11에 도시된 메타데이터 디코딩을 구현하도록 구성 될 수 있다.

실시예에서, 메타데이터 디코더(110)는 약간의 차이 값을 수신하고 730에 대응하는 선형 보간 메타데이터 샘플에 이러한 차이 값을 추가한다.

일부 실시예에서, 메타데이터 디코더(110)는 730에서 대응하는 선형 보간 메타데이터 샘플에 수신된 차이 값을 추가하고, 차이 값이 수신되고 변경되지 않은 다른 선형 보간 메타데이터 샘플을 남긴다.

그러나 다른 개념을 실현하는 실시예가 이제 설명된다.

이러한 실시예에 따르면, 메타데이터 디코더(110)는 하나 이상의 압축된 메타데이터 신호의 압축된 메타데이터 신호에 대한 복수의 차이 값을 수신하도록 구성된다. 차이 값 각각은 "수신된 차이 값"으로 지칭될 수 있다. 수신된 차이 값은 수신된 차이 값이 관련되는 상기 압축된 메타데이터 신호(로부터 구성된)와 연관된 재구성된 메타데이터 신호의 근사화된 메타데이터 샘플 중 하나에 할당된다.

도 9에 대해 이미 설명된 바와 같이, 메타데이터 디코더(110)는 상기 수신된 차이 값과 연관되는 근사화된 메타데이터 샘플에 복수의 수신된 차이 값의 각 수신된 차이 값을 추가하도록 구성된다. 수신된 차이 값을 근사화된 메타데이터 샘플에 추가함으로써, 상기 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들의 하나가 얻어진다.

그러나, 몇몇(또는 때때로, 대부분)의 근사화된 메타데이터 샘플에 대해, 종종 차이 값은 수신되지 않는다.

몇몇 실시예에서, 메타데이터 디코더(110)는, 예를 들면, 복수의 수신된 값들이 상기 근사화된 메타데이터 샘플과 연관되지 않을 때, 상기 압축된 메타데이터 신호와 연관된 재구성된 메타데이터 신호의 복수의 근사화된 메타데이터 샘플의 각 근사화된 메타데이터 샘플에 대한 복수의 수신된 차이 값의 하나 이상에 따라 근사화된 차이 값을 결정하도록 구성될 수 있다.

즉, 차이 값이 수신되지 않은 모든 근사화된 메타데이터 샘플에 대해, 근사화된 차이 값은 수신된 차이 값 중 하나 이상에 따라 생성된다.

메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 제 2 메타데이터 샘플들 중 다른 하나를 획득하기 위해 상기 근사화된 차이 값의 근사화된 메타데이터 샘플에 복수의 근사화된 차이 값의 각 근사화된 차이 값을 추가하도록 구성된다.

그러나, 다른 실시예에서, 메타데이터 디코더(110)는 단계(740)에서 수신 된 그러한 차이 값에 따라 선형 보간을 수행하여, 차이 값이 수신되지 않은 그러한 메타데이터 샘플들에 대한 차이 값을 근사화한다.

예를 들어, 제 1 차이 값과 제 2 차이 값이 수신되면, 이러한 수신된 차이 값 사이에 위치된 차이 값은 예를 들어, 선형 보간을 이용하여 근사화될 수 있다.

예를 들어, 시간 인스턴트 n=15에서의 제 1 차이 값이 차이 값(d[15]=5)를 가질 때. 그리고 시간 인스턴트 n=18에서의 제 2 차이 값이 차이 값(d[18]=2)를 가질 때. n=16, 및 d=17에 대한 차이 값은 d[16] = 4 및 d[17]=3으로서 선형으로 근사화될 수 있다.

추가 실시예에서, 메타데이터 샘플이 압축된 메타데이터 신호에 의해 포함될 때, 상기 메타데이터 샘플의 차이 값은 0인 것으로 간주되고, 수신되지 않은 차이 값의 선형 보간은 제로인 것으로 간주되는 상기 메타데이터 샘플에 기초하여 메타데이터 디코더에 의해 수행될 수 있다.

예를 들어, 하나의 차이 값(d= 8)이 n=16에 대해 송신될 때, 그리고 n=0 및 n=32에 대해, 메타데이터 샘플이 압축된 메타데이터 신호로 송신될 때, n=0 및 n=32에서의 송신되지 않은 차이 값은 0인 것으로 간주된다.

n은 시간을 표시하고, d[n]를 시간 인스턴트(n)에서의 차이 값으로 두자. 이 때:

d[16] = (8) (수신된 차이 값)

d[0] = 0(z(k)에 메타데이터 샘플이 존재할 때 차이 값으로 간주됨)

d[32] = 0(z(k)에 메타데이터 샘플이 존재할 때 차이 값으로 간주됨)

근사화된 차이 값 :

d[1] = 0.5; d[2] = 1; d[3]=1.5; d[4] = 2; d[5] = 2.5; d[6] = 3; d[7] = 3.5; d[8] = 4;

d[9] = 4.5; d[10] = 5; d[11]= 5.5; d[12] = 6; d[13] = 6.5; d[14] = 7; d[15] = 7.5;

d[17] = 7.5; d[18] = 7; d[19] = 6.5; d[20] = 6; d[21] = 5.5; d[22] = 5; d[23] = 4.5; d[24] = 4;

d[25]= 3.5; d[26] = 3; d[27] = 2.5; d[28] = 2; d[29]= 1.5; d[30] = 1; d[31] = 0.5.

실시예에서, 수신된 및 근사화된 차이 값은 (730에서) 대응하는 선형 보간된 샘플들에 추가된다.

다음에서, 바람직한 실시예들이 설명된다.

(객체) 메타데이터 인코더는 예를 들어, 주어진 크기(N)의 룩-어헤드(look-ahead) 버퍼를 이용하여 규칙적으로 (서브)샘플링된 시퀀스를 결합하여 인코딩될 수 있다. 이 버퍼가 충진되자마자, 전체 데이터 블록은 인코딩되고 송신된다. 인코딩된 객체 데이터는 2 부분으로 구성될 수 있고, 인트라코딩된 객체 데이터, 및 선택적으로 각 세그먼트의 미세 구조를 포함하는 차동 데이터 부분.

인트라코딩된 객체 데이터는 규칙적인 격자(예를 들어, 길이 1024의 매 32 오디오 프레임) 상에 샘플링되는 양자화 값(z(k))을 포함한다. 부울 변수는, 값이 각 객체에 대해 개별적으로 지정되거나, 값이 모든 객체들에 공통적으로 따른다는 것을 나타내는데 사용될 수 있다.

디코더는 선형 보간에 의해 인트라코딩된 객체 데이터로부터 거친 궤적을 도출하도록 구성될 수 있다. 궤적의 미세 구조는, 입력 궤적과 선형 보간 사이의 인코딩된 차이를 포함하는 차동 데이터 부분에 의해 주어진다. 방위각, 앙각, 반경 및 이득 값에 대한 상이한 양자화 단계들과 조합하여 다각형 표현은 원하는 부적절함 감소를 초래한다.

다각형 표현은, 회귀를 이용하지 않고 추가 중단 선정에 의해 원본 접근법과 상이한 라머-더글라스-푀커 알고리즘[10, 11]의 변형, 즉 모든 객체들 및 모든 객체 성분들에 대한 다각형 지점들의 최대치로부터 얻어질 수 있다.

결과적인 다각형 지점들은 비트 스트림 내에 지정되는 가변 워드 길이를 이용하여 차동 데이터 부분에서 인코딩될 수 있다. 추가 부울 변수들은 동일한 값의 공통 인코딩을 나타낸다.

다음에서, 실시예에 따른 객체 메타데이터 프레임 및 실시예에 따른 심볼 표현이 기재된다.

효율성의 이유로, 주기적으로 (서브)샘플링된 궤적 값들의 시퀀스가 결합하여 인코딩된다. 인코더는 주어진 크기의 룩-어헤드 버퍼를 이용할 수 있고, 이러한 버퍼가 충진되자마자, 전체 데이터 버퍼가 인코딩되고 송신된다. 이러한 인코딩된 객체 데이터(예를 들어, 객체 메타데이터에 대한 페이로드)는 예를 들어, 2개의 부분, 즉 인트라코딩된 객체 데이터(제 1 부분) 및 선택적으로 차동 데이터 부분(제 2 부분)을 포함할 수 있다.

다음 구문의 일부 또는 모든 부분은, 예를 들어, 이용될 수 있다:

다음에서, 일 실시예에 따른 인트라코딩된 객체 데이터가 설명된다:

인코딩된 객체 메타데이터의 랜덤 액세스를 지원하기 위하여, 모든 객체 메타데이터의 완전하고 자기-포함된(self-contained) 규격(specification)이 규칙적으로 전송될 필요가 있다. 이것은 규칙적 그리드(예를 들어, 길이 1024의 매 32개 프레임들)로 샘플링되는 양자화된 값들을 포함하는 인트라코딩된 객체 데이터("I-프레임들")를 통해 실현된다. 이러한 I-프레임들은 다음의 구문을 가질 수 있고, 여기서 position_azimuth, position_elevation, position_radius, 및 gain_factor는 현재의 I-프레임 이후의 iframe_period 프레임들에서 양자화된 값들을 규정한다:

다음에서, 실시예에 따른 차동 객체 데이터가 기재된다.

더 큰 정밀도를 갖는 근사화는 감소된 수의 샘플링 지점에 기초하여 다각형 코스를 송신함으로써 달성된다. 그 결과, 매우 산재된 3-차원 매트릭스가 송신될 수 있고, 여기서 제 1 차원은 객체 인덱스일 수 있고, 제 2 차원은 메타데이터 성분들(방위각, 앙각, 반경 및 이득)에 의해 형성될 수 있고, 제 3 차원은 다각형 샘플링 지점들의 프레임 인덱스일 수 있다. 추가 조치 없이, 매트릭스의 요소가 값을 포함하는 표시는 미리 num _object ^* num _components ^* (ifram _period-1) 비트를 요구한다. 이러한 양의 비트를 감소시키는 제 1 단계는, 4개의 성분 중 하나에 속하는 적어도 하나의 값인지의 여부를 나타내는 4개의 플래그들을 추가할 수 있다. 예를 들어, 드문 경우들에서만, 차동 반경 또는 이득 값이 있다는 것이 예상될 수 있다. 감소된 3-차원 매트릭스의 제 3 치수는 iframe_period-1 요소를 갖는 벡터를 포함한다. 매우 작은 수의 다각형 지점들이 예상되면, 프레임 인덱스들의 세트 및 이러한 세트의 농도에 의해 이러한 벡터를 파라미터화하는 것이 더 효율적일 수 있다. 예를 들어, Nperiod=32 프레임의 ifram _period, 16 다각형 지점의 최대 수에 대해, 이 방법은 Npoints < (32-log2(16))/log2(32) = 56 다각형 지점들에 대해 선호가능할 수 있다. 실시예에 따라, 그러한 코딩 방식에 대한 다음의 구문이 이용된다:

매크로 offset _ data()는 심플 비트필드로서 또는 전술한 개념들을 이용하여 다각형 지점들의 위치들(프레임 오프셋들)을 인코딩한다. num _ bits 값들은 큰 위치적 도약들을 허용하는 한편, 차동 데이터의 나머지는 더 작은 워드 크기로 인코딩된다.

특히, 실시예에서, 상기 매트로들은 예를 들어 다음의 의미를 가질 수 있다:

실시예에 따른 object_data() 페이로드들의 정의:

has _ differential _ metadata는 차동 객체 메타데이터가 존재하는 지의 여부를 나타냄

실시예에 따른 intracoded _object_ metadata () 페이로드들의 정의:

ifperiod는 독립적인 프레임들 사이에서의 프레임들의 수를 정의함

common_azimuth는 공통 방위각 각이 모든 개체에 사용되는 지의 여부를 나타냄

default_azimuth는 공통 방위각의 값을 정의함

position_azimuth은 공통 방위각 값이 없는 경우, 각 객체에 대한 값이 송신됨

common_elevation은 공통 앙각 값이 각 모든 객체에 대해 사용되는지 여부를 나타냄

default _ elevation은 공통 앙각의 값을 정의함

position _ elevation은 공통 앙각 값이 없는 경우에 각 객체에 대한 값이 송신됨

common _ radius은 공통 반경 값이 모든 객체에 대해 사용되는 지의 여부를 나타냄

default_radius는 공통 반경의 값을 정의함

position_radius는 공통 반경 값이 없는 경우, 각 객체에 대한 값이 송신됨

common_gain은 일반적인 이득 값이 모든 객체에 대해 사용되는 지의 여부를 나타냄

default_gain은 공통 이득 인자의 값을 정의함

gain_factor 공통 이득 값이 없는 경우, 각 객체에 대한 값이 송신됨

position_ azimuth 단지 하나의 객체가 존재하는 경우, 이것은 방위각임

position_ elevation 단지 하나의 객체가 존재하는 경우, 이것은 앙각임

position_ radius 단지 하나의 객체가 존재하는 경우, 이것은 반경임

gain_factor 단지 하나의 객체가 존재하는 경우 이것은 이득 인자임

실시예에 따른 differential _ object _ metadata () 페이로드들의 정의:

bits_per_ point 다각형 지점들의 수를 나타내는데 요구된 비트의 수

fixed_azimuth 방위각이 모든 객체에 대해 고정되는 지의 여부를 나타내는 플래그

flag_azimuth 방위각 값이 변하는 지의 여부를 나타내는 객체당 플래그

nbits _azimuth 차동 값을 표현하는데 얼마난 많은 비트가 요구되는 지

differential_ azimuth 선형 보간된 및 실제 값 사이의 차이의 값

fixed_elevation 앙각 값이 모든 객체에 대해 고정되는 지의 여부를 나타내는 플래그

flag_elevation 앙가 값이 변하는 지의 여부를 나타내는 객체당 플래그

nbits _elevation 차동 값을 표현하는데 얼마나 많은 비트가 요구되는 지

differential_elevation 선형 보간된 및 실제 값 사이의 차이의 값

fixed_radius 반경이 모든 객체에 대해 고정되는 지의 여부를 나타내는 플래그

flag_radius 반경이 변하는 지의 여부를 나타내는 객체당 플래그

nbits _radius 차동 값을 표현하는데 얼마나 많은 비트가 요구되는 지

differential_radius 선형 보간된 및 실제 값 사이의 차이의 값

fixed_gain 이득 인자가 모든 객체에 대해 고정되는 지의 여부를 나타내는 플래그

flag_gain 이득 반경이 변하는 지의 여부를 나타내는 플래그

nbits _gain 차동 값을 표현하는데 얼마나 많은 비트가 요구되는 지

differential_gain 선형 보간된 및 실제 값 사이의 차이의 값

실시예에 따른 offset_data() 페이로드들의 정의:

bitfield _syntax 다각형 인덱스들을 갖는 벡터가 비트 스트림에 존재하는 지의 여부를 나타내는 플래그

offset_ bitfield 다각형 지점이 있는 지의 여부에 따라 iframe_period의 각 지점에 대한 플래그를 포함하는 부울 어레이

npoints 다각형 지점들의 수에서 1을 뺀 값(num_points = npoints + 1)

foffset iframe_period(frame_offset = foffset+1) 내의 다각형 지점들의 시간 슬라이스 인덱스

일 실시예에 따르면, 메타데이터는 예컨대 정의된 타임스탬프들에서 (예를 들어, 방위각, 앙각 및 반경에 의해 표시되는) 주어진 위치들로서 매 오디오 객체에 대하여 전달될 수 있다.

종래 기술에서, 낮은 비트율에서 허용가능한 오디오 품질이 얻어지도록 한 편으로 채널 코딩과 다른 한 편으로 객체 코딩을 조합하는 융통성있는 기술은 존재하지 않는다.

이러한 제한은 3D 오디오 코덱 시스템에 의해 극복된다. 이제, 3D 오디오 코덱 시스템이 설명된다.

도 12는 본 발명의 실시예에 따른 3D 오디오 인코더를 도시한다. 3D 오디오 인코더는 오디오 출력 데이터(501)를 얻기 위해 오디오 입력 데이터(101)를 인코딩하기 위해 구성된다. 3D 오디오 인코더는 CH에 의해 표시된 복수의 오디오 채널 및 OBJ로 표시된 복수의 오디오 객체를 수신하기 위한 입력 인터페이스를 포함한다. 또한, 도 12에 도시된 바와 같이, 입력 인터페이스 (1100)는 하나 이상의 복수의 오디오 객체(OBJ)에 관련된 메타데이터를 추가적으로 수신한다. 또한, 3D 오디오 인코더는 복수의 사전-믹싱된 채널들을 얻기 위해 복수의 객체들과 복수의 채널들을 믹싱하기 위한 믹서(200)를 포함하고, 각 사전-믹싱된 채널은 채널의 오디오 데이터 및 적어도 하나의 객체의 오디오 데이터를 포함한다.

또한, 3D 오디오 인코더는 코어 인코더 입력 데이터를 코어 인코딩하기 위한 코어 인코더(300), 하나 이상의 복수의 오디오 객체에 관련된 메타데이터를 압축하기 위한 메타데이터 압축기(400)를 포함한다.

또한, 3D 오디오 인코더는 여러 동작 모드들 중 하나에서 믹서를 제어하기 위한 모드 제어기(600), 코어 인코더 및/또는 출력 인터페이스(500)를 포함할 수 있고, 제 1 모드에서, 코어 인코더는 믹서에 의한 어떠한 상호 작용 없이, 즉 믹서(200)에 의한 어떠한 믹싱 없이 입력 인터페이스(1100)에 의해 수신된 복수의 오디오 객체들 및 복수의 오디오 채널들을 인코딩하도록 구성된다. 하지만, 믹서(200)가 활성화된 제 2 모드에서, 코어 인코더는 복수의 믹싱된 채널들, 즉 블록(200)에 의해 생성된 출력을 인코딩한다. 이러한 후자의 경우에, 어떠한 객체 데이터도 더 이상 인코딩하지 않는 것이 바람직하다. 그 대신, 오디오 객체들의 위치들을 나타내는 메타데이터는 메타데이터에 의해 표시된 채널들 상에 객체들을 렌더링하기 위해 믹서(200)에 의해 이미 사용된다. 즉, 믹서(200)는 오디오 객체들을 사전 렌더링하기 위해 복수의 오디오 객체들에 관련돤 메타데이터를 이용하고, 사전-렌더링된 오디오 객체들은 믹서의 출력에서 믹싱된 채널들을 얻기 위해 채널들과 믹싱된다. 이 실시예에서, 임의의 객체들은 송신될 필요가 없을 수 있고, 이것은 또한 블록(400)에 의한 출력으로서 압축된 메타데이터에 적용된다. 하지만, 인터페이스(1100)에 입력된 모든 객체들이 믹싱되는 것은 아니고, 특정 양의 객체들이 믹싱되면, 그럼에도 불구하고 나머지 비-믹싱된 객체들 및 연관된 메타데이터만이 각각 코어 인코더(300) 또는 메타데이터 압축기(400)에 송신된다.

도 12에서, 메타데이터 압축기(400)는 전술한 실시예 중 하나에 따라 인코딩된 오디오 정보를 생성하기 위한 장치(250)의 메타데이터 인코더(210)이다. 또한, 도 12에서, 믹서(200) 및 코어 인코더(300)는 전술한 실시예 중 하나에 따라 인코딩된 오디오 정보를 생성하기 위한 장치(250)의 오디오 인코더(220)를 함께 형성한다.

도 14는 추가적으로, SAOC 인코더(800)를 포함하는 3D 오디오 인코더의 추가 실시예를 도시한다. SAOC 인코더(800)는 공간 오디오 객체 인코더 입력 데이터로부터 하나 이상의 전송 채널들과 파라메트릭 데이터를 생성하기 위해 구성된다. 도 14에 도시된 바와 같이. 공간 오디오 객체 인코더 입력 데이터는 사전-렌더러/믹서에 의해 처리되지 않은 객체이다. 대안적으로, 사전-렌더러/믹서가, 개별 채널/객체 코딩이 활성화된 모드 1로서 우회된다고 가정하면, 입력 인터페이스(1100)에 입력된 모든 객체는 SAOC 인코더(800)에 의해 인코딩된다.또한, 도 14에 도시된 바와 같이, 코어 인코더(300)는 USAC 인코더, 즉 MPEG-USAC 표준(USAC = 통합 음성 및 오디오 코딩)에서 정의되고 표준화된 인코더로서 바람직하게 구현된다. 도 14에 도시된 전체 3D 오디오 인코더의 출력은 개별적인 데이터 유형에 대한 컨테이너-형 구조를 갖는 MPEG 4 데이터 스트림이다. 또한, 메타데이터는 "OAM" 데이터로서 표시되고, 도 12에서의 메타데이터 압축기(400)는 QAM 인코더(400)에 대응하여, USAC 인코더(300)에 입력되는 압축된 OAM 데이터를 얻고, USAC 인코더(300)는 도 14에서 알 수 있듯이, 인코딩된 채널/객체 데이터를 가질 뿐 아니라 압축된 OAM 데이터를 갖는 MP4 출력 데이터 스트림을 얻기 위해 출력 인터페이스를 추가적으로 포함한다.

도 14에서, OAM 인코더(400)는 전술한 실시예 중 하나에 따라 인코딩된 오디오 정보를 생성하기 위한 장치(250)의 메타데이터 인코더(210)이다. 또한, 도 14에서, SAOC 인코더(800) 및 USAC 인코더(300)는 전술한 실시예 중 하나에 따라 인코딩된 오디오 정보를 생성하기 위한 장치(250)의 오디오 인코더(220)를 함께 형성한다.

도 16은 3D 오디오 인코더의 추가 실시예를 도시하고, 여기서 도 14와 대조적으로, SAOC 인코더는 SAOC 인코딩 알고리즘을 가지고, 이 모드에서 활성화되지 않는 사전-렌더러/믹서(200)에 제공된 채널들을 인코딩하고, 또는 대안적으로 사전-렌더링된 채널들에 객체들을 더한 것을 SAOC 인코딩하도록 구성될 수 있다. 따라서, 도 16에서. SAOC 인코더(800)는 상이한 3개의 유형의 입력 데이터, 즉 어떠한 사전-렌더링된 객체들을 갖지 않은 채널들, 사전-렌더링된 객체들을 갖는 채널들 또는 객체들 단독으로 동작할 수 있다. 또한, 처리를 위해 SAOC 인코더(800)가 디코더 측에서 동일한 데이터, 즉, 원본 OAM 데이터가 아니라 손실 압축에 의해 얻어진 데이터를 이용하도록 도 16에서 추가 OAM 디코더(420)를 제공하는 것이 바람직하다.

도 16에서, 3D 오디오 인코더는 여러 개별 모드에서 동작할 수 있다.도 12의 정황에서 논의된 바와 같이 제 1 및 제 2 모드뿐 외에도, 도 16의 3D 오디오 인코더는, 사전-렌더러/믹서(200)가 활성화되지 않을 때 코어 인코더가 개별 객체들로부터 하나 이상의 전송 채널들을 생성하는 제 3 모드로 추가적으로 동작할 수 있다. 대안적으로 또는 추가적으로, 이러한 제 3 모드에서, SAOC 인코더(800)는 즉, 다시 도 12의 믹서(200)에 대응하는 사전-렌더러/믹서(200)가 활성화되지 않을 때 원본 채널로부터 하나 이상의 대안적인 또는 추가적인 전송 채널을 생성할 수 있다.

마지막으로, SAOC 인코더(800)는, 3D 오디오 인코더가 제 4 모드로 구성될 때, 사전-렌더러/믹서에 의해 생성된 채널에 사전-렌더링된 객체들을 더한 것을 인코딩할 수 있다. 따라서, 제 4 모드에서, 가장 낮은 비트율 응용들은, 채널들 및 객체들이 "SAOC-SI"로서 도 3 및 도 5에 표시된 바와 같이 개별적인 SAOC 전송 채널들 및 연관된 부가 정보로 완전히 변환되었고, 추가적으로 이러한 제 4 모드에서 어떠한 압축된 메타데이터도 송신될 필요가 없다는 점으로 인해 양호한 품질을 제공할 것이다.

도 16에서, OAM 인코더(400)는 전술한 실시예 중 하나에 따라 인코딩된 오디오 정보를 생성하기 위한 장치(250)의 메타데이터 인코더(210)이다. 또한, 도 16에서, SAOC 인코더(800) 및 USAC 인코더(300)는 전술한 실시예 중 하나에 따라 인코딩된 오디오 정보를 생성하기 위한 장치(250)의 오디오 인코더(220)를 함께 형성한다.

실시예에 따라, 오디오 출력 데이터(501)를 얻기 위해 오디오 입력 데이터(101)를 인코딩하기 위한 장치가 제공된다. 오디오 입력 데이터(101)를 인코딩하기 위한 장치는:

- 복수의 오디오 채널들, 복수의 오디오 객체들, 및 복수의 오디오 객체들 중 하나 이상에 관련된 메타데이터를 수신하기 위한 입력 인터페이스(1100),

- 복수의 사전-믹싱된 채널들을 얻기 위해 복수의 객체들 및 복수의 채널들을 믹싱하기 위한 믹서(200)로서, 각 사전-믹싱된 채널은 채널의 오디오 데이터 및 적어도 하나의 객체의 오디오 데이터를 포함하는, 믹서(200), 및

- 전술한 바와 같이 메타데이터 인코더 및 오디오 인코더를 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치(250)를 포함한다.

인코딩된 오디오 정보를 생성하기 위한 장치(250)의 오디오 인코더(220)는 코어 인코더 입력 데이터를 코어 인코딩하기 위한 코어 인코더(300)이다.

인코딩된 오디오 정보를 생성하기 위한 장치(250)의 메타데이터 인코더 (210)는 하나 이상의 복수의 오디오 객체에 관련된 메타데이터를 압축하기 위한 메타데이터 압축기(400)이다.

도 13은 본 발명의 실시예에 따른 3D 오디오 디코더를 도시한다. 3D 오디오 디코더는 입력으로서, 인코딩된 오디오 데이터, 즉, 도 12의 데이터(501)를 수신한다.

3D 오디오 디코더는 메타데이터 압축 해제기(1400), 코어 디코더(1300), 객체 프로세서(1200), 모드 제어기(1600) 및 후치 프로세서(1700)를 포함한다.

특히, 3D 오디오 디코더는 인코딩된 오디오 데이터를 디코딩하기 위해 구성되고, 입력 인터페이스는 인코딩된 오디오 데이터를 수신하기 위해 구성되고, 인코딩된 오디오 데이터는 복수의 인코딩된 채널 및 복수의 인코딩된 객체들 및 복수의 객체들에 관련된 압축된 메타데이터를 특정 모드에서 수신하기 위해 구성된다.

또한, 코어 디코더(1300)는 복수의 인코딩된 채널들 및 복수의 인코딩된 객체들을 디코딩하기 위해 구성되고, 추가적으로, 메타데이터 압축 해제기는 압축된 메타데이터를 압축 해제하기 위해 구성된다.

또한, 객체 프로세서(1200)는 객체 데이터 및 디코딩된 채널들을 포함하는 미리 결정된 수의 출력 채널들을 얻기 위해 압축 해제된 메타데이터를 이용하여 코어 디코더(1300)에 의해 생성된 복수의 디코딩된 객체들을 처리하기 위해 구성된다. 1205로 표시된 이들 출력 채널들은 후치 프로세서(1700)에 입력된다. 후치 프로세서(1700)는 다수의 출력 채널들(1205)을, 5.1, 7.1 등의 출력 포맷과 같은 스피커 출력 포맷 또는 입체 음향 출력 포맷일 수 있는 특정 출력 포맷으로 변환하기 위해 구성된다.바람직하게는, 3D 오디오 디코더는 모드 표시를 검출하기 위해 인코딩된 데이터를 분석하기 위해 구성되는 모드 제어기(1600)를 포함한다. 그러므로, 모드 제어기(1600)는 도 13에서의 입력 인터페이스(1100)에 연결된다. 그러나, 대안적으로, 모드 제어기가 약;d[ 반드시 있을 필요는 없다. 그 대신에, 융통성있는 오디오 디코더는 사용자 입력 또는 임의의 다른 제어와 같은 임의의 다른 유형의 제어 데이터에 의해 사전 설정될 수 있다. 도 13에서의 3D 오디오 디코더. 및 바람직하게 모드 제어기(1600)에 의해 제어된 3D 오디오 디코더는 객체 프로세서를 우회하고 복수의 디코딩된 채널들을 후치 프로세서(1700)에 공급하도록 구성된다. 이것은, 즉 모드 2가 도 12의 3D 오디오 인코더에 적용될 때, 사전-렌더링된 채널들이 수신되는 모드 2에서의 동작이다. 대안적으로, 모드 1이 3D 오디오 인코더에 적용될 때, 즉 3D 오디오 인코더가 개별적인 채널/객체 코딩을 수행할 때, 객체 프로세서(1200)는 우회하지 않고, 복수의 디코딩된 채널들 및 복수의 디코딩된 객체들은 메타데이터 압축 해제기(1400)에 의해 생성된 압축 해제된 메타데이터와 함께 객체 프로세서(1200)에 공급된다.

바람직하게, 모드 1 또는 모드 2가 적용되는 지의 여부의 표시는 인코딩된 오디오 데이터에 포함되고, 모드 제어기(1600)는 모드 표시를 검출하기 위해 인코딩된 데이터를 분석한다. 모드 1은, 모드 표시가 인코딩된 오디오 데이터가 인코딩된 채널들 및 인코딩된 객체들을 포함한다는 것을 표시할 때 사용되고, 모드 2는, 모드 표시가 인코딩된 오디오 데이터가 어떠한 오디오 객체들도 포함하지 않는다는 것, 즉 도 12의 3D 오디오 인코더의 모드 2에 의해 얻어진 사전-렌더링된 채널들만을 포함한다는 것을 나타낼 때 적용된다.

도 13에서, 메타데이터 압축 해제기(1400)는 전술한 실시예 중 어느 하나에 따라 하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 메타데이터 디코더(110)이다. 또한, 도 13에서, 코어 디코더(1300), 객체 프로세서(1200) 및 후치 프로세서(1700)는 상술한 실시예 중 하나에 따라 하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 오디오 디코더(120)를 함께 형성한다.

도 15는 도 13의 3D 디코더와 비교된 바람직한 실시예를 도시하고, 도 15의 실시예는 도 14의 3D 오디오 인코더에 대응한다. 도 13의 3D 오디오 디코더 구현에 더하여, 도 15에서의 3D 오디오 디코더는 SAOC 디코더(1800)를 포함한다. 더욱이, 도 13의 객체 프로세서(1200)는 별개의 객체 렌더러(1210) 및 믹서(1220)로서 구현되는 한편, 모드에 따라, 객체 렌더러(1210)의 기능은 SAOC 디코더(1800)에 의해 또한 구현될 수 있다.

또한, 후치 프로세서(1700)는 입체 음향 렌더러(1710) 또는 포맷 변환기(1720)로서 구현된다. 대안적으로, 도 13의 데이터(1205)의 직접 출력은 또한 1730에 의해 도시된 바와 같이 구현될 수 있다. 따라서, 유연성을 갖고 더 작은 포맷이 요구되는 경우 후치-처리하기 위해 22.2 또는 32와 같은 가장 높은 수의 채널들 상에서 디코더에서의 처리를 수행하는 것이 바람직하다. 하지만, 5.1 포맷과 같은 작은 포맷만이 요구된다는 것이 바로 도입부로부터 명백하게 될 때, SAOC 디코더 및/또는 USAC 디코더를 통한 특정 제어가 불필요한 업믹싱 동작들 및 후속 다운믹싱 동작들을 피하기 위해 적용될 수 있다는 것이 숏컷(1727)에 의해 도 13 또는 도 6에 의해 표시된 바와 같이 바람직하다.

본 발명의 바람직한 실시예에서, 객체 프로세서(1200)는 SAOC 디코더(1800)를 포함하고, SAOC 디코더는 코어 디코더에 의해 출력된 하나 이상의 전송 채널들 및 연관된 파라메트릭 데이터를 디코딩하기 위해, 그리고 복수의 렌더링된 오디오 객체들을 얻기 위해 압축 해제된 메타데이터를 이용하기 위해 구성된다. 이 때문에, OAM 출력은 박스(1800)에 연결된다.

또한, 객체 프로세서(1200)는 코어 디코더에 의해 출력된 디코딩된 객체들을 렌더링하도록 구성되고, 이러한 디코딩된 객체들은 SAOC 전송 채널에서 인코딩되지 않고 객체 렌더러(1210)로 표시된 바와 같이 일반적으로 단일 채널링된 요소들에서 개별적으로 인코딩된다. 더욱이, 디코더는 믹서의 출력을 스피커들에 출력하기 위해 출력(1730)에 대응하는 출력 인터페이스를 포함한다.

추가 실시예에서, 객체 프로세서(1200)는 인코딩된 오디오 신호 또는 인코딩된 오디오 채널을 표현하는 하나 이상의 전송 채널들 및 연관된 파라메트릭 부가 정보를 디코딩하기 위한 공간 오디오 객체 코딩 디코더(1800)를 포함하고, 공간 오디오 객체 코딩 디코더는 연관된 파라메트릭 정보 및 압축 해제된 메타데이터를, 예를 들어, SAOC의 더 이른 버전에 정의된 것과 같이 출력 포맷을 직접 렌더링하기 위해 사용가능한 트랜스코딩된 파라메트릭 부가 정보로 트랜스코딩하도록 구성된다. 후치 프로세서(1700)는 디코딩된 전송 채널들 및 트랜스코딩된 파라메트릭 부가 정보를 이용하여 출력 포맷의 오디오 채널들을 계산하기 위해 구성된다. 후치 프로세서에 의해 수행되는 처리는 MPEG 서라운드 처리와 유사할 수 있거나 또는 BCC 처리 등과 같은 임의의 다른 처리일 수 있다.

추가 실시예에서, 객체 프로세서(1200)는 디코딩된(코어 디코더에 의해) 전송 채널들 및 파라메트릭 부가 정보를 이용하여 출력 포맷에 대한 채널 신호들을 직접 업믹싱 및 렌더링하도록 구성된 공간 오디오 객체 코딩 디코더(1800)를 포함한다.

더욱이, 그리고 중요하게, 도 13의 객체 프로세서(1200)는. 채널들로 믹싱된 사전-렌더링된 객체들이 존재할 때, 즉 도 12의 믹서(200)가 활성화될 때 USAC 디코더(1300)에 의해 출력된 데이터를 입력으로서 직접 수신하는 믹서(1220)를 추가적으로 포함한다. 추가적으로, 믹서(1220)는 SAOC 디코딩 없이 객체 렌더링을 수행하는 객체 렌더러로부터 데이터를 수신한다. 더욱이, 믹서는 SAOC 디코더 출력 데이터, 즉 SAOC 렌더링된 객체들을 수신한다.

믹서(1220)는 출력 인터페이스(1730), 입체 음향 렌더러(1710). 및 포맷 변환기(1720)에 연결된다. 입체 음향 렌더러(1710)는 헤드 관련 전달 함수들 또는 입체 음향 룸 임펄스 응답(BRIR)을 사용하여 출력 채널들을 두 개의 입체 음향 채널로 렌더링하기 위해 구성된다. 포맷 변환기(1720)는 출력 채널들을 믹서의 출력 채널(1205)보다 낮은 수의 채널들을 갖는 출력 포맷으로 변환하기 위해 구성되고, 포맷 변환기(1720)는 5.1 스피커들 등과 같은 재생 레이아웃에 관한 정보를 요구한다.

도 15에서, OAM 디코더(1400)는 전술한 실시예의 하나에 따라 하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 메타데이터 디코더(110)이다. 또한, 도 15에서, 객체 렌더러(1210), USAC 디코더(1300) 및 믹서(1220)는 전술한 실시예의 하나에 따라 하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 오디오 디코더(120)를 함께 형성한다.

도 17의 3D 오디오 디코더는, SAOC 디코더가 렌더링된 객체들을 생성할 수 없지만 렌더링된 채널들을 생성할 수 있다는 점에서 도 17의 3D 오디오 디코더와 상이하고, 이것은 도 16의 3D 오디오 인코더가 사용되었고 채널들/사전-렌더링된 객체들과 SAOC 인코더(800) 입력 인터페이스 사이의 연결(900)이 활성화될 때 그러하다.

또한, 벡터 기반 진폭 패닝(VBAP) 스테이지(1810)가 구성되고, SAOC 디코더로부터 재생 레이아웃에 관한 정보를 수하고, 렌더링 매트릭스를 SAOC 디코더에 출력하여, SAOC 디코더는 결국, 1205의 높은 채널 포맷, 즉 32 스피커에서 믹서의 어떠한 추가 동작 없이 렌더링된 채널들을 제공할 수 있다.

VBAP 블록은 바람직하게 렌더링 매트릭스를 도출하도록 디코딩된 OAM 데이터를 수신한다. 더 일반적으로, 바람직하게는 재생 레이아웃뿐만 아니라, 입력 신호가 재생 레이아웃 상에서 렌더링되어야 하는 위치의 기하학적 정보를 요구한다. 이 기하학적 입력 데이터는 SAOC를 이용하여 송신된 채널들에 대한 객체들 또는 채널 위치 정보에 대한 OAM 데이터일 수 있다.

하지만, 단지 특정 출력 인터페이스가 요구되면, VBAP 상태(1810)는 예컨대, 5.1 출력에 대한 요구된 랜더링 매트릭스를 미리 제공할 수 있다. SAOC 디코더(1800) SAOC 전송 채널, 연관된 파라 메트릭 데이터와 압축 해제된 메타데이터로부터 직접 렌더링을 수행하고, 믹서(1220)의 어떠한 상호 작용 없이 요구된 출력 포맷으로의 직접 렌더링을 수행한다. 하지만, 모드들 사이의 특정 믹스가 적용될 때, 즉 여러 채널들이 SAOC 인코딩되지만 모든 채널들이 SAOC 인코딩되지 않은 경우, 또는 여러 객체들이 SAOC 인코딩되지만 모든 객체들이 SAOC 인코딩되지 않은 경우, 또는 채널들을 갖는 사전-렌더링된 객체들의 특정 양이 SAOC 디코딩되고 나머지 채널들이 SAOC 처리되지 않을 때, 믹서는 개별적인 입력 부분들로부터, 즉 코어 디코더(1300)로부터 직접, 객체 렌더러(1210) 및 SAOC 디코더(1800)로부터 직접 데이터를 수집할 것이다.

도 17에서, OAM 디코더(1400)는 전술한 실시예의 하나에 따라 하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 메타데이터 디코더(110)이다. 또한, 도 17에서, 객체 렌더러(1210), USAC 디코더(1300), 및 믹서(1220)는 전술한 실시예의 하나에 따라 하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 오디오 디코더(120)를 함께 형성한다.

인코딩된 오디오 데이터를 디코딩하기 위한 장치가 제공된다. 인코딩된 오디오 데이터를 디코딩하기 위한 장치는

- 인코딩된 오디오 데이터를 수신하기 위한 입력 인터페이스(1100)로서, 인코딩된 오디오 데이터는 복수의 인코딩된 채널들 또는 복수의 인코딩된 객체들 또는 복수의 객체들에 관련된 압축 메타데이터를 포함하는, 입력 인터페이스(1100), 및

- 전술한 바와 같이 하나 이상의 오디오 채널들을 생성하기 위한 오디오 채널 생성기(120) 및 메타데이터 디코더(110)를 포함하는 장치(100)를

포함한다.

하나 생성 이상의 오디오 채널을 생성하기 위한 장치(100)의 메타데이터 디코더(110)는 압축된 메타데이터를 압축 해제하기 위한 메타데이터 압축 해제기(400)이다.

하나 이상의 오디오 채널을 생성하기 위한 장치(100)의 오디오 채널 생성기(120)는 복수의 인코딩된 채널들 및 복수의 인코딩된 객체들을 디코딩하기 위한 코어 디코더(1300)를 포함한다.

또한, 오디오 채널 생성기(120)는 객체들로부터의 오디오 데이터 및 디코딩된 채널들을 포함하는 다수의 출력 채널들(1205)을 얻기 위해 압축 해제된 메타데이터를 이용하여 복수의 디코딩된 객체들을 처리하기 위한 객체 프로세서(1200)를 더 포함한다.

또한, 오디오 채널 생성기(120)는 다수의 출력 채널들(1205)을 출력 포맷으로 변환하기 위한 후치 프로세서(1700)를 포함한다.

몇몇 양상들이 장치의 정황에서 기재되었지만, 이들 양상들이 또한 대응하는 방법의 설명을 나타내고, 여기서 블록 또는 디바이스가 방법 단계 또는 방법 단계의 특징에 대응한다는 것이 명확하다. 유사하게, 방법 단계의 정황에서 기재된 양상들은 또한 대응하는 블록 또는 항목 또는 대응하는 장치의 특징의 설명을 나타낸다.

본 발명의 압축 해제된 신호는 디지털 저장 매체 상에 저장될 수 있거나 인터넷과 같은 무선 송신 매체 상에서 송신될 수 있다.

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM, 또는 FLASH 메모리를 이용하여 수행될 수 있는데, 이러한 디지털 저장 매체는 그 위에 저장된 전자적으로 판독가능한 제어 신호들을 갖고, 각 방법이 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 그러므로, 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.

본 발명에 따른 몇몇 실시예들은, 본 명세서에 기재된 방법들 중 하나가 수행되도록, 프로그래밍가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 비-임시 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 프로그램 코드는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 방법들 중 하나를 수행하기 위해 동작가능하다. 프로그램 코드는 예를 들어, 기계 판독가능한 캐리어 상에 저장될 수 있다.

다른 실시예들은 기계 판독가능한 캐리어 상에 저장된, 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

즉, 그러므로, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

그러므로, 본 발명의 방법들의 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 그 위에 리코딩되게 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다.

그러므로, 본 발명의 방법의 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 시퀀스 또는 데이터 스트림이다. 예를 들어, 신호들의 시퀀스들 또는 데이터 스트림은 데이터 통신 접속을 통해, 예를 들어, 인터넷을 통해, 전송되도록 구성될 수 있다.

추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하도록 구성되거나 적응된 처리 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 논리 디바이스를 포함한다.

추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 위에 설치된 컴퓨터를 포함한다.

몇몇 실시예들에서, 프로그래밍가능 논리 디바이스(예를 들어, 전계 프로그래밍가능 게이트 어레이)는 본 명세서에 기재된 방법들의 기능들 중 몇몇 또는 전부를 수행하는데 사용될 수 있다. 몇몇 실시예들에서, 필드 프로그래밍가능 게이트 어레이는 본 명세서에 기재된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 임의의 하드웨어 장치에 의해 바람직하게 수행된다.

전술한 실시예들은 본 발명의 원리들을 위해 단지 예시적이다. 본 명세서에 기재된 세부사항들 및 배치들의 변형들 및 변경들이 당업자에게 명백하다는 것이 이해된다. 그러므로, 본 명세서에서 실시예들의 기재 및 설명에 의해 제공된 특정 세부사항들에 의해서가 아니라 다음의 특허 청구항들의 범주에 의해서만 제한되도록 의도된다.

인용 문헌들

[1] Peters, N., Lossius, T. and Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, Jul. 2012.

[2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Greece, 1997.

[3] Matthias Geier, Jens Ahrens, and Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, December 2010.

[4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dec. 2008.

[5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", Nov. 2008.

[6] MPEG, "ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio", 2009.

[7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Germany, May 2004

[8] Web3D, "International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997.

[9] Sporer, T. (2012), "Codierung rㅴumlicher Audiosignale mit leicht-gewichtigen Audio-Objekten", Proc. Annual Meeting of the German Audiological Society (DGA), Erlangen, Germany, Mar. 2012.

[10] Ramer, U. (1972), "An iterative procedure for the polygonal approximation of plane curves", Computer Graphics and Image Processing, 1(3), 244-256.

[11] Douglas, D.; Peucker, T. (1973), "Algorithms for the reduction of the number of points required to represent a digitized line or its caricature", The Canadian Cartographer 10(2), 112-122.

[12] Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning"; J. Audio Eng. Soc., Volume 45, Issue 6, pp. 456-466, June 1997.

Claims

하나 이상의 오디오 채널들을 생성하기 위한 장치(100)로서,
하나 이상의 압축된 메타데이터 신호들을 수신하기 위한 메타데이터 디코더(110)로서, 상기 하나 이상의 압축된 메타데이터 신호들 각각은 복수의 제 1 메타데이터 샘플들을 포함하고, 상기 하나 이상의 압축된 메타데이터 신호들 각각의 상기 제 1 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타내고, 상기 메타데이터 디코더(110)는 하나 이상의 재구성된 메타데이터 신호들을 생성하도록 구성되고, 그리고
상기 하나 이상의 오디오 객체 신호들에 따라 그리고 상기 하나 이상의 재구성된 메타데이터 신호들에 따라 상기 하나 이상의 오디오 채널들을 생성하기 위한 오디오 채널 생성기(120)를 포함하고,
상기 메타데이터 디코더(110)는 상기 하나 이상의 재구성된 메타데이터 신호들을 생성하도록 구성되어, 상기 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호는 상기 하나 이상의 압축된 메타데이터 신호들의 압축된 메타데이터 신호의 상기 제 1 메타데이터 샘플들을 포함하고, 상기 재구성된 메타데이터 신호는 상기 압축된 메타데이터 신호와 연관되고, 복수의 제 2 메타데이터 샘플들을 더 포함하고, 상기 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호에 대한 복수의 근사화된(approximated) 메타데이터 샘플들을 생성함으로써 상기 하나 이상의 재구성된 메타데이터 신호들 각각의 상기 제 2 메타데이터 샘플들을 생성하도록 구성되고, 상기 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 상기 제 1 메타데이터 샘플들의 적어도 2개에 따라 상기 복수의 근사화된 메타데이터 샘플들 각각을 생성하도록 구성되고, 그리고
상기 메타데이터 디코더(110)는 하나 이상의 압축된 메타데이터 신호들의 압축된 메타데이터 신호에 대한 복수의 차이 값들을 수신하도록 구성되고, 상기 재구성된 메타데이터 신호의 상기 제 2 메타데이터 샘플들을 얻기 위해 상기 압축된 메타데이터 신호와 연관되는 상기 재구성된 메타데이터의 상기 근사화된 메타데이터 샘플들 중 하나에 상기 복수의 차이 값들 각각을 추가하도록 구성되는, 하나 이상의 오디오 채널들을 생성하기 위한 장치.
제 1항에 있어서, 상기 메타데이터 디코더(110)는 상기 하나 이상의 압축된 메타데이터 신호들의 하나를 업샘플링(upsampling)함으로써 상기 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호를 생성하도록 구성되고, 상기 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 상기 제 1 메타데이터 샘플들의 적어도 2개에 따라 선형 보간을 수행함으로써 상기 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호의 상기 제 2 메타데이터 샘플들 각각을 생성하도록 구성되는, 하나 이상의 오디오 채널들을 생성하기 위한 장치.
제 1항에 있어서,
상기 메타데이터 디코더(110)는 상기 하나 이상의 압축된 메타데이터 신호들의 압축된 메타데이터 신호에 대한 상기 복수의 차이 값들을 수신하도록 구성되고, 상기 차이 값들 각각은 상기 압축된 메타데이터 신호와 연관되는 상기 재구성된 메타데이터 신호의 상기 근사화된 메타데이터 샘플들 중 하나에 할당된 수신된 차이 값이고,
상기 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 상기 제 2 메타데이터 샘플들 중 하나를 얻기 위해 상기 수신된 차이 값과 연관된 상기 근사화된 메타데이터 샘플에 상기 복수의 수신된 차이 값들의 각 수신된 차이값을 추가하도록 구성되고,
상기 메타데이터 디코더(110)는, 상기 복수의 수신된 차이 값들이 상기 근사화된 메타데이터 샘플과 연관되지 않을 때, 상기 압축된 메타데이터 신호와 연관된 상기 재구성된 메타데이터 신호의 상기 복수의 근사화된 메타데이터 샘플들의 각 근사화된 메타데이터 샘플에 대한 상기 복수의 수신된 차이 값들 하나 이상에 따라 근사화된 차이 값을 결정하도록 구성되고,
상기 메타데이터 디코더(110)는 상기 재구성된 메타데이터 신호의 상기 제 2 메타데이터 샘플들 중 다른 것을 얻기 위해 상기 근사화된 차이 값의 상기 근사화된 메타데이터 샘플에 상기 복수의 근사화된 차이 값들의 각 근사화된 차이 값을 추가하도록 구성되는, 하나 이상의 오디오 채널들을 생성하기 위한 장치.
제 1 항에 있어서,
상기 하나 이상의 재구성된 메타데이터 신호들의 적어도 하나는 상기 하나 이상의 오디오 객체 신호들 중 하나에 관한 위치 정보를 포함하거나, 상기 하나 이상의 오디오 객체 신호들의 상기 하나에 관한 상기 위치 정보의 스케일링된 표현(scaled representation)을 포함하고,
상기 오디오 채널 생성기(120)는 상기 하나 이상의 오디오 객체 신호들의 상기 하나에 따라, 그리고 상기 위치 정보에 따라 상기 하나 이상의 오디오 채널들 중 적어도 하나를 생성하도록 구성되는, 하나 이상의 오디오 채널들을 생성하기 위한 장치.
제 1항에 있어서,
상기 하나 이상의 재구성된 메타데이터 신호들의 적어도 하나는 상기 하나 이상의 오디오 객체 신호들 중 하나의 볼륨(volume)을 포함하거나, 상기 하나 이상의 오디오 객체 신호들의 상기 하나의 상기 볼륨의 스케일링된 표현을 포함하고,
상기 오디오 채널 생성기(120)는 상기 하나 이상의 오디오 객체 신호들의 상기 하나에 따라 그리고 상기 볼륨에 따라 상기 하나 이상의 오디오 채널들 중 적어도 하나를 생성하도록 구성되는, 하나 이상의 오디오 채널들을 생성하기 위한 장치.
제 1항에 있어서,
상기 장치(100)는 랜덤 액세스 정보를 수신하도록 구성되고, 상기 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호에 대해, 상기 랜덤 액세스 정보는 상기 압축된 메타데이터 신호의 액세스된 신호 부분을 나타내고, 상기 메타데이터 신호의 적어도 하나의 다른 신호 부분은 상기 랜덤 액세스 정보에 의해 표시되지 않고, 상기 메타데이터 디코더(110)는 상기 압축된 메타데이터 신호의 상기 액세스된 신호 부분의 상기 제 1 메타데이터 샘플들에 따라, 상기 압축된 메타데이터 신호의 임의의 다른 신호 부분의 임의의 다른 제 1 메타데이터 샘플들에 따르지 않고 상기 하나 이상의 재구성된 메타데이터 신호들 중 하나를 생성하도록 구성되는, 하나 이상의 오디오 채널들을 생성하기 위한 장치.
하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 장치(250)로서,
하나 이상의 원본 메타데이터 신호들을 수신하기 위한 메타데이터 인코더(210)로서, 상기 하나 이상의 원본 메타데이터 신호들 각각은 복수의 메타데이터 샘플들을 포함하고, 상기 하나 이상의 원본 메타데이터 신호들 각각의 상기 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타내고, 상기 메타데이터 인코더(210)는 상기 하나 이상의 압축된 메타데이터 신호들을 생성하도록 구성되고, 그리고
상기 하나 이상의 인코딩된 오디오 신호들을 얻기 위해 상기 하나 이상의 오디오 객체 신호들을 인코딩하기 위한 오디오 인코더(220)를 포함하고,
상기 메타데이터 인코더(210)는 상기 하나 이상의 압축된 메타데이터 신호들을 생성하도록 구성되어, 상기 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호는 상기 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호의 상기 메타데이터 샘플들 중 2개 이상의 메타데이터 샘플들의 제 1 그룹을 포함하고, 상기 압축된 메타데이터 신호는 상기 원본 메타데이터 신호와 연관되고, 상기 압축된 메타데이터 신호는 상기 원본 메타데이터 신호들의 상기 하나의 원본 메타데이터 신호의 상기 메타데이터 샘플들의 다른 2개 이상의 메타데이터 샘플들의 제 2 그룹의 임의의 메타데이터 샘플을 포함하지 않고, 그리고
상기 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호에 의해 포함되고, 또한 상기 원본 메타데이터 신호와 연관된 상기 압축된 메타데이터 신호에 의해 포함되는 상기 메타데이터 샘플들 각각은 복수의 제 1 메타데이터 샘플들 중 하나이고,
상기 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호에 의해 포함되고, 상기 원본 메타데이터 신호와 연관된 상기 압축된 메타데이터 신호에 의해 포함되지 않는 상기 메타데이터 샘플들 각각은 복수의 제 2 메타데이터 샘플들 중 하나이고,
상기 메타데이터 인코더(210)는 상기 하나 이상의 원본 메타데이터 신호들 중 상기 하나의 원본 메타데이터 신호의 상기 제 1 메타데이터 샘플들 중 적어도 2개에 따라 선형 보간을 수행함으로써 상기 원본 메타데이터 신호들 중 하나의 원본 메타데이터 신호의 복수의 제 2 메타데이터 샘플들 각각에 대한 근사화된 메타데이터 샘플을 생성하도록 구성되고,
상기 메타데이터 인코더(210)는 상기 하나 이상의 원본 메타데이터 신호들 중 상기 하나의 원본 메타데이터 신호의 상기 복수의 제 2 메타데이터 샘플들의 각 제 2 메타데이터 샘플의 차이 값을 생성하도록 구성되어, 상기 차이 값은 상기 제 2 메타데이터 샘플과 상기 제 2 메타데이터 샘플의 상기 근사화된 메타데이터 샘플 사이의 차이를 나타내는, 인코딩된 오디오 정보를 생성하기 위한 장치.
제 7 항에 있어서,
상기 메타데이터 인코더(210)는, 상기 하나 이상의 원본 메타데이터 신호들의 상기 하나의 원본 메타데이터 신호의 상기 복수의 제 2 메타데이터 샘플들의 상기 차이 값들의 적어도 하나에 대하여 상기 차이 값들의 적어도 하나 각각이 임계값보다 큰지의 여부를 결정하도록 구성되는, 인코딩된 오디오 정보를 생성하기 위한 장치.
제 7 항에 있어서,
상기 메타데이터 인코더(210)는 비트들의 제 1 수로 상기 하나 이상의 압축된 메타데이터 신호들 중 하나의 압축된 메타데이터 신호의 상기 메타데이터 샘플들의 하나 이상을 인코딩하도록 구성되고, 상기 하나 이상의 압축된 메타데이터 신호들의 상기 하나의 압축된 메타데이터 신호의 상기 메타데이터 샘플들의 상기 하나 이상 각각은 정수를 나타내고,
상기 메타데이터 인코더(210)는 비트들의 제 2 수로 상기 복수의 제 2 메타데이터 샘플들의 상기 차이 값들의 하나 이상을 인코딩하도록 구성되고, 상기 복수의 메타데이터 샘플들의 상기 차이 값들의 상기 하나 이상 각각은 정수를 나타내고,
상기 비트들의 제 2 수는 상기 비트들의 제 1 수보다 작은, 인코딩된 오디오 정보를 생성하기 위한 장치.
제 7 항에 있어서,
상기 하나 이상의 원본 메타데이터 신호들의 적어도 하나는 상기 하나 이상의 오디오 객체 신호들 중 하나에 관한 위치 정보를 포함하거나, 상기 하나 이상의 오디오 객체 신호들의 상기 하나의 오디오 객체 신호에 관한 상기 위치 정보의 스케일링된 표현을 포함하고,
상기 메타데이터 인코더(210)는 상기 하나 이상의 메타데이터 신호들의 상기 적어도 하나에 따라 상기 하나 이상의 압축된 메타데이터 신호들의 적어도 하나를 생성하도록 구성되는, 인코딩된 오디오 정보를 생성하기 위한 장치.
제 7 항에 있어서,
상기 하나 이상의 원본 메타데이터 신호들의 적어도 하나는 상기 하나 이상의 오디오 객체 신호들의 하나의 오디오 객체 신호의 볼륨을 포함하거나, 상기 하나 이상의 오디오 객체 신호들의 상기 하나의 오디오 객체 신호의 상기 볼륨의 스케일링된 표현을 포함하고,
상기 메타데이터 인코더(210)는 상기 하나 이상의 원본 메타데이터 신호들의 상기 적어도 하나에 따라 상기 하나 이상의 압축된 메타데이터 신호들의 적어도 하나를 생성하도록 구성되는, 인코딩된 오디오 정보를 생성하기 위한 장치.
시스템으로서,
하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하기 위한 제 7항 내지 제 11항 중 어느 한 항에 따른 장치(250), 및
상기 하나 이상의 인코딩된 오디오 신호들 및 상기 하나 이상의 압축된 메타데이터 신호들을 수신하고, 상기 하나 이상의 인코딩된 오디오 신호들에 따라 그리고 상기 하나 이상의 압축된 메타데이터 신호들에 따라 하나 이상의 오디오 채널들을 생성하기 위한 제 1항 내지 제 6항 중 어느 한 항에 따른 장치(100)를 포함하는, 시스템.
하나 이상의 오디오 채널들을 생성하기 위한 방법으로서,
하나 이상의 압축된 메타데이터 신호들을 수신하는 단계로서, 상기 하나 이상의 압축된 메타데이터 신호들 각각은 복수의 제 1 메타데이터 샘플들을 포함하고, 상기 하나 이상의 압축된 메타데이터 신호들 각각의 상기 제 1 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 포함하는, 수신하는 단계, 및
하나 이상의 재구성된 메타데이터 신호들을 생성하는 단계를 포함하고,
상기 하나 이상의 오디오 객체 신호들에 따라 그리고 상기 하나 이상의 재구성된 메타데이터 신호들에 따라 상기 하나 이상의 오디오 채널들을 생성하는 단계를 포함하고,
상기 하나 이상의 재구성된 메타데이터 신호들을 생성하는 단계는 상기 하나 이상의 재구성된 메타데이터 신호들의 각 재구성된 메타데이터 신호가 상기 하나 이상의 압축된 메타데이터 신호들의 압축된 메타데이터 신호의 상기 제 1 메타데이터 샘플들을 포함하고, 상기 재구성된 메타데이터 신호가 상기 압축된 메타데이터 신호와 연관되고, 복수의 제 2 메타데이터 샘플들을 더 포함하도록 수행되고, 상기 하나 이상의 재구성된 메타데이터 신호들을 생성하는 단계는 상기 재구성된 메타데이터 신호에 대한 복수의 근사화된 메타데이터 샘플들을 생성함으로써 상기 하나 이상의 재구성된 메타데이터 신호들 각각의 상기 제 2 메타데이터 샘플들을 생성하는 단계를 포함하고, 상기 복수의 근사화된 메타데이터 샘플를 각각을 생성하는 단계는 상기 재구성된 메타데이터 신호의 상기 제 1 메타데이터 샘플들 중 적어도 2개에 따라 수행되고, 그리고
상기 방법은 상기 하나 이상의 압축된 메타데이터 신호들의 압축된 메타데이터에 대한 복수의 차이 값들을 수신하는 단계와, 상기 재구성된 메타데이터 신호의 상기 제 2 메타데이터 샘플들을 얻기 위해 상기 압축된 메타데이터 신호와 연관되는 상기 재구성된 메타데이터 신호의 상기 근사화된 메타데이터 샘플들의 하나에 상기 복수의 차이 값들 각각을 추가하는 단계를 더 포함하는, 하나 이상의 오디오 채널들을 생성하기 위한 방법.
하나 이상의 인코딩된 오디오 신호들 및 하나 이상의 압축된 메타데이터 신호들을 포함하는 인코딩된 오디오 정보를 생성하는 방법으로서,
하나 이상의 원본 메타데이터 신호들을 수신하는 단계로서, 상기 하나 이상의 원본 메타데이터 신호들 각각은 복수의 메타데이터 샘플들을 포함하고, 상기 하나 이상의 원본 메타데이터 신호들 각각의 상기 메타데이터 샘플들은 하나 이상의 오디오 객체 신호들의 오디오 객체 신호와 연관된 정보를 나타내는, 수신하는 단계,
상기 하나 이상의 압축된 메타데이터 신호들을 생성하는 단계, 및
상기 하나 이상의 인코딩된 오디오 신호들을 얻기 위해 상기 하나 이상의 오디오 객체 신호들을 인코딩하는 단계를 포함하고,
상기 하나 이상의 압축된 메타데이터 신호들을 생성하는 단계는 상기 하나 이상의 압축된 메타데이터 신호들의 각 압축된 메타데이터 신호가 상기 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호의 상기 메타데이터 샘플들 중 2개 이상의 메타데이터 샘플들의 제 1 그룹을 포함하고, 상기 압축된 메타데이터 신호가 상기 원본 메타데이터 신호와 연관되고, 상기 압축된 메타데이터 신호가 상기 원본 메타데이터 신호들의 상기 하나의 원본 메타데이터 신호의 상기 메타데이터 샘플들의 다른 2개 이상의 메타데이터 샘플들의 제 2 그룹의 임의의 메타데이터 샘플을 포함하지 않도록 수행되고, 그리고
상기 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호에 의해 포함되고, 또한 상기 원본 메타데이터 신호와 연관된 상기 압축된 메타데이터 신호에 의해 포함되는 상기 메타데이터 샘플들 각각은 복수의 제 1 메타데이터 샘플들 중 하나이고,
상기 하나 이상의 원본 메타데이터 신호들의 원본 메타데이터 신호에 의해 포함되고, 상기 원본 메타데이터 신호와 연관된 상기 압축된 메타데이터 신호에 의해 포함되지 않는 상기 메타데이터 샘플들 각각은 복수의 제 2 메타데이터 샘플들 중 하나이고,
상기 방법은 상기 하나 이상의 원본 메타데이터 신호들 중 상기 하나의 원본 메타데이터 신호의 상기 제 1 메타데이터 샘플들 중 적어도 2개에 따라 선형 보간을 수행함으로써 상기 원본 메타데이터 신호들 중 하나의 원본 메타데이터 신호의 복수의 제 2 메타데이터 샘플들 각각에 대한 근사화된 메타데이터 샘플을 생성하는 단계를 더 포함하고,
상기 방법은 상기 하나 이상의 원본 메타데이터 신호들 중 상기 하나의 원본 메타데이터 신호의 상기 복수의 제 2 메타데이터 샘플들의 각 제 2 메타데이터 샘플의 차이 값을 생성하는 단계를 더 포함하고, 상기 차이 값은 상기 제 2 메타데이터 샘플과 상기 제 2 메타데이터 샘플의 상기 근사화된 메타데이터 샘플 사이의 차이를 나타내는, 인코딩된 오디오 정보를 생성하는 방법.
컴퓨터 또는 신호 프로세서 상에서 실행될 때 제 13항 또는 제 14항의 방법을 구현하기 위하여 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램.
오디오 출력 데이터(501)를 얻기 위해 오디오 입력 데이터(101)를 인코딩하기 위한 장치로서,
복수의 오디오 채널들, 복수의 오디오 객체들, 및 상기 복수의 오디오 객체들 중 하나 이상에 관련된 메타데이터를 수신하기 위한 입력 인터페이스(1100),
복수의 사전-믹싱된 채널들을 얻기 위해 상기 복수의 객체들 및 상기 복수의 채널들을 믹싱하기 위한 믹서(200)로서, 각 사전-믹싱된 채널은 채널의 오디오 데이터 및 적어도 하나의 객체의 오디오 데이터를 포함하는, 믹서(200), 및
제 7항 내지 제 11항 중 어느 한 항에 따른 장치(250)를 포함하고,
제 7항 내지 제 11항 중 어느 한 항에 따른 장치(250)의 상기 오디오 인코더(220)는 코어 인코더 입력 데이터를 코어 인코딩하기 위한 코어 인코더(300)이고,
제 7항 내지 제 11항 중 어느 한 항에 따른 장치(250)의 상기 메타데이터 인코더(210)는 상기 복수의 오디오 객체들의 하나 이상에 관련된 상기 메타데이터를 압축하기 위한 메타데이터 압축기(400)인, 오디오 출력 데이터를 얻기 위해 오디오 입력 데이터를 인코딩하기 위한 장치.
인코딩된 오디오 데이터를 디코딩하기 위한 장치로서,
상기 인코딩된 오디오 데이터를 수신하기 위한 입력 인터페이스(1100)로서, 상기 인코딩된 오디오 데이터는 복수의 인코딩된 채널들 또는 복수의 인코딩된 객체들, 또는 상기 복수의 객체들에 관련된 압축 메타데이터를 포함하는, 입력 인터페이스(1100),
제 1항 내지 제 6항 중 어느 한 항에 따른 장치(100)를 포함하고,
제 1항 내지 제 6항 중 어느 한 항에 따른 장치(200)의 상기 메타데이터 디코더(110)는 압축된 메타데이터를 압축 해제하기 위한 메타데이터 압축 해제기(400)이고,
제 1항 내지 제 6항 중 어느 한 항에 따른 장치(100)의 상기 오디오 채널 생성기(120)는 상기 복수의 인코딩된 채널들 및 상기 복수의 인코딩된 객체들을 디코딩하기 위한 코어 디코더(1300)를 포함하고,
상기 오디오 채널 생성기(120)는 상기 객체들로부터의 오디오 데이터 및 상기 디코딩된 채널들을 포함하는 다수의 출력 채널들(1205)을 얻기 위해 상기 압축 해제된 메타데이터를 이용하여 상기 복수의 디코딩된 객체들을 처리하기 위한 객체 프로세서(1200)를 더 포함하고,
상기 오디오 채널 생성기(120)는 상기 다수의 출력 채널들(1205)을 출력 포맷으로 변환하기 위한 후치 프로세서(1700)를 더 포함하는, 인코딩된 오디오 데이터를 디코딩하기 위한 장치.
삭제
삭제