KR20230088402A

KR20230088402A - 복수의 오디오 객체를 인코딩하는 장치 및 방법 또는 둘 이상의 관련 오디오 객체를 이용하여 디코딩하는 장치 및 방법(Apparatus and method for encoding a plurality of audio objects or appratus and method for decoding using two or more relevant audio objects)

Info

Publication number: KR20230088402A
Application number: KR1020237015921A
Authority: KR
Inventors: 안드레아 에이첸시어; 스리칸트 코세; 스테판 바이어; 파비안 쾌치; 올리버 티에르가르트; 기욤 퍼치스; 도미니크 웨크베커; 위르겐 헐르; 마커스 뮬트러스
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2020-10-13
Filing date: 2021-10-12
Publication date: 2023-06-19
Also published as: US20230238007A1; TWI804004B; ZA202304331B; TW202223880A; WO2022079044A1; EP4229630A1; MX2023004248A; CA3195295A1; JP2023546850A; TW202316416A; AU2021359777A1

Abstract

복수의 오디오 객체를 인코딩하는 장치로서, 상기 장치는 시간 프레임과 관련된 복수의 주파수 빈 중 하나 이상의 주파수 빈에 대해 적어도 2개의 관련 오디오 객체에 대한 파라미터 데이터를 계산하도록 구성된 객체 파라미터 계산기(100)로서, 상기 적어도 2개의 관련 오디오 객체의 개수는 상기 복수의 오디오 객체의 총 개수보다 적은, 상기 객체 파라미터 계산기(100), 및 상기 하나 이상의 주파수 빈에 대한 상기 적어도 두 개의 관련 오디오 객체에 대한 상기 파라미터 데이터에 대한 정보를 포함하는 인코딩된 오디오 신호를 출력하기 위한 출력 인터페이스(200)를 포함한다.

Description

복수의 오디오 객체를 인코딩하는 장치 및 방법 또는 둘 이상의 관련 오디오 객체를 이용하여 디코딩하는 장치 및 방법(Apparatus and method for encoding a plurality of audio objects or appratus and method for decoding using two or more relevant audio objects)

본 발명은 예를 들어 오디오 객체와 같은 오디오 신호의 인코딩 및 인코딩된 오디오 객체와 같은 인코딩된 오디오 신호의 디코딩에 관한 것이다.

개요

본 문서는 방향성 오디오 코딩(DirAC: Directional Audio Coding)를 사용하여 낮은 비트 전송률로 객체 기반 오디오 콘텐츠를 인코딩 및 디코딩하기 위한 파라메트릭 접근 방식을 기술한다. 제시된 실시예는 3GPP IVAS(Immersive Voice and Audio Services) 코덱의 일부로서 동작하며, 이산 코딩 접근법인 ISM(Independent Stream with Metadata) 모드의 낮은 비트레이트에 대한 유리한 대체를 제공한다.

종래기술

객체의 독립 부호화(Discrete Coding of Objects)

객체 기반 오디오 콘텐츠를 코딩하는 가장 간단한 접근 방식은 해당 메타데이터와 함께 객체를 개별적으로 코딩하고 전송하는 것이다. 이 접근 방식의 주요 단점은 객체 수가 증가함에 따라 객체를 인코딩하는 데 필요한 엄청난 비트 소비이다. 이 문제에 대한 간단한 해결책은 "파라메트릭 접근 방식"을 사용하는 것인데, 여기서 일부 관련 매개 변수는 입력 신호에서 계산되고 양자화되며 여러 객체 파형을 결합하는 적절한 다운믹스 신호와 함께 전송된다.

공간 오디오 객체 코딩(SAOC: Spatial Audio Object Coding)

공간 오디오 객체 코딩[SAOC_STD, SAOC_AES]은 인코더가 일부 다운믹스 행렬 D와 일련의 파라미터를 기반으로 다운믹스 신호를 계산하고 둘 다 디코더로 전송하는 파라메트릭 접근 방식이다. 파라미터는 모든 개별 객체의 음향심리학적 관련 속성 및 관계를 나타낸다. 디코더에서 다운믹스는 렌더링 행렬 R을 사용하여 특정 라우드스피커 레이아웃으로 렌더링된다.

SAOC의 주요 파라미터는 NxN 크기의 객체 공분산 행렬 E이다. 여기서 N은 객체 수를 나타낸다. 이 파라미터는 객체 수준 차이(OLD: object level difference) 및 선택적 객체 간 공분산(IOC: inter-object covariance)으로 디코더로 전송된다.

행렬 E의 개별 요소

는 다음과 같이 주어진다:

객체 수준 차이(OLD)는 다음과 같이 정의된다

여기서

및 절대 객체 에너지(NRG: absolute object energy)는 다음과 같이 설명된다

및

여기서 i 및 j는 각각 객체

및

에 대한 객체 인덱스이고, n은 시간 인덱스를 나타내고 k는 주파수 인덱스를 나타낸다. l은 시간 인덱스 집합을 나타내고 m은 주파수 인덱스 집합을 나타낸다. ε는 0으로 나누기를 피하기 위한 추가 상수이다(예: ε = 10).

입력 객체(IOC)의 유사성 측정은 예를 들어 교차 상관에 의해 주어질 수 있다:

크기 N_dmx x N의 다운믹스 행렬 D은 요소

에 의해 정의되며, 여기서 i는 다운믹스 신호의 채널 인덱스를 나타내고 j는 객체 인덱스를 나타낸다. 스테레오 다운믹스(N_dmx = 2)의 경우

는 DMG 및 DCLD 파라미터에서 다음과 같이 계산된다.

여기서

및

는 다음과 같이 주어진다:

모노 다운믹스(N_dmx = 1)의 경우,

는 다음과 같이 DMG 파라미터로만 계산된다.

여기서

공간 오디오 객체 코딩-3D (SAOC-3D)

SAOC-3D(공간 오디오 객체 코딩) 3D 오디오 재생(SAOC-3D) [MPEGH_AES, MPEGH_IEEE, MPEGH_STD, SAOC_3D_PAT]은 위에서 설명한 MPEG SAOC 기술의 확장으로 채널 및 객체 신호를 매우 비트레이트 효율적인 방식으로 압축하고 렌더링한다.

SAOC와의 주요 차이점은 다음과 같다:

·원래 SAOC는 최대 2개의 다운믹스 채널만 지원하지만 SAOC-3D는 다중 객체 입력을 임의의 수의 다운믹스 채널(및 관련 부가 정보)에 매핑할 수 있다.

·다중 채널 출력으로의 렌더링은 MPEG 서라운드(MPEG Surround)를 다중 채널 출력 프로세서로 사용해 온 기존 SAOC와 달리 직접 수행된다.

·잔류 코딩 도구와 같은 일부 도구가 삭제되었다.

이러한 차이점에도 불구하고 SAOC-3D는 파라미터 관점에서 SAOC와 동일하다. SAOC 디코더와 유사한 SAOC-3D 디코더는 다중 채널 다운믹스 X, 공분산 행렬 E, 렌더링 행렬 R 및 다운믹스 행렬 D 를 수신한다.

렌더링 행렬 R은 입력 채널과 입력 객체에 의해 정의되며 각각 포맷 컨버터(채널)와 객체 렌더러(객체)로부터 수신된다.

다운믹스 행렬 D은 요소

로 정의되며, 여기서 i는 다운믹스 신호의 채널 인덱스를 나타내고 j는 객체 인덱스를 나타내며 다운믹스 이득(DMG)에서 계산된다:

여기서

크기가 N_out * N_out 인 출력 공분산 행렬 C는 다음과 같이 정의된다:

관련된 방식

위에서 설명한 것처럼 본질적으로 SAOC와 유사하지만 약간의 차이가 있는 몇 가지 다른 방식이 있다:

- 객체에 대한 바이노럴 큐 코딩(BCC: Binaural Cue Coding)은 예를 들어 [BCC2001]에 설명되어 있으며 SAOC 기술의 전신이다.

- 조인트 객체 코딩JOC(Joint Object Coding) 및 어드밴스드 조인트 객체 코딩(A-JOC: Advanced Joint Object Coding)는 SAOC와 유사한 기능을 수행하면서 대략적으로 분리된 객체를 특정 출력 스피커 레이아웃으로 렌더링하지 않고 디코더 측에서 전달한다[JOC_AES, AC4_AES]. 이 기술은 업믹스 행렬의 요소를 다운믹스에서 분리된 객체로 (OLD가 아닌) 파라미터로 전송한다.

방향성 오디오 코딩(Directional Audio Coding: DirAC)

또 다른 파라메트릭 접근 방식은 방향성 오디오 코딩이다. DirAC[Pulkki2009] 는 지각적으로 동기 부여된 공간 사운드 재생이다. 하나의 순간 및 하나의 임계 대역에서, 청각 시스템의 공간 해상도는 방향에 대해 하나의 큐 및 인터 오럴 코히어런스(inter-aural coherence)에 대한 다른 하나의 큐를 디코딩하는 것으로 제한된다고 가정된다.

이러한 가정들을 기반으로, DirAC는 2개의 스트림들: 비방향성 확산 스트림과 방향성 비확산 스트림을 크로스 페이딩함으로써 하나의 주파수 대역에서 공간 사운드를 나타낸다. DirAC 처리는 두 단계들: 도 12a 및 도 12b에 표시된 바와 같은 분석 및 합성으로 수행된다.

DirAC 분석 단계에서 B-포맷의 1차 일치 마이크로폰(first-order coincident microphone)이 입력으로 간주되고 사운드의 도달의 방향 및 확산은 주파수 도메인에서 분석된다.

DirAC 합성 단계에서, 사운드는 비확산 스트림과 확산 스트림의 두 스트림으로 나뉜다. 상기 비확산 스트림은 벡터 베이스 진폭 패닝(VBAP: vector base amplitude panning) [Pulkki1997]을 사용하여 수행될 수 있는 진폭 패닝을 사용하여 포인트 소스(point sources)로서 재생된다. 상기 확산 스트림은 엔벨롭먼트(envelopment)의 감각(sensation)을 담당하고 상호 역 상관된 신호들(mutually decorrelated signals)을 라우드스피커들(loudspeakers)로 전달함으로써 생성된다.

도 12a의 분석 단계는 대역필터(1000), 에너지 추정기(1001), 강도 추정기(1002), 시간 평균 요소들(999a, 999b), 확산성 계산기(1003) 및 방향 계산기(1004)를 포함한다. 계산된 공간 파라미터들은 블록(1004)에 의해 생성된 각각의 시간/주파수 타일에 대한 도착 방향 파라미터 및 각각의 시간/주파수 타일에 대한 0 내지 1의 확산성 값이다. 도 12a에서, 방향 파라미터는 기준 위치 또는 청취 위치에 대한, 그리고 특히, 마이크로폰이 위치한 곳에서 대역필터(1000)로 입력되는 4개의 컴포넌트 신호들이 수집되는 위치에 대한 사운드의 도착 방향을 나타내는 방위각 및 고도각을 포함한다. 이러한 컴포넌트 신호들은 도 12a의 예시에서는, 전방향성 컴포넌트 W, 방향성 컴포넌트 X, 다른 방향성 컴포넌트 Y 및 추가 방향성 컴포넌트 Z를 포함하는 1차 앰비소닉스 컴포넌트이다.

도 12b에 도시된 DirAC 합성 단계는 B 포맷 마이크로폰 신호들(W, X, Y, Z)의 시간/주파수 표현을 생성하기 위한 대역필터(1005)를 포함한다. 개별 시간/주파수 타일들에 대한 해당 신호들은 각각의 채널에 대해 가상 마이크로폰 신호를 생성하는 가상 마이크로폰 단계(1006)에 입력된다. 특히, 예를 들어 중앙 채널에 대한 가상 마이크로폰 신호를 생성하기 위해, 가상 마이크로폰은 중앙 채널의 방향으로 향하고 결과 신호는 중앙 채널에 대한 해당 컴포넌트 신호이다. 다음으로 이 신호는, 직접 신호 브랜치(1015) 및 확산 신호 브랜치(1014)를 통해 처리된다. 두 브랜치들은 특정 마이크로폰 보상을 얻기 위해 블록들(1007, 1008)에서 원래의 확산성 파라미터로부터 도출되고, 블록들(1009, 1010)에서 더 처리된 확산성 값들에 의해 제어되는 대응하는 이득 조절기들 또는 증폭기들을 포함한다.

직접 신호 브랜치(1015)의 컴포넌트 신호는 또한, 방위각과 고도각으로 구성된 방향 파라미터로부터 도출된 이득 파라미터를 사용하여 이득 조절된다. 특히, 이러한 각도들은 벡터 베이스 진폭 패닝 (VBAP: vector base amplitude panning) 이득표(1011)에 입력된다. 그 결과는 각각의 채널에 대한 라우드스피커 이득 평균 단계(1012) 및 추가 정규화기(1013)에 입력되고, 결과적인 이득 파라미터가 다음으로 직접 신호 브랜치(1015)의 증폭기 또는 이득 조절기로 전달된다. 역상관기(1016)의 출력에서 생성된 확산 신호와 직접 신호 또는 비확산 스트림이 컴바이너(combiner)(1017)에서 합쳐지고, 그런 다음 예를 들어, 합성 필터뱅크일 수 있는 다른 컴바이너(1018)에서 다른 부대역들이 추가된다. 따라서 특정 라우드스피커에 대한 라우드스피커 신호가 생성되고, 특정 라우드스피커 설정에서 다른 라우드스피커들(1019)에 대한 다른 채널들에 대해 동일한 절차가 수행된다.

DirAC 합성의 고품질 버전이 도 12b에 도시되는데, 여기서 합성기는 모든 B 포맷 신호들을 수신하며, 이러한 신호들로부터 각각의 라우드스피커 방향에 대해 가상 마이크로폰 신호가 계산된다. 이용되는 방향성 패턴은 통상적으로 쌍극자이다. 다음으로 가상 마이크로폰 신호들은, 브랜치들(1016, 1015)과 관련하여 논의되는 바와 같이 메타데이터에 따라 비선형 방식으로 변형된다. DirAC의 낮은 비트레이트 버전은 도 12b에 도시되지 않는다. 그러나 이 낮은 비트레이트 버전에서는, 단일 오디오 채널만이 전송된다. 처리에 있어서의 차이점은 모든 가상 마이크로폰 신호들이 수신된 이 단일 오디오 채널로 대체된다는 것이다. 가상 마이크로폰 신호들은 개별적으로 처리되는 2개의 스트림들, 즉 확산 스트림과 비확산 스트림으로 나뉜다. 벡터 기반 진폭 패닝(VBAP)을 사용함으로써 비확산 사운드가 포인트 소스들로서 재생된다. 패닝에서, 모노포닉 사운드 신호가 라우드스피커 특정 이득 계수들과의 곱 이후 라우드스피커들의 서브세트에 적용된다. 이득 계수들은 라우드스피커 설정 및 지정된 패닝 방향의 정보를 사용하여 계산된다. 낮은 비트레이트 버전에서, 입력 신호는 메타데이터가 암시하는 방향들로 간단히 패닝된다. 고품질 버전에서, 각각의 가상 마이크로폰 신호가 대응하는 이득 계수와 곱해지며, 이는 패닝과 동일한 효과를 발생시키지만, 임의의 비선형 아티팩트(artifact)들이 덜 발생한다.

확산 사운드 합성의 목적은 청취자를 둘러싸는 사운드의 지각을 생성하는 것이다. 낮은 비트레이트 버전에서는, 입력 신호를 역상관하고 모든 각각의 라우드스피커로부터 입력 신호를 재생함으로써 확산 스트림이 재생된다. 고품질 버전에서는, 확산 스트림들의 가상 마이크로폰 신호들이 이미 어느 정도는 일관성이 없으며, 이러한 신호들은 약간만 역상관될 필요가 있다.

공간 메타데이터로도 또한 불리는 DirAC 파라미터들은 구형 좌표에서 방위각과 고도인 두 각도들로 표현되는 확산성과 방향의 튜플(tuple)들로 구성된다. 분석 및 합성 단계들 모두 디코더 측에서 실행된다면, DirAC 파라미터들의 시간-주파수 해상도는 DirAC 분석 및 합성에 사용되는 필터뱅크, 즉 오디오 신호의 필터뱅크 표현의 모든 각각의 시간 슬롯 및 주파수 빈에 대한 개별 파라미터 세트와 동일하도록 선택될 수 있다.

DirAC 패러다임을 공간 오디오 코딩 및 원격 회의 시나리오에 사용할 수 있도록 하기 위해 메타데이터의 크기를 줄이기 위한 일부 작업이 수행되어왔다[Hirvonen2009].

[WO2019068638]에서는 DirAC 기반의 범용 공간 오디오 코딩 시스템이 소개되었다. B 포맷(1차 앰비소닉스(Ambisonics) 포맷) 입력용으로 설계된 기존 DirAC와 달리 이 시스템은 1차 이상의 앰비소닉스, 다중 채널 또는 객체 기반 오디오 입력을 수용할 수 있으며 혼합 유형 입력 신호도 허용한다. 모든 신호 유형은 개별적으로 또는 결합된 방식으로 효율적으로 코딩되고 전송된다. 전자는 렌더러(디코더 측)에서 서로 다른 표현을 결합하는 반면, 후자는 DirAC 도메인에서 서로 다른 오디오 표현의 인코더 측 조합을 사용한다.

DirAC 프레임워크와의 호환성

본 실시예는 [WO2019068638]에 제시된 임의의 입력 유형에 대한 통합 프레임워크를 기반으로 하며, [WO2020249815]가 다중 채널 콘텐츠에 대해 수행하는 것과 유사하게, 객체 입력에 DirAC 파라미터들을(방향 및 확산) 효율적으로 적용할 수 없는 문제를 제거하는 것을 목표로 한다. 실제로 확산 파라미터는 전혀 필요하지 않은 반면, 시간/주파수 단위당 단일 방향 큐는 고품질 객체 콘텐츠를 재생하는 데 충분하지 않은 것으로 나타났다. 따라서 본 실시예는 시간/주파수 단위당 다중 방향 큐를 채용하는 것을 제안하고, 그에 따라 객체 입력의 경우 기존의 DirAC 파라미터를 대체하는 적응된 파라미터 세트를 도입한다.

낮은 비트레이트의 유연한 시스템

청취자의 관점에서 장면 기반 표현을 사용하는 DirAC와 달리 SAOC 및 SAOC-3D는 파라미터들이 채널/객체 간의 관계를 설명하는 채널 및 객체 기반 콘텐츠용으로 설계되었다. 객체 입력에 장면 기반 표현을 사용하여 DirAC 렌더러와 호환되도록 하는 동시에 효율적인 표현과 고품질 재생을 보장하려면 다중 방향성 큐를 보낼 수 있도록 적응된 파라미터 세트가 필요하다.

본 실시예의 중요한 목표는 객체 입력을 낮은 비트레이트와 증가하는 객체 수에 대한 우수한 확정성(scalability)을 가지고 객체를 코드화하는 방법을 찾는 것이었다. 각 객체 신호를 개별적으로 코딩하는 것은 이러한 확장성을 제공할 수 없으며; 각각의 추가 객체로 인해 전체 비트레이트가 상당히 증가한다. 증가된 객체 수로 인해 허용된 비트레이트가 초과되면 출력 신호의 음질 저하가 직접적으로 발생하며; 이러한 저하는 본 실시예에 유리한 또 다른 주장이다.

본 발명의 목적은 복수의 오디오 객체를 인코딩하거나 인코딩된 오디오 신호를 디코딩하는 개선된 개념을 제공하는 것이다.

이 목적은 청구항 1의 인코딩 장치, 청구항 18의 디코더, 청구항 28의 인코딩 방법, 청구항 29의 디코딩 방법, 청구항 30의 컴퓨터 프로그램 또는 청구항 31의 인코딩된 오디오 신호에 의해 달성된다.

본 발명의 일 측면에서, 본 발명은 복수의 주파수 빈 중 하나 이상의 주파수 빈에 대해 적어도 2개의 관련 오디오 객체가 정의되고 이러한 적어도 2개의 관련 객체에 관한 파라미터 데이터가 인코드 측에 포함되며, 디코더 측에서 사용되어 고품질이지만 효율적인 오디오 인코딩/디코딩 개념을 획득한다는 것에 기반한다.

본 발명의 또 다른 측면에 따르면, 본 발명은 각 객체와 관련된 방향 정보에 적응된 특정 다운믹스가 수행되어, 전체 객체, 즉 시간 프레임의 모든 주파수 빈에 대해 유효한 방향 정보와 관련되었던 각 객체가 여러 전송채널로 다운믹싱하는 데 사용된다는 발견에 기반한다. 방향 정보의 사용은 예를 들어 특정 조정 가능한 특성을 갖는 가상 마이크로폰 신호로서 전송채널을 생성하는 것과 같다.

디코더 측에서, 역상관기-도입 아티팩트를 겪지 않는 고품질 공분산 합성에 특히 적합한 특정 실시예에 있어서, 공분산 합성에 의존하는 특정 합성이 수행된다. 다른 실시예에서, 오디오 품질을 개선하고 및/또는 공분산 합성 내에서 사용되는 혼합행렬을 계산하는 데 필요한 계산량을 줄이기 위해 표준 공분산 합성과 관련된 특정 개선에 의존하는 진보된 공분산 합성이 사용된다.

그러나 전송된 선택 정보를 기반으로 시간/주파수 빈 내에서 개별 기여도를 명시적으로 결정하여 오디오 렌더링이 수행되는 더 이전의 합성에서도, 오디오 품질은 종래 기술의 객체 코딩 접근 방식 또는 채널 다운믹스 접근 방식에 비해 우수하다. 이러한 상황에서 각 시간/주파수 빈은 객체 식별 정보를 가지며, 오디오 렌더링을 수행할 때, 즉 각 객체의 방향 기여도를 고려할 때 이 객체 식별은 시간/주파수 빈당 개별 출력채널에 대한 이득 값을 결정하기 위해 이 객체 정보와 관련된 방향을 조회하기 위해 사용된다. 따라서 시간/주파수 빈에 관련 객체가 하나만 있는 경우 시간/주파수 빈당 이 단일 객체에 대한 이득 값만 객체 ID 및 관련 객체에 대한 방향 정보의 "코드북"을 기반으로 결정된다.

그러나 시간/주파수 빈에 1개 이상의 관련 객체가 있는 경우, 전송채널의 해당 시간/주파수 빈을 스테레오 포맷, 5.1 포맷 등의 특정 채널 포맷과 같은 사용자 제공 출력 포맷에 의해 관리되는 해당 출력채널로 분배하기 위해, 각 관련 객체에 대한 이득 값이 계산된다. 게인 값이 공분산 합성의 목적, 즉 전송채널을 출력채널에 혼합하기 위한 혼합행렬을 적용하는 목적으로 사용되는지 여부, 또는 게인 값을 하나 이상의 전송채널의 해당 시간/주파수 빈에 곱한 다음, 해당 시간/주파수 빈에서 각 출력채널에 대한 기여도를 합산하여 시간/주파수 빈의 각 객체에 대한 개별 기여도를 명시적으로 결정하는 데 게인 값이 사용되는지 여부와 상관없이, 확산 신호 컴포넌트를 추가하여 향상될 수 있지만 그럼에도 불구하고 주파수 빈당 하나 이상의 관련 객체를 결정하여 주어지는 유연성으로 인해 출력 오디오 품질이 향상된다.

이러한 결정은 매우 효율적으로 가능한데, 이는 주파수 빈에 대한 하나 이상의 객체 ID만 인코딩되어 객체당 방향 정보와 함께 디코더로 전송되어야 하지만 매우 효율적으로 가능하기 때문이다. 이는 프레임에 대해 모든 주파수 빈에 대한 단일 방향 정보만 있다는 사실 때문이다.

따라서 합성이 바람직하게 강화된 공분산 합성을 사용하거나 또는 각 객체에 대한 명시적인 전송채널 기여도의 조합을 사용하여 수행되는지 여부에 관계없이, 전송채널의 생성을 가상 마이크로폰 신호로서 반영하는 다운믹스의 가중치에 의존하는 특정 객체 방향 종속적 다운믹스 (object direction-dependent downmix)를 사용하여 향상되는 고효율 및 고품질 객체 다운믹스가 얻어진다.

시간/주파수 빈당 2개 이상의 관련 객체와 관련된 측면은 바람직하게는 전송채널로 객체의 특정 방향 종속적 다운믹스를 수행하는 측면과 결합될 수 있다. 그러나 두 측면은 서로 독립적으로 적용될 수도 있다. 또한, 특정 실시예에서는 시간/주파수 빈당 2개 이상의 관련 객체를 갖는 공분산 합성이 수행되지만, 진보된 공분산 합성 및 진보된 전송채널-출력채널 업믹스는 또한 시간/주파수 빈당 하나의 객체 식별만을 전송함으로써 수행될 수 있다.

또한, 시간/주파수 빈당 관련 객체가 하나인지 여러 개인지 여부에 관계없이, 표준 또는 진보된 공분산 합성 내에서 혼합행렬의 계산에 의해 업믹싱이 수행되거나, 또는 해당 기여도에 대한 이득 값을 결정하기 위해 방향 "코드북"으로부터 특정 방향 정보를 검색하는 데 사용되는 객체 식별에 기초하여 시간/주파수 빈의 기여도를 개별적으로 결정하여 업믹싱이 수행될 수 있다. 그런 다음 이들은 시간/주파수 빈당 두 개 이상의 관련 객체가 있는 경우 시간/주파수 빈당 전체 기여도를 얻기 위해 합산된다. 이 합산 단계의 출력은 혼합 행렬 애플리케이션의 출력과 동등하며, 최종 필터 팽크 처리는 해당 출력 포맷에 대한 시간 도메인 출력채널 신호를 생성하기 위해 수행된다.

본 발명은 3GPP IVAS(Immersive Voice and Audio Services) 코덱의 일부로서 동작하며, 이산 코딩 접근법인 ISM(Independent Stream with Metadata) 모드의 낮은 비트레이트에 대한 유리한 대체를 제공할 수 있다.

이어서 본 발명의 바람직한 실시예들이 첨부 도면들을 참조하여 설명된다:
도 1a는 시간/주파수 빈당 적어도 2개의 관련 객체를 갖는 제1 측면에 따른 오디오 인코더의 구현이며;
도 1b는 방향 의존적 객체 다운믹스를 갖는 제2 측면에 따른 인코더의 구현이며;
도 2는 제2 측면에 따른 인코더의 바람직한 구현예이며;
도 3은 제1 측면에 따른 인코더의 바람직한 구현예이며;
도 4는 제1 및 제2 측면에 따른 디코더의 바람직한 구현예이며;
도 5는 도 4의 공분산 합성 처리의 바람직한 구현이며;
도 6a는 제1 측면에 따른 디코더의 구현이며;
도 6b는 제2 측면에 따른 디코더이며;
도 7a는 제1 측면에 따른 파라미터 정보의 결정을 설명하기 위한 흐름도이며;
도 7b는 파라메트릭 데이터의 추가 결정의 바람직한 구현이며;
도 8a는 고해상도 필터뱅크 시간/주파수 표현을 도시하며;
도 8b는 제1 및 제2 측면의 바람직한 구현에 따라 프레임 J에 대한 관련 부가 정보의 전송을 도시하며;
도 8c는 인코딩된 오디오 신호에 포함된 "방향 코드북"을 도시하며;
도 9a는 제2 측면에 따른 인코딩의 바람직한 방식을 도시하며;
도 9b는 제2 측면에 따른 정적 다운믹스의 구현을 도시하며;
도 9c는 제2 측면에 따른 동적 다운믹스의 구현을 도시하며;
도 9d는 제2 측면의 추가 실시예를 도시하며;
도 10a는 제1 측면의 디코더 측의 바람직한 구현을 위한 흐름도를 도시하며;
도 10b는 각각의 출력채널당 기여도의 합산을 갖는 실시예에 따른 도 10a의 출력채널 계산의 바람직한 구현을 도시하며;
도 10c는 복수의 관련 객체에 대한 제1 측면에 따라 전력 값을 결정하는 바람직한 방식을 도시하며;
도 10d는 혼합행렬의 계산 및 적용에 의존하는 공분산 합성을 사용하는 도 10a의 출력채널 계산의 실시예를 도시하며;
도 11은 시간/주파수 빈에 대한 혼합행렬의 진보된 계산을 위한 여러 실시예를 도시하며;
도 12a는 종래의 DirAC 인코더를 도시하며; 그리고
도 12b는 종래 기술의 DirAC 디코더를 도시한다.

도 1a는 입력에서 오디오 객체를 있는 그대로 및/또는 오디오 객체에 대한 메타데이터로서 수신하는 복수의 오디오 객체를 인코딩하기 위한 장치를 도시한다. 인코더는 시간/주파수 빈에 대한 적어도 2개의 관련 오디오 객체에 대한 파라미터 데이터를 제공하는 객체 파라미터 계산기(100)를 포함하고, 이 데이터는 출력 인터페이스(200)로 전달된다. 특히, 객체 파라미터 계산기는 시간 프레임과 관련된 복수의 주파수 빈 중 하나 이상의 주파수 빈에 대해 적어도 2개의 관련 오디오 객체에 대한 파라미터 데이터를 계산하며, 여기서 구체적으로 적어도 2개의 관련 오디오 객체의 수는 복수의 오디오 객체의 총 개수보다 적다. 따라서, 객체 파라미터 계산기(100)는 실제로 선택을 수행하고 단순히 모든 객체가 관련된 것으로 나타내지 않는다. 바람직한 실시예에서, 이 선택은 관련성(relevance)에 의해 행해지며 관련성은 진폭, 전력, 음량(loudness) 또는 진폭을 전력과 다른 바람직하게는 1보다 크게 증폭해서 얻어지는 다른 측정치와 같은 진폭 관련 측정에 의해 결정된다. 그런 다음, 시간/주파수 빈에 대해 특정 수의 관련 객체가 사용 가능한 경우 모든 객체 중에서 가장 관련성이 높은 특성, 즉 가장 높은 전력을 가진 객체를 선택하고 이렇게 선택된 객체에 대한 데이터는 파라미터 데이터에 포함된다.

출력 인터페이스(200)는 하나 이상의 주파수 빈에 대한 적어도 두 개의 관련 오디오 객체에 대한 파라미터 데이터에 대한 정보를 포함하는 인코딩된 오디오 신호를 출력하도록 구성된다. 구현에 따라, 출력 인터페이스는 객체 다운믹스 또는 객체 다운믹스를 나타내는 하나 이상의 전송채널 또는 추가 파라미터 또는 여러 객체가 다운믹스된 혼합 표현이거나 다른 객체가 별개의 표현인 객체 파형 데이터와 같은 다른 데이터를 수신하고 이를 인코딩된 오디오 신호로 입력할 수 있다. 이 상황에서 객체는 해당 전송채널에 직접 도입되거나 "복사"된다.

도 1b는 제2 측면에 따라 복수의 오디오 객체를 인코딩하기 위한 장치의 바람직한 구현을 도시하며, 여기서 오디오 객체는 복수의 오디오 객체에 대한 방향 정보, 즉 각 객체에 대한 하나의 방향 정보 또는 객체 그룹이 동일한 방향 정보와 관련된 경우 객체 그룹에 대한 하나의 방향 정보를 나타내는 관련된 객체 메타데이터와 함께 수신된다. 오디오 객체는 하나 이상의 전송채널을 얻기 위해 복수의 오디오 객체를 다운믹싱하기 위한 다운믹서(400)에 입력된다. 또한, 하나 이상의 전송채널을 인코딩하여 하나 이상의 인코딩된 전송채널을 획득하기 위한 전송채널 인코더(300)가 제공되며, 상기 하나 이상의 인코딩된 전송채널은 다음으로 출력 인터페이스(200)에 입력된다. 구체적으로, 다운믹서(400)는 객체 메타데이터가 도출될 수 있는 임의의 데이터를 입력으로 수신하고 다운믹서(400)에 의해 실제로 사용되는 방향 정보를 출력하는 객체 방향 정보 제공기(110)에 연결된다. 객체 방향 정보 제공기(110)에서 다운믹스(400)로 전달되는 방향 정보는 역양자화된 방향 정보, 즉, 다음으로 디코더 측에서 이용 가능한 동일한 방향 정보인 것이 바람직하다. 이를 위해, 객체 방향 정보 제공기(110)는 양자화되지 않은 객체 메타데이터를 도출 또는 추출 또는 검색한 다음 객체 메타데이터를 양자화하여, 바람직한 실시예에서 도 1b에 도시된 "기타 데이터" 중 출력 인터페이스(200)로 제공되는 양자화 인덱스를 나타내는 양자화된 객체 메타데이터를 도출하도록 구성된다. 또한, 객체 방향 정보 제공기(110)는 블록(110)에서 다운믹서(400)로 전달되는 실제 방향 정보를 얻기 위해 양자화된 객체 방향 정보를 역양자화하도록 구성된다.

바람직하게는, 출력 인터페이스(200)는 오디오 객체에 대한 파라미터 데이터, 객체 파형 데이터, 시간/주파수 빈당 단일 또는 다중 관련 객체에 대한 식별 또는 여러 식별 및 전술한 바와 같이 양자화된 방향 데이터를 수신하도록 구성된다.

이어서, 추가 실시예가 설명된다. 오디오 객체 신호를 코딩하기 위한 파라메트릭 접근 방식을 제시하여 소비자 측에서 고품질 재생뿐만 아니라 낮은 비트레이트에서도 효율적 전송이 이루어지게 할 수 있다. 임계 주파수 대역 및 시간 인스턴트 (시간/주파수 타일)당 하나의 방향 큐를 고려하는 DirAC 원칙을 기반으로 입력 신호의 시간/주파수 표현의 각 시간/주파수 타일에 대해 가장 우세한(dominant) 객체가 결정된다. 이것이 객체 입력에 충분하지 않은 것으로 입증되었으므로, 추가적이고 두 번째로 가장 우세한 객체가 시간/주파수 타일당 결정되고 이 두 객체를 기반으로 전력 비율이 계산되어 상기 고려된 시간/주파수 타일에 대한 두 객체 각각의 영향을 결정한다. 참고 : 시간/주파수 단위당 두 개 이상의 가장 우세한 객체를 고려하는 것도 고려될 수 있다. 특히 입력 객체 수가 증가하는 경우에 그렇다. 단순화를 위해 이하의 설명은 대부분 시간/주파수 단위당 두 개의 우세한 객체를 기반으로 한다.

따라서 디코더로 전송되는 파라메트릭 부가 정보는 다음을 포함한다:

· 각 시간/주파수 타일(또는 파라미터 대역)에 대한 관련 (우세한) 객체의 하위 집합에 대해 계산된 전력 비율.

· 각 시간/주파수 타일(또는 파라미터 대역)에 대한 관련 객체의 하위 집합을 나타내는 객체 인덱스.

· 객체 인덱스와 연관되고 각 프레임에 대해 제공되는 방향 정보(여기서 각 시간 도메인 프레임은 다수의 파라미터 대역을 포함하고 각 파라미터 대역은 다수의 시간/주파수 타일을 포함함).

오디오 객체 신호와 관련된 입력 메타데이터 파일을 통해 방향 정보를 이용할 수 있다. 메타데이터는 예를 들어 프레임 단위로 지정될 수 있다. 부가 정보와 별도로 입력된 객체 신호를 결합한 다운믹스 신호도 디코더로 전송된다.

렌더링 단계에서 전송된 방향 정보(객체 인덱스를 통해 도출됨)는 전송된 다운믹스 신호(또는 보다 일반적으로: 전송채널)를 적절한 방향으로 패닝하는 데 사용된다. 다운믹스 신호는 가중 요소로 사용되는 전송된 전력 비율에 따라 두 개의 관련 객체 방향으로 분배된다. 이 처리는 디코딩된 다운믹스 신호의 시간/주파수 표현의 각 시간/주파수 타일에 대해 수행된다.

섹션에서는 인코더 측 처리를 요약한 다음 파라미터 및 다운믹스 계산에 대한 자세한 설명을 제공한다. 오디오 인코더는 하나 이상의 오디오 객체 신호를 수신한다. 각 오디오 객체 신호에는 객체 속성을 설명하는 메타데이터 파일이 연관된다. 본 실시예에서, 연관된 메타데이터 파일에 기술된 객체 속성은 프레임 단위로 제공되는 방향 정보에 해당하며, 여기서 하나의 프레임은 20밀리초에 해당한다. 각 프레임은 메타데이터 파일에도 포함된 프레임 번호로 식별된다. 방향 정보는 방위각 및 고도 정보로 제공되며 여기서 방위각은 [-180, 180]도의 값을 취하고 고도는 [-90, 90]도의 값을 취한다. 메타데이터에 제공되는 추가 속성에는 예를 들어 거리, 확산, 이득이 포함되지만; 이러한 특성은 본 실시예에서는 고려되지 않는다.

메타데이터 파일에 제공된 정보는 실제 오디오 객체 파일과 함께 사용되어 디코더로 전송되고 최종 오디오 출력 파일을 렌더링하는 데 사용되는 일련의 파라미터를 생성한다. 보다 구체적으로, 인코더는 각 주어진 시간/주파수 타일에 대한 우세 객체의 서브세트에 대한 파라미터, 즉 전력 비율을 추정한다. 우세 객체의 하위 집합은 객체 인덱스로 표시되며, 이는 객체 방향을 식별하는 데에도 사용된다. 이러한 파라미터는 전송채널 및 방향 메타데이터와 함께 디코더로 전송된다.

인코더의 개요는 도 2에 도시된다. 여기서 전송채널은 입력 메타데이터에 제공된 방향 정보와 입력 객체 파일에서 계산된 다운믹스 신호로 구성된다. 전송채널의 수는 항상 입력 객체 파일의 수보다 적다. 실시예의 인코더에서, 인코딩된 오디오 신호는 인코딩된 전송채널에 의해 표현되고 인코딩된 파라메트릭 부가 정보는 인코딩된 객체 인덱스, 인코딩된 전력 비율 및 인코딩된 방향 정보에 의해 표시된다. 인코딩된 전송채널 및 인코딩된 파라메트릭 부가 정보는 함께 멀티플렉서(220)에 의해 출력되는 비트스트림을 형성한다. 특히, 인코더는 입력 객체 오디오 파일을 수신하는 필터뱅크(102)를 포함한다. 또한, 객체 메타데이터 파일은 추출자 방향 정보 블록(110a)에 제공된다. 블록(110a)의 출력은 다운믹스 계산을 수행하는 다운믹서(400)에 방향 정보를 출력하는 양자화 방향 정보 블록(110b)에 입력된다. 더욱이, 양자화된 방향 정보, 즉 양자화 인덱스는 블록(110b)으로부터 바람직하게는 요구되는 비트레이트를 더욱 감소시키기 위해 어떤 종류의 엔트로피 코딩을 수행하는 인코딩 방향 정보(202) 블록으로 전달된다.

또한, 필터뱅크(102)의 출력은 신호 전력 계산 블록(104)에 입력되고, 신호 전력 계산 블록(104)의 출력은 객체 선택 블록(106)에 입력되고 추가로 전력 비율 계산 블록(108)에 입력된다. 전력 비율 계산 블록(108)은 또한 전력 비율, 즉 선택된 객체에 대해서만 결합 값을 계산하기 위해 객체 선택 블록(106)에 연결된다. 블록(210)에서, 계산된 전력 비율 또는 결합 값이 양자화되고 인코딩된다. 이후에 설명되겠지만 하나의 전력 데이터 항목의 전송을 절약하기 위해 전력 비율이 선호된다. 그러나, 이러한 절약이 필요하지 않은 다른 실시예에서, 전력 비율 대신에, 실제 신호 전력 또는 블록(104)에 의해 결정된 신호 전력으로부터 도출된 다른 값이 객체 선택기(106)의 선택 하에 양자화기 및 인코더에 입력될 수 있다. 그 다음, 전력 비율 계산(108)은 요구되지 않고 객체 선택(106)은 관련 파라메트릭 데이터, 즉 관련 객체에 대한 전력 관련 데이터만이 양자화 및 인코딩을 위해 블록(210)에 입력되도록 한다.

도 1a와 도 2를 비교하면, 블록(102, 104, 110a, 110b, 106, 108)은 도 1a의 객체 파라미터 계산기(100)에 포함되는 것이 바람직하고, 블록(202, 210, 220)은 도 1a의 출력 인터페이스 블록(200)내에 포함되는 것이 바람직하다.

또한, 도 2의 코어 코더(300)는 도 1b의 전송채널 인코더(300)에 대응하고, 다운믹스 계산 블록(400)은 도 1b의 다운 믹서(400)에 대응하고, 도 1b의 객체 방향 정보 제공기(110)는 도 2의 블록 (110a, 110b)에 해당한다. 또한, 도 1b의 출력 인터페이스(200)는 바람직하게는 도 1a의 출력 인터페이스(200)와 동일한 방식으로 구현되고 도 2의 블록(202, 210, 220)을 포함한다.

도 3은 다운믹스 계산이 선택적이며 입력 메타데이터에 의존하지 않는 인코더 변형을 보여준다. 이 변형에서, 입력 오디오 파일은 그들로부터 전송채널을 생성하는 코어 코더로 직접 공급될 수 있으며, 따라서 전송채널의 수는 입력 객체 파일의 수에 해당한다; 이것은 입력 객체의 수가 1 또는 2인 경우 특히 흥미로운 것이다. 객체 수가 많은 경우 전송할 데이터의 양을 줄이기 위해 다운믹스 신호가 여전히 사용된다.

도 3에서 유사한 참조 번호는 도 2의 유사한 기능을 지칭한다. 이는 도 2 및 도 3에 대해서 유효할 뿐만 아니라 본 명세서에서 설명되는 다른 모든 도면에서도 유효하다. 도 2와 달리, 도 3은 방향 정보 없이 다운믹스 계산(400)을 수행한다. 따라서, 다운믹스 계산은 예를 들어 미리 알려진 다운믹스 행렬을 사용하는 정적 다운믹스일 수 있거나, 또는 입력 객체 오디오 파일에 포함된 객체와 연관된 어떠한 방향 정보에도 의존하지 않는 에너지 의존적 다운믹스일 수 있다. 그럼에도 불구하고, 방향 정보는 블록(110a)에서 추출되고 블록(110b)에서 양자화되며, 양자화된 값은 예를 들어 비트스트림을 형성하는 이진수인 인코딩된 오디오 신호인 인코딩된 오디오 신호에서 인코딩된 방향 정보를 가질 목적으로 방향 정보 인코더(202)로 전달된다.

입력 오디오 객체 파일의 수가 너무 많지 않거나 또는 이용 가능한 전송 대역폭이 충분한 경우 다운믹스 계산 블록(400)도 생략될 수 있으므로 입력 오디오 객체 파일이 직접 코어 인코더에 의해 인코딩된 전송채널을 나타낼 수 있다. 이러한 구현에서, 블록(104, 104, 106, 108, 210)도 필요하지 않다. 그러나 바람직한 구현은 일부 객체가 전송채널에 직접 도입되고 다른 객체가 하나 이상의 전송채널로 다운믹스되는 혼합 구현을 이룬다. 이러한 상황에서는, 그런 다음 도 3에 도시된 모든 블록은 인코딩된 전송채널 내에서 직접 하나 이상의 객체를 갖는 비트스트림을 생성하고 도 2 또는 도 3의 다운믹서(400)에 의해 생성된 하나 이상의 전송채널을 생성하는 데 필요할 것이다.

파라미터 계산

모든 입력 객체 신호를 포함하는 시간 도메인 오디오 신호는 필터뱅크를 사용하여 시간/주파수 영역으로 변환된다. 예: CLDFB(복잡한 저지연 필터뱅크) 분석 필터는 20밀리초(48kHz의 샘플링 속도에서 960개 샘플에 해당)의 프레임을 16개의 시간 슬롯과 60개의 주파수 대역이 있는 16x60 크기의 시간/주파수 타일로 변환한다. 각 시간/주파수 단위에 대해 순간 신호 전력은 다음과 같이 계산된다.

여기서 k는 주파수 대역 인덱스, n은 타임 슬롯 인덱스, i는 객체 인덱스를 나타낸다. 각 시간/주파수 타일에 대한 파라미터를 전송하는 것은 최종 비트레이트 측면에서 매우 비용이 많이 들기 때문에 감소된 수의 시간/주파수 타일에 대한 파라미터를 계산하기 위해 그룹화가 사용된다. 예를 들어, 16개의 시간 슬롯을 단일 시간 슬롯으로 그룹화할 수 있고 60개의 주파수 대역을 심리 음향 척도에 따라 11개 대역으로 그룹화할 수 있다. 이렇게 하면 16x60의 초기 치수가 11개의 소위 파라미터 대역에 해당하는 1x11로 줄어든다. 감소된 차원에서 신호 전력을 얻기 위해 그룹화를 기반으로 순시 신호 전력 값을 합산한다:

여기서 T는 이 예에서 15에 해당하고

및

는 파라미터 대역 경계를 정의한다.

파라미터를 계산할 가장 우세한 객체의 하위 집합을 결정하기 위해 N개의 모든 입력 오디오 객체의 순시 신호 전력 값이 내림차순으로 정렬된다. 이 실시예에서, 우리는 2개의 가장 우세한 객체를 결정하고 0에서 N-1까지의 대응하는 객체 인덱스가 전송될 파라미터의 일부로 저장된다. 또한 두 개의 우세한 객체 신호를 서로 관련시키는 전력 비율이 계산된다:

또는 두 객체에 국한되지 않는 보다 일반적 표현으로 계산된다:

여기서 S는 고려해야 할 우세 객체의 수를 나타내며, 그리고 다음과 같다:

2개의 우세 객체의 경우, 두 객체 각각에 대한 전력 비율이 0.5라는 것은 해당 파라미터 대역 내에서 두 객체가 동일하게 존재함을 의미하고, 반면에 전력 비율이 1과 0이면 두 객체 중 하나가 없음을 나타낸다. 이러한 전력 비율은 전송할 파라미터의 두 번째 부분으로 저장된다. 전력 비율의 합이 1이 되므로 S 대신 S-1 값을 전송하면 충분한다.

객체 인덱스와 파라미터 대역별 전력 비율 값 외에도 입력 메타데이터 파일에서 추출한 각 객체의 방향 정보를 전송해야 한다. 정보가 원래 프레임 기반으로 제공되기 때문에 이것은 각 프레임에 대해 수행된다(여기서 각 프레임은 11개의 파라미터 대역 또는 상기 설명된 예에서 총 16x60 시간/주파수 타일을 포함함). 따라서 객체 인덱스는 객체 방향을 간접적으로 나타낸다. 참고: 전력 비율의 합이 1이 되므로 파라미터 대역당 전송되는 전력 비율의 수가 1씩 줄어들 수 있다. 예를 들어 2개의 관련 객체를 고려하는 경우 1개의 전력 비율 값을 전송하면 충분한다.

방향 정보와 전력 비율 값은 모두 양자화되고 객체 인덱스와 결합되어 파라메트릭 부가 정보를 형성한다. 그런 다음 이 파라메트릭 부가 정보가 인코딩되고 인코딩된 전송채널/다운믹스 신호와 함께 최종 비트스트림 표현으로 혼합된다. 예를 들어, 값 당 3비트를 사용하여 전력 비율을 양자화하면 출력 품질과 소비된 비트레이트 사이의 적절한 절충안을 얻을 수 있다. 방향 정보는 5도의 각도 해상도로 제공될 수 있으며, 실질적인 예를 들면 방위각 값당 7비트 및 고도 값당 6비트로 양자화될 수 있다.

다운믹스 계산

모든 입력 오디오 객체 신호는 하나 이상의 전송채널을 구성하는 다운믹스 신호로 결합되며, 여기서 전송채널의 수는 입력 객체 신호의 수보다 적다. 참고: 이 실시예에서, 단일 전송채널은 오직 하나의 입력 객체가 있는 경우에만 발생하며, 이는 다운믹스 계산이 생략됨을 의미한다.

다운믹스가 2개의 전송채널을 포함하는 경우, 이 스테레오 다운믹스는 예를 들어 가상 카디오이드(cardioid) 마이크로폰 신호로 계산될 수 있다. 가상 카디오이드 마이크로폰 신호는 메타데이터 파일의 각 프레임에 제공되는 방향 정보를 적용하여 결정된다(여기서는 모든 고도 값이 0이라고 가정함):

여기에서 가상 카디오이드는 90° 및 -90°에 위치한다. 따라서 두 전송채널(왼쪽 및 오른쪽) 각각에 대한 개별 가중치가 결정되어 해당 오디오 객체 신호에 적용된다:

이와 관련해서, N은 2보다 크거나 같은 입력 객체의 수이다. 가상 카디오이드 가중치가 각 프레임에 대해 업데이트되면 방향 정보에 적응하는 동적 다운믹스가 사용된다. 또 다른 가능성은 각 객체가 정적 위치에 있다고 가정하는 고정 다운믹스를 사용하는 것이다. 예를 들어 이 정적 위치는 객체의 초기 방향에 해당할 수 있으며, 이는 모든 프레임에 대해 동일한 정적 가상 카디오이드 가중치로 이어진다.

타겟 비트레이트가 허용하는 경우 2개 이상의 전송채널이 고려될 수 있다. 3개의 전송채널의 경우 카디오이드는 예를 들어 0°, 120° 및 -120°에서 균일하게 배열될 수 있다. 4개의 전송채널이 사용되는 경우 4번째 카디오이드가 위쪽을 향하거나 4개의 카디오이드가 다시 균일한 방식으로 수평으로 배열될 수 있다. 배열은 예를 들어 하나의 반구의 일부인 경우 객체 위치에 맞게 조정될 수도 있다. 이 결과의 다운믹스 신호는 코어 코더에 의해 처리되고 인코딩된 파라메트릭 부가 정보와 함께 비트스트림 표현으로 변환된다.

대안적으로, 입력 객체 신호는 다운믹스 신호로 결합되지 않고 코어 코더에 공급될 수 있다. 이 경우, 결과적인 전송채널의 수는 입력 객체 신호의 수에 해당한다. 일반적으로 총 비트레이트와 상관 관계가 있는 최대 전송채널 수가 제공된다. 다운믹스 신호는 입력 객체 신호의 수가 이 최대 전송채널 수를 초과하는 경우에만 사용된다.

도 6a는 하나 이상의 전송채널 및 복수의 오디오 객체에 대한 방향 정보를 포함하는 도 1a 또는 도 2 또는 도 3에 의해 출력된 신호와 같은 인코딩된 오디오 신호를 디코딩하기 위한 디코더를 도시한다. 또한, 인코딩된 오디오 신호는 시간 프레임의 하나 이상의 주파수 빈에 대해 적어도 2개의 관련 오디오 객체에 대한 파라미터 데이터를 포함하며, 여기서 적어도 2개의 관련 객체의 수는 복수의 오디오 객체의 총 수보다 작다. 특히, 디코더는 시간 프레임에서 복수의 주파수 빈을 갖는 스펙트럼 표현으로 하나 이상의 전송채널을 제공하기 위한 입력 인터페이스를 포함한다. 이는 입력 인터페이스 블록(600)에서 오디오 렌더러 블록(700)으로 전달되는 신호를 나타낸다. 특히, 오디오 렌더러(700)는 인코딩된 오디오 신호에 포함된 방향 정보를 사용하여 하나 이상의 전송채널을 다수의 오디오 채널로 렌더링하도록 구성된다. 오디오 채널의 개수는 스테레오 출력 포맷의 경우 2채널, 또는 3채널, 5채널, 5.1채널 등과 같이 더 많은 수의 출력 포맷의 경우 2채널 이상인 것이 바람직하다. 특히, 오디오 렌더러(700)는 적어도 2개의 관련 오디오 객체 중 제1 오디오 객체와 연관된 제1 방향 정보에 따라 그리고 상기 적어도 2개의 관련 오디오 객체 중 제2 오디오 객체와 연관된 제2 방향 정보에 따라 하나 이상의 전송채널로부터의 기여도를 하나 이상의 주파수 빈 각각에 대해 계산하도록 구성된다. 특히, 복수의 오디오 객체에 대한 방향 정보는 제1 객체와 연관된 제1 방향 정보 및 제2 객체와 연관된 제2 방향 정보를 포함한다.

도 8b는 바람직한 실시예에서 복수의 오디오 객체에 대한 방향 정보(810) 및 추가로 812에 도시된 특정 개수의 파라미터 대역 각각에 대한 전력 비율 및 블록(814)에 표시된 각각의 파라미터 대역에 대한 하나, 바람직하게는 둘 이상의 객체 인덱스로 구성된 프레임에 대한 파라미터 데이터를 도시한다. 특히, 복수의 오디오 객체(810)에 대한 방향 정보는 도 8c에 더 자세히 도시되어 있다. 도 8c는 1부터 N까지의 특정 객체 ID를 갖는 제1 컬럼을 갖는 테이블을 도시하고 있으며, 여기서 N은 복수의 오디오 객체의 수이다. 또한, 바람직하게는 방위각 값 및 고도 값 또는 2차원 상황의 경우 방위각 값만으로 각 객체에 대한 방향 정보를 갖는 두 번째 열이 제공된다. 이것은 818에 도시되어 있다. 따라서, 도 8c는 도 6a의 입력 인터페이스(600)로 입력되는 인코딩된 오디오 신호에 포함되는 "방향 코드북"을 도시한다. 열(818)로부터의 방향 정보는 열(816)로부터의 특정 객체 ID와 고유하게 연관되고, 프레임 내의 "전체" 객체, 즉 프레임 내의 모든 주파수 대역에 대해 유효하다. 따라서, 고해상도 표시의 시간/주파수 타일이든 저해상도 표시의 시간/파라미터 대역이든 주파수 빈의 수에 관계없이, 단일 방향 정보만 전송되어 각 객체 식별을 위한 입력 인터페이스에 의해 사용된다.

이와 관련하여, 도 8a는 이 필터뱅크가 이전에 논의된 CLDFB(복잡한 저 지연 필터뱅크)로서 구현될 때 도 2 또는 도 3의 필터뱅크(102)에 의해 생성된 시간/주파수 표현을 도시한다. 도 8b 및 8c와 관련하여 이전에 논의된 바와 같이 방향 정보가 주어진 프레임에 대해, 필터뱅크는 도 8a에서 0에서 15까지 가는 16개의 시간 슬롯과 0에서 59까지 가는 60개의 주파수 대역을 생성한다. 따라서, 하나의 시간 슬롯과 하나의 주파수 대역은 시간/주파수 타일(802 또는 804)을 나타낸다. 그럼에도 불구하고, 부가 정보에 대한 비트레이트를 줄이기 위해서는, 도 8에 도시된 바와 같이 고해상도 표현을 저해상도 표현으로 변환하는 것이 바람직하며, 여기서 단일 시간 빈만이 존재하고 60개의 주파수 대역이 도 8b의 812에 도시된 바와 같이 11개의 파라미터 대역으로 변환된다. 따라서, 도 10c에 도시된 바와 같이, 고해상도 표현은 타임슬롯 인덱스 n과 주파수 대역 인덱스 k로 표시되고, 저해상도 표현은 그룹화된 타임슬롯 인덱스 m과 파라미터 대역 인덱스 l로 표현된다. 그럼에도 불구하고, 본 명세서의 맥락에서, 시간/주파수 빈은 도 8a의 고해상도 시간/주파수 타일(802, 804) 또는 도 10c의 블록(731c)의 입력에서 그룹화된 시간 슬롯 인덱스 및 파라미터 대역 인덱스에 의해 식별되는 저해상도 시간/주파수 단위를 포함할 수 있다.

도 6a 실시예에서, 오디오 렌더러(700)는 하나 이상의 주파수 빈 각각에 대해, 적어도 2개의 관련 오디오 객체 중 제1 오디오 객체와 연관된 제1 방향 정보에 따라 그리고 상기 적어도 2개의 관련 오디오 객체 중 제2 오디오 객체와 연관된 제2 방향 정보에 따라 하나 이상의 전송채널로부터의 기여도를 계산하도록 구성된다. 도 8b에 도시된 실시예에서, 블록(814)은 파라미터 대역에서 각 관련 객체에 대한 객체 인덱스를 갖는다. 즉, 시간 주파수 빈당 2개의 기여가 존재하도록 2개 이상의 객체 인덱스를 갖는다.

도 10a와 관련하여 나중에 설명되는 바와 같이, 기여도의 계산은 각각의 관련 객체에 대한 이득 값이 결정되고 혼합행렬을 계산하는 데 사용되는 혼합행렬을 통해 간접적으로 수행될 수 있다. 대안적으로, 도 10b에 도시된 바와 같이, 이득 값을 사용하여 기여도를 다시 명시적으로 계산할 수 있으며, 명시적으로 계산된 기여도는 특정 시간/주파수 빈에서 각 출력채널별로 합산된다. 따라서, 기여도가 명시적으로 계산되는지 암시적으로 계산되는지에 관계없이 오디오 렌더러는 그럼에도 불구하고 방향 정보를 사용하여 하나 이상의 전송채널을 오디오 채널 수로 렌더링해서, 하나 이상의 주파수 빈 각각에 대해, 적어도 2개의 관련 오디오 객체 중 제1 오디오 객체와 연관된 제1 방향 정보 및 상기 적어도 2개의 관련 오디오 객체 중 제2 오디오 객체와 연관된 제2 방향 정보에 따른 하나 이상의 전송채널로부터의 기여도가 오디오 채널의 수에 포함된다.

도 6b는 제2 측면에 따라 하나 이상의 전송채널 및 복수의 오디오 객체에 대한 방향 정보, 및 시간 프레임의 하나 이상의 주파수 빈에 대해, 오디오 객체에 대한 파라미터 데이터를 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 디코더를 도시한다. 다시, 상기 디코더는 인코딩된 오디오 신호를 수신하는 입력 인터페이스(600)를 포함하고 상기 디코더는 방향 정보를 사용하여 하나 이상의 전송채널을 다수의 오디오 채널로 렌더링하기 위한 오디오 렌더러(700)를 포함한다. 특히, 오디오 렌더러는 복수의 주파수 빈 각각의 주파수 빈당 하나 이상의 오디오 객체 및 주파수 빈 내의 하나 이상의 관련 오디오 객체와 연관된 방향 정보로부터 직접 응답 정보를 계산하도록 구성된다. 이러한 직접 응답 정보는 바람직하게는 공분산 합성 또는 진보된 공분산 합성에 사용되거나 또는 하나 이상의 전송채널로부터 기여도의 명시적 계산에 사용되는 이득 값을 포함한다.

바람직하게는, 오디오 렌더러는 시간/주파수 대역에서 하나 이상의 관련 오디오 객체에 대한 직접 응답 정보와 오디오 채널 수 정보를 사용하여 공분산 합성 정보를 계산하도록 구성된다. 또한, 바람직하게 혼합행렬인 공분산 합성 정보를 하나 이상의 전송채널에 적용하여 오디오 채널 수를 구한다. 추가 구현에서, 직접 응답 정보는 하나 이상의 오디오 객체 각각에 대한 직접 응답 벡터이고, 공분산 합성 정보는 공분산 합성 행렬이고, 오디오 렌더러는 공분산 합성 정보 적용에 있어서 주파수 빈 별로 행렬 연산을 수행하도록 구성된다.

또한, 오디오 렌더러(700)는 직접 응답 정보의 계산에서 하나 이상의 오디오 객체에 대한 직접 응답 벡터를 도출하고 하나 이상의 오디오 객체에 대해 각각의 직접 응답으로부터 공분산 행렬을 계산하도록 구성된다. 또한, 공분산 합성 정보 계산에서는 타겟 공분산 행렬을 계산한다. 그러나 타겟 공분산 행렬 대신, 타겟 공분산 행렬에 대한 관련 정보, 즉 하나 이상의 가장 우세한 객체에 대한 직접 응답 행렬 또는 벡터 및 전력 비율 적용에 의해 결정되는 E로 표시된 직접 전력의 대각행렬이 사용할 수 있다.

따라서, 타겟 공분산 정보는 반드시 명시적인 타겟 공분산 행렬일 필요는 없으며, 하나의 오디오 객체의 공분산 행렬 또는 시간/주파수 빈에 있는 더 많은 오디오 객체의 공분산 행렬로부터, 시간/주파수 빈 내의 각각의 하나 이상의 오디오 객체에 대한 전력 정보 및 하나 이상의 시간/주파수 빈에 대한 하나 이상의 전송채널로부터 도출된 전력 정보로부터 도출될 수 있다.

비트스트림 표현은 디코더에 의해 판독되고 인코딩된 전송채널과 그 안에 포함된 인코딩된 파라메트릭 부가 정보는 추가 처리를 위해 이용 가능하게 된다. 파라메트릭 부가 정보는 다음을 포함하다:

· 양자화된 방위각 및 고도 값으로서의 방향 정보(프레임별)

· 관련 객체의 하위 집합을 나타내는 객체 인덱스(파라미터 대역별)

· 관련 객체 간의 양자화 전력 비율(파라미터 대역별)

모든 처리는 각 프레임이 하나 이상의 서브프레임으로 구성되는 프레임 방식으로 수행된다. 프레임은 예를 들어 4개의 서브프레임으로 구성될 수 있으며, 이 경우 하나의 서브프레임은 5밀리초의 지속 시간을 갖는다. 도 4는 디코더의 간략한 개요를 보여준다.

도 4는 제1 및 제2 측면을 구현하는 오디오 디코더를 도시한다. 도 6a 및 도 6b에 도시된 입력 인터페이스(600)는 디멀티플렉서(602), 코어 디코더(604), 객체 인덱스를 디코딩하기 위한 디코더(608), 전력 비율을 디코딩 및 역양자화하기 위한 디코더(612) 및 612에 표시된 방향 정보를 디코딩 및 역양자화하기 위한 디코더를 포함한다. 또한, 입력 인터페이스는 시간/주파수 표현에서 전송채널을 제공하기 위한 필터뱅크(606)를 포함한다.

오디오 렌더러(700)는 최종적으로 채널 출력 포맷의 오디오 채널 수를 포함하는 출력 오디오 파일을 제공하기 위해 직접 응답 계산기(704), 사용자 인터페이스에 의해 수신된 출력 구성, 예를 들어 공분산 합성 블록(706) 및 합성 필터뱅크(708)에 의해 제어되는 프로토타입 행렬 제공기(702)를 포함한다.

따라서 아이템(602, 604, 606, 608, 610, 612)은 바람직하게는 도 6a 및 도 6b의 입력 인터페이스에 포함되고, 도 4의 아이템(702, 704, 706, 708)은 참조 번호 700으로 표시된 도 6a 또는 도 6b의 오디오 렌더러의 일부이다.

인코딩된 파라메트릭 부가 정보를 디코딩하여 양자화된 전력 비율 값, 양자화된 방위각 및 고도 값(방향 정보), 및 객체 인덱스를 다시 얻는다. 전송되지 않은 하나의 전력 비율 값은 모든 전력 비율 값의 합이 1이라는 사실을 이용하여 얻는다. 해상도(l,m)는 인코더 측에 채용되는 시간/주파수 타일 그룹화에 해당한다. 더 미세한 시간/주파수 분해능(k,n)이 사용되는 추가 처리 단계에서 파라미터 대역의 파라미터는 이 파라미터 대역에 포함된 모든 시간/주파수 타일에 대해 유효하며, 이는

와 같은 확장에 해당한다.

인코딩된 전송채널은 코어 디코더에 의해 디코딩된다. 필터뱅크(인코더에 채용된 것과 일치)를 사용하여 이렇게 디코딩된 오디오 신호의 각 프레임은 시간/주파수 표현으로 변환되며, 그 해상도는 일반적으로 파라메트릭 부가 정보에 사용된 해상도보다 (적어도 동일하지만) 미세하다.

출력 신호 렌더링/합성

다음 설명은 오디오 신호의 한 프레임에 적용된다: ^T는 전치 연산자를 나타낸다.

디코딩된 전송채널

, 즉 시간-주파수 표현의 오디오 신호(이 경우 2개의 전송채널을 포함) 및 파라메트릭 부가 정보를 사용하여, 각 서브프레임(또는 계산 복잡성을 줄이기 위한 프레임)에 대한 혼합행렬 M은 여러 출력채널 (예: 5.1, 7.1, 7.1+4 등)을 포함하는 시간-주파수 출력 신호

를 합성하기 위해 도출된다:

· 모든 (입력) 객체에 대해 전송된 객체 방향을 사용하여 출력채널에 채용될 패닝 이득을 설명하는 소위 직접 응답 값이 결정된다. 이러한 직접 응답 값은 타겟 레이아웃, 즉 라우드스피커의 수와 위치(출력 구성의 일부로 제공됨)에 따라 다르다. 패닝 방법의 예로는 벡터 기반 진폭 패닝(VBAP)[Pulkki1997] 및 에지 페이딩 진폭 패닝(EFAP: edge-fading amplitude panning)[Bor

2014]이 있다. 각 객체에는 이와 연관된 직접 응답 값의 벡터

(라우드스피커가 있는 만큼 많은 요소 포함)가 있다. 이러한 벡터는 프레임당 한 번 계산된다. 참고: 객체 위치가 라우드스피커 위치에 해당하는 경우 벡터에는 이 라우드스피커에 대한 값 1이 포함되며; 다른 모든 값은 0이다. 객체가 두 개(또는 세 개)의 라우드스피커 사이에 있는 경우 해당하는 0이 아닌 벡터 요소 수는 두 개(또는 세 개)이다.

· 실제 합성 단계(이 실시예에서 공분산 합성 [Vilkamo2013])는 다음 하위 단계를 포함한다(시각화를 위한 도 5 참조):

o 각 파라미터 대역에 대해, 이 파라미터 대역으로 그룹화된 시간/주파수 타일 내의 입력 객체 중 우세인 객체의 하위 집합을 설명하는 객체 인덱스는 추가 처리에 필요한 벡터

의 하위 집합을 추출하는 데 사용된다. 예를 들어 2개의 관련 객체만 고려되므로 이 2개의 관련 객체와 관련된 2개의 벡터

가 필요한다.

o 다음으로 직접 응답 값

에서 차원 출력채널의 공분산 행렬

는 각 관련 객체에 대해 계산된다.

o 각 시간/주파수 타일(파라미터 대역 내)에 대해 오디오 신호 전력 P(k,n)이 결정된다. 전송채널이 두 개인 경우, 제1 채널의 신호 전력이 제2 채널의 신호 전력에 더해진다. 이 신호 전력에 각 전력 비율 값을 곱하여 각 관련/우세 객체 i에 대해 하나의 직접 전력 값을 생성한다:

o 각 주파수 대역 k에 대해 크기 출력채널별 출력채널의 최종 타겟 공분산 행렬

는 (서브)프레임 내의 모든 슬롯 n에 대해 합산하고 모든 관련 객체에 대해 합산하여 얻는다:

도 5는 도 4의 블록(706)에서 수행된 공분산 합성 단계에 대한 상세한 개요를 도시한다. 특히, 도 5의 실시예는 신호 전력 계산 블록(721), 직접 전력 계산 블록(722), 공분산 행렬 계산 블록(73), 타겟 공분산 행렬 계산 블록(724), 입력 공분산 행렬 계산 블록(726), 혼합행렬 계산 블록(725) 및 렌더링 블록(727)을 포함하며, 도 5와 관련하여 추가로 도 4의 필터뱅크 블록(708)을 포함하여서, 블록(727)의 출력 신호는 바람직하게는 시간 도메인 출력 신호에 대응한다. 그러나, 블록(708)이 도 5의 렌더링 블록에 포함되지 않을 때, 결과는 대응하는 오디오 채널의 스펙트럼 도메인 표현이다.

(다음 단계는 [Vilkamo2013] 기술의 일부이며 명확한 명을 위해 추가되었다.)

o 각 (서브)프레임 및 각 주파수 대역에 대해, 전송채널별 전송채널 크기의 입력 공분산 행렬

이 디코딩된 오디오 신호로부터 계산된다. 선택적으로, 주대각선의 항목만 사용할 수 있으며, 이 경우 0이 아닌 다른 항목은 0으로 설정된다.

o 크기 출력채널별 전송채널의 프로토타입 행렬은 전송채널과 출력채널(출력 구성의 일부로 제공됨)의 매핑을 설명하는 것으로 정의되며, 그 수는 타겟 출력 포맷에 의해 주어진다 (예: 타겟 라우드스피커 레이아웃). 이 프로토타입 행렬은 정적이거나 프레임 단위로 변경될 수 있다. 예: 단일 전송채널만 전송된 경우 이 전송채널은 각 출력채널에 매핑된다. 두 개의 전송채널이 전송된 경우 왼쪽(제1) 채널은 (+0°, +180°) 이내의 위치에 있는 모든 출력채널, 즉 "왼쪽" 채널에 매핑된다. 오른쪽(제2) 채널은 (-0°, -180°) 내의 위치에 있는 모든 출력채널, 즉 "오른쪽" 채널에 매핑된다. ( 참고 : 0°는 청취자 앞의 위치를 나타내고, 양의 각도는 청취자의 왼쪽 위치를 나타내고, 음의 각도는 청취자의 오른쪽 위치를 나타낸다. 다른 규칙이 사용되는 경우 각도 기호를 그에 따라 조정해 한다.)

o 입력 공분산 행렬

, 타겟 공분산 행렬

, 및 프로토타입 행렬을 사용하여, 각 (서브)프레임 및 각 주파수 대역에 대한 혼합행렬이 계산되어서[Vilkamo2013], 예를 들어 (서브)프레임당 60개의 혼합행렬이 생성된다.

o 혼합행렬은 (예를 들어 선형으로) 시간적 평활(temporal smoothing)에 해당하는 (서브)프레임 사이에 보간된다.

o 마지막으로, 출력채널 y는 각 차원 출력채널별 전송채널인 혼합행렬 M의 최종 세트를 디코딩된 전송채널 x의 시간/주파수 표현의 해당 대역에 곱함으로써 대역별로 합성된다:

[Vilkamo2013]에 설명된 대로 잔차 신호 를 사용하지는 않았음을 주의한다.

· 출력 신호 y는 필터뱅크를 사용하여 다시 시간 영역 표현 y(t)로 변환된다.

최적화된 공분산 합성

본 실시예에 대해 입력 공분산 행렬

및 타겟 공분산 행렬

이 계산되는 방식으로 인해 [Vilkamo2013]의 공분산 합성을 사용하여 최적의 혼합행렬 계산에 대한 특정 최적화가 달성될 수 있으며, 그 결과 혼합행렬 계산의 계산 복잡성이 크게 감소한다. 이 섹션에서 아다마르 연산자(Hadamard operator) 는 행렬에 대한 요소별 연산을 나타냄에 주의해야 한다. 즉, 예를 들어 행렬 곱셈의 규칙을 따르는 대신 각 연산이 요소별로 수행된다. 이 연산자는 해당 연산이 전체 행렬에 대해 수행되는 것이 아니라 각 요소에 대해 개별적으로 수행됨을 나타낸다. 행렬 A와 B의 곱셈은 예를 들어 행렬 곱셈 AB = C에 해당하지 않고 요소별 연산 a_ij * b_ij = c_ij에 해당한다.

SVD(.)는 특이값 분해를 나타낸다. 매트랩(Matlab) 함수(목록 1)로 제시된 [Vilkamo2013]의 알고리즘은 다음과 같다(종래 기술):

입력 : 입력 신호의 공분산을 포함하는 mxm 크기의 행렬

입력 : 출력 신호의 타겟 공분산을 포함하는 nxn 크기의 행렬

입력 : 크기가 nxm인 행렬 Q, 프로토타입 행렬
입력 : 스칼라 α,

에 대한 정규화 인자(regularization factor)([Vilkamo2013]는 α=0.2를 제안함)
입력 : 스칼라 β,

에 대한 정규화 인자([Vilkamo2013]는 β=0.001을 제안함)
입력 : 잔차 공분산

을 계산하는 대신 에너지 보상을 수행해야 하는지 여부를 나타내는 부울 a
출력 : nХm 크기의 행렬 M, 최적 혼합행렬
출력 : 잔차 공분산을 포함하는 n×n 크기의 행렬

	% 의 분해 ([Vilkamo2013]), 수학식 (3))
1		SVD
2
	([Vilkamo2013], 수학식 (3))
3		a
4
	의 SVD ([Vilkamo2013], 섹션 3.2, )
5
6
	의 정규화([Vilkamo2013], 섹션 3.2, )
7
8
	정규화된 공식화([Vilkamo2013], 섹션 3.2, )
9
	정규화 행렬(normalization matrix) 공식화
10		% [Vilkamo2013], Eq. (5),(2)
	% 다음의 정규화 단계는 [Vilkamo2013]의 목록 1에는 있지만 텍스트에는 설명되어 있지 않음
11
12
13		% [Vilkamo2013], 수학식 (7)
	% 최적 공식화([Vilkamo2013], 섹션 3.1)
14		% a matrix SVD
	% [Vilkamo2013], 수학식 (3), 는 [Vilkamo2013], 섹션 3.3의 확장 항등 행렬임
15
	% 최적 공식화
16		% [Vilkamo2013], 수학식 (11)
	% 잔차 공분산 행렬 공식화
17
18		% [Vilkamo2013], 수학식 (15)
	% 에너지 보상
19	if then
20		% [Vilkamo2013], 수학식 (17)
21		% [Vilkamo2013], 수학식 (17)
22	else
23

이전 섹션에서 설명한 것처럼

의 주 대각선 요소만 선택적으로 사용되고 다른 모든 항목은 0으로 설정된다. 이 경우

는 대각행렬이며 [Vilkamo2013]의 수학식 (3)을 만족하는 유효한 분해는 다음과 같으며,

그리고 종래 알고리즘의 라인 3으로부터의 SVD는 더 이상 필요하지 않다.

직접 응답

와 이전 섹션의 직접 전력(또는 직접 에너지)에서 타겟 공분산을 생성하는 공식을 고려해야 한다.

마지막 수식은 다음과 같이 재정렬하여 기재할 수 있다.

이제 다음과 같이 정의한다.

그렇게 해서 다음을 얻는다.

k개의 가장 우세한 객체에 대한 직접 응답 행렬

에서 직접 응답을 정렬하고 직접 전력의 대각행렬을

를 사용하여 E로서 생성하면,

는 다음과 같이 표현될 수도 있다.

그리고 [Vilkamo2013]의 수학식(3)을 만족하는

의 유효한 분해는 다음과 같이 주어진다:

결과적으로, 종래 알고리즘의 라인 1로부터의 SVD는 더 이상 필요하지 않다.

이는 본 실시예 내에서 공분산 합성을 위한 최적화된 알고리즘으로 이어지며, 이는 또한 우리가 항상 에너지 보상 옵션을 사용하고 따라서 잔차 타겟 공분산

을 필요로 하지 않는다는 것을 고려한다:

입력 :		m개 채널과 입력 신호의 공분산을 포함하는 크기 mxm의 대각행렬
입력 :		k개의 우세 객체에 대한 직접 응답을 포함하는 크기가 nxk인 행렬 R
입력 :		우세 객체에 대한 타겟 전력을 포함하는 대각행렬 E
입력 :		크기가 nxm인 행렬 Q, 프로토타입 행렬
입력 :		에 대한 정규화 인자인 스칼라 ([Vilkamo2013] 를 제안함)
입력 :		에 대한 정규화 인자인 스칼라 ([Vilkamo2013] 를 제안함)
출력 :		nХm 크기의 행렬 M, 최적 혼합행렬
	% 분해 (본 발명의 단계)
1
	% 분해 (본 발명의 단계)
2
	% 정규화 (본 발명의 단계, 대각행렬이므로 이 단계도 단순화할 수 있음)
3
4
5
	% 정규화된 공식화(본 발명, 또한 단순화할 수 있음)
6
	% 정규화 행렬 공식화
11			% [Vilkamo2013], 수학식 (5),(2)
12
	% 다음의 정규화 단계는 [Vilkamo2013]의 목록 1에는 있지만 텍스트에는 설명되어 있지 않음
12
13
13			% [Vilkamo2013], 수학식 (7)
	% 최적 공식화 ([Vilkamo2013], 섹션 3.1)
14			% SVD of a 행렬
	% 여기서 는 필요하지 않음 (본 발명의 단계)
15
	% 최적 공식화
16			% [Vilkamo2013], 수학식 (11)
	% 에너지 보상
17
18			% [Vilkamo2013], 수학식 (17)
19			% [Vilkamo2013], 수학식 (17)

종래의 알고리즘과 제안된 알고리즘을 신중히 비교하면, 전자가 각각 크기가 mxm, nxn 및 mxn인 3개의 행렬의 SVD를 필요로 한다는 것이다. 여기서 m은 다운믹스 채널의 수이고 n은 객체가 렌더링되는 출력채널의 수이다.

제안된 알고리즘은 크기가 mxk인 행렬의 하나의 SVD만 필요한다. 여기서 k는 우세 객체의 수이다. 또한, k는 일반적으로 n보다 훨씬 작기 때문에 이 행렬은 종래 알고리즘의 대응 행렬보다 작다.

표준 SVD 구현의 복잡도는 mxn 행렬[Golub2013]의 경우 대략

이다. 여기서

및

사용된 알고리즘에 따라 달라지는 상수이다. 따라서 제안 알고리즘의 연산 복잡도는 종래 알고리즘에 비해 현저히 감소한다.

이어서, 제1 측면의 인코더 측에 관한 바람직한 실시예가 도 7a 및 7b를 참조하여 논의된다. 또한, 제2 측면의 인코더 측 구현의 바람직한 구현이 도 9a 내지 9d를 참조하여 논의된다.

도 7a는 도 1a의 객체 파라미터 계산기(100)의 바람직한 구현예를 도시한다. 블록(120)에서 오디오 객체는 스펙트럼 표현으로 변환된다. 이것은 도 2 또는 도 3의 필터뱅크(102)에 의해 구현된다. 다음으로, 블록(122)에서, 예를 들어 도 2 또는 도 3의 블록(104)에 도시된 바와 같이 선택 정보가 계산된다. 진폭 자체, 전력, 에너지 또는 1인 아닌 전력으로 진폭을 증폭하여 얻은 진폭 관련 측정치와 같은 진폭 관련 측정이 사용될 수 있다. 블록(122)의 결과는 대응하는 시간/주파수 빈 내의 각각의 객체에 대한 선택 정보 세트이다. 다음으로, 블록(124)에서, 시간/주파수 빈당 객체 ID가 도출된다. 제1 측면에서, 시간/주파수 빈당 둘 이상의 객체 ID가 도출된다. 제2 양태에 따르면, 시간/주파수 빈당 객체 ID의 수는 심지어 단일 객체 ID일 수 있어서 블록(122)에 의해 제공된 정보 중에서 블록(124)에서 가장 중요하거나 가장 강력하거나 가장 관련된 객체가 식별된다. 블록 124는 파라미터 데이터에 대한 정보를 출력하고 가장 관련된 하나 이상의 객체에 대한 단일 또는 여러 개의 인덱스를 포함한다.

시간/주파수 빈당 2개 이상의 관련 객체를 갖는 경우, 블록(126)의 기능은 시간/주파수 빈의 객체를 특징짓는 진폭 관련 측정치를 계산하는 데 유용한다. 이 진폭 관련 측정은 블록(122)에서 선택 정보에 대해 계산된 것과 동일할 수 있거나, 또는 바람직하게는 결합 값은 블록(122)과 블록(126) 사이의 점선으로 표시된 바와 같이 블록(102)에 의해 이미 계산된 정보를 사용하여 계산된다. 그리고, 진폭 관련 측정치 또는 하나 이상의 결합 값은 다음으로 블록(126)에서 계산되고 양자화기 및 인코더 블록(212)으로 전송되어 추가 파라메트릭 부가 정보로서 부가 정보의 인코딩된 진폭 관련 또는 인코딩된 결합 값을 갖는다. 도 2 또는 도 3의 실시예에서 이들은 "인코딩된 객체 인덱스"와 함께 비트스트림에 포함되는 "인코딩된 전력 비율"이다. 주파수 빈당 하나의 객체 ID만 있는 경우 전력 비율 계산 및 양자화 인코딩이 필요하지 않으며 시간 주파수 빈에서 가장 관련성이 높은 객체에 대한 인덱스만으로도 디코더 측 렌더링을 수행하기에 충분하다.

도 7b는 도 7b의 선택 정보(102)의 계산의 바람직한 구현을 도시한다. 블록(123)에 도시된 바와 같이, 신호 전력은 선택 정보로서 각각의 객체 및 각각의 시간/주파수 빈에 대해 계산된다. 다음으로, 도 7a의 블록(124)의 바람직한 구현을 도시하는 블록(125)에서, 최고 전력을 갖는 단일 또는 바람직하게는 둘 이상의 객체에 대한 객체 ID가 추출되어 출력된다. 또한, 2개 이상의 관련 객체의 경우, 블록(126)의 바람직한 구현으로서 블록(127)에 나타낸 바와 같이 전력 비율이 계산되며, 전력 비율은 대응하는 모든 추출된 객체의 전력과 관련된 추출된 객체 ID에 대해 블록(125)에 의해 발견된 해당 객체 ID를 사용하여 계산된다. 이 절차는, 시간/주파수 빈에 대한 객체의 수보다 하나 적은 결합 값의 수만 전송되어야 하며, 본 실시예에서 모든 객체에 대한 전력 비율이 1로 합산되어야 한다고 명시하는 규칙이 존재하기 때문에 유리하다. 바람직하게는, 도 7a의 블록(120, 122, 124, 126) 및/또는 도 7b의 블록(123, 125, 127)의 기능은 도 1a의 객체 파라미터 계산기(100)에 의해 구현되고, 도 7a의 블록(212)의 기능은 도 1a의 출력 인터페이스(200)에 의해 구현된다.

이어서, 도 1b에 도시된 제2 측면에 따른 인코딩 장치가 여러 실시예에 대해 더 상세히 설명된다. 단계(110a)에서, 방향 정보는 예를 들어 도 12a과 관련하여 도시된 바와 같이 입력 신호로부터 또는 메타데이터 부분 또는 메타데이터 파일에 포함된 메타데이터 정보를 읽거나 파싱함으로써 추출된다. 단계(110b)에서, 프레임당 방향 정보 및 오디오 객체는 양자화되고 프레임당 객체당 양자화 인덱스는 인코더 또는 도 1b의 출력 인터페이스(200)와 같은 출력 인터페이스로 전달된다. 단계(110c)에서, 특정 구현에서 블록(110b)에 의해 직접 출력될 수도 있는 역양자화된 값을 갖기 위해 방향 양자화 인덱스가 역양자화된다. 다음으로, 역양자화된 방향 인덱스에 기초하여, 블록(422)은 특정 가상 마이크로폰 설정에 기초하여 각각의 전송채널 및 각각의 객체에 대한 가중치를 계산한다. 이 가상 마이크로폰 설정은 동일한 위치에 배열되고 서로 다른 방향을 갖는 두 개의 가상 마이크로폰 신호를 포함할 수 있거나, 또는 가상 청취자 위치 또는 방향과 같은 기준 위치 또는 방향에 대해 두 개의 다른 위치가 있는 설정일 수 있다. 두 개의 가상 마이크로폰 신호로 설정하면 각 객체에 대한 두 개의 전송채널에 대한 가중치가 발생한다.

3개의 전송채널을 생성하는 경우, 가상 마이크로폰 설정은 동일한 위치에 배열되고 방향이 다른 마이크로폰, 또는 기준 위치 또는 방향이 가상 청취자의 위치 또는 방향인 기준 위치 또는 방향에 대해 3개의 다른 위치에 배열된 마이크로폰으로부터 3가지 가상 마이크로폰 신호를 포함하는 것으로 간주될 수 있다.

대안적으로, 동일한 위치에 배치되고 방향이 다른 마이크로폰 또는 기준 위치 또는 방향이 가상 청취자의 위치 또는 가상 청취자의 방향일 수 있는 기준 위치 또는 기준 방향에 대해 4개의 다른 위치로 배열되는 4개의 가상 마이크로폰 신호로부터 4개의 가상 마이크로폰 신호를 생성하는 가상 마이크로폰 설정에 기반하여 4개의 전송채널이 생성될 수 있다.

또한, 예를 들어 두개의 채널에 대해 각 객체 및 각 전송채널에 대한 가중치(w_L 및 w_R)를 계산하기 위해, 가상 마이크로폰 신호는 가상 1차 마이크로폰, 또는 가상 카디오이드 마이크로폰, 또는 양방향 마이크로폰인 가상 8자 마이크로폰(virtual figure of eight microphone), 또는 쌍극자 마이크로폰에서 파생되거나, 또는 가상 방향성 마이크로폰 또는 가상 서브카디오이드 마이크로폰(virtual subcardioid microphone) 또는 가상 단방향 마이크로폰 또는 가상 하이퍼카디오이드 마이크로폰(virtual hypercardioid microphone) 또는 가상 전방향성 마이크로폰에서 파생된다.

이와 관련하여 가중치를 계산하기 위해 실제 마이크로폰을 배치할 필요는 없다는 점에 주목해야 한다. 대신 가상 마이크로폰 설정 즉, 가상 마이크로폰의 위치와 가상 마이크로폰의 특성에 따라 가중치를 계산하는 규칙이 달라진다.

도 9a의 블록(404)에서, 가중치가 0이 아닌 경우 각 객체에 대해 특정 전송채널에 대한 객체의 기여도가 얻어지도록 객체에 가중치를 적용한다. 따라서 블록(404)는 입력으로서 객체 신호를 수신한다. 다음으로, 블록(406)에서, 예를 들어 제1 전송채널에 대한 객체로부터의 기여도가 함께 더해지고 제2 전송채널에 대한 객체의 기여도가 함께 더해지는 등, 각 전송채널마다 기여도가 합산된다. 블록(406)에 도시된 바와 같이, 블록(406)의 출력은 예를 들어 시간 도메인에서 전송채널이다.

바람직하게는, 블록(404)에 입력되는 객체 신호는 전체 대역 정보를 갖는 시간 도메인 객체 신호이고, 블록(404)의 적용 및 블록(406)의 합산은 시간 도메인에서 수행된다. 그러나, 다른 실시예에서, 이들 단계는 또한 스펙트럼 도메인에서 수행될 수 있다.

도 9b는 정적 다운믹스가 구현되는 추가 실시예를 도시한다. 이를 위해 블록(130)에서 제1 프레임에 대한 방향 정보를 추출하고, 블록(403a)에서와 같이 제1 프레임에 따라 가중치를 계산한다. 그런 다음 정적 다운믹스를 구현하기 위해 블록(408)에 표시된 다른 프레임에 대한 가중치를 그대로 둔다.

도 9c는 동적 다운믹스가 계산되는 대안적인 구현을 도시한다. 이를 위해, 블록(132)은 각 프레임에 대한 방향 정보를 추출하고, 가중치는 블록(403b)에 도시된 바와 같이 각 프레임에 대해 업데이트된다. 다음으로, 블록(405)에서, 프레임마다 변경되는 동적 다운믹스를 구현하기 위해 업데이트된 가중치가 프레임에 적용된다. 도 9b와 9c의 극단적인 경우 사이의 다른 구현도 유용하며, 여기서 예를 들어 가중치는 매 2/3 또는 매 n번째 프레임에 대해서만 업데이트되고/또는 시간 경과에 따른 가중치 평활화는 안테나 특성이 방향 정보에 따른 다운믹싱을 위해 수시로 크게 변하지 않도록 수행된다. 도 9d는 도 1b의 객체 방향 정보 제공기(110)에 의해 제어되는 다운믹서(400)의 다른 구현을 도시한다. 블록(410)에서, 다운믹서는 프레임 내의 모든 객체의 방향 정보를 분석하도록 구성되고, 블록(112)에서, 스테레오 예시의 경우 가중치(w_L 및 w_R)를 계산할 목적으로 마이크로폰은 분석 결과와 일치하도록 배치된다. 여기서, 마이크로폰의 배치는 마이크로폰의 위치 및/또는 마이크로폰의 방향성을 의미한다. 블록(414)에서, 마이크로폰은 도 9b의 블록(408)과 관련하여 논의된 정적 다운믹스와 유사하게 다른 프레임을 위해 남겨지거나 또는 마이크로폰이 도 9d의 블록(414)의 기능을 얻기 위해 도 9c의 블록(405)과 관련하여 논의된 것과 일치하게 업데이트된다. 블록(412)의 기능과 관련하여, 제1 가상 마이크로폰이 제1 객체 그룹을 "바라보고(look)" 제2 가상 마이크로폰이, 제1 객체 그룹과 상이하고 바람직하게는 가능한 한 한 그룹의 임의의 객체가 다른 그룹에 포함되지 않는다는 점에서 상이한, 제2 객체 그룹을 "바라봄"으로써 양호한 분리가 얻어지도록 마이크로폰이 배치될 수 있다. 대안적으로, 블록(410)의 분석은 다른 파라미터에 의해 향상될 수 있고 배치는 또한 다른 파라미터에 의해 제어될 수 있다.

이어서, 예를 들어 도 6a 및 도 6b와 관련하여 논의되는 제1 또는 제2 측면에 따른 디코더의 바람직한 구현은 다음의 도 10a, 10b, 10c, 10d 및 11과 관련하여 제공된다.

블록(613)에서, 입력 인터페이스(600)는 객체 ID와 연관된 개별 객체 방향 정보를 검색하도록 구성된다. 이 절차는 도 4 또는 5의 블록(612)의 기능에 대응하고 도 8b 및 특히 8c와 관련하여 도시되고 논의된 바와 같이 "프레임에 대한 코드북"을 생성한다.

또한, 블록(609)에서, 시간/주파수 빈당 하나 이상의 객체 ID는 이들 데이터가 저해상도 파라미터 대역 또는 고해상도 주파수 타일에 대해 이용 가능한지 여부에 관계없이 검색된다. 도 4의 블록(608)의 절차에 대응하는 블록(609)의 결과는 하나 이상의 관련 객체에 대한 시간/주파수 빈의 특정 ID이다. 다음으로, 블록(611)에서, 각각의 시간/주파수 빈에 대한 특정한 하나 이상의 ID에 대한 특정 객체 방향 정보가 "프레임에 대한 코드북", 즉 도 8c에 도시된 예시적인 테이블로부터 검색된다. 다음으로, 블록(704)에서, 시간/주파수 빈마다 계산되는 출력 포맷에 의해 좌우되는 개별 출력채널에 대한 하나 이상의 관련 객체에 대한 이득 값이 계산된다. 다음으로, 블록(730 또는 706, 708)에서 출력채널이 계산된다. 출력채널 계산의 기능은 도 10b에 도시된 하나 이상의 전송채널로부터의 기여도의 명시적 계산 내에서 수행되거나 또는 도 10b에 도시된 전송채널 기여도의 간접적인 계산 및 사용으로 수행될 수 있다. 도 10b는 도 4의 기능에 대응하는 블록(610)에서 전력 값 또는 전력 비율이 검색되는 기능을 도시한다. 그런 다음, 이러한 전력 값은 블록(733 및 735)에 도시된 각 관련 객체마다 개별 전송채널에 적용된다. 또한, 이러한 전력 값은 블록(704)에 의해 결정된 이득 값에 더하여 개별 전송채널에 적용되어, 블록(733, 735)은 전송채널 (ch1, ch2, … ) 과 같은 전송채널의 객체 특정 기여도를 초래하게 한다. 그 다음, 블록(737)에서 명시적으로 계산된 이러한 채널 전송 기여도는 시간/주파수 빈당 각 출력채널에 대해 함께 추가된다.

그런 다음 구현에 따라 각 출력채널(ch1, ch2, … )에 대한 해당 시간/주파수 빈에서 확산 신호를 생성하는 확산 신호 계산기(741)가 제공될 수 있고, 확산 신호의 결합 및 블록(737)의 기여 결과가 결합되어 각 시간/주파수 빈에서 전체 채널 기여도가 얻어진다. 이 신호는 공분산 합성이 추가적으로 확산 신호에 의존할 때 도 4의 필터뱅크(708)로의 입력에 대응한다. 그러나, 공분산 합성(706)이 확산 신호에 의존하지 않고 역상관기 없이 처리에만 의존할 때, 적어도 각 시간/주파수 빈당 출력 신호의 에너지는 도 10b의 블록(739)의 출력에서의 채널 기여도의 에너지에 해당한다. 또한, 확산 신호 계산기(741)가 사용되지 않는 경우, 최종적으로 저장되거나 라우드스피커 또는 모든 종류의 렌더링 장치로 전달될 수 있는 시간 도메인 출력채널이 있는 출력 오디오 파일을 얻기 위해, 블록(739)의 결과는 각각의 출력채널(ch1, ch2)에 대해 개별적으로 변환될 수 있는 시간/주파수 빈당 전체 채널 기여도를 갖는 블록(706)의 결과에 대응한다.

도 10c는 도 10b 또는 도 4의 블록(610)의 기능의 바람직한 구현을 도시한다. 단계(610a)에서, 결합된 (전력) 값 또는 여러 값이 특정 시간/주파수 빈에 대해 검색된다. 블록(610b)에서, 모든 결합 값의 합이 1이 되어야 한다는 계산 규칙에 기초하여 시간/주파수 빈 내의 다른 관련 객체에 대해 대응하는 다른 값이 계산된다.

그 다음, 그 결과는 바람직하게는 하나가 그룹화된 타임슬롯 인덱스당 및 파라미터 대역 인덱스당 2개의 전력비를 갖는 저해상도 표현일 것이다. 이들은 낮은 시간/주파수 분해능을 나타낸다. 블록(610c)에서, 시간/주파수 해상도는 고해상도 타임슬롯 인덱스(n) 및 고해상도 주파수 대역 인덱스(k)를 갖는 시간/주파수 타일에 대한 전력 값을 갖도록 높은 시간/주파수 해상도로 확장될 수 있다. 상기 확장은 그룹화된 타임슬롯 내의 대응하는 타임 슬롯 및 파라미터 대역 내의 대응하는 주파수 대역에 대한 하나의 동일한 저해상도 인덱스의 직접적인 사용을 포함할 수 있다.

도 10d는 도 4의 블록(706)에서 2개 이상의 입력 전송채널을 2개 이상의 출력 신호로 혼합하기 위해 사용되는 혼합행렬(725)로 표현되는 공분산 합성 정보의 계산을 위한 기능의 바람직한 구현을 도시한다. 따라서 예를 들어 2개의 전송채널과 6개의 출력채널이 있는 경우 각 개별 시간/주파수 빈에 대한 혼합행렬의 크기는 6행 2열이 된다. 도 5의 블록(723)의 기능에 대응하는 블록(723)에서, 각각의 시간/주파수 빈에서 객체당 이득 값 또는 직접 응답 값이 수신되고, 공분산 행렬이 계산된다. 블록(722)에서, 전력 값 또는 비율이 수신되고 시간/주파수 빈에서 객체당 직접 전력 값이 계산되며, 도 10d의 블록(722)은 도 5의 블록(722)에 대응한다.

블록(721 및 722)의 결과 모두는 타겟 공분산 행렬 계산기(724)에 입력된다. 추가적으로 또는 대안적으로, 타겟 공분산 행렬(C_y)의 명시적 계산은 필요하지 않다. 대신에 타겟 공분산 행렬에 포함된 관련 정보, 즉 행렬(R)에 표시된 직접 응답 값 정보와 행렬(E)에 표시된 두 개 이상의 관련 객체에 대한 직접 전력 값이 시간/주파수 빈당 혼합행렬을 계산하기 위해 블록(725a)에 입력된다. 추가적으로, 혼합행렬(725a)은 도 5의 블록(726)에 대응하는 블록(726)에 도시된 둘 이상의 전송채널로부터 유도된 입력 공분산 행렬(C_x) 및 프로토타입 행렬(Q)에 대한 정보를 수신한다. 시간/주파수 빈 및 프레임별 혼합행렬은 블록(725b)에 도시된 바와 같이 시간적 평활화를 거칠 수 있고, 도 5의 렌더링 블록의 적어도 일부에 대응하는 블록(727)에서, 블록(739)의 출력에서 도 10b와 관련하여 이전에 논의된 바와 같이 대응하는 전체 기여도와 실질적으로 유사한 시간/주파수 빈에서 전체 채널 기여도를 얻기 위해, 혼합행렬은 평활화되지 않은 형태 또는 평활화된 형태로 해당 시간/주파수 빈에서 전송채널에 적용된다. 따라서, 도 10b는 전송채널 기여도의 명시적 계산의 구현을 도시하는 반면, 도 10d는 타겟 공분산 행렬(C_y)를 통해 또는 혼합행렬 계산 블록(725a)에 직접 도입된 블록(723 및 722)의 관련 정보(R 및 E)를 통해 각 시간 주파수 빈에서 시간/주파수 빈당 및 관련 객체당 전송채널 기여도를 암시적으로 계산하는 절차를 도시한다.

이어서, 공분산 합성을 위한 바람직한 최적화된 알고리즘이 도 11과 관련하여 도시된다. 도 11에 도시된 모든 단계는 도 4의 공분산 합성(706) 내에서 또는 도 5의 혼합행렬 계산 블록(725) 또는 도 10d의 블록(725a)내에서 계산되는 것으로 요약될 것이다. 단계 751에서, 제1 분해 결과(K_y)가 계산된다. 이러한 분해 결과는 공분산 행렬을 명시적으로 계산하지 않고서도 도 10d에 도시된 바와 같이 행렬(R)에 포함된 이득 값에 대한 정보와 둘 이상의 관련 객체로부터의 정보, 특히 직접적으로 사용되는 행렬(ER)에 포함된 직접 전력 정보로 인해 용이하게 계산될 수 있다. 따라서 블록(751)의 제1 분해 결과는 특정한 특이값 분해가 더 이상 필요하지 않기 때문에 많은 노력 없이 간단하게 계산될 수 있다.

단계 752에서, 제2 분해 결과는 K_x로 계산된다. 이 분해 결과는 입력 공분산 행렬이 비 대각선 요소가 무시되는 대각행렬로 처리되기 때문에 명시적 특이값 분해 없이 계산될 수도 있다.

다음으로 단계(753)에서 제1정규화 파라미터(α)를 기반으로 제1 정규화 결과를 계산하고, 단계(754)에서 제2정규화 파라미터 (β)를 기반으로 제2 정규화 결과를 계산한다. K_x가 대각 행렬인 바람직한 구현에서, 제1 정규화 결과(753)의 계산은 종래 기술에 비해 단순화되는데, 이는 S_x의 계산이 종래와 같은 분해가 아니라 파라미터 변경일 뿐이기 때문이다.

또한, 블록(754)에서의 제2 정규화 결과의 계산과 관련하여, 제1 단계는 종래 기술에서 행렬 U_x ^HS 와의 곱셈이 아니라 단지 추가로 파라미터 이름 변경일 뿐이다.

또한, 단계(755)에서 정규화 행렬(G^y)을 계산하고, 단계(755)에 기초하여 블록(751)에서 얻은 K_x 및 프로토타입 행렬(Q) 및 K_y의 정보를 기초로 유니터리(unitary) 행렬(P)을 단계(756)에서 계산한다. 임의의 행렬(Λ)이 여기에서 필요하지 않다는 사실로 인해, 유니터리 행렬(P)의 계산은 이용 가능한 종래 기술에 대해 단순화된다.

다음으로, 단계(757)에서, M_opt인 에너지 보상이 없는 혼합행렬이 계산되고, 이를 위해 유니타리 행렬(P), 블록(754)의 결과 및 블록(751)의 결과가 사용된다. 그 다음, 블록(758)에서, 보상 행렬(G)를 사용하여 에너지 보상이 수행된다. 에너지 보상은 역상관기로부터 도출된 임의의 잔차 신호가 필요하지 않도록 수행된다. 그러나, 에너지 보상을 수행하는 대신에, 에너지 정보 없이 혼합행렬(M_opt)에 의해 남겨진 에너지 갭을 채우기에 충분히 큰 에너지를 갖는 잔차 신호가 이 구현에서 추가될 것이다. 그러나, 본 발명의 목적을 위해, 역상관기에 의해 도입된 임의의 아티팩트를 피하기 위해 역상관 신호에 의존하지 않는다. 그러나 단계(758)에 나타낸 바와 같은 에너지 보상이 바람직하다.

따라서, 공분산 합성을 위한 최적화된 알고리즘은 단계(751, 752, 753, 754)에서 그리고 또한 유니터리 행렬(P)의 계산을 위한 단계(756)에서 이점을 제공한다. 최적화된 알고리즘은 단계(755, 752, 753, 754, 756) 중 하나 또는 이러한 단계의 하위 그룹만이 도시된 바와 같이 구현되더라도 종래 기술에 비해 이점을 제공하지만, 대응하는 다른 단계는 종래 기술에서와 같이 구현됨이 강조된다. 그 이유는 개선 사항이 서로 의존하지 않고 서로 독립적으로 적용될 수 있기 때문이다. 그러나 더 많은 개선 사항이 구현될수록 구현의 복잡성과 관련하여 절차가 나아질 것이다. 따라서, 도 11의 실시예의 전체 구현이 높은 양의 복잡성 감소를 제공하기 때문에 가장 바람직하지만, 단계(751, 752, 753, 754, 756) 중 하나만이 최적화된 알고리즘에 따라 구현되고 다른 단계는 종래 기술에서와 같이 구현되는 경우에도, 품질 저하 없이 복잡도 감소가 얻어진다.

본 발명의 실시예는 또한 3개의 가우시안 노이즈 소스(각 채널에 대해 하나씩)와 제3 공통 노이즈 소스를 혼합하여 상관된 배경 노이즈를 생성하거나 또는 추가로 또는 개별적으로 SID 프레임과 함께 전송되는 코히어런스 값으로 노이즈 소스의 혼합을 제어하는 것에 의해 스테레오 신호에 대한 컴포트 노이즈를 생성하는 절차로 간주될 수 있다.

이전 및 아래에 논의된 바와 같은 모든 대안 또는 측면 및 이하의 청구범위 또는 측면에서 청구항에 의해 정의된 모든 측면이 개별적으로, 즉, 고려된 대안, 대상 또는 독립항 외의 임의의 다른 대안 또는 대상 없이 사용될 수 있음이 언급되어야 한다. 그러나, 다른 실시예에서, 2개 이상의 대안 또는 측면 또는 독립항은 서로 결합될 수 있고, 다른 실시예에서는 모든 측면 또는 대안 및 모든 독립항이 서로 결합될 수 있다.

본 발명에 따라 인코딩 된 신호는 디지털 저장 매체 또는 비 일시적 저장 매체에 저장될 수 있거나 또는 무선 전송 매체와 같은 전송 매체 또는 인터넷과 같은 유선 전송 매체를 통해 전송될 수 있다.

일부 측면은 장치와 관련하여 설명되었지만, 이들 측면은 또한 대응하는 방법의 설명을 나타내는 것이 분명하며, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 해당한다. 유사하게, 방법 단계의 맥락에서 설명된 측면은 또한 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명을 나타낸다.

특정 구현 요구에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 전자적으로 판독 가능한 제어 신호가 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있으며, 이것들은 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 시스템이다.

본 발명에 따른 일부 실시예는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함하고, 본 명세서에 기술된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 시스템이다.

일반적으로, 본 발명의 실시예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 상기 방법 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능 캐리어 상에 저장될 수 있다.

다른 실시예는 기계 판독 가능 캐리어 또는 비 일시적 저장 매체에 저장된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다시 말해, 따라서, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터에서 실행될 때 본원에 기술된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법의 다른 실시예는 여기에 기술된 방법 중 하나를 수행하기 위한, 그에 기록된, 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다.

따라서, 본 발명의 방법의 다른 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호 시퀀스이다. 데이터 스트림 또는 신호 시퀀스는 예를 들어 인터넷을 통해 데이터 통신 연결을 통해 전송되도록 구성될 수 있다.

추가의 실시예는 본 명세서에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그램 가능 논리 장치를 포함한다.

추가의 실시예는 여기에 설명된 방법 중 하나를 수행하기 위해 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

일부 실시예에서, 프로그래머블 로직 디바이스(예를 들어, 필드 프로그래머블 게이트 어레이)는 본 명세서에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 여기에 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 상기 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.

전술한 실시예는 단지 본 발명의 원리를 설명하기 위한 것일 뿐이다. 본 명세서에 설명된 배열 및 세부 사항의 수정 및 변형은 당업자에게 명백할 것이다. 그러므로, 다음에 기재된 특허 청구의 범위에 의해서만 제한되고 본 명세서의 실시예의 설명 및 기술에 의해 제시된 특정 세부 사항에 의해 제한되는 것은 아니다.

측면(aspect)(서로 독립적으로 사용되거나 다른 모든 측면과 함께 사용되거나 다른 측면의 하위 그룹만 사용됨)

아래에 언급된 특징 중 하나 이상을 포함하는 장치, 방법 또는 컴퓨터 프로그램:

신규 측면에 관한 본 발명의 실시예:

·Multi-wave 아이디어는 객체 코딩과 결합된다(T/F 타일당 하나 이상의 방향 큐 사용).

·IVAS에서 임의의 종류의 입력 유형을 허용하기 위해 가능한 한 DirAC 패러다임에 가까운 객체 코딩 접근 방식(지금까지 다루지 않은 객체 콘텐츠)

파라미터화(인코더)에 관한 본 발명의 실시예:

·각 T/F 타일에 대해: 이 T/F 타일에서 가장 관련성이 높은 n개 객체에 대한 선택 정보와 가장 관련성이 높은 n개 객체 기여도 간의 전력 비율

·각 프레임에 대해, 각 객체에 대해: 한 방향

렌더링(디코더)에 관한 본 발명의 실시예:

·전송된 객체 인덱스 및 방향 정보와 타겟 출력 레이아웃에서 해당 객체별 직접 응답 값을 얻음

·직접 응답에서 공분산 행렬을 얻음

·각 관련 객체에 대한 다운믹스 신호 전력 및 전송된 전력 비율에서 직접 전력을 계산

·직접 전력 및 공분산 행렬에서 최종 타겟 공분산 행렬을 얻음

·입력 공분산 행렬의 대각선 요소만 사용

·최적화된 공분산 합성

SAOC와의 차이점에 대한 몇 가지 참고 사항:

· n 개의 우세 객체는 모든 객체 대신에 간주된다

-> 따라서 전력 비율은 OLD와 관련이 있지만 다르게 계산됨

· SAOC는 인코더에서 방향을 사용하지 않음 -> 디코더에서만 도입된 방향 정보 사용(행렬을 렌더링)

-> SAOC-3D 디코더는 행렬 렌더링을 위한 객체 메타데이터를 수신함

· SAOC는 다운믹스 행렬을 채용하고 다운믹스 이득을 전송한다

· 확산은 본 발명의 실시예에서는 고려되지 않는다

이어서, 본 발명의 추가 실시예가 요약된다.

1. 복수의 오디오 객체 및 상기 복수의 오디오 객체에 대한 방향 정보를 나타내는 관련 메타데이터를 인코딩하는 장치로서,

하나 이상의 전송채널을 얻기 위해 상기 복수의 오디오 객체를 다운믹싱하는 다운믹서(400);

하나 이상의 인코딩된 전송채널을 얻기 위해 하나 이상의 전송채널을 인코딩하기 위한 전송채널 인코더(300); 및

상기 하나 이상의 인코딩된 전송채널을 포함하는 인코딩된 오디오 신호를 출력하기 위한 출력 인터페이스(200)를 포함하며,

상기 다운믹서(400)는 상기 복수의 오디오 객체에 대한 상기 방향 정보에 응답하여 상기 복수의 오디오 객체를 다운믹스하도록 구성된다.

2. 실시예 1의 장치에서, 상기 다운믹서(400)는

가상 청취자 위치 또는 방향과 같은 기준 위치 또는 방향에 대해 동일한 위치에서 다른 방향을 갖거나 또는 2개의 상이한 위치에서 배열되는 2개의 가상 마이크로폰 신호로서 2개의 전송채널을 생성하도록 구성되거나, 또는

가상 청취자 위치 또는 방향과 같은 기준 위치 또는 방향에 대해 동일한 위치에서 다른 방향을 갖거나 또는 3개의 상이한 위치에서 배열되는 3개의 가상 마이크로폰 신호로서 3개의 전송채널을 생성하도록 구성되거나, 또는

가상 청취자 위치 또는 방향과 같은 기준 위치 또는 방향에 대해 동일한 위치에서 다른 방향을 갖거나 또는 4개의 상이한 위치에서 배열되는 4개의 가상 마이크로폰 신호로서 4개의 전송채널을 생성하도록 구성되거나, 또는

상기 가상 마이크로폰 신호는 가상 1차 마이크로폰 신호, 또는 가상 카디오이드 마이크로폰 신호, 또는 가상 8자 또는 쌍극자 또는 양방향 마이크로폰 신호, 또는 가상 방향성 마이크로폰 신호, 또는 가상 서브카디오이드 마이크로폰 신호, 또는 가상 단방향 마이크로폰 신호, 또는 가상 하이퍼카디오이드 마이크로폰 신호, 또는 가상 전방향성 마이크로폰 신호이다.

3. 실시예 1 또는 2의 장치에서,

상기 다운믹서(400)는

상기 복수의 오디오 객체의 각 오디오 객체에 대해 상기 해당 오디오 객체에 대한 상기 방향 정보를 사용하여 각 전송채널에 대한 가중치 정보를 도출하고(402);

특정 전송채널에 대한 객체 기여도를 얻기 위해 상기 특정 전송채널에 대한 상기 오디오 객체에 대한 상기 가중치 정보를 사용하여 상기 해당 오디오 객체에 가중치를 부여하고(404),

상기 특정 전송채널을 얻기 위해 상기 복수의 오디오 객체로부터의 상기 특정 전송채널에 대한 상기 객체 기여도를 결합(406)하도록 구성된다.

4. 실시예 1 내지 3 중 어느 한 장치에서,

상기 다운믹서(400)는 상기 방향 정보가 관계된, 가상 청취자 위치나 방향과 같은 기준 위치 또는 방향에 대해 동일한 위치에서 다른 방향을 갖거나 또는 상이한 위치에서 배열된 하나 이상의 가상 마이크로폰 신호로서 상기 하나 이상의 전송채널을 계산하도록 구성되며,

상기에서 상기 상이한 위치 또는 방향은 중심선 상 또는 왼측에 있거나 또는 상기 중심선 상 또는 오른측에 있거나, 상기에서 상기 상이한 위치 또는 방향은 상기 중심선에 대해 +90도 또는 -90도 또는 상기 중심선에 대해 -120도, 0도 및 +120도와 같은 수평 위치 또는 방향으로 균등하게 또는 비균등하게 분포되거나, 또는 상기 상이한 위치 또는 방향은 가상 청취자가 배치된 수평면에 대해 위 또는 아래 방향으로 향하는 적어도 하나의 위치 또는 방향을 포함하며, 상기에서 상기 복수의 오디오 객체에 대한 상기 방향 정보는 상기 가상 청취자 위치 또는 기준 위치 또는 방향과 관련된다.

5. 실시예 1 내지 4중 어느 한 장치에서, 상기 복수의 오디오 객체에 대한 양자화된 방향 아이템을 획득하기 위해 상기 복수의 오디오 객체에 대한 상기 방향 정보를 나타내는 상기 메타데이터를 양자화하는 파라미터 처리기(110)를 더 포함하며,

상기 다운믹서(400)는 상기 방향 정보로서 상기 양자화된 방향 아이템에 대응하여 동작하도록 구성되며,

상기 출력 인터페이스(200)는 상기 양자화된 방향 아이템에 대한 정보를 상기 인코딩된 오디오 신호에 도입하도록 구성된다.

6. 실시예 1 내지 5 중 어느 한 장치에서, 상기 다운믹서(400)는 상기 복수의 오디오 객체에 대한 상기 방향 정보를 분석하고(410), 상기 분석 결과에 따라 상기 전송채널 생성을 위한 하나 이상의 가상 마이크로폰을 배치(412)하도록 구성된다.

7. 실시예 1 내지 6 중 어느 한 장치에서, 상기 다운믹서(400)는 상기 복수의 시간 프레임에 걸쳐 정적인 다운믹싱 규칙을 사용하여 다운믹싱(408)하도록 구성되거나, 또는 상기 방향 정보는 복수의 시간 프레임에 걸쳐 가변적이며, 상기 다운믹서(400)는 상기 복수의 시간 프레임에 걸쳐 가변적인 다운믹싱 규칙을 사용하여 다운믹싱(405)하도록 구성된다.

8. 실시예 1 내지 7 중 한 장치에서, 상기 다운믹서(400)는 샘플별 가중치 및 상기 복수의 오디오 객체의 샘플 결합을 사용하여 시간 도메인에서 다운믹싱하도록 구성된다.

9. 실시예 1 내지 8 중 어느 한 장치에서,

시간 프레임과 관련된 복수의 주파수 빈 중 하나 이상의 주파수 빈에 대해 적어도 2개의 관련 오디오 객체에 대한 파라미터 데이터를 계산하도록 구성된 객체 파라미터 계산기(100)로서, 상기 적어도 2개의 관련 오디오 객체의 개수는 상기 복수의 오디오 객체의 총 개수보다 적은, 상기 객체 파라미터 계산기(100)를 더 포함하며,

상기 출력 인터페이스(200)는 상기 하나 이상의 주파수 빈에 대한 상기 적어도 두 개의 관련 오디오 객체에 대한 상기 파라미터 데이터에 대한 정보를 상기 인코딩된 오디오 신호로 도입하도록 구성된다.

10. 실시예 9의 장치에서,

상기 객체 파라미터 계산기(100)는

상기 복수의 오디오 객체의 각각의 오디오 객체를 상기 복수의 주파수 빈을 갖는 스펙트럼 표현으로 변환하고(120),

상기 하나 이상의 주파수 빈에 대한 각각의 오디오 객체로부터 선택 정보를 계산하고(122), 그리고

상기 선택 정보에 기초하여 상기 적어도 2개의 관련 오디오 객체를 나타내는 상기 파라미터 데이터로서 객체 식별을 도출하도록(124) 구성되고,

상기 출력 인터페이스(200)는 상기 객체 식별 정보에 대한 정보를 상기 인코딩된 오디오 신호에 도입하도록 구성된다.

11. 실시예 9 또는 10의 장치에서,

상기 객체 파라미터 계산기(100)는 상기 파라미터 데이터로서 상기 하나 이상의 주파수 빈에서 하나 이상의 진폭 관련 측정치 또는 상기 관련 오디오 객체의 상기 진폭 관련 측정값으로부터 도출된 하나 이상의 결합 값을 양자화 및 인코딩(212)하도록 구성되고, 그리고

상기 출력 인터페이스(200)는 상기 양자화된 하나 이상의 진폭 관련 측정치 또는 상기 양자화된 하나 이상의 결합 값을 상기 인코딩된 오디오 신호에 도입하도록 구성된다.

12. 실시예 10 또는 11의 장치에서,

상기 선택 정보는 진폭 값, 전력 값 또는 음량 값 또는 상기 오디오 객체와 다른 전력으로 증폭된 진폭과 같은 진폭 관련 측정치이며,

상기 객체 파라미터 계산기(100)는 관련 오디오 객체의 진폭 관련 측정치로부터의 비율과 상기 관련 오디오 객체의 둘 이상의 진폭 관련 측정치의 합과 같은 결합 값을 계산(127)하도록 구성되고, 그리고

상기 출력 인터페이스(200)는 상기 결합 값에 대한 정보를 상기 인코딩된 오디오 신호에 도입하도록 구성되고, 상기 인코딩된 오디오 신호에서 상기 결합 값에 대한 정보 아이템의 수는 적어도 하나이고 상기 하나 이상의 주파수 빈에 대한 관련 오디오 객체의 수보다 작다.

13. 실시예 10 내지 12 중 어느 한 장치에서,

상기 객체 파라미터 계산기(100)는 상기 하나 이상의 주파수 빈에서 상기 복수의 오디오 객체의 상기 선택 정보의 순서에 기초하여 상기 객체 식별을 선택하도록 구성된다.

14. 실시예 10 내지 13 중 어느 한 장치에서,

상기 객체 파라미터 계산기(100)는

상기 선택 정보로서 신호 전력을 계산하고(122),

각각의 주파수 빈에 대해 개별적으로 상기 대응하는 하나 이상의 주파수 빈에서 가장 큰 신호 전력 값을 갖는 상기 2개 이상의 오디오 객체에 대한 상기 객체 식별을 도출하고(124),

상기 최대 신호 전력값을 갖는 상기 2개 이상의 오디오 객체의 상기 신호 전력의 합과 상기 도출된 객체 식별을 갖는 상기 오디오 객체 각각의 상기 신호 전력 사이의 전력 비율을 상기 파라미터 데이터로서 계산하고(126),

상기 전력 비율을 양자화 및 인코딩(212)하도록 구성되고,

상기 출력 인터페이스(200)는 상기 양자화되고 인코딩된 전력 비율을 상기 인코딩된 오디오 신호에 도입하도록 구성된다.

15. 실시예 10 내지 14 중 어느 한 장치에서,

상기 출력 인터페이스(200)는 상기 인코딩된 오디오 신호에, 하나 이상의 인코딩된 전송 채널, 상기 파라미터 데이터로서 상기 시간 프레임에서 상기 복수의 주파수 빈의 상기 하나 이상의 주파수 빈 각각에 대한 상기 관련 오디오 객체에 대한 둘 이상의 인코딩된 객체 식별, 및 하나 이상의 인코딩된 결합 값 또는 인코딩된 진폭 관련 측정치, 및 상기 시간 프레임의 각 오디오 객체에 대한 양자화 및 인코딩된 방향 데이터를 도입하도록 구성되며, 상기 방향 데이터는 상기 하나 이상의 주파수 빈의 모든 주파수 빈에 대해 일정하다.

16. 실시예 9 내지15 중 어느 한 장치에서,

상기 객체 파라미터 계산기(100)는 상기 하나 이상의 주파수 빈에서 적어도 가장 우세한 객체 및 두 번째로 가장 우세한 객체에 대한 상기 파라미터 데이터를 계산하도록 구성되거나, 또는

상기 복수의 오디오 객체의 오디오 객체의 개수는 3개 이상이고, 상기 복수의 오디오 객체는 제1 오디오 객체, 제2 오디오 객체 및 제3 오디오 객체를 포함하고,

상기 객체 파라미터 계산기(100)는 상기 관련 오디오 객체로서 상기 하나 이상의 주파수 빈 중 제1 주파수 빈에 대해 상기 제1 오디오 객체 및 상기 제2 오디오 객체와 같은 제1 오디오 객체 그룹만을 계산하도록 구성되고, 상기 하나 이상의 주파수 빈 중 제2 주파수 빈에 대한 상기 관련 오디오 객체로서, 상기 제2 오디오 객체 및 상기 제3 오디오 객체 또는 상기 제1 오디오 객체 및 상기 제3 오디오 객체와 같은 제2 오디오 객체 그룹만을 계산하도록 구성되며, 상기 제1 오디오 객체 그룹은 적어도 하나의 그룹 멤버에 대해 상기 제2 오디오 객체 그룹과 상이하다.

17. 실시예 9 내지 16 중 어느 한 장치에서,

상기 객체 파라미터 계산기(100)는

제1 시간 또는 주파수 해상도를 지닌 로(raw) 파라메트릭 데이터를 계산하고 상기 로 파라메트릭 데이터를 상기 제1 시간 또는 주파수 해상도보다 낮은 제2 시간 또는 주파수 해상도를 갖는 결합된 파라메트릭 데이터로 결합하고, 그리고 상기 제2 시간 또는 주파수 해상도를 갖는 상기 결합된 파라메트릭 데이터에 대해 상기 적어도 2개의 관련 오디오 객체에 대한 상기 파라미터 데이터를 계산하도록 구성되거나, 또는

상기 복수의 오디오 객체의 시간 또는 주파수 분해에 사용된 제1 시간 또는 주파수 해상도와 다른 제2 시간 또는 주파수 해상도를 갖는 파라미터 대역을 결정하고, 그리고 상기 제2 시간 또는 주파수 해상도를 갖는 상기 파라미터 대역에 대해 상기 적어도 2개의 관련 오디오 객체에 대한 상기 파라미터 데이터를 계산하도록 구성된다.

18. 하나 이상의 전송채널 및 복수의 오디오 객체에 대한 방향 정보, 및 시간 프레임의 하나 이상의 주파수 빈에 대해 오디오 객체에 대한 파라미터 데이터를 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 디코더로서, 상기 디코더는,

상기 시간 프레임에서 상기 복수의 주파수 빈을 갖는 스펙트럼 표현으로 상기 하나 이상의 전송채널을 제공하기 위한 입력 인터페이스(600); 및

상기 하나 이상의 전송 채널을 상기 방향 정보를 사용하여 다수의 오디오 채널로 렌더링하는 오디오 렌더러(700)를 포함하며,

상기 오디오 렌더러(700)는 상기 복수의 주파수 빈 각각의 주파수 빈당 상기 하나 이상의 오디오 객체 및 상기 주파수 빈의 상기 하나 이상의 관련 오디오와 연관된 상기 방향 정보(810)로부터 직접 응답 정보(704)를 계산하도록 구성된다.

19. 실시예 18의 디코더에서,

상기 오디오 렌더러(700)는 상기 직접 응답 정보 및 상기 오디오 채널 개수 정보(702)를 사용하여 공분산 합성 정보를 계산하고(706), 그리고 상기 공분산 합성 정보를 상기 하나 이상의 전송채널에 적용(727)하여 상기 오디오 채널의 개수를 얻도록 구성되며, 또는

상기 직접 응답 정보(704)는 하나 이상의 오디오 객체 각각에 대한 직접 응답 벡터이고, 상기 공분산 합성 정보는 공분산 합성 행렬이고, 상기 오디오 렌더러(700)는 상기 공분산 합성 정보를 적용(727)할 때 주파수 빈당 매트릭스 연산을 수행하도록 구성된다.

20. 실시예 18 또는 19의 디코더에서,

상기 오디오 렌더러(700)는 상기 직접 응답 정보의 계산(704)에서, 상기 하나 이상의 오디오 객체에 대한 직접 응답 벡터를 도출하고, 그리고 상기 하나 이상의 오디오 객체에 대해, 각각의 직접 응답 벡터로부터 공분산 행렬을 계산하고,

상기 상기 공분산 합성 정보의 계산에서, 상기 하나의 오디오 객체의 상기 공분산 행렬 또는 그 이상의 오디오 객체의 상기 공분산 행렬로부터 타겟 공분산 정보, 상기 각각의 하나 이상의 오디오 객체에 대한 전력 정보, 및 상기 하나 이상의 전송채널로부터 도출된 전력 정보를 도출한다(724).

21. 실시예 20의 디코더에서,

상기 오디오 렌더러(700)는 상기 직접 응답 정보의 계산(704)에서 상기 하나 이상의 오디오 객체에 대한 직접 응답 벡터를 도출하고 각각의 하나 이상의 오디오 객체에 대해 각각의 직접 응답 벡터로부터 공분산 행렬을 계산(723)하고,

상기 전송채널로부터 입력 공분산 정보를 도출하고(726), 그리고

상기 타겟 공분산 정보, 상기 입력 공분산 정보 및 상기 채널 개수 정보로부터 혼합정보를 도출하고(725a, 725b), 그리고 상기 시간 프레임의 각 주파수 빈에 대한 상기 전송채널에 상기 혼합정보를 적용하도록(727) 구성된다.

22. 실시예 21의 디코더에서, 상기 시간 프레임에서 각각의 주파수 빈에 대한 상기 혼합정보의 상기 적용 결과는 시간 도메인에서 상기 오디오 채널의 개수를 획득하기 위해 상기 시간 영역으로 변환된다(708).

23. 실시예 18 내지 22 중 어느 한 디코더에서,

상기 오디오 렌더러(700)는

입력 공분산 행렬의 분해(752)에서 상기 전송채널로부터 도출된 상기 입력 공분산 행렬의 주 대각선 요소만 사용하거나, 또는

직접 응답 행렬 및 상기 객체 또는 상기 전송채널의 전력의 행렬을 사용하여 타겟 공분산 행렬의 분해(751)를 수행하거나, 또는

상기 입력 공분산 행렬의 각각의 주요 대각선 요소의 근을 취함으로써 상기 입력 공분산 행렬의 분해를 수행(752)하거나, 또는

분해된 입력 공분산 행렬의 정규화된 역을 계산(753)하거나, 또는

확장된 항등 행렬 없이 에너지 보상에 사용될 최적의 행렬을 계산함에 있어서 특이값 분해를 수행하도록(756) 구성된다.

24. 실시예 18 내지 23 중 어느 한 디코더에서,

상기 하나 이상의 오디오 객체에 대한 상기 파라미터 데이터는 적어도 2개의 관련 오디오 객체에 대한 파라미터 데이터를 포함하고, 상기 적어도 2개의 관련 오디오 객체의 개수는 상기 복수의 오디오 객체의 총 개수보다 작으며, 그리고

상기 오디오 렌더러(700)는 상기 하나 이상의 주파수 빈 각각에 대해 상기 적어도 2개의 관련 오디오 객체 중 제1 오디오 객체와 연관된 제1 방향 정보 및 상기 적어도 2개의 관련 오디오 객체 중 제2 오디오 객체와 연관된 제2 방향 정보에 따라 상기 하나 이상의 전송채널로부터의 기여도를 계산한다.

25. 실시예 24의 디코더에서,

상기 오디오 렌더러(700)는 상기 하나 이상의 주파수 빈에 대해 상기 적어도 2개의 관련 오디오 객체와 다른 오디오 객체의 방향 정보를 무시하도록 구성된다.

26. 실시예 24 또는 25의 디코더에서,

상기 인코딩된 오디오 신호는 각각의 관련 오디오 객체에 대한 진폭 관련 측정치 또는 상기 파라미터 데이터 내의 적어도 2개의 관련 오디오 객체에 관련된 결합 값을 포함하고, 그리고

상기 오디오 렌더러(700)는 상기 적어도 2개의 관련 오디오 객체 중 제1 오디오 객체와 연관된 제1 방향 정보 및 상기 적어도 2개의 관련 오디오 객체 중 제2 오디오 객체와 연관된 제2 방향 정보에 따라 상기 하나 이상의 전송 채널로부터의 기여도가 고려되거나 또는 상기 진폭 관련 측정치 또는 상기 결합 값에 따라 상기 하나 이상의 전송 채널의 정량적 기여도를 결정하도록 구성된다.

27. 실시예 26의 디코더에서,

상기 인코딩된 신호는 상기 파라미터 데이터의 상기 결합 값을 포함하고,

상기 오디오 렌더러(700)는 상기 관련 오디오 객체 중 하나의 관련 오디오 객체에 대한 상기 결합 값 및 상기 하나의 관련 오디오 객체에 대한 상기 방향 정보를 사용하여 상기 하나 이상의 전송채널의 기여도를 결정하도록 구성되고, 그리고

상기 오디오 렌더러(700)는 상기 하나 이상의 주파수 빈에서 상기 관련 오디오 객체 중 다른 관련 오디오 객체에 대한 상기 결합 값으로부터 도출된 값 및 상기 다른 관련 오디오 객체의 상기 방향 정보를 사용하여 상기 하나 이상의 전송채널에 대한 기여도를 결정하도록 구성된다.

28. 실시예 24 내지 27 중 어느 한 디코더에서,

상기 오디오 렌더러(700)는 상기 복수의 주파수 빈의 각각의 주파수 빈당 상기 관련 오디오 객체 및 상기 주파수 빈 내의 상기 관련 오디오 객체와 연관된 상기 방향 정보로부터 직접 응답 정보를 계산하도록(704) 구성된다.

29. 실시예 28의 디코더에서,

상기 오디오 렌더러(700)는 상기 메타데이터에 포함된 확산 파라미터와 같은 확산 정보 또는 역상관 규칙을 사용하여 상기 복수의 주파수 빈의 각각의 주파수 빈마다 확산 신호를 결정하고(741), 그리고 상기 직접 응답 정보에 의해 결정된 직접 응답과 상기 확산 신호를 결합하여 상기 채널 개수의 채널에 대한 스펙트럼 도메인 렌더링 신호를 얻도록 구성된다.

30. 복수의 오디오 객체 및 상기 복수의 오디오 객체에 대한 방향 정보를 나타내는 관련 메타데이터를 인코딩하는 방법으로서,

하나 이상의 전송채널을 획득하기 위해 상기 복수의 오디오 객체를 다운믹싱하는 단계;

하나 이상의 인코딩된 전송채널을 얻기 위해 상기 하나 이상의 전송채널을 인코딩하는 단계; 및

상기 하나 이상의 인코딩된 전송채널을 포함하는 인코딩된 오디오 신호를 출력하는 단계를 포함하며,

상기 다운믹싱하는 단계는 상기 복수의 오디오 객체에 대한 상기 방향 정보에 응답하여 상기 복수의 오디오 객체를 다운믹싱하는 단계를 포함한다.

31. 하나 이상의 전송채널 및 복수의 오디오 객체에 대한 방향 정보, 및 시간 프레임의 하나 이상의 주파수 빈에 대해 오디오 객체에 대한 파라미터 데이터를 포함하는 인코딩된 오디오 신호를 디코딩하는 방법으로서, 상기 디코딩 방법은,

상기 시간 프레임에서 상기 복수의 주파수 빈을 갖는 스펙트럼 표현으로 상기 하나 이상의 전송채널을 제공하는 단계; 및

상기 방향 정보를 사용하여 상기 하나 이상의 전송채널을 다수의 오디오 채널로 오디오 렌더링하는 단계를 포함하며,

상기 오디오 렌더링 단계는 상기 복수의 주파수 빈의 각각의 주파수 빈당 상기 하나 이상의 오디오 객체 및 상기 주파수 빈 내의 상기 관련된 하나 이상의 오디오 객체와 연관된 상기 방향 정보로부터 직접 응답 정보를 계산하는 것을 포함한다.

32. 컴퓨터 또는 프로세서에서 실행될 때 실시예 30의 방법 또는 실시예 31의 방법을 수행하기 위한 컴퓨터 프로그램.

2 참고문헌

[Pulkki2009] V. Pulkki, M-V. Laitinen, J. Vilkamo, J. Ahonen, T. Lokki, and T. Pihlajam

ki, "Directional audio coding perception-based reproduction of spatial sound", International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.

[SAOC_STD] ISO/IEC, "MPEG audio technologies Part 2: Spatial Audio Object Coding (SAOC)." ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

[SAOC_AES] J. Herre, H. Purnhagen, J. Koppens, O. Hellmuth, J. Engdeg

rd, J.Hilpert, L. Villemoes, L. Terentiv, C. Falch, A. H

lzer, M. L. Valero, B. Resch, H. Mundt H, and H. Oh, "MPEG spatial audio object coding―the ISO/MPEG standard for efficient coding of interactive audio scenes,"J. AES, vol. 60, no. 9, pp. 655-673, Sep. 2012.

[MPEGH_AES] J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, "MPEG-H audio―the new standard for universal spatial/3D audio coding," in Proc. 137 ^th AES Conv., Los Angeles, CA, USA, 2014.

[MPEGH_IEEE] J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, "MPEG-H 3D Audio―The New Standard for Coding of Immersive Spatial Audio", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL. 9, NO. 5, AUGUST 2015

[MPEGH_STD] Text of ISO/MPEG 23008-3/DIS 3D Audio, Sapporo, ISO/IEC JTC1/SC29/WG11 N14747, Jul. 2014.

[SAOC_3D_PAT] APPARATUS AND METHOD FOR ENHANCED SPATAL AUDIO OBJECT CODING, WO 2015/011024 A1

[Pulkki1997] V. Pulkki, "Virtual sound source positioning using vector base amplitude panning,"J. Audio Eng. Soc., vol. 45, no. 6, pp. 456-466, Jun. 1997.

[DELAUNAY] C. B. Barber, D. P. Dobkin, and H. Huhdanpaa, "The quickhull algorithm for convex hulls,"in Proc. ACM Trans. Math. Software (TOMS), New York, NY, USA, Dec. 1996, vol. 22, pp. 469-483.

[Hirvonen2009] T. Hirvonen, J. Ahonen, and V. Pulkki, "Perceptual compression methods for metadata in Directional Audio Coding applied to audiovisual teleconference", AES 126^th Convention 2009, May 7-10, Munich, Germany.

[Borß14] C. Borß, "A Polygon-Based Panning Method for 3D Loudspeaker Setups". AES 137^th Convention 2014, October 9 -12, Los Angeles, USA.

[WO2019068638] Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding, 2018

[WO2020249815] PARAMETER ENCODING AND DECODING FOR MULTICHANNEL AUDIO USING DirAC, 2019

[BCC2001] C. Faller, F. Baumgarte: "Efficient representation of spatial audio using perceptual parametrization", Proceedings of the 2001 IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics (Cat. No.01TH8575).

[JOC_AES] Heiko Purnhagen; Toni Hirvonen; Lars Villemoes; Jonas Samuelsson; Janusz Klejsa: "Immersive Audio Delivery Using Joint Object Coding", 140^th AES Convention, Paper Number: 9587, Paris, May 2016.

[AC4_AES] K. Kjorling, J. Roden, M. Wolters, J. Riedmiller, A. Biswas, P. Ekstrand, A. Groschel, P. Hedelin, T. Hirvonen, H. Horich, J. Klejsa, J. Koppens, K. Krauss, H-M. Lehtonen, K. Linzmeier, H. Muesch, H. Mundt, S. Norcross, J. Popp, H. Purnhagen, J. Samuelsson, M. Schug, L. Sehlstrom, R. Thesing, L. Villemoes, and M. Vinton: "AC-4 - The Next Generation Audio Codec", 140^th AES Convention, Paper Number: 9491, Paris, May 2016.

[Vilkamo2013] J. Vilkamo, T. B

kstrom, A. Kuntz, "optimized covariance domain framework for time-frequency processing of spatial audio", Journal of the Audio Engineering Society, 2013.

[Golub2013] Gene H. Golub and Charles F. Van Loan, "Matrix Computations" Johns Hopkins University Press, 4th edition, 2013.

Claims

복수의 오디오 객체를 인코딩하는 장치로서,
시간 프레임과 관련된 복수의 주파수 빈 중 하나 이상의 주파수 빈에 대해 적어도 2개의 관련 오디오 객체에 대한 파라미터 데이터를 계산하도록 구성된 객체 파라미터 계산기(100)로서, 상기 적어도 2개의 관련 오디오 객체의 개수는 상기 복수의 오디오 객체의 총 개수보다 적은, 상기 객체 파라미터 계산기(100), 및
상기 하나 이상의 주파수 빈에 대한 상기 적어도 두 개의 관련 오디오 객체에 대한 상기 파라미터 데이터에 대한 정보를 포함하는 인코딩된 오디오 신호를 출력하기 위한 출력 인터페이스(200)를 포함하는,
장치.
제1항에 있어서,
상기 객체 파라미터 계산기(100)는
상기 복수의 오디오 객체의 각각의 오디오 객체를 상기 복수의 주파수 빈을 갖는 스펙트럼 표현으로 변환하고(120),
상기 하나 이상의 주파수 빈에 대한 각각의 오디오 객체로부터 선택 정보를 계산하고(122), 그리고
상기 선택 정보에 기초하여 상기 적어도 2개의 관련 오디오 객체를 나타내는 상기 파라미터 데이터로서 객체 식별을 도출하도록(124) 구성되고,
상기 출력 인터페이스(200)는 상기 객체 식별 정보에 대한 정보를 상기 인코딩된 오디오 신호에 도입하도록 구성되는 것인,
장치.
제1항 또는 제2항에 있어서,
상기 객체 파라미터 계산기(100)는 상기 파라미터 데이터로서 상기 하나 이상의 주파수 빈에서 하나 이상의 진폭 관련 측정치 또는 상기 관련 오디오 객체의 상기 진폭 관련 측정값으로부터 도출된 하나 이상의 결합 값을 양자화 및 인코딩(212)하도록 구성되고, 그리고
상기 출력 인터페이스(200)는 상기 양자화된 하나 이상의 진폭 관련 측정치 또는 상기 양자화된 하나 이상의 결합 값을 상기 인코딩된 오디오 신호에 도입하도록 구성되는 것인
장치.
제2항 또는 제3항에 있어서,
상기 선택 정보는 진폭 값, 전력 값 또는 음량 값 또는 상기 오디오 객체와 다른 전력으로 증폭된 진폭과 같은 진폭 관련 측정치이며,
상기 객체 파라미터 계산기(100)는 관련 오디오 객체의 진폭 관련 측정치로부터의 비율과 상기 관련 오디오 객체의 둘 이상의 진폭 관련 측정치의 합과 같은 결합 값을 계산(127)하도록 구성되고, 그리고
상기 출력 인터페이스(200)는 상기 결합 값에 대한 정보를 상기 인코딩된 오디오 신호에 도입하도록 구성되고, 상기 인코딩된 오디오 신호에서 상기 결합 값에 대한 정보 아이템의 수는 적어도 하나이고 상기 하나 이상의 주파수 빈에 대한 관련 오디오 객체의 수보다 작은 것인,
장치.
제2항 내지 제4항 중 어느 한 항에 있어서,
상기 객체 파라미터 계산기(100)는 상기 하나 이상의 주파수 빈에서 상기 복수의 오디오 객체의 상기 선택 정보의 순서에 기초하여 상기 객체 식별을 선택하도록 구성되는 것인,
장치.
제2항 내지 제5항 중 어느 한 항에 있어서,
상기 객체 파라미터 계산기(100)는
상기 선택 정보로서 신호 전력을 계산하고(122),
각각의 주파수 빈에 대해 개별적으로 상기 대응하는 하나 이상의 주파수 빈에서 가장 큰 신호 전력 값을 갖는 상기 2개 이상의 오디오 객체에 대한 상기 객체 식별을 도출하고(124),
상기 최대 신호 전력값을 갖는 상기 2개 이상의 오디오 객체의 상기 신호 전력의 합과 상기 도출된 객체 식별을 갖는 상기 오디오 객체 각각의 상기 신호 전력 사이의 전력 비율을 상기 파라미터 데이터로서 계산하고(126),
상기 전력 비율을 양자화 및 인코딩(212)하도록 구성되고,
상기 출력 인터페이스(200)는 상기 양자화되고 인코딩된 전력 비율을 상기 인코딩된 오디오 신호에 도입하도록 구성되는 것인,
장치.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 출력 인터페이스(200)는 상기 인코딩된 오디오 신호에, 하나 이상의 인코딩된 전송 채널, 상기 파라미터 데이터로서 상기 시간 프레임에서 상기 복수의 주파수 빈의 상기 하나 이상의 주파수 빈 각각에 대한 상기 관련 오디오 객체에 대한 둘 이상의 인코딩된 객체 식별, 및 하나 이상의 인코딩된 결합 값 또는 인코딩된 진폭 관련 측정치, 및 상기 시간 프레임의 각 오디오 객체에 대한 양자화 및 인코딩된 방향 데이터를 도입하도록 구성되며, 상기 방향 데이터는 상기 하나 이상의 주파수 빈의 모든 주파수 빈에 대해 일정한 것인,
장치.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 객체 파라미터 계산기(100)는 상기 하나 이상의 주파수 빈에서 적어도 가장 우세한 객체 및 두 번째로 가장 우세한 객체에 대한 상기 파라미터 데이터를 계산하도록 구성되거나, 또는
상기 복수의 오디오 객체의 오디오 객체의 개수는 3개 이상이고, 상기 복수의 오디오 객체는 제1 오디오 객체, 제2 오디오 객체 및 제3 오디오 객체를 포함하고,
상기 객체 파라미터 계산기(100)는 상기 관련 오디오 객체로서 상기 하나 이상의 주파수 빈 중 제1 주파수 빈에 대해 상기 제1 오디오 객체 및 상기 제2 오디오 객체와 같은 제1 오디오 객체 그룹만을 계산하도록 구성되고, 상기 하나 이상의 주파수 빈 중 제2 주파수 빈에 대한 상기 관련 오디오 객체로서, 상기 제2 오디오 객체 및 상기 제3 오디오 객체 또는 상기 제1 오디오 객체 및 상기 제3 오디오 객체와 같은 제2 오디오 객체 그룹만을 계산하도록 구성되며, 상기 제1 오디오 객체 그룹은 적어도 하나의 그룹 멤버에 대해 상기 제2 오디오 객체 그룹과 상이한 것인,
장치.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 객체 파라미터 계산기(100)는
제1 시간 또는 주파수 해상도를 지닌 로(raw) 파라메트릭 데이터를 계산하고 상기 로 파라메트릭 데이터를 상기 제1 시간 또는 주파수 해상도보다 낮은 제2 시간 또는 주파수 해상도를 갖는 결합된 파라메트릭 데이터로 결합하고, 그리고 상기 제2 시간 또는 주파수 해상도를 갖는 상기 결합된 파라메트릭 데이터에 대해 상기 적어도 2개의 관련 오디오 객체에 대한 상기 파라미터 데이터를 계산하도록 구성되거나, 또는
상기 복수의 오디오 객체의 시간 또는 주파수 분해에 사용된 제1 시간 또는 주파수 해상도와 다른 제2 시간 또는 주파수 해상도를 갖는 파라미터 대역을 결정하고, 그리고 상기 제2 시간 또는 주파수 해상도를 갖는 상기 파라미터 대역에 대해 상기 적어도 2개의 관련 오디오 객체에 대한 상기 파라미터 데이터를 계산하도록 구성되는 것인,
장치.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 복수의 오디오 객체는 상기 복수의 오디오 객체에 대한 방향 정보(810)를 나타내는 관련 메타데이터를 포함하고,
상기 장치는,
상기 복수의 오디오 객체에 대한 상기 방향 정보에 응답하여 상기 복수의 오디오 객체를 다운믹싱하도록 구성되는, 하나 이상의 전송채널을 얻기 위해 상기 복수의 오디오 객체를 다운믹싱하는 다운믹서(400); 및
하나 이상의 인코딩된 전송채널을 얻기 위해 하나 이상의 전송채널을 인코딩하는 전송채널 인코더(300)를 더 포함하며,
상기 출력 인터페이스(200)는 상기 하나 이상의 전송채널을 상기 인코딩된 오디오 신호에 도입하도록 구성되는 것인,
장치.
제10항에 있어서,
상기 다운믹서(400)는
가상 청취자 위치 또는 방향과 같은 기준 위치 또는 방향에 대해 동일한 위치에서 다른 방향을 갖거나 또는 2개의 상이한 위치에서 배열되는 2개의 가상 마이크로폰 신호로서 2개의 전송채널을 생성하도록 구성되거나, 또는
가상 청취자 위치 또는 방향과 같은 기준 위치 또는 방향에 대해 동일한 위치에서 다른 방향을 갖거나 또는 3개의 상이한 위치에서 배열되는 3개의 가상 마이크로폰 신호로서 3개의 전송채널을 생성하도록 구성되거나, 또는
가상 청취자 위치 또는 방향과 같은 기준 위치 또는 방향에 대해 동일한 위치에서 다른 방향을 갖거나 또는 4개의 상이한 위치에서 배열되는 4개의 가상 마이크로폰 신호로서 4개의 전송채널을 생성하도록 구성되거나, 또는
상기 가상 마이크로폰 신호는 가상 1차 마이크로폰 신호, 또는 가상 카디오이드 마이크로폰 신호, 또는 가상 8자 또는 쌍극자 또는 양방향 마이크로폰 신호, 또는 가상 방향성 마이크로폰 신호, 또는 가상 서브카디오이드 마이크로폰 신호, 또는 가상 단방향 마이크로폰 신호, 또는 가상 하이퍼카디오이드 마이크로폰 신호, 또는 가상 전방향성 마이크로폰 신호인 것인,
장치.
제10항 또는 제11항에 있어서,
상기 다운믹서(400)는
상기 복수의 오디오 객체의 각 오디오 객체에 대해 상기 해당 오디오 객체에 대한 상기 방향 정보를 사용하여 각 전송채널에 대한 가중치 정보를 도출하고(402);
특정 전송채널에 대한 객체 기여도를 얻기 위해 상기 특정 전송채널에 대한 상기 오디오 객체에 대한 상기 가중치 정보를 사용하여 상기 해당 오디오 객체에 가중치를 부여하고(404),
상기 특정 전송채널을 얻기 위해 상기 복수의 오디오 객체로부터의 상기 특정 전송채널에 대한 상기 객체 기여도를 결합(406)하도록 구성되는 것인,
장치.
제10항 내지 제12항 중 어느 한 항에 있어서,
상기 다운믹서(400)는 상기 방향 정보가 관계된, 가상 청취자 위치나 방향과 같은 기준 위치 또는 방향에 대해 동일한 위치에서 다른 방향을 갖거나 또는 상이한 위치에서 배열된 하나 이상의 가상 마이크로폰 신호로서 상기 하나 이상의 전송채널을 계산하도록 구성되며,
상기에서 상기 상이한 위치 또는 방향은 중심선 상 또는 왼측에 있거나 또는 상기 중심선 상 또는 오른측에 있거나, 상기에서 상기 상이한 위치 또는 방향은 상기 중심선에 대해 +90도 또는 -90도 또는 상기 중심선에 대해 -120도, 0도 및 +120도와 같은 수평 위치 또는 방향으로 균등하게 또는 비균등하게 분포되거나, 또는 상기 상이한 위치 또는 방향은 가상 청취자가 배치된 수평면에 대해 위 또는 아래 방향으로 향하는 적어도 하나의 위치 또는 방향을 포함하며, 상기에서 상기 복수의 오디오 객체에 대한 상기 방향 정보는 상기 가상 청취자 위치 또는 기준 위치 또는 방향과 관련되는 것인,
장치.
제10항 내지 제13항 중 어느 한 항에 있어서,
상기 복수의 오디오 객체에 대한 양자화된 방향 아이템을 획득하기 위해 상기 복수의 오디오 객체에 대한 상기 방향 정보를 나타내는 상기 메타데이터를 양자화하는 파라미터 처리기(110)를 더 포함하며,
상기 다운믹서(400)는 상기 방향 정보로서 상기 양자화된 방향 아이템에 대응하여 동작하도록 구성되며,
상기 출력 인터페이스(200)는 상기 양자화된 방향 아이템에 대한 정보를 상기 인코딩된 오디오 신호에 도입하도록 구성되는 것인,
장치.
제10항 내지 제14항 중 어느 한 항에 있어서,
상기 다운믹서(400)는 상기 복수의 오디오 객체에 대한 상기 방향 정보를 분석하고(410), 상기 분석 결과에 따라 상기 전송채널 생성을 위한 하나 이상의 가상 마이크로폰을 배치(412)하도록 구성되는 것인,
장치.
제10항 내지 제15항 중 어느 한 항에 있어서,
상기 다운믹서(400)는 상기 복수의 시간 프레임에 걸쳐 정적인 다운믹싱 규칙을 사용하여 다운믹싱(408)하도록 구성되거나, 또는
상기 방향 정보는 복수의 시간 프레임에 걸쳐 가변적이며, 상기 다운믹서(400)는 상기 복수의 시간 프레임에 걸쳐 가변적인 다운믹싱 규칙을 사용하여 다운믹싱(405)하도록 구성되는 것인,
장치.
제10항 내지 제16항 중 어느 한 항에 있어서,
상기 다운믹서(400)는 샘플별 가중치 및 상기 복수의 오디오 객체의 샘플 결합을 사용하여 시간 도메인에서 다운믹싱하도록 구성된다.
하나 이상의 전송채널 및 복수의 오디오 객체에 대한 방향 정보, 및 시간 프레임의 하나 이상의 주파수 빈에 대해 적어도 2개의 관련 오디오 객체에 대한 파라미터 데이터를 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 디코더로서, 상기 적어도 2개의 관련 오디오 객체의 개수는 상기 복수의 오디오 객체의 총 개수보다 적으며, 상기 디코더는,
상기 시간 프레임에서 상기 복수의 주파수 빈을 갖는 스펙트럼 표현으로 상기 하나 이상의 전송채널을 제공하기 위한 입력 인터페이스(600); 및
상기 적어도 2개의 관련 오디오 객체 중 제1 오디오 객체와 연관된 제1 방향 정보 및 상기 적어도 2개의 관련 오디오 객체 중 제2 오디오 객체와 연관된 제2 방향 정보에 따라서 하나 이상의 전송채널로부터의 기여도가 고려되도록, 상기 방향 정보를 사용하여 상기 하나 이상의 전송채널을 다수의 오디오 채널로 렌더링하는 오디오 렌더러(700)를 포함하며, 또는
상기 오디오 렌더러(700)는 상기 하나 이상의 주파수 빈 각각에 대해 상기 적어도 2개의 관련 오디오 객체 중 제1 오디오 객체와 연관된 제1 방향 정보 및 상기 적어도 2개의 관련 오디오 객체 중 제2 오디오 객체와 연관된 제2 방향 정보에 따라서 상기 하나 이상의 전송채널로부터의 기여도를 계산하도록 구성되는 것인,
디코더.
제18항에 있어서,
상기 오디오 렌더러(700)는 상기 하나 이상의 주파수 빈에 대해 상기 적어도 2개의 관련 오디오 객체와 다른 오디오 객체의 방향 정보를 무시하도록 구성되는 것인,
디코더.
제18항 또는 제19항에 있어서,
상기 인코딩된 오디오 신호는 각각의 관련 오디오 객체에 대한 진폭 관련 측정치(812) 또는 상기 파라미터 데이터 내의 적어도 2개의 관련 오디오 객체에 관련된 결합 값(812)을 포함하고, 그리고
상기 오디오 렌더러(700)는 상기 진폭 관련 측정치 또는 상기 결합 값에 따라 상기 하나 이상의 전송채널의 정량적 기여도를 결정(704)하도록 구성되는 것인,
디코더.
제20항에 있어서,
상기 인코딩된 신호는 상기 파라미터 데이터의 상기 결합 값을 포함하고,
상기 오디오 렌더러(700)는 상기 관련 오디오 객체 중 하나의 관련 오디오 객체에 대한 상기 결합 값 및 상기 하나의 관련 오디오 객체에 대한 상기 방향 정보를 사용하여 상기 하나 이상의 전송채널의 기여도를 결정하도록 구성되고(704, 733), 그리고
상기 오디오 렌더러(700)는 상기 하나 이상의 주파수 빈에서 상기 관련 오디오 객체 중 다른 관련 오디오 객체에 대한 상기 결합 값으로부터 도출된 값 및 상기 다른 관련 오디오 객체의 상기 방향 정보를 사용하여 상기 하나 이상의 전송채널에 대한 기여도를 결정(704, 735)하도록 구성되는 것인,
디코더.
제18항 내지 제21항 중 어느 한 항에 있어서,
상기 오디오 렌더러(700)는 상기 복수의 주파수 빈의 각각의 주파수 빈당 상기 관련 오디오 객체 및 상기 주파수 빈 내의 상기 관련 오디오 객체와 연관된 상기 방향 정보로부터 직접 응답 정보를 계산하도록(704) 구성되는 것인,
디코더.
제22항에 있어서,
상기 오디오 렌더러(700)는 상기 메타데이터에 포함된 확산 파라미터와 같은 확산 정보 또는 역상관 규칙을 사용하여 상기 복수의 주파수 빈의 각각의 주파수 빈마다 확산 신호를 결정하고(741), 그리고 상기 직접 응답 정보에 의해 결정된 직접 응답과 상기 확산 신호를 결합하여 상기 채널 개수의 채널에 대한 스펙트럼 도메인 렌더링 신호를 얻도록 구성되며, 또는
상기 오디오 렌더러(700)는 상기 직접 응답 정보(704)와 상기 오디오 채널 개수 정보(702)를 사용하여 합성 정보를 계산하고(706) 상기 공분산 합성 정보를 상기 하나 이상의 전송채널에 적용(727)하여 상기 오디오 채널의 개수를 얻도록 구성되며, 또는
상기 직접 응답 정보(704)는 각각의 관련 오디오 객체에 대한 직접 응답 벡터이고, 상기 공분산 합성 정보는 공분산 합성 행렬이고, 상기 오디오 렌더러(700)는 상기 공분산 합성 정보를 적용(727)할 때 주파수 빈당 매트릭스 연산을 수행하도록 구성되는 것인,
디코더.
제22항 또는 제23항에 있어서,
상기 오디오 렌더러(700)는 상기 직접 응답 정보의 계산(704)에서, 각각의 관련 오디오 객체에 대한 직접 응답 벡터를 도출하고, 각각의 관련 오디오 객체에 대해, 각각의 직접 응답 벡터로부터 공분산 행렬을 계산하고,
상기 공분산 합성 정보의 계산에서,
상기 관련 오디오 객체 각각의 상기 공분산 행렬로부터 타겟 공분산 정보,
상기 각각의 관련 오디오 객체에 대한 전력 정보, 및
상기 하나 이상의 전송채널로부터 도출된 전력 정보를 도출하는 것인(724),
디코더.
제24항에 있어서,
상기 오디오 렌더러(700)는 상기 직접 응답 정보의 계산(704)에서 각각의 관련 오디오 객체에 대한 직접 응답 벡터를 도출하고 각각의 관련 오디오 객체에 대해 각각의 직접 응답 벡터로부터 공분산 행렬을 계산(723)하고,
상기 전송채널로부터 입력 공분산 정보를 도출하고(726), 그리고
상기 타겟 공분산 정보, 상기 입력 공분산 정보 및 상기 채널 개수 정보로부터 혼합정보를 도출하고(725a, 725b), 그리고
상기 시간 프레임의 각 주파수 빈에 대한 상기 전송채널에 상기 혼합정보를 적용하도록(727) 구성되는 것인,
디코더.
제25항에 있어서,
상기 시간 프레임에서 각각의 주파수 빈에 대한 상기 혼합정보의 상기 적용 결과는 시간 도메인에서 상기 오디오 채널의 개수를 획득하기 위해 상기 시간 영역으로 변환되는 것인(708),
디코더.
제22항 내지 제26항 중 어느 한 항에 있어서,
상기 오디오 렌더러(700)는
입력 공분산 행렬의 분해(752)에서 상기 전송채널로부터 도출된 상기 입력 공분산 행렬의 주 대각선 요소만 사용하거나, 또는
직접 응답 행렬 및 상기 객체 또는 상기 전송채널의 전력의 행렬을 사용하여 타겟 공분산 행렬의 분해(751)를 수행하거나, 또는
상기 입력 공분산 행렬의 각각의 주요 대각선 요소의 근을 취함으로써 상기 입력 공분산 행렬의 분해를 수행(752)하거나, 또는
분해된 입력 공분산 행렬의 정규화된 역을 계산(753)하거나, 또는
확장된 항등 행렬 없이 에너지 보상에 사용될 최적의 행렬을 계산함에 있어서 특이값 분해를 수행하도록(756) 구성되는 것인,
디코더.
복수의 오디오 객체 및 상기 복수의 오디오 객체에 대한 방향 정보를 나타내는 관련 메타데이터를 인코딩하는 방법으로서,
하나 이상의 전송채널을 획득하기 위해 상기 복수의 오디오 객체를 다운믹싱하는 단계;
하나 이상의 인코딩된 전송채널을 얻기 위해 상기 하나 이상의 전송채널을 인코딩하는 단계; 및
상기 하나 이상의 인코딩된 전송채널을 포함하는 인코딩된 오디오 신호를 출력하는 단계를 포함하며,
상기 다운믹싱하는 단계는 상기 복수의 오디오 객체에 대한 상기 방향 정보에 응답하여 상기 복수의 오디오 객체를 다운믹싱하는 단계를 포함하는 것인,
방법.
하나 이상의 전송채널 및 복수의 오디오 객체에 대한 방향 정보, 및 시간 프레임의 하나 이상의 주파수 빈에 대해 적어도 2개의 관련 오디오 객체에 대한 파라미터 데이터를 포함하는 인코딩된 오디오 신호를 디코딩하는 방법으로서, 상기 적어도 2개의 관련 오디오 객체의 개수는 상기 복수의 오디오 객체의 전체 개수보다 적으며, 상기 디코딩 방법은,
상기 시간 프레임에서 상기 복수의 주파수 빈을 갖는 스펙트럼 표현으로 상기 하나 이상의 전송채널을 제공하는 단계; 및
상기 방향 정보를 사용하여 상기 하나 이상의 전송채널을 다수의 오디오 채널로 오디오 렌더링하는 단계를 포함하며,
상기 오디오 렌더링 단계는 상기 하나 이상의 주파수 빈 각각에 대해 상기 적어도 2개의 관련 오디오 객체 중 제1 오디오 객체와 연관된 제1 방향 정보 및 상기 적어도 2개의 관련 오디오 객체 중 제2 오디오 객체와 연관된 제2 방향 정보에 따라 상기 하나 이상의 전송채널로부터의 기여도를 계산하는 단계를 포함하고, 또는 상기 적어도 2개의 관련 오디오 객체 중 제1 오디오 객체와 연관된 제1 방향 정보 및 상기 적어도 2개의 관련 오디오 객체 중 제2 오디오 객체와 연관된 제2 방향 정보에 따라 상기 하나 이상의 전송채널로부터의 기여도가 고려되도록 하는 것인,
방법.
컴퓨터 또는 프로세서에서 실행될 때 제28항에 따른 방법 또는 제29항에 따른 방법을 수행하기 위한 컴퓨터 프로그램.
하나 이상의 주파수 빈에 대해 적어도 2개의 관련 오디오 객체에 대한 파라미터 데이터에 대한 정보를 포함하는 인코딩된 오디오 신호.
제31항에 있어서,
하나 이상의 인코딩된 전송채널,
상기 파라미터 데이터에 대한 정보로서, 시간 프레임에서 복수의 주파수 빈의 상기 하나 이상의 주파수 빈 각각에 대한 상기 관련 오디오 객체에 대한 둘 이상의 인코딩된 객체 식별, 및 하나 이상의 인코딩된 결합 값 또는 인코딩된 진폭 관련 측정치, 및
상기 시간 프레임의 각 오디오 객체에 대한 양자화 및 인코딩된 방향 데이터를 더 포함하며,
상기 방향 데이터는 상기 하나 이상의 주파수 빈의 모든 주파수 빈에 대해 일정한 것인,
인코딩된 오디오 신호.