KR102092774B1 - 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 시그널링 계층들 - Google Patents

고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 시그널링 계층들 Download PDF

Info

Publication number
KR102092774B1
KR102092774B1 KR1020177009564A KR20177009564A KR102092774B1 KR 102092774 B1 KR102092774 B1 KR 102092774B1 KR 1020177009564 A KR1020177009564 A KR 1020177009564A KR 20177009564 A KR20177009564 A KR 20177009564A KR 102092774 B1 KR102092774 B1 KR 102092774B1
Authority
KR
South Korea
Prior art keywords
bitstream
layers
indication
channels
audio signal
Prior art date
Application number
KR1020177009564A
Other languages
English (en)
Other versions
KR20170067764A (ko
Inventor
무영 김
닐스 귄터 피터스
디판잔 센
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20170067764A publication Critical patent/KR20170067764A/ko
Application granted granted Critical
Publication of KR102092774B1 publication Critical patent/KR102092774B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Semiconductor Memories (AREA)

Abstract

일반적으로, 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위해 계층들을 시그널링하기 위한 기법들이 설명된다. 메모리 및 프로세서를 포함하는 디바이스가 기법들을 수행하도록 구성될 수 있다. 메모리는 비트스트림을 저장하도록 구성될 수 있다. 프로세서는, 비트스트림으로부터, 비스트스트림에 특정된 계층들의 수의 표시를 획득하고, 계층들의 수의 표시에 기반하여 비트스트림의 계층들을 획득하도록 구성될 수 있다.

Description

고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 시그널링 계층들{SIGNALING LAYERS FOR SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA}
[0001] 본 출원은 하기건들의 우선권을 주장한다:
"SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA"라는 명칭으로 2014년 10월 10일에 출원된 미국 가출원 번호 제62/062,584호;
"SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA"라는 명칭으로 2014년 11월 25일에 출원된 미국 가출원 번호 제62/084,461호;
"SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA"라는 명칭으로 2014년 12월 3일에 출원된 미국 가출원 번호 제62/087,209호;
"SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA"라는 명칭으로 2014년 12월 5일에 출원된 미국 가출원 번호 제62/088,445호;
"SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA"라는 명칭으로 2015년 4월 10일에 출원된 미국 가출원 번호 제62/145,960호;
"SCALABLE CODING OF HIGHER ORDER AMBISONIC AUDIO DATA"라는 명칭으로 2015년 6월 12일에 출원된 미국 가출원 번호 제62/175,185호;
"REDUCING CORRELATION BETWEEN HIGHER ORDER AMBISONIC (HOA) BACKGROUND CHANNELS"라는 명칭으로 2015년 7월 1일에 출원된 미국 가출원 번호 제62/187,799호; 및
"TRANSPORTING CODED SCALABLE AUDIO DATA"라는 명칭으로 2015년 8월 25일에 출원된 미국 가출원 번호 제62/209,764호,
이 출원들 각각의 전체 내용은 인용에 의해 본원에 통합된다.
[0002] 본 개시내용은 오디오 데이터, 보다 상세하게는 고차 앰비소닉 오디오 데이터(higher-order ambisonic audio data)의 스케일러블 코딩(scalable coding)에 관한 것이다.
[0003] HOA(higher-order ambisonics) 신호(종종 복수의 SHC(spherical harmonic coefficient)들 또는 다른 계층적 엘리먼트들로 표현됨)는 사운드필드의 3차원 표현이다. HOA 또는 SHC 표현은 SHC 신호로부터 렌더링되는(rendered) 멀티-채널 오디오 신호를 플레이백(playback)하기 위하여 사용되는 로컬 스피커 지오메트리(local speaker geometry)에 독립적인 방식으로 사운드필드를 표현할 수 있다. SHC 신호는 또한 SHC 신호가 잘-알려진 고도로 채택된 멀티-채널 포맷들, 이를테면 5.1 오디오 채널 포맷 또는 7.1 오디오 채널 포맷으로 렌더링될 수 있기 때문에 하위 호환성(backward compatibility)을 가능하게 할 수 있다. 따라서, SHC 표현은 하위 호환성을 또한 수용하는 사운드필드의 양호한 표현을 가능하게 할 수 있다.
[0004] 일반적으로, 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 기법들이 설명된다. 고차 앰비소닉 오디오 데이터는 1보다 큰 차수를 가진 구면 조화 기저 함수(spherical harmonic basis function)에 대응하는 적어도 하나의 HOA(higher-order ambisonic) 계수를 포함할 수 있다. 기법들은 다수의 계층들, 이를테면 베이스 계층 및 하나 또는 그 초과의 인핸스먼트 계층(enhancement layer)들을 사용하여 HOA 계수들을 코딩함으로써 HOA 계수들의 스케일러블 코딩을 제공할 수 있다. 베이스 계층은 하나 또는 그 초과의 인핸스먼트 계층들에 의해 향상될 수 있는, HOA 계수들에 의해 표현되는 사운드필드의 재생을 가능하게 할 수 있다. 다시 말해서, (베이스 계층과 결합하는) 인핸스먼트 계층들은 베이스 계층 단독일 때와 비교하여 사운드필드의 더 완전한 (또는 더 정확한) 재생을 가능하게 하는 추가 분해능을 제공할 수 있다.
[0005] 일 양상에서, 디바이스는 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된다. 디바이스는 비트스트림을 저장하도록 구성된 메모리 및 하나 또는 그 초과의 프로세서들을 포함하며, 하나 또는 그 초과의 프로세서들은 비트스트림에 특정된 계층들의 수의 표시를 비트스트림으로부터 획득하고 계층들의 수의 표시에 기반하여 비트스트림의 계층들을 획득하도록 구성된다.
[0006] 다른 양상에서, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법은 비트스트림에 특정된 계층들의 수의 표시를 비트스트림으로부터 획득하는 단계 및 계층들의 수의 표시에 기반하여 비트스트림의 계층들을 획득하는 단계를 포함한다.
[0007] 또 다른 양상에서, 장치는 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된다. 장치는 비트스트림을 저장하기 위한 수단, 비트스트림에 특정된 계층들의 수의 표시를 비트스트림으로부터 획득하기 위한 수단, 및 계층들의 수의 표시에 기반하여 비트스트림의 계층들을 획득하기 위한 수단을 포함한다.
[0008] 또 다른 양상에서, 비-일시적 컴퓨터-판독가능 저장 매체는 명령들을 저장하며, 명령들은, 실행시, 하나 또는 그 초과의 프로세서들로 하여금, 비트스트림에 특정된 계층들의 수의 표시를 비트스트림으로부터 획득하고 그리고 계층들의 수의 표시에 기반하여 비트스트림의 계층들을 획득하게 한다.
[0009] 또 다른 양상에서, 디바이스는 비트스트림을 생성하기 위하여 고차 앰비소닉 오디오 신호를 인코딩하도록 구성된다. 디바이스는 비트스트림을 저장하도록 구성된 메모리, 및 비트스트림에서의 계층들의 수의 표시를 특정하고, 그리고 계층들의 표시된 수를 포함하는 비트스트림을 출력하도록 구성된 하나 또는 그 초과의 프로세서들을 포함한다.
[0010] 또 다른 양상에서, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 생성하는 방법은 비트스트림에 계층들의 수의 표시를 특정하는 단계, 및 계층들의 표시된 수를 포함하는 비트스트림을 출력하는 단계를 포함한다.
[0011] 또 다른 양상에서, 디바이스는 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된다. 디바이스는 비트스트림을 저장하도록 구성된 메모리 및 하나 또는 그 초과의 프로세서들을 포함하며, 하나 또는 그 초과의 프로세서들은 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수의 표시를 비트스트림으로부터 획득하고 그리고 채널들의 수의 표시에 기반하여 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들을 획득하도록 구성된다.
[0012] 또 다른 양상에서, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법은 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수의 표시를 비트스트림으로부터 획득하는 단계 및 채널들의 수의 표시에 기반하여 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들을 획득하는 단계를 포함한다.
[0013] 또 다른 양상에서, 디바이스는 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된다. 디바이스는 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수의 표시를 비트스트림으로부터 획득하기 위한 수단 및 채널들의 수의 표시에 기반하여 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들을 획득하기 위한 수단을 포함한다.
[0014] 또 다른 양상에서, 비-일시적 컴퓨터-판독가능 저장 매체는 명령들을 저장하며, 명령들은, 실행시, 하나 또는 그 초과의 프로세서들로 하여금, 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수의 표시를 고차 앰비소닉 오디오 신호를 표현하는 비트스트림으로부터 획득하고 그리고 채널들의 수의 표시에 기반하여 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들을 획득하게 한다.
[0015] 또 다른 양상에서, 디바이스는 비트스트림을 생성하기 위하여 고차 앰비소닉 오디오 신호를 인코딩하도록 구성된다. 디바이스는 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수의 표시를 비트스트림에 특정하고 비트스트림의 하나 또는 그 초과의 계층들에 채널들의 표시된 수를 특정하도록 구성된 하나 또는 그 초과의 프로세서들, 및 비트스트림을 저장하도록 구성된 메모리를 포함한다.
[0016] 또 다른 양상에서, 비트스트림을 생성하기 위하여 고차 앰비소닉 오디오 신호를 인코딩하는 방법은 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수의 표시를 비트스트림에 특정하는 단계 및 비트스트림의 하나 또는 그 초과의 계층들에 채널들의 표시된 수를 특정하는 단계를 포함한다.
[0017] 기법들의 하나 또는 그 초과의 양상들의 세부사항들은 이하의 상세한 설명 및 첨부 도면들에서 제시된다. 기법들의 다른 특징들, 목적들 및 장점들은 상세한 설명 및 도면들로부터 그리고 청구범위로부터 명백하게 될 것이다.
[0018] 도 1은 다양한 차수들 및 서브-차수들의 구면 조화 기저 함수들을 예시하는 다이어그램이다.
[0019] 도 2는 본 개시내용에서 설명된 기법들의 다양한 양상들을 수행할 수 있는 시스템을 예시하는 다이어그램이다.
[0020] 도 3은 본 개시내용에서 설명된 기법들의 다양한 양상들을 수행할 수 있는, 도 2의 예에서 도시된 오디오 인코딩 디바이스의 일례를 더 상세히 예시하는 블록 다이어그램이다.
[0021] 도 4는 도 2의 오디오 디코딩 디바이스를 더 상세히 예시하는 블록 다이어그램이다.
[0022] 도 5는 본 개시내용에서 설명된 스케일러블 오디오 코딩 기법들의 잠재적인 버전들 중 제 1 버전을 수행하도록 구성될 때 도 3의 비트스트림 생성 유닛을 더 상세히 예시하는 다이어그램이다.
[0023] 도 6은 본 개시내용에서 설명된 스케일러블 오디오 디코딩 기법들의 잠재적인 버전들 중 제 1 버전을 수행하도록 구성될 때 도 4의 추출 유닛을 더 상세히 예시하는 다이어그램이다.
[0024] 도 7a-도 7d는 HOA(higher order ambisonic) 계수들의 인코딩된 2-계층 표현을 생성할 때 오디오 인코딩 디바이스의 예시적인 동작을 예시하는 흐름도들이다.
[0025] 도 8a 및 도 8b는 HOA 계수들의 인코딩된 3-계층 표현을 생성할 때 오디오 인코딩 디바이스의 예시적인 동작을 예시하는 흐름도들이다.
[0026] 도 9a 및 도 9b는 HOA 계수들의 인코딩된 4-계층 표현을 생성할 때 오디오 인코딩 디바이스의 예시적인 동작을 예시하는 흐름도들이다.
[0027] 도 10은 기법들의 다양한 양상들에 따라 비트스트림에 특정된 HOA 구성 오브젝트의 예를 예시하는 다이어그램이다.
[0028] 도 11은 제 1 및 제 2 계층들에 대하여 비트스트림 생성 유닛에 의해 생성된 측파대 정보를 예시하는 다이어그램이다.
[0029] 도 12a 및 도 12b는 본 개시내용에서 설명된 기법들의 스케일러블 코딩 양상들에 따라 생성된 측파대 정보를 예시하는 다이어그램들이다.
[0030] 도 13a 및 도 13b는 본 개시내용에서 설명된 기법들의 스케일러블 코딩 양상들에 따라 생성된 측파대 정보를 예시하는 다이어그램들이다.
[0031] 도 14a 및 도 14b는 본 개시내용에서 설명된 기법들의 다양한 양상들을 수행할 때 오디오 인코딩 디바이스의 예시적인 동작들을 예시하는 흐름도들이다.
[0032] 도 15a 및 도 15b는 본 개시내용에서 설명된 기법들의 다양한 양상들을 수행할 때 오디오 디코딩 디바이스의 예시적인 동작들을 예시하는 흐름도들이다.
[0033] 도 16은 본 개시내용에서 설명된 기법들의 다양한 양상들에 따라 도 16의 예에서 도시된 비트스트림 생성 유닛에 의해 수행되는 스케일러블 오디오 코딩을 예시하는 다이어그램이다.
[0034] 도 17은 베이스 계층에 특정된 4개의 인코딩된 주변(ambient) HOA 계수들을 가진 2개의 계층들이 존재하며 2개의 인코딩된 전경(foreground) 신호들이 인핸스먼트 계층에서 특정된다는 것을 구문 엘리먼트(syntax element)들이 표시하는 예의 개념 다이어그램이다.
[0035] 도 18는 본 개시내용에서 설명된 스케일러블 오디오 코딩 기법들의 잠재적인 버전들 중 제 2 버전을 수행하도록 구성될 때 도 3의 비트스트림 생성 유닛을 더 상세히 예시하는 다이어그램이다.
[0036] 도 19는 본 개시내용에서 설명된 스케일러블 오디오 디코딩 기법들의 잠재적인 버전들 중 제 2 버전을 수행하도록 구성될 때 도 3의 추출 유닛을 더 상세히 예시하는 다이어그램이다.
[0037] 도 20은 도 18의 비트스트림 생성 유닛 및 도 19의 추출 유닛이 본 개시내용에서 설명된 기법들의 잠재적인 버전 중 제 2 버전을 수행할 수 있게 하는 제 2 사용 경우를 예시하는 다이어그램이다.
[0038] 도 21은 베이스 계층에 특정된 2개의 인코딩된 주변 HOA 계수들을 가진 3개의 계층들이 존재하며 2개의 인코딩된 전경 신호들이 제 1 인핸스먼트 계층에서 특정되고 2개의 인코딩된 전경 신호들이 제 2 인핸스먼트 계층에서 특정된다는 것을 구문 엘리먼트들이 표시하는 예의 개념 다이어그램이다.
[0039] 도 22는 본 개시내용에서 설명된 스케일러블 오디오 코딩 기법들의 잠재적인 버전들 중 제 3 버전을 수행하도록 구성될 때 도 3의 비트스트림 생성 유닛을 더 상세히 예시하는 다이어그램이다.
[0040] 도 23는 본 개시내용에서 설명된 스케일러블 오디오 디코딩 기법들의 잠재적인 버전들 중 제 3 버전을 수행하도록 구성될 때 도 4의 추출 유닛을 더 상세히 예시하는 다이어그램이다.
[0041] 도 24는 본 개시내용에서 설명된 기법들에 따라 오디오 인코딩 디바이스가 멀티-계층 비트스트림에 다수의 계층들을 특정하게 할 수 있는 제 3 사용 경우를 예시하는 다이어그램이다.
[0042] 도 25은 베이스 계층에 특정된 2개의 인코딩된 전경 신호들을 가진 3개의 계층들이 존재하며 2개의 인코딩된 전경 신호들이 제 1 인핸스먼트 계층에서 특정되고 2개의 인코딩된 전경 신호들이 제 2 인핸스먼트 계층에서 특정된다는 것을 구문 엘리먼트들이 표시하는 예의 개념 다이어그램이다.
[0043] 도 26는 본 개시내용에서 설명된 기법들에 따라 오디오 인코딩 디바이스가 멀티-계층 비트스트림에 다수의 계층들을 특정하게 할 수 있는 제 3 사용 경우를 예시하는 다이어그램이다.
[0044] 도 27 및 도 28은 본 개시내용에서 설명된 기법들의 다양한 양상들에 수행하도록 구성될 수 있는 스케일러블 비트스트림 생성 유닛 및 스케일러블 비트스트림 추출 유닛을 예시하는 블록 다이어그램들이다.
[0045] 도 29는 본 개시내용에서 설명된 기법들의 다양한 양상들에 따라 동작하도록 구성될 수 있는 인코더를 표현하는 개념 다이어그램을 표현한다.
[0046] 도 30은 도 27의 예에서 도시된 인코더를 더 상세히 예시하는 다이어그램이다.
[0047] 도 31은 본 개시내용에서 설명된 기법들의 다양한 양상들에 따라 동작하도록 구성될 수 있는 오디오 디코더를 예시하는 블록 다이어그램이다.
[0048] 서라운드 사운드(surround sound)의 발전은 오늘날의 엔터테인먼트에 대한 많은 출력 포맷들을 이용가능하게 한다. 그러한 소비자 서라운드 사운드 포맷들의 예들은, 그들이 특정한 지리적 좌표들의 확성기들에 대한 피드들(feeds)을 묵시적으로 특정한다는 점에서 주로 '채널' 기반이다. 소비자 서라운드 사운드 포맷들은, (다음의 6개의 채널들: 전면 좌측(FL), 전면 우측(FR), 중앙 또는 전면 중앙, 후방 좌측 또는 서라운드 좌측, 후방 우측 또는 서라운드 우측, 및 저주파수 효과들(LFE)을 포함하는) 대중적인 5.1 포맷, 성장중인 7.1 포맷, (예를 들어, 초고 해상도 텔레비전 표준과 함께 사용을 위한) 7.1.4 포맷 및 22.2 포맷과 같이 높이 스피커들을 포함하는 다양한 포맷들을 포함한다. 비-소비자 포맷들은 '서라운드 어레이들'로 종종 지칭되는 (대칭적 및 비-대칭적 지오메트리들에서) 임의의 수의 스피커들에 미칠 수 있다. 그러한 어레이의 일 예는 트렁케이팅된(truncated) 20면체의 코너들 상의 좌표들 상에 포지셔닝된 32개의 확성기들을 포함한다.
[0049] 향후의 MPEG 인코더에 대한 입력은 선택적으로는 3개의 가능한 포맷들 중 하나이다: (i) 미리-특정된 포지션들에서 확성기들을 통해 플레이되도록 의도되는 (위에서 논의된 바와 같은) 전통적인 채널-기반 오디오; (ii) (다른 정보 중에서) 그들의 위치 좌표들을 포함하는 연관된 메타데이터를 갖는 단일 오디오 오브젝트들에 대한 이산 펄스-코드-변조(PCM:pulse-code-modulation) 데이터를 수반하는 오브젝트-기반 오디오; 및 (iii) ("구면 조화 계수들" 또는 SHC, "고차 앰비소닉들(Higher-order Ambisonics)" 또는 HOA, 및 "HOA 계수들"로 또한 지칭되는) 구면 조화 기저 함수들의 계수들을 사용하여 사운드필드를 표현하는 것을 수반하는 장면-기반 오디오. 향후의 MPEG 인코더는, 스위스 제네바에서 2013년 1월에 릴리즈된 ISO(International Organization for Standardization)/IEC(International Electrotechnical Commission) JTC1/SC29/WG11/N13411에 의한 명칭이 "Call for Proposals for 3D Audio"인 문헌에서 더 상세히 설명될 수 있고, http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip 에서 이용가능할 수 있다.
[0050] 마켓에서 다양한 '서라운드-사운드' 채널-기반 포맷들이 존재한다. 그들은, 예컨대, (스테레오를 넘어 거실들로 진출하게 한 측면에서 가장 성공적이었던) 5.1 홈 시어터 시스템으로부터 NHK(Nippon Hoso Kyokai or Japan Broadcasting Corporation)에 의해 개발된 22.2 시스템까지의 범위에 있다. 콘텐츠 제작자들(예컨대, 헐리우드 스튜디오들)는, 영화에 대한 사운드트랙을 1회 제작하고 각각의 스피커 구성에 대해 그것을 리믹스하기 위한 노력을 소비하지 않기를 바랄 것이다. 최근에, 표준 개발 조직들은, 표준화된 비트스트림으로의 인코딩 및 (렌더러를 수반하는) 플레이백의 위치에서 스피커 지오메트리(및 수) 및 음향 조건들에 적응가능하고 종속적이지 않은(agnostic) 후속적인 디코딩을 제공할 방식들을 고려하고 있다.
[0051] 콘텐츠 제작자들에 대한 그러한 유연성을 제공하기 위해, 엘리먼트들의 계층적 세트가 사운드필드를 표현하기 위해 사용될 수 있다. 엘리먼트들의 계층적 세트는, 저차 엘리먼트들의 기본 세트가 모델링된 사운드필드의 완전한 표현을 제공하도록 엘리먼트들이 정렬되는 엘리먼트들의 세트를 지칭할 수 있다. 세트가 고차 엘리먼트들을 포함하도록 확장되는 경우, 표현은 더 상세하게 되어, 분해능(resolution)을 증가시킨다.
[0052] 엘리먼트들의 계층적 세트의 일 예는 SHC(spherical harmonic coefficients)의 세트이다. 다음의 수학식은 SHC를 사용하는 사운드필드의 설명 또는 표현을 예증한다:
Figure 112017034321836-pct00001
[0053] 수학식은, 시간 t에서 사운드필드의 임의의 포인트
Figure 112017034321836-pct00002
에서의 압력
Figure 112017034321836-pct00003
는 SHC,
Figure 112017034321836-pct00004
에 의해 고유하게 표현될 수 있다는 것을 나타낸다. 여기서,
Figure 112017034321836-pct00005
이고, c는 사운드의 스피드(~343 m/s)이고,
Figure 112017034321836-pct00006
는 레퍼런스 포인트(또는 관측 포인트)이고,
Figure 112017034321836-pct00007
는 차수 n의 구면 베셀 함수이며,
Figure 112017034321836-pct00008
은 차수 n 및 서브차수 m의 구면 조화 기저 함수이다. 사각 괄호들 내의 항은 다양한 시간-주파수 변환들, 이를테면, 이산 푸리에 변환(DFT), 이산 코사인 변환(DCT), 또는 웨이브릿 변환에 의해 근사될 수 있는 신호(즉,
Figure 112017034321836-pct00009
)의 주파수-도메인 표현이라는 것이 인지될 수 있다. 계층적 세트들의 다른 예들은 웨이브릿 변환 계수들의 세트들 및 다분해능(multiresolution) 기저 함수들의 계수들의 다른 세트들을 포함한다.
[0054] 도 1은 제로 차수(n=0)로부터 4차(n=4)까지의 구면 조화 기저 함수들을 예시하는 다이어그램이다. 알 수 있는 바와 같이, 각각의 차수에 대해, 예시의 목적들을 용이하게 하기 위해서 도 1의 예에서 나타내지만 명시적으로는 주목되지 않은 서브차수들 m의 확장이 존재한다.
[0055]
Figure 112017034321836-pct00010
는, 다양한 마이크로폰 어레이 구성들에 의해 물리적으로 포착(예컨대, 레코딩)될 수 있거나, 대안적으로 그들은, 사운드필드의 채널-기반 또는 오브젝트-기반 설명들로부터 유도될 수 있다. SHC는 장면-기반 오디오를 표현하며, 여기서, SHC는 더 효율적인 송신 또는 저장을 촉진할 수 있는 인코딩된 SHC를 획득하기 위해 오디오 인코더로 입력될 수 있다. 예컨대,
Figure 112017034321836-pct00011
(25, 및 그에 따라 4차) 계수들을 수반하는 4차 표현이 사용될 수 있다.
[0056] 위에서 주목된 바와 같이, SHC는 마이크로폰 어레이를 사용하여 마이크로폰 레코딩으로부터 유도될 수 있다. SHC가 마이크로폰 어레이들로부터 어떻게 유도될 수 있는지의 다양한 예들은, Poletti, M., "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics," J. Audio Eng. Soc., Vol. 53, No. 11, 2005 November, pp. 1004-1025에서 설명된다.
[0057] SHC들이 오브젝트-기반 설명으로부터 어떻게 유도될 수 있는지를 예시하기 위해, 다음의 수학식을 고려한다. 개별적인 오디오 오브젝트에 대응하는 사운드필드에 대한 계수들
Figure 112017034321836-pct00012
은 다음과 같이 표현될 수 있다:
Figure 112017034321836-pct00013
여기서, i는
Figure 112017034321836-pct00014
이고,
Figure 112017034321836-pct00015
는 차수 n의 (제 2 종류의) 구면 한켈 함수이며,
Figure 112017034321836-pct00016
는 오브젝트의 위치이다. (예컨대, 시간-주파수 분석 기법들을 사용하여, 이를테면 PCM 스트림에 대해 고속 푸리에 변환을 수행하여) 주파수의 함수로서 오브젝트 소스 에너지
Figure 112017034321836-pct00017
를 아는 것은, 본 발명이 각각의 PCM 오브젝트 및 대응하는 위치를 SHC
Figure 112017034321836-pct00018
로 변환하게 한다. 추가적으로, (위가 선형 및 직교 분해이므로) 각각의 오브젝트에 대한
Figure 112017034321836-pct00019
계수들이 가산적이라는 것이 나타날 수 있다. 이러한 방식으로, 다수의 PCM 오브젝트들은
Figure 112017034321836-pct00020
계수들에 의해 (예컨대, 개별적인 오브젝트들에 대한 계수 벡터들의 합산으로서) 표현될 수 있다. 본질적으로, 계수들은 사운드필드에 대한 정보(3D 좌표들의 함수로서의 압력)를 포함하며, 위는, 관측 포인트
Figure 112017034321836-pct00021
의 근방에서 개별적인 오브젝트들로부터 전체 사운드필드의 표현으로의 변환을 표현한다. 나머지 도면들은 오브젝트-기반 및 SHC-기반 오디오 코딩의 콘텍스트에서 아래에서 설명된다.
[0058] 도 2는 본 개시내용에서 설명된 기법들의 다양한 양상들을 수행할 수 있는 시스템(10)을 예시한 다이어그램이다. 도 2의 예에서 도시된 바와 같이, 시스템(10)은 콘텐츠 제작자 디바이스(12) 및 콘텐츠 소비자 디바이스(14)를 포함한다. 콘텐츠 제작자 디바이스(12) 및 콘텐츠 소비자 디바이스(14)의 콘텍스트에서 설명되지만, 기법들은, (HOA 계수들로 또한 지칭될 수 있는) SHC들 또는 임의의 다른 계층적 표현의 사운드필드가 오디오 데이터를 표현하는 비트스트림을 형성하기 위해 인코딩되는 임의의 콘텍스트에서 구현될 수 있다. 또한, 콘텐츠 제작자 디바이스(12)는, 몇몇 예들을 제공하기 위해, 핸드셋(또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 또는 데스크탑 컴퓨터를 포함하는 본 개시내용에 설명된 기법들을 구현할 수 있는 임의의 형태의 컴퓨팅 디바이스를 표현할 수 있다. 유사하게, 콘텐츠 소비자 디바이스(14)는, 몇몇 예들을 제공하기 위해, 핸드셋(또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 셋톱 박스, 또는 데스크탑 컴퓨터를 포함하는 본 개시내용에 설명된 기법들을 구현할 수 있는 임의의 형태의 컴퓨팅 디바이스를 표현할 수 있다.
[0059] 콘텐츠 제작자 디바이스(12)는 콘텐츠 소비자 디바이스들, 이를테면 콘텐츠 소비자 디바이스(14)의 오퍼레이터들에 의한 소비를 위해 멀티-채널 오디오 콘텐츠를 생성할 수 있는 영화 스튜디오 또는 다른 엔티티에 의해 동작될 수 있다. 일부 예들에서, 콘텐츠 제작자 디바이스(12)는, HOA 계수들(11)을 압축하기를 바랄 개별적인 사용자에 의해 동작될 수 있다. 종종, 콘텐츠 제작자는 비디오 콘텐츠와 함께 오디오 콘텐츠를 생성한다. 콘텐츠 소비자 디바이스(14)는 개인에 의해 동작될 수 있다. 콘텐츠 소비자 디바이스(14)는, 멀티-채널 오디오 콘텐츠로서 플레이 백을 위해 SHC를 렌더링할 수 있는 임의의 형태의 오디오 플레이백 시스템을 지칭할 수 있는 오디오 플레이백 시스템(16)을 포함할 수 있다.
[0060] 콘텐츠 제작자 디바이스(12)는 오디오 편집 시스템(18)을 포함한다. 콘텐츠 제작자 디바이스(12)는, 콘텐츠 제작자 디바이스(12)가 오디오 편집 시스템(18)을 사용하여 편집할 수 있는 (HOA 계수들로서 직접 포함하는) 다양한 포맷들의 라이브 레코딩들(7) 및 오디오 오브젝트들(9)을 획득한다. 마이크로폰(5)은 라이브 레코딩들(7)을 캡처할 수 있다. 콘텐츠 제작자는, 편집 프로세스 동안, 오디오 오브젝트들(9)로부터 HOA 계수들(11)을 렌더링할 수 있으며, 추가적인 편집을 요구하는 사운드필드의 다양한 양상들을 식별하기 위한 시도에서, 렌더링된 스피커 피드들을 리스닝한다. 그 후, 콘텐츠 제작자 디바이스(12)는 (소스 HOA 계수들이 위에서 설명된 방식으로 유도될 수 있는 오디오 오브젝트들(9) 중 상이한 오브젝트들의 조작을 통해 잠재적으로는 간접적으로) HOA 계수들(11)을 편집할 수 있다. 콘텐츠 제작자 디바이스(12)는 HOA 계수들(11)을 생성하기 위해 오디오 편집 시스템(18)을 이용할 수 있다. 오디오 편집 시스템(18)은, 오디오 데이터를 편집하고 오디오 데이터를 하나 또는 그 초과의 소스 구면 조화 계수들로서 출력할 수 있는 임의의 시스템을 표현한다.
[0061] 편집 프로세스가 완료되는 경우, 콘텐츠 제작자 디바이스(12)는 HOA 계수들(11)에 기반하여 비트스트림(21)을 생성할 수 있다. 즉, 콘텐츠 제작자 디바이스(12)는, 비트스트림(21)을 생성하기 위해 본 개시내용에서 설명된 기법들의 다양한 양상들에 따라 HOA 계수들(11)을 인코딩하거나 그렇지 않으면 압축하도록 구성된 디바이스를 표현하는 오디오 인코딩 디바이스(20)를 포함한다. 오디오 인코딩 디바이스(20)는, 일 예로서, 유선 또는 무선 채널일 수 있는 송신 채널, 데이터 저장 디바이스 등을 통한 송신을 위한 비트스트림(21)을 생성할 수 있다. 비트스트림(21)은 HOA 계수들(11)의 인코딩된 버전을 표현할 수 있으며, 1차 비트스트림, 및 사이드 채널 정보(side channel information)로 지칭될 수 있는 다른 사이드 비트스트림(side bitstream)을 포함할 수 있다.
[0062] 콘텐츠 소비자 디바이스(14)에 직접 송신되는 것으로 도 2에 도시되지만, 콘텐츠 제작자 디바이스(12)는, 콘텐츠 제작자 디바이스(12)와 콘텐츠 소비자 디바이스(14) 사이에 포지셔닝된 중간 디바이스에 비트스트림(21)을 출력할 수 있다. 중간 디바이스는, 비트스트림을 요청할 수 있는 콘텐츠 소비자 디바이스(14)로의 추후의 전달을 위해 비트스트림(21)을 저장할 수 있다. 중간 디바이스는, 파일 서버, 웹 서버, 데스크탑 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 모바일 폰, 스마트 폰, 또는 오디오 디코더에 의한 추후의 리트리벌을 위해 비트스트림(21)을 저장할 수 있는 임의의 다른 디바이스를 포함할 수 있다. 중간 디바이스는, 비트스트림(21)을 요청하는 가입자들, 이를테면 콘텐츠 소비자 디바이스(14)에 (그리고 가급적, 대응하는 비디오 데이터 비트스트림을 송신하는 것과 함께) 비트스트림(21)을 스트리밍할 수 있는 콘텐츠 전달 네트워크에 상주할 수 있다.
[0063] 대안적으로, 콘텐츠 제작자 디바이스(12)는 저장 매체, 이를테면 컴팩트 디스크, 디지털 비디오 디스크, 고해상도 비디오 디스크 또는 다른 저장 매체들에 비트스트림(21)을 저장할 수 있으며, 이들 대부분은 컴퓨터에 의해 판독될 수 있고, 따라서 컴퓨터-판독가능 저장 매체들 또는 비-일시적 컴퓨터-판독가능 저장 매체들로 지칭될 수 있다. 이와 관련해서, 송신 채널은 매체들에 저장된 콘텐츠가 송신되는 채널들을 지칭할 수 있다(그리고, 소매 상점들 및 다른 저장-기반 전달 메커니즘을 포함할 수 있음). 따라서, 임의의 이벤트에서, 본 개시내용의 기법들은 도 2의 예에 대해 이 관점에서 제한되지 않아야 한다.
[0064] 도 2의 예에서 추가적으로 도시된 바와 같이, 콘텐츠 소비자 디바이스(14)는 오디오 플레이백 시스템(16)을 포함한다. 오디오 플레이백 시스템(16)은, 멀티-채널 오디오 데이터를 플레이백할 수 있는 임의의 오디오 플레이백 시스템을 표현할 수 있다. 오디오 플레이백 시스템(16)은 다수의 상이한 렌더러들(22)을 포함할 수 있다. 렌더러들(22) 각각은 상이한 형태의 렌더링을 제공할 수 있으며, 여기서, 상이한 형태들의 렌더링은, VBAP(vector-base amplitude panning)를 수행하는 다양한 방식들 중 하나 또는 그 초과, 및/또는 사운드필드 합성을 수행하는 다양한 방식들 중 하나 또는 그 초과를 포함할 수 있다. 본원에서 사용된 바와 같이, "A 및/또는 B"는 "A 또는 B", 또는 "A 및 B" 둘 모두를 의미한다.
[0065] 오디오 플레이백 시스템(16)은 오디오 디코딩 디바이스(24)를 더 포함할 수 있다. 오디오 디코딩 디바이스(24)는 비트스트림(21)으로부터 HOA 계수들(11')을 디코딩하도록 구성된 디바이스를 표현할 수 있으며, 여기서, HOA 계수들(11')은 HOA 계수들(11)과 유사할 수 있지만, 손실있는 동작들(예컨대, 양자화) 및/또는 송신 채널을 통한 송신으로 인해 상이할 수 있다. 오디오 플레이백 시스템(16)은, 비트스트림(21)을 디코딩한 이후, HOA 계수들(11')을 획득하고, 출력 확성기 피드들(25)로 HOA 계수들(11')을 렌더링할 수 있다. 확성기 피드들(25)은 (예시의 목적들을 용이하게 하기 위해서 도 2의 예에 도시되지 않은) 하나 또는 그 초과의 확성기들을 구동할 수 있다.
[0066] 적합한 렌더러를 선택하거나, 일부 인스턴스들에서는 적합한 렌더러를 생성하기 위해, 오디오 플레이백 시스템(16)은 확성기들의 수 및/또는 확성기들의 공간 지오메트리를 표시하는 확성기 정보(13)를 획득할 수 있다. 일부 인스턴스들에서, 오디오 플레이백 시스템(16)은, 레퍼런스 마이크로폰을 사용하여 확성기 정보(13)를 획득하고, 확성기 정보(13)를 동적으로 결정하기 위한 그러한 방식으로 확성기들을 구동할 수 있다. 다른 인스턴스들에서 또는 확성기 정보(13)의 동적 결정과 함께, 오디오 플레이백 시스템(16)은, 오디오 플레이백 시스템(16)과 인터페이스하고 확성기 정보(13)를 입력하도록 사용자를 프롬프트할 수 있다.
[0067] 그 후, 오디오 플레이백 시스템(16)은 확성기 정보(13)에 기반하여 오디오 렌더러들(22) 중 하나를 선택할 수 있다. 일부 인스턴스들에서, 오디오 플레이백 시스템(16)은, 오디오 렌더러들(22) 중 어느 것도 확성기 정보(13)에서 특정된 확성기 지오메트리에 대한 (확성기 지오메트리의 측면에서) 일부 임계 유사성 척도 내에 있지 않은 경우, 확성기 정보(13)에 기반하여 오디오 렌더러들(22) 중 하나를 생성할 수 있다. 일부 인스턴스들에서, 오디오 플레이백 시스템(16)은 오디오 렌더러들(22) 중 기존의 렌더러를 선택하려고 먼저 시도하지 않으면서 확성기 정보(13)에 기반하여 오디오 렌더러들(22) 중 하나를 생성할 수 있다. 그 후, 하나 또는 그 초과의 스피커들(3)은 렌더링된 확성기 피드들(25)을 플레이백할 수 있다. 다시 말해서, 스피커들(3)은 고차의 앰비소닉 오디오 데이터에 기반하여 사운드필드를 재생하도록 구성될 수 있다.
[0068] 도 3은, 본 개시내용에서 설명된 기법들의 다양한 양상들을 수행할 수 있는 도 2의 예에 도시된 오디오 인코딩 디바이스(20)의 일 예를 더 상세히 예시하는 블록 다이어그램이다. 오디오 인코딩 디바이스(20)는, 콘텐츠 분석 유닛(26), 벡터-기반 분해 유닛(27) 및 지향성-기반(directional-based) 분해 유닛(28)을 포함한다.
[0069] 간략하게 아래에서 설명되지만, 벡터-기반 분해 유닛(27), 및 HOA 계수들을 압축하는 다양한 양상들에 대한 더 많은 정보는, 명칭이 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD"으로 2014년 5월 29일자로 출원된 국제 특허 출원 공개공보 제 WO 2014/194099호에서 이용가능하다. 부가적으로, 아래에서 요약되는 벡터-기반 분해의 설명을 포함하는 MPEG-H 3D 오디오 표준에 따른 HOA 계수들의 압축의 다양한 양상들의 더 많은 세부사항들은 다음에서 발견될 수 있다:
2014-07-25일자의 ISO/IEC JTC 1/SC 29/WG 11에 의한 명칭이 "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio"인 ISO/IEC DIS 23008-3 문헌 (http://mpeg.chiariglione.org/standards/mpeg-h/3d-audio/dis-mpeg-h-3d-audio 에서 이용가능함, 이후 ""phase I of the MPEG-H 3D 오디오 표준"으로 지칭됨);
2015-07-25일자의 ISO/IEC JTC 1/SC 29/WG 11에 의한 명칭이 "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, AMENDMENT 3: MPEG-H 3D Audio Phase 2"인 ISO/IEC DIS 23008-3:2015/PDAM 3 문헌 (http://mpeg.chiariglione.org/standards/mpeg-h/3d-audio/text-isoiec-23008-3201xpdam-3-mpeg-h-3d-audio-phase-2에서 이용가능함, 이후 "phase II of the MPEG-H 3D 오디오 표준"으로 지칭됨); 및
2015년 8월자로 Vol. 9, No. 5 of the IEEE Journal of Selected Topics in Signal Processing 에서 공개된 Jurgen Herre 등의 명칭 "MPEG-H 3D Audio - The New Standard for Coding of Immersive Spatial Audio".
[0070] 콘텐츠 분석 유닛(26)은, HOA 계수들(11)이 라이브 레코딩 또는 오디오 오브젝트로부터 생성된 콘텐츠를 표현하는지 여부를 식별하기 위해서 HOA 계수들(11)의 콘텐츠를 분석하도록 구성된 유닛을 표현한다. 콘텐츠 분석 유닛(26)은, HOA 계수(11)가 실제 사운드필드의 레코딩으로부터 생성되었는지 또는 인공 오디오 오브젝트로부터 생성되었는지 여부를 결정할 수 있다. 일부 인스턴스들에서, 프레임된 HOA 계수들(11)이 레코딩으로부터 생성되었을 경우, 콘텐츠 분석 유닛(26)은 HOA 계수들(11)을 벡터-기반 분해 유닛(27)에 전달한다. 일부 인스턴스들에서, 프레임된 HOA 계수들(11)이 합성 오디오 오브젝트로부터 생성되었을 경우, 콘텐츠 분석 유닛(26)은 HOA 계수들(11)을 지향성-기반 합성 유닛(28)에 전달한다. 지향성-기반 합성 유닛(28)은 지향성-기반 비트스트림(21)을 생성하기 위해 HOA 계수들(11)의 지향성-기반 합성을 수행하도록 구성된 유닛을 표현한다.
[0071] 도 3의 예에 도시된 바와 같이, 벡터-기반 분해 유닛(27)은 LIT(linear invertible transform) 유닛(30), 파라미터 계산 유닛(32), 재정렬 유닛(34), 전경 선택 유닛(36), 에너지 보상 유닛(38), 상관해제 유닛(60)("decorr 유닛(60)"으로 도시됨), 이득 제어 유닛(62), 심리음향 오디오 코더 유닛(40), 비트스트림 생성 유닛(42), 사운드필드 분석 유닛(44), 계수 감소 유닛(46), 배경(BG) 선택 유닛(48), 공간적-시간적 보간 유닛(50), 및 양자화 유닛(52)을 포함할 수 있다.
[0072] LIT(linear invertible transform) 유닛(30)은 HOA 계수들(11)을 HOA 채널들의 형태로 수신하고, 각각의 채널은, 구면 기저 함수들의 주어진 차수, 서브-차수와 연관된 계수의 블록 또는 프레임(이는,
Figure 112017034321836-pct00022
로 표기될 수 있고, 여기서 k는 샘플들의 현재 프레임 또는 블록을 나타낼 수 있다)을 나타낸다. HOA 계수들(11)의 행렬은 차원
Figure 112017034321836-pct00023
을 가질 수 있다.
[0073] LIT 유닛(30)은 특이(singular) 값 분해로 지칭되는 분석의 형태를 수행하도록 구성된 유닛을 표현할 수 있다. SVD와 관련하여 설명되었지만, 이 개시내용에 설명된 기법들은 선형으로 상관되지 않은 에너지 압축 출력의 세트들을 제공하는 임의의 유사한 변환 또는 분해에 대해 수행될 수 있다. 또한, 본 개시내용에서 "세트들"에 대한 참조는 일반적으로 특별히 반대로 언급되지 않는 한 비-제로(non-zero) 세트들를 지칭하도록 의도되며, 소위 "엠프티(empty) 세트"를 포함하는 세트들의 고전적인 수학적 정의를 지칭하도록 의도되지 않는다. 대안적인 변환은, 종종 "PCA"로 지칭되는 주요 컴포넌트 분석을 포함할 수 있다. 콘텍스트에 따라, PCA는, 다수의 상이한 이름들, 이를테면, 몇 가지만 예시하자면, 이산 카흐닌-루베(Karhunen-Loeve) 변환, 호텔링(Hotelling) 변환, POD(proper orthogonal decomposition), 및 EVD(eigenvalue decomposition)으로 지칭될 수 있다. 오디오 데이터를 압축하는 잠재적인 기본 목표 중 하나에 도움이 되는 그러한 동작들의 특성들은 멀티채널 오디오 데이터의 '에너지 압축(energy compaction)' 및 '상관해제(decorrelation)' 중 하나 또는 그 초과의 것을 포함할 수 있다.
[0074] 어떤 경우, LIT 유닛(30)이 특이 값 분해(이는, 재차, "SVD"로 지칭될 수 있음)를 수행한다고 가정하면, 예시의 목적으로, LIT 유닛(30)은 HOA 계수들(11)을, 변환된 HOA 계수들 중 2개 또는 그 초과의 세트들로 변환할 수 있다. 변환된 HOA 계수들의 "세트들"은 변환된 HOA 계수들의 벡터들을 포함할 수 있다. 도 3의 예에서, LIT 유닛(30)은, 소위, V 행렬, S 행렬 및 U 행렬을 생성하기 위해서 HOA 계수들(11)에 대하여 SVD를 수행할 수 있다. 선형 대수학에서의 SVD는 다음과 같은 형태로 y-by-z 실수 또는 복소수 행렬 X의 인수분해(factorization)를 표현할 수 있다(여기서, X는 멀티-채널 오디오 데이터, 이를테면 HOA 계수들(11)을 표현할 수 있다).
Figure 112017034321836-pct00024
U는 y-by-y의 실수 또는 복소수 단위 행렬을 표현할 수 있으며, 여기서 U의 y 열들은 멀티-채널 오디오 데이터의 좌-특이(left-singular) 벡터들로 알려져 있다. S는 대각선 상의 음이 아닌 실수들을 갖는 y-by-z 직사각형 대각 행렬을 표현할 수 있으며, 여기서 S의 대각 값들은 멀티-채널 오디오 데이터의 특이 값들로 알려져 있다.
Figure 112017034321836-pct00025
(V의 공액 전치(conjugate transpose)를 표기하는 것일 수 있음)는 z-by-y의 실수 또는 복소수 단위 행렬을 표현할 수 있으며, 여기서
Figure 112017034321836-pct00026
의 z 열들은 멀티-채널 오디오 데이터의 우-특이(right-singular) 벡터들로 알려져 있다.
[0075] 일부 예들에서, 상기 언급된 SVD 수학적 표현에서의
Figure 112017034321836-pct00027
행렬은, SVD가 복소수들을 포함하는 행렬들에 적용될 수 있음을 반영하기 위해서 V 행렬의 공액 전치로 표기된다. 실수들만을 포함하는 행렬들로 적용될 경우, V 행렬의 복소 공액(complex conjugate)(또는, 다른 말로,
Figure 112017034321836-pct00028
행렬)는 V 행렬의 전치로 간주될 수 있다. 이하, 설명을 용이하게 하기 위해, HOA 계수들(11)은 V 행렬이
Figure 112017034321836-pct00029
행렬이 아닌 SVD를 통해 출력되는 결과를 갖는 실수들을 포함한다고 가정한다. 또한, 본 개시내용에서 V 행렬로 표기되었지만, V 행렬에 대한 참조는 적절한 경우 V 행렬의 전치를 지칭하는 것으로 이해되어야한다. V 행렬로 가정하였지만, 기법들은 복소 계수들을 갖는 HOA 계수들(11)에 유사한 방식으로 적용될 수 있으며, 여기서 SVD의 출력은
Figure 112017034321836-pct00030
행렬이다. 따라서, 기법들은, 이 점에 있어서 V 행렬을 생성하기 위해 SVD의 애플리케이션만을 제공하는 것으로 제한되어서는 안 되지만,
Figure 112017034321836-pct00031
행렬을 생성하기 위해서 복소 컴포넌트들을 갖는 HOA 계수들(11)에 대한 SVD의 애플리케이션을 포함할 수 있다.
[0076] 이러한 방식으로, LIT 유닛(30)은, 차원
Figure 112017034321836-pct00032
를 갖는
Figure 112017034321836-pct00033
벡터들(33)(이는 S 벡터들과 U 벡터들의 결합된 버전을 표현할 수 있음), 및 차원들
Figure 112017034321836-pct00034
를 갖는
Figure 112017034321836-pct00035
벡터들(35)을 출력하기 위해서 HOA 계수들(11)에 대해 SVD를 수행할 수 있다.
Figure 112017034321836-pct00036
행렬의 개별 벡터 엘리먼트들은 또한
Figure 112017034321836-pct00037
로 지칭될 수 있는 한편,
Figure 112017034321836-pct00038
행렬의 개별 벡터들은 또한
Figure 112017034321836-pct00039
로 지칭될 수 있다.
[0077] U, S 및 V 행렬들의 분석은, 행렬들이 X로 위에 표현된 기본 사운드필드의 공간적 및 시간적 특성들을 반송하거나 또는 표현한다는 것을 나타낼 수 있다. (길이 M 샘플들의) U의 N개의 벡터들 각각은, 서로에 대해 직교하고 임의의 공간적 특성들(이는 또한 지향성 정보로도 지칭될 수 있음)로부터 분리된 것일 수 있는 정규화된 분리된 오디오 신호들을 (M 샘플들로 표현되는 시간 기간에 대해) 시간의 함수로서 표현할 수 있다. 공간적 형상 및 포지션(r, theta, phi)을 표현하는 공간적 특성들은 대신, V 행렬(각각 길이
Figure 112017034321836-pct00040
)에서, 개별적인 제 i 벡터들,
Figure 112017034321836-pct00041
로 표현될 수 있다.
[0078]
Figure 112017034321836-pct00042
벡터들 각각의 개별적인 엘리먼트들은 연관된 오디오 오브젝트에 대한 사운드 필드의 (폭을 포함한) 형상 및 포지션을 설명하는 HOA 계수를 표현할 수 있다. U 행렬과 V 행렬의 벡터들 둘 모두는, 그들의 실효치(root-mean-square) 에너지들이 1(unity)과 같아지도록 정규화된다. 따라서, U의 오디오 신호들의 에너지는 S의 대각 엘리먼트들로 표현된다. U와 S를 곱하여 (개별적인 벡터 엘리먼트들
Figure 112017034321836-pct00043
를 갖는)
Figure 112017034321836-pct00044
를 형성하며, 따라서, 에너지들을 갖는 오디오 신호를 표현한다. (U에서의) 오디오 시간-신호들을 디커플링하는 SVD 분해의 능력, (S에서의) 그들의 에너지들 및 (V에서의) 그들의 공간적 특징들은 본 개시내용에서 설명된 기법들의 다양한 양상들을 지원할 수 있다. 또한,
Figure 112017034321836-pct00045
Figure 112017034321836-pct00046
의 벡터 곱셈에 의해 기본
Figure 112017034321836-pct00047
계수들, X를 합성하는 모델은 본 문헌을 통해 사용되는, 용어 "벡터-기반 분해(vector-based decomposition)"를 발생시킨다.
[0079] HOA 계수들 11에 대해 직접 수행되는 것으로 설명되었지만, LIT 유닛(30)은 선형 가역 변환(linear invertible transform)을 HOA 계수들(11)의 도함수들에 적용할 수 있다. 예컨대, LIT 유닛(30)은 HOA 계수들(11)로부터 유도된 전력 스펙트럼 밀도 행렬에 대해 SVD를 적용할 수 있다. 계수들 그 자체가 아닌 HOA 계수들의 전력 스펙트럼 밀도(PSD:power spectral density)에 대해 SVD를 수행함으로써, LIT 유닛(30)은 프로세서 사이클들 및 저장 공간 중 하나 또는 그 초과의 것에 관하여 SVD를 수행하는 계산 복잡성을 잠재적으로 감소시킬 수 있는 한편, SVD가 HOA 계수들에 직접적으로 적용되었던 것처럼 동일한 소스 오디오 인코딩 효율을 달성할 수 있다.
[0080] 파라미터 계산 유닛(32)은, 다양한 파라미터들, 이를테면, 상관 파라미터(R), 방향 특성 파라미터들
Figure 112017034321836-pct00048
및 에너지 특성
Figure 112017034321836-pct00049
을 계산하도록 구성된 유닛을 표현한다. 현재 프레임에 대한 파라미터들의 각각은
Figure 112017034321836-pct00050
Figure 112017034321836-pct00051
로 표기될 수 있다. 파라미터 계산 유닛(32)은 파라미터들을 식별하기 위해서
Figure 112017034321836-pct00052
벡터들(33)에 대하여 에너지 분석 및/또는 상관(또는 소위 교차-상관)을 수행할 수 있다. 파라미터 계산 유닛(32)은 또한 이전 프레임에 대한 파라미터들을 결정할 수 있으며, 이전 프레임 파라미터들은,
Figure 112017034321836-pct00053
벡터 및
Figure 112017034321836-pct00054
벡터들의 이전 프레임에 기반하여,
Figure 112017034321836-pct00055
Figure 112017034321836-pct00056
로 표기될 수 있다. 파라미터 계산 유닛(32)은 현재 파라미터들(37) 및 이전 파라미터들(39)을 재정렬 유닛(34)에 출력할 수 있다.
[0081] 파라미터 계산 유닛(32)에 의해 계산된 파라미터들은, 그들의 본래의 평가 또는 시간에 따른 연속성을 표현하기 위해 오디오 오브젝트들을 재정렬하도록 재정렬 유닛(34)에 의해 사용될 수 있다. 재정렬 유닛(34)은 제 1
Figure 112017034321836-pct00057
벡터들(33)로부터의 파라미터들(37) 각각을 제 2
Figure 112017034321836-pct00058
벡터들(33)에 대한 파라미터들(39) 각각에 대해 턴-와이즈식으로(turn-wise) 비교할 수 있다. 재정렬 유닛(34)은 현재 파라미터들(37) 및 이전 파라미터들(39)에 기반하여
Figure 112017034321836-pct00059
행렬(33) 및
Figure 112017034321836-pct00060
행렬(35) 내의 다양한 벡터들을 (일 예로서, 헝가리(Hungarian) 알고리즘을 이용하여) 재정렬하여 (수학적으로
Figure 112017034321836-pct00061
로 표기될 수 있는) 재정렬된
Figure 112017034321836-pct00062
행렬(33') 및 (수학적으로
Figure 112017034321836-pct00063
로 표기될 수 있는) 재정렬된
Figure 112017034321836-pct00064
행렬(35')를 전경 사운드(또는 PS(predominant sound)) 선택 유닛(36)("전경 선택 유닛(36)") 및 에너지 보상 유닛(38)으로 출력할 수 있다.
[0082] 사운드필드 분석 유닛(44)은, 타겟 비트레이트(41)를 잠재적으로 달성하기 위해 HOA 계수들(11)에 대해 사운드필드 분석을 수행하도록 구성된 유닛을 표현할 수 있다. 사운드필드 분석 유닛(44)은, 분석 및/또는 수신된 타겟 비트레이트(41)에 기반하여, 심리음향 코더 인스턴스화들의 총 수(이는, 주변 또는 배경 채널들
Figure 112017034321836-pct00065
의 총 수의 함수일 수 있음) 및 전경 채널들 또는, 다른 말로, 우세 채널들의 수를 결정할 수 있다. 심리음향 코더 인스턴스화들이 총 수는 numHOATransportChannels로서 표현될 수 있다.
[0083] 사운드필드 분석 유닛(44)은 또한, 타겟 비트레이트(41)를 잠재적으로 재차 달성하기 위해서, 전경 채널들(nFG)(45)의 총 수, 배경(또는, 다른 말로, 주변) 사운드필드(
Figure 112017034321836-pct00066
또는 대안으로 MinAmbHOAorder)의 최소 차수, 배경 사운드필드의 최소 차수를 나타내는 실제 채널들의 대응하는 수
Figure 112017034321836-pct00067
, 전송할 추가 BG HOA 채널들의 인덱스들(i)(도 3의 예에서 총괄적으로 배경 채널 정보(43)로서 표기될 수 있음)을 결정할 수 있다. 배경 채널 정보(42)는 또한 주변 채널 정보(43)로도 지칭될 수 있다. NumHOATransportChannels-nBGa로부터 남겨진 채널들 각각은, "추가 배경/주변 채널", "활성 벡터-기반 우세 채널", "활성 방향 기반 우세 신호" 또는 "완전 비활성" 중 어느 하나일 수 있다. 일 양상에서, 채널 타입들은 2 비트들(예컨대, 00: 방향 기반 신호; 01: 벡터-기반 우세 신호; 10: 추가 주변 신호; 11 : 비활성 신호)에 의해 ("ChannelType") 구문 엘리먼트로 나타내어질 수 있다. 배경 또는 주변 신호들의 총 수(
Figure 112017034321836-pct00068
)는
Figure 112017034321836-pct00069
Figure 112017034321836-pct00070
(위의 예에서) 인덱스 10이 그 프레임에 대한 비트스트림의 채널 타입으로서 나타나는 횟수로 주어질 수 있다.
[0084] 사운드필드 분석 유닛(44)은, 타겟 비트레이트(41)가 상대적으로 더 높을 경우(예컨대, 타겟 비트레이트(41)가 512 Kbps와 같거나 또는 이를 초과하는 경우), 타겟 비트레이트(41), 더 많은 배경 및/또는 전경 채널들을 선택하는 것에 기반하여 배경(또는, 다른 말로, 주변) 채널들의 수 및 전경(또는, 다른 말로, 우세) 채널들의 수를 선택할 수 있다. 일 양상에서, numHOATransportChannels가 8로 셋팅될 수 있는 반면, MinAmbHOAorder는 비트스트림의 헤더 섹션에서 1로 셋팅될 수 있다. 이 시나리오에서, 모든 각각의 프레임에서, 4개의 채널들이 사운드필드의 배경 또는 주변 부분을 표현하도록 전용될 수 있는 반면, 다른 4개의 채널들은, 예컨대, 추가 배경/주변 채널 또는 전경/우세 채널로서 사용되는 채널의 타입에 따라 프레임 단위 기반으로 변할 수 있다. 전경/우세 신호들은, 상기 설명된 바와 같이, 벡터-기반 또는 방향 기반 신호들 중 하나일 수 있다.
[0085] 일부 인스턴스들에서, 프레임에 대한 벡터-기반 우세 신호들의 총 수는 그 프레임의 비트스트림에서 ChannelType 인덱스가 01인 횟수만큼 주어질 수 있다. 상기 양상에서, (예컨대, 10의 ChannelType에 대응하는) 모든 각각의 추가적인 배경/주변 채널의 경우, (처음 4개 이후의) 가능한 HOA 계수들 중 어느 계수의 대응하는 정보가 그 채널에서 표현될 수 있다. 4 차 HOA 콘텐츠에 대한 정보는 HOA 계수들(5-25)을 나타내기 위한 인덱스일 수 있다. 처음 4개의 주변 HOA 계수들(1-4)은, minAbbHOAorder가 1로 세팅될 경우 항상 전송될 수 있으므로, 오디오 인코딩 디바이스는 단지, 5-25의 인덱스를 갖는 추가 주변 HOA 계수 중 하나를 표시하기 위해 필요할 수 있다. 따라서, 정보는 "CodedAmbCoeffIdx"로 표기될 수 있는 5 비트 구문 엘리먼트 (4 차 콘텐츠의 경우)를 이용하여 전송될 수 있다. 어느 경우든지, 사운드필드 분석 유닛(44)은 배경 채널 정보(43) 및 HOA 계수들(11)을 배경(BG) 선택 유닛(36)으로, 배경 채널 정보(43)를 계수 감소 유닛(46) 및 비트스트림 생성 유닛(42)으로, 그리고 nFG(45)를 전경 선택 유닛(36)으로 출력한다.
[0086] 배경 선택 유닛(48)은 배경 채널 정보(예컨대, 전송을 위한 배경 사운드필드(
Figure 112017034321836-pct00071
) 및 번호(
Figure 112017034321836-pct00072
) 및 추가 BG HOA 채널들의 인덱스들(i))에 기반하여 배경 또는 주변 HOA 계수들(47)을 결정하도록 구성된 유닛을 나타낼 수 있다. 예컨대,
Figure 112017034321836-pct00073
가 1과 같을 경우, 배경 선택 유닛(48)은, 1과 동일하거나 또는 1 미만인 차수를 갖는 오디오 프레임의 각각의 샘플에 대한 HOA 계수들(11)을 선택할 수 있다. 배경 선택 유닛(48)은, 이 예에서, 추가 BG HOA 계수들로서 인덱스들(i) 중 하나에 의해 식별된 인덱스를 갖는 HOA 계수들(11)을 선택할 수 있으며,
Figure 112017034321836-pct00074
는 비트스트림(21)에 특정될 비트스트림 생성 유닛(42)에 제공되므로, 오디오 디코딩 디바이스, 이를테면, 도 2 및 도 4의 예에 도시된 오디오 디코딩 디바이스(24)로 하여금 비트스트림(21)으로부터 배경 HOA 계수들(47)을 파싱할 수 있게 한다. 그런 다음, 배경 선택 유닛(48)은 주변 HOA 계수들(47)을 에너지 보상 유닛(38)으로 출력할 수 있다. 주변 HOA 계수들(47)은 차원들
Figure 112017034321836-pct00075
를 가질 수 있다. 주변 HOA 계수들(47)은 또한 "주변 HOA 계수들(47)"로 지칭될 수 있으며, 주변 HOA 계수들(47) 각각은 심리음향 오디오 코더 유닛(40)에 의해 인코딩될 별개의 주변 HOA 채널(47)에 대응한다.
[0087] 전경 선택 유닛(36)은 (전경 백터들을 식별하는 하나 또는 그 초과의 인덱스들을 표현할 수 있는)
Figure 112017034321836-pct00076
(45)에 기반하여 사운드필드의 전경 또는 별개의 컴포넌트들을 표현하는 재정렬된
Figure 112017034321836-pct00077
행렬(33') 및 재정렬된
Figure 112017034321836-pct00078
행렬(35')을 선택하도록 구성된 유닛을 표현할 수 있다. 전경 선택 유닛(36)은 (재정렬된
Figure 112017034321836-pct00079
Figure 112017034321836-pct00080
또는
Figure 112017034321836-pct00081
로서 표기될 수 있는)
Figure 112017034321836-pct00082
신호들(49)을 심리음향 오디오 코더 유닛(40)으로 출력할 수 있으며,
Figure 112017034321836-pct00083
신호들(49)은 차원들
Figure 112017034321836-pct00084
를 구비할 수 있고 각각은 모노-오디오 오브젝트들을 표현한다. 또한, 전경 선택 유닛(36)은 사운드필드의 전경 컴포넌트들에 대응하는 재정렬된
Figure 112017034321836-pct00085
행렬(35')(또는
Figure 112017034321836-pct00086
)을 공간적-시간적 보간 유닛(50)으로 출력할 수 있고, 전경 컴포넌트들에 대응하는 재정렬된
Figure 112017034321836-pct00087
행렬(35')의 서브세트는 차원들
Figure 112017034321836-pct00088
Figure 112017034321836-pct00089
를 갖는 전경
Figure 112017034321836-pct00090
행렬(51k)로서 표기될 수 있다(이는 수학적으로
Figure 112017034321836-pct00091
로 표기될 수 있다).
[0088] 에너지 보상 유닛(38)은 배경 선택 유닛(48)에 의한 HOA 채널들 중 다양한 것들의 제거로 인한 에너지 손실을 보상하기 위해 주변 HOA 계수들(47)에 대해 에너지 보상을 수행하도록 구성된 유닛을 표현할 수 있다. 에너지 보상 유닛(38)은 재정렬된
Figure 112017034321836-pct00092
행렬(33'), 재정렬된
Figure 112017034321836-pct00093
행렬(35'), nFG 신호들(49), 전경
Figure 112017034321836-pct00094
벡터들(51k) 및 주변 HOA 계수들(47) 중 하나 또는 그 초과에 대해 에너지 분석을 수행하고, 이어서 에너지 보상된 주변 HOA 계수들(47')을 생성하기 위해 에너지 분석에 기초하여 에너지 보상을 수행할 수 있다. 에너지 보상 유닛(38)은 에너지 보상된 주변 HOA 계수들(47')을 상관해제 유닛(60)으로 출력할 수 있다.
[0089] 상관해제 유닛(60)은 하나 또는 그 초과의 상관해제된 주변 HOA 오디오 신호들(67)을 형성하기 위해 에너지 보상된 주변 HOA 계수들(47') 간의 상관을 감소 또는 제거하기 위해 본 개시내용에 설명된 기법들의 다양한 양상들을 구현하도록 구성된 유닛을 표현할 수 있다. 상관해제 유닛(40')은 상관해제된 HOA 오디오 신호들(67)을 이득 제어 유닛(62)으로 출력할 수 있다. 이득 제어 유닛(62)은 이득 제어된 주변 HOA 오디오 신호들(67')을 획득하기 위해 상관해제된 주변 HOA 오디오 신호들(67)에 대해 자동 이득 제어("AGC"로 축약될 수 있음)를 수행하도록 구성된 유닛을 표현할 수 있다. 이득 제어를 적용한 후에, 자동 이득 제어 유닛(62)은 이득 제어된 주변 HOA 오디오 신호들(67')을 심리음향 오디오 코더 유닛(40)에 제공할 수 있다.
[0090] 오디오 인코딩 디바이스(20) 내에 포함된 상관해제 유닛(60)은 상관해제된 HOA 오디오 신호들(67)을 획득하기 위해 하나 또는 그 초과의 상관해제 변환들을 에너지 보상된 주변 HOA 계수들(47')에 적용하도록 구성된 유닛의 단일 또는 다수의 인스턴스들을 표현할 수 있다. 일부 예들에서, 상관해제 유닛(40')은 UHJ 행렬을 에너지 보상된 주변 HOA 계수들(47')에 적용할 수 있다. 본 개시내용의 다양한 인스턴스들에서, UHJ 행렬은 또한 "페이즈-기반 변환(phase-based transform)"으로 지칭될 수 있다. 페이즈-기반 변환의 적용은 또한 본원에서 "페이즈시프트 상관해제(phaseshift decorrelation)"로 지칭될 수 있다.
[0091] 앰비소닉 UHJ 포맷은 모노 및 스테레오 미디어와 호환적이도록 설계된 앰비소닉 서라운드 사운드 시스템의 발전이다. UHJ 포맷은, 레코딩된 사운드필드가 이용가능한 채널들에 따라 변하는 정확도로 재생될 시스템들의 계층을 포함한다. 다양한 인스턴스들에서, UHJ는 또한 "C-포맷"으로 지칭된다. 이니셜들은 시스템에 통합되는 소스들 중 일부를 표시하는데, U는 유니버설 (UD-4)로부터 오고, H는 행렬 H로부터 오고, J는 시스템 45J로부터 온다.
[0092] UHJ는 앰비소닉 기술 내에서 지향성 사운드 정보를 인코딩 및 디코딩하는 계층적 시스템이다. 이용가능한 채널들의 수에 의존하여, 시스템은 더 많거나 더 적은 정보를 반송할 수 있다. UHJ는 완전히 스테레오 및 모노-호환적이다. 최대 4 개의 채널들(L, R, T, Q)이 사용될 수 있다.
[0093] 일 형태에서, 2-채널(L, R) UHJ, 수평(또는 "평면") 서라운드 정보는 리스닝 엔드(listening end)에서의 UHJ 디코더를 사용함으로써 복원될 수 있는 정상 스테레오 신호 채널들 - CD, FM 또는 디지털 라디오 등 - 에 의해 반송될 수 있다. 2 개의 채널들을 합산하는 것은 호환적인 모노 신호를 산출할 수 있고, 이것은 종래의 "팬포팅된 모노(panpotted mono)" 소스를 합산하는 것보다 2-채널 버전의 더 정확한 표현일 수 있다. 제 3 채널(T)이 이용가능하면, 제 3 채널은, 3-채널 UHJ 디코더를 통해 디코딩될 때 평면 서라운드 효과에 대해 개선된 로컬화 정확도를 산출하는데 사용될 수 있다. 제 3 채널은 이러한 목적으로 완전한 오디오 대역폭을 갖도록 요구되지 않을 수 있어서, 소위 "
Figure 112017034321836-pct00095
-채널" 시스템들의 가능성으로 이어지고, 여기서 제 3 채널은 대역폭-제한된다. 일 예에서, 제한은 5 kHz일 수 있다. 제 3 채널은, 예컨대, 페이즈-직교 변조에 의해 FM 라디오를 통해 브로드캐스팅될 수 있다. 제 4 채널(Q)을 UHJ 시스템에 부가하는 것은 4-채널 B-포맷과 동일한 정확도의 레벨의 경우에, 때때로, 페리포니(Periphony)로 지칭되는 높이를 갖는 완전한 서라운드 사운드의 인코딩을 허용할 수 있다.
[0094] 2-채널 UHJ는 앰비소닉 레코딩들의 분배를 위해 일반적으로 사용되는 포맷이다. 2-채널 UHJ 레코딩들은 모든 정상 스테레오 채널들을 통해 송신될 수 있고, 정상 2-채널 미디어 중 임의의 것은 어떠한 변경도 없이 사용될 수 있다. 디코딩 없이, 리스너(listener)가 스테레오 이미지이지만 종래의 스테레오보다 상당히 더 넓은 것(예컨대, 소위 "슈퍼 스테레오(Super Stereo)")을 인식할 수 있다는 점에서, UHJ는 스테레오 호환적이다. 좌측 및 우측 채널들은 또한 매우 높은 모노 호환도를 위해 합산될 수 있다. UHJ 디코더를 통해 재생되면, 서라운드 성능이 드러날 수 있다.
[0095] UHJ 행렬(또는 페이즈-기반 변환)을 적용하는 상관해제 유닛(60)의 예시적인 수학적 표현은 다음과 같다.
UHJ 인코딩:
Figure 112017034321836-pct00096
좌측 및 우측으로의 S 및 D의 변환:
Figure 112017034321836-pct00097
[0096] 위의 계산들의 일부 구현들에 따라, 위의 계산들에 대한 가정들은 다음을 포함할 수 있는데, HOA 배경 채널은 앰비소닉 채널 넘버링 순서
Figure 112017034321836-pct00098
에서 FuMa 정규화된 1차 앰비소닉이다.
[0097] 위의 리스트된 계산들에서, 상관해제 유닛(40')은 상수 값들과 다양한 행렬들의 스칼라 곱셈을 수행할 수 있다. 예컨대, S 신호를 획득하기 위해, 상관해제 유닛(60)은 0.9397의 상수 값(예컨대, 스칼라 곱셈)과 W 행렬, 및 0.1856의 상수 값과 X 행렬의 스칼라 곱셈을 수행할 수 있다. 또한 위에 리스트된 계산들에 예시된 바와 같이, 상관해제 유닛(60)은 D 및 T 신호들 각각을 획득하는데 있어서 힐버트 변환(Hilbert transform)(위의 UHJ 인코딩에서 "Hilbert ( ) 함수로 표기됨)을 적용할 수 있다. 위의 UHJ 인코딩에서 "imag( )" 함수는 힐버트 변환의 결과의 (수학적 의미에서) 허수가 획득된다는 것을 표시한다.
[0098] UHJ 행렬(또는 페이즈-기반 변환)을 적용하는 상관해제 유닛(60)의 다른 예시적인 수학적 표현은 다음과 같다.
UHJ 인코딩:
Figure 112017034321836-pct00099
좌측 및 우측에 대한 S 및 D의 변환
Figure 112017034321836-pct00100
[0099] 위의 계산들의 일부 예시적인 구현들에서, 위의 계산들에 대한 가정들은 다음을 포함할 수 있는데, HOA 배경 채널이 앰비소닉 채널 넘버링 순서
Figure 112017034321836-pct00101
에서 N3D(또는 "풀 3-D(full three-D)") 정규화된 1차 앰비소닉이다. N3D 정규화에 대해 본원에 설명되지만, 예시적인 계산들이 또한 SN3D 정규화된(또는 "슈미트 반-정규화된(Schmidt semi-normalized)") HOA 배경 채널들에 적용될 수 있다는 것이 인지될 것이다. N3D 및 SN3D 정규화는 사용되는 스케일링 팩터(scaling factor)들에 관하여 상이할 수 있다. SN3D 정규화에 대해, N3D 정규화의 예시적인 표현이 아래에 표현된다.
Figure 112017034321836-pct00102
[0100] SN3D 정규화에서 사용되는 가중 계수들의 예가 아래에 표현된다.
Figure 112017034321836-pct00103
[0101] 위의 리스트된 계산들에서, 상관해제 유닛(60)은 상수 값들과 다양한 행렬들의 스칼라 곱셈을 수행할 수 있다. 예컨대, S 신호를 획득하기 위해, 상관해제 유닛(60)은
Figure 112017034321836-pct00104
의 상수 값(예컨대, 스칼라 곱셈(scalar multiplication))과 W 행렬, 및
Figure 112017034321836-pct00105
의 상수 값과 X 행렬의 스칼라 곱셈을 수행할 수 있다. 또한 위에 리스트된 계산들에 예시된 바와 같이, 상관해제 유닛(60)은 D 및 T 신호들 각각을 획득하는데 있어서 힐버트 변환(위의 UHJ 인코딩 또는 페이즈시프트 상관해제에서 "Hilbert ( ) 함수로 표기됨)을 적용할 수 있다. 위의 UHJ 인코딩에서 "imag( )" 함수는 힐버트 변환의 결과의 (수학적 의미에서) 허수가 획득된다는 것을 표시한다.
[0102] 상관해제 유닛(60)은, 위의 리스트된 계산들을 수행할 수 있어서, 결과적인 S 및 D 신호들이 좌측 및 우측 오디오 신호들(또는 다시 말해서 스테레오 오디오 신호들)을 표현한다. 일부 그러한 시나리오들에서, 상관해제 유닛(60)은 상관해제된 주변 HOA 오디오 신호들(67)의 부분으로서 T 및 Q 신호들을 출력할 수 있지만, 비트스트림(21)을 수신하는 디코딩 디바이스는, 스테레오 스피커 지오메트리(또는 다시 말해서, 스테레오 스피커 구성)으로 렌더링할 때 T 및 Q 신호들을 프로세싱하지 않을 수 있다. 예들에서, 주변 HOA 계수들(47')은 모노-오디오 재생 시스템 상에서 렌더링될 사운드필드를 표현할 수 있다. 상관해제 유닛(60)은 상관해제된 주변 HOA 오디오 신호들(67)의 부분으로서 S 및 D 신호들을 출력할 수 있고, 비트스트림(21)을 수신하는 디코딩 디바이스는 모노-오디오 포맷으로 출력 및/또는 렌더링될 오디오 신호를 형성하기 위해 S 및 D 신호들을 결합(또는 "혼합")할 수 있다.
[0103] 이들 예들에서, 디코딩 디바이스 및/또는 재생 디바이스는 다양한 방식들로 모노-오디오 신호를 복원할 수 있다. 일 예는 좌측 및 우측 신호들(S 및 D 신호들로 표현됨)을 혼합하는 것에 의한 것이다. 다른 예는 W 신호를 디코딩하기 위해 UHJ 행렬(또는 페이즈-기반 변환)을 적용하는 것에 의한 것이다. UHJ 행렬(또는 페이즈-기반 변환)을 적용함으로써 자연적인 좌측 신호 및 자연적인 우측 신호를 S 및 D 신호들의 형태로 생성함으로써, 상관해제 유닛(60)은 다른 상관해제 변환들(이를테면 MPEG-H 표준에 설명된 모드 행렬)을 적용하는 기법들에 비해 잠재적인 이점들 및/또는 잠재적인 개선들을 제공하기 위해 본 개시내용의 기법들을 구현할 수 있다.
[0104] 다양한 예들에서, 상관해제 유닛(60)은 수신된 에너지 보상된 주변 HOA 계수들(47')의 비트 레이트에 기반하여 상이한 상관해제 변환들을 적용할 수 있다. 예컨대, 상관해제 유닛(60)은, 에너지 보상된 주변 HOA 계수들(47')이 4-채널 입력을 표현하는 시나리오들에서 위에 설명된 UHJ 행렬(또는 페이즈-기반 변환)을 적용할 수 있다. 더 구체적으로, 4-채널 입력을 표현하는 에너지 보상된 주변 HOA 계수들(47')에 기반하여, 상관해제 유닛(60)은 4 x 4 UHJ 행렬(또는 페이즈-기반 변환)을 적용할 수 있다. 예컨대, 4 x 4 행렬은 에너지 보상된 주변 HOA 계수들(47')의 4-채널 입력에 대해 직교할 수 있다. 다시 말해서, 에너지 보상된 주변 HOA 계수들(47')이 더 적은 수의 채널들(예컨대, 4)을 표현하는 인스턴스들에서, 상관해제 유닛(60)은 상관해제된 주변 HOA 오디오 신호들(67)을 획득하기 위해 에너지 보상된 주변 HOA 신호들(47')의 배경 신호들을 상관해제하기 위해, 선택된 상관해제 변환으로서 UHJ 행렬을 적용할 수 있다.
[0105] 이러한 예에 따라, 에너지 보상된 주변 HOA 계수들(47')이 더 많은 수의 채널들(예컨대, 9)을 표현하면, 상관해제 유닛(60)은 UHJ 행렬(또는 페이즈-기반 변환)과 상이한 상관해제 변환을 적용할 수 있다. 예컨대, 에너지 보상된 주변 HOA 계수들(47')이 9-채널 입력을 표현하는 시나리오에서, 상관해제 유닛(60)은 에너지 보상된 주변 HOA 계수들(47')을 상관해제하기 위해 (예컨대, 위에 참조된 MPEG-H 3D 오디오 표준의 단계 I에 설명된) 모드 행렬을 적용할 수 있다. 에너지 보상된 주변 HOA 계수들(47')이 9-채널 입력을 표현하는 예들에서, 상관해제 유닛(60)은 상관해제된 주변 HOA 오디오 신호들(67)을 획득하기 위해 9 x 9 모드 행렬을 적용할 수 있다.
[0106] 결국, 오디오 인코딩 디바이스(20)의 다양한 컴포넌트들(이를테면, 심리음향 오디오 코더(40))는 AAC 또는 USAC에 따라 상관해제된 주변 HOA 오디오 신호들(67)을 지각하여 코딩할 수 있다. 상관해제 유닛(60)은 HOA에 대한 AAC/USAC 코딩을 잠재적으로 최적화하기 위해 페이즈시프트 상관해제 변환(예컨대, 4-채널 입력의 경우에 UHJ 행렬 또는 페이즈-기반 변환)을 적용할 수 있다. 에너지 보상된 주변 HOA 계수들(47')(그리고 이로써 상관해제된 주변 HOA 오디오 신호들(67))이 스테레오 재생 시스템 상에서 렌더링될 오디오 데이터를 표현하는 예들에서, 상관해제 유닛(60)은 스테레오 오디오 데이터에 대해 상대적으로 지향된(또는 최적화된) AAC 및 USAC에 기초하여 압축을 개선 또는 최적화하기 위해 본 개시내용의 기법들을 적용할 수 있다.
[0107] 에너지 보상된 주변 HOA 계수들(47')이 전경 채널들을 포함하는 상황들뿐만 아니라, 에너지 보상된 주변 HOA 계수들(47')이 임의의 전경 채널들을 포함하지 않는 상황들에서, 상관해제 유닛(60)이 본원에 설명된 기법들을 적용할 수 있다는 것이 이해될 것이다. 일 예로서, 에너지 보상된 주변 HOA 계수들(47')이 제로(0) 전경 채널들 및 네 개의(4) 배경 채널들을 포함하는 시나리오(예컨대, 더 낮은/더 적은 비트 레이트의 시나리오)에서, 상관해제 유닛(40')은 위에 설명된 기법들 및/또는 계산들을 적용할 수 있다.
[0108] 일부 예들에서, 상관해제 유닛(60)은, 상관해제 유닛(60)이 상관해제 변환을 에너지 보상된 주변 HOA 계수들(47')에 적용한 것을 표시하는 하나 또는 그 초과의 구문 엘리먼트들을, 벡터-기반 비트스트림(21)의 부분으로서, 비트스트림 생성 유닛(42)으로 하여금 시그널링하게 할 수 있다. 그러한 표시를 디코딩 디바이스에 제공함으로써, 상관해제 유닛(60)은 디코딩 디바이스가 HOA 도메인에서 오디오 데이터에 대해 상호간의 상관해제 변환들을 수행하는 것을 가능하게 할 수 있다. 일부 예들에서, 상관해제 유닛(60)은, 어떠한 상관해제 변환, 이를테면 UHJ 행렬(또는 다른 페이즈 기반 변환) 또는 모드 행렬이 적용되는지를 표시하는 구문 엘리먼트들을 비트스트림 생성 유닛(42)으로 하여금 시그널링하게 할 수 있다.
[0109] 상관해제 유닛(60)은 페이즈-기반 변환을 에너지 보상된 주변 HOA 계수(47')에 적용할 수 있다.
Figure 112017034321836-pct00106
의 제 1
Figure 112017034321836-pct00107
계수 시퀀스들에 대한 페이즈-기반 변환은 다음과 같이 정의되고,
Figure 112017034321836-pct00108
표 1에 정의된 계수들(d)의 경우에, 신호 프레임들
Figure 112017034321836-pct00109
Figure 112017034321836-pct00110
은 다음과 같이 정의되고,
Figure 112017034321836-pct00111
Figure 112017034321836-pct00112
Figure 112017034321836-pct00113
는 다음과 같이 정의된 +90 도 페이즈 시프팅된 신호들(A 및 B)의 프레임들이다.
Figure 112017034321836-pct00114
이에 따라,
Figure 112017034321836-pct00115
의 제 1
Figure 112017034321836-pct00116
계수 시퀀스들에 대한 페이즈-기반 변환이 정의된다. 설명된 변환은 하나의 프레임의 지연을 도입시킬 수 있다.
[0110] 전술한 것에서,
Figure 112017034321836-pct00117
내지
Figure 112017034321836-pct00118
는 상관해제된 주변 HOA 오디오 신호들(67)에 대응할 수 있다. 전술한 수학식에서, 가변적인
Figure 112017034321836-pct00119
변수는 (0:0)의 (차수:서브-차수)를 갖는 구면 기저 함수들에 대응하는 k번째 프레임에 대한 HOA 계수들을 나타내며, 이는 또한 'W' 채널 또는 컴포넌트로 지칭될 수 있다. 가변적인
Figure 112017034321836-pct00120
변수는 (1:-1)의 (차수:서브-차수)를 갖는 구면 기저 함수들에 대응하는 k번째 프레임에 대한 HOA 계수들을 나타내며, 이는 또한 'Y' 채널 또는 컴포넌트로 지칭될 수 있다. 가변적인
Figure 112017034321836-pct00121
변수는 (1:0)의 (차수:서브-차수)를 갖는 구면 기저 함수들에 대응하는 k번째 프레임에 대한 HOA 계수들을 나타내며, 이는 또한 'Z' 채널 또는 컴포넌트로 지칭될 수 있다. 가변적인
Figure 112017034321836-pct00122
변수는 (1:1)의 (차수:서브-차수)를 갖는 구면 기저 함수들에 대응하는 k번째 프레임에 대한 HOA 계수들을 나타내며, 이는 또한 'X' 채널 또는 컴포넌트로 지칭될 수 있다.
Figure 112017034321836-pct00123
내지
Figure 112017034321836-pct00124
는 주변 HOA 계수들(47')에 대응할 수 있다.
[0111] 아래의 표 1은 상관해제 유닛(40)이 페이즈-기반 변환을 수행하기 위해 사용할 수 있는 계수들의 예를 예시한다.
Figure 112017034321836-pct00125
[0112] 일부 예들에서, 오디오 인코딩 디바이스(20)의 다양한 컴포넌트들(이를테면 비트스트림 생성 유닛(42))은 더 낮은 타겟 비트레이트들(예컨대, 128K 또는 256K의 타겟 비트레이트)에 대해 1차 HOA 표현들만을 송신하도록 구성될 수 있다. 일부 그러한 예들에 따르면, 오디오 인코딩 디바이스(20)(또는 오디오 인코딩 디바이스(20)의 컴포넌트들, 이를테면 비트스트림 생성 유닛(42))는, 고차 HOA 계수들(예컨대, 1차보다 더 큰 차수를 갖는 계수들, 또는 다시 말해서, N>1)을 폐기하도록 구성될 수 있다. 그러나, 타겟 비트레이트가 비교적 높다고 오디오 인코딩 디바이스(20)가 결정하는 예들에서, 오디오 인코딩 디바이스(20)(예컨대, 비트스트림 생성 유닛(42))는 전경 및 배경 채널들을 분리할 수 있고, 전경 채널들에 비트들을 (예컨대, 더 많은 양들로) 할당할 수 있다.
[0113] 에너지 보상된 주변 HOA 계수들(47')에 적용되는 것으로 설명되었지만, 오디오 인코딩 디바이스(20)는 에너지 보상된 주변 HOA 계수들(47')에 상관해제를 적용하지 않을 수 있다. 대신, 에너지 보상 유닛(38)이 에너지 보상된 주변 HOA 계수들(47')을 이득 제어 유닛(62)(이는, 에너지 보상된 주변 HOA 계수들(47')에 대해 자동 이득 제어를 수행할 수 있음)에 직접 제공할 수 있다. 그러므로, 상관해제 유닛(60)은, 상관해제 유닛이 상관해제를 항상 수행하지는 않을 수 있거나 또는 오디오 디코딩 디바이스(20)에 포함되지 않을 수 있음을 표시하기 위해 파선으로 도시된다.
[0114] 공간적-시간적 보간 유닛(50)은 k번째 프레임에 대한 전경 V[k] 벡터들(
Figure 112017034321836-pct00126
) 및 이전 프레임(따라서, k-1 표기)에 대한 전경 V[k-1] 벡터들(
Figure 112017034321836-pct00127
)을 수신하고 공간적-시간적 보간을 수행하여 보간된 전경 V[k] 벡터들을 생성하도록 구성되는 유닛을 표현할 수 있다. 공간적-시간적 보간 유닛(50)은 재정렬된 전경 HOA 계수들을 복원하기 위해 nFG 신호들(49)을 전경 V[k] 벡터들(
Figure 112017034321836-pct00128
)과 재결합시킬 수 있다. 그 후, 공간적-시간적 보간 유닛(50)은, 보간된 nFG 신호들(49')을 생성하기 위해, 재정렬된 전경 HOA 계수들을 보간된 V[k] 벡터들로 나눌 수 있다.
[0115] 공간적-시간적 보간 유닛(50)은 또한, 오디오 디코딩 디바이스(24)와 같은 오디오 디코딩 디바이스가 보간된 전경 V[k] 벡터들을 생성하고 그에 의해 전경 V[k] 벡터들(
Figure 112017034321836-pct00129
)을 복원할 수 있도록, 보간된 전경 V[k] 벡터들을 생성하기 위해 사용되었던 전경 V[k] 벡터들(
Figure 112017034321836-pct00130
)을 출력할 수 있다. 보간된 전경 V[k] 벡터들을 생성하기 위해 사용된 전경 V[k] 벡터들(
Figure 112017034321836-pct00131
)은 나머지 전경 V[k] 벡터들(53)로 표시된다. (보간된 벡터들 V[k]를 생성하기 위해) 인코더 및 디코더에서 동일한 V[k] 및 V[k-1]이 사용됨을 보장하기 위해, 양자화된/역양자화된 버전들의 벡터들이 인코더 및 디코더에서 사용될 수 있다. 공간적-시간적 보간 유닛(50)은, 보간된 nFG 신호들(49')을 이득 제어 유닛(62)에 그리고 보간된 전경 V[k] 벡터들(
Figure 112017034321836-pct00132
)을 계수 감소 유닛(46)에 출력할 수 있다.
[0116] 이득 제어 유닛(62)은 또한, 이득 제어된 nFG 신호들(49'')을 획득하기 위해, 보간된 nFG 신호들(49')에 대해 자동 이득 제어(이는, "AGC"로 단축될 수 있음)를 수행하도록 구성되는 유닛을 표현할 수 있다. 이득 제어를 적용한 후에, 자동 이득 제어 유닛(62)은 이득 제어된 nFG 신호들(49'')을 심리음향 오디오 코더 유닛(40)에 제공할 수 있다.
[0117] 계수 감소 유닛(46)은, 감소된 전경 V[k] 벡터들(55)을 양자화 유닛(52)에 출력하기 위해, 배경 채널 정보(43)에 기반하여 나머지 전경 V[k] 벡터들(53)에 대해 계수 감소를 수행하도록 구성되는 유닛을 표현할 수 있다. 감소된 전경 V[k] 벡터들(55)은 차원들
Figure 112017034321836-pct00133
를 가질 수 있다. 이와 관련하여, 계수 감소 유닛(46)은 나머지 전경 V[k] 벡터들(53)에서의 계수들의 수를 감소시키도록 구성되는 유닛을 표현할 수 있다. 다시 말해서, 계수 감소 유닛(46)은, 지향성 정보를 거의 갖지 않거나 전혀 갖지 않는 (나머지 전경 V[k] 벡터들(53)을 형성하는) 전경 V[k] 벡터들에서의 계수들을 제거하도록 구성되는 유닛을 표현할 수 있다. 일부 예들에서, 별개의, 또는 다시 말해서, (
Figure 112017034321836-pct00134
로 나타낼 수 있는) 1 및 제로 차수 기저 함수들에 대응하는 전경 V[k] 벡터들의 계수들은 지향성 정보를 거의 제공하지 않으며, 따라서, ("계수 감소"로 지칭될 수 있는 프로세스를 통해) 전경 V-벡터들로부터 제거될 수 있다. 이러한 예에서,
Figure 112017034321836-pct00135
에 대응하는 계수들을 식별할 뿐만 아니라
Figure 112017034321836-pct00136
의 세트로부터 부가적인 HOA 채널들(이는, 변수 TotalOfAddAmbHOAChan으로 나타낼 수 있음)을 식별하도록 더 큰 유연성이 제공될 수 있다.
[0118] 양자화 유닛(52)은 감소된 전경 V[k] 벡터들(55)을 압축하여 코딩된 전경 V[k] 벡터들(57)을 생성하기 위해 임의의 형태의 양자화를 수행하도록 구성되는 유닛을 표현할 수 있으며, 코딩된 전경 V[k] 벡터들(57)은 비트스트림 생성 유닛(42)에 출력된다. 동작에서, 양자화 유닛(52)은 사운드필드의 공간 컴포넌트, 즉, 이러한 예에서는 감소된 전경 V[k] 벡터들(55) 중 하나 또는 그 초과를 압축하도록 구성되는 유닛을 표현할 수 있다. 양자화 유닛(52)은, 위에서 참조된 MPEG-H 3D 오디오 코딩 표준의 페이즈 I 또는 페이즈 II에서 기재된 후속하는 12개의 양자화 모드들 중 임의의 양자화 모드를 수행할 수 있다. 양자화 유닛(52)은 또한 양자화 모드들의 전술한 타입들 중 임의의 타입의 예측된 버전들을 수행할 수 있으며, 여기서, 이전 프레임의 V-벡터의 엘리먼트(또는 벡터 양자화가 수행되는 경우의 가중치)와 현재 프레임의 V-벡터의 엘리먼트(또는 벡터 양자화가 수행되는 경우의 가중치) 간의 차이가 결정된다. 그 후, 양자화 유닛(52)은, 현재 프레임의 V-벡터의 엘리먼트의 값 그 자체보다는 현재 프레임 및 이전 프레임의 엘리먼트들 또는 가중치들 간의 차이를 양자화할 수 있다. 양자화 유닛(52)은 코딩된 전경 V[k] 벡터들(57)을 비트스트림 생성 유닛(42)에 제공할 수 있다. 양자화 유닛(52)은 또한, 양자화 모드를 표시하는 구문 엘리먼트들(예컨대, NbitsQ 구문 엘리먼트) 및 V-벡터를 역양자화하거나 또는 달리 재구성하는데 사용되는 다른 구문 엘리먼트들을 제공할 수 있다.
[0119] 오디오 인코딩 디바이스(20) 내에 포함된 심리음향 오디오 코더 유닛(40)은 심리음향 오디오 코더의 다수의 인스턴스들을 표현할 수 있는데, 이들 각각은, 인코딩된 주변 HOA 계수들(59) 및 인코딩된 nFG 신호들(61)을 생성하기 위해 에너지 보상된 주변 HOA 계수들(47') 및 보간된 nFG 신호들(49') 각각의 HOA 채널을 인코딩하거나 또는 상이한 오디오 오브젝트를 인코딩하는데 사용된다. 심리음향 오디오 코더 유닛(40)은 인코딩된 주변 HOA 계수들(59) 및 인코딩된 nFG 신호들(61)을 비트스트림 생성 유닛(42)에 출력할 수 있다.
[0120] 오디오 인코딩 디바이스(20) 내에 포함된 비트스트림 생성 유닛(42)은, 알려진 포맷(이는, 디코딩 디바이스에 의해 알려진 포맷을 지칭할 수 있음)을 따르도록 데이터를 포맷팅함으로써 벡터-기반 비트스트림(21)을 생성하는 유닛을 표현한다. 비트스트림(21)은, 다시 말해서, 위에서 설명된 방식으로 인코딩된, 인코딩된 오디오 데이터를 표현할 수 있다. 비트스트림 생성 유닛(42)은 일부 예들에서 멀티플렉서를 표현할 수 있으며, 이는, 코딩된 전경 V[k] 벡터들(57), 인코딩된 주변 HOA 계수들(59), 인코딩된 nFG 신호들(61), 및 배경 채널 정보(43)를 수신할 수 있다. 그 후, 비트스트림 생성 유닛(42)은 코딩된 전경 V[k] 벡터들(57), 인코딩된 주변 HOA 계수들(59), 인코딩된 nFG 신호들(61), 및 배경 채널 정보(43)에 기반하여 비트스트림(21)을 생성할 수 있다. 이러한 방식에서, 그에 의해, 비트스트림 생성 유닛(42)은 비트스트림(21) 내의 벡터들(57)을 특정함으로써 비트스트림(21)을 획득할 수 있다. 비트스트림(21)은 1차 또는 메인 비트스트림 및 하나 또는 그 초과의 사이드 채널 비트스트림들을 포함할 수 있다.
[0121] 도 3의 예에 도시되진 않지만, 오디오 인코딩 디바이스(20)는 또한, 현재 프레임이 지향성-기반 합성을 사용하여 인코딩될 것인지 또는 벡터-기반 합성을 사용하여 인코딩될 것인지에 기반하여 오디오 인코딩 디바이스(20)로부터의 비트스트림 출력을 (예컨대, 지향성-기반 비트스트림(21)과 벡터-기반 비트스트림(21) 간에) 스위칭하는 비트스트림 출력 유닛을 포함할 수 있다. 비트스트림 출력 유닛은, (HOA 계수들(11)이 합성 오디오 오브젝트로부터 생성되었음을 검출하는 것의 결과로서) 지향성-기반 합성이 수행되었는지 또는 (HOA 계수들이 레코딩되었음을 검출하는 것의 결과로서) 벡터-기반 합성이 수행되었는지를 표시하는 콘텐츠 분석 유닛(26)에 의한 구문 엘리먼트 출력에 기반하여 스위치를 수행할 수 있다. 비트스트림 출력 유닛은 비트스트림들(21) 중 개별적인 하나와 함께 현재 프레임에 대해 사용된 현재 인코딩 또는 스위치를 표시하기 위해 정확한 헤더 구문을 특정할 수 있다.
[0122] 또한, 위에 언급된 바와 같이, 사운드필드 분석 유닛(44)은
Figure 112017034321836-pct00137
주변 HOA 계수들(47)을 식별할 수 있는데, 이는 (때때로
Figure 112017034321836-pct00138
가 2개 또는 그 초과의 (시간에서) 인접한 프레임들에 걸쳐 일정하거나 또는 동일하게 유지될 수 있지만) 프레임 단위 기반으로 변할 수 있다.
Figure 112017034321836-pct00139
에서의 변화는 감소된 전경 V[k] 벡터들(55)에서 표현된 계수들에 대한 변화들을 초래할 수 있다.
Figure 112017034321836-pct00140
에서의 변화는 (또한, 때때로
Figure 112017034321836-pct00141
가 2개 또는 그 초과의 (시간에서) 인접한 프레임들에 걸쳐 일정하거나 또는 동일하게 유지될 수 있지만) 프레임 단위 기반으로 변하는 배경 HOA 계수들(이는, "주변 HOA 계수들"로 또한 지칭될 수 있음)을 초래할 수 있다. 변화들은 종종, 부가적인 주변 HOA 계수들의 부가 또는 제거, 및 이에 대응하는, 감소된 전경 V[k] 벡터들(55)로부터의 계수들의 제거 또는 그에 대한 계수들의 부가에 의해 표현되는 사운드필드의 양상들에 대한 에너지의 변화를 초래한다.
[0123] 결과적으로, 사운드필드 분석 유닛(44)은 추가로, 주변 HOA 계수들이 프레임마다 변하고, 사운드 필드의 주변 컴포넌트들을 표현하는데 사용된다는 측면에서 주변 HOA 계수에 대한 변화를 표시하는 플래그 또는 다른 구문 엘리먼트를 생성하는 시기를 결정할 수 있다(여기서, 변화는 또한, 주변 HOA 계수의 "트랜지션" 또는 주변 HOA 계수의 "트랜지션(transition)"으로 지칭될 수 있음). 특히, 계수 감소 유닛(46)은 플래그(이는, AmbCoeffTransition 플래그 또는 AmbCoeffIdxTransition 플래그로 표시될 수 있음)를 생성할 수 있고, 플래그가 (가능하게는 사이드 채널 정보의 일부로서) 비트스트림(21)에 포함될 수 있도록 플래그를 비트스트림 생성 유닛(42)에 제공한다.
[0124] 계수 감소 유닛(46)은, 주변 계수 트랜지션 플래그를 특정하는 것에 부가하여, 감소된 전경 V[k] 벡터들(55)이 생성되는 방식을 또한 수정할 수 있다. 일 예에서, 주변 HOA 주변 계수들 중 하나가 현재 프레임 동안 트랜지션한다고 결정할 시에, 계수 감소 유닛(46)은, 트랜지션하는 주변 HOA 계수에 대응하는 감소된 전경 V[k] 벡터들(55)의 V-벡터들 각각에 대한 벡터 계수(이는 또한, "벡터 엘리먼트" 또는 "엘리먼트"로 지칭될 수 있음)를 특정할 수 있다. 또한, 트랜지션하는 주변 HOA 계수는 배경 계수들의
Figure 112017034321836-pct00142
총 수에 부가되거나 또는 그로부터 제거될 수 있다. 따라서, 배경 계수들의 총 수에서의 결과적인 변화는, 주변 HOA 계수가 비트스트림에 포함되는지 또는 포함되지 않는지 여부, 및 V-벡터들의 대응하는 엘리먼트가 위에 설명된 제 2 및 제 3 구성 모드들에서의 비트스트림에서 특정된 V-벡터들에 대해 포함되는지 여부에 영향을 미친다. 계수 감소 유닛(46)이 에너지에서의 변화들을 극복하기 위해 감소된 전경 V[k] 벡터들(55)을 어떻게 특정할 수 있는지에 관한 더 많은 정보는, "TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS"라는 명칭으로 2015년 1월 12일자로 출원된 미국 출원 일련번호 제 14/594,533호에서 제공된다.
[0125] 이와 관련하여, 비트스트림 생성 유닛(42)은, 많은 수의 상이한 콘텐츠 전달 콘텍스트들을 수용하기 위한 유연한 비트스트림 생성을 가능하게 할 수 있는 광범위하게 다양한 상이한 인코딩 방식들로 비트스트림(21)을 생성할 수 있다. 오디오 산업에서 관심을 받고 있는 것으로 보이는 일 콘텍스트는, 점점 더 많은 수의 상이한 플레이백 디바이스들에 대한, 네트워크를 통한 오디오 데이터의 전달(또는 다시 말해서, "스트리밍(streaming)")이다. 대역폭 제한된 네트워크들을 통해 다양한 수준의 플레이백 성능들을 갖는 디바이스들에 오디오 콘텐츠를 전달하는 것은, (채널- 또는 오브젝트-기반 오디오 데이터에 비해) 큰 대역폭 소비를 대가로 플레이백 동안 높은 수준의 3D 오디오 충실도를 허용하는 HOA 오디오 데이터의 콘텍스트에서 특히 어려울 수 있다.
[0126] 본 개시내용에서 설명된 기술들에 따르면, 비트스트림 생성 유닛(42)은 HOA 계수들(11)의 다양한 재구성들을 허용하기 위해 하나 또는 그 초과의 스케일러블 계층들을 활용할 수 있다. 계층들 각각은 계층적일 수 있다. 예컨대, 제 1 계층(이는, "베이스 계층"으로 지칭될 수 있음)은, 스테레오 확성기 피드들이 렌더링되는 것을 허용하는, HOA 계수들의 제 1 재구성을 제공할 수 있다. 제 2 계층(이는, 제 1 "인핸스먼트 계층"으로 지칭될 수 있음)은, HOA 계수들의 제 1 재구성에 적용되는 경우, HOA 계수의 제 1 재구성을 스케일링하여 수평 서라운드 사운드 확성기 피드들(예컨대, 5.1 확성기 피드들)이 렌더링되는 것을 허용할 수 있다. 제 3 계층(이는, 제 2 "인핸스먼트 계층"으로 지칭될 수 있음)은, HOA 계수들의 제 2 재구성에 적용되는 경우, HOA 계수의 제 1 재구성을 스케일링하여 3D 서라운드 사운드 확성기 피드들(예컨대, 22.2 확성기 피드들)이 렌더링되는 것을 허용할 수 있다. 이와 관련하여, 계층들은 이전 계층을 계층적 스케일링하는 것으로서 간주될 수 있다. 다시 말해서, 계층들은, 제 1 계층이 제 2 계층과 결합되는 경우에 고차 앰비소닉 오디오 신호의 더 높은 분해능 표현을 제공하도록 계층적이다.
[0127] 직전 계층의 스케일링을 허용하는 것으로 위에서 설명되었지만, 다른 계층 위의 임의의 계층이 하위 계층을 스케일링할 수 있다. 다시 말해서, 위에서 설명된 제 3 계층은, 제 1 계층이 제 2 계층에 의해 "스케일링"되지 않았다 하더라도 제 1 계층을 스케일링하는데 사용될 수 있다. 제 3 계층은, 제 1 계층에 직접 적용되는 경우, 높이 정보를 제공할 수 있고, 그에 의해, 불규칙하게 배열된 스피커 지오메트리들에 대응하는 불규칙한 스피커 공급들이 렌더링되는 것을 허용할 수 있다.
[0128] 비트스트림 생성 유닛(42)은, 계층들이 비트스트림(21)으로부터 추출되는 것을 허용하기 위해, 비트스트림에 특정된 계층들의 수의 표시를 특정할 수 있다. 비트스트림 생성 유닛(42)은, 표시된 수의 계층들을 포함하는 비트스트림(21)을 출력할 수 있다. 비트스트림 생성 유닛(42)은 도 5에 대해 더 상세히 설명된다. 스케일러블 HOA 오디오 데이터를 생성하는 것의 다양한 상이한 예들이 도 10-13b의 위의 예들 각각에 대한 측파대 정보의 예와 함께 다음의 도 7a-9b에서 설명된다.
[0129] 도 5는, 본 개시내용에서 설명된 스케일러블 오디오 코딩 기법들의 잠재적인 버전들 중 제 1 버전을 수행하도록 구성될 때 도 3의 비트스트림 생성 유닛(42)을 더 상세하게 예시하는 다이어그램이다. 도 5의 예에서, 비트스트림 생성 유닛(42)은 스케일러블 비트스트림 생성 유닛(1000) 및 논-스케일러블 비트스트림 생성 유닛(1002)을 포함한다. 스케일러블 비트스트림 생성 유닛(1000)은, (일부 인스턴스들에서, 스케일러블 비트스트림이 특정 오디오 콘텍스트들을 위한 단일 계층을 포함할 수 있지만) 도 11-13b의 예들에 대해 도시되고 아래에서 설명되는 것들과 유사한 HOAFrames()를 갖는 2개 또는 그 초과의 계층들을 포함하는 스케일러블 비트스트림(21)을 생성하도록 구성된 유닛을 표현한다. 논-스케일러블 비트스트림 생성 유닛(1002)은 계층들 또는 다시 말해 스케일러빌러티(scalability)를 제공하지 않는 논-스케일러블 비트스트림(21)을 생성하도록 구성된 유닛을 표현할 수 있다.
[0130] 논-스케일러블 비트스트림(21) 및 스케일러블 비트스트림(21) 둘 모두가 통상적으로, 인코딩된 주변 HOA 계수들(59), 인코딩된 nFG 신호들(61) 및 코딩된 전경 V[k] 벡터들(57)의 관점들에서 동일한 기본 데이터를 포함하는 것을 고려하면, 논-스케일러블 비트스트림(21) 및 스케일러블 비트스트림(21) 둘 모두는 "비트스트림(21)"으로 지칭될 수 있다. 그러나, 논-스케일러블 비트스트림(21)과 스케일러블 비트스트림(21) 간의 하나의 차이는, 스케일러블 비트스트림(21)이 계층들(21A, 21B 등)로 표시될 수 있는 계층들을 포함하는 것이다. 계층들(21A)은, 아래에서 더 상세하게 설명되는 바와 같이, 인코딩된 주변 HOA 계수들(59), 인코딩된 nFG 신호들(61) 및 코딩된 전경 V[k] 벡터들(57)의 서브세트들을 포함할 수 있다.
[0131] 스케일러블 및 논-스케일러블 비트스트림들(21)이 동일한 비트스트림(21)의 효과적으로 상이한 표현들일 수 있지만, 스케일러블 비트스트림(21)을 논-스케일러블 비트스트림(21')과 구분하기 위해 논-스케일러블 비트스트림(21)은 논-스케일러블 비트스트림(21')으로 표시된다. 더욱이, 일부 인스턴스들에서, 스케일러블 비트스트림(21)은 논-스케일러블 비트스트림(21)을 따르는 다양한 계층들을 포함할 수 있다. 예컨대, 스케일러블 비트스트림(21)은 논-스케일러블 비트스트림(21)을 따르는 베이스 계층을 포함할 수 있다. 이들 인스턴스들에서, 논-스케일러블 비트스트림(21')은 스케일러블 비트스트림(21)의 서브-비트스트림을 표현할 수 있고, 여기서 이 논-스케일러블 서브-비트스트림(21')은 (인핸스먼트 계층들로 지칭되는) 스케일러블 비트스트림(21)의 부가적인 계층들을 이용하여 향상될 수 있다.
[0132] 비트스트림 생성 유닛(42)은 스케일러블 비트스트림 생성 유닛(1000) 또는 논-스케일러블 비트스트림 생성 유닛(1002)을 호출할지 여부를 표시하는 스케일러빌러티 정보(1003)를 획득할 수 있다. 다시 말해, 스케일러빌러티 정보(1003)는 비트스트림 생성 유닛(42)이 스케일러블 비트스트림(21)을 출력할지 또는 논-스케일러블 비트스트림(21')을 출력할지를 표시할 수 있다. 예시의 목적들을 위해, 스케일러빌러티 정보(1003)는, 비트스트림 생성 유닛(42)이 스케일러블 비트스트림(21')을 출력하기 위해 스케일러블 비트스트림 생성 유닛(1000)을 호출하는 것을 표시한다고 가정된다.
[0133] 도 5의 예에서 추가로 도시되는 바와 같이, 비트스트림 생성 유닛(42)은 인코딩된 주변 HOA 계수들(59A-59D), 인코딩된 nFG 신호들(61A 및 61B), 및 코딩된 전경 V[k] 벡터들(57A 및 57B)을 수신할 수 있다. 인코딩된 주변 HOA 계수들(59A)은 제로의 차수 및 제로의 서브-차수를 갖는 구면 기저 함수와 연관된 인코딩된 주변 HOA 계수들을 표현할 수 있다. 인코딩된 주변 HOA 계수들(59B)은 1의 차수 및 제로의 서브-차수를 갖는 구면 기저 함수와 연관된 인코딩된 주변 HOA 계수들을 표현할 수 있다. 인코딩된 주변 HOA 계수들(59C)은 1의 차수 및 네거티브 1의 서브-차수를 갖는 구면 기저 함수와 연관된 인코딩된 주변 HOA 계수들을 표현할 수 있다. 인코딩된 주변 HOA 계수들(59D)은 1의 차수 및 포지티브 1의 서브-차수를 갖는 구면 기저 함수와 연관된 인코딩된 주변 HOA 계수들을 표현할 수 있다. 인코딩된 주변 HOA 계수들(59A-59D)은 위에서 논의된 인코딩된 주변 HOA 계수들(59)의 일 예를 표현할 수 있으며, 결과적으로는 통틀어, 인코딩된 주변 HOA 계수들(59)로 지칭될 수 있다.
[0134] 인코딩된 nFG 신호들(61A 및 61B)은 각각, 이 예에서 사운드필드의 2개의 가장 우세한 전경 양상들을 표현하는 US 오디오 오브젝트를 표현할 수 있다. 코딩된 전경 V[k] 벡터들(57A 및 57B)은 인코딩된 nFG 신호들(61A 및 61B)에 대한 방향 정보(방향에 부가하여 폭을 또한 특정할 수 있음)를 각각 표현할 수 있다. 인코딩된 nFG 신호들(61A 및 61B)은 위에서 설명된 인코딩된 nFG 신호들(61)의 일 예를 표현할 수 있으며, 결과적으로는 통틀어, 인코딩된 nFG 신호들(61)로 지칭될 수 있다. 코딩된 전경 V[k] 벡터들(57A 및 57B)은 위에서 설명된 코딩된 전경 V[k] 벡터들(57)의 일 예를 표현할 수 있으며, 결과적으로는 통틀어, 코딩된 전경 V[k] 벡터들(57)로 지칭될 수 있다.
[0135] 일단 호출되면, 스케일러블 비트스트림 생성 유닛(1000)은, 도 7a-9b에 대해 아래에서 설명되는 것과 실질적으로 유사한 방식으로 계층들(21A 및 21B)을 포함하도록 스케일러블 비트스트림(21)을 생성할 수 있다. 스케일러블 비트스트림 생성 유닛(1000)은 스케일러블 비트스트림(21)의 계층들의 수뿐만 아니라 계층들(21A 및 21B) 각각의 전경 엘리먼트들 및 배경 엘리먼트들의 수의 표시를 특정할 수 있다. 스케일러블 비트스트림 생성 유닛(1000)은 일 예로서, L 개의 계층들을 특정할 수 있는 NumberOfLayers 구문 엘리먼트를 특정할 수 있고, 여기서 변수 L은 계층들의 수를 표시할 수 있다. 그 후에, 스케일러블 비트스트림 생성 유닛(1000)은, 각각의 계층(각각의 계층은 변수(i) = 1 내지 L로 표시될 수 있음)에 대해, Bi 개의 인코딩된 주변 HOA 계수들(59) 및 각각의 계층(각각의 계층은 또한 또는 대안적으로, 대응하는 코딩된 전경 V[k] 벡터들(57)의 수를 표시할 수 있음)에 대해 전송된 Fi 개의 코딩된 nFG 신호들(61)을 특정할 수 있다.
[0136] 도 5의 예에서, 스케일러블 비트스트림 생성 유닛(1000)은, 스케일러블 코딩이 인에이블되었고 2개의 계층들이 스케일러블 비트스트림(21)에 포함되고, 제 1 계층(21A)이 4개의 인코딩된 주변 HOA 계수들(59) 및 제로 인코딩된 nFG 신호들(61)을 포함하고, 제 2 계층(21A)이 제로 인코딩된 주변 HOA 계수들(59) 및 w개의 인코딩된 nFG 신호들(61)을 포함한다는 것을 스케일러블 비트스트림(21)에서 특정할 수 있다. 스케일러블 비트스트림 생성 유닛(1000)은 또한, 인코딩된 주변 HOA 계수들(59)을 포함하도록 제 1 계층(21A)(제 1 계층(21A)은 또한 "베이스 계층(21A)"으로 지칭될 수 있음)을 생성할 수 있다. 스케일러블 비트스트림 생성 유닛(1000)은 추가로, 인코딩된 nFG 신호들(61) 및 코딩된 전경 V[k] 벡터들(57)을 포함하도록 제 2 계층(21A)(제 2 계층(21A)은 "인핸스먼트 계층(21B)"으로 지칭될 수 있음)을 생성할 수 있다. 스케일러블 비트스트림 생성 유닛(1000)은 스케일러블 비트스트림(21)으로서 계층들(21A 및 21B)을 출력할 수 있다. 일부 예들에서, 스케일러블 비트스트림 생성 유닛(1000)은 스케일러블 비트스트림(21')을 (인코더(20) 내부의 또는 인코더(20) 외부의) 메모리에 저장할 수 있다.
[0137] 일부 인스턴스들에서, 스케일러블 비트스트림 생성 유닛(1000)은 계층들의 수, 하나 또는 그 초과의 계층들의 전경 컴포넌트들의 수(예컨대, 인코딩된 nFG 신호들(61) 및 코딩된 전경 V[k] 벡터들(57)의 수), 및 하나 또는 그 초과의 계층들의 배경 컴포넌트들(예컨대, 인코딩된 주변 HOA 계수들(59))의 수의 표시들 중 하나 또는 그 초과의 표시들 또는 임의의 표시들을 특정하지 않을 수 있다. 본 개시내용에서, 컴포넌트들은 또한 채널들로 지칭될 수 있다. 대신에, 스케일러블 비트스트림 생성 유닛(1000)은 현재 프레임에 대한 계층들의 수를 이전 프레임(예컨대, 시간적으로 가장 최근의 이전 프레임)에 대한 계층들의 수와 비교할 수 있다. 비교 결과가 어떠한 차이도 없는 경우(이는, 현재 프레임의 계층들의 수가 이전 프레임의 계층들의 수와 동일하다는 것을 의미함), 스케일러블 비트스트림 생성 유닛(1000)은 유사한 방식으로 각각의 계층의 배경 및 전경 컴포넌트들의 수를 비교할 수 있다.
[0138] 다시 말해, 스케일러블 비트스트림 생성 유닛(1000)은 현재 프레임에 대한 하나 또는 그 초과의 계층들의 배경 컴포넌트들의 수를 이전 프레임에 대한 하나 또는 그 초과의 계층들의 배경 컴포넌트의 수와 비교할 수 있다. 스케일러블 비트스트림 생성 유닛(1000)은 추가로, 현재 프레임에 대한 하나 또는 그 초과의 계층들의 전경 컴포넌트들의 수를 이전 프레임에 대한 하나 또는 그 초과의 계층들의 전경 컴포넌트들의 수와 비교할 수 있다.
[0139] 컴포넌트-기반 비교들 둘 모두의 비교 결과들이 어떠한 차이도 없는 경우(이는, 이전 프레임의 전경 및 배경 컴포넌트들의 수가 현재 프레임의 전경 및 배경 컴포넌트들의 수와 동일하다는 것을 의미함), 스케일러블 비트스트림 생성 유닛(1000)은, 계층들의 수, 하나 또는 그 초과의 계층들의 전경 컴포넌트들의 수(예컨대, 인코딩된 nFG 신호들(61) 및 코딩된 전경 V[k] 벡터들(57)의 수), 하나 또는 그 초과의 계층들의 배경 컴포넌트들(예컨대, 인코딩된 주변 HOA 계수들(59))의 수의 표시들 중 하나 또는 그 초과의 표시들 또는 임의의 표시들을 특정하기보다는, 현재 프레임의 계층들의 수가 이전 프레임의 계층들의 수와 동일하다는 표시(예컨대, HOABaseLayerConfigurationFlag 구문 엘리먼트)를 스케일러블 비트스트림(21)에서 특정할 수 있다. 그 후에, 오디오 디코딩 디바이스(24)는, 아래에서 더 상세하게 설명되는 바와 같이, 계층들, 배경 컴포넌트들 및 전경 컴포넌트들의 수의 이전 프레임 표시들이 계층들, 배경 컴포넌트들 및 전경 컴포넌트들의 수의 현재 프레임 표시와 동일하다는 것을 결정할 수 있다.
[0140] 위에서 주목된 비교들 중 임의의 비교 결과가 차이가 있는 경우, 스케일러블 비트스트림 생성 유닛(1000)은, 현재 프레임의 계층들의 수가 이전 프레임의 계층들의 수와 동일하지 않다는 표시(예컨대, HOABaseLayerConfigurationFlag 구문 엘리먼트)를 스케일러블 비트스트림(21)에서 특정할 수 있다. 그 후에, 스케일러블 비트스트림 생성 유닛(1000)은 위에서 주목된 바와 같이, 계층들의 수, 하나 또는 그 초과의 계층들의 전경 컴포넌트들의 수(예컨대, 인코딩된 nFG 신호들(61) 및 코딩된 전경 V[k] 벡터들(57)의 수), 및 하나 또는 그 초과의 계층들의 배경 컴포넌트들(예컨대, 인코딩된 주변 HOA 계수들(59))의 수의 표시들을 특정할 수 있다. 이에 대해, 스케일러블 비트스트림 생성 유닛(1000)은, 이전 프레임의 비트스트림의 계층들의 수와 비교할 때, 현재 프레임의 비트스트림의 계층들의 수가 변화되었는지의 여부의 표시를 비트스트림에서 특정하고, 현재 프레임의 비트스트림의 계층들의 표시된 수를 특정할 수 있다.
[0141] 일부 예들에서, 전경 컴포넌트들의 수의 표시 및 배경 컴포넌트들의 수의 표시를 특정하지 않기보다는, 스케일러블 비트스트림 생성 유닛(1000)은 컴포넌트들의 수의 표시(예컨대, "NumChannels" 구문 엘리먼트, "NumChannels" 구문 엘리먼트는 [i]개의 엔트리들을 갖는 어레이일 수 있고, 여기서 i는 계층들의 수와 동일함)를 스케일러블 비트스트림(21)에서 특정하지 않을 수 있다. 전경 및 배경 컴포넌트들의 수가 더 일반적인 수의 채널들로부터 유도될 수 있다는 것을 고려하면, 스케일러블 비트스트림 생성 유닛(1000)은, 전경 및 배경 컴포넌트들의 수를 특정하지 않는 대신에, 컴포넌트들(여기서 이들 컴포넌트들은 또한 "채널들"로 지칭될 수 있음)의 수의 표시를 특정하지 않을 수 있다. 일부 예들에서, 전경 컴포넌트들의 수의 표시 및 배경 채널들의 수의 표시의 유도는 아래의 표에 따라 진행될 수 있으며:
Figure 112017034321836-pct00143
Figure 112017034321836-pct00144
여기서 ChannelType의 설명은 아래와 같이 주어진다:
ChannelType:
0 : 방향-기반 신호
1 : 벡터-기반 신호(벡터-기반 신호는 전경 신호를 표현할 수 있음)
2 : 부가적인 주변 HOA 계수(부가적인 주변 HOA 계수는 배경 또는 주변 신호를 표현할 수 있음)
3: 엠프티
위의 SideChannelInfo 구문 표마다 ChannelType을 시그널링한 결과로서, 계층 당 전경 컴포넌트들의 수는 1로 설정된 ChannelType 구문 엘리먼트들의 수의 함수로써 결정될 수 있고, 계층 당 배경 컴포넌트들의 수는 2로 설정된 ChannelType 구문 엘리먼트들의 수의 함수로써 결정될 수 있다.
[0142] 일부 예들에서, 스케일러블 비트스트림 생성 유닛(1000)은 프레임 단위 기반으로 HOADecoderConfig를 특정할 수 있고, 이는 비트스트림(21)으로부터 계층들을 추출하기 위한 구성 정보를 제공한다. HOADecoderConfig는 위의 표에 대한 대안으로서 또는 위의 표와 함께 특정될 수 있다. 아래의 표는 비트스트림(21)의 HOADecoderConfig_FrameByFrame() 오브젝트에 대한 구문을 정의할 수 있다.
Figure 112017034321836-pct00145
Figure 112017034321836-pct00146
Figure 112017034321836-pct00147
[0143] 앞선 표에서, HOABaseLayerPresent 구문 엘리먼트는, 스케일러블 비트스트림(21)의 베이스 계층이 존재하는지의 여부를 표시하는 플래그를 표현할 수 있다. 존재할 때, 스케일러블 비트스트림 생성 유닛(1000)은 HOABaseLayerConfigurationFlag 구문 엘리먼트를 특정하며, 이 HOABaseLayerConfigurationFlag 구문 엘리먼트는 베이스 계층에 대한 구성 정보가 비트스트림(21)에 존재하는지의 여부를 표시하는 구문 엘리먼트를 표현할 수 있다. 베이스 계층에 대한 구성 정보가 비트스트림(21)에 존재할 때, 스케일러블 비트스트림 생성 유닛(1000)은 계층들의 수(즉, 예에서 NumLayers 구문 엘리먼트), 계층들 각각에 대한 전경 채널들의 수(즉, 예에서 NumFGchannels 구문 엘리먼트), 및 계층들 각각에 대한 배경 채널들의 수(즉, 예에서 NumBGchannels 구문 엘리먼트)를 특정한다. HOABaseLayerPresent 플래그가, 베이스 계층 구성이 존재하지 않음을 표시할 때, 스케일러블 비트스트림 생성 유닛(1000)은 어떠한 부가적인 구문 엘리먼트들도 제공하지 않을 수 있으며, 오디오 디코딩 디바이스(24)는 현재 프레임에 대한 구성 데이터가 이전 프레임에 대한 구성 데이터와 동일하다고 결정할 수 있다.
[0144] 일부 예들에서, 스케일러블 비트스트림 생성 유닛(1000)은 HOADecoderConfig 오브젝트를 스케일러블 비트스트림(21)에서 특정하지만 계층마다의 전경 및 배경 채널들의 수를 특정하지 않을 수 있으며, 여기서 전경 및 배경 채널들의 수는 ChannelSideInfo 표에 대하여 위에서 설명된 바와 같이 결정되거나 또는 정적일 수 있다. HOADecoderConfig는 이 예에서 다음의 표에 따라 정의될 수 있다.
Figure 112017034321836-pct00148
Figure 112017034321836-pct00149
Figure 112017034321836-pct00150
[0145] 또 다른 대안으로서, HOADecoderConfig에 대한 앞선 구문 표들은 HOADecoderConfig에 대한 다음의 구문 표로 교체될 수 있다.
Figure 112017034321836-pct00151
Figure 112017034321836-pct00152
Figure 112017034321836-pct00153
[0146] 이와 관련하여, 스케일러블 비트스트림 생성 유닛(1000)은, 위에서 설명된 바와 같이, 비트스트림의 하나 또는 그 초과의 계층들에서 특정된 채널들의 수의 표시를 비트스트림에서 특정하며, 비트스트림의 하나 또는 그 초과의 계층들에서 채널들의 표시된 수를 특정하도록 구성될 수 있다.
[0147] 게다가, 스케일러블 비트스트림 생성 유닛(1000)은 채널들의 수를 표시하는 구문 엘리먼트(예컨대, 아래에서 더욱 상세히 설명되는 NumLayers 구문 엘리먼트 또는 codedLayerCh 구문 엘리먼트의 형태임)를 특정하도록 구성될 수 있다.
[0148] 일부 예들에서, 스케일러블 비트스트림 생성 유닛(1000)은 비트스트림에서 특정된 채널들의 총 수의 표시를 특정하도록 구성될 수 있다. 스케일러블 비트스트림 생성 유닛(1000)은, 이들 인스턴스들에서, 비트스트림의 하나 또는 그 초과의 계층들에서 채널들의 표시된 총 수를 특정하도록 구성될 수 있다. 이들 인스턴스들에서, 스케일러블 비트스트림 생성 유닛(1000)은 채널들의 총 수를 표시하는 구문 엘리먼트(예컨대, 아래에서 더욱 상세히 설명되는 numHOATransportChannels 구문 엘리먼트)를 특정하도록 구성될 수 있다.
[0149] 이들 및 다른 예들에서, 스케일러블 비트스트림 생성 유닛(1000)은 하나 또는 그 초과의 계층들에서 특정된 채널들 중 하나의 채널의 타입의 표시를 비트스트림에서 특정하도록 구성될 수 있다. 이들 인스턴스들에서, 스케일러블 비트스트림 생성 유닛(1000)은 비트스트림의 하나 또는 그 초과의 계층들에서 채널들 중 하나의 채널의 표시된 타입의 표시된 수를 특정하도록 구성될 수 있다. 전경 채널은 US 오디오 오브젝트 및 대응하는 V-벡터를 포함할 수 있다.
[0150] 이들 및 다른 예들에서, 스케일러블 비트스트림 생성 유닛(1000)은 하나 또는 그 초과의 계층들에서 특정된 채널들 중 하나의 채널의 타입의 표시를 비트스트림에서 특정하도록 구성될 수 있으며, 채널들 중 하나의 채널의 타입의 표시는 채널들 중 하나의 채널이 전경 채널임을 표시한다. 이들 인스턴스들에서, 스케일러블 비트스트림 생성 유닛(1000)은, 비트스트림의 하나 또는 그 초과의 계층들에서 전경 채널을 특정하도록 구성될 수 있다.
[0151] 이들 및 다른 예들에서, 스케일러블 비트스트림 생성 유닛(1000)은 하나 또는 그 초과의 계층들에서 특정된 채널들 중 하나의 채널의 타입의 표시를 비트스트림에서 특정하도록 구성될 수 있으며, 채널들 중 하나의 채널의 타입의 표시는 채널들 중 하나의 채널이 배경 채널임을 표시한다. 이들 인스턴스들에서, 스케일러블 비트스트림 생성 유닛(1000)은, 비트스트림의 하나 또는 그 초과의 계층들에서 배경 채널을 특정하도록 구성될 수 있다. 배경 채널은 주변 HOA 계수를 포함할 수 있다.
[0152] 이들 및 다른 예들에서, 스케일러블 비트스트림 생성 유닛(1000)은 채널들 중 하나의 채널의 타입을 표시하는 구문 엘리먼트(예컨대, ChannelType 구문 엘리먼트)를 특정하도록 구성될 수 있다.
[0153] 이들 및 다른 예들에서, 스케일러블 비트스트림 생성 유닛(1000)은, 계층들 중 하나가 획득된 이후 비트스트림에 남아 있는 채널들의 수(예컨대, 아래에서 더욱 상세히 설명되는 remainingCh 구문 엘리먼트 또는 numAvailableTransportChannels 구문 엘리먼트에 의해 정의됨)에 기반하여 채널들의 수의 표시를 특정하도록 구성될 수 있다.
[0154] 도 7a-7d는 HOA 계수들(11)의 인코딩된 2-계층 표현을 생성할 때 오디오 인코딩 디바이스(20)의 예시적 동작을 예시하는 흐름도들이다. 먼저, 도 7a의 예를 참조하면, 상관해제 유닛(60)은 먼저, 에너지 보상된 배경 HOA 계수들(47A'-47D')로서 표현된 1차 앰비소닉 배경(여기서, "앰비소닉 배경"은 사운드필드의 배경 컴포넌트를 설명하는 앰비소닉 계수들을 지칭할 수 있음)에 대한 UHJ 상관해제를 적용(300)할 수 있다. 1차 앰비소닉 배경(47A'-47D')은 다음의 (차수, 서브-차수):(0, 0), (1, 0), (1, -1), (1, 1)를 갖는 구면 기저 함수들에 대응하는 HOA 계수들을 포함할 수 있다.
[0155] 상관해제 유닛(60)은 위에서 주목된 Q, T, L 및 R 오디오 신호들로서, 상관해제된 주변 HOA 오디오 신호들(67)을 출력할 수 있다. Q 오디오 신호는 높이 정보를 제공할 수 있다. T 오디오 신호는 수평 정보(스위트 스폿(sweet spot) 뒤의 채널들을 표현하기 위한 정보를 포함함)를 제공할 수 있다. L 오디오 신호는 왼쪽 스테레오 채널을 제공한다. R 오디오 신호는 오른쪽 스테레오 채널을 제공한다.
[0156] 일부 예들에서, UHJ 행렬은 왼쪽 오디오 채널과 연관된 적어도 고차 앰비소닉 오디오 데이터를 포함할 수 있다. 다른 예들에서, UHJ 행렬은 오른쪽 오디오 채널과 연관된 적어도 고차 앰비소닉 오디오 데이터를 포함할 수 있다. 여전히 다른 예들에서, UHJ 행렬은 로컬화 채널과 연관된 적어도 고차 앰비소닉 오디오 데이터를 포함할 수 있다. 다른 예들에서, UHJ 행렬은 높이 채널과 연관된 적어도 고차 앰비소닉 오디오 데이터를 포함할 수 있다. 다른 예들에서, UHJ 행렬은 자동 이득 정정을 위한 측파대와 연관된 적어도 고차 앰비소닉 오디오 데이터를 포함할 수 있다. 다른 예들에서, UHJ 행렬은 왼쪽 오디오 채널, 오른쪽 오디오 채널, 로컬화 채널, 및 높이 채널, 및 자동 이득 정정을 위한 측파대와 연관된 적어도 고차 앰비소닉 오디오 데이터를 포함할 수 있다.
[0157] 이득 제어 유닛(62)은 AGC(automatic gain control)를 상관해제된 주변 HOA 오디오 신호들(67)에 적용(302)할 수 있다. 이득 제어 유닛(62)은 조정된 주변 HOA 오디오 신호들(67')을 비트스트림 생성 유닛(42)에 전달할 수 있으며, 이 비트스트림 생성 유닛(42)은 조정된 주변 HOA 오디오 신호들(67')에 기반하여 베이스 계층, 그리고 HOAGCD(higher order ambisonic gain control data)에 기반하여 측파대 채널 중 적어도 일부를 형성(304)할 수 있다.
[0158] 이득 제어 유닛(62)은 또한, 보간된 nFG 오디오 신호들(49')("벡터-기반 우세 신호들"로 또한 지칭될 수 있음)에 대하여 자동 이득 제어를 적용(306)할 수 있다. 이득 제어 유닛(62)은, 조정된 nFG 오디오 신호들(49'')에 대한 HOAGCD와 함께, 조정된 nFG 오디오 신호들(49'')을 비트스트림 생성 유닛(42)에 출력할 수 있다. 비트스트림 생성 유닛(42)은, 조정된 nFG 오디오 신호들(49'')에 기반하여 제 2 계층을 형성하면서 동시에, 조정된 nFG 오디오 신호들(49'')에 대한 HOAGCD에 기반하여 측파대 정보 중 일부 및 대응하는 코딩된 전경 V[k] 벡터들(57)을 형성(308)할 수 있다.
[0159] 고차 앰비소닉 오디오 데이터의 2개 또는 그 초과의 계층들 중 제 1 계층(즉, 베이스 계층)은 1과 동일하거나 또는 그 미만의 차수를 갖는 하나 또는 그 초과의 구면 기저 함수들에 대응하는 고차 앰비소닉 계수들을 포함할 수 있다. 일부 예들에서, 제 2 계층(즉, 인핸스먼트 계층)은 벡터-기반 우세 오디오 데이터를 포함한다.
[0160] 일부 예들에서, 벡터-기반 우세 오디오는 적어도 우세 오디오 데이터 및 인코딩된 V-벡터를 포함한다. 위에서 설명된 바와 같이, 인코딩된 V-벡터는 오디오 인코딩 디바이스(20)의 LIT 유닛(30)에 의한 선형 가역 변환의 적용을 통해 고차 앰비소닉 오디오 데이터로부터 분해될 수 있다. 다른 예들에서, 벡터-기반 우세 오디오 데이터는, 적어도 추가 고차 앰비소닉 채널을 포함한다. 또 다른 예들에서, 벡터-기반 우세 오디오 데이터는 적어도 자동 이득 정정 측파대를 포함한다. 다른 예에서, 벡터-기반 우세 오디오 데이터는 적어도 우세 오디오 데이터, 인코딩된 V-벡터, 추가 고차 앰비소닉 채널 및 자동 이득 정정 측파대를 포함한다.
[0161] 제 1 계층 및 제 2 계층을 형성하는데 있어서, 비트스트림 생성 유닛(42)은 에러 검출, 에러 정정 또는 에러 검출 및 정정 모두를 제공하는 에러 검사 프로세스들을 수행할 수 있다. 일부 예들에서, 비트스트림 생성 유닛(42)은 제 1 계층(즉, 베이스 계층) 상에서 에러 검사 프로세스를 수행할 수 있다. 다른 예에서, 오디오 코딩 디바이스는 제 1 계층(즉, 베이스 계층) 상에서 에러 검사 프로세스를 수행하고 제 2 계층(즉, 인핸스먼트 계층) 상에서 에러 검사 프로세스를 수행하는 것을 억제할 수 있다. 또 다른 예에서, 비트스트림 생성 유닛(42)은 제 1 계층(즉, 베이스 계층) 상에서 에러 검사 프로세스를 수행할 수 있고, 제 1 계층은 에러가 없다고 결정하는 것에 대한 응답으로, 오디오 코딩 디바이스는 제 2 계층(즉, 인핸스먼트 계층) 상에서 에러 검사 프로세스를 수행할 수 있다. 비트스트림 생성 유닛(42)이 제 1 계층(즉, 베이스 계층) 상에서 에러 검사 프로세스를 수행하는 위의 예들 중 임의의 예에서, 제 1 계층은 에러들에 대해 견고한 견고 계층으로 간주될 수 있다.
[0162] 다음으로 도 7b를 참조하면, 이득 제어 유닛(62) 및 비트스트림 생성 유닛(42)은 도 7a를 참조하여 위에서 설명된 이득 제어 유닛(62) 및 비트스트림 생성 유닛(42)의 것과 유사한 동작들을 수행한다. 그러나 상관해제 유닛(60)은 UHJ 상관해제 보다는 모드 행렬 상관해제를 1차 앰비소닉 배경(47A'-47D')에 적용할 수 있다(301).
[0163] 다음으로 도 7c를 참조하면, 이득 제어 유닛(62) 및 비트스트림 생성 유닛(42)은 도 7a 및 도 7b의 예들에 대해 위에서 설명된 이득 제어 유닛(62) 및 비트스트림 유닛(42)의 것과 유사한 동작들을 수행할 수 있다. 그러나 도 7c의 예에서, 상관해제 유닛(60)은 1차 앰비소닉 배경(47A'-47D')에 어떠한 변환도 적용하지 않을 수 있다. 다음의 예들 8a-10b 각각에서, 상관해제 유닛(60)은 대안으로서, 1차 앰비소닉 배경(47A'-47D') 중 하나 또는 그 초과에 대해 상관해제를 적용하지 않을 수도 있다는 것이 가정되지만 예시되지 않는다.
[0164] 다음으로 도 7d를 참조하면, 상관해제 유닛(60) 및 비트스트림 생성 유닛(42)은 도 7a 및 도 7b의 예들에 대해 위에서 설명된 이득 제어 유닛(52) 및 비트스트림 생성 유닛(42)의 것과 유사한 동작들을 수행할 수 있다. 그러나 도 7d의 예에서, 이득 제어 유닛(62)은 상관해제된 주변 HOA 오디오 신호들(67)에 어떠한 이득 제어도 적용하지 않을 수 있다. 도 8a-10b의 다음의 예들 각각에서, 이득 제어 유닛(52)은, 대안으로서, 상관해제 주변 HOA 오디오 신호들(67) 중 하나 또는 그 초과의 것에 대해 상관해제를 적용하지 않을 수도 있다는 것이 가정되지만 예시되지 않는다.
[0165] 도 7a-7d의 예들 각각에서, 비트스트림 생성 유닛(42)은 비트스트림(21)에서 하나 또는 그 초과의 구문 엘리먼트들을 특정할 수 있다. 도 10은 비트스트림(21)에 특정된 HOA 구성 오브젝트의 예를 예시하는 다이어그램이다. 도 7a-7d의 예들 각각에 대해, 비트스트림 생성 유닛(42)은 codedVVecLength 구문 엘리먼트(400)를 1 또는 2로 세팅하며, 이는 1차 배경 HOA 채널들이 모든 우세 사운드들의 1차 컴포넌트를 포함한다는 것을 표시한다. 비트스트림 생성 유닛(42)은 또한, ambienceDecorrelationMethod 구문 엘리먼트(402)가 (예컨대, 도 7a에 대해 위에서 설명된 바와 같이) UHJ 상관해제의 사용을 시그널링하고, (예컨대, 도 7b에 대해 위에서 설명된 바와 같이) 행렬 모드 상관해제의 사용을 시그널링하거나, 또는 (예컨대, 도 7c에 대해 위에서 설명된 바와 같이) 어떠한 상관해제도 사용되지 않음을 시그널링하도록 엘리먼트(402)를 세팅할 수 있다.
[0166] 도 11은 제 1 및 제 2 계층들에 대해 비트스트림 생성 유닛(42)에 의해 생성된 측파대 정보(410)를 예시하는 다이어그램이다. 측파대 정보(410)는 측파대 베이스 계층 정보(412) 및 측파대 제 2 계층 정보(414A, 414B)를 포함한다. 베이스 계층만이 오디오 디코딩 디바이스(24)에 제공되는 경우, 오디오 인코딩 디바이스(20)는 측파대 베이스 계층 정보(412)만을 제공할 수 있다. 측파대 베이스 계층 정보(412)는 베이스 계층에 대한 HOAGCD를 포함한다. 측파대 제 2 계층 정보(414A)는 전송 채널들(1-4) 구문 엘리먼트들 및 대응하는 HOAGCD를 포함한다. 측파대 제 2 계층 정보(414B)는 (전송 채널들(3 및 4)은 ChannelType 구문 엘리먼트 이퀄링(112 또는 310)에 의해 표시된 바와 같이 엠프티인 것을 고려하면) 전송 채널들(1 및 2)에 대응하는 대응하는 2개의 코딩된 감소된 V[k] 벡터들(57)을 포함한다.
[0167] 도 8a 및 도 8b는 HOA 계수들(11)의 인코딩된 3-계층 표현을 생성하는데 있어 오디오 인코딩 디바이스(20)의 예시적인 동작을 예시하는 흐름도들이다. 먼저 도 8a의 예를 참조하면, 상관해제 유닛(60) 및 이득 제어 유닛(62)은 도 7a에 대해 위에서 설명된 것들과 유사한 동작들을 수행할 수 있다. 그러나 비트스트림 생성 유닛(42)은 조정된 주변 HOA 오디오 신호들(67) 전부 보다는, 조정된 주변 오디오 신호(67)의 L 오디오 신호 및 R 오디오 신호에 기반하여 베이스 계층을 형성할 수 있다(310). 베이스 계층은 이 점에 있어서, 오디오 디코딩 디바이스(24)에서 렌더링될 때 스테레오 채널들을 제공할 수 있다. 비트스트림 생성 유닛(42)은 또한 HOAGCD를 포함하는 베이스 계층에 대한 측파대 정보를 생성할 수 있다.
[0168] 비트스트림 생성 유닛(42)의 동작은 또한, 비트스트림 생성 유닛(42)이 조정된 주변 HOA 오디오 신호들(67)의 Q 및 T 오디오 신호들에 기반하여 제 2 계층을 형성할 수 있다(312)는 점에서 도 7a에 대해 위에서 설명된 것과 상이할 수 있다. 도 8a의 예에서 제 2 계층은, 오디오 디코딩 디바이스(24)에서 렌더링될 때 수평 채널들 및 3D 오디오 채널들을 제공할 수 있다. 비트스트림 생성 유닛(42)은 또한 HOAGCD를 포함하는 제 2 계층에 대한 측파대 정보를 생성할 수 있다. 비트스트림 생성 유닛(42)은 또한 도 7a의 예에서 제 2 계층을 형성하는 것에 대해 위에서 설명된 것과 실질적으로 유사한 방식으로 제 3 계층을 형성할 수 있다.
[0169] 비트스트림 생성 유닛(42)은 도 10에 대해 위에서 설명된 것과 유사하게 비트스트림(21)에 대한 HOA 구성 오브젝트를 특정할 수 있다. 또한, 오디오 인코더(20)의 비트스트림 생성 유닛(42)은 1차 HOA 배경이 송신되었음을 표시하도록 MinAmbHoaOrder 구문 엘리먼트(404)를 2로 세팅한다.
[0170] 비트스트림 생성 유닛(42)은 또한 도 12a의 예에 도시된 측파대 정보(412)와 유사한 측파대 정보를 생성할 수 있다. 도 12a는 본 개시에서 설명된 기술들의 스케일러블 코딩 양상들에 따라 생성된 측파대 정보(412)를 예시하는 다이어그램이다. 측파대 정보(412)는 측파대 베이스 계층 정보(416), 측파대 제 2 계층 정보(418) 및 측파대 제 3 계층 정보(420A 및 420B)를 포함한다. 측파대 베이스 계층 정보(416)는 베이스 계층에 대한 HOAGCD를 제공할 수 있다. 측파대 제 2 계층 정보(418)는 제 2 계층에 대한 HOAGCD를 제공할 수 있다. 측파대 제 3 계층 정보(420A 및 420B)는 도 11에 대해 위에서 설명된 측파대 정보(414A 및 414B)와 유사할 수 있다.
[0171] 도 7a와 유사하게, 비트스트림 생성 디바이스(42)는 에러 검사 프로세스들을 수행할 수 있다. 일부 예들에서, 비트스트림 생성 디바이스(42)는 제 1 계층(즉, 베이스 계층) 상에서 에러 검사 프로세스를 수행할 수 있다. 다른 예에서, 비트스트림 생성 디바이스(42)는 제 1 계층(즉, 베이스 계층) 상에서 에러 검사 프로세스를 수행하고 제 2 계층(즉, 인핸스먼트 계층) 상에서 에러 검사 프로세스를 수행하는 것을 억제할 수 있다. 또 다른 예에서, 비트스트림 생성 디바이스(42)는 제 1 계층(즉, 베이스 계층) 상에서 에러 검사 프로세스를 수행할 수 있고, 제 1 계층은 에러가 없다고 결정하는 것에 대한 응답으로, 오디오 코딩 디바이스는 제 2 계층(즉, 인핸스먼트 계층) 상에서 에러 검사 프로세스를 수행할 수 있다. 오디오 코딩 디바이스가 제 1 계층(즉, 베이스 계층) 상에서 에러 검사 프로세스를 수행하는 위의 예들 중 임의의 예에서, 제 1 계층은 에러들에 대해 견고한 견고 계층으로 간주될 수 있다.
[0172] 3개의 계층들을 제공하는 것으로 설명되었지만, 일부 예들에서, 비트스트림 생성 디바이스(42)는 단지 2개의 계층들만이 존재한다는 표시를 비트스트림에 특정하고 스테레오 채널 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 1 계층 및 단일 수평 평면 상에 배열된 3개 또는 그 초과의 스피커들에 의해 수평 멀티-채널 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 2 계층을 특정할 수 있다. 즉, 3개의 계층들을 제공하는 것으로 도시되지만, 비트스트림 생성 디바이스(42)는 일부 인스턴스들에서 3개의 계층들 중 2개만을 생성할 수 있다. 여기에서 상세히 설명되지 않지만, 계층들의 임의의 서브세트가 생성될 수 있다는 것이 이해되어야 한다 .
[0173] 다음으로 도 8b를 참조하면, 이득 제어 유닛(62) 및 비트스트림 생성 유닛(42)은 도 8a를 참조하여 위에서 설명된 이득 제어 유닛(62) 및 비트스트림 생성 유닛(42)의 것과 유사한 동작들을 수행한다. 그러나 상관해제 유닛(60)은 UHJ 상관해제 보다는, 모드 행렬 상관해제를 1차 앰비소닉 배경(47A')에 적용할 수 있다(316). 일부 예들에서, 1차 앰비소닉 배경(47A')은 제로 차수 앰비소닉 계수(47A')를 포함할 수 있다. 이득 제어 유닛(62)은, 상관해제된 주변 HOA 오디오 신호(67) 및 1차수를 갖는 구면 조화 계수들에 대응하는 1차 앰비소닉 계수들에 자동 이득 제어를 적용할 수 있다.
[0174] 비트스트림 생성 유닛(42)은 조정된 주변 HOA 오디오 신호(67)에 기반하여 베이스 계층 및 대응하는 HOAGCD에 기반하여 측파대의 적어도 일부를 형성할 수 있다(310). 주변 HOA 오디오 신호(67)는 오디오 디코딩 디바이스(24)에서 렌더링 될 때 모노 채널을 제공할 수 있다. 비트스트림 생성 유닛(42)은 조정된 주변 HOA 계수들(47B''-47D'')에 기반하여 제 2 계층 및 대응하는 HOAGCD에 기반하여 측파대의 적어도 일부를 형성할 수 있다(318). 조정된 주변 HOA 계수들(47B'-47D')은 오디오 디코딩 디바이스(24)에서 렌더링 될 때, X, Y 및 Z(또는 스테레오, 수평 및 높이) 채널들을 제공할 수 있다. 비트스트림 생성 유닛(42)은 도 8a에 대해 위에서 설명된 것과 유사한 방식으로 제 3 계층 및 측파대 정보의 적어도 일부를 형성할 수 있다. 비트스트림 생성 유닛(42)은 도 12b에 대해 보다 상세히 설명된 바와 같이 측파대 정보(412)를 생성할 수 있다(326).
[0175] 도 12b는 본 개시에서 설명된 기술들의 스케일러블 코딩 양상들에 따라 생성된 측파대 정보(414)를 예시하는 다이어그램이다. 측파대 정보(414)는 측파대 베이스 계층 정보(416), 측파대 제 2 계층 정보(422) 및 측파대 제 3 계층 정보(424A-424C)를 포함한다. 측파대 베이스 계층 정보(416)는 베이스 계층에 대한 HOAGCD를 제공할 수 있다. 측파대 제 2 계층 정보(422)는 제 2 계층에 대한 HOAGCD를 제공할 수 있다. 측파대 제 3 계층 정보(424A-424C)는 (측파대 정보(414A)는 측파대 제 3 계층 정보(424A 및 424B)로서 특정되는 것을 제외하고) 도 11에 대해 위에서 설명된 측파대 정보(414A 및 414B)와 유사할 수 있다.
[0176] 도 9a 및 도 9b는 HOA 계수들(11)의 인코딩된 4-계층 표현을 생성하는데 있어 오디오 인코딩 디바이스(20)의 예시적인 동작을 예시하는 흐름도들이다. 먼저 도 9a의 예를 참조하면, 상관해제 유닛(60) 및 이득 제어 유닛(62)은 도 8a에 대해 위에서 설명된 것들과 유사한 동작들을 수행할 수 있다. 비트스트림 생성 유닛(42)은 도 8a의 예에 대해 위에서 설명된 것과 유사한 방식으로, 즉, 조정된 주변 HOA 오디오 신호(67) 모두 보다는, 조정된 주변 HOA 오디오 신호(67)의 L 오디오 신호 및 R 오디오 신호에 기반하여 베이스 계층을 형성할 수 있다(310). 베이스 계층은, 이 점에 있어서, 오디오 디코딩 디바이스(24)에서 렌더링될 때 스테레오 채널들을 제공할 수 있다(또는, 다시 말해, 스테레오 채널 플레이백을 제공함). 비트스트림 생성 유닛(42)은 또한 HOAGCD를 포함하는 베이스 계층에 대한 측파대 정보를 생성할 수 있다.
[0177] 비트스트림 생성 유닛(42)의 동작은 비트스트림 생성 유닛(42)이 조정된 주변 HOA 오디오 신호들(67)의 T 오디오 신호에 기반하여(및 Q 오디오 신호에 기반하지 않음) 제 2 계층을 형성할 수 있다(322)는 점에 도 8a에 대해 위에서 설명된 것과 상이할 수 있다. 도 9a의 예에서 제 2 계층은, 오디오 디코딩 디바이스(24)에서 렌더링될 때 수평 채널들을 제공할 수 있다(또는, 다시 말해, 단일 수평 평면 상의 3개 또는 그 초과의 확성기들에 의한 멀티-채널 플레이백). 비트스트림 생성 유닛(42)은 또한 HOAGCD를 포함하는 제 2 계층에 대한 측파대 정보를 생성할 수 있다. 비트스트림 생성 유닛(42)은 또한 조정된 주변 HOA 오디오 신호(67)의 Q 오디오 신호에 기반하여 제 3 계층을 형성할 수 있다(324). 제 3 계층은 하나 또는 그 초과의 수평 평면들 상에 배열된 3개 또는 그 초과의 스피커들에 의한 3차원 플레이백을 제공할 수 있다. 비트스트림 생성 유닛(42)은 도 8a의 예에서 제 3 계층을 형성하는 것에 대해 위에서 설명된 것과 실질적으로 유사한 방식으로 제 4 계층을 형성할 수 있다(326).
[0178] 비트스트림 생성 유닛(42)은 도 10에 대해 위에서 설명된 것과 유사하게 비트스트림(21)에 대한 HOA 구성 오브젝트를 특정할 수 있다. 또한, 오디오 인코더(20)의 비트스트림 생성 유닛(42)은 1차 HOA 배경이 송신되었음을 표시하도록 MinAmbHoaOrder 구문 엘리먼트(404)를 2로 세팅한다.
[0179] 비트스트림 생성 유닛(42)은 또한 도 13a의 예에 도시된 측파대 정보(412)와 유사한 측파대 정보를 생성할 수 있다. 도 13a는 본 개시에서 설명된 기술들의 스케일러블 코딩 양상들에 따라 생성된 측파대 정보(430)를 예시하는 다이어그램이다. 측파대 정보(430)는 측파대 베이스 계층 정보(416), 측파대 제 2 계층 정보(418), 측파대 제 3 계층 정보(432) 및 측파대 제 4 계층 정보(434A 및 434B)를 포함한다. 측파대 베이스 계층 정보(416)는 베이스 계층에 대한 HOAGCD를 제공할 수 있다. 측파대 제 2 계층 정보(418)는 제 2 계층에 대한 HOAGCD를 제공할 수 있다. 측파대 제 3 계층 정보(430)는 제 3 계층에 대한 HOAGCD를 제공할 수 있다. 측파대 제 4 계층 정보(434A 및 434B)는 도 12a에 대해 위에서 설명된 측파대 정보(420A 및 420B)와 유사할 수 있다.
[0180] 도 7a와 유사하게, 비트스트림 생성 디바이스(42)는 에러 검사 프로세스들을 수행할 수 있다. 일부 예들에서, 비트스트림 생성 디바이스(42)는 제 1 계층(즉, 베이스 계층) 상에서 에러 검사 프로세스를 수행할 수 있다. 다른 예에서, 비트스트림 생성 디바이스(42)는 제 1 계층(즉, 베이스 계층) 상에서 에러 검사 프로세스를 수행하고 잔여 계층(즉, 인핸스먼트 계층들) 상에서 에러 검사 프로세스를 수행하는 것을 억제할 수 있다. 또 다른 예에서, 비트스트림 생성 디바이스(42)는 제 1 계층(즉, 베이스 계층) 상에서 에러 검사 프로세스를 수행할 수 있고, 제 1 계층은 에러가 없다고 결정하는 것에 대한 응답으로, 오디오 코딩 디바이스는 제 2 계층(즉, 인핸스먼트 계층) 상에서 에러 검사 프로세스를 수행할 수 있다. 오디오 코딩 디바이스가 제 1 계층(즉, 베이스 계층) 상에서 에러 검사 프로세스를 수행하는 위의 예들 중 임의의 예에서, 제 1 계층은 에러들에 대해 견고한 견고 계층으로 간주될 수 있다.
[0181] 다음으로 도 9b를 참조하면, 이득 제어 유닛(62) 및 비트스트림 생성 유닛(42)은 도 9a를 참조하여 위에서 설명된 이득 제어 유닛(62) 및 비트스트림 생성 유닛(42)의 것과 유사한 동작들을 수행한다. 그러나 상관해제 유닛(60)은 UHJ 상관해제 보다는, 모드 행렬 상관해제를 1차 앰비소닉 배경(47A')에 적용할 수 있다(316). 일부 예들에서, 1차 앰비소닉 배경(47A')은 제로 차수 앰비소닉 계수(47A')를 포함할 수 있다. 이득 제어 유닛(62)은, 상관해제된 주변 HOA 오디오 신호(67) 및 제 1 차수를 갖는 구면 조화 계수들에 대응하는 1차 앰비소닉 계수들에 자동 이득 제어를 적용할 수 있다(302).
[0182] 비트스트림 생성 유닛(42)은 조정된 주변 HOA 오디오 신호(67)에 기반하여 베이스 계층 및 대응하는 HOAGCD에 기반하여 측파대의 적어도 일부를 형성할 수 있다(310). 주변 HOA 오디오 신호(67)는 오디오 디코딩 디바이스(24)에서 렌더링될 때 모노 채널을 제공할 수 있다. 비트스트림 생성 유닛(42)은 조정된 주변 HOA 계수들(47B'' 및 47C'')에 기반하여 제 2 계층 및 대응하는 HOAGCD에 기반하여 측파대의 적어도 일부를 형성할 수 있다(322). 조정된 주변 HOA 계수들(47B'', 47C ")은 단일 수평 평면 상에 배열된 3개 또는 그 초과의 스피커들에 의한 X, Y 수평 멀티-채널 플레이백을 제공할 수 있다. 비트스트림 생성 유닛(42)은 조정된 주변 HOA 계수들(47D'')에 기반하여 제 3 계층 및 대응하는 HOAGCD에 기반하여 측파대의 적어도 일부를 형성할 수 있다(324). 조정된 주변 HOA 계수들(47D'')은 하나 또는 그 초과의 수평 평면들에 배열된 3개 또는 그 초과의 스피커들에 의한 3차원 플레이백을 제공할 수 있다. 비트스트림 생성 유닛(42)은 도 8a에 대해 위에서 설명된 것과 유사한 방식으로 제 4 계층 및 측파대 정보의 적어도 일부를 형성할 수 있다(326). 비트스트림 생성 유닛(42)은 도 12b에 대해 보다 상세히 설명된 바와 같이 측파대 정보(412)를 생성할 수 있다.
[0183] 도 13b는 본 개시에서 설명된 기술들의 스케일러블 코딩 양상들에 따라 생성된 측파대 정보(440)를 예시하는 다이어그램이다. 측파대 정보(440)는 측파대 베이스 계층 정보(416), 측파대 제 2 계층 정보(442), 측파대 제 3 계층 정보(444) 및 측파대 제 4 계층 정보(446A-446C)를 포함한다. 측파대 베이스 계층 정보(416)는 베이스 계층에 대한 HOAGCD를 제공할 수 있다. 측파대 제 2 계층 정보(442)는 제 2 계층에 대한 HOAGCD를 제공할 수 있다. 측파대 제 3 계층 정보는 제 3 계층에 대한 HOAGCD를 제공할 수 있다. 측파대 제 4 계층 정보(446A-446C)는 도 12b에 대해 위에서 설명된 측파대 정보(424A-424C)와 유사할 수 있다.
[0184] 도 4는 도 2의 오디오 디코딩 디바이스(24)를 보다 상세히 예시하는 블록 다이어그램이다. 도 4의 예에 도시된 바와 같이, 오디오 디코딩 디바이스(24)는 추출 유닛(72), 지향성-기반 재구성 유닛(90) 및 벡터-기반 재구성 유닛(92)을 포함할 수 있다. 아래서 설명되지만, 오디오 디코딩 디바이스(24) 및 HOA 계수들을 압축해제하거나 그렇지 않으면 디코딩하는 것의 다양한 양상들에 관한 더 많은 정보는, 2014년 5월 29일 출원되고 발명의 명칭이 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD"인 국제 특허 출원 공개 번호 제WO 2014/194099호에서 입수 가능하다. 추가 정보는 또한, 위에서 참조된 MPEG-H 3D 오디오 코딩 표준의 페이즈 I 및 페이즈 II 및 MPEG-H 3D 오디오 코딩 표준의 페이즈 I을 요약하는 위에 참조된 대응하는 논문에서도 발견될 수 있다.
[0185] 추출 유닛(72)은 비트스트림(21)을 수신하고 HOA 계수들(11)의 다양한 인코딩된 버전들(예를 들어, 지향성-기반 인코딩된 버전 또는 벡터-기반 인코딩된 버전)을 추출하도록 구성된 유닛을 표현할 수 있다. 추출 유닛(72)은 HOA 계수들(11)이 다양한 지향성-기반 또는 벡터-기반 버전들을 통해 인코딩되었는지 여부를 표시하는 위에 언급된 구문 엘리먼트로부터 결정할 수 있다. 지향성-기반 인코딩이 수행되었을 때, 추출 유닛(72)은 HOA 계수들(11)의 지향성-기반 버전 및 (도 4의 예에서 지향성-기반 정보(91)로서 표시되는) 인코딩된 버전과 연관된 구문 엘리먼트들을 추출하여, 지향성-기반 정보(91)를 지향성-기반 재구성 유닛(90)에 전달한다. 지향성-기반 재구성 유닛(90)은 지향성-기반 정보(91)에 기초하여 HOA 계수들(11')의 형태로 HOA 계수들을 재구성하도록 구성된 유닛을 표현할 수 있다.
[0186] HOA 계수들(11)이 벡터-기반 합성을 사용하여 인코딩되었다고 구문 엘리먼트가 표시하면, 추출 유닛(72)은 (코딩된 가중치들(57) 및/또는 인덱스들(63) 또는 스칼라 양자화된 V-벡터들을 포함할 수 있는) 코딩된 전경 V[k] 벡터들(57), 인코딩된 주변 HOA 계수들(59) 및 (인코딩된 nFG 신호들(61)로서 또한 지칭될 수 있는) 대응하는 오디오 오브젝트들(61)을 추출할 수 있다. 오디오 오브젝트들(61) 각각은 벡터들(57) 중 하나에 대응한다. 추출 유닛(72)은 코딩된 전경 V[k] 벡터들(57)을 V-벡터 재구성 유닛(74)에 전달할 수 있고, 인코딩된 nFG 신호들(61)과 함께, 인코딩된 주변 HOA 계수들(59)을 심리음향 디코딩 유닛(80)에 전달할 수 있다. 추출 유닛(72)은 도 6의 예과 관련하여 더 상세히 설명된다.
[0187] 도 6은, 본 개시내용에서 설명되는 스케일러블 오디오 디코딩 기법들의 잠재적인 버전들 중 제 1 버전을 수행하도록 구성될 때 도 4의 추출 유닛(72)을 더 상세히 예시하는 다이어그램이다. 도 6의 예에서, 추출 유닛(72)은 모드 선택 유닛(1010), 스케일러블 추출 유닛(1012) 및 논-스케일러블 추출 유닛(1014)을 포함한다. 모드 선택 유닛(1010)은, 비트스트림(21)에 대해 스케일러블 또는 논-스케일러블 추출이 수행될 것인 지의 여부를 선택하도록 구성된 유닛을 나타낸다. 모드 선택 유닛(1010)은, 비트스트림(21)이 저장되는 메모리를 포함할 수 있다. 모드 선택 유닛(1010)은, 스케일러블 코딩이 인에이블되었는지 여부의 표시에 기반하여 스케일러블 또는 논-스케일러블 추출이 수행되어야 하는 지를 결정할 수 있다. HOABaseLayerPresent 구문 엘리먼트는, 비트스트림(21)을 인코딩할 때 스케일러블 코딩이 수행되었는지의 여부의 표시를 표현할 수 있다.
[0188] 스케일러블 코딩이 인에이블되었음을 HOABaseLayerPresent 구문 엘리먼트가 표시할 때, 모드 선택 유닛(1010)은 비트스트림(21)을 스케일러블 비트스트림(21)으로서 식별하고, 스케일러블 비트스트림(21)을 스케일러블 추출 유닛(1012)에 출력할 수 있다. 스케일러블 코딩이 인에이블되지 않았음을 HOABaseLayerPresent 구문 엘리먼트가 표시할 때, 모드 선택 유닛(1010)은 비트스트림(21)을 논-스케일러블 비트스트림(21')으로서 식별하고, 논-스케일러블 비트스트림(21')을 논-스케일러블 추출 유닛(1014)에 출력할 수 있다. 논-스케일러블 추출 유닛(1014)은 MPEG-H 3D 오디오 코딩 표준의 페이즈 I에 따라 동작하도록 구성된 유닛을 표현한다.
[0189] 스케일러블 추출 유닛(1012)은, 하기에서 보다 상세히 설명되고 (그리고 다양한 HOADecoderConfig 표들에서 상기 도시된) 다양한 구문 엘리먼트에 기반하여, 스케일러블 비트스트림(21)의 하나 또는 그 초과의 계층들로부터 주변 HOA 계수들(59), 인코딩된 nFG 신호들(61) 및 코딩된 전경 V[k] 벡터들(57) 중 하나 또는 그 초과를 추출하도록 구성된 유닛을 표현할 수 있다. 도 6의 예에서, 스케일러블 추출 유닛(1012)은, 일 예로서, 스케일러블 비트스트림(21)의 베이스 계층(21A)으로부터 4개의 인코딩된 주변 HOA 계수들(59A-59D)을 추출할 수 있다. 스케일러블 추출 유닛(1012)은 또한, 스케일러블 비트스트림(21)의 인핸스먼트 계층(21B)으로부터 (일 예로서) 2개의 인코딩된 nFG 신호들(61A 및 61B) 뿐만 아니라 2개의 코딩된 전경 V[k] 벡터들(57A 및 57B)을 추출할 수 있다. 스케일러블 추출 유닛(1012)은 주변 HOA 계수들(59), 인코딩된 nFG 신호들(61) 및 코딩된 전경 V[k] 벡터들(57)을 도 4의 예에 도시된 벡터-기반 디코딩 유닛(92)에 출력할 수 있다.
[0190] 보다 구체적으로, 오디오 디코딩 디바이스(24)의 추출 유닛(72)은 상기 HOADecoderCofnig_FrameByFrame 구문 표에서 설명된 바와 같은 L 계층들의 채널들을 추출할 수 있다.
[0191] 상기 HOADecoderCofnig_FrameByFrame 구문 표에 따라, 모드 선택 유닛(1010)은 먼저 HOABaseLayerPresent 구문 엘리먼트를 획득할 수 있으며, 이는 스케일러블 오디오 인코딩이 수행되었는 지의 여부를 표시할 수 있다. 예컨대, HOABaseLayerPresent 구문 엘리먼트에 대한 제로 값에 의해 특정되는 바와 같이 인에이블되지 않았을 때, 모드 선택 유닛(1010)은 MinAmbHoaOrder 구문 엘리먼트를 결정하고, 논-스케일러블 비트스트림을 논-스케일러블 추출 유닛(1014)에 제공할 수 있으며, 논-스케일러블 추출 유닛(1014)은 상기 설명된 것들과 유사한 논-스케일러블 추출 프로세스들을 수행한다. 예컨대, HOABaseLayerPresent 구문 엘리먼트에 대한 1 값에 의해 특정되는 바와 같이 인에이블되었을 때, 모드 선택 유닛(1010)은 MinAmbHOAOrder 구문 엘리먼트 값을 마이너스 일(-1)이 되도록 설정하고, 스케일러블 비트스트림(21')을 스케일러블 추출 유닛(1012)에 제공한다.
[0192] 스케일러블 추출 유닛(1012)은, 이전 프레임에서의 비트스트림의 계층들의 수와 비교할 때 현재 프레임에서 비트스트림의 계층들의 수가 변경되었는 지의 여부의 표시를 획득할 수 있다. 이전 프레임에서의 비트스트림의 계층들의 수와 비교할 때 현재 프레임에서 비트스트림의 계층들의 수가 변경되었는 지의 여부의 표시는 전술한 표에서 "HOABaseLayerConfigurationFlag" 구문 엘리먼트로서 나타낼 수 있다.
[0193] 스케일러블 추출 유닛(1012)은 표시에 기반하여 현재 프레임에서의 비트 스트림의 계층들의 수의 표시를 획득할 수 있다. 이러한 표시가, 이전 프레임에서의 비트스트림의 계층들의 수와 비교할 때 현재 프레임에서 비트스트림의 계층들의 수가 변경되지 않았음을 표시할 때, 스케일러블 추출 유닛(1012)은,
Figure 112017034321836-pct00154
과 같이 쓰여지는 상기 구문 표의 일부에 따라 현재 프레임에서의 비트스트림의 계층들의 수가 이전 프레임에서의 비트스트림의 계층들의 수와 같은 것으로 결정할 수 있으며, 여기서, "NumLayers"는 현재 프레임에서의 비트스트림의 계층들의 수를 표현하는 구문 엘리먼트를 표현할 수 있고, "NumLayersPrevFrame"은 이전 프레임에서의 비트스트림의 계층들의 수를 표현하는 구문 엘리먼트를 표현할 수 있다.
[0194] 상기 HOADecoderConfig_FrameByFrame 구문 표에 따라, 표시가, 이전 프레임에서의 비트스트림의 계층들의 수와 비교할 때 현재 프레임에서 비트스트림의 계층들의 수가 변경되지 않았음을 표시할 때, 스케일러블 추출 유닛(1012)은 현재 프레임에 대한 하나 또는 그 초과의 계층들에서의 전경 컴포넌트들의 현재 수의 현재 전경 표시가 이전 프레임의 하나 또는 그 초과의 계층들에서의 전경 컴포넌트들의 이전 수에 대한 이전 전경 표시와 같은 것으로 결정할 수 있다. 다시 말해, HOABaseLayerConfigurationFlag가 제로와 같을 때, 스케일러블 추출 유닛(1012)은, 현재 프레임의 하나 또는 그 초과의 계층들에서의 전경 컴포넌트의 현재 수의 현재 전경 표시를 나타내는 NumFGchannels[i] 구문 엘리먼트가, 이전 프레임의 하나 또는 그 초과의 계층들에서의 전경 컴포넌트들의 이전 수의 이전 전경 표시를 나타내는 NumFGchannels_PrevFrame[i] 구문 엘리먼트와 같은 것으로 결정할 수 있다. 스케일러블 추출 유닛(1012)은 현재 전경 표시에 기반하여 현재 프레임에서의 하나 또는 그 초과의 계층들로부터 전경 컴포넌트들을 추가로 획득할 수 있다.
[0195] 표시가, 이전 프레임에서의 비트스트림의 계층들의 수와 비교할 때 현재 프레임에서 비트스트림의 계층들의 수가 변경되지 않았음을 표시할 때, 스케일러블 추출 유닛(1012)은 또한, 현재 프레임에 대한 하나 또는 그 초과의 계층들에서의 배경 컴포넌트들의 현재 수의 현재 배경 표시가 이전 프레임의 하나 또는 그 초과의 계층들에서의 배경 컴포넌트들의 이전 수에 대한 이전 배경 표시와 같은 것으로 결정할 수 있다. 다시 말해, HOABaseLayerConfigurationFlag가 제로와 같을 때, 스케일러블 추출 유닛(1012)은 현재 프레임의 하나 또는 그 초과의 계층들에서의 배경 컴포넌트의 현재 수의 현재 배경 표시를 나타내는 NumBGchannels[i] 구문 엘리먼트가 이전 프레임의 하나 또는 그 초과의 계층들에서의 배경 컴포넌트들의 이전 수의 이전 배경 표시를 나타내는 NumBGchannels_PrevFrame[i] 구문 엘리먼트와 같은 것으로 결정할 수 있다. 스케일러블 추출 유닛(1012)은 현재 배경 표시에 기반하여 현재 프레임에서의 하나 또는 그 초과의 계층들로부터 배경 컴포넌트들을 추가로 획득할 수 있다.
[0196] 계층들, 전경 컴포넌트들 및 배경 컴포넌트들의 수의 다양한 표시들의 시그널링을 잠재적으로 감소시킬 수 있는 전술한 기법들을 가능하게 하기 위해, 스케일러블 추출 유닛(1012)은 NumFGchannels_PrevFrame[i] 구문 엘리먼트 및 NumBGchannel_PrevFrame[i] 구문 엘리먼트를 현재 프레임에 대한 표시들(예컨대, NumFGchannels[i] 구문 엘리먼트 및 NumBGchannels[i])로 설정하여, 모든 i개의 계층들을 통해 반복할 수 있다. 이는 다음의 구문에 의해 표현된다:
Figure 112017034321836-pct00155
[0197] 표시가, 이전 프레임에서의 비트스트림의 계층들의 수와 비교할 때 현재 프레임에서의 비트스트림의 계층들의 수가 변경되었다고 표시할 때(예컨대, HOABaseLayerConfigurationFlag가 1과 같을 때), 스케일러블 추출 유닛(1012)은 numHOATransportChannels의 함수로써 NumLayerBits 구문 엘리먼트를 획득하며, 이는 본 개시내용에서 설명되지 않는 다른 구문 표들에 따라 획득된 구문 표에 전달된다.
[0198] 스케일러블 추출 유닛(1012)은 비트스트림에서 특정되는 계층들의 수의 표시(예컨대, NumLayers 구문 엘리먼트)를 획득할 수 있으며, 이러한 표시는 NumLayerBits 구문 엘리먼트에 의해 표시되는 비트들의 수를 가질 수 있다. NumLayers 구문 엘리먼트는 비트스트림에서 특정되는 계층들의 수를 특정할 수 있고, 계층들의 수는 상기의 L로서 나타낼 수 있다. 다음으로, 스케일러블 추출 유닛(1012)은 numHOATransportChannels의 함수로써 numAvailableTransportChannels을 결정하고 그리고 numAvailableTransportChannels의 함수로써 numAvailable TransportChannelBits을 결정할 수 있다.
[0199] 스케일러블 추출 유닛(1012)은 이후, 1 부터 NumLayers-1 까지 NumLayers을 통해 반복하여, i-번째 계층에 대해 특정되는 배경 HOA 채널들(Bi)의 수 및 전경 HOA 채널들(Fi)의 수를 결정할 수 있다. 스케일러블 추출 유닛(1012)은 마지막 계층의 수(NumLayer)를 통해 반복하지 않고 단지 NumLayer-1을 통해서만 반복할 수 있는데, 왜냐하면 마지막 계층(BL)은, 비트스트림에서 전송되는 전경 및 배경 HOA 채널들의 총수가 스케일러블 추출 유닛(1012)에 의해 알려지게 될 때(예컨대, 전경 및 배경 HOA 채널들의 총 수가 구문 엘리먼트들로서 시그널링될 때) 결정될 수 있기 때문이다.
[0200] 이와 관련하여, 스케일러블 추출 유닛(1012)은 계층들의 수의 표시에 기반하여 비트스트림의 계층들을 획득할 수 있다. 스케일러블 추출 유닛(1012)은, 상기 설명한 바와 같이, 비트스트림(21)에서 특정되는 채널들의 수의 표시(예컨대, numHOATransportChannels)를 획득하고, 계층들의 수의 표시 및 채널들의 수의 표시에 기반하여 계층들을 획득, 적어도 부분적으로는 비트스트림(21)의 계층들을 획득할 수 있다.
[0201] 각각의 계층을 통해 반복할 때, 스케일러블 추출 유닛(1012)은 먼저, NumFGchannels[i] 구문 엘리먼트를 획득함으로써 i-번째 계층에 대한 전경 채널들의 수를 결정할 수 있다. 스케일러블 추출 유닛(1012)은 이후, numAvailableTransportChannels로부터 NumFGchannels[i]를 뺌으로써, NumAvailableTransportChannels를 업데이트하고, ("인코딩된 nFG 신호들(61)"로서 또한 지칭될 수 있는) 전경 HOA 채널들(61)의 NumFGchannels[i]이 비트스트림으로부터 추출되었음을 반영할 수 있다. 이러한 방식으로, 스케일러블 추출 유닛(1012)은 계층들 중 적어도 하나에 대한 비트스트림(21)에서 특정되는 전경 채널들의 수의 표시(예컨대, NumFGchannels)를 획득하고, 전경 채널들의 수의 표시에 기반하여 비트스트림의 계층들 중 적어도 하나에 대한 전경 채널들을 획득할 수 있다.
[0202] 마찬가지로, 스케일러블 추출 유닛(1012)은 NumBGchannels[i] 구문 엘리먼트를 획득함으로써 i-번째 계층에 대한 배경 채널들의 수를 결정할 수 있다. 스케일러블 추출 유닛(1012)은 이후, numAvailableTransportChannels로부터 NumBGchannels[i]를 뺌으로써, ("인코딩된 주변 HOA 계수들(59)"로서 또한 지칭될 수 있는) 배경 HOA 채널들(59)의 NumBGchannels[i]가 비트스트림으로부터 추출되었음을 반영할 수 있다. 이러한 방식으로, 스케일러블 추출 유닛(1012)은 계층들 중 적어도 하나에 대한 비트스트림(21)에서 특정되는 배경 채널들의 수의 표시(예컨대, NumBGChannels)를 획득하고, 배경 채널들의 수의 표시에 기반하여 비트스트림의 계층들 중 적어도 하나에 대한 배경 채널들을 획득할 수 있다.
[0203] 스케일러블 추출 유닛(1012)은 numAvailableTransports의 함수로써 numAvailableTransportChannelsBits를 획득함으로써 계속될 수 있다. 상기 구문 표에 따라, 스케일러블 추출 유닛(1012)은 numAvailableTransportChannelsBits에 의해 특정되는 비트들의 수를 파싱하여, NumFGchannels[i] 및 NumBGchannels [i]를 결정할 수 있다. numAvailableTransportChannelBits가 변경된다고 가정하면(예컨대, 각각의 반복 이후 더 작아지게 되면), NumFGchannels[i] 구문 엘리먼트 및 NumBGchannels [i] 구문 엘리먼트를 표현하는 데에 사용되는 비트들의 수가 감소되고, 그에 의해, NumFGchannels[i] 구문 엘리먼트 및 NumBGchannels [i] 구문 엘리먼트를 시그널링함에 있어서의 오버헤드를 잠재적으로 감소시키는 가변 길이 코딩의 형태를 제공한다.
[0204] 상기 주목한 바와 같이, 스케일러블 비트스트림 생성 유닛(1000)은 NumFGchannels 및 NumBGchannels 구문 엘리먼트들 대신 NumChannels 구문 엘리먼트를 특정할 수 있다. 이러한 인스턴스에 있어서, 스케일러블 추출 유닛(1012)은 상기 도시된 제 2 HOADecoderConfig 구문 표에 따라 동작하도록 구성될 수 있다.
[0205] 이와 관련하여, 표시가, 이전 프레임에서의 비트스트림의 계층들의 수와 비교할 때 현재 프레임에서 비트스트림의 계층들의 수가 변경되었음을 표시할 때, 스케일러블 추출 유닛(1012)은 이전 프레임의 하나 또는 그 초과의 계층들에서의 컴포넌트들의 수에 기반하여, 현재 프레임에 대한 하나 또는 그 초과의 계층들에서의 컴포넌트들의 수의 표시를 획득할 수 있다. 스케일러블 추출 유닛(1012)은 컴포넌트들의 수의 표시에 기반하여 현재 프레임에 대한 하나 또는 그 초과의 계층들에서의 배경 컴포넌트들의 수의 표시를 추가로 획득할 수 있다. 스케일러블 추출 유닛(1012)은 또한, 컴포넌트들의 수의 표시에 기반하여 현재 프레임에 대한 하나 또는 그 초과의 계층들에서의 전경 컴포넌트들의 수의 표시를 획득할 수 있다.
[0206] 계층들의 수가 프레임마다 변경될 수 있다(전경 및 배경 채널들의 수의 표시가 프레임마다 변경될 수 있다)고 가정하면, 계층들의 수가 변경되었다는 표시는 또한, 채널들의 수가 변경되었음을 효과적으로 표시할 수 있다. 결과적으로, 계층들의 수가 변경되었다는 표시는, 스케일러블 추출 유닛(1012)이, 이전 프레임의 비트스트림에서의 하나 또는 그 초과의 계층들에서 특정되는 채널들의 수와 비교할 때 현재 프레임에서 비트스트림(21)에서의 하나 또는 그 초과의 계층들에서 특정되는 채널들의 수가 변경되었는지의 여부의 표시를 획득하도록 초래할 수 있다. 따라서, 스케일러블 추출 유닛(1012)은, 현재 프레임에서 비트스트림에서의 하나 또는 그 초과의 계층들에서 특정되는 채널들의 수가 변경되었는지의 여부의 표시에 기반하여 채널들 중 하나를 획득할 수 있다.
[0207] 게다가, 표시가, 이전 프레임에서의 비트스트림의 하나 또는 그 초과의 계층들에서 특정되는 채널들의 수와 비교할 때 현재 프레임에서 비트스트림(21)의 하나 또는 그 초과의 계층들에서 특정되는 채널들의 수가 변경되지 않았음을 표시할 때, 스케일러블 추출 유닛(1012)은 현재 프레임에서의 비트스트림(21)의 하나 또는 그 초과의 계층들에서 특정되는 채널들의 수가 이전 프레임에서의 비트스트림(21)의 하나 또는 그 초과의 계층들에서 특정되는 채널들의 수와 같은 것으로 결정할 수 있다.
[0208] 또한, 표시가, 이전 프레임에서의 비트스트림의 하나 또는 그 초과의 계층들에서 특정되는 채널들의 수와 비교할 때 현재 프레임에서 비트스트림(21)의 하나 또는 그 초과의 계층들에서 특정되는 채널들의 수가 변경되지 않았음을 표시할 때, 스케일러블 추출 유닛(1012)은, 현재 프레임에 대한 하나 또는 그 초과의 계층들에서의 채널들의 현재 수가 이전 프레임의 하나 또는 그 초과의 계층들에서의 채널들의 이전 수와 동일하다는 표시를 획득할 수 있다.
[0209] 계층들 및 컴포넌트들(또한 본 개시내용에서 "채널들"로 지칭될 수 있음)의 수의 다양한 표시들의 시그널링을 잠재적으로 감소시킬 수 있는 전술한 기법들을 인에이블링하기 위해, 스케일러블 추출 유닛(1012)은 모든 i개의 계층들을 통해 반복하여 NumChannels_PrevFrame[i] 구문 엘리먼트를 현재의 프레임에 대한 표시들(예컨대, NumChannels[i] 구문 엘리먼트)로 세팅할 수 있다. 이것은 다음 구문에서 표현될 수 있다:
Figure 112017034321836-pct00156
[0210] 대안적으로, 전술한 구문(NumLayersPrevFrame=NumLayers 등)은 생략될 수 있고, 위에 리스트된 구문 표 HOADecoderConfig(numHOATransportChannels)는 하기 표에 기술된 바와 같이 업데이트될 수 있다:
Figure 112017034321836-pct00157
[0211] 또 다른 대안으로서, 추출 유닛(72)은 위에 리스트된 제 3 HOADecoder Config에 따라 동작할 수 있다. 위에 리스트된 제 3 HOADecoderConfig 구문 표에 따르면, 스케일러블 추출 유닛(1012)은 스케일러블 비트스트림(21)으로부터, 비트스트림의 하나 또는 그 초과의 계층들에서 특정된 채널들의 수의 표시를 획득하고, 채널들의 수의 표시에 기반하여 비트스트림에서 하나 또는 그 초과의 계층들에서 특정된 채널들(사운드필드의 배경 컴포넌트 또는 전경 컴포넌트로 지칭될 수 있음)을 획득하도록 구성될 수 있다. 이러한 인스턴스들 및 다른 인스턴스들에서, 스케일러블 추출 유닛(1012)은 채널들의 수를 표시하는 구문 엘리먼트(예컨대, 위에서 참조된 표의 codedLayerCh)를 획득하도록 구성될 수 있다.
[0212] 이러한 인스턴스들 및 다른 인스턴스들에서, 스케일러블 추출 유닛(1012)은 비트스트림에서 특정된 채널들의 총 수의 표시를 획득하도록 구성될 수 있다. 스케일러블 추출 유닛(1012)은 또한 하나 또는 그 초과의 계층들에서 특정된 채널들의 수의 표시 및 채널들의 총 수의 표시에 기반하여 하나 또는 그 초과의 계층들에서 특정된 채널들을 획득하도록 구성될 수 있다. 이러한 인스턴스들 및 다른 인스턴스들에서, 스케일러블 추출 유닛(1012)은 채널들의 총 수를 표시하는 구문 엘리먼트(예컨대, 위에서 주목된 NumHOATransportChannels 구문 엘리먼트)를 획득하도록 구성될 수 있다.
[0213] 이러한 인스턴스들 및 다른 인스턴스들에서, 스케일러블 추출 유닛(1012)은 비트스트림의 하나 또는 그 초과의 계층들에서 특정된 채널들 중 하나의 타입의 표시를 획득하도록 구성될 수 있다. 스케일러블 추출 유닛(1012)은 또한 계층들의 수의 표시 및 채널들 중 하나의 타입의 표시에 기반하여 채널들 중 하나를 획득하도록 구성될 수 있다.
[0214] 이러한 인스턴스들 및 다른 인스턴스들에서, 스케일러블 추출 유닛(1012)은 비트스트림의 하나 또는 그 초과의 계층들에서 특정된 채널들 중 하나의 타입의 표시를 획득하도록 구성될 수 있고, 채널들 중 하나의 타입의 표시는 그 채널들 중 하나가 전경 채널임을 표시한다. 스케일러블 추출 유닛(1012)은 계층들의 수의 표시 및 채널들 중 하나의 타입이 전경 채널이라는 표시에 기반하여 채널들 중 하나를 획득하도록 구성될 수 있다. 이러한 인스턴스들에서, 채널들 중 하나는 US 오디오 오브젝트 및 대응하는 V-벡터를 포함한다.
[0215] 이러한 인스턴스들 및 다른 인스턴스들에서, 스케일러블 추출 유닛(1012)은 비트스트림의 하나 또는 그 초과의 계층들에서 특정된 채널들 중 하나의 타입의 표시를 획득하도록 구성될 수 있고, 채널들 중 하나의 타입의 표시는 그 채널들 중 하나가 배경 채널임을 표시한다. 이러한 인스턴스들에서, 스케일러블 추출 유닛(1012)은 또한 계층들의 수의 표시 및 채널들 중 하나의 타입이 배경 채널이라는 표시에 기반하여 채널들 중 하나를 획득하도록 구성될 수 있다. 이러한 인스턴스들에서, 채널들 중 하나는 배경 고차 앰비소닉 계수를 포함한다.
[0216] 이러한 인스턴스들 및 다른 인스턴스들에서, 스케일러블 추출 유닛(1012)은 채널들 중 하나의 타입을 표시하는 구문 엘리먼트(예컨대, 도 30에 대해 위에서 설명된 ChannelType 구문 엘리먼트)를 획득하도록 구성될 수 있다.
[0217] 이러한 인스턴스들 및 다른 인스턴스들에서, 스케일러블 추출 유닛(1012)은 계층들 중 하나가 획득된 후 비트스트림의 나머지 다수의 채널들에 기반하여 채널들의 수의 표시를 획득하도록 구성될 수 있다. 즉, HOALayerChBits 구문 엘리먼트의 값은 와일 루프(while loop)의 과정 전반에 걸쳐 위의 구문 표에서 기술된 바와 같은 remainingCh 구문 엘리먼트의 함수로서 변한다. 그 다음, 스케일러블 추출 유닛(1012)은 변하는 HOALayerChBits 구문 엘리먼트에 기반하여 codedLayerCh 구문 엘리먼트를 파싱할 수 있다.
[0218] 4개의 배경 채널들 및 2개의 전경 채널들의 예를 다시 참조하면, 스케일러블 추출 유닛(1012)은 계층들의 수가 2라는, 즉, 도 6의 예에서 베이스 계층(21A) 및 인핸스먼트 계층(21B)이라는 표시를 수신할 수 있다. 스케일러블 추출 유닛(1012)은 (예컨대, NumFGchannels[0]로부터) 전경 채널들의 수가 베이스 계층(21A)에 대해 제로이고 (예컨대, NumFGchannels[1]로부터) 인핸스먼트 계층(21B)에 대해 2라는 표시를 획득할 수 있다. 이 예에서, 스케일러블 추출 유닛(1012)은 또한 (예컨대, NumBGchannels[0]로부터) 배경 채널들의 수가 베이스 계층(21A)에 대해 4이고 (예컨대, NumBGchannels[1]로부터) 인핸스먼트 계층(21B)에 대해 제로라는 표시를 획득할 수 있다. 특정 예에 대해 설명되었지만, 배경 및 전경 채널들의 임의의 상이한 조합이 표시될 수 있다. 그 다음, 스케일러블 추출 유닛(1012)은 베이스 계층(21A)으로부터 특정된 4개의 배경 채널들(59A-59D) 및 인핸스먼트 계층(21B)으로부터 2개의 전경 채널들(61A 및 61B)을 (측파대 정보로부터의 대응하는 V-벡터 정보(57A 및 57B)와 함께) 추출할 수 있다.
[0219] NumFGchannels 및 NumBGchannels 구문 엘리먼트들에 대해 위에서 설명되었지만, 이 기법들은 또한 위의 ChannelSideInfo 구문 표로부터 ChannelType 구문 엘리먼트를 사용하여 수행될 수 있다. 이와 관련하여, NumFGchannels 및 NumBG 채널들은 또한 채널들 중 하나의 타입의 표시를 표현할 수 있다. 즉, NumBGchannels는 채널들 중 하나의 타입이 배경 채널이라는 표시를 표현할 수 있다. NumFG 채널들은 채널들 중 하나의 타입이 전경 채널이라는 표시를 표현할 수 있다.
[0220] 따라서, ChannelType 구문 엘리먼트가 사용되든지 또는 NumBGchannels 구문 엘리먼트를 갖는 NumFGchannels 구문 엘리먼트가 사용되든지 간에(또는 잠재적으로 둘 모두 또는 어느 하나의 일부 서브세트가 사용되든지 간에), 스케일러블 비트스트림 추출 유닛(1012)은 비트스트림의 하나 또는 그 초과의 계층들에서 특정된 채널들 중 하나의 타입의 표시를 획득할 수 있다. 타입의 표시가 채널들 중 하나가 배경 채널이라고 표시하는 경우, 스케일러블 비트스트림 추출 유닛(1012)은 계층들의 수의 표시 및 채널들 중 하나의 타입이 배경 채널이라는 표시에 기반하여 채널들 중 하나를 획득할 수 있다. 타입의 표시가 채널들 중 하나가 전경 채널이라고 표시하는 경우, 스케일러블 비트스트림 추출 유닛(1012)은 계층들의 수의 표시 및 채널들 중 하나의 타입이 전경 채널이라는 표시에 기반하여 채널들 중 하나를 획득할 수 있다.
[0221] V-벡터 재구성 유닛(74)은 인코딩된 전경 V[k] 벡터들(57)로부터 V-벡터들을 재구성하도록 구성된 유닛을 표현할 수 있다. V-벡터 재구성 유닛(74)은 양자화 유닛(52)의 것과 레시프로컬(reciprocal) 방식으로 동작할 수 있다.
[0222] 심리음향 디코딩 유닛(80)은, 인코딩된 주변 HOA 계수들(59) 및 인코딩된 nFG 신호들(61)을 디코딩하여 조절된 주변 HOA 오디오 신호들(67') 및 조절된 보간된 nFG 신호들(49'')(이는 또한 조절된 보간된 nFG 오브젝트 객체들(49')로 지칭됨)을 생성하기 위해, 도 3의 예에 도시된 심리음향 오디오 코더 유닛(40)에 레시프로컬 방식으로 동작할 수 있다. 심리음향 디코딩 유닛(80)은 조절된 주변 HOA 오디오 신호들(67') 및 조절된 보간된 nFG 신호들(49'')을 역이득 제어 유닛(86)에 전달할 수 있다.
[0223] 역이득 제어 유닛(86)은 조절된 주변 HOA 오디오 신호들(67') 및 조절된 보간된 nFG 신호들(49'') 각각에 대해 역이득 제어를 수행하도록 구성된 유닛을 표현할 수 있고, 여기서 이러한 역이득 제어는 이득 제어 유닛(62)에 의해 수행되는 이득 제어에 레시프로컬이다. 역이득 제어 유닛(86)은 도 11 내지 도 13b의 예들에 대해 위에서 논의된 측파대 정보에서 특정된 대응하는 HOAGCD에 따라 역이득 제어를 수행할 수 있다. 역이득 제어 유닛(86)은 상관해제 주변 HOA 오디오 신호들(67)을 재상관 유닛(88)(도 4의 예에서 "재상관 유닛(88)"으로 도시됨)에 및 보간된 nFG 오디오 신호들(49'')을 전경 포뮬레이션 유닛(78)에 출력할 수 있다.
[0224] 재상관 유닛(88)은 잡음 언마스킹을 감소 또는 완화시키기 위해, 상관해제된 주변 HOA 오디오 신호들(67)의 배경 채널들간의 상관을 감소시키기 위한 본 개시내용의 기법들을 구현할 수 있다. 재상관 유닛(88)이 선택된 재상관 변환으로서 UHJ 행렬(예컨대, 역 UHJ 행렬)을 적용하는 예들에서, 재상관 유닛(81)은 데이터 프로세싱 동작들을 감소시킴으로써 압축 레이트들을 개선시키고 컴퓨팅 자원들을 보존할 수 있다.
[0225] 일부 예들에서, 스케일러블 비트스트림(21)은 인코딩 동안 상관해제 변환이 적용되었음을 표시하는 하나 또는 그 초과의 구문 엘리먼트들을 포함할 수 있다. 벡터-기반 비트스트림(21)에 이러한 구문 엘리먼트들을 포함시키는 것은 상관해제된 주변 HOA 오디오 신호들(67)에 대한 레시프로컬 상관해제(예컨대, 상관 또는 재상관) 변환들을 수행하도록 재상관 유닛(88)을 인에이블링할 수 있다. 일부 예들에서, 신호 구문 엘리먼트들은 어느 상관해제 변환이 적용되었는지, 이를테면, UH 행렬 또는 모드 행렬을 표시하여, 상관해제된 HOA 오디오 신호들(67)에 적용할 적절한 재상관 변환을 선택하도록 재상관 유닛(88)을 인에이블링할 수 있다.
[0226] 재상관 유닛(88)은 에너지 보상된 주변 HOA 계수들(47')을 획득하기 위해 상관해제된 주변 HOA 오디오 신호들(67)에 대해 재상관을 수행할 수 있다. 재상관 유닛(88)은 에너지 보상된 주변 HOA 계수들(47')을 페이드 유닛(fade unit)(770)에 출력할 수 있다. 상관해제를 수행하는 것으로 설명되었지만, 일부 예들에서, 어떠한 상관해제도 수행되지 않았을 수 있다. 따라서, 벡터-기반 재구성 유닛(92)은 재상관 유닛(88)을 수행하지 않을 수 있거나 또는 일부 예들에서는 포함하지 않을 수 있다. 재상관 유닛(88)의 부재는 일부 예들에서 재상관 유닛(88)의 파선으로 표시된다.
[0227] 시간적-공간적 보간 유닛(76)은 공간적-시간적 보간 유닛(50)에 대해 위에서 설명된 것과 유사한 방식으로 동작할 수 있다. 공간적-시간적 보간 유닛(76)은 감소된 전경 V[k] 벡터들(
Figure 112017034321836-pct00158
)를 수신할 수 있고, 보간된 전경 V[k] 벡터들(
Figure 112017034321836-pct00159
)을 생성하기 위해, 전경 V[k] 벡터들(
Figure 112017034321836-pct00160
) 및 감소된 전경 V[k-1] 벡터들(
Figure 112017034321836-pct00161
)에 대해 공간적-시간적 보간을 수행할 수 있다. 공간적-시간적 보간 유닛(76)은 보간된 전경 V[k] 벡터들(
Figure 112017034321836-pct00162
)을 페이드 유닛(770)에 포워딩할 수 있다.
[0228] 추출 유닛(72)은 또한 주변 HOA 계수들 중 하나가 페이드 유닛(770)으로 트랜지션되는 경우를 표시하는 신호(757)를 출력할 수 있고, 그 다음, 페이드 유닛(770)은
Figure 112017034321836-pct00163
(47')(여기서
Figure 112017034321836-pct00164
(47')는 또한 "주변 HOA 채널들(47')" 또는 "주변 HOA 계수들(47')"로 표시될 수 있음) 및 보간된 전경 V[k] 벡터들(
Figure 112017034321836-pct00165
) 중 어느 것이 페이드-인(fade-in) 또는 페이드-아웃(fade-out)될지를 결정할 수 있다. 일부 실시예들에서, 페이드 유닛(770)은 주변 HOA 계수들(47') 및 보간된 전경 V[k] 벡터들(
Figure 112017034321836-pct00166
)의 엘리먼트들 각각에 대해 대향하여 동작할 수 있다. 즉, 페이드 유닛(770)은 주변 HOA 계수들(47') 중 대응하는 계수에 대해 페이드-인 또는 페이드-아웃, 또는 페이드-인 또는 페이드-아웃 둘 모두를 수행하는 한편, 보간된 전경 V[k] 벡터들(
Figure 112017034321836-pct00167
)의 엘리먼트들 중 대응하는 엘리먼트에 대해 페이드-인 또는 페이드-아웃, 또는 페이드-인 및 페이드-아웃 둘 모두를 수행할 수 있다. 페이드 유닛(770)은 조절된 주변 HOA 계수들(47'')을 HOA 계수 포뮬레이션 유닛(82)에 그리고 조절된 전경 V[k] 벡터들(
Figure 112017034321836-pct00168
)을 전경 포뮬레이션 유닛(78)에 출력할 수 있다. 이와 관련하여, 페이드 유닛(770)은 HOA 계수들 또는 이들의 파생물들의 다양한 양상들에 대한 페이드 동작을, 예컨대, 주변 HOA 계수들(47') 및 보간된 전경 V[k] 벡터들(
Figure 112017034321836-pct00169
)의 엘리먼트들의 형태로 페이드 동작을 수행하도록 구성된 유닛을 표현한다.
[0229] 전경 포뮬레이션 유닛(78)은 전경 HOA 계수들(65)을 생성하기 위해 조절된 전경 V[k] 벡터들(
Figure 112017034321836-pct00170
) 및 보간된 nFG 신호들(49')에 대해 행렬 곱셈을 수행하도록 구성된 유닛을 표현할 수 있다. 이와 관련하여, 전경 포뮬레이션 유닛(78)은 전경, 또는 달리 말해서 HOA 계수들(11')의 우세한 양상들을 재구성하기 위해 오디오 오브젝트들(49')을 벡터들(
Figure 112017034321836-pct00171
)과 결합할 수 있다(이는 보간된 nFG 신호들(49')을 표시하기 위한 다른 방식이다). 전경 포뮬레이션 유닛(78)은 조절된 전경 V[k] 벡터들(
Figure 112017034321836-pct00172
)와 보간된 nFG 신호들(49')의 행렬 곱셈을 수행할 수 있다.
[0230] HOA 계수 포뮬레이션 유닛(82)은 HOA 계수들(11')을 획득하기 위해 전경 HOA 계수들(65)을 조절된 주변 HOA 계수들(47'')에 결합하도록 구성된 유닛을 표현할 수 있다. 프라임 표기는 HOA 계수들(11')이 HOA 계수들(11)과 유사하지만 동일하지는 않을 수 있음을 반영한다. HOA 계수들(11 및 11')간의 차이들은 손실있는 송신 매체, 양자화 또는 다른 손실있는(lossy) 동작들을 통한 송신으로 인한 손실로부터 초래될 수 있다.
[0231] 도 14a 및 도 14b는 본 개시내용에서 설명된 기법들의 다양한 양상들을 수행할 때 오디오 인코딩 디바이스(20)의 예시적인 동작들을 예시하는 흐름도들이다. 먼저 도 14a의 예를 참조하면, 오디오 인코딩 디바이스(20)는 위에서 설명된 방식(예컨대, 선형 분해, 보간 등)으로 HOA 계수들(11)의 현재의 프레임에 대한 채널들을 획득할 수 있다(500). 채널들은 인코딩된 주변 HOA 계수들(59), 인코딩된 nFG 신호들(61)(및 코딩된 전경 V-벡터들(57)의 형태로 대응하는 측파대), 또는 인코딩된 주변 HOA 계수들(59) 및 인코딩된 nFG 신호들(61)(및 코딩된 전경 V-벡터들(57)의 형태로 대응하는 측파대) 둘 모두를 포함할 수 있다.
[0232] 그 다음, 오디오 인코딩 디바이스(20)의 비트스트림 생성 유닛(42)은 위에서 설명된 방식으로 스케일러블 비트스트림(21)의 계층들의 수의 표시를 특정할 수 있다(502). 비트스트림 생성 유닛(42)은 스케일러블 비트스트림(21)의 현재의 계층에서 채널들의 서브세트를 특정할 수 있다(504). 비트스트림 생성 유닛(42)은 현재의 계층에 대한 카운터를 유지할 수 있고, 여기서 카운터는 현재의 계층의 표시를 제공한다. 현재의 계층의 채널들을 특정한 후, 비트스트림 생성 유닛(42)은 카운터를 증가시킬 수 있다.
[0233] 그 다음, 비트스트림 생성 유닛(42)은 현재의 계층(예컨대, 카운터)이 비트스트림에서 특정된 계층들의 수보다 큰지 여부를 결정할 수 있다(506). 현재의 계층이 계층들의 수보다 크지 않은 경우("아니오"(506)), 비트스트림 생성 유닛(42)은 현재의 계층에서 채널들의 상이한 (카운터가 증가된 경우 변경된) 서브세트를 특정할 수 있다(504). 비트스트림 생성 유닛(42)은 현재의 계층이 계층들의 수보다 클 때까지("예"(506)) 이러한 방식으로 계속할 수 있다. 현재의 계층이 계층들의 수보다 큰 경우("예"(506)), 비트스트림 생성 유닛은, 현재의 프레임이 이전 프레임이 되는 다음 프레임으로 진행할 수 있고, 이제 스케일러블 비트스트림(21)의 현재의 프레임에 대한 채널들을 획득할 수 있다(500). 프로세스는 HOA 계수들(11)의 마지막 프레임에 도달할 때까지 계속될 수 있다(500-506). 위에서 주목된 바와 같이, 일부 예들에서, 계층들의 수의 표시는 명시적으로 표시되지 않을 수 있지만 스케일러블 비트스트림(21)에서 묵시적으로 (예컨대, 계층들의 수가 이전 프레임으로부터 현재의 프레임으로 변경되지 않은 경우) 특정될 수 있다.
[0234] 다음으로 도 14b의 예를 참조하면, 오디오 인코딩 디바이스(20)는 위에서 설명된 방식(예컨대, 선형 분해, 보간 등)으로 HOA 계수들(11)의 현재의 프레임에 대한 채널들을 획득할 수 있다(510). 채널들은 인코딩된 주변 HOA 계수들(59), 인코딩된 nFG 신호들(61)(및 코딩된 전경 V-벡터들(57)의 형태로 대응하는 측파대), 또는 인코딩된 주변 HOA 계수들(59) 및 인코딩된 nFG 신호들(61)(및 코딩된 전경 V-벡터들(57)의 형태로 대응하는 측파대) 둘 모두를 포함할 수 있다.
[0235] 그 후에, 오디오 인코딩 디바이스(20)의 비트스트림 생성 유닛(42)은 위에서 설명된 방식으로 스케일러블 비트스트림(21)의 계층에 채널들의 수의 표시를 특정할 수 있다(512). 비트스트림 생성 유닛(42)은 스케일러블 비트스트림(21)의 현재 계층에 대응하는 채널들을 특정할 수 있다(514).
[0236] 그 후에, 비트스트림 생성 유닛(42)은 현재 계층(예컨대, 카운터)이 계층들의 수보다 큰지 여부를 결정할 수 있다(516). 즉, 도 14b의 예에서, 계층들의 수는 (스케일러블 비트스트림(21)에 특정되는 것이 아니라) 정적일 수 있거나 또는 고정될 수 있는 한편, 채널들의 수가 정적일 수 있거나 또는 고정될 수 있고 시그널링되지 않을 수 있는 도 14a의 예와 다르게, 계층 당 채널들의 수가 특정될 수 있다. 비트스트림 생성 유닛(42)은 현재 계층을 표시하는 카운터를 여전히 유지할 수 있다.
[0237] (카운터에 의해 표시되는 바와 같은) 현재 계층이 계층들의 수보다 크지 않은 경우에("아니오" 516), 비트스트림 생성 유닛(42)은 (카운터를 증가시키는 것으로 인해 변화된) 지금 현재 계층에 대해 스케일러블 비트스트림(21)의 다른 계층에 채널들의 수의 다른 표시를 특정할 수 있다(512). 비트스트림 생성 유닛(42)은 또한, 비트스트림(21)의 부가적인 계층에 채널들의 대응하는 수를 특정할 수 있다(514). 비트스트림 생성 유닛(42)은 현재 계층이 계층들의 수보다 클 때까지("예" 516) 이러한 방식으로 계속할 수 있다. 현재 계층이 계층들의 수보다 큰 경우에("예" 516), 비트스트림 생성 유닛은 현재 프레임이 이전 프레임이 되면서 다음 프레임으로 진행할 수 있고, 스케일러블 비트스트림(21)의 지금 현재 프레임에 대한 채널들을 획득할 수 있다(510). 프로세스는 HOA 계수들(11)의 마지막 프레임에 도달할 때까지 계속할 수 있다(510-516).
[0238] 위에서 주목된 바와 같이, 일부 예들에서, 채널들의 수의 표시는 명시적으로 표시되지 않을 수 있지만, 스케일러블 비트스트림(21)에 묵시적으로 특정될 수 있다(예컨대, 계층들의 수가 이전 프레임으로부터 현재 프레임으로 변화되지 않은 경우). 더욱이, 별개의 프로세스들로서 설명되지만, 도 14a 및 도 14b에 대해 설명된 기법들은 위에서 설명된 방식으로 조합하여 수행될 수 있다.
[0239] 도 15a 및 도 15b는 본 개시내용에서 설명되는 기법들의 다양한 양상들을 수행하는 것에서의 오디오 디코딩 디바이스(24)의 예시적인 동작들을 예시하는 흐름도들이다. 먼저 도 15a의 예를 참조하면, 오디오 디코딩 디바이스(24)는 스케일러블 비트스트림(21)으로부터 현재 프레임을 획득할 수 있다(520). 현재 프레임은 각각 하나 또는 그 초과의 채널들을 포함할 수 있는 하나 또는 그 초과의 계층들을 포함할 수 있다. 채널들은 인코딩된 주변 HOA 계수들(59), 인코딩된 nFG 신호들(61)(및 코딩된 전경 V-벡터들(57)의 형태의 대응하는 측파대), 또는 인코딩된 주변 HOA 계수(59) 및 인코딩된 nFG 신호들(61)(및 코딩된 전경 V-벡터들(57)의 형태의 대응하는 측파대) 둘 모두를 포함할 수 있다.
[0240] 그 후에, 오디오 디코딩 디바이스(24)의 추출 유닛(72)은 위에서 설명된 방식으로 스케일러블 비트스트림(21)의 현재 프레임 내 계층들의 수의 표시를 획득할 수 있다(522). 추출 유닛(72)은 스케일러블 비트스트림(21)의 현재 계층 내 채널들의 서브세트를 획득할 수 있다(524). 추출 유닛(72)은 현재 계층에 대한 카운터를 유지할 수 있고, 여기에서, 카운터는 현재 계층의 표시를 제공한다. 현재 계층에 채널들을 특정한 후에, 추출 유닛(72)은 카운터를 증가시킬 수 있다.
[0241] 그 후에, 추출 유닛(72)은 현재 계층(예컨대, 카운터)이 비트스트림에 특정된 계층들의 수보다 큰지 여부를 결정할 수 있다(526). 현재 계층이 계층들의 수보다 크지 않은 경우에("아니오" 526), 추출 유닛(72)은 (카운터가 증가되었던 경우에 변화된) 현재 계층 내 채널들의 상이한 서브세트를 획득할 수 있다(524). 추출 유닛(72)은 현재 계층이 계층들의 수보다 클 때까지("예" 526) 이러한 방식으로 계속할 수 있다. 현재 계층이 계층들의 수보다 큰 경우에("예" 526), 추출 유닛(72)은 현재 프레임이 이전 프레임이 되면서 다음 프레임으로 진행할 수 있고, 스케일러블 비트스트림(21)의 지금 현재 프레임을 획득할 수 있다(520). 프로세스는 스케일러블 비트스트림(21)의 마지막 프레임에 도달할 때까지 계속할 수 있다(520-526). 위에서 주목된 바와 같이, 일부 예들에서, 계층들의 수의 표시는 명시적으로 표시되지 않을 수 있지만, 스케일러블 비트스트림(21)에 묵시적으로 특정될 수 있다(예컨대, 계층들의 수가 이전 프레임으로부터 현재 프레임으로 변화되지 않은 경우).
[0242] 다음으로 도 15b의 예를 참조하면, 오디오 디코딩 디바이스(24)는 스케일러블 비트스트림(21)으로부터 현재 프레임을 획득할 수 있다(530). 현재 프레임은 각각 하나 또는 그 초과의 채널들을 포함할 수 있는 하나 또는 그 초과의 계층들을 포함할 수 있다. 채널들은 인코딩된 주변 HOA 계수들(59), 인코딩된 nFG 신호들(61)(및 코딩된 전경 V-벡터들(57)의 형태의 대응하는 측파대), 또는 인코딩된 주변 HOA 계수(59) 및 인코딩된 nFG 신호들(61)(및 코딩된 전경 V-벡터들(57)의 형태의 대응하는 측파대) 둘 모두를 포함할 수 있다.
[0243] 그 후에, 오디오 디코딩 디바이스(24)의 추출 유닛(72)은 위에서 설명된 방식으로 스케일러블 비트스트림(21)의 계층 내 채널들의 수의 표시를 획득할 수 있다(532). 비트스트림 생성 유닛(42)은 스케일러블 비트스트림(21)의 현재 계층으로부터 채널들의 대응하는 수를 획득할 수 있다(534).
[0244] 그 후에, 추출 유닛(72)은 현재 계층(예컨대, 카운터)이 계층들의 수보다 큰지 여부를 결정할 수 있다(536). 즉, 도 15b의 예에서, 계층들의 수는 (스케일러블 비트스트림(21)에 특정되는 것이 아니라) 정적일 수 있거나 또는 고정될 수 있는 한편, 채널들의 수가 정적일 수 있거나 또는 고정될 수 있고 시그널링되지 않을 수 있는 도 15a의 예와 다르게, 계층 당 채널들의 수가 특정될 수 있다. 추출 유닛(72)은 현재 계층을 표시하는 카운터를 여전히 유지할 수 있다.
[0245] (카운터에 의해 표시된 바와 같은) 현재 계층이 계층들의 수보다 크지 않은 경우에("아니오" 536), 추출 유닛(72)은 (카운터를 증가시키는 것으로 인해 변화된) 지금 현재 계층에 대해 스케일러블 비트스트림(21)의 다른 계층 내 채널들의 수의 다른 표시를 획득할 수 있다(532). 추출 유닛(72)은 또한, 비트스트림(21)의 부가적인 계층에 채널들의 대응하는 수를 특정할 수 있다(514). 추출 유닛(72)은 현재 계층이 계층들의 수보다 클 때까지("예" 516) 이러한 방식으로 계속할 수 있다. 현재 계층이 계층들의 수보다 큰 경우에("예" 516), 비트스트림 생성 유닛은 현재 프레임이 이전 프레임이 되면서 다음 프레임으로 진행할 수 있고, 스케일러블 비트스트림(21)의 지금 현재 프레임에 대한 채널들을 획득할 수 있다(510). 프로세스는 HOA 계수들(11)의 마지막 프레임에 도달할 때까지 계속할 수 있다(510-516).
[0246] 위에서 주목된 바와 같이, 일부 예들에서, 채널들의 수의 표시는 명시적으로 표시되지 않을 수 있지만, 스케일러블 비트스트림(21)에 묵시적으로 특정될 수 있다(예컨대, 계층들의 수가 이전 프레임으로부터 현재 프레임으로 변화되지 않은 경우). 더욱이, 별개의 프로세스들로서 설명되지만, 도 15a 및 도 15b에 대해 설명된 기법들은 위에서 설명된 방식으로 조합하여 수행될 수 있다.
[0247] 도 16은 본 개시내용에서 설명되는 기법들의 다양한 양상들에 따라 도 16의 예에서 도시된 비트스트림 생성 유닛(42)에 의해 수행되는 바와 같은 스케일러블 오디오 코딩을 예시하는 다이어그램이다. 도 16의 예에서, 도 2 및 도 3의 예들에서 도시된 오디오 인코딩 디바이스(20)와 같은 HOA 오디오 인코더가 HOA 계수들(11)(또한, "HOA 신호(11)"로 지칭될 수 있음)을 인코딩할 수 있다. HOA 신호(11)는 24개의 채널들을 포함할 수 있고, 각각의 채널은 1024개의 샘플들을 갖는다. 위에서 주목된 바와 같이, 각각의 채널은 구면 기저 함수들 중 하나에 대응하는 1024개의 HOA 계수들을 지칭할 수 있는 1024개의 샘플들을 포함한다. 오디오 인코딩 디바이스(20)는, 도 5의 예에서 도시된 비트스트림 생성 유닛(42)에 대해 위에서 설명된 바와 같이, HOA 신호(11)로부터 인코딩된 주변 HOA 계수들(59)(또한, "배경 HOA 채널들(59)"로 지칭될 수 있음)을 획득하기 위해 다양한 동작들을 수행할 수 있다.
[0248] 도 16의 예에서 추가로 도시된 바와 같이, 오디오 인코딩 디바이스(20)는 HOA 신호(11)의 제 1의 4개의 채널들로서 배경 HOA 채널들(59)을 획득한다. 배경 HOA 채널들(59)은
Figure 112017034321836-pct00173
로서 표시되고, 여기에서, 1:4는 사운드필드의 배경 컴포넌트들을 표현하기 위해 HOA 신호(11)의 제 1의 4개의 채널들이 선택되었다는 것을 반영한다. 이러한 채널 선택은 구문 엘리먼트에서 B = 4로서 시그널링될 수 있다. 그 후에, 오디오 인코딩 디바이스(20)의 스케일러블 비트스트림 생성 유닛(1000)은 베이스 계층(21A)(2개 또는 그 초과의 계층들의 제 1 계층으로 지칭될 수 있음)에 HOA 배경 채널들(59)을 특정할 수 있다.
[0249] 스케일러블 비트스트림 생성 유닛(1000)은 다음의 수학식에 따라 특정된 바와 같이 이득 정보 및 배경 채널들(59)을 포함하도록 베이스 계층(21A)을 생성할 수 있다.
Figure 112017034321836-pct00174
[0250] 도 16의 예에서 추가로 도시된 바와 같이, 오디오 인코딩 디바이스(20)는 US 오디오 오브젝트들 및 대응하는 V-벡터로서 표현될 수 있는 F 전경 HOA 채널들을 획득할 수 있다. 예시의 목적들을 위해 F = 2인 것으로 가정된다. 따라서, 오디오 인코딩 디바이스(20)는 제 1 및 제 2 US 오디오 오브젝트들(61)(또한, "인코딩된 nFG 신호들(61)"로 지칭될 수 있음) 및 제 1 및 제 2 V-벡터들(57)(또한, "코딩된 전경 V[k] 벡터들(57)"로 지칭될 수 있음)을 선택할 수 있고, 여기에서, 선택은 각각,
Figure 112017034321836-pct00175
Figure 112017034321836-pct00176
로서 도 5의 예에서 표시된다. 그 후에, 스케일러블 비트스트림 생성 유닛(1000)은 제 1 및 제 2 US 오디오 오브젝트들(61) 및 제 1 및 제 2 V-벡터들(57)을 포함하도록 스케일러블 비트스트림(21)의 제 2 계층(21B)을 생성할 수 있다.
[0251] 스케일러블 비트스트림 생성 유닛(1000)은 또한, 다음의 수학식에 따라 특정되는 바와 같이, V-벡터들(57)과 함께 이득 정보 및 전경 HOA 채널들(61)을 포함하도록 인핸스먼트 계층(21B)을 생성할 수 있다.
Figure 112017034321836-pct00177
[0252] 스케일러블 비트스트림(21')으로부터 HOA 계수들(11')을 획득하기 위해, 도 2 및 도 3의 예들에서 도시된 오디오 디코딩 디바이스(24)는 도 6의 예에서 더 상세히 도시된 추출 유닛(72)을 호출할 수 있다. 추출 유닛(72)은 도 6에 대해 위에서 설명된 방식으로 인코딩된 주변 HOA 계수들(59A-59D), 인코딩된 nFG 신호들(61A 및 61B), 및 코딩된 전경 V[k] 벡터들(57A 및 57B)을 추출할 수 있다. 그 후에, 추출 유닛(72)은 인코딩된 주변 HOA 계수들(59A-59D), 인코딩된 nFG 신호들(61A 및 61B), 및 코딩된 전경 V[k] 벡터들(57A 및 57B)을 벡터-기반 디코딩 유닛(92)으로 출력할 수 있다.
[0253] 그 후에, 벡터-기반 디코딩 유닛(92)은 다음의 수학식들에 따라 V-벡터들(57)과 US 오디오 오브젝트들(61)을 곱할 수 있다.
Figure 112017034321836-pct00178
제 1 수학식은 F에 대한 일반적 연산의 수학적 표현을 제공한다. 제 2 수학식은 F가 2와 동일한 것으로 가정되는 예에서의 수학적 표현을 제공한다. 이러한 곱셈의 결과는 전경 HOA 신호(1020)로서 표시된다. 그 후에, 벡터-기반 디코딩 유닛(92)은 상위 채널들을 선택하고(최저의 4개의 계수들이 HOA 배경 채널들(59)로서 이미 선택된 것으로 주어짐), 여기에서, 이러한 상위 채널들은
Figure 112017034321836-pct00179
로서 표시된다. 즉, 벡터-기반 디코딩 유닛(92)은 전경 HOA 신호(1020)로부터 HOA 전경 채널들(65)을 획득한다.
[0254] 결과로서, 기법들은 다수의 코딩 콘텍스트들을 수용하고, 사운드필드의 배경 및 전경 컴포넌트들을 특정하는 것에서 훨씬 더 많은 유연성을 잠재적으로 제공하기 위해 가변적인 계층화를 가능하게 할 수 있다(계층들의 정적 수를 요구하는 것과 대조적임). 기법들은 도 17 내지 도 26에 대해 설명된 바와 같이 다수의 다른 사용 경우들을 제공할 수 있다. 이러한 다양한 사용 경우들은 주어진 오디오 스트림 내에서 함께 또는 별개로 수행될 수 있다. 더욱이, 스케일러블 오디오 인코딩 기법들 내에서 이러한 컴포넌트들을 특정하는 것에서의 유연성은 다수의 더 많은 사용 경우들을 허용할 수 있다. 즉, 기법들은 아래에서 설명되는 사용 경우들로 제한되지 않아야 하지만, 배경 및 전경 컴포넌트들이 스케일러블 비트스트림의 하나 또는 그 초과의 계층들에서 시그널링될 수 있는 임의의 방식을 포함할 수 있다.
[0255] 도 17은 구문 엘리먼트들이, 베이스 계층에 특정된 4개의 인코딩된 주변 HOA 계수들을 갖는 2개의 계층들이 존재하고, 2개의 인코딩된 nFG 신호들이 인핸스먼트 계층에 특정된 것을 표시하는 예의 개념적인 다이어그램이다. 도 17의 예는, 도 5의 예에서 도시된 스케일러블 비트스트림 생성 유닛(1000)이, 인코딩된 주변 HOA 계수들(59A-59D)에 대한 측파대 HOA 이득 정정 데이터를 포함하는 베이스 계층을 형성하기 위해 프레임을 세그먼트화할 수 있는 경우의 HOA 프레임을 도시한다. 스케일러블 비트스트림 생성 유닛(1000)은 또한, 인코딩된 주변 nFG 신호들(61)에 대한 HOA 이득 정정 데이터 및 2개의 코딩된 전경 V[k] 벡터들(57)을 포함하는 인핸스먼트 계층(21)을 형성하기 위해 HOA 프레임을 세그먼트화할 수 있다.
[0256] 도 17의 예에서 추가로 도시된 바와 같이, 심리음향 오디오 인코딩 유닛(40)은, 베이스 계층 시간적 인코더들(40A)로 지칭될 수 있는 심리음향 오디오 인코더(40A) 및 인핸스먼트 계층 시간적 인코더들(40B)로 지칭될 수 있는 심리음향 오디오 인코더들(40B)의 별개의 인스턴스화들로 분할된 것으로 도시된다. 베이스 계층 시간적 인코더들(40A)은 베이스 계층의 4개의 컴포넌트들을 프로세싱하는 심리음향 오디오 인코더들의 4개의 인스턴스화들을 표현한다. 인핸스먼트 계층 시간적 인코더들(40B)은 인핸스먼트 계층의 2개의 컴포넌트들을 프로세싱하는 심리음향 오디오 인코더들의 2개의 인스턴스화들을 표현한다.
[0257] 도 18은 본 개시내용에서 설명되는 스케일러블 오디오 코딩 기법들의 잠재적인 버전들 중 제 2 버전을 수행하도록 구성되는 때 도 3의 비트스트림 생성 유닛(42)을 더 상세히 예시하는 다이어그램이다. 이러한 예에서, 비트스트림 생성 유닛(42)은 도 5의 예에 대해 위에서 설명된 비트스트림 생성 유닛(42)과 실질적으로 유사하다. 그러나, 비트스트림 생성 유닛(42)은 2개의 계층들(21A 및 21B)이 아니라 3개의 계층들(21A-21C)을 특정하기 위해 스케일러블 코딩 기법들의 제 2 버전을 수행한다. 스케일러블 비트스트림 생성 유닛(1000)은, 2개의 인코딩된 주변 HOA 계수들 및 제로 인코딩된 nFG 신호들이 베이스 계층(21A)에 특정된 것에 대한 표시들, 제로 인코딩된 주변 HOA 계수들 및 2개의 인코딩된 nFG 신호들이 제 1 인핸스먼트 계층(21B)에 특정된 것에 대한 표시들, 및 제로 인코딩된 주변 HOA 계수들 및 2개의 인코딩된 nFG 신호들(61)이 제 2 인핸스먼트 계층(21C)에 특정된 것에 대한 표시들을 특정할 수 있다. 그 후에, 스케일러블 비트스트림 생성 유닛(1000)은, 베이스 계층(21A)에 2개의 인코딩된 주변 HOA 계수들(59A 및 59B)을 특정할 수 있고, 제 1 인핸스먼트 계층(21B)에 대응하는 2개의 코딩된 전경 V[k] 벡터들(57A 및 57B)을 갖는 2개의 인코딩된 nFG 신호들(61A 및 61B)을 특정할 수 있고, 제 2 인핸스먼트 계층(21C)에 대응하는 2개의 코딩된 전경 V[k] 벡터들(57C 및 57D)을 갖는 2개의 인코딩된 nFG 신호들(61C 및 61D)을 특정할 수 있다. 그 후에, 스케일러블 비트스트림 생성 유닛(1000)은 스케일러블 비트스트림(21)으로서 이러한 계층들을 출력할 수 있다.
[0258] 도 19는, 본 개시내용에 설명된 스케일러블 오디오 디코딩 기법들의 잠재적인 버전들 중 제 2 버전을 수행하도록 구성될 때, 도 3의 추출 유닛(72)을 더욱 상세하게 예시하는 다이어그램이다. 이 예에서, 비트스트림 추출 유닛(72)은 도 6의 예와 관련하여 위에 설명된 비트스트림 추출 유닛(72)과 실질적으로 유사하다. 그러나, 비트스트림 추출 유닛(72)은 2개의 계층들(21A 및 21B)이 아닌 3개의 계층들(21A-21C)에 대한 스케일러블 코딩 기법들의 제 2 버전을 수행한다. 스케일러블 비트스트림 추출 유닛(1012)은, 2개의 인코딩된 주변 HOA 계수들 및 제로 인코딩된 nFG 신호들이 베이스 계층(21A)에 특정된다는 표시들, 제로 코딩된 주변 HOA 계수들 및 2개의 인코딩된 nFG 신호들이 제 1 인핸스먼트 계층(21B)에 특정된다는 표시들, 및 제로 인코딩된 주변 HOA 계수들 및 2개의 인코딩된 nFG 신호들이 제 2 인핸스먼트 계층(21C)에 특정된다는 표시들을 획득할 수 있다. 그후, 스케일러블 비트스트림 추출 유닛(1012)은, 베이스 계층(21A)으로부터 2개의 인코딩된 주변 HOA 계수들(59A 및 59B), 제 1 인핸스먼트 계층(21B)으로부터 대응하는 2개의 코딩된 전경 V[k] 벡터들(57A 및 57B)을 갖는 2개의 인코딩된 nFG 신호들(61A 및 61B), 및 제 2 인핸스먼트 계층(21C)으로부터 대응하는 2개의 코딩된 전경 V[k] 벡터들(57C 및 57D)을 갖는 2개의 인코딩된 nFG 신호들(61C 및 61D)을 획득할 수 있다. 스케일러블 비트스트림 추출 유닛(1012)은 인코딩된 주변 HOA 계수들(59), 인코딩된 nFG 신호들(61) 및 코딩된 전경 V[k] 벡터들(57)을 벡터-기반 디코딩 유닛(92)으로 출력할 수 있다.
[0259] 도 20은, 도 18의 비트스트림 생성 유닛 및 도 19의 추출 유닛이 본 개시내용에 설명된 기법들의 잠재적인 버전 중 제 2 버전을 수행할 수 있는 제 2 사용 경우를 예시하는 다이어그램이다. 예컨대, 도 18의 예에 도시된 비트스트림 생성 유닛(42)은, 스케일러블 비트스트림(21)에 특정된 계층들의 수가 3개임을 나타내기 위해 NumLayer(이해의 용이함을 위해 "NumberOfLayers"로 도시됨) 구문 엘리먼트를 특정할 수 있다. 비트스트림 생성 유닛(42)은 또한, 제 1 계층(21A)("베이스 계층"으로 또한 지칭됨)에 특정된 배경 채널들의 수가 2이며, 제 1 계층(21B)에 특정된 전경 채널들의 수가 0임을(즉, 도 20의 예에서 B1=2, F1=0) 특정할 수 있다. 비트스트림 생성 유닛(42)은 또한, 제 2 계층(21B)("인핸스먼트 계층"으로 또한 지칭됨)에 특정된 배경 채널들의 수가 제로이며, 제 2 계층(21B)에 특정된 전경 채널들의 수가 2임을(즉, 도 20의 예에서 B2=0, F2=2) 특정할 수 있다. 비트스트림 생성 유닛(42)은 또한, 제 2 계층(21C)("인핸스먼트 계층"으로 또한 지칭됨)에 특정된 배경 채널들의 수가 제로이며, 제 2 계층(21C)에 특정된 전경 채널들의 수가 2임을(즉, 도 20의 예에서 B3=0, F3=2) 특정할 수 있다. 그러나, 오디오 인코딩 디바이스(20)는, 전경 및 배경 채널들의 전체 수가 (예컨대, totalNumBGchannels 및 totalNumFGchannels와 같은 추가적인 구문 엘리먼트들에 의해) 디코더에서 이미 알려져 있을 때, 제 3 계층의 배경 및 전경 채널 정보를 반드시 시그널링하는 것은 아닐 수 있다.
[0260] 비트스트림 생성 유닛(42)은 이러한 Bi 및 Fi 값들을 NumBGchannels[i] 및 NumFGchannels[i]로서 특정할 수 있다. 위의 예의 경우, 오디오 인코딩 디바이스(20)는 NumBGchannels 구문 엘리먼트를 {2, 0, 0}로서 그리고 NumFGchannels 구문 엘리먼트를 {0, 2, 2}로서 특정할 수 있다. 비트스트림 생성 유닛(42)은 또한, 스케일러블 비트스트림(21) 내의 배경 HOA 오디오 채널들(59), 전경 HOA 채널들(61) 및 V-벡터들(57)을 특정할 수 있다.
[0261] 도 19의 비트스트림 추출 유닛(72)과 관련하여 위에서 설명된 바와 같이, 도 2 및 4의 예들에 도시된 오디오 디코딩 디바이스(24)는, (예컨대, 위의 HOADecoderConfig 구문 표에 설명된 바와 같이) 비트스트림으로부터의 이러한 구문 엘리먼트들을 파싱하기 위해 오디오 인코딩 디바이스(20)의 레시프로컬(reciprocal)의 방식으로 동작할 수 있다. 오디오 디코딩 디바이스(24)는 또한, 도 19의 비트스트림 추출 유닛(72)과 관련하여 다시 위에서 설명된 바와 같이, 파싱된 구문 엘리먼트들에 따라 비트스트림(21)으로부터의 대응하는 배경 HOA 오디오 채널들(1002) 및 전경 HOA 채널들(1010)을 파싱할 수 있다.
[0262] 도 21은, 구문 엘리먼트들이, 베이스 계층에 특정된 2개의 인코딩된 주변 HOA 계수들을 갖는 3개의 계층들이 존재하고, 2개의 인코딩된 nFG 신호들이 제 1 인핸스먼트 계층에 특정되고, 2개의 인코딩된 nFG 신호들이 제 2 인핸스먼트 계층에 특정되었음을 나타내는 예의 개념적 다이어그램이다. 도 21의 예는, 도 18의 예에 도시된 스케일러블 비트스트림 생성 유닛(1000)으로서의 HOA 프레임이 그 프레임을 인코딩된 주변 HOA 계수들(59A 및 59B)에 대한 측파대 HOA 이득 정정 데이터를 포함하는 베이스 계층을 형성하도록 세그먼트화할 수 있음을 도시한다. 스케일러블 비트스트림 생성 유닛(1000)은 또한 인코딩된 주변 nFG 신호들(61)에 대한 2개의 코딩된 전경 V[k] 벡터들(57) 및 HOA 이득 정정 데이터를 포함하는 인핸스먼트 계층(21B) 및 인코딩된 주변 nFG 신호들(61)에 대한 2개의 추가 코딩된 전경 V[k] 벡터들(57) 및 HOA 이득 정정 데이터를 포함하는 인핸스먼트 계층(21C)을 형성하기 위해 HOA 프레임을 세그먼트화할 수 있다.
[0263] 도 21의 예에 추가로 도시된 바와 같이, 심리음향 오디오 인코딩 유닛(40)은, 베이스 계층 시간적 인코더들(40A)로 지칭될 수 있는 심리음향 오디오 인코더(40A), 및 인핸스먼트 계층 시간적 인코더들(40B)로서 지칭될 수 있는 심리음향 오디오 인코더들(40B)의 별도의 인스턴스화들로 분할된 것으로서 도시된다. 베이스 계층 시간적 인코더들(40A)은 베이스 계층의 4개의 컴포넌트들을 프로세싱하는 심리음향 오디오 인코더들의 2개의 인스턴스화들을 나타낸다. 인핸스먼트 계층 시간적 인코더들(40B)은 인핸스먼트 계층의 2개의 컴포넌트들을 프로세싱하는 심리음향 오디오 인코더들의 4개의 인스턴스화들을 나타낸다.
[0264] 도 22는, 본 개시내용에 설명된 스케일러블 오디오 코딩 기법들의 잠재적인 버전들 중 제 3 버전을 수행하도록 구성될 때, 도 3의 비트스트림 생성 유닛(42)을 더욱 상세하게 예시하는 다이어그램이다. 이 예에서, 비트스트림 생성 유닛(42)은 도 18의 예와 관련하여 위에 설명된 비트스트림 생성 유닛(42)과 실질적으로 유사하다. 그러나, 비트스트림 생성 유닛(42)은 2개의 계층들(21A 및 21B)이 아닌 3개의 계층들(21A-21C)을 특정하기 위한 스케일러블 코딩 기법들의 제 3 버전을 수행한다. 더욱이, 스케일러블 비트스트림 생성 유닛(1000)은, 제로 인코딩된 주변 HOA 계수들 및 2개의 인코딩된 nFG 신호들이 베이스 계층(21A)에 특정된다는 표시들, 제로 코딩된 주변 HOA 계수들 및 2개의 인코딩된 nFG 신호들이 제 1 인핸스먼트 계층(21B)에 특정된다는 표시들, 및 제로 인코딩된 주변 HOA 계수들 및 2개의 인코딩된 nFG 신호들이 제 2 인핸스먼트 계층(21C)에 특정된다는 표시들을 특정할 수 있다. 그후, 스케일러블 비트스트림 생성 유닛(1000)은, 베이스 계층(21A)에서 대응하는 2개의 코딩된 전경 V[k] 벡터들(57A 및 57B)을 갖는 2개의 인코딩된 nFG 신호들(61A 및 61B), 제 1 인핸스먼트 계층(21B)에서 대응하는 2개의 코딩된 전경 V[k] 벡터들(57C 및 57D)을 갖는 2개의 인코딩된 nFG 신호들(61C 및 61D), 및 제 2 인핸스먼트 계층(21C)에서 대응하는 2개의 코딩된 전경 V[k] 벡터들(57E 및 57F)를 갖는 2개의 인코딩된 nFG 신호들(61E 및 61F)을 특정할 수 있다. 그후, 스케일러블 비트스트림 생성 유닛(1000)은 이러한 계층들을 스케일러블 비트스트림(21)으로서 출력할 수 있다.
[0265] 도 23은, 본 개시내용에 설명된 스케일러블 오디오 디코딩 기법들의 잠재적인 버전들 중 제 3 버전을 수행하도록 구성될 때, 도 4의 추출 유닛(72)을 더욱 상세하게 예시하는 다이어그램이다. 이 예에서, 비트스트림 추출 유닛(72)은 도 19의 예와 관련하여 위에 설명된 비트스트림 추출 유닛(72)과 실질적으로 유사하다. 그러나, 비트스트림 추출 유닛(72)은 2개의 계층들(21A 및 21B)이 아닌 3개의 계층들(21A-21C)에 대한 스케일러블 코딩 기법들의 제 3 버전을 수행한다. 더욱이, 스케일러블 비트스트림 추출 유닛(1012)은, 제로 인코딩된 주변 HOA 계수들 및 2개의 인코딩된 nFG 신호들이 베이스 계층(21A)에 특정된다는 표시들, 제로 코딩된 주변 HOA 계수들 및 2개의 인코딩된 nFG 신호들이 제 1 인핸스먼트 계층(21B)에 특정된다는 표시들, 및 제로 인코딩된 주변 HOA 계수들 및 2개의 인코딩된 nFG 신호들이 제 2 인핸스먼트 계층(21C)에 특정된다는 표시들을 획득할 수 있다. 그후, 스케일러블 비트스트림 추출 유닛(1012)은, 베이스 계층(21A)으로부터 대응하는 2개의 코딩된 전경 V[k] 벡터들(57A 및 57B)을 갖는 2개의 인코딩된 nFG 신호들(61A 및 61B), 제 1 인핸스먼트 계층(21B)으로부터 대응하는 2개의 코딩된 전경 V[k] 벡터들(57C 및 57D)을 갖는 2개의 인코딩된 nFG 신호들(61C 및 61D), 및 제 2 인핸스먼트 계층(21C)으로부터 대응하는 2개의 코딩된 전경 V[k] 벡터들(57E 및 57F)를 갖는 2개의 인코딩된 nFG 신호들(61E 및 61F)을 획득할 수 있다. 스케일러블 비트스트림 추출 유닛(1012)은 인코딩된 nFG 신호들(61) 및 코딩된 전경 V[k] 벡터들(57)을 벡터-기반 디코딩 유닛(92)으로 출력할 수 있다.
[0266] 도 24는, 오디오 인코딩 디바이스가 본 개시내용에 설명된 기법들에 따라 멀티-계층 비트스트림에서 다수의 계층들을 특정할 수 있는 제 3 사용 경우를 예시하는 다이어그램이다. 예컨대, 도 22의 비트스트림 생성 유닛(42)은, 비트스트림(21)에 특정된 계층들의 수가 3개임을 나타내기 위해 NumLayer(이해의 용이함을 위해 "NumberOfLayers"로 도시됨) 구문 엘리먼트를 특정할 수 있다. 비트스트림 생성 유닛(42)은 또한, 제 1 계층("베이스 계층"으로 또한 지칭됨)에 특정된 배경 채널들의 수가 제로이며, 제 1 계층에 특정된 전경 채널들의 수가 2임을(즉, 도 24의 예에서 B1=0, F1=2) 특정할 수 있다. 다시 말해서, 베이스 계층은 오직 주변 HOA 계수들의 전송을 위해서만 항상 제공되지는 않지만, 우세한 또는 다시 말해서 전경 HOA 오디오 신호들의 사양(specification)을 허용할 수 있다.
[0267] 이러한 2개의 전경 오디오 채널들은, 인코딩된 nFG 신호들(61A/B) 및 코딩된 전경 V[k] 벡터들(57A/B)로서 표시되고, 이하의 수학식으로 수학적으로 표현될 수 있다:
Figure 112017034321836-pct00180
Figure 112017034321836-pct00181
은 대응 V-벡터들(V1 및 V2)을 따라 제 1 및 제 2 오디오 오브젝트들(US1 및 US2)에 의해 표현될 수 있는 2개의 전경 오디오 채널들을 나타낸다.
[0268] 비트스트림 생성 디바이스(42)는 또한, 제 2 계층("인핸스먼트 계층"으로 또한 지칭됨)에 특정된 배경 채널들의 수가 제로이며, 제 2 계층에 특정된 전경 채널들의 수가 2임을(즉, 도 24의 예에서 B2=0, F2=2) 특정할 수 있다. 이러한 2개의 전경 오디오 채널들은, 인코딩된 nFG 신호들(61C/D) 및 코딩된 전경 V[k] 벡터들(57C/D)로서 표시되고, 이하의 수학식으로 수학적으로 표현될 수 있다:
Figure 112017034321836-pct00182
Figure 112017034321836-pct00183
은 대응 V-벡터들(V3 및 V4)을 따라 제 3 및 제 4 오디오 오브젝트들(US3 및 US4)에 의해 표현될 수 있는 2개의 전경 오디오 채널들을 나타낸다.
[0269] 게다가, 비트스트림 생성 유닛(42)은 또한, 제 3 계층("인핸스먼트 계층"으로 또한 지칭됨)에 특정된 배경 채널들의 수가 제로이며, 제 3 계층에 특정된 전경 채널들의 수가 2임을(즉, 도 24의 예에서 B3=0, F3=2) 특정할 수 있다. 이러한 2개의 전경 오디오 채널들은, 전경 오디오 채널들(1024)로서 표시되고, 이하의 수학식으로 수학적으로 표현될 수 있다:
Figure 112017034321836-pct00184
Figure 112017034321836-pct00185
은 대응 V-벡터들(V5 및 V6)을 따라 제 5 및 제 6 오디오 오브젝트들(US5 및 US6)에 의해 표현될 수 있는 2개의 전경 오디오 채널들(1024)을 나타낸다. 그러나, 비트스트림 생성 유닛(42)은, 전경 및 배경 채널들의 전체 수가 (예컨대, totalNumBGchannels 및 totalNumFGchannels와 같은 추가적인 구문 엘리먼트들에 의해) 디코더에서 이미 알려져 있을 때, 이 제 3 계층의 배경 및 전경 채널 정보를 반드시 시그널링하는 것은 아닐 수 있다. 비트스트림 생성 유닛(42)은, 그러나, 전경 및 배경 채널들의 전체 수가 (예컨대, totalNumBGchannels 및 totalNumFGchannels와 같은 추가적인 구문 엘리먼트들에 의해) 디코더에서 이미 알려져 있을 때, 제 3 계층의 배경 및 전경 채널 정보를 시그널링하지 않을 수 있다.
[0270] 비트스트림 생성 유닛(42)은 이러한 Bi 및 Fi 값들을 NumBGchannels[i] 및 NumFGchannels[i]로서 특정할 수 있다. 위의 예의 경우, 오디오 인코딩 디바이스(20)는 NumBGchannels 구문 엘리먼트를 {0, 0, 0}로서 그리고 NumFGchannels 구문 엘리먼트를 {2, 2, 2}로서 특정할 수 있다. 오디오 인코딩 디바이스(20)는 또한 비트스트림(21)에 전경 HOA 채널들(1020-1024)을 특정할 수 있다.
[0271] 도 2 및 4의 예들에 도시된 오디오 디코딩 디바이스(24)는, (예컨대, 위의 HOADecoderConfig 구문 표에 설명된 바와 같이) 비트스트림으로부터의 이러한 구문 엘리먼트들을, 도 23의 비트스트림 추출 유닛(72)과 관련하여 위에 설명된 바와 같이, 파싱하기 위해 오디오 인코딩 디바이스(20)의 레시프로컬 방식으로 동작할 수 있다. 오디오 디코딩 디바이스(24)는 또한, 도 23의 비트스트림 추출 유닛(72)과 관련하여 위에 다시 설명된 바와 같이 파싱된 구문 엘리먼트들에 따라 비트스트림(21)으로부터 대응하는 전경 HOA 오디오 채널들(1020-1024)을 파싱할 수 있고, 그리고 전경 HOA 오디오 채널들(1020-1024)의 합산을 통해 HOA 계수들(1026)을 복원할 수 있다.
[0272] 도 25는, 구문 엘리먼트들이, 베이스 계층에 특정된 2개의 인코딩된 nFG 신호들을 갖는 3개의 계층들이 존재하고, 2개의 인코딩된 nFG 신호들이 제 1 인핸스먼트 계층에 특정되고, 2개의 인코딩된 nFG 신호들이 제 2 인핸스먼트 계층에 특정되었음을 나타내는 예의 개념적 다이어그램이다. 도 25의 예는, 도 22의 예에 도시된 스케일러블 비트스트림 생성 유닛(1000)으로서의 HOA 프레임이 그 프레임을 인코딩된 nFG 신호들(61A 및 61B) 및 2개의 코딩된 전경 V[k] 벡터들(57)에 대한 측파대 HOA 이득 정정 데이터를 포함하는 베이스 계층을 형성하도록 세그먼트화할 수 있음을 도시한다. 스케일러블 비트스트림 생성 유닛(1000)은 또한 인코딩된 주변 nFG 신호들(61)에 대한 2개의 코딩된 전경 V[k] 벡터들(57) 및 HOA 이득 정정 데이터를 포함하는 인핸스먼트 계층(21B) 및 인코딩된 주변 nFG 신호들(61)에 대한 2개의 추가 코딩된 전경 V[k] 벡터들(57) 및 HOA 이득 정정 데이터를 포함하는 인핸스먼트 계층(21C)을 형성하기 위해 HOA 프레임을 세그먼트화할 수 있다.
[0273] 도 25의 예에 추가로 도시된 바와 같이, 심리음향 오디오 인코딩 유닛(40)은, 베이스 계층 시간적 인코더들(40A)로 지칭될 수 있는 심리음향 오디오 인코더(40A), 및 인핸스먼트 계층 시간적 인코더들(40B)로서 지칭될 수 있는 심리음향 오디오 인코더들(40B)의 별도의 인스턴스화들로 분할된 것으로서 도시된다. 베이스 계층 시간적 인코더들(40A)은 베이스 계층의 4개의 컴포넌트들을 프로세싱하는 심리음향 오디오 인코더들의 2개의 인스턴스화들을 나타낸다. 인핸스먼트 계층 시간적 인코더들(40B)은 인핸스먼트 계층의 2개의 컴포넌트들을 프로세싱하는 심리음향 오디오 인코더들의 4개의 인스턴스화들을 나타낸다.
[0274] 도 26은, 오디오 인코딩 디바이스가 본 개시내용에 설명된 기법들에 따라 멀티-계층 비트스트림에서 다수의 계층들을 특정할 수 있는 제 3 사용 경우를 예시하는 다이어그램이다. 예컨대, 도 2 및 3의 예에 도시된 오디오 인코딩 디바이스(20)는, 비트스트림(21)에 특정된 계층들의 수가 4개임을 나타내기 위해 NumLayer(이해의 용이함을 위해 "NumberOfLayers"로 도시됨) 구문 엘리먼트를 특정할 수 있다. 오디오 인코딩 디바이스(20)는 또한, 제 1 계층("베이스 계층"으로 또한 지칭됨)에 특정된 배경 채널들의 수가 1이며, 제 1 계층에 특정된 전경 채널들의 수가 제로임을(즉, 도 26의 예에서 B1=1, F1=0) 특정할 수 있다.
[0275] 오디오 인코딩 디바이스(20)는 또한, 제 2 계층("제 1 인핸스먼트 계층"으로 또한 지칭됨)에 특정된 배경 채널들의 수가 1이며, 제 2 계층에 특정된 전경 채널들의 수가 제로임을(즉, 도 26의 예에서 B2=1, F2=0) 특정할 수 있다. 오디오 인코딩 디바이스(20)는 또한, 제 3 계층("제 2 인핸스먼트 계층"으로 또한 지칭됨)에 특정된 배경 채널들의 수가 1이며, 제 3 계층에 특정된 전경 채널들의 수가 제로임을(즉, 도 26의 예에서 B3=1, F3=0) 특정할 수 있다. 이에 더해, 오디오 인코딩 디바이스(20)는, 제 4 계층("인핸스먼트 계층"으로 또한 지칭됨)에 특정된 배경 채널들의 수가 1이며, 제 3 계층에 특정된 전경 채널들의 수가 제로임을(즉, 도 26의 예에서 B4=1, F4=0) 특정할 수 있다. 그러나, 오디오 인코딩 디바이스(20)는, 전경 및 배경 채널들의 전체 수가 (예컨대, totalNumBGchannels 및 totalNumFGchannels와 같은 추가적인 구문 엘리먼트들에 의해) 디코더에서 이미 알려져 있을 때, 제 4 계층의 배경 및 전경 채널 정보를 반드시 시그널링하는 것은 아닐 수 있다.
[0276] 오디오 인코딩 디바이스(20)는 NumBGchannels[i] 및 NumFGchannels[i]로서 이 Bi 및 Fi 값들을 특정할 수 있다. 위의 예에 있어서, 오디오 인코딩 디바이스(20)는 NumBGchannels 구문 엘리먼트를 {1, 1, 1, 1}로서 그리고 NumFGchannels 구문 엘리먼트를 {0, 0, 0, 0}으로서 특정할 수 있다. 오디오 인코딩 디바이스(20)는 또한, 비트스트림(21)에서 배경 HOA 오디오 채널들(1030)을 특정할 수 있다. 이 점에 있어서, 기법들은 인핸스먼트 계층들이 주변 또는 다시 말해서, 배경 HOA 채널들(1030)을 특정하게 허용할 수 있고, 이는 도 7a-9b의 예들에 대해 위에서 설명된 바와 같이, 비트스트림(21)의 베이스 및 인핸스먼트 계층들에서 특정되기 이전에 상관해제되었을 수 있다. 그러나, 다시, 본 개시내용에서 기술되는 기법들은 반드시 상관해제에 제한되는 것은 아니며, 위에서 설명된 바와 같은 상관해제와 관련된 비트스트림에서 구문 엘리먼트들 또는 임의의 다른 표시들을 제공하지 않을 수 있다.
[0277] 도 2 및 도 4의 예들에서 도시되는 오디오 디코딩 디바이스(24)는 (예컨대, 위의 HOADecoderConfig 구문 표에서 기술된 바와 같이) 비트스트림으로부터의 이 구문 엘리먼트들을 파싱하기 위해 오디오 인코딩 디바이스(20)의 것과 레시프로컬 방식으로 동작할 수 있다. 오디오 디코딩 디바이스(24)는 또한, 파싱된 구문 엘리먼트들에 따라 비트스트림(21)으로부터의 대응하는 배경 HOA 오디오 채널들(1030)을 파싱할 수 있다.
[0278] 위에서 주목한 바와 같이, 일부 인스턴스들에서, 스케일러블 비트스트림(21)은 논-스케일러블 비트스트림(21)을 따르는 다양한 계층들을 포함할 수 있다. 예컨대, 스케일러블 비트스트림(21)은 논-스케일러블 비트스트림(21)을 따르는 베이스 계층을 포함할 수 있다. 이들 인스턴스들에서, 논-스케일러블 비트스트림(21)은 스케일러블 비트스트림(21)의 서브-비트스트림을 표현할 수 있고, 여기서, 이 논-스케일러블 서브-비트스트림(21)은 스케일러블 비트스트림(21)의 추가적인 계층들(이들은 인핸스먼트 계층들로 지칭됨)로 향상될 수 있다.
[0279] 도 27 및 도 28은 본 개시내용에서 설명되는 기법들의 다양한 양상들을 수행하도록 구성될 수 있는 스케일러블 비트스트림 생성 유닛(42) 및 스케일러블 비트스트림 추출 유닛(72)을 예시하는 블록 다이어그램들이다. 도 27의 예에서, 스케일러블 비트스트림 생성 유닛(42)은 도 3의 예에 대해 위에서 설명된 비트스트림 생성 유닛(42)의 예를 표현할 수 있다. 스케일러블 비트스트림 생성 유닛(42)은 (스케일러블 코딩을 지원하지 않는 오디오 디코더들에 의해 디코딩될 구문 및 능력에 관해) 논-스케일러블 비트스트림(21)을 따르는 베이스 계층(21)을 출력할 수 있다. 스케일러블 비트스트림 생성 유닛(42)은 스케일러블 비트스트림 생성 유닛(42)이 논-스케일러블 비트스트림 생성 유닛(1002)을 포함하지 않는 것을 제외하고는 전술한 비트스트림 생성 유닛들(42) 중 임의의 것에 대해 위에서 설명된 방식들로 동작할 수 있다. 대신에, 스케일러블 비트스트림 생성 유닛(42)은 논-스케일러블 비트스트림을 따르는 베이스 계층(21)을 출력하며, 이로써, 별개의 논-스케일러블 비트스트림 생성 유닛(1000)을 요구하지 않는다. 도 28의 예에서, 스케일러블 비트스트림 추출 유닛(72)은 스케일러블 비트스트림 생성 유닛(42)과 레시프로컬하게 동작할 수 있다.
[0280] 도 29는 본 개시내용에서 설명되는 기법들의 다양한 양상들에 따라 동작하도록 구성될 수 있는 인코더(900)를 표현하는 개념 다이어그램을 표현한다. 인코더(900)는 오디오 인코딩 디바이스(20)의 다른 예를 표현할 수 있다. 인코더(900)는 공간적 분해 유닛(902), 상관해제 유닛(904) 및 시간적 인코딩 유닛(906)을 포함할 수 있다. 공간적 분해 유닛(902)은 벡터-기반 우세 사운드를 (앞서 주목된 오디오 오브젝트들의 형태로) 출력하도록 구성된 유닛을 표현할 수 있고, 대응하는 V-벡터들은 이 벡터-기반 우세 사운드들 및 수평 주변 HOA 계수들(903)과 연관된다. 각각의 오디오 오브젝트가 사운드필드 내에서 시간이 지남에 따라 이동하므로, 공간적 분해 유닛(902)은 V-벡터들이 오디오 오브젝트들 중 대응하는 하나의 오디오 오브젝트의 방향 및 폭 둘 다를 설명한다는 점에서 방향 기반 분해와 상이할 수 있다.
[0281] 공간적 분해 유닛(902)은 도 3의 예에 도시된 벡터-기반 합성 유닛(27)의 유닛들(30-38 및 44-52)을 포함하고, 일반적으로 유닛(30-38 및 44-52)에 대해 위에서 설명된 방식으로 동작할 수 있다. 공간적 분해 유닛(902)은, 공간적 분해 유닛(902)이 심리음향 인코딩을 수행하지 않거나 또는 그렇지 않으면 심리음향 코더 유닛(40)을 포함하지 않을 수 있으며, 비트스트림 생성 유닛(42)을 포함하지 않을 수 있다는 점에서 벡터-기반 합성 유닛(27)과 상이할 수 있다. 더욱이, 스케일러블 오디오 인코딩 콘텍스트에서, 공간적 분해 유닛(902)은 수평 주변 HOA 계수들(903)(일부 예들에서, 이 수평 HOA 계수들이 수정되지 않거나 또는 그렇지 않으면 조정되지 않을 수 있으며, HOA 계수들(901)로부터 파싱된다는 것을 의미함)을 통과할 수 있다.
[0282] 수평 주변 HOA 계수들(903)은 사운드필드의 수평 컴포넌트를 설명하는 HOA 계수들(901)(이들은 또한 HOA 오디오 데이터(901)로 지칭될 수 있음) 중 임의의 것을 지칭할 수 있다. 예컨대, 수평 주변 HOA 계수들(903)은 제로의 차수 및 제로의 서브-차수를 가지는 구면 기저 함수와 연관된 HOA 계수들, 1의 차수 및 -1의 서브-차수를 가지는 구면 기저 함수에 대응하는 고차 앰비소닉 계수들, 및 1의 차수 및 1의 서브-차수를 가지는 구면 기저 함수에 대응하는 제 3 고차 앰비소닉 계수들을 포함할 수 있다.
[0283] 상관해제 유닛(904)은 고차 앰비소닉 오디오 데이터의 2개 또는 그 초과의 계층들의 제 1 계층의 상관해제된 표현(905)을 획득하기 위해 고차 앰비소닉 오디오 데이터(903)(여기서, 주변 HOA 계수들(903)은 이 HOA 오디오 데이터의 하나의 예임)의 2개 또는 그 초과의 계층들의 제 1 계층에 대해 상관해제를 수행하도록 구성된 유닛을 표현한다. 베이스 계층(903)은 도 21-26에 대해 위에서 설명된 제 1 계층들, 베이스 계층들 또는 베이스 서브-계층들 중 임의의 것과 유사할 수 있다. 상관해제 유닛(904)은 앞서 주목된 UHJ 행렬 또는 모드 행렬을 사용하여 상관해제를 수행할 수 있다. 상관해제 유닛(904)은 또한, 회전이 계수들의 수를 감소시키기보다는 제 1 계층의 상관해제된 표현을 획득하도록 수행된다는 것을 제외하고는, 2014년 2월 27일자로 출원된 "TRANSFORMING SPHERICAL HARMONIC COEFFICIENTS"라는 명칭의 미국 출원 일련번호 제14/192,829호에서 설명된 것과 유사한 방식으로 변환, 이를테면, 회전을 사용하여 상관해제를 수행할 수 있다.
[0284] 다시 말해서, 상관해제 유닛(904)은 120도(이를테면, 0 방위각/0 고도각, 120 방위각/0 고도각, 및 240 방위각/0 고도각)만큼 분리된 3개의 상이한 수평 축들을 따라 주변 HOA 계수들(903)의 에너지를 정렬하기 위해 사운드필드의 회전을 수행할 수 있다. 이 에너지들을 3개의 수평 축들과 정렬함으로써, 상관해제 유닛(904)은 상관해제 유닛(904)이 공간적 변환을 활용하여 3개의 상관해제 오디오 채널들(905)을 효과적으로 렌더링할 수 있도록 서로로부터 에너지들을 상관해제하려고 시도할 수 있다. 상관해제 유닛(904)은 0도, 120도 및 240도의 방위각들에서 공간적 오디오 신호들(905)을 컴퓨팅하기 위해 이 공간적 변환을 적용할 수 있다.
[0285] 0도, 120도 및 240도의 방위각들에 대해 설명하였지만, 기법들은 원의 360 방위각을 균등하게 또는 거의 균등하게 분할하는 임의의 3개의 방위각들에 대해 적용될 수 있다. 예컨대, 기법들은 또한, 60도, 180도 및 300도의 방위각들에서 공간적 오디오 신호들(905)을 컴퓨팅하는 변환에 대해 수행될 수 있다. 더욱이, 3개의 주변 HOA 계수들(901)에 대해 설명하였지만, 기법들은 더 일반적으로, 위에서 설명된 계수들 및 임의의 다른 수평 HOA 계수들, 이를테면, 2의 차수 및 2의 서브-차수를 가지는 구면 기저 함수, 2의 차수 및 -2의 서브-차수를 가지는 구면 기저 함수, …, X의 차수 및 X의 서브-차수를 가지는 구면 기저 함수, 및 X의 차수 및 -X의 서브-차수를 가지는 구면 기저 함수 ― 여기서, X는 3, 4, 5, 6 등을 포함하는 임의의 수를 표현할 수 있음― 와 연관된 계수들을 포함하는 임의의 수평 HOA 계수들에 대해 수행될 수 있다.
[0286] 수평 HOA 계수들의 수가 증가함에 따라, 360도 원의 균등한 또는 거의 균등한 부분의 수는 증가할 수 있다. 예컨대, 수평 HOA 계수들의 수가 5로 증가하는 경우, 상관해제 유닛(904)은 원을 (예컨대, 거의 72도 각각의) 5개의 균등한 파티션들로 세그먼트화할 수 있다. X의 수평 HOA 계수들의 수는 다른 예와 같이, 360도/X도를 가지는 각각의 파티션을 가지는 X개의 균등한 파티션들을 초래할 수 있다.
[0287] 상관해제 유닛(904)은 수평 주변 HOA 계수들(903)에 의해 표현된 사운드필드를 회전시키는 양을 표시하는 회전 정보를 식별하기 위해, 사운드필드 분석, 콘텐츠-특성 분석 및/또는 공간적 분석을 수행할 수 있다. 이 분석들 중 하나 또는 그 초과의 것에 기반하여, 상관해제 유닛(904)은, 사운드필드를 수평으로 회전시키는 정도들의 수로서 회전 정보(또는 회전 정보가 일 예인 다른 변환 정보)를 식별하고, 고차 앰비소닉 오디오 데이터의 베이스 계층의 회전된 표현(더 일반적으로 변환된 표현의 일 예임)을 효과적으로 획득하는 사운드필드를 회전시킬 수 있다.
[0288] 그 다음, 상관해제 유닛(904)은 공간적 변환을 고차 앰비소닉 오디오 데이터의 베이스 계층(903)(이는 또한 2개 또는 그 초과의 계층들의 제 1 계층(903)으로 지칭될 수 있음)의 회전된 표현으로 적용할 수 있다. 공간적 변환은 고차 앰비소닉 오디오 데이터의 2개 또는 그 초과의 계층들의 제 1 계층의 상관해제된 표현을 획득하기 위해 구면 조화 도메인으로부터 공간적 도메인으로 고차 앰비소닉 오디오 데이터의 2개 또는 그 초과의 계층들의 베이스 계층의 회전된 표현을 변환할 수 있다. 제 1 계층의 상관해제 표현은 위에서 서술된 바와 같이, 0도, 120도 및 240도의 3개의 대응하는 방위각들에서 렌더링된 공간적 오디오 신호들(905)을 포함할 수 있다. 그 다음, 상관해제 유닛(904)은 수평 주변 공간적 오디오 신호들(905)을 시간적 인코딩 유닛(906)으로 전달할 수 있다.
[0289] 시간적 인코딩 유닛(906)은 심리음향 오디오 코딩을 수행하도록 구성된 유닛을 표현할 수 있다. 시간적 인코딩 유닛(906)은 2개의 예들을 제공하기 위해 AAC 인코더 또는 USAC(unified speech and audio coder)를 표현할 수 있다. 시간적 오디오 인코딩 유닛들, 이를테면, 시간적 인코딩 유닛(906)은 상관해제된 오디오 데이터, 이를테면, 5.1 스피커 셋업의 6개의 채널들에 대해 정상적으로 동작할 수 있고, 이 6개의 채널들은 상관해제된 채널들로 렌더링되었다. 그러나, 수평 주변 HOA 계수들(903)은 사실상 부가적이며, 따라서 어떤 면에서는 상관된다. 상관해제의 일부 형태를 먼저 수행하지 않고 이 수평 주변 HOA 계수들(903)을 시간적 인코딩 유닛(906)으로 직접적으로 제공하는 것은 사운드들이 의도되지 않았던 위치들에서 나타나는 공간적 잡음 언마스킹을 초래할 수 있다. 이 지각적 아티팩트들, 이를테면, 공간적 잡음 언마스킹은 위에서 설명된 변환-기반(또는 더 구체적으로는, 도 29의 예에서의 회전-기반) 상관해제를 수행함으로써 감소될 수 있다.
[0290] 도 30은 도 27의 예에 도시된 인코더(900)를 더 상세하게 예시하는 다이어그램이다. 도 30의 예에서, 인코더(900)는 HOA 1차 수평-전용 베이스 계층(903)을 인코딩하는 베이스 계층 인코더(900)를 표현할 수 있으며, 공간적 분해 유닛(902)을 도시하지 않는데, 이 유닛(902)이 이 통과 예에서, 베이스 계층(903)을 상관해제 유닛(904)의 사운드필드 분석 유닛(910) 및 2-차원(2D) 회전 유닛(912)에 제공하는 것 외에 의미있는 동작들을 수행하지 않기 때문이다.
[0291] 즉, 상관해제 유닛(904)은 사운드필드 분석 유닛(910) 및 2D 회전 유닛(912)을 포함한다. 사운드필드 분석 유닛(910)은 회전 각도 파라미터(911)를 획득하기 위해 위에서 더 상세하게 설명된 사운드필드 분석을 수행하도록 구성된 유닛을 표현한다. 회전 각도 파라미터(911)는 변환 정보의 일 예를 회전 정보의 형태로 표현한다. 2D 회전 유닛(912)은 회전 각도 파라미터(911)에 기반하여 사운드필드의 Z-축을 중심으로 수평 회전을 수행하도록 구성된 유닛을 표현한다. 이 회전은 그 회전이 단지 회전의 단일 축을 수반하며, 임의의, 이 예에서는, 고도 회전을 포함하지 않는다는 점에서 2-차원이다. 2D 회전 유닛(912)은 (일 예로서, 역회전 각도 파라미터(913)를 획득하기 위해 회전 각도 파라미터(911)를 인버팅함으로써) 더 일반적 역변환 정보의 예일 수 있는 역회전 정보(913)를 획득할 수 있다. 2D 회전 유닛(912)은 인코더(900)가 비트스트림에서 역회전 각도 파라미터(913)를 특정할 수 있도록 역회전 각도 파라미터(913)를 제공할 수 있다.
[0292] 다시 말해서, 2D 회전 유닛(912)은, 우세 에너지가 2D 공간적 변환 모듈에서 사용되는 공간적 샘플링 포인트들 중 하나로부터 잠재적으로 도착 중이도록, 사운드필드 분석에 기반하여 2D 사운드필드를 회전할 수 있다(0°, 120°, 240°).
2D 회전 유닛(912)은 일 예로서, 다음의 회전 행렬을 적용할 수 있다:
Figure 112017034321836-pct00186
일부 예들에서, 2D 회전 유닛(912)은 프레임 아티팩트들을 회피하기 위해, 시변적인 회전 각도의 평활한 트랜지션을 보장하도록 평활화(보간) 함수를 적용할 수 있다. 이 평활화 함수(smoothing function)는 선형 평활화 함수를 포함할 수 있다. 그러나, 비선형 평활화 함수들을 포함하는 다른 평활화 함수들이 사용될 수 있다. 2D 회전 유닛(912)은, 예컨대, 스플라인 평활화 함수를 사용할 수 있다.
[0293] 예시하기 위해, 사운드필드 분석 유닛(910) 모듈이 사운드필드의 우세한 방향이 하나의 분석 프레임 내에서 70° 방위각에 있음을 표시하는 경우, 2D 회전 유닛(912)은 사운드필드를 φ = -70°만큼 평활하게 회전시킬 수 있어서, 이제 우세한 방향은 이제 0°이다. 다른 가능성으로서, 2D 회전 유닛(912)은 사운드필드를 φ = 50°만큼 회전시킬 수 있어서, 이제 우세 방향은 120°이다. 그 다음, 2D 회전 유닛(912)은 비트스트림 내에서 추가적인 측파대 파라미터로서 적용된 회전 각도(913)를 시그널링할 수 있어서, 디코더가 정확한 역회전 동작을 적용할 수 있게 한다.
[0294] 도 30의 예에 추가로 도시된 바와 같이, 상관해제 유닛(904)은 또한 2D 공간적 변환 유닛(914)을 포함한다. 2D 공간적 변환 유닛(914)은, 회전된 베이스 계층(915)을 3개의 방위각들(예컨대, 0, 120 및 240)로 효과적으로 렌더링하는, 구면 조화 도메인으로부터 공간적 도메인으로 베이스 계층의 회전된 표현을 변환하도록 구성된 유닛을 표현한다. 2D 공간적 변환 유닛(914)은 회전된 베이스 계층(915)의 계수들을 HOA 계수 차수 '00+','11-','11+' 및 N3D 정규화를 가정하는 다음의 변환 행렬과 곱할 수 있다:
Figure 112017034321836-pct00187
전술한 행렬은 방위각들 0°, 120° 및 240°에서 공간적 오디오 신호들(905)을 컴퓨팅하여, 360°의 원이 3개의 부분들로 균등하게 분할되게 한다. 앞서 주목된 바와 같이, 각각의 부분이 120도를 커버하는 한, 예컨대, 60°, 180° 및 300°로 공간적 신호들을 컴퓨팅하는 한, 다른 분리들이 가능하다.
[0295] 이러한 방식으로, 기법들은 스케일러블 고차 앰비소닉 오디오 데이터 인코딩을 수행하도록 구성된 디바이스(900)를 제공할 수 있다. 디바이스(900)는 고차 앰비소닉 오디오 데이터의 2개 또는 그 초과의 계층들의 제 1 계층의 상관해제된 표현(905)을 획득하기 위해 고차 앰비소닉 오디오 데이터의 2개 또는 그 초과의 계층들의 제 1 계층(903)에 대해 상관해제를 수행하도록 구성될 수 있다.
[0296] 이러한 그리고 다른 인스턴스들에서, 고차 앰비소닉 오디오 데이터의 2개 또는 그 초과의 계층들의 제 1 계층(903)은 1과 동일하거나 또는 1보다 작은 차수를 가지는 하나 또는 그 초과의 구면 기저 함수들에 대응하는 주변 고차 앰비소닉 계수들을 포함한다. 이러한 그리고 다른 인스턴스들에서, 고차 앰비소닉 오디오 데이터의 2개 또는 그 초과의 계층들의 제 1 계층(903)은 사운드필드의 수평 양상들을 설명하는 구면 기저 함수들에만 대응하는 주변 고차 앰비소닉 계수들을 포함한다. 이러한 그리고 다른 인스턴스들에서, 사운드필드의 수평 양상들을 설명하는 구면 기저 함수들에만 대응하는 주변 고차 앰비소닉 계수들은 제로의 차수 및 제로의 서브-차수를 가지는 구면 기저 함수에 대응하는 제 1 주변 고차 앰비소닉 계수들, 1의 차수 및 -1의 서브-차수를 가지는 구면 기저 함수에 대응하는 제 2 고차 앰비소닉 계수들, 및 1의 차수 및 1의 서브-차수를 가지는 구면 기저 함수에 대응하는 제 3차 앰비소닉 계수들을 포함할 수 있다.
[0297] 이러한 그리고 다른 인스턴스들에서, 디바이스(900)는 고차 앰비소닉 오디오 데이터의 제 1 계층(903)에 대해 (예컨대, 2D 회전 유닛(912)에 의해) 변환을 수행하도록 구성될 수 있다.
[0298] 이러한 그리고 다른 인스턴스들에서, 디바이스(900)는 고차 앰비소닉 오디오 데이터의 제 1 계층(903)에 대해 (예컨대, 2D 회전 유닛(912)에 의해) 회전을 수행하도록 구성될 수 있다.
[0299] 이러한 그리고 다른 인스턴스들에서, 디바이스(900)는 고차 앰비소닉 오디오 데이터의 2개 또는 그 초과의 계층들의 제 1 계층의 변환된 표현(915)을 획득하기 위해 고차 앰비소닉 오디오 데이터의 2개 또는 그 초과의 계층들의 제 1 계층(903)에 대해 (예컨대, 2D 회전 유닛(912)에 의해) 변환을 적용하고, 고차 앰비소닉 오디오 데이터의 2개 또는 그 초과의 계층들의 제 1 계층의 상관해제된 표현(905)을 획득하기 위해 (예컨대, 2D 공간적 변환 유닛(914)에 의해) 구면 조화 도메인으로부터 공간적 도메인으로 고차 앰비소닉 오디오 데이터의 2개 또는 그 초과의 계층들의 제 1 계층의 변환된 표현(915)을 변환하도록 구성될 수 있다.
[0300] 이들 및 다른 인스턴스들에서, 디바이스(900)는 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 회전된 표현(915)을 획득하기 위하여 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층(903)에 대해 회전을 적용하고, 그리고 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현(905)을 획득하기 위하여 구면 조화 도메인으로부터 공간적 도메인으로 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 회전된 표현(915)을 변환하도록 구성될 수 있다.
[0301] 이들 및 다른 인스턴스들에서, 디바이스(900)는 변환 정보(911)를 획득하고, 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)을 획득하기 위하여 변환 정보(911)에 기반하여 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층(903)에 대해 변환을 적용하고, 그리고 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현(905)을 획득하기 위하여 구면 조화 도메인으로부터 공간적 도메인으로 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)을 변환하도록 구성될 수 있다.
[0302] 이들 및 다른 인스턴스들에서, 디바이스(900)는 회전 정보(911)를 획득하고, 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 회전된 표현(915)을 획득하기 위하여 회전 정보(911)에 기반하여 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층(903)에 대해 회전을 적용하고, 그리고 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현(905)을 획득하기 위하여 구면 조화 도메인으로부터 공간적 도메인으로 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 회전된 표현(915)을 변환하도록 구성될 수 있다.
[0303] 이들 및 다른 인스턴스들에서, 디바이스(900)는 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)을 획득하기 위하여 적어도 부분적으로 평활화 함수를 사용하여 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층(903)에 대해 변환을 적용하고, 그리고 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현(905)을 획득하기 위하여 구면 조화 도메인으로부터 공간적 도메인으로 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)을 변환하도록 구성될 수 있다.
[0304] 이들 및 다른 인스턴스들에서, 디바이스(900)는 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 회전된 표현(915)을 획득하기 위하여 적어도 부분적으로 평활화 함수를 사용하여 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층(903)에 대해 회전을 적용하고, 그리고 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현을 획득하기 위하여 구면 조화 도메인으로부터 공간적 도메인으로 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 회전된 표현(915)을 변환하도록 구성될 수 있다.
[0305] 이들 및 다른 인스턴스들에서, 디바이스(900)는, 역변환 또는 역회전을 적용할 때 사용될 평활화 함수의 표시를 특정하도록 구성될 수 있다.
[0306] 이들 및 다른 인스턴스들에서, 디바이스(900)는, 도 3에 대해 위에서 설명된 바와 같이, V-벡터를 획득하기 위하여 선형 가역 변환을 고차 앰비소닉 오디오 데이터에 적용하고, 그리고 V-벡터를 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 2 계층으로서 특정하도록 추가로 구성될 수 있다.
[0307] 이들 및 다른 인스턴스들에서, 디바이스(900)는 1의 차수 및 제로의 서브-차수를 가지는 구면 기저 함수와 연관된 고차 앰비소닉 계수들을 획득하고, 그리고 고차 앰비소닉 계수들을 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 2 계층으로서 특정하도록 추가로 구성될 수 있다.
[0308] 이들 및 다른 인스턴스들에서, 디바이스(900)는 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현에 대해 시간적 인코딩을 수행하도록 추가로 구성될 수 있다.
[0309] 도 31은 본 개시내용에 설명된 기법들의 다양한 양상들에 따라 동작하도록 구성될 수 있는 오디오 디코더(920)를 예시하는 블록 다이어그램이다. 디코더(920)는 HOA 계수들을 재구성하고, 인핸스먼트 계층들의 V-벡터들을 재구성하고, 시간적 오디오 디코딩(시간적 오디오 디코딩 유닛(922)에 의해 수행됨)을 수행하는 등의 측면에서 도 2의 예에 도시된 오디오 디코딩 디바이스(24)의 다른 예를 표현한다. 그러나, 디코더(920)는, 디코더(920)가 비트스트림에서 특정된 바와 같이 스케일러블 코딩된 고차 앰비소닉 오디오 데이터에 대해 동작한다는 점에서 상이하다.
[0310] 도 31의 예에 도시된 바와 같이, 오디오 디코더(920)는 시간적 디코딩 유닛(922), 역 2D 공간 변환 유닛(924), 베이스 계층 렌더링 유닛(928) 및 인핸스먼트 계층 프로세싱 유닛(930)을 포함한다. 시간적 디코딩 유닛(922)은 시간적 인코딩 유닛(906)의 것과 레시프로콜 방식으로 동작하도록 구성될 수 있다. 역 2D 공간 변환 유닛(924)은 2D 공간 변환 유닛(914)의 것과 레시프로컬 방식으로 동작하도록 구성된 유닛을 표현할 수 있다.
[0311] 다른 말로, 역 2D 공간 변환 유닛(924)은 회전된 수평 주변 HOA 계수들(915)(또한 "회전된 베이스 계층(915)"으로서 지칭될 수 있음)을 획득하기 위하여 아래의 행렬을 공간 오디오 신호들(905)에 적용하도록 구성될 수 있다. 역 2D 공간 변환 유닛(924)은 위의 행렬과 같이 HOA 계수 차수('00+','11-','11+') 및 N3D 정규화를 가정하는 다음 변환 행렬을 사용하여 3개의 송신된 오디오 신호들(905)을 다시 HOA 도메인으로 변환할 수 있다.
Figure 112017034321836-pct00188
전술한 행렬은 디코더에서 사용된 변환 행렬의 역이다.
[0312] 역 2D 회전 유닛(926)은 2D 회전 유닛(912)에 대해 위에서 설명된 것과 레시프로컬 방식으로 동작하도록 구성될 수 있다. 이에 관하여, 2D 회전 유닛(912)은 회전 각도 파라미터(911) 대신 역회전 각도 파라미터(913)에 기반하여 위에서 주목된 회전 행렬에 따라 회전을 수행할 수 있다. 다른 말로, 역회전 유닛(926)에는, 시그널링된 회전(
Figure 112017034321836-pct00189
)에 기반하여, 다시 HOA 계수 차수('00+','11-','11+') 및 N3D 정규화를 가정하는 다음 행렬이 적용될 수 있다:
Figure 112017034321836-pct00190
역 2D 회전 유닛(926)은 비트스트림으로 시그널링되거나 선험적(a priori)으로 구성될 수 있는, 시변 회전 각도에 대한 평활한 트랜지션을 보장하기 위하여 디코더에 사용된 동일한 평활(보간) 함수를 사용할 수 있다.
[0313] 베이스 계층 렌더링 유닛(928)은 베이스 계층의 수평-전용 주변 HOA 계수들을 확성기 피드들에게 렌더링하도록 구성된 유닛을 표현할 수 있다. 인핸스먼트 계층 프로세싱 유닛(930)은 스피커 피드들에 렌더링하도록 임의의 수신된 인핸스먼트 계층들(V-벡터들에 대응하는 오디오 오브젝트들과 함께 부가적인 주변 HOA 계수들 및 V- 벡터들에 대해 위에서 설명된 많은 디코딩을 수반하는 별개의 인핸스먼트 계층 디코딩 경로를 통해 디코딩됨)로 베이스 계층의 추가 프로세싱을 수행하도록 구성된 유닛을 표현할 수 있다. 인핸스먼트 계층 프로세싱 유닛(930)은 잠재적으로 사운드필드 내에서 현실적으로 이동하는 사운드들을 가지는 보다 몰입형 오디오 경험을 제공할 수 있는 사운드필드의 더 높은 분해능 표현을 제공하도록 베이스 계층을 효과적으로 증대시킬 수 있다. 베이스 계층은 도 11-13b에 대해 위에서 설명된 제 1 계층들, 베이스 계층들 또는 베이스 서브-계층들 중 임의의 것과 유사할 수 있다. 인핸스먼트 계층들은 도 11-13b에 대해 위에서 설명된 제 2 계층들, 인핸스먼트 계층들 또는 인핸스먼트 서브-계층들 중 임의의 것과 유사할 수 있다.
[0314] 이에 관하여, 기법들은 스케일러블 고차 앰비소닉 오디오 데이터 디코딩을 수행하도록 구성된 디바이스(920)를 제공한다. 디바이스는 고차 앰비소닉 오디오 데이터(예컨대, 공간 오디오 신호들(905))의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현을 획득하도록 구성될 수 있고, 고차 앰비소닉 오디오 데이터는 사운드필드를 서술한다. 제 1 계층의 상관해제된 표현은 고차 앰비소닉 오디오 데이터의 제 1 계층에 대해 상관해제를 수행함으로써 상관해제된다.
[0315] 일부 인스턴스들에서, 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층은 1보다 작거나 이와 같은 차수를 가지는 하나 또는 그 초과의 구면 기저 함수들에 대응하는 주변 고차 앰비소닉 계수들을 포함한다. 이들 및 다른 인스턴스들에서, 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층은 사운드필드의 수평 양상들을 서술하는 구면 기저 함수들에만 대응하는 주변 고차 앰비소닉 계수들을 포함한다. 이들 및 다른 인스턴스들에서, 사운드필드의 수평 양상들을 서술하는 구면 기저 함수들에만 대응하는 주변 고차 앰비소닉 계수들은 제로 차수 및 제로의 서브-차수를 가지는 구면 기저 함수에 대응하는 제 1 주변 고차 앰비소닉 계수들, 1의 차수 및 네거티브 1의 서브-차수를 가지는 구면 기저 함수에 대응하는 제 2 고차 앰비소닉 계수들, 및 1의 차수 및 1의 서브-차수를 가지는 구면 기저 함수에 대응하는 제 3 고차 앰비소닉 계수들을 포함한다.
[0316] 이들 및 다른 인스턴스들에서, 제 1 계층의 상관해제된 표현은, 인코더(900)에 대해 위에서 설명된 바와 같이, 고차 앰비소닉 오디오 데이터의 제 1 계층에 대해 변환을 수행함으로써 상관해제된다.
[0317] 이들 및 다른 인스턴스들에서, 디바이스(920)는 고차 앰비소닉 오디오 데이터의 제 1 계층에 대해 회전(예컨대, 역 2D 회전 유닛(926))을 수행하도록 구성될 수 있다.
[0318] 이들 및 다른 인스턴스들에서, 디바이스(920)는 예컨대 역 2D 공간 변환 유닛(924) 및 역 2D 회전 유닛(926)에 대해 위에서 설명된 바와 같이 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층을 획득하기 위하여 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현을 재상관시키도록 구성될 수 있다.
[0319] 이들 및 다른 인스턴스들에서, 디바이스(920)는 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)을 획득하기 위하여 공간적 도메인으로부터 구면 조화 도메인으로 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현(905)을 변환하고, 그리고 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층을 획득하기 위하여 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)에 대해 역변환(예컨대, 역 2D 회전 유닛(926)에 대해 위에서 설명됨)을 적용하도록 구성될 수 있다.
[0320] 이들 및 다른 인스턴스들에서, 디바이스(920)는 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)을 획득하기 위하여 공간적 도메인으로부터 구면 조화 도메인으로 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현(905)을 변환하고, 그리고 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층을 획득하기 위하여 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)에 대해 역회전을 적용하도록 구성될 수 있다.
[0321] 이들 및 다른 인스턴스들에서, 디바이스(920)는 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)을 획득하기 위하여 공간적 도메인으로부터 구면 조화 도메인으로 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현(905)을 변환하고, 그리고 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층을 획득하기 위하여 변환 정보(913)에 기반하여 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)에 대해 역변환을 적용하도록 구성될 수 있다.
[0322] 이들 및 다른 인스턴스들에서, 디바이스(920)는 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)을 획득하기 위하여 공간적 도메인으로부터 구면 조화 도메인으로 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현(905)을 변환하고, 회전 정보(913)를 획득하고, 그리고 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층을 획득하기 위하여 회전 정보(913)에 기반하여 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)에 대해 역회전을 적용하도록 구성될 수 있다.
[0323] 이들 및 다른 인스턴스들에서, 디바이스(920)는 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)을 획득하기 위하여 공간적 도메인으로부터 구면 조화 도메인으로 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현(905)을 변환하고, 그리고 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층을 획득하기 위하여 적어도 부분적으로 평활화 함수를 사용하여 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)에 대해 역변환을 적용하도록 구성될 수 있다.
[0324] 이들 및 다른 인스턴스들에서, 디바이스(920)는 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)을 획득하기 위하여 공간적 도메인으로부터 구면 조화 도메인으로 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 상관해제된 표현(905)을 변환하고, 그리고 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층을 획득하기 위하여 적어도 부분적으로 평활화 함수를 사용하여 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 1 계층의 변환된 표현(915)에 대해 역회전을 적용하도록 구성될 수 있다.
[0325] 이들 및 다른 인스턴스들에서, 디바이스(920)는, 역변환 또는 역회전을 적용할 때 사용될 평활화 함수의 표시를 획득하도록 추가로 구성될 수 있다.
[0326] 이들 및 다른 인스턴스들에서, 디바이스(920)는 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 2 계층의 표현을 획득하도록 추가로 구성될 수 있고, 여기서 제 2 계층의 표현은 벡터-기반 우세 오디오 데이터를 포함하고, 도 3의 예에 대해 위에서 설명된 바와 같이, 벡터-기반 우세 오디오 데이터는 적어도 우세 오디오 데이터 및 인코딩된 V-벡터를 포함하고, 그리고 인코딩된 V-벡터는 선형 가역 변환의 적용을 통해 고차 앰비소닉 오디오 데이터로부터 분해된다.
[0327] 이들 및 다른 인스턴스들에서, 디바이스(920)는 고차 앰비소닉 오디오 데이터의 2 또는 그 초과의 계층들 중 제 2 계층의 표현을 획득하도록 추가로 구성될 수 있고, 여기서 제 2 계층의 표현은 1의 차수 및 제로의 서브-차수를 가지는 구면 기저 함수와 연관된 고차 앰비소닉 계수들을 포함한다.
[0328] 이런 식으로, 기법들은, 디바이스가 다음의 조항들에서 제시되는 방법을 수행하도록 구성될 수 있게 하거나, 다음의 조항들에서 제시되는 방법을 수행하기 위한 수단을 포함하는 장치 또는 실행될 때, 하나 또는 그 초과의 프로세서들로 하여금 다음의 조항들에서 제시되는 방법을 수행하게 하는 명령들이 저장되어 있는 비-일시적 컴퓨터-판독가능 매체를 제공할 수 있다.
[0329] 조항 1A. 비트스트림을 생성하기 위해 고차 앰비소닉 오디오 신호를 인코딩하는 방법은, 비트스트림에 계층들의 수의 표시를 특정하는 단계, 및 계층들의 표시된 수를 포함하는 비트스트림을 출력하는 단계를 포함한다.
[0330] 조항 2A. 조항 1A의 방법은, 비트스트림에 포함된 채널들의 수의 표시를 특정하는 단계를 더 포함한다.
[0331] 조항 3A. 조항 1A의 방법에서, 계층들의 수의 표시는 이전 프레임에 대한 비트스트림 내 계층들의 수의 표시를 포함하고, 이 방법은 이전 프레임에 대한 비트스트림의 계층들의 수와 비교할 때 현재 프레임에 대해 비트스트림의 계층들의 수가 변경되었는지 여부의 표시를 비트스트림에 특정하는 단계, 및 현재 프레임에 비트스트림의 계층들의 표시된 수를 특정하는 단계를 더 포함한다.
[0332] 조항 4A. 조항 3A의 방법에서, 계층들의 표시된 수를 특정하는 단계는, 표시가 이전 프레임 내 비트스트림의 계층들의 수와 비교할 때 현재 프레임에서 비트스트림의 계층들의 수가 변경되지 않았음을 표시할 때, 현재 프레임에 대한 계층들 중 하나 또는 그 초과 내 배경 컴포넌트들의 현재 수가 이전 프레임의 계층들 중 하나 또는 그 초과 내 배경 컴포넌트들의 이전 수와 동일하다는 표시를 비트스트림에 특정하지 않고, 계층들의 표시된 수를 특정하는 단계를 포함한다.
[0333] 조항 5A. 조항 1A의 방법에서, 계층들은 제 1 계층이 제 2 계층과 결합될 때, 고차 앰비소닉 오디오 신호의 더 높은 분해능 표현을 제공하도록 계층적이다.
[0334] 조항 6A. 조항 1A의 방법에서, 비트스트림의 계층들은 베이스 계층 및 인핸스먼트 계층을 포함하고, 이 방법은 고차 앰비소닉 오디오 신호의 배경 컴포넌트들의 상관해제된 표현을 획득하기 위해 베이스 계층의 하나 또는 그 초과의 채널들에 대해 상관해제 변환을 적용하는 단계를 더 포함한다.
[0335] 조항 7A. 조항 6A의 방법에서, 상관해제 변환은 UHJ 변환을 포함한다.
[0336] 조항 8A. 조항 6A의 방법에서, 상관해제 변환은 모드 행렬 변환을 포함한다.
[0337] 더욱이, 기법들은, 디바이스가 다음의 조항들에서 제시되는 방법을 수행하도록 구성될 수 있게 하거나, 다음의 조항들에서 제시되는 방법을 수행하기 위한 수단을 포함하는 장치, 또는 실행될 때, 하나 또는 그 초과의 프로세서들로 하여금 다음의 조항들에서 제시되는 방법을 수행하게 하는 명령들이 저장된 비-일시적 컴퓨터-판독가능 매체를 제공할 수 있다.
[0338] 조항 1B. 비트스트림을 생성하기 위해 고차 앰비소닉 오디오 신호를 인코딩하는 방법은, 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수의 표시를 비트스트림에 특정하는 단계, 및 비트스트림의 하나 또는 그 초과의 계층들에 채널들의 표시된 수를 특정하는 단계를 포함한다.
[0339] 조항 2B. 조항 1B의 방법은, 비트스트림에 특정된 채널들의 총 수의 표시를 특정하는 단계를 더 포함하며, 채널들의 표시된 수를 특정하는 단계는 비트스트림의 하나 또는 그 초과의 계층들에 채널들의 표시된 총 수를 특정하는 단계를 포함한다.
[0340] 조항 3B. 조항 1B의 방법은, 비트스트림 내 하나 또는 그 초과의 계층들에 특정된 채널들 중 하나의 채널의 타입의 표시를 특정하는 단계를 더 포함하며, 채널들의 표시된 수를 특정하는 단계는 비트스트림의 하나 또는 그 초과의 계층들에 채널들 중 하나의 채널의 표시된 타입의 표시된 수를 특정하는 단계를 포함한다.
[0341] 조항 4B. 조항 1B의 방법은, 비트스트림 내 하나 또는 그 초과의 계층들에 특정된 채널들 중 하나의 채널의 타입의 표시를 특정하는 단계를 더 포함하며, 채널들 중 하나의 채널의 타입의 표시는 채널들 중 하나가 전경 채널임을 표시하고, 채널들의 표시된 수를 특정하는 단계는 비트스트림의 하나 또는 그 초과의 계층들에 전경 채널을 특정하는 단계를 포함한다.
[0342] 조항 5B. 조항 1B의 방법은, 비트스트림에 특정된 계층들의 수의 표시를 비트스트림에 특정하는 단계를 더 포함한다.
[0343] 조항 6B. 조항 1B의 방법은, 비트스트림 내 하나 또는 그 초과의 계층들에 특정된 채널들 중 하나의 채널의 타입의 표시를 특정하는 단계를 더 포함하며, 채널들 중 하나의 채널의 타입의 표시는 채널들 중 하나가 배경 채널임을 표시하고, 채널들의 표시된 수를 특정하는 단계는 비트스트림의 하나 또는 그 초과의 계층들에 배경 채널을 특정하는 단계를 포함한다.
[0344] 조항 7B. 조항 6B의 방법에서, 채널들 중 하나는 배경 고차 앰비소닉 계수를 포함한다.
[0345] 조항 8B. 조항 1B의 방법에서, 채널들의 수의 표시를 특정하는 단계는 계층들 중 하나가 특정된 후 비트스트림에 남은 채널들의 수에 기반하여 채널들의 수의 표시를 특정하는 단계를 포함한다.
[0346] 이런 식으로, 기법들은, 디바이스가 다음의 조항들에서 제시되는 방법을 수행하도록 구성될 수 있게 하거나, 다음의 조항들에서 제시되는 방법을 수행하기 위한 수단을 포함하는 장치, 또는 실행될 때, 하나 또는 그 초과의 프로세서들로 하여금 다음의 조항들에서 제시되는 방법을 수행하게 하는 명령들이 저장된 비-일시적 컴퓨터-판독가능 매체를 제공할 수 있다.
[0347] 조항 1C. 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법은, 비트스트림에 특정된 계층들의 수의 표시를 비트스트림으로부터 획득하는 단계, 및 계층들의 수의 표시에 기반하여 비트스트림의 계층들을 획득하는 단계를 포함한다.
[0348] 조항 2C. 조항 1C의 방법은, 비트스트림에 특정된 채널들의 수의 표시를 획득하는 단계를 더 포함하며, 계층들을 획득하는 단계는 계층들의 수의 표시 및 채널들의 수의 표시에 기반하여 비트스트림의 계층들을 획득하는 단계를 포함한다.
[0349] 조항 3C. 조항 1C의 방법은, 계층들 중 적어도 하나에 대해 비트스트림에 특정된 전경 채널들의 수의 표시를 획득하는 단계를 더 포함하며, 계층들을 획득하는 단계는 전경 채널들의 수의 표시에 기반하여 비트스트림의 계층들 중 적어도 하나에 대한 전경 채널들을 획득하는 단계를 포함한다.
[0350] 조항 4C. 조항 1C의 방법은, 계층들 중 적어도 하나에 대해 비트스트림에 특정된 배경 채널들의 수의 표시를 획득하는 단계를 더 포함하며, 계층들을 획득하는 단계는 배경 채널들의 수의 표시에 기반하여 비트스트림의 계층들 중 적어도 하나에 대한 배경 채널들을 획득하는 단계를 포함한다.
[0351] 조항 5C. 조항 1C의 방법에서, 계층들의 수의 표시는 계층의 수가 2개임을 표시하고, 2개의 계층들은 베이스 계층 및 인핸스먼트 계층을 포함하고, 계층들을 획득하는 단계는 전경 채널들의 수가 베이스 계층에 대해서는 제로이고 인핸스먼트 계층에 대해서는 2개라는 표시를 획득하는 단계를 포함한다.
[0352] 조항 6C. 조항 1C 또는 5C의 방법에서, 계층들의 수의 표시는 계층의 수가 2개임을 표시하고, 2개의 계층들은 베이스 계층 및 인핸스먼트 계층을 포함하고, 이 방법은 배경 채널들의 수가 베이스 계층에 대해서는 4개 그리고 인핸스먼트 계층에 대해서는 제로라는 표시를 획득하는 단계를 더 포함한다.
[0353] 조항 7C. 조항 1C의 방법에서, 계층들의 수의 표시는 계층의 수가 3개임을 표시하고, 3개의 계층들은 베이스 계층, 제 1 인핸스먼트 계층 및 제 2 인핸스먼트 계층을 포함하며, 이 방법은 전경 채널들의 수가 베이스 계층에 대해서는 제로이고, 제 1 인핸스먼트 계층에 대해서는 2개 그리고 제 3 인핸스먼트 계층에 대해서는 2개라는 표시를 획득하는 단계를 더 포함한다.
[0354] 조항 8C. 조항 1C 또는 7C의 방법에서, 계층들의 수의 표시는 계층의 수가 3개임을 표시하고, 3개의 계층들은 베이스 계층, 제 1 인핸스먼트 계층 및 제 2 인핸스먼트 계층을 포함하며, 이 방법은 배경 채널들의 수가 베이스 계층에 대해서는 2개, 제 1 인핸스먼트 계층에 대해서는 제로 그리고 제 3 인핸스먼트 계층에 대해서는 제로라는 표시를 획득하는 단계를 더 포함한다.
[0355] 조항 9C. 조항 1C의 방법에서, 계층들의 수의 표시는 계층의 수가 3개임을 표시하고, 3개의 계층들은 베이스 계층, 제 1 인핸스먼트 계층 및 제 2 인핸스먼트 계층을 포함하며, 이 방법은 전경 채널들의 수가 베이스 계층에 대해서는 2개, 제 1 인핸스먼트 계층에 대해서는 2개 그리고 제 3 인핸스먼트 계층에 대해서는 2개라는 표시를 획득하는 단계를 더 포함한다.
[0356] 조항 10C. 조항 1C 또는 9C의 방법에서, 계층들의 수의 표시는 계층의 수가 3개임을 표시하고, 3개의 계층들은 베이스 계층, 제 1 인핸스먼트 계층 및 제 2 인핸스먼트 계층을 포함하며, 이 방법은 배경 채널들의 수가 베이스 계층에 대해 제로, 제 1 인핸스먼트 계층에 대해 제로이고 그리고 제 3 인핸스먼트 계층에 대해 제로임을 표시하는 배경 구문 엘리먼트를 획득하는 단계를 더 포함한다.
[0357] 조항 11C. 조항 1C의 방법에서, 계층들의 수의 표시는 비트스트림의 이전 프레임 내 계층들의 수의 표시를 포함하고, 이 방법은 이전 프레임 내 비트스트림의 계층들의 수와 비교할 때 현재 프레임에서 비트스트림의 계층들의 수가 변경되었는지 여부의 표시를 획득하는 단계, 및 현재 프레임에서 비트스트림의 계층들의 수가 변경되었는지 여부의 표시에 기반하여 현재 프레임 내 비트스트림의 계층들의 수를 획득하는 단계를 더 포함한다.
[0358] 조항 12C. 조항 11C의 방법은, 표시가 이전 프레임 내 비트스트림의 계층들의 수와 비교할 때 현재 프레임에서 비트스트림의 계층들의 수가 변경되지 않았음을 표시할 때 현재 프레임 내 비트스트림의 계층들의 수를 이전 프레임 내 비트스트림의 계층들의 수와 동일한 것으로 결정하는 단계를 더 포함한다.
[0359] 조항 13C. 조항 11C의 방법은, 표시가 이전 프레임 내 비트스트림의 계층들의 수와 비교할 때 현재 프레임에서 비트스트림의 계층들의 수가 변경되지 않았음을 표시할 때, 현재 프레임에 대한 계층들 중 하나 또는 그 초과 내 컴포넌트들의 현재 수가 이전 프레임의 계층들 중 하나 또는 그 초과 내 컴포넌트들의 이전 수와 동일하다는 표시를 획득하는 단계를 더 포함한다.
[0360] 조항 14C. 조항 1C의 방법에서, 계층들의 수의 표시는 비트스트림에 3개의 계층들이 특정됨을 표시하고, 계층들을 획득하는 단계는 스테레오 채널 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 1 계층을 획득하는 단계, 하나 또는 그 초과의 수평 평면들 상에 배열된 3개 또는 그 초과의 스피커들에 의해 3차원 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 2 계층을 획득하는 단계, 및 고차 앰비소닉 오디오 신호의 전경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 3 계층을 획득하는 단계를 포함한다.
[0361] 조항 15C. 조항 1C의 방법에서, 계층들의 수의 표시는 비트스트림에 3개의 계층들이 특정됨을 표시하고, 계층들을 획득하는 단계는 모노 채널 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 1 계층을 획득하는 단계, 하나 또는 그 초과의 수평 평면들 상에 배열된 3개 또는 그 초과의 스피커들에 의해 3차원 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 2 계층을 획득하는 단계, 및 고차 앰비소닉 오디오 신호의 전경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 3 계층을 획득하는 단계를 포함한다.
[0362] 조항 16C. 조항 1C의 방법에서, 계층들의 수의 표시는 비트스트림에 3개의 계층들이 특정됨을 표시하고, 계층들을 획득하는 단계는 스테레오 채널 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 1 계층을 획득하는 단계, 단일 수평 평면 상에 배열된 3개 또는 그 초과의 스피커들에 의해 멀티-채널 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 2 계층을 획득하는 단계, 2개 또는 그 초과의 수평 평면들 상에 배열된 3개 또는 그 초과의 스피커들에 의해 3차원 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 3 계층을 획득하는 단계, 및 고차 앰비소닉 오디오 신호의 전경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 4 계층을 획득하는 단계를 포함한다.
[0363] 조항 17C. 조항 1C의 방법에서, 계층들의 수의 표시는 비트스트림에 3개의 계층들이 특정됨을 표시하고, 계층들을 획득하는 단계는 모노 채널 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 1 계층을 획득하는 단계, 단일 수평 평면 상에 배열된 3개 또는 그 초과의 스피커들에 의해 멀티-채널 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 2 계층을 획득하는 단계, 2개 또는 그 초과의 수평 평면들 상에 배열된 3개 또는 그 초과의 스피커들에 의해 3차원 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 3 계층을 획득하는 단계, 및 고차 앰비소닉 오디오 신호의 전경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 4 계층을 획득하는 단계를 포함한다.
[0364] 조항 18C. 조항 1C의 방법에서, 계층들의 수의 표시는 비트스트림에 2개의 계층들이 특정됨을 표시하고, 계층들을 획득하는 단계는 스테레오 채널 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 1 계층을 획득하는 단계, 및 단일 수평 평면 상에 배열된 3개 또는 그 초과의 스피커들에 의해 수평 멀티-채널 플레이백을 제공하는 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 나타내는 비트스트림의 계층들 중 제 2 계층을 획득하는 단계를 포함한다.
[0365] 조항 19C. 조항 1C의 방법은, 비트스트림에 특정된 채널들의 수의 표시를 획득하는 단계를 더 포함하며, 계층들을 획득하는 단계는 계층들의 수의 표시 및 채널들의 수의 표시에 기반하여 비트스트림의 계층들을 획득하는 단계를 포함한다.
[0366] 조항 20C. 조항 1C의 방법은, 채널들 중 적어도 하나에 대해 비트스트림에 특정된 전경 채널들의 수의 표시를 획득하는 단계를 더 포함하며, 계층들을 획득하는 단계는 전경 채널들의 수의 표시에 기반하여 비트스트림의 계층들 중 적어도 하나에 대한 전경 채널들을 획득하는 단계를 포함한다.
[0367] 조항 21C. 조항 1C의 방법은, 계층들 중 적어도 하나에 대해 비트스트림에 특정된 배경 채널들의 수의 표시를 획득하는 단계를 더 포함하며, 계층들을 획득하는 단계는 배경 채널들의 수의 표시에 기반하여 비트스트림의 계층들 중 적어도 하나에 대한 배경 채널들을 획득하는 단계를 포함한다.
[0368] 조항 22C. 조항 1C의 방법은, 계층들 중 적어도 하나가 획득된 후 비트스트림에 남은 채널들의 수에 기반하여 계층들 중 적어도 하나에 대해 비트스트림에 특정된 전경 채널들의 수의 표시를 파싱하는 단계를 더 포함하며, 계층들을 획득하는 단계는 전경 채널들의 수의 표시에 기반하여 계층들 중 적어도 하나의 계층의 전경 채널들을 획득하는 단계를 포함한다.
[0369] 조항 23C. 조항 22C의 방법에서, 계층들 중 적어도 하나가 획득된 후 비트스트림에 남은 채널들의 수는 구문 엘리먼트로 표현된다.
[0370] 조항 24C. 조항 1C의 방법은, 계층들 중 적어도 하나가 획득된 후 채널들의 수에 기반하여 계층들 중 적어도 하나에 대해 비트스트림에 특정된 배경 채널들의 수의 표시를 파싱하는 단계를 더 포함하며, 배경 채널들을 획득하는 단계는 배경 채널들의 수의 표시에 기반하여 비트스트림으로부터의 계층들 중 적어도 하나에 대한 배경 채널들을 획득하는 단계를 포함한다.
[0371] 조항 25C. 조항 24C의 방법에서, 계층들 중 적어도 하나가 획득된 후 비트스트림에 남은 채널들의 수는 구문 엘리먼트로 표현된다.
[0372] 조항 26C. 조항 1C의 방법에서, 비트스트림의 계층들은 베이스 계층 및 인핸스먼트 계층을 포함하고, 이 방법은 고차 앰비소닉 오디오 신호의 배경 컴포넌트들의 상관된 표현을 획득하기 위해 베이스 계층의 하나 또는 그 초과의 채널들에 대해 상관 변환을 적용하는 단계를 더 포함한다.
[0373] 조항 27C. 조항 26C의 방법에서, 상관 변환은 역 UHJ 변환을 포함한다.
[0374] 조항 28C. 조항 26C의 방법에서, 상관 변환은 역 모드 행렬 변환을 포함한다.
[0375] 조항 29C. 조항 1C의 방법에서, 비트스트림의 계층들 각각에 대한 채널들의 수는 고정적이다.
[0376] 더욱이, 기법들은 디바이스가 다음의 조항들에서 제시되는 방법을 수행하도록 구성될 수 있게 하거나, 다음의 조항들에서 제시되는 방법을 수행하기 위한 수단을 포함하는 장치, 또는 실행될 때, 하나 또는 그 초과의 프로세서들로 하여금 다음의 조항들에서 제시되는 방법을 수행하게 하는 명령들이 저장된 비-일시적 컴퓨터-판독가능 매체를 제공할 수 있다.
[0377] 조항 1D. 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법은, 비트스트림 내 하나 또는 그 초과의 계층들에 특정된 채널들의 수의 표시를 비트스트림으로부터 획득하는 단계, 및 채널들의 수의 표시에 기반하여 비트스트림 내 하나 또는 그 초과의 계층들에 특정된 채널들을 획득하는 단계를 포함한다.
[0378] 조항 2D. 조항 1D의 방법은, 비트스트림에 특정된 채널들의 총 수의 표시를 획득하는 단계를 더 포함하며, 채널들을 획득하는 단계는 하나 또는 그 초과의 계층들에 특정된 채널들의 수의 표시 및 채널들의 총 수의 표시에 기반하여 하나 또는 그 초과의 계층들에 특정된 채널들을 획득하는 단계를 포함한다.
[0379] 조항 3D. 조항 1D의 방법은, 비트스트림 내 하나 또는 그 초과의 계층들에 특정된 채널들 중 하나의 채널의 타입의 표시를 획득하는 단계를 더 포함하고, 채널들을 획득하는 단계는 채널들의 수의 표시 및 채널들 중 하나의 채널의 타입의 표시에 기반하여 채널들 중 하나를 획득하는 단계를 포함한다.
[0380] 조항 4D. 조항 1D의 방법은, 비트스트림 내 하나 또는 그 초과의 계층들에 특정된 채널들 중 하나의 채널의 타입의 표시를 획득하는 단계를 더 포함하고, 채널들 중 하나의 채널의 타입의 표시는 채널들 중 하나가 전경 채널임을 표시하고, 채널들을 획득하는 단계는 채널들의 수의 표시 및 채널들 중 하나의 채널의 타입이 전경 채널이라는 표시에 기반하여 채널들 중 하나를 획득하는 단계를 포함한다.
[0381] 조항 5D. 조항 1D의 방법은, 비트스트림에 특정된 계층들의 수의 표시를 획득하는 단계를 더 포함하고, 채널들을 획득하는 단계는 채널들의 수의 표시 및 계층들의 수의 표시에 기반하여 채널들 중 하나를 획득하는 단계를 포함한다.
[0382] 조항 6D. 조항 5D의 방법에서, 계층들의 수의 표시는 비트스트림의 이전 프레임 내 계층들의 수의 표시를 포함하고, 이 방법은 이전 프레임의 비트스트림 내 하나 또는 그 초과의 계층들에 특정된 채널들의 수와 비교할 때 현재 프레임에서 비트스트림 내 하나 또는 그 초과의 계층들에 특정된 채널들의 수가 변경되었는지 여부의 표시를 획득하는 단계를 더 포함하며, 채널들을 획득하는 단계는 현재 프레임에서 비트스트림 내 하나 또는 그 초과의 계층들에 특정된 채널들의 수가 변경되었는지 여부의 표시에 기반하여 채널들 중 하나를 획득하는 단계를 포함한다.
[0383] 조항 7D. 조항 5D의 방법은, 표시가 이전 프레임 내 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수와 비교할 때 현재 프레임에서 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수가 변경되지 않았음을 표시할 때 현재 프레임 내 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수를 이전 프레임 내 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수와 동일한 것으로 결정하는 단계를 더 포함한다.
[0384] 조항 8D. 조항 5D의 방법은, 표시가 이전 프레임 내 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수와 비교할 때 현재 프레임에서 비트스트림의 하나 또는 그 초과의 계층들에 특정된 채널들의 수가 변경되지 않았음을 표시할 때, 현재 프레임에 대한 계층들 중 하나 또는 그 초과 내 채널들의 현재 수가 이전 프레임의 계층들 중 하나 또는 그 초과 내 채널들의 이전 수와 동일하다는 표시를 획득하는 단계를 더 포함한다.
[0385] 조항 9D. 조항 1D의 방법은, 비트스트림 내 하나 또는 그 초과의 계층들에 특정된 채널들 중 하나의 채널의 타입의 표시를 획득하는 단계를 더 포함하고, 채널들 중 하나의 채널의 타입의 표시는 채널들 중 하나가 배경 채널임을 표시하고, 채널들을 획득하는 단계는 계층들의 수의 표시 및 채널들 중 하나의 채널의 타입이 배경 채널이라는 표시에 기반하여 채널들 중 하나를 획득하는 단계를 포함한다.
[0386] 조항 10D. 조항 9D의 방법은, 비트스트림 내 하나 또는 그 초과의 계층들에 특정된 채널들 중 하나의 채널의 타입의 표시를 획득하는 단계를 더 포함하고, 채널들 중 하나의 채널의 타입의 표시는 채널들 중 하나가 배경 채널임을 표시하고, 채널들을 획득하는 단계는 계층들의 수의 표시 및 채널들 중 하나의 채널의 타입이 배경 채널이라는 표시에 기반하여 채널들 중 하나를 획득하는 단계를 포함한다.
[0387] 조항 11D. 조항 9D의 방법에서, 채널들 중 하나는 배경 고차 앰비소닉 계수를 포함한다.
[0388] 조항 12D. 조항 9D의 방법에서, 채널들 중 하나의 채널의 타입의 표시를 획득하는 단계는 채널들 중 하나의 채널의 타입을 나타내는 구문 엘리먼트를 획득하는 단계를 포함한다.
[0389] 조항 13D. 조항 1D의 방법에서, 채널들의 수의 표시를 획득하는 단계는 계층들 중 하나가 획득된 후 비트스트림에 남은 채널들의 수에 기반하여 채널들의 수의 표시를 획득하는 단계를 포함한다.
[0390] 조항 14D. 조항 1D의 방법에서, 계층들은 베이스 계층을 포함한다.
[0391] 조항 15D. 조항 1D의 방법에서, 계층들은 베이스 계층 및 하나 또는 그 초과의 인핸스먼트 계층들을 포함한다.
[0392] 조항 16D. 조항 1D의 방법에서, 하나 또는 그 초과의 계층들의 수는 고정적이다.
[0393] 이전 기법들은 임의의 수의 상이한 콘텍스트들 및 오디오 에코시스템들에 대해 수행될 수 있다. 다수의 예시적 콘텍스트들이 아래에서 설명되지만, 기법들은 예시적 콘텍스트들로 제한되어야 한다. 하나의 예시적 오디오 에코시스템은 오디오 콘텐츠, 무비 스튜디오들, 뮤직 스튜디오들, 게이밍 오디오 스튜디오들, 채널 기반 오디오 콘텐츠, 코딩 엔진들, 게임 오디오 스템들, 게임 오디오 코딩/렌더링 엔진들, 및 전달 시스템들을 포함할 수 있다.
[0394] 무비 스튜디오들, 뮤직 스튜디오들 및 게이밍 오디오 스튜디오들은 오디오 콘텐츠를 수신할 수 있다. 일부 예들에서, 오디오 콘텐츠는 포착의 출력을 표현할 수 있다. 무비 스튜디오들은 이를테면 DAW(digital audio workstation)를 사용함으로써 (예컨대, 2.0, 5.1, 및 7.1의) 채널 기반 오디오 콘텐츠를 출력할 수 있다. 뮤직 스튜디오들은 이를테면 DAW를 사용함으로써 (예컨대, 2.0 및 5.1의) 채널 기반 오디오 콘텐츠를 출력할 수 있다. 어떤 경우든지, 코딩 엔진들은 전달 시스템들에 의한 출력을 위해 하나 또는 그 초과의 코덱들(예컨대, AAC, AC3, 돌비 트루 HD, 돌비 디지털 플러스 및 DTS 마스터 오디오)에 기반하는 채널 기반 오디오 콘텐츠를 수신 및 인코딩할 수 있다. 게이밍 오디오 스튜디오들은 이를테면 DAW를 사용함으로써 하나 또는 그 초과의 게임 오디오 스템들을 출력할 수 있다. 게임 오디오 코딩/렌더링 엔진들은 전달 시스템들에 의한 출력을 위해 오디오 스템들을 채널 기반 오디오 콘텐츠에 코딩 및/또는 렌더링할 수 있다. 기법들이 수행될 수 있는 다른 예시적 콘텍스트는, 브로드캐스트 레코딩 오디오 오브젝트들, 전문가용 오디오 시스템들, 소비자 온-디바이스 캡처, HOA 오디오 포맷, 온-디바이스 렌더링, 소비자 오디오, TV, 및 액세서리들 및 카 오디오 시스템들을 포함할 수 있는 오디오 에코시스템을 포함한다.
[0395] 브로드캐스트 렌더링 오디오 오브젝트들, 전문가용 오디오 시스템들 및 소비자 온-디바이스 캡처는 HOA 오디오 포맷을 사용하여 이들 출력을 모두 코딩할 수 있다. 이런 식으로, 오디오 콘텐츠는 HOA 오디오 포맷을 사용하여 단일 표현으로 코딩될 수 있으며, 이 단일 표현은 온-디바이스 렌더링, 소비자 오디오, TV, 및 액세서리들 및 카 오디오 시스템들을 사용하여 플레이백될 수 있다. 다른 말로, 오디오 콘텐츠의 단일 표현은, 일반적 오디오 플레이백 시스템(즉, 특정 구성, 이를테면 5.1, 7.1 등을 요구하는 것과는 대조적임), 이를테면 오디오 플레이백 시스템(16)에서 플레이백될 수 있다.
[0396] 기법들이 수행될 수 있는 콘텍스트의 다른 예들은 포착 엘리먼트 및 플레이백 엘리먼트들을 포함할 수 있는 오디오 에코시스템을 포함한다. 포착 엘리먼트들은 유선 및/또는 무선 포착 디바이스들(예컨대, 아이겐 마이크로폰들(Eigen microphones)), 온-디바이스 서라운드 사운드 캡처, 및 모바일 디바이스들(예컨대, 스마트폰들 및 테블릿들)을 포함할 수 있다. 일부 예들에서, 유선 및/또는 무선 포착 디바이스들은 유선 및/또는 무선 통신 채널(들)을 통해 모바일 디바이스에 커플링될 수 있다.
[0397] 본 개시내용의 하나 또는 그 초과의 기법들에 따라, 모바일 디바이스는 사운드필드를 포착하는데 사용될 수 있다. 이를테면, 모바일 디바이스는 유선 및/또는 무선 포착 디바이스들 및/또는 온-디바이스 서라운드 사운드 캡처(예컨대, 모바일 디바이스에 통합된 복수의 마이크로폰들)를 통해 사운드필드를 포착할 수 있다. 이후 모바일 디바이스는 포착된 사운드필드를 플레이백 엘리먼트들 중 하나 또는 그 초과의 것에 의한 플레이백을 위한 HOA 계수들로 코딩할 수 있다. 이를테면, 모바일 디바이스의 사용자는 라이브 이벤트(예컨대, 미팅, 컨퍼런스, 플레이, 콘서트 등)을 레코딩(사운드필드를 포착)하고 레코딩을 HOA 계수들로 코딩할 수 있다.
[0398] 모바일 디바이스는 또한 HOA 코딩된 사운드필드를 플레이백하기 위해 플레이백 엘리먼트들 중 하나 또는 그 초과의 것을 활용할 수 있다. 이를테면, 모바일 디바이스는 HOA 코딩된 사운드필드를 디코딩하고 플레이백 엘리먼트들 중 하나 또는 그 초과의 것에 신호를 출력(이는, 플레이백 엘리먼트들 중 하나 또는 그 초과의 것으로 하여금 사운드필드를 재생성하게 함)할 수 있다. 하나의 예로써, 모바일 디바이스는 유선 및/또는 무선 통신 채널들을 활용하여 신호를 하나 또는 그 초과의 스피커들(예컨대, 스피커 어레이들, 사운드 바들 등)에 출력할 수 있다. 다른 예로써, 모바일 디바이스는 도킹 솔루션들을 활용하여 하나 또는 그 초과의 도킹 스테이션들 및/또는 하나 또는 그 초과의 도킹된 스피커들(예컨대, 스마트 카들 및/또는 홈들에 있는 사운드 시스템들)에 신호를 출력할 수 있다. 다른 예로써, 모바일 디바이스는 헤드폰 렌더링을 활용하여, 예컨대 현실적 바이노럴 사운드(realistic binaural sound)를 생성하기 위해 헤드폰들의 세트에 신호를 출력할 수 있다.
[0399] 일부 예들에서, 특정 모바일 디바이스는 3D 사운드필드를 포착할뿐 아니라 나중에 동일한 3D 사운드필드를 플레이백할 수도 있다. 일부 예들에서, 모바일 디바이스는 3D 사운드필드를 포착하고, 3D 사운드필드를 HOA로 인코딩하고, 인코딩된 3D 사운드필드를 플레이백을 위해 하나 또는 그 초과의 다른 디바이스들(예컨대, 다른 모바일 디바이스들 및/또는 다른 비-모바일 디바이스들)에 송신할 수 있다.
[0400] 기법들이 수행될 수 있는 또 다른 콘텍스트는, 오디오 콘텐츠, 게임 스튜디오들, 코딩된 오디오 콘텐츠, 렌더링 엔진들, 및 전달 시스템들을 포함할 수 있는 오디오 에코시스템을 포함한다. 일부 예들에서, 게임 스튜디오들은 HOA 신호들의 편집을 지원할 수 있는 하나 또는 그 초과의 DAW들을 포함할 수 있다. 이를테면, 하나 또는 그 초과의 DAW들은 하나 또는 그 초과의 게임 오디오 시스템들과 동작(예컨대, 작동)하도록 구성될 수 있는 HOA 플러깅들 및/또는 툴들을 포함할 수 있다. 일부 예들에서, 게임 스튜디오들은 HOA를 지원하는 새로운 스템 포맷들을 출력할 수 있다. 임의의 경우, 게임 스튜디오들은, 전달 시스템에 의한 플레이백을 위해 사운드필드를 렌더링할 수 있는 렌더링 엔진들에 코딩된 오디오 콘텐츠를 출력할 수 있다.
[0401] 기법들은 또한 예시적 오디오 포착 디바이스들에 대해 수행될 수 있다. 예컨대, 기법들은 전체적으로 3D 사운드필드를 레코딩하도록 구성된 복수의 마이크로폰들을 포함할 수 있는 아이겐 마이크로폰에 대해 수행될 수 있다. 일부 예들에서, 아이겐 마이크로폰의 복수의 마이크로폰들은 대략 4cm 반경을 갖는 실질적으로 구면 볼의 표면상에 로케이팅될 수 있다. 일부 예들에서, 오디오 인코딩 디바이스(20)는 비트스트림(21)이 마이크로폰으로부터 직접 출력될 수 있도록 아이겐 마이크로폰에 통합될 수 있다.
[0402] 다른 예시적 오디오 포착 콘텍스트는 하나 또는 그 초과의 마이크로폰들, 이를테면 하나 또는 그 초과의 아이겐 마이크로폰들로부터 신호를 수신하도록 구성될 수 있는 프로덕션 트럭(production truck)을 포함한다. 프로덕션 트럭은 또한 오디오 인코더, 이를테면 도 3의 오디오 인코더(20)를 포함할 수 있다.
[0403] 모바일 디바이스는 또한, 일부 인스턴스들에서, 전체적으로 3D 사운드필드를 레코딩하도록 구성된 복수의 마이크로폰들을 포함할 수 있다. 다른 말로, 복수의 마이크로폰들은 X, Y, Z 다이버시티를 가질 수 있다. 일부 예들에서, 모바일 디바이스는 모바일 디바이스의 하나 또는 그 초과의 다른 마이크로폰들에 대해 X, Y, Z 다이버시티를 제공하도록 회전될 수 있는 마이크로폰을 포함할 수 있다. 모바일 디바이스는 또한 오디오 인코더, 이를테면 도 3의 오디오 인코더(20)를 포함할 수 있다.
[0404] 러기다이즈드(ruggedized) 비디오 캡처 디바이스는 추가로, 3D 사운드필드를 레코딩하도록 구성될 수 있다. 일부 예들에서, 러기다이즈드 비디오 캡처 디바이스는 활동에 관여하는 사용자의 헬멧에 부착될 수 있다. 이를테면, 러기다이즈드 비디오 캡처 디바이스는 사용자 급류 래프팅 헬멧에 부착될 수 있다. 이런 식으로, 러기다이즈드 비디오 캡처 디바이스는 사용자 도처의 동작(예컨대, 사용자 후방에서의 물 난입, 사용자 전방에서 말하는 다른 래프터(rafter) 등)을 표현하는 3D 사운드필드를 캡처할 수 있다.
[0405] 기법들은 또한, 3D 사운드필드를 레코딩하도록 구성될 수 있는 액세서리 인핸스드 모바일 디바이스(accessory enhanced mobile device)에 대해 수행될 수 있다. 일부 예들에서, 모바일 디바이스는 하나 또는 그 초과의 액세서리들의 추가로, 앞서 논의된 모바일 디바이스들과 유사할 수 있다. 이를테면, 아이겐 마이크로폰은 액세서리 인핸스드 모바일 디바이스를 형성하기 위해 앞서 언급된 모바일 디바이스에 부착될 수 있다. 이런 식으로, 액세서리 인핸스드 모바일 디바이스는, 단순히 액세서리 인핸스드 모바일 디바이스에 통합되는 사운드 캡처 컴포넌트들을 사용하는 것보다 더 높은 품질 버전의 3D 사운드필드를 캡처할 수 있다.
[0406] 본 개시내용에 설명된 기법들의 다양한 양상들을 수행할 수 있는 예시적 오디오 플레이백 디바이스들이 아래에서 추가로 논의된다. 본 개시내용의 하나 또는 그 초과의 기법들에 따라, 스피커들 및/또는 사운드 바들은 3D 사운드필드를 계속 플레이백하면서 어떤 임의의 구성으로 배열될 수 있다. 또한, 일부 예들에서, 헤드폰 플레이백 디바이스들은 유선 또는 무선 연결을 통해 디코더(24)에 커플링될 수 있다. 본 개시내용의 하나 또는 그 초과의 기법들에 따라, 사운드필드의 단일 일반적 표현은 스피커들, 사운드 바들, 및 헤드폰 플레이백 디바이스들의 임의의 조합에 사운드필드를 렌더링하는데 활용될 수 있다.
[0407] 다수의 상이한 예시적 오디오 플레이백 환경들은 또한, 본 개시내용에 설명된 기법들의 다양한 양상들을 수행하는데 적합할 수 있다. 이를테면, 5.1 스피커 플레이백 환경, 2.0(예컨대, 스테레오) 스피커 플레이백 환경, 풀 하이트(full height) 전면 확성기를 갖는 9.1 스피커 플레이백 환경, 22.2 스피커 플레이백 환경, 16.0 스피커 플레이백 환경, 자동차 스피커 플레이백 환경, 및 이어 버드(ear bud) 스피커 플레이백 환경을 갖는 모바일 디바이스가 본 개시내용에 설명된 기법들의 다양한 양상들을 수행하기 위한 적합한 환경들일 수 있다.
[0408] 본 개시내용의 하나 또는 그 초과의 기법들에 따라, 사운드필드의 단일 일반적 표현은 전술한 플레이백 환경들 중 임의의 것에 사운드필드를 렌더링하는데 활용될 수 있다. 부가적으로, 본 개시내용의 기법들은 앞서 설명된 것과 다른 플레이백 환경들에서의 플레이백을 위해 일반적 표현으로부터 사운드필드를 렌더링하도록 렌더링되는 것이 가능한다. 이를테면, 설계 고려사항들이 7.1 스피커 플레이백 환경에 따른 스피커들의 적절한 배치를 방해한다면(예컨대, 우측 서라운드 스피커를 배치하는 것이 가능하지 않다면), 본 개시내용의 기법들은, 플레이백이 6.1 스피커 플레이백 환경에 대해 달성될 수 있도록, 렌더가 다른 6개의 스피커들로 보상하는 것을 가능하게 한다.
[0409] 또한, 사용자는 헤드폰들을 착용하면서 스포츠 게임을 시청할 수 있다. 본 개시내용의 하나 또는 그 초과의 기법들에 따라, 스포츠 게임의 3D 사운드필드가 포착될 수 있고(예컨대, 하나 또는 그 초과의 아이겐 마이크로폰들이 야구 경기장에 그리고/또는 주위에 배치될 수 있음), 3D 사운드필드에 해당하는 HOA 계수들이 획득되고 디코더에 송신될 수 있고, 디코더가 HOA 계수들에 기반하여 3D 사운드필드를 재구성하고 재구성된 3D 사운드필드를 렌더러에 출력할 수 있고, 렌더러가 플레이백 환경(예컨대, 헤드폰들)의 타입에 따른 표시를 획득할 수 있고 그리고 재구성된 3D 사운드필드를, 헤드폰들로 하여금 스포츠 게임의 3D 사운드필드의 표현을 출력하게 하는 신호들로 렌더링할 수 있다.
[0410] 앞서 설명된 다양한 인스턴스들 각각에서, 오디오 인코딩 디바이스(20)가, 일 방법을 수행할 수 있거나 아니면 오디오 인코딩 디바이스(20)가 수행하도록 구성된 방법의 각각의 단계를 수행하는 수단을 포함할 수 있다는 것을 이해해야 한다. 일부 인스턴스들에서, 수단은 하나 또는 그 초과의 프로세서들을 포함할 수 있다. 일부 인스턴스들에서, 하나 또는 그 초과의 프로세서들은 비일시적 컴퓨터-판독가능 저장 매체에 저장되는 명령들에 의해 구성되는 특정 용도 프로세서를 표현할 수 있다. 다른 말로, 인코딩 예들의 세트들 각각에서의 기법들의 다양한 양상들은 명령들이 저장되어 있는 비-일시적 컴퓨터-판독가능 저장 매체를 제공할 수 있으며, 명령들은, 실행될 때, 하나 또는 그 초과의 프로세서들로 하여금, 오디오 인코딩 디바이스(20)가 수행하도록 구성된 방법을 수행하게 한다.
[0411] 하나 또는 그 초과의 예들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수 있다. 소프트웨어로 구현되는 경우, 기능들은 컴퓨터-판독가능 매체 상에 하나 또는 그 초과의 명령들 또는 코드로서 저장되거나 또는 이를 통해 송신되며 하드웨어-기반 프로세싱 유닛에 의해 실행될 수 있다. 컴퓨터-판독가능 매체는 유형의 매체, 이를테면 데이터 저장 매체와 대응하는 컴퓨터-판독가능 저장 매체를 포함할 수 있다. 데이터 저장 매체는, 본 개시내용에 설명된 기법들을 구현하기 위한 명령들, 코드 및/또는 데이터 구조들을 리트리브하도록 하나 또는 그 초과의 컴퓨터들 또는 하나 또는 그 초과의 프로세서들에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터-판독가능 매체를 포함할 수 있다.
[0412] 마찬가지로, 앞서 설명된 다양한 인스턴스들 각각에서, 오디오 디코딩 디바이스(24)가, 일 방법을 수행할 수 있거나 아니면 오디오 디코딩 디바이스(24)가 수행하도록 구성된 방법의 각각의 단계를 수행하는 수단을 포함할 수 있다는 것을 이해해야 한다. 일부 인스턴스들에서, 수단은 하나 또는 그 초과의 프로세서들을 포함할 수 있다. 일부 인스턴스들에서, 하나 또는 그 초과의 프로세서들은 비-일시적 컴퓨터-판독가능 저장 매체에 저장되는 명령들에 의해 구성되는 특정 용도 프로세서를 표현할 수 있다. 다른 말로, 인코딩 예들의 세트들 각각에서의 기법들의 다양한 양상들은 명령들이 저장되어 있는 비-일시적 컴퓨터-판독가능 저장 매체를 제공할 수 있으며, 명령들은, 실행될 때, 하나 또는 그 초과의 프로세서들로 하여금, 오디오 디코딩 디바이스(24)가 수행하도록 구성된 방법을 수행하게 한다.
[0413] 제한이 아닌 예로서, 이러한 컴퓨터-판독가능 저장 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장소, 자기 디스크 저장소 또는 다른 자기 저장 디바이스들, 플래시 메모리 또는 명령들 또는 데이터 구조들의 형태의 원하는 프로그램 코드를 저장하기 위해 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 그러나, 컴퓨터-판독가능 저장 매체 및 데이터 저장 매체는 연결들, 반송파들, 신호들 또는 다른 일시적 매체를 포함하지 않지만, 대신 비-일시적, 유형의 저장 매체와 관련된다는 것을 이해해야 한다. 본원에서 사용된 바와 같은 디스크(disk) 및 디스크(disc)는 CD(compact disc), 레이저 디스크(laser disc), 광 디스크(optical disc), DVD(digital versatile disc), 플로피 디스크(floppy disk) 및 블루레이 디스크(Blu-ray disc)를 포함하며, 여기서 디스크(disk)들은 일반적으로 데이터를 자기적으로 재생하는 한편, 디스크(disc)들은 데이터를 레이저들을 이용하여 광학적으로 재생한다. 상기의 것들의 결합들이 또한 컴퓨터 판독 가능 매체의 범위 내에 포함된다.
[0414] 명령들은 하나 또는 그 초과의 프로세서들, 이를테면 하나 또는 그 초과의 DSP(digital signal processor)들, 범용성 마이크로프로세서들, ASIC(application specific integrated circuit)들, FPGA(field programmable logic array)들, 또는 다른 등가의 집적 회로 또는 이산 로직 회로에 의해 실행될 수 있다. 이에 따라, 본원에서 사용된 바와 같은 용어 "프로세서"는 전술한 구조 중 임의의 것 또는 본원에 설명된 기법들의 구현에 적합한 임의의 다른 구조를 지칭할 수 있다. 게다가, 일부 양상들에서, 본원에 설명된 기능성은 인코딩 및 디코딩을 위해 구성된 또는 조합된 코덱에 포함되는 전용 하드웨어 및/또는 소프트웨어 모듈들 내에 제공될 수 있다. 또한, 기법들은 하나 또는 그 초과의 회로들 또는 로직 엘리먼트들로 완전히 구현될 수 있다.
[0415] 본 개시내용의 기법들은, 무선 핸드셋, 집적 회로(IC) 또는 IC들의 세트(예컨대, 칩 셋)을 포함하는 광범위한 디바이스들 또는 장치들에서 구현될 수 있다. 개시된 기법들을 수행하도록 구성된 디바이스들의 기능 양상들을 강조하기 위해 다양한 컴포넌트들, 모듈들 또는 유닛들이 본 개시내용에 설명되지만, 상이한 하드웨어 유닛들에 의한 실현을 반드시 요구하는 것은 아니다. 오히려, 앞서 설명된 바와 같이, 다양한 유닛들은 적절한 소프트웨어 및/또는 펌웨어와 관련하여, 앞서 설명된 하나 또는 그 초과의 프로세서들을 포함하여, 연동하는 하드웨어 유닛들의 콜렉션에 의해 제공되거나 또는 코텍 하드웨어 유닛에 결합될 수 있다.
[0416] 기법들의 다양항 양상들이 설명되었다. 기법들의 이들 및 다른 양상들은 하기 청구항들의 범위내에 속한다.

Claims (40)

  1. 고차 앰비소닉 오디오 신호(higher order ambisonic audio signal)를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스로서,
    상기 비트스트림을 저장하도록 구성된 메모리; 및
    하나 이상의 프로세서들을 포함하고;
    상기 하나 이상의 프로세서들은:
    상기 고차 앰비소닉 오디오 신호가 다수의 계층들에서 제공되는지를 결정하고;
    상기 고차 앰비소닉 오디오 신호가 다수의 계층들에서 제공되는지를 결정하는 것에 후속하여, 상기 비트스트림에 특정된 계층들의 수의 표시를 상기 비트스트림으로부터 획득하고;
    상기 비트스트림에 특정된 채널들의 수의 표시를 상기 비트스트림으로부터 획득하고; 그리고
    상기 비트스트림에 특정된 상기 계층들의 수의 표시 및 상기 비트스트림에 특정된 상기 채널들의 수의 표시에 기반하여 상기 비트스트림의 계층들을 획득하도록
    구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  2. 제1항에 있어서,
    상기 하나 이상의 프로세서들은 상기 계층들 중 적어도 하나의 계층에 대하여 상기 비트스트림에 특정된 전경(foreground) 채널들의 수의 표시를 획득하도록 구성되고, 그리고
    상기 하나 이상의 프로세서들은 상기 전경 채널들의 수의 표시에 기반하여 상기 비트스트림의 계층들 중 상기 적어도 하나의 계층에 대한 상기 전경 채널들을 획득하도록 구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  3. 제1항에 있어서,
    상기 하나 이상의 프로세서들은 상기 계층들 중 적어도 하나의 계층에 대하여 상기 비트스트림에 특정된 배경(background) 채널들의 수의 표시를 획득하도록 구성되고, 그리고
    상기 하나 이상의 프로세서들은 상기 배경 채널들의 수의 표시에 기반하여 상기 비트스트림의 계층들 중 상기 적어도 하나의 계층에 대한 상기 배경 채널들을 획득하도록 구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  4. 제1항에 있어서,
    상기 계층들의 수의 표시는 계층의 수가 2임을 표시하고,
    상기 2개의 계층들은 베이스 계층 및 인핸스먼트(enhancement) 계층을 포함하고, 그리고
    상기 하나 이상의 프로세서들은 전경 채널들의 수가 상기 베이스 계층에 대하여 제로이고 그리고 상기 인핸스먼트 계층에 대하여 2라는 표시를 획득하도록 구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  5. 제1항에 있어서,
    상기 계층들의 수의 표시는 계층의 수가 2임을 표시하고,
    상기 2개의 계층들은 베이스 계층 및 인핸스먼트 계층을 포함하고, 그리고
    상기 하나 이상의 프로세서들은 배경 채널들의 수가 상기 베이스 계층에 대하여 4이고 그리고 상기 인핸스먼트 계층에 대하여 제로라는 표시를 획득하도록 구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  6. 제1항에 있어서,
    상기 계층들의 수의 표시는 계층의 수가 3임을 표시하고,
    상기 3개의 계층들은 베이스 계층, 제 1 인핸스먼트 계층 및 제 2 인핸스먼트 계층을 포함하고, 그리고
    상기 하나 이상의 프로세서들은 전경 채널들의 수가 상기 베이스 계층에 대하여 제로이고, 상기 제 1 인핸스먼트 계층에 대하여 2이고 그리고 상기 제 2 인핸스먼트 계층에 대하여 2라는 표시를 획득하도록 구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  7. 제1항에 있어서,
    상기 계층들의 수의 표시는 계층의 수가 3임을 표시하고,
    상기 3개의 계층들은 베이스 계층, 제 1 인핸스먼트 계층 및 제 2 인핸스먼트 계층을 포함하고, 그리고
    상기 하나 이상의 프로세서들은 배경 채널들의 수가 상기 베이스 계층에 대하여 2이고, 상기 제 1 인핸스먼트 계층에 대하여 제로이고 그리고 상기 제 2 인핸스먼트 계층에 대하여 제로라는 표시를 획득하도록 추가로 구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  8. 제1항에 있어서,
    상기 계층들의 수의 표시는 계층의 수가 3임을 표시하고,
    상기 3개의 계층들은 베이스 계층, 제 1 인핸스먼트 계층 및 제 2 인핸스먼트 계층을 포함하고, 그리고
    상기 하나 이상의 프로세서들은 전경 채널들의 수가 상기 베이스 계층에 대하여 2이고, 제 1 인핸스먼트 계층에 대하여 2이고 그리고 상기 제 2 인핸스먼트 계층에 대하여 2라는 표시를 획득하도록 구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  9. 제1항에 있어서,
    상기 계층들의 수의 표시는 계층의 수가 3임을 표시하고,
    상기 3개의 계층들은 베이스 계층, 제 1 인핸스먼트 계층 및 제 2 인핸스먼트 계층을 포함하고, 그리고
    상기 하나 이상의 프로세서들은 배경 채널들의 수가 상기 베이스 계층에 대하여 제로이고, 상기 제 1 인핸스먼트 계층에 대하여 제로이고 그리고 상기 제 2 인핸스먼트 계층에 대하여 제로라는 것을 표시하는 배경 구문 엘리먼트(syntax element)를 획득하도록 추가로 구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  10. 제1항에 있어서,
    상기 계층들의 수의 표시는 상기 비트스트림의 이전 프레임에서의 계층들의 수의 표시를 포함하고, 그리고
    상기 하나 이상의 프로세서들은:
    상기 비트스트림의 계층들의 수가 상기 이전 프레임에서의 상기 비트스트림의 계층들의 수와 비교하여 현재 프레임에서 변경되었는지 여부의 표시를 획득하고; 그리고
    상기 비트스트림의 계층들의 수가 상기 현재 프레임에서 변경되었는지 여부의 표시에 기반하여 상기 현재 프레임에서의 상기 비트스트림의 계층들의 수를 획득하도록
    추가로 구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  11. 제10항에 있어서,
    상기 하나 이상의 프로세서들은, 상기 비트스트림의 계층들의 수가 상기 이전 프레임에서의 상기 비트스트림의 계층들의 수와 비교하여 상기 현재 프레임에서 변경되지 않았음을 상기 표시가 표시할 때, 상기 이전 프레임에서의 상기 비트스트림의 계층들의 수와 동일한 것으로 상기 현재 프레임에서의 상기 비트스트림의 계층들의 수를 결정하도록 추가로 구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  12. 제10항에 있어서,
    상기 하나 이상의 프로세서들은, 상기 비트스트림의 계층들의 수가 상기 이전 프레임에서의 상기 비트스트림의 계층들의 수와 비교하여 상기 현재 프레임에서 변경되지 않았음을 상기 표시가 표시할 때, 상기 현재 프레임에 대한 계층들 중 하나 이상의 계층들에서의 컴포넌트들의 현재 수가 상기 이전 프레임의 계층들 중 하나 이상의 계층들에서의 컴포넌트들의 이전 수와 동일하다는 표시를 획득하도록 추가로 구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  13. 제1항에 있어서,
    상기 계층들의 수의 표시는 상기 비트스트림에서 3개의 계층들이 특정됨을 표시하고, 그리고
    상기 하나 이상의 프로세서들은:
    스테레오 채널 플레이백(playback)을 제공하는, 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 1 계층을 획득하고;
    하나 이상의 수평 평면들상에 배열된 3개 이상의 스피커들에 의한 3차원 플레이백을 제공하는, 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 2 계층을 획득하고; 그리고
    상기 고차 앰비소닉 오디오 신호의 전경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 3 계층을 획득하도록
    구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  14. 제1항에 있어서,
    상기 계층들의 수의 표시는 상기 비트스트림에서 3개의 계층들이 특정됨을 표시하고, 그리고
    상기 하나 이상의 프로세서들은:
    모노 채널 플레이백을 제공하는, 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 1 계층을 획득하고;
    하나 이상의 수평 평면들상에 배열된 3개 이상의 스피커들에 의한 3차원 플레이백을 제공하는, 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 2 계층을 획득하고; 그리고
    상기 고차 앰비소닉 오디오 신호의 전경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 3 계층을 획득하도록
    구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  15. 제1항에 있어서,
    상기 계층들의 수의 표시는 상기 비트스트림에서 3개의 계층들이 특정됨을 표시하고, 그리고
    상기 하나 이상의 프로세서들은:
    스테레오 채널 플레이백을 제공하는, 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 1 계층을 획득하고;
    단일 수평 평면상에 배열된 3개 이상의 스피커들에 의한 멀티-채널 플레이백을 제공하는, 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 2 계층을 획득하고;
    2개 이상의 수평 평면들상에 배열된 3개 이상의 스피커들에 의한 3차원 플레이백을 제공하는, 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 3 계층을 획득하고; 그리고
    상기 고차 앰비소닉 오디오 신호의 전경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 4 계층을 획득하도록
    구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  16. 제1항에 있어서,
    상기 계층들의 수의 표시는 상기 비트스트림에서 3개의 계층들이 특정됨을 표시하고, 그리고
    상기 하나 이상의 프로세서들은:
    모노 채널 플레이백을 제공하는, 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 1 계층을 획득하고;
    단일 수평 평면상에 배열된 3개 이상의 스피커들에 의한 멀티-채널 플레이백을 제공하는, 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 2 계층을 획득하고;
    2개 이상의 수평 평면들상에 배열된 3개 이상의 스피커들에 의한 3차원 플레이백을 제공하는, 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 3 계층을 획득하고; 그리고
    상기 고차 앰비소닉 오디오 신호의 전경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 4 계층을 획득하도록
    구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  17. 제1항에 있어서,
    상기 계층들의 수의 표시는 상기 비트스트림에서 2개의 계층들이 특정됨을 표시하고, 그리고
    상기 하나 이상의 프로세서들은:
    스테레오 채널 플레이백을 제공하는, 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 1 계층을 획득하고; 그리고
    단일 수평 평면상에 배열된 3개 이상의 스피커들에 의한 수평 멀티-채널 플레이백을 제공하는, 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들을 표시하는 상기 비트스트림의 계층들 중의 제 2 계층을 획득하도록
    구성되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  18. 제1항에 있어서,
    상기 고차 앰비소닉 오디오 신호에 기반하여 사운드필드(soundfield)를 재생하도록 구성된 확성기들을 더 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 디바이스.
  19. 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법으로서,
    상기 고차 앰비소닉 오디오 신호가 다수의 계층들에서 제공되는지를 결정하는 단계;
    상기 고차 앰비소닉 오디오 신호가 다수의 계층들에서 제공되는지를 결정하는 것에 후속하여, 하나 이상의 프로세서들에 의해 그리고 상기 비트스트림으로부터, 상기 비트스트림에 특정된 계층들의 수의 표시를 획득하는 단계;
    상기 하나 이상의 프로세서들에 의해, 상기 비트스트림에 특정된 채널들의 수의 표시를 획득하는 단계; 및
    상기 하나 이상의 프로세서들에 의해, 상기 비트스트림에 특정된 상기 계층들의 수의 표시 및 상기 비트스트림에 특정된 상기 채널들의 수의 표시에 기반하여 상기 비트스트림의 계층들을 획득하는 단계를 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법.
  20. 제19항에 있어서,
    상기 비트스트림에 특정된 채널들의 수의 표시를 획득하는 단계는 상기 계층들 중 적어도 하나의 계층에 대해 상기 비트스트림에서 특정된 전경 채널들의 수의 표시를 획득하는 단계를 포함하고,
    상기 계층들을 획득하는 단계는 상기 전경 채널들의 수의 표시에 기반하여 상기 비트스트림의 계층들 중 상기 적어도 하나의 계층에 대한 상기 전경 채널들을 획득하는 단계를 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법.
  21. 제19항에 있어서,
    상기 비트스트림에 특정된 채널들의 수의 표시를 획득하는 단계는 상기 계층들 중 적어도 하나의 계층에 대해 상기 비트스트림에서 특정된 배경 채널들의 수의 표시를 획득하는 단계를 포함하고,
    상기 계층들을 획득하는 단계는 상기 배경 채널들의 수의 표시에 기반하여 상기 비트스트림의 계층들 중 상기 적어도 하나의 계층에 대한 상기 배경 채널들을 획득하는 단계를 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법.
  22. 제19항에 있어서,
    상기 비트스트림에 특정된 채널들의 수의 표시를 획득하는 단계는 상기 계층들 중 적어도 하나의 계층이 획득된 이후에 상기 비트스트림에 남아있는 채널들의 수에 기반하여 상기 계층들 중 상기 적어도 하나의 계층에 대해 상기 비트스트림에서 특정된 전경 채널들의 수의 표시를 파싱(parsing)하는 단계를 포함하고,
    상기 계층들을 획득하는 단계는 상기 전경 채널들의 수의 표시에 기반하여 상기 계층들 중 상기 적어도 하나의 계층에 대한 상기 전경 채널들을 획득하는 단계를 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법.
  23. 제22항에 있어서,
    상기 계층들 중 상기 적어도 하나의 계층이 획득된 이후에 상기 비트스트림에 남아 있는 채널들의 수는 구문 엘리먼트에 의해 표현되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법.
  24. 제19항에 있어서,
    상기 비트스트림에 특정된 채널들의 수의 표시를 획득하는 단계는 상기 계층들 중 적어도 하나의 계층이 획득된 이후의 채널들의 수에 기반하여 상기 계층들 중 상기 적어도 하나의 계층에 대해 상기 비트스트림에서 특정된 배경 채널들의 수의 표시를 파싱하는 단계를 포함하고,
    상기 계층들을 획득하는 단계는 상기 배경 채널들의 수의 표시에 기반하여 상기 비트스트림으로부터 상기 계층들 중 상기 적어도 하나의 계층에 대한 상기 배경 채널들을 획득하는 단계를 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법.
  25. 제24항에 있어서,
    상기 계층들 중 상기 적어도 하나의 계층이 획득된 이후에 상기 비트스트림에 남아 있는 채널들의 수는 구문 엘리먼트에 의해 표현되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법.
  26. 제19항에 있어서,
    상기 비트스트림의 계층들은 베이스 계층 및 인핸스먼트 계층을 포함하고, 그리고
    상기 방법은 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들의 상관 표현을 획득하기 위하여 상기 베이스 계층의 하나 이상의 채널들에 관하여 상관 변환을 적용하는 단계를 더 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법.
  27. 제26항에 있어서,
    상기 상관 변환은, 유니버설(UD-4)로부터의 U를 참조하는 UHJ 변환의 U, 행렬 H로부터의 H를 참조하는 UHJ 변환의 H, 및 시스템 45J로부터의 J를 참조하는 UHJ 변환의 J를 갖는 역 UHJ 변환을 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법.
  28. 제26항에 있어서,
    상기 상관 변환은 역 모드 행렬 변환을 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법.
  29. 제19항에 있어서,
    상기 비트스트림의 계층들 각각에 대한 채널들의 수는 고정되는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하는 방법.
  30. 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 장치로서,
    상기 비트스트림을 저장하기 위한 수단;
    상기 고차 앰비소닉 오디오 신호가 다수의 계층들에서 제공되는지를 결정하기 위한 수단;
    상기 고차 앰비소닉 오디오 신호가 다수의 계층들에서 제공되는지를 결정하는 것에 후속하여, 상기 비트스트림에 특정된 계층들의 수의 표시를 상기 비트스트림으로부터 획득하기 위한 수단;
    상기 비트스트림에 특정된 채널들의 수의 표시를 획득하기 위한 수단; 및
    상기 비트스트림에 특정된 상기 계층들의 수의 표시 및 상기 비트스트림에 특정된 상기 채널들의 수의 표시에 기반하여 상기 비트스트림의 계층들을 획득하기 위한 수단을 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 디코딩하도록 구성된 장치.
  31. 명령들이 저장된 비-일시적 컴퓨터-판독가능 저장 매체로서,
    상기 명령들은, 실행될 때, 하나 이상의 프로세서들로 하여금:
    고차 앰비소닉 오디오 신호가 다수의 계층들에서 제공되는지를 결정하게 하고;
    상기 고차 앰비소닉 오디오 신호가 다수의 계층들에서 제공되는지를 결정하는 것에 후속하여, 비트스트림에 특정된 계층들의 수의 표시를 상기 비트스트림으로부터 획득하게 하고;
    상기 비트스트림에 특정된 채널들의 수의 표시를 획득하게 하고; 그리고
    상기 비트스트림에 특정된 상기 계층들의 수의 표시 및 상기 비트스트림에 특정된 상기 채널들의 수의 표시에 기반하여 상기 비트스트림의 계층들을 획득하게 하는, 비-일시적 컴퓨터-판독가능 저장 매체.
  32. 비트스트림을 생성하기 위하여 고차 앰비소닉 오디오 신호를 인코딩하도록 구성된 디바이스로서,
    상기 비트스트림을 저장하도록 구성된 메모리; 및
    상기 고차 앰비소닉 오디오 신호가 다수의 계층들에서 제공되는지 여부의 표시를 특정하고, 상기 고차 앰비소닉 오디오 신호가 다수의 계층들에서 제공되는지 여부의 표시를 특정하는 것에 후속하여 상기 비트스트림에서의 계층들의 수의 표시를 특정하고, 상기 비트스트림에 포함된 채널들의 수의 표시를 특정하고, 그리고 상기 채널들의 표시된 수를 포함하는 상기 계층들의 표시된 수를 포함하는 상기 비트스트림을 출력하도록 구성된 하나 이상의 프로세서들을 포함하는, 비트스트림을 생성하기 위하여 고차 앰비소닉 오디오 신호를 인코딩하도록 구성된 디바이스.
  33. 제32항에 있어서,
    상기 계층들의 수의 표시는 이전 프레임에 대한 상기 비트스트림에서의 계층들의 수의 표시를 포함하고, 그리고
    상기 하나 이상의 프로세서들은:
    상기 비트스트림의 계층들의 수가 상기 이전 프레임에 대한 상기 비트스트림의 계층들의 수와 비교하여 현재 프레임에서 변경되었는지 여부의 표시를 상기 비트스트림에서 특정하고; 그리고
    상기 현재의 프레임에서 상기 비트스트림의 계층들의 표시된 수를 특정하도록
    추가로 구성되는, 비트스트림을 생성하기 위하여 고차 앰비소닉 오디오 신호를 인코딩하도록 구성된 디바이스.
  34. 제33항에 있어서,
    상기 하나 이상의 프로세서들은, 상기 비트스트림의 계층들의 수가 상기 이전 프레임에서의 상기 비트스트림의 계층들의 수와 비교하여 상기 현재 프레임에서 변경되지 않았음을 상기 표시가 표시할 때, 상기 현재 프레임에 대한 계층들 중 하나 이상의 계층들에서의 배경 컴포넌트들의 현재 수가 상기 이전 프레임의 계층들 중 하나 이상의 계층들에서의 배경 컴포넌트들의 이전 수와 동일하다는 표시를 상기 비트스트림에서 특정하지 않고 상기 계층들의 표시된 수를 특정하도록 구성되는, 비트스트림을 생성하기 위하여 고차 앰비소닉 오디오 신호를 인코딩하도록 구성된 디바이스.
  35. 제32항에 있어서,
    상기 고차 앰비소닉 오디오 신호를 캡처하기 위한 마이크로폰을 더 포함하는, 비트스트림을 생성하기 위하여 고차 앰비소닉 오디오 신호를 인코딩하도록 구성된 디바이스.
  36. 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 생성하는 방법으로서,
    하나 이상의 프로세서들에 의해, 상기 고차 앰비소닉 오디오 신호가 다수의 계층들에서 제공되는지 여부의 표시를 특정하는 단계;
    상기 고차 앰비소닉 오디오 신호가 다수의 계층들에서 제공되는지 여부의 표시를 특정하는 것에 후속하여, 상기 하나 이상의 프로세서들에 의해, 상기 비트스트림에서의 계층들의 수의 표시를 특정하는 단계;
    상기 하나 이상의 프로세서들에 의해, 상기 비트스트림에 포함된 채널들의 수의 표시를 특정하는 단계; 및
    상기 하나 이상의 프로세서들에 의해, 상기 채널들의 표시된 수를 포함하는 상기 계층들의 표시된 수를 포함하는 상기 비트스트림을 출력하는 단계를 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 생성하는 방법.
  37. 제36항에 있어서,
    상기 계층들은, 제 1 계층이, 제 2 계층과 결합될 때, 상기 고차 앰비소닉 오디오 신호의 고분해능 표현(higher resolution representation)을 제공하도록 계층적인(hierarchical), 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 생성하는 방법.
  38. 제36항에 있어서,
    상기 비트스트림의 계층들은 베이스 계층 및 인핸스먼트 계층을 포함하고, 그리고
    상기 방법은 상기 고차 앰비소닉 오디오 신호의 배경 컴포넌트들의 상관해제(decorrelated) 표현을 획득하기 위하여 상기 베이스 계층의 하나 이상의 채널들에 관하여 상관해제 변환을 적용하는 단계를 더 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 생성하는 방법.
  39. 제38항에 있어서,
    상기 상관해제 변환은, 유니버설(UD-4)로부터의 U를 참조하는 UHJ 변환의 U, 행렬 H로부터의 H를 참조하는 UHJ 변환의 H, 및 시스템 45J로부터의 J를 참조하는 UHJ 변환의 J를 갖는 UHJ 변환을 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 생성하는 방법.
  40. 제38항에 있어서,
    상기 상관해제 변환은 모드 행렬 변환을 포함하는, 고차 앰비소닉 오디오 신호를 표현하는 비트스트림을 생성하는 방법.
KR1020177009564A 2014-10-10 2015-10-09 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 시그널링 계층들 KR102092774B1 (ko)

Applications Claiming Priority (19)

Application Number Priority Date Filing Date Title
US201462062584P 2014-10-10 2014-10-10
US62/062,584 2014-10-10
US201462084461P 2014-11-25 2014-11-25
US62/084,461 2014-11-25
US201462087209P 2014-12-03 2014-12-03
US62/087,209 2014-12-03
US201462088445P 2014-12-05 2014-12-05
US62/088,445 2014-12-05
US201562145960P 2015-04-10 2015-04-10
US62/145,960 2015-04-10
US201562175185P 2015-06-12 2015-06-12
US62/175,185 2015-06-12
US201562187799P 2015-07-01 2015-07-01
US62/187,799 2015-07-01
US201562209764P 2015-08-25 2015-08-25
US62/209,764 2015-08-25
US14/878,691 US10140996B2 (en) 2014-10-10 2015-10-08 Signaling layers for scalable coding of higher order ambisonic audio data
US14/878,691 2015-10-08
PCT/US2015/054950 WO2016057925A1 (en) 2014-10-10 2015-10-09 Signaling layers for scalable coding of higher order ambisonic audio data

Publications (2)

Publication Number Publication Date
KR20170067764A KR20170067764A (ko) 2017-06-16
KR102092774B1 true KR102092774B1 (ko) 2020-03-24

Family

ID=54364702

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177009564A KR102092774B1 (ko) 2014-10-10 2015-10-09 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 시그널링 계층들

Country Status (11)

Country Link
US (4) US10140996B2 (ko)
EP (1) EP3204941B1 (ko)
JP (1) JP6612337B2 (ko)
KR (1) KR102092774B1 (ko)
CN (1) CN106796795B (ko)
AU (1) AU2015330758B9 (ko)
CA (1) CA2961405C (ko)
CL (1) CL2017000821A1 (ko)
CO (1) CO2017003345A2 (ko)
SG (1) SG11201701624SA (ko)
WO (1) WO2016057925A1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536531B2 (en) * 2014-08-01 2017-01-03 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
US10140996B2 (en) * 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US11270711B2 (en) * 2017-12-21 2022-03-08 Qualcomm Incorproated Higher order ambisonic audio data
US10657974B2 (en) * 2017-12-21 2020-05-19 Qualcomm Incorporated Priority information for higher order ambisonic audio data
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US20200402521A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Performing psychoacoustic audio coding based on operating conditions
US11361776B2 (en) 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
WO2022043906A1 (en) * 2020-08-27 2022-03-03 VISSER, Lambertus Nicolaas Assistive listening system and method
CN112584297B (zh) * 2020-12-01 2022-04-08 中国电影科学技术研究所 音频数据的处理方法、装置和电子设备
US11639953B2 (en) * 2021-02-10 2023-05-02 Rohde & Schwarz Gmbh & Co. Kg Method and system for sideband corrected noise-power measurement
CN114173256B (zh) * 2021-12-10 2024-04-19 中国电影科学技术研究所 一种还原声场空间及姿态追踪的方法、装置和设备
GB202214902D0 (en) * 2022-10-10 2022-11-23 Nokia Technologies Oy Spatial audio rendering
CN116033314B (zh) * 2023-02-15 2023-05-30 南昌航天广信科技有限责任公司 一种音频自动增益补偿方法、***、计算机及存储介质

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020126759A1 (en) 2001-01-10 2002-09-12 Wen-Hsiao Peng Method and apparatus for providing prediction mode fine granularity scalability
KR100571824B1 (ko) 2003-11-26 2006-04-17 삼성전자주식회사 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US8423372B2 (en) 2004-08-26 2013-04-16 Sisvel International S.A. Processing of encoded signals
US8321230B2 (en) * 2006-02-06 2012-11-27 France Telecom Method and device for the hierarchical coding of a source audio signal and corresponding decoding method and device, programs and signals
CN101379552B (zh) * 2006-02-07 2013-06-19 Lg电子株式会社 用于编码/解码信号的装置和方法
EP1881485A1 (en) 2006-07-18 2008-01-23 Deutsche Thomson-Brandt Gmbh Audio bitstream data structure arrangement of a lossy encoded signal together with lossless encoded extension data for said signal
CN101170590B (zh) 2006-10-27 2011-04-27 华为技术有限公司 一种背景噪声的编码码流传输的方法、***及装置
CN101578864A (zh) 2006-12-22 2009-11-11 高通股份有限公司 增强层中的参考帧放置
US20080152006A1 (en) 2006-12-22 2008-06-26 Qualcomm Incorporated Reference frame placement in the enhancement layer
US8032359B2 (en) 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009067741A1 (en) * 2007-11-27 2009-06-04 Acouity Pty Ltd Bandwidth compression of parametric soundfield representations for transmission and storage
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
US8964994B2 (en) 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
GB2478834B (en) 2009-02-04 2012-03-07 Richard Furse Sound system
CN101556799B (zh) 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR20240009530A (ko) * 2010-03-26 2024-01-22 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
WO2013028393A1 (en) 2011-08-23 2013-02-28 Dolby Laboratories Licensing Corporation Method and system for generating a matrix-encoded two-channel audio signal
EP2783366B1 (en) 2011-11-22 2015-09-16 Dolby Laboratories Licensing Corporation Method and system for generating an audio metadata quality score
EP2600343A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2829083B1 (en) 2012-03-23 2016-08-10 Dolby Laboratories Licensing Corporation System and method of speaker cluster design and rendering
US9190065B2 (en) * 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2901667B1 (en) 2012-09-27 2018-06-27 Dolby Laboratories Licensing Corporation Spatial multiplexing in a soundfield teleconferencing system
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
US9613660B2 (en) * 2013-04-05 2017-04-04 Dts, Inc. Layered audio reconstruction system
US20140358565A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
CN117198304A (zh) * 2014-03-21 2023-12-08 杜比国际公司 用于对压缩的hoa信号进行解码的方法、装置和存储介质
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
EP3591649B8 (en) 2014-03-21 2022-06-08 Dolby International AB Method and apparatus for decompressing a compressed hoa signal
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
US10140996B2 (en) * 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Sen, et al. RM1-HOA Working Draft Text. ISO/IEC JTC1/SC29/WG11 MPEG2014/M31827. 2014.01.11.*
ISO/IEC DIS 23008-3. Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio. ISO/IEC JTC 1/SC 29/WG 11. 2014.07.25.
Johannes Boehm, et al. Scalable Decoding Mode for MPEG-H 3D Audio HOA. ISO/IEC JTC1/SC29/WG11 MPEG2014/M33195. 2014.03.26.*

Also Published As

Publication number Publication date
CA2961405A1 (en) 2016-04-14
US20220028401A1 (en) 2022-01-27
US20160104493A1 (en) 2016-04-14
EP3204941A1 (en) 2017-08-16
AU2015330758A1 (en) 2017-03-23
AU2015330758B9 (en) 2021-02-04
US10140996B2 (en) 2018-11-27
JP2017534911A (ja) 2017-11-24
US11138983B2 (en) 2021-10-05
AU2015330758B2 (en) 2020-10-01
CN106796795A (zh) 2017-05-31
JP6612337B2 (ja) 2019-11-27
EP3204941B1 (en) 2020-12-16
US20190385622A1 (en) 2019-12-19
CL2017000821A1 (es) 2017-12-22
WO2016057925A1 (en) 2016-04-14
CN106796795B (zh) 2021-07-06
CO2017003345A2 (es) 2017-09-29
US11664035B2 (en) 2023-05-30
SG11201701624SA (en) 2017-04-27
CA2961405C (en) 2022-03-15
BR112017007287A2 (pt) 2017-12-26
KR20170067764A (ko) 2017-06-16
US20190074020A1 (en) 2019-03-07
US10403294B2 (en) 2019-09-03

Similar Documents

Publication Publication Date Title
KR102092774B1 (ko) 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 시그널링 계층들
KR102053508B1 (ko) 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 채널들의 시그널링
EP3165001B1 (en) Reducing correlation between higher order ambisonic (hoa) background channels
KR101723332B1 (ko) 회전된 고차 앰비소닉스의 바이노럴화
CN106575506B (zh) 用于执行高阶立体混响音频数据的中间压缩的装置和方法

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant