KR20160136361A - 음장들의 디스크립션들로의 오디오 채널들의 삽입 - Google Patents

음장들의 디스크립션들로의 오디오 채널들의 삽입 Download PDF

Info

Publication number
KR20160136361A
KR20160136361A KR1020167028957A KR20167028957A KR20160136361A KR 20160136361 A KR20160136361 A KR 20160136361A KR 1020167028957 A KR1020167028957 A KR 1020167028957A KR 20167028957 A KR20167028957 A KR 20167028957A KR 20160136361 A KR20160136361 A KR 20160136361A
Authority
KR
South Korea
Prior art keywords
sound field
audio
audio channel
representation
higher order
Prior art date
Application number
KR1020167028957A
Other languages
English (en)
Inventor
디판잔 센
닐스 귄터 페테르스
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20160136361A publication Critical patent/KR20160136361A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

일반적으로, 음장들의 디스크립션들로 오디오 채널들을 삽입하기 위한 기법들이 기술된다. 프로세서를 포함하는 디바이스는 이 기법들을 수행하도록 구성될 수도 있다. 프로세서는 음장의 고차 앰비소닉 표현으로부터 분리된 오디오 채널을 획득하도록 구성될 수도 있다. 프로세서는 또한, 오디오 채널이 음장으로부터 추출되는 것이 가능해지도록 음장 내의 공간 위치에 오디오 채널을 삽입하도록 구성될 수도 있다.

Description

음장들의 디스크립션들로의 오디오 채널들의 삽입{INSERTING AUDIO CHANNELS INTO DESCRIPTIONS OF SOUNDFIELDS}
본 출원은, 발명의 명칭이 "INSERTING AUDIO CHANNELS INTO DESCRIPTIONS OF SOUNDFIELDS" 인, 2014년 3월 21일자로 출원된 미국 가출원 제61/969,011호, 및 발명의 명칭이 "INSERTING AUDIO CHANNELS INTO DESCRIPTIONS OF SOUNDFIELDS" 인, 2014년 3월 24일자로 출원된 미국 가출원 제61/969,586호의 이익을 주장하고, 이 미국 가출원들 각각은 이로써 본 명세서에 참조로 그 전체가 포함된다.
본 개시물은 오디오 데이터에 관한 것이고, 더 구체적으로는, 고차 앰비소닉 오디오 데이터의 코딩에 관한 것이다.
(종종 복수의 구면 조화 계수들 (spherical harmonic coefficients; SHC) 또는 다른 계층적 엘리먼트들로 표현되는) 고차 앰비소닉스 (higher-order ambisonics; HOA) 신호는 음장 (soundfield) 의 3 차원 표현이다. 이러한 HOA 또는 SHC 표현은 SHC 신호로부터 렌더링된 다중-채널 오디오 신호를 재생하는데 이용된 로컬 스피커 지오메트리에 독립적인 방식으로 음장을 표현할 수도 있다. SHC 신호는 또한, SHC 신호가, 예를 들어, 5.1 오디오 채널 포맷 또는 7.1 오디오 채널 포맷과 같은 잘 알려져 있고 대대적으로 채택된 다중-채널 포맷들로 렌더링될 수도 있기 때문에, 역방향 호환성을 가능하게 할 수도 있다. 그에 따라, SHC 표현은 역방향 호환성을 또한 수용하는 음장의 더 양호한 표현을 가능하게 할 수도 있다.
일반적으로, 본 개시물은 고차 앰비소닉스 오디오 데이터를 코딩하기 위한 기법들을 기술한다. 고차 앰비소닉스 오디오 데이터는 1 보다 더 큰 차수 (order) 를 갖는 구면 조화 기저 함수에 대응하는 적어도 하나의 고차 앰비소닉 (HOA) 계수를 포함할 수도 있다.
하나의 양태에서, 디바이스는, 음장으로부터 분리된 오디오 채널을 포함하는 음장의 증강된 고차 앰비소닉 표현을 획득하고, 음장의 증강된 고차 앰비소닉 표현 내의 공간 위치로부터 오디오 채널을 추출하도록 구성된 하나 이상의 프로세서들을 포함한다.
다른 양태에서, 방법은, 음장으로부터 분리된 오디오 채널을 포함하는 음장의 증강된 고차 앰비소닉 표현을 획득하는 단계, 및 음장의 증강된 고차 앰비소닉 표현 내의 공간 위치로부터 오디오 채널을 추출하는 단계를 포함한다.
다른 양태에서, 디바이스는, 음장의 고차 앰비소닉 표현으로부터 분리된 오디오 채널을 획득하고, 오디오 채널이 음장으로부터 추출되는 것이 가능해지도록 오디오 채널을 음장 내의 공간 위치에 삽입하도록 구성된 하나 이상의 프로세서들을 포함한다.
다른 양태에서, 방법은, 음장의 고차 앰비소닉 표현으로부터 분리된 오디오 채널을 획득하는 단계, 및 오디오 채널이 음장으로부터 추출되는 것이 가능해지도록 오디오 채널을 음장 내의 공간 위치에 삽입하는 단계를 포함한다.
기법들의 하나 이상의 양태들의 상세들이 아래의 설명 및 첨부 도면들에 제시된다. 기법들의 다른 특징들, 목적들, 및 이점들은 이 설명 및 도면들, 그리고 청구항들로부터 명백해질 것이다.
도 1 은 다양한 차수들 및 하위차수 (sub-order) 들의 구면 조화 기저 함수들을 예시하는 다이어그램이다.
도 2 는 본 개시물에서 기술되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템을 예시하는 다이어그램이다.
도 3a 내지 도 3c 는 본 개시물에서 기술되는 기법들의 다양한 양태들을 각각 수행할 수도 있는 도 2 에 도시된 오디오 인코딩 디바이스의 다양한 예들을 예시하는 블록 다이어그램들이다.
도 4a 내지 도 4c 는 본 개시물에서 기술되는 기법들의 다양한 양태들을 수행할 수도 있는 도 2 에 도시된 오디오 디코딩 디바이스의 다양한 예들을 예시하는 블록 다이어그램들이다.
도 5a 내지 도 5c 는 본 개시물에서 기술되는 삽입 기법들의 다양한 양태들을 수행함에 있어서 오디오 인코딩 디바이스의 삽입 유닛의 예시적인 동작을 예시하는 다이어그램들이다.
도 6 은 본 개시물에서 기술되는 영역 생성 및 삽입 기법들의 다양한 양태들을 수행함에 있어서 오디오 인코딩 디바이스의 삽입 유닛의 예시적인 동작을 예시하는 플로우차트이다.
도 7 은 본 개시물에서 기술되는 오디오 채널 추출 기법들의 다양한 양태들을 수행함에 있어서 오디오 디코딩 디바이스의 오디오 채널 추출 유닛의 예시적인 동작을 예시하는 플로우차트이다.
도 8a 내지 도 8c 는 오디오 오브젝트가 본 개시물에서 기술되는 기법들에 따라 삽입될 수도 있는 음장을 예시하는 다이어그램들이다.
서라운드 사운드의 진화는 엔터테인먼트를 위한 많은 출력 포맷들을 이용가능하게 하였다. 이러한 소비자 서라운드 사운드 포맷들의 예들은, 이들이 특정 기하학적 좌표들에서의 라우드스피커 (loudspeaker) 들로의 피드 (feed) 들을 암시적으로 특정한다는 점에서 대부분 '채널' 기반이다. 소비자 서라운드 사운드 포맷들은 대중적인 5.1 포맷 (다음 6 개의 채널들: 전방 좌측 (FL), 전방 우측 (FR), 중앙 또는 전방 중앙, 후방 좌측 또는 서라운드 좌측, 후방 우측 또는 서라운드 우측, 및 저주파 효과들 (low frequency effects; LFE) 을 포함함), 성장하는 7.1 포맷, 및 (예를 들어, 울트라 고선명 텔레비전 표준으로 이용하기 위한) 22.2 포맷 및 7.1.4 포맷과 같은 하이트 스피커 (height speaker) 들을 포함하는 다양한 포맷들을 포함한다. 비-소비자 포맷들은, 종종 '서라운드 어레이들' 이라고 지칭되는 (대칭 및 비대칭 지오메트리들에 있어서) 임의의 개수의 스피커들에 걸쳐 있을 수 있다. 이러한 어레이의 하나의 예는 절단된 20면체의 코너들 상의 좌표들에 포지셔닝된 32 개의 라우드스피커들을 포함한다.
장래의 MPEG 인코더로의 입력은 옵션적으로 3 개의 가능한 포맷들 중 하나이다: (i) 미리 특정된 포지션들에서의 라우드스피커들을 통해 재생되도록 의도된 (위에서 논의된 바와 같은) 전통적인 채널-기반 오디오; (ii) (다른 정보 중에서도) 위치 좌표들을 포함하는 연관된 메타데이터를 갖는 단일 오디오 오브젝트들에 대한 이산 펄스-코드-변조 (PCM) 데이터를 수반하는 오브젝트-기반 오디오; 및 (iii) 구면 조화 기저 함수들의 계수들 (또한 "구면 조화 계수들" 또는 SHC, "고차 앰비소닉스" 또는 HOA, 및 "HOA 계수들" 이라고도 지칭됨) 을 이용하여 음장을 표현하는 것을 수반하는 장면-기반 오디오. 장래의 MPEG 인코더의 부가적인 상세들은, 스위스 제네바에서 2013년 1월에 공개되고 http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip 에서 입수가능한 국제 표준화 기구/국제 전자기술 위원회 (ISO)/(IEC) JTC1/SC29/WG11/N13411 에 의한 "Call for Proposals for 3D Audio" 라는 명칭의 문헌에서 찾을 수도 있다.
다양한 '서라운드-사운드' 채널-기반 포맷들이 이용가능하다. 이들은, 예를 들어, 5.1 홈 시어터 시스템 (스테레오를 넘어 거실로 진출한다는 관점에서 가장 성공적이었음) 으로부터 NHK (Nippon Hoso Kyokai 또는 일본 방송사) 에 의해 개발된 22.2 시스템까지의 범위에 있다. 콘텐츠 크리에이터들 (예를 들어, 헐리우드 스튜디오) 은 영화용 사운드트랙을 한 번 제작하고 싶어하고, 각각의 스피커 구성을 위해 그것을 리믹스하려는 노력을 들이지 않는다. 최근, 표준 개발 기구들은 표준화된 비트스트림으로의 인코딩, 및 재생 (렌더러를 수반함) 의 위치에서 스피커 지오메트리 (및 개수) 및 음향 조건들에 대해 적응가능하고 구속받지 않는 후속 디코딩을 제공하는 방법들을 고려하고 있었다.
콘텐츠 크리에이터들에 대해 이러한 유연성을 제공하기 위해, 엘리먼트들의 계층적 세트가 음장을 표현하기 위해 이용될 수도 있다. 엘리먼트들의 계층적 세트는, 저차 엘리먼트들의 기본 세트가 모델링된 음장의 전체 표현을 제공하도록 엘리먼트들이 오더링되는 (ordered) 엘리먼트들의 세트를 지칭할 수도 있다. 그 세트가 고차 엘리먼트들을 포함하도록 확장됨에 따라, 그 표현은 더 상세화되어, 해상도를 증가시킨다.
엘리먼트들의 계층적 세트의 하나의 예는 구면 조화 계수들 (SHC) 의 세트이다. 다음 식은 SHC 를 이용하여 음장의 디스크립션 (description) 또는 표현을 나타낸다:
Figure pct00001
이 식은 시간 t 에서 음장의 임의의 포인트
Figure pct00002
에서의 압력
Figure pct00003
가 SHC
Figure pct00004
에 의해 고유하게 표현될 수 있음을 나타낸다. 여기서,
Figure pct00005
이고, c 는 사운드의 속도 (~343 m/s) 이고,
Figure pct00006
은 참조의 포인트 (또는 관측 포인트) 이고,
Figure pct00007
은 차수 n 의 구면 베셀 함수이며,
Figure pct00008
은 차수 n 및 하위차수 m 의 구면 조화 기저 함수들이다. 대괄호들에서의 항은 이산 푸리에 변환 (DFT), 이산 코사인 변환 (DCT), 또는 웨이블릿 변환과 같은 다양한 시간-주파수 변환들에 의해 근사화될 수 있는 신호의 주파수-도메인 표현 (즉,
Figure pct00009
) 이다. 계층적 세트들의 다른 예들은 웨이블릿 변환 계수들의 세트들 및 다해상도 기저 함수들의 계수들의 다른 세트들을 포함한다.
도 1 은 제로 차수 (n = 0) 로부터 제 4 차수 (n = 4) 까지의 구면 조화 기저 함수들을 예시하는 다이어그램이다. 보여질 수 있는 바와 같이, 각각의 차수에 대해, 예시 목적들의 용이를 위해 도 1 의 예에 도시되지만 명시적으로 언급되지 않은 하위차수들 m 의 확장이 존재한다.
SHC
Figure pct00010
는 다양한 마이크로폰 어레이 구성들에 의해 물리적으로 포착 (예를 들어, 레코딩) 될 수 있거나 또는, 대안적으로, 음장의 채널-기반 또는 오브젝트-기반 디스크립션들로부터 도출될 수 있다. SHC들은 장면-기반 오디오를 표현하는데, 여기서 SHC들은 더 효율적인 송신 또는 저장을 촉진할 수도 있는 인코딩된 SHC들을 획득하기 위해 오디오 인코더에 입력될 수도 있다. 예를 들어, (1+4)2 (25, 그리고 그에 따라 제 4 차수) 계수들을 수반하는 제 4 차수 표현이 이용될 수도 있다.
위에서 언급된 바와 같이, SHC 는 마이크로폰 어레이를 이용한 마이크로폰 레코딩으로부터 도출될 수도 있다. SHC들이 어떻게 마이크로폰 어레이들로부터 도출될 수도 있는지의 다양한 예들은 『Poletti, M., "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics", J. Audio Eng. Soc., Vol. 53, No. 11, 2005년 11월, pp. 1004-1025』에 기술된다.
SHC들이 어떻게 오브젝트-기반 디스크립션으로부터 도출될 수도 있는지를 예시하기 위해, 다음 식을 고려한다. 개별 오디오 오브젝트에 대응하는 음장에 대한 계수들
Figure pct00011
는 다음과 같이 표현될 수도 있고:
Figure pct00012
여기서 i 는
Figure pct00013
이고,
Figure pct00014
은 차수 n 의 (제 2 종의) 구면 핸켈 함수이고,
Figure pct00015
는 오브젝트의 위치이다. (예를 들어, PCM 스트림에 대해 고속 푸리에 변환을 수행하는 것과 같은 시간-주파수 분석 기법들을 이용하여) 주파수의 함수로서 오브젝트 소스 에너지
Figure pct00016
를 아는 것은 각각의 PCM 오브젝트 및 대응하는 위치를 SHC
Figure pct00017
로 컨버팅하게 한다. 추가로, 이것은 (상기가 선형 및 직교 분해이기 때문에) 각각의 오브젝트에 대한
Figure pct00018
계수들이 가산적임을 나타낼 수 있다. 이러한 방식으로, 다수의 PCM 오브젝트들은 (예를 들어, 개별 오브젝트들에 대한 계수 벡터들의 합으로서)
Figure pct00019
계수들에 의해 표현될 수 있다. 본질적으로, 계수들은 음장에 관한 정보 (3D 좌표들의 함수로서의 압력) 를 포함하고, 상기는, 관측 포인트
Figure pct00020
의 부근에서, 개별 오브젝트들로부터 전체 음장의 표현으로의 변환을 표현한다. 나머지 도면들은 오브젝트-기반 및 SHC-기반 오디오 코딩의 맥락에서 아래에 기술된다.
도 2 는 본 개시물에서 기술되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템 (10) 을 예시하는 다이어그램이다. 도 2 의 예에 도시된 바와 같이, 시스템 (10) 은 콘텐츠 크리에이터 디바이스 (12) 및 콘텐츠 소비자 디바이스 (14) 를 포함한다. 콘텐츠 크리에이터 디바이스 (12) 및 콘텐츠 소비자 디바이스 (14) 의 맥락에서 기술되지만, 그 기법들은 음장의 (HOA 계수들이라고도 또한 지칭될 수도 있는) SHC들 또는 임의의 다른 계층적 표현이 오디오 데이터를 표현하는 비트스트림을 형성하도록 인코딩되는 임의의 맥락에서 구현될 수도 있다. 더욱이, 콘텐츠 크리에이터 디바이스 (12) 는 몇몇 예들을 제공하기 위해 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 셋톱 박스, 텔레비전, 오디오 수신기, 휴대용 컴퓨터 또는 데스크톱 컴퓨터를 포함하여, 본 개시물에서 기술되는 기법들을 구현하는 것이 가능한 임의의 형태의 컴퓨팅 디바이스를 표현할 수도 있다. 이와 마찬가지로, 콘텐츠 소비자 디바이스 (14) 는 몇몇 예들을 제공하기 위해 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 셋톱 박스, 텔레비전, 오디오 수신기, 휴대용 컴퓨터 또는 데스크톱 컴퓨터를 포함하여, 본 개시물에서 기술되는 기법들을 구현하는 것이 가능한 임의의 형태의 컴퓨팅 디바이스를 표현할 수도 있다.
콘텐츠 크리에이터 디바이스 (12) 는 콘텐츠 소비자 디바이스 (14) 와 같은 콘텐츠 소비자 디바이스들의 오퍼레이터들에 의한 소비를 위해 다중-채널 오디오 콘텐츠를 생성할 수도 있는 영화 또는 텔레비전 스튜디오 또는 다른 엔터티에 의해 동작될 수도 있다. 일부 예들에서, 콘텐츠 크리에이터 디바이스 (12) 는 HOA 계수들 (11) 을 압축하고자 하는 개별 사용자에 의해 동작될 수도 있다. 일부 예들에서, 콘텐츠 크리에이터 디바이스 (12) 는 HOA 계수들 (11) 을 분리된 오디오 콘텐츠 (201) (예컨대 코멘터리) 로 증강 (augment) 시킬 수도 있다. 종종, 콘텐츠 크리에이터는 비디오 콘텐츠와 함께 오디오 콘텐츠를 생성한다. 콘텐츠 소비자 디바이스 (14) 는 개인, 예를 들어, 사용자 (7) 에 의해 동작될 수도 있다. 콘텐츠 소비자 디바이스 (14) 는, 다중-채널 오디오 콘텐츠로서의 재생을 위해 SHC 를 렌더링하는 것이 가능한 임의의 형태의 오디오 재생 시스템을 지칭할 수도 있는 오디오 재생 시스템 (16) 을 포함할 수도 있다.
콘텐츠 크리에이터 디바이스 (12) 는 오디오 편집 시스템 (18) 을 포함한다. 콘텐츠 크리에이터 디바이스 (12) 는 콘텐츠 크리에이터 디바이스 (12) 가 오디오 편집 시스템 (18) 을 이용하여 편집할 수도 있는 오디오 오브젝트들 및 다양한 포맷들 (HOA 계수들로서 직접 포함함) 의 라이브 레코딩들을 획득할 수도 있다. 콘텐츠 크리에이터는, 편집 프로세스 동안, 오디오 오브젝트들 (9) 로부터 HOA 계수들 (11) 을 렌더링하여, 추가로 편집할 것을 요구하는 음장의 다양한 양태들을 식별하기 위한 시도시에 렌더링된 스피커 피드들을 청취할 수도 있다. 그 후에, 콘텐츠 크리에이터 디바이스 (12) 는 (소스 HOA 계수들이 상술된 방식으로 도출되게 할 수도 있는 오디오 오브젝트들 (9) 중 상이한 오디오 오브젝트들의 조작을 통해 잠재적으로 간접적으로) HOA 계수들 (11) 을 편집할 수도 있다. 콘텐츠 크리에이터 디바이스 (12) 는 오디오 편집 시스템 (18) 을 채용하여 HOA 계수들 (11) 을 생성할 수도 있다. 오디오 편집 시스템 (18) 은 오디오 데이터를 편집하고 오디오 데이터를 하나 이상의 소스 구면 조화 계수들로서 출력하는 것이 가능한 임의의 시스템을 표현한다.
편집 프로세스가 완료될 때, 콘텐츠 크리에이터 디바이스 (12) 는 HOA 계수들 (11) 에 기초하여 비트스트림 (21) 을 생성할 수도 있다. 즉, 콘텐츠 크리에이터 디바이스 (12) 는 비트스트림 (21) 을 생성하기 위해 본 개시물에서 기술되는 기법들의 다양한 양태들에 따라 HOA 계수들 (11) 을 인코딩하거나 또는 그렇지 않으면 압축하도록 구성된 디바이스를 표현하는 오디오 인코딩 디바이스 (20) 를 포함한다. 오디오 인코딩 디바이스 (20) 는, 하나의 예로서, 데이터 저장 디바이스, 유선 또는 무선 채널일 수도 있는 송신 채널 등에 걸친 송신을 위해 비트스트림 (21) 을 생성할 수도 있다. 비트스트림 (21) 은 HOA 계수들 (11) 의 인코딩된 버전을 표현할 수도 있고, 프라이머리 비트스트림 또는 다른 사이드 비트스트림을 포함할 수도 있는데, 이 사이드 비트스트림은 사이드 채널 정보라고 지칭될 수도 있다.
콘텐츠 소비자 디바이스 (14) 에 직접 송신되는 것으로서 도 2 에 도시되지만, 콘텐츠 크리에이터 디바이스 (12) 는 콘텐츠 크리에이터 디바이스 (12) 와 콘텐츠 소비자 디바이스 (14) 사이에 포지셔닝된 중간 디바이스에 비트스트림 (21) 을 출력할 수도 있다. 중간 디바이스는 비트스트림을 요청할 수도 있는 콘텐츠 소비자 디바이스 (14) 로의 추후 전달을 위해 비트스트림 (21) 을 저장할 수도 있다. 중간 디바이스는 파일 서버, 웹 서버, 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 모바일 폰, 스마트 폰, 또는 오디오 디코더에 의한 추후 취출을 위해 비트스트림 (21) 을 저장하는 것이 가능한 임의의 다른 디바이스를 포함할 수도 있다. 중간 디바이스는, 비트스트림 (21) 을, 비트스트림 (21) 을 요청하는 콘텐츠 소비자 디바이스 (14) 와 같은 가입자들에게 스트리밍하는 것 (그리고 가능하게는, 대응하는 비디오 데이터 비트스트림을 송신하는 것과 함께) 이 가능한 콘텐츠 전달 네트워크에 상주할 수도 있다.
대안적으로, 콘텐츠 크리에이터 디바이스 (12) 는 콤팩트 디스크, 디지털 비디오 디스크, 고선명 비디오 디스크 또는 다른 저장 매체들과 같은 저장 매체에 비트스트림 (21) 을 저장할 수도 있고, 이들 중 대부분은 컴퓨터에 의해 판독되는 것이 가능하여 그에 따라 컴퓨터 판독가능 저장 매체들 또는 비일시적 컴퓨터 판독가능 저장 매체들이라고 지칭될 수도 있다. 이러한 맥락에서, 송신 채널은 이들 매체들에 저장된 콘텐츠가 송신되게 하는 채널들을 지칭할 수도 있다 (그리고, 리테일 스토어 (retail store) 들 및 다른 스토어-기반 전달 메커니즘을 포함할 수도 있다). 그에 따라, 어떤 경우든, 본 개시물의 기법들은 이와 관련하여 도 2 의 예로 제한되어서는 안된다.
도 2 의 예에 추가로 도시된 바와 같이, 콘텐츠 소비자 디바이스 (14) 는 오디오 재생 시스템 (16) 을 포함한다. 오디오 재생 시스템 (16) 은 다중-채널 오디오 데이터를 재생하는 것이 가능한 임의의 오디오 재생 시스템을 표현할 수도 있다. 오디오 재생 시스템 (16) 은 다수의 상이한 렌더러들 (22) 을 포함할 수도 있다. 렌더러들 (22) 은 각각 상이한 형태의 렌더링을 제공할 수도 있고, 여기서 상이한 형태들의 렌더링은 벡터-기반 진폭 플래닝 (vector-base amplitude panning; VBAP) 을 수행하는 다양한 방법들 중 하나 이상, 및/또는 음장 합성을 수행하는 다양한 방법들 중 하나 이상을 포함할 수도 있다. 본 명세서에서 사용되는 바와 같이, "A 및/또는 B" 는 "A 또는 B", 또는 "A 와 B" 양쪽을 의미한다.
오디오 재생 시스템 (16) 은 오디오 디코딩 디바이스 (24) 를 더 포함할 수도 있다. 오디오 디코딩 디바이스 (24) 는 비트스트림을 디코딩하여 비트스트림 (21) 으로부터 HOA 계수들 (11') 및 분리된 오디오 콘텐츠 (201) 를 생성하도록 구성된 디바이스를 표현할 수도 있다. HOA 계수들 (11') 은 HOA 계수들 (11) 과 유사할 수도 있지만 손실 동작들 (예를 들어, 양자화) 및/또는 송신 채널을 통한 송신으로 인해 달라질 수도 있다.
오디오 재생 시스템 (16) 은 오디오 렌더러들 (22) 중 하나 이상을 이용하여 HOA 계수들 (11') 을 렌더링하여 라우드스피커 피드들 (25) 을 출력할 수도 있다. 오디오 재생 시스템 (16) 은 오디오 렌더러들 (22) 중 하나 이상을 이용하여 분리된 오디오 콘텐츠 (201) 를 렌더링하여 분리된 라우드스피커 피드 (203) 를 출력할 수도 있다. 오디오 재생 시스템 (16) 은 분리된 라우드스피커 피드 (203) 를 라우드스피커 피드들 (25) 과 믹싱하여 그에 의해 믹싱된 라우드스피커 피드들 (25') 을 생성하는 믹서 (8) 를 더 포함할 수도 있다.
적절한 렌더러를 선택하거나 또는, 일부 경우들에서, 적절한 렌더러를 생성하기 위해, 오디오 재생 시스템 (16) 은 라우드스피커들의 개수 및/또는 라우드스피커들의 공간 지오메트리를 나타내는 라우드스피커 정보를 획득할 수도 있다. 일부 경우들에서, 오디오 재생 시스템 (16) 은 라우드스피커 정보를 동적으로 결정하도록 하는 방식으로 라우드스피커들을 구동하고 참조 마이크로폰을 이용하여 라우드스피커 정보를 획득할 수도 있다. 다른 경우들에서 또는 라우드스피커 정보의 동적 결정과 함께, 오디오 재생 시스템 (16) 은 오디오 재생 시스템 (16) 과 인터페이싱하고 라우드스피커 정보를 입력하도록 사용자를 프롬프트할 수도 있다.
그 후에, 오디오 재생 시스템 (16) 은 라우드스피커 정보에 기초하여 오디오 렌더러들 (22) 중 하나 이상을 선택할 수도 있다. 일부 경우들에서, 오디오 재생 시스템 (16) 은, 오디오 렌더러들 (22) 중 어떠한 것도 라우드스피커 정보에 특정된 라우드스피커 지오메트리에 대한 (라우드스피커 지오메트리 관점에서의) 일부 임계 유사도 측정치 내에 있지 않을 때, 라우드스피커 정보에 기초하여 오디오 렌더러들 (22) 중 하나를 생성할 수도 있다. 오디오 재생 시스템 (16) 은, 일부 경우들에서, 오디오 렌더러들 (22) 중 기존의 하나의 오디오 렌더러를 우선 선택하려고 시도하는 일 없이 라우드스피커 정보에 기초하여 오디오 렌더러들 (22) 중 하나를 생성할 수도 있다.
오디오 재생 시스템 (16) 은 또한 사용자 (7) 가 (그래픽적으로, 원격 제어를 통해, 텍스트- 및/또는 음성-기반 인터페이스를 통해 등) 오디오 재생 시스템 (16) 과 인터페이싱할 수도 있게 하는 유닛을 표현하는 사용자 인터페이스 유닛 (6) 을 포함한다. 사용자 인터페이스 유닛 (6) 은 라우드스피커 피드들 (25) 및 분리된 오디오 콘텐츠 라우드스피커 피드 (203) 의 볼륨을 제어하도록 하는 다양한 방법들을 제시할 수도 있다. 사용자 (7) 는 HOA 계수들 (11') 로부터 렌더링된 라우드스피커 피드들 (25) 로부터 분리된 라우드스피커 피드 (203) 의 볼륨을 뮤트 (mute), 언뮤트 (unmute) 및/또는 증가 또는 감소시키도록 커맨드들을 입력할 수도 있다. 더욱이, 사용자 인터페이스 유닛 (6) 은 분리된 오디오 채널 (201) (분리된 오디오 콘텐츠 (201) 를 지칭하기 위한 다른 방법일 수도 있음) 과 연관된 메타데이터를 제시할 수도 있다. 메타데이터는 분리된 오디오 채널 (201) 그 자체에서 특정될 수도 있다. 사용자 인터페이스 유닛 (6) 은, 분리된 오디오 채널 (201) 을 식별하는 것에 관련된, 언어, 타입, 코멘테이터들/스포츠캐스터들의 이름들 등을 기술하는 임의의 다른 정보와 함께 메타데이터를 제시할 수도 있다. 결국, 2 개 이상의 분리된 오디오 채널들 (201) 이 제공되고, 사용자 인터페이스 유닛 (6) 은 채널들 (201) 각각에 대한 이러한 정보를 특정하여, 이들 채널들 (201) 각각을 개별적으로 뮤트 또는 언뮤트시키거나, 또는 이들 채널들 (201) 각각의 볼륨을 증가 또는 감소시키는, 다양한 채널들 (201) 사이의 사용자 선택을 용이하게 할 수도 있다. 더욱이, 사용자 인터페이스 유닛 (6) 은 사용자로 하여금 분리된 오디오 채널이 믹싱되어야 하는 물리적 스피커들이 어떤 것인지를 선택할 수 있게 할 수도 있다.
사용자 인터페이스 유닛 (6) 은, 사용자 입력의 수신시, 믹서 (8) 와 인터페이싱할 수도 있어서, 믹서 (8) 가 분리된 라우드스피커 채널 (203) 을 HOA 계수들 (11') 로부터 렌더링된 라우드스피커 피드들 (25) 과 적절히 믹싱할 수도 있다. 이러한 방식으로, 기법들은 분리된 라우드스피커 채널 (203) 을 통해 더 세분화된 사용자 제어를 용이하게 할 수도 있다.
다시 말해, 브로드캐스터들에 의해 인용된 바와 같은, 분리된 전용 오디오 채널들을 갖는 잠재적인 이점들 중 하나는, 잠재적으로 유연하게 그리고 상호작용으로 볼륨을 감소시키거나 및/또는 어떤 언어 코멘터리를 이용할지를 선택하는 것이 가능해진다는 점에서 청취자들에게 제공할 수도 있는 유연성이다. 이들 여분의 코멘터리 '오브젝트들' 의 프로비전은 통상적으로 여분의 대역폭을 요구한다.
본 개시물에서 기술되는 기법들의 다양한 양태들에 의해 제공되는 솔루션은 여분의 채널들이 HOA 또는 SH 채널들 내에 임베딩되게 할 수도 있다. 새로운 MPEG-H 표준에서 제안된 SH/HOA 코딩 스킴의 부분으로서 이들 SH/HOA 채널들이 코딩되고 송신될 수도 있기 때문에, 위에서 언급된 이유들로 어떠한 여분의 대역폭도 일반적으로 요구되지 않는다. 기법들은, 오디오 인코딩 디바이스들로 하여금, 배경 또는 주변 정보를 보통 표현하는 SH/HOA 계수들에 의해 표현된 음장 디스크립션에 이들 오브젝트 사운드들을 삽입할 수 있게 할 수도 있다. 이와 같이 행하는 3 개의 예시적인 방법들이 존재한다:
1) 공간적 '홀들 (holes)' 이 존재하는 음장의 영역들에 오브젝트 사운드들을 삽입한다. 이것은 인코더에서의 음장 분석 - 그리고 가능하다면 오브젝트가 포지셔닝되었던 '곳' 의 앙각/방위각을 전송하는 것을 요구한다.
2) 음장의 '임의의' 부분에 오브젝트 사운드들을 삽입하고 - (SVD 와 같은 소스 분리 알고리즘들 또는 다른 수단을 이용하여) 구별되는/전경 오브젝트를 분리하여 이들을 정확히 추출하는 것이 가능하도록 디코더에 의존한다. 이것은 또한 인코더로부터 오디오 오브젝트가 삽입되었던 곳에 대한 일부 정보를 전송하는 것에 의해 도움받을 수 있다; 그리고
3) 음장에 홀들을 밀어 넣고, 그 결과 어떠한 유해한 지각 영향도 가하지 않을 것이다. 오디오-오브젝트들은 이들 공간적 홀들 내에 배치될 것이다. 인코더는, 예를 들어, '메타데이터' 를 디코더에 전송하는 것에 의해, 이들 홀들이 생성되었던 곳을 나타낼 것이다.
도 3a 내지 도 3c 는 본 개시물에서 기술되는 기법들의 다양한 양태들을 수행할 수도 있는 도 2 의 예에 도시된 오디오 인코딩 디바이스 (20) 의 예들을 더 상세히 예시하는 블록 다이어그램들이다. 도 3a 의 예에서, 오디오 인코딩 디바이스 (20A) 는 콘텐츠 분석 유닛 (26), 벡터-기반 분해 유닛 (27) 및 방향성-기반 분해 유닛 (28) 을 포함한다. 아래에 간략히 기술되지만, HOA 계수들을 압축하거나 또는 그렇지 않으면 인코딩하는 다양한 양태들 및 오디오 인코딩 디바이스 (20A) 에 관한 더 많은 정보는 발명의 명칭이 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD" 이고 2014년 5월 29일자로 출원된 국제 특허 출원 공개 WO 2014/194099호에서 입수가능하다.
콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 이 라이브 레코딩 또는 오디오 오브젝트로부터 생성된 콘텐츠를 표현하는지 여부를 식별하기 위해 HOA 계수들 (11) 의 콘텐츠를 분석하도록 구성된 유닛을 표현한다. 콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 이 실제 음장의 레코딩으로부터 생성되었는지 또는 인공적인 오디오 오브젝트로부터 생성되었는지 여부를 결정할 수도 있다. 일부 경우들에서, 프레임화된 HOA 계수들 (11) 이 레코딩으로부터 생성되었을 때, 콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 을 벡터-기반 분해 유닛 (27) 에 전달한다. 일부 경우들에서, 프레임화된 HOA 계수들 (11) 이 합성 오디오 오브젝트로부터 생성되었을 때, 콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 을 방향성-기반 합성 유닛 (28) 에 전달한다. 방향성-기반 합성 유닛 (28) 은 방향성-기반 비트스트림 (21) 을 생성하기 위해 HOA 계수들 (11) 의 방향성-기반 합성을 수행하도록 구성된 유닛을 표현할 수도 있다.
도 3a 의 예에 도시된 바와 같이, 벡터-기반 분해 유닛 (27) 은 선형 가역 변환 (LIT) 유닛 (30), 파라미터 계산 유닛 (32), 리오더 유닛 (reorder unit; 34), 전경 선택 유닛 (36), 에너지 보상 유닛 (38), 심리음향 오디오 코더 유닛 (40), 비트스트림 생성 유닛 (42), 음장 분석 유닛 (44), 계수 감소 유닛 (46), 배경 (BG) 선택 유닛 (48), 공간-시간 보간 유닛 (50), 양자화 유닛 (52) 및 삽입 유닛 (234) 을 포함할 수도 있다.
선형 가역 변환 (LIT) 유닛 (30) 은 HOA 채널들의 형태로 HOA 계수들 (11) 을 수신하고, 각각의 채널은 구면 기저 함수들 (HOA[k] 로서 표시될 수도 있고, 여기서 k 는 샘플들의 현재 프레임 또는 블록을 표시할 수도 있음) 의 주어진 차수, 하위차수와 연관된 계수의 블록 또는 프레임을 표현한다. HOA 계수들 (11) 의 행렬은 차원들 D: M x (N+1)2 을 가질 수도 있다.
LIT 유닛 (30) 은 특이값 분해라고 지칭되는 분석의 형태를 수행하도록 구성된 유닛을 표현할 수도 있다. SVD 에 관하여 기술되지만, 본 개시물에서 기술되는 기법들은 선형적으로 미상관된 에너지 집중형 출력의 세트들에 대해 제공하는 임의의 유사한 변환 또는 분해에 관하여 수행될 수도 있다. 또한, 본 개시물에서의 "세트들" 이라는 언급은, 구체적으로 반대로 서술되지 않으면 비-제로 세트들을 지칭하도록 일반적으로 의도되고, 소위 "공집합 (empty set)" 을 포함하는 세트들의 고전적인 수학적 정의를 지칭하도록 의도되지 않는다. 대안적인 변환은 "PCA" 라고 종종 지칭되는 주요 성분 분석 (principal component analysis) 을 포함할 수도 있다. 맥락에 의존하여, PCA 는, 몇몇 예들만 들자면, 이산 카루넨-루베 변환 (Karhunen-Loeve transform), 호텔링 변환 (Hotelling transform), 적절한 직교 분해 (proper orthogonal decomposition; POD), 및 고유값 분해 (eigenvalue decomposition; EVD) 와 같은 다수의 상이한 이름들로 지칭될 수도 있다. 오디오 데이터를 압축하는 기본 목적에 도움이 되는 이러한 동작들의 속성들은 다중채널 오디오 데이터의 '에너지 집중' 및 '탈상관' 이다.
어떤 경우든, LIT 유닛 (30) 이 예의 목적들을 위해 특이값 분해 (다시, "SVD" 라고 지칭될 수도 있음) 를 수행한다고 가정하면, LIT 유닛 (30) 은 HOA 계수들 (11) 을 변환된 HOA 계수들의 2 개 이상의 세트들로 변환할 수도 있다. 변환된 HOA 계수들의 "세트들" 은 변환된 HOA 계수들의 벡터들을 포함할 수도 있다. 도 3a 의 예에서, LIT 유닛 (30) 은 HOA 계수들 (11) 에 관하여 SVD 를 수행하여 소위 V 행렬, S 행렬, 및 U 행렬을 생성할 수도 있다. 선형 대수에서의 SVD 는 y-바이-z (y-by-z) 실수 또는 복소 행렬 (X) (여기서 X 는 HOA 계수들 (11) 과 같은 다중-채널 오디오 데이터를 표현할 수도 있음) 의 인수분해를 다음의 형태로 표현할 수도 있다:
X = USV*
U 는 y-바이-y 실수 또는 복소 유니터리 행렬을 표현할 수도 있고, 여기서 U 의 y 컬럼들은 다중-채널 오디오 데이터의 좌-특이 벡터들로서 알려져 있다. S 는 대각선으로 비-네거티브 실수들을 갖는 y-바이-z 직사각형 대각 행렬을 표현할 수도 있고, 여기서 S 의 대각선 값들은 다중-채널 오디오 데이터의 특이값들로서 알려져 있다. V* (V 의 공액 전치를 표시할 수도 있음) 는 z-바이-z 실수 또는 복소 유니터리 행렬을 표현할 수도 있고, 여기서 V* 의 z 컬럼들은 다중-채널 오디오 데이터의 우-특이 벡터들로서 알려져 있다.
일부 예들에서, 위에서 참조된 SVD 수학식에서의 V* 행렬은, SVD 가 복소수들을 포함하는 행렬들에 적용될 수도 있음을 반영하기 위해 V 행렬의 공액 전치로서 표시된다. 오직 실수들만을 포함하는 행렬들에 적용될 때, V 행렬의 복소 공액 (또는, 다시 말해, V* 행렬) 은 V 행렬의 전치인 것으로 고려될 수도 있다. 아래에, 예시 목적들의 용이를 위해, HOA 계수들 (11) 은, V* 행렬보다는 V 행렬이 SVD 를 통해 출력되는 결과로 실수들을 포함한다고 가정된다. 더욱이, 본 개시물에서 V 행렬로서 표시되지만, V 행렬에 대한 언급은 적절한 경우 V 행렬의 전치를 지칭하는 것으로 이해되어야 한다. V 행렬인 것으로 가정되지만, 기법들은 복소 계수들을 갖는 HOA 계수들 (11) 에 대해 유사한 방식으로 적용될 수도 있고, 여기서 SVD 의 출력은 V* 행렬이다. 이에 따라, 기법들은 이와 관련하여 V 행렬을 생성하기 위해 오직 SVD 의 적용만을 제공하도록 제한되어서는 안되지만, V* 행렬을 생성하기 위해 복소 성분들을 갖는 HOA 계수들 (11) 로의 SVD 의 적용을 포함할 수도 있다.
이러한 방법으로, LIT 유닛 (30) 은 HOA 계수들 (11) 에 관하여 SVD 를 수행하여, 차원들 D: M x (N+1)2 을 갖는 US[k] 벡터들 (33) (S 벡터들과 U 벡터들의 조합된 버전을 표현할 수도 있음), 및 차원들 D: (N+1)2 x (N+1)2 을 갖는 V[k] 벡터들 (35) 을 출력할 수도 있다. US[k] 행렬에서의 개별 벡터 엘리먼트들은 또한 X PS (k) 라고 지칭될 수도 있는 한편, V[k] 행렬에서의 개별 벡터들은 또한
Figure pct00021
라고 지칭될 수도 있다.
U, S 및 V 행렬들의 분석은 이들 행렬들이 X 에 의해 위에서 표현된 기본 음장의 공간 및 시간 특성들을 포함함 또는 표현함을 나타낼 수도 있다. (길이 M 샘플들의) U 에서의 N 벡터들 각각은, 서로 직교하고 임의의 공간 특성들 (또한 방향성 정보라고도 지칭될 수도 있음) 로부터 커플링해제(decouple)되었던 정규화된 분리된 오디오 신호들을 (M 개의 샘플들에 의해 표현된 시간 주기에 대한) 시간의 함수로서 표현할 수도 있다. 공간 형상 및 포지션 (r, 세타, 파이) 을 표현하는 공간 특성들은 V 행렬 (각각의 길이 (N+1)2) 에서 개별 i 번째 벡터들
Figure pct00022
에 의해 대신 표현될 수도 있다. 벡터들
Figure pct00023
각각의 개별 엘리먼트들은 연관된 오디오 오브젝트에 대한 음장의 형상 (폭을 포함함) 및 포지션을 기술하는 HOA 계수를 표현할 수도 있다. U 행렬 및 V 행렬에서의 벡터들 양쪽은 이들의 제곱-평균-제곱근 (root-mean-square) 에너지들이 1 과 동일하도록 정규화된다. 따라서, U 에서의 오디오 신호들의 에너지는 S 에서의 대각선 엘리먼트들에 의해 표현된다. 따라서, U 와 S 를 곱하여 (개별 벡터 엘리먼트들 X PS (k) 를 갖는) US[k] 를 형성하는 것은 에너지들을 갖는 오디오 신호를 표현한다. (U 에서의) 오디오 시간-신호들, (S 에서의) 이들의 에너지들, 및 (V 에서의) 이들의 공간 특성들을 커플링해제하기 위한 SVD 분해의 능력은 본 개시물에서 기술되는 기법들의 다양한 양태들을 지원할 수도 있다. 추가로, 기본 HOA[k] 계수들 (X) 을 US[k] 와 V[k] 의 벡터 곱셈에 의해 합성하는 모델은 본 문헌 전반에 걸쳐 사용되는 용어 "벡터-기반 분해" 를 발생시킨다.
HOA 계수들 (11) 에 관하여 직접 수행되는 것으로서 기술되지만, LIT 유닛 (30) 은 선형 가역 변환을 HOA 계수들 (11) 의 도함수들에 적용할 수도 있다. 예를 들어, LIT 유닛 (30) 은 HOA 계수들 (11) 로부터 도출된 전력 스펙트럼 밀도 행렬에 관하여 SVD 를 적용할 수도 있다. 계수들 자체보다는 HOA 계수들의 전력 스펙트럼 밀도 (PSD) 에 관하여 SVD 를 수행함으로써, LIT 유닛 (30) 은 프로세서 사이클들 및 저장 공간 중 하나 이상의 관점에서 SVD 를 수행하는 연산 복잡도를 잠재적으로 감소시키면서, SVD 가 HOA 계수들에 직접 적용되었던 것처럼 동일한 소스 오디오 인코딩 효율을 달성할 수도 있다.
파라미터 계산 유닛 (32) 은 상관 파라미터 (R), 방향 속성 파라미터들 (θ,
Figure pct00024
, r) 및 에너지 속성 (e) 과 같은 다양한 파라미터들을 계산하도록 구성된 유닛을 표현한다. 현재 프레임에 대한 파라미터들 각각은 R[k], θ[k],
Figure pct00025
[k], r[k] 및 e[k] 로서 표시될 수도 있다. 파라미터 계산 유닛 (32) 은 US[k] 벡터들 (33) 에 관하여 에너지 분석 및/또는 상관 (또는 소위 상호-상관) 을 수행하여 이들 파라미터들을 식별할 수도 있다. 파라미터 계산 유닛 (32) 은 또한 파라미터들을 이전 프레임에 대해 결정할 수도 있고, 여기서 이전 프레임 파라미터들은 US[k-1] 벡터 및 V[k-1] 벡터들의 이전 프레임에 기초하여 R[k-1], θ[k-1],
Figure pct00026
[k-1], r[k-1] 및 e[k-1] 로 표시될 수도 있다. 파라미터 계산 유닛 (32) 은 현재 파라미터들 (37) 및 이전 파라미터들 (39) 을 리오더 유닛 (34) 에 출력할 수도 있다.
파라미터 계산 유닛 (32) 에 의해 계산된 파라미터들은, 오디오 오브젝트들을, 시간에 걸친 이들의 자연적 평가 또는 연속성을 표현하도록 리오더링하기 (re-order) 위해 리오더 유닛 (34) 에 의해 이용될 수도 있다. 리오더 유닛 (34) 은 제 1 US[k] 벡터들 (33) 로부터의 파라미터들 (37) 각각을, 순번별로, 제 2 US[k-1] 벡터들 (33) 에 대한 파라미터들 (39) 각각에 대해 비교할 수도 있다. 리오더 유닛 (34) 은 현재 파라미터들 (37) 및 이전 파라미터들 (39) 에 기초하여 US[k] 행렬 (33) 및 V[k] 행렬 (35) 내의 다양한 벡터들을 (하나의 예로서, 헝가리안 알고리즘 (Hungarian algorithm) 을 이용하여) 리오더링하여, 리오더링된 US[k] 행렬 (33') (수학적으로
Figure pct00027
로서 표시될 수도 있음) 및 리오더링된 V[k] 행렬 (35') (수학적으로
Figure pct00028
로서 표시될 수도 있음) 을 전경 사운드 (또는 우세 사운드 - PS) 선택 유닛 (36) ("전경 선택 유닛 (36)") 및 에너지 보상 유닛 (38) 에 출력할 수도 있다.
음장 분석 유닛 (44) 은 타깃 비트레이트 (41) 를 잠재적으로 달성하도록 HOA 계수들 (11) 에 관하여 음장 분석을 수행하도록 구성된 유닛을 표현할 수도 있다. 음장 분석 유닛 (44) 은, 분석 및/또는 수신된 타깃 비트레이트 (41) 에 기초하여, 심리음향 코더 인스턴스화들의 총 개수 (주변 또는 배경 채널들 (BGTOT) 의 총 개수의 함수일 수도 있음) 및 전경 채널들 또는, 다시 말해, 우세 채널들의 개수를 결정할 수도 있다. 심리음향 코더 인스턴스화들의 총 개수는 numHOATransportChannels 로서 표시될 수 있다.
음장 분석 유닛 (44) 은 또한, 다시 타깃 비트레이트 (41) 를 잠재적으로 달성하기 위해, 전경 채널들의 총 개수 (nFG) (45), 배경 (또는, 다시 말해, 주변) 음장의 최소 차수 (NBG 또는, 대안적으로, MinAmbHOAorder), 배경 음장의 최소 차수를 표현하는 실제 채널들의 대응하는 개수 (nBGa = (MinAmbHOAorder + 1)2), 및 전송할 부가적인 BG HOA 채널들의 인덱스들 (i) (도 3a 의 예에서 배경 채널 정보 (43) 로서 일괄적으로 표시될 수도 있음) 을 결정할 수도 있다. 배경 채널 정보 (42) 는 또한 주변 채널 정보 (43) 라고도 지칭될 수도 있다. numHOATransportChannels - nBGa 로부터 남겨진 채널들 각각은 "부가적인 배경/주변 채널", "액티브 벡터-기반 우세 채널", "액티브 방향성-기반 우세 신호" 또는 "완전히 인액티브" 일 수도 있다. 하나의 양태에서, 채널 타입들은 2 비트들에 의해 (예를 들어, "ChannelType" 으로서) 신택스 엘리먼트로 나타낼 수도 있다 (예를 들어, 00: 방향성 기반 신호; 01: 벡터-기반 우세 신호; 10: 부가적인 주변 신호; 11: 인액티브 신호). 배경 또는 주변 신호들의 총 개수 (nBGa) 는 (MinAmbHOAorder + 1)2 + (위의 예에서) 인덱스 10 이 그 프레임에 대한 비트스트림에서 채널 타입으로서 나타나는 횟수에 의해 주어질 수도 있다.
음장 분석 유닛 (44) 은 타깃 비트레이트 (41) 에 기초하여 배경 (또는, 다시 말해, 주변) 채널들의 개수 및 전경 (또는, 다시 말해, 우세) 채널들의 개수를 선택하여, 타깃 비트레이트 (41) 가 상대적으로 더 높을 때 (예를 들어, 타깃 비트레이트 (41) 가 512 Kbps 이상일 때) 더 많은 배경 및/또는 전경 채널들을 선택할 수도 있다. 하나의 양태에서, 비트스트림의 헤더 선택에 있어서 MinAmbHOAorder 는 1 로 설정될 수도 있는 한편 numHOATransportChannels 는 8 로 설정될 수도 있다. 이 시나리오에서, 모든 프레임에서, 4 개의 채널들이 음장의 배경 또는 주변 부분을 표현하기 위해 전용될 수도 있는 한편, 다른 4 개의 채널들은 프레임 기반으로 채널의 타입에 대해 - 예를 들어, 부가적인 배경/주변 채널 또는 전경/우세 채널로서 이용되는 것에 의해 변할 수 있다. 전경/우세 신호들은, 상술된 바와 같이, 벡터-기반 또는 방향성 기반 신호들 중 하나일 수 있다.
일부 경우들에서, 프레임에 대한 벡터-기반 우세 신호들의 총 개수는 그 프레임의 비트스트림에서 ChannelType 인덱스가 01 인 횟수에 의해 주어질 수도 있다. 위의 양태에서, 모든 부가적인 배경/주변 채널 (예를 들어, 00 의 ChannelType 에 대응함) 에 대해, (처음 4 개를 초과한) 가능한 HOA 계수들 중 어느 계수의 대응하는 정보가 그 채널에서 표현될 수도 있다. 그 정보는, 제 4 차수 HOA 콘텐츠에 대해, HOA 계수들 5 내지 25 를 나타내기 위한 인덱스일 수도 있다. 처음 4 개의 주변 HOA 계수들 1 내지 4 는 minAmbHOAorder 가 1 로 설정될 때의 모든 시간에 전송될 수도 있다; 그에 따라, 오디오 인코딩 디바이스는 단지 5 내지 25 의 인덱스를 갖는 부가적인 주변 HOA 계수 중 하나만을 나타낼 필요가 있을 수도 있다. 따라서, 이 정보는 "CodedAmbCoeffIdx" 로서 표시될 수도 있는 (제 4 차수 콘텐츠에 대한) 5 비트 신택스 엘리먼트를 이용하여 전송될 수 있다. 어떤 경우든, 음장 분석 유닛 (44) 은 배경 채널 정보 (43) 및 HOA 계수들 (11) 을 배경 (BG) 선택 유닛 (36) 에 출력하고, 배경 채널 정보 (43) 를 계수 감소 유닛 (46) 및 비트스트림 생성 유닛 (42) 에 출력하며, nFG (45) 를 전경 선택 유닛 (36) 에 출력한다.
배경 선택 유닛 (48) 은 배경 채널 정보 (예를 들어, 배경 음장 (NBG) 및 개수 (nBGa) 그리고 전송할 부가적인 BG HOA 채널들의 인덱스들 (i)) 에 기초하여 배경 또는 주변 HOA 계수들 (47) 을 결정하도록 구성된 유닛을 표현할 수도 있다. 예를 들어, NBG 가 1 과 동일할 때, 배경 선택 유닛 (48) 은 1 보다 더 작거나 동일한 차수를 갖는 오디오 프레임의 각각의 샘플에 대한 HOA 계수들 (11) 을 선택할 수도 있다. 그 후에, 배경 선택 유닛 (48) 은, 이 예에서, 부가적인 BG HOA 계수들로서 인덱스들 (i) 중 하나에 의해 식별된 인덱스를 갖는 HOA 계수들 (11) 을 선택할 수도 있고, 여기서 nBGa 는, 도 2 및 도 4 의 예에 도시된 오디오 디코딩 디바이스 (24) 와 같은 오디오 디코딩 디바이스로 하여금 비트스트림 (21) 으로부터 배경 HOA 계수들 (47) 을 파싱할 수 있게 하도록 비트스트림 (21) 에 특정되도록 비트스트림 생성 유닛 (42) 에 제공된다. 그 후에, 배경 선택 유닛 (48) 은 주변 HOA 계수들 (47) 을 에너지 보상 유닛 (38) 에 출력할 수도 있다. 주변 HOA 계수들 (47) 은 차원들 D: M x [(N BG +1)2 + nBGa] 를 가질 수도 있다. 주변 HOA 계수들 (47) 은 또한 "주변 HOA 계수들 (47)" 이라고 지칭될 수도 있고, 여기서 주변 HOA 계수들 (47) 각각은 심리음향 오디오 코더 유닛 (40) 에 의해 인코딩될 분리된 주변 HOA 채널 (47) 에 대응한다.
전경 선택 유닛 (36) 은 (전경 벡터들을 식별하는 하나 이상의 인덱스들을 표현할 수도 있는) nFG (45) 에 기초하여 음장의 전경 또는 구별되는 성분들을 표현하는 리오더링된 V[k] 행렬 (35') 및 리오더링된 US[k] 행렬 (33') 을 선택하도록 구성된 유닛을 표현할 수도 있다. 전경 선택 유닛 (36) 은 nFG 신호들 (49) (리오더링된 US[k]1, …, nFG (49), FG 1, …, nfG[k] (49), 또는
Figure pct00029
(49) 로서 표시될 수도 있음) 을 심리음향 오디오 코더 유닛 (40) 에 출력할 수도 있고, 여기서 nFG 신호들 (49) 은 차원들 D: M x nFG 를 가질 수도 있고 각각은 모노-오디오 오브젝트들을 표현한다. 전경 선택 유닛 (36) 은 또한, 음장의 전경 성분들에 대응하는 리오더링된 V[k] 행렬 (35') (또는
Figure pct00030
(35')) 을 공간-시간 보간 유닛 (50) 에 출력할 수도 있고, 여기서 전경 성분들에 대응하는 리오더링된 V[k] 행렬 (35') 의 서브세트는 차원들 D: (N+1)2 x nFG 를 갖는 전경 V[k] 행렬 (51 k ) (수학적으로
Figure pct00031
로서 표시될 수도 있음) 로서 표시될 수도 있다.
에너지 보상 유닛 (38) 은 배경 선택 유닛 (48) 에 의한 HOA 채널들 중 다양한 채널들의 제거로 인한 에너지 손실을 보상하기 위해 주변 HOA 계수들 (47) 에 관하여 에너지 보상을 수행하도록 구성된 유닛을 표현할 수도 있다. 에너지 보상 유닛 (38) 은 리오더링된 US[k] 행렬 (33'), 리오더링된 V[k] 행렬 (35'), nFG 신호들 (49), 전경 V[k] 벡터들 (51 k ) 및 주변 HOA 계수들 (47) 중 하나 이상에 관하여 에너지 분석을 수행한 후에, 에너지 분석에 기초하여 에너지 보상을 수행하여 에너지 보상된 주변 HOA 계수들 (47') 을 생성할 수도 있다. 에너지 보상 유닛 (38) 은 에너지 보상된 주변 HOA 계수들 (47') 을 삽입 유닛 (234) 에 출력할 수도 있다.
삽입 유닛 (234) 은 본 개시물에서 기술되는 기법들의 다양한 양태들에 따라 증강된 주변 HOA 계수들 (205) 을 생성하기 위해 분리된 오디오 채널 (201) 을 에너지 보상된 주변 HOA 계수들 (47') 에 삽입하도록 구성된 유닛을 표현한다.
위에서 언급된 바와 같이, 삽입 유닛 (234) 은 (HOA 계수들 (11) 에 의해 기술된 것과는 상이한 오디오 콘텐츠라는 관점에서의) 분리된 오디오 채널을 에너지 보상된 주변 HOA 계수들 (47') 에 삽입하여 그에 의해 증강된 주변 HOA 계수들 (205) 을 생성하도록 구성된 유닛을 표현할 수도 있다. 삽입 유닛 (234) 은 에너지 보상된 주변 HOA 계수들 (47') 을 표현하기 위해 할당된 비트들의 양을 증가시키는 일 없이 (또는 그 비트들의 양에 대해 무시해도 될 정도의 영향만을 갖고) 이 분리된 오디오 채널 (201) 을 삽입할 수도 있다. 다시 말해, 에너지 보상된 주변 HOA 계수들 (47') 을 표현하는데 이용되는 비트들의 개수는 증강된 HOA 계수들 (205) 을 표현하는데 이용되는 비트들의 개수와 (정확하게가 아니라면) 대략적으로 동일할 수도 있다. 삽입 유닛 (234) 은, 오디오 콘텐츠가 보통 존재하지 않는, 또는 음장을 기술하는 것에 대해 큰 중요도의, 음장에서의 공간 위치들을 선택하고 분리된 오디오 채널 (201) 을 이들 공간 위치들에 삽입하여, 그에 의해 이러한 음장의 양태를 분리된 오디오 채널 (201) 로 대체시킬 수도 있다. 일부 경우들에서, 이들 공간 위치들은 음장의 상부 및/또는 하부일 수도 있다.
이 분리된 오디오 채널 (201) 은, 일부 예들에서, 아나운서 또는 스포츠캐스터에 의한 코멘터리 또는 (광고들 등을 위한) 임의의 다른 오버레이 오디오 콘텐츠와 같은, 방향성 콘텐츠를 거의 갖지 않는 오디오 콘텐츠를 지칭하는 전방향성 오디오 콘텐츠를 표현할 수도 있다. 일부 예들에서, 이 분리된 오디오 채널 (201) 은 HOA 계수들 (11) 에 의해 표현된 음장으로부터 분리된 영어 코멘터리, 다이얼로그 또는 다른 오디오 콘텐츠를 제공할 수도 있어서, 최종 사용자는 HOA 계수들 (11) 로부터 렌더링된 오디오 채널들의 볼륨과는 별개로 오디오 채널 (201) 에 의해 제공된 코멘터리의 볼륨을 뮤트 또는 그렇지 않으면 조정할 수도 있다. 일부 예들에서, 삽입 유닛 (234) 은 2 개 이상의 분리된 오디오 채널들 (201) 을 에너지 보상된 주변 HOA 계수들 (47') 에 삽입할 수도 있고, 여기서 2 개 이상의 분리된 오디오 채널들 (201) 은 각각 코멘터리, 다이얼로그 또는 다른 오디오 콘텐츠를 상이한 언어로 제공할 수도 있다. 이와 마찬가지로, 삽입 유닛 (234) 은, 일부 예들에서, 2 개 이상의 분리된 오디오 채널들 (201) 을 에너지 보상된 주변 HOA 계수들 (47') 에 삽입할 수도 있고, 여기서 2 개 이상의 분리된 오디오 채널들 (201) 은 각각 상이한 스포츠캐스터 또는 다른 코멘테이터로부터의 코멘터리, 다이얼로그 또는 다른 오디오 콘텐츠를 제공할 수도 있다.
단일의 분리된 오디오 채널 (201) 을 삽입하는 것으로서 도시되지만, 삽입 유닛 (234) 은 임의의 개수의 오디오 채널들 (201) 을 에너지 보상된 주변 HOA 계수들 (47') 에 삽입하여 에너지 보상된 주변 HOA 계수들 (47') 의 확장 부분들까지 이러한 오디오 채널들 (201) 이 삽입되게 할 수도 있다. 예시하기 위해, 에너지 보상된 주변 HOA 계수들 (47') 의 차수가 1 이라고 가정하고, 이는 4 개의 HOA 채널들 (제 0 차수, 제 0 하위차수 기저 함수에 대응하는 계수들에 대해 하나, 제 1 차수, -1 하위차수 기저 함수에 대응하는 계수들에 대해 하나, 제 1 차수, 0 하위차수 기저 함수에 대응하는 계수들에 대해 하나, 그리고 제 1 차수, +1 하위차수 기저 함수에 대응하는 계수들에 대해 하나) 이 존재한다는 것을 의미한다. 이러한 가정 하에서 음장의 제 1 차수 표현은 분리된 오디오 채널 (201) 을 위치시키기 위한 6 개의 공간 위치들 ((음장의 일반 형상인) 구면의 상부에서 하나, 구면의 하부에서 하나, 그리고 구면을 양분한 수평면을 따라 배치된 4 개) 에 대해 제공할 수도 있다.
이 제 1 차수 표현에서, 많은 최종 사용자들이 이들 상부 및 하부 위치들에서 오디오를 정확히 재생하기에 충분한 3D 오디오 스피커 셋업을 갖지 않는다고 주어진다면, 삽입 유닛 (234) 은 이들 오디오 채널들 (201) 을 구면의 상부와 하부에 삽입한다. 고차의 표현들에 대해, 부가적인 위치들이 이용가능하고 비트스트림 (21) 에 대한 타깃 비트레이트들에 의존한다. 부가적인 위치들은 에너지 보상된 주변 HOA 계수들 (47') 의 고차 (제 1 차수보다 더 높다는 것을 의미함) 표현들에 대해 제공할 수도 있는 보다 높은 타깃 비트레이트들에 대해 이용가능하게 될 수도 있다.
어떤 경우든, 이 분리된 오디오 채널 (201) 이 특정 방향성의 관점에서 많이 갖고 있지 않지만 전방향성 오버레이 오디오 콘텐츠이기 때문에, 삽입 유닛 (234) 은 에너지 보상된 주변 HOA 계수들 (47') 에 의해 기술된 음장의 임의의 공간 위치에 이 콘텐츠를 삽입하고, 적어도 이 예에서는, 음장의 방향성을 보존할 필요가 없을 수도 있다. 이러한 방법으로, 삽입 유닛 (234) 은 에너지 보상된 주변 HOA 계수들 (47') 을 표현하기 위해 할당된 비트들의 양에 대해 증가시키는 일 없이 (또는 무시해도 될 정도의 영향만을 갖고) 에너지 보상된 주변 HOA 계수들 (47') 에 의해 기술된 음장에 분리된 오디오 채널 (201) 을 삽입할 수도 있다.
분리된 오디오 채널 (201) 을 삽입하기 위해, 삽입 유닛 (234) 은, (하나의 예로서, 조밀 T-설계 행렬을 이용하여) 에너지 보상된 주변 HOA 계수들 (47') 을 구면 조화 도메인으로부터 공간 도메인으로 변환할 수도 있다. 삽입 유닛 (234) 은 변환된 에너지 보상된 주변 HOA 계수들 (47') 내의 특정 공간 위치 (예컨대 하부 공간 위치) 에 분리된 오디오 채널 (201) 을 삽입하여 증강된 변환된 주변 HOA 계수들을 생성하도록 구성될 수도 있다. 그 후에, 삽입 유닛 (234) 은 증강된 변환된 주변 HOA 계수들을 다시 공간 도메인으로부터 구면 조화 도메인으로 변환하여 증강된 주변 HOA 계수들 (205) 을 생성할 수도 있다. 이러한 방법으로, 삽입 유닛 (234) 은 분리된 오디오 채널 (201) 을 에너지 보상된 주변 HOA 계수들 (47') 에 삽입하여 증강된 주변 HOA 계수들 (205) 을 생성할 수도 있다. 그 후에, 삽입 유닛 (234) 은 증강된 주변 HOA 계수들 (205) 을 심리음향 오디오 코더 유닛 (40) 에 출력할 수도 있다.
공간-시간 보간 유닛 (50) 은 k 번째 프레임에 대한 전경 V[k] 벡터들 (51 k ) 및 이전 프레임 (그에 따라 k-1 표시) 에 대한 전경 V[k-1] 벡터들 (51 k -1) 을 수신하고 공간-시간 보간을 수행하여 보간된 전경 V[k] 벡터들을 생성하도록 구성된 유닛을 표현할 수도 있다. 공간-시간 보간 유닛 (50) 은 nFG 신호들 (49) 을 전경 V[k] 벡터들 (51 k ) 과 재조합하여 리오더링된 전경 HOA 계수들을 복원할 수도 있다. 그 후에, 공간-시간 보간 유닛 (50) 은 리오더링된 전경 HOA 계수들을 보간된 V[k] 벡터들에 의해 나누어서 보간된 nFG 신호들 (49') 을 생성할 수도 있다. 공간-시간 보간 유닛 (50) 은 또한, 보간된 전경 V[k] 벡터들을 생성하는데 이용되었던 전경 V[k] 벡터들 (51 k ) 을 출력할 수도 있어서, 오디오 디코딩 디바이스 (24) 와 같은 오디오 디코딩 디바이스가 보간된 전경 V[k] 벡터들을 생성하고 그에 의해 전경 V[k] 벡터들 (51 k ) 을 복원할 수도 있다. 보간된 전경 V[k] 벡터들을 생성하는데 이용된 전경 V[k] 벡터들 (51 k ) 은 나머지 전경 V[k] 벡터들 (53) 로서 표시된다. 동일한 V[k] 및 V[k-1] 이 (보간된 벡터들 V[k] 를 생성하기 위해) 인코더 및 디코더에서 이용됨을 보장하기 위해, 벡터들의 양자화된/양자화해제된 버전들이 인코더 및 디코더에서 이용될 수도 있다. 공간-시간 보간 유닛 (50) 은 보간된 nFG 신호들 (49') 을 심리음향 오디오 코더 유닛 (46) 에 출력하고 보간된 전경 V[k] 벡터들 (51 k ) 을 계수 감소 유닛 (46) 에 출력할 수도 있다.
계수 감소 유닛 (46) 은 감소된 전경 V[k] 벡터들 (55) 을 양자화 유닛 (52) 에 출력하기 위해 배경 채널 정보 (43) 에 기초하여 나머지 전경 V[k] 벡터들 (53) 에 관하여 계수 감소를 수행하도록 구성된 유닛을 표현할 수도 있다. 감소된 전경 V[k] 벡터들 (55) 은 차원들 D: [(N+1)2 - (N BG +1)2-BGTOT] x nFG 를 가질 수도 있다. 계수 감소 유닛 (46) 은, 이와 관련하여, 나머지 전경 V[k] 벡터들 (53) 에서 계수들의 개수를 감소시키도록 구성된 유닛을 표현할 수도 있다. 다시 말해, 계수 감소 유닛 (46) 은 방향성 정보에 대해 거의 갖고 있지 않은 (나머지 전경 V[k] 벡터들 (53) 을 형성하는) 전경 V[k] 벡터들에서 계수들을 제거하도록 구성된 유닛을 표현할 수도 있다.
일부 예들에서, (NBG 로서 표시될 수도 있는) 제 1 및 제로 차수 기저 함수들에 대응하는 구별되는 또는, 다시 말해, 전경 V[k] 벡터들의 계수들은 거의 방향성 정보를 제공하지 않아서 그에 따라 ("계수 감소" 라고 지칭될 수도 있는 프로세스를 통해) 전경 V-벡터들로부터 제거될 수 있다. 이들 예들에서, NBG 에 대응하는 계수들을 식별할 뿐만 아니라 [(NBG+1)2+1, (N+1)2] 의 세트로부터 (변수 TotalOfAddAmbHOAChan 에 의해 표시될 수도 있는) 부가적인 HOA 채널들을 식별하기 위해 더 큰 유연성이 제공될 수도 있다.
양자화 유닛 (52) 은 임의의 형태의 양자화를 수행하여 감소된 전경 V[k] 벡터들 (55) 을 압축하여 코딩된 전경 V[k] 벡터들 (57) 을 생성하여, 코딩된 전경 V[k] 벡터들 (57) 을 비트스트림 생성 유닛 (42) 에 출력하도록 구성된 유닛을 표현할 수도 있다. 동작시, 양자화 유닛 (52) 은 음장의 공간 성분, 즉, 이 예에서 감소된 전경 V[k] 벡터들 (55) 중 하나 이상을 압축하도록 구성된 유닛을 표현할 수도 있다. 양자화 유닛 (52) 은, "NbitsQ" 로 표시된 양자화 모드 신택스 엘리먼트에 의해 나타낸 바와 같이, 다음 12 개의 양자화 모드들 중 임의의 것을 수행할 수도 있다:
NbitsQ 값 양자화 모드의 타입
0-3: 예비됨
4: 벡터 양자화
5: 허프만 코딩 (Huffman Coding) 을 이용하지 않은 스칼라 양자화
6: 허프만 코딩을 이용한 6-비트 스칼라 양자화
7: 허프만 코딩을 이용한 7-비트 스칼라 양자화
8: 허프만 코딩을 이용한 8-비트 스칼라 양자화
… …
16: 허프만 코딩을 이용한 16-비트 스칼라 양자화
양자화 유닛 (52) 은 또한 전술한 타입들의 양자화 모드들 중 임의의 양자화 모드의 예측된 버전들을 수행할 수도 있고, 여기서 이전 프레임의 V-벡터의 엘리먼트 (또는 벡터 양자화가 수행될 때의 가중치) 와 현재 프레임의 V-벡터의 엘리먼트 (또는 벡터 양자화가 수행될 때의 가중치) 사이의 차이가 결정된다. 그 후에, 양자화 유닛 (52) 은 현재 프레임의 V-벡터의 엘리먼트의 값 그 자체보다는 현재 프레임과 이전 프레임의 엘리먼트들 또는 가중치들 사이의 차이를 양자화할 수도 있다.
양자화 유닛 (52) 은 감소된 전경 V[k] 벡터들 (55) 각각에 관하여 다수의 형태들의 양자화를 수행하여 감소된 전경 V[k] 벡터들 (55) 의 다수의 코딩된 버전들을 획득할 수도 있다. 양자화 유닛 (52) 은 코딩된 전경 V[k] 벡터 (57) 로서 감소된 전경 V[k] 벡터들 (55) 의 코딩된 버전들 중 하나를 선택할 수도 있다. 양자화 유닛 (52) 은, 다시 말해, 본 개시물에서 논의된 기준들의 임의의 조합에 기초하여 출력 스위칭된-양자화된 V-벡터로서 이용하기 위해 비-예측된 벡터-양자화된 V-벡터, 예측된 벡터-양자화된 V-벡터, 비-허프만-코딩된 스칼라-양자화된 V-벡터, 및 허프만-코딩된 스칼라-양자화된 V-벡터 중 하나를 선택할 수도 있다.
일부 예들에서, 양자화 유닛 (52) 은 벡터 양자화 모드 및 하나 이상의 스칼라 양자화 모드들을 포함하는 양자화 모드들의 세트로부터 양자화 모드를 선택하고, 선택된 모드에 기초하여 (또는 선택된 모드에 따라) 입력 V-벡터를 양자화할 수도 있다. 그 후에, 양자화 유닛 (52) 은 비-예측된 벡터-양자화된 V-벡터 (예를 들어, 그것을 나타내는 가중 값들 또는 비트들의 관점들에서), 예측된 벡터-양자화된 V-벡터 (예를 들어, 그것을 나타내는 에러 값들 또는 비트들의 관점들에서), 비-허프만-코딩된 스칼라-양자화된 V-벡터 및 허프만-코딩된 스칼라-양자화된 V-벡터 중 선택된 하나를 코딩된 전경 V[k] 벡터들 (57) 로서 비트스트림 생성 유닛 (52) 에 제공할 수도 있다. 양자화 유닛 (52) 은 또한, 양자화 모드를 나타내는 신택스 엘리먼트들 (예를 들어, NbitsQ 신택스 엘리먼트), 및 V-벡터를 양자화해제하거나 또는 그렇지 않으면 재구성하기 위해 이용되는 임의의 다른 신택스 엘리먼트들을 제공할 수도 있다.
오디오 인코딩 디바이스 (20A) 내에 포함된 심리음향 오디오 코더 유닛 (40) 은 심리음향 오디오 코더의 다수의 인스턴스들을 표현할 수도 있고, 그 각각은 증강된 주변 HOA 계수들 (205) 및 보간된 nFG 신호들 (49') 각각의 상이한 오디오 오브젝트 또는 HOA 채널을 인코딩하여 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 생성하는데 이용된다. 심리음향 오디오 코더 유닛 (40) 은 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 비트스트림 생성 유닛 (42) 에 출력할 수도 있다.
오디오 인코딩 디바이스 (20A) 내에 포함된 비트스트림 생성 유닛 (42) 은 (디코딩 디바이스에 의해 알려진 포맷으로 지칭할 수도 있는) 알려진 포맷을 준수하도록 데이터를 포맷팅하여, 그에 의해 벡터-기반 비트스트림 (21) 을 생성하는 유닛을 표현한다. 비트스트림 (21) 은, 다시 말해, 상술된 방식으로 인코딩되었던, 인코딩된 오디오 데이터를 표현할 수도 있다. 비트스트림 생성 유닛 (42) 은, 일부 예들에서, 코딩된 전경 V[k] 벡터들 (57), 인코딩된 주변 HOA 계수들 (59), 인코딩된 nFG 신호들 (61) 및 배경 채널 정보 (43) 를 수신할 수도 있는 멀티플렉서를 표현할 수도 있다. 비트스트림 생성 유닛 (42) 은 그 후에 코딩된 전경 V[k] 벡터들 (57), 인코딩된 주변 HOA 계수들 (59), 인코딩된 nFG 신호들 (61) 및 배경 채널 정보 (43) 에 기초하여 비트스트림 (21) 을 생성할 수도 있다. 이러한 방법으로, 비트스트림 생성 유닛 (42) 은 그에 의해 도 7 의 예에 관하여 더 상세히 아래에 기술되는 바와 같이 비트스트림 (21) 을 획득하기 위해 비트스트림 (21) 에서 벡터들 (57) 을 특정할 수도 있다. 비트스트림 (21) 은 프라이머리 또는 메인 비트스트림 및 하나 이상의 사이드 채널 비트스트림들을 포함할 수도 있다.
도 3a 의 예에 도시되지 않지만, 오디오 인코딩 디바이스 (20A) 는 또한 현재 프레임이 방향성-기반 합성 또는 벡터-기반 합성을 이용하여 인코딩되어야 하는지 여부에 기초하여 (예를 들어, 방향성-기반 비트스트림 (21) 과 벡터-기반 비트스트림 (21) 사이에서) 오디오 인코딩 디바이스 (20A) 로부터 출력된 비트스트림을 스위칭하는 비트스트림 출력 유닛을 포함할 수도 있다. 비트스트림 출력 유닛은, (HOA 계수들 (11) 이 합성 오디오 오브젝트로부터 생성되었다는 검출 결과로서) 방향성-기반 합성이 수행되었는지 또는 (HOA 계수들이 레코딩되었다는 검출 결과로서) 벡터-기반 합성이 수행되었는지 여부를 나타내는, 콘텐츠 분석 유닛 (26) 에 의해 출력된 신택스 엘리먼트에 기초하여 스위치를 수행할 수도 있다. 비트스트림 출력 유닛은 비트스트림들 (21) 중 개별 비트스트림과 함께 현재 프레임에 대해 이용된 현재 인코딩 또는 스위치를 나타내기 위해 올바른 헤더 신택스를 특정할 수도 있다.
더욱이, 위에서 언급된 바와 같이, 음장 분석 유닛 (44) 은 (때때로 BGTOT 가 2 개 이상의 (시간적으로) 인접한 프레임들에 걸쳐 일정하게 또는 동일하게 남아있을 수도 있지만) 프레임 기반으로 변화할 수도 있는 BGTOT 주변 HOA 계수들 (47) 을 식별할 수도 있다. BGTOT 에서의 변화는 감소된 전경 V[k] 벡터들 (55) 에서 표현되는 계수들에 대한 변화들을 발생시킬 수도 있다. BGTOT 에서의 변화는 (다시, 때때로 BGTOT 가 2 개 이상의 (시간적으로) 인접한 프레임들에 걸쳐 일정하게 또는 동일하게 남아있을 수도 있지만) 프레임 기반으로 변화하는 배경 HOA 계수들 (또한 "주변 HOA 계수들" 이라고도 지칭될 수도 있음) 을 발생시킬 수도 있다. 변화들은 종종, 부가적인 주변 HOA 계수들의 부가 또는 제거 및 감소된 전경 V[k] 벡터들 (55) 로부터의 계수들의 대응하는 제거 또는 그에 대한 계수들의 부가에 의해 표현되는 음장의 양태들에 대한 에너지의 변화를 발생시킨다.
그 결과, 음장 분석 유닛 (44) 은 추가로, 음장의 주변 성분들을 표현하는데 이용된다는 관점들에서 주변 HOA 계수들이 프레임 간에서 변화할 때를 결정하고 주변 HOA 계수에 대한 변화를 나타내는 플래그 또는 다른 신택스 엘리먼트를 생성할 수도 있다 (여기서 변화는 또한 주변 HOA 계수의 "천이" 라고 또는 주변 HOA 계수의 "천이" 로서 지칭될 수도 있다). 특히, 계수 감소 유닛 (46) 은 (AmbCoeffTransition 플래그 또는 AmbCoeffIdxTransition 플래그로서 표시될 수도 있는) 플래그를 생성하여, 플래그를 비트스트림 생성 유닛 (42) 에 제공하여 플래그가 (가능하다면 사이드 채널 정보의 부분으로서) 비트스트림 (21) 에 포함될 수도 있도록 할 수도 있다.
계수 감소 유닛 (46) 은, 주변 계수 천이 플래그를 특정하는 것에 부가적으로, 감소된 전경 V[k] 벡터들 (55) 이 생성되는 방법을 또한 변경할 수도 있다. 하나의 예에서, 현재 프레임 동안 주변 HOA 주변 계수들 중 하나가 천이 중이라는 결정시, 계수 감소 유닛 (46) 은, 천이시 주변 HOA 계수에 대응하는 감소된 전경 V[k] 벡터들 (55) 의 V-벡터들 각각에 대한 벡터 계수 (또한 "벡터 엘리먼트" 또는 "엘리먼트" 라고도 지칭될 수도 있음) 를 특정할 수도 있다. 다시, 천이시 주변 HOA 계수는 배경 계수들의 BGTOT 총 개수로부터 부가 또는 제거할 수도 있다. 그에 따라, 배경 계수들의 총 개수에 있어서의 결과적인 변화는 주변 HOA 계수가 비트스트림에 포함되는지 또는 포함되지 않는지 여부, 그리고 상술된 제 2 및 제 3 구성 모드들에서 비트스트림에 특정된 V-벡터들에 대해 V-벡터들의 대응하는 엘리먼트가 포함되는지 여부에 영향을 미친다. 계수 감소 유닛 (46) 이 어떻게 감소된 전경 V[k] 벡터들 (55) 을 특정하여 에너지에서의 변화들을 극복할 수도 있는지에 관한 더 많은 정보는, 발명의 명칭이 "TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS" 이고 2015년 1월 12일자로 출원된 미국 출원 제14/594,533호에 제공된다.
도 3b 의 예에서, 오디오 인코딩 디바이스 (20B) 는, 오디오 인코딩 디바이스 (20B) 의 삽입 유닛 (234) 이 또한 V[k] 벡터들 (35) 을 수신하고 V[k] 벡터들 (35) 의 분석을 수행하여 분리된 오디오 채널 (201) 을 에너지 보상된 주변 HOA 계수들 (47') 에 삽입할 공간 위치를 식별한다는 것을 제외하고는, 도 3a 의 예에 도시된 오디오 인코딩 디바이스 (20A) 와 유사하다. 일부 예들에서, 전체 V[k] 벡터들 (35) 을 이용하기보다는, 삽입 유닛 (234) 은 감소된 V[k] 벡터들 (55) 을 수신하고 감소된 V[k] 벡터들 (55) 의 분석을 수행하여 분리된 오디오 채널 (201) 이 삽입되어야 하는 공간 위치를 식별할 수도 있다. 이러한 방법으로, 삽입 유닛 (234) 은 음장의 고차 앰비소닉 표현의 벡터-기반 분해의 일 부분을 분석하여 음장 내의 공간 위치를 식별하고, 식별된 공간 위치에 오디오 채널을 삽입할 수도 있다.
도 3c 의 예에서, 오디오 인코딩 디바이스 (20C) 는, 예를 들어, 오디오 인코딩 디바이스 (20B) 에 관하여 상술된 것과 유사하게, 삽입 유닛 (234) 이 음장의 분석을 수행하여 분리된 오디오 채널 (201) 을 삽입할 공간 위치를 식별한다는 것을 제외하고는, 도 3a 및 도 3b 의 예들에 도시된 오디오 인코딩 디바이스들 (20A 및 20B) 과 유사하다. 일부 예들에서, 삽입 유닛 (234) 은 공간 마스킹 (여기서 하나의 위치에서의 라우드 사운드는 인접한 위치 또는 라우드 사운드 위치에 근접한 위치에서 발생하는 임의의 사운드들을 마스킹함) 또는 동시 마스킹 (여기서 사운드는 오리지널 사운드와 동일한 지속기간의 노이즈 또는 원하지 않는 사운드에 의해 가청불가능하게 됨) 이 발생하고 있는 위치들을 식별할 수도 있다. 공간, 동시 또는 다른 형태들의 마스킹이 발생하고 있는 이들 위치들에서, 삽입 유닛 (234) 은 분리된 오디오 채널 (201) 을 삽입할 수도 있다. 이들 형태들의 마스킹이 음장에서의 상이한 위치들에서 발생할 수도 있기 때문에, 삽입 유닛 (234) 은 분리된 오디오 채널 (201) 이 삽입되었던 공간 위치를 식별하는 삽입 정보 (207) 를 생성할 수도 있다. 삽입 유닛 (234) 은 삽입 정보 (207) 를 비트스트림 생성 유닛 (42) 에 제공할 수도 있고, 이 비트스트림 생성 유닛은 삽입 정보 (207) 를 비트스트림 (21) 에서 특정할 수도 있다.
일부 예들에서, 삽입 유닛 (234) 은 (예를 들어, 도 3b 의 예에 관하여 상술된 분석을 통해) 분리된 오디오 채널 (201) 이 삽입되었던 공간 위치를 식별하는 V-벡터를 획득할 수도 있다. 삽입 유닛 (234) 은 삽입 정보 (207) 로서 이 V-벡터를 비트스트림 생성 유닛 (42) 에 제공할 수도 있어서, 비트스트림 생성 유닛 (42) 은 분리된 오디오 채널 (201) 과 연관된 V-벡터를 비트스트림 (21) 에서 특정할 수도 있다. 다시 말해, 삽입 정보 (207) 에 의해 특정된 공간 위치는 V-벡터를 포함할 수도 있다. 전경 (또는, 다시 말해, 우세) 오디오 오브젝트들에 대해 비트스트림 (21) 에서 특정되는 V-벡터들과는 달리, V-벡터를 포함하는 삽입 정보 (207) 는 증강된 주변 HOA 계수들에 대해 V-벡터를 특정할 수도 있다. 이러한 방법으로, 오디오 디코딩 디바이스 (24) 는 증강된 주변 HOA 계수들에서 분리된 오디오 채널 (201) 의 위치를 식별하기 위해 오디오 인코딩 디바이스 (20C) 와 유사한 분석을 수행할 필요가 없을 수도 있다.
마스킹이 음장에 존재하지 않을 때, 삽입 유닛 (234) 은 음장을 분석하여 분리된 오디오 채널 (201) 이 삽입될 수도 있는 음장에서의 임의의 "홀들" (상대적인 돌출 정보의 부존재들을 지칭할 수도 있음) 을 식별할 수도 있고, 이는 상술된 오디오 인코딩 디바이스 (20B) 에 의해 수행된 분석과 유사할 수도 있다. 삽입 유닛 (234) 은 이들 홀들을 식별하기 위해 거의 모든 형태의 분석을 수행한 후에 분리된 오디오 채널 (201) 을 이들 홀들에 삽입할 수도 있다. 삽입 유닛 (234) 은, 이들 홀들이 음장 내에서 이동할 수도 있다고 주어진다면, 삽입 정보 (207) 를 생성하고 이 삽입 정보 (207) 를 비트스트림 생성 유닛 (42) 에 제공할 수도 있고, 이 비트스트림 생성 유닛은 이 삽입 정보 (207) 를 비트스트림 (21) 에서 특정할 수도 있다.
도 3a 내지 도 3c 의 예들에 도시되지 않지만, 비트스트림 생성 유닛 (42) 은 분리된 오디오 채널 (201) 을 기술하는 부가적인 메타데이터 또는 다른 정보를 삽입할 수도 있다. 이 메타데이터는 분리된 오디오 채널 (201) 의 타입, 언어, 코멘테이터의 이름 또는 다른 특성들을 기술할 수도 있는 콘텐츠, 언어, 코멘테이터 이름 또는 다른 데이터의 관점들에서 대응하는 오디오 채널 (201) 을 식별할 수도 있다.
다시 말해, 삽입 유닛 (234) 은, 예를 들어, T-설계 행렬로 곱합으로써, 에너지 보상된 주변 HOA 계수들 (47') (SHORIG(n, m, t) 로서 표시될 수도 있음, 여기서 n 은 대응하는 구면 기저 함수의 차수를 표시하고, m 은 대응하는 구면 기저 함수의 하위차수를 표시하며, t 는 시간을 표시함) 을 3D 공간으로 투영하여, 변환된 에너지 보상된 주변 HOA 계수들 (47') (압력 P(
Figure pct00032
) 로서 표시될 수도 있음) 을 생성할 수도 있다.
도 5a 내지 도 5c 는 본 개시물에서 기술되는 삽입 기법들의 다양한 양태들을 수행함에 있어서 삽입 유닛 (234) 의 예시적인 동작들을 예시하는 다이어그램들이다. 삽입 유닛 (234) 은 SHORIG(n, m, t) (1000) 를 수신하고 이들 SHORIG(n, m, t) (1000) 를 3D 공간으로 투영하여 P(
Figure pct00033
) (1002) 를 생성할 수도 있고 (1004), 이는 도 5a 내지 도 5c 의 예에 도시된 그래프 (1006) 와 유사할 수도 있다.
도 5a 의 그래프 (1006A) 에 도시된 바와 같이, 삽입 유닛 (234) 은 그래프 (1006) 에 도시된 음장을 분석하여, 음향 활성의 영역들 (1010A 및 1010B) 이 주어진 (
Figure pct00034
에 의해 식별되는 개별 위치들을 갖는) 4 개의 영역들/홀들 (1008A 내지 1008D) 을 식별할 수도 있다. 그 후에, 삽입 유닛 (234) 은 다음을 수행함으로써 4 개까지의 오디오 오브젝트들을 이 공간으로 포지셔닝시킬 수도 있다:
1) 이들 오디오 오브젝트들 ai(t) 각각에 대한 SHi 를 다음과 같이 계산한다:
Figure pct00035
2)
Figure pct00036
그리고
3) (도 3c 의 예에 도시된 바와 같이) 삽입 정보 (207) 를 사이드 채널 정보로서 전송하고, 이 사이즈 채널 정보는 4 개의
Figure pct00037
의 세트를 특정할 수도 있다.
일부 예들에서, 사이드 채널 정보는 디코딩 디바이스들 (24A 내지 24C) 이 4 개의 부가된 오디오 오브젝트들을 추출하기 위해 SVD 를 수행하는 것을 돕기 위해 삽입 정보 (207) 를 특정할 수도 있다. 즉, 삽입 유닛 (234) 은 오디오 오브젝트들을 음장에 삽입하고, 예를 들어,
Figure pct00038
이며 사이드 채널 정보를 통해 오브젝트들이 삽입되었던 4 개의
Figure pct00039
의 세트를 전송할 수도 있다. 그 후에 디코딩 디바이스 (24B 또는 24C) 는 SVD (또는 고유값 분해 (EVD), 주요 성분 분석 (PCA), KLT 변환 등을 포함하는 상술된 것들과 같은, 임의의 다른 형태의 소스 분리) 를 수행하여 오디오 오브젝트들을 추출할 수도 있고, 이것은 부가된 오디오 채널들이 삽입되었던 곳을 식별하는 4 개의
Figure pct00040
의 세트를 또한 수신함으로써 도움받을 수도 있다.
도 5b 의 예에서, 삽입 유닛 (234) 은 분리된 오디오 채널 (1012) 을 획득하고 그래프 (1006B) 에 의해 표현된 음장의 증강을 수행하여, 분리된 오디오 채널 (1012) 을 영역 (1008D) 에 삽입할 수도 있다. 증강의 결과는 도 5c 의 예에 도시된다. 음장의 증강된 HOA 표현은 그래프 (1006C) 에 의해 표현되고, 여기서 증강 후에, 표현된 HOA 는 공간 위치
Figure pct00041
에서 분리된 오디오 채널 (1012) 을 포함하도록 증강된다. 공간 위치
Figure pct00042
는 위치 정보 (207) 의 하나의 예를 표현할 수도 있다.
삽입 유닛 (234) 은 또한, 위에서 언급된 바와 같이, 음장에 홀들을 생성하고 상술된 방식으로 오디오 채널들을 부가할 수도 있다. 삽입 유닛 (234) 은 다음을 수행할 수도 있다:
1) 주변 HOA 계수들의 포지션 분석을 행한다;
2) 포지션 분석에 기초하여, 지각 효과들 (이들은, 하나의 예로서, (일 예로서, 하부 또는 보다 낮은 반구체에서, 라우드스피커들의 부족 때문에) 종종 렌더링되지 않는 - 하부 또는 - 이웃하는 고에너지 영역들에 의해 측정되는 '저에너지' 영역들일 수 있음) 을 생성하는 일 없이 어떤 포지션들 또는 영역들이 "비워져" 있을 수 있는지를 결정한다; 그리고
3) 이들 영역들을 제로 아웃 (zero out) 시켜 홀들 (1008A 내지 1008D) 을 생성한다.
다음 프로세스는 도 6 에 도시되고, 도 6 은 영역 생성 및 삽입 프로세스의 이 양태의 예시적인 동작을 예시하는 플로우차트이다. 삽입 유닛 (234) 은 SHORIG(n, m, t) (1000) 를 수신하고 SHORIG(n, m, t) (1000) 를 3D 공간으로 투영하여 (1020) P(
Figure pct00043
) (1002) 를 생성할 수도 있다. 그 후에, 삽입 유닛 (234) 은 포지션 분석을 수행하여 공간의 비-돌출 영역들 (1008A 내지 1008D) 을 식별하고 제로 아웃시키고 그에 의해 PADJ(
Figure pct00044
) (1012) 를 생성할 수도 있다 (1022). 그 후에, 삽입 유닛 (234) 은 (예를 들어, T-설계 행렬을 통해) PADJ(
Figure pct00045
) (1012) 를 다시 구면 조화 도메인으로 컨버팅하여 SHADJ(n, m, t) (1014) 를 생성할 수도 있다 (1024). 그 후에, 삽입 유닛 (234) 은 SHi(n, m, t) (1015) 로 표시된 오디오 오브젝트들을 SHADJ(n, m, t) (1014) 에 부가하여 위에서 언급된 수학식으로 SHNEW(n, m, t) 를 생성할 수도 있다 (1026).
이러한 방법으로, 기법들의 다양한 양태들은 오디오 인코딩 디바이스들 (20A 내지 20C) ("오디오 인코딩 디바이스들 (20)") 로 하여금 음장의 고차 앰비소닉 표현으로부터 분리된 오디오 채널을 획득할 수 있게 하고, 오디오 채널이 음장으로부터 추출되는 것이 가능해지도록 오디오 채널을 음장 내의 공간 위치에 삽입할 수 있게 한다.
이들 그리고 다른 예들에서, 공간 위치는 음장의 하부에 위치된다.
이들 그리고 다른 예들에서, 공간 위치는 음장의 상부에 위치된다.
이들 그리고 다른 예들에서, 오디오 인코딩 디바이스들 (20) 은 음장을 분석하여 공간 마스킹에 의해 영향받은 음장 내의 공간 위치를 식별하고, 식별된 공간 위치에 오디오 채널을 삽입하도록 구성된다.
이들 그리고 다른 예들에서, 음장의 고차 앰비소닉 표현은 음장을 기술하는 복수의 고차 앰비소닉 계수들을 포함하고, 오디오 인코딩 디바이스들 (20) 은 복수의 고차 앰비소닉 계수들을 구면 조화 도메인으로부터 공간 도메인으로 변환하여 음장의 공간 도메인 표현을 획득하고, 음장의 공간 도메인 표현 내의 공간 위치에 오디오 채널을 삽입하도록 구성된다.
이들 그리고 다른 예들에서, 음장의 고차 앰비소닉 표현은 음장을 기술하는 복수의 고차 앰비소닉 계수들을 포함하고, 오디오 인코딩 디바이스들 (20) 은 복수의 고차 앰비소닉 계수들을 구면 조화 도메인으로부터 공간 도메인으로 변환하여 음장의 공간 도메인 표현을 획득하고, 음장의 공간 도메인 표현 내의 공간 위치에 오디오 채널을 삽입하여 음장의 증강된 공간 도메인 표현을 획득하며, 음장의 증강된 공간 도메인 표현을 공간 도메인으로부터 다시 구면 조화 도메인으로 변환하여 음장의 증강된 고차 앰비소닉 표현을 획득하도록 구성된다.
이들 그리고 다른 예들에서, 오디오 인코딩 디바이스들 (20) 은 또한, 음장의 고차 앰비소닉 표현을 포함하는 비트스트림에서, 오디오 채널이 삽입되었던 공간 위치를 특정하도록 구성된다.
이들 그리고 다른 예들에서, 오디오 인코딩 디바이스들 (20) 은 음장의 고차 앰비소닉 표현을 포함하는 비트스트림에서, 오디오 채널을 기술하는 정보를 특정하도록 구성된다.
이들 그리고 다른 예들에서, 오디오 채널을 기술하는 정보는 스포츠캐스터를 식별하는 정보를 포함한다.
이들 그리고 다른 예들에서, 오디오 채널을 기술하는 정보는 오디오 채널에 존재하는 코멘터리가 구사되는 언어를 식별하는 정보를 포함한다.
이들 그리고 다른 예들에서, 오디오 채널을 기술하는 정보는 오디오 채널에 존재하는 콘텐츠의 타입을 식별하는 정보를 포함한다.
이들 그리고 다른 예들에서, 오디오 채널은 스포츠캐스터로부터의 오디오 채널을 포함한다.
이들 그리고 다른 예들에서, 오디오 채널은 비-브로드캐스터에 의해 획득된 오디오 채널을 포함한다.
이들 그리고 다른 예들에서, 오디오 채널은 비-영어 언어로 코멘터리를 제공하는 비-영어 오디오 채널을 포함한다.
이들 그리고 다른 예들에서, 오디오 채널은 영어 언어로 코멘터리를 제공하는 영어 오디오 채널을 포함한다.
이들 그리고 다른 예들에서, 음장의 고차 앰비소닉 표현은 음장의 주변 성분을 기술하는 복수의 고차 앰비소닉 계수들을 포함한다.
이들 그리고 다른 예들에서, 오디오 인코딩 디바이스들 (830) 은 음장의 고차 앰비소닉 표현의 벡터-기반 분해의 일 부분을 분석하여 음장 내의 공간 위치를 식별하고 식별된 공간 위치에 오디오 채널을 삽입하도록 구성된다.
이들 그리고 다른 예들에서, 디바이스는 핸드셋을 포함한다. 이들 그리고 다른 예들에서, 디바이스는 태블릿을 포함한다. 이들 그리고 다른 예들에서, 디바이스는 스마트 폰을 포함한다.
도 4a 내지 도 4c 는 도 2 의 오디오 디코딩 디바이스 (24) 의 상이한 예들을 더 상세히 예시하는 블록 다이어그램들이다. 도 4a 의 예에 도시된 바와 같이, 오디오 디코딩 디바이스 (24A) 는 추출 유닛 (72), 방향성-기반 재구성 유닛 (90) 및 벡터-기반 재구성 유닛 (92) 을 포함할 수도 있다. 아래에 기술되지만, HOA 계수들을 압축해제하거나 또는 그렇지 않으면 디코딩하는 다양한 양태들 및 오디오 디코딩 디바이스 (24) 에 관한 더 많은 정보는 발명의 명칭이 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD" 이고 2014년 5월 29일자로 출원된 국제 특허 출원 공개 WO 2014/194099호에서 입수가능하다.
도 4a 에서, 추출 유닛 (72) 은 비트스트림 (21) 을 수신하고 HOA 계수들 (11) 의 다양한 인코딩된 버전들 (예를 들어, 방향성-기반 인코딩된 버전 또는 벡터-기반 인코딩된 버전) 을 추출하도록 구성된 유닛을 표현할 수도 있다. 추출 유닛 (72) 은 다양한 방향-기반 또는 벡터-기반 버전들을 통해 HOA 계수들 (11) 이 인코딩되었는지 여부를 나타내는 신택스 엘리먼트로부터 결정할 수도 있다. 방향성-기반 인코딩이 수행되었을 때, 추출 유닛 (72) 은 HOA 계수들 (11) 의 방향성-기반 버전 및 이 인코딩된 버전과 연관된 신택스 엘리먼트들 (도 4a 의 예에서 방향성-기반 정보 (91) 로서 표시됨) 을 추출하여, 방향성-기반 정보 (91) 를 방향성-기반 재구성 유닛 (90) 에 전달할 수도 있다. 방향성-기반 재구성 유닛 (90) 은 방향성-기반 정보 (91) 에 기초하여 HOA 계수들 (11') 의 형태로 HOA 계수들을 재구성하도록 구성된 유닛을 표현할 수도 있다.
신택스 엘리먼트가 HOA 계수들 (11) 이 벡터-기반 합성을 이용하여 인코딩되었음을 나타낼 때, 추출 유닛 (72) 은 코딩된 전경 V[k] 벡터들 (57) (코딩된 가중치들 (57) 및/또는 코드 벡터들 (63) 또는 스칼라 양자화된 V-벡터들의 인덱스들을 포함할 수도 있음), 인코딩된 주변 HOA 계수들 (59) 및 대응하는 오디오 오브젝트들 (61) (또한 인코딩된 nFG 신호들 (61) 이라고도 지칭될 수도 있음) 을 추출할 수도 있다. 오디오 오브젝트들 (61) 각각은 벡터들 (57) 중 하나에 대응한다. 추출 유닛 (72) 은 코딩된 전경 V[k] 벡터들 (57) 을 V-벡터 재구성 유닛 (74) 에 전달하고 인코딩된 nFG 신호들 (61) 과 함께 인코딩된 주변 HOA 계수들 (59) 을 심리음향 디코딩 유닛 (80) 에 전달할 수도 있다.
V-벡터 재구성 유닛 (74) 은 인코딩된 전경 V[k] 벡터들 (57) 로부터 V-벡터들을 재구성하도록 구성된 유닛을 표현할 수도 있다. V-벡터 재구성 유닛 (74) 은 양자화 유닛 (52) 의 것과 상반되는 방식으로 동작할 수도 있다.
심리음향 디코딩 유닛 (80) 은 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 디코딩하고 그에 의해 에너지 보상된 주변 HOA 계수들 (47') 및 보간된 nFG 신호들 (49') (또한 보간된 nFG 오디오 오브젝트들 (49') 이라고도 지칭될 수도 있음) 을 생성하도록 도 3a 의 예에 도시된 심리음향 오디오 코더 유닛 (40) 과 상반되는 방식으로 동작할 수도 있다. 심리음향 디코딩 유닛 (80) 은 에너지 보상된 주변 HOA 계수들 (47') 을 오디오 채널 추출 유닛 (282) 에 전달하고 nFG 신호들 (49') 을 전경 공식화 유닛 (78) 에 전달할 수도 있다.
오디오 채널 추출 유닛 (282) 은 증강된 주변 HOA 계수들 (205) 을 수신하고, 암시적으로 알려진 (이 맥락에서, 구성된 것을 의미함) 공간 위치 (예를 들어, 하부 위치 또는 상부 위치) 로부터 분리된 오디오 채널 (201) 을 추출한다. 오디오 채널 추출 유닛 (282) 은, 분리된 오디오 채널 (201) 을 추출하기 위해, 증강된 주변 HOA 계수들 (205) 을 구면 조화 도메인으로부터 공간 도메인으로 변환하여 변환된 증강된 주변 HOA 계수들 (205) 을 생성할 수도 있다. 오디오 채널 추출 유닛 (282) 은 변환된 증강된 주변 HOA 계수들 (205) 의 암시적으로 알려진 공간 위치로부터 분리된 오디오 채널 (201) 을 추출하여, 변환된 에너지 보상된 주변 HOA 계수들 (47') 을 생성할 수도 있다. 오디오 채널 추출 유닛 (282) 은 변환된 에너지 보상된 주변 HOA 계수들 (47') 을 다시 공간 도메인으로부터 구면 조화 도메인으로 변환할 수도 있다. 오디오 채널 추출 유닛 (282) 은 에너지 보상된 주변 HOA 계수들 (47') 을 페이드 유닛 (770) 에 포워딩할 수도 있다.
공간-시간 보간 유닛 (76) 은 공간-시간 보간 유닛 (50) 에 관하여 상술된 것과 유사한 방식으로 동작할 수도 있다. 공간-시간 보간 유닛 (76) 은 감소된 전경 V[k] 벡터들 (55 k ) 을 수신하고, 전경 V[k] 벡터들 (55 k ) 및 감소된 전경 V[k-1] 벡터들 (55 k -1) 에 관하여 공간-시간 보간을 수행하여 보간된 전경 V[k] 벡터들 (55 k '') 을 생성할 수도 있다. 공간-시간 보간 유닛 (76) 은 보간된 전경 V[k] 벡터들 (55 k '') 을 페이드 유닛 (770) 에 포워딩할 수도 있다.
추출 유닛 (72) 은 또한 주변 HOA 계수들 중 하나가 천이 중일 때를 나타내는 신호 (757) 를 페이드 유닛 (770) 에 출력할 수도 있고, 이 페이드 유닛은 그 후에, 보간된 전경 V[k] 벡터들 (55 k '') 의 엘리먼트들 및 SHCBG (47') (여기서 SHCBG (47') 는 또한 "주변 HOA 채널들 (47')" 또는 "주변 HOA 계수들 (47')" 로서 표시될 수도 있음) 중 어떤 것이 페이드-인 또는 페이드-아웃되어야 하는지를 결정할 수도 있다. 일부 예들에서, 페이드 유닛 (770) 은 보간된 전경 V[k] 벡터들 (55 k '') 의 엘리먼트들 및 주변 HOA 계수들 (47') 각각에 관하여 역으로 동작할 수도 있다. 즉, 페이드 유닛 (770) 은 보간된 전경 V[k] 벡터들 (55 k '') 의 엘리먼트들 중 대응하는 하나의 엘리먼트에 관하여 페이드-인 또는 페이드-아웃 또는 페이드-인 및 페이드-아웃 양쪽을 수행하는 동안, 주변 HOA 계수들 (47') 중 대응하는 하나의 주변 HOA 계수에 관하여 페이드-인 또는 페이드-아웃, 또는 페이드-인 또는 페이드-아웃 양쪽을 수행할 수도 있다. 페이드 유닛 (770) 은 조정된 주변 HOA 계수들 (47'') 을 HOA 계수 공식화 유닛 (82) 에 출력하고 조정된 전경 V[k] 벡터들 (55 k ''') 을 전경 공식화 유닛 (78) 에 출력할 수도 있다. 이와 관련하여, 페이드 유닛 (770) 은, 예를 들어, 보간된 전경 V[k] 벡터들 (55 k '') 의 엘리먼트들 및 주변 HOA 계수들 (47') 의 형태로, HOA 계수들 또는 그의 도함수들의 다양한 양태들에 관하여 페이드 동작을 수행하도록 구성된 유닛을 표현한다.
전경 공식화 유닛 (78) 은 조정된 전경 V[k] 벡터들 (55 k ''') 및 보간된 nFG 신호들 (49') 에 관하여 행렬 곱셈을 수행하여 전경 HOA 계수들 (65) 을 생성하도록 구성된 유닛을 표현할 수도 있다. 이와 관련하여, 전경 공식화 유닛 (78) 은 오디오 오브젝트들 (49') (보간된 nFG 신호들 (49') 을 표시하게 하는 다른 방법임) 을 벡터들 (55 k ''') 과 조합하여 HOA 계수들 (11') 의 전경 또는, 다시 말해, 우세 양태들을 재구성할 수도 있다. 전경 공식화 유닛 (78) 은 조정된 전경 V[k] 벡터들 (55 k ''') 에 의한 보간된 nFG 신호들 (49') 의 행렬 곱셈을 수행할 수도 있다.
HOA 계수 공식화 유닛 (82) 은 조정된 주변 HOA 계수들 (47'') 에 대해 전경 HOA 계수들 (65) 을 조합하여 HOA 계수들 (11') 을 획득하도록 구성된 유닛을 표현할 수도 있다. 주된 표기법은 HOA 계수들 (11') 이 HOA 계수들 (11) 과 유사하지만 동일하지 않을 수도 있다는 것을 반영한다. HOA 계수들 (11 과 11') 사이의 차이들은 손실 송신 매체, 양자화 또는 다른 손실 동작들을 통한 송신으로 인한 손실로부터 발생할 수도 있다.
도 4b 의 예에서, 오디오 디코딩 디바이스 (24B) 의 오디오 채널 추출 유닛 (282) 은 증강된 주변 HOA 계수들 (205) 및 보간된 전경 V[k] 벡터들 (55 k '') 양쪽을 수신할 수도 있다. 이 예에서, 오디오 채널 추출 유닛 (282) 은 보간된 전경 V[k] 벡터들 (55 k '') 을 분석하여 분리된 오디오 채널 (201) 이 삽입되었던 공간 위치를 식별할 수도 있다. 오디오 채널 추출 유닛 (282) 은, 이 예에서, 증강된 주변 HOA 계수들 (205) 로부터 분리된 오디오 채널 (201) 을 추출할 수도 있다. HOA 계수들 (11) 의 벡터-기반 분해의 일 부분의 분석 및 암시적 공간 위치를 수반하는 선행하는 2 개의 예들에 대해, 분리된 오디오 채널 (201) 이 삽입되었던 공간 위치를 식별하기 위해 어떠한 부가적인 정보도 비트스트림 (21) 에서 특정되지 않는다는 것이 주어진다면, 선행하는 2 개의 예들은 삽입 정보 (207) 를 수반하는 다음 예와의 비교시에 분리된 오디오 채널 (201) 을 포함하는 HOA 계수들 (11) 의 더 효율적인 코딩을 촉진할 수도 있다.
도 4c 의 예에서, 오디오 디코딩 디바이스 (24C) 의 추출 유닛 (282) 은 추출 유닛 (72) 에 의해 비트스트림 (21) 으로부터 파싱된 후에 삽입 정보 (207) 를 수신할 수도 있다. 이 삽입 정보 (207) 에 기초하여, 오디오 채널 추출 유닛 (282) 은 분리된 오디오 채널 (201) 이 삽입되었던 공간 위치를 식별할 수도 있다. 오디오 채널 추출 유닛 (282) 은 상술된 방식으로 공간 위치로부터 이 분리된 오디오 채널 (201) 을 추출할 수도 있다. 비트스트림 (21) 에의 삽입 정보 (207) 의 포함이 이 삽입 정보 (207) 를 포함하지 않는 비트스트림들 (21) 과의 비교시에 가장 콤팩트한 비트스트림을 발생시키지 않을 수도 있지만, 이 정보 (207) 의 포함은 오디오 채널 추출 유닛 (282) 으로 하여금 공간 위치를 (프로세싱 사이클들의 관점에서) 더 효율적으로 식별할 수 있게 하면서 또한 유연성을 허용하여 암시적으로 알려져 있지 않은 위치들에 이것을 삽입할 수 있게 할 수도 있다. 위에서 언급된 바와 같이, 삽입 정보 (207) 는 방위각 및 앙각보다는 V-벡터를 포함할 수도 있다. V-벡터는, 다시 위에서 언급된 바와 같이, 증강된 주변 HOA 계수들에서 분리된 오디오 채널 (205) 의 공간 위치를 식별할 수도 있다.
도 7 은 본 개시물에서 기술되는 기법들의 다양한 양태들을 수행함에 있어서 도 2 의 오디오 디코딩 디바이스의 예시적인 동작을 예시하는 플로우차트이다. 오디오 채널 추출 유닛 (282) 은 도 4a 내지 도 4c 의 예들에 관하여 상술된 방법들 중 하나 이상을 통해 증강된 주변 HOA 계수들 (205) 에서 분리된 오디오 채널 (201) 의 특수 위치 (207) 를 획득할 수도 있다 (1050). 오디오 디코딩 디바이스 (20) 의 오디오 채널 추출 유닛 (282) 은 SHNEW(
Figure pct00046
) (1016) 로서 표시될 수도 있는 증강된 주변 HOA 계수들 (205) 을 수신할 수도 있다. 오디오 채널 추출 유닛 (282) 은 증강된 주변 HOA 계수들 (205) 을 3D 공간으로 투영함으로써 증강된 주변 HOA 계수들 (205) 을 구면 조화 도메인으로부터 공간 도메인으로 변환할 수도 있다 (1052). 증강된 주변 HOA 계수들 (205) 을 변환한 결과는 PADJ(
Figure pct00047
) (1012) 로서 표시될 수도 있는 변환된 증강된 주변 HOA 계수들 (205) 을 생성하는 것이다.
오디오 채널 추출 유닛 (282) 은 변환된 증강된 주변 HOA 계수들 (205) 의 공간 위치 (207) 로부터 분리된 오디오 채널 (201) 을 추출하여 (1054), 변환된 에너지 보상된 주변 HOA 계수들 (47') (도 7 의 예에서 P(
Figure pct00048
) (1002) 로서 표시됨) 을 생성할 수도 있다. 오디오 채널 추출 유닛 (282) 은 부가적인 오디오 채널 (207) 을 오디오 렌더러들 (22) 에 전달할 수도 있다. 부가적인 오디오 채널 (207) 은 또한 SHi(
Figure pct00049
) (1015) 로서 표시될 수도 있다. 오디오 채널 추출 유닛 (282) 은 변환된 에너지 보상된 주변 HOA 계수들 (47') 을 다시 공간 도메인으로부터 구면 조화 도메인으로 변환하여 (1056), 오리지널 에너지 보상된 주변 HOA 계수들 (47') 을 출력할 수도 있다. 에너지 보상된 주변 HOA 계수들 (47') 은 또한 SHORIG(n, m, t) (1000) 로서 표시될 수도 있다.
도 8a 내지 도 8c 는 오디오 오브젝트가 본 개시물에서 기술되는 기법들에 따라 삽입될 수도 있는 음장 (1100) 을 예시하는 다이어그램들이다. 도 8a 의 예는 3 차원들에서 음장 (1100) 을 예시하는데, 화이트 컬러링은 보다 높은 데시벨 (dB) 레벨을 나타내고, 보다 어두운 블랙 영역들은 상대적으로 보다 낮은 dB 레벨을 나타내며 그레이의 변동 음영들은 그레이의 음영이 화이트 쪽으로 감소함에 따라 압력의 증가 영역들을 나타낸다. 다시 말해, 도 8a 의 예에 도시된 음장 (1100) 은 가정된 스위트 스폿에서 구면 상으로 투영된 음장 (1100) 을 표현하는 HOA 계수들을 표현한다. 밝은/화이트 영역들은 음장 (1100) 의 압력이 보다 높은 영역들을 표시할 수도 있는 한편, 어두운/블랙 영역들은 음장 (1100) 의 압력이 상대적으로 보다 낮은 영역들을 표시한다. 도 8b 의 예는 동일한 음장 (1100) 의 상부 절반을 2-차원들에서 도시한다.
삽입 유닛 (234) 에 의한 음장 (1100) 의 분석은 [45, 30], [180, 60], 및 [300, 45] 의 방위각, 앙각에서 3 개의 돌출 또는 우세 오디오 영역들 (1102A 내지 1102C) 을 식별할 수도 있다. 삽입 유닛 (234) 은 3 개의 돌출 또는 우세 오디오 영역들 (1102A 내지 1102C) 중 하나 이상이 마스킹되거나 또는 그렇지 않으면 제로 아웃될 수 있다는 것을 식별할 수도 있다. 삽입 유닛 (234) 은 상술된 방식으로 분리된 오디오 채널을 이들 영역들 (1102A 내지 1102C) 중 하나에 또는 돌출 오디오 정보에 대해 거의 갖지 않는 것으로서 식별된 다른 영역 (예를 들어, 완전한 또는 거의 완전한 암흑의 영역) 에 삽입할 수도 있다.
예시하기 위해, 삽입 유닛 (234) 은 음장 (1100) 을 분석하고, 돌출 오디오 영역 (1102B) 에 의해 마스킹되는 것으로서 돌출 오디오 영역 (1102C) 을 식별할 수도 있다. 삽입 유닛 (234) 은 에너지 보상된 증강된 HOA 계수들 (47') 을 구면 조화 도메인으로부터 공간 도메인으로 변환할 수도 있다. 도 3a 및 도 3b 의 예에 도시되지 않지만, 삽입 유닛 (234) 은 에너지 보상된 주변 HOA 계수들 (47') 보다는 주변 HOA 계수들 (47) 에 관하여 본 명세서에서 기술된 분석 및 다른 동작들을 수행할 수도 있다.
어떤 경우든, 삽입 유닛 (234) 은 돌출 오디오 영역 (1102C) 을 제로 아웃시키거나 또는 그렇지 않으면 제거하고 분리된 오디오 채널 (201) 을 오디오 영역 (1102C) 의 위치에 삽입할 수도 있다. 삽입 유닛 (234) 은 삽입을 수행한 후에 증강된 주변 HOA 계수들 (205) 을 획득할 수도 있다. 증강된 주변 HOA 계수들 (205) 을 획득한 후에, 삽입 유닛 (234) 은 증강된 주변 HOA 계수들 (205) 을 공간 도메인으로부터 구면 조화 도메인으로 변환할 수도 있다. 삽입 유닛 (205) 은, 일부 예들에서, 증강된 주변 HOA 계수들 (205) 의 벡터-기반 분석 (예를 들어, SVD, EVD, PCA, KLT 등) 을 수행하여 분리된 오디오 채널 (205) 과 연관된 V-벡터를 식별할 수도 있다. 삽입 유닛 (234) 은, 삽입 정보 (207) 의 적어도 일 부분으로서 V-벡터를 비트스트림 생성 유닛 (42) 에 제공할 수도 있다. 비트스트림 생성 유닛 (42) 은 비트스트림 (42) 에서 V-벡터를 포함하는 삽입 정보 (207) 를 특정할 수도 있다.
대안적으로, 음장 (1100) 은 증강된 주변 HOA 계수들 (205) 로부터의 음장 (1100) 의 렌더링을 표현할 수도 있다. 음장 (1100) 의 표현이 증강된 주변 HOA 계수들 (205) 의 렌더링을 표현한다고 간주하면, 돌출 오디오 오브젝트들 (1102A 내지 1102C) 은 각각 에너지 보상된 주변 HOA 계수들 (47') 에 삽입되었던 분리된 오디오 채널 (201) 을 표현할 수도 있다.
도 8c 의 예는, 3 개의 돌출 오디오 영역들 (1102A 내지 1102C) 을 포함하는 음장 (1100) 의 다른 3 차원 뷰를, 대응하는 V-벡터들 (1104A 내지 1104C) 의 도시와 함께 제공한다. V-벡터들 (1104A 내지 1104C) 각각은 HOA 계수들 (11) 의 시간의 지속기간 (예를 들어, 프레임) 에 대해 돌출 오디오 영역들 (1102A 내지 1102C) 의 방향, 형상, 폭 및 볼륨을 식별한다. 사실상, V-벡터들 (1104A 내지 1104C) 은 각각 돌출 오디오 정보의 공간-시간 포켓을 표현할 수도 있다. 이들 포켓들 중 하나 이상은 제로 아웃되어, 분리된 오디오 채널 (201) 로 시간의 지속기간에 걸쳐 채워질 수 있는, 비-돌출 오디오 정보의 공간-시간 포켓을 생성할 수도 있다.
오디오 디코딩 디바이스 (24) 의 관점에서, 오디오 채널 추출 유닛 (282) 은 증강된 주변 HOA 계수들 (205) 및 임의의 수반된 삽입 정보 (207) 를 수신하고 상반되는 프로세스를 수행하여 분리된 오디오 채널 (201) 을 추출할 수도 있다. 예시하기 위해, 오디오 채널 추출 유닛 (282) 은 증강된 주변 HOA 계수들 (205) 을 구면 조화 도메인으로부터 공간 도메인으로 변환할 수도 있다. 그 후에, 오디오 채널 추출 유닛 (282) 은 암시적으로 구성된 위치 (예를 들어, 증강된 주변 HOA 계수들 (205) 에 의해 표현된 음장의 상부 또는 하부), (예를 들어, 증강된 주변 HOA 계수들 (205) 의 벡터-기반 분석을 수행하는 것에 의한) 명시적으로 도출된 위치로부터, 또는 적어도 부분적으로 삽입 정보 (207) 에 의해 특정된 바와 같은 시그널링된 위치를 통해 분리된 오디오 채널 (205) 을 추출할 수도 있다.
삽입 정보 (207) 가 V-벡터를 포함할 때, 오디오 채널 추출 유닛 (282) 은 V-벡터를 활용하여, 분리된 오디오 채널 (201) 이 삽입되었던 공간 위치 (예를 들어, 위에서 언급된 공간-시간 포켓을 특정할 수도 있음) 를 식별할 수도 있다. 일부 경우들에서, V-벡터는, 제로 아웃되었고 대신 이용되어 분리된 오디오 채널 (201) 을 특정한 돌출 오디오 영역 (1102A 내지 1102C) 중 하나에 대응할 수도 있다. 오디오 채널 추출 유닛 (282) 은 오디오 렌더러들 (22) 중 하나에 의해 렌더링될 분리된 오디오 채널 (201) 을 출력할 수도 있다. 일부 예들에서, 오디오 채널 추출 유닛 (282) 은 V-벡터를 제공하는 일 없이 분리된 오디오 채널 (201) 을 출력한다. 그 결과, 분리된 오디오 채널 (201) 은 대응하는 V-벡터를 활용하여 렌더링되지 않을 수도 있다.
더욱이, 오디오 채널 추출 유닛 (282) 은 분리된 오디오 채널 (201) 의 HOA 표현을 공식화하기 위해 분리된 오디오 채널 (201) 에 대응하는 V-벡터를 활용하지 않는다. 분리된 오디오 채널 (201) 이 전방향성 오디오 콘텐츠를 표현한다고 주어진다면, 분리된 오디오 채널 (201) 에 대응하는 V-벡터는 분리된 오디오 채널 (201) 의 실제 위치, 형상 및 폭을 정확히 반영하지 못한다. 그 대신에, 분리된 오디오 채널 (201) 에 대응하는 V-벡터는 분리된 오디오 채널 (201) 이 증강된 주변 HOA 계수 (205) 에 의해 표현된 음장에 삽입되었던 곳의 위치, 형상 및 폭을 식별하지만, 분리된 오디오 채널 (201) 의 HOA 표현을 재공식화하기 위해 또는 분리된 오디오 채널 (201) 을 렌더링하기 위해 활용되지 않는다. 오디오 재생 시스템 (16) 은 분리된 오디오 채널 (201) 을 개별적으로 렌더링하여 스피커 피드 (203) 를 생성할 수도 있는데, 이 스피커 피드는 오디오 재생 시스템 (16) 이 믹서 (8) 를 이용하여 재공식화된 HOA 계수들 (11') 로부터 렌더링된 스피커 피드들 (25) 에 믹싱한다.
이러한 방법으로, 기법들의 다양한 양태들은 오디오 디코딩 디바이스 (24A 내지 24C) ("오디오 디코딩 디바이스들 (24)") 로 하여금 음장으로부터 분리된 오디오 채널을 포함하는 음장의 증강된 고차 앰비소닉 표현을 획득할 수 있게 하고, 음장의 증강된 고차 앰비소닉 표현 내의 공간 위치로부터 오디오 채널을 추출할 수 있게 할 수도 있다.
이들 그리고 다른 예들에서, 공간 위치는 음장의 하부에 위치된다.
이들 그리고 다른 예들에서, 공간 위치는 음장의 상부에 위치된다.
이들 그리고 다른 예들에서, 오디오 디코딩 디바이스들 (24) 은 음장의 벡터-기반 분석을 수행하여 음장 내의 공간 위치를 식별하고, 식별된 공간 위치로부터 오디오 채널을 추출하도록 구성된다.
이들 그리고 다른 예들에서, 음장의 증강된 고차 앰비소닉 표현은 음장을 기술하는 복수의 고차 앰비소닉 계수들을 포함하고, 오디오 디코딩 디바이스들은 복수의 고차 앰비소닉 계수들을 구면 조화 도메인으로부터 공간 도메인으로 변환하여 음장의 증강된 공간 도메인 표현을 획득하고, 음장의 증강된 공간 도메인 표현 내의 공간 위치로부터 오디오 채널을 추출하도록 구성된다.
이들 그리고 다른 예들에서, 음장의 증강된 고차 앰비소닉 표현은 음장을 기술하는 복수의 고차 앰비소닉 계수들을 포함하고, 오디오 디코딩 디바이스들 (880) 은 복수의 고차 앰비소닉 계수들을 구면 조화 도메인으로부터 공간 도메인으로 변환하여 음장의 증강된 공간 도메인 표현을 획득하고, 음장의 증강된 공간 도메인 표현 내의 공간 위치로부터 오디오 채널을 추출하여 음장의 공간 도메인 표현을 획득하며, 음장의 공간 도메인 표현을 공간 도메인으로부터 다시 구면 조화 도메인으로 변환하여 음장의 고차 앰비소닉 표현을 획득하도록 구성된다.
이들 그리고 다른 예들에서, 오디오 디코딩 디바이스들 (24) 은 또한, 음장의 증강된 고차 앰비소닉 표현을 포함하는 비트스트림으로부터, 오디오 채널이 삽입되었던 공간 위치를 결정하도록 구성된다.
이들 그리고 다른 예들에서, 오디오 디코딩 디바이스들 (24) 은 또한, 음장의 증강된 고차 앰비소닉 표현을 포함하는 비트스트림으로부터, 오디오 채널을 기술하는 정보를 결정하도록 구성된다.
이들 그리고 다른 예들에서, 오디오 채널을 기술하는 정보는 스포츠캐스터를 식별하는 정보를 포함한다.
이들 그리고 다른 예들에서, 오디오 채널을 기술하는 정보는 오디오 채널에 존재하는 코멘터리가 구사되는 언어를 식별하는 정보를 포함한다.
이들 그리고 다른 예들에서, 오디오 채널을 기술하는 정보는 오디오 채널에 존재하는 콘텐츠의 타입을 식별하는 정보를 포함한다.
이들 그리고 다른 예들에서, 오디오 채널은 스포츠캐스터로부터의 오디오 채널을 포함한다.
이들 그리고 다른 예들에서, 오디오 채널은 비-브로드캐스터에 의해 획득된 오디오 채널을 포함한다.
이들 그리고 다른 예들에서, 오디오 채널은 비-영어 언어로 코멘터리를 제공하는 비-영어 오디오 채널을 포함한다.
이들 그리고 다른 예들에서, 오디오 채널은 영어 언어로 코멘터리를 제공하는 영어 오디오 채널을 포함한다.
이들 그리고 다른 예들에서, 음장의 고차 앰비소닉 표현은 음장의 주변 성분을 기술하는 복수의 고차 앰비소닉 계수들을 포함한다.
이들 그리고 다른 예들에서, 디바이스는 핸드셋을 포함한다.
이들 그리고 다른 예들에서, 디바이스는 태블릿을 포함한다.
이들 그리고 다른 예들에서, 디바이스는 스마트 폰을 포함한다.
전술한 기법들은 임의의 개수의 상이한 맥락들 및 오디오 에코시스템들에 관하여 수행될 수도 있다. 다수의 예시적인 맥락들이 아래에 기술되지만, 기법들은 그 예시적인 맥락들로 제한되어야 한다. 하나의 예시적인 오디오 에코시스템은 오디오 콘텐츠, 영화 스튜디오들, 음악 스튜디오들, 게이밍 오디오 스튜디오들, 채널 기반 오디오 콘텐츠, 코딩 엔진들, 게임 오디오 시스템들, 게임 오디오 코딩/렌더링 엔진들, 및 전달 시스템들을 포함할 수도 있다.
영화 스튜디오들, 음악 스튜디오들, 및 게이밍 오디오 스튜디오들은 오디오 콘텐츠를 수신할 수도 있다. 일부 예들에서, 오디오 콘텐츠는 포착의 출력을 표현할 수도 있다. 영화 스튜디오들은, 예컨대 디지털 오디오 워크스테이션 (DAW) 을 이용함으로써, (예를 들어, 2.0, 5.1, 및 7.1 에서) 채널 기반 오디오 콘텐츠를 출력할 수도 있다. 음악 스튜디오들은, 예컨대 DAW 을 이용함으로써, (예를 들어, 2.0, 및 5.1 에서) 채널 기반 오디오 콘텐츠를 출력할 수도 있다. 어떤 경우든, 코딩 엔진들은 전달 시스템들에 의한 출력을 위해 하나 이상의 코덱들 (예를 들어, AAC, AC3, 돌비 트루 HD (Dolby True HD), 돌비 디지털 플러스, 및 DTS 마스터 오디오) 에 기초하여 채널 기반 오디오 콘텐츠를 수신 및 인코딩할 수도 있다. 게이밍 오디오 스튜디오들은, 예컨대 DAW 를 이용함으로써, 하나 이상의 게임 오디오 스템들을 출력할 수도 있다. 게임 오디오 코딩/렌더링 엔진들은 전달 시스템들에 의한 출력을 위해 채널 기반 오디오 콘텐츠로 오디오 스템들을 코딩 및 또는 렌더링할 수도 있다. 기법들이 수행될 수도 있는 다른 예시적인 맥락은, 브로드캐스트 레코딩 오디오 오브젝트들, 프로페셔널 오디오 시스템들, 소비자 온-디바이스 캡처, HOA 오디오 포맷, 온-디바이스 렌더링, 소비자 오디오, TV, 및 액세서리들, 및 카 오디오 시스템들을 포함할 수도 있는 오디오 에코시스템을 포함한다.
브로드캐스트 레코딩 오디오 오브젝트들, 프로페셔널 오디오 시스템들, 및 소비자 온-디바이스 캡처는 모두 이들의 출력을 HOA 오디오 포맷을 이용하여 코딩할 수도 있다. 이러한 방법으로, 오디오 콘텐츠는 온-디바이스 렌더링, 소비자 오디오, TV, 및 액세서리들, 및 카 오디오 시스템들을 이용하여 재생될 수도 있는 단일 표현으로 HOA 오디오 포맷을 이용하여 코딩될 수도 있다. 다시 말해, 오디오 콘텐츠의 단일 표현은 오디오 재생 시스템 (16) 과 같은 일반 오디오 재생 시스템에서 (즉, 5.1, 7.1 등과 같은 특정 구성을 필요로 하는 것과는 대조적으로) 재생될 수도 있다.
기법들이 수행될 수도 있는 맥락의 다른 예들은 포착 엘리먼트들, 및 재생 엘리먼트들을 포함할 수도 있는 오디오 에코시스템을 포함한다. 포착 엘리먼트들은 유선 및/또는 무선 포착 디바이스들 (예를 들어, 아이겐 (Eigen) 마이크로폰들), 온-디바이스 서라운드 사운드 캡처, 및 모바일 디바이스들 (예를 들어, 스마트폰들 및 태블릿들) 을 포함할 수도 있다. 일부 예들에서, 유선 및/또는 무선 포착 디바이스들은 유선 및/또는 무선 통신 채널(들) 을 통해 모바일 디바이스에 커플링될 수도 있다.
본 개시물의 하나 이상의 기법들에 따르면, 모바일 디바이스는 음장을 포착하는데 이용될 수도 있다. 예를 들어, 모바일 디바이스는 유선 및/또는 무선 포착 디바이스들 및/또는 온-디바이스 서라운드 사운드 캡처 (예를 들어, 모바일 디바이스 내에 통합되는 복수의 마이크로폰들) 를 통해 음장을 포착할 수도 있다. 그 후에, 모바일 디바이스는 재생 엘리먼트들 중 하나 이상의 재생 엘리먼트들에 의한 재생을 위해 포착된 음장을 HOA 계수들로 코딩할 수도 있다. 예를 들어, 모바일 디바이스의 사용자는 라이브 이벤트 (예를 들어, 회의, 컨퍼런스, 연극, 콘서트 등) 를 레코딩 (라이브 이벤트의 음장을 포착) 하고 그 레코딩을 HOA 계수들로 코딩할 수도 있다.
모바일 디바이스는 또한, HOA 코딩된 음장을 재생하기 위해 재생 엘리먼트들 중 하나 이상을 활용할 수도 있다. 예를 들어, 모바일 디바이스는 HOA 코딩된 음장을 디코딩하고, 재생 엘리먼트들 중 하나 이상으로 하여금 음장을 재생성하게 하는 신호를 재생 엘리먼트들 중 하나 이상에 출력할 수도 있다. 하나의 예로서, 모바일 디바이스는 신호를 하나 이상의 스피커들 (예를 들어, 스피커 어레이들, 사운드 바들 등) 에 출력하기 위해 무선 및/또는 무선 통신 채널들을 활용할 수도 있다. 다른 예로서, 모바일 디바이스는 하나 이상의 도킹 스테이션들 및/또는 하나 이상의 도킹된 스피커들 (예를 들어, 스마트 카들 및/또는 가정들에 있는 사운드 시스템들) 에 신호를 출력하기 위해 도킹 솔루션들을 활용할 수도 있다. 다른 예로서, 모바일 디바이스는, 예를 들어, 현실적인 바이노럴 (binaural) 사운드를 생성하기 위해, 헤드폰들의 세트에 신호를 출력하도록 헤드폰 렌더링을 활용할 수도 있다.
일부 예들에서, 특정 모바일 디바이스는 3D 음장을 포착하는 것 그리고 추후의 시간에 동일한 3D 음장을 재생하는 것 양쪽을 행할 수도 있다. 일부 예들에서, 모바일 디바이스는 3D 음장을 포착하고, 3D 음장을 HOA 로 인코딩하고, 재생을 위해 인코딩된 3D 음장을 하나 이상의 다른 디바이스들 (예를 들어, 다른 모바일 디바이스들 및/또는 다른 비-모바일 디바이스들) 로 송신할 수도 있다.
기법들이 수행될 수도 있는 또 다른 맥락은, 오디오 콘텐츠, 게임 스튜디오들, 코딩된 오디오 콘텐츠, 렌더링 엔진들, 및 전달 시스템들을 포함할 수도 있는 오디오 에코시스템을 포함한다. 일부 예들에서, 게임 스튜디오들은 HOA 신호들의 편집을 지원할 수도 있는 하나 이상의 DAW들을 포함할 수도 있다. 예를 들어, 하나 이상의 DAW들은 하나 이상의 게임 오디오 시스템들과 동작 (예를 들어, 작동) 하도록 구성될 수도 있는 HOA 플러그인들 및/또는 툴들을 포함할 수도 있다. 일부 예들에서, 게임 스튜디오들은 HOA 를 지원하는 새로운 스템 포맷들을 출력할 수도 있다. 어떤 경우든, 게임 스튜디오들은 전달 시스템들에 의한 재생을 위해 음장을 렌더링할 수도 있는 렌더링 엔진들로 코딩된 오디오 콘텐츠를 출력할 수도 있다.
기법들은 또한 예시적인 오디오 포착 디바이스들에 관하여 수행될 수도 있다. 예를 들어, 3D 음장을 레코딩하도록 집합적으로 구성되는 복수의 마이크로폰들을 포함할 수도 있는 아이겐 마이크로폰에 관하여 기법들이 수행될 수도 있다. 일부 예들에서, 아이겐 마이크로폰의 복수의 마이크로폰들은, 대략 4cm 의 반경을 갖는 실질적으로 구형 볼의 표면 상에 위치될 수도 있다. 일부 예들에서, 오디오 인코딩 디바이스 (20A) 는 마이크로폰으로부터 직접 비트스트림 (21) 을 출력하도록 아이겐 마이크로폰 내에 통합될 수도 있다.
다른 예시적인 오디오 포착 맥락은, 하나 이상의 아이겐 마이크로폰들과 같은 하나 이상의 마이크로폰들로부터 신호를 수신하도록 구성될 수도 있는 제조 트럭 (production truck) 을 포함할 수도 있다. 제조 트럭은 또한 도 2 의 오디오 인코더 (20) 와 같은 오디오 인코더를 포함할 수도 있다.
모바일 디바이스는 또한, 일부 경우들에서, 3D 음장을 레코딩하도록 집합적으로 구성되는 복수의 마이크로폰들을 포함할 수도 있다. 다시 말해, 복수의 마이크로폰은 X, Y, Z 다이버시티 (diversity) 를 가질 수도 있다. 일부 예들에서, 모바일 디바이스는 마이크로폰을 포함할 수도 있고, 이 마이크로폰은 모바일 디바이스의 하나 이상의 다른 마이크로폰들에 관하여 X, Y, Z 다이버시티를 제공하기 위해 회전될 수도 있다. 모바일 디바이스는 또한 도 2 의 오디오 인코더 (20) 와 같은 오디오 인코더를 포함할 수도 있다.
러기다이즈드 (ruggedized) 비디오 캡처 디바이스는 또한 3D 음장을 레코딩하도록 구성될 수도 있다. 일부 예들에서, 러기다이즈드 비디오 캡처 디바이스는 활동에 관여된 사용자의 헬멧에 부착될 수도 있다. 예를 들어, 러기다이즈드 비디오 캡처 디바이스는 급류 래프팅하는 사용자의 헬멧에 부착될 수도 있다. 이러한 방법으로, 러기다이즈드 비디오 캡처 디바이스는 사용자 주위의 모든 액션 (예를 들어, 물이 사용자의 후방에서 부딪치는 것, 다른 래프터가 사용자의 전방에서 말하는 것 등...) 을 표현하는 3D 음장을 캡처할 수도 있다.
기법들은 또한 3D 음장을 레코딩하도록 구성될 수도 있는 액세서리 향상 모바일 디바이스에 관하여 수행될 수도 있다. 일부 예들에서, 모바일 디바이스는, 하나 이상의 액세서리들이 부가된, 상술된 모바일 디바이스들과 유사할 수도 있다. 예를 들어, 아이겐 마이크로폰은 위에서 언급된 모바일 디바이스에 부착되어 액세서리 향상 모바일 디바이스를 형성할 수도 있다. 이러한 방법으로, 액세서리 향상 모바일 디바이스는 액세서리 향상 모바일 디바이스에 일체화된 사운드 캡처 컴포넌트들만을 이용하는 것보다 더 높은 품질 버전의 3D 음장을 캡처할 수도 있다.
본 개시물에서 기술되는 기법들의 다양한 양태들을 수행할 수도 있는 예시적인 오디오 재생 디바이스들이 아래에 추가로 논의된다. 본 개시물의 하나 이상의 기법들에 따르면, 스피커들 및/또는 사운드 바들은 여전히 3D 음장을 재생하면서 어느 임의의 구성으로도 배열될 수도 있다. 더욱이, 일부 예들에서, 헤드폰 재생 디바이스들은 유선 또는 무선 연결 중 어느 하나를 통해 디코더 (24) 에 커플링될 수도 있다. 본 개시물의 하나 이상의 기법들에 따르면, 음장의 단일 일반 표현은 스피커들, 사운드 바들, 및 헤드폰 재생 디바이스들의 임의의 조합에서 음장을 렌더링하는데 활용될 수도 있다.
다수의 상이한 예시적인 오디오 재생 환경들은 또한 본 개시물에서 기술되는 기법들의 다양한 양태들을 수행하기에 적합할 수도 있다. 예를 들어, 5.1 스피커 재생 환경, 2.0 (예를 들어, 스테레오) 스피커 재생 환경, 풀 하이트 전방 라우드스피커들을 갖는 9.1 스피커 재생 환경, 22.2 스피커 재생 환경, 16.0 스피커 재생 환경, 자동차 스피커 재생 환경, 및 이어 버드 (ear bud) 재생 환경을 갖는 모바일 디바이스는 본 개시물에서 기술되는 기법들의 다양한 양태들을 수행하기 위한 적합한 환경들일 수도 있다.
본 개시물의 하나 이상의 기법들에 따르면, 음장의 단일 일반 표현은 전술한 재생 환경들 중 임의의 재생 환경에서 음장을 렌더링하는데 활용될 수도 있다. 부가적으로, 본 개시물의 기법들은, 렌더러로 하여금, 상술된 것 이외의 재생 환경들에서의 재생을 위해 일반 표현으로부터의 음장을 렌더링하는 것을 가능하게 한다. 예를 들어, 설계 고려사항들이 7.1 스피커 재생 환경에 따른 스피커들의 적절한 배치를 금지하는 경우 (예를 들어, 우측 서라운드 스피커를 배치하는 것이 가능하지 않은 경우), 본 개시물의 기법들은, 렌더러로 하여금, 6.1 스피커 재생 환경에서 재생이 달성될 수도 있도록 다른 6 개의 스피커들로 보상하는 것을 가능하게 한다.
더욱이, 사용자는 헤드폰들을 착용한 동안 스포츠 게임을 시청할 수도 있다. 본 개시물의 하나 이상의 기법들에 따르면, 스포츠 게임의 3D 음장이 포착될 수도 있고 (예를 들어, 하나 이상의 아이겐 마이크로폰들이 야구 스타디움에 및/또는 그 주변에 배치될 수도 있음), 3D 음장에 대응하는 HOA 계수들이 획득되고 디코더로 송신될 수도 있고, 디코더는 HOA 계수들에 기초하여 3D 음장을 재구성하고 재구성된 3D 음장을 렌더러로 출력할 수도 있고, 렌더러는 재생 환경 (예를 들어, 헤드폰들) 의 타입에 대한 표시를 획득할 수도 있으며, 헤드폰들로 하여금 스포츠 게임의 3D 음장의 표현을 출력하게 하는 신호들로 재구성된 3D 음장을 렌더링할 수도 있다.
상술된 다양한 경우들 각각에서, 오디오 인코딩 디바이스 (20) 는 오디오 인코딩 디바이스 (20) 가 수행하도록 구성되는 방법을 수행하거나 또는 그렇지 않으면 그 방법의 각각의 단계를 수행하기 위한 수단을 포함할 수도 있다는 것을 이해해야 한다. 일부 경우들에서, 수단은 하나 이상의 프로세서들을 포함할 수도 있다. 일부 경우들에서, 하나 이상의 프로세서들은 비일시적 컴퓨터 판독가능 저장 매체에 저장된 명령들에 의해 구성된 특수 목적 프로세서를 표현할 수도 있다. 다시 말해, 인코딩 예들의 세트들 각각에서 기법들의 다양한 양태들은, 실행될 때, 하나 이상의 프로세서들로 하여금 오디오 인코딩 디바이스 (20) 가 수행하도록 구성된 방법을 수행하게 하는 명령들을 저장한 비일시적 컴퓨터 판독가능 저장 매체를 제공할 수도 있다. 다른 경우들에서, 프로세서들은 실질적으로 하드웨어-기반일 수도 있고 범용 프로세서들이 아닐 수도 있다.
하나 이상의 예들에서, 기술된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현된 경우, 그 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장되거나 그 컴퓨터 판독가능 매체를 통해 송신될 수도 있고 하드웨어 기반 프로세싱 유닛에 의해 실행될 수도 있다. 컴퓨터 판독가능 매체들은, 데이터 저장 매체들과 같은 유형의 매체에 대응하는 컴퓨터 판독가능 저장 매체들을 포함할 수도 있다. 데이터 저장 매체들은, 본 개시물에서 기술되는 기법들의 구현을 위해 명령들, 코드 및/또는 데이터 구조들을 취출하기 위해 하나 이상의 컴퓨터들 또는 하나 이상의 프로세서들에 의해 액세스될 수 있는 임의의 가용 매체들일 수도 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독가능 매체를 포함할 수도 있다.
이와 마찬가지로, 상술된 다양한 경우들 각각에서, 오디오 디코딩 디바이스 (24) 는 오디오 디코딩 디바이스 (24) 가 수행하도록 구성되는 방법을 수행하거나 또는 그렇지 않으면 그 방법의 각각의 단계를 수행하기 위한 수단을 포함할 수도 있다는 것을 이해해야 한다. 일부 경우들에서, 수단은 하나 이상의 프로세서들을 포함할 수도 있다. 일부 경우들에서, 하나 이상의 프로세서들은 비일시적 컴퓨터 판독가능 저장 매체에 저장된 명령들에 의해 구성된 특수 목적 프로세서를 표현할 수도 있다. 다시 말해, 인코딩 예들의 세트들 각각에서 기법들의 다양한 양태들은, 실행될 때, 하나 이상의 프로세서들로 하여금 오디오 디코딩 디바이스 (24) 가 수행하도록 구성된 방법을 수행하게 하는 명령들을 저장한 비일시적 컴퓨터 판독가능 저장 매체를 제공할 수도 있다.
제한이 아닌 예로서, 이러한 컴퓨터 판독가능 저장 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 플래시 메모리, 또는 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 저장하는데 이용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 그러나, 컴퓨터 판독가능 저장 매체들 및 데이터 저장 매체들은 연결부들, 캐리어 파들, 신호들, 또는 다른 일시적 매체들을 포함하는 것이 아니라, 그 대신에 비일시적, 유형의 저장 매체들에 관한 것이라는 것을 이해해야 한다. 디스크 (disk) 및 디스크 (disc) 는, 본 명세서에서 사용된 바와 같이, 콤팩트 디스크 (CD), 레이저 디스크, 광 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크 및 블루레이 디스크를 포함하며, 여기서 디스크 (disk) 들은 데이터를 자기적으로 보통 재생하지만, 디스크 (disc) 들은 레이저로 데이터를 광학적으로 재생한다. 또한, 상기의 조합들도 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.
명령들은 하나 이상의 디지털 신호 프로세서 (DSP) 들, 범용 마이크로프로세서들, 주문형 집적 회로 (ASIC) 들, 필드 프로그램가능 로직 어레이 (FPGA) 들, 또는 다른 등가의 집적 또는 이산 로직 회로부와 같은 하나 이상의 프로세서들에 의해 실행될 수도 있다. 이에 따라, 본 명세서에서 사용된 바와 같은 용어 "프로세서" 는 전술한 구조, 또는 본 명세서에서 기술되는 기법들의 구현에 적합한 임의의 다른 구조 중 임의의 것을 지칭할 수도 있다. 부가적으로, 일부 양태들에서는, 본 명세서에서 기술된 기능성이 인코딩 및 디코딩을 위해 구성되거나 조합된 코덱 내에 포함되는 전용 하드웨어 및/또는 소프트웨어 모듈들 내에 제공될 수도 있다. 또한, 기법들은 하나 이상의 회로들 또는 로직 엘리먼트들에서 완전히 구현될 수 있다.
본 개시물의 기법들은 무선 핸드셋, 집적 회로 (IC) 또는 IC들의 세트 (예를 들어, 칩셋) 를 포함하는 광범위한 디바이스들 또는 장치들에서 구현될 수도 있다. 다양한 컴포넌트들, 모듈들, 또는 유닛들은 개시된 기법들을 수행하도록 구성된 디바이스들의 기능적 양태들을 강조하기 위해 본 개시물에서 기술되지만, 상이한 하드웨어 유닛들에 의한 실현을 반드시 요구하지는 않는다. 오히려, 상술된 바와 같이, 다양한 유닛들은 코덱 하드웨어 유닛에 조합될 수도 있거나, 또는 적합한 소프트웨어 및/또는 펌웨어와 함께, 상술된 하나 이상의 프로세서들을 포함하는 상호동작하는 하드웨어 유닛들의 콜렉션에 의해 제공될 수도 있다.
기법들의 다양한 양태들이 기술되었다. 이들 그리고 다른 실시형태들은 다음의 청구항들의 범위 내에 있다.

Claims (30)

  1. 음장 (soundfield) 으로부터 분리된 오디오 채널을 포함하는 상기 음장의 증강된 고차 앰비소닉 (augmented higher-order ambisonic) 표현을 획득하고, 상기 음장의 상기 증강된 고차 앰비소닉 표현 내의 공간 위치로부터 오디오 채널을 추출하도록 구성된 하나 이상의 프로세서들; 및
    상기 오디오 채널을 저장하도록 구성된 메모리
    를 포함하는, 디바이스.
  2. 제 1 항에 있어서,
    상기 공간 위치는 상기 음장의 하부 또는 상기 음장의 상부 중 하나에 위치되는, 디바이스.
  3. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은 추가로, 상기 음장의 벡터-기반 분석에 기초하여 상기 음장 내의 상기 공간 위치를 식별하도록 구성되는, 디바이스.
  4. 제 1 항에 있어서,
    상기 음장의 상기 증강된 고차 앰비소닉 표현은, 상기 음장을 기술하는 복수의 고차 앰비소닉 계수들을 포함하고,
    상기 하나 이상의 프로세서들은, 상기 음장의 증강된 공간 도메인 표현을 획득하도록 상기 복수의 고차 앰비소닉 계수들을 구면 조화 도메인으로부터 공간 도메인으로 변환하고, 상기 음장의 상기 증강된 공간 도메인 표현 내의 공간 위치로부터 상기 오디오 채널을 추출하도록 구성되는, 디바이스.
  5. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은 추가로, 상기 음장의 상기 증강된 고차 앰비소닉 표현을 포함하는 비트스트림으로부터, 상기 오디오 채널이 삽입되었던 공간 위치를 획득하도록 구성되는, 디바이스.
  6. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은 추가로, 상기 음장의 상기 증강된 고차 앰비소닉 표현을 포함하는 비트스트림으로부터, 상기 오디오 채널을 기술하는 정보를 획득하도록 구성되는, 디바이스.
  7. 제 6 항에 있어서,
    상기 오디오 채널을 기술하는 정보는, 브로드캐스터를 식별하는 정보, 상기 오디오 채널에 존재하는 코멘터리가 구사되는 언어를 식별하는 정보 또는 상기 오디오 채널에 존재하는 콘텐츠의 타입을 식별하는 정보 중 하나를 포함하는, 디바이스.
  8. 제 1 항에 있어서,
    상기 분리된 오디오 채널은, 브로드캐스터로부터의 오디오 채널, 비-브로드캐스터에 의해 획득된 오디오 채널, 비-영어 언어로 코멘터리를 제공하는 비-영어 오디오 채널, 및 영어 언어로 코멘터리를 제공하는 영어 오디오 채널 중 하나를 포함하는, 디바이스.
  9. 제 1 항에 있어서,
    상기 음장의 고차 앰비소닉 표현은, 상기 음장의 주변 성분을 기술하는 복수의 고차 앰비소닉 계수들을 포함하는, 디바이스.
  10. 음장으로부터 분리된 오디오 채널을 포함하는 상기 음장의 증강된 고차 앰비소닉 표현을 획득하는 단계; 및
    상기 음장의 상기 증강된 고차 앰비소닉 표현 내의 공간 위치로부터 오디오 채널을 추출하는 단계
    를 포함하는, 방법.
  11. 제 10 항에 있어서,
    상기 공간 위치는 상기 음장의 하부 또는 상기 음장의 상부 중 하나에 위치되는, 방법.
  12. 제 10 항에 있어서,
    상기 음장의 상기 증강된 고차 앰비소닉 표현의 벡터-기반 분석에 기초하여 상기 음장 내의 상기 공간 위치를 식별하는 단계를 더 포함하는, 방법.
  13. 제 10 항에 있어서,
    상기 음장의 상기 증강된 고차 앰비소닉 표현은, 상기 음장을 기술하는 복수의 고차 앰비소닉 계수들을 포함하고,
    상기 오디오 채널을 추출하는 단계는,
    상기 음장의 증강된 공간 도메인 표현을 획득하도록 상기 복수의 고차 앰비소닉 계수들을 구면 조화 도메인으로부터 공간 도메인으로 변환하는 단계; 및
    상기 음장의 상기 증강된 공간 도메인 표현 내의 공간 위치로부터 상기 오디오 채널을 추출하는 단계
    를 포함하는, 방법.
  14. 제 10 항에 있어서,
    상기 음장의 상기 증강된 고차 앰비소닉 표현을 포함하는 비트스트림으로부터, 상기 오디오 채널이 삽입되었던 공간 위치를 나타내는 삽입 정보를 획득하는 단계를 더 포함하고,
    상기 삽입 정보는, 상기 오디오 채널이 삽입되었던 공간 위치를 식별하는 V-벡터를 포함하는, 방법.
  15. 제 10 항에 있어서,
    상기 음장의 상기 증강된 고차 앰비소닉 표현을 포함하는 비트스트림으로부터, 상기 오디오 채널을 기술하는 정보를 획득하는 단계를 더 포함하는, 방법.
  16. 제 15 항에 있어서,
    상기 오디오 채널을 기술하는 정보는, 스포츠캐스터를 식별하는 정보, 상기 오디오 채널에 존재하는 코멘터리가 구사되는 언어를 식별하는 정보 또는 상기 오디오 채널에 존재하는 콘텐츠의 타입을 식별하는 정보 중 하나를 포함하는, 방법.
  17. 제 10 항에 있어서,
    상기 분리된 오디오 채널은, 스포츠캐스터로부터의 오디오 채널, 비-브로드캐스터에 의해 획득된 오디오 채널, 비-영어 언어로 코멘터리를 제공하는 비-영어 오디오 채널, 및 영어 언어로 코멘터리를 제공하는 영어 오디오 채널 중 하나를 포함하는, 방법.
  18. 제 10 항에 있어서,
    상기 음장의 고차 앰비소닉 표현은, 상기 음장의 주변 성분을 기술하는 복수의 고차 앰비소닉 계수들을 포함하는, 방법.
  19. 음장의 고차 앰비소닉 표현을 저장하도록 구성된 메모리; 및
    상기 음장의 상기 고차 앰비소닉 표현으로부터 분리된 오디오 채널을 획득하고, 상기 오디오 채널이 상기 음장으로부터 추출되는 것이 가능해지도록 상기 오디오 채널을 상기 음장 내의 공간 위치에 삽입하도록 구성된 하나 이상의 프로세서들
    을 포함하는, 디바이스.
  20. 제 19 항에 있어서,
    상기 공간 위치는 상기 음장의 하부 또는 상기 음장의 상부 중 하나에 위치되는, 디바이스.
  21. 제 19 항에 있어서,
    상기 하나 이상의 프로세서들은 상기 음장을 분석하여 마스킹에 의해 영향받은 상기 음장 내의 공간 위치를 식별하고, 식별된 상기 공간 위치에 상기 오디오 채널을 삽입하도록 구성되고,
    상기 하나 이상의 프로세서들은 추가로, 상기 음장의 상기 고차 앰비소닉 표현을 포함하는 비트스트림에서, 상기 오디오 채널이 삽입되었던 공간 위치를 특정하도록 구성되는, 디바이스.
  22. 제 19 항에 있어서,
    상기 음장의 상기 고차 앰비소닉 표현은, 상기 음장을 기술하는 복수의 고차 앰비소닉 계수들을 포함하고,
    상기 하나 이상의 프로세서들은 상기 복수의 고차 앰비소닉 계수들을 구면 조화 도메인으로부터 공간 도메인으로 변환하여 상기 음장의 공간 도메인 표현을 획득하고, 상기 음장의 상기 공간 도메인 표현 내의 공간 위치에 상기 오디오 채널을 삽입하여 상기 음장의 증강된 공간 도메인 표현을 획득하며, 상기 음장의 상기 증강된 공간 도메인 표현을 상기 공간 도메인으로부터 다시 상기 구면 조화 도메인으로 변환하여 상기 음장의 증강된 고차 앰비소닉 표현을 획득하도록 구성되는, 디바이스.
  23. 제 19 항에 있어서,
    상기 하나 이상의 프로세서들은 추가로, 상기 음장의 상기 고차 앰비소닉 표현을 포함하는 비트스트림에서, 상기 오디오 채널이 삽입되었던 공간 위치를 특정하도록 구성되는, 디바이스.
  24. 제 19 항에 있어서,
    상기 하나 이상의 프로세서들은 상기 음장을 분석하여 상기 음장 내의 비-돌출 영역들을 식별하고, 식별된 상기 비-돌출 영역들을 제로-아웃 (zero-out) 시키며, 식별된 상기 비-돌출 영역들에 상기 오디오 채널을 삽입하도록 구성되는, 디바이스.
  25. 음장의 고차 앰비소닉 표현으로부터 분리된 오디오 채널을 획득하는 단계; 및
    상기 오디오 채널이 상기 음장으로부터 추출되는 것이 가능해지도록 상기 음장 내의 공간 위치에 상기 오디오 채널을 삽입하는 단계
    를 포함하는, 방법.
  26. 제 25 항에 있어서,
    상기 공간 위치는 상기 음장의 하부 또는 상기 음장의 상부 중 하나에 위치되는, 방법.
  27. 제 25 항에 있어서,
    상기 오디오 채널을 삽입하는 단계는,
    상기 음장을 분석하여 마스킹에 의해 영향받은 상기 음장 내의 공간 위치를 식별하는 단계; 및
    식별된 상기 공간 위치에 상기 오디오 채널을 삽입하는 단계
    를 포함하는, 방법.
  28. 제 25 항에 있어서,
    상기 음장의 상기 고차 앰비소닉 표현은, 상기 음장을 기술하는 복수의 고차 앰비소닉 계수들을 포함하고,
    상기 오디오 채널을 삽입하는 단계는,
    상기 음장의 공간 도메인 표현을 획득하도록 상기 복수의 고차 앰비소닉 계수들을 구면 조화 도메인으로부터 공간 도메인으로 변환하는 단계;
    상기 음장의 증강된 공간 도메인 표현을 획득하기 위해 상기 음장의 상기 공간 도메인 표현 내의 공간 위치에 상기 오디오 채널을 삽입하는 단계; 및
    상기 음장의 증강된 고차 앰비소닉 표현을 획득하기 위해 상기 음장의 상기 증강된 공간 도메인 표현을 상기 공간 도메인으로부터 다시 상기 구면 조화 도메인으로 변환하는 단계
    를 포함하는, 방법.
  29. 제 25 항에 있어서,
    상기 음장의 상기 고차 앰비소닉 표현을 포함하는 비트스트림에서, 상기 오디오 채널이 삽입되었던 공간 위치를 나타내는 삽입 정보를 특정하는 단계를 더 포함하고,
    상기 삽입 정보는, 상기 오디오 채널이 삽입되었던 공간 위치를 식별하는 V-벡터를 포함하는, 방법.
  30. 제 25 항에 있어서,
    상기 오디오 채널을 삽입하는 단계는,
    상기 음장을 분석하여 상기 음장 내의 비-돌출 영역들을 식별하고, 식별된 상기 비-돌출 영역들을 제로-아웃시키는 단계; 및
    식별된 상기 비-돌출 영역들에 상기 오디오 채널을 삽입하는 단계
    를 포함하고,
    상기 방법은, 상기 음장의 상기 고차 앰비소닉 표현을 포함하는 비트스트림에서, 상기 오디오 채널이 삽입되었던 공간 위치를 특정하는 단계를 더 포함하는, 방법.
KR1020167028957A 2014-03-21 2015-03-20 음장들의 디스크립션들로의 오디오 채널들의 삽입 KR20160136361A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201461969011P 2014-03-21 2014-03-21
US61/969,011 2014-03-21
US201461969586P 2014-03-24 2014-03-24
US61/969,586 2014-03-24
US14/663,225 2015-03-19
US14/663,225 US10412522B2 (en) 2014-03-21 2015-03-19 Inserting audio channels into descriptions of soundfields
PCT/US2015/021806 WO2015143355A1 (en) 2014-03-21 2015-03-20 Inserting audio channels into descriptions of soundfields

Publications (1)

Publication Number Publication Date
KR20160136361A true KR20160136361A (ko) 2016-11-29

Family

ID=54143370

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167028957A KR20160136361A (ko) 2014-03-21 2015-03-20 음장들의 디스크립션들로의 오디오 채널들의 삽입

Country Status (6)

Country Link
US (1) US10412522B2 (ko)
EP (1) EP3120351A1 (ko)
JP (1) JP2017513053A (ko)
KR (1) KR20160136361A (ko)
CN (1) CN106104680B (ko)
WO (1) WO2015143355A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
US9536531B2 (en) * 2014-08-01 2017-01-03 Qualcomm Incorporated Editing of higher-order ambisonic audio data
EP3079074A1 (fr) * 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
CN107615767B (zh) * 2015-06-02 2021-05-25 索尼公司 发送装置、发送方法、媒体处理装置、媒体处理方法以及接收装置
EP3209036A1 (en) 2016-02-19 2017-08-23 Thomson Licensing Method, computer readable storage medium, and apparatus for determining a target sound scene at a target position from two or more source sound scenes
US11164606B2 (en) 2017-06-30 2021-11-02 Qualcomm Incorporated Audio-driven viewport selection
CA3069403C (en) * 2017-07-14 2023-05-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
CN117319917A (zh) 2017-07-14 2023-12-29 弗劳恩霍夫应用研究促进协会 使用多点声场描述生成经修改的声场描述的装置及方法
US10972851B2 (en) * 2017-10-05 2021-04-06 Qualcomm Incorporated Spatial relation coding of higher order ambisonic coefficients
GB2575492A (en) * 2018-07-12 2020-01-15 Centricam Tech Limited An ambisonic microphone apparatus
SG11202105719RA (en) 2018-12-07 2021-06-29 Fraunhofer Ges Forschung Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators
US11122386B2 (en) * 2019-06-20 2021-09-14 Qualcomm Incorporated Audio rendering for low frequency effects
US11361776B2 (en) 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US20210006976A1 (en) * 2019-07-03 2021-01-07 Qualcomm Incorporated Privacy restrictions for audio rendering
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010070225A1 (fr) 2008-12-15 2010-06-24 France Telecom Codage perfectionne de signaux audionumeriques multicanaux
EP2540101B1 (en) 2010-02-26 2017-09-20 Nokia Technologies Oy Modifying spatial image of a plurality of audio signals
KR101890229B1 (ko) * 2010-03-26 2018-08-21 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
ES2922639T3 (es) * 2010-08-27 2022-09-19 Sennheiser Electronic Gmbh & Co Kg Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
GB201211512D0 (en) * 2012-06-28 2012-08-08 Provost Fellows Foundation Scholars And The Other Members Of Board Of The Method and apparatus for generating an audio output comprising spartial information
US9190065B2 (en) * 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
WO2014013070A1 (en) 2012-07-19 2014-01-23 Thomson Licensing Method and device for improving the rendering of multi-channel audio signals
US9373335B2 (en) 2012-08-31 2016-06-21 Dolby Laboratories Licensing Corporation Processing audio objects in principal and supplementary encoded audio signals
US9736609B2 (en) 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
US9716959B2 (en) 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients

Also Published As

Publication number Publication date
JP2017513053A (ja) 2017-05-25
US20150271621A1 (en) 2015-09-24
US10412522B2 (en) 2019-09-10
WO2015143355A1 (en) 2015-09-24
EP3120351A1 (en) 2017-01-25
CN106104680B (zh) 2019-08-23
CN106104680A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
US9870778B2 (en) Obtaining sparseness information for higher order ambisonic audio renderers
US9883310B2 (en) Obtaining symmetry information for higher order ambisonic audio renderers
US10412522B2 (en) Inserting audio channels into descriptions of soundfields
KR101962000B1 (ko) 고차 앰비소닉 (hoa) 백그라운드 채널들 간의 상관의 감소
US9847088B2 (en) Intermediate compression for higher order ambisonic audio data
KR102329373B1 (ko) 고차 앰비소닉 오디오 신호들로부터 분해된 코딩 벡터들에 대한 코드북들 선택
US20150243292A1 (en) Order format signaling for higher-order ambisonic audio data
KR101818877B1 (ko) 고차 앰비소닉 오디오 렌더러들에 대한 희소성 정보의 획득
KR20170066400A (ko) Hoa 콘텐츠의 스크린 관련된 적응
KR20170010367A (ko) 고차 앰비소닉 신호들간의 크로스페이딩
US9959876B2 (en) Closed loop quantization of higher order ambisonic coefficients
EP3363213B1 (en) Coding higher-order ambisonic coefficients during multiple transitions
KR101941764B1 (ko) 고차 앰비소닉 오디오 렌더러들에 대한 대칭성 정보의 획득