KR20200014428A - 3차원 오디오 사운드트랙의 인코딩 및 재현 - Google Patents

3차원 오디오 사운드트랙의 인코딩 및 재현 Download PDF

Info

Publication number
KR20200014428A
KR20200014428A KR1020207001900A KR20207001900A KR20200014428A KR 20200014428 A KR20200014428 A KR 20200014428A KR 1020207001900 A KR1020207001900 A KR 1020207001900A KR 20207001900 A KR20207001900 A KR 20207001900A KR 20200014428 A KR20200014428 A KR 20200014428A
Authority
KR
South Korea
Prior art keywords
audio
signal
format
stream
downmix
Prior art date
Application number
KR1020207001900A
Other languages
English (en)
Other versions
KR102374897B1 (ko
Inventor
장-마르크 조트
조란 페조
제임스 디. 존스톤
Original Assignee
디티에스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스, 인코포레이티드 filed Critical 디티에스, 인코포레이티드
Publication of KR20200014428A publication Critical patent/KR20200014428A/ko
Application granted granted Critical
Publication of KR102374897B1 publication Critical patent/KR102374897B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 공간 오디오 사운드트랙을 생성, 인코딩, 송신, 디코딩 및 재현하는 신규의 엔드-투-엔드 해법을 제공한다. 제공되는 사운드트랙 인코딩 포맷은 레가시 서라운드-사운드 인코딩 포맷과 호환되고, 따라서 새로운 포맷으로 인코딩된 사운드트랙이 레가시 포맷에 비하여 품질의 손실 없이 레가시 재생 장비에서 디코딩 및 재현될 수 있다.

Description

3차원 오디오 사운드트랙의 인코딩 및 재현{ENCODING AND REPRODUCTION OF THREE DIMENSIONAL AUDIO SOUNDTRACKS}
관련 출원에 대한 교차 참조
이 출원은 발명자 조트(Jot) 등이 "3차원 오디오 사운드트랙의 인코딩 및 재현"의 명칭으로 2011년 3월 16일자 출원한 미국 가특허 출원 제61/453,461호를 우선권 주장한다.
참조 성명: 연방 정부의 연구/개발 후원
적용되지 않음
기술 분야
본 발명은 오디오 신호의 처리에 관한 것으로, 특히 3차원 오디오 사운드트랙의 인코딩 및 재현(reproduction)에 관한 것이다.
공간적 오디오 재현은 수십 년 동안 오디오 엔지니어 및 소비자 전자제품 산업에서 관심이 있어왔다. 공간적 사운드 재현은 응용 상황(예를 들면, 콘서트 공연, 동영상 극장, 가정용 하이파이 장치, 컴퓨터 디스플레이, 개인용 헤드마운트 디스플레이)에 따라 구성되어야 하는 2-채널 또는 멀티채널 전자 음향 시스템(라우드스피커 또는 헤드폰)을 필요로 하고, 조트, 진-마르크의 "음악, 멀티미디어 및 대화식 인간-컴퓨터 인터페이스용 사운드의 실시간 공간 처리" IRCAM, 1 플레이스 이고르-스트라빈스키 1997[이하, (조트, 1997)이라고 함]에 또한 설명되어 있으며, 이 문헌은 여기에서의 인용에 의해 본원에 통합된다. 이 오디오 재생 시스템 구성과 관련해서, 전송 및 저장을 위해 멀티채널 오디오 신호의 방향성 국지화 큐(localization cue)를 인코딩하기 위해 적합한 기술 또는 포맷이 규정되어야 한다.
공간적으로 인코딩된 사운드트랙은 2개의 상보적인 방법으로 생성될 수 있다:
(a) 동시발생 또는 밀접하게 간격진 마이크로폰 시스템(본질적으로 장면(scene) 내에서 청취자의 가상 위치에 또는 그 부근에 위치된 것)에 의한 기존 사운드 장면의 기록(recording). 이것은 예를 들면 스테레오 마이크로폰 쌍, 더미 헤드, 또는 음장(soundfield) 마이크로폰일 수 있다. 이러한 사운드 픽업 기술은 주어진 위치로부터 포착될 때, 기록된 장면에 존재하는 각각의 음원과 관련된 공간 청각 큐(auditory cue)를 다양한 충실도로 동시에 인코딩할 수 있다.
(b) 가상 사운드 장면의 합성. 이 접근법에서, 각 음원의 국지화 및 실내 효과(room effect)는 개별적인 소스 신호를 수신하고 가상 사운드 장면을 묘사하는 파라미터 인터페이스를 제공하는 신호 처리 시스템의 사용에 의해 인위적으로 재구성된다. 그러한 시스템의 일 예는 전문(professional) 스튜디오 믹싱 콘솔 또는 디지털 오디오 워크스테이션(DAW)이다. 제어 파라미터는 가상의 룸 또는 공간의 음향 특성과 함께 각 소스의 위치, 방위 및 방향성을 포함할 수 있다. 이러한 접근법의 일 예는 도 1A에 도시된 인공 잔향기(aritificial reverberator)과 같은 믹싱 콘솔 및 신호 처리 모듈을 이용하여 기록하는 멀티 트랙의 후처리이다.
동영상 및 홈 비디오 오락 산업을 위한 오디오 기록 및 재현 기술의 개발은 멀티채널 "서라운드 사운드" 기록 포맷(가장 현저한 것은 5.1 및 7.1 포맷임)의 표준화를 가져왔다. 서라운드 사운드 포맷은 오디오 채널 신호가 도 1B에 도시된 "5.1" 표준 레이아웃과 같이, 미리 규정된 지리적 레이아웃에서 청취자 부근의 수평면에 배치된 라우드스피커에 각각 공급되어야 한다는 것을 전제로 한다(여기에서, LF, CF, RF, RS, LS 및 SW는 각각 좌-전면, 중앙-전면, 우-전면, 우-서라운드, 좌-서라운드 및 서브우퍼 라우드스퍼커를 나타낸다). 이러한 가정은 본질적으로, 음원의 근접성 및 수평면 위에서의 그들의 상승(elevation)을 비롯한 자연 음장의 3차원 오디오 큐를 신뢰성있고 정확하게 인코딩 및 재현하는 능력, 및 실내 반향과 같은 음장의 공간적 확산 성분에서의 몰입감을 제한한다.
기록시에 3차원 오디오 큐를 인코딩하기 위한 각종 오디오 기록 포맷이 개발되었다. 이러한 3-D 오디오 포맷은 도 1C에 도시된 NHK 22.2 포맷과 같은 상승된 라우드스피커 채널을 포함한 앰비소닉스(Ambisonics) 및 이산 멀티채널 오디오 포맷을 포함한다. 그러나, 이러한 공간 오디오 포맷은 레가시 컨슈머 서라운드 사운드 재생 장비와 호환되지 않는다. 즉, 이러한 공간 오디오 포맷은 상이한 라우드스피커 레이아웃 지오메트리 및 상이한 오디오 디코딩 기술을 요구한다. 레가시 장비 및 설비와의 비호환성은 기존의 3-D 오디오 포맷의 성공적 전개에 있어서 중요한 장애물이다.
멀티채널 오디오 코딩 포맷
캘리포니아주 칼라바사스에 소재하는 DTS사(DTS, Inc.)로부터의 DTS-ES 및 DTS-HD와 같은 각종의 멀티채널 디지털 오디오 포맷은 레가시 디코더에 의해 디코딩되고 기존 재생 장비에서 재현될 수 있는 후방 호환성 다운믹스(backward-compatible downmix), 및 레가시 디코더에 의해 무시되고 추가 오디오 채널을 구비하는 데이터 스트림 확장을 사운드트랙 데이터 스트림에 포함시킴으로써 이러한 문제점들을 해결한다. DTS-HD 디코더는 이러한 추가의 채널을 복구하고, 후방 호환성 다운믹스에서 그들의 기여(contribution)를 차감하며, 후방 호환성 포맷과는 다른 목표 공간 오디오 포맷으로 이들을 렌더링할 수 있고, 이것은 상승된 라우드스피커 위치를 포함할 수 있다. DTS-HD에서, 후방 호환성 믹스에서 및 목표 공간 오디오 포맷에서 추가 채널의 기여는 믹싱 계수의 집합에 의해 묘사된다(각 라우드스피커 채널마다 1개씩). 사운드트랙이 의도되는 목표 공간 오디오 포맷은 인코딩 단계에서 특정되어야 한다.
이러한 접근법은 레가시 서라운드 사운드 디코더와 호환되는 데이터 스트림의 형태로 멀티채널 오디오 사운드트랙의 인코딩을 가능하게 하고, 1개 또는 수 개의 대안적인 목표 공간 오디오 포맷이 인코딩/생성 단계 중에 또한 선택된다. 이러한 대안적인 목표 포맷은 3차원 오디오 큐의 개선된 재현에 적합한 포맷을 포함할 수 있다. 그러나, 이러한 방식의 한가지 제한점은 다른 목표 공간 오디오 포맷에 대한 동일한 사운드트랙의 인코딩이 새로운 포맷으로 믹싱된 새로운 사운드트랙 버전을 기록 및 인코딩하기 위해 생성 설비로 복귀하는 것을 필요로 한다는 점이다.
객체 기반형 오디오 장면 코딩
객체 기반형 오디오 장면 코딩은 목표 공간 오디오 포맷으로부터 독립적인 사운드트랙 인코딩을 위한 일반적인 해법을 제공한다. 객체 기반형 오디오 장면 코딩 시스템의 일 예는 장면에 대한 MPEG-4 진보형 오디오 이진 포맷(Advanced Audio Binary Format for Scenes, AABIFS)이다. 이 접근법에서, 각각의 소스 신호는 렌더 큐 데이터 스트림과 함께 개별적으로 전송된다. 이 데이터 스트림은 도 1A에 도시된 것과 같은 공간 오디오 장면 렌더링 시스템의 파라미터의 시변 값들을 갖는다. 이 파라미터 집합은 포맷 독립형 오디오 장면 묘사의 형태로 제공될 수 있고, 그래서 사운드트랙은 이 포맷에 따라 렌더링 시스템을 설계함으로써 임의의 목표 공간 오디오 포맷으로 렌더링될 수 있다. 각 소스 신호는 그 관련 렌더 큐와 함께, "오디오 객체"(audio object)를 규정한다. 이 접근법의 중요한 장점은 렌더러(renderer)가 재현 단에서 선택된 임의의 목표 공간 오디오 포맷으로 각 오디오 객체를 렌더링하기 위해 이용가능한 가장 정확한 공간 오디오 합성 기술을 구현할 수 있다는 점이다. 객체 기반형 오디오 장면 코딩 시스템의 다른 하나의 장점은 이 시스템이 리믹싱(remixing), 음악 재해석(예를 들면, 가라오케), 또는 장면의 가상 내비게이션(예를 들면, 게임)을 비롯해서, 디코딩 단계에서 렌더링된 오디오 장면의 상호적인(interactive) 수정을 가능하게 한다는 것이다.
비록 객체 기반형 오디오 장면 코딩이 포맷 독립형 사운드트랙 인코딩 및 재현을 가능하게 하지만, 이 접근법은 2가지의 중요한 제한점을 나타낸다. 즉 (1) 이 접근법은 레가시 컨슈머 서라운드 사운드 시스템과 호환되지 않는다; (2) 이 접근법은 전형적으로 연산적으로 값이 비싼 디코딩 및 렌더링 시스템을 필요로 한다; 및 (3) 이 접근법은 복수의 소스 신호를 별로로 운반하기 위해 높은 전송률 또는 저장 데이터율을 필요로 한다.
멀티채널 공간 오디오 코딩
멀티채널 오디오 신호의 저 비트율 전송 또는 저장의 필요성은 바이노럴 큐 코딩(Binaural Cue Coding, BCC) 및 MPEG 서라운드를 포함한 새로운 주파수-도메인 공간 오디오 코딩(Spatial Audio Coding, SAC)의 개발을 자극하였다. 도 1D에 도시된 예시적인 SAC 기술에 있어서, M-채널 오디오 신호는 최초의 M-채널 신호에 존재하는 채널 간 관계(채널 간 상관 및 레벨 차)를 시간-주파수 도메인에서 묘사하는 공간 큐 데이터 스트림에 의해 수반되는 다운믹스 오디오 신호의 형태로 인코딩된다. 다운믹스 신호는 M개보다 더 적은 오디오 채널을 포함하고 공간 큐 데이터율은 오디오 신호 데이터율에 비하여 작기 때문에, 이 코딩법은 전반적으로 상당한 데이터율 감소를 야기한다. 게다가, 다운믹스 포맷은 레가시 장비와 후방 호환성을 촉진하도록 선택될 수 있다.
미국 특허 출원 제2007/0269603호에 설명된 것과 같은 공간 오디오 장면 코딩(Spatial Audio Scene Coding, SASC)이라고 부르는 상기 접근법의 변형예에 있어서, 디코더에 전송된 시간-주파수 공간 큐 데이터는 포맷 독립형이다. 이것은 인코딩된 사운드트랙 데이터 스트림에서 후방 호환성 다운믹스 신호를 운반하는 능력을 보유하면서 임의의 목표 공간 오디오 포맷으로 공간 재현을 할 수 있게 한다. 그러나, 이 접근법에서, 인코딩된 사운드트랙 데이터는 분리가능한 오디오 객체를 규정하지 않는다. 대부분의 기록에서, 사운드 장면의 상이한 장소에 위치된 복수의 음원들은 시간-주파수 도메인에서 동시발생적이다. 이 경우에, 공간 오디오 디코더는 다운믹스 오디오 신호에서 그들의 기여를 분리할 수 없다. 그 결과, 오디오 재현의 공간 충실도는 공간 국지화 에러에 의해 타협될 수 있다.
공간 오디오 객체 코딩
MPEG 공간 오디오 객체 코딩(Spatial Audio Object Coding, SAOC)은 인코딩된 사운드트랙 데이터 스트림이 시간-주파수 큐 데이터 스트림과 함께 후방 호환성 다운믹스 오디오 신호를 포함한다는 점에서 MPEG-서라운드와 유사하다. SAOC는 복수(M)의 오디오 객체를 모노 또는 2-채널 다운믹스 오디오 신호로 송신하도록 설계된 다중 객체 코딩 기술이다. SAOC 다운믹스 신호와 함께 송신되는 SAOC 큐 데이터 스트림은 각각의 주파수 부대역에서 모노 또는 2-채널 다운믹스 신호의 각각의 객체 입력 신호에 적용되는 믹싱 계수를 묘사하는 시간-주파수 객체 믹스 큐를 포함한다. 게다가, SAOC 큐 데이터 스트림은 오디오 객체가 디코더 측에서 개별적으로 후처리되게 하는 주파수-도메인 객체 분리 큐를 포함한다. SAOC 디코더에서 제공되는 객체 후처리 기능은 객체 기반형 공간 오디오 장면 렌더링 시스템의 능력을 의태하고 복수의 목표 공간 오디오 포맷을 지원한다.
SAOC는 객체 기반형 및 포맷 독립형 3차원 오디오 장면 묘사와 함께 복수의 오디오 객체 신호의 연산적으로 효율적인 공간 오디오 렌더링 및 저 비트율 전송의 방법을 제공한다. 그러나, SAOC 인코딩 스트림의 레가시 능력은 SAOC 오디오 다운믹스 신호의 2-채널 스테레오 재현으로 제한되고, 따라서 기존의 멀티채널 서라운드-사운드 코딩 포맷을 연장하는 데에 적합하지 않다. 더욱이, SAOC 다운믹스 신호는 오디오 객체 신호에서 SAOC 디코더에 적용되는 렌더링 동작이 인위적 반향과 같은 특정 유형의 후처리 효과를 포함하는 경우 렌더링된 오디오 장면을 지각적으로 표시하지 않는다는 점에 주목하여야 한다(이러한 효과는 렌더링 장면에서 가청적이지만 미처리 객체 신호를 내포하는 다운믹스 신호에 동시에 통합되지 않기 때문임).
게다가, SAOC는 SAC 및 SASC 기술과 동일한 제한을 받는다. 즉 SAOC 디코더는 시간-주파수 도메인에서 동시에 발생하는 오디오 객체 신호를 다운믹스 신호에서 충분히 분리할 수 없다. 예를 들면, SAOC 디코더에 의한 객체의 확장적 증폭 또는 감쇠는 전형적으로 렌더링된 장면의 오디오 품질에서 허용불능의 감소를 야기한다.
오락 및 통신에서 공간 오디오 재현의 증가하는 관심 및 활용의 관점에서, 개선된 3차원 오디오 사운드트랙 인코딩 방법 및 관련된 공간 오디오 장면 재현 기술의 필요성이 이 업계에 존재한다.
본 발명은 공간 오디오 사운드트랙을 생성, 인코딩, 송신, 디코딩 및 재현하는 신규의 엔드-투-엔드 해법을 제공한다. 제공되는 사운드트랙 인코딩 포맷은 레가시 서라운드-사운드 인코딩 포맷과 호환되고, 따라서 새로운 포맷으로 인코딩된 사운드트랙이 레가시 포맷에 비하여 품질의 손실 없이 레가시 재생 장비에서 디코딩 및 재현될 수 있다. 본 발명에 있어서, 사운드트랙 데이터 스트림은 후방 호환성 믹스, 및 디코더가 후방 호환성 믹스로부터 제거할 수 있는 추가의 오디오 채널을 포함한다. 본 발명은 사운드트랙을 임의의 목표 공간 오디오 포맷으로 재생할 수 있다. 인코딩 단계에서 목표 공간 오디오 포맷을 특정할 필요는 없고, 목표 공간 오디오 포맷은 후방 호환성 믹스의 레가시 공간 오디오 포맷으로부터 독립적이다. 각각의 추가적인 오디오 채널은 객체 오디오 데이터로서 디코더에 의해 해석되고, 목표 공간 오디오 포맷과 상관없이 사운드트랙에서 오디오 객체의 기여를 인지적으로 묘사하는, 사운드트랙 데이터 스트림으로 송신된 객체 렌더 큐와 관련된다.
본 발명은 사운드트랙의 제작자가 사운드트랙 배송 및 재생 조건(저장 또는 전송 데이터율, 재생 장치의 능력 및 재생 시스템 구성)에 의해서만 제한되는 임의의 목표 공간 오디오 포맷(현재 존재하는 것 또는 미래에 개발되는 것)으로 최대의 가능한 충실도로 렌더링되는 하나 이상의 선택된 오디오 객체를 규정하게 한다. 융통성있는 객체 기반형 3차원 오디오 재현 외에, 제공되는 사운드트랙 인코딩 포맷은 NHK 22.2 포맷 등과 같은 고해상도 멀티채널 오디오 포맷으로 제작된 사운드트랙의 비타협적 후방 및 전방 호환성 인코딩을 가능하게 한다.
본 발명의 일 실시형태에 있어서, 오디오 사운드트랙을 인코딩하는 방법이 제공된다. 이 방법은 물리적 사운드를 나타내는 베이스 믹스 신호; 오디오 사운드트랙의 적어도 하나의 오디오 객체 성분을 각각 가진 적어도 하나의 객체 오디오 신호; 객체 오디오 신호의 믹싱 파라미터를 규정하는 적어도 하나의 객체 믹스 큐 스트림; 객체 오디오 신호의 렌더링 파라미터를 규정하는 적어도 하나의 객체 렌더 큐 스트림을 수신함으로써 시작한다. 이 방법은 오디오 객체 성분을 베이스 믹스 신호와 합성하여 다운믹스 신호를 획득하기 위해 객체 오디오 신호와 객체 믹스 큐 스트림을 활용하는 것으로 이어진다. 이 방법은 사운드트랙 데이터 스트림을 형성하기 위해 다운믹스 신호, 객체 오디오 신호, 렌더 큐 스트림 및 객체 큐 스트림을 다중화하는 것으로 이어진다. 객체 오디오 신호는 다운믹스 신호를 출력하기 전에 제1 오디오 인코딩 프로세서에 의해 인코딩될 수 있다. 객체 오디오 신호는 제1 오디오 디코딩 프로세서에 의해 디코딩될 수 있다. 다운믹스 신호는 다중화되기 전에 제2 오디오 인코딩 프로세서에 의해 인코딩될 수 있다. 제2 오디오 인코딩 프로세서는 손실성(lossy) 디지털 인코딩 프로세서일 수 있다.
본 발명의 대안적인 실시형태에 있어서, 물리적 사운드를 나타내는 오디오 사운드트랙을 디코딩하는 방법이 제공된다. 이 방법은 오디오 장면을 나타내는 다운믹스 신호; 오디오 사운드트랙의 적어도 하나의 오디오 객체 성분을 가진 적어도 하나의 객체 오디오 신호; 객체 오디오 신호의 믹싱 파라미터를 규정하는 적어도 하나의 객체 믹스 큐 스트림; 및 객체 오디오 신호의 렌더링 파라미터를 규정하는 적어도 하나의 객체 렌더 큐 스트림을 가진 사운드트랙 데이터 스트림을 수신함으로써 시작한다. 이 방법은 다운믹스 신호로부터 적어도 하나의 오디오 객체 성분을 부분적으로 제거하여 잔여 다운믹스 신호를 획득하기 위해 객체 오디오 신호와 객체 믹스 큐 스트림을 활용하는 것으로 이어진다. 이 방법은 잔여 다운믹스 신호에 공간 포맷 변환을 적용하여 공간 오디오 포맷을 규정하는 공간 파라미터를 가진 변환된 잔여 다운믹스 신호를 출력하는 것으로 이어진다. 이 방법은 객체 오디오 신호와 객체 렌더 큐 스트림을 활용하여 적어도 하나의 객체 렌더링 신호를 유도하는 것으로 이어진다. 이 방법은 변환된 잔여 다운믹스 신호와 객체 렌더링 신호를 합성하여 사운드트랙 렌더링 신호를 획득함으로써 종료한다. 오디오 객체 성분은 다운믹스 신호로부터 감산될 수 있다. 오디오 객체 성분은 오디오 객체 성분이 다운믹스 신호에서 지각되지 않도록(unnoticeable) 다운믹스 신호로부터 부분적으로 제거될 수 있다. 다운믹스 신호는 인코딩된 오디오 신호일 수 있다. 다운믹스 신호는 오디오 디코더에 의해 디코딩될 수 있다. 객체 오디오 신호는 모노 오디오 신호일 수 있다. 객체 오디오 신호는 적어도 2 채널을 가진 멀티채널 오디오 신호일 수 있다. 객체 오디오 신호는 이산 라우드스피커 피드(discrete loudspeaker-feed) 오디오 채널일 수 있다. 오디오 객체 성분은 오디오 장면의 음성, 악기(instrument), 사운드 효과, 또는 임의의 다른 특성일 수 있다. 공간 오디오 포맷은 청취 환경을 나타낼 수 있다.
본 발명의 대안적인 실시형태에 있어서, 물리적 사운드를 나타내는 베이스 믹스 신호; 오디오 사운드트랙의 적어도 하나의 오디오 객체 성분을 각각 가진 적어도 하나의 객체 오디오 신호; 객체 오디오 신호의 믹싱 파라미터를 규정하는 적어도 하나의 객체 믹스 큐 스트림; 및 객체 오디오 신호의 렌더링 파라미터를 규정하는 적어도 하나의 객체 렌더 큐 스트림을 수신하는 수신기 프로세서를 포함한 오디오 인코딩 프로세서가 제공된다. 인코딩 프로세서는 객체 오디오 신호와 객체 믹스 큐 스트림에 기초하여 오디오 객체 성분을 베이스 믹스 신호와 합성하는 합성 프로세서를 또한 포함하고, 합성 프로세서는 다운믹스 신호를 출력한다. 인코딩 프로세서는 사운드트랙 데이터 스트림을 형성하기 위해 다운믹스 신호, 객체 오디오 신호, 렌더 큐 스트림 및 객체 큐 스트림을 다중화하는 다중화 프로세서를 또한 포함한다. 본 발명의 대안적인 실시형태에 있어서, 오디오 장면을 나타내는 다운믹스 신호; 오디오 장면의 적어도 하나의 오디오 객체 성분을 가진 적어도 하나의 객체 오디오 신호; 객체 오디오 신호의 믹싱 파라미터를 규정하는 적어도 하나의 객체 믹스 큐 스트림; 및 객체 오디오 신호의 렌더링 파라미터를 규정하는 적어도 하나의 객체 렌더 큐 스트림을 수신하는 수신 프로세서를 포함한 오디오 디코딩 프로세서가 제공된다.
오디오 디코딩 프로세서는 객체 오디오 신호와 객체 믹스 큐 스트림에 기초하여 다운믹스 신호로부터 적어도 하나의 오디오 객체 성분을 부분적으로 제거하여 잔여 다운믹스 신호를 출력하는 객체 오디오 프로세서를 또한 포함한다. 오디오 디코딩 프로세서는 잔여 다운믹스 신호에 공간 포맷 변환을 적용하여 공간 오디오 포맷을 규정하는 공간 파라미터를 가진 변환된 잔여 다운믹스 신호를 출력하는 공간 포맷 변환기를 또한 포함한다. 오디오 디코딩 프로세서는 객체 오디오 신호와 객체 렌더 큐 스트림을 처리하여 적어도 하나의 객체 렌더링 신호를 유도하는 렌더링 프로세서를 또한 포함한다. 오디오 디코딩 프로세서는 변환된 잔여 다운믹스 신호와 객체 렌더링 신호를 합성하여 사운드트랙 렌더링 신호를 획득하는 합성 프로세서를 또한 포함한다.
본 발명의 대안적인 실시형태에 있어서, 물리적 사운드를 나타내는 오디오 사운드트랙을 디코딩하는 대안적인 방법이 제공된다. 이 방법은 오디오 장면을 나타내는 다운믹스 신호; 오디오 사운드트랙의 적어도 하나의 오디오 객체 성분을 가진 적어도 하나의 객체 오디오 신호; 및 객체 오디오 신호의 렌더링 파라미터를 규정하는 적어도 하나의 객체 렌더 큐 스트림을 가진 사운드트랙 데이터 스트림을 수신하는 단계와; 다운믹스 신호로부터 적어도 하나의 오디오 객체 성분을 부분적으로 제거하여 잔여 다운믹스 신호를 획득하기 위해 객체 오디오 신호와 객체 렌더 큐 스트림을 활용하는 단계와; 잔여 다운믹스 신호에 공간 포맷 변환을 적용하여 공간 오디오 포맷을 규정하는 공간 파라미터를 가진 변환된 잔여 다운믹스 신호를 출력하는 단계와; 객체 오디오 신호와 객체 렌더 큐 스트림을 활용하여 적어도 하나의 객체 렌더링 신호를 유도하는 단계와; 변환된 잔여 다운믹스 신호와 객체 렌더링 신호를 합성하여 사운드트랙 렌더링 신호를 획득하는 단계를 포함한다.
본 발명은 공간 오디오 사운드트랙을 생성, 인코딩, 송신, 디코딩 및 재현하는 신규의 엔드-투-엔드 해법을 제공한다. 제공되는 사운드트랙 인코딩 포맷은 레가시 서라운드-사운드 인코딩 포맷과 호환되고, 따라서 새로운 포맷으로 인코딩된 사운드트랙이 레가시 포맷에 비하여 품질의 손실 없이 레가시 재생장비에서 디코딩 및 재현될 수 있다.
여기에서 설명하는 각종 실시형태의 상기 및 다른 특징 및 장점은 이하의 설명 및 도면을 참조함으로써 더 잘 이해될 것이고, 도면 전체에 있어서 동일한 번호는 동일한 부분을 나타낸다.
도 1A는 공간 사운드 기록을 기록 또는 재현하기 위한 종래의 오디오 처리 시스템을 보인 블록도이다.
도 1B는 종래의 표준 "5.1" 서라운드-사운드 멀티채널 라우드스피커 레이아웃 구성을 보인 개략적인 상면도이다.
도 1C는 종래의 "NHK 22.2" 3차원 멀티채널 라우드스피커 레이아웃 구성을 보인 개략도이다.
도 1D는 종래의 공간 오디오 코딩, 공간 오디오 장면 코딩 및 공간 오디오 객체 코딩 시스템의 동작을 보인 블록도이다.
도 1은 본 발명의 일 양태에 따른 인코더의 블록도이다.
도 2는 인코더의 일 양태에 따라서 오디오 객체 내포를 수행하는 처리 블록의 블록도이다.
도 3은 인코더의 일 양태에 따른 오디오 객체 렌더러의 블록도이다.
도 4는 본 발명의 일 양태에 따른 디코더의 블록도이다.
도 5는 디코더의 일 양태에 따라서 오디오 객체 제거를 수행하는 처리 블록의 블록도이다.
도 6은 디코더의 일 양태에 따른 오디오 객체 렌더러의 블록도이다.
도 7은 디코더의 일 실시형태에 따른 포맷 변환 방법을 개략적으로 보인 도이다.
도 8은 디코더의 일 실시형태에 따른 포맷 변환 방법을 보인 블록도이다.
첨부 도면과 함께 이하에서 설명하는 상세한 설명은 본 발명의 현재의 양호한 실시형태의 설명으로서 의도되고, 본 발명이 구성되거나 활용될 수 있는 유일한 형태를 나타내는 것으로 의도되지 않는다. 이 설명은 예시된 실시형태와 관련하여 본 발명을 개발하고 동작시키는 기능 및 단계들의 순서를 설명한다. 그러나, 동일하거나 동등한 기능 및 순서들이 본 발명의 정신 및 범위에 포함되는 것으로 또한 의도되는 다른 실시형태에 의해 달성될 수 있다는 것을 이해하여야 한다. 또한, 제1 및 제2 등과 같은 관련 용어들의 사용은 하나의 엔티티와 다른 엔티티를 구별하기 위해서만 사용되고 그러한 엔티티들 간의 임의의 실제 관계 또는 순서를 요구하거나 수반할 필요가 없다는 것을 이해하여야 한다.
일반적 정의
본 발명은 물리적 사운드를 표시하는 신호라고 말할 수 있는 오디오 신호를 처리하는 것과 관련이 있다. 이 신호들은 디지털 전자 신호에 의해 표시된다. 이하의 설명에서 아날로그 파형이 발명의 개념을 설명하기 위해 도시되고 설명되지만, 본 발명의 전형적인 실시형태는 디지털 바이트 또는 워드의 시계열의 관계로 동작할 것이고, 상기 바이트 또는 워드는 아날로그 신호 또는 (궁극적으로) 물리적 사운드의 이산 근사치를 형성한다는 것을 이해하여야 한다. 이산 디지털 신호는 주기적으로 샘플링된 오디오 파형의 디지털 표시에 대응한다. 업계에서 알려져 있는 바와 같이, 균일한 샘플링을 위해, 파형은 적어도 관심 주파수에 대한 나이퀴스트(Nyquist) 샘플링 이론을 만족시키는 비율(rate)로 샘플링되어야 한다. 예를 들면, 전형적인 실시형태에 있어서, 약 44,100 샘플/초의 균일한 샘플링률이 사용될 수 있다. 96 kHz와 같은 더 높은 샘플링률이 대안적으로 사용될 수 있다. 양자화 방식 및 비트 해상도는 업계에 잘 알려진 원리에 따라서 특수 응용의 필요조건을 만족시키도록 선택되어야 한다. 본 발명의 기술 및 장치는 전형적으로 다수의 채널에서 상호 의존적으로 적용될 것이다. 예를 들면, 본 발명의 기술 및 장치는 "서라운드" 오디오 시스템(3개 이상의 채널을 갖는 것)의 상황에서 사용될 수 있다.
여기에서 사용되는 "디지털 오디오 신호" 또는 "오디오 신호"는 단순히 수학적 추상 개념(abstraction)을 묘사하는 것이 아니고, 그 대신에 기계 또는 장치에 의해 검출가능한 물리적 매체에서 구체화되거나 매체에 의해 운반되는 정보를 나타낸다. 이 용어는 기록된 신호 또는 전송된 신호를 포함하고, 펄스 코드 변조(PCM)를 포함한(그러나 PCM으로 한정되는 것은 아님) 임의의 인코딩 형식에 의한 운반을 포함하는 것으로 이해하여야 한다. 출력 또는 입력, 또는 중간 오디오 신호는 미국 특허 제5,974,380; 5,978,762; 및 6,487,535호에 설명되어 있는 것처럼 MPEG, ATRAC, AC3, 또는 DTS 사의 특허 방법을 포함한 각종의 공지된 임의의 방법으로 인코딩 또는 압축될 수 있다. 이 기술에 숙련된 사람에게는 명백한 바와 같이, 그러한 특수 압축 또는 인코딩 방법을 수용하기 위해 계산의 일부 수정이 필요할 수 있다.
본 발명은 오디오 코덱으로서 설명된다. 소프트웨어에서, 오디오 코덱은 주어진 오디오 파일 포맷 또는 스트리밍 오디오 포맷에 따라 디지털 오디오 데이터를 포맷하는 컴퓨터 프로그램이다. 대부분의 코덱은 퀵타임 플레이어, XMMS, 윈앰프(Winamp), 윈도즈 미디어 플레이어, 프로 로직 등과 같은 하나 이상의 멀티미디어 플레이어에 인터페이스 접속하는 라이브러리로서 구현된다. 하드웨어에서, 오디오 코덱은 아날로그 오디오를 디지털 신호로서 인코딩하고 디지털을 다시 아날로그로 디코딩하는 단일 또는 복수의 디바이스를 말한다. 다시 말해서, 오디오 코덱은 동일 클럭에서 동작하는 ADC 및 DAC를 둘 다 포함한다.
오디오 코덱은 DVD 또는 BD 플레이어, TV 튜너, CD 플레이어, 핸드헬드 플레이어, 인터넷 오디오/비디오 장치, 게이밍 콘솔, 이동 전화기 등과 같은 소비자 전자 장치에서 구현될 수 있다. 소비자 전자 장치는 IBM 파워PC, 인텔 펜티엄(x86) 프로세서 등과 같은, 하나 이상의 종래 유형의 프로세서를 나타낼 수 있는 중앙 처리 유닛(CPU)을 포함한다. 랜덤 액세스 메모리(RAM)는 CPU에서 수행된 데이터 처리 동작의 결과를 일시적으로 저장하고, 전형적으로 전용 메모리 채널을 통하여 CPU에 상호접속된다. 소비자 전자 장치는 또한 I/O 버스를 통해 CPU와 통신하는 하드 드라이브와 같은 영구 기억 장치를 포함한다. 테이프 드라이브, 광디스크 드라이브와 같은 다른 유형의 기억 장치가 또한 접속될 수 있다. 그래픽 카드는 비디오 버스를 통해 CPU에 또한 접속되고, 디스플레이 데이터를 나타내는 신호들을 디스플레이 모니터에 전송한다. 키보드 또는 마우스와 같은 외부 주변 데이터 입력 장치는 USB 포트를 통해 오디오 재현 시스템에 접속될 수 있다. USB 제어기는 USB 포트에 접속된 외부 주변 장치에 대하여 CPU로/로부터의 데이터 및 명령어를 변환한다. 프린터, 마이크로폰, 스피커 등과 같은 추가의 장치들이 소비자 전자 장치에 접속될 수 있다.
소비자 전자 장치는 워싱턴주 레드몬드에 소재하는 마이크로소프트 사(Microsoft Corporation)의 윈도즈, 캘리포니아주 쿠퍼티노에 소재하는 애플 사(Apple, Inc.)의 MAC OS, 안드로이드와 같이 모바일 운영 체제용으로 설계된 모바일 그래픽 사용자 인터페이스(GUI)의 각종 버전 등과 같은, GUI를 구비한 운영 체제를 활용할 수 있다. 소비자 전자 장치는 하나 이상의 컴퓨터 프로그램을 실행할 수 있다. 일반적으로, 운영 체제 및 컴퓨터 프로그램은 하드 드라이브를 포함한 하나 이상의 고정식 및/또는 착탈식 데이터 기억 장치와 같은 컴퓨터 판독가능 매체에서 실체적으로 구체화된다. 운영 체제와 컴퓨터 프로그램은 둘 다 CPU에서 실행하기 위해 전술한 데이터 기억 장치로부터 RAM으로 로드될 수 있다. 컴퓨터 프로그램은 CPU에 의해 실행될 때 CPU가 본 발명의 각 단계 또는 특징들을 실행하는 단계들을 수행하게 하는 명령어를 포함할 수 있다.
오디오 코덱은 상이한 여러 가지 구성 및 구조를 가질 수 있다. 이러한 임의의 구성 또는 구조는 본 발명의 범위로부터 벗어나지 않고 쉽게 대체될 수 있다. 이 기술에 통상의 지식을 가진 사람이라면 전술한 시퀀스들이 컴퓨터 판독가능 매체에서 가장 보편적으로 사용되지만, 본 발명의 범위로부터 벗어나지 않고 대체될 수 있는 다른 기존의 시퀀스들이 있다는 것을 인식할 것이다.
오디오 코덱의 일 실시형태의 요소들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 임의 조합으로 구현될 수 있다. 하드웨어로 구현될 때, 오디오 코덱은 하나의 오디오 신호 프로세서에서 사용되거나 각종 처리 컴포넌트들 간에 분산될 수 있다. 소프트웨어로 구현될 때, 본 발명의 실시형태의 요소들은 본질적으로 필요한 작업을 수행하는 코드 세그멘트이다. 소프트웨어는 바람직하게 본 발명의 일 실시형태에서 설명되는 동작을 실행하는 실제 코드, 또는 그 동작을 에뮬레이트 또는 시뮬레이트하는 코드를 포함한다. 프로그램 또는 코드 세그멘트는 프로세서 또는 기계 접근가능 매체에 저장되거나, 전송 매체를 통해 반송파로 구체화되는 컴퓨터 데이터 신호에 의해 또는 반송파에 의해 변조된 신호에 의해 전송될 수 있다. "프로세서 판독가능 또는 접근가능 매체" 또는 "기계 판독가능 또는 접근가능 매체"는 정보를 저장, 전송 또는 전달할 수 있는 임의의 매체를 포함할 수 있다.
프로세서 판독가능 매체의 예로는 전자 회로, 반도체 메모리 소자, 읽기 전용 메모리(ROM), 플래시 메모리, 소거형 ROM(EROM), 플로피 디스켓, 컴팩트 디스크(CD) ROM, 광디스크, 하드 디스크, 광섬유 매체, 고주파수(RF) 링크 등이 있다. 컴퓨터 데이터 신호는 전자 네트워크 채널, 광섬유, 공기, 전자기, RF 링크 등과 같은 전송 매체를 통하여 전파할 수 있는 임의의 신호를 포함할 수 있다. 코드 세그멘트는 인터넷, 인트라넷 등과 같은 컴퓨터 네트워크를 통하여 다운로드될 수 있다. 기계 접근가능 매체는 제조 물품으로 구체화될 수 있다. 기계 접근가능 매체는 기계에 의해 실행될 때 기계로 하여금 뒤에서 설명하는 동작을 수행하게 하는 데이터를 포함할 수 있다. 용어 "데이터"는 여기에서 기계 판독가능 목적으로 인코딩된 임의 유형의 정보를 말한다. 그러므로, 데이터는 프로그램, 코드, 데이터, 파일 등을 포함할 수 있다.
본 발명의 실시형태의 전부 또는 일부는 소프트웨어로 구현될 수 있다. 소프트웨어는 서로 결합된 수 개의 모듈을 구비할 수 있다. 소프트웨어 모듈은 다른 모듈에 결합되어 변수, 파라미터, 독립변수(argument), 포인터 등을 수신하고 및/또는 결과, 갱신 변수, 포인터 등을 생성 또는 전달한다. 소프트웨어 모듈은 또한 플랫폼에서 동작하는 운영 체제와 상호작용하는 소프트웨어 드라이버 또는 인터페이스일 수 있다. 소프트웨어 모듈은 또한 하드웨어 장치로/로부터 데이터를 구성, 설정, 초기화, 전송 및 수신하는 하드웨어 드라이버일 수 있다.
본 발명의 일 실시형태는 일반적으로 플로차트, 흐름도, 구조도, 또는 블록도로서 묘사되는 프로세스로서 설명될 수 있다. 비록 블록도가 순차적 프로세스로서 동작들을 설명하지만, 많은 동작들은 병행해서 또는 동시에 수행될 수 있다. 또한, 동작들의 순서는 재배열될 수 있다. 프로세스는 그 동작들이 완료될 때 종료된다. 프로세스는 방법, 프로그램, 절차 등에 대응할 수 있다.
인코더 개관
이제, 도 1을 참조하면, 인코더의 구현예를 나타내는 개략도가 제공된다. 도 1은 본 발명에 따라서 사운드트랙을 인코딩하는 인코더를 나타낸다. 인코더는 선택된 공간 오디오 포맷으로 기록된 다운믹스 신호(30) 형태의 기록된 사운드트랙을 포함하는 사운드트랙 데이터 스트림(40)을 생성한다. 이하의 설명에서, 상기 공간 오디오 포맷은 다운믹스 포맷으로서 인용된다. 인코더의 양호한 실시형태에 있어서, 다운믹스 포맷은 레가시 컨슈머 디코더와 호환되는 서라운드 사운드 포맷이고, 다운믹스 신호(30)는 디지털 오디오 인코더(32)에 의해 인코딩되며, 이로써 인코딩된 다운믹스 신호(34)를 생성한다. 인코더(32)의 양호한 실시형태는 DTS사의 DTS 디지털 서라운드 또는 DTS-HD와 같은 후방 호환성 멀티채널 디지털 오디오 인코더이다.
추가로, 사운드트랙 데이터 스트림(40)은 적어도 하나의 오디오 객체(이 설명 및 첨부 도면에서 '객체 1'로서 인용됨)를 포함한다. 이하의 설명에서, 오디오 객체는 일반적으로 사운드트랙의 오디오 성분으로서 규정된다. 오디오 객체는 사운드트랙에서 가청인 구별가능한 음원(음성, 악기, 사운드 효과 등)을 나타낼 수 있다. 각각의 오디오 객체는 객체 오디오 신호라고 인용되고 사운드트랙 데이터의 유일한 식별자를 가진 오디오 신호(12a, 12b)를 특징으로 한다. 객체 오디오 신호 외에, 인코더는 선택적으로, 다운믹스 포맷으로 제공되는 멀티채널 베이스 믹스 신호(10)를 수신한다. 이 베이스 믹스는 예를 들면 배경 음악, 기록 환경, 또는 기록 또는 동기화 사운드 장면을 나타낼 수 있다.
다운믹스 신호(30)에서 모든 오디오 객체의 기여는 객체 믹스 큐(16)에 의해 규정되고 오디오 객체 내포 처리 블록(24)에 의해 베이스 믹스 신호(10)와 함께 합성된다(뒤에서 자세히 설명됨). 객체 믹스 큐(16) 외에, 인코더는 객체 렌더 큐(18)를 수신하고, 객체 렌더 큐(18)를 객체 믹스 큐(16)와 함께 큐 인코더(36)를 통해 사운드트랙 데이터 스트림(40)에 포함시킨다. 렌더 큐(18)는 상보 디코더(뒤에서 설명됨)로 하여금 다운믹스 포맷과는 다른 목표 공간 오디오 포맷으로 오디오 객체를 렌더링하게 한다. 본 발명의 양호한 실시형태에 있어서, 렌더 큐(18)는 포맷 독립형이고, 그래서 디코더는 사운드트랙을 임의의 목표 공간 오디오 포맷으로 렌더링한다. 본 발명의 일 실시형태에 있어서, 객체 오디오 신호(12a, 12b), 객체 맥스 큐(16), 객체 렌더 큐(18) 및 베이스 믹스(10)는 사운드트랙의 제작 중에 운용자에 의해 제공된다.
각각의 객체 오디오 신호(12a, 12b)는 모노 또는 멀티채널 신호로서 제공될 수 있다. 양호한 실시형태에 있어서, 객체 오디오 신호(12a, 12b)의 일부 또는 전부와 다운믹스 신호(30)는 인코딩된 사운드트랙(40)의 전송 또는 저장에 필요한 데이터율을 감소시키기 위해, 사운드트랙 데이터 스트림(40)에 포함시키기 전에 저 비트율 오디오 인코더(20a-20b, 32)에 의해 인코딩된다. 양호한 실시형태에 있어서, 손실성 저 비트율 디지털 오디오 인코더(20a)를 통하여 전송된 객체 오디오 신호(12a-12b)는 오디오 객체 내포 처리 블록(24)에 의해 처리하기 전에 상보 디코더(22a)에 의해 후속적으로 디코딩된다. 이것은 디코더 측의 다운믹스로부터 객체 기여의 정확한 제거를 가능하게 한다(뒤에서 설명됨).
이어서, 인코딩된 오디오 신호(22a-22b, 34) 및 인코딩된 큐(38)는 블록(42)에 의해 다중화되어 사운드트랙 데이터 스트림(40)을 형성한다. 멀티플렉서(42)는 공유 매체를 통한 전송 또는 저장을 위해 디지털 데이터 스트림(22a-22b, 34, 38)을 단일 데이터 스트림(40)으로 합성한다. 다중화 데이터 스트림(40)은 물리적 전송 매체일 수 있는 통신 채널을 통해 전송된다. 다중화는 저 수준 통신 채널의 용량을 각 데이터 스트림에 대하여 하나씩 전송되는 수 개의 고 수준 논리 채널로 분할한다. 역다중화(demultiplexing)라고 알려져 있는 역의 처리는 디코더 측에서 최초 데이터 스트림을 추출할 수 있다.
오디오 객체 내포
도 2는 본 발명의 양호한 실시형태에 따른 오디오 객체 내포 처리 모듈을 보인 것이다. 오디오 객체 내포 모듈(24)은 객체 오디오 신호(26a-26b)와 객체 믹스 큐(16)를 수신하고, 이들을 오디오 객체 렌더러(44)에 전송하며, 오디오 객체 렌더러(44)는 오디오 객체들을 오디오 객체 다운믹스 신호(46)로 합성한다. 오디오 객체 다운믹스 신호(46)는 다운믹스 포맷으로 제공되고, 베이스 믹스 신호(10)와 합성되어 사운드트랙 다운믹스 신호(30)를 생성한다. 각각의 객체 오디오 신호(26a-26b)는 모노 또는 멀티채널 신호로서 제공될 수 있다. 발명의 일 실시형태에 있어서, 멀티채널 객체 신호는 복수의 단일 채널 객체 신호로서 취급된다.
도 3은 본 발명의 실시형태에 따른 오디오 객체 렌더러 모듈을 보인 것이다. 오디오 객체 렌더러 모듈(44)은 객체 오디오 신호(26a-26b)와 객체 믹스 큐(16)를 수신하고, 객체 다운믹스 신호(46)를 유도한다. 오디오 객체 렌더러(44)는 예컨대 (조트, 1977)에 설명된 바와 같이 업계에 잘 알려진 원리에 따라 동작하여 각각의 객체 오디오 신호(26a-26b)를 오디오 객체 다운믹스 신호(46)로 믹싱한다. 믹싱 동작은 믹스 큐(16)에 의해 제공된 명령어에 따라 수행된다. 각각의 객체 오디오 신호(26a, 26b)는 객체 다운믹스 신호(46)를 청취할 때 인지되는 바와 같이, 오디오 객체에 방향성 국지화를 지정하는 공간 패닝 모듈(각각 48a, 48b)에 의해 처리된다. 다운믹스 신호(46)는 객체 신호 패닝 모듈(48a-48b)의 출력 신호를 추가로 합성함으로써 형성된다. 렌더러의 양호한 실시형태에 있어서, 다운믹스 신호(46)에서 각각의 객체 오디오 신호(26a-26b)의 직접적인 기여는 사운드트랙에서 각 오디오 객체의 상대적 음량(loudness)을 조절하기 위해 직접 전송 계수(도 3에서 d1-dn으로 표시됨)에 의해 또한 조정된다.
렌더러의 일 실시형태에 있어서, 객체 패닝 모듈(48a)은 패닝 모듈 출력 신호를 청취할 때 인지되는 바와 같이, 제어가능한 중심 방향 및 제어가능한 공간 범위를 가진 공간적으로 확장된 음원으로서 객체를 렌더링할 수 있게 하기 위해 구성된다. 공간적으로 확장된 소스를 재생하는 방법은 업계에 잘 알려져 있고, 예를 들면, 2006년 10월 5-8일에 개최된 121차 AES 총회에서 제시된 조트, 진-마르크 등의 "대화식 오디오의 복합 음향 장면의 바이노럴 시뮬레이션"[이하, (조트, 2006)이라고 함]에 설명되어 있으며, 이 문헌은 여기에서의 인용에 의해 본원에 통합된다. 오디오 객체와 관련된 공간 범위는 공간적으로 확산하는 음원(즉, 청취자를 포위하는 음원)의 감각을 재현하도록 설정될 수 있다.
선택적으로, 오디오 객체 렌더러(44)는 하나 이상의 오디오 객체에 대하여 간접 오디오 객체 기여를 생성하도록 구성된다. 이 구성에서, 다운믹스 신호(46)는 공간 반사 모듈의 출력 신호를 또한 포함한다. 오디오 객체 렌더러(44)의 양호한 실시형태에 있어서, 공간 반사 모듈은 인공 잔향기(50)의 출력 신호(52)에 공간 패닝 모듈(54)을 적용함으로써 형성된다. 패닝 모듈(54)은 신호(52)를 다운믹스 포맷으로 변환하고, 선택적으로, 다운믹스 신호(30)를 청취할 때 인지되는 바와 같이, 오디오 반사 출력 신호(52)에 방향성 강조를 제공한다. 인공 잔향기(50) 및 잔향 패닝 모듈(54)을 설계하는 종래의 방법은 업계에 잘 알려져 있고 본 발명에서 사용될 수 있다. 대안적으로, 처리 모듈(50)은 오디오 기록의 생성시에 통상적으로 사용되는 다른 유형의 디지털 오디오 처리 효과 알고리즘(예를 들면, 에코 효과, 플랜저 효과, 또는 링 변조기 효과 등)일 수 있다. 모듈(50)은 객체 오디오 신호(26a-26b)의 조합을 수신하고, 여기에서 각 객체 오디오 신호는 간접 전송 계수(도 3에서는 r1-rn으로 표시됨)에 의해 조정된다.
추가로, 각 오디오 객체에 의해 표시되는 가상 음원의 방향성 및 방위의 가청 효과, 및 가상 오디오 장면에서 음향 장애물 및 파티션의 효과를 시뮬레이트하기 위해, 직접 전송 계수(d1-dn) 및 간접 전송 계수(r1-rn)를 디지털 필터로서 실현하는 것이 업계에 잘 알려져 있다. 이것은 (조트, 2006)에 또한 설명되어 있다. 본 발명의 일 실시형태에 있어서, 도 3에는 도시되어 있지 않지만, 객체 오디오 렌더러(44)는 복합 음향 환경을 시뮬레이트하기 위해, 병렬로 관련되고 상이한 객체 오디오 신호의 조합에 의해 공급되는 수 개의 공간 반사 모듈을 포함한다.
오디오 객체 렌더러(44)의 신호 처리 동작은 믹스 큐(16)에 의해 제공되는 명령어에 따라 수행된다. 믹스 큐(16)의 예로는 다운믹스 신호(30)의 각 채널에 대한 각 객체 오디오 신호(26a-26b)의 기여를 묘사하는, 패닝 모듈(48a-48b)에서 적용되는 믹싱 계수가 있다. 더 일반적으로, 객체 믹스 큐 데이터 스트림(16)은 오디오 객체 렌더러(44)에 의해 수행되는 모든 신호 처리 동작을 유일하게 결정하는 제어 파라미터의 집합의 시변 값을 갖는다.
디코더 개관
이제, 도 4를 참조하면, 본 발명의 실시형태에 따른 디코더 처리가 도시되어 있다. 디코더는 인코딩된 사운드트랙 데이터 스트림(40)을 입력으로서 수신한다. 디멀티플렉서(56)는 인코딩된 입력(40)을 분리하여 인코딩된 다운믹스 신호(34), 인코딩된 객체 오디오 신호(14a-14c), 및 인코딩된 큐 스트림(38d)을 복구한다. 각각의 인코딩된 신호 및/또는 스트림은 사운드트랙 데이터 스트림(40)을 생성하기 위해 사용된, 도 1과 관련하여 설명한 사운드트랙 인코더에서 대응하는 신호 및/또는 스트림을 인코딩하기 위해 사용된 인코더에 상보적으로, 디코더(각각 58, 62a-62c, 64)에 의해 디코딩된다.
디코딩된 다운믹스 신호(60), 객체 오디오 신호(26a-26c) 및 객체 믹스 큐 스트림(16d)은 오디오 객체 제거 모듈(66)에 제공된다. 신호들(60, 26a-26c)은 믹싱 및 필터링 동작을 허용하는 임의의 형식으로 표시된다. 예를 들면, 특수 응용에 대하여 충분한 비트 깊이를 갖는 선형 PCM이 적절하게 사용될 수 있다. 오디오 객체 제거 모듈(66)은 오디오 객체 기여가 정확하게, 부분적으로, 또는 실질적으로 제거된 잔여 다운믹스 신호(68)를 생성한다. 잔여 다운믹스 신호(68)는 포맷 변환기(78)에 제공되고, 포맷 변환기(78)는 목표 공간 오디오 포맷의 재현에 적합한 변환된 잔여 다운믹스 신호(80)를 생성한다.
추가로, 디코딩된 객체 오디오 신호(26a-26c) 및 객체 렌더 큐 스트림(18d)은 오디오 객체 렌더러(70)에 제공되고, 오디오 객체 렌더러(70)는 목표 공간 오디오 포맷의 오디오 객체 기여의 재현에 적합한 객체 렌더링 신호(76)를 생성한다. 객체 렌더링 신호(76) 및 변환된 잔여 다운믹스 신호(80)는 합성되어 목표 공간 오디오 포맷의 사운드트랙 렌더링 신호(84)를 생성한다. 본 발명의 일 실시형태에 있어서, 출력 후처리 모듈(86)은 선택적인 후처리를 사운드트랙 렌더링 신호(84)에 적용한다. 본 발명의 일 실시형태에 있어서, 모듈(86)은 주파수 응답 보정, 음량 또는 동적 범위 보정, 추가의 공간 오디오 포맷 변환 등과 같이, 오디오 재현 시스템에 공통적으로 적용가능한 후처리를 포함한다.
이 기술에 숙련된 사람이라면 목표 공간 오디오 포맷과 호환되는 사운드트랙 재현이 디코딩된 다운믹스 신호(60)를 오디오 객체 제거 모듈(66) 및 오디오 객체 렌더러(70)를 생략하고 포맷 변환기(78)에 직접 전송함으로써 달성될 수 있다는 것을 쉽게 이해할 것이다. 대안적인 실시형태에 있어서, 포맷 변환기(78)는 생략되거나 후처리 모듈(80)에 포함된다. 이러한 변형 실시형태는 다운믹스 포맷 및 목표 공간 오디오 포맷이 동등한 것으로 간주되고 오디오 객체 렌더러(70)가 디코딩 측에서 사용자 대화의 목적으로 단독으로 사용되는 경우에 적합하다.
다운믹스 포맷과 목표 공간 오디오 포맷이 동등하지 않은 발명의 응용에 있어서, 오디오 재생 시스템의 특수 구성에 정합되는 객체 렌더링 방법을 오디오 객체 렌더러(70)에서 사용함으로써 오디오 객체 기여가 최적의 충실도 및 공간 정확성을 갖고서 재현될 수 있도록 오디오 객체 렌더러(70)가 오디오 객체 기여를 목표 공간 포맷으로 직접 렌더링하는 것이 특히 유리하다. 이 경우에, 객체 렌더링이 목표 공간 오디오 포맷으로 이미 제공되어 있기 때문에, 다운믹스 신호를 객체 렌더링 신호(76)와 합성하기 전에 잔여 다운믹스 신호(68)에 포맷 변환이 적용된다.
다운믹스 신호(34)와 오디오 객체 제거 모듈(66)의 제공은, 만일 사운드트랙의 모든 가청 이벤트들이 종래의 객체 기반형 장면 코딩에서처럼 렌더 큐(18d)에 의해 수반되는 객체 오디오 신호(14a-14c)의 형태로 디코더에 제공되면, 목표 공간 오디오 포맷으로 사운드트랙을 렌더링에 필요하지 않다. 사운드트랙 데이터 스트림에 인코딩된 다운믹스 신호(34)를 포함시키는 특수한 장점은 사운드트랙 데이터 스트림에서 제공된 객체 신호 및 큐를 버리거나 무시하는 레가시 사운드트랙 디코더를 이용한 후방 호환성 재현을 가능하게 한다는 점이다.
또한, 디코더에서 오디오 객체 제거 기능을 통합하는 특수한 장점은 오디오 객체 제거 단계(66)에 의해 오디오 객체로서 가청 이벤트의 선택된 부분집합만을 전송, 제거 및 렌더링하는 동안 사운드트랙을 구성하는 모든 가청 이벤트를 재현할 수 있고, 이로써 전송 데이터율 및 디코더 복잡성 필요조건을 크게 감소시킨다는 것이다. 본 발명의 대안적인 실시형태(도 4에는 도시되지 않음)에 있어서, 오디오 객체 렌더러(70)에 전송된 객체 오디오 신호 중의 하나(26a)는 소정의 시구간 동안 다운믹스 신호(60)의 오디오 채널 신호와 동일하다. 이 경우에, 동일한 시구간 동안, 그 객체에 대한 오디오 객체 제거 동작(66)은 단순히 다운믹스 신호(60)의 오디오 채널 신호의 뮤팅으로 구성되고, 이것은 객체 오디오 신호(14a)를 수신 및 디코딩하는데 불필요하다. 이것은 전송 데이터율 및 디코더 복잡성을 더욱 감소시킨다.
양호한 실시형태에 있어서, 전송 데이터율 또는 사운드트랙 재생 장치 연산 능력이 제한된 때, 디코더 측(도 4)에서 디코딩 및 렌더링된 객체 오디오 신호(14a-14c)의 집합은 인코더 측(도 1)에서 인코딩된 객체 오디오 신호(14a-14c)의 집합의 불완전 부분집합이다. 하나 이상의 객체가 멀티플렉서(42)에서 버려질 수 있고(이로써 전송 데이터율이 감소한다), 및/또는 디멀티플렉서(56)에서 버려질 수 있다(이로써 디코더 연산 필요조건이 감소한다). 선택적으로, 전송 및/또는 렌더링을 위한 객체 선택은 우선순위화 방식에 의해 자동으로 결정될 수 있고, 이것에 의해 각 객체는 큐 데이터 스트림(38/38d)에 포함된 우선순위 큐가 지정된다.
오디오 객체 제거
이제, 도 4 및 도 5를 참조하면, 본 발명의 실시형태에 따른 오디오 객체 제거 처리 모듈이 도시되어 있다. 오디오 객체 제거 처리 모듈(66)은 렌더링될 객체들의 선택된 집합에 대하여, 인코더에서 제공된 오디오 객체 내포 모듈의 역동작을 수행한다. 이 모듈은 객체 오디오 신호(26a-26c) 및 관련 객체 믹스 큐(16d)를 수신하고, 이들을 오디오 객체 렌더러(44d)에 전송한다. 오디오 객체 렌더러(44d)는 렌더링될 객체들의 선택된 집합에 대하여, 도 3과 관련하여 이미 설명한 인코딩 측에서 제공된 오디오 객체 렌더러(44)에서 수행된 신호 처리 동작을 되풀이한다. 오디오 객체 렌더러(44d)는 선택된 오디오 객체를 오디오 객체 다운믹스 신호(46d)로 합성하고, 오디오 객체 다운믹스 신호(46d)는 다운믹스 포맷으로 제공되고 다운믹스 신호(60)로부터 감산되어 잔여 다운믹스 신호(68)를 생성한다. 선택적으로, 오디오 객체 제거는 또한 오디오 객체 렌더러(44d)에 의해 제공되는 반향 출력 신호(52d)를 출력한다.
오디오 객체 제거는 정확한 감산을 행할 필요가 없다. 오디오 객체 제거(66)의 목적은 객체들의 선택된 집합을 잔여 다운믹스 신호(68)를 청취할 때 실질적으로 또는 인지적으로 지각되지 않게 하는 것이다. 그러므로, 다운믹스 신호(60)는 무손실 디지털 오디오 포맷으로 인코딩될 필요가 없다. 만일 다운믹스 신호(60)가 손실성 디지털 오디오 포맷으로 인코딩 및 디코딩되면, 디코딩된 다운믹스 신호(60)로부터 오디오 객체 다운믹스 신호(46d)의 산술적 감산은 오디오 객체 기여를 잔여 다운믹스 신호(68)로부터 정확히 제거하지 못할 수 있다. 그러나, 이 에러는 에러가 객체 렌더링 신호(76)를 사운드트랙 렌더링 신호(84)에 후속적으로 합성한 결과로서 실질적으로 마스크되기 때문에, 사운드트랙 렌더링 신호(84)를 청취할 때 실질적으로 지각되지 않는다.
그러므로, 본 발명에 따른 디코더의 실현은 손실성 오디오 디코더 기술을 이용한 다운믹스 신호(34)의 디코딩을 방해하지 않는다. 사운드트랙 데이터를 전송하기 위해 필요한 데이터율은 다운믹스 신호(30)(도 1)를 인코딩하기 위해 다운믹스 오디오 인코더(32)에서 손실성 디지털 오디오 코덱을 채용함으로써 크게 감소될 수 있는 것이 유리하다. 또한, 다운믹스 신호(34)가 무손실 포맷으로 전송되는 경우에도, 다운믹스 신호(34)의 손실성 디코딩을 수행함으로써 다운믹스 오디오 디코더(58)의 복잡성이 감소되는 것이 유리하다(예를 들면, 고선명 또는 무손실 DTS-HD 포맷으로 전송된 다운믹스 신호 데이터 스트림의 DTS 코어 디코딩).
오디오 객체 렌더링
도 6은 객체 렌더러 모듈(70)의 양호한 실시형태를 보인 것이다. 오디오 객체 렌더러 모듈(70)은 객체 오디오 신호(26a-26c) 및 객체 렌더러 큐(18d)를 수신하고, 객체 렌더링 신호(76)를 유도한다. 오디오 객체 렌더러(70)는, 도 3에 도시된 오디오 객체 렌더러(44)와 관련하여 위에서 살펴본 것처럼, 업계에 잘 알려진 원리에 따라 동작하여 각각의 객체 오디오 신호(26a-26c)를 오디오 객체 렌더링 신호(76)로 믹싱한다. 각각의 객체 오디오 신호(26a-26c)는 객체 렌더링 신호(76)를 청취할 때 인지되는 것처럼 오디오 객체에 방향성 국지화를 지정하는 공간 패닝 모듈(90a, 90c)에 의해 처리된다. 객체 렌더링 신호(76)는 패닝 모듈(90a-90c)의 출력 신호를 추가로 합성함으로써 형성된다. 객체 렌더링 신호(76)에서 각 객체 오디오 신호(26a-26c)의 직접 기여는 직접 전송 계수(d1, dm)에 의해 조정된다. 추가로, 객체 렌더링 신호(76)는 잔향 패닝 모듈(92)의 출력 신호를 포함하고, 잔향 패닝 모듈(92)은 오디오 객체 제거 모듈(66)에 내포된 오디오 객체 렌더러(44d)에 의해 제공된 반향 출력 신호(52d)를 수신한다.
본 발명의 일 실시형태에 있어서, 오디오 객체 렌더러(44d)(도 5에 도시된 오디오 객체 제거 모듈(66) 내에 있는 것)에 의해 생성된 오디오 객체 다운믹스 신호(46d)는 오디오 객체 렌더러(44)(도 2에 도시된 오디오 객체 내포 모듈(24) 내에 있는 것)에 의해 생성된 오디오 객체 다운믹스 신호(46)에 내포된 간접 오디오 객체 기여를 포함하지 않는다. 이 경우에, 간접 오디오 객체 기여는 잔여 다운믹스 신호(68)에 잔류하고, 반향 출력 신호(52d)는 제공되지 않는다. 본 발명의 사운드트랙 디코더 객체의 이 실시형태는 오디오 객체 렌더러(44d)에서 반향 처리를 요구하지 않고 직접 객체 기여의 개선된 위치적 오디오 렌더링을 제공한다.
오디오 객체 렌더러 모듈(70)의 신호 처리 동작은 렌더 큐(18d)에 의해 제공된 명령어에 따라 수행된다. 패닝 모듈(90a-90c, 92)은 목표 공간 오디오 포맷 정의(74)에 따라 구성된다. 발명의 양호한 실시형태에 있어서, 렌더 큐(18d)는 포맷 독립형 오디오 장면 묘사의 형태로 제공되고, 패닝 모듈(90a-90c, 92) 및 전송 계수(d1, dm)를 포함한 오디오 객체 렌더러 모듈(70)에서의 모든 신호 처리 동작은 객체 렌더링 신호(76)가 선택된 목표 공간 오디오 포맷과 상관없이 동일한 인지된 공간 오디오 장면을 재현하도록 구성된다. 발명의 양호한 실시형태에 있어서, 이 오디오 장면은 객체 다운믹스 신호(46d)에 의해 재현된 오디오 장면과 동일하다. 그러한 실시형태에 있어서, 렌더 큐(18d)는 오디오 객체 렌더러(44d)에 제공된 믹스 큐(16d)를 유도 또는 교체하기 위해 사용될 수 있고; 유사하게, 렌더 큐(18)는 오디오 객체 렌더러(44)에 제공된 믹스 큐(16)를 유도 또는 교체하기 위해 사용될 수 있으며, 따라서, 객체 믹스 큐(16, 16d)는 제공될 필요가 없다.
발명의 양호한 실시형태에 있어서, 포맷 독립형 객체 렌더 큐(18, 18d)는 오디오 장면에서 청취자의 가상 위치 및 방위에 절대적 또는 상대적인 직교좌표 또는 극좌표로 표현되는 각 오디오 객체의 인지된 공간 위치를 포함한다. 포맷 독립형 렌더 큐의 대안적인 예는 오픈AL 또는 MPEG-4 어드반스드 오디오 BIFS와 같은 각종 오디오 장면 묘사 표준에서 제공된다. 이러한 장면 묘사 표준은 특히 전송 계수(도 3 및 도 5의 d1-dm 및 r1-rn)의 값 및 인공 잔향기(50) 및 잔향 패닝 모듈(54, 92)의 처리 파라미터를 유일하게 결정하기에 충분한 반향 및 거리 큐를 포함한다.
본 발명의 디지털 오디오 사운드트랙 인코더 및 디코더 객체는 다운믹스 포맷과는 다른 멀티채널 오디오 소스 포맷으로 최초에 제공된 오디오 기록의 후방 호환성 및 전방 호환성 인코딩에 유리하게 적용될 수 있다. 소스 포맷은 예를 들면 NHK 22.2 포맷과 같은 고해상도 이산 멀티채널 오디오 포맷일 수 있고, 각 채널 신호는 라우드스피커 피드 신호로서 의도된다. 이것은 최초 기록의 각 채널 신호를 소스 포맷의 대응하는 라우드스피커의 적당한 위치를 표시하는 객체 렌더 큐에 의해 수반되는 별개의 객체 오디오 신호로서 사운드트랙 인코더(도 1)에 제공함으로써 달성될 수 있다. 만일 멀티채널 오디오 소스 포맷이 다운믹스 포맷(추가의 오디오 채널을 포함함)의 수퍼세트(superset)이면, 소스 포맷의 각각의 추가적인 오디오 채널은 본 발명에 따라서 추가 오디오 객체로서 인코딩될 수 있다.
본 발명에 따른 인코딩 및 디코딩 방법의 다른 장점은 재현된 오디오 장면의 선택적 객체 기반형 수정이 가능하다는 것이다. 이것은 도 6에 도시된 것처럼 사용자 대화 큐(72)에 따라 오디오 객체 렌더러(70)에서 수행되는 신호 처리를 제어함으로써 달성되고, 이것은 객체 렌더 큐(18d)의 일부를 수정하거나 무시(override)할 수 있다. 그러한 사용자 대화의 예로는 음악 리믹싱(remixing), 가상 소스의 재위치결정, 및 오디오 장면에서의 가상 내비게이션이 있다. 발명의 일 실시형태에 있어서, 큐 데이터 스트림(38)은 음원의 성질(예를 들면, '대화' 또는'사운드 효과')을 표시하거나 오디오 객체의 집합을 그룹(전체로서 관리될 수 있는 복합 객체)으로서 규정하는, 객체에 관련된 음원을 식별하는 속성(예를 들면, 캐릭터 명 또는 악기 명)을 비롯해서, 각 객체에 유일하게 지정된 객체 속성을 포함한다. 그러한 객체 속성을 큐 스트림에 포함시키면 대화 명료도 강화(오디오 객체 렌더러(70)에서 대화 객체 오디오 신호에 특수 처리를 적용하는 것)와 같은 추가적인 응용이 가능하다.
본 발명의 다른 실시형태(도 4에는 도시되지 않음)에 있어서, 선택된 객체가 다운믹스 신호(68)로부터 제거되고 대응하는 객체 오디오 신호(26a)가 별도로 수신된 다른 오디오 신호로 교체되어 오디오 객체 렌더러(70)에 제공된다. 이 실시형태는 다중언어 영화 사운드트랙 재현 또는 가라오케 및 다른 형태의 음악 재해석과 같은 응용에서 유리하다. 더 나아가, 사운드트랙 데이터 시스템(40)에 포함되지 않은 추가의 오디오 객체는 객체 렌더 큐와 관련된 추가 오디오 객체 신호의 형태로 오디오 객체 렌더러(70)에 별도로 제공될 수 있다. 본 발명의 이 실시형태는 예를 들면 대화식 게임 애플리케이션에서 유리하다. 그러한 실시형태에 있어서, 오디오 객체 렌더러(70)는 오디오 객체 렌더러(44)의 설명으로 위에서 설명한 것처럼 하나 이상의 공간 반향 모듈을 통합하는 것이 유리하다.
다운믹스 포맷 변환
도 4와 관련하여 위에서 설명한 것처럼, 사운드트랙 렌더링 신호(84)는 잔여 다운믹스 신호(68)의 포맷 변환에 의해 획득된 변환된 잔여 다운믹스 신호(80)에 객체 렌더링 신호(76)를 합성함으로써 획득된다. 공간 오디오 포맷 변환(78)은 목표 공간 오디오 포맷 정의(74)에 따라서 구성되고, 잔여 다운믹스 신호(68)에 의해 표시되는 오디오 장면을 목표 공간 오디오 포맷으로 재현하기에 적합한 기술에 의해 실시될 수 있다. 업계에서 공지된 포맷 변환 기술은 멀티채널 업믹싱, 다운믹싱, 리맵핑 또는 가상화를 포함한다.
도 7에 도시된 것과 같은 본 발명의 일 실시형태에 있어서, 목표 공간 오디오 포맷은 라우드스피커 또는 헤드폰을 통한 2 채널 재생이고, 다운믹스 포맷은 5.1 서라운드 사운드 포맷이다. 포맷 변환은 미국 특허 출원 제2010/0303246호(여기에서의 인용에 의해 본원에 통합된다)에 설명되어 있는 바와 같이 가상 오디오 처리 장치에 의해 수행된다. 도 7에 도시된 구조는 오디오가 가상 스피커로부터 방사되는 것과 같은 착각을 생성하는 가상 오디오 스피커의 사용을 또한 포함한다. 업계에 잘 알려져 있는 바와 같이, 이러한 착각은 라우드스피커 대 귀의 음향 전달 함수 또는 머리 관련 전달 함수(Head Realted Transfer Functions, HRTF)의 측정치 또는 근사치를 고려하여 오디오 입력 신호에 변환을 적용함으로써 달성될 수 있다. 이러한 착각은 본 발명에 따라서 포맷 변환에 의해 사용될 수 있다.
대안적으로, 목표 공간 오디오 포맷이 라우드스피커 또는 헤드폰을 통한 2-채널 재생인 도 7에 도시된 실시형태에 있어서, 포맷 변환기는 도 8에 도시된 것과 같은 주파수 도메인 신호 처리에 의해 구현될 수 있다. 2007년 10월 5-8일에 개최된 123차 AES 총회에서 제시된 조트 등의 "공간 오디오 장면 코딩에 기초한 바이노럴 3-D 오디오 렌더링"(이 문헌은 여기에서의 인용에 의해 본원에 통합된다)에서 설명된 바와 같이, SASC 프레임워크에 따른 가상 오디오 처리는 포맷 변환기가 서라운드-3D 포맷 변환을 수행할 수 있게 하고, 여기에서, 변환된 잔여 다운믹스 신호(80)는 헤드폰 또는 라우드스피커를 통해 청취할 때 공간 오디오 장면의 3차원 확장을 생성한다. 즉, 잔여 다운믹스 신호(68)에서 내부적으로 패닝된 가청 이벤트는 목표 공간 오디오 포맷의 상승된 가청 이벤트로서 재현된다.
주파수 도메인 포맷 변환 처리는 2007년 3월 15-17일에 개최된 AES 30차 국제 회의에서 제시된 조트 등의 "멀티채널 사라운드 포맷 변환 및 일반화 업믹스"(이 문헌은 여기에서의 인용에 의해 본원에 통합된다)에서 설명된 바와 같이, 목표 공간 오디오 포맷이 3개 이상의 오디오 채널을 포함하는 포맷 변환기(78)의 실시형태에 더 일반적으로 적용될 수 있다. 도 8은 시간 도메인에서 제공된 잔여 다운믹스 신호(68)가 단시간 퓨리에 변환 블록에 의해 주파수 도메인 표시로 변환되는 양호한 실시형태를 보인 것이다. STFT 도메인 신호는 그 다음에 주파수 도메인 포맷 변환 블록에 제공되고, 주파수 도메인 포맷 변환 블록은 공간 분석 및 합성에 기초하여 포맷 변환을 구현하고, STFT 도메인 멀티채널 출력 신호를 제공하며, 역 단시간 퓨리에 변환 및 중첩-가산 처리에 의해 변환된 잔여 다운믹스 신호(80)를 발생한다. 다운믹스 포맷 정의 및 목표 공간 오디오 포맷 정의(74)는 주파수 도메인 포맷 변환 블록에 제공되어, 도 8에 도시된 것처럼 이 블록의 내부에서 패시브 업믹스, 공간 분석 및 공간 합성 처리에 사용된다. 비록 포맷 변환이 전적으로 주파수 도메인에서 동작하는 것으로 도시되어 있지만, 이 기술에 숙련된 사람이라면, 일부 실시형태에서, 특정 컴포넌트, 특히 패시브 업믹스가 시간 도메인에서 대안적으로 구현될 수 있다는 것을 인식할 것이다.
여기에서 도시된 특수 예들은 본 발명의 실시형태를 설명하기 위한 단순히 예일 뿐이고, 본 발명의 원리 및 개념적 양태의 가장 유용하고 쉽게 이해되는 설명으로 믿어지는 예를 제공하기 위해 제시된다. 이 점에서, 본 발명의 기본적인 이해에 필요한 것보다 더 자세하게 본 발명의 특수 예를 나타내려고 시도하지 않았고, 도면과 함께하는 설명은 본 발명의 몇 가지 형태가 실제로 어떻게 구체화될 수 있는지를 이 기술에 숙련된 사람에게 명백하게 할 것이다.

Claims (16)

  1. 오디오 사운드트랙을 인코딩하는 방법에 있어서,
    물리적 사운드를 나타내는 베이스 믹스 신호를 수신하는 단계;
    적어도 하나의 객체 오디오 신호(object audio signal) - 각각의 객체 오디오 신호는 상기 오디오 사운드트랙의 적어도 하나의 오디오 객체 성분을 가짐 - 를 수신하는 단계;
    적어도 하나의 객체 믹스 큐 스트림(object mix cue stream) - 상기 객체 믹스 큐 스트림은 상기 객체 오디오 신호의 믹싱 파라미터를 규정함 - 을 수신하는 단계;
    적어도 하나의 객체 렌더 큐 스트림(object render cue stream) - 상기 객체 렌더 큐 스트림은 목표 공간(target spatial) 오디오 포맷으로 상기 객체 오디오 신호를 렌더링하기 위한 렌더링 파라미터를 규정함 - 을 수신하는 단계;
    제1 오디오 인코딩 프로세서에 의해 상기 객체 오디오 신호를 인코딩하는 단계;
    제1 오디오 디코딩 프로세서에 의해 상기 인코딩된 객체 오디오 신호를 디코딩하는 단계;
    상기 오디오 객체 성분을 상기 베이스 믹스 신호와 합성하여 다운믹스 신호를 획득하기 위해, 상기 디코딩된 객체 오디오 신호와 상기 객체 믹스 큐 스트림을 활용하는 단계; 및
    사운드트랙 데이터 스트림을 형성하기 위해 상기 다운믹스 신호, 상기 인코딩된 객체 오디오 신호, 상기 객체 렌더 큐 스트림 및 상기 객체 믹스 큐 스트림을 다중화하는 단계
    를 포함하고,
    상기 다운믹스 신호는 다중화되기 전에 제2 오디오 인코딩 프로세서에 의해 인코딩되고,
    다운믹스 포맷은 레가시 컨슈머 디코더와 호환되는 서라운드 사운드 포맷인 것인 오디오 사운드트랙 인코딩 방법.
  2. 제1항에 있어서, 상기 제2 오디오 인코딩 프로세서는 손실성(lossy) 디지털 인코딩 프로세서인 것인 오디오 사운드트랙 인코딩 방법.
  3. 물리적 사운드를 나타내는 오디오 사운드트랙을 디코딩하는 방법에 있어서,
    사운드트랙 데이터 스트림을 수신하는 단계로서, 상기 사운드트랙 데이터 스트림은,
    오디오 장면을 나타내는 다운믹스 신호;
    적어도 하나의 객체 오디오 신호 - 상기 객체 오디오 신호는 상기 오디오 사운드트랙의 적어도 하나의 오디오 객체 성분을 가짐 - ;
    적어도 하나의 객체 믹스 큐 스트림 - 상기 객체 믹스 큐 스트림은 상기 객체 오디오 신호의 믹싱 파라미터를 규정함 - ; 및
    적어도 하나의 객체 렌더 큐 스트림 - 상기 객체 렌더 큐 스트림은 목표 공간 오디오 포맷으로 상기 객체 오디오 신호를 렌더링하기 위한 렌더링 파라미터를 규정함 -
    을 갖는 것인, 상기 사운드트랙 데이터 스트림을 수신하는 단계;
    상기 다운믹스 신호로부터 적어도 하나의 오디오 객체 성분을 제거하여 잔여 다운믹스 신호를 획득하기 위해 상기 객체 오디오 신호와 상기 객체 믹스 큐 스트림을 활용하는 단계;
    상기 잔여 다운믹스 신호에 공간 포맷 변환 - 상기 공간 포맷 변환은 상기 목표 공간 오디오 포맷에 의해 결정되는 공간 파라미터를 활용함 - 을 적용하여 변환된 잔여 다운믹스 신호를 출력하는 단계;
    적어도 하나의 객체 렌더링 신호를 유도하기 위해 상기 객체 오디오 신호와 상기 객체 렌더 큐 스트림을 활용하는 단계; 및
    사운드트랙 렌더링 신호를 획득하기 위해 상기 변환된 잔여 다운믹스 신호와 상기 객체 렌더링 신호를 합성하는 단계
    를 포함하고,
    상기 다운믹스 신호 및 상기 객체 오디오 신호는 인코딩된 오디오 신호이고,
    다운믹스 포맷은 레가시 컨슈머 디코더와 호환되는 서라운드 사운드 포맷인 것인 오디오 사운드트랙 디코딩 방법.
  4. 제3항에 있어서, 상기 오디오 객체 성분은 상기 다운믹스 신호로부터 감산되는 것인 오디오 사운드트랙 디코딩 방법.
  5. 제3항에 있어서, 상기 오디오 객체 성분은 상기 오디오 객체 성분이 상기 다운믹스 신호에서 지각되지 않도록(unnoticeable) 상기 다운믹스 신호로부터 제거되는 것인 오디오 사운드트랙 디코딩 방법.
  6. 제3항에 있어서, 상기 다운믹스 신호는 오디오 디코더에 의해 디코딩되는 것인 오디오 사운드트랙 디코딩 방법.
  7. 제3항에 있어서, 상기 객체 오디오 신호는 모노 오디오 신호인 것인 오디오 사운드트랙 디코딩 방법.
  8. 제3항에 있어서, 상기 객체 오디오 신호는 적어도 두 개의 채널을 가진 멀티채널 오디오 신호인 것인 오디오 사운드트랙 디코딩 방법.
  9. 제3항에 있어서, 상기 객체 오디오 신호는 이산 라우드스피커 피드(discrete loudspeaker-feed) 오디오 채널인 것인 오디오 사운드트랙 디코딩 방법.
  10. 제3항에 있어서, 상기 오디오 객체 성분은 음성, 악기음, 또는 오디오 장면의 사운드 효과인 것인 오디오 사운드트랙 디코딩 방법.
  11. 제3항에 있어서, 상기 공간 오디오 포맷은 청취 환경을 나타내는 것인 오디오 사운드트랙 디코딩 방법.
  12. 오디오 인코딩 프로세서에 있어서,
    수신기 프로세서로서,
    물리적 사운드를 나타내는 베이스 믹스 신호;
    적어도 하나의 객체 오디오 신호 - 각각의 객체 오디오 신호는 오디오 사운드트랙의 적어도 하나의 오디오 객체 성분을 가짐 - ;
    적어도 하나의 객체 믹스 큐 스트림 - 상기 객체 믹스 큐 스트림은 상기 객체 오디오 신호의 믹싱 파라미터를 규정함 - ; 및
    적어도 하나의 객체 렌더 큐 스트림 - 상기 객체 렌더 큐 스트림은 목표 공간 오디오 포맷으로 상기 객체 오디오 신호를 렌더링하기 위한 렌더링 파라미터를 규정함 -
    을 수신하기 위한 상기 수신기 프로세서;
    상기 객체 오디오 신호를 인코딩하기 위한 제1 오디오 인코딩 프로세서;
    상기 인코딩된 객체 오디오 신호를 디코딩하기 위한 제1 오디오 디코딩 프로세서;
    상기 디코딩된 객체 오디오 신호와 상기 객체 믹스 큐 스트림에 기초하여 상기 오디오 객체 성분을 상기 베이스 믹스 신호와 합성하기 위한 합성 프로세서 - 상기 합성 프로세서는 다운믹스 신호를 출력함 - ; 및
    사운드트랙 데이터 스트림을 형성하기 위해 상기 다운믹스 신호, 상기 인코딩된 객체 오디오 신호, 상기 객체 렌더 큐 스트림 및 상기 객체 믹스 큐 스트림을 다중화하기 위한 다중화 프로세서
    를 포함하고,
    상기 다운믹스 신호는 다중화되기 전에 제2 오디오 인코딩 프로세서에 의해 인코딩되고,
    다운믹스 포맷은 레가시 컨슈머 디코더와 호환되는 서라운드 사운드 포맷이며,
    상기 다운믹스 신호는 특정 유형의 후처리 효과를 포함할 수 있는 것인 오디오 인코딩 프로세서.
  13. 오디오 디코딩 프로세서에 있어서,
    수신 프로세서로서,
    오디오 장면을 나타내는 다운믹스 신호;
    적어도 하나의 객체 오디오 신호 - 상기 객체 오디오 신호는 상기 오디오 장면의 적어도 하나의 오디오 객체 성분을 가짐 - ;
    적어도 하나의 객체 믹스 큐 스트림 - 상기 객체 믹스 큐 스트림은 상기 객체 오디오 신호의 믹싱 파라미터를 규정함 - ; 및
    적어도 하나의 객체 렌더 큐 스트림 - 상기 객체 렌더 큐 스트림은 목표 공간 포맷으로 상기 객체 오디오 신호를 렌더링하기 위한 렌더링 파라미터를 규정함 -
    을 수신하기 위한 상기 수신 프로세서;
    상기 객체 오디오 신호와 상기 객체 믹스 큐 스트림에 기초하여 상기 다운믹스 신호로부터 적어도 하나의 오디오 객체 성분을 제거하고 잔여 다운믹스 신호를 출력하기 위한 객체 오디오 프로세서;
    상기 잔여 다운믹스 신호에 공간 포맷 변환을 적용하여 변환된 잔여 다운믹스 신호를 출력하기 위한 공간 포맷 변환기 - 상기 공간 포맷 변환기는 상기 목표 공간 오디오 포맷에 의해 결정되는 공간 파라미터를 활용함 - ;
    적어도 하나의 객체 렌더링 신호를 유도하기 위해 상기 객체 오디오 신호와 상기 객체 렌더 큐 스트림을 처리하기 위한 렌더링 프로세서; 및
    사운드트랙 렌더링 신호를 획득하기 위해 상기 변환된 잔여 다운믹스 신호와 상기 객체 렌더링 신호를 합성하기 위한 합성 프로세서
    를 포함하고,
    상기 다운믹스 신호 및 상기 객체 오디오 신호는 인코딩된 오디오 신호이고,
    상기 다운믹스 신호는 특정 유형의 후처리 효과를 포함할 수 있는 것인 오디오 디코딩 프로세서.
  14. 제13항에 있어서, 상기 오디오 객체 성분은 상기 다운믹스 신호로부터 감산되는 것인 오디오 디코딩 프로세서.
  15. 제13항에 있어서, 상기 오디오 객체 성분은 상기 오디오 객체 성분이 상기 다운믹스 신호에서 지각되지 않도록 상기 다운믹스 신호로부터 부분적으로 제거되는 것인 오디오 디코딩 프로세서.
  16. 물리적 사운드를 나타내는 오디오 사운드트랙을 디코딩하는 방법에 있어서,
    사운드트랙 데이터 스트림을 수신하는 단계로서, 상기 사운드트랙 데이터 스트림은,
    오디오 장면을 나타내는 다운믹스 신호;
    적어도 하나의 객체 오디오 신호 - 상기 객체 오디오 신호는 상기 오디오 사운드트랙의 적어도 하나의 오디오 객체 성분을 가짐 - ; 및
    적어도 하나의 객체 렌더 큐 스트림 - 상기 객체 렌더 큐 스트림은 목표 공간 포맷으로 상기 객체 오디오 신호를 렌더링하기 위한 렌더링 파라미터를 규정함 -
    을 갖는 것인, 상기 사운드트랙 데이터 스트림을 수신하는 단계;
    상기 다운믹스 신호로부터 적어도 하나의 오디오 객체 성분을 제거하여 잔여 다운믹스 신호를 획득하기 위해 상기 객체 오디오 신호와 상기 객체 렌더 큐 스트림을 활용하는 단계;
    상기 잔여 다운믹스 신호에 공간 포맷 변환 - 상기 공간 포맷 변환은 상기 목표 공간 오디오 포맷에 의해 결정되는 공간 파라미터를 활용함 - 을 적용하여 변환된 잔여 다운믹스 신호를 출력하는 단계;
    적어도 하나의 객체 렌더링 신호를 유도하기 위해 상기 객체 오디오 신호와 상기 객체 렌더 큐 스트림을 활용하는 단계; 및
    사운드트랙 렌더링 신호를 획득하기 위해 상기 변환된 잔여 다운믹스 신호와 상기 객체 렌더링 신호를 합성하는 단계
    를 포함하고,
    상기 다운믹스 신호 및 상기 객체 오디오 신호는 인코딩된 오디오 신호이고,
    상기 다운믹스 신호는 특정 유형의 후처리 효과를 포함할 수 있는 것인 오디오 사운드트랙 디코딩 방법.
KR1020207001900A 2011-03-16 2012-03-15 3차원 오디오 사운드트랙의 인코딩 및 재현 KR102374897B1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201161453461P 2011-03-16 2011-03-16
US61/453,461 2011-03-16
US201213421661A 2012-03-15 2012-03-15
US13/421,661 2012-03-15
KR1020137027239A KR20140027954A (ko) 2011-03-16 2012-03-15 3차원 오디오 사운드트랙의 인코딩 및 재현
PCT/US2012/029277 WO2012125855A1 (en) 2011-03-16 2012-03-15 Encoding and reproduction of three dimensional audio soundtracks

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020137027239A Division KR20140027954A (ko) 2011-03-16 2012-03-15 3차원 오디오 사운드트랙의 인코딩 및 재현

Publications (2)

Publication Number Publication Date
KR20200014428A true KR20200014428A (ko) 2020-02-10
KR102374897B1 KR102374897B1 (ko) 2022-03-17

Family

ID=46831101

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020207001900A KR102374897B1 (ko) 2011-03-16 2012-03-15 3차원 오디오 사운드트랙의 인코딩 및 재현
KR1020137027239A KR20140027954A (ko) 2011-03-16 2012-03-15 3차원 오디오 사운드트랙의 인코딩 및 재현

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020137027239A KR20140027954A (ko) 2011-03-16 2012-03-15 3차원 오디오 사운드트랙의 인코딩 및 재현

Country Status (8)

Country Link
US (1) US9530421B2 (ko)
EP (1) EP2686654A4 (ko)
JP (1) JP6088444B2 (ko)
KR (2) KR102374897B1 (ko)
CN (1) CN103649706B (ko)
HK (1) HK1195612A1 (ko)
TW (1) TWI573131B (ko)
WO (1) WO2012125855A1 (ko)

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
RU2643644C2 (ru) * 2012-07-09 2018-02-02 Конинклейке Филипс Н.В. Кодирование и декодирование аудиосигналов
KR102131810B1 (ko) * 2012-07-19 2020-07-08 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
US9489954B2 (en) * 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
KR20140047509A (ko) * 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
MX347551B (es) 2013-01-15 2017-05-02 Koninklijke Philips Nv Procesamiento de audio binaural.
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
CN104019885A (zh) 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析***
US9344826B2 (en) 2013-03-04 2016-05-17 Nokia Technologies Oy Method and apparatus for communicating with audio signals having corresponding spatial characteristics
EP3515055A1 (en) 2013-03-15 2019-07-24 Dolby Laboratories Licensing Corp. Normalization of soundfield orientations based on auditory scene analysis
WO2014160717A1 (en) * 2013-03-28 2014-10-02 Dolby Laboratories Licensing Corporation Using single bitstream to produce tailored audio device mixes
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
CN104982042B (zh) 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
EP3270375B1 (en) * 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
CN109887516B (zh) 2013-05-24 2023-10-20 杜比国际公司 对音频场景进行解码的方法、音频解码器以及介质
CN105393304B (zh) 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、***和装置
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830327A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor for orientation-dependent processing
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015017037A1 (en) 2013-07-30 2015-02-05 Dolby International Ab Panning of audio objects to arbitrary speaker layouts
EP3561809B1 (en) 2013-09-12 2023-11-22 Dolby International AB Method for decoding and decoder.
EP3059732B1 (en) * 2013-10-17 2018-10-10 Socionext Inc. Audio decoding device
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN113630711B (zh) 2013-10-31 2023-12-01 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
CN105981411B (zh) * 2013-11-27 2018-11-30 Dts(英属维尔京群岛)有限公司 用于高声道计数的多声道音频的基于多元组的矩阵混合
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
JP6299202B2 (ja) * 2013-12-16 2018-03-28 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム及びオーディオ復号装置
CN104882145B (zh) 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
US9779739B2 (en) * 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
JP6243060B2 (ja) 2014-03-21 2017-12-06 ドルビー・インターナショナル・アーベー 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
KR102429841B1 (ko) 2014-03-21 2022-08-05 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
JP6439296B2 (ja) * 2014-03-24 2018-12-19 ソニー株式会社 復号装置および方法、並びにプログラム
JP6863359B2 (ja) * 2014-03-24 2021-04-21 ソニーグループ株式会社 復号装置および方法、並びにプログラム
CA2945280C (en) 2014-04-11 2023-03-07 Samsung Electronics Co., Ltd. Method and apparatus for rendering sound signal, and computer-readable recording medium
CN106537942A (zh) * 2014-11-11 2017-03-22 谷歌公司 3d沉浸式空间音频***和方法
JP6564068B2 (ja) 2015-02-02 2019-08-21 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化されたオーディオ信号を処理するための装置および方法
CN111556426B (zh) * 2015-02-06 2022-03-25 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染***和方法
CN106162500B (zh) 2015-04-08 2020-06-16 杜比实验室特许公司 音频内容的呈现
WO2016204125A1 (ja) * 2015-06-17 2016-12-22 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
US10325610B2 (en) 2016-03-30 2019-06-18 Microsoft Technology Licensing, Llc Adaptive audio rendering
US10031718B2 (en) 2016-06-14 2018-07-24 Microsoft Technology Licensing, Llc Location based audio filtering
US9980077B2 (en) 2016-08-11 2018-05-22 Lg Electronics Inc. Method of interpolating HRTF and audio output apparatus using same
US10356545B2 (en) * 2016-09-23 2019-07-16 Gaudio Lab, Inc. Method and device for processing audio signal by using metadata
US10659904B2 (en) 2016-09-23 2020-05-19 Gaudio Lab, Inc. Method and device for processing binaural audio signal
US9980078B2 (en) * 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10123150B2 (en) 2017-01-31 2018-11-06 Microsoft Technology Licensing, Llc Game streaming with spatial audio
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
IL307592A (en) 2017-10-17 2023-12-01 Magic Leap Inc Spatial audio for mixed reality
US10504529B2 (en) 2017-11-09 2019-12-10 Cisco Technology, Inc. Binaural audio encoding/decoding and rendering for a headset
KR20230110842A (ko) * 2017-11-17 2023-07-25 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법
EP3503558B1 (en) 2017-12-19 2021-06-02 Spotify AB Audio content format selection
US11322164B2 (en) * 2018-01-18 2022-05-03 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
WO2019161313A1 (en) 2018-02-15 2019-08-22 Magic Leap, Inc. Mixed reality virtual reverberation
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
US10779082B2 (en) 2018-05-30 2020-09-15 Magic Leap, Inc. Index scheming for filter parameters
EP3808108A4 (en) * 2018-06-18 2022-04-13 Magic Leap, Inc. SPATIAL AUDIO FOR INTERACTIVE AUDIO ENVIRONMENTS
WO2020037280A1 (en) 2018-08-17 2020-02-20 Dts, Inc. Spatial audio signal decoder
US11205435B2 (en) 2018-08-17 2021-12-21 Dts, Inc. Spatial audio signal encoder
CA3091248A1 (en) 2018-10-08 2020-04-16 Dolby Laboratories Licensing Corporation Transforming audio signals captured in different formats into a reduced number of formats for simplifying encoding and decoding operations
US10966046B2 (en) * 2018-12-07 2021-03-30 Creative Technology Ltd Spatial repositioning of multiple audio streams
US11418903B2 (en) 2018-12-07 2022-08-16 Creative Technology Ltd Spatial repositioning of multiple audio streams
WO2020167966A1 (en) 2019-02-13 2020-08-20 Dolby Laboratories Licensing Corporation Adaptive loudness normalization for audio object clustering
WO2020176893A1 (en) * 2019-02-28 2020-09-03 Sonos, Inc. Playback transitions between audio devices
CN110099351B (zh) * 2019-04-01 2020-11-03 中车青岛四方机车车辆股份有限公司 一种声场回放方法、装置和***
EP3980993A1 (en) * 2019-06-06 2022-04-13 DTS, Inc. Hybrid spatial audio decoder
JP7279549B2 (ja) * 2019-07-08 2023-05-23 株式会社ソシオネクスト 放送受信装置
US11962991B2 (en) 2019-07-08 2024-04-16 Dts, Inc. Non-coincident audio-visual capture system
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
CN114586382A (zh) 2019-10-25 2022-06-03 奇跃公司 混响指纹估计
WO2021163382A1 (en) * 2020-02-14 2021-08-19 Magic Leap, Inc. Multi-application audio rendering
CN111199743B (zh) * 2020-02-28 2023-08-18 Oppo广东移动通信有限公司 音频编码格式确定方法、装置、存储介质及电子设备
CN111462767B (zh) * 2020-04-10 2024-01-09 全景声科技南京有限公司 音频信号的增量编码方法及装置
CN113596704A (zh) * 2020-04-30 2021-11-02 上海风语筑文化科技股份有限公司 一种实时空间指向性立体声解码方法
CN115497485A (zh) * 2021-06-18 2022-12-20 华为技术有限公司 三维音频信号编码方法、装置、编码器和***
GB2613628A (en) * 2021-12-10 2023-06-14 Nokia Technologies Oy Spatial audio object positional distribution within spatial audio communication systems

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009049895A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050087956A (ko) * 2004-02-27 2005-09-01 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
KR101010464B1 (ko) * 2006-03-24 2011-01-21 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
JP4875142B2 (ja) * 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
WO2008100098A1 (en) 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
WO2008114985A1 (en) 2007-03-16 2008-09-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2009054665A1 (en) * 2007-10-22 2009-04-30 Electronics And Telecommunications Research Institute Multi-object audio encoding and decoding method and apparatus thereof
WO2009128663A2 (en) 2008-04-16 2009-10-22 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
US8670575B2 (en) 2008-12-05 2014-03-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009049895A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ITU-T Recommendation. G.718. Frame error robust narrow-band and wideband embedded variable bit-rate coding of speechand audio from 8-32 kbit/s. ITU-T, 2008.06.* *
Jonas Engdegard, et al. Spatial audio object coding (SAOC) - The upcoming MPEG standard on parametric object based audio coding. Audio Engineering Society Convention 124. 2008.05.20.* *

Also Published As

Publication number Publication date
JP6088444B2 (ja) 2017-03-01
EP2686654A4 (en) 2015-03-11
WO2012125855A1 (en) 2012-09-20
US9530421B2 (en) 2016-12-27
TWI573131B (zh) 2017-03-01
KR20140027954A (ko) 2014-03-07
JP2014525048A (ja) 2014-09-25
US20140350944A1 (en) 2014-11-27
CN103649706A (zh) 2014-03-19
TW201303851A (zh) 2013-01-16
KR102374897B1 (ko) 2022-03-17
HK1195612A1 (zh) 2014-11-14
CN103649706B (zh) 2015-11-25
EP2686654A1 (en) 2014-01-22

Similar Documents

Publication Publication Date Title
KR102374897B1 (ko) 3차원 오디오 사운드트랙의 인코딩 및 재현
US10820134B2 (en) Near-field binaural rendering
CN112262585B (zh) 环境立体声深度提取
TWI442789B (zh) 使用物件式元資料來產生音訊輸出信號之裝置與方法
JP6612753B2 (ja) 高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング
RU2617553C2 (ru) Система и способ для генерирования, кодирования и представления данных адаптивного звукового сигнала
EP2205007B1 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
US20170098452A1 (en) Method and system for audio processing of dialog, music, effect and height objects
US11924627B2 (en) Ambience audio representation and associated rendering
Jot et al. Beyond surround sound-creation, coding and reproduction of 3-D audio soundtracks
US20070297624A1 (en) Digital audio encoding
CN106463126B (zh) 基于对象的音频***中的残差编码

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right