KR20240033290A - 오디오 렌더링을 위한 사전 렌더링된 신호를 위한 방법, 장치 및 시스템 - Google Patents

오디오 렌더링을 위한 사전 렌더링된 신호를 위한 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR20240033290A
KR20240033290A KR1020247006678A KR20247006678A KR20240033290A KR 20240033290 A KR20240033290 A KR 20240033290A KR 1020247006678 A KR1020247006678 A KR 1020247006678A KR 20247006678 A KR20247006678 A KR 20247006678A KR 20240033290 A KR20240033290 A KR 20240033290A
Authority
KR
South Korea
Prior art keywords
audio
rendering
effective
elements
effective audio
Prior art date
Application number
KR1020247006678A
Other languages
English (en)
Inventor
레온 테렌티브
크리스토프 페르쉬
다니엘 피셔
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20240033290A publication Critical patent/KR20240033290A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

본 개시는 하나 이상의 렌더링 툴을 갖는 오디오 렌더러를 포함하는 디코더에 의해 비트스트림으로부터 오디오 장면 콘텐츠를 디코딩하는 방법에 관한 것이다. 방법은 비트스트림을 수신하는 단계, 비트스트림으로부터 오디오 장면의 묘사를 디코딩하는 단계, 오디오 장면의 묘사로부터 하나 이상의 효과적인 오디오 요소를 결정하는 단계, 오디오 장면의 묘사로부터 하나 이상의 효과적인 오디오 요소의 효과적인 오디오 요소 위치를 나타내는 효과적인 오디오 요소 정보를 결정하는 단계, 비트스트림으로부터 렌더링 모드 표시를 디코딩하는 단계 - 상기 렌더링 모드 표시는 하나 이상의 효과적인 오디오 요소가 사전 렌더링된 오디오 요소로부터 획득된 음장을 표현하는지 및 사전 결정된 렌더링 모드를 사용하여 렌더링되어야 하는지를 나타냄 -, 및 상기 렌더링 모드 표시가 상기 하나 이상의 효과적인 오디오 요소가 사전 렌더링된 오디오 요소로부터 획득된 음장을 표현하고 사전 결정된 렌더링 모드를 사용하여 렌더링되어야 함을 나타내는 것에 응답하여, 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 단계를 포함하며, 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 단계는 효과적인 오디오 요소 정보를 고려하고, 사전 결정된 렌더링 모드는 렌더링 출력 상의 오디오 장면의 음향 환경의 영향을 제어하기 위한 렌더링 툴의 사전 결정된 구성을 정의한다. 개시는 또한 오디오 장면 콘텐츠를 생성하는 방법 및 오디오 장면 콘텐츠를 비트스트림으로 인코딩하는 방법에 관한 것이다.

Description

오디오 렌더링을 위한 사전 렌더링된 신호를 위한 방법, 장치 및 시스템{METHODS, APPARATUS AND SYSTEMS FOR A PRE-RENDERED SIGNAL FOR AUDIO RENDERING}
관련된 출원에 대한 상호 참조
본 출원은 다음의 우선권 출원: 2018년 4월 11일자로 출원된 미국 가출원 제62/656,163호 (참조: D18040USP1) 및 2018년 11월 5일자로 출원된 미국 가출원 제62/755,957호 (참조: D18040USP2)의 우선권을 주장하고, 이는 본원에 참조로 통합된다.
기술 분야
본 개시는 오디오 렌더링을 위한 장치, 시스템 및 방법을 제공하는 것에 관한 것이다.
도 1은 메타데이터 및 오디오 렌더러 확장(extensions)을 처리하도록 구성되는 예시적인 인코더를 도시한다.
일부 경우에서, 6DoF 렌더러는 가상 현실(virtual reality)/ 증강 현실(augmented reality)/혼합 현실(mixed reality)(VR/AR/MR) 공간의 일부 위치(들)(영역, 경로)에서 콘텐츠 창작자의 원하는 음장(soundfield)을 재현할(reproduce) 수 없는데, 이는:
1. 사운드 소스 및 VR/AR/MR 환경을 묘사하는 불충분한 메타데이터; 및
2. 6DoF 렌더러 및 자원의 제한된 능력(capabilities) 때문이다.
(오직 원래의 오디오 소스 신호 및 VR/AR/MR 환경 묘사에만 기초하여 음장을 생성하는) 특정한 6DoF 렌더러는 다음의 이유들로 인해 원하는 위치(들)에서 의도된 신호를 재현하는 데 실패할 수 있다:
1.1) VR/AR/MR 환경 및 대응하는 오디오 신호를 묘사하는 파라미터화된(parameterized) 정보(메타데이터)에 대한 비트레이트(bitrate) 제한;
1.2) 역(inverse) 6DoF 렌더링을 위한 데이터의 비-가용성(un-availability) (예를 들어, 하나 또는 몇몇의 관심 지점의 기준 레코딩(reference recordings)은 사용 가능하지만, 어떻게 6DoF 렌더러에 의해 이 신호를 재생성하는지(recreate) 및 이를 위해 어떤 데이터 입력이 필요한지 알려져 있지 않음);
2.1) 6DoF 렌더러의 디폴트 (예를 들어, 물리적 법칙에 일치하는) 출력과 상이할 수 있는 예술적 의도(artistic intent)(예를 들어, “예술적 다운믹스(artistic downmix)” 개념과 유사함); 및
2.2) 디코더(6DoF 렌더러) 구현에 대한 능력 제한(예를 들어, 비트레이트, 복잡성, 지연 등 제약.
동시에, VR/AR/MR 공간의 주어진 위치(들)에 대한 높은 오디오 품질 (및/또는 사전 정의된 기준 신호에 대한 충실도(fidelity)) 오디오 재현(즉, 6DoF 렌더러 출력)이 요구될 수 있다. 예를 들어, 이는 6DoF 렌더의 상이한 처리 모드들(예를 들어, VR/AR/MR 기하학 영향을 설명하지 않는 “저 능력(low power)” 모드 및 “베이스 라인(base line)” 모드 사이)에 대한 3DoF/3DoF+ 호환성 제약 또는 호환성 요구에 대해 요구될 수 있다.
따라서, VR/AR/MR 공간에서 콘텐츠 창작자의 원하는 음장의 재현을 개선하는 인코딩/디코딩의 방법 및 대응하는 인코더/디코더가 필요하다.
개시의 양상은, 하나 이상의 렌더링 툴을 갖는 오디오 렌더러를 포함하는 디코더에 의해 비트스트림(bitstream)으로부터 오디오 장면(scene) 콘텐츠를 디코딩하는 방법에 관한 것이다. 방법은 비트스트림을 수신하는 단계를 포함할 수 있다. 방법은 비트스트림으로부터 오디오 장면의 묘사를 디코딩하는 단계를 더 포함할 수 있다. 오디오 장면은 예를 들어, VR/AR/MR 음향 환경(acoustic environment)과 같은, 음향 환경을 포함할 수 있다. 방법은 오디오 장면의 묘사로부터 하나 이상의 효과적인(effective) 오디오 요소를 결정하는 단계를 더 포함할 수 있다. 방법은 오디오 장면의 묘사로부터 하나 이상의 효과적인 오디오 요소의 효과적인 오디오 요소 위치를 나타내는 효과적인 오디오 요소 정보를 결정하는 단계를 더 포함할 수 있다. 방법은 비트스트림으로부터 렌더링 모드 표시(indication)를 디코딩하는 단계를 더 포함할 수 있다. 렌더링 모드 표시는 하나 이상의 효과적인 오디오 요소가 사전 렌더링된 오디오 요소로부터 획득된 음장을 표현하는지 및 사전 결정된 렌더링 모드를 사용하여 렌더링되어야 하는지를 나타낼 수 있다. 방법은, 렌더링 모드 표시가, 하나 이상의 효과적인 오디오 요소가 사전 렌더링된 오디오 요소로부터 획득된 음장을 표현하고 사전 결정된 렌더링 모드를 사용하여 렌더링되어야 한다고 나타내는 것에 응답하여, 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 단계를 또한 더 포함할 수 있다. 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 단계는 효과적인 오디오 요소 정보를 고려할 수 있다. 사전 결정된 렌더링 모드는, 렌더링 출력 상의 오디오 장면의 음향 환경의 영향을 제어하기 위한 렌더링 툴의 사전 결정된 구성을 정의할 수 있다. 효과적인 오디오 요소는, 예를 들어, 기준 위치에 대해 렌더링될 수 있다. 사전 결정된 렌더링 모드는 특정한 렌더링 툴을 사용 가능하게 하거나 불가능하게 할 수 있다(enable or disable). 또한, 사전 결정된 렌더링 모드는 하나 이상의 효과적인 오디오 요소에 대한 음향을 향상시킬 수 있다(예를 들어, 인공 음향을 추가).
하나 이상의 효과적인 오디오 요소는, 예를 들어, 에코(echo), 잔향(reverberation), 및 음향 가림(acoustic occlusion)과 같은, 오디오 환경의 영향을, 말하자면 캡슐화한다(encapsule). 이는 디코더에서 특히 단순한 렌더링 모드(simple rendering mode)(즉, 사전 결정된 렌더링 모드)의 사용을 가능하게 한다. 동시에, 예술적 의도는 보호될 수 있고, 사용자(청취자)는 저 능력 디코더에 대해서도 풍부한 몰입형 음향 경험(immersive acoustic experience)을 제공받을 수 있다. 또한, 디코더의 렌더링 툴은, 음향 효과의 부가적인 제어를 제공하는, 렌더링 모드 표시에 기초하여 개별적으로 구성될 수 있다. 음향 환경의 영향을 캡슐화하는 것은 최종적으로 음향 환경을 나타내는 메타데이터의 효율적인 압축을 할 수 있게 한다.
일부 실시예에서, 방법은, 음향 환경에서 청취자의 머리의 위치를 나타내는 청취자 위치 정보 및/또는, 음향 환경에서 청취자의 머리의 배향(orientation)을 나타내는 청취자 배향 정보를 획득하는 단계를 더 포함할 수 있다. 대응하는 디코더는 청취자 위치 정보 및/또는 청취자 배향 정보를 수신하기 위한 인터페이스를 포함할 수 있다. 그 후, 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 단계는 청취자 위치 정보 및/또는 청취자 배향 정보를 더 고려할 수 있다. 이 부가적인 정보를 참조함으로써, 사용자의 음향 경험은 훨씬 더 몰입형이고 의미있게 만들어질 수 있다.
일부 실시예에서, 효과적인 오디오 요소 정보는 하나 이상의 효과적인 오디오 요소의 각각의 사운드 방출(radiation) 패턴을 나타내는 정보를 포함할 수 있다. 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 단계는 그 후, 하나 이상의 효과적인 오디오 요소의 각각의 사운드 방출 패턴을 나타내는 정보를 더 고려할 수 있다. 예를 들어, 감쇠 인자(attenuation factor)는 각각의 효과적인 오디오 요소의 사운드 방출 패턴과, 각각의 효과적인 오디오 요소 및 청취자 위치 사이의 상대적인 배치에 기초하여 계산될 수 있다. 방출 패턴을 고려함으로써, 사용자의 음향 경험은 훨씬 더 몰입형이고 의미있게 만들어질 수 있다.
일부 실시예에서, 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 단계는, 하나 이상의 효과적인 오디오 요소의 효과적인 오디오 요소 위치와 청취자 위치 사이의 각각의 거리에 따라 사운드 감쇠 모델링을 적용할 수 있다. 즉, 사전 결정된 렌더링 모드는 음향 환경에서 어떠한 음향 요소도 고려하지 않고 (빈 공간에서) 사운드 감쇠 모델링(만)을 적용할 수 있다. 이는 저 능력 디코더에서도 적용될 수 있는 단순한 렌더링 모드를 정의한다. 부가적으로, 사운드 방향성 모델링은, 예를 들어 하나 이상의 효과적인 오디오 요소의 사운드 방출 패턴에 기초하여 적용될 수 있다.
일부 실시예에서, 적어도 두 개의 효과적인 오디오 요소들은 오디오 장면의 묘사로부터 결정될 수 있다. 그 후, 렌더링 모드 표시는 적어도 두 개의 효과적인 오디오 요소들 각각에 대한 각각의 사전 결정된 렌더링 모드를 나타낼 수 있다. 또한, 방법은 적어도 두 개의 효과적인 오디오 요소들을 그들 각각의 사전 결정된 렌더링 모드들을 사용하여 렌더링하는 단계를 포함할 수 있다. 각각의 효과적인 오디오 요소를 그의 각각의 사전 결정된 렌더링 모드를 사용하여 렌더링하는 단계는, 그 효과적인 오디오 요소에 대한 효과적인 오디오 요소 정보를 고려할 수 있다. 또한, 그 효과적인 오디오 요소에 대한 사전 결정된 렌더링 모드는, 그 효과적인 오디오 요소에 대한 렌더링 출력 상의 오디오 장면의 음향 환경의 영향을 제어하기 위한 렌더링 툴의 각각의 사전 결정된 구성을 정의할 수 있다. 이로써, 개별적인 효과적인 오디오 요소에 적용되는 음향 효과에 대한 부가적인 제어가 제공될 수 있고, 따라서 콘텐츠 창작자의 예술적 의도에 매우 근접한 매칭(matching)을 가능하게 한다.
일부 실시예에서, 방법은, 오디오 장면의 묘사로부터 하나 이상의 원래의 오디오 요소를 결정하는 단계를 더 포함할 수 있다. 방법은, 오디오 장면의 묘사로부터 하나 이상의 오디오 요소의 오디오 요소 위치를 나타내는 오디오 요소 정보를 결정하는 단계를 더 포함할 수 있다. 방법은, 하나 이상의 효과적인 오디오 요소에 대해 사용되는 사전 결정된 렌더링 모드와 상이한 하나 이상의 효과적인 오디오 요소에 대한 렌더링 모드를 사용하여, 하나 이상의 오디오 요소를 렌더링하는 단계를 또한 더 포함할 수 있다. 하나 이상의 오디오 요소에 대한 렌더링 모드를 사용하여 하나 이상의 오디오 요소를 렌더링하는 단계는 오디오 요소 정보를 고려할 수 있다. 상기 렌더링은 렌더링 출력 상의 음향 환경의 영향을 더 고려할 수 있다. 따라서, 음향 환경의 영향을 캡슐화하는 효과적인 오디오 요소는, 예를 들어, 단순한 렌더링 모드를 사용하여 렌더링될 수 있는 반면, (원래의) 오디오 요소는, 더욱 정교한, 예를 들어, 기준, 렌더링 모드를 사용하여 렌더링될 수 있다.
일부 실시예에서, 방법은, 사전 결정된 렌더링 모드가 사용될 청취자 위치 구역(area)을 나타내는 청취자 위치 구역 정보를 획득하는 단계를 더 포함할 수 있다. 청취자 위치 구역 정보는, 예를 들어 비트스트림으로 인코딩될 수 있다. 이로써, 사전 결정된 렌더링 모드가, 효과적인 오디오 요소가 원래의 오디오 장면의 (예를 들어, 원래의 오디오 요소의) 의미있는 표현을 제공하기 위한 그 청취자 위치 구역에 대해서만 사용되도록 보장될 수 있다.
일부 실시예에서, 렌더링 모드 표시에 의해 나타내어진 사전 결정된 렌더링 모드는 청취자 위치에 의존할 수 있다. 또한, 방법은, 청취자 위치 구역 정보에 의해 나타내어진 청취자 위치 구역에 대한 렌더링 모드 표시에 의해 나타내어지는 그 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 단계를 포함할 수 있다. 즉, 렌더링 모드 표시는 상이한 청취자 위치 구역에 대한 상이한 (사전 결정된) 렌더링 모드를 나타낼 수 있다.
개시의 다른 양상은 오디오 장면 콘텐츠를 생성하는 방법에 관한 것이다. 방법은 오디오 장면으로부터 캡처된(captured) 신호를 표현하는 하나 이상의 오디오 요소를 획득하는 단계를 포함할 수 있다. 방법은, 생성될 하나 이상의 효과적인 오디오 요소의 효과적인 오디오 요소 위치를 나타내는 효과적인 오디오 요소 정보를 획득하는 단계를 더 포함할 수 있다. 방법은, 캡처된 신호가 캡처된 위치 및 하나 이상의 효과적인 오디오 요소의 효과적인 오디오 요소 위치 사이의 거리에 따른 사운드 감쇠 모델링의 적용(application)에 의해 캡처된 신호를 표현하는 하나 이상의 오디오 요소로부터 하나 이상의 효과적인 오디오 요소를 결정하는 단계를 또한 더 포함할 수 있다.
이 방법에 의해, 오디오 장면 콘텐츠는, 기준 위치 또는 캡처 위치에 대해 렌더링될 때, 원래의 오디오 장면으로부터 발생할(originate) 음장의 지각적으로(perceptually) 근접한 근사치를 내도록(yields) 생성될 수 있다. 그러나 부가적으로, 오디오 장면 콘텐츠는 기준 위치 또는 캡처 위치와 상이한 청취자 위치로 렌더링될 수 있고, 따라서 몰입형 음향 경험을 할 수 있게 한다.
개시의 다른 양상은 비트스트림으로 오디오 장면 콘텐츠를 인코딩하는 방법에 관한 것이다. 방법은 오디오 장면의 묘사를 수신하는 단계를 포함할 수 있다. 오디오 장면은 음향 환경 및 각각의 오디오 요소 위치에서의 하나 이상의 오디오 요소를 포함할 수 있다. 방법은, 하나 이상의 오디오 요소로부터 각각의 효과적인 오디오 요소 위치에서의 하나 이상의 효과적인 오디오 요소를 결정하는 단계를 더 포함할 수 있다. 이 결정은, (예를 들어, 빈 공간에서 거리 감쇠 모델링을 적용하는) 렌더링 출력 상의 음향 환경의 영향을 고려하지 않는 렌더링 모드를 사용하여 기준 위치에 대해 그들 각각의 효과적인 오디오 요소 위치에서의 하나 이상의 효과적인 오디오 요소를 렌더링하는 것이, 렌더링 출력 상의 음향 환경의 영향을 고려하는 기준 렌더링 모드를 사용하여 기준 위치에 대하여 그들 각각의 오디오 요소 위치에서의 하나 이상의 오디오 요소를 렌더링하는 것에서 기인할, 기준 위치에서의 기준 음장의 음향심리학적(psychoacoustic) 근사치를 내는 것과 같은 방식으로 수행될 수 있다. 방법은, 하나 이상의 효과적인 오디오 요소의 효과적인 오디오 요소 위치를 나타내는 효과적인 오디오 요소 정보를 생성하는 단계를 더 포함할 수 있다. 방법은, 하나 이상의 효과적인 오디오 요소가 사전 렌더링된 오디오 요소로부터 획득된 음장을 표현하고, 디코더에서의 렌더링 출력 상의 음향 환경의 영향을 제어하기 위한 디코더의 렌더링 툴의 사전 결정된 구성을 정의하는 사전 결정된 렌더링 모드를 사용하여 렌더링되어야 함을 나타내는 렌더링 모드 표시를 생성하는 단계를 더 포함할 수 있다. 방법은 하나 이상의 오디오 요소, 오디오 요소 위치, 하나 이상의 효과적인 오디오 요소, 효과적인 오디오 요소 정보, 및 렌더링 모드 표시를 비트스트림으로 인코딩하는 단계를 또한 더 포함할 수 있다.
하나 이상의 효과적인 오디오 요소는, 예를 들어, 에코, 잔향, 및 음향 가림과 같은, 오디오 환경의 영향을, 말하자면 캡슐화한다. 이는 디코더에서 특히 단순한 렌더링 모드(즉, 사전 결정된 렌더링 모드)의 사용을 가능하게 한다. 동시에, 예술적 의도는 보호될 수 있고 사용자(청취자)는 저 능력 디코더에 대해서도 풍부한 몰입형 음향 경험을 제공받을 수 있다. 또한, 디코더의 렌더링 툴은, 음향 효과의 부가적인 제어를 제공하는, 렌더링 모드 표시에 기초하여 개별적으로 구성될 수 있다. 음향 환경의 영향을 캡슐화하는 것은 최종적으로 음향 환경을 나타내는 메타데이터의 효율적인 압축을 할 수 있게 한다.
일부 실시예에서, 방법은, 음향 환경에서 청취자의 머리의 위치를 나타내는 청취자 위치 정보 및/또는, 음향 환경에서 청취자의 머리의 배향을 나타내는 청취자 배향 정보를 획득하는 단계를 더 포함할 수 있다. 방법은 청취자 위치 정보 및/또는 청취자 배향 정보를 비트스트림으로 인코딩하는 단계를 또한 더 포함할 수 있다.
일부 실시예에서, 효과적인 오디오 요소 정보는, 하나 이상의 효과적인 오디오 요소의 각각의 사운드 방출 패턴을 나타내는 정보를 포함하도록 생성될 수 있다.
일부 실시예에서, 적어도 두 개의 효과적인 오디오 요소들은 생성되고 비트스트림으로 인코딩될 수 있다. 그 후, 렌더링 모드 표시는 적어도 두 개의 효과적인 오디오 요소들 각각에 대한 각각의 사전 결정된 렌더링 모드를 나타낼 수 있다.
일부 실시예에서, 방법은, 사전 결정된 렌더링 모드가 사용될 청취자 위치 구역을 나타내는 청취자 위치 구역 정보를 획득하는 단계를 더 포함할 수 있다. 방법은 청취자 위치 구역 정보를 비트스트림으로 인코딩하는 단계를 또한 더 포함할 수 있다.
일부 실시예에서, 렌더링 모드 표시에 의해 나타내어진 사전 결정된 렌더링 모드는, 렌더링 모드 표시가 복수의 청취자 위치들 각각에 대한 각각의 사전 결정된 렌더링 모드를 나타내도록 청취자 위치에 의존할 수 있다.
개시의 다른 양상은 프로세서에 대한 명령어를 저장하는 메모리에 결합된 프로세서를 포함하는 오디오 디코더에 관한 것이다. 프로세서는 위의 양상들 또는 실시예들 중 각각 하나에 따른 방법을 수행하도록 적응될 수 있다.
개시의 다른 양상은 프로세서에 대한 명령어를 저장하는 메모리에 결합된 프로세서를 포함하는 오디오 인코더에 관한 것이다. 프로세서는 위의 양상들 또는 실시예들 중 각각 하나에 따른 방법을 수행하도록 적응될 수 있다.
개시의 추가적인 양상은 대응하는 컴퓨터 프로그램 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.
방법 단계 및 장치 특징은 많은 방법으로 상호교환될 수 있음이 이해될 것이다. 특히, 개시된 방법의 세부사항은, 기술자가 이해할, 방법의 단계 또는 일부 또는 전부를 실행하도록 적응된 장치로서 구현될 수 있고, 역 또한 같다. 특히, 방법에 관하여 작성된 각각의 서술은 마찬가지로 대응하는 장치에 적용될 수 있고, 역 또한 같음이 이해된다.
개시의 예시적 실시예는 첨부된 도면을 참조하여 아래에 설명되며, 유사한 참조 번호는 유사한 또는 비슷한 요소를 나타내고,
도 1은 인코더/디코더 시스템의 예시를 개략적으로 도시하고,
도 2는 오디오 장면의 예시를 개략적으로 도시하고,
도 3은 오디오 장면의 음향 환경에서의 위치의 예시를 개략적으로 도시하고,
도 4는 개시의 실시예에 따른 인코더/디코더 시스템의 예시를 개략적으로 도시하고,
도 5는 개시의 실시예에 따른 인코더/디코더 시스템의 다른 예시를 개략적으로 도시하고,
도 6은 개시의 실시예에 따른 오디오 장면 콘텐츠를 인코딩하는 방법의 예시를 개략적으로 도시하는 흐름도(flowchart)이고,
도 7은 개시의 실시예에 따른 오디오 장면 콘텐츠를 디코딩하는 방법의 예시를 개략적으로 도시하는 흐름도이고,
도 8은 개시의 실시예에 따른 오디오 장면 콘텐츠를 생성하는 방법의 예시를 개략적으로 도시하는 흐름도이고,
도 9는 도 8의 방법이 수행될 수 있는 환경의 예시를 개략적으로 도시하고,
도 10은 개시의 실시예에 따른 디코더의 출력을 테스트하기 위한 환경의 예시를 개략적으로 도시하고,
도 11은 개시의 실시예에 따른 비트스트림으로 전송된(transported) 데이터 요소의 예시를 개략적으로 도시하고,
도 12는 오디오 장면을 참조하여 상이한 렌더링 모드의 예시를 개략적으로 도시하고,
도 13은 오디오 장면을 참조하여 개시의 실시예에 따른 인코더 및 디코더 처리의 예시를 개략적으로 도시하고,
도 14는 개시의 실시예에 따른 상이한 청취자 위치에 대해 효과적인 오디오 요소를 렌더링하는 것의 예시를 개략적으로 도시하고, 및
도 15는 개시의 실시예에 따른 음향 환경에서의 오디오 요소, 효과적인 오디오 요소, 및 청취자 위치의 예시를 개략적으로 도시한다.
위에서 나타내어진 바와 같이, 개시의 동일한 또는 유사한 참조 번호는 동일한 또는 유사한 요소를 나타내고, 그의 반복된 설명은 간결의 이유를 위해 생략될 수 있다.
본 개시는 VR/AR/MR 렌더러 또는 오디오 렌더러(예를 들어, 그의 렌더링이 MPEG 오디오 표준과 호환 가능한(compatible) 오디오 렌더러)에 관한 것이다. 본 개시는 또한 인코더 사전 정의된 3DoF+ 영역(들)에서 음장의 품질 및 비트레이트-효율적인 표현을 제공하는 예술적 사전 렌더링 개념에 관한 것이다.
일 예시에서, 6DoF 오디오 렌더러는 특정한 위치(들)에서 기준 신호(음장)에 대한 매치(match)를 출력할 수 있다. 6DoF 오디오 렌더러는, MPEG-H 3D 오디오 렌더러 입력 포맷과 같은, 네이티브 포맷(native format)으로 VR/AR/MR-관련된 메타데이터를 변환하는 것을 확장할 수 있다.
목표는, 3DoF 위치(들)에서 사전 정의된 기준 신호(들)로서 오디오 출력을 생성하기 위해 표준을 준수(예를 들어, MPEG 표준을 준수 또는 임의의 향후 MPEG 표준을 준수)하는 오디오 렌더러를 제공하는 것이다.
이러한 요구사항을 지원하기 위한 간단한(straightforward) 접근법은 사전 정의된(사전 렌더링된) 신호(들)을 디코더/렌더러 측으로 직접 전송하는 것일 것이다. 이러한 접근법은 다음의 명백한 문제점을 갖는다:
1. 비트레이트 증가(즉, 원래의 오디오 소스 신호에 부가적으로 사전 렌더링된 신호(들)이 전송됨); 및
2. 제한된 유효성(validity)(즉, 사전 렌더링된 신호(들)은 3DoF 위치(들)에 대해서만 유효함).
광범위하게 말하자면, 본 개시는 6DoF 렌더링 기능성을 제공하기 위해 이러한 신호(들)을 효율적으로 생성, 인코딩, 디코딩 및 렌더링하는 것에 관한 것이다. 따라서, 본 개시는 전술한 문제점을 극복하기 위한 다음을 포함하는 방법을 서술한다:
1. 원래의 오디오 소스 신호 대신(또는 이에 대한 무료의(complimentary) 부가로서) 사전 렌더링된 신호(들)을 사용하는 것; 및
2. 높은 수준의 음장 근사치를 유지함으로써, 사전 렌더링된 신호(들)에 대한 3DoF 위치(들)에서 3DoF+ 영역으로 적용 가능성(6DoF 렌더링에 대한 사용)의 범위를 증가시키는 것.
본 개시가 적용 가능한 예시적인 시나리오가 도 2에 도시된다. 도 2는 예시적인 공간, 예를 들어, 엘리베이터 및 청취자를 도시한다. 일 예시에서, 청취자는 문을 열고 닫는 엘리베이터의 앞에 서있을 수 있다. 엘리베이터 캐빈(cabin) 내부에는 몇몇의 대화하는 사람들 및 잔잔한(ambient) 음악이 있다. 청취자는 돌아다닐 수 있지만, 엘리베이터 캐빈으로 들어갈 수는 없다. 도 2는 엘리베이터 시스템의 상면도(top view) 및 정면도(front view)를 도시한다.
이와 같이, 도 2의 엘리베이터 및 사운드 소스(대화하는 사람들, 잔잔한 음악)는 오디오 장면을 정의한다고 할 수 있다.
일반적으로, 본 개시의 맥락에서 오디오 장면은, 장면의 사운드를 렌더링하는데 필요한 모든 오디오 요소, 음향 요소 및 음향 환경, 즉, 오디오 렌더러(예를 들어, MPEG-I 오디오 렌더러)에 의해 필요한 입력 데이터를 의미하는 것으로 이해된다. 본 개시의 맥락에서, 오디오 요소는 하나 이상의 오디오 신호 및 연관된 메타데이터를 의미하는 것으로 이해된다. 오디오 요소는, 예를 들어, 오디오 객체(objects), 채널 또는 HOA 신호일 수 있다. 오디오 객체는, 오디오 소스의 사운드를 재생하기(reproduce) 위해 필요한 정보를 포함하는 연관된 정적/동적 메타데이터(예를 들어, 위치 정보)를 갖는 오디오 신호를 의미하는 것으로 이해된다. 음향 요소는 오디오 요소와 상호작용하고 사용자 위치 및 배향에 기초하여 오디오 요소의 렌더링에 영향을 미치는 공간의 물리적 객체를 의미하는 것으로 이해된다. 음향 요소는 오디오 객체와 메타데이터를 공유할 수 있다(예를 들어, 위치 및 배향). 음향 환경은, 예를 들어, 룸(room) 또는 장소(locality)와 같은, 렌더링될 가상 장면의 음향 성질(properties)을 묘사하는 메타데이터를 의미하는 것으로 이해된다.
이러한 시나리오(또는 사실상 임의의 다른 오디오 장면)에 대하여, 오디오 렌더러가 적어도 기준 위치에서 원래의 음장의 충실한 표현인 오디오 장면의 음장 표현을 렌더링할 수 있게 하는 것이 바람직할 것이고, 이는 예술적 의도, 및/또는 오디오 렌더러의 (제한된) 렌더링 능력으로 발효될 수 있는 렌더링을 충족한다. 인코더에서 디코더로의 오디오 콘텐츠의 송신의 임의의 비트레이트 제한을 충족하는 것은 또한 바람직하다.
도 3은 청취 환경에 관한 오디오 장면의 개요를 개략적으로 도시한다. 오디오 장면은 음향 환경(100)을 포함한다. 음향 환경(100)은 각각의 위치에서의 하나 이상의 오디오 요소(102)를 차례로 포함한다. 하나 이상의 오디오 요소는, 하나 이상의 오디오 요소의 위치(들)과 반드시 동일할 필요는 없는 각각의 위치에서의 하나 이상의 효과적인 오디오 요소(101)를 생성하는 데 사용될 수 있다. 예를 들어, 오디오 요소의 주어진 세트에 대하여, 효과적인 오디오 요소의 위치는 오디오 요소들의 위치들의 중심(예를 들어, 중력 중심)에 있도록 설정될 수 있다. 생성된 효과적인 오디오 요소는, 청취자 위치 구역(110) 내의 기준 위치(111)에 대해 효과적인 오디오 요소를 사전 결정된 렌더링 함수(예를 들어, 빈 공간에서 거리 감쇠만을 적용하는 단순한 렌더링 함수)로 렌더링 하는 것은, 기준 위치(111)에서, 오디오 요소(102)를 기준 렌더링 함수(예를 들어, 음향 요소(예를 들어, 에코, 리버브(reverb), 가림 등)를 포함하는 음향 환경의 특성(예를 들어, 영향)을 고려하는 렌더링 함수)로 렌더링하는 것으로부터 기인할 음장과 (실질적으로) 지각적으로 동등한 음장을 낼 것이라는 성질을 가질 수 있다. 당연히, 일단 생성되면, 효과적인 오디오 요소(101)는 또한, 사전 결정된 렌더링 함수를 사용하여, 기준 위치(111)와 상이한 청취자 위치 구역(110) 내의 청취자 위치(112)에 대하여 렌더링될 수 있다. 청취자 위치는 효과적인 오디오 요소(101)의 위치로부터 거리(103)만큼 떨어져 있을 수 있다. 오디오 요소(102)로부터 효과적인 오디오 요소(101)를 생성하는 것에 대한 일 예시는 아래에 더욱 상세히 서술될 것이다.
일부 실시예에서, 효과적인 오디오 요소(102)는, 청취자 위치 구역(110) 내의 캡처 위치에서 캡처되는 하나 이상의 캡처된 신호(120)에 기초하여 대안적으로 결정될 수 있다. 예를 들어, 음악 공연의 청중 내의 사용자는 무대 위의 오디오 요소(예를 들어, 음악가)로부터 방출되는 사운드를 캡처할 수 있다. 그 후, (예를 들어, 가능성 있게(possibly) 효과적인 오디오 요소(101)와 캡처 위치 사이의 거리 벡터의 방향을 나타내는 각도와 함께, 가령 효과적인 오디오 요소(101)와 캡처 위치 사이의 거리(121)를 특정함으로써, 캡처 위치에 대해 상대적인) 효과적인 오디오 요소의 원하는 위치가 주어지면, 효과적인 오디오 요소(101)는 캡처된 신호(120)에 기초하여 생성될 수 있다. 생성된 효과적인 오디오 요소(101)는, 효과적인 오디오 요소(101)를 사전 결정된 렌더링 함수(예를 들어, 빈 공간에서 거리 감쇠만을 적용하는 단순한 렌더링 함수)로 (캡처 위치와 반드시 동일할 필요는 없는) 기준 위치(111)에 대하여 렌더링하는 것은, 기준 위치(111)에서, 원래의 오디오 요소(102)(예를 들어, 음악가)로부터 발생한 음장과 (실질적으로) 지각적으로 동등한 음장을 낼 것이라는 성질을 가질 수 있다. 이러한 사용 사례의 예시는 아래에 더욱 상세히 서술될 것이다.
특히, 기준 위치(111)는 일부 경우에서 캡처 위치와 동일할 수 있고, 기준 신호(즉, 기준 위치(111)에서의 신호)는 캡처된 신호(120)와 동일할 수 있다. 이는, 사용자가 아바타 인헤드 레코딩 옵션(avatar in-head recording option)을 사용할 수 있는, VR/AR/MR 애플리케이션에 대한 유효한 가정일 수 있다. 실세계(real-world) 애플리케이션에서, 기준 수신자(receivers)가 사용자의 귀인 반면 신호 캡처 디바이스(예를 들어, 휴대 전화 또는 마이크)는 사용자의 귀에서 다소 멀리 있을 수 있기 때문에, 이 가정은 유효하지 않을 수 있다.
초기에 언급된 요구를 다루기 위한 방법 및 장치가 다음에 서술될 것이다.
도 4는 개시의 실시예에 따른 인코더/디코더 시스템의 예시를 도시한다. 인코더(210)(예를 들어, MPEG-I 인코더)는, 오디오 출력(240)을 생성하기 위한 디코더(230)(예를 들어, MPEG-I 디코더)에 의해 사용될 수 있는 비트스트림(220)을 출력한다. 디코더(230)는 청취자 정보(233)를 더 수신할 수 있다. 청취자 정보(233)는 비트스트림(220) 내에 반드시 포함될 필요는 없지만, 임의의 소스로부터 발생할 수 있다. 예를 들어, 청취자 정보는 머리 추적(head-tracking) 디바이스에 의해 생성되어 출력될 수 있고 디코더(230)의 (전용) 인터페이스로 입력될 수 있다.
디코더(230)는 하나 이상의 렌더링 툴(251)을 차례로 포함하는 오디오 렌더러(250)를 포함한다. 본 개시의 맥락에서, 오디오 렌더러는, 렌더링 툴과 외부 렌더링 툴에 대한 인터페이스와 외부 자원에 대한 시스템 레이어(layer)에 대한 인터페이스를 포함하는, 규범적인(normative) 오디오 렌더링 모듈, 예를 들어 MPEG-I를 의미하는 것으로 이해된다. 렌더링 툴은, 렌더링의 양상, 예를 들어, 룸 모델 파라미터화(parameterization), 가림, 잔향, 바이너럴(binaural) 렌더링 등을 수행하는 오디오 렌더러의 구성요소를 의미하는 것으로 이해된다.
렌더러(250)는 하나 이상의 효과적인 오디오 요소, 효과적인 오디오 요소 정보(231), 및 렌더링 모드 표시(232)를 입력으로 제공받는다. 효과적인 오디오 요소, 효과적인 오디오 요소 정보, 및 렌더링 모드 표시(232)는 아래에 더욱 상세히 서술될 것이다. 효과적인 오디오 요소 정보(231) 및 렌더링 모드 표시(232)는 비트스트림(220)으로부터 도출(예를 들어, 결정/디코딩)될 수 있다. 렌더러(250)는, 하나 이상의 렌더링 툴(251)을 사용하여, 효과적인 오디오 요소 및 효과적인 오디오 요소 정보에 기초하여 오디오 장면의 표현을 렌더링한다. 이 점에 있어, 렌더링 모드 표시(232)는 하나 이상의 렌더링 툴(251)이 작동하는 렌더링 모드를 나타낸다. 예를 들어, 특정한 렌더링 툴(251)은 렌더링 모드 표시(232)에 따라 활성화 또는 비활성화될 수 있다. 또한, 특정한 렌더링 툴(251)은 렌더링 모드 표시(232)에 따라서 구성될 수 있다. 예를 들어, 특정한 렌더링 툴(251)의 제어 파라미터는 렌더링 모드 표시(232)에 따라 선택(예를 들어, 설정)될 수 있다.
본 개시의 맥락에서, 인코더(예를 들어, MPEG-I 인코더)는 6DoF 메타데이터 및 제어 데이터를 결정하는 작업, 효과적인 오디오 요소(예를 들어, 각각의 효과적인 오디오 요소에 대한 모노 오디오 신호를 포함)를 결정하는 작업, 효과적인 오디오 요소에 대한 위치(예를 들어, x, y, z)를 결정하는 작업, 및 렌더링 툴을 제어하기 위한 데이터(예를 들어, 사용 가능/불가능(enabling/disabling) 플래그 및 구성 데이터)를 결정하는 작업을 갖는다. 렌더링 툴을 제어하기 위한 데이터는, 전술한 렌더링 모드 표시에 대응하거나, 이를 포함하거나, 또는 이에 포함될 수 있다.
위에 부가적으로, 개시의 실시예에 따른 인코더는, 기준 위치(111)에 대한 기준 신호 R(존재한다면)에 관한 출력 신호(240)의 지각적 차이(perceptual difference)를 최소화할 수 있다. 즉, 디코더에 의해 사용되는 렌더링 툴/렌더링 함수 F(), 처리된 신호 A, 및 효과적인 오디오 요소의 위치(x, y, z)에 대해, 인코더는 다음의 최적화를 구현할 수 있다:
또한, 개시의 실시예에 따른 인코더는, 처리된 신호 A의 “직접적인(direct)” 부분을 원래의 객체(102)의 추정된 위치로 할당할 수 있다. 디코더에 대하여 이는 예를 들어, 단일의 캡처된 신호(120)로부터 몇몇의 효과적인 오디오 요소(101)를 재생성할 수 있을 것임을 의미할 것이다.
일부 실시예에서, 6DoF에 대한 단순한 거리 모델링에 의해 확장된 MPEG-H 3D 오디오 렌더러가 사용될 수 있으며, 효과적인 오디오 요소 위치는 방위각(azimuth), 고도(elevation), 반지름에 관하여 표현되고, 렌더링 툴 F()는 단순한 곱셈(multiplicative) 객체 이득 수정(gain modification)에 관한 것이다. 오디오 요소 위치 및 이득은 수동으로(예를 들어, 인코더 튜닝에 의해) 또는 자동으로(예를 들어, 브루트 포스(brute-force) 최적화에 의해) 획득될 수 있다.
도 5는 개시의 실시예에 따른 인코더/디코더 시스템의 다른 예시를 개략적으로 도시한다.
인코더(210)는 오디오 장면 A(처리된 신호)의 표시를 수신하고, 이는 그 후 본 개시에서 서술된 방식으로 인코딩의 대상이 된다(예를 들어, MPEG-H 인코딩). 부가적으로, 인코더(210)는 음향 환경에 대한 정보를 포함하는 메타데이터(예를 들어, 6DoF 메타데이터)를 생성할 수 있다. 인코더는, 가능성 있게 메타데이터의 일부로서, 디코더(230)의 오디오 렌더러(250)의 렌더링 툴을 구성하기 위한 렌더링 모드 표시를 또한 더 생성할 수 있다. 렌더링 툴은, 예를 들어, 효과적인 오디오 요소에 대한 신호 수정 툴을 포함할 수 있다. 렌더링 모드 표시에 의존하여, 오디오 렌더러의 특정한 렌더링 툴은 활성화 또는 비활성화될 수 있다. 예를 들어, 렌더링 모드 표시가 효과적인 오디오 요소가 렌더링될 것임을 나타낸다면, 신호 수정 툴이 활성화될 수 있는 반면, 모든 다른 렌더링 툴은 비활성화된다. 디코더(230)는 오디오 출력(240)을 출력하고, 이는 기준 렌더링 함수를 사용하여 기준 위치(111)에 대해 원래의 오디오 요소를 렌더링하는 것으로부터 기인할 기준 신호 R과 비교될 수 있다. 오디오 출력(240)을 기준 신호 R과 비교하기 위한 배열의 예시는 도 10에 개략적으로 도시된다.
도 6은 개시의 실시예에 따른 비트스트림으로 오디오 장면 콘텐츠를 인코딩하는 방법(600)의 예시를 도시하는 흐름도이다.
단계 S610에서, 오디오 장면의 묘사가 수신된다. 오디오 장면은 음향 환경 및 각각의 오디오 요소 위치에서의 하나 이상의 오디오 요소를 포함한다.
단계 S620에서, 각각의 효과적인 오디오 요소 위치에서의 하나 이상의 효과적인 오디오 요소가 하나 이상의 오디오 요소로부터 결정된다. 하나 이상의 효과적인 오디오 요소는, 렌더링 출력 상의 음향 환경의 영향을 고려하지 않는 렌더링 모드를 사용하여 기준 위치에 대해 그들 각각의 효과적인 오디오 요소 위치에서의 하나 이상의 효과적인 오디오 요소를 렌더링하는 것은, 렌더링 출력 상의 음향 환경의 영향을 고려하는 기준 렌더링 모드를 사용하여 기준 위치에 대해 그들 각각의 오디오 요소 위치에서의 하나 이상의 (원래의) 오디오 요소를 렌더링하는 것으로부터 기인할, 기준 위치에서의 기준 음장의 음향심리학적 근사치를 내는 것과 같은 방식으로 결정된다. 음향 환경의 영향은 에코, 리버브, 반사 등을 포함할 수 있다. 렌더링 출력 상의 음향 환경의 영향을 고려하지 않는 렌더링 모드는 (빈 공간에서) 거리 감쇠 모델링을 적용할 수 있다. 이러한 효과적인 오디오 요소를 결정하는 방법의 비-제한적인 예시는 아래에 더 서술될 것이다.
단계 S630에서, 하나 이상의 효과적인 오디오 요소의 효과적인 오디오 요소 위치를 나타내는 효과적인 오디오 요소 정보가 생성된다.
단계 S640에서, 하나 이상의 효과적인 오디오 요소가 사전 렌더링된 오디오 요소로부터 획득된 음장을 표현하고, 디코더에서의 렌더링 출력 상의 음향 환경의 영향을 제어하기 위한 디코더의 렌더링 툴의 사전 결정된 구성을 정의하는 사전 결정된 렌더링 모드를 사용하여 렌더링되어야 함을 나타내는, 렌더링 모드 표시가 생성된다.
단계 S650에서, 하나 이상의 오디오 요소, 오디오 요소 위치, 하나 이상의 효과적인 오디오 요소, 효과적인 오디오 요소 정보, 및 렌더링 모드 표시가 비트스트림으로 인코딩된다.
가장 단순한 사례에서, 렌더링 모드 표시는, 모든 음향(즉, 음향 환경의 영향)이 하나 이상의 효과적인 오디오 요소 내에 포함(즉, 캡슐화)됨을 나타내는 플래그일 수 있다. 따라서, 렌더링 모드 표시는, 디코더(또는 디코더의 오디오 렌더러)가 오직 거리 감쇠만이 적용되고(예를 들어, 거리-의존 이득과 곱함으로써) 모든 다른 렌더링 툴은 비활성화되는 단순한 렌더링 모드를 사용하는 표시일 수 있다. 더욱 복잡한(sophisticated) 사례에서, 렌더링 모드 표시는 렌더링 툴을 구성하기 위한 하나 이상의 제어 베일(vales)을 포함할 수 있다. 이는 개별적인 렌더링 툴의 활성화 및 비활성화를 포함할 수 있지만, 또한 렌더링 툴의 더욱 미세 단위의 제어(fine grained control)도 포함할 수 있다. 예를 들어, 렌더링 툴은 하나 이상의 효과적인 오디오 요소를 렌더링할 때 음향을 향상시키기 위해 렌더링 모드 표시에 의해 구성될 수 있다. 이는, 예를 들어 (예를 들어, 콘텐츠 창작자의) 예술적 의도에 따라서, 에코, 리버브, 반사 등과 같은 (인공적인) 음향을 추가하는 데 사용될 수 있다.
다시 말해서, 방법(600)은 오디오 데이터를 인코딩하는 방법에 관한 것일 수 있고, 오디오 데이터는 하나 이상의 음향 요소(예를 들어, 물리적 객체의 표현)를 포함하는 음향 환경의 각각의 오디오 요소 위치에서의 하나 이상의 오디오 요소를 표현한다. 이 방법은, 효과적인 오디오 요소 위치와 기준 위치 사이의 거리 감쇠를 고려하지만, 음향 환경 내의 음향 요소를 고려하지 않는 렌더링 함수를 사용할 때 기준 위치에 대해 효과적인 오디오 요소를 렌더링하는 것은, 기준 위치에 대해 그들 각각의 오디오 요소 위치에서의 하나 이상의 오디오 요소의 기준 렌더링으로부터 기인할 기준 위치에서의 기준 음장을 근사하는 것과 같은 방식으로, 음향 환경 내의 효과적인 오디오 요소 위치에서의 효과적인 오디오 요소를 결정하는 단계를 포함할 수 있다. 효과적인 오디오 요소 및 효과적인 오디오 요소 위치는 그 후 비트스트림으로 인코딩될 수 있다.
위의 상황에서, 효과적인 오디오 요소 위치에서의 효과적인 오디오 요소를 결정하는 단계는, 제1 렌더링 함수를 사용하여 음향 환경 내의 기준 위치에 대해 하나 이상의 오디오 요소를 렌더링하고, 이로써 기준 위치에서의 기준 음장을 획득하는 것 - 제1 렌더링 함수는 오디오 요소 위치와 기준 위치 사이의 거리 감쇠 뿐만 아니라 음향 환경 내의 음향 요소를 고려함 -, 및 제2 렌더링 함수를 사용하여 기준 위치에 대해 효과적인 오디오 요소를 렌더링하는 것이 기준 음장을 근사하는 기준 위치에서의 음장을 만들어 내는 방식으로, 기준 위치에서의 기준 음장에 기초하여, 음향 환경 내의 효과적인 오디오 요소 위치에서의 효과적인 오디오 요소를 결정하는 것 - 제2 렌더링 함수는 효과적인 오디오 요소 위치와 기준 위치 사이의 거리 감쇠를 고려하지만, 음향 환경 내의 음향 요소는 고려하지 않음 - 을 수반할 수 있다.
위에서 서술된 방법(600)은 청취자 데이터를 갖지 않는 0DoF 사용 사례에 관한 것일 수 있다. 일반적으로, 방법(600)은 “스마트” 인코더 및 “단순한” 디코더의 개념을 지원한다.
청취자 데이터와 관련하여, 일부 구현에서 방법(600)은, (예를 들어, 청취자 위치 구역에서) 음향 환경 내의 청취자의 머리의 위치를 나타내는 청취자 위치 정보를 획득하는 단계를 포함할 수 있다. 부가적으로 또는 대안적으로, 방법(600)은, (예를 들어, 청취자 위치 구역에서) 음향 환경 내의 청취자의 머리의 배향을 나타내는 청취자 배향 정보를 획득하는 단계를 포함할 수 있다. 청취자 위치 정보 및/또는 청취자 배향 정보는 그 후 비트스트림으로 인코딩될 수 있다. 청취자 위치 정보 및/또는 청취자 배향 정보는 하나 이상의 효과적인 오디오 요소를 그에 따라 렌더링하도록 디코더에 의해 사용될 수 있다. 예를 들어, 디코더는 하나 이상의 효과적인 오디오 요소를 (기준 위치가 아니라) 청취자의 실제 위치에 대해 렌더링할 수 있다. 마찬가지로, 특히 헤드폰 애플리케이션에 대하여, 디코더는 청취자의 머리의 배향에 따라 렌더링된 음장의 회전을 수행할 수 있다.
일부 구현에서, 방법(600)은 하나 이상의 효과적인 오디오 요소의 각각의 사운드 방출 패턴을 나타내는 정보를 포함하기 위해 효과적인 오디오 요소 정보를 생성할 수 있다. 이 정보는 그 후 하나 이상의 효과적인 오디오 요소를 그에 따라 렌더링하도록 디코더에 의해 사용될 수 있다. 예를 들어, 하나 이상의 효과적인 오디오 요소를 렌더링할 때, 디코더는 하나 이상의 효과적인 오디오 요소 각각에 대해 각각의 이득을 적용할 수 있다. 이들 이득은 각각의 방출 패턴에 기초하여 결정될 수 있다. 각각의 이득은, 각각의 효과적인 오디오 요소와 청취자 위치(또는 기준 위치에 대한 렌더링이 수행되는 경우, 기준 위치) 사이의 거리 벡터 및 각각의 오디오 요소의 방출 방향을 나타내는 방출 방향 벡터 사이의 각도에 기초하여 결정될 수 있다. 다수의 방출 방향 벡터 및 대응하는 가중치 계수를 갖는 더욱 복잡한 방출 패턴에 대하여, 이득은 이득들의 가중치 합계(weighted sum)에 기초하여 결정될 수 있고, 각각의 이득은 거리 벡터와 각각의 방출 방향 벡터 사이의 각도에 기초하여 결정된다. 합계의 가중치는 가중치 계수(weighting coefficients)에 대응할 수 있다. 방출 패턴에 기초하여 결정된 이득은, 사전 결정된 렌더링 모드에 의해 적용되는 거리 감쇠 이득에 더해질 수 있다.
일부 구현에서, 적어도 두 개의 효과적인 오디오 요소들은 생성되고 비트스트림으로 인코딩될 수 있다. 그 후, 렌더링 모드 표시는 적어도 두 개의 효과적인 오디오 요소들 각각에 대한 각각의 사전 결정된 렌더링 모드를 나타낼 수 있다. 적어도 두 개의 사전 결정된 렌더링 모드들은 구별될 수 있다. 이로써, 상이한 양의 음향 효과는, 예를 들어, 콘텐츠 창작자의 예술적 의도에 따라, 상이한 효과적인 오디오 요소에 대해 나타내어질 수 있다.
일부 구현에서, 방법(600)은, 사전 결정된 렌더링 모드가 사용될 청취자 위치 구역을 나타내는 청취자 위치 구역 정보를 획득하는 단계를 더 포함할 수 있다. 이 청취자 위치 구역 정보는 그 후 비트스트림으로 인코딩될 수 있다. 디코더에서, 사전 결정된 렌더링 모드는, 렌더링을 원하는 청취자 위치가 청취자 위치 구역 정보에 의해 나타내어지는 청취자 위치 구역 내에 있는 경우 사용되어야 한다. 그렇지 않으면, 디코더는, 예를 들어, 디폴트 렌더링 모드와 같은, 그의 선택한 렌더링 모드를 적용할 수 있다.
또한, 상이한 사전 결정된 렌더링 모드는, 렌더링을 원하는 청취자 위치에 의존하여 예견될 수 있다. 따라서, 렌더링 모드 표시에 의해 나타내어진 사전 결정된 렌더링 모드는, 렌더링 모드 표시가 복수의 청취자 위치들 각각에 대한 각각의 사전 결정된 렌더링 모드를 나타내도록, 청취자 위치에 의존할 수 있다. 마찬가지로, 상이한 사전 결정된 렌더링 모드는, 렌더링을 원하는 청취자 위치 구역에 의존하여 예견될 수 있다. 특히, 상이한 청취자 위치(또는 청취자 위치 구역)에 대한 상이한 효과적인 오디오 요소가 있을 수 있다. 이러한 렌더링 모드 표시를 제공하는 것은, 각각의 청취자 위치(또는 청취자 위치 구역)에 대해 적용되는, (인공적인) 에코, 리버브, 반사 등과 같은, (인공적인) 음향의 제어를 할 수 있게 한다.
도 7은 개시의 실시예에 따른 디코더에 의해 비트스트림으로부터 오디오 장면 콘텐츠를 디코딩하는 대응하는 방법(700)의 예시를 도시하는 흐름도이다. 디코더는 하나 이상의 렌더링 툴을 갖는 오디오 렌더러를 포함할 수 있다.
단계 S710에서, 비트스트림이 수신된다. 단계 S720에서, 오디오 장면의 묘사가 비트스트림으로부터 디코딩된다. 단계 S730에서, 하나 이상의 효과적인 오디오 요소가 오디오 장면의 묘사로부터 결정된다.
단계 S740에서, 하나 이상의 효과적인 오디오 요소의 효과적인 오디오 요소 위치를 나타내는 효과적인 오디오 요소 정보가 오디오 장면의 묘사로부터 결정된다.
*단계 S750에서, 렌더링 모드 표시가 비트스트림으로부터 디코딩된다. 렌더링 모드 표시는, 하나 이상의 효과적인 오디오 요소가 사전 렌더링된 오디오 요소로부터 획득된 음장을 표현하는지 및 사전 결정된 렌더링 모드를 사용하여 렌더링되어야 하는지를 나타낸다.
단계 S760에서, 렌더링 모드 표시가 하나 이상의 효과적인 오디오 요소가 사전 렌더링된 오디오 요소로부터 획득된 음장을 표현하고 사전 결정된 렌더링 모드를 사용하여 렌더링되어야 한다고 나타내는 것에 응답하여, 하나 이상의 효과적인 오디오 요소는 사전 결정된 렌더링 모드를 사용하여 렌더링된다. 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 것은 효과적인 오디오 요소 정보를 고려한다. 또한, 사전 결정된 렌더링 모드는, 렌더링 출력 상의 오디오 장면의 음향 환경의 영향을 제어하기 위한 렌더링 툴의 사전 결정된 구성을 정의한다.
일부 구현에서, 방법(700)은 (예를 들어, 청취자 위치 구역에서) 음향 환경 내의 청취자의 머리의 위치를 나타내는 청취자 위치 정보 및/또는 (예를 들어, 청취자 위치 구역에서) 음향 환경 내의 청취자의 머리의 배향을 나타내는 청취자 배향 정보를 획득하는 단계를 포함할 수 있다. 그 후, 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 것은, 예를 들어 방법(600)을 참조하여 위에서 나타내어진 방식으로, 청취자 위치 정보 및/또는 청취자 배향 정보를 더 고려할 수 있다. 대응하는 디코더는 청취자 위치 정보 및/또는 청취자 배향 정보를 수신하기 위한 인터페이스를 포함할 수 있다.
방법(700)의 일부 구현에서, 효과적인 오디오 요소 정보는 하나 이상의 효과적인 오디오 요소의 각각의 사운드 방출 패턴을 나타내는 정보를 포함할 수 있다. 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 것은 그 후, 예를 들어 방법(600)을 참조하여 위에서 나타내어진 방식으로, 하나 이상의 효과적인 오디오 요소의 각각의 사운드 방출 패턴을 나타내는 정보를 더 고려할 수 있다.
방법(700)의 일부 구현에서, 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 것은, 청취자 위치와 하나 이상의 효과적인 오디오 요소의 효과적인 오디오 요소 위치 사이의 각각의 거리에 따라 (빈 공간에서) 사운드 감쇠 모델링을 적용할 수 있다. 이러한 사전 결정된 렌더링 모드는 단순한 렌더링 모드로 지칭될 것이다. 음향 환경의 영향이 하나 이상의 효과적인 오디오 요소로 “캡슐화”되기 때문에, 단순한 렌더링 모드(즉, 오직 빈 공간에서 거리 감쇠만)를 적용하는 것이 가능하다. 이렇게 함으로써, 디코더의 처리 부하의 일부는 인코더에 위임될(delegated) 수 있고, 저 능력 디코더에 의해서도 예술적 의도에 따라 몰입형 음장의 렌더링을 할 수 있게 한다.
방법(700)의 일부 구현에서, 적어도 두 개의 효과적인 오디오 요소들은 오디오 장면의 묘사로부터 결정될 수 있다. 그 후, 렌더링 모드 표시는, 적어도 두 개의 효과적인 오디오 요소들 각각에 대한 각각의 사전 결정된 렌더링 모드를 나타낼 수 있다. 이러한 상황에서, 방법(700)은 그들 각각의 사전 결정된 렌더링 모드를 사용하여 적어도 두 개의 효과적인 오디오 요소들을 렌더링하는 단계를 더 포함할 수 있다. 그 각각의 사전 결정된 렌더링 모드를 사용하여 각각의 효과적인 오디오 요소를 렌더링하는 것은 그 효과적인 오디오 요소에 대한 효과적인 오디오 요소 정보를 고려할 수 있고, 그 효과적인 오디오 요소에 대한 렌더링 모드는, 그 효과적인 오디오 요소에 대한 렌더링 출력 상의 오디오 장면의 음향 환경의 영향을 제어하기 위한 렌더링 툴의 각각의 사전 결정된 구성을 정의할 수 있다. 적어도 두 개의 사전 결정된 모드들은 구별될 수 있다. 이로써, 상이한 양의 음향 효과는, 예를 들어 콘텐츠 창작자의 예술적 의도에 따라, 상이한 효과적인 오디오 요소에 대해 나타내어질 수 있다.
일부 구현에서, 효과적인 오디오 요소 및 (실제/원래의) 오디오 요소 모두는 디코딩될 비트스트림으로 인코딩될 수 있다. 그 후, 방법(700)은 오디오 장면의 묘사로부터 하나 이상의 오디오 요소를 결정하는 단계 및 오디오 장면의 묘사로부터 하나 이상의 오디오 요소의 오디오 요소 위치를 나타내는 오디오 요소 정보를 결정하는 단계를 포함할 수 있다. 하나 이상의 오디오 요소를 렌더링하는 것은 그 후, 하나 이상의 효과적인 오디오 요소에 대해 사용되는 사전 결정된 렌더링 모드와 상이한 하나 이상의 오디오 요소에 대한 렌더링 모드를 사용하여 수행된다. 하나 이상의 오디오 요소에 대한 렌더링 모드를 사용하여 하나 이상의 오디오 요소를 렌더링하는 것은 오디오 요소 정보를 고려할 수 있다. 이는, (실제/원래의) 오디오 요소를, 예를 들어, 기준 렌더링 모드로 렌더링하면서, 효과적인 오디오 요소를, 예를 들어, 단순한 렌더링 모드로 렌더링할 수 있게 한다. 또한, 사전 결정된 렌더링 모드는 오디오 요소에 대해 사용되는 렌더링 모드와 별도로 구성될 수 있다. 더욱 일반적으로, 오디오 요소 및 효과적인 오디오 요소에 대한 렌더링 모드는, 수반된 렌더링 툴의 상이한 구성을 의미할(imply) 수 있다. (음향 환경의 영향을 고려하는) 음향 렌더링은 오디오 요소에 적용될 수 있는 반면, (빈 공간에서) 거리 감쇠 모델링은, 가능성 있게 (인코딩을 위해 가정된 음향 환경에 의해 반드시 결정될 필요는 없는) 인공적인 음향과 함께, 효과적인 오디오 요소에 대해 적용될 수 있다.
일부 구현에서, 방법(700)은, 사전 결정된 렌더링 모드가 사용될 청취자 위치 구역을 나타내는 청취자 위치 구역 정보를 획득하는 단계를 더 포함할 수 있다. 청취자 위치 구역 내의 청취자 위치 구역 정보에 의해 나타내어진 청취자 위치에 대해 렌더링하기 위해, 사전 결정된 렌더링 모드가 사용되어야 한다. 그렇지 않으면, 디코더는, 예를 들어 디폴트 렌더링 모드와 같은, (구현 의존적일 수 있는) 그의 선택한 렌더링 모드를 적용할 수 있다.
방법(700)의 일부 구현에서, 렌더링 모드 표시에 의해 나타내어진 사전 결정된 렌더링 모드는 청취자 위치(또는 청취자 위치 구역)에 의존할 수 있다. 그 후, 디코더는, 청취자 위치 구역 정보에 의해 나타내어진 청취자 위치 구역에 대한 렌더링 모드 표시에 의해 나타내어지는 그 사전 결정된 렌더링 모드를 사용하여 하나 이상의 효과적인 오디오 요소를 렌더링하는 것을 수행할 수 있다.
도 8은 오디오 장면 콘텐츠를 생성하는 방법(800)의 예시를 도시하는 흐름도이다.
*단계 S810에서 오디오 장면으로부터 캡처된 신호를 표현하는 하나 이상의 오디오 요소가 획득된다. 이는 예를 들어, 마이크 또는 레코딩 능력을 갖는 모바일 디바이스를 사용하는 사운드 캡처에 의해 예를 들어 행해질 수 있다.
단계 S820에서, 생성될 하나 이상의 효과적인 오디오 요소의 효과적인 오디오 요소 위치를 나타내는 효과적인 오디오 요소 정보가 획득된다. 효과적인 오디오 요소 위치는 추정될 수 있거나, 사용자 입력으로서 수신될 수 있다.
단계 S830에서, 하나 이상의 효과적인 오디오 요소는, 캡처된 신호가 캡처된 위치와 하나 이상의 효과적인 오디오 요소의 효과적인 오디오 요소 위치 사이의 거리에 따른 사운드 감쇠 모델링의 적용에 의해 캡처된 신호를 표현하는 하나 이상의 오디오 요소로부터 결정된다.
방법(800)은 별개의(discrete) 캡처 위치(도 3 참조)로부터 오디오 요소(102)를 표현하는 캡처된 오디오 신호(120)의 실세계 A(/V) 레코딩을 가능하게 한다. 본 개시에 따른 방법 및 장치는 청취자 위치 구역(110) 내의 기준 위치(111) 또는 다른 위치(112) 및 배향으로부터(즉, 6DoF 프레임워크에서) 이 소재의 소비를 가능하게 할 것이다(예를 들어, 3DoF+, 3DoF, 0DoF 플랫폼을 사용하는, 예를 들어 가능한 한 의미있는 사용자 경험으로). 이는 도 9에 개략적으로 도시된다.
오디오 장면 내의 (실제/원래의) 오디오 요소로부터 효과적인 오디오 요소를 결정하는 것에 대한 하나의 비-제한적인 예시는 다음에 서술될 것이다.
위에서 나타내어진 바와 같이, 본 개시의 실시예는, (사운드 전파의 물리적 법칙에 일치하거나 일치하지 않을 수 있는) 사전 정의된 기준 신호에 대응하는 방법으로 “3DoF 위치”에서 음장을 재생성하는 것에 관한 것이다. 이 음장은 모든 원래의 “오디오 소스”(오디오 요소)에 기초해야 하고, 대응하는 음향 환경(예를 들어, VR/AR/MR 환경, 즉, “문”, “벽” 등)의 복잡한 (및 가능성 있게 동적으로 변화하는) 기하학의 영향을 반영해야 한다. 예를 들어, 도 2의 예시를 참조하여, 음장은 엘리베이터 내부의 모든 사운드 소스(오디오 요소)에 관한 것일 수 있다.
또한, 대응하는 렌더러(예를 들어, 6DoF 렌더러) 출력 음장은, “6DoF 공간”에 대한 높은 수준의 VR/AR/MR 몰입(immersion)을 제공하기 위해, 충분히 양호하게 재생성되어야 한다.
따라서, 개시의 실시예는, 몇몇의 원래의 오디오 객체(오디오 요소)를 렌더링하는 것 및 복잡한 음향 환경 영향을 처리하는 것 대신에, 인코더에서 사전 렌더링되는 가상 오디오 객체(들)(효과적인 오디오 요소)을 도입하여 전반적인 오디오 장면을 표현하는 것(즉, 오디오 장면의 음향 환경의 영향을 고려하는 것)에 관한 것이다. 음향 환경의 모든 효과(예를 들어, 음향 가림, 잔향, 직접 반사, 에코 등)는, 인코딩되고 렌더러(예를 들어, 6DoF 렌더러)로 송신되는 가상 객체(효과적인 오디오 요소) 파형에서 직접적으로 캡처된다.
대응하는 디코더-측 렌더러(예를 들어, 6DoF 렌더러)는, 이러한 객체 유형(요소 유형)에 대한 전체 6DoF 공간에서 (VR/AR/MR 환경을 고려하지 않는) “단순한 렌더링 모드”에서 동작할 수 있다. (위의 사전 결정된 렌더링 모드의 예시로서) 단순한 렌더링 모드는 (빈 공간에서) 거리 감쇠만을 고려할 수 있지만, 잔향, 에코, 직접 반사, 음향 가림 등과 같은 음향 환경의(예를 들어, 음향 환경의 음향 요소의) 효과를 고려하지 않을 수 있다.
사전 정의된 기준 신호의 적용 가능성 범위를 확장하기 위해, 가상 객체(들)(효과적인 오디오 요소)은 음향 환경(VR/AR/MR 공간)에서 특정한 위치에 위치할 수 있다(예를 들어, 원래의 오디오 장면 또는 원래의 오디오 요소들의 사운드 세기의 중심에). 이 위치는 역 오디오 렌더링에 의해 자동으로 또는 콘텐츠 제공자에 의해 수동적으로 지정되어 인코더에서 결정될 수 있다. 이 경우에서, 인코더는 다음만을 전송한다:
1.b) 가상 오디오 객체의 “사전 렌더링된 유형”을 시그널링하는(signaling) 플래그(또는 일반적으로, 렌더링 모드 표시);
2.b) 적어도 하나의 사전 렌더링된 기준(예를 들어, 모노 객체)으로부터 획득된 가상 오디오 객체 신호(효과적인 오디오 요소); 및
3.b) “3DoF 위치”의 좌표 및 “6DoF 공간”의 묘사(예를 들어, 효과적인 오디오 요소 위치를 포함하는 효과적인 오디오 요소 정보)
전통적인 접근법에 대한 사전 정의된 기준 신호는, 제안된 접근법에 대한 가상 오디오 객체 신호(2.b)와 동일하지 않다. 다시 말해, 가상 오디오 객체 신호(2.b)의 “단순한” 6DoF 렌더링은 주어진 “3DoF 위치(들)”에 대한 가능한 한 양호하게 사전 정의된 기준 신호를 근사해야 한다.
일 예시에서, 다음의 인코딩 방법은 오디오 인코더에 의해 수행될 수 있다:
1. 원하는 “3DoF 위치(들)” 및 대응하는 “3DoF+ 영역(들)”(예를 들어, 렌더링을 원하는 청취자 위치 및/또는 청취자 위치 구역)의 결정
2. 이들 “3DoF 위치(들)”에 대한 기준 렌더링(또는 직접 레코딩)
3. 역 오디오 렌더링, “3DoF 위치(들)”에서 획득된 기준 신호(들)의 가장 가능성 있는 근사치를 만드는 가상 오디오 객체(들)(효과적인 오디오 요소)의 위치(들) 및 신호(들)의 결정
4. 대응하는 6DoF 공간(음향 환경) 및 6DoF 렌더러의 “단순한 렌더링 모드”를 가능하게 하는 “사전 렌더링된 객체” 속성(예를 들어, 렌더링 모드 표시)의 시그널링과 함께 결과적인 가상 오디오 객체(들)(효과적인 오디오 요소) 및 그의/그들의 위치(들)의 인코딩
역 오디오 렌더링(위의 항목 3 참조) 복잡성(complexity)은 6DoF 렌더러의 “단순한 렌더링 모드”의 6DoF 처리 복잡성에 직접적으로 상관관계를 갖는다(correlates). 또한, 이 처리는 계산 능력(computational power) 면에서 더 적은 제한을 갖도록 가정되는 인코더 측에서 발생한다.
비트스트림으로 전송될 필요가 있는 데이터 요소의 예시는 도 11a에 개략적으로 도시된다. 도 11b는 전통적인 인코딩/디코딩 시스템의 비트스트림으로 전송될 데이터 요소를 개략적으로 도시한다.
도 12는 직접적인 “단순한” 및 “기준” 렌더링 모드의 사용 사례를 도시한다. 도 12의 좌측은 전술한 렌더링 모드의 동작을 도시하고, 우측은 (도 2의 예시에 기초하여) 어느 하나의 렌더링 모드를 사용하여 청취자 위치에 대한 오디오 객체의 렌더링을 개략적으로 도시한다.
● “단순한 렌더링 모드는” 음향 환경(예를 들어, 음향 VR/AR/MR 환경)을 처리하지 않을 수 있다. 즉, 단순한 렌더링 모드는 오직 거리 감쇠(예를 들어, 빈 공간에서)만을 처리할 수 있다. 예를 들어, 도 12의 좌측의 상단 패널에 도시된 바와 같이, 단순한 렌더링 모드에서 Fsimple은 오직 거리 감쇠만을 처리하지만, 문 열림 또는 닫힘(예를 들어, 도 2 참조)과 같은 VR/AR/MR 환경의 효과를 처리하지 못한다.
●“기준 렌더링 모드”(도 12의 좌측의 하단 패널)는 VR/AR/MR 환경적 효과의 일부 또는 전부를 처리할 수 있다.
도 13은 단순한 렌더링 모드의 예시적인 인코더/디코더 측 처리를 도시한다. 좌측의 상단 패널은 인코더 처리를 도시하고 좌측의 하단 패널은 디코더 처리를 도시한다. 우측은 효과적인 오디오 요소의 위치에 대해 청취자 위치에서의 오디오 신호의 역 렌더링을 개략적으로 도시한다.
렌더러(예를 들어, 6DoF 렌더러) 출력은 3DoF 위치(들)의 기준 오디오 신호를 근사할 수 있다. 이 근사치는 오디오 코어-코더(core-coder) 영향 및 오디오 객체 집합(aggregation)(즉, 더 적은 수의 가상 객체(효과적인 오디오 요소)에 의한 몇몇의 공간적으로 구별되는 오디오 소스(오디오 요소)의 표현)의 효과를 포함할 수 있다. 예를 들어, 근사된 기준 신호는 6DoF 공간에서 변화하는 청취자 위치를 처리할 수 있고, 마찬가지로 더 적은 수의 가상 객체들(효과적인 오디오 요소들)에 기초하여 몇몇의 오디오 소스(오디오 요소)를 표현할 수 있다. 이는 도 14에 개략적으로 도시된다.
일 예시에서, 도 15는 사운드 소스/객체 신호(오디오 요소) 101, 가상 객체 신호(효과적인 오디오 요소) 100, 3DoF의 원하는 렌더링 출력 102 , 및 원하는 렌더링의 근사치 103 를 도시한다.
추가적인 용어(terminology)는 다음을 포함한다:
- 3DoF 주어진 기준 호환성 위치(들) ∈ 6DoF 공간
- 6DoF 임의의 허용된 위치(들) ∈ VR/AR/MR 장면
- 인코더 결정 기준 렌더링
- 디코더 특정 6DoF “단순한 모드 렌더링”
- 3DoF 위치/6DoF 공간의 음장 표현
- 3DoF 위치(들)에 대한 인코더 결정 기준 신호(들):
-
- 포괄적인(generic) 기준 렌더링 출력
-
(인코더 측에) 주어진 것:
● 오디오 소스 신호(들)
● 3DoF 위치(들)에 대한 기준 신호(들)
(렌더러에서) 이용 가능한 것:
● 가상 객체 신호(들)
* ● 디코더 6DoF "단순한 렌더링 모드"
과제: 를 정의하여 다음을 제공한다.
● 3DoF의 원하는 렌더링 출력
● 원하는 렌더링의 근사치
솔루션:
● 가상 객체(들)의 정의 ,
● 가상 객체(들)의 6DoF 렌더링
제안된 접근법의 다음의 주요 이점이 식별될 수 있다:
예술적 렌더링 기능성 지원: 6DoF 렌더러의 출력은 (인코더 측에 알려진) 임의의 예술적 사전 렌더링된 기준 신호에 대응할 수 있다.
계산적 복잡성: 6DoF 오디오 렌더러(예를 들어, MPEG-I 오디오 렌더러)는 복잡한 음향 VR/AR/MR 환경에 대해 "단순한 렌더링 모드"에서 작용할 수 있다.
코딩 효율성: 이 접근법에 대하여 사전 렌더링된 신호(들)에 대한 오디오 비트레이트는 3DoF 위치들의 수(더욱 정확히는, 대응하는 가상 객체들의 수)에 비례하고, 원래의 오디오 소스들의 수에 비례하지 않는다. 이는 높은 수의 객체들을 갖고 6DoF 이동 자유가 제한된 경우에 대해 매우 유익할 수 있다.
● 사전 결정된 위치(들)에서의 오디오 품질 제어: 최고의 지각적 오디오 품질은 VR/AR/MR 공간의 어느 임의의 위치(들) 및 대응하는 3DoF+ 영역(들)에 대해 인코더에 의해 명확히 보장될 수 있다.
본 발명은 기준 렌더링/레코딩(즉, "예술적 의도") 개념을 지원한다: 임의의 복잡한 음향 환경의 효과(또는 예술적 렌더링 효과)는 사전 렌더링된 오디오 신호(들)에 의해 인코딩(및 사전 렌더링된 오디오 신호(들)로 송신)될 수 있다.
다음의 정보는 기준 렌더링/레코딩을 할 수 있도록 비트스트림으로 시그널링될 수 있다:
● 대응하는 가상 객체(들)에 대한 음향 VR/AR/MR 환경의 영향을 무시하는 "단순한 렌더링 모드"를 가능하게 하는, 사전 렌더링된 신호 유형 플래그(들).
● 가상 객체 신호(들) 렌더링에 대한 적용 가능성의 영역(즉, 6DoF 공간)을 묘사하는 파라미터화.
6DoF 오디오 처리(예를 들어, MPEG-I 오디오 처리) 동안, 다음이 특정될 수 있다:
● 6DoF 렌더러가 어떻게 이러한 사전 렌더링된 신호를 서로 및 일반적인 것들과 혼합하는지.
따라서, 본 발명은:
● 디코더 특정된 "단순한 모드 렌더링" 함수(즉, )의 정의에 관하여 포괄적이다; 이는 임의로 복잡할 수 있지만, 디코더 측에 대응하는 근사치가 존재해야 한다(즉, ); 이상적으로 이 근사치는 수학적으로 "잘 정의된(well-defined)"(예를 들어, 알고리즘적으로 안정한 등) 것이어야 한다.
● 확장 가능하고 포괄적인 음장 및 사운드 소스 표현(및 그들의 조합): 객체, 채널, FOA, HOA에 적용 가능하다.
● (거리 감쇠 모델링에 부가적으로) 오디오 소스 방향성 양상을 고려할 수 있다.
● 사전 렌더링된 신호에 대한 다수의(심지어 중첩되는) 3DoF 위치들에 대해 적용 가능하다.
● 사전 렌더링된 신호(들)이 일반적인 것들(분위기(ambience), 객체, FOA, HOA 등)과 혼합되는 시나리오에 대해 적용 가능하다.
● 3DoF 위치(들)에 대하여 기준 신호(들) 을 다음으로서 정의하고 획득할 수 있게 한다:
- 콘텐츠 창작자 측에 적용되는 어느 (임의의 복잡한) "생산 렌더러(production renderer)"의 출력
- 실제 오디오 신호/필드 레코딩(및 그의 예술적 수정)
본 개시의 일부 실시예는 다음에 기초하여 3DoF 위치를 결정하는 것에 관한 것일 수 있다:
.
본원에 서술된 방법 및 시스템은 소프트웨어, 펌웨어 및/또는 하드웨어로서 구현될 수 있다. 특정 구성요소는 디지털 신호 프로세서 또는 마이크로프로세서 상에 구동되는 소프트웨어로서 구현될 수 있다. 다른 구성요소는 하드웨어로서 및 또는 애플리케이션 특정 집적 회로로서 구현될 수 있다. 서술된 방법 및 시스템에서 접한 신호는 랜덤 액세스 메모리(random access memory) 또는 광학 저장 매체(optical storage media)와 같은 매체에 저장될 수 있다. 그들은 라디오 네트워크, 위성 네트워크, 무선 네트워크 또는 와이어라인(wireline) 네트워크, 예를 들어 인터넷과 같은 네트워크를 통해 전송될 수 있다. 본원에 서술된 방법 및 시스템을 이용하는 전형적인 디바이스는 오디오 신호를 저장 및/또는 렌더링하는 데 사용되는 휴대용 전자 디바이스 또는 다른 소비자 장비이다.
본 개시에 따른 방법 및 장치의 예시적 구현은, 청구항이 아닌, 다음의 열거된 예시적 실시예들(enumerated example embodiments, EEEs)로부터 분명해질 것이다.
EEE1은, 적어도 하나의 사전 렌더링된 기준 신호로부터 획득된 가상 오디오 객체 신호를 인코딩하는 단계; 3DoF 위치 및 6DoF 공간의 묘사를 나타내는 메타데이터를 인코딩하는 단계; 및 인코딩된 가상 오디오 신호 및 3DoF 위치 및 6DoF 공간의 묘사를 나타내는 메타데이터를 송신하는 단계를 포함하는, 오디오 데이터를 인코딩하기 위한 방법에 관한 것이다.
EEE2는, EEE1의 방법에 관한 것으로, 가상 오디오 객체의 사전 렌더링된 유형의 존재를 나타내는 신호를 송신하는 단계를 더 포함한다.
EEE3은, EEE1 또는 EEE2의 방법에 관한 것으로, 적어도 하나의 사전 렌더링된 기준은 3DoF 위치 및 대응하는 3DoF+ 영역의 기준 렌더링에 기초하여 결정된다.
EEE4는, EEE1 내지 EEE3 중 어느 하나의 방법에 관한 것으로, 6DoF 공간에 대한 가상 오디오 객체의 위치를 결정하는 단계를 더 포함한다.
EEE5는, EEE1 내지 EEE4 중 어느 하나의 방법에 관한 것으로, 가상 오디오 객체의 위치는 역 오디오 렌더링 또는 콘텐츠 제공자에 의한 수동적 지정(manual specification) 중 적어도 하나에 기초하여 결정된다.
EEE6은, EEE1 내지 EEE5 중 어느 하나의 방법에 관한 것으로, 가상 오디오 객체는 3DoF 위치에 대한 사전 정의된 기준 신호를 근사한다.
EEE7은, EEE1 내지 EEE6 중 어느 하나의 방법에 관한 것으로, 가상 객체는 다음에 기초하여 정의된다:
여기에서 가상 객체 신호는 , 디코더 6DoF "단순한 렌더링 모드" 이고,
가상 객체는 3DoF 위치와 가상 객체에 대한 단순한 렌더링 모드 결정 사이의 절대 차이(absolute difference)를 최소화하도록 결정된다.
EEE8은 가상 오디오 객체를 렌더링하기 위한 방법에 관한 것으로, 방법은: 가상 오디오 객체에 기초하여 6DoF 오디오 장면을 렌더링하는 단계를 포함한다.
EEE9는, EEE8의 방법에 관한 것으로, 가상 객체의 렌더링은 다음에 기초하고:
여기에서 은 가상 객체에 대응하고; 는 6DoF에서 근사된 렌더링된 객체에 대응하고; 은 디코더 특정된 단순한 모드 렌더링 함수에 대응한다.
EEE10은, EEE8 또는 EEE9의 방법에 관한 것으로, 가상 객체의 렌더링은 가상 오디오 객체의 사전 렌더링된 유형을 시그널링하는 플래그에 기초하여 수행된다.
EEE11은, EEE8 내지 EEE10 중 어느 하나의 방법에 관한 것으로, 사전 렌더링된 3DoF 위치 및 6DoF 공간의 묘사를 나타내는 메타데이터를 수신하는 단계를 더 포함하고, 렌더링은 3DoF 위치 및 6DoF 공간의 묘사에 기초한다.

Claims (1)

  1. 하나 이상의 렌더링 툴(rendering tools)을 갖는 오디오 렌더러(audio renderer)를 포함하는 디코더에 의해 비트스트림(bitstream)으로부터 오디오 장면 콘텐츠(audio scene content)를 디코딩하는 방법으로서, 상기 방법은:
    상기 비트스트림을 수신하는 단계;
    상기 비트스트림으로부터 오디오 장면의 묘사(description)를 디코딩하는 단계 - 상기 오디오 장면은 음향 환경(acoustic environment)을 포함함 -;
    상기 오디오 장면의 상기 묘사로부터 하나 이상의 효과적인 오디오 요소(effective audio elements)를 결정하는 단계 - 상기 하나 이상의 효과적인 오디오 요소는 상기 음향 환경의 영향(impact)을 캡슐화하고(encapsulate) 상기 오디오 장면을 표현하는 하나 이상의 가상 오디오 객체에 대응함 -;
    상기 오디오 장면의 상기 묘사로부터 상기 하나 이상의 효과적인 오디오 요소의 효과적인 오디오 요소 위치를 나타내는 효과적인 오디오 요소 정보를 결정하는 단계 - 상기 효과적인 오디오 요소 정보는 상기 하나 이상의 효과적인 오디오 요소의 각각의 사운드 방출 패턴(sound radiation patterns)을 나타내는 정보를 포함함 -;
    상기 비트스트림으로부터 렌더링 모드 표시(rendering mode indication)를 디코딩하는 단계 - 상기 렌더링 모드 표시는 상기 하나 이상의 효과적인 오디오 요소가 사전 렌더링된(pre-rendered) 오디오 요소로부터 획득된 음장(sound field)을 표현하는지 및 사전 결정된(predetermined) 렌더링 모드를 사용하여 렌더링되어야 하는지를 나타냄 -; 및
    상기 렌더링 모드 표시가, 상기 하나 이상의 효과적인 오디오 요소가 사전 렌더링된 오디오 요소로부터 획득된 상기 음장을 표현하고 상기 사전 결정된 렌더링 모드를 사용하여 렌더링되어야 함을 나타내는 것에 응답하여, 상기 사전 결정된 렌더링 모드를 사용하여 상기 하나 이상의 효과적인 오디오 요소를 렌더링하는 단계를 포함하며,
    상기 사전 결정된 렌더링 모드를 사용하여 상기 하나 이상의 효과적인 오디오 요소를 렌더링하는 단계는 상기 효과적인 오디오 요소 정보, 및 상기 하나 이상의 효과적인 오디오 요소의 상기 각각의 사운드 방출 패턴을 나타내는 상기 정보를 고려하고, 상기 사전 결정된 렌더링 모드는 렌더링 출력 상의 상기 오디오 장면의 상기 음향 환경의 영향을 제어하기 위한 상기 렌더링 툴의 사전 결정된 구성을 정의하는, 방법.
KR1020247006678A 2018-04-11 2019-04-08 오디오 렌더링을 위한 사전 렌더링된 신호를 위한 방법, 장치 및 시스템 KR20240033290A (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201862656163P 2018-04-11 2018-04-11
US62/656,163 2018-04-11
US201862755957P 2018-11-05 2018-11-05
US62/755,957 2018-11-05
PCT/EP2019/058833 WO2019197349A1 (en) 2018-04-11 2019-04-08 Methods, apparatus and systems for a pre-rendered signal for audio rendering
KR1020207032058A KR102643006B1 (ko) 2018-04-11 2019-04-08 오디오 렌더링을 위한 사전 렌더링된 신호를 위한 방법, 장치 및 시스템

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020207032058A Division KR102643006B1 (ko) 2018-04-11 2019-04-08 오디오 렌더링을 위한 사전 렌더링된 신호를 위한 방법, 장치 및 시스템

Publications (1)

Publication Number Publication Date
KR20240033290A true KR20240033290A (ko) 2024-03-12

Family

ID=66165950

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020207032058A KR102643006B1 (ko) 2018-04-11 2019-04-08 오디오 렌더링을 위한 사전 렌더링된 신호를 위한 방법, 장치 및 시스템
KR1020247006678A KR20240033290A (ko) 2018-04-11 2019-04-08 오디오 렌더링을 위한 사전 렌더링된 신호를 위한 방법, 장치 및 시스템

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020207032058A KR102643006B1 (ko) 2018-04-11 2019-04-08 오디오 렌더링을 위한 사전 렌더링된 신호를 위한 방법, 장치 및 시스템

Country Status (7)

Country Link
US (1) US11540079B2 (ko)
EP (1) EP3777245A1 (ko)
JP (2) JP7371003B2 (ko)
KR (2) KR102643006B1 (ko)
CN (4) CN115346539A (ko)
BR (1) BR112020019890A2 (ko)
WO (1) WO2019197349A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113993060A (zh) * 2018-04-09 2022-01-28 杜比国际公司 用于mpeg-h 3d音频的三自由度(3dof+)扩展的方法、设备和***
CN115346539A (zh) * 2018-04-11 2022-11-15 杜比国际公司 用于音频渲染的预渲染信号的方法、设备和***
US11722718B2 (en) 2019-01-24 2023-08-08 Interdigital Vc Holdings, Inc. System and method for adaptive spatial content streaming with multiple levels of detail and degrees of freedom
US20230171557A1 (en) * 2020-03-16 2023-06-01 Nokla Technologies Oy Rendering encoded 6dof audio bitstream and late updates
JP2024525456A (ja) * 2021-06-30 2024-07-12 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 残響レベルの調整
CN116567516A (zh) * 2022-01-28 2023-08-08 华为技术有限公司 一种音频处理方法和终端

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SI1875463T1 (sl) * 2005-04-22 2019-02-28 Qualcomm Incorporated Sistemi, postopki in naprava za glajenje faktorja ojačenja
US8817072B2 (en) * 2010-03-12 2014-08-26 Sony Corporation Disparity data transport and signaling
TWI517028B (zh) * 2010-12-22 2016-01-11 傑奧笛爾公司 音訊空間定位和環境模擬
WO2012122397A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
KR102185941B1 (ko) * 2011-07-01 2020-12-03 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
KR20140047509A (ko) * 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
SG11201504368VA (en) * 2012-12-04 2015-07-30 Samsung Electronics Co Ltd Audio providing apparatus and audio providing method
US10582330B2 (en) * 2013-05-16 2020-03-03 Koninklijke Philips N.V. Audio processing apparatus and method therefor
US9412385B2 (en) 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
MX361115B (es) 2013-07-22 2018-11-28 Fraunhofer Ges Forschung Descodificador de audio multicanal, codificador de audio multicanal, métodos, programa de computadora y representación de audio codificada usando una decorrelación de señales de audio renderizadas.
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN103701577B (zh) 2013-12-11 2017-08-11 北京邮电大学 云无线接入网中抑制导频污染的导频分配方法
DE102014211899A1 (de) 2014-06-20 2015-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Kopiergeschützten Erzeugen und Abspielen einer Wellenfeldsynthese-Audiodarstellung
CN104168091A (zh) 2014-09-01 2014-11-26 东南大学 一种面向多播业务的多天线分组预编码方法
EP3319342B1 (en) 2015-06-24 2020-04-01 Sony Corporation Device, method, and program for processing sound
KR20230105002A (ko) 2015-08-25 2023-07-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩및 디코딩
US9961467B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US10046229B2 (en) * 2016-05-02 2018-08-14 Bao Tran Smart device
EP3472832A4 (en) 2016-06-17 2020-03-11 DTS, Inc. DISTANCE-BASED PANORAMIC USING NEAR / FAR FIELD RENDERING
US10262665B2 (en) 2016-08-30 2019-04-16 Gaudio Lab, Inc. Method and apparatus for processing audio signals using ambisonic signals
JP2019533404A (ja) * 2016-09-23 2019-11-14 ガウディオ・ラボ・インコーポレイテッド バイノーラルオーディオ信号処理方法及び装置
US10659904B2 (en) * 2016-09-23 2020-05-19 Gaudio Lab, Inc. Method and device for processing binaural audio signal
CN106603134B (zh) 2016-12-22 2020-10-27 东南大学 一种用于双向无线通信***的分布式天线选择设计方法
CN115346539A (zh) * 2018-04-11 2022-11-15 杜比国际公司 用于音频渲染的预渲染信号的方法、设备和***
EP3693846A1 (en) * 2019-02-06 2020-08-12 Nokia Technologies Oy An apparatus, method or computer program for rendering sound scenes defined by spatial audio content to a user

Also Published As

Publication number Publication date
EP3777245A1 (en) 2021-02-17
JP2024012333A (ja) 2024-01-30
RU2020132974A (ru) 2022-04-07
BR112020019890A2 (pt) 2021-01-05
CN111955020B (zh) 2022-08-23
CN115346538A (zh) 2022-11-15
WO2019197349A1 (en) 2019-10-17
US11540079B2 (en) 2022-12-27
KR20200140875A (ko) 2020-12-16
JP2021521681A (ja) 2021-08-26
US20210120360A1 (en) 2021-04-22
CN115334444A (zh) 2022-11-11
JP7371003B2 (ja) 2023-10-30
KR102643006B1 (ko) 2024-03-05
CN115346539A (zh) 2022-11-15
CN111955020A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
KR102643006B1 (ko) 오디오 렌더링을 위한 사전 렌더링된 신호를 위한 방법, 장치 및 시스템
US11736890B2 (en) Method, apparatus or systems for processing audio objects
AU2019409705B2 (en) Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
US10271156B2 (en) Audio signal processing method
US20220377489A1 (en) Apparatus and Method for Reproducing a Spatially Extended Sound Source or Apparatus and Method for Generating a Description for a Spatially Extended Sound Source Using Anchoring Information
US20230262407A1 (en) Methods, apparatus and systems for a pre-rendered signal for audio rendering
RU2787581C2 (ru) Способы, устройства и системы для подвергнутого предварительному рендерингу сигнала для рендеринга звука

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination