KR20240096835A - 공간 확장 음원을 사용하는 렌더러, 디코더, 인코더, 방법 및 비트스트림 - Google Patents

공간 확장 음원을 사용하는 렌더러, 디코더, 인코더, 방법 및 비트스트림 Download PDF

Info

Publication number
KR20240096835A
KR20240096835A KR1020247019224A KR20247019224A KR20240096835A KR 20240096835 A KR20240096835 A KR 20240096835A KR 1020247019224 A KR1020247019224 A KR 1020247019224A KR 20247019224 A KR20247019224 A KR 20247019224A KR 20240096835 A KR20240096835 A KR 20240096835A
Authority
KR
South Korea
Prior art keywords
sound
spatial
renderer
sound source
audio
Prior art date
Application number
KR1020247019224A
Other languages
English (en)
Inventor
지몬 슈베어
윈한 우
위르겐 헤레
마티아스 가이어
미하일 코로티아예프
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20240096835A publication Critical patent/KR20240096835A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

본 발명에 따른 실시예는 음향 장면을 렌더링하는, 예를 들어 공간적으로 렌더링하는 렌더러를 포함한다. 여기서, 렌더러는 제1 공간 영역(예를 들어, 제1 음향적 균질 공간(AHS), 예를 들어 제1 방)에서 발생하는 확산 사운드(예를 들어 잔향, 예를 들어 후기 잔향)의 음향 효과를, 공간 확장 음원, 예를 들어 SESS, 예를 들어 확산 사운드를 재생하는 공간 확장 음원, 예를 들어 균질 확장 음원 알고리즘을 사용하여, 제2 공간 영역(예를 들어, 제2 음향적 균질 공간, 예를 들어 제2 방; 예를 들어, 제1 공간 영역 밖의 공간 영역)에서 렌더링, 예를 들어 재생하도록 구성된다.
또한, 인코더, 방법 및 비트스트림이 개시된다.

Description

공간 확장 음원을 사용하는 렌더러, 디코더, 인코더, 방법 및 비트스트림
실시예는 공간 확장 음원을 사용하는 렌더러, 디코더, 인코더, 방법 및 비트스트림에 관한 것이다.
본 발명에 따른 실시예는 공간 확장 음원(spatially extended sound source)을 사용하여 포털에 의한 확산 사운드의 전파를 시뮬레이션하는 장치 및 방법을 포함한다.
예를 들어, 가상 현실 및 증강 현실 애플리케이션의 경우 어려운 작업은 서로 다른 음향 공간(예: 서로 다른 음향 특성을 갖는 음향 공간) 사이에서 음원 전파를 표현하는 것일 수 있다.
이러한 작업은 음향적으로 결합된 공간이 많은 가상 현실 또는 증강 현실 환경에서 특히 어려울 수 있다. 또한, 사용자가 미리 정해진 위치를 가질 수는 없지만 음향 장면 내에서 실시간으로 자유롭게 이동하고 음원 역할을 할 수 있는 오디오 장면의 휘발성 특성으로 인해 추가적인 문제가 발생할 수 있다.
그러므로, 렌더링된 오디오 장면의 달성 가능한 인식 인상, 오디오 장면의 렌더링에 사용되는 데이터 전송의 효율성, 및 데이터의 디코딩 및/또는 렌더링의 효율성 사이에서 더 나은 절충안을 만드는 개념을 제공하는 것이 바람직하다.
이것은 본 출원의 독립항의 주제에 의해 달성된다.
본 발명에 따른 추가 실시 예는 본 출원의 종속항의 주제에 의해 정의된다.
본 발명에 따른 실시예는 음향 장면을 렌더링하는, 예를 들어 공간적으로 렌더링하는 렌더러를 포함한다. 여기서, 렌더러는 제1 공간 영역(예를 들어, 제1 음향적 균질 공간(acoustically homogenous space (AHS)), 예를 들어 제1 방)에서 발생하는 확산 사운드(예를 들어 잔향, 예를 들어 후기 잔향)의 음향 효과(acoustic impact)를, 공간 확장 음원, 예를 들어 SESS, 예를 들어 확산 사운드를 재생하는 공간 확장 음원, 예를 들어 균질 확장 음원 알고리즘을 사용하여, 제2 공간 영역(예를 들어, 제2 음향적 균질 공간, 예를 들어 제2 방; 예를 들어, 제1 공간 영역 밖의 공간 영역)에서 렌더링, 예를 들어 재생하도록 구성된다.
본 발명자들은 예를 들어 제2 공간 영역과 음향적으로 결합된 제1 공간 영역으로부터의 확산 사운드장의 음향 영향이 공간 확장 음원을 사용하여 효율적으로 렌더링(또는 표현 또는 모델링)될 수 있음을 인식했다.
즉, 렌더링 절차에서 공간 확장 음원을 통합하는 것, 예를 들어 제2 공간 영역, 예를 들어 제2 방에 있는 청취자에 대해 공간 확장 음원에 의해 발생하는 음향 느낌을 계산함으로써, 청각 인상(sound impression) 이 달성될 수 있으며, 여기서 제 1 공간 영역(예: 제1 방)에서 발생하는 확산 음장이 실제적으로 표현된다.
본 발명자들은 렌더링을 위해 이러한 공간 확장 음원을 사용하면 렌더링된 오디오 장면의 진정한 청각 인상을 제공하는 동시에, 예를 들어 오디오 장면 제공에 필요한 데이터의 전송 및 처리(예: 디코딩 및/또는 렌더링)에 관한 부정적인 영향(예를 들어, 필요한 데이터 또는 계산 비용의 증가와 관련하여)을 제한할 수 있다는 것을 인식했다.
본 발명의 추가 실시예에 따르면, 렌더러는 다이렉트 사운드(direct-sound) 렌더링을 사용하여 제1 공간 영역에 위치하는 주어진 음원(given sound source)의 다이렉트 사운드 음향 효과를 제2 공간 영역에서 렌더링하도록 구성된다.
또한, 렌더러는 공간 확장 음원을 사용하여 주어진 음원의 확산 사운드 음향 효과, 예를 들어 제1 공간 영역에서 발생하는 확산 사운드의 음향 효과를 제2 공간 영역에서 렌더링하도록 구성된다.
실시예는 동일한 음원의 확산 사운드 음향 효과 및 직접적인 음향 효과를 렌더링하거나 표현하는 것으로 제한되지 않는다는 점에 유의해야 한다. 실시예에 따른 렌더러는 복수의 음원을 포함하는 오디오 장면을 렌더링하도록 구성될 수 있으며, 그 중 일부는 확산 사운드를 제공할 수 있고 일부는 장면이 렌더링되는 각 청취자에게 다이렉트 사운드를 제공할 수 있다 (또는 둘 모두 각각을 제공).
그러나, 이러한 복수의 음원은 다이렉트 사운드 음향 효과와 확산 사운드 음향 효과를 갖는 단일 음원으로 모델링될 수도 있으며, 이는 각각 복수의 음원의 음향 효과의 집계된 버전일 수 있다.
예를 들어, 제1 방에서 말하는 사람과 같은 음원은 제2 방에 있는 청취자에게 들릴 수 있다. 청취자는 화자의 말을 다이렉트 사운드 음향 효과로 들을 수도 있고, 제1 방 내에서 말의 후기 잔향으로 인해 발생하는 제2 음인 확산 사운드 음향 효과로서 들을 수도 있다.
발명자들은 다이렉트 사운드 렌더링의 사용 및 공간 확장 음원의 사용 형태로 별도의 렌더링 접근 방식을 사용하면 진정한 청각적 느낌을 제공할 수 있다는 것을 인식했다.
본 발명의 추가 실시예에 따르면, 렌더러는, 제2 공간 영역에 위치하는 청취자 위치에서 렌더링된 다이렉트 음원 응답을 얻기 위해, 예를 들어 직접 전파, 폐색, 회절 등을 고려할 수 있는 바이노럴 렌더링과 같은 다이렉트 사운드 렌더링을 제1 공간 영역에 위치하는 주어진 음원의 음원 신호에 적용하도록 구성된다.
또한, 렌더러는 주어진 음원의 음원 신호의 하나 이상의 잔향 버전을 얻기 위해, 주어진 음원의 음원 신호에 잔향 처리(예를 들어 후기 잔향(효과)을 생성하는 잔향 처리, 예를 들어 다중 반사를 겪는 반사 신호의 조합에 기초한 잔향, 예를 들어 초기 반사음이 촘촘하고 통계적으로 분산된 반사음으로 사라진 후의 잔향)을 적용하도록 구성된다.
더욱이, 렌더러는 제2 공간 영역에 위치한 청취자 위치에서 렌더링된 확산 사운드 응답을 얻기 위해, 주어진 음원의 음원 신호의 하나 이상의 잔향 버전에 공간 확장 음원 렌더링을 적용하도록 구성된다.
이것은 비트스트림의 부담을 분산시키거나 완화시키는 것을 허용할 수 있는데, 이는 렌더러가 음원의 음원 신호에 대한 잔향 처리에 기초하여 확산 음장 및/또는 확산 사운드 음향 효과를 각각 시뮬레이션하거나 모델링하거나 표현하도록 구성될 수 있기 때문이다.
따라서 주어진 음원에 대해, 예를 들어 두 개의 신호, 음의 다이렉트 사운드 신호를 나타내는 제1 신호와 음의 확산 사운드 신호를 나타내는 제2 신호 대신에, 단 하나의 음원 신호만 전송되어야 할 수도 있다.
본 발명의 추가 실시예에 따르면, 렌더러는 공간 확장 음원으로서 후기 잔향을 재생하는 공간 확장 음원, 예를 들어 SESS를 사용하여, 제1 공간 영역(예: 제1 음향 균질 공간, AHS; 예를 들어, 제1 방)에 위치한 음원에 의해 자극되는 잔향, 예를 들어 후기 잔향의 음향 효과를 제2 공간 영역(예: 제2 음향 균질 공간; 예를 들어 제2 방에서; 예를 들어, 제1 공간 영역 외부의 공간 영역)에서 렌더링하도록 구성된다.
발명자들은 음향적으로 결합되어 있지만 별도의 위치에서 후기 잔향의 음향 효과가 공간 확장 음원을 사용하여 확실하게 및/또는 효율적으로 표현될 수 있다는 것을 인식했다.
본 발명의 추가 실시예에 따르면, 렌더러는 각 공간 영역에서 유사한 스펙트럼 콘텐츠를 갖는 공간 확장 음원(예: 공간 확장 음원으로서), 예를 들어 SESS를 사용하여, 잔향, 예를 들어 후기 잔향의 확산 사운드의 음향 효과를 렌더링하도록 구성된다. 따라서, 이러한 공간 확장 음원은 낮은 복잡도로 제공될 수 있으며, 예를 들어 AHS 및/또는 AHS 간의 포털을 잘 나타낼 수 있다.
여기에 설명된 개념 중 하나(때때로 "방법 2라고도 함)"를 구현하는 본 발명의 일부 실시예에 따르면, 렌더러는 제1 공간 영역과 제2 공간 영역 사이의 포털에 있고, 제1 공간 영역에서 발생하는 확산 사운드(또는 예를 들어 확산 사운드의 음향 효과)을 재생하는 공간 확장 음원을 사용하여 확산 사운드의 음향 효과를 렌더링하도록 구성된다.
방의 음향 커플링은 포털을 사용하여 표현될 수 있다. 이러한 포털은 공간 범위를 지닌 기하학적 개체이다. 음향적으로 결합된 방에서 발생하는 확산 사운드의 효과를 실질적으로 제공하기 위해, 발명자는 청취자에게 결합된 방의 경계면에서 공간 음원의 느낌이 유리할 수 있다는 것을 인식했다.
따라서, 발명자들은 일부 경우에서, 제1 공간 영역과 제2 공간 영역 사이의 포털에서 공간 확장 음원을 배치하는 것이, 그러한 진정한 청각 인상을 제공하기 위해 사용될 수 있다는 것을 인식했다. 즉, 예를 들어 음향적으로 결합된 제1 방에서 발생하는 것으로부터 제2 방에 있는 청취자에 대한 공간 확장 음 효과(예: 확산 사운드 효과의 표현)가 제공될 수 있다.
또한, 이러한 본 발명의 개념에 따르면, 각 공간 영역의 벽과 같은 기하학적 경계와 같은 폐색 효과(occlusion effect)에 대한 추가적인 고려는 렌더러에 의해 생략될 수 있다는 점에 유의해야 한다. 이는, 장면 내 포털의 위치는 음향적으로 효과적이거나 음향적으로 영향을 미치므로 공간 영역 사이의 '폐색되지 않은 (un-occluded)' 인터페이스 영역에 대한 정보를 직접 통합할 수 있도록 허용하거나, 또는 심지어 그 자체일 수 있기 때문이다.
그러나 렌더러는 예를 들어 청취자의 방 내의 객체에 기초한 폐색 효과를 어쨌든 또는 추가적으로 고려할 수 있다.
본원에 설명된 개념(때때로 "방법 1"이라고도 함) 중 하나를 구현하는 본 발명의 추가 실시예에 따르면, 렌더러는 제2 공간 영역 내에 위치한 청취자 위치에서 공간 확장 음원의 폐색을 고려한 (예: 제1 공간 영역과 제2 공간 영역 사이의 벽 또는 음향적으로 감쇠되거나 음향적으로 불투과성인 기타 재료에 의해), 기하학적 범위, 예를 들어 1 공간 영역의 크기 및/또는 형상(예를 들어 제1 공간 영역과 동일한 공간 확장, 예를 들어 동일한 형상을 취하면서 경계가 겹치는 것을 피하기 위해, 예를 들어 제1 공간 영역이 줄어들거나 축소된 버전)을 취하고, 제1 공간 영역에서 발생하는 확산 사운드를 재생하는 공간 확장 음원을 사용하여 확산 사운드의 음향 효과를 렌더링하도록 구성되는 것이다.
발명자들은 공간 확장 음원의 기하학적 범위를 제1 공간 영역의 기하학적 범위로 설정함으로써 확산 사운드의 효과에 대한 음향 표현의 복잡성과 품질 사이의 양호한 균형이 달성될 수 있다는 것을 인식했다.
상기에서 지적한 바와 같이, 이 접근법의 장점은 예를 들어 청취자의 위치에 관계없이, 제1 공간 영역에서 발생하는 확산 사운드를 재생하는 공간 확장 음원의 기하학적 범위가, 예를 들어 청취자가 제2, 제3, 또는 제4 공간 영역에 있는지 여부에 관계없이 단순히 제1 공간 영역의 기하학적 범위로 설정될 수 있다는 것이다.
따라서, 포털을 위치시킬 필요가 없을 수 있으며, 따라서 청취자의 위치 및 확산 사운드가 발생하는 청취자의 공간 영역과 제1 공간 영역 사이의 해당 인터페이스 영역에 기반하여, 공간 확장 음원을 포털에 배치할 필요가 없다.
그러나, 폐색 효과를 통합하기 위해, 렌더러는 제2 공간 영역 내에 위치한 청취자 위치에서 공간 확장 음원의 폐색을 고려하도록 구성된다.
예를 들어, 이는 포털 배치 정보가 렌더러에 제공될 필요가 없기 때문에 비트스트림의 부담을 덜어줄 수 있으며, 예를 들어 렌더러는 청취자의 위치와 공간 확장 음원 사이의 폐색을 최종적으로 고려할 수 있다. 또한, 해당 인코딩 절차가 단순화될 수 있다.
예를 들어, 이 접근 방식을 사용하면 공간(또는 방) 자체가 포털이고 이 전체 방사 볼륨은 가상 현실 시스템(또는 렌더러)에서의 폐색/그림자 계산에 의해 "클립(clipped)"된다.
본 발명의 추가 실시예에 따르면, 제1 공간 영역은 제1 음향적 균질 공간, 예를 들어, 동일한 후기 잔향이 있는 공간 또는 영역, 예를 들어, 후기 잔향, 특징이다. 대안적으로 또는 추가로, 제2 공간 영역은 제2 음향적 균질 공간, 예를 들어 동일한 후기 잔향 특성을 갖는 공간 또는 영역이다.
발명자들은 본 발명의 개념이 음향적으로 균질한 공간, 예를 들어, 음향적으로 균질한 공간에서 발생하고 및/또는 음향적으로 균질한 공간으로 제공되는 확산 음장에 대한 진정한 청취 느낌을 제공하기 위한 실시예의 능력과 관련하여, 특히 유리하게 적용될 수 있다는 것을 인식했다.
본 발명의 추가 실시예에 따르면, 제1 공간 영역과 제2 공간 영역은 방, 예를 들어, 포털, 예를 들어 문을 통해 및/또는 소리가 적어도 부분적으로 투과 가능한 하나 이상의 벽을 통해, 또는 텔레프레즌스 구조를 통해 음향적으로 결합된 포털과 같은 텔레프레즌스 구조를 포함하는 물리적으로 인접한 방 또는 물리적으로 분리된 방이다.
이는 몰입형 청각 표현을 제공할 수 있게 해준다.
본 발명의 추가 실시예에 따르면, 렌더러는 청취자 위치로부터 멀리 떨어져 있고,예를 들어 각 음향 균질 공간 또는 방의 전체 공간(또는 축소된 부분)을 차지하는 하나 이상의 공간 확장 소스와, 내부에 청취자 위치가 위치하며, 예를 들어 각 음향 균질 공간 또는 방의 전체 공간 (또는 축소된 부분)을 차지하는 하나 이상의 공간 확장 소스를, 청취자 위치와 청취자 위치에서 멀리 떨어져 있는 하나 이상의 공간 확장된 소스 사이의 폐색을 고려하여, 동일한 렌더링 알고리즘을 사용하여 렌더링하도록 구성된다.
일반적으로, 실시예에 따르면, 공간 확장 음원이나 포털의 기하학적 구조와 예를 들어 공간 영역의 잠재적인 폐색 경계 사이의 중첩을 피하기 위해, 공간 확장 음원 또는 포털(예를 들어, 포털을 나타내는 공간 확장 음원)은 예를 들어 해당 공간적 공간의 기하학적 구조를 예를 들어 약간 축소함으로써 획득될 수 있다는 점에 유의해야 한다.
본 발명의 추가 실시예에 따르면, 렌더러는 바이노럴 렌더링을 수행하도록 구성된다. 실시예는 헤드폰 사용자로 하여금 진정한 청각 경험을 제공하게 할 수 있다.
본 발명의 추가 실시예에 따르면, 렌더러는 (예를 들어, 폐색 및/또는 감쇠를 고려하여, 광선 추적 기반 접근법을 사용하여) 청취자의 위치 및/또는 청취자의 방향을 기준으로, 예를 들어 청취자의 시점을 기준으로, 어느 공간 영역, 예를 들어, 수평/수직 영역 또는 방위각/고도 영역에 확산 사운드의 재생을 위한 공간 확장 음원이 존재하는 지를 결정하고, 그 결정에 따라 공간 확장 음원을 랜더링하도록 구성된다.
이는 청취자에게 정확한 공간 청취 경험을 제공할 수 있다. 또한, 추가적인 음향 관련 장면 객체 및/또는 청취자와 공간 확장 음원 사이의 특성의 영향이 고려될 수 있다.
본 발명의 추가 실시예에 따르면, 렌더러는, 예를 들어, 폐색 및/또는 감쇠를 고려하여, 예를 들어 광선 추적 기반 접근법을 사용하여 청취자의 위치 및/또는 청취자의 방향을 기준으로, 예를 들어 청취자의 시점을 기준으로, 어느 공간 영역, 예를 들어, 수평/수직 영역 또는 방위각/고도 영역에 확산 사운드의 재생을 위한 공간 확장 음원이 차단되는지를 결정하고, 그 결정에 따라 공간 확장 음원을 랜더링하도록 구성된다.
따라서, 오디오 장면의 렌더링을 위해 폐색 효과가 정확하게 통합될 수 있다.
본 발명의 추가 실시예에 따르면, 렌더러는 청취자의 위치 및/또는 청취자의 방향을 기준으로, 예를 들어 청취자의 시점을 기준으로, 어느 공간 영역, 예를 들어, 수평/수직 영역 또는 방위각/고도 영역에 확산 사운드의 재생을 위한 공간 확장 음원이 존재하는 지를, 광선 추적 기반 접근 방식(ray-tracing based approach)을 사용하여 결정하도록 구성된다.
본 발명의 추가 실시예에 따르면, 렌더러는 청취자의 위치 및/또는 청취자의 방향을 기준으로, 예를 들어 청취자의 시점을 기준으로, 어느 공간 영역, 예를 들어, 수평/수직 영역 또는 방위각/고도 영역에 확산 사운드의 재생을 위한 공간 확장 음원이 차단되는지를, 광선 추적 기반 접근 방식을 사용하여 결정하도록 구성된다.
발명자들은 광선 추적 기반 접근 방식이 청취자에 대한 공간 확장 음원의 위치뿐만 아니라 그 사이에 있는 음향적으로 관련된 객체(예를 들어 추가 폐색 효과)를 효율적으로 결정하는 것을 허용할 수 있으며, 따라서 청취자에게 오디오 장면을 정확하게 렌더링할 수 있다는 것을 인식했다.
본 발명의 추가 실시예에 따르면, 상기 렌더러는 폐쇄를 고려하여, 복수의 영역(예: 청취자의 위치와 사전 결정된 관계에 있는 표면의 영역 또는 청취자의 위치를 둘러싼 포(hull)의 영역)에 대해, 각각의 영역과 연관되고 청취자의 위치에서, 예를 들어 바깥쪽으로 확장되는, 예를 들어 각 영역을 통과하거나 또는 각각의 영역에서 시작하는 광선이, 공간 확장 음원에 닿는지 여부를 결정하여 (기하학적 구조는 예를 들어 청각 장면에 대한(또는 청각 장면의 좌표계 원점에 대한) 좌표의 기하학 정의를 청취자에 대한 좌표로 매핑함으로써 결정될 수 있음), 청취자의 위치 및/또는 청취자의 방향을 기준으로, 예를 들어 청취자의 시점을 기준으로, 어느 공간 영역, 예를 들어, 수평/수직 영역 또는 방위각/고도 영역에 확산 사운드의 재생을 위한 공간 확장 음원이 존재하는 지를 결정하도록 구성된다.
예를 들어, 광선은 공간 확장 음원 (spatially extended sound sources(SESSs))를 렌더링하는 데 도움이 될 수 있다. 예를 들어 선택적으로 모든 SESS의 메시(예: 포털 포함)만 포함할 수 있는 가상 3D 장면에서 미리 정의된 수의 광선이 모든 방향으로 투사될 수 있다. 관련 장면 객체나 청취자 위치가 변경된 경우 각 업데이트 주기마다 이 작업을 수행할 수 있다. 각 확장된 소스/포털에 대해 광선 히트가 저장될 수 있다. 그런 다음 이 정보는 폐색 및/또는 균질 정도를 다루는 이후 스테이지에서 사용된다.
업데이트 주기에서는 청취자의 방향을 기준으로 측정하여 여러 기본 광선이 모든 방향으로 투사될 수 있다. 광선 방향 목록은 소스 코드의 목록에 저장될 수 있다. 광선과 소스 범위의 기하학적 구조(포털 기하학적 구조 또는 공간 확장 음원 기하학적 구조 포함)의 교차로 인해 발생하는 모든 광선 히트가 저장될 수 있다. 그러나 예를 들어 광선이 범위 기하학적 구조의 외부 또는 내부에 닿는 경우에는 차이가 있을 수 있다. 하나의 광선이 동일한 범위의 기하학적 구조에 여러 번 도달하는 경우 예를 들어 선택적으로 가장 가까운 히트만 고려될 수 있다.
각각의 1차 광선에 대해 다수의 추가 광선이 패턴, 예를 들어 원형 패턴으로 캐스팅될 수 있다. 이러한 2차 광선은 1차 광선과 동일한 지점에서 시작할 수 있으며, 예를 들어 청취자로부터 미리 결정된 거리에서 1차 광선 방향에 수직인 평면에서 미리 결정된 반경의 원에 등분포된 여러 지점을 통과할 수 있다.
기본 광선과 모든 추가 광선에는 동일한 가중치가 부여될 수 있다. 소스 범위의 기하학적 구조에 닿는 각 광선에 대해 해당 가중치는 기본 광선의 ID와 관련된 총 가중치에 추가될 수 있다.
0이 아닌 가중치를 가진 모든 광선은 이후 스테이지에서 사용할 수 있도록 렌더링 항목, RI 또는 인코더 항목과 같은 항목에 저장될 수 있다.
모든 RI에 대한 두 번째 루프에서는 예를 들어 임계값으로 정의된 것보다 더 적은 수의 광선이 닿는 범위의 기하학적 구조에 대해 추가로 정제된 광선을 캐스팅할 수 있다. 기하학적 구조에 부딪히는 각각의 1차 광선에 대해 다수의 2차 광선이 패턴, 예를 들어 원형 패턴으로 투사될 수 있다.
예를 들어, 1차 광선과 모든 2차 광선에는 동일한 가중치가 부여될 수 있다. 소스 범위 기하학적 구조에 닿는 각 광선에 대해 해당 가중치는 기본 광선의 ID와 관련된 총 가중치에 추가될 수 있다. 기본 광선의 ID와 관련된 레코드에서 각 광선에 대해 해당 광선이 기하학적 구조에 닿으면 비트가 1로 설정되고 그렇지 않으면 0으로 설정될 수 있다.
본 발명의 추가 실시예에 따르면, 렌더러는 예를 들어 서로 다른 공간 영역(예를 들어, 사용자에 대해 다른 위치의 공간 영역 및/또는 다른 확장의 공간 영역)을 하나 이상의 큐(cue) 정보 항목의 값에 매핑하는 룩업 테이블을 사용하여, 확산 사운드의 재생을 위한 공간 확장 음원이 존재하는 공간 영역에 따라, 하나 이상의 청각 큐 정보 항목(예를 들어, 채널간 상관 값, 및/또는 채널간 위상차 값, 및/또는 채널간 시간차 값, 및/또는 채널간 레벨 차이 값, 및/또는 하나 이상의 이득 값)을 결정하도록 구성된다.
또한, 렌더러는 예를 들어 청취 위치에 있는 청취자에게 렌더링되는 확산 사운드의 렌더링된 버전을 획득하기 위해 하나 이상의 청각 큐 정보 항목을 사용하여 확산 사운드를 나타내는 하나 이상의 오디오 신호를 처리하도록 구성된다.
발명자들은 청각 큐 정보 항목의 결정 및 처리에 기초하여 확산 사운드의 렌더링된 버전의 청각 느낌이 향상될 수 있다는 것을 인식했다.
본 발명의 추가 실시예에 따르면, 렌더러는 청취자의 움직임에 응답하여, 예를 들어 청취자의 위치 변경에 대한 응답 및/또는 청취자의 시청 방향 변경에 응답하여, 청취자의 위치 및/또는 청취자의 방향을 기준으로, 예를 들어 청취자의 시점을 기준으로, 어느 공간 영역, 예를 들어, 수평/수직 영역 또는 방위각/고도 영역에 확산 사운드의 재생을 위한 공간 확장 음원이 존재 하는지에 대한 결정을 업데이트하도록 구성된다.
대안적으로 또는 추가적으로, 렌더러는 예를 들어 청취자의 움직임에 응답하여, 예를 들어 청취자의 위치 변경에 대한 응답 및/또는 청취자의 시청 방향 변경에 응답하여, 하나 이상의 청각 큐 정보 항목의 결정을 업데이트하도록 구성된다.
또한, 대안적으로 또는 추가적으로, 렌더러는 확산 사운드 재생을 위해 공간 확장 음원이 존재하는 공간 영역의 변화에 응답하여 하나 이상의 큐 정보 항목의 결정을 업데이트하도록 구성된다.
일반적으로, 실시예에 따른 렌더러는 각각의 오디오 장면의 렌더링을 고려하여 예를 들어 청취자, 공간 영역, 포털 및/또는 공간적으로 확장된 음원의 상대 위치의 변경을 고려하도록 구성될 수 있다.
발명자들은 예를 들어 포털 및 포털의 위치에 있는 공간 확장 음원 및/또는 해당 공간 영역의 공간 범위(또는 축소 버전)를 갖는 음원을 사용하는 본 발명의 개념이, 예를 들어 청취자의 움직임 및/또는 공간 확장 음원이 존재하는 공간 영역의 변화에 기초하여 장면의 동적 변화를 효율적으로 통합할 수 있게 해준다는 것을 인식했다.
따라서 실시예는 동적 오디오 장면의 실시간 적응을 가능하게 할 수 있다.
더욱이, 발명자들은 이러한 적응을 위해 예를 들어 직접적인 위치 업데이트가 수행될 수 있을 뿐만 아니라, 예를 들어 어느 공간 영역에 공간 확장 음원이 존재하는 지의 결정이 수행될 수 있을 뿐만 아니라, 대안적으로 또는 추가로, 오디오 장면의 각각의 변화를 효율적으로 표현하기 위해 청각 큐 정보 항목의 결정이 업데이트될 수 있다.
본 발명에 따른 추가 실시예는 오디오 디코더를 포함한다. 상기 오디오 디코더는 본 명세서에 개시된 실시예 중 임의의 것에 따른 렌더러를 포함하며, 오디오 디코더는 비트스트림으로부터 확산 사운드 재생을 위한 하나 이상의 공간 확장 음원과 같은 포털의 기하학적 설명을 획득하고, 확산 사운드 재생을 위한 공간 확장 음원의 기하학적 설명을 획득하기 위해 상기 포털의 기하학적 구조를 청취자 중심 좌표계(listener-centered coordinate system)에 매핑하도록 구성된다.
따라서 일반적으로 실시예에 따르면 포털은 하나 이상의 공간 확장 음원의 기능이거나 또는 이를 포함할 수 있다는 점에 유의해야 한다. 따라서, 포탈의 기하학적 설명은 공간 확장 음원의 기하학적 설명으로 사용될 수 있다. 본 발명의 일부 실시예에 따르면, 포털과 SESS는 상호교환적으로 사용될 수 있다.
더욱이, 발명자들은 이러한 기하학적 설명이 비트스트림에 제공되면 렌더러 또는 디코더 측의 계산 능력이 절약될 수 있고, 대응하는 렌더러가 그러한 포털의 각각의 기하학적 설명을 결정할 필요가 없다는 것을 인식했다.
따라서 인코더, 예를 들어 상기 비트스트림을 제공하는 것과 렌더러 간의 효율적인 협력을 위해, 발명자들은 상기 설명된 매핑 기능이 디코더 내에 유리하게 존재할 수 있다는 것을 인식하였다.
따라서, 일 예로서, 발명자들은 각 청취자에 대한 오디오 장면을 효율적으로 렌더링하기 위해 렌더러가 청취자 중심 좌표계에서 오디오 장면을 표현할 수 있다는 것을 인식했다.
본 발명의 추가 실시예에 따르면, 오디오 디코더는 후기 잔향 생성기의 출력으로부터 파생된 공간 확장 음원의 렌더링을 위해 적어도 부분적으로 역상관된 두 개 이상의 신호를 획득하도록 구성된다.
발명자들은 공간 확장 음원이 적어도 부분적으로 역상관된 두 개 이상의 신호를 사용하거나 또는 이에 기초하여 효율적으로 렌더링될 수 있다는 것을 인식했다. 선택적으로 두 신호 모두 동일한 전력 스펙트럼 밀도를 가질 수 있다.
본 발명의 추가 실시예에 따르면, 오디오 디코더는 피드백 지연 네트워크 잔향기를 사용하여 공간 확장 음원의 렌더링을 위해 두 개 이상의 신호를 획득하도록 구성되며, 여기서 두 개 이상의 신호는 예를 들어 확산 사운드를 표현하는 신호로 작용할 수 있다.
발명자들은 피드백 지연 네트워크 잔향기가 적어도 부분적으로 역상관된 신호를 제공하는 효율적인 수단을 제공할 수 있다는 것을 인식했다. 선택적으로 두 신호 모두 동일한 전력 스펙트럼 밀도를 가질 수 있다.
본 발명의 추가 실시예에 따르면, 디코더는 음원 신호 및 예를 들어 공간 확장 음원의 렌더링을 위해 오디오 디코더의 일부일 수 있는 역상관기를 사용하여 음원 신호로부터 도출될 수 있는 음원 신호의 역상관된 버전을 사용하도록 구성되다. 여기서, 음원 신호 및 역상관된 음원 신호는 확산 사운드를 표현하는 신호로 역할할 수 있다.
발명자들은 공간 확장 음원의 렌더링을 위해 적어도 부분적으로 및/또는 대략적으로 역상관된 두 개의 신호를 제공하기 위해 단일 신호가 처리될 수 있다는 것을 인식했다. 따라서 더 적은 입력 신호가 필요할 수 있다. 선택적으로 두 신호 모두 동일한 전력 스펙트럼 밀도를 가질 수 있다.
본 발명의 추가 실시예에 따르면, 디코더는 예를 들어 폐색기(occluder)의 흡수 특성에 따른 등화 또는 감쇠를 사용하여 공간 확장 음원을 렌더링할 때 폐색된 공간 영역을 제외하거나 감쇠하도록 구성된다.
일반적으로 그리고 일 예로서, 실시예에 따른 디코더는, 공간 확장 음원을 렌더링하기 위해 역상관된 신호를 제공하도록 구성될 수 있으며 및/또는 음향 영향을 균등화하거나 감쇠시키기 위해, 예를 들어 음향 관련 객체의 상대 위치의 결정을 포함하는 공간 전처리를 수행하도록 구성될 수 있는, 렌더러를 위한 전처리부를 포함할 수 있다.
본 발명의 추가 실시예에 따르면, 디코더는 예를 들어 다중 공간 영역의 안팎으로 그리고 다중 공간 영역 사이에서, 예를 들어 다중 음향 균질 공간 사이에서, 청취자가 제1 공간 영역과 제2 공간 영역 사이의 전환, 예를 들어 포털에 근접할 때 확산 사운드를 표현하는 공간 확장 음원을 페이드 아웃하고 확산 사운드의 비국소화 렌더링을 페이딩함으로써, 원활한 전환(smooth transition)을 허용하도록 구성된다.
이는 청취자에게 진정한 청각적 인상을 제공할 수 있게 한다.
이하에서 인코더와 관련된 실시예가 논의된다. 이러한 실시예는 디코더에 관한 상기 실시예와 동일하거나 유사하거나 대응하는 고려사항에 기초할 수 있다는 점에 유의해야 한다. 따라서, 다음의 실시예는 상기 개시된 실시예와 동일하거나, 유사하거나 대응하는 특징, 기능 및 세부사항을 개별적으로 또는 조합하여 포함할 수 있다.
본 발명에 따른 추가 실시예는 오디오 장면을 인코딩하기 위한 오디오 인코더를 포함하며, 오디오 인코더는 예를 들어 하나 이상의 오디오 신호를 인코딩하기 위해, 오디오 장면의 인코딩된 표현의 일 부분으로서 하나 이상의 오디오 신호의 인코딩된 표현을 제공하도록 구성된다.
더욱이, 오디오 인코더는 복수의 음향적 균질 공간을 식별하고, 그 식별에 기초하여 공간 확장 음원의 정의, 예를 들어, 기하학적 설명을 제공하도록 구성된다. 공간 확장 음원의 위치 및/또는 치수와 같은 기하학적 특성은 식별된 음향적 균질 공간의 위치 및/또는 치수와 같은 기하학적 특성과 동일하다. 오디오 인코더는 예를 들어 공간 확장 음원의 정의를 오디오 장면의 인코딩된 표현, 예를 들어 비트스트림에 포함하도록 구성될 수 있다.
예를 들어, 위치(예를 들어, 영역의 중심) 및/또는 모양과 같은 일부 기하학적 특성만 동일할 수 있지만, 다른 특성은 예를 들어 식별된 음향적 균질 공간의 크기가 조정된 버전일 수 있는 공간 확장 음원의 외부 치수와 같이 다를 수 있음에 유해야 한다.
본 발명의 추가 실시예에 따르면, 오디오 인코더는 음향적 균질 공간 사이에서 음향 장애물(예: 벽 또는 기타 폐색)의 정의(예: 기하학적 설명)를 제공하도록 구성된다. 여기서, 오디오 인코더는 오디오 장면의 인코딩된 표현, 예를 들어 비트스트림에 음향 장애물의 정의를 포함하도록 구성될 수 있다.
선택적으로, 오디오 인코더는 음향적 균질 공간 사이의 음향 장애물의 정의를 선택적으로 제공하도록 구성될 수 있다.
예를 들어, 광선 추적에 기초하여, 렌더러는 청취자에게 진정한 청각적 느낌을 제공하기 위해 제공된 음향 관련 장애물을 효율적으로 선택할 수 있다.
본 발명의 추가 실시예에 따르면, 오디오 인코더는 예를 들어 하나 이상의 오디오 신호를 인코딩하기 위해, 오디오 장면의 인코딩된 표현의 일 부분으로서 하나 이상의 오디오 신호의 인코딩된 표현을 제공하도록 구성된다.
또한 오디오 인코더는 하나 이상의 공간 확장 음원에 대한 정의(예: 기하학적 설명)를 제공하도록 구성된다. 여기서, 공간 확장 음원의 위치 및/또는 방향 및/또는 치수(dimension)와 같은 기하학적 특성은, 예를 들어 물리적 및/또는 논리적으로, 예를 들어 인접한 음향적 균질 공간 사이의 포털의 기하학적 특성(예: 개구부, 문, 음향적 투과성 물질, 두 공간 영역 사이 또는 두 음향적 균질 공간 사이에서 소리 전파를 가능하게 하는 모든 매체)에 기초, 예를 들어 동일하다.
선택적으로, 오디오 인코더는 예를 들어 공간 확장 음원의 정의를 오디오 장면의 인코딩된 표현, 예를 들어 비트스트림에 포함하도록 구성될 수 있다.
본 발명의 추가 실시예에 따르면, 오디오 인코더는 복수의 음향적 균질 공간과 음향적 균질 공간 사이의 하나 이상의 포털을, 예를 들어 음향적 균질 공간 사이의 기하학적 관계를 분석하는 것에 의해 식별하고, 그 식별에 기초하여 하나 이상의 공간 확장 음원의 정의, 예를 들어 기하학적 설명을 제공하도록 구성된다. 여기서 기하학적 특성은 예를 들어 하나 이상의 공간 확장 음원의 위치 및/또는 방향 및/또는 치수는 식별된 포털의 치수에 기초한다.
선택적으로, 오디오 인코더는 예를 들어 공간 확장 음원의 정의를 오디오 장면의 인코딩된 표현, 예를 들어 비트스트림에 포함하도록 구성될 수 있다.
선택적으로, 오디오 인코더는 예를 들어 음향적 균질 공간 사이에서 음향 장애물, 예를 들어 벽 또는 기타 폐색의 정의(예: 기하학적 설명)를 제공하도록 구성될 수 있다. 여기서 오디오 인코더는 예를 들어 오디오 장면의 인코딩된 표현, 예를 들어 비트스트림에 음향 장애물의 정의를 포함하도록 구성될 수 있다.
이하에서 방법과 관련된 실시예가 논의된다. 이러한 실시예는 디코더 및/또는 인코더에 관한 상기 실시예와 동일하거나 유사하거나 대응하는 고려사항에 기초할 수 있다는 점에 유의해야 한다. 따라서, 다음의 실시예는 상기 개시된 실시예와 동일하거나, 유사하거나 대응하는 특징, 기능 및 세부사항을 개별적으로 또는 조합하여 포함할 수 있다.
본 발명에 따른 추가 실시예는 음향 장면을 렌더링하는, 예를 들어 공간적으로 렌더링하는 방법을 포함한다. 여기서, 방법은 제1 공간 영역(예를 들어, 제1 음향적 균질 공간(AHS); 예를 들어 제1 방)에서 발생하는 확산 사운드(예를 들어 잔향, 예를 들어 후기 잔향)의 음향 효과를, 공간 확장 음원, 예를 들어 SESS, 예를 들어 확산 사운드를 재생하는 공간 확장 음원, 예를 들어 균질 확장 음원 알고리즘을 사용하여, 제2 공간 영역(예를 들어, 제2 음향적 균질 공간, 예를 들어 제2 방; 예를 들어, 제1 공간 영역 밖의 공간 영역)에서 렌더링, 예를 들어 재생하는 단계를 포함한다.
본 발명에 따른 추가 실시예는 오디오 장면을 인코딩하는 방법을 포함하며, 상기 방법은 하나 이상의 오디오 신호를 인코딩하기 위해 오디오 장면의 인코딩된 표현의 일부로서 하나 이상의 오디오 신호의 인코딩된 표현을 제공하는 단계를 포함한다.
상기 방법은 복수의 음향적 균질 공간을 식별하는 단계, 및 그 식별에 기초하여 공간 확장 음원의 정의, 예를 들어, 기하학적 설명을 제공하는 단계를 포함한다. 공간 확장 음원의 위치 및/또는 치수와 같은 기하학적 특성은 식별된 음향적 균질 공간의 위치 및/또는 치수와 같은 기하학적 특성과 동일하다.
선택적으로, 오디오 인코더는 공간 확장 음원의 정의를 오디오 장면의 인코딩된 표현, 예를 들어 비트스트림에 포함하도록 구성될 수 있다.
본 발명에 따른 추가 실시예는 오디오 장면을 인코딩하는 방법을 포함한다. 여기서 상기 방법은 하나 이상의 오디오 신호를 인코딩하기 위해 오디오 장면의 인코딩된 표현의 일부로서 하나 이상의 오디오 신호의 인코딩된 표현을 제공하는 단계를 포함한다.
또한 상기 방법은 하나 이상의 공간 확장 음원에 대한 정의(예: 기하학적 설명)를 제공하는 단계를 포함한다. 여기서, 공간 확장 음원의 위치 및/또는 방향 및/또는 치수와 같은 기하학적 특성은, 예를 들어 물리적 및/또는 논리적으로, 예를 들어 인접한 음향적 균질 공간 사이의 포털의 기하학적 특성(예: 개구부, 문, 음향적 투과성 물질, 두 공간 영역 사이 또는 두 음향적 균질 공간 사이에서 소리 전파를 가능하게 하는 모든 매체)에 기초, 예를 들어 동일하다.
선택적으로, 오디오 인코더는 공간 확장 음원의 정의를 오디오 장면의 인코딩된 표현, 예를 들어 비트스트림에 포함하도록 구성될 수 있다.
본 발명에 따른 추가 실시예는 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 본 명세서에 개시된 임의의 실시예에 따른 방법을 수행하기 위한 컴퓨터 프로그램을 포함한다.
이하에서 비트스트림과 관련된 실시예가 논의된다. 이러한 실시예는 디코더, 인코더, 및/또는 방법에 관한 상기 실시예와 동일하거나 유사하거나 대응하는 고려사항에 기초할 수 있다는 점에 유의해야 한다. 따라서, 다음의 실시예는 상기 개시된 실시예와 동일하거나, 유사하거나 대응하는 특징, 기능 및 세부사항을 개별적으로 또는 조합하여 포함할 수 있다.
본 발명에 따른 추가 실시예는 하나 이상의 오디오 신호의 인코딩된 표현, 및 제1 공간 영역(예를 들어, 제1 음향적 균질 공간(AHS); 예를 들어 제1 방)에서 발생하고 제2 공간 영역(예를 들어, 제2 음향적 균질 공간, 예를 들어 제2 방; 예를 들어, 제1 공간 영역 밖의 공간 영역)에서 렌더링되는 확산 사운드(예를 들어 잔향, 예를 들어 후기 잔향)의 음향 효과를 렌더링, 예를 들어 재생하기 위한 하나 이상의 공간 확장 음원을 포함하는 비트스트림을 포함한다.
본 발명에 따른 추가 실시예는 하나 이상의 공간 영역, 예를 들어 복수의 공간 영역의 인코딩된 설명, 예를 들어 하나 이상의 공간 영역의 음향 설명 및/또는 하나 이상의 공간 영역의 기하학적 설명, 및 적어도 두 개의 공간 영역 사이, 예를 들어 인코딩된 설명에 의해 기술되는 적어도 두 개의 공간 영역 사이의 음향 관계를 기술하는 정보의 인코딩된 표현을 포함하는 오디오 비트스트림을 포함한다.
선택적으로 비트스트림은 예를 들어 하나 이상의 공간 영역에 위치한 오디오 소스를 나타내는, 하나 이상의 오디오 신호 또는 오디오 채널의 인코딩된 표현도 포함할 수 있다.
발명자들은 적어도 두 개의 공간 영역 사이의 음향 관계를 기술하는 정보의 제공이 적어도 두 개의 공간 영역을 포함하는 렌더링된 음향 장면의 품질을 향상시킬 수 있다는 것을 인식했는데, 그 이유는 공간 영역 사이의 음향 커플링 효과의 통합이 각각의 렌더러에 의해 단순화될 수 있기 때문이다.
본 발명의 추가 실시예에 따르면, 공간 영역의 인코딩된 표현은 두 공간 영역 사이의 포털에 대한 설명, 예를 들어 두 공간 영역 사이의 개구부 크기에 대한 설명 및/또는 두 공간 영역 사이의 개구부 또는 음향 경계의 감쇠 계수에 대한 설명을 포함한다.
따라서, 공간 영역의 결합을 위한 이러한 포털은 비트스트림을 통해 렌더러에 제공될 수 있다. 이러한 방식으로 그러한 포털을 결정하기 위한 계산 능력, 예를 들어 공간 영역 간의 음향 커플링 효과를 통합하기 위해 렌더러에 저장할 수 있다.
본 발명의 추가 실시예에 따르면, 오디오 비트스트림은 제1 공간 영역으로부터 제2 음향 영역으로의 음향 전파를 기술하는 전파 인자의 인코딩된 표현을 포함한다.
발명자들은 전파 인자를 비트스트림에 통합하는 것이 예를 들어 낮은 전송 비용과 평가 노력으로 공간 영역의 음향 커플링에 대한 정보를 제공하는 동시에 각각의 음향 장면을 확실하게 렌더링할 수 있다는 것을 인식했다.
본 발명의 추가 실시예에 따르면, 오디오 비트스트림은 제1 공간 영역, 예를 들어, space#1의 음향 에너지가 제2 공간 영역, 예를 들어 space#2로 방사되는, 선택적으로 그 반대의 경우에서의 양/분율(amount/fraction)을 설명하는 전파 인자를 포함한다.
본 발명의 추가 실시예에 따르면, 오디오 비트스트림은 제1 공간과 제2 공간 사이의 연결된 표면적과 제1 공간의 전체 흡수 표면적 사이의 비율을 설명하는 전파 인자를 포함한다.
발명자들은 음향 에너지 및/또는 연결된 표면적 사이의 비율에 관한 전파 인자의 정의가 음향 커플링 효과의 효율적인 표현을 허용할 수 있다는 것을 인식했다.
본 발명의 추가 실시예에 따르면, 오디오 비트스트림은 범위, 예를 들어 두 공간 영역 사이(예: 두 개의 음향적 균질 공간 사이)의 전환 구역(transition zone)의 범위를 설명하는 매개변수를 포함한다.
이는 포털 또는 각각 SESS의 기하학적 범위에 대한 정보를 제공할 수 있다. 따라서, 그러한 정보를 비트스트림에 이미 제공함으로써 렌더링 절차가 단순화될 수 있다.
도면은 반드시 일정한 비율로 표시되는 것은 아니며, 대신에 본 발명의 원리를 설명하기 위해 일반적으로 강조된다. 다음의 상세한 설명에서, 본 발명의 다양한 실시예가 다음의 도면을 참조하여 설명된다.
도 1은 본 발명의 실시예에 따른 렌더러의 개략도를 도시한다.
도 2는 본 발명의 실시예에 따른 추가적인 선택적 특징을 갖는 렌더러의 개략도를 도시한다.
도 3은 본 발명의 실시예에 따른 디코더의 개략도를 도시한다.
도 4는 본 발명의 실시예에 따른 인코더의 개략도를 도시한다.
도 5는 본 발명의 추가 실시예에 따른 인코더의 개략도를 도시한다.
도 6은 본 발명의 실시예에 따른 음향 장면을 렌더링하는 방법의 개략적인 블록도를 도시한다.
도 7은 본 발명의 실시예에 따른 오디오 장면을 인코딩하는 방법의 개략적인 블록도를 도시한다.
도 8은 본 발명의 실시예에 따른 오디오 장면을 인코딩하는 방법의 개략적인 블록도를 도시한다.
도 9는 본 발명의 실시예에 따른 비트스트림의 개략적인 블록도를 도시한다.
도 10은 본 발명의 실시예에 따른 독창적인 방법의 파이프라인의 개략적인 블록도를 도시한다.
도 11은 본 발명의 실시예에 따른 포털 검출 방법 1의 일 예에 대한 개략도를 도시한다.
도 12는 본 발명의 실시예에 따른 포털 검출 방법 2의 일 예의 개략도를 도시한다.
동일하거나 동등한 엘리먼트 또는 동일하거나 동등한 기능을 갖는 엘리먼트는 상이한 도면에서 발생하더라도 동일하거나 동등한 참조 번호로 이하의 설명에서 표시된다.
이하 설명에서, 본 발명의 실시예에 대한 보다 철저한 설명을 제공하기 위해 복수의 세부사항이 제시된다. 그러나, 본 발명의 실시예가 이러한 특정 세부사항 없이 실시될 수 있다는 것은 당업자에게 명백할 것이다. 다른 예에서, 잘 알려진 구조 및 장치는 본 발명의 실시예를 모호하게 하는 것을 피하기 위해 상세하게 보다는 블록도 형태로 도시된다. 또한, 이하에서 설명하는 상이한 실시예의 특징은 특별히 달리 언급하지 않는 한 서로 결합될 수 있다.
도 1은 본 발명의 실시예에 따른 렌더러의 개략도를 도시한다. 도 1은 렌더링부(110)을 포함하는 음향 장면을 렌더링, 예를 들어 공간적으로 렌더링하기 위한 렌더러(100)를 도시한다. 따라서, 렌더러(100)는 렌더링된, 예를 들어 공간적으로 렌더링된 음향 장면(101)을 제공할 수 있다.
렌더러(100)는 예를 들어 렌더링부(110)을 사용하여 제1 공간 영역에서 발생하는 확산 사운드의 음향 효과를 공간 확장 음원을 사용하는 제2 공간 영역에서 렌더링하도록 구성된다. 따라서, 렌더러(100)에는 공간 확장 음원 정보(102)가 제공된다.
선택적으로, 공간 확장 음원 정보(102)는 예를 들어 SESS를 정의하는 매개변수의 전체 세트를 포함할 수도 있고, 또는 예를 들어 일부 매개변수, 예를 들어 렌더러 및/또는 렌더러를 포함하는 해당 디코더의 처리 결과를 사용하여 보완 또는 확장될 수 있는 기하학적 정보(예: 기하학적 SESS 정보에 대응하는 기하학적 포털 정보, 예를 들어 위치 정보, 예를 들어 사운드 레벨 정보)를 포함할 수 있다.
선택적 특징으로서, 렌더링된 음향 장면(101)이 제공되는 정보, 따라서 예를 들어 스펙트럼 값에 대한 정보 또는 시간 도메인 오디오 정보 및/또는 렌더링할 음향 장면에 대한 메타데이터 정보를 포함하는 추가 장면 정보(103)가 표시된다(확산 사운드 음향 효과를 취하거나 고려하면서).
도 2는 본 발명의 실시예에 따른 추가적인 선택적 특징을 갖는 렌더러의 개략도를 도시한다.
도 2는 렌더링부(210)을 포함하는 렌더러(200)를 도시하며, 여기서 렌더링부(210)은 선택적 특징으로서 다이렉트 사운드 렌더링부(212), SESS 렌더링부(214) 및 렌더링 융합부(216)를 포함한다.
도 1의 맥락에서 설명된 바와 같이, 렌더러(200)는 렌더링부(210)을 사용하여 공간 확장 음원을 사용하여 제 1 공간 영역에서 발생하는 확산 사운드의 음향 효과를 제 2 공간 영역으로 렌더링하도록 구성된다. 따라서, 렌더링부(210)은 렌더링된 음향 장면(201)을 제공하도록 구성된다. 선택적 특징으로서, 선택적 렌더링 융합부는 렌더링된 음향 장면(201)을 제공하도록 구성된다.
따라서, 선택적 특징으로서, 확산 사운드의 음향 효과를 렌더링하기 위해 SESS 렌더링부(214)에는, 예를 들어 포털, 예를 들어 도 11 및 도 12와 관련하여 설명된 방법 1 또는 방법 2에 따른 포털에 대한 정보 및/또는 청취자에 대한 절대 위치 정보 및/또는 상대 위치 정보를 포함할 수 있는, 공간 확장 음원 정보(202) (예를 들어, 도 1의 대응 부분(102)에 따름) 가 제공된다. 선택적으로, 공간 확장 음원 정보(202)는 렌더링된 확산 사운드 응답을 제공하기 위해 공간 확장 음원을 정의하는 데 적합한 임의의 정보를 포함할 수 있다.
선택적인 특징으로서, 다이렉트 사운드 렌더링부(212)는 제1 공간 영역에 위치한 주어진 음원의 다이렉트 사운드 음향 효과를 다이렉트 사운드 렌더링을 이용하여 제2 공간 영역에서 렌더링하도록 구성된다. 또한, 또 다른 선택적인 특징으로서, SESS 렌더링부(214)은 공간 확장 음원을 사용하여 제2 공간 영역에서 주어진 음원의 확산 사운드 음향 효과를 렌더링하도록 구성된다.
따라서 선택적인 특징으로, 다이렉트 사운드 렌더링부(212)에는 주어진 음원의 음원신호(203)가 제공되며, 제2 공간 영역에 위치한 청취자 위치에서 렌더링된 다이렉트 음원 응답(213)을 획득하기 위해 다이렉트 사운드 렌더링을 적용한다. 또 다른 선택적인 특징으로서, SESS 렌더링부(214)에는 신호(203)가 제공될 수도 있다.
또 다른 선택적 특징으로서, 도 2에 도시된 바와 같이, SESS 렌더링부(214)에는 주어진 음원의 음원 신호의 하나 이상의 잔향 버전(221)이 제공된다. 또한, SESS 렌더링부(214)은 제2 공간 영역에 위치한 청취자 위치에서 렌더링된 확산 사운드 응답(215)을 획득하기 위해, 주어진 음원의 음원 신호의 하나 이상의 잔향 버전(221)에 공간 확장 음원 렌더링을 적용하도록 구성된다.
음원 신호(221)의 하나 이상의 잔향 버전을 제공하기 위해, 렌더러는 선택적 특징으로서 음원 신호(203)를 기반으로 음원 신호(221)의 하나 이상의 잔향 버전(221)을 제공하도록 구성된 잔향 처리부(220)을 포함한다.
즉, 잔향 처리부(220)는 주어진 음원의 음원 신호의 하나 이상의 잔향 버전(221)을 획득하기 위해, 주어진 음원의 음원 신호(203)에 잔향 처리를 적용하도록 구성된다.
선택적 특징으로서, 렌더링 융합 유닛은 렌더링된 음향 장면(201)을 획득하기 위해 렌더링된 다이렉트 사운드 응답(213)과 렌더링된 확산 사운드 응답(215)을 융합하도록 구성된다.
그러므로, 일 예로서, 음원 신호(203)에 기초하여, 렌더러는 음원 신호의 잔향 버전의 형태로 확산 버전을 결정하도록 구성될 수 있으며, 이를 기반으로 확산 사운드 응답이 청취자에게 효율적이고 확실하게 제공될 수 있다.
또 다른 선택사항으로, SESS 렌더링부(214)는 제1 공간영역에 위치한 음원에 의해 자극되는 후기 잔향의 음향 효과를 후기잔향을 재생하는 공간 확장 음원을 이용하여 제2 공간 영역에 렌더링하도록 구성된다.
즉, 일 예로서, SESS 렌더링부(214)는 공간 확장 음원 정보(202)에 기초하여 음원의 후기 잔향에 대한 영향을 표현하기 위해 공간 확장 음원을 렌더링할 수 있다.
또 다른 선택 특징으로서, 공간 확장 음원 정보(202)에 의해 정의된 바와 같은 공간 확장 음원이 각 공간 영역에서 유사한 스펙트럼 내용을 가질 수 있다. 일 예로서, 발명자들은 확산 음장 효과를 효율적으로 표현하기 위해 균일하게 분포된 공간 주파수 분포를 갖는 SESS가 사용될 수 있음을 인식했다.
또 다른 선택적 특징으로서, 예를 들어 공간 확장 음원 정보(202)에 포함된 포털에 대한 정보를 기반으로, SESS 렌더링부(214)는 제1 공간 영역과 제2 공간 영역 사이의 포털에 배치되고 제1 공간 영역에서 발생하는 확산 사운드를 재생하는 공간 확장 음원을 사용하여 확산 사운드의 음향 효과를 렌더링하도록 구성된다.
또 다른 선택적 특징으로서, 렌더러(200)는 예를 들어 SESS 렌더링부(214)을 사용하여, 제2 공간 영역 내에 위치한 청취자 위치에서 공간 확장 음원의 폐색을 고려하여, 제1 공간 영역의 기하학적 범위를 취하고 제1 공간 영역에서 발생하는 확산 사운드를 재생하는 공간 확장 음원을 사용하여 확산 사운드의 음향 효과를 렌더링하도록 구성된다.
그러므로 선택적인 일 예로서, 예를 들어 공간 음향 정보 (예: 벽, 개구부, 문, 재료에 관한 정보)를 포함하는 추가 장면 정보(204)가 SESS 렌더링부(214)에 제공될 수 있으며, 선택적으로 다이렉트 사운드 렌더링부(212)에 전달될 수도 있다.
이러한 정보에 기초하여, SESS 렌더링부(214)은 음향 장면을 확실하게 렌더링하기 위해 폐색 효과를 결정하도록 구성될 수 있다.
또 다른 선택적인 특징으로서, 렌더러(200)는 청취자의 위치 및/또는 청취자의 방향을 기준으로 어느 공간 영역에 확산 사운드의 재생을 위한 공간 확장 음원이 존재하는 지 및/또는 폐쇄되는지를 결정하고, 이에 따라 공간 확장 음원을 렌더링하도록 구성된다.
따라서, 렌더러(200)는, 공간 확장 음원 정보(202) 및 선택적으로 추가 장면 정보(204)가 제공되고, 청취자의 상대적 위치와 공간 확장 음원을 식별하는 청취자 및/또는 청취자 중심 좌표계와 관련한 공간 영역 정보(231) (예: 방위각과 고도, 예,
Figure pct00001
,
Figure pct00002
)를 제공하도록 구성된 공간 영역 결정 유닛(230)을 포함한다.
따라서 정보(231)는 선택적인 특징으로서, 평가를 위해 그리고 렌더링 절차에서 상대 위치 및/또는 폐색에 대한 정보를 통합하기 위해 SESS 렌더링부(214)에 제공된다.
또 다른 선택적 특징으로서, 렌더러(200)는 광선 추적 기반 접근 방식을 사용하여 공간 영역 정보(231)를 결정하도록 구성된다. 따라서, 렌더러(200)는 선택적 특징으로서 광선 추적부(240)을 포함한다. 선택적으로 도시된 바와 같이, 광선 추적부(240)에는 공간 확장 음원 정보(202) 및 선택적 추가 장면 정보(204)가 제공될 수 있다. 이에 기반하여, 광선 히트 정보(241)가 결정되어 공간 영역 결정부(230)에 제공될 수 있다. 광선 추적부는 3차원 음향 장면(예를 들어 렌더링될 장면)에서 복수의 광선의 시뮬레이션에 기초하여, 청취자의 관점에서 음향적으로 관련된 객체 및/또는 특성의 2차원 근사치를 결정하도록 구성될 수 있다. 따라서, 공간 확장 음원 및/또는 객체와 같은 모델링된 개체에 닿는 광선에 대한 정보에 기초하여, 청취자와 공간 확장 음장 및/또는 폐색 효과(예를 들어, 광선에 부딪힌 폐색 개체를 기반으로 함) 사이의 상대적인 위치에 대한 정보을 획득할 수 있다고 간주된다.
또 다른 선택적 특징으로서, 렌더러는 예를 들어 광선 추적부(240)를 사용하여 복수의 영역에 대해 각각의 영역과 연관되고 청취자의 위치로부터 멀리 확장되는 광선이 공간 확장 음원에 닿는지 여부를 결정하여, 그에 따라 청취자의 위치 및/또는 청취자의 방향을 기준으로 어느 공간 영역에 확산 사운드의 재생을 위한 공간 확장 음원이 존재하는지를 결정하도록 구성된다.
다른 선택적인 특징으로서, SESS 렌더링부(214)은 청각 큐 정보부(216)을 포함한다.
따라서 선택적으로, 렌더러는 예를 들어 렌더링된 확산 사운드 응답의 형태로 확산 사운드의 렌더링된 버전을 획득하기 위해, 확산 사운드의 재생을 위한 공간 확장 음원이 예를 들어 SESS 렌더링부(214)를 사용하여 하나 이상의 청각 큐 정보 항목을 사용하여 확산 사운드를 표현하는 하나 이상의 오디오 신호를 처리하기 위해 존재하는 공간 영역에 따라, 예를 들어 청각 큐 정보부(216)를 사용하여 하나 이상의 청각 큐 정보 항목을 결정하도록 구성된다.
청각 큐 정보 항목은 예를 들어 채널간 간섭(Inter-Channel Coherence: ICC), 채널간 위상차 (Inter-Channel Phase Difference: ICPD) 및/또는 채널 간 레벨 차이 (Inter-Channel Level Difference: ICLD) 중 적어도 하나에 관한 정보를 포함할 수 있다. 그러한 정보 개체는 청취자에게 진정한 청각 경험, 예를 들어 바이노럴 렌더링을 제공하는 방식으로 바이노럴 렌더링을 적응시키는 것을 가능하게 할 수 있다.
또 다른 선택적인 특징으로서, 렌더러(200)는 청취자의 움직임에 응답하여, 청취자의 위치 및/또는 청취자의 방향을 기준으로 어느 공간 영역에 확산 사운드의 재생을 위한 공간 확장 음원이 존재하는 지에 대한 결정을 업데이트하도록 구성된다.
대안적으로 또는 추가적으로, 렌더러(200)는 청취자의 움직임에 응답하여 하나 이상의 청각 큐 정보 항목의 결정을 업데이트하도록 구성된다.
대안적으로 또는 추가적으로, 렌더러는 확산 사운드의 재생을 위한 공간 확장 음원이 존재하는 공간 영역의 변화에 응답하여 하나 이상의 큐 정보 항목의 결정을 업데이트하도록 구성된다.
따라서, 선택적 특징으로서, 공간 영역 결정부(230), 광선 추적부(240), 및 청각 큐 정보부(216)에는 그러한 업데이트를 트리거할 수 있는 선택적 청취자 움직임 정보(205)(예를 들어, 청취자 위치 정보를 포함함)가 제공된다.
이하에서는, 도 2에 따른 실시예에 대한 추가 예가 간단한 말로 논의된다. 일례로, 렌더링될 음원의 오디오 신호의 스펙트럼 값 및/또는 시간 영역 샘플을 포함하는 음원 신호(203)가 렌더러(200)에 제공될 수 있다. 음원이 표현될 청취자는, 소스보다는 다른 공간 영역, 예를 들어 방에 위치할 수 있다. 따라서, 청각 느낌의 진정한 표현을 위해 렌더러(200)는 다이렉트 사운드 렌더링부(212)와 SESS 렌더링부(214)을 포함하며, 여기서 전자는 다이렉트 사운드 응답을 취하고, 후자는 음원으로부터의 확산 사운드 효과를 청취자를 위해 고려한다. 발명자들은 예를 들어 청취자의 방과 음원의 방 사이에 있는 청취자의 방의 진동하는 측벽에 의해 야기되는 확산 사운드 효과가 SESS를 사용하여 효율적으로 표현될 수 있다는 것을 인식했다. 선택적으로, 음원의 확산 사운드 느낌은 잔향 처리를 기반으로 근사화될 수 있다. 또한, 이러한 SESS는 예를 들어 청취자의 위치에 대해 방들 사이의 진동 측벽 위치에 유리하게 배치될 수 있다. 따라서, 렌더링될 오디오 장면의 공간적 특성에 대한 정보가 추가 장면 정보(204)로서 렌더러에 제공될 수 있다. 이에 기초하여, 예를 들어 SESS 정보(202) 및/또는 청취자 정보(205)(예를 들어 청취자의 위치를 포함함)에 포함된 SESS의 기하학적 및/또는 위치 정보, 예를 들어 광선 추적 접근 방식을 사용하여 공간 영역 정보가 결정될 수 있다. 이러한 정보에 기초하여 렌더러는 청취자, SESS(예: 진동하는 측벽을 나타냄) 및/또는 추가로 모호하거나 감쇠하는 객체를 올바른 배열로 정확하게 '배치'하고 이를 기반으로 청취자에게 현실적으로 장면을 렌더링할 수 있다.
도 3은 본 발명의 실시예에 따른 디코더의 개략도를 도시한다. 도 3은 렌더러(310), 예를 들어 도 2의 렌더러(200) 또는 도 1의 렌더러(100) 또는 본 명세서에 개시된 임의의 렌더러 구성을 포함하는 디코더(300)을 포함한다. 따라서, 렌더러(310)는 렌더링된 음향 장면(301)을 제공하도록 구성된다.
디코더(300)는 확산 사운드의 재생을 위한 공간 확장 음원의 기하학적 설명(331)을 획득하기 위해 비트스트림(302)으로부터 포털의 기하학적 설명(321)을 획득하고 포털의 기하학적 설명을 청취자 중심 좌표계에 매핑하도록 구성된다.
따라서, 선택적인 특징으로서, 디코더(300)는 비트스트림(302)으로부터 포털의 기하학적 설명을 추출하도록 구성된 정보 추출부(320)를 포함한다. 또한, 선택적인 특징으로서, 청취자 움직임 정보(322), 추가 장면 정보(323) 및/또는 음원 신호(324)는 비트스트림(302)으로부터 추가로 추출될 수 있다. 선택적으로 도시된 바와 같이, 이들 정보 개체는 렌더러(310)에 제공될 수 있고, 예를 들어 도 2의 맥락에서 설명된 바와 같이 처리될 수 있다.
청취자 중심 좌표계로의 매핑을 위해, 디코더(300)는 선택적 특징으로서 공간 확장 음원의 기하학적 설명(331)을 SESS 정보 제공부(340)에 제공하도록 구성된 매핑부(330)를 포함한다.
SESS 정보 제공부(340)는 공간 확장 음원 정보(341)를 렌더러(310)에 제공하도록 구성된다. 공간 확장 음원 정보(341)는, 예를 들어, 기하학적 정보(예를 들어, SESS에 대한 정보 및/또는 오디오 신호 정보, 예를 들어 오디오 신호의 표현)를 포함할 수 있다.
다른 선택적 특징으로서, 오디오 디코더는 후기 잔향 생성기의 출력으로부터 파생된 공간 확장 음원의 렌더링을 위해 적어도 부분적으로 역상관된 두 개 이상의 신호(351)를 획득하도록 구성된다. 따라서, 오디오 디코더(300)는 선택적 특징으로서 후기잔향 생성기(350)를 포함한다. 도시된 바와 같이, 두 개 이상의 신호는 후기잔향 생성기(350)로부터 SESS 정보 제공부(340)로 제공될 수 있고, 공간 확장 음원 정보 (341)에 포함될 수 있다.
다른 선택적인 특징으로서, 오디오 디코더(300)는 피드백 지연 네트워크 잔향기(feedback delay network reverberator: FDNR)를 사용하여 공간 확장 음원의 렌더링을 위해 두 개 이상의 신호(361)를 획득하도록 구성된다. 따라서, 디코더(300)는 선택적 특징으로서 FDNR(360)을 포함한다. 도시된 바와 같이, 두 개 이상의 신호는 FDNR(360)로부터 SESS 정보 제공부(340)로 제공될 수 있고, 공간 확장 음원 정보(341)에 포함될 수 있다.
다른 선택적 특징으로서, 디코더(300)는 공간 확장 음원의 렌더링을 위한 음원 신호 및 음원 신호의 역상관된 버전을 사용하도록 구성된다. 따라서, 디코더(300)는 선택적인 특징으로서 음원 신호(324)가 제공되는 역상관기를 포함한다. 도시된 바와 같이, 두 개의 신호(371)는 역상관기(370)로부터 SESS 정보 제공부(340)로 제공될 수 있고, 공간 확장 음원 정보(341)에 포함될 수 있다.
세 가지 접근 방식, 예를 들어, 후기 잔향 발생기(350), FDNR(360) 및/또는 역상관기(370)를 사용하는 방식이 예를 들어 대안으로서 사용될 수 있다.
이들 신호에 기초하여, 예를 들어 선택적으로 청각 큐 정보 항목, SESS 정보가 SESS 정보 제공부(340)에 획득될 수 있다. 이러한 청각 큐 정보 항목은 예를 들어 추가 장면 정보(323)에 포함될 수 있으며, 이는 상기 SESS 정보 제공부(340)에 제공될 수 있다.
또 다른 선택적인 특징으로서, 디코더(300)는 공간 확장 음원을 렌더링할 때 폐쇄된 공간 영역을 제외하거나 감쇠하도록 구성된다. 따라서 선택적인 특징으로서, SESS 정보 제공부(340)에는 공간 음향 장면 정보를 포함할 수 있는 추가 장면 정보(323)가 제공되므로, SESS 정보 제공부는 폐쇄된 공간 영역을 제외하거나 감쇠시키기 위한 정보를 공간 확장 음원 정보(341)에 제공하도록 구성될 수 있다.
따라서, 디코더(300)는 다수의 공간 영역 내외로 그리고 그 사이에서 원활한 전환을 허용하도록 구성될 수 있다.
도 4는 본 발명의 실시예에 따른 인코더의 개략도를 도시한다. 도 4는 오디오 장면을 인코딩하기 위한 인코더(400)를 도시하며, 여기서 오디오 인코더는 하나 이상의 오디오 신호의 인코딩된 표현을 제공하도록 구성된다.
그러므로, 선택적 특징으로서, 인코더(400)는 하나 이상의 오디오 신호(403)의 인코딩된 표현을 포함하는 비트스트림(401)을 제공하도록 구성된 비트스트림 제공부(410)를 포함한다.
또한, 오디오 인코더(400)는 복수의 음향적 균질 공간인 AHS를 식별하고, 이를 기반으로 공간 확장 음원의 정의를 제공하도록 구성되며, 공간 확장 음원의 기하학적 특성은 식별된 음향적 균질 공간의 기하학적 특성과 동일하다.
그러므로, 선택적 특징으로서, 인코더(400)는 (예를 들어, 추가적인) 음향 장면 정보(402)가 제공되는 AHS 식별부(420), 및 상기 식별부(420)로부터 AHS 정보가 제공되는 선택적 SESS 정의 제공부(430)을 포함한다.
이에 기초하여, 선택적 특징으로서, SESS 정의 제공부(430)는 비트스트림에서 상기 정의를 제공하기 위해 SESS 정의(431)를 비트스트림 제공부에 제공하도록 구성된다.
SESS 정의(431)는 렌더링에 사용될 SESS에 대한 기하학적 정보를 포함할 수 있다.
또 다른 선택적 특징으로서, 오디오 인코더(400)는 음향적 균질 공간 사이의 음향 장애물의 정의(442)를 제공하도록 구성된다. 그러므로, 선택적 특징으로서, 인코더(400)는 음향 장면 정보(402)가 선택적으로 제공되고 음향 장애물 정의(442)를 비트스트림 제공부(410)에 제공하는 음향 장애물 정의 제공부(440)을 포함하며, 이는 비트스트림(401)에 상기 정보를 선택적으로 통합할 수 있다.
도 5는 본 발명의 추가 실시예에 따른 인코더의 개략도를 도시한다. 도 5는 오디오 장면을 인코딩하기 위한 인코더(500)를 도시하며, 오디오 인코더는 하나 이상의 오디오 신호의 인코딩된 표현을 제공하도록 구성된다.
따라서, 선택적 특징으로서, 인코더(500)는 하나 이상의 오디오 신호(503)의 인코딩된 표현을 포함하는 비트스트림(501)을 제공하도록 구성된 비트스트림 제공부(510)을 포함한다.
또한, 인코더(500)는 하나 이상의 공간 확장 음원의 정의(531)를 제공하도록 구성되며, 여기서 공간 확장 음원의 기하학적 특성은 음향적 균질 공간 사이의 포털의 기하학적 특성에 기초한다.
따라서, 선택적 특징으로서, 인코더(500)는 AHS 및 포털 식별부(520)을 포함하며, 이는 선택적으로 추가 음향 장면 정보(502)가 선택적으로 제공된다. AHS 및 포털 식별부(520)은 AHS간의 포털을 식별하기 위해 AHS를 식별하고, 포털 정보(521)를 제공하도록 구성된다. 포탈 정보(521)는 음향적 균질 공간 사이의 포탈의 기하학적 특성에 대한 정보를 포함한다.
더욱이, 선택적 특징으로서, 상기 설명한 바와 같이 인코더(500)는 정의(531)를 제공하기 위해 포털 정보가 제공되는 SESS 정의 제공부(530)을 포함한다. 선택적으로 도시된 바와 같이, 이러한 정의(531)는 비트스트림(501)에 통합되는 비트스트림 제공부(510)에 제공될 수 있다.
따라서, 다시 말하면, 선택적으로, 오디오 인코더(500)는 복수의 음향적 균질 공간과 음향적 균질 공간 사이의 하나 이상의 포털을 식별하고, 이에 기초하여 하나 이상의 공간 확장 음원의 정의를 제공하도록 구성되며, 하나 이상의 공간 확장 음원의 기하학적 특성은 식별된 포털의 치수에 기초한다.
도 6은 본 발명의 실시예에 따른 음향 장면을 렌더링하는 방법의 개략적인 블록도를 도시한다. 방법(600)은 공간 확장 음원을 사용하여 제1 공간 영역에서 발생하는 확산 사운드의 음향 효과를 제2 공간 영역에 렌더링하는 단계(610)를 포함한다.
도 7은 본 발명의 실시예에 따른 오디오 장면을 인코딩하는 방법의 개략적인 블록도를 도시한다. 방법(700)은 하나 이상의 오디오 신호의 인코딩된 표현을 제공하는 단계(710), 복수의 음향적 균질 공간을 식별하는 단계(720), 및 상기 식별에 기초하여 공간 확장 음원의 정의를 제공하는 단계(730)를 포함하며, 공간 확장 음원의 기하학적 특성은 식별된 음향적 균질 공간의 기하학적 특성과 동일하다.
도 8은 본 발명의 실시예에 따른 오디오 장면을 인코딩하는 방법의 개략적인 블록도를 도시한다. 방법(800)은 하나 이상의 오디오 신호의 인코딩된 표현을 제공하는 단계(810) 및 하나 이상의 공간 확장 음원의 정의를 제공하는 단계(820)를 포함하며, 여기서 공간 확장 음원의 기하학적 특성은 음향적 균질 공간 사이의 포털의 기하학적 특성에 기초한다.
도 9는 본 발명의 실시예에 따른 비트스트림의 개략적인 블록도를 도시한다. 비트스트림(900)은 하나 이상의 오디오 신호 (910) 및 제1 공간 영역에서 발생하고 제2 공간 영역에서 렌더링되는 확산 사운드의 음향 효과를 렌더링하기 위한 하나 이상의 공간 확장 음원의 인코딩된 표현(920)을 포함한다.
선택적 특징으로서, 비트스트림(900)은 하나 이상의 공간 영역의 인코딩된 설명(930) 및 적어도 두 개의 공간 영역 사이의 음향 관계를 설명하는 정보의 인코딩된 표현(940)을 포함한다.
선택적으로, 인코딩된 표현은 하나 이상의 공간 영역에 위치하는 오디오 소스를 표현하는 하나 이상의 오디오 신호 또는 오디오 채널의 인코딩된 표현을 추가적으로 포함할 수 있다.
선택적으로, 공간 영역의 인코딩된 표현은 두 공간 영역 사이의 포털에 대한 설명을 포함한다.
또 다른 선택적인 특징으로서, 오디오 비트스트림(900)은 제1 공간 영역으로부터 제2 음향 영역으로의 음향 전파를 기술하는 전파 인자의 인코딩된 표현(950)을 포함한다.
선택적으로, 전파 인자는 제1 공간 영역의 음향 에너지가 제2 공간 영역으로 방사되는 양/분율 및/또는 제1 공간과 제2 공간 사이의 연결된 표면적과 제1 공간의 전체 흡수 표면적 사이의 비율을 기술할 수 있다.
또 다른 선택적 특징으로서, 오디오 비트스트림(900)은 두 개의 공간 영역 사이의 전환 구역의 범위를 설명하는 매개변수(960)를 포함한다.
비고:
이하에서는, 다양한 본 발명의 실시예 및 측면이 예를 들어 "개요-요약" 섹션, "본 발명에 따른 실시예의 목적" 섹션, "발명의 설명" 섹션, 및 "발명의 측면" 섹션에서 설명되거나 추가로 설명될 것이다.
또한, 추가 실시예는 첨부된 청구범위에 의해 정의될 것이다.
청구항들에 의해 정의된 바와 같은 임의의 실시예들이 상기 언급된 챕터들에서 설명된 세부사항들(특징들 및 기능들) 중 임의의 것에 의해 보완될 수 있다는 것을 유의해야 한다.
또한, 상기 언급된 챕터들에서 설명된 실시예들은 개별적으로 사용될 수 있고, 또한 다른 챕터의 특징들 중 임의의 특징에 의해, 또는 상기 설명 중 임의의 섹션에서의 임의의 특징에 의해, 및/또는 청구항에 포함된 임의의 특징에 의해 보완될 수 있다.
또한, 본 명세서에 설명되는 개별적인 측면들이 개별적으로 또는 조합하여 사용될 수 있다는 것을 유의해야 한다. 따라서, 상기 측면들 중 다른 측면에 세부사항들을 추가하지 않으면서 상기 개별적인 측면들 각각에 세부사항들이 추가될 수 있다.
더욱이, 방법과 관련하여 본 문서에 개시된 특징 및 기능은 (그러한 기능을 수행하도록 구성된) 장치에서 사용될 수도 있다. 또한, 장치와 관련하여 본 명세서에 개시된 임의의 특징 및 기능은 대응하는 방법에서도 사용될 수 있다. 달리 말하면, 본 명세서에 개시된 방법은 장치에 관해 설명된 임의의 특징, 기능 및 세부사항에 의해 선택적으로 보완될 수 있다.
또한, 본 명세서에 설명된 특징들 및 기능들 중 임의의 것은 "대안적 구현" 섹션에 설명되는 대로, 하드웨어로 또는 소프트웨어로, 또는 하드웨어와 소프트웨어의 조합을 사용하여 구현될 수 있다.
더욱이, 오디오 비트스트림[또는 동등하게 인코딩된 오디오 표현]은 선택적으로 여기에 개시된 임의의 특징, 기능 및 세부사항에 의해 개별적으로 또는 조합되어 보완될 수 있다는 점에 유의해야 한다.
대안적 구현:
일부 측면이 장치의 컨텍스트에서 설명되지만, 이러한 측면이 해당 방법에 대한 설명을 나타내는 것이 분명하고, 본 명세서에서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 해당한다. 유사하게, 방법 단계의 내용에서 설명된 측면은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계의 일부 또는 전부는 예를 들어 마이크로 프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 사용하여) 실행될 수 있다. 일부 실시 예에서, 하나 이상의 가장 중요한 방법 단계가 그러한 장치에 의해 실행될 수 있다.
특정 구현 요구 사항에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 이 구현은 전자적으로 판독 가능한 제어 신호가 저장되어 있는, 플로피 디스크, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리와 같은 디지털 저장 매체를 사용하여 수행할 수 있으며, 이들은 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력한다 (또는 협력할 수 있다). 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시 예는 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함하므로, 본 명세서에서 설명된 방법 중 하나가 수행되도록 한다.
일반적으로 본 발명의 실시 예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 방법 중 하나를 수행하기 위해 작동한다. 프로그램 코드는 예를 들어 기계 판독 가능 캐리어에 저장될 수 있다.
다른 실시 예는 기계 판독 가능 캐리어에 저장된 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 실시 예는 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 본 명세서에서 설명된 방법 중 하나를 수행하기위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 추가 실시 예는 본 명세서에서 설명된 방법 중 하나를 수행하기위한 컴퓨터 프로그램을 기록하고 있는 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 일반적으로 유형적 및/또는 비 과도적이다.
따라서 본 발명의 방법의 추가 실시 예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호 시퀀스이다. 데이터 스트림 또는 신호 시퀀스는 예를 들어 데이터 통신 연결을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시 예는 본 명세서에서 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 처리 수단, 예를 들어 컴퓨터, 또는 프로그래밍 가능한 논리 장치를 포함한다.
추가 실시 예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가 실시 예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기로 전송 (예를 들어, 전자적으로 또는 광학적으로)하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시 예에서, 프로그램 가능 논리 장치 (예를 들어, 필드 프로그램 가능 게이트 어레이)는 본 명세서에 설명된 방법의 일부 또는 모든 기능을 수행하는 데 사용될 수 있다. 일부 실시 예에서, 필드 프로그래밍 가능 게이트 어레이는 여기에 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
본 명세서에 설명된 장치는 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본 명세서에 설명된 장치 또는 본 명세서에 설명된 장치의 임의의 구성 요소는 적어도 부분적으로 하드웨어 및/또는 소프트웨어로 구현될 수 있다.
본 명세서에 설명된 방법은 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
본 명세서에 설명된 방법, 또는 본 명세서에 설명된 장치의 임의의 구성 요소는 하드웨어 및/또는 소프트웨어에 의해 적어도 부분적으로 수행될 수 있다.
본 명세서에서 설명된 실시 예는 본 발명의 원리에 대한 예시 일 뿐이다. 본 명세서에 기술된 배열 및 세부 사항의 수정 및 변경은 당업자에게 명백할 것임이 이해된다. 따라서, 본 명세서의 실시 예의 기술 및 설명에 의해 제시된 특정 세부 사항이 아니라 이어지는 특허 청구 범위에 의해서만 제한되는 것이 의도된다.
이하에서는 실시예의 '개요-요약'으로 구성된 섹션이 제공된다.
일 측면에 따르면, 거대하고 복잡한 사운드 장면을 분할하고 위상적 관계에 기초하여 여러 가지 사실적인 확산 음장을 렌더링하는 계산적으로 효율적인 접근 방식이 설명된다. 예를 들어, 이는 균질 확장 음원과 유사한 확산 사운드 특성을 갖는 음향 공간을 모델링한 다음, 예를 들어 범위 및 청취자와의 거리에 따른 사운드 전파를 실시간으로 간단히 시뮬레이션함으로써 수행된다.
이전 연구에서는 사전 렌더링된 기하학 기반 방법(실시간 소스 이동을 처리할 수 없고 계산량이 많음) 또는 잔향 그래프 접근 방식(단순한 포인트 소스로 누적된 임펄스 응답)과 같은 아이디어를 제안했다.
일 측면에 따르면, 본 제안(예: 본 발명의 제안)은 효율성과 품질을 모두 달성하기 위해 기존의 균질 확장 음원 알고리즘을 활용한다.
다음 섹션은 본 발명에 따른 실시예의 더 나은 이해를 위한 맥락을 제공할 수 있다.
이하에서는 일부 배경 정보가 제공될 것이다. 그러나 여기에 개시된 임의의 특징, 기능 및 세부사항은 선택적으로 본 발명에 따른 실시예에서 개별적으로 또는 조합하여 사용될 수 있다는 점에 유의해야 한다. 또한, 공간 확장 음원을 재생하는 장치 및 방법 또는 앵커링 정보를 사용하여 공간 확장 음원에 대한 설명을 생성하는 장치 및 방법을 설명하는 PCT/EP2021/050588을 참조한다.
일 측면에 따르면, 본 발명은 오디오 신호 처리에 관한 것이며, 특히 공간 확장 음원(SESS)으로서 오디오 장면의 확산 사운드를 인코딩, 디코딩 또는 재생하는 것에 관한 것이다.
몇 개의 스피커(loudspeaker) 또는 헤드폰 상에서의 음원의 재생이 오랫동안 연구되어 왔다. 이러한 셋업 상에서 음원을 재생하는 가장 단순한 방식은 포인트 소스를, 즉 매우(이상적으로는: 무한하게) 작은 음원으로 묘사(render)하는 것이다. 그러나 이 이론적 개념은 기존의 물리적 음원을 실제적인 방식으로 모델링할 수 없다. 예를 들어, 그랜드 피아노는 내부에 공간적으로 분포된 많은 현(string)을 갖는 큰 진동하는 목제 포(hull)를 가지므로 청각(auditory perception)에 점 음원보다 훨씬 더 크게 느껴진다(특히 청취자(및 마이크)가 그랜드 피아노에 가까울 때). 악기, 기계, 오케스트라 또는 합창 또는 (폭포 소리 등의) 주변 소리(ambient sound) 등 많은 실세계의 음원은 상당한 크기("공간 범위")를 갖는다.
이러한 음원의 정확한/사실적인 재생은 많은 사운드 재생 방법의 목표가 되어 왔는데, 헤드폰을 사용하거나 두 개의 스피커("스테레오(stereo)")로부터 수평 평면에 배치된 많은 스피커("서라운드 사운드")와 청취자를 모든 3차원에서 둘러싸는 많은 스피커("3D 오디오")까지의 전통적으로 스피커 구성을 사용하는 바이노럴 (즉, 소위 머리 관련 전달 함수(Head-Related Transfer Function; HRTF) 또는 바이노럴 실내 임펄스 응답(Binaural Room Impulse Response; BRIR)을 사용하는) 이다.
일 측면에 따르면, 본 발명의 목적은 공간 확장 음원을 가능하기로 복잡한 기하학적 형태(complex geometric shape)로 인코딩 또는 재생하는 개념을 제공하는 것이다.
이하의 섹션은 2D 사운드 폭(2D Source Width)으로 명칭 될 수 있다.
이 섹션은 확장 음원을 청취자의 관점에 대향하는 2D표면 상, 즉 (통상적인 스테레오/서라운드 사운드의 경우와 같이) 0의 고도(elevation)의 어떤 방위각(azimuth) 범위 또는 (3D 오디오 또는 사용자 운동의 3 자유도(degrees of freedom)["3DoF"], 즉 피치/요우/롤(pitch/yaw/roll) 축들의 머리 회전의 경우와 같이) 어떤 범위의 방위각과 고도 상에 묘사(rendering)하는 것에 관련된다.
둘 이상의 스피커 간에 패닝된(panned) 오디오 객체(audio object)의 외견 폭(apparent width)의 확장(소위 팬텀 이미지(phantom image) 또는 팬텀 소스(phantom source)의 생성)은 참여 채널 신호의 상관성(correlation)을 감소시킴으로써 이뤄질 수 있다(Blauert, 2001, S. 241-257). 상관성을 감소시키면, 팬텀 소스의 스프레드(spread)는 0에 가까운 상관성(및 너무 넓지 않은 개구각(opening angle) 대해)에 대해 스피커 간의 전체 범위를 커버하기까지 확장된다.
소스 신호(source signal)의 역상관화된 버전(decorrelated version)은 적절한 역상관화 필터의 도출 및 인가에 의해 얻어진다. 예를 들어, Lauridsen은 신호의 두 개의 역상관화 버전을 획득하기 위해 소스 신호의 시간 지연 및 크기 조정된(scaled) 버전을 그 자체에 가감(add/subtract)하는 것을 제안하였다(Lauridsen, 1954). 더 복잡한 접근 방법은 예를 들어 Kendall에 의해 제안되었다(Kendall, 1995). 그는 난수 시퀀스의 조합에 기반하여 한 쌍의 전대역 통과 필터(all-pass filter)들을 반복법으로 도출하였다. Faller 등은 (Baumgarte & Faller, 2003)에서 적절한 역상관화 필터("디퓨저(diffusers)")를 제안하였다(Faller & Baumgarte, 2003). 또한 Zotter 등은 주파수 의존 위상 또는 진폭 차이가 팬텀 소스의 확장(widening)의 달성에 사용된 필터 쌍들을 도출하였다(Zotter & Frank, 2013). 또한 예를 들어, ((Alary, Politis, & Vδlimδki, 2017)는 (Schlecht, Alary, Vδlimδki, & Habets, 2018) 로 더 최적화된 벨벳 소음(velvet noise)에 기반한 역상관화 필터를 제안하였다.
팬텀 소스의 해당하는 채널 신호의 상관성을 감소시키는 것 이외에, 소스 폭(source width)은 오디오 객체에 기인하는 팬텀 소스의 수의 증가로도 확장될 수 있다. (Pulkki, 1999)에서, 예를 들어, 소스 폭은 동일한 소스 신호를 (약간) 다른 방향으로 패닝(panning)함으로써 제어된다. 이 방법은 원래 소스 신호가 사운드 장면(sound scene) 내에서 이동할 때 VBAP-패닝된(Pulkki, 1997) 소스 신호의 인식된(perceived) 팬텀 소스 스프레드(spread)를 안정화시키기 위해 제안되었다. 즉, 예를 들어, 이는 소스의 방향에 의존하므로 바람직한데, 렌더링된 소스가 인식된 소스 폭의 바람직하지 못한 변경으로 결과될 수 있는 둘 이상의 스피커로 재생된다.
예를 들어, 가상 세계 DirAC(Pulkki, Laitinen, & Erkut, 2009)은 가상 세계에서의 사운드 합성에 대한 전통적인 지향성 오디오 코딩(Directional Audio Coding; DirAC) (Pulkki, 2007) 접근 방식에 대한 확장이다. 공간 범위의 렌더링을 위해, 소스의 지향성 사운드 성분(directional sound component)가 소스의 원래 방향 주위의 어떤 범위 내에서 랜덤하게 패닝되는데, 여기서 패닝 방향은 예를 들어 시간과 주파수에 따라 변화된다.
유사한 접근 방식이 (Pihlajamδki, Santala, & Pulkki, 2014)에서 추구되었는데, 소스 신호의 주파수 대역을 다른 공간 방향으로 랜덤하게 분포시킴으로써 공간 범위가 달성된다. 이는 공간적으로 분포되고 범위의 정확한 각도를 제어하기보다 모든 방향으로부터 동일하게 유입되는 엔벌로프된 사운드(enveloping sound)를 목표로 한 것이다.
예를 들어, Verron 등은 패닝된 상관성(correlated) 신호를 사용하지 않고 사운드 신호의 복수의 비동기(incoherent) 신호를 합성하여 이를 청취자 주위의 원 상에 균일하게 분포시키고 이들 사이에서 믹싱함으로써 소스의 공간 범위를 달성하였다(Verron, Aramaki, Kronland-Martinet, & Pallone, 2010). 동시에 활성인 소스의 수와 이득이 확장 효과(widening effect)의 강도를 결정한다. 이 방법은 환경음(environmental sound)용 신디사이저에 대한 공간 확장으로 구현되었다.
다음은 '3D 사운드 폭(3D Source Width)'으로 명칭된다.
이 섹션은 3D공간 내에, 즉 6자유도("6DoF")를 갖는 가상현실에 필요한 것과 같은, 예를 들어, 용적형 방식(volumetric way) 내에 확장된 음원의 렌더링에 관련된다. 이는 사용자 운동의 6자유도, 즉 피치/요우/롤 축의 머리 회전에 더하여 x/y/z의 세 가지 병진 운동(translational movement) 방향을 의미한다.
예를 들어, Potard 등은 소스 형태의 인식을 연구함으로써 소스 범위의 개념(notion)을 소스의 1차원 매개변수(즉 2개의 스피커 사이의 그 폭)로 확장했다(Potard, 2003). 이들은 원래의 소스 신호에 (시가변적; time varying) 역상관화 기법을 적용한 다음, 예를 들어 비동기 소스를 다른 공간 위치에 위치시키고 이들에게 3차원 범위를 부여함으로써 복수의 비동기 포인트 소스를 생성하였다(Potard & Burnett, 2004).
예를 들어, MPEG-4 Advanced AudioBIFS((Schmidt & Schrφder, 2004))에서, 용적형 객체/형태(포(shuck), 박스, 타원체, 및 원통)는 몇 개의 균일하게 분포되고 역상관화된 음원으로 채워져 3차원 소스 범위를 설정(evoke)할 수 있다.
앰비소닉을 사용하여 소스 범위를 증가 및 제어하기 위해, Schmele 등은 입력 신호의 앰비소닉 차수(order)를 감소시킨 믹서처를 제안했는데(Schmele & Sayin, 2018), 이는 본질적으로 외견 소스 폭을 증가시키고, 소스 신호의 역상관화 사본을 청취 공간(listening space) 주위에 분포시킨다.
다른 접근 방식은 Zotter 등에 의해 도입되었는데, 이들은 앰비소닉을 위해 (Zotter & Frank, 2013)에 제안된 원리(스테레오 재생 셋업의 소스 범위를 달성하기 위해 주파수 의존 위상 및 진폭 차이를 도입하는 필터 쌍의 도출)를 채택하였다(Zotter F. , Frank, Kronlachner, & Choi, 2014).
(예를 들어 (Pulkki, 1997), (Pulkki, 1999), (Pulkki, 2007), (Pulkki, Laitinen, & Erkut, 2009) 등의) 패닝 기반 접근 방식의 공통적인 단점은 청취자의 위치에 대한 의존성이다. 최적 위치(sweet spot)로부터의 작은 이탈조차 공간 이미지가 청취자에게 가장 가까운 스피커로 붕괴하게 한다. 이는 청취자가 자유로이 돌아다닌다고 가정되는 6 자유도의 가상현실 또는 증강현실의 맥락에서의 이 접근 방식의 적용을 극적으로 제한한다. 또한 (예를 들어 (Pulkki, 2007), (Pulkki, Laitinen, & Erkut, 2009) 등) DirAC 기반 접근 방식에 시간-주파수 빈(bin)을 분포시키는 것이 항상 팬텀 소스의 공간 범위의 적절한 렌더링을 보장하는 것은 아니다. 더구나 이는 전형적으로 소스 신호의 음색(timbre)을 현저히 열화시킨다.
소스 신호의 역상관화는 일반적으로 다음 방법 중 하나로 이뤄진다: i) 상보 진폭(complementary magnitude)을 갖는 필터 쌍의 도출(예를 들어 (Lauridsen, 1954)), ii) 일정한 진폭을 갖지만 (랜덤하게) 스크램블된(scrambled) 위상을 갖는 전대역 통과 필터의 사용(예를 들어 (Kendall, 1995), (Potard & Burnett, 2004)), 또는 iii) 소스 신호의 시간-주파수 빈(bin)을 공간적으로 랜덤하게 분포시킴(예를 들어 (Pihlajamδki, Santala, & Pulkki, 2014)).
모든 접근 방식은 그 자체의 영향이 있다: i)에 따른 소스 신호의 상보적 필터링은 전형적으로 역상관화 신호의 변화된 인식 음색을 유발한다. ii)에서와 같은 전대역 통과 필터링은 소스 신호의 음색을 보존하는 반면, 스크램블된 위상은 원래의 위상 관계를 파괴하여, 특히 일시적 신호에 대해 심한 시간 분산(temporal dispersion)과 스미어링 아티팩트(smearing artifact)를 유발한다. 공간적으로 분포된 시간-주파수 빈은 일부 신호에 유효한 것으로 입증되었지만, 역시 신호의 인식된 음색을 변화시킨다. 뿐만 아니라, 이는 매우 신호 의존적임을 보여 임펄스 신호(impulsive signal)에 대해서는 심한 아티팩트들을 유입시킨다.
예를 들어 Advanced AudioBIFS((Schmidt & Schrder, 2004), (Potard, 2003), (Potard & Burnett, 2004))에 제안된 바와 같이 용적형 형태(volumetric shape)에의 소스 신호의 복수의 역상관화 버전의 이식(populating)은 상호 역상관된 출력 신호를 산출하는 다수의 필터의 사용 가능성을 가정한다(전형적으로 용적형 형태 당 10개보다 많은 포인트 소스가 사용된다). 그러나 이러한 필터의 탐색(finding)은 사소한 작업이 아니어서 이러한 필터가 요구될수록 더 어려워진다. 뿐만 아니라, 소스 신호가 완전히 역상관화되지 않고 예를 들어 (가상현실) 시나리오에서 형태처럼 청취자가 돌아다니면, 청취자에 대한 개별적 소스 거리가 소스 신호의 다른 지연에 해당하여 청취자의 귀에서의 그 중첩은 위치 의존의 콤-필터링(comb-filtering)으로 결과되어 가능하기로 소스 신호의 짜증스럽고 불안정한 변질(coloration)을 도입할 것이다.
예를 들어 앰비소닉 기반 기법으로 소스 폭을 제어하는 기법은 앰비소닉 차수를 낮춤으로써 2차로부터 1차 또는 0차 차수로 단지 천이에 의한 청각 효과(audible effect)를 가짐을 보인다 (Schmele & Sayin, 2018). 또한 이러한 천이는 소스 확장(source widening)으로만 인식될 뿐 아니라 종종 팬텀 소스의 이동으로도 인식된다. 소스 신호의 역상관화 신호의 가산은 외견 소스 폭의 인식을 안정화시키는 데 도움이 될 수 있지만, 이는 팬텀 소스의 음색을 변화시키는 콤-필터 효과 역시 도입시킨다.
본 발명에 따른 실시예에서 선택적으로 사용될 수 있는 공간 확장 음원을 바이노럴 렌더링하기 위한 효율적인 방법은 예를 들어 다음을 사용하여 EP3879856에 개시되었다:
Figure pct00003
하나의(모노) 입력 파형 신호
이 신호의 역상관 버전을 생성하기 위한 역상관기(선택 사항)
예를 들어, 소스의 크기에 따라 공간 확장 음원의 목표 바이노럴(및 음색) 큐를 계산하는 큐 계산 스테이지(예: 공간 확장 음원과 청취자의 위치와 방향에 따라 방위각-고도 범위로 제공됨).
예를 들어 큐 계산 스테이지로부터의 타겟 큐를 사용하여 입력 신호 및 역상관된 버전으로부터 바이노럴 렌더링된 출력 신호를 생성하는 바이노럴 큐 조정 스테이지
다음 섹션은 '위상학적 사운드 전파'로 명칭된다.
가상 음향 및 가상 현실 응용 분야에서는 사운드 전파 모델링이 중요한다(또는 경우에 따라 매우 중요함). 구체적으로, 예를 들어, 위상학적 사운드 전파의 개념은 예를 들어 서로 다른 음향 특성을 갖는 서로 다른 음향실 사이의 사운드 전파를 모델링하는 데 중요하다는 것이 밝혀졌다. 본 발명의 측면은 예를 들어 특히 벽면에서 사운드가 산란되어 발생하는 실내 반향 효과와 가상 환경에 대해 이러한 효과를 정확하고 효율적으로 모델링하는 방법에 중점을 둔다.
음향 시뮬레이션에 대한 상당한 연구 역사에도 불구하고 대부분의 음향 모델링 접근 방식은 대부분 콘서트 홀이나 강당과 같은 단일 음향 공간에 중점을 두었다. 수많은 방과 복도가 있는 복잡한 장면의 경우 정확한 시뮬레이션을 위해서는 막대한 계산이 필요하며 이는 실시간으로 달성하기 불가능한 경우가 많다. 따라서 미리 계산된 시뮬레이션이 자주 사용된다. 또한 이러한 환경에서는 예를 들어 기하학적 모델을 포털로 서로 연결된 별도의 공간으로 분할하는 것이 유리하다 (Vorlδnder & Schrφder, 2007).
예를 들어, Efstathios 등은 먼저 복잡한 기하학을 포털로 연결된 일련의 결합 공간으로 세분화한 다음 오프라인 기하학적 음향 기법을 사용하여 '이동 연산자(transport operator)'를 미리 계산하고 이를 포인트 소스로 표현하는 잔향 그래프 접근 방식을 제안했다. 즉, 이 방법은 전체 전파 경로를 시뮬레이션하기 위해 소스에서 포털까지, 포털 간, 포털에서 청취자까지의 경로 등을 추적한다 (Stavrakis, Tsingos & Calamia, 2009).
예를 들어, Tsingos의 또 다른 접근 방식은 미리 계산된 이미지 소스 그라데이션을 활용하여 복잡한 3D 기하학 데이터에 액세스하지 않고도 실시간으로 위치 의존 잔향을 생성하는 것이다 (Tsingos, 2009).
이러한 제안은 모두 확산 사운드에 대한 실시간 토폴로지 사운드 전파를 실현하는 데 가능한다.
일 측면에 따르면, 본 발명의 방법(또는 장치 또는 개념)은 예를 들어 이전 솔루션에서 볼 수 있었던 두 가지 단점을 개선하는 새로운 기술을 제시한다:
1. 사전 계산된 시뮬레이션은 이전에 알려진 소스 및 청취자 위치(소스/청취자 위치 조합)에 대해서만 유효하므로 소스와 청취자 중 하나 또는 둘 모두의 움직임을 제한한다.
2. 포털은 실제 시나리오에서는 사실이 아닌 포인트 소스로 표시된다. 즉, 한 방에서 인접한 방에서 전파된 것으로 인식되는 사운드는 두 방 사이의 전체 개구부에서 나오는 것이 아니라 특정 위치(즉, 포털의 포인트 소스 위치)에 위치한다(여기서, 예를 들어, 후자가 본 발명의 실시예에 따른 경우일 수 있다). 이는 특히 청취자가 포털에 가까이 있을 때 결과적인 음향적 느낌을 비현실적으로 만든다.
다음 장에서는 본 발명에 따른 실시예의 목적이 논의된다.
일 측면에 따르면, 본 발명의 목적은 예를 들어 EP 3879856에 자세히 설명된 바와 같이 공간 확장 음원을 사용하여 확산 사운드 및 포탈과 같은 위상적 전파의 효율적이고 사실적인 렌더링을 제공하는 것이다. 제안된 알고리즘은 예를 들어, 음원과 청취자의 위치 및 움직임에 관계없이, 예를 들어 여러 개의 음향 동질 공간(AHS)을 원활하게 렌더링하기 위한 통합 솔루션을 제공한다. 구체적으로, 일 측면에 따르면, 본 발명은 가상 사운드의 현실적이고 효율적인 렌더링을 다룰 뿐만 아니라, 예를 들어 인코더에서 (아마도 원격으로) VR 렌더러로 전송될 수 있는 이러한 사운드 측면의 비트율 효율적인 표현에 대한 필요성도 다루고 있다.
다음 장 에서는 본 발명의 실시예의 '실시예의 설명'이 설명된다:
본 발명의 방법의 실시예의 개요가 이하에 제공된다:
도 10은 본 발명의 방법의 파이프라인의 개략적인 블록도를 도시한다. 일 예로서, 도 10의 블록도는 본 발명의 방법의 파이프라인의 일 예를 보여줄 수 있으며, 여기서 인코더, 비트스트림 및 디코더는 선택적으로 별도의 실시예로서 사용될 수 있다. 도 10은 예를 들어 인코더(예를 들어 1010), 비트스트림(예를 들어 1020), 및 디코더(예를 들어 1030)의 세 가지 주요 구성요소에서 본 발명의 방법(또는 개념)의 메타데이터 및 신호 흐름을 도시한다. 예를 들어, 파이프라인의 맨 처음에는 3D 기하학적 구조가 있는 장면이 입력(예: 1002)으로 제공되고, 예를 들어 디코더에 의해 생성된 최종 출력(예: 출력 오디오 1004)은, 예를 들어, 왼쪽 및 오른쪽 바이노럴 신호 Lbin 및 Rbin(1004a 및 1004b)을 포함하는 이진화된 오디오이다. 따라서, 도 10에 도시된 바와 같이, 실시예에 따른 렌더러, 예를 들어 디코더(1030)에 포함된 렌더러는 이노럴 렌더링을 수행하도록 구성될 수 있다.
이 접근 방식은 상기에서 언급한 세 가지 구성 요소에 해당하는 세 개의 연속 섹션에서 설명된다:
1. 인코더(예: 1010): (발명의 측면, 예, 세부 사항은 모두 선택 사항이다.)
Figure pct00007
예를 들어, 입력 장면(예: 1002)의 각 AHS에 대해 그 범위를 설명하는 기하학적 구조가 제공된다. 벽이나 천장과 같은 추가 기하학적 구조도 (선택적으로) 있을 수 있다. 예를 들어 이 정보를 사용하면 두 가지 다른 유형의 방법을 사용하여 포털의 기하학적 구조를 감지하거나 생성할 수 있다. 두 방법의 세부 사항과 각 방법에 대해 '포털'이 나타내는 내용은 아래에 설명되어 있다(예: 도 11 및 12 참조):
Figure pct00008
예를 들어, 제1 방법은 각 AHS의 전체 기하학적 구조를 해당 포털의 기하학 설명으로 사용한다. 도 11은 공간 A, B 및 C의 형태로 음향적으로 커플링된 3개의 공간 영역을 갖는 오디오 장면의 개략적인 개요를 도시한다. 즉, 도 11은 이러한 3개의 공간 A, B 및 C(예: 1110, 1120, 1130)가 있는 예를 도시한다. 도 11은 예를 들어, 공간 확장 음원이 제1 공간 영역의 기하학적 범위를 취할 수 있는 실시예에 따른 포털 검출 방법 1의 예를 도시할 수 있다. 도 11에서 볼 수 있듯이, 포털(예: 1112, 1122, 1132)은 예를 들어 AHS와 동일한 기하학적 구조(예: 동일한 모양, 예를 들어 축소된 영역)를 가진다. 또한, 이 예에 도시된 바와 같이, 제1 및/또는 제2 공간 영역은 앞서 설명한 바와 같이 음향적 균질 공간일 수 있다. 이 방법의 가장 큰 장점은 예를 들어 청취자가 위치한 AHS만 포털로 식별할 수 있다는 점이다. 이는 예를 들어 청취자(예: 1140)의 위치에 관계없이(예: 제2 방법과 비교하여) 전체 장면에 걸쳐 모든 AHS를 렌더링하는 데 단 하나의 알고리즘만 필요하다는 것을 의미한다. 예를 들어 청취자가 Space C로 이동하면 동일한 세 개의 포털이 여전히 해당 AHS를 표현한다. 이러한 방사 포털의 폐색은 일반적으로 (예를 들어) 가상 6DoF 청각 환경의 일부이고 이 설명 (예를 들어 이 단락의 설명)의 범위를 벗어나는 별도의 폐색 스테이지에서 처리해야 할 수 있다(또는 어떤 경우에는 처리해야 한다). 앞서 설명한 바와 같이, 예를 들어, 광선 추적은 (예를 들어 벽(1150)의) 폐색 효과를 고려하기 위해 실시예에 따라 구현될 수 있다. 또한, 도 11에 도시된 바와 같이 상기 설명에 따라, 렌더러, 예를 들어 디코더(1030)에 포함된 바와 같은 렌더러는, 청취자 위치로부터 멀리 떨어져 있는 하나 이상의 공간 확장 소스(예를 들어, 포털(1122, 1132)에 의해 표현되거나 포털(1122, 1132)을 표현하는 공간 확장 음원)와 청취자 위치가 내부에 위치하는 하나 이상의 공간 확장 소스(예를 들어 포털(1112)로 표현되거나 표현되는 공간 확장 음원)를 포함하는 복수의 공간 확장 음원을, 동일한 렌더링 알고리즘을 사용하여, 청취자 위치와 청취자 위치에서 멀리 떨어져 있는 하나 이상의 공간 확장된 소스 사이의 폐색을 고려하여, 렌더링 하도록 구성될 수 있다.
Figure pct00009
예를 들어, 제2 방법은 두 AHS 사이의 연결된 부분 을 식별하고 활용하여 포털의 기하학적 설명을 생성한다. 예를 들어 포털은 인접한 AHS를 표현하는 역할을 하며, 예를 들어 청취자 공간에 올바른 공간 범위로 사운드를 방사한다. 예를 들어 알고리즘을 사용하여 장면의 모든 AHS 간의 기하학적 관계를 분석하고 가능한 포털을 감지할 수 있다. 일 예가 도 12에 도시된다. 도 12는 도 11에 설명된 대로 공간 A, B, C 형태의 음향적으로 커플링된 세 개의 공간 영역이 있는 오디오 장면의 개략적인 개요를 보여준다. 하지만, 반대로 도 12는 예를 들어 공간 확장 음원이 제1 공간 영역과 제2 공간 영역 사이의 포탈에 배치되는 실시예에 따른 포탈 검출 방법 2의 일 예를 도시할 수 있다. 따라서, 본 발명의 실시예에 대한 선택적 특징으로서, 도 12에 도시된 바와 같이, 제1 공간 영역과 제2 공간 영역은 포털을 통해 음향적으로 커플링된 방일 수 있다. 예를 들어 청취자(예: 1140)가 공간 A(예: 1110)에 있는 경우, 공간 B와 공유되는 벽은 AHS B를 표현하는 포털로 식별된다. [이는, 예를 들어 도 12에서 A(예: 1110)와 B(예: 1120) 사이에 그려진 주황색 Portal_wall(예: 1160)로 표시된다] 예를 들어 공간 C(예: 1130)의 경우, 공간 A와 연결된 부분에는 벽과 출입구도 포함한다 (예: 기하학적 구조가 없고 빈 공간만 있는 영역). 이는 예를 들어 AHS C를 표현하기 위해 서로 다른 방사 특성을 갖는 두 개의 포털이 생성된다. [예: 도 12의 공간 A와 C 사이에 그려진 주황색 Portal_wall(예: 1170) 및 빨간색 Portal_door(예: 1180)]. 예를 들어 이 방법은 더 많은 기하학적 처리가 필요하지만(또는 사용자가 직접 수동으로 작성할 수도 있음) 복잡한 사운드 장면을 생성하는 데 더 많은 유연성을 제공한다: 유형 2 포털은, 예를 들어 물리적 공간에서 밀접한 관계가 있거나 없는 AHS 쌍 사이의 사운드 전파를 가능하게 하는 매체로서 해석될 수 있다. 즉, 이러한 유형의 포털을 사용하면 작자가 실제 기하학적 관계뿐만 아니라 예술적 의도를 기반으로 포털을 작성할 수 있다. 따라서 이 방법은 예를 들어 보다 유연한 렌더링 옵션을 제공한다.
따라서, 도 10에 도시된 바와 같은 포탈 검출부(1012)는 AHS에 대응하는 포탈을, 예를 들어 방법 1과 관련하여 설명한 대로 검출하도록 구성되거나 또는 방법 2와 관련하여 설명한 대로 AHS 간의 인터페이스에 해당하는 포털을 검출하도록 구성될 수 있다. 따라서, 포탈 기하학적 설명부(1014)는 각각의 포털의 각각의 기하학적 설명을, 예를 들어 외부 경계가 축소된 해당 AHS(예: 방법 1의 경우)와 동일한 모양에 따라, 또는 예를 들어 AHS 간의 교차점에 따라(예: 방법 2의 경우) 결정하도록 구성될 수 있다.
더욱이, 본 발명의 일부 실시예에 따르면, SESS와 포털은 상호교환적으로 사용될 수 있다. 따라서 SESS는 포털의 위치에 위치할 수도 있고, SESS를 사용하거나 또는 SESS에 의해 포털을 설명하거나 표현하거나 렌더링할 수도 있다. 또한, 일부 실시예에 따르면 AHS와 포털은 적어도 일부 특성과 관련하여 상호교환적으로 사용될 수 있다. 예를 들어 포털은 해당 AHS와 동일한 모양을 공유할 수 있지만 경계는 축소될 수 있다.
선택적으로 포털은 SESS로 렌더링되거나 SESS를 사용하여 렌더링될 수 있다. 따라서 AHS를 표현하는 포털은 SESS로 렌더링되거나 또는 SESS를 사용하여 렌더링될 수 있다.
2. 비트스트림(예: 1020): (발명의 측면; 예, 세부 사항은 모두 선택 사항이다.)
Figure pct00010
생성된 포털 기하학적 구조(예: 원하는 경우 관련 메타데이터 포함)는 (선택적으로) 양자화되고 (선택적으로) 비트스트림으로 직렬화되어 포털 정보(예: 1022)로 시그널링된다. 이는 예를 들어 데이터가 인코더(예: 1010)에서 원격 디코더(예: 1030)로 효율적으로 전송되게 한다.
3. 디코더(예: 1030): (발명의 측면; 예, 세부 사항은 모두 선택 사항이다.)
Figure pct00011
디코더에서는 비트스트림의 포털에 대한 기하학적 설명이 예를 들어 압축 해제되어 장면에서 재구성된다. 이러한 3D 기하학적 구조를 예를 들어 Hom. SESS 합성 알고리즘을 위해 예를 들어 실시간으로 사용 가능한 메타데이터로 변환하려면, 기하학적 구조를 청취자 중심 좌표계에 매핑하고 이 기하학적 구조가 차지하는 공간 영역을 찾는 프로세스가 (예를 들어 청취자의 관점에서, 예를 들어 매핑부(1032)를 사용하여) 수행된다.
Figure pct00012
예를 들어, 본 발명의 방법의 바람직한 구현은 매핑을 수행하기 위해 광선 추적 기반 접근 방식을 사용한다. 예를 들어, 먼저 청취자 좌표계가 인식 관련성(perceptual relevancy)을 기준으로 여러 영역(또는 그리드)으로 분할된 다음, 예를 들어 각 그리드에서 바깥쪽으로 광선이 발사된다. 예를 들어, 3D 기하학적 구조에 대한 광선의 히트는 해당 그리드가 청취자의 관점에서 볼 때 2D 투영 경계 내에 있음을 나타낸다. 즉, 이러한 그리드는 예를 들어 SESS 처리에 포함되어야 하는 공간 영역이다.
Figure pct00013
예를 들어 메타데이터와 별도로 Hom. SESS 합성 알고리즘(예를 들어, Hom. SESS 합성부(1034)에서 수행되는, 예를 들어 대응하거나 SESS 렌더링부가 되는)은 또한 예를 들어 공간 확장 음원으로서 포털을 청각화하기 위해 하나 또는 두 개의 오디오 신호를 필요로 한다. 예를 들어, SESS 알고리즘의 전제조건을 충족시키기 위해, 두 개의 입력 신호는 (이상적으로) 완전히 역상관되어야 한다(예를 들어 역상관된 입력 신호(1036)로 도시된 바와 같이). 이러한 유형의 신호의 일 예는 피드백 지연 네트워크 잔향기(Feedback Delay Network Reverberator)의 출력에서 나온 두 개의 다운믹스 신호이다. 이는 예를 들어 본 발명의 방법이 음향적 균질 공간 및 이 공간 사이의 전파를 시뮬레이션하도록 설계되었다는 점을 고려하면 후기 잔향 생성을 위한 자연스러운 선택이다.
Figure pct00014
예를 들어 준비된 입력 신호가 완전히 역상관되지 않은 경우(또는 예를 들어 신호(1038)로 도시된 것처럼 사용할 수 있는 모노 신호만 있는 경우), 제2의 완전히 역상관된 신호는 예를 들어 "오디오 역상관기, 오디오 신호를 역상관하기 위한 처리 시스템 및 방법" (발명자: DISCH Sascha; ANEM
Figure pct00015
LLER Carlotta; HERRE Jurgen)이라는 제목의 유럽 특허 출원 EP21162142.0에 설명된 것과 같은 역상관기(예: 역상관기 1040)를 사용하여 하나의 기존 입력 신호로부터 도출될 수 있다. 이를 통해 사용자는 Hom. SESS 합성 알고리즘에 입력할 두 개의 유효한 신호를 얻을 수 있다.
Figure pct00016
예를 들어, 마지막 단계로 메타데이터와 오디오 신호가 모두 Hom. SESS 합성(또는 균질 공간 확장 음원 렌더링 또는 공간 확장 음원 렌더링)에 대한 입력으로 제공되며, 예를 들어, EP3879856에 설명된 것과 같은 포털의 바이노럴 출력을 렌더링한다.
다음 장 '발명의 측면'에서, 실시예가 논의되거나 각각 추가로 논의된다:
먼저, 예를 들어 비트스트림 요소에 의해 제어될 수 있거나 (선택적으로) 제어될 수 있는 실시예에 따른 렌더러의 측면; 예를 들어 본 발명의 실시예에 따른 비트스트림 요소:
렌더러는 다음과 같다:
Figure pct00017
예를 들어, 렌더러는 하나 이상의 음향적 균질 환경의 가상 음향 효과/한 방의 외부(예: 다른 인접한 방)에서 인식되는 그 방의 잔향 전파를 공간 범위/크기 (포인트 소스가 아님)로서 렌더링하도록 장착된다.
Figure pct00018
바람직한 구현에서, 크기가 조정된 소스는 EP3879856에 설명된 대로 (선택적으로) 렌더링되어, 예를 들어, 잔향 포털을 공간 확장 음원으로서 렌더링한다.
Figure pct00019
렌더러는 예를 들어 1. 두 개 (또는 그 이상) 출력의 역상관 다운믹스(예: 피드백 지연 네트워크) 잔향기 또는 2. 공간 연장 음원 알고리즘에 대한 입력으로서 상관된 버전과 함께 단일 채널 신호를 사용한다.
Figure pct00020
렌더러는 선택적으로 포털의 기하학적 구조(예: 음향적 균질 공간의 표현)를 청취자 중심 좌표계에 매핑하여 청취자를 기준으로 포털이 커버하는 공간 섹터를 식별한다.
Figure pct00021
바람직한 구현에서, 매핑 방법은 (선택적으로) 광선 추적 기반 알고리즘이다.
Figure pct00022
렌더러는 선택적으로 포털(예: 다음 두 가지 유형)을 청취자의 위치와 방향에 따라 공간 확장 음원으로서 시뮬레이션한다:
Figure pct00023
유형 1 포털은 예를 들어 전체 기하학적 구조를 갖춘 AHS를 표현한다. 예를 들어 청취자의 위치에 관계없이 장면의 모든 AHS를 원활하게 렌더링하는 것이 특징이다. 예를 들어, 청취자가 포털 외부에 있을 때, 정확한 인식 크기는 청취자 좌표계의 투영을 기반으로 계산될 수 있다. 반면에, 예를 들어 청취자가 포털 내부에 있는 경우, 이는 예를 들어 청취자의 머리 전체를 커버한다. 결과적으로 유형 1 포털은 예를 들어 장면의 모든 AHS를 완전히 표현할 수 있다.
Figure pct00024
유형 2 포털은 예를 들어 청취자가 위치한 AHS에 연결된 부분이 있는 AHS를 표현한다. 예를 들어, 이 유형의 포털은 표현된 AHS에서 청취자 AHS로 사운드를 방사하는 실제 기하학적 범위만 간략하게 설명한다(예를 들어 유형 1과 같은 AHS의 전체 볼륨이 아님). 결과적으로, 예를 들어 청취자가 다른 AHS를 입력할 때마다 포털 목록을 업데이트하여 모든 AHS가 청취자의 위치에 따라 안정적이고 정확하게 표시되도록 보장할 수 있다. 또한, 방사 속성을 각 해당 포털에 선택적으로 할당할 수도 있다. 예를 들어 포털에서 전파되는 사운드가 감쇠되고 적절하게 컬러화 되게 할 수 있다. 즉, 유형 2 포털에서는 추가 폐색 처리가 필요하지 않다.
Figure pct00025
예를 들어 폐쇄 장치의 흡수 특성에 따른 균등화를 통해 포털의 폐쇄된 공간 영역을 제외하거나 감쇠하는 등의 방법으로 유형 1 포털의 폐쇄를 선택적으로 모델링한다.
Figure pct00026
바람직한 구현에서, 폐색 처리는 선택적으로 예를 들어 이전 기하학적 매핑 단계에서 획득한 광선 추적 정보를 재사용하여 계산을 절약한다.
Figure pct00027
선택적으로 여러 음향적 균질 공간 안팎으로 부드러운 전환을 허용한다.
Figure pct00028
바람직한 실시예에서, 전환 구역의 범위는 선택적으로 매개변수에 의해 제어되고 선택적으로 비트스트림으로 전송될 수 있다.
다음에서는, 본 발명의 실시예에 따른 비트스트림의 측면이 논의된다:
예를 들어, 다음 정보(또는 그 적어도 일부)를 포함하는 비트스트림:
Figure pct00029
음향적 균질 공간의 음향 설명(예: 잔향기의 제어 매개변수)(선택 사항).
Figure pct00030
음향적 균질 공간에 대한 기하학적 설명(예: 메쉬의 꼭지점과 면 또는 박스의 범위 등)(선택 사항)
Figure pct00031
공간 간 음향 관계에 대한 상세정보
Figure pct00032
예를 들어 연결 포털이 있는 이러한 공간 쌍의 경우, 공간 #1에서 공간 #2로의 전파 인자가 전송된다. 예를 들어 공간 #1의 음향 에너지가 얼마나 많이 공간 #2로 (그리고, 예를 들어 반대 방향으로) 방사되는지를 측정하는 것이다. 바람직한 실시예에서, 이는 두 공간 사이의 연결된 표면적과 공간 #1의 전체 흡수 표면적의 비율에 기초하여 선택적으로 계산될 수 있다.
Figure pct00033
두 번째 예로서, AHS 사이의 전환 영역 범위는 비트스트림에서 선택적으로 전송될 수 있는 매개변수에 의해 선택적으로 제어된다.
이하에서, 본 발명에 따른 실시예가 더욱 논의된다:
다음에 개시된 임의의 특징, 기능 및 세부사항은 개별적으로 또는 결합하여 여기에 개시된 임의의 실시예와 통합되거나 사용될 수 있다는 점에 유의해야 한다. 따라서, 상기 실시예에 개시된 특징, 기능 및 세부사항 중 임의의 것은 개별적으로 또는 결합하여 다음의 실시예 중 임의의 것과 통합되거나 사용될 수 있다.
본 발명에 따른 실시예, 예를 들어 렌더러는 포털의 상태 업데이트 및 신호 믹싱을 관리하도록 구성될 수 있다. 포털은 예를 들어 음향 환경(AE) 또는AHS 외부의 청취자의 관점에서 본 AE 또는 AHS의 표현일 수 있다. 포털은 균질 확장 음원 또는 SESS로 렌더링될 수 있다.
따라서, 본 발명에 따른 실시예는 다음의 데이터 요소 및 변수 중 하나 이상을 사용할 수 있다:
ReverbId 장면에 있는 각 AE 또는 AHS의 고유 ID
PortalItems 키(key)가 RI(예: 렌더링 항목)의 ID이고 값이 RI인 키-값 쌍(key-value pair)을 저장하는 맵
PortalMap 키가 AE 또는 AHS의 ReverbId이고 값이 청취자가 AE 또는 AHS 내부에 있을 때 활성화 되어야 하는 PortalItem의 벡터인, 키-값 쌍을 저장하는 맵.
PortalBySource 키가 AE 또는 AHS의 ReverbId이고 값이 PortalItem의 벡터인 키-값 쌍을 저장하는 맵. 해당 오디오 신호는 각각의 AE의 잔향 출력에서 다운믹스되어야 한다.
PortalRI 키-값 쌍인 PortalItems 항목 중 하나, 여기서 키는 RI의 ID이고 값은 RI이다.
listenerReverbId 청취자가 속한 AE 또는 AHS의 고유 ID.
allReverbIdsInScene 장면에 있는 모든 AE 또는 AHS의 고유 ID가 포함된 벡터.
currentSignal 현재 잔향 인스턴스의 출력 신호 프레임(예: 15개 채널).
reverbSignalOutput 장면의 모든 잔향 인스턴스의 출력 신호 프레임의 벡터.
portalSignalBuffer RI의 신호 버퍼.
이하에서는, 실시예에 따른 렌더러 또는 렌더러를 포함하는 디코더의 스테이지가 설명된다:
초기화 중에 모든 포털 및 관련 AE 또는 AHS의 데이터를 예를 들어 비트스트림에서 읽을 수 있다. 인코더의 각 포털 구조는 PortalItem의 렌더러 표현으로 재구성될 수 있다. 다음 설명은 업데이트 스레드의 메타데이터 핸들링과 오디오 스레드의 신호 처리를 각각 설명하는 두 섹션으로 나뉜다.
이하에서는 실시예에 따른 업데이트 스레드 처리에 대한 선택적 일 예가 제공된다:
각 업데이트에 대해, 각 스테이지는 예를 들어 청취자가 있는 AE 또는 AHS를 기반으로 PortalItem을 활성화 및 비활성화할 수 있다. 이는 청취자가 있는 AE 또는 AHS의 ReverbId인 키로 PortalMap을 검색하여 수행할 수 있다. PortalItems의 RI ID가 상기 값에 포함되어 있는 경우, RI는 이 AE 또는 AHS와 관련되므로, 예를 들어 활성화될 수 있다. 그렇지 않으면 비활성화될 수 있다.
예:
for portalRI in PortalItems {
if portalRI.Id is in PortalMap[listenerReverbId]{
portalRI.activate();
} else {
portalRI.deactivate();
}
}
예를 들어 포털은 AE 또는 AHS를 표현할 수 있으므로, PortalItem의 오디오 신호는 해당 AE 또는 AHS의 잔향 출력에서 복사된다.
이하에서는 실시예에 따른 선택적 오디오 스레드 처리가 논의된다:
예를 들어 원래 각 잔향기 인스턴스의 출력 채널은 미리 결정된 수(예: 15개)가 있을 수 있으며, 포털을 균질 범위로 렌더링하는 데 두 개의 신호만 필요할 수 있다.
위의 업데이트 스레드 처리 설명에서 언급한 것처럼 잔향 인스턴스 또는 심지어 각 잔향 인스턴스의 신호 출력은 예를 들어 PortalItems의 해당 RI에 매핑될 수 있다.
예:
for ReverbId in allReverbIdsInScene{
currentSignal = reverbSignalOutput[ReverbId];
for portalRI in PortalBySource[ReverbId]{
portalSignalBuffer[portalRI.id].copyFrom(currentSignal);
}
}
더욱이, 실시예에 따른 인코더가 더 논의된다:
실시예에 따른 선택적 포털 생성:
이 섹션에서는 실시예에 따른 인코더가 장면의 음향 환경(AE 또는 AHS)에 기초하여 포털을 생성할 수 있는 방법을 설명한다. 여기서 염두에 두어야 할 중요한 개념은 포털이 AE 또는 AHS를 표현할 수 있다는 것이다. 청취자가 특정 AE 또는 AHS에 속하지 않지만 여전히 음향적으로 관련이 있는 경우 포털로 표시될 수 있다.
예를 들어 포털 생성의 주요 프로세스를 다루는 세 가지 단계가 있을 수 있다:
포털의 기하학적 구조(geometry) 생성(선택 사항):
예를 들어 고유한 PortalExtentId가 있는 하나의 포털 기하학적 구조가 장면에 있는 각 AE 또는 AHS에서 생성될 수 있다. 예를 들어 해당 PortalParentEnvironment의 기하학적 구조를 약간 축소하여 해당 기하학적 구조를 획득할 수 있다. 이는 포털의 기하학적 구조와 잠재적인 폐색 경계(예: 벽) 사이의 중첩을 피하기 위해 수행될 수 있다.
두 포털 간의 연결 상태 식별(선택 사항):
예를 들어, 두 개의 AE 또는 AHS 사이에는 세 가지 가능한 연결 상태가 있을 수 있다: 연결되지 않음, 개구부와 연결됨, 폐색기와 연결됨(또는 예를 들어 다른 말로: 닫힘). 예를 들어, 이 단계에서는 광선 추적 및/또는 복셀화 기술을 활용하여 각 AE 또는 AHS 쌍 사이 또는 하나의 AE 또는 AHS와 '외부' 환경 사이의 잠재적인 빈 공간이나 기하학적 구조를 식별할 수 있다. 또한, 예를 들어 isConnectedWithOpening 정보를 제공할 수 있으며, 이 변수가 사실(true)인 경우 개구부 위치, 즉 openingPosX, openingPosYopeningPosZ도 제공할 수 있다.
인코딩할 모든 메타데이터를 포함하는 포털 구조 생성(선택 사항):
메타데이터, 예를 들어 위의 두 단계를 통해 획득한 모든 메타데이터조차도 비트스트림 직렬화를 위한 구조로 구성될 수 있다. 예를 들어 이 단계에서는 a) 각 포털 기하학적 구조에 대해 고유한 PortalId를 사용하여 하나의 포털 구조를 생성하는 것, b) 관련 acousticEnvironmentId 아래에 할당하는 것(예를 들어 포털은 특정 AE 또는 AHS에서 생성되지 않은 경우 특정 음향 환경과 관련될 수 있다), 및 c) 개방 면적, 소스 AE 또는 AHS의 부피 및 RT60으로부터 추정된 소스 AE 또는 AHS의 흡수 계수에 기초하여 각각의 열린 연결에 대한 PortalFactor를 계산하는 것을 고려할 수 있다.
[참조 문헌]
Alary, B., Politis, A., & Vδlimδki, V. (2017). Velvet Noise Decorrelator.
Baumgarte, F., & Faller, C. (2003). Binaural Cue Coding-Part I: Psychoacoustic Fundamentals and Design Principles. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 509-519.
Blauert, J. (2001). Spatial hearing (3 Ausg.). Cambridge; Mass: MIT Press.
Faller, C., & Baumgarte, F. (2003). Binaural Cue Coding-Part II: Schemes and Applications. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 520-531.
Kendall, G. S. (1995). The Decorrelation of Audio Signals and Its Impact on Spatial Imagery. Computer Music Journal, 19(4), S. p 71-87.
Lauridsen, H. (1954). Experiments Concerning Different Kinds of Room-Acoustics Recording. Ingenioren, 47.
Pihlajamδki, T., Santala, O., & Pulkki, V. (2014). Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals. Journal of the Audio Engineering Society, 62(7/8), S. 467-484.
Potard, G. (2003). A study on sound source apparent shape and wideness.
Potard, G., & Burnett, I. (2004). Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays.
Pulkki, V. (1997). Virtual Sound Source Positioning Using Vector Base Amplitude Panning. Journal of the Audio Engineering Society, 45(6), S. 456-466.
Pulkki, V. (1999). Uniform spreading of amplitude panned virtual sources .
Pulkki, V. (2007). Spatial Sound Reproduction with Directional Audio Coding. J. Audio Eng. Soc, 55(6), S. 503-516.
Pulkki, V., Laitinen, M.-V., & Erkut, C. (2009). Efficient Spatial Sound Synthesis for Virtual Worlds.
Schlecht, S. J., Alary, B., Vδlimδki, V., & Habets, E. A. (2018). Optimized Velvet-Noise Decorrelator.
Schmele, T., & Sayin, U. (2018). Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters.
Schmidt, J., & Schrφder, E. F. (2004). New and Advanced Features for Audio Presentation in the MPEG-4 Standard.
Verron, C., Aramaki, M., Kronland-Martinet, R., & Pallone, G. (2010). A 3-D Immersive Synthesizer for Environmental Sounds. Audio, Speech, and Language Processing, IEEE Transactions on, title=A Backward-Compatible Multichannel Audio Codec, 18(6), S. 1550-1561.
Zotter, F., & Frank, M. (2013). Efficient Phantom Source Widening. Archives of Acoustics, 38(1), S. 27-37.
Zotter, F., Frank, M., Kronlachner, M., & Choi, J.-W. (2014). Efficient Phantom Source Widening and Diffuseness in Ambisonics.
Schrφder, D. & Vorlδnder, M. (2007). Hybrid method for room acoustic simulation in real-time. In Proceedings of the 19th International Congress on Acoustics, Madrid, Spain.
Stavrakis, E., Tsingos, N. & Calamia, P. T. (2008). Topological sound propagation with reverberation graphs. Acta Acust. Acust. 94(6), 921-932. 
Tsingos, N. (2009). Pre-computing geometry-based reverberation effects for games. In 35th AES Conference on Audio for Games.

Claims (39)

  1. 음향 장면을 렌더링하는 렌더러(100, 200)로서,
    상기 렌더러는 공간 확장 음원(1112, 1160, 1170, 1180)을 사용하여 제1 공간 영역(1120, 1130)에서 발생하는 확산 사운드의 음향 효과를 제2 공간 영역(1110)에서 렌더링하도록 구성되는,
    렌더러(100, 200).
  2. 제1 항에 있어서,
    상기 렌더러는 다이렉트 사운드 렌더링을 사용하여 상기 제1 공간 영역(1120, 1130)에 위치하는 주어진 음원의 다이렉트 사운드 음향 효과를 상기 제2 공간 영역(1110)에서 렌더링하도록 구성되는 것이며,
    상기 렌더러는 상기 공간 확장 음원을 사용하여 상기 주어진 음원의 확산 사운드 음향 효과를 상기 제2 공간 영역에서 렌더링하도록 구성되는 것인,
    렌더러(100, 200).
  3. 제1 항 또는 제2 항에 있어서,
    상기 렌더러는, 상기 제2 공간 영역(1110)에 위치하는 청취자 위치(1140)에서 렌더링된 다이렉트 음원 응답(213)을 얻기 위해, 다이렉트 사운드 렌더링을 상기 제1 공간 영역(1120, 1130)에 위치하는 주어진 음원의 음원 신호(203, 324)에 적용하도록 구성되며,
    상기 렌더러는 상기 주어진 음원의 상기 음원 신호의 하나 이상의 잔향 버전(221)을 얻기 위해, 상기 주어진 음원의 상기 음원 신호에 잔향 처리를 적용하도록 구성되며, 그리고
    상기 렌더러는 상기 제2 공간 영역에 위치한 상기 청취자 위치(1140)에서 렌더링된 확산 사운드 응답(215)을 얻기 위해, 상기 주어진 음원의 상기 음원 신호의 상기 하나 이상의 잔향 버전에 공간 확장 음원 렌더링을 적용하도록 구성되는 것인,
    렌더러(100, 200).
  4. 제1 항 내지 제3 항 중 어느 한 항에 있어서,
    상기 렌더러는 상기 후기 잔향을 재생하는 상기 공간 확장 음원을 사용하여, 상기 제1 공간 영역(1120, 1130)에 위치한 음원에 의해 자극되는 후기 잔향의 음향 효과를 상기 제2 음향 영역(1110)에서 렌더링하도록 구성되는 것인,
    렌더러(100, 200).
  5. 제1 항 내지 제4 항 중 어느 한 항에 있어서,
    상기 렌더러는 각 공간 영역에서 유사한 스펙트럼 콘텐츠를 갖는 공간 확장 음원을 사용하여 상기 확산 사운드의 상기 음향 효과를 렌더링하도록 구성되는 것인,
    렌더러(100, 200).
  6. 제1 항 내지 제5 항 중 어느 한 항에 있어서,
    상기 렌더러는 상기 제1 공간 영역(1120, 1130)과 상기 제2 공간 영역(1110) 사이의 포털(1160, 1170, 1180)에 있고 상기 제1 공간 영역에서 발생하는 상기 확산 사운드를 재생하는 공간 확장 음원을 사용하여 상기 확산 사운드의 상기 음향 효과를 렌더링하도록 구성되는 것인,
    렌더러(100, 200).
  7. 제1 항 내지 제6 항 중 어느 한 항에 있어서,
    상기 렌더러는 상기 제2 공간 영역(1110) 내에 위치한 청취자 위치(1140)에서 공간 확장 음원의 폐색을 고려한, 상기 제1 공간 영역(1120, 1130)의 기하학적 범위를 취하고 상기 제1 공간 영역에서 발생하는 상기 확산 사운드를 재생하는 공간 확장 음원(1122, 1132)을 사용하여 상기 확산 사운드의 상기 음향 효과를 렌더링하도록 구성되는 것인,
    렌더러(100, 200).
  8. 제1 항 내지 제7 항 중 어느 한 항에 있어서,
    상기 제1 공간 영역 (1120, 1130)은 제1 음향적 균질 공간이며, 및/또는 상기 제2 공간 영역 (1110)은 제2 음향적 균질 공간인,
    렌더러(100, 200).
  9. 제1 항 내지 제8 항 중 어느 한 항에 있어서,
    상기 제1 공간 영역(1120, 1130)과 상기 제2 공간 영역(1110)은 포털(1160, 1170, 1180)을 통해 음향적으로 연결된 방인,
    렌더러(100, 200).
  10. 제1 항 내지 제9 항 중 어느 한 항에 있어서,
    상기 렌더러는 청취자 위치(1140)로부터 멀리 떨어져 있는 하나 이상의 공간 확장 소스(1122, 1132)와 내부에 상기 청취자 위치가 위치한 하나 이상의 공간 확장 소스(1112)를 포함하는 복수의 공간 확장 음원을, 상기 청취자 위치와 상기 청취자 위치에서 멀리 떨어져 있는 상기 하나 이상의 공간 확장 소스 사이의 폐색을 고려하여, 동일한 렌더링 알고리즘을 사용하여 렌더링하도록 구성되는 것인,
    렌더러(100, 200).
  11. 제1 항 내지 제10 항 중 어느 한 항에 있어서,
    상기 렌더러는 바이노럴 렌더링을 수행하도록 구성되는 것인,
    렌더러(100, 200).
  12. 제1 항 내지 제11 항 중 어느 한 항에 있어서,
    상기 렌더러는 청취자의 위치(1140) 및/또는 청취자의 방향을 기준으로 어느 공간 영역에 상기 확산 사운드의 상기 재생을 위한 상기 공간 확장 음원이 존재하는 지를 결정하고, 그 결정에 따라 상기 공간 확장 음원을 렌더링하도록 구성되는 것인,
    렌더러(100, 200).
  13. 제1 항 내지 제12 항 중 어느 한 항에 있어서,
    상기 렌더러는 청취자의 위치(1140) 및/또는 청취자의 방향을 기준으로 어느 공간 영역에 상기 확산 사운드의 상기 재생을 위한 상기 공간 확장 음원이 차단되는지를 결정하고, 그 결정에 따라 상기 공간 확장 음원을 렌더링하도록 구성되는 것인,
    렌더러(100, 200).
  14. 제1 항 내지 제13 항 중 어느 한 항에 있어서,
    상기 렌더러는 청취자의 위치(1140) 및/또는 청취자의 방향을 기준으로 어느 공간 영역에 상기 확산 사운드의 상기 재생을 위한 상기 공간 확장 음원이 존재하는 지를 광선 추적 기반 접근 방식을 사용하여 결정하도록 구성되는 것인,
    렌더러(100, 200).
  15. 제1 항 내지 제14 항 중 어느 한 항에 있어서,
    상기 렌더러는 청취자의 위치 및/또는 청취자의 방향을 기준으로 어느 공간 영역에 상기 확산 사운드의 상기 재생을 위한 상기 공간 확장 음원이 차단되는지를 광선 추적 기반 접근 방식을 사용하여 결정하도록 구성되는 것인,
    렌더러(100, 200).
  16. 제1 항 내지 제15 항 중 어느 한 항에 있어서,
    상기 렌더러는 복수의 영역에 대해 각각의 영역과 연관되고 청취자의 위치(1140)에서 멀리 확장되는 광선이 상기 공간 확장 음원에 닿는지 여부를 결정하여, 청취자의 위치 및/또는 청취자의 방향을 기준으로 어느 공간 영역에 상기 확산 사운드 재생을 위한 상기 공간 확장된 음원이 존재하는지를 결정하도록 구성되는 것인,
    렌더러(100, 200).
  17. 제1 항 내지 제16 항 중 어느 한 항에 있어서,
    상기 렌더러는 상기 확산 사운드의 상기 재생을 위한 상기 공간 확장 음원이 있는 공간 영역에 따라 하나 이상의 청각 큐 정보 항목을 결정하도록 구성되고,
    상기 렌더러는 상기 확산 사운드의 렌더링된 버전(215)을 획득하기 위해 상기 하나 이상의 청각 큐 정보 항목을 사용하여 상기 확산 사운드를 나타내는 하나 이상의 오디오 신호(203)를 처리하도록 구성되는 것인,
    렌더러(100, 200).
  18. 제1 항 내지 제17 항 중 어느 한 항에 있어서,
    상기 렌더러는 상기 청취자의 움직임에 응답하여, 청취자의 위치(1140) 및/또는 청취자의 방향을 기준으로 어느 공간 영역에 상기 확산 사운드의 상기 재생을 위한 상기 공간 확장 음원이 존재하는지에 대한 결정을 업데이트하도록 구성되며, 및/또는
    상기 렌더러는 상기 청취자의 움직임에 응답하여 상기 하나 이상의 청각 큐 정보 항목의 결정을 업데이트하도록 구성되며, 및/또는
    상기 렌더러는 상기 확산 사운드의 상기 재생을 위한 상기 공간 확장 음원이 존재하는 상기 공간 영역의 변화에 응답하여 상기 하나 이상의 큐 정보 항목의 결정을 업데이트하도록 구성되는 것인,
    렌더러(100, 200).
  19. 오디오 디코더(300, 1030)로서,
    제1 항 내지 제18 항 중 어느 한 항에 따른 렌더러(100, 200)를 포함하며,
    상기 오디오 디코더는 비트스트림(302, 401, 501, 900, 1020)으로부터 포털(1160, 1170, 1180)의 기하학적 설명(321)을 획득하고, 상기 확산 사운드의 상기 재생을 위한 상기 공간 확장 음원의 기하학적 설명(331)을 획득하기 위해 상기 포털의 상기 기하학적 설명을 청취자 중심의 좌표계로 매핑하도록 구성되는 것인,
    오디오 디코더(300, 1030).
  20. 제19 항에 있어서,
    상기 오디오 디코더는 후기 잔향 생성기(350)의 출력으로부터 파생된 상기 공간 확장 음원의 상기 렌더링을 위해 적어도 부분적으로 역상관된 두 개 이상의 신호(351)를 획득하도록 구성되는 것인,
    오디오 디코더(300, 1030).
  21. 제19항 또는 제20항에 있어서,
    상기 오디오 디코더는 피드백 지연 네트워크 잔향기(360)를 사용하여 상기 공간 확장 음원의 상기 렌더링을 위해 두 개 이상의 신호(360)를 획득하도록 구성되는 것인,
    오디오 디코더(300, 1030).
  22. 제19 항 내지 제21 항 중 어느 한 항에 있어서,
    상기 디코더는 음원 신호(203, 324) 및 상기 공간 확장 음원의 상기 렌더링을 위한 상기 음원 신호의 역상관된 버전을 사용하도록 구성되는 것인,
    오디오 디코더(300, 1030).
  23. 제19 항 내지 제22 항 중 어느 한 항에 있어서,
    상기 디코더는 상기 공간 확장 음원을 렌더링할 때 폐색된 공간 영역을 제외하거나 감쇠하도록 구성되는 것인,
    오디오 디코더(300, 1030).
  24. 제19 항 내지 제23 항 중 어느 한 항에 있어서,
    상기 디코더는 다중 공간 영역 안팎으로 그리고 다중 공간 영역 사이에서 원활한 전환이 가능하도록 구성되는 것인,
    오디오 디코더(300, 1030).
  25. 오디오 장면을 인코딩하기 위한 오디오 인코더(400, 1010)로서,
    상기 오디오 인코더는 하나 이상의 오디오 신호의 인코딩된 표현을 제공하도록 구성되며;
    상기 오디오 인코더는 복수의 음향적 균질 공간을 식별하고 상기 식별에 기초하여 공간 확장 음원의 정의(431)를 제공하도록 구성되며, 상기 공간 확장 음원의 기하학적 특성은 상기 식별된 음향적 균질 공간의 기하학적 특성과 동일한 것인,
    오디오 인코더(400, 1010).
  26. 제25 항에 있어서,
    상기 오디오 인코더는 상기 음향적 균질 공간 사이의 음향 장애물의 정의(442)를 제공하도록 구성되는 것인,
    오디오 인코더(400, 1010).
  27. 오디오 장면을 인코딩하기 위한 오디오 인코더(500, 1010)로서,
    상기 오디오 인코더는 하나 이상의 오디오 신호의 인코딩된 표현을 제공하도록 구성되며;
    상기 오디오 인코더는 하나 이상의 공간 확장 음원의 정의(531)를 제공하도록 구성되며, 상기 공간 확장 음원의 기하학적 특성은 음향적 균질 공간 사이의 포털(1160, 1170, 1180)의 기하학적 특성에 기초하는 것인,
    오디오 인코더(500, 1010).
  28. 제27 항에 있어서,
    상기 오디오 인코더는 복수의 음향적 균질 공간과 음향적 균질 공간 사이의 하나 이상의 포털(1160, 1170, 1180)을 식별하고, 상기 식별에 기초하여 하나 이상의 공간 확장 음원의 정의(531)를 제공하도록 구성되며, 상기 하나 이상의 공간 확장 음원의 기하학적 특성은 상기 식별된 포털의 치수에 기초하는 것인,
    오디오 인코더(500, 1010).
  29. 음향 장면을 렌더링하는 방법(600)으로서,
    상기 방법은 공간 확장 음원을 사용하여 제1 공간 영역(1120, 1130)에서 발생하는 확산 사운드의 음향 효과를 제2 공간 영역(1110)으로 렌더링하는 단계(610)를 포함하는,
    방법(600).
  30. 음향 장면을 인코딩하는 방법(700)으로서,
    상기 방법은 하나 이상의 오디오 신호의 인코딩된 표현을 제공하는 단계(710)를 포함하고;
    상기 방법은 복수의 음향적 균질 공간을 식별하는 단계(720) 및 상기 식별에 기초하여 공간 확장 음원의 정의를 제공하는 단계(730)를 포함하며, 상기 공간 확장 음원의 기하학적 특성은 상기 식별된 음향적 균질 공간의 기하학적 특성과 동일한 것인,
    방법(700).
  31. 오디오 장면을 인코딩하는 방법(800)으로서,
    상기 방법은 하나 이상의 오디오 신호의 인코딩된 표현을 제공하는 단계(810)를 포함하고;
    상기 방법은 하나 이상의 공간 확장 음원의 정의를 제공하는 단계(820)를 포함하며, 상기 공간 확장 음원의 기하학적 특성은 음향적 균질 공간 사이의 포털(1160, 1170, 1180)의 기하학적 특성에 기초하는 것인,
    방법(800).
  32. 컴퓨터 프로그램이 컴퓨터에서 실행될 때 제29 항 내지 제31 항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터 프로그램.
  33. 오디오 비트스트림(302, 401, 501, 900, 1020)로서,
    하나 이상의 오디오 신호의 인코딩된 표현(910); 및
    제1 공간 영역(1120, 1130)에서 발생하고 제2 공간 영역(1110)에서 렌더링되는 확산 사운드의 음향 효과를 렌더링하기 위한 하나 이상의 공간 확장 음원의 인코딩된 표현(920)을 포함하는,
    오디오 비트스트림(302, 401, 501, 900, 1020).
  34. 오디오 비트스트림(302, 401, 501, 900, 1020)로서,
    하나 이상의 공간 영역의 인코딩된 설명(930); 및
    적어도 두 개의 공간 영역 사이의 음향 관계를 기술하는 정보의 인코딩된 표현(940)을 포함하는,
    오디오 비트스트림(302, 401, 501, 900, 1020).
  35. 제34 항에 있어서,
    공간 영역의 상기 인코딩된 표현은 두 개의 공간 영역 사이의 포털(1160, 1170, 1180)에 대한 설명을 포함하는 것인,
    오디오 비트스트림(302, 401, 501, 900, 1020).
  36. 제34 항 또는 제35 항에 있어서,
    상기 오디오 비트스트림은 상기 제1 공간 영역(1120, 1130)으로부터 제2 음향 영역으로의 음향 전파를 기술하는 전파 인자의 인코딩된 표현(950)을 포함하는 것인,
    오디오 비트스트림(302, 401, 501, 900, 1020).
  37. 제34 항 내지 제36 항 중 어느 한 항에 있어서,
    상기 오디오 비트스트림은 상기 제1 공간 영역(1120, 1130)의 음향 에너지가 제2 공간 영역(1110)으로 방사되는 양/분율을 설명하는 전파 인자를 포함하는 것인,
    오디오 비트스트림(302, 401, 501, 900, 1020).
  38. 제34 항 내지 제37 항 중 어느 한 항에 있어서,
    상기 오디오 비트스트림은 제1 공간과 제2 공간 사이의 연결된 표면적과 상기 제1 공간의 전체 흡수 표면적 사이의 비율을 설명하는 전파 인자를 포함하는 것인,
    오디오 비트스트림(302, 401, 501, 900, 1020).
  39. 제34 항 내지 제38 항 중 어느 한 항에 있어서,
    상기 오디오 비트스트림은 두 개의 공간 영역 사이의 전이 구역의 범위를 설명하는 매개변수(960)를 포함하는 것인,
    오디오 비트스트림(302, 401, 501, 900, 1020).
KR1020247019224A 2021-11-09 2022-11-09 공간 확장 음원을 사용하는 렌더러, 디코더, 인코더, 방법 및 비트스트림 KR20240096835A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP21207344.9 2021-11-09

Publications (1)

Publication Number Publication Date
KR20240096835A true KR20240096835A (ko) 2024-06-26

Family

ID=

Similar Documents

Publication Publication Date Title
KR102659722B1 (ko) 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법
Hacihabiboglu et al. Perceptual spatial audio recording, simulation, and rendering: An overview of spatial-audio techniques based on psychoacoustics
Jot et al. Rendering spatial sound for interoperable experiences in the audio metaverse
US10764709B2 (en) Methods, apparatus and systems for dynamic equalization for cross-talk cancellation
CA3069403C (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
US11930351B2 (en) Spatially-bounded audio elements with interior and exterior representations
Jot Interactive 3D audio rendering in flexible playback configurations
Murphy et al. Spatial sound for computer games and virtual reality
KR20220156809A (ko) 앵커링 정보를 이용하여 공간적으로 확장된 음원을 재생하는 장치 및 방법 또는 공간적으로 확장된 음원에 대한 디스크립션을 생성하기 위한 장치 및 방법
CA3237593A1 (en) Renderers, decoders, encoders, methods and bitstreams using spatially extended sound sources
KR20240096835A (ko) 공간 확장 음원을 사용하는 렌더러, 디코더, 인코더, 방법 및 비트스트림
Pelzer et al. 3D reproduction of room acoustics using a hybrid system of combined crosstalk cancellation and ambisonics playback
RU2780536C1 (ru) Оборудование и способ для воспроизведения пространственно протяженного источника звука или оборудование и способ для формирования потока битов из пространственно протяженного источника звука
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
Jot Efficient Description and Rendering of Complex Interactive Acoustic Scenes
KR20240091274A (ko) 기본 공간 섹터를 사용하여 공간 확장형 음원을 합성하는 장치, 방법 및 컴퓨터 프로그램
KR20240096683A (ko) 잠재적 수정 객체에 대한 수정 데이터를 사용하여 공간 확장형 음원을 합성하는 장치, 방법 또는 컴퓨터 프로그램
KR20240096705A (ko) 분산 또는 공분산 데이터를 사용하여 공간 확장형 음원을 합성하는 장치, 방법 또는 컴퓨터 프로그램
Simon et al. Sonic interaction with a virtual orchestra of factory machinery
TW202337236A (zh) 用以使用基本空間扇區合成空間擴展音源之裝置、方法及電腦程式
Huopaniemi et al. Virtual acoustics—Applications and technology trends
Corcuera Marruffo A real-time encoding tool for Higher Order Ambisonics