KR102640940B1

KR102640940B1 - 음향 환경 시뮬레이션

Info

Publication number: KR102640940B1
Application number: KR1020187024194A
Authority: KR
Inventors: 더크 제로엔 브리바트
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2016-01-27
Filing date: 2017-01-23
Publication date: 2024-02-26
Also published as: US20220115025A1; US10614819B2; KR20180108689A; US11158328B2; US20190035410A1; US20240038248A1; US11721348B2; US20200335112A1; WO2017132082A1; KR20240028560A

Abstract

하나 이상의 오디오 컴포넌트를 갖는 오디오 신호를 인코딩/디코딩하는 것이 설명되고, 각각의 오디오 컴포넌트는 공간 위치와 연관된다. 오디오 컴포넌트들의 제1 오디오 신호 프레젠테이션(z), 변환 파라미터들의 제1 세트(w(f)), 및 신호 레벨 데이터()가 인코딩되어 디코더로 전송된다. 디코더는 음향 환경 시뮬레이션을 위해 의도되는 재구성된 시뮬레이션 입력 신호를 형성하기 위해 변환 파라미터들의 제1 세트(w(f))를 사용하고, 신호 레벨 수정(

)을 재구성된 시뮬레이션 입력 신호에 적용한다. 신호 레벨 수정은 신호 레벨 데이터(), 및 음향 환경 시뮬레이션에 관련된 데이터(

)에 기초한다. 감쇠된 재구성된 시뮬레이션 입력 신호는 이후 음향 환경 시뮬레이터에서 프로세싱된다. 이러한 프로세스를 통해, 디코더는 시뮬레이션 입력 신호의 신호 레벨을 결정할 필요가 없고, 그에 의해 프로세싱 로드를 줄일 수 있다.

Description

음향 환경 시뮬레이션

관련 출원에 대한 상호 참조

본 출원은 2016년 1월 27일자로 출원된 미국 가특허 출원 제62/287,531호 및 2016년 1월 27일자로 출원된 유럽 특허 출원 제16152990.4호의 우선권을 주장하며, 둘 모두는 그 전체가 참조로서 본 명세서에 통합된다.

기술분야

본 발명은 오디오 신호 프로세싱 분야에 관한 것으로, 특히 때때로 몰입형 오디오 콘텐츠(immersive audio content)로 지칭되는 공간화 컴포넌트들(spatialization components)을 갖는 오디오 신호들에 대한 음향 환경의 효율적인 시뮬레이션을 위한 방법들 및 시스템들을 개시한다.

명세서 전반에 걸친 배경기술에 대한 어떠한 논의도 결코 그러한 기술이 해당 분야에서 널리 알려지거나 해당 분야의 보통의 일반적인 지식의 일부를 형성한다는 것을 인정하는 것으로 간주되어서는 안된다.

오디오의 콘텐츠 생성, 코딩, 배포, 및 재생(reproduction)은 전통적으로 채널 기반 포맷으로 수행되며, 즉 콘텐츠 생태계 전반에 걸쳐 하나의 특정 타겟 플레이백 시스템(target playback system)이 콘텐츠에 대해 계획된다. 그러한 타겟 플레이백 시스템들 오디오 포맷들의 예시들은 모노, 스테레오, 5.1, 7.1 등이다.

콘텐츠가 의도된 것과 다른 플레이백 시스템 상에서 재생되는 경우, 다운믹싱 또는 업믹싱 프로세스가 적용될 수 있다. 예를 들어, 5.1 콘텐츠는 특정 다운믹스 방정식들을 사용함으로써 스테레오 플레이백 시스템을 통해 재생될 수 있다. 또 다른 예시는 7.1 스피커 셋업을 통한 스테레오 인코딩된 콘텐츠의 플레이백이며, 이는 스테레오 신호에 존재하는 정보에 의해 가이드될 수도 있고 아닐 수도 있는 소위 업믹싱 프로세스를 포함할 수 있다. 업믹싱이 가능한 시스템은 Dolby Laboratories Inc의 Dolby Pro Logic이다(Roger Dressler, "Dolby Pro Logic Surround Decoder, Principles of Operation", www.Dolby.com).

대안의 오디오 포맷 시스템은 Dolby Atmos 시스템에 의해 제공되는 것과 같은 오디오 오브젝트 포맷이다. 이러한 유형의 포맷에서, 오브젝트들은 청취자 주위의 특정 위치를 가지도록 정의되며, 이는 시변(time varying)일 수 있다. 이러한 포맷에서의 오디오 콘텐츠는 때때로 몰입형 오디오 콘텐츠( immersive audio content)로 지칭된다.

스테레오 또는 멀티 채널 콘텐츠가 헤드폰들을 통해 재생될 때, 종종 헤드 관련 임펄스 응답들(head-related impulse responses(HRIR들)) 또는 바이너럴 룸 임펄스 응답들(binaural room impulse responses(BRIR들))을 통해 멀티 채널 스피커 셋업을 시뮬레이션하는 것이 바람직하고, 이들은 각각 무반향(anechoic) 또는 반향(echoic) (시뮬레이션된) 환경에서의 각각의 라우드스피커에서 고막들로의 음향 경로를 시뮬레이션한다. 특히, 오디오 신호들은 HRIR들 또는 BRIR들과 컨벌브되어(convolve) 청취자가 각각의 개별 채널의 위치를 결정하게 해주는 ILD들(inter-aural level differences), ITD들(inter-aural time differences), 및 스펙트럼 큐들(spectral cues)을 복귀시킬(re-instate) 수 있다. 음향 환경(잔향)의 시뮬레이션은 또한 특정 인지 거리를 달성하는 것을 돕는다. 도 1은 4개의 HRIR들(예를 들어 14)에 의한 프로세싱을 위해 콘텐츠 스토어(12)로부터 판독되는 2개의 오브젝트 또는 채널 신호들()(10, 11)을 렌더링하기 위한 프로세싱 플로우의 개략적인 개요를 도시한다. HRIR 출력들은 이후 헤드폰들(18)을 통한 청취자에게로의 플레이백을 위해 헤드폰 스피커 출력들을 생성하기 위해, 각각의 채널 신호에 대해 합산된다(15, 16). HRIR들의 기본 원리는, 예를 들어, Wightman, Frederic L., and Doris J. Kistler. "Sound localization." Human psychophysics. Springer New York, 1993. 155-192에 설명되어 있다.

HRIR/BRIR 컨볼루션 접근법은 몇몇 결함들을 수반하는데, 그 중 하나는 헤드폰 플레이백을 위해 요구되는 상당량의 컨볼루션 프로세싱이다. HRIR 또는 BRIR 컨볼루션은 모든 입력 오브젝트 또는 채널마다 별도로 적용될 필요가 있고, 따라서 복잡성은 통상적으로 채널들 또는 오브젝트들의 수에 따라 선형적으로 커진다. 헤드폰들이 종종 배터리-전력공급형 휴대용 디바이스들과 함께 사용됨에 따라, 높은 계산적 복잡성은 그것이 배터리 수명을 실질적으로 단축시킬 수 있기 때문에 바람직하지 않다. 더욱이, 예를 들어 100개 초과의 동시에 활성인 오브젝트들을 포함할 수 있는 오브젝트-기반 오디오 콘텐츠의 도입과 함께, HRIR 컨볼루션의 복잡성은 전통적인 채널-기반 콘텐츠에 대해서보다 실질적으로 더 높을 수 있다.

이러한 목적으로, 2016년 8월 24일자로 출원된 공동 계류 중이며 공개되지 않은 PCT 출원 PCT/US2016/048497은 헤드폰들을 위한 몰입형 오디오를 효율적으로 전송 및 디코딩하기 위해 사용될 수 있는 프레젠테이션 변환들을 위한 듀얼-엔디드(dual-ended) 접근법을 설명한다. 코딩 효율성 및 디코딩 복잡성 감소는 모든 오브젝트들을 렌더링하기 위해 디코더에만 의존하지 않고서, 렌더링 프로세스를 인코더 및 디코더에 걸쳐 분할함으로써 달성된다.

도 2는 몰입형 오디오를 헤드폰들에 전달하기 위한 그러한 듀얼-엔디드 접근법의 개략적인 개요를 제공한다. 도 2를 참조하면, 듀얼-엔디드 접근법에서, 임의의 음향 환경 시뮬레이션 알고리즘(예를 들어, 피드백 지연 네트워크 또는 FDN과 같은 알고리즘 잔향(algorithmic reverberation), 컨벌루션 잔향 알고리즘, 또는 음향 환경들을 시뮬레이션하기 위한 다른 수단)은 비트 스트림 내에 포함되는 시간 및 주파수 종속적인 파라미터들(w)의 적용에 의해 코어 디코더 출력 스테레오 신호(z)로부터 도출되는 시뮬레이션 입력 신호()에 의해 구동된다. 파라미터들(w)은 무반향 바이너럴 신호() 및 시뮬레이션 입력 신호()를 생성하기 위해, 스테레오 신호(z)의 행렬 변환을 수행하기 위한 행렬 계수로서 사용된다. 시뮬레이션 입력 신호()가 일반적으로 입력으로서 인코더에 제공된 다양한 오브젝트들의 혼합물로 구성되며, 또한 이들 개별 입력 오브젝트들의 기여도는 오브젝트 거리, 헤드폰 렌더링 메타데이터, 의미론적 라벨들(semantic labels), 및 그와 유사한 것에 따라 다를 수 있다는 것을 깨닫는 것이 중요하다. 그 뒤에, 입력 신호()는 음향 환경 시뮬레이션 알고리즘의 출력을 생성하기 위해 사용되고, 반향인 최종 바이너럴 프레젠테이션을 생성하기 위해 무반향 바이너럴 신호()와 믹싱된다.

음향 환경 시뮬레이션 입력 신호()가 파라미터들의 세트를 사용하여 스테레오 신호로부터 도출되지만, 그것의 레벨(예를 들어, 주파수의 함수로서의 그것의 에너지)은 선험적으로 알려져 있지 않고 이용 가능하지도 않다. 그러한 속성들은 모바일 플랫폼들 상에서 바람직하지 않은 추가적인 복잡성 및 대기 시간을 도입하는 대가를 치르고 디코더에서 측정될 수 있다.

또한, 환경 시뮬레이션 입력 신호는 일반적으로 물리적 환경들에서 발생하는 감소하는 직접-대-늦은 잔향 비율(direct-to-late reverberation ratio)을 시뮬레이션하기 위해 오브젝트 거리와 함께 레벨이 증가한다. 이것은 입력 신호()의 잘 정의된 상한이 없다는 것을 암시하며, 이는 한정된 동적 범위를 필요로 하는 구현 관점으로부터 문제가 된다.

또한, 시뮬레이션 알고리즘이 최종 사용자가 구성 가능한(end-user configurable) 경우, 음향 환경 시뮬레이션 알고리즘의 전달 함수는 인코딩 동안 알려지지 않는다. 그 결과로서, 음향 환경 시뮬레이션 출력 신호에서의 믹싱 후의 바이너럴 프레젠테이션의 신호 레벨(및 따라서 인지된 라우드니스(loudness))은 알려지지 않는다.

음향 환경 시뮬레이션의 입력 신호 레벨 및 전달 함수가 알려져 있지 않다는 사실은 바이너럴 프레젠테이션의 라우드니스를 제어하는 것을 어렵게 만든다. 그러한 라우드니스 보존은 일반적으로 예를 들어 ITU-R bs.1770 및 EBU R128에서 표준화된 바와 같이 방송 라우드니스 준수뿐만 아니라 최종 사용자 편의를 위해서도 매우 바람직하다.

개선된 환경 시뮬레이션으로 몰입형 오디오 신호들의 인코딩 및 디코딩을 바람직한 형태로 제공하는 것이 본 발명의 목적이다.

본 발명의 제1 양태에 따르면, 하나 이상의 오디오 컴포넌트를 갖는 오디오 신호를 인코딩하는 방법이 제공되고, 여기서 각각의 오디오 컴포넌트는 공간 위치(spatial location)와 연관되며, 방법은 오디오 컴포넌트들의 제1 오디오 신호 프레젠테이션(z)을 렌더링하는 단계, 오디오 컴포넌트들의 음향 환경 시뮬레이션을 위해 의도되는 시뮬레이션 입력 신호(f)를 결정하는 단계, 제1 오디오 신호 프레젠테이션(z)으로부터 시뮬레이션 입력 신호(f)의 재구성을 가능하게 하도록 구성되는 변환 파라미터들의 제1 세트(w(f))를 결정하는 단계, 시뮬레이션 입력 신호(f)의 신호 레벨을 나타내는 신호 레벨 데이터(β²)를 결정하는 단계, 및 디코더에의 전송을 위해 제1 오디오 신호 프레젠테이션(z), 변환 파라미터들의 세트(w(f)), 및 신호 레벨 데이터(β²)를 인코딩하는 단계를 포함한다.

본 발명의 제2 양태에 따르면, 하나 이상의 오디오 컴포넌트를 갖는 오디오 신호를 디코딩하는 방법이 제공되고, 여기서 각각의 오디오 컴포넌트는 공간 위치와 연관되며, 방법은 오디오 컴포넌트들의 제1 오디오 신호 프레젠테이션(z), 변환 파라미터들의 제1 세트(w(f)), 및 신호 레벨 데이터(β²)를 수신 및 디코딩하는 단계, 음향 환경 시뮬레이션을 위해 의도되는 재구성된 시뮬레이션 입력 신호()를 형성하기 위해 변환 파라미터들의 제1 세트(w(f))를 제1 오디오 신호 프레젠테이션(z)에 적용하는 단계, 신호 레벨 수정(α)을 재구성된 시뮬레이션 입력 신호에 적용하는 단계 - 신호 레벨 수정은 신호 레벨 데이터(β²) 및 음향 환경 시뮬레이션에 관련된 데이터(p²)에 기초함 -, 음향 환경 시뮬레이션에서 레벨 수정된 재구성된 시뮬레이션 입력 신호()를 프로세싱하는 단계, 및 오디오 출력을 형성하기 위해 음향 환경 시뮬레이션의 출력을 제1 오디오 신호 프레젠테이션(z)과 결합하는 단계를 포함한다.

본 발명의 제3 양태에 따르면, 하나 이상의 오디오 컴포넌트를 갖는 오디오 신호를 인코딩하기 위한 인코더가 제공되고, 여기서 각각의 오디오 컴포넌트는 공간 위치와 연관되며, 인코더는 오디오 컴포넌트들의 제1 오디오 신호 프레젠테이션(z)을 렌더링하기 위한 렌더러(renderer), 오디오 컴포넌트들의 음향 환경 시뮬레이션을 위해 의도되는 시뮬레이션 입력 신호(f)를 결정하기 위한 모듈, 제1 오디오 신호 프레젠테이션(z)으로부터 시뮬레이션 입력 신호(f)의 재구성을 가능하게 하도록 구성되는 변환 파라미터들의 제1 세트(w(f))를 결정하고 시뮬레이션 입력 신호(f)의 신호 레벨을 나타내는 신호 레벨 데이터(β²)를 결정하기 위한 변환 파라미터 결정 유닛(transform parameter determination unit), 및 디코더에의 전송을 위해 제1 오디오 신호 프레젠테이션(z), 상기 변환 파라미터들의 세트(w(f)), 및 상기 신호 레벨 데이터(β²)를 인코딩하기 위한 코어 인코더 유닛을 포함한다.

본 발명의 제4 양태에 따르면, 하나 이상의 오디오 컴포넌트를 갖는 오디오 신호를 디코딩하기 위한 디코더가 제공되고, 여기서 각각의 오디오 컴포넌트는 공간 위치와 연관되며, 디코더는 오디오 컴포넌트들의 제1 오디오 신호 프레젠테이션(z), 변환 파라미터들의 제1 세트(w(f)), 및 신호 레벨 데이터(β²)를 수신 및 디코딩하기 위한 코어 디코더 유닛, 음향 환경 시뮬레이션을 위해 의도되는 재구성된 시뮬레이션 입력 신호()를 형성하기 위해 변환 파라미터들의 제1 세트(w(f))를 제1 오디오 신호 프레젠테이션(z)에 적용하기 위한 변환 유닛, 신호 레벨 수정(α)을 시뮬레이션 입력 신호에 적용하기 위한 계산 블록 - 신호 레벨 수정은 신호 레벨 데이터(β²) 및 상기 음향 환경 시뮬레이션에 관련된 데이터(p²)에 기초함 -, 레벨 수정된 재구성된 시뮬레이션 입력 신호()에 음향 환경 시뮬레이션을 수행하기 위한 음향 환경 시뮬레이터, 및 오디오 출력을 형성하기 위해 음향 환경 시뮬레이터의 출력을 제1 오디오 신호 프레젠테이션(z)과 결합하기 위한 믹서를 포함한다.

본 발명에 따르면, 신호 레벨 데이터는 인코더 내에서 결정되고 인코딩된 비트 스트림 내에서 디코더로 전송된다. 이 데이터 및 음향 환경 시뮬레이션 알고리즘으로부터(예를 들어, 그것의 전달 함수로부터) 도출된 하나 이상의 파라미터에 기초한 신호 레벨 수정(감쇠 또는 이득)은 이후 음향 시뮬레이션 알고리즘에 의해 프로세싱되기 전에 시뮬레이션 입력 신호에 적용된다. 이러한 프로세스를 통해, 디코더는 시뮬레이션 입력 신호의 신호 레벨을 결정할 필요가 없으므로, 프로세싱 로드를 감소시킬 수 있다. 시뮬레이션 입력 신호의 재구성을 가능하게 하도록 구성되는 변환 파라미터들의 제1 세트는 시뮬레이션 입력 신호와 변환 파라미터들을 제1 오디오 신호 프레젠테이션에 적용하는 것의 결과 사이의 차이의 측정치(measure)를 최소화함으로써 결정될 수 있다. 그러한 파라미터들은 2016년 8월24일자로 출원된 PCT 출원 PCT/US2016/048497에서 보다 상세히 논의된다.

신호 레벨 데이터는 바람직하게는 음향 시뮬레이션 입력 신호의 신호 레벨과 제1 오디오 신호 프레젠테이션의 신호 레벨 사이의 비율이다. 이는 또한 음향 시뮬레이션 입력 신호의 신호 레벨과 오디오 컴포넌트의 신호 레벨 또는 그것의 함수 사이의 비율일 수 있다.

신호 레벨 데이터는 바람직하게는 하나 이상의 서브 밴드에서 동작할 수 있고 시변일 수 있으며, 예를 들어, 개별 시간/주파수 타일들에 적용된다.

본 발명은 소위 동시 송출 시스템(simulcast system)에서 유리하게 구현될 수 있으며, 인코딩된 비트 스트림은 또한 제1 오디오 신호 프레젠테이션을 제2 오디오 신호 프레젠테이션으로 변환하기에 적합한 변환 파라미터들의 제2 세트를 포함한다. 이러한 경우, 음향 환경 시뮬레이션으로부터의 출력은 제2 오디오 신호 프레젠테이션과 믹싱된다.

본 발명의 실시예들이 이제 첨부 도면들을 참조하여, 예시로서만, 설명될 것이다.
도 1은 2개의 사운드 소스들 또는 오브젝트들에 대한 HRIR 컨벌루션 프로세스의 개략적인 개요를 도시하며, 각각의 채널 또는 오브젝트는 HRIR들/BRIR들의 쌍에 의해 프로세싱된다.
도 2는 헤드폰들 상에 몰입형 오디오를 전달하기 위한 듀얼-엔디드 시스템의 개략적인 개요를 도시한다.
도 3a 및 도 3b는 본 발명의 실시예들에 따른 방법들의 흐름도들이다.
도 4는 본 발명의 실시예들에 따른 인코더 및 디코더의 개략적인 개요를 도시한다.

다음에 개시되는 시스템들 및 방법들은 소프트웨어, 펌웨어, 하드웨어, 또는 그것들의 조합으로서 구현될 수 있다. 하드웨어 구현에서, 이하의 설명에서 "단계들"로 지칭되는 태스크들의 분할은 반드시 물리적 유닛들로의 분할에 대응하지는 않고; 반대로, 하나의 물리적 컴포넌트는 다수의 기능들을 가질 수 있고, 하나의 태스크는 협력하는 여러 물리적 컴포넌트들에 의해 수행될 수 있다. 특정 컴포넌트들 또는 모든 컴포넌트들은 디지털 신호 프로세서 또는 마이크로프로세서에 의해 실행되는 소프트웨어로서 구현될 수 있거나, 하드웨어로서, 또는 주문형 집적 회로(application-specific integrated circuit)로서 구현될 수 있다. 그러한 소프트웨어는 컴퓨터 저장 매체(또는 비일시적 매체(non-transitory media)) 및 통신 매체(또는 일시적 매체)를 포함할 수 있는 컴퓨터 판독가능 매체에 분포될 수 있다. 본 기술분야의 통상의 기술자에게 잘 알려진 바와 같이, 컴퓨터 저장 매체라는 용어는 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들, 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 착탈식 및 비착탈식 매체 둘 다를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD) 또는 다른 광학 디스크 스토리지, 자기 카세트들, 자기 테이프, 자기 디스크 스토리지 또는 다른 자기 저장 디바이스들, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있지만, 이들로 제한되지 않는다. 또한, 통신 매체는 전형적으로 반송파와 같은 변조된 데이터 신호 또는 다른 이송 메커니즘으로 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들, 또는 다른 데이터를 구현하고, 임의의 정보 전달 매체를 포함한다는 것이 통상의 기술자에게 잘 알려져 있다.

오브젝트 당 바이너럴 렌더러 (per-object binaural renderer)에서의 응용

제안된 접근법은 오브젝트 당 렌더러를 참조하여 먼저 논의될 것이다. 다음에서, 오브젝트(x _i )의 바이너럴 프레젠테이션(l _i,b , r _i,b )는 다음과 같이 쓸 수 있다:

여기서, 및 는 좌우 귀의 머리 관련 임펄스 응답들(head-related impulse responses(HRIRs))를 나타내고, 및 은 좌우 귀들에 대한 초기 반사(early reflections) 및/또는 늦은 잔향(late reverberation) 임펄스 응답들(예를 들어, 음향 환경 시뮬레이션의 임펄스 응답들)을 나타낸다. 환경 시뮬레이션 기여에 적용되는 이득()은 거리에 따른 직접-대-늦은 잔향 비율에서의 변화를 반영하며, 이는 종종 로 공식화되고, 는 미터로 표현되는 오브젝트(i)의 거리이다. 이득()에 대한 아래첨자 f는 그것이 초기 반사들 및/또는 늦은 잔향 임펄스 응답들( 및 )을 컨벌루션하기 전의 오브젝트(i)에 대한 이득임을 표시하기 위해 포함된다. 최종적으로, 오브젝트 거리()와 관계없이 라우드니스를 보존하고, 따라서 이득()을 보존하도록 의도되는 전체 출력 감쇠()가 적용된다. 오브젝트()에 대한 이러한 감쇠에 대한 유용한 표현은 다음과 같다:

여기서 p는 전달 함수들( 및 )에 의존하는 라우드니스 보정 파라미터이며, 그 기여들로 인해 얼마나 많은 에너지가 추가되는지를 결정한다. 일반적으로, 파라미터 p는 전달함수들( 및 ) 및 옵션적으로 HRIR들( 및 )의 함수()로서 설명될 수 있다:

상기 공식에서, 오브젝트 당 변수들(이득들)( 및 )뿐만 아니라 모든 오브젝트들(i)에 걸쳐 공유되는 초기 반사들 및/또는 늦은 잔향 임펄스 응답들( 및 )의 공통 쌍이 존재한다. 입력들에 걸쳐 공유되는 잔향 임펄스 응답들의 그러한 공통 세트 외에, 각각의 오브젝트는 또한 초기 반사들 및/또는 늦은 잔향 임펄스 응답들( 및 )의 자체 쌍을 가질 수 있다:

라우드니스 보정 파라미터 p를 계산하기 위해 다양한 알고리즘들 및 방법들이 적용될 수 있다. 하나의 방법은 거리()의 함수로서 바이너럴 프레젠테이션()의 에너지 보존을 목표로 하는 것이다. 이것이 렌더링되는 오브젝트 신호()의 실제 신호 특성들과 독립적으로 동작할 필요가 있다면, 임펄스 응답들이 대신 사용될 수 있다. 오브젝트(i)에 대한 좌우 귀들에 대한 바이너럴 임펄스 응답이 각각 로서 표현되면 다음과 같다:

또한:

만약 다음이 요구되는 경우:

이는 다음을 제공한다:

HRIR들이 대략 단위 전력, 예를 들어, 을 가진다고 추가로 가정하면, 상기 표현은 다음과 같이 감소된다:

여기서,

이다.

에너지들( 및 )이 모두 (사실상) 동일하고 와 같다고 추가로 가정하면 다음과 같다:

그러나, 에너지 보존 이외에도, 에너지 보존보다는 라우드니스 보존을 획득하기 위해 지각 모델들(perceptual models)을 적용하는 p를 계산하기 위한 더 개선된 방법들이 적용될 수 있음에 유의해야 한다. 더 중요하게, 상기 프로세스는 광대역(broad-band) 임펄스 응답들보다는 개별 서브 밴드들에서 적용될 수 있다.

몰입형 스테레오 코더에서의 응용

몰입형 스테레오 인코더에서, 오브젝트 인덱스 를 갖는 오브젝트 신호들()은 음향 환경 시뮬레이션 입력 신호()를 생성하기 위해 합쳐진다:

인덱스 n은 시간 도메인 이산 샘플 인덱스, 서브-밴드 샘플 인덱스, 또는 이산 푸리에 변환(DFT), 이산 코사인 변환(DCT), 또는 그와 비슷한 것과 같은 변환 인덱스를 나타낼 수 있다. 이득들()은 오브젝트 거리 및 다른 오브젝트 당 렌더링 메타데이터에 의존하며, 시변일 수 있다.

디코더는 신호를 디코딩함으로써, 또는 본원에 참조로서 통합된 2016년 8월 24일자로 출원된 PCT 출원 PCT/US2016/048497에서 논의된 바와 같은 파라미터들을 사용하는 파라메트릭 재구성에 의해 신호()를 검색하고, 이후 스테레오 음향 환경 시뮬레이션 신호를 생성하기 위해 임펄스 응답들( 및 )을 적용함으로써 이 신호를 프로세싱하며, 전체 이득 또는 감쇠()를 포함하는 반향 바이너럴 프레젠테이션을 생성하기 위해, 이것을 도 2에　로 표시된 무반향 바이너럴 신호 쌍()과 결합한다:

도 2의 몰입형 스테레오 디코더에서, 신호들()은 모두 각각 파라미터들()을 사용하여 좌우 채널에 대해 에 의해 표시되는 스테레오 라우드스피커 프레젠테이션으로부터 재구성된다:

원하는 감쇠()는 이제 신호 혼합()에 존재하는 모든 오브젝트들에 공통이다. 즉, 오브젝트 당 감쇠는 음향 환경 시뮬레이션 기여들을 보상하기 위해 적용될 수 없다. 그러나, 바이너럴 프레젠테이션의 예상 값이 일정한 에너지를 갖는 것을 필요로 하는 것은 여전히 가능하다:

이로부터:

HRIR들이 대략 단위 에너지, 예를 들어, 를 의미하는 를 갖는다고 다시 가정하면, 따라서:

상기 표현에서, 제곱 감쇠()는 음향 환경 시뮬레이션 파라미터() 및 비율을 사용하여 계산될 수 있다:

더욱이, 스테레오 라우드스피커 신호 쌍()이 에너지 보존을 갖는 진폭 패닝 알고리즘(amplitude panning algorithm)에 의해 생성되는 경우, 다음과 같다:

이 비율은 음향 환경 시뮬레이션 레벨 데이터, 또는 신호 레벨 데이터()로 지칭된다. 환경 시뮬레이션 파라미터()와 결합된 의 값은 제곱 감쇠()의 계산을 허용한다. 신호 레벨 데이터()를 인코딩된 신호의 일부로서 전송함으로써, 디코더에서 를 측정할 필요가 없다. 상기 식으로부터 알 수 있듯이, 신호 레벨 데이터()는 스테레오 프레젠테이션 신호들()을 사용하거나, 또는 오브젝트 신호들의 에너지 합()으로부터 계산될 수 있다.

의 동적 범위 제어

상기 식을 참조하여 신호(

)를 계산하면:

오브젝트 당 이득들()이 오브젝트 거리()에 따라 단조적으로(monotonically)(예를 들어, 선형으로) 증가하는 경우, 신호()는 잘 정의된 상한을 가지지 않는다는 점에서 이산 코딩 시스템들에 대해 불량하게 컨디셔닝된 것이다(ill conditioned).

그러나, 상기 논의된 바와 같이, 코딩 시스템이 데이터()를 전송하는 경우, 인코딩 및 디코딩에 적합하게 만들기 위해 신호()를 컨디셔닝하기 위해 이들 파라미터들이 재사용될 수 있다. 특히, 신호()는 컨디셔닝된 신호()를 생성하기 위해 인코딩 전에 감쇠될 수 있다:

이 연산은 신호()를 코딩 및 렌더링되는 다른 신호들과 동일한 동적 범위에 들어가도록 를 보장한다.

디코더에서, 역 연산이 적용될 수 있다:

즉, 라우드니스-보존 거리 수정을 허용하기 위해 신호 레벨 데이터()를 사용하는 것 이외에, 이 데이터가 더 정확한 코딩 및 재구성을 허용하기 위해 신호()를 컨디셔닝하기 위해 사용될 수 있다.

일반적인 인코딩/디코딩 접근법

도 3a 내지 도 3b는 본 발명의 실시예에 따른 인코딩(도 3a) 및 디코딩(도 3b)을 개략적으로 도시한다.

인코더 측에서, 단계 E1에서, 제1 오디오 신호 프레젠테이션이 오디오 컴포넌트들로 렌더링된다. 이 프레젠테이션은 스테레오 프레젠테이션 또는 디코더로의 전송에 적합한 것으로 고려되는 임의의 다른 프레젠테이션일 수 있다. 이후, 단계 E2에서, 시뮬레이션 입력 신호가 결정되고, 이 시뮬레이션 입력 신호는 오디오 컴포넌트들의 음향 환경 시뮬레이션을 위해 의도된다. 단계 E3에서, 제1 오디오 신호 프레젠테이션에 대한 음향 시뮬레이션 입력 신호의 신호 레벨을 나타내는 신호 레벨 파라미터()가 계산된다. 옵션적으로, 단계 E4에서, 시뮬레이션 입력 신호는 동적 제어를 제공하도록 컨디셔닝된다(상기 참조). 이후, 단계 E5에서, 시뮬레이션 입력 신호는 제1 오디오 신호 프레젠테이션으로부터의 시뮬레이션 입력 신호의 재구성을 가능하게 하도록 구성되는 변환 파라미터들의 세트로 파라미터화된다. 파라미터들은 예를 들어, 변환 행렬에서 구현되는 가중치일 수 있다. 최종적으로, 단계 E6에서, 제1 오디오 신호 프레젠테이션, 변환 파라미터들의 세트, 및 신호 레벨 파라미터는 디코더로의 전송을 위해 인코딩된다.

디코더 측에서, 단계 D1에서, 제1 오디오 신호 프레젠테이션, 변환 파라미터들의 세트, 및 신호 레벨 데이터가 수신 및 디코딩된다. 이후, 단계 D2에서, 변환 파라미터들의 세트는 오디오 컴포넌트들의 음향 환경 시뮬레이션을 위해 의도되는 재구성된 시뮬레이션 입력 신호를 형성하기 위해 제1 오디오 신호 프레젠테이션에 적용된다. 이 재구성된 시뮬레이션 입력 신호는 인코더 측에서 결정된 원래 시뮬레이션 입력 신호와 동일하지 않으나, 변환 파라미터들의 세트에 의해 생성된 추정이라는 점에 유의해야 한다. 또한, 단계 D3에서, 상기 논의된 바와 같이, 신호 레벨 수정()이 신호 레벨 파라미터()에 기초한 시뮬레이션 입력 신호 및 음향 환경 시뮬레이션의 전달 함수()에 기초한 인자()에 적용된다. 신호 레벨 수정은 일반적으로 감쇠이지만, 일부 상황들에서는 또한 이득일 수 있다. 신호 레벨 수정()은 또한 아래 논의되는 바와 같이, 사용자 제공 거리 스칼라에 기초할 수 있다. 시뮬레이션 입력 신호의 옵션적 컨디셔닝이 인코더에서 수행된 경우, 단계 D4에서, 이 컨디셔닝의 역이 수행된다. 수정된 시뮬레이션 입력 신호는 이후 음향 환경 보상 신호를 형성하기 위해 음향 환경 시뮬레이터, 예를 들어, 피드백 딜레이 네트워크에서 프로세싱된다(단계 D5). 최종적으로, 단계 D6에서, 보상 신호는 오디오 출력을 형성하기 위해 제1 오디오 신호 프레젠테이션과 결합된다.

시간/주파수 변동성

은 시간의 함수로서(오브젝트들이 거리를 바꿀 수 있거나, 또는 상이한 거리들의 다른 오브젝트들로 대체될 수 있는 경우) 및 주파수의 함수로서(일부 오브젝트들이 특정 주파수 범위들에서 우세한 한편 다른 주파수 범위들에서는 작은 기여만을 하는 경우) 변할 수 있다는 것에 유의해야 한다. 즉, 은 이상적으로 매시간/주파수 타일마다 독립적으로 인코더에서 디코더로 전송된다. 또한, 제곱 감쇠()가 또한 각각의 시간/주파수 타일에 적용된다. 이것은 다양한 변환들(이산 푸리에 변환 또는 DFT, 이산 코사인 변환 또는 DCT) 및 필터 뱅크들(filter banks)(직교 미러 필터(quadrature mirror filter bank) 등)을 사용하여 실현될 수 있다.

의미론적 라벨들의 사용

거리에서의 변동성 이외에, 다른 오브젝트 속성들이 오브젝트 각각의 이득들()에 있어서의 오브젝트 당 변경을 초래할 수 있다. 예를 들어, 오브젝트들은 다이얼로그, 음악, 및 효과들의 표시기들과 같은 의미론적 라벨들과 연관될 수 있다. 특정 의미론적 라벨들은 의 상이한 값들을 야기할 수 있다. 예를 들어, 다이얼로그 신호들에 많은 양의 음향 환경 시뮬레이션을 적용하는 것은 종종 바람직하지 않다. 결과적으로, 오브젝트가 다이얼로그로 라벨링된 경우에는 에 대해 작은 값들을 갖고, 다른 의미론적 라벨들에 대해서는 에 대해 큰 값들을 갖는 것이 종종 요구된다.

헤드폰 렌더링 메타데이터

오브젝트 이득들()에 영향을 줄 수 있는 또 다른 인자는 헤드폰 렌더링 데이터의 사용일 수 있다. 예를 들어, 오브젝트들은 오브젝트가 다음의 렌더링 모드들 중 하나에서 렌더링되어야 함을 표시하는 렌더링 메타데이터와 연관될 수 있다:

- 'Far': 오브젝트가 청취자에 매우 가깝다는 것을 오브젝트 위치가 표시하지 않는 한, 오브젝트가 청취자로부터 멀리 떨어져 있는 것으로 감지된다는 것을 나타내며, 의 큰 값들을 야기한다.

- 'Near': 오브젝트가 청취자에 가까운 것으로 감지된다는 것을 나타내고, 의 작은 값들을 야기한다. 그러한 모드는 또한 음향 환경 시뮬레이션의 제한된 기여 때문에 '중립 음색(neutral timbre)'으로 지칭될 수 있다.

- 'Bypass': 이 특정 오브젝트에 대해 바이너럴 렌더링이 바이패스되어야 함을 나타내고, 따라서 는 실질적으로 0에 가깝다.

음향 환경 시뮬레이션 (룸) 적응

상기 설명된 방법은 렌더링된 장면의 전체 라우드니스를 변경하지 않고 디코더 측에서 음향 환경 시뮬레이션을 변경하기 위해 사용될 수 있다. 디코더는 전용 룸 임펄스 응답들 또는 전달 함수들( 및 )에 의해 음향 환경 시뮬레이션 입력 신호를 프로세싱하도록 구성될 수 있다. 이들 임펄스 응답들은 컨벌루션에 의해, 또는 피드백-딜레이 네트워크(feedback-delay network(FDN))와 같은 알고리즘 잔향 알고리즘에 의해 실현될 수 있다. 그러한 적응의 하나의 목적은 스튜디오 환경, 거실, 교회, 대성당 등과 같은 특정 가상 환경을 시뮬레이션하는 것이다. 전달 함수들( 및 )이 결정될 때마다, 라우드니스 보정 인자가 다시 계산될 수 있다:

이 업데이트된 라우드니스 보정 인자는 이후 전송된 음향 환경 시뮬레이션 레벨 데이터()에 대한 응답으로 원하는 감쇠()를 계산하기 위해 사용된다:

,및 을 결정하기 위한 계산 로드를 피하기 위해, 에 대한 값들은 미리 계산되고 의 특정 실현들과 연관된 룸 시뮬레이션 프리셋들의 일부로서 저장될 수 있다. 대안적으로 또는 부가적으로, 임펄스 응답들 은 직접-대-늦은 잔향 비율, 에너지 감쇠 곡선, 잔향 시간, 또는 Kuttruff, Heinrich: "Room acoustics", CRC Press, 2009에 설명된 바와 같은 잔향의 속성들을 설명하기 위한 임의의 다른 일반 속성과 같은 원하는 속성들의 파라메트릭 설명에 기초하여 결정 또는 제어될 수 있다. 그러한 경우에, 의 값은 실제 임펄스 응답 실현들 보다는 그러한 파라메트릭 속성들로부터 추정, 계산, 또는 미리 계산될 수 있다.

전체 거리 스케일링

디코더는 +1보다 작거나 클 수 있는 특정 인자에 의해 렌더링 거리를 스케일링하는 전체 거리 스케일링 파라미터로 구성될 수 있다. 이러한 거리 스칼라가 에 의해 표시되는 경우, 디코더에서의 바이너럴 프레젠테이션이 로부터 직접 따라오며, 따라서 다음과 같다:

이 곱셈으로 인해, 신호()의 에너지는 인자()에 의해 효과적으로 증가하고, 따라서 원하는 신호 레벨 수정()이 다음과 같이 계산될 수 있다:

인코더 및 디코더 개요

도 4는 제안된 발명이 헤드폰들 상에 몰입형 오디오를 전달하도록 적응된 인코더 및 디코더에서 어떻게 구현될 수 있는 지를 설명한다.

인코더(21)(도 4의 좌측)는 소스(23)로부터 입력 오디오 콘텐츠(채널들, 오브젝트들, 또는 그것들의 조합들)를 수신하고 서브-밴드 신호들을 형성하기 위해 이러한 입력을 프로세싱하도록 적응된 변환 모듈(conversion module)(22)을 포함한다. 이러한 특정 예시에서, 복소 직교 미러 필터(complex quadrature mirror filter(CQMF)) 뱅크, 이산 푸리에 변환(DFT), 수정 이산 코사인 변환(MDCT) 등과 같은 다른 변환들 및/또는 필터뱅크들이 대신 사용될 수 있지만, 변환은 중첩 윈도우들(overlapping windows)로 프레이밍 및 윈도윙(windowing)하는 것이 뒤따르는 혼성 복소 직교 미러 필터(hybrid complex quadrature mirror filter(HCQMF)) 뱅크를 사용하는 것을 포함한다. 진폭-패닝 렌더러(24)는 라우드스피커 신호()를 야기하는 라우드스피커 플레이백을 위한 서브-밴드 신호들을 렌더링하도록 적응된다.

바이너럴 렌더러(25)는 HRIR/HRTF 데이터베이스로부터 HRIR들의 쌍(프로세스가 시간 도메인에서 적용되는 경우) 또는 머리 관련 전달 함수들(Head Related Transfer Functions(HRTF들), 프로세스가 주파수 도메인에서 적용되는 경우)을 각각의 입력에 적용하고, 그에 후속하여 각각의 입력의 기여를 합산함으로써 무반향 바이너럴 프레젠테이션(y)을 로 렌더링하도록 적응된다(단계 S3). 변환 파라미터 결정 유닛(26)은 바이너럴 프레젠테이션(y) 및 라우드스피커 신호(z)를 수신하고, 바이너럴 표현을 재구성하는 데 적합한 파라미터들의 세트(w(y), 행렬 가중치들)를 계산하도록 적응된다. 그러한 파라미터화의 원리들은 2016년 8월 24일자로 출원되고 본 명세서에 참조로서 통합된 PCT 출원 PCT/US2016/048497에 상세히 논의되어 있다. 요약하면, 바이너럴 프레젠테이션(y)과, 변환 파라미터들을 라우드스피커 신호(z)에 적용하는 것의 결과 사이의 차이의 측정치를 최소화함으로써 파라미터들이 결정된다.

인코더는 피드백-딜레이 네트워크(FDN)와 같은 늦은-잔향 알고리즘(late-reverberation algorithm)에 대한 입력 신호()를 결정하기 위한 모듈(27)을 더 포함한다. 유닛(26)과 유사한 변환 파라미터 결정 유닛(28)은 입력 신호() 및 라우드스피커 신호(z)를 수신하고, 파라미터들의 세트(w(y), 행렬 가중치들)를 계산하도록 적응된다. 입력 신호()와, 파라미터들을 라우드스피커 신호(z)에 적용하는 것의 결과 사이의 차이의 측정치를 최소화함으로써 파라미터들이 결정된다. 여기서, 유닛(28)은 상기 논의된 바와 같이 각각의 프레임에서의 와 z 사이의 에너지 비율에 기초하여 신호 레벨 데이터()를 계산하도록 더 적응된다.

라우드스피커 신호(z), 파라미터들(w(y) 및 w(f)), 및 신호 레벨 데이터()는 모두 코어 코더 유닛(core coder unit)(29)에 의해 인코딩되고, 디코더(31)로 전송되는 코어 코더 비트스트림 내에 포함된다. MPEG 1 layer 1, 2, 및 3, 또는 Dolby AC4와 같은 다른 코어 코더들이 사용될 수 있다. 코어 코더가 입력으로서 서브-밴드 신호들을 사용할 수 없는 경우, 서브-밴드 신호들은 먼저 혼성 직교 미러 필터(HCQMF) 합성 필터 뱅크(30), 또는 블록(22)에서 사용되는 변환 또는 분석 필터뱅크에 대응하는 다른 적합한 역 변환 또는 합성 필터 뱅크를 사용하여 시간 도메인으로 변환될 수 있다.

디코더(31)(도 4의 우측)는 라우드스피커 신호(z), 파라미터들(w(y) 및 w(f)), 및 신호 레벨 데이터()의 프레임들의 HCQMF-도메인 표현들을 획득하기 위해 수신된 신호들을 디코딩하기 위한 코어 디코더 유닛(32)를 포함한다. 코어 디코더가 HCQMF 도메인에서 신호들을 생산하지 않는 경우 옵션적인 HCQMF 분석 필터 뱅크(33)가 요구될 수 있다.

변환 유닛(34)은 파라미터들(w(y))을 변환 행렬의 가중치들로서 사용함으로써 라우드스피커 신호(z)를 바이너럴 신호(y)의 재구성()으로 변환하도록 구성된다. 유사한 변환 유닛(35)은 파라미터들(w(f))을 변환 행렬의 가중치들로서 사용함으로써 라우드스피커 신호(z)를 시뮬레이션 입력 신호()의 재구성()으로 변환하도록 구성된다. 재구성된 시뮬레이션 입력 신호()는 신호 레벨 수정 블록(37)을 통해 음향 환경 시뮬레이터, 여기서는 피드백 딜레이 네트워크(FDN)(36)에 공급된다. FDN(36)은 감쇠된 신호()를 프로세싱하고, 결과 FDN 출력 신호를 제공하도록 구성된다.

디코더는 블록(37)의 이득/감쇠()를 계산하도록 구성되는 계산 블록(38)을 더 포함한다. 이득/감쇠()는 시뮬레이션 레벨 데이터() 및 FDN(36)으로부터 수신된 FDN 라우드니스 보정 인자()에 기초한다. 옵션적으로, 블록(38)은 또한 최종 사용자로부터의 입력에 응답하여 결정되는 거리 스칼라()를 수신하며, 이는 의 결정에서 사용된다.

제2 신호 레벨 수정 블록(39)은 이득/감쇠()를 또한 재구성된 무반향 바이너럴 신호()에 적용하도록 구성된다. 블록(39)에 의해 적용되는 감쇠는 반드시 이득/감쇠()와 동일하지는 않지만, 그것의 함수일 수 있다는 점에 유의해야 한다. 또한, 디코더(31)는 감쇠된 신호()를 FDN(36)으로부터의 출력과 믹싱하도록 배열되는 믹서(40)를 포함한다. 결과로 나오는 반향 바이너럴 신호는 오디오 출력을 제공하도록 구성되는 HCQMF 합성 블록(41)으로 보내진다.

도 4에서, 동적 범위 제어(상기 참조)의 목적들을 위한 신호()의 옵션적인(그러나 부가적인) 컨디셔닝은 도시되지 않지만, 신호 레벨 수정()과 쉽게 결합될 수 있다.

해석

"일 실시예", "일부 실시예들" 또는 "실시예"에 대한 이 명세서 전반에 걸친 참조는, 실시예와 관련하여 기술되는 특정 특징, 구조 또는 특성이 본 발명의 적어도 하나의 실시예에 포함됨을 의미한다. 따라서, 이 명세서 전반에 걸친 여러 곳들에서의 구문들 "일 실시예에서", "일부 실시예들에서" 또는 "실시예에서"의 출현은 반드시 모두 동일한 실시예를 지칭하지는 않지만, 그럴 수도 있다. 또한, 특정 특징들, 구조들 또는 특성들은, 하나 이상의 실시예에서, 이 개시내용으로부터 본 기술분야의 통상의 기술자에게 명백할 바와 같이, 임의의 적절한 방식으로 조합될 수 있다.

본원에서 사용되는 바와 같이, 다른 방식으로 특정되지 않는 한, 공통적인 대상을 기술하기 위한 서수 형용사들 "제1", "제2", "제3" 등의 사용은 단지, 유사한 대상들의 상이한 인스턴스들이 지칭되는 것을 나타내며, 그렇게 지칭된 대상들이 시간적으로, 공간적으로, 순위상으로, 또는 임의의 다른 방식으로, 주어진 순서대로 존재해야 함을 내포하도록 의도되지는 않는다.

하기의 청구항들 및 본원의 기재에서, 용어들 '포함하는(comprising)', '구성되는' 또는 '포함한다' 중 어느 것이든, 그 용어들 앞에 있는 요소들/특징들을 적어도 포함하지만 다른 것들을 배제하지는 않는다는 것을 의미하는 개방 용어이다. 따라서, '포함하는'이란 용어는, 청구항들에서 사용될 때, 그 앞에 열거되는 수단 또는 요소들 또는 단계들로 제한되는 것으로 해석되지 않아야 한다. 예를 들어, 표현 'A 및 B를 포함하는 디바이스'의 범위는 요소들 A 및 B만으로 구성되는 디바이스들로 제한되지 않아야 한다. 본원에서 사용되는 바와 같은 용어들 '포함하는(including)' 또는 '포함한다(which includes 또는 that includes)' 중 어느 것이든 또한 그 용어의 앞에 오는 요소들/특징들을 적어도 포함하지만 다른 것들을 배제하지는 않는다는 것을 의미하는 개방 용어이다. 따라서, '포함하는(including)'은 '포함하는(comprising)'과 유의어이며 이를 의미한다.

본원에 사용되는 바와 같이, 용어 "예시적인"은 품질을 나타내는 것과는 대조적으로, 예들을 제공하는 것의 의미로 사용된다. 즉, "예시적인 실시예"는, 반드시 예시적인 품질의 실시예인 것과는 대조적으로, 예로서 제공되는 실시예이다.

본 발명의 예시적인 실시예들의 위 기재에서, 본 발명의 다양한 특징들이 개시내용을 개요화하고 다양한 발명적 양태들 중 하나 이상의 이해를 도울 목적으로 단일 실시예, 도면, 또는 그것의 설명에서 때때로 함께 그룹화된다는 것이 인식되어야 한다. 그러나, 이러한 개시의 방법은 청구되는 발명이 각각의 청구항에 명시적으로 인용되는 것보다 더 많은 특징들을 요구한다는 의도를 반영하는 것으로서 해석되지는 않을 것이다. 오히려, 후속하는 청구항들이 반영하는 바와 같이, 발명적 양태는 단일의 이전에 개시된 실시예의 모든 특징보다 더 적은 특징들에 있다. 따라서, 상세한 설명에 후속하는 청구항들은 이에 의해 이 상세한 설명 내에 명시적으로 포함되며, 각각의 청구항은 그 자체가 이 발명의 별도의 실시예로서 존재한다.

또한, 본원에 기술되는 일부 실시예들이 다른 실시예들에 포함되는 일부 특징들을 포함하고 다른 특징들을 포함하지 않지만, 상이한 실시예들의 특징들의 조합들은 본 발명의 범위 내에 있는 것으로 의도되며, 본 기술분야의 통상의 기술자에 의해 이해될 바와 같이, 상이한 실시예들을 형성한다. 예를 들어, 후속하는 청구항들에서, 청구되는 실시예들 중 임의의 것이 임의의 조합으로 사용될 수 있다.

또한, 실시예들 중 일부가 컴퓨터 시스템의 프로세서에 의해 또는 기능을 수행하는 다른 수단에 의해 구현될 수 있는 방법 또는 방법의 요소들의 조합으로서 본원에 기술된다. 따라서, 이러한 방법 또는 방법의 요소를 수행하기 위한 필수적인 명령들을 가지는 프로세서는 방법 또는 방법의 요소를 수행하기 위한 수단을 형성한다. 또한 장치 실시예에 대해 본원에 기술되는 요소는 발명을 수행할 목적으로 요소에 의해 수행되는 기능을 수행하기 위한 수단이다.

본원에 제공되는 기재에서, 다수의 특정 상세항목들이 설명된다. 그러나, 본 발명의 실시예들이 이러한 특정 상세항목들 없이도 구현될 수 있다는 것이 이해된다. 다른 경우들에서, 널리 공지된 방법들, 구조들 및 기법들은 이 기재의 이해를 모호하게 하지 않기 위해 상세히 보여지지 않는다.

유사하게, 용어 '커플링되는'이 청구항들에서 사용될 때, 직접적인 접속들만으로 제한되는 것으로 해석되지 않아야 한다는 것에 유의해야 한다. 용어들 "커플링되는" 및 "접속되는"은 그 파생어들과 더불어 사용될 수 있다. 이 용어들이 서로 유의어들로서 의도되지 않는다는 것이 이해되어야 한다. 따라서, 표현 '디바이스 B에 커플링되는 디바이스 A'의 범위는 디바이스 A의 출력이 디바이스 B의 입력에 직접 접속되는 디바이스들 또는 시스템들에 제한되지 않아야 한다. 그것은 다른 디바이스들 또는 수단을 포함하는 경로일 수 있는, A의 출력과 B의 입력 사이의 경로가 존재한다는 것을 의미한다. "커플링되는"은 2개 이상의 요소가 직접적인 물리적 또는 전기적 접촉에 있는 것, 또는 2개 이상의 요소가 서로 직접 접촉하지는 않지만 여전히 서로 협력하거나 상호작용하는 것을 의미할 수 있다.

따라서, 본 발명의 특정 실시예들이 기술되었지만, 본 기술분야의 통상의 기술자는 다른 그리고 추가적인 수정들이 본 발명의 사상으로부터 벗어나지 않고 이에 대해 이루어질 수 있음을 인지할 것이며, 모든 이러한 변경들 및 수정들을 본 발명의 범위 내에 드는 것으로서 주장하는 것이 의도된다. 예를 들어, 위에서 주어진 임의의 공식들은 사용될 수 있는 절차들을 대표할 뿐이다. 기능성이 블록도들로부터 추가되거나 삭제될 수 있고, 동작들은 기능 블록들 간에 교환될 수 있다. 본 발명의 범위 내에서 기술되는 방법들에 대해 단계들이 추가되거나 삭제될 수 있다.

Claims

하나 이상의 오디오 컴포넌트를 갖는 오디오 신호를 인코딩하는 방법으로서, 각각의 오디오 컴포넌트는 공간 위치(spatial location)와 연관되고, 상기 방법은,
오디오 컴포넌트들의 제1 오디오 신호 프레젠테이션을 렌더링하는 단계;
상기 오디오 컴포넌트들의 음향 환경 시뮬레이션을 위해 의도되는 시뮬레이션 입력 신호를 결정하는 단계;
상기 제1 오디오 신호 프레젠테이션으로부터 상기 시뮬레이션 입력 신호의 재구성을 가능하게 하도록 구성되는 변환 파라미터들의 제1 세트를 결정하는 단계;
상기 제1 오디오 신호 프레젠테이션을 제2 오디오 신호 프레젠테이션으로 변환하는데 적합한 변환 파라미터들의 제2 세트를 결정하는 단계;
상기 시뮬레이션 입력 신호의 신호 레벨을 나타내는 신호 레벨 데이터를 결정하는 단계; 및
디코더에의 전송을 위해 상기 제1 오디오 신호 프레젠테이션, 상기 변환 파라미터들의 제1 세트, 상기 변환 파라미터들의 제2 세트, 및 상기 신호 레벨 데이터를 인코딩하는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 변환 파라미터들의 제1 세트는 상기 시뮬레이션 입력 신호와, 상기 변환 파라미터들의 제1 세트를 상기 제1 오디오 신호 프레젠테이션에 적용한 결과 사이의 차이의 측정치를 최소화함으로써 결정되는, 방법.
제1항 또는 제2항에 있어서, 상기 제1 오디오 신호 프레젠테이션은 바이너럴 프레젠테이션(binaural presentation)이고/이거나, 상기 신호 레벨 데이터는 주파수 및/또는 시간 종속적인, 방법.
삭제
제1항 또는 제2항에 있어서, 상기 제2 오디오 신호 프레젠테이션은 바이너럴 프레젠테이션이고/이거나, 상기 변환 파라미터들의 제2 세트는 상기 제2 오디오 신호 프레젠테이션과, 상기 변환 파라미터들을 상기 제1 오디오 신호 프레젠테이션에 적용한 결과 사이의 차이의 측정치를 최소화함으로써 결정되는, 방법.
제1항 또는 제2항에 있어서, 상기 신호 레벨 데이터는 상기 시뮬레이션 입력 신호의 신호 레벨과 상기 제1 오디오 신호 프레젠테이션의 신호 레벨 사이 또는 상기 오디오 컴포넌트들의 신호 레벨 사이의 비율인, 방법.
제1항 또는 제2항에 있어서,
상기 변환 파라미터들의 제1 세트를 결정하기 전에, 상기 시뮬레이션 입력 신호를 코딩 및 디코딩에 적합하게 만들기 위해, 상기 신호 레벨 데이터에 기초한 컨디셔닝 함수에 따라 상기 시뮬레이션 입력 신호를 컨디셔닝하는 단계
를 더 포함하는, 방법.
제7항에 있어서, 상기 컨디셔닝 함수는,

이고, 은 상기 시뮬레이션 입력 신호()의 샘플()이며, 는 상기 신호 레벨 데이터의 제곱근이고, 은 컨디셔닝된 시뮬레이션 입력 신호()의 샘플()인, 방법.
하나 이상의 오디오 컴포넌트를 갖는 오디오 신호를 디코딩하는 방법으로서, 각각의 오디오 컴포넌트는 공간 위치와 연관되고, 상기 방법은,
오디오 컴포넌트들의 제1 오디오 신호 프레젠테이션, 변환 파라미터들의 제1 세트, 변환 파라미터들의 제2 세트, 및 신호 레벨 데이터를 수신 및 디코딩하는 단계;
음향 환경 시뮬레이션을 위해 의도되는 재구성된 시뮬레이션 입력 신호를 형성하기 위해 상기 변환 파라미터들의 제1 세트를 상기 제1 오디오 신호 프레젠테이션에 적용하는 단계;
상기 재구성된 시뮬레이션 입력 신호에 신호 레벨 수정을 적용하는 단계 - 상기 신호 레벨 수정은 상기 신호 레벨 데이터, 및 상기 음향 환경 시뮬레이션에 관련된 데이터에 기초함 -;
상기 음향 환경 시뮬레이션에서, 레벨 수정된 재구성된 시뮬레이션 입력 신호를 프로세싱하는 단계;
재구성된 제2 오디오 신호 프레젠테이션을 형성하기 위해 상기 변환 파라미터들의 제2 세트를 상기 제1 오디오 신호 프레젠테이션에 적용하는 단계; 및
오디오 출력을 형성하기 위해 상기 음향 환경 시뮬레이션의 출력을 상기 제2 오디오 신호 프레젠테이션과 결합하는 단계
를 포함하는, 방법.
제9항에 있어서, 상기 변환 파라미터들의 제1 세트는 시뮬레이션 입력 신호와, 상기 변환 파라미터들을 라우드스피커 신호(loudspeaker signal)에 적용한 결과 사이의 차이의 측정치를 최소화함으로써 결정되는, 방법.
제9항 또는 제10항에 있어서, 상기 음향 환경 시뮬레이션의 출력과 결합하기 전에 상기 신호 레벨 수정을 상기 제1 오디오 신호 프레젠테이션에도 적용하는 단계 또는 상기 음향 환경 시뮬레이션의 출력과 결합하기 전에, 수정된 신호 레벨 수정을 상기 제1 오디오 신호 프레젠테이션에 적용하는 단계를 더 포함하는, 방법.
삭제
제9항 또는 제10항에 있어서, 상기 음향 환경 시뮬레이션의 출력과 믹싱하기 전에 상기 신호 레벨 수정을 상기 재구성된 제2 오디오 신호 프레젠테이션에도 적용하는 단계 또는 상기 음향 환경 시뮬레이션의 출력과 믹싱하기 전에, 수정된 신호 레벨 수정을 상기 재구성된 제2 오디오 신호 프레젠테이션에 적용하는 단계를 더 포함하는, 방법.
제9항 또는 제10항에 있어서, 상기 신호 레벨 수정은 또한 사용자 선택 거리 인자(user selected distance factor)에 기초하는, 방법.
제9항 또는 제10항에 있어서, 상기 제1 및 제2 오디오 신호 프레젠테이션 중 적어도 하나는 바이너럴 프레젠테이션이고/이거나, 상기 신호 레벨 데이터는 주파수 및/또는 시간 종속적인, 방법.
제9항 또는 제10항에 있어서, 상기 신호 레벨 데이터는 시뮬레이션 입력 신호의 신호 레벨과 상기 제1 오디오 신호 프레젠테이션의 신호 레벨 사이 또는 상기 오디오 컴포넌트들의 신호 레벨 사이의 비율인, 방법.
제9항 또는 제10항에 있어서,
음향 시뮬레이션에서 프로세싱하기 전의 상기 재구성된 시뮬레이션 입력 신호를 코딩 전에 적용된 컨디셔닝 함수의 역에 대응하는 상기 신호 레벨 데이터에 기초한 재컨디셔닝 함수에 따라 재컨디셔닝하는 단계
를 더 포함하는, 방법.
제17항에 있어서, 상기 컨디셔닝 함수 또는 상기 재컨디셔닝 함수는

이고, 은 상기 재구성된 시뮬레이션 입력 신호()의 샘플()이며, 는 상기 신호 레벨 데이터의 제곱근이고, 은 재컨디셔닝된 재구성된 시뮬레이션 입력 신호()의 샘플()인, 방법.
하나 이상의 오디오 컴포넌트를 갖는 오디오 신호를 인코딩하기 위한 인코더로서, 각각의 오디오 컴포넌트는 공간 위치와 연관되고, 상기 인코더는,
오디오 컴포넌트들의 제1 오디오 신호 프레젠테이션을 렌더링하기 위한 렌더러(renderer);
상기 오디오 컴포넌트들의 음향 환경 시뮬레이션을 위해 의도되는 시뮬레이션 입력 신호를 결정하기 위한 모듈;
상기 제1 오디오 신호 프레젠테이션으로부터 상기 시뮬레이션 입력 신호의 재구성을 가능하게 하도록 구성되는 변환 파라미터들의 제1 세트를 결정하고 상기 시뮬레이션 입력 신호의 신호 레벨을 나타내는 신호 레벨 데이터를 결정하며, 상기 제1 오디오 신호 프레젠테이션을 제2 오디오 신호 프레젠테이션으로 변환하는데 적합한 변환 파라미터들의 제2 세트를 결정하기 위한 변환 파라미터 결정 유닛(transform parameter determination unit); 및
디코더에의 전송을 위해 상기 제1 오디오 신호 프레젠테이션, 상기 변환 파라미터들의 제1 세트, 상기 변환 파라미터들의 제2 세트, 및 상기 신호 레벨 데이터를 인코딩하기 위한 코어 인코더 유닛
을 포함하는, 인코더.
하나 이상의 오디오 컴포넌트를 갖는 오디오 신호를 디코딩하기 위한 디코더로서, 각각의 오디오 컴포넌트는 공간 위치와 연관되고, 상기 디코더는,
오디오 컴포넌트들의 제1 오디오 신호 프레젠테이션, 변환 파라미터들의 제1 세트, 변환 파라미터들의 제2 세트, 및 신호 레벨 데이터를 수신 및 디코딩하기 위한 코어 디코더 유닛;
음향 환경 시뮬레이션을 위해 의도되는 재구성된 시뮬레이션 입력 신호를 형성하기 위해 상기 변환 파라미터들의 제1 세트를 상기 제1 오디오 신호 프레젠테이션에 적용하기 위한 제1 변환 유닛;
신호 레벨 수정을 상기 시뮬레이션 입력 신호에 적용하기 위한 계산 블록 - 상기 신호 레벨 수정은 상기 신호 레벨 데이터, 및 상기 음향 환경 시뮬레이션에 관련된 데이터에 기초함 -;
레벨 수정된 재구성된 시뮬레이션 입력 신호에 음향 환경 시뮬레이션을 수행하기 위한 음향 환경 시뮬레이터;
재구성된 제2 오디오 신호 프레젠테이션을 형성하기 위해 상기 변환 파라미터들의 제2 세트를 상기 제1 오디오 신호 프레젠테이션에 적용하기 위한 제2 변환 유닛; 및
오디오 출력을 형성하기 위해 상기 음향 환경 시뮬레이터의 출력을 상기 제2 오디오 신호 프레젠테이션과 결합하기 위한 믹서
를 포함하는, 디코더.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제