KR20160090824A

KR20160090824A - 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치

Info

Publication number: KR20160090824A
Application number: KR1020167014251A
Authority: KR
Inventors: 홀거 크롭; 스테판 아벨링
Original assignee: 톰슨 라이센싱
Priority date: 2013-11-28
Filing date: 2014-11-18
Publication date: 2016-08-01
Also published as: JP2020149062A; WO2015078732A1; EP2879408A1; JP6495910B2; US20170006401A1; US20170374485A1; US10602293B2; CN105981410B; US9736608B2; US10244339B2; EP3313100A1; KR20210132744A; JP2017501440A; CN107889045A; CN105981410A; EP3075172A1; KR102460817B1; HK1249323A1; US20190281400A1; CN108093358A

Abstract

특이 값 분해를 이용한 HOA 신호들의 인코딩 및 디코딩은, 음원 방향 값들 및 앰비소닉스 차수에 기초하여 구형 고조파의 대응하는 케트 벡터들

및 인코더 모드 행렬

을 형성(11)하는 것을 포함한다. 오디오 입력 신호

로부터 특이 임계치

가 결정된다. 인코더 모드 행렬에 대해서 특이 값 분해(13)는 임계값과 비교되어, 최종 인코더 모드 행렬 등급

으로 이어지는 관련된 특이 값들을 얻기 위하여 실행된다. 스피커들의 방향 값들

및 디코더 앰비소닉스 차수

에 기초하여, 대응하는 케트 벡터들

및 디코더 모드 행렬

이 형성된다(18). 디코더 모드 행렬에 대해서 특이 값 분해(19)가 실행되어, 최종 디코더 모드 행렬 등급

을 제공한다. 최종 인코더 및 디코더 모드 행렬 등급들로부터, 최종 모드 행렬 등급이 결정되고, 이 최종 모드 행렬 등급과 인코더 측의 특이 값 분해로부터, 인코더 모드 행렬

의 수반 의사 역행렬

및 앰비소닉스 케트 벡터

가 계산된다. 앰비소닉스 케트 벡터의 성분들의 개수는 적응된 앰비소닉스 케트 벡터

를 제공하기 위해 최종 모드 행렬 등급에 따라 감소(16)된다. 적응된 앰비소닉스 케트 벡터, 디코더 측면 특이 값 분해의 출력값들 및 최종 모드 행렬 등급으로부터, 수반 디코더 모드 행렬

이 계산되고, 결과적으로 모든 스피커들에 대한 출력 신호들의 케트 벡터

를 얻는다.

Description

특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치{METHOD AND APPARATUS FOR HIGHER ORDER AMBISONICS ENCODING AND DECODING USING SINGULAR VALUE DECOMPOSITION}

본 발명은 특이 값 분해(Singular Value Decomposition)를 사용하여 고차 앰비소닉스(Higher Order Ambisonics) 인코딩 및 디코딩하기 위한 방법 및 장치에 관한 것이다.

고차 앰비소닉스(HOA)는 3차원 사운드를 나타낸다. 다른 기술은 파면 합성(wave field synthesis)(WFS) 또는 22.2와 같은 채널 기반 접근 방식이다. 채널 기반 방법과는 달리, HOA 표현은 특정 스피커 셋업과는 독립적인 장점을 제공한다. 그러나, 이러한 유연성은 특정한 스피커 셋업에서 HOA 표현의 재생을 위해 요구되는 디코딩 처리가 따른다. 요구되는 스피커들의 개수가 일반적으로 매우 큰 WFS 방식에 비해, HOA는 단지 몇 개의 스피커로 구성된 셋업을 위하여 렌더링될 수도 있다. HOA의 또 다른 장점은, 동일한 표현이 헤드폰에 대해 입체 렌더링 하기 위해 어떠한 변경 없이 사용될 수도 있다는 것이다.

HOA는 절단된 구면 고조파(SH) 팽창에 의해 복합 고조파 평면파 진폭의 공간 밀도의 표현에 기초한다. 각각의 팽창 계수는 시간 도메인 함수로 동일하게 표현될 수 있는 각주파수(angular frequency)의 함수이다. 따라서, 일반성의 손실 없이, 완전한 HOA 음장 표현은 실제로

시간 도메인 함수를 구성하는 것으로 가정할 수 있으며, 여기서,

은 팽창 계수들의 개수를 나타낸다.

이러한 시간 도메인 함수들은 HOA 계수 시퀀스들 또는 다음의 HOA 채널들로서 동일하게 지칭될 것이다. HOA 표현은 HOA 계수를 포함하는 HOA 데이터 프레임들의 시간적 시퀀스로서 표현될 수 있다. HOA 표현의 공간 해상도는 확장의 증가하는 최대 차수

으로 향상된다. 3D의 경우에는 팽창 계수들의 개수

는 차수

으로 2차식으로 증가하는데, 특히,

이다.

복소 벡터 공간

앰비소닉스는 복소 함수들을 처리해야 한다. 따라서, 복소 벡터 공간들에 기초한 표기법이 도입된다. 이는 3차원 'xyz' 좌표계로부터 공지된 진정한 기하학적벡터들을 표현하지 않는 추상적인 복소 벡터들을 연산한다. 대신에, 각각의 복소 벡터는 물리계에서 있을 수 있는 상태를 설명하고, d 성분들

을 갖는 d-차원 공간에서 열 벡터들에 의해 형성되며, 디랙(Dirac)에 따라 이들 열-지향적인 벡터들은

로서 표시되는 케트 벡터들이라 불리운다. d-차원 공간에 있어서, 임의의

는 성분들

및 d 정규 직교 기준 벡터들

에 의해 형성된다.

여기서, d-차원 공간은 정규 'xyz' 3D 공간이 아니다 .

케트 벡터의 공액 복소는 브라 벡터

라 불리운다. 브라 벡터들는 행-기반 디스크립션(row-based description)을 나타내고, 원래의 케트 공간, 브라 공간의 이중 공간을 형성한다.

이러한 디랙 표기법(Dirac notation)은 앰비소닉스 관련된 오디오 시스템을 위한 다음 설명들에 사용될 것이다.

내적(inner product)은 복소 스칼라 값을 초래하는 동일한 차원의 브라 및 케트 벡터에서 구축될 수 있다. 랜덤 벡터

가 정규 직교 벡터 기준에서 자신의 성분들에 의해 설명되는 경우, 특정 베이스, 예를 들어,

로의

의 음향 방사에 대한 특정 성분는 내적으로 주어진다.

두 개의 바 대신에 오직 하나의 바가 브라와 케트 벡터 사이에서 고려된다.

동일한 기준에서 서로 다른 벡터들

및

에 있어서, 내적은 브라

를

의 케트로 곱하여 얻어진다,

차원 mxl의 케트와 차원 lxn의 브라 벡터가 외적에 의해 곱해진 경우, m 행들 및 n 열들을 갖는 행렬 A이 얻어진다.

앰비소닉스 행렬들

앰비소닉스-기반 디스크립션은 시변 행렬들로 완벽한 음장을 매핑하는 데 필요한 종속성을 고려한다. 고차 앰비소닉스(HOA) 인코딩 또는 디코딩 행렬들에 있어서, 행들(열들)의 개수는 음원 또는 사운드 싱크로부터 특정 방향들에 관련된다. 인코더측에서, S 음원들의 변형 개수가 고려되며, 여기서, s = l,...,S 이다. 각각의 음원들(s)은 원점으로부터의 개별 거리

, 개별 방향

을 가질 수 있으며, 여기서,

는 z-축으로부터 시작하는 경사 각도를 설명하고,

는 x-축으로부터 시작하는 방위 각도를 설명한다. 대응하는 시간 의존 신호

는 개별 시간 동작(behaviour)을 갖는다.

단순화를 위해서, 방향성의 부분만이 고려된다(반경 의존성은 베셀 함수들에 의해 설명될 것이다). 이후에, 특정 방향

가 열 벡터

에 의해 설명되고, 여기서, n은 앰비소닉스 정도를 나타내고, m은 엠비소닉스 차수 N의 인덱스이다. 대응하는 값은 m = l,...,N 및 n = -m, ...,0, ... , m에서 각각 실행된다,

일반적으로, 특정 HOA 디스크립션은 N에 의존하는 2D 또는 3D 경우에 각각의 케트 벡터

에 대한 성분들

의 개수를 제한한다.

하나 이상의 음원에 있어서, 차수 n의 s 개별 벡터들

이 조합되는 경우 모든 방향들이 포함된다. 이는,

모드 성분들을 포함하는 모드 행렬

로 이어지며, 예를 들어,

의 각각의 열은 특정 방향을 나타낸다.

모든 신호 값들은 각각의 개별 음원 신호

의 시간 의존성을 고려하는 신호 벡터

에서 조합되지만,

공통 샘플율로 샘플링된다.

다음에서, 단순화를 위해,

와 같은 시변 신호들에서, 샘플 번호 k는 더 이상 설명되지 않으며, 즉 무시될 것이다. 이어서,

는 식(8)에 도시된 것처럼 모드 행렬

과 곱해진다. 이는 모든 신호 성분들이 동일한 방향

의 대응하는 열과 선형으로 조합되고, 식(5)에 따라

앰비소닉스 모드 성분들 또는 계수들에 의해 케트 벡터

로 이어진다.

디코더는

스피커 신호들

의 전용 번호에 의해 표시되는 음장

을 재생하는 작업을 한다. 이에 따라, 스피커 모드 행렬

은 구형 고조파 기반 단위 벡터들

{식 (6)과 유사}의 L 분리된 열들, 예를 들어, 각각의 스피커 방향에 대해 하나의 케트로 구성된다.

모드의 개수가 스피커들의 개수와 동일한 이차 행렬들에 있어서,

는 반전된 모드 행렬

에 의해 결정될 수 있다. 행들 및 열들의 개수가 서로 다른 임의의 행렬인 일반적인 경우에, 스피커 신호들

은 의사 역행렬(pseudo inverse)에 의해 결정될 수 있다. 참조: 엠. 에이. 폴레티(M.A. Poletti), "3D 서라운드 사운드 시스템에 대한 구면 고조파 접근 방법", 포럼 어쿠스틱(Forum Acusticum), 부다페스트, 2005. 이때,

의 의사 역행렬

을 사용한다:

인코더 및 디코더측에서 설명되는 음장들은 거의 동일, 즉

것으로 가정한다. 그러나, 스피커 위치들은 음원 위치들과 서로 다를 수 있는데, 예를 들어, 유한 앰비소닉스 차수에 대해서,

에 의해 설명되는 실수값의 음원 신호들과

에 의해 설명되는 스피커 신호들은 서로 다르다. 따라서,

에 대해서

을 맵핑하는 패닝 행렬

가 사용될 수 있다. 이때, 식 (8) 및 (10)으로부터, 인코더 및 디코더의 체인 연산은 다음과 같다.

선형 함수

다음의 방정식을 간단하게 유지하기 위해, 패닝 행렬은 단락 “발명의 내용”까지 무시될 것이다. 요구된 기준 벡터들의 개수가 무한한 경우, 별개의 기준에서 연속된 기준으로 변경할 수 있다. 따라서, 함수

는 모드 성분들 무한한 개수를 갖는 벡터로서 해석될 수 있다. 이는 케트 벡터들로부터 특정 출력 케트 벡터에 결정적 방식으로 매핑을 수행하기 때문에, 수학적 의미에서 '함수'라고 지칭한다. 이는 함수

와 케트

사이의 내적에 의해 설명될 수 있으며, 일반적으로 복소수 c의 결과를 얻는다.

함수가 케트 벡터들의 선형 조합을 보존한다면,

는 '선형 함수'로 지칭한다.

헬미틴(Hermitean) 연산자들에 대한 제한이 존재하는 한, 다음과 같은 특성들이 고려되어야 한다. 헬미틴 연산자들은 항상 다음을 갖는다.

● 실제 고유값들.

● 서로 다른 고유값들에 대한 직교 고유 함수들의 완전 세트.

따라서 모든 함수는 이들 고유 함수들로부터 구축될 수 있다. 참조: 에이취. 보겔(H. Vogel), 씨. 게르슨(C. Gerthsen), 에이취. 오. 크네세르(H.O. Kneser), "물리학(Physik)", 스프링거 출판사(Springer Verlag), 1982. 임의의 함수는 복소 상수

를 갖는 구형 고조파

의 선형 조합으로서 표현될 수 있다.

인덱스들

은 결정론적 방식으로 사용된다. 이것들은 1차원 인덱스

로 대체되고, 인덱스들

은 동일한 크기의 인덱스

로 대체된다. 각각의 하위 공간이 서로 다른

를 갖는 하위 공간에 직교한다는 사실로 인하여, 무한 차원의 공간에서 선형으로 독립적인 정규 직교 단위 벡터들로서 설명될 수 있다.

의 상수 값들은 적분 앞에 설정될 수 있다.

하나의 하위 공간(인덱스

)으로부터 다른 하위 공간(인덱스

)으로의 맵핑은, 고유함수들

및

이 상호 직교하는 한, 단지 동일한 인덱스들

에 대한 고조파의 적분이 필요하다.

필수적인 관점은, 계속되는 디스크립션으로부터 브라/케트 표기법으로의 변경이 존재하는 경우, 적분 해법은 구형 고조파의 브라 및 케트 디스크립션들 사이에서 내적의 합으로 대체될 수 있다.

일반적으로, 계속되는 기준에 의한 내적은 케트 기반 웨이브 디스크립션

의 이산 표현을 연속되는 표현으로 맵핑하기 위해 사용될 수 있다. 예를 들어,

는 위치 기준(예를 들어, 반경)에서 케트 표현이다

모드 행렬들

및

의 서로 다른 종류를 보면, 특이 값 분해(SVD)는 행렬들 중 임의의 종류를 처리하는 데 사용된다.

특이 값 분해

특이 값 분해{SVD, 참조: G.H. 골롭, Ch.F. 반 론(Golub, Ch.F. van Loan), "행렬 계산", 존스 홉킨스 대학 출판, 제 3 판, 11. 1996년 10월}는 m 행들 및 n 열들에 의한 임의의 행렬 A를 3개의 행렬들 U, ∑, 및

로 분해할 수 있으며 , 식 (19)을 참조한다. 원래의 형태에 있어서, 행렬들 U 및

은 차원 mxm 및 nxn의 단위 행렬들이다. 이러한 행렬들은 직교되고, 복소 단위 벡터들

및

을 각각 나타내는 직교 열로부터 구축된다.

복소 공간에서 단위 행렬들은 실제 공간에서 직교 행렬들과 동일하며, 즉 열들은 정규 직교 벡터 기준을 제공한다.

행렬들 U 및 V는 모든 4개의 하위 공간들에 대한 직교 기준을 포함한다.

● U의 제 1의 r 열들 : A의 열 공간

● U의 최종 m - r 열들:

의 널 공간(null space)

● V의 제 1의 r 열들: A의 행 공간

● V의 최종 n - r 열들: A의 널 공간

행렬 Σ은 A의 동작을 특성화하기 위해 사용될 수 있는 모든 특이 값들을 포함한다. 일반적으로, Σ는 r 대각 요소들

까지 갖는 m x n 사각형 대각 행렬이며, 여기서, 등급 r은

의 선형 독립된 열들 및 행들의 개수를 제공한다. 이는 내림 차수로 특이 값들을 포함하며, 예를 들어, 식(20) 및 식(21)에 있어서,

은 최대값을 갖고,

은 최소값을 갖는다.

콤팩트 형태에 있어서, 단지 r 특이 값들, 즉 U의 r 열들 및

의 r 행들은 행렬 A를 재구성하기 위해 요구된다. 행렬들 U, ∑ 및

의 차원들은 원래의 형태와는 다르다. 그러나, ∑ 행렬들은 항상 이차 형태를 갖는다. 이 때, m > n = r에 대해서는,

그리고, n > m = r에 대해서는,

따라서, SVD는 낮은 등급 근사치에 의해 매우 효율적으로 구현될 수 있으며, 위에서 언급한 골롭/반 론 텍스트북을 참조한다. 이러한 근사치는 원래의 행렬을 정확하게 설명하지만, r 등급-1 행렬들까지 포함한다. 디랙(Dirac) 표기법에 의해, 행렬 A는 r 등급-1 외적에 의해 표현될 수 있다.

식(11)에서 인코더 디코더 체인을 볼 때, 행렬

과 같은 인코더에 대한 모드 행렬들뿐만 아니라 행렬 Ψ과 같은 모드 행렬들의 역행렬이 존재하거나, 다른 정교한 디코더 행렬이 고려되어야 한다. 일반적인 행렬 A에 대해서, A의 의사 역행렬

은 정방 행렬 ∑의 반전과 U 및

의 공액 복소 교환을 수행함으로써 SVD로부터 직접 검사될 수 있으며, 그 결과는 다음과 같이 얻어진다.

식(22)의 벡터 기반 디스크립션에 대해서, 의사 역행렬

는

및

의 공액 교환을 수행함으로써 얻어지는 반면에, 특이 값들

은 반전되어야 한다. 결과로서 얻어진 의사 역행렬은 다음과 같다.

서로 다른 행렬들의 SVD 기반 분해가 벡터 기반 디스크립션과 조합된다면{참조: 식(8) 및 식(10)}, 인코딩 처리에 대해 얻는다.

그리고, 디코더에 대해서, 의사 역행렬

를 고려할 때{식 (24)},

인코더로부터의 앰비소닉스 음장 디스크립션

이 디코더에 대해

와 거의 동일하고, 차원들

인 것을 가정하면, 입력 신호

및 출력 신호

에 대해서 조합된 식은 다음과 같다.

그러나, 인코더 디코더 체인의 이러한 조합된 디스크립션은 이하에 설명되는 몇 가지의 문제점을 갖는다.

앰비소닉스 행렬들에 미치는 영향

고차 앰비소닉스(HOA) 모드 행렬들 Ξ 및 Ψ 은 음원들의 위치, 또는 스피커들{식(6) 참조} 및 앰비소닉스 순서에 의해 직접 영향을 받는다. 형상이 규칙적인 경우, 즉, 음원 또는 스피커 위치들 사이의 상호 각도 거리들이 거의 동일한 경우, 식(27)이 해결될 수 있다.

그러나, 실제 응용에 있어서, 이는 종종 사실이 아니다. Ξ 및 Ψ의 SVD를 수행하고, 대응하는 행렬 ∑에서 특이 값들을 조사하는 것은 의미가 있는데, 그 이유는 Ξ 및 Ψ의 수치상 연산을 반영하기 때문이다. ∑는 실제 특이 값들을 갖는 양의 값의 행렬이다. 그러나 그럼에도 불구하고, r 특이 값들까지 존재한다 할지라도, 이 값들 사이의 수치상 관계는 음장들의 재생을 위해 매우 중요하며, 그 이유는 디코더 측에서 행렬들의 반전 또는 의사 역행렬을 구축하기 때문이다. 이 연산을 측정하기 위한 적절한 양은 A의 조건 번호이다. 조건 번호 κ(Α)는 가장 작은 특이 값과 가장 큰 특이 값의 비율로서 정의된다.

반전 문제점

불량 조건 행렬들은 큰

를 갖기 때문에 문제가 많다. 반전 또는 의사 역행렬의 경우에, 불량 조건 행렬은 작은 특이 값들

이 매우 지배적이 되는 문제로 이어진다. P.Ch. 한센에 있어서, "등급- 부족 및 개별 불량-제기된 문제: 선형 반전의 수치상 관점들", 산업 및 응용 수학에 대한 협회(SIAM), 1998, 두 가지 기본적인 형태의 문제들은 특이 값들을 감소시키는 방법을 설명함으로써 구별된다(챕터 1.1. 페이지 2~3).

● 등급-부족 문제들, 여기서, 행렬들은 크고 작은 특이 값들의 클러스터 사이의 차이(비-점진적 감소),

● 별개의 불량-제기된 문제들, 여기서, 행렬들의 모든 특이 값들은 평균적으로 제로로 점진적으로 감소, 즉 특이 값들 스펙트럼에서 차이가 없이 감소한다.

인코더 측에서 마이크로폰의 형상뿐만 아니라 디코더 측에서 스피커 형상에 관해서는, 주로 첫 번째로 등급 부족 문제가 발생될 것이다. 그러나, 고객 측에서 모든 가능한 스피커 위치들을 제어하기보다는 기록하는 동안 일부 마이크의 위치들을 변경하기가 쉽다. 특히 디코더 측에서 모드 행렬의 반전 또는 의사 역행렬이 수행되어야 하고, 이는 높은 모드 성분들에 대해 수치상 문제들 및 너무 과중된 값들로 이어진다(상기 언급된 한센 문헌 참조).

신호 관련된 종속성

반전 문제를 감소시키는 것은 예를 들어, 모드 행렬의 등급을 감소시킴으로써, 즉 최소 특이 값들을 회피함으로써, 달성될 수 있다. 그런데, 임계값은 최소 가능한 값

을 위해 사용되어야 한다{참조: 식(20) 및 식(21)}. 이러한 최저 특이 값에 대한 최적 값은 상기 언급한 한센 문헌에 기재되어 있다. 한센은 입력 신호의 특성에 의존하는

을 제안한다(여기서,

에 의해 설명됨). 식(27)에서, 입력 신호가 재생에 영향을 주지만, 신호 종속성은 디코더에서 제어될 수 없다는 것을 알 수 있다.

비-정규 직교 기준을 갖는 문제점

HOA 인코더와 HOA 디코더 사이에 전송된 상태 벡터

는 식들(25 및 26)에 따라 서로 다른 기준으로 각각의 시스템에 설명된다. 그러나, 상태는 정규 직교 기준이 사용되는 경우 변하지 않는다.

그 다음에, 모드 성분들은 하나에서 다른 기준으로 투영될 수 있다. 그래서, 원칙적으로, 각각의 스피커 셋업 또는 음원 디스크립션은 정규 직교 기준 시스템에 구축되어야 하는데, 그 이유는 그들 기준들 사이에서, 벡터의 표현들의 변화, 예를 들어 엠비소닉스에서, 3D 공간에서 2D 하위 공간으로의 변화가 투영될 수 있기 때문이다.

그러나, 기준 벡터들이 거의 선형 종속되는 불량 조건 행렬들을 갖는 셋업들이 종종 존재한다. 그래서, 원칙적으로, 비-정규 직교 기준이 처리되어야 한다. 이는 하나의 하위 공간에서 다른 하위 공간으로 변화를 복잡하게 만들고, 이는 HOA 음장 디스크립션이 서로 다른 스피커 셋업들에 채택되는 경우, 또는 인코더 또는 디코더 측에서 서로 다른 HOA 차수들 및 차원들을 처리하는 것이 바람직한 경우에 필요하다.

저밀도 스피커 세트로의 투영에 대한 전형적인 문제는, 음향 에너지가 스피커 근방에서 높다는 것과 이들 스피커들 사이의 거리가 큰 경우 낮다는 것이다. 그래서, 그에 따라 서로 다른 스피커들 사이의 위치는 에너지의 균형을 유지하는 패닝 함수를 필요로 한다.

상술한 문제들은 본 발명의 처리에 의해 회피될 수 있고, 청구항1에 개시된 발명에 의해 해결된다. 이 방법을 이용하는 장치는 청구항2에 개시되어 있다.

본 발명에 따라, 디코딩 처리에 대한 원래의 기준과 함께 조합된 인코딩 처리에 대한 상호간의 기준은 최저 모드 행렬 등급뿐만 아니라 절단된 특이 값 분해를 고려하여 사용된다. 이중-정규 직교 시스템이 표현되기 때문에, 인코더 및 디코더 행렬들의 곱은 적어도 최저 모드 행렬 등급에 대해 단위 행렬이 유지되는 것이 보장된다.

이는 케트 기반 디스크립션을 이중 공간에 기초한 표현으로 변경함으로써 성취되며, 브라 공간은 상호간의 기준 벡터들을 가지며, 여기서, 모든 벡터는 케트의 수반 행렬(adjoint)이다. 모드 행렬들의 의사 역 수반 행렬을 사용하여 실현된다. '수반 행렬'은 복소 공액 교환을 의미한다.

따라서, 의사 역 수반 행렬은 인코더 측에서 뿐만 아니라 디코더 수반 행렬에서 이미 사용된다. 처리에 있어서, 정규 직교 상호간 기준 벡터들은 기준 변화에 대해 불변이 되도록 하기 위해 사용된다. 또한, 처리의 종류는 입력 신호 의존 영향을 고려하는 것을 허용하여 정규화 과정에서

에 대해 노이즈 감소에 대한 최적의 임계값에 이른다.

원칙적으로, 본 발명의 방법은 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩에 적합하며, 상기 방법은,

- 오디오 입력 신호을 수신하는 단계,

- 음원들의 방향 값들과 상기 오디오 입력 신호의 앰비소닉스 차수에 기초하여, 구형 고조파의 대응하는 케트 벡터들 및 대응하는 인코더 모드 행렬을 형성하는 단계,

- 상기 인코더 모드 행렬에 대해서 특이 값 분해를 실행하는 단계로서, 두 개의 대응하는 인코더 단위 행렬들 및 특이 값들과 관련된 인코더 모드 행렬 등급을 포함하는 대응하는 인코더 대각 행렬이 출력되는, 특이 값 분해를 실행하는 단계,

- 상기 오디오 입력 신호, 상기 특이 값들 및 상기 인코더 모드 행렬 등급으로부터 임계값을 결정하는 단계,

- 상기 특이 값들 중 적어도 하나와 상기 임계값을 비교하여 대응하는 최종 인코더 모드 행렬 등급을 결정하는 단계,

- 스피커들의 방향 값들 및 디코더 앰비소닉스 차수에 기초하여, 상기 방향 값들 및 대응하는 디코더 모드 행렬에 대응하는 방향들에 위치한 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들을 형성하는 단계,

- 상기 디코더 모드 행렬에 대해서 특이 값 분해를 실행하는 단계로서, 두 개의 대응하는 디코더 단위 행렬들, 및 특이 값들을 포함하는 하나의 대응하는 디코더 대각 행렬이 출력되고, 상기 디코더 모드 행렬의 대응하는 최종 등급이 결정되는, 특이 값 분해를 실행하는 단계,

- 상기 최종 인코더 모드 행렬 등급 및 상기 최종 디코더 모드 행렬 등급으로부터 최종 모드 행렬 등급을 결정하는 단계,

- 상기 인코더 단위 행렬들, 상기 인코더 대각 행렬, 및 상기 최종 모드 행렬 등급으로부터, 앰비소닉스 케트 벡터를 결과로서 얻는, 상기 인코더 모드 행렬의 수반 의사 역행렬을 계산하고,

적응된 앰비소닉스 케트 벡터를 제공하기 위해, 상기 최종 모드 행렬 등급에 따라 상기 앰비소닉스 케트 벡터의 성분들의 개수를 감소시키는 단계,

- 상기 적응된 앰비소닉스 케트 벡터, 상기 디코더 단위 행렬들, 상기 디코더 대각 행렬 및 상기 최종 모드 행렬 등급으로부터, 모든 스피커들에 대한 출력 신호들의 케트 벡터를 결과로서 얻는 수반 디코더 모드 행렬을 계산하는 단계를 포함한다.

원칙적으로, 본 발명의 장치는 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩에 적합하며, 상기 장치는,

- 오디오 입력 신호를 수신하도록 적응된 수단,

- 음원들의 방향 값들과 상기 오디오 입력 신호의 앰비소닉스 차수에 기초하여, 구형 고조파의 대응하는 케트 벡터들 및 대응하는 인코더 모드 행렬을 형성하도록 적응된 수단,

- 상기 인코더 모드 행렬에 대해서 특이 값 분해를 실행하도록 구성된 수단으로서, 두 개의 대응하는 인코더 단위 행렬들 및 특이 값들을 포함하는 대응하는 인코더 대각 행렬과, 관련된 인코더 모드 행렬 등급이 출력되는, 특이 값 분해를 실행하도록 구성된 수단,

- 상기 오디오 입력 신호, 상기 특이 값들 및 상기 인코더 모드 행렬 등급으로부터 임계값을 결정하도록 적응된 수단,

- 상기 특이 값들 중 적어도 하나와 상기 임계값을 비교하여 대응하는 최종 인코더 모드 행렬 등급을 결정하도록 적응된 수단,

- 스피커들의 방향 값들 및 디코더 앰비소닉스 차수에 기초하여,상기 방향 값들 및 대응하는 디코더 모드 행렬에 대응하는 방향들에 위치한 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들을 형성하도록 적응된 수단,

- 상기 디코더 모드 행렬에 대해서 특이 값 분해를 실행하도록 적응된 수단으로서, 두 개의 대응하는 디코더 단위 행렬들, 및 특이 값들을 포함하는 하나의 대응하는 디코더 대각 행렬이 출력되고, 상기 디코더 모드 행렬의 대응하는 최종 등급이 결정되는, 특이 값 분해를 실행하도록 적응된 수단,

- 상기 최종 인코더 모드 행렬 등급 및 상기 최종 디코더 모드 행렬 등급으로부터 최종 모드 행렬 등급을 결정하도록 적응된 수단,

적응된 앰비소닉스 케트 벡터를 제공하기 위해, 상기 최종 모드 행렬 등급에 따라 상기 앰비소닉스 케트 벡터의 성분들의 개수를 감소시키도록 적응된 수단,

- 상기 적응된 앰비소닉스 케트 벡터, 상기 디코더 단위 행렬들, 상기 디코더 대각 행렬 및 상기 최종 모드 행렬 등급으로부터, 모든 스피커들에 대한 출력 신호들의 케트 벡터를 결과로서 얻는 수반 디코더 모드 행렬을 계산하도록 적응된 수단을 포함한다.

본 발명의 유리한 추가적인 실시예들은 각각의 종속 청구항들에 개시된다.

본 발명에 따라, 디코딩 처리에 대한 원래의 기준과 함께 인코딩 처리에 대한 상호간의 기준은 최저 모드 행렬 등급뿐만 아니라 절단된 특이 값 분해를 고려하여 사용된다. 이중-정규 직교 시스템이 표현되기 때문에, 인코더 및 디코더 행렬들의 곱은 최저 모드 행렬 등급에 대해 적어도 단위 행렬이 유지되는 것이 보장된다.

도 1은 SVD에 기초하여 HOA 인코더 및 디코더의 블록도.
도 2는 선형 함수의 패닝을 포함하는 HOA 인코더 및 디코더의 블록도,
도 3은 행렬 패닝을 포함하는 HOA 인코더 및 디코더의 블록도.
도 4는 임계값

을 결정하기 위한 흐름도.
도 5는 감소된 모드 행렬 등급

의 경우에 특이 값들의 재계산과

의 계산을 설명하는 도면.
도 6은 감소된 모드 행렬 등급들

및

의 경우에 특이 값들의 재계산과 패닝을 사용하거나 사용하지 않고 스피커 신호들

의 계산을 설명하는 도면.

본 발명의 예시적인 실시예들은 첨부한 도면들을 참조하여 설명한다.

도 1에는 인코더 파트와 디코더 파트 모두를 사용하여 SVD에 기초한 본 발명의 HOA 처리를 위한 블록도가 도시되어 있다. 두 파트 모두는 상호간의 기준 벡터들을 생성하기 위해 SVD를 사용한다. 여기서, 공지된 모드 매칭 해법들에 대한 변경, 즉 식(27)에 관련된 변경 사항이 있다.

HOA 인코더

상호간의 기준 벡터들과 작업하기 위하여, 케트 기반 디스크립션이 브라 공간에 대해 변경되는데, 여기서, 모든 벡터는 케트의 헬미틴 공액 또는 수반 행렬이다. 이는 모드 행렬들의 의사 반전을 사용하여 실현된다.

이때, 식(8)에 따라, (이중) 브라 기반 앰비소닉스 벡터는 (이중) 모드 행렬

로 재공식화될 수도 있다.

인코더 측에서 결과로서 얻어진 앰비소닉스 벡터

는 지금 브라 시멘틱 상태(bra semantic)이다. 그러나, 통합된 디스크립션(unified description)이 바람직한데, 예를 들어, 케트 시멘틱으로 복귀하는 것이 바람직하다.

의 의사 반전 대신에,

또는

의 헬미틴 공액(Hermitean conjugate)이 사용된다.

식(24)에 따라,

여기서, 모든 특이 값들은 실수이고,

의 복소 공액은 무시될 수 있다.

이는 앰비소닉스 성분들의 다음 디스크립션으로 이어진다.

음원측에 대한 벡터 기반 디스크립션은

가 역함수

에 의존한다는 것을 나타낸다. 이러한 것이 인코더 측에서 실행된다면, 디코더 측에서 대응하는 이중 기준 벡터들로 변경되어야 한다.

HOA 디코더

디코더가 원래 의사 역함수에 기초하는 경우, 스피커 신호들

을 유도하기 위해 다음 식을 취한다.:

예를 들어, 스피커 신호들은 다음과 같다.

식(22)를 고려하면, 디코더 식은 다음 결과를 얻는다.

따라서, 의사 역함수를 구축하는 대신에, 단지 수반 행렬 연산(adjoint operation)('†'로 표기)이 식(35)에 남게 된다. 이는 보다 적은 산술 연산들이 디코더에서 요구된다는 것을 의미하며, 그 이유는 허수 부분들의 부호를 단지 전환하고, 이러한 전환이 단지 변경된 메모리 액세스의 문제이기 때문이다.

인코더 및 디코더의 앰비소닉스 표현들이 거의 동일, 즉

라고 가정하면, 식(32)에 의해, 완전한 인코더 디코더 체인은 다음 종속성을 얻는다.

실제 시나리오에 있어서, 식(11)로부터의 패닝 행렬

과 유한 앰비소닉스 차수가 고려되어야 한다. 후자는 음장을 설명하기 위해 사용되는 기본 백터들의 선형 조합들의 개수를 제한한다. 또한, 기본 벡터들의 선형 독립성은 수치 라운딩 에러들 또는 측정 에러들과 같은 부가적인 에러 소스들에 의해 영향을 받는다. 실용적인 관점에서, 이는 수치 등급에 의해 무시될 수 있으며(상기 언급한 한센 문헌, 챕터 3.1 참조), 이에 따라, 모든 기본 벡터들은 특정 허용 오차 내에서 선형으로 독립적이 될 수 있다.

노이즈에 대해 보다 강하게 되도록, 입력의 계산된 앰비소닉스 표현과 인코더 케트에 영향을 주는 입력 신호들의 SNR이 고려된다. 그래서, 필요하다면, 즉, 반전되어야 하는 불량 조건 모드 행렬에 대해서,

값은 인코더에서 입력 신호의 SNR에 따라 정규화된다.

인코더의 정규화

정규화는 서로 다른 방식들, 예를 들어, 절단된 SVD를 통해 임계값을 사용하여 실행될 수있다. SVD는 내림 차수로

를 제공하는데, 여기서,

는 저레벨 또는 최고 인덱스(

로 표시)를 가지며, 매우 자주 전환하여 노이즈 효과 및 SNR을 초래하는 성분들을 포함한다{참조: 식(20) 및 식(21) 및 상기 언급한 한센 문헌}. 따라서, 절단 SVD(TSVD)는 모든

값들을 임계값과 비교하고, 임계값

을 초과하는 노이즈 성분들을 무시한다. 이러한 임계값

은 고정될 수 있거나 입력 신호들의 SNR에 따라 최적으로 수정될 수 있다.

하나의 행렬의 트레이스는 모든 대각 행렬 요소들의 합을 의미한다.

TSVD 블록(도 1 내지 도 3의 10, 20, 30)은 다음 과제를 수행한다.

● 모드 행렬 등급

을 계산한다,

● 임계값 이하의 노이즈 성분들을 제거하고 최종 모드 행렬 등급

을 설정한다.

이러한 처리는 복소 행렬들 Ξ 및 Ψ를 다룬다. 그러나, 실수 값

을 정규화하기 위해서는, 이들 행렬들을 직접 사용할 수 없다. 적당한 값은 Ξ와 자신의 수반 행렬

사이의 곱으로부터 얻는다. 그 결과의 행렬은 적절한 특이 값들의 이차 값들과 동일한 실제 대각 고유 값들을 갖는 이차형이다. 행렬

의 트레이스에 의해 설명될 수 있는 모든 고유 값들의 합이 고정된 상태로 유지되는 경우, 시스템의 물리적 성질들은 보존된다. 이는 또한 행렬 Ψ에 적용된다.

따라서, 인코더 측(도 1 내지 도 3의 15, 25, 35)에서 블록

또는 디코더 측(도 1 내지 도 3의 19, 29, 39)에서 블록

은 특이 값들을 변경하여, 정규화 이전 및 이후의

가 보존된다(도 5 및 도 6 참조).

●

(

에 대해서)의 나머지를 변경하여, 원래의 트레이스와 의도되어 절단된 행렬

을 고정 상태

로 유지한다 .

● 다음 식을 만족하는 상수 값 Δσ 을 계산한다.

정상적인 값과 특이 값들의 감소된 수의 차이를

라고 지칭하면, 그 결과의 값은 다음과 같다.

(41)

● 절단된 행렬

에 대해서 모든 새로운 특이 값들

을 다시 계산한다.

부가적으로, 적당한

{식 (30) 또는 식 (33) 참조}에 대한 기준이 대응하는 SVD-관련된

기준으로 변경되는 경우, 인코더 및 디코더에 대한 단순화가 성취될 수 있으며, 다음 식을 얻는다.

(비고:

및

가 추가적인 인코더 또는 디코더 인덱스없이 사용되는 경우, 인코더 측 또는/및 디코더 측을 참조한다). 이러한 기준은

의 표준을 유지하기 위해 직교 함수이다. 즉,

대신에 그러한 정규화는 행렬 ∑ 및 V를 필요로 하지만, 행렬 U를 더 이상 필요로 하지 않는

을 사용할 수 있다.

● 등급이 확실하게 감소되는 장점이 있는

기준에서 감소된 케트

를 사용한다.

따라서, 본 발명에 있어서, SVD는 정규 직교 기준과 개별 행렬

및

의 특이 값들을 수행할 뿐만 아니라, 그들 등급들

을 얻기 위하여 두 측에서 사용될 수 있다.

성분 적응

Ξ의 음원 등급을 고려하거나 임계값 또는 최종 음원 등급에 대하여 대응하는

의 일부를 무시함으로써, 성분들의 개수는 감소될 수 있고, 보다 강력한 인코딩 행렬이 제공될 수 있다. 따라서, 디코더 측에서 성분들의 대응하는 개수에 따라 전송된 앰비소닉스 성분들의 개수의 적응이 실행된다. 보통은 앰비소닉스 차수

에 의존한다. 여기서, 인코더 행렬 Ξ에 대한 SVD 블록으로부터 얻은 최종 모드 행렬 등급

과 디코더 행렬

에 대한 SVD 블록으로부터 얻은 최종 모드 행렬 등급

이 고려되어야 한다. 적응#비교 단계/단(16)에 있어서, 성분들의 개수는 다음과 같이 적응된다.

●

: 어떤 것도 변하지 않음- 압축 없음,

●

: 압축, 디코더 행렬

에서

열들을 무시 => 인코더 및 디코더 연산들 감소,

●

: 압축, 즉 전송 이전에 앰비소닉스 상태 벡터의

성분들 취소, 즉 압축. 인코더 행렬

에서

행들을 무시 => 인코더 및 디코더 연산들 감소.

그 결과는 인코더 측 및 디코더 측에서 사용되는 최종 모드 행렬 등급

이

및

중 더 작은 하나이다.

따라서, 인코더와 디코더 사이의 양방향 신호가 다른 측의 등급을 상호 교환하기 위해 존재한다면, 등급 차이들을 사용하여 가능한 압축을 개선하고 인코더 및 디코더에서 연산들의 개수를 감소시킬 수 있다.

패닝 함수들 고려

패닝 함수들

또는 패닝 행렬

의 사용은, 저밀도 및 불규칙한 스피커 셋업들에 대해 야기되는 에너지 분배에 관련된 문제들로 인하여, 식(11)을 참조하여, 이미 앞서 언급했다. 이러한 문제들은 앰비소닉스에서 정규적으로 사용될 수 있는 제한된 차수를 처리한다(앰비소닉스 행렬들에 대한 영향 내지 비-정규 직교 기준에 따른 문제들에 대해 참조).

패닝 행렬

에 대한 요구들과 후속되는 인코딩에 관하여, 일부 음원의 음장이 앰비소닉스 상태 벡터

에 의해 표현되는 양호한 상태에 있다고 가정한다. 그러나, 디코더 측에서, 상태가 어떻게 준비되었는지 정확히 알지 못한다. 즉, 시스템의 현재 상태에 대한 완전한 지식이 없다. 따라서, 상호간의 기준은 식(9) 및 식(8) 사이의 내적을 보존하기 위해 취해진다.

인코더 측에서 미리 의사 반전을 사용하는 것은 다음과 같은 장점을 제공한다.

● 상호간의 기준

의 사용은 인코더와 디코더 기준 사이 양방향 직교성을 만족한다.

● 인코딩/디코딩 체인에서 보다 작은 연산들의 개수,

● SNR 작용에 관한 수치적 관점 개선,

● 단지 선형으로만 독립된 행렬들 대신에 변경된 모드 행렬들에서 정규 직교 열들,

● 기준의 변경의 단순화,

● 등급-1 근사치 사용은, 특히 최종 등급이 낮은 경우, 메모리의 노력을 적게 할 수 있고 연산들의 개수를 감소시킬 수 있다. 일반적으로, M * N 대신에 M × N의 행렬에 대해서, 단지 M + N 연산들만이 요구된다.

● 디코더에서 의사 반전을 피할 수 있기 때문에, 디코더 측에서 적응을 단순화한다.

● 수치적으로 불안정한 σ에 의한 반전 문제들은 피할 수 있다.

도 1에 있어서, 인코더 또는 전송자 측에서, 음원들의 서로 다른 방향 값들

(s = l,...,S) 및 앰비소닉스 차수

(s = l,...,S)는 구형 고조파의 대응하는 케트 벡터들

및 차원

을 갖는 인코더 모드 행렬

을 형성하는 단계 또는 단(11)에 입력된다. 행렬

는 서로 다른 방향들

에 대한 S 음원 신호들을 포함하는 입력 신호 벡터

에 부합하여 생성된다. 따라서, 행렬

은 구면 고조파 케트 벡터들

의 모음이다. 신호

뿐만 아니라 위치가 시간에 따라 변하기 때문에, 연산 행렬

은 동적으로 실행될 수 있다. 이러한 행렬은 음원에 대해 비-정규 직교 기준

을 갖는다. 입력 신호

및 등급 값

으로부터 특정된 특이 임계값

은 단계 또는 단(12)에서 결정된다. 인코더 모드 행렬

및 임계값

은, 단계 또는 단(13)에서 자신의 특이 값들을 얻기 위하여 모드 행렬

에 대한 특이 값 분해를 실행하는 절단 특이 값 분해 TSVD 처리(10)(참조: 특이 값 분해에 관련된 단락)에 제공되고, 이에 의해, 한편으로는 단위 행렬들

및

과

특이 값들

을 포함하는 대각 행렬 ∑ 이 출력되고, 다른 한편으로는, 관련된 인코더 모드 행렬 등급

이 결정된다(비고:

는

의 행렬 ∑로부터 i-번째 특이 값이다).

단계/단(12)에 있어서, 임계값

은 인코더에서 정규화의 단락에 따라 결정된다. 임계값

은 사용된

값들의 개수를 절단된 또는 최종 인코더 모드 행렬 등급

으로 제한할 수 있다. 임계값

은 미리 결정된 값으로 설정될 수 있거나, 입력 신호:

의 신호-대-잡음 비율 SNR로 적응될 수 있으며, 이에 의해, 모든 S 음원 신호들

의 SNR은 샘플 값들의 미리 정해진 개수를 통해 측정된다.

비교 단계 또는 단(14)에 있어서, 행렬 ∑로부터의 특이 값

은 임계값

과 비교되고, 이 비교로부터 절단되거나 최종 인코더 모드 행렬 등급

이 계산되며, 이는 인코더에서 정규화의 단락에 따라

값들의 나머지를 변경한다. 최종 인코더 모드 행렬 등급

은 단계 또는 단(16)에 제공된다.

디코더 측에 대해서, 스피커들의 방향 값들

(l = 1,...,L)로부터, 그리고, 디코더 앰비소닉스 차수

(l = 1,...,L)로부터, 방향들

에서 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들

뿐만 아니라 차원

을 갖는 대응하는 디코더 모드 행렬

은, 블록(17)에서 관련된 신호들의 스피커 위치들에 부합하여, 단계 또는 단(18)에서 결정된다. 인코더 행렬

과 유사하게, 디코더 행렬

은 모든 방향들

에 대한 구면 고조파 케트 벡터

들의 모음이다.

의 연산은 동적으로 실행된다.

단계 또는 단(19)에 있어서, 특이 값 분해 처리는 디코더 모드 행렬

에 대해 실행되고, 그 결과의 단위 행렬들 U 및

뿐만 아니라 대각 행렬 ∑ 은 블록(17)에 제공된다. 또한, 최종 디코더 모드 행렬 등급

은 계산되어 단계/단(16)에 제공된다.

단계 또는 단(16)에 있어서, 최종 모드 행렬 등급

은, 상술한 것처럼, 최종 인코더 모드 행렬 등급

으로부터, 그리고 최종 디코더 모드 행렬 등급

으로부터 결정된다. 최종 모드 행렬 등급

은 단계/단(15) 및 단계/단(17)에 공급된다.

인코더-측 행렬들 Us,

, ∑s, 등급 값

, 최종 모드 행렬 등급 값

및 모든 음원 신호들의 시간 의존 입력 신호 케트 벡터

는, 식(32)을 사용하여,

관련된 입력 값들로부터 그들 인코더 모드 행렬의 수반 의사 역행렬

을 계산하는 단계 또는 단(15)에 제공된다. 이러한 행렬은 차원

과 음원

에 대한 정규 직교 기준을 갖는다. 복소 행렬들 및 그들의 수반 행렬들을 처리할 때, 다음의 식이 고려된다.

단계/단(15)은 대응하는 시간-의존 앰비소닉스 케트 또는 상태 벡터

를 출력하며, 상술한 HOA 인코더의 단락을 참조한다.

단계 또는 단(16)에 있어서,

의 성분들의 개수는, 성분 적응의 단락에서 설명한 것처럼, 전송된 정보의 양을 가능한 감소시키기 위하여, 최종 모드 행렬 등급

을 사용하여 감소되며, 그 결과로서 적응 이후에 시간-의존 앰비소닉스 케트 또는 상태 벡터

가 생성된다.

앰비소닉스 케트 또는 상태 벡터

로부터, 디코더 측의 행렬들

및 모드 행렬

로부터 유도된 등급 값

으로부터, 그리고, 단계/단(16)으로부터의 최종 모드 행렬 등급 값

으로부터, 차원

및 스피커들

에 대한 정규 직교 기준을 갖는 수반 디코더 모드 행렬

이 계산되어, 그 결과로서 모든 스피커들의 시간-의존 출력 신호들의 케트 벡터

가 생성된다(상술한 HOA 디코더의 단락 참조). 디코딩은 특정 스피커 위치들에 의존하는 정규 모드 행렬의 공액 교환에 의해 실행된다.

추가적인 렌더링에 대해서는 특정 패닝 행렬이 사용되어야 한다.

디코더는 단계/단(18, 19 및 17)에 의해 표현된다. 인코더는 다른 단계들/단들에 의해 표현된다.

도 1의 단계들/단들(11 내지 19)은 원칙적으로 도 2의 단계들/단들(21 내지 29)과 도 3의 단계들/단들(31 내지 39)에 각각 대응한다.

도 2에 있어서, 단계 또는 단(211)에서 계산된 인코더 측에 대한 패닝 함수

와, 단계 또는 단(281)에서 계산된 디코더 측에 대한 패닝 함수

(281)는 선형 함수의 패닝을 위해 또한 사용된다. 패닝 함수

는 단계/단(21)에 대한 추가적인 입력 신호이고, 패닝 함수

는 단계/단(28)에 대한 추가적인 입력 신호이다. 이러한 패닝 함수들을 사용하는 이유는 패닝 함수들을 고려하는 상기 단락에서 설명되었다.

도 1과 비교하여, 도 3에서, 패닝 행렬 G는 단계/단(37)의 출력에서 모든 스피커들 중 시간-의존 출력 신호들의 예비 케트 벡터에 대해 패닝 처리(371)를 제어한다. 이는 모든 스피커의 시간-의존 출력 신호의 적응된 케트 벡터

의 결과를 얻는다.

도 4는 인코더 모드 행렬

의 특이 값 분해 SVD 처리(40)에 기초하여 임계값

을 결정하기 위한 처리를 보다 상세히 도시한다. 상기 SVD 처리는 행렬 ∑{

에서

까지 수행하는 대각선의 모든 특이 값들을 내림 차순으로 포함, 식(20) 및 식(21) 참조} 및 행렬 ∑의 등급

을 전달한다.

고정된 임계값이 사용되는 경우{블록(41)}, i = 1에 의해 루프를 시작하여 i =

까지 수행할 수 있는 변수(i)에 의해 제어되는 루프 내에서{블록 (42 및 43)}, 이들

값들 사이의 수량 값 차이가 있는지를 검사한다{블록(45)}. 이러한 차이는 특이 값

의 수량 값이 그 이전 것의 특이 값

의 수량 값보다 상당히 작은 경우, 예를 들어, 1/10보다 작은 경우에 발생하는 것으로 가정한다. 그러한 차이가 검출될 때, 루프는 정지하고 임계값

은 현재 특이 값

으로 설정된다{블록(46)}.

{블록(44)}인 경우, 최저 특이 값

에 도달하고, 루프는 종료하고,

는

로 설정된다{블록(46)}.

고정된 임계값이 사용되지 않는 경우{블록(41)}, 모든 S 음원 신호들

(= 행렬

)에 대한 T 샘플의 블록은 조사된다{블록(47)}. X에 대한 신호-대- 노이즈 비율(SNR)이 계산되고{블록(48)}, 임계값

은

로 설정된다[{블록(49)}.

도 5는 단계/단(15, 25, 35) 내에서 감소된 모드 행렬 등급

의 경우에 특이 값들의 재계산과,

의 계산을 도시한다. 도 1 내지 도 3에서 블록(10, 20, 30)으로부터 인코더 대각 행렬

은, 값

을 사용하여 전체 에너지

를 계산하는 단계 또는 단(51)에, 값

을 사용하여 감소된 전체 에너지

를 계산하는 단계 또는 단(52)에, 그리고, 단계 또는 단(54)에 제공된다. 전체 에너지 값과 감소된 전체 에너지 값 사이의 차이 ΔΕ, 값

및 값

은 다음 식을 계산하는 단계 또는 단(53)에 제공된다.

값

은,

에 의해 설명되는 에너지가 유지되어 그 결과가 물리적으로 이해할 수 있도록 보장하기 위해 필요하다.

인코더 또는 디코더 측에서, 행렬 감소로 인하여 에너지가 감소되는 경우, 그러한 에너지의 손실은 모든 나머지 행렬 요소들에 동일한 방식으로 분배되는 값

에 의해 보상된다. 즉,

.

단계 또는 단(54)은

및

로부터

을 계산한다.

입력 신호 벡터

에 행렬

이 곱해진다. 이 결과에

을 곱한다. 후자의 곱셈 결과는 케트 벡터

이다.

도 6은 단계/단(17, 27, 37)에서 감소된 모드 행렬 등급

의 경우에 특이 값들의 재계산과, 패닝을 사용하거나 사용하지 않고, 스피커 신호들

의 계산을 도시한다. 도 1 내지 도 3에서 블록(19, 29, 39)으로부터 디코더 대각 행렬

은 값

을 사용하여 전체 에너지

를 계산하는 단계 또는 단(61)에, 값

을 사용하여 감소된 전체 에너지

를 계산하는 단계 또는 단(62)에, 그리고 단계 또는 단(64)에 제공된다. 전체 에너지 값과 감소된 전체 에너지 값 사이의 차이

, 값

및 값

은 다음을 계산하는 단계 또는 단(63)에 제공된다.

단계 또는 단(64)은

및

로부터

을 계산한다.

케트 벡터

에 행렬

이 곱해진다. 이 결과에 행렬

를 곱한다. 후자의 곱셈 결과는 모든 스피커들의 시간-의존 출력 신호들의 케트 벡터

이다.

본 발명의 처리는 하나의 프로세서 또는 전자 회로에 의해 수행될 수 있거나, 본 발명의 서로 다른 부분에 동작 및/또는 병렬로 동작하는 전자 회로들 또는 여러 프로세서들에 의해 수행될 수 있다.

12, 22, 32: 임계값 결정
16, 26, 36: 적응#비교
211, 281, 371: 패닝 함수

Claims

특이 값 분해(Singular Value Decomposition)를 이용하여 고차 앰비소닉스(Higher Order Ambisonics)(HOA) 인코딩 및 디코딩하기 위한 방법으로서, 상기 방법은,
- 오디오 입력 신호
을 수신하는 단계,
- 음원들의 방향 값들
과 상기 오디오 입력 신호
의 앰비소닉스 차수
에 기초하여, 구형 고조파의 대응하는 케트 벡터들
및 대응하는 인코더 모드 행렬
을 형성(11,31)하는 단계,
- 상기 인코더 모드 행렬
에 대해서 특이 값 분해를 실행(13, 23, 33)하는 단계로서, 두 개의 대응하는 인코더 단위 행렬들
및 특이 값들과 관련된 인코더 모드 행렬 등급
을 포함하는 대응하는 인코더 대각 행렬
이 출력되는, 특이 값 분해를 실행(13, 23, 33)하는 단계,
- 상기 오디오 입력 신호
, 상기 특이 값들
및 상기 인코더 모드 행렬 등급
으로부터 임계값
을 결정(12,22,32)하는 단계,
- 상기 특이 값들 중 적어도 하나
와 상기 임계값
을 비교(14,24,34)하여 대응하는 최종 인코더 모드 행렬 등급
을 결정하는 단계,
- 스피커들의 방향 값들
및 디코더 앰비소닉스 차수
에 기초하여, 상기 방향 값들
및 대응하는 디코더 모드 행렬
에 대응하는 방향들에 위치한 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들
을 형성(18, 38)하는 단계,
- 상기 디코더 모드 행렬
에 대해서 특이 값 분해를 실행(19, 29, 39)하는 단계로서, 두 개의 대응하는 디코더 단위 행렬들
및 특이 값들을 포함하는 대응하는 디코더 대각 행렬
이 출력되고, 상기 디코더 모드 행렬의 대응하는 최종 등급
이 결정되는, 특이 값 분해를 실행(19, 29, 39)하는 단계,
- 상기 최종 인코더 모드 행렬 등급
및 상기 최종 디코더 모드 행렬 등급
으로부터 최종 모드 행렬 등급
을 결정(16,26,36)하는 단계,
- 상기 인코더 단위 행렬들
, 상기 인코더 대각 행렬
, 및 상기 최종 모드 행렬 등급
으로부터, 앰비소닉스 케트 벡터
를 결과로서 얻는, 상기 인코더 모드 행렬
의 수반 의사 역행렬
을 계산(15,25,35)하고,
적응된 앰비소닉스 케트 벡터
를 제공하기 위해, 상기 최종 모드 행렬 등급
에 따라 상기 앰비소닉스 케트 벡터
의 성분들의 개수를 감소(16,26,36)시키는 단계,
- 상기 적응된 앰비소닉스 케트 벡터
, 상기 디코더 단위 행렬들
, 상기 디코더 대각 행렬
및 상기 최종 모드 행렬 등급으로부터, 모든 스피커들에 대한 출력 신호들의 케트 벡터
를 결과로서 얻는 수반 디코더 모드 행렬
을 계산(17,27, 37)하는 단계를 포함하는, 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 방법.
특이 값 분해를 사용하여 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 장치로서, 상기 장치는,
- 오디오 입력 신호
를 수신하도록 적응된 수단,
- 음원들의 방향 값들
과 상기 오디오 입력 신호
의 앰비소닉스 차수
에 기초하여, 구형 고조파의 대응하는 케트 벡터들
및 대응하는 인코더 모드 행렬
을 형성(11, 31)하도록 적응된 수단,
- 상기 인코더 모드 행렬
에 대해서 특이 값 분해를 실행(13, 23, 33)하도록 구성된 수단으로서, 두 개의 대응하는 인코더 단위 행렬들
및 특이 값들과 관련된 인코더 모드 행렬 등급
을 포함하는 대응하는 인코더 대각 행렬
이 출력되는, 특이 값 분해를 실행(13, 23, 33)하도록 구성된 수단,
- 상기 오디오 입력 신호
, 상기 특이 값들
및 상기 인코더 모드 행렬 등급
으로부터 임계값
을 결정(12,22,32)하도록 적응된 수단,
- 상기 특이 값들 중 적어도 하나
와 상기 임계값
을 비교(14,24,34)하여 대응하는 최종 인코더 모드 행렬 등급
을 결정하도록 적응된 수단,
- 스피커들의 방향 값들
및 디코더 앰비소닉스 차수
에 기초하여, 상기 방향 값들
및 대응하는 디코더 모드 행렬
과에 대응하는 방향들에 위치한 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들
을 형성(18, 38)하도록 적응된 수단,
- 상기 디코더 모드 행렬
에 대해서 특이 값 분해를 실행(19, 29, 39)하도록 적응된 수단으로서, 두 개의 대응하는 디코더 단위 행렬들
과 특이 값들을 포함하는 대응하는 디코더 대각 행렬
이 출력되고, 상기 디코더 모드 행렬의 대응하는 최종 등급
이 결정되는, 특이 값 분해를 실행(19, 29, 39)하도록 적응된 수단,
- 상기 최종 인코더 모드 행렬 등급
및 상기 최종 디코더 모드 행렬 등급
으로부터 최종 모드 행렬 등급
을 결정(16,26,36)하도록 적응된 수단,
- 상기 인코더 단위 행렬들(
, 상기 인코더 대각 행렬
, 및 상기 최종 모드 행렬 등급
으로부터, 앰비소닉스 케트 벡터
를 결과로서 얻는, 상기 인코더 모드 행렬
의 수반 의사 역행렬
을 계산(15, 25, 35)하고,
적응된 앰비소닉스 케트 벡터
를 제공하기 위해, 상기 최종 모드 행렬 등급
에 따라 상기 앰비소닉스 케트 벡터
의 성분들의 개수를 감소(16, 26, 36)시키도록 적응된 수단,
- 상기 적응된 앰비소닉스 케트 벡터
, 상기 디코더 단위 행렬들
, 상기 디코더 대각 행렬
및 상기 최종 모드 행렬 등급으로부터, 모든 스피커들에 대한 출력 신호들의 케트 벡터
를 결과로서 얻는 수반 디코더 모드 행렬
을 계산(17,27, 37)하도록 적응된 수단을 포함하는, 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 장치.
제 1 항에 따른 방법 또는 제 2 항에 따른 장치에 있어서,
구형 고조파의 상기 케트 벡터들
및 상기 인코더 모드 행렬
을 형성(21)할 때, 선형 연산을 수행하고 상기 오디오 입력 신호
의 음원 위치들을 스피커 출력 신호들의 상기 케트 벡터
에서의 상기 스피커들의 위치들로 맵핑하는 패닝 함수(211,
)가 사용되고,
특정 스피커들에 대한 구형 고조파의 상기 케트 벡터들
및 상기 디코더 모드 행렬
을 형성(28)할 때, 선형 연산을 수행하고 상기 오디오 입력 신호
의 음원 위치들을 스피커 출력 신호들의 상기 케트 벡터
에서의 상기 스피커들의 위치들로 맵핑하는 대응하는 패닝 함수(281,
)가 사용되는, 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 방법 또는 장치.
제 1 항에 따른 방법 또는 제 2 항에 따른 장치에 있어서,
상기 수반 디코더 모드 행렬
과 모든 스피커들의 시간-의존 출력 신호들의 예비 적응된 케트 벡터를 계산(17,27, 37)한 이후에, 모든 스피커들의 시간-의존 출력 신호들의 예비 적응된 케트 벡터의 패닝(371)이 패닝 행렬(
)을 사용하여 실행되어, 결과로서 모든 스피커들에 대한 출력 신호들의 상기 케트 벡터
를 얻는, 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 방법 또는 장치.
제 1 항 내지 제 4 항 중 어느 한 항의 방법에 따른 방법 또는 제 1 항 내지 제 4 항 중 어느 한 항의 장치에 따른 장치에 있어서,
상기 임계값
을 결정(12,22,32)하기 위해, 상기 특이 값들
의 세트 내에서, 수량 값 차이가 제 1 특이 값
으로부터 시작하여 검출되고, 다음의 특이 값
의 수량 값이 미리 결정된 요인에 의해 현재 특이 값
의 수량 값보다 작은 경우, 현재 특이 값의 수량 값은 상기 임계값
으로서 취해지는, 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 방법 또는 장치.
제 1 항 내지 제 4 항 중 어느 한 항의 방법에 따른 방법 또는 제 1 항 내지 제 4 항 중 어느 한 항의 장치에 따른 장치에 있어서,
상기 임계값
을 결정(12,22,32)하기 위하여, 모든 음원 신호들에 대한 샘플들의 블록에 대해서 신호-대-잡음 비율(SNR)이 계산되고, 상기 임계값
은
로 설정되는, 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 방법 또는 장치.
명령어들을 포함하는 컴퓨터 프로그램 제품으로서, 컴퓨터 상에서 실행될 때, 제 1 항에 따른 방법을 수행하는 컴퓨터 프로그램 제품.