KR20160090824A - 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치 - Google Patents

특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20160090824A
KR20160090824A KR1020167014251A KR20167014251A KR20160090824A KR 20160090824 A KR20160090824 A KR 20160090824A KR 1020167014251 A KR1020167014251 A KR 1020167014251A KR 20167014251 A KR20167014251 A KR 20167014251A KR 20160090824 A KR20160090824 A KR 20160090824A
Authority
KR
South Korea
Prior art keywords
rti
mode matrix
decoder
encoder
matrix
Prior art date
Application number
KR1020167014251A
Other languages
English (en)
Other versions
KR102319904B1 (ko
Inventor
홀거 크롭
스테판 아벨링
Original Assignee
톰슨 라이센싱
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 톰슨 라이센싱 filed Critical 톰슨 라이센싱
Priority to KR1020217034751A priority Critical patent/KR102460817B1/ko
Publication of KR20160090824A publication Critical patent/KR20160090824A/ko
Application granted granted Critical
Publication of KR102319904B1 publication Critical patent/KR102319904B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

특이 값 분해를 이용한 HOA 신호들의 인코딩 및 디코딩은, 음원 방향 값들 및 앰비소닉스 차수에 기초하여 구형 고조파의 대응하는 케트 벡터들
Figure pct00475
및 인코더 모드 행렬
Figure pct00476
을 형성(11)하는 것을 포함한다. 오디오 입력 신호
Figure pct00477
로부터 특이 임계치
Figure pct00478
가 결정된다. 인코더 모드 행렬에 대해서 특이 값 분해(13)는 임계값과 비교되어, 최종 인코더 모드 행렬 등급
Figure pct00479
으로 이어지는 관련된 특이 값들을 얻기 위하여 실행된다. 스피커들의 방향 값들
Figure pct00480
및 디코더 앰비소닉스 차수
Figure pct00481
에 기초하여, 대응하는 케트 벡터들
Figure pct00482
및 디코더 모드 행렬
Figure pct00483
이 형성된다(18). 디코더 모드 행렬에 대해서 특이 값 분해(19)가 실행되어, 최종 디코더 모드 행렬 등급
Figure pct00484
을 제공한다. 최종 인코더 및 디코더 모드 행렬 등급들로부터, 최종 모드 행렬 등급이 결정되고, 이 최종 모드 행렬 등급과 인코더 측의 특이 값 분해로부터, 인코더 모드 행렬
Figure pct00485
의 수반 의사 역행렬
Figure pct00486
및 앰비소닉스 케트 벡터
Figure pct00487
가 계산된다. 앰비소닉스 케트 벡터의 성분들의 개수는 적응된 앰비소닉스 케트 벡터
Figure pct00488
를 제공하기 위해 최종 모드 행렬 등급에 따라 감소(16)된다. 적응된 앰비소닉스 케트 벡터, 디코더 측면 특이 값 분해의 출력값들 및 최종 모드 행렬 등급으로부터, 수반 디코더 모드 행렬
Figure pct00489
이 계산되고, 결과적으로 모든 스피커들에 대한 출력 신호들의 케트 벡터
Figure pct00490
를 얻는다.

Description

특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치{METHOD AND APPARATUS FOR HIGHER ORDER AMBISONICS ENCODING AND DECODING USING SINGULAR VALUE DECOMPOSITION}
본 발명은 특이 값 분해(Singular Value Decomposition)를 사용하여 고차 앰비소닉스(Higher Order Ambisonics) 인코딩 및 디코딩하기 위한 방법 및 장치에 관한 것이다.
고차 앰비소닉스(HOA)는 3차원 사운드를 나타낸다. 다른 기술은 파면 합성(wave field synthesis)(WFS) 또는 22.2와 같은 채널 기반 접근 방식이다. 채널 기반 방법과는 달리, HOA 표현은 특정 스피커 셋업과는 독립적인 장점을 제공한다. 그러나, 이러한 유연성은 특정한 스피커 셋업에서 HOA 표현의 재생을 위해 요구되는 디코딩 처리가 따른다. 요구되는 스피커들의 개수가 일반적으로 매우 큰 WFS 방식에 비해, HOA는 단지 몇 개의 스피커로 구성된 셋업을 위하여 렌더링될 수도 있다. HOA의 또 다른 장점은, 동일한 표현이 헤드폰에 대해 입체 렌더링 하기 위해 어떠한 변경 없이 사용될 수도 있다는 것이다.
HOA는 절단된 구면 고조파(SH) 팽창에 의해 복합 고조파 평면파 진폭의 공간 밀도의 표현에 기초한다. 각각의 팽창 계수는 시간 도메인 함수로 동일하게 표현될 수 있는 각주파수(angular frequency)의 함수이다. 따라서, 일반성의 손실 없이, 완전한 HOA 음장 표현은 실제로
Figure pct00001
시간 도메인 함수를 구성하는 것으로 가정할 수 있으며, 여기서,
Figure pct00002
은 팽창 계수들의 개수를 나타낸다.
이러한 시간 도메인 함수들은 HOA 계수 시퀀스들 또는 다음의 HOA 채널들로서 동일하게 지칭될 것이다. HOA 표현은 HOA 계수를 포함하는 HOA 데이터 프레임들의 시간적 시퀀스로서 표현될 수 있다. HOA 표현의 공간 해상도는 확장의 증가하는 최대 차수
Figure pct00003
으로 향상된다. 3D의 경우에는 팽창 계수들의 개수
Figure pct00004
는 차수
Figure pct00005
으로 2차식으로 증가하는데, 특히,
Figure pct00006
이다.
복소 벡터 공간
앰비소닉스는 복소 함수들을 처리해야 한다. 따라서, 복소 벡터 공간들에 기초한 표기법이 도입된다. 이는 3차원 'xyz' 좌표계로부터 공지된 진정한 기하학적벡터들을 표현하지 않는 추상적인 복소 벡터들을 연산한다. 대신에, 각각의 복소 벡터는 물리계에서 있을 수 있는 상태를 설명하고, d 성분들
Figure pct00007
을 갖는 d-차원 공간에서 열 벡터들에 의해 형성되며, 디랙(Dirac)에 따라 이들 열-지향적인 벡터들은
Figure pct00008
로서 표시되는 케트 벡터들이라 불리운다. d-차원 공간에 있어서, 임의의
Figure pct00009
는 성분들
Figure pct00010
및 d 정규 직교 기준 벡터들
Figure pct00011
에 의해 형성된다.
Figure pct00012
여기서, d-차원 공간은 정규 'xyz' 3D 공간이 아니다 .
케트 벡터의 공액 복소는 브라 벡터
Figure pct00013
라 불리운다. 브라 벡터들는 행-기반 디스크립션(row-based description)을 나타내고, 원래의 케트 공간, 브라 공간의 이중 공간을 형성한다.
이러한 디랙 표기법(Dirac notation)은 앰비소닉스 관련된 오디오 시스템을 위한 다음 설명들에 사용될 것이다.
내적(inner product)은 복소 스칼라 값을 초래하는 동일한 차원의 브라 및 케트 벡터에서 구축될 수 있다. 랜덤 벡터
Figure pct00014
가 정규 직교 벡터 기준에서 자신의 성분들에 의해 설명되는 경우, 특정 베이스, 예를 들어,
Figure pct00015
로의
Figure pct00016
의 음향 방사에 대한 특정 성분는 내적으로 주어진다.
Figure pct00017
두 개의 바 대신에 오직 하나의 바가 브라와 케트 벡터 사이에서 고려된다.
동일한 기준에서 서로 다른 벡터들
Figure pct00018
Figure pct00019
에 있어서, 내적은 브라
Figure pct00020
Figure pct00021
의 케트로 곱하여 얻어진다,
Figure pct00022
차원 mxl의 케트와 차원 lxn의 브라 벡터가 외적에 의해 곱해진 경우, m 행들 및 n 열들을 갖는 행렬 A이 얻어진다.
Figure pct00023
앰비소닉스 행렬들
앰비소닉스-기반 디스크립션은 시변 행렬들로 완벽한 음장을 매핑하는 데 필요한 종속성을 고려한다. 고차 앰비소닉스(HOA) 인코딩 또는 디코딩 행렬들에 있어서, 행들(열들)의 개수는 음원 또는 사운드 싱크로부터 특정 방향들에 관련된다. 인코더측에서, S 음원들의 변형 개수가 고려되며, 여기서, s = l,...,S 이다. 각각의 음원들(s)은 원점으로부터의 개별 거리
Figure pct00024
, 개별 방향
Figure pct00025
을 가질 수 있으며, 여기서,
Figure pct00026
는 z-축으로부터 시작하는 경사 각도를 설명하고,
Figure pct00027
는 x-축으로부터 시작하는 방위 각도를 설명한다. 대응하는 시간 의존 신호
Figure pct00028
는 개별 시간 동작(behaviour)을 갖는다.
단순화를 위해서, 방향성의 부분만이 고려된다(반경 의존성은 베셀 함수들에 의해 설명될 것이다). 이후에, 특정 방향
Figure pct00029
가 열 벡터
Figure pct00030
에 의해 설명되고, 여기서, n은 앰비소닉스 정도를 나타내고, m은 엠비소닉스 차수 N의 인덱스이다. 대응하는 값은 m = l,...,N 및 n = -m, ...,0, ... , m에서 각각 실행된다,
일반적으로, 특정 HOA 디스크립션은 N에 의존하는 2D 또는 3D 경우에 각각의 케트 벡터
Figure pct00031
에 대한 성분들
Figure pct00032
의 개수를 제한한다.
Figure pct00033
하나 이상의 음원에 있어서, 차수 n의 s 개별 벡터들
Figure pct00034
이 조합되는 경우 모든 방향들이 포함된다. 이는,
Figure pct00035
모드 성분들을 포함하는 모드 행렬
Figure pct00036
로 이어지며, 예를 들어,
Figure pct00037
의 각각의 열은 특정 방향을 나타낸다.
Figure pct00038
모든 신호 값들은 각각의 개별 음원 신호
Figure pct00039
의 시간 의존성을 고려하는 신호 벡터
Figure pct00040
에서 조합되지만,
Figure pct00041
공통 샘플율로 샘플링된다.
Figure pct00042
다음에서, 단순화를 위해,
Figure pct00043
와 같은 시변 신호들에서, 샘플 번호 k는 더 이상 설명되지 않으며, 즉 무시될 것이다. 이어서,
Figure pct00044
는 식(8)에 도시된 것처럼 모드 행렬
Figure pct00045
과 곱해진다. 이는 모든 신호 성분들이 동일한 방향
Figure pct00046
의 대응하는 열과 선형으로 조합되고, 식(5)에 따라
Figure pct00047
앰비소닉스 모드 성분들 또는 계수들에 의해 케트 벡터
Figure pct00048
로 이어진다.
Figure pct00049
디코더는
Figure pct00050
스피커 신호들
Figure pct00051
의 전용 번호에 의해 표시되는 음장
Figure pct00052
을 재생하는 작업을 한다. 이에 따라, 스피커 모드 행렬
Figure pct00053
은 구형 고조파 기반 단위 벡터들
Figure pct00054
{식 (6)과 유사}의 L 분리된 열들, 예를 들어, 각각의 스피커 방향에 대해 하나의 케트로 구성된다.
Figure pct00055
모드의 개수가 스피커들의 개수와 동일한 이차 행렬들에 있어서,
Figure pct00056
는 반전된 모드 행렬
Figure pct00057
에 의해 결정될 수 있다. 행들 및 열들의 개수가 서로 다른 임의의 행렬인 일반적인 경우에, 스피커 신호들
Figure pct00058
은 의사 역행렬(pseudo inverse)에 의해 결정될 수 있다. 참조: 엠. 에이. 폴레티(M.A. Poletti), "3D 서라운드 사운드 시스템에 대한 구면 고조파 접근 방법", 포럼 어쿠스틱(Forum Acusticum), 부다페스트, 2005. 이때,
Figure pct00059
의 의사 역행렬
Figure pct00060
을 사용한다:
Figure pct00061
인코더 및 디코더측에서 설명되는 음장들은 거의 동일, 즉
Figure pct00062
것으로 가정한다. 그러나, 스피커 위치들은 음원 위치들과 서로 다를 수 있는데, 예를 들어, 유한 앰비소닉스 차수에 대해서,
Figure pct00063
에 의해 설명되는 실수값의 음원 신호들과
Figure pct00064
에 의해 설명되는 스피커 신호들은 서로 다르다. 따라서,
Figure pct00065
에 대해서
Figure pct00066
을 맵핑하는 패닝 행렬
Figure pct00067
가 사용될 수 있다. 이때, 식 (8) 및 (10)으로부터, 인코더 및 디코더의 체인 연산은 다음과 같다.
Figure pct00068
선형 함수
다음의 방정식을 간단하게 유지하기 위해, 패닝 행렬은 단락 “발명의 내용”까지 무시될 것이다. 요구된 기준 벡터들의 개수가 무한한 경우, 별개의 기준에서 연속된 기준으로 변경할 수 있다. 따라서, 함수
Figure pct00069
는 모드 성분들 무한한 개수를 갖는 벡터로서 해석될 수 있다. 이는 케트 벡터들로부터 특정 출력 케트 벡터에 결정적 방식으로 매핑을 수행하기 때문에, 수학적 의미에서 '함수'라고 지칭한다. 이는 함수
Figure pct00070
와 케트
Figure pct00071
사이의 내적에 의해 설명될 수 있으며, 일반적으로 복소수 c의 결과를 얻는다.
Figure pct00072
함수가 케트 벡터들의 선형 조합을 보존한다면,
Figure pct00073
는 '선형 함수'로 지칭한다.
헬미틴(Hermitean) 연산자들에 대한 제한이 존재하는 한, 다음과 같은 특성들이 고려되어야 한다. 헬미틴 연산자들은 항상 다음을 갖는다.
● 실제 고유값들.
● 서로 다른 고유값들에 대한 직교 고유 함수들의 완전 세트.
따라서 모든 함수는 이들 고유 함수들로부터 구축될 수 있다. 참조: 에이취. 보겔(H. Vogel), 씨. 게르슨(C. Gerthsen), 에이취. 오. 크네세르(H.O. Kneser), "물리학(Physik)", 스프링거 출판사(Springer Verlag), 1982. 임의의 함수는 복소 상수
Figure pct00074
를 갖는 구형 고조파
Figure pct00075
의 선형 조합으로서 표현될 수 있다.
Figure pct00076
Figure pct00077
인덱스들
Figure pct00078
은 결정론적 방식으로 사용된다. 이것들은 1차원 인덱스
Figure pct00079
로 대체되고, 인덱스들
Figure pct00080
은 동일한 크기의 인덱스
Figure pct00081
로 대체된다. 각각의 하위 공간이 서로 다른
Figure pct00082
를 갖는 하위 공간에 직교한다는 사실로 인하여, 무한 차원의 공간에서 선형으로 독립적인 정규 직교 단위 벡터들로서 설명될 수 있다.
Figure pct00083
Figure pct00084
의 상수 값들은 적분 앞에 설정될 수 있다.
Figure pct00085
하나의 하위 공간(인덱스
Figure pct00086
)으로부터 다른 하위 공간(인덱스
Figure pct00087
)으로의 맵핑은, 고유함수들
Figure pct00088
Figure pct00089
이 상호 직교하는 한, 단지 동일한 인덱스들
Figure pct00090
에 대한 고조파의 적분이 필요하다.
Figure pct00091
필수적인 관점은, 계속되는 디스크립션으로부터 브라/케트 표기법으로의 변경이 존재하는 경우, 적분 해법은 구형 고조파의 브라 및 케트 디스크립션들 사이에서 내적의 합으로 대체될 수 있다.
일반적으로, 계속되는 기준에 의한 내적은 케트 기반 웨이브 디스크립션
Figure pct00092
의 이산 표현을 연속되는 표현으로 맵핑하기 위해 사용될 수 있다. 예를 들어,
Figure pct00093
는 위치 기준(예를 들어, 반경)에서 케트 표현이다
Figure pct00094
모드 행렬들
Figure pct00095
Figure pct00096
의 서로 다른 종류를 보면, 특이 값 분해(SVD)는 행렬들 중 임의의 종류를 처리하는 데 사용된다.
특이 값 분해
특이 값 분해{SVD, 참조: G.H. 골롭, Ch.F. 반 론(Golub, Ch.F. van Loan), "행렬 계산", 존스 홉킨스 대학 출판, 제 3 판, 11. 1996년 10월}는 m 행들 및 n 열들에 의한 임의의 행렬 A를 3개의 행렬들 U, ∑, 및
Figure pct00097
로 분해할 수 있으며 , 식 (19)을 참조한다. 원래의 형태에 있어서, 행렬들 U 및
Figure pct00098
은 차원 mxmnxn의 단위 행렬들이다. 이러한 행렬들은 직교되고, 복소 단위 벡터들
Figure pct00099
Figure pct00100
을 각각 나타내는 직교 열로부터 구축된다.
복소 공간에서 단위 행렬들은 실제 공간에서 직교 행렬들과 동일하며, 즉 열들은 정규 직교 벡터 기준을 제공한다.
Figure pct00101
행렬들 U 및 V는 모든 4개의 하위 공간들에 대한 직교 기준을 포함한다.
● U의 제 1의 r 열들 : A의 열 공간
● U의 최종 m - r 열들:
Figure pct00102
의 널 공간(null space)
● V의 제 1의 r 열들: A의 행 공간
● V의 최종 n - r 열들: A의 널 공간
행렬 Σ은 A의 동작을 특성화하기 위해 사용될 수 있는 모든 특이 값들을 포함한다. 일반적으로, Σ는 r 대각 요소들
Figure pct00103
까지 갖는 m x n 사각형 대각 행렬이며, 여기서, 등급 r은
Figure pct00104
의 선형 독립된 열들 및 행들의 개수를 제공한다. 이는 내림 차수로 특이 값들을 포함하며, 예를 들어, 식(20) 및 식(21)에 있어서,
Figure pct00105
은 최대값을 갖고,
Figure pct00106
은 최소값을 갖는다.
콤팩트 형태에 있어서, 단지 r 특이 값들, 즉 U의 r 열들 및
Figure pct00107
의 r 행들은 행렬 A를 재구성하기 위해 요구된다. 행렬들 U, ∑ 및
Figure pct00108
의 차원들은 원래의 형태와는 다르다. 그러나, ∑ 행렬들은 항상 이차 형태를 갖는다. 이 때, m > n = r에 대해서는,
Figure pct00109
그리고, n > m = r에 대해서는,
Figure pct00110
따라서, SVD는 낮은 등급 근사치에 의해 매우 효율적으로 구현될 수 있으며, 위에서 언급한 골롭/반 론 텍스트북을 참조한다. 이러한 근사치는 원래의 행렬을 정확하게 설명하지만, r 등급-1 행렬들까지 포함한다. 디랙(Dirac) 표기법에 의해, 행렬 A는 r 등급-1 외적에 의해 표현될 수 있다.
Figure pct00111
식(11)에서 인코더 디코더 체인을 볼 때, 행렬
Figure pct00112
과 같은 인코더에 대한 모드 행렬들뿐만 아니라 행렬 Ψ과 같은 모드 행렬들의 역행렬이 존재하거나, 다른 정교한 디코더 행렬이 고려되어야 한다. 일반적인 행렬 A에 대해서, A의 의사 역행렬
Figure pct00113
은 정방 행렬 ∑의 반전과 U 및
Figure pct00114
의 공액 복소 교환을 수행함으로써 SVD로부터 직접 검사될 수 있으며, 그 결과는 다음과 같이 얻어진다.
Figure pct00115
식(22)의 벡터 기반 디스크립션에 대해서, 의사 역행렬
Figure pct00116
Figure pct00117
Figure pct00118
의 공액 교환을 수행함으로써 얻어지는 반면에, 특이 값들
Figure pct00119
은 반전되어야 한다. 결과로서 얻어진 의사 역행렬은 다음과 같다.
Figure pct00120
서로 다른 행렬들의 SVD 기반 분해가 벡터 기반 디스크립션과 조합된다면{참조: 식(8) 및 식(10)}, 인코딩 처리에 대해 얻는다.
Figure pct00121
그리고, 디코더에 대해서, 의사 역행렬
Figure pct00122
를 고려할 때{식 (24)},
Figure pct00123
인코더로부터의 앰비소닉스 음장 디스크립션
Figure pct00124
이 디코더에 대해
Figure pct00125
와 거의 동일하고, 차원들
Figure pct00126
인 것을 가정하면, 입력 신호
Figure pct00127
및 출력 신호
Figure pct00128
에 대해서 조합된 식은 다음과 같다.
Figure pct00129
그러나, 인코더 디코더 체인의 이러한 조합된 디스크립션은 이하에 설명되는 몇 가지의 문제점을 갖는다.
앰비소닉스 행렬들에 미치는 영향
고차 앰비소닉스(HOA) 모드 행렬들 Ξ 및 Ψ 은 음원들의 위치, 또는 스피커들{식(6) 참조} 및 앰비소닉스 순서에 의해 직접 영향을 받는다. 형상이 규칙적인 경우, 즉, 음원 또는 스피커 위치들 사이의 상호 각도 거리들이 거의 동일한 경우, 식(27)이 해결될 수 있다.
그러나, 실제 응용에 있어서, 이는 종종 사실이 아니다. Ξ 및 Ψ의 SVD를 수행하고, 대응하는 행렬 ∑에서 특이 값들을 조사하는 것은 의미가 있는데, 그 이유는 Ξ 및 Ψ의 수치상 연산을 반영하기 때문이다. ∑는 실제 특이 값들을 갖는 양의 값의 행렬이다. 그러나 그럼에도 불구하고, r 특이 값들까지 존재한다 할지라도, 이 값들 사이의 수치상 관계는 음장들의 재생을 위해 매우 중요하며, 그 이유는 디코더 측에서 행렬들의 반전 또는 의사 역행렬을 구축하기 때문이다. 이 연산을 측정하기 위한 적절한 양은 A의 조건 번호이다. 조건 번호 κ(Α)는 가장 작은 특이 값과 가장 큰 특이 값의 비율로서 정의된다.
Figure pct00130
반전 문제점
불량 조건 행렬들은 큰
Figure pct00131
를 갖기 때문에 문제가 많다. 반전 또는 의사 역행렬의 경우에, 불량 조건 행렬은 작은 특이 값들
Figure pct00132
이 매우 지배적이 되는 문제로 이어진다. P.Ch. 한센에 있어서, "등급- 부족 및 개별 불량-제기된 문제: 선형 반전의 수치상 관점들", 산업 및 응용 수학에 대한 협회(SIAM), 1998, 두 가지 기본적인 형태의 문제들은 특이 값들을 감소시키는 방법을 설명함으로써 구별된다(챕터 1.1. 페이지 2~3).
● 등급-부족 문제들, 여기서, 행렬들은 크고 작은 특이 값들의 클러스터 사이의 차이(비-점진적 감소),
● 별개의 불량-제기된 문제들, 여기서, 행렬들의 모든 특이 값들은 평균적으로 제로로 점진적으로 감소, 즉 특이 값들 스펙트럼에서 차이가 없이 감소한다.
인코더 측에서 마이크로폰의 형상뿐만 아니라 디코더 측에서 스피커 형상에 관해서는, 주로 첫 번째로 등급 부족 문제가 발생될 것이다. 그러나, 고객 측에서 모든 가능한 스피커 위치들을 제어하기보다는 기록하는 동안 일부 마이크의 위치들을 변경하기가 쉽다. 특히 디코더 측에서 모드 행렬의 반전 또는 의사 역행렬이 수행되어야 하고, 이는 높은 모드 성분들에 대해 수치상 문제들 및 너무 과중된 값들로 이어진다(상기 언급된 한센 문헌 참조).
신호 관련된 종속성
반전 문제를 감소시키는 것은 예를 들어, 모드 행렬의 등급을 감소시킴으로써, 즉 최소 특이 값들을 회피함으로써, 달성될 수 있다. 그런데, 임계값은 최소 가능한 값
Figure pct00133
을 위해 사용되어야 한다{참조: 식(20) 및 식(21)}. 이러한 최저 특이 값에 대한 최적 값은 상기 언급한 한센 문헌에 기재되어 있다. 한센은 입력 신호의 특성에 의존하는
Figure pct00134
을 제안한다(여기서,
Figure pct00135
에 의해 설명됨). 식(27)에서, 입력 신호가 재생에 영향을 주지만, 신호 종속성은 디코더에서 제어될 수 없다는 것을 알 수 있다.
비-정규 직교 기준을 갖는 문제점
HOA 인코더와 HOA 디코더 사이에 전송된 상태 벡터
Figure pct00136
는 식들(25 및 26)에 따라 서로 다른 기준으로 각각의 시스템에 설명된다. 그러나, 상태는 정규 직교 기준이 사용되는 경우 변하지 않는다.
그 다음에, 모드 성분들은 하나에서 다른 기준으로 투영될 수 있다. 그래서, 원칙적으로, 각각의 스피커 셋업 또는 음원 디스크립션은 정규 직교 기준 시스템에 구축되어야 하는데, 그 이유는 그들 기준들 사이에서, 벡터의 표현들의 변화, 예를 들어 엠비소닉스에서, 3D 공간에서 2D 하위 공간으로의 변화가 투영될 수 있기 때문이다.
그러나, 기준 벡터들이 거의 선형 종속되는 불량 조건 행렬들을 갖는 셋업들이 종종 존재한다. 그래서, 원칙적으로, 비-정규 직교 기준이 처리되어야 한다. 이는 하나의 하위 공간에서 다른 하위 공간으로 변화를 복잡하게 만들고, 이는 HOA 음장 디스크립션이 서로 다른 스피커 셋업들에 채택되는 경우, 또는 인코더 또는 디코더 측에서 서로 다른 HOA 차수들 및 차원들을 처리하는 것이 바람직한 경우에 필요하다.
저밀도 스피커 세트로의 투영에 대한 전형적인 문제는, 음향 에너지가 스피커 근방에서 높다는 것과 이들 스피커들 사이의 거리가 큰 경우 낮다는 것이다. 그래서, 그에 따라 서로 다른 스피커들 사이의 위치는 에너지의 균형을 유지하는 패닝 함수를 필요로 한다.
상술한 문제들은 본 발명의 처리에 의해 회피될 수 있고, 청구항1에 개시된 발명에 의해 해결된다. 이 방법을 이용하는 장치는 청구항2에 개시되어 있다.
본 발명에 따라, 디코딩 처리에 대한 원래의 기준과 함께 조합된 인코딩 처리에 대한 상호간의 기준은 최저 모드 행렬 등급뿐만 아니라 절단된 특이 값 분해를 고려하여 사용된다. 이중-정규 직교 시스템이 표현되기 때문에, 인코더 및 디코더 행렬들의 곱은 적어도 최저 모드 행렬 등급에 대해 단위 행렬이 유지되는 것이 보장된다.
이는 케트 기반 디스크립션을 이중 공간에 기초한 표현으로 변경함으로써 성취되며, 브라 공간은 상호간의 기준 벡터들을 가지며, 여기서, 모든 벡터는 케트의 수반 행렬(adjoint)이다. 모드 행렬들의 의사 역 수반 행렬을 사용하여 실현된다. '수반 행렬'은 복소 공액 교환을 의미한다.
따라서, 의사 역 수반 행렬은 인코더 측에서 뿐만 아니라 디코더 수반 행렬에서 이미 사용된다. 처리에 있어서, 정규 직교 상호간 기준 벡터들은 기준 변화에 대해 불변이 되도록 하기 위해 사용된다. 또한, 처리의 종류는 입력 신호 의존 영향을 고려하는 것을 허용하여 정규화 과정에서
Figure pct00137
에 대해 노이즈 감소에 대한 최적의 임계값에 이른다.
원칙적으로, 본 발명의 방법은 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩에 적합하며, 상기 방법은,
- 오디오 입력 신호을 수신하는 단계,
- 음원들의 방향 값들과 상기 오디오 입력 신호의 앰비소닉스 차수에 기초하여, 구형 고조파의 대응하는 케트 벡터들 및 대응하는 인코더 모드 행렬을 형성하는 단계,
- 상기 인코더 모드 행렬에 대해서 특이 값 분해를 실행하는 단계로서, 두 개의 대응하는 인코더 단위 행렬들 및 특이 값들과 관련된 인코더 모드 행렬 등급을 포함하는 대응하는 인코더 대각 행렬이 출력되는, 특이 값 분해를 실행하는 단계,
- 상기 오디오 입력 신호, 상기 특이 값들 및 상기 인코더 모드 행렬 등급으로부터 임계값을 결정하는 단계,
- 상기 특이 값들 중 적어도 하나와 상기 임계값을 비교하여 대응하는 최종 인코더 모드 행렬 등급을 결정하는 단계,
- 스피커들의 방향 값들 및 디코더 앰비소닉스 차수에 기초하여, 상기 방향 값들 및 대응하는 디코더 모드 행렬에 대응하는 방향들에 위치한 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들을 형성하는 단계,
- 상기 디코더 모드 행렬에 대해서 특이 값 분해를 실행하는 단계로서, 두 개의 대응하는 디코더 단위 행렬들, 및 특이 값들을 포함하는 하나의 대응하는 디코더 대각 행렬이 출력되고, 상기 디코더 모드 행렬의 대응하는 최종 등급이 결정되는, 특이 값 분해를 실행하는 단계,
- 상기 최종 인코더 모드 행렬 등급 및 상기 최종 디코더 모드 행렬 등급으로부터 최종 모드 행렬 등급을 결정하는 단계,
- 상기 인코더 단위 행렬들, 상기 인코더 대각 행렬, 및 상기 최종 모드 행렬 등급으로부터, 앰비소닉스 케트 벡터를 결과로서 얻는, 상기 인코더 모드 행렬의 수반 의사 역행렬을 계산하고,
적응된 앰비소닉스 케트 벡터를 제공하기 위해, 상기 최종 모드 행렬 등급에 따라 상기 앰비소닉스 케트 벡터의 성분들의 개수를 감소시키는 단계,
- 상기 적응된 앰비소닉스 케트 벡터, 상기 디코더 단위 행렬들, 상기 디코더 대각 행렬 및 상기 최종 모드 행렬 등급으로부터, 모든 스피커들에 대한 출력 신호들의 케트 벡터를 결과로서 얻는 수반 디코더 모드 행렬을 계산하는 단계를 포함한다.
원칙적으로, 본 발명의 장치는 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩에 적합하며, 상기 장치는,
- 오디오 입력 신호를 수신하도록 적응된 수단,
- 음원들의 방향 값들과 상기 오디오 입력 신호의 앰비소닉스 차수에 기초하여, 구형 고조파의 대응하는 케트 벡터들 및 대응하는 인코더 모드 행렬을 형성하도록 적응된 수단,
- 상기 인코더 모드 행렬에 대해서 특이 값 분해를 실행하도록 구성된 수단으로서, 두 개의 대응하는 인코더 단위 행렬들 및 특이 값들을 포함하는 대응하는 인코더 대각 행렬과, 관련된 인코더 모드 행렬 등급이 출력되는, 특이 값 분해를 실행하도록 구성된 수단,
- 상기 오디오 입력 신호, 상기 특이 값들 및 상기 인코더 모드 행렬 등급으로부터 임계값을 결정하도록 적응된 수단,
- 상기 특이 값들 중 적어도 하나와 상기 임계값을 비교하여 대응하는 최종 인코더 모드 행렬 등급을 결정하도록 적응된 수단,
- 스피커들의 방향 값들 및 디코더 앰비소닉스 차수에 기초하여,상기 방향 값들 및 대응하는 디코더 모드 행렬에 대응하는 방향들에 위치한 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들을 형성하도록 적응된 수단,
- 상기 디코더 모드 행렬에 대해서 특이 값 분해를 실행하도록 적응된 수단으로서, 두 개의 대응하는 디코더 단위 행렬들, 및 특이 값들을 포함하는 하나의 대응하는 디코더 대각 행렬이 출력되고, 상기 디코더 모드 행렬의 대응하는 최종 등급이 결정되는, 특이 값 분해를 실행하도록 적응된 수단,
- 상기 최종 인코더 모드 행렬 등급 및 상기 최종 디코더 모드 행렬 등급으로부터 최종 모드 행렬 등급을 결정하도록 적응된 수단,
- 상기 인코더 단위 행렬들, 상기 인코더 대각 행렬, 및 상기 최종 모드 행렬 등급으로부터, 앰비소닉스 케트 벡터를 결과로서 얻는, 상기 인코더 모드 행렬의 수반 의사 역행렬을 계산하고,
적응된 앰비소닉스 케트 벡터를 제공하기 위해, 상기 최종 모드 행렬 등급에 따라 상기 앰비소닉스 케트 벡터의 성분들의 개수를 감소시키도록 적응된 수단,
- 상기 적응된 앰비소닉스 케트 벡터, 상기 디코더 단위 행렬들, 상기 디코더 대각 행렬 및 상기 최종 모드 행렬 등급으로부터, 모든 스피커들에 대한 출력 신호들의 케트 벡터를 결과로서 얻는 수반 디코더 모드 행렬을 계산하도록 적응된 수단을 포함한다.
본 발명의 유리한 추가적인 실시예들은 각각의 종속 청구항들에 개시된다.
본 발명에 따라, 디코딩 처리에 대한 원래의 기준과 함께 인코딩 처리에 대한 상호간의 기준은 최저 모드 행렬 등급뿐만 아니라 절단된 특이 값 분해를 고려하여 사용된다. 이중-정규 직교 시스템이 표현되기 때문에, 인코더 및 디코더 행렬들의 곱은 최저 모드 행렬 등급에 대해 적어도 단위 행렬이 유지되는 것이 보장된다.
도 1은 SVD에 기초하여 HOA 인코더 및 디코더의 블록도.
도 2는 선형 함수의 패닝을 포함하는 HOA 인코더 및 디코더의 블록도,
도 3은 행렬 패닝을 포함하는 HOA 인코더 및 디코더의 블록도.
도 4는 임계값
Figure pct00138
을 결정하기 위한 흐름도.
도 5는 감소된 모드 행렬 등급
Figure pct00139
의 경우에 특이 값들의 재계산과
Figure pct00140
의 계산을 설명하는 도면.
도 6은 감소된 모드 행렬 등급들
Figure pct00141
Figure pct00142
의 경우에 특이 값들의 재계산과 패닝을 사용하거나 사용하지 않고 스피커 신호들
Figure pct00143
의 계산을 설명하는 도면.
본 발명의 예시적인 실시예들은 첨부한 도면들을 참조하여 설명한다.
도 1에는 인코더 파트와 디코더 파트 모두를 사용하여 SVD에 기초한 본 발명의 HOA 처리를 위한 블록도가 도시되어 있다. 두 파트 모두는 상호간의 기준 벡터들을 생성하기 위해 SVD를 사용한다. 여기서, 공지된 모드 매칭 해법들에 대한 변경, 즉 식(27)에 관련된 변경 사항이 있다.
HOA 인코더
상호간의 기준 벡터들과 작업하기 위하여, 케트 기반 디스크립션이 브라 공간에 대해 변경되는데, 여기서, 모든 벡터는 케트의 헬미틴 공액 또는 수반 행렬이다. 이는 모드 행렬들의 의사 반전을 사용하여 실현된다.
이때, 식(8)에 따라, (이중) 브라 기반 앰비소닉스 벡터는 (이중) 모드 행렬
Figure pct00144
로 재공식화될 수도 있다.
Figure pct00145
인코더 측에서 결과로서 얻어진 앰비소닉스 벡터
Figure pct00146
는 지금 브라 시멘틱 상태(bra semantic)이다. 그러나, 통합된 디스크립션(unified description)이 바람직한데, 예를 들어, 케트 시멘틱으로 복귀하는 것이 바람직하다.
Figure pct00147
의 의사 반전 대신에,
Figure pct00148
또는
Figure pct00149
의 헬미틴 공액(Hermitean conjugate)이 사용된다.
Figure pct00150
식(24)에 따라,
Figure pct00151
여기서, 모든 특이 값들은 실수이고,
Figure pct00152
의 복소 공액은 무시될 수 있다.
이는 앰비소닉스 성분들의 다음 디스크립션으로 이어진다.
Figure pct00153
음원측에 대한 벡터 기반 디스크립션은
Figure pct00154
가 역함수
Figure pct00155
에 의존한다는 것을 나타낸다. 이러한 것이 인코더 측에서 실행된다면, 디코더 측에서 대응하는 이중 기준 벡터들로 변경되어야 한다.
HOA 디코더
디코더가 원래 의사 역함수에 기초하는 경우, 스피커 신호들
Figure pct00156
을 유도하기 위해 다음 식을 취한다.:
Figure pct00157
예를 들어, 스피커 신호들은 다음과 같다.
Figure pct00158
식(22)를 고려하면, 디코더 식은 다음 결과를 얻는다.
Figure pct00159
따라서, 의사 역함수를 구축하는 대신에, 단지 수반 행렬 연산(adjoint operation)('†'로 표기)이 식(35)에 남게 된다. 이는 보다 적은 산술 연산들이 디코더에서 요구된다는 것을 의미하며, 그 이유는 허수 부분들의 부호를 단지 전환하고, 이러한 전환이 단지 변경된 메모리 액세스의 문제이기 때문이다.
Figure pct00160
인코더 및 디코더의 앰비소닉스 표현들이 거의 동일, 즉
Figure pct00161
라고 가정하면, 식(32)에 의해, 완전한 인코더 디코더 체인은 다음 종속성을 얻는다.
Figure pct00162
Figure pct00163
실제 시나리오에 있어서, 식(11)로부터의 패닝 행렬
Figure pct00164
과 유한 앰비소닉스 차수가 고려되어야 한다. 후자는 음장을 설명하기 위해 사용되는 기본 백터들의 선형 조합들의 개수를 제한한다. 또한, 기본 벡터들의 선형 독립성은 수치 라운딩 에러들 또는 측정 에러들과 같은 부가적인 에러 소스들에 의해 영향을 받는다. 실용적인 관점에서, 이는 수치 등급에 의해 무시될 수 있으며(상기 언급한 한센 문헌, 챕터 3.1 참조), 이에 따라, 모든 기본 벡터들은 특정 허용 오차 내에서 선형으로 독립적이 될 수 있다.
노이즈에 대해 보다 강하게 되도록, 입력의 계산된 앰비소닉스 표현과 인코더 케트에 영향을 주는 입력 신호들의 SNR이 고려된다. 그래서, 필요하다면, 즉, 반전되어야 하는 불량 조건 모드 행렬에 대해서,
Figure pct00165
값은 인코더에서 입력 신호의 SNR에 따라 정규화된다.
인코더의 정규화
정규화는 서로 다른 방식들, 예를 들어, 절단된 SVD를 통해 임계값을 사용하여 실행될 수있다. SVD는 내림 차수로
Figure pct00166
를 제공하는데, 여기서,
Figure pct00167
는 저레벨 또는 최고 인덱스(
Figure pct00168
로 표시)를 가지며, 매우 자주 전환하여 노이즈 효과 및 SNR을 초래하는 성분들을 포함한다{참조: 식(20) 및 식(21) 및 상기 언급한 한센 문헌}. 따라서, 절단 SVD(TSVD)는 모든
Figure pct00169
값들을 임계값과 비교하고, 임계값
Figure pct00170
을 초과하는 노이즈 성분들을 무시한다. 이러한 임계값
Figure pct00171
은 고정될 수 있거나 입력 신호들의 SNR에 따라 최적으로 수정될 수 있다.
하나의 행렬의 트레이스는 모든 대각 행렬 요소들의 합을 의미한다.
TSVD 블록(도 1 내지 도 3의 10, 20, 30)은 다음 과제를 수행한다.
● 모드 행렬 등급
Figure pct00172
을 계산한다,
● 임계값 이하의 노이즈 성분들을 제거하고 최종 모드 행렬 등급
Figure pct00173
을 설정한다.
이러한 처리는 복소 행렬들 Ξ 및 Ψ를 다룬다. 그러나, 실수 값
Figure pct00174
을 정규화하기 위해서는, 이들 행렬들을 직접 사용할 수 없다. 적당한 값은 Ξ와 자신의 수반 행렬
Figure pct00175
사이의 곱으로부터 얻는다. 그 결과의 행렬은 적절한 특이 값들의 이차 값들과 동일한 실제 대각 고유 값들을 갖는 이차형이다. 행렬
Figure pct00176
의 트레이스에 의해 설명될 수 있는 모든 고유 값들의 합이 고정된 상태로 유지되는 경우, 시스템의 물리적 성질들은 보존된다. 이는 또한 행렬 Ψ에 적용된다.
Figure pct00177
따라서, 인코더 측(도 1 내지 도 3의 15, 25, 35)에서 블록
Figure pct00178
또는 디코더 측(도 1 내지 도 3의 19, 29, 39)에서 블록
Figure pct00179
은 특이 값들을 변경하여, 정규화 이전 및 이후의
Figure pct00180
가 보존된다(도 5 및 도 6 참조).
Figure pct00181
(
Figure pct00182
에 대해서)의 나머지를 변경하여, 원래의 트레이스와 의도되어 절단된 행렬
Figure pct00183
을 고정 상태
Figure pct00184
로 유지한다 .
● 다음 식을 만족하는 상수 값 Δσ 을 계산한다.
Figure pct00185
정상적인 값과 특이 값들의 감소된 수의 차이를
Figure pct00186
라고 지칭하면, 그 결과의 값은 다음과 같다.
Figure pct00187
(41)
● 절단된 행렬
Figure pct00188
에 대해서 모든 새로운 특이 값들
Figure pct00189
을 다시 계산한다.
Figure pct00190
부가적으로, 적당한
Figure pct00191
{식 (30) 또는 식 (33) 참조}에 대한 기준이 대응하는 SVD-관련된
Figure pct00192
기준으로 변경되는 경우, 인코더 및 디코더에 대한 단순화가 성취될 수 있으며, 다음 식을 얻는다.
Figure pct00193
(비고:
Figure pct00194
Figure pct00195
가 추가적인 인코더 또는 디코더 인덱스없이 사용되는 경우, 인코더 측 또는/및 디코더 측을 참조한다). 이러한 기준은
Figure pct00196
의 표준을 유지하기 위해 직교 함수이다. 즉,
Figure pct00197
대신에 그러한 정규화는 행렬 ∑ 및 V를 필요로 하지만, 행렬 U를 더 이상 필요로 하지 않는
Figure pct00198
을 사용할 수 있다.
● 등급이 확실하게 감소되는 장점이 있는
Figure pct00199
기준에서 감소된 케트
Figure pct00200
를 사용한다.
따라서, 본 발명에 있어서, SVD는 정규 직교 기준과 개별 행렬
Figure pct00201
Figure pct00202
의 특이 값들을 수행할 뿐만 아니라, 그들 등급들
Figure pct00203
을 얻기 위하여 두 측에서 사용될 수 있다.
성분 적응
Ξ의 음원 등급을 고려하거나 임계값 또는 최종 음원 등급에 대하여 대응하는
Figure pct00204
의 일부를 무시함으로써, 성분들의 개수는 감소될 수 있고, 보다 강력한 인코딩 행렬이 제공될 수 있다. 따라서, 디코더 측에서 성분들의 대응하는 개수에 따라 전송된 앰비소닉스 성분들의 개수의 적응이 실행된다. 보통은 앰비소닉스 차수
Figure pct00205
에 의존한다. 여기서, 인코더 행렬 Ξ에 대한 SVD 블록으로부터 얻은 최종 모드 행렬 등급
Figure pct00206
과 디코더 행렬
Figure pct00207
에 대한 SVD 블록으로부터 얻은 최종 모드 행렬 등급
Figure pct00208
이 고려되어야 한다. 적응#비교 단계/단(16)에 있어서, 성분들의 개수는 다음과 같이 적응된다.
Figure pct00209
: 어떤 것도 변하지 않음- 압축 없음,
Figure pct00210
: 압축, 디코더 행렬
Figure pct00211
에서
Figure pct00212
열들을 무시 => 인코더 및 디코더 연산들 감소,
Figure pct00213
: 압축, 즉 전송 이전에 앰비소닉스 상태 벡터의
Figure pct00214
성분들 취소, 즉 압축. 인코더 행렬
Figure pct00215
에서
Figure pct00216
행들을 무시 => 인코더 및 디코더 연산들 감소.
그 결과는 인코더 측 및 디코더 측에서 사용되는 최종 모드 행렬 등급
Figure pct00217
Figure pct00218
Figure pct00219
중 더 작은 하나이다.
따라서, 인코더와 디코더 사이의 양방향 신호가 다른 측의 등급을 상호 교환하기 위해 존재한다면, 등급 차이들을 사용하여 가능한 압축을 개선하고 인코더 및 디코더에서 연산들의 개수를 감소시킬 수 있다.
패닝 함수들 고려
패닝 함수들
Figure pct00220
또는 패닝 행렬
Figure pct00221
의 사용은, 저밀도 및 불규칙한 스피커 셋업들에 대해 야기되는 에너지 분배에 관련된 문제들로 인하여, 식(11)을 참조하여, 이미 앞서 언급했다. 이러한 문제들은 앰비소닉스에서 정규적으로 사용될 수 있는 제한된 차수를 처리한다(앰비소닉스 행렬들에 대한 영향 내지 비-정규 직교 기준에 따른 문제들에 대해 참조).
패닝 행렬
Figure pct00222
에 대한 요구들과 후속되는 인코딩에 관하여, 일부 음원의 음장이 앰비소닉스 상태 벡터
Figure pct00223
에 의해 표현되는 양호한 상태에 있다고 가정한다. 그러나, 디코더 측에서, 상태가 어떻게 준비되었는지 정확히 알지 못한다. 즉, 시스템의 현재 상태에 대한 완전한 지식이 없다. 따라서, 상호간의 기준은 식(9) 및 식(8) 사이의 내적을 보존하기 위해 취해진다.
인코더 측에서 미리 의사 반전을 사용하는 것은 다음과 같은 장점을 제공한다.
● 상호간의 기준
Figure pct00224
의 사용은 인코더와 디코더 기준 사이 양방향 직교성을 만족한다.
● 인코딩/디코딩 체인에서 보다 작은 연산들의 개수,
● SNR 작용에 관한 수치적 관점 개선,
● 단지 선형으로만 독립된 행렬들 대신에 변경된 모드 행렬들에서 정규 직교 열들,
● 기준의 변경의 단순화,
● 등급-1 근사치 사용은, 특히 최종 등급이 낮은 경우, 메모리의 노력을 적게 할 수 있고 연산들의 개수를 감소시킬 수 있다. 일반적으로, M * N 대신에 M × N의 행렬에 대해서, 단지 M + N 연산들만이 요구된다.
● 디코더에서 의사 반전을 피할 수 있기 때문에, 디코더 측에서 적응을 단순화한다.
● 수치적으로 불안정한 σ에 의한 반전 문제들은 피할 수 있다.
도 1에 있어서, 인코더 또는 전송자 측에서, 음원들의 서로 다른 방향 값들
Figure pct00225
(s = l,...,S) 및 앰비소닉스 차수
Figure pct00226
(s = l,...,S)는 구형 고조파의 대응하는 케트 벡터들
Figure pct00227
및 차원
Figure pct00228
을 갖는 인코더 모드 행렬
Figure pct00229
을 형성하는 단계 또는 단(11)에 입력된다. 행렬
Figure pct00230
는 서로 다른 방향들
Figure pct00231
에 대한 S 음원 신호들을 포함하는 입력 신호 벡터
Figure pct00232
에 부합하여 생성된다. 따라서, 행렬
Figure pct00233
은 구면 고조파 케트 벡터들
Figure pct00234
의 모음이다. 신호
Figure pct00235
뿐만 아니라 위치가 시간에 따라 변하기 때문에, 연산 행렬
Figure pct00236
은 동적으로 실행될 수 있다. 이러한 행렬은 음원에 대해 비-정규 직교 기준
Figure pct00237
을 갖는다. 입력 신호
Figure pct00238
및 등급 값
Figure pct00239
으로부터 특정된 특이 임계값
Figure pct00240
은 단계 또는 단(12)에서 결정된다. 인코더 모드 행렬
Figure pct00241
및 임계값
Figure pct00242
은, 단계 또는 단(13)에서 자신의 특이 값들을 얻기 위하여 모드 행렬
Figure pct00243
에 대한 특이 값 분해를 실행하는 절단 특이 값 분해 TSVD 처리(10)(참조: 특이 값 분해에 관련된 단락)에 제공되고, 이에 의해, 한편으로는 단위 행렬들
Figure pct00244
Figure pct00245
Figure pct00246
특이 값들
Figure pct00247
을 포함하는 대각 행렬 ∑ 이 출력되고, 다른 한편으로는, 관련된 인코더 모드 행렬 등급
Figure pct00248
이 결정된다(비고:
Figure pct00249
Figure pct00250
의 행렬 ∑로부터 i-번째 특이 값이다).
단계/단(12)에 있어서, 임계값
Figure pct00251
은 인코더에서 정규화의 단락에 따라 결정된다. 임계값
Figure pct00252
은 사용된
Figure pct00253
값들의 개수를 절단된 또는 최종 인코더 모드 행렬 등급
Figure pct00254
으로 제한할 수 있다. 임계값
Figure pct00255
은 미리 결정된 값으로 설정될 수 있거나, 입력 신호:
Figure pct00256
의 신호-대-잡음 비율 SNR로 적응될 수 있으며, 이에 의해, 모든 S 음원 신호들
Figure pct00257
의 SNR은 샘플 값들의 미리 정해진 개수를 통해 측정된다.
비교 단계 또는 단(14)에 있어서, 행렬 ∑로부터의 특이 값
Figure pct00258
은 임계값
Figure pct00259
과 비교되고, 이 비교로부터 절단되거나 최종 인코더 모드 행렬 등급
Figure pct00260
이 계산되며, 이는 인코더에서 정규화의 단락에 따라
Figure pct00261
값들의 나머지를 변경한다. 최종 인코더 모드 행렬 등급
Figure pct00262
은 단계 또는 단(16)에 제공된다.
디코더 측에 대해서, 스피커들의 방향 값들
Figure pct00263
(l = 1,...,L)로부터, 그리고, 디코더 앰비소닉스 차수
Figure pct00264
(l = 1,...,L)로부터, 방향들
Figure pct00265
에서 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들
Figure pct00266
뿐만 아니라 차원
Figure pct00267
을 갖는 대응하는 디코더 모드 행렬
Figure pct00268
은, 블록(17)에서 관련된 신호들의 스피커 위치들에 부합하여, 단계 또는 단(18)에서 결정된다. 인코더 행렬
Figure pct00269
과 유사하게, 디코더 행렬
Figure pct00270
은 모든 방향들
Figure pct00271
에 대한 구면 고조파 케트 벡터
Figure pct00272
들의 모음이다.
Figure pct00273
의 연산은 동적으로 실행된다.
단계 또는 단(19)에 있어서, 특이 값 분해 처리는 디코더 모드 행렬
Figure pct00274
에 대해 실행되고, 그 결과의 단위 행렬들 U 및
Figure pct00275
뿐만 아니라 대각 행렬 ∑ 은 블록(17)에 제공된다. 또한, 최종 디코더 모드 행렬 등급
Figure pct00276
은 계산되어 단계/단(16)에 제공된다.
단계 또는 단(16)에 있어서, 최종 모드 행렬 등급
Figure pct00277
은, 상술한 것처럼, 최종 인코더 모드 행렬 등급
Figure pct00278
으로부터, 그리고 최종 디코더 모드 행렬 등급
Figure pct00279
으로부터 결정된다. 최종 모드 행렬 등급
Figure pct00280
은 단계/단(15) 및 단계/단(17)에 공급된다.
인코더-측 행렬들 Us,
Figure pct00281
, ∑s, 등급 값
Figure pct00282
, 최종 모드 행렬 등급 값
Figure pct00283
및 모든 음원 신호들의 시간 의존 입력 신호 케트 벡터
Figure pct00284
는, 식(32)을 사용하여,
Figure pct00285
관련된 입력 값들로부터 그들 인코더 모드 행렬의 수반 의사 역행렬
Figure pct00286
을 계산하는 단계 또는 단(15)에 제공된다. 이러한 행렬은 차원
Figure pct00287
과 음원
Figure pct00288
에 대한 정규 직교 기준을 갖는다. 복소 행렬들 및 그들의 수반 행렬들을 처리할 때, 다음의 식이 고려된다.
Figure pct00289
단계/단(15)은 대응하는 시간-의존 앰비소닉스 케트 또는 상태 벡터
Figure pct00290
를 출력하며, 상술한 HOA 인코더의 단락을 참조한다.
단계 또는 단(16)에 있어서,
Figure pct00291
의 성분들의 개수는, 성분 적응의 단락에서 설명한 것처럼, 전송된 정보의 양을 가능한 감소시키기 위하여, 최종 모드 행렬 등급
Figure pct00292
을 사용하여 감소되며, 그 결과로서 적응 이후에 시간-의존 앰비소닉스 케트 또는 상태 벡터
Figure pct00293
가 생성된다.
앰비소닉스 케트 또는 상태 벡터
Figure pct00294
로부터, 디코더 측의 행렬들
Figure pct00295
및 모드 행렬
Figure pct00296
로부터 유도된 등급 값
Figure pct00297
으로부터, 그리고, 단계/단(16)으로부터의 최종 모드 행렬 등급 값
Figure pct00298
으로부터, 차원
Figure pct00299
및 스피커들
Figure pct00300
에 대한 정규 직교 기준을 갖는 수반 디코더 모드 행렬
Figure pct00301
이 계산되어, 그 결과로서 모든 스피커들의 시간-의존 출력 신호들의 케트 벡터
Figure pct00302
가 생성된다(상술한 HOA 디코더의 단락 참조). 디코딩은 특정 스피커 위치들에 의존하는 정규 모드 행렬의 공액 교환에 의해 실행된다.
추가적인 렌더링에 대해서는 특정 패닝 행렬이 사용되어야 한다.
디코더는 단계/단(18, 19 및 17)에 의해 표현된다. 인코더는 다른 단계들/단들에 의해 표현된다.
도 1의 단계들/단들(11 내지 19)은 원칙적으로 도 2의 단계들/단들(21 내지 29)과 도 3의 단계들/단들(31 내지 39)에 각각 대응한다.
도 2에 있어서, 단계 또는 단(211)에서 계산된 인코더 측에 대한 패닝 함수
Figure pct00303
와, 단계 또는 단(281)에서 계산된 디코더 측에 대한 패닝 함수
Figure pct00304
(281)는 선형 함수의 패닝을 위해 또한 사용된다. 패닝 함수
Figure pct00305
는 단계/단(21)에 대한 추가적인 입력 신호이고, 패닝 함수
Figure pct00306
는 단계/단(28)에 대한 추가적인 입력 신호이다. 이러한 패닝 함수들을 사용하는 이유는 패닝 함수들을 고려하는 상기 단락에서 설명되었다.
도 1과 비교하여, 도 3에서, 패닝 행렬 G는 단계/단(37)의 출력에서 모든 스피커들 중 시간-의존 출력 신호들의 예비 케트 벡터에 대해 패닝 처리(371)를 제어한다. 이는 모든 스피커의 시간-의존 출력 신호의 적응된 케트 벡터
Figure pct00307
의 결과를 얻는다.
도 4는 인코더 모드 행렬
Figure pct00308
의 특이 값 분해 SVD 처리(40)에 기초하여 임계값
Figure pct00309
을 결정하기 위한 처리를 보다 상세히 도시한다. 상기 SVD 처리는 행렬 ∑{
Figure pct00310
에서
Figure pct00311
까지 수행하는 대각선의 모든 특이 값들을 내림 차순으로 포함, 식(20) 및 식(21) 참조} 및 행렬 ∑의 등급
Figure pct00312
을 전달한다.
고정된 임계값이 사용되는 경우{블록(41)}, i = 1에 의해 루프를 시작하여 i =
Figure pct00313
까지 수행할 수 있는 변수(i)에 의해 제어되는 루프 내에서{블록 (42 및 43)}, 이들
Figure pct00314
값들 사이의 수량 값 차이가 있는지를 검사한다{블록(45)}. 이러한 차이는 특이 값
Figure pct00315
의 수량 값이 그 이전 것의 특이 값
Figure pct00316
의 수량 값보다 상당히 작은 경우, 예를 들어, 1/10보다 작은 경우에 발생하는 것으로 가정한다. 그러한 차이가 검출될 때, 루프는 정지하고 임계값
Figure pct00317
은 현재 특이 값
Figure pct00318
으로 설정된다{블록(46)}.
Figure pct00319
{블록(44)}인 경우, 최저 특이 값
Figure pct00320
에 도달하고, 루프는 종료하고,
Figure pct00321
Figure pct00322
로 설정된다{블록(46)}.
고정된 임계값이 사용되지 않는 경우{블록(41)}, 모든 S 음원 신호들
Figure pct00323
(= 행렬
Figure pct00324
)에 대한 T 샘플의 블록은 조사된다{블록(47)}. X에 대한 신호-대- 노이즈 비율(SNR)이 계산되고{블록(48)}, 임계값
Figure pct00325
Figure pct00326
로 설정된다[{블록(49)}.
도 5는 단계/단(15, 25, 35) 내에서 감소된 모드 행렬 등급
Figure pct00327
의 경우에 특이 값들의 재계산과,
Figure pct00328
의 계산을 도시한다. 도 1 내지 도 3에서 블록(10, 20, 30)으로부터 인코더 대각 행렬
Figure pct00329
은, 값
Figure pct00330
을 사용하여 전체 에너지
Figure pct00331
Figure pct00332
를 계산하는 단계 또는 단(51)에, 값
Figure pct00333
을 사용하여 감소된 전체 에너지
Figure pct00334
를 계산하는 단계 또는 단(52)에, 그리고, 단계 또는 단(54)에 제공된다. 전체 에너지 값과 감소된 전체 에너지 값 사이의 차이 ΔΕ, 값
Figure pct00335
및 값
Figure pct00336
은 다음 식을 계산하는 단계 또는 단(53)에 제공된다.
Figure pct00337
Figure pct00338
은,
Figure pct00339
에 의해 설명되는 에너지가 유지되어 그 결과가 물리적으로 이해할 수 있도록 보장하기 위해 필요하다.
인코더 또는 디코더 측에서, 행렬 감소로 인하여 에너지가 감소되는 경우, 그러한 에너지의 손실은 모든 나머지 행렬 요소들에 동일한 방식으로 분배되는 값
Figure pct00340
에 의해 보상된다. 즉,
Figure pct00341
.
단계 또는 단(54)은
Figure pct00342
Figure pct00343
로부터
Figure pct00344
을 계산한다.
입력 신호 벡터
Figure pct00345
에 행렬
Figure pct00346
이 곱해진다. 이 결과에
Figure pct00347
을 곱한다. 후자의 곱셈 결과는 케트 벡터
Figure pct00348
이다.
도 6은 단계/단(17, 27, 37)에서 감소된 모드 행렬 등급
Figure pct00349
의 경우에 특이 값들의 재계산과, 패닝을 사용하거나 사용하지 않고, 스피커 신호들
Figure pct00350
의 계산을 도시한다. 도 1 내지 도 3에서 블록(19, 29, 39)으로부터 디코더 대각 행렬
Figure pct00351
은 값
Figure pct00352
을 사용하여 전체 에너지
Figure pct00353
를 계산하는 단계 또는 단(61)에, 값
Figure pct00354
을 사용하여 감소된 전체 에너지
Figure pct00355
를 계산하는 단계 또는 단(62)에, 그리고 단계 또는 단(64)에 제공된다. 전체 에너지 값과 감소된 전체 에너지 값 사이의 차이
Figure pct00356
, 값
Figure pct00357
및 값
Figure pct00358
은 다음을 계산하는 단계 또는 단(63)에 제공된다.
Figure pct00359
단계 또는 단(64)은
Figure pct00360
Figure pct00361
로부터
Figure pct00362
을 계산한다.
케트 벡터
Figure pct00363
에 행렬
Figure pct00364
이 곱해진다. 이 결과에 행렬
Figure pct00365
를 곱한다. 후자의 곱셈 결과는 모든 스피커들의 시간-의존 출력 신호들의 케트 벡터
Figure pct00366
이다.
본 발명의 처리는 하나의 프로세서 또는 전자 회로에 의해 수행될 수 있거나, 본 발명의 서로 다른 부분에 동작 및/또는 병렬로 동작하는 전자 회로들 또는 여러 프로세서들에 의해 수행될 수 있다.
12, 22, 32: 임계값 결정
16, 26, 36: 적응#비교
211, 281, 371: 패닝 함수

Claims (7)

  1. 특이 값 분해(Singular Value Decomposition)를 이용하여 고차 앰비소닉스(Higher Order Ambisonics)(HOA) 인코딩 및 디코딩하기 위한 방법으로서, 상기 방법은,
    - 오디오 입력 신호
    Figure pct00367
    을 수신하는 단계,
    - 음원들의 방향 값들
    Figure pct00368
    과 상기 오디오 입력 신호
    Figure pct00369
    의 앰비소닉스 차수
    Figure pct00370
    에 기초하여, 구형 고조파의 대응하는 케트 벡터들
    Figure pct00371
    및 대응하는 인코더 모드 행렬
    Figure pct00372
    을 형성(11,31)하는 단계,
    - 상기 인코더 모드 행렬
    Figure pct00373
    에 대해서 특이 값 분해를 실행(13, 23, 33)하는 단계로서, 두 개의 대응하는 인코더 단위 행렬들
    Figure pct00374
    및 특이 값들과 관련된 인코더 모드 행렬 등급
    Figure pct00375
    을 포함하는 대응하는 인코더 대각 행렬
    Figure pct00376
    이 출력되는, 특이 값 분해를 실행(13, 23, 33)하는 단계,
    - 상기 오디오 입력 신호
    Figure pct00377
    , 상기 특이 값들
    Figure pct00378
    및 상기 인코더 모드 행렬 등급
    Figure pct00379
    으로부터 임계값
    Figure pct00380
    을 결정(12,22,32)하는 단계,
    - 상기 특이 값들 중 적어도 하나
    Figure pct00381
    와 상기 임계값
    Figure pct00382
    을 비교(14,24,34)하여 대응하는 최종 인코더 모드 행렬 등급
    Figure pct00383
    을 결정하는 단계,
    - 스피커들의 방향 값들
    Figure pct00384
    및 디코더 앰비소닉스 차수
    Figure pct00385
    에 기초하여, 상기 방향 값들
    Figure pct00386
    및 대응하는 디코더 모드 행렬
    Figure pct00387
    에 대응하는 방향들에 위치한 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들
    Figure pct00388
    을 형성(18, 38)하는 단계,
    - 상기 디코더 모드 행렬
    Figure pct00389
    에 대해서 특이 값 분해를 실행(19, 29, 39)하는 단계로서, 두 개의 대응하는 디코더 단위 행렬들
    Figure pct00390
    및 특이 값들을 포함하는 대응하는 디코더 대각 행렬
    Figure pct00391
    이 출력되고, 상기 디코더 모드 행렬의 대응하는 최종 등급
    Figure pct00392
    이 결정되는, 특이 값 분해를 실행(19, 29, 39)하는 단계,
    - 상기 최종 인코더 모드 행렬 등급
    Figure pct00393
    및 상기 최종 디코더 모드 행렬 등급
    Figure pct00394
    으로부터 최종 모드 행렬 등급
    Figure pct00395
    을 결정(16,26,36)하는 단계,
    - 상기 인코더 단위 행렬들
    Figure pct00396
    , 상기 인코더 대각 행렬
    Figure pct00397
    , 및 상기 최종 모드 행렬 등급
    Figure pct00398
    으로부터, 앰비소닉스 케트 벡터
    Figure pct00399
    를 결과로서 얻는, 상기 인코더 모드 행렬
    Figure pct00400
    의 수반 의사 역행렬
    Figure pct00401
    을 계산(15,25,35)하고,
    적응된 앰비소닉스 케트 벡터
    Figure pct00402
    를 제공하기 위해, 상기 최종 모드 행렬 등급
    Figure pct00403
    에 따라 상기 앰비소닉스 케트 벡터
    Figure pct00404
    의 성분들의 개수를 감소(16,26,36)시키는 단계,
    - 상기 적응된 앰비소닉스 케트 벡터
    Figure pct00405
    , 상기 디코더 단위 행렬들
    Figure pct00406
    , 상기 디코더 대각 행렬
    Figure pct00407
    및 상기 최종 모드 행렬 등급으로부터, 모든 스피커들에 대한 출력 신호들의 케트 벡터
    Figure pct00408
    를 결과로서 얻는 수반 디코더 모드 행렬
    Figure pct00409
    을 계산(17,27, 37)하는 단계를 포함하는, 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 방법.
  2. 특이 값 분해를 사용하여 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 장치로서, 상기 장치는,
    - 오디오 입력 신호
    Figure pct00410
    를 수신하도록 적응된 수단,
    - 음원들의 방향 값들
    Figure pct00411
    과 상기 오디오 입력 신호
    Figure pct00412
    의 앰비소닉스 차수
    Figure pct00413
    에 기초하여, 구형 고조파의 대응하는 케트 벡터들
    Figure pct00414
    및 대응하는 인코더 모드 행렬
    Figure pct00415
    을 형성(11, 31)하도록 적응된 수단,
    - 상기 인코더 모드 행렬
    Figure pct00416
    에 대해서 특이 값 분해를 실행(13, 23, 33)하도록 구성된 수단으로서, 두 개의 대응하는 인코더 단위 행렬들
    Figure pct00417
    및 특이 값들과 관련된 인코더 모드 행렬 등급
    Figure pct00418
    을 포함하는 대응하는 인코더 대각 행렬
    Figure pct00419
    이 출력되는, 특이 값 분해를 실행(13, 23, 33)하도록 구성된 수단,
    - 상기 오디오 입력 신호
    Figure pct00420
    , 상기 특이 값들
    Figure pct00421
    및 상기 인코더 모드 행렬 등급
    Figure pct00422
    으로부터 임계값
    Figure pct00423
    을 결정(12,22,32)하도록 적응된 수단,
    - 상기 특이 값들 중 적어도 하나
    Figure pct00424
    와 상기 임계값
    Figure pct00425
    을 비교(14,24,34)하여 대응하는 최종 인코더 모드 행렬 등급
    Figure pct00426
    을 결정하도록 적응된 수단,
    - 스피커들의 방향 값들
    Figure pct00427
    및 디코더 앰비소닉스 차수
    Figure pct00428
    에 기초하여, 상기 방향 값들
    Figure pct00429
    및 대응하는 디코더 모드 행렬
    Figure pct00430
    과에 대응하는 방향들에 위치한 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들
    Figure pct00431
    을 형성(18, 38)하도록 적응된 수단,
    - 상기 디코더 모드 행렬
    Figure pct00432
    에 대해서 특이 값 분해를 실행(19, 29, 39)하도록 적응된 수단으로서, 두 개의 대응하는 디코더 단위 행렬들
    Figure pct00433
    과 특이 값들을 포함하는 대응하는 디코더 대각 행렬
    Figure pct00434
    이 출력되고, 상기 디코더 모드 행렬의 대응하는 최종 등급
    Figure pct00435
    이 결정되는, 특이 값 분해를 실행(19, 29, 39)하도록 적응된 수단,
    - 상기 최종 인코더 모드 행렬 등급
    Figure pct00436
    및 상기 최종 디코더 모드 행렬 등급
    Figure pct00437
    으로부터 최종 모드 행렬 등급
    Figure pct00438
    을 결정(16,26,36)하도록 적응된 수단,
    - 상기 인코더 단위 행렬들(
    Figure pct00439
    , 상기 인코더 대각 행렬
    Figure pct00440
    , 및 상기 최종 모드 행렬 등급
    Figure pct00441
    으로부터, 앰비소닉스 케트 벡터
    Figure pct00442
    를 결과로서 얻는, 상기 인코더 모드 행렬
    Figure pct00443
    의 수반 의사 역행렬
    Figure pct00444
    을 계산(15, 25, 35)하고,
    적응된 앰비소닉스 케트 벡터
    Figure pct00445
    를 제공하기 위해, 상기 최종 모드 행렬 등급
    Figure pct00446
    에 따라 상기 앰비소닉스 케트 벡터
    Figure pct00447
    의 성분들의 개수를 감소(16, 26, 36)시키도록 적응된 수단,
    - 상기 적응된 앰비소닉스 케트 벡터
    Figure pct00448
    , 상기 디코더 단위 행렬들
    Figure pct00449
    , 상기 디코더 대각 행렬
    Figure pct00450
    및 상기 최종 모드 행렬 등급으로부터, 모든 스피커들에 대한 출력 신호들의 케트 벡터
    Figure pct00451
    를 결과로서 얻는 수반 디코더 모드 행렬
    Figure pct00452
    을 계산(17,27, 37)하도록 적응된 수단을 포함하는, 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 장치.
  3. 제 1 항에 따른 방법 또는 제 2 항에 따른 장치에 있어서,
    구형 고조파의 상기 케트 벡터들
    Figure pct00453
    및 상기 인코더 모드 행렬
    Figure pct00454
    을 형성(21)할 때, 선형 연산을 수행하고 상기 오디오 입력 신호
    Figure pct00455
    의 음원 위치들을 스피커 출력 신호들의 상기 케트 벡터
    Figure pct00456
    에서의 상기 스피커들의 위치들로 맵핑하는 패닝 함수(211,
    Figure pct00457
    )가 사용되고,
    특정 스피커들에 대한 구형 고조파의 상기 케트 벡터들
    Figure pct00458
    및 상기 디코더 모드 행렬
    Figure pct00459
    을 형성(28)할 때, 선형 연산을 수행하고 상기 오디오 입력 신호
    Figure pct00460
    의 음원 위치들을 스피커 출력 신호들의 상기 케트 벡터
    Figure pct00461
    에서의 상기 스피커들의 위치들로 맵핑하는 대응하는 패닝 함수(281,
    Figure pct00462
    )가 사용되는, 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 방법 또는 장치.
  4. 제 1 항에 따른 방법 또는 제 2 항에 따른 장치에 있어서,
    상기 수반 디코더 모드 행렬
    Figure pct00463
    과 모든 스피커들의 시간-의존 출력 신호들의 예비 적응된 케트 벡터를 계산(17,27, 37)한 이후에, 모든 스피커들의 시간-의존 출력 신호들의 예비 적응된 케트 벡터의 패닝(371)이 패닝 행렬(
    Figure pct00464
    )을 사용하여 실행되어, 결과로서 모든 스피커들에 대한 출력 신호들의 상기 케트 벡터
    Figure pct00465
    를 얻는, 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 방법 또는 장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항의 방법에 따른 방법 또는 제 1 항 내지 제 4 항 중 어느 한 항의 장치에 따른 장치에 있어서,
    상기 임계값
    Figure pct00466
    을 결정(12,22,32)하기 위해, 상기 특이 값들
    Figure pct00467
    의 세트 내에서, 수량 값 차이가 제 1 특이 값
    Figure pct00468
    으로부터 시작하여 검출되고, 다음의 특이 값
    Figure pct00469
    의 수량 값이 미리 결정된 요인에 의해 현재 특이 값
    Figure pct00470
    의 수량 값보다 작은 경우, 현재 특이 값의 수량 값은 상기 임계값
    Figure pct00471
    으로서 취해지는, 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 방법 또는 장치.
  6. 제 1 항 내지 제 4 항 중 어느 한 항의 방법에 따른 방법 또는 제 1 항 내지 제 4 항 중 어느 한 항의 장치에 따른 장치에 있어서,
    상기 임계값
    Figure pct00472
    을 결정(12,22,32)하기 위하여, 모든 음원 신호들에 대한 샘플들의 블록에 대해서 신호-대-잡음 비율(SNR)이 계산되고, 상기 임계값
    Figure pct00473
    Figure pct00474
    로 설정되는, 고차 앰비소닉스(HOA) 인코딩 및 디코딩하기 위한 방법 또는 장치.
  7. 명령어들을 포함하는 컴퓨터 프로그램 제품으로서, 컴퓨터 상에서 실행될 때, 제 1 항에 따른 방법을 수행하는 컴퓨터 프로그램 제품.

KR1020167014251A 2013-11-28 2014-11-18 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치 KR102319904B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020217034751A KR102460817B1 (ko) 2013-11-28 2014-11-18 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13306629.0A EP2879408A1 (en) 2013-11-28 2013-11-28 Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
EP13306629.0 2013-11-28
PCT/EP2014/074903 WO2015078732A1 (en) 2013-11-28 2014-11-18 Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020217034751A Division KR102460817B1 (ko) 2013-11-28 2014-11-18 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20160090824A true KR20160090824A (ko) 2016-08-01
KR102319904B1 KR102319904B1 (ko) 2021-11-02

Family

ID=49765434

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167014251A KR102319904B1 (ko) 2013-11-28 2014-11-18 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치
KR1020217034751A KR102460817B1 (ko) 2013-11-28 2014-11-18 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020217034751A KR102460817B1 (ko) 2013-11-28 2014-11-18 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치

Country Status (7)

Country Link
US (3) US9736608B2 (ko)
EP (3) EP2879408A1 (ko)
JP (3) JP6495910B2 (ko)
KR (2) KR102319904B1 (ko)
CN (4) CN107889045A (ko)
HK (3) HK1246554A1 (ko)
WO (1) WO2015078732A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2472456T3 (es) * 2010-03-26 2014-07-01 Thomson Licensing Método y dispositivo para decodificar una representación de un campo ac�stico de audio para reproducción de audio
US9881628B2 (en) * 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio
CN111034225B (zh) * 2017-08-17 2021-09-24 高迪奥实验室公司 使用立体混响信号的音频信号处理方法和装置
JP6920144B2 (ja) * 2017-09-07 2021-08-18 日本放送協会 バイノーラル再生用の係数行列算出装置及びプログラム
US10264386B1 (en) * 2018-02-09 2019-04-16 Google Llc Directional emphasis in ambisonics
CN113115157B (zh) * 2021-04-13 2024-05-03 北京安声科技有限公司 耳机的主动降噪方法及装置、半入耳式主动降噪耳机
CN115938388A (zh) * 2021-05-31 2023-04-07 华为技术有限公司 一种三维音频信号的处理方法和装置
CN117250604B (zh) * 2023-11-17 2024-02-13 中国海洋大学 一种目标反射信号与浅海混响的分离方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013507796A (ja) * 2009-10-07 2013-03-04 ザ・ユニバーシティ・オブ・シドニー 記録された音場の再構築
WO2013171083A1 (en) * 2012-05-14 2013-11-21 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics signal representation

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202700A (ja) * 1991-04-25 1994-07-22 Japan Radio Co Ltd 音声符号化装置
FR2858512A1 (fr) 2003-07-30 2005-02-04 France Telecom Procede et dispositif de traitement de donnees sonores en contexte ambiophonique
CN101151660B (zh) * 2005-03-30 2011-10-19 皇家飞利浦电子股份有限公司 多通道音频编码器、解码器以及相应方法
WO2006126115A2 (en) * 2005-05-25 2006-11-30 Koninklijke Philips Electronics N.V. Predictive encoding of a multi channel signal
KR101312470B1 (ko) * 2007-04-26 2013-09-27 돌비 인터네셔널 에이비 출력 신호 합성 장치 및 방법
GB0817950D0 (en) 2008-10-01 2008-11-05 Univ Southampton Apparatus and method for sound reproduction
US8391500B2 (en) 2008-10-17 2013-03-05 University Of Kentucky Research Foundation Method and system for creating three-dimensional spatial audio
ES2472456T3 (es) * 2010-03-26 2014-07-01 Thomson Licensing Método y dispositivo para decodificar una representación de un campo ac�stico de audio para reproducción de audio
NZ587483A (en) 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2592846A1 (en) * 2011-11-11 2013-05-15 Thomson Licensing Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2645748A1 (en) * 2012-03-28 2013-10-02 Thomson Licensing Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal
KR102079680B1 (ko) * 2012-07-16 2020-02-20 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9685163B2 (en) * 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013507796A (ja) * 2009-10-07 2013-03-04 ザ・ユニバーシティ・オブ・シドニー 記録された音場の再構築
WO2013171083A1 (en) * 2012-05-14 2013-11-21 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics signal representation

Also Published As

Publication number Publication date
JP2020149062A (ja) 2020-09-17
WO2015078732A1 (en) 2015-06-04
EP2879408A1 (en) 2015-06-03
JP6495910B2 (ja) 2019-04-03
US20170006401A1 (en) 2017-01-05
US20170374485A1 (en) 2017-12-28
US10602293B2 (en) 2020-03-24
CN105981410B (zh) 2018-01-02
US9736608B2 (en) 2017-08-15
US10244339B2 (en) 2019-03-26
EP3313100A1 (en) 2018-04-25
KR20210132744A (ko) 2021-11-04
JP2017501440A (ja) 2017-01-12
CN107889045A (zh) 2018-04-06
CN105981410A (zh) 2016-09-28
EP3075172A1 (en) 2016-10-05
KR102460817B1 (ko) 2022-10-31
HK1249323A1 (zh) 2018-10-26
US20190281400A1 (en) 2019-09-12
CN108093358A (zh) 2018-05-29
CN107995582A (zh) 2018-05-04
KR102319904B1 (ko) 2021-11-02
HK1246554A1 (zh) 2018-09-07
EP3075172B1 (en) 2017-12-13
JP6980837B2 (ja) 2021-12-15
HK1248438A1 (zh) 2018-10-12
JP2019082741A (ja) 2019-05-30
JP6707687B2 (ja) 2020-06-10
EP3313100B1 (en) 2021-02-24

Similar Documents

Publication Publication Date Title
KR20160090824A (ko) 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치
KR101633441B1 (ko) 공간적 오디오 처리에서 역상관기의 이용 및 최적 믹싱 행렬들
EP2956934B1 (en) Audio signal enhancement using estimated spatial parameters
EP2956935B1 (en) Controlling the inter-channel coherence of upmixed audio signals
CN106663432A (zh) 对压缩的hoa表示解码的方法和装置以及对压缩的hoa表示编码的方法和装置
TWI760084B (zh) 應用動態範圍壓縮至高階保真立體音響信號之方法和裝置
CN106463132A (zh) 对压缩的hoa表示解码的方法和装置以及对压缩的hoa表示编码的方法和装置
KR102051436B1 (ko) 오디오 신호 처리 장치들 및 방법들
Zhu et al. Fast convolution for binaural rendering based on HRTF spectrum

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant