KR20220025108A - 매개변수 인코딩 및 디코딩 - Google Patents

매개변수 인코딩 및 디코딩 Download PDF

Info

Publication number
KR20220025108A
KR20220025108A KR1020227003875A KR20227003875A KR20220025108A KR 20220025108 A KR20220025108 A KR 20220025108A KR 1020227003875 A KR1020227003875 A KR 1020227003875A KR 20227003875 A KR20227003875 A KR 20227003875A KR 20220025108 A KR20220025108 A KR 20220025108A
Authority
KR
South Korea
Prior art keywords
signal
matrix
information
channels
original
Prior art date
Application number
KR1020227003875A
Other languages
English (en)
Inventor
알렉산드레 보우더온
기욤 푸치스
마르쿠스 물트루스
파비앙 퀴치
올리버 티에르가르트
스테판 바이어
사스카 디쉬
위르겐 헤레
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20220025108A publication Critical patent/KR20220025108A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

인코딩 및 디코딩 기술의 몇 예들이 개시된다. 특히 다운믹스 신호(246, x)로부터 합성 신호(336, 340, yR)를 생성하기 위한 오디오 합성기(300)는: 상기 다운믹스 신호(246, x)를 수신하도록 구성된 입력 인터페이스(312) - 상기 다운믹스 신호(246, x)는 다수의 다운믹스 채널 및 부가 정보(228)를 갖고, 상기 부가 정보(228)는 원본 신호(212, y)의 채널 레벨 및 상관 정보(314, ξ, χ)를 포함하고, 상기 원본 신호(212, y)는 다수의 원래 채널을 가짐 -; 및 적어도 하나의 믹싱 규칙에 따라 상기 합성 신호(336, 340, yR)를 상기 원본 신호(212, y)의 채널 레벨 및 상관 정보(220, 314, ξ, χ) 및 상기 다운믹스 신호(324, 246, x)와 관련된 공분산 정보(Cx)를 사용하여 생성하도록 구성되는 합성 프로세서(404)를 포함한다.

Description

매개변수 인코딩 및 디코딩 {PARAMETER ENCODING AND DECODING}
본 발명은 인코딩 및 디코딩 기술의 몇 가지 예에 관한 것으로, 특히, 예를 들어 DirAC 프레임워크를 사용하여, 낮은 비트 전송률에서 다중 채널 오디오 콘텐츠를 인코딩 및 디코딩하기 위한 기술에 관한 것이다. 이 방법을 사용하면 낮은 비트 전송률을 사용하면서 고품질 출력을 얻을 수 있다. 이것은 예술 제작, 커뮤니케이션 및 가상 현실을 포함한 많은 애플리케이션에 대해 사용될 수 있다.
이 섹션에서는 선행 기술에 대해 간략하게 설명한다.
1.1.1 다중 채널 콘텐츠의 이산 코딩
다중 채널 콘텐츠를 코딩하고 전송하는 가장 간단한 접근 방식은 사전 처리나 가정 없이 다중 채널 오디오 신호의 파형을 직접 정량화하고 인코딩하는 것이다. 이 방법은 이론상 완벽하게 작동하지만, 다중 채널 콘텐츠를 인코딩하는 데 비트 소비가 필요하다는 한 가지 주요 단점이 있다. 따라서 (제안된 발명뿐만 아니라) 설명될 다른 방법은 원본 오디오 다중 채널 신호 자체 대신에 다중 채널 오디오 신호를 설명하고 전송하기 위해 메타 매개변수를 사용하기 때문에, 소위 "매개변수 접근 방식"이라고 말한다.
1.1.2 MPEG 서라운드
MPEG 서라운드는 다중 채널 사운드의 매개변수 코딩을 위해 2006년에 완성된 ISO/MPEG 표준이다[1]. 이 방법은 주로 두 가지 매개변수 세트에 의존한다:
- 주어진 다중 채널 오디오 신호의 각 채널과 모든 채널 간의 일관성을 설명하는, 채널간 일관성(ICC).
- 다중 채널 오디오 신호의 두 입력 채널 간의 레벨 차이에 해당하는 채널 레벨 차(CLD).
MPEG 서라운드의 한 가지 특징은 소위 "트리 구조"를 사용한다는 것으로, 이러한 구조를 통해 "단일 출력 채널을 통해 두 개의 입력 채널을 설명"할 수 있다([1]에서 인용). 예를 들어, MPEG 서라운드를 사용하는 5.1 다중 채널 오디오 신호의 인코더 방식은 다음과 같다. 이 도면에서 6개의 입력 채널(도면에서 "L", "LS", "R","RS", "C" 및 "LFE"로 표시됨)은 트리 구조 요소(도면에서 "R_OTT"로 표시)를 통해 연속적으로 처리된다. 이러한 트리 구조 요소 각각은 매개변수 세트, 앞서 언급한 ICC 및 CLD를 생성할 뿐만 아니라 다른 트리 구조를 통해 다시 처리되고 또 다른 매개변수 세트를 생성할 잔여 신호를 생성한다. 트리의 끝에 도달하면, 이전에 계산된 다른 매개변수와 다운믹스된 신호가 디코더로 전송된다. 이러한 요소는 디코더에 의해 출력 다중 채널 신호를 생성하는 데 사용되며, 디코더 처리는 기본적으로 인코더에 의해 사용하는 역 트리 구조이다.
MPEG 서라운드의 주요 장점은 이 구조와 앞서 언급한 매개변수의 사용에 달려 있다. 그러나 MPEG 서라운드의 단점 중 하나는 트리 구조로 인해 유연성이 부족하다는 것이다. 또한 가공의 특수성으로 인해, 일부 특정 품목에 대해 품질 저하가 발생할 수 있다.
특히, [1]에서 추출한 5.1 신호용 MPEG 서라운드 인코더의 개요를 보여주는 도 7을 참조한다.
1.2. 방향성 오디오 코딩
방향성 오디오 코딩(약어 "DirAC")[2]은 공간 오디오를 재생하는 매개변수 방법으로, 이것은 핀란드 알토 대학의 Ville Pulkki가 개발했다. DirAC는 공간 사운드를 설명하기 위해 두 가지 매개변수 세트를 사용하는 주파수 대역 처리에 의존한다.
- 도착 방향(DOA): 이것은 오디오 신호에서 우세한 소리가 도달하는 방향을 나타내는 각도이다.
- 확산성; 이것은 사운드가 얼마나 "확산"되는지를 설명하는 0과 1 사이의 값이다. 값이 0이면 소리가 확산되지 않고 정확한 각도에서 오는 점과 같은 음원으로 이해될 수 있으며, 값이 1이면 사운드가 완전히 확산되고 "모든" 각도에서 나오는 것으로 간주된다.
출력 신호를 합성하기 위해서, DirAC는 확산 부분과 비확산 부분으로 분해된다고 가정하고, 확산음 합성은 주변 소리의 인지를 생성하는 것을 목표로 하는 반면 직접음 합성은 우세한 소리를 생성하는 것을 목표로 한다.
DirAC는 우수한 품질의 출력을 제공하지만, 한 가지 주요 단점이 있다: 이것은 다중 채널 오디오 신호용이 아니다. 따라서 DOA 및 확산 매개변수는 다중 채널 오디오 입력을 설명하는 데 적합하지 않으며 결과적으로 출력 품질이 영향을 받는다.
1.3. 바이노럴 큐 코딩
바이노럴 큐 코딩(BCC)[3]는 Christof Faller가 개발한 매개변수 접근 방식이다. 이 방법은 MPEG 서라운드(1.1.2 참조)에 대해 설명된 것과 유사한 매개변수 세트에 의존한다. 즉:
- 채널간 레벨 차이(ICLD); 이는 다중 채널 입력 신호의 두 채널 사이의 에너지 비율을 측정한 것이다.
- 채널간 시차(ICTD); 이는 다중 채널 입력 신호의 두 채널 간의 지연을 측정한 것이다.
- 채널간 상관관계(ICC); 이는 다중 채널 입력 신호의 두 채널 간의 상관 관계를 측정한 것이다.
BCC 접근 방식은 후술할 신규 발명과 비교하여 전송할 매개변수의 계산 측면에서 매우 유사한 특성을 갖지만 전송되는 매개변수의 유연성 및 확장성이 부족하다.
1.4. MPEG 공간 오디오 객체 코딩
본 명세서에서 공간 오디오 객체 코딩[4]에 대해 간단히 언급한다. 어느 정도 다중 채널 신호와 관련된 이른바 오디오 객체를 코딩하기 위한 MPEG 표준이다. MPEG 서라운드와 유사한 매개변수를 사용한다.
1.5 선행 기술의 동기/단점
1.5. 동기
1.5.1.1 DirAC 프레임워크 사용
언급되어야 하는 본 발명의 한 측면은 본 발명이 DirAC 프레임워크 내에 맞아야 한다는 것이다. 그럼에도 불구하고 DirAC의 매개변수는 다중 채널 오디오 신호에 적합하지 않다는 점도 앞서 언급했다. 이 주제에 대해 몇 가지 추가 설명이 제공된다.
원래 DirAC 처리는 마이크 신호 또는 앰비소닉 신호를 사용한다. 이러한 신호에서 DOA(도착 방향) 및 확산과 같은 매개변수가 계산된다.
다중 채널 오디오 신호와 함께 DirAC를 사용하기 위해 시도된 제 1 접근 방식은 [5]에 설명된 Ville Pulkki가 제안한 방법을 사용하여 다중 채널 신호를 앰비소닉 콘텐츠로 변환하는 것이었다. 그런 다음 이러한 앰비소닉 신호가 다중 채널 오디오 신호에서 파생되면 DOA 및 확산을 사용하여 일반 DirAC 처리가 수행되었다. 이 제 1 시도의 결과는 출력 다중 채널 신호의 품질과 공간적 특성이 저하되고 대상 애플리케이션의 요구 사항을 충족하지 못했다는 것이다.
따라서 본 새로운 발명의 주요 동기는 다중 채널 신호를 효율적으로 설명하고 DirAC 프레임워크를 사용하는 매개변수 세트를 사용하기 위한 것으로, 섹션 1.1.2에서 더 상세히 설명한다.
1.5.1.2 낮은 비트 전송률에서 작동하는 시스템 제공
본 발명의 목적 중 하나는 낮은 비트 전송률 애플리케이션을 허용하는 접근 방식을 제안하는 것이다. 이를 위해서는 인코더와 디코더 사이의 다중 채널 콘텐츠를 설명하기 위한 최적의 데이터 세트를 찾아야 한다. 또한 전송된 매개변수의 수와 출력 품질의 측면에서 최적의 절충안을 찾아야 한다.
1.5.1.3 유연한 시스템 제공
본 발명의 또 다른 중요한 목표는 임의의 확성기 설정에서 재생되도록 의도된 임의의 다중 채널 오디오 형식을 수용할 수 있는 유연한 시스템을 제안하는 것이다. 입력 설정에 따라 출력 품질이 손상되지 않아야 한다.
1.5.2 선행 기술의 단점
아래 표에 나열된 몇 가지 단점으로 이전에 언급된 선행 기술.
결점 관심가는 선행 기술 코멘트
부적합한 비트 전송률 다중 채널 컨텐츠의 이산 코딩 다중 채널 콘텐츠의 직접 코딩은 우리의 요구 사항과 대상 애플리케이션에 대해 너무 높은 비트 전송률로 이어진다.
부적합한 매개변수/디스크립션 레거시 DirAC 기존 DirAC 방법은 매개변수를 설명하는 데 확산성과 DOA를 사용하고, 이러한 매개변수는 다중 채널 오디오 신호를 설명하는 데 적합하지 않다.
접근방법의 유연성 부족 MPEG 서라운드 BCC MPEG Surround 및 BCC는 대상 애플리케이션의 요구 사항과 관련하여 충분히 유연하지 않다.
2. 발명의 설명
2.1 발명의 요약
일 측면에 따르면, 다운믹스 신호로부터 합성 신호를 생성하기 위한 오디오 합성기가 제공되며, 상기 합성 신호는 다수의 합성 채널을 가지며, 상기 합성기는:
상기 다운믹스 신호를 수신하도록 구성된 입력 인터페이스 - 상기 다운믹스 신호는 다수의 다운믹스 채널 및 부가 정보를 갖고, 상기 부가 정보는 원본 신호의 채널 레벨 및 상관 정보를 포함하고, 상기 원본 신호는 다수의 원래 채널을 가짐 -; 및
적어도 하나의 믹싱 규칙에 따라 상기 합성 신호를:
상기 원본 신호의 채널 레벨 및 상관 정보; 및
상기 다운믹스 신호와 관련된 공분산 정보를 사용하여 생성하도록 구성되는, 합성 프로세서를 포함한다.
상기 오디오 합성기는 상기 다운믹스 신호로부터 프로토타입 신호를 계산하도록 구성된 프로토타입 신호 계산기 - 상기 프로토타입 신호는 상기 다수의 합성 채널을 가짐 - ;
적어도 하나의 믹싱 규칙을:
상기 원본 신호의 채널 레벨 및 상관 정보; 및
상기 다운믹스 신호와 관련된 공분산 정보
를 사용하여 계산하도록 구성된 믹싱 규칙 계산기를 더 포함할 수 있고,
상기 합성 프로세서는 상기 프로토타입 신호 및 상기 적어도 하나의 믹싱 규칙을 사용하여 상기 합성 신호를 생성하도록 구성된다.
상기 오디오 합성기는 상기 원본 신호의 타겟 공분산 정보를 재구성하도록 구성될 수 있다.
상기 오디오 합성기는 상기 합성 신호의 채널 수에 적응된 상기 타겟 공분산 정보를 재구성하도록 구성될 수 있다.
상기 오디오 합성기는 상기 합성 신호의 채널 수에 적응된 공분산 정보를 원본 채널 그룹을 단일 합성 채널에 할당하거나 그 반대로 할당하여 재구성하여, 상기 재구성된 타겟 공분산 정보가 상기 합성 신호의 채널 수에 보고되도록 구성될 수 있다.
상기 오디오 합성기는 상기 원본 채널의 수에 대해 상기 타겟 공분산 정보를 생성하고 이어서 상기 합성 채널에 대해 상기 타겟 공분산에 도달하기 위해 다운 믹싱 규칙 또는 업 믹싱 규칙 및 에너지 보상을 적용하여 상기 합성 신호의 채널 수에 적응된 상기 공분산 정보를 재구성하도록 구성될 수 있다.
상기 오디오 합성기는 상기 원본 공분산 정보의 추정 버전을 기반으로 공분산 정보의 타겟 버전을 재구성하도록 구성되고, 상기 원본 공분산 정보의 상기 추정 버전은 상기 합성 채널의 수 또는 상기 원본 채널의 수로 보고된다.
상기 오디오 합성기는 상기 다운믹스 신호와 연관된 공분산 정보로부터 상기 원본 공분산 정보의 상기 추정 버전을 획득하도록 구성될 수 있다.
상기 오디오 합성기는 상기 다운믹스 신호와 연관된 상기 공분산 정보에, 상기 프로토타입 신호를 계산하기 위한 프로토타입 규칙이거나 이와 연관된 추정 규칙을 적용하여 상기 원본 공분산 정보의 상기 추정 버전을 획득하도록 구성될 수 있다.
상기 오디오 합성기는 적어도 한 쌍의 채널에 대해, 상기 원본 공분산 정보의 상기 추정 버전을 상기 채널 쌍의 상기 채널의 레벨의 제곱근으로 정규화하도록 구성될 수 있다.
상기 오디오 합성기는 상기 원본 공분산 정보의 상기 정규화된 추정 버전으로 행렬을 이해하도록 구성될 수 있다.
상기 오디오 합성기는 상기 비트스트림의 상기 부가 정보에서 얻은 항목을 삽입하여 상기 행렬을 완성하도록 구성될 수 있다.
상기 오디오 합성기는 상기 원본 공분산 정보의 상기 추정 버전을 상기 채널 쌍을 형성하는 상기 채널 레벨의 제곱근으로 스케일링하여 상기 행렬을 비정규화하도록 구성될 수 있다.
상기 오디오 합성기는 상기 다운믹스 신호의 상기 부가 정보 중에서, 채널 레벨 및 상관 정보를 검색하도록 구성되고, 상기 오디오 합성기는 상기 원본 채널 레벨 및 상관 정보의 추정 버전에 의해 상기 공분산 정보의 목표 버전을,
적어도 하나의 제 1 채널 또는 한 쌍의 채널에 대한 공분산 정보; 및
적어도 하나의 제 2 채널 또는 한 쌍의 채널에 대한 채널 레벨 및 상관 정보
로부터 재구성하도록 더욱 구성될 수 있다.
상기 오디오 합성기는 상기 동일한 채널 또는 한 쌍의 채널에 대해 상기 다운믹스 신호로부터 재구성된 상기 공분산 정보 대신에 상기 비트스트림의 상기 부가 정보로부터 획득된 상기 채널 또는 한 쌍의 채널을 설명하는 상기 채널 레벨 및 상관 정보를 선호하도록 구성될 수 있다.
상기 오디오 합성기는 상기 원본 공분산 정보의 상기 재구성된 목표 버전은 두 채널 간의 에너지 관계를 설명하거나, 적어도 부분적으로 상기 한 쌍의 채널 중 각 채널과 관련된 레벨에 기반한다고 이해될 수 있다.
상기 오디오 합성기는 상기 다운믹스 신호의 주파수 영역(FD) 버전을 획득하도록 구성되고, 상기 다운믹스 신호의 상기 FD 버전은 대역 또는 대역 그룹으로 분할되고, 상이한 채널 레벨 및 상관 정보는 상이한 대역 또는 대역 그룹과 연관되며,
상기 오디오 합성기는 상이한 대역 또는 대역 그룹에 대해 상이한 믹싱 규칙을 획득하기 위해서, 상이한 대역 또는 대역 그룹에 대해 상이하게 동작하도록 구성된다.
상기 다운믹스 신호는 슬롯으로 분할되고, 상이한 채널 레벨 및 상관 정보는 상이한 슬롯과 연관되고, 상기 오디오 합성기는 상이한 슬롯에 대해 상이하게 작동하여 상이한 슬롯에 대해 상이한 믹싱 규칙을 얻도록 구성된다.
상기 다운믹스 신호는 프레임으로 분할되고 각 프레임은 슬롯으로 분할되며, 상기 오디오 합성기는, 한 프레임에서 상기 과도 현상의 존재와 위치가 하나의 과도 슬롯에 있는 것으로 시그널링되는 경우:
상기 현재 채널 레벨 및 상관 정보를 상기 과도 슬롯 및/또는 상기 프레임의 과도 슬롯에 후속하는 슬롯에 연관시키고;
상기 선행 슬롯의 상기 채널 레벨 및 상관 정보를 상기 과도 슬롯에 선행하는 상기 프레임의 슬롯에 연관시킨다.
상기 오디오 합성기는 프로토타입 신호를 계산하도록 구성된 프로토타입 규칙을 상기 합성 채널의 수에 기초하여 선택하도록 구성될 수 있다.
상기 오디오 합성기는 미리 저장된 복수의 프로토타입 규칙 중에서 프로토타입 규칙을 선택하도록 구성될 수 있다.
상기 오디오 합성기는 수동 선택을 기반으로 프로토타입 규칙을 정의하도록 구성될 수 있다.
상기 오디오 합성기는 상기 프로토타입 규칙은 제 1 치수 및 제 2 치수를 갖는 행렬을 포함하며, 상기 제 1 치수는 다운믹스 채널의 수와 연관되며, 상기 제 2 치수는 상기 합성 채널의 수와 연관된다.
상기 오디오 합성기는 160kbit/s 이하의 비트 전송률에서 작동하도록 구성될 수 있다.
상기 오디오 합성기는 상기 부가 정보와 함께 상기 다운믹스 신호를 획득하기 위한 엔트로피 디코더를 더 포함할 수 있다.
상기 오디오 합성기는 상이한 채널들 간의 상관의 양을 감소시키기 위해 역상관 모듈를 더 포함할 수 있다.
상기 오디오 합성기는 상기 프로토타입 신호는 역상관을 수행하지 않고 상기 합성 프로세서에 직접 제공될 수 있다.
상기 원본 신호의 상기 채널 레벨 및 상관 정보, 상기 적어도 하나의 믹싱 규칙 및 상기 다운믹스 신호와 관련된 상기 공분산 정보 중 적어도 하나는 행렬의 형태로 되어 있다.
상기 부가 정보는 상기 원래 채널의 식별을 포함하고;
상기 오디오 합성기는 상기 원본 신호의 상기 채널 레벨 및 상관 정보, 상기 다운믹스 신호와 관련된 공분산 정보, 상기 원본 채널의 식별 및 상기 합성 채널의 식별 중 적어도 하나를 사용하여 상기 적어도 하나의 믹싱 규칙을 계산하도록 더욱 구성될 수 있다.
상기 오디오 합성기는 특이 값 분해(SVD)에 의해 적어도 하나의 믹싱 규칙을 계산하도록 구성될 수 있다.
상기 다운믹스 신호는 프레임으로 분할되며, 상기 오디오 합성기는 선행 프레임에 대해 획득된 매개변수, 추정 또는 재구성된 값, 또는 혼합 행렬과의 선형 조합을 사용하여 수신된 매개변수, 추정 또는 재구성된 값, 또는 혼합 행렬을 평활화하도록 구성될 수 있다.
상기 오디오 합성기는 한 프레임에서 과도 현상의 존재 및/또는 위치가 시그널링될 때, 상기 수신된 매개변수, 추정 또는 재구성된 값, 또는 혼합 행렬의 상기 평활화를 비활성화하도록 구성될 수 있다.
상기 오디오 합성기는 상기 다운믹스 신호는 프레임으로 분할되고 프레임은 슬롯으로 분할되며, 상기 원본 신호의 상기 채널 레벨 및 상관 정보는 프레임 단위 방식으로 상기 비트스트림의 상기 부가 정보로부터 획득되며, 상기 오디오 합성기는 현재 프레임에 대해, 상기 현재 프레임에 대해 계산된 믹싱 규칙을, 상기 현재 프레임의 상기 후속 슬롯을 따라 증가하는 계수에 의해 스케일링하고, 상기 현재 프레임의 상기 후속 슬롯을 따라 감소하는 계수에 의해 스케일링된 버전의 상기 이전 프레임에 대해 사용된 상기 믹싱 규칙을 추가하여 획득된 믹싱 규칙을 사용하도록 구성될 수 있다.
상기 합성 채널의 수는 상기 원본 채널의 수보다 클 수 있다.
상기 합성 채널의 수는 상기 원본 채널의 수보다 작을 수 있다.
합성 채널의 수 및 원본 채널의 수는 다운믹스 채널의 수 보다 더 클 수 있다.
상기 합성 채널 수, 상기 원본 채널의 수 및 상기 다운믹스 채널의 수 중 적어도 하나는 복수 개이다.
상기 적어도 하나의 믹싱 규칙은 제 1 혼합 행렬 및 제 2 혼합 행렬을 포함하고, 상기 오디오 합성기는:
상기 합성 신호와 관련된 공분산 행렬, - 상기 공분산 행렬은 상기 채널 레벨 및 상관 정보로부터 재구성됨 - ; 및
상기 다운믹스 신호와 관련된 공분산 행렬
로부터 계산된 상기 제1 혼합 행렬에 따라 상기 합성 신호의 제1 성분을 합성하도록 구성된 제1 혼합 행렬 블록
을 포함하는 제1 경로:
상기 합성 신호의 제2 성분을 합성하기 위한 제2 경로
를 포함하고, 상기 제2 성분은 잔차 성분이고, 상기 제 2 경로는:
상기 다운믹스 신호를 상기 다운믹스 채널의 수로부터 상기 합성 채널의 수로 업 믹싱하도록 구성된 프로토타입 신호 블록;
상기 업믹스된 프로토타입 신호를 역상관하도록 구성된 역상관기;
상기 다운믹스 신호의 상기 역상관된 버전으로부터 제 2 혼합 행렬에 따라 상기 합성 신호의 상기 제2 성분을 합성하도록 구성된 제2 혼합 행렬 블록, - 상기 제 2 혼합 행렬은 잔차 혼합 행렬임 -
을 포함할 수 있고,
상기 오디오 합성기는:
상기 제1 혼합 행렬 블록에 의해 제공되는 잔차 공분산 행렬; 및
상기 다운믹스 신호와 연관된 상기 공분산 행렬로부터 획득된 상기 역상관된 프로토타입 신호의 상기 공분산 행렬의 추정값
으로부터 상기 제2 혼합 행렬를 추정하도록 구성되고,
상기 오디오 합성기는 상기 합성 신호의 상기 제1 성분을 상기 합성 신호의 상기 제2 성분과 합산하기 위한 가산기 블록을 더 포함한다.
일 측면에 따르면, 다수의 다운믹스 채널을 갖는 다운믹스 신호로부터 합성 신호를 생성하는 오디오 합성기가 제공되며, 상기 합성 신호는 다수의 합성 채널을 갖고, 상기 다운믹스 신호는 다수의 원본 채널을 갖는 원본 신호의 다운믹스된 버전이고, 상기 오디오 합성기는:
상기 합성 신호의 제1 성분을:
상기 합성 신호와 관련된 공분산 행렬; 및
상기 다운믹스 신호와 관련된 공분산 행렬
로부터 계산된 상기 제1 혼합 행렬에 따라 합성하도록 구성된 제1 혼합 행렬 블록
을 포함하는 제1 경로:
상기 합성 신호의 제2 성분을 합성하기 위한 제2 경로
를 포함하고, 상기 제2 성분은 잔차 성분이고, 상기 제 2 경로는:
상기 다운믹스 채널의 수로부터 합성 채널의 수로 상기 다운믹스 신호를 업 믹싱하도록 구성된 프로토타입 신호 블록;
상기 업믹스된 프로토타입 신호를 역상관하도록 구성된 역상관기;
상기 다운믹스 신호의 상기 역상관된 버전으로부터 제2 혼합 행렬에 따라 상기 합성 신호의 상기 제2 성분을 합성하도록 구성된 제2 혼합 행렬 블록 - 상기 제 2 혼합 행렬은 잔차 혼합 행렬임 -
을 포함하고,
상기 오디오 합성기는:
상기 제1 혼합 행렬 블록에 의해 제공되는 상기 잔차 공분산 행렬; 및
상기 다운믹스 신호와 연관된 상기 공분산 행렬로부터 획득된 상기 역상관된 프로토타입 신호의 상기 공분산 행렬의 추정값
으로부터 상기 제2 혼합 행렬을 계산하도록 구성되고,
상기 오디오 합성기는 상기 합성 신호의 상기 제1 성분을 상기 합성 신호의 상기 제2 성분과 합산하기 위한 가산기 블록을 더 포함한다.
상기 오디오 합성기는 상기 잔차 공분산 행렬은, 상기 합성 신호와 관련된 상기 공분산 행렬에서 상기 다운믹스 신호와 연관된 상기 공분산 행렬에 상기 제1 혼합 행렬을 적용하여 획득한 행렬을 감하는 것으로 획득된다.
상기 오디오 합성기는 상기 제 2 혼합 행렬을:
상기 합성 신호와 관련한 상기 잔차 공분산 행렬을 분해하여 얻은 제 2 행렬;
상기 역상관된 프로토타입 신호의 상기 공분산 행렬의 추정값에서 얻은 대각선 행렬의 역행렬 또는 정규화된 역행렬인 제 1 행렬
로부터 정의하도록 구성될 수 있다.
상기 오디오 합성기는 상기 대각선 행렬은 역상관된 프로토타입 신호의 상기 공분산 행렬의 주 대각선 요소에 상기 제곱근 함수를 적용함으로써 획득될 수 있다.
상기 오디오 합성기는 상기 제 2 행렬은 상기 합성 신호와 관련된 상기 잔여 공분산 행렬에 적용되는, 특이 값 분해(SVD)에 의해 획득될 수 있다.
상기 오디오 합성기는 상기 제 2 혼합 행렬을, 상기 역상관된 프로토타입 신호의 상기 공분산 행렬의 추정치 및 제 3 행렬로부터 획득한 상기 대각선 행렬의 역 또는 정규화된 역 행렬과 상기 제 2 행렬의 곱으로 정의하도록 구성될 수 있다.
상기 오디오 합성기는 상기 역상관된 프로토타입 신호의 상기 공분산 행렬의 정규화 버전에서 얻은 행렬에 적용된 SVP에 의해 상기 제 3 행렬을 획득하도록 구성되고, 상기 정규화는 상기 주 대각선에 대한 상기 잔차 공분산 행렬, 상기 대각선 행렬 및 상기 제 2 행렬이다.
상기 오디오 합성기는 상기 제 1 혼합 행렬을 제 2 행렬 및 제 2 행렬의 역행렬 또는 정규화된 역행렬로부터 정의하도록 구성될 수 있고,
상기 제2 행렬은 상기 다운믹스 신호와 관련된 상기 공분산 행렬을 분해함으로써 획득되고,
상기 제2 행렬은 상기 다운믹스 신호와 관련된 상기 재구성된 타겟 공분산 행렬을 분해함으로써 획득된다.
상기 오디오 합성기는 상기 다운믹스 신호를 상기 다운믹스 채널의 수에서 상기 합성 채널의 수로 업 믹싱하기 위해 상기 다운믹스 신호와 관련된 상기 공분산 행렬에 상기 프로토타입 블록에서 사용되는 상기 프로토타입 규칙을 적용하는 것으로 획득된 상기 행렬의 상기 대각선 항목으로부터 상기 역상관된 프로토타입 신호의 상기 공분산 행렬을 추정하도록 구성될 수 있다.
상기 대역은 집계된 대역의 그룹으로 서로 집계되고, 상기 집합된 대역의 그룹에 대한 정보는 상기 비트스트림의 상기 부가 정보에 제공되고, 상기 원본 신호의 상기 채널 레벨 및 상관 정보는 동일한 집계 그룹의 대역의 상이한 대역에 대해 동일한 적어도 하나의 혼합 행렬을 계산하기 위해서 대역의 각 그룹별로 제공된다.
일 측면에 따르면, 원본 신호로부터 다운믹스 신호를 생성하기 위한 오디오 인코더가 제공되며, 상기 원본 신호는 복수의 원본 채널을 갖고, 상기 다운믹스 신호는 다수의 다운믹스 채널을 갖고, 상기 오디오 인코더는:
상기 원본 신호의 채널 레벨 및 상관 정보를 추정하도록 구성된 매개변수 추정기, 및
상기 다운믹스 신호를 비트스트림으로 인코딩하여, 상기 다운믹스 신호가 상기 원본 신호의 채널 레벨 및 상관 정보를 포함하는 부가 정보를 갖기 위해 상기 비트스트림에서 인코딩되도록 하는 비트스트림 기록기를 포함한다.
상기 오디오 인코더는 상기 원본 신호의 상기 채널 레벨 및 상관 정보를 정규화된 값으로 제공하도록 구성될 수 있다.
상기 오디오 인코더는 상기 부가 정보에서 인코딩된 상기 원본 신호의 상기 채널 레벨 및 상관 정보는 적어도 상기 원본 채널의 전체성과 연관된 적어도 채널 레벨 정보를 포함하거나 나타낸다.
상기 부가 정보에서 인코딩된 상기 원본 신호의 상기 채널 레벨 및 상관 정보는 적어도 한 쌍의 상이한 원본 채널 간의 에너지 관계를 설명하는 적어도 상관 정보를 포함하거나 나타내지만, 원래 채널의 전체 수보다 적다.
상기 원본 신호의 상기 채널 레벨 및 상관 정보는 한 쌍의 원본 채널의 두 채널 간의 상기 일관성을 설명하는 적어도 하나의 일관성 값을 포함한다.
상기 일관성 값은 정규화될 수 있다.
상기 일관성 값은
Figure pat00001
일 수 있으며,
여기서 Cyi,j는 채널 i와 j 사이의 공분산이며, Cyi,i 및 Cyj,j는 각각 채널 i 및 j와 관련된 레벨이다.
상기 원본 신호의 상기 채널 레벨 및 상관 정보는 적어도 하나의 채널간 레벨 차 ICLD를 포함한다.
상기 적어도 하나의 ICLD는 대수 값으로 제공될 수 있다.
상기 적어도 하나의 ICLD는 정규화될 수 있다.
상기 ICLD는:
Figure pat00002
일 수 있으며,
여기서 χi는 채널 i에 대한 ICLD이고,
Pi는 상기 현재 채널 i의 전력이고,
Pdmx,i는 상기 다운믹스 신호의 상기 공분산 정보 값의 선형 조합이다.
상기 오디오 인코더는 상기 부가 정보에 상대적으로 낮은 페이로드의 경우 채널 레벨 및 상관 정보의 증가된 양을 포함하기 위해서, 상기 상태 정보에 기초하여 상기 원본 신호의 상기 채널 레벨 및 상관 정보의 적어도 일부를 인코딩할지 여부를 선택하도록 구성될 수 있다.
상기 오디오 인코더는 상기 부가 정보에 더 민감한 메트릭과 연관된 채널 레벨 및 상관 정보를 포함하기 위해서, 상기 원본 신호의 상기 채널 레벨 및 상관 정보의 어느 부분이 상기 채널에 대한 메트릭에 기초하여 상기 부가 정보에서 인코딩되어야 하는지를 선택하도록 구성될 수 있다.
상기 원본 신호의 상기 채널 레벨 및 상관 정보는 행렬의 항목 형태로 되어 있을 수 있다.
상기 행렬은 대칭적 또는 에르미트이고, 상기 채널 레벨 및 상관 정보의 상기 항목은 상기 행렬의 상기 대각선에 있는 상기 항목의 전체 모두 또는 미만, 및/또는 상기 행렬의 상기 비대각선 요소의 절반 미만에 대해 제공될 수 있다.
상기 비트스트림 기록기는 적어도 하나의 채널의 식별을 인코딩하도록 구성될 수 있다.
상기 오디오 인코더는 상기 원본 신호 또는 이의 처리된 버전은 동일한 시간 길이의 다수의 후속 프레임으로 분할될 수 있다.
상기 오디오 인코더는 상기 부가 정보에서 각 프레임에 대해 고유한 상기 원본 신호의 채널 레벨 및 상관 정보를 인코딩하도록 구성될 수 있다.
상기 오디오 인코더는 상기 부가 정보에서, 복수의 연속 프레임에 집합적으로 연관된 상기 원본 신호의 동일한 채널 레벨 및 상관 정보를 인코딩하도록 구성될 수 있다.
상기 오디오 인코더는 상대적으로 더 높은 비트 전송률 또는 더 높은 페이로드가 상기 원본 신호의 상기 동일한 채널 레벨 및 상관 정보가 연관되는 연속 프레임 수의 증가를 의미하며 그 반대도 의미하도록, 상기 원본 신호의 상기 동일한 채널 레벨 및 상관 정보가 선택되는 연속 프레임의 수를 선택하도록 구성될 수 있다.
상기 오디오 인코더는 과도 현상의 검출시 상기 원본 신호의 상기 동일한 채널 레벨 및 상관 정보가 연관되는 연속 프레임의 수를 줄이도록 구성될 수 있다.
각 프레임은 정수 개수의 연속 슬롯으로 세분화될 수 있다.
상기 오디오 인코더는 각 슬롯에 대한 상기 채널 레벨 및 상관 정보를 추정하고 상이한 슬롯들에 대해 추정된 상기 채널 레벨과 상관 정보의 합 또는 평균 또는 다른 미리 결정된 선형 조합을 상기 부가 정보에서 인코딩하도록 구성될 수 있다.
상기 오디오 인코더는 상기 프레임 내 과도 현상의 발생을 결정하기 위해 상기 프레임의 시간 영역 버전에 대해 과도 분석을 수행하도록 구성될 수 있다.
상기 오디오 인코더는 상기 프레임의 어느 슬롯에서 상기 과도 현상이 발생했는지를 결정하고:
상기 과도 현상에 선행하는 슬롯과 관련된 상기 원본 신호의 채널 레벨 및 상관 정보를 인코딩하지 않고, 상기 과도 현상이 발생한 슬롯 및/또는 상기 프레임의 후속 슬롯과 관련된 상기 원본 신호의 상기 채널 레벨 및 상관 정보를 인코딩하도록 구성될 수 있다.
상기 오디오 인코더는 상기 부가 정보에서, 상기 프레임의 한 슬롯에서 발생하는 상기 과도 현상의 발생을 시그널링하도록 구성될 수 있다.
상기 오디오 인코더는 상기 부가 정보에서, 상기 프레임의 어느 슬롯에서 과도 현상이 발생했는지를 시그널링 구성될 수 있다.
상기 오디오 인코더는 상기 프레임의 다중 슬롯과 연관된 상기 원본 신호의 채널 레벨 및 상관 정보를 추정하고, 이들을 합산하거나 평균화하거나 선형적으로 결합하여 상기 프레임과 관련된 채널 레벨 및 상관 정보를 획득하도록 구성될 수 있다.
상기 원본 신호는 주파수 영역 신호로 변환되고, 상기 오디오 인코더는 상기 부가 정보에서 상기 원본 신호의 상기 채널 레벨 및 상관 정보를 대역별 방식으로 인코딩하도록 구성될 수 있다.
상기 오디오 인코더는 상기 부가 정보에서 상기 원본 신호의 상기 채널 레벨 및 상관 정보를 통합 대역별로 인코딩하기 위해서, 상기 원본 신호의 대역 수를 더 감소된 대역 수로 집계하도록 구성될 수 있다.
상기 오디오 인코더는 상기 프레임에서 과도 현상을 감지한 경우:
상기 대역의 수가 감소되고; 및/또는
적어도 하나의 대역의 너비는 다른 대역과의 집계에 의해 증가되도록
상기 대역을 더욱 집계하도록 구성될 수 있다.
상기 오디오 인코더는 상기 비트스트림에서, 이전에 인코딩된 채널 레벨 및 상관 정보에 대한 증분으로서 한 대역의 적어도 하나의 채널 레벨 및 상관 정보를 인코딩하도록 더욱 구성될 수 있다.
상기 오디오 인코더는 상기 비트스트림의 상기 부가 정보에서, 상기 추정기(218)에 의해 추정된 상기 채널 레벨 및 상관 정보에 대한 상기 채널 레벨 및 상관 정보의 불완전한 버전을 인코딩하도록 구성될 수 있다.
상기 오디오 인코더는 상기 추정기에 의해 추정된 전체 채널 레벨 및 상관 정보 중에서, 상기 비트스트림의 상기 부가 정보에서 인코딩될 선택된 정보를 적응적으로 선택하여, 상기 추정기에 의해 추정된 나머지 선택되지 않은 정보 채널 레벨 및/또는 상관 정보는 인코딩되지 않도록 구성될 수 있다.
상기 오디오 인코더는 상기 선택된 채널 레벨 및 상관 정보로부터 채널 레벨 및 상관 정보를 재구성하여, 이에 의해 상기 디코더에서 선택되지 않은 채널 레벨 및 상관 정보의 추정을 시뮬레이션하고,
상기 인코더에 의해 추정된 상기 선택되지 않은 채널 레벨 및 상관 정보; 및
상기 디코더에서 인코딩되지 않은 채널 레벨 및 상관 정보의 추정을 시뮬레이션함으로써 재구성된 상기 선택되지 않은 채널 레벨 및 상관 정보
간의 오류 정보를 계산하고,
상기 계산된 오류 정보를 기반으로,
적절하게 재구성 가능한 채널 레벨 및 상관 정보와;
비적절하게 재구성 가능한 채널 레벨 및 상관 정보
구별하고,
상기 비트스트림의 상기 부가 정보에 인코딩될 상기 비적절하게 재구성 가능한 채널 레벨 및 상관 정보의 선택; 및
상기 적절하게 재구성 가능한 채널 레벨 및 상관 정보의 비선택
에 대해 결정하여, 상기 비트스트림의 상기 부가 정보에서 상기 적절하게 재구성 가능한 채널 레벨 및 상관 정보의 인코딩을 억제하도록 구성될 수 있다.
상기 오디오 인코더는 상기 채널 레벨 및 상관 정보는 미리 결정된 순서에 따라 인덱싱되고, 상기 인코더는 상기 비트스트림의 상기 부가 정보에서 상기 미리 결정된 순서와 관련된 인덱스를 시그널링하도록 구성되며, 상기 인덱스는 상기 채널 레벨 및 상관 정보 중 어느 것이 인코딩되는지를 나타낸다.
상기 인덱스는 비트맵을 통해 제공될 수 있다.
상기 인덱스는 1차원 인덱스를 행렬의 항목과 연관시키는 결합 숫자 체계에 따라 정의될 수 있다.
상기 오디오 인코더는 상기 미리 결정된 순서와 관련된 인덱스가 상기 비트스트림의 상기 부가 정보에서 인코딩되는, 상기 채널 레벨 및 상관 정보의 적응적 제공; 및
인코딩된 상기 채널 레벨 및 상관 정보가 인덱스의 제공 없이, 미리 결정되고 미리 결정된 고정된 순서에 따라 정렬되도록 하는 상기 채널 레벨 및 상관 정보의 고정적 제공 사이에서 선택을 수행하도록 구성될 수 있다.
상기 오디오 인코더는 상기 비트스트림의 상기 부가 정보에서, 채널 레벨 및 상관 정보가 적응 제공 또는 고정 제공에 따라 제공되는지를 시그널링하도록 구성될 수 있다.
상기 오디오 인코더는 상기 비트스트림에서, 현재 채널 레벨 및 상관 정보를 이전 채널 레벨 및 상관 정보에 대한 증분으로서 인코딩하도록 더욱 구성될 수 있다.
상기 오디오 인코더는 정적 다운 믹싱에 따라 상기 다운믹스 신호를 생성하도록 더욱 구성될 수 있다.
일 측면에 따르면, 다운믹스 신호로부터 합성 신호를 생성하는 방법이 제공되며, 상기 합성 신호는 다수의 합성 채널을 가지고, 상기 방법은:
다운믹스 신호를 수신하는 단계, - 상기 다운믹스 신호는 다수의 다운믹스 채널 및 부가 정보를 가지고, 상기 부가 정보는 원본 신호의 채널 레벨 및 상관 정보를 가지고, 상기 원본 신호는 다수의 원본 채널을 가짐 - ; 및
상기 원본 신호의 상기 채널 레벨 및 상관 정보 및 상기 신호와 관련된 공분산 정보를 사용하여 상기 합성 신호를 생성하는 단계를 포함한다.
상기 방법은:
상기 다운믹스 신호로부터 프로토타입 신호를 계산하는 단계 - 상기 프로토타입 신호는 다수의 합성 채널을 가짐 - ;
상기 원본 신호의 상기 채널 레벨 및 상관 정보 및 상기 다운믹스 신호와 관련된 공분산 정보를 이용하여 믹싱 규칙을 계산하는 단계; 및
상기 프로토타입 신호와 상기 믹싱 규칙을 사용하여 상기 합성 신호를 생성하는 단계를 더 포함한다.
일 측면에 따르면, 원본 신호로부터 다운믹스 신호를 생성하는 방법이 제공되며, 상기 원본 신호는 다수의 원래 채널을 가지고, 상기 다운믹스 신호는 다수의 다운믹스 채널을 가지고, 상기 방법은:
상기 원본 신호의 채널 레벨 및 상관 정보를 추정하는 단계; 및
상기 다운믹스 신호가 상기 원본 신호의 채널 레벨 및 상관 정보를 포함하는 부가 정보를 갖도록 상기 비트스트림에서 인코딩되도록 상기 다운믹스 신호를 비트스트림으로 인코딩하는 단계를 포함한다.
일 측면에 따르면, 다수의 다운믹스 채널을 갖는 다운믹스 신호로부터 합성 신호를 생성하는 방법이 제공되며, 상기 합성 신호는 다수의 합성 채널을 갖고, 상기 다운믹스 신호는 다수의 원본 채널을 갖는 원본 신호의 다운믹스된 버전이고, 상기 방법은:
상기 합성 신호와 관련된 공분산 행렬; 및
상기 다운믹스 신호와 관련된 공분산 행렬
로부터 계산된 제1 혼합 행렬에 따라 상기 합성 신호의 제1 성분을 합성하는 단계
를 포함하는 제 1 페이즈: 및
상기 합성 신호의 제2 성분을 합성하기 위한 제 2 페이즈
를 포함하고, 상기 제 2 성분은 잔여 성분이고, 상기 제 2 페이즈는:
상기 다운믹스 채널 수에서 상기 합성 채널 수로 상기 다운믹스 신호를 업 믹싱하는 프로토타입 신호 단계;
상기 업믹스된 프로토타입 신호(613c)를 역상관하는 역상관기 단계;
상기 다운믹스 신호의 상기 역상관된 버전으로부터 제2 혼합 행렬에 따라 상기 합성 신호의 상기 제2 성분을 합성하는 제2 혼합 행렬 단계
를 포함하고, 상기 제 2 혼합 행렬은 잔차 혼합 행렬이고,
상기 방법은 상기 제 2 혼합 행렬을:
상기 제1 혼합 행렬 단계에 의해 제공된 상기 잔차 공분산 행렬; 및
상기 다운믹스 신호와 연관된 상기 공분산 행렬로부터 획득된 상기 역상관된 프로토타입 신호의 상기 공분산 행렬의 추정값
으로부터 계산하고,
상기 방법은 상기 합성 신호의 상기 제 1 성분을 상기 합성 신호의 상기 제 2 성분(336R')과 합산하여, 상기 합성 신호를 획득하는 가산기 단계를 더 포함한다.
일 측면에 따르면, 다운믹스 신호로부터 합성 신호를 생성하기 위한 오디오 합성기가 제공되며, 상기 합성 신호는 다수의 합성 채널을 가지며, 합성 채널의 수가 1보다 크거나 2보다 크거나, 상기 오디오 합성기는: 다운믹스 신호를 수신하도록 구성된 입력 인터페이스 - 다운믹스 신호는 적어도 하나의 다운믹스 채널 및 부가 정보를 갖고, 상기 부가 정보는 원본 신호의 채널 레벨 및 상관 정보를 가지고, 상기 원본 신호에는 여러 개의 원본 채널을 갖고, 원래 채널의 수가 1보다 크거나 2보다 큼 - ;
다운믹스 신호로부터 프로토타입 신호를 계산하도록 구성된 프로토타입 신호 계산기[예를 들어, "프로토타입 신호 계산"]와 같은 부분 - 프로토타입 신호는 합성 채널의 수를 가짐 - ;
상기 원본 신호의 채널 레벨 및 상관 정보를 사용하여 하나(또는 그 이상)의 믹싱 규칙[예를 들어, 믹싱 행렬]을 계산하도록 구성된 믹싱 규칙 계산기[예를 들어, "매개변수 재구성"]와 같은 부분; 및
상기 프로토타입 신호 및 믹싱 규칙을 사용하여 상기 합성 신호를 생성하도록 구성된 합성 프로세서[예: "합성 엔진"]와 같은 부분을 포함한다.
합성 채널의 수는 원본 채널의 수보다 많을 수 있다. 또는 합성 채널의 수는 원래 채널의 수보다 작을 수 있다.
상기 오디오 합성기(및 특히, 일부 양상들에서, 믹싱 규칙 계산기)는 상기 원본 채널 레벨 및 상관 정보의 타겟 버전을 재구성하도록 구성될 수 있다.
오디오 합성기(및 특히, 일부 양상들에서, 믹싱 규칙 계산기)는 합성 신호의 채널 수에 적응된 원래 채널 레벨 및 상관 정보의 타겟 버전을 재구성하도록 구성될 수 있다.
오디오 합성기(및 특히, 일부 양상들에서, 믹싱 규칙 계산기)는 원래 채널 레벨 및 상관 정보의 추정된 버전에 기초하여 원래 채널 레벨 및 상관 정보의 타겟 버전을 재구성하도록 구성될 수 있다.
오디오 합성기(및 특히, 일부 양상들에서, 믹싱 규칙 계산기)는 다운믹스 신호와 연관된 공분산 정보로부터 원래 채널 레벨 및 상관 정보의 추정된 버전을 획득하도록 구성될 수 있다.
오디오 합성기(및 특히, 일부 양상들에서, 믹싱 규칙 계산기)는 프로토타입 신호를 계산하기 위해 프로토타입 신호 계산기[예를 들어, "프로토타입 신호 계산"]에 의해 사용되는 프로토타입 규칙과 연관된 추정 규칙을 다운믹스 신호와 연관된 공분산 정보에 적용함으로써, 원래 채널 레벨 및 상관 정보의 추정된 버전을 획득하도록 구성될 수 있다.
오디오 합성기(특히, 일부 양상들에서, 믹싱 규칙 계산기)는 다운믹스 신호의 부가 정보 중에서:
다운믹스 신호의 제1 채널의 레벨 또는 두 개의 채널 사이의 에너지 관계를 기술하는 다운믹스 신호와 연관된 공분산 정보; 및
원본 신호의 첫 번째 채널의 레벨 또는 두 개의 채널 간의 에너지 관계를 설명하는 원래 신호의 채널 레벨 및 상관 정보
모두를 검색하도록 구성되어,
적어도 하나의 제1 채널 또는 한 쌍의 채널에 대한 원래 채널의 공분산 정보; 그리고
적어도 하나의 제2 채널 또는 한 쌍의 채널을 설명하는 채널 레벨 및 상관 정보
중 적어도 하나를 사용하여 원래 채널 레벨 및 상관 정보의 타겟 버전을 재구성한다.
오디오 합성기(특히, 일부 양상들에서, 믹싱 규칙 계산기)는 동일한 채널 또는 두 개의 채널에 대한 원래 채널의 공분산 정보보다 채널 또는 두 개의 채널을 설명하는 채널 레벨 및 상관 정보를 선호하도록 구성될 수 있다.
원래 채널 레벨의 재구성된 타겟 버전 및 한 쌍의 채널 사이의 에너지 관계를 설명하는 상관 정보는 적어도 부분적으로 한 쌍의 채널 중 각 채널과 연관된 레벨에 기초한다.
다운믹스 신호는 대역 또는 대역 그룹으로 분할될 수 있다: 상이한 채널 레벨 및 상관 정보는 상이한 대역 또는 대역 그룹과 연관될 수 있고; 합성기(프로토타입 신호 계산기, 특히 일부 측면에서 믹싱 규칙 계산기 및 합성 프로세서 중 적어도 하나)는 다른 대역 또는 대역 그룹에 대해 다른 믹싱 규칙을 얻기 위해 다른 대역 또는 대역 그룹에 대해 다르게 동작한다.
다운믹스 신호는 슬롯으로 분할될 수 있으며, 상이한 채널 레벨 및 상관 정보가 상이한 슬롯에 연관되고, 합성기의 구성요소 중 적어도 하나(예: 프로토타입 신호 계산기, 믹싱 규칙 계산기, 합성 프로세서 또는 합성기의 기타 요소)는 상이한 슬롯에 대해 상이한 믹싱 규칙을 얻기 위해 서로 다른 슬롯에 대해 상이하게 작동한다.
합성기(예를 들어, 프로토타입 신호 계산기)는 합성 채널의 수에 기초하여 프로토타입 신호를 계산하도록 구성된 프로토타입 규칙을 선택하도록 구성될 수 있다.
합성기(예를 들어, 프로토타입 신호 계산기)는 미리 저장된 복수의 프로토타입 규칙 중에서 프로토타입 규칙을 선택하도록 구성될 수 있다.
합성기(예: 프로토타입 신호 계산기)는 수동 선택을 기반으로 프로토타입 규칙을 정의하도록 구성될 수 있다.
합성기(예를 들어, 프로토타입 신호 계산기)는 제 1 및 제 2 치수를 갖는 매트릭스를 포함할 수 있으며, 여기서 제 1 치수는 다운믹스 채널의 수와 연관되고 제 2 치수는 합성 채널의 수와 연관된다.
오디오 합성기(예: 프로토타입 신호 계산기)는 64kbit/s 또는 160Kbit/s 이하의 비트 전송률에서 작동하도록 구성될 수 있다.
부가 정보는 원본 채널의 식별 정보를 포함될 수 있다[예: L, R, C 등].
오디오 합성기(특히, 일부 양상들에서, 믹싱 규칙 계산기)는 원본 신호의 채널 레벨 및 상관 정보, 다운믹스 신호와 관련된 공분산 정보, 원본 채널의 식별 및 합성 채널의 식별을 사용하여 [예를 들어, "매개변수 재구성"] 믹싱 규칙[예를 들어, 믹싱 행렬]을 계산하도록 구성될 수 있다.
오디오 합성기는 합성 신호의 경우, 부가 정보에서 원래 신호의 채널 레벨 및 상관 정보 중 적어도 하나에 관계없이 채널의 수를 선택할 수 있다 [예: 수동 선택과 같은 선택에 의해, 사전 선택에 의해, 또는 자동으로, 예를 들어, 확성기의 수를 인식하여].
오디오 합성기는 일부 예에서 다양한 선택 항목에 대해 다른 프로토타입 규칙을 선택할 수 있다. 믹싱 규칙 계산기는 믹싱 규칙을 계산하도록 구성될 수 있다.
일 측면에 따르면, 다운믹스 신호로부터 합성 신호를 생성하는 방법이 제공되며, 합성 신호는 다수의 합성 채널을 가지며, 합성 채널의 수는 1보다 크거나 2보다 크거나, 상기 방법은: 다운믹스 신호를 수신하는 단계 - 상기 다운믹스 신호는 적어도 하나의 다운믹스 채널 및 부가 정보를 갖고, 상기 부가 정보는 원본 신호의 채널 레벨 및 상관 정보를 갖고, 상기 원본 신호는 여러 개의 원래 채널이 있고 원래 채널의 수는 1보다 크거나 2보다 큼 - ;
상기 다운믹스 신호로부터 다수의 합성 채널을 갖는 프로토타입 신호를 계산하는 단계;
상기 원본 신호의 채널 레벨 및 상관 정보, 상기 다운믹스 신호와 관련된 공분산 정보를 이용하여 믹싱 규칙을 계산하는 단계; 및
프로토타입 신호와 믹싱 규칙[예: 규칙]을 사용하여 합성 신호를 생성하는 단계를 포함한다.
일 측면에 따르면, 원래 신호[예를 들어, y]로부터 다운믹스 신호를 생성하기 위한 오디오 인코더가 제공되며, 상기 원본 신호는 적어도 두 개의 채널을 가지며, 상기 다운믹스 신호에는 적어도 하나의 다운믹스 채널을 가지며, 상기 오디오 인코더는:
원본 신호의 채널 레벨 및 상관 정보를 추정하도록 구성된 매개변수 추정기,
다운믹스 신호를 비트스트림으로 인코딩하여 다운믹스 신호가 원래 신호의 채널 레벨 및 상관 정보를 포함하는 부가 정보를 갖도록 비트스트림에서 인코딩되는 비트스트림 기록기
중 적어도 하나를 포함한다.
부가 정보에 인코딩된 원본 신호의 채널 레벨 및 상관 정보는 원본 신호의 전체 채널보다 작은 관련 채널 레벨 정보를 나타낸다.
부가 정보에 인코딩된 원본 신호의 채널 레벨 및 상관 정보는 원본 신호의 적어도 한 쌍의 서로 다른 채널 간의 에너지 관계를 설명하는 상관 정보를 나타내지만, 상기 원본 신호의 채널 전체보다 적다.
상기 원본 신호의 채널 레벨 및 상관 정보는 한 쌍의 채널 중 두 채널 간의 일관성을 설명하는 적어도 하나의 일관성 값을 포함할 수 있다.
원본 신호의 채널 레벨 및 상관 정보는 한 쌍의 채널 중 두 채널 간의 적어도 하나의 채널간 레벨 차이(ICLD)를 포함할 수 있다.
상기 오디오 인코더는 부가 정보에 채널 레벨의 증가량과 비교적 낮은 과부하의 경우 상관 정보를 포함하도록 하기 위해, 상태 정보에 기초하여 원래 신호의 채널 레벨 및 상관 정보의 적어도 일부를 인코딩할지 여부를 선택하도록 구성될 수 있다.
오디오 인코더는 부수 정보에 더 민감한 메트릭 [예: 더 지각적으로 중요한 공분산과 관련된 메트릭]과 관련된 채널 레벨 및 상관 정보를 포함하기 위해서, 채널에 대한 메트릭에 기초하여 부가 정보에 인코딩될 원본 신호의 채널 레벨 및 상관 정보의 어느 부분을 결정할지 여부를 선택하도록 구성될 수 있다.
원본 신호의 채널 레벨 및 상관 정보는 행렬 형태일 수 있다.
비트스트림 기록기는 적어도 하나의 채널의 식별을 인코딩하도록 구성될 수 있다.
일 측면에 따르면, 원래 신호로부터 다운믹스 신호를 생성하는 방법이 제공되며, 상기 원본 신호는 적어도 두 개의 채널을 갖고 다운믹스 신호는 적어도 하나의 다운믹스 채널을 갖는다.
상기 방법은:
원본 신호의 채널 레벨 및 상관 정보를 추정하는 단계,
다운믹스 신호를 비트스트림으로 인코딩하여, 다운믹스 신호가 원래 신호의 채널 레벨 및 상관 정보를 포함하는 부가 정보를 갖도록 비트스트림에서 인코딩되도록 하는 단계
를 포함한다.
오디오 인코더는 디코더와 무관할 수 있다. 오디오 합성기는 디코더와 무관할 수 있다.
일 측면에 따르면, 위 또는 아래와 같은 오디오 합성기 및 위 또는 아래와 같은 오디오 인코더를 포함하는 시스템이 제공된다.
일 측면에 따르면, 프로세서에 의해 실행될 때 프로세서가 위와 같은 방법을 수행하게 하는 명령어를 저장하는 비일시적 저장 장치가 제공된다.
도 1은 본 발명에 따른 처리의 간략화된 개요를 도시한다.
도 2a는 본 발명에 따른 오디오 인코더를 도시한다.
도 2b는 본 발명에 따른 오디오 인코더의 다른 도면을 도시한다.
도 2c는 본 발명에 따른 오디오 인코더의 다른 도면을 도시한다.
도 2d는 본 발명에 따른 오디오 인코더의 다른 도면을 도시한다.
도 3a는 본 발명에 따른 오디오 합성기(디코더)를 도시한다.
도 3b는 본 발명에 따른 오디오 합성기(디코더)의 다른 도면을 도시한다.
도 3c는 본 발명에 따른 오디오 합성기(디코더)의 다른 도면을 도시한다.
도 4a 내지 4d는 공분산 합성의 예를 도시한다.
도 5는 본 발명에 따른 오디오 인코더를 위한 필터뱅크의 예를 도시한다.
도 6a 내지 6c는 본 발명에 따른 오디오 인코더의 동작의 예를 도시한다.
도 7은 종래 기술의 예를 도시한다.
도 8a 내지 8c는 본 발명에 따른 공분산 정보를 얻는 방법의 예를 도시한다.
도 9a 내지 9d는 채널 간 일관성 행렬의 예를 도시한다.
도 10a 내지 10b는 프레임의 예를 도시한다.
도 11은 혼합 행렬을 획득하기 위해 디코더에 의해 사용되는 방식을 도시한다.
3.2 발명에 관한 개념
예들은 신호(212)를 다운믹싱하고 채널 레벨 및 상관 정보를 디코더에 제공하는 인코더에 기초함을 나타낼 것이다. 디코더는 채널 레벨 및 상관 정보로부터 믹싱 규칙(예를 들어, 혼합 행렬)을 생성할 수 있다. 믹싱 규칙의 생성에 중요한 정보는 원본 신호(212)의 공분산 정보(예: 공분산 행렬 Cy) 및 다운믹스 신호의 공분산 정보(예: 공분산 행렬 Cx)를 포함할 수 있다. 공분산 행렬 Cx는 다운믹스 신호를 분석하여 디코더에 의해 직접 추정될 수 있지만, 원본 신호(212)의 공분산 행렬 Cy는 디코더에 의해 용이하게 추정된다. 원본 신호(212)의 공분산 행렬 Cy는 일반적으로 대칭 행렬(예: 5 채널 원본 신호(212)의 경우 5x5 행렬)이다: 행렬은 대각선에서 각 채널의 레벨을 나타내는 반면, 비대각선 항목에서는 채널 간의 공분산을 나타낸다. 행렬은 일반 채널 i와 j 간의 공분산이 j와 i 간의 공분산과 동일하기 때문에 대각선이다. 따라서, 디코더에 전체 공분산 정보를 제공하기 위해, 대각선 항목에서 5 레벨 및 비대각선 항목에 대해 10 공분산을 디코더에 신호보낼 필요가 있다. 그러나 인코딩될 정보의 양을 줄이는 것이 가능함을 보여준다.
또한, 경우에 따라 레벨 및 공분산 대신에, 정규화된 값이 제공될 수 있음을 보여준다. 예를 들어, 에너지 값을 나타내는 채널 간 일관성(ICC, ξi,j로도 표시됨) 및 채널 간 레벨 차이(ICLD, χi로도 표시됨)가 제공될 수 있다. ICC는 예를 들어, 행렬 Cy의 비대각선 항목에 대한 공분산 대신 제공된 상관 값일 수 있다. 상관 정보의 예는 형식
Figure pat00003
일 수 있다. 일부 예들에서, ξi,j의 일부만이 실제로 인코딩된다.
이러한 방식으로, ICC 행렬이 생성된다. ICC 행렬의 대각선 항목은 원칙적으로 동일하게 1이고, 따라서 비트스트림에서 이들을 인코딩할 필요가 없다. 그러나 인코더가 예를 들어,
Figure pat00004
의 형태로 (이하 참조) 디코더에 ICLD를 제공할 수 있다는 것이 이해되어야 한다. 일부 예에서, 모든 χi가 실재로 인코딩된다.
도 9a 내지 9d는 ICLD χi일 수 있는 대각선 값 "d" 및 ICC ξi,j일 수 있는 902, 904, 905, 906, 907(아래 참조)로 표시된 비대각선 값을 갖는, ICC 행렬(900)의 예를 도시한다.
본 명세서에서, 행렬 사이의 곱은 기호가 없는 것으로 표시된다. 예를 들어, 행렬 A와 행렬 B 사이의 곱은 AB로 표시된다. 행렬의 켤레 전치는 별표(*)로 표시된다.
대각선을 참조한다는 것은, 주 대각선을 의미한다.
3.2 본 발명
도 1은 인코더 측 및 디코더 측을 갖는 오디오 시스템(100)을 도시한다. 인코더 측은 인코더(200)에 의해 구현될 수 있고, 예를 들어, 오디오 센서 유닛(에를 들어, 마이크)로부터 또는 저장 장치 또는 원격 장치(예: 무선 전송을 통해)로부터 오디오 신호(212)를 획득할 수 있다. 디코더 측은 오디오 재생 유닛(예를 들어, 확성기)에 오디오 콘텐츠를 제공할 수 있는 오디오 디코더(오디오 합성기)(300) 의해 구현될 수 있다. 인코더(200) 및 디코더(300)는 예를 들어, 유선 또는 무선 통신 채널을 통해 (예를 들어, 무선 주파수 파동, 빛 또는 초음파 등을 통해) 서로 통신할 수 있다. 따라서 인코더 및/또는 디코더는 인코더(200)로부터 디코더(300)로 인코딩된 비트스트림(248)을 전송하기 위한 통신 유닛(예를 들어, 안테나, 트랜시버 등)을 포함하거나 이에 연결될 수 있다. 일부 경우에, 인코더(200)는 인코딩된 비트스트림(248)을 향후 사용을 위해 저장 유닛(예를 들어, RAM 메모리, FLASH 메모리 등)에 저장할 수 있다. 유사하게, 디코더(300)는 저장 유닛에 저장된 비트스트림(248)을 읽을 수 있다. 일부 예들에서, 인코더(200) 및 디코더(300)는 동일한 장치일 수 있다: 장치는 비트스트림(248)을 인코딩하고 저장한 후에, 오디오 콘텐츠의 재생을 위해 이를 읽어야 할 수 있다.
도 2a, 2b, 2c 및 2d는 인코더(200)의 예를 보여준다. 일부 예에서, 도 2a 및 2b 및 2c 및 2d의 인코더는 동일할 수 있고 하나의 도면 및/또는 다른 도면에 일부 요소가 없기 때문에 서로 다를 수 있다.
오디오 인코더(200)는 원본 신호(212)로부터 다운믹스 신호(246)를 생성하도록 구성될 수 있다(적어도 2개(예를 들어, 3개 이상) 채널을 갖는 원본 신호(212) 및 적어도 하나의 다운믹스 채널을 갖는 다운믹스 신호(246)).
오디오 인코더(200)는 원본 신호(212)의 채널 레벨 및 상관 정보(220)를 추정하도록 구성된 매개변수 추정기(218)를 포함할 수 있다. 오디오 인코더(200)는 다운믹스 신호(246)를 비트스트림(248)으로 인코딩하기 위한 비트스트림 기록기(226)를 포함할 수 있다. 따라서 다운믹스 신호(246)는 원본 신호(212)의 채널 레벨 및 상관 정보를 포함하는 부가 정보(228)를 갖는 방식으로 비트스트림(248)에서 인코딩된다. 특히, 입력 신호(212)는 일부 예들에서, 예를 들어 오디오 샘플들의 시간적 시퀀스와 같은 시간 영역 오디오 신호로서 이해될 수 있다. 원본 신호(212)는 예를 들어 (예를 들어 스테레오 오디오 위치 또는 다중 채널 오디오 위치에 대해) 다른 마이크로폰에 대응할 수 있는 적어도 2개의 채널을 갖거나, 예를 들어 오디오 재생 유닛의 다른 확성기 위치에 대응한다. 입력 신호(212)는 다운믹서 계산 블록(244)에서 다운믹스되어 원본 신호(212)의 다운믹스 버전(246)(x로도 표시됨)을 얻을 수 있다. 원본 신호(212)의 이 다운믹스 버전을 다운믹스 신호(246)라고도 한다. 다운믹스 신호(246)는 적어도 하나의 다운믹스 채널을 갖는다. 다운믹스 신호(246)는 원본 신호(212)보다 적은 채널을 갖는다. 다운믹스 신호(212)는 시간 영역에 있을 수 있다.
다운믹스 신호(246)는 비트스트림이 저장되거나 수신기에 전송되기 위해(예를 들어, 디코더 측에 연결됨) 비트스트림 기록기(226)(예를 들어, 엔트로피 인코더 또는 멀티플렉서, 또는 코어 코더 포함)에 의해 비트스트림(248)에서 인코딩된다. 인코더(200)는 매개변수 추정기(또는 매개변수 추정 블록)(218)를 포함할 수 있다. 매개변수 추정기(218)는 원본 신호(212)와 연관된 채널 레벨 및 상관 정보(220)를 추정할 수 있다. 채널 레벨 및 상관 정보(220)는 비트스트림(248)에서 부가 정보(228)로서 인코딩될 수 있다. 예에서, 채널 레벨 및 상관 정보(220)는 비트스트림 기록기(226)에 의해 인코딩된다. 예에서, 도 2b가 다운믹스 계산 블록(235)의 하류측 다운스트림의 비트스트림 기록기(226)를 도시하지 않더라도, 비트스트림 기록기(226)는 존재할 수 있다. 도 2c에는 비트스트림 기록기(226)가 다운믹스 신호(246)의 코딩된 버전을 획득하기 위해서, 다운믹스 신호(246)를 인코딩하는 코어 코더(247)를 포함할 수 있다는 것이 도시되어 있다. 도 2c는 또한 비트스트림 기록기(226)가 부가 정보(228)에서 코딩된 다운믹스 신호(246)와 채널 레벨 및 상관 정보(220)(예를 들어, 코딩된 매개변수로서)를 비트스트림(248)에 인코딩하는 멀티플렉서(249)를 포함할 수 있음을 보여준다.
도 2b에 도시된 바와 같이(도 2a 및 2c에서는 누락됨), 원본 신호(212)는 원본 신호(212)의 주파수 영역 버전(216)을 얻기 위해서, (예를 들어, 필터뱅크(214)에 의해, 아래 참조) 처리될 수 있다.
매개변수 추정의 예가 도 6c에 도시되어 있으며, 여기서 매개변수 추정기(218)는 비트스트림에서 후속적으로 인코딩될 매개변수 ξi,j 및 χi(예를 들어, 정규화된 매개변수)를 정의한다. 공분산 추정기(502, 504)는 인코딩될 다운믹스 신호(246) 및 입력 신호(212)에 대한 공분산 Cx 및 Cy를 각각 추정한다. 그 다음, ICLD 블록(506)에서 ICLD 매개변수 χi가 계산되어 비트스트림 기록기(246)에 제공된다. 공분산 대 일관성 블록(510)에서, ICC ξi,j(412)가 획득된다. 블록(250)에서, ICC 중 일부만이 인코딩되도록 선택된다.
매개변수 양자화 블록(222)(도 2b)은 양자화된 버전(224)에서 채널 레벨 및 상관 정보(220)를 획득하도록 허용할 수 있다.
원본 신호(212)의 채널 레벨 및 상관 정보(220)는 일반적으로 원본 신호(212)의 채널의 에너지(또는 레벨)에 관한 정보를 포함할 수 있다. 추가로 또는 대안적으로, 원본 신호(212)의 채널 레벨 및 상관 정보(220)는 2개의 상이한 채널 간의 상관과 같은, 채널 쌍 간의 상관 정보를 포함할 수 있다. 채널 레벨 및 상관 정보는 (예를 들어, 상관 또는 ICC와 같은 정규화된 형태로) 공분산 행렬 Cy와 관련된 정보를 포함할 수 있으며, 여기서 각 열 및 각 행은 원본 신호(212)의 특정 채널과 연관되며, 채널 레벨은 행렬 Cy의 대각선 요소와 상관 정보에 의해 기술되고, 상관 정보는 행렬 Cy의 비대각선 요소에 의해 기술된다. 행렬 Cy는 대칭 행렬(즉, 전치와 동일함) 또는 에르미트 행렬(즉, 켤레 전치과 동일)이 되도록 할 수 있다. Cy는 일반적으로 양의 준 한정식호이다. 일부 예에서 상관은 공분산으로 대체될 수 있다(및 상관 정보는 공분산 정보로 대체된다). 비트스트림(248)의 부가 정보(228)에서, 원본 신호(212)의 전체 채널보다 작은 것과 관련된 정보를 인코딩하는 것이 가능하다는 것이 이해된다. 예를 들어, 모든 채널 또는 모든 채널 쌍에 대한 채널 레벨 및 상관 정보를 제공할 필요는 없다. 예를 들어, 다운믹스 신호(212)의 채널 쌍들 간의 상관에 관한 정보의 감소된 세트만이 비트스트림(248)에서 인코딩될 수 있는 반면, 나머지 정보는 디코더 측에서 추정될 수 있다. 일반적으로, Cy의 대각선 요소보다 적은 요소를 인코딩할 수 있고, Cy의 대각선 외부 요소보다 적은 요소를 인코딩할 수 있다.
예를 들어, 채널 레벨 및 상관 정보는 원본 신호(212)의 공분산 행렬 Cy(원본 신호의 채널 레벨 및 상관 정보(220)) 및/또는 다운믹스 신호(246)의 공분산 행렬 Cx(다운믹스 신호의 공분산 정보)의 항목을 예를 들어, 정규화된 형태로 포함할 수 있다. 예를 들어, 공분산 행렬은 각 라인과 각 열을 각 채널에 연관시켜 서로 다른 채널 간의 공분산을 표현하고, 행렬의 대각선에서는 각 채널의 레벨을 나타낼 수 있다. 일부 예들에서, 부가 정보(228)에 인코딩된 원본 신호(212)의 채널 레벨 및 상관 정보(220)는 채널 레벨 정보(예를 들어, 상관 행렬 Cy의 대각 값들만) 및 또는 상관 정보만(예: 상관 행렬 Cy의 대각선 외부에 있는 값만)을 포함할 수 있다. 다운믹스 신호의 공분산 정보에도 동일하게 적용된다.
이후에 보여지는 바와 같이, 채널 레벨 및 상관 정보(220)는 한 쌍의 채널 i, j의 2개의 채널 i와 j 사이의 일관성을 설명하는 적어도 하나의 일관성 값(ξi,j)을 포함할 수 있다. 추가적으로 또는 대안적으로, 채널 레벨 및 상관 정보(220)는 적어도 하나의 채널간 레벨 차이 ICLD(χi)를 포함할 수 있다. 특히, ICLD 값 또는 채널간 일관성(ICC) 값을 갖는 행렬을 정의하는 것이 가능하다. 따라서, 행렬 Cy 및 Cx의 요소의 전송에 관한 상기 예는 채널 레벨 및 상관 정보(220) 및/또는 다운믹스 채널의 일관성 정보를 구현하기 위해 인코딩(예: 전송)될 다른 값에 대해 일반화될 수 있다.
입력 신호(212)는 복수의 프레임으로 세분될 수 있다. 다른 프레임은 예를 들어 동일한 시간 길이를 가질 수 있다(예를 들어, 이들 각각은 일 프레임 동안 경과된 시간 동안, 시간 영역에서 동일한 개수의 샘플로 구성될 수 있음). 따라서 상이한 프레임은 일반적으로 동일한 시간 길이를 갖는다. 비트스트림(248)에서, 다운믹스 신호(246)(이는 시간 영역 신호일 수 있음)는 프레임 단위로 인코딩될 수 있다 (또는 어떤 경우에도 프레임으로의 세분화는 디코더에 의해 결정될 수 있다). 비트스트림(248)에서 부가 정보(228)로 인코딩된 채널 레벨 및 상관 정보(220)는 각 프레임에 연관될 수 있다(예를 들어, 채널 레벨의 매개변수 및 상관 정보(220)는 각각의 프레임에 대해, 또는 복수의 연속적인 프레임에 대해 제공될 수 있다). 따라서, 다운믹스 신호(246)의 각 프레임에 대해, 연관된 부가 정보(228)(예를 들어, 매개변수)가 비트스트림(248)의 부가 정보(228)에 인코딩될 수 있다. 일부 경우에, 다수의 연속 프레임은 비트스트림(248)의 부가 정보(228)에 인코딩된 바와 같이 동일한 채널 레벨 및 상관 정보(220)(예를 들어, 동일한 매개변수에 대해)와 연관될 수 있다. 따라서, 하나의 매개변수는 복수의 연속적인 프레임에 집합적으로 연관되는 결과를 초래할 수 있다. 이는 일부 예에서, 두 개의 연속 프레임이 유사한 속성을 가지거나 비트 전송률을 줄여야 하는 경우(예를 들어, 페이로드를 줄여야 하는 필요로 인해) 발생할 수 있다. 예를 들어:
높은 페이로드의 경우 동일한 특정 매개변수와 관련된 연속 프레임의 수가 증가하여 비트스트림에 기록된 비트의 양을 줄인다;
페이로드가 낮은 경우 동일한 특정 매개변수와 관련된 연속 프레임 수가 감소하여 혼합 품질이 향상된다. 다른 경우에, 비트 전송률이 감소할 때 동일한 특정 매개변수와 연관된 연속 프레임의 수가 증가하여 비트스트림에 기록되는 비트의 양을 줄이거나 그 반대의 경우도 마찬가지이다.
어떤 경우에는, 예를 들어 더하기, 평균 등으로, 현재 프레임에 선행하는 매개변수 (또는 공분산과 같은 재구성되거나 추정된 값)와의 선형 조합을 사용하여, 매개변수 (또는 공분산과 같이, 재구성되거나 추정된 값)를 평활화하는 것이 가능하다.
일부 예들에서, 프레임은 복수의 후속 슬롯들 사이에서 분할될 수 있다. 도 10a는 프레임(920)(4개의 연속 슬롯(921 내지 924)으로 세분화됨)을 나타내고 도 10b는 프레임(930)(4개의 연속 슬롯(931 내지 934)으로 세분화됨)을 보여준다. 다른 슬롯의 시간 길이는 동일할 수 있다. 프레임 길이가 20ms이고 슬롯 크기가 1.25ms인 경우, 한 프레임에는 16개의 슬롯이 있다(20/1.25=16).
슬롯 세분화는 아래에서 논의되는 필터뱅크(예를 들어, 214)에서 수행될 수 있다.
일 예에서, 필터 뱅크는 복합 변조된 저지연 필터 뱅크(CLDFB)이며 프레임 크기는 20ms이고 슬롯 크기는 1.25ms로, 프레임당 16개의 필터 뱅크 슬롯과 입력 샘플링 주파수에 따라 달라지는 각 슬롯의 대역 수가 결과되고 이 때 대역의 너비는 400Hz이다. 그래서 예를 들어, 48kHz의 입력 샘플링 주파수에 대해, 샘플의 프레임 길이는 960이고, 슬롯 길이는 60개 샘플이고 슬롯당 필터 뱅크 샘플 수도 60개이다.
샘플링 주파수/kHz 프레임 길이/샘플 슬롯 길이/샘플 필터 뱅크 대역의 수
48 960 60 60
32 640 40 40
16 320 20 20
8 160 10 10
각 프레임(및 각 슬롯)이 시간 영역에서 인코딩되더라도 대역별 분석이 수행될 수 있다. 예들에서, 복수의 대역들이 각각의 프레임(또는 슬롯)에 대해 분석된다. 예를 들어, 필터 뱅크가 시간 신호에 적용될 수 있고 결과적인 부대역 신호가 분석될 수 있다. 일부 예들에서, 채널 레벨 및 상관 정보(220)는 또한 대역별 방식으로 제공된다. 예를 들어, 입력 신호(212) 또는 다운믹스 신호(246)의 각 대역에 대해, 연관된 채널 레벨 및 상관 정보(220)(예를 들어, Cy 또는 ICC 행렬)가 제공될 수 있다. 일부 예들에서, 대역들의 수는 신호 및/또는 요청된 비트 전송률의 속성, 또는 현재 페이로드에 대한 측정치에 기초하여 수정될 수 있다. 일부 예에서, 요구되는 슬롯이 많을수록 유사한 비트 전송률을 유지하기 위해 더 적은 대역이 사용된다. 슬롯 크기가 프레임 크기(시간 길이)보다 작기 때문에, 슬롯은 프레임 내에서 감지된 원본 신호(212)의 과도 현상의 경우에 적절하게 사용될 수 있다. 인코더(특히 필터뱅크(214))는 과도 현상의 존재를 인식하고 비트스트림에서 그 존재를 알릴 수 있으며, 그리고 비트스트림(248)의 부가 정보(228)에서 프레임의 어느 슬롯에서 과도 현상이 발생했는지를 표시한다. 또한, 비트스트림(248)의 부가 정보(228)에 인코딩된 채널 레벨 및 상관 정보(220)의 매개변수는 그에 따라 과도 현상 다음에 오는 슬롯 및/또는 과도 현상이 발생한 슬롯에만 연관될 수 있다. 따라서 디코더는 과도 현상의 존재를 결정하고 과도 현상 이후의 슬롯 및/또는 과도 현상이 발생한 슬롯에만 채널 레벨 및 상관 정보(220)를 연관시킬 것이다(과도 현상 이전의 슬롯에 대해 디코더는 이전 프레임에 대한 채널 레벨 및 상관 정보(220)를 사용할 것이다). 도 10a에서는, 과도 현상이 발생하지 않았으며, 따라서 부가 정보(228)에 인코딩된 매개변수(220)는 전체 프레임(920)과 연관되는 것으로 이해될 수 있다. 도 10b에서는 슬롯(932)에서 과도 현상이 발생했고, 따라서 부가 정보(228)에 인코딩된 매개변수(220)는 슬롯(932, 933, 934)을 참조하지만, 슬롯(931)과 관련된 매개변수는 프레임(930) 이전의 프레임과 동일한 것으로 가정된다.
위의 관점에서, 각각의 프레임(또는 슬롯)에 대해 그리고 각각의 대역에 대해, 원본 신호(212)와 관련된 특정 채널 레벨 및 상관 정보(220)가 정의될 수 있다. 예를 들어, 공분산 행렬 Cy의 요소(예: 공분산 및/또는 수준)는 각 대역에 대해 추정될 수 있다.
다중 프레임이 동일한 매개변수에 집합적으로 연관되어 있는 동안 과도 현상 감지가 발생하면, 혼합 품질을 높이기 위해서 동일한 매개변수에 집합적으로 관련된 프레임의 수를 줄일 수 있다.
도 10a는 원본 신호(212)에서 8개의 대역이 정의된 프레임(920)(여기서 "정상 프레임"으로 표시됨)을 보여준다 (8개의 대역 1…8은 세로축에 표시되고 슬롯(921 내지 924)는 가로축에 표시됨). 채널 레벨 및 상관 정보(220)의 매개변수는 이론적으로 비트스트림(248)의 부가 정보(228)에서 대역별 방식으로 인코딩될 수 있다(예: 각 원래 대역에 대해 하나의 공분산 행렬이 있음). 그러나, 부가 정보(228)의 양을 줄이기 위해, 인코더는 다수의 원래 대역(예를 들어, 연속적인 대역)을 집합하여 다수의 원래 대역에 의해 형성된 적어도 하나의 집합된 대역을 얻을 수 있다. 예를 들어, 도 10a에서 8개의 원래 대역을 그룹화하여 4개의 집계된 대역을 획득한다(집계된 대역 1은 원래 대역 1에; 집계된 대역 2는 원래 대역 2에; 집계 대역 3은 그룹화한 원래 대역 3 및 5에; 집계 대역 4는 그룹화된 원래 대역 5 내지 8에 연관됨). 공분산, 상관, ICC 등의 행렬은 집계된 대역 각각에 연관될 수 있다. 일부 예들에서, 비트스트림(248)의 부가 정보(228)에서 인코딩되는 것은 각각의 집합된 대역과 연관된 매개변수들의 합(또는 평균, 또는 다른 선형 조합)으로부터 획득된 매개변수들이다. 따라서, 비트스트림(248)의 부가 정보(228)의 크기는 더욱 감소된다. 이하, "집계 대역"은 또한 "매개변수 대역"이라고도 하며, 매개변수(220)를 결정하는 데 사용되는 대역을 참조하기 때문이다.
도 10b는 과도 현상이 발생하는 프레임(931)(4개의 연속적인 슬롯(931 내지 934) 또는 다른 정수로 세분화됨)을 도시한다. 여기서, 제2 슬롯(932)("과도 슬롯")에서 과도 현상이 발생한다. 이 경우, 디코더는 채널 레벨 및 상관 정보(220)의 매개변수를 과도 슬롯(932) 및/또는 후속 슬롯(933, 934)에만 참조하도록 결정할 수 있다. 이전 슬롯(931)의 채널 레벨 및 상관 정보(220)는 제공되지 않는다: 슬롯(931)의 채널 레벨 및 상관 정보는 원칙적으로 슬롯의 채널 레벨 및 상관 정보와 특히 다를 것임을 이해하지만, 아마도 프레임(930) 이전 프레임의 채널 레벨 및 상관 정보와 더 유사할 것이다. 따라서 복호화기는 프레임(930) 이전 프레임의 채널 레벨 및 상관 정보를 슬롯(931)에 적용하고, 프레임(930)의 채널 레벨 및 상관 정보를 슬롯(932, 933, 934)에만 적용할 것이다.
과도 현상을 갖는 슬롯(931)의 존재 및 위치는 비트스트림(248)의 부가 정보(228)에서 (예를 들어, 나중에 도시되는 바와 같이 261에서) 시그널링될 수 있기 때문에, 부가 정보(228)의 크기 증가를 피하거나 줄이기 위한 기술이 개발되었다. 집계된 대역 간의 그룹화는 다음과 같이 변경될 수 있다. 예를 들어, 집계된 대역 1은 이제 원래 대역 1과 2를 그룹화하고 집계된 대역 2는 원래 대역 3…8을 그룹화한다. 따라서, 도 10a의 경우에 비해 대역의 수가 더 줄어들고, 매개변수는 2개의 집계된 대역에 대해서만 제공될 것이다.
도 6a는 특정 개수의 채널 레벨 및 상관 정보(220)를 검색할 수 있는 매개변수 추정 블록(매개변수 추정기)(218)을 도시한다.
도 6a는 매개변수 추정기(218)가 특정 수의 매개변수(채널 레벨 및 상관 정보(220))를 검색할 수 있음을 도시하고, 이는 도 9a 내지 9d의 행렬(900)의 ICC일 수 있다.
그러나 추정된 매개변수의 일부만이 실제로 비트스트림 기록기(226)에 제출되어 부가 정보(228)를 인코딩한다. 이것은 인코더(200)가 (도 1 내지 5에 도시되지 않은 결정 블록(250)에서) 원본 신호(212)의 채널 레벨 및 상관 정보(220)의 적어도 일부를 인코딩할지 여부를 선택하도록 구성될 수 있기 때문이다.
이것은 결정 블록(250)으로부터의 선택(명령)(254)에 의해 제어되는 복수의 스위치(254)로서 도 6a에 도시되어 있다. 블록 매개변수 추정(218)의 출력(220) 각각이 도 9c의 행렬(900)의 ICC이면, 매개변수 추정 블록(218)에 의해 추정된 전체 매개변수가 실제로 비트스트림(248)의 부가 정보(228)에 인코딩되지는 않는다: 특히 항목(908)(채널 간 ICC: R 및 L, C 및 L, C 및 R, RS 및 CS)은 실제로 인코딩되지만 항목(907)은 인코딩되지 않는다(즉, 도 6c의 것과 동일할 수 있는 결정 블록(250)은 인코딩되지 않은 항목(907)에 대한 스위치(254s)를 개방하지만, 비트스트림(248)의 부가 정보(228)에 인코딩될 항목데(908)에 해서는 스위치(254s)를 닫는 것으로 할 수 있다). 어느 매개변수가 인코딩되도록 선택되었는지에 대한 정보(254')(항목(908))가 인코딩될 수 있다(예를 들어, 비트맵 또는 항목(908)가 인코딩되는 다른 정보로서). 실제로, 정보(254')(예를 들어, ICC 맵일 수 있음)는 인코딩된 항목(908)의 인덱스(도 9d에 도식화됨)를 포함할 수 있다. 정보(254')는 비트맵 형태일 수 있다: 예를 들어, 정보(254')는 고정 길이 필드로 구성될 수 있으며, 각 위치는 미리 정의된 순서에 따라 인덱스와 연관되며, 각 비트의 값은 해당 인덱스와 관련된 매개변수가 실제로 제공되는지 여부에 대한 정보를 제공한다.
일반적으로, 결정 블록(250)은 예를 들어, 상태 정보(252)를 기반으로 하여, 채널 레벨 및 상관 정보(220)의 적어도 일부를 인코딩할지 여부를 선택할 수 있다(즉, 행렬(900)의 항목이 인코딩되어야 하는지 여부를 결정한다). 상태 정보(252)는 페이로드 상태에 기초할 수 있다: 예를 들어 전송 부하가 높은 경우, 비트스트림(248)에서 인코딩될 부가 정보(228)의 양을 줄이는 것이 가능할 것이다. 예를 들어 9c를 참조하면 다음과 같다:
높은 페이로드의 경우 비트스트림(248)의 부가 정보(228)에 실제로 기록되는 행렬(900)의 항목(908)의 수가 감소되고;
낮은 페이로드의 경우, 비트스트림(248)의 부가 정보(228)에 실제로 기록되는 행렬(900)의 항목(908)의 수가 감소된다.
대안적으로 또는 추가적으로, 메트릭(252)은 어떤 매개변수(220)가 부가 정보(228)에 인코딩되어야 하는지를 결정하기 위해 평가될 수 있다 (예를 들어, 행렬(900)의 어떤 항목이 인코딩된 항목(908)으로 지정되고 어떤 항목이 폐기되어야 하는지). 이 경우 비트스트림에서 (더 민감한 메트릭, 예를 들어 더 지각적으로 중요한 공분산과 관련된 메트릭은 인코딩된 항목(908)으로 선택될 항목과 연관되는) 매개변수(220)만 인코딩할 수 있다.
이 프로세스는 각 프레임(또는 다운샘플링의 경우 다중 프레임) 및 각 대역에 대해 반복될 수 있음에 유의한다.
따라서, 결정 블록(250)은 상태 메트릭 등에 추가하여, 도 6a의 명령(251)을 통해 매개변수 추정기(218)에 의해 제어될 수도 있다.
일부 예들(예를 들어, 도 6b)에서, 오디오 인코더는 비트스트림(248)에서 현재 채널 레벨 및 상관 정보(220t)를 이전 채널 레벨 및 상관 정보(220(t-1))에 대한 증분(220k)으로서 인코딩하도록 추가로 구성될 수 있다. 부가 정보(228)에서 이 비트스트림 기록기(226)에 의해 인코딩되는 것은 이전 프레임에 대한 현재 프레임(또는 슬롯)과 관련된 증분(220k)일 수 있다. 이것은 도 6b에 도시되어 있다. 현재 채널 레벨 및 상관 정보(220t)는 저장 요소(270)가 후속 프레임에 대한 값 현재 채널 레벨 및 상관 정보(220t)를 저장하도록 저장 요소(270)에 제공된다. 한편, 현재 채널 레벨 및 상관 정보(220t)는 이전에 획득한 채널 레벨 및 상관 정보(220(t-1))와 비교될 수 있다. (이것은 감산기(273)로서 도 6b에 도시된다). 따라서, 뺄셈의 결과(220Δ)는 감산기(273)에 의해 얻어질 수 있다. 그 차이(220Δ)는 이전 채널 레벨 및 상관 정보(220(t-1))와 현재 채널 레벨 및 상관 정보(220t) 사이의 상대 증분(220k)을 획득하기 위해 스케일러(220s)에서 사용될 수 있다. 예를 들어, 현재 채널 레벨 및 상관 정보(220t)가 이전 채널 레벨 및 상관 정보(220(t-1))보다 10% 크면, 비트스트림 기록기(226)에 의해 부가 정보(228)에 인코딩된 증분(220)은 10%의 증분 정보를 나타낼 것이다. 일부 예들에서, 상대적 증분(220k)을 제공하는 대신에, 단순히 차이(220Δ)가 인코딩될 수 있다.
위와 같이 ICC, ICLD 등의 매개변수 중에서 실제로 부호화할 매개변수의 선택은 특정 상황에 맞게 조정될 수 있다. 예를 들어, 일부 예에서:
하나의 제 1 프레임에 대해, 도 9c의 ICC(908)만이 비트스트림(248)의 부가 정보(228)에서 인코딩되도록 선택되는 반면, ICC(907)는 비트스트림(248)의 부가 정보(228)에 인코딩되지 않고;
제 2 프레임에 대해, 다른 ICC가 인코딩되도록 선택되는 반면 다른 선택되지 않은 ICC는 인코딩되지 않는다.
이것은 슬롯 및 대역(및 ICLD와 같은 다른 매개변수)에 대해서도 유효할 수 있다. 따라서, 인코더(및 특히 블록(250))는 어느 매개변수가 인코딩되고 어느 것이 인코딩되지 않을지를 결정할 수 있고, 따라서 인코딩할 매개변수의 선택을 특정 상황(예: 상태, 선택...)에 맞게 조정한다. 따라서 인코딩할 매개변수와 인코딩하지 않을 매개변수를 선택하기 위해서, "중요한 기능"이 분석될 수 있다. 중요도에 대한 특징은 예를 들어 디코더에 의해 수행되는 동작의 시뮬레이션에서 획득된 결과와 연관된 메트릭일 수 있다. 예를 들어, 인코더는 인코딩되지 않은 공분산 매개변수(907)의 디코더의 재구성을 시뮬레이션할 수 있고, 중요도에 대한 특징은 인코딩되지 않은 공분산 매개변수(907)와 디코더에 의해 추정 가능하게 재구성된 것과 동일한 매개변수 사이의 절대 오차를 나타내는 메트릭일 수 있다. 다양한 시뮬레이션 시나리오에서 오류를 측정하여 (예를 들어, 각 시뮬레이션 시나리오는 일부 인코딩된 공분산 매개변수(908)의 전송 및 인코딩되지 않은 공분산 매개변수(907)의 재구성에 영향을 미치는 오류의 측정과 연관됨), 가장 영향을 덜 받는 시뮬레이션 시나리오에 기초하여 인코딩될 공분산 매개변수(908)를 인코딩되지 않을 공분산 매개변수(907)와 구별하기 위해서, 오류의 영향을 가장 적게 받는 시뮬레이션 시나리오를 결정할 수 있다(예: 재구성시 모든 오류에 관한 메트릭이 있는 시뮬레이션 시나리오). 영향을 가장 적게 받는 시나리오에서는, 선택되지 않은 매개변수(907)는 가장 쉽게 재구성할 수 있는 매개변수이고, 선택된 매개변수(908)는 오류와 관련된 메트릭이 가장 큰 경향이 있는 매개변수이다.
이것은 디코더의 공분산의 재구성 또는 추정을 시뮬레이션하거나, 혼합 특성 또는 혼합 결과를 시뮬레이션하여, ICC 및 ICLD와 같은 매개변수를 시뮬레이션하는 대신 수행될 수 있다. 특히, 시뮬레이션은 프레임 단위 또는 슬롯 단위로 수행될 수 있으며, 대역 또는 집합 대역 단위로 수행될 수 있다.
일 예는 비트스트림(248)의 부가 정보(228)에 인코딩된 매개변수들로부터 시작하여 수학식 4 또는 6(아래 참조)를 사용하여 공분산의 재구성을 시뮬레이션할 수 있다.
더욱 일반적으로 말해, 상기 선택된 채널 레벨 및 상관 정보(220)로부터 채널 레벨 및 상관 정보(220)를 재구성하여, 이에 의해 상기 디코더(300)에서 선택되지 않은 채널 레벨 및 상관 정보(220)의 추정을 시뮬레이션하하고,
상기 인코더에 의해 추정된 상기 선택되지 않은 채널 레벨 및 상관 정보(220); 및
상기 디코더(300)에서 인코딩되지 않은 채널 레벨 및 상관 정보(220)의 추정을 시뮬레이션함으로써 재구성된 상기 선택되지 않은 채널 레벨 및 상관 정보
간의 오류 정보를 계산할 수 있으며,
상기 계산된 오류 정보를 기반으로,
적절하게 재구성 가능한 채널 레벨 및 상관 정보와;
비적절하게 재구성 가능한 채널 레벨 및 상관 정보
구별하고,
상기 비트스트림(248)의 상기 부가 정보(228)에 인코딩될 상기 비적절하게 재구성 가능한 채널 레벨 및 상관 정보의 선택; 및
상기 적절하게 재구성 가능한 채널 레벨 및 상관 정보의 비선택
에 대해 결정하여, 상기 비트스트림(248)의 상기 부가 정보(228)에서 상기 적절하게 재구성 가능한 채널 레벨 및 상관 정보의 인코딩을 억제할 수 있다.
일반적으로, 인코더는 디코더의 동작을 시뮬레이트하여 시뮬레이션의 결과로부터 에러 메트릭을 평가할 수 있다.
일부 예에서, 중요도에 대한 특징은 오류와 관련된 메트릭의 평가와 다를 수 있다(또는 다른 메트릭을 포함할 수 있음). 어떤 경우에는, 중요도에 대한 기능이 수동 선택과 연관되거나 심리음향 기준을 기반으로 하는 중요도를 기반으로 할 수 있다. 예를 들어, 가장 중요한 채널 쌍은 시뮬레이션 없이도 인코딩되도록 선택될 수 있다(908).
이제, 인코더가 비트스트림(248)의 부가 정보(220)에 실제로 인코딩된 매개변수(908)를 어떻게 신호보낼 수 있는지를 설명하기 위한 몇 가지 추가 논의가 제공된다.
도 9d를 참조하면, ICC 행렬(900)의 대각선에 대한 매개변수는 정렬된 인덱스 1..10과 연관된다(순서는 디코더에 의해 미리 결정되고 알려진다). 도 9c에서 인코딩될 선택된 매개변수(908)는 각각 인덱스 1, 2, 5, 10에 의해 인덱싱되는 커플 L-R, L-C, R-C, LS-RS에 대한 ICC인 것으로 도시된다. 따라서, 비트스트림(248)의 부가 정보(228)에서, 인덱스 1, 2, 5, 10의 표시도 제공될 것이다(예를 들어, 도 6a의 정보(254')에서). 따라서, 디코더는 비트스트림(248)의 부가 정보(228)에 제공된 4개의 ICC는 인코더에 의해 부가 정보(228)에 제공된 인덱스 1, 2, 5, 10에 대한 정보 덕분에 L-R, L-C, R-C, LS-RS라는 것을 이해하게 될 것이다. 인덱스는 예를 들어 비트맵에서 각 비트의 위치를 미리 결정된 비트맵과 연관시키는 비트맵을 통해 제공될 수 있다. 예를 들어, 인덱스 1, 2, 5, 10을 시그널링하기 위해서, 제 1, 제 2, 제 5, 제 10 비트가 인덱스 1, 2, 5, 10를 참조하므로, "1100100001"를 (부가 정보(228)의 필드(254')에) 기록하는 것이 가능하다. (다른 가능성은 당업자의 처분에 달려있음). 이것은 소위 1차원 인덱스이지만, 다른 인덱스 전략도 가능하다. 예를 들어, 숫자 N이 인코딩되는 것에 따른, 조합 숫자 기술은 (부가 정보(228)의 필드(254')에서) 특정 채널 몇 개와 일률적으로 연관된다(https://en.wikipedia.org/wiki/Combinatorial_number_system 참조). 비트맵은 ICC를 참조할 때 ICC 맵이라고도 한다.
어떤 경우에는 매개변수의 비적응(고정) 제공이 사용된다. 이것은, 도 6a의 예에서, 인코딩될 매개변수들 중에서 선택(254)은 고정되고, 필드(254')에 선택된 매개변수를 표시할 필요가 없다. 도 9b는 고정된 매개변수 제공의 예를 도시한다: 선택된 ICC는 L-C, L-LS, R-C, C-RS이고, 디코더가 비트스트림(248)의 부가 정보(228)에 어느 ICC가 인코딩되는지를 이미 알고 있기 때문에 인덱스를 시그널링할 필요가 없다.
그러나 어떤 경우에는 인코더가 매개변수의 고정 제공과 매개변수의 적응 제공 중에서 선택을 수행할 수 있다. 인코더는 비트스트림(248)의 부가 정보(228)에서 선택을 신호보내어 디코더가 실제로 인코딩된 매개변수를 알 수 있도록 한다.
어떤 경우에는 최소한 일부 매개변수가 조정 없이 제공될 수 있다: 예를 들어,
ICDL은 비트맵에 표시할 필요 없이 어느 경우에나 인코딩될 수 있고; 및
ICC는 적응 조항의 대상이 될 수 있다.
설명은 각 프레임, 슬롯 또는 대역에 관한 것이다. 후속 프레임, 슬롯 또는 대역의 경우, 상이한 매개변수(908)가 디코더에 제공되어야 하고, 상이한 인덱스가 후속 프레임, 슬롯, 또는 대역과 연관되며; 다른 선택(예: 고정 대 적응)이 수행될 수 있다. 도 5는 주파수 영역 신호(216)를 획득하기 위해 원본 신호(212)를 처리하는데 사용될 수 있는 인코더(200)의 필터 뱅크(214)의 예를 도시한다. 도 5에서 알 수 있는 바와 같이, 시간 영역(TD) 신호(212)는 과도 분석 블록(258)(과도 현상 검출기)에 의해 분석될 수 있다. 또한, 다중 대역에서 입력 신호(212)의 주파수 영역(FD) 버전(264)으로의 변환은 필터(263)에 의해 제공된다(예를 들어 푸리에 필터, 짧은 푸리에 필터, 직교 미러 등을 구현할 수 있음). 입력 신호(212)의 주파수 영역 버전(264)은, 예를 들어, 대역 분석 블록(267)에서 분석될 수 있으며, 이는 파티션 그룹화 블록(265)에서 수행될 대역들의 특정 그룹화를 결정할 수 있다(명령(268)). 그 후, FD 신호(216)는 감소된 수의 집합된 대역의 신호가 될 것이다. 대역의 집합은 도 10a 및 10b과 관련하여 위에서 설명되었다. 파티션 그룹화 블록(267)은 또한 과도 분석 블록(258)에 의해 수행된 과도 분석에 의해 조절될 수 있다. 위에서 설명된 바와 같이, 과도 현상의 경우 집합된 대역의 수를 추가로 줄이는 것이 가능할 수 있다: 따라서 과도 현상에 대한 정보(260)는 파티션 그룹화를 조정할 수 있다. 추가로 또는 대안으로, 비트스트림(248)의 부가 정보(228)에 인코딩된 과도 현상에 대한 정보(261)는, 부가 정보(228)에 인코딩된 경우, 예를 들어 과도 현상이 발생했는지 여부를 나타내는 플래그 (예: "1"은 "프레임에 과도 현상이 있음"을 의미하고 "0"은 "프레임에 과도 현상이 없음"을 의미함) 및/또는 프레임에서 과도 상태의 위치 표시(예: 과도 현상이 관찰된 슬롯을 나타내는 필드)를 포함할 수 있다. 일부 예들에서, 정보(261)가 프레임에 과도 현상 없음을 나타낼 때("0"), 비트스트림(248)의 크기를 줄이기 위해 과도 위치의 표시가 부가 정보(228)에 인코딩되지 않는다. 정보(261)는 "과도 매개변수"라고도 하며, 도 2d 및 6b에는 비트스트림(246)의 부가 정보(228)에서 인코딩되는 바와 같다.
일부 예들에서, 블록(265)에서의 파티션 그룹화는 또한 송신 상태에 관한 정보와 같은 외부 정보(260')에 의해 조절될 수 있다(예를 들어, 전송과 관련된 측정, 오류율 등). 예를 들어, 비트스트림(248)에서 인코딩될 부가 정보(228)의 양을 줄이기 위해서, 페이로드가 높을수록(또는 오류율이 높을수록), 집합은 더 커진다(경향적으로 더 넓은 덜 집합된 대역). 정보(260')는 일부 예들에서 도 6a의 정보 또는 메트릭들(252)과 유사할 수 있다.
일반적으로 모든 대역/슬롯 조합에 대한 매개변수를 보내는 것은 불가능하지만, 필터 뱅크 샘플은 프레임당 전송되는 매개변수 세트의 수를 줄이기 위해 슬롯 수와 대역 수 모두에 대해 함께 그룹화된다. 주파수 축을 따라 대역을 매개변수 대역으로 그룹화할 때 매개변수 대역에서 일정하지 않은 분할을 사용하며, 이 때 매개변수 대역의 대역 수는 일정하지 않지만 심리음향학적 동기화된 매개변수 대역 분해능을 따르고, 즉 낮은 대역에서 매개변수 대역은 하나 또는 소수의 필터 뱅크 대역만 포함하고 더 높은 매개변수 대역의 경우 더 많은 (그리고 꾸준히 증가하는) 필터 뱅크 대역의 수가 하나의 매개변수 대역으로 그룹화된다.
그래서 예를 들어 48kHz의 입력 샘플링 속도와 14로 설정된 매개변수 대역 수에 대해, 다음 벡터 grp14는 매개변수 대역에 대한 대역 경계를 제공하는 필터 뱅크 인덱스를 설명한다(0에서 시작하는 인덱스):
Figure pat00005
매개변수 대역 j는 필터 뱅크 대역 [grp14[j],grp14[j+1]]를 포함한다.
48kHz에 대한 대역 그룹화는 그룹화가 둘 다 심리 음향학적 동기화된 주파수 스케일을 따르고 각 샘플링 주파수에 대한 대역 수에 해당하는 특정 대역 경계를 갖기 때문에, 이를 단순히 잘라내어 다른 가능한 샘플링 속도에 대해 직접 사용될 수 있다는 것에 유의한다(표 1).
프레임이 비과도적이거나 과도 처리가 구현되지 않은 경우, 시간 축을 따른 그룹화는 프레임의 모든 슬롯에 걸쳐 있으므로 매개변수 대역당 하나의 매개변수 세트를 사용할 수 있다.
그래도 매개변수 세트의 수는 많지만, 시간 해상도는 20ms 프레임(평균 40ms)보다 낮을 수 있다. 따라서 프레임당 전송되는 매개변수 세트의 수를 더 줄이기 위해서, 매개변수 대역의 서브세트만이 비트스트림에서 디코더로 전송하기 위한 매개변수를 결정하고 코딩하는 데 사용된다. 서브세트는 고정되어 있으며 인코더와 디코더 모두에 알려져 있다. 비트스트림에서 전송된 특정 서브세트는 전송된 매개변수가 매개변수 대역중 어느 서브세트에 속하는지를 디코더에게 나타내도록 비트스트림의 필드에 의해 시그널링되고 디코더는 이 서브세트에 대한 매개변수를 전송된 매개변수(ICC, ICLD)로 대체하고 현재 서브세트에 없는 모든 매개변수 대역에 대해 이전 프레임(ICCS, ICLD)의 매개변수를 유지한다.
일 예에서, 매개변수 대역은 총 매개변수 대역의 대략 절반을 포함하는 2개의 서브세트 및 하위 매개변수 대역에 대한 연속 서브세트 및 상위 매개변수 대역에 대한 하나의 연속 서브세트로 분할될 수 있다. 두 개의 서브세트가 있으므로, 서브세트를 시그널링하기 위한 비트스트림 필드는 단일 비트이고, 48kHz 및 14 매개변수 대역에 대한 서브세트의 예는 다음과 같다:
Figure pat00006
여기서 s14[j]는 매개변수 대역 j가 어느 서브세트에 속하는지를 나타낸다.
다운믹스 신호(246)는 비트스트림(248)에서 시간 영역의 신호로서 실제로 인코딩될 수 있다는 점에 유의한다: 간단히 말해서, 후속 매개변수 추정기(218)는 주파수 영역에서 매개변수(220)(예를 들어, ξi,j 및/또는 χi)를 추정할 것이다 (그리고 디코더(300)는 아래에서 설명되는 바와 같이, 믹싱 규칙(예를 들어, 혼합 행렬)(403)을 준비하기 위해 매개변수(220)를 사용할 것이다).
도 2d는 이전 인코더 중 하나일 수 있거나 이전에 논의된 인코더의 요소를 포함할 수 있는 인코더(200)의 예를 도시한다. TD 입력 신호(212)는 인코더에 입력되고 비트스트림(248)이 출력되고, 이 비트스트림(248)은 (예를 들어, 코어 코더(247)에 의해 인코딩된) 다운믹스 신호(246) 및 부가 정보(228)에 인코딩된 상관 및 레벨 정보(220)를 포함한다.
도 2d에서 알 수 있는 바와 같이, 필터뱅크(214)가 포함될 수 있다(필터뱅크의 예는 도 5에 제공됨). 주파수 영역(FD) 변환은 입력 신호(212)의 FD 버전인 FD 신호(264)를 획득하기 위해서, 블록(263)(주파수 영역 DMX)에서 제공된다. 다중 대역의 FD 신호(264)(또한 X로 표시됨)가 획득된다. 대역/슬롯 그룹화 블록(265)(도 5의 그룹화 블록(265)을 구현할 수 있음)은 결합된 대역에서 FD 신호(216)를 획득하기 위해 제공될 수 있다. FD 신호(216)는 일부 예들에서, 더 적은 대역의 FD 신호(264)의 버전일 수 있다. 후속적으로, 신호(216)는 매개변수 추정기(218)에 제공될 수 있고, 이는 공분산 추정 블록(502, 504)(여기서는 하나의 단일 블록으로 도시됨) 및 하류측, 매개변수 추정 및 코딩 블록(506, 510)(요소(502, 504, 506, 510)의 실시예가 도 6c에 도시됨)을 포함한다. 매개변수 추정 인코딩 블록(506, 510)은 또한 비트스트림(248)의 부가 정보(228)에서 인코딩될 매개변수(220)를 제공할 수 있다. 과도 검출기(258)(도 5의 과도 분석 블록(258)을 구현할 수 있음)는 과도 현상 및/또는 프레임(예를 들어, 과도가 식별된 슬롯) 내의 과도 현상의 위치를 찾을 수 있다. 따라서, 과도 현상 (예를 들어, 과도 매개변수)에 대한 정보(261)는 (예를 들어, 어떤 매개변수가 인코딩되어야 하는지를 결정하기 위해) 매개변수 추정기(218)에 제공될 수 있다. 과도 검출기(258)는 또한 정보 또는 명령(268)을 블록(265)에 제공하므로, 프레임 내의 과도 현상의 존재 및/또는 위치를 고려함으로써 그룹화가 수행되도록 할 수 있다.
도 3a, 3b, 3c는 오디오 디코더(300)(오디오 합성기라고도 함)의 예를 보여준다. 예에서, 도 3a, 3b, 3c의 디코더는 동일한 디코더일 수 있지만, 다른 요소를 피하기 위한 약간의 차이점만 있다. 예를 들어, 디코더(300)는 도 1 및 도 4와 동일할 수 있다. 예에서, 디코더(300)는 또한 인코더(200)의 동일한 장치일 수 있다.
디코더(300)는 TD(246) 또는 FD(314)의 다운믹스 신호 x로부터 합성 신호(336, 340, yR)를 생성하도록 구성될 수 있다. 오디오 합성기(300)는 다운믹스 신호(246)(예를 들어, 인코더(200)에 의해 인코딩된 것과 동일한 다운믹스 신호) 및 부가 정보(228)(예를 들어, 비트스트림(248)에 인코딩된 바와 같음)를 수신하도록 구성된 입력 인터페이스(312)를 포함할 수 있다. 부가 정보(228)는 위에서 설명된 바와 같이, ξ, χ 등 중 적어도 하나와 같은 채널 레벨 및 상관 정보(220, 314) 또는 인코더 측에서 원본 입력 신호(212), y일 수 있는 원본 신호의 요소(아래에 설명됨)를 포함할 수 있다. 일부 예들에서, 모든 ICLD(χ) 및 ICC 행렬(900)의 대각선 외부의 일부 항목(모두는 아님)(906 또는 908)(ICC 또는 ξ 값들)은 디코더(300)에 의해 획득된다.
디코더(300)는 (예를 들어, 프로토타입 신호 계산기 또는 프로토타입 신호 계산 모듈(326)을 통해) 다운믹스 신호(324, 246, x)로부터 프로토타입 신호(328)를 계산하도록 구성될 수 있고, 이 프로토타입 신호(328)는 (1보다 큰) 합성 신호(336)의 채널 수를 갖는다.
디코더(300)는 (예를 들어, 믹싱 규칙 계산기(402)를 통해) 믹싱 규칙(403)을:
상기 원본 신호(212, y)의 채널 레벨 및 상관 정보(예를 들어, 314, ξ, χ); 및
상기 다운믹스 신호(324, 246, x)와 관련된 공분산 정보(에르 들어, Cx 또는 그 요소)
중 적어도 하나를 사용하여 계산하도록 구성될 수 있다.
디코더(300)는 상기 프로토타입 신호(328) 및 상기 적어도 하나의 믹싱 규칙(403)을 사용하여 상기 합성 신호(336, 340, yR)를 생성하도록 구성되는 상기 합성 프로세서(404)를 포함할 수 있다.
합성 프로세서(404) 및 믹싱 규칙 계산기(402)는 하나의 합성 엔진(334)에 수집될 수 있다. 일부 예에서, 믹싱 규칙 계산기(402)는 합성 엔진(334)의 외부에 있을 수 있다. 일부 예에서, 도 3a의 믹싱 규칙 계산기(402)는 도 3b의 매개변수 재구성 모듈(316)과 통합될 수 있다.
합성 신호(336, 340, yR)의 합성 채널의 수는 1보다 크며(어떤 경우에는 2보다 크거나 3보다 크거나), 더 클 수록 1보다 큰 (어떤 경우에는 2보다 크거나 3보다 큼) 원본 신호(212, y)의 원래 채널 수보다 적거나 같다. 다운믹스 신호(246, 216, x)의 채널 수는 적어도 1개 또는 2개이고, 원본 신호(212, y)의 원래 채널의 수 및 합성 신호(336, 340, yR)의 합성 채널 수보다 적다.
입력 인터페이스(312)는 인코딩된 비트스트림(248)(예를 들어, 인코더(200)에 의해 인코딩된 동일한 비트스트림(248))을 판독할 수 있다. 입력 인터페이스(312)는 비트스트림 판독기 및/또는 엔트로피 디코더이거나 이를 포함할 수 있다. 비트스트림(248)은 위에서 설명된 바와 같이 다운믹스 신호(246, x) 및 부가 정보(228)를 인코딩할 수 있다. 부가 정보(228)는 매개변수 추정기(218) 또는 매개변수 추정기(218)의 하류측 요소 (예를 들어, 매개변수 양자화 블록(222) 등) 중 하나에 의해 출력되는 형식으로, 예를 들어 원래 채널 레벨 및 상관 정보(220)를 포함할 수 있다. 부가 정보(228)는 인코딩된 값, 인덱싱된 값, 또는 둘 다를 포함할 수 있다. 입력 인터페이스(312)가 다운믹스 신호(346, x)에 대하여 도 3b에 도시되어 있지 않지만, 도 3a에서와 같이 다운믹스 신호에도 적용될 수 있다. 일부 예들에서, 입력 인터페이스(312)는 비트스트림(248)으로부터 획득된 매개변수들을 양자화할 수 있다.
따라서 디코더(300)는 시간 영역에 있을 수 있는 다운믹스 신호(246, x)를 획득할 수 있다. 위에서 설명한 바와 같이, 다운믹스 신호(246)는 프레임 및/또는 슬롯으로 분할될 수 있다(위 참조). 예에서, 필터뱅크(320)는 주파수 영역에서 다운믹스 신호(246)의 버전(324)을 얻기 위해 시간 영역에서 다운믹스 신호(246)를 변환할 수 있다. 위에서 설명된 바와 같이, 다운믹스 신호(246)의 주파수 영역 버전(324)의 대역들은 대역들의 그룹으로 그룹화될 수 있다. 예에서, 필터뱅크(214)(위 참조)에서 수행된 동일한 그룹화가 수행될 수 있다. 그룹화 매개변수(예: 어느 대역 및/또는 얼마난 많은 대역을 그룹화할지)는 예를 들어, 파티션 그룹화기(265) 또는 대역 분석 블록(267)에 의한 시그널링에 기초할 수 있고, 시그널링은 부가 정보(228)에 인코딩된다.
디코더(300)는 프로토타입 신호 계산기(326)를 포함할 수 있다. 프로토타입 신호 계산기(326)는 예를 들어 프로토타입 규칙(예: 행렬 Q)을 적용하여, 다운믹스 신호(예를 들어, 버전(324, 246, x) 중 하나)로부터 프로토타입 신호(328)를 계산할 수 있다. 프로토타입 규칙은 제 1 치수와 제 2 치수를 가진 프로토타입 행렬(Q)로 구현될 수 있으며, 여기서 제1 치수는 다운믹스 채널의 수와 연관되고, 제2 치수는 합성 채널의 수와 연관된다. 따라서 프로토타입 신호는 최종적으로 생성될 합성 신호(340)의 채널 수를 갖는다.
프로토타입 계산기(326)는, 많은 "지능"을 적용하지 않고도, 증가된 채널 수(생성될 합성 신호의 채널 수)에서 다운믹스 신호(324, 246, x)의 버전을 단순히 생성한다는 의미에서, 소위 업믹스를 다운믹스 신호(324, 246, x)에 적용할 수 있고, 예에서, 프로토타입 신호 계산기(326)는 고정된 미리 결정된 프로토타입 행렬(이 문서에서 "Q"로 식별됨)을 다운믹스 신호(246)의 FD 버전(324)에 간단히 적용할 수 있다. 예에서, 프로토타입 신호 계산기(326)는 상이한 대역에 상이한 프로토타입 행렬을 적용할 수 있다. 프로토타입 규칙(Q)은 예를 들어, 특정 수의 다운믹스 채널과 특정 수의 합성 채널을 기반으로 하여, 미리 저장된 복수의 프로토타입 규칙 중에서 선택될 수 있다.
프로토타입 신호(328)는 역상관 모듈(330)에서 역상관되어 프로토타입 신호(328)의 역상관된 버전(332)을 획득할 수 있다. 그러나, 일부 예들에서 유리하게는 역상관 모듈(330)이 존재하지 않고, 이는 발명이 회피할 수 있을 만큼 충분히 효과적임이 입증되었기 때문이다.
프로토타입 신호(그의 버전(328, 332) 중 임의의 것)는 합성 엔진(334)(특히 합성 프로세서(404))에 입력될 수 있다. 여기서, 프로토타입 신호(328, 332)는 합성 신호(336, yR)를 얻기 위해 처리된다. 합성 엔진(334)(특히 합성 프로세서(404))은 믹싱 규칙(403)을 적용할 수 있다(아래에서 설명되는 일부 예들에서, 믹싱 규칙은 2개, 예를 들어 합성 신호의 주 성분에 대한 것과 잔여 성분에 대한 것). 믹싱 규칙(403)은 예를 들어, 행렬로 구현될 수 있다. 행렬(403)은 원본 신호(212, y)의 채널 레벨 및 상관 정보(314, ξ, χ 또는 이들의 요소)를 기반으로 하여, 예를 들어, 믹싱 규칙 계산기(402)에 의해 생성될 수 있다.
합성 엔진(334)(특히 합성 프로세서(404))에 의해 출력된 합성 신호(336)는 필터뱅크(338)에서 선택적으로 필터링될 수 있다. 추가적으로 또는 대안적으로, 합성 신호(336)는 필터뱅크(338)에서 시간 영역으로 변환될 수 있다. 합성 신호(336)의 버전(340)(시간 영역에서 또는 필터링됨)은 오디오 재생(예: 확성기)에 사용될 수 있다.
믹싱 규칙(예: 혼합 행렬)(403)을 얻기 위해서, 원본 신호의 , 채널 레벨 및 상관 정보(예: Cy, CyR 등) 및 다운믹스 신호와 관련된 공분산 정보(예: Cx)는 믹싱 규칙 계산기(402)에 제공될 수 있다. 이를 위해 인코더(200)에 의해 부가 정보(228)에 인코딩된 채널 레벨 및 상관 정보(220)를 이용하는 것이 가능하다.
그러나 일부 경우에 비트스트림(248)에 인코딩된 정보의 양을 줄이기 위해서, 모든 매개변수가 인코더(200)에 의해 인코딩되지는 않는다 (예를 들어, 원본 신호(212)의 전체 채널 레벨 및 상관 정보 및/또는 다운믹스 신호(246)의 전체 공분산 정보가 아님). 따라서, 일부 매개변수(318)는 매개변수 재구성 모듈(316)에서 추정될 것이다.
매개변수 재구성 모듈(316)은 예를 들어, 다음 중 적어도 하나에 의해 공급될 수 있다:
예를 들어, 다운믹스 신호(246)의 필터링된 버전 또는 FD 버전일 수 있는 다운믹스 신호(246(x))의 버전(322); 및
부가 정보(228)(채널 레벨 및 상관 정보(228) 포함).
부가 정보(228)는 (입력 신호의 레벨 및 상관 정보로서) 원본 신호(212, y)의 상관 행렬 Cy와 관련된 정보를 포함할 수 있다: 그러나 어떤 경우에는 상관 행렬 Cy의 모든 요소가 실제로 인코딩되는 것은 아니다. 따라서, 추정 및 재구성 기술이 (예를 들어, 추정 버전
Figure pat00007
을 얻는 중간 단계를 통해) 상관 행렬 Cy의 버전(CyR)을 재구성하기 위해 개발되었다. 모듈(316)에 제공된 매개변수(314)는 엔트로피 디코더(312)(입력 인터페이스)에 의해 획득될 수 있고, 예를 들어 양자화될 수 있다.
도 3c는 도 1 내지 도 3b의 디코더 중 하나의 실시예일 수 있는 디코더(300)의 예를 도시한다. 여기서, 디코더(300)는 디멀티플렉서로 표현되는 입력 인터페이스(312)를 포함한다. 디코더(300)는 예를 들어 확성기에 의해 재생될 TD(신호 340) 또는 FD(신호 336)에 있을 수 있는 합성 신호(340)를 출력한다. 도 3c의 디코더(300)는 또한 입력 인터페이스(312)의 일부일 수 있는 코어 디코더(347)를 포함할 수 있다. 따라서 코어 디코더(347)는 다운믹스 신호(x, 246)를 제공할 수 있다. 필터뱅크(320)는 다운믹스 신호(246)를 TD에서 FD로 변환할 수 있다. 다운믹스 신호(x, 246)의 FD 버전은 324로 표시된다. FD 다운믹스 신호(324)는 공분산 합성 블록(388)에 제공될 수 있다. 공분산 합성 블록(388)은 FD에서 합성 신호(336(Y))를 제공할 수 있다. 역 필터뱅크(338)는 오디오 신호(314)를 TD 버전(340)으로 변환할 수 있다. FD 다운믹스 신호(324)는 대역/슬롯 그룹화 블록(380)에 제공될 수 있다. 대역/슬롯 그룹화 블록(380)은 인코더에서 도 5 및 도 2d의 파티션 그룹화 블록(265)에 의해 수행된 것과 동일한 동작을 수행할 수 있다. 도 5 및 도 2d의 다운믹스 신호(216)의 대역이 인코더에서 몇 개의 대역(넓은 너비)으로 그룹화되거나 집계되고, 매개변수(220)(ICC, ICLD)는 집합된 대역의 그룹과 연관되었기 때문에, 이제 동일한 방식으로 디코딩된 다운믹스 신호를 집계할 필요가 있고, 각 집계된 대역은 관련 매개 변수에 대한 것이다. 따라서, 숫자 385는 집계된 후의 다운믹스 신호 XB를 나타낸다. 필터는 집계되지 않은 FD 표현을 제공하므로, 인코더에서와 동일한 방식으로 매개변수를 처리하기 위해서 디코더(380)에서의 대역/슬롯 그룹화가 집계된 다운믹스 XB를 제공하도록 인코더와 동일한 통합을 대역/슬롯에 대해 수행한다.
대역/슬롯 그룹화 블록(380)은 또한 프레임의 상이한 슬롯에 걸쳐 집계하므로, 신호(385)가 인코더와 유사한 슬롯 차원에서도 집계되도록 한다. 대역/슬롯 그룹화 블록(380)은 또한 비트스트림(248)의 부가 정보(228)에 인코딩된 정보(261)를 수신할 수 있으며, 이는 과도 현상의 존재 및 경우에 따라 프레임 내 과도 현상의 위치를 나타낸다.
공분산 추정 블록(384)에서, 다운믹스 신호(246)(324)의 공분산 Cx가 추정된다. 공분산 Cy는 수학식 4 내지 8을 사용하여 이 목적으로 사용될 수 있는, 공분산 계산 블록(386)에서 획득된다. 도 3c는 예를 들어 매개변수(220)(ICC 및 ICLD)일 수 있는 "다중 채널 매개변수"를 도시한다. 공분산 Cy 및 Cx는 공분산 합성 블록(388)에 제공되어 합성 신호(388)를 합성한다. 일부 예들에서, 블록(384, 386, 388)은 함께 취해질 때, 매개변수 재구성 모듈(316), 믹싱 규칙 계산기(402), 후술하는 바와 같은 합성 프로세서(404)를 구현한다.
4. 토론
4.1 개요
본 예의 새로운 접근 방식은 음질을 최대한 원본 신호에 가깝게 유지하고 다중 채널 신호의 공간적 특성을 보존하면서 특히 낮은 비트 전송률(160kbits/sec 이하를 의미)에서 다중 채널 콘텐츠의 인코딩 및 디코딩을 수행하는 것을 목표로 한다. 새로운 접근 방식의 한 가지 기능은 앞서 언급한 DirAC 프레임워크에 맞추는 것이다. 출력 신호는 입력(212)과 동일한 확성기 설정 또는 다른 확성기 설정에서 렌더링될 수 있다(확성기 측면에서 더 크거나 작을 수 있음). 또한 출력 신호는 바이노럴 렌더링을 사용하여 확성기에서 렌더링될 수 있다.
현재 섹션에서는 본 발명 및 이를 구성하는 다양한 모듈에 대한 심층적인 설명을 제공한다.
제안된 시스템은 두 가지 주요 부분으로 구성된다.
- 입력 신호(212)로부터 필요한 매개변수(220)를 유도하고, (222에서) 이들을 양자화하고 (226에서) 인코딩하는, 인코더(200). 인코더(200)는 또한 비트스트림(248)에서 인코딩될(그리고 아마도 디코더(300)로 전송될) 다운믹스 신호(246)를 계산할 수 있다.
- 품질이 원본 신호(212)에 가능한 한 가까운 다중 채널 출력을 생성하기 위한, 인코딩된(예: 전송된) 매개변수 및 다운믹스된 신호(246)를 사용하는 디코더(300).
도 1은 예시에 따라 제안된 새로운 접근 방식의 개요를 보여준다. 일부 예에서는 전체 다이어그램에 표시된 구성 요소의 서브세트합만 사용하고 애플리케이션 시나리오에 따라 특정 처리 블록을 삭제한다.
본 발명에 대한 입력(212(y))은 시간 영역 또는 시간-주파수 영역(예를 들어, 신호(216))에서 다중 채널 오디오 신호(212)("다중 채널 스트림"이라고도 함)로, 이는 예를 들어, 한 세트의 확성기에 의해 생성되거나 재생되는 오디오 신호 세트를 의미한다.
처리의 제 1 부분은 인코딩 부분이고; 다중 채널 오디오 신호로부터, 소위 "다운믹스" 신호(246)는 시간 영역 또는 주파수 영역에서 입력 신호(212)로부터 유도된 매개변수 또는 부가 정보(228)(4.2.2 및 4.2.3 참조)의 세트와 함께 계산된다(4.2.6 참조). 이러한 매개변수는 인코딩되고(4.2.5 참조), 경우에 따라 디코더(300)로 전송된다.
다운믹스 신호(246) 및 인코딩된 매개변수들(228)은 그 다음 프로세스의 인코더 측과 디코더 측을 링크하는 전송로 및 코어 코더에 전송될 수 있다. 디코더 측에서는 다운믹스된 신호가 처리되고(4.3.3 및 4.3.4) 전송된 매개변수가 디코딩된다(4.3.2 참조). 디코딩된 매개변수는 공분산 합성을 사용하여 출력 신호 합성에 사용되고(4.3.5 참조) 이것은 시간 영역에서 최종 다중 채널 출력 신호로 이어질 것이다.
세부 사항으로 들어가기 전에, 설정해야 할 몇 가지 일반적인 특성이 있으며 그 중 적어도 하나는 유효하다:
처리는 모든 확성기 설정과 함께 사용할 수 있다. 확성기의 수를 늘릴 때, 프로세스의 복잡성과 전송된 매개변수를 인코딩하는 데 필요한 비트도 증가하는 것을 염두에 둔다.
전체 처리는 프레임 기반으로 수행될 수 있는데, 즉, 입력 신호(212)는 독립적으로 처리되는 프레임으로 분할될 수 있다. 인코더 측에서, 각 프레임은 처리될 디코더 측으로 전송될 매개변수 세트를 생성한다.
- 프레임은 슬롯으로 나뉠 수도 있다; 해당 슬롯은 프레임 규모에서 얻을 수 없는 통계적 속성을 나타낸다. 프레임은 예를 들어 8개의 슬롯으로 나뉠 수 있으며 각 슬롯 길이는 프레임 길이의 1/8과 같다.
4.2 인코더
인코더의 목적은 적절한 매개변수(220)를 추출하여 다중 채널 신호(212)를 설명하고, (222에서) 양자화하고, (226에서) 부가 정보(228)로 인코딩한 다음에, 경우에 따라 디코더 측으로 전송하는 것이다. 여기에서 매개변수(220) 및 이들이 계산될 수 있는 방법이 상세하게 설명될 것이다.
인코더(200)의 보다 상세한 구성은 도 2a 내지 2d에서 찾을 수 있다. 이 개요는 인코더의 두 가지 주요 출력 228 및 246을 강조 표시한다. 인코더(200)의 제1 출력은 다중 채널 오디오 입력(212)으로부터 계산되는 다운믹스 신호(228)이고; 다운믹스된 신호(228)는 원래 콘텐츠(212)보다 적은 수의 채널에서 원래의 다중 채널 스트림(신호)을 나타낸다. 계산에 대한 자세한 정보는 4.2.6 단락에서 찾을 수 있다.
인코더(200)의 제2 출력은 비트스트림(248)에서 부가 정보(228)로서 표현되는 인코딩된 매개변수들(220)이고; 이러한 매개변수(220)는 현재 예의 핵심으로: 디코더 측에서 다중 채널 신호를 효율적으로 설명하는 데 사용되는 매개변수이다. 이러한 매개변수(220)는 비트스트림(248)에서 인코딩하는 데 필요한 비트의 품질과 양 사이의 좋은 절충안을 제공한다. 인코더 측에서 매개변수 계산은 여러 단계로 수행될 수 있다. 이 프로세스는 주파수 영역에서 설명되지만 시간 영역에서도 수행될 수 있다. 매개변수(220)는 먼저 다중 채널 입력 신호(212)로부터 추정되고, 그 다음 양자화기(222)에서 양자화될 수 있고, 다음에 부가 정보(228)로서 디지털 비트 스트림(248)으로 변환될 수 있다. 이러한 단계에 대한 자세한 정보는 4.2.2., 4.2.3 및 4.2.5 단락에서 찾을 수 있다.
4.2.1 필터 뱅크 및 파티션 그룹화
인코더 측(예를 들어, 필터뱅크(214)) 또는 디코더 측(예를 들어, 필터뱅크(320 및/또는 338))에 대해 필터 뱅크가 논의된다.
본 발명은 공정 동안 다양한 지점에서 필터 뱅크를 사용할 수 있다. 이러한 필터 뱅크는 신호를, 시간 영역에서 주파수 영역으로 (소위 집계된 대역 또는 매개변수 대역이라고 함) 변형하거나 (이 경우 "분석 필터 뱅크"라고 함), 주파수에서 시간 영역으로(예: 338) 변형할 수 있다 (이 경우 "합성 필터 뱅크"라고 함).
필터 뱅크의 선택은 원하는 성능 및 최적화 요구 사항과 일치해야 하지만 나머지 처리는 필터 뱅크의 특정 선택과 독립적으로 수행될 수 있다. 예를 들어, 직교 미러 필터 기반 필터 뱅크 또는 단시간 푸리에 변환 기반 필터 뱅크를 사용할 수 있다.
도 5를 참조하여, 인코더(200)의 필터 뱅크(214)의 출력은 특정 수의 주파수 대역(264에 대해 266)에 걸쳐 표현되는 주파수 영역의 신호(216)일 것이다. 모든 주파수 대역(264)에 대한 나머지 처리를 수행하는 것은 더 나은 품질과 더 나은 주파수 해상도를 제공하는 것으로 이해될 수 있지만, 모든 정보를 전송하기 위해서는 더 중요한 비트 전송률이 필요하다. 따라서 필터 뱅크 프로세스와 함께, 더 작은 대역 세트에 대한 정보(266)를 나타내기 위해 일부 주파수를 함께 그룹화하는 것에 해당하는 소위 "파티션 그룹화"(265)가 수행된다.
예를 들어, 필터(263)(도 5)의 출력(264)은 128개 대역으로 표현될 수 있고 265에서의 파티션 그룹화는 20개 대역만을 갖는 신호(266(216))로 이어질 수 있다. 대역을 함께 그룹화하는 방법에는 여러 가지가 있으며 의미 있는 방법 중 하나는 예를 들어 등가 직사각형 대역폭을 근사화하는 것일 수 있다. 등가 직사각형 대역폭은 인간의 청각 시스템이 오디오 이벤트를 처리하는 방법을 모델링하려고 시도하는 심리 음향학적 동기화된 대역 분할의 유형으로, 즉 목적은 사람의 청력에 적합한 방식으로 필터뱅크를 그룹화하는 것이다.
4.2.2 매개변수 추정(예: 추정기(218))
측면 1: 다중 채널 콘텐츠를 설명하고 합성하기 위한 공분산 행렬의 사용.
218에서의 매개변수 추정은 본 발명의 주요 포인트 중 하나로; 코더 측에서 출력 다중 채널 오디오 신호를 합성하는 데 사용된다. 이러한 매개변수(220)(부수 정보(228)로 인코딩됨)는 다중 채널 입력 스트림(신호)(212)을 효율적으로 설명하고 전송될 많은 양의 데이터를 필요로 하지 않기 때문에 선택되었다. 이들 매개변수(220)는 인코더 측에서 계산되고 나중에 출력 신호를 계산하기 위해 디코더 측에서 합성 엔진과 함께 사용된다.
여기서 공분산 행렬은 다중 채널 오디오 신호의 채널과 다운믹스된 신호의 채널 사이에서 계산될 수 있다. 즉:
Cy: 다중 채널 스트림(신호)의 공분산 행렬 및/또는
Cx: 다운믹스 스트림(신호)의 공분산 행렬(246)
처리는 매개변수 대역 기반으로 수행될 수 있으며, 따라서 매개변수 대역은 다른 대역과 독립적이며 방정식은 일반성을 잃지 않고 주어진 매개변수 대역에 설명될 수 있다.
주어진 매개변수 대역에 대해 공분산 행렬은 다음과 같이 정의된다:
Figure pat00008
여기서,
Figure pat00009
은 실수부 연산자를 나타내고,
실수부 대신에, 이것은 파생된 복소수 값(예: 절대값)과 관계를 갖는 실수 값을 생성하는 다른 연산일 수 있다.
* 은 켤레 전치 연산자를 나타내고,
B는 원래 대역 수와 그룹화된 대역 간의 관계를 나타내고다(4.2.1. 파티션 그룹화 참조),
Y 및 X는 각각 주파수 영역에서 원본 다중 채널 신호(212) 및 다운믹스된 신호(246)이다.
Cy (또는 그 요소, 또는 Cy 또는 그 요소에서 얻은 값)은 또한 원본 신호(212)의 채널 레벨 및 상관 정보로 표시된다. Cx(또는 그의 요소, 또는 Cy 또는 그의 요소로부터 획득된 값)는 또한 다운믹스 신호(212)와 연관된 공분산 정보로서 표시된다.
주어진 프레임 (및 대역)에 대해, 예를 들어 추정기 블록(218)에 의해, 하나 또는 두 개의 공분산 행렬 Cy 및/또는 Cx만 출력될 수 있다. 프로세스는 프레임 기반이 아닌 슬롯 기반이며, 주어진 슬롯과 전체 프레임에 대한 행렬 사이의 관계와 관련하여 다른 구현이 수행될 수 있다. 예를 들어, 프레임 내의 각 슬롯에 대한 공분산 행렬을 이들을 계산하고 합산하여 한 프레임에 대한 행렬을 출력할 수 있다. 공분산 행렬을 계산하기 위한 정의는 수학적인 정의이지만, 특정 특성을 가진 출력 신호를 얻기 위해서 원한다면 미리 해당 행렬을 계산하거나 최소한 수정할 수도 있다는 점에 유의한다.
위에서 설명한 바와 같이, 행렬 Cy 및/또는 Cx의 모든 요소가 실제로 비트스트림(248)의 부가 정보(228)에 인코딩될 필요는 없다. Cx의 경우, 수학식 1을 적용하여 인코딩된 다운믹스 신호(246)로부터 간단히 추정할 수 있고, 따라서 인코더(200)는 Cx (또는 더 일반적으로 다운믹스 신호와 관련된 공분산 정보)의 임의의 요소를 인코딩하는 것을 간단히 말해 쉽게 방지할 수 있다. Cy 에 대해 (또는 원본 신호와 관련된 채널 레벨 및 상관 정보에 대해), 디코더 측에서 아래에 설명된 기술을 사용하여 Cy의 요소 중 적어도 하나를 추정하는 것이 가능하다.
측면 2a: 다중 채널 오디오 신호를 설명하고 재구성하기 위한 공분산 행렬 및/또는 에너지의 전송
이전에 설명한 바와 같이, 공분산 행렬은 합성에 사용된다. 인코더에서 디코더로 공분산 행렬(또는 그 일부)을 직접 전송할 수 있다. 일부 예에서 행렬 Cx는 다운믹스된 신호(246)를 사용하여 디코더 측에서 재계산될 수 있기 때문에 반드시 전송될 필요는 없지만, 애플리케이션 시나리오에 따라 이 행렬은 전송된 매개변수로서 요구될 수 있다.
구현의 관점에서, 예를 들어 비트 전송률에 관한 특정 요구 사항을 충족하기 위해서, 이들 행렬 Cy, Cy 의 모든 값을 인코딩하거나 전송해야 하는 것은 아니다. 전송되지 않은 값은 디코더 측에서 추정할 수 있다(4.3.2 참조).
측면 2b: 다중 채널 신호를 설명하고 재구성하기 위한 채널 간 일관성 및 채널 간 레벨 차이의 전송
공분산 행렬 Cx, Cy로부터, 매개변수의 대안 세트가 정의되고 디코더 측에서 다중 채널 신호(212)를 재구성하는 데 사용될 수 있다. 그 매개변수는 예를 들어, 채널간 일관성(ICC) 및/또는 채널간 레벨 차이(ICLD)일 수 있다. 채널간 일관성은 다중 채널 스트림의 각 채널 간의 일관성을 설명한다. 이 매개변수는 공분산 행렬 Cy에서 파생되고 다음과 같이 계산될 수 있다(주어진 매개변수 대역 및 두 개의 주어진 채널 i 및 j에 대해).
Figure pat00010
여기서
ξi,j는 입력 신호(212)의 채널 i와 j 사이의 ICC이고,
Cyi,j는 입력 신호(212)의 채널 i와 j 사이의 다중 채널 신호의 공분산 행렬의 값이다(이전에 수학식 1에서 정의됨).
ICC 값은 다중 채널 신호의 각 채널과 모든 채널 사이에서 계산될 수 있으며, 이는 다중 채널 신호의 크기가 커질수록 많은 양의 데이터로 이어질 수 있다. 실제로, 감소된 ICC 세트가 인코딩 및/또는 전송될 수 있다. 인코딩 및/또는 전송된 값은 일부 예에서 성능 요구 사항에 따라 정의되어야 한다.
예를 들어, ITU 권장 사항 "ITU-R BS.2159-4"에 의해 정의된 대로 정의된 확성기 설정으로서 5.1(또는 5.0)에 의해 생성된 신호를 처리할 때, 4개의 ICC만 전송하도록 선택할 수 있다. 이 네 가지 ICC는 다음 중 하나일 수 있다:
중앙 및 우측 채널
중앙 및 좌측 채널
좌 및 좌측 서라운드 채널
우 및 우측 서라운드 채널.
일반적으로 ICC 행렬에서 선택된 ICC의 인덱스는 ICC 맵에 의해 기술된다.
일반적으로, 모든 확성기 설정에 대해 평균적으로 최상의 품질을 제공하는 고정된 ICC 세트를 선택하여 인코딩 및/또는 디코더로 전송할 수 있다. ICC의 수와 전송될 ICC는 라우드스피커 설정 및/또는 사용 가능한 총 비트 전송률에 따라 달라질 수 있으며 비트 스트림(248)에서 ICC 맵을 전송할 필요 없이 인코더와 디코더에서 둘 다 사용할 수 있다. 즉, 확성기 설정 및/또는 총 비트 전송률에 따라 ICC의 고정 세트 및/또는 대응하는 고정 ICC 맵이 사용될 수 있다.
이 고정 세트는 특정 재료에 적합하지 않을 수 있으며, 경우에 따라 고정 ICC 세트를 사용하는 모든 재료의 평균 품질보다 훨씬 더 나쁜 품질을 생성한다. 모든 프레임(또는 슬롯)에 대한 다른 예에서 이것을 극복하기 위해서, 특정 ICC의 중요도에 대한 특징을 기반으로 최적의 ICC 세트 및 해당 ICC 맵이 추정될 수 있다. 현재 프레임에 사용되는 ICC 맵은 비트스트림(248)에서 양자화된 ICC와 함께 명시적으로 인코딩 및/또는 전송된다.
예를 들어, ICC의 중요도에 대한 특성은 4.3.2의 방정식 4 및 6을 사용하여 디코더와 유사한 수학식 1의 다운믹스 공분산 Cx을 사용하여 공분산
Figure pat00011
의 추정 또는 ICC 행렬
Figure pat00012
의 추정을 생성하여 결정될 수 있다. 선택한 기능에 따라 기능은 모든 ICC 또는 매개변수가 현재 프레임에서 전송되고 모든 대역에 대해 결합되는 모든 대역에 대한 공분산 행렬의 해당 항목에 대해 계산된다. 이 결합된 기능 행렬은 가장 중요한 ICC를 결정하는 데 사용되며 따라서 사용할 ICC 세트와 전송할 ICC 맵을 결정한다.
예를 들어 ICC의 중요성에 대한 기능은 추정된 공분산
Figure pat00013
과 실제 공분산 Cy의 항목 사이의 절대 오차이고 결합된 특징 행렬은 현재 프레임에서 전송될 모든 대역에 대한 모든 ICC에 대한 절대 오차의 합이다. 결합된 특성 행렬에서, n개의 항목이 선택되고 이 때 합산된 절대 오류가 가장 높고 n은 확성기/비트 전송률 조합에 대해 전송되는 ICC의 수이고 ICC 맵이 이들 항목으로 구성된다.
또한, 도 6b와 같은 다른 예에서 프레임 간에 ICC 맵이 너무 많이 변경되는 것을 방지하기 위해서, 예를 들어 이전 프레임의 ICC 맵 항목에 1보다 큰 인수(220k)를 적용하여 공분산의 절대 오차가 발생한 경우에, 기능 행렬은 이전 매개변수 프레임의 선택된 ICC 맵에 있던 모든 항목에 대해 강조될 수 있다. 또한, 다른 예에서, 현재 프레임에서 고정 ICC 맵 또는 최적 ICC 맵을 사용하는 경우 비트스트림(248)의 부가 정보(228)에서 전송된 플래그는 다음을 나타낼 수 있으며, 플래그가 고정 집합을 나타내는 경우 ICC 맵은 비트 스트림(248)에서 전송되지 않는다.
최적의 ICC 맵은 예를 들어, 비트 맵으로 인코딩 및/또는 전송된다(예를 들어, ICC 맵은 도 6a의 정보(254')를 구현할 수 있다).
ICC 맵을 전송하는 또 다른 예는 인덱스 자체가 예를 들어 추가로 엔트로피 코딩되는 모든 가능한 ICC 맵의 테이블로 인덱스를 전송하는 것이다. 예를 들어, 가능한 모든 ICC 맵의 테이블은 메모리에 저장되지 않지만 인덱스가 나타내는 ICC 맵은 인덱스에서 직접 계산된다.
ICC와 함께(또는 단독으로) 전송될 수 있는 제 2 매개변수는 ICLD이다. "ICLD"는 채널 간 레벨 차이를 나타내며 입력 다중 채널 신호(212)의 각 채널 간의 에너지 관계를 설명한다. ICLD에 대한 고유한 정의는 없으며; 이 값의 중요한 측면은 다중 채널 스트림 내의 에너지 비율을 설명한다는 것이다. 예를 들어 Cy에서 ICLD로의 변환은 다음과 같이 얻을 수 있다:
Figure pat00014
여기서, χi는 채널 i에 대한 ICLD이고.
Pi는 현재 채널 i의 전력으로, Cy의 대각선에서 추출할 수 있으며; Pi=Cyi,i,
Pdmx,i는 채널 i에 따라 다르지만 항상 Cx 값의 선형 조합이 되고 또한 원래 스피커 설정에 따라 다르다.
예에서 Pdmx,i는 모든 채널에 대해 동일하지 않고 다운믹스 행렬(디코더의 프로토타입 행렬이기도 함)와 관련된 매핑에 따라 다르고, 이것은 일반적으로 수학식 3의 글머리 기호 중 하나에서 언급된다. 채널 i가 다운믹스 채널 중 하나로 또는 이들 중 하나 이상으로 다운믹스되는지에 따라 다르다. 다시 말해, Pdmx,i는 다운믹스 행렬에 0이 아닌 요소가 있는 Cx의 모든 대각선 요소에 대한 합이거나 이 합을 포함할 수 있으므로, 수학식 3은 다음과 같이 다시 쓸 수 있다:
Figure pat00015
Figure pat00016
αi는 다운믹스에 대한 채널의 예상 에너지 기여도와 관련된 가중 계수이며, 이 가중 계수는 특정 입력 확성기 구성에 대해 고정되고 인코더와 디코더 모두에서 알려져 있다. 행렬 Q의 개념은 아래에서 제공된다. αi 및 행렬 Q의 일부 값도 문서 끝에 제공된다.
모든 입력 채널 i에 대한 매핑을 정의하는 구현의 경우, 매핑 인덱스는 입력 채널 i가 혼합되는 다운믹스의 채널 j이거나 매핑 인덱스가 다운믹스 채널의 수보다 크다. 따라서 다음과 같은 방식으로 Pdmx,i를 결정하는 데 사용되는 매핑 인덱스 mICLD,i가 있다:
Figure pat00017
4.2.3 매개변수 양자화
양자화 매개변수(224)를 획득하기 위해 매개변수(220)의 양자화의 예는, 예를 들어, 도 2b 및 도 4의 매개변수 양자화 모듈(222)에 의해 수행될 수 있다.
공분산 행렬 {Cx,Cy} 또는 ICC 및 ICLD {ξ,χ}를 의미하는 매개변수(220)의 세트가 계산되면, 양자화된다. 양자화기의 선택은 품질과 전송할 데이터 양 사이의 절충일 수 있지만 사용되는 양자화기에 관한 제한은 없다.
예를 들어, ICC 및 ICLD가 사용되는 경우; ICC에 대한 간격 [-1,1]에서 10개의 양자화 단계를 포함하는 비선형 양자화기 및 ICLD에 대한 간격 [-30,30]에서 20개의 양자화 단계를 포함하는 또 다른 비선형 양자화기일 수 있다.
또한 구현 최적화로, 전송된 매개변수를 다운샘플링하도록 선택할 수 있으며, 이는 양자화된 매개변수(224)가 연속적으로 2개 이상의 프레임에 사용됨을 의미한다.
일 측면에서, 현재 프레임에서 전송된 매개변수들의 서브세트는 비트 스트림으로 매개변수 프레임 인덱스에 의해 시그널링된다.
4.2.4 과도 현상 처리, 다운 샘플링된 매개변수
아래에서 논의된 몇 가지 예는 도 5에 표시된 것처럼 이해될 수 있으며, 이는 도 1 및 2d의 블록(214)의 예일 수 있다.
다운 샘플링된 매개변수 세트(예를 들어, 도 5의 블록 265에서 획득됨), 즉 매개변수 대역의 서브세트에 대한 매개변수 세트(220)는 하나 이상의 처리된 프레임에 대해 사용될 수 있는 경우, 둘 이상의 서브세트에 나타나는 과도 현상은 로컬라이제이션 및 일관성 측면에서 보존될 수 없다. 따라서 이러한 프레임의 모든 대역에 대한 매개변수를 보내는 것이 유리할 수 있다. 이 특별한 유형의 매개변수 프레임은 예를 들어 비트 스트림의 플래그로 신호를 보낼 수 있다.
일 측면에서, 258에서 과도 현상 검출은 신호(212)에서 그러한 과도 현상을 검출하기 위해 사용된다. 현재 프레임의 과도 현상의 위치가 또한 감지될 수 있다. 시간 입도는 사용된 필터 뱅크(214)의 시간 입도에 유리하게 연결되므로, 각각의 과도 위치는 필터 뱅크(214)의 슬롯 또는 슬롯 그룹에 대응할 수 있다. 공분산 행렬 Cy 및 Cx를 계산하기 위한 슬롯은 예를 들어 과도를 포함하는 슬롯에서 현재 프레임 끝까지의 슬롯만 사용하여, 과도 위치를 기반으로 선택된다.
과도 현상 검출기(또는 과도 분석 블록(258))는 다운믹스 신호(212)의 코딩에 또한 사용되는 과도 현상 검출기, 예를 들어 IVAS 코어 코더의 시간 영역 과도 현상 검출기일 수 있다. 따라서, 도 5의 예는 다운믹스 계산 블록(244)의 업스트림에도 적용될 수 있다.
일 예에서, 과도 현상의 발생은 1 비트를 사용하여 인코딩된다(예를 들어, "1"은 "프레임에 과도 현상이 있음"을 의미하고 "0"은 "프레임에 과도 현상 없음":을 의미한다), 과도 현상이 추가로 감지되면, 과도 현상의 위치는 디코더(300)에서 유사한 처리를 허용하기 위해 비트 스트림(248)에서 인코딩된 필드(261)(과도 현상에 대한 정보)로서 인코딩 및/또는 전송된다.
과도 현상이 감지되고 모든 대역의 전송이 수행되는 경우(예: 시그널링되는 경우), 정상 파티션 그룹화를 사용하여 매개변수(220)를 전송하는 것은 비트스트림(248)에서 부가 정보(228)로서 매개변수(220)의 전송에 필요한 데이터 레이트에 스파이크를 초래할 수 있다. 또한 주파수 분해능보다 시간 분해능이 더 중요하다. 따라서 블록(265)에서 전송할 더 적은 대역을 갖도록(예를 들어, 신호 버전(264)의 많은 대역에서 신호 버전(266)의 더 적은 대역으로) 이러한 프레임에 대한 파티션 그룹화를 변경하는 것이 유리할 수 있다. 일 예는 매개변수에 대해 2의 일반 다운샘플링 계수에 대해 모든 대역에 걸쳐 2개의 인접 대역을 결합함으로써 이러한 다른 파티션 그룹화를 사용한다. 일반적으로 과도 현상의 발생은 공분산 행렬 자체가 과도 현상 전후에 크게 다를 것으로 예상할 수 있음을 의미한다. 과도 현상 이전의 슬롯에 대한 아티팩트를 피하기 위해서, 과도 현상 슬롯 자체와 프레임이 끝날 때까지 이어지는 모든 슬롯만이 고려될 수 있다. 이것은 또한 사전에 신호가 충분히 고정되어 있다는 가정을 기반으로 하며 과도 현상 이전의 슬롯에 대해서도 이전 프레임에 대해 파생된 정보 및 믹싱 규칙을 사용할 수 있다.
요약하자면, 인코더는 과도 현상에 선행하는 슬롯과 관련된 원본 신호(212, y)의 채널 레벨 및 상관 정보(220)를 인코딩하지 않고, 프레임의 어느 슬롯에서 과도 현상이 발생했는지를 결정하고, 과도 현상이 발생한 슬롯 및/또는 프레임의 후속 슬롯과 관련된 원본 신호(212, y)의 채널 레벨 및 상관 정보(220)를 인코딩하도록 구성될 수 있다.
유사하게, 디코더는, (예를 들어, 블록 380에서) 한 프레임에서 과도 현상의 존재 및 위치가 시그널링될 때(261):
현재 채널 레벨 및 상관 정보(220)를 과도 현상이 발생한 슬롯 및/또는 프레임의 후속 슬롯에 연관시키고; 및
과도 현상이 발생한 슬롯 이전의 프레임 슬롯에, 이전 슬롯의 채널 레벨 및 상관 정보(220)를 연관시킨다.
과도 현상의 또 다른 중요한 측면은 현재 프레임에서 과도 현상의 존재를 결정하는 경우, 현재 프레임에 대해 더 이상 평활화 작업이 수행되지 않는다. 과도 현상의 경우 Cy 및 Cx에 대해 평활화가 수행되지 않지만 현재 프레임의 CyR 및 Cx가 혼합 행렬 계산에 사용된다.
4.2.5 엔트로피 코딩
엔트로피 코딩 모듈(비트스트림 기록기)(226)은 마지막 인코더의 모듈일 수 있으며; 그 목적은 이전에 얻은 양자화된 값을 "부가 정보"라고도 하는 이진 비트 스트림으로 변환하는 것이다.
값을 인코딩하는 데 사용되는 방법은 예를 들어 Huffmann 코딩[6] 또는 델타 코딩일 수 있다. 코딩 방법은 중요하지 않으며 최종 비트 전송률에만 영향을 미치며; 달성하고자 하는 비트 전송률에 따라 코딩 방법을 조정해야 한다.
비트스트림(248)의 크기를 줄이기 위해 여러 구현 최적화가 수행될 수 있다. 예를 들어, 비트스트림 크기 관점에서 어느 것이 더 효율적인지에 따라 한 인코딩 방식에서 다른 인코딩 방식으로 전환하는 전환 메커니즘이 구현될 수 있다.
예를 들어, 매개변수는 한 프레임에 대한 주파수 축을 따라 델타 코딩될 수 있고 델타 인덱스의 결과 시퀀스는 범위 코더에 의해 엔트로피 코딩될 수 있다.
또한, 매개변수 다운샘플링의 경우에도 또한 일 예로, 데이터를 지속적으로 전송하기 위해 매 프레임마다 매개변수 대역의 하위 집합만 전송하도록 메커니즘을 구현할 수 있다.
이러한 두 가지 예는 인코더 측에서 처리의 디코더 특정 측면을 신호화하기 위해 신호화 비트가 필요한다.
4.2.6 다운믹스 계산
처리의 다운믹스 부분(244)은 단순할 수 있지만, 일부 예에서 중요하다. 본 발명에 사용된 다운믹스는 수동적일 수 있으며, 이는 계산 방식이 처리 중에 동일하게 유지되고 주어진 시간의 신호 또는 그 특성과 무관함을 의미한다. 그럼에도 불구하고 244에서의 다운믹스 계산은 활성화 계산으로 확장될 수 있다(예: [7]에 설명됨).
다운믹스 신호(246)는 2개의 상이한 위치에서 계산될 수 있다:
인코더 측에서 매개변수 추정(4.2.2 참조)을 위한 제 1 시간에, 공분산 행렬 Cx의 계산에 (일부 예에서) 필요할 수 있다.
인코더(200)와 디코더(300) 사이(시간 영역에서) 인코더 측에서 제 2 시간에, 다운믹스된 신호(246)는 인코딩 및/또는 디코더(300)로 전송되고 모듈(334)에서 합성을 위한 기반으로 사용된다.
예를 들어, 5.1 입력에 대한 스테레오포닉 다운믹스의 경우 다운믹스 신호는 다음과 같이 계산할 수 있다.
다운믹스의 왼쪽 채널은 왼쪽 채널, 왼쪽 서라운드 채널 및 센터 채널의 합이다.
다운믹스의 오른쪽 채널은 오른쪽 채널, 오른쪽 서라운드 채널 및 센터 채널의 합이다. 또는 5.1 입력에 대한 모노포닉 다운믹스의 경우, 다운믹스 신호는 다중 채널 스트림의 모든 채널의 합으로 계산된다.
예들에서, 다운믹스 신호(246)의 각 채널은 일정한 매개변수로, 원본 신호(212)의 채널의 선형 조합으로서 획득될 수 있으며, 이에 따라 패시브 다운믹스를 구현할 수 있다.
다운믹스된 신호 계산은 처리의 필요성에 따라 추가 확성기 설정에 맞게 확장되고 적용될 수 있다.
측면 3: 패시브 다운믹스와 저지연 필터뱅크를 이용한 저지연 처리
본 발명은 패시브 다운믹스, 예를 들어 이전에 5.1 입력에 대해 설명한 것과 낮은 지연 필터 뱅크를 사용하여 낮은 지연 처리를 제공할 수 있다. 이 두 가지 요소를 이용하여, 인코더(200)와 디코더(300) 사이에서 5밀리초 미만의 지연을 달성하는 것이 가능하다.
4.3 디코더
디코더의 목적은 인코딩된(예: 전송된) 다운믹스 신호(246, 324) 및 코딩된 부가 정보(228)를 사용하여 주어진 확성기 설정에서 오디오 출력 신호(336, 340, yR)를 합성하는 것이다. 디코더(300)는 출력 오디오 신호(334, 240, yR)를 입력(212, y)에 사용된 것과 동일한 확성기 설정 또는 다른 확성기 설정에서 렌더링할 수 있다. 일반성을 잃지 않고 입력 및 출력 확성기 설정이 동일하다고 가정한다(그러나 예에서는 다를 수 있음). 이 섹션에서는 디코더(300)를 구성할 수 있는 다양한 모듈에 대해 설명한다.
도 3a 및 3b는 가능한 디코더 처리의 상세한 개요를 도시한다. 도 3b의 적어도 일부 모듈(특히 320, 330, 338과 같이 점선 테두리가 있는 모듈)은 주어진 애플리케이션에 대한 필요성과 요구 사항에 따라 폐기될 수 있다. 디코더(300)는 인코더(200)로부터 2개의 데이터 세트를 입력(예를 들어, 수신)할 수 있다:
코딩된 매개변수가 있는 부가 정보(228)(4.2.2에 설명됨)
시간 영역에 있을 수 있는 다운믹스 신호(246, y)(4.2.6 참조).
코딩된 매개변수(228)는 예를 들어 기존에 사용하던 역코딩 방식으로 (예를 들어, 입력 유닛(312)에 의해) 먼저 디코딩될 필요가 있을 수 있다. 이 단계가 완료되면, 합성을 위한 관련 매개변수, 예를 들어, 공분산 행렬를 재구성할 수 있다. 병렬로, 다운믹스된 신호(246, x)는 여러 모듈을 통해 처리될 수 있다: 먼저 분석 필터 뱅크(320)를 사용하여(4.2.1 참조) 다운믹스 신호(246)의 주파수 영역 버전(324)을 얻을 수 있다. 그 다음, 프로토타입 신호(328)가 계산될 수 있고(4.3.3 참조) 추가적인 역상관 단계(330에서)가 수행될 수 있다(4.3.4 참조). 합성의 핵심 포인트는 공분산 행렬(예: 블록 316에서 재구성됨) 및 프로토타입 신호(328 또는 332)를 입력으로 사용하고 최종 신호(336)를 출력(4.3.5 참조)으로 생성하는 합성 엔진(334)이다. 마지막으로, 시간 영역에서 출력 신호(340)를 생성하는 마지막 단계가 합성 필터 뱅크(338)에서 수행될 수 있다(예를 들어, 분석 필터 뱅크(320)가 이전에 사용된 경우).
4.3.1 엔트로피 디코딩(예: 블록 312)
블록(312)(입력 인터페이스)에서의 엔트로피 디코딩은 4에서 이전에 획득된 양자화된 매개변수(314)를 획득하는 것을 허용할 수 있다. 비트 스트림(248)의 디코딩은 간단한 작업으로 이해될 수 있다; 비트 스트림(248)은 4.2.5에서 사용된 인코딩 방법에 따라 판독된 다음에 이를 디코딩할 수 있다.
구현의 관점에서, 비트 스트림(248)은 데이터가 아닌 시그널링 비트를 포함할 수 있지만, 이는 인코더 측에서 처리의 일부 특수성을 나타낸다.
예를 들어, 사용된 2개의 제 1 비트는 인코더(200)가 여러 인코딩 방법 사이를 전환할 가능성이 있는 경우 어떤 코딩 방법이 사용되었는지를 나타낼 수 있다. 다음 비트는 현재 전송되는 매개변수 대역을 설명하는 데에도 사용될 수 있다.
비트스트림(248)의 부가 정보에 인코딩될 수 있는 다른 정보는 과도 현상을 나타내는 플래그 및 프레임 중 어느 슬롯에서 과도 현상이 발생하는지를 나타내는 필드(261)를 포함할 수 있다.
4.3.2 매개변수 재구성
매개변수 재구성은 예를 들어 블록(316) 및/또는 믹싱 규칙 계산기(402)에 의해 수행될 수 있다.
이 매개변수 재구성의 목표는 다운믹스된 신호(246) 및/또는 부가 정보(228)로부터 (또는 양자화된 매개변수(314)에 의해 표현되는 버전으로) 공분산 행렬 Cx 및 Cy (또는 더 일반적으로 다운믹스 신호(246)와 관련된 공분산 정보 및 원본 신호의 레벨 및 상관 정보)를 재구성하는 것이다. 이러한 공분산 행렬 Cx 및 Cy는 다중 채널 신호(246)를 효율적으로 설명하는 행렬이기 때문에 합성에 필수적일 수 있다.
모듈(316)에서의 매개변수 재구성은 다음 2 단계 프로세스일 수 있다:
먼저, 행렬 Cx(또는 더 일반적으로 다운믹스 신호(246)와 관련된 공분산 정보)가 다운믹스 신호(246)로부터 재계산되고(다운믹스 신호(246)와 연관된 공분산 정보가 비트스트림(248)의 부가 정보(228)에서 실제로 인코딩되는 경우에 이 단계가 회피될 수 있음);
다음에, 행렬 Cy(또는 더 일반적으로 원본 신호(212)의 레벨 및 상관 정보)은 적어도 부분적으로 전송된 매개변수 및 Cx 또는 더욱 일반적으로 다운믹스 신호(246)와 관련된 공분산 정보를 이용하여 복원될 수 있다 (이 단계는 원본 신호(212)의 레벨 및 상관 정보가 비트스트림(248)의 부가 정보(228)에 실제로 인코딩되는 경우에 회피될 수 있다).
일부 예에서 각 프레임에 대해, 예를 들어 더하기, 평균 등으로, 이전 현재 프레임의 재구성된 공분산 행렬과의 선형 조합을 사용하여 현재 프레임의 공분산 행렬 Cx를 평활화하는 것이 가능하다. 예를 들어, t번째 프레임에서, 수학식 4에 대해 사용될 최종 공분산은 이전 프레임에 대해 재구성된 타겟 공분산을 고려할 수 있다:
Figure pat00018
다만, 현재 프레임에 과도 현상이 존재한다고 판단한 경우, 현재 프레임에 대해 더 이상 평활화 작업이 수행되지 않는다. 과도 현상의 경우, 평활화가 수행되지 않으며 현재 프레임의 Cx가 사용된다.
프로세스의 개요는 아래와 같을 수 있다.
참고: 인코더에 대해서와 같이, 본 명세서에서의 처리는 각 대역에 대해 독립적으로 매개변수 대역 기반으로 수행될 수 있고, 명확성을 위해 이 처리는 하나의 특정 대역에 대해서만 설명되고 이에 따라 표기법이 조정된다.
측면 4a: 공분산 행렬이 전송되는 경우 매개변수 재구성
이 측면에 대해, 부가 정보(228)의 인코딩된(예를 들어 전송된) 매개변수(다운믹스 신호(246) 및 원본 신호(212)의 채널 레벨 및 상관 정보와 연관된 공분산 행렬)는 측면 2a에 정의된 공분산 행렬(또는 그 서브세트)이라고 가정하다. 그러나 일부 예에서는, 다운믹스 신호(246) 및/또는 원본 신호(212)의 채널 레벨 및 상관 정보와 연관된 공분산 행렬은 다른 정보에 의해 구현될 수 있다.
완전한 공분산 행렬 Cx 및 Cy가 인코딩(예: 전송)되면, 블록(318)에서 더 이상 행할 처리가 없다 (따라서 블록(318)은 그러한 예에서 회피될 수 있다). 이러한 행렬 중 적어도 하나의 서브세트만이 인코딩(예: 전송)되는 경우, 누락된 값을 추정해야 한다. 합성 엔진(334) (또는 특히 합성 프로세서(404))에서 사용되는 최종 공분산 행렬은 인코딩된(예: 전송된) 값(228)과 디코더 측의 추정된 값으로 구성된다. 예를 들어, 행렬 Cy의 일부 요소만 비트스트림(248)의 부가 정보(228)에 인코딩되면, Cy의 나머지 요소는 여기에서 추정된다.
다운믹스 신호(246)의 공분산 행렬 Cx에 대해, 디코더 측에서 다운믹스된 신호(246)를 사용하여 누락 값을 계산하고 수학식 1을 적용하는 것이 가능하다.
과도 현상의 발생 및 위치가 전송되거나 인코딩되는 측면에서, 다운믹스 신호(246)의 공분산 행렬 Cx를 계산하기 위한 동일한 슬롯이 인코더 측에서와 같이 사용된다.
공분산 행렬 Cy의 경우, 제 1 추정에서 누락 값을 다음과 같이 계산할 수 있다:
Figure pat00019
여기서,
Figure pat00020
는 원본 신호(212)의 공분산 행렬 추정치를 나타내고(원본 채널 레벨과 상관 정보의 추정 버전의 예시)
Q는 다운믹스된 신호와 원본 신호 사이의 관계를 설명하는 소위 프로토타입 행렬(프로토타입 규칙, 추정 규칙)(4.3.3 참조) (프로토타입 규칙의 예시)을 나타내고,
Cx는 다운믹스 신호의 공분산 행렬(다운믹스 신호(212)의 공분산 정보의 예)를 나타내고,
*는 켤레 전치를 나타낸다.
이러한 단계가 완료되면, 공분산 행렬이 다시 획득되고 최종 합성에 사용될 수 있다.
측면 4b: ICC 및 ICLD가 전송된 경우 매개변수 재구성
이 측면에 대해서, 부가 정보(228)의 인코딩된(예를 들어, 전송된) 매개변수는 측면 2b에서 정의된 바와 같은 ICC 및 ICLD(또는 이들의 서브세트)이라고 가정될 수 있다.
이 경우, 먼저 공분산 행렬 Cx를 다시 계산해야 할 수 있다. 이것은 디코더 측에서 다운믹스된 신호(212)를 사용하고 수학식 1을 적용하여 수행될 수 있다.
과도 현상의 발생 및 위치가 전송되는 측면에서 다운믹스된 신호의 공분산 행렬 Cx를 계산하기 위한 동일한 슬롯이 인코더에서와 같이 사용된다. 그 다음, 공분산 행렬 Cy는 ICC 및 ICLD로부터 재계산될 수 있고; 이 작업은 다음과 같이 수행될 수 있다.
다중 채널 입력의 각 채널의 에너지(레벨이라고도 함)를 얻을 수 있다. 이러한 에너지는 전송된 ICLD와 다음 공식을 사용하여 파생된다:
Figure pat00021
여기서
Figure pat00022
여기서 αi는 다운믹스에 대한 채널의 예상 에너지 기여도와 관련된 가중 계수를 나타내고, 이 가중 계수는 특정 입력 확성기 구성에 대해 고정되고 인코더와 디코더 모두에서 알려져 있다. 모든 입력 채널 i에 대한 매핑을 정의하는 구현의 경우, 매핑 인덱스는 입력 채널 i가 혼합되는 다운믹스의 채널 j이거나 매핑 인덱스가 다운믹스 채널의 수보다 큰 경우. 따라서 다음과 같은 방식으로 Pdmx,i를 결정하는 데 사용되는 매핑 인덱스 mICLD,i를 갖게 된다:
Figure pat00023
표기법은 4.2.3의 매개변수 추정에 사용된 것과 동일한다.
이러한 에너지는 추정된 Cy를 정규화하는 데 사용될 수 있다. 인코더 측에서 모든 ICC가 전송되지 않는 경우, 전송되지 않은 값에 대해 Cy의 추정치가 계산될 수 있다. 추정된 공분산 행렬
Figure pat00024
은 수학식 4를 이용하여 프로토타입 행렬 Q와 공분산 행렬 Cx으로 획득될 수 있다.
공분산 행렬의 이 추정은 ICC 행렬의 추정으로 이어지고, 지수 (i,j)의 항은 다음과 같이 주어질 수 있다:
Figure pat00025
따라서 "재구성된" 행렬은 다음과 같이 정의될 수 있다.
Figure pat00026
여기서,
아래 첨자 R은 재구성된 행렬을 나타낸다 (원래 레벨과 상관 정보를 재구성한 예시).
앙상블 {transmitted indices}는 부가 정보(228)에서 디코딩된 모든 (i,j) 쌍에 해당한다 (예를 들어, 인코더에서 디코더로 전송됨).
예들에서, ξi,j
Figure pat00027
보다 선호되는데,
Figure pat00028
가 인코딩된 값 ξi,j보다 덜 정확한 덕분이다.
마지막으로, 이 재구성된 ICC 행렬로부터 재구성된 공분산 행렬 CyR를 추론할 수 있다. 이 행렬은 수학식 5에서 획득된 에너지를 재구성된 ICC 행렬에 적용하여 얻을 수 있으므로, 인덱스(i,j)에 대해 다음을 수행한다:
Figure pat00029
전체 ICC 행렬이 전송되는 경우에는, 수학식 5와 8만 있으면 된다. 이전 단락은 누락된 매개변수를 재구성하는 한 가지 접근 방식을 설명하고, 다른 접근 방식을 사용할 수 있으며 제안된 방법은 고유한 것이 아니다.
5.1 신호를 사용하는 측면 1b의 예에서, 전송되지 않은 값은 디코더 측에서 추정해야 하는 값이라는 점에 유의한다.
이제 공분산 행렬 Cx
Figure pat00030
를 얻을 수 있다. 재구성된 행렬
Figure pat00031
은 입력 신호(212)의 공분산 행렬
Figure pat00032
의 추정치일 수 있음을 언급하는 것이 중요하다. 본 발명의 절충안은 디코더 측에서 공분산 행렬의 추정치를 원본에 충분히 가깝게 가지는 것이지만 또한 가능한 한 적은 수의 매개변수를 전송하는 것일 수 있다. 이러한 행렬은 4.3.5에 설명된 최종 합성에 필수일 수 있다.
일부 예에서 각 프레임에 대해, 더하기, 평균 등으로 이전 현재 프레임의 재구성된 공분산 행렬과의 선형 조합을 사용하여 현재 프레임의 재구성된 공분산 행렬을 평활화하는 것이 가능하다. 예를 들어, t번째 프레임에서, 합성에 사용될 최종 공분산은 이전 프레임에 대해 재구성된 타겟 공분산을 고려할 수 있다:
Figure pat00033
그러나, 과도 현상의 경우 평활화가 수행되지 않으며 CyR은 현재 프레임에 대한 것이며 혼합 행렬 계산에 사용된다.
또한 각 프레임에 대한 몇 가지 예에서, 다운믹스 채널 Cx의 평활화되지 않은 공분산 행렬은 매개변수 재구성에 사용되는 반면 섹션 4.2.3에서 설명한 평활화된 공분산 행렬 Cx,t는 합성에 사용된다는 것에 유의한다.
도 8a는 디코더(300)에서 공분산 행렬 Cx 및 CyR를 획득하기 위한 작업을 재개한다 (예를 들어, 블록 386 또는 316에서 수행된 바와 같이). 도 8a의 블록에서, 대괄호 사이에 특정 블록에 의해 채택된 수학식이 표시되고 있다. 나타낸 바와 같이, 공분산 추정기(384)는 수학식 1을 통해, 다운믹스 신호(324)(또는 그 감소된 대역 버전(385))의 공분산 Cx에 도달하는 것을 허용한다. 제1 공분산 블록 추정기(384')는 수학식 4와 고유 유형 규칙 Q를 사용하여, 공분산 Cy의 제 1 추정치
Figure pat00034
에 도달하도록 허용한다. 그 후, 공분산 대 일관성 블록(390)은 수학식 6을 적용하여 일관성
Figure pat00035
를 얻는다. 이어서, ICC 대체 블록(392)은 수학식 7을 채택함으로써 추정된 ICC(
Figure pat00036
)와 비트스트림(348)의 부가 정보(228)에서 시그널링된 ICC 사이에서 선택한다. 선택된 일관성 ξR은 ICLD(χi)에 따라 에너지를 적용하는 에너지 적용 블록(394)에 입력된다. 다음에, 타겟 공분산 행렬 CyR가 도 3a의 믹싱 규칙 계산기(402) 또는 공분산 합성 블록(388), 또는 도 3c의 믹싱 규칙 계산기, 또는 도 3b의 합성 엔진(344)에 제공된다.
4.3.3 프로토타입 신호 계산(블록 326)
프로토타입 신호 모듈(326)의 목적은 합성 엔진(334)에 의해 사용될 수 있는 방식으로 다운믹스 신호(212)(또는 그 주파수 영역 버전(324))를 형성하는 것이다(4.3.5 참조). 프로토타입 신호 모듈(326)은 다운믹스된 신호의 업 믹싱을 수행할 수 있다. 프로토타입 신호(328)의 계산은 다운믹스된 신호(212)(또는 324)에 소위 프로토타입 행렬 Q를 곱함으로써 프로토타입 신호 모듈(326)에 의해 수행될 수 있다:
Figure pat00037
여기서, Q는 프로토타입 행렬(프로토타입 규칙의 예)이고,
X는 다운믹스 신호(212 또는 324)이고,
Yp는 프로토타입 신호(328)이다.
프로토타입 행렬이 설정되는 방식은 처리에 따라 달라질 수 있으며 애플리케이션의 요구 사항을 충족하도록 정의될 수 있다. 유일한 제약은 프로토타입 신호(328)의 채널 수가 원하는 출력 채널 수와 같아야 한다는 것이다: 이것은 프로토타입 행렬의 크기를 직접적으로 제한한다. 예를 들어, Q는 다운믹스 신호(212, 324)의 채널의 수인 라인 수 및 최종 합성 출력 신호(332, 340)의 채널의 수인 컬럼 수를 갖는 행렬일 수 있다.
일 예로, 5.1 또는 5.0 신호의 경우, 프로토타입 행렬은 다음과 같이 설정될 수 있다:
Figure pat00038
프로토타입 행렬은 미리 결정되고 고정될 수 있음에 유의한다. 예를 들어, Q는 모든 프레임에 대해 동일할 수 있지만 상이한 대역에 대해서는 상이할 수 있다. 또한, 다운믹스 신호의 채널 수와 합성 신호의 채널 수 간의 상이한 관계에 대해 상이한 Q가 있다. Q는 예를 들어 특정 수의 다운믹스 채널과 특정 수의 합성 채널을 기반으로 하여, 미리 저장된 복수의 Q 중에서 선택될 수 있다.
측면 5: 출력 확성기 설정이 입력 확성기 설정과 다른 경우 매개변수의 재구성:
제안된 발명의 일 애플리케이션은 원본 신호(212)와 다른 확성기 설정에서 출력 신호(336 또는 340)를 생성하는 것이다(예를 들어 더 많거나 더 적은 수의 확성기 사용을 의미함).
그렇게 하기 위해서는 프로토타입 행렬을 수정해야 한다. 이 시나리오에서 수학식 9로 얻은 프로토타입 신호는 출력 라우드스피커 설정만큼 많은 채널을 포함한다. 예를 들어, 입력으로 5개의 채널 신호를 (신호(212)의 측면에서) 출력으로 7개의 채널 신호를 (신호(336)의 측면에서) 갖게 되면, 프로토타입 신호는 이미 7개의 채널을 포함하게 된다.
이렇게 하면, 수학식 4의 공분산 행렬의 추정은 여전히 유효하며 입력 신호(212)에 존재하지 않는 채널에 대한 공분산 매개변수를 추정하는 데 계속 사용될 것이다.
인코더와 디코더 사이에 전송된 매개변수(228)는 여전히 관련이 있으며 수학식 7도 여전히 사용될 수 있다. 보다 정확하게는, 인코딩된(예를 들어, 전송된) 매개변수는 기하학의 측면에서 원래 설정에 최대한 가까운 채널 쌍에 할당되어야 한다. 기본적으로, 이것은 적응 작업을 수행하기 위해 필요하다.
예를 들어, 인코더 측에서 ICC 값이 오른쪽에 있는 하나의 확성기와 왼쪽에 있는 하나의 확성기 사이에서 추정되는 경우, 이 값은 동일한 왼쪽 및 오른쪽 위치를 가진 출력 설정의 채널 쌍에 할당될 수 있다; 기하학이 다른 경우, 이 값은 위치가 원래 위치와 가능한 가까운 스피커 쌍에 할당될 수 있다.
다음에, 일단 타겟 공분산 행렬 Cy는 새로운 출력 설정에 대해 획득되면, 나머지처리는 변경되지 않는다.
따라서, 타겟 공분산 행렬(CyR)을 합성 채널 수에 맞게 조정하기 위해서:
다운믹스 채널의 수에서 합성 채널의 수로 변환하는 프로토타입 행렬 Q를 사용하고; 이것은, 프로토타입 신호가 합성 채널의 수를 갖도록 수학식 9를 적용하고; 수학식 4에 적용하여, 합성 채널의 수에서
Figure pat00039
를 추정하고; 따라서 원래 채널의 수에서 얻은 수학식 5 내지 8을 유지하지만; 원래 채널 그룹(예: 원본 채널 쌍)을 단일 합성 채널에 할당하거나(예를 들어, 기하학의 측면에서 할당을 선택), 그 반대로 할당하여 획득될 수 있다.
일부 행렬 및 벡터의 채널 수를 표시하고 있는 도 8a의 버전인 도 8b에서 일 예가 제공된다. (비트스트림(348)의 부가 정보(228)로부터 획득된) ICC가 392에서 ICC 행렬에 적용될 때, 원래 채널 그룹(예: 원래 채널 쌍)이 단일 합성 채널에 할당되거나 (예: 기하학 측면에서 할당을 선택하여) 또는 그 반대로 할당된다.
입력 채널의 수와 다른 출력 채널의 수에 대한 타겟 공분산 행렬을 생성하는 또 다른 가능성은 먼저 입력 채널의 수에 대한 타겟 공분산 행렬을 생성하고(예: 입력 신호(212)의 원래 채널 수), 그 다음 이 제 1 타겟 공분산 행렬을 합성 채널의 수에 맞게 조정하여, 출력 채널의 수에 대응하는 제2 타겟 공분산 행렬을 획득하는 단계를 포함한다. 이것은 업 또는 다운믹스 규칙, 예를 들어 제 1 타겟 공분산 행렬 CyR에 대한 출력 채널에 대한 특정 입력(원래) 채널의 조합에 대한 인수를 포함하는 행렬을 적용하여 수행하여, 제 2 단계에서 이 행렬 CyR를 전송된 입력 채널 전력(ICLD)에 적용하고 출력(합성) 채널의 수에 대한 채널 전력의 벡터를 얻고, 벡터에 따라 제1 타겟 공분산 행렬을 조정하여 요청된 수의 합성 채널을 갖는 제2 타겟 공분산 행렬을 획득한다. 이 조정된 제 2 타겟 공분산 행렬을 이제 합성에 사용될 수 있다. 블록(390-394)이 원래 신호(212)의 원래 채널의 수를 갖도록 타겟 공분산 행렬 CyR를 재구성하는 동작을 하는 도 8a의 버전인, 도 8c에 그 예가 제공된다. 그 후, 블록(395)에서 프로토타입 신호 QN(합성 채널의 수로 변환하기 위해) 및 벡터 ICLD가 적용될 수 있다. 특히, 도 8c에서 재구성된 타겟 공분산의 채널 수가 입력 신호(212)의 원래 채널 수와 정확히 동일하다는 사실을 제외하고, 도 8c의 블록(386)은 도 8a의 블록(386)과 동일하다 (그리고 도 8a에서, 일반적으로 재구성된 타겟 공분산은 합성 채널의 수를 가짐).
4.3.4 역상관
역상관 모듈(330)의 목적은 프로토타입 신호의 각 채널 간의 상관의 양을 줄이는 것이다. 상관관계가 높은 라우드스피커 신호는 팬텀 소스를 생성하고 출력 다중 채널 신호의 품질과 공간적 특성을 저하시킬 수 있다. 이 단계는 선택 사항이며 애플리케이션 요구 사항에 따라 구현하거나 구현하지 않을 수 있다. 본 발명에서 역상관은 합성 엔진 이전에 사용된다. 예를 들어, 전체 통과 주파수 역상관기가 사용될 수 있다.
MPEG 서라운드에 대한 참고 사항:
종래 기술에 따른 MPEG 서라운드에는, 소위 "믹스 행렬"(표준에서 M1 및 M2로 표시됨)가 사용된다. 행렬 M1은 사용 가능한 다운믹스 신호가 역상관기에 입력되는 방법을 제어한다. 행렬 M2는 출력 신호를 생성하기 위해 직접 신호와 역상관 신호를 결합하는 방법을 설명한다.
4.3.3에 정의된 프로토타입 행렬과 이 섹션에서 설명하는 역상관자의 사용과 유사할 수 있지만, 다음 사항에 유의하는 것이 중요하다:
프로토타입 행렬 Q는 MPEG 서라운드에서 사용되는 행렬과 완전히 다른 기능을 가지며 이 행렬의 요점은 프로토타입 신호를 생성하는 것이다. 이 프로토타입 신호의 목적은 합성 엔진에 입력하는 것이다.
프로토타입 행렬은 역상관기를 위한 다운믹스 신호를 준비하기 위한 것이 아니며 요구 사항 및 대상 애플리케이션에 따라 조정할 수 있다. 예를 들어 프로토타입 행렬은 입력보다 더 큰 출력 라우드스피커 설정에 대한 프로토타입 신호를 생성할 수 있다.
제안된 발명에서 역상관기의 사용은 필수적이지 않다. 처리는 합성 엔진 내에서 공분산 행렬의 사용에 의존한다(5.1 참조).
제안된 발명은 직접 신호와 역상관 신호를 결합하여 출력 신호를 생성하지 않는다.
M1 및 M2의 계산은 트리 구조에 크게 의존하며, 이러한 행렬의 상이한 계수는 구조 관점에서 경우마다 상이하다. 이것은 제안된 발명에서의 경우가 아니며, 처리는 다운믹스 계산(5.2 참조)와 무관하며 개념적으로 제안된 처리는 트리 구조로 수행할 수 있는 것처럼 채널 쌍만이 아닌 모든 채널 간의 관계를 고려하는 것을 목표로 한다.
따라서, 본 발명은 종래 기술에 따른 MPEG 서라운드와 다르다.
4.3.5 합성 엔진, 행렬 계산
디코더의 마지막 단계는 합성 엔진(334) 또는 합성 프로세서(402) (및 추가로 필요한 경우 합성 필터 뱅크(338))를 포함한다. 합성 엔진(334)의 목적은 특정 제약과 관련하여 최종 출력 신호(336)를 생성하는 것이다. 합성 엔진(334)은 그 특성이 입력 매개변수에 의해 제한되는 출력 신호(336)를 계산할 수 있다. 본 발명에서, 프로토타입 신호(328(또는 332))를 제외한 합성 엔진(338)의 입력 매개변수(318)는 공분산 행렬 Cx 및 Cy이다. 특히 CyR는 출력 신호 특성이 Cy에 의해 정의된 것과 최대한 유사해야 하기 때문에 타겟 공분산 행렬이라고 한다 (타겟 공분산 행렬의 추정 버전과 미리 구성된 버전이 논의됨을 보여준다).
사용될 수 있는 합성 엔진(334)은 고유하지 않으며, 예를 들어 선행 기술의 공분산 합성이 사용될 수 있으며[8], 이는 본 명세서에서 참조로 포함된다. 사용될 수 있는 다른 합성 엔진(333)은 [2]의 DirAC 처리에 설명된 것이다.
합성 엔진(334)의 출력 신호는 합성 필터 뱅크(338)를 통한 추가 처리가 필요할 수 있다.
최종 결과, 시간 영역에서 출력된 다중 채널 신호(340)가 획득된다.
측면 6: "공분산 합성"을 사용한 고품질 출력 신호
위에서 언급한 바와 같이, 사용된 합성 엔진(334)은 고유하지 않으며 전송된 매개변수 또는 그것의 서브세트를 사용하는 임의의 엔진이 사용될 수 있다. 그럼에도 불구하고, 본 발명의 한 측면은 예를 들어, 공분산 합성을 사용하여 고품질 출력 신호(336)을 제공하는 것일 수 있다[8].
이 합성 방법은 특성이 공분산 행렬 CyR에 의해 정의되는 출력 신호(336)를 계산하는 것을 목표로 한다. 이를 위해 소위 최적 혼합 행렬이 계산되고, 이러한 행렬은 프로토타입 신호(328)를 최종 출력 신호(336)에 혼합하고 타겟 공분산 행렬 CyR이 주어진 최적의 결과를 수학적 관점에서 제공할 것이다. 혼합 행렬 M은 yR=MxP 관계를 통해 프로토타입 신호 xP를 출력 신호 yR(336)으로 변환하는 행렬이다.
혼합 행렬은 또한 yR=Mx 관계를 통해 다운믹스 신호 x를 출력 신호로 변환하는 행렬일 수 있다. 이 관계에서 우리는 또한 CyR=MCxM*을 추론할 수 있다.
제시된 처리에서
Figure pat00040
및 Cx는 일부 예에서 이미 알려져 있을 수 있다 (각각 다운믹스 신호(246)의 타겟 공분산 행렬 CyR 및 공분산 행렬 Cx이기 때문에).
수학적 관점에서 한 가지 솔루션은 M=KyPKx -1로 제공되며, 여기서 Ky 및 Kx -1 은 모두 Cx 및 CyR에 대해 특이값 분해를 수행하여 얻은 행렬이다. P의 경우 여기에서는 자유 매개변수이지만, 최적의 솔루션(청취자의 지각적 관점에서)은 프로토타입 행렬 Q에 의해 지시된 제약 조건과 관련하여 찾을 수 있다. 여기에 언급된 것의 수학적 증거는 [8]에서 찾을 수 있다.
이 합성 엔진(334)은 출력 신호 문제의 재구성에 대한 최적의 수학적 해법을 제공하도록 설계되었기 때문에 고품질 출력(336)을 제공한다.
덜 수학적 용어로, 공분산 행렬이 다중 채널 오디오 신호의 서로 다른 채널 간의 에너지 관계를 나타낸다는 것을 이해하는 것이 중요하다. 원본 다중 채널 신호(212)에 대한 행렬 Cy 및 다운믹스된 다중 채널 신호(246)에 대한 행렬 Cx. 이들 행렬의 각 값은 다중 채널 스트림의 두 채널 간의 에너지 관계를 추적한다.
따라서 공분산 합성의 이면에 있는 철학은 타겟 공분산 행렬 CyR에 의해 특성이 결정되는 신호를 생성하는 것이다. 이 행렬 CyR은 원본 입력 신호(212)(또는 입력 신호와 다른 경우 얻고자 하는 출력 신호)를 설명하는 방식으로 계산되었다. 그런 다음 해당 요소를 사용하여 공분산 합성은 최종 출력 신호를 생성하기 위해 프로토타입 신호를 최적으로 혼합한다.
또 다른 측면에서, 슬롯 합성에 사용되는 혼합 행렬은 예를 들어 현재 프레임 내의 슬롯 인덱스를 기반으로 하는 선형 보간과 같은 부드러운 합성을 보장하기 위해서 현재 프레임의 혼합 행렬 M과 이전 프레임의 혼합 행렬 Mp의 조합이다.
과도 현상의 발생 및 위치가 전송되는 추가 측면에서 이전 혼합 행렬 Mp는 과도 현상 위치 이전의 모든 슬롯에 사용되고 혼합 행렬 M은 과도 현상 위치를 포함하는 슬롯과 현재 프레임의 모든 후속 슬롯에 사용된다. 일부 예에서 각 프레임 또는 슬롯에 대해, 예를 들어 더하기, 평균 등에 의해, 선행 프레임 또는 슬롯에 사용된 혼합 행렬과 선형 조합을 사용하여 현재 프레임 또는 슬롯의 혼합 행렬을 평활화하는 것이 가능하다. 현재 프레임 t에 대해 출력 신호의 슬롯 대역 i가 Ys,i=Ms,iXs,i에 의해 획득된다고 가정하고, 여기서 Ms,i는 Mt-1,i의 조합이고, 이전 프레임에 사용된 혼합 행렬 및 Mt,i는 현재 프레임에 대해 계산된 혼합 행렬, 예를 들어, 이들 사이의 선형 보간이다:
Figure pat00041
여기서 ns는 프레임의 슬롯 수(예: 16)이고 t-1 및 t는 이전 및 현재 프레임을 나타낸다. 더 일반적으로, 각 슬롯과 관련된 혼합 행렬 Ms,i는 현재 프레임에 대해 계산된 대로, 증가하는 계수에 의해 현재 프레임의 후속 슬롯을 따라 혼합 행렬 Mt,i을 스케일링하고, 현재 프레임 t의 후속 슬롯을 따라 감소하는 계수에 의해 스케일링된 혼합 행렬 Mt-1,i를 추가함으로써 획득될 수 있다. 계수는 선형일 수 있다.
과도 현상의 경우(예: 정보(261)에 표시된 대로), 현재 및 과거 혼합 행렬은 결합되지 않는데, 과도 현상을 포함하는 슬롯까지는 이전 행렬 및 과도 현상을 포함하는 슬롯 및 프레임이 끝날 때까지 모든 후속 슬롯에 대해서는 현재 혼합 행렬이다.
Figure pat00042
여기서 s는 슬롯 인덱스이고, i는 대역 지수이고, t 및 t-1은 현재 및 이전 프레임을 나타내고, st는 과도 현상을 포함하는 슬롯이다.
선행기술문헌과의 차이점[8]
제안된 발명은 [8]에서 제안된 방법의 범위를 벗어난다. 주목할만한 차이점은 특히 다음과 같다:
타겟 공분산 행렬 CyR은 제안된 처리의 인코더 측에서 계산된다.
타겟 공분산 행렬 CyR도 다른 방식으로 계산될 수 있다(제안된 발명에서 공분산 행렬은 확산 부분과 직접 부분의 합이 아니다).
처리는 각 주파수 대역에 대해 개별적으로 수행되지 않고 매개변수 대역에 대해 그룹화된다(0에서 언급됨).
보다 글로벌한 관점에서: 공분산 합성은 본 명세서에서 전체 프로세스의 한 블록일 뿐이며 디코더 측의 다른 모든 요소와 함께 사용해야 한다.
4.3. 목록으로 선호하는 측면
다음 측면 중 적어도 하나는 본 발명을 특징지을 수 있다:
1. 엔코더 측
a 다중 채널 오디오 신호(246)를 입력함
b. 필터 뱅크(214)를 사용하여 신호(212)를 시간 영역에서 주파수 영역(216)으로 변환함
c. 블록(244)에서 다운믹스 신호(246)를 계산함
d. 원본 신호(212) 및/또는 다운-믹스 신호(246)로부터, 다중 채널 스트림(신호)(246)을 설명하기 위해 매개변수의 제1 세트를 추정함: 공분산 행렬 Cx 및/또는 Cy
e. 공분산 행렬 Cx 및/또는 Cy를 직접 전송 및/또는 인코딩하거나 ICC 및/또는 ICLD를 계산하고 전송함
f. 적절한 코딩 방식을 사용하여 비트스트림(248)에서 전송된 매개변수(228)를 인코딩함
g. 시간 영역에서 다운믹스 신호(246)를 계산함
h. 시간 영역에서 부가 정보(즉, 매개변수) 및 다운믹스 신호(246)를 전송함
2. 디코더 측에서
a. 부가 정보(228) 및 다운믹스 신호(246)를 포함하는 비트 스트림(248)을 디코딩함
b. (선택 사항) 주파수 영역에서 다운믹스 신호(246)의 버전(324)을 얻기 위해 다운믹스 신호(246)에 필터 뱅크(320)를 적용함
c. 이전에 디코딩된 매개변수(228) 및 다운믹스 신호(246)로부터 공분산 행렬 Cx 및 CyR을 재구성함
d. 다운믹스 신호(246)에서 프로토타입 신호(328)를 계산함(324).
e. (선택 사항) 프로토타입 신호를 역상관함(블록 330에서)
f. 재구성된 Cx 및 CyR를 사용하여 프로토타입 신호에 합성 엔진(334)을 적용함
g. (선택 사항) 공분산 합성(334)의 출력(336)에 합성 필터 뱅크(338)를 적용함
h. 출력 다중 채널 신호(340) 획득
4.5 공분산 합성
본 섹션에서는, 도 1 내지 3d의 시스템에서 구현될 수 있는 일부 기술에 대해 논의한다. 그러나 이러한 기술은 독립적으로 구현할 수도 있다: 예를 들어, 일부 예에서는 도 8a 내지 8c 및 수학식 1 내지 8에 대해서와 같이 공분산 계산이 필요하지 않다. 따라서 일부 예에서는, CyR에 대한 참조가 이루어질 때(재구성된 타겟 공분산), 이것은 또한
Figure pat00043
로 대체될 수 있다(재구성 없이 직접 제공될 수도 있음). 그럼에도 불구하고, 이 섹션의 기술은 위에서 논의된 기술과 함께 유리하게 사용될 수 있다.
이하 도 4a 내지 4d를 참조한다. 여기에서, 공분산 합성 블록(388a-388d)의 예가 논의된다. 블록(388a-388d)은 예를 들어, 공분산 합성을 수행하는 도 3의 블록(388)을 구현할 수 있다. 블록(388a-388d)은 예를 들어 도 3a의 합성 엔진(334) 의 합성 프로세서(404) 및 믹싱 규칙 계산기(402) 및/또는 매개변수 재구성 블록(316)의 일부일 수 있다. 도 4a-4d에서, 다운믹스 신호(324)는 주파수 영역 FD(즉, 필터뱅크(320)의 다운스트림)에 있고 X로 표시되는 반면, 합성 신호(336)도 FD에 있고 Y로 표시된다. 다만 이러한 결과를 예를 들면 시간 영역에서 일반화하는 것이 가능한다. 도 4a 내지 4d의 각각의 공분산 합성 블록(388a-388d)는 하나의 단일 주파수 대역을 참조할 수 있다(예: 380에서 분해되면). 따라서 공분산 행렬 Cx 및 CyR (또는 다른 재구성된 정보)는 하나의 특정 주파수 대역과 연관될 수 있다. 공분산 합성은 예를 들어 프레임 단위 방식으로 수행될 수 있으며 이 경우 공분산 행렬 Cx 및 CyR(또는 기타 재구성된 정보)는 하나의 단일 프레임(또는 여러 연속 프레임)에 연결된다. 따라서, 공분산 합성은 프레임 단위 방식으로 또는 다중 프레임 단위 방식으로 수행될 수 있다.
도 4a에서 공분산 합성 블록(388a)은 하나의 에너지 보상 최적 혼합 블록(600a)과 상관기 블록이 없는 블록으로 구성될 수 있다. 기본적으로 하나의 혼합 행렬 M이 발견되고 추가로 수행되는 유일한 중요한 작업은 에너지 보상 혼합 행렬 M'의 계산이다.
도 4b는 [8]에서 영감을 받은 공분산 합성 블록(388b)을 보여준다. 공분산 합성 블록(388b)은 제1 주성분(336M) 및 제2 잔차 성분(336R)을 갖는 합성 신호로서 합성 신호(336)를 획득하는 것을 허용할 수 있다. 주성분(336M)은 예를 들어 공분산 행렬 Cx 및 CyR에서 혼합 행렬 MM을 찾아, 최적의 주성분 혼합 행렬(600b)에서 얻어질 수 있지만, 역상관기 없이, 잔여 성분(336R)은 다른 방식으로 획득될 수 있다. MR은 원칙적으로 CyR=MCxM* 관계를 만족해야 한다. 일반적으로 얻어진 혼합 행렬은 이것을 완전히 만족하지 않으며 잔여 타겟 공분산은 Cr=CyR-MCxM*로 구할 수 있다. 알 수 있는 바와 같이, 다운믹스 신호(324)는 경로(610b) 상으로 유도될 수 있다(경로(610b)는 블록(600b)을 포함하는 제1 경로(610b')에 병렬인 제2 경로로 불릴 수 있음). 다운믹스 신호(324)의 프로토타입 버전(613b)(YpR로 표시됨)은 프로토타입 신호 블록(업믹스 블록)(612b)에서 획득될 수 있다. 예를 들어, 수학식 9와 같은 다음과 같은 식이 사용될 수 있다:
YpR = XQ
Q(프로토타입 행렬 또는 업 믹싱 행렬)의 예가 본 문서에서 제공된다. 블록(612b)의 하류측에 역상관기(614b)가 존재하여 프로토타입 신호(613b)를 역상관하여 역상관된 신호(615b)(또한
Figure pat00044
로 표시됨)를 획득한다. 역상관된 신호(615b)로부터 역상관된 신호
Figure pat00045
(615b)의 공분산 행렬
Figure pat00046
이 블록(616b)에서 추정된다. 역상관 신호
Figure pat00047
의 공분산 행렬
Figure pat00048
을 주성분 혼합의 Cx와 다른 최적 혼합 블록의 타겟 공분산으로 사용하여, 합성 신호(336)의 잔차 성분(336R)은 최적 잔차 성분 혼합 행렬 블록(618b)에서 획득될 수 있다. 최적의 잔차 성분 혼합 행렬 블록(618b)은 역상관된 신호(615b)를 혼합하고 (특정 대역에 대한) 합성 신호(336)의 잔여 성분(336R)을 획득하기 위해서, 혼합 행렬(MR)이 생성되는 방식으로 구현될 수 있다. 가산기 블록(620b)에서, 잔차 성분(336R)은 주 성분(336M)에 합산된다(따라서 경로(610b 및 610b')는 가산기 블록(620b)에서 함께 결합된다).
도 4c는 도 4b의 공분산 합성(388b)에 대한 대안적인 공분산 합성(388c)의 예를 도시한다. 공분산 합성 블록(388c)은 제1 주 성분(336M') 및 제2 잔차 성분(336R')을 갖는 신호 Y로서 합성 신호(336)를 획득하는 것을 허용한다. 주성분(336M')은 예를 들어 공분산 행렬 Cx 및 CyR(또는 Cy 기타 정보(220))로부터 혼합 행렬 MM을 구하여 최적의 주성분 혼합 행렬(600c)에서 얻어질 수 있는 반면, 상관기 없이, 잔여 성분(336R')은 다른 방식으로 얻어질 수 있다. 다운믹스 신호(324)는 경로(610c) 상으로 유도될 수 있다 (경로(610c)는 블록(600c)을 포함하는 제1 경로(610c')에 병렬로 제2 경로로 불릴 수 있다). 다운믹스 신호(324)의 프로토타입 버전(613c)은 프로토타입 행렬 Q를 적용함으로써 다운믹스 블록(업믹스 블록)(612c)에서 획득될 수 있다(예를 들어, 합성 채널의 수인 채널의 수에서 다운믹스된 신호(234)를 다운믹스된 신호(234)의 버전(613c)으로 업믹스하는 행렬). 예를 들어, 수학식 9와 같은 수학식이 사용될 수 있다. Q의 예는 본 문서에 제공된다. 블록(612c)의 다운스트림에서 역상관기(614c)가 제공될 수 있다. 일부 예들에서, 제1 경로에는 역상관기가 없는 반면, 제2 경로에는 역상관기가 있다.
역상관기(614c)는 역상관 신호(615c)(또한
Figure pat00049
로 표시됨)를 제공할 수 있다. 그러나, 도 4b의 공분산 합성 블록(388b)에서 사용된 기술과 반대로, 도 4c의 공분산 합성 블록(388c)에서, 역상관 신호(615c)의 공분산 행렬
Figure pat00050
는 역상관 신호(615c)
Figure pat00051
로부터 추정되지 않는다. 대조적으로, 역상관된 신호(615c)의 공분산 행렬
Figure pat00052
는 다음으로부터 획득된다(블록 616c에서):
다운믹스 신호(324)의 공분산 행렬 Cx(예를 들어, 도 3c의 블록(384)에서 및/또는 수학식 1을 사용하여 추정됨); 및
프로토타입 행렬 Q.
다운믹스 신호(324)의 공분산 행렬 Cx로부터 추정된 공분산 행렬
Figure pat00053
를 주성분 혼합 행렬의 Cx의 등가물로 및 Cr을 타겟 공분산 행렬로 사용함으로써, 합성 신호(336)의 잔여 성분(336R')은 최적의 잔여 성분 혼합 행렬 블록(618c)에서 획득된다. 최적 잔차 성분 혼합 행렬 블록(618c)은 잔여 성분 혼합 행렬 MR에 따라 역상관된 신호(615c)를 혼합함으로써 잔여 성분(336R')을 얻기 위해서, 잔차 성분 혼합 행렬(MR)이 생성되는 방식으로 구현될 수 있다. 가산기 블록(620c)에서, 잔차 성분(336R')은 합성 신호(336)를 얻기 위해서 주 성분(336M')에 합산된다(따라서 경로(610c 및 610c')는 가산기 블록(620c)에서 함께 결합된다).
일부 예들에서, 잔여 성분(336R 또는 336R')은 항상 계산되지 않거나 반드시 계산되지는 않는다(경로(610b 또는 610c)가 항상 사용되는 것은 아니다). 일부 예들에서, 일부 대역들에 대해 공분산 합성이 잔차 신호(336R 또는 336R')를 계산하지 않고 수행되는 반면, 동일한 프레임의 다른 대역들에 대해 공분산 합성은 또한 잔차 신호(336R 또는 336R')를 고려하여 처리된다. 도 4d는 공분산 합성 블록(388b 또는 388c)의 특정 경우일 수 있는 공분산 합성 블록(388d)의 예를 도시하고: 여기서, 대역 선택기(630)는 잔류 신호(336R 또는 336R')의 계산을 (스위치(631)로 표현되는 방식으로) 선택 또는 선택 해제할 수 있다. 예를 들어, 경로(610b 또는 610c)는 일부 대역에 대해 선택기(630)에 의해 선택적으로 활성화되고 다른 대역에 대해 비활성화될 수 있다. 특히, 경로(610b 또는 610c)는 미리 결정된 임계값(예를 들어, 고정 임계값)을 초과하는 대역에 대해 비활성화될 수 있으며, 이것은 인간의 귀가 위상에 둔감한 대역(임계값보다 높은 주파수를 갖는 대역)과 인간의 귀가 위상에 민감한 대역(임계값보다 낮은 주파수를 갖는 대역)을 구별하는 임계값(예: 최대값)일 수 있으므로, 잔류 성분(336R 또는 336R')은 임계값 미만의 주파수를 갖는 대역에 대해 계산되지 않고 임계값 이상의 주파수를 갖는 대역에 대해 계산되도록 한다.
도 4d의 예도 블록(600b 또는 600c)을 도 4a의 블록(600a)으로 대체하고 블록(610b 또는 610c)을 도 4b의 공분산 합성 블록(388b) 또는 도 4c의 공분산 합성 블록(388c)으로 대체하여 얻을 수 있다.
블록(338, 402(또는 404), 600a, 600b, 600c 등)에서 믹싱 규칙(행렬)을 얻는 방법에 대한 일부 표시가 본 명세서에서 제공된다. 위에서 설명한 것처럼 혼합 행렬을 얻는 방법에는 여러 가지가 있지만 그 중 일부는 여기에서 더 자세히 설명한다.
특히, 먼저 도 4b의 공분산 합성 블록(388b)을 참조한다. 최적 주성분 혼합 행렬 블록(600c)에서, 합성 신호(336)의 주성분(336M)에 대한 혼합 행렬 M는 예를 들어 다음으로부터 얻어질 수 있다:
원본 신호(212)의 공분산 행렬 Cy(Cy는 위에서 논의된 수학식 6 내지 8 중 적어도 일부를 사용하여 추정될 수 있으며, 예를 들어 도 8을 참조한다; 그것은 예를 들어, 수학식 8로 추정되는 바와 같이, 소위 "타겟 버전" CyR 형식일 수 있다); 및
다운믹스 신호(246, 324)의 공분산 행렬 Cx(Cy는 예를 들어 수학식 1을 사용하여 추정될 수 있다).
예를 들어, [8]에서 제안한 것처럼 공분산 행렬 Cx와 Cy를 분해하는 것이 허용되며, 이것은 다음 인수분해에 따라 에르미트 및 양의 준정부호이다:
Figure pat00054
Kx 및 Ky는 예를 들어, Cx 및 Cy로부터 특이 값 분해(SVD)를 두 번 적용하여 얻을 수 있다. 예를 들어:
Cx의 SVD는 특이 벡터(예: 왼쪽 특이 벡터)의 행렬 UCx를 제공할 수 있으며; 및
특이값의 대각선 행렬 SCx:
이에 의해 Kx는 UCx에 SCx의 해당 항목에 있는 값의 제곱근을 해당 항목에 포함하는 대각선 행렬을 곱하여 얻는다.
또한 Cy의 SVD는 다음을 제공할 수 있다:
특이 벡터(예: 우특이 벡터)의 행렬 VCy; 및 특이값의 대각선 행렬 SCy, 이에 따라 Ky는 UCy에 SCy의 해당 항목에 있는 값의 제곱근을 해당 항목에 포함하는 대각선 행렬을 곱하여 얻는다. 그러면 주성분 혼합 행렬 MM을 얻을 수 있으며, 이는 다운믹스 신호(324)에 적용될 때 합성 신호(336)의 주성분(336M)을 획득하는 것을 허용할 것이다. 주성분 혼합 행렬 MM은 다음과 같이 얻을 수 있다:
Kx가 비가역 행렬이면, 정규화된 역행렬은 알려진 기술로 얻을 수 있으며 Kx -1 대신에 대체된다.
매개변수 P는 일반적으로 무료이지만 최적화할 수 있다. P에 도착하기 위해서는, 다음에 SVD를 적용할 수 있다:
Cx(다운믹스 신호(324)의 공분산 행렬); 및
Figure pat00055
(프로토타입 신호(613b)의 공분산 행렬).
SVD가 수행되면, 다음과 같이 P를 얻을 수 있다:
P=VΛU*
Λ는 합성 채널의 수만큼 행을 그리고 다운믹스 채널 수만큼 열을 갖는 행렬이다. Λ는 제 1 정사각형 블록의 항등이며 나머지 항목은 0으로 완료된다. 이제 Cx
Figure pat00056
에서 얻는 방법에 대해 설명한다. V 및
Figure pat00057
는 SVD에서 얻은 특이 벡터의 행렬이다:
Figure pat00058
S는 일반적으로 SVD를 통해 얻은 특이값의 대각선 행렬이다.
Figure pat00059
는 프로토타입 신호
Figure pat00060
(615b)의 채널당 에너지를 합성 신호 y의 에너지로 정규화하는 대각선 행렬이다.
Figure pat00061
를 획득하기 위해서,
Figure pat00062
즉, 프로토타입 신호
Figure pat00063
(614b)의 공분산 행렬을 계산해야 한다. 다음에,
Figure pat00064
로부터
Figure pat00065
에 도달하기 위해,
Figure pat00066
의 대각선 값이 Cy의 대응하는 대각 값에 표준화되어,
Figure pat00067
을 제공한다. 일 예는
Figure pat00068
의 대각선 항은
Figure pat00069
으로 계산되는 것으로, 여기에서 cyii는
Figure pat00070
의 대각선 항의 값이고,
Figure pat00071
Figure pat00072
의 대각선 항의 값이다.
MM=KyPKx -1가 얻어지면, 잔차 성분의 공분산 행렬 Cr은 다음에서 얻는다:
Figure pat00073
Cr이 획득되면, 역상관된 신호(615b)를 혼합하여 잔여 신호(336R)를 획득하기 위한 혼합 행렬을 획득하는 것이 가능하고, 이 때 동일한 최적의 혼합에서 Cr은 주요 최적 혼합에서 CyR와 동일한 역할을 하고 역상관된 프로토타입
Figure pat00074
의 공분산은 주요 최적 혼합을 갖는 입력 신호 공분산 Cx의 역할을 한다.
그러나, 도 4b의 기술과 비교할 때, 도 4c의 기술은 몇 가지 이점을 제공한다는 것이 이해되었다. 일부 예들에서, 도 4c의 기술은 적어도 주 행렬을 계산하고 합성 신호의 주 성분을 생성하기 위한 도 4c의 기술과 동일하다. 반대로, 도 4c의 기술은 잔차 혼합 행렬의 계산 및 보다 일반적으로 합성 신호의 잔차 성분을 생성하는 데 있어서 도 4b의 기술과 상이하다. 이제 잔여 혼합 행렬의 계산을 위해 도 4c와 관련하여 도 11을 참조한다. 도 4c의 예에서, 프로토타입 신호(613c)의 역상관을 보장하지만 프로토타입 신호(613b) 자체의 에너지를 유지하는 역상관기(614c)가 사용된다.
또한, 도 4c의 예에서, 역상관된 신호(615c)의 역상관된 채널이 상호 일관성이 없고 따라서 역상관된 신호의 공분산 행렬의 모든 비대각선 요소는 0이라고 가정할 수 있다. 두 가정 모두 Cx에 Q를 적용하여 역상관된 프로토타입의 공분산을 간단히 추정하고 해당 공분산의 주 대각선만을 취할 수 있다(즉, 프로토타입 신호의 에너지). 도 4c의 이 기술은 역상관된 신호(615b)로부터, 도 4b의 예의 추정보다 더 효율적이고, 이 때 Cx에 대해 이미 수행된 동일한 대역/슬롯 집계를 수행해야 한다. 따라서 도 4c의 예에서는, 이미 집계된 Cx의 행렬 곱을 간단히 적용할 수 있다. 따라서 동일한 집계된 대역 그룹의 모든 대역에 대해 동일한 혼합 행렬이 계산된다.
따라서, 역상관된 신호의 공분산(711)
Figure pat00075
은 710에서, 입력 신호 공분산
Figure pat00076
으로 사용되는 모든 비대각선 요소가 0으로 설정된 행렬의 주 대각선으로,
Figure pat00077
을 사용하여 추정될 수 있다. 합성 신호의 주성분(336M')의 합성을 수행하기 위해 Cx가 평활화되는 예에서, Pdecorr를 계산하는 데 사용되는 Cx의 버전이 평활화되지 않은 Cx인지에 따라 기술이 사용될 수 있다.
이하, 프로토타입 행렬 Qr을 사용해야 한다. 그러나, 잔차 신호의 경우, Qr이 단위 행렬이라는 점에 유의한다.
Figure pat00078
(대각선 행렬) 및 Qr(식별 행렬)의 속성에 대한 지식은 혼합 행렬의 계산을 더욱 단순화한다(적어도 하나의 SVD를 생략할 수 있음), 다음 기술과 Matlab 목록을 참조한다.
먼저, 도 4b의 예와 유사하게, 입력 신호(212)의 잔여 대상 공분산 행렬 Cr(에르미트, 양의 준정부호)는 Cr = KrKr*로 분해될 수 있다. 행렬 Kr은 SVD(702)를 통해 얻을 수 있다: Cr에 적용된 SVD(702)는 다음을 생성한다:
특이 벡터(예: 왼쪽 특이 벡터)의 행렬 UCr;
특이 값의 대각선 행렬 SCr;
이에 의해 (706에서) UCr에 항목에서 SCr의 해당 항목에 있는 값의 제곱근을 갖는 대각선 행렬을 곱하여 Kr을 얻는다(후자는 704에서 얻음).
이 시점에서, 이론적으로 다른 SVD를, 이번에는 역상관된 프로토타입
Figure pat00079
의 공분산에 적용하는 것이 가능하다.
그러나, 이 예(도 4c)에서, 계산 비용을 줄이기 위해 다른 경로가 선택되었다. Pdecorr=diag(QCxQ*) 에서 추정한 바와 같이
Figure pat00080
는 대각선 행렬이므로 SVD를 필요로 하지 않는다(대각선 행렬의 SVD는 특이 값을 대각선 요소의 정렬된 벡터로 제공하고 왼쪽 및 오른쪽 특이 벡터는 정렬 인덱스를 나타낸다.) (712에서)
Figure pat00081
의 대각선 항목에서 각 값의 제곱근을 계산하여, 대각선 행렬
Figure pat00082
를 획득한다. 이 대각선 행렬
Figure pat00083
Figure pat00084
이 되도록 하고,
Figure pat00085
를 얻기 위해 SVD는 필요로 하지 않는다는 장점이 있다. 역상관된 신호
Figure pat00086
의 대각선 공분산으로부터, 역상관된 신호(615c)의 추정된 공분산 행렬
Figure pat00087
이 계산된다. 그러나 프로토타입 행렬은 Qr(즉, 항등 행렬)이므로,
Figure pat00088
Figure pat00089
로 공식화하기 위해
Figure pat00090
를 직접 사용할 수 있으며, 여기서 crii는 Cr의 대각선 항목의 값이고,
Figure pat00091
Figure pat00092
의 대각선 항목 값이다.
Figure pat00093
는 역상관 신호
Figure pat00094
(615b)의 채널당 에너지를 합성 신호 y의 원하는 에너지로 정규화하는 대각선 행렬(722에서 획득)이다.
이 시점에서 (734에서)
Figure pat00095
Figure pat00096
를 곱하는 것이 가능하다(또한 곱셈(734)의 결과(735)는
Figure pat00097
로 불린다). 그런 다음(736), Kr
Figure pat00098
를 곱하여 K'y를 얻는다(즉, K'y=Kr
Figure pat00099
). K'y로부터, SVD(738)를 수행하여 왼쪽 특이 벡터 행렬 U와 오른쪽 특이 벡터 행렬 V를 얻을 수 있다. V와 U*를 곱하여(740), 행렬 P를 얻는다(P=VUH). 마지막으로(742), 다음을 적용하여 잔차 신호에 대한 혼합 행렬 MR을 얻을 수 있다:
Figure pat00100
여기서,
Figure pat00101
(745에서 구함)는 정규화된 역으로 대체될 수 있다. 따라서 MR은 잔여 혼합을 위해 블록(618c)에서 사용될 수 있다.
위에서 설명한 대로 공분산 합성을 수행하기 위한 Matlab 코드가 본 명세서에서 제공된다. 별표(*)는 곱셈을 의미하고 아포스트로피(')는 에르미트 행렬을 의미하는 것에 유의한다.
%Compute residual mixing matrix
function [M] = ComputeMixingMatrixResidual(C_hat_y,Cr,reg_sx,reg_ghat)
EPS_= single(1e-15); %Epsilon to avoid divisions by zero
num_outputs = size(Cr,1);
%Decomposition of Cy
[U_Cr, S_Cr] = svd(Cr);
Kr = U_Cr*sqrt(S_Cr);
%SVD of a diagonal matrix is the diagonal elements ordered,
%we can skip the ordering and get Kx directly form Cx
K_hat_y=sqrt(diag(C_haty));
limit=max(K_hat_y)*reg_sx+EPS_;
S_hat_y_reg_diag=max(K_hat_y,limit);
%Formulate regularized Kx
K_hat_y_reg_inverse=1./S_hat_y_reg_diag;
% Formulate normalization matrix G hat
% Q is the identity matrix in case of the residual/diffuse part so
% Q*Cx*Q' = Cx
Cy_hat_diag = diag(C_hat_y);
limit = max(Cy_hat_diag)*reg_ghat+EPS_;
Cy_hat_diag = max(Cy_hat_diag,limit);
G_hat = sqrt(diag(Cr)./Cy_hat_diag);
%Formulate optimal P
%Kx, G_hat are diagonal matrixes, Q is I...
K_hat_y=K_hat_y.*G_hat;
for k =1:num_outputs
Ky_dash(k,:)=Kr(k,:)*K_hat_y(k);
end
[U,~,V] = svd(Ky_dash);
P=V*U';
%Formulate M
M=Kr*P;
for k = 1:num_outputs
M(:,k)=M(:,k)*K_hat_y_reg_inverse(k);
end
end
도 4b 및 4c의 공분산 합성에 대한 논의가 본 명세서에서 제공된다. 일부 예에서 모든 대역에 대해 두 가지 합성 방법을 고려할 수 있다. 일부 대역의 경우 도 4b의 잔여 경로를 포함하는 전체 합성이 적용되고, 채널에서 원하는 에너지에 도달하기 위해 일반적으로 인간의 귀가 위상에 둔감한 특정 주파수 이상의 대역에 대해서는 에너지 보상이 적용된다.
따라서 또한, 도 4b의 예에서, 특정(고정, 디코더에 알려짐) 대역 경계(임계값) 아래의 대역에 대해, 도 4b에 따른 전체 합성이 수행될 수 있다(예를 들어, 도 4d의 경우). 도 4b의 예에서, 역상관된 신호(615b)의 공분산
Figure pat00102
는 역상관된 신호(615b) 자체로부터 유도된다. 대조적으로, 도 4c의 예에서, 프로토타입 신호(613c)의 역상관을 보장하지만 프로토타입 신호(613b) 자체의 에너지를 유지하는 역상관기(614c)가 주파수 영역에서 사용된다.
추가 고려 사항:
도 4b 및 4c의 두 예 모두에서: 제 1 경로(610b', 610c')에서, 원본 신호(212)의 공분산 Cy 및 다운믹스 신호(324)의 공분산 Cx에 의존함으로써 혼합 행렬 MM이 생성되고(블록 600b, 600c에서);
도 4b 및 도 4c의 두 가지 예에서: 제2 경로(610b, 610c)에서, 역상관기(614b, 614c)가 있고 혼합 행렬 MR이 생성되고(블록 618b, 618c에서), 이는 역상관된 신호(616b, 616c)의 공분산
Figure pat00103
를 고려해야 한다; 그러나
도 4b의 예에서는, 역상관된 신호(616b, 616c)의 공분산
Figure pat00104
은 역상관된 신호(616b, 616c)를 사용하여 직관적으로 계산되며, 원래 채널 y의 에너지에서 가중된다;
도 4c의 예에서, 역상관된 신호(616b, 616c)의 공분산은 이를 행렬 Cx로부터 추정함으로써 역 직관적으로 계산되고, 원래 채널 y의 에너지에서 가중된다.
공분산 행렬 CyR은 위에서 논의된 재구성된 타겟 행렬일 수 있으며(예를 들어, 비트스트림(248)의 부가 정보(228)에 기록된 채널 레벨 및 상관 정보(220)로부터 획득됨), 이에 따라 원본 신호(212)의 공분산과 관련된 것으로 간주될 수 있다는 것에 유의한다. 어쨌든, 합성 신호(336)에 대해 사용되어야 하기 때문에, 공분산 행렬 CyR은 또한 합성 신호와 관련된 공분산으로 간주될 수 있다. 합성 신호와 관련된 잔차 공분산 행렬 Cr로 이해될 수 있는 잔차 공분산 행렬 Cr 및 및 합성 신호와 관련된 주 공분산 행렬로 이해될 수 있는 주 공분산 행렬에도 동일하게 적용된다.
5. 장점
5.1 역상관 사용 감소 및 합성 엔진의 최적 사용
제안된 기술뿐만 아니라 처리에 사용되는 매개변수 및 이들 매개변수가 합성 엔진(334)과 결합되는 방식이 주어지면, 오디오 신호(예: 버전 328)의 강력한 역상관에 대한 필요성이 감소하고 또한 역상관 모듈(330)이 없는 경우에도 역상관의 영향(예: 인공물 또는 공간 속성의 열화 또는 신호 품질의 열화)이 제거되지 않고 감소된다고 설명된다.
보다 정확하게는, 앞서 언급한 바와 같이, 처리의 역상관 부분(330)은 선택적이다. 사실, 합성 엔진(334)은 타겟 공분산 행렬 Cy(또는 그것의 서브세트)를 사용하여 신호(328)를 역상관시키는 것을 처리하고 출력 신호(336)를 구성하는 채널들이 그들 사이에서 적절하게 역상관되도록 보장한다. 공분산 행렬 Cy의 값은 다중 채널 오디오 신호의 서로 다른 채널 간의 에너지 관계를 나타내므로 합성을 위한 타겟으로 사용된다.
또한, 공간적 특성과 음질이 입력 신호(212)와 가능한 한 근접한 출력 다중 채널 신호(336)를 재생하기 위해서, 합성 엔진(334)이 타겟 공분산 행렬 Cy를 사용한다는 사실을 감안할 때, 합성 엔진(334)과 결합된 인코딩된(예를 들어, 전송된) 매개변수(228)(예를 들어, 버전 314 또는 318에서)는 고품질 출력(336)을 보장할 수 있다.
5.2 다운믹스 무관한 처리
제안된 기술과 프로토타입 신호(328)가 계산되는 방식 및 합성 엔진(334)과 함께 사용되는 방식이 주어지면, 제안된 디코더는 다운믹스된 신호(212)가 인코더에서 계산되는 방식에 대해 무관하다고 본 명세서에서 설명된다.
즉, 디코더(300)에서 제안된 발명은 다운믹스된 신호(246)가 인코더에서 계산되는 방식과 독립적으로 수행되고 신호(336)(또는 340)의 출력 품질은 특정 다운 믹싱 방법에 의존하지 않는다는 것을 의미한다.
5.3 매개변수의 확장성
제안된 기술, 뿐만 아니라 매개변수(28, 314, 318)가 계산되는 방식 및 합성 엔진(334)과 함께 사용되는 방식, 뿐만 아니라 디코더 측에서 추정되는 방식을 감안하면, 본 명세서에서 다중 채널 오디오 신호를 설명하는 데 사용되는 매개변수는 수와 목적 면에서 확장 가능하다고 설명된다.
일반적으로, 인코더 측에서 예상된 매개변수의 하위 집합(예를 들어, Cy 및/또는 Cx의 하위 집합, 그 요소)는 인코딩(예: 전송)된다: 이것은 프로세싱에 의해 사용되는 비트율을 감소시키는 것을 허용한다. 따라서, 전송되지 않은 매개변수가 디코더 측에서 재구성된다는 사실을 감안할 때, 인코딩된(예: 전송된) 매개변수(예: Cy 및/또는 Cx의 요소)의 양은 확장 가능하다. 이것은 출력 품질 및 비트 전송률 측면에서 전체 처리를 확장할 수 있는 기회를 제공하고, 전송되는 매개변수가 많을수록 출력 품질이 향상되며 그 반대의 경우도 마찬가지이다.
또한 이러한 매개변수(예: Cy 및/또는 Cx 또는 그 요소)는 목적에 따라 확장 가능하고, 이것은 출력 다중 채널 신호의 특성을 수정하기 위해 사용자 입력에 의해 제어될 수 있음을 의미한다. 게다가, 이들 매개변수는 각각의 주파수 대역에 대해 계산될 수 있고 따라서 스케일러블 주파수 분해능을 허용한다.
예를 들어, 출력 신호(336, 340)에서 하나의 확성기를 취소하도록 결정할 수 있으며 따라서 디코더 측에서 매개변수를 직접 조작하여 이러한 변환을 달성할 수 있다.
5.4 출력 설정의 유연성
제안된 기술뿐만 아니라 사용된 합성 엔진(334) 및 매개변수(예를 들어, Cy 및/또는 Cx 또는 이들의 요소)의 유연성이 주어지면, 제안된 발명이 출력 설정에 관한 렌더링 가능성의 넓은 스펙트럼을 허용한다는 것이 본 명세서에서 설명된다.
보다 정확하게는, 출력 설정이 입력 설정과 같을 필요는 없다. 더 크거나 작거나 또는 단순히 원래의 것과 다른 기하학 구조를 갖는 확성기 설정에서 출력 신호(340)를 생성하기 위해 합성 엔진에 공급되는 재구성된 타겟 공분산 행렬을 조작하는 것이 가능하다. 이것은 전송되는 매개변수와 제안된 시스템이 다운믹스 신호에 대해 무관하기 때문에 가능한다(5.2 참조).
이러한 이유로, 제안된 발명은 출력 확성기 설정 관점에서 유연하다고 설명된다.
5. 프로토타입 행렬의 몇 가지 예
이미 5.1에 대한 아래 표 아래에 있지만 LFE가 생략된 상태에서, 이후 LFE도 또한 처리에 포함했다 (LFE/C 관계에 대한 하나의 ICC 및 LFE에 대한 ICLD는 가장 낮은 매개변수 대역에서만 전송되고 디코더 측 합성에서 다른 모든 대역에 대해 각각 1 및 0으로 설정됨). 채널 명명 및 순서는 ISO/IEC 23091-3, "정보 기술 - 독립적인 코드 포인트 코딩 - 파트 3: 오디오"에 구하는 CICP를 따르고, Q는 항상 디코더의 프로토타입 행렬과 인코더의 다운믹스 행렬로 사용된다. 5.1(CICP6). αi는 ICLD를 계산하는 데 사용된다.
Figure pat00105
6. 방법
위의 기술은 주로 구성 요소 또는 기능 장치로 논의되었지만, 본 발명은 또한 방법으로서 구현될 수 있다. 위에서 논의된 블록 및 요소는 또한 방법의 단계 및/또는 단계로 이해될 수 있다.
예를 들어, 다운믹스 신호로부터 합성 신호를 생성하는 방법이 제공되고, 상기 합성 신호는 다수의 합성 채널을 가지고, 상기 방법은:
다운믹스 신호(246, x)를 수신하는 단계, - 상기 다운믹스 신호(246, x)는 다수의 다운믹스 채널 및 부가 정보(228)를 가지고, 상기 부가 정보(228)는 원본 신호(212, y)의 채널 레벨 및 상관 정보(220)를 가지고, 상기 원본 신호(212, y)는 다수의 원본 채널을 가짐 - ; 및
상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220) 및 상기 신호(246, x)와 관련된 공분산 정보(Cx)를 사용하여 상기 합성 신호를 생성하는 단계
를 포함한다.
디코딩 방법은:
상기 다운믹스 신호(246, x)로부터 프로토타입 신호를 계산하는 단계 - 상기 프로토타입 신호는 다수의 합성 채널을 가짐 - ;
상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보 및 상기 다운믹스 신호(246, x)와 관련된 공분산 정보를 이용하여 믹싱 규칙을 계산하는 단계; 및
상기 프로토타입 신호와 상기 믹싱 규칙을 사용하여 상기 합성 신호를 생성하는 단계
중 적어도 하나를 포함한다.
다수의 다운믹스 채널을 갖는 다운믹스 신호(324, x)로부터 합성 신호(336)를 생성하는 방법이 제공되며, 상기 합성 신호(336)는 다수의 합성 채널을 갖고, 상기 다운믹스 신호(324, x)는 다수의 원본 채널을 갖는 원본 신호(212)의 다운믹스된 버전이고, 상기 방법은:
상기 합성 신호(212)와 관련된 공분산 행렬(CyR); 및
상기 다운믹스 신호(324)와 관련된 공분산 행렬(Cx)
로부터 계산된 제1 혼합 행렬(MM)에 따라 상기 합성 신호의 제1 성분(336M')을 합성하는 단계를 포함하는 제 1 페이즈(610c'): 및
상기 합성 신호의 제2 성분(336R')을 합성하기 위한 제 2 페이즈(610c)
를 포함하고, 상기 제 2 성분(336R')은 잔여 성분이고, 상기 제 2 페이즈(610c)는:
상기 다운믹스 채널 수에서 상기 합성 채널 수로 상기 다운믹스 신호(324)를 업 믹싱하는 프로토타입 신호 단계(612c);
상기 업믹스된 프로토타입 신호(613c)를 역상관하는 역상관기 단계(614c);
상기 다운믹스 신호(324)의 상기 역상관된 버전(615c)으로부터 제2 혼합 행렬(MR)에 따라 상기 합성 신호의 상기 제2 성분(336R')을 합성하는 제2 혼합 행렬 단계(618c)를 포함하고, 상기 제 2 혼합 행렬(MR)은 잔차 혼합 행렬이고,
상기 방법은 상기 제 2 혼합 행렬(MR)을:
상기 제1 혼합 행렬 단계(600c)에 의해 제공된 상기 잔차 공분산 행렬(Cr); 및
상기 다운믹스 신호(324)와 연관된 상기 공분산 행렬(Cx)로부터 획득된 상기 역상관된 프로토타입 신호(
Figure pat00106
)의 상기 공분산 행렬의 추정값
으로부터 계산하고, 상기 방법은 상기 합성 신호의 상기 제 1 성분(336M')을 상기 합성 신호의 상기 제 2 성분(336R')과 합산하여, 상기 합성 신호를 획득(336)하는 가산기 단계(620c)를 더 포함한다.
더욱, 원본 신호(212, y)로부터 다운믹스 신호(246, x)를 생성하는 방법이 제공되며, 상기 원본 신호(212, y)는 다수의 원래 채널을 가지고, 상기 다운믹스 신호(246, x)는 다수의 다운믹스 채널을 가지고, 상기 방법은:
상기 원본 신호(212, y)의 채널 레벨 및 상관 정보(220)를 추정(218)하는 단계; 및
상기 다운믹스 신호(246, x)가 상기 원본 신호(12, y)의 채널 레벨 및 상관 정보(220)를 포함하는 부가 정보(228)를 갖도록 상기 비트스트림(248)에서 인코딩되도록 상기 다운믹스 신호(246, x)를 비트스트림(248)으로 인코딩(226)하는 단계를 포함한다.
이들 방법은 위에서 논의된 인코더 및 디코더 중 임의의 것에서 구현될 수 있다.
7. 저장 장치
더욱이, 본 발명은 프로세서에 의해 실행될 때 프로세서가 위와 같은 방법을 수행하게 하는 명령어를 저장하는 비일시적 저장 유닛에서 구현될 수 있다.
또한, 본 발명은 프로세서에 의해 실행될 때 프로세서가 인코더 또는 디코더의 기능 중 적어도 하나를 제어하게 하는 명령어를 저장하는 비일시적 저장 유닛에서 구현될 수 있다.
저장 유닛은, 예를 들어, 인코더(200) 또는 디코더(300)의 일부일 수 있다.
8. 다른 측면
일부 측면이 장치의 맥락에서 설명되었지만, 이러한 측면은 또한 해당 방법에 대한 설명을 나타내고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 기능에 해당한다. 유사하게, 방법 단계의 맥락에서 설명된 양태는 또한 대응하는 블록 또는 대응하는 장치의 항목 또는 특징의 설명을 나타낸다. 방법 단계의 일부 또는 전부는 예를 들어 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 이를 사용하여) 실행될 수 있다. 일부 측면에서, 가장 중요한 방법 단계 중 일부 하나 이상이 이러한 장치에 의해 실행될 수 있다.
특정 구현 요건에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 전자적으로 판독 가능한 제어 신호를 저장하고 있는 플로피 디스크, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리와 같은 디지털 저장 매체를 사용하여 수행할 수 있으며, 이는 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서, 디지털 저장 매체는 컴퓨터 판독 가능하다.
본 발명에 따른 일부 측면은 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함하며, 이는 프로그램 가능한 컴퓨터 시스템과 협력할 수 있으므로, 본 명세서에서 설명된 방법 중 하나가 수행된다.
일반적으로, 본 발명의 측면은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 이 때 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법들 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능한 캐리어에 저장될 수 있다.
다른 형태는 기계 판독 가능 캐리어에 저장된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 이에 따라 본 발명의 방법의 실시 예는 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 다른 측면은 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 기록되어 있는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 일반적으로 유형 및/또는 비 일시적이다.
따라서, 본 발명의 방법의 다른 측면은 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예를 들어 인터넷을 통해 데이터 통신 연결을 통해 전송되도록 구성될 수 있다.
다른 측면은 본 명세서에서 설명된 방법들 중 하나를 수행하도록 구성되거나 적응된 처리 수단, 예를 들어 컴퓨터, 또는 프로그램 가능한 논리 장치를 포함한다.
다른 측면은 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 다른 측면은 본 명세서에 기술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함할 수 있다.
일부 측면에서, 프로그래머블 로직 디바이스(예를 들어, 필드 프로그래머블 게이트 어레이)는 본 명세서에서 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 측면에서, 필드 프로그램 가능 게이트 어레이는 본 명세서에서 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
본 명세서에 기술된 장치는 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본 명세서에서 설명된 방법은 하드웨어 장치를 사용하거나 컴퓨터를 사용하거나 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
상기 설명된 장치는 본 발명의 원리를 설명하기 위한 것일 뿐이다. 본 명세서에 기술된 배열 및 세부 사항의 수정 및 변형은 당업자에게 자명한 것으로 이해된다. 따라서, 본 발명의 실시 예의 설명을 통해 제공된 특정 세부사항이 아니라 계류중인 특허 청구범위의 범위에 의해서만 제한되는 것이다.
9.참고 문헌
[1] J. Herre, K. Kjorling, J. Breebart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roden, W. Oomen, K. Linzmeier 및 K. S. Chong, "MPEG 서라운드 - 효율적이고 호환 가능한 다중 채널 오디오 코딩을 위한 ISO/MPEG 표준" 오디오 영어 학회, vol. 56, no. 11, pp. 932-955, 2008.
[2] V. 풀키, “방향성 오디오 코딩을 통한 공간음향 재생,” 오디오영어학회, vol. 55, no. 6, pp. 503-516, 2007.
[3] C. Faller 및 F. Baumgarte, "바이노럴 큐 코딩 - 파트 II: 체계 및 응용", 음성 및 오디오 처리에 대한 IEEE 트랜잭션, vol. 11, no. 6, pp. 520-531, 2003.
[4] O. Hellmuth, H. Purnhagen, J. Koppens, J. Herre, J. Engdegard, J. Hilpert, L. Villemoes, L. Terentiv, C. Falch, A. Holzer, ML Valero, B. Resch, H. Mundt 및 H.-O. Oh, "MPEG 공간 오디오 개체 코딩 - 대화형 오디오 장면의 효율적인 코딩을 위한 ISO/MPEG 표준," AES, 샌프란시스코, 2010.
[5] L. Mikko-Ville 및 V. Pulkki, "변환 5.1. 방향성 오디오 코딩 재생을 위한 B 형식의 오디오 녹음", ICASSP, 프라하, 2011.
[6] D. A. 허프만, "최소 중복 코드 생성 방법", IRE, vol. 40, no. 9, pp. 1098-1101, 1952.
[7] A. Karapetyan, F. Fleischmann 및 J. Plogsties, "액티브 멀티채널 오디오 다운믹스", 2018년 제145회 뉴욕, 오디오 엔지니어링 학회.
[8] J. Vilkamo, T. Backstrom 및 A. Kuntz, "공간 오디오의 시간-주파수 처리를 위한 최적화된 공분산 영역 프레임워크," 오디오 엔지니어링 학회지, vol. 61, no. 6, pp. 403-411, 2013.

Claims (99)

  1. 다운믹스 신호(246, x)로부터 합성 신호(336, 340, yR)를 생성하기 위한 오디오 합성기(300)에 있어서, 상기 합성 신호(336, 340, yR)는 다수의 합성 채널을 가지며, 상기 합성기(300)는:
    상기 다운믹스 신호(246, x)를 수신하도록 구성된 입력 인터페이스(312) - 상기 다운믹스 신호(246, x)는 다수의 다운믹스 채널 및 부가 정보(228)를 갖고, 상기 부가 정보(228)는 원본 신호(212, y)의 채널 레벨 및 상관 정보(314, ξ, χ)를 포함하고, 상기 원본 신호(212, y)는 다수의 원래 채널을 가짐 -; 및
    적어도 하나의 믹싱 규칙에 따라 상기 합성 신호(336, 340, yR)를:
    상기 원본 신호(212, y)의 채널 레벨 및 상관 정보(220, 314, ξ, χ); 및
    상기 다운믹스 신호(324, 246, x)와 관련된 공분산 정보(Cx)를 사용하여 생성하도록 구성되는, 합성 프로세서(404)
    를 포함하는, 합성기.
  2. 제 1 항에 있어서,
    상기 다운믹스 신호(324, 246, x)로부터 프로토타입 신호(328)를 계산하도록 구성된 프로토타입 신호 계산기(326) - 상기 프로토타입 신호(328)는 상기 다수의 합성 채널을 가짐 - ;
    적어도 하나의 믹싱 규칙(403)을:
    상기 원본 신호(212, y)의 채널 레벨 및 상관 정보(314, ξ, χ); 및
    상기 다운믹스 신호(324, 246, x)와 관련된 공분산 정보(Cx)
    를 사용하여 계산하도록 구성된 믹싱 규칙 계산기(402)
    를 더 포함하고,
    상기 합성 프로세서(404)는 상기 프로토타입 신호(328) 및 상기 적어도 하나의 믹싱 규칙(403)을 사용하여 상기 합성 신호(336, 340, yR)를 생성하도록 구성되는, 합성기.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 원본 신호의 타겟 공분산 정보(Cy)를 재구성하도록(386) 구성되는, 합성기.
  4. 제 3 항에 있어서, 상기 합성 신호(336, 340, yR)의 채널 수에 적응된 상기 타겟 공분산 정보(Cy)를 재구성하도록 구성되는, 합성기.
  5. 제 4 항에 있어서, 상기 합성 신호(336, 340, yR)의 채널 수에 적응된 공분산 정보(Cy)를 원본 채널 그룹을 단일 합성 채널에 할당하거나 그 반대로 할당하여 재구성하여, 상기 재구성된 타겟 공분산 정보 CyR가 상기 합성 신호(336, 340, yR)의 채널 수에 보고되도록 구성되는, 합성기.
  6. 제 5 항에 있어서, 상기 원본 채널의 수에 대해 상기 타겟 공분산 정보를 생성하고 이어서 상기 합성 채널에 대해 상기 타겟 공분산에 도달하기 위해 다운 믹싱 규칙 또는 업 믹싱 규칙 및 에너지 보상을 적용하여 상기 합성 신호(336, 340, yR)의 채널 수에 적응된 상기 공분산 정보(Cy)를 재구성하도록 구성되는, 합성기.
  7. 제 3 항 내지 제 6 항 중 어느 한 항에 있어서, 상기 원본 공분산 정보(Cy)의 추정 버전(
    Figure pat00107
    )을 기반으로 공분산 정보(Cy)의 타겟 버전(CyR)을 재구성하도록 구성되고, 상기 원본 공분산 정보(Cy)의 상기 추정 버전(
    Figure pat00108
    )은 상기 합성 채널의 수 또는 상기 원본 채널의 수로 보고되는, 합성기.
  8. 제 7 항에 있어서, 상기 다운믹스 신호(324, 246, x)와 연관된 공분산 정보(Cx)로부터 상기 원본 공분산 정보의 상기 추정 버전(
    Figure pat00109
    )을 획득하도록 구성되는, 합성기.
  9. 제 8 항에 있어서, 상기 다운믹스 신호(324, 246, x)와 연관된 상기 공분산 정보(Cx)에, 상기 프로토타입 신호(326)를 계산하기 위한 프로토타입 규칙이거나 이와 연관된 추정 규칙(Q)을 적용하여 상기 원본 공분산 정보(220)의 상기 추정 버전(
    Figure pat00110
    )을 획득하도록 구성되는, 합성기.
  10. 제 8 항 또는 제 9 항에 있어서, 적어도 한 쌍의 채널에 대해, 상기 원본 공분산 정보(Cy)의 상기 추정 버전(
    Figure pat00111
    )을 상기 채널 쌍의 상기 채널의 레벨의 제곱근으로 정규화하도록 구성되는, 합성기.
  11. 제 10 항에 있어서, 상기 원본 공분산 정보(Cy)의 상기 정규화된 추정 버전(
    Figure pat00112
    )으로 행렬을 이해하도록 구성되는, 합성기.
  12. 제 11 항에 있어서, 상기 비트스트림(248)의 상기 부가 정보(228)에서 얻은 항목(908)을 삽입하여 상기 행렬을 완성하도록 구성되는, 합성기.
  13. 제 10 항 내지 제 12 항 중 어느 한 항에 있어서, 상기 원본 공분산 정보(Cy)의 상기 추정 버전(
    Figure pat00113
    )을 상기 채널 쌍을 형성하는 상기 채널 레벨의 제곱근으로 스케일링하여 상기 행렬을 비정규화하도록 구성되는, 합성기.
  14. 제 8 항 내지 제 13 항 중 어느 한 항에 있어서, 상기 다운믹스 신호(324, 246, x)의 상기 부가 정보(228) 중에서, 채널 레벨 및 상관 정보(ξ, χ)를 검색하도록 구성되고, 상기 오디오 합성기는 상기 원본 채널 레벨 및 상관 정보(220)의 추정 버전(
    Figure pat00114
    )에 의해 상기 공분산 정보(Cy)의 목표 버전(CyR)을,
    적어도 하나의 제 1 채널 또는 한 쌍의 채널에 대한 공분산 정보(Cx); 및
    적어도 하나의 제 2 채널 또는 한 쌍의 채널에 대한 채널 레벨 및 상관 정보(ξ, χ)
    로부터 재구성하도록 더욱 구성되는, 합성기.
  15. 제 14 항에 있어서, 상기 동일한 채널 또는 한 쌍의 채널에 대해 상기 다운믹스 신호(324, 246, x)로부터 재구성된 상기 공분산 정보(Cy) 대신에 상기 비트스트림(248)의 상기 부가 정보(228)로부터 획득된 상기 채널 또는 한 쌍의 채널을 설명하는 상기 채널 레벨 및 상관 정보(ξ, χ)를 선호하도록 구성되는, 합성기.
  16. 제 3 항 내지 제 15 항 중 어느 한 항에 있어서, 상기 원본 공분산 정보(Cy)의 상기 재구성된 목표 버전(CyR)은 두 채널 간의 에너지 관계를 설명하거나, 적어도 부분적으로 상기 한 쌍의 채널 중 각 채널과 관련된 레벨에 기반하는, 합성기.
  17. 선행 항들 중 어느 한 항에 있어서, 상기 다운믹스 신호(246, x)의 주파수 영역(FD) 버전(324)을 획득하고, 상기 다운믹스 신호(246, x)의 상기 FD 버전(324)은 대역 또는 대역 그룹으로 분할되고, 상이한 채널 레벨 및 상관 정보(220)는 상이한 대역 또는 대역 그룹과 연관되며,
    상기 오디오 합성기는 상이한 대역 또는 대역 그룹에 대해 상이한 믹싱 규칙(403)을 획득하기 위해서, 상이한 대역 또는 대역 그룹에 대해 상이하게 동작하도록 구성되는, 합성기.
  18. 선행 항들 중 어느 한 항에 있어서, 상기 다운믹스 신호(324, 246, x)는 슬롯으로 분할되고, 상이한 채널 레벨 및 상관 정보(220)는 상이한 슬롯과 연관되고, 상기 오디오 합성기는 상이한 슬롯에 대해 상이하게 작동하여 상이한 슬롯에 대해 상이한 믹싱 규칙(403)을 얻도록 구성되는, 합성기.
  19. 선행 항들 중 어느 한 항에 있어서, 상기 다운믹스 신호(324, 246, x)는 프레임으로 분할되고 각 프레임은 슬롯으로 분할되며, 상기 오디오 합성기는, 한 프레임에서 상기 과도 현상의 존재와 위치가 하나의 과도 슬롯에 있는 것으로 시그널링(261)되는 경우:
    상기 현재 채널 레벨 및 상관 정보(220)를 상기 과도 슬롯 및/또는 상기 프레임의 과도 슬롯에 후속하는 슬롯에 연관시키고;
    상기 선행 슬롯의 상기 채널 레벨 및 상관 정보(220)를 상기 과도 슬롯에 선행하는 상기 프레임의 슬롯에 연관시키는, 합성기.
  20. 선행 항들 중 어느 한 항에 있어서, 프로토타입 신호(328)를 계산하도록 구성된 프로토타입 규칙(Q)을 상기 합성 채널의 수에 기초하여 선택하도록 구성되는, 합성기.
  21. 제 20 항에 있어서, 미리 저장된 복수의 프로토타입 규칙 중에서 프로토타입 규칙(Q)을 선택하도록 구성되는, 합성기.
  22. 선행 항들 중 어느 한 항에 있어서, 수동 선택을 기반으로 프로토타입 규칙(Q)을 정의하도록 구성되는, 합성기.
  23. 제 21 항 또는 제 22 항에 있어서, 상기 프로토타입 규칙은 제 1 치수 및 제 2 치수를 갖는 행렬(Q)을 포함하며, 상기 제 1 치수는 다운믹스 채널의 수와 연관되며, 상기 제 2 치수는 상기 합성 채널의 수와 연관되는, 합성기.
  24. 선행 항들 중 어느 한 항에 있어서, 160kbit/s 이하의 비트 전송률에서 작동하도록 구성되는, 합성기.
  25. 선행 항들 중 어느 한 항에 있어서, 상기 부가 정보(314)와 함께 상기 다운믹스 신호(246, x)를 획득하기 위한 엔트로피 디코더(312)
    를 더 포함하는, 합성기.
  26. 선행 항들 중 어느 한 항에 있어서, 상이한 채널들 간의 상관의 양을 감소시키기 위해 역상관 모듈(614b, 614c, 330)
    를 더 포함하는, 합성기.
  27. 제 1 항 내지 제 25 항 중 어느 한 항에 있어서, 상기 프로토타입 신호(328)는 역상관을 수행하지 않고 상기 합성 프로세서(600a, 600b, 404)에 직접 제공되는, 합성기.
  28. 선행 항들 중 어느 한 항에 있어서, 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(ξ, χ), 상기 적어도 하나의 믹싱 규칙(403) 및 상기 다운믹스 신호(246, x)와 관련된 상기 공분산 정보(Cx) 중 적어도 하나는 행렬의 형태로 되어 있는, 합성기.
  29. 선행 항들 중 어느 한 항에 있어서, 상기 부가 정보(228)는 상기 원래 채널의 식별을 포함하고;
    상기 오디오 합성기는 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(ξ, χ), 상기 다운믹스 신호(246, x)와 관련된 공분산 정보(Cx), 상기 원본 채널의 식별 및 상기 합성 채널의 식별 중 적어도 하나를 사용하여 상기 적어도 하나의 믹싱 규칙(403)을 계산하도록 더욱 구성되는, 합성기.
  30. 선행 항들 중 어느 한 항에 있어서, 특이 값 분해(SVD)에 의해 적어도 하나의 믹싱 규칙을 계산하도록 구성되는, 합성기.
  31. 선행 항들 중 어느 한 항에 있어서, 상기 다운믹스 신호는 프레임으로 분할되며, 상기 오디오 합성기는 선행 프레임에 대해 획득된 매개변수, 추정 또는 재구성된 값, 또는 혼합 행렬과의 선형 조합을 사용하여 수신된 매개변수, 추정 또는 재구성된 값, 또는 혼합 행렬을 평활화하도록 구성되는, 합성기.
  32. 제 31 항에 있어서, 한 프레임에서 과도 현상의 존재 및/또는 위치가 시그널링될 때(261), 상기 수신된 매개변수, 추정 또는 재구성된 값, 또는 혼합 행렬의 상기 평활화를 비활성화하도록 구성되는, 합성기.
  33. 선행 항들 중 어느 한 항에 있어서, 상기 다운믹스 신호는 프레임으로 분할되고 프레임은 슬롯으로 분할되며, 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220, ξ, χ)는 프레임 단위 방식으로 상기 비트스트림(248)의 상기 부가 정보(228)로부터 획득되며, 상기 오디오 합성기는 현재 프레임에 대해, 상기 현재 프레임에 대해 계산된 믹싱 규칙을, 상기 현재 프레임의 상기 후속 슬롯을 따라 증가하는 계수에 의해 스케일링하고, 상기 현재 프레임의 상기 후속 슬롯을 따라 감소하는 계수에 의해 스케일링된 버전의 상기 이전 프레임에 대해 사용된 상기 믹싱 규칙을 추가하여 획득된 믹싱 규칙을 사용하도록 구성되는, 합성기.
  34. 선행 항들 중 어느 한 항에 있어서, 상기 합성 채널의 수는 상기 원본 채널의 수보다 큰, 합성기.
  35. 선행 항들 중 어느 한 항에 있어서, 상기 합성 채널의 수는 상기 원본 채널의 수보다 작은, 합성기.
  36. 선행 항들 중 어느 한 항에 있어서, 상기 합성 채널 수, 상기 원본 채널의 수 및 상기 다운믹스 채널의 수 중 적어도 하나는 복수 개인, 합성기.
  37. 선행 항들 중 어느 한 항에 있어서, 상기 적어도 하나의 믹싱 규칙은 제 1 혼합 행렬(MM) 및 제 2 혼합 행렬(MR)를 포함하고, 상기 오디오 합성기는:
    상기 합성 신호(212)와 관련된 공분산 행렬(CyR), - 상기 공분산 행렬(CyR)은 상기 채널 레벨 및 상관 정보(220)로부터 재구성됨 - ; 및
    상기 다운믹스 신호(324)와 관련된 공분산 행렬(Cx)
    로부터 계산된 상기 제1 혼합 행렬(MM)에 따라 상기 합성 신호의 제1 성분(336M')을 합성하도록 구성된 제1 혼합 행렬 블록(600c)
    을 포함하는 제1 경로(610c'):
    상기 합성 신호의 제2 성분(336R')을 합성하기 위한 제2 경로(610c)
    를 포함하고, 상기 제2 성분(336R')은 잔차 성분이고, 상기 제 2 경로(610c)는:
    상기 다운믹스 신호(324)를 상기 다운믹스 채널의 수로부터 상기 합성 채널의 수로 업 믹싱하도록 구성된 프로토타입 신호 블록(612c);
    상기 업믹스된 프로토타입 신호(613c)를 역상관하도록 구성된 역상관기(614c);
    상기 다운믹스 신호(324)의 상기 역상관된 버전(615c)으로부터 제 2 혼합 행렬(MR)에 따라 상기 합성 신호의 상기 제2 성분(336R')을 합성하도록 구성된 제2 혼합 행렬 블록(618c), - 상기 제 2 혼합 행렬(MR)은 잔차 혼합 행렬임 -
    을 포함하고,
    상기 오디오 합성기(300)는:
    상기 제1 혼합 행렬 블록(600c)에 의해 제공되는 잔차 공분산 행렬(Cr); 및
    상기 다운믹스 신호(324)와 연관된 상기 공분산 행렬(Cx)로부터 획득된 상기 역상관된 프로토타입 신호(
    Figure pat00115
    )의 상기 공분산 행렬의 추정값
    으로부터 상기 제2 혼합 행렬(MR)를 추정(618c)하도록 구성되고,
    상기 오디오 합성기(300)는 상기 합성 신호의 상기 제1 성분(336M')을 상기 합성 신호의 상기 제2 성분(336R')과 합산하기 위한 가산기 블록(620c)을 더 포함하는, 합성기.
  38. 다수의 다운믹스 채널을 갖는 다운믹스 신호(324, x)로부터 합성 신호(336)를 생성하는 오디오 합성기(300)에 있어서, 상기 합성 신호(336)는 다수의 합성 채널을 갖고, 상기 다운믹스 신호(324, x)는 다수의 원본 채널을 갖는 원본 신호(212)의 다운믹스된 버전이고, 상기 오디오 합성기(300)는:
    상기 합성 신호의 제1 성분(336M')을:
    상기 합성 신호(212)와 관련된 공분산 행렬(CyR); 및
    상기 다운믹스 신호(324)와 관련된 공분산 행렬(Cx)
    로부터 계산된 상기 제1 혼합 행렬(MM)에 따라 합성하도록 구성된 제1 혼합 행렬 블록(600c)
    을 포함하는 제1 경로(610c'):
    상기 합성 신호의 제2 성분(336R')을 합성하기 위한 제2 경로(610c)
    를 포함하고, 상기 제2 성분(336R')은 잔차 성분이고, 상기 제 2 경로(610c)는:
    상기 다운믹스 채널의 수로부터 합성 채널의 수로 상기 다운믹스 신호(324)를 업 믹싱하도록 구성된 프로토타입 신호 블록(612c);
    상기 업믹스된 프로토타입 신호(613c)를 역상관하도록 구성된 역상관기(614c);
    상기 다운믹스 신호(324)의 상기 역상관된 버전(615c)으로부터 제2 혼합 행렬(MR)에 따라 상기 합성 신호의 상기 제2 성분(336R')을 합성하도록 구성된 제2 혼합 행렬 블록(618c, - 상기 제 2 혼합 행렬(MR)은 잔차 혼합 행렬임 -
    을 포함하고,
    상기 오디오 합성기(300)는:
    상기 제1 혼합 행렬 블록(600c)에 의해 제공되는 상기 잔차 공분산 행렬(Cr); 및
    상기 다운믹스 신호(324)와 연관된 상기 공분산 행렬(Cx)로부터 획득된 상기 역상관된 프로토타입 신호(
    Figure pat00116
    )의 상기 공분산 행렬의 추정값
    으로부터 상기 제2 혼합 행렬(MR)를 계산(618c)하도록 구성되고,
    상기 오디오 합성기(300)는 상기 합성 신호의 상기 제1 성분(336M')을 상기 합성 신호의 상기 제2 성분(336R')과 합산하기 위한 가산기 블록(620c)을 더 포함하는, 합성기.
  39. 제 37 항 또는 제 38 항에 있어서, 상기 잔차 공분산 행렬(Cr)은, 상기 합성 신호(212)와 관련된 상기 공분산 행렬(CyR)에서 상기 다운믹스 신호(324)와 연관된 상기 공분산 행렬(Cx)에 상기 제1 혼합 행렬(MM)을 적용하여 획득한 행렬을 감하는 것으로 획득되는, 합성기.
  40. 제 37 항 또는 제 38 항 또는 제 39 항에 있어서, 상기 제 2 혼합 행렬(MR)을:
    상기 합성 신호와 관련한 상기 잔차 공분산 행렬(Cr)을 분해하여 얻은 제 2 행렬(Kr);
    상기 역상관된 프로토타입 신호(
    Figure pat00117
    )의 상기 공분산 행렬의 추정값(711)에서 얻은 대각선 행렬(
    Figure pat00118
    )의 역행렬 또는 정규화된 역행렬인 제 1 행렬(
    Figure pat00119
    )
    로부터 정의하도록 구성되는, 합성기.
  41. 제 40 항에 있어서, 상기 대각선 행렬(
    Figure pat00120
    )은 역상관된 프로토타입 신호(
    Figure pat00121
    )의 상기 공분산 행렬의 주 대각선 요소에 상기 제곱근 함수(712)를 적용함으로써 획득되는, 합성기.
  42. 제 40 항 또는 제 41 항에 있어서, 상기 제 2 행렬(Kr)은 상기 합성 신호와 관련된 상기 잔여 공분산 행렬(Cr)에 적용되는, 특이 값 분해(SVD)(702)에 의해 획득되는, 합성기.
  43. 제 40 항 내지 제 42 항 중 어느 한 항에 있어서, 상기 제 2 혼합 행렬(MR)을, 상기 역상관된 프로토타입 신호(
    Figure pat00122
    )의 상기 공분산 행렬의 추정치 및 제 3 행렬(P)로부터 획득한 상기 대각선 행렬(
    Figure pat00123
    )의 역(
    Figure pat00124
    ) 또는 정규화된 역 행렬과 상기 제 2 행렬(Kr)의 곱(742)으로 정의하도록 구성되는, 합성기.
  44. 제 43 항에 있어서, 상기 역상관된 프로토타입 신호(
    Figure pat00125
    )의 상기 공분산 행렬의 정규화 버전(
    Figure pat00126
    )에서 얻은 행렬(K'y)에 적용된 SVP(738)에 의해 상기 제 3 행렬(P)을 획득하도록 구성되고, 상기 정규화는 상기 주 대각선에 대한 상기 잔차 공분산 행렬(Cr), 상기 대각선 행렬(
    Figure pat00127
    ) 및 상기 제 2 행렬(Kr)인, 합성기.
  45. 제 37 항 내지 제 44 항 중 어느 한 항에 있어서, 상기 제 1 혼합 행렬(MM)을 제 2 행렬 및 제 2 행렬의 역행렬 또는 정규화된 역행렬로부터 정의하도록 구성되고,
    상기 제2 행렬은 상기 다운믹스 신호와 관련된 상기 공분산 행렬을 분해함으로써 획득되고,
    상기 제2 행렬은 상기 다운믹스 신호와 관련된 상기 재구성된 타겟 공분산 행렬을 분해함으로써 획득되는, 합성기.
  46. 제 37 항 내지 제 45 항 중 어느 한 항에 있어서, 상기 다운믹스 신호(324)를 상기 다운믹스 채널의 수에서 상기 합성 채널의 수로 업 믹싱하기 위해 상기 다운믹스 신호(324)와 관련된 상기 공분산 행렬(Cx)에 상기 프로토타입 블록(612c)에서 사용되는 상기 프로토타입 규칙(Q)을 적용하는 것으로 획득된 상기 행렬의 상기 대각선 항목으로부터 상기 역상관된 프로토타입 신호(
    Figure pat00128
    )의 상기 공분산 행렬을 추정하도록 구성되는, 합성기.
  47. 선행 항들 중 어느 한 항에 있어서, 상기 오디오 합성기는 상기 디코더와 무관한, 합성기.
  48. 선행 항들 중 어느 한 항에 있어서, 상기 대역은 집계된 대역의 그룹으로 서로 집계되고, 상기 집합된 대역의 그룹에 대한 정보는 상기 비트스트림(248)의 상기 부가 정보(228)에 제공되고, 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220, ξ, χ)는 동일한 집계 그룹의 대역의 상이한 대역에 대해 동일한 적어도 하나의 혼합 행렬을 계산하기 위해서 대역의 각 그룹별로 제공되는, 합성기.
  49. 원본 신호(212, y)로부터 다운믹스 신호(246, x)를 생성하기 위한 오디오 인코더(200)에 있어서, 상기 원본 신호(212, y)는 복수의 원본 채널을 갖고, 상기 다운믹스 신호(246, x)는 다수의 다운믹스 채널을 갖고, 상기 오디오 인코더(200)는:
    상기 원본 신호(212, y)의 채널 레벨 및 상관 정보(220)를 추정하도록 구성된 매개변수 추정기(218), 및
    상기 다운믹스 신호(246, x)를 비트스트림(248)으로 인코딩하여, 상기 다운믹스 신호(246, x)가 상기 원본 신호(212, y)의 채널 레벨 및 상관 정보(220)를 포함하는 부가 정보(228)를 갖기 위해 상기 비트스트림(248)에서 인코딩되도록 하는 비트스트림 기록기(226)
    를 포함하는, 인코더.
  50. 제 49 항에 있어서, 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220)를 정규화된 값으로 제공하도록 구성되는, 인코더.
  51. 제 49 항 또는 제 50 항에 있어서, 상기 부가 정보(228)에서 인코딩된 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220)는 적어도 상기 원본 채널의 전체성과 연관된 적어도 채널 레벨 정보를 포함하거나 나타내는, 인코더.
  52. 제 49 항 내지 제 51 항 중 어느 한 항에 있어서, 상기 부가 정보(228)에서 인코딩된 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220)는 적어도 한 쌍의 상이한 원본 채널 간의 에너지 관계를 설명하는 적어도 상관 정보(220, 908)를 포함하거나 나타내지만, 원래 채널의 전체 수보다 적은, 인코더.
  53. 제 49 항 내지 제 52 항 중 어느 한 항에 있어서, 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220)는 한 쌍의 원본 채널의 두 채널 간의 상기 일관성을 설명하는 적어도 하나의 일관성 값(ξi,j)을 포함하는, 인코더.
  54. 제 53 항에 있어서, 상기 일관성 값은 정규화되는, 인코더.
  55. 제 53 항 또는 제 54 항에 있어서, 상기 일관성 값은
    Figure pat00129

    여기서 Cyi,j는 채널 i와 j 사이의 공분산이며, Cyi,i 및 Cyj,j는 각각 채널 i 및 j와 관련된 레벨인, 인코더.
  56. 제 49 항 내지 제 55 항 중 어느 한 항에 있어서, 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220)는 적어도 하나의 채널간 레벨 차 ICLD를 포함하는, 인코더.
  57. 제 56 항에 있어서, 상기 적어도 하나의 ICLD는 대수 값으로 제공되는, 인코더.
  58. 제 56 항 또는 제 57 항에 있어서, 상기 적어도 하나의 ICLD는 정규화되는, 인코더.
  59. 제 58 항에 있어서, 상기 ICLD는:
    Figure pat00130

    여기서
    χi는 채널 i에 대한 ICLD이고,
    Pi는 상기 현재 채널 i의 전력이고,
    Pdmx,i는 상기 다운믹스 신호의 상기 공분산 정보 값의 선형 조합인, 인코더.
  60. 제 49 항 내지 제 59 항 중 어느 한 항에 있어서, 상기 부가 정보(228)에 상대적으로 낮은 페이로드의 경우 채널 레벨 및 상관 정보(220)의 증가된 양을 포함하기 위해서, 상기 상태 정보(252)에 기초하여 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220)의 적어도 일부를 인코딩할지 여부를 선택(250)하도록 구성되는, 인코더.
  61. 제 49 항 내지 제 60 항 중 어느 한 항에 있어서, 상기 부가 정보(228)에 더 민감한 메트릭과 연관된 채널 레벨 및 상관 정보(220)를 포함하기 위해서, 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220)의 어느 부분이 상기 채널에 대한 메트릭(252)에 기초하여 상기 부가 정보(228)에서 인코딩되어야 하는지를 선택(250)하도록 구성되는, 인코더.
  62. 제 49 항 내지 제 61 항 중 어느 한 항에 있어서, 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220)는 행렬(Cy)의 항목 형태로 되어 있는, 인코더.
  63. 제 62 항에 있어서, 상기 행렬은 대칭적 또는 에르미트이고, 상기 채널 레벨 및 상관 정보(220)의 상기 항목은 상기 행렬(Cy)의 상기 대각선에 있는 상기 항목의 전체 모두 또는 미만, 및/또는 상기 행렬(Cy)의 상기 비대각선 요소의 절반 미만에 대해 제공되는, 인코더.
  64. 제 49 항 내지 제 63 항 중 어느 한 항에 있어서, 상기 비트스트림 기록기(226)는 적어도 하나의 채널의 식별을 인코딩하도록 구성되는, 인코더.
  65. 제 49 항 내지 제 64 항 중 어느 한 항에 있어서, 상기 원본 신호(212, y) 또는 이의 처리된 버전(216)은 동일한 시간 길이의 다수의 후속 프레임으로 분할되는, 인코더.
  66. 제 65 항에 있어서, 상기 부가 정보(228)에서 각 프레임에 대해 고유한 상기 원본 신호(212, y)의 채널 레벨 및 상관 정보(220)를 인코딩하도록 구성되는, 인코더.
  67. 제 66 항에 있어서, 상기 부가 정보(228)에서, 복수의 연속 프레임에 집합적으로 연관된 상기 원본 신호(212, y)의 동일한 채널 레벨 및 상관 정보(220)를 인코딩하도록 구성되는, 인코더.
  68. 제 66 항 또는 제 67 항에 있어서, 상대적으로 더 높은 비트 전송률 또는 더 높은 페이로드가 상기 원본 신호(212, y)의 상기 동일한 채널 레벨 및 상관 정보(220)가 연관되는 연속 프레임 수의 증가를 의미하며 그 반대도 의미하도록, 상기 원본 신호(212, y)의 상기 동일한 채널 레벨 및 상관 정보(220)가 선택되는 연속 프레임의 수를 선택하도록 구성되는, 인코더.
  69. 제 67 항 또는 제 68 항에 있어서, 과도 현상의 검출시 상기 원본 신호(212, y)의 상기 동일한 채널 레벨 및 상관 정보(220)가 연관되는 연속 프레임의 수를 줄이도록 구성되는, 인코더.
  70. 제 65 항 내지 제 69 항 중 어느 한 항에 있어서, 각 프레임은 정수 개수의 연속 슬롯으로 세분화되는, 인코더.
  71. 제 70 항에 있어서, 각 슬롯에 대한 상기 채널 레벨 및 상관 정보(220)를 추정하고 상이한 슬롯들에 대해 추정된 상기 채널 레벨과 상관 정보(220)의 합 또는 평균 또는 다른 미리 결정된 선형 조합을 상기 부가 정보(228)에서 인코딩하도록 구성되는, 인코더.
  72. 제 71 항에 있어서, 상기 프레임 내 과도 현상의 발생을 결정하기 위해 상기 프레임의 시간 영역 버전에 대해 과도 분석(258)을 수행하도록 구성되는, 인코더.
  73. 제 72 항에 있어서, 상기 프레임의 어느 슬롯에서 상기 과도 현상이 발생했는지를 결정하고:
    상기 과도 현상에 선행하는 슬롯과 관련된 상기 원본 신호(212, y)의 채널 레벨 및 상관 정보(220)를 인코딩하지 않고, 상기 과도 현상이 발생한 슬롯 및/또는 상기 프레임의 후속 슬롯과 관련된 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220)를 인코딩하도록 구성되는, 인코더.
  74. 제 72 항 또는 제 73 항에 있어서, 상기 부가 정보(228)에서, 상기 프레임의 한 슬롯에서 발생하는 상기 과도 현상의 발생을 신호보내도록(261) 구성되는, 인코더.
  75. 제 74 항에 있어서, 상기 부가 정보(228)에서, 상기 프레임의 어느 슬롯에서 과도 현상이 발생했는지를 시그널링(261) 구성되는, 인코더.
  76. 제 72 항 내지 제 74 항 중 어느 한 항에 있어서, 상기 프레임의 다중 슬롯과 연관된 상기 원본 신호(212, y)의 채널 레벨 및 상관 정보(220)를 추정하고, 이들을 합산하거나 평균화하거나 선형적으로 결합하여 상기 프레임과 관련된 채널 레벨 및 상관 정보(220)를 획득하도록 구성되는, 인코더.
  77. 제 49 항 내지 제 76 항 중 어느 한 항에 있어서, 상기 원본 신호(212, y)는 주파수 영역 신호(264, 266)로 변환(263)되고, 상기 오디오 인코더는 상기 부가 정보(228)에서 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220)를 대역별 방식으로 인코딩하도록 구성되는, 인코더.
  78. 제 77 항에 있어서, 상기 부가 정보(228)에서 상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220)를 통합 대역별로 인코딩하기 위해서, 상기 원본 신호(212, y)의 대역 수를 더 감소된 대역 수(266)로 집계(265)하도록 구성되는, 인코더.
  79. 제 77 항 또는 제 78 항에 있어서, 상기 프레임에서 과도 현상을 감지한 경우:
    상기 대역(266)의 수가 감소되고; 및/또는
    적어도 하나의 대역의 너비는 다른 대역과의 집계에 의해 증가되도록
    상기 대역을 더욱 집계(265)하도록 구성되는, 인코더.
  80. 제 77 항 내지 제 79 항 중 어느 한 항에 있어서, 상기 비트스트림(248)에서, 이전에 인코딩된 채널 레벨 및 상관 정보에 대한 증분으로서 한 대역의 적어도 하나의 채널 레벨 및 상관 정보(220)를 인코딩하도록(226) 더욱 구성되는, 인코더.
  81. 제 49 항 내지 제 80 항 중 어느 한 항에 있어서, 상기 비트스트림(248)의 상기 부가 정보(228)에서, 상기 추정기(218)에 의해 추정된 상기 채널 레벨 및 상관 정보(220)에 대한 상기 채널 레벨 및 상관 정보(220)의 불완전한 버전을 인코딩하도록 구성되는, 인코더.
  82. 제 81 항에 있어서, 상기 추정기(218)에 의해 추정된 전체 채널 레벨 및 상관 정보(220) 중에서, 상기 비트스트림(248)의 상기 부가 정보(228)에서 인코딩될 선택된 정보를 적응적으로 선택하여, 상기 추정기(218)에 의해 추정된 나머지 선택되지 않은 정보 채널 레벨 및/또는 상관 정보(220)는 인코딩되지 않도록 구성되는, 인코더.
  83. 제 81 항에 있어서, 상기 선택된 채널 레벨 및 상관 정보(220)로부터 채널 레벨 및 상관 정보(220)를 재구성하여, 이에 의해 상기 디코더(300)에서 선택되지 않은 채널 레벨 및 상관 정보(220)의 추정을 시뮬레이션하고,
    상기 인코더에 의해 추정된 상기 선택되지 않은 채널 레벨 및 상관 정보(220); 및
    상기 디코더(300)에서 인코딩되지 않은 채널 레벨 및 상관 정보(220)의 추정을 시뮬레이션함으로써 재구성된 상기 선택되지 않은 채널 레벨 및 상관 정보
    간의 오류 정보를 계산하고,
    상기 계산된 오류 정보를 기반으로,
    적절하게 재구성 가능한 채널 레벨 및 상관 정보와;
    비적절하게 재구성 가능한 채널 레벨 및 상관 정보
    구별하고,
    상기 비트스트림(248)의 상기 부가 정보(228)에 인코딩될 상기 비적절하게 재구성 가능한 채널 레벨 및 상관 정보의 선택; 및
    상기 적절하게 재구성 가능한 채널 레벨 및 상관 정보의 비선택
    에 대해 결정하여, 상기 비트스트림(248)의 상기 부가 정보(228)에서 상기 적절하게 재구성 가능한 채널 레벨 및 상관 정보의 인코딩을 억제하도록 구성되는, 인코더.
  84. 제 82 항 또는 제 83 항에 있어서, 상기 채널 레벨 및 상관 정보(220)는 미리 결정된 순서에 따라 인덱싱되고, 상기 인코더는 상기 비트스트림(248)의 상기 부가 정보(228)에서 상기 미리 결정된 순서와 관련된 인덱스를 시그널링하도록 구성되며, 상기 인덱스는 상기 채널 레벨 및 상관 정보(220) 중 어느 것이 인코딩되는지를 나타내는, 인코더.
  85. 제 84 항에 있어서, 상기 인덱스는 비트맵을 통해 제공되는, 인코더.
  86. 제 84 항 또는 제 85 항에 있어서, 상기 인덱스는 1차원 인덱스를 행렬의 항목과 연관시키는 결합 숫자 체계에 따라 정의되는, 인코더.
  87. 제 84 항 내지 제 86 항 중 어느 한 항에 있어서,
    상기 미리 결정된 순서와 관련된 인덱스가 상기 비트스트림의 상기 부가 정보에서 인코딩되는, 상기 채널 레벨 및 상관 정보(220)의 적응적 제공; 및
    인코딩된 상기 채널 레벨 및 상관 정보(220)가 인덱스의 제공 없이, 미리 결정되고 미리 결정된 고정된 순서에 따라 정렬되도록 하는 상기 채널 레벨 및 상관 정보(220)의 고정적 제공
    사이에서 선택을 수행하도록 구성되는, 인코더.
  88. 제 87 항에 있어서, 상기 비트스트림(248)의 상기 부가 정보(228)에서, 채널 레벨 및 상관 정보(220)가 적응 제공 또는 고정 제공에 따라 제공되는지를 시그널링하도록 구성되는, 인코더.
  89. 제 49 항 내지 제 88 항 중 어느 한 항에 있어서, 상기 비트스트림(248)에서, 현재 채널 레벨 및 상관 정보(220t)를 이전 채널 레벨 및 상관 정보(220(t-1))에 대한 증분(220k)으로서 인코딩(226)하도록 더욱 구성되는, 인코더.
  90. 제 49 항 내지 제 89 항 중 어느 한 항에 있어서, 정적 다운 믹싱(244)에 따라 상기 다운믹스 신호(246)를 생성하도록 더욱 구성되는, 인코더.
  91. 제 49 항 내지 제 90 항 중 어느 한 항에 있어서, 상기 오디오 인코더는 상기 오디오 합성기와 무관한, 인코더.
  92. 제 1 항 내지 제 48 항 중 어느 한 항에 따른 상기 오디오 합성기 및 제 49 항 내지 제 90 항 중 어느 한 항에 따른 오디오 인코더를 포함하는, 시스템.
  93. 제 92 항에 있어서, 상기 오디오 인코더는 상기 오디오 합성기와 무관한, 시스템.
  94. 제 92 항 또는 제 93 항에 있어서, 상기 오디오 합성기는 상기 인코더와 무관한, 시스템.
  95. 다운믹스 신호로부터 합성 신호를 생성하는 방법에 있어서, 상기 합성 신호는 다수의 합성 채널을 가지고, 상기 방법은:
    다운믹스 신호(246, x)를 수신하는 단계, - 상기 다운믹스 신호(246, x)는 다수의 다운믹스 채널 및 부가 정보(228)를 가지고, 상기 부가 정보(228)는 원본 신호(212, y)의 채널 레벨 및 상관 정보(220)를 가지고, 상기 원본 신호(212, y)는 다수의 원본 채널을 가짐 - ; 및
    상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보(220) 및 상기 신호(246, x)와 관련된 공분산 정보(Cx)를 사용하여 상기 합성 신호를 생성하는 단계
    를 포함하는, 방법.
  96. 제 95 항에 있어서, 상기 다운믹스 신호(246, x)로부터 프로토타입 신호를 계산하는 단계 - 상기 프로토타입 신호는 다수의 합성 채널을 가짐 - ;
    상기 원본 신호(212, y)의 상기 채널 레벨 및 상관 정보 및 상기 다운믹스 신호(246, x)와 관련된 공분산 정보를 이용하여 믹싱 규칙을 계산하는 단계; 및
    상기 프로토타입 신호와 상기 믹싱 규칙을 사용하여 상기 합성 신호를 생성하는 단계
    를 더 포함하는, 방법.
  97. 원본 신호(212, y)로부터 다운믹스 신호(246, x)를 생성하는 방법에 있어서, 상기 원본 신호(212, y)는 다수의 원래 채널을 가지고, 상기 다운믹스 신호(246, x)는 다수의 다운믹스 채널을 가지고, 상기 방법은:
    상기 원본 신호(212, y)의 채널 레벨 및 상관 정보(220)를 추정(218)하는 단계; 및
    상기 다운믹스 신호(246, x)가 상기 원본 신호(12, y)의 채널 레벨 및 상관 정보(220)를 포함하는 부가 정보(228)를 갖도록 상기 비트스트림(248)에서 인코딩되도록 상기 다운믹스 신호(246, x)를 비트스트림(248)으로 인코딩(226)하는 단계
    를 포함하는, 방법.
  98. 다수의 다운믹스 채널을 갖는 다운믹스 신호(324, x)로부터 합성 신호(336)를 생성하는 방법에 있어서, 상기 합성 신호(336)는 다수의 합성 채널을 갖고, 상기 다운믹스 신호(324, x)는 다수의 원본 채널을 갖는 원본 신호(212)의 다운믹스된 버전이고, 상기 방법은:
    상기 합성 신호(212)와 관련된 공분산 행렬(CyR); 및
    상기 다운믹스 신호(324)와 관련된 공분산 행렬(Cx)
    로부터 계산된 제1 혼합 행렬(MM)에 따라 상기 합성 신호의 제1 성분(336M')을 합성하는 단계
    를 포함하는 제 1 페이즈(610c'): 및
    상기 합성 신호의 제2 성분(336R')을 합성하기 위한 제 2 페이즈(610c)
    를 포함하고, 상기 제 2 성분(336R')은 잔여 성분이고, 상기 제 2 페이즈(610c)는:
    상기 다운믹스 채널 수에서 상기 합성 채널 수로 상기 다운믹스 신호(324)를 업 믹싱하는 프로토타입 신호 단계(612c);
    상기 업믹스된 프로토타입 신호(613c)를 역상관하는 역상관기 단계(614c);
    상기 다운믹스 신호(324)의 상기 역상관된 버전(615c)으로부터 제2 혼합 행렬(MR)에 따라 상기 합성 신호의 상기 제2 성분(336R')을 합성하는 제2 혼합 행렬 단계(618c)
    를 포함하고, 상기 제 2 혼합 행렬(MR)은 잔차 혼합 행렬이고,
    상기 방법은 상기 제 2 혼합 행렬(MR)을:
    상기 제1 혼합 행렬 단계(600c)에 의해 제공된 상기 잔차 공분산 행렬(Cr); 및
    상기 다운믹스 신호(324)와 연관된 상기 공분산 행렬(Cx)로부터 획득된 상기 역상관된 프로토타입 신호(
    Figure pat00131
    )의 상기 공분산 행렬의 추정값
    으로부터 계산하고,
    상기 방법은 상기 합성 신호의 상기 제 1 성분(336M')을 상기 합성 신호의 상기 제 2 성분(336R')과 합산하여, 상기 합성 신호를 획득(336)하는 가산기 단계(620c)를 더 포함하는, 방법.
  99. 프로세서에 의해 실행될 때, 프로세서로 하여금 제95항 내지 제98항 중 어느 한 항에 따른 방법을 수행하도록 하는 명령어를 저장하는 비일시적 저장 장치.
KR1020227003875A 2019-06-14 2020-06-15 매개변수 인코딩 및 디코딩 KR20220025108A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP19180385.7 2019-06-14
EP19180385 2019-06-14
PCT/EP2020/066456 WO2020249815A2 (en) 2019-06-14 2020-06-15 Parameter encoding and decoding
KR1020227001443A KR20220024593A (ko) 2019-06-14 2020-06-15 매개변수 인코딩 및 디코딩

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020227001443A Division KR20220024593A (ko) 2019-06-14 2020-06-15 매개변수 인코딩 및 디코딩

Publications (1)

Publication Number Publication Date
KR20220025108A true KR20220025108A (ko) 2022-03-03

Family

ID=66912589

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020227003867A KR20220025107A (ko) 2019-06-14 2020-06-15 매개변수 인코딩 및 디코딩
KR1020227003875A KR20220025108A (ko) 2019-06-14 2020-06-15 매개변수 인코딩 및 디코딩
KR1020227001443A KR20220024593A (ko) 2019-06-14 2020-06-15 매개변수 인코딩 및 디코딩

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020227003867A KR20220025107A (ko) 2019-06-14 2020-06-15 매개변수 인코딩 및 디코딩

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020227001443A KR20220024593A (ko) 2019-06-14 2020-06-15 매개변수 인코딩 및 디코딩

Country Status (12)

Country Link
US (3) US11990142B2 (ko)
EP (2) EP4398243A2 (ko)
JP (2) JP7471326B2 (ko)
KR (3) KR20220025107A (ko)
CN (1) CN114270437A (ko)
AU (3) AU2020291190B2 (ko)
BR (1) BR112021025265A2 (ko)
CA (2) CA3193359A1 (ko)
MX (1) MX2021015314A (ko)
TW (1) TWI792006B (ko)
WO (1) WO2020249815A2 (ko)
ZA (1) ZA202110293B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202316416A (zh) 2020-10-13 2023-04-16 弗勞恩霍夫爾協會 在降混過程中使用方向資訊對多個音頻對象進行編碼的設備和方法、或使用優化共變異數合成進行解碼的設備和方法
AU2021359779A1 (en) 2020-10-13 2023-06-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects
GB2624869A (en) * 2022-11-29 2024-06-05 Nokia Technologies Oy Parametric spatial audio encoding
GB202218103D0 (en) * 2022-12-01 2023-01-18 Nokia Technologies Oy Binaural audio rendering of spatial audio

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006003891A1 (ja) 2004-07-02 2006-01-12 Matsushita Electric Industrial Co., Ltd. 音声信号復号化装置及び音声信号符号化装置
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
JP5108768B2 (ja) 2005-08-30 2012-12-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
RU2407226C2 (ru) 2006-03-24 2010-12-20 Долби Свидн Аб Генерация пространственных сигналов понижающего микширования из параметрических представлений мультиканальных сигналов
JP4875142B2 (ja) * 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
MY145497A (en) * 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008060111A1 (en) 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
WO2009049895A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
CN102037507B (zh) * 2008-05-23 2013-02-06 皇家飞利浦电子股份有限公司 参数立体声上混合设备、参数立体声译码器、参数立体声下混合设备、参数立体声编码器
WO2012122397A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
MX361115B (es) * 2013-07-22 2018-11-28 Fraunhofer Ges Forschung Descodificador de audio multicanal, codificador de audio multicanal, métodos, programa de computadora y representación de audio codificada usando una decorrelación de señales de audio renderizadas.
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
KR101805327B1 (ko) * 2013-10-21 2017-12-05 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback

Also Published As

Publication number Publication date
WO2020249815A3 (en) 2021-02-04
KR20220024593A (ko) 2022-03-03
US20220108707A1 (en) 2022-04-07
AU2020291190A1 (en) 2022-01-20
TW202322102A (zh) 2023-06-01
KR20220025107A (ko) 2022-03-03
AU2021286307B2 (en) 2023-06-15
EP4398243A2 (en) 2024-07-10
CA3143408A1 (en) 2020-12-17
BR112021025265A2 (pt) 2022-03-15
US20220122621A1 (en) 2022-04-21
EP3984028B1 (en) 2024-04-17
AU2020291190B2 (en) 2023-10-12
CN114270437A (zh) 2022-04-01
JP2022537026A (ja) 2022-08-23
WO2020249815A2 (en) 2020-12-17
ZA202110293B (en) 2022-08-31
EP3984028C0 (en) 2024-04-17
CA3193359A1 (en) 2020-12-17
US11990142B2 (en) 2024-05-21
TWI792006B (zh) 2023-02-11
MX2021015314A (es) 2022-02-03
AU2021286307A1 (en) 2022-01-20
EP3984028A2 (en) 2022-04-20
US20220122617A1 (en) 2022-04-21
AU2021286309A1 (en) 2022-01-20
AU2021286309B2 (en) 2023-05-04
JP2024029071A (ja) 2024-03-05
TW202105365A (zh) 2021-02-01
JP7471326B2 (ja) 2024-04-19

Similar Documents

Publication Publication Date Title
US20220358939A1 (en) Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
US20220167102A1 (en) Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
US10431227B2 (en) Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
JP7471326B2 (ja) パラメータの符号化および復号
RU2806701C2 (ru) Кодирование и декодирование параметров
RU2803451C2 (ru) Кодирование и декодирование параметров
TWI843389B (zh) 音訊編碼器、降混訊號產生方法及非暫時性儲存單元
WO2023172865A1 (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination