KR20130008061A - 오디오 또는 비디오 인코더, 오디오 또는 비디오 디코더 그리고 가변적인 예상 방향을 이용하여 멀티-채널 오디오 또는 비디오 신호들을 프로세싱하기 위한 관련 방법들 - Google Patents

오디오 또는 비디오 인코더, 오디오 또는 비디오 디코더 그리고 가변적인 예상 방향을 이용하여 멀티-채널 오디오 또는 비디오 신호들을 프로세싱하기 위한 관련 방법들 Download PDF

Info

Publication number
KR20130008061A
KR20130008061A KR1020127029556A KR20127029556A KR20130008061A KR 20130008061 A KR20130008061 A KR 20130008061A KR 1020127029556 A KR1020127029556 A KR 1020127029556A KR 20127029556 A KR20127029556 A KR 20127029556A KR 20130008061 A KR20130008061 A KR 20130008061A
Authority
KR
South Korea
Prior art keywords
signal
prediction
audio
combined
decoded
Prior art date
Application number
KR1020127029556A
Other languages
English (en)
Other versions
KR101430118B9 (ko
KR101430118B1 (ko
Inventor
율리엔 로빌리아드
마티아스 네우싱어
크리스티안 헬름리치
요하네스 힐퍼트
니콜라우스 레텔바흐
사샤 디쉬
베른트 에들러
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20130008061A publication Critical patent/KR20130008061A/ko
Application granted granted Critical
Publication of KR101430118B1 publication Critical patent/KR101430118B1/ko
Publication of KR101430118B9 publication Critical patent/KR101430118B9/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/156Availability of hardware or computational resources, e.g. encoding based on power-saving criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 또는 비디오 인코더 그리고 오디오 또는 비디오 디코더는 중간신호로부터 유도되는 예측된 측면 신호를 이용하여 유도될 수 있는 중간신호 및 잔류 신호(205)에 따라 제1결합 신호를 얻기 위해 두 오디오 또는 비디오 채널(201, 202)들의 결합에 기반한다. 제1결합 신호 그리고 예측 잔류 신호는 최적화 타겟(208)과 잔류 신호와 관련된 예측 방향을 표시하는 예측 방향 표시기에 기반한 옵티마이저(207)에 의해 유도되는 예측 정보(206)과 함께 데이타 스트림(213)에 인코딩(209)되고 쓰여진다.(212) 디코더는 예측 잔류 신호, 제1결합 신호, 예측 방향 표시기 그리고 예측정보를 디코딩된 제1 채널 신호 그리고 디코딩된 제2채널 신호를 유도하기 위해 이용한다. 인코더 예 또는 디코더 예에서, 실수-to-허수 변형은 제1결합 신호의 스펙트럼의 허수 부분을 측정하기 위해 적용될 수 있다. 예측 잔류 신호의 유도에서 이용되는 예측 신호를 계산하기 위해, 실수치 제1결합 신호는 복소 예측 정보에 의해 곱해지고 실수치 제1결합 신호는 복소 예측 정보의 허수 부분에 의해 곱해진다.

Description

오디오 또는 비디오 인코더, 오디오 또는 비디오 디코더 그리고 가변적인 예상 방향을 이용하여 멀티-채널 오디오 또는 비디오 신호들을 프로세싱하기 위한 관련 방법들{AUDIO OR VIDEO ENCODER, AUDIO OR VIDEO DECODER AND RELATED METHODS FOR PROCESSING MULTI-CHANNEL AUDIO OR VIDEO SIGNALS USING A VARIABLE PREDICTION DIRECTION}
본 발명은 오디오 또는 비디오 프로세싱에 관련되어 있고, 둘 또는 그 이상의 채널 신호들을 갖는 멀티채널 신호의 멀티채널 오디오 또는 비디오 프로세싱에 관한 것이다.
이는 멀티 채널이나 소위 중간/측면 스테레오 코딩을 적용하는 스테레오 처리 분야에서 알려져 있다. 이 개념에서 왼쪽 또는 제1 오디오 채널 신호와 오른쪽 또는 제2 오디오 채널 신호의 결합(조합, combination)은 또한 왼쪽 제1 채널 신호와 오른쪽 또는 두 번째 채널 사이의 차이를 중간 또는 모노 신호 M를 얻기 위해 형성되는 것이다. 추가적으로, 왼쪽 제1 채널 신호와 오른쪽 또는 두 번째 채널 신호 사이의 차이는 측면 신호 S 를 얻기 위해 형성된다. 이 중간/측면 코딩 방법은 중요한 코딩 이득을 야기하고, 이는 신호가 매우 작게 되기 때문에, 왼쪽 신호와 오른쪽 신호가 서로 매우 비슷한 때에 일어난다. 일반적으로, 양자화 / 엔트로피 인코더 단계의 코딩 이득은, 양자화 / 엔트로피 인코딩 값의 범위가 작아질 때, 높아진다. 따라서, PCM 또는 허프만 기반 또는 산술 엔트로피 - 인코더에 대해, 측면 신호가 작아질 때, 코딩 이득(게인, gain)은 증가한다. 중간/측면(미드/사이드, mid/side) 코딩은 코딩 이득이 발생할 수 없는 특정 상황이 존재한다. 이런 상황은 두 채널의 신호가 90 °에 의해, 예를 들어, 서로 위상-시프트 되었을 때 발생할 수 있다. 그런 다음 중간 신호와 측면 신호는 매우 유사한 범위에서 사용할 수 있으며, 따라서, 중간 신호와 엔트로피 인코더를 사용하여 측면 신호의 코딩 이득이 될 수 없으며, 증가 비트 레이트가 발생 할 수도 있다. 따라서, 주파수 선택 중간 / 측면 코딩은 측면 신호가 예를 들어, 원래 왼쪽 신호에 대해 어느 정도에 작아지지 않을 때 코딩 중간 / 측면을 묶어서 비활성화하기 위해 적용할 수 있다.
그러나, 개발중인 MPEG USAC 시스템에서, SBR은 일반적으로 사용하지 않는 높은 비트 레이트에서 코딩하는 모드도 존재한다. 그것은 개선된 오디오 또는 비디오 프로세싱 개념을 제공하는 본 발명의 목적이며, 한편으로는 높은 코딩 이득을 내며, 다른 면에서는, 좋은 오디오 또는 비디오 품질 및/또는 계산적인 복잡성의 감소를 도출한다.
제1항에 따른 오디오 또는 비디오 디코더, 13항에 따른 오디오 또는 비디오 인코더, 19항에 따른 오디오 또는 비디오 디코딩의 방법, 18항에 따른 오디오 또는 비디오 인코딩 방법, 19항에 따른 컴퓨터 프로그램, 20항에 따른 인코딩된 멀티채널 오디오 또는 비디오 신호에 의해 달성된다.
본 발명은 높은 품질의 파형 코딩 접근 방식의 코딩 이득이 크게 첫 번째 결합 신호를 사용하여 두 번째 결합 신호의 예측에 의해 향상 될 수 있다는 연구 결과에 의존하며, 여기서 두 결합 신호는 중간 / 측면 결합 규칙과 같은 결합 규칙을 사용하여 원래의 신호에서 유도된다. 최적화 타겟이 성취되도록 이 예측 정보가 오디오 또는 비디오 인코더의 예측기에 의해 계산되는 것으로 확인되었지만, 작은 오버헤드(overhead)가 일어나며, 어떠한 오디오 또는 비디오 품질의 손실 없이 측면 신호에 요구되는 비트레이트의 상당한 감소가 일어나고, 이는 발명의 예측이 파형 기반 코딩임에도 불구하고 파라미터 기반 스테레오 또는 멀티채널 코딩 접근이 아니기 때문이다. 계산적인 복잡성을 감소시키기 위해, 주파수 영역 인코딩을 수행하는 것이 선호되며, 예측 정보는 대역-선택적 방법에서 주파수 영역 입력 데이타에 의해 유도(파생)된다. 시간 영역 표현을 스펙트럴 표현으로 변환하기 위한 변환 알고리즘은 결정적으로 샘플링된 프로세스이고 이는 변형된 별개의 코사인 변형(MDCT) 또는 변형된 별개의 사인 변형(MDST)와 같고, 이는 오직 실수 값들 또는 오직 허수 값들이 계산되는 복합 변환과는 다르고, 복합 변환에서, 계산되는 스펙트럼의 실수 그리고 복소수값은 오버샘플링의 두배를 도출한다.
또한, 예측의 방향을 스위칭(switching)하는 개념은 최소한의 계산적인 노력으로 예측 이득의 증가를 달성한다. 이를 위해 인코더는 예측 잔류 신호와 관련된 예측 방향을 나타내는 예측 방향 표시기를 결정한다. 일 실시 예에서, 중간 신호같은 최초의 조합 신호는 측면 신호같은 두 번째 조합 신호를 예측하는 데 사용된다. 중간 신호의 에너지 측면 신호의 에너지보다 높은 경우 이 방법은 유용하다. 그러나, 이러한 측면 신호같은 두 번째 조합(결합) 신호의 에너지가 첫 번째 조합(결합) 신호의 에너지보다 높은 경우, 즉, 측면 신호의 에너지 중반 신호의 에너지보다 높은 경우, 그러면 예측 방향은 반대로 되고 측면 신호는 중간 신호를 예측하는 데 사용된다. 첫 번째 경우에, 즉, 중간 신호가 측면 신호를 예측하는데 사용될 때, 중간 신호, 잔류 신호, 예측 정보 그리고 예측 방향을 표시하는 예측 방향 표시기가 인코더로부터 디코더로 전송된다. 두 번째 경우에, 두 번째 결합 신호는 첫 번째 조합 신호를 예측하는 데 사용되고, 측면 신호가 중간 신호를 예측하기 위해 사용될 때와 같이, 측면 신호는 (오히려 중반 신호 이상) 잔류 신호와 함께 전송되고 예측 정보와 예측 방향 표시기는 반대 방향을 나타낸다.
이 절차는 결과 양자화 노이즈를 보다 효율적으로 마스킹(masking) 할 수 있다. 이러한 측면 신호같은 제2 결합 신호의 에너지의 대부분을 갖는 신호들에 대해, 측면 신호 S로부터 중간 신호 같은 신호의 제1 결합을 예측하는 것은 양자화 노이즈의 주요한 부분의 패닝(panning)을 원래 사운드 소스에 따라 허용한다. 이는 최종 출력 신호에서 지각적으로 더 적절한 에러 분배를 야기한다.
이 절차는 효율적인 멀티채널 페어-방향(pair-wise) 코딩을 제공하는 추가적인 이점이 있고, 단지 두개의 채널의 경우, 이는 효율적인 스테레오 코딩이다. 예측 방향의 중간/측면(M/S) 코딩에 대한 신호 적응 선택은 측면 신호에서 주요한 에너지의 신호들에 대한 더 높은 예측 이득(게인)을 보장하고, 이는 계산적인 복잡성의 최소 증가에서이다. 추가적으로, 지각적으로 더 잘 적응된 결과가 양자화 노이즈의 양자화 노이즈의 주 신호 방향에 대한 지각적 공간 방향의 패닝 때문에 얻어진다. 게다가, 비트스트림에서 전송되기 위한 예측 계수에 대한 값의 범위는 감소되고, 이는 예측 정보/계수들의 더 효율적인 코딩을 가능하게 한다. 이 절차는 듀얼 또는 멀티채널 오디오 그리고 비디오 신호들의 조인트 변형 코딩 같은 스테레오 프로세싱 어플리케이션들의 모든 종류에 유용하다.
도1은 오디오 또는 비디오 디코더의 바람직한 실시예의 블록 다이어그램.
도2는 오디오 또는 비디오 인코더의 바람직한 실시예의 블록 다이어그램.
도3a는 도2의 인코더 계산기의 실행을 나타내는 도면.
도3b는 도2의 인코더 계산기의 대안적 실행을 나타내는 도면.
도3c는 인코더 측면에 적용되는 중간/측면(사이드) 결합(조합) 규칙을 나타내는 도면.
도4a는 도1의 디코더 계산기의 실행을 나타내는 도면.
도4b는 매트릭스 계산기의 유형에서 디코더 계산기의 대안적 실행을 나타내는 도면.
도4c는 도3c에서 나타난 결합 규칙에 대응하는 중간/측면(사이드) 역 결합(조합) 규칙을 나타내는 도면.
도5a는 바람직하게는 실수치(real-valued) 주파수 영역인 주파수 영역에서 작동하는 오디오 또는 비디오 인코더의 실시예.
도5b는 주파수 영역에서 작동하는 오디오 또는 비디오 디코더의 실시예.
도6a는 실수-허수 변형을 이용하고 MDCT 영역에서 작동하는 오디오 또는 비디오 인코더의 대안적 실시예.
도6b는 실수-허수 변형을 이용하고 MDCT 영역에서 작동하는 오디오 또는 비디오 디코더를 나타내는 도면.
도7a는 SBR 디코더에 순차적으로 연결된 스테레오 디코더를 이용하는 오디오 포스트프로세서를 나타내는 도면.
도7b는 중간/측면 업믹스(upmix) 매트릭스를 나타내는 도면.
도8a는 도6a의 MDCT 블록에서 자세한 시야를 나타내는 도면.
도8b는 도6b의 MDCT-1 블록에서 자세한 시야를 나타내는 도면.
도9a는 MDCT 출력의 관점에 있어 감소된 해상도에서 작동하는 옵티마이저의 실행을 나타내는 도면.
도9b는 예측 정보가 계산되는 대응하는 더 낮은 해상도 대역들과 MDCT 스펙트럼의 표현을 나타내는 도면.
도10a는 도6a 또는 도6b의 실수-to-허수 변형기의 실시예를 나타내는 도면.
도10b는 도10a의 허수 스펙트럼 계산기의 가능한 실시를 나타내는 도면.
도11a는 역 예측 방향을 갖는 오디오 인코더의 바람직한 실시예를 나타내는 도면.
도11b는 역 예측 방향들에 의해 발생되는 잔류 신호들을 처리하기 위한 능력을 갖는 관련된 오디오 또는 비디오 디코더의 바람직한 실시예를 나타내는 도면.
도12a는 역 예측 방향을 갖는 오디오 또는 비디오 인코더의 더 바람직한 실시예를 나타내는 도면.
도12b는 예측 방향 표시기에 의해 컨트롤되는 오디오 또는 비디오 디코더의 추가 실시예를 나타내는 도면.
도13a는 예측 방향 플래그(flag)를 나타내는 도면.
도13b는 예측 방향 표시기에 기반하는 다른 인코더-측면 예측 규칙들의 실시를 나타내는 도면.
도13c는 제1 상태를 갖는 예측 방향 표시기에 대한 디코더-측면 계산 규칙들을 나타내는 도면.
도13d는 제2 상태를 갖는 다른 예측 방향 표시기에 대한 디코더-측면 계산 규칙을 나타내는 도면.
도13e는 오디오 또는 비디오 인코더 도는 오디오 또는 비디오 디코더의 실시예에 적용되는 복소값 곱셈들(complex-valued multiplications)을 나타내는 도면.
도14는 예측 방향 표시기를 결정하는 실시예를 나타내는 도면.
본 발명은 오디오 또는 비디오 프로세싱에 관련되어 있고, 둘 또는 그 이상의 채널 신호들을 갖는 멀티채널 신호의 멀티채널 오디오 또는 비디오 프로세싱에 관한 것이다.
이는 멀티 채널이나 소위 중간/측면 스테레오 코딩을 적용하는 스테레오 처리 분야에서 알려져 있다. 이 개념에서 왼쪽 또는 제1 오디오 채널 신호와 오른쪽 또는 제2 오디오 채널 신호의 결합(조합, combination)은 또한 왼쪽 제1 채널 신호와 오른쪽 또는 두 번째 채널 사이의 차이를 중간 또는 모노 신호 M를 얻기 위해 형성되는 것이다. 추가적으로, 왼쪽 제1 채널 신호와 오른쪽 또는 두 번째 채널 신호 사이의 차이는 측면 신호 S 를 얻기 위해 형성된다. 이 중간/측면 코딩 방법은 중요한 코딩 이득을 야기하고, 이는 신호가 매우 작게 되기 때문에, 왼쪽 신호와 오른쪽 신호가 서로 매우 비슷한 때에 일어난다. 일반적으로, 양자화 / 엔트로피 인코더 단계의 코딩 이득은, 양자화 / 엔트로피 인코딩 값의 범위가 작아질 때, 높아진다. 따라서, PCM 또는 허프만 기반 또는 산술 엔트로피 - 인코더에 대해, 측면 신호가 작아질 때, 코딩 이득(게인, gain)은 증가한다. 중간/측면(미드/사이드, mid/side) 코딩은 코딩 이득이 발생할 수 없는 특정 상황이 존재한다. 이런 상황은 두 채널의 신호가 90 °에 의해, 예를 들어, 서로 위상-시프트 되었을 때 발생할 수 있다. 그런 다음 중간 신호와 측면 신호는 매우 유사한 범위에서 사용할 수 있으며, 따라서, 중간 신호와 엔트로피 인코더를 사용하여 측면 신호의 코딩 이득이 될 수 없으며, 증가 비트 레이트가 발생 할 수도 있다. 따라서, 주파수 선택 중간 / 측면 코딩은 측면 신호가 예를 들어, 원래 왼쪽 신호에 대해 어느 정도에 작아지지 않을 때 코딩 중간 / 측면을 묶어서 비활성화하기 위해 적용할 수 있다.
비록 측면 신호는 0이 되겠지만, 왼쪽 또는 오른쪽 신호가 동일할 때, 측면 신호의 제거로 인해 최대 코딩 이득의 결과를 낳을 수 있지만, 이런 상황은 중간 신호와 측면 신호가 파형의 형태 관점에서 동일할 때 달라지는데, 다만 양 신호의 차이는 그들의 전체적인 진폭이다. 이 경우는, 측면 신호는 중간 신호에 더 위상 변화가 없다고 추가로 가정할 때, 측면 신호가 크게 증가하고, 반면에, 중간 신호는 그 값 범위에 대해 많이 감소하지 않는다. 이러한 상황이 특정 주파수 대역에서 발생하면 다음 사람은 코딩 이득의 부족으로 중간/측면 코딩을 비활성화할 것이다. 중간 / 측면 코딩은 주파수 선택적으로 또는 대안적으로 시간 영역에서 적용될 수 있다.
중간 / 측면 코딩과 같은 파형 접근 방식의 종류에 의존하지 않는 코딩 대체 멀티 채널 코딩 기술이 존재하는데, 특정 바이노럴 신호(binaural cues)에 기반한 파라미터 처리에 의존하고 있다. 이러한 기술은 "바이노럴 신호 코딩", "파라메트릭 스테레오 코딩"또는 "MPEG 써라운드 코딩" 이라고 알려져 있다. 여기서, 특정 신호는 다수 주파수 대역을 위해 계산된다. 이 신호는 채널 수준간 차이, 채널 간섭간 측정, 채널간 시간 차이 및/또는 채널간 위상 차이를 포함한다. 이러한 접근 방식은 듣는 사람으로 하여금 느껴지는 멀티 채널 인상(impression)이 반드시 두 채널의 상세 파형에 의존하지 않는 가정에서 시작하지만, 정확한 주파수 선택적으로 제공되는 신호 또는 채널간 정보에 의존한다. 이것은 렌더링 시스템에서 정확하게 신호를 반영하는 렌더(render) 멀티 채널 신호에 주의(care)가 주어져야 한다는 것을 의미하지만, 파형이 결정적으로 중요하지는 않다.
디코더는 인위적으로 모든 채널이 하나 같은 다운믹스 채널에서 파생되어 있지만, 서로 디코릴레이트(decorrelated)된 스테레오 신호를 인공적으로 생성하기 위해 디코릴레이션(decorrelation) 처리를 적용하는 경우에 특히 복잡 할 수 있다.
디코릴레이터들(Decorrelators)의 이러한 목적은, 그 실행에 따라, 복잡하고 아티팩트(artifact)들을 특히 과도 신호 부분의 경우 도입할 수 있다. 또한, 파형 코딩과는 대조적으로, 파라미터 코딩 방식은 필연적으로, 일반적으로 양자화에 의해 도입뿐만 아니라, 오히려 특정 파형보다 바이노럴 신호에 초점을 맞춤으로써 결과적으로 정보의 손실을 이끌 수 있는 코딩 방법이다. 이 접근법은 매우 낮은 비트 레이트를 야기하지만 품질 타협을 포함할 수 있다.
도 7a에 도시된, 통합 음성 및 오디오 코딩 (USAC)에 대한 최근의 개발이 존재한다. 핵심 디코더(700)는 중간/측면 인코딩 되어 있을 수 있는, 입력(701)에서 인코딩된 스트레오 신호의 디코딩 작업을 수행한다. 코어 디코더는 라인(702)의 중간 신호와 라인(703)의 측면 또는 잔류(잔여, residual) 신호를 출력한다. 두 신호는 QMF 필터 뱅크(704과 705)에 의해 QMF 도메인으로 변환된다. 그런 다음, MPEG 서라운드 디코더(706)는 왼쪽 채널 신호(707)과 오른쪽 채널 신호(708)를 생성하기 위해 적용된다. 이 낮은 대역 신호들은 이후 스펙트럼 밴드 복제 (SBR) 디코더(709)에 소개되는데, 이는 라인(710)과 (711)에 광-대역 왼쪽 및 오른쪽 신호를 생성하고, 다음 QMF 합성 필터 뱅크(712, 713)에 의해 시간 도메인으로 변환되며, 광-대역 왼쪽 오른쪽 신호 L,R 이 얻어진다.
도 7b는 MPEG 서라운드 디코더(706)이 중간/측면 디코딩을 수행 할 때 상황을 보여준다. 대안적으로, MPEG 서라운드 디코더 블록(706)은 단일 모노 코어 디코더 신호의 스테레오 신호를 생성하기 위한 파라미터 디코딩을 기반으로 하는 바이노럴 신호를 수행할 수 있다. 물론, MPEG 서라운드 디코더 706은 또한 채널간 수준의 차이, 채널간 간섭 조치 또는 채널간 정보 매개 변수 파라메트릭 정보같은 것들을 사용하여 SBR 디코더 블록 (709)로 입력할 다수의 저대역 출력 신호를 생성할 수 있다.
MPEG 서라운드 디코더 블록(706)이 중간/측면 디코딩을 수행하는 것이 도 7b에 나타나 있다. 실제-이득(real-gain) 인수 g가 적용될 수 있으며, DMX / RES 및 L / R은 각각 다운믹스 / 잔류 그리고 왼쪽 / 오른쪽 신호이며, 복합 하이브리드 QMF 도메인에서 표현된다.
신호의 복잡한 QMF 표현이 이미 SBR 디코더의 일환으로 사용할 수 있기 때문에, 블록(706)과 블록(709)의 결합을 사용하는 것은 기본으로 사용되는 스테레오 디코더에 비해 계산 복잡도에 작은 증가가 발생한다. 그러나, 비-SBR 구성(non-SBR configuration)에서, USAC의 맥락에서 제안된, QMF 기반의 스테레오 코딩 등은, 이 때문에 예를 들어 64 대역 분석 뱅크 및 64 대역 합성 뱅크에 요구되는 필요한 QMF 뱅크의 계산적인 복잡성이 크게 증가 될 것이다.
그러나, 개발중인 MPEG USAC 시스템에서, SBR은 일반적으로 사용하지 않는 높은 비트 레이트에서 코딩하는 모드도 존재한다. 그것은 개선된 오디오 또는 비디오 프로세싱 개념을 제공하는 본 발명의 목적이며, 한편으로는 높은 코딩 이득을 내며, 다른 면에서는, 좋은 오디오 또는 비디오 품질 및/또는 계산적인 복잡성의 감소를 도출한다.
이 목적에 따라 제1항에 따른 오디오 또는 비디오 디코더, 13항에 따른 오디오 또는 비디오 인코더, 19항에 따른 오디오 또는 비디오 디코딩의 방법, 18항에 따른 오디오 또는 비디오 인코딩 방법, 19항에 따른 컴퓨터 프로그램, 20항에 따른 인코딩된 멀티채널 오디오 또는 비디오 신호에 의해 달성된다.
본 발명은 높은 품질의 파형 코딩 접근 방식의 코딩 이득이 크게 첫 번째 결합 신호를 사용하여 두 번째 결합 신호의 예측에 의해 향상 될 수 있다는 연구 결과에 의존하며, 여기서 두 결합 신호는 중간 / 측면 결합 규칙과 같은 결합 규칙을 사용하여 원래의 신호에서 유도된다. 최적화 타겟이 성취되도록 이 예측 정보가 오디오 또는 비디오 인코더의 예측기에 의해 계산되는 것으로 확인되었지만, 작은 오버헤드(overhead)가 일어나며, 어떠한 오디오 또는 비디오 품질의 손실 없이 측면 신호에 요구되는 비트레이트의 상당한 감소가 일어나고, 이는 발명의 예측이 파형 기반 코딩임에도 불구하고 파라미터 기반 스테레오 또는 멀티채널 코딩 접근이 아니기 때문이다. 계산적인 복잡성을 감소시키기 위해, 주파수 영역 인코딩을 수행하는 것이 선호되며, 예측 정보는 대역-선택적 방법에서 주파수 영역 입력 데이타에 의해 유도(파생)된다. 시간 영역 표현을 스펙트럴 표현으로 변환하기 위한 변환 알고리즘은 결정적으로 샘플링된 프로세스이고 이는 변형된 별개의 코사인 변형(MDCT) 또는 변형된 별개의 사인 변형(MDST)와 같고, 이는 오직 실수 값들 또는 오직 허수 값들이 계산되는 복합 변환과는 다르고, 복합 변환에서, 계산되는 스펙트럼의 실수 그리고 복소수값은 오버샘플링의 두배를 도출한다.
또한, 예측의 방향을 스위칭(switching)하는 개념은 최소한의 계산적인 노력으로 예측 이득의 증가를 달성한다. 이를 위해 인코더는 예측 잔류 신호와 관련된 예측 방향을 나타내는 예측 방향 표시기를 결정한다. 일 실시 예에서, 중간 신호같은 최초의 조합 신호는 측면 신호같은 두 번째 조합 신호를 예측하는 데 사용된다. 중간 신호의 에너지 측면 신호의 에너지보다 높은 경우 이 방법은 유용하다. 그러나, 이러한 측면 신호같은 두 번째 조합(결합) 신호의 에너지가 첫 번째 조합(결합) 신호의 에너지보다 높은 경우, 즉, 측면 신호의 에너지 중반 신호의 에너지보다 높은 경우, 그러면 예측 방향은 반대로 되고 측면 신호는 중간 신호를 예측하는 데 사용된다. 첫 번째 경우에, 즉, 중간 신호가 측면 신호를 예측하는데 사용될 때, 중간 신호, 잔류 신호, 예측 정보 그리고 예측 방향을 표시하는 예측 방향 표시기가 인코더로부터 디코더로 전송된다. 두 번째 경우에, 두 번째 결합 신호는 첫 번째 조합 신호를 예측하는 데 사용되고, 측면 신호가 중간 신호를 예측하기 위해 사용될 때와 같이, 측면 신호는 (오히려 중반 신호 이상) 잔류 신호와 함께 전송되고 예측 정보와 예측 방향 표시기는 반대 방향을 나타낸다.
이 절차는 결과 양자화 노이즈를 보다 효율적으로 마스킹(masking) 할 수 있다. 이러한 측면 신호같은 제2 결합 신호의 에너지의 대부분을 갖는 신호들에 대해, 측면 신호 S로부터 중간 신호 같은 신호의 제1 결합을 예측하는 것은 양자화 노이즈의 주요한 부분의 패닝(panning)을 원래 사운드 소스에 따라 허용한다. 이는 최종 출력 신호에서 지각적으로 더 적절한 에러 분배를 야기한다.
이 절차는 효율적인 멀티채널 페어-방향(pair-wise) 코딩을 제공하는 추가적인 이점이 있고, 단지 두개의 채널의 경우, 이는 효율적인 스테레오 코딩이다. 예측 방향의 중간/측면(M/S) 코딩에 대한 신호 적응 선택은 측면 신호에서 주요한 에너지의 신호들에 대한 더 높은 예측 이득(게인)을 보장하고, 이는 계산적인 복잡성의 최소 증가에서이다. 추가적으로, 지각적으로 더 잘 적응된 결과가 양자화 노이즈의 양자화 노이즈의 주 신호 방향에 대한 지각적 공간 방향의 패닝 때문에 얻어진다. 게다가, 비트스트림에서 전송되기 위한 예측 계수에 대한 값의 범위는 감소되고, 이는 예측 정보/계수들의 더 효율적인 코딩을 가능하게 한다. 이 절차는 듀얼 또는 멀티채널 오디오 그리고 비디오 신호들의 조인트 변형 코딩 같은 스테레오 프로세싱 어플리케이션들의 모든 종류에 유용하다.
바람직하게는, 엘리어싱(aliasing) 도입 그리고 취소에 기반한 변형이 사용된다. MDCT는 특히, 변형과 같고, 디코더 측면의 오버랩-애드 프로세싱(overlap-add processing)에 의해 얻어지는 잘 알려진 시간 영역 엘리어싱 취소(TDAC) 특성 때문에 어떠한 오버헤드 없이 순차 블록들 사이에서 크로스-페이딩(cross-fading)을 허락한다.
바람직하게는, 예측 정보는 인코더에서 계산되며, 디코더로 전송되고 0도와 360도 사이에서 임의적으로 선택되는 양의 두 오디오 또는 비디오 채널들 사이의 위상 차이들을 이롭게 반영하는 허수 부분을 포함하는 디코더에서 이용된다. 계산적인 복잡성은 상당히 감소하고, 이는 오직 실수 변형일 때이거나 일반적으로는, 변형이 실수 스펙트럼만을 제공하거나 실수 스펙트럼만을 제공하도록 적용될 때이다. 왼쪽 신호의 어떤 대역과 오른쪽 신호의 대응하는 대역 사이의 위상 시프트를 표시하는 허수 예측 정보의 이용을 활용하기 위해, 실수-허수 변환기 도는, 변형 실시예에 따라, 허수-실수 변환기가 제1 결합 신호로부터 위상-회전 예측 신호를 계산하기 위해 디코더에 구비될 수 있고, 이는 원래 결합 신호에 대해 위상-회전되어 있다. 이 위상 회전 예측 신호는 다시 측면 신호를 생성하기 위해 비트 스트림에서 전송되어 예측 잔류 신호와 결합 될 수 있고, 이는, 결국, 이 대역의 디코딩된 오른쪽 채널과 어떤 대역의 디코딩된 왼쪽 채널을 얻기 위해 중간 신호와 결합될 수 있다.
오디오 또는 비디오 품질을 높이기 위해, 예측 잔류 신호가 인코더에서 계산될 때, 디코더 측면에서 적용되는 동일한 실수-to-허수 또는 허수-to-실수 변환 인코더 측면에서도 실행될 수 있다.
본 발명은 같은 비트레이트 또는 같은 오디오 또는 비디오 품질을 갖는 시스템에 비하여 향상된 오디오 또는 비디오 품질과 감소된 비트레이트를 제공하는 이점이 있다.
추가적으로, 높은 비트레이트에서 MPEG USAC에 유용한 통합 스테레오 코딩의 계산적인 효율의 관점에서의 이점이 얻어지고, 여기서 SBR은 전형적으로 이용되지 않는다. 복합 하이브리드 QMF 영역에서의 신호가 처리되는 대신에, 이러한 접근들은 근본적인 스테레오 변형 코더들의 본래의 MDCR 영역에서의 잔류-기반 예측 스테레오 코딩을 실행한다.
본 발명의 관점에 따라, 본 발명은 MDCT 영역의 복합 예측에 의한 스테레오 신호를 발생시키기 위한 장치 또는 방법을 포함하는데, 여기서 복합 예측은 실수-to-복소 변형(real-to-complex transform)을 이용하는 MDCT 영역에서 이루어지고, 여기서 이 스테레오 신호는, 스테레오 신호를 발생시키기 위한 장치 또는 방법이 디코더 측면에 적용될 때, 인코더 측면에서 인코딩된 스테레오 신호일 수도 있고 대안적으로 디코딩된/전송된 스테레오 신호일수도 있다.
본 발명의 선호되는 실시예는 동반되는 도면들의 관점에서 이후에 논의된다.
도1은 오디오 또는 비디오 디코더의 바람직한 실시예의 블록 다이어그램.
도2는 오디오 또는 비디오 인코더의 바람직한 실시예의 블록 다이어그램.
도3a는 도2의 인코더 계산기의 실행을 나타내는 도면.
도3b는 도2의 인코더 계산기의 대안적 실행을 나타내는 도면.
도3c는 인코더 측면에 적용되는 중간/측면(사이드) 결합(조합) 규칙을 나타내는 도면.
도4a는 도1의 디코더 계산기의 실행을 나타내는 도면.
도4b는 매트릭스 계산기의 유형에서 디코더 계산기의 대안적 실행을 나타내는 도면.
도4c는 도3c에서 나타난 결합 규칙에 대응하는 중간/측면(사이드) 역 결합(조합) 규칙을 나타내는 도면.
도5a는 바람직하게는 실수치(real-valued) 주파수 영역인 주파수 영역에서 작동하는 오디오 또는 비디오 인코더의 실시예.
도5b는 주파수 영역에서 작동하는 오디오 또는 비디오 디코더의 실시예.
도6a는 실수-허수 변형을 이용하고 MDCT 영역에서 작동하는 오디오 또는 비디오 인코더의 대안적 실시예.
도6b는 실수-허수 변형을 이용하고 MDCT 영역에서 작동하는 오디오 또는 비디오 디코더를 나타내는 도면.
도7a는 SBR 디코더에 순차적으로 연결된 스테레오 디코더를 이용하는 오디오 포스트프로세서를 나타내는 도면.
도7b는 중간/측면 업믹스(upmix) 매트릭스를 나타내는 도면.
도8a는 도6a의 MDCT 블록에서 자세한 시야를 나타내는 도면.
도8b는 도6b의 MDCT-1 블록에서 자세한 시야를 나타내는 도면.
도9a는 MDCT 출력의 관점에 있어 감소된 해상도에서 작동하는 옵티마이저의 실행을 나타내는 도면.
도9b는 예측 정보가 계산되는 대응하는 더 낮은 해상도 대역들과 MDCT 스펙트럼의 표현을 나타내는 도면.
도10a는 도6a 또는 도6b의 실수-to-허수 변형기의 실시예를 나타내는 도면.
도10b는 도10a의 허수 스펙트럼 계산기의 가능한 실시를 나타내는 도면.
도11a는 역 예측 방향을 갖는 오디오 인코더의 바람직한 실시예를 나타내는 도면.
도11b는 역 예측 방향들에 의해 발생되는 잔류 신호들을 처리하기 위한 능력을 갖는 관련된 오디오 또는 비디오 디코더의 바람직한 실시예를 나타내는 도면.
도12a는 역 예측 방향을 갖는 오디오 또는 비디오 인코더의 더 바람직한 실시예를 나타내는 도면.
도12b는 예측 방향 표시기에 의해 컨트롤되는 오디오 또는 비디오 디코더의 추가 실시예를 나타내는 도면.
도13a는 예측 방향 플래그(flag)를 나타내는 도면.
도13b는 예측 방향 표시기에 기반하는 다른 인코더-측면 예측 규칙들의 실시를 나타내는 도면.
도13c는 제1 상태를 갖는 예측 방향 표시기에 대한 디코더-측면 계산 규칙들을 나타내는 도면.
도13d는 제2 상태를 갖는 다른 예측 방향 표시기에 대한 디코더-측면 계산 규칙을 나타내는 도면.
도13e는 오디오 또는 비디오 인코더 도는 오디오 또는 비디오 디코더의 실시예에 적용되는 복소값 곱셈들(complex-valued multiplications)을 나타내는 도면.
도14는 예측 방향 표시기를 결정하는 실시예를 나타내는 도면.
도1은 입력 라인(100)에서 얻어지는 인코딩된 멀티 채널 오디오 신호를 디코딩하기 위한 오디오 또는 비디오 디코더를 보여준다. 인코딩된 멀티채널 오디오 신호는 멀티채널 오디오 신호를 표현하는 제1 채널 신호와 제2 채널 신호의 결합에 대한 결합 규칙을 이용하여 발생되는 인코딩된 제1 결합 신호, 인코딩된 예측 잔류 신호 그리고 예측 정보를 포함한다. 인코딩된 멀티채널 신호는 비트스트림같은 데이타 스트림이 될 수 있고 이는 멀티플레스 형태에서 세 구성요소들을 갖는다. 추가적 측면 정보는 라인(100)의 인코딩된 멀티채널 신호에 포함될 수 있다. 신호는 입력 인터페이스(102)에의 입력이다. 입력 인터페이스(102)는 라인(104)의 인코딩된 제1 결합 신호, 라인(106)의 인코딩된 잔류 신호, 라인(108)의 예측 정보를 출력하는 데이타 스트림 디멀티플렉서에 따라 실행될 수 있다. 바람직하게는, 예측 정보는 0과 같지 않은 실수 부분 및/또는 0과 다른 허수 부분을 갖는 인수이다. 인코딩된 결합 신호 그리고 인코딩된 잔류 신호는 라인(112)의 디코딩된 제1 결합 신호를 얻기 위해 제1 결합 신호를 디코딩하기 위한 신호 디코더(110)에의 입력이다.
추가적으로, 신호 디코더(110)은 라인(114)의 디코딩된 잔류 신호를 얻기 위하여 인코딩된 잔류 신호를 디코딩 하기 위해 구성된다. 오디오 인코더 측면에서 인코딩 프로세싱에 따라, 신호 디코더는 허프먼(Huffman decoder)같은 엔트로피-디코더, 연산 디코더 또는 어떤 다른 엔트로피-디코더 그리고 관련된 오디오 인코더에서 양자화기(quantizer) 작업에 매치되는 비양자화(dequantization) 작업을 수행하기 위한 순차적으로 연결된 비양자화 스테이지(dequantization stage)를 포함한다. 라인(112와 114)의 신호들은 디코더 계산기(115)에의 입력이고, 이는 라인(117)에의 제1 채널 신호와 라인(118)의 제2 채널 신호를 출력하고, 이 두 신호들은 스테레오 신호들이거나 멀티채널 오디오 신호의 두 채널들이다. 예를 들어, 멀티채널 오디오 신호가 다섯 채널들을 포함할 때, 두 신호들은 멀티채널 신호로부터의 두 채널들이다. 다섯 채널들을 갖는 멀티채널 신호들 같은 것을 완전히 인코딩하기 위해, 도1에 따른 두 디코더들이 적용될 수 있고, 제1 디코더는 왼쪽 채널 그리고 오른쪽 채널을 프로세스하고, 제2 디코더는 왼쪽 써라운드 채널과 오른쪽 써라운드 채널을 프로세스하며, 세번째 모노 디코더는 중앙 채널의 모노-디코딩을 수행하기 위해 이용될 것이다. 그러나, 다른 그룹핑(groupings)들 또는 파형 코더들과 파라메트릭 코더들의 결합들 또한 적용될 수 있다. 둘 이상의 채널에 대한 예측 계획을 일반화하는 대안적인 방법은 세개 (또는 그 이상의) 신호들을 동시에 처리하는 것이고, 즉, 제1 그리고 제2 신호를 두개의 예측 계수를 이용하여 3번째 결합 신호를 예측하는 것이고, 이는 MPEG Surround 의 "둘-to-셋"("two-to-three")모듈에 상당히 유사하다.
추가적으로, 입력 라인(100)에서 얻어지는 인코딩된 멀티채널 오디오 신호는예측 방향 표시기를 포함한다. 예측 방향 플래그(flag)같은 이 예측 방향 표시기는 디코더 계산기가 예측 정보, 디코딩된 제1(또는 제2) 결합 신호 그리고 입력 인터페이스(102)에 제공되는 예측 방향 표시기에 따라 디코딩된 멀티채널 신호를 계산하도록 디코더 계산기(116)에 포워딩되고 입력 인터페이스(102)에 의해 인코딩된 멀티채널 신호로부터 추출된다.
디코더 계산기(116)는 디코딩된 제1 채널 신호(117) 그리고 디코딩된 잔류 신호(114), 예측 정보(108) 그리고 디코딩된 제1 결합 신호(112)를 이용하는 디코딩된 제2 채널 신호(118)을 갖는 디코딩된 멀티채널 신호를 계산하기 위해 구성된다. 특히, 디코더 계산기(116)은 제1 결합 신호와 예측 잔류 신호가 발생될 때 결합 규칙에 의해 결합되는 대응하는 인코더에 입력되는 디코딩된 제1 채널 신호와 디코딩된 제2 채널 신호가 멀티채널 신호의 제1 채널 신호와 제2 채널 신호가 최소 근사치에 있도록 작동하기 위해 구성된다. 특히 라인(108)의 예측 정보는 0과 다른 실수 부분 및/또는 0과 다른 허수 부분을 포함한다.
디코더 계산기(116)는 다른 방법으로 실행될 수 있다. 제1 실행예는 도 4a에 도시되어 있다. 이 실시예는 예측기(1160), 결합 신호 계산기(1161) 그리고 결합기(1162)를 포함한다. 예측기는 디코딩된 제1 결합 신호(112) 그리고 예측 정보(108)를 수신하고 예측 신호(1163)을 출력한다.
특히, 예측기(1160)은 예측 정보(108)을 디코딩된 제1 결합 신호(112)나 디코딩된 제1 결합 신호로부터 유도된 신호에 적용하기 위해 구성된다. 예측 정보(108)이 적용되는 신호를 유도하기 위한 유도 규칙은 실수-허수(real-to-imaginary) 변형일 수 있고, 또는 동등하게, 허수-실수(imaginary-to-real) 변형 또는 가중치 작업(weighting operation)일 수도 있고, 또는 실시예에 EK라, 위상 시프트 작업이나 결합된 가중치/위상 시프트 작업일수도 있다. 예측 신호(1163)은 디코딩된 제2 결합 신호(1165)를 계산하기 위해 결합 신호 계산기(1161)에 디코딩된 잔류 신호와 함께 입력된다. 신호들(112와 1165)는 모두 결합기(1162)에의 입력이고, 이는 디코딩된 제1 채널 신호와 디코딩된 제2 채널 신호를 출력 라인들(1167과 1167)에서 각각, 디코딩된 멀티채널 오디오 신호를 얻기 위해 디코딩된 제1 결합 신호와 제2 결합 신호를 결합한다. 대안적으로, 디코더 계산기는 입력으로, 디코딩된 제1 결합 신호 또는 신호 M, 디코딩된 잔류 신호 또는 신호 D 그리고 예측 정보 α(108)을 수신하는 매트릭스 계산기(1168)에 따라 실행된다. 매트릭스 계산기(1168)은 (1169)에 따라 신호 M,D에 출력 신호 L,R을 얻기 위해 도시된 변형 매트릭스를 적용하며, 여기서 L은 디코딩된 제1 채널 신호이고 R은 디코딩된 제2 채널 신호이다. 도4b 의 기호법은 왼쪽 채널 L 그리고 오른쪽 채널 R의 스테레오 표기법과 닮아 있다. 이 표기법은 더 쉬운 이해를 제공하기 위해 적용되었으나, 당업자에게 L, R 신호는 두 채널 신호들 이상을 갖는 멀티채널 신호들에서 두 채널 신호들의 어떠한 결합도 될 수 있다는 것이 자명하다. 매트릭스 작업(1169)은 도 4의 블록들(1160,1161,1162)에서 "싱글-샷"(single-shot) 매트릭스 계산에의 작업을 통합하고, 그리고 도4a 회로에 입력하며 도4a 회로로부터의 그 출력은 매트릭스 계산기(1168)에의 입력들 또는 매트릭스 계산기(1168)로부터의 출력과 동일하다.
도4c는 도4a의 결합기(1162)에 의해 적용되는 역 결합 규칙에 대한 예를 나타낸다. 특히, 결합 규칙은 잘 알려진 중간/측면 코딩에서 디코더-측면 결합에 유사하며, 여기서 L = M + S, and R = M - S 이다. 도4c에서 역 결합 규칙에 의해 이용되는 신호 S 는 결합 신호 계산기에 의해 계산되는 신호, 즉 라인(1163)의 예측 신호의 결합 그리고 라인(114)의 디코딩된 잔류 신호라고 이해된다. 명세서에서, 라인들 위의 신호들은 때때로 라인들에 대한 도면부호들에 의해 명명되거나 때때로 그들 자체, 라인들에서 기인하는, 도면 부호에 의해 표시된다. 그래서, 특정 신호를 갖는 라인같은 것의 표현법은 신호 그 자체를 표시한다. 라인은 배선된 실시예에서 물리적인 라인이 될수도 있다. 계산화된 실시예에서는 물리적 라인은 존재하지 않으나 라인에 의해 표현되는 신호가 하나의 계산 모듈로부터 다른 계산 모듈로 전송된다.
도11b는 예측 방향 표시기 입력(401)에서 제공되는 예측 방향 표시기에 의존하여 작동하는 디코더 계산기의 더 선호되는 실시예를 나타낸다. 예측 방향 표시기의 상태에 의존하여, (402)에 도시된 제1 계산 규칙 또는 (403)에 도시된 제2 계산 규칙이 모두 적용된다. 추가 계산 규칙(402)이 제공되고, 출력에서, 제1 채널 신호 그리고 제2채널 신호 그리고 제1 계산 규칙은 이후 설명되는 도13c에 도시된것처럼 실행될 수 있다. 특정 실시예에서 제1결합 신호는 중간 신호이고 제2결합 신호는 측면 신호이며, 예측 방향 표시기는 "0"의 값을 가지며 예측은 제1 결합 신호로부터 제2결합 신호로 수행된다. 이 경우에, 입력(404)는 중간 신호를 가지며, 즉 제1 결합 신호이다. 그러나, 예측 방향 표시기가 "1"과 같다면, 스위치(405)는 입력(404)에서 제2 계산 규칙 장치(403)의 입력으로 연결된다. 이 경우에, 측면 신호같은 제2결합 신호로부터 중간신호 같은 제1결합 신호로의 예측이 수행되고 입력(404)는 중간 신호보다 측면 신호를 갖게 될 것이다. 제2 계산 장치(403)은, 다시, 제1채널 신호 그리고 제2채널 신호를 출력하게 될 것이고, 그러나 이 두 신호들을 계산하는 규칙, 즉 스테레오 실시예에서 왼쪽 신호 그리고 오른쪽 신호,는 달라지게 될 것이다. 제2 계산 규칙에 대한 특정 실시예는 이후 논의된 도13d에 도시되어 있다.
도2는 둘 또는 그 이상의 채널 신호들을 갖는 멀티채널 오디오 신호(200)를 인코딩 하기 위한 오디오 인코더를 도시하며, 여기서 제1채널 신호는 (201)에 도시되어 있고 제2 채널은 (202)에 도시되어 있다. 양 신호들은 제1 결합 신호(203) 그리고 제1채널 신호(201)을 이용하는 예측 잔류 신호(205) 그리고 제2채널 신호(202) 그리고 예측 정보(206)을 계산하기 위한 인코더 계산기(203)에의 입력이며, 그래서 예측 잔류 입력(205)는, 제1 결합 신호(204) 그리고 예측 정보(206)으로부터 파생된 예측 신호와 결합될 때, 제2 결합 신호를 도출하며, 여기서 제1결합 신호 그리고 제2결합 신호는 제1 채널 신호(201) 그리고 제2채널 신호(202)로부터 결합 규칙을 이용하여 유도 가능하다. 예측 정보는 옵티마이저(207)에 의해 예측 정보(206)을 계산하기 위해 발생되며 이는 예측 잔류 신호가 최적화 타겟(208)을 충족시키기 위함이다. 제1 결합 신호(204) 그리고 잔류 신호(205)는 제1결합 신호(204)를 인코딩하는 것에 대해 인코딩된 제1결합 신호(210)를 얻기 위해, 잔류 신호(205)를 인코딩하는 것에 대해 인코딩된 잔류 신호(211)을 얻기 위해 신호 인코더(209)에 입력된다. 양 인코딩된 신호(210, 211)은 인코딩된 제1 결합 신호(21)와 인코딩된 예측 잔류 신호(211) 그리고 인코딩된 멀티채널 신호(213)을 얻기 위한, 도1에 도시된 오디오 디코더의 입력 인터페이스(102)에 대한 인코딩된 멀티채널 신호(100) 입력과 유사한, 예측 정보(206)를 결합하기 위해 출력 인터페이스(212)에 입력된다.
실시예에 의존하여, 옵티마이저(207)은 제1채널 신호(201) 그리고 제2채널 신호(202), 또는 라인들(214 그리고 215)에 의해 도시된 것처럼, 나중에 논의될 도3a의 결합기(2031)에서 유도된 제1결합 신호(214) 그리고 제2결합 신호(215) 중 어느것이나 받아들인다.
바람직한 최적화 타겟은 도2에 도시되어 있으며, 코딩 이득이 최대화되고, 즉 비트레이트는 가능한 많이 감소한다. 이 최적화 타겟에서, 잔류 신호 D는 α의 관점에서 최소화된다. 이는 다른 말로 예측 정보 α는 ∥S-αM∥2 이 최소화되도록 선택된다는 것을 의미한다. 이는 도2에 도시된 α에 대한 솔루션을 도출한다. 신호 S, M은 블록-방향 방법에 의해 주어지고 바람직하게는 스펙트럴 영역 신호들인데, 여기서 ∥...∥는 인수의 2-놈(2-norm of the argument)을 의미하고, 여기서 <...>는 내적(dot product)를 일반적으로 나타낸다. 제1채널 신호(201) 그리고 제2 채널 신호(202)가 옵티마이저(207)에의 입력일 때, 옵티마이저는 결합 규칙을 적용해야 하며, 여기서 예시적 결합 규칙은 도3c 에 도시되어 있다. 그러나 제1결합 규칙(214) 그리고 제2결합 규칙(215)가 옵티마이저(207)에의 입력일 때, 옵티마이저(207)은 스스로 결합 규칙을 실행할 필요가 없다.
다른 최적화 타겟들은 지각적 품질에 관련되어 있을 수 있다. 최적화 타겟은 최대 지각적 품질이 얻어지게 할 수 있다. 그러면, 옵티마이저는 지각적 모델로부터 추가적인 정보를 필요로 한다. 다른 최적화 타겟의 실시예들은 최소 또는 고정된 비트레이트를 얻는 것에 관련될 수 있다. 그러면, 옵티마이저(207)은 α가 최소 비트레이트 또는 대안적으로 고정된 비트레이트같은 요구들을 충족시키기 위해 설정될 수 있도록 특정 α값을 위해 요구되는 비트레이트를 결정하기 위해 양자화/엔트로피-인코딩 작업을 수행하기 위해 실행될 것이다. 최적화 타겟의 다른 실시예들은 인코더 또는 디코더 리소스들의 최소 사용에 관련될 수 있다. 최적화 타겟 같은 실행의 경우에 있어서, 특정 최적화를 위해 요구되는 리소스들의 정보는 옵티마이저(207)에서 이용가능할 것이다. 추가적으로, 이러한 최적화 타겟들 또는 다른 최적화 타겟들의 결합은 예측 정보(206)을 계산하는 옵티마이저(207)을 컨트롤하기 위해 적용될 수 있다.
오디오 인코더는, 그 출력에서, 도2의 인코딩 계산기(203)에 의해 출력되는 예측 잔류 신호(205)와 관련된 예측 방향을 표시하는 예측 방향 표시기를 제공하는 예측 정보 계산기(219)를 추가적으로 포함한다. 예측 정보 계산기(219)는 도14의 문맥에서 논의되는 몇몇 예들에서, 다른 방법으로 실행될 수 있다.
도2의 인코더 계산기(203)는 다른 방법들로 실행될 수 있는데, 여기서 예시적 제1 실시예는 도3a에 도시되어 있고, 여기서 명시적 결합 규칙은 결합기(2031)에서 수행된다. 대안적인 예시적 실시예들은 도3bdp 도시되어 있고, 여기서 매트릭스 계산기(2039)가 이용된다. 도3a에서 결합기(2031)은 도3c에 도시된 결합 규칙을 수행하기 위해 실행될 수 있고, 이는 예시적으로 잘 알려진 중간/측면 인코딩 규칙이며, 여기서 가중 인수 0.5는 모든 가지들에 적용된다. 그러나, 다른 가중 인수들 또는 전혀 비 가중적인 인수들(통합 가중)은 실시예에 의존하여 이용될 수 있다. 추가적으로, 이는 다른 선형 결합 규칙들같은 다른 결합 규칙들 또는 비선형 결합 규칙들이 적용될 수 있는 것이 알려져 있는 것이고, 도4a에 도시된 디코더 결합기(1162)에 적용될 수 있는 대응하는 역 결합 규칙이 존재하는 한, 인코더에 의해 적용되는 결합 규칙에 대해 역(inverse)인 결합 규칙을 적용한다. 발명의 예측 때문에, 어떠한 가역적 예측 규칙이 이용될 수 있고, 이는 파형의 영향이 예측에 의해 "균형잡히기"(balanced) 때문인데, 즉, 인코더 계산기(203)와 결합하는 옵티마이저(207)에 의해 수행되는 예측 작업은 파형 보존 프로세스이기 때문에, 어떤 에러든지 전송되는 잔류 신호에 포함된다.
결합기(2031)은 제1결합 신호(204) 그리고 제2결합 신호(2032)를 출력한다. 제1결합 신호는 예측기(2033)에의 입력이고, 제2결합 신호(2032)는 잔류 계산기(2034)에의 입력이다. 예측기(2033)은 예측 신호(2035)를 계산하고, 이는 최종적으로 잔류 신호(205)를 얻기 위해 제2결합 신호(2032)와 결합된다. 특히, 결합기(2031)은 제2결합 신호(2032)와 제1결합 신호(204)를 얻기 위한 두개의 다른 방법들에서 멀티 채널 오디오 신호의 두 채널 신호들(201 그리고 202)을 결합하기 위해 구성되며, 여기서 두 방법들은 도3c의 예시적인 실시예에 도시되어 있다. 예측기(2033)은 예측 정보를 제1결합 신호(204) 또는 예측 신호(2035)를 얻기 위해 제1결합 신호로부터 유도된 신호에 적용하기 위해 구성된다. 결합 신호로부터 유도된 ttls호는 어떠한 비선형 또는 선형 작업으로부터 유도될 수 있고, 여기서 실수-to-허수 변형/허수-to-실수 변형이 바람직하며, 이는 특정 값의 가중된 추가들을 수행하는 FIR 필터같은 선형 필터를 이용하여 실행될 수 있다.
도3a의 잔류 계산기(2034)는 예측 신호가 제2결합 신호로부터 빼진 예측 신호이도록 감산 작업(subtraction operation)을 수행할 수 있다. 그러나, 잔류 계산기의 다른 작업들은 가능하다. 대응적으로, 도4a 의 결합 신호 계산기(1161)은 추가 작업을 수행할 수 있고, 여기서 디코딩된 잔류 신호(114) 그리고 예측 신호(1163)은 제2 결합 신호(1165)를 얻기 위해 함께 더해진다.
도11a는 인코더 계산기의 바람직한 실시예를 도시한다. 예측 방향 입력(501)에 입력되는 예측 방향 표시기에 의존하여, 제1 예측 규칙(502)이든 제2예측 규칙(503)이든 선택되고 이는 콘트롤된 선택 스위치(505)에 의해 도시된다. 제1대안으로, 제1 예측 규칙이 도13b 에 도시된 것에 유사할 수 있고, 제2대안으로는, 제2 예측 규칙이 도13b에 도시된 것과 유사할 수 있다. 블록들(502, 503)의 출력, 즉 결합 신호 그리고 잔류 신호는, 출력 인터페이스에 대해 포워딩될 수 있고, 또는 신호 인코딩의 경우에, 도2의 신호 인코더(209)에 포워딩될 수 있다. 게다가, 예측 방향 표시기는 출력 비트스트림에 예측 정보와 함께 입력되고, "0"과 동일한 예측 방향 표시기의 경우에서의 제1결합 규칙이든 "1"과 동일한 예측 방향 표시기의 경우에서의 제2결합 규칙이든 될 수 있다.
도5a는 오디오 인코더의 바람직한 실행을 도시한다. 도3a 에 도시된 오디오 인코더에 비교하면, 제1 채널 신호(201)은 시간 영역 제1채널 신호(55a)의 스펙트럴 표현이다. 대응하여, 제2 채널 신호(202)는 시간 영역 채널 신호(55b)의 스펙트럴 표현이다. 시간 영역에서 스펙트럴 표현으로의 변환은 제2 채널 신호에 대한 시간/주파수 변환기(51) 그리고 제1채널 신호에 대한 시간/주파수 변환기(50)에 의해 수행된다. 바람직하게, 그러나 필요적이지 않게, 스펙트럴 변환기들(50,51)은 실수치 변환기들처럼 실행된다. 변환 알고리즘은 실수치 스펙트럴 값들을 제공하는 어떠한 다른 변형 또는 MDCT, 실수 부분만 이용되는 FFT, 이산(분리) 코사인 변형(DCT)일 수 있다. 대안적으로, 변형들(transforms)은 모두 버려지는 실수 부분과 이용되는 허수부분만을 갖는 FFT 또는 MDST, DST 같은, 허수 변형에 따라 실행될 수 있다. 허수값들만을 제공하는 어떠한 다른 변형 또한 이용될 수 있다. 순수 실수치 변형 또는 순수 허수 변형 이용의 하나의 목적은 계산적인 복잡성인데, 각 스펙트럴 값에 대해, 크기 또는 실수 부분 같은 같은 오직 단일 값이 처리되어야 하거나, 대안적으로 위상 또는 허수 부분이 처리되어야 하기 때문이다. 대조적으로, FFT 같은 완전히 복소 변형에서, 두 값들, 즉 각 스펙트럼 라인에 대한 실수 부분 그리고 허수 부분이 처리되어야 하고, 이는 최소 2의 인수에 의한 계산적인 복잡성의 증가이다. 실수치 변형을 이용하는 또 다른 이유는 여기에 있는데, 변형같은 것들은 일반적으로 임계적으로 샘플링되며, 이런 이유로 신호 양자화 그리고 엔트로피 코딩("MP3", AAC, 또는 유사 오디오 코딩 시스템에서 실행되는 기준적인 "지각적 오디오 코딩" 패러다임)에 적합한(그리고 일반적으로 사용되는) 영역을 제공한다.
도 5a는 추가적으로 그 "플러스(plus)" 입력에서 측면 신호를 수신하고 그 "마이너스(minus)" 입력에서 예측기(2033)에 의한 예측 신호 출력을 수신하는 애더(adder)에 따라 잔류 계산기(2034)를 도시한다. 추가적으로, 도5a는 예측 컨트롤(제어) 정보가 옵티마이저에서 인코딩된 멀티채널 오디오 신호를 표현하는 멀티플렉싱된 비트스트림을 출력하는 멀티플렉서(212)로 포워딩되는 상황을 도시한다. 특히, 예측 작업은 측면 신호가 중간 신호로부터 도5a의 오른쪽 방정식들에 의해 도시된 것처럼 예측되는 그런 방법에 의해 수행된다.
도5a가 M 에서 S로의 예측을 도시하는 반면에, 즉, 측면 신호가 중간 신호에 의해 예측되는 반면, 이는 0과 같은 예측 방향 표시기에 대해 일어나며, 역 예측은 예측 방향 표시기가 1과 같을 때 적용된다. 그래서, S로부터 M으로의 예측이 수행된다. 이는 상측의 출력은 측면 신호를 갖고 하측의 출력은 중간신호를 갖도록 블록(2031)의 출력을 스와핑(swapping)하는 것에 의해 도시될 수 있다.
바람직하게, 예측 컨트롤 정보(206)은 도3b의 오른쪽에 도시된 것과 같은 인수이다. 예측 컨트롤 정보가 오직 복소값 α의 실수 부분(real part) 같은 실수분(real portioin)이나 복소값 α의 크기(magnitude)만을 포함하는 실시예에 있어서, 여기서 이 부분은 0과 다른 인수에 대응하고, 중간 신호 그리고 측면 신호가 그들의 파형 구조 때문에 서로에 유사하지만 다른 진폭들을 가질 때, 상당한 코딩 이득이 얻어질 수 있다.
그러나, 예측 컨트롤 정보가 오직 복소값 인수의 허수 부분 또는 복소값 인수의 위상 정보가 될 수 있는 두번째 부분(second portion)만을 포함할 때, 여기서 허수 부분 또는 위상 정보는 0과 다르고, 본 발명은 0°또는 180°과 다른 값에 의해 서로에 대해 위상 시프트되는 신호들에 대한 상당한 코딩 이득을 달성하며, 이는, 위상 시프트는 제외하고, 유사 파형 특성들과 유사 진폭 관계들을 갖는다.
바람직하게, 예측 컨트롤 정보는 복소값이다. 그래서, 상당한 코딩 이득이 진폭이 다르고 위상 시프팅되는 신호들에 대해 얻어질 수 있다. 시간/주파수 변형들은 복소 스펙트럼들을 제공하는 상황에서, 작업(2034)는 예측 컨트롤 정보의 실수 부분은 복소 스펙트럼 M의 실수 부분에 적용되고 복소 예측 정보의 허수 부분은 복소 스펙트럼의 허수 부분에 적용되는 복소 작업이 될 것이다. 그러면, 애더(adder, 2034)에서 이 예측 작업의 결과는 예측되는 실수 스펙트럼 그리고 예측되는 허수 스펙트럼이고, 예측된 실수 스펙트럼은 측면 신호 S(대역-방향)의 실수 스펙트럼에서 빼지게 될 것이고, 예측 허수 스펙트럼은 복소 잔류 스펙트럼 D를 얻기 위해 S의 스펙트럼의 허수 부분으로부터 빼지게 될 것이다.
시간-영역 신호들 L 그리고 R은 실수치 신호들이지만, 주파수-영역 신호들은 실수 또는 복소값이 될 수 있다. 주파수 영역 신호들이 실수값일 때, 변형은 실수값 변형이 된다. 주파수 영역 신호들이 복소값일 때, 변형은 복소값 변형이 된다. 이는 시간-to-주파수에 대한 입력 그리고 주파수-to-시간 변형의 출력이 실수값이라는 것을 의미하고, 반면에 주파수 영역 신호들은, 예를 들어, 복소값 QMF-영역 신호들이 될 수 있다.
도 5b는 도5a에 도시된 오디오 인코더에 대응하는 오디오 디코더를 도시한다. 도1 오디오 디코더의 관점에서 유사한 구성요소들은 유사한 참조 부호를 갖는다.
도5a의 비트스트림 멀티플렉서(212)에 의해 출력되는 비트스트림은 도5b의 비트스트림 디멀티플렉서(102)에의 입력이다. 비트스트림 디멀티플렉서(102)는 다운 믹스 신호 M 그리고 잔류 신호 D에 대한 비트스트림을 디멀티플렉싱한다. 다운믹스 신호 M은 비양자화기(dequantizer, 110a)에의 입력이다. 잔류 신호 D는 비양자화기(110b)에의 입력이다. 추가적으로 비트스트림 디멀티플렉서(102)는 예측 컨트롤 정보(108)을 비트스트림으로부터 디멀티플렉싱하고 동일한 것을 예측기(1160)에 입력한다. 예측기(1160)은 예측 측면 신호 α·M 을 출력하고 결합기(1161)은 비양자화기(110b)에 의해 출력되는 잔류 신호와 예측 측면 신호를 최종적으로 재구축된 측면 신호 S를 얻기 위해 결합한다. 상기 신호는 결합기(1162)에 입력되고, 이는 예를 들어, 도4c에서 중간/측면 인코딩에 대해 도시된 것처럼, 합/차 프로세싱(sum/difference processing)을 수행한다. 특히, 블록(1162)는 왼쪽 채널의 주파수 영역 표현과 오른쪽 채널의 주파수 영역 표현을 얻기 위해 (역) 중간/측면 디코딩을 수행한다. 주파수 영역 표현은 이후 대응하는 주파수/시간 변환기(52 그리고 53)에 의해 시간 영역 표현으로 변환된다.
도5b는 예측이 된 상황을 도시하며, 인코더에서, 중간 신호 M으로부터 측면 신호 S 로 0과 동일한 예측 방향 표시기에 의해 표시된다. 그러나, 1과 동일한 예측 방향 표시기가 도 5a에서의 인코더와 같은 인코더로부터 도5b에서의 디코더로 전송될 때, S로부터 M으로의 역 예측이 수행되어야 하는데, 즉, 디코더 계산 규칙은 M은 0과 동일한 예측 방향 표시기의 경우의 반대 계산보다는 S로부터 계산되는 것이다.
시스템의 실행에 의존하여, 주파수/시간 변환기들(52, 53)은 주파수 영역 표현이 실수치 표현일 때 실수치 주파수/시간 변환기들이거나, 또는 주파수 영역 표현이 복소치 표현일 때 복소치 주파수/시간 변환기들이다.
그러나 효율을 증가시키기 위해, 도6b 디코더 도6a 인코더의 또다른 실시예에서 도시된것처럼 실수치 변형을 수행하는 것이 바람직하다. 실수치 변형들(50 그리고 51)은 MDCT에 의해 실행된다. 추가적으로, 예측 정보는 실수 부분 그리고 허수 부분을 갖는 복소값처럼 계산된다. 스펙트럼 M, S 양쪽이 모두 실수치 스펙트럼들이기 때문에, 스펙트럼들의 비 허수 부분이 존재하고, 실수-to-허수 변환기(2070)가 구비되는데 이는 신호 M의 실수치 스펙트럼으로부터 측정된 허수 스펙트럼(600)을 계산한다. 이 실수-to-허수 변환기(2070)는 옵티마이저(207)의 부분이고 블록(2070)에 의해 측정된 허수 스펙트럼(600)은 예측 정보(206)을 계산하기 위해 실수 스펙트럼 M과 함께 α 옵티마이저 스테이지(2071)에의 입력되고, 이는 이제 (2073)에서 표시된 실수치 인수 그리고 (2074)에서 표시된 허수 인수를 갖는다. 이제, 이 실시예에 따라서, 첫번째 결합 신호 M의 실수치 스펙트럼은 실수치 측면 스펙트럼에서 빼진 예측 신호를 얻기 위해 실수 부분 αR (2073)에 의해 곱해진다. 추가적으로 허수 스펙트럼(600)은 추가 예측 신호를 얻기 위해 (2074)에 표시된 허수 부분αI 에 의해 곱해지고, 여기서 이 예측 신호는 (2034b)에 표시된것처럼 실수치 측면 스펙트럼에서 빼진다. 이후, M의 실수치 스펙트럼은 블록(209a)에서 양자화/인코딩되는 동안, 예측 잔류 신호 D는 양자화기(209b)에서 양자화된다. 추가적으로, 도5a의 비트스트림 멀티플렉서(212)에 포워딩되고, 예를 들어, 이는 최종적으로 예측 정보처럼 비트스트림에 입력되는, 인코딩된 복소 α값을 얻기 위해 양자화/엔트로피 인코더(2072)에서 예측 정보 α를 양자화 그리고 인코딩하는 것이 바람직하다.
α에 대한 양자화/코딩(Q/C) 모듈(2072)의 포지션을 고려할 때, 멀티플라이어들(2073 그리고 2074)는 바람직하게 정확히 동일한 (양자화된) α를 이용하며 이는 디코더에서도 이용된다는 것이 알려져 있다. 이런 이유로, 하나는 (2072)는 (2071)의 출력으로 바로 이동할 수 있거나, 하나는 α의 양자화가 이미 (2071)에서 최적화 프로세스가 참작된 것을 고려할 수 있다.
비록 하나는 인코더 측면에서 복소 스펙트럼을 계산할 수 있지만, 모든 정보가 가능하기 때문에, 인코더의 블록(2070)에서 도6b에 도시된 디코더에 대한 유사한 조건들이 만들어지도록, 실수-to-복소 변형을 수행하는 것이 바람직하다. 디코더는 첫번째 결합 신호의 실수치 인코딩 스펙트럼 그리고 인코딩된 잔류 신호의 실수치 스펙트럴 표현을 수신한다. 추가적으로, 인코딩된 복소 예측 정보는 (108)에서 얻어지고, 엔트로피 디코딩 그리고 비양자화는 블록(65)에서 (1160b)에 도시된 실수 부분 αR 과 (1160c)에 도시된 허수부분 αI 를 얻기 위해 수행된다. 가중 구성요소들(1160b 그리고 1160c)에 의해 출력되는 중간 신호들은 디코딩되고 비양자화된 예측 잔류 신호에 더해진다. 특히, 복소 예측 인수의 허수 부분은 가중 인수로 이용되는, 가중기(1160c)에 입력되는 스펙트럴 값들은, 인코더 측면에 관계되는 도6a로부터 블록(2070)과 동일한 방법으로 바람직하게 실행되는, 실수-to-허수 변환기(1160a)에 의해 실수치 스펙트럼 M으로부터 유도된다. 디코더 측면에서, 중간 신호 또는 측면 신호의 복소치 표현은 이용가능하지 않으며, 이는 인코더 측면에 대조적이다. 그 이유는 오직 인코딩된 실수치 스펙트럼들은 인코더로부터 디코더로 비트레이트와 복잡성 이유들 때문에 전송되었기 때문이다.
도6a 그리고 도6b 는 상황을 도시하며, 여기서 예측 방향 표시기는 0과 동일하고, 즉 여기서 M으로부터 S로의 예측 또는 M을 이용한 S의 계산 그리고 예측 정보 α가 수행된다. 그러나, 예측 방향 표시기가 1과 동일, 또는 일반적으로 언급될 때, 역 예측 방향을 표시하고, 블록(2031)의 출력은 교환되고 상측 라인은 측면 신호 S 그리고 하측 라인은 중간 신호 M을 갖도록, 동일 회로가 적용될 수 있다. 디코더 측면에서, 디코더 계산 규칙 또한 변화되며, 역 예측 방향의 경우에, M은 S 로부터 계산되고 이는 도6b 측면 신호 S에 의한 블록(110a)의 출력 상측 라인에서 M 신호를 교체하는 것에 의해 표시될 수 있다. 이는 블록(1161b)의 출력에서 중간 신호 M 그리고 블록(1162)의 상측 입력에서 측면 신호 S 를 도출한다. 그래서, 블록(1162)에 의해 적용된 규칙이 이 다른 입력 상황에 적응되어야 하거나, M/S 신호들은 블록(1162)에 입력되기 전에 스와핑 되어야 한다. 이후의 경우에, 즉, 스와핑이 수행될 때, 블록(1162)는 양 예측 방향 표시기 값들과 동일하다.
실수-to-허수 변형(1160a) 또는 도6a의 대응하는 블록(2070)은 WO 2004/013839 A1 또는 WO 2008/014853 A1 또는 U.S. Patent No. 6,980,933에서 공개된대로 실행될 수 있다. 신호 또는 실시예들에 기반하여, 예측 정보 α는 순수 실수치 또는 순수 허수치가 될 수 있고, 또는 실수 부분과 허수 부분을 갖는 복소수가 될 수 있다. 그러나, 실수치 예측이 실행될 때, 예측 방향 역전은 아주 제한된 추가적 컴퓨팅 요구들과 함께 향상된 성능을 이미 제공할 것이고 잔류 신호는 더 작은 에너지를 갖게 될 것이라는 사실 때문에 더 낮은 비트레이트를 도출하게 되며, 동일한 내용이 예측 정보에 대해서도 참이다. 이런 이유로, 예측 방향 표시기를 전송하기 위해 필요한 추가적 비트레이트는, 결국에 잔류 신호와 예측 정보에 대해 필요한 더 낮은 비트레이트 때문에 고려 가능한 비트 세이빙들(bit savings)을 도출한다. 그래서, 예측 정보는 0과 다른 실수치 부분 및/또는 0과 다른 허수 부분을 포함할 수 있다. 대안적으로, 기술분야에서 알려진 어떠한 다른 실시예들이 적용될 수 있고, 바람직한 실시예들은 도10a, 10b의 문맥에서 논의된다.
특히, 도10a에 도시된바와 같이, 실수-to허수 변환기(1160a)는 허수 스펙트럼 계산기(1001)에 연결된 스펙트럼 프레임 셀렉터(1000)을 포함한다. 스펙트럴 프레임 셀렉터(1000)은 입력(1002)에서 현재 프레임 i의 표시 그리고, 실시예에 의존하여, 컨트롤 입력(1003)에서 컨트롤 정보를 수신한다. 예를 들어, 라인(1002)에서의 표시는 현재 프레임 i에 대한 허수 스펙트럼이 계산되는 것을 표시하고, 컨트롤 정보(1003)이 오직 현재 프레임이 계산을 위해 이용되는 것을 표시할 때, 스펙트럴 프레임 셀렉터(1000)은 오직 현재 프레임 i만을 선택하고 이 정보를 허수 스펙트럼 계산기에 포워딩한다. 그러면, 허수 스펙트럼 계산기는 오직 현재 프레임 i 를 현재 프레임(블록(1008))에 위치한 가중 결합을 수행하기 위해 이용하고, 주파수에 대하여, 현재 스펙트럴 라인 k 주위에 근접하여, 허수 라인은 도10b에서 (1004)에 도시된것처럼 계산되는 것이다. 그러나, 스펙트럴 프레임 셀렉터(1000)은 선행하는 프레임 i-1 그리고 뒤따르는 프레임 i+1 이 허수 스펙트럼의 계산 또한 이용되는 것을 표시하는 컨트롤 정보(1003)을 수신하고, 허수 스펙트럼 계산기는 추가적으로 프레임 i-1 그리고 i+1로부터의 값을 수신하고 프레임 i+1에 대한 (1006) 그리고 프레임 i-1에 대한 (1005)에서 도시된 것처럼 대응하는 프레임들에서 라인들의 가중 결합을 수행한다. 가중 작업들의 결과들은 최종적으로 프레임 fi 에 대한 허수 라인 k 를 얻기 위해 블록(1007)에서 가중 결합에 의해 결합되며 이는 그후 이 라인에 대한 예측 신호를 얻기 위해 구성요소(1160c)에서 예측 정보의 허수 부분에 의해 곱해지며 이는 그후 디코더에 대한 애더(1161b)에서 중간 신호의 대응 라인에 대해 더해진다. 상기 인코더에서, 같은 작업이 수행되나, 구성요소(2034b)에서는 감산(subtraction)이 수행된다.
컨트롤 정보(1003)이 추가적으로 두 써라운딩 프레임들보다 더 많은 프레임들을 이용하는 것 또는, 예를 들어, 오직 현재 프레임 그리고 정확히 하나 또는 그 이상의 선행 프레임들을 이용하되 시스템적인 지연을 감소시키기 위해 "미래(future)" 프레임을 이용하지 않는 것을 표시하는 것이 인식되어야 한다.
추가적으로, 도10b에 도시된 스테이지-방향 가중 결합은 다른 순서에서 수행될 수도 있는데, 첫번째 작업에서, 하나의 프레임으로부터 라인들이 결합되고, 순차적으로, 이 프레임-방향 결합 작업들의 결과들이 그들 자신에 의해 결합된다. 다른 순서는, 첫번째 단계(step)에서, 컨트롤 정보(103)에 의해 표현된 근접한 프레임들의 숫자로부터의 현재 주파수 k에 대하 라인들은 가중 결합에 의해 결합된다는 것을 의미한다. 이 가중 결합은 허수 라인을 측정하기 위해 이용되는 근접한 라인들의 숫자에 기반한 라인들 k, k-1, k-2, k+1, k+2 등등에 의해 수행된다. 이후, 이러한 "시간-방향(time-wise)" 결합들로부터의 결과는 최종적으로 프레임 fi 에 대한 허수 라인 k를 얻기 위한 "주파수 방향(frequency direction)"에서 가중 결합의 대상이다. 가중치들은 -1과 1 사이의 값들로 설정되며, 바람직하게는, 스펙트럴 라인들 또는 다른 주파수들 그리고 다른 프레임들로부터 다른 스펙트럴 신호들의 선형 결합을 수행하는 스트레이트-포워드 FIR 또는 IIR 필터 결합(straight-forward FIR or IIR filter combination)에서 실행될 수 있다. 도6a 그리고 6b에 표시된대로, 바람직한 변형 알고리즘은 도6a 의 구성요소들(50 그리고 51)에서 앞 방향(forward direction)으로 적용되는, 그리고 구성요소(52,53)에서 뒤 방향(backward direction)으로 적용되는 MDCT 변형 알고리즘이며, 스펙트럴 영역에서 결합기(1162) 작업에서 결합 작업 이후이다.
도8a는 블록(50 또는 51)의 더 자세한 실시예를 도시한다. 특히, 시간 영역 오디오 샘플들의 시퀀스는 분석 윈도우어(500)에의 입력이며 이는 분석 윈도우를 이용하여 윈도우윙 작업을 수행하며, 특히 프레임 방식에 의해 프레임에서, 그러나 스트라이드 또는 50%의 오버랩을 이용하여 이 작업을 수행한다. 분석 윈도우어의 결과는, 즉 윈도우된 샘플들의 프레임 시퀀스는, MDCT 변형 블록(501)에 입력되고, 이는 실수치 MDCT 프레임들의 시퀀스를 출력하며, 여기서 이 프레임들은 엘리어싱의 영향을 받는다.(aliasing-affected) 예시적으로, 분석 윈도우어는 2048 샘플들의 길이를 갖는 분석 윈도우들을 적용한다. 그러면, MDCT 변형 블록(501)은 1024 실수 스펙트럴 라인들 또는 MDCT 값들을 갖는 MDCT 스펙트럼들을 출력한다. 바람직하게는, 분석 윈도우어(500) 및/또는 MDCT 변형기(501) 는 윈도우 길이 또는 변형 길이 컨트롤(502)에 의해 조절될 수 있으며, 이는 예를 들어, 신호의 과도 부분들에 대하여, 윈도우 길이/변형 길이가 더 나은 코딩 결과들을 얻기 위해 감소되도록 하기 위함이다.
도 8b는 블록들(52 그리고 53)에서 수행되는 역 MDCT 작업을 도시한다. 예시적으로, 블록(52)는 프레임별로 역 MDCT 변형(frame-by-frame inverse MDCT transform)을 수행하기 위한 블록(520)을 포함한다. 예를 들어, MDCT 값들의 프레임은 1024값들을 갖고, 이 MDCT 역 변형의 출력은 2048 앨리어싱 영향받은 시간 샘플들(aliasing-affected time samples)을 갖는다. 그런 프레임은 합성 윈도우어(521)에 공급되고, 이는 합성 윈도우를 2048 샘플들의 이 프레임에 적용한다. 윈도우된 프레임(windowed frame)은 이후 오버랩/애드 프로세서(522)에 포워딩되고, 이는 예를 들어, 두개의 순차적인 프레임들에 50% 오버랩을 적용하며, 그리고 이후, 샘플별 추가(sample by sample addition)를 수행하며 2048 샘플들 블록은 최종적으로 앨리어싱 없는 출력 신호의 1024 새 샘플들을 도출하게 된다. 다시, 정보를 이용한 윈도우/변형 길이를 적용하는 것이 바람직하며, 이는 예를 들어, (523)에 표시된 것처럼 인코딩된 멀티채널 신호의 측면 정보에서 전송된다.
α 예측 값들은 MDCT 스펙트럼의 각 개별 스펙트럴 라인에 대해 계산될 수 있다. 그러나, 이것이 필요하지 않고 측면 신호의 상당한 양이 예측 정보의 밴드방향 계산을 수행하는 것에 의해 세이브(save)될 수 있다는 것이 발견되었다. 다르게 언급하면, 도9에 도시된 스펙트럴 변환기(50)는 예를 들어, 도9b에 도시된 특정 스펙트럴 라인들을 갖는 고주파수 해상도 스펙트럼을 제공하는 도8a의 문맥에서 논의된 MDCT 프로세서이다. 이 고주파수 해상도 스펙트럼은 스펙트럴 라인 셀렉터(90)에 의해 이용되며 이는 특정 대역들 B1, B2, B3, ..., BN을 포함하는 저주파수 해상도 스펙트럼을 제공한다. 이 저주파수 해상도 스펙트럼은 예측 정보를 계산하기 위해 옵티마이저(207)에 포워딩되며 예측 정보는 각 스펙트럴 라인에 대해서가 아니라 각 대역에 대해서만 계산된다. 이 끝에 대해, 옵티마이저(207)은 대역당 스펙트럴 라인들을 수신하고 같은 α값이 대역에서 모든 스펙트럴 라인들에 대해 이용되는 가정으로부터 시작되는 최저화 작업을 계산한다.
바람직하게는, 대역들은 음향심리학적인 방법으로 형상화되고 대역들의 대역폭은 도9b에 도시된 것처럼 더 낮은 주파수로부터 더 높은 주파수들로 증가한다. 대안적으로, 비록 증가하는 대역폭 실시예처럼 바람직하지는 않지만, 같은 크기 주파수 대여들 또한 이용될 수 있고, 여기서 각 주파수 대역은 적어도 둘 또는 전형적으로 더 많은, 최소 30 주파수 라인처럼 주파수 라인들을 갖는다. 전형적으로, 1024 스펙트럴 라인들 스펙트럼에 대하여, 30 복소 α값들보다 작은, 바람직하게는 5α값들보다 큰 값들이 계산된다. 1024 스펙트럴 라인들보다 작은 (예를 들어 128라인) 스펙트럼들에 대해, 바람직하게는, 더 적은 주파수 대역들(예를 들어 6)이 α에 대하여 이용된다.
α값들을 계산하기 위해 고해상도 MDCT 스펙트럼이 필수적으로 요구되는 것은 아니다. 대안적으로, α값들을 계산하기 위해 필요한 해상도에 유사한 주파수 해상도를 갖는 필터뱅크 또한 이용될 수 있다. 주파수에서 증가하는 대역들이 실행될 때, 이 필터뱅크는 다양한 대역폭을 가져야 한다. 그러나, 낮은 주파수들부터 높은 주파수들까지의 일정한 대역폭이 충분하면, 동일-너비 부대역들과 함께 전통적인 필터뱅크가 이용될 수 있다.
실시예에 기반하여, 도3b 또는 4b에 도시된 α값의 표시는 역전(reversed)될 수 있다. 그러나, 일관되게 유지하기 위해, 디코더 측면에서 뿐만아니라 인코더 측면에서 이용되는 표시의 이 역전이 필요하다. 도6a와 비교하여, 도5a 는 인코더의 일반화된 시각을 도시하며, 여기서 아이템(2033)은 예측기 컨트롤 정보(206)에 의해 컨트롤되는 예측기이며, 이는 아이템(207)에서 결정되고 그것은 비트스트림의 측면 정보에 따라 내장된다(embedded). 도6a의 블록들(50, 51)에서 이용된 MDCT 대신에, 일반화된 시간/주파수 변형이 도5a에서 논의된대로 이용된다. 일찍이 요약된대로, 도6a는 도6b에서 디코더 프로세서에 대응하는 인코더 프로세스이며, 여기서 L은 왼쪽 채널 신호를 의미하고, R은 오른쪽 채널 신호를 의미하며, M은 중간 신호 또는 다운믹스 신호를 의미하고, S는 측면 신호를 의미하고 D는 잔류 신호를 의미한다. 대안적으로, L은 제1채널 신호(201)로도 불리며, R은 제2채널 신호(202)로도 불리고, M은제1 결합 신호(204)로도 불리고 S는 제2 결합 신호(2032)로도 불린다.
바람직하게는, 인코더의 모듈들(2070) 그리고 디코더의 (1160a)는 맞는 파형 코딩을 확실히 하기 위해 정확히 매치해야 한다. 이는 상기 경우에 바람직하게 적용하며, 여기서 이 모듈들은 절단된 필터들같은 근사의 몇몇 형태를 이용하며, 또는 세 MDCT 프레임들 대신에 하나 또는 둘 만을 이용하는 경우에, 즉 라인(60)에서 현재 MDCT 프레임에서, 라인(61)에서 선행 MDCT 프레임 그리고 라인(62)에서 다음 MDCT 프레임같은 경우이다.
추가적으로, 도6a의 인코더에서 모듈(2070)은 비-양자화된 MDCT 스펙트럼 M을 입력으로 이용하는 것이 바람직하나, 다만 디코더의 실수-to-허수(R2I) 모듈 (1160a)이 입력으로 이용가능한 양자화된 MDCT 스펙트럼만을 갖는다. 대안적으로, 하나 또한 실시예로 이용할 수 있으며 여기서 인코더는 양자화된 MDCT 계수를 모듈(2070)에의 입력으로 이용한다. 그러나, 비-양자화된 MDCT 스펙트럼을 모듈(2070)에의 입력으로 이용하는 것은 지각적인 관점의 면에서 바람직한 접근이다. 이후에, 본발명의 실시예들의 몇몇 관점들이 더 자세히 논의된다.
USAC 시스템에서 스테레오 코딩에 기반한 MPEG Surround (MPS) 같은, 평균적인 파라메트릭 스테레오 코딩은 앨리어싱 아티팩트(aliasing artifacts)들의 도입 없이 시간 그리고 주파수-변화 지각적 동기화된 신호 프로세싱(time- and frequency-varying perceptually motivated signal processing) 을 가능케하기 위한 오버샘플링된 복소 하이브리드(hybrid) QMF 영역의 능력에 의존한다.
그러나, 다운믹수/잔류 코딩(여기서 고려된 높은 비트레이트에 대해 이용되는) 경우에, 잔류 통합 스테레오 코더는파형 코더로 동작한다. 이는 임계 샘플링된 영역에서, MDCT 영역처럼, 작업을 가능하게 하며, MDCT-IMDCT 프로세싱 체인의 앨리어싱 취소 특성을 확보하는 파형 코딩 패러다임은 충분히 잘 보존되기 때문이다. 그러나, 향상된 코딩 효율의 이용을 가능하게 하는 것은 복소치 예측 계수 α에 의한 채널간 시간 또는 위상 차이들의 스테레오 신호들 경우에 달성될 수 있으며, 다운믹스 신호 DMX의 복소값 주파수 영역 표현은 복소값 업믹스 매트릭스(upmix matrix)에 대한 입력처럼 요구된다. 이는 DMX 신호를 위한 MDCT 변형에 더하여 MDST 변형을 이용하여 얻어질 수 있다. MDST 스펙트럼은 (정확히 또는 근사로) MDCT 스펙트럼으로부터 계산될 수 있다.
게다가, 업믹스 매트릭스의 파라미터화(parameterization of the upmix matrix)는 MPS 파라미터들 대신에 복소 예측 계수 α를 전송하는 것에 의해 단순화 될 수 있다. 이런 이유로, 오직 두 파라미터들(α의 실수 그리고 허수 부분)이 셋(ICC, CLD, 그리고 IPD) 대신에 전송된다. 이는 다운믹스/잔류 코딩의 경우 MPS 파라미터화에서 중복 때문에 가능하다. MPS 파라미터화는 디코더에서 추가되기 위한 디코릴레이션(decorrelation)의 상대적 양에 대한 정보(즉, RES 그리고 DMX 신호들 사이의 에너지)를 포함하며, 이 정보는 실제 DMX 그리고 RES 신호들이 전송될 때 과잉된다.
같은 이유 때문에, 다운믹스/잔류 코딩의 경우 이득 인수는 쓸모없다. 이런 이유로, 복소 예측과 함께 다운믹스/잔류 코딩에 대한 업믹스 매트릭스는 이제,
Figure pct00001
이다.
도 4b의 방정식(1169)와 비교하여 α표시는 이 방정식에서 역전되며, DMX=M 이고 RES=D이다. 이는, 그래서, 도4b에 대한 대안적 실시예/표기법이다. 인코더의 예측 잔류 신호를 계산하기 위해 두개의 옵션들(options)이 이용가능하다. 하나의 옵션은 양자화된 다운믹스의 MDCT 스펙트럴 값들을 이용하는 것이다. 인코더와 디코더가 예측을 발생시키기 위해 같은 값들을 이용하기 때문에, 이는 M/S 코딩에 따라 동일 양자화 에러 분포를 도출한다. 다른 옵션은 비-양자화 MDCT 스펙트럴 값들을 이용하는 것이다. 이는 인코더와 디코더가 예측을 발생시키기 위해 동일 데이타를 이용하지 않을 것이라는 것을 시사하며, 이는 다소 감소된 코딩 이득 비용에서 신호의 즉각적인 마스킹(masking) 특성들에 따른 코딩 에러의 공간적 재분포를 감안한다.
논의된대로 세 근접 MDCT 프레임들의 2차원적 FIR 필터링에 의해 주파수 영역에서 MDST 스펙트럼을 직접적으로 계산하는 것이 바람직하다. "실수-to-허수" (R2I) 변형처럼 다음 내용이 고려될 수 있다. MDST의 주파수 영역 계산의 복잡성이 다른 방법들로 감소될 수 있고, 이는 MDST 스펙트럼의 근사치만이 계산된다는 것을 의미한다:
● FIR 필터 탭들 숫자의 제한
● 현재 MDCT 프레임만으로부터 MDST 측정
● 현재 그리고 이전 MDCT 프레임으로부터의 MDST 측정
같은 근사가 인코더와 디코더에서 이용되는 한, 파형 코딩 특성들은 영향받지 않는다. 그러나, MDST 스펙트럼의 근사들 같은 경우 복소 예측에 의해 얻어지는 코딩 이득에서 감소(reduction)를 이끌 수 있다.
근본적인 MDCT 코더는 윈도우-형태 스위칭을 지원하며, MDST 스펙트럼을 계산하기 위해 이용되는 2차원 FIR 필터는 실제 윈도우 형태들에 조정되어야(adapted) 한다. 완전한 윈도우에 기반한 현재 프레임의 MDCT 스펙트럼에 적용되는 필터 계수들은, 즉, 계수들의 집합은 모든 윈도우 타입(window type)과 모든 윈도우 전이(window transtion)에 필요하다. 이전/다음 프레임의 MDCT 스펙트럼에 적용되는 필터 계수들은 현재 프레임에 오직 절반이 오버랩핑된 윈도우에 의존하며, 즉, 이러한 계수들의 집합은 각 윈도우 타입에 대해서만 요구된다.(전이(transitions)들에 대한 추가적 계수들 없음)
근사에서 이전 및/또는 다음 MDCT 프레임을 포함하여 근본적인 MDCT 코더가 변형-길이 스위칭(transform-length switching)을 이용한다면, 다른 변형 길이들 사이의 전이(transitions)들 주위에서 더욱 복잡해진다. 현재 그리고 이전/다음 프레임에서 MDCT 계수들의 다른 숫자 때문에, 2차원적 필터링은 이 경우에 더 복잡하다. 계산적 그리고 구조적 복잡성 증가를 피하기 위해, 이전/다음 프레임은 변형-길이 전이들에서, 각 프레임들에 대한 근사의 감소된 정확성 값에서, 필터링으로부터 제외될 수 있다.
게다가, MDST 스펙트럼(DC 그리고 fs/2에 가까운) 가장 낮고 가장 높은 부분에 대한 특별한 관리가 취해질 필요가 있는데, 여기서 요구되는 것보다 더 적은 써라운딩 MDCT 계수들이 FIR 필터링에 이용가능하다. 여기서 필터링 프로세스는 MDST 스펙트럼을 정확히 계산하기 위해 조정되는 것이 필요하다. 이는 (시간 불연속 신호들의 주기적 스펙트럼들에 따른) 손실된 계수들에 대한 MDCT 스펙트럼 시메트릭 연장(symmetric extension of the MDCT spectrum for the missing coefficients)이든, 또는 그에 맞춰 필터 계수들을 조정하는 것에 의해서든 수행될 수 있다. 이러한 특별 경우들의 처리는 물론 MDST 스펙트럼의 경계선의 부근의 감소된 정확성 값에서 단순화될 수 있다.
디코더에서 전송된 MDCT 스펙트럼들로부터 정확한 MDST 스펙트럼을 계산하는 것은 하나의 프레임에 의한 디코더 지연(딜레이, delay)를 증가시킨다. (여기서 1024 샘플들이라고 간주된다) 추가적 지연은 MDST 스펙트럼의 근사를 이용하는 것에 의해 피할 수 있으며 이는 입력처럼 다음 프레임의 MDCT 스펙트럼을 요구하지 않는다.
다음 불렛 리스트(bullet list)는 QMF 기반 통합 스테레오 코딩에 대한 MDCT 기반 통합 스테레오 코딩의 이득을 요약한다:
● 계산적 복잡성만 조금 증가(SBR이 이용되지 않을 때)
● MDCT 스펙트럼들이 양자화되지 않는다면 완벽한 복원을 증대시킴(스케일 업, scale up). 이는 QMF 기반 통합 스테레오 코딩의 경우가 아님을 주목해야한다.
● 자연스런 결합 그리고 M/S 코딩의 연장 그리고 집중 스테레오 코딩(Natural unification and extension of M/S coding and intensity stereo coding.)
● 스테레오 신호 프로세싱 그리고 양자화/코딩이 빽빽히 커플링되기(tightly coupled) 때문에, 인코더 튜닝을 단순화하는 더 깨끗한 구조. QMF 기반 통합 스테레오 코딩, MPS 프레임들 그리고 MDCT 프레임들이 정렬되지 않고 스케일 인수 대역들이 (scale factor bands) MPS 파라미터 대역들에 매치되지 않는 것을 주목해야한다.
● MPEG Surround (ICC, CLD, IPD) 에서처럼 세 파라미터들 대신에 오직 두 파라미터들(복소 α)만 전송되어야 하기 때문에, 스테레오 파라미터들의 효율적 코딩.
● MDST 스펙트럼이 근사로 계산되는 경우 추가적인 디코더 지연이 없음.(다음(next) 프레임을 이용하지 않음)
실시예의 중요 특성들이 다음처럼 요약될 수 있다:
a) MDST 스펙트럼들은 현재, 이전, 그리고 다음 MDCT 스펙트럼들로부터 2차원 FIR 필터링에 의해 계산된다. MDST 계산(근사)에 대한 다른 복잡성/품질 트레이드-오프(trade-offs)가 이용된 MDCT 프레임들의 숫자 및/또는 FIR 필터 탭들(FIR filter taps)의 숫자 감소에 의해 가능하다. 특히, 근접 프레임은 전송 또는 변형길이 스위칭 동안의 프레임 손실 때문에 이용가능하지 않으며, 그런 특정 프레임은 MDST 측정으로부터 제외된다. 변형 길이 스위칭의 경우에 대하여 제외(exclusion)는 비트스트림에서 시그널링 된다.
b) 오직 두 파라미터들, 복소 예측 계수 α의 실수 그리고 허수 부분은 ICC, CLD, 그리고 IPD 대신에 전송된다. α의 실수 그리고 허수 부분들은 독립적으로 처리되며, 범위 [-3.0, 3.0] 로 제한되며 0.1의 스텝 사이즈(setp size)로 양자화된다. 만약 특정 파라미터(α의 실수 또는 허수 부분)이 주어진 프레임에서 이용되지 않는다면, 이는 비트스트림에서 시그널링 되며(signaled), 관계없는 파라미터들은 전송되지 않는다. 파라미터들은 시간-구별 또는 주파수-구별 코딩되고(time-differentially or frequency-differentially coded ) 최종적으로 허프만 코딩(Huffman coding)이 스케일 인수 코드북(scale factor codebook)을 이용하여 적용된다. 예측 계수들은 업데이트된 모든 제2 스케일 인수 대역이고, 이는 MPEG Surround 에 유사한 주파수 해상도를 도출한다. 이 양자화 그리고 코딩 설계(quantization and coding scheme)는 96kb/s의 타겟 비트레이트를 갖는 전형적인 배치 내의 스테레오 측면 정보에 대해 근사적으로 2kb/s 평균 비트레이트를 도출한다.
바람직한 추가적 또는 대안적 실시예의 세부사항은 다음을 포함한다:
c) α의 두 파라미터들 각각에 대해, 하나는 비-차분(non-differential) (PCM) 또는 차분(differential) (DPCM) 코딩을 프레임당(per-frame) 또는 스트림당(per-stream) 기반에서 선택할 수 있고, 비트 스트림에서 대응하는 비트(corresponding bit)에 의해 시그널링 된다. DPCM 코딩에 대해, 시간- 또는 주파수- 차분 코딩이 가능하다. 다시, 이는 원-비트 플래그(one-bit flag)를 이용하여 시그널링 될 수 있다.
d) AAC 스케일 인수 북 같은 미리 설정된 코드 북을 다시 이용하는 대신에, 하나(one)는 α파라미터 값을 코딩하기 위한 전용 불변 또는 신호-적응 코드북을 활용할 수도 있고, 또는 하나(one)가 무부호(unsigned) 고정-길이(예를 들어 4-bit) 또는 2의 보수 코드 워드들(two's complement cord words) 로 복귀할 수 있다.
e) 파라미터 양자화 스텝 크기(parameter quantization step size) 뿐 아니라 α파라미터의 범위 값들은 임의로 선택되고 가까운 신호 특성들에 최적화될 수 있다.
f) 유효 α파라미터 대역들의 숫자 그리고 스펙트럴 및/또는 시간적 너비는 임의적으로 선택되고 주어진 신호 특성들에 최적화될 수 있다. 특히, 대역 배치는 프레임당 또는 스트림당 기반(per-frame or per-stream basis)으로 시그널링 될 수 있다.
g) 위 a)에서 요약된 메커니즘에 추가하여 또는 그 대신에, 비트스트림에서 프레임당 비트에 의하여 명시적으로 시그널링 될 수 있고, 현재 프레임의 MDCT 스펙트럼은 MDST 스펙트럼 근사를 계산하기 위하여 이용되고, 즉 근접 MDCT 프레임들은 고려되지 않는다.
실시예는 MDCT 영역에서 통합 스테레오 코딩에 대한 발명의 시스템에 관련된다. QMF 기반 접근을 동반하는 계산적 복잡성의 상당한 증가 없이 더 높은 비트레이트(여기서 SBR은 이용되지 않는다)의 MPEG USAC system에서 통합된 스테레오 코딩의 이득을 활용하는 것이 가능하다.
다음 두 리스트는 이전에 설명된 바람직한 구성 관점을 요약하며, 이는 다른 관점에 추가하여 또는 서로 대안적으로 이용될 수 있다.
1a) 일반 개념(general concept) : 중간 MDCT 그리고 MDST로부터 측면 MDCT 복소치 예측 ;
1b) 주파수 영역에서 하나 또는 그 이상의 프레임들(3-프레임 접근(3-frames approach)은 지연을 도입할 수 있다.)을 이용하여 MDCT로부터 MDST 를 계산/근사 ("R2I 변형");
계산적 복잡성의 감소를 위한 필터의 절단(1-프레임 2-탭으로 내려감, 예를 들어 [-1 0 1]);
1d) DC 그리고 fs/2 주위의 변형 계수들의 적절한 처리;
1e) 윈도우 형태 스위칭의 적당한 처리;
1f) 다른 변형 크기를 갖는 경우 이전/다음 프레임을 이용하지 않음;
1g) 인코더에서 비-양자화된 또는 양자화된 MDCT 계수들에 기반한 예측;
2a) 복소 예측 계수의 실수 그리고 허수 부분을 직접적으로 양자화 또는 코딩(즉, 비 MPEG Surround 파라미터화, no MPEG Surround parameterization);
2b) 이에 대한 균일 양자화기의 이용 (스텝 크기는 예를 들어 0.1);
2c) 예측 계수들에 대한 적절한 주파수 해상도의 이용(예를 들어 2 스케일 인수 대역들 당 1 계수);
2d) 모든 예측 계수들의 경우 질낮은 시그널링은 실수치;
2e) 1-프레임 R2I 작업을 강제하는 프레임당 명시적 비트는, 즉 이전/다음 프레임을 이용하지 않는다.
실시예에서, 상기 인코더는 추가적으로 다음을 포함한다:
두 채널 신호들의 시간 영역 표현을 두 채널 신호들에 대한 부대역 신호들을 갖는 두 채널 신호들의 스펙트럴 표현으로 변환하기 위한 스펙트럴 변환기(50,51), 여기서 결합기(2031), 예측기(2033) 그리고 잔류 신호 계산기(2034)는 각 부대역 신호를 개별적으로 프로세스하기 위해 구성되며 제1 결합 신호 그리고 잔류 신호는 다수의 부대역들에 대해 얻어지며, 여기서 출력 인터페이스(212)는 다수의 부대역들에 대한 인코딩된 제1결합 신호 그리고 인코딩된 잔류 신호를 결합하기 위해 구성된다.
비록 몇몇 관점들은 장치의 문맥에서 설명되었지만, 이러한 관점들은 대응하는 방법의 설명 또한 표현하는 것이 명백하며, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 관점들은 또한 대응하는 장치의 블록 또는 아이템 또는 특징의 설명 또한 표현한다. 본 발명의 실시예에서, 윈도우 형태 스위칭의 적당한 처리가 적용된다. 도10a가 고려될 때, 윈도우 형태 정보(109)는 허수 스펙트럼 계산기(1001)에 입력될 수 있다. 특히, MDCT 스펙트럼같은 (도 6a의 구성요소(2070) 또는 도6b의 구성요소(1160a)같은) 실수치 스펙트럼의 실수-to-허수 변환을 수행하는 허수 스펙트럼 계산기는 FIR 또는 IIR 필터처럼 실행될 수 있다. 이 실수-to-허수 모듈(1001)에서 FIR 또는 IIR 계수들은 현재 프레임의 왼쪽 절반 그리고 오른쪽 절반의 윈도우 형태에 의존한다. 이 윈도우 형태는 사인 윈도우(sine window) 또는 KBD(Kaiser Bessel Derived) 윈도우와 다를 수 있고, 주어진 윈도우 시퀀스 구성의 대상이 될 수 있고, 긴 윈도우(long window), 스타트 윈도우, 스탑 윈도우, 스탑-스타트 윈도우, 또는 짧은 윈도우(short window)가 될 수 있다. 실수-to-허수 모듈은 2차원 FIR 필터를 포함할 수 있고, 여기서 1차원은 다음 두 MDCT 프레임들(two subsequent MDCT frames)이 FIR 필터에 입력되는 시간 차원이고, 다른 차원은 프레임의 주파수 계수들이 입력되는 주파수 차원이다.
다음의 표는 다른 윈도우 형태들의 현재 윈도우 시퀀스 그리고 윈도우의 왼쪽 절반 그리고 오른쪽 절반(the left half and the right half of the window)의 다른 실시예들에 대해 다른 MDST 필터 계수들을 준다.
표 A - 현재 윈도우의 MDST 필터 파라미터들
현재 윈도우 시퀀스
( Current Window Sequence )
왼쪽 절반 : 사인 형태
오른쪽 절반 : 사인 형태
( Left Half : Sine Shape )
( Right Half : Sine Shape )
왼쪽 절반 : KBD 형태
오른쪽 절반 : KBD 형태
( Left Half : KBD Shape )
( Right Half : KBD Shape )
ONLY_LONG_SEQUENCE,
EIGHT_SHORT_SEQUENCE
[0.000000,0.000000,0.500000,
0.000000,
-0.500000, 0.000000, 0.000000 ]
[0.091497,0.000000, 0.581427,
0.000000,
-0.581427, 0.000000, -0.091497 ]
LONG_START_SEQUENCE [0.102658,0.103791,0.567149,
0.000000,
-0.567149,-0.103791,-0.102658 ]
[0.150512,0.047969,0.608574,
0.000000,
-0.608574,-0.047969,-0.150512]
LONG_STOP_SEQUENCE [0.102658,-0.103791,0.567149,
0.000000,
-0.567149,0.103791,-0.102658 ]
[0.150512,-0.047969,0.608574,
0.000000,
-0.608574,0.047969,-0.150512]
STOP_START_SEQUENCE [0.205316,0.000000,0.634298,
0.000000,
-0.634298,0.000000,-0.205316 ]
[0.209526,0.000000,0.635722,
0.000000,
-0.635722,0.000000,-0.209526 ]
현재 윈도우 시퀀스
( Current Window Sequence )
왼쪽 절반 : 사인 형태
오른쪽 절반 : KBD 형태
( Left Half : Sine Shape )
( Right Half : KBD Shape )
왼쪽 절반 : KBD 형태
오른쪽 절반 : 사인 형태
( Left Half : KBD Shape )
( Right Half : Sine Shape )
ONLY_LONG_SEQUENCE,
EIGHT_SHORT_SEQUENCE
[0.045748,0.057238,0.540714,
0.000000,
-0.540714,-0.057238,-0.045748 ]
[0.045748,-0.057238, 0.540714,
0.000000,
-0.540714,0.057238,-0.045748 ]
LONG_START_SEQUENCE [0.104763,0.105207,0.567861,
0.000000,
-0.567861,-0.105207,-0.104763]
[0.148406,0.046553,0.607863,
0.000000,
-0.607863,-0.046553,-0.148406]
LONG_STOP_SEQUENCE [0.148406,-0.046553,0.607863,
0.000000,
-0.607863,0.046553,-0.148406]
[0.104763,-0.105207,0.567861,
0.000000,
-0.567861,0.105207,-0.104763]
STOP_START_SEQUENCE [0.207421,0.001416,0.635010,
0.000000,
-0.635010,-0.001416,-0.207421]
[0.207421,-0.001416, 0.635010,
0.000000,
-0.635010,0.001416,-0.207421]
추가적으로, 이전 윈도우가 MDCT 스펙트럼으로부터 MDST 스펙트럼을 계산하기 위해 이용될 때, 윈도우 형태 정보(109)는 이전 윈도우에 대한 윈도우 형태 정보를 제공한다. 이전 윈도우에 대해 대응하는 MDST 필터 계수들은 다음 표에서 현재 윈도우 시퀀스의 기능과 형태에 따라 주어진다.
표 B - 이전 윈도우에 대한 MDST 필터 파라미터들
현재 윈도우 시퀀스
( Current Window Sequence )
현재 윈도우의 왼쪽 절반
: 사인 형태
( Left Half of Current Window: Sine Shape )
현재 윈도우의 왼쪽 절반
: KBD 형태
( Left Half of Current Window: KBD Shape )
ONLY_LONG_SEQUENCE,
LONG_START_SEQUENCE,
EIGHT_SHORT_SEQUENCE
[0.000000,0.106103,0.250000,
0.318310,
0.250000,0.106103,0.000000 ]
[0.059509,0.123714,0.186579,
0.213077,
0.186579,0.123714,0.059509 ]
LONG_STOP_SEQUENCE,
STOP_START_SEQUENCE
[0.038498,0.039212,0.039645,
0.039790,
0.039645,0.039212,0.038498 ]
[0.026142,0.026413,0.026577,
0.026631,
0.026577,0.026413,0.026142 ]
이런 이유로, 윈도우 형태 정보(109)에 의존하여, 도 10a 의 허수 스펙트럼 계산기(1001)는 필터 계수들의 다른 집합들을 적용하는 것에 의해 조정된다.
디코더 측면에서 이용되는 윈도우 형태 정보는 인코더 측면에서 계산되고 인코더 출력 신ㅎ와 함께 측면 정보에 따라 전송된다. 디코더 측면에서, 윈도우 형태 정보(109)는 비트스트림 디멀티플렉서(예를 들어 도5b의 102)에 의해 비트스트림으로부터 추출되며 도10a에 도시된것처럼 허수 스펙트럼 계산기(1001)에 제공된다.
윈도우 형태 정보(109)가 이전 프레임이 다른 변형 크기를 가졌던 신호를 보낼 때, 이전 프레임은 실수치 스펙트럼으로부터 허수 스펙트럼 계산을 위해 이용되지 않는 것이 바람직하다. 다음 프레임이 다른 변형 크기를 갖는다는 윈도우 형태 정보(109)를 해석하는 것에 의해 발견될 때 동일한 것이 적용된다. 다음 프레임은 실수치 스펙트럼으로부터 허수 스펙트럼을 계산하기 위해 이용되지 않는다. 예를 들어, 이전 프레임이 현재 프레임과는 다른 변형 크기를 가지는 등의 경우에 있어서, 그리고 다음 프레임이 다시 현재 프레임과 비교하여 다른 변형 크기를 갖는 때, 오직 현재 프레임, 즉 현재 윈도우의 스펙트럴 값들은, 허수 스펙트럼을 측정하기 위해 이용된다.
인코더에서의 예측은 MDCT 계수들처럼 비-양자화 또는 양자화된 주파수 계수들에 기반한다. 도3a 구성요소(2033)에 도시된 예측이, 예를 들어, 비양자화된 데이타에 기반할 때, 잔류 계산기(2034)는 또한 바람직하게 비양자화 데이타에서 작동되며, 잔류 계산기 출력 신호, 즉 잔류 신호(205)는 엔트로피-인코딩되고 디코더로 전송되기 전에 양자화된다. 그러나 대안적 실시예에서, 상기 예측은 양자화된 MDCT 계수들에 기반하는 것이 바람직하다. 그러면, 양자화는 도3a의 결합기(2031)이전에 일어날 수 있고, 제1 양자화된 채널과 제2 양자화된 채널은 잔류 신호를 계산하기 위한 기반(basis)이 된다. 대안적으로, 양자화는 결합기(2031) 이후에 일어날 수도 있으며 이는 제1결합 신호와 제2결합 신호는 비양자화된 형식에서 계산되고 잔류 신호가 계산되기 전에 양자화도록 하기 위함이다. 다시, 대안적으로, 예측기(2033)는 비-양자화된 영역에서 작동(operate)할 수 있고 그리고 예측 신호(2035)는 잔류 계산기에 입력되기 전에 양자화된다. 이후, 제2 결합 신호(2032)는 유용한데, 이는 또한 잔류 계산기(2034)에 입력되며, 잔류 계산기가 도 6a에서 잔류 신호 D를 계산하기 전에 양자화되고, 이는 도3a의 예측기(2033) 내에서 실행될 수 있고, 디코더 측면에서 이용가능한 것처럼 동일 양자화된 데이타에서 작동한다. 이후, 잔류 신호의 계산을 수행하기 위한 목적의 인코더에서 측정된 MDST 스펙트럼은 역 예측, 즉 잔류 신호로부터 측면 신호를 계산하는 것을 수행하기 위해 이용되는 디코더 측면에서 MDST 스펙트럼과 정확히 동일하다. 이를 위하여, 도6a 라인(204)의 신호 M같은 제1결합 신호는 블록(2070)에 입력되기 전에 양자화된다. 그러면, 현재 프레임의 양자화된 스펙트럼을 이용하여 계산되는 MDST 스펙트럼, 그리고 컨트롤 정보에 의존하는, 이전 또는 다음 프레임의 양자화된 MDCT 스펙트럼은 멀티플라이어(multiplier, 2074)에 입력되고, 도6a의 멀티플라이어(2074)의 출력은 다시 비양자화된 스펙트럼이 될 것이다. 이 비양자화된 스펙트럼은 애더(adder, 2034b)에 입력되는 스펙트럼에서 빼질 것이며(subtracted) 그 결과는 최종적으로 양자화기(quantizer, 209b)에서 양자화될 것이다.
하나의 실시예에서, 예측 대역당 복소 예측 계수의 실수 부분 그리고 허수 부분은 바로, 즉 예시 MPEG Surround 파라미터화 없이(without for example MPEG Surround parameterization), 양자화되고 인코딩된다. 양자화는, 예를 들어 0.1 스텝 크기의, 균일 양자화기를 이용하여 수행될 수 있다. 이는 어떠한 대수적 양자화 스텝 크기들(logarithmic quantization step sizes) 또는 그 유사한 것들도 적용되지 않지만, 어떠한 선형 스텝 사이즈들은 적용된다는 것을 의미한다. 실시예에서, 복소 예측 계수의 실수 부분 그리고 허수 부분에 대한 값 범위는 -3에서 3까지이고 이는 60을 의미하며, 실시예의 세부사항들에 의존하여, 61 양자화 스텝들은 복소 예측 계수의 실수 부분 그리고 허수 부분에 대해 이용된다는 것이다.
바람직하게, 도6a의 멀티플라이어(2073)에서 적용된 실수 부분 그리고 도6a에서 적용된 허수 부분(2074)는 적용되기 전에 양자화되며, 다시, 예측과 같은 값은 디코더 측면에 이용가능한 것처럼 인코더 측면에서 이용된다. 이는 예측 잔류 신호는 - 도입된 양자화 에러로부터 떨어져서 - 일어날 수 있는 어떤 에러들을 커버하며, 이는 비-양자화된 예측 계수가 인코더 측면에서 적용되는 반면 양자화된 예측 계수는 디코더 측면에 적용될 때이다. 바람직하게는, 양자화는 - 가능한한 - 같은 상황과 같은 신호들이 인코더 측면과 디코더 측면에서 이용가능한 방법으로 적용된다. 이런 이유로, 양자화기(209a)에 적용되는 것과 같은 양자화를 이용하여 실수-to-허수 계산기(2070)에 대한 입력을 양자화하는 것이 바람직하다. 추가적으로, 아이템(2073)과 아이템(2074)의 곱을 수행하기 위해 예측 계수 α의 실수 부분 그리고 허수 부분을 양자화하는 것이 바람직하다. 양자화는 양자화기(2072)에 적용된 것과 동일하다. 추가적으로, 도6a의 블록(2031)에 의해 출력되는 측면 신호는 애더들(adders, 2034a 그리고 2034b) 전에 양자화될 수 있다.그러나, 이러한 애더들에 의한 추가(addition)를 비양자화된 측면 신호와 함께 적용하는 경우 추가(addition) 다음에 양자화기(209b)에 의해 양자화를 수행하는 것이 문제가 있는 것은 아니다.
본 발명의 추가 실시예에서, 모든 예측 계수들이 실수인 경우의 질낮은 시그널링이 적용된다. 그것은 특정 프레임에 대한, 즉, 오디오 신호의 동일 시간 부분(same time portion)에 대한 모든 예측 계수들이 실수(real)로 계산되는 상황이 될 수 있다. 그러한 상황은 완전 중간 신호(full mid signal) 그리고 완전 측면 신호(full side signal)이 위상-시프트(phase-shifted)되지 않거나 또는 서로에 대해 오직 조금 위상-시프트되는 때 일어날 수 있다. 비트(bits)를 세이브(save)하기 위해, 이는 단일 실수 표시기(single real indicator)에 의해 표시된다. 그러면, 예측 계수의 허수 부분은 비트스트림에서 0 값을 표현하는 코드워드(codeword)와 함께 시그널링될 필요가 없다. 디코더 측면에서, 비트스트림 디멀티플렉서 같은, 비트스트림 디코더 인터페이스는 이 실수 표시기를 해석할 것이고 그후 허수 부분에 대한 코드워드(codeword)를 찾지 않을 것이나 실수치 예측 계수들만을 나타내는 비트스트림의 대응하는 섹션(section)에 있는 모든 비트들을 추정할 것이다. 게다가, 예측기(2033)은, 프레임의 예측 계수들의 모든 허수 부분들이 0인 표시를 수신할 때, MDST 스펙트럼, 또는 일반적으로 실수치 MDCT 스펙트럼으로부터 허수 스펙트럼을 계산할 필요가 없다. 이런 이유로, 도6b 디코더의 구성요소(1160a)는 비활성화될 것이고 역 예측은 도6b의 멀티플라이어(1160b)에 적용된 실수치 예측 계수를 이용해서만 일어날 것이다. 이는 구성요소(2070)이 비활성화되고 예측이 멀티플라이어(2073)을 이용해서만 일어나는 경우 인코더 측면에 대해서도 동일하다. 이 측면 정보는 바람직하게는 프레임당 추가적 비트처럼 이용되고, 디코더는 실수-to-허수 변환기(1160a)가 프레임에 대해 활성이 되는지 아닌지를 결정하기 위해 프레임에 의해 이 비트 프레임을 읽을 것이다. 이런 이유로, 이 정보를 제공하는 것은 프레임에 대해 0이 되는 예측 계수들의 모든 허수 부분들의 더 효율적인 시그널링 때문에 비트스트림의 감소된 크기를 도출하고, 추가적으로, 예를 들어 모바일 배터리-전원 장치처럼 그런 프로세서의 감소된 배터리 소비가 적용되는 결과를 즉시 도출하는 그런 프레임에 대한 디코더의 복잡성을 크게 감소시킨다.
본 발명의 바람직한 실시예들에 따른 복소 스테레오 예측(The complex stereo prediction)은 채널들간의 레벨 및/또는 위상 차이와 함께 채널 쌍들의 효율적인 코딩을 위한 도구이다. 복소치 파라미터 α를 이용하여, 왼쪽 그리고 오른쪽 채널들은 다음 매트릭스를 통해 복원된다. dmxIm 는 다운믹스 채널 dmxRe 의 MDCT에 대응하는 MDST를 보여준다.
Figure pct00002

위의 방정식은 또다른 표현이고, 이는 α의 실수 부분과 허수 부분에 대한 분열이고 결합된 예측/결합 작업의 방정식을 표현하며, 예측된 신호 S 는 필수적으로 계산되지는 않는다.
다음 데이타 구성요소들은 바람직하게는 이 도구를 위해 이용된다:
cplx _ pred _ all 0: cplx_pred_used[]에 의해 시그널링 되는 것처럼, 몇몇 대역들은 L/R 코딩을 이용한다.
1: 모든 대역들은 복소 스테레오 예측을 이용한다.
cplx _ pred _ used [g][ sfb ] 윈도우 그룹 g당 원-비트 플래그 그리고 스케일 인수 대역 sfb(예측 대역들로부터 맵핑 후)은 다음을 표시한다.
0: 복소 예측은 이용되지 않는다. L/R 코딩이 이용된다.
1: 복소 예측이 이용된다.
complex _ coef 0: 모든 예측 대역들에 대해 αIm = 0 (real-only prediction)
1: αIm 은 모든 예측 대역들에 전송된다.
use _ prev _ frame 0: MDST 측정을 위해 현재 프레임만을 이용한다.
1: MDST 측정을 위해 현재 그리고 이전 프레임을 이용한다.
delta _ code _ time 0: 예측 계수들의 주파수 차분 코딩
1: 예측 계수들의 시간 차분 코딩
hcod _ alpha _q_ re αRe 의 허프만 코드(Huffman code of αRe)
hcod _ alpha _q_ im αIm 의 허프만 코드(Huffman code of αIm)
도13a 는 추가 데이타 구성요소를 도시하는데, 본 발명은 즉, 예측 방향 표시기 pred_dir에 의존한다. 이 데이타 구성요소는 도13a 의 표에 따른 예측의 방향을 표시한다. 이런 이유로, 0의 제1값은 중간으로부터 측면 채널로의 예측을 의미하고, "1"의 값 같은 제2값은 측면으로부터 중간 채널의 예측을 의미한다. 이러한 데이타 구성요소들은 인코더에서 계산되고 스테레오 EH는 멀티-채널 오디오 신호의 측면 정보로 입력된다. 구성요소들은 디코더 측면에서 측면 정보 추출기에 의해 측면 정보로부터 추출되고 대응하는 액션을 수행하기 위해 디코더 계산기를 컨트롤하기 위해 이용된다.
복소 스테레오 예측은 다운믹스 현재 채널 쌍의 MDCT 스펙트럼, complex_coef = 1의 경우, 현재 채널 쌍의 다운믹스 MDST 스펙트럼의 측정, 즉 MDCT 스펙트럼의 허수 대응물(the imaginary counterpart of the MDCT spectrum)을 필요로 한다. 다운믹스 MDST 측정은 현재 프레임의 MDCT 다운믹스로부터, use_prev_frame = 1 의 경우에, 이전 프레임의 MDCT 다운믹스로부터 계산된다. 윈도우 그룹 g와 그룹 윈도우 b의 이전 프레임의 MDCT 다운믹스는 프레임의 복원된 왼쪽 그리고 오른쪽 스펙트럼들로부터 얻어진다.
다운믹스 MDST 측정의 계산은 MDCT 변형에 의존하며, 그 길이는 균등하고, window_sequence 에서, 또한 filter_coefs 그리고 filter_coefs_prev 에서, 그것은 필터 커널들(filter kernels)을 포함하는 배열이고 이전 표들에 따라 유도된다.
모든 예측 계수들에 대해 선행 (시간 또는 주파수에서의) 값들의 차이는 허프만 코드 북(Huffman code book)을 이용하여 코딩된다. 예측 계수들은 어떤 cplx_pred_used = 0 에 대한 예측 대역들에 전송되지 않는다.
역 양자화 예측 계수들 alpha_re 그리고 alpha_im 는 다음에 의해 주어진다.
alpha_re = alpha_q_re*0.1
alpha_im = alpha_q_im*0.1
예측 방향 없이 측면 신호 S가 다운믹스 신호 M과 비교하여 약간 높은 에너지를 갖는 경우 역전 문제들(reversal problems) 들이 일어날수도 있다. 그러한 경우들에 있어서, 특히 M은 아주 낮은 레벨일 때 주로 노이즈 요소들을 구성하는, S에 존재하는 신호의 우세한 부분을 예측하는 것은 어려울 수 있다.
게다가, 예측 계수 α의 값들 범위는 아주 커질 수 있고, 잠재적으로 원치않는 양자화 노이즈의 증폭 또는 패닝(panning)(예를 들어 공간적인 언마스킹(unmasking) 효과들) 때문에 코딩 아티팩트들을 이끄는 것이 될 수 있다.
예를 들기 위하여, 그 하나로 R=-0.9·L 과 함께 조금 패닝(panned) 아웃된 위상 신호 (slightly panned out-of-phase signal with R=-0.9·L)가 고려될 수 있다.
Figure pct00003

이는 다소 큰 최적 예측 인수(optimum prediction factor) 19로 이어진다.
본 발명에 따라, 예측의 방향은 스위칭되며(switched), 이는 최소 계산적 노력과 더 작은 α에서 예측 이득의 증가를 도출한다.
중간 신호 M과 비교하여 높은 에너지를 갖는 측면 신호 S의 경우에, M이 예를 들어 도 13b(2)에 도시된 것처럼 S의 복소치 표현으로부터 예측되기 위하여 예측의 방향을 역전시키는 것에 관심을 두게 된다. 예측의 방향을 스위칭시킬 때, M은 S로부터 예측되고, 추가적 MDST는 바람직하게는 S를 위해 필요하고, MDST는 M에 필요없다. 추가적으로, 이 경우에, 도13b(1)dml 제1 대안에서처럼 중간 신호 대신에, (실수치) 측면 신호는 잔류신호와 예측 정보 α와 함께 디코더에 전송된다.
예측 방향의 스위칭은 프레임당 기반(per-frame basis)으로,즉 시간 축에서, 대역당 기반(per-band basis)으로, 즉 주파수 축에서, 또는 그들의 결합에 의해 수행될 수 있으며 대역과 주파수의 스위칭이 허용된다. 이는 각 프레임 그리고 각 대역에 대해 (조금) 예측 방향 표시기를 도출하나, 각 프레임에 대해 단일 예측 방향을 허용하는 것이 유용할 수 있다.
이를 위하여, 예측 방향 계산기(219)가 제공되며, 이는 도12a에 도시된다. 다른 도면에서처럼, 도12a는 MDCT 스테이지(50/51), 중간/측면 코딩 스테이지(2031), 실수-to-복소 변환기(2070), 예측 신호 계산기(2073/2074) 그리고 최종 잔류 신호 계산기(2034)을 도시한다. 추가적으로, 예측 방향-컨트롤 M/S 스왑퍼(swapper) 507가 구비되며 이는 도11a에 도시된 다른 두 예측 규칙들(502,503)을 실행하기 위해 구성되며 유용하다. 제1예측 규칙은 스와퍼(507)가 제1 상태(스테이트, state)에 있는 것이며, 즉 여기서 M 그리고 S는 스왑되지 않는다.(not swapped) 제2 예측 규칙은 스왑퍼(507)이 스와핑 상태에 있을 때 실행되는데, 즉 여기서 M 그리고 S가 입력에서 출력으로 스왑된다. 이 실행은 스와퍼(507) 뒤의 모든 전기회로망이 양 예측 방향들과 같다는 이점을 갖는다.
유사하게, 다른 코딩 규칙들(402, 403), 즉 다른 디코더 계산 규칙들은, 도12b의 실시예에서 역 중간/측면 코딩을 수행하기 위해 실행되는, 결합기(1162)의 입력에서 스와퍼(407)에 의해 실행될 수도 있다. 스와퍼(407)은 그 입력에서, 다운믹스 신호 DMX와 신호 IPS를 수신하는 "예측 스위치(prediction switch)"로 불릴수도 있고, 여기서 IPS는 역 예측된 신호를 의미한다. 예측 방향 표시기에 의존하여, 스와퍼(407)은 도12b의 위 표에 도시된대로, DMX 를 M에 연결하든 IPS를 S에 연결하든 또는 DMX를 S에 연결하든 IPS를 M에 연결하든지 한다.
도13b는 도11b의 제1계산 규칙의 실시, 즉, 블록(402)에 의해 도시된 규칙을 도시한다. 제1실시예에서, 역 예측은 명시적으로 수행되며 이는 측면 신호가 잔류 신호 그리고 전송된 중간 신호로부터 명시적으로 계산되도록 하기 위함이다. 이후 단계에서, L 그리고 R은 도13의 명시적 역 예측 방정식의 오른쪽 방정식들에 의해 계산된다. 대안적 실시예에서, 내재적 역 예측이 수행되는데, 여기서 측면 신호 S는 명시적으로 계산되지 않으며, 그러나 여기서 왼쪽 신호 L 그리고 오른쪽 신호 R은 전송된 M 신호 예측 정보 α를 이용하여 전송된 잔류 신호로부터 직접 계산된다.
도13d는 다른 예측 방향에 대한 방정식들을 도시하며, 즉 예측 방향 표시기 pred_dir 이 1일 때이다. 다시, M을 얻기 위한 명시적 역 예측은 전송된 잔류 신호 그리고 전송된 측면 신호를 이용하여 수행될 수 있고 L 그리고 R의 이후 계산은 중간 신호와 측면 신호를 이용하여 수행될 수 있다. 대안적으로, 내재 역 예측은 L 그리고 R이 중간 신호 M의 명시적 계산없이 전송된 신호 S, 잔류 신호 그리고 예측 정보 α 로부터 계산되도록 수행될 수 있다.
도13b 아래에 요약된 바와 같이, α표시는 모든 방정식에서 반전(역전, reversed)될 수 있다. 이것이 수행될 때, 도13b는 잔류 신호 계산에 대해 두 텀들(two terms) 간의 합을 갖는다. 그러면, 명시적 역 예측은 차이 차분 계산(difference calculation)으로 변한다. 실제 실시예에 기반하여, 도13b부터 13d까지에 요약된 표기법 또는 역 표기법은 편리할 수 있다.
도13b에서부터 13d까지의 방정식들에서, 몇몇 복소 곱셈들이 일어날 수 있다. 이러한 복소 곱셈들은 모든 경우들에 대해 일어날 수 있고, 여기서 α는 복소수이다. 그러면 M 또는 S의 복소 근사는 방정식들에서 언급된대로 요구된다. 복소 곱셈은 도13e에 α의 경우만에 대하여 또는 (1+α)의 경우에 대하여 도시된대로 두 인수들의 실수 부분의 실제 곱셈과 두 인수들의 허수 부분들의 곱 사이의 차분(차이, difference)을 초래한다.
예측 방향 계산기(219)는 다른 방법들로 적용될 수 있다. 도14는 예측 방향을 계산하는 두 기본 방법들을 도시한다. 하나의 방법은 피드 포워드 계산(feed forward calculation)인데, 여기서 신호 M 그리고 신호 S는, 일반적으로 제1 결합 신호와 제2결합 신호이며, 단계(step, 550)에서 표시된 것처럼 에너지 차이를 계산하는 것에 의해 비교된다. 그러면, 단계(551)에서 차이(difference)는 임계치(스레쉬홀드, threshold)에 비교되며, 여기서 임계치는 임계치 입력 라인(threshold input line)을 통해 설정되거나 프로그램에 고정될 수 있다. 그러나, 몇몇 이력특성(hysteresis)이 존재하는 것이 바람직하다. 이런 이유로, 실제 예측 방향에 대한 결정 기준에 따라, S와 M 사이의 에너지 차이가 측정될 수 있다. 가장 좋은 지각적 품질을 달성하기 위해, 결정 기준은, 즉, 마지막 프레임의 예측 방향에 기반한 다른 결정 임계치인 몇몇 이력특성(hysteresis)를 이용하여 안정화될 수 있다. 예측 방향에 대해 또 다른 고려할 수 있는 기준은 입력 채널들의 채널간 위상 차이이다. 이력특성에 대해, 임계치의 컨트롤은 특정 시간 간격의 예측 방향의 드문 변화가 이 시간 간격의 많은 변화보다 선호되는 방식에서 수행될 수 있다. 그래서, 특정 임계치로부터 시작하여, 임계치는 예측 방향 변화에 대응하여 증가될 수 있다. 이후, 이 높은 값에 기반하여, 임계치는 예측 방향 변화가 계산되지 않는 기간들 동안 더욱 더 감소될 수 있다. 이후, 임계치는 마지막 변화 전의 그 값에 접근하며, 임계치는 동일 레벨에 머무르게 되고 시스템은 예측 방향을 바꾸기 위해 다시 한번 준비된다. 이 절차는 S와 M 사이에 아주 큰 차이가 있을 때, 짧은 간격들 사이의 변화를 허용하지만, M 과 S 사이의 에너지 차이가 그렇게 크지 않을 때 더 적은 빈도의 변화들을 허용한다.
대안적으로, 또는 추가적으로, 피드백 계산이 수행될 수 있고, 여기서 양 예측 방향들에 대한 잔류 신호들은 단계(552)에 도시된것처럼 계산된다. 이후, 단계(553)에서, 예측 방향이 계산되고 이는 더 작은 잔류 신호 또는 잔류 신호에 대해 더 작은 비트들 또는 다운믹스 신호 또는 전체 비트들의 더 작은 숫자 또는 오디오 신호의 더 나은 품질 또는 어떤 다른 특정 조건을 도출한다. 그래서, 특정 최적화 타겟을 도출하는 예측 방향은 이런 피드백 계산을 통해 선택된다.
발명은 스테레오 신호들, 즉 오직 두 채널들을 갖는 멀티채널 신호들에만 적용가능한 것은 아님이 강조되며, 5.1 또는 7.1신호처럼 셋 또는 그 이상의 채널들을 갖는 멀티채널 신호의 두 채널들에 또한 적용 가능하다. 멀티채널 실행의 실시예는 다수 신호 쌍들의 확인(identification) 그리고 계산 그리고 평행 전송 또는 한 신호 쌍 이상의 데이타 저장을 포함할 수 있다.
오디오 디코더의 실시예에서, 인코딩 또는 디코딩된 제1결합 신호(104) 그리고 인코딩 또는 디코딩된 예측 잔류 신호(106)은 각각 제1 다수 부대역신호들을 포함하며, 여기서 예측 정보는 제2 다수 예측 정보 파라미터들을 포함하고, 제2 다수(second plurality)는 제1 다수(first plurality)보다 작으며, 여기서 예측기(1160)은 동일 예측 파라미터들 디코딩된 제1결합 신호의 적어도 두개의 다른 부대역 신호들에 적용하기 위해 구성되며, 여기서 디코더 계산기(116) 또는 결합 신호 계산기(1161) 또는 결합기(1162)는 부대역-방향 프로세싱을 수행하기 위해 구성되며; 여기서 오디오 디코더는 시간 영역 제1디코딩 신호와 시간 영역 제2디코딩 신호를 얻기 위해 디코딩된 제1결합 신호와 디코딩된 제2결합 신호의 부대역 신호들을 결합하는 합성 필터뱅크(52, 53)를 더 포함한다.
오디오 디코더의 실시예에서, 예측기(1160)은 윈도우 형태 정보(109)를 얻기 위해 그리고 허수 스펙트럼을 계산하기 위한 다른 필터 계수들을 이용하기 위해 구성되며, 여기서 다른 필터 계수들은 윈도우 형태 정보(109)에 의해 표시되는 다른 윈도우 형태들에 의존한다.
오디오 디코더의 실시예에서, 디코딩된 제1결합 신호는 인코딩된 멀티 채널 신호(100)에 포함된 변형 길이 표시기에 의해 표시된 다른 변형 길이들과 관련되며, 예측기(1160)은 제1결합 신호의 현재 프레임 허수 부분을 측정하기 위한동일한 관련된 변형 길이를 갖는 제1결합 신호의 하나 또는 그 이상의 프레임들만을 이용하도록 구성된다.
오디오 디코더의 실시예에서, 예측기(1160)은 주파수에 근접한 디코딩된 제1결합 신호의 다수 부대역들을 이용하기 위해, 제1결합 신호의 허수 부분을 측정하기 위해 구성되며, 여기서, 낮거나 높은 주파수들의 경우에, 제1결합 신호의 현재 프레임의 대칭적인 연장은 현재 프레임이 기반되거나, 또는 예측기(1160a)에 포함되는 필터의 필터 계수들이 잃지 않는(non-missing) 부대역들에 비교하여 잃어버리는(missing) 부대역들에 대해 다른 값이 설정되는 샘플링 주파수의 반(half)과 동일하거나 그보다 높거나 0보다 작거나 같은 주파수들과 관련된 부대역들에 대해 이용된다.
오디오 디코더의 실시예에서, 예측 정보(108)은 양자화되고 엔트로피-인코딩된 표현으로 인코딩된 멀티채널 신호에 포함되고, 여기서 오디오 디코더는 예측기(1160)에 의해 이용되는 디코딩된 예측 정보를 얻기 위해 엔트로피-디코딩 또는 비양자화(dequantizing)하기 위한 예측 정보 디코더(65)를 더 포함하며, 인코딩된 멀티채널 오디오 신호는 예측기(1160)이 디코딩된 제1결합 신호의 현재 프레임에 대해 시간적으로 선행 또는 뒤따르는 적어도 하나의 프레임을 이용하는 것을 제1 상태에서 표시하고, 예측기(1160)이 디코딩된 제1결합 신호의 현재 프레임의 허수 부분의 측정을 위한 디코딩된 제1결합 신호의 단일 프레임만을 이용하는 것을 제2 상태에서 표시하는 데이타 유닛을 포함하고, 예측기(1160)은 데이타 유닛의 상태를 감지(sensing)하고 이에 따라 작동하도록 구성된다.
오디오 디코더의 실시예에서, 예측 정보(108)은 시간 순차적이거나 주파수 근접 복소 값들 사이의 차이들의 코드워드(codewords)들을 포함하며, 여기에 오디오 디코더는 시간 순차적 양자화된 복소 예측 값들 또는 근접 주파수 대역들에 대한 복소 예측 값들을 얻기 위해 엔트로피 디코딩 단계 그리고 이후의 차분 디코딩 단계(difference decoding step)를 수행하기 위해 구성된다.
오디오 디코더의 실시예에서, 인코딩된 멀티 채널 신호는, 측면 신호로, 모든 예측 계수들이 인코딩된 멀티채널 신호의 프레임에 대해 실수치임을 표시하는 실수 표시기(real indicator), 여기서 오디오 디코더는 인코딩된 멀티채널 오디오 신호(100)로부터 실수 표시기(real indicator)를 추출하기 위해 구성되며, 여기서 디코더 계산기(116)은 프레임에 대해 허수 신호를 계산하기 않도록 구성되며, 실수 표시기는 오직 실수치 예측 계수들을 표시한다.
오디오 인코더의 실시예에서, 예측기(2033)는 하나 또는 그 이상의 양자화된 신호들을 얻기 위해 제1채널 신호, 제2채널 신호, 제1결합 신호 또는 제2결합 신호를 양자화 하기 위한 양자화기를 포함하며, 여기서 예측기(2033)은 양자화된 신호들을 이용하는 잔류 신호를 계산하기 위해 구성된다.
오디오 인코더의 실시예에서, 제1채널 신호는 샘플들 블록의 스펙트럴 표현이고, 여기서 스펙트럴 표현들은 순수 실수 스펙트럴 표현들 또는 순수 허수 스펙트럴 표현들 모두이고, 옵티마이저(207)은 예측 정보(206)을 0과 실수치 인수 및/또는 0과 다른 허수 인수에 따라 계산하기 위해 구성되며, 인코더 계산기(203)은 예측 신호가 순수 실수 스펙트럴 표현 또는 실수치 인수를 이용하는 순수 허수 스펙트럴 표현으로부터 유도되도록 제1결합 신호 그리고 예측 잔류 신호를 계산하기 위해 구성된다.
발명의 인코딩된 신호는 디지탈 저장 장치에 저장될 수 있고 또는 무선 전송 장치같은 전송 장치 또는 인터넷 같은 유선 전송 장치에서 전송될 수 있다.
비록 본 발명이 주로 오디오 프로세싱의 문맥에서 설명되었지만, 발명이 비디오 신호의 디코딩의 코딩에 적용될 수도 있다는 것이 강조되어야 한다. 다양한 방향의 복소 예측이 예를 들어 3D 스테레오 비디오 컴프레션(3D stereo video compression)에 적용될 수 있다. 이 특별한 예에서, 2D-MDCT가 이용된다. 이 테크닉의 예는 Google WebM/VP8이다. 그러나, 다른 실시예들은 2D-MDCT없이도 적용될 수 있다.
비록 몇몇 관점들이 장치의 문맥에서 설명되었지만, 이러한 관점들은 대응하는 방법의 설명 또한 나타낸다는 것이 명확하며, 블록 또는 장치는 방법 단계 또는 방법단계의 특징에 대응한다. 유사하게, 방법의 문맥에서 설명된 관점들은 대응하는 블록 또는 아이템 또는 대응하는 장치의 특징의 설명을 나타낸다.
특정 실행 조건들에 의존하여, 발명의 실시예들은 하드웨어 또는 소프트웨어에서 실행될 수 있다. 실시예들은 디지탈 저장 매체를 이용하여 수행될 수 있고, 이는 예를 들어, 그위에 저장되는 전자기적으로 판독가능한 컨트롤 신호들을 갖는, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리 등이며, 개별 방법들이 수행되는 프로그래밍 가능한 컴퓨터 시스템과 함께 협력한다.(또는 협력할 수 있는 능력이 있다.)
발명에 따른 몇몇 실시예들은 전자기적으로 판독가능한 컨트롤 신호를 갖는 비-일시적이고 실재하는 데이타 캐리어를 포함하며, 이는 여기서 수행되고 묘사된 방법들 중 하나처럼 프로그래밍 가능한 컴퓨터 시스템과 협동할 수 있다.
일반적으로, 본 발명의 실시예들은 프로그램 코드로 된 컴퓨터 프로그램 결과물처럼 실행될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 결과물이 컴퓨터상에서 구동될 때 상기 방법들 중 하나를 수행하기 위해 작동한다. 프로그램 코드는 예시적으로 기계 판독 가능한 캐리어에 저장될 수도 있다.
다른 실시예들은 기계 판독가능한 캐리어에 저장되고 여기서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다른 말로, 발명 방법의 실시예는, 그래서, 컴퓨터 프로그램이 컴퓨터 상에서 구동될 때, 여기서 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
발명 방법의 추가 실시예는, 그래서, 그위에 기록되고, 여기서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이타 캐리어이다.(또는 디지탈 저장 매체, 또는 컴퓨터-판독가능한 매체)
방법 발명의 추가 실시예는, 그래서 여기서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 시퀀스 또는 데이타 스트림이다. 데이타 스트림이나 신호들의 시퀀스는 예를 들어 인터넷을 통하여, 데이타 통신 연결을 통하여 교환되도록 예시적으로 구성될 수 있다.
추가 실시예는 프로세싱 수단을 포함하며, 예를 들어 컴퓨터, 또는 프로그래밍 가능한 논리 장치이며, 이는 여기 설명된 방법들 중 하나를 수행하기 위해 구성되거나 조정된다.
또다른 실시예는 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 자체에 설치된 컴퓨터를 포함한다.
몇몇 실시예에서, 프로그래밍 가능한 논리 장치(예를 들어 필드 프로그래밍 가능한 게이트 어레이)는 여기서 설명된 방법 중 모든 기능 또는 몇몇을 수행하도록 사용될 수 있다. 몇몇 실시예에서, 필드 프로그래밍 가능한 게이트 어레이는 여기서 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 연동될 수 있다. 일반적으로, 상기 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해서도 수행된다.
상기 설명된 실시예들은 단지 본 발명의 원리를 위해 예시적일 뿐이다. 본 상기 배열의 변형, 변화, 그리고 여기서 설명된 자세한 내용들을 기술분야의 다른 숙련자에게 명백하다고 이해되어야 한다. 그것의 의도는, 따라서, 여기의 실시예의 설명 또는 묘사의 방법에 의해 표현된 특정 세부사항들에 의해 제한되는 것이 아닌 오직 목전의 특허 청구항의 범위에 의해서만 제한된다는 것이다.

Claims (20)

  1. 인코딩된 멀티채널 오디오 또는 비디오 신호는 멀티채널 오디오 또는 비디오 신호의 제1 채널 오디오 또는 비디오 신호와 제2 채널 오디오 또는 비디오 신호의 결합을 위한 결합 규칙에 기반하여 발생되는 인코딩된 제1 결합 신호를 포함하며,
    디코딩된 제1 결합 신호(112)를 얻기 위해 인코딩된 제1 결합 신호(104)를 디코딩하기 위한, 디코딩된 잔류 신호(114)를 얻기 위한 인코딩된 잔류 신호(106)을 디코딩하기 위한, 신호 디코더(110); 및
    디코딩된 제1 채널 신호(117)와 디코딩된 제2 채널 신호(118)이 상기 멀티채널 신호의 제1 채널 신호와 제2 채널 신호의 최소 근사치들에 있도록, 디코딩된 제1 채널 신호(117), 그리고 디코딩된 잔류 신호(114)를 이용하는 디코딩된 제2 채널 신호(118), 예측 정보(108), 디코딩된 제1 결합 신호(112) 그리고 예측 방향 표시기(501)를 갖는 디코딩된 멀티채널 신호를 계산하기 위한 디코더 계산기(116); 를 포함하는,
    인코딩된 멀티채널 오디오 또는 비디오 신호(100)을 디코딩하기 위한 오디오 또는 비디오 디코더.
  2. 제1항에 따른 오디오 또는 비디오 디코더에 있어서,
    예측 방향 표시기(501)은 상기 인코딩된 멀티채널 신호에 포함되고, 오디오 또는 비디오 디코더는 예측 방향 표시기(501)을 추출하고 상기 디코더 계산기(116)에 상기 예측 방향 표시기를 포워딩하기 위한 입력 인터페이스(102)를 더 포함하는 것을 특징으로 하는 오디오 또는 비디오 디코더.
  3. 제1항 또는 제2항에 따른 오디오 또는 비디오 디코더에 있어서,
    상기 디코더 계산기(116)은 상기 예측 방향 표시기(501)의 제1 상태의 경우 상기 디코딩된 멀티채널 신호를 계산하기 위한 제1 계산 규칙(402)를 이용하기 위해, 그리고 상기 예측 방향 표시기(501)의 제2 다른 상태의 경우 상기 디코딩된 멀티채널 신호를 계산하기 위한 제2 다른 계산 규칙(403)을 이용하기 위해 구성되는 것을 특징으로 하는 오디오 또는 비디오 디코더.
  4. 제3항에 따른 오디오 또는 비디오 디코더에 있어서,
    상기 디코딩된 제1 결합 신호는 중간 신호(M)을 포함하고, 상기 제1 계산 규칙(402)은 상기 디코딩된 제1 결합 신호와 상기 디코딩된 잔류 신호로부터 측면 신호(S)의 계산을 포함하거나; 또는
    상기 디코딩된 제1 결합 신호는 측면 신호(S)를 포함하고, 상기 제2 계산 규칙(403)은 상기 디코딩된 제1 결합 신호와 상기 디코딩된 잔류 신호로부터 중간 신호(M)의 계산을 포함하는 것을 특징으로 하는 오디오 또는 비디오 디코더.
  5. 제3항에 따른 오디오 또는 비디오 디코더에 있어서,
    상기 디코딩된 제1 결삽 신호는 중간 신호(M)을 포함하고, 제1 계산 규칙(402)는 상기 디코딩된 제1 채널 신호의 계산과 중간 신호(M), 상기 예측 정보(α) 그리고 측면 신호의 분명한 계산없이 디코딩된 잔류 신호를 이용하는 디코딩된 제2 채널 신호의 계산을 포함하거나, 또는
    상기 디코딩된 제1 결합 신호는 측면 신호(S)를 포함하며, 상기 제2 결합규칙(403)은 디코딩된 제1 채널 신호의 계산과 측면 신호(S), 상기 예측 정보(α) 그리고 중간 신호의 분명한 계산 없이 디코딩된 상기 잔류 신호를 이용하는 상기 디코딩된 제2 채널 신호의 계산을 포함하는 것을 특징으로 하는 오디오 또는 비디오 디코더.
  6. 제1항 내지 제5항 중 어느 한 항에 따른 오디오 또는 비디오 디코더에 있어서,
    상기 디코더 계산기는 상기 예측 정보(108)을 이용하기 위해 구성되며,
    예측 정보(108)는 0과 다른 실수치 부분 및/또는 0과 다른 허수 부분을 포함하는 것을 특징으로 하는 오디오 또는 비디오 디코더.
  7. 상기 선행 청구항들 중 어느 한 항에 따른 오디오 또는 비디오 디코더에 있어서,
    상기 디코더 계산기(116)는,
    상기 디코딩된 제1 결합 신호(112)에 또는 예측 신호(1163)를 얻기 위해 디코딩된 상기 제1 결합 신호로부터 유도된 신호에 상기 예측 정보(108)을 적용하기 위한 예측기(1160);
    상기 디코딩된 잔류 신호(114)와 상기 예측 신호(1163)의 결합에 의한 제2 결합 신호(1165)를 계산하기 위한 결합 신호 계산기; 및
    상기 디코딩된 제1 채널 신호(117) 그리고 상기 디코딩된 제2 채널 신호(118)을 갖는 디코딩된 멀티채널 오디오 또는 비디오 신호를 얻기 위한 상기 제2 결합 신호(1165)와 상기 디코딩된 제1 결합 신호(112)를 결합하기 위한 결합기(1162);를 포함하며,
    상기 예측 방향 표시기(501)의 제1 상태의 경우에, 상기 제1 결합 신호는 합산 신호이고 상기 제2 결합 신호는 차이 신호이거나, 또는
    상기 예측 방향 표시기(501)의 제2 상태의 경우에, 상기 제1 결합 신호는 차이 신호이고 상기 제2 결합 신호는 합산 신호인 것을 특징으로 하는,
    오디오 또는 비디오 디코더.
  8. 제1항 내지 제7항 중 어느 한 항에 따른 오디오 또는 비디오 디코더에 있어서,
    상기 인코딩된 제1 결합 신호(104)와 상기 인코딩된 잔류 신호(106)는 엘리어싱 발생 시간-스펙트럴 변환(aliasing generating time-spectral conversion)을 이용하여 발생되고,
    상기 디코더는,
    시간-스펙트럴 변환 알고리즘에 매치되는 스펙트럴-시간 변환 알고리즘을 이용하여 시간영역 제2 채널 신호와 시간 영역 제1 채널 신호를 발생시키기 위한 스펙트럴-시간 변환기(52,53); 및
    비-앨리어싱(aliasing-free) 제1 시간 영역 신호와 비-앨리어싱 제2 시간 영역 신호를 얻기 위해 시간 영역 제1 채널 신호에 대해 그리고 시간 영역 제2 채널 신호에 대해 오버랩-애드 프로세싱을 수행하기 위한 오버랩/애드 프로세서(522); 를 더 포함하는 것을 특징으로 하는 오디오 또는 비디오 디코더.
  9. 상기 선행 청구항들 중 한 항에 따른 오디오 또는 비디오 디코더에 있어서,
    상기 예측 정보(108)은 0과 다른 실수치 인수를 포함하며,
    상기 예측기(1160)은 상기 예측 신호의 제1 부분을 얻기 위한 실수 인수에 상기 디코딩된 제1 결합 신호를 곱하기 위해 구성되며,
    상기 결합 신호 계산기는 상기 예측 신호의 상기 제1 부분과 상기 디코딩된 잔류 신호의 선형적 결합을 위해 구성되는 것을 특징으로 하는 오디오 또는 비디오 디코더.
  10. 상기 선행 청구항들 중 한 항에 따른 오디오 또는 비디오 디코더에 있어서,
    예측 정보(108)는 0과 다른 허수 인수를 포함하며,
    상기 예측기(1160)는 상기 디코딩된 제1 결합 신호(112)의 실수치 부분을 이용하여 상기 디코딩된 제1 결합 신호(112)의 허수 부분을 추정(1160a)하기 위해 구성되며,
    상기 예측기(1160)는 상기 예측 신호의 제2 부분을 얻기 위해 상기 예측 정보(108)의 상기 허수 인수에 상기 디코딩된 제1 결합 신호의 상기 허수 부분(601)을 곱하기 위해 구성되며,
    상기 결합 신호 계산기(1161)는 제2 결합 신호(1165)를 얻기 위해 상기 예측 신호의 상기 제1 부분과 상기 예측 신호의 제2 부분 그리고 상기 디코딩된 잔류 신호를 선형으로 결합하기 위해 구성되는 것을 특징으로 하는 오디오 또는 비디오 디코더.
  11. 제7항에 따른 오디오 또는 비디오 디코더에 있어서,
    상기 예측기(1160)는 최소 두개의 시간-순차 프레임들을 필터링하기 위해 구성되며, 두 시간-순차 프레임들 중 하나는 선형 필터(1004,1005,1006,1007)를 이용하여 상기 제1 결합 신호의 현재 프레임의 추정된 허수 부분을 얻기 위해 상기 제1 결합 신호의 현재 프레임을 따르거나 선행하는 것을 특징으로 하는 오디오 또는 비디오 디코더.
  12. 제7항에 따른 오디오 또는 비디오 디코더에 있어서,
    상기 디코딩된 제1 결합 신호는 실수치 신호 프레임들의 순서를 포함하며,
    상기 예측기(1160)은 현재 실수 신호 프레임만을 이용하거나 ,현재 실수 신호 프레임과 함께 오직 하나 또는 그 이상의 선행하는 또는 오직 하나 또는 그 이상의 뒤따르는 실수 신호 프레임들을 이용하거나, 상기 현재 실수 신호 프레임과 하나 또는 그 이상의 선행 실수 신호 프레임들 그리고 하나 또는 그 이상의 뒤따르는 실수 신호 프레임들을 이용하여, 상기 현재 신호 프레임의 허수 부분을 추정하기 위해 구성되는 것을 특징으로 하는 오디오 또는 비디오 디코더.
  13. 제1 채널 신호(201)과 제2 채널 신호(202) 그리고 예측 정보(206) 그리고 예측 방향 표시기를 이용하여, 예측 잔류 신호가, 제2 결합 신호(2032)를 도출하는 상기 예측 정보(206)와 상기 제1 결합 신호로부터 유도되는 신호 또는 상기 제1 결합 신호로부터 유도되는 예측 신호와 결합할 때, 상기 제1 결합 신호(204)와 상기 제2 결합 신호(2043)가 결합 규칙을 이용하여 상기 제1 채널 신호(201)과 상기 제2 채널 신호(202)로부터 유도 가능하도록, 상기 제1 결합 신호(204)와 예측 잔류 신호(205)를 계산하기 위한 인코더 계산기(203);
    상기 예측 잔류 신호(205)가 최적화 타겟(208)을 달성하도록, 상기 예측 정보(206)을 계산하기 위한 옵티마이저(207);
    상기 예측 잔류 신호와 관련된 예측 방향을 표시하기 위한 예측 방향 표시기를 계산하기 위한 예측 방향 계산기(219);
    인코딩된 예측 잔류 신호(211)과 인코딩된 제1 결합 신호(210)을 얻기 위해 상기 예측 잔류 신호(205)와 상기 제1 결합 신호(204)를 인코딩하기 위한 신호 인코더(209); 및
    인코딩된 멀티채널 오디오 또는 비디오 신호를 얻기 위해 상기 예측 정보(206)과 상기 인코딩된 예측 잔류 신호(211), 상기 인코딩된 제1 결합 신호(210)을 결합하기 위한 출력 인터페이스(212);를 포함하는
    둘 또는 그 이상의 채널 신호들을 갖는 멀티채널 오디오 또는 비디오 신호를 인코딩하기 위한 오디오 또는 비디오 인코더.
  14. 제13항에 따른 오디오 또는 비디오 인코더에 있어서,
    상기 인코더 계산기(203)은,
    상기 제1 결합 신호(204)와 상기 제2 결합 신호(2032)를 얻기 위해 두가지 다른 방법들로 상기 제1 채널 신호(201)과 상기 제2 채널 신호(202)을 결합하기 위한 결합기(2031);
    제1 결합신호(204) 또는 예측 신호(2035)를 얻기 위해 상기 제1 결합 신호(204)로부터 유도된 신호(600)에 대한 상기 예측 정보(206)을 적용하기 위한, 또는 상기 예측 방향에 기반한 예측 신호(2035)를 얻기 위해 상기 제2 결합 신호로부터 유도된 신호 또는 상기 제2 결합 신호에 대해 예측 정보(206)를 적용하기 위한 예측기(2033); 및
    상기 제2 결합 신호(2032)와 상기 예측 신호(2035)의 결합에 의해 또는 상기 예측 방향 표시기에 기반한 상기 제1 결합 신호(2032)와 상기 예측 신호(2035)를 결합하는 것에 의해, 상기예측 잔류 신호(205)를 계산하기 위한 잔류 신호 계산기(2034); 를 포함하는 것을 특징으로 하는 오디오 또는 비디오 인코더.
  15. 제13항 또는 제14항에 따른 오디오 또는 비디오 인코더에 있어서,
    상기 제1 채널 신호는 샘플들 블록의 스펙트럴 표현이고;
    상기 제2 채널 신호는 샘플들 블록의 스펙트럴 표현이며,
    상기 스펙트럴 표현들은 순수한 실수 스펙트럴 표현들이거나 순수한 허수 스펙트럴 표현들이고,
    상기 옵티마이저(207)는 0과 다른 실수 인수 및/또는 0과 다른 허수 인수에 따라 상기 예측 정보를 계산하기 위해 구성되며,
    상기 인코더 계산기(203)은 상기 제1 결합 신호로부터 또는 상기 예측 방향 표시기에 의존하는 상기 제2 결합 신호로부터 변환 스펙트럴 표현을 유도하기 위한 실수-허수 변환기(2070) 또는 허수-인수 변환기를 포함하며,
    상기 인코더 계산기(203)은 상기 제1 결합 신호(204) 또는 상기 예측 방향 표시기에 의존하는 상기 제2 결합 신호를 계산하기 위해, 그리고 변환된 스펙트럼과 상기 허수 인수로부터 상기 예측 잔류 신호(205)를 계산하기 위해 구성되는 것을 특징으로 하는 오디오 또는 비디오 인코더.
  16. 제13항 내지 제15항에 따른 인코더에 있어서,
    상기 예측기(2033)는,
    상기 예측 신호의 제1 부분을 얻기 위한 상기 예측 정보(2073)의 실수 부분을 상기 제1 결합 신호(204)에 곱하기 위하여;
    상기 제1 결합 신호(204) 또는 상기 제2 결합 신호를 이용하여 상기 제2 결합 신호의 또는 상기 제1 결합 신호의 허수 부분(600)을 추정(2070)하기 위하여;
    상기 예측 신호의 제2 부분을 얻기 위한 상기 예측 정보(2074)의 허수 부분을 상기 제1 또는 제2 결합된 신호의 상기 허수 부분에 곱하기 위해;
    구성되며,
    상기 잔류 계산기(2034)는 상기 예측 신호 또는 상기 예측 신호의 상기 제1 부분 신호 또는 상기 제2 결합 신호의 상기 제2 부분 신호 또는 예측 잔여 신호(205)를 얻기 위한 상기 제1 결합 신호를 선형으로 결합하기 위해 구성되는 것을 특징으로 하는 오디오 또는 비디오 인코더.
  17. 인코딩된 멀티채널 오디오 또는 비디오 신호는 멀티채널 오디오 또는 비디오 신호의 제1 채널 오디오 또는 비디오 신호 그리고 제2 채널 오디오 또는 비디오 신호를 결합하기 위한 결합 규칙에 기반하여 발생되는 인코딩된 제1 결합 신호, 인코딩된 예측 잔류 신호와 예측 정보를 포함하며,
    디코딩된 잔류 신호(114)를 얻기위해 인코딩된 잔류 신호(106)을 디코딩하고, 디코딩된 제1 결합 신호(112)를 얻기 위해 인코딩된 제1 결합 신호(104)를 디코딩(110)하는 단계; 및
    예상 정보(108)는 0과 다른 실수 부분 및/또는 0과 다른 허수 부분을 포함하며, 디코딩된 제1 채널 신호(117)와 디코딩된 제2 채널 신호(118)가 멀티 채널 신호의 제1 채널 신호와 제2 채널 신호의 최소 근사치들에 있도록, 디코딩된 제1 채널 신호(117), 그리고 디코딩된 잔류 신호(114)를 이용하여 디코딩된 제2 채널 신호(118), 예측 정보(108) 그리고 디코딩된 제1 결합 신호(112)를 갖는 디코딩된 멀티채널 신호를 계산(116)하는 단계;를 포함하는,
    인코딩된 멀티채널 오디오 또는 비디오 신호(100)을 디코딩하는 방법.
  18. 예측 잔류 신호가, 제1 결합 신호로부터 유도되는 예측 신호 또는 제1 결합 신호 그리고 제2 결합 신호(2032)를 야기하는 예측 정보(206)로부터 유도되는 신호와 결합될 때, 제1 결합 신호(204) 그리고 제2 결합 신호(2032)는 첫번재 채널 신호(201) 그리고 결합 규칙을 이용하는 제2 채널 신호로부터 유도 가능하며 제1 결합 신호(204) 그리고 제1 신호(201)을 이용하는 예측 잔류 신호(205) 그리고 제2 채널 신호(202) 그리고 예측 정보(206)을 계산하는 단계(203);
    예측 잔류 신호(205)가 최적화 타겟(208)을 달성하기 위해 예측 정보(206)를 계산하는 단계(207);
    인코딩된 제1 결합 신호(210) 그리고 인코딩된 잔류 신호(211)를 얻기 위해 제1 결합 신호(204) 그리고 예측 잔류 신호(205)를 인코딩 하는 단계(207);
    인코딩된 멀티채널 오디오 또는 비디오 신호를 얻기 위해 인코딩된 제1 결합 신호(210), 인코딩된 잔류 신호(211) 그리고 예측 정보(206)을 결합하는 단계(212);를 포함하는,
    둘 또는 그 이상의 채널 신호들을 갖는 멀티채널 오디오 또는 비디오 신호를 인코딩 하는 방법.
  19. 컴퓨터 또는 프로세서 상에서 구동될 때, 제 17항 또는 제18항의 방법을 수행하기 위한 컴퓨터 프로그램이 저장된 기록매체.
  20. 멀티 채널 오디오 또는 비디오 신호의 제1 채널 오디오 또는 비디오 신호 그리고 제2 채널 오디오 또는 비디오 신호를 결합하기 위한 결합 규칙에 기반하여 발생되는 인코딩된 제1 결합 신호, 인코딩된 예측 잔류 신호, 예측 정보, 인코딩된 예측 잔류 신호와 관련된 예측 방향을 표시하는 예측 방향 표시기(501)를 포함하는 인코딩된 멀티채널 오디오 또는 비디오 신호.
KR1020127029556A 2010-04-13 2011-02-17 오디오 또는 비디오 인코더, 오디오 또는 비디오 디코더 그리고 가변적인 예상 방향을 이용하여 멀티-채널 오디오 또는 비디오 신호들을 프로세싱하기 위한 관련 방법들 KR101430118B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US32368310P 2010-04-13 2010-04-13
US61/323,683 2010-04-13
PCT/EP2011/052354 WO2011128138A1 (en) 2010-04-13 2011-02-17 Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction

Publications (3)

Publication Number Publication Date
KR20130008061A true KR20130008061A (ko) 2013-01-21
KR101430118B1 KR101430118B1 (ko) 2014-08-18
KR101430118B9 KR101430118B9 (ko) 2023-04-21

Family

ID=44170568

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127029556A KR101430118B1 (ko) 2010-04-13 2011-02-17 오디오 또는 비디오 인코더, 오디오 또는 비디오 디코더 그리고 가변적인 예상 방향을 이용하여 멀티-채널 오디오 또는 비디오 신호들을 프로세싱하기 위한 관련 방법들

Country Status (19)

Country Link
US (9) US9398294B2 (ko)
EP (10) EP2559027B1 (ko)
JP (1) JP5820464B2 (ko)
KR (1) KR101430118B1 (ko)
CN (1) CN103052983B (ko)
AR (1) AR080866A1 (ko)
AU (1) AU2011240239B2 (ko)
BR (2) BR112012026324B1 (ko)
CA (1) CA2796292C (ko)
ES (6) ES2953084T3 (ko)
HK (1) HK1183740A1 (ko)
MX (1) MX2012011801A (ko)
MY (1) MY194835A (ko)
PL (6) PL3779981T3 (ko)
PT (2) PT3779978T (ko)
RU (1) RU2541864C2 (ko)
SG (1) SG184537A1 (ko)
TW (1) TWI466106B (ko)
WO (1) WO2011128138A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11367455B2 (en) 2015-03-13 2022-06-21 Dolby International Ab Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
DK2556502T3 (en) 2010-04-09 2019-03-04 Dolby Int Ab MDCT-BASED COMPLEX PREVIEW Stereo Decoding
EP2544466A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor
JP5248718B1 (ja) * 2011-12-19 2013-07-31 パナソニック株式会社 音分離装置、および音分離方法
WO2013186344A2 (en) 2012-06-14 2013-12-19 Dolby International Ab Smooth configuration switching for multichannel audio rendering based on a variable number of received channels
JP6065452B2 (ja) 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
US9241142B2 (en) * 2013-01-24 2016-01-19 Analog Devices Global Descriptor-based stream processor for image processing and method associated therewith
KR101798126B1 (ko) * 2013-01-29 2017-11-16 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 주파수 향상 오디오 신호를 생성하는 디코더, 디코딩 방법, 인코딩된 신호를 생성하는 인코더, 및 컴팩트 선택 사이드 정보를 이용한 인코딩 방법
JP6146069B2 (ja) * 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
CA2990261C (en) * 2013-05-24 2020-06-16 Dolby International Ab Audio encoder and decoder
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
WO2015031505A1 (en) * 2013-08-28 2015-03-05 Dolby Laboratories Licensing Corporation Hybrid waveform-coded and parametric-coded speech enhancement
TWI671734B (zh) 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
CN117037811A (zh) 2013-09-12 2023-11-10 杜比国际公司 多声道音频内容的编码
RU2665281C2 (ru) 2013-09-12 2018-08-28 Долби Интернэшнл Аб Временное согласование данных обработки на основе квадратурного зеркального фильтра
WO2015069177A1 (en) * 2013-11-07 2015-05-14 Telefonaktiebolaget L M Ericsson (Publ) Methods and devices for vector segmentation for coding
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
CN110992964B (zh) * 2014-07-01 2023-10-13 韩国电子通信研究院 处理多信道音频信号的方法和装置
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
US20160098245A1 (en) * 2014-09-05 2016-04-07 Brian Penny Systems and methods for enhancing telecommunications security
EP3067889A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
WO2017109865A1 (ja) * 2015-12-22 2017-06-29 三菱電機株式会社 データ圧縮装置、データ伸長装置、データ圧縮プログラム、データ伸長プログラム、データ圧縮方法及びデータ伸長方法
CN105719660B (zh) * 2016-01-21 2019-08-20 宁波大学 一种基于量化特性的语音篡改定位检测方法
BR112017025314A2 (pt) * 2016-01-22 2018-07-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. aparelho e método para codificação ou decodificação de um sinal multicanal utilizando reamostragem de domínio espectral
DE102016104665A1 (de) * 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
RU2628198C1 (ru) * 2016-05-23 2017-08-15 Самсунг Электроникс Ко., Лтд. Способ межканального предсказания и межканальной реконструкции для многоканального видео, снятого устройствами с различными углами зрения
CA3042580C (en) * 2016-11-08 2022-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for downmixing or upmixing a multichannel signal using phase compensation
PL3539127T3 (pl) * 2016-11-08 2021-04-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Moduł downmixu i sposób downmixu co najmniej dwóch kanałów oraz koder wielokanałowy i dekoder wielokanałowy
JP2018107580A (ja) * 2016-12-26 2018-07-05 富士通株式会社 動画像符号化装置、動画像符号化方法、動画像符号化用コンピュータプログラム、動画像復号装置及び動画像復号方法ならびに動画像復号用コンピュータプログラム
WO2019191611A1 (en) * 2018-03-29 2019-10-03 Dts, Inc. Center protection dynamic range control
CN112352277B (zh) * 2018-07-03 2024-05-31 松下电器(美国)知识产权公司 编码装置及编码方法
CN113302692A (zh) * 2018-10-26 2021-08-24 弗劳恩霍夫应用研究促进协会 基于方向响度图的音频处理
WO2020146868A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
US20220400351A1 (en) * 2020-12-15 2022-12-15 Syng, Inc. Systems and Methods for Audio Upmixing

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8913758D0 (en) * 1989-06-15 1989-08-02 British Telecomm Polyphonic coding
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
BE1007617A3 (nl) * 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
JP3594409B2 (ja) * 1995-06-30 2004-12-02 三洋電機株式会社 Mpegオーディオ再生装置およびmpeg再生装置
US5754733A (en) 1995-08-01 1998-05-19 Qualcomm Incorporated Method and apparatus for generating and encoding line spectral square roots
TW321810B (ko) * 1995-10-26 1997-12-01 Sony Co Ltd
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction
US6353808B1 (en) 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
KR100367000B1 (ko) * 1999-06-29 2003-01-06 한국전자통신연구원 멀티미디어 처리용 가속 기능 및 입출력 기능을 갖는 피씨용 멀티채널 오디오/음성 및 데이터 코덱장치
US20020040299A1 (en) 2000-07-31 2002-04-04 Kenichi Makino Apparatus and method for performing orthogonal transform, apparatus and method for performing inverse orthogonal transform, apparatus and method for performing transform encoding, and apparatus and method for encoding data
KR100378796B1 (ko) * 2001-04-03 2003-04-03 엘지전자 주식회사 디지탈 오디오 부호화기 및 복호화 방법
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
AU2003209957A1 (en) * 2002-04-10 2003-10-20 Koninklijke Philips Electronics N.V. Coding of stereo signals
DE10234130B3 (de) * 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
JP4191503B2 (ja) * 2003-02-13 2008-12-03 日本電信電話株式会社 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US6980933B2 (en) 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
JP2007520748A (ja) * 2004-01-28 2007-07-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 複素値データを用いたオーディオ信号の復号
DE102004009954B4 (de) * 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
EP1780705B1 (en) * 2004-08-19 2011-01-12 Nippon Telegraph And Telephone Corporation Multichannel signal decoding method, device, program, and its recording medium
JP4809370B2 (ja) * 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル音声符号化における適応ビット割り当て
WO2006104017A1 (ja) * 2005-03-25 2006-10-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US8457319B2 (en) * 2005-08-31 2013-06-04 Panasonic Corporation Stereo encoding device, stereo decoding device, and stereo encoding method
JP5536335B2 (ja) * 2005-10-20 2014-07-02 エルジー エレクトロニクス インコーポレイティド マルチチャンネルオーディオ信号の符号化及び復号化方法とその装置
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
DE102006047197B3 (de) 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
CN101578658B (zh) * 2007-01-10 2012-06-20 皇家飞利浦电子股份有限公司 音频译码器
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与***
CN102016983B (zh) * 2008-03-04 2013-08-14 弗劳恩霍夫应用研究促进协会 用于对多个输入数据流进行混合的设备
CN102037507B (zh) * 2008-05-23 2013-02-06 皇家飞利浦电子股份有限公司 参数立体声上混合设备、参数立体声译码器、参数立体声下混合设备、参数立体声编码器
JP5383676B2 (ja) * 2008-05-30 2014-01-08 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
WO2010042024A1 (en) * 2008-10-10 2010-04-15 Telefonaktiebolaget Lm Ericsson (Publ) Energy conservative multi-channel audio coding
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US8504378B2 (en) * 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
DK2556502T3 (en) * 2010-04-09 2019-03-04 Dolby Int Ab MDCT-BASED COMPLEX PREVIEW Stereo Decoding
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11367455B2 (en) 2015-03-13 2022-06-21 Dolby International Ab Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element
US11417350B2 (en) 2015-03-13 2022-08-16 Dolby International Ab Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element
US11664038B2 (en) 2015-03-13 2023-05-30 Dolby International Ab Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element
US11842743B2 (en) 2015-03-13 2023-12-12 Dolby International Ab Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element

Also Published As

Publication number Publication date
CA2796292C (en) 2016-06-07
ES2914474T3 (es) 2022-06-13
KR101430118B9 (ko) 2023-04-21
EP3779975A1 (en) 2021-02-17
TWI466106B (zh) 2014-12-21
EP3779978B1 (en) 2022-04-06
PL3779975T3 (pl) 2023-12-18
EP4254951A3 (en) 2023-11-29
ES2958392T3 (es) 2024-02-08
BR122020024855B1 (pt) 2021-03-30
PL2559027T3 (pl) 2022-08-08
TW201205558A (en) 2012-02-01
BR112012026324A2 (pt) 2017-08-22
WO2011128138A1 (en) 2011-10-20
AR080866A1 (es) 2012-05-16
ES2911893T3 (es) 2022-05-23
PT3779978T (pt) 2022-06-27
USRE49464E1 (en) 2023-03-14
PT2559027T (pt) 2022-06-27
EP3779981B1 (en) 2023-06-07
EP3779975B1 (en) 2023-07-12
MY194835A (en) 2022-12-19
EP3779978A1 (en) 2021-02-17
EP3779981A1 (en) 2021-02-17
MX2012011801A (es) 2012-12-17
EP4254951A2 (en) 2023-10-04
ES2953084T3 (es) 2023-11-08
EP3779979B1 (en) 2023-08-02
US9398294B2 (en) 2016-07-19
USRE49469E1 (en) 2023-03-21
USRE49717E1 (en) 2023-10-24
USRE49511E1 (en) 2023-04-25
PL3779978T3 (pl) 2022-08-08
EP3779981C0 (en) 2023-06-07
EP3779979A1 (en) 2021-02-17
EP2559027A1 (en) 2013-02-20
EP3779977A1 (en) 2021-02-17
ES2950751T3 (es) 2023-10-13
RU2012148131A (ru) 2014-05-20
AU2011240239A1 (en) 2012-11-08
ES2953085T3 (es) 2023-11-08
USRE49492E1 (en) 2023-04-11
JP5820464B2 (ja) 2015-11-24
USRE49453E1 (en) 2023-03-07
US20230319301A1 (en) 2023-10-05
US20130121411A1 (en) 2013-05-16
EP3779979C0 (en) 2023-08-02
CN103052983A (zh) 2013-04-17
PL3779979T3 (pl) 2024-01-15
BR112012026324B1 (pt) 2021-08-17
EP4404561A2 (en) 2024-07-24
EP4404560A2 (en) 2024-07-24
EP2559027B1 (en) 2022-04-06
SG184537A1 (en) 2012-11-29
PL3779977T3 (pl) 2023-11-06
EP4404559A2 (en) 2024-07-24
KR101430118B1 (ko) 2014-08-18
HK1183740A1 (zh) 2014-01-03
CA2796292A1 (en) 2011-10-20
EP3779977C0 (en) 2023-06-21
PL3779981T3 (pl) 2023-10-23
AU2011240239B2 (en) 2014-06-26
JP2013528824A (ja) 2013-07-11
CN103052983B (zh) 2015-11-25
USRE49549E1 (en) 2023-06-06
EP3779977B1 (en) 2023-06-21
RU2541864C2 (ru) 2015-02-20
EP3779975C0 (en) 2023-07-12

Similar Documents

Publication Publication Date Title
USRE49549E1 (en) Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction
CA2804907C (en) Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170731

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180731

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190730

Year of fee payment: 6

J202 Request for trial for correction [limitation]
J301 Trial decision

Free format text: TRIAL NUMBER: 2023105000002; TRIAL DECISION FOR CORRECTION REQUESTED 20230103

Effective date: 20230406