KR101315077B1 - 멀티-채널 오디오 데이터를 인코딩 및 디코딩하기 위한 방법, 및 인코더들 및 디코더들 - Google Patents

멀티-채널 오디오 데이터를 인코딩 및 디코딩하기 위한 방법, 및 인코더들 및 디코더들 Download PDF

Info

Publication number
KR101315077B1
KR101315077B1 KR1020077025069A KR20077025069A KR101315077B1 KR 101315077 B1 KR101315077 B1 KR 101315077B1 KR 1020077025069 A KR1020077025069 A KR 1020077025069A KR 20077025069 A KR20077025069 A KR 20077025069A KR 101315077 B1 KR101315077 B1 KR 101315077B1
Authority
KR
South Korea
Prior art keywords
signal
parameter
audio signals
audio
spatial
Prior art date
Application number
KR1020077025069A
Other languages
English (en)
Other versions
KR20070116170A (ko
Inventor
프란코이스 피. 미버그
에릭 지. 피. 쉬저스
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36579108&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR101315077(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20070116170A publication Critical patent/KR20070116170A/ko
Application granted granted Critical
Publication of KR101315077B1 publication Critical patent/KR101315077B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 멀티-채널 오디오 신호를 인코딩하도록 구성된 오디오 인코더에 있어서, 제 1 및 제 2 오디오 신호들(x1,x2)의 조합된 표현인 주요 신호부(m) 및 잔류 신호부(s)를 생성하기 위한 인코더 조합 모듈(ECM)로서, 상기 주요 및 잔류 신호부들(m,s)은 상기 제 1 및 제 2 오디오 신호들(x1,x2)에 수학적 절차를 적용하여 얻어지고, 상기 수학적 절차는 상기 제 1 및 제 2 오디오 신호들(x1,x2)의 공간 속성들의 기술을 포함하는 제 1 공간 파라미터(SP1)를 관련시키는 상기 인코더 조합 모듈; 제 2 공간 파라미터(SP2)를 포함하는 제 1 파라미터 세트(PS1) 및 제 3 공간 파라미터(SP3)를 포함하는 제 2 파라미터 세트(PS2)를 생성하기 위한 파라미터 생성기(PG); 및 상기 주요 신호부(m) 및 상기 제 1 파라미터 세트(SP1)를 포함하는 제 1 출력부(OP1)와, 상기 잔류 신호부(s) 및 제 2 파라미터 세트(PS2)를 포함하는 제 2 출력부(OP2)를 포함하는 인코딩된 출력 신호를 생성하기 위한 출력 생성기를 포함하는 오디오 인코더이다. 바람직한 실시예에서, 수학적 절차는 2차원 신호 로테이션을 포함하고, 제 3 공간 파라미터(SP3)는 제 2 공간 파라미터(SP2) 및 제 1 공간 파라미터(SP1) 사이의 차를 포함한다. 바람직한 실시예들은 복수의 상호연결된 인코더 조합 모듈을 포함하여, 예컨대, 6개의 독립적인 5.1 형식 오디오 신호들이 하나 또는 두 개의 주요 신호부들 및 다수의 파라미터 세트들 및 잔류 신호부들로 인코딩될 수 있다. 출력 비트 스트림에서, 제 1 출력부는 기저층에 포함되고, 반면 제 2 출력부는 세밀층에 포함된다. 명백한 오디오 신호 품질이 두 층들을 이용하는 디코더에 의해 얻어질 수 있고, 반면 허용 가능한 품질이 기저층 데이터만을 이용하는 디코더에 의해 얻어질 수 있다. 따라서, 스케일링 가능한 공간 오디오 코딩이 제공된다.
멀티-채널 코딩, 5.1채널 코딩, 인코더 조합 모듈, 상관, 파라미터 생성기, 출력 생성기

Description

멀티-채널 오디오 데이터를 인코딩 및 디코딩하기 위한 방법, 및 인코더들 및 디코더들{Scalable multi-channel audio coding}
본 발명은 고품질의 오디오 코딩에 관한 것이다. 상세하게는, 본 발명은 멀티-채널 오디오 데이터의 고품질 코딩의 분야에 관한 것이다. 더욱 상세하게는, 본 발명은 멀티-채널 오디오 데이터를 인코딩 및 디코딩하기 위한 방법, 및 인코더들 및 디코더들을 규정한다.
많은 멀티-채널 구성들/장치들이 가능하지만, 5.1 구성/장치가 가장 보편적이다(도1 참조). 전형적인 멀티-채널 5.1 장치는 임의의 각도에 배치되는 부가적인 LFE(저주파 강화) 스피커로 보완되는 5개의 스피커들 즉, 좌-전방(Lf), 우-전방(Rf), 중앙(C), 좌-후방(Ls), 및 우-후방(Rs) 스피커들로 구성된다. 기존에, 5.1 멀티-채널 오디오데이터와 같이, 멀티-채널 오디오 데이터를 압축하기 위한 여러 방법들이 고안되었다. 이하에서 간략히 개괄하도록 한다.
MPEG-2 오디오 표준에서, ISO/IEC 13818-3:1998 정보 기술(Information technology)--동화상들 및 연관된 오디오 정보의 포괄적 코딩-- 제 3부: 오디오에서 MPEG-1 오디오로 역방향 호환 가능성을 유지하면서 멀티-채널 코딩에 대한 규정이 마련되었고, 오직 모노 및 스테레오 오디오의 코딩만을 만족시키는 ISO/IEC 11172-3:1993 정보 기술--약 1.5Mbit/s의 디지털 저장 매체를 위한 동화상들 및 연관된 오디오의 코딩--제 3부: 오디오에 규정되었다. 역방향 호환성은 MPEG-1 비트 스트림의 데이터 부분에 위치되는, 멀티-채널 콘텐트로부터 유도된 기본적인 스테레오 신호를 형성함으로써 달성된다. 다음, 3개의 추가적인 신호들이 MPEG-1 비트 스트림의 보조 데이터 부분에 위치된다. 이 기술은 매트릭싱(matrixing)이라 한다. MPEG-1 오디오 디코더는 비트 스트림으로부터 의미 있는 스테레오 신호(Lo, Ro)를 생성할 수 있고, 반면 MPEG-2 오디오 디코더는 추가의 채널들을 추출하고 5개의 입력 채널들의 디코딩된 버전을 재구성할 수 있다. 역방향 호환성은 높은 비트 레이트를 대가로 달성된다. 전형적으로, 640kbit/s의 비트 레이트가 MPEG-2 레이어 II로 5 채널 자료에 대한 좋은 오디오 품질을 얻는데 요구된다.
MPEG-2 어드밴스드 오디오 코딩(AAC), ISO/IEC TR 13818-5:1997/Amd 1:1999 어드밴스드 오디오 코딩(AAC)에서, 멀티-채널 오디오는 역방향 호환성이 아닌 형식으로 코딩된다. 이것은 코딩기로 더 자유롭게 하고, 640 kbit/s의 MPEG-2 레이어 II 에 비해 (명백한(transparent)) 더 좋은 오디오 품질이 320 kbit/s의 비트 레이트로 달성될 수 있다는 장점을 갖는다. 5(.1) 채널 구성에서, AAC는 중간-위치(Mid-Side, MS) 스테레오 툴을 채용함으로써 청취자에 대칭인 채널 쌍들을 코딩할 수 있다:(Lf,Rf) 및 (Ls,Rs). 중앙(C) 및 (선택적인) LFE 채널들은 개별적으로 코딩된다. 택일적으로, 강도 스테레오(Intensity Stereo, IS) 코딩이 각각의 채널에 대한 스케일링 정보를 추가적으로 제공하면서 수개의 오디오 채널들을 하나의 채널로 조합하는데 채용될 수 있다.
파라메트릭 멀티-채널 오디오 코딩에서, 인지적으로 명백한 실마리들(또는 공간 파라미터들), 예컨대 채널간 강도 차이들(inter-channel intensity difference, IID), 채널간 시간 차이들(inter-channel time differences, ITD), 및 채널간 코히어런스(inter-channel coherence, ICC)가 멀티-채널 신호 내의 채널들 사이에서 측정된다. 공간 파라미터들에 대한 더 완전한 설명은 크리스토프 폴러(Christof Faller)의 "Coding of Spatial Audio compatible with Different Playback Formats"(2004년 10월 28~31일, 미국 샌프란시스코 AES 117회 콘벤션의 AES 콘벤션 논문)에서 찾아볼 수 있다. 또한, 멀티-채널 표현은 표준 모노 또는 스테레오 인코더로 인코딩될 수 있는 스테레오 또는 모노 신호로 다운-믹스(down-mix)된다. 중요한 제약사항은, 스테레오 또는 모노 다운-믹스가 적어도 ITU-R 레커멘데이션(Recommendation) BS.775-1 다운-믹스에 견줄만한 충분한 오디오 품질이어야 한다는 것이다. 따라서 전송된 정보는 모노 또는 스테레오 신호 및 공간 파라미터들의 코딩된 버전을 포함한다. 모노 또는 스테레오 다운-믹스는 원래의 멀티-채널 오디오 신호를 코딩하는데 요구되는 것보다 충분히 더 낮은 비트 레이트로 코딩되고, 공간 파라미터들은 매우 작은 전송 대역폭을 요구한다. 따라서, 다운-믹스 및 공간 파라미터들은 모든 채널들이 코딩될 때 요구되는 비트 레이트의 일부에 해당하는 전체 비트 레이트로 코딩될 수 있다. 파라메트릭 디코더(parametric decoder)는 전송된 모노 또는 스테레오 다운-믹스 및 공간 파라미터들로부터 원래의 멀티-채널 오디오 신호의 고품질의 근사치를 생성한다.
고 효율을 제공하고, 높은 신호 품질을 제공하고, 동시에 역방향 호환이 가능한 인코딩된 신호를 제공하는 스케일링 가능한 멀티-채널 오디오 신호 인코더를 제공하는 것이 본 발명의 목적으로서 여겨질 수 있다.
제 1 양상에 따르면, 본 발명은 멀티-채널 오디오 신호를 인코딩하도록 구성된 오디오 인코더에 있어서, 제 1 및 제 2 오디오 신호들의 조합된 표현인 주요 신호부 및 잔류 신호부를 생성하기 위한 인코더 조합 모듈로서, 상기 주요 및 잔류 신호부들은 상기 제 1 및 제 2 오디오 신호들에 수학적 절차를 적용하여 얻어지고, 상기 수학적 절차는 상기 제 1 및 제 2 오디오 신호들의 공간 속성들의 기술을 포함하는 제 1 공간 파라미터를 관련시키는, 상기 인코더 조합 모듈; 제 2 공간 파라미터를 포함하는 제 1 파라미터 세트 및 제 3 공간 파라미터를 포함하는 제 2 파라미터 세트를 생성하기 위한, 파라미터 생성기; 및 상기 주요 신호부 및 상기 제 1 파라미터 세트를 포함하는 제 1 출력부와, 상기 잔류 신호부 및 제 2 파라미터 세트를 포함하는 제 2 출력부를 포함하는 인코딩된 출력 신호를 생성하기 위한 출력 생성기를 포함하는, 오디오 인코더를 제공한다.
인코더 조합 모듈에서, 제 1 및 제 2 오디오 신호들은 주요 및 잔류 신호부들로 조합된다. "주요 및 잔류 신호부들"에 의해 두 오디오 신호들이 이해되고, 여기에서 주요 신호는 제 1 및 제 2 오디오 신호들의 주요 또는 주된 부분들을 포함하고, 반면 잔류 신호는 제 1 및 제 2 오디오 신호들의 잉여의 또는 덜 중요한 부분을 포함한다. "공간 파라미터"에 의해 파라미터들이 이해되며, 이는 신호 쌍의 하나 이상의 공간 속성들로부터 유도되고 또는 이에 기초하고 수학적으로 표현될 수 있다. 계산될 수 있는 이러한 공간 속성들의 일부 리스트는 다음과 같다: 채널간 강도 차이들(IID), 채널간 시간 차이들(ITD), 및 채널간 코히어런스(ICC). 인코더 조합 모듈은 상기 주요 및 잔류 신호부들을 생성하되, 이들 신호부들이 상기 제 1 및 제 2 오디오 신호들보다 덜 상관되도록 생성한다. 바람직하게는, 주요 및 잔류 신호부들은 그들이 서로 상관되지 않도록 즉, 직교하도록 또는 적어도 그들이 가능한 최소한 상관되도록 생성된다.
잔류 신호부는 매우 제한된 양의 비트 레이트 만을 요하는 비트 스트림으로 표현되도록 출력 비트 스트림으로 변환되기 전에 저대역 통과 필터링될 수 있다. 이러한 저대역 통과 필터링에 대한 차단 주파수는 500Hz~10kHz의 범위내, 예컨대 2kHz일 수 있다.
인코더 조합 모듈은 2개의 오디오 신호들을 하나의 주요 신호로 조합하는 대신, 전술한 바와 같이, 제 1, 제 2, 및 제 3 오디오 신호들을 제 1 및 제 2 주요 신호 쌍들로 조합하도록 구성될 수 있다.
제 1 양상에 따른 인코더는 제 1 및 제 2 오디오 신호들의 스케일링 가능한 인코딩된 표현을 제공한다. 제 1 출력부 또는 기저층 부분을 이용하여, 기존 디코더들을 이용함으로써 허용 가능한 결과적인 음향 품질로 제 1 및 제 2 오디오 신호들을 디코딩하는 것이 가능하다. 그러나, 제 2 출력부 또는 세밀층부(refinement layer part)를 이용할 수 있는 디코더를 이용하여, 더 높은 신호 품질을 얻는 것이 가능하다. 따라서, 제 2 출력부는 선택적인 것으로 볼 수 있고, 최선의 음향 품질이 요구되는 경우에만 필요하다.
바람직한 실시예에서, 잔류 신호부는 제 1 및 제 2 오디오 신호들의 차를 포함한다. 잔류 신호부는 제 1 및 제 2 오디오 신호들의 차이로서 정확하게 규정될 수 있다.
바람직한 실시예에서, 수학적 절차는 2차원 신호 공간에서 로테이션을 포함한다.
제 3 공간 파라미터는 제 2 공간 파라미터 및 제 1 공간 파라미터 사이의 차이를 포함할 수 있다. 제 3 공간 파라미터는 차동 코딩을 포함할 수 있다.
제 2 공간 파라미터는 코히어런스 기반(coherence based)의 ICC 파라미터를 포함할 수 있다. 제 3 공간 파라미터는 코히어런스 기반의 ICC 파라미터 및 상관 기반(correlation based)의 ICC 파라미터 사이의 차를 포함할 수 있다. 바람직한 실시예에서, 제 2 공간 파라미터는 코히어런스 기반의 ICC 파라미터를 포함하고, 반면 제 3 공간 파라미터는 제 2 공간 파라미터 및 상관 기반의 ICC 파라미터 사이의 차를 포함한다.
인코더는 또한 제 1 양상의 원리들에 따라 제 3, 제 4, 제 5, 및 제 6 또는 그 이상의 오디오 신호들을 인코딩하도록 더 구성될 수 있다. 이는 이들 오디오 신호들을 제 1 및 제 2 오디오 신호들과 조합함으로써 인코딩할 수 있고, 그에 응답하여 제 1 및 제 2 출력부들을 생성한다. 바람직하게는, 이러한 인코더는 다수의 인코더 조합 모듈들을 포함하는 구성을 이용하여 5.1 오디오 신호를 인코딩하도록 구성된다. 원리적으로, 제 1 양상에 따른 인코더 원리는 임의의 멀티-채널 형식 오디오 데이터를 인코딩하는데 이용될 수 있다.
제 2 양상에 있어, 본 발명은 인코딩된 신호에 기초하여 멀티-채널 오디오 신호를 생성하기 위한 오디오 디코더에 있어서, 주요 신호부, 잔류 신호부, 및 제 1 및 제 2 공간 파라미터 세트들에 기초하여 제 1 및 제 2 오디오 신호들을 생성하기 위한 디코더 조합 유닛으로서, 상기 공간 파라미터들은 상기 제 1 및 제 2 오디오 신호들의 공간 속성들의 기술을 포함하고, 상기 잔류 신호부 및 상기 제 2 공간 파라미터들은 상기 제 1 및 제 2 오디오 신호들을 생성하는데 이용되는 믹싱 매트릭스(MM)를 결정하는데 관련되는 상기 디코더 조합 유닛을 포함하는 오디오 디코더를 제공한다.
제 1 양상에 대해 설명된 바와 같이, 기존 디코더들이 주요 신호부 및 제 1 공간 파라미터들을 이용하는 것만으로, 본 발명에 따른 인코더로부터의 인코딩된 출력 신호를 디코딩하는데 이용될 수 있다. 그러나, 제 2 양상에 따른 디코더는 인코딩 절차에 관련된 인코더 조합과 동일하게 역(inverse)인 믹싱 매트릭스를 결정하기 위하여 제 2 인코딩된 출력부 즉, 잔류 신호부 및 공간 파라미터를 이용할 수 있을 것이고, 따라서 제 1 및 제 2 오디오 신호들의 완전한 재생성이 얻어질 수 있다.
바람직한 실시예에서, 디코더는 주요 신호부를 수신하기 위한 역상관기를 포함하고, 그에 응답하여 역상관된 주요 신호부를 생성한다. 바람직하게는, 잔류 신호부 및 역상관된 주요 신호부의 합이 믹싱 매트릭스를 결정하는데 관련될 수 있다. 디코더는 상기 잔류 신호부에 상기 역상관된 주요 신호부를 더하기 전에 상기 역상관된 주요 신호부를 감쇠하기 위한 감쇠기를 포함할 수 있다.
바람직한 실시예에서, 믹싱 매트릭스는 2차원 신호 공간에서 주요 및 잔류 신호부들에 로테이션을 적용한다.
디코더는 다수의 제 1 및 제 2 파라미터 세트들 및 다수의 잔류 신호부를 수신하고, 그에 응답하여 복수의 제 1 및 제 2 오디오 신호들의 세트들을 생성하도록 구성될 수 있다. 바람직한 실시예에서, 디코더는 3개의 제 1 및 제 2 파라미터 세트들과 3개의 잔류 신호부를 수신하고, 그에 응답하여 3개의 제 1 및 제 2 오디오 신호들의 세트들을 생성하도록 구성된다. 이 실시예에서, 디코더는 5.1 형식 또는 다른 멀티-채널 형식에 따르는 바와 같이, 6개의 독립적인 오디오 채널들을 생성할 수 있다.
바람직한 실시예에서, 디코더는 적절한 구성으로 배치된 복수의 1-투(to)-2 채널 믹싱-매트릭스들을 포함하여, 디코더가 2 이상의 오디오 신호들을 나타내는 인코딩된 신호를 디코딩할 수 있도록 한다. 예를 들어, 디코더는 6개의 오디오 신호들을 생성하도록 구성된 5개의 믹싱-매트릭스들의 구성을 포함할 수 있고, 따라서 예컨대 인코딩된 5.1 오디오 신호를 디코딩할 수 있다.
제 3 양상으로, 본 발명은 멀티-채널 오디오 신호를 인코딩하는 방법에 있어서, 1) 제 1 및 제 2 오디오 신호들의 조합된 표현인 주요 신호부 및 잔류 신호부를 생성하는 단계로서, 상기 주요 및 잔류 신호부들은 상기 제 1 및 제 2 오디오 신호들에 수학적 절차를 적용하여 얻어지고, 상기 수학적 절차는 상기 제 1 및 제 2 오디오 신호들의 공간 속성들의 기술을 포함하는 제 1 공간 파라미터를 관련시키는, 상기 주요 신호부 및 상기 잔류 신호부를 생성하는 단계; 2) 제 2 공간 파라미터를 포함하는 제 1 파라미터 세트를 생성하는 단계; 3) 제 3 공간 파라미터를 포함하는 제 2 파라미터 세트를 생성하는 단계; 및 4) 상기 주요 신호부 및 상기 제 1 파라미터 세트를 포함하는 제 1 출력부와, 상기 잔류 신호부 및 제 2 파라미터 세트를 포함하는 제 2 출력부를 포함하는 인코딩된 출력 신호를 생성하는 단계를 포함하는, 오디오 신호 인코딩 방법을 제공한다.
제 1 양상에 대해 설명되었던 것과 동일한 장점들 및 설명들이 제 3 양상에 적용된다.
제 4 양상으로, 본 발명은 인코딩된 신호에 기초하여 멀티-채널 오디오 신호를 생성하는 방법에 있어서, 1) 제 1 및 제 2 오디오 신호들의 공간 속성들의 기술을 포함하는 제 1 및 제 2 공간 파라미터들, 주요 신호부, 및 잔류 신호부를 포함하는 상기 인코딩된 신호를 수신하는 단계; 2) 상기 잔류 신호부 및 상기 제 2 공간 파라미터에 기초하여 믹싱 매트릭스(MM)를 결정하는 단계; 및 3) 상기 결정된 믹싱 매트릭스에 기초하여 상기 제 1 및 제 2 오디오 신호들을 생성하는 단계를 포함하는 방법을 제공한다.
본 방법은 상기 주요 신호부를 역상관하는 단계, 및 그에 응답하여 역상관된 주요 신호부를 생성하는 단계를 포함할 수 있다. 본 방법은 또한, 상기 잔류 신호부 및 상기 역상관된 주요 신호부를 가산하는 단계를 더 포함할 수 있다. 상기 믹싱 매트릭스의 결정 단계는 상기 가산된 잔류 신호부 및 상기 역상관된 주요 신호부에 기초할 수 있다.
바람직하게는, 본 방법은 복수의 제 1 및 제 2 파라미터 세트들 및 복수의 잔류 신호부를 수신하고, 이에 응답하여 복수의 제 1 및 제 2 오디오 신호들의 세트들을 생성하는 단계를 포함할 수 있다. 바람직한 실시예에서, 본 방법은 3개의 제 1 및 제 2 파라미터 세트들과 3개의 잔류 신호부를 수신하고, 그에 응답하여 3개의 제 1 및 제 2 오디오 신호들의 세트들을 생성하는 단계를 포함할 수 있다. 이 실시예에서, 본 방법은 5.1 멀티-채널 형식 또는 동등한 것과 같은 6개의 독립적인 오디오 채널들을 생성할 수 있다.
제 2 양상에 대해 설명되었던 것과 동일한 장점들 및 설명들이 제 4 양상에 적용된다.
제 5 양상으로, 본 발명은 인코딩된 멀티-채널 오디오 신호에 있어서, 제 1 및 제 2 오디오 신호들의 공간 속성들의 기술을 포함하는 제 1 파라미터 세트 및 주요 신호부를 포함하는 제 1 신호부; 및 상기 제 1 및 제 2 오디오 신호들의 공간 속성들의 기술을 포함하는 제 2 파라미터 세트 및 잔류 신호부를 포함하는 제 2 신호부를 포함하는, 인코딩된 멀티-채널 오디오 신호를 제공한다.
제 5 양상에 따른 오디오 신호는 제 1 양상에 대해 설명되었던 것과 동일한 장점들을 제공한다. 왜냐하면, 이 신호는 제 1 양상에 따른 인코더로부터의 인코딩된 출력 신호와 동일하기 때문이다. 따라서, 제 5 양상에 따른 인코딩된 멀티-채널 오디오 신호는 스케일링 가능한 신호(scalable signal)이다. 왜냐하면, 기저층에 구성된 제 1 신호부는 필수적이고, 반면 세밀층에 대해 구성된 제 2 신호부는 선택적이고 선택적인 신호 품질에 대해서만 요구되는 것이다.
제 6 양상으로, 본 발명은 제 5 양상에 따른 신호를 저장하는 저장 매체를 제공한다. 저장 매체는 하드 디스크, 플로피 디스크, CD, DVD, SD 카드, 메모리스틱, 메모리 칩 등일 수 있다.
제 7 양상으로, 본 발명은 제 1 양상에 따른 방법을 수행하도록 구성된 컴퓨터 실행가능한 프로그램 코드를 제공한다.
제 8 양상으로, 본 발명은 제 7 양상에 따른 컴퓨터 실행가능한 프로그램 코드를 포함하는 컴퓨터 판독가능한 저장 매체를 제공한다. 저장 매체는 하드 디스크, 플로피 디스크, CD, DVD, SD 카드, 메모리 스틱, 메모리 칩 등일 수 있다.
제 9 양상으로, 본 발명은 제 4 양상에 따른 방법을 수행하도록 구성된 컴퓨터 실행가능한 프로그램 코드를 제공한다.
제 10 양상으로, 본 발명은 제 9 양상에 따른 컴퓨터 실행가능한 프로그램 코드를 포함하는 컴퓨터 판독가능한 저장 매체를 제공한다. 저장 매체는 하드 디스크, 플로피 디스크, CD, DVD, SD 카드, 메모리 스틱, 메모리 칩 등일 수 있다.
제 11 양상으로, 본 발명은 제 1 양상에 따른 인코더를 포함하는 디바이스를 제공한다. 디바이스는 서라운드 사운드 증폭기들, 서라운드 사운드 수신기, DVD 플레이어들/리코더들 등과 같은 홈 엔터테인먼트 오디오 장치일 수 있다. 원리적으로, 디바이스는 멀티-채널 오디오 데이터 예컨대, 5.1 형식을 다룰 수 있는 임의의 오디오 디바이스일 수 있다.
제 12 양상으로, 본 발명은 제 2 양상에 따른 디코더를 포함하는 디바이스를 제공한다. 디바이스는 서라운드 사운드 증폭기들, 서라운드 사운드 수신기들, A/V 수신기들, 셋톱박스, DVD 플레이어들/리코더들 등과 같은 홈 엔터테인먼트 오디오 장치일 수 있다.
제 5 양상에 따른 신호는 전송 체인(transmission chain)을 통해 전송하는데 적합하다. 이러한 전송 체인은 신호들을 저장하는 서버, 신호들의 분배하기 위한 네트워크, 및 신호들을 수신하는 클라이언트들을 포함할 수 있다. 클라이언트측은 컴퓨터들, A/V 수신기들, 셋톱 박스들 등과 같은 하드웨어를 포함할 수 있다. 따라서, 제 5 양상에 따른 신호는 디지털 비디오 방송, 디지털 오디오 방송, 또는 인터넷 라디오 등을 전송에 적합하다.
상기 양상들 전부에서, 제 1 및 제 2 오디오 신호들은 전체 대역폭 신호들일 수 있다는 것이 이해된다. 선택적으로, 제 1 및 제 2 오디오 신호들은 각각의 전체 대역폭 오디오 신호들의 서브-밴드 표현들을 나타낸다. 즉, 본 발명에 따른 신호 처리는 전체 대역폭 신호들 또는 서브-밴드 기반에 적용될 수 있다.
이하에서, 본 발명은 다음의 도면들을 참조하여 더욱 상세히 설명된다:
도1은 5.1 멀티 채널 스피커 장치의 스케치를 도시한 도면.
도2는 본 발명에 따른 인코더 조합 유닛을 도시한 도면.
도3은 인코더 조합에 기초하여 5.1 오디오 신호를 모노 신호로 인코딩하기 위한 바람직한 인코더를 도시한 도면.
도4는 도3의 인코더에 대응하는 바람직한 디코더를 도시한 도면.
도5는 인코더 조합에 기초하여 5.1 오디오 신호를 스테레오 신호로 인코딩하기 위한 바람직한 인코더를 도시한 도면.
도6은 도5의 인코더에 대응하는 바람직한 디코더를 도시한 도면.
도7은 본 발명에 따른 인코딩 원리로 수행된 청취 테스트의 결과를 도해하는 그래프.
본 발명은 다양한 변형들 및 대안의 형태들을 가질 수 있지만, 특정한 실시예들이 도면에서 예시적인 방식으로 도시되었고, 본 명세서에서 상세히 설명될 것이다. 그러나, 본 발명이 개시된 특정 형태들에 한정되는 것으로 이해해서는 안 된다. 오히려, 본 발명은 첨부된 청구범위에 의해 규정되는 본 발명의 범위 및 사상 내에서 모든 변형들, 균등물들, 및 대안들을 커버하는 것이다.
도1은 독립적인 오디오 신호들을 수신하는 5개의 스피커들(C,Lf,Ls,Rf,Rs)의 중앙에 위치된 청취자(LP)와 전형적인 5.1 멀티-채널 오디오 장치의 스케치를 도시한다. 이는 청취자(LP)에게 공간 오디오 효과(spatial audio impression)를 제공하도록 구비된다. 덧붙여, 5.1 장치는 분리된 서브우퍼 LFE 신호를 제공한다. 따라서, 이러한 멀티-채널 장치에 대한 전체 신호 표현은 모두 6개의 독립적인 오디오 채널들을 요구하며, 따라서 이러한 시스템에 대해 최고의 오디오 품질로 오디오 신호를 나타내는데 큰 비트 레이트가 필요하다. 이하에서, 5.1 시스템에서 낮은 비트 레이트로 높은 오디오 품질을 제공할 수 있는 본 발명의 실시예들이 설명될 것이다.
도2는 본 발명에 따른 2-1 인코더 조합 유닛(EU)을 도시한다. 제 1 및 제 2 오디오 신호들(x1,x2)이 인코더 조합 모듈(ECM)에 입력되고, 여기에서 제 1 및 제 2 오디오 신호들(x1,x2)을 조합하여 주요 신호부(m)과 잔류 신호부(s)을 포함하는 그들의 파라메트릭 표현을 생성하기 위하여, 제 1 및 제 2 오디오 신호들(x1,x2)에 바람직하게 신호 로테이션을 포함하는 수학적 절차가 수행된다. 제 1 공간 파라미터(SP1) 즉, 제 1 및 제 2 오디오 신호들(x1,x2)의 공간 속성을 기술하는 파라미터가 수학적 인코더 조합 처리에 포함된다.
파라미터 생성기(PG)는 제 1 및 제 2 오디오 신호들(x1,x2)에 기초하여 제 1 및 제 2 파라미터 세트들(PS1,PS2)을 생성한다. 제 1 파라미터 세트(PS1)는 제 2 공간 파라미터(SP2)를 포함하고, 제 2 파라미터 세트(PS2)는 제 3 공간 파라미터(SP3)를 포함한다. 인코딩된 출력 신호는 주요 신호부(m)과 제 1 파라미터 세트(PS1)를 포함하는 제 1 출력부(OP1)을 포함하고, 반면 제 2 출력부(OP2)은 잔류 신호부(s) 및 제 2 파라미터 세트(PS2)를 포함한다.
제 1 공간 파라미터(SP1)와 연관된 제 2 및 제 3 공간 파라미터들(SP2,SP3)의 적절한 선택으로, 인코더 조합의 역 또는 디코더 측에서 로테이션 절차를 수행하는 것이 가능하고, 따라서 제 1 및 제 2 오디오 신호들(x1,x2)이 명백하게 디코딩될 수 있다.
바람직하게는, 인코더는 그 출력 비트 스트림의 기저층에 제 1 출력부를 위치시키고, 반면 제 2 출력부는 출력 비트 스트림의 세밀층(refinement layer)으로 위치된다. 디코딩하는 동안, 저하된 신호 품질이 수용될 수 있는 것이라면 기저층만을 이용하는 것이 가능하며, 반면 디코딩 절차에 세밀층이 포함된다면 가능한 최고 신호 품질을 얻을 수 있다.
설명된 인코딩 원리는 스케일링 가능한 하이브리드 멀티-채널 오디오 인코더에 충분한 역방향 호환성을 제공한다. 디코더는 다음 시나리오들에 대해 이용될 수 있다: 1) 디코딩된 모노 또는 스테레오 신호만, 2) 잔류 신호들을 이용하지 않고 디코딩된 멀티-채널 출력, 3) 잔류 신호들과 함께 디코딩된 멀티-채널 출력.
이하에서, 인코더 조합 모듈들 및 공간 파라미터들의 바람직한 실시예들이 설명된다. 바람직한 인코더 조합 모듈은 다음에 따라 로테이트된 신호들의 합이 크기를 최대화함으로써, 제 1 및 제 2 오디오 신호들(x1,x2)을 주요 신호부(m) 및 잔류 신호부(s)으로 조합한다:
수식1
Figure 112007077807910-pct00001
sccorr에 포함된 크기 로테이션 계수들은 ICC 및 IID로부터 유도된다. 즉, 그들은 제 1 및 제 2 오디오 신호들(x1,x2)의 공간 속성에 기초한다. 이들 크기 로테이션 계수들은 다음 수식에 따라 산출되는 것이 바람직하다:
Figure 112007077807910-pct00002
잔류 신호(s)는 x1 및 x2 사이의 차이로 선택된다. 이 행렬은 sccorr이 0일 수 없기 때문에 항상 역행렬을 구할 수 있고, 이는 sccorr이 알려지면 완전한 재구성 이 달성될 수 있다는 것을 의미한다. 클리핑(clipping) 상수(sccorr , max)의 적절한 값은 1.2이다.
디코더에서 sccorr를 유도하기 위하여, 제 2 파라미터 세트(PS2)는 코히어런스 및 상관 파라미터들 사이의 차이를 포함하는 것이 바람직하고, 따라서 스케일링 가능한 비트 스트림의 세밀층 내의 대응하는 잔류 신호(s)와 함께 전송된다. 제 1 파라미터 세트(PS1)는, 코히어런스 파라미터들 또는 상관 파라미터들을 포함하고, 따라서 주요 신호부(m)과 함께 기처층에서 전송되도록 선택된다.
잔류 신호(s)가 디코더에서 가용한 때, sccorr의 산출을 용이하게 하는 상관 파라미터들이 유도되고, 수식1의 믹싱 매트릭스의 역이 결정될 수 있다:
Figure 112007077807910-pct00003
또다른 바람직한 실시예에서, 인코더 조합 모듈은 주성분 분석(Principal Component Analysis, PCA) 기반이고, 다음 수식에 따라 제 1 및 제 2 오디오 신호들(x1,x2)을 믹싱한다:
Figure 112007077807910-pct00004
여기에서, 바람직한 계수(α)는 다음 수식에 따라 ICC 및 IID에 기초한다:
Figure 112007077807910-pct00005
세밀층에 포함되는 제 2 파라미터 세트(PS2)의 인코딩을 위한 바람직한 옵션들이 다음을 포함하는 상관 파라미터들이다:
1) 기저층 내의 코히어런스 파라미터들에 독립적으로, 상관 파라미터들의 시간 또는 주파수 차동 코딩.
2) 기저층 내의 코히어런스 파라미터들에 대한 상관 파라미터들의 차동 코딩(즉, △ICC=ICCcorrelation-ICCcoherence).
3) 1 및 2의 조합, 최소의 비트 량을 요하는 것이 어느 것인지에 따름.
도3 및 도4는 인코딩된 모노 신호에 대한 인코더 조합에 기초하는 5.1 형식의 인코더 및 대응하는 5.1 디코더의 바람직한 구성들을 각각 도시한다. 도5 및 도6은 인코딩된 스테레오 신호에 대한 인코더 조합에 기초하는 대안의 5.1 형식의 인코더 및 대응하는 5.1 디코더의 바람직한 구성들을 각각 도시한다.
도3은 예컨대, 5.1 형식으로 6개의 오디오 신호들이 신호들(lf,ls,rf,rs,co,lfe)을 나타내는, 6개의 독립적인 오디오 신호들(lf,ls,rf,rs,co,lfe)의 모노 신호(m)로의 조합에 기초한 인코더 구성을 도시한다. 인코더는 앞서 설명된 바와 같이 5개의 인코더 조합 유닛들(EU)을 포함하고, 이들 유닛들(EU)은 여섯 개의 신호들(lf,ls,rf,rs,co,lfe)을 하나의 모노 신호(m)로 연속적으로 조합하도록 구성된다. 초기 세그멘테이션(segmentation) 및 변환 단 계(ST)가 인코더 조합에 앞서 신호 쌍들에 대해 수행된다. 이 단계(ST)는 시간-영역의 오디오 신호들을 중첩하는 세그먼트들로 세그멘테이션하고, 다음 이들 중첩하는 시간-영역의 세그먼트들을 주파수 영역의 표현들(대문자들로 표시)로 변환하는 것을 포함한다.
세그멘테이션 및 변환(ST) 후에, 두 좌측 채널들(Lf,Ls)이 주요 신호부(L), 제 1 및 제 2 파라미터 세트들(PS1a,PS1b) 및 잔류 신호(ResL)로 조합된다. 두 우측 채널들(Rf,Rs)이 주요 신호부(R), 제 1 및 제 2 파라미터 세트들(PS2a,PS2b) 및 잔류 신호(ResR)로 조합된다. 다음, 결과적인 주요 신호부들(L,R)이 주요 신호부(LR), 잔류 신호부(ResLR), 및 제 1 및 제 2 파라미터들(PS4a,PS4b)로 조합된다. 중앙 채널(C0) 및 서브-우퍼 채널(LFE)이 주요 신호부(C), 제 1 및 제 2 파라미터 세트들(PS3a,PS3b), 및 잔류 신호(ResC)로 조합된다. 마지막으로, 주요 신호부들(C,LR)이 주요 신호부(M), 잔류 신호부(ResM), 및 제 1 및 제 2 파라미터들(PS5a,PS5b)로 조합된다.
바람직하게는, 제 1 및 제 2 파라미터들의 세트들(PS1a-PS5a,PS1b-PS5b)이 양자화, 코딩, 및 전송 전에 세그먼트 내에서 다수의 주파수 대역들(서브-대역들)에 대해, 독립적으로 결정되지만, 바람직하다면 프로세싱이 전체 대역폭 신호들에 대해 수행될 수 있다. 신호 분석 및 프로세싱이 적용된 후, 선택적인 프로세싱(IT, OLA)이 적용될 수 있다: 세그먼트들이 시간 영역으로 역변환(IT)될 수 있고, 세그먼트들이 중첩되고 부가되어(OLA) 시간-영역의 모노 오디오 신호(m)를 얻을 수 있다. 인코더는 주요 신호부(m)과 5개의 파라미터 세트들(PS1a-PS5a)을 포함하는 제 1 출력부과, 5개의 잔류 신호부들(ResL, ResR, ResLR, ResM, ResC) 및 5개의 파라미터 세트들(PS1b-PS5b)을 포함하는 제 2 출력부를 생성한다.
도4는 도3의 인코더에 대응하는 디코더를 도시한다. 즉, 그것은 도3의 인코더로부터의 출력 신호를 수신하도록 구성된다. 디코더는 근본적으로 도3에 대해 설명된 프로세싱의 역 프로세싱을 적용한다. 디코더는 주요 신호부(m)에 적용되는 (선택적인) 초기 세그멘테이션 및 주파수 변환(ST)을 포함한다. 디코더는 5개의 유사한 디코더 조합 유닛들(DU)을 포함하고, 이들 중 하나는 점선으로 표시되어 있다. 디코더 조합 유닛(DU)은 믹싱-매트릭스(MM)를 포함하고, 이는 주요 신호부에 기초하여 제 1 및 제 2 신호들을 생성한다. 믹싱-매트릭스(MM) 즉, 인코더 조합 모듈(ECM)에 적용된 믹싱 매트릭스의 역은 수신된 주요 신호부, 잉여 부분, 및 제 1 및 제 2 파라미터 세트들에 기초하여 결정된다.
도4에 표시된 제 1 디코더 조합 유닛(DU)에서, 주요 신호(M)가 먼저 상관기(Dec)에서 역상관되고, 감쇠기(Att)에서 감쇠된다. 역상관되고 감쇠된 주요 신호부는, 다음으로, 잔류 신호부(ResM)에 더해진다. 이 더해진 신호는 믹싱-매트릭스(MM)를 결정하는데 이용된다. 감쇠기(Att)는 잔류 신호부(ResM) 및 제 1 파라미터 세트(PS5a)에 응답하여 설정된다. 마지막으로, 믹싱-매트릭스(MM)는 제 1 및 제 2 파라미터 세트들(PS5a,PS5b)을 이용하여 결정된다. 결정된 믹싱-매트릭스(MM)는 주요 신호부(M)을 제 1 출력 신호(LR) 및 제 2 출력 신호(C)로 조합한다. 이들 제 1 및 제 2 출력 신호들(LR,C)은 각각의 인코더 조합 유닛들에 적용되고, 연속적으로 조합되어 L,R, 및 C0,LFE 를 각각 출력한다. 마지막으로, L은 디코더 조합되어 Lf 및 Lr을 생성하고, 반면 R은 디코더 조합되어 Rf 및 Rr을 생성한다. 신호 분석 및 프로세싱이 적용된 후, 세그먼트들은 시간 영역으로 역변환(IT) 되고, 세그먼트들은 중첩 및 부가되어(OLA) 시간-영역 표현들(lf,lr,rf,rr,co,lfe)을 얻는다. 이 역변환 및 중첩-부가(IT,OLA)는 선택적이다.
도5는, 도3의 인코더와 관련하여 설명된 원리들에 따라 각각 기능하는 3개의 인코더 조합 유닛들이 6개의 오디오 신호들(Lf,Lr,Rf,Rr,C0,LFE)을 쌍으로 3개의 주요 신호부들(L,R,C), 연관된 제 1 파라미터 세트들(PS1a-PS3a), 제 2 파라미터 세트들(PS1b-PS3b), 및 잔류 신호부들(ResL,ResR,ResC)로 조합하는데 이용되는 인코더 실시예를 도시한다. 3-2 인코더 조합 유닛은, 다음으로, 3개의 주요 신호부(L,R,C)에 적용되어 2개의 주요 신호부들(L0,R0,), 잔류 신호부들(ResEo) 및 파라미터 세트(PS4)를 생성한다. 도3과 관련하여 설명한 바와 같이, 선택적으로, 초기 세그멘테이션 및 주파수 영역 변환(ST)이 적용되고, 마지막 역변환(IT) 및 중첩-부가(OLA)가 (선택적으로) 적용된다.
도6은 도5의 인코더로부터의 출력을 디코딩하도록 구성된 디코더 구성을 도시한다. 입력 신호들(lo,ro)의 (선택적인) 초기 세그멘테이션 및 주파수 영역 변환(ST) 후에, 2-3 디코더 조합 모듈은 파라미터 세트(PS4)와 함께 주요 신호부들(Lo,Ro), 잔류 신호부(ResEo)에 응답하여 주요 신호부들(L,R,C)을 생성한다. 이들 3개의 주요 신호부들(L,R,C)은 도4의 디코더와 연관하여 설명된 디코더 조합 유닛들(DU)과 유사한 각각의 디코더 조합 유닛들에서 처리된다. 마지막 역변환(IT) 및 중첩-부가(OLA)가 전술한 바와 같이 (선택적으로) 적용된다.
도7은 5명의 훈련된 청취자들에 대해 수행된 청취 테스트의 결과를 도시한다. 이용된 음악 아이템들(A-K)은 MPEG "공간 오디오 코딩(Spatial Audio Coding)" 작업 아이템에서 지정된 것들이다. 각각의 아이템(A-K)에 대해, 3개의 인코딩된 버전들에 대한 결과들이 테스트에 포함되었다: 1) 잉여들(residuals)이 없는 디코더-좌측에 도시, 2) 잉여들이 구비된 공간 인코더, 즉 본 발명에 따른 디코더-중간에 도시, 및 3) 참조(감추어짐)-우측에 도시. 아이템들(A-K)의 전체 평균이 TOT로서 표시되었다. 각각의 인코딩된 버전에 대해, 평균 등급(GRD)이 별표(*)로 표시되었고, 반면 청취자의 대답들에 대한 +/- 표준 편차가 그로부터 표시되었다.
시나리오 2) 및 3)에 대해, 도5 및 도6에서 설명된 인코더/디코더 원리가 이용되었다. 시나리오 2)에서, 잔류 신호부들이 버려졌다. 시나리오 3)에 대해, 2kHz로 대역 제한된 3개의 잔류 신호부들이 이용되었다: 디코더 조합 모듈 3-2에 대한 좌측 채널에 대한 잔류 신호부(ResL), 우측 채널에 대한 잔류 신호부(ResR), 및 잔류 신호부(ResEo). 잔류 신호들(ResL, ResR, ResEo) 각각은 8kbit/s의 비트 레이트로 코딩되었고, 여분의 공간 파라미터들(상관(세밀층) 및 코히어런스 파라미터들(기저층) 사이의 차이들)은 약 700bit/s의 비트 레이트를 요구하였다. 그러므로, 전체 여분의 잉여-관련 비트 레이트는 약 25kbit/s이다. 표준 공간 파라미터들(기저층에 배치됨)은 약 10kbit/s를 요하였다. 전체 공간 데이터 레이트는 따라서 약 35kbit/s이다. 코어 코덱이 스테레오 신호(lo,ro)에 적용되지 않았다.
결과들로부터, 낮은 비트 레이트로 코딩된 3개의 잔류 신호들을 이용하여 상당한 품질 개선이 얻어질 수 있다는 것이 분명해진다. 또한, 전체 평균 품질 등급 은 +/-92이고, 이는 "명백한(transparent)" 오디오 품질로 인지되는 것에 매우 근접한 것이다.
본 발명에 따른 인코더 및 디코더는 멀티-채널 오디오 코딩을 포함하는 모든 어플리케이션들에 적용될 수 있다: 예컨대, 디지털 비디오 방송(DVB), 디지털 오디오 방송(DAB), 인터넷 라디오, 전자 음악 분배(Electronic Music Distribution).
청구항들에서 참조 부호들은 단지 이해를 돕기 위해 이용된 것이다. 이들 참조 부호들은 본 발명의 범위를 한정하는 것이 아니며 예시적인 방식으로 포함된 것으로 이해되어야 한다.

Claims (28)

  1. 멀티-채널 오디오 신호를 인코딩하도록 구성된 오디오 인코더에 있어서:
    제 1 및 제 2 오디오 신호들(x1, x2)의 조합된 표현인 주요 신호부(m) 및 잔류 신호부(s)를 생성하기 위한 인코더 조합 모듈(ECM)로서, 상기 주요 및 잔류 신호부들(m, s)은 상기 제 1 및 제 2 오디오 신호들(x1, x2)에 수학적 연산을 적용함으로써 획득되고, 상기 수학적 연산은 상기 제 1 및 제 2 오디오 신호들(x1, x2)의 공간 속성들의 기술(description)을 포함하는 제 1 공간 파라미터(SP1)에 의존하는 상기 제 1 및 제 2 오디오 신호들(x1, x2)의 신호 로테이션을 사용하는, 상기 인코더 조합 모듈(ECM);
    제 2 공간 파라미터(SP2)를 포함하는 제 1 파라미터 세트(PS1) 및 제 3 공간 파라미터(SP3)를 포함하는 제 2 파라미터 세트(PS2)를 생성하기 위한 파라미터 생성기(PG); 및
    상기 주요 신호부(m) 및 상기 제 1 파라미터 세트(SP1)를 포함하는 제 1 출력부(OP1), 및 상기 잔류 신호부(s) 및 제 2 파라미터 세트(PS2)를 포함하는 제 2 출력부(OP2)를 포함하는 인코딩된 출력 신호를 생성하기 위한 출력 생성기를 포함하는, 오디오 인코더.
  2. 제 1 항에 있어서,
    상기 제 3 공간 파라미터(SP3)는 상기 제 2 공간 파라미터(SP2)와 상기 제 1 공간 파라미터(SP1) 사이의 차를 포함하는, 오디오 인코더.
  3. 제 1 항에 있어서,
    상기 제 2 공간 파라미터(SP2)는 코히어런스 기반 파라미터(coherence based parameter)를 포함하는, 오디오 인코더.
  4. 제 1 항에 있어서,
    상기 제 3 공간 파라미터(SP3)는 코히어런스 기반 파라미터와 상관 기반 파라미터(correlation based parameter) 사이의 차를 포함하는, 오디오 인코더.
  5. 제 1 항에 있어서,
    상기 잔류 신호부(s)는 상기 제 1 및 제 2 오디오 신호들(x1, x2) 사이의 차를 포함하는, 오디오 인코더.
  6. 제 1 항에 있어서,
    상기 인코더 조합 모듈(ECM)은, 상기 주요 및 잔류 신호부들(m, s)이 상기 제 1 및 제 2 오디오 신호들(x1, x2)보다 덜 상관(correlate)되도록 상기 주요 및 잔류 신호부들(m, s)을 생성하는, 오디오 인코더.
  7. 제 1 항에 있어서,
    제 3, 제 4, 제 5, 및 제 6 오디오 신호들을 수신하고, 상기 제 1 및 제 2 오디오 신호들(x1, x2)과 함께 이들 신호들을 다운-믹스(down-mix)하고, 그에 응답하여 상기 제 1 및 제 2 출력부들을 생성하도록 더 구성되는, 오디오 인코더.
  8. 인코딩된 신호에 기초하여 멀티-채널 오디오 신호를 생성하기 위한 오디오 디코더에 있어서,
    주요 신호부, 잔류 신호부, 및 제 1 및 제 2 파라미터 세트들에 기초하여 제 1 및 제 2 오디오 신호들을 생성하기 위한 디코더 조합 모듈(DU)로서, 상기 제 1 및 제 2 파라미터 세트들은 상기 제 1 및 제 2 오디오 신호들의 공간 속성들의 기술을 포함하고, 상기 잔류 신호부 및 상기 제 2 파라미터 세트는 상기 제 1 및 제 2 오디오 신호들을 생성하는데 이용되는 믹싱 매트릭스(MM)를 결정하는데 사용되고, 상기 믹싱 매트릭스(MM)는 상기 제 1 및 제 2 파라미터 세트들에 의존하는 상기 믹싱 매트릭스의 신호 로테이션 및 계수들을 규정하는, 상기 디코더 조합 모듈(DU)을 포함하는, 오디오 디코더.
  9. 제 8 항에 있어서,
    상기 디코더는 상기 주요 신호부를 수신하기 위한 역상관 수단(decorrelation means; Dec)를 포함하고, 그에 응답하여 역상관된 주요 신호부를 생성하는, 오디오 디코더.
  10. 제 9 항에 있어서,
    상기 잔류 신호부 및 상기 역상관된 주요 신호부의 가산이 상기 믹싱 매트릭스(MM)를 결정하는데 관련되는, 오디오 디코더.
  11. 제 10 항에 있어서,
    상기 디코더는, 상기 잔류 신호부에 상기 역상관된 주요 신호부를 가산하기 전에 상기 역상관된 주요 신호부를 감쇠하기 위한 감쇠기를 포함하는, 오디오 디코더.
  12. 제 8 항에 있어서,
    복수의 제 1 및 제 2 파라미터 세트들 및 복수의 잔류 신호부를 수신하고, 그에 응답하여 복수의 제 1 및 제 2 오디오 신호들의 세트들을 생성하도록 구성된, 오디오 디코더.
  13. 제 12 항에 있어서,
    상기 디코더는 3개의 제 1 및 제 2 파라미터 세트들과 3개의 잔류 신호부를 수신하고, 그에 응답하여 3개의 제 1 및 제 2 오디오 신호들의 세트들을 생성하도록 구성된, 오디오 디코더.
  14. 멀티-채널 오디오 신호를 인코딩하는 방법에 있어서:
    1) 제 1 및 제 2 오디오 신호들(x1, x2)의 조합된 표현인 주요 신호부(m) 및 잔류 신호부(s)를 생성하는 단계로서, 상기 주요 및 잔류 신호부들(m, s)은 상기 제 1 및 제 2 오디오 신호들(x1, x2)에 수학적 연산을 적용함으로써 획득되고, 상기 수학적 연산은 상기 제 1 및 제 2 오디오 신호들(x1, x2)의 공간 속성들의 기술을 포함하는 제 1 공간 파라미터(SP1)에 의존하는 상기 제 1 및 제 2 오디오 신호들(x1, x2)의 신호 로테이션을 사용하는, 상기 주요 신호부(m) 및 상기 잔류 신호부(s)를 생성하는 단계;
    2) 제 2 공간 파라미터를 포함하는 제 1 파라미터 세트를 생성하는 단계;
    3) 제 3 공간 파라미터를 포함하는 제 2 파라미터 세트를 생성하는 단계; 및
    4) 상기 주요 신호부(m) 및 상기 제 1 파라미터 세트를 포함하는 제 1 출력부, 및 상기 잔류 신호부(s) 및 상기 제 2 파라미터 세트를 포함하는 제 2 출력부를 포함하는 인코딩된 출력 신호를 생성하는 단계를 포함하는, 멀티-채널 오디오 신호 인코딩 방법.
  15. 인코딩된 신호에 기초하여 멀티-채널 오디오 신호를 생성하는 방법에 있어서:
    1) 제 1 및 제 2 오디오 신호들의 공간 속성들의 기술을 포함하는 제 1 및 제 2 공간 파라미터들, 주요 신호부, 및 잔류 신호부를 포함하는 상기 인코딩된 신호를 수신하는 단계;
    2) 상기 잔류 신호부 및 상기 제 2 공간 파라미터를 사용하여 믹싱 매트릭스(MM)를 결정하는 단계로서, 상기 믹싱 매트릭스(MM)는 상기 제 1 및 제 2 파라미터 세트들에 의존하는 상기 믹싱 매트릭스의 신호 로테이션 및 계수들을 규정하는, 상기 결정 단계; 및
    3) 상기 결정된 믹싱 매트릭스에 기초하여 상기 제 1 및 제 2 오디오 신호들을 생성하는 단계를 포함하는, 멀티-채널 오디오 신호 생성 방법.
  16. 제 15 항에 있어서,
    상기 인코딩된 신호를 수신한 후, 상기 주요 신호부를 역상관(de-correlating)하고, 그에 응답하여 역상관된 주요 신호부를 생성하는 단계를 포함하는, 멀티-채널 오디오 신호 생성 방법.
  17. 제 16 항에 있어서,
    상기 주요 신호부를 역상관한 후, 상기 잔류 신호부 및 상기 역상관된 주요 신호부를 가산하는 단계를 더 포함하는, 멀티-채널 오디오 신호 생성 방법.
  18. 제 17 항에 있어서,
    상기 믹싱 매트릭스(MM) 결정 단계는 상기 가산된 잔류 신호부 및 상기 역상관된 주요 신호부를 사용하는, 멀티-채널 오디오 신호 생성 방법.
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 제 1 항에 따른 인코더를 포함하는 오디오 인코더 디바이스.
  28. 제 8 항에 따른 디코더를 포함하는 오디오 디코더 디바이스.
KR1020077025069A 2005-03-30 2006-03-16 멀티-채널 오디오 데이터를 인코딩 및 디코딩하기 위한 방법, 및 인코더들 및 디코더들 KR101315077B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP05102506.2 2005-03-30
EP05102506 2005-03-30
EP05103077 2005-04-18
EP05103077.3 2005-04-18
PCT/IB2006/050819 WO2006103581A1 (en) 2005-03-30 2006-03-16 Scalable multi-channel audio coding

Publications (2)

Publication Number Publication Date
KR20070116170A KR20070116170A (ko) 2007-12-06
KR101315077B1 true KR101315077B1 (ko) 2013-10-08

Family

ID=36579108

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077025069A KR101315077B1 (ko) 2005-03-30 2006-03-16 멀티-채널 오디오 데이터를 인코딩 및 디코딩하기 위한 방법, 및 인코더들 및 디코더들

Country Status (12)

Country Link
US (2) US8036904B2 (ko)
EP (1) EP1866911B1 (ko)
JP (1) JP4943418B2 (ko)
KR (1) KR101315077B1 (ko)
CN (1) CN101151659B (ko)
AT (1) ATE470930T1 (ko)
BR (1) BRPI0608753B1 (ko)
DE (1) DE602006014809D1 (ko)
ES (1) ES2347274T3 (ko)
PL (1) PL1866911T3 (ko)
RU (1) RU2416129C2 (ko)
WO (1) WO2006103581A1 (ko)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005098821A2 (en) * 2004-04-05 2005-10-20 Koninklijke Philips Electronics N.V. Multi-channel encoder
MX2007005262A (es) * 2004-11-04 2007-07-09 Koninkl Philips Electronics Nv Codificacion y decodificacion de senales de audio de varios canales.
WO2006126843A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding audio signal
JP4988717B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US8626503B2 (en) * 2005-07-14 2014-01-07 Erik Gosuinus Petrus Schuijers Audio encoding and decoding
TWI469133B (zh) * 2006-01-19 2015-01-11 Lg Electronics Inc 媒體訊號處理方法及裝置
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
KR20080110920A (ko) * 2006-02-07 2008-12-19 엘지전자 주식회사 부호화/복호화 장치 및 방법
KR101434834B1 (ko) * 2006-10-18 2014-09-02 삼성전자주식회사 다채널 오디오 신호의 부호화/복호화 방법 및 장치
US8571875B2 (en) 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
CN103137132B (zh) * 2006-12-27 2016-09-07 韩国电子通信研究院 用于编码多对象音频信号的设备
US8185815B1 (en) * 2007-06-29 2012-05-22 Ambrosia Software, Inc. Live preview
WO2009049896A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
WO2009054665A1 (en) * 2007-10-22 2009-04-30 Electronics And Telecommunications Research Institute Multi-object audio encoding and decoding method and apparatus thereof
CA2720636C (en) * 2008-04-18 2014-02-18 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
PL2301017T3 (pl) * 2008-05-09 2017-05-31 Nokia Technologies Oy Urządzenie akustyczne
EP2287836B1 (en) * 2008-05-30 2014-10-15 Panasonic Intellectual Property Corporation of America Encoder and encoding method
US8473288B2 (en) * 2008-06-19 2013-06-25 Panasonic Corporation Quantizer, encoder, and the methods thereof
US8363866B2 (en) * 2009-01-30 2013-01-29 Panasonic Automotive Systems Company Of America Audio menu navigation method
KR101613975B1 (ko) * 2009-08-18 2016-05-02 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
KR101391110B1 (ko) 2009-09-29 2014-04-30 돌비 인터네셔널 에이비 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
EP2572499B1 (en) * 2010-05-18 2018-07-11 Telefonaktiebolaget LM Ericsson (publ) Encoder adaption in teleconferencing system
GB2486663A (en) * 2010-12-21 2012-06-27 Sony Comp Entertainment Europe Audio data generation using parametric description of features of sounds
MX2013011131A (es) 2011-03-28 2013-10-30 Dolby Lab Licensing Corp Transformada con complejidad reducida para canal de efectos de baja frecuencia.
JP5737077B2 (ja) * 2011-08-30 2015-06-17 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
EP2600343A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
WO2013083875A1 (en) * 2011-12-07 2013-06-13 Nokia Corporation An apparatus and method of audio stabilizing
WO2013162450A1 (en) * 2012-04-24 2013-10-31 Telefonaktiebolaget L M Ericsson (Publ) Encoding and deriving parameters for coded multi-layer video sequences
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US9706324B2 (en) 2013-05-17 2017-07-11 Nokia Technologies Oy Spatial object oriented audio apparatus
US9779739B2 (en) * 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
US10595144B2 (en) 2014-03-31 2020-03-17 Sony Corporation Method and apparatus for generating audio content
CN104240712B (zh) * 2014-09-30 2018-02-02 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及***
CN105632505B (zh) * 2014-11-28 2019-12-20 北京天籁传音数字技术有限公司 主成分分析pca映射模型的编解码方法及装置
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
FR3052614B1 (fr) * 2016-06-13 2018-08-31 Raymond MOREL Methode de codage par signaux acoustiques aleatoires et methode de transmission associee
ES2834083T3 (es) * 2016-11-08 2021-06-16 Fraunhofer Ges Forschung Aparato y método para la mezcla descendente o mezcla ascendente de una señal multicanal usando compensación de fase
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
CN112740708B (zh) * 2020-05-21 2022-07-22 华为技术有限公司 一种音频数据传输方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990041072A (ko) * 1997-11-20 1999-06-15 윤종용 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
US20030236583A1 (en) 2002-06-24 2003-12-25 Frank Baumgarte Hybrid multi-channel/cue coding/decoding of audio signals
WO2004008805A1 (en) 2002-07-12 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4320990B4 (de) * 1993-06-05 2004-04-29 Robert Bosch Gmbh Verfahren zur Redundanzreduktion
DE19628292B4 (de) * 1996-07-12 2007-08-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten
DE19959156C2 (de) * 1999-12-08 2002-01-31 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals
JP3335605B2 (ja) * 2000-03-13 2002-10-21 日本電信電話株式会社 ステレオ信号符号化方法
JP2002175097A (ja) * 2000-12-06 2002-06-21 Yamaha Corp 音声信号のエンコード/圧縮装置およびデコード/伸長装置
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
US7395210B2 (en) * 2002-11-21 2008-07-01 Microsoft Corporation Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
US7646875B2 (en) * 2004-04-05 2010-01-12 Koninklijke Philips Electronics N.V. Stereo coding and decoding methods and apparatus thereof
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
US7835918B2 (en) * 2004-11-04 2010-11-16 Koninklijke Philips Electronics N.V. Encoding and decoding a set of signals
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990041072A (ko) * 1997-11-20 1999-06-15 윤종용 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
US20030236583A1 (en) 2002-06-24 2003-12-25 Frank Baumgarte Hybrid multi-channel/cue coding/decoding of audio signals
WO2004008805A1 (en) 2002-07-12 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding

Also Published As

Publication number Publication date
JP2008535014A (ja) 2008-08-28
US8036904B2 (en) 2011-10-11
US20080195397A1 (en) 2008-08-14
DE602006014809D1 (de) 2010-07-22
US20120063604A1 (en) 2012-03-15
JP4943418B2 (ja) 2012-05-30
RU2416129C2 (ru) 2011-04-10
WO2006103581A1 (en) 2006-10-05
ES2347274T3 (es) 2010-10-27
BRPI0608753A2 (pt) 2011-03-15
ATE470930T1 (de) 2010-06-15
EP1866911A1 (en) 2007-12-19
CN101151659B (zh) 2014-02-05
PL1866911T3 (pl) 2010-12-31
EP1866911B1 (en) 2010-06-09
US8352280B2 (en) 2013-01-08
BRPI0608753B1 (pt) 2019-12-24
CN101151659A (zh) 2008-03-26
RU2007139921A (ru) 2009-05-10
KR20070116170A (ko) 2007-12-06

Similar Documents

Publication Publication Date Title
KR101315077B1 (ko) 멀티-채널 오디오 데이터를 인코딩 및 디코딩하기 위한 방법, 및 인코더들 및 디코더들
US10433091B2 (en) Compatible multi-channel coding-decoding
US7961890B2 (en) Multi-channel hierarchical audio coding with compact side information
AU2007312597B2 (en) Apparatus and method for multi -channel parameter transformation
CA2566366C (en) Audio signal encoder and audio signal decoder
KR101158698B1 (ko) 복수-채널 인코더, 입력 신호를 인코딩하는 방법, 저장 매체, 및 인코딩된 출력 데이터를 디코딩하도록 작동하는 디코더
WO2005069274A1 (en) Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
AU2004306509B2 (en) Compatible multi-channel coding/decoding

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160920

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170921

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180920

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190918

Year of fee payment: 7