KR101055739B1 - 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치 - Google Patents

오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치 Download PDF

Info

Publication number
KR101055739B1
KR101055739B1 KR1020087031409A KR20087031409A KR101055739B1 KR 101055739 B1 KR101055739 B1 KR 101055739B1 KR 1020087031409 A KR1020087031409 A KR 1020087031409A KR 20087031409 A KR20087031409 A KR 20087031409A KR 101055739 B1 KR101055739 B1 KR 101055739B1
Authority
KR
South Korea
Prior art keywords
audio
signal
audio signal
signals
vocal
Prior art date
Application number
KR1020087031409A
Other languages
English (en)
Other versions
KR20090018839A (ko
Inventor
윤성용
방희석
이현국
김동수
임재현
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20090018839A publication Critical patent/KR20090018839A/ko
Application granted granted Critical
Publication of KR101055739B1 publication Critical patent/KR101055739B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

본 발명은 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치에 관한 것이다. 본 오디오 복호화 방법은, 오디오 신호에서 뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와 제1 오디오 파라미터, 보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호와 제2 오디오 파라미터를 추출하고, 제1 및 제2 오디오신호 중 적어도 하나를 이용하여, 제3 오디오 신호를 생성한다. 그리고, 제1 및 제2 오디오 파라미터 중 적어도 하나와 제3 오디오 신호를 이용하여 멀티채널 오디오 신호를 생성한다. 이에 의해, 부호화 및 복호화 과정에서 계산량 및 부호화되는 비트스트림의 크기를 효율적으로 감소시킬 수 있다.

Description

오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치{METHOD FOR ENCODING AND DECODING OBJECT-BASED AUDIO SIGNAL AND APPARATUS THEREOF}
본 발명은 오브젝트 기반의 오디오 신호를 그룹핑을 통해 효율적으로 처리할 수 있도록 부호화 및 복호화하는 오디오 부호화 및 복호화 방법과 그 장치에 관한 것이다.
일반적으로 오브젝트 기반의 오디오 코덱(object-based audio codec)은 각 오브젝트(object) 신호로부터 추출한 특정 파라미터와 오브젝트 신호들의 합을 전송하고, 이로부터 다시 각 오브젝트 신호를 복원한 후 필요한 채널 수만큼 믹싱하는 방식을 사용한다. 따라서, 오브젝트 신호가 많아질 경우, 각각의 오브젝트 신호를 믹싱하는데 필요한 정보량도 오브젝트 신호의 수에 비례하여 증가하게 된다.
그런데, 서로 밀접한 상관성을 가지는 오브젝트 신호들의 경우, 각 오브젝트 신호에 대해 비슷한 믹싱 정보 등을 전송하게 되므로, 이들을 하나의 그룹으로 묶고 동일한 정보를 한번만 전송함으로써 효율성을 높일 수 있다.
일반적인 부호화 및 복호화에서도, 여러 오브젝트 신호를 합쳐서 하나의 오브젝트 신호화 하여 비슷한 효과를 낼 수 있지만, 이러한 방법을 사용하는 경우, 오브젝트 신호의 단위가 커지게 되고, 합치기 전 원래 오브젝트 신호 단위로 믹싱 하는 것도 불가능하다.
기술적 과제
따라서, 본 발명의 목적은, 연관성을 갖는 오브젝트 오디오 신호를 하나의 그룹으로 묶어 그룹별로 처리 가능하도록 오브젝트 신호를 부호화 및 복호화하는 오디오 부호화 및 복호화 방법과 그 장치를 제공함에 있다.
기술적 해결방법
상기 목적을 달성하기 위한 본 발명에 따른 오디오 신호 복호화 방법은, 오디오 신호에서 뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와 제1 오디오 파라미터, 보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호와 제2 오디오 파라미터를 추출하는 단계, 상기 제1 및 제2 오디오신호 중 적어도 하나를 이용하여 제3 오디오 신호를 생성하는 단계, 및 상기 제1 오디오 파라미터 및 상기 제2 오디오 파라미터 중 적어도 하나와, 상기 제3 오디오 신호를 이용하여 멀티채널 오디오 신호를 생성하는 단계를 포함한다.
또한, 상기 목적을 달성하기 위한 본 발명에 따른 오디오 복호화 방법은, 다운믹스 신호를 수신하는 단계, 상기 다운믹스 신호에서 보컬 오브젝트를 포함하는 뮤직 오브젝트가 부호화된 제1 오디오 신호와, 보컬 오브젝트가 부호화된 제2 오디오 신호를 추출하는 단계, 및 상기 제1 및 제2 오디오신호에 기초하여, 상기 보컬 오브젝트만 포함된 오디오 신호, 상기 보컬 오브젝트가 포함된 오디오 신호, 및 상기 보컬 오브젝트가 포함되지 않은 오디오 신호 중 어느 하나를 생성하는 단계를 포함한다.
한편, 본 발명에 따른 오디오 신호 복호화 장치는, 수신한 비트스트림에서 다운믹스 신호와 부가정보를 추출하는 멀티플레서, 상기 다운믹스 신호에서 추출한 뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와, 보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호 중 적어도 하나를 이용하여, 제3 오디오 신호를 생성하는 오브젝트 디코더, 및 상기 부가정보에서 추출한 제1 오디오 파라미터 및 상기 제2 오디오 파라미터 중 적어도 하나와, 상기 제3 오디오 신호를 이용하여 멀티채널 오디오 신호를 생성하는 멀티채널 디코더를 포함한다.
또한, 본 발명에 따른 오디오 복호화 장치는, 다운믹스 신호에서 추출한 뮤직 오브젝트가 부호화된 제1 오디오 신호와, 보컬 오브젝트가 부호화된 제2 오디오 신호에 기초하여, 상기 보컬 오브젝트만 포함된 오디오 신호, 상기 보컬 오브젝트가 포함된 오디오 신호, 및 상기 보컬 오브젝트가 포함되지 않은 오디오 신호 중 어느 하나를 생성하는 오브젝트 디코더; 및 상기 오브젝트 디코더에서 출력되는 신호를 이용하여 멀티채널 오디오 신호를 생성하는 멀티채널 디코더를 포함한다.
또한, 본 발명에 따른 오디오 부호화 방법은, 뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와, 상기 뮤직 오브젝트에 대응하는 제1 오디오 파라미터를 생성하는 단계, 보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호와, 상기 보컬 오브젝트에 대응하는 제2 오디오 파라미터를 생성하는 단계, 및상기 제1 및 제2 오디오 신호, 상기 제1 및 제2 오디오 파라미터를 포함하는 비트스트림을 생성하는 단계를 포함한다.
본 발명에 따르면, 뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와, 상기 뮤직 오브젝트에 대한 채널 기반의 제1 오디오 파라미터를 생성하는 멀티채널 인코더, 보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호와, 상기 보컬 오브젝트에 대한 오브젝트 기반의 제2 오디오 파라미터를 생성하는 오브젝트 인코더, 및 상기 제1 및 제2 오디오 신호, 상기 제1 및 제2 오디오 파라미터를 포함하는 비트스트림을 생성하는 멀티플렉서를 포함하는 오디오 부호화 장치가 제공된다.
상기 목적을 달성하기 위하여 본 발명에서는, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
유리한 효과
본 발명에 따르면, 오브젝트 기반의 오디오 신호의 부호화 및 복호화의 장점을 최대한 활용하면서, 연관성을 갖는 오브젝트 오디오 신호를 그룹별로 처리할 수 있다. 이에 의해, 부호화 및 복호화 과정에서 계산량 및 부호화되는 비트스트림의 크기 등에서 효율성을 높일 수 있다. 또한, 본 발명은 뮤직 오브젝트와 보컬 오브젝트 등으로 오브젝트 신호를 그룹핑하여, 가라오케 시스템 등에 유용하게 적용될 수 있다.
도 1은 본 발명의 제1 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,
도 2는 본 발명의 제2 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭 도,
도 3은 음원, 그룹, 및 오브젝트 신호간의 상관관계를 나타낸 도면,
도 4는 본 발명이 제3 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,
도 5 및 도 6은 메인 오브젝트와 백그라운드 오브젝트를 설명하기 위한 도면,
도 7 및 도 8은 부호화 장치에서 생성하는 비트스트림의 구성을 설명하기 위한 도면,
도 9는 본 발명의 제4 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,
도 10은 복수의 메인 오브젝트를 사용하는 경우를 설명하기 위한 도면,
도 11은 본 발명의 제5 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,
도 12는 본 발명의 제6 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,
도 13은 본 발명의 제7 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,
도 14는 본 발명의 제8 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,
도 15는 본 발명의 제9 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭 도, 그리고
도 16은 본 발명의 제10 실시예에 따른 오디오 부호화 장치의 블럭도이다.
발명의 실시를 위한 최선의 형태
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 본 발명의 제1 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 부호화 및 복호화 장치는, 오브젝트 기반(object-based)의 오디오 신호에 해당하는 오브젝트 신호를 그룹핑(grouping) 개념을 적용하여 복호화 및 부호화한다. 즉, 연관성을 갖는 1개 이상의 오브젝트 신호를 같은 그룹으로 묶어, 그룹단위로 부호화 및 복호화 과정을 수행한다.
도 1을 참조하면, 오브젝트 인코더(111)를 포함하는 오디오 부호화 장치(110)와, 오브젝트 디코더(121) 및 믹서/랜더러(mixer/render)(123)를 포함하는 오디오 복호화 장치(120)가 도시되어 있다. 도면에는 도시되어 있지 않으나, 부호화 장치(110)는 멀티플렉서(multiplxer) 등을 포함하여 다운믹스 신호와 부가정보를 결합한 비트스트림을 생성하고, 복호화 장치(120)는 디멀티플렉서(demultiplexer) 등을 포함하여 전송받은 비트스트림에서 다운믹스 신호와 부가정보를 추출할 수 있다. 이와 같은 구성은, 이하 설명하는 다른 실시예에 따른 부호화 및 복호화 장치에서도 마찬가지이다.
부호화 장치(110)는 N개의 오브젝트 신호와, 연관성을 갖는 오브젝트 신호의 그룹별 상대적인 위치정보, 크기정보, 시간차이 정보 등을 포함하는 그룹정보를 입력받는다. 부호화 장치(110)는 연관성을 갖는 오브젝트 신호를 그룹핑한 신호를 부 호화하여, 하나 혹은 그 이상의 채널을 갖는 오브젝트 기반의 다운믹스 신호와, 각 오브젝트 신호에서 추출한 정보 등이 포함되는 부가정보(side information)를 생성한다.
복호화 장치(120)에서 오브젝트 디코더(121)는 다운믹스 신호와 부가정보를 이용하여 그룹핑이 적용되어 부호화된 신호를 생성하고, 믹서/랜더러(123)는 오브젝트 디코더(121)에서 출력되는 신호를 제어정보에 따라 멀티 채널 공간상의 특정위치에 특정 레벨로 배치한다. 즉, 부호화 장치(110)는 그룹핑이 적용되어 부호화된 신호를 오브젝트 단위로 다시 분해되지 않고, 멀티채널 신호를 생성한다.
이와 같은 구성에 의해, 시간에 따른 위치변화, 크기변화, 및 딜레이 변화 등이 비슷한 오브젝트 신호들을 그룹핑하여 부호화함으로써, 전송할 정보량을 줄일 수 있다. 또한, 오브젝트 신호를 그룹핑하는 경우, 하나의 그룹에 대해 공통된 부가정보를 전송할 수 있으므로, 동일 그룹에 속한 여러 오브젝트 신호에 대한 제어가 간단해진다.
도 2는 본 발명의 제2 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 신호 복호화 장치(140)는, 오브젝트 추출부(143)를 더 포함한다는 점에서 제1 실시예와 차이점이 있다.
즉, 부호화 장치(130), 오브젝트 디코더(141), 믹서/랜더러(145)의 기능 및 구성은 제1 실시예에서 설명한 바와 같다. 다만, 복호화 장치(140)가 오브젝트 추출부(143)를 더 포함하여, 오브젝트 단위의 분해가 필요하게 된 경우, 해당 오브젝트 신호가 속한 그룹을 오브젝트 단위로 분해할 수 있다. 이 경우, 모든 그룹에 대 해 오브젝트 단위로 분해하지 않고, 그룹단위로 믹싱 등이 불가능한 그룹에 대해서만 오브젝트 신호를 추출할 수 있다.
도 3은 음원, 그룹(group), 및 오브젝트 신호들 간의 상관관계를 나타낸 도면이다. 도 3에 도시한 바와 같이, 오브젝트 신호의 그룹핑은 비트스트림의 크기를 줄일 수 있도록 비슷한 성질을 가지는 오브젝트 신호를 묶어 이루어지며, 모든 오브젝트 신호들은 상위 그룹에 속하게 된다.
도 4는 본 발명의 제3 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 부호화 및 복호화 장치에서는 코어 다운믹스 채널(core downmix channel)의 개념을 사용한다.
도 4를 참조하면, 오디오 부호화 장치에 속하는 오브젝트 인코더(151)와, 오브젝트 디코더(161) 및 믹서/랜더러(mixer/render)(163)를 포함하는 오디오 복호화 장치(160)가 도시되어 있다.
오브젝트 인코더(151)는 N(N>1)개로 이루어진 오브젝트 신호들을 입력받아, M개(1<M<N)의 채널로 다운믹스한 신호를 생성한다. 복호화 장치(160)에서 오브젝트 디코더(161)는 M개의 채널로 다운믹스한 신호를 다시 N개의 오브젝트 신호로 복호화하고, 최종적으로는 믹서/랜더러(Mixer/Render)(163)는 L(L≥1)개의 채널 신호를 출력한다.
이때, 오브젝트 인코더(151)가 생성하는 M개의 다운믹스 채널(downmix channel)은 K(K<M)개의 코어 다운믹스 채널(core downmix channel)과 (M-K)개의 논-코어 다운믹스 채널(non-core downmix channel)로 구성된다. 이와 같이 다운믹 스 채널을 구성하는 이유는, 오브젝트 신호에 따라서 그 중요도가 달라질 수 있기 때문이다. 즉, 일반적인 부호화 및 복호화 방법으로는 오브젝트 신호에 대한 분해능이 충분하지 않아서, 각 오브젝트 신호별로 다른 오브젝트 신호의 성분도 포함할 수 있다. 따라서, 이와 같이 코어 다운믹스 채널과 논-코어 다운믹스 채널로 다운믹스 채널을 별도로 구성하여 오브젝트 신호 간의 간섭을 최소화할 수 있다.
이때, 코어 다운믹스 채널은, 그 처리 방법에 있어서 논-코어 다운믹스 채널과 다른 처리 방법을 사용할 수 있다. 예를 들어, 도 4에서, 믹서/랜더러(163)로 입력되는 부가정보(side information)를 코어 다운믹스 채널에만 정의하여 사용할 수 있다. 즉, 믹서/랜더러(163)에서 논-코어 다운믹스 채널로부터 복호화되는 오브젝트 신호들은 제어하지 않고, 코어 다운믹스 채널로부터 복호화되는 오브젝트 신호들만 제어할 수 있도록 구성하는 것이다.
또 다른 예로써, 코어 다운믹스 채널의 경우 소수의 오브젝트 신호로만 구성하여 사용하고, 그 오브젝트 신호들에 대해 전술한 그룹핑(grouping)을 적용하여, 하나의 제어정보로 제어할 수 있다. 예를 들어, 보컬(vocal) 신호만으로 별도의 코어 다운믹스 채널로 구성하여, 가라오케 시스템(karaoke system)을 구성할 수 있다. 또한, 드럼(drum) 등의 신호만을 모아서 별도의 코어 다운믹스 채널을 구성하여, 드럼 신호 등과 같은 저주파 신호의 강도를 정밀하게 제어할 수 있다.
한편, 일반적으로 뮤직(music)은 트랙 등의 형태로 이루어진 여러 오디오 신호들을 믹싱하여 생성한다. 예를 들어, 드럼, 기타, 피아노, 보컬(vocal) 신호로 구성되는 뮤직의 경우, 드럼, 기타, 피아노, 보컬 신호가 각각 오브젝트 신호라 할 수 있다. 이 경우, 전체 오브젝트 신호들 중 특별히 중요하다고 판단되어 사용자가 제어가능한 하나의 오브젝트 신호 혹은 다수의 오브젝트 신호들이 믹싱되어 하나의 오브젝트 신호처럼 제어되는 것을 메인 오브젝트(main object)로 정의할 수 있다. 또한, 전체 오브젝트 신호들 중 메인 오브젝트를 제외한 오브젝트 신호들에 대해 이들이 믹싱된 것을 백그라운드 오브젝트(background object)로 정의할 수 있다. 이와 같은 정의에 따라, 전체 오브젝트 혹은 뮤직 오브젝트는, 메인 오브젝트와 백그라운드 오브젝트로 이루어진다고 할 수 있다.
도 5 및 도 6은 메인 오브젝트와 백그라운 오브젝트를 설명하기 위한 도면이다. 도 5의 (a)에 도시한 바와 같이. 메인 오브젝트를 보컬 사운드로 하고, 백그라운드 오브젝트를 보컬 사운드를 제외한 모든 악기음들이 믹싱된 것으로 할 때, 뮤직 오브젝트는 보컬 오브젝트와 그외 악기음들의 믹싱된 백그라운드 오브젝트로로 구성될 수 있다. 메인 오브젝트는, 도 5의 (b)에 도시한 바와 같이, 하나 이상이 포함될 수도 있다.
또한, 메인 오브젝트는 여러 개의 오브젝트 신호들이 믹싱된 형태일 수 있다. 예를 들어, 도 6에 도시한 바와 같이, 보컬과 기타(guitar) 사운드를 믹싱한 것을 메인 오브젝트로 사용하고, 그 외의 악기를 백그라운드 오브젝트로 사용할 수 있다.
뮤직 오브젝트에서 메인 오브젝트와 백그라운드 오브젝트를 따로 제어하기 위해서는 부호화 장치에서 부호화된 비트스트림이 다음의 도 7에 도시한 형태 중 어느 하나의 형태를 가져야 한다.
도 7의 (a)는, 부호화 장치에서 생성한 비트스트림이 뮤직 비트스트림과 메인 오브젝트 비트스트림으로 구성된 것을 나타낸다. 뮤직 비트스트림은 모든 오브젝트 신호들이 믹싱된 형태로써, 메인 오브젝트와 백그라운드 오브젝트를 모두 합한 것에 대응하는 비트스트림을 의미한다. 도 7의 (b)는 비트스트림이 뮤직 비트스트림과 백그라운드 오브젝트 비트스트림으로 구성된 것을 나타내며, 도 7의 (c)는 비트스트림이 메인 오브젝트 비트스트림과 백그라운드 오브젝트 비트스트림으로 구성된 것을 나타낸다.
도 7에서, 뮤직 비트스트림, 메인 오브젝트 비트스트림, 백그라운드 오브젝트 비트스트림은 각각 동일한 방식의 부호화기와 복호화기를 사용하는 생성하는 것이 원칙이다. 그러나, 메인 오브젝트를 보컬 오브젝트로 사용할 경우, 뮤직 비트스트림은 mp3를 이용해 복호화 및 부호화하고, 보컬 오브젝트 비트스트림은 AMR, QCELP, EFR, EVRC 등의 음성 코덱을 이용하여 비트스트림의 용량을 줄이면서 부호화 및 복호화할 수 있다. 즉, 뮤직 오브젝트와 메인 오브젝트, 혹은 메인 오브젝트와 백그라운드 오브젝트 등의 부호화 및 복호화 방법을 다르게 사용할 수 있다.
도 7의 (a)의 경우, 뮤직 비트스트림 부분은 일반적인 부호화 방법과 동일하게 구성한다. 그리고, MP3나 AAC 등의 부호화 방법은 비트스트림 후반부에 ancillary 영역 혹은 auxiliary 영역 등 부가 정보를 표시하는 부분을 가지는데, 메인 오브젝트 비트스트림을 이 부분에 추가할 수 있다. 따라서, 전체 비트스트림은 뮤직 오브젝트가 부호화된 영역과, 뒤따르는 메인 오브젝트 영역으로 구성된다. 이때, 부가영역의 초반부에 메인 오브젝트를 추가되어 있다는 것을 나타내는 지시 자(indicator)나 플래그(flag) 등을 추가하여, 복호화 장치에서 메인 오브젝트가 존재하는지 여부를 판별할 수 있도록 한다.
도 7의 (b)의 경우는 (a)와 기본적으로 동일한 구성으로, 앞서 설명한 부분에서 메인 오브젝트 대신 백그라운드 오브젝트가 사용되는 것으로 설명할 수 있다.
도 7의 (c)의 경우는, 비트스트림이 메인 오브젝트와 백그라운드 오브젝트 비트스트림으로 구성된 경우를 나타낸다. 이 경우, 뮤직 오브젝트는, 메인 오브젝트와 백그라운드 오브젝트의 합 혹은 믹싱된 것으로 구성된다. 비트스트림의 구성 방법에 있어서는 백그라운드 오브젝트를 먼저 저장하고, 보조 영역에 메인 오브젝트를 저장할 수 있다. 혹은 메인 오브젝트를 먼저 저장하고 보조 영역에 메인 오브젝트를 저장할 수도 있다. 이와 같은 경우, 부가영역의 초반부에 부가영역의 정보를 알려주기 위해서 지시자를 추가하는 것은 앞서 설명한 바와 동일하다.
도 8은 메인 오브젝트가 추가되었음을 판별할 수 있도록 비트스트림을 구성하는 방법을 나타낸다. 첫 번째의 예는, 뮤직 비트스트림이 끝나면, 다음번 프레임(frame)이 시작될 때까지 보조 영역임을 미리 정의하는 것으로써, 메인 오브젝트가 부호화되었다는 것을 표시하는 지시자만 있으면 된다.
두 번째 예에서는 뮤직 비트스트림이 끝난 다음, 보조 영역 혹은 데이터 영역이 시작된다는 지시자가 필요한 부호화 방법인데, 이에 의해 메인 오브젝트를 부호화함에 있어서, 보조 영역 시작을 나타내는 지시자와 메인 오브젝트임을 표시하는 지시자 등 2가지의 지시자가 필요하게 된다. 이러한 비트스트림을 복호화함에 있어서는 우선 지시자를 읽어서 데이터의 종류를 판별하고, 이후 데이터 부분을 읽 어서 복호화를 수행하게 된다.
도 9는 본 발명의 제4 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 부호화 및 복호화 장치는 보컬 오브젝트가 메인 오브젝트로 추가된 비트스트림을 부호화 및 복호화한다.
도 9를 참조하면, 부호화 장치에 포함되는 인코더(211)는 보컬 오브젝트와 뮤직 오브젝트를 포함하는 음악신호를 부호화한다. 인코더(211)의 예로는 MP3, AAC, WMA 등을 들 수 있다. 인코더(211)는 음악신호 외에 보컬 오브젝트를 메인 오브젝트로 비트스트림에 추가한다. 이때, 인코더(210)는, 전술한 바와 같이, ancillary 영역이나 auxiliary 영역 등 부가 정보를 표시하는 부분에 보컬 오브젝트를 추가하며, 보컬 오브젝트가 추가로 존재한다는 것을 부호화 장치에 알리기 위한 지시자 등도 추가한다.
복호화 장치(220)는 일반코덱 디코더(221), 보컬 디코더(223), 및 믹싱부(225)를 포함한다. 일반 코덱 디코더(221)은 수신한 비트스트림 중에서 뮤직 비트스트림 부분을 복호화한다. 이 경우, 메인 오브젝트 영역은 단지 부가영역 혹은 데이터 영역으로 인식되며 복호화 과정에서 사용되지 않는다. 보컬 디코더(223)는 수신한 비트스트림 중에서 보컬 오브젝트 부분을 복호화한다. 믹싱부(225)는 일반 코덱 디코더(221)와 보컬 디코더(223)에서 복호화한 신호를 믹싱하여 출력한다.
보컬 오브젝트가 메인 오브젝트로 포함된 비트스트림을 수신한 경우, 보컬 디코더(223)가 없는 부호화 장치에서는 뮤직 비트스트림만 복호화하여 출력하지만, 이 경우에도 뮤직 스트림 내에 보컬 신호가 포함되므로 일반적인 오디오 출력과 동 일하다. 또한, 복호화 과정에서, 비트스트림 내에 지시자 등을 이용하여 보컬 오브젝트가 추가되어 있는지 여부를 판단하고, 보컬 오브젝트의 복호화가 불가능한 경우에는 보컬 오브젝트를 스킵(skip) 등을 통해 무시하고, 복호화가 가능한 경우에는 복호화하여 믹싱에 사용한다.
일반 코덱 디코더(221)는 음악 재생을 위한 것이므로 일반적으로 많이 사용되는 오디오 복호화를 사용한다. 예를 들어 MP3, AAC, HE-AAC, WMA, OggVorbis 등이 있다. 보컬 디코더(223)는 일반 코덱 디코더(221)와 동일한 코덱을 사용하거나 혹은 다른 코덱을 사용할 수 있다. 예를 들어 보컬 디코더(223)에서는 EVRC, EFR, AMR, QCELP 등의 음성 코덱을 사용할 수 있는데, 이 경우는 복호화를 위한 연산량을 줄일 수 있다.
또한, 보컬 오브젝트를 모노(mono)로 구성했을 때 비트레이트를 가장 줄일 수 있으나, 만약 뮤직 비트스트림이 스테레오 채널로 구성되어 있어 좌우 채널에서 보컬 신호가 달라 모노 만으로 구성할 수 없다면, 보컬 오브젝트도 스테레오로 구성할 수 있다.
본 실시예에 따른 복호화 장치(220)에서는 재생 기기에서의 버튼이나 메뉴 조작 등과 같은 사용자 제어 명령에 따라, 음악만 재생하는 모드, 메인 오브젝트만 재생하는 모드, 혹은 및 뮤직과 메인 오브젝트를 적절이 믹싱하여 재생하는 모드 중 어느 하나를 선택하여 재생할 수 있다.
메인 오브젝트을 무시하고 원래 음악만 재생하는 경우는, 기존의 음악 재생의 경우에 해당한다. 단, 사용자 제어명령 등에 의해 믹싱이 가능하기 때문에 메인 오브젝트 혹은 백그라운 오브젝트의 크기 등을 조절할 수 있다. 메인 오브젝트가 보컬 오브젝트인 경우에는, 배경음악에 비해 보컬만 크게 하거나 작게 할 수 있음을 의미한다.
메인 오브젝트만 재생하는 경우의 예로는 메인 오브젝트로 보컬 오브젝트나 특별한 하나의 악기를 사용하는 것을 들 수 있다. 즉, 배경음악 없이 보컬만 듣거나, 배경 음악 없이 특정 악기 소리만을 듣는 경우 등을 의미한다.
음악과 메인 오브젝트를 적절히 믹싱하여 듣는 경우, 배경음악에 비해 보컬만 크게 하거나 작게 하는 것을 의미한다. 특히, 뮤직에서 보컬 성분을 완전히 빼는 경우에는, 보컬 성분이 사라지게 되어 가라오케(karaoke) 시스템으로 사용할 수 있다. 만약 부호화 장치에서 보컬 오브젝트의 위상(phase)을 미리 반대로 해서 부호화한 경우라면, 복호화 장치에서 뮤직 오브젝트에 보컬 오브젝트를 더함으로써 가라오케 시스템을 재생할 수 있다.
이상의 과정은 뮤직 오브젝트와 메인 오브젝트를 각각 복호화한 후 믹싱하는 것으로 설명하였지만, 그 믹싱 과정을 복호화 과정 중에 수행할 수 있다. 예를 들어, MP3, AAC 등 MDCT(Modified Discrete Cosine Transform)와 같은 변환 부호화(transform coding) 계열에서는 믹싱을 MDCT 계수들에 대해 수행하고, 최종적으로 inverse MDCT를 수행하여 PCM 출력을 하면 된다. 이에 의해 전체 연산량을 많이 줄일 수 있다. 또한, MDCT에 한정하지 않고, 일반적인 변환 부호화 계열의 복호화기에 대해 그 변환 도메인에서 계수를 믹싱하고 복호화를 수행하는 것을 모두 포함한다.
그리고, 상기한 예에서는, 하나의 메인 오브젝트를 사용하는 것을 위주로 설명하였으나, 다수의 메인 오브젝트를 사용할 수도 있다. 예를 들어, 도 10에 도시한 바와 같이, 보컬을 메인 오브젝트 1, 기타(guitar)를 메인 오브젝트 2로 사용할 수 있다. 이와 같은 구성은, 음악에서 보컬과 기타(guitar)를 제외한 백그라운드 오브젝트만을 재생하고, 보컬과 기타(guitar)는 직접 사용자가 연주 연습을 하는 상황에 대해 매우 유용하다. 또한, 이 비트스트림에 대해 뮤직, 뮤직에서 보컬 제외한 것, 뮤직에서 기타(guitar) 제외한 것, 뮤직에서 보컬과 기타(guitar) 제외한 것 등 여러 가지의 조합에 의해 재생할 수 있다.
한편, 본 발명에서 보컬 비트스트림으로 표시되는 채널은 확장 가능하다. 예를 들어, 드럼 비트스트림(drum bitstream)을 가지고 음악에 대해서 모든 부분, 드럼 사운드 부분, 모든 부분에서 드럼 사운드만 뺀 부분의 경우를 재생하는 것이 가능하다. 또한, 보컬 비트스트림과 드럼 비트스트림 등 2개 이상의 추가 비트스트림을 가지고, 각 부분별로 믹싱을 제어하는 것이 가능하다.
그리고, 본 실시예에서는 스테레오/모노(stereo/mono) 위주로 기술을 하였지만, 멀티 채널(multi-channel) 경우에도 확장 가능하다. 예를 들어, 5.1 채널 비트스트림에 보컬 오브젝트나 메인 오브젝트 비트스트림 등을 추가하여 비트스트림을 구성하고, 재생시에는 원래의 소리, 보컬을 뺀 소리, 보컬만 있는 소리 중 어느 하나를 재생하는 것이 가능하다.
뮤직과, 뮤직에서 보컬을 뺀 것만 지원하고, 보컬(메인 오브젝트)만 재생하는 모드는 지원하지 않도록 구성할 수도 있다. 이는 가수들이 보컬만 재생되는 것 을 원하지 않을 경우 사용할 수 있다. 이를 확장하여, 보컬만 지원하는 기능이 있는지 혹은 없는지 여부를 표시하는 식별자를 비트스트림에 두고, 이를 이용해 재생 범위를 결정하는 복호화기의 구성이 가능하다.
도 11은 본 발명의 제5 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 부호화 및 복호화 장치에서는 레지듀얼 신호를 사용하여 가라오케 시스템의 구현이 가능하다. 가라오케 시스템에 특화했을 때, 전술한 바와 같이, 뮤직 오브젝트는 백그라운드 오브젝트와, 메인 오브젝트로 나눌 수 있다. 메인 오브젝트는 백그라운드 오브젝트와 따로 제어하기 위한 오브젝트 신호를 의미하며, 특히 보컬 오브젝트 신호를 의미할 수 있다. 백그라운드 오브젝트는 메인 오브젝트를 제외한 모든 오브젝트 신호를 합한 것이다.
도 11을 참조하면, 부호화 장치에 포함되는 인코더(251)는 백그라운드 오브젝트와 메인 오브젝트가 합쳐진 상태로 부호화한다. 부호화 시, AAC. MP3 등 일반적으로 사용되는 오디오 코덱을 사용할 수 있다. 이 신호가 복호화 장치(260)에서 복호화되면, 이 복호화된 신호는 백그라운드 오브젝트 신호와 메인 오브젝트 신호를 모두 포함하게 된다. 이 복호화된 신호를 원본 복호 신호라고 하면, 이 신호에 대해서 가라오케 시스템을 적용하기 위해 다음과 같은 방법이 가능하다.
메인 오브젝트를 레지듀얼(residual) 신호의 형태로 전체 비트스트림에 포함하고, 이를 복호화한 후, 원본 복호 신호로부터 뺀다. 이 경우, 제1 디코더(261)는 전체 신호를 복호화 하고, 제2 디코더(263)는 레지듀얼 신호를 복호화하고, g = 1 에 해당된다. 혹은 메인 오브젝트 신호에 역위상을 주고 레지듀얼 신호의 형태로 전체 비트스트림에 포함하고 이를 복호화한 후, 원본 복호 신호에 더한다. 이 경우는, g = -1 에 해당된다. 각각의 경우에 대해서 g 값을 조정하면 일종의 스케일러블(scalable) 가라오케 시스템이 가능하다.
예를 들어, g = -0.5 혹은 g = 0.5를 할 경우, 메인 오브젝트 혹은 보컬 오브젝트를 완전히 제거하지 않고 레벨(level) 조정만 한 것이 된다. 또한, g를 양수로 하든지, g를 음수로 하면 보컬 오브젝트를 크기를 조절하는 효과가 있다. 만약 원본 복호 신호를 사용하지 않고 레지듀얼 신호만 출력하여 보컬만 출력되는 솔로 모드를 지원할 수도 있다.
도 12는 본 발명의 제6 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 부호화 및 복호화 장치는, 가라오케 신호 출력 및 보컬 모드 출력을 위한 레지듀얼 신호를 각각 다르게 하여, 2개의 레지듀얼 신호를 사용한다.
도 12를 참조하면, 제1 디코더(291)에서 복호화된 원본 복호 신호는, 오브젝트 분리부(295)에서 백그라운드 오브젝트 신호와 메인 오브젝트 신호로 나누어 출력된다. 실제로는 백그라운드 오브젝트는, 원래의 백그라운드 오브젝트와 함께 약간의 메인 오브젝트 성분을 포함하며, 메인 오브젝트도 원래의 메인 오브젝트와 함께 약간의 백그라운 오브젝트 성분을 포함하게 된다. 이는 원본 복호 신호로부터 백그라운드 오브젝트와 메인 오브젝트 신호를 나누는 과정이 완벽하지 않기 때문이다.
특히 백그라운드 오브젝트에 대해서, 백그라운드 오브젝트 내에 포함된 메인 오브젝트 성분을 미리 레지듀얼 신호의 형태로 전체 비트스트림에 포함하고 이를 복호한 후, 백그라운드 오브젝트부터 뺄 수 있다. 이 경우는, 도 12에서 g = 1 에 해당한다. 혹은 백그라운드 오브젝트 내에 포함된 메인 오브젝트 성분에 대해 역위상을 주고 미리 레지듀얼 신호의 형태로 전체 비트스트림에 포함하고 이를 복호한 후, 백그라운드 오브젝트 신호에 더할 수도 있다. 이 경우는, 도 12에서 g = -1 에 해당된다. 각각의 경우에 g 값을 조절하면, 제5 실시예에서 설명한 바와 같이, 스케일러블(scalable) 가라오케 시스템이 가능하다.
같은 방법으로 레지듀얼(residual) 신호를 메인 오브젝트 신호에 적용하고서 g1 값을 조정하여 솔로 모드를 지원할 수 있다. g1 값은 레지듀얼 신호와 원래 오브젝트의 위상 비교 및 보컬 모드 정도를 고려하여, 앞에서 설명한 것과 같이 적용할 수 있다.
도 13은 본 발명의 제7 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에서는 전술한 실시예 다 레지듀얼 신호의 비트 레이트를 더욱 줄이기 위해서 다음과 같은 방법을 사용한다.
메인 오브젝트 신호가 모노일 때는 제1 디코더(301)에 복호화된 원본의 스테레오(stereo) 신호에 대해서 Stereo-to-Three channel 변환부(305)는 Stereo-to-Three channel 변환을 수행한다. 이 Stereo-to-Three channel 변환은 완벽하지 않기 때문에, 그 출력인 백그라운드 오브젝트는 백그라운드 오브젝트 성분과 함께 약간의 메인 오브젝트 성분을 포함하며, 또 다른 출력인 메인 오브젝트도 메인 오브젝트 성분과 함께 약간의 백그라운드 오브젝트 성분을 포함한다.
이제 전체 비트스트림 중에서 레지듀얼 부분을 제2 디코더(303)에 복호화(혹은 디코딩 후 qmf 변환 혹은 mdct-to-qmf 변환)을 수행하여, 백그라운드 오브젝트 신호 및 메인 오브젝트 신호에 웨이팅(weighting)을 하여 합산하면, 백그라운드 오브젝트 성분과 메인 오브젝트 성분으로 구성된 신호들을 각각 구해줄 수 있다.
이러한 방법의 장점은 Stereo-to-Three channel 변환을 통해서 백그라운드 오브젝트 신호와 메인 오브젝트 신호를 한번 구분하였으므로, 그 신호 내부에 포함되어 있는 다른 성분들, 즉 백그라운드 오브젝트 신호 내에 남아있는 메인 오브젝트 성분과 메인 오브젝트 신호 내에 남아있는 백그라운드 오브젝트 성분을 제거하기 위한 레지듀얼 신호를 적은 비트레이트를 사용하여 구성할 수 있다는 점이다.
도 13을 참조하면, 백그라운드 오브젝트 신호(BS) 내의 백그라운드 오브젝트 성분을 B, 메인 오브젝트 성분을 m이라고 하고, 메인 오브젝트 신호(MS) 내의 메인 오브젝트 성분을 M, 백그라운드 오브젝트 성분을 b라고 하면, 다음의 식이 성립한다.
수학식 1
Figure 112008088794086-pct00001
예를 들어, 레지듀얼 신호(R)를 b-m으로 구성한다면, 최종 가라오케 출력(KO)은 g = -1로 하여
수학식 2
Figure 112008088794086-pct00002
가 되고, 최종 솔로 모드 출력(SO)은 g1 = 1로 하여
수학식 3
Figure 112008088794086-pct00003
이 된다. 레지듀얼 신호의 부호를 위 식에서 바꾼다면, 즉 R = m-b, g = -1 & g1 = 1과 같이 할 수 있다.
BS와 MS 구성 시 B, m, M, b의 부호를 어떻게 구성하느냐에 따라서 KO와 SO의 최종 값이 B와 b, M과 m으로 구성하기 위한 g와 g1의 값을 쉽게 계산할 수 있다. 위 경우들에 대해 가라오케와 솔로 모두 원래의 신호와 조금 달라지기는 하지만, 가라오케 출력은 솔로 성분을 포함하지 않고 솔로 출력도 가라오케 성분을 포함하지 않아서 실제로 사용할 수 있는 고음질 신호 출력이 가능하다.
그리고, 두 개 이상의 메인 오브젝트가 존재할 경우, Two-to-Three channel 변환 및 레지듀얼 신호 가감이 단계적으로 사용될 수 있다.
도 14는 본 발명의 제8 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 신호 복호화 장치(290)는, 메인 오브젝트 신호가 스테레오 신호인 경우, 원본 스테레오 각각의 채널에 대해 Mono-to-Stereo 변환을 2번 수행한다는 점에서 제7 실시예와 차이점이 있다.
이 Mono-to-Stereo 변환도 완벽하지 않기 때문에, 그 출력인 백그라운드 오브젝트 신호는 백그라운드 오브젝트 성분과 함께 약간의 메인 오브젝트 성분을 포 함하며, 또 다른 출력인 메인 오브젝트 신호도 메인 오브젝트 성분과 함께 약간의 백그라운드 오브젝트 성분을 포함한다. 이제 전체 비트스트림 중에서 레지듀얼 부분을 디코딩(혹은 디코딩 후 qmf 변환 혹은 mdct-to-qmf 변환)을 수행하여 그 좌우 채널 성분을 백그라운드 오브젝트 신호 및 메인 오브젝트 신호의 각각 좌우 채널에 가중치를 곱하여 합해주면 백그라운드 오브젝트 성분(스테레오)과 메인 오브젝트 성분(스테레오)으로 구성된 신호들을 각각 구해줄 수 있다.
스테레오 백그라운드 오브젝트와 스테레오 메인 오브젝트의 좌우 성분의 차이를 이용하여 스테레오 레지듀얼 신호를 만드는 경우, 도 14에서, g = g2 = -1, g1 = g3 = 1 로 할 수 있다. 또한 앞에서 설명한 것과 같이 백그라운드 오브젝트 신호, 메인 오브젝트 신호, 레지듀얼 신호의 부호에 따라서 g, g1, g2, g3의 값을 쉽게 계산할 수 있다
일반적으로 메인 오브젝트 신호는 모노일 수도 있고 스테레오일 수도 있다. 따라서, 전체 비트스트림 내에 메인 오브젝트 신호의 모노/스테레오 여부를 알 수 있는 플래그(flag)를 두고 이 플래그를 읽어서, 모노일 때는 도 13의 제7 실시예에서 설명한 방법을 이용하여 복호하고, 스테레오일 때는 도 14의 제8 실시예에서 설명한 방법을 이용하여 복호화할 수 있다.
또한 하나 이상의 메인 오브젝트를 포함할 경우에는 각각 메인 오브젝트들의 모노/스테레오 여부에 따라서 전술한 방법들을 연속적으로 사용한다. 이때, 각 방법의 사용 회수는 모노/스테레오 메인 오브젝트의 수와 동일하다. 예를 들어 메인 오브젝트가 3이고, 이 중 모노 메인 오브젝트가 2개, 스테레오 메인 오브젝트가 1 개일 경우, 제7 실시예에서 설명한 방법을 2번 사용하고, 도 14의 제8 실시예에서 설명한 방법을 1번 사용하여 가라오케 신호를 출력한다. 이때, 제7 실시예에서 설명한 방법과 제8 실시예에서 설명한 방법의 사용 순서는 미리 결정할 수 있다. 예를 들어, 모노 메인 오브젝트에 대해 제7 실시예에서 설명한 방법을 항상 먼저 사용하고, 그 후 스테레오 메인 오브젝트에 대해 제8 실시예에서 설명한 방법을 적용하는 것이 가능하다. 또 다른 사용 순서 결정 방법으로는 전체 비트스트림 내에 제7 실시예에서 설명한 방법과 제8 실시예에서 설명한 방법의 적용 순서를 기술하는 기술자(descriptor)를 두고, 이에 따라 선택적으로 적용하는 것이다.
도 15는 본 발명의 제9 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 부호화 및 복호화 장치는 뮤직 오브젝트 혹은 백그라운드 오브젝트를 멀티채널 인코더를 이용하여 생성한다.
도 15를 참조하면, 멀티채널 인코더(351), 오브젝트 인코더(353), 및 멀티플렉서(355)를 포함하는 오디오 부호화 장치(350)와, 디멀티플렉서(361), 오브젝트 디코더(363), 및 멀티채널 디코더(369)를 포함하는 오디오 복호화 장치(360)가 도시되어 있다. 오브젝트 디코더(363)는 채널 컨버터(365)와 믹서(367)를 포함할 수 있다.
멀티채널 인코더(351)는 뮤직 오브젝트를 채널 기반으로 다운믹스한 신호와, 뮤직 오브젝트에 대한 정보를 추출하여 채널 기반의 제1 오디오 파라미터 정보를 생성한다. 오브젝트 인코더(353)는 보컬 오브젝트와 멀티채널 인코더(351)에서 다운믹스한 신호를 오브젝트 기반으로 부호화한 다운믹스 신호와 오브젝트 기반의 제2 오디오 파라미터 정보, 그리고 보컬 오브젝트에 대응하는 레지듀얼 신호를 생성한다. 멀티플렉서(355)는 오브젝트 인코더(353)에서 생성한 다운믹스 신호와 부가정보를 결합한 비트스트림을 생성한다. 이때, 부가정보는, 멀티채널 인코더(351)에서 생성한 제1 오디오 파라미터와, 오브젝트 인코더(353)에서 생성한 레지듀얼 신호 및 제2 오디오 파라미터 등을 포함하는 정보이다.
오디오 복호화 장치(360)에서 디멀티플렉서(361)는 수신한 비트스트림에서 다운믹스 신호와 부가정보를 분리하고, 오브젝트 디코더(363)는 뮤직 오브젝트가 채널 기반으로 부호화된 오디오 신호와, 보컬 오브젝트가 부호화된 오디오 신호 중 적어도 하나를 이용하여 보컬 성분이 조정된 오디오 신호를 생성한다. 오브젝트 디코더(363)는 채널 컨버터(365)를 포함하여, 복호화 과정에서 Mono-to-Stereo 변환, 혹은 Two-to-Three 변환을 수행할 수 있으며, 믹서(367)는 제어정보에 포함되는 믹싱 파라미터 등을 이용하여 특정 오브젝트 신호의 레벨이나 위치 등을 조절할 수 있다. 멀티채널 디코더(369)는 오브젝트 디코더(363)에 복호화된 오디오 신호와 부가정보 등을 이용하여 멀티채널 신호를 생성한다.
오브젝트 디코더(363)는 입력되는 제어정보에 따라, 보컬 성분이 없는 오디오 신호를 생성하는 가라오케 모드, 보컬 성분만을 포함하는 오디오 신호를 생성하는 솔로 모드, 및 보컬 성분이 포함되는 오디오 신호를 생성하는 일반 모드 중 어느 한 모드에 대응하는 오디오 신호를 생성할 수 있다.
도 16은 보컬 오브젝트가 단계적으로 부호화되는 경우를 설명하기 위한 도면이다. 도 16을 참조하면, 본 실시예에 따른 부호화 장치(380)는 멀티채널 인코더 (381), 제1 및 제3 오브젝트 디코더(383, 385, 387), 및 멀티플렉서(389)를 포함한다.
멀티채널 인코더(381)의 구성 및 기능은, 도 15에서 설명한 바와 같으며, 본 실시예에서는, 제1 내지 제3 오브젝트 인코더(383, 385, 387)가 보컬 오브젝트를 단계적으로 그룹핑하고, 각 그룹핑 단계에서 생성한 레지듀얼 신호가 멀티플렉서(389)에서 생성되는 비트스트림에 포함되도록 구성된다는 점에서 차이가 있다.
이와 같은 과정에 의해 생성한 비트스트림을 복호화하는 경우, 비트스트림에서 추출한 레지듀얼 신호를 뮤직 오브젝트가 그룹핑되어 부호화된 오디오 신호 혹은 보컬 오브젝트가 그룹핑되어 부호화된 오디오 신호에 단계적으로 적용하여 보컬 성분이나 기타 원하는 오브젝트 성분을 조절한 신호를 생성할 수 있다.
한편, 상기한 실시예에서, 원본 복호 신호와 레지듀얼 신호의 합 혹은 차, 백그라운드 오브젝트 신호 혹은 메인 오브젝트 신호와 레지듀얼 신호의 합 혹은 차가 수행되는 곳은 특정 도메인으로 한정하지 않는다. 예를 들어, 이 과정은 시간 도메인(time domain)에서 수행될 수 있으며, MDCT 도메인과 같은 일종의 주파수 도메인에서 수행될 수도 있다. 또한, QMF 서브밴드 도메인이나 하이브리드(hybrid) 서브밴드 도메인과 같은 서브밴드 도메인(subband domain)에서 수행될 수도 있다. 특히 주파수 도메인이나 서브밴드 도메인에서 수행될 경우는 레지듀얼 성분을 빼는 밴드(band) 수를 조절하여 스케일러블 가라오케 신호를 생성할 수 있다. 예를 들어 원본 복호 신호의 서브밴드의 수가 20개일 때, 레지듀얼 신호의 밴드 수가 20개로 하면 완전한 가라오케 신호를 출력하게 되고, 저주파 10개만 커버 한다면 저주파 부분만 보컬 성분이 없어지고 고주파 부분은 남아있는 형태가 된다. 후자의 경우 음질은 전자에 비해 떨어지지만 비트레이트를 낮출 수 있다는 장점이 있다.
또한, 메인 오브젝트가 하나가 아닐 경우에는, 레지듀얼 신호를 여러 개를 전체 비트스트림에 포함하고, 레지듀얼 신호의 합 혹은 차를 여러 번 수행할 수 있다. 예를 들어, 보컬과 기타를 2개의 메인 오브젝트로 하고 이들의 레지듀얼 신호들로 전체 비트스트림에 포함할 경우, 전체 신호에 대해 보컬 신호를 우선 없애주고, 그 다음에 기타 신호를 없애주는 형태로 두 신호 모두를 제거한 가라오케 신호를 생성할 수 있다. 이 경우 부가적으로 보컬만 제거된 가라오케 신호, 기타만 제거된 가라오케 신호도 생성 가능하다. 또한, 보컬 신호만 출력하거나 혹은 기타 신호만 출력할 수도 있다.
또한, 근본적으로 전체 신호에서 보컬 신호만을 제거하여 가라오케 신호를 생성하는 위해서, 전체 신호와 보컬 신호는 각각 부호화되는데, 부호화에 사용되는 코덱의 종류에 따라서 다음의 2가지 구분이 필요하다. 첫째, 전체 신호와 보컬 신호에 부호화 코덱은 항상 같은 것을 사용한다. 이 경우 전체 신호 및 보컬 신호에 대해 부호화 코덱(codec)의 종류를 판별할 수 식별자를 각각의 비트스트림 내에 내재하여야 하며, 복호화기에서는 이 식별자를 판단하여 코덱의 종류를 식별하고 복호한 후 보컬 성분을 제거하는 과정을 수행한다. 이 과정에서 위에서 설명한 것과 같이 합 혹은 차로 구현된다. 이 식별자의 정보로는, 레지듀얼 신호는 원본 복호 신호와 같은 코덱(codec)을 사용했는지 여부, 레지듀얼 신호의 부호화 시 사용한 코덱 종류 등을 들 수 있다.
또한, 전체 신호와 보컬 신호의 부호화 코덱을 다른 것을 사용할 수 있다. 예를 들어, 보컬 신호(즉, residual 신호)는 항상 고정된 코덱을 사용한다. 이 경우 레지듀얼 신호에 대한 식별자는 필요하지 않으며, 미리 정해진 코덱만을 사용해 복호화하면 된다. 단, 이 경우 전체 신호에서 레지듀얼 신호를 제거하는 과정은 시간 도메인(time domain) 혹은 서브밴드 도메인(subband domain)과 같이 두 신호 사이의 processing이 바로 가능한 도메인으로 제한된다. 예를 들어 mdct와 같은 도메인에서는 일반적으로 둘 사이의 processing이 바로 가능하지 않다.
그리고, 본 발명을 이용하여, 백그라운 오브젝트 신호만으로 구성된 가라오케 신호를 출력할 수 있다. 이 신호에 대해 추가적인 업 믹스 프로세스(Upmix process)를 수행하여 다채널 신호를 생성할 수 있다. 예를 들어 본 발명에 의해 생성된 가라오케 신호에 엠펙 서라운드를 추가적으로 적용하면 5.1 채널 가라오케 신호의 생성이 가능하다.
또한, 상기한 실시예에서는 뮤직 오브젝트와 메인 오브젝트, 혹은 백그라운드 오브젝트와 메인 오브젝트에 대해서 프레임 내에 동일한 수가 존재하는 것을 위주로 설명하였지만, 수가 다른 것도 가능하다. 예를 들어 뮤직은 매 프레임 존재하며 메인 오브젝트를 두 프레임에 한번씩만 존재하는 것도 가능하다. 이때는 메인 오브젝트를 복호화하고 이를 두 프레임에 대해 적용하면 된다.
뮤직과 메인 오브젝트에서 각각이 다른 샘플링 주파수를 가질 수 있다. 예를 들어, 뮤직의 샘플링 주파수가 44.1kHz이고, 메인 오브젝트의 샘플링 주파수가 22.05kHz라면, 메인 오브젝트의 MDCT 계수를 계산한 후 뮤직의 MDCT 계수 중 해당 영역에 대해서만 믹싱을 수행할 수 있다. 이는 가라오케 시스템에 대해 보컬이 악기 음보다 주파수 대역이 낮음을 이용하는 것으로써, 데이터 용량을 줄일 수 있는 장점이 있다.
그리고, 본 발명은 프로세서가 읽을 수 있는 기록매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 기록매체는 프로세서에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 프로세서가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 인터넷을 통한 전송 등과 같은 캐리어 웨이브의 형태로 구현되는 것도 포함한다. 또한 프로세서가 읽을 수 있는 기록매체는 네트워크로 연결된 시스템에 분산되어, 분산방식으로 프로세서가 읽을 수 있는 코드가 저장되고 실행될 수 있다
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
본 발명은 오브젝트 기반의 오디오 신호의 부호화 및 복호과 과정 등에 사용되어, 연관성 있는 오브젝트 신호를 그룹단위로 처리하며, 가라오케 모드, 솔로 모드, 및 일반 모드 등의 재생 모드를 제공할 수 있다.

Claims (19)

  1. 다운믹스 신호 및 부가정보를 수신하는 단계;
    상기 부가정보로부터 제 1 오디오 파라미터 및 제 2 오디오 파라미터를 추출하는 단계;
    상기 다운믹스 신호로부터 제 1 오디오 신호 및 제 2 오디오 신호를 추출하는 단계;
    상기 제1 및 제2 오디오 신호 중 적어도 하나를 이용하여 제3 오디오 신호를 생성하는 단계; 및
    상기 제1 오디오 파라미터 및 상기 제2 오디오 파라미터 중 적어도 하나와, 상기 제3 오디오 신호를 이용하여 멀티채널 오디오 신호를 생성하는 단계;를 포함하고,
    상기 제 1 오디오 신호는 하나 또는 두 개의 채널 신호에 대응하고,
    상기 제 2 오디오 신호는 하나 이상의 오브젝트 신호에 대응하며,
    상기 제 1 오디오 파라미터는 적어도 세 개의 채널들을 상기 제 1 오디오 신호로 다운믹싱할 때 생성되고, 상기 제 1 오디오 신호는 상기 적어도 세 개의 채널들로 업믹싱하기 위하여 이용되고,
    상기 제 2 오디오 파라미터는 상기 제 1 오디오 신호 및 상기 제 2 오디오 신호를 상기 다운믹스 신호로 다운믹싱할 때 생성되고, 오브젝트 신호들 중 하나 이상의 오브젝트의 레벨 또는 위치를 조절함으로써 상기 멀티채널 오디오 신호를 생성하기 위하여 이용되는 것을 특징으로 하는 오디오 복호화 방법.
  2. 제1항에 있어서,
    상기 제1 오디오 신호는 적어도 두 개의 뮤직 오브젝트를 부호화하고, 상기 제2 오디오 신호는 적어도 두 개의 보컬 오브젝트를 부호화한 것을 특징으로 하는 오디오 복호화 방법.
  3. 제1항에 있어서,
    상기 제3 오디오 신호는, 사용자 제어명령에 기초하여 생성되는 것을 특징으로 하는 오디오 복호화 방법.
  4. 제1항에 있어서,
    상기 제3 오디오신호의 생성은, 상기 제1 및 제2 오디오 신호 중 적어도 하나의 신호의 가감에 기초하여 생성하는 것을 특징으로 하는 오디오 복호화 방법.
  5. 제1항에 있어서,
    상기 제3 오디오신호의 생성은, 상기 제1 및 제2 오디오 신호 중 적어도 하나의 신호를 제거하여 생성되는 것을 특징으로 하는 오디오 복호화 방법.
  6. 제1항에 있어서,
    상기 제1 오디오 신호는, 보컬 성분을 포함하지 않는 신호인 것을 특징으로 하는 오디오 복호화 방법.
  7. 삭제
  8. 수신한 비트스트림으로부터 다운믹스 신호 및 부가정보를 추출하고, 상기 부가정보로부터 제 1 오디오 파라미터 및 제 2 오디오 파라미터를 추출하며, 상기 다운믹스 신호로부터 제 1 오디오 신호 및 제 2 오디오 신호를 추출하는 멀티플렉서;
    상기 제1 오디오 신호 및 상기 제 2 오디오 신호 중 적어도 하나를 이용하여 제 3 오디오 신호를 생성하는 오브젝트 디코더; 및
    상기 제 1 오디오 파라미터 및 상기 제 2 오디오 파라미터 중 적어도 하나와, 상기 제3 오디오 신호를 이용하여 멀티채널 오디오 신호를 생성하는 멀티채널 디코더를 포함하고,
    상기 제 1 오디오 신호는 하나 또는 두 개의 채널 신호에 대응하고,
    상기 제 2 오디오 신호는 하나 이상의 오브젝트 신호에 대응하며,
    상기 제 1 오디오 파라미터는 적어도 세 개의 채널들을 상기 제 1 오디오 신호로 다운믹싱할 때 생성되고, 상기 제 1 오디오 신호를 상기 적어도 세 개의 채널들로 업믹싱하기 위하여 이용되고,
    상기 제 2 오디오 파라미터는 상기 제 1 오디오 신호 및 상기 제 2 오디오 신호를 상기 다운믹스 신호로 다운믹싱할 때 생성되고, 오브젝트 신호들 중 하나 이상의 오브젝트의 레벨 또는 위치를 조절함으로써 상기 멀티채널 오디오 신호를 생성하기 위하여 이용되는 것을 특징으로 하는 오디오 복호화 장치.
  9. 제8항에 있어서,
    상기 오브젝트 디코더는, 상기 제1 및 제2 오디오 신호 중 적어도 하나의 신호의 가감에 기초하여 상기 제3 오디오 신호를 생성하는 것을 특징으로 하는 오디오 복호화 장치.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와, 상기 뮤직 오브젝트에 대응하는 제1 오디오 파라미터를 생성하는 단계;
    보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호와, 상기 보컬 오브젝트에 대응하는 제2 오디오 파라미터를 생성하는 단계; 및
    상기 제1 및 제2 오디오 신호, 상기 제1 및 제2 오디오 파라미터를 포함하는 비트스트림을 생성하는 단계;를 포함하는 것을 특징으로 하는 오디오 부호화 방법.
  17. 뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와, 상기 뮤직 오브젝트에 대한 채널 기반의 제1 오디오 파라미터를 생성하는 멀티채널 인코더;
    보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호와, 상기 보컬 오브젝트에 대한 오브젝트 기반의 제2 오디오 파라미터를 생성하는 오브젝트 인코더; 및
    상기 제1 및 제2 오디오 신호, 상기 제1 및 제2 오디오 파라미터를 포함하는 비트스트림을 생성하는 멀티플렉서;를 포함하는 것을 특징으로 하는 오디오 부호화 장치.
  18. 제1항 내지 제6항 중에 어느 한 항의 복호화 방법을 프로세서에서 실행시키기 위한 프로그램을 기록한 프로세서가 읽을 수 있는 기록매체.
  19. 제16항의 부호화 방법을 프로세서에서 실행시키기 위한 프로그램을 기록한 프로세서가 읽을 수 있는 기록매체.
KR1020087031409A 2006-11-24 2007-11-24 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치 KR101055739B1 (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US86082306P 2006-11-24 2006-11-24
US60/860,823 2006-11-24
US90164207P 2007-02-16 2007-02-16
US60/901,642 2007-02-16
US98151707P 2007-10-22 2007-10-22
US60/981,517 2007-10-22
US98240807P 2007-10-24 2007-10-24
US60/982,408 2007-10-24
PCT/KR2007/005968 WO2008063034A1 (en) 2006-11-24 2007-11-24 Method for encoding and decoding object-based audio signal and apparatus thereof

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020107026405A Division KR101102401B1 (ko) 2006-11-24 2007-11-24 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치

Publications (2)

Publication Number Publication Date
KR20090018839A KR20090018839A (ko) 2009-02-23
KR101055739B1 true KR101055739B1 (ko) 2011-08-11

Family

ID=39429918

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020087031410A KR20090028723A (ko) 2006-11-24 2007-11-24 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치
KR1020107026405A KR101102401B1 (ko) 2006-11-24 2007-11-24 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치
KR1020087031409A KR101055739B1 (ko) 2006-11-24 2007-11-24 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020087031410A KR20090028723A (ko) 2006-11-24 2007-11-24 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치
KR1020107026405A KR101102401B1 (ko) 2006-11-24 2007-11-24 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치

Country Status (11)

Country Link
US (2) US20090265164A1 (ko)
EP (2) EP2095364B1 (ko)
JP (2) JP5394931B2 (ko)
KR (3) KR20090028723A (ko)
AU (2) AU2007322488B2 (ko)
BR (2) BRPI0710935A2 (ko)
CA (2) CA2645863C (ko)
ES (1) ES2387692T3 (ko)
MX (2) MX2008012439A (ko)
RU (2) RU2544789C2 (ko)
WO (2) WO2008063035A1 (ko)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
CN103137132B (zh) * 2006-12-27 2016-09-07 韩国电子通信研究院 用于编码多对象音频信号的设备
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
EP2198426A4 (en) * 2007-10-15 2012-01-18 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING A SIGNAL
CA2710560C (en) 2008-01-01 2015-10-27 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN101911183A (zh) * 2008-01-11 2010-12-08 日本电气株式会社 信号分析控制、信号分析、信号控制***、装置以及程序
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US7928307B2 (en) * 2008-11-03 2011-04-19 Qnx Software Systems Co. Karaoke system
KR20100065121A (ko) * 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
WO2010064877A2 (en) * 2008-12-05 2010-06-10 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
WO2011083979A2 (en) * 2010-01-06 2011-07-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8428936B2 (en) 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
KR101437896B1 (ko) 2010-04-09 2014-09-16 돌비 인터네셔널 에이비 Mdct-기반의 복소수 예측 스테레오 코딩
JP5532518B2 (ja) * 2010-06-25 2014-06-25 ヤマハ株式会社 周波数特性制御装置
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
KR102172279B1 (ko) * 2011-11-14 2020-10-30 한국전자통신연구원 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법
WO2014009878A2 (en) * 2012-07-09 2014-01-16 Koninklijke Philips N.V. Encoding and decoding of audio signals
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2863657B1 (en) 2012-07-31 2019-09-18 Intellectual Discovery Co., Ltd. Method and device for processing audio signal
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
DK2922053T3 (da) * 2012-11-15 2019-09-23 Ntt Docomo Inc Lydkodningsindretning, lydkodningsfremgangsmåde, lydkodningsprogram, lydafkodningsindretning, lydafkodningsfremgangsmåde og lydafkodningsprogram
US9336791B2 (en) * 2013-01-24 2016-05-10 Google Inc. Rearrangement and rate allocation for compressing multichannel audio
CN109712630B (zh) 2013-05-24 2023-05-30 杜比国际公司 包括音频对象的音频场景的高效编码
JP6190947B2 (ja) * 2013-05-24 2017-08-30 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
US9716959B2 (en) 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
RU2639952C2 (ru) * 2013-08-28 2017-12-25 Долби Лабораторис Лайсэнзин Корпорейшн Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
US10492014B2 (en) 2014-01-09 2019-11-26 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
CN104882145B (zh) 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
US9756448B2 (en) 2014-04-01 2017-09-05 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN106104679B (zh) 2014-04-02 2019-11-26 杜比国际公司 利用沉浸式音频元数据中的元数据冗余
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
WO2015186535A1 (ja) * 2014-06-06 2015-12-10 ソニー株式会社 オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム
KR102208477B1 (ko) 2014-06-30 2021-01-27 삼성전자주식회사 마이크 운용 방법 및 이를 지원하는 전자 장치
CN116709161A (zh) 2016-06-01 2023-09-05 杜比国际公司 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法
US11074921B2 (en) * 2017-03-28 2021-07-27 Sony Corporation Information processing device and information processing method
US11545166B2 (en) 2019-07-02 2023-01-03 Dolby International Ab Using metadata to aggregate signal processing operations
GB2587614A (en) * 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6849794B1 (en) 2001-05-14 2005-02-01 Ronnie C. Lau Multiple channel system

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3882280A (en) * 1973-12-19 1975-05-06 Magnavox Co Method and apparatus for combining digitized information
JP2944225B2 (ja) * 1990-12-17 1999-08-30 株式会社東芝 ステレオ信号処理装置
KR960007947B1 (ko) * 1993-09-17 1996-06-17 엘지전자 주식회사 가라오케-콤팩트 디스크(karaoke-cd) 및 이를 이용한 오디오 제어장치
JPH1039881A (ja) * 1996-07-19 1998-02-13 Yamaha Corp カラオケ採点装置
JPH10247090A (ja) * 1997-03-04 1998-09-14 Yamaha Corp 音楽情報送信方法、音楽情報記録方法、音楽情報記録媒体、音楽情報再生方法および音楽情報再生装置
JPH11167390A (ja) * 1997-12-04 1999-06-22 Ricoh Co Ltd 音楽演奏装置
RU2121718C1 (ru) * 1998-02-19 1998-11-10 Яков Шоел-Берович Ровнер Портативная музыкальная система для караоке и картридж для нее
US20050120870A1 (en) * 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
JP3632891B2 (ja) * 1998-09-07 2005-03-23 日本ビクター株式会社 オーディオ信号の伝送方法、オーディオディスク、エンコード装置及びデコード装置
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
JP3590377B2 (ja) * 2001-11-30 2004-11-17 株式会社東芝 デジタル放送システム、デジタル放送編成装置及びその編成方法
JP2004064363A (ja) * 2002-07-29 2004-02-26 Sony Corp デジタルオーディオ処理方法、デジタルオーディオ処理装置およびデジタルオーディオ記録媒体
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
ATE359687T1 (de) * 2003-04-17 2007-05-15 Koninkl Philips Electronics Nv Audiosignalgenerierung
JP2005141121A (ja) * 2003-11-10 2005-06-02 Matsushita Electric Ind Co Ltd オーディオ再生装置
ES2426917T3 (es) * 2004-04-05 2013-10-25 Koninklijke Philips N.V. Aparato codificador, aparato decodificador, sus métodos y sistema de audio asociado
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
KR20090013178A (ko) * 2006-09-29 2009-02-04 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
JP5451394B2 (ja) * 2006-09-29 2014-03-26 韓國電子通信研究院 多様なチャネルから構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びにその方法
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
UA94117C2 (ru) * 2006-10-16 2011-04-11 Долби Свиден Ав Усовершенстованное кодирование и отображение параметров многоканального кодирования микшированных объектов
US20080269929A1 (en) * 2006-11-15 2008-10-30 Lg Electronics Inc. Method and an Apparatus for Decoding an Audio Signal
BRPI0809760B1 (pt) * 2007-04-26 2020-12-01 Dolby International Ab aparelho e método para sintetizar um sinal de saída
WO2009049896A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6849794B1 (en) 2001-05-14 2005-02-01 Ronnie C. Lau Multiple channel system

Also Published As

Publication number Publication date
MX2008012918A (es) 2008-10-15
ES2387692T3 (es) 2012-09-28
JP5139440B2 (ja) 2013-02-06
JP5394931B2 (ja) 2014-01-22
AU2007322487B2 (en) 2010-12-16
AU2007322487A1 (en) 2008-05-29
BRPI0710935A2 (pt) 2012-02-14
RU2484543C2 (ru) 2013-06-10
CA2645911C (en) 2014-01-07
KR20090028723A (ko) 2009-03-19
CA2645863C (en) 2013-01-08
EP2095364A4 (en) 2010-04-28
RU2544789C2 (ru) 2015-03-20
BRPI0711094A2 (pt) 2011-08-23
WO2008063035A1 (en) 2008-05-29
JP2010511190A (ja) 2010-04-08
EP2095364A1 (en) 2009-09-02
JP2010511189A (ja) 2010-04-08
KR20090018839A (ko) 2009-02-23
AU2007322488A1 (en) 2008-05-29
EP2095365A4 (en) 2009-11-18
MX2008012439A (es) 2008-10-10
CA2645911A1 (en) 2008-05-29
WO2008063034A1 (en) 2008-05-29
US20090210239A1 (en) 2009-08-20
US20090265164A1 (en) 2009-10-22
AU2007322488B2 (en) 2010-04-29
EP2095365A1 (en) 2009-09-02
RU2010147691A (ru) 2012-05-27
KR101102401B1 (ko) 2012-01-05
CA2645863A1 (en) 2008-05-29
RU2010140328A (ru) 2012-04-10
KR20110002489A (ko) 2011-01-07
EP2095364B1 (en) 2012-06-27

Similar Documents

Publication Publication Date Title
KR101055739B1 (ko) 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치
RU2551797C2 (ru) Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
JP5883561B2 (ja) アップミックスを使用した音声符号器
TWI443647B (zh) 用以將以物件為主之音訊信號編碼與解碼之方法與裝置
KR101227932B1 (ko) 다채널 멀티트랙 오디오 시스템 및 오디오 처리 방법
JP4794448B2 (ja) オーディオエンコーダ
JP2010515944A (ja) オーディオデコーダ
CN101490744B (zh) 用于编码和解码基于对象的音频信号的方法和装置
RU2455708C2 (ru) Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
KR20080034074A (ko) 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140724

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150724

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160722

Year of fee payment: 6