KR101055739B1

KR101055739B1 - 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치

Info

Publication number: KR101055739B1
Application number: KR1020087031409A
Authority: KR
Inventors: 윤성용; 방희석; 이현국; 김동수; 임재현
Original assignee: 엘지전자 주식회사
Priority date: 2006-11-24
Filing date: 2007-11-24
Publication date: 2011-08-11
Also published as: MX2008012918A; ES2387692T3; JP5139440B2; JP5394931B2; AU2007322487B2; AU2007322487A1; BRPI0710935A2; RU2484543C2; CA2645911C; KR20090028723A; CA2645863C; EP2095364A4; RU2544789C2; BRPI0711094A2; WO2008063035A1; JP2010511190A; EP2095364A1; JP2010511189A; KR20090018839A; AU2007322488A1

Abstract

본 발명은 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치에 관한 것이다. 본 오디오 복호화 방법은, 오디오 신호에서 뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와 제1 오디오 파라미터, 보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호와 제2 오디오 파라미터를 추출하고, 제1 및 제2 오디오신호 중 적어도 하나를 이용하여, 제3 오디오 신호를 생성한다. 그리고, 제1 및 제2 오디오 파라미터 중 적어도 하나와 제3 오디오 신호를 이용하여 멀티채널 오디오 신호를 생성한다. 이에 의해, 부호화 및 복호화 과정에서 계산량 및 부호화되는 비트스트림의 크기를 효율적으로 감소시킬 수 있다.

Description

오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치{METHOD FOR ENCODING AND DECODING OBJECT-BASED AUDIO SIGNAL AND APPARATUS THEREOF}

본 발명은 오브젝트 기반의 오디오 신호를 그룹핑을 통해 효율적으로 처리할 수 있도록 부호화 및 복호화하는 오디오 부호화 및 복호화 방법과 그 장치에 관한 것이다.

일반적으로 오브젝트 기반의 오디오 코덱(object-based audio codec)은 각 오브젝트(object) 신호로부터 추출한 특정 파라미터와 오브젝트 신호들의 합을 전송하고, 이로부터 다시 각 오브젝트 신호를 복원한 후 필요한 채널 수만큼 믹싱하는 방식을 사용한다. 따라서, 오브젝트 신호가 많아질 경우, 각각의 오브젝트 신호를 믹싱하는데 필요한 정보량도 오브젝트 신호의 수에 비례하여 증가하게 된다.

그런데, 서로 밀접한 상관성을 가지는 오브젝트 신호들의 경우, 각 오브젝트 신호에 대해 비슷한 믹싱 정보 등을 전송하게 되므로, 이들을 하나의 그룹으로 묶고 동일한 정보를 한번만 전송함으로써 효율성을 높일 수 있다.

일반적인 부호화 및 복호화에서도, 여러 오브젝트 신호를 합쳐서 하나의 오브젝트 신호화 하여 비슷한 효과를 낼 수 있지만, 이러한 방법을 사용하는 경우, 오브젝트 신호의 단위가 커지게 되고, 합치기 전 원래 오브젝트 신호 단위로 믹싱 하는 것도 불가능하다.

기술적 과제

따라서, 본 발명의 목적은, 연관성을 갖는 오브젝트 오디오 신호를 하나의 그룹으로 묶어 그룹별로 처리 가능하도록 오브젝트 신호를 부호화 및 복호화하는 오디오 부호화 및 복호화 방법과 그 장치를 제공함에 있다.

기술적 해결방법

상기 목적을 달성하기 위한 본 발명에 따른 오디오 신호 복호화 방법은, 오디오 신호에서 뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와 제1 오디오 파라미터, 보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호와 제2 오디오 파라미터를 추출하는 단계, 상기 제1 및 제2 오디오신호 중 적어도 하나를 이용하여 제3 오디오 신호를 생성하는 단계, 및 상기 제1 오디오 파라미터 및 상기 제2 오디오 파라미터 중 적어도 하나와, 상기 제3 오디오 신호를 이용하여 멀티채널 오디오 신호를 생성하는 단계를 포함한다.

또한, 상기 목적을 달성하기 위한 본 발명에 따른 오디오 복호화 방법은, 다운믹스 신호를 수신하는 단계, 상기 다운믹스 신호에서 보컬 오브젝트를 포함하는 뮤직 오브젝트가 부호화된 제1 오디오 신호와, 보컬 오브젝트가 부호화된 제2 오디오 신호를 추출하는 단계, 및 상기 제1 및 제2 오디오신호에 기초하여, 상기 보컬 오브젝트만 포함된 오디오 신호, 상기 보컬 오브젝트가 포함된 오디오 신호, 및 상기 보컬 오브젝트가 포함되지 않은 오디오 신호 중 어느 하나를 생성하는 단계를 포함한다.

한편, 본 발명에 따른 오디오 신호 복호화 장치는, 수신한 비트스트림에서 다운믹스 신호와 부가정보를 추출하는 멀티플레서, 상기 다운믹스 신호에서 추출한 뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와, 보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호 중 적어도 하나를 이용하여, 제3 오디오 신호를 생성하는 오브젝트 디코더, 및 상기 부가정보에서 추출한 제1 오디오 파라미터 및 상기 제2 오디오 파라미터 중 적어도 하나와, 상기 제3 오디오 신호를 이용하여 멀티채널 오디오 신호를 생성하는 멀티채널 디코더를 포함한다.

또한, 본 발명에 따른 오디오 복호화 장치는, 다운믹스 신호에서 추출한 뮤직 오브젝트가 부호화된 제1 오디오 신호와, 보컬 오브젝트가 부호화된 제2 오디오 신호에 기초하여, 상기 보컬 오브젝트만 포함된 오디오 신호, 상기 보컬 오브젝트가 포함된 오디오 신호, 및 상기 보컬 오브젝트가 포함되지 않은 오디오 신호 중 어느 하나를 생성하는 오브젝트 디코더; 및 상기 오브젝트 디코더에서 출력되는 신호를 이용하여 멀티채널 오디오 신호를 생성하는 멀티채널 디코더를 포함한다.

또한, 본 발명에 따른 오디오 부호화 방법은, 뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와, 상기 뮤직 오브젝트에 대응하는 제1 오디오 파라미터를 생성하는 단계, 보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호와, 상기 보컬 오브젝트에 대응하는 제2 오디오 파라미터를 생성하는 단계, 및상기 제1 및 제2 오디오 신호, 상기 제1 및 제2 오디오 파라미터를 포함하는 비트스트림을 생성하는 단계를 포함한다.

본 발명에 따르면, 뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와, 상기 뮤직 오브젝트에 대한 채널 기반의 제1 오디오 파라미터를 생성하는 멀티채널 인코더, 보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호와, 상기 보컬 오브젝트에 대한 오브젝트 기반의 제2 오디오 파라미터를 생성하는 오브젝트 인코더, 및 상기 제1 및 제2 오디오 신호, 상기 제1 및 제2 오디오 파라미터를 포함하는 비트스트림을 생성하는 멀티플렉서를 포함하는 오디오 부호화 장치가 제공된다.

상기 목적을 달성하기 위하여 본 발명에서는, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

유리한 효과

본 발명에 따르면, 오브젝트 기반의 오디오 신호의 부호화 및 복호화의 장점을 최대한 활용하면서, 연관성을 갖는 오브젝트 오디오 신호를 그룹별로 처리할 수 있다. 이에 의해, 부호화 및 복호화 과정에서 계산량 및 부호화되는 비트스트림의 크기 등에서 효율성을 높일 수 있다. 또한, 본 발명은 뮤직 오브젝트와 보컬 오브젝트 등으로 오브젝트 신호를 그룹핑하여, 가라오케 시스템 등에 유용하게 적용될 수 있다.

도 1은 본 발명의 제1 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,

도 2는 본 발명의 제2 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭 도,

도 3은 음원, 그룹, 및 오브젝트 신호간의 상관관계를 나타낸 도면,

도 4는 본 발명이 제3 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,

도 5 및 도 6은 메인 오브젝트와 백그라운드 오브젝트를 설명하기 위한 도면,

도 7 및 도 8은 부호화 장치에서 생성하는 비트스트림의 구성을 설명하기 위한 도면,

도 9는 본 발명의 제4 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,

도 10은 복수의 메인 오브젝트를 사용하는 경우를 설명하기 위한 도면,

도 11은 본 발명의 제5 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,

도 12는 본 발명의 제6 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,

도 13은 본 발명의 제7 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,

도 14는 본 발명의 제8 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도,

도 15는 본 발명의 제9 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭 도, 그리고

도 16은 본 발명의 제10 실시예에 따른 오디오 부호화 장치의 블럭도이다.

발명의 실시를 위한 최선의 형태

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1은 본 발명의 제1 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 부호화 및 복호화 장치는, 오브젝트 기반(object-based)의 오디오 신호에 해당하는 오브젝트 신호를 그룹핑(grouping) 개념을 적용하여 복호화 및 부호화한다. 즉, 연관성을 갖는 1개 이상의 오브젝트 신호를 같은 그룹으로 묶어, 그룹단위로 부호화 및 복호화 과정을 수행한다.

도 1을 참조하면, 오브젝트 인코더(111)를 포함하는 오디오 부호화 장치(110)와, 오브젝트 디코더(121) 및 믹서/랜더러(mixer/render)(123)를 포함하는 오디오 복호화 장치(120)가 도시되어 있다. 도면에는 도시되어 있지 않으나, 부호화 장치(110)는 멀티플렉서(multiplxer) 등을 포함하여 다운믹스 신호와 부가정보를 결합한 비트스트림을 생성하고, 복호화 장치(120)는 디멀티플렉서(demultiplexer) 등을 포함하여 전송받은 비트스트림에서 다운믹스 신호와 부가정보를 추출할 수 있다. 이와 같은 구성은, 이하 설명하는 다른 실시예에 따른 부호화 및 복호화 장치에서도 마찬가지이다.

부호화 장치(110)는 N개의 오브젝트 신호와, 연관성을 갖는 오브젝트 신호의 그룹별 상대적인 위치정보, 크기정보, 시간차이 정보 등을 포함하는 그룹정보를 입력받는다. 부호화 장치(110)는 연관성을 갖는 오브젝트 신호를 그룹핑한 신호를 부 호화하여, 하나 혹은 그 이상의 채널을 갖는 오브젝트 기반의 다운믹스 신호와, 각 오브젝트 신호에서 추출한 정보 등이 포함되는 부가정보(side information)를 생성한다.

복호화 장치(120)에서 오브젝트 디코더(121)는 다운믹스 신호와 부가정보를 이용하여 그룹핑이 적용되어 부호화된 신호를 생성하고, 믹서/랜더러(123)는 오브젝트 디코더(121)에서 출력되는 신호를 제어정보에 따라 멀티 채널 공간상의 특정위치에 특정 레벨로 배치한다. 즉, 부호화 장치(110)는 그룹핑이 적용되어 부호화된 신호를 오브젝트 단위로 다시 분해되지 않고, 멀티채널 신호를 생성한다.

이와 같은 구성에 의해, 시간에 따른 위치변화, 크기변화, 및 딜레이 변화 등이 비슷한 오브젝트 신호들을 그룹핑하여 부호화함으로써, 전송할 정보량을 줄일 수 있다. 또한, 오브젝트 신호를 그룹핑하는 경우, 하나의 그룹에 대해 공통된 부가정보를 전송할 수 있으므로, 동일 그룹에 속한 여러 오브젝트 신호에 대한 제어가 간단해진다.

도 2는 본 발명의 제2 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 신호 복호화 장치(140)는, 오브젝트 추출부(143)를 더 포함한다는 점에서 제1 실시예와 차이점이 있다.

즉, 부호화 장치(130), 오브젝트 디코더(141), 믹서/랜더러(145)의 기능 및 구성은 제1 실시예에서 설명한 바와 같다. 다만, 복호화 장치(140)가 오브젝트 추출부(143)를 더 포함하여, 오브젝트 단위의 분해가 필요하게 된 경우, 해당 오브젝트 신호가 속한 그룹을 오브젝트 단위로 분해할 수 있다. 이 경우, 모든 그룹에 대 해 오브젝트 단위로 분해하지 않고, 그룹단위로 믹싱 등이 불가능한 그룹에 대해서만 오브젝트 신호를 추출할 수 있다.

도 3은 음원, 그룹(group), 및 오브젝트 신호들 간의 상관관계를 나타낸 도면이다. 도 3에 도시한 바와 같이, 오브젝트 신호의 그룹핑은 비트스트림의 크기를 줄일 수 있도록 비슷한 성질을 가지는 오브젝트 신호를 묶어 이루어지며, 모든 오브젝트 신호들은 상위 그룹에 속하게 된다.

도 4는 본 발명의 제3 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 부호화 및 복호화 장치에서는 코어 다운믹스 채널(core downmix channel)의 개념을 사용한다.

도 4를 참조하면, 오디오 부호화 장치에 속하는 오브젝트 인코더(151)와, 오브젝트 디코더(161) 및 믹서/랜더러(mixer/render)(163)를 포함하는 오디오 복호화 장치(160)가 도시되어 있다.

오브젝트 인코더(151)는 N(N＞1)개로 이루어진 오브젝트 신호들을 입력받아, M개(1＜M＜N)의 채널로 다운믹스한 신호를 생성한다. 복호화 장치(160)에서 오브젝트 디코더(161)는 M개의 채널로 다운믹스한 신호를 다시 N개의 오브젝트 신호로 복호화하고, 최종적으로는 믹서/랜더러(Mixer/Render)(163)는 L(L≥1)개의 채널 신호를 출력한다.

이때, 오브젝트 인코더(151)가 생성하는 M개의 다운믹스 채널(downmix channel)은 K(K＜M)개의 코어 다운믹스 채널(core downmix channel)과 (M-K)개의 논-코어 다운믹스 채널(non-core downmix channel)로 구성된다. 이와 같이 다운믹 스 채널을 구성하는 이유는, 오브젝트 신호에 따라서 그 중요도가 달라질 수 있기 때문이다. 즉, 일반적인 부호화 및 복호화 방법으로는 오브젝트 신호에 대한 분해능이 충분하지 않아서, 각 오브젝트 신호별로 다른 오브젝트 신호의 성분도 포함할 수 있다. 따라서, 이와 같이 코어 다운믹스 채널과 논-코어 다운믹스 채널로 다운믹스 채널을 별도로 구성하여 오브젝트 신호 간의 간섭을 최소화할 수 있다.

이때, 코어 다운믹스 채널은, 그 처리 방법에 있어서 논-코어 다운믹스 채널과 다른 처리 방법을 사용할 수 있다. 예를 들어, 도 4에서, 믹서/랜더러(163)로 입력되는 부가정보(side information)를 코어 다운믹스 채널에만 정의하여 사용할 수 있다. 즉, 믹서/랜더러(163)에서 논-코어 다운믹스 채널로부터 복호화되는 오브젝트 신호들은 제어하지 않고, 코어 다운믹스 채널로부터 복호화되는 오브젝트 신호들만 제어할 수 있도록 구성하는 것이다.

또 다른 예로써, 코어 다운믹스 채널의 경우 소수의 오브젝트 신호로만 구성하여 사용하고, 그 오브젝트 신호들에 대해 전술한 그룹핑(grouping)을 적용하여, 하나의 제어정보로 제어할 수 있다. 예를 들어, 보컬(vocal) 신호만으로 별도의 코어 다운믹스 채널로 구성하여, 가라오케 시스템(karaoke system)을 구성할 수 있다. 또한, 드럼(drum) 등의 신호만을 모아서 별도의 코어 다운믹스 채널을 구성하여, 드럼 신호 등과 같은 저주파 신호의 강도를 정밀하게 제어할 수 있다.

한편, 일반적으로 뮤직(music)은 트랙 등의 형태로 이루어진 여러 오디오 신호들을 믹싱하여 생성한다. 예를 들어, 드럼, 기타, 피아노, 보컬(vocal) 신호로 구성되는 뮤직의 경우, 드럼, 기타, 피아노, 보컬 신호가 각각 오브젝트 신호라 할 수 있다. 이 경우, 전체 오브젝트 신호들 중 특별히 중요하다고 판단되어 사용자가 제어가능한 하나의 오브젝트 신호 혹은 다수의 오브젝트 신호들이 믹싱되어 하나의 오브젝트 신호처럼 제어되는 것을 메인 오브젝트(main object)로 정의할 수 있다. 또한, 전체 오브젝트 신호들 중 메인 오브젝트를 제외한 오브젝트 신호들에 대해 이들이 믹싱된 것을 백그라운드 오브젝트(background object)로 정의할 수 있다. 이와 같은 정의에 따라, 전체 오브젝트 혹은 뮤직 오브젝트는, 메인 오브젝트와 백그라운드 오브젝트로 이루어진다고 할 수 있다.

도 5 및 도 6은 메인 오브젝트와 백그라운 오브젝트를 설명하기 위한 도면이다. 도 5의 (a)에 도시한 바와 같이. 메인 오브젝트를 보컬 사운드로 하고, 백그라운드 오브젝트를 보컬 사운드를 제외한 모든 악기음들이 믹싱된 것으로 할 때, 뮤직 오브젝트는 보컬 오브젝트와 그외 악기음들의 믹싱된 백그라운드 오브젝트로로 구성될 수 있다. 메인 오브젝트는, 도 5의 (b)에 도시한 바와 같이, 하나 이상이 포함될 수도 있다.

또한, 메인 오브젝트는 여러 개의 오브젝트 신호들이 믹싱된 형태일 수 있다. 예를 들어, 도 6에 도시한 바와 같이, 보컬과 기타(guitar) 사운드를 믹싱한 것을 메인 오브젝트로 사용하고, 그 외의 악기를 백그라운드 오브젝트로 사용할 수 있다.

뮤직 오브젝트에서 메인 오브젝트와 백그라운드 오브젝트를 따로 제어하기 위해서는 부호화 장치에서 부호화된 비트스트림이 다음의 도 7에 도시한 형태 중 어느 하나의 형태를 가져야 한다.

도 7의 (a)는, 부호화 장치에서 생성한 비트스트림이 뮤직 비트스트림과 메인 오브젝트 비트스트림으로 구성된 것을 나타낸다. 뮤직 비트스트림은 모든 오브젝트 신호들이 믹싱된 형태로써, 메인 오브젝트와 백그라운드 오브젝트를 모두 합한 것에 대응하는 비트스트림을 의미한다. 도 7의 (b)는 비트스트림이 뮤직 비트스트림과 백그라운드 오브젝트 비트스트림으로 구성된 것을 나타내며, 도 7의 (c)는 비트스트림이 메인 오브젝트 비트스트림과 백그라운드 오브젝트 비트스트림으로 구성된 것을 나타낸다.

도 7에서, 뮤직 비트스트림, 메인 오브젝트 비트스트림, 백그라운드 오브젝트 비트스트림은 각각 동일한 방식의 부호화기와 복호화기를 사용하는 생성하는 것이 원칙이다. 그러나, 메인 오브젝트를 보컬 오브젝트로 사용할 경우, 뮤직 비트스트림은 mp3를 이용해 복호화 및 부호화하고, 보컬 오브젝트 비트스트림은 AMR, QCELP, EFR, EVRC 등의 음성 코덱을 이용하여 비트스트림의 용량을 줄이면서 부호화 및 복호화할 수 있다. 즉, 뮤직 오브젝트와 메인 오브젝트, 혹은 메인 오브젝트와 백그라운드 오브젝트 등의 부호화 및 복호화 방법을 다르게 사용할 수 있다.

도 7의 (a)의 경우, 뮤직 비트스트림 부분은 일반적인 부호화 방법과 동일하게 구성한다. 그리고, MP3나 AAC 등의 부호화 방법은 비트스트림 후반부에 ancillary 영역 혹은 auxiliary 영역 등 부가 정보를 표시하는 부분을 가지는데, 메인 오브젝트 비트스트림을 이 부분에 추가할 수 있다. 따라서, 전체 비트스트림은 뮤직 오브젝트가 부호화된 영역과, 뒤따르는 메인 오브젝트 영역으로 구성된다. 이때, 부가영역의 초반부에 메인 오브젝트를 추가되어 있다는 것을 나타내는 지시 자(indicator)나 플래그(flag) 등을 추가하여, 복호화 장치에서 메인 오브젝트가 존재하는지 여부를 판별할 수 있도록 한다.

도 7의 (b)의 경우는 (a)와 기본적으로 동일한 구성으로, 앞서 설명한 부분에서 메인 오브젝트 대신 백그라운드 오브젝트가 사용되는 것으로 설명할 수 있다.

도 7의 (c)의 경우는, 비트스트림이 메인 오브젝트와 백그라운드 오브젝트 비트스트림으로 구성된 경우를 나타낸다. 이 경우, 뮤직 오브젝트는, 메인 오브젝트와 백그라운드 오브젝트의 합 혹은 믹싱된 것으로 구성된다. 비트스트림의 구성 방법에 있어서는 백그라운드 오브젝트를 먼저 저장하고, 보조 영역에 메인 오브젝트를 저장할 수 있다. 혹은 메인 오브젝트를 먼저 저장하고 보조 영역에 메인 오브젝트를 저장할 수도 있다. 이와 같은 경우, 부가영역의 초반부에 부가영역의 정보를 알려주기 위해서 지시자를 추가하는 것은 앞서 설명한 바와 동일하다.

도 8은 메인 오브젝트가 추가되었음을 판별할 수 있도록 비트스트림을 구성하는 방법을 나타낸다. 첫 번째의 예는, 뮤직 비트스트림이 끝나면, 다음번 프레임(frame)이 시작될 때까지 보조 영역임을 미리 정의하는 것으로써, 메인 오브젝트가 부호화되었다는 것을 표시하는 지시자만 있으면 된다.

두 번째 예에서는 뮤직 비트스트림이 끝난 다음, 보조 영역 혹은 데이터 영역이 시작된다는 지시자가 필요한 부호화 방법인데, 이에 의해 메인 오브젝트를 부호화함에 있어서, 보조 영역 시작을 나타내는 지시자와 메인 오브젝트임을 표시하는 지시자 등 2가지의 지시자가 필요하게 된다. 이러한 비트스트림을 복호화함에 있어서는 우선 지시자를 읽어서 데이터의 종류를 판별하고, 이후 데이터 부분을 읽 어서 복호화를 수행하게 된다.

도 9는 본 발명의 제4 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 부호화 및 복호화 장치는 보컬 오브젝트가 메인 오브젝트로 추가된 비트스트림을 부호화 및 복호화한다.

도 9를 참조하면, 부호화 장치에 포함되는 인코더(211)는 보컬 오브젝트와 뮤직 오브젝트를 포함하는 음악신호를 부호화한다. 인코더(211)의 예로는 MP3, AAC, WMA 등을 들 수 있다. 인코더(211)는 음악신호 외에 보컬 오브젝트를 메인 오브젝트로 비트스트림에 추가한다. 이때, 인코더(210)는, 전술한 바와 같이, ancillary 영역이나 auxiliary 영역 등 부가 정보를 표시하는 부분에 보컬 오브젝트를 추가하며, 보컬 오브젝트가 추가로 존재한다는 것을 부호화 장치에 알리기 위한 지시자 등도 추가한다.

복호화 장치(220)는 일반코덱 디코더(221), 보컬 디코더(223), 및 믹싱부(225)를 포함한다. 일반 코덱 디코더(221)은 수신한 비트스트림 중에서 뮤직 비트스트림 부분을 복호화한다. 이 경우, 메인 오브젝트 영역은 단지 부가영역 혹은 데이터 영역으로 인식되며 복호화 과정에서 사용되지 않는다. 보컬 디코더(223)는 수신한 비트스트림 중에서 보컬 오브젝트 부분을 복호화한다. 믹싱부(225)는 일반 코덱 디코더(221)와 보컬 디코더(223)에서 복호화한 신호를 믹싱하여 출력한다.

보컬 오브젝트가 메인 오브젝트로 포함된 비트스트림을 수신한 경우, 보컬 디코더(223)가 없는 부호화 장치에서는 뮤직 비트스트림만 복호화하여 출력하지만, 이 경우에도 뮤직 스트림 내에 보컬 신호가 포함되므로 일반적인 오디오 출력과 동 일하다. 또한, 복호화 과정에서, 비트스트림 내에 지시자 등을 이용하여 보컬 오브젝트가 추가되어 있는지 여부를 판단하고, 보컬 오브젝트의 복호화가 불가능한 경우에는 보컬 오브젝트를 스킵(skip) 등을 통해 무시하고, 복호화가 가능한 경우에는 복호화하여 믹싱에 사용한다.

일반 코덱 디코더(221)는 음악 재생을 위한 것이므로 일반적으로 많이 사용되는 오디오 복호화를 사용한다. 예를 들어 MP3, AAC, HE-AAC, WMA, OggVorbis 등이 있다. 보컬 디코더(223)는 일반 코덱 디코더(221)와 동일한 코덱을 사용하거나 혹은 다른 코덱을 사용할 수 있다. 예를 들어 보컬 디코더(223)에서는 EVRC, EFR, AMR, QCELP 등의 음성 코덱을 사용할 수 있는데, 이 경우는 복호화를 위한 연산량을 줄일 수 있다.

또한, 보컬 오브젝트를 모노(mono)로 구성했을 때 비트레이트를 가장 줄일 수 있으나, 만약 뮤직 비트스트림이 스테레오 채널로 구성되어 있어 좌우 채널에서 보컬 신호가 달라 모노 만으로 구성할 수 없다면, 보컬 오브젝트도 스테레오로 구성할 수 있다.

본 실시예에 따른 복호화 장치(220)에서는 재생 기기에서의 버튼이나 메뉴 조작 등과 같은 사용자 제어 명령에 따라, 음악만 재생하는 모드, 메인 오브젝트만 재생하는 모드, 혹은 및 뮤직과 메인 오브젝트를 적절이 믹싱하여 재생하는 모드 중 어느 하나를 선택하여 재생할 수 있다.

메인 오브젝트을 무시하고 원래 음악만 재생하는 경우는, 기존의 음악 재생의 경우에 해당한다. 단, 사용자 제어명령 등에 의해 믹싱이 가능하기 때문에 메인 오브젝트 혹은 백그라운 오브젝트의 크기 등을 조절할 수 있다. 메인 오브젝트가 보컬 오브젝트인 경우에는, 배경음악에 비해 보컬만 크게 하거나 작게 할 수 있음을 의미한다.

메인 오브젝트만 재생하는 경우의 예로는 메인 오브젝트로 보컬 오브젝트나 특별한 하나의 악기를 사용하는 것을 들 수 있다. 즉, 배경음악 없이 보컬만 듣거나, 배경 음악 없이 특정 악기 소리만을 듣는 경우 등을 의미한다.

음악과 메인 오브젝트를 적절히 믹싱하여 듣는 경우, 배경음악에 비해 보컬만 크게 하거나 작게 하는 것을 의미한다. 특히, 뮤직에서 보컬 성분을 완전히 빼는 경우에는, 보컬 성분이 사라지게 되어 가라오케(karaoke) 시스템으로 사용할 수 있다. 만약 부호화 장치에서 보컬 오브젝트의 위상(phase)을 미리 반대로 해서 부호화한 경우라면, 복호화 장치에서 뮤직 오브젝트에 보컬 오브젝트를 더함으로써 가라오케 시스템을 재생할 수 있다.

이상의 과정은 뮤직 오브젝트와 메인 오브젝트를 각각 복호화한 후 믹싱하는 것으로 설명하였지만, 그 믹싱 과정을 복호화 과정 중에 수행할 수 있다. 예를 들어, MP3, AAC 등 MDCT(Modified Discrete Cosine Transform)와 같은 변환 부호화(transform coding) 계열에서는 믹싱을 MDCT 계수들에 대해 수행하고, 최종적으로 inverse MDCT를 수행하여 PCM 출력을 하면 된다. 이에 의해 전체 연산량을 많이 줄일 수 있다. 또한, MDCT에 한정하지 않고, 일반적인 변환 부호화 계열의 복호화기에 대해 그 변환 도메인에서 계수를 믹싱하고 복호화를 수행하는 것을 모두 포함한다.

그리고, 상기한 예에서는, 하나의 메인 오브젝트를 사용하는 것을 위주로 설명하였으나, 다수의 메인 오브젝트를 사용할 수도 있다. 예를 들어, 도 10에 도시한 바와 같이, 보컬을 메인 오브젝트 1, 기타(guitar)를 메인 오브젝트 2로 사용할 수 있다. 이와 같은 구성은, 음악에서 보컬과 기타(guitar)를 제외한 백그라운드 오브젝트만을 재생하고, 보컬과 기타(guitar)는 직접 사용자가 연주 연습을 하는 상황에 대해 매우 유용하다. 또한, 이 비트스트림에 대해 뮤직, 뮤직에서 보컬 제외한 것, 뮤직에서 기타(guitar) 제외한 것, 뮤직에서 보컬과 기타(guitar) 제외한 것 등 여러 가지의 조합에 의해 재생할 수 있다.

한편, 본 발명에서 보컬 비트스트림으로 표시되는 채널은 확장 가능하다. 예를 들어, 드럼 비트스트림(drum bitstream)을 가지고 음악에 대해서 모든 부분, 드럼 사운드 부분, 모든 부분에서 드럼 사운드만 뺀 부분의 경우를 재생하는 것이 가능하다. 또한, 보컬 비트스트림과 드럼 비트스트림 등 2개 이상의 추가 비트스트림을 가지고, 각 부분별로 믹싱을 제어하는 것이 가능하다.

그리고, 본 실시예에서는 스테레오/모노(stereo/mono) 위주로 기술을 하였지만, 멀티 채널(multi-channel) 경우에도 확장 가능하다. 예를 들어, 5.1 채널 비트스트림에 보컬 오브젝트나 메인 오브젝트 비트스트림 등을 추가하여 비트스트림을 구성하고, 재생시에는 원래의 소리, 보컬을 뺀 소리, 보컬만 있는 소리 중 어느 하나를 재생하는 것이 가능하다.

뮤직과, 뮤직에서 보컬을 뺀 것만 지원하고, 보컬(메인 오브젝트)만 재생하는 모드는 지원하지 않도록 구성할 수도 있다. 이는 가수들이 보컬만 재생되는 것 을 원하지 않을 경우 사용할 수 있다. 이를 확장하여, 보컬만 지원하는 기능이 있는지 혹은 없는지 여부를 표시하는 식별자를 비트스트림에 두고, 이를 이용해 재생 범위를 결정하는 복호화기의 구성이 가능하다.

도 11은 본 발명의 제5 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 부호화 및 복호화 장치에서는 레지듀얼 신호를 사용하여 가라오케 시스템의 구현이 가능하다. 가라오케 시스템에 특화했을 때, 전술한 바와 같이, 뮤직 오브젝트는 백그라운드 오브젝트와, 메인 오브젝트로 나눌 수 있다. 메인 오브젝트는 백그라운드 오브젝트와 따로 제어하기 위한 오브젝트 신호를 의미하며, 특히 보컬 오브젝트 신호를 의미할 수 있다. 백그라운드 오브젝트는 메인 오브젝트를 제외한 모든 오브젝트 신호를 합한 것이다.

도 11을 참조하면, 부호화 장치에 포함되는 인코더(251)는 백그라운드 오브젝트와 메인 오브젝트가 합쳐진 상태로 부호화한다. 부호화 시, AAC. MP3 등 일반적으로 사용되는 오디오 코덱을 사용할 수 있다. 이 신호가 복호화 장치(260)에서 복호화되면, 이 복호화된 신호는 백그라운드 오브젝트 신호와 메인 오브젝트 신호를 모두 포함하게 된다. 이 복호화된 신호를 원본 복호 신호라고 하면, 이 신호에 대해서 가라오케 시스템을 적용하기 위해 다음과 같은 방법이 가능하다.

메인 오브젝트를 레지듀얼(residual) 신호의 형태로 전체 비트스트림에 포함하고, 이를 복호화한 후, 원본 복호 신호로부터 뺀다. 이 경우, 제1 디코더(261)는 전체 신호를 복호화 하고, 제2 디코더(263)는 레지듀얼 신호를 복호화하고, g = 1 에 해당된다. 혹은 메인 오브젝트 신호에 역위상을 주고 레지듀얼 신호의 형태로 전체 비트스트림에 포함하고 이를 복호화한 후, 원본 복호 신호에 더한다. 이 경우는, g = -1 에 해당된다. 각각의 경우에 대해서 g 값을 조정하면 일종의 스케일러블(scalable) 가라오케 시스템이 가능하다.

예를 들어, g = -0.5 혹은 g = 0.5를 할 경우, 메인 오브젝트 혹은 보컬 오브젝트를 완전히 제거하지 않고 레벨(level) 조정만 한 것이 된다. 또한, g를 양수로 하든지, g를 음수로 하면 보컬 오브젝트를 크기를 조절하는 효과가 있다. 만약 원본 복호 신호를 사용하지 않고 레지듀얼 신호만 출력하여 보컬만 출력되는 솔로 모드를 지원할 수도 있다.

도 12는 본 발명의 제6 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 부호화 및 복호화 장치는, 가라오케 신호 출력 및 보컬 모드 출력을 위한 레지듀얼 신호를 각각 다르게 하여, 2개의 레지듀얼 신호를 사용한다.

도 12를 참조하면, 제1 디코더(291)에서 복호화된 원본 복호 신호는, 오브젝트 분리부(295)에서 백그라운드 오브젝트 신호와 메인 오브젝트 신호로 나누어 출력된다. 실제로는 백그라운드 오브젝트는, 원래의 백그라운드 오브젝트와 함께 약간의 메인 오브젝트 성분을 포함하며, 메인 오브젝트도 원래의 메인 오브젝트와 함께 약간의 백그라운 오브젝트 성분을 포함하게 된다. 이는 원본 복호 신호로부터 백그라운드 오브젝트와 메인 오브젝트 신호를 나누는 과정이 완벽하지 않기 때문이다.

특히 백그라운드 오브젝트에 대해서, 백그라운드 오브젝트 내에 포함된 메인 오브젝트 성분을 미리 레지듀얼 신호의 형태로 전체 비트스트림에 포함하고 이를 복호한 후, 백그라운드 오브젝트부터 뺄 수 있다. 이 경우는, 도 12에서 g = 1 에 해당한다. 혹은 백그라운드 오브젝트 내에 포함된 메인 오브젝트 성분에 대해 역위상을 주고 미리 레지듀얼 신호의 형태로 전체 비트스트림에 포함하고 이를 복호한 후, 백그라운드 오브젝트 신호에 더할 수도 있다. 이 경우는, 도 12에서 g = -1 에 해당된다. 각각의 경우에 g 값을 조절하면, 제5 실시예에서 설명한 바와 같이, 스케일러블(scalable) 가라오케 시스템이 가능하다.

같은 방법으로 레지듀얼(residual) 신호를 메인 오브젝트 신호에 적용하고서 g1 값을 조정하여 솔로 모드를 지원할 수 있다. g1 값은 레지듀얼 신호와 원래 오브젝트의 위상 비교 및 보컬 모드 정도를 고려하여, 앞에서 설명한 것과 같이 적용할 수 있다.

도 13은 본 발명의 제7 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에서는 전술한 실시예 다 레지듀얼 신호의 비트 레이트를 더욱 줄이기 위해서 다음과 같은 방법을 사용한다.

메인 오브젝트 신호가 모노일 때는 제1 디코더(301)에 복호화된 원본의 스테레오(stereo) 신호에 대해서 Stereo-to-Three channel 변환부(305)는 Stereo-to-Three channel 변환을 수행한다. 이 Stereo-to-Three channel 변환은 완벽하지 않기 때문에, 그 출력인 백그라운드 오브젝트는 백그라운드 오브젝트 성분과 함께 약간의 메인 오브젝트 성분을 포함하며, 또 다른 출력인 메인 오브젝트도 메인 오브젝트 성분과 함께 약간의 백그라운드 오브젝트 성분을 포함한다.

이제 전체 비트스트림 중에서 레지듀얼 부분을 제2 디코더(303)에 복호화(혹은 디코딩 후 qmf 변환 혹은 mdct-to-qmf 변환)을 수행하여, 백그라운드 오브젝트 신호 및 메인 오브젝트 신호에 웨이팅(weighting)을 하여 합산하면, 백그라운드 오브젝트 성분과 메인 오브젝트 성분으로 구성된 신호들을 각각 구해줄 수 있다.

이러한 방법의 장점은 Stereo-to-Three channel 변환을 통해서 백그라운드 오브젝트 신호와 메인 오브젝트 신호를 한번 구분하였으므로, 그 신호 내부에 포함되어 있는 다른 성분들, 즉 백그라운드 오브젝트 신호 내에 남아있는 메인 오브젝트 성분과 메인 오브젝트 신호 내에 남아있는 백그라운드 오브젝트 성분을 제거하기 위한 레지듀얼 신호를 적은 비트레이트를 사용하여 구성할 수 있다는 점이다.

도 13을 참조하면, 백그라운드 오브젝트 신호(BS) 내의 백그라운드 오브젝트 성분을 B, 메인 오브젝트 성분을 m이라고 하고, 메인 오브젝트 신호(MS) 내의 메인 오브젝트 성분을 M, 백그라운드 오브젝트 성분을 b라고 하면, 다음의 식이 성립한다.

수학식 1

예를 들어, 레지듀얼 신호(R)를 b-m으로 구성한다면, 최종 가라오케 출력(KO)은 g = -1로 하여

수학식 2

가 되고, 최종 솔로 모드 출력(SO)은 g1 = 1로 하여

수학식 3

이 된다. 레지듀얼 신호의 부호를 위 식에서 바꾼다면, 즉 R = m-b, g = -1 ＆ g1 = 1과 같이 할 수 있다.

BS와 MS 구성 시 B, m, M, b의 부호를 어떻게 구성하느냐에 따라서 KO와 SO의 최종 값이 B와 b, M과 m으로 구성하기 위한 g와 g1의 값을 쉽게 계산할 수 있다. 위 경우들에 대해 가라오케와 솔로 모두 원래의 신호와 조금 달라지기는 하지만, 가라오케 출력은 솔로 성분을 포함하지 않고 솔로 출력도 가라오케 성분을 포함하지 않아서 실제로 사용할 수 있는 고음질 신호 출력이 가능하다.

그리고, 두 개 이상의 메인 오브젝트가 존재할 경우, Two-to-Three channel 변환 및 레지듀얼 신호 가감이 단계적으로 사용될 수 있다.

도 14는 본 발명의 제8 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 신호 복호화 장치(290)는, 메인 오브젝트 신호가 스테레오 신호인 경우, 원본 스테레오 각각의 채널에 대해 Mono-to-Stereo 변환을 2번 수행한다는 점에서 제7 실시예와 차이점이 있다.

이 Mono-to-Stereo 변환도 완벽하지 않기 때문에, 그 출력인 백그라운드 오브젝트 신호는 백그라운드 오브젝트 성분과 함께 약간의 메인 오브젝트 성분을 포 함하며, 또 다른 출력인 메인 오브젝트 신호도 메인 오브젝트 성분과 함께 약간의 백그라운드 오브젝트 성분을 포함한다. 이제 전체 비트스트림 중에서 레지듀얼 부분을 디코딩(혹은 디코딩 후 qmf 변환 혹은 mdct-to-qmf 변환)을 수행하여 그 좌우 채널 성분을 백그라운드 오브젝트 신호 및 메인 오브젝트 신호의 각각 좌우 채널에 가중치를 곱하여 합해주면 백그라운드 오브젝트 성분(스테레오)과 메인 오브젝트 성분(스테레오)으로 구성된 신호들을 각각 구해줄 수 있다.

스테레오 백그라운드 오브젝트와 스테레오 메인 오브젝트의 좌우 성분의 차이를 이용하여 스테레오 레지듀얼 신호를 만드는 경우, 도 14에서, g = g2 = -1, g1 = g3 = 1 로 할 수 있다. 또한 앞에서 설명한 것과 같이 백그라운드 오브젝트 신호, 메인 오브젝트 신호, 레지듀얼 신호의 부호에 따라서 g, g1, g2, g3의 값을 쉽게 계산할 수 있다

일반적으로 메인 오브젝트 신호는 모노일 수도 있고 스테레오일 수도 있다. 따라서, 전체 비트스트림 내에 메인 오브젝트 신호의 모노/스테레오 여부를 알 수 있는 플래그(flag)를 두고 이 플래그를 읽어서, 모노일 때는 도 13의 제7 실시예에서 설명한 방법을 이용하여 복호하고, 스테레오일 때는 도 14의 제8 실시예에서 설명한 방법을 이용하여 복호화할 수 있다.

또한 하나 이상의 메인 오브젝트를 포함할 경우에는 각각 메인 오브젝트들의 모노/스테레오 여부에 따라서 전술한 방법들을 연속적으로 사용한다. 이때, 각 방법의 사용 회수는 모노/스테레오 메인 오브젝트의 수와 동일하다. 예를 들어 메인 오브젝트가 3이고, 이 중 모노 메인 오브젝트가 2개, 스테레오 메인 오브젝트가 1 개일 경우, 제7 실시예에서 설명한 방법을 2번 사용하고, 도 14의 제8 실시예에서 설명한 방법을 1번 사용하여 가라오케 신호를 출력한다. 이때, 제7 실시예에서 설명한 방법과 제8 실시예에서 설명한 방법의 사용 순서는 미리 결정할 수 있다. 예를 들어, 모노 메인 오브젝트에 대해 제7 실시예에서 설명한 방법을 항상 먼저 사용하고, 그 후 스테레오 메인 오브젝트에 대해 제8 실시예에서 설명한 방법을 적용하는 것이 가능하다. 또 다른 사용 순서 결정 방법으로는 전체 비트스트림 내에 제7 실시예에서 설명한 방법과 제8 실시예에서 설명한 방법의 적용 순서를 기술하는 기술자(descriptor)를 두고, 이에 따라 선택적으로 적용하는 것이다.

도 15는 본 발명의 제9 실시예에 따른 오디오 부호화 및 복호화 장치의 블럭도이다. 본 실시예에 따른 오디오 부호화 및 복호화 장치는 뮤직 오브젝트 혹은 백그라운드 오브젝트를 멀티채널 인코더를 이용하여 생성한다.

도 15를 참조하면, 멀티채널 인코더(351), 오브젝트 인코더(353), 및 멀티플렉서(355)를 포함하는 오디오 부호화 장치(350)와, 디멀티플렉서(361), 오브젝트 디코더(363), 및 멀티채널 디코더(369)를 포함하는 오디오 복호화 장치(360)가 도시되어 있다. 오브젝트 디코더(363)는 채널 컨버터(365)와 믹서(367)를 포함할 수 있다.

멀티채널 인코더(351)는 뮤직 오브젝트를 채널 기반으로 다운믹스한 신호와, 뮤직 오브젝트에 대한 정보를 추출하여 채널 기반의 제1 오디오 파라미터 정보를 생성한다. 오브젝트 인코더(353)는 보컬 오브젝트와 멀티채널 인코더(351)에서 다운믹스한 신호를 오브젝트 기반으로 부호화한 다운믹스 신호와 오브젝트 기반의 제2 오디오 파라미터 정보, 그리고 보컬 오브젝트에 대응하는 레지듀얼 신호를 생성한다. 멀티플렉서(355)는 오브젝트 인코더(353)에서 생성한 다운믹스 신호와 부가정보를 결합한 비트스트림을 생성한다. 이때, 부가정보는, 멀티채널 인코더(351)에서 생성한 제1 오디오 파라미터와, 오브젝트 인코더(353)에서 생성한 레지듀얼 신호 및 제2 오디오 파라미터 등을 포함하는 정보이다.

오디오 복호화 장치(360)에서 디멀티플렉서(361)는 수신한 비트스트림에서 다운믹스 신호와 부가정보를 분리하고, 오브젝트 디코더(363)는 뮤직 오브젝트가 채널 기반으로 부호화된 오디오 신호와, 보컬 오브젝트가 부호화된 오디오 신호 중 적어도 하나를 이용하여 보컬 성분이 조정된 오디오 신호를 생성한다. 오브젝트 디코더(363)는 채널 컨버터(365)를 포함하여, 복호화 과정에서 Mono-to-Stereo 변환, 혹은 Two-to-Three 변환을 수행할 수 있으며, 믹서(367)는 제어정보에 포함되는 믹싱 파라미터 등을 이용하여 특정 오브젝트 신호의 레벨이나 위치 등을 조절할 수 있다. 멀티채널 디코더(369)는 오브젝트 디코더(363)에 복호화된 오디오 신호와 부가정보 등을 이용하여 멀티채널 신호를 생성한다.

오브젝트 디코더(363)는 입력되는 제어정보에 따라, 보컬 성분이 없는 오디오 신호를 생성하는 가라오케 모드, 보컬 성분만을 포함하는 오디오 신호를 생성하는 솔로 모드, 및 보컬 성분이 포함되는 오디오 신호를 생성하는 일반 모드 중 어느 한 모드에 대응하는 오디오 신호를 생성할 수 있다.

도 16은 보컬 오브젝트가 단계적으로 부호화되는 경우를 설명하기 위한 도면이다. 도 16을 참조하면, 본 실시예에 따른 부호화 장치(380)는 멀티채널 인코더 (381), 제1 및 제3 오브젝트 디코더(383, 385, 387), 및 멀티플렉서(389)를 포함한다.

멀티채널 인코더(381)의 구성 및 기능은, 도 15에서 설명한 바와 같으며, 본 실시예에서는, 제1 내지 제3 오브젝트 인코더(383, 385, 387)가 보컬 오브젝트를 단계적으로 그룹핑하고, 각 그룹핑 단계에서 생성한 레지듀얼 신호가 멀티플렉서(389)에서 생성되는 비트스트림에 포함되도록 구성된다는 점에서 차이가 있다.

이와 같은 과정에 의해 생성한 비트스트림을 복호화하는 경우, 비트스트림에서 추출한 레지듀얼 신호를 뮤직 오브젝트가 그룹핑되어 부호화된 오디오 신호 혹은 보컬 오브젝트가 그룹핑되어 부호화된 오디오 신호에 단계적으로 적용하여 보컬 성분이나 기타 원하는 오브젝트 성분을 조절한 신호를 생성할 수 있다.

한편, 상기한 실시예에서, 원본 복호 신호와 레지듀얼 신호의 합 혹은 차, 백그라운드 오브젝트 신호 혹은 메인 오브젝트 신호와 레지듀얼 신호의 합 혹은 차가 수행되는 곳은 특정 도메인으로 한정하지 않는다. 예를 들어, 이 과정은 시간 도메인(time domain)에서 수행될 수 있으며, MDCT 도메인과 같은 일종의 주파수 도메인에서 수행될 수도 있다. 또한, QMF 서브밴드 도메인이나 하이브리드(hybrid) 서브밴드 도메인과 같은 서브밴드 도메인(subband domain)에서 수행될 수도 있다. 특히 주파수 도메인이나 서브밴드 도메인에서 수행될 경우는 레지듀얼 성분을 빼는 밴드(band) 수를 조절하여 스케일러블 가라오케 신호를 생성할 수 있다. 예를 들어 원본 복호 신호의 서브밴드의 수가 20개일 때, 레지듀얼 신호의 밴드 수가 20개로 하면 완전한 가라오케 신호를 출력하게 되고, 저주파 10개만 커버 한다면 저주파 부분만 보컬 성분이 없어지고 고주파 부분은 남아있는 형태가 된다. 후자의 경우 음질은 전자에 비해 떨어지지만 비트레이트를 낮출 수 있다는 장점이 있다.

또한, 메인 오브젝트가 하나가 아닐 경우에는, 레지듀얼 신호를 여러 개를 전체 비트스트림에 포함하고, 레지듀얼 신호의 합 혹은 차를 여러 번 수행할 수 있다. 예를 들어, 보컬과 기타를 2개의 메인 오브젝트로 하고 이들의 레지듀얼 신호들로 전체 비트스트림에 포함할 경우, 전체 신호에 대해 보컬 신호를 우선 없애주고, 그 다음에 기타 신호를 없애주는 형태로 두 신호 모두를 제거한 가라오케 신호를 생성할 수 있다. 이 경우 부가적으로 보컬만 제거된 가라오케 신호, 기타만 제거된 가라오케 신호도 생성 가능하다. 또한, 보컬 신호만 출력하거나 혹은 기타 신호만 출력할 수도 있다.

또한, 근본적으로 전체 신호에서 보컬 신호만을 제거하여 가라오케 신호를 생성하는 위해서, 전체 신호와 보컬 신호는 각각 부호화되는데, 부호화에 사용되는 코덱의 종류에 따라서 다음의 2가지 구분이 필요하다. 첫째, 전체 신호와 보컬 신호에 부호화 코덱은 항상 같은 것을 사용한다. 이 경우 전체 신호 및 보컬 신호에 대해 부호화 코덱(codec)의 종류를 판별할 수 식별자를 각각의 비트스트림 내에 내재하여야 하며, 복호화기에서는 이 식별자를 판단하여 코덱의 종류를 식별하고 복호한 후 보컬 성분을 제거하는 과정을 수행한다. 이 과정에서 위에서 설명한 것과 같이 합 혹은 차로 구현된다. 이 식별자의 정보로는, 레지듀얼 신호는 원본 복호 신호와 같은 코덱(codec)을 사용했는지 여부, 레지듀얼 신호의 부호화 시 사용한 코덱 종류 등을 들 수 있다.

또한, 전체 신호와 보컬 신호의 부호화 코덱을 다른 것을 사용할 수 있다. 예를 들어, 보컬 신호(즉, residual 신호)는 항상 고정된 코덱을 사용한다. 이 경우 레지듀얼 신호에 대한 식별자는 필요하지 않으며, 미리 정해진 코덱만을 사용해 복호화하면 된다. 단, 이 경우 전체 신호에서 레지듀얼 신호를 제거하는 과정은 시간 도메인(time domain) 혹은 서브밴드 도메인(subband domain)과 같이 두 신호 사이의 processing이 바로 가능한 도메인으로 제한된다. 예를 들어 mdct와 같은 도메인에서는 일반적으로 둘 사이의 processing이 바로 가능하지 않다.

그리고, 본 발명을 이용하여, 백그라운 오브젝트 신호만으로 구성된 가라오케 신호를 출력할 수 있다. 이 신호에 대해 추가적인 업 믹스 프로세스(Upmix process)를 수행하여 다채널 신호를 생성할 수 있다. 예를 들어 본 발명에 의해 생성된 가라오케 신호에 엠펙 서라운드를 추가적으로 적용하면 5.1 채널 가라오케 신호의 생성이 가능하다.

또한, 상기한 실시예에서는 뮤직 오브젝트와 메인 오브젝트, 혹은 백그라운드 오브젝트와 메인 오브젝트에 대해서 프레임 내에 동일한 수가 존재하는 것을 위주로 설명하였지만, 수가 다른 것도 가능하다. 예를 들어 뮤직은 매 프레임 존재하며 메인 오브젝트를 두 프레임에 한번씩만 존재하는 것도 가능하다. 이때는 메인 오브젝트를 복호화하고 이를 두 프레임에 대해 적용하면 된다.

뮤직과 메인 오브젝트에서 각각이 다른 샘플링 주파수를 가질 수 있다. 예를 들어, 뮤직의 샘플링 주파수가 44.1kHz이고, 메인 오브젝트의 샘플링 주파수가 22.05kHz라면, 메인 오브젝트의 MDCT 계수를 계산한 후 뮤직의 MDCT 계수 중 해당 영역에 대해서만 믹싱을 수행할 수 있다. 이는 가라오케 시스템에 대해 보컬이 악기 음보다 주파수 대역이 낮음을 이용하는 것으로써, 데이터 용량을 줄일 수 있는 장점이 있다.

그리고, 본 발명은 프로세서가 읽을 수 있는 기록매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 기록매체는 프로세서에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 프로세서가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 인터넷을 통한 전송 등과 같은 캐리어 웨이브의 형태로 구현되는 것도 포함한다. 또한 프로세서가 읽을 수 있는 기록매체는 네트워크로 연결된 시스템에 분산되어, 분산방식으로 프로세서가 읽을 수 있는 코드가 저장되고 실행될 수 있다

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

본 발명은 오브젝트 기반의 오디오 신호의 부호화 및 복호과 과정 등에 사용되어, 연관성 있는 오브젝트 신호를 그룹단위로 처리하며, 가라오케 모드, 솔로 모드, 및 일반 모드 등의 재생 모드를 제공할 수 있다.

Claims

다운믹스 신호 및 부가정보를 수신하는 단계;

상기 부가정보로부터 제 1 오디오 파라미터 및 제 2 오디오 파라미터를 추출하는 단계;

상기 다운믹스 신호로부터 제 1 오디오 신호 및 제 2 오디오 신호를 추출하는 단계;

상기 제1 및 제2 오디오 신호 중 적어도 하나를 이용하여 제3 오디오 신호를 생성하는 단계; 및

상기 제1 오디오 파라미터 및 상기 제2 오디오 파라미터 중 적어도 하나와, 상기 제3 오디오 신호를 이용하여 멀티채널 오디오 신호를 생성하는 단계;를 포함하고,

상기 제 1 오디오 신호는 하나 또는 두 개의 채널 신호에 대응하고,

상기 제 2 오디오 신호는 하나 이상의 오브젝트 신호에 대응하며,

상기 제 1 오디오 파라미터는 적어도 세 개의 채널들을 상기 제 1 오디오 신호로 다운믹싱할 때 생성되고, 상기 제 1 오디오 신호는 상기 적어도 세 개의 채널들로 업믹싱하기 위하여 이용되고,

상기 제 2 오디오 파라미터는 상기 제 1 오디오 신호 및 상기 제 2 오디오 신호를 상기 다운믹스 신호로 다운믹싱할 때 생성되고, 오브젝트 신호들 중 하나 이상의 오브젝트의 레벨 또는 위치를 조절함으로써 상기 멀티채널 오디오 신호를 생성하기 위하여 이용되는 것을 특징으로 하는 오디오 복호화 방법.
제1항에 있어서,

상기 제1 오디오 신호는 적어도 두 개의 뮤직 오브젝트를 부호화하고, 상기 제2 오디오 신호는 적어도 두 개의 보컬 오브젝트를 부호화한 것을 특징으로 하는 오디오 복호화 방법.
제1항에 있어서,

상기 제3 오디오 신호는, 사용자 제어명령에 기초하여 생성되는 것을 특징으로 하는 오디오 복호화 방법.
제1항에 있어서,

상기 제3 오디오신호의 생성은, 상기 제1 및 제2 오디오 신호 중 적어도 하나의 신호의 가감에 기초하여 생성하는 것을 특징으로 하는 오디오 복호화 방법.
제1항에 있어서,

상기 제3 오디오신호의 생성은, 상기 제1 및 제2 오디오 신호 중 적어도 하나의 신호를 제거하여 생성되는 것을 특징으로 하는 오디오 복호화 방법.
제1항에 있어서,

상기 제1 오디오 신호는, 보컬 성분을 포함하지 않는 신호인 것을 특징으로 하는 오디오 복호화 방법.
삭제
수신한 비트스트림으로부터 다운믹스 신호 및 부가정보를 추출하고, 상기 부가정보로부터 제 1 오디오 파라미터 및 제 2 오디오 파라미터를 추출하며, 상기 다운믹스 신호로부터 제 1 오디오 신호 및 제 2 오디오 신호를 추출하는 멀티플렉서;

상기 제1 오디오 신호 및 상기 제 2 오디오 신호 중 적어도 하나를 이용하여 제 3 오디오 신호를 생성하는 오브젝트 디코더; 및

상기 제 1 오디오 파라미터 및 상기 제 2 오디오 파라미터 중 적어도 하나와, 상기 제3 오디오 신호를 이용하여 멀티채널 오디오 신호를 생성하는 멀티채널 디코더를 포함하고,

상기 제 1 오디오 신호는 하나 또는 두 개의 채널 신호에 대응하고,

상기 제 2 오디오 신호는 하나 이상의 오브젝트 신호에 대응하며,

상기 제 1 오디오 파라미터는 적어도 세 개의 채널들을 상기 제 1 오디오 신호로 다운믹싱할 때 생성되고, 상기 제 1 오디오 신호를 상기 적어도 세 개의 채널들로 업믹싱하기 위하여 이용되고,

상기 제 2 오디오 파라미터는 상기 제 1 오디오 신호 및 상기 제 2 오디오 신호를 상기 다운믹스 신호로 다운믹싱할 때 생성되고, 오브젝트 신호들 중 하나 이상의 오브젝트의 레벨 또는 위치를 조절함으로써 상기 멀티채널 오디오 신호를 생성하기 위하여 이용되는 것을 특징으로 하는 오디오 복호화 장치.
제8항에 있어서,

상기 오브젝트 디코더는, 상기 제1 및 제2 오디오 신호 중 적어도 하나의 신호의 가감에 기초하여 상기 제3 오디오 신호를 생성하는 것을 특징으로 하는 오디오 복호화 장치.
삭제
삭제
삭제
삭제
삭제
삭제
뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와, 상기 뮤직 오브젝트에 대응하는 제1 오디오 파라미터를 생성하는 단계;

보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호와, 상기 보컬 오브젝트에 대응하는 제2 오디오 파라미터를 생성하는 단계; 및

상기 제1 및 제2 오디오 신호, 상기 제1 및 제2 오디오 파라미터를 포함하는 비트스트림을 생성하는 단계;를 포함하는 것을 특징으로 하는 오디오 부호화 방법.
뮤직 오브젝트가 채널 기반으로 부호화된 제1 오디오 신호와, 상기 뮤직 오브젝트에 대한 채널 기반의 제1 오디오 파라미터를 생성하는 멀티채널 인코더;

보컬 오브젝트가 오브젝트 기반으로 부호화된 제2 오디오 신호와, 상기 보컬 오브젝트에 대한 오브젝트 기반의 제2 오디오 파라미터를 생성하는 오브젝트 인코더; 및

상기 제1 및 제2 오디오 신호, 상기 제1 및 제2 오디오 파라미터를 포함하는 비트스트림을 생성하는 멀티플렉서;를 포함하는 것을 특징으로 하는 오디오 부호화 장치.
제1항 내지 제6항 중에 어느 한 항의 복호화 방법을 프로세서에서 실행시키기 위한 프로그램을 기록한 프로세서가 읽을 수 있는 기록매체.
제16항의 부호화 방법을 프로세서에서 실행시키기 위한 프로그램을 기록한 프로세서가 읽을 수 있는 기록매체.