KR101425354B1

KR101425354B1 - 오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및장치와 디코딩 방법 및 장치

Info

Publication number: KR101425354B1
Application number: KR1020070086548A
Authority: KR
Inventors: 이남숙; 이건형; 정종훈
Original assignee: 삼성전자주식회사
Priority date: 2007-08-28
Filing date: 2007-08-28
Publication date: 2014-08-06
Also published as: KR20090021757A; EP2176859A4; CN101790755B; US20090063161A1; CN101790755A; EP2176859A1; WO2009028793A1

Abstract

연속 정현파 신호의 특성을 이용하여 이전 프레임의 정현파 신호의 정보에 따라 현재 프레임의 연속 정현파 신호를 서로 다른 방법으로 인코딩하는 오디오 신호 인코딩 방법 및 장치와 디코딩 방법 및 장치가 개시된다. 본 발명에서는 입력된 오디오 신호에 대하여 정현파 분석을 수행하여 현재 프레임의 정현파 신호를 추출하고, 추출된 현재 프레임의 정현파 신호에 대하여 정현파 트랙킹(sinusoid tracking)을 수행하여 이전 프레임의 정현파 신호와 연결되는 현재 프레임의 정현파 신호인 연속(continuation) 정현파 신호를 추출하고, 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호의 정보를 이용하여 현재 프레임의 연속 정현파 신호를 서로 다른 방법으로 인코딩함으로써, 보다 적은 비트 레이트를 가지고 효율적인 인코딩이 가능하다는 효과가 있다.

Description

오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및 장치와 디코딩 방법 및 장치{Method and apparatus for encoding continuation sinusoid signal of audio signal, and decoding method and apparatus thereof}

본 발명은 오디오 신호의 인코딩 및 디코딩에 관한 것으로서, 특히 연속 정현파 신호가 존재하는 오디오 신호에서 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호의 정보를 이용하여 상기 연속 정현파 신호를 서로 다른 방법으로 인코딩하는 오디오 신호 인코딩 방법 및 장치와 디코딩 방법 및 장치에 관한 것이다.

본 발명에서 언급하는 오디오 인코딩 방법은 파라메트릭 코딩 방식에서 적용된다. 파라메트릭 코딩(parametric coding)은 특정한 파라미터로 오디오 신호를 표현하는 코딩 방식이다. 파라메트릭 코딩은 MPEG-4(Moving Picture Experts Group 4) 표준에서 이용되고 있다.

도 1은 파라메트릭 코딩 방식을 설명하기 위한 기능 블록도이다.

파라메트릭 코딩 방식에서는 입력 신호를 분석하여 파라미터화한다. 먼저 입력된 오디오 신호에 대하여 적절한 필터링을 수행한다(Audio reading and filtering, 110). 입력된 오디오 신호에 대하여 트랜지언트(transient) 분 석(120), 정현파(sinusoidal) 분석(130) 및 노이즈(noise) 분석(140)의 세 가지 분석을 수행하여 각각의 영역에서의 오디오 성분들에 대한 파라미터들을 추출한다.

트랜지언트 분석은 매우 역동적인(dynamic) 오디오의 변화에 대응하며, 정현파 분석은 결정적인(deterministic) 오디오의 변화에 대응한다. 노이즈 분석은 스토캐스틱(stochastic) 또는 비결정적인(non-deterministic) 오디오의 변화에 대응한다.

마지막으로 추출된 파라미터들은 비트 스트림으로 포맷팅된다(bit-stream formatting, 150).

이렇게 정현파 분석에 의하여 추출된 정현파 신호(sinusoid)를 파셜(partial)이라고 부르기도 한다.

도 2는 일반적인 파라메트릭 코딩 과정을 설명하기 위한 플로우 차트이다.

도 2를 참조하면, 오디오 신호가 입력이 되면 정현파 분석(sinusoid analysis)을 수행하여 현재 프레임의 정현파 성분(sinusoid)을 추출한다(210).

다음으로 추출된 정현파 성분에 대하여, 현재 프레임의 정현파 성분 중에서 이전 프레임의 정현파 성분과 유사한 정현파 성분을 찾아서 연결하는 트랙킹을 수행한다(220). 후술하겠지만, 이전 프레임의 정현파 성분과 연속되는 현재 프레임의 정현파 성분을 연속(continuation) 정현파 성분이라고 한다.

트랙킹이 수행된 정현파 신호에 대해 양자화(quantization)을 수행한다(230). 양자화란, 신호의 값을 일정한 간격으로 나누는 과정을 말한다. 즉, 아날로그 파형을 디지털의 2진 부호(binary code) 형태로 변환하는 아날로그-디지털 변환 과정(ADC: Analog to Digital Conversion)에서 미리 정해진 몇 단계로 파형의 크기를 표현하는 것이다.

양자화 단계를 거친 정현파 신호는 최종적으로 엔트로피 코딩(entropy coding)되어 비트 스트림으로 출력된다.

종래의 방법에서는 이러한 파라메트릭 코딩 과정을 수행함에 있어서, 부호화되는 현재 프레임의 해당 성분값을 주어진 특정 엔트로피 코딩 방식을 이용하여 인코딩하였다.

본 발명은 상기와 같은 파라메트릭 코딩 방식을 이용한 오디오 신호의 인코딩 방법에 있어서, 보다 효율적인 인코딩 방법을 제공하는 것을 목표로 한다. 여기서 효율적인 인코딩 방법이란, 코딩에 있어서 필요한 비트 수(bitrate)를 낮추기 위한 인코딩 방법을 의미한다.

특히 정현파 분석을 수행한 후에 추출된 정현파 신호(partial) 중, 현재 프레임에서 이전 프레임의 정현파 신호와 연속(continuation)되는 연속 정현파 신호를 인코딩함에 있어서, 상기 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호의 정보를 분석하여 이에 따라 서로 다른 방식으로 인코딩하는 오디오 신호의 인코딩 방법 및 장치와 상기와 같은 방법으로 인코딩된 비트 스트림의 오디오 신호를 디코딩하는 방법 및 장치를 제공하고자 한다.

상기 기술적 과제는 본 발명에 따라, 오디오 신호를 인코딩하는 방법에 있어서, 입력된 오디오 신호에 대하여 정현파 분석을 수행하여 현재 프레임의 정현파 신호를 추출하는 단계와; 상기 추출된 현재 프레임의 정현파 신호에 대하여 정현파 트랙킹(sinusoid tracking)을 수행하여, 이전 프레임의 정현파 신호와 연결되는 현재 프레임의 정현파 신호인 연속(continuation) 정현파 신호를 추출하는 단계와; 상기 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호의 정보를 이용하여 상기 연속 정현파 신호를 서로 다른 방법으로 인코딩하는 단계를 포함하는 것을 특징 으로 하는 오디오 신호의 인코딩 방법에 의해 해결된다.

상기 인코딩하는 단계는, 상기 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호에 구비된 엔트로피 성분을 추출하는 단계와; 상기 추출된 엔트로피 성분의 값을 복수개의 범위로 나누어 판단하는 단계와; 상기 판단된 결과에 따라, 현재 프레임의 연속 정현파 신호를 상기 복수개의 범위에 대응하는 서로 다른 방법으로 인코딩하는 단계를 포함하는 것이 바람직하다.

상기 인코딩하는 단계는, 허프만 테이블(Huffman table) 또는 산술 부호화(arithmetic coding)을 이용하여 상기 현재 프레임의 연속 정현파 신호를 인코딩하며, 상기 복수개의 범위에 따라 서로 다른 허프만 테이블 또는 서로 다른 산술 확률값을 이용하는 것이 바람직하다.

상기 판단하는 단계는, 상기 추출된 엔트로피 성분의 값의 범위를 0과 0이 아닌 값으로 나누어 판단하거나, -1 내지 1에 속하는 값과 그 외의 값으로 나누어 판단하는 것이 바람직하며, 상기 추출된 엔트로피 성분은 주파수, 위상 또는 진폭인 것이 바람직하다.

한편, 본 발명의 다른 분야에 따르면 상기 기술적 과제는 오디오 신호를 인코딩하는 장치에 있어서, 입력된 오디오 신호에 대하여 정현파 분석을 수행하여 현재 프레임의 정현파 신호를 추출하는 정현파 분석부와; 상기 추출된 현재 프레임의 정현파 신호에 대하여 정현파 트랙킹(sinusoid tracking)을 수행하여, 이전 프레임의 정현파 신호와 연결되는 현재 프레임의 정현파 신호인 연속(continuation) 정현파 신호를 추출하는 정현파 트랙킹부와; 상기 연속 정현파 신호와 연결된 이전 프 레임의 정현파 신호의 정보를 이용하여 상기 연속 정현파 신호를 서로 다른 방법으로 인코딩하는 연속 정현파 코딩부를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 장치에 의해서도 해결된다.

상기 연속 정현파 코딩부는, 상기 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호에 구비된 엔트로피 성분을 추출하는 엔트로피 성분 추출부와; 상기 추출된 엔트로피 성분의 값을 복수개의 범위로 나누어 판단하는 판단부와; 상기 판단된 결과에 따라, 현재 프레임의 연속 정현파 신호를 상기 복수개의 범위에 대응하는 서로 다른 방법으로 코딩하는 인코더를 포함하는 것이 바람직하다.

상기 인코더는, 허프만 테이블 또는 산술 부호화을 이용하여 상기 현재 프레임의 연속 정현파 신호를 인코딩하며, 상기 복수개의 범위에 따라 서로 다른 허프만 테이블 또는 서로 다른 산술 확률값을 이용하는 것이 바람직하다.

상기 판단부는, 상기 추출된 엔트로피 성분의 값의 범위를 0과 0이 아닌 값으로 나누어 판단하거나, -1 내지 1에 속하는 값과 그 외의 값으로 나누어 판단하는 것이 바람직하다.

한편, 본 발명의 또 다른 분야에 따르면 상기 기술적 과제는 비트 스트림으로 입력된 오디오 신호를 디코딩하는 방법에 있어서, 상기 입력된 비트 스트림이 이전 프레임의 정현파 신호와 연결되는 현재 프레임의 정현파 신호인 연속(continuation) 정현파 신호를 포함하는지를 판단하는 단계와; 상기 비트 스트림이 연속 정현파 신호를 포함하는 경우에, 상기 연속 정현파 신호와 연결된 이전 프레임의 디코딩된 정현파 신호의 정보를 이용하여 상기 연속 정현파 신호를 서로 다 른 방법으로 디코딩하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 방법에 의해서도 해결된다.

상기 디코딩하는 단계는, 상기 연속 정현파 신호와 연결된 이전 프레임의 디코딩된 정현파 신호에 구비된 엔트로피 성분을 추출하는 단계와; 상기 추출된 엔트로피 성분의 값을 복수개의 범위로 나누어 판단하는 단계와; 상기 판단된 결과에 따라, 현재 프레임의 연속 정현파 신호를 상기 복수개의 범위에 대응하는 서로 다른 방법으로 디코딩하는 단계를 포함하는 것이 바람직하다.

상기 디코딩하는 단계는, 허프만 테이블(Huffman table) 또는 산술 부호화(arithmetic coding)을 이용하여 상기 현재 프레임의 연속 정현파 신호를 디코딩하며, 상기 복수개의 범위에 따라 서로 다른 허프만 테이블 또는 서로 다른 산술 확률값을 이용하는 것이 바람직하다.

한편, 본 발명의 또 다른 분야에 따르면 상기 기술저 과제는 비트 스트림으로 입력된 오디오 신호를 디코딩하는 장치에 있어서, 상기 입력된 비트 스트림이 이전 프레임의 정현파 신호와 연결되는 현재 프레임의 정현파 신호인 연속(continuation) 정현파 신호를 포함하는지를 판단하는 연속 정현파 판단부와; 상기 비트 스트림이 연속 정현파 신호를 포함하는 경우에, 상기 연속 정현파 신호와 연결된 이전 프레임의 디코딩된 정현파 신호의 정보를 이용하여 상기 연속 정현파 신호를 서로 다른 방법으로 디코딩하는 연속 정현파 디코딩부를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 장치에 의해서도 해결된다.

상기 연속 정현파 디코딩부는, 상기 연속 정현파 신호와 연결된 이전 프레임의 디코딩된 정현파 신호에 구비된 엔트로피 성분을 추출하는 엔트로피 성분 추출부와; 상기 추출된 엔트로피 성분의 값을 복수개의 범위로 나누어 판단하는 판단부와; 상기 판단된 결과에 따라, 현재 프레임의 연속 정현파 신호를 상기 복수개의 범위에 대응하는 서로 다른 방법으로 디코딩하는 디코더를 포함하는 것이 바람직하다.

상기 디코더는, 허프만 테이블 또는 산술 부호화을 이용하여 상기 현재 프레임의 연속 정현파 신호를 디코딩하며, 상기 복수개의 범위에 따라 서로 다른 허프만 테이블 또는 서로 다른 산술 확률값을 이용하는 것이 바람직하다.

나아가 본 발명은 상기 오디오 신호의 인코딩 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체 및 상기 오디오 신호의 디코딩 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체를 포함한다.

본 발명에 의한 오디오 신호의 연속 정현파 신호를 인코딩하는 방법과 그 장치에 따르면, 연속 정현파 신호의 특성을 이용하여 이전 프레임의 정현파 신호에 포함된 엔트로피 성분의 값에 따라, 현재 프레임의 연속 정현파 신호에 최적화된 엔트로피 코딩 방식을 적용하므로 보다 적은 비트 레이트를 가지고 효율적인 인코딩이 가능하다. 이러한 본 발명의 오디오 신호 인코딩 방식을 적용하는 경우에 관련 기술과 비교하여 어느 정도의 비트 레이트의 감소 효과가 있는지는 이하 도 7을 참조하여 상세히 설명할 것이다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 도면에 기재된 내용을 참조하여야 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세히 설명한다.

도 3은 트랙킹(tracking)된 정현파 신호의 관계를 나타내는 도면이다.

정현파 코딩(SSC: sinusoid coding)에 있어서, 도 1에서 살펴본 정현파 분석(sinusoid analysis)을 수행한 후에 정현파 신호에 대하여 ADPCM(adaptive differential pulse code modulation)이나 DPCM(differential pulse code modulation) 코딩을 하기 위해 먼저 정현파 신호에 대한 트랙킹(tracking)을 수행한다.

트랙킹(tracking)이란, 전후의 프레임들에 포함된 정현파 신호들간에 서로 연속되는 정현파 신호를 찾아내고 대응 관계를 설정하는 과정을 뜻한다. 도 3에서 각각의 표시(ⓧ)된 점들은 x축의 각 프레임에서 y축의 주파수 상에 존재하는 정현파 성분을 뜻하고, 이들 사이를 잇는 선들은 각 프레임의 정현파 신호들이 트랙킹된 결과를 나타내기 위한 것이다.

이전 프레임의 정현파 신호들로부터 트랙킹이 가능하지 않은 현재 프레임의 정현파 신호를 신생(birth) 정현파 신호 또는 신생 파셜(partial)이라고 한다. 신생이라는 명칭은, 정현파 신호가 이전 프레임의 정현파 신호로부터 연속되지 않고 현재 프레임에서 새로이 생겨난다는 의미이다. 도 3에서 신생 정현파 신호는 350, 360, 370 이다. 310 내지 340은 이전 프레임과의 관계로부터 신생 정현파 신호인지의 여부가 결정될 것이다. 신생 정현파 신호에 대하여는 이전 프레임의 정현파 신호를 이용한 차이값 코딩(difference coding)을 수행할 수 없고 절대 코딩(absolute coding)을 수행하여야 한다. 따라서, 코딩을 위하여 많은 비트 수가 필요하게 된다.

반면, 이전 프레임의 정현파 신호로부터 트랙킹이 가능한 현재 프레임의 정현파 성분을 연속(continuation) 정현파 신호 또는 연속 파셜이라고 한다. 예를 들면, 351, 352, 353은 350으로부터 연결된 연속 정현파 신호이다. 연속 정현파 신호에 대하여는 대응하는 이전 프레임의 정현파 신호를 이용하여 차이값 코딩(difference coding)을 수행할 수 있으므로 효율적인 코딩이 가능하다. 차이값 코딩을 하는 이유는 정현파 성분의 엔트로피 성분들(주파수, 진폭, 위상) 사이에 상관 관계가 있는 경우에 이를 이용하면 절대 코딩(absolute coding)을 하는 경우 보다 비트 수를 줄일 수 있기 때문이다.

정현파 성분이 연속될 수 있다는 것은, 서로 간에 연관성을 가진다는 의미이다. 이 경우에 연관성을 가지는 정보를 공유하므로, 하나의 정현파 성분에 대한 정보를 이용하여 다른 정현파 성분을 예측하는 것이 가능해진다. 따라서, 데이터의 효율적인 코딩이 가능하다.

정현파 성분이 연속될 수 있는지 여부는, 연속될 수 있는지 여부를 판단하고자 하는 정현파 성분들 간의 주파수의 차이를 이용하거나, 연속될 수 있는지 여부를 판단하고자 하는 정현파 성분들 간의 주파수의 차이 및 진폭의 비를 이용할 수 있다. (i)주파수의 차이를 이용하는 경우는, 연속 여부를 판단하고자 하는 두 정현파 성분의 주파수의 차이가 소정 값 이하인지를 판단하여, 소정 값 이하인 경우 서로 연관성을 가지는 것으로 판단할 수 있다. 예를 들어, 주파수의 차이가 0.4 ERB(Equivalent Rectangular Bandwidth rate) 이하인 경우 연속될 수 있는 것으로 판단할 수 있을 것이다. 한편 (ii)주파수의 차이 및 진폭의 비를 이용하는 경우는, 연속 여부를 판단하고자 하는 두 정현파 성분의 주파수의 차이가 소정 값이 이하이고, 두 정현파 성분의 진폭의 비가 소정 값 이하인 경우, 서로 연속될 수 있는 것으로 판단할 수 있다. 예를 들어, 주파수의 차이가 0.4 ERB 이하이고 현재의 정현파 성분의 진폭 값이 이전의 정현파 성분의 진폭 값의 1/3배 이상 3배 이하이면 서로 연속될 수 있는 것으로 판단할 수 있을 것이다.

특히 연속 정현파 신호 중에서 다음 프레임의 정현파 신호와 연결되지 않고 사라지는 정현파 신호를 종지(death) 정현파 신호 또는 종지 파셜이라고 한다. 도 3에서 예를 들면 353, 314 등이 종지 정현파 신호이다.

도 4는 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호의 정보에 따라 현재 프레임의 연속 정현파 신호에서 엔트로피 성분의 분포 확률을 나타내는 그래프이다.

(a)그림은 주파수(frequency) 성분에 대한 분포 확률을 나타낸 그래프이고, (b)그림은 진폭(amplitude) 성분에 대한 분포 확률을 나타낸 그래프이다.

이들 그래프는 연속 정현파 신호의 특성을 나타내 주는데, 여기서 연속 정현파 신호의 특성이란 연속 정현파 신호는 이전 프레임에서 연결된 정현파 신호와 비슷한 경향을 갖는다는 점이다.

즉, 연속 정현파 신호의 성분값은 이전 프레임에서 연결된 정현파 신호의 성분값에 비하여 많이 변하지 않는 특성이 있다. 아울러, 신호의 변화가 많은 구간에서는 다음 프레임에서 연결된 연속 정현파 신호 또한 그 성분값이 많이 변하게 된다.

이러한 연속 정현파 신호의 특성에 기인하여, 연속 정현파 신호의 성분 값은 이전 프레임에서 연결된 정현파 신호와의 차이 값(differential value)으로 인코딩하게 되는데, 연결된 정현파 신호의 차이 값은 정현파 신호의 성분이 많이 변하지 않으므로 작게 된다. 그리고 신호의 변화가 많은 구간에서는 그 차이 값 또한 크게 된다

이러한 연속 정현파 신호의 특성을 도 4의 (a), (b)그림을 참조하여 설명하면 다음과 같다.

도 4에 나타난 (a), (b)그림의 그래프는 일련의 프레임을 거쳐 여러 개의 연속 정현파 신호가 있을 때, 부호화되는 성분값을 나열하고 이들 값의 분포 확률을 그래프로 나타낸 것이다. 부호화되는 성분 값은 이전 프레임의 연결된 정현파와의 성분의 차이 값을 나타낸다. 특히, 이전 프레임에서의 연속 정현파의 부호화되는 신호가 (-1,0,1)의 값을 가질 때와 그 이외의 값을 가질 때, 뒤따르는 다음 프레임에서의 연속 정현파 신호의 부호화 되는 성분값이 어떻게 나타날 것인가를 나타내고 있다. 여기서 x축은 DPCM(differential pulse code modulation)이나 ADPCM(adaptive differential pulse code modulation) 코딩을 위한 차이값(differential value)이고, y축은 확률(probability)이다.

일 예로, 도 4의 (a), (b)그림의 그래프에는 각각 A곡선과 B곡선이 나타나있는데, A곡선은 이전 프레임에서 연속 정현파 신호의 부호화되는 성분값이 (-1,0,1)의 값을 가질 때, 다음 프레임의 연속 정현파 신호의 부호화되는 성분이 갖는 값을 나타내고, 반면에 B곡선은 이전 프레임에서 연속 정현파 신호의 부호화되는 성분값이 (-1,0,1)이 아닌 그 이외의 값을 가질 때, 다음 프레임의 연속 정현파 신호의 부호화되는 성분이 갖는 값을 나타낸다.

A곡선, 즉 이전 프레임에서 연속 정현파 신호의 부호화되는 성분값이 (-1,0,1)의 값을 가질 때, 다음 프레임의 연속 정현파 신호의 부호화되는 성분이 갖는 값은 주파수, 진폭 모두 0 근처의 값이 가장 빈번히 나타나고 있다.

반면에 B곡선, 즉 이전 프레임에서 연속 정현파 신호의 부호화되는 성분값이 (-1,0,1)이 아닌 그 이외의 값을 가질 때, 다음 프레임의 연속 정현파 신호의 부호 화되는 성분이 갖는 값은 상대적으로 0 근처에 값이 모여있지 않고, 넓게 분포하고 있음을 알 수 있다.

이렇게 연속 정현파 신호의 부호화되는 성분은 이전 프레임의 연속 정현파 신호의 부호화되는 성분이 작은 값을 갖는 경우에 다음 프레임의 연속 정현파 신호의 부호화되는 성분 또한 작은 값을 가질 확률이 높고, 반면에 이전 프레임의 연속 정현파 신호의 부호화되는 성분이 큰 값을 갖는 경우 즉, 신호의 변화가 많은 구간에서는 다음 프레임의 연속 정현파 신호의 부호화되는 성분도 큰 값을 가질 확률이 높게 나타난다.

따라서 연속 정현파 신호에 있어서는, 이전 프레임의 연속 정현파 신호의 부호화되는 정보를 이용하여 다음 프레임의 연속 정현파 신호를 어느 정도 예측할 수 있으며, 본 발명에서는 이러한 원리에 착안하여 보다 적은 비트로 현재 프레임의 연속 정현파 신호를 인코딩하는 방법을 제안한다.

도 5는 본 발명의 일 실시예에 따른 오디오 신호의 인코딩하는 방법을 설명하기 위한 플로우 차트이다.

도 5를 참조하면, 본 발명의 오디오 신호 인코딩 방법은 입력된 오디오 신호에 대하여 정현파 분석을 수행하여 현재 프레임의 정현파 신호를 추출하는 단계(510)와 추출된 현재 프레임의 정현파 신호에 대하여 정현파 트랙킹(sinusoid tracking)을 수행하여(520), 이전 프레임의 정현파 신호와 연결되는 현재 프레임의 정현파 신호인 연속(continuation) 정현파 신호를 추출하는 단계(530)와 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호의 정보를 이용하여 현재 프레임의 연 속 정현파 신호를 서로 다른 방법으로 인코딩하는 단계(540)를 포함한다.

상기 인코딩하는 단계(540)는 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호에 구비된 엔트로피 성분을 추출하는 단계와 추출된 엔트로피 성분의 값을 복수개의 범위로 나누어 판단하는 단계와 판단된 결과에 따라, 현재 프레임의 연속 정현파 신호를 상기 복수개의 범위에 대응하는 서로 다른 방법으로 인코딩하는 단계를 포함할 수 있다. 이에 대하여는 아래에서 도 6을 참고하여 설명한다.

도 5를 보다 구체적으로 살펴보면, 먼저 입력된 오디오 신호에 대하여 정현파 분석(sinusoid analysis)을 수행하여 현재 프레임의 정현파 신호(sinusoid)를 추출한다(510).

그런 다음 추출된 정현파 신호에 대하여 트랙킹을 수행하여(520), 현재 프레임의 정현파 신호 중에서 이전 프레임에서 서로 유사한 정현파 신호를 분석하여 연결한다(520).

앞서 살펴본 바와 같이, 이전 프레임의 연속 정현파 신호와 현재 프레임의 연속 정현파 신호의 상관 관계를 이용하여, 상기 현재 프레임의 연속 정현파 신호를 서로 다른 방법으로 인코딩한다(540).

즉, 이전 프레임의 연속 정현파 신호의 부호화되는 성분이 작은 값을 갖는 경우에 현재 프레임의 연속 정현파 신호의 부호화되는 성분 또한 작은 값을 가질 확률이 높고, 이전 프레임의 연속 정현파 신호의 부호화되는 성분이 큰 값을 갖는 경우에는 현재 프레임의 연속 정현파 신호의 부호화되는 성분도 큰 값을 가질 확률이 높다는 점을 이용하여, 이런 경우의 수에 맞게 구성된 서로 다른 허프만 테이블 등을 이용하여 현재 프레임의 연속 정현파 신호를 부호화한다.

도 6은 본 발명의 일 실시예에 따른 오디오 신호의 인코딩하는 방법에서, 연속 정현파 신호를 서로 다른 방법으로 인코딩하는 단계를 구체적으로 나타내는 플로우 차트이다.

도 6을 참조하면, 현재 부호화하려는 프레임이 n번째 프레임이라고 할 때, 먼저 이전 프레임(n-1번째 프레임)에서 연결된 정현파 신호의 엔트로피 성분 P(n-1)을 추출한다(610). 엔트로피 성분은 정현파 신호의 주파수, 위상 또는 진폭이 될 수 있다.

추출된 P(n-1) 값을 복수개의 범위로 나누어 판단한다(620). 예를 들어, 앞서 언급한 바와 같이 (-1,0,1)의 값의 범위와 그 이외의 값의 범위로 나눌 수 있다. 물론 이러한 범위는 구현 예에 따라, 보다 여러 가지의 경우로 나눌 수 있음은 자명하다.

도 6에서는 단계 620에서 판단된 결과가 두 가지 경우로 나타나는 것을 전제한다. 이를 제1 경우와 제2 경우라 명명한다. 예를 들면, P(n-1)의 값이 (-1,0,1)의 값을 가질 때가 제1 경우이고, (-1,0,1)이 아닌 그 이외의 값을 가질 때가 제2 경우이다.

제1 경우, 예를 들어 P(n-1)의 값이 (-1,0,1)의 값을 가질 때는 현재 프레임(n번째 프레임)의 연속 정현파 신호의 엔트로피 성분 P(n)을 제1 허프만 테이블을 이용하여 인코딩한다(630).

제2 경우, 예를 들어 P(n-1)의 값이 (-1,0,1)이 아닌 그 이외의 값을 가질 때는 현재 프레임의 연속 정현파 신호의 엔트로피 성분 P(n)을 제2 허프만 테이블을 이용하여 인코딩한다(640).

일 예로, 부호화하려는 엔트로피 성분 값이 프레임 별로 0,0,2,3,1,0,-1,0 로 나타나는 경우에 이를 순서대로 인코딩하는 경우를 나타내면 다음과 같다.

(i) 이전 프레임이 없는 경우인 첫 번째 0은 제1 허프만 테이블, 제2 허프만 테이블 중 어느 것을 이용하여 부호화해도 무방하다. 또는, 제1 허프만 테이블, 제2 허프만 테이블과 다른 허프만 테이블을 이용하여 부호화하여도 무방하다.

(ii) 0은 제1 허프만 테이블을 이용하여 부호화한다.

(iii) 2는 제1 허프만 테이블을 이용하여 부호화한다.

(iv) 3은 제2 허프만 테이블을 이용하여 부호화한다.

(v) 1은 제2 허프만 테이블을 이용하여 부호화한다.

(vi) 0은 제1 허프만 테이블을 이용하여 부호화한다.

(vii) -1은 제1 허프만 테이블을 이용하여 부호화한다.

(viii) 0은 제1 허프만 테이블을 이용하여 부호화한다.

이러한 과정은 상기와 같은 방법으로 인코딩된 비트 스트림의 오디오 신호를 디코딩하는 때에도 똑같이 적용된다.

상기 인코딩 단계에서는 제1 경우 및 제2 경우에 대하여 각각의 심볼들의 발생 확률이 최적화된 제1 허프만 테이블 및 제2 허프만 테이블을 이용할 수 있다. 즉, 단계 620에서 판단된 결과에 따라서 서로 다른 최적화된 VLC(variable length code) 테이블을 사용하는 것이다.

도 6에서는 허프만 테이블을 이용한 허프만 코딩을 예시하였지만, 허프만 코딩 대신에 단계 620의 판단 결과에 따라 서로 다른 확률값을 갖는 산술 부호화(arithmetic coding) 방식을 이용할 수도 있다. 산술 부호화는 이론적인 최대 압축율에 보다 근접할 수 있는 엔트로피 코딩 기법으로 연속적인 데이터 심볼들을 하나의 소수로 변환하며, 각 심볼을 표현하기 위해 필요한 최적의 소수 비트를 구할 수 있다. 아울러 이러한 산술 부호화 방식을 적응적으로 개선한 적응적 산술 부호화(adaptive arithmetic coding)도 이용할 수 있다.

도 7은 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 방식을 적용하는 경우에 종래 기술과 비교한 비트 수의 이득(gain)을 나타내는 테이블이다.

이득(gain)이란 코딩 후의 비트 수가 줄어든 비율을 나타낸다. 예를 들어, 3.3 퍼센트의 이익이란 비트 수가 3.3 퍼센트 줄어든다는 것을 의미한다.

이와 같은 결과를 얻기 위하여, 먼저 현재 프레임의 정현파 신호에 대하여 고정적인 하나의 허프만 테이블만을 이용하는 종래의 방식을 적용하여 주파수 및 진폭을 인코딩할 때의 비트 레이트(bit rate)를 측정한다. 이를 bit_rate_1 이라 하자.

다음으로 도 6에서 설명한 본 발명의 일 실시예에 따라, 부호화하려는 각 심볼에 서로 다른 발생 확률을 할당한 제1 허프만 테이블, 제2 허프만 테이블을 사용하여 현재 프레임의 정현파 신호를 인코딩할 때의 비트 레이트를 측정한다. 이를 bit_rate_2 라 하자.

도 7의 테이블에 도시한 이득(gain)은 아래 [수학식 1]에 의하여 구해진다.

Gain(%) = (bit_rate_1 - bit_rate_2)/(bit_rate_1) * 100 (%)

도 7을 참조하면, 10개의 테스트 시퀀스(Bass, Brahms, Dongwoo, Dust, Gspi, Harp, Horn, Hotel, Spff, Trilogy)를 이용하여 상기 비교 실험을 수행하였다.

테이블의 첫 번째 항목인 "Continuation에서 frequency의 Gain"이란, 연속 정현파 신호의 주파수 성분을 인코딩할 때의 비트 수의 감소 비율을 의미한다. 도 7을 참조하면, 종래 방식을 적용할 때에 비하여 평균 1.0 퍼센트의 비트 레이트의 감소가 있음을 알 수 있다.

테이블의 두 번째 항목인 "Continuation에서 amplitude의 Gain"이란, 연속 정현파 신호의 진폭 성분을 인코딩할 때의 비트 수의 감소 비율을 의미한다. 종래 방식을 적용할 때에 비하여 평균 4.8 퍼센트의 비트 레이트가 감소하였다.

테이블의 세 번째 항목인 "전체 bit rate에서 Gain"이란, 각 테스트 시퀀스에서의 정현파 신호 전체를 인코딩할 때의 비트 수의 감소 비율을 의미한다. 도 7을 참조하면, 종래 방식을 적용할 때에 비하여 평균 3.0 퍼센트의 비트 레이트의 감소가 있음을 알 수 있다.

도 8은 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치를 나타내는 기능 블록도이다.

도 8을 참조하면, 오디오 신호의 인코딩 장치(800)는 입력된 오디오 신호에 대하여 정현파 분석을 수행하여 현재 프레임의 정현파 신호를 추출하는 정현파 분석부(810)와 추출된 현재 프레임의 정현파 신호에 대하여 정현파 트랙킹(sinusoid tracking)을 수행하여, 이전 프레임의 정현파 신호와 연결되는 현재 프레임의 정현파 신호인 연속(continuation) 정현파 신호를 추출하는 정현파 트랙킹부(820)와 상기 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호의 정보를 이용하여 연속 정현파 신호를 서로 다른 방법으로 인코딩하는 연속 정현파 코딩부(830)를 포함한다.

또한 상기 연속 정현파 코딩부(830)는 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호에 구비된 엔트로피 성분을 추출하는 엔트로피 성분 추출부(831)와 추출된 엔트로피 성분의 값을 복수개의 범위로 나누어 판단하는 판단부(832)와 상기 판단부(832)의 결과에 따라, 현재 프레임의 연속 정현파 신호를 상기 복수개의 범위에 대응하는 서로 다른 방법으로 코딩하는 인코더(833)를 더 포함할 수 있다.

인코더(833)의 예로는 AAC(Advanced Audio Coding), MP3(MPEG-1 Audio Layer-3), WMA(Windows Media Audio), BSAC(Bit Sliced Arithmetic Coding) 등이 있을 수 있다.

도 9는 본 발명의 일 실시예에 따른 오디오 신호의 디코딩 장치를 나타내는 기능 블록도이다.

도 9를 참조하면, 오디오 신호의 디코딩 장치(900)는 입력된 비트 스트림이 이전 프레임의 정현파 신호와 연결되는 현재 프레임의 정현파 신호인 연 속(continuation) 정현파 신호를 포함하는지를 판단하는 연속 정현파 신호 판단부(910)와 비트 스트림이 연속 정현파 신호를 포함하는 경우에, 상기 연속 정현파 신호와 연결된 이전 프레임의 디코딩된 정현파 신호의 정보를 이용하여 연속 정현파 신호를 서로 다른 방법으로 디코딩하는 연속 정현파 디코딩부(920)를 포함한다.

아울러 상기 연속 정현파 디코딩부(920)는 연속 정현파 신호와 연결된 이전 프레임의 디코딩된 정현파 신호에 구비된 엔트로피 성분을 추출하는 엔트로피 성분 추출부(921)와 추출된 엔트로피 성분의 값을 복수개의 범위로 나누어 판단하는 판단부(922)와 상기 판단부(922)의 결과에 따라, 현재 프레임의 연속 정현파 신호를 상기 복수개의 범위에 대응하는 서로 다른 방법으로 디코딩하는 디코더(923)를 더 포함할 수 있다.

한편, 상술한 본 발명의오디오 신호의 인코딩 방법 및 디코딩 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

또한, 상술한바와 같이 본 발명에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

상기 몇 개의 도면에 있어서 대응하는 도면 번호는 대응하는 부분을 가리킨다. 도면이 본 발명의 실시예들을 나타내고 있지만, 도면이 축척에 따라 도시된 것은 아니며 본 발명을 보다 잘 나타내고 설명하기 위해 어떤 특징부는 과장되어 있을 수 있다.

Claims

오디오 신호를 인코딩하는 방법에 있어서,

입력된 오디오 신호에 대하여 정현파 분석을 수행하여 현재 프레임의 정현파 신호를 추출하는 단계와;

상기 추출된 현재 프레임의 정현파 신호에 대하여 정현파 트랙킹(sinusoid tracking)을 수행하여, 이전 프레임의 정현파 신호와 연결되는 현재 프레임의 정현파 신호인 연속(continuation) 정현파 신호를 추출하는 단계와;

상기 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호에 포함된 엔트로피 성분의 값에 기초하여 상기 연속 정현파 신호를 서로 다른 방법으로 인코딩하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제1항에 있어서,

상기 인코딩하는 단계는,

상기 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호에 구비된 엔트로피 성분을 추출하는 단계와;

상기 추출된 엔트로피 성분의 값을 복수개의 범위로 나누어 판단하는 단계와;

상기 판단된 결과에 따라, 현재 프레임의 연속 정현파 신호를 상기 복수개의 범위에 대응하는 서로 다른 방법으로 인코딩하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제2항에 있어서,

상기 인코딩하는 단계는,

허프만 테이블(Huffman table) 또는 산술 부호화(arithmetic coding)을 이용하여 상기 현재 프레임의 연속 정현파 신호를 인코딩하며,

상기 복수개의 범위에 따라 서로 다른 허프만 테이블 또는 서로 다른 산술 확률값을 이용하는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제3항에 있어서,

상기 판단하는 단계는,

상기 추출된 엔트로피 성분의 값의 범위를 0과 0이 아닌 값으로 나누어 판단하거나, -1 내지 1에 속하는 값과 그 외의 값으로 나누어 판단하는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제4항에 있어서,

상기 추출된 엔트로피 성분은 주파수, 위상 또는 진폭인 것을 특징으로 하는 오디오 신호의 인코딩 방법.
오디오 신호를 인코딩하는 장치에 있어서,

입력된 오디오 신호에 대하여 정현파 분석을 수행하여 현재 프레임의 정현파 신호를 추출하는 정현파 분석부와;

상기 추출된 현재 프레임의 정현파 신호에 대하여 정현파 트랙킹(sinusoid tracking)을 수행하여, 이전 프레임의 정현파 신호와 연결되는 현재 프레임의 정현파 신호인 연속(continuation) 정현파 신호를 추출하는 정현파 트랙킹부와;

상기 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호에 포함된 엔트로피 성분의 값에 기초하여 상기 연속 정현파 신호를 서로 다른 방법으로 인코딩하는 연속 정현파 코딩부를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
제6항에 있어서,

상기 연속 정현파 코딩부는,

상기 연속 정현파 신호와 연결된 이전 프레임의 정현파 신호에 구비된 엔트로피 성분을 추출하는 엔트로피 성분 추출부와;

상기 추출된 엔트로피 성분의 값을 복수개의 범위로 나누어 판단하는 판단부와;

상기 판단된 결과에 따라, 현재 프레임의 연속 정현파 신호를 상기 복수개의 범위에 대응하는 서로 다른 방법으로 코딩하는 인코더를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
제7항에 있어서,

상기 인코더는,

허프만 테이블 또는 산술 부호화을 이용하여 상기 현재 프레임의 연속 정현파 신호를 인코딩하며,

상기 복수개의 범위에 따라 서로 다른 허프만 테이블 또는 서로 다른 산술 확률값을 이용하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
제8항에 있어서,

상기 판단부는,

상기 추출된 엔트로피 성분의 값의 범위를 0과 0이 아닌 값으로 나누어 판단하거나, -1 내지 1에 속하는 값과 그 외의 값으로 나누어 판단하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
비트 스트림으로 입력된 오디오 신호를 디코딩하는 방법에 있어서,

상기 입력된 비트 스트림이 이전 프레임의 정현파 신호와 연결되는 현재 프레임의 정현파 신호인 연속(continuation) 정현파 신호를 포함하는지를 판단하는 단계와;

상기 비트 스트림이 연속 정현파 신호를 포함하는 경우에, 상기 연속 정현파 신호와 연결된 이전 프레임의 디코딩된 정현파 신호에 포함된 엔트로피 성분의 값에 기초하여 상기 연속 정현파 신호를 서로 다른 방법으로 디코딩하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제10항에 있어서,

상기 디코딩하는 단계는,

상기 연속 정현파 신호와 연결된 이전 프레임의 디코딩된 정현파 신호에 구비된 엔트로피 성분을 추출하는 단계와;

상기 추출된 엔트로피 성분의 값을 복수개의 범위로 나누어 판단하는 단계와;

상기 판단된 결과에 따라, 현재 프레임의 연속 정현파 신호를 상기 복수개의 범위에 대응하는 서로 다른 방법으로 디코딩하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제11항에 있어서,

상기 디코딩하는 단계는,

허프만 테이블(Huffman table) 또는 산술 부호화(arithmetic coding)을 이용하여 상기 현재 프레임의 연속 정현파 신호를 디코딩하며,

상기 복수개의 범위에 따라 서로 다른 허프만 테이블 또는 서로 다른 산술 확률값을 이용하는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제12항에 있어서,

상기 판단하는 단계는,

상기 추출된 엔트로피 성분의 값의 범위를 0과 0이 아닌 값으로 나누어 판단하거나, -1 내지 1에 속하는 값과 그 외의 값으로 나누어 판단하는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제13항에 있어서,

상기 추출된 엔트로피 성분은 주파수, 위상 또는 진폭인 것을 특징으로 하는 오디오 신호의 디코딩 방법.
비트 스트림으로 입력된 오디오 신호를 디코딩하는 장치에 있어서,

상기 입력된 비트 스트림이 이전 프레임의 정현파 신호와 연결되는 현재 프레임의 정현파 신호인 연속(continuation) 정현파 신호를 포함하는지를 판단하는 연속 정현파 판단부와;

상기 비트 스트림이 연속 정현파 신호를 포함하는 경우에, 상기 연속 정현파 신호와 연결된 이전 프레임의 디코딩된 정현파 신호에 포함된 엔트로피 성분의 값에 기초하여 상기 연속 정현파 신호를 서로 다른 방법으로 디코딩하는 연속 정현파 디코딩부를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 장치.
제15항에 있어서,

상기 연속 정현파 디코딩부는,

상기 연속 정현파 신호와 연결된 이전 프레임의 디코딩된 정현파 신호에 구 비된 엔트로피 성분을 추출하는 엔트로피 성분 추출부와;

상기 추출된 엔트로피 성분의 값을 복수개의 범위로 나누어 판단하는 판단부와;

상기 판단된 결과에 따라, 현재 프레임의 연속 정현파 신호를 상기 복수개의 범위에 대응하는 서로 다른 방법으로 디코딩하는 디코더를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 장치.
제16항에 있어서,

상기 디코더는,

허프만 테이블 또는 산술 부호화을 이용하여 상기 현재 프레임의 연속 정현파 신호를 디코딩하며,

상기 복수개의 범위에 따라 서로 다른 허프만 테이블 또는 서로 다른 산술 확률값을 이용하는 것을 특징으로 하는 오디오 신호의 디코딩 장치.
제17항에 있어서,

상기 판단부는,

상기 추출된 엔트로피 성분의 값의 범위를 0과 0이 아닌 값으로 나누어 판단하거나, -1 내지 1에 속하는 값과 그 외의 값으로 나누어 판단하는 것을 특징으로 하는 오디오 신호의 디코딩 장치.
제1항 내지 제5항 중 어느 한 항에 기재된 오디오 신호의 인코딩 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.
제10항 내지 제14항 중 어느 한 항에 기재된 오디오 신호의 디코딩 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.