KR101435411B1

KR101435411B1 - 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치

Info

Publication number: KR101435411B1
Application number: KR1020070098357A
Authority: KR
Inventors: 문한길; 이건형
Original assignee: 삼성전자주식회사
Priority date: 2007-09-28
Filing date: 2007-09-28
Publication date: 2014-08-28
Also published as: KR20090032820A; US20090089049A1

Abstract

본 발명은 심리 음향 모델의 마스킹 효과(masking effect)에 따라 적응적으로 양자화 간격을 결정하는 방법 및 이를 이용한 오디오 신호의 부호화/복호화 방법에 관한 것으로, 입력된 오디오 신호로부터 마스킹 효과의 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와 제1 비율값에 기초하여, 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계를 포함함으로써, 사람의 청각특성을 이용하여 양자화 잡음은 제거되면서 부호화에 필요한 비트 수는 감소시킬 수 있는 효과가 있다

Description

심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화 간격을 결정하는 방법과 이를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치{Method for determining a quantization step adaptively according to masking effect in psychoacoustics model and encoding/decoding audio signal using the quantization step, and apparatus thereof}

본 발명은 심리 음향 모델의 마스킹 효과(masking effect)에 따라 적응적으로 양자화 간격을 결정하는 방법 및 이를 이용한 오디오 신호의 부호화/복호화 방법에 관한 것으로, 보다 구체적으로는 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하고, 이를 이용하여 오디오 신호를 부호화/복호화하는 방법 및 장치에 관한 것이다.

일반적인 데이터 압축에서는 압축 전후의 결과가 동일해야 하나, 오디오나 영상신호와 같이 사람의 지각능력에 의존하는 데이터의 경우에는 단지 사람의 지각능력이 감지할 수 있는 수준의 데이터들만 있어도 무방하다. 이러한 특징 때문에 오디오 신호의 부호화에는 손실 압축기법이 많이 사용된다.

오디오 신호를 부호화하는 경우에, 양자화(quantization)은 손실(lossy) 압 축에서 필수적인 처리 과정이다. 여기서 양자화는 오디호 신호의 실제값을 일정한 간격으로 나누는 과정으로, 나누어진 각각의 세그먼트(segment)를 표현하기 위해 상기 각각의 세그먼트에 대표값을 부여한다. 즉, 양자화란 미리 정해진 양자화 간격(quantization step)의 몇 가지 양자화 단계(quantization level)로 오디오 신호의 파형의 크기를 표현하는 것이다. 여기서 효과적인 양자화를 위해서는 양자화 간격의 크기(quantization step size)를 정하는 문제가 중요하게 다루어진다.

만약 양자화 간격이 너무 넓으면, 양자화로 인하여 발생하는 잡음인 양자화 잡음(quantization noise)이 커져서 실제 오디오 신호의 음질의 열화가 심화되고, 반대로 양자화 간격이 너무 조밀하면, 상기 양자화 잡음은 감소하지만 양자화 처리 이후에 표현해야할 오디오 신호의 세그먼트의 수가 증가하여 부호화를 위해 필요한 비트레이트(bitrate)가 증가하게 된다.

즉 양자화 잡음으로 인하여 오디오 신호가 열화되지 않으면서도, 비트레이트 감소를 위해 최대의 양자화 간격을 찾는 것이 고음질, 고효율의 부호화를 위해 요구된다.

특히, 심리 음향 모델에서는 사람의 청각특성을 이용하여 사람이 듣지 못하는 부분을 제거하여 압축률을 높이는 방법을 사용하는데, 이와 같은 방식을 인지 코딩(perceptual coding) 또는 지각 부호화라 한다.

인지 코딩에서 사용되는 사람의 청각특성 중 대표적인 것이 마스킹 효과(masking effect)이다. 마스킹 효과란, 간단한 예를 들어 설명하면 큰 소리와 작은 소리가 동시에 나는 경우에 작은 소리가 큰 소리에 가려져 들리지 않는 현상 을 말한다. 이와 같은 마스킹 효과는 마스킹하는 소리(masker)와 마스킹되는 소리(maskee)의 음량 차이가 클수록 효과가 커지며, 마스킹하는 소리와 마스킹되는 소리의 주파수가 비슷할수록 효과가 커진다. 또한 시간적으로 동시에 나는 소리가 아니더라도 큰 소리 이후에 나오는 작은 소리는 마스킹될 수 있다.

도 1은 마스킹 효과에 따른 SNR, SMR 및 NMR을 설명하기 위한 그래프이다.

도 1을 참조하면, 마스킹하는 톤 성분(masking tone)이 있을 때의 마스킹 곡선(masking curve)이 나타나있다. 이와 같은 마스킹 곡선을 스프레드 함수(spread function)라고 하며, 곡선 아래(masking thresh)에 있는 소리는 마스킹하는 톤 성분에 의해 마스킹된다. 임계 대역(critical band) 내에서는 이와 같은 마스킹 효과가 거의 균등하게(uniformly) 발생한다.

여기서 SNR(Signal-to-Noise Ratio)는 신호 대 잡음 비율로서, 신호 전력이 잡음 전력을 초과하는 음압 레벨(sound pressure level: 데시벨(dB))이다. 오디오 신호는 단독으로 존재하는 경우는 거의 없고 보통 잡음과 공존한다. 그 배분을 나타내는 척도로서 신호와 잡음의 전력비인 SNR이 이용된다. 또한, SMR(Signal-to-Mask Ratio)는 신호 대 마스크 비율로서, 신호 전력이 마스킹 임계치(masking threshold)에 비해 상대적으로 큰 정도를 나타낸다. 마스킹 임계치는 임계 대역 내의 최소 마스킹 임계치(minimum masking thresh)에 기초하여 결정된다. NMR(Noise-to-Mask Ratio)는 잡음 대 마스크 비율로서, SMR과 SNR의 차이(margin)를 나타낸다.

예를 들어, 신호를 나타내는데 할당되는 비트 수가 도 1에 나타난 바와 같이 m개라면, SNR, SMR 및 NMR은 도 1에서 화살표로 나타난 바와 같은 관계를 갖는다.

여기서 양자화 간격(step)을 좁게 설정하면, 오디오 신호를 부호화하는데 필요한 비트 수가 증가하게 되는데, 예를 들어 도 1에서 비트 수가 m+1개로 늘어난다면, SNR은 그만큼 더 커지게 된다. 반대로, 비트 수가 m-1개로 줄어든다면, SNR은 더 작아지게 된다. 만약, 비트 수가 줄어들어 SNR이 SMR보다 작아지게 된다면 NMR이 마스킹 임계치보다 커지게 되므로 양자화 잡음이 마스킹되지 않고 잔존하여 사람의 귀에 들리게 된다.

즉, 사람의 청각특성에 따라 지각적으로 느낄 수 있는 음질은 수치적인 SNR과는 다른 양상을 보이므로 이 특성을 이용하면 수치적으로 필요한 비트 수보다 더 적은 비트를 사용하여도 주관적인 음질을 보장할 수 있게 된다.

도 2는 1dB 및 4dB의 양자화 간격을 적용하는 경우에, 시간에 따라 변화하는 SMR에 대한 SNR의 관계를 나타내는 도면이다.

오디오 신호를 시간적인 순서의 프레임별로 나타내는 경우에, 상기 SMR은 도 2에 예시된 것과 같이 시간에 따라 그 값이 변화한다. 이때, 양자화 간격으로서 고정된 4dB를 적용하는 경우의 SNR(210)과 1dB를 적용하는 경우의 SNR(220)이 나타나있다.

먼저 1dB의 양자화 간격을 적용하는 경우(220)에는, 전체 프레임에 있어서 SNR값이 항상 SMR값보다 크므로 양자화 잡음은 제거되지만, 상대적인 비트 레이트는 증가한다. 즉, SNR과 SMR의 차이값만큼의 SNR 여분(SNR margin)이 발생하여 불필요한 비트가 낭비된다.

다음으로 4dB의 양자화 간격을 적용하는 경우(210)에는, SNR값이 SMR값보다 큰 경우도 있고 작은 경우도 있게 된다. 예를 들어, 도 2에서 점선으로 원형 표시된 영역(200a, 200b)를 살펴보면, SNR값이 SMR값이 작은 경우(SNR lack)이므로 이때에는 양자화 잡음을 충분히 제거하지 못하게 된다.

종래의 기술들은 이와 같이 고정된 하나의 양자화 간격을 사용하거나, 몇 가지의 양자화 간격을 선택하여 사용함으로써, 상기 살펴본 바와 같이 SNR이 불필요하게 남거나 불충분하게 모자라게 되는 문제점이 있었다.

따라서, 본 발명은 상기와 같은 문제점을 해결하기 위하여 고안된 것으로, 본 발명이 이루고자 하는 기술적 과제는 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 적응적으로 결정하고, 이를 이용하여 오디오 신호를 부호화/복호화하는 방법과 그 장치를 제공하는 것이다.

상기 기술적 과제는 본 발명에 따라, 심리 음향 모델의 마스킹 효과(masking effect)에 따라 적응적으로 양자화 간격(quantization step)을 결정하는 방법에 있어서, 입력된 오디오 신호로부터 상기 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와; 상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계를 포함하는 것을 특징으로 하는 양자화 간격 결정 방법에 의해 해결된다.

상기 양자화 간격을 결정하는 단계는, 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계와; 상기 제2 비율값 중 최소값에 대한 상기 양자화 간격을 계산하는 단계를 더 포함하는 것이 바람직하다.

상기 제2 비율값은 상기 양자화 간격이 증가함에 따라 감소하는 것이 바람직 하고, 상기 양자화 간격은 상기 제1 비율값을 지수(exponent)로 포함하는 상용 로그(common logarithm)로서 나타나는 것이 바람직하다.

상기 제1 비율값을 계산하는 단계는, 상기 오디오 신호의 톤(tone) 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 단계와; 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 단계를 더 포함하는 것이 바람직하다.

한편, 본 발명의 다른 분야에 따르면 상기 기술적 과제는 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 방법에 있어서, 상기 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와; 상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계와; 상기 결정된 양자화 간격을 이용하여 상기 오디오 신호를 양자화하는 단계와; 상기 양자화된 오디오 신호를 가변 길이 부호화한 비트 스트림을 생성하는 단계를 포함하는 것을 특징으로 하는 부호화 방법에 의해서도 해결된다.

상기 제1 비율값을 계산하는 단계는, 부호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 단계와; 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 단계를 더 포함하는 것이 바람직하다.

상기 양자화 간격을 결정하는 단계는, 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계 와; 상기 제2 비율값 중 최소값에 대한 상기 양자화 간격을 계산하는 단계를 더 포함하는 것이 바람직하다.

상기 제2 비율값은 상기 양자화 간격이 증가함에 따라 감소하는 것이 바람직하고, 상기 양자화 간격은 상기 제1 비율값을 지수로 포함하는 상용 로그로서 나타나는 것이 바람직하다.

한편, 본 발명의 또 다른 분야에 따르면 상기 기술적 과제는 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 방법에 있어서, 비트 스트림으로 입력된 상기 오디오 신호를 가변 길이 복호화하는 단계와; 상기 가변 길이 복호화된 오디오 신호에 대하여 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와; 상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 역양자화 간격을 결정하는 단계와; 상기 결정된 역양자화 간격을 이용하여 상기 오디오 신호를 역양자화하는 단계를 포함하는 것을 특징으로 하는 복호화 방법에 의해서도 해결된다.

상기 제1 비율값을 계산하는 단계는, 복호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 단계와; 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 단계를 더 포함하는 것이 바람직하다.

상기 역양자화 간격을 결정하는 단계는, 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단 계와; 상기 제2 비율값 중 최소값에 대한 상기 역양자화 간격을 계산하는 단계를 더 포함하는 것이 바람직하다.

상기 제2 비율값은 상기 역양자화 간격이 증가함에 따라 감소하는 것이 바람직하고, 상기 역양자화 간격은 상기 제1 비율값을 지수로 포함하는 상용 로그로서 나타나는 것이 바람직하다.

한편, 본 발명의 또 다른 분야에 따르면 상기 기술적 과제는 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 장치에 있어서, 상기 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 제1 비율값 계산부와; 상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 양자화 간격 결정부와; 상기 결정된 양자화 간격을 이용하여 상기 오디오 신호를 양자화하는 양자화부와; 상기 양자화된 오디오 신호를 가변 길이 부호화한 비트 스트림을 생성하는 가변 길이 부호화부를 포함하는 것을 특징으로 하는 부호화 장치에 의해서도 해결된다.

상기 제1 비율값 계산부는 부호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 임계치 계산부 및 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 가중치 처리부를 더 포함하고, 상기 양자화 간격 결정부는 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 제2 비율값 계산부 및 상기 제2 비율값 중 최소값에 대한 상기 양자화 간격을 계산하는 양자화 간 격 계산부를 더 포함하는 것이 바람직하다.

한편, 본 발명의 또 다른 분야에 따르면 상기 기술적 과제는 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 장치에 있어서, 비트 스트림으로 입력된 상기 오디오 신호를 가변 길이 복호화하는 가변 길이 복호화부와; 상기 가변 길이 복호화된 오디오 신호에 대하여 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 제1 비율값 계산부와; 상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 역양자화 간격을 결정하는 역양자화 간격 결정부와; 상기 결정된 역양자화 간격을 이용하여 상기 오디오 신호를 역양자화하는 역양자화부를 포함하는 것을 특징으로 하는 복호화 장치에 의해서도 해결된다.

상기 제1 비율값 계산부는 복호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 임계치 계산부 및 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 가중치 처리부를 더 포함하고, 상기 역양자화 간격 결정부는 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 제2 비율값 계산부 및 상기 제2 비율값 중 최소값에 대한 상기 역양자화 간격을 계산하는 역양자화 계산부를 더 포함하는 것이 바람직하다.

나아가 본 발명은 상기 양자화 간격을 결정하는 방법과 이를 이용한 오디오 신호의 부호화/복호화 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체를 포함한다.

본 발명에 의한 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화 간격을 결정하는 방법과 이를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치에 따르면, 사람의 청각특성을 이용하여 양자화 잡음은 제거되면서 부호화에 필요한 비트 수는 감소시킬 수 있는 효과가 있다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 도면에 기재된 내용을 참조하여야 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세히 설명한다.

도 3은 본 발명의 일 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화 간격을 결정하는 방법을 설명하기 위한 플로우 차트이다.

도 3을 참조하면, 본 발명의 양자화 간격을 결정하는 방법은 입력된 오디오 신호로부터 마스킹 효과의 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계(310)와 상기 제1 비율값에 기초하여, 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계(320, 330)를 포함한다. 이를 위하여, 양자화 간격을 결정하는 단계는 상기 제1 비율값보다 크거나 같은, 잡음에 대한 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계(320)와 상기 제2 비율값 중 최소값에 대한 양자화 간격을 계산하는 단계(330)를 포함할 수 있다.

단계 310에서 마스킹 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값으로서 신호 대 마스크 비율인 SMR을 사용할 수 있는데, SMR은 오디오 신호의 톤(tone) 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하여 이들 계산된 마스킹 임계치에 대하여 가중치를 적용하여 연산함으로써 구할 수 있다.

단계 320에서 잡음에 대한 오디오 신호의 강도를 나타내는 제2 비율값으로서 SNR을 사용하여, 상기 SMR보다 크거나 같은 SNR을 계산한다.

예를 들어, 신호값이 a = 10^x/ ²⁰ 이라면, 양자화 간격(step)이 Δ라고 할 때, a + Δ/2 = 10^(x+ ^step ^/2)/20 이 된다. SNR은 데시벨(dB) 값으로서, SNR = 20log₁₀[신호값/잡음의 최대값] 으로 나타낼 수 있다. 양자화 간격 내에서의 특정값은 사사오입(四捨五入, rounding) 되므로, 잡음의 최대값은 양자화 간격의 ±1/2로 일정하다. 따라서, SNR은 다음 수학식 1과 같이 나타날 수 있다.

상기 수학식 1을 이용하여 프레임 내에서 최대 SMR보다 크거나 같은 SNR을 다음 수학식 2와 같이 계산할 수 있다(SNR ≥max_SMR).

단계 330에서 상기 조건을 만족하는 SNR 중 최소값을 갖는 SNR에 대한 양자화 간격을 구하기 위해, 상기 수학식 2를 양자화 간격(step)에 대하여 정리하면 다음 수학식 3과 같이 나타낼 수 있다.

양자화 간격(step)이 클수록 SNR은 감소하므로, 따라서 상기 수학식 3을 이용하여 최대 양자화 간격인

을 계산할 수 있다.

도 4는 오디오 신호의 톤(tone) 성분 및 잡음(noise) 성분에 대한 마스킹 임계치를 나타내는 도면이다.

본 발명의 일 실시예에 따른 양자화 결정 방법에서, 마스킹 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값으로서 신호 대 마스크 비율인 SMR을 사용할 수 있는데, 오디오 신호의 SMR은 도 4의 (a)그림과 같은 오디오 신호의 잡음(noise) 성분에 대한 마스킹 임계치와 (b)그림과 같은 톤(tone) 성분에 대한 마스킹 임계치를 계산하고 이들 계산된 마스킹 임계치에 대하여 가중치를 적용하여 연산함으로써 구할 수 있다. 즉, 잡음 성분이 톤 성분을 마스킹하는 비율(NMT: Noise Masking Tone)과 톤 성분이 잡음 성분을 마스킹하는 비율(TMN: Tone Masking Noise)을 이용하는데, 일반적으로 잡음 성분의 SMR은 (a)그림과 같이 약 4dB로 나타나고, 톤 성분의 SMR은 (b)그림과 같이 약 24dB로 나타난다.

도 5는 본 발명의 일 실시예에 따른, 적응적 양자화 간격이 시간에 따라 변화하는 모습을 나타내는 도면이다.

도 5를 참조하면, 3개의 그래프가 나타나 있는데, 각 경우는 1dB 및 4dB의 양자화 간격을 이용하는 경우(510, 520)와 본 발명에 따른 적응적 양자화 간격을 이용하는 경우이다.

즉, 1dB 및 4dB의 고정된 양자화 간격을 이용하는 경우(510. 520)에는 전체 프레임에 대하여 항상 일정한 양자화 간격을 유지하게 되지만, 도 5에서 점선으로 원형 표시된 영역(500a, 500b)과 같이 본 발명에 따른 양자화 간격은 프레임마다 3dB가 될 수도 있고 7dB가 될 수도 있다. 즉, 본 발명의 적응적 양자화 간격을 이용하는 경우에는 앞서 살펴본 계산 과정을 통해 양자화 간격을 적응적으로 결정함으로써, 시간에 따라 가변적인 SMR에 대하여 양자화 간격도 변화하게 된다.

도 6은 본 발명의 일 실시예에 따른, 적응적 양자화 간격을 적용하는 경우 에, 시간에 따라 변화하는 SMR에 대한 SNR의 관계를 나타내는 도면이다.

도 6을 참조하면, 오디오 신호를 시간적인 순서의 프레임별로 나타내는 경우에, SMR은 상기 도 2에서 이미 살펴본 바와 같이 시간에 따라 그 값이 변화한다. 이때, 양자화 간격으로서 고정된 4dB를 적용하는 경우의 SNR(610)과 1dB를 적용하는 경우의 SNR(620) 및 본 발명의 적응적 양자화 간격을 적용한 경우("굵은 실선"으로 표시)가 나타나있다.

시간에 따른 프레임별로 변화하는 SMR 곡선("-*-"으로 표시)에 대해, 먼저 1dB의 양자화 간격을 적용하는 경우(620)에는 전체 프레임에 있어서 SNR값이 항상 SMR값보다 크므로 양자화 잡음은 제거되지만, 상대적인 비트 레이트가 증가하는 문제점이 있다. 즉, SNR과 SMR의 차이값만큼의 SNR 여분(SNR margin)이 발생하여 불필요한 비트가 낭비된다. 한편, 4dB의 양자화 간격을 적용하는 경우(610)에는 SNR값이 SMR값보다 큰 경우도 있고 작은 경우도 있게 된다. 예를 들어 도 6에서 점선으로 원형 표시된 영역(600a, 600b)를 살펴보면, 4dB의 양자화 간격을 이용하는 경우(610)에 SNR값이 SMR값이 작게 되므로(SNR lack), 양자화 잡음을 충분히 제거하지 못하게 된다.

그러나, 본 발명의 적응적 양자화 간격을 이용하는 경우에는 상기의 점선으로 원형 표시된 영역(600a, 600b)에서도 SNR값이 SMR값보다 크므로 양자화 잡음을 제거할 수 있다. 아울러, 전체 프레임에 걸쳐서 살펴볼 때 1dB의 양자화 간격을 적용하는 경우(620)보다 평균적인 SNR이 훨씬 작게 되므로, 그만큼의 비트 레이트를 감소시킬 수 있다.

도 7은 본 발명의 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 방법을 설명하기 위한 플로우 차트이다.

도 7을 참조하면, 본 발명의 오디오 신호 부호화 방법은 마스킹 효과의 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계(710 내지 720)와 상기 제1 비율값에 기초하여, 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계(740, 750)와 상기 결정된 양자화 간격을 이용하여 오디오 신호를 양자화하는 단계(760)와 양자화된 오디오 신호를 가변 길이 부호화한 비트 스트림을 생성하는 단계(770)를 포함한다.

즉, 양자화를 수행함에 있어서 필요한 양자화 간격을 고정된 값을 사용하지 않고 상기와 같은 계산 과정을 통해 얻어진 양자화 간격을 사용하여 부호화를 수행한다.

양자화 간격을 결정하기 위해서, 상기 양자화 간격을 결정하는 단계는 제1 비율값 보다 크거나 같은, 잡음에 대한 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계(740)와 제2 비율값 중 최소값에 대한 양자화 간격을 계산하는 단계(750)를 더 포함할 수 있다.

아울러 제1 비율값을 계산하기 위하여, 부호화되는 오디오 신호의 이전 프레임의 톤 성분의 마스킹 임계치 및 잡음 성분의 마스킹 임계치를 계산하고(710), 계산된 마스킹 임계치에 대하여 가중치를 적용하여(720), 마스킹 효과의 임계치에 대 한 오디오 신호의 강도를 나타내는 제1 비율값을 계산할 수 있다(730).

즉, 부호화 과정 중에 양자화 간격을 결정하기 위해 SMR과 같은 제1 비율값을 계산함에 있어서, 현재(n) 프레임이 아닌 이전(n-1) 프레임에서의 TMN(n-1) 및 NMT(n-1)을 이용하여 SMR을 계산한다. 왜냐하면 복호화측에서 역양자화 간격(de-quantization step)을 결정하기 위해 SMR을 계산할 때는 이미 복호화된 이전(n-1) 프레임을 사용할 수 밖에 없기 때문에 부호화 과정에서도 이를 이용한다.

만약 상위 프레임 단위 내에서 현재 프레임이 첫 번째 프레임이라면, 이전 프레임이 없으므로 약속된 고정값(예를 들어, 3dB)을 양자화 간격으로 사용할 수 있다.

도 8은 본 발명의 또 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 방법을 설명하기 위한 플로우 차트이다.

도 8을 참조하면, 본 발명의 오디오 신호 복호화 방법은 비트 스트림으로 입력된 오디오 신호를 가변 길이 복호화하는 단계(810)와 가변 길이 복호화된 오디오 신호에 대하여, 마스킹 효과의 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계(820 내지 840)와 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 역양자화 간격을 결정하는 단계(850, 860)와 결정된 역양자화 간격을 이용하여 상기 오디오 신호를 역양자화하는 단계(870)를 포함한다.

역양자화 간격을 결정하기 위해서, 상기 역양자화 간격을 결정하는 단계는 제1 비율값 보다 크거나 같은, 잡음에 대한 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계(850)와 제2 비율값 중 최소값에 대한 역양자화 간격을 계산하는 단계(860)를 더 포함할 수 있다.

아울러, 복호화되는 오디오 신호의 이전(n-1) 프레임의 톤 성분의 마스킹 임계치 및 잡음 성분의 마스킹 임계치를 계산하고(820), 계산된 마스킹 임계치에 대하여 가중치를 적용하여(830), 마스킹 효과의 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값을 계산할 수 있다(840).

만약 복호화되는 현재 프레임이 상위 프레임 단위 내의 첫 번째 프레임이라면, 이전 프레임이 없으므로 약속된 고정값(예를 들어, 3dB)을 역양자화 간격으로 사용하여 역양자화를 수행할 수 있다.

도 9는 본 발명의 또 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 장치를 나타내는 도면이다.

도 9를 참조하면, 본 발명의 오디오 신호 부호화 장치(900)는 마스킹 효과의 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 제1 비율값 계산부(920)와 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 양자화 간격 결정부(930)와 결정된 양자화 간격을 이용하여 오디오 신호를 양자화하는 양자화부(940)와 양자화된 오디오 신호를 가변 길이 부호화한 비트 스트림을 생성하는 가변 길이 부호화부(950)를 포함한다.

제1 비율값 계산부(920)는 부호화되는 상기 오디오 신호의 이전(n-1) 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 임계치 계산부(921) 및 계산된 마스킹 임계치에 대하여 가중치를 적용하는 가중치 처리부(922)를 더 포함할 수 있다.

한편, 양자화 간격 결정부(930)는 상기 제1 비율값 보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 제2 비율값 계산부(931) 및 상기 제2 비율값 중 최소값에 대한 양자화 간격을 계산하는 양자화 간격 계산부(932)를 더 포함할 수 있으며, 양자화 간격 결정부(930)는 결정된 양자화 간격을 양자화부(940)로 전달한다.

제1 비율값 계산부(920)는 SMR과 같은 제1 비율값을 계산함에 있어서, 현재(n) 프레임이 아닌 이전(n-1) 프레임에서의 TMN(n-1) 및 NMT(n-1)을 이용하여 SMR을 계산한다. 이는 이후 복호화측에서 SMR을 계산할 때는 이미 복호화된 이전 프레임을 사용할 수 밖에 없기 때문이다.

만약 부호화하려는 현재 프레임이 상위 프레임 단위 내의 첫 번째 프레임이라면, 이전 프레임이 없으므로 양자화부(940)는 약속된 고정값(예를 들어, 3dB)을 양자화 간격으로 사용하여 양자화를 수행할 수 있다.

도 10은 본 발명의 또 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 장치를 나타내는 도면이다.

도 10을 참조하면, 본 발명의 오디오 신호 복호화 장치(1000)는 비트 스트림 으로 입력된 오디오 신호를 가변 길이 복호화하는 가변 길이 복호화부(1030)와 가변 길이 복호화된 오디오 신호에 대하여 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 제1 비율값 계산부(1010)와 제1 비율값에 기초하여, 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 역양자화 간격을 결정하는 역양자화 간격 결정부(1020)와 결정된 역양자화 간격을 이용하여 상기 오디오 신호를 역양자화하는 역양자화부(1040)를 포함한다.

제1 비율값 계산부(1010)는 복호화되는 오디오 신호의 이전 프레임(n-1 frame)의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 임계치 계산부(1011) 및 계산된 마스킹 임계치에 대하여 가중치를 적용하는 가중치 처리부(1012)를 더 포함할 수 있다. 만약 복호화하려는 현재 프레임이 상위 프레임 단위 내의 첫 번째 프레임이라면, 이전 프레임이 없으므로 역양자화부(1040)는 약속된 고정값(예를 들어, 3dB)을 역양자화 간격으로 사용하여 역양자화를 수행할 수 있다.

한편, 역양자화 간격 결정부(1020)는 제1 비율값 보다 크거나 같은, 잡음에 대한 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 제2 비율값 계산부(1021) 및 상기 제2 비율값 중 최소값에 대한 역양자화 간격을 계산하는 역양자화 계산부(1022)를 더 포함할 수 있으며, 역양자화 간격 결정부(1020)는 결정된 역양자화 간격을 역양자화부(1040)로 전달한다.

한편, 상술한 본 발명의 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화 간격을 결정하는 방법과 이를 이용한 오디오 신호의 부호화/복호화 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

또한, 상술한바와 같이 본 발명에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

도 6은 본 발명의 일 실시예에 따른, 적응적 양자화 간격을 적용하는 경우에, 시간에 따라 변화하는 SMR에 대한 SNR의 관계를 나타내는 도면이다.

도 9는 본 발명의 또 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 장치 를 나타내는 도면이다.

상기 몇 개의 도면에 있어서 대응하는 도면 번호는 대응하는 부분을 가리킨다. 도면이 본 발명의 실시예들을 나타내고 있지만, 도면이 축척에 따라 도시된 것은 아니며 본 발명을 보다 잘 나타내고 설명하기 위해 어떤 특징부는 과장되어 있을 수 있다.

Claims

심리 음향 모델의 마스킹 효과(masking effect)에 따라 적응적으로 양자화 간격(quantization step)을 결정하는 방법에 있어서,

입력된 오디오 신호로부터 상기 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와;

상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계를 포함하고,

상기 양자화 간격을 결정하는 단계는,

상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계와;

상기 제2 비율값 중 최소값에 대한 상기 양자화 간격을 계산하는 단계를 포함하는 것을 특징으로 하는 양자화 간격 결정 방법.
삭제
제1항에 있어서,

상기 제2 비율값은 상기 양자화 간격이 증가함에 따라 감소하는 것을 특징으로 하는 양자화 간격 결정 방법.
제3항에 있어서,

상기 양자화 간격은 상기 제1 비율값을 지수(exponent)로 포함하는 상용 로그(common logarithm)로서 나타나는 것을 특징으로 하는 양자화 간격 결정 방법.
제4항에 있어서,

상기 제1 비율값을 계산하는 단계는,

상기 오디오 신호의 톤(tone) 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 단계와;

상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 단계를 더 포함하는 것을 특징으로 하는 양자화 간격 결정 방법.
심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 방법에 있어서,

상기 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와;

상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계와;

상기 결정된 양자화 간격을 이용하여 상기 오디오 신호를 양자화하는 단계와;

상기 양자화된 오디오 신호를 가변 길이 부호화한 비트 스트림을 생성하는 단계를 포함하고,

상기 양자화 간격을 결정하는 단계는,

상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계와;

상기 제2 비율값 중 최소값에 대한 상기 양자화 간격을 계산하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.
제6항에 있어서,

상기 제1 비율값을 계산하는 단계는,

부호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 단계와;

상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 단계를 더 포함하는 것을 특징으로 하는 부호화 방법.
삭제
제6항에 있어서,

상기 제2 비율값은 상기 양자화 간격이 증가함에 따라 감소하는 것을 특징으로 하는 부호화 방법.
제9항에 있어서,

상기 양자화 간격은 상기 제1 비율값을 지수로 포함하는 상용 로그로서 나타나는 것을 특징으로 하는 부호화 방법.
심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 방법에 있어서,

비트 스트림으로 입력된 상기 오디오 신호를 가변 길이 복호화하는 단계와;

상기 가변 길이 복호화된 오디오 신호에 대하여 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와;

상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 역양자화 간격을 결정하는 단계와;

상기 결정된 역양자화 간격을 이용하여 상기 오디오 신호를 역양자화하는 단계를 포함하고,

상기 역양자화 간격을 결정하는 단계는,

상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계와;

상기 제2 비율값 중 최소값에 대한 상기 역양자화 간격을 계산하는 단계를 포함하는 것을 특징으로 하는 복호화 방법.
제11항에 있어서,

상기 제1 비율값을 계산하는 단계는,

복호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 단계와;

상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 단계를 더 포함하는 것을 특징으로 하는 복호화 방법.
삭제
제11항에 있어서,

상기 제2 비율값은 상기 역양자화 간격이 증가함에 따라 감소하는 것을 특징으로 하는 복호화 방법.
제14항에 있어서,

상기 역양자화 간격은 상기 제1 비율값을 지수로 포함하는 상용 로그로서 나타나는 것을 특징으로 하는 복호화 방법.
심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 장치에 있어서,

상기 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 제1 비율값 계산부와;

상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 양자화 간격 결정부와;

상기 결정된 양자화 간격을 이용하여 상기 오디오 신호를 양자화하는 양자화부와;

상기 양자화된 오디오 신호를 가변 길이 부호화한 비트 스트림을 생성하는 가변 길이 부호화부를 포함하고,

상기 양자화 간격 결정부는, 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 제2 비율값 계산부 및 상기 제2 비율값 중 최소값에 대한 상기 양자화 간격을 계산하는 양자화 간격 계산부를 포함하는 것을 특징으로 하는 부호화 장치.
제16항에 있어서,

상기 제1 비율값 계산부는, 부호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 임계치 계산부 및 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 가중치 처리부를 더 포함하는 것을 특징으로 하는 부호화 장치.
심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 장치에 있어서,

비트 스트림으로 입력된 상기 오디오 신호를 가변 길이 복호화하는 가변 길이 복호화부와;

상기 가변 길이 복호화된 오디오 신호에 대하여 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 제1 비율값 계산부와;

상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 역양자화 간격을 결정하는 역양자화 간격 결정부와;

상기 결정된 역양자화 간격을 이용하여 상기 오디오 신호를 역양자화하는 역양자화부를 포함하고,

상기 역양자화 간격 결정부는, 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 제2 비율값 계산부 및 상기 제2 비율값 중 최소값에 대한 상기 역양자화 간격을 계산하는 역양자화 계산부를 포함하는 것을 특징으로 하는 복호화 장치.
제18항에 있어서,

상기 제1 비율값 계산부는, 복호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 임계치 계산부 및 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 가중치 처리부를 더 포함하는 것을 특징으로 하는 복호화 장치.
제1항, 제3항 내지 제7항, 제9항 내지 제12항, 제14항 및 제15항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.