KR100883656B1

KR100883656B1 - 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치

Info

Publication number: KR100883656B1
Application number: KR1020060136823A
Authority: KR
Inventors: 손창용; 오은미; 주기현; 김중회
Original assignee: 삼성전자주식회사
Priority date: 2006-12-28
Filing date: 2006-12-28
Publication date: 2009-02-18
Also published as: EP2102860A1; KR20080061758A; WO2008082133A1; US20080162121A1; EP2102860A4

Abstract

본 발명은 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치를 개시한다. 본 발명에 따른 오디오 신호의 분류 방법은 오디오 신호의 장구간 특성에 따라 분류하고자 하는 프레임에 대한 분류 기준값을 적응적으로 조절하여 오디오 신호를 분류함으로써, 오디오 신호 분류에 대한 적중률을 높이고, 잡음 신호에 대한 내성을 향상시키며, 프레임 간격으로 자주 스위칭되는 것(Oscillation)을 억제함으로써 오디오 신호를 보다 자연스럽게 복원할 수 있다.

Description

오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치{Method and apparatus for discriminating audio signal, and method and apparatus for encoding/decoding audio signal using it}

도 1은 종래의 오디오 신호의 부호화 장치의 블록도이다.

도 2는 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치를 나타내는 블록도이다.

도 3은 본 발명의 일 실시예에 따른 오디오 신호 분류 장치를 나타내는 블록도이다.

도 4는 도3에 도시된 단구간 특성 생성부와 장구간 특성 생성부를 나타내는 세부 블록도이다.

도 5는 도 4에 도시된 LP-LTP 이득 생성부를 나타내는 세부 블록도이다.

도 6a는 음악과 음성 신호에 따른 LP-LTP 이득의 분산 특성값(SNR_VAR)을 나타내는 참고도이다.

도 6b는 도 6a의 분산 특성값(SNR_VAR)에 따른 빈도율의 분포 특성을 나타내는 참고도이다.

도 6c는 도 6a의 분산 특성값(SNR_VAR)에 따른 누적 빈도율의 분포 특성을 나타내는 참고도이다.

도 6d는 도 6a의 LP-LTP 이득에 대한 장구간 특성(SNR_SP)을 나타내는 참고도이다.

도 7a는 음악과 음성 신호에 따른 스펙트럼 틸트의 분산 특성값(TILT_VAR)을 나타내는 참고도이다.

도 7b는 도 7a의 스펙트럼 틸트에 대한 장구간 특성(TILT_SP)을 나타내는 참고도이다.

도 8a는 음악과 음성 신호에 따른 영점 교차율의 분산 특성값(ZC_VAR)을 나타내는 참고도이다.

도 8b는 도 8a의 영점 교차율에 대한 장구간 특성(ZC_SP)을 나타내는 참고도이다.

도 9a는 음악과 음성 신호에 따른 장구간 특성(SPP)을 나타내는 참고도이다.

도 10은 본 발명의 일 실시예에 따른 오디오 신호 분류 방법을 나타내는 흐름도이다.

도 11은 본 발명의 일 실시예에 따른 오디오 신호의 복호화 장치를 나타내는 블록도이다.

본 발명은 오디오 신호 분류 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치에 관한 것으로, 특히 음악, 음성 신호가 혼재된 오디오 신호를 음악 신호, 음성 신호로 분류하는 시스템, 음성과 음악을 구별하여 오디오 신호를 부호화하는 부호화 장치 및 유니 코덱 등에 사용될 수 있는 오디오 신호의 분류 방법 및 장치에 관한 것이다.

오디오 신호는 신호의 특성에 따라 음성 신호, 음악 신호 또는 음성과 음악이 혼재된 신호로 구별되며, 신호의 종류에 따라 부호화 방식 또는 압축 방식이 다르게 적용된다. 오디오 신호에 대한 압축 방식은 크게 오디오 코덱과 음성 코덱으로 분류된다. 오디오 코덱은 음악 신호를 압축하기 위한 것으로, 예를 들어 aacPlus가 있다. 오디오 코덱은 심리 음향 모델을 이용하여 주파수 영역에서 신호를 압축한다. 음악 신호가 아닌 음성 신호에 대하여 오디오 코덱을 통해 압축할 경우, 음성 코덱을 통해 오디오 신호를 압축하는 것 보다 음질 저하가 더 크고, 특히 어텍(attack) 신호가 포함될 경우 음질이 더욱 크게 저하되는 문제가 있다. 한편, 음성 코덱은 음성 신호를 압축하기 위한 것으로, 예를 들어 AMR-WB가 있다. 음성 코덱은 음성 발성 모델을 이용하여 시간 영역에서 오디오 신호를 압축한다. 음성 신호가 아니라 오디오 신호에 대하여 음성 코덱을 통해 압축할 경우, 오디오 코덱 방식의 압축 데이터 보다 음질이 크게 저하되는 단점이 있기 때문에, 오디오 신호를 정확하게 분류하는 것은 중요하다.

미국 특허 제6134518호는 CELP부호화기와 트랜스폼 부호화기를 이용한 디지털 오디오 신호의 부호화 방법을 개시하고 있다. 도 1을 참조하면, 분류기(20)는 입력 오디오 신호(10)의 자동 상관을 계산하고, 이에 따라 CELP부호화기(30) 또는 트랜스폼 부호화기(40) 중 적합한 부호화기를 선택하며, 스위치(50)에 의한 스위칭 동작을 통해 선택된 부호화기를 통해 입력 오디오 신호를 부호화시킨다. 상기 미국 특허는 시간 영역에서의 자동 상관을 이용하여 현재의 오디오 신호가 음성 신호일 확률 또는 음악 신호일 확률을 구하는 분류기(20)를 개시하고 있다.

그러나, 상기 방식에 의해 오디오 신호를 분류할 경우 잡음 신호에 대한 내성이 취약하기 때문에, 잡음 환경 하에서 신호 분류에 대한 적중률이 낮은 문제가 있다. 또한, 오디오 신호의 모드가 프레임 간격으로 자주 스위칭 됨에 따라 복원되는 오디오 신호가 부드럽지 않은 문제가 있었다.

본 발명이 이루고자 하는 기술적 과제는 오디오 신호의 장구간 특성에 따라 분류하고자 하는 프레임에 대한 분류 기준값을 적응적으로 조절하여 현재 프레임을 분류함으로써, 신호 분류에 대한 적중률(hit rate)을 높이고, 모드가 프레임 간격으로 자주 스위칭되는 것(Oscillation)을 억제하는 기능을 가지며, 잡음 신호에 대한 내성을 향상시키고, 복원되는 오디오 신호의 부드러움(smoothness)을 향상시킬 수 있는 오디오 신호 분류 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치를 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명에 따른 오디오 신호의 분류 방법은, 상기 오디오 신호를 프레임 단위로 분석하여 상기 분석된 프레임에 따른 단구간 특성과 장구간 특성을 생성하는 단계; 상기 생성된 장구간 특성을 이용하여 분류하고자 하는 프레임에 대한 분류 기준값을 적응적으로 조절하는 단계; 및 상기 조절된 분 류 기준값을 이용하여 상기 분류하고자 하는 프레임을 분류하는 단계를 포함하는 것을 특징으로 한다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 부호화 방법은, 상기 오디오 신호 분류 방법에 따라 오디오 신호를 프레임 별로 분류하는 단계; 상기 분류 결과에 따라 오디오 신호를 부호화하는 단계; 및 상기 부호화된 신호에 대한 비트스트림 처리를 통해 비트스트림을 생성하는 단계를 포함한다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호 분류 장치는 오디오 신호를 프레임 단위로 분석하여 단구간 특성을 생성하는 단구간 특성 생성부; 상기 생성된 단구간 특성을 이용하여 장구간 특성을 생성하는 장구간 특성 생성부; 상기 생성된 장구간 특성을 이용하여 분류하고자 하는 프레임의 분류 기준값을 적응적으로 조절하는 분류 기준값 조절부; 및 상기 적응적으로 조절된 분류 기준값을 이용하여 상기 분류하고자 하는 프레임을 분류하는 분류부를 포함한다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 복호화 방법은 오디오 신호의 장구간 특성에 따라 적응적으로 결정되는 오디오 신호의 프레임별 분류 정보를 포함하는 비트스트림을 수신하는 단계; 상기 분류 정보에 따라 오디오 신호의 복호화 모드를 결정하는 단계; 및 상기 결정된 복호화 모드에 따라 상기 수신된 비트스트림을 복호화하는 단계를 포함한다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 부호화 장치는 오디오 신호를 프레임 단위로 분석하여 단구간 특성을 생성하는 단구간 특성 생성부; 상기 단구간 특성을 이용하여 장구간 특성을 생성하는 장구간 특성 생성부; 상기 장구간 특성을 이용하여 분류하고자 하는 프레임의 분류 기준값을 적응적으로 조절하는 분류 기준값 조절부; 상기 적응적으로 조절된 분류 기준값을 이용하여 상기 분류하고자 하는 프레임을 분류하는 분류부; 상기 분류부에 의하여 분류된 오디오 신호를 프레임 별로 부호화하는 부호화부; 및 상기 부호화된 신호에 대한 비트스트림 처리를 통해 비트스트림을 생성하는 비트스트림 생성부를 포함한다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 복호화 장치는 오디오 신호의 장구간 특성에 따라 적응적으로 결정되는 오디오 신호의 프레임별 분류 정보를 포함하는 비트스트림을 수신하는 수신부; 상기 프레임별 분류 정보에 따라 수신된 비트스트림의 복호화 모드를 결정하는 복호화 모드 결정부; 및 상기 결정된 복호화 모드에 따라 상기 수신된 비트스트림을 복호화하는 복호화부를 포함한다.

또한, 본 발명은 본 발명의 오디오 신호 분류 방법을 컴퓨터 또는 네트워크 상에서 수행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체를 제공한다.

이하, 본 발명의 도면과 실시예를 참조하여 본 발명의 오디오 신호 분류 장치와 방법, 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치에 대하여 상세하게 설명한다.

도2는 본 발명의 일 실시예에 따른 오디오 신호 분류 장치를 나타내는 블록 도이다. 본 실시예에 따른 오디오 신호의 부호화 장치는 오디오 신호 분류 장치(100), 음성 코딩부(200), 음악 코딩부(300) 및 비트스트림 먹싱부(400)를 포함한다.

오디오 신호 분류 장치(100)는 입력 오디오 신호를 시간을 기준으로 하여 프레임(frame) 단위로 구분하고, 각각의 프레임이 음성 신호인지 아니면 음악 신호인지를 결정한다. 오디오 신호 분류 장치(100)는 현재의 프레임이 어떤 신호 인지에 대한 분류 정보를 부가 정보로서 비트스트림 먹싱부(400)에 전송하는 것으로서, 세부 구조는 도3에 도시되어 있고, 이에 대하여는 후술 한다. 또한, 오디오 신호 분류 장치(100)는 시간 영역상에서의 오디오 신호를 주파수 영역상에서의 신호로 변환하는 시간/주파수 변환부(미도시)를 더 포함할 수 있다.

음성 코딩부(200)는 오디오 신호 분류 장치(100)의 분류 결과에 따라 음성 신호로 분류된 프레임에 따른 오디오 신호를 부호화하고, 부호화된 신호를 비트스트림 먹싱부(400)로 전송한다.

음악 코딩부(300)는 오디오 신호 분류 장치(100)의 분류 결과에 따라 음악 신호로 분류된 프레임에 따른 오디오 신호를 부호화하고, 부호화된 신호를 비트스트림 먹싱부(400)로 전송한다.

본 실시예에서는 음성 코딩부(200)와 음악 코딩부(300)에 의한 부호화의 예가 도시되어 있지만, 본 실시예와 달리 시간 영역 코딩부와 주파수 영역 코딩부의 구성을 통해 오디오 신호를 부호화하는 것도 가능하다. 이 경우 음성 신호는 시간 영역 기반의 코딩 방식을 이용하여 부호화되는 것이 효율적이고, 음악 신호의 경우 주파수 영역 기반의 코딩 방식을 이용하여 부호화되는 것이 효율적이다. 시간 영역 기반의 코딩 방식으로는 CELP(Code Excited Linear Prediction)가 있고, 주파수 영역 기반의 코딩 방식으로는 TCX(Transform Coded Excitation), AAC(Advanced Audio Codec)등이 있다.

비트스트림 먹싱부(bit-stream muxing unit, 400)는 음성 코딩부(200)와 음악 코딩부(300)를 통해 부호화된 신호와, 오디오 신호 분류 장치(100)로부터의 분류 정보를 수신하고, 상기 수신된 신호 들을 이용하여 비트스트림을 생성한다. 특히, 복호화 단계에서 비트스트림 생성시 분류 정보를 이용함으로써, 오디오 신호의 효율적인 복원 방법을 결정하는데 사용할 수 있다.

도3은 본 발명의 일 실시예에 따른 오디오 신호 분류 장치를 나타내는 블록도이다. 도3에 따른 오디오 신호 분류 장치(100)는 오디오 신호 분할부(110), 단구간 특성 생성부(120), 장구간 특성 생성부(130), 버퍼(160), 장구간 특성 비교부(170), 분류 기준값 조절부(180), 분류부(190)를 포함한다.

오디오 신호 분할부(110)는 입력 오디오 신호를 시간 축상에서 프레임 단위로 분할하고, 프레임 단위로 분할된 오디오 신호를 단구간 특성 생성부(120)에 전송한다.

단구간 특성 생성부(120)는 프레임 단위로 분할된 오디오 신호에 대한 단구간 분석을 수행하여 단구간 특성을 생성한다. 본 실시예에서 단구간 특성은 각각의 프레임이 갖는 고유의 특성으로서, 단구간 특성을 이용하여 현재의 프레임이 음악 모드인지 또는 음성 모드인지 여부를 결정할 수 있고, 또한 현재 프레임에 효율적 인 부호화 도메인이 시간 영역인지 아니면 주파수 영역인지에 대하여 결정할 수 있다.

단구간 특성의 예로는 LP-LTP(단기/장기 예측) 이득, 스펙트럼 틸트(spectrum tilt), 영점 교차율(zero crossing rate), 스펙트럼 자기 상관도(spectrum auto-correlation) 등이 있다.

단구간 특성 생성부(120)는 1개 또는 복수개의 단구간 특성을 개별적으로 생성하여 출력하거나, 또는 복수개의 단구간 특성에 가중치를 부여하여 합산한 값을 대표 단구간 특성으로 출력할 수 있다. 단구간 특성 생성부(120)의 세부 구조는 도4에 도시되어 있으며 이에 대하여는 후술 한다.

장구간 특성 생성부(130)는 단구간 특성 생성부(120)에서 생성된 단구간 특성과 단구간 특성 버퍼(161)와 장구간 특성 버퍼(162)에 저장된 특성을 이용하여 장구간 특성을 생성한다. 장구간 특성 생성부(130)는 제1 장구간 특성 생성부(140)와 제2 장구간 특성 생성부(150)로 구분된다.

제1 장구간 특성 생성부(140)는 현재 프레임에 선행하는 5개의 프레임에 따른 단구간 특성에 대한 정보를 단구간 특성 버퍼(161)로부터 획득하여 평균값을 계산하고, 현재의 프레임에 따른 단구간 특성과 평균값의 차분(difference)을 계산함으로써 분산 특성값(variation feature value)을 생성한다.

단구간 특성이 단기/장기 예측 이득(LP-LTP prediction gain)일 경우, 상기 평균값은 현재의 프레임에 선행하는 프레임 들의 단기/장기 예측 이득의 평균값이고, 상기 분산 특성 값은 현재 프레임에 따른 단기/장기 예측 이득값이 일정 구간 에서의 평균값으로부터 얼마나 떨어져 있는지에 대한 속성을 설명하는 정보이다. 오디오 신호가 음성 신호 또는 음성 모드인 경우 분산 특성 값이 다양하게 분포되는 특성을 가지며, 오디오 신호가 음악 신호 또는 음악 모드인 경우 분산 특성 값이 작은 영역에 집중적으로 분포하는 특성을 갖는다(도6b 참고).

제2 장구간 특성 생성부(150)는 제1 장구간 특성 생성부(140)에서 생성된 분산 특성값의 프레임별 변화 추이를 고려하여, 이동 평균의 성질을 갖는 장구간 특성을 일정한 제약하에서 생성한다. 여기에서 일정한 제약은 현재 프레임에 선행하는 프레임이 갖는 분산 특성값의 가중치를 부여하는 조건과 방식을 의미한다. 제2 장구간 특성 생성부(150)는 현재 프레임이 갖는 분산 특성값이 미리 설정된 임계값 보다 클 경우와 작을 경우를 구별한 후, 선행하는 프레임이 갖는 분산 특성값과 현재 프레임의 분산 특성값에 각각 다른 가중치를 부여하는 방식을 통해 장구간 특성을 생성한다. 여기서 미리 설정된 임계값은 음성/음악 신호를 구별하기 위해 미리 설정된 값을 의미한다. 장구간 특성을 생성하는 보다 구체적인 방법에 대하여는 후술한다.

버퍼(160)는 단구간 특성 버퍼(161)과 장구간 특성 버퍼(162)를 포함한다. 단구간 특성 버퍼(161)는 단구간 특성 생성부(120)에서 생성된 특성값을 적어도 일정 시간 동안 저장하고, 장구간 특성 버퍼(162)는 제1 장구간 특성 생성부와 제2 장구간 특성 생성부로부터 생성된 특성값을 적어도 일정 시간 동안 저장한다.

장구간 특성 비교부(170)는 제2 장구간 특성 생성부(150)에서 생성된 장구간 특성을 소정의 임계값과 비교한다. 여기에서, 소정의 임계값은 현재의 신호가 음성 신호일 가능성이 매우 높을 경우의 장구간 특성값을 의미하며, 사전에 행하여진 통계적인 분석을 통하여 미리 결정된 값이다. 도 9b와 같이 장구간 특성의 임계값(SpThr)을 설정할 경우, 장구간 특성값이 임계값 보다 클 경우, 현재 프레임이 음악 신호인 가능성은 1% 이하를 의미한다. 즉, 장구간 특성값이 임계값 보다 클 경우에는 현재 프레임을 음성 신호로 분류할 수 있다.

만약, 장구간 특성 값이 임계값 보다 작을 경우에는 분류 기준값을 조절하는 프로세스와 단구간 특성에 대한 비교 판단을 통해 현재 프레임이 무엇인지를 결정하게 된다. 물론, 임계값은 분류의 적중률을 고려하여 조절될 수 있으며, 도9b의 경우 임계값을 낮게 설정하면 적중률은 낮아지게 된다.

분류 기준값 조절부(180)는 제2 장구간 특성 생성부(150)에서 생성된 장구간 특성이 소정의 임계값 보다 작을 경우, 즉 장구간 특성 만으로는 현재 프레임을 분류하기 결정하기 어려운 경우 현재 프레임을 결정하는 기준이 되는 분류 기준값을 적응적으로 조절한다.

분류 기준값 조절부(180)는 분류부(190)로부터 이전 프레임에 대한 분류 정보를 수신하고, 이전 프레임이 음성 신호로 분류되었는지 또는 음악 신호로 분류되었는지를 고려하여 분류 기준값을 적응적으로 조절한다. 분류 기준값은 분류하고자 하는 프레임 즉 현재 프레임의 단구간 특성이 음성 신호 또는 음악 신호 중 어떤 성질을 갖는 것인지를 판단하기 위한 것으로서, 현재 프레임에 선행하는 프레임이 어떤 신호로 분류되었는지에 따라 분류 기준값을 조절하는 것은 본 실시예의 주된 특징을 이룬다. 분류 기준값 조절에 대한 상세 내용은 후술한다.

분류부(190)는 현재 프레임의 단구간 특성(short-term feature, STF_THR)과 분류 기준값 조절부(180)를 통해 조절된 분류 기준값(STF_THR)을 비교하여 현재 프레임이 음성 신호인지 아니면 음악 신호인지 분류한다.

도4는 도3에 도시된 단구간 특성 생성부(120)와 장구간 특성 생성부(130)의 세부 블록도이다. 단구간 특성 생성부(120)는 LP-LTP 이득 생성부(121), 스펙트럼 틸트 생성부(122), 영점 교차율 생성부(123)을 포함하고, 장구간 특성부(130)는 LP-LTP 이득의 이동평균 계산부(141), 스펙트럼 틸트의 이동평균 계산부(142), 영점 교차율의 이동 평균 계산부(143), 제1 분산 특성값 비교부(151), 제2 분산 특성값 비교부(152), 제3 분산 특성값 비교부(153), SNR_SP 계산부(154), Tilt_SP 계산부(155), ZC_SP 계산부(156)를 포함한다.

LP-LTP(linear prediction - long term prediction) 이득 생성부(127)는 입력 오디오 신호에 대한 프레임 단위의 단구간 분석을 통해, 현재 프레임에 따른 LP-LTP 이득을 생성한다.

도5는 도4에 도시된 LP-LTP 이득 생성부(121)의 세부 블록도이다. LP-LTP 이득 생성부(121)는 LP분석부(121a), 오픈-루프 피치 분석부(open-loop pitch analysis unit, 121b), LP-LTP 합성부 (121c), 가중된 SegSNR 계산부(121d)를 포함한다.

LP분석부(121a)는 현재 프레임에 따른 오디오 신호에 대한 선형 분석을 통하여 PrdErr, r[0]을 계산하고, 상기 계산된 값을 이용하여 하기 수학식1에 따라 LPC 이득을 계산한다.

수학식1

LPC gain = -10.* log 10((PrdErr)/(r[0] + 0.0000001))

여기서 PrdErr은 LP필터 계수를 구하는 과정인 Levinson-Durbin 방식에 따른 예측 오차(prediction error)이고, r[0]은 첫 번째 반사 계수를 의미한다.

또한, LP분석부(121a)는 현재 프레임에 대한 자기 상관 방식을 이용하여 LPC(linear prediction coefficient)값을 계산한다. 이때 LPC를 통해 단구간 분석 필터는 특정되고, 상기 특정된 필터를 통과한 신호는 오픈-루프 피치 분석부로 전달된다.

오픈-루프 피치 분석부(open-loop pitch analysis unit, 121b)는 단구간 분석 필터를 통해 필터링된 오디오 신호에 대한 장구간 분석을 수행하여 피치 상관값(pitch correlation)을 계산한다. 오픈-루프 피치 분석부(121b)는 버퍼에 저장된 선행하는 프레임의 오디오 신호와 현재 프레임의 오디오 신호의 교차 상관값이 가장 클 때의 지연 성분(open-loop pitch lag)을 계산하고, 계산된 지연 성분에 의해 장구간 특성 필터를 특정한다. LP 분석부에서 얻어지는 과거의 오디오 신호와 현재의 오디오 신호와의 상관값 계산을 통해 피치를 구하고, 상관값을 피치로 나눔으로써 정규화된 피치 상관값을 계산할 수 있다. 정규화된 피치 상관값(r_x)은 다음 수학식2에 따라 계산된다.

수학식2

여기에서 T는 오픈-루프 피치 주기의 추정값(estimation value)이고, x_i는 가중된 입력 신호값이다.

LP-LTP 합성부(Linear prediction - long term prediction synthesis unit, 121c)는 제로 여기(zero excitation)를 입력으로 하여 LP-LTP 합성을 수행한다.

SegSNR 계산부(weighted SegSNR computing, 121d)는 LP-LTP 합성부를 통해 복원된 출력 신호에 대한 LP-LTP 예측 이득을 계산한다. 현재 프레임의 단구간 특성인 상기 LP-LTP 예측 이득은 LP-LTP 이동 평균 계산부(141)로 전달된다.

LP-LTP 이동 평균 계산부(141)는 단구간 특성 버퍼(161)에 저장된 현재 프레임에 선행하는 소정 개수의 프레임에 따른 LP-LTP 이득에 대한 평균값을 계산한다.

제1 분산 특성값 비교부(151)는 LP-LTP 이동 평균 계산부(141)에서 계산된 평균값과 현재 프레임의 LP-LTP 이득의 차분값(SNR_VAR)을 수신하고, 수신된 차분값과 소정의 임계값(SNR_THR)을 비교한다.

SNR_SP 계산부(154)는 제1 분산 특성값 비교부(151)의 비교 결과에 따라 다음 수학식3에 따라 if 조건문을 수행함으로써 장구간 특성 SNR_SP를 계산한다.

수학식3

if (SNR_VAR > SNR_THR)

SNR_SP = a₁ * SNR_SP + (1 - a₁) * SNR_VAR

else

SNR_SP - = D₁

여기에서, SNR_SP의 초기값은 0이고, a₁는 0~1의 실수로서 SNR_SP와 SNR_VAR에 대한 가중치이고, D₁는 β₁×(SNR_THR / LT-LTP 이득)이며, β₁는 감소 정도를 나타내는 상수이다.

위 수학식3에서 a₁는 음성-음악 또는 음악-음성의 모드 변화를 억제하는 상수로서, a₁값이 클수록 오디오 신호를 더욱 부드럽게 복원할 수 있으며, 노이즈에 따른 모드의 변동을 방지한다. 위 수학식에 따른 조건문을 수행할 경우, SNR_VAR이 임계값 SNR_THR 보다 큰 경우 장구간 특성 SNR_SP는 증가하게 되고, SNR_VAR이 임계값 SNR_THR 보다 작은 경우 장구간 특성 SNR_SP는 이전 프레임의 SNR_SP값에서 일정한 값(D₁)만큼 감소하게 된다.

SNR_SP 계산부(154)는 상기 수학식으로 표현되는 조건문을 각 프레임마다 수행함으로써 장구간 특성 SNR_SP를 계산한다. SNR_VAR 값도 장구간 특성의 일종이지만, 상기 조건문을 통해 SNR_VAR은 도면 6d의 분포를 갖는 SNR_SP로 변형된다.

도6a 내지 6d는 본 실시예에서의 SNR_VAR, SNR_THR, SNR_SP 각각의 분포 특성을 설명하는 참고도이다.

도6a는 음악과 음성 신호에 따른 LP-LTP 이득의 분산 특성값(SNR_VAR)을 나 타내는 참고도이다. 도6a를 통해 LP-LTP 이득 생성부(121)에서 생성된 SNR_VAR은 입력 신호가 음성인가 또는 음악인가에 따라 구별된 분포를 갖는 것을 확인할 수 있다.

도6b는 LP-LTP 이득의 분산 특성값(SNR_VAR)에 따른 빈도율(frequency percent)의 통계적 특성을 나타내는 참고도이다. 도6b의 세로축은 빈도율(해당 SNR_VAR값의 빈도수/전체 빈도수 ×100%) 분포를 나타낸다. 발성된 음성 신호는 일반적으로 유성음, 무성음, 그리고 묶음의 조합으로 구성된다. 유성음의 경우 LP-LTP 이득이 크고, 무성음과 묶음의 경우에는 작은 값을 갖기 때문에 유성음/무성음이 스위칭되는 대부분의 음성 신호는 일정 간격 내에서 큰 값의 SNR_VAR값을 갖는 패턴을 보인다. 그러나, 음악 신호는 대부분 연속적이거나 또는 LP-LTP 이득의 변화가 작기 때문에 상대적으로 작은 SNR_VAR값을 갖는다.

도6c는 LP-LTP 이득의 분산 특성값(SNR_VAR)에 따른 누적 빈도율의 통계적 분포 특성을 나타내는 참고도이다. 음악 신호는 상대적으로 작은 값의 SNR_VAR 영역에 많이 분포하기 때문에 누적 곡선 상에서 확인할 수 있듯이, SNR_VAR값이 소정의 임계값보다 클 경우 음악 신호가 존재할 가능성은 매우 낮아지게 된다. 음성 신호는 음악 신호보다 상대적으로 완만한 누적 곡선 기울기를 갖는다. 이 경우 THRs를 P(music|S) - P(speech|S)로 정의하고, THRs가 최대일 때의 SNR_VAR값을 임계값 (SNR_THR)로 정의할 수 있다. 여기에서 P(music|S)는 조건 S에서 현재의 오디오 신호가 음악 신호일 확률을 의미하고, P(speech|S)는 조건 S에서 현재의 오디오 신호가 음성 신호일 확률을 의미한다. 본 실시예에서는 SNR_THR값을 SNR_SP값을 구 하는 조건문을 실행하기 위한 기준으로 채택하였으며, 이를 통해 음성과 음악 신호 구별의 정확성을 높이는 효과가 있다.

도6d는 LP-LTP 이득에 대한 장구간 특성(SNR_SP)을 나타내는 참고도이다. 도6a의 분포를 갖는 SNR_VAR에 대하여 SNR_SP 계산부는 상술한 조건부 연산 처리를 통해 새로운 장구간 특성값(SNR_SP)을 생성한다. 임계값(SNR_THR)에 따른 조건부 연산 처리를 통해 얻어지는 음성 신호와 음악 신호에 따른 SNR_SP가 좀더 확연하게 구별됨은 도6d를 통하여도 확인할 수 있다.

스펙트럼 틸트 생성부(122)는 입력 오디오 신호에 대한 프레임 단위의 단구간 분석을 통해, 현재 프레임에 따른 스펙트럼 틸트를 생성한다. 스펙트럼 틸트는 저대역의 스펙트럼에 따른 에너지와 고대역의 스펙트럼에 따른 에너지의 비를 의미하며, 하기 수학식4에 따라 계산된다.

수학식4

e_tilt = E_l / E_h

여기에서 E_h는 고대역에서의 평균 에너지이고, E_l은 저대역에서의 평균 에너지이다. 스펙트럼 틸트 이동 평균 계산부(142)는 단구간 특성 버퍼(161)에 저장된 현재 프레임에 선행하는 소정 개수의 프레임에 따른 스펙트럼 틸트의 평균을 계산하거나, 또는 스펙트럼 틸트 생성부(122)에서 생성된 현재 프레임의 스펙트럼 틸트값을 포함시킨 스펙트럼 틸트의 평균을 계산한다.

제2 분산 특성값 비교부(152)는 스펙트럼 틸트 이동 평균 계산부(142)에서 생성된 평균값과 스펙트럼 틸트 생성부(122)에서 생성된 현재 프레임에 따른 스펙트럼 틸트의 차분값(Tilt_VAR)를 수신하고, 수신된 스펙트럼 틸트의 차분값을 소정의 임계값 (TILT_THR)과 비교한다.

TILT_SP 계산부(155)는 스펙트럼 틸트 분산 특성값 비교부(152)의 비교 결과에 따라 다음 수학식5으로 표현되는 if 조건문을 수행함으로써 장구간 특성인 TILT_SP(tilt speech possibility)를 계산한다.

수학식5

if (TILT_VAR > TILT_THR)

TILT_SP = a₂ * TILT_SP + (1 - a₂) * TILT_VAR

else

TILT_SP - = D₂

여기에서, TILT_SP의 초기 값은 0이고, a₂는 0~1의 실수로서 TILT_SP와 TILT_VAR에 대한 가중치이고, D₂ 는 β₂ × (TILT_THR / SPECTRUM TILT) 이며, β₂ 는 감소 정도를 나타내는 상수이며, SNR_SP와 공통된 설명은 생략한다.

도7a는 음악과 음성 신호에 따른 스펙트럼 틸트 이득의 분산 특성값(TILT_VAR)을 나타내는 참고도이다. 스펙트럼 틸트 생성부(122)에서 생성된 TILT_VAR은 입력 신호가 음성인가 또는 음악인가에 따라 구별된다.

도7b 스펙트럼 틸트에 대한 장구간 특성(TILT_SP)을 나타내는 참고도이다. 도7b의 분포를 갖는 TILT_VAR에 대하여 TILT_SP 계산부(155)는 상술한 조건부 연산 처리를 통해 새로운 장구간 특성값(TILT_SP)을 생성한다. 임계값(TILT_THR)에 따른 조건부 연산 처리를 통해 얻어지는 음성 신호와 음악 신호에 따른 TILT_SP가 좀더 확연하게 구별됨은 도7b를 통하여도 확인할 수 있다.

영점 교차율 생성부(123)는 입력 오디오 신호에 대한 프레임 단위의 단구간 분석을 통해, 현재 프레임에 따른 영점 교차율(zero crossing rate)을 생성한다. 영점 교차율은 현재 프레임에 대한 입력 셈플의 신호 변화가 발생하는 빈도를 의미하며, 하기 수학식6을 이용한 조건문에 따라 계산된다.

수학식6

if (S(n)·S(n-1) < 0) ZCR = ZCR + 1

여기에서 S(n)은 현재 프레임(n)에 따른 오디오 신호가 양수인지 아니면 음수인지 여부를 판단하는 변수이다. 위 수학식6에서 영점 교차율(ZCR)의 초기값은 0이다.

영점 교차율 이동 평균 계산부(143)는 단구간 특성 버퍼(161)에 저장된 현재 프레임에 선행하는 소정 개수의 프레임에 따른 영점 교차율의 평균을 계산하거나, 또는 영점 교차율 생성부(123)에서 생성된 현재 프레임의 영점 교차율 값을 포함하여, 영점 교차율의 평균을 계산한다.

제3 분산 특성값 비교부(153)는 영점 교차율 이동 평균 계산부(143)에서 생성된 평균값과 영점 교차율 생성부(123)에서 생성된 현재 프레임에 따른 영점 교차율의 차분값(ZC_VAR)를 수신하고, 수신된 차분값을 소정의 임계값(ZC_THR)과 비교한다.

ZC_SP 계산부(156)는 영점 교차율 분산 특성값 비교부(153)의 비교 결과에 따라 다음 수학식7로 표현되는 if 조건문을 수행함으로써 장구간 특성인 ZC_SP(zero-crossing rate speech possibility)를 계산한다.

수학식7

if (ZC_VAR > ZC_THR)

ZC_SP = a₃ * ZC_SP + (1 - a₃) * ZC_VAR

else

ZC_SP - = D₃

여기에서, ZC_SP의 초기 값은 0이고, a₃는 0~1의 실수로서 ZC_SP와 ZC_VAR에 대한 가중치이고, D₃ 는 β₃ × (ZC_THR / zero-crossing rate) 이며, β₃는 감소 정도를 나타내는 상수이고, zero-crossing rate는 현재 프레임에 따른 영점 교차율이다. 기타, SNR_SP와 공통된 설명은 생략한다.

도8a는 음악과 음성 신호에 따른 영점 교차율의 분산 특성값(ZC_VAR)을 나타내는 참고도이다. 영점 교차율 생성부(123)에서 생성된 ZC_VAR은 입력 신호가 음성인가 또는 음악인가에 따라 구별된다.

도8b 영점 교차율에 대한 장구간 특성(ZC_SP)을 나타내는 참고도이다. 도8b의 분포를 갖는 ZC_VAR에 대하여 ZC_SP 계산부(155)는 상술한 조건부 연산처리를 통해 새로운 장구간 특성값(ZC_SP)을 생성한다. 임계값(ZC_THR)에 따른 조건부 연산 처리를 통해 얻어지는 음성 신호와 음악 신호에 따른 ZC_SP가 좀더 확연하게 구 별됨은 도8b를 통하여도 확인할 수 있다.

SPP생성부(157)는 SNR_SP 계산부(154), .TILT_SP 계산부(155), ZC_SP 계산부(156)에서 생성된 각각의 장구간 특성을 이용하여, 하기 수학식8에 따라 SPP(speech presence possibility)를 생성한다.

수학식8

SPP = SNR_W·SNR_SP + TILT_W·TILT_SP + ZC_W·ZC_SP

여기에서, SNR_W는 SNR_SP에 대한 가중치이고, TILT_W는 TILT_SP에 대한 가중치이고, ZC_W는 ZC_SP에 대한 가중치이다.

도6c, 7b 및 8b를 참고하면, SNR_W는 SNR_THR에 따른 P(music|S) P(speech|S) = 0.46(46%)를 소정의 정규화 팩터(normalization factor)로 승산함으로써 계산된다. 여기서 소정의 정규화 팩터에 특별한 제한이 있지는 않지만, 예를 들어 음성 신호의 SNR_SP 누적 확율이 90%일 때의 SNR_SP값(7.5)을 정규화 팩터로 설정할 수 있다. 같은 방식으로 TILT_THR에 따른 P(music|T)-P(speech|T) = 0.35(35%)와 TILT_SP에 대한 정규화 팩터를 이용하여 TILT_W를 계산할 수 있다. 상기 TILT_SP에 대한 정규화 팩터는 음성 신호의 TILT_SP 누적 확률이 90%일 때의 TILT_SP값(45)이다. 또한, ZC_THR에 따른 P(music|Z)- P(speech|Z) = 0.32(32%)와 정규화 팩터(75)를 이용하여 ZC_W를 계산할 수 있다.

도9a는 도4에서 SPP 계산부(157)를 통해 생성된 음성 존재 가능성(Speech Presence Possibility)의 분포 특성을 나타내는 참고도이다. 단구간 특성 생성부(121~123)에서 생성된 단구간 특성 들은 상술한 과정을 통해 새로운 장구간 특 성(SPP)로 변환되며, 장구간 특성(SPP)를 기준으로 할 때 음성 신호와 음악 신호는 보다 명확하게 구별될 수 있다.

도9b는 9a의 음성 존재 가능성(SPP)에 대한 누적 분포 특성을 나타내는 참고도이다. 장구간 특성 임계값(SpThr)은 음악 신호의 누적 분포가 99%일 때의 SPP값으로 설정할 수 있으며, 현재 프레임에 따른 SPP값이 미리 설정된 임계값(SpThr) 보다 클 경우 현재 프레임에 따른 오디오 신호를 음성 신호로 결정할 수 있다. 그러나, 상기 임계값 보다 작을 경우에는 이전 프레임이 어떤 신호로 분류 되었는지를 고려하여 분류 기준값을 조절하고, 조절된 분류 기준값과 현재 프레임의 단구간 특성 값의 비교를 통해 현재 프레임을 음성 신호 또는 음악 신호로 분류할 수 있다.

상술한 본 발명은 음성과 음악이 혼재된 오디오 신호로 부터 각각을 구별하는 방법을 개시하고 있다. 오디오 신호로 부터 원하는 신호와 원하지 않는 신호를 구분하기 위한 기존에 널리 사용된 수단으로는 VAD(Voice Activity Detection)가 있다. 그러나, VAD는 주로 음성 신호를 취급하기 위하여 개발된 것이기 때문에, 음성과 함께 음악, 잡음 등이 혼재된 환경하에서는 사용하기 어려운 문제가 있다. 본 발명에서 개시된 방법에 따르면 오디오 신호를 음성 신호와 음악 신호로 분류할 수 있으며, 음성 신호와 음악 신호를 구별하여 부호화는 부호화 장치, 유니 코덱 등에 범용적으로 적용될 수 있다.

도10은 본 발명의 일 실시예에 따른 오디오 신호 분류 방법을 나타내는 흐름도이다.

1100단계에서 단구간 특성 생성부(120)는 입력 오디오 신호를 프레임 별로 구분하고, 각각에 대한 단구간 분석을 통해 LP-LTP 예측 이득, 스펙트럼 틸트, 영점 교차율을 계산한다. 단구간 특성의 종류에 특별한 제한이 있는 것은 아니지만, 상기 3종류의 단구간 특성을 이용하여 오디오 신호를 프레임별로 분류할 경우 90% 이상의 적중률을 얻을 수 있다. 단구간 특성값을 계산하는 방법은 앞서 설명한 바 있으므로 이에 대한 설명은 생략한다.

1200단계에서 장구간 특성 생성부(130)는 단구간 특성 생성부(120)에서 생성된 단구간 특성에 대한 장구간 분석을 통해 SNR_SP, TILT_SP, ZC_SP를 계산하고, 각각에 가중치를 부여하여 SPP(음성 존재 특성값)을 계산한다.

1100단계와 1200단계에서는 현재 프레임에 따른 단구간, 장구간 특성이 계산된다. 단구간, 장구간 특성을 계산하는 방법은 앞서 설명한 바와 동일하다. 도10에는 도시되지 않았지만 1100단계와 1200단계에 앞서, 음성 데이터와 음악 데이터로부터 단구간 특성의 분포와 장구간 특성의 분포에 대한 정보를 데이터베이스로 구축하는 것이 필요하다.

1300단계에서 장구간 특성 비교부(170)는 1200단계에서 계산된 현재 프레임에 따른 SPP와 미리 설정된 장구간 특성 임계값(SpThr)을 비교한다. 상기 비교 결과 현재 프레임에 따른 SPP가 장구간 특성 입계값(SpThr) 보다 클 경우 현재 프레임을 음성 신호로 분류하고, 작을 경우에는 분류 기준값을 조절하고, 이를 단구간 특성 값과 비교하는 과정을 통해 현재 프레임을 분류한다.

1400단계에서 분류 기준값 조절부(180)는 이전 프레임의 분류 정보를 장구간 특성 비교부(170) 또는 장구간 특성 버퍼(162)로부터 수신하고, 수신된 모드 정보에 따라 이전 프레임이 음성 신호로 분류되었는지 아니면 음악 신호로 분류되었는지를 판단한다.

1410단계에서 분류 기준값 조절부(180)는 이전 프레임이 음성 신호로 분류된 경우 현재 프레임의 단구간 특성을 판단하는 분류 기준값(STF_THR)을 Sx로 나눈값을 출력한다. 여기에서 Sx는 음성 신호에 대한 누적 확률의 속성을 가진 값으로서, 분류 기준값을 증가 또는 감소시키기 위한 값이다.

도9a를 참고하면, Sx가 1이 되는 SPP를 도9a와 같이 선택하고, 각각의 SPP에 따른 누적 확률값을 SpSx에 따른 누적 확률 값으로 나눔으로써 정규화된 Sx를 계산할 수 있다. 현재 프레임에 따른 SPP값이 SpSx에 대응되는 SPP값과 SpThr 사이에 존재할 경우, 1410단계를 통해 분류 기준값(STF_THR)은 감소하게 되고, 현재 프레임이 음성 신호로 분류될 가능성은 높아지게 된다.

1420단계에서 분류 기준값 조절부(180)는 이전 프레임이 음악 신호로 분류된 경우 현재 프레임의 단구간 특성을 판단하는 분류 기준값(STF_THR)을 Mx로 곱한 값을 출력한다. Mx는 음악 신호에 대한 누적 확률의 속성을 가진 값으로서, 분류 기준값을 증가 또는 감소시키기 위한 값이다. 도 9b와 같이 Mx 가 1인 MPP(music presence possibility)를 MpMx로 설정할 수 있으며, 각각의 MSP에 따른 확률값을 MpMx에 따른 확률값으로 나눔으로써 정규화된 Mx를 계산할 수 있다. Mx가 MpMx 보다 클 경우, 분류 기준값(STF_THR)은 증가하게 되며, 현재 프레임이 음악 신호로 분류될 가능성은 높아지게 된다.

1430단계에서 분류 기준값 조절부(180)는 1410단계 또는 1420단계를 통해 장구간 특성에 따라 적응적으로 조절된 분류 기준값(STF_THR)과 현재 프레임에 따른 단구간 특성(STF, short term feature)을 비교하고, 비교 결과를 출력한다.

1500단계에서, 분류부(190)는 1430단계에서의 판단 결과 현재 프레임의 단구간 특성(STF)가 조절된 분류 기준값(STF_THR) 보다 작을 경우에 현재 프레임을 음악 신호로 분류하고, 분류 결과인 분류 정보를 출력한다.

1600단계에서, 분류부(190)는 1430단계에서의 판단 결과 현재 프레임의 단구간 특성(STF)이 조절된 분류 기준값(STF_THR) 보다 클 경우에 현재 프레임을 음성 신호로 분류하고, 분류 결과인 분류 정보를 출력한다.

도11는 본 발명의 일 실시예에 따른 비트스트림 복원 장치를 나타내는 블록도이다.

비트스트림 수신부(2100)는 오디오 신호의 프레임별 분류 정보가 포함된 비트 스트림을 수신한다. 분류 정보 추출부(2200)는 수신한 비트 스트림으로부터 오디오 신호의 프레임별 분류 정보를 추출한다. 복호화 모드 결정부(2300)는 분류 정보 추출부(2200)로부터 추출된 분류 정보에 따라 오디오 신호의 복호화 모드를 결정하고, 해당 비트스트림을 음악 복호화부(2400) 또는 음성 복호화부(2500)로 전달한다.

음악 복호화부(2400)는 수신된 비트스트림을 주파수 영역 기반으로 복호화하고, 음성 복호화부(2500)는 수신된 비트스트림을 시간 영역 기반으로 복호화한다. 혼합부(2600)는 복호화된 신호를 혼합하여 오디오 신호를 복원한다.

한편 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트 들은 본 발명이 속하는 기술 분야의 프로그래머 들에 의하여 용이하게 추론될 수 있다.

이제까지 본 발명에 대하여 바람직한 실시예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명을 구현할 수 있음을 이해할 것이다. 그러므로, 상기 개시된 실시예 들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 한다

본 발명에 따르면, 오디오 신호의 장구간 특성에 따라 분류하고자하는 프레 임에 대한 분류 기준값(threshold)을 적응적으로 조절하여 오디오 신호를 분류함으로써, 신호 분류에 대한 적중률(hit rate)을 높이고, 모드가 프레임 간격으로 자주 스위칭되는 것(Oscillation)을 억제하며, 잡음 신호에 대한 내성을 향상시키고, 오디오 신호를 보다 자연스럽게 복원할 수 있는 효과가 있다.

Claims

오디오 신호 분류 방법에 있어서,

(a) 오디오 신호를 프레임 단위로 분석하여 상기 분석된 프레임에 따른 단구간 특성과 장구간 특성을 생성하는 단계;

(b) 상기 생성된 장구간 특성을 이용하여 분류하고자 하는 프레임에 대한 분류 기준값을 적응적으로 조절하는 단계; 및

(c) 상기 조절된 분류 기준값을 이용하여 상기 분류하고자 하는 프레임을 분류하는 단계를 포함하는 오디오 신호 분류 방법.
제1항에 있어서,

상기 분류하고자 하는 프레임의 장구간 특성과 소정의 임계값을 비교하는 단계를 더 포함하고, 상기 (b) 단계는 상기 비교 결과에 따라 분류 기준값을 적응적으로 조절하는 것을 특징으로 하는 오디오 신호 분류 방법.
제1항에 있어서,

상기 장구간 특성을 생성하는 것은 상기 분류하고자 하는 프레임에 선행하는 소정 개수의 프레임에 따른 단구간 특성의 평균과 상기 분류하고자 하는 프레임에 따른 단구간 특성간의 차분값을 이용하여 생성하는 것을 특징으로 하는 오디오 신호 분류 방법.
제1항에 있어서,

상기 분류하고자 하는 프레임의 장구간 특성과 소정의 임계값을 비교하는 단계를 더 포함하고,

상기 (b) 단계는 상기 비교 결과와 상기 분류하고자 하는 프레임에 선행하는 프레임의 분류 결과를 이용하여 분류 기준값을 적응적으로 조절하는 것을 특징으로 하는 오디오 신호 분류 방법.
제4항에 있어서,

상기 (b) 단계는 상기 장구간 특성과 소정의 임계값의 비교 결과 상기 장구간 특성 만으로는 상기 분류하고자 하는 프레임을 분류하기 어려운 경우, 상기 분류하고자 하는 프레임이 상기 프레임에 선행하는 프레임과 동일하게 분류될 가능성이 높아지도록 상기 분류 기준값을 적응적으로 조절하는 단계 임을 특징으로 하는 오디오 신호 분류 방법.
제1항에 있어서,

상기 (c) 단계는 상기 오디오 신호를 프레임 단위로 음성 신호 또는 음악 신호로 분류하는 것을 특징으로 하는 오디오 신호 분류 방법.
제1항에 있어서,

상기 (c) 단계는 상기 분류하고자 하는 프레임의 단구간 특성과 상기 조절된 분류 기준값의 대소 비교를 통해 상기 프레임을 분류하는 것을 특징으로 하는 오디오 신호 분류 방법.
제3항에 있어서,

상기 장구간 특성을 생성하는 것은 상기 차분값이 소정의 기준값 보다 클 경우에는 분류하고자 하는 프레임에 대한 차분값과 상기 프레임에 선행하는 프레임에 대한 차분값에 각각 양(+)의 가중치를 부여하고, 가중치가 부여된 차분값 들을 합산하는 계산을 통해 장구간 특성을 생성하고,

상기 차분값이 소정의 기준값 보다 작을 경우에는 상기 분류하고자 하는 프레임에 대한 차이값에는 음(-)의 가중치를 부여하고, 선행하는 프레임에 대한 차이값에 양(+)의 가중치를 부여하여 상기 가중치가 부여된 차이값을 합산하는 계산을 수행하거나 또는 선행하는 프레임에 따른 장구간 특성값을 감소시키는 계산을 통해 장구간 특성을 생성하는 것을 특징으로 하는 오디오 신호 분류 방법.
제8항에 있어서,

상기 (c) 단계는 상기 오디오 신호를 프레임 단위로 음성 신호 또는 음악 신호로 분류하는 것이고, 상기 장구간 특성을 생성하는데 사용되는 상기 소정의 기준값은 음성 신호의 존재 가능성과 음악 신호의 존재 가능성의 차이가 가장 클 때의 차분값인 것을 특징으로 하는 오디오 신호 분류 방법.
제1항에 있어서,

상기 단구간 특성은 단기/장기 예측 이득, 스펙트럼 틸트 및 영점 교차율로 이루어진 군으로부터 선택되는 1종 이상인 것을 특징으로 하는 오디오 신호 분류 방법.
제1항 내지 제10항 중 어느 한 항의 오디오 신호 분류 방법을 컴퓨터에서 수행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
(a) 제1항 내지 제10항 중 어느 한 항의 오디오 신호 분류 방법에 따라 오디오 신호를 프레임 별로 분류하는 단계;

(b) 상기 분류 결과에 따라 오디오 신호를 부호화하는 단계; 및

(c) 상기 부호화된 신호에 대한 비트스트림 처리를 통해 비트스트림을 생성하는 단계를 포함하는 오디오 신호 부호화 방법.
제12항에 있어서, 상기 생성된 비트스트림은 오디오 신호의 분류 정보를 더 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
제12항에 있어서, 상기 (b) 단계의 부호화는 상기 (a) 단계에서 음성 신호로 분류된 경우에는 시간 영역에서 부호화를 하고, 음악 신호로 분류된 경우에는 주파 수 영역에서 부호화를 하는 것임을 특징으로 하는 오디오 신호 부호화 방법.
오디오 신호를 프레임 단위로 분석하여 단구간 특성을 생성하는 단구간 특성 생성부;

상기 생성된 단구간 특성을 이용하여 장구간 특성을 생성하는 장구간 특성 생성부;

상기 생성된 장구간 특성을 이용하여 분류하고자 하는 프레임의 분류 기준값을 적응적으로 조절하는 분류 기준값 조절부; 및

상기 적응적으로 조절된 분류 기준값을 이용하여 상기 분류하고자 하는 프레임을 분류하는 분류부를 포함하는 오디오 신호 분류 장치.
제15항에 있어서,

상기 분류하는 프레임의 장구간 특성과 소정의 임계값을 비교하는 장구간 특성 비교부를 더 포함하고,

상기 분류부는 상기 분류하고자 하는 프레임에 선행하는 프레임의 장구간 특성과 상기 장구간 특성 비교부의 비교 결과를 이용하여 상기 분류하고자 하는 프레임을 분류하는 것을 특징으로 하는 오디오 신호 분류 장치.
제15항에 있어서,

상기 장구간 특성 생성부는 상기 분류하고자 하는 프레임에 선행하는 소정 개수의 프레임에 따른 단구간 특성을 이용하여 제1 장구간 특성을 생성하는 제1 장구간 특성 생성부; 및

상기 제1 장구간 특성 생성부로부터 생성된 제1 장구간 특성과 상기 분류하고자 하는 프레임과 상기 프레임에 선행하는 각각의 프레임에 대한 장구간 특성 들을 이용하여 제2 장구간 특성을 생성하는 제2 장구간 특성 생성부를 더 포함하고,

상기 분류 기준값 조절부는 상기 제2 장구간 특성 생성부로부터 생성된 제2 장구간 특성을 이용하여 상기 분류하고자 하는 프레임의 분류 기준값을 적응적으로 조절하는 것을 특징으로 하는 오디오 신호 분류 장치.
제15항에 있어서,

상기 단구간 특성 생성부는 LP-LTP 이득 생성부, 스펙트럼 틸트 생성부 및 영점 교차율 생성부로 이루어진 군으로부터 하나 이상을 포함하는 것을 특징으로 하는 오디오 신호 분류 장치.
오디오 신호를 프레임 단위로 분석하여 단구간 특성을 생성하는 단구간 특성 생성부;

상기 단구간 특성을 이용하여 장구간 특성을 생성하는 장구간 특성 생성부;

상기 장구간 특성을 이용하여 분류하고자 하는 프레임의 분류 기준값을 적응적으로 조절하는 분류 기준값 조절부;

상기 적응적으로 조절된 분류 기준값을 이용하여 상기 분류하고자 하는 프레 임을 분류하는 분류부;

상기 분류부에 의하여 분류된 오디오 신호를 프레임 별로 부호화하는 부호화부; 및

상기 부호화된 신호에 대한 비트스트림 처리를 통해 비트스트림을 생성하는 비트스트림 생성부를 포함하는 오디오 신호 부호화 장치.
오디오 신호의 장구간 특성에 따라 적응적으로 결정되는 오디오 신호의 프레임별 분류 정보를 포함하는 비트스트림을 수신하는 단계;

상기 분류 정보에 따라 오디오 신호의 복호화 모드를 결정하는 단계; 및

상기 결정된 복호화 모드에 따라 상기 수신된 비트스트림을 복호화하는 단계를 포함하는 오디오 신호 복호화 방법.
오디오 신호의 장구간 특성에 따라 적응적으로 결정되는 오디오 신호의 프레임별 분류 정보를 포함하는 비트스트림을 수신하는 수신부;

상기 프레임별 분류 정보에 따라 수신된 비트스트림의 복호화 모드를 결정하는 복호화 모드 결정부; 및

상기 결정된 복호화 모드에 따라 상기 수신된 비트스트림을 복호화하는 복호화부를 포함하는 오디오 신호의 복호화 장치.