KR100455225B1

KR100455225B1 - 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임들을 추가하는 방법 및 장치

Info

Publication number: KR100455225B1
Application number: KR10-2003-7005884A
Authority: KR
Inventors: 앤드류 피. 데자코; 윌리암 알. 가드너
Original assignee: 콸콤 인코포레이티드
Priority date: 1994-08-10
Filing date: 1995-08-01
Publication date: 2004-11-06
Also published as: ATE235734T1; DE69530066T2; PT1239465E; CN1945696A; FI961112A; JP4870846B2; JP3927159B2; DE69534285T2; PT1233408E; KR100455826B1; ES2194921T3; MX9600920A; ATE358871T1; EP1703493B1; JPH09504124A; PT728350E; CN1320521C; FI117993B; EP1703493A3; FI961112A0

Abstract

본 발명은 낮은 에너지 무성음이 배경잡음으로 코딩될 확률을 감소시키는 방법을 제공한다. 인코딩 속도는 입력 신호를 디지탈 서브대역 필터들(4, 6)을 사용하여 서브대역으로 나누고, 서브대역 속도 결정 구성요소(12, 14)에서 상기 대역들에 있는 상기 에너지를 임계값들의 세트에 비교하여, 상기 비교들을 인코딩 속도 선택기(16)에서 검사함으로써 결정된다. 상기 방법에 의해, 무성음은 배경 잡음과 구별될 수 있다. 본 발명은 또한, 상기 입력 신호의 신호 대 잡음 비를 사용하여 상기 임계값 레벨을 선택하는 수단을 제공하며, 음악을 배경 잡음으로부터 구별하기 위해 상기 입력 신호의 주기성을 검사함으로써 가변율 보코더를 통과하는 음악을 코딩하는 방법을 제공한다.

Description

보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임들을 추가하는 방법 및 장치{METHOD AND APPARATUS FOR ADDING HANGOVER FRAMES TO A PLURALITY OF FRAMES ENCODED BY A VOCODER}

본 발명은 보코더에 관한 것으로, 특히 가변율 보코더에서 음성 인코딩 속도를 결정하기 위한 새롭고 개선된 방법에 관한 것이다.

가변율 음성 표현 시스템은 일반적으로 인코딩을 시작하기 전에 일정한 속도 결정 알고리즘의 형태를 사용한다. 상기 속도 결정 알고리즘은 음성이 존재하는 오디오 신호의 세그먼트에 대해서는 높은 비트 속도 인코딩 구성을, 무성 세크먼트에 대해서는 저속 인코딩 구성을 할당한다. 이러한 방법을 사용하여 재구성된 음성 품질을 높이면서도 평균적으로 낮은 비트 속도를 달성할 수 있다. 그러므로 가변율 음성 코더를 효과적으로 작동하려면, 다양한 잡음 환경에서 침묵(silence)으로부터 음성을 구별할 수 있는 강력한 속도 결정 알고리즘이 요구된다.

이와같은 가변율 음성 압축 시스템 또는 가변율 보코더는 "가변율 보코더"라는 발명의 명칭으로 1991년 6월 11일에 출원하고 현재 계류중인 미합중국 특허출원 제 07/713,661호에 개시되어 있다. 이러한 가변율 보코더의 특수한 실시예에 있어서, 입력 음성은 음성활성도의 레벨에 상응하여 결정된 여러 가지 속도들 중 하나의 속도로 코드 여기 선형 예측 코딩(CELP) 방식을 사용하여 인코딩한다. 음성 활성도의 레벨은 음성뿐만 아니라 배경 잡음을 포함하는 입력 오디오 샘플의 에너지로부터 결정된다. 배경 잡음의 가변 레벨에 걸쳐 고품질 음성 인코딩을 보코더가 제공할 수 있도록 하기 위해, 상기 속도 결정 알고리즘상에서 배경 잡음의 효과를 보상하는 임계값 기술을 적절히 사용하는 것이 요구된다.

보코더는 일반적으로 전송을 위한 디지탈 형태로 전환되는 아날로그 오디오 신호의 디지탈 신호 압축을 제공하기 위하여 셀룰라 전화 또는 개인 통신 장치와 같은 통신장치에 사용된다. 셀룰라 전화 또는 개인 통신 장치가 사용될 수도 있는 이동 환경에 있어서, 높은 레벨의 배경 잡음 에너지 때문에 속도 결정 알고리즘은 신호 에너지를 사용하여 배경 잡음 침묵(silence)으로부터 저에너지 무성음을 구별하기가 어렵게 된다. 그러므로 무성음은 자주 저비트 속도에서 인코딩되며 "s", "x", "ch", "sh", "t"등과 같은 자음은 복구된 음성에서 상실되므로 음성 품질이 저하된다.

배경 잡음 에너지만을 속도 결정의 기초로 하는 보코더는 임계치 설정에 있어서 배경 잡음에 대한 상대적인 신호 세기를 고려하지 않는다. 배경 잡음만을 그 임계 레벨의 기초로 하는 보코더는 배경 잡음이 증가하는 경우에, 임계 레벨을 서로 압축하려는 경향이 있다. 그러나, 신호 레벨이 변하지 않을 경우에 이러한 방식으로 임계치를 설정하는 것은 옳은 접근방법이지만, 신호 레벨이 배경 잡음 레벨과 함께 증가하는 경우에는 임계치를 압축하는 것은 최선의 방법이 아니다. 신호 세기를 고려한 임계 레벨를 설정하기 위한 다른 방법이 가변율 보코더에 필요하다.

남아있는 마지막 문제는 배경 잡음 에너지에 근거한 속도 결정 보코더를 통해 음악이 연주되는 동안에 일어난다. 사람들이 말하는 동안에는 숨을 쉬기위해 잠시 멈춰야만 하는데, 이것은 임계 레벨이 적당한 배경 잡음 레벨로 재설정하도록 한다. 그러나, 음악이 계속되는 상태에서 일어나는 것과 같이 보코더를 통해 음악을 전송함에 있어서, 어떠한 일시 정지도 발생하지 않으며 임계 레벨은 음악이 완전속도(full rate) 이하의 속도로 코드화되기 시작할 때 까지 연속해서 증가할 것이다. 이와같은 상태에서 가변율 보코더는 음악을 배경 잡음으로 혼동하게 된다.

본 발명은 가변율 보코더에서 인코딩 속도를 결정하기 위한 새롭게 개선된 방법 및 장치이다. 본 발명의 제1목적은 저에너지 무성음이 배경잡음으로 코딩될 확률을 감소시키기 위한 방법을 제공하는 것이다. 본 발명에 있어서, 입력 신호는 고주파 성분 및 저주파 성분으로 필터링된다. 입력신호의 필터링된 성분들은 음성의 존재를 검출하기 위하여 개별적으로 분석된다. 무성음은 고주파 성분을 가지기 때문에 고주파 대역에 관련한 무성음 신호 세기는 전체 주파수 대역에 걸쳐 배경 잡음과 비교하는 것보다 상기 대역에서 배경잡음으로부터 보다 잘 구별될 수 있다.

본 발명의 제2목적은 배경 잡음 에너지뿐만 아니라 신호 에너지를 고려한 임계치 설정 수단을 제공하는 것이다. 본 발명에 있어서, 음성 검출 임계 설정은입력 신호의 신호 대 잡음비(SNR)의 평가에 의거한다. 전형적인 실시예에 있어서, 신호 에너지는 음성 활성 시간동안 최대 신호 에너지로 평가되며 배경 잡음 에너지는 침묵 시간동안 최소 신호에너지로서 평가된다.

본 발명의 제3목적은 가변율 보코더를 통과하는 음악을 코딩하기 위한 방법을 제공하는 것이다. 전형적인 실시예에 있어서, 속도 선택 장치는 임계 레벨이 증가하는 다수의 연속 프레임을 검출하고 상기 프레임들 전반에 걸쳐서 주기성을 체크한다. 입력 신호가 주기성이 있으면 이것은 음악의 존재를 나타낸다. 음악의 존재가 검출되면 임계치는 신호가 완전속도로 코딩되는 레벨로 설정된다.

제 1도는 본 발명의 블록도이다.

본 발명의 특징, 목적 및 이점들은 도면을 참조하여 상세한 설명으로부터 보다 명백하게 될 것이다.

제1도에서, 입력 신호 S(n)는 서브대역 에너지 계산 엘리먼트(4) 및 서브대역 에너지 계산 엘리먼트(6)에 제공된다. 입력 신호 S(n)는 오디오 신호 및 배경 잡음으로 이루어진다. 오디오 신호는 전형적으로 음성이지만 음악일수도 있다. 전형적인 실시예에서, S(n)은 20ms 프레임의 160 샘플로 각각 제공된다. 전형적인 실시예에 있어서, 입력 신호 S(n)은 사람 음성 신호의 대역폭인 대략 0 kHz 내지 4 kHz의 주파수 성분을 갖는다.

전형적인 실시예에 있어서, 4 kHz 입력 신호 S(n)는 두 개의 분리된 서브대역으로 필터링된다. 두 개의 분리된 서브대역은 각각 0 kHz 내지 2 kHz와 2 kHz 내지 4 kHz 사이에 놓인다. 전형적인 실시예에 있어서, 입력 신호는 서브대역 필터에 의해 서브대역들로 분할될 수도 있으며, 그 설계는 당해분야에서 공지이고 " 주파수 선택 적응 필터링"이란 발명의 명칭으로 1994년 2월 1일에 출원한 미합중국 특허출원 제 08/189,819호에 상세되어 있다.

서브대역 필터의 임펄스 응답은 저대역통과 필터에 대해서는 h_L(n), 고대역통과 필터에 대해서는 h_H(n)으로 규정된다. 신호의 서브대역 성분의 에너지는 당해분야에서 공지인 바와같이, 상기 서브대역 필터 출력 샘플들의 제곱을 합함으로써 R_L(0) 및 R_H(0)을 제공하도록 간단히 계산될 수 있다.

바람직한 실시예에 있어서, 입력 신호 S(n)가 서브대역 에너지 계산 엘리먼트(4)에 제공되는 경우, 입력 프레임의 저주파 성분의 에너지값,R_L(0),은 다음과 같이 계산된다.

여기서 L은 임펄스 응답 h_L(n)을 갖는 저대역통과 필터에서 탭수이며, R_S(i)는 다음 방정식에 의해 주어진 입력 신호 S(n)의 자기상관 함수이다 :

여기서 N은 프레임의 샘플수이며, R_hL은 다음 방정식에 의해 주어진 저대역통과 필터 h_L(n)의 자기상관 함수이다 :

고주파 에너지 R_H(0)는 서브대역 에너지 계산 엘리먼트(6)에서 유사한 방식으로 계산된다.

서브대역 필터의 자기상관 함수의 값은 계산 로드를 감소시키기 위해 시간에 앞서 계산될 수 있다. 또한, R_S(i)의 계산된 값의 일부는 입력 신호 S(n)의 코딩에서 다른 계산에 사용되며, 그것에 의해 본 발명의 인코딩 속도 선택 방법의 계산 부담이 더 감소된다. 예를 들면, LPC 필터 탭 값의 유도는 일 세트의 입력 신호 자기상관 계수의 계산을 필요로 한다.

LPC 필터 탭 값의 계산은 당해 분야에서 공지이며 미합중국 특허출원 제 08/004,484 호에 상세하게 설명되어 있다. 10 탭 LPC 필터를 필요로 하는 방법으로 음성을 코딩하면 11부터 L-1까지 i값에 대한 R_S(i)의 값만이 계산될 필요가 있으며, 그것에 더하여, LPC 필터 탭 값을 계산하는데 0 내지 10까지 i값에 대한 R_S(i)이 사용되기 때문에 상기 11부터 L-1까지 i값에 대한 R_S(i)이 신호를 코딩하는데 사용된다. 전형적인 실시예에 있어서, 서브대역 필터는 17 탭을 갖는다. 즉 L=17이다.

서브대역 에너지 계산 엘리먼트(4)는 서브대역 속도 결정 엘리먼트(12)에 R_L(0)의 계산된 값을 제공하며, 서브대역 에너지 계산 엘리먼트(6)는 서브대역 속도 결정 엘리먼트(14)에 R_H(0)의 계산된 값을 제공한다. 속도 결정 엘리먼트(12)는 두 개의 소정의 임계치 T_L1/2및 T_Lfull에 대하여 R_L(0)값을 비교하며, 상기 비교에 따라서 제안된 인코딩 속도 RATE_L를 할당한다. 속도 할당은 다음과 같이 이루어진다 :

RATE_L= 1/8 배속 R_L(0) ≤ T_L1/2(4)

RATE_L= 1/2 배속 T_L1/2< R_L(0) ≤T_Lfull(5)

RATE_L= 전속 R_L(0) > T_Lfull(6)

서브대역 속도 결정 엘리먼트(14)는 유사한 방식으로 동작하며 고주파 에너지 값R_H(0)에 따라서 그리고 다른 세트의 임계치 T_H1/2및 T_Hfull에 의거하여 제안 인코딩 속도 RATE_H를 선택한다. 서브대역 속도 결정 엘리먼트(12)는 인코딩 속도 선택 엘리먼트(16)에 그 제안된 인코딩 속도 RATE_L를 제공하며, 서브대역 속도 결정 엘리먼트(14)는 인코딩 속도 선택 엘리먼트(16)에 그 제안된 인코딩 속도 RATE_H를 제공한다. 전형적인 실시예에 있어서, 인코딩 속도 선택 엘리먼트(16)는 두 개의 제안 속도들 중에서 더 빠른 속도를 선택하며, 상기 더 빠른 속도를 선택된 인코딩 속도로 제공한다.

또한 서브대역 에너지 계산 엘리먼트(4)는 임계 적응 엘리먼트(8)에 저주파에너지값 R_L(0)를 제공하며, 여기서 다음 입력 프레임에 대한 임계치 T_L1/2및 T_Lfull이 계산된다. 유사하게, 서브대역 에너지 계산 엘리먼트(6)는 임계 적응 엘리먼트(10)에 고주파 에너지값 R_H(0)를 제공하며, 여기서 다음 입력 프레임에 대한 임계치 T_H1/2및 T_Hfull이 계산된다.

임계 적응 엘리먼트(8)는 저주파 에너지값 R_L(0)을 수신하여 S(n)이 배경 잡음이나 오디오 신호중 어느 것을 포함하고 있는지를 결정한다. 전형적인 실시예에 있어서, 임계 적응 엘리먼트(8)가 오디오 신호가 존재하는지를 결정하는 방법은 i번째 프레임에 대한 정규화된 자기상관 함수 NACF(i)를 검사하는 것이며, 상기 NACF(i)는 다음과 같은 방정식에 의해 주어진다 :

(7)

여기서 e(n)은 LPC 필터에 의해 입력 신호 S(n)을 필터링함으로써 생긴 포르만트(formant) 잔여 신호이다.

LPC 필터에 의해 신호를 필터링하는 설계 구조는 당해분야에서 공지이며 미합중국 특허출원 제 08/004,484호에 상세하게 설명되어 있다. 입력신호 S(n)은 포르만트의 상호작용을 제거하기 위하여 LPC 필터에 의해 필터링된다. NACF는 오디오 신호가 존재하는지를 결정하기 위하여 임계치에 대하여 비교된다. NACF가 소정의 임계치보다 더 크면, 입력 프레임은 음성 또는 음악과 같은 오디오 신호의 존재를 나타내는 주기적 특성을 갖는다는 것을 나타낸다. 음성 또는 음악은 부분적으로 주기적이 아니며 낮은 NACF 값을 나타낼 수 있지만, 배경 잡음은 전형적으로 어떤 주기성도 디스플레이하지 않으며 거의 항상 낮은 NACF 값을 나타낸다.

S(n)이 배경 잡음을 포함하는 것으로 결정되면, NACF의 값은 임계치 TH1 이하이며, R_L(0) 값은 현재의 배경 잡음 평가 BGN_L의 값을 갱신하는데 사용된다. 전형적인 실시예에 있어서, TH1은 0.35 이다. R_L(0)은 배경 잡음 평가 BGN_L의 현재값에 대하여 비교된다. R_L(0)이 BGN_L이하이면, 배경 잡음 평가 BGN_L은 NACF의 값에 관계없이 R_L(0)와 동일하게 설정된다.

배경 잡음 평가 BGN_L은 NACF가 임계치 TH1보다 작은 경우에만 증가된다. R_L(0)이 BGN_L보다 크고 NACF가 TH1보다 작으면, 배경 잡음 평가 BGN_L은 α1·BGN_L로 설정되며, 여기서 α1은 1보다 큰 수이다. 전형적인 실시예에 있어서, α1은 1.03과 같다. 배경 잡음 평가 BGN_L이 BGN_max로 설정되는 소정의 최대값 BGN_max에 이를 때 까지, NACF가 임계치 TH1보다 적고 R_L(0)이 현재의 BGN_L값보다 클 동안은 BGN_L은 계속해서 증가할 것이다.

제2 임계치 TH2를 초과하는 NACF의 값으로 나타나는 오디오 신호가 검출되면, 신호 에너지 평가 S_L이 갱신된다. 전형적인 실시예에 있어서, TH2는 0.5로 설정된다. R_L(0)의 값은 현재의 저대역통과 신호 에너지 평가 S_L에 대하여 비교된다.R_L(0)이 S_L의 현재값보다 크면 S_L은 R_L(0)와 동일하게 설정된다. R_L(0)이 S_L의 현재값보다 작으며 NACF가 TH2보다 큰 경우에만, S_L은 α2 ×R_L(0)로 설정된다. 전형적인 실시예에서, α2는 0.96으로 설정된다.

임계 적응 엘리먼트(8)는 다음 방정식(8)에 따라서 신호 대 잡음비 평가를 계산한다 :

임계 적응 엘리먼트(8)는 다음 방정식(9)-(12)에 따라서 양자화된 신호 대 잡음비I_SNRL의 인덱스를 결정한다

여기서 nint는 분수값을 가장 가까운 정수로 표시하는 함수이다.

임계 적응 엘리먼트(8)는 신호 대 잡음비 인덱스 I_SNRL에 따라서 두 개의 스케일 인자 k_L1/2및 k_Lfull을 선택 또는 계산한다. 전형적인 스케일 값 조사표는 표1에 제공되어 있다 :

표 1

I_SNRLK_L1/2K_Lfull

0 7.0 9.0

1 7.0 12.6

2 8.0 17.0

3 8.6 18.5

4 8.9 19.4

5 9.4 20.9

6 11.0 25.5

7 15.8 39.

이 두 개의 값은 다음 방정식에 따라서 속도 선택을 위한 임계치를 계산하는데 사용된다 :

T_L1/2= K_L1/2ㆍBGN_L(11)

T_LFULL= K_LFULLㆍBGN_L(12)

여기서 T_L1/2은 저주파 1/2 속도 임계치이며 T_Lfull은 저주파 완전속도 임계치이다.

임계 적응 엘리먼트(8)는 속도 결정 엘리먼트(12)에 적응된 임계치 T_Lfull및 T_L1/2을 제공한다. 임계 적응 엘리먼트(10)는 유사한 방식으로 동작하며 서브대역 속도 결정 엘리먼트(14)에 임계치 T_Hfull및 T_H1/2을 제공한다.

오디오 신호 에너지 평가 S(여기서 S는 S_L또는 S_H일수 있음)의 초기값은 다음과 같이 설정된다. 신호 에너지 평가 S_INIT는 -18.0 dBm0로 설정되며, 여기서 3.17 dBm0는 완전 사인 파형의 신호 세기를 규정하고, 상기 사인 파형은 전형적인 실시예에서는 -8031 내지 8031 까지의 진폭범위를 갖는 디지탈 사인 파형이다. S_INIT는 음향 신호가 존재하는 것이 결정될 때 까지 사용된다.

음향 신호가 초기에 검출되는 방법은 임계치에 대하여 NACF값을 비교하는 것이며, NACF가 소정수의 연속 프레임들 동안에 임계치를 초과하면, 음향 신호가 존재하는 것으로 결정된다. 전형적인 실시예에 있어서, NACF는 10 연속 프레임에 대한 임계치를 초과해야만 한다. 이 상태가 충족된 후에 신호 에너지 평가 S는 선행 10 프레임의 최대 신호 에너지로 설정된다.

배경 잡음 평가 BGN_L의 초기값은 BGN_max로 설정된다. 서브대역 프레임 에너지가 BGN_max보다 작은 것을 수신하자마자, 배경 잡음 평가는 수신된 서브대역 에너지 레벨의 값으로 재설정되며, 배경 잡음 평가(BGN_L)의 발생은 먼저 전술한 바와같이 진행된다.본 발명은 보코더에 의해 인코딩되는 복수의 프레임들에 잔존 프레임들을 추가하는 방법을 제공한다. 여기서 잔존 프레임을 추가한다 함은 완전속도 프레임을 뒤따르는 소정수의 저속 프레임들을 잔존상태, 즉 완전속도 상태로 유지한다는 것을 의미한다. 인코딩 속도 선택 구성요소(16)는 입력 신호에 대한 인코딩 속도를 결정한다. 따라서, 인코딩 속도 선택 구성요소(16)는 소정수의 연속적인 프레임들이 제1속도에서 인코딩되었다는 것을 탐지할 수 있고, 다음 연속적인 프레임이 제1 속도 보다 느린 제2 속도에서 인코딩되어야함을 결정할 수 있으며, 상기 다음 연속적인 프레임에서 시작하며 제1 속도에서 인코딩될 소정수의 잔존 프레임을 SNR 값에 기초하여 선택할 수 있다. 상기 제1속도는 상기 제2속도보다 느린 임의의 속도일 수 있지만, 바람직한 실시예에서는 제1 속도는 완전속도이다.

바람직한 실시예에 있어서 잔존 상태는 일련의 완전속도 음성 프레임을 뒤따라 저속 프레임이 검출될 때 활성화된다. 전형적인 실시예에 있어서, 인코딩 속도가 완전속도보다 작게 설정되고 계산된 신호 대 잡음비가 소정의 최소 SNR보다 작은 프레임이 완전속도의 4개의 연속적인 음성 프레임들을 뒤이어 인코딩 될 경우, 상기 프레임에 대한 인코딩 속도는 완전속도로 설정된다. 전형적인 실시예에 있어서 소정의 최소 SNR은 방정식 (8)에 규정된 27.5 dB 이다.

바람직한 실시예에 있어서, 잔존 프레임의 수는 신호 대 잡음비의 함수이다. 전형적인 실시예에 있어서, 잔존 프레임의 수는 다음과 같이 결정된다 :

#잔존 프레임=1 22.5 < SNR < 27.5, (13)

#잔존 프레임=2 SNR ≤ 22.5, (14)

#잔존 프레임=0 SNR ≥ 27.5. (15)

본 발명은 음악의 존재를 검출하기 위한 방법을 제공하는 것으로, 상기 음악은 전술한 바와같이 배경 잡음 측정을 재설정하게 하는 일시 정지가 없는 것이다. 음악의 존재를 검출하기 위한 방법은 음악이 콜의 시작에 존재하지 않는 것으로 추정한다. 이것에 의해 본 발명의 인코딩 속도 선택 장치는 초기 배경 잡음 에너지를 적절히 평가한다. 배경 잡음과는 달리 음악은 주기적 특성을 가지기 때문에, 본 발명은 배경 잡음으로부터 음악을 구별하기 위하여 NACF의 값을 검사한다. 본 발명의 음악 검출 방법은 다음 방정식에 따라서 평균 NACF를 계산한다 :

여기서 NACF(i)는 방정식(7)에서 규정되며, T는 배경 잡음의 평가된 값이 초기 배경 잡음 평가 BGN_INT로부터 증가되는 연속 프레임 수이다.

배경 잡음 BGN이 소정수의 프레임 T에 대하여 증가되고 NACF_AVE가 소정 임계치를 초과하면, 음악이 검출되고 배경 잡음 BGN이 BGN_INIT로 재설정된다. 값 T는 인코딩 속도가 완전속도 이하로 떨어지지 않도록 충분히 낮게 설정되어야 한다. 그러므로, T 값은 음향 신호 및 BGN_INIT의 함수로서 설정되어야 한다.

바람직한 실시예의 전술한 설명은 당업자가 본 발명을 사용하는 것을 가능하게 하도록 제공되어 있다. 실시예에 대한 다양한 변형은 당해업자에게 아주 명백할 것이며 여기에 기술된 일반적인 원리들은 발명적 기능을 사용하지 않고 다른 실시예에 적용될 수도 있다. 그러므로, 본 발명은 여기에 도시된 실시예에 한정되는 것은 아니며 여기에 기술된 원리 및 신규한 특징들과 일관되게 가장 광범위한 범위에 적용된다.

본 발명은 상기와 같은 구성으로 인해 낮은 에너지를 가지는 무성음이 배경잡음으로 인코딩되는 것을 방지함으로써 복구된 음성의 품질을 향상시키며, 또한 상기 임계치를 정하는 경우에, 종래의 임계치 기술과는 달리 신호대 잡음비(SNR)을 고려함으로써 상기 임계치를 적정하게 결정할 수 있다. 또한, 음악은 주기적인 특성을 가지고 있다는 점을 감안하여 음악을 배경 잡음과 구별되게 인코딩할 수 있다.

Claims

보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임들을 추가하는 방법으로서,

소정 수의 연속적인 프레임들이 제1 속도로 인코드되었는지를 탐지하는 단계;

다음의 연속적인 프레임들이 상기 제1 속도보다 느린 제2 속도로 인코드되어야함을 결정하는 단계; 및

상기 다음 연속적인 프레임들에서 시작하는 연속적인 잔존 프레임들의 수를 선택하여 상기 제1 속도로 인코드하는 단계를 포함하며, 여기서 상기 수는 신호대잡음비 함수에 따라 결정되는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 방법.
삭제
제1항에 있어서, 상기 탐지 단계는 소정 수의 연속 프레임들이 최대 지원 속도로 인코드되었는지를 탐지하는 단계를 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 방법.
제1항에 있어서, 상기 탐지 단계는 소정 수의 연속적인 프레임들이 본질적으로 활성 음성을 포함하는 것으로 분류된 프레임들을 인코딩하기 위한 속도로 인코드되었는지를 탐지하는 단계를 더 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 방법.
제1항에 있어서, 상기 결정 단계는 다음의 연속적인 프레임이 최소 지원 속도로 인코드되어야 한다는 것을 결정하는 단계를 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 방법.
제1항에 있어서, 상기 결정 단계는 다음의 연속적인 프레임이 본질적으로 배경 잡음 또는 침묵을 포함하는 것으로 분류된 프레임들을 인코딩하기 위한 속도로 인코드되어야 한다는 것을 결정하는 단계를 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 방법.
제1항에 있어서, 배경 잡음 레벨 평가를 발생하는 단계를 더 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 방법.
제7항에 있어서, 상기 배경 잡음 레벨 평가에 근거하여 상기 신호 대 잡음 비를 계산하는 단계를 더 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 방법.
삭제
보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임들을 추가하는 장치로서,

소정 수의 연속적인 프레임들이 제1 속도로 인코드되었는지를 탐지하는 수단;

다음의 연속적인 프레임들이 상기 제1 속도보다 느린 제2 속도로 인코드되어야 함을 결정하는 수단; 및

상기 다음 연속적인 프레임들로 시작하는 연속적인 잔존 프레임들의 수를 선택하여 상기 제1 속도로 인코드하는 수단을 포함하며, 여기서 상기 수는 신호대잡음비 함수에 따라 결정되는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
삭제
제10항에 있어서, 상기 탐지 수단은 소정 수의 연속 프레임들이 최대 지원 속도로 인코드되었는지를 탐지하는 수단을 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
제10항에 있어서, 상기 탐지 수단은 소정 수의 연속적인 프레임들이 본질적으로 활성 음성을 포함하는 것으로 분류된 프레임들을 인코딩하기 위한 속도로 인코드되었는지를 탐지하는 수단을 더 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
제10항에 있어서, 상기 결정 수단은 다음의 연속적인 프레임이 최소 지원 속도로 인코드되어야 한다는 것을 결정하는 수단을 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
제10항에 있어서, 상기 결정 수단은 다음의 연속적인 프레임이 본질적으로 배경 잡음 또는 침묵을 포함하는 것으로 분류된 프레임들을 인코딩하기 위한 속도로 인코드되어야 한다는 것을 결정하는 수단을 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
제10항에 있어서, 배경 잡음 레벨 평가를 발생하는 수단을 더 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
제16항에 있어서, 상기 배경 잡음 레벨 평가에 근거하여 상기 신호 대 잡음 비를 계산하는 수단을 더 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
삭제
제10항에 있어서, 상기 장치는 인코딩 속도 선택 구성요소를 포함하며, 상기 인코딩 속도 선택 구성요소는 상기 탐지수단, 상기 결정수단, 및 상기 선택수단을 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
삭제
제19항에 있어서, 상기 인코딩 속도 선택 구성요소는 소정 수의 연속적인 프레임들이 최대 지원 속도로 인코드되었는지를 탐지하도록 더 구성되는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
제19항에 있어서, 상기 인코딩 속도 선택 구성요소는 소정 수의 연속적인 프레임들이 본질적으로 활성 음성을 포함하는 것으로 분류되는 프레임들을 인코딩하기 위한 속도로 인코드되었는지를 탐지하도록 더 구성되는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
제19항에 있어서, 상기 인코딩 속도 선택 구성요소는 다음의 연속적인 프레임이 최소 지원 속도로 인코드되어야 한다는 것을 결정하도록 더 구성되는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
제19항에 있어서, 상기 인코딩 속도 선택 구성요소는 다음의 연속적인 프레임이 본질적으로 배경 잡음 또는 침묵을 포함하는 것으로 분류되는 프레임들을 인코딩하기 위한 속도로 인코드되어야 한다는 것을 결정하도록 더 구성되는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
제19항에 있어서, 상기 인코딩 속도 선택 구성요소에 연결되어 있으며, 배경 잡음 레벨 평가를 발생하도록 더 구성되어 있는 임계값 적응 구성요소를 더 포함하는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
제25항에 있어서, 상기 임계값 적응 구성요소에 연결되어 있으며, 프레임 에너지 레벨 평가를 발생하도록 구성되어 있는 에너지 계산 구성요소를 더 포함하며, 여기서 상기 임계값 적응 구성요소는 상기 에너지 계산 구성요소로부터 프레임 에너지 레벨 평가를 수신하며 프레임 에너지 레벨 및 배경 잡음 레벨 평가에 근거하여 상기 신호 대 잡음 비를 계산하도록 더 구성되는 것을 특징으로 하는 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임을 추가하는 장치.
삭제