KR100389895B1

KR100389895B1 - 음성 부호화 및 복호화방법 및 그 장치

Info

Publication number: KR100389895B1
Application number: KR1019960017932A
Authority: KR
Inventors: 김흥국; 조용덕; 김무영; 김상룡
Original assignee: 삼성전자주식회사
Priority date: 1996-05-25
Filing date: 1996-05-25
Publication date: 2003-11-28
Also published as: JPH1055199A; KR970078038A; JP4180677B2; US5884251A

Abstract

본 발명은 재생 코드 여기 선형 예측방법을 이용한 음성 부호화 및 복호화방법 및 그 장치에 관한 것으로서, (a) 부호화하고자 입력된 음성신호에 대하여 음성분석을 위한 소정의 프레임길이로 수집한 후 고역필터링하는 전처리과정; (b) 전처리된 음성신호로 부터 단구간 선형예측을 수행하여 음성 스펙트럼을 추출하는 음성스펙트럼 분석과정; (c) 전처리된 음성에 대하여 포먼트 가중필터를 통과시켜 적응 및 재생코드북 탐색시 포먼트 영역에서 오차범위를 넓히고, 고조파 잡음 성형 필터를 통과시켜 피치 온셋 영역에서의 오차범위를 넓히는 가중필터링과정; 음성의 잔차에 기초하여 추출된 개루프 피치를 이용하여 적응코드북을 탐색하는 적응코드북 탐색과정; 적응 코드북 여기신호로 부터 생성된 재생 여기 코드북을 탐색하는 재생코드북 탐색과정; 및 (d) 과정과 (e) 과정에 의해 생성된 각종 파라미터에 대하여 소정의 비트를 할당하여 비트스트림으로 형성하는 패킷화과정을 구비한다. 따라서, CELP 계열의 부호화기를 저전송률로 구현할 수 있다.

Description

음성 부호화 및 복호화방법과 그 장치

본 발명은 음성 부호화 및 복호화방법과 그 장치에 관한 것으로서, 특히 재생 코드 여기 선형 예측(Renewal Code-Excited Linear Prediction:이하 RCELP라 약함) 부호화 및 복호화방법과 그 장치에 관한 것이다.

제1도는 일반적인 코드 여기 선형 예측(Code-Excited Linear Prediction;이하 CELP라 약함) 부호화방법을 보여준다.

제1도에 있어서, (101)단계에서는 분석하고자 하는 음성의 일정구간(1 프레임이라 하고 N이라 둔다)을 수집한다. 여기서, 1 프레임은 일반적으로 20∼30ms로 8kHz 샘플링하는 경우 160 샘플들에서 240 샘플들을 포함한다. (102)단계에서는 수집된 1 프레임의 음성 데이타에서 직류성분을 제거하기 위해 고역여파(High-Pass Filtering)를 수행한다. 선형예측(Linear Prediction:이하 LP라 약함) (103)단계에서는 선형예측기법으로 음성의 특징 파라미터( α₁,α₂,...,α_p)를 구하고, 이를 LPC 계수라 한다. 이 LPC 계수는 다음 (1)식과 같이 창함수(Window Function)에 의해 가중된 음성신호를 p차의 선형 다항식으로 근사시키는 경우의 다항식의 계수에 해당한다.

상기 (1)식에서,

즉, 다음 (2)식의 값을 최소로 하는 계수에 해당한다.

상기 (2)식에서,

이렇게 얻어진 LPC 계수는 양자화되어 전송하기에 앞서, (104)단계에서 전송효율을 증가시키고 부프레임 보간 특성이 양호한 선스펙트럼쌍(Line Spectrum Pairs:이하 LSP라 약함) 계수로 변환된다. LSP 계수는 양자화기(105)단계에서 양자화되고, (106)단계에서는 부호화부와 복호화부의 동기를 맞추기 위해 다시 LSP 계수를 역양자화시킨다.

(107)단계에서는 이렇게 분석된 음성 파라미터로 부터 음성의 주기성을 제거하고, 잡음 코드북으로 모델링하기 위해 음성구간을 S개의 부프레임으로 나눈다. 여기서는 설명의 편이를 위해 S=4인 경우로 한정하여 설명하기로 한다. 즉, 각 부프레임의 음성구간 길이는 N/4=Ns가 된다. s번째 부프레임에 대한 i번째 음성 파라미터 w^s _i(s=0,1,2,3, i=1,2...,p)는 다음 (3)식과 같이 얻을 수 있다.

상기 (3)식에서 w_i(n-1)와 w_i(n)는 각각 바로 이전 프레임과 현재 프레임의 i번째 LSP 계수를 나타낸다.

(108)단계에서는 보간된 LSP 계수를 다시 LPC 계수로 변환한다. 이 부프레임 LPC 계수로 부터 109,110,112단계에서 사용될 음성합성필터(l/A(z))와 오차가중필터 (A(z)/A(z/γ))를 구성한다.

음성합성필터(l/A(z))와 오차가중필터(A(z)/A(z/γ))는 각각 다음 (4)식 및(5)식과 같다.

(109)단계는 바로 이전 프레임의 합성필터의 영향을 제거해 준다. 제로 입력 응답(Zero-Input Response;이하 ZIR이라 약함) s_zir(n)은 다음 (6)식과 같이 구할 수 있다 여기서, s(n)은 이전 부프레임에서 합성된 신호를 나타낸다. 이 ZIR의 결과를 원 음성신호 s(n)에서 빼고, 이를 s_d(n)이라 한다.

이 s_d(n)에 가장 근사한 코드북을 적응코드북(113)과 잡음코드북(114)으로 부터 찾는다. 이 적응코드북 탐색과정과 잡음코드북 탐색과정을 각각 제2도와 제3도를 참조하여 설명하기로 한다.

제2도는 적응코드북 탐색과정을 나타낸 것으로서, 상기 (5)식에 해당하는 오차가중필터(A(z)/A(z/γ))는 신호 s_d(n)과 음성합성필터에 각각 적용된다. s_d(n)에 오차가중필터를 적용한 신호를 s_dw(n), 적응코드북을 이용하여 L의 지연을 갖고 만들어지는 여기신호를 P_L(n)이라 하면 제202단계에 의해 필터링된 신호는 g_α·P_L'(n)이고, 두 신호의 차를 최소화하는 L^*과 g_α를 다음 각 (7)식 내지 (9)식으로 구한다.

이렇게 구하여진 L^*과 g_α으로 부터의 오차신호를 s_ew(n)이라 두며, 이 값은 다음 (10)식과 같다.

제3도는 잡음 코드북 탐색과정을 나타낸 것이다. 기존의 방식에서 잡음 코드북은 미리 정해진 M개의 코드워드로 구성된다. 잡음 코드워드 중의 i번째 코드워드 c_i(n)가 선택된다고 하면, 이 코드워드는 제301단계에서 필터링되어 gr · c_i'(n)이된다. 최적의 코드워드와 코드북 이득은 다음 (11)식 내지 (13)식과 같다.

최종적으로 얻어지는 음성필터의 여기신호는 다음 (14)식과 같다.

상기 (14)식의 결과는 다음 부프레임의 분석을 위한 적응 코드북을 갱신하는데 이용된다.

일반적으로 음성 부호화기의 성능은 현재의 분석음이 부호화과정과 복호화과정을 모두 거친 후에 합성음이 나올때까지의 시간(처리지연 혹은 코덱 지연:단위 ms), 계산량(단위:MIPS(Mega Instruction Per Second))과 전송률(단위:kbit/s)의 함수이다. 그리고, 코덱 지연은 부호화시 한번에 분석하는 입력 음성의 길이인 프레임 길이에 의존하게 된다. 프레임 길이가 긴 경우, 코덱 지연은 증가하게 된다. 따라서 같은 전송률로 동작하는 부호화기 사이에 코덱 지연, 프레임 길이, 계산량에 따라 부호화기의 성능에 차이가 나게 된다.

본 발명의 목적은 고정된 코드북없이 코드북을 재생하여 사용하는 음성 부호화방법 및 복호화방법을 제공하는데 있다.

상기 목적을 달성하기 위하여 본 발명에 의한 음성 부호화방법은 (a) 부호화하고자 입력된 음성신호에 대하여 음성분석을 위한 소정의 프레임길이로 수집한 후 고역필터링하는 전처리과정; (b) 상기 전처리된 음성신호로 부터 단구간 선형예측을 수행하여 음성 스펙트럼을 추출하는 음성스펙트럼 분석과정; (c) 상기 전처리된 음성에 대하여 포먼트 가중필터를 통과시켜 적응 및 재생코드북 탐색시 포먼트 영역에서 오차범위를 넓히고, 고조파 잡음 성형 필터를 통과시켜 피치 온셋 영역에서의 오차범위를 넓히는 가중필터링과정; (d) 음성의 잔차에 기초하여 추출된 개루프 피치를 이용하여 적응코드북을 탐색하는 적응코드북 탐색과정; (e) 적응 코드북 여기신호로 부터 생성된 재생 여기 코드북을 탐색하는 재생코드북 탐색과정; 및 (f) 상기 (d) 과정과 (e) 과정에 의해 생성된 각종 파라미터에 대하여 소정의 비트를 할당하여 비트스트림으로 형성하는 패킷화과정을 구비하는 것을 특징으로 한다.

상기 목적을 달성하기 위하여 본 발명에 의한 음성 복호화방법은 (a) 소정의 비트가 할당되어 전송된 비트스트림으로 부터 음성합성에 필요한 파라미터를 추출하는 비트언팩킹과정; (b) 상기 (a)과정에서 추출된 LSP 계수를 역양자화한 후, 부-부프레임별로 보간을 행하여 LPC 계수로 변환하는 LSP 계수 역양자화과정; (c) 상기 비트언팩킹과정에서 추출된 각 부프레임별 적응 코드북 피치와 피치 편차값을 이용하여 적응코드북 여기신호를 생성하는 적응코드북 역양자화과정; (d) 상기 비트언팩킹과정에서 추출된 재생 코드북 인덱스와 이득 인덱스를 사용하여 재생 여기 코드북 여기신호을 생성하는 재생코드북 생성 및 역양자화과정; (e) 상기 (c) 과정과 (d) 과정을 통해 생성된 여기신호에 의해 음성을 합성하는 음성합성과정을 구비하는 것을 특징으로 한다.

이하 첨부된 도면을 참조하여 본 발명에 대하여 상세히 설명하기로 한다.

제4도는 본 발명에 의한 재생 코드 여기 선형 예측 부호화장치의 부호화부를 나타낸 블럭도로서, 크게 전처리부(401,402), 음성스펙트럼 분석부(403,404), 가중필터부(405,406), 적응코드북 탐색부(409,410,411,412), 재생코드북 탐색부(413,414,415) 그리고 비트팩킹부(418)로 구성된다. 407, 408은 적응 코드북과 재생 코드북 탐색을 위해 필요한 단계이며, 416은 적응 코드북과 재생 코드북 탐색을 위한 결정 로직이다. 또한, 음성 스펙트럼 분석부는 가중필터를 위한 LP 분석기(403)와 합성필터를 위한 단구간 예측기(404)로 나뉘며, 단구간 예측기(404)는 420단계에서 426단계까지 세부적으로 나눌 수 있다.

제4도의 구성에 의거하여 본 발명에 의한 재생 코드 여기 선형 예측 부호화장치의 부호화부의 작용 및 효과에 대하여 설명하면 다음과 같다.

전처리부에 있어서, 8kHz로 표본화된 입력음성 s(n)은 프레이머(401)에서 음성 분석을 위해 20ms의 음성 데이타를 수집하여 저장한다. 음성 샘플들의 수는 160이다. 전처리기(402)에서는 입력된 음성으로 부터 직류성분을 제거하기 위해 고역필터링을 행한다.

음성 스펙트럼 분석부에 있어서, 음성 스펙트럼을 추출하기 위해 고역필터링된 음성신호로 부터 단구간 선형예측을 행한다. 우선, 160 샘플들의 음성은 3개의 구간으로 나된다. 각각을 부프레임(subframe)이라 한다. 본 발명에서는 부프레임마다 53, 53, 54개의 샘플들을 각각 할당한다. 각 부프레임은 2개의 부-부프레임(sub-subframe)으로 나뉘며, LP 분석기(403)에서 각 부-부프레임은 각각 16차 선형예측분석이 행해진다. 즉, 총 6번의 선형예측분석을 행하며, LP 분석 결과는 선형예측계수(LPC)가 된다. 이 6가지의 LPC 계수 중 마지막 계수는 현재 분석 프레임을 대표한다. 단구간 예측기(404)에 있어서, 스케일링기(420)에서는 이 LPC 계수를 스케일링하여 스텝-다운시키고, LPC/LSP 변환기(421)에서는 전송효율이 양호한 LSP 계수로 변환한다. 벡터양자화기(LSP VQ;422)에서는 LSP 계수를 학습을 통하여 미리 작성된 LSP 벡터 양자화 코드북(426)을 사용하여 양자화시킨다. 벡터역양자화기(LSP VQ^-1;423)에서는 양자화된 LSP 계수에 대하여 음성합성필터와 동기를 맞추기 위해 LSP 벡터 양자화 코드북(426)을 사용하여 역양자화시킨다. 부-부프레임 보간기(424)에서는 역양자화된 LSP 계수에 대하여 부-부프레임별로 보간을 행한다. 본 발명에서 사용되는 각종 필터는 LPC 계수에 근거하기 때문에 보간된 LSP 계수는 LSP/LPC 변환기(425)에서 다시 LPC 계수로 변환된다. 단구간 예측기(404)에서 출력된 6가지 LPC 계수들은 제로입력응답 계산기(407)와 가중합성필터(408)를 구성하는데 사용된다. 그러면, 음성스펙트럼 분석에 사용되는 각 단계에 대하여 상세히 설명하기로 한다.

먼저 LPC 분석단계에서는 LPC 분석을 위한 입력음성에 다음 (15)식과 같이비대칭 해밍 윈도우를 곱한다.

본 발명에서 제안된 비대칭 해밍 윈도우 w(n)는 다음 (16)식과 같다.

제6도는 음성분석과 w(n)의 적용 예를 나타낸 것이다. 제6도의 (a)는 바로 전 프레임의 해밍윈도우를 나타내고, (b)는 현재 프레임의 해밍윈도우를 나타낸다. 본 발명에서는 LN=173, RN=67을 사용한다. 과거프레임과 현재프레임과는 80개의 샘플들을 중첩시키며 이 LPC 계수는 p차의 선형 다항식으로 현재의 음성을 근사화시키는 경우의 다항식의 계수예 해당하며, LPC 분석은 다음 (17)식이 최소가 되도록 하는 계수( α₁,α₂, ...,α₁₆)를 찾는다.

상기 (17)식에서,

LPC 계수를 구하기 위해 자동상관방법(autocorrelation method)를 이용한다.본 발명에서는 자동상관방법으로 부터 LPC 계수를 구하기 전에 음성 합성시에 발생하는 이상현상을 제거하기 위해 스펙트럼 스무딩 기술(spectral smoothing technique)을 도입한다. 본 발명에서는 90Hz의 밴드폭 확장을 가져오도록 하기 위해 다음 (18)식과 같은 이항 윈도우(binomial window)를 자동상관 계수에 곱한다.

또한, 자동상관의 첫번째 계수에 1.003을 곱하는 백색잡음 보정기술(white noise correction technique)을 도입하여 35dB의 신호대 잡음비(Signal-to-Noise Ratio;SNR) 억제 효과를 갖는다.

다음, LPC 계수의 양자화단계에서는, 16차 LPC는 스케일링기(420)에서 10차 LPC로 변환된다. 또한, LPC/LSP 변환기(421)는 LPC 계수의 양자화를 위해 10차 LSP를 10차 LPC계수로 변환한다. 변환된 LSP 계수는 LSP VQ(422)에서 23비트로 양자화된 후, 다시 LSP VQ^-1(423)에서 역양자화된다. 양자화 알고리즘은 공지된 링크된 스플릿 벡터 양자화기(linked-split vector quantizer)를 사용한다. 역양자화된 LSP 계수는 부-부프레임 보간기(424)에서 부-부프레임 보간이 행해진 후, LSP/LPC 변환기(425)에서 다시 10차 LPC 계수로 변환된다.

s(s=0, ...,5)번째 부-부프레입에 대한 i(i=1, ...,10)번째 음성 파라미터는다음 (19)식과 같이 얻을 수 있다.

상기 (19)식에서, w_i(n-1)와 w_i(n)은 각각 바로 이전 프레임과 현재 프레임의 i번째 LSP 계수를 나타낸다.

다음 가중필터부에 대하여 설명하기로 한다.

가중필터는 포먼트 가중 필터(formant weighting filter;405)와 고조파 잡음 성형 필터(harmonic noise shaping filter;406)로 구성된다.

음성합성필터(l/A(z))와 포먼트 가중필터(W(z))는 다음 (20)식과 같이 나타낼 수 있다.

전처리된 음성에 대하여 포먼트 가중필터(W(z);405)를 통과시켜 적응 및 재생코드북 탐색시 포먼트 영역에서 오차범위를 넓혀 준다. 고조파 잡음 성형 필터(406)는 피치 온셋(on-set) 영역에서의 오차범위를 넓혀 주기 위해 사용되며 그 필터형태는 다음 (21)식과 같다.

고조파 잡음 성형 필터(406)에서의 지연 T와 이득값 g,은 다음 (22)식과 같이 구한다. s_p(n)이 포먼트 가중필터(W(z);405)를 통과한 후의 신호를 s_ww(n)이라 하면,

상기 (22)식에서 P_OL은 피치탐색기(409)에서 구한 개루프(open-loop) 피치값이 된다. 개루프 피치값 추출은 프레임을 대표하는 피치를 구하는 반면, 고조파 잡음 성형 필터(406)에서는 현재의 부프레임에 대표되는 피치와 그때의 이득값을 구한다. 이 때, 피치의 범위는 개루프 피치에서의 2배와 반배를 고려한다.

제로입력응답 계산기(407)에서는 바로 이전 부프레임의 합성필터의 영향을 제거한다. 제로입력응답(ZIR)은 입력이 제로일때의 합성필터의 출력에 해당하는 것으로서, 이는 바로 이전 부프레임에서 합성된 신호에 의한 영향을 나타낸다. 이 ZIR의 결과는 적응 코드북이나 재생 코드북에서 사용할 목표신호를 수정하는데 이용된다. 즉, 원 목표신호 s_w(n)에 ZIR인 z(n)을 빼서 최종 목표신호 s_wz(n)을 구한다.

다음, 적응코드북 탐색부에 대하여 설명하기로 한다.

적응 코드북 탐색부는 피치탐색기(409)와 적응코드북 업데이트기(417)로 크게 나눌 수 있다.

여기서, 피치탐색기(409)에 있어서 개루프 피치 P_OL는 음성의 잔차에 기초하여 추출된다. 우선 음성 s_p(n)을 LPC 분석기(403)에서 구한 6가지 LPC 계수를 가지고 해당 부-부프레임을 필터링한다. 잔차신호를 e_p(n)이라 하면, P_OL은 다음 (23)식으로 나타낼 수 있다.

다음, 적응 코드북 탐색방법에 대하여 설명하기로 한다.

본 발명에서의 주기신호 분석은 탭수가 3인 멀티탭(multi-tap) 적응코드북 방법을 사용한다. L의 지연을 갖고 만들어지는 여기신호를 v_L(n) 이라 하면 적응코드북을 위한 여기신호는 v_L-1(n),v_L(n),v_L+1(n)의 세가지가 이용된다.

제7도는 적응코드북 탐색을 설명하기 위한 과정을 나타낸 도면이다. 제701단계의 필터를 통과한 후의 신호는 각각 g-₁r'_L-1(n),g₀r'_L(n),g₁r_L+1(n)으로 표현되며 적응 코드북 이득벡터는 g_v=(g_-1,g₀,g₁)이 된다. 따라서 목표신호와의 차는 다음 (24)식과 같이 표현된다.

상기 (24)식의 제곱의 합을 최소화하는 g_v=(g_-1,g₀,g₁)는 미리 구성된 128개의코드워드를 갖는 적응 코드북 이득 벡터 양자화기(412)로부터 각각 코드워드를 하나씩 대입하여 다음 (25)식을 만족하는 이득벡터의 인덱스와 그때의 피치 T_v를 구한다.

여기서 피치 탐색 범위는 다음 (26)식과 같이 각 부프레임마다 다르게 된다.

적응코드북 탐색 후의 적응코드북 여기신호 v_g(n)은 제4도에서와 같이 다음 (27)식으로 나타낼 수 있다.

다음, 재생코드북 탐색부에 대하여 설명하기로 한다.

재생 여기 코드북 발생기(413)에서는 상기 (27)식의 적응 코드북 여기신호로 부터 재생 여기 코드북을 생성한다. 이 재생 코드북은 적응코드북으로 모델링되고 남은 잔차신호를 모델링하는데 이용된다. 즉, 종래의 고정 코드북이 분석 음성에 상관없이 메모리에 저장된 일정한 패턴으로 음성을 모델링하는 반면, 재생 코드북은 분석 프레임마다 최적의 코드북을 재생한다.

다음, 메모리 업데이트부에 대하여 설명하기로 한다.

상기의 결과로 부터 구한 적응 코드북 여기신호와 재생 코드북 여기신호의 합은 차수가 서로 다른 포먼트 가중필터(W(z))와 음성합성필터(l/A(z))로 구성된 가중합성필터(408)에 입력이 되며, 이 신호는 다음 부프레임의 분석을 위해 적응코드북 업데이트기(417)에서 적응코드북을 업데이트하는데 이용된다. 또한, 가중합성필터(408)를 동작시켜 다음 부프레임의 제로입력응답을 구하는데 이용된다.

다음, 비트 패킹부(418)에 대하여 설명하기로 한다.

음성의 모델링한 결과는 LSP 계수, 각 부프레임별 적응코드북의 피치 T_t와 개루프 피치 P_OL와의 차인 ΔT=( T_v1-P_OL,T_v2-P_OL,T_v3-P_OL) 그리고 양자화된 이득벡터의 인덱스(제4도에서는 어드레스로 표기됨), 각 부프레임별 재생 코드북의 코드북 인덱스(c(n)의 어드레스)와 양자화된 이득 g_c의 인덱스이다. 각 파라미터에 다음 표1과 같은 비트할당을 행한다.

제5도는 본 발명에 의한 재생 코드 여기 선형 예측 부호화장치의 복호화부를 나타낸 블럭도로서, 크게 비트언팩킹부(501), LSP 역양자화부(502,503,504), 적응코드북 역양자화부(505,506,507), 재생코드북 생성 및 역양자화부(508,509), 그리고 음성합성 및 후처리부(511,512)로 나누어진다. 각 부분은 부호화부의 역연산을 행한다.

제5도의 구성에 의거하여 본 발명에 의한 재생 코드 여기 선형 예측 부호화장치의 복호화부의 작용 및 효과에 대하여 설명하면 다음과 같다.

먼저, 비트언패킹부(501)에서는 비트팩킹부(418)의 역연산을 행한다. 상기 표1과 같이 할당되어 전송된 비트스트림의 80비트로 부터 음성합성에 필요한 파라미터를 추출한다. 필요한 파라미터로는 LSP 계수를 위한 어드레스, 각 부프레임별 적응코드북의 피치 Tt 와 개루프 피치 P_OL와의 차인 ΔT=( T_v1-P_OL,T_v2-POL,T_v3-P_OL) 그리고 양자화된 이득벡터의 인덱스(제4도에서는 어드레스로 표기됨), 각 부프레임별 재생 코드북의 코드북 인덱스(c(n)의 어드레스)와 양자화된 이득 g_c의 인덱스이다.

다음, LSP 역양자화부에서는 벡터역양자화기(LSP VQ_-1;502)에서 LSP 계수의 역양자화를 수행한 후, 부-부프레임 보간기(503)에서 역양자화된 LSP 계수에 대하여 부-부프레임별로 보간을 행하고, LSP/LPC 변환기(504)에서 다시 LPC 계수로 변환한다.

다음, 적웅코드북 역양자화부에서는 비트언팩킹과정에서 얻어진 각 부프레임별 적응 코드북 피치와 피치 편차값을 이용하여 적응코드북 여기신호 v_g(n)를 생성한다.

다음, 재생코드북 생성 및 역양자화부에서는 재생여기 코드북 발생기(508)에서 패킷하에서 얻어진 재생 코드북 인덱스와 이득 인덱스를 사용하여 재생 여기 코드북 여기신호 cg(n)을 생성한 후, 이에 따라 재생 코드북을 생성하고 이에 따라 역양자화한다.

다음, 음성합성 및 후처리부에서는 상기 적응코드북 역양자화부와 재생코드북 생성 및 역양자화부를 통해 만들어진 여기신호 r(n)은 LSP/LPC 변환기(504)로 부터 변환된 LPC 계수를 갖는 합성필터(511)의 입력이 된다. 또한, 인간의 청각특성을 고려하여 재생된 신호의 품질을 향상시키기 위해 포스트필터(212)를 거친다.

다음은 전송채널에 대한 효과실험인 ACR(Absolute Category Rating) 실험1과 주변 배경잡음에 대한 효과실험인 CCR(Comparatively Category Rating) 실험 2에 의해 본 발명에 의한 RCELP 부호화장치 및 복호화장치의 검증한 결과를 나타낸 것이다. 다음 테이블 1과 태이블 2는 실험 1과 실험 2의 테스트 조건을 나타낸다.

Table 1. Test conditions of experiment 1

Table 2. Test conditions for experiment 2

다음 테이블 3 내지 테이블 8은 실험 1과 실험 2의 테스트 결과를 나타낸 것이다.

Table 3. Test results of experiment 1

Table 4. Verircation of the requirements for the error free, random bit error, tandemming and input levels

Table 5. Verircation of the requirerments for missing random frames

Table 6. Test results of experiment 2

Table 7. Verification of the requirements for the babble, vehicle, andinterference talker noise

Table 8. Verification of the talker dependency

본 발명에 의한 RCELP는 프레임길이 20ms, 코덱지연 45ms를 가지며, 4kbit/s의 전송률로 구현된 것이다.

본 발명에 의한 4kbis/s RCELP는 저전송 공중전화망(Public Switched Telephone Network:PSTN) 영상전화기, 개인통신(Personal Communication), 이동전화기(Mobile Telephone), 메시지 복원시스템(Message Retrieval System). 테이프 없는 응답장치(Tapeless Answering Devices)에 응용할 수 있다.

상술한 바와 같이 본 발명에 의한 재생 코드 여기 선형 예측 부호화방법 및 장치에서는 재생 코드북이라는 기법을 제안함으로써 CELP 계열의 부호화기를 저전송률로 구현할 수 있다. 또한, 부-부프레임 보간을 행함으로써 부프레임에 따른 음질 변화를 최소화할 수 있으며, 각 파라미터의 비트수르 조절함으로써 가변전송률부호화기로의 확장이용이하다.

제1도는 종래의 코드 여기 선형 예측(CELP) 부호화방법을 나타낸 도면.

제2도는 제1도에 도시된 CELP 부호화방법에 있어서 적응 코드북 탐색과정을 나타낸 도면.

제3도는 제1도에 도시된 CELP 부호화방법에 있어서 잡음 코드북 탐색과정을 나타낸 도면.

제4도는 본 발명에 의한 음성 부호화장치의 부호화부를 나타낸 블럭도.

제5도는 본 발명에 의한 음성 부호화장치의 복호화부를 나타낸 블럭도.

제6도는 분석구간과 비대칭 해밍 윈도우의 적용범위를 나타낸 그래프.

제7도는 본 발명에 의한 음성 부호화장치에 있어서 적응 코드북 탐색과정을 나타낸 도면.

Claims

(a) 음성신호로 부터 단구간 선형예측을 수행하여 음성 스펙트럼을 추출하는 음성스펙트럼 분석과정;

(b) 상기 전처리된 음성에 대하여 포먼트 가중필터를 통과시켜 적응 및 재생코드북 탐색시 프런트 영역에서 오차범위를 넓히고, 음성합성필터와 고조파 잡음 성형 필터를 통과시켜 피치 온셋 영역에서의 오차범위를 넓히는 가중합성필터링과정;

(c) 음성의 잔차에 기초하여 추출된 개루프 피치를 이용하여 적응코드북을 탐색하는 적응코드북 탐색과정;

(d) 적응 코드북 여기신호로 부터 생성된 재생 여기 코드북을 탐색하는 재생코드북 탐색과정; 및

(e) 상기 (c) 과정과 (d) 과정에 의해 생성된 각종 파라미터에 대하여 소정의 비트를 할당하여 비트스트림으로 형성하는 패킷화과정을 구비하는 것을 특징으로 하는 음성 부호화방법.
(a) 소정의 비트가 할당되어 전송된 비트스트림으로 부터 음성합성에 필요한 피라미터를 추출하는 비트언팩킹과정;

(b) 상기 (a)과정에서 추출된 LSP 계수를 역양자화한 후, 부-부프레임별로 보간을 행하여 LPC 계수로 변환하는 LSP 계수 역양자화과정;

(c) 상기 비트언팩킹과정에서 추출된 각 부프레임별 적응 코드북 피치와 피치 편차값을 이용하여 적응코드부 여기신호를 생성하는 적응코드북 역양자화과정;

(d) 상기 비트언팩킹과정에서 추출된 재생 코드북 인덱스와 이득 인덱스를 사용하여 재생 여기 코드북 여기신호을 생성하는 재생코드북 생성 및 역양자화과정;

(e) 상기 (c) 과정과 (d) 과정을 통해 생성된 여기신호에 의해 음성을 합성하는 음성합성과정을 구비하는 것을 특징으로 하는 음성 복호화방법.
음성신호로 부터 단구간 선형예측을 수행하여 음성 스펙트럼을 추출하는 음성스펙트럼 분석부;

상기 전처리된 음성에 대하여 포먼트 가중필터를 통과시켜 적응 및 재생코드북 탐색시 포먼트 영역에서 오차범위를 넓히고, 음성합성필터와 고조파 잡음 성형 필터를 통과시켜 피치 온셋 영역에서의 오차범위를 넓히는 가중합성필터;

음성의 잔차에 기초하여 추출된 개루프 피치를 이용하여 적응코드북을 탐색하는 적응코드북 탐색부;

적응 코드북 여기신호로 부터 생성된 재생 여기 코드북을 탐색하는 재생코드북 탐색부; 및

상기 적응코드북 탐색부와 재생코드북 탐색부에 의해 생성된 각종 파라미터에 대하여 소정의 비트를 할당하여 비트스트림으로 형성하는 패킷화부를 구비하는 것을 특징으로 하는 음성 부호화장치.
소정의 비트가 할당되어 전송된 비트스트림으로 부터 음성합성에 필요한 파라미터를 추출하는 비트언팩킹부;

상기 비트언팩킹부에서 추출된 LSP 계수를 역양자화한 후, 부-부프레임별로 보간을 행하여 LPC 계수로 변환하는 LSP 계수 역양자화부;

상기 비트언팩킹부에서 추출된 각 부프레임별 적응 코드북 피치와 피치 편차값을 이용하여 적응코드북 여기신호를 생성하는 적응코드북 역양자화부;

상기 비트언팩킹부에서 추출된 재생 코드북 인덱스와 이득 인덱스를 사용하여 재생 여기 코드북 여기신호을 생성하는 재생코드북 생성 및 역양자화부; 및

상기 적응코드북 역양자화부와 상기 재생코드북 생성 및 역양자화부를 통해 생성된 여기신호에 의해 음성을 합성하는 음성합성부를 구비하는 것을 특징으로 하는 음성 복호화장치.
제1항에 있어서,

부호화하고자 입력된 음성신호에 대하여 음성분석을 위한 소정의 프레임길이로 수집한 후 고역필터링하는 전처리과정을 더 포함함을 특징으로 하는 음성 부호화방법.
제1항에 있어서,

상기 가중필터링과정에서 서로 다른 차수(order)의 포먼트 가중필터와 음성합성필터를 사용함을 특징으로 하는 음성 부호화방법.
제6항에 있어서,

상기 포먼트 가중필터의 차수는 16, 음성합성필터의 차수는 10으로 함을 특징으로 하는 음성 부호화방법.
제3항에 있어서,

부호화하고자 입력된 음성신호에 대하여 음성분석을 위한 소정의 프레임길이로 수집한 후 고역필터링하는 전처리부를 더 포함함을 특징으로 하는 음성 부호화장치.
제3항에 있어서,

상기 가중합성필터는 서로 다른 차수(order)의 포먼트 가중필터와 음성합성필터를 구비함을 특징으로 하는 음성 부호화장치.
제9항에 있어서,

상기 포먼트 가중필터의 차수는 16, 상기 음성합성필터의 차수는 10으로함을 특징으로 하는 음성 부호화장치.