KR20060027117A

KR20060027117A - 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법

Info

Publication number: KR20060027117A
Application number: KR1020040075959A
Authority: KR
Inventors: 이강은; 성호상; 주기현
Original assignee: 삼성전자주식회사
Priority date: 2004-09-22
Filing date: 2004-09-22
Publication date: 2006-03-27
Also published as: US8473284B2; US20060074643A1; KR100647290B1

Abstract

합성된 음성의 특성을 이용하여 양자화/역양자화를 선택하는 음성 부호화/복호화 장치 및 그 방법이 개시된다. 입력 신호로부터 LPC 계수를 추출하고, 추출한 LPC 계수를 LSF로 변환하고, 과거 프레임에서 합성된 음성 신호의 특성을 기초로 LSF를 제1 LSF 양자화 과정 또는 제2 LSF 양자화 과정을 통해 양자화한 후, 양자화된 LSF를 LPC 계수로 변환한다. 이로써, 부호화기/복화기에서 음성 특성에 따라 특정 양자화/역양자화를 선택할 수 있다.

LSF 양자화, LPC, 음성 신호

Description

합성된 음성의 특성을 이용하여 양자화/역양자화를 선택하는 음성 부호화/복호화 장치 및 그 방법{Voice encoder/decoder for selecting quantization/dequantization using synthesized speech-characteristics}

도 1은 종래에 사용되는 두 가지 예측기를 가진 LSF 양자화기의 구조를 도시한 도면,

도 2는 본 발명에 따른 CELP(Code-Excited Linear Prediction) 구조의 음성 부호화기의 일 실시예를 도시한 블록도,

도 3은 본 발명에 따른 CELP 구조의 음성 복호화기의 일 실시예의 구성을 도시한 블록도,

도 4는 본 발명에 따른 음성 부호화기/복호화기의 양자화 선택부 및 역양자화 선택부의 구성을 도시한 블록도, 그리고,

도 5는 도 4의 선택 신호 발생부의 상세 동작 과정을 도시한 도면이다.

본 발명은 음성 부호화/복호화 장치에 관한 것으로, 보다 상세하게는, 음성 부호화/복호화 장치에서 음성 특성에 적합한 부호화/복호화 방법을 선택하는 장치 및 그 방법에 관한 것이다.

종래의 선형 예측 부호화(Linear Prediction Coding : LPC) 계수 양자화기는 음성 코덱의 부호화기로 입력된 신호를 선형 예측 분석하기 위하여 LPC 계수를 구하고, 복호화기에 전송하기 위하여 LPC 계수를 양자화한다. 그러나, LPC 계수 양자화기가 LPC 계수를 직접 양자화하기에는 LPC 계수의 동작 범위가 크고, LPC 양자화기는 적은 오차에도 필터의 안정성이 보장되지 않는 문제점이 있다. 이러한 문제점들로 인해 LPC 계수는 양자화 특성이 좋고 수학적으로 등가인 Line Spectral Frequency(LSF)로 변환하여 양자화한다.

일반적으로 8kHz로 샘플링한 음성을 대상으로 하는 음성 부호화기의 경우, 10개의 LSF를 구하여 양자화하는데 10차 LSF는 단구간 상관도가 높고 LSF 벡터 내에서 각 요소간에 순서 성질이 존재하기 때문에, 양자화기로 예측 벡터 양자화기를 사용한다. 하지만 음성의 주파수적 특성이 급격히 변하는 프레임의 경우 예측기에 의한 많은 오차가 발생하므로 양자화의 성능이 저하된다. 따라서, 프레임간 상관도가 떨어지는 LSF 벡터를 잘 양자화하기 위하여 두 가지의 예측기를 가진 양자화기가 사용되어 왔다.

도 1은 종래에 사용되는 두 가지 예측기를 가진 LSF 양자화기의 구조를 도시한 도면이다.

도 1을 참조하면, LSF 양자화기로 입력된 LSF 벡터는 라인을 통해 제1벡터 양자화부(111) 및 제2벡터 양자화부(121)로 각각 입력된다. 이 때, 제1벡터 양자화부(111) 및 제2벡터 양자화부(121)로 입력되는 각각의 LSF 벡터는 먼저 제1 감산기 (100) 및 제2 감산기(105)의 각각에서 제1 예측기(115) 및 제2 예측기(125)에서 예측된 각각의 LSF 벡터로 감산된다. LSF 벡터 감산 과정은 다음 수학식 1과 같다.

여기서,

는 제1벡터 양자화기(110)에서 n번째 프레임의 LSF 벡터에서 i번째 요소의 예측 에러 값이고,

은 n 번째 프레임의 LSF 벡터에서 i번째 요소를 나타내며,

는 제1 벡터 양자화부(111)에서 n번째 프레임의 예측된 LSF 벡터의 i번째 요소를 나타낸다. 마지막으로,

는 제1벡터 양자화부(111)에서

과

와의 예측 계수 값이다.

제1 감산기(100)를 통하여 출력된 예측 에러 신호는 제1벡터 양자화기(110)에 의해 벡터 양자화되고, 양자화된 예측 에러 신호는 제1예측기(115) 및 제1가산기(130)로 입력된다. 제1예측기(115)로 입력된 양자화된 예측 에러 신호는 다음 프레임의 예측을 위하여 수학식 2와 같이 계산되어 메모리에 저장된다.

여기서,

는 제1벡터 양자화기(110)에서 n번째 프레임에서 양자화된 예측 에러 신호 벡터의 i번째 요소를 나타내며,

는 제1벡터 양자화부(111)에서 i번째 요소의 예측 계수 값이다.

제1가산기(130)는 제1벡터 양자화기(110)를 통해 양자화된 LSF 예측 에러 벡터에 예측된 신호를 가산하는 역할을 한다. 예측된 신호와 가산된 LSF 예측 에러 벡터는 라인을 통하여 LSF 벡터 선택부(140)로 출력된다. 제1가산기(130)에서 예측 신호 가산 처리는 수학식 3과 같다.

여기서,

는 제1벡터 양자화기(110)에서 n번째 프레임의 예측 에러 신호를 양자화한 벡터의 i번째 요소 값이다. 라인을 통하여 제2벡터 양자화부(121)로 입력된 LSF 벡터는 제2감산기(105)를 통하여 제2예측기(125)에서 예측된 LSF 값을 제거하여 예측 에러값을 출력한다. 예측 에러 신호 감산 과정은 수학식 4와 같다.

여기서,

는 제2벡터 양자화부(121)에서 n번째 프레임의 LSF 벡터에서 i번째 요소의 예측 에러 값이고,

는 n 번째 프레임의 LSF 벡터에서 i 번째 요소를 나타내며,

는 제2벡터 양자화부(121)에서 n 번째 프레임에서 예측된 LSF 벡터의 i번째 요소를 나타낸다. 마지막으로,

는 제2벡터 양자화부(121)에서

과

와의 예측 계수 값이다.

제2 감산기(105)를 통하여 출력된 예측 에러 신호는 제2벡터 양자화기(120)를 통하여 벡터 양자화되고 양자화된 예측 에러 신호는 제2예측기(125)와 제2가산기(135)로 입력된다. 제2예측기(125)로 입력된 양자화된 예측 에러 신호는 다음 프레임에서 예측을 위해 수학식 5와 같이 계산되어 메모리에 저장된다.

여기서,

는 제2벡터 양자화부(121)에서 n번째 프레임의 양자화된 예측 에러 신호 벡터의 i번째 요소를 나타내며,

는 제2벡터 양자화부(121)에서 i번째 요소의 예측 계수 값이다.

제2가산기(135)로 입력된 신호는 예측된 신호와 가산되어 제2벡터 양자화기(120)를 통하여 양자화된 LSF 벡터를 라인을 통하여 스위치 선택부(140)로 출력한다. 제2가산기(135)에서 예측 신호 가산 처리는 수학식 6과 같다.

여기서,

는 제2벡터 양자화기(120)에서 n번째 프레임의 예측 에러 신호를 양자화한 벡터의 i번째 요소 값이다. LSF 벡터 선택부(140)는 제1벡터 양자화부(111)와 제2벡터 양자화부(121)로부터 출력된 양자화된 LSF 벡터와 원래 LSF 벡터와의 차이값을 계산하여 차이값이 더 적은 쪽의 LSF 벡터를 선택하는 스위치 선택 신호를 스위치 선택부(145)로 입력한다. 스위치 선택부(145)는 스위치 선택 신호에 의해 제1벡터 양자화부(111)와 제2벡터 양자화부(121)에서 양자화된 LSF 벡터 중 원래 LSF 벡터와의 차이가 더 적은 쪽의 양자화된 LSF 값을 선택하여 라인으로 출력한다.

일반적으로, 제1벡터 양자화부(111)와 제2벡터 양자화부(121)는 동일한 구조를 가지고 있으며, 단지 LSF 벡터의 프레임간 상관도에 더 유동적으로 대처하기 위하여 다른 예측기(115,125)를 사용하였고, 각 벡터 양자화기(110,120)는 각각의 코드북을 가지고 있다. 따라서, 하나의 양자화부를 사용할 때 보다 계산량은 두 배가되며 선택된 양자화부를 디코더에서도 알 수 있도록 스위치 선택 정보 1비트를 디 코더로 전송한다.

상기에서 설명한 종래의 양자화기 구조는 두 양자화부가 병렬로 양자화를 수행하기 때문에 복잡도가 하나의 양자화부를 사용할 때 보다 두 배로 증가하며, 선택된 양자화부를 나타내기 위하여 1비트가 사용된다. 또한, 스위칭 비트가 채널상에서 손상을 입는다면 디코더 단에서는 잘못된 양자화부를 선택하여 음질 복호화의 질을 감소시킨다.

본 발명이 이루고자 하는 기술적 과제는, 과거 프레임에서 합성된 음성의 특성에 따라 현재 프레임에 대해 특정 양자화/역양자화만이 수행되도록 하여 양자화/역양자화에 따른 복잡도 및 계산량을 감소시키고 CELP 계열의 음성 코덱에서 LSF 양자화를 효과적으로 수행하도록 하는 음성 부호화기/복호화기 및 그 방법을 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 음성 부호화기의 일 실시예는, 입력 신호로부터 LPC 계수를 추출하고, 상기 추출한 LPC 계수를 LSF로 변환하고, 소정의 양자화 선택 신호에 따라 상기 LSF를 제1 LSF 양자화부 또는 제2 LSF 양자화부를 통해 양자화한 후 LPC 계수로 변환하는 양자화부; 및 과거 프레임에서 합성된 음성 신호의 특성을 기초로 상기 제1 LSF 양자화부 또는 상기 제2 LSF 양자화부를 선택하는 양자화 선택 신호를 생성하는 양자화 선택부;를 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 음성 부호화기에서 양 자화 선택 방법의 일 실시예는, 입력 신호로부터 LPC 계수를 추출하는 단계; 상기 추출한 LPC 계수를 LSF로 변환하는 단계; 과거 프레임에서 합성된 음성 신호의 특성을 기초로 상기 LSF를 제1 LSF 양자화 과정 또는 제2 LSF 양자화 과정을 통해 양자화하는 단계; 및 상기 양자화된 LSF를 LPC 계수로 변환하는 단계;를 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 음성 복호화기의 일 실시예는, 소정의 채널을 통해 수신한 LSF 양자화 정보를 소정의 역양자화 선택 신호에 따라 제1 LSF 역양자화부 또는 제2 LSF 역양자화부를 통해 역양자화하여 LSF 벡터를 생성하고, 상기 LSF 벡터를 LPC 계수로 변환하는 역양자화부; 및 상기 채널을 통해 수신한 음성 신호 합성 정보를 이용하여 생성된 과거 프레임의 합성 신호에서 음성 신호의 특성을 기초로 상기 제1 LSF 역양자화부 또는 상기 제2 LSF 역양자화부를 선택하는 상기 역양자화 선택 신호를 생성하는 역양자화 선택부;를 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 음성 복호화기에서 역양자화 선택 방법의 일 실시예는, 소정의 채널을 통해 LSF 양자화 정보 및 여기 신호 합성 정보를 수신하는 단계; 상기 LSF 양자화 정보를 상기 음성 신호 합성 정보를 이용하여 생성된 과거 프레임의 합성 신호에서 음성 신호의 특성을 기초로 제1 LSF 역양자화 또는 제2 LSF 역양자화를 통해 역양자화하여 LSF 벡터를 생성하는 단계; 및 상기 LSF 양자화 벡터를 LPC 계수로 변환하는 단계;를 포함한다.

이로써, 부호화기/복화기에서 음성 특성에 따라 특정 양자화/역양자화를 선택할 수 있다.

이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 음성 부호화/복호화 장치 및 양자화/역양자화 선택 방법에 대해 상세히 설명한다.

도 2는 본 발명에 따른 CELP(Code-Excited Linear Prediction) 구조의 음성 부호화기의 일 실시예를 도시한 블록도이다.

도 2를 참조하면, 음성 부호화기는 전처리부(200), 양자화부(202), 지각 가중필터(255), 신호 합성부(262) 및 양자화 선택부(240)로 구성된다. 그리고, 양자화부(202)는 LPC 계수 추출부(205), LSF 변환부(210), 제1 선택 스위치(215), 제1 LSF 양자화부(220), 제2 LSF 양자화부(225) 및 제2 선택 스위치(230)로 구성되며, 신호 합성부(262)는 여기 신호 탐색부(265), 여기 신호 합성부(270) 및 합성 필터(275)로 구성된다.

전처리부(200)는 라인을 통하여 입력된 음성 신호에 윈도우를 취한다. 윈도우가 취하여진 신호는 LPC(Linear Prediction Coding) 계수 추출부(205) 및 지각 가중 필터(255)로 입력된다. LPC 계수 추출부(205)는 입력 음성 신호의 현재 프레임에 해당하는 LPC 계수를 autocorrelation 방법과 Durbin algorithm을 통하여 추출한다. LPC 계수 추출부(205)에서 추출된 LPC 계수는 LSF 변환부(210)로 입력된다.

LSF 변환부(210)는 입력된 LPC 계수를 벡터 양자화에 더욱 적합한 LSF(Line Spectral Frequency)로 변환한 후 제1 선택 스위치(215)로 출력한다. 제1 선택 스위치(215)는 양자화 선택부(240)로부터 출력된 양자화 선택 신호에 따라 LSF 변환부(210)로부터 출력된 LSF를 제1 LSF 양자화부(220) 또는 제2 LSF 양자화부(225)로 출력한다.

제1 LSF 양자화부(220) 및 제2 LSF 양자화부(225)는 양자화된 LSF를 제2 선택 스위치(230)로 출력한다. 제2 선택 스위치(230)는 제1 선택 스위치(215)와 마찬가지로 양자화 선택부(240)로부터 출력된 양자화 선택 신호에 따라 제1 LSF 양자화부(220) 또는 제2 LSF 양자화(225)에서 양자화된 LSF를 선택한다. 제2 선택 스위치(230)는 제1 선택 스위치(215)와 동기되어 있다.

그리고, 제2 선택 스위치(230)는 선택한 양자화된 LSF를 LPC 계수 변환부(235)로 출력한다. LPC 계수 변환부(235)는 양자화된 LSF를 양자화된 LPC 계수로 변환하고 합성 필터(275) 및 지각 가중 필터(255)로 출력한다.

지각 가중 필터(perceptual weighting filter)(255)는 전처리부(200)로부터 윈도우가 취하여진 음성 신호 및 LPC 계수 변환부(235)로부터 양자화된 LPC 계수를 입력받는다. 지각 가중 필터(255)는 양자화된 LPC 계수를 이용하여 윈도우가 취하여진 음성신호를 지각 가중한다. 즉, 지각 가중 필터(255)의 역할은 합성된 음성 신호의 잡음 성분을 인간이 덜 인지하도록 하는 역할을 한다. 지각 가중된 음성 신호는 감산기(260)로 입력된다.

합성 필터(275)는 여기 신호 합성부(270)로부터 수신한 여기 신호를 LPC 계수 변환부(235)로부터 수신한 양자화된 LPC 계수를 이용하여 합성하고, 합성된 음성 신호를 감산기(260) 및 양자화 선택부(240)로 출력한다.

감산기(260)는 지각 가중 필터(255)로부터 수신한 지각 가중된 음성 신호에서 합성 필터부(275)로부터 수신한 합성된 음성 신호를 감산하여 얻은 선형 예측 잔여 신호를 여기 신호 탐색부(265)로 출력한다. 선형 예측 잔여 신호를 생성하는 과정은 수학식 7과 같다.

여기서,

은 선형 예측 잔여 신호를 나타내며,

은 인지 가중된 음성 신호이다. 그리고,

는 양자화된 LPC 계수 벡터의 i 번째 요소 값이고,

은 합성된 음성 신호, L은 한 프레임 당 샘플 수를 나타낸다.

여기 신호 탐색부(265)는 합성 필터(275)를 사용하여 나타낼 수 없는 음성 신호를 표현하기 위한 블록이다. 일반적인 음성 코덱의 경우 두 가지 탐색부가 사용된다. 그 첫 번째는 피치 탐색부로써 음성의 주기성을 나타내는 값이다. 두 번째는 2차 여기 신호 탐색부로서, 잡음 형태의 파형을 갖는, 피치 분석과 선형 예측 분석을 거친 음성 신호를 효과적으로 표현하기 위해 사용된다.

다시 말하면, 여기 신호 탐색부(265)에 입력된 신호는 피치 값 만큼 지연된 신호와 2차 여기 신호의 합으로 표현되어 여기 신호 합성부(270)로 출력된다.

도 3은 본 발명에 따른 CELP 구조의 음성 복호화기의 일 실시예의 구성을 도시한 블록도이다.

도 3을 참조하면, 음성 복호화기는 역양자화부(302), 역양자화 선택부(325), 신호 합성부(332) 및 후처리부(340)로 구성된다. 여기서, 역양자화부(302)는 제3 선택 스위치(300), 제1 LSF 역양자화부(305), 제2 LSF 역양자화부(310), 제4 선택 스위치(315) 및 LPC 계수 변환부(320)로 구성되며, 신호 합성부(332)는 여기 신호 합성부(330), 합성 필터(335)로 구성된다.

제3 선택 스위치(300)는 역양자화 선택부(325)로부터 수신한 역양자화 선택 신호에 따라 채널을 통하여 전송된 LSF 양자화 정보를 제1 LSF 역양자화부(305) 또는 제4 LSF 역양자화부(310)로 출력한다. 제1 LSF 역양자화부(305) 또는 제2 LSF 역양자화부(310)에서 복원된 양자화된 LSF는 제4 선택 스위치(315)로 출력된다.

제4 선택 스위치(315)는 역양자화 선택부(325)로부터 수신한 역양자화 선택 신호에 따라 제1 LSF 역양자화부(305) 또는 제2 LSF 역양자화부(310)에서 복원된 양자화된 LSF를 LPC 계수 변환부(320)로 출력한다. 제4 선택 스위치(315)는 제3 선택 스위치(300)와 동기되어 있으며, 도 2에 도시된 음성 부호화기의 제1 선택 스위치(215) 및 제2 선택 스위치(230)와도 동기되어 있다. 이는 음성 부호화기에서 합성된 음성 신호와 음성 복호화기에서 합성된 음성 신호가 동일하기 때문이다.

LPC 계수 변환부(320)는 양자화된 LSF를 양자화된 LPC 계수로 변환한 후 합성 필터(335)로 출력한다.

여기 신호 합성부(330)는 채널을 통하여 전송된 여기 신호 합성 정보를 수신하고, 수신한 여기 신호 합성 정보를 기초로 여기 신호를 합성한 후 합성 필터(335)로 출력한다. 합성 필터(335)는 LPC 계수 변환부(320)로부터 수신한 양자화된 LPC 계수를 이용하여 합성된 여기 신호를 필터링하여 음성 신호를 합성한다. 음성 신호의 합성 과정은 수학식 8과 같다.

여기서,

은 합성된 여기 신호를 나타낸다.

합성 필터(335)는 합성된 음성 신호를 역양자화 선택부(325) 및 후처리부(340)로 출력한다.

역양자화 선택부(325)는 합성된 음성 신호를 바탕으로 다음 프레임에서 선택될 역양자화부가 어느 것인지를 나타내는 역양자화 선택 신호를 생성하여 제3 선택 스위치(300) 및 제4 선택 스위치(315)로 출력한다.

후처리부(340)는 합성된 음성 신호의 음질을 향상시키기 위한 역할을 하며, 일반적으로 장구간 후처리 필터와 단구간 후처리 필터를 사용하여 합성된 음성을 향상시킨다.

도 4는 본 발명에 따른 음성 부호화기/복호화기의 양자화 선택부(240) 및 역양자화 선택부(325)의 구성을 도시한 블록도이다.

도 4를 참조하면, 양자화 선택부(240) 및 역양자화부 선택(325)은 동일한 구성을 가지며, 에너지 계산부(400), 에너지 버퍼(405), 이동 평균값 계산부(410), 에너지 증가도 계산부(415), 에너지 감소도 계산부(420), zero crossing 계산부(425), 피치 차이값 계산부(430) 및 피치 지연값 버퍼(435), 선택 신호 발생부 (440)로 구성된다.

구체적으로 살펴보면, 도 2의 음성 부호화기의 합성 필터(275)로부터 출력된 합성된 음성 신호 또는 도 3의 음성 복호화기의 합성 필터(335)로부터 출력된 합성된 음성 신호는 에너지 계산부(400) 및 zero crossing 계산부(425)로 입력된다.

먼저, 에너지 계산부(400)는 각각의 i번째 부프레임의 에너지값 E_i를 계산한다. 각각의 부프레임의 에너지 값을 계산하는 식은 수학식 9와 같다.

여기서, N은 부프레임의 개수이며, L은 프레임당 샘플 수이다.

에너지 계산부(400)는 계산된 각각의 부프레임의 에너지 값을 에너지 버퍼(405), 에너지 증가도 계산부(415) 및 에너지 감소도 계산부(420)로 출력한다.

에너지 버퍼(405)는 에너지의 이동 평균 값을 구하기 위하여 계산된 에너지를 부프레임 단위로 버퍼에 저장해 둔다. 에너지 버퍼(405)에 저장되는 과정은 수학식 10과 같다.

여기서, L_B는 에너지 버퍼의 길이를 나타내며, E_B는 에너지 버퍼를 나타낸 다.

에너지 버퍼(405)는 저장된 에너지 값들을 이동 평균값 계산부(410)로 출력하고, 이동 평균값 계산부(410)는 두 종류의 에너지의 이동 평균 값 E_M,1과 E_M,2를 수학식 11a 및 11b와 같이 계산한다.

이동 평균값 계산부(410)는 계산된 두 종류의 에너지 값 E_M,1과 E_M,2를 각각 에너지 증가도 계산부(415) 및 에너지 감소도 계산부(420)로 출력한다.

에너지 증가도 계산부(415)는 에너지 증가도 E_r을 수학식 12와 같이 계산하고, 에너지 감소도 계산부(420)는 에너지 감소도 E_d를 수학식 13과 같이 계산한다.

에너지 증가도 계산부(415) 및 에너지 감소도 계산부(420)는 각각 계산한 에너지 증가도(E_r) 및 에너지 감소도(E_d)를 선택신호 발생부(440)로 출력한다.

zero crossing 계산부(425)는 음성 부호화기/복호화기(도2 및 도 3)의 합성 필터(275,335)로부터 합성된 음성 신호를 수신하고 수학식 14와 같은 과정을 통하여 신호의 부호가 바뀌는 정도를 계산한다. zero crossing C_zcr 계산은 부프레임의 마지막 프레임에 대해 수행한다.

zero crossing 계산부(425)는 계산된 zero crossing 정도를 선택신호 발생부(440)로 출력한다.

피치 지연값은 피치 차이값 계산부(430) 및 피치 지연값 버퍼(435)로 입력된다. 피치 지연값 버퍼(435)는 한 프레임 이전의 마지막 부프레임의 피치 지연값을 버퍼에 저장해 둔다.

그리고, 피치 차이값 계산부(430)는 피치 지연값 버퍼(435)에 저장된 이전 부프레임의 피치 지연값을 이용하여 현재 프레임에서 마지막 부프레임의 피치 지연값 P(n)과 과거 프레임에서 마지막 부프레임의 피치 지연값 P(n-1)과의 차 D_p를 수학식 15와 같이 계산한다.

피치 차이값 계산부(430)는 계산한 피치 지연값의 차 D_p를 선택 신호 발생부(440)로 출력한다.

선택 신호 발생부(440)는 에너지 증가도 계산부(415)의 에너지 증가도, 에너지 감소도 계산부(420)의 에너지 감소도, zero crossing 계산부(425)의 zero crossing 정도 및 피치 차이값 계산부(430)의 피치 차이값을 기초로 음성 부호화에 적절한 양자화부(음성 복호화기의 경우 역양자화부)를 선택하는 선택 신호를 발생한다.

도 5는 도 4의 선택 신호 발생부(440)의 상세 동작 과정을 도시한 도면이다.

도 5를 참조하면, 선택 신호 발생부(440)는 음성 존재 탐색부(500), 음성 존재 신호 버퍼(505) 및 다수의 연산 블록(510 내지 530)으로 구성된다.

음성 존재 탐색부(500)는 도 4의 에너지 증가도 계산부(415) 및 에너지 감소도 계산부(420)의 각각으로부터 에너지 증가도(E_r) 및 에너지 감소도(E_d)를 입력받 는다. 음성 존재 탐색부(500)는 입력받은 에너지 증가도(E_r) 및 에너지 감소도(E_d)를 기초로 현재 프레임에서 합성한 신호에 음성이 존재하는지 탐색한다. 음성이 존재하는지 여부는 수학식 16과 같은 방식으로 판단할 수 있다.

여기서, F_v는 음성 신호 존재를 나타내는 신호이며, 현재 합성된 음성 신호에 음성이 존재할 때는 1로, 음성이 존재하지 않을 때에는 0으로 나타낸다. 음성의 존재 유무를 나타내는 표현은 이와 다르게 나타낼 수 있다.

음성 존재 탐색부(500)는 음성 존재 신호(F_v)를 제1연산 블록(510) 및 음성 존재 신호 버퍼(505)로 출력한다.

음성 존재 신호 버퍼(505)는 다수의 연산 블록들(510,515,520)의 논리 판단을 위하여 과거에 탐색된 음성 존재 신호를 저장하며, 과거의 음성 존재 신호를 제1 연산 블록(510), 제2 연산 블록(515) 및 제3 연산 블록(520)으로 출력한다.

제1 연산 블록(510)은 현재 프레임에서 합성된 신호에 음성이 존재하고, 과거 프레임에서 합성된 신호에 음성이 존재하지 않는다면, 다음 프레임의 LSF 양자화기 모드 M_q를 1로 하는 신호를 출력한다. 그렇지 않다면 다음으로 제2 연산 블록이 수행된다.

제2 연산 블록(515)은 현재 프레임에서 합성된 신호에 음성이 존재하지 않고 과거 프레임에서 합성된 신호에 음성이 존재하면 제4 연산 블록(525)이 수행되도록 하고, 그렇지 않으면, 제3 연산 블록(520)이 수행되도록 한다.

제4 연산 블록(525)은 도 4의 zero crossing 계산부(425)에서 계산된 zero crossing이 Thr_zcr 이상이거나 에너지 감소도 E_d가 Thr_Ed ₂ 이상이면 다음 프레임의 LSF 양자화기 모드 M_q를 1로 하는 신호를 출력하고 그렇지 않다면 다음 프레임의 LSF 양자화기 모드 M_q를 0으로 하는 신호를 출력한다.

제3 연산 블록(520)은 과거 프레임과 현재 프레임에서 합성한 신호가 모두 음성 신호일 경우 제5 연산 블록(530)이 수행되도록 하며, 그렇지 않은 경우는 다음 프레임의 LSF 양자화기 모드 M_q를 0으로 하는 신호를 출력한다.

제5 연산 블록(530)은 에너지 증가도 E_r가 Thr_Er2 이상이거나 피치 차이값 D _p가 Thr_Dp 이상이면 다음 프레임의 LSF 양자화기 모드 M_q를 1로 하는 신호를 출력하고 그렇지 않다면 다음 프레임의 LSF 양자화기 모드 M_q를 0으로 하는 신호를 출력한다.

여기서, Thr은 소정의 임계값을 의미하며, M_q는 도 4의 양자화기 선택 신호를 의미한다. 따라서, 제1 선택 스위치 내지 제4 선택 스위치(215,230,300,315)는 M_q가 0이면 다음 프레임에서 제1 LSF 양자화부(220)(복호화기의 경우는 제1 LSF 역 양자화부(305))을 선택하고, 1이면 제2 LSF 양자화부(225)(복호화기의 경우는 제2 LSF 역양자화부(310))를 선택한다. 그 반대의 경우도 가능하다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

본 발명에 따르면, 음성 부호화기/복호화기에서 과거에 합성된 음성 신호의 특성에 따라 특정 양자화/역양자화만을 수행하여 계산량 및 복잡도를 감소시키고 CELP 계열의 음성 코덱에서 LSF 양자화를 효과적으로 수행할 수 있다.

Claims

입력 신호로부터 LPC 계수를 추출하고, 상기 추출한 LPC 계수를 LSF로 변환하고, 소정의 양자화 선택 신호에 따라 상기 LSF를 제1 LSF 양자화부 또는 제2 LSF 양자화부를 통해 양자화한 후 LPC 계수로 변환하는 양자화부; 및

상기 입력 신호의 과거 프레임에서 합성된 음성 신호의 특성을 기초로 상기 제1 LSF 양자화부 또는 상기 제2 LSF 양자화부를 선택하는 상기 양자화 선택 신호 를 생성하는 양자화 선택부;를 포함하는 것을 특징으로 하는 음성 부호화기.
제 1항에 있어서, 상기 양자화부는,

상기 입력 신호로부터 LPC 계수를 추출하는 LPC 계수 추출부;

상기 LPC 계수를 LSF로 변환하는 LSF 변환부;

상기 LSF를 제1 양자화 과정을 통해 양자화하는 제1 LSF 양자화부;

상기 LSF를 제2 양자화 과정을 통해 양자화하는 제2 LSF 양자화부;

상기 제1 LSF 양자화부 및 상기 제2 LSF 양자화부 중 어느 하나가 상기 LSF를 양자화하도록 선택하는 선택 스위치; 및

상기 양자화된 LSF를 LPC 계수로 변환하는 LPC 계수 변환부;를 포함하는 것을 특징으로 하는 음성 부호화기.
제 1항에 있어서, 상기 양자화 선택부는,

상기 입력 신호의 과거 프레임에서 합성된 신호의 에너지 증감도를 계산하는 에너지 증감도 계산부;

상기 입력 신호의 과거 프레임에서 합성된 신호의 부호가 바뀌는 정도를 계산하는 제로 크로싱 계산부;

상기 입력 신호의 과거 프레임에서 합성된 신호의 피치 지연값을 계산하는 피치 차이값 계산부; 및

상기 에너지 증감도를 기초로 상기 입력 신호의 과거 프레임에서 합성된 신 호가 음성 신호를 포함하는지 여부를 파악하고, 상기 합성된 신호의 음성 신호 포함여부 및 상기 합성된 신호의 부호가 바뀌는 정도 및 상기 합성된 신호의 피치 지연값을 기초로 상기 양자화 선택 신호를 발생하는 선택 신호 발생부;를 포함하는 것을 특징으로 하는 음성 부호화기.
제 3항에 있어서, 상기 에너지 증감도 계산부는,

상기 입력 신호의 과거 프레임을 구성하는 부프레임의 에너지 값을 계산하는 에너지 계산부;

상기 계산된 각각의 부프레임의 에너지 값을 저장하는 에너지 버퍼;

상기 저장된 부프레임의 에너지 값에 대한 이동 평균값을 계산하는 이동 평균값 계산부; 및

상기 이동 평균값 및 상기 부프레임의 에너지 값을 기초로 상기 입력 신호의 과거 프레임의 에너지 증감도를 계산하는 에너지 증감도 계산부;를 포함하는 것을 특징으로 하는 음성 부호화기.
제 1항에 있어서,

상기 입력 신호를 상기 양자화된 LPC 계수를 기초로 지각 가중하는 지각 가중 필터;

상기 지각 가중된 입력 신호에서 소정의 합성 신호를 감산하여 선형 예측 잔여 신호를 생성하는 감산기; 및

상기 선형 예측 잔여 신호로부터 여기 신호를 탐색하고, 상기 탐색된 여기 신호로부터 상기 양자화된 LPC 계수를 이용하여 소정의 합성 신호를 생성한 후 상기 감산기로 출력하는 신호 합성부;를 더 포함하는 것을 특징으로 하는 음성 부호화기.
소정의 채널을 통해 수신한 LSF 양자화 정보를 소정의 역양자화 선택 신호에 따라 제1 LSF 역양자화부 또는 제2 LSF 역양자화부를 통해 역양자화하여 LSF 벡터를 생성하고, 상기 LSF 벡터를 LPC 계수로 변환하는 역양자화부; 및

상기 채널을 통해 수신한 음성 신호의 합성 정보로부터 생성한 과거 프레임에서 합성된 음성 신호의 특성을 기초로 상기 제1 LSF 역양자화부 또는 상기 제2 LSF 역양자화부를 선택하는 상기 역양자화 선택 신호를 생성하는 역양자화 선택부;를 포함하는 것을 특징으로 하는 음성 복호화기.
제 6항에 있어서, 상기 역양자화부는,

상기 LSF 양자화 정보를 제1 역양자화 과정을 통해 LSF 벡터를 생성하는 제1 LSF 역양자화부;

상기 LSF 양자화 정보를 제2 역양자화 과정을 통해 LSF 벡터를 생성하는 제2 LSF 역양자화부;

상기 제1 LSF 역양자화부 및 상기 제2 LSF 역양자화부 중 어느 하나가 상기 LSF 양자화 정보를 역양자화하도록 선택하는 선택 스위치; 및

상기 제1 LSF 역양자화부 또는 상기 제2 LSF 역양자화부에서 역양자화하여 생성한 LSF 벡터를 LPC 계수로 변환하는 LPC 계수 변환부;를 포함하는 것을 특징으로 하는 음성 복호화기.
제 6항에 있어서, 상기 역양자화 선택부는,

상기 과거 프레임에서 합성된 신호의 에너지 증감도를 계산하는 에너지 증감도 계산부;

상기 과거 프레임에서 합성된 신호의 부호가 바뀌는 정도를 계산하는 제로 크로싱 계산부;

상기 과거 프레임에서 합성된 신호의 피치 지연값을 계산하는 피치 차이값 계산부; 및

상기 에너지 증감도를 기초로 상기 과거 프레임에서 합성된 신호가 음성 신호를 포함하는지 여부를 파악하고, 상기 합성된 신호의 음성 신호 포함여부 및 상기 합성된 신호의 부호가 바뀌는 정도 및 상기 합성된 신호의 피치 지연값을 기초로 상기 역양자화 선택 신호를 발생하는 선택 신호 발생부;를 포함하는 것을 특징으로 하는 음성 부호화기.
제 8항에 있어서, 상기 에너지 증감도 계산부는,

입력 신호의 과거 프레임을 구성하는 부프레임의 에너지 값을 계산하는 에너지 계산부;

상기 계산된 각각의 부프레임의 에너지 값을 저장하는 에너지 버퍼;

상기 저장된 부프레임의 에너지 값에 대한 이동 평균값을 계산하는 이동 평균값 계산부; 및

상기 이동 평균값 및 상기 부프레임의 에너지 값을 기초로 상기 입력 신호의 과거 프레임의 에너지 증가도 및 감소도를 계산하는 에너지 증가도/감소도 계산부;를 포함하는 것을 특징으로 하는 음성 복호화기.
제 6항에 있어서,

상기 채널을 통해 수신한 여기 신호 합성 정보 및 상기 LPC 계수를 이용하여 여기 신호를 합성하는 신호 합성부;를 더 포함하는 것을 특징으로 하는 음성 복호화기.
입력 신호로부터 LPC 계수를 추출하는 단계;

상기 추출한 LPC 계수를 LSF로 변환하는 단계;

상기 입력 신호의 과거 프레임에서 합성된 음성 신호의 특성을 기초로 상기 LSF를 제1 LSF 양자화 과정 또는 제2 LSF 양자화 과정을 통해 양자화하는 단계; 및

상기 양자화된 LSF를 LPC 계수로 변환하는 단계;를 포함하는 것을 특징으로 하는 음성 부호화기에서 양자화 선택 방법.
제 11항에 있어서, 상기 양자화 단계는,

상기 입력 신호의 과거 프레임에서 합성된 신호의 에너지 증감도를 계산하는 단계;

상기 입력 신호의 과거 프레임에서 합성된 신호의 부호가 바뀌는 정도를 계산하는 단계;

상기 입력 신호의 과거 프레임에서 합성된 신호의 피치 지연값을 계산하는 단계; 및

상기 입력 신호의 과거 프레임에서 합성된 신호의 에너지 증감도를 기초로 과거 프레임에서 합성 신호가 음성 신호를 포함하는지 여부를 파악하고, 상기 합성된 신호의 음성 신호 포함여부 및 상기 합성된 신호의 부호가 바뀌는 정도 및 상기 합성된 신호의 피치 지연값을 기초로 상기 제1 LSF 양자화 또는 상기 제2 LSF 양자화 과정을 수행하는 단계;를 포함하는 것을 특징으로 하는 음성 부호화기에서 양자화 선택 방법.
소정의 채널을 통해 LSF 양자화 정보 및 음성 신호 합성 정보를 수신하는 단계;

상기 음성 신호 합성 정보로부터 상기 LSF 양자화 정보를 이용하여 생성한 합성 신호의 과거 프레임에서 합성된 음성 신호의 특성을 기초로 제1 LSF 역양자화 또는 제2 LSF 역양자화를 통해 역양자화하여 LSF 벡터를 생성하는 단계; 및

상기 LSF 양자화 벡터를 LPC 계수로 변환하는 단계;를 포함하는 것을 특징으로 하는 음성 복호화기에서 역양자화 선택 방법.
제 13항에 있어서, 상기 역양자화 단계는,

상기 과거 프레임에서 합성된 신호의 에너지 증감도를 계산하는 단계;

상기 과거 프레임에서 합성된 신호의 부호가 바뀌는 정도를 계산하는 단계;

상기 과거 프레임에서 합성된 신호의 피치 지연값을 계산하는 단계; 및

상기 과거 프레임에서 합성된 신호의 에너지 증감도를 기초로 상기 과거 프레임에서 합성된 신호가 음성 신호를 포함하는지 여부를 파악하고, 상기 합성된 신호의 음성 신호 포함여부 및 상기 합성된 신호의 부호가 바뀌는 정도 및 상기 합성된 신호의 피치 지연값을 기초로 상기 제1 LSF 양자화 또는 상기 제2 LSF 양자화 과정을 수행하는 단계;를 포함하는 것을 특징으로 하는 음성 복호화기에서 역양자화 선택 방법.