KR100269216B1

KR100269216B1 - 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법

Info

Publication number: KR100269216B1
Application number: KR1019980013665A
Authority: KR
Inventors: 조용덕; 김무영
Original assignee: 윤종용; 삼성전자주식회사
Priority date: 1998-04-16
Filing date: 1998-04-16
Publication date: 2000-10-16
Also published as: JPH11327595A; KR19990080416A; US6208958B1

Abstract

본 발명은 피치결정오류를 방지하기 위한 스펙트로-템포럴 자기상관을 이용한 피치결정 시스템 및 그 방법에 관한 것으로, 스펙트로-템포럴 자기상관을 이용한 피치결정 시스템은 입력음성에 대한 제1포만트의 영향을 줄이기 위하여 포만트의 대역폭을 확장하는 포만트 대역폭 확장부, 포만트 대역폭 확장부로부터 출력되는 시간축 신호에 대한 피치후보 범위에서 시간축 음성의 자기 상관치를 구하는 템포럴 자기상관 계산부, 포만트 대역폭 확장부로부터 출력되는 시간축 신호를 주파수축 신호로 변환하고, 피치후보 범위에서 주파수축 크기 스펙트럼간에 자기 상관치를 구하는 스펙트럴 자기상관 계산부 및 템포럴 자기상관 계산부와 스펙트럴 자기상관 계산부로부터 계산된 자기상관치를 합하여 스펙트로-템포럴 자기상관치를 구하는 자기상관치 합성부 및 스펙트로-템포럴 자기상관치가 최대인 피치를 최종의 피치로 결정하는 피치결정부를 포함함을 특징으로 한다.

본 발명에 의하면, 스펙트로-템포럴 자기상관을 이용하여 피치를 결정하므로써 피치 결정 오류를 줄여 음성통화품질을 향상할 수 있다.

Description

스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법

본 발명은 음성신호처리에 관한 것으로, 특히 저비트율의 음성부호화기, 음성인식등에 사용하는 피치 결정방식에 관한 것이다.

피치(Pitch)는 사람의 발성특성상 성문(vocal cord) 개폐의 주기적 특성으로 발생하며, 음성모델링 과정에서 사용되는 중요 파라미터 중의 하나이다. 이를 사용하는 주요 응용처로는 음성부호화기(또는 보코더, 음성코덱), 음성인식, 음성변환 등이 있다.

저비트율(low bit rate) 음성부호화기의 경우 피치결정에 오류가 발생하면, 음성통화 품질이 상당히 저하된다. 따라서, 이와같은 응용분야에서는 고정확도의 피치결정방식을 선택하는 것이 매우 중요하다.

일반적으로 피치결정오류는 피치 더블링(pitch doubling), 피치 하빙(pitch halving), 제1포만트를 피치로 오판하는 경우로 분류된다. 피치 더블링은 원 피치가 T일 경우 2T, 3T, 4T,…로 잘못 결정된 경우이며, 피치 하빙은 T/2, T/4, T/8,…으로 잘못된 경우이다. 제1포만트가 피치로 판단되는 경우는 제1포만트의 자기상관치가 피치의 상관치보다 큰 경우로, 피치결정오류를 발생시키는 원인이 되기도 한다.

종래에 널리 사용된 대표적인 피치결정법중에는 도 1에 도시된 것과 같이 시간축에서의 자기상관(autocorrelation)을 이용한 피치결정법이 있다. 자기상관법은 각 래그(lag)에서 자기상관치가 가장 큰 값의 래그를 피치로 결정하는 방식인데, 종래의 피치결정법은 위의 제1포만트로 인한 오류를 자주 발생시키는 문제점이 있다. 예를들어 입력음성이 도 3a와 같을 때, 자기상관법으로 자기상관치를 계산하면 도 3b와 같이 된다. 원 음성의 피치가 31일 때, 자기상관법은 래그(lag) 31, 62, 93에서 상관값이 매우 커서 피치 결정시 오류를 야기한다. 따라서 종래의 자기상관법에 의한 피치결정법을 사용하면 피치결정 오류율이 높아 음성부호화기의 음질이 상당히 저하되고, 특히 입력음성에 배경잡음이 섞여있으면 피치결정오류로 인해 더욱 음질이 저하된다.

본 발명이 이루고자하는 기술적 과제는 피치결정오류를 방지하기 위해 스펙트로-템포럴 자기상관을 이용한 피치결정 시스템 및 그 방법을 제공하는 것이다.

도 1은 종래의 피치결정법을 블록도로 도시한 것이다.

도 2는 본 발명에 의한 스펙트로-템포럴 자기상관을 사용한 피치결정시스템을 블록도로 도시한 것이다.

도 3a는 입력음성의 샘플을 도시한 것이다.

도 3b는 후보피치에 따른 템포럴 자기 상관치를 도시한 것이다.

도 3c는 후보피치에 따른 스펙트럴 자기 상관치를 도시한 것이다.

도 3d는 후보피치에 따른 스펙트로-템포럴 자기 상관치를 도시한 것이다.

도 4는 가중치값에 따른 성능 비교를 도시한 것이다.

도 5는 자동차 잡음환경에서 발성된 음성의 피치에러 비교를 도시한 것이다.

상기 기술적 과제를 해결하기 위한, 본 발명에 의한 스펙트로-템포럴 자기상관을 이용한 피치결정 시스템은 입력음성에 대한 제1포만트의 영향을 줄이기 위하여 포만트의 대역폭을 확장하는 포만트 대역폭 확장부, 상기 포만트 대역폭 확장부로부터 출력되는 시간축 신호에 대한 피치후보 범위에서 시간축 음성의 자기 상관치를 구하는 템포럴 자기상관 계산부, 상기 포만트 대역폭 확장부로부터 출력되는 시간축 신호를 주파수축 신호로 변환하고, 피치후보 범위에서 주파수축 크기 스펙트럼간에 자기 상관치를 구하는 스펙트럴 자기상관 계산부, 상기 템포럴 자기상관 계산부와 상기 스펙트럴 자기상관 계산부로부터 계산된 자기상관치를 합하여 스펙트로-템포럴 자기상관치를 구하는 자기상관치 합성부 및 상기 스펙트로-템포럴 자기상관치가 최대인 피치를 최종의 피치로 결정하는 피치결정부를 포함함을 특징으로 한다.

상기 다른 기술적 과제를 해결하기 위한, 본 발명에 의한 스펙트로-템포럴 자기상관을 이용한 피치결정방법은 입력음성에 대한 제1포만트의 영향을 줄이기 위하여 포만트의 대역폭을 확장하는 포만트 대역폭 확장과정, 상기 포만트 대역폭 확장 단계로부터 출력되는 포만트를 확장한 음성신호에서 후보피치에 대한 템포럴 자기상관치를 구하는 템포럴 자기상관치 계산과정, 상기 포만트 대역폭 확장 단계로부터 출력되는 포만트를 확장한 음성신호에서 후보피치에 대한 스펙트럴 자기상관치를 구하는 스펙트럴 자기상관치 계산과정, 상기 템포럴 자기상관치 계산단계로부터 구한 후보피치에 대한 템포럴 자기상관치와 상기 스펙트럴 자기상관치 계산단계로부터 구한 후보피치에 대한 스펙트럴 자기상관치를 이용하여 후보피치에 대한 스펙트로-템포럴 자기상관치를 구하는 스펙트로-템포럴 자기상관치 계산과정 및 상기 스펙트로-템포럴 자기상관치 계산단계로부터 구한 후보피치에 대한 스펙트로-템포럴 자기상관치가 최대인 후보피치를 결정하는 피치 결정과정를 포함함을 특징으로 한다.

이하 도면을 참조하여 본 발명을 상세히 설명하기로 한다.

도 2는 본 발명에 의한 스펙트로-템포럴 자기상관을 이용한 피치결정 시스템으로, 포만트 대역폭 확장부(210), 템포럴 자기상관 계산부(220), 스펙트럴 자기상관 계산부(230), 자기상관치 합성부(240) 및 피치결정부(250)로 이루어진다.

포만트 대역폭 확장부(210)는 제1포만트의 영향을 줄이기 위하여 포만트(formant)의 대역폭(bandwidth)을 확장한다.

템포럴 자기상관 계산부(220)는 포만트 대역폭 확장부(210)로부터 출력되는 시간축 신호에 대한 피치후보 범위에서 시간축 음성의 자기 상관치를 구하는 것으로, 제1영평균(zero-mean) 신호변환부(221) 및 제1자기상관 계산부(222)로 이루어진다. 제1영평균(zero-mean) 신호변환부(221)는 포만트 대역폭 확장부(210)로부터 출력되는 시간축 음성신호를 시간축 영평균신호로 변환하고, 제1자기상관 계산부(222)는 제1영평균(zero-mean) 신호변환부(221)로부터 출력되는 시간축 영평균신호의 자기상관치를 계산하는 제1자기상관 계산부(222)로 이루어진다.

스펙트럴 자기상관 계산부(230)는 포만트 대역폭 확장부(210)로부터 출력되는 시간축 신호를 주파수축 신호로 변환하고, 피치후보 범위에서 주파수축 크기 스펙트럼간에 자기 상관치를 구하는 것으로, 퓨리에변환부(231), 제2영평균(zero-mean) 신호변환부(232) 및 제2자기상관 계산부(233)로 이루어진다. 퓨리에변환부(231)는 포만트 대역폭 확장부(210)로부터 출력되는 시간축 음성신호를 주파수축 음성신호로 변환한다. 제2영평균(zero-mean) 신호변환부(232)는 푸리에변환부(231)로부터 출력되는 주파수축 음성신호를 영평균 신호로 변환한다. 제2자기상관 계산부(233)는 제2영평균(zero-mean) 신호변환부(232)로부터 출력되는 주파수축 영평균신호의 자기상관치를 계산한다.

자기상관치 합성부(240)는 템포럴 자기상관 계산부(220)와 스펙트럴 자기상관 계산부(230)로부터 계산된 자기상관치를 합하여 스펙트로-템포럴 자기상관치를 구한다.

피치결정부(250)는 스펙트로-템포럴 자기상관치가 최대인 피치를 최종의 피치로 결정한다.

상술한 구성에 의거하여 본 발명의 동작을 설명하기로 한다.

본 발명에서는 먼저 입력음성 s(n)의 전처리로, 제1포만트의 영향을 줄이기 위하여 포만트(formant)의 대역폭을 확장한다. 확장방식으로는 CELP(code excited linear prediction)계열의 음성부호화기에서 사용하는 퍼셉추얼 웨이팅 필터(perceptual weighting filter)를 사용하여 구현할 수 있다. 입력음성 s(n)은 포만트 대역포 확장부(210)에서 사용되는 퍼셉추얼 웨이팅 필터에 의해 포만트의 대역폭을 확장한 음성신호 s_f(n)으로 변환된다. 퍼셉추얼 웨이팅 필터는 다음과 같은 함수로 표현된다.

여기서, a_i는 선형예측계수(linear prediction coefficient)이고, γ는 0과 1사이의 값인데 스펙트럼의 평탄화를 조절할 수 있다. γ=1이면 위의 필터는 바이패스필터이고, γ=0이면 s_f(n)은 선형예측의 잔차 신호가 된다. 본 발명에서는 실험으로서 γ=0.8일 때, 성능이 가장 우수함을 알 수 있다.

포만트 대역폭이 확장된 음성신호 s_f(n)에 대한 템포럴 자기상관치를 계산하기 위해 제1영평균 신호변환부(221)는 수학식 2를 이용하여 영평균(zero-mean) 신호 로 변환한다.

여기서, N은 음성 샘플의 개수이다.

포만트 대역폭이 확장된 음성신호 s_f(n)이 주어질 때, 제1자기상관부(222)는 후보피치 τ에서 다음과 같이 템포럴 자기상관치를 구한다.

스펙트럴 자기상관(spectral autocorrelation)은 주파수축에서 음성스펙트럼의 자기상관치이다. 먼저 퓨리에 변환부(231)는 포만트 대역폭이 확장된 음성신호 s_f(n)에 윈도우 w(n)을 적용한후, 각 주파수별 크기응답을 수학식 4와 같이 구한다.

제2영평균 신호변환부(232)는 스펙트럴 자기상관치를 계산하기 위해 크기 스펙트럼 S_f(m)의 영평균 신호로 다음과 같이 변환한다.

제2자기상관 계산부(233)는 크기 스펙트럼 S_f(m) 간에 자기상관치를 다음과 같이 구한다.

여기서, ω_τ=round(2M/τ)이고, 은 S_f(m)의 영평균 신호이다.

따라서, 자기상관치 합성부(240)는 템포럴 자기상관계산부(220)에서 구한 템포럴 자기상관치와 스펙트럴 자기상관 계산부(230)에서 구한 스펙트럴 자기상관치를 이용하여, 다음과 같이 후보피치 τ에서 스펙트로-템포럴 자기상관치를 구한다.

R(τ)=βR_T(τ)+(1-β)R_S(τ)

여기서, β는 가중치값으로 0에서 1사이의 값을 갖는다.

최종적으로 피치결정부(250)는 R(τ)가 최대인 피치를 결정한다. 최종적인 피치 τ^*의 결정은 R(τ)가 최대일 때, τ값이다. 즉,

τ^*=arg maxR(τ)

사람의 발성특성을 관찰하여 피치 τ값의 변화를 관찰할 때, 통상적으로 20에서 140사이의 값을 취한다. β=1일 때는 종래의 자기상관법과 동일하다. β값의 변화에 따라 성능을 관찰한 결과를 도 4에 나타낸다. 도 4의 분석으로는 β가 0.5 일 때, 피치 오류율이 가장 낮다. 즉 종래의 방식보다 성능이 월등히 개선됨을 확인할 수 있다. 도 5에서는 음성에 자동차 잡음을 섞은 후, 성능 분석한 결과이다. 본 발명에서 제안한 방식(STA : Spectro-Temporal Autocorrelation)이 종래의 방식(TA : Temporal Autocorrelation)보다 월등히 우수함을 확인할 수 있다.

본 발명에 의한 피치결정방식이 종래의 피치결정방식보다 우수한 성능을 얻은 이유는 도 3a부터 도3d를 참조하여 설명한다. 도 3b는 종래의 방식을 사용할 때, 즉 피치후보(lag)의 변화에 따른 자기 상관치이다. 종래의 방식은 피치후보 31, 62, 93에서 자기상관치가 매우 높아 변별력이 낮음을 알 수 있다. 즉, 피치오류(피치 더블링 에러) 발생 가능성이 크다. 도 3c는 피치후보의 변화에 따를 스펙트럴 자기상관치이다. 스펙트럴 자기상관치의 특성은 원 피치가 T일 때, T/2, T/4...에서 자기상관치가 크다는 특성이 있다. 즉 피치 하빙 에러를 발생시키는 경향이 있다(도 3c에서는 T/2= 15.5인데, 피치검색범위가 20이상이므로 탐색구간에 포함되지 않음). 도 3d는 피치후보의 변화에 따른 스펙트로-템포럴 자기상관치의 변화를 그림으로 나타냈다. 본 상관치는 수학식 7에서 나타낸 바와 같이 도 3b의 템포럴 자기상관치와 도 3c의 스펙트럴 자기상관치의 가중화된 합(weighted sum)이다. 도 3d에서 보이듯이 원 피치 31에서 상관치가 매우 크고, 피치후보 62, 93에서는 상대적으로 값이 작아, 본 발명에 의한 피치결정방식이 종래의 피치결정방식보다 변별력이 우수함을 확인할 수 있다.

Claims

입력음성에 대한 제1포만트의 영향을 줄이기 위하여 포만트의 대역폭을 확장하는 포만트 대역폭 확장부;

상기 포만트 대역폭 확장부로부터 출력되는 시간축 신호에 대한 피치후보 범위에서 시간축 음성의 자기 상관치를 구하는 템포럴 자기상관 계산부;

상기 포만트 대역폭 확장부로부터 출력되는 시간축 신호를 주파수축 신호로 변환하고, 피치후보 범위에서 주파수축 크기 스펙트럼간에 자기 상관치를 구하는 스펙트럴 자기상관 계산부;

상기 템포럴 자기상관 계산부와 상기 스펙트럴 자기상관 계산부로부터 계산된 자기상관치를 합하여 스펙트로-템포럴 자기상관치를 구하는 자기상관치 합성부; 및

상기 스펙트로-템포럴 자기상관치가 최대인 피치를 최종의 피치로 결정하는 피치결정부를 포함함을 특징으로 하는 스펙트로-템포럴 자기상관을 이용한 피치결정 시스템.
제1항에 있어서, 상기 포만트 대역폭 확장부는

퍼셉추얼 웨이팅 필터(perceptual weighting filter)를 사용하여 포만트의 대역폭을 확장함을 특징으로 하는 스펙트로-템포럴 자기상관을 이용한 피치결정 시스템.
제2항에 있어서, 상기 퍼셉추얼 웨이팅 필터는

(여기서, a_i는 선형예측 계수이고, γ는 0과 1 사이의 값인데 스펙트럼의 평탄화를 조절할 수 있다.)

로 구현됨을 특징으로 하는 스펙트로-템포럴 자기상관을 이용한 피치결정 시스템.
제1항에 있어서, 상기 템포럴 자기상관 계산부는

상기 포만트 대역폭 확장부로부터 출력되는 시간축 음성신호를 영평균 신호로 변환하는 제1영평균(zero-mean) 신호변환부; 및

상기 제1영평균(zero-mean) 신호변환부로부터 출력되는 시간축 영평균신호를 이용하여 후보피치의 자기상관치를 계산하는 제1자기상관 계산부를 포함함을 특징으로 하는 스펙트로-템포럴 자기상관을 이용한 피치결정 시스템.
제1항에 있어서, 상기 스펙트럴 자기상관 계산부는

상기 포만트 대역폭 확장부로부터 출력되는 시간축 음성신호를 주파수축 음성신호로 변환하는 푸리에변환부;

상기 푸리에변환부로부터 출력되는 주파수축 음성신호를 영평균 신호로 변환하는 제2영평균(zero-mean) 신호변환부; 및

상기 제2영평균(zero-mean) 신호변환부로부터 출력되는 주파수축 영평균신호를 이용하여 후보피치의 자기상관치를 계산하는 제2자기상관 계산부를 포함함을 특징으로 하는 스펙트로-템포럴 자기상관을 이용한 피치결정 시스템.
입력음성에 대한 피치를 결정하는 방법에 있어서,

입력음성에 대한 제1포만트의 영향을 줄이기 위하여 포만트의 대역폭을 확장하는 포만트 대역폭 확장 과정;

포만트 대역폭이 확장된 음성신호에서 후보피치에 대한 템포럴 자기상관치를 구하는 템포럴 자기상관치 계산과정;

포만트 대역폭이 확장된 음성신호에서 후보피치에 대한 스펙트럴 자기상관치를 구하는 스펙트럴 자기상관치 계산과정;

상기 템포럴 자기상관치와 상기 스펙트럴 자기상관치를 이용하여 후보피치에 대한 스펙트로-템포럴 자기상관치를 구하는 스펙트로-템포럴 자기상관치 계산과정; 및

각 후보피치에 대한 스펙트로-템포럴 자기상관치중 최대의 값을 후보피치로 결정하는 피치 결정과정를 포함함을 특징으로 하는 스펙트로-템포럴 자기상관을 이용한 피치결정방법.
제6항에 있어서, 상기 템포럴 자기상관치 계산과정은

포만트를 확장한 음성신호를 s_f(n)이라 할 때, s_f(n)의 영평균신호는

(여기서, N은 음성 샘플의 갯수이다.)

를 이용하여 구하는 제1영평균 계산과정; 및

포만트를 확장한 음성신호를 s_f(n)의 후보피치 τ에 대한 템포럴 자기상관치는

(여기서, N은 음성 샘플의 갯수이다.)

을 이용하여 구하는 제1자기상관 계산과정을 포함함을 특징으로 하는 스펙트로-템포럴 자기상관을 이용한 피치결정방법.
제6항에 있어서, 상기 스펙트럴 자기상관치 계산과정은

포만트를 확장한 음성신호를 s_f(n)이라 할 때, s_f(n)의 주파수별 크기응답은

을 이용하여 구하는 퓨리에 변환과정;

상기 퓨리에 변환과정으로부터 구한 크기 스펙트럼 S_f(m)의 영평균 신호는

을 이용하여 구하는 제2영평균 계산과정; 및

포만트를 확장한 음성신호에서 후보피치를 τ라 할 때, 후보피치에 대한 스펙트럴 자기상관치는

(여기서, ω_τ=round(2M/τ) 이다.)

을 이용하여 구하는 제2자기상관 계산과정을 포함함을 특징으로 하는 스펙트로-템포럴 자기상관을 이용한 피치결정방법.
제7항 또는 제8항에 있어서, 상기 스펙트로-템포럴 자기상관치 계산과정은

포만트를 확장한 음성신호에서 후보피치를 τ라 할 때, 후보피치에 대한 스펙트로-템포럴 자기상관치는

R(τ)=βR_T(τ)+(1-β)R_S(τ)

(여기서, β는 가중치값으로, β값의 변화에 따라 피치오류율이 변화한다.)

을 이용하여 구함을 특징으로 하는 스펙트로-템포럴 자기상관을 이용한 피치결정방법.