KR100388388B1

KR100388388B1 - 재생위상정보를사용하는음성합성방법및장치

Info

Publication number: KR100388388B1
Application number: KR1019960004013A
Authority: KR
Inventors: 웨인 그리핀 다니엘; 하드윅 존씨
Original assignee: 디지탈 보이스 시스템즈, 인코퍼레이티드
Priority date: 1995-02-22
Filing date: 1996-02-17
Publication date: 2003-11-01
Also published as: KR960032298A; TW293118B; JP2008009439A; JPH08272398A; AU4448196A; CN1140871A; AU704847B2; CN1136537C; US5701390A; CA2169822A1; CA2169822C; JP4112027B2

Abstract

음성코딩시스템에 기초한 다중-대역 유도(MBE)를 사용한 스펙트럼 크기 및 위상 표현을 개발하였다. 인코더에서 디지탈 음성신호는 프레임으로 분할되고 각 프레임에 대해 기본주파수, 음성화 정보와 한 세트의 스펙트럼 크기가 추정된다. 스펙트럼 크기는, 음성화 상태와 무관하고 고조파와 주파수 표본화 그리드 사이의 어떤 오프셋(offset)도 교정시키는 새로운 추정 방법을 사용하여, 각 고조파 주파수(즉 다중 추정 기본 주파수)에서 계산된다. 그 결과는, 종래 MBE 기초 음성 코더에서 발견되는 바와 같은 음성화 전이(transitions)에 의해 도입되는 날카로운 불연속성 없이 완만한 스펙트럼 크기 세트를 생성시키는, 고속 FFT 호환 방법이 수득된다. 따라서, 양자화 효율이 향상되어 낮은 비트율로 높은 음질을 수득할 수 있다. 또한 주로 포먼트를 증가시키거나 비트 에러 효과를 감소시키기 위해 사용되었던 완만화 방법, 음성화 전이에서 결함 에지(즉, 불연속)에 의해 혼동되지 않기 때문에 더욱 효과적이다. 모든 음질 및 명료도가 증진된다. 디코더에서는 비트 스펙트럼이 수신되어 이를 이용해서 기본 주파수, 음성화 정보 및 프레임 시퀀스를 위한 스펙트럼 크기 세트를 재구성한다. 음성화 정보는 음성화 또는 비음성화로 각 고조파를 구분하는데 사용되며, 음성화 고조파에 대해 개개의 위상이 고조파 주파수 주위에 있는 스펙트럼 크기의 함수로 재생된다. 이어서 디코더는 음성화/비음성화 성분을 합성시키고, 음성화 및 비음성화 성분을 더하여 합성된 음성을 생성한다. 재생된 위상은 종래에 비해 최대값-대-실효값 면에서 실제 음성에 더욱 가깝게근사하여 향상된 다이내믹한 범위를 제공한다. 더욱이 합성된 음성은 더 자연스럽고 더 적은 위상 관련 왜곡을 실현한다.

Description

재생 위상 정보를 이용한 음성 합성 방법 및 장치{METHOD AND APPARATUS FOR SYNTHESIZING SPEECH USING REGERATED PHASE INFORMATION}

본 발명은 효율적인 저율 또는 중간율(low to medium rate)의 인코딩 및 디코딩을 촉진할 수 있는 음성 표현 방법에 관한 것이다.

관련 간행물은 제이.엘.프라나간의 "음성 분석, 합성 및 인식" Springes-Verlag, 1972, pp.378-386,(위상 보코더-주파수-기초 음성 분석-합성 시스템을 기술); 미국 특허 제 4,885,790호(정현 처리 방법(sinusoidal precessing method)을 기술); 미국 특허 제 5,054,072호(정현 코딩 방법을 기술); 알메이다 외, "음성화 음성(voiced speech)의 비정적 모델 기법", IEEE TASSP, Vol.ASSP-31,No.3, June 1983, pp664-677,(고조파 모델 기법과 코더를 기술); 알메이다 외, 가변-주파수 합성; "개량된 고조파 코딩 구조" IEEE Proc.ICASSP 84, pp27.5.1-27.5.4, (다중 음성화 합성 방법(polynomial voiced systhesis method); 카디에리 외, "정현 표현에기초한 음성 변환" IEEE TASSP, Vol,ASSP34,No.6, Dec.1986, pp.1449-1986(정현 표현에 기초한 분석-합성 기술을 설명); 맥아레이 외, "음성의 정현 표현에 기초한 중간율 코딩" Proc.ICASSP85, pp.945-948, Tampa, Fl., March 26-29, 1985,(정현 변환 음성 코더를 설명); 그리핀, "다중 밴드 여기 보코더(Multiband Excitation Vocoder)", Ph.D.Thesis, M.I.T, 1987,(다중 밴드 유도(MBE) 음성 모델 및 800bps 음성 코더를 설명); 하드윅, "4.8Kbps 다중-밴드 유기 음성 코더", SM.Thesis, M.I.T May 1988,(4800bps 다중-밴드 유도 음성 코더를 설명); 원격 통신 산업 협회(TIA), "APCO 프로젝트 25 보코더 설명", Version1.3, July15, 1993, IS102BABA (APCO 프로젝트25 표준용 7.2Kbps IMBE™ 음성 코더를 설명); 미국 특허 제 5,081,681호(MBE 랜덤 위상 합성을 설명); 미국 특허 제 5,247,579(MBE 채널 에러 감소 방법 및 포먼트 증가 방법을 설명); 미국 특허 제 5,226,084호(MBE 양자화 및 에러 감소방법을 설명)를 포함한다. 이들 간행물들의 내용을 본원에 참고 자료로 첨부한다(IMBE는 디지탈 보이스 시스템즈 인코퍼레이티드의 상표이다).

음성 인코딩 및 디코딩 기술은 매우 광범위한 응용범위를 가지며, 이로 인해 활발하게 연구되어 왔다. 많은 경우 음성의 질이나 명료도(intelligibility)를 현저하게 감소시키지 않고 음성 신호를 표현하는데 필요한 데이타율을 감소시키는 것이 바람직하다. "음성 압축(speech compression)"으로 주로 표현되는 이러한 문제는 음성 코더나 보코더에 의해 수행된다. 음성 코더는 주로 두 부분으로 구성된다. 첫 번째 부분은, 소위 인코더로, 마이크 출력을 A-D 컨버터를 통과하여 생성되는 것과 같이 음성을 디지탈화 함으로써 시작하며, 압축된 비트 스트림을 출력시킨다.두 번째 부분은, 소위 디코더로, D-A 컨버터와 스피커를 통한 재생(playback)에 적합하도록 압축된 비트 스트림을 디지털 음성 신호로 변환시킨다. 많은 적용 분야에서 인코더와 디코더는 물리적으로 분리되어 있고 비트 스트림은 몇몇 통신 채널을 통하여 인코더와 디코더 사이에서 전송된다.

음성 디코더의 가장 중요한 파라메타는 비트율(bit rate)에 의해 측정되는, 그것이 달성하는 압축량(amount of compression)이다. 수득되는 실제적 압축 비트율은 일반적으로 음성의 유형(type of speech)과 목적하는 충실도(즉, 음성의 질)의 함수이다.

다른 유형의 음성 코더는 고율(8Kbps보다 큰), 중간율(3-8Kbps) 및 저율(3Kbps보다 작은)로 동작하도록 설계되었다. 최근에, 중간율 음성 코더는 광범위한 이동 통신 분야(셀룰러, 위성 통신, 지상 이동전화수신기, 기내 전화 등)에서 크게 주목받고 있다. 이들 응용 분야는 주로 고품질의 음질과 음향 노이즈(acoustic noise)와 채널 노이즈(비트 에러)에 의해 생기는 인위적인 요소(artifacts)에 대해 강할 것을 요구한다.

이동 통신에 적용하기에 적합한 것으로 확인된 하나의 유형의 음성 코더는 기본적인 음성 모델(underlying model of speech)에 기초를 두었다. 이러한 유형의 예로는 선형 예측 보코더(linear prediction vocoders), 호모모르픽 보코더(homomorphic vocoder), 정현 변환 코더(sinusoidal transform coders), 다중 밴드 유도 음성 코더(multiband excitation speech coders) 및 채널 보코더(channel vocoders)를 포함한다. 이들 보코더에서, 음성은 짧은 세그먼트(주로 10-40ms)로 분할되고 각 세그먼트는 한 세트의 모델 파라메터들(model.parameters)에 의해 특징지워진다. 이들 파라메터들은 각 음성 세그먼트의 스펙트럼 포락선(spectral envelope), 음성화 상태(voicing state) 및 피치를 포함하는 몇 개의 기본적 요소들을 주로 표현한다. 모델-기초 음성 코더(model-based speech coder)는 이들 각 파라메타들로 알려진 많은 표현들 중의 하나를 사용할 수 있다. 예를 들면 CELP 코더에서와 같이 피치는 피치 주기, 기본 주파수, 또는 장기 예측 지연(long-term prediction delay)으로 나타낼 수 있다. 유사하게 음성화 상태(voicing state)는 확률 에너지에 대한 주기 에너지의 비(ratio of periodic to stochastic energy)나 음성화 확률 측정(voicing probability measure)에 의하거나, 하나 이상의 음성화/비음성화 결정(voiced/unvoiced decisions)을 통해 나타낼 수 있다. 스펙트럼 포락선(spectral envelope)은 전 폴 필터 응답(LPC)(all-pole filter response)에 의해 주로 표현되나 다른 스펙트럼 측정값(other spectral measurement)이나 고조파 진폭 세트(harmonic amplitudes)에 의하여 동일하게 특징지워질 수 있다. 대개 단지 소수의 파라메타들만이 음성 세그먼트를 나타내는데 요구되므로, 모델 기초 음성 코더들은 주로 중간 내지 낮은 데이타율로 동작할 수 있다. 그러나 모델 기초 시스템의 질은 기본이 되는 모델의 정확성에 기인한다. 그러므로 음성 코더들이 높은 음질을 얻고자 한다면 충실도가 높은 모델을 사용해야만 한다.

양질의 음질을 제공하고 낮은 내지 중간 비트율에서 원활하게 동작하는 것으로 알려진 하나의 음성 모델은 그리핀과 림에 의해 개발된 다중-대역 유도(MBE)음성 모델(multi-Band Excitation (MBE) speech model)이다. 이 모델은, 보다 자연스런 소리의 음성을 생성토록 허용하고, 배경에 음향 잡음이 있을 때 더욱 뚜렷하게 하는 유연한 음성화 구조(flexible voicing structure)를 사용한다. 이들 특성들 때문에 MBE 음성 모델은 많은 상용 이동 통신 분야에 사용되고 있다.

MBE 음성 모델은 음성 세그먼트들을 기본 주파수, 이진 음성화/비음성화(V/UV) 결정 세트(a set of binary voiced or unvoiced decisions) 및 고조파 진폭세트를 사용하여 나타낸다. 전통적인 모델 이외의 MBE 모델의 일차적 이점은 음성 표현(voicing representation)에 있다. MBE 모델은 세그먼트 마다 전통적인 단일 V/UV 결정 신호를 각각이 특정 주파수 대역 내에서의 음성화 상태를 나타내는 결정들의 세트로 일반화한다. 음성화 모델에서의 이러한 향상된 유연성은 MBE모델이 혼합된 음성화 소리(얼마의 마찰음이 있는)를 더 잘 표현할 수 있게 한다. 이러한 향상된 유연성은 음향 배경 노이즈에 의해 훼손된 음성을 더욱 정확히 표현할 수 있게 한다. 광범위한 시험에 의해 이러한 일반화가 향상된 음질과 명료도를 제공한다는 사실이 확인되었다.

MBE 기초 음성 코더의 인코더는 각 음성 세그먼트에 대해 모델 파라메타 세트를 추정한다. MBE 모델 파라메타는 피치 주기의 역수인 기본 주파수와; 음성화 상태를 특징 지우는 V/UV 결정 세트와, 스펙트럼 포락선을 특징 지우는 스펙트럼 진폭 세트로 이루어진다. 일단 MBE 모델 파라메타가 각 세그먼트에 대해 추정되면, 비트 프레임을 생성시키도록 인코더에서 양자화 된다. 이들 비트들은 에러 정정/검출 코드(ECC)를 사용하여 선택적으로 보호되며 그 결과로 생성된 비트 스트립은 대응 디코더로 전송된다. 이 디코더는 받은 비트 스트림을 개개의 프레임으로 변환시켜, 비트 에러를 검출 및/또는 정정하기 위해 선택적인 에러 제어 디코딩(error control decoding)을 수행한다. 그 결과로 수득되는 비트들은 이어서 MBE 모델 파라메타를 재구성하는데 사용되고, 디코더는 MBE 모델 파라메타로부터 지각적으로 원음에 가까운 신호를 합성한다. 실제로 디코더는 음성화 및 비음성화 성분을 분리하여 합성한 후 두 성분들을 더하여 최종 출력을 생성한다.

MBE에 기초한 시스템에서, 스펙트럼 진폭(spectral amplitude)은 추정된 기본 주파수의 각 고조파에서 스펙트럼 포락선을 나타내는데 사용된다. 일반적으로 각 고조파는 그러한 고조파 성분을 포함하는 주파수 대역이 음성화 또는 비음성화로 판정되었는지에 따라 음성화(voiced) 또는 비음성화(unvoiced)로 분류된다. 이어서 인코더는 각 고조파 주파수에 대해 스펙트럼 진폭을 추정하고, 종래 MBE 시스템에서는 상이한 진폭 추정기(different amplitude estimator)가 음성화 또는 비음성화로 분류되었는지에 따라 사용된다. 디코더에서 음성화 및 비음성화 고조파 성분은 다시 확인되며 분리된 음성화 및 비음성화 성분은 상이한 과정을 거쳐 합성된다. 비음성화 성분(unvoiced component)은 백색 잡음 신호를 필터링하기 위해 가중 오버랩-부가 방법(weighted overlap-add method)을 사용하여 합성된다. 상기 필터는 음성화로 표지된 모든 주파수 영역을 0으로 세트하는 반면에, 비음성화로 표지된 것에 대해서는 스펙트럼 진폭을 매치시킨다. 음성화 성분은 음성화로 분류된 각 고조파 성분에 대해 할당된 하나의 오실레이터를 갖는 오실레이터 동조 뱅크(tuned oscillator bank)를 사용하여 합성된다. 순시 진폭, 주파수 및 위상은 인접 세그먼트에 있는 대응 파라메타를 매치시키기 위해 외삽된다. 비록 MBE 기초 음성 코드가 우수한 성능을 제공하는 것으로 확인되어 왔지만, 음질의 얼마간의 저하를 초래하는 많은 문제점이 확인되었다. 청취 시험(listening test)을 통해서 주파수 영역에서 합성 신호의 크기 및 위상이 높은 음질과 명료도를 얻기 위해 주의 깊게 제어되어야 한다는 것이 확인되었다. 스펙트럼 크기내의 인위적 요소는 광범위한 효과를 가질 수 있으나, 중간 내지 낮은 비트율에서의 흔한 문제점은 음성은 감각적 비음이 증가하고/하거나 똑똑하지 않은 음질이 도입되는 것이다. 이들 문제점들은 주로 재구성된 크기(reconstructed magnitude) 내에서 상당한 양자화 에러들(너무 소수의 비트들에 기인한)의 결과이다. 이러한 문제점을 극복하기 위해서, 음성 포맨트에 대응되는 스펙트럼 크기를 증폭시킴과 동시에 나머지 스팩트럼 크기를 약화시키는 음성 포맷 향상 방법(speech format enhancement methods)이 이용되어 왔다. 이들 방법은 감각되는 음질은 어느 정도 향상시키거나, 궁극적으로 왜곡이 너무 심해서 음질을 악화시킨다.

성능은 디코더가 음성화된 음성 성분의 위상을 반드시 재생시켜야 한다는 사실 때문에 발생되는 인위적인 위상 성분의 도입에 의해 더 약화된다. 낮은 내지 중간 데이타율에서는 인코더와 디코더 사이에 임의의 위상 정보를 전송하기 위한 비트가 충분하게 존재하지 않는다. 따라서, 인코더는 실제 신호 위상을 무시하고, 디코더는 자연음 음성(natural sounding speech)을 생성시키는 방식으로 음성화 위상을 인공적으로 재생시켜야 한다.

광범위한 실험을 통해서, 재생된 위상이 감지되는 음질에 상당한 영향을 미친다는 것을 확인하였다. 위상을 재생시키는 초기 방법은 얼마간의 초기 위상 세트로부터 고조파 주파수들을 단순히 통합시키는 과정을 포함하였다. 음성화 성분을 확보하는 이러한 과정은 세그먼트 영역에서는 지속적이었으나, 고품질 음성을 결과시키는 초기 위상 세트(a set of initial phases)를 선택하는 것은 어려운 것으로 알려졌다. 만일 초기 위상이 0으로 설정되었다면, 결과 음성은 "윙소리(buzzy)"로 판단되었으나, 반면에 초기 위상이 랜덤하게 되었다면 결과 음성은 "여운(reverberant)"으로 판단되었다. 이 결과는 미국 특허 제 5,081,681호에 기술된 보다 낳은 접근 방식으로 유도하였는데, 음성화/비음성화 결정에 따라서, "윙소리"와 "여운"사이의 균형을 조정하기 위해 제한된 양의 랜덤화가 위상에 가해졌다. 청취시험은 음성화 성분이 음성 성분에 지배적일 때에는 랜덤화가 작은 것이 바람직한 반면에, 비음성화 성분이 지배적일 때에는 많은 위상 랜덤화가 바람직함을 보여주었다. 결과적으로, 단순한 음성화 비율(voicing ratio)은 이러한 방식으로 위상 랜덤화(phase randomness)의 양을 제어하도록 계산되었다. 비록 랜덤 위상에 따른 음성화는 여러 적용예에 적합한 것으로 확인되었으나, 청취 시험에서는 여전히 음성화 성분 위상에 많은 질적 문제들이 확인되었다. 시험은, 랜덤 위상 사용을 제거하는 대신에 실제 음성과 더욱 밀접히 매치시키는 방식으로 각 고조파 주파수에서의 위상을 개별적으로 제어함으로써 음질이 상당히 향상될 수 있음을 입증하였다. 본 발명은 이러한 발견에 기초하여 성안되었으며, 이하 바람직한 실시예에서 설명한다.

첫 번째 양상에서, 본 발명은 음성 합성에서 유성화 성분 위상(voicedcomponent phase)을 재생시키는 개량된 방법을 특징으로 한다. 상기 위상은 음성화 성분의 스펙트럼 포락선으로부터(예를 들면 유성음 성분의 근방에 있는 스펙트럼 포락선 형태로부터) 추정된다. 디코더는 각 복수의 프레임에 대해서 음성화 정보(voicing information)와 스텍트럼 포락선(spectral envelope)을 재구성하고, 음성화 정보는 특정 프레임에 대해서 어느 주파수 대역이 음성화 또는 비음성화 되는지를 결정하는데 사용한다. 음성 성분들은 재생 스펙트럼 위상 정보를 사용하여 음성화 주파수 대역(voiced frequency bands)에 대해 합성된다. 비음성화 주파수 대역 성분들은 다른 기술을 사용하여 생성되는데, 예를 들어 필터 응답에서 랜덤 잡음 신호에 대한 필터 응답으로부터 발생되며, 여기서 필터는 비음성화 무성음 대역에서는 스펙트럼 포락선을 주로 가지며 음성화 대역에서는 대략 0의 크기(magnitude)를 갖는다.

바람직하기는, 그로부터 합성 음성 신호가 합성되는 디지탈 비트들은, 기본 주파수 정보(fundamental frequency information)를 나타내는 비트들을 포함하며, 스펙트럼 포락선 정보(spectral envelope information)는 기본 주파수의 고조파 배수에서 스펙트럼 크기(spectral magnitude)를 포함한다. 음성화 정보는 각 주파수 대역( 및 하나의 대역 내에서의 각 고조파 성분)을 음성화 또는 비음성화로 표지하는데 이용되며, 음성화 대역내의 고조파의 경우 각 위상은 고조파 주파수 주위에 위치된 스펙트럼 포락선(스펙트럼 크기로 나타낸 스펙트럼 모양)의 함수로 재생된다.

바람직하게 스펙트럼 크기는 주파수 대역이 음성화인지 비음성화인지에 상관없이 스펙트럼 포락선을 나타내는 것이다. 재생 스펙트럼 위상 정보는 스펙트럼 포락선의 표현을 위한 에지 검출 커넬(edge detection kernel)을 적용함으로써 결정되고, 에지 검출 커넬이 적용되는 스펙트럼 포락선의 표현은 압축되었다. 음성화 음성 성분(voiced speech component)은 적어도 부분적으로 기본 주파수 및 재생 스펙트럼 위상 정보로부터 결정되는 오실레이터 특성을 갖는, 정현 오실레이터들의 뱅크(a bank of sinusoidal oscillators)를 사용하여 결정된다.

본 발명은 종래 기술에 비하여 피크-대-rms 값 면에서 더욱더 실제 음성에 가까운 합성 음성을 생성시켜, 개량된 동적 범위(dynamic range)를 제공한다. 더욱이, 합성된 음성은 더욱 더 자연스럽게 지각되며 소수의 위상 관련 왜곡이 존재할 뿐이다.

본 발명의 다른 특징 및 이점들은 이하의 바람직한 구현예의 설명과 청구범위로부터 명백해 질 것이다.

제 1 도는 신규한 MBE 기초 음성 인코더의 구현예를 도시한 도면이다. 우선 디지탈 음성 신호 s(n)는 프레임 쉬프트 S가 전형적으로 20ms인 슬라이딩 윈도우 함수 ω(n-iS)에 의해 세그먼트화 된다. s_ω(n)로 표기되는, 그 결과 음성 세그먼트는 기본 주파수 ω_o, 음성화/비음성화 결정 세트 V_k, 및 스펙트럼 크기 세트 M_ℓ를 추정하기 위해 처리된다. 스펙트럼 크기는 음성화 정보에 관계없이 고속 푸리에 변환(FFT)을 사용하여 음성 세그먼트를 스펙트럼 영역으로 변환시킨 다음 계산된다. 이어서, MBE 모델의 프레임 파라메타들은 양자화되고 디지탈 비트 스트림으로 인코딩된다. 선택적 FEC 중복(redundancy)은 비트 스트림을 전송중의 비트에러로부터 보호하기 위해 부가된다.

제 2 도는 MBE 기초 음성 디코더의 구현예를 도시한 것이다. 제 1 도에 도시된 대응하는 인코더에 의해 발생된, 디지털 스트림은, 우선 디코딩되고 MBE 모델 파라메타의 각 프레임을 재구성하는데 이용된다. 재구성된 음성화 정보 v_k는 음성화 대역 K를 재구성하고, 각 고조파 대역을 그것이 속하는 대역의 음성화 상태에 따라 음성화 또는 비음성화로 표지하기 위하여 사용된다. 스펙트럼 위상들 φ_ℓ은 스펙트럼 크기 M_ℓ으로부터 재생된 다음, 음성화로 표지된 모든 고조파 주파수들을 나타내는, 음성화 성분 s_v(n)들을 합성하는데 이용된다. 이어서 음성화 성분은 비음성화 성분(비음성화 대역을 나타냄)에 부가되어 합성 음성 신호를 생성시킨다.

본 발명의 바람직한 구현예를 신규한 MBE 기초 음성 코더와 관련하여 설명하면 다음과 같다. 본 발명의 시스템은 이동 위성, 셀룰러 텔리포니, 지상 이동 전화 수신기(SMR, PMR)등과 같은 이동 통신 분야를 포함하는 다양한 환경 영역에 적용 가능하다. 이러한 새로운 음성 코더는 표준 MBE 음성 모델을 모델 파라메타들을 계산하고 이러한 파라메타들로부터 음성을 합성하는 새로운 분석/합성 과정과 결합시킨다. 이러한 신규한 방법은 음질은 향상시키고 음성 신호를 인코딩 및 전송하는데 요구되는 비트율은 감소시킨다.

비록 본 발명을 MBE 기초 음성 코더와 관련하여 설명하지만, 본원의 기술 및 방법은 본 발명의 사상 및 범위로부터 벗어나지 않고도 당업자들에 의해 용이하게다른 시스템 및 기술에 쉽게 적용될 수 있을 것이다.

본 발명의 신규한 MBE 기초 음성코더에서, 8㎑에서 샘플링된 디지탈 음성신호는, 먼저 해밍 윈도우(Hamming Window)와 같은 짧은(20-40ms) 윈도우 함수와 디지탈 음성신호를 곱함으로써 중첩 세그먼트들로 분할된다. 프레임은 전형적으로 매 20ms마다 이런 방식으로 계산되며, 각 프레임에 대해서 기본 주파수 및 음성화 결정(voicing decision)이 계산된다. 신규한 MBE 기초 음성 코더에서, 이러한 파라메타들은 "유기 파라메타 추정(ESTIMATION OF EXCITATION PARAMETERS)"이라는 제목하에 출원중인 미국특허 출원 제 08/222,119호 및 08/371,743호에 기술된 새로운 계량된 방법에 따라서 계산된다. 그렇지 않으면, 기본 주파수 및 음성화 결정(voicing decisions)은 "APCO 프로젝트 25 보코더"를 제목으로 한 TIA 인테림(Interim) 표준 IS102BABA에 기술된 바와 같이 계산될 수 있다. 양자의 경우에, 소수의 음성화 결정(주로 20 이하)은 각 프레임내에서 상이한 주파수 대역의 음성화 상태를 모델화하기 위해 사용된다. 예를들면, 3.6Kbps 음성 코더에서는, 0과 4㎑ 사이의 8개의 상이한 주파수 대역에 대하나 음성화 상태를 나타내기 위해, 8개의 V/UV 결정부가 주로 사용된다.

함수 s(n)가 이산 음성 신호를 나타낸다고 하면, i번째 프레임의 음성 스펙트럼 S_ω(ω,i ·s)는 다음 방정식에 따라 계산된다.

상기 식에서, ω(n)은 윈도우 함수이고, S는 주로 20ns의 프레임 크기(8㎑에서 160 표본이다)이다. i번째 프레임에 대한 추정 기본 주파수와 음성화 결정은 1≤k≤K일 때 각각 ω₀(i ·S) 및 V_k(i ·S)로 나타내며, 여기서 K는 V/UV 결정의 총수(주로 K=8)이다. 표기의 단순화를 위하여 프레임 지수 i ·S는 현재 프레임에 대해 언급할 때 생략되어, 현재 스펙트럼, 기본 주파수 및 소리 결정은 각각 S_ω(ω),ω₀및 V_k로 나타낼 수 있다.

MBE 시스템에서, 스펙트럼 포락선은 음성 스펙트럼 S_ω(ω)으로부터 추정되는 스펙트럼 진폭 세트로써 주로 나타내어진다. 스펙트럼 진폭은 각 고조파 주파수(즉, ω=ω₀ℓ에서 ℓ은 0, 1 ···인 경우)에서 계산된다. 종래 MBE 시스템과는 달리, 본 발명은 음성화 상태와는 관계없는, 스펙트럼 진폭을 추정하기 위한 새로운 방법을 특징으로 한다.

음성화 전이(voicing transition)가 발생할 때마다 종래의 MBE 시스템에 주로 존재하였던 불연속 부분이 제거되었기 때문에, 이러한 결과는 스펙트럼 진폭 세트를 보다 완만하게 만든다. 본 발명은 국부 스펙트럼 에너지(local spectral energy)를 정확하게 표현하여, 감지되는 라우드니스(loudness)를 유지하는 추가의 이점을 특징으로 한다. 더욱이, 본 발명은 고효율의 고속 푸리에 변환(FFT)에 의해 주로 채용되는 주파수 표본화 그리드 효과를 보상하면서 국부 스펙트럼 에너지를 유지한다. 이는 또한 스펙트럼 진폭들의 완만한 세트를 수득케 한다. 완만함(Smoothness)은 양자화 효율성을 향상시키고 채널에러 완화뿐만 아니라 보다나은 포먼트(formant) 증가(즉, 포스트필터링(postfiltering))를 가능하게 하기 때문에 전체적인 성능에 중요하다.

스펙트럼 진폭의 완만한 세트를 계산하기 위하여, 각 음성화 및 비음성화 음성 특성을 고려하는 것이 필요하다. 음성화 음성의 경우에, 스펙트럼 에너지(즉, ｜S_ω(ω)²｜)는 고조파 주파수 둘레에 집중되고, 비음성화 음성일 때 스펙트럼 에너지는 고르게 분포된다. 종래 MBE 시스템에서는, 비음성화 스펙트럼 진폭은, 중심 주파수가 각 대응 고조파 주파수인 주파수 간격(frequency interval)에 대한 평균 스펙트럼 에너지(주로 추정된 기본치와 같은)로 계산되었다. 대조적으로, 종래의 MBE 시스템에서의 비음성화 스펙트럼 크기는 같은 주파수 간격내의 전체 스펙트럼 에너지의 일부의 프렉션(주로 1)과 같게 세팅된다. 특히 주파수 간격이 넓을 때(즉, 큰 기본 주파수일 때), 평균에너지와 전체 에너지가 매우 상이하게 될 수 있으므로, 음성화 상태들 사이에 연속적인 고조파 전이(즉 비음성화에서 음성화로, 또는 음성화에서 비음성화로)가 있을 때마다 스펙트럼의 크기에는 불연속성이 나타난다.

종래 MBE 시스템에서 발견된 상술한 문제점을 해결할 수 있는 하나의 스펙트럼 크기 표현은 대응 간격 내에서 평균 스펙트럼 에너지나 전체 스펙트럼 에너지로써 각 스펙트럼 크기를 나타내려는 것이다. 이러한 각 해결책들이 음성화 전이들(voicing transitions)에서의 불연속성을 제거하겠지만, 각 경우는 고속 푸리에 변환(FFT) 또는 이산 푸리에 변환(DFT)과 같은 스펙트럼 변환과 관련된 다른요동(fluctuation)을 도입할 것이다. 실제로 FFT는 FFT 길이, N에 의해 결정되는 일정한 표본 그리드에서 S_ω(ω)를 평가하는데 주로 사용된다. 예를 들면 다음 방정식에서 보이는 바와 같이 0과 2π사이에서 N 포인트 FFT는 N 주파수 표본들을 생성한다.

바람직한 구현예에서 스펙트럼은 N=256이고, ω(n)은 표 1에서와 같이 255 포인트 대칭 윈도우 함수(255 point symmetric window function)와 같도록 세팅된 FET를 사용하여 계산된다.

낮은 복잡성에 따라 스펙트럼을 계산하기 위하여 FFT를 사용하는 것이 바람직하다. 그러나, 그 결과로 수득하는 표본 간격, 2π/ N은 기본 주파수의 배수의 역수는 아니다. 결과적으로, 어떤 두개의 연속 고조파 주파수간의 FFT 표본 숫자는 고조파들 사이에서는 일정하지 않다. 그 결과, 만약 평균 스펙트럼 에너지가 고주파 크기를 나타내는데 사용되면, 집중된 스펙트럼 분포를 가지는 음성화 고조파들은 각 평균치를 계산하는데 사용된 FFT 표본들의 수를 가변적이어서 고조파들 사이의 요동이 일어나게 된다. 마찬가지로, 만약 전체의 스펙트럼 에너지가 고조파 크기를 나타내는데 사용된다면, 더욱 일정한 스펙트럼 분포를 가지는 비음성화 고조파들은, 전체 에너지가 계산되는 FFT 표본들의 수가 다양하기 때문에 고조파들 사이의 요동을 접하게 될 것이다. 양자의 경우, FFT로부터 얻을 수 있는 소수의 주파수 표본들은, 특히 기본 주파수가 작을 때, 스펙트럼 크기에 급격한 변동을 도입시킬 수 있다.

본 발명은 음성화 전이(voicing transitions)에서 불연속성을 제거하기 위하여 모든 스펙트럼 크기에 대해 보상 전 에너지 방법(compensated total energy method)을 사용한다. 본 발명의 보상 방법은 또한 FFT 관련 변동이 음성화 또는 비음성화 크기를 왜곡시키지 못하도록 한다. 특히, 본 발명은 0≤ℓ≤L인 경우에 M_ℓ으로 표현되는 현재 프레임의 스펙트럼 크기 세트를 하기 식에 따라 계산한다.

상기 식으로부터 볼 수 있는 바와 같이, 각 스펙트럼 크기는 스펙트럼 에너지｜Sω(m)｜²의 가중된 합으로 계산되며, 가중 함수는 각 특정 스펙트럼 크기의 고조파 주파수에 의해 오프셋 된다. 가중함수 G(ω)는 2πm/N에서 발생하는 FFT주파수 표본들과 고조파 주파수 ℓω 사이에서 오프셋을 보상토록 설계된다. 이 함수는 각 프레임이 추정 기본 주파수를 반사시키도록 다음과 같이 변화된다.

이러한 스펙트럼 크기 표현의 하나의 가치 있는 특성은 음성화 및 비음성화 고조파 양자에 대해 국부 스펙트럼 에너지(즉,｜S_ω(m)｜²)에 기초하는 것이다. 스펙트럼 에너지는, 음성신호의 위상에 영향을 받지 않고 관련 주파수 내용과 라우드니스 정보를 제공하므로, 인간이 음성을 인식하는 방법을 가깝게 근사한 것으로 인식된다. 신규한 크기의 표현(magnitude representation)은 음성화 상태와는 별개이므로, 음성화 및 비음성화 영역간의 전이 및 음성화 및 비음성화 에너지의 혼합으로 인한 표현상의 요동이나 불연속은 존재하지 않는다. 이는 추정된 기본 주파수들 사이에 측정된 에너지를 완만한 방식으로 인터폴레이션 함으로써 수득된다. 식(4)에 기술된 가중 함수의 추가의 이점은 음성에서의 전체 에너지가 스펙트럼 크기내로 보존되는 것이다. 이는 스펙트럼 크기 세트내의 전체 에너지를 위한 하기 식을 시험하면 더욱 분명하게 확인할 수 있다.

상기 식은 G(2πm/N-ℓω₀)에 대한 합을 간격 0≤m≤[Lω₀N/2π]에 걸쳐서 1로 봄으로써 간략화될 수 있다. 이것은 스펙트럼 크기내의 에너지가 음성 스펙트럼내의 에너지와 같기 때문에, 음성 전체 에너지는 이 구간에서 보존되는 것을 의미한다. 식 (5)에서 분모는 식 (1)에 따라 Sω(m)을 계산하는데 사용된 윈도우 함수 ω(n)를 단순히 보상하는 것임을 유념하여야 한다. 다른 중요한 점은 표현 대역폭이 곱 Lω₀에 의존한다는 것이다. 실제로 소망하는 대역폭은 π로 나타내어지는 나이퀴스트 주파수의 일부 분획이다. 결과적으로 스펙트럼 크기들의 총수 L은 현재프레임의 추정 기본 주파수에 역비례하며 주로 다음과 같이 계산된다.

상기 식에서, 0≤α<1이고, 8㎑ 표본율을 사용하는 3.6kbps 시스템은 3700㎐ 대역폭을 주고, α=925로 사용하도록 설계되었다.

상술한 것 이외의 가중함수는 또한 식 (3)으로 사용될 수 있다. 사실, 식(5)의 G(ω)의 합이 일부 유효 대역폭에 걸쳐서 일정하게(주로 1) 대략 같다면, 전체전력은 유지된다. 식 (4)에 주어진 가중 함수는 샘플링 그리드에 의해 도입되는 어떤 요동도 완만하게 제거하기 위해 FFT 표본 간격(2π/N)에 대해 선형 인터폴레이션(linear interpolation)을 사용한다. 대안으로, 이차 또는 다른 인터폴레이션 방법은 본 발명의 범위를 벗어나지 않고 G(ω)내에 대입될 수 있다.

비록 본 발명을 MBE 음성 모델의 이진 V/UV 결정의 관점에서 설명하였지만, 본 발명은 음성화 정보에 대한 다른 표현방법을 이용하는 시스템에도 적용 가능하다. 예를 들어 정현 코더(sinusoidal coders)들에서 많이 사용되는 하나의 대안은 음성화 정보를 컷-오프 주파수의 관점에서 표현하는 것이며, 여기서 스펙트럼은 컷-오프 주파수 아래에서는 음성화로, 그 이상에서는 비음성화로 간주된다. 본 발명은 비 이진 음성화 정보(non-binary voicing information)와 같은 다른 부분에도 확장 가능하다.

본 발명은 FFT 샘플링 그리드에 의한 요동 및 음성화 전이부에서의 불연속이 방지되므로 크기 표현(magnitude representation)의 완만함을 증진시킨다. 정보이론으로부터 잘 알려진 결과는, 증가된 완만함이 소수의 비트를 가지고 스펙트럼 크기의 정확한 양자화를 용이하게 한다는 것이다. 3.6kbps 시스템에서 72 비트는 각 20ms 프레임의 모델 파라메타를 양자화시키는데 사용된다. 7 비트는 기본 주파수를 양자화하는데 사용되고, 8 비트는 8개의 상이한 주파수대(약 500Hz 각각)에서 V/UV 결정부를 코딩하는데 사용된다. 프레임당 남은 57 비트는 각 프레임의 스펙트럼 크기를 양자화하는데 사용된다. 미분 블록 이산 여현 변환(DCT) 방법은 로그 스펙트럼 크기에 적용된다. 본 발명의 증가된 완만함은 더 많은 신호 전력을 서서히 변하는 DCT 성분으로 채운다. 비트 할당 및 양자화 단계 크기는 프레임당 가용한 비트수에 대해 낮은 스펙트럼 왜곡을 제공하는 이러한 효과를 담당하도록 조정된다. 이동통신분야에서, 이동 채널을 통하여 전송하기 전에 비트 스트림에 대한 추가 중복부(redundancy)를 포함시키는 것이 종종 바람직하다. 이러한 중복부는 전송 중에 도입되는 비트 에러가 정정 및/ 또는 검출될 수 있도록 하는 방식으로 비트 스트림에 중복부를 부가하는, 검출코드 및/ 또는 에러정정 코드에 의해 주로 생성된다. 예를 들면, 4.8Kbps 이동통신응용에서, 1.2Kbps 중복 데이터는 3.6Kbps의 음성 데이터에 부가된다. 하나의 [24,12]골래이(Golay)코드와 3개의 [15,11] 해밍 코드의 조합이 각 프레임에 부가된 추가 24 중복 비트를 생성하도록 사용된다. 일반적인 컨벌루션, BCH, 리드-솔로몬 등과 같은 여러 형태의 에러 정정코드들도 가상적인 임의의 채널 조건을 만족시키기 위해 에러 로버스트니스(error robustness)를 변화시키기 위해 이용될 수 있다. 수신기에서 디코더는 전송된 비트 스트림을 수신하여 각 프레임의 모델 파라메타(기본 주파수, V/UV 결정부 및 스펙트럼 크기)를 재구성한다. 실제로 수신된 비트 스트림은 채널내 노이즈에 의한 비트 에러를 포함할 수 있다. 그 결과로 V/UV 비트들은 잘못 디코딩 되어, 음성화 크기가 비음성화로 해석되거나 그 역으로 해석되는 결과를 초래할 수 있다. 본 발명은, 크기 자체가 음성화 상태와는 무관하기 때문에, 이러한 음성화 에러로부터 감지되는 왜곡을 감소시킨다. 본 발명의 다른 이점은 수신기에서 포먼트(formant)를 증가시키는 동안 발생한다. 만약 포먼트 최대에서 스펙트럼 크기가 포먼트 최소에서의 스펙트럼 크기에 비해 증가된다면 감지되는 음질이 증가되는 것을 실험적으로 확인하였다. 이러한 과정은 양자화 동안에 도입된 포먼트 확장(formant broadening)을 상쇄한다. 따라서 음성은 분명하고 울림이 적게 들린다. 실제로, 스펙트럼의 크기는 국부 평균 보다 큰 곳에서 증가되고 국부 평균 보다 작은 곳에서 감소된다. 불행히도, 스펙트럼 크기의 불연속성은 포먼트로서 나타날 수 있으며, 스퓨리어스를 증가시키거나 감소시킨다. 본 발명의 개량된 완만함은 이러한 문제점을 극복할 수 있도록 도와주어 스퓨리어스 변화를 감소시키면서 동시에 포먼트 증가를 개선시킨다.

이전의 MBE 시스템에서와 같이, 신규한 MBE 기초 인코더는 스펙트럼 위상정보를 추정 또는 전송하지 않는다. 결과적으로, 신규한 MBE 기초 디코더는 소리를 음성화 음성 합성(voiced speech systhesis) 중에 모든 음성화 고조파들에 대한 합성 위상(synthetic phase)을 재생시켜야 한다. 본 발명은 실제 음성을 더욱 가깝게 근사하고 전체 음질을 향상시키는 신규한 크기 의존 위상 생성 방법(magnitude dependent phase generation method)을 특징으로 한다. 음성화 성분들의 랜덤 위상을 사용하는 종래 기술은 스펙트럼 포락선의 국부적 완만함을 측정하는 것으로 대체된다. 이는 선형 시스템 이론에 의해 정당화되며, 스펙트럼 위상은 폴(pole)과 제로 위치에 의존한다. 이는 스펙트럼 크기 내에서 완만함의 레벨과 위상을 연결시킴으로써 모델화될 수 있다. 실제로 하기 식과 같은 에지 검출 계산이 현재 프레임에 대한 디코딩된 스펙트럼 크기에 적용된다.

상기 식에서, 파라메타 B_ℓ은 압축된 스펙트럼 크기를 나타내고, h(m)은 적절한 구간을 가진 에지 검출 커넬(edge detection kernel)이다. 이 식의 출력은 음성화 고조파들 사이의 위상 관계를 결정하는, 재생된 위상값 셋트 φ_ℓ이다. 이러한 값들은 음성화 상태에 관계없이 모든 고조파에 대해서 정해진다 그러나, MBE 시스템에서는, 음성화 합성 과정만이 위상값들을 이용하는 반면에, 비음성화 합성 과정은 이들을 무시한다. 실제로 재생된 위상값들은, 하기에(식(20)참조) 더욱 상세히 설명된 바와 같이 다음 프레임을 합성하는 동안 사용될 수 있으므로, 모든 고조파에 대해서 계산되어 저장된다. 압축 크기 파라메타(compressed magnitude parameter) B_ℓ은 일반적으로 그 동적 영역(dynamic range)을 감소시키기 위해 스펙트럼 크기 M_ℓ를 압축 팽창 함수를 통하여 통과시킴으로써 계산된다. 아울러 익스트라폴레이션이 크기 표현의 에지 이상(즉, ℓ≤0이고, ℓ> L이다)으로 추가 스펙트럼 값을 생성하기 위해 수행된다. 하나의 특히 적합한 압축 함수는 로그 함수인데, 이것은 로그 함수가 스펙트럼 크기 M_ℓ(즉 라운드니스 또는 볼륨)의 임의의 전체 스케일링을 B_ℓ에서의 부가 오프셋(additive offset)으로 변환시키기 때문이다. 식(7)의 h(m)이 평균 0이라고 가정하면, 이 오프셋은 무시되며 재생 위상값 φ_ℓ은 스케일링과는 무관하게 된다. 실제로 log₂는 디지탈 컴퓨터에서 쉽게 계산 가능하기 때문에 사용되어 왔다. 이는 B_ℓ의 표현을 다음과 같이 유도한다.

ℓ> L에서 익스트라폴레이션 값 B_ℓ은 표현 대역폭 이상의 고조파 주파수들에서 완만함을 강조하도록 설계된다. γ=72인 값은 3.6Kbps 시스템에 사용되어 왔으나, 고조파 성분은 저주파 성분보다 모든 음성 성분에 주로 적게 기여하므로, 이 값은 임계치로 간주되지는 않는다. 청취 시험은 ℓ≤0에서 B_ℓ값이 감지되는 음질에 상당한 영향을 미칠 수 있음을 보여주었다. ℓ=0에서의 값은 텔리포니와 같은 여러 응용예에서는 DC 반응이 없기 때문에, 작은 값(small value)으로 세팅되었다. 또한 Bo=0임을 입증하는 청취 실험은 정극성 또는 부극성단(positive or negative extremes)에서 바람직하였다. 대칭 응답 B-_ℓ=B_ℓ의 사용은 시스템 이론뿐만 아니라 청취 시험에도 기초한 것이었다.

적절한 에지 검출 커넬 h(m)의 선택은 전체 음질에 있어서 중요하다. 형태와크기는 각각 음성화 합성에 이용되는 위상 변수 φ_ℓ에 영향을 미치나, 광범위한 가능한 커넬들이 성공적으로 이용될 수 있다. 잘 설계된 커넬들로 유도하는 여러가지 구속들이 밝혀졌다. 구체적으로, m>0일 때 h(m)>0이고 h(m)= -h(-m)이면, 그 함수는 주로 불연속성을 국부화하는데 더욱 적합하다. 또한 스케일링 독립을 위해 제로 평균 커넬을 수득하기 위하여 h(0)=0으로 구속함이 유리하다. 다른 바람직한 특성은, 스펙트럼 크기에서 국부 변경에 초점을 맞추기 위하여 ｜m｜이 증가함에 따라, h(m)의 절대값을 감소시키는 것이다. 이는 h(m)이 m에 반비례하도록 함으로서 수득될 수 있다. 이러한 모든 구속을 만족시키는 하나의 식은 식(9)에 나타내었다.

본 발명의 바람직한 구현예는 λ=44인 식(9)를 이용한다. 이 값은 중간정도의 복합성을 사용함으로써 좋은 소리의 음성을 생성시키는 것으로 확인되었으며, 합성 음성은 원음에 가까운 최대/실효 에너지비(peak-to-rms energy ratio)를 갖는 것으로 확인되었다. 다른 λ값을 사용하여 수행된 시험은, 바람직한 값에서 조금 벗어나도 거의 균등한 성능이 결과됨을 보여주었다. 커넬 길이 D는 완만함의 양과 복잡성 사이의 균형을 맞추기 위해서 조정될 수 있다. D 값이 길어질수록 일반적으로 청취자에게 바람직하지만, D=19 값은 그 보다 더 긴 길이와 본질적으로 균등한 것으로 확인되었으므로, D=19는 새로운 3.6Kbps 시스템에서 사용된다.

식(7)의 형태는 각 프레임의 모든 재생 위상 변수들(regenerated phasevariables)가 순 및 역방향 FFT 연산에 의해 계산될 수 있도록 이루어진 것임을 주목하여야 한다. 프로세서에 따라, FFT 구현은 직접 계산하는 것 보다 D 및 L이 큰 경우 더 나은 계산 효율을 갖게 할 수 있다.

재생 위상 변수 계산은 음성화 상태와 독립적인 본 발명의 새로운 스펙트럼 크기 표현에 의해 상당히 용이해진다. 상술한 바와 같이 식 (7)에 의해 적용된 커넬은 스펙트럼 포락선에서의 에지 또는 다른 요동을 더욱 악화시킨다. 이는 스펙트럼 위상이 폴 및 제로 위치에 의해 스펙트럼 크기 변경과 관련된 선형 시스템의 위상 관계를 근사하기 위해 이루어진다. 이러한 특성을 이용하기 위해서, 위상 재생 과정(phase regneration procedure)은 스펙트럼 크기가 음성의 스펙트럼 포락선을 정확히 표현하는 것으로 가정해야만 한다. 이는 본 발명의 새로운 스펙트럼 크기 표현에 의해 용이해지는데, 이는 종래 기술보다 스펙트럼 크기가 완만한 세트를 생성하기 때문이다. 음성화 전이부 및 FFT 샘플링 그리드에 의한 불연속성 및 요동의 제거는 스펙트럼 포락선에서의 진정한 변화를 더욱 정확하게 사정할 수 있게 한다. 결과적으로 위상 재생(phase regeneration)이 향상되면, 전체적인 음질도 향상된다.

일단 상기 과정을 따라서 재생위상 변수 φ_ℓ를 계산하면, 음성화 합성 과정(voiced synthesis process)은 식 (10)에 보인 바와 같이 개개의 정현 성분(sinusoidal components)의 합으로써, 음성화 음성 s_v(n)을 합성한다. 음성화 합성방법(voiced synthesis method)은 현 프레임의 ℓ번째 스펙트럼 진폭과 이전프레임의 ℓ번째 스펙트럼 진폭을 쌍으로 만들기 위한 고조파들의 단순한 규율된 지정에 기초한다. 이러한 과정에서, 현 프레임의 고조파들의 개수, 기본 주파수, V/UV 결정 및 스펙트럼 진폭은 각각 L(0), ω₀(0), ν_k(0) 및 M_ℓ(0)로 표시되며, 이전 프레임의 동일 파라메타는 L(-S), ω₀(-S), ν_k(-S) 및 M_ℓ(-S)로 표기된다. S 값은 긴규한 3.6Kbps 시스템에서 20ms(160 표본들)인 프레임 길이와 같다.

음성화 성분 S_v,ℓ(n)은 ℓ번째 고조파 쌍으로부터 음성화 음성(voiced speech)에 기여를 나타낸다. 실제로 음성화 성분들은 서서히 변화하는 정현곡선으로 설계되는데, 여기서 각 성분의 진폭 및 위상은 현재의 합성 간격(즉 n=-S이고 n=0에서)의 말단에서 이전 및 현재 프레임의 모델 파라미터에 근접하도록 조정되고, 또한 음성화 성분들은 간격 -S〈n〈0의 구간에 걸쳐서 이들 파라메타들 사이에 완만하게 내삽되도록 설계된다.

파라메타들의 수는 연속 프레임 사이에서 달라질 수 있다는 사실을 수용하기 위해서, 본 합성 방법은 허용 대역폭을 초과하는 모든 고조파들이 다음 식에 보인 바와 같이 제로와 같다고 가정한다.

또한 정규 대역폭 밖의 스펙트럼 진폭은 비음성화로 표지되는 것으로 가정한다. 이러한 가정들은 현재 프레임의 스펙트럼 진폭수가 이전 프레임의 스펙트럼 진폭 수와 같지 않은 경우(즉, L(0)≠L(-S))에 필요하다.

진폭 및 위상 함수는 각 고조파 쌍으로 상이하게 계산된다. 특히 기본 주파수에서의 음성화 상태와 상대적 변화(relative change)는 가능한 4개의 함수 중에서 어느 것이 현재의 합성간격 동안 각 고조파에 대해 사용될지를 결정한다. 첫번째 가능한 경우는, ℓ번째 고조파가 이전 및 현재의 음성 프레임 양자에 대해 비음성화로 표지되는 경우에 일어나는데, 이 경우에 음성화 성분은 다음 식에 보인 바와 같이 간격 내내 0으로 설정된다.

이 경우 ℓ번째 고조파 둘레의 음성 에너지(speech energy)는 완전히 비음성화이고, 비음성화 합성 과정(unvoiced synthesis procedure)은 전체 기여(contribution)의 합성을 담당한다.

대안으로, 만약 ℓ번째 고조파가 현재 프레임에 대해서는 비음성화로 표지되고, 이전 프레임에 대해서는 음성화로 표지되면, s_v,ℓ(n)은 다음 식으로 주어진다.

이 경우 스펙트럼 영역내의 에너지는 합성 간격의 전체 구간에 걸쳐서 음성화 합성 방법으로부터 비음성화 합성 방법으로 전이된다.

마찬가지로, ℓ번째 고조파가 현재 프레임에 대해서 음성화로 표지되고, 이전 프레임에 대해서 비음성화로 표지되면, s_v,ℓ(n)은 다음 식으로 주어진다.

이 경우 스펙트럼 영역내의 에너지는 비음성화 합성 방법에서 음성화 합성방법으로 전이한다.

그렇지 않고, 만일 ℓ번째 고조파가 현재 및 이전 프레임 양자에 대해서 음성화로 표지되고, ℓ>=8 또는 ｜ω₀(0)-ω₀(-S)｜ ≥1ω₀(0)이면, s_v,ℓ(n)은 다음 식으로 나타내어지며, 변수 n은 -S〈n≤0 범위 내로 제한된다.

고조파가 양자의 프레임에서 음성화로 표지된다는 사실은, 국부 스펙트럼 에너지는 음성화로 남고 음성화 성분 내에서 완전하게 합성되는 상황에 해당한다. 이 경우는 고조파 주파수에 상당히 큰 변동이 있는 경우에 해당하므로, 오버랩-부가 접근 방식(overlap-add approach)은 이전 및 현재 프레임으로부터의 기여를 결합시키기 위해 사용된다. 식(14, 15) 및 (16)에서의 사용된 위상변수 θ_ℓ(-S) 및 θ_ℓ(0)는 n=-S 및 n=0일 때 식 (20)에서의 연속위상함수 θ_ℓ(n)를 계산하여 결정한다.

최종 합성 규칙은 ℓ번째 스펙트럼 진폭이 현재 및 이전 프레임에 대해서 음성화이고, ℓ< 8이며, ｜ω₀(0)-ω₀(-S)｜<1ω₀(0)일 때 사용된다. 종래에 이러한 경우는 국부 스펙트럼 에너지가 완전히 음성화일 때만 발생하였다.

그러나, 이 경우 이전 및 현재의 프레임간의 주파수차(frequency difference)는 합성 간격에 걸쳐서 정현 곡선 위상 내에의 연속적인 전이를 허용할 만큼 작다. 이 경우 음성화 성분은 다음 식을 따라서 계산한다.

여기서 진폭함수, a_ℓ(n)는 식 (18)에 따라 계산되며, 위상함수 θ_ℓ(n)은 식(19) 및 (20)에 기술된 것과 같은 유형의 저차 다항식이다.

상술한 새로운 위상 갱신 과정(phase update process)은 ℓ번째 고조파에 대한 위상 함수를 제어하기 위하여 이전 및 현재 프레임 양자에 대해서 재생 위상값(즉, φ_ℓ(0) 및 φ_ℓ(-S))을 사용한다. 이는 선형 위상 변수에 의해서 합성 영역의 말단에서 위상의 연속성을 보장하고 그렇지 않으면 목적으로 하는 재생 위상을 만족시키도록 하는, 식 (19)에 표현된 2차 위상 다항식을 통해서 수행된다. 또한, 이런 위상 다항식의 변경율은 간격의 종점에서의 적절한 고조파 주파수와 대략 동일하다.

식 (14),(15),(16) 및 (18)에서 사용된 합성 윈도우는 현재 및 이전 프레임내의 모델 파라메타들 사이에 주로 내삽하기 위해 설계된다. 이는 만일 다음 오버랩-부가 방정식이 전체의 현재 합성 간격(current synthesis interval)을 만족한다면 용이해 진다.

새로운 3.6Kbps 시스템에서 유용하고 상기 제약조건을 만족시키는 것으로 확인된 하나의 합성 윈도우는 아래와 같이 정의된다.

20ms 프레임 사이즈(s=160)동안 β=50의 값이 사용된다. 식(22)에 제공된 합성 윈도우는 선형 내삽(linear, interpolation)과 본질적으로 같다.

식(10)에 의해 합성된 음성화 성분과 설명된 과정은 합성 과정을 완성시키기 위하여 비음성화 성분에 가해야만 된다. 비음성화 음성 성분 S_uv-(n)은 음성화 주파수 대역 내에서는 제로 필터 반응에 의해 그리고 비음성화로 표지된 주파수 대역내에서는 스펙트럼 크기에 의해 결정된 필터 반응에 의해 백색 잡음 신호를 필터링함으로써 합성된다. 실제로 이는 필터링을 수행하기 위하여 순방향 및 역방향 FFT를 사용하는 가중 오버랩-부가 방법에 의해 수행된다. 이런 방법은 잘 알려져 있는바, 세부 사항은 참고문헌을 참조할 수 있다.

본원에서 교시한 특정 기술에 대한 다양한 대안들 및 확장들은 본 발명의 정신 및 범위를 벗어나지 않고 이용될 수 있을 것이다. 예를 들어, 제 3 차 위상 다항식은 식(19)에서 △ω_ℓ항을 정확한 경계 조건을 갖는 3차 항으로 대체하여 이용될 수 있다. 또한 종래 기술은 다른 변형예는 물론 다른 대안의 윈도우 함수 및 내삽 방법을 설명한다. 본 발명의 다른 구현예는 하기 청구 범위에 포함된다.

제 1도는 음성 인코더에 기초한 새로운 MBE로 구성된 본 발명의 도면,

제 2도는 음성 디코더에 기초한 새로운 MBE로 구성된 본 발명의 도면이다.

Claims

음성 신호를 복수의 프레임으로 분할하고; 각 프레임의 각 복수의 주파수 대역들이 음성화 또는 비음성화 대역으로 합성되어야 하는지를 나타내는 음성화 정보(voiced information)를 결정하며; 음성 프레임을 처리하여 주파수 대역들의 스펙트럼 크기를 나타내는 스펙트럼 포락선 정보를 결정하고, 스펙트럼 포락선 및 음성화 정보를 양자화 및 인코딩 함으로써 생성된 타입의 복수의 디지탈 비트로부터 합성 디지탈 음성 신호를 디코딩 및 합성하는 방법으로서, 상기 합성 디지탈 음성 신호를 디코딩 및 합성하는 방법이,

복수의 비트들을 디코딩하여 복수의 프레임들 각각에 대해 스펙트럼 포락선 및 음성화 정보를 제공하는 단계;

스펙트럼 포락선 정보를 처리하여 복수의 프레임들의 각각에 대해 재생 스펙트럼 위상 정보(regenerated spectral phase information)를 결정하는 단계;

음성화 정보로부터 복수의 프레임에 대해 주파수 대역들이 음성화인지 비음성화인지를 결정하는 단계;

재생 스펙트럼 위상 정보를 사용하여 음성화 주파수 대역에 대한 음성 성분을 합성하는 단계;

적어도 하나의 비음성화 주파수 대역 내에서 음성 신호를 나타내는 음성 성분을 합성하는 단계;

음성화 및 비음성화 주파수 대역에 대한 합성 음성 성분들을 결합시켜 음성신호를 합성하는 단계를 포함하는 재생 위상 정보를 사용하는 음성 합성 방법.
음성신호를 복수의 프레임으로 분할하고 각 프레임의 각 복수의 주파수 대역들이 음성화 또는 비음성화 대역으로 합성되어야 하는지를 나타내는 음성화 정보(voiced information)를 결정하며; 음성 프레임들(speech frames)을 처리하여 주파수 대역들의 스펙트럼 크기를 나타내는 스펙트럼 포락선 정보(spectral envelope information)를 결정하고, 스펙트럼 포락선 및 음성화 정보를 양자화 및 인코딩함으로써 생성된 타입의 복수의 디지탈 비트로부터 합성 디지탈 음성 신호를 디코딩 및 합성하는 장치로서, 상기 합성 디지탈 음성 신호를 디코딩 및 합성하는 장치가,

복수의 비트들을 디코딩하여 복수의 프레임들 각각에 대해 스펙트럼 포락선 및 음성화 정보를 제공하는 수단;

스펙트럼 포락선 정보를 처리하여 복수의 프레임들의 각각에 대해 재생 스펙트럼 위상 정보(regenerated spectral phase information)를 결정하는 수단;

음성화 정보로부터 특정 프레임의 주파수 대역이 음성화인지 비음성화인지를 결정하는 수단;

재생 스펙트럼 위상 정보를 사용하여 음성화 주파수 대역에 대한 음성 성분(speech component)을 합성하는 수단;

적어도 하나의 비음성화 주파수 대역내의 음성 신호를 나타내는 음성 성분을 합성하는 수단;

음성화 및 비음성화 주파수 대역에 대한 합성 음성 성분들을 결합시켜 음성 신호를 합성하는 수단을 포함하는 재생 위상 정보를 사용하는 음성합성장치.
제 1항에 있어서,

합성 음성 신호가 합성되는 디지탈 비트들이 스펙트럼 포락선 및 음성화 정보를 나타내는 비트와 기본 주파수 정보를 나타내는 비트를 포함하는 방법.
제 3항에 있어서,

스펙트럼 포락선 정보는 음성 신호의 기본 주파수의 고조파 배수에서의 스펙트럼의 크기를 나타냄을 특징으로 하는 방법.
제 4항에 있어서,

스펙트럼 크기는 주파수 대역이 음성화인지 비음성화인지에 관계없이 스펙트럼 포락선을 나타내는 것을 특징으로 하는 방법.
제 4항에 있어서,

재생 스펙트럼 위상 정보는 그러한 재생 스펙트럼 위상 정보가 연관되는 고조파 배수 근방에서 스펙트럼 포락선의 형태로부터 결정되는 것을 특징으로 하는 방법.
제 4항에 있어서,

재생 스펙트럼 위상 정보는 스펙트럼 포락선을 표현하는 에지 검출 커넬을 적용함으로써 결정되는 것을 특징으로 하는 방법.
제 7항에 있어서,

에지 검출 커넬이 적용되는 스펙트럼 포락선 표현은 압축된 것임을 특징으로 하는 재생 위상정보를 사용하는 음성합성방법.
제 4항에 있어서,

합성 음성 신호의 비음성화 성분은 랜덤 노이즈 신호에 응답하는 필터로부터 결정되며, 그 필터는 비음성화 밴드에서는 스펙트럼 크기를 주로 가지며 음성화 밴드에서는 주로 제로의 크기를 가지는 것을 특징으로 하는 재생 위상 정보를 사용하는 방법.
제 4항에 있어서,

음성화 음성 성분은 적어도 부분적으로 기본 주파수와 재생 스펙트럼 위상정보로부터 결정되는 오실레이터 특징을 갖는 정현 오실레이터 뱅크를 이용하여 결정되는 것을 특징으로 하는 방법.
제 2항에 있어서,

합성 음성 신호가 합성되는 디지탈 비트들이 스펙트럼 포락선 및 음성화 정보를 나타내는 비트와 기본 주파수 정보를 나타내는 비트를 포함하는 장치.
제 11항에 있어서,

스펙트럼 포락선 정보는 음성 신호의 기본 주파수의 고조파 배수에서의 스펙트럼의 크기를 나타냄을 특징으로 하는 장치.
제 12항에 있어서,

스펙트럼 크기는 주파수 대역이 음성화인지 비음성화인지에 관계없이 스펙트럼 포락선을 나타내는 것을 특징으로 하는 장치.
제 12항에 있어서,

재생 스펙트럼 위상 정보는 그러한 재생 스펙트럼 위상 정보가 연관되는 고조파 배수 근방에서 스펙트럼 포락선의 형태로부터 결정되는 것을 특징으로 하는 장치.
제 12항에 있어서,

재생 스펙트럼 위상 정보는 스펙트럼 포락선을 표현하는 에지 검출 커넬을 적용함으로써 결정되는 것을 특징으로 하는 장치.
제 15항에 있어서,

에지 검출 커넬이 적용되는 스펙트럼 포락선 표현은 압축된 것임을 특징으로 하는 재생 위상정보를 사용하는 음성합성장치.
제 12항에 있어서,

합성 음성 신호의 비음성화 성분은 랜덤 노이즈 신호에 응답하는 필터로부터 결정되며, 그 필터는 비음성화 밴드에서는 스펙트럼 크기를 주로 가지며 음성화 밴드에서는 주로 제로의 크기를 가지는 것을 특징으로 하는 재생 위상 정보를 사용하는 음성 합성장치.
제 12항에 있어서,

음성화 음성 성분은 적어도 부분적으로 기본 주파수와 재생 스펙트럼 위상정보로부터 결정되는 오실레이터 특징을 갖는 정현 오실레이터 뱅크를 이용하여 결정되는 것을 특징으로 하는 장치.