KR100388387B1 - 여기파라미터의결정을위한디지탈화된음성신호의분석방법및시스템 - Google Patents
여기파라미터의결정을위한디지탈화된음성신호의분석방법및시스템 Download PDFInfo
- Publication number
- KR100388387B1 KR100388387B1 KR1019960000467A KR19960000467A KR100388387B1 KR 100388387 B1 KR100388387 B1 KR 100388387B1 KR 1019960000467 A KR1019960000467 A KR 1019960000467A KR 19960000467 A KR19960000467 A KR 19960000467A KR 100388387 B1 KR100388387 B1 KR 100388387B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- parameter
- signal
- determining
- excitation
- Prior art date
Links
- 230000005284 excitation Effects 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000009499 grossing Methods 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 8
- 238000001308 synthesis method Methods 0.000 claims 3
- 230000036651 mood Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 abstract description 2
- 230000003595 spectral effect Effects 0.000 description 23
- 238000012545 processing Methods 0.000 description 22
- 238000013459 approach Methods 0.000 description 15
- 230000000737 periodic effect Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 10
- 235000018084 Garcinia livingstonei Nutrition 0.000 description 6
- 240000007471 Garcinia livingstonei Species 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000008707 rearrangement Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000010237 hybrid technique Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000695 excitation spectrum Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/937—Signal energy in various frequency bands
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Radio Relay Systems (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
본 발명은 디지탈화된 음성 신호에 대해 여기 파라미터를 결정하기 위한 디지탈화된 음성 신호의 분석에 의해 음성을 인코딩하는 방법이다. 본 발명의 이러한 방법은 적어도 두개의 주파수 대역으로 디지탈화된 음성 신호를 분할하는 과정과; 적어도 하나의 주파수 대역 신호들에서 비선형 연산을 수행하여 변형된 주파수 대역 신호를 생성함으로써 제 1 초기 여기 파라미터를 결정하며, 변형된 주파수 대역 신호를 이용하여 제 1 초기 여기 파라미터를 결정하는 과정과; 제 1 방법과 다른 방법을 이용하여 제 2 초기 여기 파라미터를 결정하는 과정 및; 제 1 및 제 2 초기 여기 파라미터를 이용하여 디지탈화된 음성 신호에 대해 여기 파라미터를 결정하는 과정을 포함하며, 음성을 인코딩하는데 유용한 방법이다. 본 발명에 기초하여 여기 파라미터를 이용하여 합성된 음성은 위성 음성 통신과 같은 응용에 유용한 각종 비트율로 고품질의 음성을 만들어낸다.
Description
본 발명은 음성 분석 및 합성에 있어 여기 파라미터 추정(estimation of excitation parameter)의 정확도를 향상시키는 것에 관계한다.
음성의 분석과 합성은 통신 및 음성 인식 등의 응용에서 광범위하게 사용된다. 음성 분석/합성 시스템의 한 가지 형태인 보코더는 단기간에 걸친 여기(excitation)에 대한 시스템의 응답으로서 음성을 표본화한다. 보코더 시스템의 예는 선형 예측 보코더(linear prediction vocoders), 호모모르픽의 보코더(homomorphic vocoders), 채널 보코더(channel vocoders), 정현 변환 코더("STC" : Sinusoidal Transform Coders), 다중대역 여기("MBE" : MultiBand Excitation) 보코더, 개선 다중대역 여기("IMBE(TM)" : Improved multiband excitation) 보코더를 포함한다.
보코더는 일반적으로 여기 파라미터(excitation parameter) 및 시스템 파라미터(system parameter)에 기초하여 음성을 합성한다. 일반적으로 입력신호는 예를 들어 해밍 윈도우(Hamming window)를 이용하여 분할된다. 이어서, 각 세그먼트에 대한 시스템 파라미터 및 여기 파라미터가 결정되어진다. 시스템 파라미터는 스펙트럼의 포락선(spectral envelope)이나 시스템의 임펄스 응답을 포함한다. 여기 파라미터는 기본 주파수(또는 피치(pitch))와 입력신호가 피치를 가지고 있는지를 가리키는(또는 입력 신호가 피치를 갖는 정도를 가리키는) 음성화/비음성화 파라미터를 포함한다. 음성을 개선 다중대역 여기(IMBE(TM)) 보코더와 같은 주파수 대역으로 나누는 보코더에 있어서, 여기 파라미터는 또한 단일의 신호 음성화/비음성화 파라미터 보다 각각의 주파수 대역에 대한 음성화/비음성화 파라미터를 포함할 수 있다. 정확한 여기 파라미터는 고품질의 음성 합성에 필수적이다.
음성화/비음성화 파라미터가 전체 주파수 대역에 대한 하나의 음성화/비음성화 결정만을 포함할 때, 합성된 음성은 잡음이 낀 음성의 음성화 영역과 비음성화 영역이 혼합된 음성 영역에서 특히 주목할 만한 "버지(buzzy)" 품질을 가지는 경향이 있다. 다수의 혼합된 여기 표본들(mixed excitation models)이 보코더에서의 "버지음"의 문제에 대한 가능한 해결책으로 제안되어져 왔다. 시불변(time-invariant) 또는 시변(time-variant) 스펙트럼 형태를 갖는 이러한 표본들에서, 주기적이고 잡음과 같은 여기 파라미터들이 혼합된다. 시불변성 스펙트럼 형태를 갖는 여기 표본들(excitation models)에서, 여기 신호(excitation signal)는 고정된 스펙트럼 포락선을 가지는 주기 소스(periodic source)와 잡음 소스(noise source)의 총합으로 구성된다. 혼합비(mixture ratios)는 주기적 소스와 잡음 소스의 상대적인 진폭을 조절한다. 이런 표본들의 예는 이타쿠라(Itakura)와 사이토(Saito)의 보고서인 "최대 가망성 있는 방법에 기초한 분석 합성 전화 통신(Analysis Synthesis Telephony Based upon Maximum Likelihood Method)"(6th Int. Cong. Acoust., Tokyo, Japan, Paper C-5-5, pp. C17-20, 1968)과; 크온(Kwon)과 골드버그(Goldberg)의 "음성화/비음성화 스위치를 포함하지 않는 개량된 LPC보코더"(IEEE Trans. on Acoust., Speech, and Signal Processing, vol. ASSP-32, no. 4, pp. 851-858, August 1984)를 포함한다. 이러한 여기 표본들에서 백색 잡음 소스는 백색 주기 소스(with periodic source)에 부가된다. 이런 소스들간의 혼합비는 LPC 잔여의 오토코릴레이션(autocorrelation)의 최고점의 높이로부터 추정된다. 시변성 스펙트럼 형태를 가지는 여기 표본들에서, 여기 신호는 시변성 스펙트럼 포락선 형태를 가지고 주기 소스와 잡음 소스의 총합으로 구성된다. 이러한 표본들의 예는 후지마라(Fujimara)의 "음성 비주기성에 대한 근사(An approximation to Voice Aperiodicity)"(IEEE Trans. Audio and Electriacoust., pp.68-72, March 1968; 마콜 등의 "음성 압축 및 합성을 위한 혼합-소스 여기 표본(A Mixed-Source Excitation Model for Speech Compression and Synthesis), "IEEE Int. Conf. on Acoust. Sp. & Sig. Proc., April 1978, pp. 163-166)과; 크온(Kwon)과 골드버그(Goldberg)의 "음성화/비음성화 스위치를 포함하지 않는 개량 LPC 보코더"(IEEE Trans. on Acorst., Speech, and Signal Processing, vol. ASSP-32, no. 4, pp. 851-858, August 1984)와; 그리핀(Griffin)과 림(Lim)의 "다중대역 여기 보코더(Multiband Excitation Vocoder)"(IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-36, pp. 1223-1235, Aug. 1988)를 포함한다.
후지마라(Fujimara)에 의한 여기 표본(excitation model)의 제안에 있어서, 여기 스펙트럼은 세 개의 고정된 주파수 대역으로 분할된다. 별도의 세프스트럴(cepstral) 분석은 각각의 주파수 대역에 대해 수행되고, 각각의 주파수 대역에 대한 음성화/비음성화 결정은 주기의 척도로서의 세프스트럼(cepstrum) 피크의 높이에 기초하여 이루어진다.
마크호울(Makhoul) 등에 의해 제안된 여기 표본에서는, 여기 신호는 저역 통과 주기 소스(low-pass periodic source)와 고역 통과 잡음 소스(high-pass noise source)의 합으로 이루어진다. 저역 통과 주기 소스는 백색 펄스 소스(white pulse source)를 각종 컷-오프 저역 통과 필터에 의해 필터링함으로써 생성된다. 유사하게, 고역통과 잡음 소스는 각종 컷-오프 고역 통과 필터를 가지고 백색 잡음 소스를 필터링함으로써 생성된다. 두 필터에 대한 컷-오프 주파수들은 동일하고 스펙트럼이 주기적인 최고 주파수를 선택함으로써 추정된다. 스펙트럼의 주기성은 연속적인 피크 사이의 이격거리(separation)를 추정하여 어느 정도의 허용 레벨 내에서 그 이격거리들이 동일한지 여부를 판단함으로써 결정된다.
크온(Kwon)과 골드버그(Goldberg)에 의해 수행된 제 2 여기 표본에서, 펄스 소스는 각종 이득 저역 통과 필터(gain low-pass filter)에 의해 통과되고, 자체에 부가되며, 백색 잡음 소스는 각종 이득 고역통과 필터(gain high-pass filter)에 의해 통과되고, 자체에 부가된다. 여기 신호는 음성화/비음성화 혼합률에 의해 제어되는 상대 진폭을 가지는 그 결과로 수득되는 펄스와 잡음 소스의 합이다. 필터 이득과 음성화/비음성화 혼합율은 수득한 여기 신호의 스펙트럼 포락선이 평평하다는 제한하에 LPC 잔차 신호(LPC residual signal)로부터 추정된다.
그리핀(Griffin)과 림(Lim)에 의해 제안된 다중대역 여기 표본에서, 주파수 의존성 음성화/비음성화 혼합 함수가 제안되었다. 이 모델은 코딩 목적을 위한 주파수-의존성 이전 음성화/비음성화 결정으로 제한된다. 이 표본의 다른 제한은 스펙트럼을 각 대역에 대한 이진 음성화/비음성화 결정을 갖는 제한된 수의 주파수 대역으로 나누는 것이다. 음성화/비음성화 정보는 음성 스펙트럼을 가장 근접한 주기적 스펙트럼과 비교함으로써 설정된다. 에러가 임계값 이하일 때 대역은 음성화로 인식되어지며, 그 반대의 경우 대역은 비음성화로 인식된다. 여기 파라미터는 또한 음성 합성이 요구되지 않는 음성 인식과 같은 적용예에 사용되기도 한다. 다시 말해서, 여기 파라미터의 정확도는 이러한 시스템의 성능에 직접적으로 영향을 미친다.
[발명의 요약]
일반적으로 하나의 양상에서, 본 발명의 서로 다른 두 개의 다른 접근방법을 사용하여 두 세트의 음성 신호에 대한 여기 파라미터를 산출하고 이 두 세트를 결합시켜 하나의 세트의 여기 파라미터를 생성하는 하이브리드 여기 파라미터 추정기술(hybrid excitation parameter estimation technique)을 특징으로 한다. 첫 번째 접근방법에서, 기술은 음성 신호의 기본 주파수를 강조하기 위해 음성 신호에 대해 비선형 연산(nonlinear operation)을 적용한다. 두 번째 접근방법에 있어서, 우리는 비선형 연산을 포함하거나 포함하지 않을 수 있는 다른 방법을 사용한다. 첫 번째 접근방법은 대부분의 조건하에서 높은 정확도의 여기 파라미터를 산출하는 반면에, 두 번째 접근방법은 특수한 조건하에서 더 정확한 파라미터를 산출한다. 두 가지 접근방법을 모두 사용하여 수득한 여러 세트의 여기 파라미터들을 결합시켜 하나의 세트를 생성함으로써, 본 발명의 기술은 두 가지 접근방법을 개별적으로 적용하여 수득하는 것 보다 광범위한 조건하에서 정확한 결과를 수득할 수 있다.
여기 파라미터를 결정하는 전형적인 접근방법에 있어서, 아날로그 음성 신호 s(t)는 표본화되어 음성 신호 s(n)를 생성한다. 음성 신호 S(n)은 일반적으로 윈도우 w(n)와 곱해져 흔히 음성 세그먼트나 음성 프레임이라고 하는 윈도우 신호(windowed signal) sw(n)을 만든다. 이어서 윈도우 신호 sw(n)를 푸리에 변환하면 그로부터 여기 파라미터가 결정되는 주파수 스펙트럼 sw(n)이 산출된다.
음성 신호 s(n)이 기본 주파수 w0또는 주기 n0의 피치(n0=2π/w0일 때)를 가진 주기적인 신호일 때, 음성 신호 s(n)의 주파수 스펙트럼은 w0및 그것의 고조파(w0의 정수 배수)의 에너지를 갖는 선 스펙트럼(line spectrum)이 되어야 한다. sw(w)는 w0및 w0의 고조화 주위에서 중앙에 스펙트럼 최고치를 가지리라 예측된다. 아무튼 윈도우윙 수행(windowing operation)으로 인해, 스펙트럼 최고치는 어느 정도의 폭(width)을 갖게 되는데, 여기서 폭은 윈도우 w(n)의 길이와 형태에 의존하고, 윈도우 w(n)의 길이가 증가됨에 따라 감소하는 경향이 있다. 이 유도된 윈도우 에러(window-induced error)는 여기 파라미터 정확성의 원인이 된다. 따라서, 스펙트럼 최고치의 폭을 감소시키기 위해서, 그리고 여기 파라미터의 정확성을 어느 정도 증가시키기 위해서, 윈도우 w(n)의 길이는 가능한한 길게 만들어져야 한다.
윈도우 w(n)의 이용가능한 최대 길이는 제한된다. 음성 신호는 정지한 신호가 아니면, 대신 시간에 따라 변하는 기본 주파수를 갖는다. 의미있는 여기 파라미터를 얻기 위하여, 분석된 음성 세그먼트는 실질적으로 불변의 기본 주파수를 가져야만 한다. 따라서, 윈도우 w(n)의 길이는 기본 주파수가 윈도우 내에서 현저하게 변하지 않게 할 만큼 충분히 짧아야 한다.
윈도우 w(n)의 최대 길이 제한 이외에, 기본 주파수의 변화는 스펙트럼 최고치(spectral peak)를 넓히려는 경향이 있다. 이 확장의 영향은 주파수의 증가에 따라 증가된다. 예를 들면, 만약 기본 주파수가 윈도우 내에서 Δw0씩 변한다면, mw0의 주파수를 가지는 m번째 고조파의 주파수는 mw0에 일치하는 스펙트럼 최고치가 w0에 일치치하는 스펙트럼 최고치보다 더 확장되도록 mΔw0만큼씩 변한다. 이와 같이 증가된 고조파(higher harmonics)의 확장은 기본 주파수의 추정에 있어서의 고조파의 효율성 및 고조파 대역에 대한 음성화/비음성화 파라미터의 발생의 효율성을 감소시킨다.
비선형 연산(nonlinear operation)을 음성 신호에 적응함으로써, 기본 주파수가 변화하는 고조파에 대한 효과는 감소되거나 제거되며, 고조파는 기본 주파수의 추정 및 음성화/비음성화 파라미터의 결정을 더 잘 수행하게 된다. 적당한 비선형 연산은 복소수(또는 실수)를 실수값에 대응시켜 복소수(또는 실수)값의 크기의 단조 증가 함수인 출력을 산출한다. 이러한 연산은 예를 들면, 절대값, 절대값의 제곱, 절대값의 기타 승, 및 절대값의 로그를 포함한다.
비선형 연산은 그들의 입력 신호의 기본 주파수에서 스펙트럼 최고치를 가지는 출력 신호를 발생하는 경향이 있다. 이것은 심지어 기본 주파수에서 스펙트럼 최고치를 가지지 않는 입력 신호일 때도 그러하다. 예를 들면, 만약 w0의 3번째에서5번째 고조파 사이의 범위의 주파수만을 통과시키는 대역통과 필터가 음성 신호 s(n)에 적용되면, 대역통과 필터의 출력 X(n)은 3w0, 4w0및 5w0에서 스펙트럼 최고 치를 가질 것이다.
비록 X(n)이 w0에서 스펙트럼 최고치를 가지지 않더라도, |x(n)|2은 그러한 최고치를 가질 것이다. 신호 x(n)이 실수일 때 |x(n)|2은 x2(n)와 동일하게 된다. 잘 알려진 것처럼, x2(n)의 푸리에 변환은 x(n)의 푸리에 변환인 X(w)와 X(w)의 컨벌루션이다 :
X(w)와 X(w)의 컨벌루션은 스펙트럼 X(w)가 최고치를 갖는 주파수들의 차와 동일한 주파수에서 스펙트럼 최고치를 갖는다. 주기적 신호의 스펙트럼 최고치 간의 차들은 기본 주파수 및 그의 배수이다. 따라서, X(w)가 3w0, 4w0및 5w0에서 스펙트럼 최고치를 가지는 예에서, X(w)와 컨벌루션되는 X(w)은 w0(4w0-3w0, 5w0-4w0)에서 스펙트럼 최고치를 갖는다. 일반적인 주기적 신호에서, 기본 주파수에서의 스펙트럼 최고치는 가장 두드러진 것일 것이다.
상술한 설명은 복소수 신호에도 적용된다. 복소수 신호 X(n)에서, |x(n)|2의 푸리에 변환은 다음과 같다 :
이것은 X*(w)와 X(w)의 오토코릴레이션이며, 또한 nw0만큼 떨어져 있는 스펙트럼 최고치가 nw0에서 최고치를 형성하는 특성을 갖는다.
비록 |x(n)|, 임의의 실수 "a"에 대한 |x(n)|a, 및 log |x(n)|은 |x(n)|2과 동일하지 않지만, 상기 |x(n)|2에 대한 설명은 정상적 레벨에서 대체로 적용된다. 예를 들면, |x(n)|= y(n)0.5(여기서 y(n) = |x(n)|2)인 경우, y(n)의 테일러 급수 확장은 다음과 같이 나타내어 질 수 있다 :
곱셈은 연합성(associative)이므로, 신호 yk(n)의 푸리에 변환은 yk-1(n) 푸리에 변환과 컨벌루션되는 Y(w)이다. |x(n)|2이외의 비선형 연산에서의 동작(behavior)은 Y(w)와 그 자신 Y(w)와의 멀티플 컨벌루션의 동작을 관찰함으로써 |x(n)|2로부터 구할 수 있다.
설명한 바와 같이, 비선형 연산은 주기적 신호의 기본 주파수를 강조하며, 주기적 신호가 고조파에서 상당한 에너지를 포함할 때 특히 유용하게 된다. 그러나, 비선형성의 존재는 어떤 경우에 있어서 성능을 저하시킬 수 있다. 예를 들면, 음성 신호 s(n)이 대역통과 필터를 사용하여 여러 대역 si(n)(여기서, si(n)은 I번째 대역통과 필터의 사용으로 인한 대역통과 필터링의 결과를 나타낸다)으로 나누어질 때 성능이 저하될 수 있다. 만약 기본 주파수의 단일 고조파가 i번째 필터의 통과대역에 존재한다면, 필터의 출력은 다음과 같다 :
여기서 wk는 고조파의 주파수이면, θk는 위상이고, 그리고 Ak는 진폭이다. 절대값과 같은 비선형성이 yi(n)값을 발생하기 위해 si(n)에 적용될 때, 결과는 다음과 같다 :
그 결과 주파수 정보는 신호 yi(n)으로부터 완벽하게 제거된다. 이와 같은 주파수 정보의 제거는 파라미터 추정의 정확성을 감소시킬 수 있다.
본 발명의 하이브리드 기술(hybrid technique)은 비선형성이 파라미터 추정의 정확성을 떨어뜨리는 경우에, 나머지 경우의 비선형성의 이득을 유지하면서 주목할 만큼 향상된 파라미터 추정 성능을 제공한다. 이상에서 상술한 바와 같이, 하이브리드 기술은 비선형성이 적용된 이후의 신호(yi(n))에 기초한 파라미터 추정과 비선형성이 적용되기 이전의 신호 si(n) 또는 s(n)에 기초한 파라미터 추정을 결합시키는 과정을 포함한다. 두 개의 접근방법은 이들 파라미터 추정들의 정확성의 확률에 대한 표시와 함께 파라미터 추정값을 산출한다. 파라미터 추정을 결합시키면 추정이 정확하게 이루어질 가능성이 향상된다.
다른 관점에서 보면, 일반적으로 본 발명의 특징은 음성화/비음성화 파라미터의 평활화 기술(smoothing techniques) 적용하는 것이다. 음성화/비음성화 파라미터는 이진수이거나 시간 및/또는 주파수의 연속 함수일 수 있다. 이런 파라미터들은 시간 또는 주파수의 적어도 하나의 방향(양수 또는 음수)에 대해 정확 함수(smooth functions)인 경향이 있으므로, 이런 파라미터들의 추정은 시간 및/또는 주파수에서의 평활 기술의 적당한 적용으로부터 이득을 얻을 수 있다.
본 발명은 음성화/비음성화 파라미터 추정을 위한 개량된 기술인 것을 특징으로 한다. 선형 예측 보코더(linear prediction vocoders), 호모모르픽 보코더(homomorphic ocoders), 채널 보코더(channel vocoders), 정현 변환 보코더(sinusoidal transform coders), 다중 대역 여기 보코더(multiband excitation vocoders), 및 IMBE(TM) 보코더와 같은 보코더에 있어서, 피치 주기 n(또는 균등하게 기본 주파수)가 선택된다. 이어서, 선택된 피치주기(또는 기본 주파수)에서 함수 fi(n)를 구하여 i번째 음성화/비음성화 파라미터를 추정한다. 그러나, 몇몇 음성 신호의 경우에, 단지 선택된 피치주기에서만 이러한 함수를 구하는 것은 하나 또는 그 이상의 음성화/비음성화 파라미터 추정의 정확성을 저하시킬 것이다. 이렇게 정확성이 저하되는 것은 피치주기에서 보다 피치주기의 배수에서 더 주기적인 음성 신호로부터 발생될 수 있으며, 단지 주파수의 특정 부분에서만 피치주기의 배수에서 더 주기적이되도록 주파수에 의존적일 수 있다. 따라서, 음성화/비음성화 파라미터 결정의 정확성은 피치주기와 피치주기의 배수에서 함수 fi(n)를 구하고나서 이러한 계산 결과를 결합시킴으로써 향상될 수 있다.
다른 양상에서, 본 발명은 기본 주파수 또는 피치 주기 추정을 위한 개량된 기술을 특징으로 한다. 기본 주파수 w0(또는 주기점 n0) 추정시, w0또는 w0의 배수 또는 약수가 기본 주파수로 최선의 선택인지 아닌지 어느 정도 불명확할 수 있다. 기본 주파수는 음성화되는 음성(voiced speech)에 대한 시간의 평활 함수(smooth function)가 되는 경향이 있으므로, 과거 추정에 근거를 둔 기본 주파수의 예측은 불명료성의 문제를 극복하여 기본 주파수 추정의 정확성을 향상시키기 위해 이용될 수 있다.
이하 첨부된 도면을 참조하여 본 발명을 설명하면 다음과 같다.
제 1도 내지 제 12도는 여기 파라미터 추정을 위한 시스템의 구조를 도시한 것으로, 각종 블럭과 장치들은 소프트웨어에 의해 구현된다.
제 1도를 참조하면, 음성화/비음성화 결정 시스템(10)은 아날로그 음성 신호 s(t)를 샘플링하여 음성 신호 s(n)을 산출하는 샘플링 장치(12)를 포함한다. 일반적인 음성 코딩의 경우에, 샘플링 주기는 6kHz와 10kHz 사이의 범위내이다.
음성 신호 s(n)은 음성 신호를 k+1 대역들로 분할하고 신호가 대역내에서 음성화되는지 아닌지에 대한 최초의 추정값에 상응하는 예비음성화/비음성화(preliminary voiced/unvoiced)("V/UV") 파라미터(A0to Ak)의 제 1 세트를 산출하는 제 1 파라미터 추정장치(14)로 공급된다. 음성 신호 s(n)은 또한 신호가 대역내에서 음성화되는지 비음성화되는지에 관한 제 2 세트를 제 2 추정값과 일치하는 예비 음성화/비음성화 파라미터(B0to Bk)의 제 2 세트를 발생시키는 제 2 파라미터 추정장치(16)로도 공급된다. 결합장치(18)는 두 세트의 예비 음성화/비음성화 파라미터들을 결합하여 하나의 세트의 음성화/비음성화 파라미터(V0to Vk)를 생성한다.
제 2도를 참조하면, 제 1 파라미터 추정장치(14)는 주파수 도메인 접근방법(frequency domain approach)을 이용하여 제 1 음성화/비음성화 추정값을 생성한다. 제 1 파라미터 추정장치(14)내의 채널 처리장치(channel processing units)(20)는 음성 신호 s(n)을 최소한 두 주파수 대역들로 분할하고, 주파수 대역들을 처리하여 T0(w)…TI(w)토 표시되는 주파수 대역 신호들의 제 1 세트를 생성한다. 후술하는 바와 같이, 채널 처리장치(20)는 각각의 채널 처리장치(20)의 제 1 단(first stage)에서 사용된 대역 통과 필터의 파라미터에 의해서 구분된다. 상기 구현예에서는 16개의 채널 처리장치(I=15)가 존재한다.
재 배열장치(remap unit)(22)는 제 1 세트의 주파수 대역 신호들을 변환하여 U0(w)…UK(w)로 표시되는 제 2 세트의 주파수 대역 신호들을 생성한다. 상술한 구현예에 있어서, 제 2 세트의 주파수 대역 신호들에는 8개의 주파수 대역 신호들이 있다(k=7). 따라서, 재배열장치(22)는 16채널 처리장치(20)로부터의 주파수 대역 신호들을 8 주파수 대역 신호들로 매핑한다. 재배열장치(22)는 제 1 세트로부터의 주파수 대역 신호들의 연속적인 쌍들을 제 2 세트의 단독 주파수 대역 신호들로 결합시킴으로써 그와 같은 동작을 수행한다. 예를 들면, T0(w)와 TI(w)은 결합되어 V0(w)를 생성하고, T14(w)와 T15(w)은 결합되어 V7(w)를 생성한다. 다른 재배열 방법들도 이용될 수 있다.
다음, 제 2 세트로부터의 주파수 대역신호와 각각 결합된 음성화/비음성화 파라미터 추정장치(24)는 추정된 기본 주파수 w0에서 주파수 대역의 전체 에너지에 대한 주파수 대역내 음성화 에너지(voiced energy)의 비율을 계산한 후, "1"에서 이 비율을 감산함으로써 예비 음성화/비음성화 파라미터들, A0내지 Ak를 산출한다:
주파수 대역내 음성화 에너지(voiced energy)는 다음과 같이 계산된다:
여기서
그리고 N은 고려된 기본 주파수 w0의 고조파들의 수이다. 음성화/비음성화 파라미터 추정장치(24)는 그들의 연관된 주파수 대역 신호들의 전체 에너지를 측정한다 :
주파수 대역 신호들이 음성화되는 정도는 예비 음성화/비음성화 파라미터의 값에 따라서 간접적으로 변화한다. 따라서, 주파수 대역 신호는 예비 음성화/비음성화 파라미터가 "0"에 가까울 때 높은 비율로 음성화되고, 상기 파라미터가 1/2보다 크거나 같을 때 높은 비율로 비음성된다.
제 3도를 참조하면, 음성 신호 s(n)이 채널 처리장치(20)로 입력될 때, 특정한 주파수 대역에 속하는 구성성분 si(n)은 대역통과필터(26)에 의해 분리된다. 대역 통과 필터(26)는 계산량을 줄이기 위해 다운샘플링을 사용하는데, 시스템 성능에 중대한 영향을 미치지 않고 이와 같이 동작한다. 대역통과 필터(26)는 한정 임펄스응답(FIR : Finite Impulse Response)이나 무한정 임펄스 응답(IIR : Infinite Impulse Response) 필터로, 또는 고속 푸리에 변환(FFT)을 이용하여 구현될 수 있다. 상기 구현예에 있어서, 대역통과 필터(26)는 17 주파수들에서 32 포인트 FIR 필터의 출력을 계산하기 위해서 32 포인트 실 입력 FFT(32 point real input FFT)를 이용하여 구현되어, FFT가 계산되는 각 시점에서 입력을 S 표본 만큼 쉬프트함으로써 다운샘플링 인자 S를 달성한다. 예를 들어, 만약 제 1 FFT가 1∼32 표본들을 이용했다면, 다운샘플링 인자 10은 제 2 FFT에서 7∼42 표본들을 사용하여 달성된다.
이어서 제 1 비선형 연산장치(first nonlinear operation unit)(28)는 분리된 주파수 대역 si(n)에 대해 비선형 연산을 수행하여 분리된 주파수 대역 si(n)의 기본 주파수를 강조한다. si(n)(i>0)이 복소수값인 경우, 절대값 |si(n)|이 이용된다. s0(n)이 실제값인 경우, s0(n)이 0 보다 크면 s0(n)이 이용되고, 만약 s0(n)이 "0"보다 작거나 같으면 "0"이 이용된다.
비선형 연산장치(28)의 출력은 저역통과 필터링 및 다운샘플링장치(30)를 통과하여 데이터율(data rate)을 감소시키고 결과적으로 시스템의 후단 구성성분들의 계산량을 감소시킨다. 저역통과 필터링 및 다운샘플링장치(30)는 다운샘플링 인자가 2인 경우 매 표본들에 대해 계산된 FIR 필터를 사용한다.
윈도우 및 FFT장치(32)는 필터링 및 다운샘플링장치(30)의 출력과 윈도우를 곱하고, 곱의 실 입력(real input) FFT, Si(W)를 계산한다. 전형적으로, 윈도우 및 고속 푸리에 변환장치(32)는 해밍 윈도우와 실 입력 FFT를 사용한다.
끝으로, 제 2 비선형 연산장치(34)는 음성화 또는 전체 에너지의 추정을 용이하게 하고, 채널 처리장치(2O)의 출력, Ti(w)가 기본 주파수 추정에 이용된다면 건설적으로 결합되도록 하기 위해 Si(w)에 대해 비선형 연산을 수행한다. Ti(w)의 모든 성분들을 양의 실수로 만들기 때문에, 절대치의 제곱값이 사용된다.
제 4도를 참조하면, 제 2 파라미터 추정징치(16)는 정현 검출기/추정기(sinusoidal detector/estimator)를 이용하여 제 2 예비 음성화/비음성화 추정값을 생성한다. 제 2 파라미터 추정장치(16)내의 채널처리장치(36)는 음성 신호 s(n)을 적어도 2개의 주파수 대역들로 분할하고, 주파수 대역들을 처리하여 R0(1)…RI(1)로 표시되는 제 1 세트의 신호들 s(n)을 생성한다. 채널처리장치(36)는 각각의 채널처리장치(36)의 제 1 단에서 이용된 대역통과 필터의 파라미터들에 의해 구분된다. 상기 구현예에서는, 16 채널처리장치(I=15)가 있다. 제 4도에서 채널의 수(I의 값)는 제 2도에서의 채널의 수와 동일할 필요는 없다.
재배열 장치(38)는 제 1 세트의 신호들을 변환하여 S0(1)…Sk(1)로 표시되는 제 2 세트의 신호들을 발생한다. 상기 재배열장치(38)는 일치 시스템(identity system)일 수 있다. 상기 구현예에서, 제 2 세트의 신호에는 8 신호들이 존재한다(k=7). 따라서, 상기 재배열장치(38)는 16 채널처리장치(38)로부터의 신호들을 8개의 신호에 매핑한다. 재배열장치(38)는 제 1 세트로부터의 신호들이 연속적인 쌍을 제 2 세트에서 단일 신호들로 결합시킴으로써 상기와 같이 동작한다. 예를 들어, R0(1)과 RI(1)이 결합되어 S0(1)을 생성하고, R14(1)과 R15(1)이 결합되어 S7(1)을 생성한다. 다른 재배열(remapping) 방법들도 사용될 수 있다.
다음, 각기 제 2 세트로부터의 신호와 결합된 음성화/비음성화 파라미터 추정장치(40)는 상기 신호의 전체 에너지에 대한 상기 신호의 정현 에너지(sinusoidal evergy)의 비율을 계산한 후, 이 비율을 "1'에서 뺌으로써 예비음성화/비음성화 파라미터, B0내지 Bk를 생성한다 :
제 5도를 참조하면, 음성신호 s(n)이 채널처리장치(36)로 입력되는 경우, 특정 주파수 대역에 속하는 si(n) 성분들은 채널처리장치(20)의 대역통과 필터들과 동일하게 동작하는 대역통과 필터(26)에 의해 분리된다(제 3도 참조). 계산량을 줄이기 위하여, 채널처리장치 20과 36에서 동일 대역통과 필터들이 사용될 수 있으며, 각 필터의 출력들은 채널처리장치(20)의 제 1 비선형 연산장치(28)와 채널처리장치(36)의 윈도우 및 상관 장치(window and correlate)(42)에 공급될 수 있음을 주목해야 한다.
이어서 윈도우 및 상관 장치(42)는 분리된 주파수 대역 si(n)에 대해 두 개의 상관값(correlation values)을 발생한다. 하나의 값, Ri(O)는 주파수 대역내의 전체 에너지의 측정값을 제공한다 :
여기서 N은 윈도우의 크기와 연관되는데, 일반적으로 20msec의 간격으로 정해지면, S는 대역통과 필터들이 입력 음성 표본들을 쉬프트시키는 표본의 수이다.두 번째 값, Ri(1)은 주파수 대역내 정현 에너지의 측정값을 제공한다 :
결합장치(combination block)(18)은 제 1 세트로부터 예비 음성화/비음성화 파라미터와 제 2 세트로부터의 예비 음성화/비음성화 파라미터의 함수 중에서 최소 치를 선택함으로써 음성화/비음성화 파라미터, V0내지 Vk를 발생한다. 특히, 결합 장치는 다음과 같이 음성화/비음성화 파라미터를 발생한다 :
여기서
그리고 α(k)는 k의 증가 함수이다. "0"에 가까운 값을 갖는 예비 음성화/비음성화 파라미터가 그 보다 큰 값을 갖는 예비·음성화/비음성화 파라미터 보다 맞을 확률이 높기 때문에, 최초값을 선택하면 맞을 가능성이 가장 높은 값을 선택하게 된다.
제 6도를 참조하면, 다른 구현예에서, 제 1 파라미터 추정장치(14')는 오토코릴레이션 접근방법(autocorrelation)을 이용하여 제 1 예비 음성화/비음성화 추정값을 생성한다. 제 1 파라미터 추정장치(14')의 채널처리장치(44)는 음성 신호 s(n)을 최소한 두개의 주파수 대역으로 분할하고, 주파수 대역을 처리하여 T0(1)…Tk(1)로 표시되는 주파수 대역 신호의 제 1 세트를 생성한다. 여기서 8개의 채널처리장치(k=7)가 존재하고 재배열장치(remapping unit)는 없다.
다음, 각각 채널처리장치(44)와 결합된, 음성화/비음성화 파라미터 추정장치(46)는 추정된 피치 주기 n0에서 주파수 대역내 전체 에너지에 대한 주파수 대역내 음성화 에너지(voiced energy)의 비율을 계산한 후, "1"에서 이 비율을 뺌으로써 예비 음성화/비음성화 파라미터, A0내지 Ak를 발생한다 :
주파수 대역내 음성화 에너지는 다음과 같이 계산된다 :
여기서
N은 윈도우내 표본들의 수이며, 일반적으로 "101"의 값을 갖고, C(n0)는 증가하는 오토코릴레이션 지연(increasing autocorrelation lag)의 함수로서 윈도우 롤-오프(window roll-off)를 보정한다. n0가 정수값이 아닌 경우, n의 제일 가까운3개 값에서의 음성화 에너지는 파라볼라 인터폴레이션 삽입 방법(parabolic interpolation method)에 의해 이용되어 n0에 대한 음성화 에너지를 수득한다. 전체 에너지는 n0=0인 경우의 음성화 에너지로서 측정된다.
제 7도를 참조하면, 음성 신호 s(n)이 채널처리장치(44)로 입력될 때, 특정 주파수 대역에 속하는 성분들 si(n)은 대역통과 필터(48)에 의해 분리된다. 대역통과 필터(48)는 계산량을 줄이기 위해 다운샘플링을 사용하고, 시스템 성능에 어떤 중요한 영향 없이 상기와 같이 수행한다. 대역통과 필터(48)는 한정 임펄스 응답(FIR) 필터 또는 비한정 임펄스 응답(IIR) 필터로써, 또는 FFT를 사용함에 의해 구현될 수 있다. S의 다운샘플링 인자는 필터의 출력이 계산되는 매 시간에서 입력 음성 표본들을 S 만큼 쉬프트시킴으로써 얻어진다.
비선형 연산장치(50)는 분리된 주파수 대역 si(n)에 대하여 비선형 연산을 수행하여 분리된 주파수 대역 si(n)의 기본 주파수를 강조한다. si(n)이 복소수값인 경우(i≥0), 절대값, |si(n)|이 사용된다. s0(n)이 실수인 경우에는 선형 연산이 수행되지 않는다.
비선형 연산장치(50)의 출력은 고역통과 필터(52)를 통과하여 전송되고, 고역 통과 필터의 출력은 오토코릴레이션 장치(54)를 통해 전송된다. 계산량을 줄이기 위해 101점 윈도우(101 point window)가 사용되며, 오토코릴레이션은 단지 피치 주기에서 가장 가까운 소수의 표본들에 대해서만 계산된다.
다시 제 4도를 상펴보면, 제 2 파라미터 추정장치(16)는 또한 제 2 음성화/비음성화 추정값을 발생하기 위해 다른 접근방법을 사용할 수 있다. 예를 들어, 세프스트럼(cepstrum)의 최고치의 높이를 이용하거나, 선형 예측 코더 잔차(linear prediction coder residual)의 오토코릴레이션의 최고치의 높이를 사용하거나, MBE 모델 파라미터 추정 방법 또는 IMBE(TM) 모델 파라미터 추정 방법을 사용하는 것과 같은 잘 알려진 기술들을 이용할 수 있다. 또한, 제 5도에서와 같이 윈도우 및 상관장치(42)는 다음과 같이 분리된 주파수 대역 si(n)에 대한 오토코릴레이션 값을 발생한다 :
여기서 w(n)은 윈도우이다. 이러한 접근방법을 가지고 결합장치(18)는 다음과 같은 음성화/비음성화 파라미터를 발생한다 :
기본 주파수는 많은 접근방법을 이용하여 추정될 수 있다. 우선, 제 8도를 참조하면, 기본 주파수 추정장치(56)는 결합장치(58)와 추정장치(60)를 포함한다. 결합장치(58)는 채널처리장치(20)(제 2도)의 출력 Ti(w)를 합하여 X(w)를 생성한다.
다른 접근방법에 있어서, 결합장치(58)는 각 채널처리장치(20)의 출력에 대해 신호 대 잡음비를 추정할 수 있으며, 낮은 신호대 잡음비를 갖는 출력이 X(w)에 기여하는 것 보다, 높은 신호대 잡음비를 갖는 출력이 X(w)에 더 많이 기여하도록여러 출력들을 비교 고찰한다.
이어서 추정장치(60)는 Wmin부터 Wmax까지의 간격에서 X(w0)를 극대화하는 w0값을 선택함으로써 기본주파수(wo)를 추정한다. X(w)는 w의 이산 표본들에서만 이용할 수 있기 때문에 w0부근의 X(w0)의 파라볼라 인터폴레이션(parabolic Interpolation)은 추정의 정확성을 향상시키기 위해 사용된다. 추정장치(60)는 X(w)의 대역폭 내에서 w0의 N고조파들의 최고치 근방의 파라볼라 추정치(parabolic estimates)들을 결합시킴으로써 기본 추정(fundamental estimate)의 정확성을 더욱 증가시킨다.
일단 기본 주파수가 결정되면, 음성화 에너지(voiced evergy) Ev(wo)는 다음과 같이 계산된다.
여기서
그 다음으로, 음성 에너지 Ev(0.5w0)가 계산되고, Ev(w0)와 비교하여 기본 주파수의 마지막 추정값으로 w0와 0.5w0사이에서 선택한다.
제 9도를 참조하면, 다른 기본 주파수 추정장치(62)는 비선형 연산장치(64), 윈도우 및 고속 푸리에 변환(FFT : Fast Fourier Transform)장치(66), 및추정장치(68)을 포함한다. 비선형 연산장치(64)는 s(n)의 기본 주파수를 강조하고 w0추정시에 음성화 에너지의 추정을 쉽게 하기 위해서 비선형 연산을 수행하는데, s(n)의 절대값이 제곱된다.
윈도우 및 고속 푸리에 변환장치(66)는 비선형 연산장치(64)의 출력을 곱하여 분할하고, 그 결과의 고속 푸리에 변환 X(w)를 계산한다. 끝으로, 추정장치(60)와 동일하게 동작하는 추정장치(68)는 기본 주파수 추정값을 발생시킨다.
제 10도를 참고하면, 하이브리드 기본 주파수 추정장치(70)는 대역 결합 및 추정장치(band combination and estimation unit)(72), IMBE 추정장치(74) 및 추정값 결합장치(76)를 포함한다. 대역 결합 및 추정장치(72)는 단순한 합산 또는 조합에서 높은 SNR을 갖는 대역에 더 높은 가중치를 주는 신호-대-잡음비 가중치합산을 사용하여 채널처리장치(20)(제 2도)의 출력을 결합시킨다. 결합된 신호 (U(w))로부터, 대역 결합 및 추정장치(72)는 기본 주파수와 기본 주파수가 맞을 확률을 추정한다. 장치(72)는 아래 식에 의해 구해지는, 결합 신호로부터 음성화 에너지(Ev(wo))를 최대화하는 주파수를 선택함으로써 기본 주파수를 추정한다 :
여기서
그리고 N은 기본 주파수의 고조파들의 수이다. w0가 맞을 확률은 다음과 같이 계산되는 전체 에너지 Et에서 Ev(w0)를 비교함으로써 추정된다 :
Ev(w0)가 Et에 가까울 때, 확률 추정값(probability estimate)은 "1"에 가깝다. Ev(w0)가 Et의 1/2에 가까울 때, 확률 추정값은 "0"에 가깝다.
IMBE 추정장치(74)는 제 2 기본 주파수 추정값과 정확성 확률을 발생시키기 위해 잘 알려진 개선 다중대역 여기 기술(IMBE technique), 또는 이와 유사한 기술을 사용한다. 그 후, 추정결합장치(76)는 두 개의 기본 주파수 추정값을 결합시켜 마지막 기본 주파수 추정값을 생성한다. 정확성 확률(probability of correctness)은 맞을 확률이 더 높은 추정값이 선택되거나 높은 가중치를 부여받도록 이용된다.
제 11도를 참조하면, 음성화/비음성화 파라미터 평활 장치(smoothing unit)(78)는 음성 신호에서의 빠른 전환으로 인해 생길 수 있는 음성화 에러(voiced error)를 제거하기 위해 평활 동작(smoothing operation)을 수행한다. 음성화/비음성화 평활 장치(78)는 다음과 같이 평활화된 음성화/비음성화 파라미터를 발생한다 :
여기서 음성화/비음성화 파라미터는 비음성화 음성(unvoiced speech)일 때에는 "0"이고, 음성화 음성(voiced speech)일 때에는 "1"과 같다. 음성화/비음성화파라미터가 높은 음성화 음성(voiced speech)과 일치되는 "0"에 가까운 값으로 지속적인 값을 가질 때, 음성화/비음성화 파라미터 평활 장치(78)는 시간과 주파수 영역 모두에서 평활화되어, 평활화된 음성화/비음성화 파라미터를 생성한다 :
여기서
그리고 Tk(n)은 시간과 주파수 함수인 임계값이다.
제 12도를 참조하면, 음성화/비음성화 파라미터 개선 장치(improvement unit)(80)는 추정된 기본 주파수가 w0의 1/2일 때 발생된 음성화/비음성화 파라미터를 추정된 기본 주파수가 w0일 때 발생된 음성화/비음성화 파라미터와 비교하여 최저 값을 갖는 파라미터를 선택함으로써 개선된 음성화/비음성화 파라미터(improved voiced/unvoiced parameters)를 생성한다. 특히, 음성화/비음성화 파라미터 개선장치(80)는 다음과 같은 개선된 음성화/비음성화 파라미터를 생성한다 :
여기서
제 13도를 참조하면, 기본 주파수(w0)의 개선된 추정값(improved estimate)은 수행 100에 의해 발생된다. 최초 기본 주파수 추정값()은 상술한 과정들 중 어느 하나의 과정에 의해 생성되어, 101 단계에서 한 세트의 평가 주파수들(evaluation frequencies)의 생성에 이용된다. 평가 주파수들은 일반적으로의 정수 약수와 배수에 가깝게 선택된다. 평가된 함수는 일반적으로 음성화 에너지 함수와 정규화된 프레임 에러로 이루어진다.
정규화된 프레임 에러는 다음과 같이 계산된다 :
마지막 기본 주파수 추정값은 평가 주파수들, 평가 주파수들에서의 함수값, 예측 기본 주파수(후술한다), 이전 프레임으로부터의 마지막 기본 주파수 추정값, 및 이진 프레임으로부터의 상기 함수값들을 사용함으로써 선택된다(단계 103). 이런 입력들을 볼 때, 하나의 평가 주파수가 다른 것들 보다 정확한 기존 주파수일 확률이 훨씬 높은 경우 이것이 선택된다. 단면, 만약 두개의 평가 주파수가 유사한정확성 확률을 갖고 이전 프레임의 정규화 에러가 비교적 낮은 경우에는 이전 프레임으로부터 최종 기본 주파수에 가장 가까운 평가 주파수가 선택된다. 반면, 만약에 두 개의 평가 주파수의 정확성 확률이 유사하다면, 예측 기본 주파수와 가장 가까운 평가 주파수가 선택된다. 다음 프레임에 대한 예측 기본 주파수는 델타 기본 주파수인 이전 프레임과 현재 프레임으로부터의 마지막 기본 주파수 추정값 및 이전 프레임과 현재 프레임에 대한 마지막 기본 주파수 추정값에서 계산된 정규화 프레임 에러를 사용하여 생성된다(단계 104). 델타 기본 주파수는 이들 프레임에 대한 정규화 프레임 에러가 비교적 낮고 기본 주파수상의 변화 퍼센트가 낮은 경우에는 마지막 기본 주파수 추정값의 프레임과 프레임간 차이(frame to frame dfference)로부터 계산되고, 그렇지 않으면 이전 값들로부터 계산된다. 현재 프레임에 대한 정규화 에러가 비교적 낮을 경우, 현재 프레임의 예측 기본 주파수는 마지막 기본 주파수로 설정된다. 다음 프레임의 예측 기본 주파수는 현재 프레임의 예측 기본 주파수와 현재 프레임의 델타 기본 주파수의 합으로 설정된다.
다른 구현예들도 다음의 특허청구의 범위내에 포함된다.
제 1도는 특정 신호의 주파수 대역이 음성화인지 비음성화인지를 결정하는 시스템의 블럭도,
제 2도는 제 1도의 시스템의 파라미터 추정 장치의 블럭도,
제 3도는 제 2도의 파라미터 추정 장치의 채널 처리 장치 블럭도,
제 4도는 제 1도의 시스템의 파라미터 추정 장치의 블럭도,
제 5도는 제 4도의 파라미터 추정 장치의 채널 처리 장치 블럭도,
제 6도는 제 1도의 시스템의 파라미터 추정 장치의 블럭도,
제 7도는 제 6도의 파라미터 추정 장치의 채널 처리 장치 블럭도,
제 8∼10도는 신호 기본 주파수의 결정을 위한 시스템 블럭도,
제 11도는 음성화/비음성화 파라미터(voiced/unvoiced parameter) 평활 장치(smoothing unit)의 블럭도,
제 12도는 음성화/비음성화 파라미터 개선 장치(improvement unit)의 블럭도,
제 13도는 기본 주파수 개선 장치(fundamental frequency improvement unit)의 블럭도이다.
Claims (43)
- 디지탈화된 음성 신호에 대한 여기 파라미터(excitation parameter)의 측정을 위한 디지탈화된 음성 신호 분석 방법으로서,디지탈화된 음성 신호(digitized speech signal)를 하나 또는 그 이상의 주파수 대역 신호로 분할하는 분할 단계;적어도 하나의 주파수 대역 신호에 대해 비선형 연산을 수행하여 적어도 하나의 변형된 주파수 대역 신호(modified frequency band signal)를 만들어내는 과정과 적어도 하나의 변형된 주파수 대역 신호를 이용하여 제 1 초기 여기 파라미터를 결정하는 과정을 포함하는 제 1 방법을 사용하여 제 1 초기 여기 파라미터를 결정하는 제 1 결정 단계;적어도 하나의 주파수 대역 신호에서의 정현파 에너지와 적어도 하나의 주파수 대역 신호에서의 전체 에너지를 비교함으로써 제 2 음성화/비음성화 파라미터를 결정하는 상기 제 1 방법과 상이한 제 2 방법을 사용하여, 적어도, 제 2 초기 여기 파라미터를 결정하는 제 2 결정 단계; 및디지탈화된 음성 신호에 대한 여기 파라미터를 결정하기 위해 제 1 및 적어도 제 2 초기 여기 파라미터를 사용하는 사용 단계를 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호 분석방법.
- 제 1항에 있어서,상기 제 1 및 제 2 결정 단계와 상기 사용 단계는 규칙적인 시간 간격으로 수행되는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호 분석방법.
- 제 1항에 있어서,상기 디지탈화된 음성 신호가 음성 코드화에서 하나의 단계로 분석되는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호 분석방법.
- 제 1항에 있어서,상기 여기 파라미터는 적어도 하나의 주파수 대역에 대한 음성화/비음성화 파라미터를 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호 분석방법.
- 제 4항에 있어서,상기 방법이 디지탈화된 음성 신호에 대한 기본 주파수를 결정하는 단계를 추가로 포함하는 것을 특징으로 하는 여기 파라미터 결정을 위한 디지탈화된 음성 신호 분석방법.
- 제 4항에 있어서,상기 제 1 초기 여기 파라미터는 적어도 하나의 변형된 주파수 대역 신호에대한 제 1 음성화/비음성화 파라미터를 포함하며, 제 1 결정 단계는 변형된 주파수 대역 신호의 음성 에너지와 변형된 주파수 대역 신호의 전체 에너지를 비교함으로써 제 1 음성화/비음성화 파라미터를 결정하는 과정을 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호 분석방법.
- 제 6항에 있어서,상기 변형된 주파수 대역 신호의 음성 에너지는 디지탈화된 음성 신호에 대해 평가 기본 주파수와 관련된 에너지에 해당하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 6항에 있어서,상기 변형된 주파수 대역 신호의 음성 에너지는 디지탈화된 음성 신호에 대해 평가된 피치 주기와 관련된 에너지에 해당하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 6항에 있어서,상기 제 2 초기 여기 파라미터는 적어도 하나의 주파수 대역 신호에 대한 제 2 음성화/비음성화 파라미터를 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 6항에 있어서,상기 제 2 초기 여기 파라미터는 적어도 하나의 주파수 대역 신호에 대한 제 2 음성화/비음성화 파라미터를 포함하며, 상기 제 2 결정 단계는 적어도 하나의 주파수 대역 신호를 오토코릴레이션함으로써 제 2 음성화/비음성화 파라미터를 결정하는 과정을 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 ·4항에 있어서,상기 음성화/비음성화 파라미터는 연속적인 범위에 걸쳐서 변화하는 값을 갖는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 1항에 있어서,상기 사용 단계는 제 1 초기 여기 파라미터가 제 2 초기 여기 파라미터보다 맞을 확률이 더 높은 경우에 디지탈화된 음성 신호에 대한 여기 파라미터를 결정함에 있어서 제 2 초기 여기 파라미터 보다 제 1 초기 여기 파라미터를 강조함을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 1항에 있어서,상기 방법이 평활화된 여기 파라미터를 산출하는 여기 파라미터의 평활화 단계를 추가로 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 여기 파라미터를 제 1항의 방법을 이용하여 평가하는 여기 파라미터를 이용한 음성합성방법.
- 디지탈화된 음성 신호에 대한 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법으로서,디지탈화된 음성 신호로부터 예비 여기 파라미터를 결정하는 결정 단계; 및여기 파라미터를 산출하기 위하여 초기 여기 파라미터를 평활화하는 평활화 단계를 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 15항에 있어서,상기 디지탈화된 음성 신호가 음성 코드화에서 하나의 단계로 분석되는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 15항에 있어서,상기 초기 여기 파라미터는 적어도 하나의 주파수 대역에 대한 예비 음성화/비음성화 파라미터를 포함하며, 상기 여기 파라미터는 적어도 하나의 주파수 대역에 대한 음성화/비음성화 파라미터를 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 17항에 있어서,상기 여기 파라미터가 기본 주파수를 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 17항에 있어서,상기 평활화 단계는 시간상 가까운 음성화/비음성화 파라미터가 음성화될 때 음성화/비음성화 파라미터를 예비 음성화/비음성화 파라미터 보다 더 음성화되도록 만드는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 17항에 있어서,싱기 평활화 단계는 주파수상 가까운 음성화/비음성화 파라미터가 음성화될 때 음성화/비음성화 파라미터를 예비 음성화/비음성화 파라미터보다 더 음성화되도록 만드는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제17항에 있어서,상기 평활화 단계는 시간 및 주파수 상으로 가까운 음성화/비음성화 파라미터가 음성화될 때 평활화된 음성화/비음성화 파라미터를 예비 음성화/비음성화 파라미터 보다 더 음성화되도록 만드는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 17항에 있어서,상기 음성화/비음성화 파라미터가 연속적인 범위에 걸쳐서 변화하는 값을 갖도록 허용되는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석 방법.
- 제 15항에 있어서,상기 평활화 단계가 시간 함수로서 수행되는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 15항에 있어서,상기 평활화 단계가 주파수 함수로서 수행되는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 15항에 있어서,상기 평활화 단계가 시간과 주파수 양자의 함수로서 수행되는 것을 특징으로하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 여기 파라미터가 제 15항의 방법을 이용하여 평가되는, 여기 파라미터를 이용한 음성 합성 방법.
- 디지탈화된 음성 신호에 대한 여기 파라미터의 결정을 위한 디지탈화된 음성신호의 분석 방법으로서,디지탈화된 음성 신호에 대한 기본 주파수를 평가하는 평가 단계;평가된 기본 주파수를 사용하여 음성화/비음성화 함수를 사정함으로써 제 1 예비 음성화/비음성화 파라미터를 산출하는 단계;평가된 기본 주파수로부터 유래된 적어도 하나의 다른 주파수를 사용하여 음성화/비음성화 함수를 사정함으로써 적어도 하나의 다른 예비 음성화/비음성화 파라미터를 산출하는 단계; 및음성화/비음성화 파라미터를 산출하기 위해 제 1 및 적어도 하나의 다른 예비 음성화/비음성화 파라미터를 결합시키는 결합 단계를 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 27항에 있어서,상기 적어도 하나의 다른 주파수가 상기 평가된 기본 주파수의 배수나 약수로서 평가된 기본 주파수로부터 유도됨을 특징으로 하는 여기 파라미터의 결정을위한 디지탈화된 음성 신호의 분석방법.
- 제 27항에 있어서,상기 디지탈화된 음성 신호는 음성 코드화에서 하나의 단계로 분석되어짐을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 여기 파라미터를 제 27항의 방법을 이용하여 평가하는, 여기 파라미터를 이용한 음성 합성 방법.
- 제 27항에 있어서,상기 결합 단계가 제 1 예비 음성화/비음성화 파라미터가 디지탈화된 음성 신호가 제 2 예비 음성화/비음성화 파라미터 보다 더 음성화된 것을 나타내는 경우에, 음성화/비음성화 파라미터로서 제 1 예비 음성화/비음성화 파라미터를 선택하는 과정을 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 디지탈화된 음성 신호에 대한 기본 주파수 평가를 결정하기 위한 디지탈화된 음성 신호의 분석방법으로서,이전의 기본 주파수 추정값으로부터 예측된 기본 주파수 추정값을 결정하는 단계;초기 기본 주파수 추정값을 결정하는 단계;초기 기본 주파수 추정값에서 에러 함수를 구하여 첫번째 에러 함수 값을 산출하는 단계;초기 기본 주파수 추정값으로부터 유래된 적어도 하나의 다른 주파수에서 에러 함수를 구하여 적어도 하나의 다른 에러 함수 값을 산출하는 단계; 및예측 기본 주파수 추정값, 초기 기본 주파수 추정값, 제 1 에러 함수 값, 및 적어도 하나의 다른 에러 함수 값을 이용하여 기본 주파수 추정값을 선택하는 단계를 포한하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 32항에 있어서,상기 적어도 하나의 다른 주파수가 상기 추정된 기본 주파수의 배수 및 약수로서 상기 추정된 기본 주파수로부터 유래되는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 32항에 있어서,상기 예측 기본 주파수가 이전의 예측 기본 주파수에 델타 함수를 더함으로써 결정되는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 34항에 있어서,상기 델타 함수는 이전의 제 1 및 적어도 하나의 다른 에러 함수 값, 이전의 예측 기본 주파수 및, 이전의 델타 요소로부터 결정되는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 기본 주파수를 제 32항의 방법을 이용하여 평가하는, 기본 주파수를 이용하는 음성 합성 방법.
- 디지탈화된 음성 신호에 대한 여기 파라미터를 결정하기 위한 디지탈화 된 음성 신호 분석시스템으로서,디지탈화된 음성 신호를 하나 이상의 주파수 대역으로 분할하는 수단;적어도 하나의 주파수 대역 신호들에 대한 비신형 연산을 수행하여 적어도 하나의 변형된 주파수 대역 신호를 만들어내는 과정과, 적어도 하나의 변형된 주파수 대역 신호를 사용하여 제 1 초기 여기 파라미터를 결정하는 과정을 포함하는 제 1 방법을 이용하여 제 1 초기 여기 파라미터를 결정하는 수단;적어도 하나의 주파수 대역 신호에서의 정현파 에너지와 적어도 하나의 주파수 대역 신호에서의 전체 에너지를 비교함으로써 제 2 음성화/비음성화 파라미터를 결정하는 상기 제 1 방법과 상이한 제 2 방법을 이용하여 제 2 초기 여기 파라미터를 결정하는 수단; 및제 1 및 제 2 초기 여기 파라미터를 사용하여 디지탈화된 음성 신호에 대한여기 파라미터를 결정하는 수단을 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호 분석 시스템.
- 디지탈화된 음성 신호에 대한 여기 파라미터를 결정하기 위한 디지탈화된 음성신호 분석을 위한 시스템으로서,디지탈화된 음성 신호로부터 초기 여기 파라미터를 결정하는 수단;초기 여기 파라미터를 평활화하여 여기 파라미터를 산출하는 수단을 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호 분석 시스템.
- 디지탈화된 음성 신호에 대해 변형된 여기 파라미터의 결정을 위한 디지탈화된 음성 신호 분석 시스템으로서,디지탈화된 음성 신호에 대해 기본 주파수를 추정하는 수단;추정된 기본 주파수를 이용하여 음성화/비음성화 함수를 구하여 제 1 예비 음성화/비음성화 파라미터를 산출하는 수단;추정된 기본 주파수로부터 유도된 다른 주파수를 이용하여 음성화/비음성화 함수를 구하여 제 2 예비 음성화/비음성화 파라미터를 산출하는 수단; 및제 1 및 제 2 예비 음성화/비음성화 파라미터를 결합시켜 음성화/비음성화 파라미터를 산출하는 수단을 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호 분석 시스템.
- 디지탈화된 음성 신호에 대해 기본 주파수 추정값을 결정하기 위한 디지탈화된 음성 신호 분석 시스템으로서,이전의 기본 주파수 추정값으로부터 예측 기본 주파수 추정값을 결정하는 수단;초기 기본 주파수 추정값을 결정하는 수단;초기 기본 주파수 추정값에서 에러 함수를 구하여 제 1 에러 함수 값을 산출하는 수단;초기 기본 주파수 추정값으로부터 유도된 적어도 하나의 다른 주파수에서 에러 함수를 구하여 제 2 에러 함수 값을 산출하는 수단; 및예측 기본 주파수 추정값, 초기 기본 주파수 추정값, 제 1 에러 함수 값 및, 제 2 에러 함수 값을 이용하여 기분 주파수 추정값을 선정하는 수단을 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호 분석 시스템.
- 디지탈화된 음성 신호에 대해 음성화/비음성화 함수를 결정하기 위한 디지탈화된 음성 신호 분석방법으로서,디지탈화된 음성 신호를 적어도 두개의 주파수 대역 신호로 분할하는 단계;제 1 방법을 사용하여 적어도 두개의 주파수 대역 신호에 대한 제 1 예비 음성화/비음성화 함수를 결정하는 단계;상기 제 1 방법과 다른 제 2 방법을 이용하여 적어도 두개의 주파수 대역 신호에 대한 제 2 예비 음성화/비음성화 함수를 결정하는 단계; 및제 1 및 제 2 초기 여기 파라미터를 이용하여 적어도 두개의 주파수 대역 신호에 대한 음성화/비음성화 함수를 결정하는 단계를 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 1항에 있어서,제 2 방법중 적어도 하나는 상기 비선형 연산의 수행 없이 적어도 하나의 주파수 대역 신호를 이용하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호의 분석방법.
- 제 37 항에 있어서,상기 제 2 초기 여기 파라미터는 적어도 하나의 주파수 대역 신호에 대한 제 2 음성화/비음성화 파라미터를 포함하며, 상기 제 2 초기 여기 파라미터를 결정하는 수단이 이용하는 제 2 방법은 적어도 하나의 주파수 대역 신호를 오토코릴레이션 함으로써 제 2 음성화/비음성화 파라미터를 결정하는 과정을 포함하는 것을 특징으로 하는 여기 파라미터의 결정을 위한 디지탈화된 음성 신호 분석 시스템.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US37174395A | 1995-01-12 | 1995-01-12 | |
US08/371,743 | 1995-01-12 | ||
US08/371743 | 1995-01-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR960030075A KR960030075A (ko) | 1996-08-17 |
KR100388387B1 true KR100388387B1 (ko) | 2003-11-01 |
Family
ID=23465238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019960000467A KR100388387B1 (ko) | 1995-01-12 | 1996-01-11 | 여기파라미터의결정을위한디지탈화된음성신호의분석방법및시스템 |
Country Status (7)
Country | Link |
---|---|
US (1) | US5826222A (ko) |
EP (1) | EP0722165B1 (ko) |
KR (1) | KR100388387B1 (ko) |
AU (1) | AU696092B2 (ko) |
CA (1) | CA2167025C (ko) |
DE (1) | DE69623360T2 (ko) |
TW (1) | TW289111B (ko) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10105194A (ja) * | 1996-09-27 | 1998-04-24 | Sony Corp | ピッチ検出方法、音声信号符号化方法および装置 |
JP3063668B2 (ja) * | 1997-04-04 | 2000-07-12 | 日本電気株式会社 | 音声符号化装置及び復号装置 |
US5970441A (en) * | 1997-08-25 | 1999-10-19 | Telefonaktiebolaget Lm Ericsson | Detection of periodicity information from an audio signal |
US6070137A (en) * | 1998-01-07 | 2000-05-30 | Ericsson Inc. | Integrated frequency-domain voice coding using an adaptive spectral enhancement filter |
KR100474826B1 (ko) * | 1998-05-09 | 2005-05-16 | 삼성전자주식회사 | 음성부호화기에서의주파수이동법을이용한다중밴드의유성화도결정방법및그장치 |
US6138092A (en) * | 1998-07-13 | 2000-10-24 | Lockheed Martin Corporation | CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency |
US6223090B1 (en) * | 1998-08-24 | 2001-04-24 | The United States Of America As Represented By The Secretary Of The Air Force | Manikin positioning for acoustic measuring |
US6192335B1 (en) * | 1998-09-01 | 2001-02-20 | Telefonaktieboiaget Lm Ericsson (Publ) | Adaptive combining of multi-mode coding for voiced speech and noise-like signals |
US6411927B1 (en) * | 1998-09-04 | 2002-06-25 | Matsushita Electric Corporation Of America | Robust preprocessing signal equalization system and method for normalizing to a target environment |
US6519486B1 (en) | 1998-10-15 | 2003-02-11 | Ntc Technology Inc. | Method, apparatus and system for removing motion artifacts from measurements of bodily parameters |
US7991448B2 (en) * | 1998-10-15 | 2011-08-02 | Philips Electronics North America Corporation | Method, apparatus, and system for removing motion artifacts from measurements of bodily parameters |
CA2252170A1 (en) | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US7423983B1 (en) * | 1999-09-20 | 2008-09-09 | Broadcom Corporation | Voice and data exchange over a packet based network |
US6765931B1 (en) * | 1999-04-13 | 2004-07-20 | Broadcom Corporation | Gateway with voice |
FR2796192B1 (fr) * | 1999-07-05 | 2001-10-05 | Matra Nortel Communications | Procedes et dispositifs de codage et de decodage audio |
US6792405B2 (en) * | 1999-12-10 | 2004-09-14 | At&T Corp. | Bitstream-based feature extraction method for a front-end speech recognizer |
AU2094201A (en) * | 1999-12-13 | 2001-06-18 | Broadcom Corporation | Voice gateway with downstream voice synchronization |
EP1143414A1 (en) * | 2000-04-06 | 2001-10-10 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Estimating the pitch of a speech signal using previous estimates |
WO2001078061A1 (en) * | 2000-04-06 | 2001-10-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Pitch estimation in a speech signal |
WO2002029782A1 (en) * | 2000-10-02 | 2002-04-11 | The Regents Of The University Of California | Perceptual harmonic cepstral coefficients as the front-end for speech recognition |
US7139711B2 (en) * | 2000-11-22 | 2006-11-21 | Defense Group Inc. | Noise filtering utilizing non-Gaussian signal statistics |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
US7970606B2 (en) * | 2002-11-13 | 2011-06-28 | Digital Voice Systems, Inc. | Interoperable vocoder |
US7634399B2 (en) * | 2003-01-30 | 2009-12-15 | Digital Voice Systems, Inc. | Voice transcoder |
US8359197B2 (en) * | 2003-04-01 | 2013-01-22 | Digital Voice Systems, Inc. | Half-rate vocoder |
DE102004046045B3 (de) * | 2004-09-21 | 2005-12-29 | Drepper, Friedhelm R., Dr. | Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen |
US8036886B2 (en) | 2006-12-22 | 2011-10-11 | Digital Voice Systems, Inc. | Estimation of pulsed speech model parameters |
US8352257B2 (en) * | 2007-01-04 | 2013-01-08 | Qnx Software Systems Limited | Spectro-temporal varying approach for speech enhancement |
US8489403B1 (en) * | 2010-08-25 | 2013-07-16 | Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ | Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission |
US20140309992A1 (en) * | 2013-04-16 | 2014-10-16 | University Of Rochester | Method for detecting, identifying, and enhancing formant frequencies in voiced speech |
US11270714B2 (en) | 2020-01-08 | 2022-03-08 | Digital Voice Systems, Inc. | Speech coding using time-varying interpolation |
US11990144B2 (en) | 2021-07-28 | 2024-05-21 | Digital Voice Systems, Inc. | Reducing perceived effects of non-voice data in digital speech |
CN114360587A (zh) * | 2021-12-27 | 2022-04-15 | 北京百度网讯科技有限公司 | 识别音频的方法、装置、设备、介质及产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4282405A (en) * | 1978-11-24 | 1981-08-04 | Nippon Electric Co., Ltd. | Speech analyzer comprising circuits for calculating autocorrelation coefficients forwardly and backwardly |
US4472832A (en) * | 1981-12-01 | 1984-09-18 | At&T Bell Laboratories | Digital speech coder |
KR870009323A (ko) * | 1986-03-04 | 1987-10-26 | 구자학 | 음성신호의 특징 파라미터 추출회로 |
US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
US4847905A (en) * | 1985-03-22 | 1989-07-11 | Alcatel | Method of encoding speech signals using a multipulse excitation signal having amplitude-corrected pulses |
KR930020156A (ko) * | 1992-03-16 | 1993-10-19 | 다까노 야스아끼 | 음성 부호화 장치 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3706929A (en) * | 1971-01-04 | 1972-12-19 | Philco Ford Corp | Combined modem and vocoder pipeline processor |
US3982070A (en) * | 1974-06-05 | 1976-09-21 | Bell Telephone Laboratories, Incorporated | Phase vocoder speech synthesis system |
US3975587A (en) * | 1974-09-13 | 1976-08-17 | International Telephone And Telegraph Corporation | Digital vocoder |
US3995116A (en) * | 1974-11-18 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Emphasis controlled speech synthesizer |
US4004096A (en) * | 1975-02-18 | 1977-01-18 | The United States Of America As Represented By The Secretary Of The Army | Process for extracting pitch information |
US4091237A (en) * | 1975-10-06 | 1978-05-23 | Lockheed Missiles & Space Company, Inc. | Bi-Phase harmonic histogram pitch extractor |
US4015088A (en) * | 1975-10-31 | 1977-03-29 | Bell Telephone Laboratories, Incorporated | Real-time speech analyzer |
GB1563801A (en) * | 1975-11-03 | 1980-04-02 | Post Office | Error correction of digital signals |
US4076958A (en) * | 1976-09-13 | 1978-02-28 | E-Systems, Inc. | Signal synthesizer spectrum contour scaler |
ATE15415T1 (de) * | 1981-09-24 | 1985-09-15 | Gretag Ag | Verfahren und vorrichtung zur redundanzvermindernden digitalen sprachverarbeitung. |
US4441200A (en) * | 1981-10-08 | 1984-04-03 | Motorola Inc. | Digital voice processing system |
AU570439B2 (en) * | 1983-03-28 | 1988-03-17 | Compression Labs, Inc. | A combined intraframe and interframe transform coding system |
US4696038A (en) * | 1983-04-13 | 1987-09-22 | Texas Instruments Incorporated | Voice messaging system with unified pitch and voice tracking |
EP0127718B1 (fr) * | 1983-06-07 | 1987-03-18 | International Business Machines Corporation | Procédé de détection d'activité dans un système de transmission de la voix |
NL8400728A (nl) * | 1984-03-07 | 1985-10-01 | Philips Nv | Digitale spraakcoder met basisband residucodering. |
US4622680A (en) * | 1984-10-17 | 1986-11-11 | General Electric Company | Hybrid subband coder/decoder method and apparatus |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US5067158A (en) * | 1985-06-11 | 1991-11-19 | Texas Instruments Incorporated | Linear predictive residual representation via non-iterative spectral reconstruction |
US4879748A (en) * | 1985-08-28 | 1989-11-07 | American Telephone And Telegraph Company | Parallel processing pitch detector |
US4720861A (en) * | 1985-12-24 | 1988-01-19 | Itt Defense Communications A Division Of Itt Corporation | Digital speech coding circuit |
US4799059A (en) * | 1986-03-14 | 1989-01-17 | Enscan, Inc. | Automatic/remote RF instrument monitoring system |
DE3640355A1 (de) * | 1986-11-26 | 1988-06-09 | Philips Patentverwaltung | Verfahren zur bestimmung des zeitlichen verlaufs eines sprachparameters und anordnung zur durchfuehrung des verfahrens |
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
ATE80488T1 (de) * | 1987-04-03 | 1992-09-15 | American Telephone & Telegraph | Abstandsmessungskontrolle eines multidetektorsystems. |
NL8701798A (nl) * | 1987-07-30 | 1989-02-16 | Philips Nv | Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal. |
US4809334A (en) * | 1987-07-09 | 1989-02-28 | Communications Satellite Corporation | Method for detection and correction of errors in speech pitch period estimates |
US5095392A (en) * | 1988-01-27 | 1992-03-10 | Matsushita Electric Industrial Co., Ltd. | Digital signal magnetic recording/reproducing apparatus using multi-level QAM modulation and maximum likelihood decoding |
US5179626A (en) * | 1988-04-08 | 1993-01-12 | At&T Bell Laboratories | Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis |
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
EP0374941B1 (en) * | 1988-12-23 | 1995-08-09 | Nec Corporation | Communication system capable of improving a speech quality by effectively calculating excitation multipulses |
JPH0782359B2 (ja) * | 1989-04-21 | 1995-09-06 | 三菱電機株式会社 | 音声符号化装置、音声復号化装置及び音声符号化・復号化装置 |
DE69029120T2 (de) * | 1989-04-25 | 1997-04-30 | Toshiba Kawasaki Kk | Stimmenkodierer |
US5036515A (en) * | 1989-05-30 | 1991-07-30 | Motorola, Inc. | Bit error rate detection |
US5081681B1 (en) * | 1989-11-30 | 1995-08-15 | Digital Voice Systems Inc | Method and apparatus for phase synthesis for speech processing |
US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5247579A (en) * | 1990-12-05 | 1993-09-21 | Digital Voice Systems, Inc. | Methods for speech transmission |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
US5504833A (en) * | 1991-08-22 | 1996-04-02 | George; E. Bryan | Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications |
US5517511A (en) * | 1992-11-30 | 1996-05-14 | Digital Voice Systems, Inc. | Digital transmission of acoustic signals over a noisy communication channel |
-
1996
- 1996-01-08 AU AU40853/96A patent/AU696092B2/en not_active Expired
- 1996-01-11 KR KR1019960000467A patent/KR100388387B1/ko not_active IP Right Cessation
- 1996-01-11 CA CA002167025A patent/CA2167025C/en not_active Expired - Lifetime
- 1996-01-12 EP EP96300245A patent/EP0722165B1/en not_active Expired - Lifetime
- 1996-01-12 DE DE69623360T patent/DE69623360T2/de not_active Expired - Lifetime
- 1996-01-12 TW TW085100336A patent/TW289111B/zh not_active IP Right Cessation
-
1997
- 1997-04-14 US US08/834,145 patent/US5826222A/en not_active Expired - Lifetime
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4282405A (en) * | 1978-11-24 | 1981-08-04 | Nippon Electric Co., Ltd. | Speech analyzer comprising circuits for calculating autocorrelation coefficients forwardly and backwardly |
US4472832A (en) * | 1981-12-01 | 1984-09-18 | At&T Bell Laboratories | Digital speech coder |
US4847905A (en) * | 1985-03-22 | 1989-07-11 | Alcatel | Method of encoding speech signals using a multipulse excitation signal having amplitude-corrected pulses |
KR870009323A (ko) * | 1986-03-04 | 1987-10-26 | 구자학 | 음성신호의 특징 파라미터 추출회로 |
US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
KR930020156A (ko) * | 1992-03-16 | 1993-10-19 | 다까노 야스아끼 | 음성 부호화 장치 |
Also Published As
Publication number | Publication date |
---|---|
TW289111B (ko) | 1996-10-21 |
KR960030075A (ko) | 1996-08-17 |
AU4085396A (en) | 1996-07-18 |
CA2167025A1 (en) | 1996-07-13 |
EP0722165B1 (en) | 2002-09-04 |
EP0722165A2 (en) | 1996-07-17 |
US5826222A (en) | 1998-10-20 |
CA2167025C (en) | 2006-07-11 |
EP0722165A3 (en) | 1998-07-15 |
DE69623360T2 (de) | 2003-05-08 |
DE69623360D1 (de) | 2002-10-10 |
AU696092B2 (en) | 1998-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100388387B1 (ko) | 여기파라미터의결정을위한디지탈화된음성신호의분석방법및시스템 | |
US6526376B1 (en) | Split band linear prediction vocoder with pitch extraction | |
RU2389085C2 (ru) | Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx | |
McAulay et al. | Pitch estimation and voicing detection based on a sinusoidal speech model | |
EP1914728B1 (en) | Method and apparatus for decoding a signal using spectral band replication and interpolation of scale factors | |
US7630881B2 (en) | Bandwidth extension of bandlimited audio signals | |
EP1313091B1 (en) | Methods and computer system for analysis, synthesis and quantization of speech | |
US20070147518A1 (en) | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX | |
US20060064301A1 (en) | Parametric speech codec for representing synthetic speech in the presence of background noise | |
EP0745971A2 (en) | Pitch lag estimation system using linear predictive coding residual | |
EP0676744B1 (en) | Estimation of excitation parameters | |
KR101059640B1 (ko) | 분산 음성 인식 시스템내에서 음성 복원을 위한 방법 및장치 | |
US8909539B2 (en) | Method and device for extending bandwidth of speech signal | |
EP0842509B1 (en) | Method and apparatus for generating and encoding line spectral square roots | |
Cho et al. | A spectrally mixed excitation (SMX) vocoder with robust parameter determination | |
US6535847B1 (en) | Audio signal processing | |
US8433562B2 (en) | Speech coder that determines pulsed parameters | |
US6438517B1 (en) | Multi-stage pitch and mixed voicing estimation for harmonic speech coders | |
EP0713208B1 (en) | Pitch lag estimation system | |
Kim et al. | Speech enhancement of noisy speech using log-spectral amplitude estimator and harmonic tunneling | |
EP0987680A1 (en) | Audio signal processing | |
Jia et al. | Analysis-by-synthesis voicing cut-off determination in harmonic coding | |
Kaushik et al. | Voice activity detection using modified Wigner-ville distribution. | |
Koestoer et al. | Robust Spectrum Analysis for Applications in Signal Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130524 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20140527 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20150526 Year of fee payment: 13 |
|
EXPY | Expiration of term |