KR100383377B1 - 합성에 의한 분석에 기초한 인식을 이용한 피치 평가를위한 방법 및 장치 - Google Patents
합성에 의한 분석에 기초한 인식을 이용한 피치 평가를위한 방법 및 장치 Download PDFInfo
- Publication number
- KR100383377B1 KR100383377B1 KR10-2000-7005286A KR20007005286A KR100383377B1 KR 100383377 B1 KR100383377 B1 KR 100383377B1 KR 20007005286 A KR20007005286 A KR 20007005286A KR 100383377 B1 KR100383377 B1 KR 100383377B1
- Authority
- KR
- South Korea
- Prior art keywords
- pitch
- signal
- residual
- generating
- speech signal
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 29
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 29
- 238000004458 analytical method Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 title claims description 18
- 230000008447 perception Effects 0.000 title 1
- 238000001228 spectrum Methods 0.000 claims abstract description 30
- 230000003595 spectral effect Effects 0.000 claims description 14
- 239000002131 composite material Substances 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 239000011295 pitch Substances 0.000 claims 36
- 238000001914 filtration Methods 0.000 claims 7
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 14
- 230000005284 excitation Effects 0.000 description 10
- 238000000695 excitation spectrum Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
본 발명은 입력된 음성 조건에 대한 향상된 피치 평가를 제공하기 위하 합성에 의한 인식에기초한 분석을 이용하는 피치 평가 방법을 제공한다. 우선, 피치 후보가 피치 탐색 레인지(항목 2) 안에서 복수의 서브 레인지에 대응하여 발생된다. 그 다음, 잔류 스펙트럼은 음성의 세그먼트(항목 4)에 의하여 결정되고, 신호는 정현파 합성 (항목 8) 및 선형 인식 부호화(LPC) 합성 (항목 9)을 이용한 잔류 스펙트럼으로부터 발생된다. 합성 음성 신호는 정현파 (항목 12) 및 LPC 합성 (항목 13)을 이용한 각각의 피치 후보에 대하여 발생된다. 최종적으로, 각각의 피치 후보에 대하여 합성 음성 신호는 기준 잔류 신호 (항목 14)와 비교되어, 최대 신호 대 잡음비를 제공하는 합성 음성 신호의 피치 주기 에 기초한 최적의 피치 평가를 결정한다.
Description
보이스 되거나 혼합된 형태의 음성 신호의 정확한 표현은 낮은 비트 전송 속도(4.8kbit/s 이하)에서 매우 높은 음색의 음성을 합성하기 위하여 필수적이다. 4.8kbit/s 이하의 비트 전송 속도를 위하여, 종래 코드 여기 선형 예보(CELP; code excited linear prediction)는 적절한 주기도(degree of periodicity)를 제공하지 못한다. 이러한 속도에서의 이득 요소의 작은 코드북(code-book) 크기 및 조악한 양자화로 인하여 피치 고조파 사이에서 큰 스펙트럼 요동이 발생한다. CELP에서 선택적인 음성 코딩 알고리즘(algorithm)이 고조파 형 기술이다. 그러나, 이러한 기술은 고 음색의 음성을 생산하기 위하여 로버스트(robust) 피치 알고리즘을 필요로 한다. 따라서, 음성 신호에서 가장 일반화된 특징의 하나는 피치로 알려진 보이스된 음성의 주기성이다. 피치 분포는 음성의 천연 음색에 있어서 매우 중요하다.
비록 많은 다른 피치 평가 방법이 개발되어 왔지만, 피치 평가는 여전히 음성 처리에 있어서 가장 어려운 문제 중의 하나이다. 즉, 종래의 피치 평가 알고리즘은 다양한 입력 조건에 대한 로버스트 동작을 생산하는데 실패했다. 이는 음성 신호가 가정된 것과 같이 완벽한 주기적 신호가 아니기 때문이다. 물론, 음성 신호는 준(quasi) 주기적 또는 비 주기적인 신호이다. 그 결과, 각각의 피치 평가 방법은 다른 것들에 비하여 일정한 이익이 있다. 비록, 일부 피치 평가 방법은 일부 입력 조건에 우수한 동작을 생산하지만, 다양한 입력된 음성 조건에 대한 피치 평가 문제를 해결하지는 못한다.
본 발명은 음성 코딩(coding)을 위한 피치(pitch) 평가 방법에 관한 발명이다. 더욱 상세하게는, 본 발명은 음성 조건의 다양한 입력에 대한 피치 평가을 향상하기 위하여 합성에 의한 분석에 기초한 인식을 이용하는 피치 평가 방법에 관한 발명이다.
본 발명은 첨부한 도면을 참고로 더욱 상체히 설명된다.
도1은 합성 알고리즘에 의한 분석에 기초한 인식의 블럭선도이다.
도 2a 및 2b는 각각 본 발명의 방법에 따른 음성 부호기 및 해독기의 블럭선도이다.
도 3은 차단 주파수에서의 전형적인 LPC 여진 스펙트럼이다.
본 발명에 따르면, 다양한 로버스트 동작을 제공하고 입력된 음성 신호에 독립한 합성에 의한 분석에 기초한 인식을 이용하는 음성신호의 피치를 평가하기 위한 방법을 제공한다.
우선, 피치 탐색 레인지(range)는 서브레인지로 구획되고 피치 후보는 각 서브 레인지에 대하여 결정된다. 피치 후보가 선택된 후, 합성 오류 최소화 절차에 의한 분석이 피치 후보로 부터 최적의 피치 평가를 선택하도록 인가된다.
먼저, 음성의 세그먼트(segment)는 음성의 블록에 대하여 LPC(선형 인식 코딩; linear predictive coding) 필터 계수를 얻기 위하여 LPC를 이용하여 분석된다. 음성의 세그먼트는 LPC 필터 계수를 이용하여 LPC 역필터되어, 스펙트럼의 플랫(flat) 잔류 신호를 제공한다. 잔류 신호는 윈도우 함수에 의하여 중가되고, DEF 또는 FFT를 이용한 주파수 도메인(domain)으로 변환되어, 잔류 스펙트럼을 형성한다. 다음, 최대 피킹(picking)을 이용한 잔류 스펙트럼이 분석되어, 잔류 스펙트럼의 최대 진폭, 주파수 및 위상을 얻는다. 이러한 구성 성분은 정현파 (sinusoidal) 합성을 이용한 기준 잔류 신호를 발생시키는데 이용된다. LPC 합성을 이용하여, 기준 잔류 신호로부터 기준 음성 신호가 발생된다.
각 피치 후보에서, 잔류 스펙트럼의 스펙트럼 모양은 피치 후보의 고조파에서 추출되어, 고조파 진폭, 주파수 및 위상을 얻는다. 정현파 합성을 이용하여, 각 피치 후보에 대한 고조파 성분은 그 음성이 순수하게 보이스 되었다는 가정에 기초하여 각 피치 후보에 대한 합성 잔류 신호를 발생시키도록 이용된다. 각 피치 후보에 대한 합성 잔류 신호는 다음으로 LPC 합성 필터되어 각 피치의 후보에 대응하는 합성 음성 신호를 발생시킨다. 각 피치 후보에 대하여 발생된 합성 음성 신호는 그 다음으로 기준 잔류 신호와 비교되어져서, 최대의 신호 대 잡음비를 최소 오류로 제공하는 피치 후보에 대한 합성 음성 신호에 기초한 최적의 피치 평가를 결정한다.
도 1은 합성 방법에 의한 분석에 기초한 인식의 블럭선도이다. 입력된 음성 신호 S(n)은 피치 지불 함수가 피치 탐색 레인지에 대하여 계산되고, 피치 탐색 레인지가 M 서브 레인지 안으로 구획되는 피치 지불 함수부(pitch cost function section) 1에 제공된다. 바람직한 실시예에서, 짧은 피치 값에 대해서는 짧은 서브레인지로, 긴 피치 값에 대해서는 긴 서브레인지로 제공되는 로그 도메인(log domain)에서 균일한 서브레인지를 이용하도록 구획이 행하여진다. 그러나, 당업자는 M 서브레인지에 피치 탐색 레인지를 구분하기 위한 많은 규칙이 이용될 수 있다는 것을 인식할 것이다. 또한, 많은 피치 지불 함수가 발전되어 왔고, 특정한 지불 함수는 각 서브레인지에 대하여 최초의 피치 후보를 얻는데 이용될 수 있다. 바람직한 실시예에서, 피치 지불 함수는 다음에 설명되는 McAulay 및 Quatieri에 의하여 발전된 주파수 도메인 접근(R. J. McAulay, T. F. Quatieri "정현파 음성 모델에 기초한 피치 평가 및 음성 감지' Proc. ICASSP, 1990, pp.249-252)을 이용할 수 있다.
여기서 ω0는 가능한 기초 주파수 후보, |S(jω0)|는 고조파 크기, M1및 ω1은 각각 최대 크기 및 주파수, D(x)=sin(x), 및 H는 기초 주파수 후보 ω0에 대응하는 고조파의 수이다. 피치 지불 함수는 계산 피치 후보부 2에서 각 M 서브레인지에 대하여 계산되어서, 각 M 서브레인지에 대한 피치 후보를 얻는다.
피치 후보가 결정된 후, 합성 오류 최소화 절차에 의한 분석이 가장 최적의 피치 평가를 고르기 위해 인가된다. 우선, 음성 신호 S(n)의 세그먼트가 LPC(linear predictive coding)가 이용되는 LPC 분석부 3에서 분석되어, 음성의 세그먼트에 대한 LPC 필터 계수를 얻는다. 음성의 세그먼트는 스펙트럼으로 평평한 잔류 신호를 제공하기 위하여 평가된 LPC 필터 계수를 이용하는 LPC 역필터 4를 통과한다. 잔류 신호는 승산기 5에서 윈도우 함수 W(n)에 의하여 승산되고, DEF부 6에서 DEF(또는 FFT)를 이용하는 잔류 스펙트럼을 제공하기 위한 주파수 도메인으로 변형된다. 다음으로 최대 피킹부 7에서 잔류 스펙트럼은 최대 진폭 및 대응하는 주파수 및 위상을 결정하도록 분석된다. 정현파 합성부 8에서 피크 성분은 아래 식으로 정의되는 기준 잔류 (여기) 신호를 발생시키도록 이용된다.
단, L은 잔류 스펙트럼에서의 피크의 수이고, Ap, ωP및 θP는 각각 Pth피크 크기, 주파수 및 위상이다.
기준 잔류 신호는 LPC 합성 필터 9를 통과하여 기준 음성 신호를 얻는다.
각 피치의 후보에 대한 고조파 진폭을 얻기 위하여, 잔류 스펙트럼의 포락선 및 스펙트럼 모양은 스펙트럼 포락선부 10에서 계산된다. 각 피치 후보에 대하여, 잔류 스펙트럼의 포락선은 대응하는 피치 후보의 고조파에서 추출되어, 고조파 추출부 11에서 각 피치 후보에 대한 고조파 진폭 및 위상을 결정한다. 이러한 고조파 성분은 음성 신호가 순수하게 보이스되었다는 가정에 기초한 각 피치 후보에 대한 고조파 합성 잔류 (여기) 신호를 발생시키는데 이용되는 정현파 합성부 12에 제공된다. 합성 잔류 신호는 다음 일반식으로 표현된다.
H는 잔류 스펙트럼에서 고조파의 수, Mh, ω0및 θh는 각각 pth고조파 크기, 후보 기본 주파수 및 고조파 위상이다. 각 피치 후보에 대한 합성 잔류 신호는 LPC 합성 필터 13을 통과하여, 각 피치 후보에 대한 합성 음성 신호를 획득한다. 이러한 절차는 각 피치 후보에 대하여 반복되고, 각각의 음성 후보에 대응하는 합성 음성 신호가 발생된다. 각 합성 음성 신호는 가산기 14에서 기초 신호와 비교되어, 각각의 합성 음성 신호에 대한 신호 대 잡음비를 획득한다. 마지막으로, 최소 오류 또는 최대 신호대 잡음비를 제공하는 합성 음성 신호를 갖는 피치 후보는 인식있는 오류 최소화부 15에서 최적의 피치 평가로 선택된다.
오류 최소화 절차가 오류 최소화부 15에서 진행되는 동안, CELP형 부호기에서와 같이 포맨트(formant) 웨이트(weight)는 포맨트 영역이 다른 주파수보다 더 중요하기 때문에 포맨트 널(null)보다는 포맨트 주파수를 강조하는데 이용된다. 더욱이, 정현파 합성 동안, 다른 진폭 웨이팅 함수는, 저 주파수 성분이 고 주파수 성분보다 인식에 더욱 중요하기 때문에 고 주파수 성분보다 저주파수 성분에 더 많은 주의를 제공하도록 이용된다.
한 실시예에서, 도 2a 및 2b의 블럭선도에서 보듯이, 상기 언급된 피치 평가 방법은 HE-LPC(고조파 여기 선형 인식 부호기; harmonic excited linearpredictive coder)에 이용된다. HE-LPC 부호기(도 2a)에서 음성 신호 s(n)을 표현하기 위한 접근은 음성 스펙트럼 포락선의 공진 특성을 형성하는 선형 시간 가변 LPC 역필터를 통하여 여기 신호 e(n)을 통과한 결과로서 음성이 형성된 음성 생산 모델을 이용하는 것이다. LPC 역필터는 LSF(선형 스펙트럼 주파수; line spectral frequency)의 형태로 양자화 된 10 LPC 계수에 의하여 표현된다.
HE-LPC에서, 여기 신호 e(n)은 LPC 여기 스펙트럼이 평평하다고 가정하는 차단 주파수 ωc를 한정하는 기초 주파수, 그것의 에너지 σ0및 보이싱 확률 Pv로 지정된다. 비록, LPC가 완벽한 모델(model)이고, 전체 음성 스펙트럼을 통하여 에너지 레벨을 제공하도록, 여기 스펙트럼은 평평하다고 가정되지만, LPC는 상대적으로 평평한 스펙트럼을 남기기 위하여, 음성 스펙트럼 모양을 완벽하게 제거하지 않기 때문에 완벽한 모델일 필요는 없다. 따라서, MHE-LPC 음성 모델의 음색을 향상시키기 위하여, LPC 여기 스펙트럼은 다양한 비균일 대역(12~16 밴드)로 분할되고, 각 대역에 대응하는 에너지 레벨이 LPC 여기 스펙트럼 모양을 표현하기 위하여 계산된다. 그 결과, MHE-LPC 음성 모델의 음성 음색은 월등히 향상된다.
도 3은 전형적인 잔류/여기 스펙트럼 및 그것의 차단 주파수를 도시하고 있다. 차단주파수 (ωc)는 음성 스펙트럼의 보이스된 부분 (주파수 ω가 ωc보다 적을 때) 및 보이스되지 않은 부분 (주파수 ω가 ωc보다 클 때)을 도시한다. 각 음성 프레임(frame)의 보이싱 확률을 평가하기 위하여, 합성 여기 스펙트럼은 음성 신호가 순수하게 보이스되었다는 가정에 기초하여, 평가된 피치 및 피치 주파수의 고조파 크기를 이용하여 형성된다. 각 기본 주파수의 고조파에 대응하는 원래의 및 합성된 여기 스펙트럼은 각 고조파에 대하여 두 개의 v/uv 판단을 찾도록 비교된다. 이 경우, 각 고조파에 대한 일반화된 오류는 소정의 임계값보다 작게 될 때, 고조파는 보이스를 승인하고, 아니면 보이스되지 않음을 선언한다. 보이싱 확률 Pv는 보이스된 고조파 사이의 비율 및 4㎑ 음성 대역폭 안에서의 고조파의 수에 의하여 결정된다. 보이싱 차단 주파수 ωc는 보이싱에 비례하고, 다음 식에 의하여 표현된다.
보이싱 확률의 개념을 이용한 보이싱 정보의 표현은 음성 음색에서 두드러지게 향상된 음성 신호의 혼합된 형을 표현하는 효과적인 방법을 제공한다. 비록, 다중 대역 여기는 보이싱 정보를 표현하기 위한 많은 비트(bit)를 필요로 하지만, 보이싱 결정은 완벽한 모델이 아니기 때문에, 합성된 음성에서 잡음 및 가공물을 도입하는 저 주파수 대역에서 보이싱 오류가 발생하 수 있다. 그러나, 상기 언급했듯이 보이싱 확률 개념을 이용함으로서 더 우수한 효율을 위한 상기 문제점이 완벽하게 제거된다.
해독기(도 2b)에서, 여기 스펙트럼의 보이스된 부분은 차단 주파수 아래(ω<ωc)로 떨어진 고조파 사인파의 합계로 결정된다. 사인파의 고조파 위상은 앞선 프레임의 정보로부터 예측된다. 여기 스펙트럼의 보이스되지 않은 부분에 대하여, 여기 대역 에너지로 일반화된 임의의 백색 잡음은 차단주파수 이상(ω>ωc)으로 떨어진 주파수 성분으로 이용된다. 이러한 보이스된, 보이스되지 않은 여기 신호는 종합 합성된 여기 신호를 형성하는데 다같이 보태진다. 합성된 여기는 선형 시간 가변 LPC 필터에 의하여 형상지워져서 최종 합성 음성을 형성한다. 출력 음성 음색을 강화하고 클리너로 만들기 위하여, 주파수 도메인 포스트-필터(post-filter)가 이용된다. 포스트-필터는 폴매트 눌의 깊이를 좁게, 감소시키는 원인이 되어, 폴매트 눌에서의 잡음을 적게 하여 출력을 강화한다. 포스트-필터는 앞서 기재한 고 주파 영역에서 음성 신호를 줄이는 경향이 있는 시간-도메인 포스트-필터와 달리 전체 음성 스펙트럼에 대한 우수한 성과를 유도함으로서, 스펙트럼 틸트(tilt)를 도입하여, 출력 음성에서 머플링(muffling)을 유도한다.
비록, 본 발명은 바람직한 실시예에 대하여 언급했지만, 본 발명의 범위 안에서 다양한 변화 및 수정이 당업자에 의하여 일어날 수 있다.
Claims (8)
- 음성 신호를 입력하는 단계;피치 탐색 레인지 안에서 복수의 서브 레인지에 대응하는 복수의 피치 후보를 발생시키는 단계;상기 음성 신호의 세그먼트에 기초한 제 1 신호를 발생시키는 단계;상기 제 1 신호에 기초한 기준 음성 신호를 발생시키는 단계;상기 복수의 피치 후보 각각에 대하여 합성 음성 신호를 발생시키는 단계;최적의 피치 형가를 결정하기 위하여 상기 복수의 피치 후보 각각에 대한 합성 음성 신호와 상기 기준 음성 신호를 비교하는 단계를 포함하는 것을 특징으로 하는 음성 신호의 피치 평가 방법.
- 제 1항에 있어서, 상기 최적의 피치 평가는 최대 신호대 잡음비를 제공하는 피치 후보에 대하여 합성 음성 신호에 기초하여 결정되는 것을 특징으로 하는 방법.
- 제 1항에 있어서, 상기 기준 음성 신호를 발생시키는 단계는 부단계로서 :음성의 세그먼트의 LPC 분석에 의하여 발생된 LPC 필터 계수를 이용하여 상기 음성신호의 세그먼트를 LPC 역 필터링함으로서 잔류 신호를 생성하는 단계;주파수 도메인 안으로 상기 잔류 신호를 퓨리에 변형 시킴으로서 잔류 스펙트럼을 발생시키는 단계;상기 잔류 스펙트럼의 최대의 진폭, 주파수 및 위상을 결정하기 위하여 상기 잔류 스펙트럼을 분석하는 단계;정현파 합성을 이용하여 상기 잔류 스펙트럼의 최대 진폭, 주파수 및 위상으로 부터 기준 잔류 신호를 발생시키는 단계; 및상기 기준 잔류 신호를 LPC 필터링함으로서 상기 기준 입력 신호를 발생시키는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 1항에 있어서, 상기 복수의 피치 후보 각각에 대한 합성 음성 신호를 발생시키는 단계는 부단계로서 :상기 잔류 스펙트럼의 스펙트럼 모양을 결정하는 단계;각 피치 후보에 대한 고조파 성분을 결정하기 위하여 상기 복수의 피치 후보 각각의 고조파에서 상기 잔류 스펙트럼의 스펙트럼 모양을 추출하는 단계;정현파 합성을 이용한 상기 복수의 피치 후보 각각의 고조파 성분으로 부터 각각의 피치 후보에 대한 합성 잔류 신호를 발생시키는 단계;상기 복수의 피치 후보 각각에 대한 합성 잔류 신호를 LPC 합성 필터링함으로서 복수의 피치 후보 각각에 대한 상기 합성 음성 신호를 발생시키는 단계;를 더 포함하는 것을 특징으로 하는 방법.
- 제 3항에 있어서, 상기 복수의 피치 각각에 대한 합성 음성 신호를 발생시키는 단계는 부단계로서 :상기 잔류 스펙트럼의 스펙트럼 모양을 결정하는 단계;각각의 피치 후보에 대한 고조파 성분을 결정하기 위하여 상기 복수의 피치 후보 각각의 고조파에서 상기 잔류 스펙트럼의 스펙트럼 모양을 시험하는 단계;정현파 합성을 이용한 상기 복수의 피치 후보 각각의 고조파 성분으로 부터 각각의 피치 후보에 대한 합성 잔류 신호를 발생시키는 단계;상기 복수의 피치 후보 각각에 대한 합성 잔류 신호를 LPC 합성 필터링함으로서 복수의 피치 후보 각각에 대한 상기 합성 음성 성분을 발생시키는 단계;를 더 포함하는 것을 특징으로 하는 방법.
- 제 4항에 있어서, 상기 복수의 피치 후보 각각의 합성 잔류 신호를 발생시키는 부단계는 음성 신호가 순수하게 보이스(voice)된다는 가정에 기초하여 수행되는 것을 특징으로 하는 방법.
- 제 1항에 있어서, 상기 최적의 피치 평가는 최대 신호대 잡음비를 제공하는 피치 후보에 대하여 합성 음성 신호에 기초하여 결정되는 것을 특징으로 하는 방법.
- 피치 탐색 레인지 안에서 서브 레인지에 각각 대응하는 복수의 피치 후보를 결정하는 단계;음성 신호 세그먼트에 대하여 LPC 필터 계수를 발생시키기 위한 LPC를 이용한 음성 신호의 세그먼트를 분석하는 단계;스펙트럼으로 평평한 잔류 신호를 제공하기 위한 LPC 필터 계수를 이용한 상기 음성 신호 세그먼트를 LPC 역 필터링하는 단계;잔류 스펙트럼을 발생시키기 위하여 주파수 도메인 안으로 상기 잔류 신호를 변형시키는 단계;잔류 스펙트럼의 최대 진폭 및 대응하는 주파수 및 위상을 결정하기 위하여 잔류 스펙트럼을 분석하는 단계;정현파 합성을 이용하여 잔류 스펙트럼의 최대 진폭, 주파수 및 위상으로 부터 기준 잔류 신호를 발생시키는 단계;상기 기준 잔류 신호를 LPC합성 필터링함으로서 기준 음성 신호를 발생시키는 단계;상기 복수의 피치 후보 각각으로부터 상기 고조파 성분을 결정하기 위하여 상기 복수의 피치 후보 각각에 대한 고조파 추출을 수행하는 단계;상기 정현파 합성을 이용한 복수의 피치 후보 각각에 대한 상기 고조파 성분으로부터 상기 복수의 피치 후보 각각에 대한 합성 잔류 신호를 발생시키는 단계;상기 복수의 피치 후보 각각에 대한 합성 음성 신호를 발생시키기 위하여 상기 복수의 피치 후보 각각에 대한 상기 합성 잔류 신호를 LPC 합성 필터링하는 단계; 및최대 신호대 잡음비를 제공하는 피치에 대하여 합성 음성 신호에 기초한 최적의 피치 평가를 결정하기 위하여 복수의 피치 후보 각각에 대한 합성 음성 신호와 상기 기준 잔류 신호를 비교하는 단계를 포함하는 것을 특징으로 하는 음성 신호의 피치를 평가하는 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/970,396 US5999897A (en) | 1997-11-14 | 1997-11-14 | Method and apparatus for pitch estimation using perception based analysis by synthesis |
US08/970,396 | 1997-11-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010024639A KR20010024639A (ko) | 2001-03-26 |
KR100383377B1 true KR100383377B1 (ko) | 2003-05-12 |
Family
ID=25516886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2000-7005286A KR100383377B1 (ko) | 1997-11-14 | 1998-11-16 | 합성에 의한 분석에 기초한 인식을 이용한 피치 평가를위한 방법 및 장치 |
Country Status (8)
Country | Link |
---|---|
US (1) | US5999897A (ko) |
EP (1) | EP1031141B1 (ko) |
KR (1) | KR100383377B1 (ko) |
AU (1) | AU746342B2 (ko) |
CA (1) | CA2309921C (ko) |
DE (1) | DE69832195T2 (ko) |
IL (1) | IL136117A (ko) |
WO (1) | WO1999026234A1 (ko) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6766288B1 (en) | 1998-10-29 | 2004-07-20 | Paul Reed Smith Guitars | Fast find fundamental method |
US7194752B1 (en) * | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
WO2001030049A1 (fr) * | 1999-10-19 | 2001-04-26 | Fujitsu Limited | Unite de traitement et de reproduction de son vocaux reçus |
US6480821B2 (en) * | 2001-01-31 | 2002-11-12 | Motorola, Inc. | Methods and apparatus for reducing noise associated with an electrical speech signal |
JP3582589B2 (ja) * | 2001-03-07 | 2004-10-27 | 日本電気株式会社 | 音声符号化装置及び音声復号化装置 |
WO2002101717A2 (en) * | 2001-06-11 | 2002-12-19 | Ivl Technologies Ltd. | Pitch candidate selection method for multi-channel pitch detectors |
KR100446242B1 (ko) * | 2002-04-30 | 2004-08-30 | 엘지전자 주식회사 | 음성 부호화기에서 하모닉 추정 방법 및 장치 |
US8447592B2 (en) | 2005-09-13 | 2013-05-21 | Nuance Communications, Inc. | Methods and apparatus for formant-based voice systems |
EP1783604A3 (en) * | 2005-11-07 | 2007-10-03 | Slawomir Adam Janczewski | Object-oriented, parallel language, method of programming and multi-processor computer |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
KR20070115637A (ko) * | 2006-06-03 | 2007-12-06 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
US8935158B2 (en) | 2006-12-13 | 2015-01-13 | Samsung Electronics Co., Ltd. | Apparatus and method for comparing frames using spectral information of audio signal |
KR100860830B1 (ko) * | 2006-12-13 | 2008-09-30 | 삼성전자주식회사 | 음성 신호의 스펙트럼 정보 추정 장치 및 방법 |
CN101030374B (zh) * | 2007-03-26 | 2011-02-16 | 北京中星微电子有限公司 | 基音周期提取方法及装置 |
CN102016530B (zh) * | 2009-02-13 | 2012-11-14 | 华为技术有限公司 | 一种基音周期检测方法和装置 |
US20120029926A1 (en) * | 2010-07-30 | 2012-02-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
US8862465B2 (en) * | 2010-09-17 | 2014-10-14 | Qualcomm Incorporated | Determining pitch cycle energy and scaling an excitation signal |
DE102012000788B4 (de) * | 2012-01-17 | 2013-10-10 | Atlas Elektronik Gmbh | Verfahren und Vorrichtung zum Verarbeiten von Wasserschallsignalen |
EP2685448B1 (en) * | 2012-07-12 | 2018-09-05 | Harman Becker Automotive Systems GmbH | Engine sound synthesis |
GB201713946D0 (en) * | 2017-06-16 | 2017-10-18 | Cirrus Logic Int Semiconductor Ltd | Earbud speech estimation |
US10861484B2 (en) * | 2018-12-10 | 2020-12-08 | Cirrus Logic, Inc. | Methods and systems for speech detection |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5666464A (en) * | 1993-08-26 | 1997-09-09 | Nec Corporation | Speech pitch coding system |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0754440B2 (ja) * | 1986-06-09 | 1995-06-07 | 日本電気株式会社 | 音声分析合成装置 |
NL8701798A (nl) * | 1987-07-30 | 1989-02-16 | Philips Nv | Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal. |
US4980916A (en) * | 1989-10-26 | 1990-12-25 | General Electric Company | Method for improving speech quality in code excited linear predictive speech coding |
US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5327518A (en) * | 1991-08-22 | 1994-07-05 | Georgia Tech Research Corporation | Audio analysis/synthesis system |
FI95085C (fi) * | 1992-05-11 | 1995-12-11 | Nokia Mobile Phones Ltd | Menetelmä puhesignaalin digitaaliseksi koodaamiseksi sekä puhekooderi menetelmän suorittamiseksi |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
JP3343965B2 (ja) * | 1992-10-31 | 2002-11-11 | ソニー株式会社 | 音声符号化方法及び復号化方法 |
FI95086C (fi) * | 1992-11-26 | 1995-12-11 | Nokia Mobile Phones Ltd | Menetelmä puhesignaalin tehokkaaksi koodaamiseksi |
IT1270438B (it) * | 1993-06-10 | 1997-05-05 | Sip | Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce |
JP3475446B2 (ja) * | 1993-07-27 | 2003-12-08 | ソニー株式会社 | 符号化方法 |
-
1997
- 1997-11-14 US US08/970,396 patent/US5999897A/en not_active Expired - Lifetime
-
1998
- 1998-11-16 KR KR10-2000-7005286A patent/KR100383377B1/ko not_active IP Right Cessation
- 1998-11-16 WO PCT/US1998/023251 patent/WO1999026234A1/en active IP Right Grant
- 1998-11-16 DE DE69832195T patent/DE69832195T2/de not_active Expired - Lifetime
- 1998-11-16 EP EP98957492A patent/EP1031141B1/en not_active Expired - Lifetime
- 1998-11-16 IL IL13611798A patent/IL136117A/en not_active IP Right Cessation
- 1998-11-16 AU AU13738/99A patent/AU746342B2/en not_active Ceased
- 1998-11-16 CA CA002309921A patent/CA2309921C/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5666464A (en) * | 1993-08-26 | 1997-09-09 | Nec Corporation | Speech pitch coding system |
Also Published As
Publication number | Publication date |
---|---|
AU746342B2 (en) | 2002-04-18 |
WO1999026234B1 (en) | 1999-07-01 |
DE69832195D1 (de) | 2005-12-08 |
AU1373899A (en) | 1999-06-07 |
US5999897A (en) | 1999-12-07 |
KR20010024639A (ko) | 2001-03-26 |
EP1031141B1 (en) | 2005-11-02 |
EP1031141A4 (en) | 2002-01-02 |
CA2309921A1 (en) | 1999-05-27 |
WO1999026234A1 (en) | 1999-05-27 |
IL136117A (en) | 2004-07-25 |
EP1031141A1 (en) | 2000-08-30 |
CA2309921C (en) | 2004-06-15 |
IL136117A0 (en) | 2001-05-20 |
DE69832195T2 (de) | 2006-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100383377B1 (ko) | 합성에 의한 분석에 기초한 인식을 이용한 피치 평가를위한 방법 및 장치 | |
McCree et al. | A mixed excitation LPC vocoder model for low bit rate speech coding | |
US6871176B2 (en) | Phase excited linear prediction encoder | |
US7257535B2 (en) | Parametric speech codec for representing synthetic speech in the presence of background noise | |
CN1112671C (zh) | 综合分析语音编码器中噪声隐蔽电平适应性修改方法 | |
Gerson et al. | Vector sum excited linear prediction (VSELP) | |
Kleijn et al. | The RCELP speech‐coding algorithm | |
JP4100721B2 (ja) | 励起パラメータの評価 | |
US20010053972A1 (en) | Method and apparatus for an encoding and decoding a speech signal by adaptively changing pulse position candidates | |
US5884251A (en) | Voice coding and decoding method and device therefor | |
CN102714040A (zh) | 编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法 | |
JPH09281996A (ja) | 有声音/無声音判定方法及び装置、並びに音声符号化方法 | |
US6253171B1 (en) | Method of determining the voicing probability of speech signals | |
Cho et al. | A spectrally mixed excitation (SMX) vocoder with robust parameter determination | |
Yeldener et al. | A mixed sinusoidally excited linear prediction coder at 4 kb/s and below | |
Yeldener | A 4 kb/s toll quality harmonic excitation linear predictive speech coder | |
Kleijn | Improved pitch prediction | |
Yeldener et al. | Low bit rate speech coding at 1.2 and 2.4 kb/s | |
KR100757366B1 (ko) | Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법 | |
Kim et al. | A 4 kbps adaptive fixed code-excited linear prediction speech coder | |
Rashed et al. | The effect of weight factor on the performance of G. 729A speech coder | |
Zhang et al. | A 2400 bps improved MBELP vocoder | |
Yeldner et al. | A mixed harmonic excitation linear predictive speech coding for low bit rate applications | |
Al-Naimi et al. | Improved line spectral frequency estimation through anti-aliasing filtering | |
Abu-Shikhah et al. | A hybrid LP-harmonics model for low bit-rate speech compression with natural quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120406 Year of fee payment: 10 |
|
LAPS | Lapse due to unpaid annual fee |