KR100217372B1 - 음성처리장치의 피치 추출방법 - Google Patents

음성처리장치의 피치 추출방법 Download PDF

Info

Publication number
KR100217372B1
KR100217372B1 KR1019960023341A KR19960023341A KR100217372B1 KR 100217372 B1 KR100217372 B1 KR 100217372B1 KR 1019960023341 A KR1019960023341 A KR 1019960023341A KR 19960023341 A KR19960023341 A KR 19960023341A KR 100217372 B1 KR100217372 B1 KR 100217372B1
Authority
KR
South Korea
Prior art keywords
pitch
residual signals
residual
speech
signal
Prior art date
Application number
KR1019960023341A
Other languages
English (en)
Other versions
KR980006959A (ko
Inventor
이시우
Original Assignee
윤종용
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자주식회사 filed Critical 윤종용
Priority to KR1019960023341A priority Critical patent/KR100217372B1/ko
Priority to GB9702817A priority patent/GB2314747B/en
Priority to JP03931197A priority patent/JP3159930B2/ja
Priority to CNB971025452A priority patent/CN1146861C/zh
Priority to US08/808,661 priority patent/US5864791A/en
Publication of KR980006959A publication Critical patent/KR980006959A/ko
Application granted granted Critical
Publication of KR100217372B1 publication Critical patent/KR100217372B1/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

1.청구범위에 기재된 발명이 속한 기술분야
음성을 부호화하거나 합성하는 등 처리할 시 음성의 피치를 추출하는 방법에 관한 것이다.
2.발명이 해결하려고 하는 기술적 과제
연속음성의 피치추출시에 발생하는 오류를 제거할 수 있는 피치 추출방법을 제공한다.
3.발명의 해결방법의 요지
본 발명은 피치 추출 오류나 음질저하를 억제하기 위해서 프레임내의 피치를 여러개의 개별 피치펄스로 표현하는 방법을 개시하고 있다. 이러한 본 발명의 음성 피치 추출 방법은, 에프아이알(FIR)필터와 스트리크(STAREAK)필터를 결합한 에프아이알-스트리크필터를 이용하여 상기 프레임 단위로 상기 음성신호를 필터링하고 이 필터링결과를 상기 음성신호의 고저를 나타내는 다수의 잔차신호로 발생하는 과정과, 상기 다수의 잔차신호들 중 소정 조건을 만족하는 적어도 하나 이상의 잔차신호들을 피치로서 발생하는 과정으로 이루어진다. 상기에서 다수의 잔차신호들 중 미리 설정된 진폭이상의 잔차신호들과, 잔차신호들간의 시간간격이 미리 설정된 시간간격내인 경우의 잔차신호들만을 피치로서 발생된다.
4.발명의 중요한 용도
음성부호화 및 음성합성처리시 유효하다.

Description

음성처리장치의 피치 추출방법
제1도는 본 발명에 따른 동작을 위한 FIR-STREAK필터의 구성을 보여주는 도면.
제2도는 제1도의 FIR-STREAK필터에 의해 구해지는 잔차신호에 대한 파형도.
제3도는 본 발명의 피치 추출방법에 따른 처리흐름을 보여주는 도면.
제4도는 본 발명의 방법에 의해 추출된 피치펄스에 대한 파형도.
본 발명은 음성을 부호화하거나 합성하는 등 처리할 시 음성의 피치를 추출하는 방법에 관한 것으로, 특히 연속음성의 피치추출에도 유효한 피치 추출방법에 관한 것이다.
과학기술의 발달과 더불어 통신단말기의 수요가 매년 급증함에 따라 통신회선은 절대적으로 부족해지고 있다. 이러한 현상을 극복하기 위해 음성을 8kbit/s이하의 낮은 비트율로 부호화하는 방법들이 제안되었다. 그러나 이러한 부호화 방법들에 따라 음성을 처리하는 경우 음질이 저하되는 단점이 있다. 많은 연구가들은 음성을 낮은 비트율로 처리하면서도 음질을 개선시키기 위한 방대한 연구를 하고 있다.
한편 음질을 개선하기 위해서는 심리적 속성인 음정, 음량, 음색을 개선하여야 하며, 이 심리적 속성에 대응되는 물리적 속성인 피치, 진폭, 파형구조를 원음의 속성에 가깝게 재생시켜야 한다. 음성의 물리적 속성인 피치(pitch)는 주파수영역에서는 기본주파수 또는 피치주파수라 불리우며, 시간 영역에서는 피치간격 또는 피치라 불리운다. 피치는 발성자의 성별, 발성음성에 대한 유성음/무성음의 판별에 반드시 필요한 파라메터로, 특히 낮은 비트율로 음성을 부호화하는 경우에는 더욱 필요한 정보이다.
현재까지 제안된 피치 추출방법은 크게 세가지, 즉 시간영역에서 추출하는 방법과 주파수영역에서 추출하는 방법, 그리고 시간영역과 주파수영역을 혼합하여 추출하는 방법으로 구분할 수 있다. 시간영역에서 피치를 추출하는 대표적인 방법으로 자기상관법이 있고, 주파수영역에서 피치를 추출하는 대표적인 방법으로 Cepstrum법이 있으며, 시간영역과 주파수영역에서 피치를 혼합하여 추출하는 방법으로는 AMDF(Average Magnitude Difference Function)법 및 LPC(Liner Prediction Coding)와 AMDF를 혼합한 방법 등이 있다.
상기와 같은 기존의 방법들은 프레임에서 한개의 피치만을 구한 후 음성처리시 이 구해진 피치를 되풀이하여 복원하고 이때 유성음원을 피치간격마다 적용함으로써 음성파형을 재생한다. 그런데 실제의 연속음성에서는 음소가 변할 때 성대나 성도특성이 변화되고 간섭에 의해 피치간격이 수십 밀리초(ms)의 프레임내에서도 미세하게 변동한다. 즉 연속음성과 같이 앞뒤우 음소가 서로에게 영향을 끼쳐 주기가 서로 다른 음성파형이 한 프레임안에 존재하는 경우에 피치추출 오류가 발생한다. 예를 들어, 음성의 어두나 어미, 음원의 천이부, 무음과 유성음이 존재하는 프레임 또는 무성자음과 유성음이 존재하는 프레임에서는 피치추출 오류가 발생한다. 이와같이 기존의 방법들을 연속음성에 대해서는 취약한 단점이 있다.
따라서 본 발명의 목적은 음성처리장치에서 음성을 처리할 시 음질을 개선하는 방법을 제공함에 있다.
본 발명의 다른 목적은 음성처리장치에서 음성의 피치를 추출할 시 발생하던 오류를 제거시키는 방법을 제공함에 있다.
본 발명의 또다른 목적은 연속음성의 피치를 추출하는데 유효한 피치 추출방법을 제공함에 있다.
상기와 같은 목적들을 달성하기 위한 본 발명은 피치 추출 오류나 음질저하를 억제하기 위해서 프레임내의 피치를 여러개의 개별 피치펄스로 표현하는 방법을 개시하고 있다.
본 발명의 제1견지(aspect)에 따른 음성 피치 추출 방법은, 에프아이알(FIR)필터와 스트리크(STREAK)필터를 결합한 에프아이알-스트리크필터를 이용하여 상기 프레임 단위로 상기 음성신호를 필터링하고 이 필터링결과를 상기 음성신호의 고저를 나타내는 다수의 잔차신호로 발생하는 과정과, 상기 다수의 잔차신호들 중 소정 조건을 만족하는 적어도 하나 이상의 잔차신호들을 피치로서 발생하는 과정으로 이루어진다. 상기에서 다수의 잔차신호들 중 미리 설정된 진폭이상의 잔차신호들과, 잔차신호들간의 시간간격이 미리 설정된 시간간격내인 경우의 잔차신호들만을 피치로서 발생된다.
본 발명의 제2견지에 따르면, 에프아이알(FIR)필터와 스트리크(STREAK)필터를 결합한 에프아이알-스트리크필터를 적어도 가지는 음성처리장치에서 프레임 단위로 연속 음성신호에 대한 피치를 추출하는 방법은, 상기 에프아이알-스트리크필터를 이용하여 연속 음성신호를 프레임 단위로 필터링한 후 이 필터링 결과신호를 출력하는 제1과정과, 상기 필터링 결과신호중에서 소정의 조건을 만족하는 결과신호를 다수의 잔차신호로서 발생하는 제2과정과, 상기 다수의 잔차신호중에서 잔차 신호들간의 평균 간격을 구하는 제3과정과, 상기 다수의 잔차신호중에서 이전 잔차신호들로부터의 간격이 상기 평균 간격의 1/2배이거나 2배인 잔차신호들을 보간 및 보정 처리하는 제4과정과, 상기 다수의 잔차신호중에서 보간 및 보정 처리된 잔차신호와 이미 발생된 잔차신호를 피치로서 추출하는 제5과정으로 이루어진다.
상기 제2과정에서는, 상기 필터링 결과신호중 미리 설정된 진폭 이상의 결과 신호들과 결과 신호들간의 간격이 미리 설정된 시간간격내인 경우의 결과신호들만을 잔찬신호로서 발생한다.
상기 다수의 잔차신호는 (+)시간축상의 잔차신호와, (-)시간축상의 잔차신호로 이루어지며, 상기 제2과정 내지 상기 제4과정은 상기 (+)시간축상의 잔차신호 및 상기(-)시간축상의 잔차신호에 대해서도 수행된다.
바람직하기로, 상기 제5과정은, 상기 피치로서 추출될 (+)시간축상 잔차신호를의 간격 변화 및 (-)시간축상 잔차신호들의 간격 변화를 평가하는 제1단계와, 상기 제1단계에서 평가된 간격 변화가 적은 시간축상의 잔차신호들을 상기 피치로서 추출하는 제2단계로 이루어진다. 상기 제1단계에서 (-)시간축상 잔차신호들의 간격 변화가 (+)시간축상 잔차신호들의 간격 변화보다 적은 것으로 평가되는 경우에는 이 (-)시간축상 잔차신호들에 대해 시간차 보정을 한 후 이 보정된 잔차신호들을 상기 피치로서 추출하는 단계가 더 수행된다.
이하 본 발명의 바람직한 실시예의 상세한 설명이 첨부된 도면들을 참조하여 설명될 것이다.
우선 본 발명에서의 음성 자료는 하기 표 1에 나타낸 바와 같이 남녀 각 4명의 일본인 아나운서에 의한 32문장의 연속음성을 사용하였음을 밝혀둔다.
제1도는 본 발명에 따른 동작을 위해 에프아이알(FIR: Finite Impulse Response)필터와 스트리크(STREAK: Simplified Technique for Recursive Estimate Autocorrelation K parameter)필터가 결합된 FIR-STREAK필터의 구성을 보여주는 도면이다.
제1도 및 제2도를 참조하면, FIR-STREAK필터는 음성신호X(n)을 입력하여 필터링한 후 이 필터링된 결과인 잔차신호 f(n) 및 g(n)을 발생한다. 일예로 제2a~c도에 도시된 바와 같은 음성신호가 입력되었을 시 FIR-STREAK필터는 제2b~d도에 도시된 바와 같은 잔차신호를 출력한다. 이 FIR-STREAK필터에 의해 피치추출에 필요한 주기성의 잔차신호 Rp가 구해진다. 하기에서는 잔차신호 Rp로부터 구해질 피치를 개별피치펄스(IPP: Individual Pitch Pulse)라 칭하고 있음에 유의하여야 한다. STREAK필터에 의해 필터링되는 음성신호는 하기 제1식과 같이 전방향 잔차신호 fi(n)와 후방향 잔차신호 gi(n)으로 표현된다.
상기 제1식을 ki에 의해 편미분하면 하기 제2식와 같은 STREAK계수가 얻어진다.
FIR-STREAK필터의 전달함수는 하기 제3식과 같다.
상기 제3식에서 MF와 bi는 각각 FIR필터의 차수와 필터계수이고, MS와 ki는 각각 STREAK필터의 차수와 필터계수이다. 결과적으로 FIR-STREAK필터의 출력으로부터 개별피치펄스(IPP)의 단서가 되는 잔차신호 Rp가 얻어진다.
음성의 물리적 속성들은 성대나 성도의 변동에 의해 변환되므로, 제2도와 같이 Rp가 시간축상의 (+)측에 나타날 경우와 (-)측에 나타날 경우가 있다. 따라서 (+)측 잔차신호 Ep(n)과 (-)측 잔차신호 EN(n)으로부터 진폭이 큰 Rp를 순차적으로 분리한다.
일반적으로 3.4kHz의 LPF(Low Pass Filter)에 의해 제한된 주파수대역에서는 3~4개의 포어먼트(formant)가 존재하며, 이를 추출하기 위한 격자형 필터로는 통상 8~10차의 필터차수가 이용된다. 본 발명에 따른 STREAK필터도 8~10차의 필터 차수의 범위를 갖는다면 잔차신호 Rp는 보다 명확하게 얻어질 수 있을 것이다. 하기 본 발명은 10차의 STREAK필터를 사용하고 있는 예로 설명될 것이다.
한편 본 발명의 발명자는 FIR필터의 차수 Mp를 10≤Mp≤100로 설계하고, 대역제한주파수 Fp를 피치주파수가 80~370Hz인 것을 고려하여 400Hz≤Fp≤1kHz로 설계한 후 얻어지는 잔차신호 Rp를 관찰하였다. 본 발명의 발명자는 실험결과 Mp및 Fp가 각각 80차 800Hz인 경우에 잔차신호 Rp가 IPP위치에서 명확히 나타남을 확인할 수 있음을 밝혀두는 바이다.
그러나 음성의 어두나 어미에서 Rp가 명확히 나타나지 않는 경우도 많았다. 이는 음성의 어두나 어미에서 피치주파수가 제1포어먼트에 의해 크게 영향을 받기 때문이다. 이러한 문제점, 즉 음성의 어두나 어미에서 잔차신호 Rp가 명확하게 나타나지 않음에 따라 발생할 수 있는 피치 추출 오류를 억제하기 위해 본 발명에서는 하기의 제3도에 도시된 바와 같은 흐름에 따라 처리한다. 보다 구체적으로 말하면, 제3도에서는 구해진 잔차신호를 이용하여 보간/보정 처리를 행하는 동작이 수행된다. 이 동작의 구체적인 설명은 후술될 것이다.
제3도는 본 발명의 피치 추출방법에 따른 처리흐름을 보여주는 도면이고, 제4도는 본 발명의 방법에 의해 추출된 피치펄스에 대한 파형도이다.
제3도를 참조하면, 본 발명에 따른 피치 추출방법은 크게 3과정으로 구분할 수 있다.
첫째 과정은 각 프레임내의 음성(Speech)신호를 제1도에 도시된 바와 같이 구성한 FIR-STREAK필터를 이용하여 필터링하는 과정이다.(300단계)
둘째 과정은 FIR-STREAK필터에 의해 필터링돈 음성신호중 소정의 조건을 만족하는 음성신호들을 다수의 잔차신호로 발생하는 과정이다. (310단계, 320단계, 341단계~349단계 또는 310단계, 320단계, 361단계~369단계)
셋째 과정은 각 잔차신호들에 전후하는 잔차신호들과의 관계를 참조하여 프레임내의 잔차신호를 보정/보간하고 이렇게 보정/보간된 잔차신호와 이미 발생한 잔차신호들을 피치로서 추출하는 과정이다. (350단계~353단계 또는 370단계~374단계)보다 구체적으로 말하면, 이 과정은 프레임내 잔차신호들간의 평균간격을 구하고, 다수의 잔차신호중에서 이전 잔차신호들로부터의 간격이 상기 평균간격의 1/2배이거나 2배인 잔차신호들을 보간 및 보정처리하는 과정이다.
제3도에서 EN(n)와 EP(n)에서 IPP의 추출방법은 동일한 처리방법에 의해 구현되므로, 하기에서는 EP(n)에서 IPP를 추출하는 방법에만 국한하여 설명한다. 여기에서 EP(n)은 (+)시간축상에 나타나는 잔차신호(positive residual signal)이고, EN(n)은 (-)시간축상에 나타나는 잔차신호(negative residual signal)이다. 여기서 n은 잔차신호의 갯수이며(342단계), 초기에 A=20으로 설정된다(343단계).
우선 진폭이 큰 잔차신호를 순차적으로 대입해 얻은 A에 의해 Ep(n)의 진폭을 정규화한다(345단계). 본 발명에서의 음성자료를 근거로 정규화값 mp(=Ep(n)/A)를 구한 결과 Rp지점에서의 mP는 0.5이상인 결과를 얻었다. 따라서 Ep(n)A와 mP0.5인 잔차신호를 Rp로 하고, 피치주파수를 근거로 한 잔차신호 간격 L이 2.7ms≤L≤12.5ms인 Rp위치를 IPP위치(Pi, i=0, 1, ..., M)로 한다(346~348단계).
한편 Rp위치의 누락에 의한 보정 및 보간처리를 위해 우선, 이전 프레임의 마지막 IPP위치(PM)와 현재 프레임의 시각0에서 Po까지의 간격(ξP)에서 IB(=N-PMP)를 구한다(350, 351단계). IPP의 간격(IPi), 평균간격(IAV), 편차(DPi)는 하기 제4식을 통해 구한다(350단계). 단, 현재 프레임의 0에서 Po까지의 간격(ξP) 및 프레임 끝에서 이전 프레임의 마지막 IPP위치(PM)까지의 간격은 DPi에 포함시키지않는다.
여기서, Pi는 현재 IPP의 위치이고, Pi-1은 이전 IPP의 위치이고, PM은 이전 프레임의 마지막 IPP위치이고, Po는 현재 프레임의 마지막 IPP위치이고, M은 IPP의 갯수이고, IAV는 IPP의 평균간격이고, IPi는 IPP의 간격이다.
다음으로 평균피치의 1/2로 나타나는 반피치와 평균피치의 2배로 나타나는 배피치를 방지하기 위하여 IB간격이 평균피치간격({P0+P1+...+PM}/M)의 50%일때와 150%일때 IPP위치 Pi를 보정한다(352단계). 단, 일본어 음성에서는 자음에 이어 모음이 나타나므로 이전 프레임에 자음이 존재할 경우는 하기의 제5식을, 자음이 존재하지 않을 경우는 제6식을 적용하여 보정한다.
여기서, IA1=P(PM=Po)/M, IA2={IB+(PM-Pi)}/M이다.
다음으로 0.5IAV≥IPi의 경우와 IPi≥1.5IAV의 경우는 하기 제7식에 의해 각각 위치보정 및 보간을 행한다(352단계).
여기서, i=1, 2, ..., M이다.
또한 상기 (4)식 내지 (7)식을 (-)시간축상의 잔차신호 EN(n)에도 적용하여 위치보정 및 보간된 PNi를 구할 수 있다.
이와같은 방법에 의해 구한 (+)시간축상의 Pi와 (-)시간축상의 PNi중에서 어느 한쪽을 선택해야 하는데, 이때 Pi위치가 급격히 변화하지 않는 쪽의 Pi를 선택하여야 한다(330단계). 왜냐하면, 수십 ms의 프레임내에서의 피치간격은 서서히 변화하기 때문이다. 즉, IAV에 대한 Pi의 간격의 변화를 하기 (8)식에 의해 평가하여 Cp≤CN의 경우는 (+)시간축상의 Pi를, CpCN의 경우는 (-)시간축상의 Pi를 선택한다(353/373단계). 여기서 Cp는 하기 제8식에 의해 구해지며, CN은 하기 제8식과 유사하게 구해지는 것으로 다만 PN(n)에 대한 평가치이다.
상기에서 (+)시간축상의 Pi와 (-)시간축상의 PNi의 어느 한쪽을 선택하는 경우 시간차(ξPN)가 발생하므로, 이를 보상하기 위해 (-)시간축상의 PNi를 선택한 경우는 다음 제9식에 의해 Pi의 위치를 재차 보정한다(374단계).
제4도에는 보정된 Pi를 재차 보간처리한 경우와 보간처리하지 않은 경우의 예가 나타나있다.
제4도의 (a)(g)와 같이 연속된 프레임에 있어서 진폭레벨이 감쇄하는 음성파형, (d)와 같이 진폭레벨이 낮은 음성파형, (j)와 같이 음소가 변화하는 천이부의 음성파형에서는 신호의 상호관계에 의한 신호해석이 어렵기 때문에 Rp가 쉽게 누락되어 Pi를 명확히 추출할 수 없는 경우가 많다. 이 경우 다른 대책없이 Pi를 사용해 음성합성을 하면, 음질저하의 원인이 된다. 그러나, 본 발명에서 제시한 방법에 의해 Pi를 보정 및 보간하면, (c), (f), (i), (l)에 나타낸 바와 같이 IPP가 명확히 추출되는 것을 알 수 있다.
IPP의 추출률(AER1)은, 실제 IPP가 존재하는 위치에서 IPP가 추출되지 않는 경우를 -bij라 하고, 실제 IPP가 존재하지 않는 위치에서 IPP가 추출된 경우를 cij라 할때 하기 제10식에 의해 구해진다.
여기서, aij는 관찰된 IPP수이고, T는 IPP가 존재하는 프레임수이고, m은 음성샘플수이다.
본 발명에서의 실험결과, 관찰된 IPP수는 남자의 경우는 3483개이고, 여자의 경우는 5374개이다. 그리고 추출된 IPP수는 남자의 경우는 3343개, 여자의 경우는 4566개이다. 따라서 IPP추출률은 남자의 경우는 96%이고, 여자의 경우는 85%이다.
본 발명에 따라 피치를 추출하는 방법과 종래기술에 따라 피치를 추출하는 방법을 비교해보면 하기와 같다.
자기상관법이나 Cepstrum법과 같이 평균치의 피치를 구하는 방법에 따르면 음정의 어두나 어미, 음소의 추이부분, 무음과 유성음 또는 무성자음과 유성음이 같이 존재하는 프레임에서 피치 추출오류가 발생한다. 일예로, 무성자음과 유성음이 같이 존재하는 프레임에 있어서 자기상관법에 의해서는 피치가 추출되지 않고, Cepstrum법에 의해서는 무성음부에서도 피치가 추출되는 오류가 있다. 이와같은 피치 추출오류는 유성음/무성음 판별에 대한 판별오류의 원인이 된다. 나아가서 무성자음과 유성음이 같이 존재하는 프레임을 무성음원 또는 유성음원의 어느 한쪽의 음원으로 사용함으로써 음질저하의 원인이 된다.
다른 예로, 연속적인 음성파형을 수십 ms로 끊어 분석할 경우 평균피치를 추출하는 방법에서는 프레임간의 피치간격이 다른 피치간격보다 크게 넓어지거나 좁아지는 현상이 나타난다. 그러나 본 발명에 따른 IPP추출법에 따르면 변동하는 피치간격에 대응할 수 있고, 무성자음과 유성음이 같이 존재하는 프레임에서도 피치의 위치를 명확히 구할 수 있다.
본 발명에서의 음성자료를 사용하고 각 방법에 따라 피치를 추출하는 경우 각 방법에 있어서의 피치추출률은 하기의 표 2와 같다.
상술한 바와 같이 본 발명은 FIR-STREAK필터에 의해 필터링되어 출력된 잔차신호를 사용하여 음원의 추이나 성도특성의 간섭에 의해 나타나는 피치간격의 변동에 대응할 수 있는 피치 추출방법을 제공한다. 이러한 피치 추출방법은 비주기성 음성파형이나 음성의 어두나 어미, 무음 또는 무성자음과 유성음이 같이 존재하는 프레임에서 발생되는 피치 추출오류를 억제할 수 있는 잇점이 있다.
한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도내에서 여러가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 않되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims (7)

  1. 음성처리장치에서 음성신호의 프레임으로부터 음성 피치를 추출하는 방법에 있어서, 에프아이알(FIR)필터와 스크리크(STREAK)필터를 결합한 에프아이알-스트리크 필터를 이용하여 상기 프레임 단위로 상기 음성신호를 필터링하고 이 필터링결과를 상기 음성신호의 고저를 나타내는 다수의 잔차신호로 발생하는 과정과, 상기 다수의 잔차신호들 중 소정 조건을 만족하는 적어도 하나 이상의 잔차신호들을 피치로서 발생하는 과정으로 이루어짐을 특징으로 하는 방법.
  2. 제1항에 있어서, 상기 다수의 잔차신호들 중 미리 설정된 진폭이상의 잔차신호들과, 잔차신호들간의 시간간격이 미리 설정된 시간간격내인 경우의 잔차신호들만을 피치로서 발생하는 것을 특징으로 하는 방법.
  3. 에프아이알(FIR)필터와 스트리크(STREAK)필터를 결합한 에프아이알-스트리크필터를 적어도 가지는 음성처리장치에서 프레임 단위로 연속 음성신호에 대한 피치를 추출하는 방법에 있어서, 상기 에프아이알-스트리크필터를 이용하여 연속 음성신호를 프레임 단위로 필터링한 후 이 필터링 결과신호를 출력하는 제1과정과, 상기 필터링 결과신호중에서 소정의 조건을 만족하는 결과신호를 다수의 잔차신호로서 발생하는 제2과정과, 상기 다수의 잔차신호중에서 잔차신호들간의 평균 간격을 구하는 제3과정과, 상기 다수의 잔차신호중에서 이전 잔차신호들로부터의 간격이 상기 평균 간격의 1/2배이거나 2배인 잔차신호들을 보간 및 보정 처리하는 제4과정과, 상기 다수의 잔차신호중에서 보간 및 보정 처리된 잔차신호와 이미 발생될 잔차신호를 피치로서 추출하는 제5과정으로 이루어짐을 특징으로 하는 방법.
  4. 제3항에 있어서, 상기 제2과정은, 상기 필터링 결과신호중 미리 설정된 진폭 이상의 결과신호들과 결과신호들간의 간격이 미리 설정된 시간간격내인 경우의 결과신호들만을 잔차신호로서 발생하는 것을 특징으로 하는 방법.
  5. 제3항에 있어서, 상기 다수의 잔차신호는 (+)시간축상의 잔차신호와, (-)시간축상의 잔차신호로 이루어지며, 상기 제2과정 내지 상기 제4과정은 상기 (+)시간축상의 잔차신호 및 상기(-)시간축상의 잔차신호에 대해서도 수행되는 것을 특징으로 하는 방법.
  6. 제5항에 있어서, 상기 제5과정은, 상기 피치로서 추출될 (+)시간축상 잔차신호들의 간격 변화 및(-)시간축상 잔차신호들의 간격 변화를 평가하는 제1단계와, 상기 제1단계에서 평가된 간격 변화가 적은 시간축상의 잔차신호들을 상기 피치로서 추출하는 제2단계로 이루어짐을 특징으로 하는 방법.
  7. 제6항에 있어서, 상기 제1단계에서 (-)시간축상 잔차신호들의 간격 변화가 (+)시간축상 잔차신호들의 간격 변화보다 적은 것으로 평가되는 경우에는 이 (-)시간축상 잔차신호들에 대해 시간차 보정을 한 후 이 보정된 잔차신호들을 상기 피치로서 추출하는 단계를 더 포함하여 이루어짐을 특징으로 하는 방법.
KR1019960023341A 1996-06-24 1996-06-24 음성처리장치의 피치 추출방법 KR100217372B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1019960023341A KR100217372B1 (ko) 1996-06-24 1996-06-24 음성처리장치의 피치 추출방법
GB9702817A GB2314747B (en) 1996-06-24 1997-02-12 Pitch extracting method in speech processing unit
JP03931197A JP3159930B2 (ja) 1996-06-24 1997-02-24 音声処理装置のピッチ抽出方法
CNB971025452A CN1146861C (zh) 1996-06-24 1997-02-26 语音处理装置中的音调提取方法
US08/808,661 US5864791A (en) 1996-06-24 1997-02-28 Pitch extracting method for a speech processing unit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960023341A KR100217372B1 (ko) 1996-06-24 1996-06-24 음성처리장치의 피치 추출방법

Publications (2)

Publication Number Publication Date
KR980006959A KR980006959A (ko) 1998-03-30
KR100217372B1 true KR100217372B1 (ko) 1999-09-01

Family

ID=19463123

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960023341A KR100217372B1 (ko) 1996-06-24 1996-06-24 음성처리장치의 피치 추출방법

Country Status (5)

Country Link
US (1) US5864791A (ko)
JP (1) JP3159930B2 (ko)
KR (1) KR100217372B1 (ko)
CN (1) CN1146861C (ko)
GB (1) GB2314747B (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100217372B1 (ko) 1996-06-24 1999-09-01 윤종용 음성처리장치의 피치 추출방법
EP0993674B1 (en) * 1998-05-11 2006-08-16 Philips Electronics N.V. Pitch detection
JP2000208255A (ja) 1999-01-13 2000-07-28 Nec Corp 有機エレクトロルミネセント表示装置及びその製造方法
US6488689B1 (en) * 1999-05-20 2002-12-03 Aaron V. Kaplan Methods and apparatus for transpericardial left atrial appendage closure
EP1748732A1 (en) * 2004-05-07 2007-02-07 NMT Medical, Inc. Catching mechanisms for tubular septal occluder
DE102005025169B4 (de) 2005-06-01 2007-08-02 Infineon Technologies Ag Kommunikationsvorrichtung und Verfahren zur Übermittlung von Daten
US20090143640A1 (en) * 2007-11-26 2009-06-04 Voyage Medical, Inc. Combination imaging and treatment assemblies
US8666734B2 (en) 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4701954A (en) * 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
US4845753A (en) * 1985-12-18 1989-07-04 Nec Corporation Pitch detecting device
JPH0782359B2 (ja) * 1989-04-21 1995-09-06 三菱電機株式会社 音声符号化装置、音声復号化装置及び音声符号化・復号化装置
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
KR960009530B1 (en) * 1993-12-20 1996-07-20 Korea Electronics Telecomm Method for shortening processing time in pitch checking method for vocoder
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US5680426A (en) * 1996-01-17 1997-10-21 Analogic Corporation Streak suppression filter for use in computed tomography systems
KR100217372B1 (ko) 1996-06-24 1999-09-01 윤종용 음성처리장치의 피치 추출방법

Also Published As

Publication number Publication date
GB2314747A (en) 1998-01-07
GB2314747B (en) 1998-08-26
US5864791A (en) 1999-01-26
CN1169570A (zh) 1998-01-07
KR980006959A (ko) 1998-03-30
JP3159930B2 (ja) 2001-04-23
CN1146861C (zh) 2004-04-21
GB9702817D0 (en) 1997-04-02
JPH1020887A (ja) 1998-01-23

Similar Documents

Publication Publication Date Title
Griffin et al. Multiband excitation vocoder
JP3277398B2 (ja) 有声音判別方法
Rao et al. Prosody modification using instants of significant excitation
Yegnanarayana et al. An iterative algorithm for decomposition of speech signals into periodic and aperiodic components
KR970001166B1 (ko) 언어 처리 방법 및 장치
US6182035B1 (en) Method and apparatus for detecting voice activity
US7593847B2 (en) Pitch detection method and apparatus
Seneff System to independently modify excitation and/or spectrum of speech waveform without explicit pitch extraction
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
KR100217372B1 (ko) 음성처리장치의 피치 추출방법
US11443761B2 (en) Real-time pitch tracking by detection of glottal excitation epochs in speech signal using Hilbert envelope
Islam Interpolation of linear prediction coefficients for speech coding
Kadiri et al. Speech polarity detection using strength of impulse-like excitation extracted from speech epochs
US10354671B1 (en) System and method for the analysis and synthesis of periodic and non-periodic components of speech signals
Park et al. Improving pitch detection through emphasized harmonics in time-domain
CN106935243A (zh) 一种基于melp的低比特数字语音矢量量化方法和***
Park et al. Pitch detection based on signal-to-noise-ratio estimation and compensation for continuous speech signal
Dasgupta et al. Detection of Glottal Excitation Epochs in Speech Signal Using Hilbert Envelope.
KR0176623B1 (ko) 연속 음성의 유성음부와 무성자음부의 자동 추출방법 및 장치
Wong On understanding the quality problems of LPC speech
JP3271193B2 (ja) 音声符号化方法
Rasetshwane et al. Identification of speech transients using variable frame rate analysis and wavelet packets
Marques et al. Hybrid harmonic coding of speech at low bit-rates
Morikawa Adaptive estimation of time-varying model order in the ARMA speech analysis
JP3321933B2 (ja) ピッチ検出方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120530

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20130530

Year of fee payment: 15

LAPS Lapse due to unpaid annual fee