KR100653643B1 - 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치 - Google Patents

하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치 Download PDF

Info

Publication number
KR100653643B1
KR100653643B1 KR1020060008162A KR20060008162A KR100653643B1 KR 100653643 B1 KR100653643 B1 KR 100653643B1 KR 1020060008162 A KR1020060008162 A KR 1020060008162A KR 20060008162 A KR20060008162 A KR 20060008162A KR 100653643 B1 KR100653643 B1 KR 100653643B1
Authority
KR
South Korea
Prior art keywords
pitch
calculated
harmonic
harmonics
ratio
Prior art date
Application number
KR1020060008162A
Other languages
English (en)
Inventor
오광철
정재훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060008162A priority Critical patent/KR100653643B1/ko
Priority to JP2006234172A priority patent/JP4435127B2/ja
Priority to US11/604,276 priority patent/US8311811B2/en
Application granted granted Critical
Publication of KR100653643B1 publication Critical patent/KR100653643B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

하모닉과 비하모닉의 비율을 이용하여 입력 음성 신호에 대한 피치를 검출하는 방법 및 장치가 개시된다. 입력 음성 신호에 대한 피치 검출 방법은, 입력된 음성 신호를 전처리하여 퓨리에 변환을 수행하는 단계와, 변환된 음성 신호에 대해 보간(interpolation)을 수행하는 단계와, 변환 및 보간된 음성 신호의 스펙트럼에 대해 정규화 로컬 무게중심(Normalized Local Center of Gravity: NLCG)을 계산하는 단계와, 계산된 정규화 로컬 무게중심의 누적합(cumulated sum)을 계산하는 단계와, 계산된 누적합에 기초한 스펙트럼으로부터 하모닉과 비하모닉의 비율(Subharmonic-to-Harmonic Ratio: SHR)을 계산하는 단계 및 계산된 하모닉과 비하모닉의 비율에 기초하여 피치를 검출하는 단계를 포함한다.
음성 신호, 피치 검출, 정규화 로컬 무게중심, SHR, 누적합

Description

하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및 피치 검출 장치{METHOD AND APPARATUS FOR DETECTING PITCH BY SUBHARMONIC-TO-HARMONIC RATIO}
도 1은 본 발명의 일실시예에 따른 피치 검출 장치를 도시한 블록도이다.
도 2는 도 1의 피치 검출 장치가 수행하는 피치 검출 방법을 도시한 흐름도이다.
도 3은 원 스펙트럼의 파형, 보간된 스펙트럼의 파형, 계산된 정규화 로컬 무게중심에 따른 파형, 정규화 로컬 무게중심의 누적합에 따른 파형을 각각 도시한 도면이다.
도 4는 본 발명에 따른 피치 검출 방법을 실험적으로 수행하여 나타난 결과 파형을 도시한 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 피치 검출 장치
101: 전처리부
102: 퓨리에 변환부
103: 보간부
104: 정규화 로컬 무게중심 계산부
105: 누적합 계산부
106: 스케일 컨버젼부
107: SHR 계산부
108: 스펙트럴 자기상관치 계산부
109: 유성음 구간 결정부
110: 피치 검출부
본 발명은 하모닉과 비하모닉의 비율을 이용하여 입력 음성 신호에 대한 피치를 검출하는 방법 및 장치에 관한 것이다.
음성 인식, 합성 및 분석과 같은 음성 신호 처리 분야에 있어서 기본 주파수, 즉 피치 주기를 정확히 검출하는 것은 중요하다. 만일, 음성 신호의 기본 주파수를 정확히 검출할 수 있다면 음성 인식에 있어서 화자에 따른 영향을 줄일 수 있기 때문에 인식의 정확도를 높일 수 있고, 음성 합성 시에 자연성과 개성을 쉽게 변경하거나 유지할 수 있다. 또한, 음성 분석시 피치에 동기시켜 분석하면 성문의 영향이 제거된 정확한 성도 파라미터를 얻을 수 있다.
이와 같이, 음성 신호에서 피치 검출을 수행하는 것은 중요한 작업이므로 이를 위한 방법들이 다양하게 제안되었다. 그것은 시간 영역 검출 방법, 주파수 영역 검출 방법, 시간-주파수 혼성 영역 검출 방법으로 구분할 수 있다.
시간 영역 검출 방법은 파형의 주기성을 강조한 후에 결정 논리에 의해 피치 를 검출하는 방법으로 병렬처리법, 평균 진폭 차 함수(Average Magnitude Difference Function: AMDF), 자기상관법(Auto-Correlation Method: ACM) 등이 있다. 이러한 방법은 보통 시간 영역에서 수행되므로 영역의 변환이 불필요하고, 합, 차, 비교 논리 등 간단한 연산만 필요하게 된다. 그러나, 음소가 천이 구간에 걸쳐 있는 경우에는 프레임 내의 레벨 변화가 심하고 피치 주기가 변동하기 때문에 피치 검출이 어렵고, 포만트(formant)에 의해 영향을 많이 받게 된다. 특히 잡음이 섞인 음성의 경우에는 피치 검출을 위한 결정 논리가 복잡해져서 검출 오류가 증가되는 단점이 있다.
주파수 영역 검출 방법은 음성 스펙트럼의 고조파 간격을 측정하여 유성음의 기본 주파수를 검출하는 방법으로 고조파 분석법, 리프터(Lifter)법, 콤필터링(Comb-filtering)법 등이 제안되어 있다. 일반적으로 스펙트럼은 한 프레임 단위로 구해지므로, 이 구간에서 음소의 천이나 변동이 일어나거나 배경 잡음이 발생하여도 평균화되므로 그 영향을 적게 받는다. 그러나, 처리 과정상 주파수 영역으로의 변환 과정이 필요함으로 계산이 복잡할 수 있으며, 기본 주파수의 정밀성을 높이기 위해 FFT의 포인터 수를 늘리면 그만큼 시간이 길어지고 변화 특성에 둔해지게 된다.
시간-주파수 혼성 영역 검출 방법은 시간 영역법의 계산 시간 절감과 피치의 정밀성, 그리고 주파수 영역법의 배경 잡음이나 음소 변화에 대해서도 피치를 정확히 구할 수 있는 장점을 취한 것이다. 이러한 방법으로는 켑스트럼(Cepstrum)법, 스펙트럼 비교법 등이 있고, 이 방법은 시간과 주파수 영역을 왕복할 때 오차가 가 중되어 나타나므로 피치 추출의 영향을 받을 수 있고, 또한 시간과 주파수 영역을 동시에 적용하기 때문에 계산 과정이 복잡하다는 단점이 있다.
본 발명이 이루고자 하는 기술적 과제는, 스펙트럼의 정규화 로컬 무게중심(Normalized Local Center of Gravity: NLCG)과 그것의 누적합(cumulated sum)을 이용하여 견실한(robust) 스펙트럼을 생성하고, 이렇게 생성된 스펙트럼으로부터 하모닉과 비하모닉의 비율(Subharmonic-to-Harmonic Ratio: SHR)을 구하여 입력 음성 신호에 대한 피치를 검출하는 방법 및 상기 방법을 수행하는 피치 검출 장치를 제공하는데 있다.
또한, 본 발명이 이루고자 하는 기술적 과제는, 스펙트럼의 정규화 로컬 무게 중심과 보간(interpolation)을 이용해서 스펙트럴 자기상관치를 구하여 유성음/무성음을 구분하고, 고조파 대비 저조파 비율을 이용하여 피치를 검출할 때 상기 유성음/무성음 구분 결과를 이용하는 피치 검출 방법 및 상기 방법을 수행하는 피치 검출 장치를 제공하는데 있다.
상기 기술적 과제를 달성하기 위하여, 본 발명의 일실시예에 따른 피치 검출 장치는, 입력된 음성 신호를 전처리하는 전처리부와, 전처리된 음성 신호에 대하여 퓨리에 변환을 수행하는 퓨리에 변환부와, 변환된 음성 신호에 대해 보간(interpolation)을 수행하는 보간부와, 변환 및 보간된 음성 신호의 스펙트럼에 대해 정규화 로컬 무게중심(Normalized Local Center of Gravity: NLCG)을 계산하는 정규화 로컬 무게중심 계산부와, 계산된 정규화 로컬 무게중심의 누적합(cumulated sum)을 계산하는 누적합 계산부와, 계산된 누적합에 기초한 스펙트럼으로부터 하모닉과 비하모닉의 비율(Subharmonic-to-Harmonic Ratio: SHR)을 계산하는 SHR 계산부 및 계산된 하모닉과 비하모닉의 비율에 기초하여 피치를 검출하는 피치 검출부를 포함한다.
또한, 본 발명의 일측에 따르면, 계산된 정규화 로컬 무게중심을 이용하여 스펙트럴 자기상관치(auto-correlation)를 계산하는 스펙트럴 자기상관치 계산부와, 계산된 스펙트럴 자기상관치에 기초하여 유성음(voicing) 구간을 결정하는 유성음 구간 결정부를 더 포함하고, 상기 피치 검출부는, 상기 유성음 구간에 해당하는 고조파 대비 저조파 비율에 기초하여 상기 피치를 검출하는 것을 특징으로 하는 피치 검출 장치가 제공된다.
본 발명의 다른 실시예에 따른 피치 검출 방법은, 입력된 음성 신호를 전처리하여 퓨리에 변환을 수행하는 단계와, 변환된 음성 신호에 대해 보간을 수행하는 단계와, 변환 및 보간된 음성 신호의 스펙트럼에 대해 정규화 로컬 무게중심을 계산하는 단계와, 계산된 정규화 로컬 무게중심의 누적합을 계산하는 단계와, 계산된 누적합에 기초한 스펙트럼으로부터 하모닉과 비하모닉의 비율을 계산하는 단계 및 계산된 하모닉과 비하모닉의 비율에 기초하여 피치를 검출하는 단계를 포함한다.
또한, 상기 방법은 컴퓨터에서 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대하여 상세하게 설명하 기로 한다.
도 1은 본 발명의 일실시예에 따른 피치 검출 장치를 도시한 블록도이다.
도 1에 도시한 것과 같이, 본 실시예에 따른 피치 검출 장치(100)는 전처리부(101), 퓨리에 변환부(102), 보간부(103), 정규화 로컬 무게중심 계산부(104), 누적합 계산부(105), 스케일 컨버젼부(106), SHR 계산부(107), 스펙트럴 자기상관치 계산부(108), 유성음 구간 결정부(109) 및 피치 검출부(110)를 포함한다.
하모닉과 비하모닉의 비율을 이용하여 피치를 검출하는 종래기술은, 고조파 성분으로 피치를 결정하고 불필요한 정보를 사용하지 않기 때문에 피치 하빙(halving)과 더블링(doubling) 문제에 효과적으로 대응할 수 있고 잡음에도 비교적 강한 장점을 갖고 있는 반면, 스펙트럼 상에서 고조파 성분 사이의 간격이 좁기 때문에 남자 음성과 같은 로우 피치(low pitch)에 약하고 스펙트럴 틸트(tilt) 등의 영향을 많이 받는 문제점을 안고 있었다.
이에, 본 실시예에 따른 피치 검출 장치(100)는 상기와 같은 구성요소들을 통해 스펙트럼의 정규화 로컬 무게중심과 그것의 누적합을 이용하여 견실한 스펙트럼을 생성하고, 이렇게 생성된 스펙트럼으로부터 하모닉과 비하모닉의 비율을 구하여 입력 음성 신호에 대한 피치를 검출함으로써 상기와 같은 종래기술의 문제점을 해결하고자 한다.
또한, 본 실시예에 따른 피치 검출 장치(100)는 정규화 로컬 무게중심을 이용하여 입력 음성 신호에 대한 피치를 검출하는데, 상기 정규화 로컬 무게중심의 파형은 시간 영역의 파형과 유사한 형태로 나타나며, 고조파의 주기적인 구조가 더 욱 효과적으로 보존될 수 있으며, 상기 정규화 로컬 무게중심을 이용하여 계산한 스펙트럴 자기상관치의 그래프에서는 피치 주파수에 대응하는 피크들이 나타난다.
도 2는 도 1의 피치 검출 장치가 수행하는 피치 검출 방법을 도시한 흐름도이다.
단계(S201)에서 전처리부(101)는 입력된 음성 신호를 전처리(pre-processing)하며, 단계(S202)에서 퓨리에 변환부(102)는 전처리된 음성 신호에 대하여 아래 수학식 1과 같이 퓨리에 변환(Fourier Transform)을 수행한다.
Figure 112006006171500-pat00001
단계(S203)에서 보간부(103)는 변환된 음성 신호에 대해 아래 수학식 2와 같이 보간(interpolation)을 수행한다.
A(fk) ⇒ A(fi)
k = 1, 2, …, Lk
i = 1, 2, …, Li
R = Li/Lk
단계(S203)에서 보간부(103)는 소정의 저역 주파수 범위(ex. 0 ~ 1.5kHz)에 해당하는 진폭(amplitudes)에 대해 저역통과 보간(low-pass interpolation)을 수행하고, 수학식 2와 같이 최초 샘플 레이트의 R(Li/Lk)배에 해당하도록 시퀀스를 리 샘플링(resample)할 수 있다. 이러한 보간에 의해 샘플 간격이 좁아서 해상도(resolution)가 떨어지는 현상을 완화하고 주파수 해상도를 향상시킬 수 있다.
단계(S204)에서 정규화 로컬 무게중심 계산부(104)는 변환 및 보간된 음성 신호의 스펙트럼에 대해 정규화 로컬 무게중심(Normalized Local Center of Gravity: NLCG)을 계산한다. 이는 아래 수학식 3과 같이 나타낼 수 있다.
Figure 112006006171500-pat00002
여기서 U는 로컬 영역을 나타낸다. 상기 계산된 정규화 로컬 무게중심의 파형은 시간 영역의 파형과 유사한 형태로 나타나며, 고조파의 주기적인 구조가 더욱 효과적으로 보존될 수 있다.
단계(S205)에서 누적합 계산부(105)는 계산된 정규화 로컬 무게중심의 누적합(cumulated sum)을 계산한다.
단계(S206)에서 스케일 컨버젼부(106)는 계산된 누적합에 대해 스케일 컨버젼(scale conversion) 및 보간을 수행한다. 이 경우, 스케일 컨버젼부(106)는 선형 주파수 스케일(linear frequency scale)을 로그 주파수 스케일(logarithmic frequency scale)로 변환할 수 있다.
단계(S207)에서 SHR 계산부(107)는 계산된 누적합에 기초한 스펙트럼으로부 터 하모닉과 비하모닉의 비율(Subharmonic-to-Harmonic Ratio: SHR)을 계산하며, 이 경우 상기 스케일 컨버젼 및 보간이 수행된 누적합에 따른 스펙트럼으로부터 상기 고조파 대비 저조파 비율을 계산한다. 이러한 고조파 대비 저조파 비율, 즉 SHR은 아래의 수학식 4 내지 6을 통해서 계산할 수 있다.
Figure 112006006171500-pat00003
A(f): spectrum amplitude
Figure 112006006171500-pat00004
Figure 112006006171500-pat00005
단계(S208)에서 스펙트럴 자기상관치 계산부(108)는 단계(S204)에서 계산된 정규화 로컬 무게중심을 이용하여 스펙트럴 자기상관치(auto-correlation)를 계산한다. 이는 아래 수학식 7과 같이 나타낼 수 있다.
Figure 112006006171500-pat00006
이 경우, 스펙트럴 자기상관치 계산부(108)는 정규화 처리(normalization)를 별도로 수행하지 않는다. 이는 상기 정규화 로컬 무게중심의 계산 시에 정규화 처리가 이미 수행되었기 때문이다.
단계(S209)에서 유성음 구간 결정부(109)는 계산된 스펙트럴 자기상관치에 기초하여 유성음(voicing) 구간을 결정한다. 이 경우, 유성음 구간 결정부(109)는 아래 수학식 8과 같이, 계산된 스펙트럴 자기상관치 중 최대 스펙트럴 자기상관치와 소정의 임계치를 비교하고, 상기 최대 스펙트럴 자기상관치가 상기 임계치보다 큰 구간을 상기 유성음 구간으로 결정할 수 있다.
Figure 112006006171500-pat00007
단계(S210)에서 피치 검출부(110)는 아래 수학식 9와 같이, 상기 유성음 구간에 해당하는 하모닉과 비하모닉의 비율에 기초하여 피치를 검출한다. 이 경우, 피치 검출부(110)는 상기 유성음 구간에 해당하는 하모닉과 비하모닉의 비율 중 하모닉과 비하모닉의 비율에 대응하는 로컬 피크의 위치를 상기 피치로 검출할 수 있다.
Figure 112006006171500-pat00008
이상에서 살펴본 바와 같이, 본 발명에 따르면, 스펙트럼의 정규화 로컬 무게중심과 그것의 누적합을 이용하여 생성된 스펙트럼으로부터 하모닉과 비하모닉의 비율을 구하여 입력 음성 신호에 대한 피치를 검출할 수 있으며, 스펙트럼의 정규화 로컬 무게 중심과 보간을 이용해서 스펙트럴 자기상관치를 구하여 유성음/무성음을 구분하고, 하모닉과 비하모닉의 비율을 이용하여 피치를 검출할 때 상기 유성음/무성음 구분 결과를 이용하는 피치 검출 방법 및 상기 방법을 수행하는 피치 검출 장치가 제공된다.
도 3은 원 스펙트럼의 파형, 보간된 스펙트럼의 파형, 계산된 정규화 로컬 무게중심에 따른 파형, 정규화 로컬 무게중심의 누적합에 따른 파형을 각각 도시한 도면이다.
하모닉과 비하모닉의 비율을 이용하여 피치를 검출하는 종래기술은, 스펙트럼 상에서 고조파 성분 사이의 간격이 좁기 때문에 남자 음성과 같은 로우 피치(low pitch)에 약하고 스펙트럴 틸트(tilt) 등의 영향을 많이 받는 문제점을 안고 있었으나, 도 3에 도시한 것과 같이 본 발명에 따라 계산된 정규화 로컬 무게중심의 누적합에 따른 파형을 살펴보면 상기와 같은 종래기술의 문제점이 해결되었음을 확인할 수 있다.
도 4는 본 발명에 따른 피치 검출 방법을 실험적으로 수행하여 나타난 결과 파형을 도시한 도면이다.
도 3에서 (a)는 입력 신호를 나타내는 것으로서, (a)의 ①은 남자 음성의 신호를, (a)의 ②는 남자 음성과 백색 잡음(white noise)이 섞인 신호를, (a)의 ③은 남자 음성과 비행기 소음이 섞인 신호를 각각 나타내며, (a)의 ④는 여자 음성의 신호를, (a)의 ⑤는 여자 음성과 백색 잡음이 섞인 신호를, (a)의 ⑥은 여자 음성과 비행기 소음이 섞인 신호를 각각 나타낸다.
또한, 도 3에서 (b), (c), (d)는 이렇게 입력된 입력 신호를 도 2와 같이 처리하여 나타난 파형을 도시한 것으로서, (b)는 계산된 스펙트럴 자기상관치와 임계치(Tsa)를 이용하여 유성음 구간을 결정하는 모습을, (c)는 피치를 검출하는 모습을, (d)는 고조파 대비 저조파 비율을 이용한 결과를 각각 나타낸 것이다.
(d)의 ① 내지 ③으로부터, 본 발명에 따르면, 스펙트럼 상에서 고조파 성분 사이의 간격이 좁기 때문에 남자 음성과 같은 로우 피치(low pitch)에 약했던 종래기술의 문제점이 해결되었음을 확인할 수 있다.
본 발명에 따른 피치 검출 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD- ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
본 발명에 따르면, 스펙트럼의 정규화 로컬 무게중심과 그것의 누적합을 이용하여 견실한 스펙트럼을 생성하고, 이렇게 생성된 스펙트럼으로부터 하모닉과 비하모닉의 비율을 구하여 입력 음성 신호에 대한 피치를 검출하는 방법 및 상기 방법을 수행하는 피치 검출 장치가 제공된다.
본 발명에 따르면, 스펙트럼의 정규화 로컬 무게 중심과 보간을 이용해서 스펙트럴 자기상관치를 구하여 유성음/무성음을 구분하고, 하모닉과 비하모닉의 비율을 이용하여 피치를 검출할 때 상기 유성음/무성음 구분 결과를 이용하는 피치 검출 방법 및 상기 방법을 수행하는 피치 검출 장치가 제공된다.
본 발명에 따른 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및 장치에 의하면, 고조파 성분으로 피치를 결정하고 불필요한 정보를 사용하지 않기 때문에 피치 하빙과 더블링 문제에 효과적으로 대응할 수 있고 잡음에도 강한 본래의 장점을 유지하면서도, 스펙트럼 상에서 고조파 성분 사이의 간격이 좁기 때문에 남자 음성과 같은 로우 피치에 약하고 스펙트럴 틸트 등의 영향을 많이 받는 종래기술의 문제점을 해결할 수 있다.

Claims (15)

  1. 입력 음성 신호에 대한 피치 검출 방법에 있어서,
    입력된 음성 신호를 전처리하여 퓨리에 변환을 수행하는 단계;
    변환된 음성 신호에 대해 보간(interpolation)을 수행하는 단계;
    변환 및 보간된 음성 신호의 스펙트럼에 대해 정규화 로컬 무게중심(Normalized Local Center of Gravity: NLCG)을 계산하는 단계;
    계산된 정규화 로컬 무게중심의 누적합(cumulated sum)을 계산하는 단계;
    계산된 누적합에 기초한 스펙트럼으로부터 하모닉과 비하모닉의 비율(Subharmonic-to-Harmonic Ratio: SHR)을 계산하는 단계; 및
    계산된 하모닉과 비하모닉의 비율에 기초하여 피치를 검출하는 단계
    를 포함하는 것을 특징으로 하는 피치 검출 방법.
  2. 제1항에 있어서,
    변환된 음성 신호에 대해 보간을 수행하는 상기 단계는,
    소정의 저역 주파수 범위에 해당하는 진폭(amplitudes)에 대해 저역통과 보간(low-pass interpolation)을 수행하는 단계; 및
    최초 샘플 레이트의 R배에 해당하도록 시퀀스를 리샘플링(resample)하는 단계
    를 포함하는 것을 특징으로 하는 피치 검출 방법.
  3. 제1항에 있어서,
    계산된 정규화 로컬 무게중심을 이용하여 스펙트럴 자기상관치(auto-correlation)를 계산하는 단계; 및
    계산된 스펙트럴 자기상관치에 기초하여 유성음(voicing) 구간을 결정하는 단계
    를 더 포함하고,
    계산된 하모닉과 비하모닉의 비율에 기초하여 피치를 검출하는 상기 단계는,
    상기 유성음 구간에 해당하는 하모닉과 비하모닉의 비율에 기초하여 상기 피치를 검출하는 것을 특징으로 하는 피치 검출 방법.
  4. 제3항에 있어서,
    계산된 하모닉과 비하모닉의 비율에 기초하여 피치를 검출하는 상기 단계는,
    상기 유성음 구간에 해당하는 하모닉과 비하모닉의 비율 중 하모닉과 비하모닉의 비율에 대응하는 로컬 피크의 위치를 상기 피치로 검출하는 것을 특징으로 하는 피치 검출 방법.
  5. 제3항에 있어서,
    계산된 스펙트럴 자기상관치에 기초하여 유성음 구간을 결정하는 상기 단계는,
    계산된 스펙트럴 자기상관치의 주파수 성분에 의해 상기 유성음 구간을 결정하는 것을 특징으로 하는 피치 검출 방법.
  6. 제3항에 있어서,
    계산된 스펙트럴 자기상관치에 기초하여 유성음 구간을 결정하는 상기 단계는,
    계산된 스펙트럴 자기상관치 중 최대 스펙트럴 자기상관치와 소정의 임계치를 비교하는 단계; 및
    상기 최대 스펙트럴 자기상관치가 상기 임계치보다 큰 구간을 상기 유성음 구간으로 결정하는 단계
    를 포함하는 것을 특징으로 하는 피치 검출 방법.
  7. 제1항에 있어서,
    계산된 누적합에 대해 스케일 컨버젼(scale conversion) 및 보간(interpolation)을 수행하는 단계를 더 포함하고,
    계산된 누적합에 기초한 스펙트럼으로부터 고조파 대비 저조파 비율을 계산하는 상기 단계는,
    스케일 컨버젼 및 보간이 수행된 누적합에 따른 스펙트럼으로부터 상기 하모닉과 비하모닉의 비율을 계산하는 것을 특징으로 하는 피치 검출 방법.
  8. 제7항에 있어서,
    상기 스케일 컨버젼은 선형 주파수 스케일(linear frequency scale)을 로그 주파수 스케일(logarithmic frequency scale)로 변환하는 것을 특징으로 하는 피치 검출 방법.
  9. 제1항 내지 제8항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.
  10. 입력 음성 신호에 대한 피치 검출 장치에 있어서,
    입력된 음성 신호를 전처리하는 전처리부;
    전처리된 음성 신호에 대하여 퓨리에 변환을 수행하는 퓨리에 변환부;
    변환된 음성 신호에 대해 보간(interpolation)을 수행하는 보간부;
    변환 및 보간된 음성 신호의 스펙트럼에 대해 정규화 로컬 무게중심(Normalized Local Center of Gravity: NLCG)을 계산하는 정규화 로컬 무게중심 계산부;
    계산된 정규화 로컬 무게중심의 누적합(cumulated sum)을 계산하는 누적합 계산부;
    계산된 누적합에 기초한 스펙트럼으로부터 하모닉과 비하모닉의 비율(Subharmonic-to-Harmonic Ratio: SHR)을 계산하는 SHR 계산부; 및
    계산된 하모닉과 비하모닉의 비율에 기초하여 피치를 검출하는 피치 검출부
    를 포함하는 것을 특징으로 하는 피치 검출 장치.
  11. 제10항에 있어서,
    계산된 정규화 로컬 무게중심을 이용하여 스펙트럴 자기상관치(auto-correlation)를 계산하는 스펙트럴 자기상관치 계산부; 및
    계산된 스펙트럴 자기상관치에 기초하여 유성음(voicing) 구간을 결정하는 유성음 구간 결정부
    를 더 포함하고,
    상기 피치 검출부는, 상기 유성음 구간에 해당하는 하모닉과 비하모닉의 비율에 기초하여 상기 피치를 검출하는 것을 특징으로 하는 피치 검출 장치.
  12. 제11항에 있어서,
    상기 피치 검출부는, 상기 유성음 구간에 해당하는 하모닉과 비하모닉의 비율 중 최대 하모닉과 비하모닉의 비율에 대응하는 로컬 피크의 위치를 상기 피치로 검출하는 것을 특징으로 하는 피치 검출 장치.
  13. 제11항에 있어서,
    상기 유성음 구간 결정부는, 계산된 스펙트럴 자기상관치 중 최대 스펙트럴 자기상관치와 소정의 임계치를 비교하고, 상기 최대 스펙트럴 자기상관치가 상기 임계치보다 큰 구간을 상기 유성음 구간으로 결정하는 것을 특징으로 하는 피치 검 출 장치.
  14. 제10항에 있어서,
    계산된 누적합에 대해 스케일 컨버젼(scale conversion) 및 보간(interpolation)을 수행하는 스케일 컨버젼부를 더 포함하고,
    상기 SHR 계산부는, 스케일 컨버젼 및 보간이 수행된 누적합에 따른 스펙트럼으로부터 상기 하모닉과 비하모닉의 비율을 계산하는 것을 특징으로 하는 피치 검출 장치.
  15. 제14항에 있어서,
    상기 스케일 컨버젼부는 선형 주파수 스케일(linear frequency scale)을 로그 주파수 스케일(logarithmic frequency scale)로 변환하는 것을 특징으로 하는 피치 검출 장치.
KR1020060008162A 2006-01-26 2006-01-26 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치 KR100653643B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020060008162A KR100653643B1 (ko) 2006-01-26 2006-01-26 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
JP2006234172A JP4435127B2 (ja) 2006-01-26 2006-08-30 ハーモニックとサブハーモニックの比率を用いたピッチ検出方法およびピッチ検出装置
US11/604,276 US8311811B2 (en) 2006-01-26 2006-11-27 Method and apparatus for detecting pitch by using subharmonic-to-harmonic ratio

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060008162A KR100653643B1 (ko) 2006-01-26 2006-01-26 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치

Publications (1)

Publication Number Publication Date
KR100653643B1 true KR100653643B1 (ko) 2006-12-05

Family

ID=37732016

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060008162A KR100653643B1 (ko) 2006-01-26 2006-01-26 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치

Country Status (3)

Country Link
US (1) US8311811B2 (ko)
JP (1) JP4435127B2 (ko)
KR (1) KR100653643B1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8093484B2 (en) * 2004-10-29 2012-01-10 Zenph Sound Innovations, Inc. Methods, systems and computer program products for regenerating audio performances
US7598447B2 (en) * 2004-10-29 2009-10-06 Zenph Studios, Inc. Methods, systems and computer program products for detecting musical notes in an audio signal
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
KR101571573B1 (ko) 2007-09-28 2015-11-24 돌비 레버러토리즈 라이쎈싱 코오포레이션 부가적인 정보 역량을 이용한 멀티미디어 코딩 및 디코딩
JP4924513B2 (ja) * 2008-03-31 2012-04-25 ブラザー工業株式会社 タイムストレッチシステムおよびプログラム
WO2010032405A1 (ja) * 2008-09-16 2010-03-25 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
EP2237266A1 (en) 2009-04-03 2010-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
US9069757B2 (en) * 2010-10-31 2015-06-30 Speech Morphing, Inc. Speech morphing communication system
EP2638541A1 (en) * 2010-11-10 2013-09-18 Koninklijke Philips Electronics N.V. Method and device for estimating a pattern in a signal
US8731911B2 (en) * 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
CN103325384A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
CN117116245B (zh) * 2023-10-18 2024-01-30 武汉海微科技有限公司 声音信号的谐波生成方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JP2003514260A (ja) * 1999-11-11 2003-04-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スピーチ認識のための音調特徴
US20020016161A1 (en) * 2000-02-10 2002-02-07 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for compression of speech encoded parameters
AU2001294974A1 (en) * 2000-10-02 2002-04-15 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6691085B1 (en) * 2000-10-18 2004-02-10 Nokia Mobile Phones Ltd. Method and system for estimating artificial high band signal in speech codec using voice activity information
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
US7027980B2 (en) * 2002-03-28 2006-04-11 Motorola, Inc. Method for modeling speech harmonic magnitudes

Also Published As

Publication number Publication date
JP2007199663A (ja) 2007-08-09
US8311811B2 (en) 2012-11-13
JP4435127B2 (ja) 2010-03-17
US20070174049A1 (en) 2007-07-26

Similar Documents

Publication Publication Date Title
KR100653643B1 (ko) 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
KR100724736B1 (ko) 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
US10510363B2 (en) Pitch detection algorithm based on PWVT
Boersma Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound
KR100590561B1 (ko) 신호의 피치를 평가하는 방법 및 장치
US7567900B2 (en) Harmonic structure based acoustic speech interval detection method and device
KR100770839B1 (ko) 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
KR100717625B1 (ko) 음성 인식에서의 포먼트 주파수 추정 방법 및 장치
US8086449B2 (en) Vocal fry detecting apparatus
Sebastian et al. An analysis of the high resolution property of group delay function with applications to audio signal processing
US5809453A (en) Methods and apparatus for detecting harmonic structure in a waveform
US20140200889A1 (en) System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters
Aneeja et al. Detection of Glottal Closure Instants in Degraded Speech Using Single Frequency Filtering Analysis.
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
Bouzid et al. Voice source parameter measurement based on multi-scale analysis of electroglottographic signal
Zhao et al. A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches
KR100194953B1 (ko) 유성음 구간에서 프레임별 피치 검출 방법
JP3892379B2 (ja) 調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体
KR19990070595A (ko) 평탄화된 스펙트럼에서 유성-무성구간 분류방법
Park et al. Pitch Gross Error Compensation in Continuous Speech
JP2734526B2 (ja) ピッチ抽出装置
KR100212453B1 (ko) 양자화 오차를 이용한 음성 신호의 피치 검출 방법
Park et al. Pitch Error Improved with SNR Compensation
JPH0377998B2 (ko)
Agüero et al. Robust Estimation of Jitter in Pathological Voices

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121030

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131030

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141030

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151029

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20161028

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20171030

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee