KR0171004B1 - Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법 - Google Patents

Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법 Download PDF

Info

Publication number
KR0171004B1
KR0171004B1 KR1019950049252A KR19950049252A KR0171004B1 KR 0171004 B1 KR0171004 B1 KR 0171004B1 KR 1019950049252 A KR1019950049252 A KR 1019950049252A KR 19950049252 A KR19950049252 A KR 19950049252A KR 0171004 B1 KR0171004 B1 KR 0171004B1
Authority
KR
South Korea
Prior art keywords
formant
fundamental frequency
ratio
frequency
spectrum
Prior art date
Application number
KR1019950049252A
Other languages
English (en)
Other versions
KR970050122A (ko
Inventor
유하영
변경진
한기천
김종재
김경수
Original Assignee
양승택
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 양승택, 한국전자통신연구원 filed Critical 양승택
Priority to KR1019950049252A priority Critical patent/KR0171004B1/ko
Publication of KR970050122A publication Critical patent/KR970050122A/ko
Application granted granted Critical
Publication of KR0171004B1 publication Critical patent/KR0171004B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 음성의 피치나 제1포 만트를 별도로 검출하지 않고 이들의 비율을 측정하는 SAMDF(Spectral Average Magnitude Difference Function)를 이용한 기본 주파수와 제1포만트의 비율 측정방법에 관한 것으로서, 그 특징은 SAMDF를 이용한 기본 주파수와 제1포만트의 비율 측정방법에 있어서, 음성신호를 대수의 진폭 스펙트럼으로 변환한 다음에 최대의 스펙트럼을 이루는 위치를 결정하여 스펙트럼 상에서 제1포만트를 구하는 제1과정과, 상기 제1과정에서 구해진 스펙트럼을 SAMDF 함수에 가하여 SAMDF 함수에 통과된 스펙트럼 중에서 첫 봉우리에서 시작하여 최소의 골을 이루는 주파수 지연값을 기본 주파수로 정하는 제2과정 및 상기 제1포만트 대기본 주파수의 비율을 측정하는 제3과정을 포함하는 데에 있으므로, 본 발명은 기본 주파수와 제1포만트의 비율법을 이용하여 음성신호의 피치검출에 이용하면 그 비율은 1 내지 20 사이의 정수 값이 얻어지고, 유성음-무성음 구간으로의 변화에 대해서는 선형적으로 변하는 특성이 있으며 이 변화도는 기본 주파수와 제1포만트의 상관관계를 파악할 수 있는 중요한 파라미터가 되며, 또한 음성인식 시에는 화자에 따른 영향을 줄일 수 있고, 음성합성 시에는 자연성과 개성을 쉽게 변경하거나 유지할 수 있으며 분석 시에는 성문의 영향이 제거된 정확한 성도 파라미터를 얻을 수 있다는 데에 그 효과가 있다.

Description

SAMDF를 이용한 기본 주파수와 제1포만트의 비율 측정방법
제1도는 본 발명의 구현을 위한 하드웨어의 구성도.
제2도는 본 발명의 비율측정 방법을 구현한 소프트웨어 처리 블럭도.
본 발명은 SAMDF(Spectral Average Magnitude Difference Function)를 이용한 기본 주파수와 제1포만트의 비율 측정방법에 관한 것으로서, 특히 음성의 피치나 제1포만트를 별도로 검출하지 않고 이들의 비율을 측정하는 SAMDF를 이용한 기본 주파수와 제1포만트의 비율 측정방법에 관한 것이다.
여기서, 피치는 기본 주파수의 역수이다.
일반적으로, 기본 주파수와 제1포만트의 비율을 이용하면 어린이나 여성 혹은 남성 화자들의 특징들을 쉽게 파악해 낼 수 있으므로 비율값만을 적용하면 쉽게 음성합성이나 음성인식에 이용할 수 있다.
또한 정보산업 사회에서 통신이 가장 중요한 산업분야로 떠오르고 있기 때문에 이러한 시점에서 인간과 컴퓨터 간의 정보 교환은 점점 비중이 커져 가고 있는 실정이다.
음성신호의 피치검출은 시간 영역법, 주파수 영역법, 시간-주파수 혼성 영역법 등이 있는데, 이들은 각각 잡음이나 계산과정의 복잡성, 정확성의 손실등에 의한 단점이 존재하게 된다.
그러한 이유 때문에 SAMDF를 사용하여 피치를 구하게 되는데 이렇게 구해진 피치(즉, 기본 주파수)는 포만트의 영향을 받지 않을 뿐더러 고조파나 잡음에 의한 영향도 제거될 수 있다. 이렇게 구해진 기본 주파수와 제1포만트의 비율은 음성인식, 음성합성, 음성분석에 적절히 응용할 수 있다.
이 값은 기본 주파수와 제1포만트의 상관관계를 파악할 수 있는 중요한 파라미터가 된다.
음성신호의 피치검출에 대한 알고리즘은 다양하게 제안되었는데, 그것은 시간 영역법, 주파수 영역법, 시간-주파수 영역법으로 구분할 수 있다.
시간 영역 검출법은 파형의 주기성을 강조한 후에 결정논리에 의해 피치를 찾는 방법으로서 병렬 처리법, ACF법, AMDF법, ACM법등이 있다.
이러한 방법은 보통 시간영역에서 수행되므로 영역의 변환이 불필요하고, 합, 차, 비교논리 등 비교적 간단한 연산만으로도 충분하다. 그러나 음소가 천이구간에 걸쳐 있는 경우에는 프레임 내의 레벨변화가 심하고 피치의 주기가 변동하고 있기 때문에 피치검출에 어려움이 따르게 된다.
특히 잡음이 섞인 음성의 경우에는 피치검출을 위한 결정논리가 복잡해져서 검출 오류가 증가되는 단점이 있다.
주파수 영역 피치 검출법은 음성 스펙트럼의 고조파 간격을 측정하여 유성음의 기본 주파수를 검출하는 방법으로서 고조파 분석법, 리프터(Lifter)법, 콤-필터링(Comb-filtering)법 등이 제안되었다.
통상적으로 스펙트럼은 한 프레임(20㎳ 내지 40㎳) 단위로 구해지므로, 이 구간에서 음소의 천이나 변동이 일어나거나 배경잡음이 발생하더라도 평균화되므로 그 영향을 적게 받는다.
그러나 처리과정 상 주파수 영역으로의 변환과정이 필요하므로 계산이 복잡하며, 기본 주파수의 정밀성을 높이기 위해 FFT의 포인트수를 늘리면 그 만큼 처리시간이 길어진다는 단점이 있다.
시간-주파수 혼성 영역법은 시간 영역법의 계산시간 절감과 피치의 정밀성, 그리고 주파수 영역법의 배경잡음이나 음소 변화에 대해서도 피치를 정확히 구할 수 있는 장점만을 취한 것이다.
이러한 방법으로는 켑스트럼(Cepstrum)법, 스펙트럼 비교법 등이 있다.
그러나, 이 방법은 시간과 주파수 영역을 왕복할 때 계산용량에 따른 오차가 가중되어 나타날 수 있기 때문에 피치 추출의 정확도에 영향을 줄 수 있다.
또한 시간과 주파수 영역을 동시에 적용하기 때문에 계산과정이 복잡하다는 단점이 있다.
즉, 시간 영역법, 주파수 영역법, 시간-주파수 혼성 영역법 등과 같은 종래의 기본 주파수 검출법들은 각각 잡음에 약하고, 계산이 복잡하며 처리 시간이 길어지고, 피치추출 시 정확도가 떨어지는 등의 문제점이 있었다.
상기 문제점을 해결하기 위한 본 발명의 목적은 음성의 피치나 제1포만트를 별도로 검출하지 않고 이들의 비율을 측정하여 음성신호 처리용의 특징 파라미터로 활용하는 SAMDF를 이용한 기본 주파수와 제1포만트의 비율 측정방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 특징은 SAMDF를 이용한 기본주파수와 제1포만트의 비율 측정방법에 있어서, 음성신호를 대수의 진폭 스펙트럼으로 변환한 다음에 최대의 스펙트럼을 이루는 위치를 결정하여 스펙트럼 상에서 제1포만트를 구하는 제1과정과, 상기 제1과정에서 구해진 스펙트럼을 SAMDF 함수에 가하여 SAMDF 함수에 통과된 스펙트럼 중에서 첫 봉우리에서 시작하여 최소의 골을 이루는 주파수 지연값을 기본 주파수로 정하는 제2과정 및 상기 제1포만트 대 기본 주파수의 비율을 측정하는 제3과정을 포함하는데 있다.
예를 들면, 지하철과 공항에서의 안내 방송, 안내 전화 등과 같은 곳에 쓰일 수 있는데, 아직도 말을 이해하는 인지도와 합성음의 미숙함이 여전히 남아 있다.
음성을 정확히 인식하는 것과 합성음성의 음질을 개선을 한다면 서비스 산업과 다른 산업, 가정에서 효율적으로 적용될 것이다.
음성 신호처리 분야에서 음성신호의 기본 주파수를 정확히 검출하는 것은 아주 중요하다.
하지만 기본 주파수를 정확히 검출하는 것은 제1포만트의 영향을 많이 받기 때문에 어렵다.
실제의 음성신호에서 기본 주파수와 제1포만트들은 서로 상관 관계를 가지게 되고, 이들을 독립적으로 검출하게 되면 이에 상응하는 오차를 가지게 된다.
그러므로 기본 주파수와 제1포만트와의 비율을 쉽게 구할 수만 있다면 음성 인식에 있어서 화자에 따른 영향을 줄일 수 있기 때문에 인식의 정확도를 높일 수 있고, 음성합성 시 자연성과 개성을 쉽게 변경하거나 유지할 수 있다.
또한 분석 시 성문의 영향이 제거된 정확한 성도 파라미터를 얻을 수 있다.
SAMDF 함수는 포만트의 영향을 제거하고 고조파 이외의 잡음성국부 봉우리를 제거하고, 또한 기본 고조파의 위치에서 스펙트럼의 봉우리나 골을 이루게 하여 최대값이나 최소값의 결정에 의해 기본주파수를 구할수 있다.
따라서 이 두 값을 이용하여 기본 주파수와 제1포만트의 비율을 구하는 방법으로 구성되어 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예들 중의 하나를 상세히 설명한다.
제1도는 본 발명의 구현을 위한 하드웨어의 구성도이다.
제1도를 참조하여 본 발명의 구현을 위한 하드웨어의 구성을 설명하면 다음과 같다.
본 발명을 실현하기 위한 하드웨어 구성은 일반적인 음성신호 처리용 시스템인 제1도와 같이 나타낼 수 있다.
마이크로폰(100)을 통해 음파가 전기신호로 변환되면 이를 증폭기(101)를 통해 증폭하여, 일정한 레벨로 높이게 된다.
마이크로폰을 통해 입력 된 신호의 성분은 음성신호인 경우에 20㎐ 내지 20㎑ 범위의 주파수를 갖는 성분으로 구성된다.
이들 성분중 본 발명을 구현하기 위해서는 의사전달 정보 성분만 포함하면 되기 때문에 저역통과 여파기(LPF)를 통해 의사전달 정보성분 주파수의 범위인 4㎑ 이상 주파수 성분은 제거한다.
이처럼 특정 주파수 이상의 성분을 제거하는 이유는 음성신호를 디지털로 변환하였을 때 1초당 데이터 수를 줄이기 위함이다. 4㎑ 이하의 신호 성분만 남기고 저역 여파시킨 신호에 대해 컴퓨터로 이를 처리하기 위해 디지털 신호로 변환하여야 하는데, 이것은 아날로그를 디지털로 변환하는 A/D 변환기(Analog to Digital Converter)(103)에 의해 표본화한다.
디지털 신호로 표본화하는 표본률은 나이퀴스트(Nyquist)의 표본화 이론에 따라 신호의 최대 주파수(여기서는 4㎑)의 두 배인 8㎑로 한다.
또한 한 표본당 전압 레벨을 양자화(Quantization)해야 하는데, 전화 음질을 기준으로 하기 위해 12비트(212=4096)레벨을 사용하였다.
이렇게 처리된 디지털 음성신호는 디지털 신호 프로세서(106)에서 계산 및 처리하기 위해 입력포트(104)를 통해 입력된다.
입력된 음성신호 데이터는 소프트웨어 처리과정을 통해 처리한 다음에, 필요에 따라서 메모리(105)에 저장시키거나 또는 전송채널(121)에 전송하기 위해 입력/출력포트(120)에 출력한다.
그리고 필요 시에는 메모리(105)에서 읽어낸 데이터나, 전송채널(121)을 통해 입력된 데이터를 사용하여 복호화 과정을 통해 음성신호를 합성한다.
이처럼 디지털 신호 프로세서에 의해 복호화 처리가 완료된 합성 음성신호가 잘 처리되었는지 스피커(111)를 통해 들어보기 위해 출력포트(107)에 전달한다.
출력포트에 데이터가 전달되면 이것이 디지털을 아날로그로 변환하는 D/A 변환기(Digital to Analog Converter)(108)에 전달된다.
이 경우에도 표본화율 8㎑ 단위로 아날로그 값으로 변환하게 되고, 이 변환된 신호는 아직 표본률의 고조파가 포함된 개별신호로 나타나기 때문에, 저역통과 여파기(109)에 통과시켜 기본 대역의 신호만 남도록 처리한다.
이렇게 처리된 신호를 스피커를 구동할 수 있도록, 증폭(110)하여 스피커(111)에 공급하게 된다.
이렇게 처리된 신호를 스피커가 음압파로 변환하여 주기 때문에 인간의 귀를 통해 청취하게 된다.
제2도는 본 발명의 비율측정 방법을 구현한 소프트웨어 처리 블럭도이다.
제2도는 본 발명의 비율측정 방법을 구현한 소프트웨어 처리과정을 설명하면 다음과 같다.
우선 음성신호가 들어오면 해밍 창함수에 통과시키는데(201), 그 이유는 입력된 음성신호의 추정 에러를 감소시키기 위한 것이다.
그 후에 512점 FFT를 수행하여 진폭 스펙트럼을(202) 구한 다음에 최대값의 위치를(204) 찾아 제1포만트의 주파수 F1를 구하고, 진폭 스펙트럼을 SAMDF 함수에(205) 통과시켜서 첫 봉우리에서부터 시작하여 첫 번째 골을 이루는 주파수 지연값을 기본 주파수 F0로 결정하여 F1/F0의(207) 비를 구한다.
이 과정을 좀 더 자세히 설명해 보면 우선 512점 FFT를 수행한 뒤 위상은 따로 구하고, 진폭 만을 Log 함수에(203) 넣는다.
그런 후 Log 함수에서 나온 값을 각각 Max(ㆍ)와 SAMDF에 넣고 Max(ㆍ)로부터는 제1포만트를 얻어낸다.
이 때 제1포만트를 얻어낼 수 있는 이유는 유성음의 경우에 스펙트럼상에서 제1포만트의 에너지가 다른 포만트들보다 약 10dB 가량 높기 때문이다.
SAMDF 함수식은 다음 식(1)과 같다.
지연값 d의 계산범위는 기본 주파수의 정수배에 해당하는 첫 포만트인 Fm의 주파수까지 계산하면 된다.
또한, Sp(ㆍ)는 음성신호의 진폭 스펙트럼이고, k는 SAMDF(ㆍ)에 통과한 스펙트럼에서 첫 봉우리를 이루는 주파수 지연값이다.
이 함수식은 포만트의 영향을 제거함은 물론 고조파 이외의 잡음성 국부 봉우리를 제거하고, 또한 기본 고조파의 위치에서 스펙트럼의 봉우리나 골을 이루게 하여 최대값이나 최소값의 결정에 의해 기본 주파수를 구할 수 있다.
SAMDF를 통과한 후의 결과 스펙트럼에 대해 스펙트럼 지연값 1에서부터 시작하여 증가하면서 그 값이 첫 봉우리를 이룰 때까지 피치결정을 무시한다.
다음에는 음성 스펙트럼이 제1포만트 주파수까지 증가하는 구조를 이루기 때문에 스펙트럼 AMDF 함수에 통과된 스펙트럼은 기본 고조파에서 최소의 골을 이루게 된다.
따라서 첫 봉우리에서 시작하여 최소의 골을 이루는 주파수 지연값을 기본 주파수로 다음과 같은 Min(ㆍ) 함수를(206) 결정할 수 있다.
이렇게 해서 구한 기본 주파수와 처음에 구한 제1포만트값을 이용하여 F1/F0을 구할 수 있다.
F0는 기본 주파수이고, F1는 제1포만트 주파수(first formant frequency)이다.
그러므로, 상술한 바와 같은 본 발명은 기본 주파수와 제1포만트의 비율법을 이용하여 음성신호의 피치검출에 이용하면 그 비율은 1 내지 20 사이의 정수값이 얻어지고, 유성음-무성음 구간으로의 변화에 대해서는 선형적으로 변하는 특성이 있으며 이 변화도는 기본 주파수와 제1포만트의 상관관계를 파악할 수 있는 중요한 파라미터가 되며, 또한 음성인식 시에는 화자에 따른 영향을 줄일 수 있고, 음성합성 시에는 자연성과 개성을 쉽게 변경하거나 유지할 수 있으며 분석 시에는 성문의 영향이 제거된 정확한 성도 파라미터를 얻을 수 있다는 데에 그 효과가 있다.

Claims (1)

  1. SAMDF를 이용한 기본 주파수와 제1포만트의 비율 측정방법에 있어서, 음성신호를 대수의 진폭 스펙트럼으로 변환한 다음에 최대의 스펙트럼을 이루는 위치를 결정하여 스펙트럼 상에서 제1포만트를 구하는 제1과정과, 상기 제1과정에서 구해진 스펙트럼을 SAMDF 함수에 가하여 SAMDF 함수에 통과된 스펙트럼 중에서 첫 봉우리에서 시작하여 최소의 골을 이루는 주파수 지연값을 기본 주파수로 정하는 제2과정 상기 제1포만트 대 기본 주파수의 비율을 측정하는 제3과정을 포함하는 것을 특징으로 하는 SAMDF를 이용한 기본 주파수와 제1포만트의 비율 측정방법.
KR1019950049252A 1995-12-13 1995-12-13 Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법 KR0171004B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019950049252A KR0171004B1 (ko) 1995-12-13 1995-12-13 Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019950049252A KR0171004B1 (ko) 1995-12-13 1995-12-13 Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법

Publications (2)

Publication Number Publication Date
KR970050122A KR970050122A (ko) 1997-07-29
KR0171004B1 true KR0171004B1 (ko) 1999-03-30

Family

ID=19439599

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950049252A KR0171004B1 (ko) 1995-12-13 1995-12-13 Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법

Country Status (1)

Country Link
KR (1) KR0171004B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717625B1 (ko) * 2006-02-10 2007-05-15 삼성전자주식회사 음성 인식에서의 포먼트 주파수 추정 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717625B1 (ko) * 2006-02-10 2007-05-15 삼성전자주식회사 음성 인식에서의 포먼트 주파수 추정 방법 및 장치

Also Published As

Publication number Publication date
KR970050122A (ko) 1997-07-29

Similar Documents

Publication Publication Date Title
USRE43191E1 (en) Adaptive Weiner filtering using line spectral frequencies
US9047878B2 (en) Speech determination apparatus and speech determination method
JP3277398B2 (ja) 有声音判別方法
US20050108004A1 (en) Voice activity detector based on spectral flatness of input signal
CN111128213B (zh) 一种分频段进行处理的噪声抑制方法及其***
US20080162122A1 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US20070232257A1 (en) Noise suppressor
JPH0516599B2 (ko)
KR20060044629A (ko) 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템
Chen et al. Improved voice activity detection algorithm using wavelet and support vector machine
KR20090076683A (ko) 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체
US20140019125A1 (en) Low band bandwidth extended
US7917359B2 (en) Noise suppressor for removing irregular noise
US6052658A (en) Method of amplitude coding for low bit rate sinusoidal transform vocoder
Bořil et al. Direct time domain fundamental frequency estimation of speech in noisy conditions
US6629049B2 (en) Method for non-harmonic analysis of waveforms for synthesis, interpolation and extrapolation
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
KR20090080777A (ko) 신호 검출 방법 및 장치
US11443761B2 (en) Real-time pitch tracking by detection of glottal excitation epochs in speech signal using Hilbert envelope
US5812966A (en) Pitch searching time reducing method for code excited linear prediction vocoder using line spectral pair
CN116312561A (zh) 一种电力调度***人员声纹识别鉴权降噪和语音增强方法、***及装置
KR0171004B1 (ko) Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
Vahatalo et al. Voice activity detection for GSM adaptive multi-rate codec
Atal Linear prediction of speech—Recent advances with applications to speech analysis

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20031001

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee