KR20000073638A - 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한음성분석방법 - Google Patents

전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한음성분석방법 Download PDF

Info

Publication number
KR20000073638A
KR20000073638A KR1019990017067A KR19990017067A KR20000073638A KR 20000073638 A KR20000073638 A KR 20000073638A KR 1019990017067 A KR1019990017067 A KR 1019990017067A KR 19990017067 A KR19990017067 A KR 19990017067A KR 20000073638 A KR20000073638 A KR 20000073638A
Authority
KR
South Korea
Prior art keywords
signal
egg
pitch
pass filter
calculating
Prior art date
Application number
KR1019990017067A
Other languages
English (en)
Inventor
김종찬
Original Assignee
김종찬
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김종찬 filed Critical 김종찬
Priority to KR1019990017067A priority Critical patent/KR20000073638A/ko
Publication of KR20000073638A publication Critical patent/KR20000073638A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03FAMPLIFIERS
    • H03F99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Power Engineering (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 음성인식을 위한 전자적성문그래프(electroglottograph:EGG) 검출장치 및 이것을 이용한 음성분석방법에 관한 것으로서, 더욱 구체적으로는 고음질합성, 음성압축, 음성부호화 또는 음성인식율의 개선을 위한 중요한 파라메터(parameter)인 피치(pitch)를 실시간으로 검출하고, 이것을 이용하여 성문의 동작특성을 검출하고 피치정보를 추출할 수 있는 2 쌍의 스팟전극(spot electrode)들을 이용하여 구성한 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한 음성분석방법에 관한 것이다.
본 발명의 전자적성문그래프 검출장치는, 소정의 크기와 소정의 주파수를 가지는 교류전류를 공급하기 위한 정전류원(10); 인체의 목(100)에 설치되는 것으로 각각 한 조를 구성하는 스팟전극(e1,e4)(e2,e3); 상기 스팟전극(e1,e4)에 의하여 검출되는 전류를 변조하여 전달하기 위한 것으로 후두의 공기흐름에 대한 공기임피던스신호를 진폭변조하는 제1 절연트랜스포머(20); 상기 스팟전극(e2,e3)에 의하여 검출되는 전류를 변조하여 전달하기 위한 것으로 후두의 공기흐름에 대한 공기임피던스신호를 진폭변조하는 제2 절연트랜스포머(30); 상기 제1 및 제2 절연트랜스포머(20,30)로부터 입력되는 진폭변조신호를 원하는 신호로 복조하기 위한 디모듈레이터(40); 상기 디모듈레이터(40)로부터 입력되는 신호중에서 후두부위의 고유임피던스를 제거하기 위한 하이패스필터(50); 상기 하이패스필터(50)를 통하여 출력되는 신호를 증폭하기 위한 증폭기(60); 상기 증폭기(60)로부터 출력되는 신호 중에서 성대신호만을 추출하기 위하여 불필요한 고주파를 제거하는 로우패스필터(70); 전원잡음을 제거하고 EGG신호를 추출하기 위한 노치필터(80); 및 상기 노치필터(80)로부터 출력되는 EGG 신호를 미분하여 DEGG신호를 추출하는 미분기(90)로 구성됨을 특징으로 한다.
또한 본 발명의 EGG를 이용한 음성분석방법은, EGG 신호를 미분하고 최소값을 산출하여 성문닫힘시점(GCI)을 산출하는 단계; EGG 신호로부터 영교차를 계산하여 피치를 산출하는 단계; 마이크로폰을 통하여 입력되는 피시험자의 음성신호를 이용하여 LPC 처리하고 잔차신호를 계산하여 성문닫힘시점(GCI)을 산출하는 단계로 구성된다.

Description

전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한 음성분석방법{A electroglottograph detection device and speech analysis method using EGG and speech signal}
본 발명은 음성인식을 위한 전자적성문그래프(electroglottograph:EGG) 검출장치 및 이것을 이용한 음성분석방법에 관한 것으로서, 더욱 구체적으로는 고음질합성, 음성압축, 음성부호화 또는 음성인식율의 개선을 위한 중요한 파라미터(parameter)인 피치(pitch)를 실시간으로 검출하고, 이것을 이용하여 성문의 동작특성을 검출하고 피치정보를 추출할 수 있는 2 쌍의 스팟전극(spot electrode)을 이용하여 구성한 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한 음성분석방법이다.
음성신호는 통상적으로 필터링의 관점에서 연구되고 있는데, 필터의 여기신호로는 기본주파수를 갖는 성문막(vocal folds)의 작용으로, 그리고 필터의 특성은 성도(vocal tract)의 물리적인 형태로 모델링하고 있다. 여기신호인 음원의 기본주파수를 검출하는 방법은 지난 20여년 동안 꾸준히 연구되어 왔지만, 아직도 그 정확도는 실용화단계에 미치지 못하고 있는 형편이다.
음성신호에서 음원정보에 해당하는 기본주파수를 정확히 검출하면 음성합성 분야에서 재현성을 작은 양의 데이터로 나타낼 수 있으며, 음성인식분야에서는 화자(speaker)의 영향을 제거할 수 있기 때문에 인식의 정확도를 높일 수 있게 된다. 또한, 음성분석시에도 피치(pitch)에 동기시킬 수 있기 때문에 성문(聲門)의 영향을 제거한 파라메터를 얻을 수 있어서, 음성신호에서의 기본주파수를 추출하는 것은 매우 중요한 사항이다. 따라서 음성발생 모델링, 음성합성, 음성인식, 그리고 음질향상 등의 음성신호 처리과정의 근간이 되는 해석과정이 음성신호의 파라메터 추출 및 분석이며, 그 중에서도 피치추출의 정확성과 실시간적인 해석이 음성인식 및 음성합성 시스템의 중요한 성능을 결정짓는 요인이 되는 것이다.
음성신호는 준주기성을 갖는 유성음과, 랜덤한 성질을 갖는 무성음으로 분류가 되며, 유성음의 주기적인 간격이 피치(pitch)이다. 피치를 추출하기 위한 연구로서는 시간영역분석, 주파수영역분석, 그리고 이들을 조합한 조합영역법이 있다. 시간영역법에는 영교차법, 피크측정법, 자기상관(autocorrelation)법, 그리고 진폭크기차이함수(AMDF; Amplitude Magnitude Difference Function)법 등이 있다. 또한 주파수영역법에는 피치에 해당하는 임펄스발생을 원리로 하는 캡스트럼법과 콤필터법 등이 있다. 또한 조합영역법은 시간영역에서의 자기상관과 주파수영역에서의 기본주파수를 조합하여 검출하는 방법으로서 선형예측부호화(LPC; Linear Predictive Coding)역필터등이 있다.
그러나 상기와 같은 시간영역법, 주파수영역법, 그리고 혼합영역을 이용하여 음성합성을 하는 경우에, 피치신호의 준주기적인 특성과 대상이 되는 사람의 성별, 나이, 억양 및 정신적인 상태 등에 따라서 다양한 특징이 발현되고 있다. 따라서 피치검색과 부호화에 소요되는 시간이 인식 및 합성을 위한 전체 부호화시간의 50% 이상을 차지하고 있으며, 음성신호를 이용한 피치검출 방법들은 피치를 검출할 때 수반되는 여러 가지 문제점들을 만족할 만하게 해결하지 못하고 한계를 노출하고 있는 형편이다.
음성신호로부터 정확하고 신뢰성있는 피치검출이 수행되지 못하는 이유들은 다음과 같다. 첫째, 음성발생을 위한 여기신호가 완전한 주기성을 갖지 못하고 준주기성을 가진다. 특히 유성음의 시작의 첫부분과 끝부분에서는 주기성이 약해지고 주기내에서도 불규칙한 신호의 변화를 나타내고 있다. 둘째, 음성신호는 성도와 여기신호와의 상호작용에 의한 시변신호이다. 따라서 성도의 저역 포만트(formant)가 여기신호를 변화시킬 수 있으므로 실질적인 주기를 찾는 것이 어렵다. 셋째, 음성신호를 분석하기 위해 녹음하거나 디지틸화할 때 주변잡음에 의해 유성음의 섬세한 구조가 왜곡되는 경향이 있다. 넷째, 진폭의 크기가 작은 유성음 및 무성음의 구분이 어렵다. 다섯째, 유성음 구간에서 피치의 시작과 끝을 찾기가 어려운 점 등이 문제점으로 남아 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 고음질합성, 음성압축, 음성부호화 또는 음성인식율의 개선을 위한 중요한 파라메터(parameter)인 피치(pitch)를 실시간으로 검출하고, 이것을 이용하여 성문의 동작특성을 검출하고 피치정보를 추출할 수 있는 2 쌍의 스팟전극(spot electrode)들을 이용한 전자적성문그래프 검출장치를 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 전자적성문그래프 검출장치는, 소정의 크기와 소정의 주파수를 가지는 교류전류를 공급하기 위한 정전류원(10); 인체의 목(100)에 설치되는 것으로 각각 한 조를 구성하는 스팟전극(e1,e4)(e2,e3); 상기 스팟전극(e1,e4)에 의하여 검출되는 전류를 변조하여 전달하기 위한 것으로 후두의 공기흐름에 대한 공기임피던스신호를 진폭변조하는 제1 절연트랜스포머(20); 상기 스팟전극(e2,e3)에 의하여 검출되는 전류를 변조하여 전달하기 위한 것으로 후두의 공기흐름에 대한 공기임피던스신호를 진폭변조하는 제2 절연트랜스포머(30); 상기 제1 및 제2 절연트랜스포머(20,30)로부터 입력되는 진폭변조신호를 원하는 신호로 복조하기 위한 디모듈레이터(40); 상기 디모듈레이터(40)로부터 입력되는 신호중에서 후두부위의 고유임피던스를 제거하기 위한 하이패스필터(50); 상기 하이패스필터(50)를 통하여 출력되는 신호를 증폭하기 위한 증폭기(60); 상기 증폭기(60)로부터 출력되는 신호중에서 성대신호만을 추출하기 위하여 불필요한 고주파를 제거하는 로우패스필터(70); 전원잡음을 제거하고 EGG신호를 추출하기 위한 노치필터(80); 및 상기 노치필터(80)로부터 출력되는 EGG 신호를 미분하여 DEGG신호를 추출하는 미분기(90)로 구성됨을 특징으로 한다.
또한 본 발명에 따른 음성분석방법은, EGG 신호를 미분하고 최소값을 산출하여 성문닫힘시점(GCI)을 산출하는 단계; EGG 신호로부터 영교차를 계산하여 피치를 산출하는 단계; 피시험자의 음성신호를 이용하여 선형예측부호화(LPC; Linear Predictive Coding) 처리하고 잔차신호를 계산하여 성문닫힘시점(GCI)을 산출하는 단계로 구성된다
도 1은 본 발명에 의한 전자적성문그래프 검출장치의 개략적인 구성도,
도 2는 도 1의 전자적성문그래프 검출장치의 작동상태를 나타내는 흐름도,
도 3의 a 및 b는 검출장치에 의하여 검출되는 음성변조 및 복조신호를 표시한 그래프,
도 4는 EGG 신호와 음성신호를 이용한 음성분석방법을 나타내는 블럭선도이다.
<도면의 주요 부분에 대한 부호의 설명>
10: 정전류원 20: 제1절연트랜스포머 30: 제2절연트랜스포머
40: 디모듈레이터 50; 하이패스필터 60: 증폭기
70: 로우패스필터 80: 노치필터 90: 미분기
100: 목 110: 성문 e1,e2,e3,e4: 스팟전극
이하 첨부된 도면을 참고하여 본 발명의 전자적성문그래프 검출장치를 상세히 설명하면 다음과 같다.
본 발명의 검출장치는 전자적성문그래프(이하 EGG라함) 신호를 발생시키기 위한 것으로서, EGG 신호는 성대안에 위치한 두 겹의 막이 붙어서 공기의 흐름이 적어 질 때와 떨어져서 공기의 흐름이 많아질 때 공기임피던스의 변화를 전압의 파동형태로 나타내는 것이다. EGG신호가 나타내는 것은 성도의 임피던스가 크면 성문이 열려 있음, 즉 전압이 높다는 것을 의미하며, 성도의 임피던스가 작으면 성문이 닫혀 있음, 즉 전압이 낮다는 것을 의미한다. 따라서 EGG신호를 이용하면 피치를 검출하는데 안정적이고 효과적임을 알 수 있으며, 본 발명의 장치는 이러한 원리를 이용하여 구현된다.
상기와 같은 본 발명의 전자적성문그래프 검출장치는, 소정의 크기와 소정의 주파수를 가지는 교류전류를 공급하기 위한 정전류원(10)과, 인체의 목(100)에 설치되는 것으로 각각 한 조를 구성하는 스팟전극(e1,e4)(e2,e3)과, 상기 스팟전극(e1,e4)에 의하여 검출되는 전류를 변조하여 전달하기 위한 것으로 후두의 공기흐름에 대한 공기임피던스신호를 진폭변조하는 제1 절연트랜스포머(20)와, 상기 스팟전극(e2,e3)에 의하여 검출되는 전류를 변조하여 전달하기 위한 것으로 후두의 공기흐름에 대한 공기임피던스신호를 진폭변조하는 제2 절연트랜스포머(30)와, 상기 제1 및 제2 절연트랜스포머(20,30)로부터 입력되는 진폭변조신호를 원하는 신호로 복조하기 위한 디모듈레이터(40)와, 상기 디모듈레이터(40)로부터 입력되는 신호중에서 후두부위의 고유임피던스를 제거하기 위한 하이패스필터(50)와, 상기 하이패스필터(50)를 통하여 출력되는 신호를 증폭하기 위한 증폭기(60)와, 상기 증폭기(60)로부터 출력되는 신호중에서 성대신호만을 추출하기 위하여 불필요한 고주파를 제거하는 로우패스필터(70)와, 전원잡음을 제거하고 EGG신호를 추출하기 위한 노치필터(80)와, 상기 노치필터(80)로부터 출력되는 EGG 신호를 미분하여 DEGG신호를 추출하는 미분기(90)로 구성된다.
상기 정전류원(10)은 경부의 전류경로를 형성하기 위한 것으로서, 예를 들어서, 소정전류값은 1mA이며, 소정주파수값은 70kHz로 설정하였다. 또한 최종 후두신호의 출력은 0.5V가 되도록 설정되었다. 정전류원(10)에 교류를 사용하는 이유는 인체는 순수한 저항체가 아니며, DC를 사용하면 인체가 감전될 염려가 있기 때문이다. 또한 정전류원(10)의 소정주파수값을 70KHz로 설정한 것은 고주파는 차단주파수(cut-off frequency)에 따라 다르고, 최종 감지(detection) 신호가 1KHz이므로 샘플링주파수(sampling frequency) 때문에 최소 20KHz 이상의 신호를 변조시켜야 하는데 인체의 전기안전도를 고려하면 70∼100KHz가 가장 안전하기 때문에 이 주파수대역에서 선택하였다. 또한 평균감지 임계전류(average perception threshold current)는 남성의 경우 약 1.1mA, 여성의 경우는 0.7mA인 것으로 측정되고 있으며, 최소감지 임계전류는 0.5mA으로 역시 이 전류값을 고려하여 선택하였다.
또한 4극 전극(e1∼e4)를 사용하는 것은 성대를 평형변조기(balanced modulation)으로 생각할 수 있으므로 4 전극을 이용한 고주파변조방법이 가장 효율이 높고 측정이 정확하게 되는 이점이 있으며, 2 또는 3 전극을 이용하면 회로구성이 복잡해지는 문제가 있다. 스팟전극(e1,e4)(e2,e3)는 모두 저항관계이다.
제1 및 제2 절연트랜스포머(20,30)는 역전류가 발생하여 인체에 손상을 끼치는 것을 방지하기 위하여 사용되었으며, 디모듈레이터(40)(복조기)는 인가한 정전류원에 의해 후두의 공기흐름에 대한 공기임피던스신호가 진폭변조되었기 때문에, 원하는 신호를 얻기 위하여 사용된다. 또한 하이패스필터(50)는 0.5Hz 이상의 고역통과용으로서 후두부위의 자체적인 고유임피던스(bulk impedence)를 제거하기 위한 것이다. 이것은 성대의 공기저항치만을 추출하는 효과가 있다.
증폭기(60)는 디모듈레이터(40)를 통하여 복조된 신호를 증폭하기 위한 것으로서, 복조된 신호는 상당히 크기가 작은 신호이므로 EGG 신호의 측정을 위하여 약 1000배 정도 증폭시키는 역할을 한다.
증폭된 EGG 신호는 1KHz 로우패스필터(70)를 통과하면서 EGG 신호의 왜곡을 방지하도록 처리된다. 이것은 EGG 신호에 포함된 불필요한 고주파신호를 제거하기 위한 것이다. 즉 성대의 진동주파수가 800Hz를 초과하지 않기 때문에 로우패스필터(70)를 사용하여 불필요한 고주파를 제거한다.
로우패스필터(70)를 통과한 EGG 신호는 노치필터(notch filter)를 통과하면서 60Hz 전원잡음이 제거된다. 이렇게 하여 전원잡음이 제거된 최종적으로 본 발명에 의한 EGG(A) 신호가 출력된다. 또한 미분기(90)는 EGG 신호(A)를 미분하여 미분된 전자적성문그래프(differential electroglottograph)인 DEGG 신호(B)를 출력하는데 사용된다. 따라서 최종적으로 EGG(A) 및 DEGG(B) 신호의 한 쌍의 신호가 출력된다. DEGG 신호는 후에 상술된다.
도 3a 및 도 3b는 각각 본 발명의 진폭변조 및 복조된 후에 나타나는 신호의 파형도이다. 오실로스코프(oscilloscope)를 사용하여 측정된 도 3a의 진폭변조신호에는 잡음이 포함되어 있음이 명백하다. 또한 디모듈레이터(40)를 통과한 복조신호와 EGG 신호의 파형은 모두 동일하게 나타난다.
상기와 같이 추출된 EGG 신호는 음성신호의 각 피치구간마다 정확하게 동기화되고, 성도에 의한 포만트의 영향을 거의 받지 않으므로 그 주기성을 검출하여 피치를 구하는 것이 실시간적으로 가능하며, 본 발명에서는 EGG 신호의 기저선 변동이 최소가 되도록 설계하여 그 출력신호가 영교차하는 점을 순차적으로 검출하여 피치를 구할 수 있다. 이러한 피치검출은 다양하게 산업적으로 응용될 수 있는데, 음성분석 및 합성에 이용되거나, 정상의 피치와 다른 피치가 검출될 때 질병을 파악할 수 있으므로 음성을 이용한 후두질병검사에 이용되거나, 암호해독 등의 국방문제와 범죄수사 등에 사용될 수 있다.
상기와 같은 구성을 가진 본 발명의 전자적성문그래프 검출장치의 작용관계를 도 2의 플로우차트를 참고하여 설명하면 다음과 같다.
측정하려는 피시험자의 목(100)에 스팟전극(e1,e2,e3,e4)를 규정된 것과 같이 정전류원(10)을 작동시키면서 부착한 후에 피시험자에게 특정한 음성신호를 발성하도록 한다. 피시험자가 음성신호를 발성하면 이것은 제1 및 제2 절연트랜스포머(20,30)를 통하여 전달되면서 진폭변조된다. 이렇게 진폭변조된 신호는 예를 들어서 도 3a에 표시된 것과 같은 진폭변조된 신호이며 잡음이 포함된 것이다.
진폭변조된 신호는 디모듈레이터(40)를 통과하면서 원래의 음성신호에 따르는 신호로 복조된다. 복조된 신호는 하이패스필터(50)에 입력된다. 하이패스필터(50)는 성대의 공기저항치만을 측정하기 위한 것으로서, 0.5Hz 고역만을 통과시킨다. 따라서 후두부위의 자체적인 고유임피던스가 제거되고 순수한 성대의 공기저항치만이 출력되는 효과가 있다.
하이패스필터(50)를 통과한 복조신호는 증폭기(60)를 통과하면서 충분히 큰 신호로 증폭된다. 증폭기(60)는 약 1000배 정도로 미소크기의 복조신호를 증폭하여 EGG 신호를 측정할 수 있도록 증폭시킨다.
증폭기(60)에서 증폭된 복조신호는 로우패스필터(70)에 입력된다. 로우패스필터(70)는 1KHz 이하의 신호만을 통과시키기 위한 것으로서, 불필요한 고주파잡음을 제거하기 위한 것이다. 즉 성대의 진동주파수는 800Hz를 넘지 않으므로 성대의 진동에 의한 신호만을 추출하기 위하여 불필요한 고주파잡음을 제거한다.
잡음이 제거된 신호는 노치필터(80)에 입력된다. 노치필터(80)는 60Hz 전원잡음을 제거한다. 노치필터(80)를 통과하여서 최종적인 EGG 신호가 출력된다. 또한 EGG 신호를 미분기(90)에서 미분하여 DEGG 신호를 출력시킨다. 이렇게 출력된 EGG 신호와 DEGG 신호들은 음성분석의 기초자료가 된다.
도 4는 본 발명의 전자적성문그래프 검출장치로부터 검출되는 EGG 및 DEGG 신호를 이용한 음성분석방법의 일례를 도시한 블럭선도이다. 도시된 바와 같이, EGG 신호를 미분하여 최소값을 산출하고 GCI를 산출하는 단계와, EGG 신호로부터 영교차를 계산하여 피치를 산출하는 단계와, 마이크로폰을 통하여 입력되는 피시험자의 음성신호를 이용하여 선형예측부호화(LPC; Linear Predictive Coding)처리하고 잔차신호를 계산하여 GCI를 산출하는 단계로 구성된다.
상기에서 GCI는 성문닫힘시점(GCI: glottal closure instant)으로서, 성문닫힘시점이 음성신호의 피치와 일치하므로 GCI를 산출함으로써 정확한 음성신호의 피치를 추출할 수 있다. 정확한 음성신호의 피치는 음성합성, 음성분석등에 매우 중요한 요소임은 상술한 바와 같다.
본 발명에 의한 EGG 신호와 음성신호(이것은 통상적인 마이크로폰을 통하여 입력됨)를 2채널 디지털 처리(DT 2831, data translation)시킨 후에 첫째, EGG 신호에서 산출된 성문닫힘시간(GCI)동안 마이크로폰을 통하여 입력된 피시험자의 음성신호를 LPC 처리를 수행하고, 이 때 얻어진 잔차신호(residual error)로부터 포만트(formant)와 대역폭을 산출하기 위해 평활화 과정을 실행한다. 둘째, 마이크로폰을 통하여 입력된 피시험자의 음성신호 만을 이용한 LPC 처리와 잔차신호를 가지고 피치신호를 추정하여 EGG 신호 입력과의 비교를 통해 피치검출의 성능평가를 수행한다. 각각의 단계에서 산출된 EGG신호와 DEGG신호의 GCI와 음성신호의 비교는 출력결과 등을 컴퓨터에 연결하여 특정 프로그램을 이용하여 비교하고, 그 결과를 출력시킬 수 있다. 출력 결과의 비교는 음성분석, 음성합성, 음성인식, 및 암호해독 등의 국방문제와 범죄수사 등 다양한 방면에 적용될 수 있으며, 특히 EGG신호 및 음성신호를 이용하여 후두부의 이상을 검출하면 병의 조기발견과 치료에 탁월한 성능을 거둘 수 있다.
상기와 같은 본 발명에 의하면, 고음질합성, 음성압축, 음성부호화 또는 음성인식율의 개선을 위한 중요한 파라메터(parameter)인 피치(pitch)를 실시간으로 검출하고, 이것을 이용하여 성문의 동작특성을 검출하고 피치정보를 추출할 수 있는 효과가 있는 것이다. 또한 생성된 EGG 신호를 이용하여 실시간으로 음성분석을 수행하여 한국인에 있어서 연령별, 성별에 따른 다양한 진동신호 패턴의 측정 및 분석을 통해 한국인 음원의 모델과 성문신호 패턴에 대한 정량적인 해석을 할 수 있다.
본 발명은 기재된 구체예에 대해서만 상세히 설명되었지만 본 발명의 사상과 범위내에서 변형이나 변경할 수 있음은 본 발명이 속하는 분야의 당업자에게는 명백한 것이며, 그러한 변형이나 변경은 첨부한 특허청구범위에 속한다 할 것이다.

Claims (2)

  1. 소정의 크기와 소정의 주파수를 가지는 교류전류를 공급하기 위한 정전류원(10); 인체의 목(100)에 설치되는 것으로 각각 한 조를 구성하는 스팟전극(e1,e4)(e2,e3); 상기 스팟전극(e1,e4)에 의하여 검출되는 전류를 변조하여 전달하기 위한 것으로 후두의 공기흐름에 대한 공기임피던스신호를 진폭변조하는 제1 절연트랜스포머(20); 상기 스팟전극(e2,e3)에 의하여 검출되는 전류를 변조하여 전달하기 위한 것으로 후두의 공기흐름에 대한 공기임피던스신호를 진폭변조하는 제2 절연트랜스포머(30); 상기 제1 및 제2 절연트랜스포머(20,30)로부터 입력되는 진폭변조신호를 원하는 신호로 복조하기 위한 디모듈레이터(40); 상기 디모듈레이터(40)로부터 입력되는 신호중에서 후두부위의 고유임피던스를 제거하기 위한 하이패스필터(50); 상기 하이패스필터(50)를 통하여 출력되는 신호를 증폭하기 위한 증폭기(60); 상기 증폭기(60)로부터 출력되는 신호중에서 성대신호만을 추출하기 위하여 불필요한 고주파를 제거하는 로우패스필터(70); 전원잡음을 제거하고 전자적성문그래프(electroglottograph; EGG)신호를 추출하기 위한 노치필터(80); 및 상기 노치필터(80)로부터 출력되는 EGG 신호를 미분하여 미분된 전자적성문그래프(differential electroglottograph; DEGG)신호를 추출하는 미분기(90)로 구성됨을 특징으로 하는 전자적성문그래프 검출장치.
  2. EGG 신호를 미분하고 최소값을 산출하여 성문닫힘시점(GCI)을 산출하는 단계;
    EGG 신호로부터 영교차를 계산하여 피치를 산출하는 단계; 및
    마이크로폰을 통하여 입력되는 피시험자의 음성신호를 이용하여 선형예측부호화(LPC; Linear Predictive Coding)처리하고 잔차신호를 계산하여 성문닫힘시점(GCI)을 산출하는 단계로 구성되는 것을 특징으로 하는 EGG검출신호와 음성신호를 이용한 음성분석방법.
KR1019990017067A 1999-05-13 1999-05-13 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한음성분석방법 KR20000073638A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990017067A KR20000073638A (ko) 1999-05-13 1999-05-13 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한음성분석방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990017067A KR20000073638A (ko) 1999-05-13 1999-05-13 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한음성분석방법

Publications (1)

Publication Number Publication Date
KR20000073638A true KR20000073638A (ko) 2000-12-05

Family

ID=19585149

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990017067A KR20000073638A (ko) 1999-05-13 1999-05-13 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한음성분석방법

Country Status (1)

Country Link
KR (1) KR20000073638A (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007049879A1 (en) * 2005-10-28 2007-05-03 Electronics And Telecommunications Research Institute Apparatus for vocal-cord signal recognition and method thereof
KR100721558B1 (ko) * 2005-11-02 2007-05-23 한국전자통신연구원 신호 처리 방법과, 그를 이용한 성대신호 특징추출 장치 및그 방법
WO2007066933A1 (en) * 2005-12-08 2007-06-14 Electronics And Telecommunications Research Institute Voice recognition apparatus and method using vocal band signal
KR100738341B1 (ko) * 2005-12-08 2007-07-12 한국전자통신연구원 성대신호를 이용한 음성인식 장치 및 그 방법
KR100923384B1 (ko) * 2002-09-26 2009-10-23 주식회사 케이티 전자적성문그래프 신호를 이용한 피치 추출 장치 및 그 방법
US7613611B2 (en) 2004-11-04 2009-11-03 Electronics And Telecommunications Research Institute Method and apparatus for vocal-cord signal recognition
CN101281744B (zh) * 2007-04-04 2011-07-06 纽昂斯通讯公司 语音分析方法和装置以及语音合成方法和装置
KR101144948B1 (ko) * 2011-02-25 2012-05-11 (주)피지오랩 Egg를 이용한 음정교정장치
CN103584859A (zh) * 2012-08-13 2014-02-19 泰亿格电子(上海)有限公司 一种电声门图仪

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100923384B1 (ko) * 2002-09-26 2009-10-23 주식회사 케이티 전자적성문그래프 신호를 이용한 피치 추출 장치 및 그 방법
US7613611B2 (en) 2004-11-04 2009-11-03 Electronics And Telecommunications Research Institute Method and apparatus for vocal-cord signal recognition
WO2007049879A1 (en) * 2005-10-28 2007-05-03 Electronics And Telecommunications Research Institute Apparatus for vocal-cord signal recognition and method thereof
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법
KR100721558B1 (ko) * 2005-11-02 2007-05-23 한국전자통신연구원 신호 처리 방법과, 그를 이용한 성대신호 특징추출 장치 및그 방법
WO2007066933A1 (en) * 2005-12-08 2007-06-14 Electronics And Telecommunications Research Institute Voice recognition apparatus and method using vocal band signal
KR100738341B1 (ko) * 2005-12-08 2007-07-12 한국전자통신연구원 성대신호를 이용한 음성인식 장치 및 그 방법
CN101281744B (zh) * 2007-04-04 2011-07-06 纽昂斯通讯公司 语音分析方法和装置以及语音合成方法和装置
KR101144948B1 (ko) * 2011-02-25 2012-05-11 (주)피지오랩 Egg를 이용한 음정교정장치
CN103584859A (zh) * 2012-08-13 2014-02-19 泰亿格电子(上海)有限公司 一种电声门图仪
CN103584859B (zh) * 2012-08-13 2015-10-21 上海泰亿格康复医疗科技股份有限公司 一种电声门图仪

Similar Documents

Publication Publication Date Title
Deliyski Acoustic model and evaluation of pathological voice production.
Murty et al. Characterization of glottal activity from speech signals
Murty et al. Epoch extraction from speech signals
Eskenazi et al. Acoustic correlates of vocal quality
Henríquez et al. Characterization of healthy and pathological voice through measures based on nonlinear dynamics
Kadiri et al. Analysis of singing voice for epoch extraction using zero frequency filtering method
Lal et al. Epoch estimation from emotional speech signals using variational mode decomposition
KR20000073638A (ko) 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한음성분석방법
Jyothish Lal et al. Glottal activity detection from the speech signal using multifractal analysis
Adiga et al. Zero Frequency Filter Based Analysis of Voice Disorders.
CN109300486A (zh) 基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法
US20210201938A1 (en) Real-time pitch tracking by detection of glottal excitation epochs in speech signal using hilbert envelope
Yadav et al. Epoch detection from emotional speech signal using zero time windowing
Young et al. Evaluation of noise excitation as a method for detection of hypernasality
Vikram et al. Detection of nasalized voiced stops in cleft palate speech using epoch-synchronous features
Vieira et al. Comparative assessment of electroglottographic and acoustic measures of jitter in pathological voices
Patil et al. Classification of normal and pathological voices using TEO phase and Mel cepstral features
Kodukula Significance of excitation source information for speech analysis
Villa et al. A simple but efficient voice activity detection algorithm through Hilbert transform and dynamic threshold for speech pathologies
Howard Speech fundamental period estimation using pattern classification
Södersten et al. Comparison between automatic and manual inverse filtering procedures for healthy female voices
Jayan et al. Automated detection of transition segments for intensity and time-scale modification for speech intelligibility enhancement
Dendukuri et al. Extraction of Voiced Regions of Speech from Emotional Speech Signals Using Wavelet-Pitch Method
Gayathri et al. Review of Egg and Speech Processing Techniques for Glottal Activity Detection.
US20020099541A1 (en) Method and apparatus for voiced speech excitation function determination and non-acoustic assisted feature extraction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application