KR20140079092A - 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치 - Google Patents

음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치 Download PDF

Info

Publication number
KR20140079092A
KR20140079092A KR1020120148678A KR20120148678A KR20140079092A KR 20140079092 A KR20140079092 A KR 20140079092A KR 1020120148678 A KR1020120148678 A KR 1020120148678A KR 20120148678 A KR20120148678 A KR 20120148678A KR 20140079092 A KR20140079092 A KR 20140079092A
Authority
KR
South Korea
Prior art keywords
feature vector
phoneme
hmm
recognition
gender
Prior art date
Application number
KR1020120148678A
Other languages
English (en)
Inventor
한문성
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120148678A priority Critical patent/KR20140079092A/ko
Priority to US14/016,611 priority patent/US20140172428A1/en
Publication of KR20140079092A publication Critical patent/KR20140079092A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법이 개시된다. 본 발명에 따른 성별인식 방법은, 수신되는 음성 신호에서 음성 구간을 검출하고, 그 검출된 음성 구간 내에서 특징 벡터를 생성한다. 그리고, 특징 벡터를 음향 규칙에 따라 설정된 서치 네트워크를 이용하여 HMM (Hidden MarKov Model)모델링함에 의해 음소를 인식하고 제1,2 라이클리후드의 스코어를 얻는다. 상기 음소 인식을 음성 구간의 마지막 구간까지 수행하면서 얻은 상기 제1,2 라이클리후드의 최종 스코어가 서로 비교되어, 상기 음성 신호에 대한 성별이 최종적으로 결정된다.

Description

음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치 {Method and Apparatus for Context Independent Gender Recognition Utilizing Phoneme Transition Probability}
본 발명은 성별인식 분야에 관한 것으로, 보다 자세 하게는 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 그에 따른 장치에 관한 것이다.
일반적으로 영상 기반의 제스처 인식기술이나 음향/음성을 이용한 인터페이스가 사용자 인터페이스에 대한 요구를 충족시키기 위해 많이 연구되고 있다. 특히 최근에는 사람이 내는 소리에 근거한 사용자 인식이나 각종 컴퓨터를 제어하는 것에 대한 연구 및 요구가 늘어나고 있다.
음성 인터페이스는 다양한 사용자 인터페이스 방식 중에서 자연스럽게 사용자에게 보다 편의성을 줄 수 있는 수단들 중의 하나이다.
전형적인 음성인식기술은 잡음환경에서 대개 취약하며, 또한 원거리 음성인식에서 특징벡터가 잘 나타나지 않은 단점이 있다. 그러나 제약조건하에서 높은 인식률을 내는 성별인식은 음성인식 전처리로서의 중요한 역할을 담당한다. 결국, 음성 신호에 대한 성별인식은 음성인식의 성능향상을 위하여 중요하므로, 맞춤형 서비스나 사용자 감성분석 등의 분야에서 적용이 필수적으로 요망된다.
본 발명의 해결하고자 하는 기술적 과제는 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치를 제공함에 있다.
본 발명의 해결하고자 하는 다른 기술적 과제는 사용자의 성별을 보다 변별력있게 구별할 수 있는 문맥독립 성별인식 방법 및 장치를 제공함에 있다.
상기한 기술적 과제를 달성하기 위한 본 발명의 실시 예에 따라, 문맥독립 성별 인식 방법은,
수신되는 음성 신호에서 음성 구간을 검출하고;
검출된 음성 구간 내에서 특징 벡터를 생성하고;
상기 특징 벡터를 음향 규칙에 따라 설정된 서치 네트워크를 이용하여 HMM (Hidden MarKov Model)모델링함에 의해 음소를 인식하고 제1,2 라이클리후드의 스코어를 얻고;
상기 음소 인식을 음성 구간의 마지막 구간까지 수행하면서 얻은 상기 제1,2 라이클리후드의 최종 스코어를 비교하여 상기 음성 신호에 대한 성별을 최종적으로 결정하는 단계를 포함한다.
본 발명의 실시 예에 따라, 상기 특징 벡터는 프레임 단위로 생성될 수 있으며, 상기 음소 인식은 3개 이상의 GMM으로 구성되는 HMM 인식을 통하여 수행될 수 있다.
본 발명의 실시 예에 따라, 상기 특징 벡터의 생성은 음성 특징의 피치 및 켑스트럼을 추출한 후 특징 벡터를 융합하는 과정을 포함할 수 있으며,
상기 융합은 상기 특징 벡터를 합쳐 분류기에 하나의 특징 벡터로서 입력하는 것일 수 있다.
본 발명의 실시 예에 따라, 상기 특징 벡터의 생성은 음성 특징의 피치 및 켑스트럼을 추출한 후 상기 피치 및 켑스트럼의 PDF(Probability Density Function)를 개별적으로 생성하여 융합하는 과정을 포함할 수 있으며, 상기 융합은 상기 특징 벡터를 분류기에 입력하여 상기 피치 및 켑스트럼의 PDF를 개별적으로 구한 후 통합하는 것일 수 있다.
본 발명의 실시 예에 따라, 상기 설정된 서치 네트워크는 한국어의 경우에 초성, 중성, 종성의 망 그룹을 포함할 수 있으며, 상기 음향 규칙은 음운 현상을 반영하기 위해 음소의 순차적 특성을 고려한 확률분포에 따른 규칙일 수 있다.
상기한 기술적 과제를 달성하기 위한 본 발명의 다른 실시 예에 따라, 문맥독립 성별 인식 방법은,
음성 특징의 에너지, 피치, 포먼트, 및 켑스트럼 중 적어도 2이상을 조합하여 특징 벡터를 추출하고;
상기 특징 벡터를 음소의 전이확률을 반영하는 HMM으로써 모델링하여 음성 신호에 대한 남녀 성별을 판정하는 단계를 포함할 수 있다.
본 발명의 실시 예에 따라, 상기 HMM 모델링 시 음향 규칙에 따라 설정된 서치 네트워크가 이용될 수 있다.
본 발명의 실시 예에 따라, 상기 특징 벡터는 10 mmsec 를 갖는 프레임 단위로 생성될 수 있으며, 상기 HMM 모델링은 3개 이상의 GMM으로 이루어진 HMM 인식기를 통해 수행될 수 있다.
상기한 기술적 과제를 달성하기 위한 본 발명의 또 다른 실시 예에 따라, 문맥독립 성별 인식 장치는,
수신되는 음성 신호에서 음성 구간을 검출하고 상기 검출된 음성 구간 내에서 특징 벡터를 생성하는 특징 벡터 생성부;
상기 특징 벡터를 음향 규칙에 따라 설정된 서치 네트워크를 이용하여 HMM (Hidden MarKov Model)모델링함에 의해 음소를 인식하는 성별 인식부를 포함한다.
본 발명의 실시 예에 따라, 상기 성별 인식부는,
상기 음소 인식 시마다 제1,2 라이클리후드의 스코어를 생성하는 스코어 생성부; 및
상기 음소 인식을 음성 구간의 마지막 구간까지 수행하면서 얻은 상기 제1,2 라이클리후드의 최종 스코어를 비교하여 상기 음성 신호에 대한 성별을 최종적으로 결정하는 판정부를 포함할 수 있다.
본 발명의 구성에 따르면, 음향그룹의 전이확률을 활용하므로, 성별 인식을 위한 남녀 변별력이 전형적인 기술에 비해 높아진다.
도 1은 특징 추출과 융합을 갖는 성별 인식의 제어 순서도이다.
도 2는 음성 인식에 관련된 분류 기법을 실행하는 장치 구성 블록도이다.
도 3은 음성 인식에 이용되는 HMM의 형태를 예시적으로 보여주는 도면이다.
도 4는 본 발명의 실시 예에 적용되는 서치 네트워크의 구현 예시도이다. 및
도 5는 본 발명의 실시 예에 따른 성별 인식 프로시져를 보여주는 플로우 챠트이다.
위와 같은 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시 예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시 예에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시 예들은, 이해의 편의를 제공할 의도 이외에는 다른 의도 없이, 개시된 내용이 보다 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.
본 명세서에서, 어떤 소자 또는 라인들이 대상 소자 블록에 연결된다 라고 언급된 경우에 그것은 직접적인 연결뿐만 아니라 어떤 다른 소자를 통해 대상 소자 블록에 간접적으로 연결된 의미까지도 포함한다.
또한, 각 도면에서 제시된 동일 또는 유사한 참조 부호는 동일 또는 유사한 구성 요소를 가급적 나타내고 있다. 일부 도면들에 있어서, 소자 및 회로블록이나 라인들의 연결관계는 기술적 내용의 효과적인 설명을 위해 나타나 있을 뿐, 타의 소자나 장치블록, 또는 회로블록들이 더 구비될 수 있다.
여기에 설명되고 예시되는 각 실시 예는 그것의 상보적인 실시 예도 포함될 수 있으며, 통상적인 음성 신호에 대한 성별 인식의 세부 동작과 성별 인식 회로에 관한 세부는 본 발명의 요지를 모호하지 않도록 하기 위해 상세히 설명되지 않음을 유의(note)하라.
먼저, 본 발명의 실시 예에 대한 보다 철저한 이해를 제공할 의도 외에는 다른 의도 없이, 본 발명의 일부로서 적용가능한 컨벤셔널 기술이 도 1 내지 도 3을 참조로 설명될 것이다.
사람에 의해 발성된 음성(소리)를 이용하여 발성자의 성별이 남자인지 여자인지를 분별하는 것은 사용자 인터페이스 기술 분야에 유용할 수 있다.
왜냐하면, 스포츠 시뮬레이터, 홈쇼핑 및 사용자 감성의 판단이 필요한 서비스가 요구되는 경우, 사용자 모드에 특화된 서비스 컨텐츠를 제공할 수 있기 때문이다.
음성에서 성별을 나타내는 매우 큰 요인들은 성대의 떨림에 의해서 주어지는 피치(pitch) 주파수와 성도(vocal tract)의 길이에 따라 달라지는 포만트(formant) 구조 특성이라고 할 수 있다.
마이크 거리와 주변환경잡음에 따라 차이는 있으나, 성인 남성의 경우 피치 주파수가 100~150Hz 이며, 성인여성의 경우에 피치 주파수가 250~300Hz로 주어지는 뚜렷한 특징이 있다. 따라서, 음성에 의한 성별인식은 실 응용 환경에서 높은 인식율을 가지는 기술적 가능성을 나타내고 있다.
일반적인 음성인식기술은 일반적으로 잡음환경에서 취약하며, 또한 원거리 음성인식에서 특징벡터가 잘 나타나지 않은 단점이 있다. 그러나, 제약조건하에서는 높은 인식률을 내는 음성의 성별 인식은 음성인식 전처리로서 음성인식의 성능향상을 위하여 중요한 역할을 하고 있다. 따라서, 근래에는 맞춤형 서비스, 사용자 감성분석 등의 분야에서 성별 인식에 대한 기술적 요구가 높아지고 있는 실정이다.
성별 인식은 일반적으로 크게 두 단계로 구성된다고 볼 수 있다.
그 첫 번째 단계는 입력신호로부터 특징추출을 하는 단계인데 성별인식에서는 피치(Pitch)와 켑스트럼(Cepstrum)이 주로 활용된다. 피치는 유성음구간에서 성대(Vocal cords)의 떨림에 의해 발생되는 신호의 기본 주파수이다. 이는 성인의 경우 남녀가 뚜렷이 구분되는 특징이 있지만, 변성기 이전의 아동에서는 별 차이를 보이지 않는 단점이 있다.
한편, 켑스트럼은 성도(Vocal tract)의 주파수 특성이 반영된 특징(feature)으로서 신호의 크기에는 상관없이 동일한 주파수 쉐이프(shape)에 대해서는 동일한 특징(feature)값이 추출되는 장점이 있다.
그 외에도, 포만트 스펙트럼(formant spectrum)이나 에너지(energy)가 활용되는 경우가 있지만, 피치와 켑스트럼을 적절히 융합하여 사용하더라도 비교적 높은 성능이 통상적으로 보장될 수 있다.
상기 성별인식의 두 단계 중 나머지 한 단계는 분류(classification)단계이다.
상기 분류 단계의 종류로서는, 피치(Pitch)와 임계치를 설정하여 남녀구분을 하는 방법과, 포만트 스펙트럼(formant spectrum)이나 RASTA-PLP 등을 특징(feature)으로 하여 GMM으로 분류하는 방법들이 일반적으로 알려져 있다.
도 1은 특징 추출과 융합을 갖는 성별 인식의 제어 순서도이다.
도면을 참조하면, 특징 추출(Feature extraction)과 융합하는 과정이 차례로 나타나 있다. S10 단계에서 음성 신호가 수신되고, S20 단계에서 음성 특징 검출이 시작된다. S30 단계에서 피치 추출과 켑스트럼 추출이 음성 특징의 검출을 위해 실행된다.
피치(Pitch)의 추출의 한 방법으로서는 오토코릴레이션(Autocorrelation)기법이 있는데 이는 다음의 식,
Figure pat00001
으로 나타날 수 있다. 상기 식에 따르면, Pitch의 주기의 배수에서 피크(peak) 값을 가진다.
한편, 피치 추출의 또 다른 방법으로서, Average Magnitude Difference Function(AMDF) 기법은 다음의 식,
Figure pat00002
으로 나타날 수 있다.
한편, 켑스트럼(Cepstrum)은 성도(vocal tract)의 주파수 특성이 반영된 특징으로서, 스케일 불변(scale-invariant)하게 신호의 쉐이프(shape)를 나타내는 특성을 나타내는 장점이 있다. 켑스트럼의 종류로서는 Mel-frequency cepstrum이나 LPC cepstrum 이 있다. 켑스트럼은 다음의 수학식,
Figure pat00003
으로 표현될 수 있다.
위와 같이 음성 특징 추출의 방법이 설명되었으며, 이제는 특징 융합의 방법이 설명될 것이다.
도 1의 S40 단계에서 특징 벡터의 융합이 실행된다.
음성 특징의 융합 방법 중 하나는 특징벡터 융합 방법이다. 이는 단순히 특징벡터를 합쳐서 분류기(classifier)에 하나의 특징벡터로서 입력하는 방법이다. 이 방법은 단순하면서 효과적인 방법이다.
한편, 음성 특징으로 융합 방법 중 다른 하나는 PDF에 의한 융합이 있다.
이는 개별 특징벡터를 분류기에 입력하여 개별 PDF를 구한후 통합하는 방법이다. PDF에 의한 융합은 개별특징으로서 분류기를 학습하여 인식하는 것보다 성능향상을 가져온다. 상기 PDF에 의한 융합은 잡음 환경 등에서와 같이 인식률이 낮은 조건의 경우에는 상당히 높은 효과를 얻을 수 있다.
도 2는 음성 인식에 관련된 분류 기법을 실행하는 장치 구성 블록도이다.
도 2를 참조하면, 장치 구성은 주파수 분석기(20), 켑스트럼 추출부(22), 라이클리후드 계산부(24), 및 분류/ 판정부(26)를 포함한다. 상기 라이클리후드 계산부(24)는 라이클리후드의 계산 시에 남자 GMM/HMM(30) 및 여자 GMM/HMM(32)를 사용한다.
도 2의 장치는 음성인식이나 화자인식 등에서 적용될 수 있는 것으로, GMM 또는 HMM 기반의 분류기법을 취한다.
입력신호는 주파수 분석부(20)와 켑스트럼 추출부(22)를 거치면서, 시간축을 기준으로 일정간격으로 음성 특징이 추출된다. 결국, 추출된 특징 벡터 시퀀스(sequence)는 라이클리후드 계산부(24)에 인가되어, GMM 또는 HMM에 의한 라이클리후드(likelihood)가 계산된다. 분류/판정부(26)는 라이클리후드의 스코어(score)가 높은 쪽을 성별 인식 결과로서 판정한다.
도 3은 음성 인식에 이용되는 HMM의 형태를 예시적으로 보여주는 도면이다.
도면을 참조하면, HMM의 일반적인 예시 형태가 보여진다.
음성 구간(T1)에서는 제1 상태(35)가 대응되어 있고, 음성 구간(T2)에서는 제2 상태(36)가 대응되어 있고, 음성 구간(T3)에서는 제3 상태(37)가 대응되어 있다.
여기서, 각 상태(state)는 GMM이며 도 3에서는 3개의 GMM이 하나의 HMM을 구성하고 있다. 결국, 도 3의 예시는 레프트 투 라이트 천이(left-to-right transition) 모델을 나타내고 있다. 각 음소에 대하여 이러한 HMM이 만들어지며, 음소의 길이에 따라 상태들의 개수는 조정될 수 있다. 발성된 음성은 상기 HMM이 네트워크로 연결됨에 의해, 결국, 단어나 문장이 인식될 수 있다.
도 4는 본 발명의 실시 예에 적용되는 서치 네트워크의 구현 예시도이다.
여기서, 도 4는 한국어의 경우에 음소 HMM이 음운 규칙에 따라 네트워크로 연결되는 예시를 나타내고 있다.
음소 인식을 위한 서치 네트워크는 음향 규칙에 따라 설정된다. 도 4를 참조하면, 스타트 사일런스(S40)와 엔드 사일런스(S50)간에 초성 음소그룹(S42), 중성 음소 그룹(S44), 종성 음소 그룹(S46), 쇼트 포즈(S48)가 배치된다.
예를 들어, 일단 초성 음소그룹(S42)중 하나가 음소로서 인식된 경우라면, 그 다음 인식 단계에서는 초성 음소그룹(S42) 및 종성 음소 그룹(S46)에 대한 서치는 배제하고, 상기 중성 음소 그룹(S44)에 속해 있는 음소가 서치된다.
상기 도 4와 같은 서처 네트워크의 이용은 전형적인 GMM기반의 성별인식보다 우수하다. 왜냐하면 GMM의 경우 한 개의 상태로서 확률분포 모델을 추정하기 때문이다. 따라서 GMM기반의 성별인식의 경우에는 확률분포가 매우 광범위(broad)해져서 남/녀 확률분포에서 추출되는 라이클리후트 스코어(likelihood score)의 변별력이 떨어진다. 그러나, 도 4의 네트워크에 따른 HMM에 의해 모델 추정을 수행하는 도 4의 이용방법은 음성 신호의 음소인식 및 각 음소에 해당하는 특징벡터에 남/녀 확률분포를 적용하므로 라이클리후드 스코어(likelihood score)의 변별력이 높아진다.
도 5는 본 발명의 실시 예에 따른 성별 인식 프로시져를 보여주는 플로우 챠트이다.
도 5를 참조하면, S52 단계에서 음성 입력신호가 수신되면, S54 단계에서 음성 신호에서 음성 구간이 검출된다. 여기서 음성의 스타트 포인트와 엔드 포인트가 검출된다. S56 단계에서 음성 구간 내에서 특징 벡터를 생성하기 위해 프레임별로 특징이 추출된다. 상기 특징 벡터는 1 frame(예 10mm sec) 단위로 생성될 수 있다.
S58 단계에서 상기 특징 벡터를 음향 규칙에 따라 설정된 서치 네트워크를 이용하여 HMM (Hidden MarKov Model)모델링함에 의해 음소가 인식된다.
S58 단계는 도 3에서와 같은 HMM 음소인식을 통해 각 특징벡터들에 대한 음소인식을 수행하는 단계이다. 음소인식의 수행은 도 4에서와 같은 서치 네트워크의 음향규칙을 따라 이루어진다. 예를 들어, 이전 인식된 결과가 "ㄱ" 이라는 음소를 인식한 경우라면, 현재 인식할 수 있는 음소는 중성 그룹의 모음에서만 서치(search)한다.
서치의 결과로서, S60 및 S62단계에서 제1,2 라이클리후드의 스코어가 얻어진다. 라이클리후드 스코어(likelihood score)가 가장 높은 모음이 인식결과로서 결정된다.
S64 단계에서 엔드 프레임인지의 여부가 체크된다. 엔드 프레임이 아니면,다시 상기 S58 단계로 리턴된다.
상기 라이클리후드의 계산 과정은, 남자(likelihood scoring 1) 와 여자(likelihood scoring 2) 각각의 계산된 음소 HMM 스코어가 현재까지의 산출된 남,녀 스코어와 곱해지는 것을 의미한다.
이러한 곱해지는 과정은 음성구간의 마지막 프레임이 나타날 때까지 반복된다. 최종적으로 남자 score 1 과 여자 score 2를 비교하여 높은 score가 나오는 쪽을 인식결과로써 판정하게 된다. 즉, 음소 인식을 음성 구간의 마지막 구간까지 수행하면, S66단계에서 상기 제1,2 라이클리후드의 최종 스코어가 비교되어, 상기 음성 신호에 대한 성별이 최종적으로 결정된다.
결국, 본 발명의 실시 예에서는 도 3 및 도 4에서와 같이 음소 모델링을 행하여 음성에서 음소의 순차적 특성을 찾고, 이를 근거로 HMM(Hidden Markov Model)으로서 분류함에 의해, 성별에 대한 분별력이 개선되는 방안을 취하고 있다.
즉, 음소별 확률분포와 음소 순차에 대한 룰을 전이확률로서 모델링하는 본 발명에 따른 기법은, 1개의 상태로서 모든 음소정보를 확률 추정하는 방법에 비해 분별력이 향상된다.
결국, 본 발명의 실시 예에서는 비교적인 장점이 다음과 같이 얻어진다.
전형적인 기술의 경우에는 피치, 에너지, 켑스트럼 등의 성별구분이 비교적 뚜렸한 특징벡터들을 혼합하여 임계치를 가지고 최적 판정 룰(decision rule)을 가지고 판별하는 방법이 있는데, 다양한 음운현상을 고려하지 못한다는 단점이 있다.
그러나 이에 비해 본 발명의 실시 예에서는 음소의 순차적 확률분포를 고려하여 성별을 구분하기 때문에 신뢰성이 높은 것이다.
또한, 전형적으로 분류기로서는 GMM이 사용되었고, 이 경우에 한개의 상태(state)로써 확률분포 모델이 추정되어 광범위한 확률분포에 기인하여 변별력이 떨어지는 단점이 있다. 한편, 본 발명의 실시 예에서는 각 음소에 해당하는 특징 벡터를 이용하여 남/녀의 확률분포가 계산되기 때문에 라이클리후드(likelihood)의 변별력이 높다.
더구나, 본 발명의 실시 예에서는 특징 벡터의 융합에 있어서도, 각 특징벡터의 계산된 PDF(Probability Density Function)를 활용하여 남/녀 성별이 결정되므로 통계적인 특성이 최소한 개별 특징벡터에 의한 결정의 경우에 비해 우수하게 된다.
본 발명의 실시 예는 음소의 순차적 특성을 고려한 네트워크(network)를 구성하여 발성된 음성의 확률 값을 계산하기 때문에, 혼합된 음소로서 계산하는 것 에 비해 신뢰성이 높다.
GMM(Gaussian Mixture Model)은 HMM(Hidden Markov Model)의 일종으로서(1 state HMM) 간단한 성별인식 실험에서 HMM기반 성별인식 성능이 검증된 바 있다.
이상에서와 같이 도면과 명세서를 통해 최적 실시 예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 예를 들어, 사안이 다른 경우에 본 발명의 기술적 사상을 벗어남이 없이, 성별 인식의 절차나 인식 스키마를 다양하게 변경 및 변형할 수 있을 것이다.
22: 켑스트럼 추출부
24: 라이클리후드 계산부
26: 분류/판정부

Claims (15)

  1. 수신되는 음성 신호에서 음성 구간을 검출하고;
    검출된 음성 구간 내에서 특징 벡터를 생성하고;
    상기 특징 벡터를 음향 규칙에 따라 설정된 서치 네트워크를 이용하여 HMM (Hidden MarKov Model)모델링함에 의해 음소를 인식하고 제1,2 라이클리후드의 스코어를 얻고;
    상기 음소 인식을 음성 구간의 마지막 구간까지 수행하면서 얻은 상기 제1,2 라이클리후드의 최종 스코어를 비교하여 상기 음성 신호에 대한 성별을 최종적으로 결정하는 문맥독립 성별 인식 방법.
  2. 제1항에 있어서,
    상기 특징 벡터는 프레임 단위로 생성되는 문맥독립 성별 인식 방법.
  3. 제1항에 있어서,
    상기 음소 인식은 3개 이상의 GMM으로 구성되는 HMM 인식을 통하여 수행되는 문맥독립 성별 인식 방법.
  4. 제1항에 있어서,
    상기 특징 벡터의 생성은 음성 특징의 피치 및 켑스트럼을 추출한 후 특징 벡터를 융합하는 과정을 포함하는 문맥독립 성별 인식 방법.
  5. 제4항에 있어서,
    상기 융합은 상기 특징 벡터를 합쳐 분류기에 하나의 특징 벡터로서 입력하는 것인 문맥독립 성별 인식 방법.
  6. 제1항에 있어서,
    상기 특징 벡터의 생성은 음성 특징의 피치 및 켑스트럼을 추출한 후 상기 피치 및 켑스트럼의 PDF(Probability Density Function)를 개별적으로 생성하여 융합하는 과정을 포함하는 문맥독립 성별 인식 방법.
  7. 제6항에 있어서,
    상기 융합은 상기 특징 벡터를 분류기에 입력하여 상기 피치 및 켑스트럼의 PDF를 개별적으로 구한 후 통합하는 것인 문맥독립 성별 인식 방법.
  8. 제1항에 있어서, 상기 설정된 서치 네트워크는 한국어의 경우에 초성, 중성, 종성의 망 그룹을 포함하는 문맥독립 성별 인식 방법.
  9. 제1항에 있어서, 상기 음향 규칙은 음운 현상을 반영하기 위해 음소의 순차적 특성을 고려한 확률분포에 따른 규칙인 문맥독립 성별 인식 방법.
  10. 음성 특징의 에너지, 피치, 포먼트, 및 켑스트럼 중 적어도 2이상을 조합하여 특징 벡터를 추출하고;
    상기 특징 벡터를 음소의 전이확률을 반영하는 HMM으로써 모델링하여 음성 신호에 대한 남녀 성별을 판정하는 문맥독립 성별 인식 방법.
  11. 제10항에 있어서,
    상기 HMM 모델링 시 음향 규칙에 따라 설정된 서치 네트워크가 이용되는 문맥독립 성별 인식 방법.
  12. 제10항에 있어서,
    상기 특징 벡터는 10 mm sec를 갖는 프레임 단위로 생성되는 문맥독립 성별 인식 방법.
  13. 제11항에 있어서,
    상기 HMM 모델링은 3개 이상의 GMM으로 이루어진 HMM 인식기를 통해 수행되는 문맥독립 성별 인식 방법.
  14. 수신되는 음성 신호에서 음성 구간을 검출하고 상기 검출된 음성 구간 내에서 특징 벡터를 생성하는 특징 벡터 생성부; 및
    상기 특징 벡터를 음향 규칙에 따라 설정된 서치 네트워크를 이용하여 HMM (Hidden MarKov Model)모델링함에 의해 음소를 인식하는 성별 인식부를 포함하는 문맥독립 성별 인식 장치.
  15. 제14항에 있어서,
    상기 성별 인식부는,
    상기 음소 인식 시마다 제1,2 라이클리후드의 스코어를 생성하는 스코어 생성부; 및
    상기 음소 인식을 음성 구간의 마지막 구간까지 수행하면서 얻은 상기 제1,2 라이클리후드의 최종 스코어를 비교하여 상기 음성 신호에 대한 성별을 최종적으로 결정하는 판정부를 포함하는 문맥독립 성별 인식 장치.
KR1020120148678A 2012-12-18 2012-12-18 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치 KR20140079092A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020120148678A KR20140079092A (ko) 2012-12-18 2012-12-18 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치
US14/016,611 US20140172428A1 (en) 2012-12-18 2013-09-03 Method and apparatus for context independent gender recognition utilizing phoneme transition probability

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120148678A KR20140079092A (ko) 2012-12-18 2012-12-18 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20140079092A true KR20140079092A (ko) 2014-06-26

Family

ID=50931947

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120148678A KR20140079092A (ko) 2012-12-18 2012-12-18 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치

Country Status (2)

Country Link
US (1) US20140172428A1 (ko)
KR (1) KR20140079092A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101658452B1 (ko) * 2016-01-12 2016-09-21 세종대학교산학협력단 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법
KR20170014420A (ko) 2015-07-30 2017-02-08 한국전자통신연구원 복지 수급자 생애 기반맞춤형 복지 시뮬레이션 방법
CN111785284A (zh) * 2020-08-19 2020-10-16 科大讯飞股份有限公司 基于音素辅助的文本无关声纹识别方法、装置以及设备
US12002475B2 (en) 2018-10-12 2024-06-04 Samsung Electronics Co., Ltd. Electronic device performing speaker recognition and control method thereof

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
KR102069699B1 (ko) 2016-01-18 2020-01-23 한국전자통신연구원 음성인식 장치 및 방법
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
CN108694954A (zh) * 2018-06-13 2018-10-23 广州势必可赢网络科技有限公司 一种性别年龄识别方法、装置、设备及可读存储介质
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US10891940B1 (en) 2018-12-13 2021-01-12 Noble Systems Corporation Optimization of speech analytics system recognition thresholds for target word identification in a contact center
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
US11996087B2 (en) 2021-04-30 2024-05-28 Comcast Cable Communications, Llc Method and apparatus for intelligent voice recognition

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1185621C (zh) * 2000-07-13 2005-01-19 旭化成株式会社 语音识别装置与语音识别方法
US20030110038A1 (en) * 2001-10-16 2003-06-12 Rajeev Sharma Multi-modal gender classification using support vector machines (SVMs)
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
US20070061314A1 (en) * 2005-02-01 2007-03-15 Outland Research, Llc Verbal web search with improved organization of documents based upon vocal gender analysis
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
CN103038765B (zh) * 2010-07-01 2017-09-15 诺基亚技术有限公司 用于适配情境模型的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170014420A (ko) 2015-07-30 2017-02-08 한국전자통신연구원 복지 수급자 생애 기반맞춤형 복지 시뮬레이션 방법
KR101658452B1 (ko) * 2016-01-12 2016-09-21 세종대학교산학협력단 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법
US12002475B2 (en) 2018-10-12 2024-06-04 Samsung Electronics Co., Ltd. Electronic device performing speaker recognition and control method thereof
CN111785284A (zh) * 2020-08-19 2020-10-16 科大讯飞股份有限公司 基于音素辅助的文本无关声纹识别方法、装置以及设备
CN111785284B (zh) * 2020-08-19 2024-04-30 科大讯飞股份有限公司 基于音素辅助的文本无关声纹识别方法、装置以及设备

Also Published As

Publication number Publication date
US20140172428A1 (en) 2014-06-19

Similar Documents

Publication Publication Date Title
KR20140079092A (ko) 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치
Basu et al. A review on emotion recognition using speech
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
KR20200012963A (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
EP3287921A1 (en) Spoken pass-phrase suitability determination
Martinez et al. Prosodic features and formant modeling for an ivector-based language recognition system
Ververidis et al. Fast sequential floating forward selection applied to emotional speech features estimated on DES and SUSAS data collections
Li et al. Combining five acoustic level modeling methods for automatic speaker age and gender recognition.
US20190279644A1 (en) Speech processing device, speech processing method, and recording medium
CN106782508A (zh) 语音音频的切分方法和语音音频的切分装置
Archana et al. Gender identification and performance analysis of speech signals
Bhukya Effect of gender on improving speech recognition system
Quan et al. Reduce the dimensions of emotional features by principal component analysis for speech emotion recognition
Dey et al. Exploiting sequence information for text-dependent speaker verification
CN110838294B (zh) 一种语音验证方法、装置、计算机设备及存储介质
CN104299611A (zh) 基于时频脊线-Hough变换的汉语声调识别方法
Baker et al. Gaussian mixture modelling of broad phonetic and syllabic events for text-independent speaker verification
Kadiri et al. Discriminating neutral and emotional speech using neural networks
Bansal et al. Emotional Hindi speech: Feature extraction and classification
CN104240699A (zh) 一种简单有效的短语语音识别方法
Khan et al. Pashto language dialect recognition using mel frequency cepstral coefficient and support vector machines
JP7159655B2 (ja) 感情推定システムおよびプログラム
KR20130014893A (ko) 음성 인식 장치 및 방법
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
KR100842754B1 (ko) 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid