KR20140079092A - 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치 - Google Patents
음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치 Download PDFInfo
- Publication number
- KR20140079092A KR20140079092A KR1020120148678A KR20120148678A KR20140079092A KR 20140079092 A KR20140079092 A KR 20140079092A KR 1020120148678 A KR1020120148678 A KR 1020120148678A KR 20120148678 A KR20120148678 A KR 20120148678A KR 20140079092 A KR20140079092 A KR 20140079092A
- Authority
- KR
- South Korea
- Prior art keywords
- feature vector
- phoneme
- hmm
- recognition
- gender
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000007704 transition Effects 0.000 title claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 48
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 description 8
- 230000004927 fusion Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법이 개시된다. 본 발명에 따른 성별인식 방법은, 수신되는 음성 신호에서 음성 구간을 검출하고, 그 검출된 음성 구간 내에서 특징 벡터를 생성한다. 그리고, 특징 벡터를 음향 규칙에 따라 설정된 서치 네트워크를 이용하여 HMM (Hidden MarKov Model)모델링함에 의해 음소를 인식하고 제1,2 라이클리후드의 스코어를 얻는다. 상기 음소 인식을 음성 구간의 마지막 구간까지 수행하면서 얻은 상기 제1,2 라이클리후드의 최종 스코어가 서로 비교되어, 상기 음성 신호에 대한 성별이 최종적으로 결정된다.
Description
본 발명은 성별인식 분야에 관한 것으로, 보다 자세 하게는 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 그에 따른 장치에 관한 것이다.
일반적으로 영상 기반의 제스처 인식기술이나 음향/음성을 이용한 인터페이스가 사용자 인터페이스에 대한 요구를 충족시키기 위해 많이 연구되고 있다. 특히 최근에는 사람이 내는 소리에 근거한 사용자 인식이나 각종 컴퓨터를 제어하는 것에 대한 연구 및 요구가 늘어나고 있다.
음성 인터페이스는 다양한 사용자 인터페이스 방식 중에서 자연스럽게 사용자에게 보다 편의성을 줄 수 있는 수단들 중의 하나이다.
전형적인 음성인식기술은 잡음환경에서 대개 취약하며, 또한 원거리 음성인식에서 특징벡터가 잘 나타나지 않은 단점이 있다. 그러나 제약조건하에서 높은 인식률을 내는 성별인식은 음성인식 전처리로서의 중요한 역할을 담당한다. 결국, 음성 신호에 대한 성별인식은 음성인식의 성능향상을 위하여 중요하므로, 맞춤형 서비스나 사용자 감성분석 등의 분야에서 적용이 필수적으로 요망된다.
본 발명의 해결하고자 하는 기술적 과제는 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치를 제공함에 있다.
본 발명의 해결하고자 하는 다른 기술적 과제는 사용자의 성별을 보다 변별력있게 구별할 수 있는 문맥독립 성별인식 방법 및 장치를 제공함에 있다.
상기한 기술적 과제를 달성하기 위한 본 발명의 실시 예에 따라, 문맥독립 성별 인식 방법은,
수신되는 음성 신호에서 음성 구간을 검출하고;
검출된 음성 구간 내에서 특징 벡터를 생성하고;
상기 특징 벡터를 음향 규칙에 따라 설정된 서치 네트워크를 이용하여 HMM (Hidden MarKov Model)모델링함에 의해 음소를 인식하고 제1,2 라이클리후드의 스코어를 얻고;
상기 음소 인식을 음성 구간의 마지막 구간까지 수행하면서 얻은 상기 제1,2 라이클리후드의 최종 스코어를 비교하여 상기 음성 신호에 대한 성별을 최종적으로 결정하는 단계를 포함한다.
본 발명의 실시 예에 따라, 상기 특징 벡터는 프레임 단위로 생성될 수 있으며, 상기 음소 인식은 3개 이상의 GMM으로 구성되는 HMM 인식을 통하여 수행될 수 있다.
본 발명의 실시 예에 따라, 상기 특징 벡터의 생성은 음성 특징의 피치 및 켑스트럼을 추출한 후 특징 벡터를 융합하는 과정을 포함할 수 있으며,
상기 융합은 상기 특징 벡터를 합쳐 분류기에 하나의 특징 벡터로서 입력하는 것일 수 있다.
본 발명의 실시 예에 따라, 상기 특징 벡터의 생성은 음성 특징의 피치 및 켑스트럼을 추출한 후 상기 피치 및 켑스트럼의 PDF(Probability Density Function)를 개별적으로 생성하여 융합하는 과정을 포함할 수 있으며, 상기 융합은 상기 특징 벡터를 분류기에 입력하여 상기 피치 및 켑스트럼의 PDF를 개별적으로 구한 후 통합하는 것일 수 있다.
본 발명의 실시 예에 따라, 상기 설정된 서치 네트워크는 한국어의 경우에 초성, 중성, 종성의 망 그룹을 포함할 수 있으며, 상기 음향 규칙은 음운 현상을 반영하기 위해 음소의 순차적 특성을 고려한 확률분포에 따른 규칙일 수 있다.
상기한 기술적 과제를 달성하기 위한 본 발명의 다른 실시 예에 따라, 문맥독립 성별 인식 방법은,
음성 특징의 에너지, 피치, 포먼트, 및 켑스트럼 중 적어도 2이상을 조합하여 특징 벡터를 추출하고;
상기 특징 벡터를 음소의 전이확률을 반영하는 HMM으로써 모델링하여 음성 신호에 대한 남녀 성별을 판정하는 단계를 포함할 수 있다.
본 발명의 실시 예에 따라, 상기 HMM 모델링 시 음향 규칙에 따라 설정된 서치 네트워크가 이용될 수 있다.
본 발명의 실시 예에 따라, 상기 특징 벡터는 10 mmsec 를 갖는 프레임 단위로 생성될 수 있으며, 상기 HMM 모델링은 3개 이상의 GMM으로 이루어진 HMM 인식기를 통해 수행될 수 있다.
상기한 기술적 과제를 달성하기 위한 본 발명의 또 다른 실시 예에 따라, 문맥독립 성별 인식 장치는,
수신되는 음성 신호에서 음성 구간을 검출하고 상기 검출된 음성 구간 내에서 특징 벡터를 생성하는 특징 벡터 생성부;
상기 특징 벡터를 음향 규칙에 따라 설정된 서치 네트워크를 이용하여 HMM (Hidden MarKov Model)모델링함에 의해 음소를 인식하는 성별 인식부를 포함한다.
본 발명의 실시 예에 따라, 상기 성별 인식부는,
상기 음소 인식 시마다 제1,2 라이클리후드의 스코어를 생성하는 스코어 생성부; 및
상기 음소 인식을 음성 구간의 마지막 구간까지 수행하면서 얻은 상기 제1,2 라이클리후드의 최종 스코어를 비교하여 상기 음성 신호에 대한 성별을 최종적으로 결정하는 판정부를 포함할 수 있다.
본 발명의 구성에 따르면, 음향그룹의 전이확률을 활용하므로, 성별 인식을 위한 남녀 변별력이 전형적인 기술에 비해 높아진다.
도 1은 특징 추출과 융합을 갖는 성별 인식의 제어 순서도이다.
도 2는 음성 인식에 관련된 분류 기법을 실행하는 장치 구성 블록도이다.
도 3은 음성 인식에 이용되는 HMM의 형태를 예시적으로 보여주는 도면이다.
도 4는 본 발명의 실시 예에 적용되는 서치 네트워크의 구현 예시도이다. 및
도 5는 본 발명의 실시 예에 따른 성별 인식 프로시져를 보여주는 플로우 챠트이다.
도 2는 음성 인식에 관련된 분류 기법을 실행하는 장치 구성 블록도이다.
도 3은 음성 인식에 이용되는 HMM의 형태를 예시적으로 보여주는 도면이다.
도 4는 본 발명의 실시 예에 적용되는 서치 네트워크의 구현 예시도이다. 및
도 5는 본 발명의 실시 예에 따른 성별 인식 프로시져를 보여주는 플로우 챠트이다.
위와 같은 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시 예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시 예에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시 예들은, 이해의 편의를 제공할 의도 이외에는 다른 의도 없이, 개시된 내용이 보다 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.
본 명세서에서, 어떤 소자 또는 라인들이 대상 소자 블록에 연결된다 라고 언급된 경우에 그것은 직접적인 연결뿐만 아니라 어떤 다른 소자를 통해 대상 소자 블록에 간접적으로 연결된 의미까지도 포함한다.
또한, 각 도면에서 제시된 동일 또는 유사한 참조 부호는 동일 또는 유사한 구성 요소를 가급적 나타내고 있다. 일부 도면들에 있어서, 소자 및 회로블록이나 라인들의 연결관계는 기술적 내용의 효과적인 설명을 위해 나타나 있을 뿐, 타의 소자나 장치블록, 또는 회로블록들이 더 구비될 수 있다.
여기에 설명되고 예시되는 각 실시 예는 그것의 상보적인 실시 예도 포함될 수 있으며, 통상적인 음성 신호에 대한 성별 인식의 세부 동작과 성별 인식 회로에 관한 세부는 본 발명의 요지를 모호하지 않도록 하기 위해 상세히 설명되지 않음을 유의(note)하라.
먼저, 본 발명의 실시 예에 대한 보다 철저한 이해를 제공할 의도 외에는 다른 의도 없이, 본 발명의 일부로서 적용가능한 컨벤셔널 기술이 도 1 내지 도 3을 참조로 설명될 것이다.
사람에 의해 발성된 음성(소리)를 이용하여 발성자의 성별이 남자인지 여자인지를 분별하는 것은 사용자 인터페이스 기술 분야에 유용할 수 있다.
왜냐하면, 스포츠 시뮬레이터, 홈쇼핑 및 사용자 감성의 판단이 필요한 서비스가 요구되는 경우, 사용자 모드에 특화된 서비스 컨텐츠를 제공할 수 있기 때문이다.
음성에서 성별을 나타내는 매우 큰 요인들은 성대의 떨림에 의해서 주어지는 피치(pitch) 주파수와 성도(vocal tract)의 길이에 따라 달라지는 포만트(formant) 구조 특성이라고 할 수 있다.
마이크 거리와 주변환경잡음에 따라 차이는 있으나, 성인 남성의 경우 피치 주파수가 100~150Hz 이며, 성인여성의 경우에 피치 주파수가 250~300Hz로 주어지는 뚜렷한 특징이 있다. 따라서, 음성에 의한 성별인식은 실 응용 환경에서 높은 인식율을 가지는 기술적 가능성을 나타내고 있다.
일반적인 음성인식기술은 일반적으로 잡음환경에서 취약하며, 또한 원거리 음성인식에서 특징벡터가 잘 나타나지 않은 단점이 있다. 그러나, 제약조건하에서는 높은 인식률을 내는 음성의 성별 인식은 음성인식 전처리로서 음성인식의 성능향상을 위하여 중요한 역할을 하고 있다. 따라서, 근래에는 맞춤형 서비스, 사용자 감성분석 등의 분야에서 성별 인식에 대한 기술적 요구가 높아지고 있는 실정이다.
성별 인식은 일반적으로 크게 두 단계로 구성된다고 볼 수 있다.
그 첫 번째 단계는 입력신호로부터 특징추출을 하는 단계인데 성별인식에서는 피치(Pitch)와 켑스트럼(Cepstrum)이 주로 활용된다. 피치는 유성음구간에서 성대(Vocal cords)의 떨림에 의해 발생되는 신호의 기본 주파수이다. 이는 성인의 경우 남녀가 뚜렷이 구분되는 특징이 있지만, 변성기 이전의 아동에서는 별 차이를 보이지 않는 단점이 있다.
한편, 켑스트럼은 성도(Vocal tract)의 주파수 특성이 반영된 특징(feature)으로서 신호의 크기에는 상관없이 동일한 주파수 쉐이프(shape)에 대해서는 동일한 특징(feature)값이 추출되는 장점이 있다.
그 외에도, 포만트 스펙트럼(formant spectrum)이나 에너지(energy)가 활용되는 경우가 있지만, 피치와 켑스트럼을 적절히 융합하여 사용하더라도 비교적 높은 성능이 통상적으로 보장될 수 있다.
상기 성별인식의 두 단계 중 나머지 한 단계는 분류(classification)단계이다.
상기 분류 단계의 종류로서는, 피치(Pitch)와 임계치를 설정하여 남녀구분을 하는 방법과, 포만트 스펙트럼(formant spectrum)이나 RASTA-PLP 등을 특징(feature)으로 하여 GMM으로 분류하는 방법들이 일반적으로 알려져 있다.
도 1은 특징 추출과 융합을 갖는 성별 인식의 제어 순서도이다.
도면을 참조하면, 특징 추출(Feature extraction)과 융합하는 과정이 차례로 나타나 있다. S10 단계에서 음성 신호가 수신되고, S20 단계에서 음성 특징 검출이 시작된다. S30 단계에서 피치 추출과 켑스트럼 추출이 음성 특징의 검출을 위해 실행된다.
피치(Pitch)의 추출의 한 방법으로서는 오토코릴레이션(Autocorrelation)기법이 있는데 이는 다음의 식,
으로 나타날 수 있다. 상기 식에 따르면, Pitch의 주기의 배수에서 피크(peak) 값을 가진다.
한편, 피치 추출의 또 다른 방법으로서, Average Magnitude Difference Function(AMDF) 기법은 다음의 식,
으로 나타날 수 있다.
한편, 켑스트럼(Cepstrum)은 성도(vocal tract)의 주파수 특성이 반영된 특징으로서, 스케일 불변(scale-invariant)하게 신호의 쉐이프(shape)를 나타내는 특성을 나타내는 장점이 있다. 켑스트럼의 종류로서는 Mel-frequency cepstrum이나 LPC cepstrum 이 있다. 켑스트럼은 다음의 수학식,
으로 표현될 수 있다.
위와 같이 음성 특징 추출의 방법이 설명되었으며, 이제는 특징 융합의 방법이 설명될 것이다.
도 1의 S40 단계에서 특징 벡터의 융합이 실행된다.
음성 특징의 융합 방법 중 하나는 특징벡터 융합 방법이다. 이는 단순히 특징벡터를 합쳐서 분류기(classifier)에 하나의 특징벡터로서 입력하는 방법이다. 이 방법은 단순하면서 효과적인 방법이다.
한편, 음성 특징으로 융합 방법 중 다른 하나는 PDF에 의한 융합이 있다.
이는 개별 특징벡터를 분류기에 입력하여 개별 PDF를 구한후 통합하는 방법이다. PDF에 의한 융합은 개별특징으로서 분류기를 학습하여 인식하는 것보다 성능향상을 가져온다. 상기 PDF에 의한 융합은 잡음 환경 등에서와 같이 인식률이 낮은 조건의 경우에는 상당히 높은 효과를 얻을 수 있다.
도 2는 음성 인식에 관련된 분류 기법을 실행하는 장치 구성 블록도이다.
도 2를 참조하면, 장치 구성은 주파수 분석기(20), 켑스트럼 추출부(22), 라이클리후드 계산부(24), 및 분류/ 판정부(26)를 포함한다. 상기 라이클리후드 계산부(24)는 라이클리후드의 계산 시에 남자 GMM/HMM(30) 및 여자 GMM/HMM(32)를 사용한다.
도 2의 장치는 음성인식이나 화자인식 등에서 적용될 수 있는 것으로, GMM 또는 HMM 기반의 분류기법을 취한다.
입력신호는 주파수 분석부(20)와 켑스트럼 추출부(22)를 거치면서, 시간축을 기준으로 일정간격으로 음성 특징이 추출된다. 결국, 추출된 특징 벡터 시퀀스(sequence)는 라이클리후드 계산부(24)에 인가되어, GMM 또는 HMM에 의한 라이클리후드(likelihood)가 계산된다. 분류/판정부(26)는 라이클리후드의 스코어(score)가 높은 쪽을 성별 인식 결과로서 판정한다.
도 3은 음성 인식에 이용되는 HMM의 형태를 예시적으로 보여주는 도면이다.
도면을 참조하면, HMM의 일반적인 예시 형태가 보여진다.
음성 구간(T1)에서는 제1 상태(35)가 대응되어 있고, 음성 구간(T2)에서는 제2 상태(36)가 대응되어 있고, 음성 구간(T3)에서는 제3 상태(37)가 대응되어 있다.
여기서, 각 상태(state)는 GMM이며 도 3에서는 3개의 GMM이 하나의 HMM을 구성하고 있다. 결국, 도 3의 예시는 레프트 투 라이트 천이(left-to-right transition) 모델을 나타내고 있다. 각 음소에 대하여 이러한 HMM이 만들어지며, 음소의 길이에 따라 상태들의 개수는 조정될 수 있다. 발성된 음성은 상기 HMM이 네트워크로 연결됨에 의해, 결국, 단어나 문장이 인식될 수 있다.
도 4는 본 발명의 실시 예에 적용되는 서치 네트워크의 구현 예시도이다.
여기서, 도 4는 한국어의 경우에 음소 HMM이 음운 규칙에 따라 네트워크로 연결되는 예시를 나타내고 있다.
음소 인식을 위한 서치 네트워크는 음향 규칙에 따라 설정된다. 도 4를 참조하면, 스타트 사일런스(S40)와 엔드 사일런스(S50)간에 초성 음소그룹(S42), 중성 음소 그룹(S44), 종성 음소 그룹(S46), 쇼트 포즈(S48)가 배치된다.
예를 들어, 일단 초성 음소그룹(S42)중 하나가 음소로서 인식된 경우라면, 그 다음 인식 단계에서는 초성 음소그룹(S42) 및 종성 음소 그룹(S46)에 대한 서치는 배제하고, 상기 중성 음소 그룹(S44)에 속해 있는 음소가 서치된다.
상기 도 4와 같은 서처 네트워크의 이용은 전형적인 GMM기반의 성별인식보다 우수하다. 왜냐하면 GMM의 경우 한 개의 상태로서 확률분포 모델을 추정하기 때문이다. 따라서 GMM기반의 성별인식의 경우에는 확률분포가 매우 광범위(broad)해져서 남/녀 확률분포에서 추출되는 라이클리후트 스코어(likelihood score)의 변별력이 떨어진다. 그러나, 도 4의 네트워크에 따른 HMM에 의해 모델 추정을 수행하는 도 4의 이용방법은 음성 신호의 음소인식 및 각 음소에 해당하는 특징벡터에 남/녀 확률분포를 적용하므로 라이클리후드 스코어(likelihood score)의 변별력이 높아진다.
도 5는 본 발명의 실시 예에 따른 성별 인식 프로시져를 보여주는 플로우 챠트이다.
도 5를 참조하면, S52 단계에서 음성 입력신호가 수신되면, S54 단계에서 음성 신호에서 음성 구간이 검출된다. 여기서 음성의 스타트 포인트와 엔드 포인트가 검출된다. S56 단계에서 음성 구간 내에서 특징 벡터를 생성하기 위해 프레임별로 특징이 추출된다. 상기 특징 벡터는 1 frame(예 10mm sec) 단위로 생성될 수 있다.
S58 단계에서 상기 특징 벡터를 음향 규칙에 따라 설정된 서치 네트워크를 이용하여 HMM (Hidden MarKov Model)모델링함에 의해 음소가 인식된다.
S58 단계는 도 3에서와 같은 HMM 음소인식을 통해 각 특징벡터들에 대한 음소인식을 수행하는 단계이다. 음소인식의 수행은 도 4에서와 같은 서치 네트워크의 음향규칙을 따라 이루어진다. 예를 들어, 이전 인식된 결과가 "ㄱ" 이라는 음소를 인식한 경우라면, 현재 인식할 수 있는 음소는 중성 그룹의 모음에서만 서치(search)한다.
서치의 결과로서, S60 및 S62단계에서 제1,2 라이클리후드의 스코어가 얻어진다. 라이클리후드 스코어(likelihood score)가 가장 높은 모음이 인식결과로서 결정된다.
S64 단계에서 엔드 프레임인지의 여부가 체크된다. 엔드 프레임이 아니면,다시 상기 S58 단계로 리턴된다.
상기 라이클리후드의 계산 과정은, 남자(likelihood scoring 1) 와 여자(likelihood scoring 2) 각각의 계산된 음소 HMM 스코어가 현재까지의 산출된 남,녀 스코어와 곱해지는 것을 의미한다.
이러한 곱해지는 과정은 음성구간의 마지막 프레임이 나타날 때까지 반복된다. 최종적으로 남자 score 1 과 여자 score 2를 비교하여 높은 score가 나오는 쪽을 인식결과로써 판정하게 된다. 즉, 음소 인식을 음성 구간의 마지막 구간까지 수행하면, S66단계에서 상기 제1,2 라이클리후드의 최종 스코어가 비교되어, 상기 음성 신호에 대한 성별이 최종적으로 결정된다.
결국, 본 발명의 실시 예에서는 도 3 및 도 4에서와 같이 음소 모델링을 행하여 음성에서 음소의 순차적 특성을 찾고, 이를 근거로 HMM(Hidden Markov Model)으로서 분류함에 의해, 성별에 대한 분별력이 개선되는 방안을 취하고 있다.
즉, 음소별 확률분포와 음소 순차에 대한 룰을 전이확률로서 모델링하는 본 발명에 따른 기법은, 1개의 상태로서 모든 음소정보를 확률 추정하는 방법에 비해 분별력이 향상된다.
결국, 본 발명의 실시 예에서는 비교적인 장점이 다음과 같이 얻어진다.
전형적인 기술의 경우에는 피치, 에너지, 켑스트럼 등의 성별구분이 비교적 뚜렸한 특징벡터들을 혼합하여 임계치를 가지고 최적 판정 룰(decision rule)을 가지고 판별하는 방법이 있는데, 다양한 음운현상을 고려하지 못한다는 단점이 있다.
그러나 이에 비해 본 발명의 실시 예에서는 음소의 순차적 확률분포를 고려하여 성별을 구분하기 때문에 신뢰성이 높은 것이다.
또한, 전형적으로 분류기로서는 GMM이 사용되었고, 이 경우에 한개의 상태(state)로써 확률분포 모델이 추정되어 광범위한 확률분포에 기인하여 변별력이 떨어지는 단점이 있다. 한편, 본 발명의 실시 예에서는 각 음소에 해당하는 특징 벡터를 이용하여 남/녀의 확률분포가 계산되기 때문에 라이클리후드(likelihood)의 변별력이 높다.
더구나, 본 발명의 실시 예에서는 특징 벡터의 융합에 있어서도, 각 특징벡터의 계산된 PDF(Probability Density Function)를 활용하여 남/녀 성별이 결정되므로 통계적인 특성이 최소한 개별 특징벡터에 의한 결정의 경우에 비해 우수하게 된다.
본 발명의 실시 예는 음소의 순차적 특성을 고려한 네트워크(network)를 구성하여 발성된 음성의 확률 값을 계산하기 때문에, 혼합된 음소로서 계산하는 것 에 비해 신뢰성이 높다.
GMM(Gaussian Mixture Model)은 HMM(Hidden Markov Model)의 일종으로서(1 state HMM) 간단한 성별인식 실험에서 HMM기반 성별인식 성능이 검증된 바 있다.
이상에서와 같이 도면과 명세서를 통해 최적 실시 예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 예를 들어, 사안이 다른 경우에 본 발명의 기술적 사상을 벗어남이 없이, 성별 인식의 절차나 인식 스키마를 다양하게 변경 및 변형할 수 있을 것이다.
22: 켑스트럼 추출부
24: 라이클리후드 계산부
26: 분류/판정부
24: 라이클리후드 계산부
26: 분류/판정부
Claims (15)
- 수신되는 음성 신호에서 음성 구간을 검출하고;
검출된 음성 구간 내에서 특징 벡터를 생성하고;
상기 특징 벡터를 음향 규칙에 따라 설정된 서치 네트워크를 이용하여 HMM (Hidden MarKov Model)모델링함에 의해 음소를 인식하고 제1,2 라이클리후드의 스코어를 얻고;
상기 음소 인식을 음성 구간의 마지막 구간까지 수행하면서 얻은 상기 제1,2 라이클리후드의 최종 스코어를 비교하여 상기 음성 신호에 대한 성별을 최종적으로 결정하는 문맥독립 성별 인식 방법.
- 제1항에 있어서,
상기 특징 벡터는 프레임 단위로 생성되는 문맥독립 성별 인식 방법.
- 제1항에 있어서,
상기 음소 인식은 3개 이상의 GMM으로 구성되는 HMM 인식을 통하여 수행되는 문맥독립 성별 인식 방법.
- 제1항에 있어서,
상기 특징 벡터의 생성은 음성 특징의 피치 및 켑스트럼을 추출한 후 특징 벡터를 융합하는 과정을 포함하는 문맥독립 성별 인식 방법.
- 제4항에 있어서,
상기 융합은 상기 특징 벡터를 합쳐 분류기에 하나의 특징 벡터로서 입력하는 것인 문맥독립 성별 인식 방법.
- 제1항에 있어서,
상기 특징 벡터의 생성은 음성 특징의 피치 및 켑스트럼을 추출한 후 상기 피치 및 켑스트럼의 PDF(Probability Density Function)를 개별적으로 생성하여 융합하는 과정을 포함하는 문맥독립 성별 인식 방법.
- 제6항에 있어서,
상기 융합은 상기 특징 벡터를 분류기에 입력하여 상기 피치 및 켑스트럼의 PDF를 개별적으로 구한 후 통합하는 것인 문맥독립 성별 인식 방법.
- 제1항에 있어서, 상기 설정된 서치 네트워크는 한국어의 경우에 초성, 중성, 종성의 망 그룹을 포함하는 문맥독립 성별 인식 방법.
- 제1항에 있어서, 상기 음향 규칙은 음운 현상을 반영하기 위해 음소의 순차적 특성을 고려한 확률분포에 따른 규칙인 문맥독립 성별 인식 방법.
- 음성 특징의 에너지, 피치, 포먼트, 및 켑스트럼 중 적어도 2이상을 조합하여 특징 벡터를 추출하고;
상기 특징 벡터를 음소의 전이확률을 반영하는 HMM으로써 모델링하여 음성 신호에 대한 남녀 성별을 판정하는 문맥독립 성별 인식 방법.
- 제10항에 있어서,
상기 HMM 모델링 시 음향 규칙에 따라 설정된 서치 네트워크가 이용되는 문맥독립 성별 인식 방법.
- 제10항에 있어서,
상기 특징 벡터는 10 mm sec를 갖는 프레임 단위로 생성되는 문맥독립 성별 인식 방법.
- 제11항에 있어서,
상기 HMM 모델링은 3개 이상의 GMM으로 이루어진 HMM 인식기를 통해 수행되는 문맥독립 성별 인식 방법.
- 수신되는 음성 신호에서 음성 구간을 검출하고 상기 검출된 음성 구간 내에서 특징 벡터를 생성하는 특징 벡터 생성부; 및
상기 특징 벡터를 음향 규칙에 따라 설정된 서치 네트워크를 이용하여 HMM (Hidden MarKov Model)모델링함에 의해 음소를 인식하는 성별 인식부를 포함하는 문맥독립 성별 인식 장치.
- 제14항에 있어서,
상기 성별 인식부는,
상기 음소 인식 시마다 제1,2 라이클리후드의 스코어를 생성하는 스코어 생성부; 및
상기 음소 인식을 음성 구간의 마지막 구간까지 수행하면서 얻은 상기 제1,2 라이클리후드의 최종 스코어를 비교하여 상기 음성 신호에 대한 성별을 최종적으로 결정하는 판정부를 포함하는 문맥독립 성별 인식 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120148678A KR20140079092A (ko) | 2012-12-18 | 2012-12-18 | 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치 |
US14/016,611 US20140172428A1 (en) | 2012-12-18 | 2013-09-03 | Method and apparatus for context independent gender recognition utilizing phoneme transition probability |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120148678A KR20140079092A (ko) | 2012-12-18 | 2012-12-18 | 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20140079092A true KR20140079092A (ko) | 2014-06-26 |
Family
ID=50931947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120148678A KR20140079092A (ko) | 2012-12-18 | 2012-12-18 | 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20140172428A1 (ko) |
KR (1) | KR20140079092A (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101658452B1 (ko) * | 2016-01-12 | 2016-09-21 | 세종대학교산학협력단 | 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법 |
KR20170014420A (ko) | 2015-07-30 | 2017-02-08 | 한국전자통신연구원 | 복지 수급자 생애 기반맞춤형 복지 시뮬레이션 방법 |
CN111785284A (zh) * | 2020-08-19 | 2020-10-16 | 科大讯飞股份有限公司 | 基于音素辅助的文本无关声纹识别方法、装置以及设备 |
US12002475B2 (en) | 2018-10-12 | 2024-06-04 | Samsung Electronics Co., Ltd. | Electronic device performing speaker recognition and control method thereof |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
KR102069699B1 (ko) | 2016-01-18 | 2020-01-23 | 한국전자통신연구원 | 음성인식 장치 및 방법 |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10083689B2 (en) * | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
CN108694954A (zh) * | 2018-06-13 | 2018-10-23 | 广州势必可赢网络科技有限公司 | 一种性别年龄识别方法、装置、设备及可读存储介质 |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US10891940B1 (en) | 2018-12-13 | 2021-01-12 | Noble Systems Corporation | Optimization of speech analytics system recognition thresholds for target word identification in a contact center |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
US11996087B2 (en) | 2021-04-30 | 2024-05-28 | Comcast Cable Communications, Llc | Method and apparatus for intelligent voice recognition |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1185621C (zh) * | 2000-07-13 | 2005-01-19 | 旭化成株式会社 | 语音识别装置与语音识别方法 |
US20030110038A1 (en) * | 2001-10-16 | 2003-06-12 | Rajeev Sharma | Multi-modal gender classification using support vector machines (SVMs) |
JP2005157494A (ja) * | 2003-11-20 | 2005-06-16 | Aruze Corp | 会話制御装置及び会話制御方法 |
US20070061314A1 (en) * | 2005-02-01 | 2007-03-15 | Outland Research, Llc | Verbal web search with improved organization of documents based upon vocal gender analysis |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
CN103038765B (zh) * | 2010-07-01 | 2017-09-15 | 诺基亚技术有限公司 | 用于适配情境模型的方法和装置 |
-
2012
- 2012-12-18 KR KR1020120148678A patent/KR20140079092A/ko not_active Application Discontinuation
-
2013
- 2013-09-03 US US14/016,611 patent/US20140172428A1/en not_active Abandoned
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170014420A (ko) | 2015-07-30 | 2017-02-08 | 한국전자통신연구원 | 복지 수급자 생애 기반맞춤형 복지 시뮬레이션 방법 |
KR101658452B1 (ko) * | 2016-01-12 | 2016-09-21 | 세종대학교산학협력단 | 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법 |
US12002475B2 (en) | 2018-10-12 | 2024-06-04 | Samsung Electronics Co., Ltd. | Electronic device performing speaker recognition and control method thereof |
CN111785284A (zh) * | 2020-08-19 | 2020-10-16 | 科大讯飞股份有限公司 | 基于音素辅助的文本无关声纹识别方法、装置以及设备 |
CN111785284B (zh) * | 2020-08-19 | 2024-04-30 | 科大讯飞股份有限公司 | 基于音素辅助的文本无关声纹识别方法、装置以及设备 |
Also Published As
Publication number | Publication date |
---|---|
US20140172428A1 (en) | 2014-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20140079092A (ko) | 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치 | |
Basu et al. | A review on emotion recognition using speech | |
KR100755677B1 (ko) | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 | |
KR20200012963A (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
EP3287921A1 (en) | Spoken pass-phrase suitability determination | |
Martinez et al. | Prosodic features and formant modeling for an ivector-based language recognition system | |
Ververidis et al. | Fast sequential floating forward selection applied to emotional speech features estimated on DES and SUSAS data collections | |
Li et al. | Combining five acoustic level modeling methods for automatic speaker age and gender recognition. | |
US20190279644A1 (en) | Speech processing device, speech processing method, and recording medium | |
CN106782508A (zh) | 语音音频的切分方法和语音音频的切分装置 | |
Archana et al. | Gender identification and performance analysis of speech signals | |
Bhukya | Effect of gender on improving speech recognition system | |
Quan et al. | Reduce the dimensions of emotional features by principal component analysis for speech emotion recognition | |
Dey et al. | Exploiting sequence information for text-dependent speaker verification | |
CN110838294B (zh) | 一种语音验证方法、装置、计算机设备及存储介质 | |
CN104299611A (zh) | 基于时频脊线-Hough变换的汉语声调识别方法 | |
Baker et al. | Gaussian mixture modelling of broad phonetic and syllabic events for text-independent speaker verification | |
Kadiri et al. | Discriminating neutral and emotional speech using neural networks | |
Bansal et al. | Emotional Hindi speech: Feature extraction and classification | |
CN104240699A (zh) | 一种简单有效的短语语音识别方法 | |
Khan et al. | Pashto language dialect recognition using mel frequency cepstral coefficient and support vector machines | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
KR20130014893A (ko) | 음성 인식 장치 및 방법 | |
Prukkanon et al. | F0 contour approximation model for a one-stream tonal word recognition system | |
KR100842754B1 (ko) | 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |