KR20040072104A - 음성인식기의 탐색속도 향상방법 - Google Patents

음성인식기의 탐색속도 향상방법 Download PDF

Info

Publication number
KR20040072104A
KR20040072104A KR1020030008038A KR20030008038A KR20040072104A KR 20040072104 A KR20040072104 A KR 20040072104A KR 1020030008038 A KR1020030008038 A KR 1020030008038A KR 20030008038 A KR20030008038 A KR 20030008038A KR 20040072104 A KR20040072104 A KR 20040072104A
Authority
KR
South Korea
Prior art keywords
state
merging
states
search
search speed
Prior art date
Application number
KR1020030008038A
Other languages
English (en)
Other versions
KR100480039B1 (ko
Inventor
김지환
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR10-2003-0008038A priority Critical patent/KR100480039B1/ko
Publication of KR20040072104A publication Critical patent/KR20040072104A/ko
Application granted granted Critical
Publication of KR100480039B1 publication Critical patent/KR100480039B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성인식기에서 스테이트 병합을 이용하여 탐색 속도를 향상시키는 기술에 관한 것이다. 이러한 본 발명은, 스테이트 병합 후 스테이트의 믹스춰에 대한 가중치는 병합전의 해당 가중치들 중 최대값이 되고, 병합 후 스테이트의 천이 확률은 병합전 스테이트들간의 천이 확률 중 가장 큰 값이 되도록 스테이트 병합을 정의하는 제1과정과; t 시점에서 스테이트 j에 도달하는 모든 경로들 중 최대의 유사도 및, 스테이트 j와 스테이트 j의 모든 자손 노드들을 병합한 후에에서

Description

음성인식기의 탐색속도 향상방법{METHOD FOR ENHANCING SEARCH SPEED OF SPEECH RECOGNITION SYSTEM}
본 발명은 음성인식기에서 스테이트 병합을 이용하여 탐색 속도를 향상시키는 기술에 관한 것으로, 특히 준 연속식 은닉 마르코프 모델 또는 이산형 은닉 마르코프 모델을 이용하는 음성인식 시스템에서 확률값을 발생시키는 경로를 탐색할 때 스테이트 병합을 이용하여 탐색 속도를 향상시킬 수 있도록 한 음성인식기의 탐색속도 향상방법에 관한 것이다.
음성인식기는 입력된 음성과 확률적으로 가장 유사한 등록단어(또는 등록된 단어들의 열)를 출력하게 된다. 따라서, 연속 음성인식에서는 등록된 단어들의 모든 조합에 대해서 입력 음성이 발성될 확률을 구해야 한다.
확률값을 발생시키는 것이 가능한 경로들 중 입력 음성에 대해서 가장 높은 확률값을 발생시키는 경로를 찾는 과정을 탐색(search)이라 한다. 가능한 모든 경로에 대해서 탐색이 진행되는 것은 이론적으로는 가능하지만, 발음사전에 등록된 단어의 수가 늘어나게 되면 시간상 제약과 메모리 공간상의 제약 등으로 인하여 가능한 모든 경로에 대한 탐색을 수행하는 것은 실질적으로는 불가능하게 된다.
발생 가능한 경로들로 네트워크를 구성했을 때 이 네트워크로부터 특정 경로를 제거하는 방법을 프루닝이라고 하는데, 도 1은 기존에 널리 사용되는 빔 프루닝 방법을 나타낸 것이다.
상기 빔 프루닝 방법에서는 입력에 대한 실제 최적의 경로가 프루닝될 수 있으며, 프루닝 정도는 빔의 크기가 작아짐에 따라서 커지게 된다. 특히 잡음 등으로 음성신호가 왜곡된 경우 탐색 초반부에 실제 최적 경로의 유사도(likelihood)가 빔의 범위 밖에 놓이게 되어 실제 최적 경로가 프루닝될 가능성이 높아진다. 따라서, 빔의 크기에 대해서 인식소요시간과 인식율간에는 상충(trade-off) 관계가 성립하게 된다.
이와 같이 종래의 음성인식기에 있어서는 자손 노드(descendent node)들로 구성 가능한 모든 경로들에 대해서 입력 음성의 유사도를 계산한 후 최적경로를 결정하게 되므로, 경로 탐색 시간이 많이 소요되는 단점이 있었다.
따라서, 본 발명의 제1목적은 탐색시 자손 노드들로 구성 가능한 모든 경로들에 대해서 입력 음성의 유사도를 계산하는 것이 아니라, 현재 노드에서 이의 최대값의 상한을 계산해서 프루닝 방식을 개선하는데 있다.
본 발명의 제2목적은 주어진 어휘 트리(lexical tree) 보다 크기가 축소된 어휘 트리를 만들고, 이를 이용하여 탐색을 선행하여 전체 탐색시간을 줄이는데 있다.
도 1은 종래 기술에 의한 빔 프루닝 방법의 설명도.
도 2는 본 발명의 스테이트 병합에 따른 믹스춰에 대한 가중치 결정 방법의 설명도.
도 3은 본 발명에 의한 프루닝 방법의 설명도.
도 4는 본 발명에 의한 트리 크기 축소 방법의 실행 예시도.
본 발명의 제1특징에 따르면, 두 개 이상의 스테이트(state)들을 병합하는 처리방법을 구비하는데, 이 처리방법은 준 연속식 은닉 마르코프 모델(SCHMM: Semi-Continuous HMM) 또는 이산형 은닉 마르코프 모델(DHMM: Discrete HMM)를 이용하는 음성인식 시스템에서 적용 가능하다.
본 발명의 제2특징에 따르면, 특징 1에서의 병합 처리방법을 바탕으로, 병합 결과만을 이용해서 입력 음성에 대한 병합 되어진 모든 스테이트들로 부터의 유사도의 최대값의 상한을 결정하는 처리방법을 구비한다.
본 발명의 제3특징에 따르면, 특징 1에서의 병합 처리방법을 바탕으로 크기가 축소된 어휘 트리를 생성하는 처리방법을 구비한다.
본 발명에 의한 음성인식기의 탐색속도 향상방법은, 스테이트 병합 후 스테이트의 믹스춰에 대한 가중치는 병합전 스테이트들의 해당 믹스춰에 대한 가중치들 중 최대값이 되고, 병합 후 스테이트의 천이 확률은 병합전 스테이트들간의 천이 확률 중 가장 큰 값이 되도록 스테이트 병합을 정의하는 제1과정과; t 시점에서 스테이트 j에 도달하는 모든 경로들 중 최대의 유사도 및, 스테이트 j와 스테이트 j의 모든 자손 노드들을 병합한 후에에서시점까지의 입력에 대해서 구한 유사도의 상한을 정의하는 제2과정과; 작은 크기의 빔을 이용하여 구해진 최적 경로의 log 유사도의 하한을 K라 할 때,를 만족하는 스테이트 i에 대해서 더 이상 탐색을 수행하지 않도록 프루닝하는 제3과정과; 모든 자손 노드에 대하여 상기 스테이트 병합을 수행하는 것이 아니라, 이웃한 스테이트들에 대해서만, 또는 트리에서 분기가 일어나는 지점 등에 대해서만 스테이트 병합을 수행하여 스테이트간 순서에 따른 종속성을 유지하면서 어휘트리를 축소하는 제4과정으로 이루어지는 것으로, 이와 같은 본 발명의 탐색속도 향상방법을 첨부한 도 2 내지 도 4를 참조하여 상세히 설명하면 다음과 같다.
준 연속식 은닉 마르코프 모델(SCHMM)의 경우 스테이트 j에서 t 시점에서의 입력 음성에 대한 출력확률는 다음의 [수학식1]과 같이 계산된다.
여기서,은 스테이트 j의 믹스춰(mixture) m에 대한 가중치이고,은 믹스춰 m으로부터 계산된에 대한 가우시안(Gaussian) 확률값을 의미한다.
상기 모델(SCHMM)은 믹스춰들을 공유하는 준 연속식 HMM이므로는 스테이트에 독립적이 된다. 따라서,는 탐색시 스테이트 j에서 각 믹스춰에대한 가중치에 의해서 결정된다.
스테이트 A의 믹스춰들에 대한 가중치를이라 하고, 스테이트 B의 믹스춰들에 대한 가중치를이라 하며, 스테이트 C의 가중치들이 다음의 [수학식2]와 같을 때,
스테이트 C의 가중치를 이용하여에 대한 출력확률을 구하면,이고,가 된다. 즉, 스테이트 A와 스테이트 B로부터 구해지는에 대한 출력확률값들은이상이 된다. 이와 같은 방법으로 스테이트 D의 가중치들을 다음의 [수학식3]라 할 때,
스테이트 D의 가중치를 이용하여에 대한 출력확률을 구하면,이고,가 된다. 즉, 스테이트 A와 스테이트 B로부터 구해지는에 대한 출력확률값들은이하가 된다.
본 발명에서는 두 개 이상의 스테이트 병합을 다음과 같이 정의한다. 첫째, 병합 후 스테이트의 믹스춰에 대한 가중치는 병합전 스테이트들의 해당 믹스춰에 대한 가중치들 중 최대값이 된다. 둘째, 병합 후 스테이트의 천이 확률은 병합전스테이트들간의 천이 확률 중 가장 큰 값이 된다.
도 2는 본 발명에 의한 병합으로 스테이트의 믹스춰에 대한 가중치가 결정되는 과정을 보여주고 있다. 상기 설명에서의 스테이트 병합 방법은 이산형 은닉 마르코프 모델(DHMM)을 이용한 음성인식기에도 동일하게 적용할 수 있다.
를 다음과 같이 정의한다.
: t 시점에서 스테이트 j에 도달하는 모든 경로들 중 최대의 유사도.
: 스테이트 j와 스테이트 j의 모든 자손 노드(descendent node)들을 병합한 후에에서시점까지의 입력에 대해서 구한 유사도.
스테이트 병합의 정의에 따라 어휘 트리에 있는 스테이트 j에 대해서 t+1에서 T 시점까지의 입력에 대한 스테이트 j와 스테이트 j의 자손 노드들에 의해서 얻어지는 유사도들은 모두보다 작게 된다.
빔(beam)의 크기가 커짐에 따라 보다 정확한 음성인식 결과를 찾는 것이 가능해지는 반면 소요시간과 메모리 소요량이 늘어나게 된다. 본 발명에서 제안하는 프루닝 방법은 작은 크기의 빔을 이용하여 최적경로의 유사도의 하한을 구한 후, 이 값과 본 발명에서 제안하는 스테이트 병합 방법으로 구현된다.
작은 크기의 빔을 이용하여 구해진 최적 경로의 log 유사도의 하한을 K라 할 때, 이 K를 이용해서 다음의 [수학식4]를 만족하는 스테이트 i에 대해서 더 이상 탐색을 수행하지 않도록 한다.(도 3 참조)
도 3은 본 발명에 의한 프루닝 방법의 실시 예를 나타낸 것으로, 여기서는 t 시점에서 스테이트 i에 도달하는 모든 경로들 중 최대 유사도를 의미하고,는 스테이트 i와 스테이트 i의 모든 자손 노드들을 병합한 후에서시점까지의 입력에 대해서 구한 유사도를 의미하며, K는 작은 크기의 빔을 이용하여 구해진 최적 경로의유사도의 하한을 의미한다.
결국, 본 발명에 의해 제안된 프루닝 방법은 병합의 특성으로 인하여 최적의 경로가 프루닝되지 않는 것을 보장하며, 탐색을 하는 과정에서 자손 노드들에 대해서 탐색 공간을 확장하지 않고도 프루닝 여부를 결정할 수 있다. 또한, 본 발명에 의해 제안된 프루닝 방법은 빔 프루닝 방법과 병행해서 사용이 가능하다.
상기와 같은 방법으로 추정된는 병합 전 스테이트간 순서에 따른 종속성(dependency)을 무시하는 단점이 있기 때문에, 트리(tree)에서 고도(height)가 낮을수록(즉, root에 가까울수록), 그리고 t의 값이 작을수록 실제 탐색 공간(space)을 확장하면서 구해진 최대 유사도와의 차이가 커지게 된다.
모든 자손 노드에 대하여 스테이트 병합을 수행하는 것이 아니라, 이웃한 스테이트들에 대해서만, 또는 트리에서 분기(branching)가 일어나는 지점 등에 대해서만 스테이트 병합을 수행하면 스테이트 간 순서에 따른 종속성을 유지하면서 주어진 어휘 트리보다 크기가 축소된 어휘 트리를 만들 수 있게 된다. 크기가 축소된어휘 트리를 이용해서 탐색을 선행함으로써 전체 탐색시간을 줄이는 효과를 볼 수 있다.
도 4는 본 발명에 의한 트리 크기 축소 방법의 실행 예를 나타낸 것이다. 여기에서는 트리에서 분기가 일어난 스테이트들의 자식노드에서 스테이트 병합이 수행된다. 단, 이러한 자식노드들은 최종 스테이트가 아니어야 한다.
참고로, 본 발명에서 제안한 스테이트 변환 및 어휘 트리 축소 방법은 모두 컴파일 타임(compile time)때 구현 가능하다.
이상에서 상세히 설명한 바와 같이 본 발명은 준 연속식 은닉 마르코프 모델(SCHMM) 또는 이산형 은닉 마르코프 모델(DHMM)을 이용하여 음성인식기를 구현하는 경우, 구성 가능한 모든 경로들에 대해서 입력 음성의 유사도를 계산하는 것이 아니라 현재 노드에서 이의 최대값의 상한을 계산하여 프루닝 방식이 개선되는 효과가 있다. 또한, 주어진 어휘 트리보다 축소된 어휘 트리를 만들고, 이를 이용하여 탐색을 선행함으로써, 전체 탐색 시간이 줄어드는 효과가 있다.

Claims (3)

  1. 스테이트 병합 후 스테이트의 믹스춰에 대한 가중치는 병합전의 해당 가중치들 중 최대값이 되고, 병합 후 스테이트의 천이 확률은 병합전 스테이트들간의 천이 확률 중 가장 큰 값이 되도록 스테이트 병합을 정의하는 제1과정과; t 시점에서 스테이트 j에 도달하는 모든 경로들 중 최대의 유사도 및, 스테이트 j와 스테이트 j의 모든 자손 노드들을 병합한 후에에서시점까지의 입력에 대해서 구한 유사도를 정의하는 제2과정과; 작은 크기의 빔을 이용하여 구해진 최적 경로의 log 유사도의 하한을 K라 할 때, 소정의 조건을 만족하는 스테이트 i에 대해서 더 이상 탐색을 수행하지 않도록 프루닝하는 제3과정과; 모든 자손 노드에 대하여 상기 스테이트 병합을 수행하는 것이 아니라, 이웃한 스테이트들에 대해서만, 또는 트리에서 분기가 일어나는 지점 등에 대해서만 스테이트 병합을 수행하여 스테이트간 순서에 따른 종속성을 유지하면서 어휘트리를 축소하는 제4과정으로 이루어지는 것을 특징으로 하는 음성인식기의 탐색속도 향상방법.
  2. 제1항에 있어서, 제2과정은 스테이트 병합의 정의에 따라 어휘 트리에 있는 스테이트 j에 대해서 t+1에서 T 시점까지의 입력에 대해서 스테이트 j와 스테이트 j의 자손 노드들에 의해서 얻어지는 유사도들은 모두보다 작게 되는 것을 특징으로 하는 음성인식기의 탐색속도 향상방법.
  3. 제1항에 있어서, 제3과정의 소정의 조건은인 것을 특징으로 하는 하는 음성인식기의 탐색속도 향상방법.
KR10-2003-0008038A 2003-02-08 2003-02-08 음성인식기의 탐색속도 향상방법 KR100480039B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2003-0008038A KR100480039B1 (ko) 2003-02-08 2003-02-08 음성인식기의 탐색속도 향상방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0008038A KR100480039B1 (ko) 2003-02-08 2003-02-08 음성인식기의 탐색속도 향상방법

Publications (2)

Publication Number Publication Date
KR20040072104A true KR20040072104A (ko) 2004-08-18
KR100480039B1 KR100480039B1 (ko) 2005-03-31

Family

ID=37359708

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0008038A KR100480039B1 (ko) 2003-02-08 2003-02-08 음성인식기의 탐색속도 향상방법

Country Status (1)

Country Link
KR (1) KR100480039B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100714720B1 (ko) * 2005-02-11 2007-05-04 삼성전자주식회사 서브 렉시컬 노드 생성 장치, 이를 이용한 음성 인식 장치및 방법
KR100908444B1 (ko) * 2006-12-05 2009-07-21 한국전자통신연구원 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법
US8032374B2 (en) 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100714720B1 (ko) * 2005-02-11 2007-05-04 삼성전자주식회사 서브 렉시컬 노드 생성 장치, 이를 이용한 음성 인식 장치및 방법
KR100908444B1 (ko) * 2006-12-05 2009-07-21 한국전자통신연구원 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법
US8032374B2 (en) 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition

Also Published As

Publication number Publication date
KR100480039B1 (ko) 2005-03-31

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
Valtchev et al. MMIE training of large vocabulary recognition systems
EP0706171B1 (en) Speech recognition method and apparatus
EP4018437B1 (en) Optimizing a keyword spotting system
US8612227B2 (en) Method and equipment of pattern recognition, its program and its recording medium for improving searching efficiency in speech recognition
US10255910B2 (en) Centered, left- and right-shifted deep neural networks and their combinations
CN103366737A (zh) 在自动语音识别中应用声调特征的装置和方法
KR100480039B1 (ko) 음성인식기의 탐색속도 향상방법
Proença et al. The SPL-IT-UC Query by Example Search on Speech system for MediaEval 2015.
JP5309343B2 (ja) パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
KR101727306B1 (ko) 언어모델 군집화 기반 음성인식 장치 및 방법
CN107103902B (zh) 完整语音内容递归识别方法
McDonough et al. An algorithm for fast composition of weighted finite-state transducers
JPH117292A (ja) 音声認識装置
JP5008078B2 (ja) パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
KR20170090815A (ko) 음성 인식 장치 및 이의 동작방법
KR100736496B1 (ko) 연속 음성인식기의 성능 개선 방법
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
JP2000267693A (ja) 音声処理装置及び索引作成装置
JP5344396B2 (ja) 言語学習装置、言語学習プログラム及び言語学習方法
JP2000075885A (ja) 音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
Valtchev et al. Discriminative optimisation of large vocabulary recognition systems
Huang et al. Prosodic modeling in large vocabulary Mandarin speech recognition.
Kumar et al. Speech Recognition Using Hmm and Combinations: A Review

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee