KR20040072104A

KR20040072104A - 음성인식기의 탐색속도 향상방법

Info

Publication number: KR20040072104A
Application number: KR1020030008038A
Authority: KR
Inventors: 김지환
Original assignee: 엘지전자 주식회사
Priority date: 2003-02-08
Filing date: 2003-02-08
Publication date: 2004-08-18
Also published as: KR100480039B1

Abstract

본 발명은 음성인식기에서 스테이트 병합을 이용하여 탐색 속도를 향상시키는 기술에 관한 것이다. 이러한 본 발명은, 스테이트 병합 후 스테이트의 믹스춰에 대한 가중치는 병합전의 해당 가중치들 중 최대값이 되고, 병합 후 스테이트의 천이 확률은 병합전 스테이트들간의 천이 확률 중 가장 큰 값이 되도록 스테이트 병합을 정의하는 제1과정과; t 시점에서 스테이트 j에 도달하는 모든 경로들 중 최대의 유사도 및, 스테이트 j와 스테이트 j의 모든 자손 노드들을 병합한 후에에서

Description

음성인식기의 탐색속도 향상방법{METHOD FOR ENHANCING SEARCH SPEED OF SPEECH RECOGNITION SYSTEM}

본 발명은 음성인식기에서 스테이트 병합을 이용하여 탐색 속도를 향상시키는 기술에 관한 것으로, 특히 준 연속식 은닉 마르코프 모델 또는 이산형 은닉 마르코프 모델을 이용하는 음성인식 시스템에서 확률값을 발생시키는 경로를 탐색할 때 스테이트 병합을 이용하여 탐색 속도를 향상시킬 수 있도록 한 음성인식기의 탐색속도 향상방법에 관한 것이다.

음성인식기는 입력된 음성과 확률적으로 가장 유사한 등록단어(또는 등록된 단어들의 열)를 출력하게 된다. 따라서, 연속 음성인식에서는 등록된 단어들의 모든 조합에 대해서 입력 음성이 발성될 확률을 구해야 한다.

확률값을 발생시키는 것이 가능한 경로들 중 입력 음성에 대해서 가장 높은 확률값을 발생시키는 경로를 찾는 과정을 탐색(search)이라 한다. 가능한 모든 경로에 대해서 탐색이 진행되는 것은 이론적으로는 가능하지만, 발음사전에 등록된 단어의 수가 늘어나게 되면 시간상 제약과 메모리 공간상의 제약 등으로 인하여 가능한 모든 경로에 대한 탐색을 수행하는 것은 실질적으로는 불가능하게 된다.

발생 가능한 경로들로 네트워크를 구성했을 때 이 네트워크로부터 특정 경로를 제거하는 방법을 프루닝이라고 하는데, 도 1은 기존에 널리 사용되는 빔 프루닝 방법을 나타낸 것이다.

상기 빔 프루닝 방법에서는 입력에 대한 실제 최적의 경로가 프루닝될 수 있으며, 프루닝 정도는 빔의 크기가 작아짐에 따라서 커지게 된다. 특히 잡음 등으로 음성신호가 왜곡된 경우 탐색 초반부에 실제 최적 경로의 유사도(likelihood)가 빔의 범위 밖에 놓이게 되어 실제 최적 경로가 프루닝될 가능성이 높아진다. 따라서, 빔의 크기에 대해서 인식소요시간과 인식율간에는 상충(trade-off) 관계가 성립하게 된다.

이와 같이 종래의 음성인식기에 있어서는 자손 노드(descendent node)들로 구성 가능한 모든 경로들에 대해서 입력 음성의 유사도를 계산한 후 최적경로를 결정하게 되므로, 경로 탐색 시간이 많이 소요되는 단점이 있었다.

따라서, 본 발명의 제1목적은 탐색시 자손 노드들로 구성 가능한 모든 경로들에 대해서 입력 음성의 유사도를 계산하는 것이 아니라, 현재 노드에서 이의 최대값의 상한을 계산해서 프루닝 방식을 개선하는데 있다.

본 발명의 제2목적은 주어진 어휘 트리(lexical tree) 보다 크기가 축소된 어휘 트리를 만들고, 이를 이용하여 탐색을 선행하여 전체 탐색시간을 줄이는데 있다.

도 1은 종래 기술에 의한 빔 프루닝 방법의 설명도.

도 2는 본 발명의 스테이트 병합에 따른 믹스춰에 대한 가중치 결정 방법의 설명도.

도 3은 본 발명에 의한 프루닝 방법의 설명도.

도 4는 본 발명에 의한 트리 크기 축소 방법의 실행 예시도.

본 발명의 제1특징에 따르면, 두 개 이상의 스테이트(state)들을 병합하는 처리방법을 구비하는데, 이 처리방법은 준 연속식 은닉 마르코프 모델(SCHMM: Semi-Continuous HMM) 또는 이산형 은닉 마르코프 모델(DHMM: Discrete HMM)를 이용하는 음성인식 시스템에서 적용 가능하다.

본 발명의 제2특징에 따르면, 특징 1에서의 병합 처리방법을 바탕으로, 병합 결과만을 이용해서 입력 음성에 대한 병합 되어진 모든 스테이트들로 부터의 유사도의 최대값의 상한을 결정하는 처리방법을 구비한다.

본 발명의 제3특징에 따르면, 특징 1에서의 병합 처리방법을 바탕으로 크기가 축소된 어휘 트리를 생성하는 처리방법을 구비한다.

본 발명에 의한 음성인식기의 탐색속도 향상방법은, 스테이트 병합 후 스테이트의 믹스춰에 대한 가중치는 병합전 스테이트들의 해당 믹스춰에 대한 가중치들 중 최대값이 되고, 병합 후 스테이트의 천이 확률은 병합전 스테이트들간의 천이 확률 중 가장 큰 값이 되도록 스테이트 병합을 정의하는 제1과정과; t 시점에서 스테이트 j에 도달하는 모든 경로들 중 최대의 유사도 및, 스테이트 j와 스테이트 j의 모든 자손 노드들을 병합한 후에에서시점까지의 입력에 대해서 구한 유사도의 상한을 정의하는 제2과정과; 작은 크기의 빔을 이용하여 구해진 최적 경로의 log 유사도의 하한을 K라 할 때,를 만족하는 스테이트 i에 대해서 더 이상 탐색을 수행하지 않도록 프루닝하는 제3과정과; 모든 자손 노드에 대하여 상기 스테이트 병합을 수행하는 것이 아니라, 이웃한 스테이트들에 대해서만, 또는 트리에서 분기가 일어나는 지점 등에 대해서만 스테이트 병합을 수행하여 스테이트간 순서에 따른 종속성을 유지하면서 어휘트리를 축소하는 제4과정으로 이루어지는 것으로, 이와 같은 본 발명의 탐색속도 향상방법을 첨부한 도 2 내지 도 4를 참조하여 상세히 설명하면 다음과 같다.

준 연속식 은닉 마르코프 모델(SCHMM)의 경우 스테이트 j에서 t 시점에서의 입력 음성에 대한 출력확률는 다음의 [수학식1]과 같이 계산된다.

여기서,은 스테이트 j의 믹스춰(mixture) m에 대한 가중치이고,은 믹스춰 m으로부터 계산된에 대한 가우시안(Gaussian) 확률값을 의미한다.

상기 모델(SCHMM)은 믹스춰들을 공유하는 준 연속식 HMM이므로는 스테이트에 독립적이 된다. 따라서,는 탐색시 스테이트 j에서 각 믹스춰에대한 가중치에 의해서 결정된다.

스테이트 A의 믹스춰들에 대한 가중치를이라 하고, 스테이트 B의 믹스춰들에 대한 가중치를이라 하며, 스테이트 C의 가중치들이 다음의 [수학식2]와 같을 때,

스테이트 C의 가중치를 이용하여에 대한 출력확률을 구하면,이고,가 된다. 즉, 스테이트 A와 스테이트 B로부터 구해지는에 대한 출력확률값들은이상이 된다. 이와 같은 방법으로 스테이트 D의 가중치들을 다음의 [수학식3]라 할 때,

스테이트 D의 가중치를 이용하여에 대한 출력확률을 구하면,이고,가 된다. 즉, 스테이트 A와 스테이트 B로부터 구해지는에 대한 출력확률값들은이하가 된다.

본 발명에서는 두 개 이상의 스테이트 병합을 다음과 같이 정의한다. 첫째, 병합 후 스테이트의 믹스춰에 대한 가중치는 병합전 스테이트들의 해당 믹스춰에 대한 가중치들 중 최대값이 된다. 둘째, 병합 후 스테이트의 천이 확률은 병합전스테이트들간의 천이 확률 중 가장 큰 값이 된다.

도 2는 본 발명에 의한 병합으로 스테이트의 믹스춰에 대한 가중치가 결정되는 과정을 보여주고 있다. 상기 설명에서의 스테이트 병합 방법은 이산형 은닉 마르코프 모델(DHMM)을 이용한 음성인식기에도 동일하게 적용할 수 있다.

와를 다음과 같이 정의한다.

: t 시점에서 스테이트 j에 도달하는 모든 경로들 중 최대의 유사도.

: 스테이트 j와 스테이트 j의 모든 자손 노드(descendent node)들을 병합한 후에에서시점까지의 입력에 대해서 구한 유사도.

스테이트 병합의 정의에 따라 어휘 트리에 있는 스테이트 j에 대해서 t+1에서 T 시점까지의 입력에 대한 스테이트 j와 스테이트 j의 자손 노드들에 의해서 얻어지는 유사도들은 모두보다 작게 된다.

빔(beam)의 크기가 커짐에 따라 보다 정확한 음성인식 결과를 찾는 것이 가능해지는 반면 소요시간과 메모리 소요량이 늘어나게 된다. 본 발명에서 제안하는 프루닝 방법은 작은 크기의 빔을 이용하여 최적경로의 유사도의 하한을 구한 후, 이 값과 본 발명에서 제안하는 스테이트 병합 방법으로 구현된다.

작은 크기의 빔을 이용하여 구해진 최적 경로의 log 유사도의 하한을 K라 할 때, 이 K를 이용해서 다음의 [수학식4]를 만족하는 스테이트 i에 대해서 더 이상 탐색을 수행하지 않도록 한다.(도 3 참조)

도 3은 본 발명에 의한 프루닝 방법의 실시 예를 나타낸 것으로, 여기서는 t 시점에서 스테이트 i에 도달하는 모든 경로들 중 최대 유사도를 의미하고,는 스테이트 i와 스테이트 i의 모든 자손 노드들을 병합한 후에서시점까지의 입력에 대해서 구한 유사도를 의미하며, K는 작은 크기의 빔을 이용하여 구해진 최적 경로의유사도의 하한을 의미한다.

결국, 본 발명에 의해 제안된 프루닝 방법은 병합의 특성으로 인하여 최적의 경로가 프루닝되지 않는 것을 보장하며, 탐색을 하는 과정에서 자손 노드들에 대해서 탐색 공간을 확장하지 않고도 프루닝 여부를 결정할 수 있다. 또한, 본 발명에 의해 제안된 프루닝 방법은 빔 프루닝 방법과 병행해서 사용이 가능하다.

상기와 같은 방법으로 추정된는 병합 전 스테이트간 순서에 따른 종속성(dependency)을 무시하는 단점이 있기 때문에, 트리(tree)에서 고도(height)가 낮을수록(즉, root에 가까울수록), 그리고 t의 값이 작을수록 실제 탐색 공간(space)을 확장하면서 구해진 최대 유사도와의 차이가 커지게 된다.

모든 자손 노드에 대하여 스테이트 병합을 수행하는 것이 아니라, 이웃한 스테이트들에 대해서만, 또는 트리에서 분기(branching)가 일어나는 지점 등에 대해서만 스테이트 병합을 수행하면 스테이트 간 순서에 따른 종속성을 유지하면서 주어진 어휘 트리보다 크기가 축소된 어휘 트리를 만들 수 있게 된다. 크기가 축소된어휘 트리를 이용해서 탐색을 선행함으로써 전체 탐색시간을 줄이는 효과를 볼 수 있다.

도 4는 본 발명에 의한 트리 크기 축소 방법의 실행 예를 나타낸 것이다. 여기에서는 트리에서 분기가 일어난 스테이트들의 자식노드에서 스테이트 병합이 수행된다. 단, 이러한 자식노드들은 최종 스테이트가 아니어야 한다.

참고로, 본 발명에서 제안한 스테이트 변환 및 어휘 트리 축소 방법은 모두 컴파일 타임(compile time)때 구현 가능하다.

이상에서 상세히 설명한 바와 같이 본 발명은 준 연속식 은닉 마르코프 모델(SCHMM) 또는 이산형 은닉 마르코프 모델(DHMM)을 이용하여 음성인식기를 구현하는 경우, 구성 가능한 모든 경로들에 대해서 입력 음성의 유사도를 계산하는 것이 아니라 현재 노드에서 이의 최대값의 상한을 계산하여 프루닝 방식이 개선되는 효과가 있다. 또한, 주어진 어휘 트리보다 축소된 어휘 트리를 만들고, 이를 이용하여 탐색을 선행함으로써, 전체 탐색 시간이 줄어드는 효과가 있다.

Claims

스테이트 병합 후 스테이트의 믹스춰에 대한 가중치는 병합전의 해당 가중치들 중 최대값이 되고, 병합 후 스테이트의 천이 확률은 병합전 스테이트들간의 천이 확률 중 가장 큰 값이 되도록 스테이트 병합을 정의하는 제1과정과; t 시점에서 스테이트 j에 도달하는 모든 경로들 중 최대의 유사도 및, 스테이트 j와 스테이트 j의 모든 자손 노드들을 병합한 후에에서시점까지의 입력에 대해서 구한 유사도를 정의하는 제2과정과; 작은 크기의 빔을 이용하여 구해진 최적 경로의 log 유사도의 하한을 K라 할 때, 소정의 조건을 만족하는 스테이트 i에 대해서 더 이상 탐색을 수행하지 않도록 프루닝하는 제3과정과; 모든 자손 노드에 대하여 상기 스테이트 병합을 수행하는 것이 아니라, 이웃한 스테이트들에 대해서만, 또는 트리에서 분기가 일어나는 지점 등에 대해서만 스테이트 병합을 수행하여 스테이트간 순서에 따른 종속성을 유지하면서 어휘트리를 축소하는 제4과정으로 이루어지는 것을 특징으로 하는 음성인식기의 탐색속도 향상방법.
제1항에 있어서, 제2과정은 스테이트 병합의 정의에 따라 어휘 트리에 있는 스테이트 j에 대해서 t+1에서 T 시점까지의 입력에 대해서 스테이트 j와 스테이트 j의 자손 노드들에 의해서 얻어지는 유사도들은 모두보다 작게 되는 것을 특징으로 하는 음성인식기의 탐색속도 향상방법.
제1항에 있어서, 제3과정의 소정의 조건은인 것을 특징으로 하는 하는 음성인식기의 탐색속도 향상방법.