KR100764247B1

KR100764247B1 - 2단계 탐색을 이용한 음성인식 장치 및 그 방법

Info

Publication number: KR100764247B1
Application number: KR1020060020754A
Authority: KR
Inventors: 고한석; 정석영
Original assignee: 고려대학교 산학협력단
Priority date: 2005-12-28
Filing date: 2006-03-06
Publication date: 2007-10-08
Also published as: KR20070070000A

Abstract

2단계 탐색을 이용한 음성인식 장치 및 그 방법이 개시된다.

본 발명은 입력된 음성에 대하여 풀에 포함된 소정 개수 이하의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 복수개의 후보 단어들을 생성하는 고속 탐색부, 상기 후보 단어들 중 신뢰도가 높은 순서로 후보 단어들을 추출하는 N-best 후보 생성부 및 상기 추출된 후보 단어들에 대하여 상기 풀에 포함된 소정 개수 이상의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 인식된 단어를 출력하는 정밀 탐색부를 포함한다.

본 발명에 의하면, 음성 인식률을 저하시키지 않으면서 음성 인식의 속도를 향상시킬 수 있고, 전체 시스템의 성능을 향상 시킬 수 있는 효과가 있다.

Description

2단계 탐색을 이용한 음성인식 장치 및 그 방법{Apparatus and Method for speech recognition with two-step search}

도 1은 본 발명의 블럭도이다.

도 2는 도 1의 상세 블럭도이다.

도 3은 본 발명의 흐름도이다.

도 4는 도 3의 고속 탐색과정의 상세 흐름도이다.

도 5는 도 3의 N-best 후보 단어 추출과정의 상세 흐름도이다.

도 6은 도 3의 정밀 탐색과정의 상세 흐름도이다.

<도면의 주요부분에 대한 부호의 설명>

100 : 고속 탐색부 110 : N-best 후보 생성부

130 : 정밀 탐색부

본 발명은 음성인식에 관한 것으로서, 특히 임베디드 플랫폼(embedded platform)에서의 2단계 탐색을 이용한 음성인식 장치 및 그 방법에 관한 것이다.

최근 임베디드 상에서의 음성인식기 구현이 큰 이슈가 되고 있다. 정보통신 기술의 발전으로 개인의 휴대기기 사용이 늘어나고, 첨단 기술이 적용된 가전, 차량, 장난감 등의 제품이 개발 되면서, 음성인터페이스의 도입에 대한 관심이 높아졌기 때문이다.

그러나, 임베디드 시스템의 경우 일반 PC에서의 개발환경보다 자원이 극히 한정되어 있고, 연산속도가 느리기 때문에 대 어휘나 연속어 기반의 음성인식기 구현이 쉽지 않다. 특히, 종래의 음성인식 방법들은 1회의 정교한 비터비 탐색을 통하여 최적의 확률 값을 갖는 1단어를 검출하기 때문에, 자원이 한정된 임베디드 환경에서 대 어휘의 인식을 수행하기에는 높은 인식성능과 빠른 수행속도를 얻기가 어렵다.

또한, 종래의 연속분포 HMM(continuous density Hidden Markov Model)은 많은 양의 메모리를 할당할 수 없고, 인식 성능의 저하를 최소화하기에 용이하지 않으므로, 임베디드 시스템용 음향모델을 설계하기에는 적합하지 않다.

따라서, 종래의 음성인식 방법은 높은 인식성능을 유지하면서 고속의 음성인식을 수행할 수 없는 문제점이 있다.

따라서, 본 발명이 이루고자 하는 첫번째 기술적 과제는 높은 인식 성능을 유지하면서 고속으로 음성 인식을 수행할 수 있는 2단계 탐색을 이용한 음성인식 장치를 제공하는데 있다.

본 발명이 이루고자 하는 두번째 기술적 과제는 상기의 음성인식 장치에 적용된 2단계 탐색을 이용한 음성인식 방법을 제공하는데 있다.

상기의 첫번째 기술적 과제를 이루기 위하여 본 발명은 입력된 음성에 대하여 풀에 포함된 소정 개수 이하의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 복수개의 후보 단어들을 생성하는 고속 탐색부, 상기 후보 단어들 중 신뢰도가 높은 순서로 후보 단어들을 추출하는 N-best 후보 생성부 및 상기 추출된 후보 단어들에 대하여 상기 풀에 포함된 소정 개수 이상의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 인식된 단어를 출력하는 정밀 탐색부를 포함한다.

상기의 두번째 기술적 과제를 이루기 위하여 본 발명은 입력된 음성에 대하여 풀에 포함된 소정 개수 이하의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 복수개의 후보 단어들을 생성하는 단계, 상기 후보 단어들 중 신뢰도가 높은 순서로 후보 단어들을 추출하는 단계 및 상기 추출된 후보 단어들에 대하여 상기 풀에 포함된 소정 개수 이상의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 인식된 단어를 출력하는 단계를 포함한다.

이하에서는 도면을 참조하여 본 발명의 바람직한 실시예를 설명하기로 한다.

도 1은 본 발명의 블럭도이다.

고속 탐색부(100)는 입력된 음성에 대하여 풀(pool)에 포함된 소정 개수 이하의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 복수개의 후보 단어들을 생성한다. 이때, 풀(pool)은 발생가능한 가우시안 분포들의 집합이다.

N-best 후보 생성부(110)는 고속 탐색부(100)에 의해 생성된 후보 단어들 중 신뢰도가 높은 순서로 후보 단어들을 추출한다.

정밀 탐색부(130)는 N-best 후보 생성부(110)에 의해 추출된 후보 단어들에 대하여 풀에 포함된 소정 개수 이상의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 인식된 단어를 출력한다.

도 2는 도 1의 상세 블럭도이다.

고속 탐색부(200)는 입력된 음성에 대하여 풀(pool)에 포함된 소정 개수 이하의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 복수개의 후보 단어들을 생성한다. 이때, 풀(pool)은 발생가능한 가우시안 분포들의 집합이다.

고속 탐색부(200)는 마할라노비스 거리 연산부(201), 가우시안 선택부(202) 및 로그합 연산부(203)를 포함한다.

마할라노비스 거리 연산부(201)는 풀에 포함된 모든 가우시안 분포들에 대해 마할라노비스 거리값들을 연산한다. 바람직하게는, 마할라노비스 거리 연산부(201)는 음성의 프레임마다 추출된 특징벡터와 풀에 포함된 모든 가우시안 분포들 사이의 마할라노비스 거리값들을 연산할 수 있다.

가우시안 선택부(202)는 풀에 포함된 가우시안 분포들 중 마할라노비스 거리값들이 큰 순서로 소정 개수 이하의 가우시안 분포들을 선택한다. 이때, 소정 개수는 음성 인식률을 저하시키지 않으면서 고속 인식을 수행할 수 있는 임계값이다.

로그합 연산부(203)는 가우시안 선택부(202)에 의해 선택된 가우시안 분포들을 이용하여 로그합 연산을 수행한다.

N-best 후보 생성부(210)는 고속 탐색부(200)에 의해 생성된 후보 단어들 중 신뢰도가 높은 순서로 후보 단어들을 추출한다.

N-best 후보 생성부(210)는 NLLR 검증부(211) 및 탐색 공간 생성부(212)를 포함한다.

NLLR 검증부(211)는 후보 단어들의 신뢰도를 연산하여 후보 단어들 중 신뢰도가 임계값 이상인 후보 단어들을 선택한다. 이때, 임계값은 음성 인식의 결과가 신뢰할만한 수준임을 보장할 수 있도록 당업자에 의해 미리 결정된 값이다. 바람직하게는, NLLR 검증부(211)는 후보 단어들의 정규화된 로그 우도 비율(Normalized Log Likelihood Ratio)을 연산하여, 정규화된 로그 우도 비율이 임계값 이상인 후보 단어들을 선택할 수 있다. 이때, 선택된 후보 단어들을 N-best 후보 단어로 정의한다.

탐색 공간 생성부(212)는 NLLR 검증부(211)에 의해 선택된 후보 단어들을 정밀 탐색부(230)로 출력한다.

가우시안 캐쉬 저장부(220)는 연산된 마할라노비스 거리값들을 저장한다. 가우시안 캐쉬 저장부(220)는 마할라노비스 거리값들을 저장하기 위한 휘발성 메모리 소자를 포함할 수 있다.

정밀 탐색부(230)는 N-best 후보 생성부(210)에 의해 추출된 후보 단어들에 대하여 풀에 포함된 소정 개수 이상의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 인식된 단어를 출력한다. 바람직하게는, 정밀 탐색부(230)는 음성의 발화가 완료된 이후에, 비터비 탐색을 수행하여 인식된 단어를 출력할 수 있다.

정밀 탐색부(230)는 가우시안 캐쉬 적용부(231), 로그합 연산부(232) 및 1-best 탐색부(233)를 포함한다.

가우시안 캐쉬 적용부(231)는 가우시안 캐쉬 저장부(220)로부터 마할라노비스 거리값들을 독출하여 로그합 연산부(232)로 출력한다.

로그합 연산부(232)는 비터비 탐색의 출력확률 계산 과정 중 로그합 연산을 수행한다. 또한, 로그합 연산부(232)는 소정 개수 이상의 가우시안 분포들을 이용하여 로그합 연산을 수행한다.

1-best 탐색부(233)는 로그합 연산부(232)에 의한 로그합 연산의 결과 및 가우시안 캐쉬 적용부(231)에 의한 마할라노비스 거리값들을 이용하여 후보 단어들 중 가장 높은 우도를 갖는 1개의 단어를 추출하고, 추출된 단어를 인식된 단어로 출력한다.

바람직하게는, 고속 탐색부(200) 및 정밀 탐색부(230)는 동일한 음향모델을 적용할 수 있다.

도 3은 본 발명의 흐름도이다.

먼저, 음성을 입력받는다(300 과정). 바람직하게는, 이 과정(300 과정)은 음성의 프레임마다 특징벡터를 추출하는 과정을 포함할 수 있다.

다음, 입력된 음성에 대하여 풀에 포함된 소정 개수 이하의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 복수개의 후보 단어들을 생성한다(310 과정). 이때, 풀(pool)은 발생가능한 가우시안 분포들의 집합이다.

후보 단어들이 생성되면, 후보 단어들 중 신뢰도가 높은 순서로 후보 단어들을 추출한다(320 과정).

마지막으로, 추출된 후보 단어들에 대하여 풀에 포함된 소정 개수 이상의 가 우시안 분포들을 이용한 비터비 탐색을 수행하여 인식된 단어를 출력한다(330 과정).

바람직하게는, 후보 단어들을 생성하는 과정(310 과정) 및 인식된 단어를 출력하는 과정(330 과정)은 동일한 음향모델을 적용할 수 있다.

도 4는 도 3의 고속 탐색과정(310 과정)의 상세 흐름도이다.

고속 탐색에서는 복잡한 대어휘 탐색의 신뢰할만한 속도를 보장하기 위해서 소량의 음향 모델링을 사용하여 탐색을 수행한다.

먼저, 풀에 포함된 모든 가우시안 분포들에 대해 마할라노비스 거리값들을 연산한다(411 과정). 이 과정(411 과정)은 음성의 프레임마다 추출된 특징벡터와 모든 가우시안 분포들 사이의 마할라노비스 거리값들을 연산과정일 수 있다.

다음, 풀에 포함된 가우시안 분포들 중 마할라노비스 거리값들이 큰 순서로 소정 개수 이하의 가우시안 분포들을 선택한다(412 과정).

마지막으로, 선택된 가우시안 분포들을 이용하여 로그합 연산을 수행한다(413 과정). 바람직하게는, 이 과정(413 과정)은 로그합 연산에 따라 출력확률이 계산되면, 출력확률에 따라 후보 단어를 생성하는 과정을 포함할 수 있다.

도 5는 도 3의 N-best 후보 단어 추출과정(320 과정)의 상세 흐름도이다.

이 과정(320 과정)은 인식률 저하를 막기 위해 재탐색 과정을 위한 N-best 후보 단어들을 결과로 생성한다.

먼저, 후보 단어들의 신뢰도를 연산한다(521 과정). 이 과정(521 과정)은 후보 단어들의 정규화된 로그 우도 비율(Normalized Log Likelihood Ratio; NLLR)을 연산하는 과정일 수 있다. N-best 생성을 위해 신뢰성 있는 후보 단어들을 선택해야 한다. 효율적으로 신뢰도(confidence measure)를 구하기 위해 NLLR(Normalized Log Likelihood Ratio) 방법을 사용할 수 있다. 즉, NLLR을 신뢰도의 척도로 정의할 수 있다.

정규화된 로그 우도 비율은 다음의 수학식 1에 의해 연산될 수 있다.

이때, NLLRv는 V번째 후보 단어의 정규화된 로그 우도 비율이고, LKv는 V번째 후보 단어의 우도이고, LLv는 v번째 후보 단어의 로그 우도이고, LKmax는 모든 후보 단어들의 최대 우도이고, LLmax는 모든 후보 단어들의 최대 로그 우도이다.

다음, 연산된 신뢰도가 임계값 이상인지 판단한다(522 과정). 이때, 임계값은 음성 인식의 결과가 신뢰할만한 수준임을 보장할 수 있도록 당업자에 의해 미리 결정된 값이다. 신뢰도 있는 후보 단어를 결정하기 위한 수식은 다음과 같다.

NLLRv > Th

임계값(Th)은 실험에 의해 미리 결정된다. 이때, NLLR이 임계값(Th)보다 큰 v번째 단어가 정밀 탐색을 위한 후보 단어들로 선정된다.

마지막으로, 후보 단어들 중 신뢰도가 임계값 이상인 후보 단어들을 선택한다(523 과정). 이때, 선택된 후보 단어들을 N-best 후보 단어로 정의한다.

도 6은 도 3의 정밀 탐색과정(330 과정)의 상세 흐름도이다.

먼저, 소정 개수 이상의 가우시안 분포들을 이용하여 로그합 연산을 수행한다(631 과정). 로그합 연산 과정(631 과정)은 비터비 탐색에서 출력확률 계산을 위해 필요한 과정이다.

다음, 위 로그합 연산의 결과 및 고속 탐색과정(310 과정)에서 연산된 마할라노비스 거리값들을 이용하여 후보 단어들 중 가장 높은 우도를 갖는 1개의 단어를 추출하고, 추출된 단어를 인식된 단어로 출력한다(632 과정). 이때, 인식된 단어를 1-best 단어로 정의한다. 이 과정(632 과정)은 음성의 발화가 완료된 이후에, 상기 비터비 탐색을 수행하여 인식된 단어를 출력할 수 있다.

이와 같은 본 발명의 음성인식에 필요한 탐색 과정을 위해 임베디드 플랫폼에 사용될 적절한 음향모델 선택이 필요하다.

본 발명은 반 연속 HMM(SCHMM) 모델 기법을 도입하고, 공유분포(tied-mixture) 모델링 방법을 통하여 구현할 수 있다. 또한, 문맥종속 모델(triphone)을 적용하여 앞 뒤 문맥에 따른 조음효과를 최대한 반영하고, 문맥종속 모델(triphone) 훈련시의 데이터 부족 현상을 방지하면서 동시에 학습에 나타나지 않은 데이터의 부족 문제를 해결하기 위해 결정 트리 기반의 상태 공유(state tying)기법을 적용할 수 있다. 이렇게 구성된 음향 모델은 CHMM 모델 크기의 60% 정도의 크기를 가지면서 인식 성능은 1% 미만의 범위로 줄어든 것을 확인할 수 있다.

본 발명에서 탐색 방법은 비터비 탐색방법을 사용한다. 비터비 탐색에서는 거의 대부분의 연산시간이 출력확률 계산에 소요된다. 출력확률 계산은 각 가우시 안에서의 마할라노비스 거리 연산(분산을 고려한 유클리디안 거리 계산) 부분과 이 값의 로그 합(log-add) 연산 부분으로 나누어질 수 있다. 공유분포(tied-mixture) 기반의 상태 출력확률 연산과정은 발생가능한 가우시안들의 집합인 풀(pool)에 존재하는 가우시안들을 공유하고 각 분포들의 가중치를 모두 더하여 계산하므로, 실질적으로는 로그 합 연산이 가장 많은 연산 시간을 필요로 한다.

본 발명의 일 실시예에 따르면, 디코딩 시간을 단축시키기 위해서는 로그 합에 참여시키는 가우시안들을 적절하게 선택하여 계산할 수 있다. 즉, 매 프레임마다 특징벡터가 입력되면, 풀에 존재하는 모든 가우시안들에 대하여 마할라노비스 거리 연산을 수행한 후, 이 값들의 순위가 높은 순서로 정렬하여 상위부터 문턱 값만큼 선택할 수 있다. 이 분포들에 대해서만 로그 합 연산에 참여시키므로 계산량을 단축시킬 수 있다. 문턱 값은 고속 탐색 및 정밀 탐색의 특성에 맞도록 선택한다.

또한, 마할라노비스 연산 과정은 고속 탐색 및 정밀 탐색 모두 동일한 특징벡터로 계산하기 때문에 고속 탐색에서 계산한 값을 그대로 정밀 탐색에 적용할 수 있다. 따라서, 재탐색 시간을 대폭 단축할 수 있다.

수학식 3은 공유분포(tied-mixture) 기반의 가우시안 선택에 대한 수식이다.

이때, bs는 선택된 가우시안이고, i는 인덱스이고, Ws를 가중치이고, Xt는 현재 음성의 관측값이고, μi는 평균값이고, Σi는 분산값이다.

본 발명의 다른 실시예에 따르면, 고속 탐색을 위해서 가우시안 거리값 계산을 통한 상위 가우시안 분포를 선택할 수 있다. 예를 들어, 고속 탐색에서는 상위 4개의 분포만을 선택하여 출력 확률값을 계산할 수 있다.

본 발명의 또다른 실시예에 따르면, 가우시안의 마할라노비스 거리 계산값들을 크기에 따라 정렬한 결과를 매 프레임마다 임시 저장공간인 캐쉬(cache)에 저장시켰다가 정밀 탐색에 그대로 적용할 수 있다.

정밀 탐색에서는 고속 탐색에서 얻어진 N-best 후보 단어를 가지고 재탐색을 진행한다. 예를 들어, N-best 후보 단어들이 최대 20개 정도이기 때문에, 소규모의 탐색 공간을 가지고 보다 정교한 탐색 과정을 수행할 수 있다. 정밀 탐색에서도 비터비 탐색을 수행할 수 있다. 예를 들어, 출력 확률을 얻기 위해 가우시안 분포의 개수를 고속 탐색보다 많은 상위 32개를 선택하여 계산할 수 있다.

본 발명의 또다른 실시예에 따르면, 고속 탐색은 이미 음성 발화가 끝난 이후의 결과에 대해 비 실시간 시에 수행되는 재탐색 과정이므로 사용자가 기다리는 시간을 최소화 시키는 것이 중요하다. 흔히 화자가 발음한 음성의 길이를 1배속 실시간(xRT)이라고 하면, 발화가 끝난 후 0.4xRT까지가 사용자가 실시간이라고 생각하면서 기다릴 수 있는 최대 대기시간이다.

본 발명의 또다른 실시예에 따르면, 구현된 시스템에서는 두 단계 탐색 모두 동일한 음향 모델로부터 얻어진 값을 사용하기 때문에, 고속 탐색에서 얻어진 가우 시안 거리 계산 값을 정밀 탐색에서 그대로 사용할 수 있다. 이에따라, 재탐색 시간을 대폭 단축할 수 있다. 예를 들어, 0.4xRT 이내에 정밀 탐색의 수행이 종료되므로, 사용자가 느끼는 실시간 내에 대 어휘 시스템의 인식 결과를 얻을 수 있다.

표 1은 종래의 비터비 탐색 및 본 발명의 2단계의 탐색에 따른 음성인식 결과의 속도 및 인식률을 나타내는 표이다.

탐색과정	가우시안 개수		인식률(%)	평균 수행시간 (μsec)
탐색과정	고속 탐색	정밀 탐색	인식률(%)	평균 수행시간 (μsec)
2단계 탐색	4	32	93.31	1,805,876
	8	32	93.64	1,966,436
	16	32	93.72	2,242,341
	32	32	93.76	2,458,194
종래의 비터비 탐색	32		93.74	2,418,897

표 1은 종래의 비터비 탐색 방법과 비교하여 고속 탐색에서 선택되는 가우시안의 개수를 4개에서 32개 까지 증가시키면서 실험하고, 정밀 탐색에서는 32개를 선택하여 실험한 결과이다. 각 단계마다 평균 수행시간을 기록하여 인식시간의 속도향상을 살펴보았다.

위 결과를 보면 2단계 탐색이 종래의 비터비 탐색보다 약간 낮은 성능을 보이지만, 평균 수행시간은 0.7배 정도 빨라졌음을 볼 수 있다. 인식성능의 큰 하락 없이 전체 인식속도가 크게 향상되었음을 알 수 있다.

바람직하게는, 본 발명의 2단계 탐색을 이용한 음성인식 방법을 컴퓨터에서 실행시키기 위한 프로그램은 컴퓨터로 읽을 수 있는 기록매체에 기록되어 제공될 수 있다.

본 발명은 소프트웨어를 통해 실행될 수 있다. 소프트웨어로 실행될 때, 본 발명의 구성 수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독 가능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다.

본 발명은 도면에 도시된 일 실시예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.

상술한 바와 같이, 본 발명에 의하면, 임베디드 플랫폼과 같은 제한된 연산 환경에서 대 어휘의 음성 인식을 구현할 때 고속 탐색 과정을 통해 생성된 후보 단어를 대상으로 정밀 탐색 과정을 거쳐 인식하므로, 음성 인식률을 저하시키지 않으면서 음성 인식의 속도를 향상시킬 수 있고, 동시에 전체 시스템의 성능을 향상 시킬 수 있는 효과가 있다.

Claims

입력된 음성에 대하여 풀에 포함된 특정 개수(이하 "N1"이라 함)의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 복수개의 후보 단어들을 생성하는 고속 탐색부;

상기 후보 단어들 중 신뢰도가 높은 순서로 후보 단어들을 추출하는 N-best 후보 생성부; 및

상기 추출된 후보 단어들에 대하여 상기 풀에 포함된 특정 개수(이하 "N2"이라 함)의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 인식된 단어를 출력하는 정밀 탐색부를

포함하는 2단계 탐색을 이용한 음성인식 장치.
제 1 항에 있어서,

상기 N1은 상기 N2보다 작거나 같은 것을 특징으로 하는 2단계 탐색을 이용한 음성인식 장치.
제 2 항에 있어서,

상기 고속 탐색부는

상기 풀에 포함된 모든 가우시안 분포들에 대해 마할라노비스 거리값들을 연산하는 마할라노비스 거리 연산부;

상기 풀에 포함된 가우시안 분포들 중 상기 마할라노비스 거리값들이 큰 순서로 상기 N1 개의 가우시안 분포들을 선택하는 가우시안 선택부; 및

상기 선택된 가우시안 분포들을 이용하여 로그합 연산을 수행하는 로그합 연산부를 포함함을 특징으로 하는 2단계 탐색을 이용한 음성인식 장치.
제 3 항에 있어서,

상기 연산된 마할라노비스 거리값들을 저장하는 가우시안 캐쉬 저장부를 더 포함하고,

상기 정밀 탐색부는

상기 가우시안 캐쉬 저장부로부터 마할라노비스 거리값들을 독출하는 가우시안 캐쉬 적용부를 포함함을 특징으로 하는 2단계 탐색을 이용한 음성인식 장치.
제 3 항에 있어서,

상기 마할라노비스 거리 연산부는

상기 음성의 프레임마다 추출된 특징벡터와 상기 모든 가우시안 분포들 사이의 마할라노비스 거리값들을 연산하는 것을 특징으로 하는 2단계 탐색을 이용한 음성인식 장치.
제 3 항에 있어서,

상기 정밀 탐색부는

상기 N2 개의 가우시안 분포들을 이용하여 로그합 연산을 수행하는 로그합 연산부; 및

상기 로그합 연산의 결과 및 상기 마할라노비스 거리값들을 이용하여 상기 후보 단어들 중 가장 높은 우도를 갖는 1개의 단어를 추출하고, 상기 추출된 단어를 상기 인식된 단어로 출력하는 1-Best 탐색부를 포함함을 특징으로 하는 2단계 탐색을 이용한 음성인식 장치.
제 2 항에 있어서,

상기 N-best 후보 생성부는

상기 후보 단어들의 신뢰도를 연산하여 상기 후보 단어들 중 상기 신뢰도가 임계값 이상인 후보 단어들을 선택하는 NLLR 검증부; 및

상기 선택된 후보 단어들을 상기 정밀 탐색부로 출력하는 탐색 공간 생성부를 포함함을 특징으로 하는 2단계 탐색을 이용한 음성인식 장치.
제 7 항에 있어서,

상기 NLLR 검증부는

상기 후보 단어들의 정규화된 로그 우도 비율을 연산하여, 상기 정규화된 로그 우도 비율이 임계값 이상인 후보 단어들을 선택하는 것을 특징으로 하는 는 2단계 탐색을 이용한 음성인식 장치.
제 2 항에 있어서,

상기 고속 탐색부 및 정밀 탐색부는

동일한 음향모델을 적용함을 특징으로 하는 2단계 탐색을 이용한 음성인식 장치.
제 2 항에 있어서,

상기 정밀 탐색부는

상기 음성의 발화가 완료된 이후에, 비터비 탐색을 수행하여 인식된 단어를 출력하는 것을 특징으로 하는 2단계 탐색을 이용한 음성인식 장치.
입력된 음성에 대하여 풀에 포함된 특정 개수(이하 "N1"이라 함)의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 복수개의 후보 단어들을 생성하는 단계;

상기 후보 단어들 중 신뢰도가 높은 순서로 후보 단어들을 추출하는 단계; 및

상기 추출된 후보 단어들에 대하여 상기 풀에 포함된 특정 개수(이하 "N2"이라 함)의 가우시안 분포들을 이용한 비터비 탐색을 수행하여 인식된 단어를 출력하는 단계를 포함하는

2단계 탐색을 이용한 음성인식 방법.
제 11 항에 있어서,

상기 N1은 상기 N2보다 작거나 같은 것을 특징으로 하는 2단계 탐색을 이용한 음성인식 방법.
제 12 항에 있어서,

상기 후보 단어들을 생성하는 단계는

상기 풀에 포함된 모든 가우시안 분포들에 대해 마할라노비스 거리값들을 연산하는 단계;

상기 풀에 포함된 가우시안 분포들 중 상기 마할라노비스 거리값들이 큰 순서로 상기 N1 개의 가우시안 분포들을 선택하는 단계; 및

상기 선택된 가우시안 분포들을 이용하여 로그합 연산을 수행하는 단계를 포함함을 특징으로 하는 2단계 탐색을 이용한 음성인식 방법.
제 13 항에 있어서,

상기 마할라노비스 거리값들을 연산하는 단계는

상기 음성의 프레임마다 추출된 특징벡터와 상기 모든 가우시안 분포들 사이의 마할라노비스 거리값들을 연산하는 단계인 것을 특징으로 하는 2단계 탐색을 이용한 음성인식 방법.
제 13 항에 있어서,

상기 인식된 단어를 출력하는 단계는

상기 N2 개의 가우시안 분포들을 이용하여 로그합 연산을 수행하는 단계; 및

상기 로그합 연산의 결과 및 상기 마할라노비스 거리값들을 이용하여 상기 후보 단어들 중 가장 높은 우도를 갖는 1개의 단어를 추출하고, 상기 추출된 단어를 상기 인식된 단어로 출력하는 단계인 것을 특징으로 하는 2단계 탐색을 이용한 음성인식 방법.
제 12 항에 있어서,

상기 후보 단어들을 추출하는 단계는

상기 후보 단어들의 신뢰도를 연산하는 단계; 및

상기 후보 단어들 중 상기 신뢰도가 임계값 이상인 후보 단어들을 선택하는 단계를 더 포함함을 특징으로 하는 2단계 탐색을 이용한 음성인식 방법.
제 16 항에 있어서,

상기 신뢰도를 연산하는 단계는

상기 후보 단어들의 정규화된 로그 우도 비율을 연산하는 단계인 것을 특징으로 하는 2단계 탐색을 이용한 음성인식 방법.
제 17 항에 있어서,

상기 정규화된 로그 우도 비율을 연산하는 단계는

T가 인식될 음성의 프레임 개수이고, NLLRv가 V번째 후보 단어의 정규화된 로그 우도 비율이고, LKv 가 V번째 후보 단어의 우도이고, LLv 가 v번째 후보 단어의 로그 우도이고, LKmax가 모든 후보 단어들의 최대 우도이고, LLmax가 모든 후보 단어들의 최대 로그 우도인 경우에,

의 식을 이용하여 상기 정규화된 로그 우도 비율을 연산하는 단계인 것을 특징으로 하는 2단계 탐색을 이용한 음성인식 방법.
제 12 항에 있어서,

상기 후보 단어들을 생성하는 단계 및 상기 인식된 단어를 출력하는 단계는

동일한 음향모델을 적용함을 특징으로 하는 2단계 탐색을 이용한 음성인식 방법.
제 12 항에 있어서,

상기 인식된 단어를 출력하는 단계는

상기 음성의 발화가 완료된 이후에, 상기 비터비 탐색을 수행하여 인식된 단어를 출력하는 단계인 것을 특징으로 하는 2단계 탐색을 이용한 음성인식 방법.
제 11 항 내지 제 20 항 중 어느 한 항에 기재된 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.