KR20010077042A

KR20010077042A - 트리 구조의 단어사전을 갖는 연속음성 인식 장치

Info

Publication number: KR20010077042A
Application number: KR1020000004573A
Authority: KR
Inventors: 유하진
Original assignee: 구자홍; 엘지전자주식회사
Priority date: 2000-01-31
Filing date: 2000-01-31
Publication date: 2001-08-17

Abstract

본 발명은 연속음성 인식 시스템에 관한 것으로 특히, 단어의 품사에 따라 발음 사전을 각각의 트리 구조로 표현하여 메모리 사용량을 줄이고 탐색시간을 빠르게 하는 방법에 관한 것으로, 연속음성 입력수단과, 입력된 음성에서 특징 파라메터를 추출하는 특징 파라메터 추출수단과, 단어사전 DB 및 언어모델 DB를 이용하여 상기 특징 파라메터와 가장 유사한 단어열을 선정하는 유사 단어열 선정 수단을 포함하는 연속음성 인식 장치에 있어서, 상기 단어 사전 DB에 저장되는 음소는 품사에 따라 나누고 각각 분리된 트리 구조로 저장되어 있는 것을 특징으로 하는 트리 구조의 단어사전을 갖는 연속음성 인식 장치을 제공하기 위한 것이다.

Description

트리 구조의 단어사전을 갖는 연속음성 인식 장치 {Speech recognition apparatus with tree style wordbook}

본 발명은 연속음성 인식 시스템에 관한 것으로 특히, 단어의 품사에 따라 발음 사전을 각각의 트리 구조로 표현하여 메모리 사용량을 줄이고 탐색시간을 빠르게 하는 방법에 관한 것이다.

연속음성 인식 장치는 타자기의 키보드를 사용하지 않고 마이크를 통하여 타이핑하기 원하는 내용을 음성으로 읽음으로써 문장을 인식하도록 하는 시스템을 의미한다. 도1은 연속음성 인식 시스템의 개략적인 블럭도를 나타낸 것으로 연속음성입력수단(1)과, 입력된 음성에서 특징 파라메터를 추출하는 특징 파라메터 추출수단(2)과, 단어사전 DB(3) 및 언어모델 DB(4)를 이용하여 상기 특징 파라메터와 가장 유사한 단어열을 선정하는 유사 단어열 선정 수단(5)과, 상기 선정된 단어열을 표시하기 위한 인식결과 출력수단(6)으로 구성된다.

이와같이 구성된 일반적인 연속음성 인식 장치의 동작을 간략히 설명하면 다음과 같다.

먼저 음성 특징 파라메터 추출 수단(2)에서는 마이크 등과 같은 연속음성 입력 수단(1)을 통해 음성을 입력받아서 메모리(도면 미도시)에 이진수로 저장한 다음, 신호 처리 과정을 거쳐서 음성 인식에 필요한 음성 특징 파라메터를 추출한다.

그 후, 상기 유사 단어열 선정 수단(5)에서는 단어사전 DB(3)와 언어모델 DB(3)를 이용하여 입력된 음성과 가장 유사한 발음을 갖는 단어열을 선정하게 된다.

여기서, 단어 사전 DB(3)에는 일반적으로 많이 쓰이는 단어의 발음 기호를 저장하여 놓고 상기 추출한 음성 특징 파라메터로 부터 단어 사전에 정의된 발음 방법과 가장 유사한 단어를 찾아내게 된다. 또한 문법 정보인 언어모델을 이용함으로써 문장내의 문맥상 가장 적당한 단어를 찾아내게 되는 것이다. 상기 언어모델은 일정길이의 단어열 다음에 어떤 단어가 나올 수 있는 확률로 표현한다.

일반적으로 언어모델은 문장 내에서 임의의 단어열 다음에 어떤 단어가 나올 확률로 표현한다. 하나의 단어 다음에 다른 단어가 나오는 확률을 표현한 것을 바이그램(bigram), 두개의 연속된 단어 다음에 다른 단어가 나오는 확률을 표현한 것을 트라이그램(trigram) 이라고 부르며, 일반적으로 n-1 개의 연속된 단어

w_n, w_n-1,..., w₂에 이어서 다른 단어 w₁가 나오는 확률

p(w₁|w_n, w_n-1,..., w₂) 을 엔 그램(n-gram) 이라고 부른다.

단어사전에는 인식기가 인식할 수 있는 단어목록에 발음기호를 음소단위로 표현하고, 인식된 음소와 사전 내의 단어의 음소열을 비교하여 가장 가까운 단어를 찾아낸다. 이때 서로 다른 단어들 중에 시작부분이 같은 단어들을 묶어서 도면 2와 같이 트리구조로 표현하면 메모리 사용량을 줄이고 인식 속도를 빠르게 할 수 있다. 그런데, 트리구조의 발음사전에서는 단어의 끝부분의 공유되지 않는 음소열에 다다를 때 까지는 단어를 구분할 수 없으므로, 단어의 시작부분에서는 언어모델을 적용할 수 없는 문제점이 있다.

본 발명의 목적은 종래의 이러한 문제점을 해결하기 위하여 연속음성 인식 장치에서, 단어의 품사에 따라 다른 트리 구조의 사전을 만들어 단어의 시작부분에서 품사 단위의 언어모델을 적용하게 함으로써 필요한 기억용량을 줄이고 인식 속도를 빠르게 하는데 있다.

본 발명에 따른 연속음성 인식 장치의 특징은 단어사전 DB를 트리형태로 구성하되, 단어의 품사에 따라 서로 다른 트리구조를 만들어 저장하여 단어의 시작부분에서 품사 단위의 언어모델을 적용할 수 있게 함으로써 필요한 기억용량을 줄이고 인식 속도를 빠르게 하는데 있다.

본 발명의 또 다른 특징은 연속음성 입력수단과, 입력된 음성에서 특징 파라메터를 추출하는 특징 파라메터 추출수단과, 단어사전 DB 및 언어모델 DB를 이용하여 상기 특징 파라메터와 가장 유사한 단어열을 선정하는 유사 단어열 선정 수단을 포함하는 연속음성 인식 장치에 있어서, 상기 단어 사전 DB에 저장되는 음소는 품사에 따라 나누고 각각 분리된 트리 구조로 저장되어 있는 것을 특징으로 하는 트리 구조의 단어사전을 갖는 연속음성 인식 장치를 제공하는 데 있다.

도1은 일반적인 연속음성 인식 장치의 개략도

도2는 본 발명의 트리구조 단어사전의 구성도임.

=== 도면의 주요 부분에 대한 부호의 설명 ====

1 : 연속음성 입력 수단 2 : 특징 파라메터 추출수단

3 : 단어사전 DB(3) 4 : 언어모델 DB

5 : 유사 단어열 선정 수단 6 : 인식결과 출력수단

이하 본 발명의 실시예를 도면을 참조하여 설명하면 다음과 같다.

본 발명의 구성은 도1과 같은 일반적인 연속음성 인식 장치와 동일하다. 그러나 본 발명에서는 단어 사전 DB를 구축할 때 각 단어를 품사에 따라 다른 트리 구조의 사전을 만들어 저장시킨다. 이렇게 품사에 따라 다른 트리 구조의 사전을 만드는 이유는 시작점에서도 단어의 품사를 미리 알 수 있으므로 품사 단위의 언어모델을 적용할 수 있도록 하기 위한 것이다.

본 발명의 동작을 설명하면 다음과 같다. 먼저 음성 특징 파라메터 추출 수단(2)에서는 마이크 등과 같은 연속음성 입력 수단(1)을 통해 음성을 입력받아서 메모리(도면 미도시)에 이진수로 저장한 다음, 신호 처리 과정을 거쳐서 음성 인식에 필요한 음성 특징 파라메터를 추출한다. 그 후, 상기 유사 단어열 선정 수단(5)에서는 단어사전 DB(3)와 언어모델 DB(3)를 이용하여 입력된 음성과 가장 유사한 발음을 갖는 단어열을 선정하게 된다.

여기서 단어사전 DB의 구조는 도2와 같다. 일반적으로는 트리의 루트에 있는 'ㄱ'만으로서는 단어를 구분 할 수 없고 트리의 끝까지 가야만 단어를 구분할 수 있다. 그러나, 도2와 같이 트리가 명사, 동사, 부사 등과 같이 품사로 나누어져 있으면 시작점에서도 단어의 품사를 미리 알 수 있으므로 품사 단위의 언어모델을 적용할 수 있게 된다. 따라서 문법에 맞지 않는 품사의 열은 미리 제거한 후 단어열을 선정할 수 있으므로 인식 속도를 향상 시킬 수 있게 된다.

품사 단위 언어모델이란 문장 내에서 하나의 품사 또는 품사열 다음에 다른 품사가 나올 수 있는 확률로 표현한 것을 말한다.

이상에서 설명한 바와 같이 본 발명을 적용한 트리 구조의 단어사전을 갖는 연속음성 인식 장치는 단어 사전 DB를 품사에 따라 나누고 각각 분리된 트리 구조로 저장하므로써 트리의 시작점에서도 단어의 품사를 미리 알 수 있고 품사 단위의 언어모델을 적용할 수 있어 메모리의 사용량을 줄일 수 있으며 인식 속도를 향상 시킬 수 있는 효과가 있는 것이다.

Claims

연속음성 입력수단과, 입력된 음성에서 특징 파라메터를 추출하는 특징 파라메터 추출수단과, 단어사전 DB 및 언어모델 DB를 이용하여 상기 특징 파라메터와 가장 유사한 단어열을 선정하는 유사 단어열 선정 수단을 포함하는 연속음성 인식 장치에 있어서, 상기 단어 사전 DB에 저장되는 음소는 품사에 따라 나누고 각각 분리된 트리 구조로 저장되어 있는 것을 특징으로 하는 트리 구조의 단어사전을 갖는 연속음성 인식 장치.
제1항에 있어서, 상기 유사 단어열 선정 수단은 품사 단위의 언어모델을 적용하여 문법에 맞지 않는 품사의 열은 미리 제거하고 인식을 수행하는 것을 특징으로 하는 트리 구조의 단어사전을 갖는 연속음성 인식 장치.