KR100397435B1

KR100397435B1 - 음성인식시스템에서새로운등록단어처리가가능한클래식를이용한언어학적모델처리방법

Info

Publication number: KR100397435B1
Application number: KR1019960029444A
Authority: KR
Inventors: 홍준모
Original assignee: 엘지전자 주식회사
Priority date: 1996-07-20
Filing date: 1996-07-20
Publication date: 2003-12-24
Also published as: KR980011006A

Abstract

본 발명은 음성인식 시스템에서 새로운 단어의 추가에 따라 등록클래스를 생성하여 언어학적 모델을 처리하는 방법에 관한 것이다.

이를 위하여, 본 발명은 새로운 단어가 등록될 시 새로운 등록 클래스를 설정하여 상기 등록클래스의 연결 확률 및 단어의 발생 확률을 결정하여 언어학적 모델을 처리한다.

Description

음성인식 시스템에서 새로운 등록단어 처리가 가능한 클래스를 이용한 언어학적 모델처리방법

본 발명은 음성 인식 시스템에 있어서, 새로운 단어의 추가에 따라 등록 클래스를 생성하여 언어학적 모델을 처리하는 방법에 관한 것이다.

일반적으로 음성 인식 시스템에서 음성 인식을 하기 위해서 언어학적 모델(language model)을 처리한다. 언어학적 모델(language model)이란 단어들의 시퀀스(sequence)가 있을 때 그것들이 나올 수 있는 확률을 계산하는 수식과 확률을 구하기까지의 일련의 과정으로 정의할 수 있다. 통상적으로 문장을 구성하고 있는 단어의 시퀀스가 발생될 확률을 구하는 동작을 제1도를 참조하여 설명하면, 먼저 101단계에서 키보드를 이용하여 인식할 단어의 범위와 수를 결정하고 이 단어들이 들어 있는 문장을 구성한다. 그리고 102단계에서 언어학적 모델에서 사용되는 수식과 주어진 학습문장의 정보를 이용하여 단어상호간의 연결확률을 결정한다. 그런 후 103단계에서 단어상호간의 연결확률이 결정되면 그것을 이용하여 발생할 문장확률을 계산한다. 언어학적 모델은 음향학적 지식을 통해 구해진 단어들의 여러 시퀀스 가운데서 발생 가능한 가장 합리적인 후보를 찾기 위해 사용한다. 언어학적 모델(language model)중에서 이전의 N개의 단어가 현재 나타나는 단어의 확률에 영향을 끼친다고 가정한 모델을 N-gram language model이라 한다. 즉 w1부터 wN까지의 같은 단어들이 순차적으로 나온다고 가정하면, 이것이 나올 확률은 하기 식<1>에 의해 구해진다.

N-gram model중에서도 직 전의 1단어에 의해 확률이 결정되는 bigram model과 직전의 2단어에 의한 확률이 결정되는 trigram model이 많이 사용된다. 그런데, 대상 단어의 수가 많아지면 모든 biram과 trigram을 다루기가 힘들다. 이는 학습문장이 무한개의 단어열을 가지지 못했기 때문에 존재하지 않는 bigram과 trigram이 있을 경우가 많을 뿐만 아니라 다루어야 하는 정보의 양도 너무 많아 현재의 시스템에서 효과적으로 구현하기가 어렵기 때문이다. 따라서 단어들을 몇 개씩 나눈 집합을 클래스라 하는데, 이 클래스를 이용하여 단어에 대한 발생확률을 구하기 위한기술이 나오게 되었다. 이 클래스를 이용하여 단어에 대한 발생확률을 구하는 동작을 제2도를 참조하여 설명하면, 201단계에서 키보드를 이용하여 인식할 단어의 범위와 수를 결정하고 이 단어들이 들어 있는 학습문장을 구성한다. 그리고 202단계에서 구성한 학습문장에 대한 일정수의 클래스를 정하여 클래스 상호간의 연결확률과 클래스 내에서 단어가 발생할 확률을 식<2>에 의해 결정한다. 단어가 발생할 확률을 결정하기 위해서는 식 <2>와 같이 w₁이란 단어 뒤에 w₂가 올 확률은 w₁이 속하는 클래스 g₁뒤에 w₂가 속한 클래스 g₂가 올 확률에다가 클래스 g₂내에서 w₂가 나을 확률을 곱하면 된다.

그런 후 204단계에서는 이와 같이 결정된 단어가 발생할 확률을 이용하여 발생할 문장확률을 구한다. 그런데 상기와 같은 종래의 방법은 단어가 발생될 확률이 결정되어 있는 상태에서 새로운 단어가 추가되면 이미 결정된 클래스를 가지고 새로운 단어에 대한 발생확률을 구할 수 없는 문제점이 있다.

따라서 본 발명의 목적은 음성 인식 시스템에서 새로운 단어의 추가에 따라 등록클래스를 생성하여 언어학적 모델을 처리하는 방법을 제공함에 있다.

본 발명의 다른 목적은 새로운 단어가 추가될 시 단어열의 발생확률을 계산할 수 있는 언어학적 모델 처리방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명은 새로운 단어가 등록될 시 새로운 등록 클래스를 설정하여 등록클래스의 연결 확률 및 단어의 발생 확률을 결정하여 언어학적 모델을 처리함을 특징으로 한다.

이하 본 발명을 첨부한 도면을 참조하여 본 발명의 바람직한 일 실시 예를 상세히 설명한다.

제3도는 본 발명의 실시 예에 따른 음성 인식 시스템의 블록 구성도이다.

키보드 10는 음성인식을 위한 각종 기능키를 발생하여 CPU 12로 인가한다. 롬 14는 음성인식을 위해 등록된 클래스에 따라 단어의 발생확률을 결정하기 위한 프로그램을 저장하고 있다. 램 16은 단어의 발생확률을 결정하기 위한 각종 데이타를 일시적으로 저장한다. CPU 12는 새로이 등록되는 단어를 입력받아 새로운 클래스를 생성하여 클래스 내에 첨가된 단어의 확률을 계산할 수 있도록 제어한다. 마이크 18는 인식할 음성신호를 전기적신호로 변환한다. A/D변환기 20는 전기적신호 변환된 음성신호를 디지탈 신호로 변환하여 상기 CPU 12로 인가한다. 모니터 22는 CPU 12의 제어에 의해 각종 데이타를 디스플레이한다.

제4도는 본 발명의 실시 예에 적용되는 언어학적 모델처리 제어 흐름도이다.

상술한 제3도 및 제4도를 참조하여 본 발명의 바람직한 일 실시 예의 동작을 상세히 설명한다.

먼저 301단계에서 키보드 10을 통해 새로운 단어를 입력하면 CPU 12로 인가되어 CPU 12는 램 16에 새로운 단어를 등록시킨다. 그런 후 302단계에서 CPU 12는 첫 번째 새로운 단어가 등록되었는가 검색한다. 이때 첫 번째 단어등록이 아니면 303단계로 진행하여 CPU 12는 새로운 등록클래스를 설정할 것인가 검색한다. 새로운 등록 클래스를 설정할 것이 아니면 304단계로 진행하여 그 단어가 가지고 있는문법적 성질이 현재 존재하는 등록클래스의 성질과 동일하면 새로운 클래스를 생성하지 않아도 되므로, 기존 클래스 내에 단어를 삽입하고 306단계로 진행한다. 그리고 303단계에서 새로운 등록 클래스 설정이면 305단계로 진행하여 새로운 등록 클래스를 등록한다. 즉, 단어의 집합이 정해지고 K개의 클래스로 나누어 문장을 학습시켰다고 가정하면 현재 K개의 클래스가 존재하므로 최초의 새로운 단어가 등록되면 K+1번째의 새로운 클래스가 생성된다. 다음으로 306단계에서 등록 클래스가 새로 생성될 때마다 다른 모든 클래스들과의 상호 연결확률 및 단어의 발생확률을 결정한다. 즉, 등록 클래스 g_R1이 새로 첨가되었다면 bigram의 경우 현재 존재하는 모든 클래스 i에 대해 Pr(g_i/g_R1)과 Pr(g_R1/g_i)을 구해준다. 이러한 확률을 구하는 방법은 여러 가지가 있으나 일예로 기존의 K개의 클래스 중에서 성질이 가장 비슷한 것 1개를 본뜨거나 여러 개의 평균을 구할 수 있다. 그런 후 307단계에서 클래스 내에 첨가된 단어에 대하여 그 클래스 내에서 첨가된 단어가 발생될 문장확률을 정한다.

이와 같이 본 발명은, 음성인식 시스템에서 새로운 추가 단어에 대한 단어간 연결확률을 결정할 시 새로운 단어의 추가에 따라 등록클래스를 생성하여 문장을 이용한 별도의 학습없이도 음성인식률을 향상시킬수 있는 잇점이 있다.

제1도는 일반적인 문장을 구성하고 있는 단어의 시퀀스가 발생될 확률을 구하기 위한 제어 흐름도

제2도는 일반적인 클래스를 이용하여 단어에 대한 발생확률을 구하기 위한 제어 흐름도

제3도는 본 발명의 실시 예에 따른 음성인식 시스템의 블럭구성도

제4도는 본 발명의 실시 예에 적용되는 언어학적 모델처리 제어 흐름도

Claims

음성인식 시스템에서 새로운 등록단어 처리가 가능한 클래스를 이용한 언어학적 모델처리방법에 있어서,

새로운 단어가 등록될 시 새로운 등록 클래스를 설정하여 상기 등록클래스의 연결 확률 및 단어의 발생 확률을 결정하여 언어학적 모델을 처리함을 특징으로 하는 방법.
음성인식 시스템에서 새로운 등록단어 처리가 가능한 클래스를 이용한 언어학적 모델처리방법에 있어서,

사용자에 의해 단어가 등록될 시 최초의 새로운 단어인지 검색하는 과정과,

상기 등록된 단어가 최초의 새로운 단어일 경우 새로운 등록 클래스를 생성하는 과정과,

상기 등록된 단어가 최초의 새로운 단어가 아닐 경우 새로운 등록클래스를 설정할 것인지 여부를 검출하는 과정과,

상기 새로운 등록 클래스를 설정할 경우 새로운 등록 클래스를 생성하는 과정과,

상기 새로운 등록클래스를 생성한 후 상기 등록클래스의 연결확률 및 단어의 발생확률을 결정하는 과정으로 이루어 짐을 특징으로 하는 방법.