KR100277690B1

KR100277690B1 - 화행 정보를 이용한 음성 인식 방법

Info

Publication number: KR100277690B1
Application number: KR1019980052256A
Authority: KR
Inventors: 권오욱; 박준; 황규웅
Original assignee: 정선종; 한국전자통신연구원
Priority date: 1998-12-01
Filing date: 1998-12-01
Publication date: 2001-01-15
Also published as: KR20000037625A

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 화행 정보를 이용한 음성 인식 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은 이전에 인식된 대화의 화행 정보로부터 현재 발성된 내용의 화행 정보를 예측하고 이 화행 정보에 따라 언어모델을 변경하므로써 음성 인식기의 정확도를 향상시키기 위한 음성 인식 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.

3. 발명의 해결방법의 요지

본 발명은, 이전에 인식된 대화의 화행 정보로부터 현재 발성된 내용의 화행 정보를 예측하기 위한 화행 추정 파라미터를 구하는 제 1 단계; 화행 추정 파라미터를 언어모델에 반영하는 제 2 단계; 입력 음성을 1차로 인식한 후에, 1차 음성 인식 결과로부터 화행 추정 파라미터를 사용하여 현재의 화행 정보를 추정하는 제 3 단계; 및 추정한 화행 정보에 따라 상기 1차 인식 결과를 재계산하여 인식 결과를 구하는 제 4 단계를 포함한다.

4. 발명의 중요한 용도

본 발명은 음성 인식기 등에 이용됨.

Description

화행 정보를 이용한 음성 인식 방법

본 발명은 대화체 음성 인식기 등에서 음성 인식의 성능을 향상시키기 위한 음성 인식 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

먼저, 종래의 유사 기술에 대하여 살펴보면 다음과 같다.

"Apple Computer,Inc."의 미국 특허 US5,384,892호(Dynamic language model for speech recognition : 1995. 1. 24)는 음성 샘플에서 음향 특징을 결정하고, 인식가능한 단어열을 결정짓는 언어모델을 기반으로 인식하고, 인식된 단어로부터 적절한 응답을 선택하는 방법에 관한 것이다.

어떤 단어를 인식할 것인지, 어떤 조건에서 인식할 것인지 및 그 단어가 인식되었을 때 어떤 응답을 할 것인지에 관한 정보를 음성 규칙(speech rule)이라는 데이터 구조에 저장해 둔다. 이 규칙들은 문맥에 따라서 분할된다. 음성이 입력되면, 현재의 컴퓨터 시스템의 상태에 따라서 어떤 규칙이 활성화될지가 결정되고, 단어 인식을 위한 언어모델을 어떻게 결합할지를 결정한다. 단어열의 전부 또는 일부에 매칭되는 규칙으로부터 발성된 음성에 대한 적절한 응답을 발생시킨다.

그리고, "IBM"의 미국 특허 US5,640,487호(Building scalable n-gram language models using maximum likelihood maximum entropy n-gram models : 1997. 7. 17)는 메모리 크기와 언어모델링 수렴속도를 감소하는 n-그램(n-gram) 모델링 방법에 관한 것이다.

그리고, "U.S. Philips Corp."의 미국 특허 US5,613,034호(Method and apparatus for recognizing spoken words in a speech signal : 1997. 3. 8)는 기존의 트리 기반의 탐색부에서 언어모델 적용시 단어간의 천이시에 언어모델 값이 더해져야 하는데, 트리 기반의 경우에 현재 단어가 결정되지 않은 상태이므로 이전에 끝난 모든 단어들에 대하여 탐색 트리를 복사하여 가지고 있어야 한다. 그러나, 본 발명에서는 이러한 탐색 트리를 복사하지 않고 언어모델을 적용한다.

전술한 바와 같이, 종래의 음성 인식기는 대화형의 발화를 인식하고자 할 때 이전 발화의 내용에 상관없이 고정된 언어모델을 사용하여 음성 인식을 수행하므로써, 음성 인식률이 낮은 문제점이 있었다.

상기 문제점을 해결하기 위하여 안출된 본 발명은, 대화체 음성 인식기 등에서 이전에 인식된 대화의 화행 정보로부터 현재 발성된 내용의 화행 정보를 예측하고 이 화행 정보에 따라 음성 인식기의 탐색부에서 사용하는 언어모델을 변경하므로써 음성 인식기의 정확도를 향상시키기 위한 음성 인식 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

도 1 은 본 발명이 적용되는 음성 인식기의 구성예시도.

도 2 는 본 발명에 따른 화행 태깅된 텍스트 코퍼스의 일예시도.

도 3 은 본 발명에 따른 화행 정보 파라미터의 훈련 과정에 대한 일실시예 흐름도.

도 4 는 본 발명에 따른 화행 정보를 이용한 음성 인식 방법에 대한 일실시예 흐름도.

* 도면의 주요 부분에 대한 부호의 설명

102 : 특징 추출부 103 : 탐색부

104 : 후처리부 105 : 음향모델

106 : 발음사전 107 : 언어모델

상기 목적을 달성하기 위하여 본 발명은, 음성 인식기에 적용되는 음성 인식 방법에 있어서, 이전에 인식된 대화의 화행 정보로부터 현재 발성된 내용의 화행 정보를 예측하기 위한 화행 추정 파라미터를 구하는 제 1 단계; 상기 화행 추정 파라미터를 언어모델에 반영하는 제 2 단계; 입력 음성을 1차로 인식한 후에, 상기 1차 음성 인식 결과로부터 상기 화행 추정 파라미터를 사용하여 현재의 화행 정보를 추정하는 제 3 단계; 및 상기 추정한 화행 정보에 따라 상기 1차 인식 결과를 재계산하여 인식 결과를 구하는 제 4 단계를 포함하여 이루어진 것을 특징으로 한다.

한편, 본 발명은, 프로세서를 구비한 음성 인식기에, 이전에 인식된 대화의 화행 정보로부터 현재 발성된 내용의 화행 정보를 예측하기 위한 화행 추정 파라미터를 구하는 제 1 기능; 상기 화행 추정 파라미터를 언어모델에 반영하는 제 2 기능; 입력 음성을 1차로 인식한 후에, 상기 1차 음성 인식 결과로부터 상기 화행 추정 파라미터를 사용하여 현재의 화행 정보를 추정하는 제 3 기능; 및 상기 추정한 화행 정보에 따라 상기 1차 인식 결과를 재계산하여 인식 결과를 구하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

도 1 은 본 발명이 적용되는 음성 인식기의 구성예시도이다.

특징 추출부(102)에서는 음성(101)을 입력받아 인식에 유용한 정보만을 추출하여 특징벡터로 변환하고, 탐색부(103)에서는 학습과정에서 미리 구해진 음향모델(105)과 발음사전(106) 및 언어모델(107)을 이용하여 가장 확률이 높은 단어열을 비터비 알고리듬을 이용하여 찾게 된다. 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(103)는 그 트리를 탐색하게 된다. 후처리부(104)에서는 탐색 결과로부터 잡음 기호 등을 제거하여 최종 인식 결과(108)를 출력한다.

탐색부(103)는 모든 가능한 단어열에 대하여 음향모델(105)과 언어모델(107)로부터 구한 확률을 곱하여 최대가 되는 단어열을 선택한다. 이때, 언어모델(107)은 이전의 단어들로부터 다음 단어가 나타날 확률값을 예측하는 것으로서, 일반적으로 바로 이전에 나온 두개의 단어로부터 다음 단어가 나타날 확률을 사용하는 트라이그램(trigram)이 사용된다. 이전의 단어를 3개 이상 사용하여 다음 단어를 예측할 수도 있으나, 그 확률값을 구하기 위한 텍스트 코퍼스가 제한되고, 언어모델(107)의 저장 공간이 많이 필요하기 때문에 트라이그램이 널리 사용된다.

즉, 10,000 단어를 인식하는 시스템에서 모든 가능한 트라이그램의 개수는 1E12이 된다. 텍스트 코퍼스에서 나타나는 트라이그램 단어쌍은 태스크에 따라서 다르지만 보통 200,000개 정도가 된다. 음성 인식기의 성능을 높이기 위해서는 기존의 트라이그램으로는 부족하며, 여기에 덧붙여 고품위의 언어모델(107)이 필요하다. 언어모델(107)의 구성은 계층적으로 다수개의 언어모델을 구성할 수도 있고, 여러 개의 언어모델을 각각 구성할 수도 있다. 이때, 고품위 언어모델의 예로는 트리거 정보 활용, 캐시 언어모델링, 품사정보의 활용, 4-그램 또는 5-그램 언어모델 사용 등이 있다.

이러한 고품위 언어모델에서는 거의 대부분 모델링 파라미터의 차원이 늘어나기 때문에 평활화 방법이 필수적으로 요구된다. 즉, 텍스트 코퍼스에서 나타나지 않은 사건에 대한 확률값을 구하기 위하여 평활화(smoothing)가 필요한데, 주로 최대 엔트로피 방법이나 백오프 방법이 사용된다.

본 발명에서는 단어열에서 바로 이전에 나타난 두개의 단어에 덧붙여 이전에 인식된 문장을 사용하여 다음 단어를 예측하여 인식 성능을 높이고자 한다. 이전에 인식된 문장으로부터 다음 단어를 예측하는 것은 파라미터의 자유도가 너무 많기 때문에 제대로 예측이 되지 않는다. 따라서. 여기에서는 이전에 인식된 문장으로부터 적은 개수의 내용어만을 사용하여 화자의 의도(화행 정보)를 파악하고, 이에 의존한 언어모델을 적용한다.

도 2 는 본 발명에 따른 화행 태깅된 텍스트 코퍼스의 일예시도이다.

도 2 에서 "KS"는 한글 문장임을 나타내고, "SA"는 화행, "ST"는 문장 타입을 의미한다. 화행 정보의 종류로는 오프닝(opening), 정보 제공(inform), 확인 요청(ask-confirm), 응답(response), 참조 정보 요청(ask-ref) 및 존재 유무 요청(ask-if) 등이 있으며, 문장 타입으로는 예/아니오 질문(yn-quest), 선언문(decl), wh-질문(wh-quest) 등이 있다.

종래의 화행 정보 추출은 문장의 구문 분석을 통하여 내용어를 추출하고, 문장의 구조를 파악하는 방법을 사용하였다. 따라서, 시스템의 복잡도를 높이는 구문분석기가 필요하며, 구문 분석에 필요한 규칙들을 사람이 일일이 작성하여야 하였다. 그러나, 본 발명에서는 음성 인식기의 1차 결과로부터 어느 단어가 내용어인지를 알아낸 다음에, 내용어의 함수로 주어지는 화행 확률을 통계적인 방법으로 구하므로써 사람의 노력을 줄이고 화행 정보 추출에 소요되는 시간을 줄일 수 있도록 하였다. 음성 인식기에서는 인식 대상 어휘에 품사에 대한 태그를 붙여서 인식하기 때문에 어느 단어가 내용어인지를 쉽게 알 수 있다.

도 3 은 본 발명에 따른 화행 정보 파라미터의 훈련 과정에 대한 일실시예 흐름도이다.

먼저, 대화별로 모아진 텍스트 코퍼스의 각 문장에 대하여 그 문장이 어느 화행에 속하는지를 태깅한다(301). 각 문장에 대한 화행 태그만을 나열한 다음에, 이전 화행으로부터 현재 화행으로 천이할 확률(바이그램 이상)

P(s|s_t-1,s_t-2)

를 구한다(302). 이후, 모든 텍스트 코퍼스를 사용하여 광역 언어모델(트라이그램)

P(w₃|w₁,w₂)

를 구한다(303).

다음으로, 텍스트 코퍼스를 화행별로 분류하고, 화행별로 분류된 문장을 사용하여 화행의존 언어모델(트라이그램)

Ps(w₃|w₁,w₂),s=1,..,S

를 구한다(304). 여기서, S는 화행의 개수를 의미한다. 각 화행별로 분류된 텍스트의 각 문장에서 문장 끝으로부터 시작하여 미리 정해진 개수(N)의 내용어를 뽑고, 문장의 종류(의문문/평서문)에 대한 정보를 추출한다. 최대 엔트로피(maximum entropy) 방법을 이용하여 내용어와 문장 종류로부터 화행 정보를 예측하기 위한 화행 추정 파라미터

A(s,c₁ ^N)

을 구한다(305). 화행 추정 파라미터로부터 확률을 구하는 것은 최대 엔트로피 방법에서 정의된 아래의 (수학식 1)과 같다.

b=c₁ ^N

여기서,

c₁ ^N

은 내용어 및 문장 종류 정보를 나타내고, Z는 정규화 상수, f_j(s,b)는 최대 엔트로피 방법에서 사용되는 특징(feature)으로, 만약 (s,b)가 j의 사건 공간에 존재하면 "1", 그외에는 "0"의 값을 갖는다. K는 특징의 개수이다.

사건 공간은

(s,c₁ ^N)

쌍이 된다. 텍스트 코퍼스내에 존재하는 모든

(s,c₁ ^N)

에 대하여 하나의 특징이 주어진다. 최대 엔트로피 방법을 사용하는 것은 보통 N이 5정도로서, 크기 때문에 확률 추정시 텍스트 코퍼스에 존재하지 않는

(s,c₁ ^N)

쌍이 많이 생기게 된다. 그 이유는 모든 쌍에 대하여

P(s|b)

를 텍스트 코퍼스로부터 구할 수는 없기 때문이다. 최대 엔트로피 방법에서 존재하지 않는 쌍에 대한 화행 추정 확률은

P(s|b)=1/Z(b)

와 같이 주어진다.

불충분한 정보로부터 모든 데이터쌍에 대한 확률을 얻는 방법으로는 최대 엔트로피 방법외에도 백오프(backoff) 평활화 방법이 사용될 수도 있다.

도 4 는 본 발명에 따른 화행 정보를 이용한 음성 인식 방법에 대한 일실시예 흐름도이다.

음성 인식기의 탐색부는 2과정으로 동작한다. 첫 번째 과정에서는 광역 언어모델만을 사용하여 격자(lattice) 형태로 얻어지는 1차 인식 결과를 얻는다(401). 격자로부터 제일 확률이 높은 하나의 문장을 추출한다(402). 이 문장의 끝에서 시작하여 미리 정해진 개수의 내용어와 문장 종류에 대한 정보를 추출한다(403). 미리 구하여 언어모델에 반영하여 둔 화행 추정 파라미터를 사용하여 현재 인식 결과가 어느 화행일 확률이 가장 높은지를 아래의 (수학식 2)와 같이 추정한다(404). 이때, 그 이전에 인식된 문장에 대한 화행을 고려한다.

추정된 화행( )에 의존하는 언어모델 값과 광역 언어모델 값을 아래의 (수학식 3)과 같이 보간하여 최종 언어모델 값으로 한다.

이때, 보간 가중치는 화행 확률에 비례하도록 정한다. 1차 인식 결과로 주어진 격자에 대하여 화행의존 언어모델을 적용하여, 즉 모든 가능한 문장에 대하여 아래의 (수학식 4)와 같이 문장 확률이 최대가 되는 문장( )을 구한다(405). 이것이 최종 인식 문장이 된다(406).

여기서,

P(X|W)

는 단어열 W가 주어졌을 때 음성의 특징벡터열 X가 관측될 확률로서, 음향모델을 이용하여 계산되는 값이다. T는 문장내의 단어 개수이다.

다른 실시예로는 화행 확률이 높은 M개의 화행에 대하여 앞에서 정한 새로운 언어모델을 적용하여 문장확률이 최대인 문장을 각각 구한 다음에, 아래의 (수학식 5)와 같이 M개의 문장에 대하여 선험적인 화행확률을 곱한 값이 최대가 되는 하나의 문장을 뽑아서 이를 최종 인식 결과로 한다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

상기와 같은 본 발명은, 대화체 음성 인식기 등에서 이전에 인식된 대화의 화행 정보로부터 현재 발성된 내용의 화행 정보를 예측하고 이 화행정보에 따라 음성 인식기의 탐색부에서 사용하는 언어모델을 변경하므로써 음성 인식기의 정확도를 향상시킬 수 있다.

즉, 본 발명은 특별한 문장 구조에 대한 사전 지식이 없이도 화행 태깅된 텍스트 코퍼스만 있으면, 화행 추정시 통계적인 방법만으로 쉽게 화행 정보 파라미터를 구할 수 있어, 화행에 의존하는 언어모델을 음성 인식에 이용하므로써 음성 인식 성능을 향상시킬 수 있다.

Claims

음성 인식기에 적용되는 음성 인식 방법에 있어서,

이전에 인식된 대화의 화행 정보로부터 현재 발성된 내용의 화행 정보를 예측하기 위한 화행 추정 파라미터를 구하는 제 1 단계;

상기 화행 추정 파라미터를 언어모델에 반영하는 제 2 단계;

입력 음성을 1차로 인식한 후에, 상기 1차 음성 인식 결과로부터 상기 화행 추정 파라미터를 사용하여 현재의 화행 정보를 추정하는 제 3 단계; 및

상기 추정한 화행 정보에 따라 상기 1차 인식 결과를 재계산하여 인식 결과를 구하는 제 4 단계

를 포함하는 음성 인식 방법.
제 1 항에 있어서,

상기 제 1 단계는,

대화별로 모아진 텍스트 코퍼스의 각 문장에 대하여 그 문장이 어느 화행에 속하는지를 태깅하는 제 5 단계;

이전 화행으로부터 현재 화행으로 천이할 확률을 구하는 제 6 단계;

상기 텍스트 코퍼스를 사용하여 광역 언어모델을 구하는 제 7 단계;

상기 텍스트 코퍼스를 화행별로 분류하고, 화행별로 분류된 문장을 사용하여 화행의존 언어모델을 구하는 제 8 단계; 및

각 화행별로 분류된 텍스트의 각 문장으로부터 추출한 소정 개수의 내용어와 문장의 종류에 대한 정보로부터 화행 정보를 예측하기 위한 화행 추정 파라미터를 구하는 제 9 단계

를 포함하는 음성 인식 방법.
제 2 항에 있어서,

상기 제 9 단계의 화행 추정 파라미터는,

최대 엔트로피(maximum entropy) 방식을 이용하여 구하는 것을 특징으로 하는 음성 인식 방법.
제 2 항에 있어서,

상기 제 9 단계의 화행 추정 파라미터는,

백오프(backoff) 평활화 방식을 이용하여 구하는 것을 특징으로 하는 음성 인식 방법.
제 1 항 내지 제 4 항중 어느 한 항에 있어서,

상기 제 3 단계는,

상기 광역 언어모델을 사용하여 격자(lattice) 형태로 얻어지는 1차 인식 결과를 얻는 제 10 단계;

상기 얻은 격자로부터 제일 확률이 높은 하나의 문장을 추출하는 제 11 단계;

상기 추출한 문장으로부터 상기 소정 개수의 내용어와 문장 종류에 대한 정보를 추출하는 제 12 단계; 및

상기 구한 화행 추정 파라미터를 사용하여 상기 1차 인식 결과가 어느 화행일 확률이 가장 높은지를 추정하는 제 13 단계

를 포함하는 음성 인식 방법.
제 5 항에 있어서,

상기 제 4 단계는,

상기 제 13 단계에서 추정한 화행 정보에 의존하는 언어모델 값과 광역 언어모델 값을 보간하는 제 14 단계; 및

상기 1차 인식 결과로 주어진 격자에 대하여 상기 화행의존 언어모델을 적용하여 문장 확률이 최대가 되는 문장을 구하여 최종 인식 결과를 출력하는 제 15 단계

를 포함하는 음성 인식 방법.
제 6 항에 있어서,

상기 제 15 단계에서 구한 문장확률이 최대인 문장에 대하여 선험적인 화행확률을 곱한 값이 최대가 되는 하나의 문장을 추출하여 최종 인식 결과로 출력하는 제 16 단계

를 더 포함하는 음성 인식 방법.
제 6 항에 있어서,

상기 제 14 단계의 보간 과정은,

보간 가중치가 화행 확률에 비례하도록 정한 것을 특징으로 하는 음성 인식 방법.
프로세서를 구비한 음성 인식기에,

이전에 인식된 대화의 화행 정보로부터 현재 발성된 내용의 화행 정보를 예측하기 위한 화행 추정 파라미터를 구하는 제 1 기능;

상기 화행 추정 파라미터를 언어모델에 반영하는 제 2 기능;

입력 음성을 1차로 인식한 후에, 상기 1차 음성 인식 결과로부터 상기 화행 추정 파라미터를 사용하여 현재의 화행 정보를 추정하는 제 3 기능; 및

상기 추정한 화행 정보에 따라 상기 1차 인식 결과를 재계산하여 인식 결과를 구하는 제 4 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.