KR100718147B1

KR100718147B1 - 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법

Info

Publication number: KR100718147B1
Application number: KR1020060009868A
Authority: KR
Inventors: 황광일
Original assignee: 삼성전자주식회사
Priority date: 2005-02-01
Filing date: 2006-02-01
Publication date: 2007-05-14
Also published as: US20060173686A1; KR20060088512A; US7606708B2

Abstract

음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체 음성인식장치 및 방법이 개시된다. 음성인식용 문법망 생성장치는 시스템과 사용자간에 진행된 대화이력을 저장하는 대화이력 저장부; 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되며, 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어별로 의미적으로 상관도를 갖는 적어도 하나의 단어를 추출하고, 각 단어별로 추출된 복수개의 단어들로 이루어지는 제1 후보 그룹을 생성하는 의미 맵; 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되며, 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어 및 제1 후보그룹에 포함된 각 단어별로 음향적으로 유사한 적어도 하나의 단어를 추출하고, 각 단어별로 추출된 복수개의 단어들로 이루어지는 제2 후보 그룹을 생성하는 음향 맵; 및 제1 후보 그룹에 포함된 단어들과 제2 후보 그룹에 포함된 단어들을 랜덤하게 조합하여 문법망을 구성하는 문법망 구성부로 이루어진다.

Description

음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체 음성인식장치 및 방법{Apparatus and method of generating grammar network for speech recognition and dialogue speech recognition apparatus and method employing the same}

도 1은 본 발명에 따른 음성인식용 문법망 생성장치의 구성을 보여주는 블럭도,

도 2는 도 1에 도시된 음향 맵 및 의미 맵의 생성과정을 설명하는 블럭도,

도 3은 본 발명에 따른 대화체 음성인식장치의 구성을 보여주는 블럭도, 및

도 4는 본 발명에 따른 대화체 음성인식방법을 동작을 설명하는 흐름도이다.

본 발명은 음성인식에 관한 것으로, 특히 진행된 이전 대화내용에 기반하여 적응적 및 자동적으로 음성인식용 문법망을 생성하는 장치 및 방법과 진행된 이전 대화내용에 기반하여 적응적 및 자동적으로 생성된 음성인식용 문법망을 이용하여 대화체 음성인식을 수행하는 장치 및 방법에 관한 것이다.

가상머쉰 혹은 컴퓨터와 같은 음성인식장치의 구성요소 중 복호기에 사용되 는 문법생성 알고리즘에는 잘 알려진 n-gram 방식, HMM(Hidden Markov Model) 방식, SAPI(Speech Application Programming Interface), VXML(Voice eXtensible Markup Language) 및 SALT(Speech Application Language Tags) 방식 등이 있다. 여기서, n-ram 방식에서는 음성인식장치와 사용자 간의 실시간 대화흐름 정보를 발화예측에 반영시키지 않고 있으며, HMM 방식에서는 사용자의 매 발화순간을 사용자 혹은 음성인식장치의 다른 발화순간들과는 완전히 독립적인 개별 확률사건으로 전제하고 있다. 한편, SAPI, VXML 및 SALT 방식은 미리 고정된 단순한 대화흐름에서 미리 정의된 문법들이 미리 정의된 시점에서만 로딩되어진다.

그 결과, 사용자의 발화내용이 미리 정의된 표준적인 문법 구조를 벗어나는 경우에는 음성인식장치에서 인식하는 것이 어렵게 되고, 이에 따라 음성인식장치가 사용자의 재발화를 요청하게 된다. 결국, 음성인식장치가 사용자의 발화를 인식하는데 소요되는 시간이 길어지게 되어 음성인식장치와 사용자간의 대화가 지루해질 뿐만 아니라 자연스럽지 못하게 되는 단점이 있다.

또한, 통계적 모델을 사용하는 n-gram 방식의 문법망 생성 방식은 대화체(Conversational)가 아닌 낭독체(Dictation) 음성인식기의 문법망 생성기에 적합할 수 있으나 대화체 음성인식에는 실시간 대화 흐름 정보가 발화예측으로 활용되지 않는 단점으로 인해 부적합하다. 또한, 계산언어 모델을 사용하는 CFG(Context Free Grammar) 방식의 SAPI, VXML 및 SALT 방식의 문법망 생성 방식은 대화체가 아닌 명령체(Command and Control) 음성인식기의 문법망 생성기에 적합할 수 있으나 대화체 음성인식에는 사용자의 대화흐름과 발화내용이 미리 설계된 고정적인 대화 흐름에서 벗어날 수 없는 단점으로 인해 부적합하다.

본 발명이 이루고자 하는 기술적 과제는 진행된 이전 대화내용에 따라서 적응적으로 및 자동적으로 음성인식용 문법망을 생성하기 위한 장치 및 방법을 제공하는데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는 진행된 이전 대화내용에 따라서 적응적으로 및 자동적으로 생성되는 음성인식용 문법망을 이용하여 대화체 음성인식을 수행하기 위한 장치 및 방법을 제공하는데 있다.

상기한 기술적 과제를 달성하기 위하여, 본 발명에 따른 음성인식용 문법망 생성장치는 시스템과 사용자간에 진행된 대화이력을 저장하는 대화이력 저장부; 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되며, 상기 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어별로 의미적으로 상관도를 갖는 적어도 하나의 단어를 추출하고, 각 단어별로 추출된 복수개의 단어들로 이루어지는 제1 후보 그룹을 생성하는 의미 맵; 상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되며, 상기 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어 및 상기 제1 후보그룹의 각 단어별로 음향적으로 유사한 적어도 하나의 단어를 추출하고, 각 단어별로 추출된 복수개의 단어들로 이루어지는 제2 후보 그룹을 생성하는 음향 맵; 및 상기 제1 후보 그룹에 포함된 단어들과 상기 제2 후보 그룹에 포함된 단어들을 조합하여 문법망을 구성하는 문법망 구성부를 포함한다.

상기한 기술적 과제를 달성하기 위하여, 본 발명에 따른 음성인식용 문법망 생성방법은 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되는 음향 맵을 생성하는 단계; 상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되는 의미 맵을 생성하는 단계; 상기 의미 맵을 활성화시켜 시스템과 사용자간에 진행된 대화이력에 포함된 대화문장을 구성하는 각 단어별로 의미적으로 상관도를 갖는 적어도 하나의 단어를 추출하고, 각 단어별로 추출된 복수개의 단어들로 이루어지는 제1 후보 그룹을 생성하는 단계; 상기 음향 맵을 활성화시켜 시스템과 사용자간에 진행된 대화이력에 포함된 대화문장을 구성하는 각 단어 및 상기 제1 후보 그룹에 포함된 각 단어별로 음향적으로 유사한 적어도 하나의 단어를 추출하고, 각 단어별로 추출된 복수개의 단어들로 이루어지는 제2 후보 그룹을 생성하는 단계; 및 상기 제1 후보 그룹에 포함된 단어들과 상기 제2 후보 그룹에 포함된 단어들을 조합하여 문법망을 구성하는 단계를 포함한다.

상기한 다른 기술적 과제를 달성하기 위하여, 본 발명에 따른 대화형 음성인식장치는 사용자 음성으로부터 특징을 추출하여 특징벡터열을 생성하는 특징추출부; 사용자 음성이 발화될 때마다, 가장 최근에 발화된 대화내용을 이용하여 음향 맵과 의미 맵을 활성화시켜 문법망을 생성하는 문법망 생성부; 상기 문법망 생성부에서 생성된 문법망을 로딩시키는 로딩부; 및 상기 특징추출부로부터 제공되는 특 징벡터열을 이용하여 상기 로딩부에서 로딩되는 문법망을 탐색하여, 상기 특징벡터열과 정합되는 단어열로 이루어지는 인식문장을 생성하는 탐색부를 포함한다.

상기한 다른 기술적 과제를 달성하기 위하여, 본 발명에 따른 대화형 음성인식방법은 사용자 음성으로부터 특징을 추출하여 특징벡터열을 생성하는 단계; 사용자 음성이 발화될 때마다, 가장 최근에 발화된 대화내용을 이용하여 음향 맵과 의미 맵을 활성화시켜 문법망을 생성하는 단계; 상기 생성된 문법망을 로딩시키는 단계; 및 상기 사용자 음성의 특징벡터열을 이용하여 상기 문법망을 탐색하여, 상기 특징벡터열과 정합되는 단어열로 이루어지는 인식문장을 생성하는 단계를 포함한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세하게 설명하면 다음과 같다.

도 1은 본 발명에 따른 음성인식용 문법망 생성장치의 구성을 보여주는 블럭도로서, 대화이력 저장부(110), 의미 맵(130), 음향 맵(150), 및 문법망 구성부(170)을 포함하여 이루어진다.

도 1을 참조하면, 대화이력 저장부(110)는 음성인식기능을 구비한 가상머쉰 혹은 컴퓨터(이하, 시스템으로 약함)와 사용자간에 진행된 미리 설정된 턴(turn) 횟수만큼의 대화이력을 저장한다. 이에 따르면, 대화이력 저장부(110)에 저장되는 대화이력은 시스템과 사용자와의 대화가 진행됨에 따라서 갱신될 수 있다. 일예를 들면, 대화이력은 이전 사용자 음성에 대한 도 3의 탐색부(370)로부터 제공되는 복수개의 후보인식결과, 도 3의 발화검증부(380)로부터 제공되는 이전 사용자 음성에 대한 최종 인식결과, 도 3의 재발화 요청부(390)로부터 제공되는 재발화 요청 메시지, 및 이전 시스템 발화문장 중 적어도 하나 이상의 조합으로 이루어질 수 있다. 즉, 도 3의 발화검증부(380)로부터 제공되는 최종 인식결과가 존재하는 경우, 대화이력의 제1 예는 이전 사용자 음성에 대한 도 3의 탐색부(370)로부터 제공되는 복수개의 후보인식결과와 도 3의 발화검증부(380)로부터 제공되는 최종 인식결과를 포함하며, 이때 이전 사용자 음성이 발화되기 이전에 시스템으로부터 발화된 시스템 발화문장이 더 포함될 수 있다. 한편, 도 3의 발화검증부(380)로부터 제공되는 최종 인식결과가 존재하지 않는 경우, 대화이력의 제2 예는 이전 사용자 음성에 대한 도 3의 탐색부(370)로부터 제공되는 복수개의 후보인식결과와 도 3의 재발화 요청부(390)로부터 제공되는 재발화 요청 메시지를 포함하며, 마찬가지로 이전 사용자 음성이 발화되기 이전에 시스템으로부터 발화된 시스템 발화문장이 더 포함될 수 있다.

의미 맵(130)은 의미적인 상관도에 따라서 단어유사단위(word-like unit)들을 클러스터링하여 구성한 맵이다. 의미 맵(130)은 대화이력 저장부(110)에 저장된 대화이력 중에서 가장 최근의 대화문장을 구성하는 단어유사단위에 의해 활성화되며, 가장 최근의 대화문장에 있는 각 단어유사단위별로 의미적으로 상관이 높은 적어도 하나 이상의 단어유사단위들을 추출하고, 가장 최근의 대화문장에 있는 각 단어유사단위별로 추출된 복수개의 단어유사단위들로 이루어지는 제1 후보 그룹을 생성한다.

음향 맵(150)은 음향적인 유사도에 따라서 단어유사단위들을 클러스터링하여 구성한 맵이다. 음향 맵(150)은 대화이력 저장부(110)에 저장된 대화이력 중에서 가장 최근의 대화문장을 구성하는 단어유사단위와 의미 맵(130)에 의하여 활성화된 단어유사단위들에 의해 활성화되며, 가장 최근의 대화문장에 있는 각 단어유사단위별로 음향적으로 유사한 적어도 하나 이상의 단어유사단위들을 추출하고, 가장 최근의 대화문장에 있는 각 단어유사단위별로 추출된 복수개의 단어유사단위들로 이루어지는 제2 후보 그룹을 생성한다.

바람직하게는, 의미 맵(130) 및 음향 맵(150)에는 대화이력 저장부(110)에 저장된 대화이력 중 컴퓨터가 가장 최근에 인식한 사용자의 대화문장과 컴퓨터가 가장 최근에 발화한 대화문장이 각각 단어유사단위로 분리되어 수신된다.

문법망 구성부(170)는 의미 맵(130)으로부터 제공되는 제1 후보 그룹에 포함된 단어유사단위들과 음향 맵(150)으로부터 제공되는 제2 후보 그룹에 포함된 단어유사단위들을 랜덤하게 혹은 코퍼스로부터 추출된 다양한 방식으로 조합하여 문법망을 구성한다.

도 2는 도 1에 도시된 의미 맵(130) 및 음향 맵(150)의 생성과정을 설명하는 블럭도로서, 대화문장 코퍼스(210), 의미 맵 생성부(230) 및 음향 맵 생성부(250)를 포함하여 이루어진다.

대화문장 코퍼스(210)는 시스템과 사용자, 혹은 사람과 사람 사이에 가능한 모든 대화내용을 순차적인 대화문장(혹은 부분문장들)으로 나열하여 데이터베이스화하여 저장한다. 이때, 도메인 별로 대화문장을 구성하여 저장하는 것도 가능하다. 또한, 각 어휘의 다양한 사용예(usage)를 포함시켜 대화문장을 구성하는 것이 바람직하다. 여기서, 단어유사단위란, 각 대화문장을 구성하는 기본요소로서 하나 이상의 음절로 구성된 단어 혹은 단어열이며 단일한 의미와 단일한 발음의 쌍으로 이루어져 있다. 따라서 그 의미나 발음을 유지하는 한, 더 이상 쪼개지거나 다른 요소와 합쳐질 수 없다. 또한 동일한 의미와 동일한 발음의 쌍은 오로지 한 개만 정의된다. 반면, 발음은 같지만 의미가 약간씩이라도 다른 경우, 예를 들면 동음이의어(homonym), 동음이철어(homophone), 동철이의어(homograph), 다의어(polysemy)는 모두 나열하여 각각 다른 요소로 정의된다. 또한, 의미는 같지만 발음이 약간씩이라도 다른 경우, 예를 들면 사투리, 축약어 등도 모두 나열하여 각각 다른 요소로 정의된다.

의미 맵 생성부(230)는 대화문장 코퍼스(210)에 저장된 대화내용에 대하여 순차적으로 하나의 대화문장을 선택하고, 선택된 대화문 이전 시점에 위치하는 적어도 하나의 대화문과 선택된 대화문 이후 시점에 위치하는 적어도 하나의 대화문을 학습단위로 설정한다. 설정된 학습단위에 대하여 각 단어유사단위에 인접하여 발생되는 단어유사단위들을 의미적인 상관도가 높은 것으로 판단한다. 대화문장 코퍼스(210)에 포함되어 있는 모든 대화문장에 대하여 의미적인 상관도를 고려하여 클러스터링 혹은 분류기 학습(classifier training)을 수행하여 의미 맵을 생성한다. 이때 클러스터링 혹은 분류기 학습을 위해서는 코호넨 망(Kohonen network), 벡터양자화(vector quantization), 베이지안 망(Bayesian network), 인공신경망(Artificial neural network), 베이지안 트리(Bayesian tree) 등과 같은 다양한 알고리즘을 사용할 수 있다.

한편, 의미 맵 생성부(230)에서 정량적으로 단어유사단위간의 의미적 거리를 측정하는 방법은 다음과 같다. 기본적으로 의미적으로 대화문장 코퍼스(210)로부터 의미 맵 생성부(230)을 통해 의미 맵을 생성할 때 쓰이는 거리 측정은 함께 발생하는 정도(co-occurrence rate)이다. 함께 발생하는 정도에 대하여 좀 더 설명하면 다음과 같다. 대화문장 코퍼스(210)로부터 현재 시간 t에서 포인트하고 있는 문장(혹은 부분문장)을 중심으로 t-1에서 t를 포함하여 t+1까지의 문장들을 포함하는 윈도우를 씌운다. 이 경우는 하나의 윈도우에 세 개의 문장이 포함된다. 또한 t-1은 t-n이 될 수 있으며 t+1은 t+n이 될 수 있다. 이때 n은 1에서 7까지의 값이 바람직하나, 이에 한정되지는 않는다. 최대가 7인 이유는 인간의 단기기억의 한계가 7개의 단위이기 때문이다. 하나의 윈도우에 함께 존재하는(co-occurrence) 단어유사단위들에게 각각 서로가 서로를 가리키는 카운트를 한다. 예를 들어 해당 윈도우에 포함된 특정 문장에 "예 그래요"라는 문장이 있고 이 문장은 "예(yes)"와 "그래요(right)"라는 두 개의 단어유사단위로 구성이 되어 있으므로 "예(yes): 그래요(right)"가 1번 나타난 것으로 기록하고, 또한 "그래요(right): 예(yes)"가 1번 나타난 것으로 기록한다. 이렇게 함께 나타난 횟수를 나열하여 기록한 것을 나중에 전체 코퍼스의 내용에 대하여 카운트를 한다. 즉, 전체 코퍼스에 대하여 해당 크기의 윈도우를 시간에 따라 한 스텝씩 이동하면서 위의 동일한 카운트 작업을 수행한다. 전체 코퍼스에 대한 카운트 작업을 완료하면 전체 단어유사단위에 대하여 각각의 쌍(pair)에 대한 카운트 값(정수값)이 나오게 되며 이 정수값을 전체 모든 카운트 값의 합(total sum)으로 나누면 각각의 단어유사단어의 쌍(pair)은 0.0 에서 1.0 사이의 분수(fraction)값이 된다. 이것이 특정 단어유사단어 쌍의 정량적인 거리이다. 특정 단어유사단위 A와 그와 다른 특정 단어유사단위 B 사이의 거리는 특정 분수값이 된다. 이 값이 0.0 이라는 것의 의미는 한번도 함께 나타난 적이 없다는 것을 의미하며 이것이 1.0 이라는 것의 의미는 전체 코퍼스에 이 쌍(pair)만 존재하였고 다른 가능한 쌍은 단 한번도 나타나지 않았음을 의미한다. 결과적으로 대부분의 쌍에 대한 값은 1.0 보다는 작고 0.0 보다는 큰 임의의 값이 될 것이며, 모든 쌍의 값들을 합하면 1.0 이 될 것이다.

상기한 함께 발생하는 정도(co-occurrence rate)는 일반적인 언어학에서 정의되어 있는 모든 의미적 중요 관계를 정량적으로 바꾼 것에 해당한다. 즉, 반의어(antonym), 동의어(synonym), 유사단어(similar words), 상위개념(super concept)단어, 하위개념(sub concept)단어, 부분개념(part concept)단어 등이 모두 포함되며, 심지어는 어느 상황에서나 자주 나타나는 간투사(interjection)도 포함된다. 특히, 간투사의 경우 매우 다양한 단어유사단위와의 의미적 거리가 상당한 값을 가질 것이다. 반면, 조사(particle)의 경우에는 특정 문형에서만 인접하여 나타날 것이다. 즉, 한국어의 경우는 명사 뒤에만 나타날 것이다. 종래의 경우 이러한 언어적 지식을 일일이 수작업으로 정의해야 했으나, 본 발명의 경우 대화문장 코퍼스(210)에 대화문장들을 제대로 수집하면 자동으로 정리되며 정량적인 거리를 측정할 수 있게 된다. 그 결과, 대화의 흐름에 적합한 문법망을 만들어서 사용자의 발화를 예측할 수 있도록 한다.

음향 맵 생성부(250)는 대화문장 코퍼스(210)에 저장된 대화문장에 대하여 순차적으로 하나의 대화문장을 선택하고, 하나의 대화문장에 포함된 각 단어유사단위에 대하여 발음은 동일하나 사용예에 따라 다른 의미를 갖는 적어도 하나 이상의 단어유사단위 혹은, 발음은 다르나 동일한 의미를 가지는 적어도 하나 이상의 단어유사단위들을 매칭시킨다. 그러면, 하나의 단어유사단위에 매칭되는 적어도 하나 이상의 단어유사단위들에 대하여 음향적인 유사도에 따라서 의미별로 혹은 발음별로 인덱스를 부여한 다음, 클러스터링 혹은 분류기 학습을 수행하여 음향 맵을 생성한다. 이때, 의미 맵 생성부(250)에서와 마찬가지로 클러스터링 혹은 분류기 학습(classifier training)을 수행하여 음향 맵을 생성한다. 이때 클러스터링 혹은 분류기 학습을 위해서는 코호넨 망(Kohonen network), 벡터양자화(vector quantization), 베이지안 망(Bayesian network), 인공신경망(Artificial neural network), 베이지안 트리(Bayesian tree) 등과 같은 다양한 알고리즘을 사용할 수 있다. 음향 맵 생성부(250)에서 정량적으로 단어유사단위간의 음향적 거리를 측정하는 방법의 일예로는 한국공개특허번호 2001-0073506호(발명의 명칭:한국어 문자열간의 전역 유사도 측정방법)에 개시된 방법을 들 수 있다.

이하, 대화문장 코퍼스(210)가 다음 표 1과 같은 사용예를 포함하는 것으로 가정하고, 의미 맵 생성부(230)에서 생성된 의미 맵과 음향 맵 생성부(250)에서 생성된 음향 맵의 일 예를 설명하면 다음과 같다.

낟알, 낟가리, 낫놓고 기역자, 병이 낫다, 낮과 밤, 직위가 낮다, 무슨 낯으로 보나, 낱개, 낱낱이, 아기를 낳다, 새끼를 낳다, 배타고 바다에, 배가 아프다, 배가 맛있다, 말타다, 말과 글, 벌에 쏘이다, 벌을 받다, 눈이 안프다, 눈이 온다, 밤이 맛있다, 밤이 어둡다, 다리가 아프다, 다리를 건너다, 아침에 보자, 아침이 맛있다

이때, 단어유사단위는 다음 표 2와 같이 총 45개로 구성할 수 있다.

낟(grain) 알(egg) 가리(stack) 낫(sickle) 놓다(put) 기역(kiyok) 자(letter) 낫(recover) 병(sickness) 낮(day) 밤(night ) 낮(low) 직위(position) 낯(face) 보다(see) 낱(piece) 개(unit) 낳(bear) 아기(baby) 새끼(young) 알(egg)^* 배(ship) 바다(sea) 배(stomach) 아프다(sick) 배(pear) 맛있다(tasty) 말(horse) 타다(ride) 말(language) 글(writing) 벌(bee) 쏘다(bite) 벌(punishment) 받다(get) 눈(eye) 아프다(sick)^* 눈(snow) 오다(come) 밤(chestnut) 맛있다(tasty)^* 밤(night) 어둡다(dark) 다리(leg) 아프다(sick)^** 다리(bridge) 건너다(cross) 아침(morning) 보다(see)^* 아침(breakfast) 맛있다(tasty)^** (여기서 ^*, ^** 는 중복을 나타내는 표시)

상기 표 2에 도시된 단어유사단어들을 이용하여 다음 표 3과 같이 발음과 어절간의 관계를 갖는 음향 맵과 표 4와 같이 각 어절간의 관계를 갖는 의미 맵을 생성한다.

낟(grain) - 알(egg) 낟(grain) - 가리(stack) 낫(sickle) - 놓다(put) ... 기역(kiyok) - 자(letter) 병(sickness) - 낫(recover) 낮(day) = 밤(night ) 직위(position) - 낮(low) 낯(face) - 보다(see) 낱(piece) - 개(unit) 아기(baby) - 낳(bear) 새끼(young) - 낳(bear) 알(egg) - 낳(bear) 배(ship) = 바다(sea) 배(stomach) - 아프다(sick) 배(pear) - 맛있다(tasty) 말(horse) - 타다(ride) 말(language) = 글(writing) 벌(bee) - 쏘다(bite) 벌(punishment) - 받다(get) 눈(eye) - 아프다(sick) 눈(snow) - 오다(come) 밤(chestnut) - 맛있다(tasty) 밤(night) - 어둡다(dark) 다리(leg) - 아프다(sick) 다리(bridge) - 건너다(cross) 아침(morning) - 보다(see) 아침(breakfast) - 맛있다(tasty)

상기 표 3에서 '/·/' 는 발음을 나타내고, 표 4에서 '-'는 인접된 관계, '='는 발화순서에 상관없는 관계, '...'은 인접될 수도 스킵될(skipped) 수도 있는 관계를 나타낸다.

도 3은 본 발명에 따른 대화체 음성인식장치의 구성을 보여주는 블럭도로서, 특징추출부(310), 문법망 생성부(330), 로딩부(350), 탐색부(370), 음향모델(375), 발화검증부(380), 및 사용자 재발화 요청부(390)를 포함하여 이루어진다.

도 3을 참조하면, 특징추출부(310)는 사용자로부터 발화되는 음성신호를 입력받아, 멜주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficient) 등과 같은 음성인식에 유용한 특징벡터열로 변환한다.

문법망 생성부(330)는 가장 최근의 대화이력을 입력으로 하여 의미 맵(도 1의 130)과 음향 맵(도 1의 150)을 활성화시켜 문법망을 생성한다. 여기서, 가장 최근의 대화이력은 이전 사용자 음성에 대한 탐색부(370)로부터 제공되는 복수개의 후보인식결과, 발화검증부(380)로부터 제공되는 최종 인식결과 및 재발화 요청부(390)로부터 제공되는 재발화 요청 메시지 중 적어도 하나 이상의 조합으로 이루어질 수 있다. 문법망 생성부(330)의 세부적인 구성 및 이에 대한 구체적인 동작은 도 1에서 설명한 바와 같다.

로딩부(350)는 문법망 생성부(330)에서 생성된 문법망에 포함되는 음소들에 대한 음소결합정보를 문맥 자유 문법(Context Free Grammar) 등과 같은 구조로 표현하여 탐색부(370)로 로딩시킨다.

탐색부(370)는 특징추출부(310)로부터 현재 입력된 음성신호에 대한 특징벡터열을 입력받아, 로딩부(350)에서 로딩되는 음소결합정보를 토대로 음향모델(375)로부터 추출되는 음소모델들로 구성되는 문법망에 대하여 비터비 탐색을 수행하여 정합되는 단어열로 이루어지는 후보인식문장들(N-Best)을 찾는다.

발화검증부(380)는 탐색부(370)로부터 제공되는 후보인식문장들에 대하여 발화검증을 수행한다. 이때, 별도의 언어모델을 사용하지 않고서 본 발명에서 생성된 문법망을 적용하여 발화검증을 수행할 수 있다. 즉, 복수개의 후보인식문장 중 문법망을 이용하여 계산되는 유사도가 임계값 이상인 하나의 후보인식문장이 존재하는 경우 현재 사용자 음성입력의 발화검증에 성공한 것으로 판단하여 최종 인식결과를 출력하고, 모든 복수개의 후보인식문장에 대하여 계산된 유사도가 임계값 이하인 경우 현재 사용자 음성입력의 발화검증에 실패한 것으로 판단한다. 발화검증과 관련해서는 본 출원인이 이전에 출원한 한국특허출원번호 2004-0115069호(발명의 명칭:시계열 신호의 패턴 인식 가능성 판단 방법 및 장치)에 개시된 방법을 적용할 수 있다. 또한, 그외 기존의 다양한 공지 기술들을 이용하여 발화검증을 수행하는 것도 가능하다.

사용자 재발화 요청부(390)는 발화검증부(380)에서 후보인식문장들 모두에 대하여 발화검증에 실패한 경우, 액정과 같은 디스플레이(미도시)상에 사용자의 재발화를 요청하는 텍스트를 표시하거나, 스피커(미도시)를 통해 사용자의 재발화를 요청하는 시스템 발화문을 발생시킨다.

도 4를 참조하면, 410 단계에서는 가장 최근의 대화이력, 즉 가장 최근에 사용자가 발화하여 시스템이 인식한 제1 대화문장과 가장 최근에 시스템이 발화한 제2 대화문장 중 적어도 하나 이상을 입력한다. 여기서, 제1 대화문장은 이전 사용자 음성에 대한 탐색부(370)로부터 제공되는 복수개의 후보인식결과 및 발화검증부(380)로부터 제공되는 최종 인식결과 중 적어도 하나 이상으로 이루어질 수 있고, 제2 대화문장은 재발화 요청부(390)로부터 제공되는 재발화 요청 메시지, 및 이전 시스템 발화문장 중 적어도 하나 이상으로 이루어질 수 있다.

420 단계에서는 410 단계에서 수신된 가장 최근의 대화이력을 이용하여 의미 맵(도 1의 130)과 음향 맵(도1 의 150)을 활성화시키고, 의미 맵(130)으로부터 제공되는 제1 후보 그룹에 포함된 복수개의 단어유사단위들과 음향 맵(150)으로부터 제공되는 제2 후보 그룹에 포함된 복수개의 단어유사단위들을 서로 랜덤하게 혹은 코퍼스로부터 추출된 다양한 방식으로 조합하여 문법망을 생성한다.

430 단계에서는 420 단계에서 생성되는 문법망에 포함되는 음소들에 대한 음소결합정보를 문맥 자유 문법 등과 같은 구조로 표현하여 비터비 탐색을 위하여 로딩한다.

440 단계에서는 410 단계에서 현재 입력된 음성입력에 대한 특징벡터열에 대하여, 430 단계에서 로딩된 음소결합정보를 토대로 음향모델(375)로부터 추출되는 음소모델들로 구성되는 문법망에 대하여 비터비 탐색을 수행하여 정합되는 단어열로 이루어지는 후보인식문장들(N-Best)을 찾는다.

450 단계에서는 440 단계에서의 탐색 결과, 후보인식문장들에 대하여 발화검증이 성공한 후보인식문장이 존재하는지를 판단한다. 460 단계에서는 450 단계에서의 판단 결과, 발화검증이 성공한 후보인식문장이 존재하는 경우 인식문장을 시스템이 발화하고, 470 단계에서는 발화검증이 성공한 후보인식문장이 존재하지 않는 경우 사용자에게 재발화를 요청한다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

상술한 바와 같이, 본 발명에 따르면 이전 대화내용을 반영하여 적응적 및 자동적으로 생성된 음성인식용 문법망을 이용하여 대화체 음성인식을 수행함으로써, 사용자가 표준적인 문법 구조를 벗어난 내용을 발화하더라도 용이하게 인식할 수 있으므로 사용자와 시스템간에 대화가 신속하고도 자연스럽게 진행될 수 있는 이점이 있다.

또한, 본 발명은 대화체(Conversational) 혹은 대화형(Dialogue-driven) 음성인식기의 문법망 생성기로서 기존 기술인 n-gram 방식 및 SAPI, VXML, SALT 방식을 대체할 수 있을 뿐만 아니라 사용자 발화예측 기능을 통해 높은 대화 인식률을 실현할 수 있도록 한다.

본 발명은 도면에 도시된 일 실시예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.

Claims

시스템과 사용자간의 대화이력을 저장하는 대화이력 저장부;

대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되며, 상기 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어별로 추출된 의미적인 상관도를 갖는 적어도 하나의 단어들로 이루어지는 제1 후보 그룹을 생성하는 의미 맵;

상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되며, 상기 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어 및 상기 제1 후보그룹의 각 단어별로 추출된 음향적인 유사도를 갖는 적어도 하나의 단어들로 이루어지는 제2 후보 그룹을 생성하는 음향 맵; 및

상기 제1 후보 그룹과 상기 제2 후보 그룹을 조합하여 문법망을 구성하는 문법망 구성부를 포함하는 것을 특징으로 하는 음성인식용 문법망 생성장치.
제1 항에 있어서, 상기 대화이력 저장부는 가장 최근의 대화내용을 저장하며, 저장된 대화내용은 대화가 진행됨에 따라서 갱신되어지는 것을 특징으로 하는 음성인식용 문법망 생성장치.
제1 항에 있어서, 상기 의미 맵 및 상기 음향 맵은 상기 대화이력 저장부에 저장된 대화이력 중 가장 최근에 상기 시스템이 인식한 대화문장과 상기 시스템이 발화한 대화문장에 의해 활성화되는 것을 특징으로 하는 음성인식용 문법망 생성장치.
제1 항에 있어서, 상기 단어는 각 대화문장을 구성하는 기본요소로서 하나 이상의 음절로 구성된 단어 혹은 단어열이며, 단일한 의미와 단일한 발음의 쌍으로 이루어지는 것을 특징으로 하는 음성인식용 문법망 생성장치.
제1 항에 있어서, 상기 대화문장 코퍼스는 시스템과 사용자 사이에 가능한 모든 대화내용을 다양한 사용예를 포함하는 순차적인 대화문장으로 구성하여 데이터베이스화한 것임을 특징으로 하는 음성인식용 문법망 생성장치.
대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되는 음향 맵을 생성하는 단계;

상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되는 의미 맵을 생성하는 단계;

상기 의미 맵을 활성화시켜 시스템과 사용자간에 진행된 대화이력에 포함된 대화문장을 구성하는 각 단어별로 추출된 의미적인 상관도를 갖는 단어들로 이루어지는 제1 후보 그룹을 생성하는 단계;

상기 음향 맵을 활성화시켜 상기 대화이력에 포함된 대화문장을 구성하는 각 단어 및 상기 제1 후보 그룹에 포함된 각 단어별로 추출된 음향적인 유사도를 갖는 단어들로 이루어지는 제2 후보 그룹을 생성하는 단계; 및

상기 제1 후보 그룹과 상기 제2 후보 그룹을 조합하여 문법망을 구성하는 단계를 포함하는 것을 특징으로 하는 음성인식용 문법망 생성방법.
제6 항에 있어서, 상기 의미 맵과 상기 음향 맵은 사용자로부터 음성이 발화될 때마다 활성화되는 것을 특징으로 하는 음성인식용 문법망 생성방법.
제6 항에 있어서, 상기 제1 및 제2 후보 그룹은 가장 최근에 상기 시스템이 인식한 대화문장과 상기 시스템이 발화한 대화문장에 포함되는 단어들과 음향적 유사도 및 의미적 상관도를 갖는 단어들로 이루어지는 것을 특징으로 하는 음성인식용 문법망 생성방법.
제6 항에 있어서, 상기 단어는 각 대화문장을 구성하는 기본요소로서 하나 이상의 음절로 구성된 단어 혹은 단어열이며 단일한 의미와 단일한 발음의 쌍으로 이루어지는 것을 것을 특징으로 하는 음성인식용 문법망 생성방법.
사용자 음성으로부터 특징을 추출하여 특징벡터열을 생성하는 특징추출부;

사용자 음성이 발화될 때마다, 가장 최근에 발화된 대화내용을 이용하여 음향 맵과 의미 맵을 활성화시켜 문법망을 생성하는 문법망 생성부;

상기 문법망 생성부에서 생성된 문법망을 로딩시키는 로딩부; 및

상기 특징추출부로부터 제공되는 특징벡터열을 이용하여 상기 로딩부에서 로딩되는 문법망을 탐색하여, 상기 특징벡터열과 정합되는 단어열로 이루어지는 후보인식문장을 생성하는 탐색부를 포함하는 것을 특징으로 하는 음성인식장치.
제10 항에 있어서, 상기 문법망 생성부는

시스템과 사용자간의 대화이력을 저장하는 대화이력 저장부;

대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되며, 상기 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어별로 추출된 의미적인 상관도를 갖는 적어도 하나의 단어들로 이루어지는 제1 후보 그룹을 생성하는 의미 맵;

상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되며, 상기 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어 및 상기 제1 후보그룹의 각 단어별로 추출된 음향적인 유사도를 갖는 적어도 하나의 단어들로 이루어지는 제2 후보 그룹을 생성하는 음향 맵; 및

상기 제1 후보 그룹과 상기 제2 후보 그룹을 조합하여 문법망을 구성하는 문법망 구성부로 이루어지는 것을 특징으로 하는 음성인식장치.
제11 항에 있어서, 상기 대화이력 저장부는 가장 최근의 대화내용을 저장하 며, 저장되는 대화내용은 대화가 진행됨에 따라서 갱신되어지는 것을 특징으로 하는 음성인식장치.
제11 항에 있어서, 상기 의미 맵 및 상기 음향 맵은 상기 대화이력 저장부에 저장된 대화이력 중 가장 최근에 상기 시스템이 인식한 대화문장과 상기 시스템이 발화한 대화문장에 의해 활성화되는 것을 특징으로 하는 음성인식장치.
제11 항에 있어서, 상기 단어는 각 대화문장을 구성하는 기본요소로서 하나 이상의 음절로 구성된 단어 혹은 단어열이며 단일한 의미와 단일한 발음의 쌍으로 이루어지는 것을 특징으로 하는 음성인식장치.
제11 항에 있어서, 상기 대화문장 코퍼스는 시스템과 사용자 사이에 가능한 모든 대화내용을 다양한 사용예를 포함하는 순차적인 대화문장으로 구성하여 데이터베이스화한 것임을 특징으로 하는 음성인식장치.
사용자 음성으로부터 특징을 추출하여 특징벡터열을 생성하는 단계;

사용자 음성이 발화될 때마다, 가장 최근에 발화된 대화내용을 이용하여 음향 맵과 의미 맵을 활성화시켜 문법망을 생성하는 단계;

상기 문법망을 로딩시키는 단계; 및

상기 사용자 음성의 특징벡터열을 이용하여 상기 로딩된 문법망을 탐색하여, 상기 특징벡터열과 정합되는 단어열로 이루어지는 후보인식문장을 생성하는 단계를 포함하는 것을 특징으로 하는 음성인식방법.
제16 항에 있어서, 상기 문법망 생성단계는

대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되는 음향 맵을 생성하는 단계;

상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되는 의미 맵을 생성하는 단계;

상기 의미 맵을 활성화시켜 시스템과 사용자간에 진행된 대화이력에 포함된 대화문장을 구성하는 각 단어별로 추출된 의미적인 상관도를 갖는 단어들로 이루어지는 제1 후보 그룹을 생성하는 단계;

상기 음향 맵을 활성화시켜 상기 대화이력에 포함된 대화문장을 구성하는 각 단어 및 상기 제1 후보 그룹에 포함된 각 단어별로 추출된 음향적인 유사도를 갖는 단어들로 이루어지는 제2 후보 그룹을 생성하는 단계; 및

상기 제1 후보 그룹과 상기 제2 후보 그룹을 조합하여 문법망을 구성하는 단계로 이루어지는 것을 특징으로 하는 음성인식방법.
제17 항에 있어서, 상기 제1 및 제2 후보 그룹은 가장 최근에 상기 시스템이 인식한 대화문장과 상기 시스템이 발화한 대화문장에 포함되는 단어들과 음향적 유사도 및 의미적 상관도를 갖는 단어들로 이루어지는 것을 특징으로 하는 음성인식 방법.
제17 항에 있어서, 상기 단어는 각 대화문장을 구성하는 기본요소로서 하나 이상의 음절로 구성된 단어 혹은 단어열이며 단일한 의미와 단일한 발음의 쌍으로 이루어지는 것을 것을 특징으로 하는 음성인식방법.
대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되는 음향 맵을 생성하는 단계;

상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되는 의미 맵을 생성하는 단계;

상기 의미 맵을 활성화시켜 시스템과 사용자간에 진행된 대화이력에 포함된 대화문장을 구성하는 각 단어별로 추출된 의미적인 상관도를 갖는 단어들로 이루어지는 제1 후보 그룹을 생성하는 단계;

상기 음향 맵을 활성화시켜 상기 대화이력에 포함된 대화문장을 구성하는 각 단어 및 상기 제1 후보 그룹에 포함된 각 단어별로 추출된 음향적인 유사도를 갖는 단어들로 이루어지는 제2 후보 그룹을 생성하는 단계; 및

상기 제1 후보 그룹과 상기 제2 후보 그룹을 조합하여 문법망을 구성하는 단계를 포함하는 음성인식용 문법망 생성방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
사용자 음성으로부터 특징을 추출하여 특징벡터열을 생성하는 단계;

사용자 음성이 발화될 때마다, 가장 최근에 발화된 대화내용을 이용하여 음향 맵과 의미 맵을 활성화시켜 문법망을 생성하는 단계;

상기 문법망을 로딩시키는 단계; 및

상기 사용자 음성의 특징벡터열을 이용하여 상기 로딩된 문법망을 탐색하여, 상기 특징벡터열과 정합되는 단어열로 이루어지는 후보인식문장을 생성하는 단계를 포함하는 음성인식방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
사용자 음성으로부터 특징을 추출하고 특징벡터열을 생성하는 단계;

사용자의 대화내용을 사용하여 의미맵과 음향맵을 활성화시켜 문법망을 생성하는 단계; 및

상기 특징벡터열을 사용하여 문법망을 탐색하고, 상기 특징벡터열과 정합하는 단어열로 이루어지는 복수개의 후보인식 문장을 생성하는 단계를 포함하는 것을 특징으로 하는 음성인식방법.
제22 항에 있어서, 상기 문법망은 상기 의미맵의 활성화에 의해 형성되는 제1 후보그룹과 상기 음성맵의 활성화에 의해 형성되는 제2 후보그룹을 결합하여 생성되는 것을 특징으로 하는 음성인식방법.
사용자 음성으로부터 특징을 추출하고 특징벡터열을 생성하는 단계;

사용자와 시스템간의 대화내용을 사용하여 의미맵과 음향맵을 활성화시켜 문법망을 생성하는 단계; 및

상기 특징벡터열을 사용하여 문법망을 탐색하고, 상기 특징벡터열과 정합하는 단어열로 이루어지는 복수개의 후보인식 문장을 생성하는 단계를 포함하는 음성인식방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.