KR20100081534A

KR20100081534A - 다중언어의 대화시스템 및 그 제어방법

Info

Publication number: KR20100081534A
Application number: KR1020090000821A
Authority: KR
Inventors: 장준원; 박기철; 하태신; 한우섭
Original assignee: 삼성전자주식회사
Priority date: 2009-01-06
Filing date: 2009-01-06
Publication date: 2010-07-15
Also published as: US8484011B2; KR101548907B1; US20100174523A1

Abstract

화자가 다양한 언어를 사용하여 대화하는 다중언어의 대화시스템 및 그 제어방법을 개시한다. 본 발명은 화자 언어에 대한 신뢰도를 평가함으로서 대화 과정에 발생하는 오류에 대처할 수 있다.

언어, 대화 관리, 번역, 신뢰도, 언어 생성

Description

다중언어의 대화시스템 및 그 제어방법{multilingual dialogue system and method thereof}

본 발명은 다중언어의 대화시스템 및 그 제어방법에 관한 것으로, 더욱 상세하게는 다양한 언어를 사용할 수 있는 다중언어의 대화시스템 및 그 제어방법에 관한 것이다.

인간을 대신하거나 보조할 목적으로 가사 로봇과 비서 로봇과 엔터테인먼트 로봇 등의 지능화된 로봇이 출현되고 있다.

지능화된 로봇이 주어진 서비스를 수행하는데 있어, 사람과 기계가 대화할 수 있는 대화시스템이 유용한 기술이라는 인식은 보편화되었으며, 이러한 대화시스템이 로봇 등의 에이전트에 적용하려는 연구가 지속되고 있다.

기존 대화시스템은 특정 언어만을 사용하여 대화한다. 이 때문에 다양한 언어를 사용하기 위해서 많은 제약이 따랐다. 즉, 서로 다른 종류의 언어들을 사용하려면 해당 언어로 처리하기 위하여 언어별로 대화시스템의 구성을 개별적으로 제공해야 하므로 사용할 언어의 종류가 많을 수록 대화 관리를 위한 시스템 역시 증가 할 수 밖에 없다.

본 발명의 일 측면은, 화자와 에이전트 사이에 다양한 언어를 사용하여 대화하는 다중언어의 대화시스템 및 그 제어방법을 제시하는데 있다.

본 발명의 다른 측면은, 화자 언어에 대한 신뢰도를 평가함으로서 대화 과정에 발생하는 오류에 대처할 수 있는 다중언어의 대화시스템 및 그 제어방법을 제시하는데 있다.

이를 위해 본 발명의 실시 예에 따른 다중언어의 대화시스템은, 복수의 언어 중 화자가 사용하는 언어의 음성을 입력받는 음성입력부와; 상기 화자가 사용하는 언어에 구속되지 않고 단일한 공통 언어를 사용하여 상기 화자에게 제공하기 위한 대화 내용을 만드는 공통대화모듈과; 상기 대화 내용을 화자에게 음성으로 제공하는 음성출력부;를 포함한다.

상기 대화 내용의 신뢰도를 평가하는 신뢰도 평가부를 더 포함한다.

상기 신뢰도 평가부는 복수의 평가요소를 기초로 하여 신뢰도를 수치로 생성하는 평가함수 생성기를 포함한다.

상기 평가함수 생성기는 다음 식에 따라 신뢰도 평가함수(f(t))를 생성한다.

f(t) = (AMEV+LMEV1+LMEV2+CAEV) / 4

여기서 AMEV은 화자 언어에 대한 소리 모델을 이용하여 평가한 값으로서 0이상 1이하로 결정되며, LMEV1은 화자 언어에 대한 언어 모델을 이용하여 평가한 값으로서 0이상 1이하로 결정되며, LMEV2은 공통 언어에 대한 언어 모델을 이용하여 평가한 값으로서 0이상 1이하로 결정되며, CAEV는 공통 언어에 대한 상황 인식모델 을 이용하여 평가한 값으로서 0이상 1이하로 결정된다.

상기 화자가 사용하는 언어를 지정하기 위한 키입력부를 더 포함한다.

상기 공통대화모듈은 상기 화자가 사용하는 언어를 판별하기 위한 언어판별기를 포함한다.

상기 언어판별기는 복수의 언어 모델을 사용한다.

상기 복수의 언어모델은 PPRLM(parallel phone recognition language modeling)과 GMM(gaussian mixture model)를 포함한다.

상기 공통대화모듈은 상기 화자 언어의 텍스트를 상기 공통 언어의 텍스트로 번역하거나 상기 공통 언어의 텍스트를 상기 화자 언어의 텍스트로 번역하는 번역기를 포함한다.

상기 공통대화모듈은 평가된 신뢰도에 따라 대화 내용을 선정한다.

이를 위해 본 발명의 실시 예에 따른 다중언어의 대화시스템의 제어방법은, 복수의 언어 중 화자가 사용하는 언어의 음성을 입력받고; 상기 화자가 사용하는 언어에 구속되지 않고 단일한 공통 언어로 텍스트를 바꾸고, 상기 공통 언어의 텍스트에 기초하여 상기 화자에게 제공하기 위한 대화 내용을 만들며; 상기 대화 내용을 화자에게 음성으로 제공하는 것;을 특징으로 한다.

상기 화자가 사용하는 언어를 사용자가 직접 지정한다.

상기 화자가 사용하는 언어를 판별하기 위해 복수의 언어 모델을 사용한다.

상기 대화 내용의 신뢰도를 수치화하여 평가한다.

상기 신뢰도 평가를 위해 화자 언어에 대한 소리 모델과 화자 언어에 대한 언어 모델과 공통 언어에 대한 언어 모델과 공통 언어에 대한 상황 인식모델을 사용한다.

상기 평가된 신뢰도에 따라 대화 내용을 선정한다.

이상과 같은 본 발명은 화자가 다양한 언어를 사용하여 대화할 수 있으며, 대화 내용에 대한 신뢰도를 평가하므로 대화 과정에서 발생하는 오류에 대처할 수 있어 제품의 만족도를 높일 수 있다.

이하에서는 본 발명에 따른 실시 예를 첨부된 도면을 참조하여 상세히 설명한다.

본 발명의 일 실시예에 따른 다중언어의 대화시스템은 지능화된 로봇에 적용할 수 있고, 또 다양한 언어를 사용하는 사람들이 서로 정보를 알려 주는 정보제공 시스템이나 홈 네트워크 시스템에 적용할 수 있다.

본 발명의 일 실시예에 따른 다중언어의 대화시스템은 사용자로 하여금 화자의 언어를 지정하거나 시스템이 자체적으로 화자의 언어를 판별한다.

도 1에 도시한 바와 같이, 대화시스템(10)은 사람과 에이전트 사이에 다양한 언어를 사용하여 대화할 수 있는 공통대화모듈(300)을 포함한다.

키입력부(100)가 대화에 사용할 언어를 지정한다. 이때 사용자가 직접 해당 언어에 대응하는 키를 선택하면 해당 키에 대응하는 입력 명령이 공통대화모듈(300)에 제공된다. 이에 따라 공통대화모듈(300)이 지정된 언어를 알 수 있다.

대화시스템은(10)은 화자의 음성을 공통대화모듈(300)에 입력하기 위한 음성입력부(200)와, 공통대화모듈(300)에서 제공되는 출력 음성신호에 따라 화자에게 제공하는 대화 내용을 음성으로 출력하기 위한 음성출력부(400)를 포함한다. 여기서 음성입력부(200)는 마이크로폰이고, 음성출력부(400)는 스피커이다.

도 2에 도시한 바와 같이, 공통대화모듈(300)은 음성인식기(310)와, 제1번역기(320)와, 신뢰도평가부(330)와, 언어해석부(340)와, 제2번역기(350)와, 음성생성기(360)를 포함한다.

음성인식기(310)는 다양한 언어 중 화자가 사용하는 언어를 판별하는 언어판별부(311)와 화자 음성을 판별된 언어의 텍스트로 생성하는 텍스트 생성부(314)를 포함한다.

언어판별부(311)가 사용자에 의해 지정된 언어를 화자의 언어로 인식한다. 사용자에 의해 언어 지정이 안된 경우, 언어판별부(311)가 자체적으로 화자의 언어를 판별한다. 이때 언어판별부(311)가 두 개의 언어모델을 이용하여 판별한 결과가 일치한 경우에 한하여 언어 판별이 성공적으로 이루어진다. 본 실시예에서는 두 언어 모델(312)(313)로서 PPRLM(parallel phone recognition language modeling)과 GMM(gaussian mixture model)를 사용하였으나 이에 한정하는 것은 아니며, 다른 종류의 언어모델을 사용하고 그 언어 모델들에 의해 판별된 결과가 서로 일치하는가에 따라 화자의 언어에 대하여 언어 판별할 수 있음은 물론이다.

언어해석부(340)는 음성 인식의 결과에 기초한 대답과 질문 등의 대화 관리를 하는 것인데, 단일한 공통 언어만으로 처리하게 된다. 화자의 언어와 언어해석부(340)에서 사용하는 언어가 다른 경우, 언어해석부(340)에서 사용하는 언어로 번역할 필요가 있다.

제1번역기(320)가 텍스트생성부(314)에서 생성된 화자 언어의 텍스트를 언어해석부(340)에서 사용하는 공통 언어의 텍스트로 바꾸며, 만약 화자 언어가 공통 언어와 동일하면 입력된 텍스트를 언어해석부(340)에 바로 전달한다. 이에 따라 언어해석부(340)는 제1번역기(320)로부터 공통 언어의 텍스트를 제공받게 된다.

언어해석부(340)가 공통 언어의 텍스트에 대해 파싱(parsing)하기 위한 언어이해부(341)와, 대화 관리부(342)와 언어생성부(343)를 포함한다.

언어이해부(341)가 공통 언어에 대한 이해결과를 대화 관리부(342)에 제공하면, 대화 관리부(342)가 이해결과에 대응하여 화자에게 응답하거나 질문하기 위한 대화 내용을 결정하고, 결정된 대화 내용을 언어생성부(343)에 제공한다. 그러면 언어생성부(343)는 대화 내용에 대응하여 공통 언어의 텍스트를 생성한다.

제2번역기(350)가 공통 언어의 텍스트를 화자 언어의 텍스트로 바꾼다. 여기서 공통 언어가 화자의 언어와 동일하면 음성생성기(360)에 바로 전달한다.

언어판별부(361)는 화자 언어가 어떤 언어인지 판별하여 음성생성부(362)에 제공한다. 그러면 음성생성부(362)가 화자 언어의 텍스트를 판별된 화자 언어에 대응하여 음성 신호로 바꾼다. 음성 출력부(400)가 화자 언어로 바뀐 음성 신호를 음성 출력한다. 그러면 화자가 대화 내용을 들을 수 있다.

한편 음성 인식 과정과 화자의 언어를 공통 언어로 번역하는 과정에서 오류가 발생할 수 있다. 이러한 음성 인식 오류와 번역 오류가 발생하면 언어 이해에 직접적으로 영향을 미친다. 따라서 오류에 의해 잘못 이해하거나 이해하지 못하는 가능성이 달라지므로 이에 대처할 필요가 있다.

본 실시예에서는 화자의 언어에 대한 음성인식과 번역 과정에서 발생할 수 있는 오류에 대응하기 위하여 대화의 신뢰도를 평가하는 신뢰도 평가부(330)를 구비한다. 이 신뢰도 평가부(33)는 신뢰도를 수치적으로 나타내기 위하여, 도 3에 도시한 평가함수 생성기(331)를 구비한다.

평가함수 생성기(331)는 4가지 평가요소(AMEV, LMEV1, LMEV2, CAEV)를 가지고 신뢰도 평가함수(f(t))를 만들어 낸다. 본 실시예에서 신뢰도 평가함수(f(t))는 4가지 평가요소를 산술 평균한 값으로 정하였으나 이에 한정하는 것은 아니며 신뢰도 평가함수에 적용하는 요소의 종류를 다르게 할 수 있음은 물론이다. 이러한 4가지 평가요소는 음성인식기(310)와 제1번역기(320)와 언어해석부(340)에서 제공된다.

f(t) = (AMEV+LMEV1+LMEV2+CAEV) / 4

여기서 AMEV(acoustic model evaluation value)은 화자 언어에 대한 소리 모델을 이용하여 평가한 값으로서 0이상 1이하로 결정되며, LMEV1(language model evaluation value 1)은 화자 언어에 대한 언어 모델을 이용하여 평가한 값으로서 0이상 1이하로 결정되며, LMEV2(language model evaluation value 2)은 공통 언어에 대한 언어 모델을 이용하여 평가한 값으로서 0이상 1이하로 결정되며, CAEV(context awareness model evaluation value)는 공통 언어에 대한 상황 인식모델을 이용하여 평가한 값으로서 0이상 1이하로 결정된다.

제1평가요소(AMEV)는 모음과 자음의 소리를 분석하여 인식 정도를 수치로 나타내는 것으로, 화자 입력음성에 대한 주파수(frequency)와 크기(amplitude)와 시간(time)을 고려하여 평가한다. 예를 들어 "bit"와 "kit"는 소리가 다르며, 소리에 따라 구별할 수 있다.

제2 및 제3평가요소(LMEV1)(LMEV2)는 자연스러운 어법, 문법에 적합한 정도를 수치로 나타낸 것이다. 다음 예시문이 있다고 가정한다. "내가 밥을 _____" 예시문의 빈칸에 들어갈 수 있는 단어는 "먹는다"가 자연스럽다. 반면 "마시다"는 어법에 맞지 않는다.

제4평가요소(CAEV)는 화자와 에이전트 사이에 하는 대화 내용이 상황에 얼마나 부합하는지를 수치로 나타낸 것이다. 예를 들어 식당에 배치된 가사 로봇과 손님 사이에 대화하는 경우, "나는 밥을 먹는다"라는 대화는 충분히 예측되는 것이지만, "나는 밥을 짓는다"라는 말은 비록 어법상 문제가 없지만 대화가 이루어지는 상황에서 발생할 가능성이 적다.

평가함수 생성기(331)는 4가지 평가요소에 대해 각각 평가하여 수치로 바꾸고, 그 수치를 산술 평가하여 신뢰도 평가함수(f(t))를 출력한다.

대화 관리부(342)는 평가함수(f(t))이 기준값(T)보다 크면 음성 인식이나 공통 언어로 번역하는 과정에서 오류가 심각하지 않은 상태로 인식한다. 이렇게 정상 인식되면 대화 관리부(342)는 화자의 질문에 대한, 화자에게 질문하기 위한 대화 내용을 만들어 낸다. 만약 신뢰도 평가함수(f(t))가 기준값(T)보다 크지 않아 오류가 심각한 상태이면, 대화 관리를 제대로 수행하기 어렵다는 상황을 화자에게 알려 주기 위한 대화 내용을 만든다.

대화 내용이 만들어지면 공통 언어를 생성한 후 화자 언어의 텍스트로 바꾸고 다시 화자 언어로 된 음성신호를 생성한 후 음성 출력한다.

이하에서는 본 발명에 따른 다중언어의 대화시스템의 제어방법을 설명한다.

시스템이 동작하면, 화자가 사용할 언어를 키입력부(100)를 통해 지정할 수 있다. 이 언어 지정은 의무적 사항은 아니다.

본 실시예에 따른 대화시스템(10)을 갖춘 로봇 등의 에이전트와 화자가 음성으로 대화할 수 있으며, 이를 자세하게 설명한다.

화자가 음성으로 명령한다. 여기서 음성 명령은 로봇에게 주어진 임무나 서비스를 실행하는 명령을 포함한다. 그러면 음성입력부(100)는 화자 언어의 음성신호를 음성인식기(310)에 제공한다(500).

사용자가 언어를 지정하지 않은 경우 언어판별기(311)가 두 개의 언어 모델(312)(313)를 이용하여 언어를 판별한 결과 서로 일치하면 해당 언어를 화자의 언어로 인식한다(501).

언어판별기(311)가 사용자에 의해 언어 지정되었거나 언어 모델의 일치에 따라 화자 언어를 판별한 결과를 텍스트생성기(314)에 제공한다. 텍스트 생성기(314)는 판별된 언어의 텍스트를 생성하여 제1번역기(320)로 출력한다(504).

제1번역기(320)가 화자 언어의 텍스트를 언어해석부(340)에서 사용하는 공통 언어의 텍스트로 번역하여 언어이해부(341)에 전달한다. 여기서 화자 언어가 공통 언어와 동일하면 바로 전달한다(506).

언어이해부(341)가 공통 언어에 대한 이해결과를 대화 관리부(342)에 제공한다(508).

이러한 언어 이해에 병행하여 신뢰도 평가부(330)가 화자의 음성을 인식하거나 번역하는 과정에서 발생할 수 있는 오류의 정도를 알 수 있는 신뢰도 평가함수(f(t))를 계산한다. 이때 도 3과 같이 평가함수 생성기(331)가 4가지 평가요소에 따라 개별 평가한 결과를 산술 평가하여 신뢰도 평가함수(f(t))를 출력한다(510).

대화 관리부(342)가 신뢰도 평가부(330)에서 제공되는 신뢰도 평가함수(f(t))를 고려하여 언어이해부(341)에서 이해된 결과에 대응하여 화자에게 응답하거나 질문하기 위한 대화 내용을 결정한다. 신뢰도 평가함수(f(t))가 기준값(T)보다 크지 않으면 화자의 음성을 인식하거나 공통 언어로 번역하는 과정에서 오류가 심각하게 발생한 상태로 인식하며, 이 경우 화자가 말한 음성 인식의 실패로 보완하기 위한 대화내용 예를 들어 "죄송합니다. 이해를 못했으니 다시 말씀해 주세요" 를 선정한다(512)(513).

신뢰도 평가함수(f(t))가 기준값(T)보다 크면 화자의 음성을 인식하거나 공통 언어로 번역하는 과정에서 오류가 심각하지 않은 상태로 인식하며, 이 경우 화자가 말한 음성 인식의 성공에 따른 적절한 대화 내용을 선정한다(512)(514)

대화 내용이 선정되면 언어생성부(343)가 대화 내용에 대응하여 공통 언어의 텍스트를 생성하고(516), 제2번역기(350)가 공통 언어의 텍스트를 화자 언어의 텍스트로 번역한다(518).

그런 다음 언어판별부(361)는 화자 언어의 텍스트를 제공받아 어떤 언어인지 판별하여 음성생성부(362)에 제공하고(520), 이에 따라 음성생성부(362)가 화자 언어의 텍스트를 음성 신호로 바꾸고 음성 출력부(400)를 통해 음성 출력한다(522).그러면 화자가 대화 내용을 듣고 대화를 지속할 수 있다.

도 1은 본 발명의 일 실시예에 따른 다중언어의 대화시스템의 전체 블록도이다.

도 2는 본 발명의 일 실시예에 따른 공통대화모듈의 상세한 구성을 나타낸 블록도이다.

도 3는 본 발명의 일 실시예에 따른 신뢰도 평가함수를 설명하기 위한 도면이다.

도 4은 본 발명의 일 실시예에 따른 다중언어의 대화시스템의 제어방법을 설명하기 위한 흐름도이다.

*도면의 주요부분에 대한 부호 설명*

10 : 대화시스템

100 : 키입력부

200 : 음성입력부

300 : 공통대화모듈

400 : 음성출력부

Claims

복수의 언어 중 화자가 사용하는 언어의 음성을 입력받는 음성입력부와;

상기 화자가 사용하는 언어에 구속되지 않고 단일한 공통 언어를 사용하여 상기 화자에게 제공하기 위한 대화 내용을 만드는 공통대화모듈과;

상기 대화 내용을 화자에게 음성으로 제공하는 음성출력부;를

포함하는 다중언어의 대화시스템.
제1항에 있어서,

상기 대화 내용의 신뢰도를 평가하는 신뢰도 평가부를 더 포함하는 다중언어의 대화시스템.
제2항에 있어서,

상기 신뢰도 평가부는 복수의 평가요소를 기초로 하여 신뢰도를 수치로 생성하는 평가함수 생성기를 포함하는 다중언어의 대화시스템.
제3항에 있어서,

상기 평가함수 생성기는 다음 식에 따라 신뢰도 평가함수(f(t))를 생성하는 다중언어의 대화시스템.

f(t) = (AMEV+LMEV1+LMEV2+CAEV) / 4

여기서 AMEV은 화자 언어에 대한 소리 모델을 이용하여 평가한 값으로서 0이상 1이하로 결정되며, LMEV1은 화자 언어에 대한 언어 모델을 이용하여 평가한 값으로서 0이상 1이하로 결정되며, LMEV2은 공통 언어에 대한 언어 모델을 이용하여 평가한 값으로서 0이상 1이하로 결정되며, CAEV는 공통 언어에 대한 상황 인식모델을 이용하여 평가한 값으로서 0이상 1이하로 결정된다.
제1항에 있어서,

상기 화자가 사용하는 언어를 지정하기 위한 키입력부를 더 포함하는 다중언어의 대화시스템.
제1항에 있어서,

상기 공통대화모듈은 상기 화자가 사용하는 언어를 판별하기 위한 언어판별기를 포함하는 다중언어의 대화시스템.
제6항에 있어서,

상기 언어판별기는 복수의 언어 모델을 사용하는 다중언어의 대화시스템.
제7항에 있어서,

상기 복수의 언어모델은 PPRLM(parallel phone recognition language modeling)과 GMM(gaussian mixture model)를 포함하는 다중언어의 대화시스템.
제1항에 있어서,

상기 공통대화모듈은 상기 화자 언어의 텍스트를 상기 공통 언어의 텍스트로 번역하거나 상기 공통 언어의 텍스트를 상기 화자 언어의 텍스트로 번역하는 번역기를 포함하는 다중언어의 대화시스템.
제2항에 있어서,

상기 공통대화모듈은 평가된 신뢰도에 따라 대화 내용을 선정하는 다중언어의 대화시스템.
복수의 언어 중 화자가 사용하는 언어의 음성을 입력받고;

상기 화자가 사용하는 언어에 구속되지 않고 단일한 공통 언어로 텍스트를 바꾸고, 상기 공통 언어의 텍스트에 기초하여 상기 화자에게 제공하기 위한 대화 내용을 만들며;

상기 대화 내용을 화자에게 음성으로 제공하는 것;을

특징으로 하는 다중언어의 대화시스템의 제어방법.
제11항에 있어서,

상기 화자가 사용하는 언어를 사용자가 직접 지정하는 다중언어의 대화시스템의 제어방법.
제11항에 있어서,

상기 화자가 사용하는 언어를 판별하기 위해 복수의 언어 모델을 사용하는 다중언어의 대화시스템의 제어방법.
제13항에 있어서,

상기 복수의 언어모델은 PPRLM(parallel phone recognition language modeling)과 GMM(gaussian mixture model)를 포함하는 다중언어의 대화시스템의 제어방법.
제11항에 있어서,

상기 대화 내용의 신뢰도를 수치화하여 평가하는 다중언어의 대화시스템의 제어방법.
제15항에 있어서,

상기 신뢰도 평가를 위해 화자 언어에 대한 소리 모델과 화자 언어에 대한 언어 모델과 공통 언어에 대한 언어 모델과 공통 언어에 대한 상황 인식모델을 사용하는 다중언어의 대화시스템의 제어방법.
제15항에 있어서,

상기 평가된 신뢰도에 따라 대화 내용을 선정하는 다중언어의 대화시스템의 제어방법.