KR101694011B1

KR101694011B1 - 복수 응용 소프트웨어에 대한 음성 대화 방법 및 장치

Info

Publication number: KR101694011B1
Application number: KR1020150085959A
Authority: KR
Inventors: 이근배; 남대환; 방지수; 구상준; 류성한; 최준휘
Original assignee: 포항공과대학교 산학협력단
Priority date: 2015-06-17
Filing date: 2015-06-17
Publication date: 2017-01-06
Also published as: KR20160149025A

Abstract

다양한 복수의 응응 소프트웨어에 대한 인터페이스를 제공하기 위해 입력 문장으로부터 사용자가 원하는 응용 소프트웨어를 선택하는 음성 대화 방법 및 장치가 개시된다. 복수 응용 소프트웨어에 대한 음성 대화 장치는, 사용자가 입력한 자연어 문장을 처리하여 의미 표현으로 변환하는 통합 의미 이해부, 통합 의미 이해부에서 변환된 의미 표현을 토대로 의미 표현에 대응하는 응용 소프트웨어 및 응용 소프트웨어에서의 서비스를 결정하는 통합 대화 관리부, 및 통합 대화 관리부에서 결정된 응용 소프트웨어를 이용하여 사용자에게 보여주고자 하는 응답을 결정하는 통합 응답 생성부를 포함한다.

Description

복수 응용 소프트웨어에 대한 음성 대화 방법 및 장치{METHOD AND APPARATUS FOR VOICE DIALOGUE ON MULTIPLE APPLICATION SOFTWARES}

본 발명은 음성 대화 방법에 관한 것으로, 더욱 상세하게는, 다양한 복수의 응응 소프트웨어에 대한 인터페이스를 제공하기 위해 입력 문장으로부터 사용자가 원하는 응용 소프트웨어를 선택하는 음성 대화 방법 및 장치에 관한 것이다.

최근 정보 처리 기술이 급속하게 발달하여 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant) 등의 정보 처리 장치에서 텍스트 또는 음성과 같은 언어적 요소뿐만 아니라 몸짓, 손짓 또는 제스처와 같은 비언어적인 요소를 인식하여 처리할 수 있게 됨에 따라 사용자와 정보 처리 간의 상호 작용을 제공하는 대화 시스템(Dialogue System)에 대한 연구가 활발하게 진행되고 있다.

대화 시스템은 특정 서비스를 사용자에게 제공하기 위한 목적 지향 시스템과 일상적인 잡담 대화를 제공하기 위한 채팅 시스템 등이 일반적으로 사용되고 있으며 특히, 최근 빅데이터(Big data) 시대가 도래함에 따라 콘텐츠 검색, 지능형 로봇, 차세대 PC, 텔레매틱스, 홈네트워크와 같이 광범위한 기술 분야에 적용하기 위한 연구가 활발히 진행되고 있다.

또한, 사용자는 개인용 컴퓨터나 휴대단말과 같은 장치에서 수십, 수백 개의 응용 소프트웨어를 사용하며 쉽게 새로운 응용 소프트웨어를 설치하여 사용할 수 있다. 다수의 응용 소프트웨어에 대한 대화시스템을 구현하기 위해서는 사용자가 처리하기 원하는 응용 소프트웨어를 정확하게 선택하고 그에 부합하는 서비스를 제공해야 한다. 기존의 다중 영역에 대한 대화시스템은 자연어 문장으로부터 사용자가 처리하기 원하는 영역을 선택한 후 해당 영역에 맞게 구축된 대화 처리 과정을 수행하도록 구성되었다.

그러나 이와 같은 종래의 대화 시스템은 미리 구축된 영역 선택 과정에서 오류가 발생할 경우 사용자에게 완전히 잘못된 서비스를 제공하기 때문에 사용자 경험을 저해할 위험이 있다. 또한, 그러한 문제는 대화 시스템이 수십, 수백 개의 응용소프트웨어에 대한 서비스를 제공하고자 할 때 더욱더 심화하게 된다. 그러므로 사용자가 입력한 자연어 문장으로부터 사용자가 원하는 응용 소프트웨어를 정확하게 선택하기 위한 방안이 필요하다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 기존 시스템과 같이 영역을 선택한 후 해당 영역에 맞게 구축된 대화 처리 과정을 수행하는 것이 아니라, 사용자 단말에 탑재된 수십 내지 수백 개 이상의 모든 응용 소프트웨어에 대한 통합의미 이해, 통합 대화 관리, 및 통합 응답 생성을 통해 다양한 복수의 응용 소프트웨어에 대한 통합적인 대화 처리 과정을 수행할 수 있는 음성 대화 방법 및 장치를 제공하는 데 있다.

본 발명의 다른 목적은, 사용자 단말에 탑재된 수십 내지 수백 개 이상의 응용 소프트웨어에 대한 통합대화 관리부에서 사용자의 음성 요청에 따라 적합한 응용 소프트웨어를 선택하고 그에 적합한 서비스를 수행할 수 있는 음성 대화 방법 및 장치를 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 측면에서는, 사용자가 입력한 자연어 문장을 처리하여 의미 표현으로 변환하는 통합 의미 이해부, 통합 의미 이해부에서 변환된 의미 표현을 토대로 의미 표현에 대응하는 응용 소프트웨어 및 응용 소프트웨어에서의 서비스를 결정하는 통합 대화 관리부, 통합 대화 관리부에서 결정된 응용 소프트웨어를 이용하여 사용자에게 보여주고자 하는 응답을 결정하는 통합 응답 생성부를 포함하는, 복수 응용 소프트웨어에 대한 음성 대화 장치를 제공한다.

여기에서, 통합 의미 이해부는, 자연어 문장에서 통합 의도를 분류하는 통합 의도 분류부, 및 통합 의도 분류부에서 분류된 통합 의도를 토대로 통합 의도에 대응하는 통합 개체 유형을 구분하는 통합 개체명 인식부를 포함할 수 있다.

여기에서, 통합 의도 분류부는, 자연어 문장으로부터 미리 준비된 추상 수준 통합 의도 모델을 이용하여 추상 수준 통합 의도를 분류하는 추상 수준 통합 의도 분류부, 및 추상 수준 통합 의도로부터 미리 준비된 구체 수준 통합 의도 모델을 이용하여 구체 수준 통합 의도를 분류하는 구체 수준 통합 의도 분류부를 포함할 수 있다.

여기에서, 통합 개체명 인식부는, 통합 개체명 모델을 이용하여 통합 의도로부터 개체명을 추출하고, 개체명에서 통합 개체 유형을 구분할 수 있다.

여기에서, 통합 대화 관리부는, 통합 의미 이해부로부터 의미 표현에 대응하는 통합 개체 유형을 받고, 온톨로지 형태로 표현된 응용 소프트웨어 선택 모델을 이용하여 통합 개체 유형에 대응하는 응용 소프트웨어를 선택하는 응용 소프트웨어 선택부, 및 응용 소프트웨어 선택부에서 선택된 응용 소프트웨어에 대한 서비스 수행 모델을 토대로 서비스를 수행하는 서비스 수행부를 포함할 수 있다.

여기에서, 통합 응답 생성부는, 응답 생성 모델을 토대로 사용자에게 보여줄 응답 출력 문장을 생성할 수 있다.

본 발명의 다른 측면에 의하면, 컴퓨터 장치에 의해 수행되는 복수 응용 소프트웨어에 대한 음성 대화 방법으로서, 사용자가 입력한 자연어 문장을 처리하여 의미 표현으로 변환하는 단계, 의미 표현을 토대로 의미 표현에 대응하는 응용 소프트웨어 및 응용 소프트웨어에서의 서비스를 결정하는 단계, 및 응용 소프트웨어를 이용하여 사용자에게 보여주고자 하는 응답을 결정하는 단계를 포함하는, 복수 응용 소프트웨어에 대한 음성 대화 방법을 제공한다.

여기에서, 상기 변환하는 단계는, 자연어 문장에서 통합 의도를 분류하고, 통합 의도를 토대로 통합 의도에 대응하는 통합 개체 유형을 구분할 수 있다.

여기에서, 상기 변환하는 단계는, 통합 의도를 분류할 때, 미리 준비된 추상 수준 통합 의도 모델을 이용하여 자연어 문장으로부터 추상 수준 통합 의도를 분류하고, 미리 준비된 구체 수준 통합 의도 모델을 이용하여 추상 수준 통합 의도로부터 구체 수준 통합 의도를 분류할 수 있다.

여기에서, 상기 변환하는 단계는, 통합 개체 유형을 구분할 때, 통합 개체명 모델을 이용하여 통합 의도로부터 개체명을 추출하고, 개체명에서 통합 개체 유형을 구분할 수 있다.

여기에서, 상기 서비스를 결정하는 단계는, 의미 표현에 대응하는 통합 개체 유형을 받고, 온톨로지 형태로 표현된 응용 소프트웨어 선택 모델을 이용하여 통합 개체 유형에 대응하는 응용 소프트웨어를 선택하고, 선택된 응용 소프트웨어에 대한 서비스 수행 모델을 토대로 서비스를 수행할 수 있다.

여기에서, 상기 응답을 결정하는 단계는, 응답 생성 모델을 토대로 사용자에게 보여줄 응답 출력 문장을 생성할 수 있다.

본 발명의 또 다른 측면에 의하면, 전술한 실시예들 중 어느 하나의 복수 응용 소프트웨어에 대한 음성 대화 방법을 기록한 프로그램을 저장하는 컴퓨터 판독 기록매체, 및 컴퓨터 판독 기록매체에 연결되어 프로그램을 수행하는 프로세서를 포함하는, 복수 응용 소프트웨어에 대한 음성 대화 장치를 제공한다.

여기에서, 프로세서는 휴대 단말, 텔레비전, 또는 입는 컴퓨터에 탑재될 수 있다. 컴퓨터 판독 기록매체는 유선, 무선 또는 유무선 네트워크를 통해 프로세서에 연결될 수 있다.

상술한 바와 같은 본 발명의 실시예에 따른 복수 응용 소프트웨어에 대한 음성 대화 방법 및 장치를 이용할 경우에는, 다양한 복수의 응용 소프트웨어에 대한 인터페이스를 제공하기 위해 입력 문장으로부터 사용자가 원하는 특정 응용 소프트웨어를 선택하고 이를 통해 수십 내지 수백 개의 응용 소프트웨어에 대한 통합 서비스를 제공하는 음성 대화 방법의 성능을 개선하고 이러한 음성 대화 방법을 구현하는 장치 예컨대, 대화 시스템 또는 대화 시스템을 탑재한 휴대 단말, 텔레비전 기기, 웨어러블 컴퓨터 등을 제공할 수 있다.

또한, 본 발명에 의하면, 복수 응용소프트웨어에 대한 음성 대화 방법을 구현하는 장치들 중 하나인 대화 시스템(Dialog System)에 채용하기에 적합한 사용자와 컴퓨터 간의 대화 인터페이스를 제공할 수 있다. 이를 위해 대화 시스템은 수십, 수백 개의 응용 소프트웨어에 의해 설정되는 다양한 영역(Domains)에 대한 사용자 요청을 처리할 수 있다. 특히 사용자가 대화로서 수십 내지 수백 개의 다양한 응용 소프트웨어(Application Software) 중에서 자신이 원하는 응용 소프트웨어를 사용할 수 있도록 하기 위하여, 대화 시스템은 사용자의 요청으로부터 사용자가 원하는 특정 응용 소프트웨어를 탐지할 수 있다.

또한, 본 발명에 의하면, 대화 시스템은 새로운 서비스를 추가했을 때 데이터 기반 접근법을 사용하여 새로운 데이터를 수집하는 노력을 최소화할 수 있고 그에 의해 서비스 가능한 응용 소프트웨어를 쉽게 확장할 수 있는 장점이 있다.

또한, 본 발명에 의하면, 대화 시스템은 입력 문장으로부터 의미 구조를 추출해 내고, 추출된 의미 구조를 바탕으로 사용자가 원하는 응용 소프트웨어를 선택해 효율적이고 신뢰성이 향상된 대화 서비스를 제공할 수 있는 장점이 있다.

또한, 본 발명에 의하면, 다양한 응용 소프트웨어에 대한 통합서비스를 제공하는 대화 시스템을 휴대 단말, 텔레비전(TV), 입는 컴퓨터(Wearable Computer) 등 다양한 장치에 적용 가능하다.

도 1은 본 발명의 일실시예에 따른 복수 응용 소프트웨어에 대한 음성 대화 장치에 대한 개략적인 블록도이다.
도 2는 도 1의 통합 의미 이해부의 구조에 대한 블록도이다.
도 3은 도 1의 통합 대화 관리부의 구조에 대한 블록도이다.
도 4는 도 1의 통합 응답 생성부의 구조에 대한 블록도이다.
도 5는 본 발명의 다른 실시예에 따른 복수 응용 소프트웨어에 대한 음성 대화 방법에 대한 흐름도이다.
도 6은 본 발명의 실시예에 따른 복수 응용 소프트웨어에 대한 음성 대화 장치를 채용할 수 있는 휴대단말에 대한 예시도이다.
도 7은 본 발명의 실시예에 따른 복수 응용 소프트웨어에 대한 음성 대화 장치를 채용할 수 있는 텔레미전에 대한 예시도이다.
도 8은 본 발명의 실시예에 따른 복수 응용 소프트웨어에 대한 음성 대화 장치를 채용할 수 있는 입는 컴퓨터(Wearable Computer)에 대한 예시도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 본 명세서에서 오해의 소지가 없는 한 어떤 문자의 첨자가 다른 첨자를 가질 때, 표시의 편의를 위해 첨자의 다른 첨자는 첨자와 동일한 형태로 표시될 수 있다.

본 명세서에서 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 복수 응용 소프트웨어에 대한 음성 대화 장치에 대한 개략적인 블록도이다.

도 1을 참조하면, 본 실시예에 따른 복수 응용 소프트웨어에 대한 음성 대화 장치(이하, 간략히 음성 대화 장치라 한다)(100)는 통합 의미 이해부(110), 통합 대화 관리부(120) 및 통합 응답 생성부(130)를 구비한 시스템 구조를 포함하고, 이들의 기능과 결합을 통해 입력 문장으로부터 사용자가 원하는 특정 응용 소프트웨어를 사용자 장치에 탑재된 수십 내지 수백 개의 응용 소프트웨어들에서 선택할 수 있다. 사용자 장치는 휴대단말, 텔레미전, 입는 컴퓨터(wearable computer) 등을 포함할 수 있다.

통합 의미 이해부(110)는 사용자가 입력한 자연어 문장(간략히 입력 문장이라고도 한다)을 컴퓨터가 처리할 수 있는 의미 표현으로 변환한다.

통합 대화 관리부(120)는 통합 의미 이해부(110)에서 변환된 의미 표현을 바탕으로 적합한 응용 소프트웨어 및 해당 응용 소프트웨어에서의 서비스를 결정한다.

통합 응답 생성부(130)는 통합 대화 관리부(120)에서 결정된 서비스에 따라 사용자에게 보여주고자 하는 응답 또는 응답 유형을 결정한다.

도 2는 도 1의 통합 의미 이해부의 일실시예에 대한 블록도이다.

도 2를 참조하면, 본 실시예에 따른 통합 의미 이해부(110)는 통합 의도 분류부(112) 및 통합 개체명 인식부(118)를 포함하며, 이들의 기능 및 결합에 의해 입력 문장을 분류하고 인식하여 의미 표현을 출력한다.

통합 의도 분류부(112)는 통합 의미 이해부(110)의 구성요소로서 사용자가 입력한 자연어 문장에 대한 의도를 분류해 낸다. 예를 들어 문장 "무한도전 언제 시작하지"의 의도는 'question.start-time'이며, 또 다른 문장 '부장님께 제안서 다 썼다고 메일 보내줘'의 의도는 메일 송부 요청 즉 'request.send-mail'이다. 이러한 의도 분류 과정은 계층적으로 수행 가능하다.

통합 의도 분류부(112)는 추상 수준 통합 의도 분류부(114) 및 구체 수준 통합 의도 분류부(116)를 포함할 수 있다.

즉, 통합 의도 분류부(112)의 의도 분류는 1차적으로 추상 수준 통합 의도 분류부(114)가 추상 수준 통합 의도를 분류하는 것으로 시작될 수 있다. 추상 수준 통합 의도란 문장이 나타내는 사용자의 의도를 구체적인 수준이 아닌 추상적인 수준에서 분류한 것을 말하며, '질의'('question'), '응답'('response'), '요청'('request'), '통지'('inform') 등을 포함할 수 있다. 이러한 추상 수준 통합 의도는 상대적으로 일반적이며 새로운 응용 소프트웨어들이 추가되더라도 변경될 여지가 적다.

추상 수준 통합 의도 분류부(115)는 추상 수준 통합 의도를 구분할 수 있는 추상 수준 통합 의도 모델(115)을 활용할 수 있다. 추상 수준 통합 의도 모델(115)은 문법 규칙으로 구성되거나, 훈련 데이터를 활용해 기계학습 기법으로 학습된 분류기로 구성되거나, 혹은 그 둘을 모두 사용해 구현될 수 있다.

다음으로, 추상 수준 통합 의도를 분석한 후에, 구체 수준 통합 의도 분류부(117)는 구체 수준 통합 의도를 분류한다. 예를 들어 추상 수준 통합 의도가 'question'인 문장은 사용자의 질문에 대한 정답 유형을 분류해 'question.start-time', 'question.birth-date', 'question.temperature', 'question.producer' 등과 같은 구체 수준 통합 의도를 파악할 수 있다.

또한, 추상 수준 통합 의도가 'request'인 문장이면, 사용자가 요청한 응용 소프트웨어를 통해 실행할 수 있는 서비스를 분류해 'request.send-mail', 'request.food-recommendation', 'request.check-update' 등과 같은 구체 수준 통합 의도를 파악할 수 있다.

구체 수준 통합 의도 분류부(115)는 구체 수준 통합 의도를 구분할 수 있는 구체 수준 통합 의도 모델(117)을 활용할 수 있다. 추상 수준 통합 의도 모델(117)은 문법 규칙으로 구성되거나, 훈련 데이터를 활용해 기계학습 기법으로 학습된 분류기로 구성되거나, 혹은 그 둘을 모두 사용해 구현될 수 있다.

통합 개체명 인식부(118)는 통합 의미 이해부(110)의 구성요소로서 사용자로부터 입력되고 통합 의도 분류부(112)에 의해 그 의도가 분류된 자연어 문장으로부터 복수의 개체를 추출하고 통합 개체 유형을 알아낸다. 통합 개체 유형으로는 movie, actor, director, sender, receiver, restaurant 등을 포함할 수 있다. 예를 들어 문장 "무한도전 언제 시작하지"의 통합 개체 유형은 '무한도전'이며 유형은 'movie' 또는 'Celebrity-Entertainment-Program'이며, 또 다른 문장 "부장님께 제안서 다 썼다고 메일 보내줘"의 개체명은 '부장님'이며, 그 통합 개체 유형은 'receiver'가 될 수 있다.

통합 개체명 인식부(118)는 개체명을 추출하고 통합 개체 유형을 구분할 수있는 통합 개체명 모델(119)을 활용할 수 있다. 통합 개체명 모델(119)은 문법 규칙으로 구성되거나, 훈련 데이터를 활용해 기계학습 기법으로 학습된 분류기로 구성되거나, 혹은 그 둘을 모두 사용해 구현될 수 있다.

본 실시예에서, 통합 의미 이해부(110)는 통합 의도 분류부(112)와 통합 개체명 인식부(118)를 포함하는 것으로 표시되나, 이에 한정되지는 않으며, 추상 수준 통합 의도 모델(115), 구체 수준 통합 의도 모델(117) 및 통합 개체명 모델(119) 중 적어도 어느 하나 이상을 포함하는 적어도 하나 이상의 데이터베이스를 더 포함하도록 구현될 수 있다.

도 3은 도 1의 통합 대화 관리부의 일실시예에 대한 상세 블록도이다.

도 3을 참조하면, 본 실시예에 따른 통합 대화 관리부(120)는 응용 소프트웨어 선택부(122) 및 서비스 수행부(124)를 포함하고, 이들의 기능과 결합에 의해 통합 의미 이해부(110)의 출력 결과인 의미 표현을 바탕으로 적합한 응용 소프트웨어를 선택하고 해당 응용 소프트웨어의 서비스를 수행한다.

응용 소프트웨어 선택부(122)는 통합 대화 관리부(120)의 구성요소로서 온톨로지 형태로 표현된 응용 소프트웨어 선택 모델(123)을 토대로 사용자의 입력 문장, 그에 대한 의미 표현, 시간 및 공간 정보, 각 응용 소프트웨어의 데이터베이스 등을 고려해 적합한 응용 소프트웨어를 선택한다.

서비스 수행부(125)는 통합 대화 관리부(120)의 구성요소로서 앞서 선택된 응용 소프트웨어에 대해 서비스 수행 모델(125)을 바탕으로 사용자의 입력 문장, 그에 대한 의미 표현, 시간 및 공간 정보, 각 응용 소프트웨어의 데이터베이스 등을 고려해 서비스를 수행한다.

본 실시예에서 통합 대화 관리부(120)는 응용 소프트웨어 선택부(122) 및 서비스 수행부(124)를 포함하는 것(도 3 참조)으로 도시되나, 이에 한정되지는 않으며, 응용 소프트웨어 선택 모델(123) 및 서비스 수행 모델(125) 중 적어도 어느 하나 이상을 포함하도록 구현될 수 있다.

도 4는 도 1의 통합 응답 생성부의 일실시예에 대한 상세 블록도이다.

도 4를 참조하면, 본 실시예에 따른 통합 응답 생성부(130)는 응답 생성 모델(131)에 기반하여 통합 대화 관리부(120)의 서비스 수행 결과를 바탕으로 사용자에게 보여줄 응답을 생성한다. 응답은 응답 출력 문장을 포함할 수 있다.

응답 생성 모델(131)은 응답 규칙으로 구성되거나, 훈련 데이터를 활용해 기계학습 기법으로 학습된 응답 생성기로 구성되거나, 혹은 그 둘을 모두 사용해 구현될 수 있다.

본 실시예에서, 통합 응답 생성부(13)는 독립적으로 배치된 응답 생성 모델(131)에 연결되는 형태(도 4 참조)로 도시되나, 이에 한정되지는 않으며, 응답 생성 모델(131)을 포함하도록 구현될 수 있다.

도 5는 본 발명의 다른 실시예에 따른 복수 응용 소프트웨어에 대한 음성 대화 방법에 대한 흐름도이다.

도 5를 참조하면, 본 실시예에 따른 복수 응용 소프트웨어에 대한 음성 대화 방법(이하, 간략히 음성 대화 방법이라 한다)은, 통합 의미 이해 단계(S51 참조), 통합 대화 관리 단계(S52 참조) 및 통합 응답 생성 단계(S53 참조)를 포함할 수 있다. 본 실시예의 음성 대화 방법은 컴퓨터 장치를 포함하는 음성 대화 장치에 의해 수행될 수 있다.

음성 대화 방법의 각 구성요소를 좀더 구체적으로 설명하면, 먼저 음성 대화 장치는 통합 의미 이해 단계에서 자연어 문장에 대한 의미 표현을 추출한다(S51). 이를 위해 음성 대화 장치는 자연어 문장에서 통합 의도를 분류하고(S511), 분류된 통합 의도에 대응하는 통합 개체 유형을 구분할 수 있다(S512).

특히, 음성 대화 장치는 통합 의도를 분류할 때 추상 수준 통합 의도 모델을 이용하여 자연어 문장에서 추상 수준 통합 의도를 분류하고, 추상 수준 통합 의도를 분류한 후 구체 수준 통합 의도 모델을 이용하여 추상 수준 통합 의도를 토대로 구체 수준 통합 의도를 분류할 수 있다.

그리고 통합 개체 유형을 구분할 때, 통합 개체명 모델을 이용하여 통합 의도로부터 개체명을 추출하고, 개체명에서 통합 개체 유형을 구분할 수 있다. 통합 개체 유형은 자연어 문장에서 획득한 의미 표현에 대응할 수 있다.

다음, 음성 대화 장치는 통합 의미 이해 단계(S51 참조)에서 얻은 의미 표현에 대한 서비스를 결정한다(S52). 이를 위해 음성 대화 장치는 의미 표현에 대응하는 통합 개체 유형을 받고, 온톨로지 형태로 표현된 응용 소프트웨어 선택 모델을 이용하여 통합 개체 유형에 대응하는 응용 소프트웨어를 선택하고(S521), 선택된 응용 소프트웨어에 대한 서비스 수행 모델을 토대로 서비스를 수행할 수 있다(S522).

다음, 음성 대화 장치는 통합 대화 관리 단계(S52 참조)에서 결정된 서비스에 대한 응답을 결정한다(S53). 이를 위해 음성 대화 장치는 응답 생성 모델을 토대로 사용자에게 보여줄 응답 출력 문장을 생성할 수 있다.

도 6 내지 도 8은 본 발명의 실시예에 따른 복수 응용 소프트웨어에 대한 음성 대화 장치를 적용할 수 있는 장치들에 대한 예시도들이다. 도 6은 본 실시예의 음성 대화 장치가 휴대 단말에 적용된 예시이고, 도 7은 본 실시예에 따른 음성 대화 장치가 텔레비전에 적용된 예시이며, 도 8은 본 실시예에 따른 음성 대화 장치가 입는 컴퓨터(wearable computer)에 적용된 예시이다.

도 6을 참조하면, 본 실시예에 따른 음성 대화 장치 또는 음성 대화 방법을 채용하는 휴대 단말(이하, 간략히 휴대단말이라 한다)(610)은 수십 내지 수백의 응용 소프트웨어(620)를 포함한다. 일례로, 휴대단말(610)의 화면에는 수십 내지 수백 개의 응용 소프트웨어(620)를 실행시키기 위한 링크를 가진 복수의 아이콘들이 위치할 수 있다.

또한, 휴대단말(610)은 음성 대화 방법을 구현하거나 음성 대화 장치의 기능을 구현하기 위해 프로세서(611) 및 메모리(612)를 구비한다. 프로세서(611)는 휴대단말(610)의 동작을 제어하는 제어장치의 적어도 일부의 구성요소일 수 있다.

도 7을 참조하면, 본 실시예에 따른 음성 대화 장치 또는 음성 대화 방법을 채용하는 텔레비전 장치(이하, 간략히 텔레비전이라 한다)(710)은 수십 내지 수백의 응용 소프트웨어(720)를 포함한다. 일례로, 텔레비전(710)의 화면에는 수십 내지 수백 개의 응용 소프트웨어(720)를 동작시키기 위한 링크 또는 명령어를 가진 복수의 아이콘들이 배치될 수 있다.

또한, 텔레비전(710)은 음성 대화 방법을 구현하거나 음성 대화 장치의 기능을 구현하기 위해 프로세서(711) 및 메모리(712)를 구비한다. 프로세서(711)는 텔레비전(710)의 동작을 제어하는 제어장치의 적어도 일부의 구성요소일 수 있다.

도 8을 참조하면, 본 실시예에 따른 음성 대화 장치 또는 음성 대화 방법을 채용하는 입는 컴퓨터는 안경 형태, 손목시계 형태, 장갑 형태, 의류 내장 형태, 밴드 착용 형태, 신발 형태, 인체 삽입 형태 등을 구비할 수 있다. 예를 들어, 입는 컴퓨터는 안경 형태의 제1 입는 컴퓨터(810), 손목시계 형태의 제2 입는 컴퓨터(820), 의류 내장 형태의 제3 입는 컴퓨터(830) 및 신발 형태의 제4 입는 컴퓨터(840)를 포함할 수 있다.

예를 들어, 안경 형태의 입는 컴퓨터는 안경식 디스플레이(Head Mounted Display, HMD)를 포함하고 시각적 가상현실을 구현할 수 있으며, 손목시계 형태 또는 밴드 형태의 입는 컴퓨터는 팔뚝에 착용하여 손과 손가락의 운동패턴을 인식하고 기탑재된 관성센서를 사용하여 사용자 팔의 이동량을 측정하도록 구현될 수 있다.

본 실시예에 있어서, 제1 내지 제4 입는 컴퓨터들 중 적어도 어느 하나 이상은 프로세서(811, 821, 831 또는 841)를 포함하고, 선택적으로 메모리(812 또는 832) 또는 통신장치(813 또는 843)를 포함할 수 있다. 또한, 도면에 도시하지는 않았지만, 제1 내지 제4 입는 컴퓨터들 중 적어도 어느 하나 이상은 음성 입력을 위한 마이크로폰이나 이와 유사한 기능을 수행하는 수단을 더 포함할 수 있다.

이러한 구성에 의하면, 본 실시예의 음성 대화 장치 또는 음성 대화 방법을 적용한 입는 컴퓨터는 프로세서 및/또는 메모리에 탑재되거나 통신장치를 통해 연결되는 네트워크(850)상의 휴대단말(610)이나 클라우드 또는 서버 장치(860)에 탑재된 수십 내지 수백 개의 응용 소프트웨어들 중 앞서 수신된 입력 문장에서 사용자가 원하는 특정 응용 소프트웨어를 효과적으로 선택할 수 있다.

또한, 전술한 휴대단말(610), 텔레비전(710) 및 입는 컴퓨터(810, 820, 830, 840) 중 적어도 어느 하나에 탑재되는 프로세서는, 하나 이상의 코어, 캐시 메모리, 메모리 인터페이스 및 주변장치 인터페이스를 포함할 수 있다. 프로세서가 멀티 코어 구조를 구비하는 경우, 멀티 코어(multi-core)는 두 개 이상의 독립 코어를 단일 집적 회로로 이루어진 하나의 패키지로 통합한 것을 지칭한다. 단일 코어는 중앙 처리 장치를 지칭할 수 있다. 중앙처리장치(CPU)는 MCU(micro control unit)와 주변 장치(외부 확장 장치를 위한 집적회로)가 함께 배치되는 SOC(system on chip)로 구현될 수 있으나, 이에 한정되지는 않는다. 코어는 처리할 명령어를 저장하는 레지스터(register), 비교, 판단, 연산을 담당하는 산술논리연산장치(arithmetic logical unit, ALU), 명령어의 해석과 실행을 위해 CPU를 내부적으로 제어하는 제어부(control unit), 내부 버스 등을 구비할 수 있다.

또한, 프로세서는 하나 이상의 데이터 프로세서, 이미지 프로세서, 또는 코덱(CODEC)을 포함할 수 있으나, 이에 한정되지는 않는다. 데이터 프로세서, 이미지 프로세서 또는 코덱은 별도로 구성될 수도 있다. 또한, 프로세서는 주변장치 인터페이스와 메모리 인터페이스를 구비할 수 있고, 그 경우, 주변장치 인터페이스는 프로세서와 입출력 시스템 및 여러 다른 주변 장치 예컨대 통신장치(813 또는 843)를 연결하고, 메모리 인터페이스는 프로세서와 메모리(812 또는 832)를 연결할 수 있다.

전술한 프로세서는 여러 가지의 소프트웨어 프로그램을 실행하여 음성 대화 방법을 구현하기 위하여 음성 문장 입력, 의미 표현 생성, 서비스 수행 및 통합 응답 생성의 일련의 프로세스를 수행할 수 있다.

또한, 구현에 따라서 프로세서는 메모리에 저장되어 있는 특정한 소프트웨어 모듈(명령어 세트)을 실행하여 해당 모듈에 대응하는 특정한 여러 가지의 기능을 수행할 수 있다. 예컨대, 프로세서는 메모리에 저장된 소프트웨어 모듈들에 포함되는 음성 대화 방법을 위한 모듈들에 의해 휴대단말(610), 텔레비전(710), 또는 입는 컴퓨터(810)에서 서버 장치 등과의 연동을 통해 음성 대화 방법을 수행할 수 있다. 음성 대화 방법을 구현하기 위하여 프로세서는 통합 의미 이해부(110), 통합 대화 관리부(120) 및 통합 응답 생성부(130)를 구비할 수 있다.

메모리는 하나 이상의 자기 디스크 저장 장치와 같은 고속 랜덤 액세스 메모리 및/또는 비휘발성 메모리, 하나 이상의 광 저장 장치 및/또는 플래시 메모리를 포함할 수 있다. 메모리는 운영 체제(operating system)를 포함한 소프트웨어, 프로그램, 명령어 집합 또는 이들의 조합을 저장할 수 있다. 메모리는 음성 대화 방법을 위한 모듈들 예컨대, 통합 의미 이해 모듈, 통합 대화 관리 모듈 및 통합 응답 생성 모듈을 저장할 수 있다. 또한, 메모리는 추상 수준 통합 의도 모델, 구체 수준 통합 의도 모델, 통합 개체명 모델, 응용 소프트웨어 선택 모델, 서비스 수행 모델, 응답 생성 모델 중 적어도 하나 이상을 더 저장할 수 있다. 여기서 모듈은 명령어들의 집합으로서 명령어 세트(instruction set) 또는 프로그램으로 표현될 수 있다.

운영 체제는 예컨대 MS WINDOWS, LINUX, 다윈(Darwin), RTXC, UNIX, OS X, iOS, 맥 OS, VxWorks, 구글 OS, 안드로이드(android), 바다(삼성 OS), 플랜 9 등과 같은 내장 운영 체제를 포함하고, 음성 대화 장치, 휴대단말, 텔레비전, 입는 컴퓨터 등에서 선택되는 적어도 어느 하나를 포함하는 응용장치의 시스템 작동(system operation)을 제어하는 여러 가지의 구성요소를 구비할 수 있다. 전술한 운영 체제는 여러 가지의 하드웨어(장치)와 소프트웨어 구성요소(모듈) 사이의 통신을 수행하는 기능도 구비할 수 있으나, 이에 한정되지는 않는다.

통신장치(813, 843)는 음성 대화 장치 또는 이를 탑재한 응용장치가 네트워크를 통해 서버 장치, 파일 서버 또는 네트워크상의 다른 장치와 연결될 수 있도록 하나 이상의 통신 프로토콜을 지원한다. 이를 위해, 통신장치는 하나 이상의 무선 통신 서브시스템을 포함할 수 있다. 무선 통신 서브시스템은 무선 주파수(radio frequency) 수신기 및 송수신기 및/또는 광(예컨대, 적외선) 수신기 또는 송수신기를 포함할 수 있다.

네트워크(850)는, 예를 들어 GSM(Global System for Mobile Communication), EDGE(Enhanced Data GSM Environment), CDMA(Code Division Multiple Access), W-CDMA(W-Code Division Multiple Access), LTE(Long Term Evolution), LTE-A(LET-Advanced), OFDMA(Orthogonal Frequency Division Multiple Access), WiMax, Wi-Fi(Wireless Fidelity), Bluetooth 등의 무선 네트워크를 포함하나, 이에 한정되지는 않으며, 유선 네트워크 또는 이들의 조합 네트워크를 포함할 수 있다.

한편, 본 실시예에 있어서, 음성 대화 장치의 구성요소들(110, 120, 130 등)은 휴대단말이나 컴퓨터 장치(텔레비전이나 입는 컴퓨터 포함)에 탑재되는 기능 블록 또는 모듈일 수 있으나, 이에 한정되지 않는다. 전술한 구성요소들은 이들이 수행하는 일련의 기능을 구현하기 위한 소프트웨어 형태로 컴퓨터 판독 가능 매체(기록매체)에 저장되거나 혹은 캐리어 형태로 원격지에 전송되어 다양한 컴퓨터 장치에서 동작하도록 구현될 수 있다. 여기서 컴퓨터 판독 가능 매체는 네트워크를 통해 연결되는 복수의 컴퓨터 장치나 클라우드 시스템을 포함할 수 있고, 복수의 컴퓨터 장치나 클라우드 시스템 중 적어도 하나 이상은 메모리 시스템에 본 실시예의 음성 대화 장치에서 음성 대화 방법을 수행하기 위한 프로그램이나 소스 코드 등을 저장할 수 있다.

즉, 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하는 형태로 구현될 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것을 포함할 수 있다.

또한, 컴퓨터 판독 가능 매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 하드웨어 장치는 본 실시예의 음성 대화 방법을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 음성 대화 장치
110: 통합 의미 대화부
112: 통합 의도 분류부
118: 통합 개체명 인식부
120: 통합 대화 관리부
122: 응용 소프트웨어 선택부
124: 서비스 수행부
130: 통합 응답 생성부

Claims

미리 준비된 추상 수준 통합 의도 모델을 이용하여 자연어 문장이 나타내는 사용자의 의도를 추상적인 수준에서 1차적으로 분류하여 추상 수준 통합 의도를 구분하는 추상 수준 통합 의도 분류부;
상기 추상 수준 통합 의도에 따라 상기 자연어 문장을 사용자의 질문에 대한 정답 유형이나 사용자가 요청한 응용 소프트웨어를 통해 실행할 수 있는 서비스로 분류하여 구체 수준 통합 의도를 구분하는 구체 수준 통합 의도 분류부;
상기 구체 수준 통합 의도에 의해 그 의도가 분류된 상기 자연어 문장에서 통합 개체 유형을 인식하는 통합 개체명 인식부;
상기 통합 개체명 인식부에서 인식된 상기 통합 개체 유형에 대응하는 의미 표현을 바탕으로 상기 의미 표현에 대응하는 응용 소프트웨어 및 상기 응용 소프트웨어에서의 서비스를 결정하는 통합 대화 관리부; 및
상기 통합 대화 관리부에서 결정된 상기 응용 소프트웨어를 이용하여 사용자에게 보여주고자 하는 응답을 결정하는 통합 응답 생성부를 포함하는,
복수 응용 소프트웨어에 대한 음성 대화 장치.
삭제
삭제
청구항 1에 있어서,
상기 통합 개체명 인식부는, 통합 개체명 모델을 이용하여 상기 구체 수준 통합 의도에 의해 그 의도가 분류된 상기 자연어 문장으로부터 복수의 개체명을 추출하고, 상기 복수의 개체명을 통해 상기 통합 개체 유형을 인식하는, 복수 응용 소프트웨어에 대한 음성 대화 장치.
청구항 1에 있어서,
상기 통합 대화 관리부는,
상기 통합 개체명 인식부로부터 상기 의미 표현에 대응하는 통합 개체 유형을 받고, 온톨로지 형태로 표현된 응용 소프트웨어 선택 모델을 이용하여 상기 통합 개체 유형에 대응하는 응용 소프트웨어를 선택하는 응용 소프트웨어 선택부; 및
상기 응용 소프트웨어 선택부에서 선택된 상기 응용 소프트웨어에 대한 서비스 수행 모델을 토대로 서비스를 수행하는 서비스 수행부를 포함하는,
복수 응용 소프트웨어에 대한 음성 대화 장치.
청구항 1에 있어서,
상기 통합 응답 생성부는, 응답 생성 모델을 토대로 사용자에게 보여줄 응답 출력 문장을 생성하는, 복수 응용 소프트웨어에 대한 음성 대화 장치.
컴퓨터 장치에 의해 수행되는 복수 응용 소프트웨어에 대한 음성 대화 방법으로서,
미리 준비된 추상 수준 통합 의도 모델을 이용하여 자연어 문장이 나타내는 사용자의 의도를 추상적인 수준에서 1차적으로 분류하여 추상 수준 통합 의도를 구분하는 단계;
상기 추상 수준 통합 의도에 따라 상기 자연어 문장을 사용자의 질문에 대한 정답 유형이나 사용자가 요청한 응용 소프트웨어를 통해 실행할 수 있는 서비스로 분류하여 구체 수준 통합 의도를 구분하는 단계;
상기 구체 수준 통합 의도에 의해 그 의도가 분류된 상기 자연어 문장에서 통합 개체 유형을 인식하는 단계;
상기 통합 개체 유형에 대응하는 의미 표현을 토대로 상기 의미 표현에 대응하는 응용 소프트웨어 및 상기 응용 소프트웨어에서의 서비스를 결정하는 단계; 및
상기 응용 소프트웨어를 이용하여 사용자에게 보여주고자 하는 응답을 결정하는 단계를 포함하는, 복수 응용 소프트웨어에 대한 음성 대화 방법.
삭제
삭제
청구항 7에 있어서,
상기 인식하는 단계는, 상기 통합 개체 유형을 구분할 때, 통합 개체명 모델을 이용하여 상기 구체 수준 통합 의도에 의해 그 의도가 분류된 상기 자연어 문장으로부터 복수의 개체명을 추출하고, 상기 복수의 개체명을 통해 상기 통합 개체 유형을 인식하는, 복수 응용 소프트웨어에 대한 음성 대화 방법.
청구항 7에 있어서,
상기 서비스를 결정하는 단계는, 상기 의미 표현에 대응하는 통합 개체 유형을 받고, 온톨로지 형태로 표현된 응용 소프트웨어 선택 모델을 이용하여 상기 통합 개체 유형에 대응하는 응용 소프트웨어를 선택하고, 선택된 상기 응용 소프트웨어에 대한 서비스 수행 모델을 토대로 서비스를 수행하는, 복수 응용 소프트웨어에 대한 음성 대화 방법.
청구항 7에 있어서,
상기 응답을 결정하는 단계는, 응답 생성 모델을 토대로 사용자에게 보여줄 응답 출력 문장을 생성하는, 복수 응용 소프트웨어에 대한 음성 대화 방법.
청구항 7, 청구항 10 내지 청구항 12 중 어느 한 항의 복수 응용 소프트웨어에 대한 음성 대화 방법을 기록한 프로그램을 저장하는 컴퓨터 판독 기록매체; 및
상기 컴퓨터 판독 기록매체에 연결되어 상기 프로그램을 수행하는 프로세서를 포함하는, 복수 응용 소프트웨어에 대한 음성 대화 장치.
청구항 13에 있어서,
상기 프로세서는 휴대 단말, 텔레비전, 또는 입는 컴퓨터에 탑재되는, 복수 응용 소프트웨어에 대한 음성 대화 장치.
청구항 13에 있어서,
상기 컴퓨터 판독 기록매체는 유선, 무선 또는 유무선 네트워크를 통해 상기 프로세서에 연결되는, 복수 응용 소프트웨어에 대한 음성 대화 장치.