KR20140026220A

KR20140026220A - 단말 장치 및 단말 장치의 제어 방법

Info

Publication number: KR20140026220A
Application number: KR1020120133125A
Authority: KR
Inventors: 이의윤; 조성길; 차태환
Original assignee: 삼성전자주식회사
Priority date: 2012-06-15
Filing date: 2012-11-22
Publication date: 2014-03-05

Abstract

단말 장치가 개시된다. 본 단말 장치는 사용자 음성을 수집하기 위한 음성 수집부, 외부 서버로 수집된 사용자 음성을 전송하고, 사용자 음성에 대응되는 응답 정보를 수신하는 통신부, 응답 정보를 음성 신호로 변환하는 음성 변환부, 변환된 음성 신호를 출력하는 음성 출력부 및 수집된 사용자 음성의 주파수 및 음색 중 적어도 하나를 분석하고, 응답 정보를 분석 결과에 대응되는 음성 특성을 가지는 음성 신호로 변환하도록 제어하는 제어부를 포함한다.

Description

단말 장치 및 단말 장치의 제어 방법{TERMINAL APPARATUS AND CONTROLLING METHOD THEREOF}

본 발명은 단말 장치 및 단말 장치의 제어 방법에 관한 것으로 더욱 상세하게는 사용자 음성에 따라 제어되는 단말 장치 및 단말 장치의 제어 방법에 관한 것이다.

전자 기술의 발달에 힘입어 다양한 종류의 단말 장치가 개발되어 보급되고 있다. 특히, 최근에는 TV를 비롯한 다양한 유형의 단말 장치들이 일반 가정에서 사용되고 있다. 이들 단말 장치들은 사용자의 요구에 따라 점차 다양한 기능을 구비하게 되었다. 특히, TV의 경우, 최근에는 인터넷과 연결되어 인터넷 서비스까지 지원하고 있다. 또한, 사용자는 TV를 통해 많은 수의 디지털 방송 채널까지 시청할 수 있게 되었다.

이에 따라, 단말 장치의 다양한 기능들을 효율적으로 사용하기 위한 다양한 입력 방법이 요구되고 있다. 예를 들어, 리모컨을 이용한 입력 방법, 마우스를 이용한 입력 방법 및 터치 패드를 이용한 입력 방법 등이 디스플레이 장치에 적용되고 있다.

또한, 최근에는 보다 편리하고 직관적인 제어를 위하여 사용자 음성으로 단말 장치를 제어하고, 사용자 음성에 대응되는 음성을 출력하는 대화형 시스템에 따른 제어방법도 제공되고 있다. 그러나, 출력되는 음성은 일률적으로 적용되어 사용자 특성 및 기호를 반영하지 못하고 있다.

본 발명은 상술한 문제점을 해결하기 위한 것으로 본 발명의 목적은 사용자 특성 및 기호를 고려하여 다양한 음성 출력이 가능한 단말 장치 및 단말 장치의 제어 방법을 제공함에 있다.

이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 단말 장치는 사용자 음성을 수집하기 위한 음성 수집부, 외부 서버로 상기 수집된 사용자 음성을 전송하고, 상기 사용자 음성에 대응되는 응답 정보를 수신하는 통신부, 상기 응답 정보를 음성 신호로 변환하는 음성 변환부, 상기 변환된 음성 신호를 출력하는 음성 출력부 및 상기 수집된 사용자 음성의 주파수 및 음색 중 적어도 하나를 분석하고, 상기 응답 정보를 상기 분석 결과에 대응되는 음성 특성을 가지는 음성 신호로 변환하도록 제어하는 제어부를 포함한다.

여기서, 상기 외부 서버는, 제1 서버 및 제2 서버를 포함하고, 상기 통신부는, 상기 수집된 사용자 음성을 상기 제1 서버로 전송하고, 상기 제1 서버로부터 상기 사용자 음성에 대응되는 텍스트 정보를 수신하는 제1 통신부 및 상기 수신된 텍스트 정보를 상기 제2 서버로 전송하고, 상기 텍스트 정보에 대응되는 응답 정보를 수신하는 제2 통신부를 포함할 수 있다.

그리고, 상기 제어부는, 상기 사용자 음성의 주파수 및 음색 중 적어도 하나를 분석하여 사용자의 성별 및 연령 중 적어도 하나를 판단하고, 상기 응답 정보를 상기 판단 결과에 대응되는 출력 주파수의 음성 신호로 변환할 수 있다.

그리고, 사용자 음성의 주파수 및 음색 중 적어도 하나에 대응되는 성별 및 연령 정보 중 적어도 하나를 포함하는 제1 정보 및, 성별 및 연령 정보 중 적어도 하나에 대응되는 출력 주파수 정보를 포함하는 제2 정보를 저장하는 저장부를 더 포함할 수 있으며, 상기 제어부는, 상기 사용자 음성의 주파수 및 음색 중 적어도 하나와 상기 제1 정보를 비교하여 상기 사용자의 성별 및 연령 중 적어도 하나를 판단하고, 상기 판단된 사용자의 성별 및 연령 중 적어도 하나와 상기 제2 정보를 비교하여 상기 출력 주파수를 결정할 수 있다.

한편, 본 발명의 일 실시 예에 따른 단말 장치는 촬상부를 더 포함할 수 있으며, 상기 제어부는, 상기 촬상부에 의해 촬상된 사용자 이미지를 분석하여 상기 사용자의 성별 및 연령 중 적어도 하나를 판단할 수 있다.

그리고, 기 분석된 사용자 음성의 주파수 및 음색 중 적어도 하나 및 대응되는 음성 특성을 저장하는 저장부를 더 포함할 수 있으며, 상기 제어부는, 상기 수집된 사용자 음성의 주파수 및 음색 중 적어도 하나가 상기 저장부에 저장된 사용자 음성의 주파수 및 음색 중 적어도 하나와 동일한 경우, 상기 수신된 응답 정보를 상기 저장부에 저장된 음성 특성을 가지는 음성 신호로 변환할 수 있다.

또한, 상기 응답 정보에 따른 응답 메시지를 디스플레이하는 디스플레이부를 더 포함할 수 있으며, 상기 제어부는, 상기 응답 메시지를 상기 분석 결과에 대응되는 형태로 디스플레이하도록 제어할 수 있다.

그리고, 상기 제어부는, 상기 응답 메시지를 구성하는 오브젝트의 크기, 색상, 모양 및 형상 중 적어도 하나를 상기 분석 결과에 대응되는 형태로 출력하도록 제어할 수 있다.

한편, 본 발명의 일 실시 예에 따른 단말 장치의 제어 방법은, 사용자 음성을 수집하는 단계, 외부 서버로 상기 수집된 사용자 음성을 전송하고, 상기 사용자 음성에 대응되는 응답 정보를 수신하는 단계, 상기 수집된 사용자 음성의 주파수 및 음색 중 적어도 하나를 분석하는 단계, 상기 응답 정보를 상기 분석 결과에 대응되는 음성 특성을 가지는 음성 신호로 변환하는 단계 및 상기 변환된 음성 신호를 출력하는 단계를 포함한다.

여기서, 상기 외부 서버는, 제1 서버 및 제2 서버를 포함하고, 상기 수집된 사용자 음성을 전송하고, 상기 사용자 음성에 대응되는 응답 정보를 수신하는 단계는, 상기 수집된 사용자 음성을 상기 제1 서버로 전송하는 단계, 상기 제1 서버로부터 상기 사용자 음성에 대응되는 텍스트 정보를 수신하는 단계, 상기 수신된 텍스트 정보를 상기 제2 서버로 전송하는 단계 및 상기 텍스트 정보에 대응되는 응답 정보를 수신하는 단계를 포함할 수 있다.

그리고, 상기 분석하는 단계는, 상기 사용자 음성의 주파수 및 음색 중 적어도 하나를 분석하여 사용자의 성별 및 연령 중 적어도 하나를 판단하고, 상기 변환하는 단계는, 상기 응답 정보를 상기 판단 결과에 대응되는 출력 주파수의 음성 신호로 변환할 수 있다.

한편, 사용자 음성의 주파수 및 음색 중 적어도 하나에 대응되는 성별 및 연령 정보 중 적어도 하나를 포함하는 제1 정보 및, 성별 및 연령 정보 중 적어도 하나에 대응되는 출력 주파수 정보를 포함하는 제2 정보를 저장하는 단계를 더 포함할 수 있으며, 상기 분석하는 단계는, 상기 사용자 음성의 주파수 및 음색 중 적어도 하나와 상기 제1 정보를 비교하여 상기 사용자의 성별 및 연령 중 적어도 하나를 판단하고, 상기 변환하는 단계는, 상기 판단된 사용자의 성별 및 연령 중 적어도 하나와 상기 제2 정보를 비교하여 상기 출력 주파수를 결정할 수 있다.

또한, 사용자 이미지를 촬상하는 단계를 더 포함할 수 있으며, 상기 분석하는 단계는, 상기 촬상된 사용자 이미지를 분석하여 상기 사용자의 성별 및 연령 중 적어도 하나를 판단할 수 있다.

그리고, 기 분석된 사용자 음성의 주파수 및 음색 중 적어도 하나 및 대응되는 음성 특성을 저장하는 단계를 더 포함할 수 있으며, 상기 변환하는 단계는, 상기 수집된 사용자 음성의 주파수 및 음색 중 적어도 하나가 상기 저장부에 저장된 사용자 음성의 주파수 및 음색 중 적어도 하나와 동일한 경우, 상기 수신된 응답 정보를 상기 저장부에 저장된 음성 특성을 가지는 음성 신호로 변환할 수 있다.

한편, 상기 응답 정보에 따른 응답 메시지를 상기 분석 결과에 대응되는 형태로 디스플레이하는 단계를 더 포함할 수 있다.

그리고, 상기 디스플레이하는 단계는, 상기 응답 메시지를 구성하는 오브젝트의 크기, 색상, 모양 및 형상 중 적어도 하나를 상기 분석 결과에 대응되는 형태로 디스플레이할 수 있다.

본 발명의 일 실시 예에 따른 대화형 시스템의 제어 방법은, 사용자 음성을 수집하는 단계, 상기 사용자 음성에 대응되는 응답 정보를 생성하는 단계, 상기 사용자 음성의 주파수 및 음색 중 적어도 하나를 분석하는 단계, 상기 응답 정보를 상기 분석 결과에 대응되는 음성 특성을 가지는 음성 신호로 변환하는 단계 및 상기 변환된 음성 신호를 출력하는 단계를 포함한다.

여기서, 상기 응답 정보를 생성하는 단계는, 상기 사용자 음성에 대응되는 텍스트 정보를 생성하는 단계 및 상기 텍스트 정보에 대응되는 응답 정보를 생성하는 단계를 포함할 수 있다.

이상과 같은 본 발명의 다양한 실시 예에 따르면, 단말 장치의 사용자는 사용자의 성향, 청각 능력, 기호 등을 고려한 음성 및 메시지를 제공받을 수 있게 된다.

도 1은 본 발명의 일 실시 예에 따른 대화형 시스템을 설명하기 위한 도면이다.
도 2는 도 1에 도시된 대화형 시스템의 각 동작을 설명하기 위한 타이밍도이다.
도 3은 도 1에 도시된 단말 장치의 구성을 설명하기 위한 블럭도이다.
도 4는 도 3에 도시된 단말 장치의 세부 구성을 설명하기 위한 블럭도이다.
도 5는 도 1에 도시된 제1 서버의 구성을 설명하기 위한 블록도이다.
도 6은 도 1에 도시된 제2 서버의 구성을 설명하기 위한 블록도이다.
도 7은 본 발명의 일 실시 예에 따른 대화형 시스템의 동작을 설명하기 위한 도면들이다.
도 8은 본 발명의 일 실시 예에 따른 단말 장치의 제어 방법을 설명하기 위한 흐름도이다.

이하에서는 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시 예에 따른 대화형 시스템을 설명하기 위한 도면이다. 도 1에 도시된 바와 같이, 대화형 시스템은 단말 장치(100), 제1 서버(200) 및 제2 서버(300)를 포함한다. 단말 장치(100)는 도 1에 도시된 바와 같이, 스마트 TV일 수 있으나, 이는 일 예에 불과할 뿐, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다.

단말 장치(100)는 수집된 사용자의 음성을 제1 서버(200)로 전송한다. 단말 장치(100)로부터 사용자의 음성이 수신되면, 제1 서버(200)는 수신된 사용자의 음성을 텍스트 정보로 변환하고, 텍스트 정보를 단말 장치(100)로 전송한다.

그리고, 단말 장치(100)는 제1 서버(200)로부터 수신된 텍스트 정보를 제2 서버(300)로 전송한다. 단말 장치(100)로부터 텍스트 정보가 수신되면, 제2 서버(300)는 수신된 텍스트 정보에 대응되는 응답 정보를 생성하여 단말 장치(100)로 전송한다.

단말 장치(100)는 응답 정보에 기초하여, 다양한 동작을 수행할 수 있다. 예를 들어, 단말 장치(100)는 사용자의 음성에 대응되는 응답 메시지를 출력할 수 있다. 여기에서, 응답 메시지는 음성 또는 텍스트 형태로 출력될 수 있다. 구체적으로, 단말 장치(100)는 특정 프로그램의 방송 시간을 문의하는 사용자의 음성이 입력되면, 해당 프로그램의 방송 시간을 음성 또는 텍스트 형태로 출력할 수 있다.

또한, 단말 장치(100)는 사용자의 음성에 대응되는 기능을 수행할 수 있다. 예를 들어, 단말 장치(100)는 채널 변경을 위한 사용자의 음성이 입력되면, 해당 채널을 선국하여 디스플레이할 수 있다. 이 경우, 단말 장치(100)는 해당 기능에 대응되는 응답 메시지를 함께 제공할 수도 있다. 상술한 예의 경우, 단말 장치(100)는 변경된 채널에 대한 정보 또는 채널 변경이 완료되었음을 나타내는 메시지를 음성 또는 텍스트 형태로 출력할 수 있다.

한편, 단말 장치(100)는 수집된 사용자 음성을 분석하여 제2 서버로부터 수신된 응답 정보를 사용자 음성의 분석 결과에 대응되는 음성 특성을 가지는 음성 신호로 변환하여 출력할 수 있다. 그리고, 단말 장치(100)는 제2 서버로부터 수신된 응답 정보를 텍스트로 출력할 때, 사용자 음성의 분석 결과에 대응되는 형태로 텍스트를 출력할 수 있다. 이에 따라, 각 사용자는 사용자 특성에 따라 최적화된 음성 및 텍스트를 를 제공받을 수 있다.

도 1에서는 대화형 시스템이 단말 장치, 제1 서버 및 제2 서버를 포함하는 것으로 설명하였으나, 대화형 시스템은 단말 장치만으로 구현되거나 단말 장치와 하나의 서버 만으로 구현될 수도 있다. 또한, 제1 서버, 제2 서버에서 수행되는 동작의 일부 또는 전부는 단말 장치내에서 수행되도록 구현될 수 있다.

도 2는 도 1에 도시된 대화형 시스템의 각 동작을 설명하기 위한 타이밍도이다.

도 2에 따르면, 단말 장치(100)는 사용자 음성을 수집하여(S10), 제1 서버(200)로 전송한다(S20). 구체적으로, 사용자 음성을 수집하기 위한 모드가 개시되면, 단말 장치(100)는 기설정된 거리 이내에서 사용자가 발화한 음성을 수집하여 제1 서버(200)로 전송할 수 있다.

이를 위해, 단말 장치(100)는 사용자가 발화한 음성을 입력받기 위한 마이크 등을 구비할 수 있다. 이 경우, 마이크는 단말 장치(100)에 내장되어 일체형을 이루거나, 단말 장치(100)와 분리된 형태로 구현될 수 있다. 분리된 형태로 구현되는 경우, 마이크는 사용자가 손으로 쥐는 형태, 또는 식탁이나 테이블에 놓일 수 있는 형태로 구현될 수 있으며, 단말 장치(100)와 유선 또는 무선 네트워크를 통하여 연결될 수 있다.

제1 서버(200)는 단말 장치(100)로부터 수신된 사용자 음성을 텍스트 정보로 변환한다(S30). 구체적으로, 제1 서버(200)는 STT(Speech to Text)를 위한 알고리즘을 이용하여, 단말 장치(100)로부터 수신된 음성 신호를 텍스트 정보로 변환할 수 있다. 그리고, 제1 서버(200)는 텍스트 정보를 단말 장치(100)로 전송한다(S40).

단말 장치(100)는 제1 서버(200)로부터 수신된 텍스트 정보를 제2 서버(300)로 전송한다(S50).

제2 서버(300)는 단말 장치(100)로부터 텍스트 정보가 수신되면, 텍스트 정보에 대응되는 응답 정보를 생성한다.

여기에서, 응답 정보는, 단말 장치(100)에서 사용자 음성에 대응되는 응답 메시지를 출력하기 위한 정보(이하에서, 응답 메시지 정보)를 포함한다. 예를 들어, "○○○(방송프로그램명) 언제 시작해?"라는 사용자 음성에 대해, 제2 서버(300)는 "토요일 저녁 7시에 시작합니다"라는 응답 메시지가 음성 또는 텍스트 형태로 단말 장치(100)에서 출력되도록 하기 위한 정보를 단말 장치(100)로 전송할 수 있다.

뿐만 아니라, 응답 정보는, 단말 장치(100)에서 사용자 음성에 대응되는 기능을 실행하기 위한 제어 명령을 포함할 수 있다. 예를 들어, "○○○(방송프로그램명) 녹화해줘"라는 사용자 음성에 대해, 제2 서버(300)는 단말 장치(100)에서 "○○○"의 예약 녹화 기능을 수행하기 위한 제어 명령을 단말 장치(100)로 전송할 수 있다. 이 경우, 응답 정보는 단말 장치(100)에서 수행되는 기능에 대응되는 응답 메시지 정보를 포함할 수 있다. 상술한 예에서, 제2 서버(300)는 "○○○의 녹화가 예약되었습니다"라는 응답 메시지가 음성 또는 텍스트로 단말 장치(100)에서 출력되도록 하기 위한 정보를 단말 장치(100)로 전송할 수 있다.

한편, 단말 장치(100)는 수신된 응답 정보에 기초하여, 사용자 음성에 대응되는 동작을 수행한다(S80).

구체적으로, 단말 장치(100)는 응답 정보에 포함된 응답 메시지 정보에 기초하여, 사용자 음성에 대응되는 응답 메시지를 출력할 수 있다. 예를 들어, 제2 서버(300)로부터 텍스트 형태의 응답 메시지 정보가 수신되는 경우, 단말 장치(100)는 TTS(Text to Speech) 알고리즘을 이용하여 텍스트 형태의 응답 메시지 정보를 음성으로 변환하여 출력하거나, 응답 메시지 정보를 구성하는 텍스트가 포함되도록 UI(User Interface) 화면을 구성하여 출력할 수 있다.

여기서, 단말 장치(100)는 수집된 사용자 음성을 분석하여 제2 서버로부터 수신된 응답 정보를 사용자 음성의 분석 결과에 대응되는 음성 특성을 가지는 음성 신호로 변환하여 출력할 수 있다. 그리고, 단말 장치(100)는 제2 서버로부터 수신된 응답 정보를 텍스트로 출력할 때, 사용자 음성의 분석 결과에 대응되는 형태로 텍스트를 출력할 수 있다. 이에 따라, 각 사용자는 사용자 특성에 따라 최적화된 음성 및 텍스트를 를 제공받을 수 있다.

또한, 단말 장치(100)는 응답 정보에 포함된 제어 명령에 따라, 사용자 음성에 대응되는 기능을 수행할 수 있다. 예를 들어, 제2 서버(300)로부터 특정 방송 프로그램에 대한 예약 녹화를 수행하기 위한 제어 명령이 수신되면, 단말 장치(100)는 해당 방송 프로그램에 대한 예약 녹화를 수행할 수 있다.

도 3은 도 1에 도시된 단말 장치의 구성을 설명하기 위한 블럭도이다. 도 3에 따르면, 단말 장치(100)는 음성 수집부(110), 통신부(120), 음성 변환부(130), 음성 출력부(122) 및 제어부(150)를 포함한다.

음성 수집부(110)는 사용자의 음성을 수집한다. 예를 들어, 음성 수집부(120)는 사용자의 음성을 수집하기 위한 마이크로 구현되어, 단말 장치(100)에 내장되어 일체형을 이루거나, 단말 장치(100)와 분리된 형태로 구현될 수 있다. 분리된 형태로 구현되는 경우, 음성 수집부(110)는 사용자가 손으로 쥐는 형태, 또는 식탁이나 테이블에 놓일 수 있는 형태로 구현될 수 있으며, 단말 장치(100)와 유선 또는 무선 네트워크를 통하여 연결되어 수집된 사용자의 음성을 단말 장치(100)로 전송할 수 있다.

한편, 음성 수집부(110)는 수집된 사용자의 음성을 처리하여, 음성 신호를 생성한다. 즉, 음성 수집부(110)는 수집된 사용자의 음성에서 노이즈(예를 들어, 에어컨 소리, 청소기 소리, 음악 소리 등)를 제거하여, 음성 신호를 생성할 수 있다.

구체적으로, 음성 수집부(110)는 아날로그 형태의 사용자 음성이 입력되면, 이를 샘플링하여 디지털 신호로 변환한다. 그리고, 음성 수집부(110)는 변환된 디지털 신호의 에너지를 계산하여, 디지털 신호의 에너지가 기설정된 값 이상인지 여부를 판단한다.

디지털 신호의 에너지가 기설정된 값 이상인 경우, 음성 수집부(110)는 디지털 신호에서 노이즈 성분을 제거하여 통신부(120)로 전달한다. 이때, 노이즈 성분은 가정 환경에서 발생할 수 있는 돌발성 잡음으로써, 에어컨 소리, 청소기 소리, 음악 소리 등이 포함될 수 있다. 한편, 디지털 신호의 에너지가 기설정된 값 미만인 경우, 음성 수집부(110)는 디지털 신호에 별다른 처리 과정을 수행하지 않고, 다른 입력을 기다린다. 이에 의해, 사용자 발화 음성이 아닌 다른 소리에 의해 전체 오디오 처리 과정이 활성화되지 않아, 불필요한 전력 소모를 방지할 수 있다.

통신부(120)는 외부 서버(200, 300)와 통신한다. 이를 위해, 통신부(120)는 제1 통신부(도 4의 121) 및 제2 통신부(도 4의 122)로 구현될 수 있다.

제1 통신부(121)는 제1 서버(도 1의 200)와 통신을 수행한다. 구체적으로, 제1 통신부(121)는 사용자 음성을 제1 서버(200)로 전송하고, 사용자 음성에 대응되는 텍스트 정보를 제1 서버(200)로부터 수신할 수 있다.

제2 통신부(122)는 제2 서버(도 1의 300)와 통신을 수행한다. 구체적으로, 제2 통신부(122)는 수신된 텍스트 정보를 제2 서버(300)로 전송하고, 텍스트 정보에 대응되는 응답 정보를 제2 서버(300)로부터 수신할 수 있다.

이를 위해, 제1 통신부(121) 및 제2 통신부(122)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기에서, 근거리 무선 통신 모듈이란 블루투스, 지그비 방식 등과 같은 근거리 무선 통신 방식에 따라, 근거리에 위치한 외부 기기와 통신을 수행하기 위한 모듈이다. 또한, 무선 통신 모듈이란 WiFi, IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

한편, 상술한 실시 예에서는, 단말 장치(100)가 제1 서버(200) 및 제2 서버(300)와 통신을 수행하기 위해, 별도의 통신부(121, 122)를 구비하는 것으로 설명하였으나 이는 일 예에 불과하다. 즉, 단말 장치(100)는 하나의 통신 모듈을 통해 제1 서버(200) 및 제2 서버(300)와 통신을 할 수 있음은 물론이다.

음성 변환부(130)는 제2 서버로부터 수신된 응답 정보를 음성 신호 형태로 변환한다. 음성 신호 형태로 변환된 응답 정보는 음성 출력부(140)를 통해 출력될 수 있다.

음성 출력부(140)는 음성 변환부(130)에서 변환된 음성 신호를 출력한다. 이를 위해 음성 출력부(140)는 스피커, 또는 잭 등과 같은 출력 포트로 구현되어, 음성 변환부에서 변환된 음성 신호를 출력할 수 있다.

제어부(150)는 단말 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 제어부(150)는 음성 수집부(110), 통신부(120), 음성 변환부(130) 및 음성 출력부(140) 각각을 제어하여 대응되는 동작을 수행하도록 제어할 수 있다.

특히, 제어부(150)는 음성 수집부(110)에서 수집된 사용자 음성을 분석하여 제2 서버로부터 수신된 응답 정보를 분석 결과에 대응되는 음성 특성을 가지는 음성 신호로 변환하도록 음성 변환부(130)를 제어할 수 있다. 구체적으로, 제어부(150)는 수집된 사용자 음성의 주파수, 음색 및 음량 중 적어도 하나를 분석할 수 있다. 그리고, 분석 결과에 따라 사용자의 성별 및 연령 중 적어도 하나를 판단하여, 응답 정보를 사용자의 성별 및 연령 중 적어도 하나에 대응되는 음성 특성을 가지는 음성 신호로 변환하도록 음성 변환부(130)를 제어할 수 있다. 여기서, 음성 특성이란, 주파수, 음색 및 음량을 말하며, 제어부(150)는 주파수, 음색 및 음량 중 적어도 하나를 사용자의 성별 및 연령 중 적어도 하나에 대응되도록 변환할 수 있다.

예를 들어, 음성 수집부(110)가 60세의 남성이 발화한 음성을 수집한 경우, 제어부(150)는 수집한 60세 남성의 음성의 주파수, 음색 및 음량 중 적어도 하나를 분석하여 사용자가 60세 남성임을 판단할 수 있다. 사용자의 성별 및 연령을 판단할 때, 성별 및 연령에 따른 음성의 평균 주파수, 음색 및 음량 등의 데이터 베이스에 기초하여 가장 근접한 성별 및 연령을 사용자의 성별 및 연령으로 판단할 수 있다. 사용자의 성별 및 연령이 60세 남성으로 판단된 경우, 제어부(150)는 일반적인 60세 남성의 청각 특성에 따라 출력될 음성 신호의 음성 특성을 변환할 수 있다. 예를 들어, 노인들의 청각 능력은 고주파수 부분부터 점차적으로 감소하기 때문에, 60세 노인의 청각 능력을 고려하여 상대적으로 저주파수를 가지는 음성 신호로 변환할 수 있다. 한편, 변환될 음성 특성 또한 성별 및 연령에 따른 가청 주파수 범위, 가장 편안하게 들을 수 있는 평균 주파수, 음색 등의 데이터 베이스에 기초하여 결정될 수 있다.

도 4는 도 3에 도시된 단말 장치의 세부 구성을 설명하기 위한 블럭도이다. 도 4에 따르면, 단말 장치(100)는 도 3에 도시된 구성요소 외에 저장부(160), 디스플레이부(170) 촬상부(180), 입력부(185), 수신부(190) 및 신호처리부(195)를 더 포함할 수 있다. 도 4에 도시된 구성들 중 도 3에 도시된 구성과 중복되는 구성은 그 기능이 동일하므로 자세한 설명은 생략하도록 한다.

저장부(160)는 음성 특성에 따른 사용자 특성 정보를 포함하는 정보(제1 정보)를 저장할 수 있다. 여기서, 음성 특성이란 주파수, 음색 및 음량 중 적어도 하나를 포함하며, 사용자 특성 정보란, 성별 및 연령 중 적어도 하나를 포함한다. 또한, 저장부(160)는 사용자 특성 정보에 대응되는 출력 음성 특성 정보를 포함하는 정보(제2 정보)를 저장할 수 있다. 출력 음성 특성 정보란 음성 출력부(140)에서 출력될 음성의 특성 정보(주파수, 음색 등)를 의미한다.

제1 정보는 제어부(150)가 음성 수집부(110)에 의해 수집된 사용자 음성을 분석하여 사용자 특성을 판단할 때, 제2 정보는 제어부(150)가 응답 정보를 판단 결과에 대응되는 음성 특성으로 변환할 때 사용될 수 있다. 즉, 제어부(150)는 수집된 사용자 음성의 음성 특성과 제1 정보의 음성 특성을 비교하여 가장 근접한 음성 특성에 대응되는 성별 및 연령(성별 또는 연령)을 판단할 수 있다. 그리고, 판단된 사용자의 성별 및 연령을 제2 정보의 성별 및 연령 정보와 비교하여 일치하는 성별 및 연령 정보에 대응되는 음성 특성 출력 음성 특성으로 결정할 수 있다.

그리고, 저장부(160)는 제어부(150)에 의해 수집된 사용자 음성이 분석되면 분석된 사용자 음성의 음성 특성 및 그에 대응되는 음성 특성 정보(제3 정보)를 매칭시켜 저장할 수 있다. 제3 정보는 제어부(150)가 사용자의 성별 및 연령을 판단할 필요 없이(또는, 판단하더라도 판단 결과와는 관계없이) 수집된 사용자 음성의 분석 결과 자체로 출력 음성 특성 정보를 결정할 수 있게 해준다. 즉, 수집된 사용자 음성의 음성 특성이 저장부에 저장된 제3 정보와 비교하여 일치하는 정보가 있는 경우, 사용자의 성별 및 연령을 판단하지 않고 수집된 사용자 음성과 일치하는 음성 특성에 대응되는 출력 음성 특성을 출력 음성 특성으로 결정할 수 있다.

한편, 출력될 음성 특성 정보를 각 사용자가 설정할 수 있도록 제3 정보는 사용자 식별 정보를 더 포함할 수도 있다. 즉, 기 분석된 사용자 음성의 음성 특성, 사용자 식별 정보 및 출력 음성 특성 정보를 함께 저장할 수 있다. 사용자는 사용자 식별 정보를 확인하여 자신의 음성 특성에 매칭되는 출력될 음성 특성을 변경할 수도 있다.

디스플레이부(170)는 사용자에게 디스플레이 화면을 제공한다. 구체적으로, 디스플레이부는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel, PDP) 등으로 구현되어, 단말 장치(100)를 통해 제공 가능한 다양한 디스플레이 화면을 제공할 수 있다. 특히, 디스플레이부(170)는 사용자 음성에 대응되는 응답 메시지를 텍스트 또는 이미지 형태로 디스플레이할 수 있다.

그리고, 디스플레이부(170)는 제어부(150)의 제어에 따라 사용자 음성에 대응되는 응답 메시지를 사용자 음성의 분석 결과에 대응되는 형태로 디스플레이할 수 있다. 구체적으로, 응답 메시지를 구성하는 오브젝트의 크기, 색상, 모향 및 형상 중 적어도 하나를 분석 결과에 대응되는 형태로 디스플레이할 수 있다. 출력될 응답 메시지의 형태는 수집한 사용자 음성의 분석 결과에 따라 출력 음성 특성이 결정되는 것과 유사하게 결정될 수 있다.

예를 들어, 사용자의 연령이 7세인 경우 일반적으로 어린 아이들은 작은 크기의 텍스트 또는 이미지에 익숙하지 않으므로 디스플레이부(170)는 응답메시지를 구성하는 오브젝트를 7세 어린이에게 적합하도록 상대적으로 크게 표시할 수 있다. 또한, 7세 아이들이 좋아하도록 색감이 화려하고 귀여운 형태의 이미지 또는 텍스트를 디스플레이할 수 있다.

촬상부(180)는 사용자를 촬상한다. 특히, 촬상부(180)는 단말 장치(100)를 사용하는 사용자의 얼굴영역을 촬상할 수 있다. 이를 위해, 촬상부(180)는 카메라로 구현될 수 있다. 촬상부(180)는 단말 장치(100)에 내장될 수도 있으며, 단말 장치(100)와 유, 무선으로 연결된 외부 장치로 구현될 수도 있다.

제어부(180)는 촬상부(180)에 의해 촬상된 사용자 이미지를 분석하여 사용자의 성별 및 연령 중 적어도 하나를 판단할 수 있다. 특히, 사용자 이미지의 분석 결과는 수집된 사용자 음성을 분석하여 사용자의 연령, 성별을 판단할 때 보조적인 자료로 사용될 수 있다.

입력부(185)는 다양한 사용자 조작을 입력받아 제어부(150)로 전달하기 위한 입력 수단으로써, 입력 패널로 구현될 수 있다. 여기에서, 입력 패널은 터치패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen) 방식으로 이루어질 수 있다. 뿐만 아니라, 입력부(185)는 단말 장치(100)를 제어하기 위한 리모컨에서 전송되는 리모컨 신호를 수신하기 위한 IR 수신부(미도시)로 구현될 수도 있다.

한편, 입력부(185)는 단말 장치(100)의 기능을 제어하기 위한 각종 사용자 조작을 입력받을 수 있다. 예를 들어, 단말 장치(100)가 스마트 TV로 구현되는 경우, 전원 온/오프, 채널 변경, 볼륨 변경 등 스마트 TV의 기능을 제어하기 위한 사용자 조작을 입력받을 수 있다. 이 경우, 제어부(150)는 입력부(185)를 통해 입력된 사용자 조작에 대응되는 각종 기능을 실행하도록 다른 구성요소를 제어할 수 있다. 예를 들어, 제어부(150)는 전원 오프 명령이 입력되면, 단말 장치 요소에 공급되는 전원을 차단할 수 있으며, 채널 변경이 입력되면 사용자 조작에 따라 선택된 채널을 선국하도록 수신부(190)를 제어할 수 있다.

특히, 입력부(185)는 사용자의 음성을 수집하기 위한 음성 인식 모드를 개시하기 위한 사용자 조작을 입력받는다. 예를 들어, 입력부(185)는 디스플레이부와 함께 터치 스크린 형태로 구현되어, 음성 인식 모드를 입력받기 위한 오브젝트(가령, 아이콘)를 디스플레이할 수 있다. 다른 한편, 입력부(185)는 음성 인식 모드를 입력받기 위한 별도의 버튼을 구비할 수도 있다. 음성 인식 모드를 개시하기 위한 사용자 조작이 입력부(185)를 통해 입력되면, 제어부(150)는 음성 수집부(110)를 활성화하여 기설정된 거리 내에서 발화되는 사용자의 음성을 수집할 수 있다. 그리고, 제어부(150)는 제1 서버(200) 및 제2 서버(300)와 통신을 통해 수집된 사용자 음성에 대응되는 응답 정보를 수신하여, 응답 메시지를 출력하거나, 특정 기능을 실행하도록 제어할 수 있다.

수신부(190)는 다양한 컨텐츠를 수신한다. 구체적으로, 수신부(190)는 방송 네트워크를 이용하여 방송 프로그램 컨텐츠를 전송하는 방송국 또는 인터넷을 이용하여 컨텐츠 파일을 전송하는 웹 서버로부터 컨텐츠를 수신한다. 또한, 단말 장치(100) 내에 마련되거나 단말 장치(100)에 연결된 각종 기록 매체 재생 장치로부터 컨텐츠를 수신할 수도 있다. 기록 매체 재생 장치란 CD, DVD, 하드디스크, 블루레이 디스크, 메모리 카드, USB 메모리 등과 같은 다양한 유형의 기록 매체에 저장된 컨텐츠를 재생하는 장치를 의미한다.

방송국으로부터 컨텐츠를 수신하는 실시 예의 경우에는, 수신부(190)는 튜너(미도시), 복조기(미도시), 등화기(미도시) 등과 같은 구성을 포함하는 형태로 구현될 수 있다. 반면, 웹 서버와 같은 소스로부터 컨텐츠를 수신하는 실시 예의 경우에는, 수신부(190)는 네트워크 인터페이스 카드(미도시)로 구현될 수 있다. 또는, 상술한 각종 기록 매체 재생 장치로부터 컨텐츠를 수신하는 실시 예의 경우에는, 수신부(190)는 기록 매체 재생 장치와 연결된 인터페이스부(미도시)로 구현될 수 있다. 이와 같이, 수신부(190)는 실시 예에 따라 다양한 형태로 구현될 수 있다.

신호 처리부(195)는 수신부(190)를 통해 수신된 컨텐츠가 출력부(110)를 통해 출력될 수 있도록 컨텐츠에 대한 신호처리를 수행한다.

구체적으로, 신호 처리부(195)는 컨텐츠에 포함된 비디오 신호에 대해 디코딩, 스케일링 및 프레임 레이트 변환 등의 동작을 수행하여, 디스플레이부(170)에서 출력 가능한 형태로 비디오 신호를 변환할 수 있다. 또한, 신호 처리부(195)는 컨텐츠에 포함된 오디오 신호에 대해 디코딩 등의 신호 처리를 수행하여 음성 출력부(140)에서 출력 가능한 형태로 오디오 신호를 변환할 수 있다.

도 5는 도 1에 도시된 제1 서버의 구성을 설명하기 위한 블록도이다. 도 5에 도시된 바와 같이, 제1 서버(200)는 통신부(210) 및 제어부(220)를 포함한다.

통신부(210)는 단말 장치(100)와 통신을 수행한다. 구체적으로, 통신부(210)는 단말 장치(100)로부터 사용자의 음성을 수신하고, 사용자 음성에 대응되는 텍스트 정보를 단말 장치(100)로 전송할 수 있다. 이를 위해, 통신부(210)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다.

제어부(220)는 제1 서버(200)의 전반적인 동작을 제어한다. 특히, 제어부(220)는 단말 장치(100)로부터 사용자의 음성이 수신되면, 사용자의 음성을 텍스트 정보를 생성하고, 이를 단말 장치(100)로 전송하도록 통신부(210)를 제어한다.

구체적으로, 제어부(220)는 STT(Speech to Text) 엔진을 이용하여, 사용자의 음성을 텍스트 정보를 생성할 수 있다. 여기에서, STT 엔진은 음성 신호를 텍스트로 변환하기 위한 모듈로서, 종래 개시되어 있는 다양한 STT 알고리즘을 이용하여 음성 신호를 텍스트로 변환할 수 있다.

예를 들어, 제어부(220)는 수신된 음성 신호 내에서 사용자가 발화한 음성의 시작과 끝을 검출하여 음성 구간을 판단한다. 구체적으로, 제어부(220)는 수신된 음성 신호의 에너지를 계산하고, 계산된 에너지에 따라 음성 신호의 에너지 레벨을 분류하여, 동적 프로그래밍을 통해 음성 구간을 검출할 수 있다. 그리고, 제어부(220)은 검출된 음성 구간 내에서 음향 모델(Acoustic Model)을 기초로 음성의 최소 단위인 음소를 검출하여 음소 데이터를 생성하고, 생성된 음소 데이터에 HMM(Hidden Markov Model) 확률 모델을 적용하여 텍스트 정보를 생성할 수 있다.

도 6은 도 1에 도시된 제2 서버의 구성을 설명하기 위한 블록도이다. 도 6에 도시된 바와 같이, 제2 서버(300)는 통신부(310), 저장부(320) 및 제어부(330)를 포함한다.

통신부(310)는 단말 장치(100)와 통신을 수행한다. 구체적으로, 통신부(310)는 단말 장치(100)로부터 텍스트 정보를 수신하고, 텍스트 정보에 대응되는 응답 정보를 단말 장치(100)로 전송할 수 있다. 이를 위해, 통신부(310)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다.

저장부(320)는 단말 장치(100)로부터 수신된 텍스트 정보에 대응되는 응답 정보를 생성하기 위한 다양한 정보를 저장한다.

구체적으로, 저장부(320)는 특정 서비스 도메인마다 기정의된 화행, 주행 및 핵심 요소를 저장하고 있을 수 있다. 예를 들어, 방송 도메인인 경우, 화행은 서술문(Statement), 요청문(Request), Why 의문문(WH-Question), Yes-No 의문문(YN-Question) 등을 포함하고, 주행은 TV 온/오프, 프로그램 찾기, 프로그램 시간 찾기, 프로그램 예약 등을 포함하고, 핵심 요소는 장르, 프로그램명, 시작시간, 채널명, 배우 이름 등을 포함할 수 있다.

또한, 저장부(320)는 각 도메인별로 사용자의 발화 의도에 대응되는 답변을 저장하는 말뭉치(corpus) 데이터베이스를 포함할 수 있다. 예를 들어, 방송 서비스 도메인에서 특정 프로그램의 장르를 문의하는 사용자의 발화 의도에 대응되는 답변으로 ".... 프로그램의 장르는 .... 입니다"를 저장할 수 있으며, 프로그램 시작시간을 문의하는 사용자의 발화 의도에 대응되는 답변으로 ".... 프로그램의 시작시간을 .... 입니다"를 저장할 수 있다.

그리고, 저장부(320)는 사용자의 발화 의도별로 매칭되는 제어 명령을 저장하고 있을 수 있다. 예를 들어, 사용자의 발화 의도가 채널 변경인 경우 단말 장치(100)의 채널을 변경하기 위한 제어 명령을 매칭시켜 저장하고, 사용자의 발화 의도가 예약 녹화인 경우 단말 장치(100)에서 특정 프로그램에 대한 예약 녹화 기능을 실행시키기 위한 제어 명령을 매칭시켜 저장하고 있을 수 있다.

제어부(330)는 제2 서버(300)의 전반적인 동작을 제어한다. 특히, 통신부(310)를 통해 단말 장치(100)로부터 사용자의 음성에 대응되는 텍스트 정보가 수신되면, 제어부(330)는 수신된 텍스트 정보에 대응하는 응답 정보를 생성하고, 생성된 응답 정보를 통신부(310)를 통해 단말 장치(100)로 전송하도록 제어할 수 있다.

구체적으로, 제어부(330)는 저장부(320)에 화행, 주행 및 핵심 요소를 이용하여 단말 장치(100)로부터 수신된 텍스트 정보에 대응되는 사용자의 발화 의도를 파악하고, 사용자의 발화 의도에 대응되는 제어 명령 및 답변을 응답 정보로서 생성할 수 있다.

예를 들어, "○○○(방송 프로그램명)를 예약 해줘"라는 텍스트가 단말 장치(100)로부터 수신된 경우를 가정한다. 이 경우, 제어부(330)는 화행을 통해 수신된 텍스트가 "요청"과 관련된 문장 형태인 것으로 판단하고, 주행 및 핵심 요소를 통해 "○○○"에 대한 "프로그램 예약"을 원하는 것으로 판단한다. 결과적으로, 제어부(330)는 수신된 텍스트 정보에 대응되는 사용자의 발화 의도는 "○○○"에 대해 "프로그램 예약"을 "요청"하는 것으로 판단할 수 있다.

이에 따라, 제어부(330)는 "○○○"에 대해 "프로그램 예약"을 "요청"하는 사용자의 발화 의도에 대해 단말 장치(100)에서 "○○○"의 예약 녹화 기능을 수행하기 위한 제어 명령을 생성할 수 있다. 이 경우, 제어부(330)는 말뭉치 DB를 이용하여, "○○○의 녹화가 예약되었습니다"라는 응답 메시지 정보를 텍스트 형태로 추가적으로 생성하여, 제어 명령과 함께 단말 장치(100)로 전송할 수 있다.

다른 예로, "○○○를 언제 해 ?"라는 텍스트가 단말 장치(100)로부터 수신된 경우를 가정한다. 이 경우, 제어부(330)는 화행을 통해 수신된 텍스트가 문장 형태가 "의문형"인 것으로 판단하고, 주행 및 핵심 요소를 통해 "○○○"에 대한 "프로그램 시작시간"을 알기 원하는 것으로 판단한다. 결과적으로, 제어부(330)는 수신된 텍스트 정보에 대응되는 사용자의 발화 의도는 "○○○"에 대해 "프로그램 시작시간"을 "문의"하는 것으로 판단할 수 있다.

이에 따라, 제어부(330)는 "○○○"에 대해 "프로그램 시작시간"을 "문의"하는 사용자의 발화 의도에 대해 EPG(Electronic Program Guide) 정보를 이용하여 "○○○"에 대한 방송 시작시간을 검색하고, "토요일 7시에 시작합니다"라는 응답 메시지 정보를 텍스트 형태로 생성하여 단말 장치(100)로 전송할 수 있다.

한편, 단말 장치(100)에서 응답 메시지의 일부 문장 형태의 데이터를 저장하고 있는 경우, 제어부(330)는 해당 문장을 완성시키기 위한 일부 텍스트를 단말 장치(100)로 전송할 수 있다.

예를 들어, "○번으로 채널을 변경해줘"라는 텍스트가 단말 장치(100)로부터 수신된 경우를 가정한다. 이 경우, 제어부(330)는 화행을 통해 수신된 텍스트가 "요청"과 관련된 문장 형태인 것으로 판단하고, 주행 및 핵심 요소를 통해 "○번"으로 "채널 변경"을 원하는 것으로 판단한다. 결과적으로, 제어부(330)는 수신된 텍스트 정보에 대응되는 사용자의 발화 의도는 "○번"으로의 "채널 변경"을 "요청"하는 것으로 판단할 수 있다.

이에 따라, 제어부(330)는 단말 장치(100)에서 "○번"으로의 채널 변경을 수행하기 위한 제어 명령을 생성하여 단말 장치(100)로 전송할 수 있다. 이때, 단말 장치(100)에서 "채널을 ..번으로 변경하였습니다"와 같은 텍스트 데이터를 저장하고 있는 경우, 제어부(330)는 "채널을 ○번으로 변경하였습니다"라는 응답 메시지가 단말 장치(100)에서 출력되도록 하기 위해, "○번"라는 응답 메시지 정보를 텍스트 형태로 생성하여, 제어 명령과 함께 단말 장치(100)로 전송할 수 있다.

도 7은 본 발명의 일 실시 예에 따른 대화형 시스템의 동작을 설명하기 위한 도면들이다.

예를 들어, 도 7의 (a)에 도시된 바와 같이, 특정 방송 프로그램을 시청하던 40세의 남성 사용자(620)가 "○○○(방송 프로그램명) 언제 방송해?"라고 발화한 경우를 가정한다. 이 경우, 단말 장치(610)는 서버(미도시)와의 연동을 통해 수집된 "○○○ 언제 방송해?"에 대응되는 응답 메시지를 출력할 수 있다. 구체적으로, 서버가 "○○○ 언제 방송해?"에 대한 사용자의 발화 의도를 판단할 수 있는 경우, 단말 장치(610)는 서버로부터 수신된 응답 정보를 수신한다.

또한, 단말 장치(610)는 사용자(620)의 발화 음성을 수집하고 분석하여 분석 결과에 대응하는 출력 음성 특성을 결정하고, 응답 정보에 기초하여 "○○○ 언제 방송해?"에 대한 답변으로 "화요일 저녁 6시에 시작합니다"를 결정된 출력 음성 특성으로 출력할 수 있다.

한편, 상술한 실시 예에서는, 단말 장치(610)가 음성으로 응답 메시지를 출력하였으나, 도 7의 (b)와 같이, 단말 장치(610)는 수집한 사용자(620)의 음성의 분석 결과에 대응되는 형태로 "화요일 저녁 6시에 시작합니다"를 디스플레이화면 상에 텍스트로 출력할 수도 있다.

도 8은 본 발명의 일 실시 예에 따른 단말 장치의 제어 방법을 설명하기 위한 흐름도이다.

먼저, 사용자의 음성을 수집한다(S810). 구체적으로, 단말 장치와 일체형을 이루거나 분리된 형태의 마이크를 통해, 사용자의 음성을 수집할 수 있다.

이후 사용자 음성을 외부 서버로 전송하고(S820), 사용자 음성에 대응되는 응답 정보를 수신한다(S830). 구체적으로는 수집한 사용자 음성을 제1 서버로 전송하고, 제1 서버로부터 사용자의 음성에 대응되는 텍스트 정보를 수신한다. 이어서, 수신된 텍스트 정보를 제2 서버로 전송하고, 텍스트 정보에 대응되는 응답 정보를 제2 서버로부터 수신한다.

그리고, 수집된 사용자 음성의 음성 특성(주파수, 음색 및 음량 중 적어도 하나)을 분석한다(S840). 구체적으로, 사용자 음성의 음성 특성을 분석하여 사용자 특성(연령 및 성별 중 적어도 하나)을 판단할 수 있다.

이후, 수신한 응답 정보를 분석 결과에 대응되는 음성 특성을 가지는 음성 신호로 변환하고(S850), 변환된 음성 신호를 출력한다(S860). 즉, 분석 결과에 따라 응답 정보의 음성 출력 특성(주파수, 음색 및 음량 중 적어도 하나)이 결정될 수 있다.

한편, 본 발명의 일 실시 예에 따른 단말 장치의 제어 방법은 사용자 음성 특성에 대응되는 사용자 특성 정보(제1 정보) 및 사용자 특성 정보에 대응되는 출력 주파수 정보(제2 정보)를 저장하는 단계를 더 포함할 수 있으며, 분석하는 단계(S840)는 수집된 사용자 음성의 음성 특성과 저장된 음성 특성을 비교하여 사용자 특성을 판단할 수 있으며, 변환하는 단계(S850)는 판단된 사용자 특성을 제2 정보와 비교하여 출력 음성 특성을 결정할 수 있다.

또한, 사용자 이미지를 촬상하는 단계를 더 포함할 수 있으며, 분석하는 단계(S840)는 촬상된 사용자 이미지를 분석하여 사용자 특성을 판단할 수 있다. 특히, 사용자 이미지 분석 결과는 사용자 특성을 판단하는데 보조적인 자료로 사용될 수 있다.

한편, 수집된 사용자 음성이 분석되고, 대응되는 출력 음성 특성이 결정된 경우 분석된 사용자 음성 특성 및 결정된 출력 음성 특성을 저장하는 단계를 더 포함할 수 있으며, 변환하는 단계(S850)는 새롭게 수집된 사용자 음성의 음성 특성이 저장된 사용자 음성 특성과 동일한 경우, 수신된 응답 정보를 저장부에 저장된 출력 음성 특성을 가지는 음성 신호로 변환할 수 있다.

그리고, 수신된 응답 정보에 따른 응답 메시지를 분석 결과에 대응되는 형태로 디스플레이하는 단계를 더 포함할 수 있다. 특히, 디스플레이하는 단계는, 응답 메시지를 구성하는 오브젝트의 크기, 색상, 모양 및 형상 중 적어도 하나를 분셕 결과에 대응되는 형태로 출력할 수 있다.

이에 따라, 단말 장치는 응답 정보를 출력할 때, 사용자의 성향, 청각 능력, 기호 등을 고려한 음성 및 메시지를 출력할 수 있게 된다.

도 9는 본 발명의 일 실시 예에 따른 대화형 시스템의 제어 방법을 설명하기 위한 흐름도이다. 대화형 시스템은 단말 장치만으로 구현되거나 단말 장치 및 적어도 하나의 서버로 구현될 수 있다. 대화형 시스템의 제어 방법에 수행되는 각 단계는 실시 예에 따라 단말 장치 또는 적어도 하나의 서버에서 수행될 수 있다.

먼저, 사용자의 음성을 수집한다(S910). 구체적으로, 대화형 시스템과 일체형을 이루거나 분리된 형태의 마이크를 통해, 사용자의 음성을 수집할 수 있다.

그리고, 수신된 사용자 음성에 대응되는 응답 정보를 생성한다(S920). 구체적으로, 응답 정보는 사용자 음성에 대응되는 텍스트 정보를 생성하고, 텍스트 정보에 대응되는 응답 정보를 생성할 수 있다.

그리고, 수집된 사용자 음성의 음성 특성(주파수, 음색 및 음량 중 적어도 하나)을 분석한다(S930). 구체적으로, 사용자 음성의 음성 특성을 분석하여 사용자 특성(연령 및 성별 중 적어도 하나)을 판단할 수 있다. 한편, 응답 정보를 생성하는 단계(S920)와 사용자 음성의 음성 특성을 분석하는 단계(S930)는 순서에 관계없이 수행될 수 있다.

이후, 생성된 응답 정보를 분석 결과에 대응되는 음성 특성을 가지는 음성 신호로 변환하고(S940), 변환된 음성 신호를 출력한다(S950). 즉, 분석 결과에 따라 응답 정보의 음성 출력 특성(주파수, 음색 및 음량 중 적어도 하나)이 결정될 수 있다.

한편, 상술한 본 발명의 다양한 실시 예들에 따른 단말 장치의 제어 방법 및 대화형 시스템의 제어 방법은 단말 장치에서 실행 가능한 프로그램으로 구현될 수 있다. 그리고, 이러한 프로그램은 다양한 유형의 기록 매체에 저장되어 사용될 수 있다.

구체적으로는, 상술한 방법들을 수행하기 위한 코드는, 플레시메모리, ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electronically Erasable and Programmable ROM), 하드디스크, 리무버블 디스크, 메모리 카드, USB 메모리, CD-ROM 등과 같이, 다양한 유형의 비휘발성 기록 매체에 저장되어 있을 수 있다.

또한, 사용자 단말 장치, 디스플레이 장치 및 서버에 대해 도시한 상술한 블록도에서는 버스(bus)를 미도시하였으나, 사용자 단말 장치, 디스플레이 장치 및 서버에서 각 구성요소 간의 통신은 버스를 통해 이루어질 수도 있다. 또한, 각 디바이스에는 상술한 다양한 단계를 수행하는 CPU, 마이크로 프로세서 등과 같은 프로세서가 더 포함될 수도 있다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100 : 단말 장치 110 : 음성 수집부
120 : 통신부 121 : 제1 통신부
122 : 제2 통신부 130 : 음성 변환부
140 : 음성 출력부 150 : 제어부
160 : 저장부 170 : 디스플레이부
180 : 촬상부 185 : 입력부
190 : 수신부 195 : 신호처리부
200 : 제1 서버 210 : 통신부
220 : 제어부 300 : 제2 서버
310 : 통신부 320 : 저장부
330 : 제어부

Claims

사용자 음성을 수집하기 위한 음성 수집부;
외부 서버로 상기 수집된 사용자 음성을 전송하고, 상기 사용자 음성에 대응되는 응답 정보를 수신하는 통신부;
상기 응답 정보를 음성 신호로 변환하는 음성 변환부;
상기 변환된 음성 신호를 출력하는 음성 출력부; 및
상기 수집된 사용자 음성의 주파수 및 음색 중 적어도 하나를 분석하고, 상기 응답 정보를 상기 분석 결과에 대응되는 음성 특성을 가지는 음성 신호로 변환하도록 제어하는 제어부;를 포함하는 단말 장치.
제1항에 있어서,
상기 외부 서버는,
제1 서버 및 제2 서버를 포함하고,
상기 통신부는,
상기 수집된 사용자 음성을 상기 제1 서버로 전송하고, 상기 제1 서버로부터 상기 사용자 음성에 대응되는 텍스트 정보를 수신하는 제1 통신부; 및
상기 수신된 텍스트 정보를 상기 제2 서버로 전송하고, 상기 텍스트 정보에 대응되는 응답 정보를 수신하는 제2 통신부;를 포함하는 것을 특징으로 하는 단말 장치.
제1항에 있어서,
상기 제어부는,
상기 사용자 음성의 주파수 및 음색 중 적어도 하나를 분석하여 사용자의 성별 및 연령 중 적어도 하나를 판단하고, 상기 응답 정보를 상기 판단 결과에 대응되는 출력 주파수의 음성 신호로 변환하는 것을 특징으로 하는 단말 장치.
제3항에 있어서,
사용자 음성의 주파수 및 음색 중 적어도 하나에 대응되는 성별 및 연령 정보 중 적어도 하나를 포함하는 제1 정보 및, 성별 및 연령 정보 중 적어도 하나에 대응되는 출력 주파수 정보를 포함하는 제2 정보를 저장하는 저장부;를 더 포함하며,
상기 제어부는,
상기 사용자 음성의 주파수 및 음색 중 적어도 하나와 상기 제1 정보를 비교하여 상기 사용자의 성별 및 연령 중 적어도 하나를 판단하고, 상기 판단된 사용자의 성별 및 연령 중 적어도 하나와 상기 제2 정보를 비교하여 상기 출력 주파수를 결정하는 것을 특징으로 하는 단말 장치.
제3항에 있어서,
촬상부;를 더 포함하며,
상기 제어부는,
상기 촬상부에 의해 촬상된 사용자 이미지를 분석하여 상기 사용자의 성별 및 연령 중 적어도 하나를 판단하는 것을 특징으로 하는 단말 장치.
제1항에 있어서,
기 분석된 사용자 음성의 주파수 및 음색 중 적어도 하나 및 대응되는 음성 특성을 저장하는 저장부;를 더 포함하며,
상기 제어부는,
상기 수집된 사용자 음성의 주파수 및 음색 중 적어도 하나가 상기 저장부에 저장된 사용자 음성의 주파수 및 음색 중 적어도 하나와 동일한 경우, 상기 수신된 응답 정보를 상기 저장부에 저장된 음성 특성을 가지는 음성 신호로 변환하는 것을 특징으로 하는 단말 장치.
제1항에 있어서,
상기 응답 정보에 따른 응답 메시지를 디스플레이하는 디스플레이부;를 더 포함하며,
상기 제어부는,
상기 응답 메시지를 상기 분석 결과에 대응되는 형태로 디스플레이하도록 제어하는 것을 특징으로 하는 단말 장치.
제7항에 있어서,
상기 제어부는,
상기 응답 메시지를 구성하는 오브젝트의 크기, 색상, 모양 및 형상 중 적어도 하나를 상기 분석 결과에 대응되는 형태로 출력하도록 제어하는 것을 특징으로 하는 단말 장치.
사용자 음성을 수집하는 단계;
외부 서버로 상기 수집된 사용자 음성을 전송하고, 상기 사용자 음성에 대응되는 응답 정보를 수신하는 단계;
상기 수집된 사용자 음성의 주파수 및 음색 중 적어도 하나를 분석하는 단계;
상기 응답 정보를 상기 분석 결과에 대응되는 음성 특성을 가지는 음성 신호로 변환하는 단계; 및
상기 변환된 음성 신호를 출력하는 단계;를 포함하는 단말 장치의 제어 방법.
제9항에 있어서,
상기 외부 서버는,
제1 서버 및 제2 서버를 포함하고,
상기 수집된 사용자 음성을 전송하고, 상기 사용자 음성에 대응되는 응답 정보를 수신하는 단계는,
상기 수집된 사용자 음성을 상기 제1 서버로 전송하는 단계;
상기 제1 서버로부터 상기 사용자 음성에 대응되는 텍스트 정보를 수신하는 단계;
상기 수신된 텍스트 정보를 상기 제2 서버로 전송하는 단계; 및
상기 텍스트 정보에 대응되는 응답 정보를 수신하는 단계;를 포함하는 것을 특징으로 하는 단말 장치의 제어 방법.
제9항에 있어서,
상기 분석하는 단계는,
상기 사용자 음성의 주파수 및 음색 중 적어도 하나를 분석하여 사용자의 성별 및 연령 중 적어도 하나를 판단하고,
상기 변환하는 단계는,
상기 응답 정보를 상기 판단 결과에 대응되는 출력 주파수의 음성 신호로 변환하는 것을 특징으로 하는 단말 장치의 제어 방법.
제11항에 있어서,
사용자 음성의 주파수 및 음색 중 적어도 하나에 대응되는 성별 및 연령 정보 중 적어도 하나를 포함하는 제1 정보 및, 성별 및 연령 정보 중 적어도 하나에 대응되는 출력 주파수 정보를 포함하는 제2 정보를 저장하는 단계;를 더 포함하며,
상기 분석하는 단계는,
상기 사용자 음성의 주파수 및 음색 중 적어도 하나와 상기 제1 정보를 비교하여 상기 사용자의 성별 및 연령 중 적어도 하나를 판단하고,
상기 변환하는 단계는,
상기 판단된 사용자의 성별 및 연령 중 적어도 하나와 상기 제2 정보를 비교하여 상기 출력 주파수를 결정하는 것을 특징으로 하는 단말 장치의 제어 방법.
제11항에 있어서,
사용자 이미지를 촬상하는 단계;를 더 포함하며,
상기 분석하는 단계는,
상기 촬상된 사용자 이미지를 분석하여 상기 사용자의 성별 및 연령 중 적어도 하나를 판단하는 것을 특징으로 하는 단말 장치의 제어 방법.
제9항에 있어서,
기 분석된 사용자 음성의 주파수 및 음색 중 적어도 하나 및 대응되는 음성 특성을 저장하는 단계;를 더 포함하며,
상기 변환하는 단계는,
상기 수집된 사용자 음성의 주파수 및 음색 중 적어도 하나가 상기 저장부에 저장된 사용자 음성의 주파수 및 음색 중 적어도 하나와 동일한 경우, 상기 수신된 응답 정보를 상기 저장부에 저장된 음성 특성을 가지는 음성 신호로 변환하는 것을 특징으로 하는 단말 장치의 제어 방법.
제9항에 있어서,
상기 응답 정보에 따른 응답 메시지를 상기 분석 결과에 대응되는 형태로 디스플레이하는 단계;를 더 포함하는 것을 특징으로 하는 단말 장치의 제어 방법.
제15항에 있어서,
상기 디스플레이하는 단계는,
상기 응답 메시지를 구성하는 오브젝트의 크기, 색상, 모양 및 형상 중 적어도 하나를 상기 분석 결과에 대응되는 형태로 디스플레이하는 것을 특징으로 하는 단말 장치의 제어 방법.
사용자 음성을 수집하는 단계;
상기 사용자 음성에 대응되는 응답 정보를 생성하는 단계;
상기 사용자 음성의 주파수 및 음색 중 적어도 하나를 분석하는 단계;
상기 응답 정보를 상기 분석 결과에 대응되는 음성 특성을 가지는 음성 신호로 변환하는 단계; 및
상기 변환된 음성 신호를 출력하는 단계;를 포함하는 것을 특징으로 하는 대화형 시스템의 제어 방법.
제17항에 있어서,
상기 응답 정보를 생성하는 단계는,
상기 사용자 음성에 대응되는 텍스트 정보를 생성하는 단계; 및
상기 텍스트 정보에 대응되는 응답 정보를 생성하는 단계;를 포함하는 것을 특징으로 하는 대화형 시스템의 제어 방법.