KR20050039826A

KR20050039826A - 유무선 기반의 음성 인터페이스를 이용한 멀티모달 시스템및 이를 수행하는 방법

Info

Publication number: KR20050039826A
Application number: KR20050029601A
Authority: KR
Inventors: 이호관; 김현수; 고재형; 이장근
Original assignee: (주)예스테크놀로지
Priority date: 2005-04-08
Filing date: 2005-04-08
Publication date: 2005-04-29

Abstract

본 발명은 기존의 PDA, 휴대폰 등 무선인터넷을 사용하는 모든 단말기에서 원하는 정보의 검색을 위해 키패드의 입력이나 터치패드를 이용하던 단일 인터페이스 뿐만 아니라 다중의 인터페이스를 이용해 사용자의 입력 방법이나 단말기의 출력 방법을 개선해 사용성을 향상시키는 시스템이다. 또한 본 시스템은 음성망과 데이터망을 개별적으로 연결하지 않고 단일 데이터망에서 모든 인터페이스를 수용 할 수 있어 음성과 Text를 이용해 원하는 정보를 요청 할 수 있다. 또한 기존의 CDMA, WCDMA망 뿐만 아니라 와이브로(Wibro) 및 HSDPA를 통한 전송방식에도 적용되어 더욱 빠른 속도로 데이터를 송수신 할 수 있을 뿐만 아니라 훨씬 저렴한 데이터 이용료로 서비스를 사용할 수 있다.

Description

유무선 기반의 음성 인터페이스를 이용한 멀티모달 시스템 및 이를 수행하는 방법 {A Multi-Modal System Based On landline and wireless Using voice-Interface}

본 발명은 음성 입력 인터페이스를 통해 입력 받은 사용자 정보를 유무선 네트워크를 통해 서버측에 전송하여 서버의 자원을 활용해 효율적으로 인식, 처리토록 하며 원하는 정보를 획득 가능하게 하는 방법에 관한 것이다.

기존 단말기들은 각기 한 종류의 사용자 인터페이스를 사용하여 요구사항을 처리하고 처리된 정보를 전달토록 되어 있어 다양한 사용자의 입력 방법을 받아들이는데 불편함이 많았다. 기술이 발달함에 따라 여러 가지 인터페이스의 입력을 받아들일 수 있는 단말기들이 출현하였으나 단말기의 한정된 자원 제약으로 인해 부하가 많은 작업을 할 수 없었으며 해당 인터페이스를 통해 입력받은 사용자 정보를 유무선 네트워크를 이용하여 전송하여 많은 정보 및 자원이 있는 서버측에서 처리토록 하는 요구사항을 만족시킬 수 없었다. 또한 단일 인터페이스 입력에 대한 문제점은 데이터망을 이용한 음성 전송을 통해 음성 인식 처리를 하여, 사용자 요청을 처리하려는 시도를 통해 일부분 해소 되었으나 음성인식의 결과에 대한 타겟 링크만을 받음으로써 다시 원하는 정보에 접근하기 위해 또다른 요청을 해야 한다는 문제점이 있었다.

이에 본 발명은 상기와 같은 필요성에 부응하기 위해 안출된 것으로, 음성 인식 인터페이스를 사용한 사용자 정보 입력을 한번의 유무선 네트워크 전송을 통하여 서버측의 자원을 최대한 활용함으로써 보다 향상된 처리 방법을 제공한다.

본 발명은 상기와 같은 필요성에 의해 고안된 것으로 무선인터넷망이나 텔레매틱스 환경에서 문자열, 음성, 리스트 선택값 등과 같이 사용자가 입력하는 인터페이스 정보에 대해 유무선 망을 통한 한번의 접속으로 입출력 정보를 송수신 함으로써 정보를 요청하기 위해 음성망이나 데이터망으로 전환해야 하는 불편함을 없애 편리성을 제공하는데 그 목적이 있다.

도1은 본 발명에 사용되는 멀티모달 시스템의 전체 구성을 도시하는 것으로 이용 단말기(S-100)와 CDMA, GSM, Wibro, HSDPA 및 인터넷과 같은 유무선망(S-200), 본 발명에 의한 멀티모달 시스템(S-300), 및 음성 형태의 입력 데이터를 처리하는 인식서버(S-400), 그리고 최종 결과물을 생성시켜주는 CP Server(S-500)로 이루어진다. 이용 단말기로는 핸드폰, PDA 등과 같은 이동형 Device(S-100)등이 될 수 있으며, 일반 PC(S-100)에서도 구현 가능하다.

단말기(S-100)는 사용자가 입력하는 음성, 문자, 리스트 선택값 등을 입력 받아 유무선망(S-200)을 통해 전달하고, 처리되어진 결과물을 받아서 단말기에 표현하는 기능을 한다. 예를 들어 프로그램 실행 중 사용자 입력 데이터로 음성을 받아들일 경우 단말기의 마이크를 이용하여 음성을 받아들이게 되며 입력된 음성은 코덱을 이용하여 처리한다. 사용자 입력 데이터 전송은 코덱을 이용하여 입력된 데이터를 처리해 유무선망(S-200)을 통해 전송한다. 또한 실행 요청을 알려주기 위하여 단말기정보와 고객정보를 상기의 사용자 입력 데이터와 함께 전송한다. 멀티모달 서버(S-300)는 상기와 같은 일련의 정보를 받아서 분리하여 음성데이터를 인식서버(S-400)에 전송하여 인식결과를 받고 그 결과를 CP Server(S-500)로 전달하는 역할을 담당한다. 예를 들어 음성데이터와 함께 전송되어진 단말기정보와 고객정보를 보고 해당 URL에서 사용되는 Grammar를 검색하여 음성인식 서버(S-400)에 음성데이터와 함께 Grammar 이름을 전송하여 음성인식 서버가 해당 Grammar를 가지고 음성데이터를 인식 할 수 있도록 전송한 후. 인식 결과에 따라 해당 CP Server(S-500)에 요청하여 결과물을 전송 받은 후 이용 단말기에 전달한다.

도 2는 도 1의 이동통신 단말기 구성을 간략히 나타낸 블록도로서, 입력부를 통해 입력된 다양한 형태의 입력정보가 입출력 I/F(H10)를 통해 수신되면 각 입력형태에 적합한 엔코더(H20)는 입력데이터를 압축 변환하여 송신모듈을 통해Multimodal Server로 송신한다. 상기 엔코더(H20)는 단말기가 지원하는 입력형태에 따라 각 입력형태에 맞는 엔코더가 필요하게 된다. 예를 들어 음성 입력의 경우 단말기의 마이크를 통해 입력 받은 음성데이터를 음성 코덱을 통하여 압축 및 변환 처리한 이후 단말기정보와 고객정보를 함께 Multimodal Server로 전송한다. 또한 Multimodal Server에서 전송 받은 출력물은 해당 디코더를 통하여 변환 및 처리한 이후 단말기에 출력하게 된다.

도 3은 Multimodal Server의 구성을 나타낸 블록도이다. Multimodal Server는 사용자가 단말기로부터 송신한 입력데이터와 고객정보, 단말기정보를 송수신 I/F(M10)를 통해 수신하고 수신된 정보는 입출력 데이터 모듈(M20)에서 입력데이터의 형식(음성, 문자, 지문... 등)을 구분하여 해당형식에 맞는 인식서버(M40)로 입력데이터를 전송한다. 그 외의 서비스정보(단말기정보와 고객정보)는 받은 데이터를 그대로 결과생성 모듈로 전송한다. 이 때 인식서버로 전송된 입력데이터는 음성 인식서버(M40)에서 인식하여 인식된 결과를 결과생성 모듈(M30)로 되돌려준다. 결과생성 모듈로 입력된 인식결과는 CP Server(M50)로 전송돼 요청한 정보에 대한 결과물을 찾도록 요청한다. CP Server는 산출된 결과물을 결과생성 모듈로 보내고 이 결과물은 입출력 데이터 모듈을 거쳐 단말기가 수신할 수 있는 형태의 결과값으로 송신되어진다.

도 4는 본 발명에 따른 멀티모달 시스템의 동작과정을 나타낸 흐름도이다. M100단계에서 이동통신 단말기(S-100)의 Multimodal Application이 실행되면 사용자가 입력한 입력데이터와 단말기정보, 고객정보 등이 단말기 내의 엔코더(H20)를 통해 변환되고 M110단계에서 상기의 정보들이 Multimodal Server(S-300)의 송수신 I/F(M10)를 통해 입력된다. M120단계에서 입력된 데이터는 입출력 데이터 모듈(M20)을 통해 음성 인식 서버(M40)로 전송되어진다. M130단계에서 음성 인식 서버(M40)로 보내진 입력데이터는 처리된 인식결과를 Multimodal Server의 결과생성 모듈(M30)로 다시 보내준다. 이로써 입력된 음성 데이터는 CP Server가 인식할 수 있는 단일 형태의 정보로 변경되어 결과생성 모듈로 보내어지는 것이다. M140단계에서는 입력데이터의 인식 결과를 CP Server로 전송하여 결과물 요청하고, 검색된 결과를 결과생성 모듈(M30)에서 다시 받는다. M150단계에서는 입출력 데이터 모듈(M20)로 전송된 결과물을 수신할 단말기가 인식할 수 있는 형태로 변환하여 송수신 I/F(M10)로 전송한다. M160단계에서 송수신 I/F(M10)는 결과물을 단말기(S-100)로 전송한다.

이상의 설명에 의하면 무선인터넷을 이용하는 사용자는 단말기를 통해 입력할 수 있는 입력방법 중 자신이 가장 편리하게 사용할 수 있는 방법을 통해 서비스를 이용할 수 있다. 또한 검색된 정보의 결과를 한번에 획득함으로써 기존 방식의 문제점인 타겟 링크를 받아 재요청을 해야 하는 불편함도 사라지게 되었다. 예를 들어 사용자는 그래픽으로 만들어진 결과물을 확인한 후 즉시 음성으로 다음 데이터를 요청하며 그에 대한 응답으로 요청 결과물을 다운받게 된다.

본 발명을 이용하여 텔레매틱스 시스템, 무선인터넷상에서의 노래/벨소리 검색 서비스, 승차권 및 영화/공연 예매 서비스, 음성 전화연결 서비스 등 여러 가지 서비스에 적용할 수 있다.

도 1 - 시스템 구성도

도 2 - 단말 H/W 블럭도

도 3 - Multimodal Server 블록도

도 4 - 멀티모달 시스템 FLOW

Claims

사용자가 핸드폰, PDA 등의 단말기를 통하여 음성, 문자, 리스트 선택값과 같은 입력 인터페이스를 이용하여 요청정보를 입력하는 단계; 입력된 정보와 함께 단말기정보와 고객정보를 Multimodal Server로 전송하는 단계; 전송된 입력데이터를 입력형태에 맞는 인식 서버로 송신하는 단계; 인식 서버로부터 인식된 입력데이터를 Multimodal Server로 보내주고 이 데이터를 단말기정보, 고객정보와 함께 CP Server로 전송하는 단계; CP Server로부터 검색된 결과물 데이터를 Multimodal Server가 전송받아 단말기가 인식 가능한 형태의 출력물을 만들어 송신하는 단계;를 포함하는 Multimodal Server를 이용한 멀티모달 시스템 사용방법.
제 1항에 있어서, 상기 단말기를 통해 멀티모달 입력 데이터를 Multimodal Server로 전송하는 단계는 음성, 문자열, 리스트 선택값 등을 입력 받는 단계; 및 입력 데이터 발생시 해당 코덱을 통해 압축 및 변환, 저장하여 단말기정보와 고객정보를 함께 유무선 망 및 인터넷 망을 이용하여 Multimodal Server로 전송하는 단계;를 포함하는 것을 특징으로 하는 단말기의 멀티모달 데이터 입력 및 전송 방법
제 1항에 있어서, 단말기로부터 입력된 입력데이터를 Multimodal Server의 송수신 I/F가 수신하는 단계; 수신된 입력데이터를 입력처리 모듈이 받아 입력데이터의 형태에 따라 분류하는 단계; 입력 데이터가 음성인식 데이터일 경우 음성 인식서버로 인식에 필요한 서비스정보(단말기정보, 고객정보)와 함께 송신하는 단계;를 포함하는 입력데이터의 처리 방법
제 1항에 있어서, 인식기로부터 수신된 입력데이터를 이용하여 사용자가 요청한 정보를 획득하기 위한 결과물을 만들기 위해 CP 혹은 DB에 정보를 요청하는 단계; CP 혹은 DB로부터 수신한 정보와 단말기가 전송한 단말기 정보를 이용하여 Multimodal Server에서 단말기가 표현할 수 있는 형태를 생성하는 단계; 생성된 결과물을 유무선 네트워크를 통하여 해당 단말기로 전송하는 단계; 전송받은 결과물을 단말기의 해당 디코더들을 이용하여 처리하는 단계; 처리된 결과물을 단말기의 출력 인터페이스를 통해 디스플레이, 스피커, 진동 등으로 출력 및 표현하는 단계;를 포함하는 결과물 생성 및 단말기 상의 표현 방법