KR100826778B1 - 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법 - Google Patents

멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법 Download PDF

Info

Publication number
KR100826778B1
KR100826778B1 KR20060053390A KR20060053390A KR100826778B1 KR 100826778 B1 KR100826778 B1 KR 100826778B1 KR 20060053390 A KR20060053390 A KR 20060053390A KR 20060053390 A KR20060053390 A KR 20060053390A KR 100826778 B1 KR100826778 B1 KR 100826778B1
Authority
KR
South Korea
Prior art keywords
voice
modal
wireless terminal
browser
plug
Prior art date
Application number
KR20060053390A
Other languages
English (en)
Other versions
KR20070119153A (ko
Inventor
천희진
김민석
엄봉수
Original Assignee
에스케이 텔레콤주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이 텔레콤주식회사 filed Critical 에스케이 텔레콤주식회사
Priority to KR20060053390A priority Critical patent/KR100826778B1/ko
Publication of KR20070119153A publication Critical patent/KR20070119153A/ko
Application granted granted Critical
Publication of KR100826778B1 publication Critical patent/KR100826778B1/ko

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

본 발명에서 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선 단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과 이의 운용 방법을 개시한다.
본 발명에 따른 시스템은, 단말 왑(WAP) 브라우저 기반에서 음성 및 텍스트 처리를 위한 멀티모달 기능을 제공하기 위한 시스템에 있어서, 왑 브라우저(WAP Browser)상에서 멀티모달 플러그-인(Multimodal Plug-In)을 요청하고, 멀티모달 플러그-인을 토대로 무선 인터넷상으로 음성 또는 자판 정보를 전송하여 해당 컨텐츠를 수신하는 무선 단말; 멀티모달 플러그-인 요청을 인지한 후, 음성 및 자판 정보에 대한 데이터 변환을 수행하고, 데이터 변환에 기반하여 정보 인식 결과를 생성하며, 정보 인식결과에 대응하는 해당 컨텐츠의 비쥬얼 데이터를 음성 및 자판 정보로 가공 처리하여 무선 단말로 전송하는 멀티모달 플랫폼; 및 정보 인식결과에 대한 컨텐츠를 추출하여 멀티모달 플랫폼으로 제공하기 위한 컨텐츠 서버로 구성된다. 따라서, 본 발명은 두 가지 입력 방식(키 입력 + 음성 입력)을 통해 모바일 기기의 조작이 편리한 효과를 포함하여 음성인식 검색 서비스를 제공받을 수 있는 효과가 있다.
Figure R1020060053390
왑, WAP, 브라우저, 멀티모달, 플러그-인, 음성녹음, 음성인식, 음성출력

Description

멀티모달을 위한 브라우저 기반의 무선 단말과, 무선 단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과 이의 운용 방법{WIRELESS MOBILE FOR MULTIMODAL BASED ON BROWSER, SYSTEM FOR GENERATING FUNCTION OF MULTIMODAL BASED ON MOBIL WAP BROWSER AND METHOD THEREOF}
도 1은 종래 멀티모달(Multimodal)을 설명하기 위한 구성도이다.
도 2는 본 발명에 따른 멀티모달 개요를 설명하기 위한 구성도이다.
도 3은 본 발명에 따른 멀티모달 기능 중 음성녹음을 설명하는 무선 단말의 왑 브라우저이다.
도 4는 본 발명에 따른 음성녹음 플러그-인을 설명하기 위한 구성도이다.
도 5는 본 발명에 따른 멀티모달 기능 중 음성인식을 설명하는 무선 단말의 왑 브라우저이다.
도 6은 본 발명에 따른 음성인식 플러그-인을 설명하기 위한 구성도이다.
도 7은 본 발명에 따른 멀티모달 기능 중 음성출력을 설명하는 무선 단말의 왑 브라우저이다.
도 8은 본 발명에 따른 음성출력 플러그-인을 설명하기 위한 구성도이다.
<주요 도면에 대한 부호의 설명>
201 : 무선 단말 203 : 멀티모달 플랫폼
205 : 컨텐츠 서버 601 : 음성인식 서버(ASR)
801 : 음성변환 서버(TTS)
본 발명은 무선 인터넷 서비스를 위한 멀티모달(Multimodal) 인터페이스에 관한 것으로, 보다 상세하게는 플러그-인(Plug-In) 방식을 이용하여 단말 프로그램(WIPI)로 작성된 코드의 일부를 왑(WAP) 브라우져의 무선 마크업 언어(WML:wireless application protocol) 내용과 공존할 수 있는 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선 단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과 이의 운용 방법에 관한 것이다.
인간과 컴퓨터 간의 인터페이스를 위해서 현재는 키보드, 마우스 등을 주로 사용하고 있지만 인간에게 보다 자연스러운 방법은 인간 간에 이미 사용하고 있는 음성을 이용하는 방법이다. 이러한 방법은 이미 시도되고 있지만 컴퓨터의 경우 사람간의 대화와는 다르게 입력된 음성의 내용을 이해하는 것이 아니고 발성된 내용을 그대로 문자로 바꾸어 그 내용이 키보드로 입력된 것과 같이 반응하고 있는 상태로 음성 이해의 기술은 아직 활용되고 있지 않다. 그 이유는 음성이해 기술은 인공지능 기술과 마찬가지로 컴퓨터의 지능을 요구하며 현재 기술수준으로는 일반적인 분야에서는 불가능하고 여행계획 등과 같이 극히 제한된 분야에서만 가능하다.
다만, 근래에는 무선 단말과 음성인식 모듈이 결합한 다양한 기술이 제공되고 있으며, 그 중에서 사용자와 무선 단말 간의 인터페이스를 다양하게 제공하기 위한 멀티모달(Multimodal) 기술이 출현되고 있다. 즉, 기존의 무선 인터넷 서비스는 화면 출력과 키 입력이라는 하나의 입출력을 제공하였으나, 음성 입출력을 부가하고 이를 화면 입출력과 동기화시켜 하나의 통합된 인터페이스를 제공하고 있다.
현재 개시되고 있는 멀티모달을 첨부된 도면을 토대로 설명하면 다음과 같다. 먼저, 도 1에 도시된 바와 같이, 작업별 템플릿 라이브러리(111), 작업별 템플릿 라이브러리(111)를 이용하여 사용자가 MXML 문서를 작성할 수 있도록 하는 MXML 편집기(112), 및 작성된 MXML 문서를 저장하고 사용자의 요청에 따라 MXML 문서를 제공하는 MXML 문서 서버를 포함하는 멀티모달 인터넷 서버(110); 멀티모달 인터넷 서버(110)와 인터넷으로 연결되며, MXML 문서를 해석하여 HTML 내용은 화면에 보여 주고 음성 XML내용을 해석하여 음성 합성할 메시지는 음성 합성 엔진을 이용하여 합성하여 스피커 또는 전화 인터페이스를 통해 들려 주고, 음성 인식을 위한 언어모델을 이용하여 음성인식 엔진을 준비하고 사용자가 발성한 음성의 내용을 인식하여 음성 XML에 지정된 동작을 수행하는 MXML 브라우저(121)와, MXML 브라우저(121)의 요구에 따라 음성인식 또는 음성합성을 수행하는 음성 인식/합성 엔진(122)과, 전화(130)를 이용하여 멀티모달 인터넷 클라이언트에 접근하는 경우에 인터페이스를 제공하는 TAPI(Telephony Application Programming Interface : 125) /MTAPI(Multimedia Telephony Application Programming Interface : 126)와, 키보 드, 마우스, 모니터, 마이크, 스피커 등의 I/O(Input/Output) 장치(124), TAPI(125) 및 MTAPI(126)과 상기 MXML 브라우저(121)와의 인터페이스를 제공하는 I/O 인터페이스(123)를 포함하는 멀티모달 인터넷 클라이언트(120)로 이루어진다.
한편, 멀티모달 인터넷 서버(110)는 기존의 웹 서버의 역할을 하는 것으로 MXML 문서를 요청에 따라 제공해 주는 역할을 한다. 멀티모달 인터넷 서버(110)에는 MXML 문서가 저장되는데 이는 MXML 편집기(112)와 작업별 템플릿 라이브러리(111)를 이용해 작성하게 된다. MXML의 경우 일반 HTML과 달리 음성 인식을 위한 언어모델을 작성해 주어야 하는데 이는 언어 처리에 대한 전문적인 지식을 요구하므로 일반 HTML 작성자가 작성하기 어렵다.
또한 멀티모달 인터넷 클라이언트(120)는 기존의 PC/WS(Personal Computer/Work Station)와 같이 CPU를 갖춘 단말기이다. MXML을 해석해서 화면에 보여 주는 MXML 브라우저(121)와 음성 인식/합성 엔진(122), I/O 장치(키보드, 마우스, 모니터, 마이크, 스피커 등(124), TAPI 및 MTAP와 MXML 브라우저(121)와의 인터페이스 모듈, 즉 I/O 인터페이스(123)를 가지고 있다.
이와 같이 구성되는 멀티모달 기능은 인터넷 브라우징에서 키보드, 마우스, 모니터 등의 인터페이스 방식 이외에 사람에게 편리한 음성을 인터페이스로 추가함으로써 편리하게 인터넷 브라우징을 할 수 있다. 그리고 기존의 고정된 표현만을 사용하는 방식이 아니라 메타 문법 기능을 통해 구현되는 일상생활에서 사용하는 자유로운 형태의 대화 방식을 채용할 수 있다.
그러나, 전술한 바와 같이 단말 애플리케이션 예컨대, WIPI에 멀티모달 기능 을 부가하는 것은, 음성 입출력을 처리하는 서버 플랫과 이와 연동할 수 있는 단말 어플리케이션을 토대로 구성된다. 따라서, 단말 애플리케이션을 별도로 개발해야 하는 문제가 있으며, 이로 인해 그 보급 속도가 매우 느리다는 지적이 있다.
본 발명은 이와 같은 문제점을 해결하기 위해 창출된 것으로, 본 발명의 목적은 WAP 브라우저에 멀티모달 기능을 부가하여 단말의 종류에 관계없이 무선 인터넷 서비스를 이용하는 사용자에게 편리한 입출력 서비스를 제공할 수 있는 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선 단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과 이의 운용 방법을 제공함에 있다.
본 발명의 다른 목적은, 플러그-인(Plug-In) 방식을 이용하여 위피(WIPI)로 작성된 코드의 일부를 왑(WAP) 브라우저의 WML 내용과 공존하는 형태를 제공함으로써, 단말 애플리케이션 기반의 서비스 보다 보급 속도를 증대시키고, 컨텐츠 개발의 편의성을 제공할 수 있는 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선 단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과 이의 운용 방법을 제공함에 있다.
본 발명의 또 다른 목적은, 플러그-인(Plug-In) 방식을 음성녹음, 음성인식, 음성출력의 컴포너트로 세분화하여 단말 브라우저 기반의 멀티모달 기능을 제공함으로써, 기존 단말 및 신규 단말에서도 멀티모달 기능이 손쉽게 적용될 수 있는 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선 단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과 이의 운용 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 제1 관점에 따른 무선 단말을 위한 브라우저 기반의 멀티모달 서버는, 단말 왑(WAP) 브라우저 기반에서 음성 및 텍스트 처리를 위한 멀티모달 기능을 제공하기 위한 서비스 서버에 있어서, 무선 단말의 멀티모달 플러그-인 접속 상태를 인지한 후, 무선 인터넷상으로 수신된 음성 또는 자판 정보에 대한 데이터 변환을 수행하고, 데이터 변환에 기반하여 정보 인식 결과를 생성하며, 상기 정보 인식결과에 대응하는 해당 컨텐츠를 수신한 후, 상기 컨텐츠의 비쥬얼 데이터를 음성 및 자판 정보로 가공 처리하여 상기 무선 단말로 전송하는 멀티모달 서버를 포함하는 것을 특징으로 한다.
본 발명의 바람직한 실시 예에 따르면 상기 멀티모달 플러그-인은, 음성녹음을 위한 플러그-인, 음성인식을 위한 플러그-인, 음성출력을 위한 플러그-인 중 어느 하나 이상으로 구성되는 것을 특징으로 한다.
또한 상기 멀티모달 서버는, 상기 음성인식 플러그-인 기동을 위해 상기 무선 단말로부터 요청된 음성인식 명령에 응답하여, 정해진 음성인식 알고리즘에 따라 음성인식 처리를 수행하는 것을 특징으로 한다.
또한 상기 멀티모달 서버는, 상기 음성출력 플러그-인 기동을 위해 상기 무선 단말로부터 녹음되거나 또는 텍스트화된 정보를 재생 출력하는 것을 특징으로 한다.
또한 상기 멀티모달 플랫폼은, 상기 텍스트화된 정보의 재생 출력을 위해 TTS 서버와 연동하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 제2 관점에 따른 멀티모달을 위한 브라우저 기반의 무선 단말은, 단말 왑(WAP) 브라우저 기반에서 음성 및 텍스트 처리를 위한 멀티모달 기능을 제공하기 위한 무선 단말에 있어서, 왑 브라우저(WAP Browser)상에서 멀티모달 플러그-인(Multimodal Plug-In)을 요청하고, 상기 멀티모달 플러그-인을 토대로 무선 인터넷상으로 음성 또는 자판 정보를 전송한 후, 상기 음성 또는 자판 정보에 대응하는 해당 컨텐츠를 수신하기 위한 플러그-인 운용 모드를 포함하는 것을 특징으로 한다.
본 발명의 바람직한 실시 예에 따르면 상기 플러그-인은, 상기 무선 단말의 왑 브라우저(WAP Browser) 상에서 오브젝트(OBJECT) 태그를 이용하여 플러그-인 요청을 수행하는 것을 특징으로 한다.
또한 상기 오브젝트 태그는, 상기 무선 단말에서 멀티모달 플랫폼으로 메시지 전송 시 WML 문서 내로 포함시키는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 제3 관점에 따른 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 시스템은, 단말 왑(WAP) 브라우저 기반에서 음성 및 텍스트 처리를 위한 멀티모달 기능을 제공하기 위한 시스템에 있어서, 왑 브라우저(WAP Browser)상에서 멀티모달 플러그-인(Multimodal Plug-In)을 요청하고, 멀티모달 플러그-인을 토대로 무선 인터넷상으로 음성 또는 자판 정보를 전송하여 해당 컨텐츠를 수신하는 무선 단말; 상기 멀티모달 플러그-인 요청을 인지한 후, 상기 음성 및 자판 정보에 대한 데이터 변환을 수행하고, 데이터 변환에 기반하여 정보 인식 결과를 생성하며, 상기 정보 인식결과에 대응하는 상기 해당 컨텐츠의 비쥬얼 데이터를 음성 및 자판 정보로 가공 처리하여 상기 무선 단말로 전송하는 멀티모달 플랫폼; 및 상기 정보 인식결과에 대한 컨텐츠를 추출하여 상기 멀티모달 플랫폼으로 제공하기 위한 컨텐츠 서버로 구성되는 것을 특징으로 한다.
한편 상기 목적을 달성하기 위한 본 발명의 제4 관점에 따른 무선 단말을 위한 브라우저 기반의 멀티모달 기능 중 음성녹음 방법은, a) 음성녹음 플러그-인(Plug-In)이 기동된 후, 상기 무선 단말로부터 음성녹음을 위한 버튼이 입력되면, 이동전화번호(MDN)와, 음성녹음 파라미터를 상기 멀티모달 플랫폼으로 전송하는 단계; b) 상기 무선 단말로 입력되는 사용자 음성을 EVRC 스트리밍으로 상기 멀티모달 플랫폼에 전달하는 단계; c) 상기 멀티모달 플랫폼이 기 지정된 오디오 타입(Audio Type) 방식으로 상기 사용자 음성의 형태를 변환하고, 이를 상기 이동전화번호(MDN)와 매핑시켜 저장하는 단계; 및 d) 상기 무선 단말로부터 녹음 메시지 올리기 신호를 인지한 후, 상기 이동전화번호(MDN)를 키(KEY)로 하여 상기 멀티모달 플랫폼으로 저장된 사용자 음성정보를 상기 컨텐츠 서버로 이송하는 단계로 이루어진 것을 특징으로 한다.
또는 본 발명의 동일 관점에 따른 무선 단말을 위한 브라우저 기반의 멀티모달 기능 중 음성인식 방법은, a) 음성인식 플러그-인(Plug-In)이 기동되어 상기 무선 단말이 상기 멀티모달 플랫폼과 통신을 개설한 후, 이동전화번호(MDN)를 포함하여 음성인식 파라미터를 상기 멀티모달 플랫폼으로 전달하는 단계; b) 상기 멀티모달 플랫폼이 자동으로 Server-side EPD(End Point Detection)를 사용하여 음성의 끝점을 검출하여 상기 컨텐츠 서버로 전송하는 단계; c) 상기 멀티모달 플랫폼이 EVRC Format으로 전송된 사용자의 음성 파일을 PCM Format으로 변경한 후, 음성인식 처리를 위한 음성인식 서버(ASR)로 상기 음성인식 파라미터와 기 녹음된 음성 파일을 전달하는 단계; d) 상기 음성인식 서버(ASR)이 음성 인식 결과를 상기 멀티모달 플랫폼으로 제공하고, 상기 멀티모달 플랫폼이 상기 이동전화번호(MDN)과 인식 결과에 대한 임시 매핑 항목을 만들어 저장하는 단계; e) 상기 멀티모달 플랫폼이 상기 무선 단말의 단말 브라우저상으로 음성인식 결과를 텍스트로 제공하는 단계; 및 f) 상기 음성인식 결과에 대한 사용자 승인에 기초하여, 상기 컨텐츠 서버가는 상기 멀티모달 플랫폼에 이동전화번호(MDN)를 Key로 설정하고, 상기 음성인식 결과에 대한 최근 검색 결과를 조회하는 단계로 이루어진 것을 특징으로 한다.
또는 본 발명의 동일 관점에 따른 무선 단말을 위한 브라우저 기반의 멀티모달 기능 중 음성출력 방법은, a) 음성출력 플러그-인(Plug-In)이 기동된 후, 상기 무선 단말이 상기 멀티모달 플랫폼과 통신을 개설하고, 이동전화번호(MDN)와 음성출력 파라미터를 상기 멀티모달 플랫폼으로 전달하는 단계; b) 상기 멀티모달 플랫폼이 상기 음성출력 파라미터에 포함된 URL 정보로부터 상기 컨텐츠 서버로 저장된 텍스트 파일이나 음성 파일을 읽어 오는 단계; c) 상기 URL 정보가 텍스트 파일인 경우 상기 멀티모달 플랫폼은 해당 텍스트를 음성으로 변환시키기 위한 TTS 서버로 전달하는 단계; d) 상기 TTS 서버에서 변환된 음성을 상기 멀티모달 플랫폼으로 제공하며, 상기 멀티모달 플랫폼은 상기 무선 단말에서 재생할 수 있는 형태인 EVRC Format으로 변환하는 단계; 및 e) 상기 멀티모달 플랫폼이 상기 EVRC로 변환된 음성을 무선 단말의 왑 브라우저상의 플러그-인으로 스트리밍 전송하는 단계로 이루어진 것을 특징으로 한다.
이하, 본 발명의 바람직한 실시 예를 첨부된 예시도면에 의거 상세히 설명하면 다음과 같다.
먼저, 본 발명은 플러그-인 방식을 통해 단말 브라우저를 제공받는다. 즉, 단말 출시 시점에 멀티모달 기능이 적용되지 않더라도 출시 이후에 설치 가능하고, 사용자가 용이하게 플러그-인을 설치할 수 있다. 이는 단말 애플리케이션과 달리 플러그-인은 액티브 엑스(Active X) 컨트롤과 유사하게 동작하므로, 사용자가 별도의 추가적인 작업을 하지 않아도 설치가 가능하다. 따라서, 본 발명은 이러한 플러그-인 방식을 통해 단말 브라우저상에서 멀티모달을 제공한다.
본 발명에서 제공되는 멀티모달 플러그-인은 음성녹음 플러그-인, 음성인식 플로그 인, 음성출력 플러그-인의 3가지 형태로 제공된다. 각각의 플러그-인은 단말로부터 해당 항목이 요청될 경우, 멀티모달 플랫폼에 의해 해당 플러그-인이 가동된다.
도 2는 본 발명의 실시 예로 나타낸 단말 브라우저 기반의 멀티모달 기능을 제공하기 위한 구성도이다. 도시된 바와 같이, 왑 브라우저(WAP Browser)상에서 멀티모달 플러그-인(Multimodal Plug-In)을 요청하고, 멀티모달 플러그-인을 토대로 무선 인터넷상으로 음성 또는 자판 정보를 전송하여 해당 컨텐츠를 수신하는 무선 단말(201), 상기 멀티모달 플러그-인 요청을 인지한 후, 상기 음성 및 자판 정보에 대한 데이터 변환을 수행하고, 데이터 변환에 기반하여 정보 인식 결과를 생성하며, 상기 정보 인식결과에 대응하는 상기 해당 컨텐츠의 비쥬얼 데이터를 음성 및 자판 정보로 가공 처리하여 상기 무선 단말(201)로 전송하는 멀티모달 플랫폼(203)과, 상기 정보 인식결과에 대한 컨텐츠를 추출하여 상기 멀티모달 플랫폼(203)으로 제공하기 위한 컨텐츠 서버(205)로 구성된다.
상기 멀티모달 플러그-인은 음성녹음 플러그-인, 음성인식 플러그-인, 음성출력 플러그-인으로 구성되며, 왑 브라우저상에서 어느 하나의 플러그-인이 요청된다. 상기 멀티모달 플랫폼(203)은 상기 음성녹음 플러그-인 기동을 위해, 무선 단말(201)로부터 입력되는 음성에 대한 EVRC 포맷을 WAV 포맷으로 변경하여 임시 저장하며, 이를 상기 컨텐츠 서버(205)로 전송한다.
또한 상기 음성인식 플러그-인은 무선 단말(201)로부터 요청된 음성인식 명령에 응답하여, 상기 멀티모달 플랫폼(203)이 정해진 음성인식 알고리즘에 따라 음성인식 처리를 수행하고 그 결과를 상기 컨텐츠 서버(205)로 제공한다. 또한 상기 음성출력 플러그-인 기능은 상기 멀티모달 플랫폼(203)이 상기 무선 단말(201)로부터 녹음되거나 또는 컨텐츠의 일부로 기 녹음된 정보들을 재생할 수 있으며 또한, 사용자 선택에 따라 TTS 서버를 통해 텍스트 정보를 음성정보로 변환하여 상기 무 선 단말(201)로 제공한다.
이하, 본 발명의 동작을 설명한다. 우선, 상기 무선 단말(201)이 플러그-인을 사용하기 위해, 왑 브라우저(WAP Browser) 상에서 오브젝트(OBJECT) 태그를 상기 멀티모달 플랫폼(203)으로 전송한다. 오브젝트 태그는 플러그-인의 설치 상태를 확인하거나, 버전에 따른 업데이트를 수행하기 위한 일련의 제어명령이다. 오프젝트 태그는 상기 무선 단말(201)에서 멀티모달 플랫폼(203)으로 메시지 전송 시 WML 문서 내로 오프젝트 태그를 포함시키는 것으로,
Figure 112006041559565-pat00001
와 같은 형식으로 구현될 수 있다.
상기한 오프젝트 태그는 무선 단말(201)의 WAP 브라우저에서 해당 문서를 호출하면서 플러그-인이 설치되어 있는지 확인하고, 설치되어 있지 않거나 낮은 버전으로 설치되어 있을 경우 사용자 확인 후 바로 설치하게 된다. 플러그-인이 설치되 고 나면 플러그-인은 WAP 브라우저의 화면 일부를 차지하면서 동작하게 된다. 따라서 사용자는 무선 단말(201)을 통해 멀티모달 기능을 수행하며, 멀티모달은 전술한 바와 같이 음성에 대한 녹음, 인식, 출력 기능을 가지며, 이를 위해 사용자는 음성녹음 플러그-인, 음성인식 플러그-인, 음성출력 플러그-인을 각각으로 기동시킨다.
도 3은 본 발명의 일실시 예에 따른 멀티모달 플러그-인 중 음성녹음 플러그-인 기능을 나타내는 무선 단말(201)의 왑 브라우저이다. 도시된 바와 같이, 음성 녹음 플러그-인은 브라우저상에서 음성을 녹음하여 멀티모달 플랫폼으로 전달하는 기능을 한다. 멀티모달 플러그-인은 "녹음" 버튼(301)과 "듣기" 버튼(303), 그리고 상태 표시 필드(305)로 구성된다.
사용자가 "녹음" 버튼(301)을 누르면 상태표시 필드는 시간의 경과를 표시하면서 녹음이 시작된다. 이때 "녹음" 버튼(301)은 "중지" 버튼(307)으로 모양이 바뀐다. 녹음이 완료되면 "중지" 버튼(307)을 눌러 녹음을 중지한다. 그리고 "듣기" 버튼(303)을 누르면 녹음된 음성을 재생하여 들을 수 있다. 또한 무선 단말(201)의 WAP 화면상으로 제공되는 '녹음 메시지 올리기' 메시지에 따라 해당 키 버튼을 동작시키면 녹음된 음성을 상기 컨텐츠 서버(205)로 전달할 수 있다.
한편, 상기 멀티모달 플랫폼(203)은 무선 단말(201)로부터 제공되는 음성 메시지를 녹음하게 되며, 다수의 오디오 타입(Audio Type)을 통해 상기 컨텐츠 서버(205)에서 요구하는 타입으로 변환한다. 컨텐츠 서버(205)는 서버에 따라 다수 종류의 메시지 포맷을 요구할 수 있으며, 멀티모달 플랫폼(203)은 'evrc : Enhanced Variable Rate Codec Format', 'alaw : A-Law Format', 'mulaw : Mu-Law Format', 'pcm : Intel PCM Format', 'alaw-wav : A-Law Wav Format', 'mulaw-wav : Mu-Law Wav Format', 'pcm-wav : PCM Wav Format' 중 어느 하나의 포맷을 지원한다. 멀티모달 플랫폼(203)은 이와 같은 포맷을 설정하기 위해, 음성녹음 플러그-인 파라미터를 설정한다.
음성녹음 플러그-인 파라미터는 음성녹음 입력의 최대 길이를 초 단위로 설정하기 위한 'MaxLength' 파라미터와, 무선 단말(201)로 안내 메시지 예컨대, "메시지를 녹음하세요"와 같은 메시지 출력을 설정하기 위한 'UseIntro' 파라미터를 포함한다. 상기 'MaxLength' 파라미터의 디폴트(Default)는 60초이고, 상기 'UseIntro' 파라미터의 디폴트(Default)는 메시지 출력을 지시하기 위한 '1'로 설정된다. 이와 같은 파라미터는 상기 무선 단말(201)의 왑 브라우저상에서 사용자로부터 지시되며, 지시된 파라미터는 멀티모달 플랫폼(203)으로 제공된다. 도 4는 이와 같은 음성녹음 절차를 설명하는 구성도이다.
먼저, S401 단계에서 사용자가 '녹음' 버튼(301)을 누르면 이동전화번호(MDN)와, 전술한 파라미터 즉 Audio Type, MaxLength 파라미터를 상기 멀티모달 플랫폼(203)으로 전달한다. 상기 무선 단말(201)은 사용자의 음성을 EVRC 스트리밍으로 멀티모달 플랫폼에 전달한다. 상기한 Audio Type 파라미터는 컨텐츠에서 요구하는 형식에 준하며, 상기 MaxLength 파라미터는 저장되는 사용자의 음성 용량에 따라 설정된다.
S403 단계에서 상기 멀티모달 플랫폼(203)은 Audio Type에서 지정된 방식으로 음성 형태를 변환하고, 이를 이동전화번호(MDN)와 매핑시켜 임시로 저장한다. 그리고, S405 단계로 진입하여 사용자는 왑 브라우저(WAP Browser) 상으로 제공되는 '녹음 메시지 올리기' 버튼을 선택한다. 이는 다음 페이지를 요청하는 것으로 상기 컨텐츠 서버(205)는 페이지 요청을 수신한다. 이때 음성 파일 자체는 컨텐츠 서버(205)가 알지 못한다.
S407 단계로 진입하여, 상기 컨텐츠 서버(205)는 녹음된 음성을 가져오기 위해 상기 이동전화번호(MDN)를 상기 멀티모달 플랫폼(203)으로 전달하고 기 저장된 음성을 요청한다. 상기 컨텐츠 서버(205)는 이를 전송 받아 로컬에 저장하고 활용한다. 그리고, S409 단계에서 상기 컨텐츠 서버(205)는 다음 페이지로 이동한다.
도 5는 음성인식 플러그-인 기능을 설명하기 위한 무선 단말(201)의 왑 브라우져이다.
음성 인식 플러그-인은 "녹음" 버튼과 입력 박스로 형성되는 Edit 필드로 구성된다. 사용자가 "녹음" 버튼을 누르면 "검색어를 말씀하세요"와 같은 안내 메시지가 출력되며, 이후 음성 입력 모드로 전환된다. 예컨대, 사용자가 '이효리'를 검색하기 위해 해당 검색어를 발성할 경우, 그 음성이 녹음되어 스트리밍으로 멀티모달 플랫폼(203)으로 전달된다. 상기 멀티모달 플랫폼(203)으로 전달된 음성은 음성 인식기를 거쳐 문자로 변환되어 멀티모달 플러그-인으로 전달된다. 이때 플러그-인의 Edit 필드는 이를 화면에 표시한다.
한편 사용자는 Edit 필드 포커스를 옮겨서 키 패드로 입력할 수도 있다. 또한 음성 인식 결과가 모호하므로 여러 개의 후보가 선택되는 경우가 있는데, 이때는 Edit 필드가 콤보(Combo) 박스로 변경되면서 음성 인식 결과에 따른 복수개의 후보를 표시한다. 이후, 사용자는 무선 단말(201)의 WAP 브라우저로 구비된 "GO" 버튼을 눌러서 검색 결과를 조회할 수 있다.
이와 같이 음성인식은 멀티모달 플랫폼(203)에서 음성인식 알고리즘에 의해 음성인식이 이루어지며, 무선 단말(201)은 음성인식을 위한 파라미터를 멀티모달 플랫폼(203)으로 제공한다. 음성인식을 위한 파라미터는 'GrammarURI'이며, 음성인식의 Grammar를 지정한다. Grammar는 HTTP URL일 수도 있고, 정적(Static) Grammar를 가리킬 수도 있다.
HTTP URL의 경우에는 JGSF, ABNF GRXML 형식의 Grammar를 지원하며, 컨텐츠 서버(205)가 이 Grammar 파일을 동적으로 제공해야 한다.(Dynamic Grammar 사용) 예컨대, 'http://cp.nate.com/music_gr.jgsf'와 같은 형식이 될 수 있다. 정적 Grammar의 경우에는 멀티모달 서버에 있는 음성 인식기에 이미 Grammar가 등록되어 있는 경우이다. 이 방식은 효율이 높기 때문에 보통 대어휘 Grammar에서 이 방식을 사용한다. 정적 Grammar는 'static::grammar1' 과 같은 형식이다.
이외에, 음성인식 플러그-인을 위한 파라미터는 N-best를 사용할 것인지를 결정하기 위한 'UseNbest' 파라미터, 안내 메시지출력을 위한 'UseIntro' 파라미터, 음성인식 입력의 최대 길이를 초 단위로 나타내는 'MaxLength' 파라미터가 사용된다. 상기 'UseNbest' 파라미터의 디폴트(Default)는 N-best를 사용하지 않음을 나타내는 '0' 값이고, 상기 'UseIntro' 파라미터의 디폴트(Default)는 안내 메시지 출력을 위한 '1' 값이며, 상기 'MaxLength' 파라미터의 디폴트(Default)는 10초로 예시할 수 있다.
도 6은 본 발명의 실시 예로 나타낸 음성인식 플러그-인의 동작을 설명하기 위한 구성도이다. 전술되지 않은 ASR 서버는 음성인식 서버(601)이며, 상기 멀티모달 플랫폼(203)과 연동하여, 사용자의 음성 인식을 처리한다.
먼저 S601 단계에서 음성인식 플러그-인은 상기 멀티모달 플랫폼(203)과 통신을 개설한다. 상기 무선 단말(201)은 이동전화번호(MDN)를 포함하여 음성인식을 위한 파라미터 즉, GrammarURI, UseNbest, MaxLength 등의 파라미터를 상기 멀티모달 플랫폼(203)으로 전달한다. 이는 스트리밍으로 '이효리'라는 사용자 발성을 전달하는 것으로, 상기 멀티모달 플랫폼(203)은 자동으로 Server-side EPD(End Point Detection)를 사용하여 음성의 끝점을 검출하여 상기 컨텐츠 서버(205)로 전송한다.
S603 단계에서 상기 멀티모달 플랫폼(203)은 EVRC Format으로 전송된 사용자의 음성 파일을 PCM Format으로 변경한 후, 상기 음성인식 서버(601)로 GrammarURI 파라미터와 기 녹음된 음성 파일을 전달한다. 상기 음성인식 서버(601)는 인식 결과를 상기 멀티모달 플랫폼(203)으로 제공한다. 그리고, S605 단계로 진입하여 상기 멀티모달 플랫폼(203)은 이동전화번호(MDN)과 인식 결과에 대한 임시 매핑 항목을 만들어 저장한다.
상기 멀티모달 플랫폼(203)은 S607 단계에서, 상기 단말 브라우저상의 플러그-인을 통해 음성인식에 대한 결과 즉, '이효리'를 텍스트로 전달하고, 플러그-인은 이를 Edit 필드(입력 박스)에 표시한다. S609 단계에서 사용자가 텍스트화된 검색결과를 토대로 'GO'버튼을 눌러서 검색을 요청한다. 검색 요청 신호는 상기 컨텐 츠 서버(205)로 제공된다. S609 단계에서 상기 음성인식 플러그-인은 ECMA Script를 통해 입력 결과를 전달할 수 없으므로 상기 컨텐츠 서버(205)는 검색 항목이 무엇인지 알 수 없는 상태이다. 따라서 상기 컨텐츠 서버(205)는 상기 멀티모달 플랫폼(203)에 이동전화번호(MDN)를 Key로 설정하여 최근 검색 결과를 조회한다. 그리고, S611 단계에서 상기 컨텐츠 서버(205)는 이 검색 결과로 다음 검색 결과 페이지를 생성하여 무선 단말(201)의 왑 브라우저로 전송한다.
도 7은 본 발명의 실시 예로 나타낸 음성출력 플러그-인 기능을 설명하는 무선 단말의 왑(WAP) 브라우저이다. 먼저, 음성출력은 녹음된 음성을 출력할 수 있으며, 또는 TTS 서버를 통해 텍스트를 음성으로 변환 출력할 수 있다. 무선 단말(201)의 왑 브라우저는 음성출력 플러그-인 상태를 디스플레이하기 위해 스피커 모양의 아이콘을 제공한다.
음성출력은 도시된 바와 같이, 텍스트로 구성된 뉴스 또는 전자책(e-Book) 등과 같은 텍스트 정보를 음성으로 변환출력한다. 이와 같은 음성변환 출력은 TTS 서버에서 수행하며, 이를 위해 무선 단말(201)은 컨텐츠에 따른 파라미터를 상기 멀티모달 플랫폼(203)으로 전송한다. 파라미터는 먼저, 플러그-인의 실행과 동시에 자동으로 음성을 출력할 것인지를 결정하기 위한 'AutoPlay' 파라미터와, 텍스트를 음성으로 변환하기 위한 TTS 서버를 사용할 것인지를 결정하는 'UseTTS' 파라미터, 상기 'UseTTS' 파라미터 설정에서 음성파일 사용 설정 즉, TTS 서버를 사용하지 않을 경우, evrc, alaw, mulaw, pcm, alaw-wav, mulaw-wav, pcm-wav 파일 중 어느 하나의 음성 파일을 선택하기 위한 'AudioType' 파라미터, 변환하기 위한 음성파일의 위치 정보를 나타내는 'AudioURI' 파라미터로 구성된다.
상기 'AudioType' 파라미터는 상기 'UseTTS' 파라미터가 1인 경우에는 text/plain이거나 text/xml+ssml이어야 하며, 상기 text/plain은 일반 텍스트를, text/xml+ssml은 SSML(Speech Synthesis Markup Language)을 의미한다. 또한 상기 'AudioURI' 파라미터는 상기 'UseTTS' 파라미터가 TTS 서버를 사용하도록 설정된 '1'인 경우에는 일반 텍스트를 명시하거나 SSML 파일의 HTTP URL을 명시한다. 그리고 상기 'UseTTS' 파라미터가 TTS 서버를 사용하지 않음으로 설정되는 '0'인 경우에는 음성 파일의 HTTP URL을 명기한다.
도 8은 본 발명의 실시 예로 나타낸 음성출력 플러그-인 절차를 설명하기 위한 도면이다. 본 실시 예에서는 음성인식 서버인 TTS 서버(801)가 포함되며, 상기 멀티모달 플랫폼(203)과 연동한다.
도시된 바와 같이, S801 단계에서 음성출력 플러그-인은 상기 멀티모달 플랫폼(203)과 통신을 개설하고, 이동전화번호(MDN)와 AutoPlay, UseTTS, AudioType, AudioURI 등의 파라미터를 상기 멀티모달 플랫폼(203)으로 전달한다. S803 단계에서 상기 멀티모달 플랫폼(203)은 AudioURI 파라미터에 포함된 URL 정보로부터 상기 컨텐츠 서버(205)로 저장된 텍스트 파일이나 음성 파일을 읽어 온다. 그리고, S805 단계에서 상기 URL 정보가 텍스트 파일인 경우 상기 멀티모달 플랫폼(203)은 상기 TTS 서버(801)로 전달하여 음성으로 변환한다.
상기 TTS 서버(801)는 음성 변환된 정보를 상기 멀티모달 플랫폼(203)으로 제공하며, 상기 멀티모달 플랫폼(203)은 S807 단계를 통해 상기 무선 단말(201)에 서 재생할 수 있는 형태인 EVRC Format으로 변환한다. 그리고 상기 멀티모달 플랫폼(203)은 S809 단계에서 상기 EVRC로 변환된 음성을 무선 단말(201)의 왑 브라우저상의 플러그-인으로 스트리밍 전송한다. 사용자는 무선 단말(201)을 통해 텍스트 정보를 EVRC로 변환된 음성으로 청취한다.
이상 설명된 바와 같이, 본 발명에 따른 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선 단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과 이의 운용 방법은, 단말 출시 시점에 해당 기능이 적용되지 않더라도 출시 이후에 언제라도 설치 가능하고, 사용자가 플러그-인을 설치하기가 용이함을 이용하여, 음성녹음 플러그-인 기능과, 음성인식 플러그-인 기능과, 음성출력 플러그-인 기능을 각각으로 기동하여 멀티모달을 실현함으로써, 무선 인터넷상에서 검색어에 대해서 음성인식 입력이 이루어져 사용자는 두 가지 입력 방식(키 입력 + 음성 입력)을 통해 모바일 기기의 조작이 편리한 효과를 포함하여 음성인식 검색 서비스를 제공받을 수 있는 효과가 있다.
또한 본 발명에서는 WAP 브라우저상에서 음성을 녹음할 수 있고, 이를 수신자가 WAP 브라우저상에서 재생할 수 있는 멀티모달 메시징 서비스를 제공함으로써, 모바일 싸이월드와 같이 WAP 브라우저상에서 커뮤니티 서비스가 활성화되는 효과가 있다.
또한 본 발명에서는 많은 양의 정보를 텍스트 정보와 함께 핵심 내용은 음성으로 읽어주는 방식으로 서비스를 제공함에 따라, LCD 크기가 제한된 무선 단말의 가독성을 증대시키는 효과가 있다.
이상에서 본 발명을 특정한 바람직한 실시 예에 대하여 도시하고 설명하였으나, 본 발명은 상기한 실시 예에 한정하지 아니하며, 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형이 가능할 것이다.

Claims (31)

  1. 단말 왑(WAP) 브라우저 기반에서 음성 및 텍스트 처리를 위한 멀티모달 기능을 제공하기 위한 서비스 서버에 있어서,
    무선 단말의 멀티모달 플러그-인 접속 상태를 인지한 후, 상기 무선 단말로부터 상기 단말 왑(WAP) 브라우저 기반으로 하는 멀티모달 기능을 통해 형성되어 수신되는 사용자의 음성 또는 자판 정보에 대한 데이터 변환을 수행하고, 데이터 변환에 기반하여 정보 인식 결과를 생성하며, 상기 정보 인식결과에 대응하는 해당 컨텐츠를 수신한 후, 상기 컨텐츠의 비쥬얼 데이터를 음성 및 자판 정보로 가공 처리하여 상기 무선 단말로 전송하는 멀티모달 서버를 포함하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 서버.
  2. 제 1 항에 있어서 상기 멀티모달 플러그-인은,
    음성녹음을 위한 플러그-인, 음성인식을 위한 플러그-인, 음성출력을 위한 플러그-인 중 어느 하나 이상으로 구성되는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 서버.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 멀티모달 서버는 상기 음성인식 플러그-인 기동을 위해 상기 무선 단말로부터 요청된 음성인식 명령에 응답하여, 정해진 음성인식 알고리즘에 따라 음성인식 처리를 수행하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티 모달 서버.
  4. 제 1 항 또는 제 2 항에 있어서,
    상기 멀티모달 서버는 상기 음성출력 플러그-인 기동을 위해 상기 무선 단말로부터 녹음되거나 또는 텍스트화된 정보를 재생 출력하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 서버.
  5. 제 4 항에 있어서 상기 멀티모달 플랫폼은,
    상기 텍스트화된 정보의 재생 출력을 위해 TTS 서버와 연동하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 서버.
  6. 단말 왑(WAP) 브라우저 기반에서 음성 및 텍스트 처리를 위한 멀티모달 기능을 제공하기 위한 무선 단말에 있어서,
    상기 단말 왑 브라우저(WAP Browser)상에서 멀티모달 플러그-인(Multimodal Plug-In)을 요청하고, 상기 멀티모달 플러그-인을 토대로 하는 접속상태에서 상기 단말 왑(WAP) 브라우저 기반으로 하는 멀티모달 기능을 통해 사용자의 음성 또는 자판 정보를 형성하여 전송한 후, 상기 음성 또는 자판 정보에 대응하는 해당 컨텐츠를 수신하기 위한 플러그-인 운용 모드를 포함하는 것을 특징으로 하는 멀티모달을 위한 브라우저 기반의 무선 단말.
  7. 제 6 항에 있어서 상기 멀티모달 플러그-인은,
    음성녹음을 위한 플러그-인, 음성인식을 위한 플러그-인, 음성출력을 위한 플러그-인 중 어느 하나인 것을 특징으로 하는 멀티모달을 위한 브라우저 기반의 무선 단말.
  8. 제 6 항 또는 제 7 항에 있어서 상기 플러그-인은,
    상기 무선 단말의 왑 브라우저(WAP Browser) 상에서 오브젝트(OBJECT) 태그를 이용하여 플러그-인 요청을 수행하는 것을 특징으로 하는 멀티모달을 위한 브라우저 기반의 무선 단말.
  9. 제 8 항에 있어서 상기 오브젝트 태그는,
    상기 무선 단말에서 멀티모달 플랫폼으로 메시지 전송 시 WML 문서 내로 포함시키는 것을 특징으로 하는 멀티모달을 위한 브라우저 기반의 무선 단말.
  10. 단말 왑(WAP) 브라우저 기반에서 음성 및 텍스트 처리를 위한 멀티모달 기능을 제공하기 위한 시스템에 있어서,
    상기 단말 왑(WAP) 브라우저상에서 멀티모달 플러그-인(Multimodal Plug-In)을 요청하고, 상기 멀티모달 플러그-인을 토대로 하는 접속상태에서 상기 단말 왑(WAP) 브라우저 기반으로 하는 멀티모달 기능을 통해 사용자의 음성 또는 자판 정보를 형성하여 전송한 후, 상기 사용자의 음성 또는 자판 정보와 대응하는 해당 컨텐츠를 수신하는 무선 단말;
    상기 멀티모달 플러그-인 요청을 인지한 후, 상기 음성 및 자판 정보에 대한 데이터 변환을 수행하고, 데이터 변환에 기반하여 정보 인식 결과를 생성하며, 상기 정보 인식결과에 대응하는 상기 해당 컨텐츠의 비쥬얼 데이터를 음성 및 자판 정보로 가공 처리하여 상기 무선 단말로 전송하는 멀티모달 플랫폼; 및
    상기 정보 인식결과에 대한 컨텐츠를 추출하여 상기 멀티모달 플랫폼으로 제공하기 위한 컨텐츠 서버로 구성되는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 시스템.
  11. 제 10 항에 있어서 상기 멀티모달 플러그-인은,
    음성녹음을 위한 플러그-인, 음성인식을 위한 플러그-인, 음성출력을 위한 플러그-인 중 어느 하나 이상으로 구성되는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 시스템.
  12. 제 10 항 또는 제 11 항에 있어서,
    상기 멀티모달 플랫폼은 상기 음성녹음 플러그-인 기동을 위해 상기 무선 단말로부터 입력되는 음성에 대한 EVRC 포맷을 WAV 포맷으로 변경하여 상기 컨텐츠 서버로 전송하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 시스템.
  13. 제 10 항 또는 제 11 항에 있어서,
    상기 멀티모달 플랫폼은 상기 음성인식 플러그-인 기동을 위해 상기 무선 단말로부터 요청된 음성인식 명령에 응답하여, 정해진 음성인식 알고리즘에 따라 음성인식 처리를 수행하고 그 결과를 상기 컨텐츠 서버로 제공하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 시스템.
  14. 제 10 항 또는 제 11 항에 있어서,
    상기 멀티모달 플랫폼은 상기 음성출력 플러그-인 기동을 위해 상기 무선 단말로부터 녹음되거나 또는 텍스트화된 정보를 재생 출력하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 시스템.
  15. 제 14 항에 있어서 상기 멀티모달 플랫폼은,
    상기 텍스트화된 정보의 재생 출력을 위해 TTS 서버와 연동하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 시스템.
  16. 제 10 항에 있어서 상기 플러그 인은,
    상기 무선 단말의 왑 브라우저(WAP Browser) 상에서 오브젝트(OBJECT) 태그를 상기 멀티모달 플랫폼으로 전송함으로써 수행되는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 시스템.
  17. 제 16 항에 있어서 상기 오브젝트 태그는,
    상기 무선 단말에서 멀티모달 플랫폼으로 메시지 전송 시 WML 문서 내로 포함시키는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 시스템.
  18. 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법에 있어서,
    a) 음성녹음 플러그-인(Plug-In)이 기동된 후, 상기 무선 단말로부터 음성녹음을 위한 버튼이 입력되면, 이동전화번호(MDN)와, 음성녹음 파라미터를 상기 멀티모달 플랫폼으로 전송하는 단계;
    b) 상기 무선 단말로 입력되는 사용자 음성을 EVRC 스트리밍으로 상기 멀티모달 플랫폼에 전달하는 단계;
    c) 상기 멀티모달 플랫폼이 기 지정된 오디오 타입(Audio Type) 방식으로 상기 사용자 음성의 형태를 변환하고, 이를 상기 이동전화번호(MDN)와 매핑시켜 저장하는 단계; 및
    d) 상기 무선 단말로부터 녹음 메시지 올리기 신호를 인지한 후, 상기 이동전화번호(MDN)를 키(KEY)로 하여 상기 멀티모달 플랫폼으로 저장된 사용자 음성정보를 상기 컨텐츠 서버로 이송하는 단계로 이루어진 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  19. 제 18 항에 있어서 상기 음성녹음 파라미터는,
    Audio Type 파리미터 및 MaxLength 파라미터이며, 상기 Audio Type 파라미터는 컨텐츠에서 요구하는 형식에 준하며, 상기 MaxLength 파라미터는 저장되는 사용자의 음성 용량에 따라 설정되는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  20. 제 19 항에 있어서 상기 음성녹음 파라미터는,
    메시지 출력을 설정하기 위한 'UseIntro' 파라미터를 더 포함하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  21. 제 18 항에 있어서 상기 사용자 음성의 형태 변환은,
    'evrc : Enhanced Variable Rate Codec Format', 'alaw : A-Law Format', 'mulaw : Mu-Law Format', 'pcm : Intel PCM Format', 'alaw-wav : A-Law Wav Format', 'mulaw-wav : Mu-Law Wav Format', 'pcm-wav : PCM Wav Format' 중 어느 하나의 포맷 변환으로, 상기 컨텐츠 서버의 메시지 포맷 요구에 대응하여 선택 변환되는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  22. 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법에 있어서,
    a) 음성인식 플러그-인(Plug-In)이 기동되어 상기 무선 단말이 상기 멀티모달 플랫폼과 통신을 개설한 후, 이동전화번호(MDN)를 포함하여 음성인식 파라미터를 상기 멀티모달 플랫폼으로 전달하는 단계;
    b) 상기 멀티모달 플랫폼이 자동으로 Server-side EPD(End Point Detection)를 사용하여 음성의 끝점을 검출하여 상기 컨텐츠 서버로 전송하는 단계;
    c) 상기 멀티모달 플랫폼이 EVRC Format으로 전송된 사용자의 음성 파일을 PCM Format으로 변경한 후, 음성인식 처리를 위한 음성인식 서버(ASR)로 상기 음성인식 파라미터와 기 녹음된 음성 파일을 전달하는 단계;
    d) 상기 음성인식 서버(ASR)가 음성 인식 결과를 상기 멀티모달 플랫폼으로 제공하고, 상기 멀티모달 플랫폼이 상기 이동전화번호(MDN)와 인식 결과에 대한 임시 매핑 항목을 만들어 저장하는 단계;
    e) 상기 멀티모달 플랫폼이 상기 무선 단말의 단말 브라우저상으로 음성인식 결과를 텍스트로 제공하는 단계; 및
    f) 상기 음성인식 결과에 대한 사용자 승인에 기초하여, 상기 컨텐츠 서버가는 상기 멀티모달 플랫폼에 이동전화번호(MDN)를 Key로 설정하고, 상기 음성인식 결과에 대한 최근 검색 결과를 조회하는 단계로 이루어진 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  23. 제 22 항에 있어서,
    g) 상기 컨텐츠 서버가 상기 검색 결과를 토대로 다음 검색 결과 페이지를 생성하여 상기 무선 단말의 왑 브라우저로 전송하는 단계가 더 포함되는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  24. 제 22 항에 있어서 상기 음성인식 파라미터는,
    음성인식 방식을 선택하기 위한 'GrammarURI' 파라미터로서, 음성인식의 알고리즘(기법:Grammar)을 지정하며, 상기 알고리즘은 HTTP URL이거나, 정적(Static) 알고리즘(Grammar)인 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  25. 제 24 항에 있어서 상기 HTTP URL은,
    JGSF, ABNF GRXML 형식의 Grammar를 지원하며, 상기 컨텐츠 서버가 이 Grammar 파일을 동적으로 제공하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  26. 제 24 항에 있어서 상기 정적 알고리즘은,
    상기 멀티모달 플랫폼에 탑재되는 음성 인식기에 등록되며, 상기 정적 알고리즘은 대어휘 Grammar에서 적용되는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  27. 제 24 항에 있어서 상기 음성인식 파라미터는,
    음성인식 플러그-인을 위한 파라미터는 N-best를 사용할 것인지를 결정하기 위한 'UseNbest' 파라미터, 안내 메시지출력을 위한 'UseIntro' 파라미터, 음성인식 입력의 최대 길이를 초 단위로 나타내는 'MaxLength' 파라미터를 더 포함하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  28. 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법에 있어서,
    a) 음성출력 플러그-인(Plug-In)이 기동된 후, 상기 무선 단말이 상기 멀티모달 플랫폼과 통신을 개설하고, 이동전화번호(MDN)와 음성출력 파라미터를 상기 멀티모달 플랫폼으로 전달하는 단계;
    b) 상기 멀티모달 플랫폼이 상기 음성출력 파라미터에 포함된 URL 정보로부터 상기 컨텐츠 서버로 저장된 텍스트 파일이나 음성 파일을 읽어 오는 단계;
    c) 상기 URL 정보가 텍스트 파일인 경우 상기 멀티모달 플랫폼은 해당 텍스트를 음성으로 변환시키기 위한 TTS 서버로 전달하는 단계;
    d) 상기 TTS 서버에서 변환된 음성을 상기 멀티모달 플랫폼으로 제공하며, 상기 멀티모달 플랫폼은 상기 무선 단말에서 재생할 수 있는 형태인 EVRC Format으로 변환하는 단계; 및
    e) 상기 멀티모달 플랫폼이 상기 EVRC로 변환된 음성을 무선 단말의 왑 브라우저상의 플러그-인으로 스트리밍 전송하는 단계로 이루어진 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  29. 제 28 항에 있어서 상기 음성출력 파라미터는,
    플러그-인의 실행과 동시에 자동으로 음성을 출력할 것인지를 결정하기 위한 'AutoPlay' 파라미터와, 텍스트를 음성으로 변환하기 위한 TTS 서버를 사용할 것인지를 결정하는 'UseTTS' 파라미터, 상기 'UseTTS' 파라미터 설정에서 음성파일 사용 설정을 위한 'AudioType' 파라미터, 변환하기 위한 음성파일의 위치 정보를 나타내는 'AudioURI' 파라미터인 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  30. 제 29 항에 있어서,
    상기 'AudioType' 파라미터의 음성파일 사용 설정은 상기 TTS 서버를 사용하지 않을 경우, evrc, alaw, mulaw, pcm, alaw-wav, mulaw-wav, pcm-wav 파일 중 어느 하나의 음성 파일을 선택하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
  31. 제 29 항에 있어서,
    상기 'UseTTS' 파라미터가 TTS 서버를 사용하도록 설정되어 있을 경우에는 상기 'AudioType' 파라미터는 일반 텍스트이거나, SSML(Speech Synthesis Markup Language)이며, 상기 'AudioURI' 파라미터는 상기 'UseTTS' 파라미터가 TTS 서버를 사용하도록 설정되어 있을 경우, 일반 텍스트를 명시하거나 SSML 파일의 HTTP URL을 명시하고, 상기 'UseTTS' 파라미터가 TTS 서버를 사용하지 않음으로 설정되어 있을 경우 음성 파일의 HTTP URL을 명기하는 것을 특징으로 하는 무선 단말을 위한 브라우저 기반의 멀티모달 기능 제공 방법.
KR20060053390A 2006-06-14 2006-06-14 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법 KR100826778B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20060053390A KR100826778B1 (ko) 2006-06-14 2006-06-14 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20060053390A KR100826778B1 (ko) 2006-06-14 2006-06-14 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법

Publications (2)

Publication Number Publication Date
KR20070119153A KR20070119153A (ko) 2007-12-20
KR100826778B1 true KR100826778B1 (ko) 2008-04-30

Family

ID=39137521

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20060053390A KR100826778B1 (ko) 2006-06-14 2006-06-14 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법

Country Status (1)

Country Link
KR (1) KR100826778B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100852219B1 (ko) * 2006-11-21 2008-08-13 한국전자통신연구원 멀티모달을 위한 애플리케이션 변환 장치 및 그 방법
US9015043B2 (en) 2010-10-01 2015-04-21 Google Inc. Choosing recognized text from a background environment
KR102112565B1 (ko) * 2017-05-19 2020-05-19 엘지전자 주식회사 홈 어플라이언스 및 음성 인식 서버 시스템의 동작 방법
KR102112564B1 (ko) * 2017-05-19 2020-06-04 엘지전자 주식회사 홈 어플라이언스 및 그 동작 방법
KR102219800B1 (ko) * 2019-06-13 2021-02-23 엘지전자 주식회사 음성 서버, 음성 인식 서버 시스템 및 그 동작 방법
KR102219799B1 (ko) * 2019-06-13 2021-02-23 엘지전자 주식회사 음성 서버, 음성 인식 서버 시스템 및 그 동작 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010076116A (ko) * 2000-01-25 2001-08-11 전성희 웹 브라우저 검색정보 음성변환 습독(拾讀) 및 가입자서비스 방법
KR20040032523A (ko) * 2002-10-10 2004-04-17 와이더덴닷컴 주식회사 음성인식을 이용한 이동통신 단말기의 인터넷 사이트접속장치 및 방법
KR20050039826A (ko) * 2005-04-08 2005-04-29 (주)예스테크놀로지 유무선 기반의 음성 인터페이스를 이용한 멀티모달 시스템및 이를 수행하는 방법
KR20060009151A (ko) * 2004-07-20 2006-01-31 최중인 주문(incantation)형 음성인식 무선 사이트 네비게이션시스템 및 서비스

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010076116A (ko) * 2000-01-25 2001-08-11 전성희 웹 브라우저 검색정보 음성변환 습독(拾讀) 및 가입자서비스 방법
KR20040032523A (ko) * 2002-10-10 2004-04-17 와이더덴닷컴 주식회사 음성인식을 이용한 이동통신 단말기의 인터넷 사이트접속장치 및 방법
KR20060009151A (ko) * 2004-07-20 2006-01-31 최중인 주문(incantation)형 음성인식 무선 사이트 네비게이션시스템 및 서비스
KR20050039826A (ko) * 2005-04-08 2005-04-29 (주)예스테크놀로지 유무선 기반의 음성 인터페이스를 이용한 멀티모달 시스템및 이를 수행하는 방법

Also Published As

Publication number Publication date
KR20070119153A (ko) 2007-12-20

Similar Documents

Publication Publication Date Title
US8781840B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
US7421390B2 (en) Method and system for voice control of software applications
US8868425B2 (en) System and method for providing network coordinated conversational services
CA2345660C (en) System and method for providing network coordinated conversational services
AU2004218693B2 (en) Sequential multimodal input
US7363027B2 (en) Sequential multimodal input
US20020169806A1 (en) Markup language extensions for web enabled recognition
US20020165719A1 (en) Servers for web enabled speech recognition
US20030009517A1 (en) Web enabled recognition architecture
US20020178182A1 (en) Markup language extensions for web enabled recognition
KR100826778B1 (ko) 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법
US6732078B1 (en) Audio control method and audio controlled device
MXPA04006532A (es) Uso combinado de un lenguaje de marca por pasos y una herramienta de desarrollo orientada por objetos.
EP1255193A2 (en) Servers for web enabled speech recognition
EP1255192A2 (en) Web enabled recognition architecture
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
KR20010076789A (ko) 멀티모달 인터넷 인터페이스 장치 및 방법
JP4110938B2 (ja) Webブラウザ制御方法及び装置
EP2128757A2 (en) Markup language extensions for web enabled recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130325

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140325

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160328

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170209

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180403

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20190402

Year of fee payment: 12