KR100430953B1

KR100430953B1 - 네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법

Info

Publication number: KR100430953B1
Application number: KR10-2001-7004207A
Authority: KR
Inventors: 매스스테판에이치.; 고파라크리쉬난포나니
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1998-10-02
Filing date: 1999-10-01
Publication date: 2004-05-12
Also published as: CN1321296A; US7729916B2; CN1160700C; EP1133734A2; WO2000020962A2; EP1125277A1; CN1323435A; EP1133734A4; US7418382B1; IL142364A0; KR20010075552A; CN1171200C; JP2002527919A; JP4171585B2; WO2000020962A3; WO2000021075A1; JP2003525477A; WO2000021073A1; WO2000021232A2; DE69937962D1

Abstract

네트워크 연결된 장치 및 서버,와 이들의 대응 애플리케이션간에 대화 자원, 예컨대 대화 기능/ 대화 인자를 자동으로 협동 공유하기 위한 방법 및 시스템에 관한 것이다.

본 발명의 한 특징으로, 대화 자원을 자동적으로 협동 공유하는 시스템으로서,적어도 제1 네트워크 장치(100) 및 제2 네트워크 장치(106)를 구비한 네트워크를 구비하고, 상기 제1 네트워크 장치(100) 및 상기 제2 네트워크 장치(106)는,

한 세트의 대화 자원과(102,107); 대화를 관리하고 대화 서비스를 요구하는 호출을 실행하기 위한 다이알로그 관리자(103,108)와; 상기 네트워크를 통해 대화 프로토콜을 사용하여 메시지를 전달하기 위한 통신 스택(111,115)을 각각 구비하며, 상기 대화 프로토콜을 사용하여 전달된 메시지는 상기 제1 네트워크 장치 및 상기 제2 네트워크 장치의 다이알로그 관리자간에 협동 네트워크 통신을 설정하여상기 제1 네트워크 장치 및 상기 제2 네트워크 장치의 상기 대화 자원 세트와 자동적으로 공유하고, 필요시, 상기 각각의 요구된 대화 자원 대화 서비스를 수행하는 대화 자원 자동 공유 시스템이 있다.

Description

네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법{SYSTEM AND METHOD FOR PROVIDING NETWORK COORDINATED CONVERSATIONAL SERVICES}

종래의 대화 시스템(즉, 순수하게 음성 I/O만을 가진 시스템 또는 음성 I/O를 가진 다모드 시스템)은 통상적으로 적합한 아키텍쳐 및 충분한 처리 기능을 가진 퍼스널 컴퓨터(PC) 및 로컬 머신에 제한된다. 한편, 전화 용도로 쓰기 위해, 대화 시스템은 통상 서버(예컨대, IVR 서버) 상에 배치되며, 통상의 전화기 및 셀룰러폰을 통해 억세스 가능하다. 이러한 대화 시스템이 점차 대중화되고 있을지라도, 통상 모든 대화 처리는 클라이언트측 또는 서버측에서 수행되고 있다(즉, 모든 구성은 완전히 로컬하거나 완전히 클라이언트/서버 관계임).

퍼베이시브 컴퓨터(pervasive computing)의 출현과 더불어, 수십억개의 저급 리소스 클라이언트 장치(예컨대, PDA, 스마트폰 등)는 서로 네트워크 연결될 것이 예상되고 있다. 이들 클라이언트 장치의 크기가 감소하고, 사용자가 이 클라이언트 장치로 수행할 것으로 예상되는 작업의 복잡성이 증가함에 따라, 사용자 인터페이스(UI)는 중요한 문제가 되고 있다. 그 이유는 소형 클라이언트 장치에서는 종래의 그래픽 사용자 인터페이스(GUI)가 비실용적이기 때문이다. 이 때문에, 대화 시스템이 순수 음성/오디오 I/O 또는 음성/오디오 I/O를 갖는 다모드 I/O를 제공하기 위한 사용자 인터페이스의 핵심 요소가 될 것으로 예상된다.

그 결과, 휴대형 클라이언트 장치의 음성 내장형 대화 애플리케이션이 개발되어 성숙기에 이르고 있다. 불행하게도, 제한된 자원때문에, 이 클라이언트 장치는 복잡한 대화 서비스, 예컨대 음성 인식(특히 어휘 크기가 크거나 전문 용어인 경우, 도메인 특수/애플리케이션 특수 언어 모델 또는 문법이 필요한 경우), 자연어 인식(NLU), 자연어 생성(NLG), 문자-음성 합성(TTS), 음성 포착 및 압축/압축해제, 재생, 다이알로그 생성, 다이알로그 관리, 화자 인식, 주제 인식, 오디오/멀티미디어 인덱싱 및 검색 등을 수행할 수 없다는 것이 예상된다. 예컨대, 장치의 메모리 및 CPU(및 다른 자원) 제약은 이 장치가 제공할 수 있는 대화 기능을 제한할 수 있다.

또한, 네트워크 연결된 장치가 이들 모든 대화 작업을 실행할 만큼 충분히 강력한(CPU 및 메모리 관점에서) 경우일지라도, 이 장치는 적합한 작업을 수행하기 위한 적절한 대화 자원(예컨대, 엔진) 또는 대화 인자(즉, 엔진이 사용하는 데이타 파일)(예컨대, 문법, 언어 모델, 어휘 파일, 파싱, 태그, 음성 지문, TTS 규칙 등)를 가질 수 없다. 실제로, 일부 대화 기능은 너무 특수하여 소정 서비스에만 알맞고, 이에 따라 네트워크 상에서 다른 장치 또는 머신으로만 가용한 백엔드 정보(back end information)를 필요로 한다. 예컨대, 클라이언트 장치 상에서 NLU 및 NLG 서비스는 통상 서버측 보조가 필요하다. 그 이유는 다이알로그(예컨대, 파서, 태거, 번역기 등)를 생성하는데 필요한 대화 인자 또는 대화 기능의 완전 세트가 저장을 위해 대용량 메모리(클라이언트 장치에서 가용하지 않음)를 필요로 하거나 너무 광역이어서 (통신 대역폭 관점에서) 클라이언트측에 전송할 수 없기 때문이다. 이 문제는 클라이언트 장치 또는 로컬 애플리케이션이 복수의 언어로 음성을 처리하고 대화 기능을 수행하는데 필요한 인자를 저장하고 처리하는데 불충분한 메모리 또는 처리 기능을 가질 때, 복수 언어 애플리케이션(multi-lingual application)을 더욱 악화시키게 된다. 대신에, 사용자는 이 작업을 수행하기 위해서 리모트 서버에 수동으로 연결해야 한다.

또한, 클라이언트 및 서버간에 분산된 아키텍쳐와 분산 처리에 관련한 문제는 대화 네트워킹을 위해 새로운 방법을 필요로 한다. 이 방법은 네트워크를 통해 대화에 참여한 각각의 사용자의 적절한 다이알로그 흐름을 보장하도록 네트워크를 통해 분산된 트래픽 및 자원의 관리를 포함한다.

따라서, 제한된 자원을 갖는 네트워크 장치가 사용자에게 자동적이고 투명한 방식으로 네트워크 연결된 자원을 사용하여 복잡한 특수 대화 작업을 자동적으로 수행 가능하게 하는 시스템 및 방법이 매우 바람직하다.

본 출원은 1998년 10월 2일자로 출원된 미국 가특허 출원 제60/102,957호와, 1999년 1월 27일자로 출원된 미국 가특허 출원 제60/117,595호에 기초하고 있다.본 발명은 일반적으로 대화 시스템에 관한 것으로, 특히 네트워크 연결된 장치, 서버 및 애플리케이션간에 대화 기능/대화 자원을 자동으로 협동 공유하기 위한 방법 및 시스템에 관한 것이다.

도 1은 본 발명의 일실시예에 따른 네트워크 연결된 장치간에 대화 자원을 자동으로 협동 공유함을 통해 대화 서비스를 제공하는 시스템을 도시한 블럭도.

도 2는 본 발명의 한 특징에 따른 네트워크 연결된 장치간에 대화 자원을 자동으로 협동 공유함을 통해 대화 서비스를 제공하기 위한 방법을 도시한 흐름도.

도 3은 본 발명의 다른 특징에 따른 네트워크 연결된 장치간에 대화 자원을 자동으로 협동 공유함을 통해 대화 서비스를 제공하기 위한 방법을 도시한 흐름도.

도 4는 대화 브라우저를 사용하는 본 발명의 또 다른 특징에 따라 대화 서비스를 제공하는 분산 시스템을 도시한 블럭도.

도 5는 대화 브라우저를 사용하는 본 발명의 또 다른 특징에 따라 대화 서비스를 제공하는 분산 시스템을 도시한 블럭도.

본 발명은 네트워크 연결된 서버 및 장치(및 대응 애플리케이션)간에 대화 자원을 자동으로 협동 공유하는 시스템 및 방법에 관한 것이다. 본 발명의 일실시예에 따른 시스템은 네트워크 장치 중 하나의 인터페이스를 통해 끊김 없는(seamless) 대화 인터페이스를 제공하기 위해 각각의 대화 인식 네트워크 장치가 자동적으로 대화 자원을 공유하고, 자동적으로 협동 및 동기화하는 방식을 허용하고 있는 대화 네트워크 프로토콜(또는 방법)을 사용하여 메시지를 정달함으로써, 서로 "대화적으로 인식"할 수 있게 만들어진 복수 개의 네트워크 연결된 서버, 장치 및/또는 애플리케이션을 포함한다.

본 발명의 한 특징에 따르면, 대화 자원을 자동적으로 협동 공유하는 시스템은,

적어도 제1 네트워크 장치 및 제2 네트워크 장치를 구비하는 네트워크를 포함하고,

상기 제1 네트워크 장치 및 상기 제2 네트워크 장치는,

한 세트의 대화 자원과;

대화를 관리하고 대화 서비스를 요구하는 호출을 실행하기 위한 다이알로그 관리자와;

상기 네트워크 상에서 대화 프로토콜을 사용하여 메시지를 전달하기 위한 통신 스택을 각각 구비하며,

상기 대화 프로토콜을 사용하여 전달된 메시지는 상기 제1 네트워크 장치 및 상기 제2 네트워크 장치의 다이알로그 관리자간에 협동 네트워크 통신을 설정하여 상기 제1 네트워크 장치 및 상기 제2 네트워크 장치의 상기 대화 자원 세트를 자동적으로 공유하고, 필요에 따라, 각자의 요구된 대화 서비스를 수행한다.

본 발명은 저급 리소스 클라이언트 장치가 로컬하게 단순한 작업 뿐만 아니라, 좀더 복잡한 대화 기능을 갖는 서버( 또는 다른 장치)와 이진 연결 또는 아날로그 연결로 복잡한 작업을 투명하게 수행 가능하게 한다. 이 서버측 기능(예컨대, 음성 인식)은 통상의 IP 네트워크 또는 LAN 네트워크 뿐만아니라, 종래의 전화선 또는 패킷 스위치된 네트워크 상에서의 디지탈 전송, 또는 무선 네트워크 상에서의 종래의 무선 데이타 프로토콜을 통해 수행될 수 있다.

본 발명은 제한된 CPU, 메모리 및 파워 기능(제한된 대화 자원)을 가진 장치(예컨대, 퍼베이시브 내장형 장치)에서 전면적인 대화 사용자 인터페이스를 제공하는데, 이 장치는, 예컨대 네트워크 서버에서 필요한 대화 인자를 다운로드할 필요가 없이, 저급 리소스 클라이언트 장치를 사용하여 복잡한 대화 서비스를 제공한다. 로컬 기능에 의해 사용자는, 예컨대 무선 전화 사업자가 제공하는 커버리지 밖에서 접속하지 않고, 로컬 머신을 이용할 수 있다. 또한, 연속적인 접속 비용은 감소되고, 이러한 연속 접속이 끊어진 경우, 복구의 어려움은 경감될 수 있다.

본 발명의 특징, 기술적 사상 및 이점은 후술하는 바람직한 실시예와 첨부한 도면을 참조하여 설명되고 있다.

이하에서는 본 발명이 하드웨어, 소프트웨어, 펌웨어, 특수 목적 프로세서 또는 이들의 조합 등의 여러가지 형태로 구현될 수 있다는 것이 이해된다. 본 발명은 프로그램 저장 장치(예컨대, 마그네틱 플로피 디스크, RAM, CD ROM, ROM 및 플래시 메모리)에 유형적으로 구현되며, 적합한 아키텍쳐[예컨대, 하나 이상의 중앙 처리 유니트(CPU), 랜덤 억세스 메모리(RAM) 및 오디오 입력/출력(I/O) 인터페이스]를 구비한 장치 또는 머신에 의해 실행가능한 프로그램 명령을 포함하는 애플리케이션과 같은 소프트웨어로 구현되는 것이 좋다.

첨부한 도면에 도시한 일부 구성 시스템의 구성 요소 및 방법 단계는 소프트웨어로 구현되는 것이 좋기 때문에, 시스템 구성 요소(또는 프로세스 단계)간의 실제 연결은 본 발명이 프로그램되는 방식에 따라 다를 수 있다는 것이 이해된다. 당해 기술 분야의 통상의 기술적 지식을 가진 자라면, 본 명세서에서 설명하고 있는 본 발명과 유사한 실시예 또는 구성을 잘 이해할 수 있다.

도 1을 참조하면, 블럭도는 본 발명의 실시예에 따른 네트워크 장치간에 대화 자원 및 대화 인자(데이타 파일)를 자동으로 협동 공유함을 통해 대화 서비스를 제공하는 시스템을 설명하고 있다. 이 시스템은 로컬 클라이언트 장치(100)를 포함하고 있으며, 이 로컬 클라이언트 장치(100)는 로컬 클라이언트 장치(100)에 의해 생성된 오디오/음성 입력을 처리하고, 오디오/음성을 출력하기 위한 음향 프론트 엔드(101)를 포함하고 있다. 로컬 클라이언트 장치(100)는, 예컨대 스마트폰 또는 음성 인식 가능 PDA(personal digital assistant)일 수 있다. 로컬 클라이언트 장치(100)는 음향 프론트 엔드(101)에 의해 생성 및/또는 포착된 음향 특성 및/또는 파형을 처리하고, 사용자에게 출력하기 위한 다이알로그를 생성하기 위한 하나 이상의 로컬 대화 엔진(102)을 더 포함한다. 이 로컬 대화 엔진(102)은, 예컨대 내장형 음성 인식 엔진, 화자 인식 엔진, TTS 엔진, NLU 및 NLG 엔진, 오디오 포착 및 압축/해제 엔진과 또 다른 형태의 대화 엔진을 포함할 수 있다.

로컬 클라이언트 장치(100)는 작업 관리를 수행하고, 시스템 호출(API 또는 프로토콜 호출)을 통해 요구된 대화 서비스의 실행을 (로컬하게 또는 네트워크 장치를 통해) 제어하고 협동할 뿐만아니라, 로컬하게 네트워크 연결된 장치간의 다이알로그를 관리하는 로컬 다이알로그 관리자(103)를 더 포함한다. 더 상세히 말하면, 후술하는 바와 같이, 로컬 다이알로그 관리자(103)는 소정의 대화 서비스가 로컬 클라이언트 장치(100) 또는 리모트 네트워크 연결된 서버(또는 장치)에서 로컬하게 처리되고 실행될지 여부를 결정한다. 이 결정은 로컬 클라이언트 장치(100)의 대화 기능과 다른 네트워크 장치의 대화 기능을 비교하는 요소에 기초하고, 또 요구된 대화 서비스를 처리하기 위해 필요할 수 있는 가용한 대화 자원 및 대화 인자도 기초로 한다. 다른 요소들은 네트워크에 연결된 장치로부터 나온 결과의 수신시 네트워크 트래픽과 예상된 지연을 포함한다. 로컬 다이알 로그 관리자(103)는 작업 관리 및 대화 자원 관리 작업, 예컨대 부하 관리 및 대화 자원 할당을 수행할 뿐만아니라, 로컬 대화 엔진(102) 및 음성 인식 가능 로컬 애플리케이션(104)간에 다이알로그를 관리한다.

도 1에 도시한 바와 같이, 로컬 클라이언트 장치(100)는 네트워크(105)를 통해 서버(106)와 네트워크 연결되는데, 이 서버에는 서버 애플리케이션(109)뿐만아니라, 필요할 때, 로컬 클라이언트 장치(100)(또는 다른 네트워크 장치 또는 애플리케이션)에 대화 서비스를 제공하기 위한 서버 대화 엔진을 포함하고 있다. 로컬 대화 엔진(102)과 같이, 서버 엔진(107)은, 예컨대 내장형 음성 인식 엔진, TTS 엔진, NLU 및 NLG 엔진, 오디오 포착 및 압축/해제 엔진과 또 다른 형태의 대화 엔진을 포함할 수 있다. 서버(106)는 전술한 바와 같은 로컬 관리자(103)와 유사한 방식으로 동작하는 서버 다이알로그 관리자(108)를 포함한다. 예컨대, 서버 다이알로그 관리자(108)는 로컬 다이알로그 관리자(103)로부터 나온 대화 서비스에 대한 요구가 서버(106) 또는 또 다른 리모트 네트워크 연결된 서버 또는 장치에 의해 처리되고 실행될지 여부를 결정한다. 또, 서버 다이알로그 관리자(108)는 서버 대화 엔진(107) 및 음성 인식 가능 서버 애플리케이션간에 다이알로그를 관리한다.

또한, 도 1의 시스템은 필요에 따라 로컬 클라이언트 장치(100) 및 서버(106)에 의해 억세스 가능한 대화 엔진 및/또는 대화 인자를 갖고 있는 서버(110)에 네트워크 연결된 로컬 클라이언트 장치(100)와 리모트 서버(106)를 도시하고 있다. 네트워크(105)는, 예컨대 인터넷, 근거리 통신망(LAN), 통합 인트라넷, 공중 전화 교환망(PSTN) 또는 무선 네트워크[ RF(radio frequency)를 통한 무선 통신] 또는 IR(infrared)를 통한 무선 통신]일 수 있다. 도 1에서 당해 기술 분야의 통상의 기술을 가진 자가 이해할 수 있는 용어로서 클라이언트/서버 시스템을 도시하고 있는 경우라도, 도 1의 시스템은 대화 기능, 대화 인자 및 대화 자원을 자동적으로 협동 공유하도록 서로 "대화로 인식"하는 복수개의 네트워크 서버, 장치 및 애플리케이션을 포함할 수 있다. 더 상세하게 후술하자면, 이 "대화 인식"은 네트워크 연결된 장치가 자동 및 동기 방식으로 대화 자원 및 대화 기능을 공유할 수 있는 각각의 다이알로그 관리자에 의해 처리된 메시지를 전송하도록 하는 대화 네트워크 프로토콜(또는 방법)을 사용하여 달성될 수 있다. 이 대화 협동은 하나의 네트워크 장치의 인터페이스를 통해 리모트 서버, 장치 및 애플리케이션을 억세스하기 위해 끊김 없는 대화 인터페이스를 제공한다.

특히, 대화 기능, 대화 자원 및 대화 인자를 공유하여 네트워크 장치간에 대화 협동을 제공하기 위해, 각각의 네트워크 연결된 장치는 대화 프로토콜(또는 방법)을 사용하여 대화 기능 및 요구 사항에 관한 정보를 교환하도록 메시지를 전달한다. 예컨대, 도 1에 도시한 바와 같이, 로컬 클라이언트 장치(100)는 대화 프로토콜(112), 대화 디스커버리(conversational discovery), 등록 및 협상 프로토콜(113) 및 음성 전송 프로토콜(114)(또는 대화 코딩 프로토콜)을 사용하여 메시지를 송수신하기 위한 통신 스택(111)을 포함하고 있다. 유사하게, 서버(106)는 대화 프로토콜(116), 대화 디스커버리, 등록 및 협상 프로토콜(117) 및 음성 전송 프로토콜(118)을 포함하는 통신 스택(115)을 포함하고 있다. 이들 프로토콜(방법)은 "대화형 가상 머신을 통한 대화식 컴퓨터"라는 명칭으로 특허 출원(IBM 문서 번호 YO999-111P)된 대화형 가상 머신(CVM)과 관련해서 상세히 설명되고 있다.

요약하면, 대화 프로토콜(112, 116)(또는 YO999-111P에서 "분산 대화 프로토콜"로서 명명됨)은 네트워크 연결된 장치[예컨대, 클라이언트(100) 및 서버(106)] 또는 애플리케이션으로 하여금 다른 네트워크 장치의 다이알로그 관리자로 대화 상태, 대화 인자 및 대화 구문을 등록하기 위한 메시지를 전송 가능하게 하는 프로토콜(또는 방법)이다. 또한, 대화 프로토콜(112,116)에 의해 네트워크 장치 또는 관련 애플리케이션이, 예컨대 매스터/슬레이브 또는 P2P 대화 네트워크 구성으로 이들 네트워크 연결된 장치간에 대화를 협동하게 하는 다른 정보, 예컨대 애플릿, ActiveX 구성 요소 및 다른 실행가능한 코드를 교환 가능하다. 이 분산된 대화 프로토콜(112, 116)에 의해 매스터/슬레이브 대화 네트워크, P2P 대화 네트워크, 사일런트 파트너를 포함하는 복수의 장치 및 애플리케이션을 포함하여, 대화를 협동하도록 정보를 교환할 수 있다. 이 분산된 대화 프로토콜을 사용하여 네트워크 장치간에 교환될 수 있는 정보는 데이타 파일(인자)에 대한 포인터, 데이타 파일의 전송(만일 필요하다면) 및 다른 대화 인자, 입력을 위한 통지, 출력 이벤트 및 인식 결과, 대화 엔진 API 호출 및 결과, 상태 및 구문 변경의 통지와 다른 시스템 이벤트, 등록 업데이트:등록을 위한 핸드셰이크, 협상 업데이트:협상을 위한 핸드셰이크 및 요청 자원을 손실되었을 때의 디스커버리 업데이트를 포함하고 있다.

또한, 이 (분산된) 대화 프로토콜은 다이알로그 관리자(DM) 프로토콜을 포함하는데, 이 DM 프로토콜에 의해 상기 다이알로그 관리자는 서비스, 행동 및 대화 애플리케이션, I/O 및 엔진 API(예컨대, IBM 문서 번호 YO999-111P에 기재됨)를 분산 가능하다. 예컨대, DM 프로토콜에 의해 다음의 정보가 교환 가능한데, 이 정보는 (1)DM 아키텍쳐 등록(예컨대, 각각의 DM은 로컬 DM의 집단임), (2)관련 메타 정보에 대한 포인터[사용자, 장치 기능, 애플리케이션 니즈(needs) 등], (3) DM 네트워크 토폴로지의 협상(예컨대, 매스터/슬레이브, P2P), (4) 응용가능한 경우, 즉 엔진이 매스터 DM에 의해 제어되어 사용되는 경우 데이타 파일(대화 인자), (5) I/O 이벤트 예컨대, 사용자 입력, 엔진으로 전송하기 위해 사용자에게 출력 및/또는 구문의 추가, (6) 인식 이벤트의 통지, (7) 엔진에서 매스터 DM으로 처리된 입력을 전송, (8) 등록된 DM으로 매스터 DM의 책임(responsibility)을 전송, (9) DM 처리 결과 이벤트, (10) DM 예외, (11) 신뢰도 및 모호성 결과, 제시된 피드백 및 출력, 제시된 기대 상태, 제시된 행동, 제시된 구문 변경, 제시된 새로운 다이알로그 상태의 전송, (12) 결정 통지, 구문 업데이트, 동작 업데이트, 상태 업데이트 등, (13) 완성, 고장 또는 인터럽트 조치의 통지, (14) 구문 변경의 통지, 및/또는 (15) 조치로 인한 데이타 파일, 구문 및 상태 업데이트이다.

예컨대, 매스터-슬레이브 네트워크 구성에서는 네트워크 연결된 장치들 중 단지 하나가 소정의 시각에 대화를 실행한다. 특히, 매스터 장치(즉, 매스터 장치의 다이알로그 관리자)는 네트워크 장치간에 대화를 관리하고 협동하며, 소정의 대화 서비스 또는 기능을 수행할 장치를 결정한다. 이 결정은 대화 기능에 관한 각각의 장치 또는 애플리케이션에 의해 제공된 정보에 기초할 수 있다. 또한, 이 결정은 어느 슬레이브 장치(필요한 대화 기능을 구비)가 소정의 대화 기능을 가장 최적으로 수행할 수 있는지 결정하는 매스터 장치에 기초할 수 있다. 예컨대, 매스터 장치는 복수의 슬레이브에 요청하여 음성 인식을 수행하고, 그 결과를 매스터 장치에 결과를 제공할 수 있다. 이때, 매스터 장치는 적절한 결과를 선택할 수 있다. 음성 인식의 레벨로 설명된 것이 분산된 다이알로그 관리자간에 DM(다이알로그 관리자) 프로토콜의 레벨에서의 메카니즘이라는 것을 알 수 있다(IBM 문서 번호 YO999-111P에 기재된 바와 같이). 실제로, 다이알로그가 복수의 다이알로그 관리자간에 발생할 때, 매스터 장치는 각 다이알로그 관리자의 결과를 스코어의 척도로 파악하게 되며, 이에 따라 어느 다이알로그 관리자가 음성 인식의 정확성, 다이알로그(의미), 구문 및 히스토리(고려 중인 다른 항목, 예컨대 사용자의 즐겨찾기, 히스토리 및 애플리케이션의 즐겨찾기)에 기초하여 입력과 함께 진행하는지를 알기 위한 결정이 내려진다.

P2P 연결에서는, 각 장치가 이렇게 하도록 요구를 수행하고 로그(log)할 수 있는 기능을 결정하게 된다. 이 작업을 수용한 장치는 작업을 수행한 다음, 이 수행 작업에 스코어를 부여한다. 이때 장치는 이들 스코어에 기초하여 어느 장치가 작업을 수행하게 될지를 협상(negotiate)하게 된다.

실시예에 있어서, 분산된 대화 프로토콜(112, 116)은 네트워크를 통해 애플리케이션 및 상이한 대화 엔진간에 호출을 실행하도록 RMI(remote method invocation) 또는 RPC(remote procedure call) 시스템 호출을 통해 구현된다. 종래 기술에서 알려진 바와 같이, RPC는 네트워크를 통해 하나의 애플리케이션이 다른 애플리케이션으로부터의 서비스를 요구하게 하는 프로토콜이다. 유사하게, RMI는 객체가 분산된 네트워크에서 대화할 수 있는 방법이다. RMI에 의해 하나 이상의 객체가 요구와 함께 패스된다. 또, 정보는 CORBA 또는 DCOM를 통해 교환되거나 서술문 방식(예컨대, XML를 통해)으로 표현되는 객체에 저장될 수 있다. 전술한 특허 출원(IBM 문서 번호 YO999-111P)에 설명된 바와 같이, 대화 프로토콜(방법)(또는 분산된 프로토콜)은 대화 API를 통한 대화 애플리케이션 및 CVM 쉘(shell)간, 또는 대화 엔진 API를 통한 CVM 및 대화 엔진간에 CVM(conversational virtual machine) 쉘에 의해 지원된 대화 기능의 분산 실행을 달성하는데 사용될 수 있다. 대화 엔진 API들은 코어 엔진(로컬 및/또는 네트워크)들과 통신하기 위해 대화 엔진 API들과 프로토콜들을 사용하는 코어 엔진 및 애플리케이션간의 인터페이스들이다. 대화 API는 대화 인식 애플리케이션을 연결(hook)하거나 발생(develop)하는 API 층을 제공하는데, 이 층은 대화 사용자 인터페이스를 구축하기 위한 기초 클래스 및 구성요소를 포함한다.

유사하게, 본 발명에 따른 다이알로그 관리자는 API를 통해 애플리케이션 및 엔진(로컬 및/또는 네트워크 연결된)과 통신할 수 있다. 이런 식으로, 다이알로그 관리자는 결과에 따라 동작하여 모든 리모트 절차(리모트 엔진 및 애플리케이션으로 호출하는 절차)를 다시 호출할 수 있는데, 그것은, 마치 예컨대 활성 애플리케이션을 우선하여 결정하도록 애플리케이션 및 대화 자원(로컬 및/또는 네트워크)간을 중재하고, 활성 상태로서 고려한 결과를 결정하기 위한, 로컬 애플리케이션과 같다.

대화 디스커버리, 등록 및 협상 프로토콜(113,117)은 로컬 또는 네트워크 대화 인식 시스템[즉, 대화 프로토콜을 "스피크(speak)"하는 애플리케이션 또는 장치]을 "디스커버(discover)"하는데 사용된 네트워크 프로토콜(또는 방법)이다. 등록 프로토콜에 의해 장치 또는 애플리케이션은 그 자신의 대화 기능, 상태 및 인자를 등록할 수 있다. 협상 프로토콜은 장치가 매스터-슬레이브, P2P 및 사일런트 파트너 네트워크와 협상하게 한다.

일실시예에서, 디스커버리 프로토콜에 의해 다른 "방송 및 청취" 장치로부터 반응(reaction)을 개시(trigger)하기 위한 "방송 및 청취(broadcast and listen)" 방법(approach)이 구현된다. 예컨대, 이것은 다이나믹 및 자발 네트워크(예컨대, 후술하는 블루투스 및 홉핑 네트워크)의 생성을 허용할 수 있다. 다른 예로, 디폴트 서버(매스터 장치도 가능) 설정은 상이한 네트워크 장치의 "어드레스"를 등록하는데 사용될 수 있다. 이 실시예에서, 이 디스커버리는 이 장치에 연결되는 장치를 결정하기 위해 등록 장치의 리스트를 대조하여 서버와 통신하는 네트워크의 각 장치와 같다. 이 디스커버리 프로토콜을 통해 교환되는 정보는 다음의 (1) 핸드셰이크에 대한 방송 요구 또는 요구에 대한 청취, (2) 장치 식별자의 교환, (3) 초기 등록을 위한 핸들(handles)/포인터의 교환 및 (4) 초기 협상을 위한 핸들 교환을 포함한다.

접속시, 등록 프로토콜을 구현하기 위한 일실시예로, 이 장치는 플래그 세트 또는 장치 특성 객체(a device property object)를 교환함으로써, 대화 기능에 대한 정보를 미리 구성한 프로토콜(예컨대, TTS 영어, 텍스트, 음성 인식, 500워드 + FSG 그래머, 화자 인식 없음 등)과 교환할 수 있다. 마찬가지로, 애플리케이션은 엔진 요구 사항 리스트를 교환할 수 있다. 매스터/슬레이브 네트워크 구성으로, 매스터 다이알로그 관리자는 모든 리스트를 편집하고, 기능 및 니즈(needs)를 대화 기능과 일치시킬 수 있다. 매스터 장치(다이알로그 관리자)가 없으면, 공통 서버를 사용하여 네트워크의 각 머신 또는 장치로 대화 정보를 전송할 수 있다. 이 등록 프로토콜에 의해서 다음의 정보, 즉 (1) 정의 및 업데이트 이벤트를 포함하는 기능 및 로드 메시지, (2) 엔진 자원(소정의 장치가 NLU, DM, NLG, TTS, 화자 인식, 음성 인식 압축, 코딩, 스토리지 등에 포함되는지 여부), (3) I/O 기능, (4) CPU, 메모리 및 로드 기능, (5) 데이타 파일 형태(도메인 특정, 사전, 언어 모델, 언어 등), (6) 네트워크 어드레스 및 특성, (7) 사용자에 대한 정보(이벤트 정의 및 업데이트), (8) 장치, 애플리케이션 또는 다이알로그를 위한 사용자 즐겨찾기, (9) 고객화(customization), (10) 사용자 경험, (11) 도움말, (12) 애플리케이션(및 애플리케이션 상태) 당 기능 요구 사항, (13) CUI 서비스 및 행동을 위한 메타 정보(도움말 파일, 카테고리, 대화 우선 순위 등)(전형적으로 포인터를 통해, 테이블에 대한 이벤트 정의 및 업데이트), (14) 프로토콜 핸드셰이크 및/또는 (15) 토폴로지 협상이 교환 가능하다.

통상의 통신 프로토콜, 예컨대 TCP/IP, TCP/IP 29, X-10 또는 CEBus, 및 소켓 통신을 사용하여 장치들 사이에서 등록이 수행될 수 있다. 이들 장치는 이들 장치에 관련된 대화 엔진 및 다이알로그 관리자와 이들의 대화 인자[예컨대, 실용 어휘, 문법 및 언어 모델, 파싱 및 번역/태깅 모델, 음성 프린트, 합성 규칙, 베이스폼(발음 규칙) 및 음성 폰트]를 전달하기 위해 분산 대화 아키텍쳐를 사용한다. 이 정보는 다이알로그 관리자 및 대화 엔진에 대한 파일 또는 스트림으로서 패스되거나 URL로서 패스된다. 또, 구문 정보는 컨트롤러가 구문 스택에 억세스하여 추가할 수 있는 장치 또는 애플리케이션의 구문 스택/히스토리로의 패싱 또는 포인팅을 표시함으로써, 전송될 수 있다. 또한, 이 장치는 다모드 I/O 및 UI 기능(스크린/스크린 없음, 오디오 입출력 기능, 키보드 등)에 관한 정보를 패스한다. 대화 인자는 다이알로그 엔진이 현재 상태 및 구문을 기초로, NLU 엔진에 의해 새로운 질의의 관련성을 평가하게 한다.

각각의 네트워크 장치의 니즈 및 기능을 등록할 때, 협상 프로토콜에 대해서, 네트워크 장치 및 애플리케이션은 협상 중에 소정의 임시 구성을 투표할 수 있다. 어떤 애플리케이션에 의해 이 구성(즉, 토폴로지)이 제한될 경우, 이 결정은 자동적으로 부과된다. 그렇지 않으면, 매스터 또는 슬레이브될지, 또는 피어(peer)될지 요구할 수 있다. 요구의 탤리(tally)에 기초해서, 양호한 구성이 정해져서 모든 장치 및 애플리케이션(각 장치/애플리케이션을 유지 가능한 대화 자원 테이블에서)으로 전달된다. 시스템이 그 상태 및 요구 사항을 변경할 때마다, 새로운 협상을 개시하고 새로운 상태 및 구문 정보를 전달하도록 다른 네트워크 연결된 다이알로그 관리자/대화 자원과 통신하게 된다.

음성 전송 프로토콜(114, 118)은 이들 장치가 네트워크에서 다른 장치 및 애플리케이션으로/으로부터 압축 음성 또는 로컬 처리 결과를 송수신 가능하게 한다. 대화 엔진(102,107)은 전송을 위해 음성(또는 결과)을 압축하고, 로컬 처리를 위해 다른 장치 또는 애플리케이션으로부터 네트워크 상에서 획득된 압축 음성(또는 결과)를 해제하기 위한 압축/해제 엔진을 포함하는 것이 좋다. 음성 전송 클라이언트는 이 장치에서 실행된 음성 전송 프로토콜을 이영하여 처리를 위해 다른 네트워크 연결된 장치, 시스템 또는 애플리케이션으로/으로부터 압축 음성을 송신/수신한다. 이 장치의 음성 전송 클라이언트는 네트워크에서 전송된 음성을 처리하기 위해 적당한 압축 하드웨어를 사용하여 압축, 압축 해제 및 재구성 엔진과 함께 조작한다. 음성 코더는 압축된 음성 및 최적화된 대화 기능(예컨대, 워드 에러율)의 인식 가능하게 수용가능한 또는 합리적인 재구성을 제공한다. 음성은 음향 신호 처리 엔진(오디오 서브 시스템) 및 적합한 오디오 하드웨어를 사용하여 각각의 네트워크 장치에서 포획(특성으로 변환되어)된다. 또, 압축 음성 파일 포맷은 음성을 처리하기 위해 장치 간에 송수신될 수 있다. 특히, 음성 전송 프로토콜은 장치가 네트워크상에서 다른 장치 및 애플리케이션으로/으로부터 압축 음성 또는 로컬 처리 결과를 송수신 가능하게 한다. 일례로, 전송 장치 및 수신 장치간의 핸드셰이크 처리 후에 데이타 스트림(패킷 본위)은 수신기로 전송된다. 패킷 헤더는 음성(또는 결과)을 인코딩하기 위해 코딩 방법 및 코딩 인자(즉, 샘플링 주파수, 피쳐 특성, 디멘션, 프론트-엔드에 적용된 변형, 프론트-엔드의 성질 등)를 규정하는 것이 좋다. 또, 분실 패킷을 복원(재전송)하도록 에러 보정 정보(예컨대, 이전 패킷이 분실되거나 지연된 경우 차동 디코더를 보정하도록 이전 패킷의 최종 피쳐 벡터)가 도입되거나 적절한 메시지 전달이 이루어질 수 있다.

또, 다이알로그 관리자는 다이알로그 관리자 프로토콜 또는 DM 프로토콜을 통해 전달할 수 있다(전술한 IBM 문서 번호 YO999-111P에 설명된 바와 같이). DM 프로토콜은 다이알로그 관리자가 활성화되거나 다이알로그 관리자가 입력을 수신해야 하는 복수의 다이알로그 관리자 사이에서 협상하는데 사용된다. 현재의 경우, 서버 자원은 실제로 필요할 때만 "폴(polled)"되기 때문에, DM 프로토콜은 변수(a variation)를 제공한다. 즉, 로컬 다이알로그 관리자는 선험적으로(a priori) 기능이 리모트로 수행되어야 하는지를 결정한다. 실수가 있거나 그럴 염려가 있을 경우, 다이알로그 관리자는 로컬 엔진으로부터의 평가를 기다리고, 의심이 있는 경우에 비교를 위해 서버를 폴하도록 결정될 수 있다.

그러므로, 전술한 설명에 기초하면, 네트워크 프로토콜은 대화 서비스 및 기능을 공유하기 위해 네트워크 연결된 장치간에 협동(또는 협동 인터페이스)을 제공하는 것임이 명백하다. 협동 인터페이스라는 용어는 액터들이 전체 대화를 모두 이해하고 소정의 시각에서 누구에게 어드레스되었는지 아는 것처럼, 단일한 대화가 상이한 액터(장치/애플리케이션)간에 유지될 수 있다는 의미이다. 각 대화 시스템 또는 애플리케이션의 동작은 적합한 시스템에서 각 대화 기능을 사용자에게 투명하게 실행하기 위해 다이알로그 관리자(예컨대, 매스터 슬레이브 모드에서 매스터), 애플리케이션(매스터, 슬레이브 또는 피어간인지 여부를 설정할 수 있는), 시스템 다이알로그 관리자(필요한 경우), 아키텍쳐 및 협상(P2P 모드에서)에 의해 제어/관리될 수 있다. 특정한 대화 기능, 시스템 및 자원이 수개의 네트워크 연결된 장치(예컨대, 셀룰러 폰, 페이저 및 PDA)에 제공될 수 있음에도 불구하고, 끊김 없는 대화형 인터페이스는 클라이언트 장치의 사용자를 위해 제공된다(즉, 모든 상호 대화는 단일한 대화 시스템을 통해 나타난다).

협동 대화 시스템의 일례(상기 전술한 IBM 문서 번호 YO999-111P에 설명된 바와 같은)는 UCA(universal conversational appliance)라 불리는 리모트 컨트롤이다. UCA는 대화로 인식되는 장치를 찾아낸다. 대화로 연결된 각 장치는 그 대화 인자(어휘 및 문법)를 UCA에 전송한다. UCA는 사용자와의 상호 대화가 장치에 대한 명령으로 될 때, 이러한 장치를 위한 매스터로서 작용하고, 적합한 장치를 업데이트한다. 반대로, 명령을 실행할 때 또는 이 장치가 상태 변경을 할때마다, UCA는 업데이트를 리모트 컨트롤로 전송할 것이다. 다른 대화 기능(대응하는 인자와 다른)이 없는 대화 장치를 "사이런트 파트너"라 한다.

또 다른 실시예로, 서버 또는 기지국은 리모트 컨트롤(또는 UCA)에 의해 수행되고 있는 오디오 포획 압축 및 발송(shipping)을 제외한 모든 대화 기능을 수행할 수 있다. 또한, 리모트 컨트롤은 다른 장치의 상태를 사용자에게 통지하도록 일부 UI를 사용자에게 제공할 수 있다. 이것은 음성, GUI 또는 이들 양식(및 다른 모드)의 대화적 조합을 통해 행해질 수 있다.

종래의 네트워크 토폴로지가 도 1의 시스템에 연결해 사용될 수 있을지라도, 양호한 네트워크 토폴로지는 자발적인 동적 네트워킹(예컨대, 특정한 통신 영역 내에 있는 장치간에 자발적으로 설치된 네트워크)을 제공하는 것이다. 이러한 자발적인 네트워킹은, 예컨대 http://www.bluetooth.com에서 설명하고 있는 바와 같은 최근에 나타난 "블루투스" 네트워킹 프로토콜을 사용하여 실행될 수 있다. 요컨대, 블루투스는 애드 혹(ad hoc) 무선 네트워크 접속을 제공하는 네트워크 프로토콜용 코드명이다. 특히, 블루투스는 이러한 장치들 간의 네트워크[또는 "피코넷(piconet)"으로 알려져 있는]를 동적으로 자발적으로 설치하기 위해, 특정한 거리 내에 있는 장치들(스마트폰, 셀룰러 폰, 페이저, PDA, 랩탑 컴퓨터, 모바일 유닛 등)간에 단거리 무선 라디오 링크를 제공하는 프로토콜이다. 피코넷은 네트워크 접속 리마인더 중에 매스터를 작동시키는 각 피코넷에서 한 노드와 애드 혹(ad hoc) 방식으로 연결된 블루투스 인에이블 장치(노드)의 집단이라 불리운다. 2개 이상의 피코넷이 네트워크 연결되어 스캐터넷(a scatternet)을 형성할 수 있다.

본 발명에 따라 자발적인 동적 네트워킹 프로토콜이 실행될 수 있다는 것을 알게 된다. 예컨대, 도 1의 네트워크 토폴로지는 "홉핑" 통신 네트워크에 따라 실행될 수 있는데, 이 홉핑 통신 네트워크는 "자동 트래픽 맵핑"이라는 명칭으로 1998년 11월 24일에 출원된 미국 특허 출원 제09/198,378호에 설명되어 있다.

다시 도 2를 참조하면, 도 2의 흐름도는 본 발명에 따라 네트워크 연결된 장치간에 대화 기능의 자동 및 합동 공유를 제공하는 방법을 보여주고 있다. 특히, 도 2는 도 1의 시스템의 조작 방법을 더 상세히 설명하고 있다. 처음에, 사용자는 로컬 클라이언트 장치에 구두로 명령(또는 질의)하는데, 이 구두 명령은, 예컨대 음성 신호를 디지탈화하고 디지탈화된 관련 특성을 발췌함으로써, 미리 처리된다(스텝 200). 다른 대안의 예로, 로컬 다이알로그 관리자는 사용자에게 출력하기 위한 합성 음성(TTS)을 생성하기 위해 로컬 애플리케이션(104)으로부터 요구를 수신할 수 있다(스텝 200).

로컬 처리가 이용 가능한지 여부(스텝 201), 예컨대 음성 인식 또는 음성 합성이 로컬하게 실행될 수 있는지 여부에 대해 [로컬 다이알로그 관리자(103)를 통해] 결정이 내려진다. 이 결정에 대해, 로컬 다이알로그 관리자(103)는 인식/합성이 일어나야 하는 리모트 서버를 명백하게 미리 정의할 수 있다(예컨대, 소켓 접속용 IP어드레스, 서블렛(servlet)을 통한 서버 본위 레코드용 URL 어드레스, 또는 직접 접속 또는 IVR로의 접속용 전화 번호). 또한, 로컬 머신이 작업을 실행(또는 효과적으로 수행)하도록 사용가능한 자원 또는 인자를 갖고 있지 않는다는 결정이 헤더 파일로 애플리케이션에 의해 표지한 바와 같이, 자원 요구 사항에 기초하여 로컬 애플리케이션(104)을 실행할 때, 다이알로그 관리자(103)에 의해 행해질 수 있다. 또, 특정한 명령 또는 필요한 기능으로 다이알로그 관리자는 리모트 서버에 자동적으로 접속할 수 있다. 예컨대, 보안 애플리케이션(예컨대, 화자 검증)은 음성 지문이 클라이언트에게 분배되지 않도록 서버측 처리에 자동적으로 스위치될 수 있다. 또한, 로컬 카 내비게이션 시스템은 로컬 머신이 대량의 내비게이션 정보를 저장할 수 없도록 전화기 또는 소켓(socket) 본위 서버를 사용하여 리모트 서버로 자동적으로 스위치될 수 있다.

로컬 처리가 이용 가능하다고 결정된 경우(스텝 201에서 예 결정), 이 처리는 로컬 엔진(102)을 통해 로컬하게 수행된다(스텝 202). 한편, 로컬 처리가 이용 가능하지 않다고 결정된 경우(스텝 201에서 아니오 결정), 리모트 처리(예컨대, 음성 인식/분석)가 수행되는(스텝 205))(일부 사용자/서버 상호 작용도 가능) 관련 특성/파형/정보는 리모트 네트워크 연결 서버에 (IP, LAN, 블루투스, IR, RF를 통하거나 전화 또는 IP 전화를 통해) 자동적으로 전송된다(스텝 204).

로컬 클라이언트에서 리모트 네트워크 연결 서버 등으로의 음성 전송이 다양한 기술을 사용하여 실행될 수 있다는 것을 알 수 있다. 예컨대, 파일, 스트림 또는 패킷의 스트림으로서 파형의 직접 전송될 수 있다. 또, 압축된 파형은 ADPCM 및 APC와 같은 종래 방법을 사용하여 전송될 수 있다. 또한, 스트림의 특성은 참조 문헌으로서 본 명세서에 포함된 방법, 즉 1998년호 Proc. ICASSP의 2권 977 - 980 페이지에 지, 라마스콰이 등(G. Ramasqamy et al.)이 "네트워크 환경에서 음성 인식용 음향 특성의 압축"으로 개시한 설명에 따라 전송될 수 있다. 이 방법은 신호의 재구성은 없이 수신기 측에서 인식(음성 인식, 화자 인식 또는 NLU)을 가능하게 한다. 또, 음성의 전송은 음성 신호를 충분히 감지할 수 있고 심지어 양질의 재생(재생, 보정, 추가로 사람이 처리하거나 또는 기록)을 위해 재구성되게 하는 압축 특성 및 피치 평가에 기초한 코딩 방법을 사용하여 수행될 수 있다. 이러한 코딩 방법은 인식 기능의 저하가 없는 4 kbits/s와 5 kbits/s 사이의 낮은 데이타율로 제공하여야 한다. 그 결과, 대화식 교환이 무선 모뎀 또는 무선 데이타 링크에서 백엔드(서버) 자원과 실시간으로 수행될 수 있다. 다른 방법은 고품질의 재생을 제공하는 유사한 코딩법을 이용될 수 있다. 또, 수신측에서 품질 저하 없이 서버측에서 인식(음성, 화자, NLU)을 허용하는 셉스트럼(cepstra) 특성 및 피치의 압축을 허용하는 방법과 신호의 재구성은 본 발명과 관련하여 활용될 수 있다. 이 재구성은 전사, 에러 정정 또는 사람에 의한 프로세스의 감시를 차후 교정을 하기 위해 (로컬하게 저장될 경우) 서버로부터 나중 재생 또는 클라이언트로부터 재생에 유용하다. 어떤 적합한 압축 방법(코딩 프로토콜)이 사용 가능하다.

압축 또는 코딩 방법(전송 프로토콜 또는 코딩 프로토콜)이 장치들 간에 변화될 수 가 있다. 예컨대, (클라이언트의) 오디오 포획 시스템에서 네트워크 연결된 자원(서버)으로 입력 음성을 발송하는 코딩은 네트워크 연결된 자원(서버)에서 오디오 출력(클라이언트)으로 출력 음성(예컨대, 프롬프트, 재생 또는 TTS)을 발송하는데 사용된 코딩 프로토콜과 다를 수 있다. 실제로, 전자(前者)에서, 재생을 위한 재구성도 중요하지만, 크게 중요하지 않다면, 코딩은 서버 측에 우수한 인식 기능을 제공하도록 최적화되어야 한다. 물론, 비트율(압축율)은 중요하다. 타겟 비트율에 도달하고 유지하도록 견고성(robustness)(에러 비율 - 특성 변형)과 감도 사이에서 압축율의 트레이드-오프(trade-off)가 조정(adapt)될 수 있다. 또, 일부 채널 또는 백그라운드 변형에 견고성이 더하도록 특정 방법을 선택할 수 있다. 한편, 후자의 작업(출력 신호)을 위해, 코딩은 이해도 또는 인식 품질 및 호감도를 위해,또는 음성 또는 오디오의 일부 특수한 특징을 보존하도록 최적화되어야 한다.

로컬 처리(스텝 202) 또는 리모트 처리(스텝 205) 후에, 처리 결과가 수용 가능한지 여부(스텝 203 및 206)에 대해 (로컬 다이알로그 관리자(103) 또는 서버 다이알로그 관리자(108)를 통해) 결정이 내려진다. 처리 결과가 수용할 수 없다고 결정될 경우(단계 203 또는 단계 206에서 부정적 결정), 로컬 클라이언트 또는 리모트 서버는 이러한 처리(스텝 204 및 스텝 207)를 실행할 수 있는 서버로 (IP, LAN, 블루투스, IR, RF를 통하거나 전화기 또는 IP 전화기를 통해 접속하여) 특성 또는 파형을 자동적으로 전송한다. 예컨대, 음성 인식 및 NLU에 대한 결과의 거부는 이 결과가 공지되지 않거나 잘못 인식되거나 모호한 경우에[또는 각 대화 자원(로컬 또는 서버)의 다이알로그 매니저에 관련된 신뢰 측정에 기초] 발생될 수 있다. 로컬 또는 리모트 시스템에서 서버 시스템으로의 자동 접속은, 예컨대 "고속 워드 수용 또는 거부를 위한 디코딩 히스토리 캐쉬에 의존한 개별 또는 화자 클래스를 포함하는 음성 인식용 장치 및 방법"이라는 명칭으로 이티셰리아 등(Ittycheriah et al.)이 출원한 미국 특허 제5,937,383호에서 설명된 기술을 사용하여, 로컬 음성 디코더에 의해 복원된 음향 및 LM(language model) 스코어 레벨을 기초로 하는 것이 좋다(예컨대, 리모트 서버는 이 스코어가 소정의 임계값이하로 될 때 접속함). 신뢰성 또는 인지 발음 또는 질의(다이알로그 중이나 다이알로그 후)를 평가하는 적합한 측정 또는 방법은 대화 시스템에 의해 획득된 결과가 수용 가능한지 여부(다른 시스템이 고려된 경우에)를 결정하는데 사용될 수 있다.

마찬가지로, TTS에 대해서, 로컬 및 리모트 다이알로그 관리자(103,108)는 TTS가 로컬하게 또는 리모트하게 실행될 경우를 결정하도록 텍스트의 복잡도를 검사할 수 있다. 예컨대, TTS는 워드용 발음 규칙이 공지되지 않았거나 텍스트가 복잡한 파싱을 요구할 때 리모트로 수행된다. 다른 예는 TTS가 다양한 악센트, 방언 또는 다른 언어로 발음되어야 할 경우나 사람의 특정한 문장을 모방하도록 되어 있는지 경우이다.

처리가 리모트로 수행된 후, 그 결과는 [스텝 208 : 전화기, IP 어드레스, MAC(media access control) 어드레스 등을 통해] 로컬 클라이언트로 역전송된다. 이것은 출력(즉, 사용자에 대한 음성 출력)이 로컬하게 또는 서버에서 합성될 수 있다는 것을 알려준다. 합성이 서버에서 수행된 경우, 합성된 음성은 로컬 압축 해제를 위해 클라이언트에게 압축 형태(전술한 바와 같은 음성 전송 프로토콜을 사용하여)로 전송될 수 있다. 이것은 코딩 방법이 클라이언트에서 서버로 음성 특성을 전송하는데 사용된 방법과 동일하거나 다를 수 있다는 것을 알려준다. 다른 대안의 예로, 음성은 클라이언트에서 서버(콜백)로의 전화 호출을 통해 설정될 수 있는 연결로, 예컨대 다른 아날로그 PSTN 라인을 지나는 서버에 의해 직접적으로 "방송"될 수 있다.

최근에는, 인식된 음성에 대해 적합한 신뢰할 수 있는 조치를 개발하기 위한 노력이 시작되었다. 예컨대, NIST 및 DARPA에 의해 마련된 "LVCSR Hub5 Workshop" 1996년 4월 29일 - 5월 1일 MITAGS, MD에서는, 각 워드에 대한 신뢰 레벨을 붙이는 여러 방법이 제안되고 있다. 한가지 방법은 단어 의존 특성[발음 훈련의 양, 최소 및 평균 트라이폰 어커런스(triphone occurrence), 언어 훈련 모델에서의 어커런스, 음소(phonemes)/레훼메스(lefemes), 지속 시간, 음향 스코어(빠른 일치 및 세부 일치), 음성(비음성), 문장 의존 특성(신호 대 잡음비, 이야기 속도의 평가, 단어 수 또는 시간당 레훼메스 또는 모음, 언어 모델에 의해 제공된 문장 우도(likelihood), 우도비, 프레임당 정규 평균 우도, 언어 모델에서의 트라이그램 어커런스), 구문 특성에서의 어휘(언어 모델에서의 트라이그램 어커런스) 및 화자 프로파일 특성(악센트, 방언, 성, 나이, 이야기 속도, ID, 오디오 음질, SNR 등)에서 트레인(train)된 결정 트리를 사용하는 것이다. 에러 확률은 트리의 각 분기(leaves)에 대한 트레이닝 데이타에서 계산된다. 이러한 트리를 구축하기 위한 알고리즘은 1993년 Chapman Hal, "분류 및 회기 트리(classification and regression trees)"에서 브레이만 등(Breiman et al.)에 의해 설명되고 있다. 인식시, 모든 특성 또는 소정의 특성은 인식하는 중에 측정되고, 각 워드를 위해 결정 트리는 신뢰도 레벨을 제공하는 분기로 나아간다. 또, 네트 등(Neti et al.)의 1997년 4월, Munich, Germany, ICASSP97에서 "음성 인식의 스택 서치용 가이드로서 워드 본위 신뢰 측정"라는 명칭의 참조 문헌에서, IBM 스택 디코더(로그-우도-실제 평균 증가 로그-우도, 상세 일치, 빠른 일치)에 의해 복원된 스코어에 전체적으로 의존하는 방법에 대해서 설명하고 있다.

LVCSR 프로시딩(proceeding)에서는, 신뢰 레벨을 평가하는 다른 방법이 선형 회기(linear regression) 분석을 통한 프리딕터(predictors)를 사용하여 수행되고 있다. 이 프리딕터는 워드 지속 기간, 언어 모델 스코어, 프레임 당 평균 음향 스코어(베스트 스코어) 및 톱 선택과 동일한 워드를 갖는 NBEST 리스트의 일부가 사용된다. 본 발명의 일실시예에 따르면, 이 2가지 방법(결정 트리를 통해 측정된 신뢰도 레벨 또는 선형 프리딕터를 통해 측정된 신뢰도 레벨)은 음성 인식에 제한되지 않는 어떤 번역 프로세스에서 신뢰 레벨을 체계적으로 발췌하여 결합된다는 것을 알려준다.

이 영역에서 과거 진행 과정 및 진행 속도에 기초해서, 우리는 몇가지 종류의 번역에 대해, 예컨대 0에서 1까지의 신뢰값과 관련지을 수 있는데, 여기서 0은 번역이 실행되지 않을 때를 의미하고, 1은 번역될 구성 요소에 대한 확실성을 의미한다. 이 요소들은 텍스트, 어구, 워드 및 일반적으로 번역하는 재료의 어떤 논리적인 블럭일 수 있다. 전술한 바와 같은 선형 프리딕터 및 결정 트리의 결합은 본 발명을 바람직하게 사용하는 방법이다. 실제로, 일례에서, 화자 인식 엔진에 의해 복원된 스코어[배경 모델 및 코호트(cohorts)의 스코어 뿐만 아니라, 빠른 일치 스코어 및 상세한 일치 스코어]의 누적(accumulation)은 화자가 정확하게 확증된 신뢰 레벨의 결정 트리 및/또는 선형 프리딕터를 형성하는데 사용될 수 있다. 사실상, 화자 식별의 경우에, 이것은 식별 스테이지에 의해 얻어진 식별에 대한 인증을 수행하는 것과 같다.

리모트 서버는 캐쉬에서의 저장을 위해 로컬 클라이언트로 정보, 예컨대 TTS 룰 또는 베이스폼(baseforms), 문법 등을 전송하여, 로컬 장치가 이 정보를 사용하여 로컬하게 유사한 요구를 순차적으로 처리할 수 있다. 로컬 장치가 요구된 자원의 부족으로 인해 특정 작업를 실행할 수 없게 될 수 있기 때문에, 로컬 클라이언트에게 이러한 처리 정보를 전송하도록 하는 서버 다이알로그 관리자(108)에 의한 결정은 리모트 서버와 연결할 때 리모트 서버가 가진 대화 기능에 대해 로컬 장치에 의한 (전술한 바와 같은 등록 프로토콜을 통해) 등록과 맞추어 행해질 수 있다.

이것은 본 발명이 장치(다이알로그 관리자를 통해)에 의해 실행된 대화 기능의 양으로 인해 장치가 시간에 따른 기능 실행(및 예컨대, 시스템에 의해 사용된 너무 많은 동기 포트를 갖는 IVR)에 필요한 자원을 제공할 수 없는 상황에서 실행할 수 있다는 것을 알려준다. 그러므로, 다이알로그 관리자는 대화 시스템 관리 및 로드 관리를 제공하기 위해 실행될 수 있고, 이에 따라 다이알로그 관리자는 다른 대화 시스템이 요구된 기능을 계속 처리하도록 특별한 기능의 실행 중에 결정할 수 있다. 특히, 도 3을 참조하면, 초기에 사용자는 로컬 클라이언트 장치에 음성으로명령을 내리므로, 이 명령은 사전 처리되는데, 예컨대 디지탈화되어 이 디지탈화된 음성 신호의 관련 특성이 발췌된다.(스텝 300). 다른 대안의 예로, 로컬 다이알로그 관리자는 사용자에게 출력하기 위한 합성 음성(TTS)을 생성하도록 로컬 애플리케이션(104)으로부터 요구를 수신할 수 있다(스텝 300). 다이알로그 관리자는 로컬 처리가 실행되어야 하는지(예컨대, 이것이 음성 인식, 다이알로그 관리 또는 음성 합성 여부)를 결정하게 된다(스텝 301). 이 결정은 로컬 대화 기능, 인자 및 자원(전술한 바와 같이)에 기초할 뿐만 아니라, 가용하지만 제한된 로컬 자원(로컬 및 리모트 장치는 동일 기능을 수행할 수 있다고 가정한다)을 사용하여 대화 기능을 수행할 때 도입될 수 있는 가능한 지연과 비교할 때, 네트워크가 네트워크 트래픽 정체로 인해 도입하게 되는 지연 추정에 의거할 수 있다. 그러므로, 예컨대 명령 및 제어 기능은 로컬하게/네트워크 상에서 지연될 우려가 있을 때, 지연을 최소화하기 위해 리모트로/로컬하게 실행될 수 있다. 실제로, 장시간 지연을 다룰 수 있는 질의는 (예컨대, 인터넷 또는 시청각 서치와 같은 지연을 수용할 수 있는 백엔드 기능에 관련되기 때문에) 대화 자원 또는 비용을 최적화하는 시스템(로컬 또는 네트워크)에서 실행될 수 있다.

또, 네트워크 연결이 일시적으로 사용불가능한 경우나 네트워크 연결된 자원이 없는 경우에는, 로컬하게 수행될 수 있는 모든 기능이 실행되게 된다. 다른 기능은 지연 모드(나중에 접속이 재설정될 때) 및 모순 기능에서 실행될 수 있는 기능으로 세분될 수 있다. 전형적인 예는 일반적으로 어드레스 북, 구술을 통한 e-메일 또는 메시지에 대한 응답 또는 구술의 업데이트이다. 또, 애플리케이션은 명령이 로컬인지 지체된 경우를 결정할 수 있는 것이 좋다. 또, 이것은 지체 모드를 갖는 P2P를 고려할 수 있어, 지체 모드 관리자 및 로컬 엔진이 로컬 기능인지 지체 기능인지를 결정한다.

도 3을 참조하면, 다이알로그 관리자가 로컬 처리를 예라고 결정한 경우(스텝 301에서 예 결정), 다이알로그 관리자는 필요한 대화 엔진을 포트에 할당하게 된다(스텝 302). 대화 엔진이 포트에 할당되면, 다이알로그 관리자는 대화 엔진이 원래 할당된 포트에 의해 현재 사용되고 있지 않은 경우 그 엔진을 다른 포트에 할당할 수 있다(스텝 303 : 예컨대, 화자가 최근에 말하는 것이 아니라 듣고 있을 때). 로컬 엔진이 원래 할당된 포트에 다시 필요할 때, 로컬 엔진이 사용가능하지 않다면, 다른 사용가능한 엔진(로컬 또는 리모트 장치)이 활용될 수 있다(스텝 304). 이 동적 할당 프로세스는 다이알로그 관리자가 기능 호출의 전체 지속 기간 동안 각 포트에 대해 대화 엔진을 결정하여 할당하는 종래의 로드 관리와 반대이다.

이것은 예컨대, 음성을 네트워크 서버 또는 장치로 전송하는 관리 및 결정이 (클라이언트 또는 서버의 다이알로그 관리자에 의해) 시스템 관리/로드 밸런싱의 레벨에서 뿐만 아니라 네트워크의 트래픽에 기초할 수 있다. 예컨대, 연결(특히, 인터넷에서 TCP/IP 본위 네트워크 연결)이 오버로드되고 있다면(스텝 305), 새로운 서버 또는 장치가 트래픽에 기초하여 선택될 수 있다(스텝 306). 이것의 결정은 종래의 프로토콜, 예컨대 RSVP(resource reservation protocols)와 같은 VoIP(Voice Over Internet Protocol)에 기초하여 행해질 수 있으며, 이에 따라, 채널이 필요할 때, 이 연결은 해당 서비스 품질의 적절한 보존과 함께 만들어질 수 있다. 그렇지않으면, 리모트 처리가 실행되고(스텝 307), 그 결과는 전술한 바와 같이 복원된다.

이것은 본 명세서에 설명한 시스템 및 방법이 다양하게 인에이블된 음성 및 대화 애플리케이션을 위해 구현될 수 있다는 것을 알려준다. 본 발명은, 특히 NLU/NLG 다이알로그 시스템 뿐만 아니라, 내장형 및 퍼베이시브 컴퓨터 분야의 점증하는 요구에 부응하는데 유용하다. 그러나, 이것은 본 발명이 내장형 시스템에 제한되지 않고, 다양한 애플리케이션을 위해 디플로이(deploy)될 수 있다는 것을 알려준다. 다음의 일실시예가 본 발명의 장점을 설명하게 된다.

예컨대, 스마트폰[예컨대, PDA(personal digital assistant) 기능을 갖는 무선 전화]으로 사용하기 위한 시판되고 있는 내장형 네임 다이얼러가 전형적인 애플리케이션이다. 예컨대, 로컬 클라이언트 장치(100)가 네임 다이얼러 로컬 애플리케이션을 갖는 스마트폰이라고 가정하자. 사용자는 스마트폰의 전자 어드레스 북에 소망하는 이름 및 주소의 리스트를 로컬하게 저장한다. 이후, 사용자는 가능한 한정자(qualifier)(집, 사무실, 셀 폰) "...에서 이름과 성을 다이얼하라"와 같은 명령을 말할 수 있고, 명령이 [로컬 대화 엔진(102)을 통해서] 인식/이해될 때, 스마트폰은 주소록에 있는 사람과 결합된 전화 번호를 [로컬 애플리케이션(104)를 통해] 자동적으로 다이얼한다. 한편, 주소록 내에 없지만(그러므로, 인식/이해되지 않음), 대기업(또는 공공 기업) 디렉토리 내[리모트 서버(106)에 포함됨]에 있는 이름이 말해질 때, 요구는 (특성 또는 파형으로) 저장되고 인식을 위해 리모트 서버(106)로 전송될 수 있다. 이후, 다이얼링은 리모트 서버로부터 적절한 정보를 수신할 때 리모트 서버 또는 스마트폰에 의해 직접 실행될 수 있다. 다른 대안의 예로, 사용자는 제1 실시예에 있는 리모트 서버에 연결될 수 있고, (화이트 또는 옐로우 페이지 형태의 서비스 경우에) 또 다른 정보를 문의하거나 다이얼될 이름을 재요구하도록 다이알로그를 설정할 수 있다.

본 발명의 또 다른 사용 가능한 애플리케이션은 시판되고 있는 PointCast(http://www.pointcast.com 참조)와 같은 개인 정보 시스템에 관한 것으로, 예컨대 사용자가 소정의 사용자 즐겨 찾기에 기초하여, 주식 시세, 주제에 대한 특정한 뉴스 및 주제에 대한 최근 공개된 정보를 얻게 한다. 본 발명에 따라 구성된 개인 정보 시스템을 갖고, 사용자가 주식(예컨대, IBM) 또는 주제(예컨대, 켄트에서의 녹색콩 생산 전망)에 대한 정보를 얻기 원할 경우, 사용자는 클라이언트 장치(100)에게 음성으로 요구한다. "IBM"이 로컬 어휘(사용자 프로파일)에 있을 경우, 이것은 즉시 디코드되고, 사용자는 예컨대 최근 업데이트(PointCast)에서 얻어진 최근 시세를 얻게 된다. 한편, "녹색콩"에 관한 사용자 요구가 로컬 클라이언트 장치(100)에 의해 이해되지 않을 경우, 이 요구는 특성 스트림으로 콘텐츠 프로바이더의 리모트 서버(106)로 자동적으로 전송된다. 이 서버는 이러한 요구를 디코딩할 때 더 많은 자원을 투입하고, (어디서든 행할 수 있는) 관련된 정보를 검색한 다음, 이러한 정보를 로컬 시스템으로 전송한다. 이 리모트 서버 시스템이 "푸시 어프로치(push approach)"을 따르면, 이것은 다음 업데이트(예컨대, Pointcast)에서 행해질수 있다.

또한, 로컬 클라이언트 장치(100)는, 예컨대 대화형 카 내비게이션을 제공하기 위한 음성 인식 가능 PVA(personal vehicle assistant)일 수 있다. 예컨대, 사용자가 (공간 부족, 전력 요건, 하중, 비용, 쇼크에 대한 저항 등으로 인해) 이 시스템에 CD-ROM을 사용하기를 원하지 않을 경우, 사용자는 사용자가 현재 있는 곳, 사용자가 최근에 있었던 곳, 사용자가 여행을 원하는 곳의 지역/위치에 관련된 어휘 및 지도와 같은 한정된 정보를 저장하도록 결정할 수 있다. 일례로, 사용자 요구가 로컬 어휘 및 지도 세트와 일치되지 않을 때마다, 이 요구는 리모트 서버(106)에 자동적으로 전송되어, 카에 다운로드된 여정(itinerary), 지도(또는 지도 업데이트)를 갖고 디코드(서치를 좁히기 위해 사용자에게 신속히 되돌림)될 수 있다. 또, 이러한 작용은 초기에 로컬 로드(loacal road)만을 필요로 하는 사용자에게 (다운로드하는데 비용이 들더라도) 효과적임이 명백하다.

또, NLU/FSG 시스템은 본 발명에 따라 설계되어, 사용자의 요구가 FSG(finite state grammar)를 필요로 할 경우, 이 요구는 요구가 매우 복잡하고 자연스럽지 않아, 인식을 위해 리모트 서버로 요구를 전송할 필요가 없는 한, 로컬하게 처리할 수 있다.

회사형 네임-다이얼러 서비스는 다른 흥미로운 특징을 제공한다. 회사는 고용인용 전화 번호의 실제 데이타베이스를 보유하게 된다. 이들 데이타베이스는 항상 날짜에 의존한다. 주기적으로 사용자는 회사 데이타베이스와 이 로컬 정보를 동기화하도록 선택할 수 있다. 이것이 전형적인 개념이다. 그러나, 사용자가 네임 다이얼러를 활용하고 TCP/IP를 통해 서버에 연결할 필요가 있을 때, 이 동기화는 로컬 다이얼링 정보가 항상 업데이트되도록 음성 인식 단계 중에 행할 수 있다. 유사하게, 사용자가 사용자의 로컬 지도에 포함되지 않은 새로운 위치에 대한 내비게이션를 위해 정보를 요구할 때, 시스템은 사용자가 여행하기 원하는 지역에 대한 내비게이션 정보 세트 뿐만 아니라, 로컬 PVA에서 음향 정보를 다운로드할 수 있다.

또한, 도 1의 시스템은 "대화형 브라우저 및 대화형 시스템"이라는 명칭으로 동시에 출원된 IBM 문서 번호 Y0998-392P에 기재된 대화형 브라우저 시스템으로 구현될 수 있다. 시각적인 디스플레이를 위해 HTML(hypertext markup language) 페이지와 개념이 유사하고, 컨텐츠 프로바이더(서버)에서 전송되고, (대화 브라우저에 의해 처리되는) CML(conversational markup language) 페이지는, 사용자에게 제시될 대화 UI를 설명하는데 사용된다. 일례로, 대화 브라우저는 로컬 클라이언트 장치(100)의 로컬 애플리케이션(104) 및/또는 리모트(IVR) 서버(106)에 있는 서버 애플리케이션(109)일 수 있다. 이것은 (작업이 로컬 자원용으로는 너무 복잡하거나, 너무 많은 정보가 네트워크를 통해 전송되기 때문에) 사용자가 제공해야 하는(예컨대, 구술을 통해 채워질 양식 또는 프리 양식에 대한 NLU 또는 FSG 입력) 소정의 항목이 로컬 인식을 위해 모든 데이타를 로컬 클라이언트 장치(100)에 제공하기보다 서버(106)에서 인식되어야 한다는 결정을 하도록 콘텐츠 프로바이더 또는 애플리케이션 개발자(또는 프록시/트랜스코더)용으로 가능하다. 예컨대, 이것은 처리가 발생될 서버를 표시하도록 CML 파일에 있는 URL(균일 대화 자원로케이터) 및 태그를 제공하거나, 오디오를 포획하고, 일부 대화 기능을 가능하게 수행하고, 다른 기능(통상, 이것은 페이지의 저자에 의한 결정)을 위해 다른 장치에 이것을 발송하는 CML 페이지에 애플렛, Active X 구성 요소 또는 플러그 인(또는 이것을 변경하는 무엇이든지)을 로딩함으로써 행해질 수 있다. 이 결정은 IBM 문서 번호 Y0998-392P에 설명한 바와 같은 트랜스코더 및 등록 메카니즘에 의해 자동적으로 수행될 수 있으며, 이에 따라 브라우저는 CML 페이지를 페치(fetch)하는 서버의 기능을 명백하게 설명한다. 트랜스코더가 브라우저의 기능을 추가적으로 고려하고, 이러한 기능(이 기능은 대화 프록시라 부름)에 콘텐트를 적용하는데 사용될 때, 트랜스코더는 브라우저 기능에 기초하여 현재의 서버를 재지향하도록 서버 URL을 추가할 수 있다. 이러한 경우에, 로컬 클라이언트 장치(100)에 의해 수집된 음성은 인식이 발생하는 리모트 서버(106) 또는 네트워크 연결된 서버(110) 중 하나(또는 NLU/NLG)에 파형(압축되거나 압축되지 않을 수도 있음) 또는 특성의 스트림으로서 전송될 수 있다. 이때, 인식 결과는 다음 코스의 작용 또는 추가 처리를 결정하기 위해 로컬 클라이언트 장치(100) 또는 CML 프로바이더 서버[리모트 서버(106)]로 역전송될 수 있다. 전술한 바와 같이, 이것은 제공된 입력, 메뉴 형태 또는 다이알로그의 인식을 위해 사용될 자원/엔진/서버 또는 로컬 머신의 URL를 직접적으로 구성하는 애플리케이션에 의해 결정될 수 있다. 또, 본 발명은 CML 페이지가 로컬 머신(102)의 로컬 대화 엔진(102)용으로 너무 복잡해서 사운드 또는 텍스트를 재생/합성해야 하는 환경에서 유용하다. 너무 복잡한 부분은 특정 서버(CML 페이지를 제공한 서버이거나 아닐 수도 있음)로부터의 특성 스트림 또는 압축된 파형으로서 파악될 수 있다. 또, 복수의 언어 시스템에 대해, CML 페이지가 다른 언어를 포함할 경우, 적합한 기능이 없이 로컬 클라이언트 장치(100)는 리모트 서버가 그 언어의 대화 기능을 수행하도록 요구할 수 있다.

이것은 대화 협동이 대화 브라우저를 가진 분산 애플리케이션에서 사용될 수 있음을 알 수 있다. 예컨대, 도 4를 참조하면, (참조된 Y0998-392P에 설명한 바와 같이) 프리젠테이션 서버(400)를 갖는 분산 시스템, 엔진 서버(401), 대화 브라우저(403)를 갖는 클라이언트(402)일 수 있다. 브라우저(403)는 프리젠테이션 서버(400)로부터 CML의 페이지를 수신하고, CML 페이지를 처리한다. CML 페이지는 브라우저(403)가 처리를 위해 음성을 전송하도록 결정하게 하는 정보를 포함할 수 있다. 음성 서버는 엔진 서버(401)에 배치되어 있다. CML 페이지가 엔진 서버(401)에 의한 음성의 처리를 필요로 한다고 가정하면, 브라우저(403)는 음성 서버에 오디오를 발송하고 적합한 데이타 파일 명령 및 엔진 호출을 전송하기 위해 HTTP(또는 소켓 또는 RMI)를 통해 음성 서버와 통신(호출 전송)할 수 있다. 클라이언트의 브라우저(403)는 [음성 API 및 음성 인식 엔진(405)를 통해] 음성 처리를 수행하기 위해 소정의 로컬 처리 기능을 갖는 것으로 가정된다. 전술한 바와 같이, 로컬 음성 처리과 서버측 음성 처리 간의 시프트는 프리젠테이션 서버(400)로부터 수신된 CML 페이지에 의해 결정된다. 이 결정은 콘텐츠 프로바이더 또는 장치에 대한 어댑테이션(adaptation)에 의해 코드될 수 있다[클라이언트(402)는 작업을 수행할 수 있도록 결정하고, 공지되거나 발견된 서버 또는 트랜스코더에 전송한다].

도 5에서, 브라우저(403)는 클라이언트(402)에 의해 억세스되는 브라우저 서버(404)에 배치된다[브라우저 서버(404)는 클라이언트(402)와 프리젠테이션 서버(400) 사이의 중개자로서 작용한다]. 또, 브라우저(403)는 로컬 처리 또는 서버측 처리를 수행할 지 결정한다. 오디오는 본 명세서에서 설명한 바와 같이 대화 코딩을 사용하여 발송될 수 있다.

본 발명은 저급 리소스 클라이언트 장치가 로컬하게 간단한 작업 뿐만 아니라, 더 복잡한 대화 기능을 갖는 서버(또는 다른 장치)와 이진 또는 아날로그 연결한 복잡한 작업을 투명하게 수행하도록 한다. 서버측 기능(음성 인식과 같은)은 일반적인 IP 네트워크 또는 LAN 네트워크 뿐만 아니라, 종래 전화선 또는 패킷 스위치된 네트워크상에서 디지탈 전송을 통해 또는 무선 네트워크상에서 종래의 무선 데이타 프로토콜을 통해 수행될 수 있다. 아날로그/디지탈 접속 실시예는 적어도 2가지 시나리오로 설명된다. 먼저, 이것은 모뎀과 동등하게 구현되고, 모든 기능이 데이타 전송 기능인 이진 연결이다. 또, 서버/분산 자원이 포함될 때, 이 시스템은 자원로서 전화 서버를 호출할 수 있고, 음성은 (이것의 파형 데이타 또는 이것의 변환 대신에-예컨대, 셉스트라) 네트워크상에서 전송된다. 이러한 시나리오의 일례는 음성에 의해 인터넷을 브라우징하고, 주식/뮤추얼 펀드 시세를 파악하고, 은행 거래를 실행하는 음성과 같이, 다른 기능을 위해 일반적인 무선 접속을 통해 IVR을 갖는 전화 서버와 연결하는 로컬 음성 인식 기능(네임 다이얼러 및 디지트 다이얼러)을 갖는 무선 연결이다. 이 메카니즘은 장치에서 소정의 음성 인식 기능을 갖도록 장착된 기존의 셀 전화로 사용될 수 있다.

또, 다양한 메카니즘이 네트워크를 통해 상호 대화의 적합한 다이알로그 흐름을 보장하기 위해 네트워크를 통해 분산되는 트래픽 및 자원을 관리하는데 사용될 수 있다. 이러한 메카니즘은 대화 프로토콜(전술한 바와 같은), 오디오 : RecoVC(Recognition Compatible VoCoder)(재생용 재구성을 허용하는 피치를 갖는 코딩 프로토콜), 애플리케이션 및 메타 정보:다이알로그 흐름을 유지하기 위해 분산된 응용 프로토콜, 디스커버리, 등록, 내비게이션, 서버 로드 관리, 다이알로그 흐름을 유지하는 트래픽 밸런싱 및 라우팅, 작업 특징 및 기능 요구 및 대화 인자 효율성(데이타 파일)에 기초한 엔진 서버 선택, 대화 인자 분산: 저장, 트래픽/라우팅 및 캐싱을 포함한다.

전술한 실시예가 첨부하는 도면을 참조하여 여기에 설명되었을지라도, 본 시스템 및 방법이 이들 정확한 실시예에 한정되지 않고, 다양한 다른 변경 및 수정은 본 발명의 범위 또는 사상으로부터 벗어나지 않고, 해당 기술의 당업자가 충분히 이해할 수 있다. 모든 이러한 변경 및 수정은 첨부한 청구항에 의해 한정되도록 의도된다.

Claims

대화 자원을 자동적으로 협동 공유하기 위한 시스템으로서,

적어도 제1 네트워크 장치 및 제2 네트워크 장치를 구비하는 네트워크를 포함하고,

상기 제1 네트워크 장치 및 상기 제2 네트워크 장치는 각각,

대화 자원 세트와;

대화를 관리하고 대화 서비스를 요구하는 호출을 실행하기 위한 다이알로그 관리자와;

상기 네트워크 상에서 대화 프로토콜을 사용하여 메시지를 전달하기 위한 통신 스택을 각각 포함하며,

상기 대화 프로토콜을 사용하여 전달된 메시지는, 상기 제1 네트워크 장치 및 상기 제2 네트워크 장치의 다이알로그 관리자간에 협동 네트워크 통신을 설정하는 상기 제1 네트워크 장치 및 상기 제2 네트워크 장치의 상기 대화 자원 세트를 자동적으로 공유하여, 필요시, 각자의 요구된 대화 서비스를 수행하는 것인 대화 자원 자동 공유 시스템.
제1항에 있어서,

상기 제1 네트워크 장치 및 상기 제2 네트워크 장치의 대화 자원 세트는 적어도 하나의 음성 인식 엔진, 화자 인식 엔진, 문자-음성 합성(TTS)엔진, 자연어 인식 엔진(NLU), 자연어 생성 엔진(NLG), 음성 포착 및 압축/압축해제 엔진, 주제 인식 엔진, 오디오/멀티미디어 인덱싱 및 검색 엔진, 및 이들의 조합을 포함하는 것인 대화 자원 자동 공유 시스템.
제1항에 있어서,

상기 대화 프로토콜은 상기 제1 네트워크 장치 및 상기 제2 네트워크 장치의 다이알로그 관리자로 하여금 각자의 대화 상태, 인자 및 구문을 구비하는 정보를 교환하고, 다이알로그 구성 요소를 교환 가능하게 하는 협동 프로토콜을 포함하는 것인 대화 자원 자동 공유 시스템.
제3항에 있어서,

상기 협동 프로토콜은 상기 제1 네트워크 장치 및 상기 제2 네트워크 장치의 다이알로그 관리자간에 매스터/슬레이브 및 P2P(peer-to-peer) 네트워크 통신 중 하나와 협동하는 것인 대화 자원 공유 시스템.
제1항에 있어서,

상기 대화 프로토콜은 상기 제1 네트워크 장치 및 상기 제2 네트워크 장치로 하여금 네트워크에서 대화 인식 장치 및 애플리케이션을 찾는 것을 가능하게 하는 디스커버리 프로토콜을 포함하는 것인 대화 자원 공유 시스템.
제5항에 있어서,

상기 디스커버리 프로토콜은 "방송(broadcast) 및 청취(listen)" 방법(methodology)으로 구현(implement)되는 것인 대화 자원 공유 시스템.
제6항에 있어서,

상기 디스커버리 프로토콜은 적어도 상기 제1 네트워크 장치 및 상기 제2 네트워크 장치간에 동적 네트워크 및 자발성 네트워크를 설정하도록 구현되는 것인 대화 자원 공유 시스템.
제1항에 있어서,

상기 대화 프로토콜은 대화 자원, 기능 및 요구 사항에 관한 정보를 교환하기 위한 등록 프로토콜을 포함하는 것인 대화 자원 공유 시스템.
제8항에 있어서,

상기 대화 프로토콜은 각자의 대화 자원 및 기능에 기초하여 상기 제1 네트워크 장치 및 제2 네트워크 장치간에 네트워크 구성을 설정하도록 정보를 교환하기 위한 협상 프로토콜을 포함하는 것인 대화 자원 공유 시스템.
제9항에 있어서,

상기 네트워크 구성은 매스터/슬레이브 네트워크 중 하나를 포함하고, 상기 제1 네트워크 장치 및 제2 네트워크 장치 중 하나의 다이알로그 관리자는 상기 제1 네트워크 장치 및 제2 네트워크 장치와 P2P 네트워크 모두의 대화 자원을 제어하고, 상기 제1 네트워크 장치 및 제2 네트워크 장치의 다이알로그 관리자는 대화 자원을 제어하기 위해 협상하는 것인 대화 자원 공유 시스템.
제1항에 있어서,

상기 대화 프로토콜은 상기 제1 네트워크 장치 및 제2 네트워크 장치간에 압축 음성 파형, 압축 음성 특성 및 압축 결과 중 하나를 전송하기 위한 음성 전송 프로토콜을 포함하는 것인 대화 자원 공유 시스템.
대화 자원을 자동적으로 협동 공유하기 위한 시스템으로서,

로컬 대화 자원을 관리하고, 대화 서비스를 위한 요구를 처리하고, 대화 서비스를 위한 요구가 상기 로컬 대화 자원을 사용하여 수행될 수 있는지를 결정하기 위한 다이알로그 관리자 및 상기 로컬 대화 자원을 구비하는 클라이언트와,

서버 대화 자원을 구비하는 서버를 포함하고,

상기 클라이언트의 다이알로그 관리자는 상기 요구된 대화 서비스가 로컬 대화 자원을 사용하여 수행될 수 없는 경우, 상기 서버 대화 자원을 사용하여 상기 요구를 처리하기 위해 상기 서버에 자동적으로 억세스되는 대화 자원 자동 공유 시스템.
네트워크 장치간에 대화 자원을 자동적으로 협동 공유하기 위한 방법으로서,

제1 네트워크 장치에 의해 대화 서비스를 하기 위한 요구를 수신하는 단계와,

상기 제1 네트워크 장치에 의해 상기 제1 네트워크 장치의 대화 자원을 로컬하게 사용하는 것, 적어도 제2 네트워크 장치의 대화 자원을 리모트로 사용하는 것, 또는 상기 로컬 대화 자원 및 리모트 대화 자원 모두를 로컬 및 리모트로 사용하는 것 중 하나로 상기 요구된 대화 서비스를 처리할지 여부를 결정하는 단계와,

상기 대화 서비스가 적어도 상기 제2 네트워크 장치의 대화 자원을 사용하여, 적어도 부분적으로 리모트 처리되도록 결정된 경우, 상기 적어도 제2 네트워크 장치와 자동적으로 통신하는 단계를 포함하는 방법.
제13항에 있어서,

대화 자원을 공유하기 위한 상기 제1 네트워크 장치 및 적어도 제2 네트워크 장치간에 협동 네트워크 통신을 설정하도록 대화 프로토콜을 사용하여 메시지를 전송하는 단계를 더 포함하는 것인 방법.
제13항에 있어서,

상기 결정 단계는 로컬 대화 자원이 요구된 대화 서비스를 처리할 수 있는지 여부를 결정하기 위한 단계를 구비하고,

상기 로컬 대화 자원이 상기 대화 서비스를 처리할 수 있다고 결정한 경우 상기 로컬 대화 자원을 사용하여 상기 요구된 대화 서비스를 실행하는 단계와,

상기 로컬 처리의 결과가 수용할 수 있는 지를 결정하는 단계와,

상기 로컬 처리의 결과가 수용될 수 없는 경우 상기 요구된 대화 서비스를 리모트로 처리하도록 상기 적어도 제2 네트워크 장치에 자동적으로 억세스하는 단계를 더 포함하는 것인 방법.
제13항에 있어서,

상기 결정 단계는 상기 적어도 제2 네트워크 장치가 상기 제1 네트워크 장치에 의해 상기 대화 서비스를 처리하도록 사전 지정되었는지 여부를 결정하는 단계를 포함하는 것인 방법.
제13항에 있어서,

상기 결정 단계는 상기 제1 네트워크 장치 및 상기 적어도 제2 네트워크 장치간에 네트워크 연결 가용도(availability) 및 네트워크 트래픽 중 하나에 기초하는 것인 방법.
제14항에 있어서,

상기 자동 억세스 단계는 상기 대화 프로토콜을 사용하여 메시지를 전송함으로써, 적어도 상기 제2 네트워크 장치와 네트워크 연결을 자동적으로 설정하는 단계와,

압축 음성 특성 및 압축 파형 중 하나를 적어도 상기 제2 네트워크 장치 중 하나에 전송하는 단계를 포함하는 것인 방법.
머신에 의해 판독가능하고, 상기 머신에 의해 실행할 수 있는 프로그램의 명령을 유형적으로 실시하여 네트워크 장치간에 대화 자원을 자동으로 협동 공유하기 위한 방법 단계를 수행하도록 하는 프로그램 저장 장치로서,

상기 방법은,

제1 네트워크 장치에 의해 대화 서비스를 위한 요구를 수신하는 단계와,

상기 제1 네트워크 장치에 의해 상기 제1 네트워크 장치의 대화 자원을 로컬하게 사용하는 것, 적어도 제2 네트워크 장치의 대화 자원을 리모트로 사용하는 것, 또는 상기 로컬 대화 자원 및 리모트 대화 자원 모두를 로컬 및 리모트로 사용하는 것 중 하나로 상기 요구된 대화 서비스 처리할지 여부를 결정하는 단계와,

상기 대화 서비스가 적어도 상기 제2 네트워크 장치의 대화 자원을 사용하여 리모트로 적어도 일부를 처리할 것을 결정하는 경우 상기 적어도 제2 네트워크 장치와 자동적으로 통신하는 단계를 포함하는 프로그램 저장 장치.
삭제
삭제
삭제
삭제
삭제