KR20060018888A

KR20060018888A - 캐시 특징을 갖는 분배형 음성 인식 시스템 및 방법

Info

Publication number: KR20060018888A
Application number: KR1020057023818A
Authority: KR
Inventors: 시탈 알. 샤; 프래틱 데사이; 필립 에이. 스켄트럽
Original assignee: 모토로라 인코포레이티드
Priority date: 2003-06-12
Filing date: 2004-06-09
Publication date: 2006-03-02
Also published as: WO2004114277A2; JP2007516655A; BRPI0411107A; US20040254787A1; CA2528019A1; WO2004114277A3; MXPA05013339A; IL172089A0

Abstract

본 발명은 음성 인식 및 명령 능력이 개선된 셀룰러 전화 또는 다른 통신 디바이스(102)에 관한 것이다. 셀룰러 핸드세트는, 음성 검출 및 명령 디코딩을 개선하기 위하여 디지털 신호 처리 또는 다른 하드웨어(106, 108)를 구비할 수 있으나, 상기 디바이스 상에서 이용 가능한 전자 메모리 또는 다른 저장 장치의 용량에 관하여 여전히 상대적으로 제약될 수 있다. 실시예들에서, 셀룰러 핸드세트 또는 다른 디바이스는, 예를 들면, 인터넷 또는 디렉토리를 통한 음성 브라우징 기능을 수행하기 위하여 음성 또는 다른 명령의 제 1-스테이지 디코딩(406)을 수행할 수 있다. 핸드세트는, 이미 디코딩된 명령들, 서비스들 및 모델들의 로컬 메모리 캐시에 대하여 검출된 명령(140) 또는 서비스의 검색(408)을 수행할 수 있으며, 만일 매칭이 발견되면, 소망된 서비스를 바로 수행한다. 만일 디바이스 메모리에서 매칭이 발견되지 않으면, 음성 신호는, 명령 또는 액션을 원격적으로 또는 분배형으로 디코딩하기 위하여 셀룰러 또는 다른 네트워크의 서버(122) 또는 다른 리소스에 통신될 수 있다. 서비스가 핸드세트로 리턴될 때, 서비스는 장래의 액세스를 위해 캐싱 형식(416)으로 추가 액세스를 위한 전자 메모리 또는 다른 저장 장치에 저장될 수 있다. 사용자의 최근 사용하거나 가장 자주 사용하는 명령들 및 서비스들은, 예를 들면, 명령들 또는 서비스들 내의 응답 시간들을 촉진하기 위하여 상기 디바이스 상에 국부적으로 저장될 수 있다.

핸드세트, 음성 신호, 캐시 특징, 음성 특징 벡터, 저장 장치

Description

캐시 특징을 갖는 분배형 음성 인식 시스템 및 방법{System and method for distributed speech recognition with a cache feature}

본 발명은 통신 분야에 관한 것이며, 보다 상세하게는 셀룰러 전화 또는 다른 디바이스와 같은 이동 유닛이 음성 또는 다른 서비스들에 대한 음성-인식 모델들을 휴대형 디바이스 상에 저장하는 분배형 음성 인식 시스템들에 관한 것이다.

많은 셀룰러 전화들 및 다른 통신 디바이스들은 지금 음성 명령들을 디코딩하고 음성 명령들에 응답하는 능력을 갖는다. 이들 음성 인에이블 디바이스들에 대한 애플리케이션들은, 예를 들면, VoiceXML 또는 다른 인에이블 기술들을 사용하는 인터넷 상의 음성 브라우징, 음성 활성 다이얼링 또는 다른 디렉토리 애플리케이션들, 음성-대-텍스트 또는 텍스트-대-음성 메시징 및 검색을 포함하도록 제안되었다. 많은 셀룰러 핸드세트들은, 예를 들면, 음성 검출 알고리즘들 및 다른 기능들을 개선할 수 있는 내장형 디지털 신호 처리(DSP) 칩들을 갖추고 있다.

사용자들에게 있어서 음성-인에이블 기술들의 효용성 및 편리성은, 음성이 디코딩되는 정확성뿐만 아니라 음성 검출의 응답 시간 및 사용자에 의하여 선택된 서비스들을 검색하기 위한 지연 시간을 포함하는 다양한 인자들에 의하여 영향을 받는다. 음성 검출 그 자체와 관련하여, 많은 셀룰러 핸드세트들 및 다른 디바이 스들은 음성 성분들을 분석 및 식별하기에 충분한 DSP 및 다른 처리 능력을 포함할 수 있는 반면에, 강인한 음성 검출 알고리즘들은, 음성 성분들 및 명령들을 가장 효율적으로 식별하기 위해 중요한 메모리 또는 저장 장치들의 상당한 용량을 요구하는 복합 모델들을 포함하거나 필요로 할 수 있다. 셀룰러 핸드세트들은, 예를 들면, 이러한 형태의 음성 루틴들을 완전하게 이용하기 위하여 랜덤 액세스 메모리(RAM)를 전형적으로 갖추지 않을 수 있다.

이들 고려사항들의 부분적인 결과로서, 음성 검출 활동 및 관련 프로세싱의 부분 또는 모두가 네트워크, 특히 이동 핸드세트와 통신하는 네트워크 서버 또는 다른 하드웨어로 오프로드(offload)될 수 있는 임의의 셀룰러 플랫폼들이 제안 또는 구현되었다. 이러한 형태의 네트워크 구조들의 예가 도 1에 예시된다. 도 1에 도시된 바와 같이, 마이크로폰 장착 핸드세트는 음성 음소(phoneme)들 및 다른 성분들을 디코딩 및 추출할 수 있으며, 이들 성분들을 무선 링크를 통해 네트워크에 통신한다. 일단 음성 특징 벡터가 네트워크 측에서 수신되면, 서버 또는 다른 리소스들은 메모리로부터 음성, 명령 및 서비스 모델들을 검색하고, 상기 모델들과 수신된 특징 벡터를 비교하여, 매칭, 예를 들면, 전화번호에 대한 검색을 수행하라는 요청이 발견되는지를 결정한다.

만일 매칭이 발견되면, 네트워크는, LDAP 또는 다른 데이터베이스로부터, 예를 들면, 공중 전화 번호를 검색하기 위하여 그 히트(hit)에 따라 음성, 명령 및 서비스 모델을 분류할 수 있다. 그 결과들은, 예를 들면, 음성 메뉴 또는 메시지와 같이 들을 수 있게 또는, 예를 들면, 디스플레이 스크린 상의 텍스트 메시지와 같이 볼 수 있게 사용자에게 제공되도록 핸드세트 또는 다른 통신 디바이스에 다시 통신될 수 있다.

분배형 인식 시스템이, 지원될 수 있는 음성, 명령 및 서비스 모델들의 수 및 타입을 확대할 수 있는 반면에, 이러한 구조에는 단점들이 존재한다. 이러한 서비스들을 호스트하고 모든 명령들을 프로세싱하는 네트워크들은 이러한 데이터를 프로세싱하는 이용 가능한 무선 대역폭의 상당량을 소비할 수 있다. 이들 네트워크들은 실행하는데 있어서 비용이 많이 들 수 있다.

또한, 이동 유닛에서 네트워크까지 비교적 고용량 무선 링크들이 존재할지라도, 사용자의 구두의 명령과 핸드세트 상에서의 소망된 서비스의 가용성 간에 어느 정도의 지연 시간은 피할 수 없을 수 있다. 다른 문제들이 존재한다.

당분야의 이들 및 다른 문제점들을 극복하는 본 발명은, 캐시 특징을 갖는 분배형 음성 인식 시스템 및 방법에 관한 것이며, 여기서 다른 통신 디바이스들의 셀룰러 핸드세트는, 제 1스테이지 특징 추출을 수행하고 핸드세트에 대한 구두의 음성 신호들을 디코딩하도록 구성될 수 있다. 실시예들에서, 통신 디바이스는 사용자에 의하여 액세스되는 마지막 10, 20개 또는 다른 수의 음성, 명령, 또는 서비스 모델들을 핸드세트 자체의 메모리에 저장한다. 새로운 음성 명령이 식별될 때, 명령 및 연관된 모델은 메모리 내의 모델들의 캐시에 대하여 검사될 수 있다. 히트가 발견될 때, 프로세싱은 로컬 데이터에 기초하여 음성 브라우징 등과 같은 소망된 서비스로 바로 진행할 수 있다. 히트가 발견되지 않을 때, 통신 디바이스는, 연관된 모델들의 분배형 디코딩 및 원격 디코딩 및 생성을 위하여 추출된 음성 특징들을 네트워크에 통신할 수 있으며, 상기 모델들은 사용자에게 제공되도록 핸드세트로 리턴될 수 있다. 최근의 최고 빈도수 및 다른 큐잉 규칙들은, 예를 들면, 가장 오래된 모델 또는 서비스를 로컬 메모리로부터 삭제하여, 새로이 액세스된 모델들을 핸드세트에 저장하는데 사용될 수 있다.

본 발명은, 동일한 요소가 동일한 도면부호를 갖는 첨부도면들을 참조하여 상세히 기술될 것이다.

도 1은 종래 실시예에 따른 분배형 음성 인식 구조를 예시한 도면.

도 2는 캐시 특징을 갖는 분배형 음성 인식 시스템이 본 발명의 실시예에 따라 동작할 수 있는 구조를 예시한 도면.

도 3은 본 발명의 실시예에 따른, 네트워크 모델 저장 장치에 대한 예시적인 데이터 구조를 예시한 도면.

도 4는 본 발명의 실시예에 따른 전체 음성 인식 프로세싱의 흐름도.

도 2는, 통신 디바이스(102)가 음성, 데이터 및 다른 통신을 위하여 네트워크(122)와 무선으로 통신할 수 있는 본 발명 실시예에 따른 통신 구조를 예시한다. 통신 디바이스(102)는 예를 들면, 셀룰러 전화, PDA(Personal Digital Assistant) 또는 IEEE 802.11b 또는 다른 무선 인터페이스를 구비한 PIM(Personal Information Manager)와 같은 네트워크 인에이블 무선 디바이스, 802.11b 또는 다른 무선 인터 페이스를 구비한 랩탑 또는 다른 개인 휴대 컴퓨터, 또는 다른 통신 또는 클라이언트 디바이스들을 포함할 수 있다. 통신 디바이스(102)는, 예를 들면, 800/900 MHz, 1.9GHz, 2.4GHz 또는 다른 주파수 대역들로 또는 광 링크 또는 다른 링크들에 의하여 안테나(118)를 통해 네트워크(122)와 통신할 수 있다.

통신 디바이스(102)는, 사용자로부터 음성 입력을 수신하기 위하여 입력 디바이스(104), 예를 들면 마이크로폰을 포함할 수 있다. 음성 신호들은, 음성 성분들을 분리하여 식별하고 잡음을 억제하며 다른 신호 처리 또는 다른 기능들을 수행하기 위하여 특징 추출 모듈(106)에 의하여 프로세싱될 수 있다. 본 실시예들에서, 특징 추출 모듈(106)은, 음성 검출 및 다른 루틴들을 수행하도록 프로그래밍된 마이크로프로세서 또는 DSP 또는 다른 칩을 포함할 수 있다. 예를 들면, 특징 추출 모듈(106)은 "예", "아니오", "다이얼", "이메일", "홈 페이지", "브라우즈" 등과 같은 개별 음성 성분 또는 명령들을 식별할 수 있다.

일단 음성 명령 또는 다른 성분이 식별되면, 특징 추출 모듈(106)은 하나 이상의 특징 벡터 또는 다른 음성 성분들을 패턴 매칭 모듈(108)에 통신할 수 있다. 패턴 매칭 모듈(108)은 마찬가지로 음성, 명령, 서비스 또는 다른 모델들과 같은 공지된 모델들에 대한 음성 성분들의 매칭을 포함하여 데이터를 프로세싱하는 마이크로프로세서, DSP 또는 다른 칩을 포함할 수 있다. 실시예들에서, 패턴 매칭 모듈(108)은 특징 추출 모듈(106)과 동일한 마이크로프로세서, DSP 또는 다른 칩 상에서 실행하는 스레드(thread) 또는 다른 프로세스를 포함할 수 있다.

음성 성분이 패턴 매칭 모듈(108)에서 수신될 때, 상기 모듈은 저장된 음성, 명령, 서비스 또는 다른 모델들의 세트에서 매칭이 발견될 수 있는지의 여부를 결정하기 위하여 결정 포인트(112)에서 로컬 모델 저장 장치(110)에 대한 성분을 검사할 수 있다.

로컬 모델 저장 장치(110)는 예를 들면 전기적 프로그램가능 판독전용 메모리(EPROM) 또는 다른 미디어와 같은 비휘발성 전자 메모리를 포함할 수 있다. 로컬 모델 저장 장치(110)는, 통신 디바이스의 상기 미디어로부터 직접 검색하기 위하여 음성, 명령, 서비스 또는 다른 모델들의 세트를 포함할 수 있다. 실시예들에서, 로컬 모델 저장 장치(110)는, 예를 들면, 통신 디바이스(102)가 먼저 사용되거나 또는 리셋될 때 표준 모델들 또는 서비스들의 다운로드 가능한 세트를 사용하여 초기화될 수 있다.

예를 들면 "홈 페이지"와 같은 음성 명령에 대하여 로컬 모델 저장 장치(110)에서 매칭이 발견될 때, 인터넷 서비스 제공자(ISP) 또는 셀룰러 네트워크 제공자를 통한 사용자의 홈 페이지에 대응하는 URL(Universal Resource Locator)와 같은 어드레스 또는 다른 어드레스 또는 데이터는, 응답 액션(114)을 분류 및 생성하기 위하여 테이블 또는 다른 포맷으로 검색될 수 있다. 실시예들에서, 응답 액션(114)은, 예를 들면, 통신 디바이스(102)로부터 사용자의 홈 페이지 또는 다른 선택 리소스 또는 서비스에 링크하는 단계를 포함할 수 있다. 그 다음에, 추가 명령 또는 옵션들이 입력 디바이스(104)를 통해 수신될 수 있다. 실시예들에서, 응답 액션(114)은 액세스된 리소스 또는 서비스의 사용 중에 VoiceXML 또는 다른 프로토콜들, 이용 가능한 경우 스크린 디스플레이들 또는 다른 포맷들 또는 인터페이 스들을 통해 선택 가능한 음성 메뉴 옵션들의 세트를 사용자에게 제공하는 단계를 포함할 수 있다.

만일 결정 포인트(112)에서 로컬 모델 저장 장치(110)에서의 매칭이 발견되지 않으면, 통신 디바이스(102)는, 장래의 프로세싱을 위하여 네트워크(122)로의 전송(116)을 개시할 수 있다. 전송(116)은 특징 추출 모듈(106)에 의하여 분리되어 안테나(134) 또는 다른 인터페이스 또는 채널을 통해 네트워크(122)에서 수신되는 샘플링된 음성 성분들을 포함할 수 있다. 수신된 전송(124)은, 네트워크(122)의 네트워크 패턴 매칭 모듈(126)에 통신될 수 있는 특징 벡터들 또는 다른 음성 또는 다른 성분들을 포함할 수 있다.

패턴 매칭 모델(108)과 같은 네트워크 패턴 매칭 모듈(126)은 음성, 명령, 서비스 또는 다른 모델들과 같이 공지된 모델들에의 수신된 특징 벡터 또는 다른 음성 성분들의 매칭을 포함하여 데이터를 프로세싱하는 마이크로프로세서, DSP 또는 다른 칩을 포함한다. 네트워크(122)에서 실행되는 패턴 매칭의 경우에, 수신된 특징 벡터 또는 다른 데이터는, 네트워크 모델 저장 장치(128)에 저장된 음성 관련 모델들의 세트와 비교될 수 있다. 로컬 모델 저장 장치(110)와 같이, 네트워크 모델 저장 장치(128)는, 수신된 전송(124)에 포함된 음성 또는 다른 데이터를 검색하여 비교하기 위하여 음성, 명령, 서비스 또는 다른 모델들의 세트를 포함할 수 있다.

결정 포인트(130)에서는, 수신된 전송(124) 및 네트워크 모델 저장 장치(128)에 포함된 특정 벡터 또는 다른 데이터 간에 매칭이 발견되는지의 여부가 결 정될 수 있다. 만일 매칭이 발견되면, 전송된 결과들(132)은 안테나(134) 또는 다른 채널들을 통해 통신 디바이스(102)에 통신될 수 있다. 전송된 결과들(132)은, 디코딩된 특징 벡터 또는 다른 데이터에 대응하는 음성, 명령 또는 다른 서비스에 대한 모델 또는 모델들을 포함할 수 있다. 전송된 결과들(132)은 네트워크 결과들(120)로서 안테나(118)를 통해 통신 디바이스(102)에서 수신될 수 있다. 그 다음에, 통신 디바이스(102)는 네트워크 결과들(120)에 기초하여 하나 이상의 액션들을 실행할 수 있다. 예를 들면, 통신 디바이스(102)는 인터넷 또는 다른 네트워크 사이트에 링크될 수 있다. 실시예들에서, 상기 네트워크 사이트에서, 사용자에게는 선택 가능한 옵션들 또는 다른 데이터가 제공될 수 있다. 네트워크 결과들(120)은 통신 디바이스(102) 자체에 저장되도록 로컬 모델 저장 장치(110)에 통신될 수 있다.

실시예들에서, 통신 디바이스(102)는, 네트워크 결과들(120)에 포함된 모델들 또는 다른 데이터를 비휘발성 전자 또는 다른 미디어에 저장할 수 있다. 실시예들에서, 통신 디바이스(102) 내의 임의의 저장 미디어는, 큐잉 또는 캐시-타입 규칙들에 기초하여 로컬 모델 저장 장치(110)에 대한 네트워크 결과들을 수신할 수 있다. 이들 규칙들은, 예를 들면, 새로운 네트워크 결과들(120)로 대체되도록 로컬 모델 저장 장치(110)로부터의 최근 최소 사용된 모델을 삭제하거나, 유사하게 대체되도록 로컬 모델 저장 장치(110)로부터의 최소 빈도로 사용된 모델을 삭제하거나, 또는 통신 디바이스(102)의 저장 제약들 내에 소망된 모델들을 유지하기 위한 다른 규칙들 또는 알고리즘들을 따르도록 하는 것과 같은 규칙들을 포함할 수 있다.

결정 포인트(130)에서 수신된 전송(124)의 특징 벡터 또는 다른 데이터 및 네트워크 모델 저장 장치(128) 간의 매칭이 발견되지 않는 경우에, 모델 또는 연관된 서비스가 음성 신호에 대응하게 식별될 수 없다는 것을 나타내는 공백(null) 결과(136)가 통신 디바이스(102)에 전송될 수 있다. 실시예들에서, 이 경우에, 통신 디바이스(102)는 "죄송하다", "당신의 응답은 이해되지 않는다" 또는 다른 통지와 같이 액션이 취해지지 않는 가청 또는 다른 통지를 사용자에게 제공할 수 있다. 이 경우에, 통신 디바이스(102)는, 소망된 서비스를 다시 액세스하거나 또는 다른 서비스들을 액세스하거나 또는 다른 액션을 취하기 위하여 입력 디바이스(104) 또는 다른 디바이스를 통하여 사용자로부터 추가 입력을 수신할 수 있다.

도 3은, 테이블(138)에 배열된 네트워크 모델 저장 장치(128)에 대한 예시적인 데이터 구조를 도시한다. 예시적인 실시예에 예시된 바와 같이, 음성 입력의 추출된 특징들에 대응하거나 또는 상기 특징들에 포함된 디코딩된 명령(140)의 세트(디코딩된 명령₁, 디코딩된 명령₂,디코딩된 명령₃,...,디코딩된 명령_N,여기서 N은 임의의 수이다)는 테이블에 저장될 수 있으며, 상기 테이블의 열들(rows)은, 연관된 액션들(142)의 세트(연관된 액션₁, 연관된 액션₂, 연관된 액션₃,..., 연관된 액션_N, 여기서 N은 임의의 수이다)를 포함할 수 있다. 하나 이상의 디코딩된 명령들(140)에 대한 추가 액션들이 저장될 수 있다.

실시예들에서, 연관된 액션들(142)은, 예를 들면, "홈 페이지" 또는 다른 명 령에 대응하는 http://www.userhomepage.com 과 같은 연관된 URL을 포함할 수 있다. "주식"과 같은 명령은, 사용자의 기존 가입들, 사용자의 무선 또는 다른 제공자, 네트워크(122)의 데이터베이스 또는 다른 능력들 및 다른 인자들에 의존하여 http://www.stocklookup.com/ticker/Motorola" 또는 다른 리소스 또는 서비스에의 링크와 같은 링킹 액션과 예시적으로 연관될 수 있다. "날씨"의 디코딩된 명령은, 날씨 다운로드 사이트, 예를 들면 ftp.weather.map/region3.jp 또는 다른 파일, 위치 또는 정보에 링크될 수 있다. 다른 액션들이 가능하다. 네트워크 모델 저장 장치(128)는 일 실시예에서, 주어진 명령들 또는 다른 입력들이 시간에 따라 다른 서비스들 및 리소스들과 연관될 수 있도록, 예를 들면, 네트워크 관리자, 사용자 등에 의하여 편집 및 확장 가능할 수 있다. 로컬 모델 저장 장치(110)의 데이터는 네트워크 모델 저장 장치(128)에 유사하게 배열될 수 있거나, 또는 실시예들에서 로컬 모델 저장 장치(110)의 필드들은 구현에 따라 네트워크 모델 저장 장치(128)의 필드들과 다를 수 있다.

도 4는 본 발명의 실시예에 따른 분배형 음성 프로세싱의 흐름도이다. 단계(402)에서, 프로세싱이 시작된다. 단계(404)에서, 통신 디바이스(102)는 입력 디바이스(104) 또는 다른 디바이스를 통해 사용자로부터 음성 입력을 수신할 수 있다. 단계(406)에서, 음성 입력은, 특징 벡터 또는 다른 표현을 생성하기 위하여 특징 추출 모듈(106)에 의하여 디코딩될 수 있다. 단계(408)에서는, 음성 입력의 특징 벡터 또는 다른 표현이 로컬 모델 저장 장치(110)에 저장된 임의의 모델과 매칭되는지의 여부가 결정될 수 있다. 만일 매칭이 발견되면, 단계(410)에서 통신 디바이스(102)는 음성 브라우징 또는 다른 서비스와 같은 소망된 액션을 분류 및 생성할 수 있다. 단계(410) 후에, 프로세싱은 반복되거나, 이전 단계로 리턴되거나, 단계(426)에서 종료되거나 또는 다른 액션을 취할 수 있다.

만일 단계(408)에서 매칭이 발견되지 않으면, 단계(412)에서 특징 벡터 또는 다른 추출된 음성 관련 데이터가 네트워크(122)에 전송될 수 있다. 단계(414)에서, 네트워크는 특징 벡터 또는 다른 데이터를 수신할 수 있다. 단계(416)에서는 음성 입력의 특징 벡터 또는 다른 표현이, 네트워크 모델 저장 장치(128)에 저장된 임의의 모델과 매칭되는지의 여부가 결정될 수 있다. 만일 매칭이 발견되면, 단계(418)에서 네트워크(122)는 매칭 모델, 모델들 또는 관련 데이터 또는 서비스를 통신 디바이스(102)에 전송할 수 있다. 단계(420)에서, 통신 디바이스(102)는, 음성 브라우징을 실행하거나 또는 다른 액션을 취하는 것과 같이 모델, 모델들, 다른 데이터 또는 네트워크(122)로 수신된 서비스에 기초하여 액션을 발생시킬 수 있다. 단계(420) 후에, 프로세싱은 반복되거나, 이전 단계로 리턴되거나, 단계(426)에서 종료되거나 또는 다른 액션을 취할 수 있다.

만일 단계(416)에서 네트워크(122) 및 네트워크 모델 저장 장치(128)에 의하여 수신된 특징 벡터 또는 다른 데이터 간에 매칭이 발견되지 않으면, 프로세싱은 공백 결과가 통신 디바이스에 전송될 수 있는 단계(422)로 진행할 수 있다. 단계(424)에서, 통신 디바이스는, 소망된 서비스 또는 리소스가 액세스될 수 없다는 통보를 사용자에게 제공할 수 있다. 단계(422) 후에, 프로세싱은 반복되거나, 이전 단계로 리턴되거나, 단계(426)에서 종료되거나 또는 다른 액션을 취할 수 있다.

본 발명에 따른, 캐시 특징을 갖는 분배형 음성 인식 시스템 및 방법에 대한 전술한 상세한 설명은 예시적이며 구성 및 구현에서 변형들이 당업자에 의하여 이루어질 수 있다. 예를 들면, 본 발명이 단일 특징 추출 모듈(106), 단일 패턴 매칭 모듈(108) 및 네트워크 패턴 매칭 모듈(126)에 의하여 구현되는 것을 기술될지라도, 실시예들에서 하나 이상의 이들 모듈들은 다중 모듈들 또는 다른 분배형 리소스들로 구현될 수 있다. 유사하게, 본 발명이 일반적으로, 실시간 또는 근접시간으로 모델들 및 서비스들을 검색하기 위하여 디코딩 라이브 음성 입력으로서 기술될지라도, 일 실시예에서 음성 디코딩 기능은 예를 들면 지연, 저장 또는 오프라인에 기초하여 저장된 음성에 대하여 실행될 수 있다.

마찬가지로, 본 발명이 일반적으로 단일 통신 디바이스(102)에 관하여 기술될지라도, 실시예들에서 로컬 모델 저장 장치(110)에 저장된 모델들은 다중 통신 디바이스들을 통해 공유되거나 또는 복사될 수 있으며, 실시예들에서, 통신 디바이스가 어느 장치가 가장 최근에 사용되었는지의 여부와 무관하게 모델 유통을 위하여 동기화될 수 있다. 또한, 본 발명이 단일 사용자에 대한 음성 입력들 및 연관된 모델들 및 서비스들을 큐잉 또는 캐싱하는 것으로 기술될지라도, 실시예들에서 로컬 모델 저장 장치(110), 네트워크 모델 저장 장치(128) 및 다른 리소스들은 다중 사용자들에 의한 액세스를 통합할 수 있다. 따라서, 본 발명에 의한 범위는 이하의 청구범위에 의하여만 제한된다.

Claims

무선 통신 디바이스를 통해 서비스들을 액세스하기 위해 음성을 디코딩하는 시스템으로서,

음성 입력을 수신하는 입력 디바이스;

상기 음성 입력으로부터 적어도 하나의 특징을 추출하는 특징 추출 엔진;

로컬 모델 저장 장치(local model store);

무선 네트워크에 대한 제 1 무선 인터페이스로서, 상기 무선 네트워크는 네트워크 모델 저장 장치를 포함하고, 상기 네트워크 모델 저장 장치는 상기 음성 입력으로부터 추출된 적어도 하나의 특징에 따라 적어도 하나의 서비스를 생성하도록 구성된, 제 1 무선 인터페이스; 및

상기 입력 디바이스, 상기 특징 추출 엔진, 상기 로컬 모델 저장 장치 및 상기 제 1 무선 인터페이스와 통신하는 프로세서로서, 상기 프로세서는, 서비스 요구에 따라 동작하기 위해 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징을 상기 로컬 모델 저장 장치에 대하여 검사하며, 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징 및 상기 로컬 모델 저장 장치 간에 매칭이 발견되지 않을 때, 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징의 상기 무선 네트워크로의 상기 제 1 무선 인터페이스를 통한 전송을 개시하도록 구성되는, 상기 프로세서를 포함하는, 음성 디코딩 시스템.
제 1항에 있어서, 상기 프로세서는, 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징 및 상기 로컬 모델 저장 장치 간의 매칭이 발견되지 않을 때, 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징의 상기 무선 네트워크로의 전송을 개시하는, 음성 디코딩 시스템.
제 2항에 있어서, 상기 무선 네트워크는, 상기 적어도 하나의 서비스를 생성하고 상기 적어도 하나의 서비스를 상기 통신 디바이스에 전송하기 위하여 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징에 응답하는, 음성 디코딩 시스템.
제 3항에 있어서, 상기 프로세서는 상기 적어도 하나의 서비스를 상기 로컬 모델 저장 장치에 저장하는, 음성 디코딩 시스템.
제 4항에 있어서, 상기 프로세서는, 상기 적어도 하나의 서비스를 상기 로컬 모델 저장 장치에 저장할 때, 쓸모없는 서비스를 삭제하는, 음성 디코딩 시스템.
제 5항에 있어서, 상기 쓸모없는 서비스의 삭제는 최근 최소 사용된 것에 기초하여 수행되는, 음성 디코딩 시스템.
제 5항에 있어서, 상기 쓸모없는 서비스의 삭제는 최소 사용 빈도수에 기초 하여 수행되는, 음성 디코딩 시스템.
제 1항에 있어서, 상기 로컬 저장 장치는, 상기 무선 네트워크로부터 다운로드 가능한 초기화 가능 로컬 모델 저장 장치를 포함하는, 음성 디코딩 시스템.
제 1항에 있어서, 상기 적어도 하나의 서비스는 음성 브라우징, 음성 활성 다이얼링 및 음성 활성 디렉토리 서비스 중 적어도 하나를 포함하는, 음성 디코딩 시스템.
제 1항에 있어서, 상기 프로세서는, 상기 음성 입력 및 상기 로컬 모델 저장 장치 간의 매칭이 발견될 때 서비스를 개시하는, 음성 디코딩 시스템.
제 10항에 있어서, 상기 개시는 저장된 어드레스로의 링킹(linking)을 포함하는, 음성 디코딩 시스템.
제 11항에 있어서, 상기 저장된 어드레스로의 링킹은 URL을 액세스하는 것을 포함하는, 음성 디코딩 시스템.
무선 통신 디바이스를 통해 서비스들을 액세스하기 위해 음성을 디코딩하는 방법으로서,

음성 입력을 수신하는 단계;

상기 음성 입력으로부터 적어도 하나의 특징을 추출하는 단계;

서비스 요구에 따라 동작하기 위해, 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징을 상기 무선 통신 디바이스 내의 로컬 모델 저장 장치에 대하여 검사하는 단계; 및

만일 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징 및 상기 로컬 모델 저장 장치 간에 매칭이 발견되지 않을 때, 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징을 제 1 무선 인터페이스를 통해 무선 네트워크에 전송하는 단계, 및 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징에 의존하여 상기 무선 네트워크 내에 적어도 하나의 서비스를 생성하는 단계를 포함하는, 음성 디코딩 방법.
제 13항에 있어서, 상기 적어도 하나의 서비스를 상기 통신 디바이스에 전송하는 단계를 더 포함하는, 음성 디코딩 방법.
제 14항에 있어서, 상기 적어도 하나의 서비스를 상기 로컬 모델 저장 장치에 저장하는 단계를 더 포함하는, 음성 디코딩 방법.
제 15항에 있어서, 상기 적어도 하나의 서비스를 상기 로컬 모델 저장 장치에 저장할 때, 쓸모없는 서비스를 삭제하는 단계를 더 포함하는, 음성 디코딩 방 법.
제 16항에 있어서, 상기 쓸모없는 서비스 삭제 단계는 최근 최소 사용된 것에 기초하여 수행되는, 음성 디코딩 방법.
제 16항에 있어서, 상기 쓸모없는 서비스의 삭제 단계는 최소 사용 빈도수에 기초하여 수행되는, 음성 디코딩 방법.
제 13항에 있어서, 초기화 가능 로컬 모델 저장 장치를 상기 무선 네트워크로부터 상기 통신 디바이스에서 다운로드하는 단계를 더 포함하는, 음성 디코딩 방법.
제 13항에 있어서, 상기 적어도 하나의 서비스는 음성 브라우징, 음성 활성 다이얼링 및 음성 활성 디렉토리 서비스 중 적어도 하나를 포함하는, 음성 디코딩 방법.
제 13항에 있어서, 상기 음성 입력으로부터 추출된 적어도 하나의 특징 및 상기 로컬 모델 저장 장치 간에 매칭이 발견될 때, 서비스를 개시하는 단계를 더 포함하는, 음성 디코딩 방법.
제 21항에 있어서, 상기 개시 단계는 저장된 어드레스로 링킹하는 단계를 포함하는, 음성 디코딩 방법.
제 22항에 있어서, 상기 저장된 어드레스로의 링킹 단계는 URL을 액세스하는 단계를 포함하는, 음성 디코딩 방법.