KR20060018888A - 캐시 특징을 갖는 분배형 음성 인식 시스템 및 방법 - Google Patents

캐시 특징을 갖는 분배형 음성 인식 시스템 및 방법 Download PDF

Info

Publication number
KR20060018888A
KR20060018888A KR1020057023818A KR20057023818A KR20060018888A KR 20060018888 A KR20060018888 A KR 20060018888A KR 1020057023818 A KR1020057023818 A KR 1020057023818A KR 20057023818 A KR20057023818 A KR 20057023818A KR 20060018888 A KR20060018888 A KR 20060018888A
Authority
KR
South Korea
Prior art keywords
service
voice
storage device
model storage
local model
Prior art date
Application number
KR1020057023818A
Other languages
English (en)
Inventor
시탈 알. 샤
프래틱 데사이
필립 에이. 스켄트럽
Original Assignee
모토로라 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 인코포레이티드 filed Critical 모토로라 인코포레이티드
Publication of KR20060018888A publication Critical patent/KR20060018888A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

본 발명은 음성 인식 및 명령 능력이 개선된 셀룰러 전화 또는 다른 통신 디바이스(102)에 관한 것이다. 셀룰러 핸드세트는, 음성 검출 및 명령 디코딩을 개선하기 위하여 디지털 신호 처리 또는 다른 하드웨어(106, 108)를 구비할 수 있으나, 상기 디바이스 상에서 이용 가능한 전자 메모리 또는 다른 저장 장치의 용량에 관하여 여전히 상대적으로 제약될 수 있다. 실시예들에서, 셀룰러 핸드세트 또는 다른 디바이스는, 예를 들면, 인터넷 또는 디렉토리를 통한 음성 브라우징 기능을 수행하기 위하여 음성 또는 다른 명령의 제 1-스테이지 디코딩(406)을 수행할 수 있다. 핸드세트는, 이미 디코딩된 명령들, 서비스들 및 모델들의 로컬 메모리 캐시에 대하여 검출된 명령(140) 또는 서비스의 검색(408)을 수행할 수 있으며, 만일 매칭이 발견되면, 소망된 서비스를 바로 수행한다. 만일 디바이스 메모리에서 매칭이 발견되지 않으면, 음성 신호는, 명령 또는 액션을 원격적으로 또는 분배형으로 디코딩하기 위하여 셀룰러 또는 다른 네트워크의 서버(122) 또는 다른 리소스에 통신될 수 있다. 서비스가 핸드세트로 리턴될 때, 서비스는 장래의 액세스를 위해 캐싱 형식(416)으로 추가 액세스를 위한 전자 메모리 또는 다른 저장 장치에 저장될 수 있다. 사용자의 최근 사용하거나 가장 자주 사용하는 명령들 및 서비스들은, 예를 들면, 명령들 또는 서비스들 내의 응답 시간들을 촉진하기 위하여 상기 디바이스 상에 국부적으로 저장될 수 있다.
핸드세트, 음성 신호, 캐시 특징, 음성 특징 벡터, 저장 장치

Description

캐시 특징을 갖는 분배형 음성 인식 시스템 및 방법{System and method for distributed speech recognition with a cache feature}
본 발명은 통신 분야에 관한 것이며, 보다 상세하게는 셀룰러 전화 또는 다른 디바이스와 같은 이동 유닛이 음성 또는 다른 서비스들에 대한 음성-인식 모델들을 휴대형 디바이스 상에 저장하는 분배형 음성 인식 시스템들에 관한 것이다.
많은 셀룰러 전화들 및 다른 통신 디바이스들은 지금 음성 명령들을 디코딩하고 음성 명령들에 응답하는 능력을 갖는다. 이들 음성 인에이블 디바이스들에 대한 애플리케이션들은, 예를 들면, VoiceXML 또는 다른 인에이블 기술들을 사용하는 인터넷 상의 음성 브라우징, 음성 활성 다이얼링 또는 다른 디렉토리 애플리케이션들, 음성-대-텍스트 또는 텍스트-대-음성 메시징 및 검색을 포함하도록 제안되었다. 많은 셀룰러 핸드세트들은, 예를 들면, 음성 검출 알고리즘들 및 다른 기능들을 개선할 수 있는 내장형 디지털 신호 처리(DSP) 칩들을 갖추고 있다.
사용자들에게 있어서 음성-인에이블 기술들의 효용성 및 편리성은, 음성이 디코딩되는 정확성뿐만 아니라 음성 검출의 응답 시간 및 사용자에 의하여 선택된 서비스들을 검색하기 위한 지연 시간을 포함하는 다양한 인자들에 의하여 영향을 받는다. 음성 검출 그 자체와 관련하여, 많은 셀룰러 핸드세트들 및 다른 디바이 스들은 음성 성분들을 분석 및 식별하기에 충분한 DSP 및 다른 처리 능력을 포함할 수 있는 반면에, 강인한 음성 검출 알고리즘들은, 음성 성분들 및 명령들을 가장 효율적으로 식별하기 위해 중요한 메모리 또는 저장 장치들의 상당한 용량을 요구하는 복합 모델들을 포함하거나 필요로 할 수 있다. 셀룰러 핸드세트들은, 예를 들면, 이러한 형태의 음성 루틴들을 완전하게 이용하기 위하여 랜덤 액세스 메모리(RAM)를 전형적으로 갖추지 않을 수 있다.
이들 고려사항들의 부분적인 결과로서, 음성 검출 활동 및 관련 프로세싱의 부분 또는 모두가 네트워크, 특히 이동 핸드세트와 통신하는 네트워크 서버 또는 다른 하드웨어로 오프로드(offload)될 수 있는 임의의 셀룰러 플랫폼들이 제안 또는 구현되었다. 이러한 형태의 네트워크 구조들의 예가 도 1에 예시된다. 도 1에 도시된 바와 같이, 마이크로폰 장착 핸드세트는 음성 음소(phoneme)들 및 다른 성분들을 디코딩 및 추출할 수 있으며, 이들 성분들을 무선 링크를 통해 네트워크에 통신한다. 일단 음성 특징 벡터가 네트워크 측에서 수신되면, 서버 또는 다른 리소스들은 메모리로부터 음성, 명령 및 서비스 모델들을 검색하고, 상기 모델들과 수신된 특징 벡터를 비교하여, 매칭, 예를 들면, 전화번호에 대한 검색을 수행하라는 요청이 발견되는지를 결정한다.
만일 매칭이 발견되면, 네트워크는, LDAP 또는 다른 데이터베이스로부터, 예를 들면, 공중 전화 번호를 검색하기 위하여 그 히트(hit)에 따라 음성, 명령 및 서비스 모델을 분류할 수 있다. 그 결과들은, 예를 들면, 음성 메뉴 또는 메시지와 같이 들을 수 있게 또는, 예를 들면, 디스플레이 스크린 상의 텍스트 메시지와 같이 볼 수 있게 사용자에게 제공되도록 핸드세트 또는 다른 통신 디바이스에 다시 통신될 수 있다.
분배형 인식 시스템이, 지원될 수 있는 음성, 명령 및 서비스 모델들의 수 및 타입을 확대할 수 있는 반면에, 이러한 구조에는 단점들이 존재한다. 이러한 서비스들을 호스트하고 모든 명령들을 프로세싱하는 네트워크들은 이러한 데이터를 프로세싱하는 이용 가능한 무선 대역폭의 상당량을 소비할 수 있다. 이들 네트워크들은 실행하는데 있어서 비용이 많이 들 수 있다.
또한, 이동 유닛에서 네트워크까지 비교적 고용량 무선 링크들이 존재할지라도, 사용자의 구두의 명령과 핸드세트 상에서의 소망된 서비스의 가용성 간에 어느 정도의 지연 시간은 피할 수 없을 수 있다. 다른 문제들이 존재한다.
당분야의 이들 및 다른 문제점들을 극복하는 본 발명은, 캐시 특징을 갖는 분배형 음성 인식 시스템 및 방법에 관한 것이며, 여기서 다른 통신 디바이스들의 셀룰러 핸드세트는, 제 1스테이지 특징 추출을 수행하고 핸드세트에 대한 구두의 음성 신호들을 디코딩하도록 구성될 수 있다. 실시예들에서, 통신 디바이스는 사용자에 의하여 액세스되는 마지막 10, 20개 또는 다른 수의 음성, 명령, 또는 서비스 모델들을 핸드세트 자체의 메모리에 저장한다. 새로운 음성 명령이 식별될 때, 명령 및 연관된 모델은 메모리 내의 모델들의 캐시에 대하여 검사될 수 있다. 히트가 발견될 때, 프로세싱은 로컬 데이터에 기초하여 음성 브라우징 등과 같은 소망된 서비스로 바로 진행할 수 있다. 히트가 발견되지 않을 때, 통신 디바이스는, 연관된 모델들의 분배형 디코딩 및 원격 디코딩 및 생성을 위하여 추출된 음성 특징들을 네트워크에 통신할 수 있으며, 상기 모델들은 사용자에게 제공되도록 핸드세트로 리턴될 수 있다. 최근의 최고 빈도수 및 다른 큐잉 규칙들은, 예를 들면, 가장 오래된 모델 또는 서비스를 로컬 메모리로부터 삭제하여, 새로이 액세스된 모델들을 핸드세트에 저장하는데 사용될 수 있다.
본 발명은, 동일한 요소가 동일한 도면부호를 갖는 첨부도면들을 참조하여 상세히 기술될 것이다.
도 1은 종래 실시예에 따른 분배형 음성 인식 구조를 예시한 도면.
도 2는 캐시 특징을 갖는 분배형 음성 인식 시스템이 본 발명의 실시예에 따라 동작할 수 있는 구조를 예시한 도면.
도 3은 본 발명의 실시예에 따른, 네트워크 모델 저장 장치에 대한 예시적인 데이터 구조를 예시한 도면.
도 4는 본 발명의 실시예에 따른 전체 음성 인식 프로세싱의 흐름도.
도 2는, 통신 디바이스(102)가 음성, 데이터 및 다른 통신을 위하여 네트워크(122)와 무선으로 통신할 수 있는 본 발명 실시예에 따른 통신 구조를 예시한다. 통신 디바이스(102)는 예를 들면, 셀룰러 전화, PDA(Personal Digital Assistant) 또는 IEEE 802.11b 또는 다른 무선 인터페이스를 구비한 PIM(Personal Information Manager)와 같은 네트워크 인에이블 무선 디바이스, 802.11b 또는 다른 무선 인터 페이스를 구비한 랩탑 또는 다른 개인 휴대 컴퓨터, 또는 다른 통신 또는 클라이언트 디바이스들을 포함할 수 있다. 통신 디바이스(102)는, 예를 들면, 800/900 MHz, 1.9GHz, 2.4GHz 또는 다른 주파수 대역들로 또는 광 링크 또는 다른 링크들에 의하여 안테나(118)를 통해 네트워크(122)와 통신할 수 있다.
통신 디바이스(102)는, 사용자로부터 음성 입력을 수신하기 위하여 입력 디바이스(104), 예를 들면 마이크로폰을 포함할 수 있다. 음성 신호들은, 음성 성분들을 분리하여 식별하고 잡음을 억제하며 다른 신호 처리 또는 다른 기능들을 수행하기 위하여 특징 추출 모듈(106)에 의하여 프로세싱될 수 있다. 본 실시예들에서, 특징 추출 모듈(106)은, 음성 검출 및 다른 루틴들을 수행하도록 프로그래밍된 마이크로프로세서 또는 DSP 또는 다른 칩을 포함할 수 있다. 예를 들면, 특징 추출 모듈(106)은 "예", "아니오", "다이얼", "이메일", "홈 페이지", "브라우즈" 등과 같은 개별 음성 성분 또는 명령들을 식별할 수 있다.
일단 음성 명령 또는 다른 성분이 식별되면, 특징 추출 모듈(106)은 하나 이상의 특징 벡터 또는 다른 음성 성분들을 패턴 매칭 모듈(108)에 통신할 수 있다. 패턴 매칭 모듈(108)은 마찬가지로 음성, 명령, 서비스 또는 다른 모델들과 같은 공지된 모델들에 대한 음성 성분들의 매칭을 포함하여 데이터를 프로세싱하는 마이크로프로세서, DSP 또는 다른 칩을 포함할 수 있다. 실시예들에서, 패턴 매칭 모듈(108)은 특징 추출 모듈(106)과 동일한 마이크로프로세서, DSP 또는 다른 칩 상에서 실행하는 스레드(thread) 또는 다른 프로세스를 포함할 수 있다.
음성 성분이 패턴 매칭 모듈(108)에서 수신될 때, 상기 모듈은 저장된 음성, 명령, 서비스 또는 다른 모델들의 세트에서 매칭이 발견될 수 있는지의 여부를 결정하기 위하여 결정 포인트(112)에서 로컬 모델 저장 장치(110)에 대한 성분을 검사할 수 있다.
로컬 모델 저장 장치(110)는 예를 들면 전기적 프로그램가능 판독전용 메모리(EPROM) 또는 다른 미디어와 같은 비휘발성 전자 메모리를 포함할 수 있다. 로컬 모델 저장 장치(110)는, 통신 디바이스의 상기 미디어로부터 직접 검색하기 위하여 음성, 명령, 서비스 또는 다른 모델들의 세트를 포함할 수 있다. 실시예들에서, 로컬 모델 저장 장치(110)는, 예를 들면, 통신 디바이스(102)가 먼저 사용되거나 또는 리셋될 때 표준 모델들 또는 서비스들의 다운로드 가능한 세트를 사용하여 초기화될 수 있다.
예를 들면 "홈 페이지"와 같은 음성 명령에 대하여 로컬 모델 저장 장치(110)에서 매칭이 발견될 때, 인터넷 서비스 제공자(ISP) 또는 셀룰러 네트워크 제공자를 통한 사용자의 홈 페이지에 대응하는 URL(Universal Resource Locator)와 같은 어드레스 또는 다른 어드레스 또는 데이터는, 응답 액션(114)을 분류 및 생성하기 위하여 테이블 또는 다른 포맷으로 검색될 수 있다. 실시예들에서, 응답 액션(114)은, 예를 들면, 통신 디바이스(102)로부터 사용자의 홈 페이지 또는 다른 선택 리소스 또는 서비스에 링크하는 단계를 포함할 수 있다. 그 다음에, 추가 명령 또는 옵션들이 입력 디바이스(104)를 통해 수신될 수 있다. 실시예들에서, 응답 액션(114)은 액세스된 리소스 또는 서비스의 사용 중에 VoiceXML 또는 다른 프로토콜들, 이용 가능한 경우 스크린 디스플레이들 또는 다른 포맷들 또는 인터페이 스들을 통해 선택 가능한 음성 메뉴 옵션들의 세트를 사용자에게 제공하는 단계를 포함할 수 있다.
만일 결정 포인트(112)에서 로컬 모델 저장 장치(110)에서의 매칭이 발견되지 않으면, 통신 디바이스(102)는, 장래의 프로세싱을 위하여 네트워크(122)로의 전송(116)을 개시할 수 있다. 전송(116)은 특징 추출 모듈(106)에 의하여 분리되어 안테나(134) 또는 다른 인터페이스 또는 채널을 통해 네트워크(122)에서 수신되는 샘플링된 음성 성분들을 포함할 수 있다. 수신된 전송(124)은, 네트워크(122)의 네트워크 패턴 매칭 모듈(126)에 통신될 수 있는 특징 벡터들 또는 다른 음성 또는 다른 성분들을 포함할 수 있다.
패턴 매칭 모델(108)과 같은 네트워크 패턴 매칭 모듈(126)은 음성, 명령, 서비스 또는 다른 모델들과 같이 공지된 모델들에의 수신된 특징 벡터 또는 다른 음성 성분들의 매칭을 포함하여 데이터를 프로세싱하는 마이크로프로세서, DSP 또는 다른 칩을 포함한다. 네트워크(122)에서 실행되는 패턴 매칭의 경우에, 수신된 특징 벡터 또는 다른 데이터는, 네트워크 모델 저장 장치(128)에 저장된 음성 관련 모델들의 세트와 비교될 수 있다. 로컬 모델 저장 장치(110)와 같이, 네트워크 모델 저장 장치(128)는, 수신된 전송(124)에 포함된 음성 또는 다른 데이터를 검색하여 비교하기 위하여 음성, 명령, 서비스 또는 다른 모델들의 세트를 포함할 수 있다.
결정 포인트(130)에서는, 수신된 전송(124) 및 네트워크 모델 저장 장치(128)에 포함된 특정 벡터 또는 다른 데이터 간에 매칭이 발견되는지의 여부가 결 정될 수 있다. 만일 매칭이 발견되면, 전송된 결과들(132)은 안테나(134) 또는 다른 채널들을 통해 통신 디바이스(102)에 통신될 수 있다. 전송된 결과들(132)은, 디코딩된 특징 벡터 또는 다른 데이터에 대응하는 음성, 명령 또는 다른 서비스에 대한 모델 또는 모델들을 포함할 수 있다. 전송된 결과들(132)은 네트워크 결과들(120)로서 안테나(118)를 통해 통신 디바이스(102)에서 수신될 수 있다. 그 다음에, 통신 디바이스(102)는 네트워크 결과들(120)에 기초하여 하나 이상의 액션들을 실행할 수 있다. 예를 들면, 통신 디바이스(102)는 인터넷 또는 다른 네트워크 사이트에 링크될 수 있다. 실시예들에서, 상기 네트워크 사이트에서, 사용자에게는 선택 가능한 옵션들 또는 다른 데이터가 제공될 수 있다. 네트워크 결과들(120)은 통신 디바이스(102) 자체에 저장되도록 로컬 모델 저장 장치(110)에 통신될 수 있다.
실시예들에서, 통신 디바이스(102)는, 네트워크 결과들(120)에 포함된 모델들 또는 다른 데이터를 비휘발성 전자 또는 다른 미디어에 저장할 수 있다. 실시예들에서, 통신 디바이스(102) 내의 임의의 저장 미디어는, 큐잉 또는 캐시-타입 규칙들에 기초하여 로컬 모델 저장 장치(110)에 대한 네트워크 결과들을 수신할 수 있다. 이들 규칙들은, 예를 들면, 새로운 네트워크 결과들(120)로 대체되도록 로컬 모델 저장 장치(110)로부터의 최근 최소 사용된 모델을 삭제하거나, 유사하게 대체되도록 로컬 모델 저장 장치(110)로부터의 최소 빈도로 사용된 모델을 삭제하거나, 또는 통신 디바이스(102)의 저장 제약들 내에 소망된 모델들을 유지하기 위한 다른 규칙들 또는 알고리즘들을 따르도록 하는 것과 같은 규칙들을 포함할 수 있다.
결정 포인트(130)에서 수신된 전송(124)의 특징 벡터 또는 다른 데이터 및 네트워크 모델 저장 장치(128) 간의 매칭이 발견되지 않는 경우에, 모델 또는 연관된 서비스가 음성 신호에 대응하게 식별될 수 없다는 것을 나타내는 공백(null) 결과(136)가 통신 디바이스(102)에 전송될 수 있다. 실시예들에서, 이 경우에, 통신 디바이스(102)는 "죄송하다", "당신의 응답은 이해되지 않는다" 또는 다른 통지와 같이 액션이 취해지지 않는 가청 또는 다른 통지를 사용자에게 제공할 수 있다. 이 경우에, 통신 디바이스(102)는, 소망된 서비스를 다시 액세스하거나 또는 다른 서비스들을 액세스하거나 또는 다른 액션을 취하기 위하여 입력 디바이스(104) 또는 다른 디바이스를 통하여 사용자로부터 추가 입력을 수신할 수 있다.
도 3은, 테이블(138)에 배열된 네트워크 모델 저장 장치(128)에 대한 예시적인 데이터 구조를 도시한다. 예시적인 실시예에 예시된 바와 같이, 음성 입력의 추출된 특징들에 대응하거나 또는 상기 특징들에 포함된 디코딩된 명령(140)의 세트(디코딩된 명령1, 디코딩된 명령2,디코딩된 명령3,...,디코딩된 명령N,여기서 N은 임의의 수이다)는 테이블에 저장될 수 있으며, 상기 테이블의 열들(rows)은, 연관된 액션들(142)의 세트(연관된 액션1, 연관된 액션2, 연관된 액션3,..., 연관된 액션N, 여기서 N은 임의의 수이다)를 포함할 수 있다. 하나 이상의 디코딩된 명령들(140)에 대한 추가 액션들이 저장될 수 있다.
실시예들에서, 연관된 액션들(142)은, 예를 들면, "홈 페이지" 또는 다른 명 령에 대응하는 http://www.userhomepage.com 과 같은 연관된 URL을 포함할 수 있다. "주식"과 같은 명령은, 사용자의 기존 가입들, 사용자의 무선 또는 다른 제공자, 네트워크(122)의 데이터베이스 또는 다른 능력들 및 다른 인자들에 의존하여 http://www.stocklookup.com/ticker/Motorola" 또는 다른 리소스 또는 서비스에의 링크와 같은 링킹 액션과 예시적으로 연관될 수 있다. "날씨"의 디코딩된 명령은, 날씨 다운로드 사이트, 예를 들면 ftp.weather.map/region3.jp 또는 다른 파일, 위치 또는 정보에 링크될 수 있다. 다른 액션들이 가능하다. 네트워크 모델 저장 장치(128)는 일 실시예에서, 주어진 명령들 또는 다른 입력들이 시간에 따라 다른 서비스들 및 리소스들과 연관될 수 있도록, 예를 들면, 네트워크 관리자, 사용자 등에 의하여 편집 및 확장 가능할 수 있다. 로컬 모델 저장 장치(110)의 데이터는 네트워크 모델 저장 장치(128)에 유사하게 배열될 수 있거나, 또는 실시예들에서 로컬 모델 저장 장치(110)의 필드들은 구현에 따라 네트워크 모델 저장 장치(128)의 필드들과 다를 수 있다.
도 4는 본 발명의 실시예에 따른 분배형 음성 프로세싱의 흐름도이다. 단계(402)에서, 프로세싱이 시작된다. 단계(404)에서, 통신 디바이스(102)는 입력 디바이스(104) 또는 다른 디바이스를 통해 사용자로부터 음성 입력을 수신할 수 있다. 단계(406)에서, 음성 입력은, 특징 벡터 또는 다른 표현을 생성하기 위하여 특징 추출 모듈(106)에 의하여 디코딩될 수 있다. 단계(408)에서는, 음성 입력의 특징 벡터 또는 다른 표현이 로컬 모델 저장 장치(110)에 저장된 임의의 모델과 매칭되는지의 여부가 결정될 수 있다. 만일 매칭이 발견되면, 단계(410)에서 통신 디바이스(102)는 음성 브라우징 또는 다른 서비스와 같은 소망된 액션을 분류 및 생성할 수 있다. 단계(410) 후에, 프로세싱은 반복되거나, 이전 단계로 리턴되거나, 단계(426)에서 종료되거나 또는 다른 액션을 취할 수 있다.
만일 단계(408)에서 매칭이 발견되지 않으면, 단계(412)에서 특징 벡터 또는 다른 추출된 음성 관련 데이터가 네트워크(122)에 전송될 수 있다. 단계(414)에서, 네트워크는 특징 벡터 또는 다른 데이터를 수신할 수 있다. 단계(416)에서는 음성 입력의 특징 벡터 또는 다른 표현이, 네트워크 모델 저장 장치(128)에 저장된 임의의 모델과 매칭되는지의 여부가 결정될 수 있다. 만일 매칭이 발견되면, 단계(418)에서 네트워크(122)는 매칭 모델, 모델들 또는 관련 데이터 또는 서비스를 통신 디바이스(102)에 전송할 수 있다. 단계(420)에서, 통신 디바이스(102)는, 음성 브라우징을 실행하거나 또는 다른 액션을 취하는 것과 같이 모델, 모델들, 다른 데이터 또는 네트워크(122)로 수신된 서비스에 기초하여 액션을 발생시킬 수 있다. 단계(420) 후에, 프로세싱은 반복되거나, 이전 단계로 리턴되거나, 단계(426)에서 종료되거나 또는 다른 액션을 취할 수 있다.
만일 단계(416)에서 네트워크(122) 및 네트워크 모델 저장 장치(128)에 의하여 수신된 특징 벡터 또는 다른 데이터 간에 매칭이 발견되지 않으면, 프로세싱은 공백 결과가 통신 디바이스에 전송될 수 있는 단계(422)로 진행할 수 있다. 단계(424)에서, 통신 디바이스는, 소망된 서비스 또는 리소스가 액세스될 수 없다는 통보를 사용자에게 제공할 수 있다. 단계(422) 후에, 프로세싱은 반복되거나, 이전 단계로 리턴되거나, 단계(426)에서 종료되거나 또는 다른 액션을 취할 수 있다.
본 발명에 따른, 캐시 특징을 갖는 분배형 음성 인식 시스템 및 방법에 대한 전술한 상세한 설명은 예시적이며 구성 및 구현에서 변형들이 당업자에 의하여 이루어질 수 있다. 예를 들면, 본 발명이 단일 특징 추출 모듈(106), 단일 패턴 매칭 모듈(108) 및 네트워크 패턴 매칭 모듈(126)에 의하여 구현되는 것을 기술될지라도, 실시예들에서 하나 이상의 이들 모듈들은 다중 모듈들 또는 다른 분배형 리소스들로 구현될 수 있다. 유사하게, 본 발명이 일반적으로, 실시간 또는 근접시간으로 모델들 및 서비스들을 검색하기 위하여 디코딩 라이브 음성 입력으로서 기술될지라도, 일 실시예에서 음성 디코딩 기능은 예를 들면 지연, 저장 또는 오프라인에 기초하여 저장된 음성에 대하여 실행될 수 있다.
마찬가지로, 본 발명이 일반적으로 단일 통신 디바이스(102)에 관하여 기술될지라도, 실시예들에서 로컬 모델 저장 장치(110)에 저장된 모델들은 다중 통신 디바이스들을 통해 공유되거나 또는 복사될 수 있으며, 실시예들에서, 통신 디바이스가 어느 장치가 가장 최근에 사용되었는지의 여부와 무관하게 모델 유통을 위하여 동기화될 수 있다. 또한, 본 발명이 단일 사용자에 대한 음성 입력들 및 연관된 모델들 및 서비스들을 큐잉 또는 캐싱하는 것으로 기술될지라도, 실시예들에서 로컬 모델 저장 장치(110), 네트워크 모델 저장 장치(128) 및 다른 리소스들은 다중 사용자들에 의한 액세스를 통합할 수 있다. 따라서, 본 발명에 의한 범위는 이하의 청구범위에 의하여만 제한된다.

Claims (23)

  1. 무선 통신 디바이스를 통해 서비스들을 액세스하기 위해 음성을 디코딩하는 시스템으로서,
    음성 입력을 수신하는 입력 디바이스;
    상기 음성 입력으로부터 적어도 하나의 특징을 추출하는 특징 추출 엔진;
    로컬 모델 저장 장치(local model store);
    무선 네트워크에 대한 제 1 무선 인터페이스로서, 상기 무선 네트워크는 네트워크 모델 저장 장치를 포함하고, 상기 네트워크 모델 저장 장치는 상기 음성 입력으로부터 추출된 적어도 하나의 특징에 따라 적어도 하나의 서비스를 생성하도록 구성된, 제 1 무선 인터페이스; 및
    상기 입력 디바이스, 상기 특징 추출 엔진, 상기 로컬 모델 저장 장치 및 상기 제 1 무선 인터페이스와 통신하는 프로세서로서, 상기 프로세서는, 서비스 요구에 따라 동작하기 위해 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징을 상기 로컬 모델 저장 장치에 대하여 검사하며, 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징 및 상기 로컬 모델 저장 장치 간에 매칭이 발견되지 않을 때, 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징의 상기 무선 네트워크로의 상기 제 1 무선 인터페이스를 통한 전송을 개시하도록 구성되는, 상기 프로세서를 포함하는, 음성 디코딩 시스템.
  2. 제 1항에 있어서, 상기 프로세서는, 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징 및 상기 로컬 모델 저장 장치 간의 매칭이 발견되지 않을 때, 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징의 상기 무선 네트워크로의 전송을 개시하는, 음성 디코딩 시스템.
  3. 제 2항에 있어서, 상기 무선 네트워크는, 상기 적어도 하나의 서비스를 생성하고 상기 적어도 하나의 서비스를 상기 통신 디바이스에 전송하기 위하여 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징에 응답하는, 음성 디코딩 시스템.
  4. 제 3항에 있어서, 상기 프로세서는 상기 적어도 하나의 서비스를 상기 로컬 모델 저장 장치에 저장하는, 음성 디코딩 시스템.
  5. 제 4항에 있어서, 상기 프로세서는, 상기 적어도 하나의 서비스를 상기 로컬 모델 저장 장치에 저장할 때, 쓸모없는 서비스를 삭제하는, 음성 디코딩 시스템.
  6. 제 5항에 있어서, 상기 쓸모없는 서비스의 삭제는 최근 최소 사용된 것에 기초하여 수행되는, 음성 디코딩 시스템.
  7. 제 5항에 있어서, 상기 쓸모없는 서비스의 삭제는 최소 사용 빈도수에 기초 하여 수행되는, 음성 디코딩 시스템.
  8. 제 1항에 있어서, 상기 로컬 저장 장치는, 상기 무선 네트워크로부터 다운로드 가능한 초기화 가능 로컬 모델 저장 장치를 포함하는, 음성 디코딩 시스템.
  9. 제 1항에 있어서, 상기 적어도 하나의 서비스는 음성 브라우징, 음성 활성 다이얼링 및 음성 활성 디렉토리 서비스 중 적어도 하나를 포함하는, 음성 디코딩 시스템.
  10. 제 1항에 있어서, 상기 프로세서는, 상기 음성 입력 및 상기 로컬 모델 저장 장치 간의 매칭이 발견될 때 서비스를 개시하는, 음성 디코딩 시스템.
  11. 제 10항에 있어서, 상기 개시는 저장된 어드레스로의 링킹(linking)을 포함하는, 음성 디코딩 시스템.
  12. 제 11항에 있어서, 상기 저장된 어드레스로의 링킹은 URL을 액세스하는 것을 포함하는, 음성 디코딩 시스템.
  13. 무선 통신 디바이스를 통해 서비스들을 액세스하기 위해 음성을 디코딩하는 방법으로서,
    음성 입력을 수신하는 단계;
    상기 음성 입력으로부터 적어도 하나의 특징을 추출하는 단계;
    서비스 요구에 따라 동작하기 위해, 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징을 상기 무선 통신 디바이스 내의 로컬 모델 저장 장치에 대하여 검사하는 단계; 및
    만일 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징 및 상기 로컬 모델 저장 장치 간에 매칭이 발견되지 않을 때, 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징을 제 1 무선 인터페이스를 통해 무선 네트워크에 전송하는 단계, 및 상기 음성 입력으로부터 추출된 상기 적어도 하나의 특징에 의존하여 상기 무선 네트워크 내에 적어도 하나의 서비스를 생성하는 단계를 포함하는, 음성 디코딩 방법.
  14. 제 13항에 있어서, 상기 적어도 하나의 서비스를 상기 통신 디바이스에 전송하는 단계를 더 포함하는, 음성 디코딩 방법.
  15. 제 14항에 있어서, 상기 적어도 하나의 서비스를 상기 로컬 모델 저장 장치에 저장하는 단계를 더 포함하는, 음성 디코딩 방법.
  16. 제 15항에 있어서, 상기 적어도 하나의 서비스를 상기 로컬 모델 저장 장치에 저장할 때, 쓸모없는 서비스를 삭제하는 단계를 더 포함하는, 음성 디코딩 방 법.
  17. 제 16항에 있어서, 상기 쓸모없는 서비스 삭제 단계는 최근 최소 사용된 것에 기초하여 수행되는, 음성 디코딩 방법.
  18. 제 16항에 있어서, 상기 쓸모없는 서비스의 삭제 단계는 최소 사용 빈도수에 기초하여 수행되는, 음성 디코딩 방법.
  19. 제 13항에 있어서, 초기화 가능 로컬 모델 저장 장치를 상기 무선 네트워크로부터 상기 통신 디바이스에서 다운로드하는 단계를 더 포함하는, 음성 디코딩 방법.
  20. 제 13항에 있어서, 상기 적어도 하나의 서비스는 음성 브라우징, 음성 활성 다이얼링 및 음성 활성 디렉토리 서비스 중 적어도 하나를 포함하는, 음성 디코딩 방법.
  21. 제 13항에 있어서, 상기 음성 입력으로부터 추출된 적어도 하나의 특징 및 상기 로컬 모델 저장 장치 간에 매칭이 발견될 때, 서비스를 개시하는 단계를 더 포함하는, 음성 디코딩 방법.
  22. 제 21항에 있어서, 상기 개시 단계는 저장된 어드레스로 링킹하는 단계를 포함하는, 음성 디코딩 방법.
  23. 제 22항에 있어서, 상기 저장된 어드레스로의 링킹 단계는 URL을 액세스하는 단계를 포함하는, 음성 디코딩 방법.
KR1020057023818A 2003-06-12 2004-06-09 캐시 특징을 갖는 분배형 음성 인식 시스템 및 방법 KR20060018888A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/460,141 2003-06-12
US10/460,141 US20040254787A1 (en) 2003-06-12 2003-06-12 System and method for distributed speech recognition with a cache feature

Publications (1)

Publication Number Publication Date
KR20060018888A true KR20060018888A (ko) 2006-03-02

Family

ID=33510949

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057023818A KR20060018888A (ko) 2003-06-12 2004-06-09 캐시 특징을 갖는 분배형 음성 인식 시스템 및 방법

Country Status (8)

Country Link
US (1) US20040254787A1 (ko)
JP (1) JP2007516655A (ko)
KR (1) KR20060018888A (ko)
BR (1) BRPI0411107A (ko)
CA (1) CA2528019A1 (ko)
IL (1) IL172089A0 (ko)
MX (1) MXPA05013339A (ko)
WO (1) WO2004114277A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022080659A1 (ko) * 2020-10-12 2022-04-21 삼성전자주식회사 전자 장치 및 이의 제어 방법

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050028150A (ko) * 2003-09-17 2005-03-22 삼성전자주식회사 음성 신호를 이용한 유저-인터페이스를 제공하는휴대단말기 및 그 방법
US20070106773A1 (en) * 2005-10-21 2007-05-10 Callminer, Inc. Method and apparatus for processing of heterogeneous units of work
US7778632B2 (en) * 2005-10-28 2010-08-17 Microsoft Corporation Multi-modal device capable of automated actions
US20070276651A1 (en) * 2006-05-23 2007-11-29 Motorola, Inc. Grammar adaptation through cooperative client and server based speech recognition
CN101030994A (zh) * 2007-04-11 2007-09-05 华为技术有限公司 语音识别方法、***、语音识别服务器
CN101377797A (zh) * 2008-09-28 2009-03-04 腾讯科技(深圳)有限公司 一种应用语音控制游戏***的方法和游戏***
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US20150279354A1 (en) * 2010-05-19 2015-10-01 Google Inc. Personalization and Latency Reduction for Voice-Activated Commands
CN103514882B (zh) * 2012-06-30 2017-11-10 北京百度网讯科技有限公司 一种语音识别方法及***
US9715879B2 (en) * 2012-07-02 2017-07-25 Salesforce.Com, Inc. Computer implemented methods and apparatus for selectively interacting with a server to build a local database for speech recognition at a device
US9190057B2 (en) 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9413891B2 (en) 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
US20150336786A1 (en) * 2014-05-20 2015-11-26 General Electric Company Refrigerators for providing dispensing in response to voice commands
CN105768520A (zh) * 2016-05-17 2016-07-20 扬州华腾个人护理用品有限公司 牙刷及其制备方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5922045A (en) * 1996-07-16 1999-07-13 At&T Corp. Method and apparatus for providing bookmarks when listening to previously recorded audio programs
US6269336B1 (en) * 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
WO2000058946A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022080659A1 (ko) * 2020-10-12 2022-04-21 삼성전자주식회사 전자 장치 및 이의 제어 방법

Also Published As

Publication number Publication date
WO2004114277A2 (en) 2004-12-29
JP2007516655A (ja) 2007-06-21
BRPI0411107A (pt) 2006-07-18
US20040254787A1 (en) 2004-12-16
CA2528019A1 (en) 2004-12-29
WO2004114277A3 (en) 2005-06-23
MXPA05013339A (es) 2006-03-17
IL172089A0 (en) 2009-02-11

Similar Documents

Publication Publication Date Title
US11069360B2 (en) Low power integrated circuit to analyze a digitized audio stream
CN107464557B (zh) 通话录音方法、装置、移动终端及存储介质
KR100627718B1 (ko) 문자 메시지에 포함되어 있는 전화 번호에 하이퍼링크기능을 제공하는 이동통신 단말기 및 그 방법
KR20060018888A (ko) 캐시 특징을 갖는 분배형 음성 인식 시스템 및 방법
US20070249406A1 (en) Method and system for retrieving information
CN104935744A (zh) 一种验证码显示方法、验证码显示装置及移动终端
CN108735217B (zh) 电子设备控制方法、装置、存储介质及电子设备
JP5283947B2 (ja) 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
JP2010175967A (ja) 音声認識サーバ、電話機、音声認識システム、および音声認識方法
US8374872B2 (en) Dynamic update of grammar for interactive voice response
CN105704106B (zh) 一种可视化ivr实现方法及移动终端
US8750840B2 (en) Directory assistance information via executable script
CN110754097B (zh) 通话控制方法、装置、终端设备及存储介质
CN104754138A (zh) 移动终端状态控制方法及装置
US8385523B2 (en) System and method to facilitate voice message retrieval
CN113421565A (zh) 搜索方法、装置、电子设备以及存储介质
CN113449197A (zh) 信息处理方法、装置、电子设备以及存储介质
US8639514B2 (en) Method and apparatus for accessing information identified from a broadcast audio signal
KR100703383B1 (ko) 휴대용 단말기의 전자사전서비스 방법
KR19990016904A (ko) 개인 휴대 통신을 이용한 전자 메일 전송 방법
JP2015079415A (ja) 情報処理装置、情報処理方法、及びプログラム
KR100724892B1 (ko) 휴대단말기에서 문자입력을 통한 통화수행 방법
CN113407768B (zh) 声纹检索方法、装置、***、服务器及存储介质
CN113784004B (zh) 录音方法、装置、存储介质及电子设备
JP6728507B2 (ja) デジタル化された音声ストリームを分析するための低電力集積回路

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application