KR20160055915A - 음성 보조 기능을 활성화하는 검출 임계값을 조정하는 방법 및 장치 - Google Patents

음성 보조 기능을 활성화하는 검출 임계값을 조정하는 방법 및 장치 Download PDF

Info

Publication number
KR20160055915A
KR20160055915A KR1020167009988A KR20167009988A KR20160055915A KR 20160055915 A KR20160055915 A KR 20160055915A KR 1020167009988 A KR1020167009988 A KR 1020167009988A KR 20167009988 A KR20167009988 A KR 20167009988A KR 20160055915 A KR20160055915 A KR 20160055915A
Authority
KR
South Korea
Prior art keywords
mobile device
context
threshold
input sound
sensor
Prior art date
Application number
KR1020167009988A
Other languages
English (en)
Other versions
KR102317608B1 (ko
Inventor
민섭 이
태수 김
규웅 황
민호 진
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20160055915A publication Critical patent/KR20160055915A/ko
Application granted granted Critical
Publication of KR102317608B1 publication Critical patent/KR102317608B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Abstract

이동 디바이스에서 음성 보조 기능을 활성화하는 방법이 개시된다. 그 방법은 사운드 센서에 의해 입력 사운드 스트림을 수신하는 단계 및 이동 디바이스의 콘텍스트를 결정하는 단계를 포함한다. 방법은 입력 사운드 스트림에 기초하여 콘텍스트를 결정할 수도 있다. 콘텍스트를 결정하기 위해, 방법은 또한 이동 디바이스 내의 가속도 센서, 로케이션 센서, 조명 센서, 근접 센서, 시계 유닛, 및 칼렌더 유닛 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득할 수도 있다. 이러한 방법에서, 음성 보조 기능을 활성화하기 위한 임계값은 콘텍스트에 기초하여 조정된다. 방법은 조정된 임계값에 기초하여 상기 입력 사운드 스트림으로부터 목표 키워드를 검출한다. 목표 키워드가 검출되는 경우, 방법은 음성 보조 기능을 활성화한다.

Description

음성 보조 기능을 활성화하는 검출 임계값을 조정하는 방법 및 장치{METHOD AND APPARATUS FOR ADJUSTING DETECTION THRESHOLD FOR ACTIVATING VOICE ASSISTANT FUNCTION}
본 출원은 2013년 9월 17일자로 출원된 공동으로 소유된 미국 비잠정적 특허 출원 제 14/029,131 호로부터 우선권을 주장하며, 그것의 내용들이 그것의 전체로서 참조에 의해 여기에 명백히 포함된다.
본 개시는 일반적으로 이동 디바이스 내의 음성 보조 기능을 활성화하는 방법에 관한 것이다. 특히, 본 개시는 이동 디바이스에서 목표 키워드를 검출하기 위한 임계값을 조정하는 것에 관한 것이다.
최근에, 스마트폰들 및 태블릿 컴퓨터들과 같은 이동 디바이스들의 사용이 널리퍼지게 되었다. 그러한 이동 디바이스들은 일반적으로 무선 네트워크들을 통한 음성 및 데이터 통신들을 허용한다. 통상, 이들 디바이스들은 사용자 편리성을 강화하도록 설계된 다양한 기능들을 제공하는 추가적인 특징들 또는 애플리케이션들을 포함한다.
그러한 애플리케이션들 또는 특징들 중에서, 음성 보조 애플리케이션은 이동 디바이스가 음성 커맨드에 응답하여 여러 기능들 또는 다른 애플리케이션들을 동작시키기 위해 사용자로부터 음성 커맨드를 수신하는 것을 가능하게 한다. 예를 들어, 음성 보조 애플리케이션은 손으로 이동 디바이스를 물리적으로 동작시키지 않고 원하는 전화 번호로 전화를 걸거나, 오디오 파일을 플레이하거나, 사진을 촬영하거나, 인터넷 검색을 하거나, 날씨 정보를 획득하기 위해 사용자가 음성 커맨드를 말하는 것을 허용할 수도 있다. 이에 따라, 사용자는 사용자가 이동 디바이스를 물리적으로 동작시키기 원하지 않을 수도 있거나 동작시킬 수 없는 다양한 상황들에서 이동 디바이스의 여러 동작들을 제어하기 위해 음성 커맨드를 사용하기를 선택할 수도 있다.
종래의 음성 보조 애플리케이션들은 종종 사용자에 의한 (예를 들어, 손에 의한) 물리적 입력에 응답하여 활성화된다. 그러나, 음성 보조 애플리케이션을 사용하는 목적들 중 하나는 물리적 입력 없이 이동 디바이스를 동작시키는 것일 수도 있기 때문에, 사용자는 음성 보조 애플리케이션을 물리적으로 활성화하는 것이 불편하거나 곤란하다는 것을 발견할 수도 있다. 따라서, 일부 이동 디바이스들은 사용자가 음성 커맨드를 말함으로써 음성 보조 애플리케이션을 활성화하는 것을 허용한다.
그러나, 그러한 이동 디바이스들은 종종 그 디바이스들에 의해 캡쳐된 여러 입력 사운드들에 응답하여 잘못 활성화되며, 적절한 음성 커맨드에 응답하여 활성화되는 것을 실패한다. 예를 들어, 이동 디바이스는 다른 사람의 발언을 적절한 음성 커맨드로서 잘못 인식하고 음성 보조 애플리케이션을 활성화할 수도 있다. 한편, 이동 디바이스가 소리가 큰 환경에 있는 경우, 그 이동 디바이스는 배경 노이즈에 기인하여 적절한 음성 커맨드를 인식하지 않고 따라서 음성 보조 애플리케이션을 활성화하는 것을 실패할 수도 있다.
본 개시는 디바이스들의 콘텍스트들에 따라 조정될 수도 있는 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출함으로써 음성 보조 기능을 활성화하는 방법들 및 디바이스들을 제공한다.
본 개시의 하나의 양태에 따르면, 이동 디바이스에서의 음성 보조 기능을 활성화하는 방법이 개시된다. 방법은 사운드 센서에 의해 입력 사운드 스트림을 수신하고 이동 디바이스의 콘텍스트를 결정하는 단계를 포함한다. 이 방법에서, 음성 보조 기능을 활성화하는 임계값은 콘텍스트에 기초하여 조정된다. 방법은 조정된 임계값에 기초하여 입력 사운트 스트림으로부터 목표 키워드를 검출한다. 목표 키워드가 검출되는 경우, 방법은 음성 보조 기능을 활성화한다. 본 개시는 또한 이러한 방법에 관련된 장치, 디바이스, 수단의 조합, 및 컴퓨터 판독가능 매체를 기술한다.
본 개시의 다른 양태에 따르면, 음성 보조 기능을 활성화하는 이동 디바이스는 사운드 센서, 임계값 조정 유닛, 및 음성 활성화 유닛을 포함한다. 사운드 센서는 입력 사운드 스트림을 수신하돌 구성된다. 임계값 조정 유닛은 이동 디바이스의 콘텍스트를 결정함으로써 음성 보조 기능을 활성화하기 위한 임계값을 조정하도록 구성된다. 음성 활성화 유닛은 목표 키워드가 조정된 임계값에 기초하여 입력 사운드 스트림으로부터 검출되는 경우 음성 보조 기능을 활성화하도록 구성된다.
본 개시의 발명적 양태들의 실시형태들은 첨부하는 도면들과 함께 읽혀지는 경우 다음의 상세한 설명을 참조하여 이해될 것이다.
도 1 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트가 차량 내에 있는 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 2 는 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트가 사용자가 깨어났을 것 같은 아침인 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 3 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트가 사용자가 잠들어 있을 것 같은 밤인 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 4 는 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트가 가방 내에 있는 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 5 는 본 개시의 하나의 실시형태에 따라, 텍스트 메시지를 수신하는 콘텍스트에서 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 6 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트에 기초하여 목표 키워드를 검출하기 위한 임계값을 조정함으로써 입력 사운드 스트림으로부터 목표 키워드를 검출하도록 구성된 이동 디바이스의 블록도를 도시한다.
도 7 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트를 결정함에 있어서 사용하기 위한 사운드 스트림 및 센서 데이터를 출력하도록 구성된 이동 디바이스 내의 센서 유닛의 블록도이다.
도 8 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트를 추론함으로써 음성 보조 기능을 활성화하기 위한 검출 임계값을 결정하도록 구성된 이동 디바이스 내의 임계값 조정 유닛의 블록도를 도시한다.
도 9 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트를 추론함으로써 음성 보조 기능을 활성화하기 위한 검출 임계값을 결정하기 위한, 이동 디바이스에서 수행되는 방법의 플로우챠트이다.
도 10 은 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값을 생성하고, 그 검출 임계값을 특정된 시간 주기 후에 미리 결정된 검출 임계값으로 재설정하기 위한, 이동 디바이스에서 수행되는 방법의 플로우챠트이다.
도 11 은 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출함으로써 음성 보조 기능을 활성하도록 구성된 이동 디바이스 내의 음성 활성화 유닛의 블록도를 도시한다.
도 12 는 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출함으로써 음성 보조 기능을 활성하기 위한, 이동 디바이스에서 수행되는 방법의 플로우챠트이다.
도 13 은 무선 통신 시스템 내의 이동 디바이스의 블록도를 도시하며, 여기서 방법들 및 장치는 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트에 따라 조정되는 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출한다.
이제 여러 실시형태들에 대해 상세히 언급될 것이며, 그의 예시들이 첨부하는 도면들에서 도시된다. 다음의 상세한 설명에서, 다수의 특정의 상세들은 본 주제의 철저한 이해를 제공하기 위해 진술된다. 그러나, 본 주제가 이들 특정의 상세들 없이 실시될 수도 있다는 것이 본 기술에서 통상의 지식을 가진자에게 명백할 것이다. 다른 예들에서, 잘 알려진 방법들, 절차들, 시스템들, 및 컴포넌트들은 여러 실시형태들의 양태들을 불필요하게 모호하게 하지 않도록 상세하게 기술되지 않았다.
도 1 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트가 차량 (130) 내에 있는 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스 (110) 를 도시한다. 이러한 도시된 실시형태에서, 이동 디바이스 (110) 의 사용자 (120) 는 이동 디바이스 (110) 가 차량 (130) 의 승객 좌석에 배치되어 있는 동안 차량 (130) 을 운전 중이다. 도 1 의 이동 디바이스 (110) 는 입력 사운드 내의 사용자의 스피치를 인식하는 스피치 인식 기능이 구비된 스마트폰일 수도 있다.
이동 디바이스 (110) 에서의 음성 보조 기능이 활성화되는 경우, 이동 디바이스 (110) 는 스피치 인식 기능을 사용하여 사용자 (120) 로부터의 여러 구두의 요청들, 명령들, 커맨드들 등에 응답할 수 있다. 예를 들어, 사용자 (120) 는 음성 보조 기능이 활성화된 경우 "수잔에게 전화해" 와 같은 명령을 말할 수도 있다. 응답으로, 이동 디바이스 (110) 는 그 명령을 인식하고 인식된 이름과 연관된 전화 번호를 사용하여 수잔에게 전화한다. 이동 디바이스 (110) 내의 음성 보조 기능은 이동 디바이스 (110) 의 버튼 또는 터치 스크린을 통한 입력에 응답하여 활성화될 수도 있다.
일부 실시형태들에서, 이동 디바이스 (110) 는 목표 키워드가 사용자 (120) 로부터의 입력 사운드에서 검출되는 경우 음성 보조 기능을 활성화하기 위한 미리 결정된 목표 키워드를 저장한다. 여기서 사용된 바와 같이, 용어 "목표 키워드" 는 이동 디바이스 (110) 내의 기능 또는 애플리케이션을 활성화하기 위해 사용될 수 있는 하나 이상의 단어들 또는 사운드의 임의의 디지털 또는 아날로그 표현을 지칭한다. 예를 들어, "어이 음성 보조" 또는 "음성 보조 시작" 과 같은 미리결정된 키워드는 음성 보조 기능을 활성화하기 위한 목표 키워드로서 이동 디바이스 (110) 내에 저장될 수도 있다. 입력 사운드가 사용자 (120) 로부터 수신되는 경우, 이동 디바이스 (110) 는 수신된 입력 사운드에 대해 스피치 인식 기능을 수행함으로써 입력 사운드 내의 목표 키워드를 검출할 수도 있다.
이동 디바이스 (110) 는 원하는 신뢰 레벨을 보장하기 위해 검출 임계값에 기초하여 목표 키워드를 검출하도록 구성될 수도 있다. 하나의 실시형태에서, 이동 디바이스 (110) 는 입력 사운드와 목표 키워드 사이의 유사도 (또는 키워드 매칭 스코어) 를 계산하고, 그 유사도를 검출 임계값과 비교한다. 유사도를 계산함에 있어서, 목표 키워드에 대한 미리 설정된 사운드 모델이 사용될 수도 있다. 입력 사운드와 목표 키워드 (또는 사운드 모델) 사이의 유사도가 검출 임계값을 초과하면, 이동 디바이스 (110) 는 입력 사운드 내의 목표 키워드를 검출하고 음성 보조 기능을 활성화한다. 한편, 유사도가 검출 임계값을 초과하지 않으면, 이동 디바이스 (110) 는 목표 키워드가 입력 사운드에서 검출되지 않는다고 결정한다.
검출 임계값은 입력 사운드 내의 목표 키워드를 검출하는 데 있어서의 정확성에 영향을 준다. 예를 들어, 검출 임계값이 너무 높으면, 이동 디바이스 (110) 는 목표 키워드를 포함하는 입력 사운드로부터 목표 키워드를 검출하지 않을 수도 있다. 그러한 경우에, 이동 디바이스 (110) 는 입력 사운드 내의 목표 키워드를 "미싱"하고, 목표 키워드에 대한 증가된 미스 (miss) 레이트를 초래할 수도 있다. 한편, 검출 임계값이 너무 낮으면, 이동 디바이스 (110) 는 목표 키워드를 포함하지 않는 입력 사운드에서 목표 키워드를 잘못 검출할 수도 있다. 그러한 경우에, 이동 디바이스는 음성 보조 기능을 잘못 활성화하고 (즉, "거짓 (false) 활성화"), 음성 보조 기능에 대한 증가된 거짓 활성화 레이트를 야기할 수도 있다.
일부 실시형태들에서, 검출 임계값은 미리결정된 값 (예를 들어, 디폴트 값) 으로 초기에 설정되고, 그 후 이동 디바이스 (110) 의 콘텍스트에서의 변경에 기초하여 조정된다. 도 1 을 참조하면, 이동 디바이스 (110) 는 사운드 센서, 글로벌 포지셔닝 시스템 (GPS), 및 가속도계와 같은 여러 센서들로부터의 콘텍스트 데이터에 기초하여 콘텍스트를 결정하도록 구성된다. 예를 들어, 이동 디바이스 (110) 의 사운드 센서는 입력 사운드로서 엔진 소리 및 도로 잡음을 포함하는 환경적 교통 잡음들을 캡쳐할 수도 있다. 또, GPS 및 가속도계는 이동 디바이스 (110) 의 로케이션, 속도, 및/또는 가속도를 모니터할 수도 있다. 센서들로부터의 콘텍스트 데이터에 기초하여, 이동 디바이스 (110) 는 챠량 내에 있는 것으로서 이동 디바이스 (110) 의 콘텍스트를 식별할 수도 있다.
이동 디바이스 (110) 의 콘텍스트가 차량 내에 있는 것으로 결정되는 경우, 도 1 의 이동 디바이스 (110) 의 사용자 (120) 는 손으로 이동 디바이스 (110) 를 물리적으로 동작시키는 것보다 음성 보조 기능을 사용하기가 더 쉽다는 것이 가정될 수도 있다. 이에 따라, 이동 디바이스 (110) 는 정상적이거나 식별되지 않은 콘텍스트들을 위해 미리 결정되는 디폴트 검출 임계값보다 낮은 값으로 검출 임계값을 조정할 수도 있다. 감소된 검출 임계값은 목표 키워드를 검출하는 가능성을 증가시켜 (예를 들어, 감소된 미스 레이트), 사용자가 손으로 이동 디바이스 (110) 를 동작시켜야 하는 가능성을 감소시킨다.
음성 보조 기능을 사용하는 가능성은 또한 일부 다른 콘텍스트들에서 높은 것으로 가정될 수도 있다. 도 2 는 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트가 사용자 (210) 가 깨어났을 것 같은 아침인 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스 (110) 를 도시한다. 이동 디바이스 (110) 는 사용자 (210) 근처에 배치되며, 예를 들어 도 2 에 도시된 바와 같이 침대 (220) 근처의 테이블 (230) 위에 놓여 있다.
이러한 예에서, 사용자 (210) 는 아침에 깨어났지만 여전히 침대 (220) 위에 앉아있다. 이 경우에, 이동 디바이스 (110) 내의 조명 센서는 이동 디바이스 (110) 의 밝은 환경을 나타내는 콘텍스트 데이터를 생성할 수도 있다. 또한, 이동 디바이스 (110) 내의 시계 유닛은 또한 콘텍스트 데이터로서 현재의 시간 (예를 들어, 7:00AM) 을 제공할 수도 있다. 일부 실시형태들에서, 현재의 시간은 그 또는 그녀가 통상 깨어나는 때를 나타내는 사용자 (210) 에 의해 이동 디바이스 (110) 에 설정된 시간과 비교될 수 있다. 또, 이동 디바이스 (110) 내의 사운드 센서는 또한 입력 사운드로서 작은 강도를 갖는 조용한 환경 사운드를 캡쳐하며, 이것이 콘텍스트 데이터로서 제공된다. 또한, 이동 디바이스 (110) 내의 GPS 유닛은 이동 디바이스 (110) 가 사용자 (210) 의 집에 있다고 결정할 수도 있고, 이것이 또한 콘텍스트 데이터로서 사용된다.
위에서 생성된 바와 같은 콘텍스트 데이터에 기초하여, 이동 디바이스 (110) 는 이동 디바이스 (110) 의 콘텍스트가 사용자 (210) 가 깨어났을 것 같은 아침인 것으로 결정할 수도 있다. 이러한 경우에, 이동 디바이스 (110) 의 사용자 (210) 는 손으로 이동 디바이스 (110) 를 물리적으로 동작시키는 것보다 음성 보조 기능을 사용하기가 더 쉽다고 가정될 수도 있다. 예를 들어, 사용자 (210) 는 침대 (220) 위에 앉아 있는 동안 이동 디바이스 (110) 의 음성 보조 기능을 사용하여 그 날의 날씨나 스케쥴을 체크하기를 원할 수도 있다. 이에 따라, 이동 디바이스 (110) 는 디폴트 검출 임계값보다 낮은 값으로 검출 임계값을 조정하여, 목표 키워드를 검출하는 가능성을 증가시키는 것 (예를 들어, 감소된 미스 레이트) 을 야기할 수도 있다.
대조적으로, 음성 보조 기능을 사용하는 가능성이 낮은 것으로 가정될 수도 있다. 도 3 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트가 사용자 (310) 가 잠들어 있을 것 같은 밤인 것으로 결정되는 경우 (즉, 슬리핑 콘텍스트) 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스 (110) 를 도시한다. 도 3 에서, 이동 디바이스 (110) 는 사용자 (310) 근처에 배치되며, 예를 들어 침대 (320) 근처의 테이블 (330) 위에 놓여 있다.
도 3 의 예에서, 사용자 (310) 는 밤에 침대 (320) 에서 잠자고 있는 중이다. 이러한 경우에, 이동 디바이스 (110) 의 조명 센서는 이동 디바이스 (110) 의 어두운 환경을 검출하고 그 어두운 환경을 나타내는 콘텍스트 데이터를 제공할 수도 있다. 또한, 이동 디바이스 (110) 의 시계 유닛은 또한 콘텍스트 데이터로서 현재의 시간 (예를 들어, 3:00AM) 을 제공할 수도 있다. 일부 실시형태들에서, 현재의 시간은 사용자 (310) 가 통상적으로 잠들고 잠에서 깨어나는 때를 나타내는, 그 또는 그녀에 의해 이동 디바이스 (110) 에 설정된 시간 범위와 비교될 수 있다. 또, 이동 디바이스 (110) 의 사운드 센서는 또한 입력 사운드로서 작은 세기를 갖는 조용한 환경 사운드를 캡쳐하고 그것을 콘텍스트 데이터로서 제공할 수도 있다. 또한, 이동 디바이스 (110) 의 로케이션은 이동 디바이스 (110) 의 GPS 유닛에 의해 결정되고 (예를 들어, 사용자 (310) 의 집인) 콘텍스트 데이터로서 사용될 수 있다.
위에서 생성된 바와 같은 콘텍스트 데이터에 기초하여, 이동 디바이스 (110) 는 이동 디바이스 (110) 의 콘텍스트를 사용자 (310) 가 잠들었을 것 같은 밤인 것으로 결정할 수도 있다. 이러한 경우에, 이동 디바이스 (110) 의 사용자 (310) 는 사용자 (310) 가 낮 시간에 깨어 있을 때보다 음성 보조 기능을 덜 사용하기 쉽다는 것이 가정될 수도 있다. 이에 따라서, 이동 디바이스 (110) 는 검출 임계값을 디폴트 검출 임계값보다 높은 값으로 조정할 수도 있다. 증가된 검출 임계값은 음성 보조 기능을 잘못 활성화하는 가능성을 감소시키는 것 (예를 들어, 감소된 거짓 활성화 레이트) 을 야기한다.
음성 보조 기능을 사용하는 가능성은 또한 일부 다른 콘텍스트들에서 낮은 것으로 가정될 수도 있다. 도 4 는 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트가 가방 (410) 내인 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스 (110) 를 도시한다. 도시된 예에서, 이동 디바이스 (110) 는 (점선 원으로 표시된 바와 같이) 가방 (410) 내에 놓여 있지만, 옷 주머니, 지갑 등과 같은 임의의 다른 종류의 컨테이너들 (containers) 내에 놓여 있을 수도 있다.
도 4 의 예에서, 여러 센서들이 이동 디바이스 (110) 의 콘텍스트를 나타내는 콘텍스트 데이터를 생성하기 위해 사용된다. 예를 들어, 이동 디바이스 (110) 의 조명 세서는 가방 (410) 내의 이동 디바이스 (110) 의 어두운 환경을 검출하고 그 어두운 환경을 나타내는 콘텍스트 데이터를 생성할 수도 있다. 또한, 근접 센서에 대해 가깝게 위치된 물체들을 감지하도록 구성되는, 이동 디바이스 (110) 의 근접 센서는 물체가 이동 디바이스 (110) 에 대해 가깝게 존재하는 것을 나타내는 콘텍스트 데이터를 생성하기 위해 사용될 수도 있다. 이러한 예에서, 근접 센서는 가까운 물체들, 예를 들어 가방 (410) 의 내부 표면의 존재를 검출할 수도 있다. 또한, 이동 디바이스 (110) 의 사운드 센서는 입력으로서 이동 디바이스 (110) 와 가방 (410) 의 둘러싼 내부 표면 사이의 마찰에 의해 야기될 수도 있는 스치는 소리나 두드리는 소리를 캡쳐할 수도 있다. 캡쳐된 입력 사운드는 또한 이동 디바이스 (110) 의 콘텍스트를 결정하는데 있어서 콘텍스트 데이터로서 사용된다.
위에서 생성된 콘텍스트 데이터에 기초하여, 이동 디바이스 (110) 는 콘텍스트를 가방 (410) 과 같은 컨테이너 내인 것으로서 결정할 수도 있다. 이러한 콘텍스트에서, 도 4 의 이동 디바이스 (110) 의 사용자는 이동 디바이스 (110) 가 그러한 컨테이너 (예를 들어, 가방 (410)) 밖에 배치되는 것보다 음성 보조 기능을 덜 사용하기 쉽다고 가정될 수도 있다. 이에 따라, 이동 디바이스 (110) 는 디폴트 검출 임계값보다 높은 값으로 검출 임계값을 조정할 수도 있다. 증가된 검출 임계값은 음성 보조 기능을 잘못 활성화하는 가능성을 감소시키는 것 (예를 들어, 감소된 거짓 활성화 레이트) 을 야기한다.
일부 실시형태들에서, 이동 디바이스 (110) 는 이동 디바이스 (110) 의 동작 상태가 아이들 상태로부터 활성 상태로 변경되는 콘텍스트를 검출할 수도 있다. 도 5 는 본 개시의 하나의 실시형태에 따라, 텍스트 메시지를 수신하는 콘텍스트에서 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스 (110) 를 도시한다. 초기에, 이동 디바이스 (110) 는 애플리케이션 프로세서가 이동 디바이스 (110) 를 위해 전력을 보존하는 비활성 상태에 있을 수도 있는 아이들 상태에 있을 수도 있다. 이동 디바이스 (110) 가 아이들 상태 동안 외부 네트워크로부터 텍스트 메시지를 수신하는 경우, 애플리케이션 프로세서가 활성화되어 메시지 애플리케이션을 실행하고 이동 디바이스 (110) 의 디스플레이 스크린 (510) 상에 전송자 (즉, "존 도우") 및 텍스트 메시지 (즉, "안녕, 지금 통화할 수 있니?") 에 대한 통지를 출력할 수도 있다.
이동 디바이스 (110) 의 동작 상태는 또한 이동 디바이스 (110) 가 이메일 메시지, 멀티미디어 메시지, 푸시 통지 등을 수신하는 경우 아이들 상태로부터 활성 상태로 변경될 수도 있다. 또, 이동 디바이스 (110) 는 또한 경보 이벤트 (예를 들어, 타이머 알람) 에 응답하여 아이들 상태로부터 활성 상태로 변경될 수도 있다.
이동 디바이스 (110) 또는 애플리케이션 프로세서의 동작 상태가 아이들 상태로부터 활성 상태로 변경되는 경우, 이동 디바이스 (110) 의 사용자는 동작을 수행하기 위해 음성 보조 기능을 사용하기가 더 쉽다. 도 5 의 예에서, 사용자는 음성 보조 기능을 통해 텍스트 메시지의 전송자에게 전화하기 위해 이동 디바이스 (110) 를 사용할 수도 있다. 이에 따라, 음성 보조 기능을 사용하는 가능성은 이동 디바이스 (110) 가 아이들 상태에 있을 때보다 높은 것으로 가정될 수도 있다. 따라서, 이동 디바이스 (110) 가 아이들 상태로부터 활성 상태로의 동작 상태 변경을 검출하는 경우, 그것은 검출 임계값을 디폴트 검출 임계값보다 낮게 w조정한다. 감소된 검출 임계값은 목표 키워드를 검출하는 가능성을 증가시킨다 (예를 들어, 감소된 미스 레이트).
도 6 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트에 기초하여 목표 키워드를 검출하기 위한 임계값을 조정함으로써 입력 사운드 스트림으로부터 목표 키워드를 검출하도록 구성된 이동 디바이스 (110) 의 블록도를 도시한다. 여기서 사용된 바와 같이, 용어 "사운드 스트림" 은 하나 이상의 사운드 신호들 또는 사운드 데이터의 시퀀스를 지칭한다. 도 6 에 도시된 바와 같이, 이동 디바이스 (110) 는 센서 유닛 (610), I/O (입력/출력) 유닛 (620), 저장 유닛 (630), 통신 유닛 (640), 및 프로세서 (650) 를 포함할 수도 있다. 이동 디바이스 (110) 는 셀룰러 전화, 스마트폰, 랩톱 컴퓨터, 태블릿 개인용 컴퓨터, 게이밍 디바이스, 멀티미디어 플레이어 등과 같은 사운드 캡쳐 및 프로세싱 능력이 구비된 임의의 적합한 디바이스일 수도 있다.
프로세서 (650) 는 디지털 신호 프로세서 (DSP) (680), 음성 보조 유닛 (688), 시계 유닛 (690), 및 스케쥴 유닛 (692) 를 포함할 수도 있고, 이동 디바이스 (110) 를 관리하고 동작시키기 위한 애플리케이션 프로세서 또는 중앙 프로세싱 유닛 (CPU) 일 수도 있다. 시계 유닛 (690) 은 시계 기능, 타이머 기능 등을 구현한다. 예를 들어, 시계 유닛 (690) 은 이동 디바이스 (110) 의 사용자에게 현재의 시간을 출력하거나 I/O 유닛 (620) 의 디스플레이 유닛 및/또는 스피커 유닛을 통해 설정된 시간이 도달되면 사용자에게 통지할 수도 있다. 또한, 스케쥴 유닛 (692) 은 사용자에 의해 입력되는 스케쥴들 (예를 들어, 약속들, 이베트들 등) 을 저장 및 관리한다. 스케쥴 유닛 (692) 은 저장된 스케쥴들의 시간들의 추적을 계속하고 I/O 유닛 (620) 을 통해 사용자에게 연관된 통지들을 제공할 수도 있다.
DSP (680) 는 스피치 검출기 (682), 임계값 조정 유닛 (684), 및 음성 활성화 유닛 (686) 을 포함할 수도 있다. 하나의 실시형태에서, DSP (680) 는 사운드 스트림을 프로세싱하는데 있어서 전력 소비를 감소시키는 저전력 프로세서이다. 이러한 구성에서, 임계값 조정 유닛 (684) 은 이동 디바이스 (110) 의 콘텍스트에 기초하여 검출 임계값을 조정하도록 구성된다. 음성 활성화 유닛 (686) 은 조정된 검출 임계값에 기초하여 목표 키워드가 사운드 스트림에서 검출되는 경우 음성 활성화 유닛 (686) 을 활성화하도록 구성된다.
센서 유닛 (610) 은 사운드 센서 (660) 및 콘텍스트 센서 (670) 을 포함할 수도 있다. 사운드 센서 (660) 는 입력 사운드 스트림을 수신하고 DSP (680) 내의 스피치 검출기 (682) 및 임계값 조정 유닛 (684) 로 제공하도록 구성된다. 일부 실시형태들에서, 사운드 센서 (660) 는 수신된 입력 사운드 스트림이 임계 사운드 세기보다 세기가 큰 경우 DSP (680) 내의 스피치 검출기 (682) 및 임계값 조정 유닛 (684) 을 활성화한다. 활성화 시, 입력 사운드 스트림은 또한 사운드 센서 (660) 로부터 스피치 검출기 (682) 및 임계값 조정 유닛 (684) 으로 제공된다.
센서 유닛 (610) 내의 콘텍스트 센서 (670) 는 이동 디바이스 (110) 의 콘텍스트를 나타내는 센서 데이터를 생성하는 다양한 센서들을 포함할 수도 있다. 센서 데이터는 그 후 임계값 조정 유닛 (684) 으로 제공된다. 하나의 실시형태에서, 콘텍스트 센서 (670) 는 또한 센서 데이터가 제공되기 전에 임계값 조정 유닛 (684) 을 활성화할 수도 있다. 사운드 센서 (660) 및 콘텍스트 센서 (670) 는 이하에 도 7 을 참조하여 더욱 상세히 기술될 것이다. 이하에 도 8 을 참조하여 더욱 상세히 기술되는 바와 같이, 통신 유닛 (640), 시계 유닛 (690), 및 스케쥴 유닛 (692) 은 임계값 조정 유닛 (684) 에게 아이들 상테로부터 활성 상태로의 프로세서 (650) 의 동작 상태에서의 변경을 나타내는 통지를 제공하도록 구성될 수도 있다.
임계값 조정 유닛 (684) 은 집합적으로 콘텍스트 데이터로서 지칭될 수도 있는 수신된 입력 사운드 스트림, 센서 데이터, 및/또는 하나 이상의 통지들에 기초하여 이동 디바이스 (110) 의 콘텍스트를 결정하도록 구성된다. 이동 디바이스 (110) 의 콘텍스트를 결정한 후, 임계값 조정 유닛 (684) 은 결정된 콘텍스트에 따라 검출 임계값을 조정한다. 예를 들어, 이동 디바이스 (110) 의 콘텍스트가 음성 보조 유닛 (688) 이 (예를 들어, 도 1, 도 2, 및 도 5 를 참조하여 위에 기술된 바와 같은 콘텍스트들에서) 사용될 것 같다고 나타내는 경우, 임계값 조정 유닛 (684) 은 검출 임계값을 낮게, 예를 들어 디폴트 검출 임계값보다 낮게 조정한다. 한편, 이동 디바이스 (110) 의 콘텍스트는 음성 보조 유닛 (688) 이 (예를 들어, 도 3 및 도 4 를 참조하여 위에 기술된 바와 같은 콘텍스트들에서) 사용될 것 같지 않다고 나타내는 경우, 임계값 조정 유닛 (684) 은 검출 임계값을 높게, 예를 들어 디폴트 검출 임계값보다 높게 조정한다.
일부 실시형태들에서, 검출 임계값은 상이한 콘텍스트들에 대해 미리 결정되고 이동 디바이스 (110) 의 저장 유닛 (630) 에 저장될 수도 있다. 예를 들어, 콘텍스트들 및 연관된 검출 임계값들은 룩업 테이블 또는 데이터베이스 구조로서 저장될 수도 있다. 룩업 테이블의 경우에, 임계값 조정 유닛 (684) 은 연관된 검출 임계값을 획득하기 위해 인덱스로서 결정된 콘텍스트를 사용하는 테이블을 액세스할 수도 있다. 임계값 조정 유닛 (684) 은 그 후 음성 활성화 유닛 (686) 으로 조정된 검출 임계값으로서 획득된 검출 임계값을 제공한다. 이동 디바이스 (110) 의 저장 유닛 (630) 은 RAM (랜덤 액세스 메모리), ROM (리드 온리 메모리), EEPROM (전기적으로 소거가능 프로그램가능 리드 온리 메모리), 플래시 메모리, 또는 SSD (고체 상태 드라이브) 와 같은 임의의 적합한 기억장치 또는 메모리 디바이스들을 사용하여 구현될 수도 있다.
목표 키워드를 검출하는데 사용하기 위해, 저장 유닛 (630) 은 또한 목표 키워드를 저장할 수도 있다. 하나의 실시형태에서, 목표 키워드는 단음들 (phones), 음소들, 또는 이들의 서브 유닛들과 같은 복수의 기본 사운드 유닛들로 분할될 수도 있고, 목표 키워드를 표현하는 복수의 부분들은 기본 사운드 유닛들에 기초하여 생성될 수도 있다. 목표 키워드의 각 부분은 그 후 은닉된 마르코프 모델 (HMM), 세미-마르코프 모델 (SMM), 또는 이들의 조합과 같은 마르코프 체인 모델 하의 상태와 연관된다. 이러한 경우에, 저장 유닛 (630) 은 목표 키워드의 복수의 부분들과 연관된 복수의 상태들에 대한 상태 정보를 저장할 수도 있고, 이것은 그 자신을 포함하는 상태들 각각으로부터 다음의 상태로의 천이 정보를 포함한다.
DSP (680) 내의 스피치 검출기 (682) 는, 활성화될 때, 사운드 센서 (660) 로부터 입력 사운드 스트림을 수신한다. 하나의 실시형태에서, 스피치 검출기 (682) 는 수신된 입력 사운드 스트림으로부터 복수의 사운드 특징들을 추출하고, 그 추출된 사운드 특징들이 가우시안 혼합 모델 (GMM) 기반 분류기, 인공 신경망, HMM, 그래픽 모델, 및 서포트 벡터 머신 (SVM) 과 같은 임의의 적합한 사운드 분류 방법을 사용하여 인간 스피치와 같은 관심의 사운드를 나타내는지 여부를 결정한다. 수신된 입력 사운드 스트림이 관심의 사운드인 것으로 결정되는 경우, 스피치 검출기 (682) 는 음성 활성화 유닛 (686) 을 활성화하고 수신된 입력 사운드 스트림은 음성 활성화 유닛 (686) 으로 제공된다. 일부 다른 실시형태들에서, 스피치 검출기 (682) 는 DSP (680) 에서 생략될 수도 있다. 이러한 경우, 수신된 입력 사운드 스트림이 임계 세기보다 세기가 큰 경우, 사운드 센서 (660) 는 음성 활성화 유닛 (686) 을 활성화하고, 음성 활성화 유닛 (686) 으로 직접 수신된 입력 사운드 스트림을 제공한다.
상술된 바와 같이, 음성 활성화 유닛 (686) 은 임계값 조정 유닛 (684) 및 스피치 검출기 (682) 로부터 조정된 검출 임계값 및 입력 사운드 스트림이 제공된다. 조정된 검출 임계값 및 입력 사운드 스트림을 수신했을 때, 음성 활성화 유닛 (686) 은 검출 임계값에 기초하여 입력 사운드 스트림으로부터 목표 키워드를 검출한다. 입력 사운드 스트림이 수신되자 마자, 음성 활성화 유닛 (686) 은 입력 사운드 스트림으로부터 복수의 사운드 특징들을 순차적으로 추출할 수도 있다. 또한, 음성 활성화 유닛 (686) 은 복수의 추출된 사운드 특징들 각각을 프로세싱하고, 저장 유닛 (630) 으로부터 목표 키워드에 대한 천이 정보 및 복수의 상태들을 포함하는 상태 정보를 획득할 수도 있다. 각각의 프로세싱된 사운드 특징에 대해, GMM, 신경망, 및 SVM 과 같은 임의의 적합한 확률 모델을 사용함으로써 상태들 각각에 대해 관찰 스코어가 결정될 수도 있다.
천이 정보로부터, 음성 활성화 유닛 (686) 은 목표 키워드에 대해 가능한 복수의 상태 시퀀스들에서 상태들 각각으로부터 다음의 상태로의 천이 스코어들을 획득할 수도 있다. 관찰 스코어들을 결정하고 천이 스코어들을 획득한 후, 음성 활성화 유닛 (686) 은 가능한 상태 시퀀스들에 대한 스코어들을 결정한다. 하나의 실시형태에서, 결정된 스코어들 중 가장 큰 스코어가 프로세싱된 사운드 특징에 대해 키워드 스코어로서 사용될 수도 있다. 프로세싱된 사운드 특징에 대한 키워드 스코어가 (임계 키워드 스코어로서도 지칭될 수도 있는) 검출 임계값보다 큰 경우, 음성 활성화 유닛 (686) 은 목표 키워드로서 입력 사운드 스트림을 검출한다. 목표 키워드를 검출했을 때, 음성 활성화 유닛 (686) 은 목표 키워드와 연관되는, 음성 보조 유닛 (688) 을 턴 온하는 활성화 신호를 생성 및 송신한다.
음성 보조 유닛 (688) 은 음성 활성화 유닛 (686) 으로부터의 활성화 신호에 응답하여 활성화된다. 일단 활성화되면, 음성 보조 유닛 (688) 은 I/O 유닛 (620) 의 디스플레이 유닛 상에 및/또는 스피커 유닛을 통해 "무엇을 도와드릴까요?" 와 같은 메시지를 출력할 수도 있다. 응답으로, 사용자는 이동 디바이스 (110) 의 여러 연관된 기능들을 활성화하기 위해 음성 커맨드들을 말할 수도 있다. 예를 들어, 인터넷 검색을 위한 음성 커맨드가 수신되는 경우, 음성 보조 유닛 (688) 은 그 음성 커맨드를 검색 커맨드로서 인식하고, 외부 네트워크 (694) 를 통해 통신 유닛 (640) 을 통해 웹 검색을 수행할 수도 있다. 도시된 실시형태는 목표 키워드를 검출하는 것에 응답하여 음성 보조 유닛 (688) 을 활성화하지만, 그것은 또한 연관된 목표 키워드를 검출하는 것에 응답하여 임의의 다른 애플리케이션들 또는 기능들을 활성화할 수도 있다.
도 7 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트를 결정함에 있어서 사용하기 위한 사운드 스트림 및 센서 데이터를 출력하도록 구성된 센서 유닛 (610) 의 더욱 상세한 블록도를 도시한다. 사운드 센서 (660) 는 입력 사운드 스트림을 수신하고, 그것은 그 후 DSP (680) 내의 스피치 검출기 (682) 로 제공된다. 수신된 입력 사운드 스트림은 또한 콘텍스트 데이터로서 DSP (680) 내의 임계값 조정 유닛 (684) 으로 제공된다. 사운드 센서 (660) 는 입력 사운드 스트림을 수신, 캡쳐, 감지, 및/또는 검출하기 위해 사용될 수 있는 하나 이상의 마이크로폰들 또는 임의의 다른 타입들의 사운드 센서들을 포함할 수도 있다. 또한, 사운드 센서 (660) 는 그러한 기능들을 수행하는 임의의 적합한 소프트웨어 및/또는 하드웨어를 채용할 수도 있다. 하나의 실시형태에서, 사운드 센서 (660) 는 듀티 사이클에 따라 주기적으로 입력 사운드 스트림을 수신하도록 구성될 수도 있다.
도 7 에 도시된 바와 같이, 콘텍스트 센서 (670) 는 로케이션 센서 (710), 가속도계 (720), 근접 센서 (730), 및 조명 센서 (740) 을 포함할 수도 있다. GPS 디바이스에 의해 구현될 수도 있는 로케이션 센서 (710) 는 로케이션, 방향, 이동 디바이스 (110) 가 이동하고 있는 속도 등과 같은 이동 디바이스 (110) 와 연관된 센서 데이터를 생성하도록 구성된다. 가속도계 (720) 는 이동 디바이스 (110) 의 가속도, 배향 등을 나타내는 센서 데이터를 생성한다.
근접 센서 (730) 는 예를 들어 자기적, 광학적, 용량적 기술들을 사용하여 이동 디바이스 (110) 에 대해 가깝게 위치된 물체를 검출하도록 구성된다. 하나의 근접 센서 (730) 가 도 7 에서 도시되지만, 콘텍스트 센서 (670) 는 (예를 들어, 이동 디바이스 (110) 의 전방, 후방, 우측 및 좌측에서) 이동 디바이스 (110) 의 다수의 로케이션들에서 물체들을 검출하기 위해 임의의 적합한 수의 근접 센서들을 포함할 수도 있다. 조명 센서 (740) 는 이동 디바이스 (110) 의 주변의 조명 조건, 즉 밝기를 감지하도록 구성된 광 검출기이다. 로케이션 센서 (710), 가속도계 (720), 근접 센서 (730), 및 조명 센서 (740) 에 의해 생성된 센서 데이터는 임계값 조정 유닛 (684) 으로 제공되고 이동 디바이스 (110) 의 콘텍스트를 결정하는데 있어서 콘텍스트 데이터로서 사용된다.
도 8 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트를 결정함으로써 음성 보조 유닛 (688) 을 활성화하기 위한 검출 임계값을 조정하도록 구성된 임계값 조정 유닛 (684) 의 블록도를 도시한다. 임계값 조정 유닛 (684) 은 콘텍스트 추론 유닛 (810) 및 임계값 결정 유닛 (820) 을 포함할 수도 있다. 콘텍스트 추론 유닛 (810) 은 이동 디바이스 (110) 의 콘텍스트를 결정하고, 임계값 결정 유닛 (820) 은 이동 디바이스 (110) 의 콘텍스트에 기초하여 검출 임계값을 조정한다. 조정된 검출 임계값은 그 후 입력 사운드 스트림으로부터 목표 키워드를 검출하는데 사용하기 위해 음성 활성화 유닛 (686) 으로 제공된다.
이동 디바이스 (110) 의 콘텍스트를 결정하는 것을 위해, 콘텍스트 추론 유닛 (810) 은 사운드 센서 (660) 로부터 입력 사운드 스트림을 그리고 콘텍스트 센서 (670) 로부터 센서 데이터를 수신한다. 콘텍스트 추론 유닛 (810) 은 또한 시계 유닛 (690), 스케쥴 유닛 (692), 및 통신 유닛 (640) 으로부터 하나 이상의 통지들을 수신하도록 구성된다. 또한, 시계 유닛 (690) 은 콘텍스트 추론 유닛 (810) 으로 현재의 시간을 제공할 수도 있다. 입력 사운드 스트림, 센서 데이터, 통지들, 및 현재의 시간은 이동 디바이스 (110) 의 콘텍스트를 결정하는데 있어서 콘텍스트 데이터로서 콘텍스트 추론 유닛 (810) 에 의해 사용된다.
위에서 도 6 을 참조하여 기술된 바와 같이, 콘텍스트 추론 유닛 (810) 으로 제공된 통지들은 아이들 상태로부터 활성 상태로의 프로세서 (650) 의 동작 상태에서의 변경과 같은, 이동 디바이스의 상태 정보를 나타낼 수도 있다. 예를 들어, 통신 유닛 (640) 은 도 6 의 네트워크 (694) 를 통해 전자 메시지를 수신할 때 그러한 통지를 제공할 수도 있다. 전자 메시지는 이메일 메시지, 텍스트 메시지, 멀티미디어 메시지, 푸시 통지 등과 같은 네트워크 (694) 를 통해 수신된 임의의 메시지 또는 통지를 포함할 수도 있다. 시계 유닛 (690) 은 특정된 시간에 사용자에게 경보를 발하도록 구성될 수도 있다 (예를 들어, 알람). 그 특정된 시간이 도달되면, 시계 유닛 (690) 은 프로세서 (650) 를 활성화하고, 프로세서 (650) 의 동작 상태에서의 변경의 통지가 콘텍스트 추론 유닛 (810) 으로 제공된다. 또한, 스케쥴 유닛 (692) 은 이동 디바이스 (110) 에 저장된 스케듈들 또는 이벤트들의 시간들의 추적을 계속하고, 그러한 시간들에 또는 그러한 시간들의 미리 결정된 시간 전에 콘텍스트 추론 유닛 (810) 에게 통지를 제공할 수도 있다.
콘텍스트 추론 유닛 (810) 은 수신된 콘텍스트 데이터를 분석하고, 이동 디바이스 (110) 의 콘텍스트를 결정한다. 이동 디바이스 (110) 의 콘텍스트를 결정함에 있어서, 콘텍스트 추론 유닛 (810) 은 입력 사운드, 센서 데이터, 통지들, 현재의 시간, 또는 이들의 임의의 조합으로부터 콘텍스트를 추론할 수도 있다. 예를 들어, 이동 디바이스 (110) 의 콘텍스트는 위에서 도 1 을 참조하여 기술된 바와 같이, 이동 디바이스 (110) 의 로케이션, 속도, 및/또는 가속도를 포함할 수도 있는 입력 사운드 스트림 및 센서 데이터에 기초하여 차량 내에 있는 것으로 추론될 수도 있다.
일부 실시형태들에서, 이동 디바이스 (110) 의 여러 콘텍스트들은 그 콘텍스트들을 콘텍스트 추론 유닛 (810) 에 의해 수신될 수 있는 콘텍스트 데이터와 연관시키는 콘텍스트 데이터베이스에 따라 미리 결정되고 저장될 수도 있다. 콘텍스트 데이터베이스 내의 미리 결정된 콘텍스트들 중에서, 콘텍스트 추론 유닛 (810) 은 이동 디바이스 (110) 의 현재의 콘텍스트로서 수신된 콘텍스트 데이터에 대응하는 콘텍스트를 선택할 수도 있다. 콘텍스트 추론 유닛 (810) 은 그 후 선택된 콘텍스트에 대한 콘텍스트 표시자를 생성하고, 임계값 결정 유닛 (820) 으로 그 콘텍스트 표시자를 제공한다.
콘텍스트 추론 유닛 (810) 으로부터 콘텍스트 표시자를 수신했을 때, 임계값 결정 유닛 (820) 은 그 수신된 콘텍스트 표시자에 기초하여 검출 임계값을 조정한다. 일부 실시형태들에서, 검출 임계값에 대한 값들은 미리 결정된 콘텍스트들에 대해 미리 설정되고, 저장 유닛 (630) 에 저장될 수도 있다. 임계값 결정 유닛 (820) 은 콘텍스트 표시자에 의해 식별된 콘텍스트와 연관된 검출 임계값을 획득하기 위해 저장 유닛 (630) 에 액세스할 수도 있다.
하나의 실시형태에서, 검출 임계값은 콘텍스트들 각각에서 음성 보조 유닛 (688) 을 사용하는 가능성에 기초하여 설정될 수도 있다. 예를 들어, 음성 보조 유닛 (688) 을 사용하는 가능성이 (예를 들어 도 1, 도 2 및 도 5 를 참조하여 상술된 바와 같은 콘텍스트들에서) 높으면, 임계값 조정 유닛 (684) 은 (예를 들어 정상적이거나 식별되지 않은 콘텍스트들에 대해 미리 결정되는 디폴트 검출 임계값보다 낮도록) 검출 임계값을 감소시킬 수도 있다. 한편, 음성 보조 유닛 (688) 을 사용하는 가능성이 (예를 들어, 도 3 및 도 4 를 참조하여 상술된 바와 같은 콘텍스트들에서) 낮으면, 임계값 조정 유닛 (684) 은 (예를 들어 디폴트 검출 임계값보다 높도록) 검출 임계값을 증가시킬 수도 있다. 결과로서, 검출 임계값은 이동 디바이스 (110) 의 결정된 콘텍스트에서 음성 보조 유닛 (688) 을 사용하는 가능성과 연관하여 조정될 수 있다. 조정된 검출 임계값은 그 후 음성 보조 유닛 (688) 을 활성화하기 위한 목표 키워드를 검출하는데 사용되기 위해 음성 보조 유닛 (688) 으로 제공된다.
도 9 는 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트를 추론함으로써 음성 보조 유닛 (688) 을 활성화하기 위한 검출 임계값을 결정하기 위한, 이동 디바이스 (110) 의 임계값 조정 유닛 (684) 에서 수행되는 방법 (900) 의 플로우챠트이다. 910 에서, 임계값 조정 유닛 (684) 내의 콘텍스트 추론 유닛 (810) 은 콘텍스트 데이터를 수신한다. 920 에서, 수신된 콘텍스트 데이터에 기초하여, 이동 디바이스 (110) 의 콘텍스트가 콘텍스트 추론 유닛 (810) 에서 결정될 수도 있다. 콘텍스트 추론 유닛 (810) 은 또한 결정된 콘텍스트와 연관된 콘텍스트 표지자를 생성할 수도 있고, 그것은 임계값 결정 유닛 (820) 으로 제공된다.
임계값 결정 유닛 (820) 은, 930 에서, 콘텍스트 추론 유닛 (810) 으로부터 수신된 콘텍스트 표시자에 의해 식별되는 이동 디바이스 (110) 의 콘텍스트에 따라 검출 임계값을 조정한다. 검출 임계값을 조정하기 위해, 임계값 결정 유닛 (820) 은 이동 디바이스 (110) 의 콘텍스트와 연관된 검출 임계값을 획득하기 위해 저장 유닛 (630) 에 액세스할 수도 있다. 일단 검출 임계값이 조정되면, 임계값 결정 유닛 (820) 은 940 에서 음성 활성화 유닛 (686) 으로 조정된 검출 임계값을 제공할 수도 있다. 조정된 검출 임계값은 음성 활성화 유닛 (686) 에 의해 목표 키워드를 검출하는데 있어서 사용된다.
일부 실시형태들에서, 조정된 검출 임계값은 디폴트 검출 임계값으로 재설정될 수도 있다. 도 10 은 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값을 생성하고, 그 검출 임계값을 특정된 시간 주기 후에 미리 결정된 검출 임계값으로 재설정하기 위한, 이동 디바이스 (110) 의 임계값 조정 유닛 (684) 에서 수행되는 방법 (1000) 의 플로우챠트이다. 도 9 를 참조하여 기술된 바와 동일한 방식으로, 콘텍스트 추론 유닛 (810) 은 910 에서 콘텍스트 데이터를 수신하고, 920 에서 이동 디바이스 (110) 의 콘텍스트를 결정한다. 임계값 결정 유닛 (820) 은 930 에서 그 콘텍스트에 기초하여 검출 임계값을 조정하고, 940 에서 음성 활성화 유닛 (686) 으로 조정된 검출 임계값을 제공한다.
특정된 시간 주기에 대한 타이머가, 1010 에서, 예를 들어 프로세서 (650) 내의 시계 유닛 (690) 을 사용함으로써 설정될 수도 있다. 그 시간 주기는 미리 결정될 수도 있다. 임계값 조정 유닛 (684) 은 1020 에서 그 타이머를 모니터하고 특정된 시간 주기가 경과했는지 여부를 결정한다. 대안적으로, 시계 유닛 (690) 은 특정되 시간 주기가 경과했는지 여부를 검출하고 임계값 조정 유닛 (684) 에게 그 시간 주기가 경과한 때를 통지할 수도 있다. 특정된 시간 주기가 경과한 경우, 임계값 조정 유닛 (684) 은 1030 에서 검출 임계값을 미리 결정된 검출 임계값 (예를 들어, 디폴트 검출 임계값) 으로 재설정할 수도 있다. 다르게는, 특정된 시간 주기가 경과하지 않은 경우, 방법 (1000) 은 특정된 시간 주기가 경과했는지 여부를 결정하기 위해 1020 으로 리턴할 수도 있다.
도 11 은 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출함으로써 음성 보조 유닛 (688) 을 활성하도록 구성된 음성 활성화 유닛 (686) 의 블록도를 도시한다. 음성 활성화 유닛 (686) 은 특징 추출기 (1110), 키워드 스코어 계산 유닛 (1120), 및 키워드 검출 유닛 (1130) 을 포함할 수도 있다. 음성 활성화 유닛 (686) 내의 키워드 검출 유닛 (1130) 이 입력 사운드 스트림으로부터 목표 키워드를 겸출하는 경우, 그것은 음성 보조 유닛 (688) 을 턴 온하기 위해 활성화 신호를 생성한다.
스피치 검출기 (682) 가 입력 사운드 스트림이 인간 스피치인 것으로서 결정하는 경우, 특징 추출기 (1110) 는 입력 사운드 스트림을 수신하고, 입력 사운드 스트림으로부터 하나 이상의 사운드 특징들을 추출한다. 일부 실시형태들에서, 특징 추출기 (1110) 는 동일한 시간 주기의 복수의 순차적인 프레임들로 입력 사운드 스트림을 세그멘팅한다. 예를 들어, 입력 사운드 스트림은 수신되고 10 ms 의 프레임들로 순차적으로 세그멘팅될 수도 있다. 이러한 경우에, 특징 추출기 (1110) 는 프레임들 각각으로부터 사운드 특징을 추출한다. 하나의 실시형태에서, 특징 추출기 (1110) 는 MFCC (Mel-frequency cepstral coefficients) 방법과 같은 임의의 적합한 특징 추출을 사용하여 프레임들로부터 사운드 특징들을 추출할 수도 있다. 예를 들어, MFCC 방법의 경우에, n-차원 벡터의 성분들은 세그멘팅된 프레임들 각각으로부터 계산되고, 그 벡터가 사운드 특징으로서 사용된다.
추출된 사운드 특징들은 특징 추출기 (1110) 로부터 키워드 스코어 계산 유닛 (1120) 으로 제공된다. 각각의 사운드 특징을 수신했을 때, 키워드 스코어 계산 유닛 (1120) 은 사운드 특징에 대한 키워드 스코어를 결정한다. 키워드 스코어는 도 6 을 참조하여 상술된 바와 같은 방식으로 결정될 수도 있다. 결정된 키워드 스코어는 키워드 검출 유닛 (1130) 으로 제공된다.
키워드 검출 유닛 (1130) 은 키워드 스코어 계산 유닛 (1120) 으로부터 키워드 스코어를 수신한다. 키워드 검출 유닛 (1130) 은 또한 임계값 조정 유닛 (684) 으로부터 조정된 검출 임계값을 수신한다. 수신된 키워드 스코어는 그 후 조정된 검출 임계값과 비교된다. 키워드 스코어가 조정된 임계값 스코어를 초과하는 경우, 키워드 검출 유닛 (1130) 은 음성 보조 유닛 (688) 을 턴온하기 위해 활성화 신호를 생성한다. 이러한 경우, 키워드 검출 유닛 (1130) 은 다음의 추출된 사운드 특징을 위해 키워드 스코어 계산 유닛 (1120) 에 의해 결정되는 후속적인 키워드 스코어를 수신하고, 그 후속적인 키워드 스코어가 조정된 검출 임계값을 초과하는지 여부를 결정할 수도 있다.
도 12 는 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출함으로써 음성 보조 유닛 (688) 을 활성하기 위한, 음성 활성화 유닛 (686) 에서 수행되는 방법 (1200) 의 플로우챠트이다. 방법 (1200) 은 1210 에서 시작하고, 음성 활성화 유닛 (686) 내의 특징 추출기 (1110) 가 스피치 검출기 (682) 로부터 입력 사운드 스트림을 수신하는 1220 으로 진행한다. 특징 추출기 (1110) 는 1230 에서 입력 사운드 스트림으로부터 사운드 특징을 추출할 수도 있다. 추출된 사운드 특징은 음성 활성화 유닛 (686) 내의 키워드 스코어 계산 유닛 (1120) 으로 제공된다.
하나의 실시형태에서, 입력 사운드 스트림은 복수의 프레임들로 순차적으로 세그멘팅되고, 그것들로부터 복수의 사운드 특징들이 추출된다. 이러한 경우에, 복수의 사운드 특징들은 키워드 스코어 계산 유닛 (1120) 으로 순차적으로 제공된다. 특징 추출기 (1110) 로부터 각 사운드 특징을 수신했을 때, 키워드 스코어 계산 유닛 (1120) 은 1240 에서 그 사운드 특징에 대해 키워드 스코어를 결정할 수도 있다. 도 6 을 참조하여 상술된 바와 같이, 키워드 스코어는 마르코프 체인 모델과 같은 임의의 적합한 스피치 인식 기술을 사용하여 결정될 수도 있다.
도시된 방법 (1200) 에서, 키워드 검출 유닛 (1130) 은 1250 에서 임계값 조정 유닛 (684) 으로부터 조정된 검출 임계값을 수신한다. 하나의 실시형태에서, 조정된 검출 임계값은 1250 에서 수신될 수도 있는 반면, 입력 사운드 스트림은 1220 에서 수신되고, 사운드 특징은 1230 에서 추출되거나, 키워드 스코어는 1240 에서 결정된다. 다른 실시형태에서, 키워드 검출 유닛 (1130) 은 특징 추출기 (1110) 가 1220 에서 입력 사운드 스트림을 수신하기 전 또는 키워드 스코어 계산 유닛 (1120) 이 1240 에서 키워드 스코어를 결정한 후에 조정된 검출 임계값을 수신할 수도 있다.
키워드 검출 유닛 (1130) 은 1260 에서 키워드 스코어가 수신된 검출 임계값을 초과하는지 여부를 결정할 수도 있다. 키워드 스코어가 1260 에서 검출 임계값을 초과하지 않는 것으로 결정되면, 방법은 1270 으로 진행하여 특징 추출기 (1110) 에 의해 추출된 다음의 사운드 특징을 수신하고 1240 에서 다음의 사운드 특징에 대해 키워드 스코어를 결정한다. 한편, 키워드 스코어가 1260 에서 검출 임계값을 초과하는 것으로 결정되면, 키워드 검출 유닛 (1130) 은 1280 에서 음성 보조 유닛 (688) 을 턴 온하기 위해 활성화 신호를 생성 및 송신할 수도 있다. 방법은 그 후 1290 에서 종료할 수도 있다.
도 13 은 무선 통신 시스템 내의 이동 디바이스 (1300) 의 블록도를 도시하며, 여기서 방법들 및 장치는 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (1300) 의 콘텍스트에 따라 조정되는 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출한다. 이동 디바이스 (1300) 는 셀룰러 전화, 단말기, 핸드셋, 개인용 휴대정보단말기 (PDA), 무선 모뎀, 코드리스 전화 등일 수도 있다. 무선 통신 시스템은 코드 분할 다중 액세스 (CDMA) 시스템, 이동 통신을 위한 글로벌 시스템 (GSM) 시스템, 광대역 CDMA (W-CDMA) 시스템, 롱 텀 에볼루션 (LTE) 시스템, LTE Advanced 시스템 등일 수도 있다.
이동 디바이스 (1300) 는 수신 경로 및 송신 경로를 통해 양방향 통신을 제공할 수 있을 수도 있다. 수신 경로 상에서, 기지국들에 의해 송신된 신호들은 안테나 (1312) 에 의해 수신되고 수신기 (RCVR) (1314) 로 제공된다. 수신기 (1314) 는 수신된 신호를 커디셔닝 및 디지털화하고 추가의 프로세싱을 위해 디지털 섹션 (1320) 으로 컨티셔닝 및 디지털화된 신호를 제공한다. 송신 경로 상에서, 송신기 (TMTR) 는 디지털 섹션 (1320) 으로부터 송신될 데이터를 수신하고, 그 데이터를 프로세싱 및 컨디셔닝하며, 변조된 신호를 생성하고, 그것은 안테나 (1312) 를 통해 기지국들로 송신된다. 수신기 (1314) 및 송신기 (1316) 는 CDMA, GSM, W-CDMA, LTE, LTE Advanced 등을 지원하는 송수신기의 부분이다.
디지털 섹션 (1320) 은 예를 들어 모뎀 프로세서 (1322), 감소된 명령 세트 컴퓨터/디지털 신호 프로세서 (RISC/DSP) (1324), 제어기/프로세서 (1326), 내부 메모리 (1328), 일반화된 오디오 인코더 (1332), 일반화된 오디오 디코더 (1334), 그래픽/디스플레이 프로세서 (1336), 및/또는 외부 버스 인터페이스 (EBI) (1338) 과 같은 여러 프로세싱, 인터페이스, 및 메모리 유닛들을 포함한다. 모뎀 프로세서 (1322) 는 데이터 송신 및 수신을 위한 프로세싱, 예를 들어 인코딩, 변조, 복조, 및 디코딩을 수행한다. RISC/DSP (1324) 는 무선 디바이스 (1300) 에 대한 일반적인 및 특수화된 프로세싱을 수행한다. 제어기/프로세서 (1326) 는 디지털 섹션 (1320) 내의 여러 프로세싱 및 인터페이스 유닛들의 동작을 제어한다. 내부 메모리 (1328) 는 디지털 섹션 (1320) 내의 여러 유닛들에 대한 데이터 및/또는 명령들을 저장한다.
일반화된 오디오 인코더 (1332) 는 오디오 소스 (1342), 마이크로폰 (1343) 등으로부터의 입력 신호들에 대해 인코딩을 수행한다. 일반화된 오디오 디코더 (1334) 는 코딩된 오디오 데이터에 대해 디코딩을 수행하고 스피커/헤드셋 (1344) 으로 출력 신호들을 제공한다. 일반화된 오디오 인코더 (1332) 및 일반화된 오디오 디코더 (1334) 는 오디오 소스, 마이크로폰 (1343), 및 스피커/헤드셋 (1344) 과의 인터페이스를 반드시 요구되지는 않으며, 따라서 이동 디바이스 (1300) 내에 도시되지 않는다는 것을 유의해야 한다. 그래픽/디스플레이 프로세서 (1336) 는 그래픽들, 비디오들, 이미지들, 및 텍스트에 대한 프로세싱을 수행하며, 이것은 디스플레이 유닛 (1346) 으로 제시된다. EBI (1338) 는 디지털 섹션 (1320) 과 메인 메모리 (1348) 사이의 데이터의 전송을 용이하게 한다.
디지털 섹션 (1320) 은 하나 이상의 프로세서들, DSP 들, 마이크로프로세서들, RISC 들 등으로 구현된다. 디지털 섹션 (1320) 은 또한 하나 이상의 사용자 주문형 반도체들 (ASICs), 및/또는 일부 다른 타입의 집적회로들 (ICs) 상에서 제조된다.
일반적으로, 여기에 기술된 임의의 디바이스는 무선 전화, 셀룰러 전화, 랩톱 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 개인용 컴퓨터 (PC) 카드, PDA, 외부 또는 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 여러 타입들의 디바이스들을 나타낸다. 디바이스는 액세스 단말기 (AT), 액세스 유닛, 가입자 유닛, 이동국, 클라이언트 디바이스, 이동 유닛, 이동 전화, 모바일, 원격국, 원격 단말기, 원격 유닛, 사용자 디바이스, 사용자 장비, 핸드헬드 디바이스 등과 같은 여러 이름들을 가질 수도 있다. 여기에 기술된 임의의 디바이스는 명령들 및 데이터를 저장하는 메모리 뿐아니라 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합을 가질 수도 있다.
여기에 기술된 기법들은 여러 수단들에 의해 구현된다. 예를 들어, 이들 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합들로 구현된다. 본 기술에서 통상의 지식을 가진 자들은 또한 여기의 개시와 관련하여 기술된 여러 예시적인 로지컬 블록들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합으로서 구현될 수도 있다는 것을 인정할 것이다. 하드웨어 및 소프트웨어의 이러한 교환가능성을 명확히 설명하기 위해, 여러 예시적 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들은 일반적으로 그들의 기능성에 의해 상술되었다. 그러한 기능성이 하드웨어로서 또는 소프트웨어로서 구현되는지 여부는 특정의 애플리케이션 및 전체 시스템에 부과된 설계 제약들에 달려있다. 통상의 기술자들은 각각의 특정의 애플리케이션에 대해 다양한 방식들로 기술된 기능성을 구현할 수도 있지만, 그러한 구현 결정들은 본 개시의 범위로부터 일탈을 야기하는 것으로서 해석되지 않아야 한다.
하드웨어 구현의 경우, 기법들을 수행하기 위해 사용되는 프로세싱 유닛들은 하나 이상의 ASIC 들, DSP 들, 디지털 신호 프로세싱 디바이스들 (DSPDs), 프로그램가능 로직 디바이스들 (PLDs), 필드 프로그램가능 게이트 어레이들 (FPGAs), 프로세서들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 전자 디바이스들, 여기에 기술된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 이들의 조합 내에서 구현된다.
따라서, 여기의 개시와 관련하여 기술된 여러 예시적인 로지컬 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA 또는 다른 프로그램가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 여기에 기술된 기능들을 수행하도록 설계된 이들의 임의의 조합으로 구현되거나 수행된다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 결합한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로서 구현될 수도 있다.
소프트웨어로 구현되는 경우, 그 기능들은 컴퓨터 판독가능 매체 상에서 하나 이상의 명령들 또는 코드로서 저장 또는 송신될 수도 있다. 컴퓨터 판독가능 매체는 한 곳에서 다른 곳으로 컴퓨터 프로그램의 이송을 용이하게 하는 임의의 매체를 포함하는 컴퓨터 저장 매체들 및 통신 매체들 양자를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체들일 수도 있다. 제한이 아닌 예시로서, 그러한 컴퓨터 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM, 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지, 또는 다른 자기 저장 디바이스들, 또는 컴퓨터에 의해 액세스될 수 있고 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 반송 또는 저장하는데 사용될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 연결은 컴퓨터 판독가능 매체로 적절하게 칭해질 수도 있다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스티드 페어, 디지털 가입자 라인 (DSL), 또는 적외선, 라디오, 및 마이크로웨이브와 같은 무선 기술들을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되는 경우, 동축 케이블, 광섬유 케이블, 트위스티드 페어, DSL, 또는 적외선, 라디오, 및 마이크로웨이브와 같은 무선 기술들은 매체의 정의에 포함된다. 디스크 (disk 및 disc) 는 본원에서 사용되는 바와 같이, 콤팩트 디스크 (compact disc, CD), 레이저 디스크, 광 디스크, 디지털 다용도 디스크 (DVD), 플로피 디스크 (floppy disk) 및 블루레이 디스크를 포함하는데, disk들은 보통 데이터를 자기적으로 재생하지만, disc들은 레이저들로써 광학적으로 데이터를 재생한다. 상기한 것들의 조합들은 또한 컴퓨터 판독가능 매체들의 범위 내에 포함된다.
본 개시의 이전의 설명은 본 기술에서 임의의 통상의 기술자가 본 개시를 실시하거나 사용하는 것을 가능하게 하도록 제공된다. 본 개시에 대한 여러 변경들은 본 기술에서의 통상의 기술자에게 용이하게 명백할 것이고, 여기에 정의된 일반 원리들은 본 개시의 사상 또는 범위로부터 일탈하지 않고 다른 변형들에 적용될 수도 있다. 따라서, 본 개시는 여기에 기술된 예시들 및 설계들에 제한되는 것으로 의도되지 않고, 여기에 개시된 원리들 및 신규한 특징들과 일관성 있는 가장 넓은 범위에 따라야 한다.
예시적인 구현들은 하나 이상의 스탠드-얼론 컴퓨터 시스템들의 콘텍스트에서 현재 개시된 주제의 양태들을 이용하는 것으로 참조되지만, 이들 주제는 그렇게 제한되지 않고, 오히려 네트워크 또는 분포된 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 관련하여 구현될 수도 있다. 또한, 현재 개시된 주제의 양태들은 복수의 프로세싱 칩들 또는 디바이스들에서 또는 그것들에 걸쳐 구현될 수도 있고, 저장은 복수의 디바이스들에 걸쳐 유사하게 시행될 수도 있다. 그러한 디바이스들은 PC 들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.
청구물이 구조적 특징들 및/또는 방법론적 액션들에 특정한 언어로 기술되었지만, 첨부된 청구범위에 정의된 청구물은 상술된 특정의 특징들 또는 액션들에 반드시 제한되지는 않는다는 것이 이해되어야 한다. 오히려, 상술된 특정의 특징들 및 액션들은 청구범위를 구현하는 예시의 형태들로서 개시된다.

Claims (50)

  1. 이동 디바이스에서 음성 보조 기능을 활성화하는 방법으로서,
    사운드 센서에 의해 입력 사운드 스트림을 수신하는 단계;
    상기 이동 디바이스의 콘텍스트를 결정하는 단계;
    상기 콘텍스트에 기초하여 상기 음성 보조 기능을 활성화하기 위한 임계값을 조정하는 단계;
    상기 조정된 임계값에 기초하여 상기 입력 사운드 스트림으로부터 목표 키워드를 검출하는 단계; 및
    상기 목표 키워드가 검출되는 경우, 상기 음성 보조 기능을 활성화하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  2. 제 1 항에 있어서,
    상기 이동 디바이스의 콘텍스트를 결정하는 단계는 상기 입력 사운드 스트림에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  3. 제 1 항에 있어서,
    상기 이동 디바이스의 콘텍스트를 결정하는 단계는,
    상기 이동 디바이스 내의 가속도 센서, 로케이션 센서, 조명 센서, 근접 센서, 시계 유닛, 및 칼렌더 유닛 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하는 단계; 및
    상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  4. 제 1 항에 있어서,
    상기 이동 디바이스의 콘텍스트를 결정하는 단계는,
    상기 이동 디바이스 내의 가속도 센서 및 로케이션 센서 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하는 단계; 및
    상기 입력 사운드 스트림 및 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 챠량 내인 것으로서 식별하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  5. 제 1 항에 있어서,
    상기 이동 디바이스의 콘텍스트를 결정하는 단계는,
    상기 이동 디바이스 내의 조명 센서 및 근접 센서 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하는 단계; 및
    상기 입력 사운드 스트림 및 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 컨테이너 (container) 내인 것으로서 식별하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  6. 제 1 항에 있어서,
    상기 이동 디바이스의 콘텍스트를 결정하는 단계는,
    상기 이동 디바이스의 상태 정보를 획득하는 단계; 및
    상기 상태 정보에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  7. 제 6 항에 있어서,
    상기 상태 정보는 아이들 상태로부터 활성 상태로의 상기 이동 디바이스 내의 프로세서의 동작 상태에서의 변경을 나타내는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  8. 제 7 항에 있어서,
    상기 프로세서의 상기 동작 상태는 전자 메시지를 수신하는 것에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  9. 제 7 항에 있어서,
    상기 프로세서의 상기 동작 상태는 상기 이동 디바이스에서의 경보 이벤트에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  10. 제 1 항에 있어서,
    상기 임계값을 조정한 후에 미리 결정된 시간 주기가 경과한 경우 상기 임계값을 미리 결정된 임계값으로 설정하는 단계를 더 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  11. 제 1 항에 있어서,
    상기 임계값을 조정하는 단계는 상기 이동 디바이스의 콘텍스트에서 상기 음성 보조 기능을 사용하는 가능성에 기초하여 상기 임계값을 조정하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  12. 제 11 항에 있어서,
    상기 가능성은 상기 콘텍스트가 상기 이동 디바이스가 차량 내에 있다는 것을 나타내는 경우에 높은, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  13. 제 11 항에 있어서,
    상기 가능성은 상기 콘텍스트가 슬리핑 콘텍스트를 나타내는 경우에 낮은, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  14. 제 1 항에 있어서,
    상기 입력 사운드 스트림으로부터 목표 키워드를 검출하는 단계는,
    상기 입력 사운드 스트림과 상기 목표 키워드의 사운드 모델 사이의 유사도를 계산하는 단계;
    상기 유사도를 상기 임계값과 비교하는 단계; 및
    상기 유사도가 상기 임계값을 초과하는 경우 상기 입력 사운드 스트림으로부터 상기 목표 키워드를 검출하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법.
  15. 음성 보조 기능을 활성화하는 이동 디바이스로서,
    입력 사운드 스트림을 수신하도록 구성된 사운드 센서;
    상기 이동 디바이스의 콘텍스트를 결정함으로써 상기 음성 보조 기능을 활성화하기 위한 임계값을 조정하도록 구성된 임계값 조정 유닛;
    상기 조정된 임계값에 기초하여 상기 입력 사운드 스트림으로부터 목표 키워드가 검출되는 경우, 상기 음성 보조 기능을 활성화하도록 구성된 음성 활성화 유닛을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스.
  16. 제 15 항에 있어서,
    상기 임계값 조정 유닛은 상기 입력 사운드 스트림에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하도록 구성된 콘텍스트 추론 유닛을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스.
  17. 제 15 항에 있어서,
    상기 임계값 조정 유닛은 상기 이동 디바이스 내의 가속도 센서, 로케이션 센서, 조명 센서, 근접 센서, 시계 유닛, 및 칼렌더 유닛 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하고, 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하도록 구성된 콘텍스트 결정 유닛을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스.
  18. 제 15 항에 있어서,
    상기 임계값 조정 유닛은 상기 이동 디바이스 내의 가속도 센서 및 로케이션 센서 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하고, 상기 입력 사운드 스트림 및 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 챠량 내인 것으로서 식별하도록 구성된 콘텍스트 결정 유닛을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스.
  19. 제 15 항에 있어서,
    상기 임계값 조정 유닛은 상기 이동 디바이스 내의 조명 센서 및 근접 센서 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하고, 상기 입력 사운드 스트림 및 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 컨테이너 (container) 내인 것으로서 식별하도록 구성된 콘텍스트 결정 유닛을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스.
  20. 제 15 항에 있어서,
    상기 임계값 조정 유닛은 상기 이동 디바이스의 상태 정보를 획득하고, 상기 상태 정보에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하도록 구성된 콘텍스트 결정 유닛을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스.
  21. 제 20 항에 있어서,
    상기 상태 정보는 아이들 상태로부터 활성 상태로의 상기 이동 디바이스 내의 프로세서의 동작 상태에서의 변경을 나타내는, 음성 보조 기능을 활성화하는 이동 디바이스.
  22. 제 21 항에 있어서,
    상기 프로세서의 상기 동작 상태는 전자 메시지를 수신하는 것에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 음성 보조 기능을 활성화하는 이동 디바이스.
  23. 제 21 항에 있어서,
    상기 프로세서의 상기 동작 상태는 상기 이동 디바이스에서의 경보 이벤트에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 음성 보조 기능을 활성화하는 이동 디바이스.
  24. 제 15 항에 있어서,
    상기 임계값 조정 유닛은 또한 상기 임계값을 조정한 후에 미리 결정된 시간 주기가 경과한 경우 상기 임계값을 미리 결정된 임계값으로 설정하도록 구성되는, 음성 보조 기능을 활성화하는 이동 디바이스.
  25. 제 15 항에 있어서,
    상기 임계값 조정 유닛은 또한 상기 이동 디바이스의 콘텍스트에서 상기 음성 보조 기능을 사용하는 가능성에 기초하여 상기 임계값을 조정하도록 구성되는, 음성 보조 기능을 활성화하는 이동 디바이스.
  26. 제 25 항에 있어서,
    상기 가능성은 상기 콘텍스트가 상기 이동 디바이스가 차량 내에 있다는 것을 나타내는 경우에 높은, 음성 보조 기능을 활성화하는 이동 디바이스.
  27. 제 25 항에 있어서,
    상기 가능성은 상기 콘텍스트가 슬리핑 콘텍스트를 나타내는 경우에 낮은, 음성 보조 기능을 활성화하는 이동 디바이스.
  28. 제 15 항에 있어서,
    상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림과 상기 목표 키워드의 사운드 모델 사이의 유사도를 계산하고, 상기 유사도를 상기 임계값과 비교하며, 상기 유사도가 상기 임계값을 초과하는 경우 상기 입력 사운드 스트림으로부터 상기 목표 키워드를 검출하도록 구성되는, 음성 보조 기능을 활성화하는 이동 디바이스.
  29. 음성 보조 기능을 활성화하는 이동 디바이스로서,
    입력 사운드 스트림을 수신하는 수단;
    상기 이동 디바이스의 콘텍스트를 결정함으로써 상기 음성 보조 기능을 활성화하기 위한 임계값을 조정하는 수단; 및
    상기 조정된 임계값에 기초하여 상기 입력 사운드 스트림으로부터 목표 키워드가 검출되는 경우, 상기 음성 보조 기능을 활성화하는 수단을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스.
  30. 제 29 항에 있어서,
    상기 임계값을 조정하는 수단은 상기 입력 사운드 스트림에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 수단을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스.
  31. 제 29 항에 있어서,
    상기 임계값을 조정하는 수단은 상기 이동 디바이스 내의 가속도 센서, 로케이션 센서, 조명 센서, 근접 센서, 시계 유닛, 및 칼렌더 유닛 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하고, 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 수단을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스.
  32. 제 29 항에 있어서,
    상기 임계값을 조정하는 수단은 상기 이동 디바이스 내의 가속도 센서 및 로케이션 센서 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하고, 상기 입력 사운드 스트림 및 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 챠량 내인 것으로서 식별하는 수단을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스.
  33. 제 29 항에 있어서,
    상기 임계값을 조정하는 수단은 상기 이동 디바이스의 상태 정보를 획득하고, 상기 상태 정보에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 수단을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스.
  34. 제 33 항에 있어서,
    상기 상태 정보는 아이들 상태로부터 활성 상태로의 상기 이동 디바이스 내의 프로세서의 동작 상태에서의 변경을 나타내는, 음성 보조 기능을 활성화하는 이동 디바이스.
  35. 제 34 항에 있어서,
    상기 프로세서의 상기 동작 상태는 전자 메시지를 수신하는 것에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 음성 보조 기능을 활성화하는 이동 디바이스.
  36. 제 34 항에 있어서,
    상기 프로세서의 상기 동작 상태는 상기 이동 디바이스에서의 경보 이벤트에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 음성 보조 기능을 활성화하는 이동 디바이스.
  37. 제 29 항에 있어서,
    상기 임계값을 조정하는 수단은 상기 임계값을 조정한 후에 미리 결정된 시간 주기가 경과한 경우 상기 임계값을 미리 결정된 임계값으로 설정하도록 구성되는, 음성 보조 기능을 활성화하는 이동 디바이스.
  38. 제 29 항에 있어서,
    상기 임계값을 조정하는 수단은 상기 이동 디바이스의 콘텍스트에서 상기 음성 보조 기능을 사용하는 가능성에 기초하여 상기 임계값을 조정하도록 구성되는, 음성 보조 기능을 활성화하는 이동 디바이스.
  39. 제 38 항에 있어서,
    상기 가능성은 상기 콘텍스트가 상기 이동 디바이스가 차량 내에 있다는 것을 나타내는 경우에 높은, 음성 보조 기능을 활성화하는 이동 디바이스.
  40. 이동 디바이스에서 음성 보조 기능을 활성화하기 위한 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
    상기 명령들은, 상기 이동 디바이스의 프로세서로 하여금,
    사운드 센서에 의해 입력 사운드 스트림을 수신하는 것;
    상기 이동 디바이스의 콘텍스트를 결정하는 것;
    상기 콘텍스트에 기초하여 상기 음성 보조 기능을 활성화하기 위한 임계값을 조정하는 것;
    상기 조정된 임계값에 기초하여 상기 입력 사운드 스트림으로부터 목표 키워드를 검출하는 것; 및
    상기 목표 키워드가 검출되는 경우, 상기 음성 보조 기능을 활성화하는 것
    의 동작들을 수행하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
  41. 제 40 항에 있어서,
    상기 이동 디바이스의 콘텍스트를 결정하는 것은 상기 입력 사운드 스트림에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  42. 제 40 항에 있어서,
    상기 이동 디바이스의 콘텍스트를 결정하는 것은,
    상기 이동 디바이스 내의 가속도 센서, 로케이션 센서, 조명 센서, 근접 센서, 시계 유닛, 및 칼렌더 유닛 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하는 것; 및
    상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  43. 제 40 항에 있어서,
    상기 이동 디바이스의 콘텍스트를 결정하는 것은,
    상기 이동 디바이스 내의 가속도 센서 및 로케이션 센서 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하는 것; 및
    상기 입력 사운드 스트림 및 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 챠량 내인 것으로서 식별하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  44. 제 40 항에 있어서,
    상기 이동 디바이스의 콘텍스트를 결정하는 것은,
    상기 이동 디바이스의 상태 정보를 획득하는 것; 및
    상기 상태 정보에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  45. 제 44 항에 있어서,
    상기 상태 정보는 아이들 상태로부터 활성 상태로의 상기 이동 디바이스의 프로세서의 동작 상태에서의 변경을 나타내는, 비일시적 컴퓨터 판독가능 저장 매체.
  46. 제 45 항에 있어서,
    상기 프로세서의 상기 동작 상태는 전자 메시지를 수신하는 것에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 비일시적 컴퓨터 판독가능 저장 매체.
  47. 제 45 항에 있어서,
    상기 프로세서의 상기 동작 상태는 상기 이동 디바이스에서의 경보 이벤트에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 비일시적 컴퓨터 판독가능 저장 매체.
  48. 제 40 항에 있어서,
    상기 동작들은 상기 임계값을 조정한 후에 미리 결정된 시간 주기가 경과한 경우 상기 임계값을 미리 결정된 임계값으로 설정하는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  49. 제 40 항에 있어서,
    상기 임계값을 조정하는 것은 상기 이동 디바이스의 콘텍스트에서 상기 음성 보조 기능을 사용하는 가능성에 기초하여 상기 임계값을 조정하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  50. 제 49 항에 있어서,
    상기 가능성은 상기 콘텍스트가 상기 이동 디바이스가 차량 내에 있다는 것을 나타내는 경우에 높은, 비일시적 컴퓨터 판독가능 저장 매체.
KR1020167009988A 2013-09-17 2014-09-08 음성 보조 기능을 활성화하는 검출 임계값을 조정하는 방법 및 장치 KR102317608B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/029,131 US9240182B2 (en) 2013-09-17 2013-09-17 Method and apparatus for adjusting detection threshold for activating voice assistant function
US14/029,131 2013-09-17
PCT/US2014/054540 WO2015041882A1 (en) 2013-09-17 2014-09-08 Method and apparatus for adjusting detection threshold for activating voice assistant function

Publications (2)

Publication Number Publication Date
KR20160055915A true KR20160055915A (ko) 2016-05-18
KR102317608B1 KR102317608B1 (ko) 2021-10-25

Family

ID=51703378

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167009988A KR102317608B1 (ko) 2013-09-17 2014-09-08 음성 보조 기능을 활성화하는 검출 임계값을 조정하는 방법 및 장치

Country Status (7)

Country Link
US (1) US9240182B2 (ko)
EP (2) EP3047482B1 (ko)
JP (1) JP6538060B2 (ko)
KR (1) KR102317608B1 (ko)
CN (1) CN105556595B (ko)
ES (1) ES2817841T3 (ko)
WO (1) WO2015041882A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021141330A1 (ko) * 2020-01-06 2021-07-15 삼성전자(주) 전자장치 및 그 제어방법
WO2022169039A1 (ko) * 2021-02-02 2022-08-11 삼성전자주식회사 전자 장치 및 그 제어 방법

Families Citing this family (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9772815B1 (en) 2013-11-14 2017-09-26 Knowles Electronics, Llc Personalized operation of a mobile device using acoustic and non-acoustic information
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US20140337031A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US9026176B2 (en) * 2013-05-12 2015-05-05 Shyh-Jye Wang Message-triggered voice command interface in portable electronic devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
WO2015026933A2 (en) 2013-08-21 2015-02-26 Honeywell International Inc. Devices and methods for interacting with an hvac controller
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US9781106B1 (en) 2013-11-20 2017-10-03 Knowles Electronics, Llc Method for modeling user possession of mobile device for user authentication framework
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US9741343B1 (en) * 2013-12-19 2017-08-22 Amazon Technologies, Inc. Voice interaction application selection
US9899021B1 (en) * 2013-12-20 2018-02-20 Amazon Technologies, Inc. Stochastic modeling of user interactions with a detection system
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
US9500739B2 (en) 2014-03-28 2016-11-22 Knowles Electronics, Llc Estimating and tracking multiple attributes of multiple objects from multi-sensor data
WO2015149216A1 (en) * 2014-03-31 2015-10-08 Intel Corporation Location aware power management scheme for always-on- always-listen voice recognition system
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
KR102338899B1 (ko) * 2015-01-02 2021-12-13 삼성전자주식회사 홈 디바이스를 제어하는 방법 및 디바이스
CN104657072B (zh) * 2015-01-15 2018-06-12 小米科技有限责任公司 一种触发执行操作指令的方法和装置
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN106469040B (zh) 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
CN106486127A (zh) * 2015-08-25 2017-03-08 中兴通讯股份有限公司 一种语音识别参数自动调整的方法、装置及移动终端
CN105261368B (zh) * 2015-08-31 2019-05-21 华为技术有限公司 一种语音唤醒方法及装置
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
JP6227209B2 (ja) * 2015-09-09 2017-11-08 三菱電機株式会社 車載用音声認識装置および車載機器
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9946862B2 (en) * 2015-12-01 2018-04-17 Qualcomm Incorporated Electronic device generating notification based on context data in response to speech phrase from user
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR102501083B1 (ko) * 2016-02-05 2023-02-17 삼성전자 주식회사 음성 인식 방법 및 이를 사용하는 전자 장치
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
CN108604179A (zh) * 2016-05-10 2018-09-28 谷歌有限责任公司 设备上语音助理的实现
KR102177786B1 (ko) 2016-05-13 2020-11-12 구글 엘엘씨 미디어 출력 디바이스들 사이의 미디어 전달
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10102732B2 (en) 2016-06-28 2018-10-16 Infinite Designs, LLC Danger monitoring system
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
US10291975B2 (en) * 2016-09-06 2019-05-14 Apple Inc. Wireless ear buds
US20180174574A1 (en) * 2016-12-19 2018-06-21 Knowles Electronics, Llc Methods and systems for reducing false alarms in keyword detection
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10204624B1 (en) * 2017-08-14 2019-02-12 Lenovo (Singapore) Pte. Ltd. False positive wake word
EP3484176A1 (en) * 2017-11-10 2019-05-15 Nxp B.V. Vehicle audio presentation controller
KR102492727B1 (ko) * 2017-12-04 2023-02-01 삼성전자주식회사 전자장치 및 그 제어방법
US10524046B2 (en) 2017-12-06 2019-12-31 Ademco Inc. Systems and methods for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
JP2019204025A (ja) * 2018-05-24 2019-11-28 レノボ・シンガポール・プライベート・リミテッド 電子機器、制御方法、及びプログラム
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
JP2019211599A (ja) * 2018-06-04 2019-12-12 本田技研工業株式会社 音声認識装置、音声認識方法およびプログラム
US11100935B2 (en) 2018-06-05 2021-08-24 Samsung Electronics Co., Ltd. Voice assistant device and method thereof
US11501781B2 (en) * 2018-06-05 2022-11-15 Samsung Electronics Co., Ltd. Methods and systems for passive wakeup of a user interaction device
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
WO2020040744A1 (en) 2018-08-21 2020-02-27 Google Llc Dynamic and/or context-specific hot words to invoke automated assistant
CN110867182B (zh) * 2018-08-28 2022-04-12 仁宝电脑工业股份有限公司 多语音助理的控制方法
TWI683306B (zh) * 2018-08-28 2020-01-21 仁寶電腦工業股份有限公司 多語音助理之控制方法
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
CN109346071A (zh) * 2018-09-26 2019-02-15 出门问问信息科技有限公司 唤醒处理方法、装置及电子设备
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11562135B2 (en) 2018-10-16 2023-01-24 Oracle International Corporation Constructing conclusive answers for autonomous agents
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
US11232788B2 (en) * 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
US11321536B2 (en) * 2019-02-13 2022-05-03 Oracle International Corporation Chatbot conducting a virtual social dialogue
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN110022427A (zh) * 2019-05-22 2019-07-16 乐山师范学院 汽车使用智能辅助***
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110047487B (zh) * 2019-06-05 2022-03-18 广州小鹏汽车科技有限公司 车载语音设备的唤醒方法、装置、车辆以及机器可读介质
KR20200141860A (ko) * 2019-06-11 2020-12-21 삼성전자주식회사 전자 장치 및 그 제어 방법
CN112104901A (zh) * 2019-06-17 2020-12-18 深圳市同行者科技有限公司 一种车载设备的自销售方法及***
CN110797051A (zh) * 2019-10-28 2020-02-14 星络智能科技有限公司 一种唤醒门限设置方法、装置、智能音箱及存储介质
CN110942768A (zh) * 2019-11-20 2020-03-31 Oppo广东移动通信有限公司 设备唤醒的测试方法、装置、移动终端和存储介质
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11721338B2 (en) * 2020-08-26 2023-08-08 International Business Machines Corporation Context-based dynamic tolerance of virtual assistant
EP4220628A4 (en) 2021-02-19 2024-05-22 Samsung Electronics Co., Ltd. ELECTRONIC SERVICE SUPPORT DEVICE FOR ARTIFICIAL INTELLIGENCE (AI) AGENT TALKING WITH USER
CN113470657B (zh) * 2021-05-18 2023-12-01 翱捷科技(深圳)有限公司 一种语音唤醒阈值调整方法及***
US11823707B2 (en) * 2022-01-10 2023-11-21 Synaptics Incorporated Sensitivity mode for an audio spotting system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6138094A (en) * 1997-02-03 2000-10-24 U.S. Philips Corporation Speech recognition method and system in which said method is implemented
KR20020060975A (ko) * 1999-11-23 2002-07-19 스티븐 제이. 커우 특정의 인간 음성을 템플릿하기 위한 시스템 및 방법
US20120034904A1 (en) * 2010-08-06 2012-02-09 Google Inc. Automatically Monitoring for Voice Input Based on Context

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3079006B2 (ja) * 1995-03-22 2000-08-21 シャープ株式会社 音声認識制御装置
JP2004294946A (ja) * 2003-03-28 2004-10-21 Toshiba Corp 携帯型電子機器
EP1679867A1 (en) * 2005-01-06 2006-07-12 Orange SA Customisation of VoiceXML Application
JP4660299B2 (ja) * 2005-06-29 2011-03-30 三菱電機株式会社 移動体用情報装置
US20070263805A1 (en) 2006-05-01 2007-11-15 Mcdonald Christopher F Method to alert participant on a conference call
US20080147411A1 (en) * 2006-12-19 2008-06-19 International Business Machines Corporation Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment
WO2008108239A1 (ja) 2007-02-27 2008-09-12 Nec Corporation 音声認識システム、方法およびプログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20080300025A1 (en) * 2007-05-31 2008-12-04 Motorola, Inc. Method and system to configure audio processing paths for voice recognition
JP4973722B2 (ja) 2009-02-03 2012-07-11 株式会社デンソー 音声認識装置、音声認識方法、及びナビゲーション装置
JP2010281855A (ja) * 2009-06-02 2010-12-16 Nissan Motor Co Ltd 音声対話装置および音声対話方法
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120264091A1 (en) * 2009-08-17 2012-10-18 Purdue Research Foundation Method and system for training voice patterns
US8270954B1 (en) 2010-02-02 2012-09-18 Sprint Communications Company L.P. Concierge for portable electronic device
JP2012216057A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 音声処理装置、及び音声処理方法
JP5797009B2 (ja) * 2011-05-19 2015-10-21 三菱重工業株式会社 音声認識装置、ロボット、及び音声認識方法
EP3392876A1 (en) * 2011-09-30 2018-10-24 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
KR101590332B1 (ko) * 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
US9349366B2 (en) * 2012-06-13 2016-05-24 Wearsafe Labs Llc Systems and methods for managing an emergency situation
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6138094A (en) * 1997-02-03 2000-10-24 U.S. Philips Corporation Speech recognition method and system in which said method is implemented
KR20020060975A (ko) * 1999-11-23 2002-07-19 스티븐 제이. 커우 특정의 인간 음성을 템플릿하기 위한 시스템 및 방법
US20120034904A1 (en) * 2010-08-06 2012-02-09 Google Inc. Automatically Monitoring for Voice Input Based on Context

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021141330A1 (ko) * 2020-01-06 2021-07-15 삼성전자(주) 전자장치 및 그 제어방법
WO2022169039A1 (ko) * 2021-02-02 2022-08-11 삼성전자주식회사 전자 장치 및 그 제어 방법
US11929081B2 (en) 2021-02-02 2024-03-12 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Also Published As

Publication number Publication date
EP3754652A1 (en) 2020-12-23
KR102317608B1 (ko) 2021-10-25
CN105556595A (zh) 2016-05-04
CN105556595B (zh) 2019-11-01
JP6538060B2 (ja) 2019-07-03
ES2817841T3 (es) 2021-04-08
EP3047482B1 (en) 2020-06-10
US20150081296A1 (en) 2015-03-19
US9240182B2 (en) 2016-01-19
EP3754652B1 (en) 2023-09-06
EP3754652C0 (en) 2023-09-06
EP3047482A1 (en) 2016-07-27
WO2015041882A1 (en) 2015-03-26
JP2016536648A (ja) 2016-11-24

Similar Documents

Publication Publication Date Title
KR102317608B1 (ko) 음성 보조 기능을 활성화하는 검출 임계값을 조정하는 방법 및 장치
US9892729B2 (en) Method and apparatus for controlling voice activation
KR101921037B1 (ko) 사용자로부터의 스피치 구문에 응답하여 컨텍스트 데이터에 기초하여 통지를 생성하는 전자 디바이스
EP3134896B1 (en) Method and apparatus for activating application by speech input
KR101981878B1 (ko) 스피치의 방향에 기초한 전자 디바이스의 제어
EP2829087B1 (en) Controlling applications in a mobile device based on the environmental context
EP2881939B1 (en) System for speech keyword detection and associated method
EP2994911B1 (en) Adaptive audio frame processing for keyword detection
KR20160007527A (ko) 타깃 키워드를 검출하기 위한 방법 및 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant