KR20190016536A

KR20190016536A - 보이스 사용자 인터페이스

Info

Publication number: KR20190016536A
Application number: KR1020197000083A
Authority: KR
Inventors: 카를로스 바케로 아빌레스-카스코; 말타 가르시아 고마르; 데이빗 마르티네즈 곤잘레즈
Original assignee: 시러스 로직 인터내셔널 세미컨덕터 리미티드
Priority date: 2016-06-06
Filing date: 2016-06-29
Publication date: 2019-02-18
Also published as: US10877727B2; US10379810B2; US20170351487A1; GB201915186D0; GB2583988A; GB2551209B; GB201611323D0; WO2017212206A1; GB2551209A; US20190324719A1; CN109313902A; GB2583988B

Abstract

수신된 신호는 사용자의 음성을 나타낸다. 제1 화자 인식 프로세스는 제1 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분에 대해 수행된다. 제2 화자 인식 프로세스는 제2 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분과는 상이한 수신된 신호의 제2 부분에 대해 수행된다. 제2 화자 인식 프로세스는 제1 화자 인식 프로세스와는 상이하다. 제1 및 제2 출력 결과들은 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 조합된다.

Description

보이스 사용자 인터페이스

본원에서 설명된 실시예들은 보이스 사용자 인터페이스(voice user interface)에서의 이용을 위한, 예를 들어, 사용자가 음성(speech)을 이용하여 디바이스의 동작을 제어하는 것을 허용하기 위한 방법 및 시스템에 관한 것이다.

보이스 사용자 인터페이스들은 사용자가 그 보이스를 이용하여 시스템과 상호작용하는 것을 허용하도록 제공된다. 이것의 하나의 장점은, 예를 들어, 스마트폰들, 태블릿 컴퓨터들 등과 같은 디바이스들에서, 그것이 사용자가 핸즈-프리(hands-free) 방식으로 디바이스를 동작시키는 것을 허용한다는 것이다.

하나의 전형적인 시스템에서, 사용자는 트리거 어구(trigger phrase)를 발화(speak)함으로써 저-전력 대기(low-power standby) 모드로부터 보이스 사용자 인터페이스를 웨이크(wake)한다. 음성 인식(speech recognition) 기법들은 트리거 어구가 발화되었다는 것을 검출하기 위하여 이용되고, 별도로, 화자 인식(speaker recognition) 프로세스는 트리거 어구가 디바이스의 등록된 사용자에 의해 발화되었다는 것을 확인하기 위하여 이용된다.

보이스 사용자 인터페이스는 그 후에, 시스템이 활성인 것을 확인하기 위하여 프롬프트(prompt)를 사용자에게 제공할 수도 있고, 사용자는 그 후에, 음성 인식 기법들을 이용하여 보이스 사용자 인터페이스에 의해 인식될 수 있는 커맨드(command)를 발화할 수도 있다.

보이스 사용자 인터페이스는 그 후에, 그 발화된 커맨드에 따라 작용할 수도 있다. 예를 들어, 발화된 커맨드가 공개적으로 이용가능한 정보를 요청할 경우, 발화된 커맨드가 인식될 수도 있고, 그 정보를 사용자에게 공급할 수 있기 위하여 인터넷 검색 엔진에 대한 질의(query)를 생성하기 위하여 이용될 수도 있다.

그러나, 다른 경우들에는, 예를 들어, 발화된 커맨드가 개인 정보에 관련될 경우, 화자 인식 프로세스에 의해 제공된 인증의 레벨은 보이스 사용자 인터페이스가 그 커맨드에 따라 작용하기에 불충분한 것으로 고려될 수도 있다. 이러한 경우들에는, 사용자가 예를 들어, 디바이스의 키패드를 통해 PIN 번호 또는 패스워드(password)를 입력함으로써, 또는 지문 스캔(fingerprint scan)과 같은 추가적인 생체인식 인증(biometric authentication)을 제공함으로써 인증의 추가적인 형태를 제공하도록 요청받을 수도 있다.

이것은 사용자가 더 이상 핸즈-프리 방식으로 디바이스를 동작시킬 수 없다는 것을 의미한다.

본원에서 설명된 실시예들에 따르면, 위에서 언급된 단점들 중의 하나 이상을 감소시키거나 회피하는 방법 및 시스템이 제공된다.

발명의 제1 양태에 따르면, 사용자의 음성을 나타내는 수신된 신호를 프로세싱하는 방법이 제공되고, 상기 방법은 제1 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분에 대해 제1 화자 인식 프로세스를 수행하는 단계; 제2 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분과는 상이한 수신된 신호의 제2 부분에 대해 제2 화자 인식 프로세스 - 제2 화자 인식 프로세스는 제1 화자 인식 프로세스와는 상이함 - 를 수행하는 단계; 및 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 제1 및 제2 출력 결과들을 조합하는 단계를 포함한다.

발명의 또 다른 양태에 따르면, 화자 인식을 수행하기 위하여, 사용자의 음성을 나타내는 수신된 신호를 프로세싱하기 위한 디바이스가 제공되고, 상기 디바이스는 제1 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분에 대해 제1 화자 인식 프로세스를 수행하고; 제2 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분과는 상이한 수신된 신호의 제2 부분에 대해 제2 화자 인식 프로세스 - 제2 화자 인식 프로세스는 제1 화자 인식 프로세스와는 상이함 - 를 수행하고; 그리고 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 제1 및 제2 출력 결과들을 조합하도록 구성된다.

발명의 추가의 양태에 따르면, 화자 인식을 수행하기 위하여, 사용자의 음성을 나타내는 수신된 신호를 프로세싱하기 위한 집적 회로 디바이스가 제공되고, 상기 집적 회로 디바이스는 제1 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분에 대해 제1 화자 인식 프로세스를 수행하고; 제2 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분과는 상이한 수신된 신호의 제2 부분에 대해 제2 화자 인식 프로세스 - 제2 화자 인식 프로세스는 제1 화자 인식 프로세스와는 상이함 - 를 수행하고; 그리고 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 제1 및 제2 출력 결과들을 조합하도록 구성된다.

발명의 또 다른 양태에 따르면, 사용자의 음성을 나타내는 수신된 신호를 프로세싱하는 방법이 제공되고, 상기 방법은 제1 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분에 대해 제1 화자 인식 프로세스를 수행하는 단계; 제2 출력 결과를 획득하기 위하여, 수신된 신호의 제2 부분에 대해 제2 화자 인식 프로세스를 수행하는 단계; 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 제1 및 제2 출력 결과들을 조합하는 단계; 사용자가 등록된 사용자일 표시된 가능성이 문턱 값(threshold value)보다 더 높은지를 결정하는 단계; 수신된 신호의 제2 부분에서 포함된 커맨드를 획득하기 위하여 수신된 신호의 제2 부분에 대해 음성 인식 프로세스를 수행하는 단계; 및 표시된 가능성이 문턱 값보다 더 높을 경우에 획득된 커맨드에 따라 작용하는 단계를 포함한다.

또 다른 양태에서, 본 발명은 화자 인식을 수행하기 위하여, 사용자의 음성을 나타내는 수신된 신호를 프로세싱하기 위한 디바이스를 제공하고, 상기 디바이스는 제1 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분에 대해 제1 화자 인식 프로세스를 수행하고; 제2 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분과는 상이한 수신된 신호의 제2 부분에 대해 제2 화자 인식 프로세스 - 제2 화자 인식 프로세스는 제1 화자 인식 프로세스와는 상이함 - 를 수행하고; 그리고 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 제1 및 제2 출력 결과들을 조합하도록 구성된다.

발명은 화자 인식을 수행하기 위하여, 사용자의 음성을 나타내는 수신된 신호를 프로세싱하기 위한 집적 회로 디바이스를 또한 제공하고, 상기 집적 회로 디바이스는 제1 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분에 대해 제1 화자 인식 프로세스를 수행하고; 제2 출력 결과를 획득하기 위하여, 수신된 신호의 제1 부분과는 상이한 수신된 신호의 제2 부분에 대해 제2 화자 인식 프로세스 - 제2 화자 인식 프로세스는 제1 화자 인식 프로세스와는 상이함 - 를 수행하고; 그리고 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 제1 및 제2 출력 결과들을 조합하도록 구성된다.

발명은 프로세서 회로부에 의해 실행될 때, 프로세서 회로부로 하여금, 위에서 기재된 방법들 중의 임의의 것을 수행하게 하는, 컴퓨터-실행가능 명령어들이 저장되어 있는 비-일시적 컴퓨터 판독가능 저장 매체를 또한 제공한다.

발명의 더 양호한 이해를 위하여, 그리고 그것이 어떻게 실시될 수도 있는지를 더 명확하게 보여주기 위하여, 오직 예로서, 동반되는 도면들에 대해 지금부터 참조가 행해질 것이다:
도 1은 전자 디바이스의 개략도이다;
도 2는 전자 디바이스의 추가의 개략도이다;
도 3은 방법을 예시하는 플로우차트이다;
도 4는 방법에서의 단계를 예시하는 도표이다;
도 5는 방법에서의 단계를 예시하는 개략도이다;
도 6은 방법에서의 단계를 예시하는 도표이다;
도 7은 방법에서의 단계를 예시하는 도표이다;
도 8은 방법에서의 추가의 단계를 예시하는 도표이다;
도 9는 제1 방법을 예시하는 개략도이다; 그리고
도 10은 제2 방법을 예시하는 개략도이다.

명확함을 위하여, 이 설명은 상이한 의미들을 가지도록 의도되는 화자 인식 및 음성 인식을 지칭한다는 것이 여기에서 주목될 것이다. 화자 인식은 발화하는 사람의 신분에 대한 정보를 제공하는 기법을 지칭한다. 예를 들어, 화자 인식은 이전에 등록된 개인들의 그룹 중으로부터, 화자의 신분을 결정할 수도 있거나, 식별 또는 인증의 목적들을 위하여, 화자가 특정한 개인인지 아닌지 여부를 표시하는 정보를 제공할 수도 있다. 음성 인식은 발화하고 있는 사람을 인식하는 것이 아니라, 발화되는 것의 내용 및/또는 의미를 결정하기 위한 기법을 지칭한다.

도 1은 발명의 하나의 양태에 따라 디바이스를 도시한다. 디바이스는 태블릿 컴퓨터, 게임 콘솔, 원격 제어 디바이스, 가정용 온도 또는 조명 제어 시스템을 포함하는 가정용 기기, 장난감, 로봇과 같은 머신 등과 같은 임의의 적당한 유형의 디바이스일 수도 있지만, 이 예시적인 예에서, 디바이스는 스마트폰(10)이다. 스마트폰(10)은 적당한 소프트웨어에 의해, 임의의 다른 추가의 디바이스 또는 시스템을 제어하기 위한 제어 인터페이스로서 이용될 수도 있다.

스마트폰(10)은 정보를 사용자에게 디스플레이하기 위한 스크린(12), 사운드가 마이크로폰에 의해 검출되는 것을 허용하기 위한 사운드 유입구(sound inlet)(14), 및 액세서리가 디바이스에 접속되는 것을 허용하기 위한 잭 소켓(jack socket)(16), 또는 다른 포트 또는 리셉터클(receptacle)을 포함한다.

도 2는 스마트폰(10)을 도시하는 개략도이다. 이 예에서, 스마트폰(10)은 예를 들어, 도 1에서 도시된 사운드 유입구(14)에 근접하게 위치될 수도 있는 마이크로폰(20)을 포함한다. 마이크로폰(20)에 의해 생성된 전자 신호들은, 예를 들어, 마이크로폰(20)으로부터 수신된 아날로그 신호들을 디지털 신호들로 변환하는, 신호들의 초기 신호 프로세싱을 수행하는 신호 프로세싱 블록(22)으로 전달된다.

스마트폰(10)은 예를 들어, 도 1에서 도시된 잭 소켓(16)에 근접하게 위치될 수도 있는 액세서리 인터페이스(24)를 또한 포함한다. 잭 소켓(16) 및 인터페이스(24)는 헤드셋 액세서리가 그것들에 접속되는 것을 허용하기 위하여 적당할 수도 있고, 이러한 액세서리 상의 마이크로폰으로부터 수신된 신호들은 신호들의 초기 신호 프로세싱을 수행하는 신호 프로세싱 블록(22)으로 또한 전달된다.

신호 프로세싱 블록(22)은, 메모리(28)에서 저장된 데이터 및 프로그램 명령어들에 기초하여 본원에서 설명된 바와 같은 방법들을 수행하는 프로세서(26)에 접속된다.

프로세서(28)는, 자체적으로 안테나(32)에 접속되어, 신호들이 외부 네트워크 상에서 원격 디바이스들로 송신되고 수신되는 것을 허용하는 인터페이스(30)에 접속된다.

다른 예들에서, 본원에서 설명된 프로세스들을 수행하는 디바이스는 임의의 이전의 신호 검출을 수행할 필요가 없으면서, 그리고 따라서, 디바이스가 신호 프로세싱 블록(22)을 포함할 것을 요구하지 않으면서, 요구된 입력 신호들을 적당한 형태로 수신할 수도 있다.

일부 예들에서, 이하에서 설명된 프로세싱의 일부는 외부 네트워크, 예를 들어, 원격 컴퓨팅 서버 또는 홈 네트워크에서의 서버를 통해 통신된 외부 디바이스 상에서 수행될 수도 있다. 다른 예들에서, 이하에서 설명된 프로세싱의 전부는 디바이스가 임의의 외부 디바이스 또는 네트워크에 대한 임의의 인터페이스를 포함할 것을 요구하지 않으면서, 단일 디바이스에서 수행될 수도 있다.

도 3은 하나의 실시예에 따라, 보이스 사용자 인터페이스의 동작의 방법을 예시하는 플로우차트이다.

이하에서 더 상세하게 설명된 바와 같이, 도 3에서 도시된 프로세스는 예를 들어, 사용자의 음성의 하나 이상의 모델을 형성하기 위하여 이용될 수 있는 보이스 샘플들의 하나 이상의 세트들을 제공함으로써, 사용자가 시스템에 등록된 후에 수행된다. 전형적으로, 등록(registration) 또는 등재(enrolment) 프로세스는 사용자가 음성 입력들을 제공할 것을 요구하고, 그 후에, 이전의 개발 국면에서 정의된 특정한 배경 모델로부터 시작하여, 사용자의 음성의 모델을 형성하기 위하여 이 음성 입력들을 이용한다. 따라서, 배경 모델 및 음성 입력들은 사용자의 음성의 모델을 형성하기 위하여 이용되는 등재 프로세스에 대한 입력들이다. 추후에, 검증 동안, 이하에서 더 상세하게 설명된 바와 같이, 추가의 음성 입력들은 출력을 제공하기 위하여, 사용자의 음성의 모델과, 그리고 배경 모델과 비교된다. 출력은 예를 들어, 검증 국면 동안에 수신된 음성 입력들이 등재 동안에 음성 입력들을 제공하였던 동일한 사용자에 의해 제공되었을 가능성을 표시하는 수치 값일 수도 있다. 가능성을 표시하는 수치 값은 예를 들어, 로그 가능성 비율(log likelihood ratio)(LLR)일 수도 있거나, 일부 더 간접적인 표시, 예를 들어, 일부 1-차원 또는 다-차원 문턱으로부터 음성 샘플의 추출된 특징들의 거리의 메트릭(metric)일 수도 있다.

보이스 사용자 인터페이스는 전력을 절감하기 위하여, 대기 상태에서 그 시간의 대부분을 소비할 수도 있다. 보이스 활성(voice activity) 검출 블록은 마이크로폰에 의해 검출되는 사운드들이 언제 음성을 나타내는지를 결정하기 위하여 제공될 수도 있다. 일부 실시예들에서는, 마이크로폰으로부터 수신되는 신호들이 저장된다. 그 후에, 보이스 활성 블록이 마이크로폰에 의해 검출되는 사운드들이 음성을 나타내는 것으로 결정할 때, 그 저장된 신호들은 이하에서 설명된 바와 같이 분석된다.

단계(50)에서, 신호는 하나 이상의 마이크로폰으로부터 수신되고, 신호는 제1 보이스 세그먼트(voice segment)를 나타내고, 즉, 신호는 사용자의 음성의 제1 파트(part)를 나타낸다.

단계(52)에서, 제1 보이스 세그먼트를 나타내는 신호는, 디바이스 내의 (도 2에서 도시된 실시예에서의 프로세서(26)와 같은) 프로세서에서 예를 들어, 구현될 수도 있거나, 별도의 디바이스, 예를 들어, 홈 또는 원격 네트워크에서의 컴퓨팅 서버에서 구현될 수도 있는 저전력 트리거 어구 검출기로 전달된다.

트리거 어구 검출기는 제1 보이스 세그먼트가 트리거 어구 또는 통과 어구(pass phrase)로서 본원에서 지칭된 특정 미리 결정된 어구를 포함하는지 여부를 결정하기 위한 음성 인식 기법들을 이용한다. 이것은 보이스 사용자 인터페이스를 완전히 활성화하기 위하여, 사용자가 발화하도록 요구되는 어구이다.

트리거 어구 검출기가 단계(52)에서 트리거 어구를 인식하는 것을 실패할 경우, 프로세스는 단계(50)로 복귀하고, 단계(50)에서는, 시스템이 보이스 세그먼트들에 대하여 수신된 신호를 모니터링하는 것을 계속한다.

제1 보이스 세그먼트가 트리거 어구를 포함하는 것으로 단계(52)에서 결정될 경우, 프로세스는 단계(54)로 통과되고, 단계(54)에서는, 화자 인식 프로세스가 제1 보이스 세그먼트에 대해 수행된다.

제1 보이스 세그먼트에 대해 수행되는 화자 인식 프로세스는 제1 사용자 모델로 동작한다. 사용자가 미리 알려져 있는 트리거 어구를 발화하고 있는 것으로 예상되므로, 제1 사용자 모델은 텍스트-제약된(text-constrained) 또는 텍스트-종속적(text-dependent) 화자 인식을 이용할 수도 있다. 즉, 디바이스의 화자 인식 특징을 먼저 활성화할 때에 사용자에 의해 수행된 등재 프로세스 동안, 사용자는 트리거 어구를 다수 회 발화하도록 요구되었다. 등재 프로세스는 예를 들어, 다른 사용자들의 큰 샘플로부터의 음성 입력들에 기초할 수도 있는 특정한 배경 모델을 그 시작 포인트로서 이용하고, 사용자의 음성 입력들은 그 후에 제1 사용자 모델을 형성할 시에 이용된다. 더 구체적으로, 멜 주파수 켑스트럼 계수(Mel frequency Cepstrum Coefficient)(MFCC) 특징들과 같은, 사용자의 음성의 특징들은 제1 사용자 모델을 형성 시에 이용될 수도 있다.

단계(54)의 출력은 예를 들어, (가능성 비율 또는 거리의 형태인, 또는 임의의 다른 형태인) 수치 점수일 수도 있다. 제1 보이스 세그먼트 또는 트리거 어구에 관련되는 이 수치 점수는 S_T에 의해 여기서 나타내어진다.

단계(56)에서, 추가의 신호는 하나 이상의 마이크로폰으로부터 수신되고, 이 신호는 제2 보이스 세그먼트를 나타내고, 즉, 신호는 사용자의 음성의 제2 파트를 나타낸다. 이 제2 보이스 세그먼트는 제1 보이스 세그먼트로부터 즉시 후행할 수도 있다. 대안적으로, 시스템은 단계(52)에서 트리거 어구를 검출하는 것에 대해 시각적 또는 청각적 프롬프트(prompt)를 사용자에게 제공할 수도 있고, 제2 보이스 세그먼트는 그 후에 그 프롬프트를 후행할 수도 있다.

단계(58)에서, 화자 인식 프로세스는 제2 보이스 세그먼트에 대해 수행된다.

제2 보이스 세그먼트에 대해 수행되는 화자 인식 프로세스는 단계(54)에서 제1 보이스 세그먼트에 대해 수행되었던 화자 인식 프로세스와는 상이하다.

각각의 화자 인식 프로세스는 특정한 배경 모델 및 사용자의 음성의 모델을 그 입력들로서 이용하고, 출력에 도달하기 위한 특정된 검증 방법을 이용하여, 관련된 보이스 세그먼트를 이 모델들과 비교한다. 멜 주파수 켑스트럼 계수(MFCC) 특징들과 같은, 사용자의 음성의 특징들은 관련된 보이스 세그먼트로부터 획득되고, 이 특징들은 배경 모델 및 관련된 사용자 모델의 특징들과 비교된다. 따라서, 각각의 화자 인식 프로세스는 이용되는 배경 모델, 사용자 모델, 및 검증 방법 또는 엔진을 포함하는 것으로 고려될 수 있다. 제1 및 제2 보이스 세그먼트들에 대해 수행된 화자 인식 프로세스들은 프로세스의 이 컴포넌트들 중의 하나 이상에서 상이할 수도 있다.

예를 들어, 화자 인식 프로세스들은 (예를 들어, 단지 하나의 등재 세션 및 기법을 이용함으로써) 사용자의 음성의 동일한 모델을 이용할 수도 있지만, 제1 및 제2 보이스 세그먼트들에 대한 상이한 검증 방법들을 이용할 수도 있다. 하나의 예로서, 배경 모델 및 사용자 모델은 은닉 마코프 모델들(Hidden Markov Models)(HMMs)일 수도 있고, 배경 모델은 인간 음성에 적응된 유니버셜 배경 모델(Universal Background Model)(UBM)일 수도 있고, 사용자 모델은 그 특정 사용자의 음성에 적응될 수도 있지만, 특히 임의의 어구에 적응되지 않을 수도 있다. 그 후에, 트리거 어구에 대해 이용된 텍스트 제약된 방법은 트리거 어구에 의해 표시된 경로(UBM에서 정의된 바와 같은 HMM에서의 상태들의 고정된 시퀀스)를 거치도록 HMM들을 강제하기 위하여 강제된 정렬 방법을 이용할 수도 있는 반면, 제2 또는 커맨드 어구에 대해 이용된 텍스트 독립적 시스템은 어느 것도 강제하지 않으면서, 최상의 정렬을 부여하는 시퀀스를 물색할 수도 있다. 또 다른 예는 UBM 및 사용자 모델이 가우시안 혼합 모델들(Gaussian Mixture Models)(GMMs)인 경우이다. 동일한 GMM 모델들은 예를 들어, 트리거 어구에 대하여 고속이고 저전력일 간단한 GMM-UBM 시스템에서 이용될 수 있고, 그 후에, 커맨드에 대하여, 동일한 화자 모델들 및 UBM을 고려하는(그리고 더 많은 연산 비용 및 파워를 필요로 하지만, 훨씬 더 많은 정확성을 획득하는), 예를 들어, 인자 분석(Factor Analysis)을 편입시키는 더 복잡한 GMM 시스템에서 이용될 수 있다.

대안적으로, 방법들은 사용자의 음성의 상이한 모델들(또한, "사용자 모델들"로서 지칭됨)을 이용할 수도 있고, 이것은 방법들이 상이한 등재 세션들 또는 프로세스들을 이용한다는 것을 암시한다.

상이한 사용자 모델들을 획득하기 위한 하나의 방법은 등재 프로세스 동안에 입력 오디오 데이터의 동일한 세트에 대해 동작하는 상이한 엔진들을 가지는 것이다. 즉, 입력 오디오 데이터는 위에서 설명된 바와 같이, 등재 프로세스 동안에 사용자 모델을 형성하기 위하여 이용된다. 실제로는, 이것은 어떤 연관된 파라미터들을 수학식들에서의 상수들로서 가지는 수학적 수학식들의 세트에 입력 오디오 데이터를 적용함으로써 달성된다. 상이한 목적들을 위하여 예를 들어, 튜닝(tune)될 수도 있는 상이한 엔진들은 이 파라미터들에 대하여 상이한 값들을 설정하는 것, 또는 알고리즘의 상이한 클래스를 채용하는 것에 의한 것을 포함하여, 수학식들의 상이한 세트를 이용함으로써 획득될 수 있다. 예를 들어, 입력은 사용자 적응된 GMM을 얻기 위한 등재 프로세스, 또는 GMM-UBM을 슈퍼벡터(supervector)로 변환하고 지원 벡터 머신(Support Vector Machine)(SVM)을 사용자 모델로서 구축하는 등재 프로세스로 가는 GMM-UBM일 수 있다.

제1 및 제2 보이스 세그먼트들에 대해 수행된 화자 인식 프로세스들을 위한 상이한 사용자 모델들을 획득하기 위한 또 다른 방법은 등재 프로세스 동안에 상이한 입력 데이터, 그러나 공통적인 엔진을 이용하는 것이다. 제1 및 제2 보이스 세그먼트들에 대해 수행된 화자 인식 프로세스들을 위한 상이한 사용자 모델들을 획득하기 위한 제3의 방법은 등재 프로세스 동안에 상이한 입력 데이터를 이용하고 입력 데이터에 대해 동작하는 상이한 엔진들을 이용하는 것이다.

상이한 입력 데이터를 이용함으로써 제1 및 제2 보이스 세그먼트들에 대해 수행된 화자 인식 프로세스들을 위한 상이한 사용자 모델들을 획득하는 것이 희망될 때, 하나의 가능성은 개개의 화자 모델들을 훈련시키기 위하여 등재 프로세스 동안에 2 개의 상이한 오디오 입력들을 이용하는 것이다. 예를 들어, 제1 보이스 세그먼트에 대해 수행된 화자 인식 프로세스에서 이용되는 사용자 모델을 형성하기 위하여 이용된 오디오 입력들은 사용자가 미리 결정된 트리거 어구를 발화하는 오디오 입력들일 수도 있어서, 이것은 텍스트-제약된 화자 인식 프로세스가 되는 반면, 제2 보이스 세그먼트에 대해 수행된 화자 인식 프로세스에서 이용되는 사용자 모델을 형성하기 위하여 이용된 오디오 입력들은 사용자가 그 선택하는 것의 임의의 어구들(또는 높은 표음적 가변성(phonetic variability)을 가지도록 설계되는 미리 정의된 텍스트 또는 어구들의 세트)을 발화(또는 크게 읽음)하는 오디오 입력들일 수도 있어서, 이것은 텍스트-독립적 화자 인식 프로세스가 된다.

제2 가능성은 제1 및 제2 보이스 세그먼트들에 대해 수행된 화자 인식 프로세스들에서 이용되는 상이한 사용자 모델들을 형성하기 위하여 상이한 배경 모델들을 이용하는 것이다. 하나의 특정 가능성은 2 개의 상이한 가우시안 혼합 모델들(GMMs)을 배경 모델들로서 이용하는 것이고, 이 때문에, 유도된 사용자 모델에서는, 모델들에서의 상이한 수들의 가우시안 컴포넌트들을 이용하는 것에 의한 것이다. 이것은 가우시안 컴포넌트들의 수를 감소시키는 것이 프로세스를 더 고속으로 하는 반면, 가우시안 컴포넌트들의 수를 증가시키는 것은 프로세스를 더 정확하게 하기 때문에 유용할 수도 있다.

제1 및 제2 보이스 세그먼트들에 대해 수행된 화자 인식 프로세스들을 위한 상이한 사용자 모델들을 획득하기 위한 제3 가능성은 등재 프로세스 동안에 상이한 오디오 입력들을 이용하고, 개개의 상이한 배경 모델들을 수정하기 위하여 이것들을 이용하는 것이다.

단계(58)의 출력은 예를 들어, (가능성 비율 또는 거리의 형태인, 또는 임의의 다른 형태인) 수치 점수일 수도 있다. 예를 들어, 커맨드일 수도 있는 제2 보이스 세그먼트에 관련되는 이 수치 점수는 s_C에 의해 여기서 나타내어진다.

단계(60)에서, 제1 및 제2 보이스 세그먼트들에 대해 수행된 화자 인식 프로세스들의 결과들은 사용자가 등재된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 조합된다. 가능성을 표시하는 조합된 출력 결과는 예를 들어, 로그 가능성 비율(LLR)일 수도 있거나, 일부 더 간접적인 표시, 예를 들어, 일부 1-차원 또는 다-차원 문턱 또는 명목 포인트(nominal point)로부터 음성 샘플의 추출된 특징들의 거리, 또는 다-차원 음성 파라미터 공간에서의 체적의 메트릭일 수도 있다.

조합된 출력 결과는 임의의 적당한 방법에 의해 제1 및 제2 보이스 세그먼트들에 대해 수행된 화자 인식 프로세스들의 별도의 결과들로부터 획득될 수도 있다. 예를 들어, 조합된 출력 결과는 제1 및 제2 보이스 세그먼트들에 대해 수행된 화자 인식 프로세스들의 결과들의 가중화된 합 s_F일 수도 있다. 즉, 일반적인 측면들에서:

가중화 인자들

,

, 및

는 상수일 수도 있고 미리 결정될 수도 있다.

대안적으로, 조합된 출력 결과를 획득하기 위하여, 제1 및 제2 보이스 세그먼트들에 대해 수행된 화자 인식 프로세스들의 결과들을 조합하는 단계는 판정의 신뢰성을 개선시키기 위하여, 결과들이 어떻게 조합되어야 하는지를 결정하기 위한 품질 척도(quality measure)들을 이용할 수도 있다. 즉, 별도의 품질 척도들은 제1 및 제2 보이스 세그먼트들에 대하여 획득되고, 이 품질 척도들은 그 후에, 결과들이 조합되게 하는 프로세스에 대한 추가의 입력들로서 이용된다.

이 품질 척도들은 예를 들어, 제1 및 제2 보이스 세그먼트들, 예를 들어, 트리거 어구 및 커맨드의 속성들에 기초할 수도 있다. 어떤 트리거들은 그것들이 지속기간에 있어서 더 길기 때문에, 또는 그것들이 더 많은 표음적 가변성을 포함하고, 따라서, 그것들은 화자들을 구별하기 위하여 더 많은 정보를 제공하기 때문에, 다른 것들보다 보이스 생체인식에서의 이용을 위하여 더 적당할 것이다. 어떤 커맨드들은 동일한 이유들로 다른 것들보다 보이스 생체인식에서의 이용을 위하여 더 적당할 것이다. 제1 및 제2 보이스 세그먼트들에서의 비-정적(non-stationary) 잡음의 존재와 같은 다른 양태들은 하나의 보이스 세그먼트를 다른 것보다 더 신뢰성 있게 할 수도 있다.

하나의 실시예에서, 품질 척도들의 세트, 즉, 트리거에 대한 품질 척도들 Q_T의 세트 및 커맨드에 대한 품질 척도들 Q_C의 세트가 정의되고, 가중화 인자들

,

, 및

의 값들은 품질 척도들에 기초하여 설정된다. 그 후에, 가중화된 합 s_F은 이 품질 척도들의 함수로서 획득될 것이다:

품질 척도들 Q_T, Q_C를 가중화 인자들

,

, 및

에 맵핑하는 함수들은 시스템 설계의 부분이고, 따라서, 시스템이 사용자 등재 또는 검증에 대하여 전개되기 전에, 개발 국면 동안에 획득되고 정의된다. 개발 국면 후의 이용 시에 이 함수들에 의해 반환된 값들은 품질 척도들 Q_T, Q_C이 샘플마다 변동될 때에 샘플마다 변동될 것이다.

함수들은 품질 척도들의 상이한 값들의 범위를 가지도록 배열된 큰 수의 음성 샘플들로 시스템을 연습시키는 것에 기초하여 개발 국면 동안에 획득될 수도 있다.

함수들의 형태는 개발 국면 전에 정의될 수도 있고, 계수들은 최상의 맞춤(best fit)을 제공하도록 최적화될 수도 있다. 일부 실시예들에서, 함수들은 대수 함수(algebraic function)들이 아닐 수도 있지만, 품질 척도들의 값의 범위들 상에서 최적화된 최적화된 계수들, 또는 품질 척도들의 최적화된 범위들에 적용된 고정된 값들을 포함하는 룩업 테이블(look-up table)의 형태를 포함할 수도 있다. 더 일반적으로, 함수는 일부 계수들에 의해 특징되고 품질 척도들에 종속적인 값을 전달하는 일부 더 복잡한 알고리즘의 결과일 수도 있다.

일부 실시예들에서, 조합된 점수는 예를 들어, 이하의 형태로 나타내어질 수도 있는 점수들 s_F 및 s_C의 비-선형 조합일 수도 있다.

여기서, 각각의 가중화 인자

또는

는 개개의 점수에 연속적으로 또는 불-연속적으로 종속될 수도 있다.

더 일반적으로, 조합된 점수는 제1 및 제2 보이스 세그먼트들에 대해 수행된 화자 인식 프로세스들로부터 획득되는 점수들 s_T 및 s_C, 및 그 보이스 세그먼트들에 적용하는 품질 척도들 Q_T 및 Q_C의 임의의 함수일 수도 있다. 즉:

여기서, f는 임의의 함수일 수도 있다.

점수들 s_T 및 s_C, 및 품질 척도들 Q_T 및 Q_C의 값들은 조합된 점수 s_F에 대한 값을 그 후에 생성하는 신경 네트워크(neural network)에 적용될 수도 있다.

제1 및 제2 화자 인식 프로세스들의 결과들에 부여되어야 할 가중치들을 결정할 때에는, 상이한 품질 척도들이 고려될 수 있다.

하나의 적당한 품질 척도는 예를 들어, 입력 트리거 및 입력 커맨드에서 별도로 측정될 수도 있는 신호 대 잡음 비율(Signal to Noise Ratio)(SNR)이다. SNR이 급속하게 변동되는 비-정적 잡음의 경우, 더 높은 가중치가 더 높은 SNR을 가지는 입력 음성 세그먼트로부터 획득된 결과에 부여될 수 있다.

또 다른 적당한 품질 척도는 순수-음성(net-speech) 척도이다. 예시된 실시예와 관련하여 논의된 바와 같이, 커맨드로부터 획득된 점수에 부여되는 가중치는 커맨드에서의 음성의 양에 따라 증가될 수 있다. 즉, 비-음성 세그먼트들을 제외하는, 음성을 실제적으로 포함하는 커맨드에서의 프래그먼트(fragment)들의 총 길이는 예를 들어, 초(second)와 같은 시간 단위들로 측정되고, 이것은 트리거에 적용된 가중치에 대하여, 커맨드에 적용되어야 할 가중치를 형성하기 위하여 이용된다.

추가의 대안적인 품질 척도는 포화 척도(saturation measure)이다. 이것은 포화되는 오디오 입력의 양을 결정하고, 즉, 여기서, 입력 오디오의 파트는 오디오가 화자 인식 시스템에 도달하기 전에 오디오를 프로세싱하는 센서 및 사전-프로세싱 스테이지(stage)들의 동적 범위를 넘어서고 있다. 이것은 통상적으로, 입력 레벨이 시스템에 대하여 너무 클 때에 일어난다. 포화는 신호에서 예상되지 않은 고조파(harmonic)들을 생성하는 비-선형 효과이고, 포화에 의해 영향받은 모든 신호들이 화자 인식의 관점으로부터 유사하고 비-포화된 신호들과는 매우 구분되므로, 포화는 화자 인식 정확성을 상당히 감소시킨다. 따라서, 트리거 및 커맨드에서 포화되었던 오디오 입력의 양을 측정하는 것이 가능하다. 그 후에, 더 높은 가중치가 오디오의 덜 포화된 부분에 부여된다. 포화는 몇몇 방법들로 측정될 수 있지만, 그것을 측정하는 하나의 전형적인 방법은 포화된 오디오 샘플들을 포함하는 프레임들의 백분율(어떤 길이의 윈도우(window)들의 수, 예를 들어, 10 ms)을 표시하는 것이다. 이 백분율은 시스템에 의해 음성으로 표기되는 그 프레임들(즉, 화자 인식 시스템에 의해 프로세싱될 그 프레임들)에 대하여 통상적으로 계산된다.

추가의 대안적인 유형의 품질 척도는 입력이 모델과 얼마나 양호하게 정합(match)하는지에 관련된 척도, 즉, 입력과 배경 모델들 사이의 맞춤의 레벨이다. 화자 인식을 위한 유니버셜 배경 모델들(UBM)은 화자들의 모집단(universe)으로부터 예상되는 입력들의 모집단을 모델링하는 것을 노력하는 전형적으로 통계적 모델들이다. UBM은 화자 인식 시스템으로 공급될 수도 있는 임의의 입력을 설명하기 위한 양호한 모델인 것이 예상된다. UBM이 입력에 근접한 모델이 아닐 경우, 입력은 시스템이 이전에 보았던 어떤 것과 유사하지 않으므로, 우리는 화자 인식 시스템의 판정을 덜 신뢰성 있는 것으로 예상한다.

이 유형의 척도의 하나의 예는 텍스트-종속적 및 텍스트-독립적 UBM에 대한 데이터의 가능성의 척도이다. 입력의 하나의 세그먼트가 예상된 가능성 값들(예를 들어, 큰 개발 데이터세트(dataset)에 대해 관찰된 것들)을 가지고 다른 세그먼트가 예상된 가능성 값들 미만인 값들을 가질 경우, 그것은 그 입력 데이터를 설명할 가능성이 더 많으므로, 더 많은 가중치가 전자의 시스템에 부여된다.

입력이 모델과 얼마나 양호하게 정합하는지에 관련된 품질 척도의 또 다른 예는 은닉 변수들의 프라이어(prior) 및 포스테리어(posterior) 값들 사이의 발산(divergence)에 관련된다. 따라서, HMM, GMM, 및 인자 분석 시스템들은 시스템에 대한 입력 데이터를 설명하기 위하여 은닉 또는 잠복 변수들을 이용한다. 베이시안(Bayesian) 방법으로 취급될 때, 이 잠복 변수들에 대한 프라이어가 있다. 입력 데이터가 주어지면, 포스테리어가 획득될 수 있다. 프라이어와 포스테리어 사이의 발산이 클 경우, 이것은 입력 데이터가 모델이 예상할 것과 유사하지 않고 시스템 출력이 신뢰성 없을 수도 있다는 것을 의미한다. 트리거 및 커맨드의 양자에서 측정된 이 정보는 트리거 및 커맨드에 대해 수행된 화자 인식 프로세스들로부터 획득된 결과들에 대해 부여되는 가중치들을 조절하기 위하여 이용될 수 있다.

추가의 대안적인 유형의 품질 척도는 보이스 생체인식 해결책으로 작동하는 디바이스의 외부 모듈에 의해 제공된 척도이다.

예를 들어, 이 유형의 척도는 디바이스가 빔포머(beamformer)를 포함할 경우에 획득될 수도 있다. 빔포머는 입력 신호의 각각의 세그먼트에 대하여, 직접 대 반사 비율(Direct to Reflected Ratio)의 척도들을 제공할 수도 있다. 입력 신호의 하나의 세그먼트(예를 들어, 커맨드일 수도 있는 제2 보이스 세그먼트의 트리거일 수도 있는 제1 보이스 세그먼트)가 반향(reverberation) 또는 간접적인 반사들에 의해 덜 영향받는 것으로 보일 경우, 시스템은 그 세그먼트의 가중치를 증가시킬 수도 있다. 이 변동은 예를 들어, 사용자 및 디바이스의 상대적인 위치들이 변동될 때에 일어날 수도 있다. 시스템은 따라서, 사용자로부터 더 직접적으로 수신된 신호 부분을 더 과도하게 가중화하기 위하여, 음성의 개개의 부분이 수신되었던 방향의 척도에 따라 더 많은 가중치를 음성의 부분에 부여할 수도 있다. 다소 유사하게도, 빔포머는 수신된 신호들의 신호 대 간섭 비율(Signal to Interference ratio)의 척도들을 제공할 수도 있다. 그 후에, 사운드(sound)들의 하나를 초과하는 소스(예를 들어, 희망된 화자 및 일부 지향성 잡음 또는 다른 간섭하는 화자들)가 있을 때, 시스템은 간섭자(interferer)들에 의해 덜 영향받는 세그먼트들에 더 많은 가중치를 부여할 수 있다.

이 유형의 추가의 척도는 디바이스가 근접 센서(proximity sensor)를 포함할 경우에 획득될 수도 있다. 예를 들어, 근접 센서는 제1 및 제2 보이스 세그먼트들을 발화할 때에 사용자가 마이크로폰으로부터 얼마나 멀리 있는지, 즉, 수신된 신호의 개개의 부분이 수신되었던 범위를 결정할 수 있다. 이 정보는 더 짧은 거리로부터 발성되었던 보이스 세그먼트들에 대해 획득된 화자 인식 결과들에 더 많은 가중치를 부여하기 위하여 이용될 수 있다.

검증 국면 동안, 하나의 실시예에서, 방법은 트리거 및 커맨드의 시작 및 종료를 검출할 수도 있고, 그 후에, 등재 동안에 획득된 대응하는 배경 모델들 및 사용자 모델들을 이용하여, 트리거 및 커맨드에 대한 품질 척도들 및 점수들을 추출할 수도 있고, 이 배경 모델들 및/또는 사용자 모델들은 트리거 및 커맨드를 위한 것일 수도 있다. 품질 척도들은 등재 스테이지 동안에 학습된 함수들에 기초하여 가중화 인자들을 결정하기 위하여 이용된다. 그 후에, 가중화 인자들은 트리거 어구 및 커맨드에 대해 각각 제1 및 제2 화자 인식 프로세스들을 수행함으로써 획득된 별도의 결과들로부터 조합된 결과를 획득하기 위하여 이용된다.

특히, 하나의 실시예에서, 가중화 인자들

,

, 및

는 고려된 특정한 트리거 어구 및 커맨드, n_C에서 이용가능한 사용자 음성의 양에 기초하여 결정될 수도 있다. 이 목적을 위하여, 개발 국면이 필요하다.

개발 국면 동안, 가중화 인자들

,

는 항상 동일한 트리거 어구를 고려하여, 커맨드에서의 순수-음성 n_C(즉, 실제적인 사용자 음성의 양)의 상이한 길이들에 대하여 획득되기 때문에, 최적의 값들이 획득된다. 일단 트리거가 고정되면, n_C의 주어진 값에 대한 최적의 가중화 인자들, 즉,

,

는 어떤 기준들에 따라 선택될 수도 있다. 예를 들어, 선형 로지스틱 회귀(Linear Logistic Regression)는 가중화 인자들의 최적의 값들을 결정하기 위하여 이용될 수 있다.

선형 로지스틱 회귀는 조합된 점수 s_F를 획득하기 위하여 로직스틱 회귀를 점수들의 선형 조합에 적용하고, 따라서:

로지스틱 회귀는 로지스틱 함수를 통해 점수로부터, 시스템의 판정

가 취해야 할 참인 값(true value)(정합인 가설 H₁에 대하여

= 1, 그리고 비-정합(no-match)인 가설 H₂에 대하여

= 0)을 결정하는 것을 시도한다:

로지스틱 함수의 출력은 입력 세그먼트가 트리거 및 커맨드에 대한 점수들이 주어질 경우에 화자 모델, 및 커맨드의 순수-음성 길이에 대한 정합일 확률로서 해독될 수 있다. 베이시안 프레임워크에서는, 이것은 평탄한 프라이어에 대하여 오직 해당하고, 즉, P(H₁) = P(H₂) = 0.5인 것에 주목한다. 그러나, 상이한 프라이어들에 대하여, 로지스틱 함수에서 프라이어 정보를 포함하는 것이 여전히 가능하다.

도 4는 조합된 점수 s_F가 증가하거나 감소할 때에 이 시그모이드 함수(sigmoid function)

, 즉,

가 어떻게 점근적으로(asymptotically) 1 또는 0에 접근하는지를 도시한다.

따라서:

극한에서,

일 때,

이고

극한에서,

일 때,

이다.

(가중화 인자들을 변경하는 것이 일반적으로 행하는 바와 같이) 입력들을 이 함수로 스케일링(scaling) 또는 바이어싱(biasing)하는 것은 따라서 시그모이드를 성형할 것이다. 구체적으로, 가중화 인자들

및

을 변화시키는 것은 기울기(slope)가 거의 급격하도록 함수를 성형할 것이고, 바이어스 가중화 인자

를 변화시키는 것은 수평 축을 따라 함수를 이동시킬 것이다.

가중화 인자들 또는 융합 계수들에 대한 최적의 값들을 결정하기 위하여, 개발 프로세스는 훈련 데이터로서, 특정한 n_C 및 트리거 어구에 대한 텍스트-제약된 및 텍스트-독립적 화자 인식 시스템들의 점수들의 큰 수(예를 들어, 수 천개)의 샘플들, 및 이 점수들과 연관된 판정들을 필요로 한다. 매 훈련 샘플 i는 값들

의 세트이고, 여기서, 정합에 대하여

= 1이고, 비-정합에 대하여

= 0이다. 이 세트는 VUI와의 실제적인 사용자 상호작용으로부터 추출되었다. 그 후에, 선형 로지스틱 회귀는

으로

의 참인 값을 최상으로 예측하는 계수 값들의 최적의 세트를 결정한다.

구체적으로, 이것은 출력 판정 Ρ(

)(관찰된 판정들)의 진정한 근원적인 분포와 모델

사이의 교차-엔트로피(cross-entropy)를 최소함으로써 달성된다. 교차-엔트로피 최소화 프로세스는 융합 가중치들에서 임의의 제약을 설정하지 않고, 따라서, 그 값들은 경계가 정해지지 않는다는 것에 주목한다.

이 프로세스는 몇몇 n_C 값들에 대하여 행해져서, 융합 계수들의 세트는 각각의 n_C에 대하여 획득된다. 실제로는, n_C의 정확하게 동일한 값을 가지는 것들이 아니라, n_C에 대하여 유사한 값들을 가지는 샘플들을 응집(agglomerate)시키는 것이 더 유용하다. 이 목적을 위하여, n_C 값들의 K 개의 간격들이 정의될 수 있고, 입력 샘플들은 그 n_C이 나뉘는 간격에 따라 사전-분류될 수 있다.

도 5는 이 개발 프로세스를 예시한다. 위에서 언급된 바와 같이, 큰 수의 훈련 샘플들(160)이 있고, 이 샘플들은 사전-분류기(pre-classifier)로 전달되고, 여기서, 그 샘플들은 n_C의 그 값이 속하는 간격에 기초하여 분류된다. 따라서, (K-1) 개의 문턱들이 정의되고, 제1 문턱 n₁보다 더 작은 n_C의 값들에 대하여, 샘플들은 제1 선형 로지스틱 회귀 블록(164.1)로 전달되고; 제1 문턱 n_k보다 더 작지만, 이전의 문턱 n_k _-1보다 더 큰 n_C의 값들에 대하여, 샘플들은 k 번째 선형 로지스틱 회귀 블록(164.k)으로 전달되고; 최후의 문턱 n_K _-1보다 더 큰 n_C의 값들에 대하여, 샘플들은 K 번째 선형 로지스틱 회귀 블록(164.K)로 전달된다.

그 후에, 166에서 도시된 바와 같이, 대응하는 융합 계수들(168)을 획득하기 위하여, 등재 동안에 보였고 보이지 않았던 것들을 포함하는, n_C의 매 값을 맵핑하도록 설계된 함수가 수행된다. 최종적으로, 교정 동작(170)이 수행되어, 문턱(172)은 희망된 동작 포인트로 조절된다. 이 단계는 대안적으로 선형 로지스틱 회귀 내에 포함될 수 있지만, 이 별도의 교정은 융합 가중치 값들로의 제약들의 설정을 가능하게 하여, 그 모델링을 용이하게 한다.

스텝 함수(step function)들을 이용하는 간단한 비-선형 맵핑이 고려될 수 있어서, 사전-분류를 위하여 고려된 n_C 값들의 각각의 간격에 대하여, 융합 계수들의 세트는 다음과 같이 정의된다:

이 구간별 상수 맵핑(piece-wise constant mapping)의 예는 이하의 표에서 제시되고, 여기서, 6 개의 간격들이 정의되었고, n_C = 0은 커맨드가 없는 특수한 경우인 것에 주목한다.

회귀 모델은 마찬가지로 맵핑을 위하여 이용될 수 있다. 순수-음성은 개별 변수가 아니라 연속적인 변수이므로, 순수-음성으로부터 융합 가중치들을 추정하기 위한 회귀 모델의 이용이 더 당연하다.

로지스틱 회귀로부터 획득된 융합 가중치들은 임의의 제약을 가지지 않고, 따라서, 회귀 모델들은 매우 양호하게 맞지 않을 수도 있다. 가중치들은 그러므로, 더 양호한 맞춤을 획득하기 위한 그러한 방법으로 스케일링될 수도 있고 바이어싱될 수도 있다.

도 6은 위의 표에서의 값들의 도표이고, 커맨드에서의 존재하는 순수-음성(즉, n_C)의 값들의 6 개의 범위들에 대하여, 텍스트-제약된(text-constrained)(TC) 화자 인식 프로세스로부터 획득된 점수에 적용된 가중치(즉, 커맨드로부터 획득된 점수에 적용된 가중치

) 및 텍스트-독립적(text-independent)(Tl) 화자 인식 프로세스로부터 획득된 점수에 적용된 가중치(즉, 트리거로부터 획득된 점수에 적용된 가중치

)를 도시한다. 이 범위들의 각각에 대하여, 점수들은 이 가중치 값들을 생성하기 위하여 실제적으로 이용된 샘플들의 특정한 세트에 대한 개개의 범위에서의 입력들의 전부에 대한 순수-음성의 평균 값에서 도시된다. 예상되는 바와 같이, 커맨드에서 존재하는 순수-음성의 양이 증가할 때, 커맨드로부터 획득된 점수에 적용된 가중치는 트리거로부터 획득된 점수에 적용된 가중치에 비해 증가한다.

도 5의 단계(166)에서 회귀 모델을 구축하는 태스트를 용이하게 하기 위하여, 가중치들에 대한 제약을 설정하는 것이 가능하다. 융합 가중치들에서의 오프셋 항(offset term)

은 정합 조건과 비-정합 조건 사이를 구별하기 위하여 이용되는 문턱의 이동으로 변환된다. (도 5에서의 170에서 도시된) 교정 스테이지는 희망된 문턱을 설정하기 위하여 이용되므로, 이 오프셋 항은 필요하지 않다.

또한, 융합 가중치들

,

의 스케일은 관계

가 유지되는 한, 교정을 위하여 오직 중요하다. 그러므로,

및

의 스케일을 무시하고 오프셋 항

을 무시하면, 가중치들에 대한 제약을 설정하는 것이 가능하고, 즉:

도 7은 비율

을 유지하면서,

이라는 제약을 적용한 후에, 커맨드에서 존재하는 순수-음성(즉, n_C)의 값들의 6 개의 범위들에 대하여, 텍스트-제약된(TC) 화자 인식 프로세스로부터 획득된 점수에 적용된 가중치(즉,

) 및 텍스트-독립적(TI) 화자 인식 프로세스로부터 획득된 점수에 적용된 가중치(즉,

)를 도시하는, 위의 표로부터의 값들의 또 다른 도표이다.

하나의 증가의 경향은 다른 것의 감소의 경향으로 변환되어, 양자가 증가하거나 감소하는 n_C의 범위들을 회피하고, 이것은 이 가중치들을 모델링하는 것을 어렵게 하므로, 이 제약은

및

의 값들을 더 합리적으로 한다.

각각의 가중치가 아니라, 비율

에 대한 회귀 모델을 별도로 이용하는 것이 가능하다. 하나의 실시예에서, 선형 회귀 모델은 n_C의 임의의 주어진 값에 대한 비율

을 추정하기 위하여 이용된다. 실제로, 우리는 n_C의 매우 큰 값들에 대하여 점근적 거동을 예상하므로, 특정 실시예는 n_C ^-1에 대하여 선형인 모델을 이용한다. 따라서, 형태의 라인에 대한 최상의 맞춤을 제공하는 파라미터들 a 및 b의 값들이 획득된다:

도 8은 이 회귀 수학식에 의해 요구된 형태로 변환된, 위의 표로부터의 값들의 도표이다. 즉,

및

의 값들이 획득되었던 n_C의 값들의 범위들의 각각에 대하여, 비율

의 평균 값은 n_C ^-1, 개개의 범위에서의 입력들의 전부에 대한 순수-음성의 평균 값의 상반성(reciprocal)에 대하여 도표화되고, 그 후에, 이 경우에 파라미터들 a = 0.7289 및 b = 0.855의 값들을 부여하는 최상의 맞춤 직선 라인이 발견되고, 그러므로:

이 예시된 경우에는, 값들이 트리거들의 특정한 세트에 대하여 획득되었다. 하나의 대안에서는, 별도의 값들이 각각의 트리거에 대하여 획득될 수 있고, 회귀는 각각의 트리거에 대하여 별도로 수행될 수 있어서, 각각의 트리거에 대한 회귀에서의 상이한 항들로 이어질 수 있다.

그 후에, 수신된 보이스 커맨드들로부터 획득되는 n_C의 임의의 미래의 입력 값들에 대하여, 선형 모델은 비율

에 대한 값을 발견하기 위하여 이용될 수 있고, 그 후에, 별도의 융합 가중치들

및

에 대한 값들은

이라는 제약을 이용하여 계산될 수 있다.

이 선형 회귀 기법에 대한 대안으로서, 비-선형 회귀 기법들은 예를 들어, 이전에 제시된 것과 같은 스텝 함수, 또는 더 복잡한 비-선형 함수로의 맵으로서 이용될 수 있다.

위에서 설명된 프로세스에 대한 추가의 대안으로서, n_C의 값들은 선형 로지스틱 회귀 프로세스에서 직접적으로 포함될 수 있어서, 사전-분류를 수행하기 위한 필요성을 회피한다. 이 경우, 로지스틱 함수

는 그것을 선형 로지스틱 회귀로 입력하기 전에 n_C에 적용되어,

은 0 내지 1 사이의 값들을 취하고, 이 값들은 선형 로지스틱 회귀에 대하여, 입력 샘플들을 가중화하기 위하여 이용된다. 로지스틱 회귀의 출력 모델은 그 후에, 임의의 입력 값 n_C에 대한 융합 계수들을 제공할 수 있다. 이것은 선형 로지스틱 회귀에서 "부가 정보(side information)"를 이용하는 것으로서 알려져 있다. 이것은 최종적인 교정 스테이지에 대한 필요성을 또한 제거하지만, 실제로는, 문턱 값을 획득하기 위하여 최종적인 교정을 수행하는 것이 바람직할 수도 있다.

융합 계수들의 결정에 추가하여, 개발 동안에, 텍스트-제약된 화자 인식 시스템은 트리거 어구의 동일한 샘플들의 일부 또는 전부를 이용하여 트리거 어구에 적응될 수도 있다.

추가적으로 또는 대안적으로, 트리거 검출 시스템은 트리거 어구에 적응될 수도 있다.

등재 동안, 사용자는 텍스트-제약된 보이스 생체인식 시스템을 위한 사용자 보이스프린트를 생성하기 위하여 개발에서 이용된 동일한 트리거 어구의 샘플들을 제공할 수도 있고, 텍스트-독립적 보이스 생체인식 시스템을 위한 사용자 보이스프린트를 생성하기 위하여 텍스트-독립적 샘플들을 또한 제공할 수도 있다. 트리거 어구의 샘플들은 트리거 검출기를 적응시키고 튜닝하기 위하여 또한 이용될 수도 있다.

지금까지, 제1 및 제2 보이스 세그먼트들에 대해 동작하는 텍스트-제약된 및 텍스트-독립적 보이스 생체인식 엔진들이 독립적으로 동작하는 것으로 가정되었다. 그러나, 그것들은 더 강인한 응답들을 제공하기 위하여 정보를 공유할 수도 있다. 예를 들어, 제1 및 제2 보이스 세그먼트들에 대해 동작하는 엔진들은 이 엔진들이 이용하는 배경 모델들을 제외하고는 동일한 실시예에서는, 제2 보이스 세그먼트에 대해 동작하는 텍스트-독립적 엔진이 더 정확한 점수를 획득하기 위하여 제1 보이스 세그먼트(즉, 트리거)로부터의 부분적인 또는 완전한 정보를 이용할 수도 있다.

지금까지, 텍스트-제약된 및 텍스트-독립적 보이스 생체인식 엔진들은 비-중첩하는 제1 및 제2 보이스 세그먼트들에 대해 동작하는 것이 암시되었다. 그러나, 일부 실시예들에서는, 제1 보이스 세그먼트의 일부 또는 전부를 포함하는 제2 보이스 세그먼트, 즉, 분석된 2 개의 보이스 세그먼트들이 비-중첩이 아니라 중첩하는 것에 대한 더 이후의 체크를 동작시키는 것이 유리할 수도 있다. 예를 들어, 제1 보이스 세그먼트는 상대적으로 고속이고 간단한 화자 인식 엔진을 이용하여 분석될 수도 있는 반면, 제2 보이스 세그먼트는 더 복잡하지만 더 신뢰성 있는 화자 인식 알고리즘을 이용하여 분석될 수도 있고, 후자의 결과는 분석된 샘플의 유효 길이를 증가시킴으로써 훨씬 더 신뢰성 있게 될 수도 있다. 따라서, 일부 실시예들에서, 제1 및 제2 보이스 세그먼트들은 상이하지만, 중첩할 수도 있다.

일부 실시예들에서, 추가의 인증 프로세스는 트리거 또는 커맨드 화자 인증과 병렬로 수행될 수도 있고, 대응하는 인증 결과들은 위와 유사한 방식으로 조합될 수도 있다.

이 병렬 인증 프로세스는 음성의 상이한 특성들에 기초한 인증 프로세스, 예를 들어, 시간-도메인 기반 방법일 수도 있다. 일부 실시예들에서, 병렬 인증 프로세스는 재생 또는 직접 주입 기법들에 의해 시스템을 스푸핑(spoof)하는 시도의 징후인 스펙트럼 또는 다른 특성들에 민감한 것일 수도 있고, 즉, 안티스푸핑(antispoofing) 기법일 수도 있다.

예시적인 안티스푸핑 기법은 가능성 비율(likelihood ratio)(LR)을 컴퓨팅하는 것에 기초한다. 그것은 테스팅 신호로부터 컴퓨팅된 특징 벡터, y, 및 2 개의 가우시안 모델들

, 비-스푸프 데이터(non-spoof data)를 나타내는 하나 및 스푸프 데이터를 나타내는 다른 것으로부터 추출된다:

여기서,

및

은 스푸프 모델에 대한 평균 벡터(mean vector) 및 대각 공분산 행렬(diagonal covariance matrix)이고,

및

은 비-스푸프 모델에 대한 평균 벡터 및 대각 공분산 행렬이고, 이것들은 전형적으로 또한 화자 종속적이고 등재 동안에 전형적으로 획득된다.

안티스푸핑 특징 벡터는 예를 들어, 스펙트럼 비율, 저주파수 비율, 및 특징 벡터 제곱된 마할라노비스 거리(Mahalanobis distance)에 의해 상이한 메트릭들로 구성된다. 이 예에서, N_AS=3이다. 대안적으로, 다른 메트릭들이 또한 포함될 수 있거나, 메트릭들 중의 1 개 또는 2 개가 다른 메트릭들에 의해 대체될 수도 있거나 완전히 생략될 수도 있다.

스펙트럼 비율은 예를 들어, 0으로부터 2 kHz까지와, 2 kHz로부터 4 kHz까지의 신호 에너지 사이의 비율일 수도 있다. 따라서, 오디오 액세스 x(n)의 프레임 I가 주어지면, 스펙트럼 비율은 이하으로서 계산될 수도 있다:

여기서, X(f,l)는 오디오 신호의 프레임 I 및 f 주파수 빈의 고속 푸리에 변환(Fast Fourier Transform)(FFT) 값이고, NFFT는 FFT의 포인트들의 수(예를 들어, 256 개의 샘플들)이다.

모든 프레임들에 대하여 수학식 (2)를 컴퓨팅한 후, 스펙트럼 비율들(SR_audio)의 평균 값은 변조 인덱스가 주어진 문턱(예를 들어, 0.75)을 초과하는 프레임들의 스펙트럼 비율들의 평균으로서 계산될 수도 있다. 주어진 문턱을 초과하는 변조 인덱스를 갖는 프레임들은 통상적으로 음성 신호들에 대응하여, 전형적으로, 주어진 문턱을 초과하는 변조 인덱스를 갖는 프레임들의 스펙트럼 비율들의 평균을 계산함으로써, 음성을 포함하는 오디오 신호의 파트들을 설명하는 평균을 계산하는 것으로 귀착된다. 프레임들은 예를 들어, 10 msec의 시프트(shift)를 갖는 20 msec의 윈도우 길이를 이용하여 오디오 신호로부터 생성될 수 있다.

저주파수 비율은 예컨대, 100 Hz로부터 300 Hz까지와, 300 Hz로부터 500 Hz까지의 신호 에너지 사이의 비율로서 컴퓨팅될 수도 있다. 프레임 I가 주어지면, 그것은 이하로서 계산될 수도 있다:

모든 프레임들에 대하여 수학식 (3)을 컴퓨팅한 후, 스펙트럼 비율들(LFR_audio)의 평균 값은 변조 인덱스가 주어진 문턱(예를 들어, 0.75)을 초과하는 프레임들의 저주파수 비율들의 평균으로서 계산될 수도 있다. 프레임들은 예를 들어, 10 msec의 시프트를 갖는 20 msec의 윈도우 길이를 이용하여 생성될 수 있다.

최종적으로, 특징 벡터 제곱된 마할라노비스 거리는 오디오 액세스(들)에서 수신된 화자 인식 테스팅 신호로부터 획득된 시간을 따르는 (예컨대, 차원 N_AS- _MFCC를 갖는) 평균 MFCC 벡터들과, 등재 동안에 관찰된 것 사이에서 컴퓨팅될 수도 있다. 표준 편차 대각 행렬은 전형적으로, (등재 동안 또는 등재 후에 전형적으로 컴퓨팅되는) 거리를 컴퓨팅하도록 또한 요구된다.

표준 편차 대각 행렬은 예컨대, 유럽 특허 출원 EP-2860706A에서 개시된 바와 같이 컴퓨팅될 수도 있다. 안티스푸핑 프로세스의 결과를 이용하는 것을 통해 개선된 대안이 여기에서 설명된다. 이 예에서, 이전에 논의된 바와 같은 트리거 및 커맨드일 수도 있는 보이스 제1 및 제2 세그먼트들은 2 개의 안티스푸핑 출력 점수들, 트리거에 대한 하나 및 커맨드에 대한 하나를 획득하기 위하여, (동일할 수도 있거나 상이할 수도 있는) 안티스푸핑 검출 프로세스들을 분리하게 된다.

이 점수들은 그 후에 화자 인식 점수와 통합될 수도 있다.

안티스푸핑 출력 점수들을 이용하는 하나의 방법은 그것들을 필터로서 이용하는 것이다.

이 경우에, 우리가 2 개의 상이한 안티스푸핑 점수들(트리거에 대한 하나

및 커맨드에 대한 하나

)을 가질 경우, 시스템은 그것들 중의 하나가 매우 높은 문턱을 초과할 때에(

또는

) 사용자를 거부할 수도 있어서, 입력 트리거 또는 커맨드가 스푸프일 가능성이 매우 많다는 것을 제안할 수도 있다. 시스템은 양자의 트리거 및 커맨드 안티스푸핑 점수들이 어떤 더 낮은 문턱을 초과할 경우에(

및

이고, 여기서,

및

임) 사용자를 또한 거부할 수도 있다.

대안은 안티스푸핑 점수들을 융합하고 결과적인 점수가 어떤 문턱을 초과할 경우에 사용자를 거부하기 위하여 화자 인식을 위하여 이 출원에서 설명된 동일한 융합 방법을 적용하는 것일 것이다:

이 경우, 융합 가중치들은 화자 인식을 위하여 획득된 것들과 동일하지 않을 것이지만, 그것들은 화자 인식을 위하여 설명된 것과 동일한 방법으로 품질 척도들의 함수로서 획득될 수 있다는 것에 주목한다.

추가의 옵션은 안티스푸핑 점수들을 이전에 설명된 화자 인식 프로세스에서의 품질 척도로서 이용하는 것이다. 이 경우, 화자 인식을 위한 융합 가중치들은 트리거 및 커맨드에 대한 안티스푸핑 출력에 따라 수정될 것이다. 안티스푸핑 점수들은 따라서, 이전에 설명된 실시예에서의 순수-음성과 유사한 방식으로, 또는 우리가 임의의 다른 품질 척도를 이용하는 것과 같이 이용된다. 일반적으로, 이 접근법을 필터로서의 안티스푸핑 출력 점수들의 이용과 조합하는 것은 양호한 사상이어서, 입력이 명확하게 스푸프일 경우, 가중치들을 수정하기 위하여 안티스푸핑 점수들을 오직 이용하는 대신에, 입력은 직접적으로 거부된다.

제3 옵션은 안티스푸핑 점수들을 화자 인식 태스크를 위한 추가적인 점수들로서 이용하고, 안티스푸핑 점수들을 화자 인식 점수들과 융합하는 것이다. 이 접근법은 우리가 화자 인식 및 안티스푸핑 점수들 사이에 상관(correlation)이 있을 것으로 예상할 경우에 유리하다. 이 경우에, 트리거 및 커맨드에 대한 화자 인식 점수들을 융합하기 전에, 우리는 트리거 화자 인식 및 안티스푸핑 점수들을 융합하고, 우리는 하나 이상의 화자 인식 시스템들 및 하나 이상의 안티스푸핑 시스템들의 출력으로서 획득된 커맨드 화자 인식 및 안티스푸핑 점수들(간단함을 위하여, 이하의 수학식들은 트리거에 대한 하나의 화자 인식 시스템 및 하나의 안티스푸핑 시스템과, 커맨드에 대한 하나의 화자 인식 시스템 및 하나의 안티스푸핑 시스템을 오직 고려하여 제시됨)을 융합하여, 트리거 및 커맨드에 대한 새로운 점수들은 이하와 같다:

트리거 및 커맨드 융합 함수들은 동일할 수도 있거나 상이할 수도 있고, 이 융합 함수들은 일반적으로, 입력들이 비상관된 것으로 가정될 때에 가장 합리적인 접근법, 또는 임의의 다른 융합 방법인 선형 융합일 수도 있다. 특히, 트리거 및 커맨드 융합 점수는 다수의 화자 인식 및 안티스푸핑 점수들 사이에서 나타날 수도 있는 상관들을 모델링할 수 있는 분류기를 이용하여 획득될 수 있다. 그렇게 행하기 위하여, 각각의 트리거 입력 또는 커맨드 입력에 대하여, 점수 벡터는 예를 들어, 트리거와, 하나의 화자 인식 및 하나의 안티스푸핑 점술르 가지는 경우에 대하여 각각의 점수를 벡터의 엔트리(entry)로서 이용하여 구축될 수 있다:

N 개의 점수들에 대하여, 이 벡터는 N 차원 공간에서의 포인트이다. 수 천 개의 샘플들을 개발 데이터로서 이용하면, 분류기는 점수들의 입력 벡터들을 관심 있는 2 개의 클래스(class)들: 사용자(따라서, 시스템의 출력이 정합이어야 함) 또는 임포스터(impostor)/스푸프로 적당하게 분류하도록 훈련될 수 있다. 이 분류기는 2 개의 클래스들을 갖는 가우시안 분류기(Gaussian classifier)(이것은 때때로 가우시안 백 엔드(Gaussian Back End)로서 알려져 있음)일 수도 있거나, 더 복잡한 모델들을 GMM들로서 이용할 수도 있다. 그것은 또한 SVM 또는 다른 유형의 분류기일 수도 있다.

일반적으로, 분류기는, 점수들의 입력 벡터가 사용자의 클래스에 속하거나, 궁극적으로, 입력이 정합이될 가능성이 어떻게 되는지에 대한 새로운 점수를 출력할 것이다. 이 점수는 다시, 가능성 비율, 거리, 또는 그 밖의 것의 형태일 수도 있고, 이 점수는 트리거 및 커맨드의 더 이후의 융합을 위하여 p_T(트리거의 경우)로서 직접적으로 이용될 것이다.

정확하게 동일한 프로세스는

을 점수 벡터로서 이용하고 p_C를 점수 획득하여, 커맨드에 대하여 적용될 것이다. 커맨드에 대하여 고려된 점수 벡터들은 트리거에 대한 점수 벡터들로서 동일한 수의 점수들, 또는 상이한 수의 점수들을 포함할 수도 있다(즉, 안티스푸핑은 오직 트리거에 대하여 이용될 수도 있거나, 상이한 수의 화자 인식 시스템들 및 안티스푸핑 시스템들은 트리거 및 커맨드에 대하여 이용될 수도 있음).

제3 옵션은 위에서 설명된 바와 같이, 필터로서의 안티스푸핑 출력 점수들의 이용과 또한 조합될 수 있다.

품질 척도로서의 안티스푸핑 점수들의 이용은, 특히, 품질 척도들을 획득하기 위하여 이용되는 시스템들이 점수들 p_T 및 p_C를 획득하기 위하여 고려되지 않고, 그 반대도 마찬가지일 경우에, 화자 인식 태스크를 위한 추가적인 점수들로서의 안티스푸핑 점수들의 이용과 또한 조합될 수 있다.

따라서, 다양한 실시예들은 화자 인식의 조합된 결과에 도달하기 위하여, 위에서 설명되었다.

단계(62)에서는, 사용자가 인증되는지 여부가 이 조합된 결과에 기초하여 결정된다. 예를 들어, 별도의 결과들의 함수로서 획득된 조합된 결과가 문턱 값을 초과할 경우에, 사용자가 인증되는 것으로 결정될 수도 있다.

도 9는 일반적으로 위에서 설명된 바와 같은 인증 프로세스의 제1 실시예를 예시하는 개략도이다.

따라서, 텍스트-제약된(TC) 화자 인식 프로세스에서의 이용을 위한 제1 배경 모델(110) 및 텍스트-독립적(TI) 화자 인식 프로세스에서의 이용을 위한 제2 배경 모델(112)은 시작 포인트들로서 취해진다. 초기 등재 동안, 사용자 음성 샘플들은 텍스트-제약된 사용자 보이스프린트(즉, 사용자 모델을 정의하는 계수들의 세트)(114) 및 텍스트-독립적 사용자 보이스프린트(116)를 형성하기 위하여 이용된다.

트리거 검출 블록(118)은 트리거 어구가 발화된 것을 검출하고, 텍스트-제약된 화자 인식 또는 보이스 생체인식 프로세스(120)는 점수 s_T를 생성하기 위하여, 제1 보이스 세그먼트(즉, 트리거 어구로부터의 사용자 음성), 제1 배경 모델(110), 및 텍스트-제약된 사용자 보이스프린트(114)에 기초하여 수행된다. 또한, 텍스트-독립적 화자 인식 또는 보이스 생체인식 프로세스(122)는 점수 s_C를 생성하기 위하여, 제2 보이스 세그먼트(즉, 커맨드인 것으로 예상되는, 트리거 어구 후에 수신된 사용자 음성), 제2 배경 모델(112), 및 텍스트-독립적 사용자 보이스프린트(116)에 기초하여 수행된다.

품질 척도들(Q_T)의 제1 세트(124)는 제1 보이스 세그먼트로부터 획득되고, 품질 척도들(Q_C)의 제2 세트(126)는 제2 보이스 세그먼트로부터 획득된다.

품질 척도들 Q_T, Q_C를 가중화 인자들

,

, 및

에 맵핑하는 함수들은 개발 국면 동안에 획득되었고, 128에서 저장된다. 따라서, 품질 척도들 Q_T, Q_C의 값들은 130에서 도시된 바와 같은 가중화 인자들

및

의 값들을 획득하기 위하여 이용된다.

가중화 인자들

및

의 값들은 그 후에, 132에서 도시된 바와 같이, 점수들 s_T, s_C를 어떻게 융합할 것인지를 결정하기 위하여 이용된다. 이 융합된 점수는 134에서 도시된 바와 같이, 제1 및 제2 보이스 세그먼트들이 등록된 사용자로부터 획득되었는지 여부에 대한 판정을 행하기 위하여 이용될 수 있다.

도 10은 일반적으로 위에서 설명된 바와 같은 인증 프로세스의 제2 실시예를 예시하는 개략도이다. 도 9에서 도시된 프로세스의 특징들과 동일한 특징들은 동일한 참조 번호들에 의해 표시된다.

보이스 활성 검출기(140)는 제2 보이스 세그먼트에서 제약된 순수 음성 n_C의 척도를 획득하기 위하여 이용된다.

품질 척도들 Q_T, Q_C를 가중화 인자들

,

, 및

에 맵핑하는 함수들은 개발 국면 동안에 획득되었고, 128에서 저장된다. 따라서, 순수 음성 인자 n_C의 값들은 142에서 도시된 바와 같은 가중화 인자들

,

, 및

의 값들을 획득하기 위하여 이용된다.

가중화 인자들

,

, 및

의 값들은 그 후에, 132에서 도시된 바와 같이, 점수들 s_T, s_C를 어떻게 융합할 것인지를 결정하기 위하여 이용된다. 이 융합된 점수는 도 10에서의 134에서 도시된 바와 같이, 제1 및 제2 보이스 세그먼트들이 등록된 사용자로부터 획득되었는지 여부에 대한 판정을 행하기 위하여 이용될 수 있다.

도 10에서 134로서 예시된 판정은 도 3에서 62로서 도시된 판정과 동등하다. 이 블록(62)으로부터의 인증 결과는 그 후에, 임의의 희망된 목적을 위하여 이용될 수 있다. 예를 들어, 결과는 이하에서 더 상세하게 논의되어야 할 추가의 판정 블록(64)으로 전달될 수도 있다. 더 일반적으로, 사용자가 인증될 경우, 단계(74)에서 도시된 바와 같이, 사용자가 디바이스의 등록된 사용자인 것을 수락하기 위한 판정이 행해질 수도 있고, 이 판정은 예를 들어, 일부 물리적 피드백, 예를 들어, 청각적, 시각적, 또는 촉각적 피드백, 또는 사용자로부터의 추가의 음성 입력 없이 발생할 수도 있는 일부 다른 디폴트 액션을 사용자에게 촉구할 수도 있거나, 예를 들어, 키보드를 통한 사용자로부터의 일부 다른 입력 응답이 일부 커맨드를 실행하는 것을 허용할 수도 있다.

도 3에서 도시된 예에서, 사용자가 조합된 결과에 기초하여 인증되지 않을 경우, 프로세스는 단계(68)로 통과된다. 이 예에서, 보이스 생체인식 입력이 사용자를 인가하기에 충분한 것으로 고려되지 않을 경우, 제2 인증 인자가 요청된다. 예를 들어, 사용자는 디바이스의 키패드를 통해 PIN 번호 또는 패스워드를 입력하거나, 지문 스캔과 같은 추가적인 생체인식 인증을 제공하도록 요청받을 수도 있다.

단계(68)에서는, 사용자가 인증되는지 여부가 이 제2 인증 인자에 기초하여 결정된다. 이 인증 결과는 그 후에, 임의의 희망된 목적을 위하여 이용될 수 있다. 예를 들어, 결과는 이하에서 더 상세하게 논의되어야 할 추가의 판정 블록(70)으로 전달될 수도 있다. 더 일반적으로, 사용자가 인증될 경우, 위에서 논의된 바와 같은 단계(74)에서 도시된 바와 같이, 사용자가 디바이스의 등록된 사용자인 것을 수락하기 위한 판정이 행해질 수도 있다.

도 3에서 도시된 예에서, 사용자가 제2 인증 인자에 기초하여 인증되지 않을 경우, 프로세스는 단계(72)로 통과되고, 사용자는 거부된다. 이 거부가 취할 형태는 사용자가 수행하는 것을 노력하고 있었던 액션에 종속될 것이다.

사용자를 수락하거나 거부하기 위한 판정은 그러므로, 인증이 트리거 어구에 오직 기초하여 수행되는 시스템과 비교하여, 판정이 사용자의 음성의 더 많은 것을 참작하므로, 높은 신뢰성의 정도를 가질 것이다.

도 3에서 도시된 예는 디바이스의 동작의 양태를 제어하기 위하여, 사용자가 음성 커맨드를 디바이스로 전송하는 것을 시도하고 있는 상황에 관련된다.

따라서, 단계(56)에서 수신된 제2 보이스 세그먼트는 사용자에 의해 발성된 커맨드인 것으로 예상된다. 단계(76)에서, 음성 인식 프로세스는 제2 보이스 세그먼트에 대해 수행된다. 일부 실시예들에서, 이것은 디바이스(10)의 인터페이스(30)를 이용하여, 음성을 나타내는 데이터를 (예를 들어, 클라우드에서의) 디바이스로부터 원격으로 위치된 음성 인식 엔진으로 송신함으로써 달성될 수도 있다. 다른 실시예들에서, 음성 인식 프로세스는 디바이스(10)에서 수행된다. 음성 인식 프로세스는 제2 보이스 세그먼트의 내용 및 의미를 획득한다.

이 예의 실시예의 단계(78)에서는, 커맨드가 인증을 요구하도록 되어 있는지 여부가 결정된다. 이 결정은 인증을 요구하거나 인증을 요구하지 않는 커맨드들의 미리 정의된 리스트에 기초하여 행해질 수도 있거나, 그것은 커맨드에 의해 요청된 데이터 또는 프로세싱 모듈들에 기초하여 행해질 수도 있다. 예를 들어, 발화된 커맨드가 공개적으로 이용가능한 정보를 요청할 경우, 인증이 요구되지 않는 것으로 단계(78)에서 결정될 수도 있고, 이 때문에, 프로세스는 단계(80)로 전달되고, 단계(80)에서, 커맨드의 내용은 그 정보를 사용자에게 공급할 수 있기 위하여 인터넷 검색 엔진에 대한 질의를 생성하기 위하여 이용될 수도 있다.

그러나, 다른 경우들에는, 예를 들어, 발화된 커맨드가 개인 정보에 관련될 경우, 인증이 요구되는 것으로 단계(78)에서 결정될 수도 있다. 그 경우, 프로세스는 단계(64)로 전달되고, 단계(64)에서는, 화자 인식 프로세스의 결과들에 기초하여, 사용자가 인증되었는지 여부가 결정된다. 사용자가 인증되지 않았을 경우, 프로세스는 단계(70)로 전달되고, 단계(70)에서는, 위에서 설명된 바와 같이, 화자 인식 프로세스 및 제2 인증 인자의 조합에 기초하여, 사용자가 인증되었는지 여부가 결정된다.

사용자가 인증되지 않았을 경우, 프로세스는 단계(72)로 전달되고, 그 커맨드는 거부된다. 사용자가 인증되었을 경우, 프로세스는 단계(80)로 전달되고, 커맨드는 실행된다.

커맨드를 실행하거나 커맨드를 실행하지 않기 위한 판정은 예를 들어, 청각적, 시각적, 또는 촉각적 피드백을 사용자에게 제공함으로써, 사용자에게 통신될 수도 있다.

도 3에서 도시된 예에서, 인증의 프로세스 및 음성 인식의 프로세스는 시간을 절감하기 위하여 병렬로 수행된다.

그러나, 다른 예들에서, 이 프로세스들은 순차적으로 수행될 수도 있고, 여기서, 하나의 수행은 아마도 다른 것의 결과에 대해 조건적일 수도 있다.

예를 들어, 음성 인식을 수행하는 프로세스는 모든 경우들에 수행될 수도 있고, 화자 인식을 수행하는 프로세스는, 단계(78)에서, 커맨드가 그 커맨드가 수행되기 전에 사용자의 인증을 요구하는 커맨드라는 것으로 결정될 경우에만 개시될 수도 있다.

또 다른 예로서, 화자 인식 프로세스는 모든 경우들에 수행될 수도 있고, 여기서, 음성 인식 프로세스는, 단계(62)에서(또는 단계(68)에서), 발화하고 있는 사람이 등록된 사용자인 것으로 결정될 경우에만 개시될 수도 있다.

추가의 예로서, 제1 화자 인식 프로세스의 결과는 문턱(아마도, 상대적으로 용이하게 충족되는 낮은 문턱)에 대하여 비교될 수도 있고, 여기서, 단계(76)의 음성 인식 프로세스는, 그 제1 화자 인식 프로세스가 발화하고 있는 사람이 등록된 사용자라는 예비적 판정을 제공할 경우에만 수행될 수도 있다.

위에서 설명된 예들은 제1 보이스 세그먼트(예를 들어, 트리거 어구를 나타냄) 및 하나의 제2 보이스 세그먼트(예를 들어, 커맨드를 나타냄)를 지징하고, 여기서, 인증 판정은 그 2 개의 보이스 세그먼트들에 대해 수행된 화자 인식 프로세스들에 기초하여 행해질 수도 있다.

추가의 실시예들에서는, 예를 들어, 사용자와 보이스 사용자 인터페이스 사이에 확장된 상호작용이 있거나, 사용자가 더 긴 시간의 기간 동안에 발화할 것으로 예상되는 상황들에서의 이용을 위하여, 인증의 프로세스의 신뢰성이 사용자의 음성의 더 많은 것을 입력으로서 이용함으로써 추가로 개선될 수도 있다.

예를 들어, 트리거 어구를 후행하는 보이스 사용자 인터페이스로부터의 프롬프트들에 응답하여 사용자에 의해 제공되는 별도의 음성 입력들은 제2, 제3, 제4 등의 보이스 세그먼트들로서 고려될 수도 있다. 유사하게, 더 긴 음성의 기간은 제2, 제3, 제4 등의 보이스 세그먼트들로 분할될 수도 있다.

이러한 경우들에는, 제3 화자 인식 프로세스가 제3 음성 보이스 세그먼트에 대해 수행될 수도 있고, 제4 화자 인식 프로세스가 제4 보이스 세그먼트에 대해 수행될 수도 있는 등과 같다.

이 프로세스의 결과들은 그 후에 조합될 수 있다. 예를 들어, 조합된 결과는 별도의 프로세스들로부터의 결과들의 가중화된 합을 형성함으로써 획득될 수 있다. 그 경우에는, 잠정 인증 결과가 제2 화자 인식 프로세스를 수행한 후에 출력될 수 있고, 여기서, 업데이트된 인증 결과들은 제3 및 제4 화자 인식 프로세스들을 수행한 후에 출력될 수 있는 등과 같다.

대안적으로, 결과는 제2 보이스 세그먼트에 기초하여 획득될 수 있고, 여기서, 새로운 결과는 함께 고려된 제2 및 제3 보이스 세그먼트들에 기초할 수 있고, 추가의 새로운 결과는 모두가 함께 고려되는 제2, 제3, 및 제4 보이스 세그먼트들에 기초할 수 있는 등과 같고, 아마도, 여기서, 더 과거의 보이스 세그먼트들은 프로세스가 계속될 때에 폐기될 수 있다.

따라서, 화자를 인증하는 프로세스는 연속적으로 수행될 수 있다.

통상의 기술자는 전술한 장치 및 방법들의 일부 양태들, 예를 들어, 프로세서에 의해 수행된 계산들이 예를 들어, 디스크, CD- 또는 DVD-ROM, 판독 전용 메모리와 같은 프로그래밍된 메모리(펌웨어)와 같은 비-휘발성 캐리어 매체 상에서, 또는 광학적 또는 전기적 신호 캐리어와 같은 데이터 캐리어 상에서 프로세서 제어 코드로서 구체화될 수도 있다. 많은 애플리케이션들에 대하여, 발명의 실시예들은 DSP(Digital Signal Processor)(디지털 신호 프로세서), ASIC(Application Specific Integrated Circuit)(애플리케이션 특정 집적 회로), 또는 FPGA(Field Programmable Gate Array)(필드 프로그래밍가능 게이트 어레이) 상에서 구현될 것이다. 따라서, 코드는 통상적인 프로그램 코드 또는 마이크로코드, 또는 예를 들어, ASIC 또는 FPGA를 셋업하거나 제어하기 위한 코드를 포함할 수도 있다. 코드는 재-프로그래밍가능 로직 게이트 어레이들과 같은 재-구성가능한 장치를 동적으로 구성하기 위한 코드를 또한 포함할 수도 있다. 유사하게, 코드는 Verilog™ 또는 VHDL(Very high speed integrated circuit Hardware Description Language)(초고속 집적 회로 하드웨어 설명 언어)와 같은 하드웨어 설명 언어를 위한 코드를 포함할 수도 있다. 통상의 기술자가 인식하는 바와 같이, 코드는 서로 통신하는 복수의 결합된 컴포넌트들 사이에서 분산될 수도 있다. 적절할 경우, 실시예들은 아날로그 하드웨어를 구성하기 위하여 필드-(재)프로그래밍가능 아날로그 어레이 또는 유사한 디바이스 상에서 작동하는 코드를 이용하여 또한 구현될 수도 있다.

발명의 실시예들은 오디오 프로세싱 회로, 예를 들어, 호스트 디바이스에서 제공될 수도 있는 오디오 회로의 부분으로서 배열될 수도 있다. 본 발명의 실시예에 따른 회로는 집적 회로로서 구현될 수도 있다.

실시예들은 호스트 디바이스, 특히, 예를 들어, 이동 전화, 오디오 플레이어, 비디오 플레이어, PDA, 랩톱 컴퓨터 또는 태블릿과 같은 이동 컴퓨팅 플랫폼, 및/또는 게임 디바이스와 같은 휴대용 및/또는 배터리 급전된 호스트 디바이스에서 구현될 수도 있다. 발명의 실시예들은 호스트 디바이스에 부착가능한 액세서리들에서, 예를 들어, 액티브 스피커들 또는 헤드셋들 등에서 전체적으로 또는 부분적으로 또한 구현될 수도 있다. 실시예들은 원격 제어기 디바이스, 장난감, 로봇과 같은 머신, 홈 자동화 제어기, 또는 이러한 것과 같은 다른 형태들의 디바이스에서 구현될 수도 있다.

전술한 실시예들은 발명을 제한하는 것이 아니라 예시하고, 본 기술분야의 통상의 기술자들은 첨부된 청구항들의 범위로부터 이탈하지 않으면서 많은 대안적인 실시예들을 설계할 수 있을 것이라는 것이 주목되어야 한다. 단어 "포함하는(comprising)"은 청구항에서 열거된 것들 이외부의 구성요소들 또는 단계들의 존재를 제외하지 않고, "a" 또는 "an"은 복수를 제외하지 않고, 단일의 특징 또는 다른 유닛은 청구항들에서 기재된 몇몇 유닛들의 기능들을 이해할 수도 있다. 청구항들에서의 임의의 참조 부호들은 그 범위를 제한하도록 해석되지 않을 것이다.

Claims

사용자의 음성을 나타내는 수신된 신호를 프로세싱하는 방법으로서,
제1 출력 결과를 획득하기 위하여, 상기 수신된 신호의 제1 부분에 대해 제1 화자 인식 프로세스를 수행하는 단계;
제2 출력 결과를 획득하기 위하여, 상기 수신된 신호의 상기 제1 부분과는 상이한 상기 수신된 신호의 제2 부분에 대해 제2 화자 인식 프로세스 - 상기 제2 화자 인식 프로세스는 상기 제1 화자 인식 프로세스와는 상이함 - 를 수행하는 단계; 및
상기 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 상기 제1 및 제2 출력 결과들을 조합하는 단계
를 포함하는 방법.
제1항에 있어서, 개개의 가중화 값들을 상기 제1 및 제2 출력 결과들에 적용하는 단계, 및 상기 가중화된 결과들을 조합하는 단계를 포함하는 방법.
제2항에 있어서, 상기 제1 및 제2 출력 결과들의 가중화된 합을 형성하는 단계를 포함하는 방법.
제2항 또는 제3항에 있어서, 상기 가중화 값들은 미리 결정된 가중화 값들인 방법.
제2항 또는 제3항에 있어서, 상기 가중화 값들은 가변적인 가중화 값들인 방법.
제5항에 있어서, 상기 가중화 값들 중의 적어도 하나는 개개의 샘플의 품질에 관련되는 적어도 하나의 척도에 기초하여 결정되는 방법.
제6항에 있어서, 상기 가중화 값은 상기 개개의 샘플의 상기 품질에 관련되는 상기 척도의 구간별 상수 함수(piece-wise constant function)로서 결정되는 방법.
제6항에 있어서, 상기 가중화 값은 상기 개개의 샘플의 상기 품질에 관련되는 상기 척도의 연속 함수(continuous function)로서 결정되는 방법.
제1항에 있어서, 상기 제1 및 제2 출력 결과들을 신경 네트워크에 대한 입력들로서 적용하는 단계, 및 상기 조합된 출력 결과를 상기 신경 네트워크의 출력으로서 획득하는 단계를 포함하는 방법.
제9항에 있어서, 개개의 샘플의 품질에 관련되는 적어도 하나의 척도를 상기 신경 네트워크에 대한 입력으로서 적용하는 단계를 더 포함하는 방법.
제9항 또는 제10항에 있어서, 상기 신경 네트워크는 이전의 개발 국면(development phase)에서 적응된 방법.
제1항에 있어서, 개개의 샘플의 품질에 관련되는 적어도 하나의 척도에 기초하여 상기 제1 및 제2 출력 결과들을 조합하는 단계를 포함하는 방법.
제6항, 제10항, 또는 제12항 중 어느 한 항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분의 속성에 관련되는 척도를 포함하는 방법.
제6항, 제10항, 또는 제12항 중 어느 한 항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분에 의해 나타내어진 상기 음성의 속성에 관련되는 척도를 포함하는 방법.
제14항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분에 의해 나타내어진 음성의 양의 척도를 포함하는 방법.
제14항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 개개의 화자 인식 프로세스의 배경 모델에 대한 상기 수신된 신호의 상기 개개의 부분의 맞춤의 정도(degree of fit)의 척도를 포함하는 방법.
제13항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분의 포화의 정도에 관련되는 척도를 포함하는 방법.
제14항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분의 신호-대-잡음 비율(signal-to-noise ratio)의 척도를 포함하는 방법.
제14항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분의 신호-대-간섭 비율(signal-to-interference ratio)의 척도를 포함하는 방법.
제14항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분의 직접-대-반사 비율(direct-to-reflected ratio)의 척도를 포함하는 방법.
제14항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분이 수신된 방향의 척도를 포함하는 방법.
제14항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분이 수신된 범위의 척도를 포함하는 방법.
제1항 내지 제22항 중 어느 한 항에 있어서, 상기 제1 및 제2 화자 인식 프로세스들은 상기 사용자의 음성의 상이한 모델들을 이용하는 방법.
제1항 내지 제23항 중 어느 한 항에 있어서, 상기 제1 및 제2 화자 인식 프로세스들은 상이한 배경 모델들을 이용하는 방법.
제23항 또는 제24항에 있어서, 상기 사용자의 음성의 상기 모델들 또는 배경 모델들 중의 적어도 하나는 은닉 마코프 모델(Hidden Markov Model)을 포함하는 방법.
제23항 내지 제25항 중 어느 한 항에 있어서, 상기 사용자의 음성의 상기 모델들 또는 배경 모델들 중의 적어도 하나는 가우시안 혼합 모델(Gaussian Mixture Model)을 포함하는 방법.
제26항에 있어서, 상기 가우시안 혼합 모델은 인자 분석을 이용하는 방법.
제26항 또는 제27항에 있어서, 상기 제1 및 제2 화자 인식 프로세스들은 상이한 수들의 가우시안들을 갖는 가우시안 혼합 모델들을 이용하는 방법.
제1항 내지 제23항 중 어느 한 항에 있어서, 상기 제1 및 제2 화자 인식 프로세스는 상이한 검증 방법들을 이용하는 방법.
제1항 내지 제29항 중 어느 한 항에 있어서, 상기 수신된 신호의 상기 제1 및 제2 부분들 중의 적어도 하나에 대해 안티스푸핑 프로세스(antispoofing process)를 수행하는 단계를 더 포함하는 방법.
제30항에 있어서, 상기 안티스푸핑 프로세스는 상기 수신된 신호의 상기 개개의 부분으로부터 획득된 특징 벡터에 기초하여 가능성 비율(likelihood ratio)을 컴퓨팅하는 단계를 포함하는 방법.
제31항에 있어서, 상기 특징 벡터는 스펙트럼 비율, 저주파수 비율, 특징 벡터 제곱된 마할라노비스 거리(Mahalanobis distance)로부터 선택된 하나 이상의 메트릭(metric)을 포함하는 방법.
제30항에 있어서, 제1 및 제2 안티스푸핑 점수들을 각각 획득하기 위하여 상기 수신된 신호의 상기 제1 및 제2 부분들에 대해 개개의 안티스푸핑 프로세스들을 수행하는 단계를 포함하는 방법.
제33항에 있어서, 상기 제1 또는 제2 안티스푸핑 점수가 개개의 문턱(threshold)을 초과할 경우에, 상기 사용자가 등록된 사용자가 아닌 것으로 결정하는 단계를 포함하는 방법.
제33항에 있어서, 상기 제1 및 제2 안티스푸핑 점수의 함수가 개개의 문턱을 초과할 경우에, 상기 사용자가 등록된 사용자가 아닌 것으로 결정하는 단계를 포함하는 방법.
제30항 내지 제35항 중 어느 한 항에 있어서, 그리고 제6항, 제10항, 또는 제12항 중 어느 한 항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 척도는 상기 수신된 신호의 상기 개개의 부분으로부터 획득된 상기 개개의 안티스푸핑 점수를 포함하는 방법.
제33항 내지 제35항 중 어느 한 항에 있어서, 상기 사용자가 등록된 사용자일 가능성을 표시하는 상기 조합된 출력 결과를 획득하기 위하여 상기 제1 및 제2 출력 결과들 및 상기 제1 및 제2 안티스푸핑 점수들을 조합하는 단계를 포함하는 방법.
제37항에 있어서, 분류기에서 상기 제1 및 제2 출력 결과들 및 상기 제1 및 제2 안티스푸핑 점수들을 조합하는 단계를 포함하는 방법.
제37항에 있어서, 신경 네트워크에서 상기 제1 및 제2 출력 결과들 및 상기 제1 및 제2 안티스푸핑 점수들을 조합하는 단계를 포함하는 방법.
제1항 내지 제39항 중 어느 한 항에 있어서, 상기 수신된 신호의 상기 제1 부분은 트리거 어구를 포함하고, 상기 수신된 신호의 상기 제2 부분은 커맨드를 포함하는 방법.
제1항 내지 제40항 중 어느 한 항에 있어서, 상기 수신된 신호의 상기 제1 부분은 제1 시간 윈도우에 대응하고, 상기 수신된 신호의 상기 제2 부분은 제2 시간 윈도우에 대응하고, 상기 제1 시간 윈도우는 상기 제2 시간 윈도우와 중첩하지 않는 방법.
제1항 내지 제40항 중 어느 한 항에 있어서, 상기 수신된 신호의 상기 제1 부분은 제1 시간 윈도우에 대응하고, 상기 수신된 신호의 상기 제2 부분은 제2 시간 윈도우에 대응하고, 상기 제1 시간 윈도우는 상기 제2 시간 윈도우와 적어도 부분적으로 중첩하는 방법.
제42항에 있어서, 상기 제2 시간 윈도우는 상기 제1 시간 윈도우를 포함하는 방법.
제1항 내지 제43항 중 어느 한 항에 있어서, 적어도 하나의 개개의 추가의 출력 결과를 획득하기 위하여 상기 수신된 신호의 적어도 하나의 추가의 부분에 대해 적어도 하나의 추가의 화자 인식 프로세스를 수행하는 단계; 및
상기 사용자가 등록된 사용자일 가능성을 표시하는 상기 조합된 출력 결과를 획득하기 위하여 상기 적어도 하나의 추가의 출력 결과를 상기 제1 및 제2 출력 결과들과 조합하는 단계를 포함하는 방법.
제1항 내지 제44항 중 어느 한 항에 있어서, 상기 수신된 신호의 적어도 상기 제1 부분에 대해 음성 인식을 수행하는 단계를 더 포함하는 방법.
제1항 내지 제44항 중 어느 한 항에 있어서, 상기 조합된 출력 결과에 기초하여 피드백을 상기 사용자에게 제공하는 단계를 더 포함하는 방법.
제46항에 있어서, 상기 피드백은 청각적, 시각적, 또는 촉각적 피드백을 포함하는 방법.
제46항에 있어서, 상기 조합된 출력 결과에 기초하여 상기 사용자에 의한 추가의 액션을 허용하거나 방지하는 단계를 포함하는 방법.
화자 인식을 수행하기 위하여, 사용자의 음성을 나타내는 수신된 신호를 프로세싱하기 위한 디바이스로서,
제1 출력 결과를 획득하기 위하여, 상기 수신된 신호의 제1 부분에 대해 제1 화자 인식 프로세스를 수행하고;
제2 출력 결과를 획득하기 위하여, 상기 수신된 신호의 상기 제1 부분과는 상이한 상기 수신된 신호의 제2 부분에 대해 제2 화자 인식 프로세스 - 상기 제2 화자 인식 프로세스는 상기 제1 화자 인식 프로세스와는 상이함 - 를 수행하고;
상기 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 상기 제1 및 제2 출력 결과들을 조합하도록
구성되는 디바이스.
제49항에 있어서, 상기 디바이스는 이동 전화, 오디오 플레이어, 비디오 플레이어, PDA, 이동 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 홈 자동화 제어기를 포함하는 디바이스.
제49항 또는 제50항에 있어서, 상기 수신된 신호의 적어도 일부분에 대해 음성 인식을 수행하도록 추가로 구성되는 디바이스.
제49항, 제50항, 또는 제51항 중 어느 한 항에 있어서, 상기 수신된 신호의 적어도 일부분을 음성 인식을 위한 원격 디바이스로 전송하도록 추가로 구성되는 디바이스.
제52항에 있어서, 상기 음성 인식의 결과를 수신하도록 추가로 구성되는 디바이스.
화자 인식을 수행하기 위하여, 사용자의 음성을 나타내는 수신된 신호를 프로세싱하기 위한 집적 회로 디바이스로서,
제1 출력 결과를 획득하기 위하여, 상기 수신된 신호의 제1 부분에 대해 제1 화자 인식 프로세스를 수행하고;
제2 출력 결과를 획득하기 위하여, 상기 수신된 신호의 상기 제1 부분과는 상이한 상기 수신된 신호의 제2 부분에 대해 제2 화자 인식 프로세스 - 상기 제2 화자 인식 프로세스는 상기 제1 화자 인식 프로세스와는 상이함 - 를 수행하고;
상기 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 상기 제1 및 제2 출력 결과들을 조합하도록
구성되는 집적 회로 디바이스.
제54항에 있어서, 상기 제1 및 제2 화자 인식 프로세스들은 상기 디바이스에서 저장된 적어도 하나의 사용자 또는 배경 모델을 이용하는 집적 회로 디바이스.
제54항 또는 제55항에 있어서, 상기 제1 및 제2 화자 인식 프로세스들은 별도의 집적 회로 디바이스에서 저장된 적어도 하나의 사용자 또는 배경 모델을 이용하는 집적 회로 디바이스.
컴퓨터-판독가능 유형의 매체, 및 제1항 내지 제48항 중 어느 한 항에 따른 방법을 수행하기 위한 명령어들을 포함하는 컴퓨터 프로그램 제품.
사용자의 음성을 나타내는 수신된 신호를 프로세싱하는 방법으로서,
제1 출력 결과를 획득하기 위하여, 상기 수신된 신호의 제1 부분에 대해 제1 화자 인식 프로세스를 수행하는 단계;
제2 출력 결과를 획득하기 위하여, 상기 수신된 신호의 제2 부분에 대해 제2 화자 인식 프로세스를 수행하는 단계;
상기 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 상기 제1 및 제2 출력 결과들을 조합하는 단계;
상기 사용자가 등록된 사용자일 상기 표시된 가능성이 문턱 값보다 더 높은지를 결정하는 단계;
상기 수신된 신호의 상기 제2 부분에서 포함된 커맨드를 획득하기 위하여 상기 수신된 신호의 상기 제2 부분에 대해 음성 인식 프로세스를 수행하는 단계; 및
상기 표시된 가능성이 상기 문턱 값보다 더 높을 경우에 상기 획득된 커맨드에 따라 작용하는 단계
를 포함하는 방법.
제58항에 있어서, 개개의 가중화 값들을 상기 제1 및 제2 출력 결과들에 적용하는 단계, 및 상기 가중화된 결과들을 조합하는 단계를 포함하는 방법.
제59항에 있어서, 상기 제1 및 제2 출력 결과들의 가중화된 합을 형성하는 단계를 포함하는 방법.
제59항 또는 제60항에 있어서, 상기 가중화 값들은 미리 결정된 가중화 값들인 방법.
제59항 또는 제60항에 있어서, 상기 가중화 값들은 가변적인 가중화 값들인 방법.
제62항에 있어서, 상기 가중화 값들 중의 적어도 하나는 개개의 샘플의 품질에 관련되는 적어도 하나의 척도에 기초하여 결정되는 방법.
제63항에 있어서, 상기 가중화 값은 상기 개개의 샘플의 상기 품질에 관련되는 상기 척도의 구간별 상수 함수로서 결정되는 방법.
제63항에 있어서, 상기 가중화 값은 상기 개개의 샘플의 상기 품질에 관련되는 상기 척도의 연속 함수로서 결정되는 방법.
제58항에 있어서, 상기 제1 및 제2 출력 결과들을 신경 네트워크에 대한 입력들로서 적용하는 단계, 및 상기 조합된 출력 결과를 상기 신경 네트워크의 출력으로서 획득하는 단계를 포함하는 방법.
제66항에 있어서, 개개의 샘플의 품질에 관련되는 적어도 하나의 척도를 상기 신경 네트워크에 대한 입력으로서 적용하는 단계를 더 포함하는 방법.
제66항 또는 제67항에 있어서, 상기 신경 네트워크는 이전의 개발 국면에서 적응된 방법.
제58항에 있어서, 개개의 샘플의 품질에 관련되는 적어도 하나의 척도에 기초하여 상기 제1 및 제2 출력 결과들을 조합하는 단계를 포함하는 방법.
제63항, 제67항, 또는 제69항 중 어느 한 항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분의 속성에 관련되는 척도를 포함하는 방법.
제63항, 제67항, 또는 제69항 중 어느 한 항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분에 의해 나타내어진 상기 음성의 속성에 관련되는 척도를 포함하는 방법.
제71항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분에 의해 나타내어진 음성의 양의 척도를 포함하는 방법.
제71항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 개개의 화자 인식 프로세스의 배경 모델에 대한 상기 수신된 신호의 상기 개개의 부분의 맞춤의 정도의 척도를 포함하는 방법.
제70항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분의 포화의 정도에 관련되는 척도를 포함하는 방법.
제71항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분의 신호-대-잡음 비율의 척도를 포함하는 방법.
제71항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분의 신호-대-간섭 비율의 척도를 포함하는 방법.
제71항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분의 직접-대-반사 비율의 척도를 포함하는 방법.
제71항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분이 수신된 방향의 척도를 포함하는 방법.
제71항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 적어도 하나의 척도는 상기 수신된 신호의 상기 개개의 부분이 수신된 범위의 척도를 포함하는 방법.
제58항 내지 제79항 중 어느 한 항에 있어서, 상기 제1 및 제2 화자 인식 프로세스들은 상이한 방법.
제80항에 있어서, 상기 제1 및 제2 화자 인식 프로세스들은 상기 사용자의 음성의 상이한 모델들을 이용하는 방법.
제80항 또는 제81항에 있어서, 상기 제1 및 제2 화자 인식 프로세스들은 상이한 배경 모델들을 이용하는 방법.
제81항 또는 제82항에 있어서, 상기 사용자의 음성의 상기 모델들 또는 배경 모델들 중의 적어도 하나는 은닉 마코프 모델을 포함하는 방법.
제81항 내지 제83항 중 어느 한 항에 있어서, 상기 사용자의 음성의 상기 모델들 또는 배경 모델들 중의 적어도 하나는 가우시안 혼합 모델을 포함하는 방법.
제84항에 있어서, 상기 가우시안 혼합 모델은 인자 분석을 이용하는 방법.
제84항 또는 제85항에 있어서, 상기 제1 및 제2 화자 인식 프로세스들은 상이한 수들의 가우시안들을 갖는 가우시안 혼합 모델들을 이용하는 방법.
제80항 내지 제82항 중 어느 한 항에 있어서, 상기 제1 및 제2 화자 인식 프로세스는 상이한 검증 방법들을 이용하는 방법.
제58항 내지 제87항 중 어느 한 항에 있어서, 상기 수신된 신호의 상기 제1 및 제2 부분들 중의 적어도 하나에 대해 안티스푸핑 프로세스를 수행하는 단계를 더 포함하는 방법.
제88항에 있어서, 상기 안티스푸핑 프로세스는 상기 수신된 신호의 상기 개개의 부분으로부터 획득된 특징 벡터에 기초하여 가능성 비율을 컴퓨팅하는 단계를 포함하는 방법.
제89항에 있어서, 상기 특징 벡터는 스펙트럼 비율, 저주파수 비율, 특징 벡터 제곱된 마할라노비스 거리로부터 선택된 하나 이상의 메트릭을 포함하는 방법.
제90항에 있어서, 제1 및 제2 안티스푸핑 점수들을 각각 획득하기 위하여 상기 수신된 신호의 상기 제1 및 제2 부분들에 대해 개개의 안티스푸핑 프로세스들을 수행하는 단계를 포함하는 방법.
제91항에 있어서, 상기 제1 또는 제2 안티스푸핑 점수가 개개의 문턱을 초과할 경우에, 상기 사용자가 등록된 사용자가 아닌 것으로 결정하는 단계를 포함하는 방법.
제91항에 있어서, 상기 제1 및 제2 안티스푸핑 점수의 함수가 개개의 문턱을 초과할 경우에, 상기 사용자가 등록된 사용자가 아닌 것으로 결정하는 단계를 포함하는 방법.
제88항 내지 제93항 중 어느 한 항에 있어서, 그리고 제58항, 제62항, 또는 제64항 중 어느 한 항에 있어서, 상기 개개의 샘플의 상기 품질에 관련되는 상기 척도는 상기 수신된 신호의 상기 개개의 부분으로부터 획득된 상기 개개의 안티스푸핑 점수를 포함하는 방법.
제91항 내지 제93항 중 어느 한 항에 있어서, 상기 사용자가 등록된 사용자일 가능성을 표시하는 상기 조합된 출력 결과를 획득하기 위하여 상기 제1 및 제2 출력 결과들 및 상기 제1 및 제2 안티스푸핑 점수들을 조합하는 단계를 포함하는 방법.
제95항에 있어서, 분류기에서 상기 제1 및 제2 출력 결과들 및 상기 제1 및 제2 안티스푸핑 점수들을 조합하는 단계를 포함하는 방법.
제95항에 있어서, 신경 네트워크에서 상기 제1 및 제2 출력 결과들 및 상기 제1 및 제2 안티스푸핑 점수들을 조합하는 단계를 포함하는 방법.
제58항 내지 제97항 중 어느 한 항에 있어서, 상기 수신된 신호의 상기 제1 부분은 트리거 어구를 포함하고, 상기 수신된 신호의 상기 제2 부분은 커맨드를 포함하는 방법.
제58항 내지 제98항 중 어느 한 항에 있어서, 상기 수신된 신호의 상기 제1 부분은 제1 시간 윈도우에 대응하고, 상기 수신된 신호의 상기 제2 부분은 제2 시간 윈도우에 대응하고, 상기 제1 시간 윈도우는 상기 제2 시간 윈도우와 중첩하지 않는 방법.
제58항 내지 제98항 중 어느 한 항에 있어서, 상기 수신된 신호의 상기 제1 부분은 제1 시간 윈도우에 대응하고, 상기 수신된 신호의 상기 제2 부분은 제2 시간 윈도우에 대응하고, 상기 제1 시간 윈도우는 상기 제2 시간 윈도우와 적어도 부분적으로 중첩하는 방법.
제100항에 있어서, 상기 제2 시간 윈도우는 상기 제1 시간 윈도우를 포함하는 방법.
제58항 내지 제101항 중 어느 한 항에 있어서, 적어도 하나의 개개의 추가의 출력 결과를 획득하기 위하여 상기 수신된 신호의 적어도 하나의 추가의 부분에 대해 적어도 하나의 추가의 화자 인식 프로세스를 수행하는 단계; 및
상기 사용자가 등록된 사용자일 가능성을 표시하는 상기 조합된 출력 결과를 획득하기 위하여 상기 적어도 하나의 추가의 출력 결과를 상기 제1 및 제2 출력 결과들과 조합하는 단계를 포함하는 방법.
제58항 내지 제102항 중 어느 한 항에 있어서, 상기 수신된 신호의 적어도 상기 제1 부분에 대해 음성 인식을 수행하는 단계를 더 포함하는 방법.
제58항 내지 제103항 중 어느 한 항에 있어서, 상기 조합된 출력 결과에 기초하여 피드백을 상기 사용자에게 제공하는 단계를 더 포함하는 방법.
제104항에 있어서, 상기 피드백은 청각적, 시각적, 또는 촉각적 피드백을 포함하는 방법.
제104항에 있어서, 상기 조합된 출력 결과에 기초하여 상기 사용자에 의한 추가의 액션을 허용하거나 방지하는 단계를 포함하는 방법.
화자 인식을 수행하기 위하여, 사용자의 음성을 나타내는 수신된 신호를 프로세싱하기 위한 디바이스로서,
제1 출력 결과를 획득하기 위하여, 상기 수신된 신호의 제1 부분에 대해 제1 화자 인식 프로세스를 수행하고;
제2 출력 결과를 획득하기 위하여, 상기 수신된 신호의 상기 제1 부분과는 상이한 상기 수신된 신호의 제2 부분에 대해 제2 화자 인식 프로세스 - 상기 제2 화자 인식 프로세스는 상기 제1 화자 인식 프로세스와는 상이함 - 를 수행하고;
상기 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 상기 제1 및 제2 출력 결과들을 조합하도록
구성되는 디바이스.
제107항에 있어서, 상기 디바이스는 이동 전화, 오디오 플레이어, 비디오 플레이어, PDA, 이동 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 홈 자동화 제어기를 포함하는 디바이스.
제107항 또는 제108항에 있어서, 상기 수신된 신호의 적어도 일부분에 대한 음성 인식을 수행하도록 추가로 구성되는 디바이스.
제107항, 제108항, 또는 제109항 중 어느 한 항에 있어서, 상기 수신된 신호의 적어도 일부분을 음성 인식을 위한 원격 디바이스로 전송하도록 추가로 구성되는 디바이스.
제110항에 있어서, 상기 음성 인식의 결과를 수신하도록 추가로 구성되는 디바이스.
화자 인식을 수행하기 위하여, 사용자의 음성을 나타내는 수신된 신호를 프로세싱하기 위한 집적 회로 디바이스로서,
제1 출력 결과를 획득하기 위하여, 상기 수신된 신호의 제1 부분에 대해 제1 화자 인식 프로세스를 수행하고;
제2 출력 결과를 획득하기 위하여, 상기 수신된 신호의 상기 제1 부분과는 상이한 상기 수신된 신호의 제2 부분에 대해 제2 화자 인식 프로세스 - 상기 제2 화자 인식 프로세스는 상기 제1 화자 인식 프로세스와는 상이함 - 를 수행하고;
상기 사용자가 등록된 사용자일 가능성을 표시하는 조합된 출력 결과를 획득하기 위하여 상기 제1 및 제2 출력 결과들을 조합하도록
구성되는 집적 회로 디바이스.
제112항에 있어서, 상기 제1 및 제2 화자 인식 프로세스들은 상기 디바이스에서 저장된 적어도 하나의 사용자 또는 배경 모델을 이용하는 집적 회로 디바이스.
제112항 또는 제113항에 있어서, 상기 제1 및 제2 화자 인식 프로세스들은 별도의 집적 회로 디바이스에서 저장된 적어도 하나의 사용자 또는 배경 모델을 이용하는 집적 회로 디바이스.
컴퓨터-판독가능 유형의 매체, 및 제58항 내지 제106항 중 어느 한 항에 따른 방법을 수행하기 위한 명령어들을 포함하는 컴퓨터 프로그램 제품.
컴퓨터-실행가능 명령어들이 저장되어 있는 비-일시적 컴퓨터 판독가능 저장 매체로서, 상기 컴퓨터-실행가능 명령어들은 프로세서 회로부에 의해 실행될 때, 상기 프로세서 회로부로 하여금, 제1항 내지 제48항 중 어느 한 항에 따른 방법을 수행하게 하는 비-일시적 컴퓨터 판독가능 저장 매체.
컴퓨터-실행가능 명령어들이 저장되어 있는 비-일시적 컴퓨터 판독가능 저장 매체로서, 상기 컴퓨터-실행가능 명령어들은 프로세서 회로부에 의해 실행될 때, 상기 프로세서 회로부로 하여금, 제58항 내지 제106항 중 어느 한 항에 따른 방법을 수행하게 하는 비-일시적 컴퓨터 판독가능 저장 매체.