JP2016536648A

JP2016536648A - ボイスアシスタント機能をアクティブにするための検出しきい値を調整するための方法および装置

Info

Publication number: JP2016536648A
Application number: JP2016542030A
Authority: JP
Inventors: リ、ミンスブ; キム、テス; ホワン、キュ・ウォン; ジン、ミンホ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-09-17
Filing date: 2014-09-08
Publication date: 2016-11-24
Anticipated expiration: 2034-09-08
Also published as: KR20160055915A; KR102317608B1; ES2817841T3; US9240182B2; JP6538060B2; EP3754652B1; CN105556595A; WO2015041882A1; EP3047482A1; EP3754652A1; EP3754652C0; CN105556595B; US20150081296A1; EP3047482B1

Abstract

モバイルデバイスにおいてボイスアシスタント機能をアクティブにするための方法が開示される。本方法は、音センサーによって入力音ストリームを受信することと、モバイルデバイスのコンテキストを決定することとを含む。本方法は、入力音ストリームに基づいてコンテキストを決定し得る。コンテキストを決定するために、本方法はまた、モバイルデバイス中の加速度センサー、ロケーションセンサー、照明センサー、近接度センサー、クロックユニット、およびカレンダーユニットのうちの少なくとも１つから、モバイルデバイスのコンテキストを示すデータを取得し得る。本方法では、ボイスアシスタント機能をアクティブにするためのしきい値が、コンテキストに基づいて調整される。本方法は、調整されたしきい値に基づいて入力音ストリームからターゲットキーワードを検出する。ターゲットキーワードが検出される場合、本方法はボイスアシスタント機能をアクティブにする。【選択図】図６

Description

優先権の主張

関連出願の相互参照
本出願は、その内容全体が参照により本明細書に明確に組み込まれる、２０１３年９月１７日に出願された、同一出願人が所有する米国非仮特許出願第１４／０２９，１３１号の優先権を主張する。

本開示は、一般に、モバイルデバイスにおいてボイスアシスタント機能をアクティブにするための方法に関する。より詳細には、本開示は、モバイルデバイスにおいてターゲットキーワードを検出するためのしきい値を調整することに関する。

[0003]近年、スマートフォンおよびタブレットコンピュータなど、モバイルデバイスの使用が普及してきた。そのようなモバイルデバイスは、概して、ワイヤレスネットワークを介して音声およびデータ通信を可能にする。一般に、これらのデバイスは、ユーザ利便性を向上させるように設計された様々な機能を与える追加の特徴またはアプリケーションを含む。

[0004]そのようなアプリケーションまたは特徴のうち、ボイスアシスタントアプリケーションは、モバイルデバイスが、ボイスコマンドに応答して様々な機能または他のアプリケーションを動作させるためのユーザからのボイスコマンドを受信することを可能にする。たとえば、ボイスアシスタントアプリケーションは、ユーザが、モバイルデバイスを手で物理的に操作することなしに、所望の電話番号に電話をかけるか、オーディオファイルを再生するか、写真を撮るか、インターネットを検索するか、または気象情報を取得するために、ボイスコマンドを話すことを可能にし得る。したがって、ユーザは、ユーザがモバイルデバイスを物理的に操作することを望まないことがあるかまたはそうすることができない、様々な状況において、モバイルデバイスの様々な動作を制御するためにボイスコマンドを使用することを選択し得る。

[0005]従来のボイスアシスタントアプリケーションは、しばしば、ユーザによる（たとえば、手による）物理的入力に応答してアクティブにされる。しかしながら、ボイスアシスタントアプリケーションを使用する目的のうちの１つは、物理的入力なしにモバイルデバイスを操作することであり得るので、ユーザは、ボイスアシスタントアプリケーションを物理的にアクティブにすることが不都合または困難であると思うことがあり得る。したがって、いくつかのモバイルデバイスは、ユーザがボイスコマンドを話すことによってボイスアシスタントアプリケーションをアクティブにすることを可能にする。

[0006]しかしながら、そのようなモバイルデバイスは、しばしば、デバイスによってキャプチャされた様々な入力音に応答して間違ってアクティブにされるか、または適切なボイスコマンドに応答してアクティブにされることに失敗する。たとえば、モバイルデバイスは、別の人の発話を適切なボイスコマンドとして間違って認識し、ボイスアシスタントアプリケーションをアクティブにすることがある。一方、モバイルデバイスが騒々しい環境にあるとき、モバイルデバイスは、背景雑音により適切なボイスコマンドを認識せず、したがって、ボイスアシスタントアプリケーションをアクティブにすることに失敗することがある。

[0007]本開示は、デバイスのコンテキストに従って調整され得るしきい値に基づいて入力音ストリーム中でターゲットキーワードを検出することによってボイスアシスタント機能をアクティブにするための方法およびデバイスを提供する。

[0008]本開示の一態様によれば、モバイルデバイスにおいてボイスアシスタント機能をアクティブにするための方法が開示される。本方法は、音センサーによって入力音ストリームを受信することと、モバイルデバイスのコンテキストを決定することとを含む。本方法では、ボイスアシスタント機能をアクティブにするためのしきい値が、コンテキストに基づいて調整される。本方法は、調整されたしきい値に基づいて入力音ストリームからターゲットキーワードを検出する。ターゲットキーワードが検出された場合、本方法はボイスアシスタント機能をアクティブにする。本開示では、本方法に関係する装置、デバイス、手段の組合せ、およびコンピュータ可読媒体についても説明する。

[0009]本開示の別の態様によれば、ボイスアシスタント機能をアクティブにするためのモバイルデバイスは、音センサーと、しきい値調整ユニットと、ボイスアクティベーションユニットとを含む。音センサーは、入力音ストリームを受信するように構成される。しきい値調整ユニットは、モバイルデバイスのコンテキストを決定することによって、ボイスアシスタント機能をアクティブにするためのしきい値を調整するように構成される。ボイスアクティベーションユニットは、調整されたしきい値に基づいて入力音ストリームからターゲットキーワードが検出された場合、ボイスアシスタント機能をアクティブにするように構成される。

[0010]本開示の発明的態様の実施形態は、以下の発明を実施するための形態を参照し、添付の図面とともに読めば理解されよう。

本開示の一実施形態による、モバイルデバイスのコンテキストが車両の中にあると決定されたときの、ボイスアシスタント機能をアクティブにするための検出しきい値を調整するように構成されたモバイルデバイスを示す図。本開示の一実施形態による、モバイルデバイスのコンテキストが、ユーザが起きている可能性が高い朝にあると決定された場合の、ボイスアシスタント機能をアクティブにするための検出しきい値を調整するように構成されたモバイルデバイスを示す図。本開示の一実施形態による、モバイルデバイスのコンテキストが、ユーザが眠っている可能性が高い夜にあると決定された場合の、ボイスアシスタント機能をアクティブにするための検出しきい値を調整するように構成されたモバイルデバイスを示す図。本開示の一実施形態による、モバイルデバイスのコンテキストがバッグの中にあると決定されたときの、ボイスアシスタント機能をアクティブにするための検出しきい値を調整するように構成されたモバイルデバイスを示す図。本開示の一実施形態による、テキストメッセージを受信するというコンテキストにおける、ボイスアシスタント機能をアクティブにするための検出しきい値を調整するように構成されたモバイルデバイスを示す図。本開示の一実施形態による、モバイルデバイスのコンテキストに基づいて、ターゲットキーワードを検出するためのしきい値を調整することによって入力音ストリームからターゲットキーワードを検出するように構成されたモバイルデバイスのブロック図。本開示の一実施形態による、モバイルデバイスのコンテキストを決定する際に使用する音ストリームとセンサーデータとを出力するように構成されたモバイルデバイス中のセンサーユニットのブロック図。本開示の一実施形態による、モバイルデバイスのコンテキストを推論することによって、ボイスアシスタント機能をアクティブにするための検出しきい値を決定するように構成されたモバイルデバイス中のしきい値調整ユニットのブロック図。本開示の一実施形態による、モバイルデバイスにおいて実行される、モバイルデバイスのコンテキストを推論することによって、ボイスアシスタント機能をアクティブにするための検出しきい値を決定するための方法のフローチャート。本開示の一実施形態による、モバイルデバイスにおいて実行される、調整された検出しきい値を生成し、指定された時間期間の後に検出しきい値を予め定められた検出しきい値にリセットするための方法のフローチャート。本開示の一実施形態による、調整された検出しきい値に基づいて入力音ストリーム中のターゲットキーワードを検出することによってボイスアシスタント機能をアクティブにするように構成されたモバイルデバイス中のボイスアクティベーションユニットのブロック図。本開示の一実施形態による、モバイルデバイスにおいて実行される、調整された検出しきい値に基づいて入力音ストリーム中のターゲットキーワードを検出することによってボイスアシスタント機能をアクティブにするための方法のフローチャート。本開示の一実施形態による、モバイルデバイスのコンテキストに従って調整された検出しきい値に基づいて入力音ストリーム中のターゲットキーワードを検出するための方法および装置、ワイヤレス通信システム中のモバイルデバイスのブロック図。

[0024]次に、添付の図面にそれの例が示されている、様々な実施形態を詳細に参照する。以下の詳細な説明では、本主題の完全な理解を与えるために多数の具体的な詳細を記載する。ただし、本主題はこれらの具体的な詳細なしに実施され得ることが当業者には明らかであろう。他の事例では、様々な実施形態の態様を不必要に不明瞭にしないように、よく知られている方法、プロシージャ、システム、および構成要素については詳細に説明していない。

[0025]図１に、本開示の一実施形態による、モバイルデバイス１１０のコンテキストが車両１３０の中にあると決定されたときの、ボイスアシスタント機能をアクティブにするための検出しきい値を調整するように構成されたモバイルデバイス１１０を示す。この図示の実施形態では、モバイルデバイス１１０のユーザ１２０は車両１３０を運転しており、モバイルデバイス１１０は車両１３０の助手席に配置される。図１のモバイルデバイス１１０は、入力音中のユーザの音声を認識するための音声認識機能を装備したスマートフォンであり得る。

[0026]モバイルデバイス１１０中のボイスアシスタント機能がアクティブにされたとき、モバイルデバイス１１０は、音声認識機能を使用してユーザ１２０からの様々な言葉による要求、命令、コマンドなどに応答することができる。たとえば、ユーザ１２０は、ボイスアシスタント機能がアクティブにされているとき、「スーザンに電話」などの命令を話し得る。応答して、モバイルデバイス１１０は、命令を認識し、認識された名前に関連する電話番号を使用してスーザンに電話をかける。モバイルデバイス１１０中のボイスアシスタント機能は、モバイルデバイス１１０のボタンまたはタッチスクリーンを介した入力に応答してアクティブにされ得る。

[0027]いくつかの実施形態では、モバイルデバイス１１０は、ターゲットキーワードがユーザ１２０からの入力音中で検出されたときにボイスアシスタント機能をアクティブにするための予め定められたターゲットキーワードを記憶する。本明細書で使用する「ターゲットキーワード」という用語は、モバイルデバイス１１０中の機能またはアプリケーションをアクティブにするために使用され得る１つまたは複数の単語または音のデジタル表現またはアナログ表現を指す。たとえば、「ヘイ、ボイスアシスタント」または「ボイスアシスタント開始」などの予め定められたキーワードが、ボイスアシスタント機能をアクティブにするためのターゲットキーワードとしてモバイルデバイス１１０に記憶され得る。ユーザ１２０から入力音が受信されたとき、モバイルデバイス１１０は、受信された入力音に対して音声認識機能を実行することによって入力音中でターゲットキーワードを検出し得る。

[0028]モバイルデバイス１１０は、所望の信頼性レベルを保証するために、検出しきい値に基づいてターゲットキーワードを検出するように構成され得る。一実施形態では、モバイルデバイス１１０は、入力音とターゲットキーワードとの間の類似度（またはキーワード一致（matching）スコア）を計算し、類似度を検出しきい値と比較する。類似度を計算する際に、ターゲットキーワードのためのプリセット音モデルが使用され得る。入力音とターゲットキーワード（または音モデル）との間の類似度が検出しきい値を超える場合、モバイルデバイス１１０は、入力音中でターゲットキーワードを検出し、ボイスアシスタント機能をアクティブにする。一方、類似度が検出しきい値を超えない場合、モバイルデバイス１１０は、ターゲットキーワードが入力音中で検出されないと決定する。

[0029]検出しきい値は、入力音中でターゲットキーワードを検出する際の精度に影響を及ぼす。たとえば、検出しきい値が高すぎる場合、モバイルデバイス１１０は、ターゲットキーワードを含む入力音からターゲットキーワードを検出しないことがある。そのような場合、モバイルデバイス１１０は、入力音中のターゲットキーワードを「ミス（miss）」し、ターゲットキーワードについてのミス率の増加をもたらすことがある。一方、検出しきい値が低すぎる場合、モバイルデバイス１１０は、ターゲットキーワードを含まない入力音中でターゲットキーワードを間違って検出することがある。そのような場合、モバイルデバイスは、ボイスアシスタント機能を間違ってアクティブにし（すなわち、「誤アクティベーション」）、ボイスアシスタント機能についての誤アクティベーション率の増加を生じることがある。

[0030]いくつかの実施形態では、検出しきい値は、最初に、予め定められた値（たとえば、デフォルト値）にセットされ、次いで、モバイルデバイス１１０のコンテキストの変化に基づいて調整される。図１を参照すると、モバイルデバイス１１０は、音センサー、全地球測位システム（ＧＰＳ）、および加速度計などの様々なセンサーからのコンテキストデータに基づいてコンテキストを決定するように構成される。たとえば、モバイルデバイス１１０の音センサーは、エンジン音および交通騒音を含む、環境交通騒音を入力音としてキャプチャ（取得）し得る。さらに、ＧＰＳおよび加速度計は、モバイルデバイス１１０のロケーション、速度、および／または加速度を監視し得る。センサーからのコンテキストデータに基づいて、モバイルデバイス１１０は、モバイルデバイス１１０のコンテキストを車両の中にあるとして識別し得る。

[0031]モバイルデバイス１１０のコンテキストが車両の中にあると決定されたとき、図１中のモバイルデバイス１１０のユーザ１２０は、モバイルデバイス１１０を手で物理的に操作するよりもボイスアシスタント機能を使用する可能性が高いと仮定され得る。したがって、モバイルデバイス１１０は、通常または未確認のコンテキストのために予め決定されたデフォルト検出しきい値よりも低い値に検出しきい値を調整し得る。低減された検出しきい値は、ユーザがモバイルデバイス１１０を手で操作しなければならない可能性を低減するように、ターゲットキーワードを検出する可能性を増加させる（たとえば、ミス率の減少）。

[0032]ボイスアシスタント機能を使用する可能性は、いくつかの他のコンテキストにおいても高いと仮定され得る。図２に、本開示の一実施形態による、モバイルデバイス１１０のコンテキストが、ユーザ２１０が起きている可能性が高い朝にあると決定された場合の、ボイスアシスタント機能をアクティブにするための検出しきい値を調整するように構成されたモバイルデバイス１１０を示す。モバイルデバイス１１０は、ユーザ２１０の近くに配置され、たとえば、図２に示されているようにベッド２２０の近くのテーブル２３０の上に置かれる。

[0033]この例では、ユーザ２１０は、朝に起きたが、まだベッド２２０に座っている。この場合、モバイルデバイス１１０中の照明センサーが、モバイルデバイス１１０の明るい環境を示すコンテキストデータを生成し得る。さらに、モバイルデバイス１１０中のクロックユニットも現在時間（たとえば、午前７時００分）をコンテキストデータとして与え得る。いくつかの実施形態では、現在時間は、ユーザ２１０によってモバイルデバイス１１０においてセットされた、その人が典型的にいつ起きるかを示す時間と比較され得る。さらに、モバイルデバイス１１０中の音センサーも、コンテキストデータとして与えられる入力音として、小さい強度を有する静かな環境音をキャプチャする。さらに、モバイルデバイス１１０中のＧＰＳユニットが、モバイルデバイス１１０はユーザ２１０の自宅にあると決定し得、これもコンテキストデータとして使用される。

[0034]上記で生成されたコンテキストデータに基づいて、モバイルデバイス１１０は、モバイルデバイス１１０のコンテキストを、ユーザ２１０が起きている可能性が高い朝にあると決定し得る。この場合、モバイルデバイス１１０のユーザ２１０がモバイルデバイス１１０を手で物理的に操作するよりもボイスアシスタント機能を使用する可能性が高いと仮定され得る。たとえば、ユーザ２１０は、ベッド２２０に座ったまま、モバイルデバイス１１０中のボイスアシスタント機能を使用してその日の天気またはスケジュールを調べることを望み得る。したがって、モバイルデバイス１１０は、検出しきい値をデフォルト検出しきい値よりも低い値に調整し得、ターゲットキーワードを検出する可能性を増加させること（たとえば、ミス率の減少）をもたらす。

[0035]対照的に、ボイスアシスタント機能を使用する可能性は低いと仮定され得る。図３に、本開示の一実施形態による、モバイルデバイス１１０のコンテキストが、ユーザ３１０が眠っている可能性が高い夜にある（すなわち、睡眠中コンテキスト）と決定された場合の、ボイスアシスタント機能をアクティブにするための検出しきい値を調整するように構成されたモバイルデバイス１１０を示す。図３では、モバイルデバイス１１０は、ユーザ３１０の近くに配置され、たとえば、ベッド３２０の近くのテーブル３３０の上に置かれる。

[0036]図３の例では、ユーザ３１０は夜にベッド３２０で眠っている。この場合、モバイルデバイス１１０中の照明センサーが、モバイルデバイス１１０の暗い環境を検出し、暗い環境を示すコンテキストデータを与え得る。さらに、モバイルデバイス１１０中のクロックユニットも現在時間（たとえば、午前３時００分）をコンテキストデータとして与え得る。いくつかの実施形態では、現在時間は、ユーザ３１０によってモバイルデバイス１１０においてセットされた、その人が典型的にいつ眠り、いつ起きるかを示す時間範囲と比較され得る。さらに、モバイルデバイス１１０中の音センサーも、小さい強度を有する静かな環境音を入力音としてキャプチャし、それをコンテキストデータとして与え得る。さらに、モバイルデバイス１１０のロケーションが、モバイルデバイス１１０中のＧＰＳユニットによって決定され、コンテキストデータ（たとえば、ユーザ３１０の自宅にある）として使用され得る。

[0037]上記で生成されたコンテキストデータに基づいて、モバイルデバイス１１０は、モバイルデバイス１１０のコンテキストを、ユーザ３１０が眠っている可能性が高い夜にあると決定し得る。この場合、モバイルデバイス１１０のユーザ３１０は、ユーザ３１０が昼間に起きているときよりもボイスアシスタント機能を使用する可能性が低いと仮定され得る。したがって、モバイルデバイス１１０は検出しきい値をデフォルト検出しきい値よりも高い値に調整し得る。増加した検出しきい値は、ボイスアシスタント機能を間違ってアクティブにする可能性を低減すること（たとえば、誤アクティベーション率の減少）をもたらす。

[0038]ボイスアシスタント機能を使用する可能性は、いくつかの他のコンテキストにおいても低いと仮定され得る。図４に、本開示の一実施形態による、モバイルデバイス１１０のコンテキストがバッグ４１０の中にあると決定されたときの、ボイスアシスタント機能をアクティブにするための検出しきい値を調整するように構成されたモバイルデバイス１１０を示す。図示の例では、モバイルデバイス１１０は（点線円によって示されるように）バッグ４１０に入れられているが、モバイルデバイス１１０は、衣類のポケット、ポーチなど、他の種類のコンテナ（container）内に入れられ得る。

[0039]図４の例では、モバイルデバイス１１０のコンテキストを示すコンテキストデータを生成するために様々なセンサーが使用される。たとえば、モバイルデバイス１１０中の照明センサーが、バッグ４１０内のモバイルデバイス１１０の暗い環境を検出し、暗い環境を示すコンテキストデータを生成し得る。さらに、センサーの近くに位置する物体を検知するように構成された、モバイルデバイス１１０中の近接度センサーが、モバイルデバイス１１０の近くに物体が存在することを示すコンテキストデータを生成するために使用され得る。この例では、近接度センサーは近い物体、たとえば、バッグ４１０の内面の存在を検出し得る。さらに、モバイルデバイス１１０の音センサーは、モバイルデバイス１１０と取り囲むバッグ４１０の内面との間の摩擦によって生じ得るスカーピング音またはタッピング音を入力音としてキャプチャし得る。キャプチャされた入力音も、モバイルデバイス１１０のコンテキストを決定する際にコンテキストデータとして使用される。

[0040]上記で生成されたコンテキストデータに基づいて、モバイルデバイス１１０は、コンテキストをバッグ４１０などのコンテナの中にあると決定し得る。このコンテキストでは、図４中のモバイルデバイス１１０のユーザは、モバイルデバイス１１０がそのようなコンテナ（たとえば、バッグ４１０）の外に配置されるときよりも、ボイスアシスタント機能を使用する可能性が低いと仮定され得る。したがって、モバイルデバイス１１０は検出しきい値をデフォルト検出しきい値よりも高い値に調整し得る。増加した検出しきい値は、ボイスアシスタント機能を間違ってアクティブにする可能性を低減すること（たとえば、誤アクティベーション率の減少）をもたらす。

[0041]いくつかの実施形態では、モバイルデバイス１１０は、モバイルデバイス１１０の動作ステータスがアイドル状態からアクティブ状態に変化した場合にコンテキストを検出し得る。図５に、本開示の一実施形態による、テキストメッセージを受信するというコンテキストにおける、ボイスアシスタント機能をアクティブにするための検出しきい値を調整するように構成されたモバイルデバイス１１０を示す。最初に、モバイルデバイス１１０は、アプリケーションプロセッサが、モバイルデバイス１１０のための電力を節約するために非アクティブ状態にあり得る、アイドル状態にあり得る。モバイルデバイス１１０がアイドル状態中に外部ネットワークからテキストメッセージを受信したとき、アプリケーションプロセッサは、メッセージアプリケーションを実行し、モバイルデバイス１１０のディスプレイスクリーン５１０上に送信者の通知（すなわち、「ジョン・ドウ」）とテキストメッセージ（すなわち、「こんにちは、今話せますか？」）とを出力するためにアクティブにされ得る。モバイルデバイス１１０の動作ステータスは、モバイルデバイス１１０が電子メールメッセージ、マルチメディアメッセージ、プッシュ通知などを受信したときにもアイドル状態からアクティブ状態に変化し得る。さらに、モバイルデバイス１１０はまた、アラームイベント（たとえば、タイマーアラーム）に応答してアイドル状態からアクティブ状態に変化し得る。

[0042]モバイルデバイス１１０またはアプリケーションプロセッサの動作ステータスがアイドル状態からアクティブ状態に変化したとき、モバイルデバイス１１０のユーザは、操作を実行するためにボイスアシスタント機能を使用する可能性が高い。図５の例では、ユーザは、ボイスアシスタント機能を通してテキストメッセージの送信者に電話をかけるためにモバイルデバイス１１０を使用し得る。したがって、ボイスアシスタント機能を使用する可能性は、モバイルデバイス１１０がアイドル状態にあるときよりも高いと仮定され得る。したがって、モバイルデバイス１１０がアイドル状態からアクティブ状態への動作ステータス変化を検出したとき、モバイルデバイス１１０は、検出しきい値をデフォルト検出しきい値よりも低くなるように調整する。低減された検出しきい値は、ターゲットキーワードを検出する可能性を増加させる（たとえば、ミス率の減少）。

[0043]図６に、本開示の一実施形態による、モバイルデバイス１１０のコンテキストに基づいて、ターゲットキーワードを検出するためのしきい値を調整することによって入力音ストリームからターゲットキーワードを検出するように構成されたモバイルデバイス１１０のブロック図を示す。本明細書で使用する「音ストリーム」という用語は、一連の１つまたは複数の音信号または音データを指す。図６に示されているように、モバイルデバイス１１０は、センサーユニット６１０と、Ｉ／Ｏ（入出力）ユニット６２０と、記憶ユニット６３０と、通信ユニット６４０と、プロセッサ６５０とを含み得る。モバイルデバイス１１０は、セルラーフォン、スマートフォン、ラップトップコンピュータ、タブレットパーソナルコンピュータ、ゲームデバイス、マルチメディアプレーヤなど、音キャプチャおよび処理能力を備えた任意の好適なデバイスであり得る。

[0044]プロセッサ６５０は、デジタル信号プロセッサ（ＤＳＰ）６８０と、ボイスアシスタントユニット６８８と、クロックユニット６９０と、スケジュールユニット６９２とを含み得、モバイルデバイス１１０を管理し動作させるためのアプリケーションプロセッサまたは中央処理ユニット（ＣＰＵ）であり得る。クロックユニット６９０は、クロック機能、タイマー機能などを実装する。たとえば、クロックユニット６９０は、Ｉ／Ｏユニット６２０のディスプレイユニットおよび／またはスピーカーユニットを介して、モバイルデバイス１１０のユーザに現在時間を出力するか、またはセットされた時間に到達したときにユーザに通知し得る（たとえば、タイマーアラーム）。さらに、スケジュールユニット６９２は、ユーザによって入力されたスケジュール（たとえば、アポイントメント、イベントなど）を記憶および管理する。スケジュールユニット６９２は、記憶されたスケジュールの時間を把握し、Ｉ／Ｏユニット６２０を介して関連する通知をユーザに与え得る。

[0045]ＤＳＰ６８０は、音声検出器６８２と、しきい値調整ユニット６８４と、ボイスアクティベーションユニット６８６とを含み得る。一実施形態では、ＤＳＰ６８０は、音ストリームを処理する際の電力消費を低減するために低電力プロセッサである。この構成では、しきい値調整ユニット６８４は、モバイルデバイス１１０のコンテキストに基づいて検出しきい値を調整するように構成される。ボイスアクティベーションユニット６８６は、調整された検出しきい値に基づいて音ストリーム中でターゲットキーワードが検出されたとき、ボイスアシスタントユニット６８８をアクティブにするように構成される。

[0046]センサーユニット６１０は音センサー６６０とコンテキストセンサー６７０とを含み得る。音センサー６６０は、入力音ストリームを受信し、それをＤＳＰ６８０中の音声検出器６８２およびしきい値調整ユニット６８４に与えるように構成される。いくつかの実施形態では、音センサー６６０は、受信された入力音ストリームの強度がしきい値音強度よりも大きいとき、ＤＳＰ６８０中の音声検出器６８２およびしきい値調整ユニット６８４をアクティブにする。アクティベーション時に、また、音センサー６６０から音声検出器６８２およびしきい値調整ユニット６８４に入力音ストリームが与えられる。

[0047]センサーユニット６１０中のコンテキストセンサー６７０は、モバイルデバイス１１０のコンテキストを示すセンサーデータを生成するための様々なセンサーを含み得る。センサーデータは、次いで、しきい値調整ユニット６８４に与えられる。一実施形態では、コンテキストセンサー６７０はまた、センサーデータが与えられる前にしきい値調整ユニット６８４をアクティブにし得る。音センサー６６０およびコンテキストセンサー６７０について、以下で図７を参照しながらより詳細に説明する。通信ユニット６４０、クロックユニット６９０、およびスケジュールユニット６９２は、以下で図８を参照しながらより詳細に説明するように、アイドル状態からアクティブ状態へのプロセッサ６５０の動作ステータスの変化を示す通知をしきい値調整ユニット６８４に与えるように構成され得る。

[0048]しきい値調整ユニット６８４は、コンテキストデータと総称されることがある、受信された入力音ストリーム、センサーデータ、および／または１つまたは複数の通知に基づいてモバイルデバイス１１０のコンテキストを決定するように構成される。モバイルデバイス１１０のコンテキストを決定した後に、しきい値調整ユニット６８４は、決定されたコンテキストに従って検出しきい値を調整する。たとえば、モバイルデバイス１１０のコンテキストが、ボイスアシスタントユニット６８８が使用される可能性が高い（たとえば、図１、図２、および図５に関して上記で説明したようなコンテキストにある）ことを示す場合、しきい値調整ユニット６８４は、検出しきい値を低く、たとえば、デフォルト検出しきい値よりも低くなるように調整する。一方、モバイルデバイス１１０のコンテキストが、ボイスアシスタントユニット６８８が使用される可能性が低い（たとえば、図３および図４に関して上記で説明したようなコンテキストにある）ことを示す場合、しきい値調整ユニット６８４は、検出しきい値を高く、たとえば、デフォルト検出しきい値よりも高くなるように調整する。

[0049]いくつかの実施形態では、検出しきい値は、異なるコンテキストのためにあらかじめ決定され、モバイルデバイス１１０の記憶ユニット６３０に記憶され得る。たとえば、コンテキストおよび関連する検出しきい値はルックアップテーブルまたはデータベース構造として記憶され得る。ルックアップテーブルの場合、しきい値調整ユニット６８４は、関連する検出しきい値を取得するために、決定されたコンテキストをインデックスとして使用してテーブルにアクセスし得る。しきい値調整ユニット６８４は、次いで、取得された検出しきい値を調整された検出しきい値としてボイスアクティベーションユニット６８６に与える。モバイルデバイス１１０中の記憶ユニット６３０は、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読取り専用メモリ）、ＥＥＰＲＯＭ（登録商標）（電気消去可能プログラマブル読取り専用メモリ）、フラッシュメモリ、またはＳＳＤ（ソリッドステートドライブ）など、任意の好適なストレージデバイスまたはメモリデバイスを使用して実装され得る。

[0050]ターゲットキーワードを検出する際に使用するために、記憶ユニット６３０はターゲットキーワードをも記憶し得る。一実施形態では、ターゲットキーワードは、単音（phone）、音素（phoneme）、またはそれらのサブ単位など、複数の基本音単位に分割され得、ターゲットキーワードを表す複数の部分が基本音単位に基づいて生成され得る。ターゲットキーワードの各部分は、次いで、隠れマルコフモデル（ＨＭＭ）、セミマルコフモデル（ＳＭＭ）、またはそれらの組合せなど、マルコフ連鎖モデルの下で状態に関連付けられる。この場合、記憶ユニット６３０は、状態の各々から、それ自体を含む次の状態への遷移情報を含む、ターゲットキーワードの複数の部分に関連する複数の状態に関する状態情報を記憶し得る。

[0051]ＤＳＰ６８０中の音声検出器６８２は、アクティブにされたとき、音センサー６６０から入力音ストリームを受信する。一実施形態では、音声検出器６８２は、受信された入力音ストリームから複数の音特徴を抽出し、ガウス混合モデル（ＧＭＭ：Gaussian mixture model）ベースの分類器、人工ニューラルネットワーク、ＨＭＭ、グラフィカルモデル、およびサポートベクターマシン（ＳＶＭ）など、任意の好適な音分類方法を使用することによって、抽出された音特徴が人間音声などの関心のある（of interest）音を示すかどうかを決定する。受信された入力音ストリームが関心のある音であると決定された場合、音声検出器６８２はボイスアクティベーションユニット６８６をアクティブにし、受信された入力音ストリームがボイスアクティベーションユニット６８６に与えられる。いくつかの他の実施形態では、音声検出器６８２はＤＳＰ６８０において省略され得る。この場合、受信された入力音ストリームの強度がしきい値強度よりも大きいとき、音センサー６６０がボイスアクティベーションユニット６８６をアクティブにし、受信された入力音ストリームをボイスアクティベーションユニット６８６に直接与える。

[0052]上記で説明したように、ボイスアクティベーションユニット６８６は、しきい値調整ユニット６８４および音声検出器６８２から調整された検出しきい値および入力音ストリームを与えられる。調整された検出しきい値および入力音ストリームを受信すると、ボイスアクティベーションユニット６８６は、検出しきい値に基づいて入力音ストリームからターゲットキーワードを検出する。入力音ストリームが受信されるにつれて、ボイスアクティベーションユニット６８６は入力音ストリームから複数の音特徴を連続的に抽出し得る。さらに、ボイスアクティベーションユニット６８６は、複数の抽出された音特徴の各々を処理し、記憶ユニット６３０から、ターゲットキーワードについての複数の状態と遷移情報とを含む状態情報を取得し得る。処理された音特徴ごとに、ＧＭＭ、ニューラルネットワーク、およびＳＶＭなど、任意の好適な確率モデルを使用することによって状態の各々について観測スコアが決定され得る。

[0053]遷移情報から、ボイスアクティベーションユニット６８６は、状態の各々から、ターゲットキーワードについて可能である複数の状態シーケンス中の次の状態への遷移スコアを取得し得る。観測スコアを決定し、遷移スコアを取得した後に、ボイスアクティベーションユニット６８６は可能な状態シーケンスについてのスコアを決定する。一実施形態では、決定されたスコアのうちの最大スコアが、処理された音特徴のためのキーワードスコアとして使用され得る。処理された音特徴のためのキーワードスコアが（しきい値キーワードスコアと呼ばれることもある）検出しきい値よりも大きい場合、ボイスアクティベーションユニット６８６は入力音ストリームをターゲットキーワードとして検出する。ターゲットキーワードを検出すると、ボイスアクティベーションユニット６８６は、ターゲットキーワードに関連する、ボイスアシスタントユニット６８８をオンにするためのアクティベーション信号を生成し、送信する。

[0054]ボイスアシスタントユニット６８８は、ボイスアクティベーションユニット６８６からのアクティベーション信号に応答してアクティブにされる。アクティブにされると、ボイスアシスタントユニット６８８は、Ｉ／Ｏユニット６２０のディスプレイユニット上におよび／またはスピーカーユニットを通して、「ご用件は何でしょう？」などのメッセージを出力し得る。応答して、ユーザは、モバイルデバイス１１０の様々な関連する機能をアクティブにするためのボイスコマンドを話し得る。たとえば、インターネット検索のためのボイスコマンドが受信されたとき、ボイスアシスタントユニット６８８はボイスコマンドを検索コマンドとして認識し、外部ネットワーク６９４を通して通信ユニット６４０を介してウェブ検索を実行し得る。図示の実施形態は、ターゲットキーワードを検出したことに応答してボイスアシスタントユニット６８８をアクティブにするが、図示の実施形態は、関連するターゲットキーワードを検出したことに応答して他のアプリケーションまたは機能をもアクティブにし得る。

[0055]図７に、本開示の一実施形態による、モバイルデバイス１１０のコンテキストを決定する際に使用する音ストリームとセンサーデータとを出力するように構成されたセンサーユニット６１０のより詳細なブロック図を示す。音センサー６６０は入力音ストリームを受信し、入力音ストリームは、次いで、ＤＳＰ６８０中の音声検出器６８２に与えられる。受信された入力音ストリームは、コンテキストデータとしてＤＳＰ６８０中のしきい値調整ユニット６８４にも与えられる。音センサー６６０は、１つまたは複数のマイクロフォン、または入力音ストリームを受信し、キャプチャし、検知し、および／または検出するために使用され得る他のタイプの音センサーを含み得る。さらに、音センサー６６０は、そのような機能を実行するための任意の好適なソフトウェアおよび／またはハードウェアを採用し得る。一実施形態では、音センサー６６０は、デューティサイクルに従って入力音ストリームを周期的に受信するように構成され得る。

[0056]図７に示されているように、コンテキストセンサー６７０は、ロケーションセンサー７１０と、加速度計７２０と、近接度センサー７３０と、照明センサー７４０とを含み得る。ＧＰＳデバイスによって実装され得るロケーションセンサー７１０は、ロケーション、方向、モバイルデバイス１１０が移動している速度など、モバイルデバイス１１０に関連するセンサーデータを生成するように構成される。加速度計７２０は、モバイルデバイス１１０の加速度、向きなどを示すセンサーデータを生成する。

[0057]近接度センサー７３０は、たとえば、磁気、光、または容量性（capacitive）技術を使用して、モバイルデバイス１１０の近くに位置する物体を検出するように構成される。図７には１つの近接度センサー７３０が示されているが、コンテキストセンサー６７０は、モバイルデバイス１１０の複数のロケーションにおいて（たとえば、モバイルデバイス１１０の前面、背面、右側、および左側において）物体を検出するために、任意の好適な数の近接度センサーを含み得る。照明センサー７４０は、モバイルデバイス１１０の周囲の照明条件、すなわち、輝度を検知するように構成された光検出器である。ロケーションセンサー７１０、加速度計７２０、近接度センサー７３０、および照明センサー７４０によって生成されたセンサーデータは、しきい値調整ユニット６８４に与えられ、モバイルデバイス１１０のコンテキストを決定する際にコンテキストデータとして使用される。

[0058]図８に、本開示の一実施形態による、モバイルデバイス１１０のコンテキストを決定することによって、ボイスアシスタントユニット６８８をアクティブにするための検出しきい値を調整するように構成されたしきい値調整ユニット６８４のブロック図を示す。しきい値調整ユニット６８４はコンテキスト推論ユニット８１０としきい値決定ユニット８２０とを含み得る。コンテキスト推論ユニット８１０はモバイルデバイス１１０のコンテキストを決定し、しきい値決定ユニット８２０は、モバイルデバイス１１０のコンテキストに基づいて検出しきい値を調整する。調整された検出しきい値は、次いで、入力音ストリームからターゲットキーワードを検出する際に使用するためにボイスアクティベーションユニット６８６に与えられる。

[0059]モバイルデバイス１１０のコンテキストを決定するために、コンテキスト推論ユニット８１０は、音センサー６６０から入力音ストリームを受信し、コンテキストセンサー６７０からセンサーデータを受信する。コンテキスト推論ユニット８１０はまた、クロックユニット６９０、スケジュールユニット６９２、および通信ユニット６４０から１つまたは複数の通知を受信するように構成される。さらに、クロックユニット６９０はコンテキスト推論ユニット８１０に現在時間を与え得る。入力音ストリーム、センサーデータ、通知、および現在時間は、モバイルデバイス１１０のコンテキストを決定する際にコンテキストデータとしてコンテキスト推論ユニット８１０によって使用される。

[0060]上記で図６に関して説明したように、コンテキスト推論ユニット８１０に与えられる通知は、アイドル状態からアクティブ状態へのプロセッサ６５０の動作ステータスの変化など、モバイルデバイスのステータス情報を示し得る。たとえば、通信ユニット６４０は、図６中のネットワーク６９４を介して電子メッセージを受信するとそのような通知を与え得る。電子メッセージは、電子メールメッセージ、テキストメッセージ、マルチメディアメッセージ、プッシュ通知など、ネットワーク６９４を通して受信されるメッセージまたは通知を含み得る。クロックユニット６９０は、指定された時間にユーザにアラートするように構成され得る（たとえば、アラーム）。指定された時間に到達したとき、クロックユニット６９０はプロセッサ６５０をアクティブにし、プロセッサ６５０の動作ステータスの変化の通知がコンテキスト推論ユニット８１０に与えられる。さらに、スケジュールユニット６９２は、モバイルデバイス１１０に記憶されたスケジュールまたはイベントの時間を把握し、そのような時間にまたはそのような時間の前の所定の時間にコンテキスト推論ユニット８１０に通知を与え得る。

[0061]コンテキスト推論ユニット８１０は、受信されたコンテキストデータを分析し、モバイルデバイス１１０のコンテキストを決定する。モバイルデバイス１１０のコンテキストを決定する際に、コンテキスト推論ユニット８１０は、入力音、センサーデータ、通知、現在時間、またはそれらの任意の組合せからコンテキストを推論し得る。たとえば、モバイルデバイス１１０のコンテキストは、上記で図１に関して説明したように、入力音ストリームと、モバイルデバイス１１０のロケーション、速度、および／または加速度を含み得るセンサーデータとに基づいて、車両の中にあると推論され得る。

[0062]いくつかの実施形態では、モバイルデバイス１１０の様々なコンテキストは、コンテキスト推論ユニット８１０によって受信され得るコンテキストデータにコンテキストを関連付けるコンテキストデータベースに従ってあらかじめ決定され、記憶され得る。コンテキストデータベース中の所定のコンテキストのうち、コンテキスト推論ユニット８１０は、受信されたコンテキストデータに対応するコンテキストをモバイルデバイス１１０の現在コンテキストとして選択し得る。コンテキスト推論ユニット８１０は、次いで、選択されたコンテキストのためのコンテキストインジケータを生成し、コンテキストインジケータをしきい値決定ユニット８２０に与える。

[0063]コンテキスト推論ユニット８１０からコンテキストインジケータを受信すると、しきい値決定ユニット８２０は、受信されたコンテキストインジケータに基づいて検出しきい値を調整する。いくつかの実施形態では、検出しきい値のための値が、所定のコンテキストのためにプリセットされ、記憶ユニット６３０に記憶され得る。しきい値決定ユニット８２０は、コンテキストインジケータによって識別されたコンテキストに関連する検出しきい値を取得するために記憶ユニット６３０にアクセスし得る。

[0064]一実施形態では、検出しきい値は、コンテキストの各々においてボイスアシスタントユニット６８８を使用する可能性に基づいてセットされ得る。たとえば、ボイスアシスタントユニット６８８を使用する可能性が高い（たとえば、図１、図２、および図５に関して上記で説明したようなコンテキストにある）場合、しきい値調整ユニット６８４は、検出しきい値を（たとえば、通常または未確認のコンテキストのためにあらかじめ決定されたデフォルト検出しきい値よりも低くなるように）減少させ得る。一方、ボイスアシスタントユニット６８８を使用する可能性が低い（たとえば、図３および図４に関して上記で説明したようなコンテキストにある）場合、しきい値調整ユニット６８４は、検出しきい値を（たとえば、デフォルト検出しきい値よりも高くなるように）増加させ得る。その結果、検出しきい値は、モバイルデバイス１１０の決定されたコンテキストにおいてボイスアシスタントユニット６８８を使用する可能性に関連して調整され得る。調整された検出しきい値は、次いで、ボイスアシスタントユニット６８８をアクティブにするためにターゲットキーワードを検出する際に使用されるようにボイスアクティベーションユニット６８６に与えられる。

[0065]図９は、本開示の一実施形態による、モバイルデバイス１１０のしきい値調整ユニット６８４において実行される、モバイルデバイス１１０のコンテキストを推論することによって、ボイスアシスタントユニット６８８をアクティブにするための検出しきい値を決定するための方法９００のフローチャートである。しきい値調整ユニット６８４中のコンテキスト推論ユニット８１０が、９１０において、コンテキストデータを受信する。受信されたコンテキストデータに基づいて、９２０において、コンテキスト推論ユニット８１０においてモバイルデバイス１１０のコンテキストを決定する。コンテキスト推論ユニット８１０はまた、しきい値決定ユニット８２０に与えられる、決定されたコンテキストに関連するコンテキストインジケータを生成し得る。

[0066]しきい値決定ユニット８２０が、９３０において、コンテキスト推論ユニット８１０から受信されたコンテキストインジケータによって識別されるモバイルデバイス１１０のコンテキストに従って検出しきい値を調整する。検出しきい値を調整するために、しきい値決定ユニット８２０は、モバイルデバイス１１０のコンテキストに関連する検出しきい値を取得するために記憶ユニット６３０にアクセスし得る。検出しきい値が調整されると、しきい値決定ユニット８２０は、９４０において、調整された検出しきい値をボイスアクティベーションユニット６８６に与える。調整された検出しきい値は、ボイスアクティベーションユニット６８６によってターゲットキーワードを検出する際に使用される。

[0067]いくつかの実施形態では、調整された検出しきい値はデフォルト検出しきい値にリセットされ得る。図１０は、本開示の一実施形態による、モバイルデバイス１１０のしきい値調整ユニット６８４において実行される、調整された検出しきい値を生成し、指定された時間期間の後に検出しきい値を所定の検出しきい値にリセットするための方法１０００のフローチャートである。上記で図９に関して説明したのと同じ様式で、コンテキスト推論ユニット８１０が、９１０においてコンテキストデータを受信し、９２０においてモバイルデバイス１１０のコンテキストを決定する。しきい値決定ユニット８２０が、９３０において、コンテキストに基づいて検出しきい値を調整し、９４０において、調整された検出しきい値をボイスアクティベーションユニット６８６に与える。

[0068]１０１０において、たとえば、プロセッサ６５０中のクロックユニット６９０を使用することによって、指定された時間期間のためのタイマーをセットする。時間期間はあらかじめ決定され得る。しきい値調整ユニット６８４は、１０２０において、タイマーを監視し、指定された時間期間が経過したかどうかを決定する。代替的に、クロックユニット６９０が、指定された時間期間が経過したかどうかを検出し、時間期間が経過したときにしきい値調整ユニット６８４に通知し得る。指定された時間期間が経過した場合、しきい値調整ユニット６８４は、１０３０において、検出しきい値を予め定められた検出しきい値（たとえば、デフォルト検出しきい値）にリセットする。そうではなく、指定された時間期間が経過していない場合、方法１０００は、指定された時間期間が経過したか否かを決定するために１０２０に戻り得る。

[0069]図１１に、本開示の一実施形態による、調整された検出しきい値に基づいて入力音ストリーム中でターゲットキーワードを検出することによってボイスアシスタントユニット６８８をアクティブにするように構成されたボイスアクティベーションユニット６８６のブロック図を示す。ボイスアクティベーションユニット６８６は、特徴抽出器１１１０と、キーワードスコア計算ユニット１１２０と、キーワード検出ユニット１１３０とを含み得る。ボイスアクティベーションユニット６８６中のキーワード検出ユニット１１３０が入力音ストリームからターゲットキーワードを検出したとき、キーワード検出ユニット１１３０は、ボイスアシスタントユニット６８８をオンにするためのアクティベーション信号を生成する。

[0070]音声検出器６８２が入力音ストリームを人間音声であると決定したとき、特徴抽出器１１１０は、入力音ストリームを受信し、入力音ストリームから１つまたは複数の音特徴を抽出する。いくつかの実施形態では、特徴抽出器１１１０は、入力音ストリームを等しい時間期間の複数の連続フレームにセグメント化する。たとえば、入力音ストリームは、受信され、１０ｍｓのフレームに連続的にセグメント化され得る。この場合、特徴抽出器１１１０はフレームの各々から音特徴を抽出する。一実施形態では、特徴抽出器１１１０は、ＭＦＣＣ（メル周波数ケプストラム係数（Mel-frequency cepstral coefficient））方法などの任意の好適な特徴抽出方法を使用してフレームから音特徴を抽出し得る。たとえば、ＭＦＣＣ方法の場合、セグメント化されたフレームの各々からｎ次元ベクトルの成分が計算され、ベクトルは音特徴として使用される。

[0071]抽出された音特徴は特徴抽出器１１１０からキーワードスコア計算ユニット１１２０に与えられる。各音特徴を受信すると、キーワードスコア計算ユニット１１２０は音特徴のためのキーワードスコアを決定する。キーワードスコアは、図６に関して上記で説明した様式で決定され得る。決定されたキーワードスコアはキーワード検出ユニット１１３０に与えられる。

[0072]キーワード検出ユニット１１３０はキーワードスコア計算ユニット１１２０からキーワードスコアを受信する。キーワード検出ユニット１１３０はまた、しきい値調整ユニット６８４から調整された検出しきい値を受信する。受信されたキーワードスコアは、次いで、調整された検出しきい値と比較される。キーワードスコアが調整されたしきい値スコアを超えるとき、キーワード検出ユニット１１３０は、ボイスアシスタントユニット６８８をオンにするためのアクティベーション信号を生成する。そうでない場合、キーワード検出ユニット１１３０はボイスアシスタントユニット６８８をアクティブにしない。この場合、キーワード検出ユニット１１３０は、次の抽出された音特徴のためにキーワードスコア計算ユニット１１２０によって決定された後続のキーワードスコアを受信し、後続のキーワードスコアが調整された検出しきい値を超えるかどうかを決定し得る。

[0073]図１２は、本開示の一実施形態による、ボイスアクティベーションユニット６８６において実行される、調整された検出しきい値に基づいて入力音ストリーム中でターゲットキーワードを検出することによってボイスアシスタントユニット６８８をアクティブにするための方法１２００のフローチャートである。方法１２００は、１２１０において開始し、１２２０に進み、ここで、ボイスアクティベーションユニット６８６中の特徴抽出器１１１０が音声検出器６８２から入力音ストリームを受信する。特徴抽出器１１１０は、１２３０において、入力音ストリームから音特徴を抽出する。抽出された音特徴は、ボイスアクティベーションユニット６８６中のキーワードスコア計算ユニット１１２０に与えられる。

[0074]一実施形態では、入力音ストリームは、複数の音特徴がそれから抽出される複数のフレームに連続的にセグメント化される。この場合、複数の音特徴はキーワードスコア計算ユニット１１２０に連続的に与えられる。特徴抽出器１１１０から各音特徴を受信すると、キーワードスコア計算ユニット１１２０は、１２４０において、音特徴のためのキーワードスコアを決定する。図６に関して上記で説明したように、キーワードスコアは、マルコフ連鎖モデルなどの任意の好適な音声認識技術を使用して決定され得る。

[0075]図示された方法１２００では、キーワード検出ユニット１１３０が、１２５０において、しきい値調整ユニット６８４から調整された検出しきい値を受信する。一実施形態では、調整された検出しきい値は、１２５０において受信され得、一方で、１２２０において入力音ストリームが受信される、１２３０において音特徴が抽出される、または１２４０においてキーワードスコアが決定される。別の実施形態では、キーワード検出ユニット１１３０は、１２２０において特徴抽出器１１１０が入力音ストリームを受信する前に、または１２４０においてキーワードスコア計算ユニット１１２０がキーワードスコアを決定した後に、調整された検出しきい値を受信し得る。

[0076]キーワード検出ユニット１１３０は、１２６０において、キーワードスコアが受信された検出しきい値を超えるかどうかを決定する。１２６０において、キーワードスコアが検出しきい値を超えないと決定された場合、本方法は、特徴抽出器１１１０によって抽出された次の音特徴を受信するために１２７０に進み、１２４０において、次の音特徴のためのキーワードスコアを決定する。一方、１２６０において、キーワードスコアが検出しきい値を超えると決定された場合、キーワード検出ユニット１１３０は、１２８０において、ボイスアシスタントユニット６８８をオンにするためのアクティベーション信号を生成し、送信する。本方法は、次いで、１２９０において終了する。

[0077]図１３に、本開示の一実施形態による、モバイルデバイス１３００のコンテキストに従って調整された検出しきい値に基づいて入力音ストリーム中でターゲットキーワードを検出するための方法および装置、ワイヤレス通信システム中のモバイルデバイス１３００のブロック図を示す。モバイルデバイス１３００は、セルラーフォン、端末、ハンドセット、携帯情報端末（ＰＤＡ）、ワイヤレスモデム、コードレスフォンなどであり得る。ワイヤレス通信システムは、符号分割多元接続（ＣＤＭＡ）システム、モバイル通信用グローバルシステム（ＧＳＭ（登録商標）：Global System for Mobile Communications）システム、広帯域ＣＤＭＡ（Ｗ−ＣＤＭＡ（登録商標））システム、ロングタームエボリューション（ＬＴＥ（登録商標）：Long Term Evolution）システム、ＬＴＥアドバンストシステムなどであり得る。

[0078]モバイルデバイス１３００は、受信経路および送信経路を介して双方向通信を行うことが可能であり得る。受信経路上では、基地局によって送信された信号が、アンテナ１３１２によって受信され、受信機（ＲＣＶＲ）１３１４に与えられる。受信機１３１４は、受信信号を調整し、デジタル化し、さらなる処理のために調整およびデジタル化された信号をデジタルセクション１３２０に与える。送信経路上では、送信機（ＴＭＴＲ）が、デジタルセクション１３２０から送信されるべきデータを受信し、データを処理し、調整し、被変調信号を生成し、被変調信号はアンテナ１３１２を介して基地局に送信される。受信機１３１４および送信機１３１６は、ＣＤＭＡ、ＧＳＭ、Ｗ−ＣＤＭＡ、ＬＴＥ、ＬＴＥアドバンストなどをサポートするトランシーバの一部である。

[0079]デジタルセクション１３２０は、たとえば、モデムプロセッサ１３２２、縮小（reduced）命令セットコンピュータ／デジタル信号プロセッサ（ＲＩＳＣ／ＤＳＰ）１３２４、コントローラ／プロセッサ１３２６、内部メモリ１３２８、一般化オーディオエンコーダ１３３２、一般化オーディオデコーダ１３３４、グラフィックス／ディスプレイプロセッサ１３３６、および／または外部バスインターフェース（ＥＢＩ）１３３８など、様々な処理ユニット、インターフェースユニット、およびメモリユニットを含む。モデムプロセッサ１３２２は、データ送信および受信のための処理、たとえば、符号化、変調、復調、および復号を実行する。ＲＩＳＣ／ＤＳＰ１３２４は、ワイヤレスデバイス１３００のための一般的処理と専用処理とを実行する。コントローラ／プロセッサ１３２６は、デジタルセクション１３２０内の様々な処理ユニットおよびインターフェースユニットの演算を制御する。内部メモリ１３２８は、デジタルセクション１３２０内の様々なユニットのためのデータおよび／または命令を記憶する。

[0080]一般化オーディオエンコーダ１３３２は、オーディオソース１３４２、マイクロフォン１３４３などからの入力信号に対して符号化を実行する。一般化オーディオデコーダ１３３４は、コード化オーディオデータに対して復号を実行し、出力信号をスピーカー／ヘッドセット１３４４に与える。一般化オーディオエンコーダ１３３２および一般化オーディオデコーダ１３３４は、必ずしも、オーディオソース、マイクロフォン１３４３、およびスピーカー／ヘッドセット１３４４とのインターフェースのために必要とされるとは限らず、したがって、モバイルデバイス１３００中に示されていないことに留意されたい。グラフィックス／ディスプレイプロセッサ１３３６は、ディスプレイユニット１３４６に提示されるグラフィックス、ビデオ、画像、およびテキストのための処理を実行する。ＥＢＩ１３３８は、デジタルセクション１３２０とメインメモリ１３４８との間のデータの転送を可能にする。

[0081]デジタルセクション１３２０は、１つまたは複数のプロセッサ、ＤＳＰ、マイクロプロセッサ、ＲＩＳＣなどで実装される。デジタルセクション１３２０はまた、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）および／または何らかの他のタイプの集積回路（ＩＣ）上に作製される。

[0082]概して、本明細書で説明したいかなるデバイスも、ワイヤレスフォン、セルラーフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信パーソナルコンピュータ（ＰＣ）カード、ＰＤＡ、外部または内部モデム、ワイヤレスチャネルを介して通信するデバイスなど、様々なタイプのデバイスを示す。デバイスは、アクセス端末（ＡＴ）、アクセスユニット、加入者ユニット、移動局、クライアントデバイス、モバイルユニット、モバイルフォン、モバイル、リモート局、リモート端末、リモートユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイスなど、様々な名前を有し得る。本明細書で説明したいかなるデバイスも、命令とデータとを記憶するためのメモリ、ならびにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを有し得る。

[0083]本明細書で説明した技法は様々な手段によって実装される。たとえば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実装される。さらに、本明細書の開示に関して説明した様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者は諒解されよう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップについて、上記では概してそれらの機能に関して説明した。そのような機能がハードウェアとして実装されるか、ソフトウェアとして実装されるかは、特定の適用例および全体的なシステムに課される設計制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の決定は、本開示の範囲からの逸脱を生じるものと解釈されるべきではない。

[0084]ハードウェア実装の場合、本技法を実行するために使用される処理ユニットは、１つまたは複数のＡＳＩＣ、ＤＳＰ、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明した機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組合せ内で実装される。

[0085]したがって、本明細書の開示に関して説明した様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいは本明細書で説明した機能を実行するように設計されたそれらの任意の組合せで実装または実行される。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。

[0086]ソフトウェアで実装される場合、機能は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、コンピュータ記憶媒体とコンピュータ通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を含むことができる。さらに、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびｂｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[0087]本開示についての以上の説明は、いかなる当業者も本開示を作成または使用することができるようにするために提供したものである。本開示への様々な修正は当業者には容易に明らかになり、本明細書で定義した一般原理は、本開示の趣旨または範囲から逸脱することなく他の変形形態に適用される。したがって、本開示は、本明細書で説明した例に限定されるものではなく、本明細書で開示した原理および新規の特徴に合致する最も広い範囲を与えられるべきである。

[0088]例示的な実装形態は、１つまたは複数のスタンドアロンコンピュータシステムの文脈で、本開示の主題の態様を利用することに言及するが、主題は、そのように限定されるのではなく、ネットワークまたは分散コンピューティング環境など、任意のコンピューティング環境に関連して実施され得る。またさらに、本開示の主題の態様は、複数の処理チップまたはデバイスにおいてあるいはそれらにわたって実装され得、同様に、複数のデバイスにわたって記憶が実施され得る。そのようなデバイスは、ＰＣと、ネットワークサーバと、ハンドヘルドデバイスとを含み得る。

[0089]主題について構造的機能および／または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。

[0089]主題について構造的機能および／または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。
以下に本願発明の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
モバイルデバイスにおいてボイスアシスタント機能をアクティブにするための方法であって、前記方法は、
音センサーによって入力音ストリームを受信することと、
前記モバイルデバイスのコンテキストを決定することと、
前記コンテキストに基づいて、前記ボイスアシスタント機能をアクティブにするためのしきい値を調整することと、
前記調整されたしきい値に基づいて前記入力音ストリームからターゲットキーワードを検出することと、
前記ターゲットキーワードが検出された場合、前記ボイスアシスタント機能をアクティブにすることと、
を備える方法。
［Ｃ２］
前記モバイルデバイスの前記コンテキストを決定することは、前記入力音ストリームに基づいて前記モバイルデバイスの前記コンテキストを識別することを備える、Ｃ１に記載の方法。
［Ｃ３］
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイス中の加速度センサー、ロケーションセンサー、照明センサー、近接度センサー、クロックユニット、およびカレンダーユニットのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得することと、
前記データに基づいて前記モバイルデバイスの前記コンテキストを識別することと、
を備える、Ｃ１に記載の方法。
［Ｃ４］
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイス中の加速度センサーおよびロケーションセンサーのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得することと、
前記入力音ストリームと前記データとに基づいて、前記モバイルデバイスの前記コンテキストを車両の中にあると識別することと、
を備える、Ｃ１に記載の方法。
［Ｃ５］
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイス中の照明センサーおよび近接度センサーのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得することと、
前記入力音ストリームと前記データとに基づいて、前記モバイルデバイスの前記コンテキストをコンテナ内にあると識別することと、
を備える、Ｃ１に記載の方法。
［Ｃ６］
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイスのステータス情報を取得することと、
前記ステータス情報に基づいて前記モバイルデバイスの前記コンテキストを識別することと、
を備える、Ｃ１に記載の方法。
［Ｃ７］
前記ステータス情報は、アイドル状態からアクティブ状態への前記モバイルデバイス中のプロセッサの動作ステータスの変化を示す、Ｃ６に記載の方法。
［Ｃ８］
前記プロセッサの前記動作ステータスは、電子メッセージを受信することに応答して、前記アイドル状態から前記アクティブ状態に変化する、Ｃ７に記載の方法。
［Ｃ９］
前記プロセッサの前記動作ステータスは、前記モバイルデバイスにおけるアラームイベントに応答して、前記アイドル状態から前記アクティブ状態に変化する、Ｃ７に記載の方法。
［Ｃ１０］
前記しきい値を調整した後に予め定められた時間期間が経過したとき、前記しきい値を予め定められたしきい値にセットすることをさらに備える、Ｃ１に記載の方法。
［Ｃ１１］
前記しきい値を調整することは、前記モバイルデバイスの前記コンテキストにおいて前記ボイスアシスタント機能を使用する可能性に基づいて前記しきい値を調整することを備える、Ｃ１に記載の方法。
［Ｃ１２］
前記可能性は、前記コンテキストが、前記モバイルデバイスが車両の中にあることを示す場合に高い、Ｃ１１に記載の方法。
［Ｃ１３］
前記可能性は、前記コンテキストが睡眠中コンテキストを示す場合に低い、Ｃ１１に記載の方法。
［Ｃ１４］
前記入力音ストリームから前記ターゲットキーワードを検出することは、
前記入力音ストリームと前記ターゲットキーワードの音モデルとの間の類似度を計算することと、
前記類似度を前記しきい値と比較することと、
前記類似度が前記しきい値を超える場合、前記入力音ストリームから前記ターゲットキーワードを検出することと、
を備える、Ｃ１に記載の方法。
［Ｃ１５］
ボイスアシスタント機能をアクティブにするためのモバイルデバイスであって、
入力音ストリームを受信するように構成された音センサーと、
前記モバイルデバイスのコンテキストを決定することによって、前記ボイスアシスタント機能をアクティブにするためのしきい値を調整するように構成されたしきい値調整ユニットと、
前記調整されたしきい値に基づいて前記入力音ストリームからターゲットキーワードが検出された場合、前記ボイスアシスタント機能をアクティブにするように構成されたボイスアクティベーションユニットと、
を備える、モバイルデバイス。
［Ｃ１６］
前記しきい値調整ユニットは、前記入力音ストリームに基づいて前記モバイルデバイスの前記コンテキストを識別するように構成されたコンテキスト推論ユニットを備える、Ｃ１５に記載のモバイルデバイス。
［Ｃ１７］
前記しきい値調整ユニットは、前記モバイルデバイス中の加速度センサー、ロケーションセンサー、照明センサー、近接度センサー、クロックユニット、およびカレンダーユニットのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得し、前記データに基づいて前記モバイルデバイスの前記コンテキストを識別するように構成されたコンテキスト決定ユニットを備える、Ｃ１５に記載のモバイルデバイス。
［Ｃ１８］
前記しきい値調整ユニットは、前記モバイルデバイス中の加速度センサーおよびロケーションセンサーのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得し、前記入力音ストリームと前記データとに基づいて、前記モバイルデバイスの前記コンテキストを車両の中にあると識別するように構成されたコンテキスト決定ユニットを備える、Ｃ１５に記載のモバイルデバイス。
［Ｃ１９］
前記しきい値調整ユニットは、前記モバイルデバイス中の照明センサーおよび近接度センサーのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得し、前記入力音ストリームと前記データとに基づいて、前記モバイルデバイスの前記コンテキストをコンテナ内にあると識別するように構成されたコンテキスト決定ユニットを備える、Ｃ１５に記載のモバイルデバイス。
［Ｃ２０］
前記しきい値調整ユニットは、前記モバイルデバイスのステータス情報を取得し、前記ステータス情報に基づいて前記モバイルデバイスの前記コンテキストを識別するように構成されたコンテキスト決定ユニットを備える、Ｃ１５に記載のモバイルデバイス。
［Ｃ２１］
前記ステータス情報は、アイドル状態からアクティブ状態への前記モバイルデバイス中のプロセッサの動作ステータスの変化を示す、Ｃ２０に記載のモバイルデバイス。
［Ｃ２２］
前記プロセッサの前記動作ステータスは、電子メッセージを受信したことに応答して、前記アイドル状態から前記アクティブ状態に変化する、Ｃ２１に記載のモバイルデバイス。
［Ｃ２３］
前記プロセッサの前記動作ステータスは、前記モバイルデバイスにおけるアラームイベントに応答して、前記アイドル状態から前記アクティブ状態に変化する、Ｃ２１に記載のモバイルデバイス。
［Ｃ２４］
前記しきい値調整ユニットは、前記しきい値を調整した後に予め定められた時間期間が経過したとき、前記しきい値を予め定められたしきい値にセットするようにさらに構成された、Ｃ１５に記載のモバイルデバイス。
［Ｃ２５］
前記しきい値調整ユニットは、前記モバイルデバイスの前記コンテキストにおいて前記ボイスアシスタント機能を使用する可能性に基づいて前記しきい値を調整するようにさらに構成された、Ｃ１５に記載のモバイルデバイス。
［Ｃ２６］
前記可能性は、前記コンテキストが、前記モバイルデバイスが車両の中にあることを示す場合に高い、Ｃ２５に記載のモバイルデバイス。
［Ｃ２７］
前記可能性は、前記コンテキストが睡眠中コンテキストを示す場合に低い、Ｃ２５に記載のモバイルデバイス。
［Ｃ２８］
前記ボイスアクティベーションユニットは、前記入力音ストリームと前記ターゲットキーワードの音モデルとの間の類似度を計算し、前記類似度を前記しきい値と比較し、前記類似度が前記しきい値を超える場合、前記入力音ストリームから前記ターゲットキーワードを検出するようにさらに構成された、Ｃ１５に記載のモバイルデバイス。
［Ｃ２９］
ボイスアシスタント機能をアクティブにするためのモバイルデバイスであって、
入力音ストリームを受信するための手段と、
前記モバイルデバイスのコンテキストを決定することによって、前記ボイスアシスタント機能をアクティブにするためのしきい値を調整するための手段と、
前記調整されたしきい値に基づいて前記入力音ストリームからターゲットキーワードが検出された場合、前記ボイスアシスタント機能をアクティブにするための手段と、
を備える、モバイルデバイス。
［Ｃ３０］
前記しきい値を調整するための前記手段は、前記入力音ストリームに基づいて前記モバイルデバイスの前記コンテキストを識別するための手段を備える、Ｃ２９に記載のモバイルデバイス。
［Ｃ３１］
前記しきい値を調整するための前記手段は、前記モバイルデバイス中の加速度センサー、ロケーションセンサー、照明センサー、近接度センサー、クロックユニット、およびカレンダーユニットのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得し、前記データに基づいて前記モバイルデバイスの前記コンテキストを識別するための手段を備える、Ｃ２９に記載のモバイルデバイス。
［Ｃ３２］
前記しきい値を調整するための前記手段は、前記モバイルデバイス中の加速度センサーおよびロケーションセンサーのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得し、前記入力音ストリームと前記データとに基づいて、前記モバイルデバイスの前記コンテキストを車両の中にあると識別するための手段を備える、Ｃ２９に記載のモバイルデバイス。
［Ｃ３３］
前記しきい値を調整するための前記手段は、前記モバイルデバイスのステータス情報を取得し、前記ステータス情報に基づいて前記モバイルデバイスの前記コンテキストを識別するための手段を備える、Ｃ２９に記載のモバイルデバイス。
［Ｃ３４］
前記ステータス情報は、アイドル状態からアクティブ状態への前記モバイルデバイス中のプロセッサの動作ステータスの変化を示す、Ｃ３３に記載のモバイルデバイス。
［Ｃ３５］
前記プロセッサの前記動作ステータスは、電子メッセージを受信したことに応答して前記アイドル状態から前記アクティブ状態に変化する、Ｃ３４に記載のモバイルデバイス。
［Ｃ３６］
前記プロセッサの前記動作ステータスは、前記モバイルデバイスにおけるアラームイベントに応答して前記アイドル状態から前記アクティブ状態に変化する、Ｃ３４に記載のモバイルデバイス。
［Ｃ３７］
前記しきい値を調整するための前記手段は、前記しきい値を調整した後に予め定められた時間期間が経過したとき、前記しきい値を予め定められたしきい値にセットするように構成された、Ｃ２９に記載のモバイルデバイス。
［Ｃ３８］
前記しきい値を調整するための前記手段は、前記モバイルデバイスの前記コンテキストにおいて前記ボイスアシスタント機能を使用する可能性に基づいて前記しきい値を調整するように構成された、Ｃ２９に記載のモバイルデバイス。
［Ｃ３９］
前記可能性は、前記コンテキストが、前記モバイルデバイスが車両の中にあることを示す場合に高い、Ｃ３８に記載のモバイルデバイス。
［Ｃ４０］
モバイルデバイスにおいてボイスアシスタント機能をアクティブにするための命令を備える非一時的コンピュータ可読記憶媒体であって、前記命令は、前記モバイルデバイスのプロセッサに、
音センサーによって入力音ストリームを受信することと、
前記モバイルデバイスのコンテキストを決定することと、
前記コンテキストに基づいて、前記ボイスアシスタント機能をアクティブにするためのしきい値を調整することと、
前記調整されたしきい値に基づいて前記入力音ストリームからターゲットキーワードを検出することと、
前記ターゲットキーワードが検出された場合、前記ボイスアシスタント機能をアクティブにすることと、
のオペレーションを実行させる、非一時的コンピュータ可読記憶媒体。
［Ｃ４１］
前記モバイルデバイスの前記コンテキストを決定することは、前記入力音ストリームに基づいて前記モバイルデバイスの前記コンテキストを識別することを備える、Ｃ４０に記載の媒体。
［Ｃ４２］
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイス中の加速度センサー、ロケーションセンサー、照明センサー、近接度センサー、クロックユニット、およびカレンダーユニットのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得することと、
前記データに基づいて前記モバイルデバイスの前記コンテキストを識別することと、
を備える、Ｃ４０に記載の媒体。
［Ｃ４３］
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイス中の加速度センサーおよびロケーションセンサーのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得することと、
前記入力音ストリームと前記データとに基づいて、前記モバイルデバイスの前記コンテキストを車両の中にあるとして識別することと、
を備える、Ｃ４０に記載の媒体。
［Ｃ４４］
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイスのステータス情報を取得することと、
前記ステータス情報に基づいて前記モバイルデバイスの前記コンテキストを識別することと、
を備える、Ｃ４０に記載の媒体。
［Ｃ４５］
前記ステータス情報は、アイドル状態からアクティブ状態への前記モバイルデバイスの前記プロセッサの動作ステータスの変化を示す、Ｃ４４に記載の媒体。
［Ｃ４６］
前記プロセッサの前記動作ステータスは、電子メッセージを受信したことに応答して前記アイドル状態から前記アクティブ状態に変化する、Ｃ４５に記載の媒体。
［Ｃ４７］
前記プロセッサの前記動作ステータスは、前記モバイルデバイスにおけるアラームイベントに応答して前記アイドル状態から前記アクティブ状態に変化する、Ｃ４５に記載の媒体。
［Ｃ４８］
前記オペレーションは、前記しきい値を調整した後に予め定められた時間期間が経過したとき、前記しきい値を予め定められたしきい値にセットすることをさらに備える、Ｃ４０に記載の媒体。
［Ｃ４９］
前記しきい値を調整することは、前記モバイルデバイスの前記コンテキストにおいて前記ボイスアシスタント機能を使用する可能性に基づいて前記しきい値を調整することを備える、Ｃ４０に記載の媒体。
［Ｃ５０］
前記可能性は、前記コンテキストが、前記モバイルデバイスが車両の中にあることを示す場合に高い、Ｃ４９に記載の媒体。

Claims

モバイルデバイスにおいてボイスアシスタント機能をアクティブにするための方法であって、前記方法は、
音センサーによって入力音ストリームを受信することと、
前記モバイルデバイスのコンテキストを決定することと、
前記コンテキストに基づいて、前記ボイスアシスタント機能をアクティブにするためのしきい値を調整することと、
前記調整されたしきい値に基づいて前記入力音ストリームからターゲットキーワードを検出することと、
前記ターゲットキーワードが検出された場合、前記ボイスアシスタント機能をアクティブにすることと、
を備える方法。
前記モバイルデバイスの前記コンテキストを決定することは、前記入力音ストリームに基づいて前記モバイルデバイスの前記コンテキストを識別することを備える、請求項１に記載の方法。
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイス中の加速度センサー、ロケーションセンサー、照明センサー、近接度センサー、クロックユニット、およびカレンダーユニットのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得することと、
前記データに基づいて前記モバイルデバイスの前記コンテキストを識別することと、
を備える、請求項１に記載の方法。
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイス中の加速度センサーおよびロケーションセンサーのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得することと、
前記入力音ストリームと前記データとに基づいて、前記モバイルデバイスの前記コンテキストを車両の中にあると識別することと、
を備える、請求項１に記載の方法。
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイス中の照明センサーおよび近接度センサーのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得することと、
前記入力音ストリームと前記データとに基づいて、前記モバイルデバイスの前記コンテキストをコンテナ内にあると識別することと、
を備える、請求項１に記載の方法。
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイスのステータス情報を取得することと、
前記ステータス情報に基づいて前記モバイルデバイスの前記コンテキストを識別することと、
を備える、請求項１に記載の方法。
前記ステータス情報は、アイドル状態からアクティブ状態への前記モバイルデバイス中のプロセッサの動作ステータスの変化を示す、請求項６に記載の方法。
前記プロセッサの前記動作ステータスは、電子メッセージを受信することに応答して、前記アイドル状態から前記アクティブ状態に変化する、請求項７に記載の方法。
前記プロセッサの前記動作ステータスは、前記モバイルデバイスにおけるアラームイベントに応答して、前記アイドル状態から前記アクティブ状態に変化する、請求項７に記載の方法。
前記しきい値を調整した後に予め定められた時間期間が経過したとき、前記しきい値を予め定められたしきい値にセットすることをさらに備える、請求項１に記載の方法。
前記しきい値を調整することは、前記モバイルデバイスの前記コンテキストにおいて前記ボイスアシスタント機能を使用する可能性に基づいて前記しきい値を調整することを備える、請求項１に記載の方法。
前記可能性は、前記コンテキストが、前記モバイルデバイスが車両の中にあることを示す場合に高い、請求項１１に記載の方法。
前記可能性は、前記コンテキストが睡眠中コンテキストを示す場合に低い、請求項１１に記載の方法。
前記入力音ストリームから前記ターゲットキーワードを検出することは、
前記入力音ストリームと前記ターゲットキーワードの音モデルとの間の類似度を計算することと、
前記類似度を前記しきい値と比較することと、
前記類似度が前記しきい値を超える場合、前記入力音ストリームから前記ターゲットキーワードを検出することと、
を備える、請求項１に記載の方法。
ボイスアシスタント機能をアクティブにするためのモバイルデバイスであって、
入力音ストリームを受信するように構成された音センサーと、
前記モバイルデバイスのコンテキストを決定することによって、前記ボイスアシスタント機能をアクティブにするためのしきい値を調整するように構成されたしきい値調整ユニットと、
前記調整されたしきい値に基づいて前記入力音ストリームからターゲットキーワードが検出された場合、前記ボイスアシスタント機能をアクティブにするように構成されたボイスアクティベーションユニットと、
を備える、モバイルデバイス。
前記しきい値調整ユニットは、前記入力音ストリームに基づいて前記モバイルデバイスの前記コンテキストを識別するように構成されたコンテキスト推論ユニットを備える、請求項１５に記載のモバイルデバイス。
前記しきい値調整ユニットは、前記モバイルデバイス中の加速度センサー、ロケーションセンサー、照明センサー、近接度センサー、クロックユニット、およびカレンダーユニットのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得し、前記データに基づいて前記モバイルデバイスの前記コンテキストを識別するように構成されたコンテキスト決定ユニットを備える、請求項１５に記載のモバイルデバイス。
前記しきい値調整ユニットは、前記モバイルデバイス中の加速度センサーおよびロケーションセンサーのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得し、前記入力音ストリームと前記データとに基づいて、前記モバイルデバイスの前記コンテキストを車両の中にあると識別するように構成されたコンテキスト決定ユニットを備える、請求項１５に記載のモバイルデバイス。
前記しきい値調整ユニットは、前記モバイルデバイス中の照明センサーおよび近接度センサーのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得し、前記入力音ストリームと前記データとに基づいて、前記モバイルデバイスの前記コンテキストをコンテナ内にあると識別するように構成されたコンテキスト決定ユニットを備える、請求項１５に記載のモバイルデバイス。
前記しきい値調整ユニットは、前記モバイルデバイスのステータス情報を取得し、前記ステータス情報に基づいて前記モバイルデバイスの前記コンテキストを識別するように構成されたコンテキスト決定ユニットを備える、請求項１５に記載のモバイルデバイス。
前記ステータス情報は、アイドル状態からアクティブ状態への前記モバイルデバイス中のプロセッサの動作ステータスの変化を示す、請求項２０に記載のモバイルデバイス。
前記プロセッサの前記動作ステータスは、電子メッセージを受信したことに応答して、前記アイドル状態から前記アクティブ状態に変化する、請求項２１に記載のモバイルデバイス。
前記プロセッサの前記動作ステータスは、前記モバイルデバイスにおけるアラームイベントに応答して、前記アイドル状態から前記アクティブ状態に変化する、請求項２１に記載のモバイルデバイス。
前記しきい値調整ユニットは、前記しきい値を調整した後に予め定められた時間期間が経過したとき、前記しきい値を予め定められたしきい値にセットするようにさらに構成された、請求項１５に記載のモバイルデバイス。
前記しきい値調整ユニットは、前記モバイルデバイスの前記コンテキストにおいて前記ボイスアシスタント機能を使用する可能性に基づいて前記しきい値を調整するようにさらに構成された、請求項１５に記載のモバイルデバイス。
前記可能性は、前記コンテキストが、前記モバイルデバイスが車両の中にあることを示す場合に高い、請求項２５に記載のモバイルデバイス。
前記可能性は、前記コンテキストが睡眠中コンテキストを示す場合に低い、請求項２５に記載のモバイルデバイス。
前記ボイスアクティベーションユニットは、前記入力音ストリームと前記ターゲットキーワードの音モデルとの間の類似度を計算し、前記類似度を前記しきい値と比較し、前記類似度が前記しきい値を超える場合、前記入力音ストリームから前記ターゲットキーワードを検出するようにさらに構成された、請求項１５に記載のモバイルデバイス。
ボイスアシスタント機能をアクティブにするためのモバイルデバイスであって、
入力音ストリームを受信するための手段と、
前記モバイルデバイスのコンテキストを決定することによって、前記ボイスアシスタント機能をアクティブにするためのしきい値を調整するための手段と、
前記調整されたしきい値に基づいて前記入力音ストリームからターゲットキーワードが検出された場合、前記ボイスアシスタント機能をアクティブにするための手段と、
を備える、モバイルデバイス。
前記しきい値を調整するための前記手段は、前記入力音ストリームに基づいて前記モバイルデバイスの前記コンテキストを識別するための手段を備える、請求項２９に記載のモバイルデバイス。
前記しきい値を調整するための前記手段は、前記モバイルデバイス中の加速度センサー、ロケーションセンサー、照明センサー、近接度センサー、クロックユニット、およびカレンダーユニットのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得し、前記データに基づいて前記モバイルデバイスの前記コンテキストを識別するための手段を備える、請求項２９に記載のモバイルデバイス。
前記しきい値を調整するための前記手段は、前記モバイルデバイス中の加速度センサーおよびロケーションセンサーのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得し、前記入力音ストリームと前記データとに基づいて、前記モバイルデバイスの前記コンテキストを車両の中にあると識別するための手段を備える、請求項２９に記載のモバイルデバイス。
前記しきい値を調整するための前記手段は、前記モバイルデバイスのステータス情報を取得し、前記ステータス情報に基づいて前記モバイルデバイスの前記コンテキストを識別するための手段を備える、請求項２９に記載のモバイルデバイス。
前記ステータス情報は、アイドル状態からアクティブ状態への前記モバイルデバイス中のプロセッサの動作ステータスの変化を示す、請求項３３に記載のモバイルデバイス。
前記プロセッサの前記動作ステータスは、電子メッセージを受信したことに応答して前記アイドル状態から前記アクティブ状態に変化する、請求項３４に記載のモバイルデバイス。
前記プロセッサの前記動作ステータスは、前記モバイルデバイスにおけるアラームイベントに応答して前記アイドル状態から前記アクティブ状態に変化する、請求項３４に記載のモバイルデバイス。
前記しきい値を調整するための前記手段は、前記しきい値を調整した後に予め定められた時間期間が経過したとき、前記しきい値を予め定められたしきい値にセットするように構成された、請求項２９に記載のモバイルデバイス。
前記しきい値を調整するための前記手段は、前記モバイルデバイスの前記コンテキストにおいて前記ボイスアシスタント機能を使用する可能性に基づいて前記しきい値を調整するように構成された、請求項２９に記載のモバイルデバイス。
前記可能性は、前記コンテキストが、前記モバイルデバイスが車両の中にあることを示す場合に高い、請求項３８に記載のモバイルデバイス。
モバイルデバイスにおいてボイスアシスタント機能をアクティブにするための命令を備える非一時的コンピュータ可読記憶媒体であって、前記命令は、前記モバイルデバイスのプロセッサに、
音センサーによって入力音ストリームを受信することと、
前記モバイルデバイスのコンテキストを決定することと、
前記コンテキストに基づいて、前記ボイスアシスタント機能をアクティブにするためのしきい値を調整することと、
前記調整されたしきい値に基づいて前記入力音ストリームからターゲットキーワードを検出することと、
前記ターゲットキーワードが検出された場合、前記ボイスアシスタント機能をアクティブにすることと、
のオペレーションを実行させる、非一時的コンピュータ可読記憶媒体。
前記モバイルデバイスの前記コンテキストを決定することは、前記入力音ストリームに基づいて前記モバイルデバイスの前記コンテキストを識別することを備える、請求項４０に記載の媒体。
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイス中の加速度センサー、ロケーションセンサー、照明センサー、近接度センサー、クロックユニット、およびカレンダーユニットのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得することと、
前記データに基づいて前記モバイルデバイスの前記コンテキストを識別することと、
を備える、請求項４０に記載の媒体。
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイス中の加速度センサーおよびロケーションセンサーのうちの少なくとも１つから、前記モバイルデバイスの前記コンテキストを示すデータを取得することと、
前記入力音ストリームと前記データとに基づいて、前記モバイルデバイスの前記コンテキストを車両の中にあるとして識別することと、
を備える、請求項４０に記載の媒体。
前記モバイルデバイスの前記コンテキストを決定することは、
前記モバイルデバイスのステータス情報を取得することと、
前記ステータス情報に基づいて前記モバイルデバイスの前記コンテキストを識別することと、
を備える、請求項４０に記載の媒体。
前記ステータス情報は、アイドル状態からアクティブ状態への前記モバイルデバイスの前記プロセッサの動作ステータスの変化を示す、請求項４４に記載の媒体。
前記プロセッサの前記動作ステータスは、電子メッセージを受信したことに応答して前記アイドル状態から前記アクティブ状態に変化する、請求項４５に記載の媒体。
前記プロセッサの前記動作ステータスは、前記モバイルデバイスにおけるアラームイベントに応答して前記アイドル状態から前記アクティブ状態に変化する、請求項４５に記載の媒体。
前記オペレーションは、前記しきい値を調整した後に予め定められた時間期間が経過したとき、前記しきい値を予め定められたしきい値にセットすることをさらに備える、請求項４０に記載の媒体。
前記しきい値を調整することは、前記モバイルデバイスの前記コンテキストにおいて前記ボイスアシスタント機能を使用する可能性に基づいて前記しきい値を調整することを備える、請求項４０に記載の媒体。
前記可能性は、前記コンテキストが、前記モバイルデバイスが車両の中にあることを示す場合に高い、請求項４９に記載の媒体。