JP6028111B2 - ハイブリッド性能スケーリングまたは音声認識 - Google Patents

ハイブリッド性能スケーリングまたは音声認識 Download PDF

Info

Publication number
JP6028111B2
JP6028111B2 JP2015558202A JP2015558202A JP6028111B2 JP 6028111 B2 JP6028111 B2 JP 6028111B2 JP 2015558202 A JP2015558202 A JP 2015558202A JP 2015558202 A JP2015558202 A JP 2015558202A JP 6028111 B2 JP6028111 B2 JP 6028111B2
Authority
JP
Japan
Prior art keywords
processor
generating
client device
tactile
power state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015558202A
Other languages
English (en)
Other versions
JP2016516225A (ja
Inventor
マリンソン、ドミニク、エス.
チェン、ルーシン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2016516225A publication Critical patent/JP2016516225A/ja
Application granted granted Critical
Publication of JP6028111B2 publication Critical patent/JP6028111B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3293Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)
  • Power Sources (AREA)

Description

関連出願の相互参照
本願は、2013年2月20日に出願された米国仮特許出願第61/767,065号の優先利益を主張するものであり、そのすべての開示内容は参照することによって本願に組み込まれる。
本願は、2013年3月8日に出願された米国仮特許出願第13/791,716号の優先利益を主張するものであり、そのすべての開示内容は参照することによって本願に組み込まれる。
本開示の態様は、低電力環境における音声及びジェスチャ認識の使用に関する。
コンピュータ、テレビ、ゲーム機、及びステレオシステムなどの、しかしそれに限定されない多くの電子装置は、使用しないときのエネルギ消費量を減らすために、低電力状態を利用する。低電力状態は、不必要なサブシステムへの電力を遮断し、ランダムアクセスメモリ(RAM)を、そのデータの保持に十分なだけの最小電力状態にすることによって、電子装置の電力消費を減らすことができる。各サブシステムの状態情報は、RAMに格納される。したがって、電子装置が低電力状態から復帰すると、装置は、低電力モードの開始前に実行していたアプリケーションを再起動またはロードする必要なく、再びすぐに使用する準備ができる。S3スリープ状態などの低電力状態は、「Advanced Configuration and Power Interface Specification」,Hewlett−Packard Corp.et al.,Revision 4.0a,April 2005に、より詳細に記載されており、参照することによって本明細書に組み込まれる。
しかし、一度低電力状態に移行すると、装置は一般的に、電子装置を「起動」し、通常の全電力状態に戻すために、積極的な触覚入力を必要とする。一実施例として、積極的な触覚入力は、電源ボタンを押すこと、あるいは、キーボードのキーまたはリモコンのボタンを叩くことを含んでもよい。低電力状態において処理能力は非常に低下しているため、電子装置を通常の動作状態に復帰させるためには、積極的な触覚入力が必要である。音声または視覚的なキューなどの代替の入力は選択肢となっていないが、それは、複雑な音声及びジェスチャ認識が、電子装置を起動するための積極的な要求の信頼性の高い指示として機能するには余りに多くのCPUサイクルを必要とするためである。よって、使用者が電子装置を低電力状態から起動したい場合、使用者は電子装置または電子装置のリモコンに物理的に触れなければならない。電子装置が部屋の反対側に配置されており、リモコンを紛失した場合、使用者は電子装置を作動させるために、部屋の反対側に移動する追加の物理的な動作をしなければならない。
したがって、電子装置またはリモコンへの物理的な接触を必要としない入力により電子装置を低電力状態から起動可能とすることによって、使用者の負担を減らすシステム及び方法が、当該技術分野において必要とされている。
このようにして、本開示の態様が生じる。
本発明の教示は、添付図面とともに以下の詳細な説明を考慮することによって、容易に理解できる。
図1は、本開示の態様による、ネットワーク上で通信するクライアント装置プラットフォーム及びクラウドベースサーバの概略図である。 図2は、本開示の態様による、クライアント装置プラットフォームが低電力状態である間の動作の実行方法を示すフローチャートである。 図3は、本開示の付加的な態様による、クライアント装置プラットフォームが低電力状態である間の動作の実行方法を示すフローチャートである。 図4は、本開示の態様による、クライアント装置プラットフォームが低電力状態である間の動作の実行のための指示を説明する図である。 図5は、本開示の付加的な態様による、クライアント装置プラットフォームが低電力状態である間の動作の実行のための指示を説明する図である。
以下の詳細な説明は例示のために多くの特定の詳細を含むが、当業者であれば、以下の詳細に対する多くの変形及び変更が本発明の範囲内であると理解するであろう。したがって、下記の本発明の例示的な実施形態は、本発明の特許請求の範囲に対していかなる普遍性も失うことなく、かつ規制を加えることもなく述べられる。
本開示の態様は、非触覚入力を使って低電力状態であるクライアント装置プラットフォームで動作を実行するシステム及び方法を説明する。本明細書で使用される場合、用語「非触覚入力」は、通常、使用者が入力装置によって物理的接触をする必要がない入力を指す。このような非触覚入力の実施例は、たとえばマイクによって受けることができる音声入力、及び、たとえば光学センサまたは画像キャプチャ装置によって受けることができる光入力を含むが、これに限定されるものではない。その他の種類の「非触覚」入力は、匂いセンサ、赤外線センサ、超音波センサ、静電容量感知、動きセンサ、及びレーダセンサを含むが、これに限定されるものではない。
クライアント装置プラットフォームにおいて、低電力状態は、少なくとも1つの低電力プロセッサ、1つまたは複数のセンサ、及び1つの低電力メモリに電力を提供することを備えてもよい。1つまたは複数のセンサは、非触覚入力を記録してもよく、それらを低電力メモリに格納してもよい。低電力プロセッサは、記録された非触覚入力の第1の分析を実行するように構成される。第1の分析は、記録された非触覚入力が第1の基準入力と一致する入力である可能性を示す第1の信頼性スコアを提供してもよい。信頼性スコアが第1の閾値より大きい場合、低電力プロセッサはクライアント装置プラットフォームに中間電力状態を開始するように指示してもよい。中間電力状態は、第2のプロセッサに電力を提供することを備えてもよい。第2のプロセッサは、低電力プロセッサより多くのCPUサイクルを有するが、クライアント装置プラットフォームが全電力状態で動作しているときよりは、有するCPUサイクルは少ない。
第2のプロセッサが起動すると、それは非触覚入力を第1の基準刺激と比較する第2の分析を行ってもよい。第2の分析は付加的なCPUサイクルで行われるため、それは非触覚入力が第1の基準信号と一致するかどうかのより正確な予測を提供することが可能である。第2の信頼値は、第2の分析によって決定される。第2の信頼性スコアが第2の閾値より大きい場合、第2のプロセッサは、クライアント装置プラットフォームに1つまたは複数の動作を実行するように指示するコマンド信号を生成してもよい。1つまたは複数の動作のそれぞれは、特定の第1の基準信号と関連してもよい。一実施例であり、これに限定されるものではないが、第1の基準信号がフレーズ「Device On」である場合、第1の基準信号と関連する動作は、クライアント装置プラットフォームに全電力状態を開始させてもよい。したがって、基準入力「device on」と比較したとき、非触覚入力が第2の閾値レベルより大きい第2の信頼性スコアを有する場合、クライアント装置プラットフォームが全電力状態を開始する動作を実行するように、クライアント装置プラットフォームに指示するコマンド信号が生成されてもよい。
本開示の付加的な態様によると、第1の分析は第1の基準信号から行われてもよく、第2の分析は第2の基準信号から行われてもよい。第1の基準信号は、第2の基準信号より短くてもよい。したがって、信号を分析するために低電力メモリに格納される必要があるデータは、より少なくてよい。一実施例であり、これに限定されるものではないが、第1の基準信号は、人声が検出されたかどうか、または、「device on」などの短いフレーズが使用者によって話されたかどうかを判定するために使用されてもよい。第2の基準信号はより長くてもよく、より複雑な動作と関連させてもよい。一実施例として、第2の基準信号は、人声がフレーズ「device on − play video game one」と話したかどうかを判定するために使用されてもよい。そのフレーズが十分に高い第2の信頼値で一致する場合、クライアント装置プラットフォームでの全電力状態の開始、及び、使用者が遊ぶ準備ができているようにするためのビデオゲーム1のロードなどの、より複雑な動作を実行するように、クライアント装置プラットフォームに指示するコマンド信号が生成されてもよい。
本開示の付加的な態様によると、第2の分析は、クラウドベースサーバに実装されてもよい。第1の分析が第1の閾値より大きい第1の信頼性スコアを生成するとき、クライアント装置プラットフォームは非触覚入力をネットワーク上のクラウドベースサーバに配送してもよい。次に、第2の分析がクラウドベースサーバで行われる。第2の分析が第2の閾値より高い第2の信頼性スコアを生成する場合、クラウドベースサーバは、基準信号と関連する1つまたは複数の動作を実行するように指示するコマンドをネットワーク上のクライアント装置プラットフォームに送り返してもよい。
図1は、本開示の態様による、クライアント装置プラットフォーム105とクラウドベースサーバ106との間の対話処理を示す概略図である。クラウドベースサーバ106は、ネットワーク160上でクライアント装置プラットフォーム105によってアクセスされてもよい。
クライアント装置プラットフォーム105は、中央処理装置(CPU)131を含んでもよい。一実施例として、CPU131は、1つまたは複数のプロセッサを含んでもよく、それは、たとえば、デュアルコア、クアッドコア、マルチコア、またはCellプロセッサアーキテクチャによって構成されてもよい。クライアント装置プラットフォーム105はメモリ132(たとえば、RAM、DRAM、ROMなど)も含んでもよい。CPU131は、プロセス制御プログラム133を実行してもよく、それらの部分はメモリ132に格納されてもよい。クライアント装置プラットフォーム105は、入出力(I/O)回路141などの既知のサポート回路140、電源(P/S)142、クロック(CLK)143、及びキャッシュ144も含んでもよい。クライアント装置プラットフォーム105は、プログラム及び/またはデータを格納するための大容量記憶装置134、たとえばディスクドライブ、CD−ROMドライブ、テープ装置などを任意選択的に含んでもよい。クライアント装置プラットフォーム105は、ディスプレイ装置137も任意選択的に含んでもよい。ディスプレイ装置137は、テキスト、数字、またはグラフィカルシンボルを表示するブラウン管(CRT)またはフラットパネルスクリーンの形態でもよい。コントローラ145は、I/O回路141経由でクライアント装置プラットフォーム105に連結されてもよく、または、クライアント装置プラットフォーム105に直接組み込まれてもよい。コントローラ145は、クライアント装置プラットフォーム105と使用者との間の対話処理を容易にしてもよい。コントローラ145は、キーボード、マウス、ジョイスティック、ライトペン、ハンドヘルドコントロール、またはその他の装置を含んでもよい。1つまたは複数のセンサ146も、I/O回路141経由でクライアント装置プラットフォーム105に連結されてもよく、または、クライアント装置プラットフォーム105に直接組み込まれてもよい。一実施例であり、これに限定されるものではないが、センサ146は、マイク、ビデオカメラ、赤外線カメラ、テラヘルツセンサ、または任意のその他の検出装置でもよい。クライアント装置プラットフォームは、低電力プロセッサ147及び低電力メモリ148を有してもよい。クライアント装置プラットフォーム105がスリープ状態などの低電力状態であるとき、低電力プロセッサ147及び低電力メモリは動作してもよい。低電力プロセッサ147は、低電力状態の間、電力消費を最小化するために、最小の処理能力のみ有するシングルコアプロセッサでもよい。一実施例として、低電力プロセッサ147は、ARMプロセッサでもよい。あるいは、低電力プロセッサ147は、1つまたは複数のコアのマルチコアCPU131でもよい。さらに、低電力メモリ148は、電力の消費を最小化するために、十分に小さくてもよい。クライアント装置プラットフォーム105は、Wi−Fi、イーサネット(登録商標)ポート、またはその他の通信方式の使用を可能とするように構成されるネットワークインタフェース139を含んでもよい。
ネットワークインタフェース139は、電子通信ネットワーク160経由の通信を容易にするために、好適なハードウェア、ソフトウェア、ファームウェア、またはそれらの2つ以上の組合せを組み込んでもよい。ネットワークインタフェース139は、ローカルエリアネットワーク及びインターネットなどのワイドエリアネットワーク上の有線または無線通信を実装するように構成されてもよい。クライアント装置プラットフォーム105は、ネットワーク160上で、1つまたは複数のデータパケットによってファイルのデータ及び/または要求を送受信してもよい。
上記のコンポーネントは、内部システムバス150経由で互いに信号をやりとりしてもよい。クライアント装置プラットフォーム105は、本明細書に記載されるような本発明の実施形態を実装するコードを実行するときに専用コンピュータになる汎用コンピュータでもよい。一実施例であり、これに限定されるものではないが、クライアント装置プラットフォーム105は、Sony Computer EntertainmentのPlayStation3などのゲーム機、ホームエンタテインメントシステム、テレビ、オーディオシステム、または任意のその他の同様の装置でもよい。
クラウドベースサーバ106は、中央処理装置(CPU)131’を含んでもよい。一実施例として、CPU131’は、1つまたは複数のプロセッサを含んでもよく、それは、たとえば、デュアルコア、クアッドコア、マルチコア、またはCellプロセッサアーキテクチャによって構成されてもよい。クラウドベースサーバ106はメモリ132’(たとえば、RAM、DRAM、ROMなど)も含んでもよい。CPU131’は、プロセス制御プログラム133’を実行してもよく、それらの部分はメモリ132’に格納されてもよい。クラウドベースサーバ106は、Wi−Fi、イーサネットポート、またはその他の通信方式の使用を可能とするように構成されるネットワークインタフェース139’を含んでもよい。ネットワークインタフェース139’は、電子通信ネットワーク160経由の通信を容易にするために、好適なハードウェア、ソフトウェア、ファームウェア、またはそれらの2つ以上の組合せを組み込んでもよい。ネットワークインタフェース139’は、ローカルエリアネットワーク及びインターネットなどのワイドエリアネットワーク上の有線または無線通信を実装するように構成されてもよい。クラウドベースサーバ106は、ネットワーク160上で、1つまたは複数のデータパケットによってファイルのデータ及び/または要求を送受信してもよい。一実施例であり、これに限定されるものではないが、クラウドベースサーバは、Amazon Web Servicesから利用可能なAmazon Elastic Compute Cloudでもよい。
図2は、本開示の態様による、クライアント装置プラットフォーム105が低電力状態である間に、クライアント装置プラットフォーム105によって検出される非触覚入力信号によって開始される1つまたは複数の動作を実装する手順を説明するフローチャートである。最初、260で、クライアント装置プラットフォーム105は低電力状態である。低電力状態である間、クライアント装置プラットフォーム105は、これらに限定されないが、低電力プロセッサ147、低電力メモリ148、ネットワークインタフェース139、I/O回路141、コントローラ145、及び/または1つまたは複数のセンサ146などのコンポーネントに、電力を提供していてもよい。I/O回路141は一般的にサウスブリッジに配置されるため、上述のコンポーネントの多くが同様にサウスブリッジに配置されるように、クライアント装置プラットフォーム105を設計することが望ましくてもよい。一実施例として、低電力状態は、Advanced Configuration and Power Interface Specificationで説明されるS3スリープ状態などのスリープ状態または待機状態でもよい。
低電力状態である間、クライアント装置プラットフォーム105は、ブロック261に示されるように、非触覚入力を1つまたは複数のセンサ146で連続的に記録してもよく、そして、低電力メモリ148などの空きメモリにそれらを保存してもよい。一実施例であり、これに限定されるものではないが、1つまたは複数のセンサ146は、マイク、ビデオカメラ、赤外線カメラ、テラヘルツセンサ、またはその任意の組合せを備えてもよい。1つまたは複数のセンサ146で記録される非触覚入力の種類は、使用されているセンサ146の種類に依存する。一実施例として、センサ146がマイクである場合、非触覚入力は周囲音の記録でもよい。センサ146がビデオカメラである場合、非触覚入力はクライアント装置プラットフォーム105に近接する空間の映像記録でもよい。センサ146が赤外線カメラである場合、非触覚入力はクライアント装置プラットフォーム105に近接する空間で記録される赤外線情報でもよい。または、センサ146がテラヘルツセンサである場合、非触覚入力はクライアント装置プラットフォーム105に近接する空間で記録されるテラヘルツ情報でもよい。入力は異なる種類の入力の組合せである可能性があり、上述の実施例の組合せを含むことに留意されたい。
いくつかの実施形態において、センサ146は、直接、低電力CPU147にも連結されてもよいが、それは、低電力モードにおいて、低電力CPUが計算を行い、ネットワークアクセスを制御してもよいためである。
非触覚入力を格納するために必要なメモリ容量を最小化するために、非触覚入力は、使用者が所望の動作を開始する基準信号に対応する非触覚入力を生成するためにかかってもよい最も長い期待時間に一致する期間を有する、低電力メモリ148上のリングバッファに格納されてもよい。低電力メモリ148に格納される1つまたは複数の基準信号があってもよい。それぞれの基準信号は、1つまたは複数の動作と関連してもよい。一実施例であり、これに限定されるものではないが、基準入力は、クライアント装置プラットフォーム105を低電力状態から起動し、全電力状態を開始する動作に順番に対応するフレーズ「Device On」を含んでもよい。
低電力CPU147上のソフトウェアは、センサデータを処理してもよく、そして、さらなる処理のためのメインCPU133またはネットワークCPU131での将来の使用に適切な小型のより小さい記憶方法で、それを保存してもよい。基準信号自体が低電力メモリに格納される必要はない。
音声認識のための基準入力は、多くの方法で行われる可能性がある。純粋なテキストは1つの可能な方法であるが、機械処理及び音声表示への変換が必要であるため、おそらく、最も信頼性が高いわけではない。一般的な単語については、英語テキストの音声への変換は許容可能とすることができるが、辞書にない単語は正確でない可能性がある。音声表示は、コンピュータ可読音声スクリプトの形態で直接使用されてもよい。コンピュータ可読音声スクリプトの実施例は、Speech Assessment Methods Phonetic Alphabet(SAMPA)、及び、Extended Speech Assessment Methods Phonetic Alphabet(X−SAMPA)を含む。SAMPA及びX−SAMPAは、国際音声記号(IPA)に基づく、コンピュータ画面上に表示可能な7ビットASCII文字を使用する。フレーズを音素に分割する代わりに、全フレーズを使用する認識装置を調整することも可能である。そのような場合、調整は、異なる話者及び単一の音声記録でない多くのサンプルで行われてもよい。調整の結果は、隠れマルコフモデルまたは場合によってはニューラルネットワークなどの、一種のクラシファイアである。結論としては、これを行うための方法が、音声認識の領域内には多くあるということである。
非触覚入力が基準信号と十分に同様であると判定されると、クライアント装置プラットフォーム105に基準信号に対応する動作を実行させるコマンド信号が生成される。さらに、記録された非触覚入力の忠実性を犠牲にすることによって、必要なメモリ容量を減らしてもよいが、非触覚入力の高精度な分析を可能とするために、後続の処理ステップの間、忠実性は十分に高く維持されなければならないことに留意されたい。非触覚入力が記録されると、それらは、低電力状態のクライアント装置プラットフォーム105にアクセス可能なメモリ上に格納される1つまたは複数の基準入力と一致するかどうかを判定するために、1つまたは複数の分析により分析される。
低電力プロセッサ147は、ブロック262に示されるように、第1の信頼性スコアを生成するために、低電力メモリ148に格納された非触覚入力に対する第1の分析を実装してもよい。第1の分析は、第1の信頼性スコアを生成するために使用される1つまたは複数のアルゴリズムを用いることによって、実装されてもよい。第1の信頼性スコアは、記録された非触覚入力と低電力メモリ148に格納される1つまたは複数の基準入力との間の類似度に対応する。一実施例であり、これに限定されるものではないが、第1の信頼性スコアは、0.0と1.0との間で変動してもよい。0.0のスコアは、記録された非触覚入力が基準信号の1つと同じである可能性がほぼ0パーセントであることを示す。1.0のスコアは、非触覚入力が基準信号の1つと同じである可能性がほぼ100パーセントであることを示す。第1の分析のために使用されるアルゴリズムは、記録された非触覚入力の種類(または、複数の種類)に依存してもよい。一実施例として、記録された非触覚入力が音声データである場合、アルゴリズムは、音声区間検出(VAD)アルゴリズム、または単純な自動音声認識(ASR)アルゴリズムを利用してもよい。あるいは、記録された非触覚入力がビデオデータである場合、アルゴリズムは、物体認識またはジェスチャ認識アルゴリズムを利用してもよい。一実施例であり、これに限定されるものではないが、非常に単純な信頼性基準は、動き検出の実施、たとえば、動き検出センサからの出力を分析してから、複雑な物体認識に着手することにより実装されてもよい。
第1の信頼性スコアが算出されると、手順200は、第1の信頼性スコアが第1の閾値より大きいかどうかをプロセッサが判定する判定ブロック263に進む。次の処理ステップに配送される誤判定が最も少なくなるように、第1の閾値は十分に高く設定されなければならない。第1の信頼性スコアが第1の閾値レベルより下の場合、手順200はブロック261に記載されるように非触覚入力の記録を続けてもよい。第1の信頼性スコアが第1の閾値レベル以上である場合、手順200はブロック264に進み、低電力プロセッサ147は中間電力状態を開始する。
本開示の態様によると、センサ146はマイクでもよく、第1の信頼性スコアはVADアルゴリズムで生成されてもよい。VADアルゴリズムは、記録された非触覚入力における人声の有無を判定するために使用されてもよい。VADアルゴリズムの使用は、ブロック262で第1の信頼性スコアを生成するために適切であるが、これは、非触覚入力が人声を含まない場合、人がクライアント装置プラットフォーム105上で積極的に動作を開始しようとしている可能性は低いためである。したがって、このVADアルゴリズムの使用は、人声が存在しないことが分かっている音声データの過剰な分析を防止するため、望ましいことである。さらに、VADアルゴリズムは、比較的少ないCPUサイクル及び記録されたメモリバッファのより少ないサンプリングを必要とする。また、VADアルゴリズムだけの使用は、第1の基準信号の収納のために必要とされるデータ記憶空間を減らすが、これは、話されている実際の単語の代わりに、音声の有無が必要とされるすべてであるためである。よって、低電力状態である間にVADアルゴリズムを実行することは、クライアント装置プラットフォーム105に実質的に負担をかけない。さらに、VADアルゴリズムは、低電力プロセッサ147に組み込まれる、または、それに加えて提供されるカスタムASICとして実装されてもよい。記録された非触覚入力に人声が存在しない場合、それは0.0の第1の信頼性スコアを割り当てられてもよく、したがって、第1の閾値レベルより下であってもよい。よって、手順200はブロック261に戻り、非触覚入力の記録を続ける。記録された非触覚入力に人声が存在する場合、それは1.0の第1の信頼性スコアを割り当てられてもよく、したがって、第1の閾値レベルより大きくてもよい。次に、手順200は、低電力プロセッサがクライアント装置プラットフォーム105に中間電力状態を開始するように指示し、それに従って進行するブロック264に進んでもよい。
しかし、本開示の付加的な態様によると、第1の信頼性スコアは、1つまたは複数の付加的なアルゴリズムを用いることにより洗練されていてもよい。これにより、ブロック264に進むことが可能とされる多数の誤判定を減らすことができる。一実施例であり、これに限定されるものではないが、検出された人声が、1つまたは複数の第1の基準信号と同様の単語を生成しているかどうか検出するために、クライアント装置プラットフォーム105はVADアルゴリズムに加えて単純なASRアルゴリズムも利用してもよい。あるいは、ASRアルゴリズムを、VADアルゴリズムの代わりに使用してもよい。
隠れマルコフモデル(HMM)を利用するもの、及び音または聴覚注意キューを利用しないものなどの単純なASRアルゴリズムは、最小数のCPUサイクルのみ必要とし、低電力プロセッサ147で実行されてもよい。ASRアルゴリズムは話された単語を判定することが可能であるため、再符号化された非触覚入力において話される実際の単語を、基準入力の単語と比較することが可能である。したがって、第1の信頼性スコアは、0.0及び1.0の両極値に制限される代わりに、0.0〜1.0の間で変動する記録された非触覚入力に割り当てられてもよい。
代替の実施形態において、特定の単語または感情検出だけのための単純なキーワードスポッティングアルゴリズムは、話者認識またはニューラルネットワークまたは機械学習技術と組み合わせて、または、組み合わせずに使用されてもよい。
VAD自体はバイナリである必要がなく、0.0と1.0との間の連続的な範囲にある、いくつかの信頼度を有してもよいことに留意されたい。人声と同様の楽器などのいくつかのノイズは、VADに中間信頼水準を与えさせることがある。二値選択(音声または無音声)をするために適用される閾値がまだあるが、VAD自体は、より連続的な応答を生成してもよい。
第1の信頼性スコアが割り当てられると、手順200はブロック263に進んでもよく、そこで、低電力プロセッサは、第1の信頼性スコアが第1の閾値レベルの上または下にあり、それに応じて進めるかどうかを判定する。
本開示の付加的な態様によると、センサ146はビデオカメラでもよく、ブロック262での第1の信頼性スコアの生成は、人がクライアント装置プラットフォームの近くに存在するかどうかを検出する物体認識アルゴリズムを利用してもよい。ビデオデータに存在する人の画像がない場合、非触覚入力は0.0の第1の信頼性スコアを割り当てられてもよく、存在する人がある場合、第1の信頼性スコアは1.0でもよい。物体検出アルゴリズム自体はバイナリである必要がなく、0.0と1.0との間の連続的な範囲にある、いくつかの信頼度を有してもよいことに留意されたい。人声と同様の楽器などのいくつかのノイズは、VADに中間信頼水準を与えさせることがある。二値選択(音声または無音声)をするために適用される閾値がまだあるが、VAD自体は、より連続的な応答を生成してもよい。さらに、第1の信頼性スコアは、ビデオデータを、物理的な動作を説明する基準入力と比較することによって洗練されてもよい。一実施例として、基準入力は人に実行される明確なジェスチャでもよく、たとえば、それに限定されないが、人が自身の顔の前で手を振ることでもよい。次に、ジェスチャ認識アルゴリズムは、顔の前で動く手の所望の動きがビデオカメラで記録されたかどうかの判定に使用されてもよい。次に、記録された非触覚入力と基準信号との類似点は、0.0及び1.0の両極値に限定されない第1の信頼性スコアを生成するために使用されてもよい。したがって、手順において誤判定がブロック263を越えて進むことはほとんどない。
本開示の別の付加的な態様によると、二つ以上のセンサ146は、第1の信頼性スコアを生成するために別々の基準信号と両方比較されてもよい異なる種類の非触覚入力を記録するために利用されてもよい。一実施例であり、これに限定されるものではないが、第1のセンサ146はマイクでもよく、第2のセンサ146はビデオカメラでもよい。音声データは、第1の非触覚入力として記録されてもよく、VADアルゴリズム、キーワードスポッティングアルゴリズム、単純なASRアルゴリズム、または、これらの2つ以上のいくつかの組合せによって、その後分析されてもよい。音声分析は、第1の音声信頼性スコアを生成してもよい。さらに、ビデオデータは、第2の非触覚入力として記録されてもよく、物体認識アルゴリズム、ジェスチャ認識アルゴリズム、またはその両方によって、その後分析されてもよい。ビデオ分析は、第1の映像信頼性スコアを生成してもよい。次に、第1の信頼性スコアは、第1の音声信頼性スコアと第1の映像信頼性スコアとの組合せでもよい。一実施例として、それぞれに与えられている同じ重みで、または、他方より重みをつけられている1つのスコアで、2つのスコアは平均されてもよい。2つのスコアの組合せは、使用者がクライアント装置プラットフォーム105上で所望の動作を積極的に開始したかったかどうかの、より信頼できる判定を提供してもよい。たとえば、非触覚音声入力は、次の処理ステップへ進むだけ十分に高い信頼性スコアを有し得るが、非触覚ビデオデータは、クライアント装置プラットフォーム105の近くに人がいないことを明らかにし得る。よって、非触覚音声入力は、ラジオまたはテレビなどのソースによって生成され得、したがって、誤判定となり得る。一実施例であり、これに限定されるものではないが、同様の組み合わせた第1の信頼性スコアは、それらに限定されないが、赤外線センサ、テラヘルツセンサ、ビデオカメラ、またはマイクなどのセンサで記録される2つ以上の第1の非触覚入力を用いることにより算出されてもよい。
本開示の付加的な態様によると、第1の信頼性スコアが第1の閾値レベルより下の場合、次に、記録された非触覚入力がクライアント装置プラットフォーム上で動作を開始する積極的な要求でなかったという判定は、チャレンジ手順を用いることにより再確認されてもよい。余りに多くの項目が第1の信頼性スコアの役に立たないことがあること留意されたい。たとえば、音声の場合、ほぼすべてのノイズが、当然のように役に立たないと思われてもよい。これを考慮するために、チャレンジレスポンスは、より高い信頼性スコアまたは閾値でゲート制御されてもよい。第1の信頼性基準が0.0と1.0との間で連続的である場合、次に、その範囲は、拒絶、チャレンジ、及び承認の範囲に分割される可能性がある。たとえば、0.0〜0.5は拒絶され、0.5〜0.75はチャレンジレスポンスを要求してもよく、0.75〜1.0は常に次のレベルに承認される。
チャレンジ手順は、非触覚入力が記録されたとき、人が検出可能な信号を出力するように構成されるクライアント装置プラットフォーム105が実装されてもよい。次に、使用者は、クライアント装置プラットフォーム105によって出力される信号を知覚してもよく、それらがクライアント装置プラットフォーム105上で動作を開始することを意図されて行ったことを確認する非触覚レスポンス入力を提供してもよい。一実施例であり、これに限定されるものではないが、人が検出可能な出力信号は、クライアント装置プラットフォーム105に配置される点滅発光ダイオード(LED)、または、クライアント装置プラットフォーム105が発するビープ音などの可聴音でもよい。非触覚レスポンス入力は、元の非触覚入力を繰り返してもよく、あるいは、それは確認フレーズまたはジェスチャ、たとえば、「yes」と言うこと、または、「yes」を示すために頭を上下に振ること、または、フレーズとジェスチャとの組合せでもよい。クライアント装置プラットフォームが有効なレスポンス入力を受ける場合、第1の信頼性スコアをオーバーライドし、手順200のブロック264に進んでもよい。チャレンジシステムの使用により、システムの精度を改善してもよい。低電力状態である間、記録された非触覚入力が、第1の閾値より大きい第1の信頼性スコアを割り当てられる基準入力に実質的に十分に同様であるという、十分な信頼性を提供するのに十分なCPUサイクルにはできない。しかし、チャレンジ手順によって、使用者が要求した動作であるという信頼性は、特別なCPUサイクルを追加することなく増加させることができる。使用者による積極的なレスポンスは、クライアント装置プラットフォーム105に、いくつかの動作が実行されることを意図したことを示す。したがって、再符号化された非触覚入力は、特定の動作が意図されたかについて判定するための中間電力状態でのさらなる分析のために伝えられてもよい。
一実施例として、ブロック264で開始される中間電力状態は、クライアント装置プラットフォーム105に、CPU131の一部に電力を提供し始めるように指示することを含んでもよく、メモリ132などのより大きいメモリへのアクセスを可能にしてもよい。CPU131の一部は、CPU131において1つ以上の複数の処理コアを起動することによる提供された電力でもよい。ディスプレイ137またはGPUなどの、クライアント装置プラットフォームのその他の部分は、エネルギを節約するために無給電のままでもよい。CPU131の一部の起動により、記録された非触覚入力のより詳細な分析のために使用されてもよい付加的なCPUサイクルが提供される。
中間電力状態が開始されたあと、手順200は第2の信頼性スコアが生成されるブロック265に進む。の1つの実施例は、最初、音声のみが低電力モードで処理されるということである可能性がある。中間電力状態の後、映像及び音声データは、CPU131で処理されてもよく、または、データのより多くの入力によるさらなる処理のためにCPU131’に送られてもよい。信頼性スコアは、すべてのデータに基づいて算出される可能性がある。第2の信頼性スコアは、中間電力状態でクライアント装置プラットフォーム105にアクセス可能でもよいより大きいメモリに格納される、記録された非触覚入力と1つまたは複数の第2の基準入力との間の類似度に対応する。第2の基準信号は第1の基準信号と同じでもよく、また、余りに多くの空間を占める付加的な基準信号を含んでもよく、したがって、低電力状態で利用可能な制限されたメモリに格納されなくてもよい。たとえば、低電力メモリ148に格納されてもよい基準信号「Device On」に加えて、「device on − play video game one」などのより長い基準入力が中間電力状態でアクセス可能でもよい。よって、より複雑な動作、たとえば低電力状態からクライアント装置プラットフォーム105を十二分に簡単に呼びさます動作に対応する基準信号を有することが、可能でもよい。一実施例であり、これに限定されるものではないが、全電力状態を開始する動作に加えて、また、動作は、クライアント装置プラットフォーム105に、ビデオゲーム、映画、または歌などの特定のメディアタイトルをロードする指示、クライアント装置プラットフォーム105を所望の入力、またはチャンネル、またはその任意の組合せに合わせる指示を含んでもよい。さらにまた、中間電力状態のメモリ空間及び処理能力の増加分により、アルゴリズムが特定の個人の声または顔を識別するために調整されることを可能としてもよい。これは、クライアント装置プラットフォーム105に、識別された個人と関連する設定をロードするように指示する付加的な動作を実行するために使用されてもよいため、有益であることがある。一実施例であり、これに限定されるものではないが、設定は、所望の音量レベル、表示設定、ログインプロファイル、またはその任意の組合せを含んでもよい。
第2の信頼性スコアは、1つまたは複数の付加的なアルゴリズムを用いることにより生成されてもよい。利用可能なより多くのCPUサイクルがあるため、これらのアルゴリズムはより強力でもよく、記録された非触覚入力のより多くの詳細分析が可能でもよい。一実施例であり、これに限定されるものではないが、記録された非触覚入力が音声データである場合、第2の信頼性スコアは、聴覚注意キューの使用を組み込んでもよいものなどの高品質ASRにより、または、記録された音声を音素に分割することによって、または、低電力モードにおける単一のチャンネルデータの代わりにマルチチャンネルデータの配列及びAECを使用することによって、生成されてもよい。記録された非触覚入力がビデオデータである場合、第2の信頼性スコアは、顔認識アルゴリズムまたは高度ジェスチャ認識アルゴリズムを用いることにより生成されてもよい。さらに、記録された非触覚が音声及びビデオデータを含む場合、より正確に非触覚入力を分析するために、視聴覚音声認識(AVSR)アルゴリズムを、高度ASRアルゴリズムと組み合わせて使用してもよい。信頼性スコアを改善するために中間電力状態において使用されてもよいその他の方法には、これらに限定されないが、音声話者認識、読唇術、ジェスチャ認識、使用される可能性のある感情認識、音イベント検出(たとえば、拍手、ガラス割れ、ノック、足音など)が含まれる。
第2の信頼性スコアが生成されたあと、手順200は判定ブロック266に進んでもよい。ブロック266で、クライアント装置プラットフォームは、第2の信頼性スコアが第2の閾値レベルより大きいかどうか判定してもよい。第2の信頼性スコアが第2の閾値レベルより下の場合、手順200は、ブロック267で示されるように低電力状態に戻り、ブロック261での非触覚入力の記録に進む。第2の信頼性スコアが第2の閾値レベル以上である場合、手順200はブロック267に進み、ここで、クライアント装置プラットフォーム105に、1つまたは複数の記録された非触覚入力と一致した基準信号と関連する1つまたは複数の動作を実行するように指示するコマンド信号が生成される。
本開示の付加的な態様によると、手順200に中間電力状態が2つ以上組み込まれてもよい。各後続の中間電力状態は、付加的なCPUサイクルに非触覚入力を処理させてもよい。一実施例として、第1の中間電力状態は、複数コアのCPU131の単一のコアを起動することを備えてもよく、第2の中間電力状態は、マルチコアCPU131の1つまたは複数の付加的なコアを起動することを備えてもよい。付加的な中間電力状態は、より高度なアルゴリズムが、後続の信頼性スコアを割り当てる前に使用されることを可能としてもよい。これにより、その他の場合に、クライアント装置プラットフォーム105が誤って動作を開始する多数の誤判定を減らすことができる。
図3は、本開示の追加の態様による、クライアント装置プラットフォーム105が低電力状態である間に、クライアント装置プラットフォーム105により検出される非触覚入力信号によって開始される1つまたは複数の動作を実装する手順300を説明するフローチャートである。判定ブロック363の後まで低電力状態で動作している間は、手順300は手順200と実質的に同じである。第1の信頼性スコアが第1の閾値レベル以上であるとき、低電力プロセッサは、ブロック364で示されるように、記録された非触覚入力をネットワーク160上のクラウドベースサーバ106に配送する。次に、第2の信頼性スコアは、365で、クラウドベースサーバ106によって生成される。クラウドベースサーバ106上のプロセッサ131’は、手順200で説明される第2の信頼性スコアの発生において使用されるものと実質的に同様の方法で、1つまたは複数のアルゴリズムを実装してもよい。クラウドベース上の処理能力を使用することにより、クライアント装置プラットフォーム105は、低電力状態にとどまることによって電力を節約することが可能となる。第2の信頼性スコアを生成するためのクラウドベースサーバ106の使用は、付加的な利益も提供する。そのような利益は、クラウドベースサーバ106上のそのメモリ132’はより大きくてもよく、したがって、より多くの基準入力を保持することができてもよく、それによって、よりより多様な一連の動作を手順300で実装することが可能となることである。さらに、基準信号がクラウドに格納されるため、クラウドベースサーバに連結してもよい各クライアント装置プラットフォーム105が、新しい基準入力を、それらが変更されるたびにダウンロードする必要がないため、それらはより定期的に更新されてもよい。たとえば、他の誰かからのリアルタイムデータは、新しい使用者の性能の改善を支援するために使用される可能性がある。
第2の信頼性スコアが生成されると、手順300は判定ブロック366に進む。第2の信頼性スコアが第2の閾値より下の場合、手順300はブロック361に戻り、非触覚入力の記録を続ける。第2の信頼性スコアが第2の閾値より大きい場合、手順300はブロック367に進む。ブロック367で、クラウドベースサーバ106は、記録された非触覚入力と一致した1つまたは複数の基準入力と関連する1つまたは複数の動作を実行するように指示するクライアント装置プラットフォーム105に、コマンド信号を配送する。
いくつかの実施形態において、信号(たとえば、顔の画像)が、装置の起動が可能かどうかの検証に適切な携帯電話(たとえば、使用者のもの、または親のもの)に送られてもよい。あるいは、このような画像は、家を監視または保護しているセキュリティオペレータに送られてもよい。
図4に示されるように、一連のクライアント装置プラットフォーム指示470は、たとえば、クライアント装置プラットフォーム105によって実装されてもよい。クライアント装置プラットフォーム指示470は、メモリ132、低電力メモリ148、または大容量記憶装置134などの一時的でないコンピュータ可読媒体上に形成されてもよい。また、クライアント装置プラットフォーム指示470は、プロセス制御プログラム133の一部でもよい。指示は、センサ146による非触覚入力の記録、及び471でのそれらのメモリへの保存のための指示を含む。次に472で、第1の信頼性スコアを生成するための指示があってもよい。それ以降は、473で、クライアント装置プラットフォーム105に、第1の信頼性スコアが第1の閾値レベルより大きいかどうかを判定するための指示を提供してもよい。次に、第1の信頼性スコアが第1の閾値レベルより大きいとき、クライアント装置プラットフォームは、474で中間電力状態を開始するように指示されてもよい。中間電力状態において、クライアント装置プラットフォーム105は、475で、第2の信頼性スコアを生成するように指示されてもよい。次に476で、第2の信頼性スコアが第2の閾値レベルより大きいかどうか判定するための指示があってもよい。それ以降は、指示470は、478で、クライアント装置プラットフォーム105に1つまたは複数の動作を実行させるコマンド信号を生成するための指示を含んでもよい。
図5に示すように、一連のクライアント装置プラットフォーム指示570は、たとえば、クライアント装置プラットフォーム105によって実装されてもよい。クライアント装置プラットフォーム指示570は、メモリ132、低電力メモリ148、または大容量記憶装置134などの一時的でないコンピュータ可読媒体上に形成されてもよい。また、クライアント装置プラットフォーム指示570は、プロセス制御プログラム133の一部でもよい。指示は、センサ146による非触覚入力の記録、及び571でのそれらのメモリへの保存のための指示を含む。次に572で、第1の信頼性スコアを生成するための指示があってもよい。それ以降は、573で、クライアント装置プラットフォーム105に、第1の信頼性スコアが第1の閾値レベルより大きいかどうかを判定するための指示を提供してもよい。次に、第1の信頼性スコアが第1の閾値レベルより大きいとき、クライアント装置プラットフォーム105は、574で、ネットワーク160上の外部サーバに記録された非触覚入力を配送するように指示されてもよい。次に指示570は、575で、第2の信頼性スコアを生成するための指示を含んでもよい。次に576で、第2の信頼性スコアが第2の閾値レベルより大きいかどうか判定するための指示があってもよい。それ以降は、指示570は、クライアント装置プラットフォーム105が受け取ったときに、477で、1つまたは複数の動作を実行させるネットワーク160上のクライアント装置プラットフォーム105にコマンド信号を配送するための指示を含んでもよい。
本発明の好ましい実施形態の完全な説明は上記であるが、さまざまな代案、変更及び、均等物を使用することが可能である。したがって、本発明の範囲は、上記の説明に関して決定されるべきではないが、その代わりに、添付の特許請求の範囲に関して、それらの均等物の全範囲とともに、決定されなければならない。好ましいかどうかに関わらず、本明細書に記載される任意の特徴は、好ましいかどうかに関わらず、本明細書に記載される任意のその他の特徴と組み合わせてもよい。以下の特許請求の範囲において、不定冠詞「A」または「An」は、別途明確に記載されない限り、冠詞に続く1つまたは複数のものを指す。添付の特許請求の範囲は、「〜の手段」というフレーズを使用して限定が明示的に記載されていない限り、ミーンズプラスファンクション限定を含むと解釈すべきではない。

Claims (34)

  1. 1つまたは複数のセンサによる、装置への1つまたは複数の非触覚入力を記録することであって、前記1つまたは複数の入力は第1のメモリに記録され、前記装置は電力が第1のプロセッサ及び前記第1のメモリに提供される低電力状態で動作している、記録することと、
    1つまたは複数の第1の信頼性スコアを生成することであって、前記1つまたは複数の第1の信頼性スコアのそれぞれは、対応している記録された非触覚入力と前記第1のメモリに格納される基準入力との間に一定の類似度がある、生成することと、
    前記第1の信頼性スコアが第1の閾値レベルより大きいとき、前記装置の中間電力状態を開始することであって、前記中間電力状態は少なくとも第2のプロセッサに電力を提供することを含み、前記第2のプロセッサは前記第1のプロセッサより大きい利用可能な処理能力を有する、開始することと、
    前記第1の信頼性スコアがチャレンジ範囲内にあるとき、チャレンジ信号を出力することと、
    前記チャレンジ信号へのレスポンスが、1つまたは複数の前記センサにより検出されるとき、前記中間電力状態を開始することと、
    前記第2のプロセッサにより、1つまたは複数の第2の信頼性スコアを生成することであって、前記1つまたは複数の第2の信頼性スコアのそれぞれは、各記録された非触覚入力と基準入力との間に一定の類似度がある、生成することと、
    前記第2の信頼性スコアが第2の閾値より大きいとき、クライアント装置プラットフォームに前記基準入力と関連する1つまたは複数の動作を実行するように指示するコマンド信号を生成することと
    を含む方法。
  2. 前記1つまたは複数のセンサの第1のセンサがマイクである、請求項1に記載の方法。
  3. 前記第1の信頼性スコアを生成することが、音声区間検出(VAD)アルゴリズムにより1つまたは複数の前記非触覚入力を分析することを含む、
    請求項2に記載の方法。
  4. 前記VADアルゴリズムが、特定用途向け集積回路(ASIC)により実装される、
    請求項3に記載の方法。
  5. 前記第1の信頼性スコアを生成することが、自動音声認識アルゴリズムにより1つまたは複数の前記非触覚入力を分析することを含む、
    請求項2に記載の方法。
  6. 前記1つまたは複数の第1の信頼性スコアを生成することが、音声区間検出(VAD)アルゴリズム及び自動音声認識アルゴリズムにより1つまたは複数の前記非触覚入力を分析すること含む、
    請求項2に記載の方法。
  7. 前記1つまたは複数のセンサの第2のセンサが、前記クライアント装置プラットフォームに近接する人の存在を検出するように構成される、
    請求項2に記載の方法。
  8. 前記クライアント装置プラットフォームに近接する人の存在を検出するように構成される前記センサが、ビデオカメラである、
    請求項7に記載の方法。
  9. 前記クライアント装置プラットフォームに近接する人の存在を検出するように構成される前記センサが、赤外線カメラである、
    請求項7に記載の方法。
  10. 前記クライアント装置プラットフォームに近接する人の存在を検出するように構成される前記センサが、テラヘルツセンサである、
    請求項7に記載の方法。
  11. 前記1つまたは複数の第2の信頼性スコアを生成することが、音素を利用する自動音声認識アルゴリズムにより1つまたは複数の前記非触覚入力を分析することを含む、
    請求項2に記載の方法。
  12. 前記第2の信頼性スコアを生成することが、聴覚注意キューを利用する自動音声認識アルゴリズムにより1つまたは複数の前記非触覚入力を分析することを含む、
    請求項2に記載の方法。
  13. 前記第2の信頼性スコアを生成することが、特定の人の声を識別するように構成される音声認識アルゴリズムにより1つまたは複数の前記非触覚入力を分析することを含む、
    請求項2に記載の方法。
  14. 前記1つまたは複数のセンサの1つが、ビデオカメラである、
    請求項1に記載の方法。
  15. 前記第1の信頼性スコアを生成することが、物体認識アルゴリズムにより1つまたは複数の前記非触覚入力を分析することを含む、
    請求項14に記載の方法。
  16. 前記物体認識アルゴリズムが、前記クライアント装置プラットフォームに近接する人の存在を検出するように構成される、
    請求項15に記載の方法。
  17. 前記第1の信頼性スコアを生成することが、ジェスチャ認識アルゴリズムにより1つまたは複数の前記非触覚入力を分析することを含む、
    請求項14に記載の方法。
  18. 前記第2の信頼性スコアを生成することが、視聴覚音声認識(ASVR)アルゴリズムにより1つまたは前記複数の非触覚入力を分析することを含む、
    請求項14に記載の方法。
  19. 前記1つまたは複数のセンサの1つが動きセンサであり、
    前記第1の信頼性スコアを生成することが動き検出を行うことを含む、
    請求項1に記載の方法。
  20. 人が検出可能である前記チャレンジ信号が、点滅発光ダイオード(LED)である、
    請求項に記載の方法。
  21. 人によって検出可能に構成される可聴音である前記チャレンジ信号、
    請求項に記載の方法。
  22. 非触覚レスポンス入力が可聴フレーズである、
    請求項に記載の方法。
  23. 非触覚レスポンス入力がジェスチャである、
    請求項に記載の方法。
  24. 前記中間電力状態が、クラウドベースサーバ上に実装される、
    請求項1に記載の方法。
  25. 前記1つまたは複数の非触覚入力が、ネットワーク上でクラウドベースサーバに配送される、
    請求項24に記載の方法。
  26. 前記第2のプロセッサが、第2のメモリに結合される、
    請求項1に記載の方法。
  27. 前記第2のメモリが、前記第1のメモリに格納されない1つまたは複数の基準信号を備える、
    請求項26に記載の方法。
  28. 前記第1のプロセッサが、マルチコアプロセッサの1つまたは複数のコアを備える、
    請求項1に記載の方法。
  29. 前記第2のプロセッサが、前記第1のプロセッサと前記マルチコアプロセッサの1つまたは複数の付加的なコアとを備える、
    請求項28に記載の方法。
  30. 前記1つまたは複数の前記動作の1つが、前記クライアント装置プラットフォーム上で全電力状態を開始するように構成される、
    請求項1に記載の方法。
  31. 前記1つまたは複数の前記動作の1つが、前記クライアント装置プラットフォーム上で特定のメディアタイトルのプレイバックを開始するように構成される、
    請求項1に記載の方法。
  32. 前記1つまたは複数の前記動作の1つが、プレーヤプロファイルをロードするように構成される、
    請求項1に記載の方法。
  33. ネットワーク上で動作するように構成されるクライアント装置プラットフォームであって、
    プロセッサと、
    前記プロセッサに結合されるメモリと、
    前記プロセッサによる実行のためにメモリに具現化され、方法を実装するように構成される1つまたは複数の指示と
    を備え、
    前記方法は、
    1つまたは複数のセンサによる、装置への1つまたは複数の非触覚入力を記録することであって、前記1つまたは複数の入力は第1のメモリに記録され、前記装置は電力が第1のプロセッサ及び前記第1のメモリに提供される低電力状態で動作している、記録することと、
    1つまたは複数の第1の信頼性スコアを生成することであって、前記1つまたは複数の第1の信頼性スコアのそれぞれは、対応している記録された非触覚入力と前記第1のメモリに格納される基準入力との間に一定の類似度がある、生成することと、
    前記第1の信頼性スコアが第1の閾値レベルより大きいとき、前記装置の中間電力状態を開始することであって、前記中間電力状態は少なくとも第2のプロセッサに電力を提供することを含み、前記第2のプロセッサは前記第1のプロセッサより大きい利用可能な処理能力を有する、開始することと、
    前記第1の信頼性スコアがチャレンジ範囲内にあるとき、チャレンジ信号を出力することと、
    前記チャレンジ信号へのレスポンスが、1つまたは複数の前記センサにより検出されるとき、前記中間電力状態を開始することと、
    前記第2のプロセッサにより、1つまたは複数の第2の信頼性スコアを生成することであって、前記1つまたは複数の第2の信頼性スコアのそれぞれは、各記録された非触覚入力と基準入力との間に一定の類似度がある、生成することと、
    前記第2の信頼性スコアが第2の閾値より大きいとき、当該クライアント装置プラットフォームに前記基準入力と関連する1つまたは複数の動作を実行するように指示するコマンド信号を生成することと
    を含むクライアント装置プラットフォーム。
  34. プログラム命令を含み、
    コンピュータシステムの1つまたは複数のプロセッサによる前記プログラム命令の実行は、1つまたは複数のプロセッサに、
    1つまたは複数のセンサによる、装置への1つまたは複数の非触覚入力を記録するステップであって、前記1つまたは複数の入力は第1のメモリに記録され、前記装置は電力が第1のプロセッサ及び前記第1のメモリに提供される低電力状態で動作しているステップと、
    1つまたは複数の第1の信頼性スコアを生成するステップであって、前記1つまたは複数の第1の信頼性スコアのそれぞれは、対応している記録された非触覚入力と前記第1のメモリに格納される基準入力との間に一定の類似度があるステップと、
    前記第1の信頼性スコアが第1の閾値レベルより大きいとき、前記装置の中間電力状態を開始するステップであって、前記中間電力状態は少なくとも第2のプロセッサに電力を提供することを含み、前記第2のプロセッサは前記第1のプロセッサより大きい利用可能な処理能力を有するステップと、
    前記第1の信頼性スコアがチャレンジ範囲内にあるとき、チャレンジ信号を出力するステップと、
    前記チャレンジ信号へのレスポンスが、1つまたは複数の前記センサにより検出されるとき、前記中間電力状態を開始するステップと、
    前記第2のプロセッサにより、1つまたは複数の第2の信頼性スコアを生成するステップであって、前記1つまたは複数の第2の信頼性スコアのそれぞれは、各記録された非触覚入力と基準入力との間に一定の類似度があるステップと、
    前記第2の信頼性スコアが第2の閾値より大きいとき、クライアント装置プラットフォームに前記基準入力と関連する1つまたは複数の動作を実行するように指示するコマンド信号を生成するステップと
    を実行させる、一時的でないコンピュータ可読媒体。
JP2015558202A 2013-02-20 2014-02-18 ハイブリッド性能スケーリングまたは音声認識 Active JP6028111B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361767065P 2013-02-20 2013-02-20
US61/767,065 2013-02-20
US13/791,716 2013-03-08
US13/791,716 US9256269B2 (en) 2013-02-20 2013-03-08 Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
PCT/US2014/016951 WO2014130463A2 (en) 2013-02-20 2014-02-18 Hybrid performance scaling or speech recognition

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016203417A Division JP6325626B2 (ja) 2013-02-20 2016-10-17 ハイブリッド性能スケーリングまたは音声認識

Publications (2)

Publication Number Publication Date
JP2016516225A JP2016516225A (ja) 2016-06-02
JP6028111B2 true JP6028111B2 (ja) 2016-11-16

Family

ID=51352186

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015558202A Active JP6028111B2 (ja) 2013-02-20 2014-02-18 ハイブリッド性能スケーリングまたは音声認識
JP2016203417A Active JP6325626B2 (ja) 2013-02-20 2016-10-17 ハイブリッド性能スケーリングまたは音声認識

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2016203417A Active JP6325626B2 (ja) 2013-02-20 2016-10-17 ハイブリッド性能スケーリングまたは音声認識

Country Status (5)

Country Link
US (1) US9256269B2 (ja)
EP (1) EP2959474B1 (ja)
JP (2) JP6028111B2 (ja)
CN (2) CN112863510B (ja)
WO (1) WO2014130463A2 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9063731B2 (en) 2012-08-27 2015-06-23 Samsung Electronics Co., Ltd. Ultra low power apparatus and method to wake up a main processor
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US20140343949A1 (en) * 2013-05-17 2014-11-20 Fortemedia, Inc. Smart microphone device
US9665155B2 (en) * 2013-12-28 2017-05-30 Intel Corporation Techniques for increasing energy efficiency of sensor controllers that receive data from one or more sensors
US9619010B1 (en) * 2014-06-17 2017-04-11 Amazon Technologies, Inc. Selective powering off of hardware components for battery management in mobile devices
US9697828B1 (en) 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US11289077B2 (en) * 2014-07-15 2022-03-29 Avaya Inc. Systems and methods for speech analytics and phrase spotting using phoneme sequences
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
FR3030177B1 (fr) 2014-12-16 2016-12-30 Stmicroelectronics Rousset Dispositif electronique comprenant un module de reveil d'un appareil electronique distinct d'un coeur de traitement
KR102418892B1 (ko) * 2015-06-15 2022-07-11 한국전자통신연구원 신뢰구간에 기반한 에너지 절감 방법 및 이를 이용한 장치
US9542941B1 (en) * 2015-10-01 2017-01-10 Lenovo (Singapore) Pte. Ltd. Situationally suspending wakeup word to enable voice command input
WO2017105517A1 (en) 2015-12-18 2017-06-22 Hewlett Packard Enterprise Development Lp Memristor crossbar arrays to activate processors
CN105868108B (zh) * 2016-03-28 2018-09-07 中国科学院信息工程研究所 基于神经网络的指令集无关的二进制代码相似性检测方法
CN105868082B (zh) * 2016-06-01 2019-04-02 楚天龙股份有限公司 非接触式cpu卡通讯监测器
US10438583B2 (en) * 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10671925B2 (en) * 2016-12-28 2020-06-02 Intel Corporation Cloud-assisted perceptual computing analytics
US10878342B2 (en) * 2017-03-30 2020-12-29 Intel Corporation Cloud assisted machine learning
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US10770094B2 (en) * 2018-01-09 2020-09-08 Intel IP Corporation Routing audio streams based on semantically generated result sets
US10332543B1 (en) * 2018-03-12 2019-06-25 Cypress Semiconductor Corporation Systems and methods for capturing noise for pattern recognition processing
CN109065046A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音唤醒的方法、装置、电子设备及计算机可读存储介质
US11580355B2 (en) * 2018-10-25 2023-02-14 Electronic Warfare Associates, Inc. System-on-a-chip incorporating artificial neural network and general-purpose processor circuitry
KR20200090438A (ko) 2019-01-21 2020-07-29 삼성전자주식회사 디스플레이의 손상을 방지하기 위한 전자 장치 및 방법
US11659332B2 (en) 2019-07-30 2023-05-23 Dolby Laboratories Licensing Corporation Estimating user location in a system including smart audio devices
US11462218B1 (en) * 2020-04-29 2022-10-04 Amazon Technologies, Inc. Conserving battery while detecting for human voice
US11782149B2 (en) * 2021-01-08 2023-10-10 Google Llc Systems and methods for managing motion detection of an electronic device, and associated electronic devices
KR20230129183A (ko) * 2021-01-08 2023-09-06 구글 엘엘씨 전자 장치 및 그 전자 장치의 모션 검출을 관리하기위한 시스템 및 방법
US11915698B1 (en) * 2021-09-29 2024-02-27 Amazon Technologies, Inc. Sound source localization

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JP2000193752A (ja) * 1998-12-28 2000-07-14 Matsushita Electric Ind Co Ltd 人体検知装置
US6963759B1 (en) * 1999-10-05 2005-11-08 Fastmobile, Inc. Speech recognition technique based on local interrupt detection
US6397186B1 (en) * 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US7039951B1 (en) * 2000-06-06 2006-05-02 International Business Machines Corporation System and method for confidence based incremental access authentication
JP2003195880A (ja) * 2001-12-28 2003-07-09 Nec Corp サーバ・クライアント型音声認識装置
JP2004072260A (ja) * 2002-08-02 2004-03-04 Ricoh Co Ltd 画像処理装置、プログラムおよび記録媒体並びに画像処理システム
JP4413564B2 (ja) * 2003-09-16 2010-02-10 三菱電機株式会社 情報端末および音声認識システム
US7697026B2 (en) * 2004-03-16 2010-04-13 3Vr Security, Inc. Pipeline architecture for analyzing multiple video streams
US20060068851A1 (en) * 2004-09-28 2006-03-30 Ashman William C Jr Accessory device for mobile communication device
US7844465B2 (en) * 2004-11-30 2010-11-30 Scansoft, Inc. Random confirmation in speech based systems
US20060149544A1 (en) * 2005-01-05 2006-07-06 At&T Corp. Error prediction in spoken dialog systems
US20060215821A1 (en) * 2005-03-23 2006-09-28 Rokusek Daniel S Voice nametag audio feedback for dialing a telephone call
US7574590B2 (en) * 2005-10-26 2009-08-11 Sigmatel, Inc. Method for booting a system on a chip integrated circuit
ES2386977T3 (es) * 2005-11-29 2012-09-10 Google Inc. Aplicaciones sociales e interactivas para medios masivos
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム
US8355915B2 (en) * 2006-11-30 2013-01-15 Rao Ashwin P Multimodal speech recognition system
US8380511B2 (en) * 2007-02-20 2013-02-19 Intervoice Limited Partnership System and method for semantic categorization
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8165877B2 (en) * 2007-08-03 2012-04-24 Microsoft Corporation Confidence measure generation for speech related searching
KR100919225B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 음성 대화 시스템에 있어서 다단계 검증을 이용한 대화오류 후처리 장치 및 방법
US8239203B2 (en) 2008-04-15 2012-08-07 Nuance Communications, Inc. Adaptive confidence thresholds for speech recognition
US8259082B2 (en) * 2008-09-12 2012-09-04 At&T Intellectual Property I, L.P. Multimodal portable communication interface for accessing video content
US9134798B2 (en) * 2008-12-15 2015-09-15 Microsoft Technology Licensing, Llc Gestures, interactions, and common ground in a surface computing environment
US9086875B2 (en) * 2009-06-05 2015-07-21 Qualcomm Incorporated Controlling power consumption of a mobile device based on gesture recognition
KR101688655B1 (ko) * 2009-12-03 2016-12-21 엘지전자 주식회사 사용자의 프레전스 검출에 의한 제스쳐 인식 장치의 전력 제어 방법
US8712143B2 (en) * 2010-02-26 2014-04-29 Bank Of America Corporation Processing financial documents
JP5039214B2 (ja) * 2011-02-17 2012-10-03 株式会社東芝 音声認識操作装置及び音声認識操作方法
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
US8990082B2 (en) * 2011-03-25 2015-03-24 Educational Testing Service Non-scorable response filters for speech scoring systems
US10372191B2 (en) * 2011-05-12 2019-08-06 Apple Inc. Presence sensing
WO2012173672A1 (en) * 2011-06-13 2012-12-20 United Video Properties, Inc. Systems and methods for transmitting content metadata from multiple data records
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
EP2783365B1 (en) * 2011-11-21 2018-02-21 Robert Bosch GmbH Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance
US20130155237A1 (en) * 2011-12-16 2013-06-20 Microsoft Corporation Interacting with a mobile device within a vehicle using gestures
US9389690B2 (en) * 2012-03-01 2016-07-12 Qualcomm Incorporated Gesture detection based on information from multiple types of sensors
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
TWI474317B (zh) * 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
KR102117841B1 (ko) * 2012-10-30 2020-06-02 삼성전자주식회사 전자장치 및 그 제어방법
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals

Also Published As

Publication number Publication date
JP6325626B2 (ja) 2018-05-16
EP2959474A4 (en) 2016-10-19
WO2014130463A3 (en) 2014-10-16
WO2014130463A2 (en) 2014-08-28
CN112863510A (zh) 2021-05-28
JP2016516225A (ja) 2016-06-02
CN105229724A (zh) 2016-01-06
US9256269B2 (en) 2016-02-09
JP2017050010A (ja) 2017-03-09
US20140237277A1 (en) 2014-08-21
EP2959474B1 (en) 2019-06-05
EP2959474A2 (en) 2015-12-30
CN112863510B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
JP6325626B2 (ja) ハイブリッド性能スケーリングまたは音声認識
US10504511B2 (en) Customizable wake-up voice commands
US20230267921A1 (en) Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
KR102596430B1 (ko) 화자 인식에 기초한 음성 인식 방법 및 장치
US10705789B2 (en) Dynamic volume adjustment for virtual assistants
BR102018070673A2 (pt) Gerar diálogo baseado em pontuações de verificação
US10880833B2 (en) Smart listening modes supporting quasi always-on listening
JP2017536568A (ja) キーフレーズユーザ認識の増補
JP7328265B2 (ja) 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム
MX2014006001A (es) Igualacion de patron de audio para activacion de dispositivo.
JP7418563B2 (ja) オンデバイスの機械学習モデルの訓練のための自動化アシスタントの機能の訂正の使用
US20210011887A1 (en) Activity query response system
EP3724875B1 (en) Text independent speaker recognition
JP7063937B2 (ja) 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム
US20230377580A1 (en) Dynamically adapting on-device models, of grouped assistant devices, for cooperative processing of assistant requests
KR20230005966A (ko) 거의 일치하는 핫워드 또는 구문 검출
US20230143177A1 (en) Contextual suppression of assistant command(s)
US20230061929A1 (en) Dynamically configuring a warm word button with assistant commands
JPWO2019093123A1 (ja) 情報処理装置および電子機器
US20230031461A1 (en) Providing certain reasoning with respect to fulfillment of an assistant command
US20230197072A1 (en) Warm word arbitration between automated assistant devices
US20240161741A1 (en) Short-Lived Repeat Voice Commands
JP2024508209A (ja) アシスタントコマンドの実現についてのある特定の論拠づけの提供
WO2023114087A1 (en) Warm word arbitration between automated assistant devices

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161017

R150 Certificate of patent or registration of utility model

Ref document number: 6028111

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250