JP6975696B2

JP6975696B2 - ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム

Info

Publication number: JP6975696B2
Application number: JP2018167825A
Authority: JP
Inventors: リヤーン・ガオ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-01-22
Filing date: 2018-09-07
Publication date: 2021-12-01
Anticipated expiration: 2038-09-07
Also published as: CN108181992A; US20190228217A1; JP2019128939A; US10783364B2

Description

本発明は、音声ウェイクアップ技術分野に関し、特にジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラムに関する。

音声認識能力の向上に伴い、ますます多くのスマート設備にも音声認識が応用されてきた。基本的に、従来のスマート設備の音声対話態様に使用されるのは音声ウェイクアップワードによる音声対話である。音声機能をウェイクアップする具体的な態様は、一般的に、一定のウェイクアップワード、例えば「度ちゃん、度ちゃん」、Ａｌｅｘａ等で音声対話設備をウェイクアップさせる。次は、音声対話設備で認識を開始し、更にユーザーと音声対話を行う。

ところが、従来の音声ウェイクアップ態様は、音声対話をするたびにウェイクアップワードを一回言う必要がある。ウェイクアップワードを繰り返し言うと、ユーザーに悪い経験を与えてしまう。

従来技術における以上の技術的問題を解決又は緩和するために、本発明の実施例はジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体を提供する。

第一態様において、本発明の実施例はジェスチャーによる音声ウェイクアップ方法を提供し、
ユーザーのジェスチャー画像を収集するステップと、
ユーザーのジェスチャー画像がプリセット画像に一致するかどうかを判断するステップと、
ユーザーのジェスチャー画像がプリセット画像に一致する場合、音声対話機能をウェイクアップするステップと、を含む。

第一態様と合わせて、本発明の第一態様の第一実施形態において、前記プリセット画像が伸び出した手の指の画像である。

第一態様と合わせて、本発明の第一態様の第二実施形態において、前記プリセット画像が指を鳴らすジェスチャー画像である。

第一態様と合わせて、本発明の第一態様の第三実施形態において、
ユーザーのジェスチャーで出した音を収集することと、
ユーザーのジェスチャーによる音がプリセット音に一致するかどうかを判断することと、
ユーザーのジェスチャー画像がプリセット画像に一致する場合、音声対話機能をウェイクアップすることは、ユーザーのジェスチャー画像がプリセット画像に一致し且つジェスチャーによる音がプリセット音に一致する場合、音声対話機能をウェイクアップすることを含むことと、を更に含む。

第一態様の第三実施形態と合わせて、本発明の第一態様の第四実施形態において、前記プリセットジェスチャー画像が指を鳴らす画像であり、前記プリセット音が指を鳴らす音である。

第二態様において、本発明の実施例はジェスチャーによる音声ウェイクアップ装置を提供し、
ユーザーのジェスチャー画像を収集するための画像収集モジュールと、
ユーザーのジェスチャー画像がプリセット画像に一致するかどうかを判断するための画像判断モジュールと、
ユーザーのジェスチャー画像がプリセット画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュールと、を備える。

第二態様と合わせて、本発明の第二態様の第一実施形態において、前記プリセット画像が伸び出した手の指の画像である。

第二態様と合わせて、本発明の第二態様の第二実施形態において、前記プリセット画像が指を鳴らすジェスチャー画像である。

第二態様と合わせて、本発明の第二態様の第三実施形態において、
ユーザーのジェスチャーで出した音を収集するための音収集モジュールと、
ユーザーのジェスチャーによる音がプリセット音に一致するかどうかを判断するための音判断モジュールと、を更に備え、
前記ウェイクアップモジュールはユーザーのジェスチャー画像がプリセット画像に一致し且つジェスチャーによる音がプリセット音に一致する場合、音声対話機能をウェイクアップすることに更に用いられる。

第二態様の第三実施形態と合わせて、本発明の第二態様の第四実施形態において、前記プリセットジェスチャー画像が指を鳴らす画像であり、前記プリセット音が指を鳴らす音である。

前記装置の機能をハードウェアで実現してもよいし、ハードウェアで対応するソフトウェアを実行することで実現してもよい。前記ハードウェア又はソフトウェアは上記機能に対応する１つ又は複数のモジュールを含む。

可能な一設計において、ジェスチャーによる音声ウェイクアップ装置の構造はプロセッサ及びメモリを備え、前記メモリはジェスチャーによる音声ウェイクアップ装置が上記第一態様におけるジェスチャーによる音声ウェイクアップ方法を実行することをサポートするプログラムを記憶することに用いられ、前記プロセッサが前記メモリに記憶されるプログラムを実行するように配置される。前記ジェスチャーによる音声ウェイクアップ装置はジェスチャーによる音声ウェイクアップ装置をほかの設備又は通信ネットワークと通信させための通信インターフェースを更に備えてもよい。

第三態様において、本発明の実施例は、ジェスチャーによる音声ウェイクアップ装置に使用されるコンピュータソフトウェア命令を記憶することに用いられ、前記コンピュータソフトウェア命令が上記第一態様のジェスチャーによる音声ウェイクアップ方法を実行するために関するプログラムを含むコンピュータ可読媒体を提供する。

上記技術案のうち一つの技術案は、本発明の実施例において明確なウェイクアップワードを言わずにスマート音声対話装置をウェイクアップさせることができ、音声ウェイクアップを更にスマート化し、ユーザーと音声装置との対話に役立つという利点又は有益な効果を有する。

上記概説は明細書の目的のために説明されたが、何らかの形態で本発明を限定するものではない。上記例示的な態様、実施形態及び特徴に加えて、図面及び以下の詳細な説明を参照することによって、本発明のさらなる態様、実施形態及び特徴は分かりやすくなる。

図面では、特に断りがない限り、複数の図面に亘って同じ符号で同一又は類似する部材又は要素を示す。これらの図面は必ずしも一定の比例に応じて描かれているとは限らない。理解すべきなのは、これらの図面は本発明開示のいくつかの実施形態を描いているためのものであり、本発明の範囲を制限するためのものであると見なされるべきではない。

実施例１に係るジェスチャーによる音声ウェイクアップ方法のフローチャートである。実施例１に係る第一プリセット画像の模式図である。実施例１に係る第二プリセット画像の模式図である。実施例２に係るジェスチャーによる音声ウェイクアップ方法のフローチャートである。実施例３に係るジェスチャーによる音声ウェイクアップ装置の接続ブロック図である。実施例４に係るジェスチャーによる音声ウェイクアップ装置の接続ブロック図である。実施例５に係るジェスチャーによる音声ウェイクアップ設備の接続ブロック図である。

以下、ある例示的な実施例を簡単に説明する。当業者が認識できる通り、本発明の趣旨又は範囲を逸脱せずに、種々の異なる態様で説明された実施例を修正することができる。従って、図面及び説明が実質的に例示的なものであって、制限的なものではないと見なされている。

本発明の実施例の目的は、従来技術における、音声ウェイクアップを行う時にウェイクアップワードを一回言う必要があるという技術的問題を解決することである。本発明の実施例は主にジェスチャーで音声ウェイクアップを行い、これから、それぞれ以下の実施例によって技術案をそれぞれ詳しく説明する。

実施例１

図１は本発明の実施例１に係るジェスチャーによる音声ウェイクアップ方法のフローチャートである。本実施例１はジェスチャーによる音声ウェイクアップ方法を提供し、以下のステップを含む。

Ｓ１１０では、ユーザーのジェスチャー画像を収集する。

ユーザーがあるスマート設備に対して音声対話機能を起動する必要がある場合、スマート設備のカメラに面して特定のジェスチャーをして、カメラによってユーザーのジェスチャー画像をリアルタイムに収集することができる。

Ｓ１２０では、ユーザーのジェスチャー画像がプリセット画像に一致するかどうかを判断する。

受信されたユーザーのジェスチャー画像に基づいて判断し、プリセット画像と比較して、一致するかどうかを判断してもよい。ただし、本実施例に記載の一致するジェスチャー画像は必ずしも完全に同じであるとは限らず、同じジェスチャーをすればよい。例えば、図２は本実施例１における第一プリセット画像の模式図である。本実施例１において、プリセットジェスチャー画像が伸び出した手の指の画像であってもよい。収集されたジェスチャー画像も伸び出した手の指の画像であって、スマート設備の位置を指す場合、収集されたジェスチャー画像がプリセットジェスチャー画像に一致すると判断してもよい。

同様に、プリセットジェスチャー画像をほかのユーザーが慣れているジェスチャー画像に調整してもよく、図３は本実施例１における第二プリセット画像の模式図である。例えば、プリセットジェスチャー画像を、指を鳴らす画像に設定してもよい。また、更に複数のジェスチャー画像を同時に予め設定してもよい。

Ｓ１３０では、ユーザーのジェスチャー画像がプリセット画像に一致する場合、音声対話機能をウェイクアップする。

ジェスチャー画像がプリセット画像に一致すると判断する場合、対応する音声対話機能をウェイクアップする。ユーザーがスマート設備と音声通話をすることができる。複数のプリセット画像がある時、１つのジェスチャー画像がプリセット画像に一致する限り、音声対話機能をウェイクアップする。

実施例２

実施例１との相違点は、本実施例２において、ユーザーのジェスチャー画像に対して比較するだけでなく、更にジェスチャーで出した音に対して比較し、具体案は以下のとおりである。

図４は本実施例２に係るジェスチャーによる音声ウェイクアップ方法のフローチャートである。本実施例２のジェスチャーによる音声ウェイクアップ方法は以下のステップを含む。

Ｓ２１０では、ユーザーのジェスチャー画像及びジェスチャーで出した音を収集する。

ユーザーがあるスマート設備に対して音声対話機能を起動する必要がある場合、特定のジェスチャーをして、該特定のジェスチャーで対応する音を出し、スマート設備によってジェスチャー画像及びジェスチャーによる音を同時に収集することができる。本実施例２において、ユーザーのしたジェスチャーは指を鳴らす画像であってもよく、該ジェスチャーで出した音が指を鳴らす音である。

Ｓ２２０では、ユーザーのジェスチャー画像がプリセット画像に一致するかどうかを判断する。

受信されたユーザーのジェスチャー画像に基づいて判断し、プリセット画像と比較して、一致するかどうかを判断してもよい。本実施例に記載の一致するジェスチャー画像は必ずしも完全に同じであるとは限らず、同じジェスチャーをすればよい。

Ｓ２３０では、ユーザーのジェスチャーによる音がプリセット音に一致するかどうかを判断する。

該ステップにおいて、ジェスチャーによる音に対して一致するかどうかを更に判断する。ジェスチャーによる音がジェスチャー画像に対応する。例えば、プリセットジェスチャー画像が指を鳴らす画像である場合、プリセットジェスチャーによる音が指を鳴らす音である。

Ｓ２４０では、ユーザーのジェスチャー画像がプリセット画像に一致し且つジェスチャーによる音がプリセット音に一致する場合、音声対話機能をウェイクアップする。

本実施例２において、異なる形のジェスチャーを更に用いてもよく、例えば、拍手の態様等を用いてもよい。

実施例３

本実施例３は実施例１に対応し、ジェスチャーによる音声ウェイクアップ装置を提供する。図５は本実施例３に係るジェスチャーによる音声ウェイクアップ装置の接続ブロック図である。

本実施例３に係るジェスチャーによる音声ウェイクアップ装置は、
ユーザーのジェスチャー画像を収集するための収集モジュール１１０と、
ユーザーのジェスチャー画像がプリセット画像に一致するかどうかを判断するための画像判断モジュール１２０と、
ユーザーのジェスチャー画像がプリセット画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュール１３０と、を備える。

前記プリセット画像は伸び出した手の指の画像であってもよいし、指を鳴らすジェスチャー画像であってもよい。又は、複数の画像、例えば伸び出した手の指の画像及び指を鳴らすジェスチャー画像を同時に予め設定してもよい。

本実施例３は実施例１の原理と同様であり、詳細な説明は省略する。

実施例４

本実施例４は実施例２に対応し、ジェスチャーによる音声ウェイクアップ装置を提供し、具体的に、以下のとおりである。

図６は本実施例４に係るジェスチャーによる音声ウェイクアップ装置の接続ブロック図である。本発明の実施例４はジェスチャーによる音声ウェイクアップ装置を提供し、
ユーザーのジェスチャー画像を収集するための画像収集モジュール２１０と、
ユーザーのジェスチャーで出した音を収集することに用いられ、例えば、前記プリセットジェスチャー画像が指を鳴らす画像であってもよいし、前記プリセット音が指を鳴らす音であってもよい音収集モジュール２２０と、
ユーザーのジェスチャー画像がプリセット画像に一致するかどうかを判断するための画像判断モジュール２３０と、
ユーザーのジェスチャーによる音がプリセット音に一致するかどうかを判断するための音判断モジュール２４０と、
ユーザーのジェスチャー画像がプリセット画像に一致し且つジェスチャーによる音がプリセット音に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュール２５０と、を備える。

本実施例４の応用態様及び原理は実施例２と同様であり、詳細な説明は省略する。

実施例５

本発明の実施例５はジェスチャーによる音声ウェイクアップ設備を提供し、図７に示すように、該設備は、メモリ３１０及びプロセッサ３２０を備え、メモリ３１０にプロセッサ３２０で実行できるコンピュータプログラムが記憶される。前記プロセッサ３２０が前記コンピュータプログラムを実行する時、上記実施例におけるジェスチャーによる音声ウェイクアップ方法を実現する。前記メモリ３１０及びプロセッサ３２０の数が１つ又は複数であってもよい。

該設備は、更に、
外部設備と通信し、データの対話式伝送を行うための通信インターフェース３３０を備える。

メモリ３１０は高速ＲＡＭメモリを含んでもよいし、更に不揮発性メモリ（ｎｏｎ−ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えば少なくとも１つの磁気ディスク記憶装置を含んでもよい。

メモリ３１０、プロセッサ３２０及び通信インターフェース３３０が独立して実現される場合、メモリ３１０、プロセッサ３２０及び通信インターフェース３３０がバスを介して互いに接続されて相互間の通信を実現することができる。前記バスはインダストリ・スタンダード・アーキテクチャ（ＩＳＡ、ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ペリフェラル・コンポーネント・インターコネクト（ＰＣＩ、ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バス又は拡張インダストリ・スタンダード・アーキテクチャ（ＥＩＳＡ、ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス等であってもよい。前記バスをアドレスバス、データバス、制御バス等に分けてもよい。容易に示すために、図７に一本のみの太線で示すが、一本のみのバス又は１つのみのタイプのバスがあると示すことではない。

好ましくは、具体的に実現する時、メモリ３１０、プロセッサ３２０及び通信インターフェース３３０が一枚のチップに統合される場合、メモリ３１０、プロセッサ３２０及び通信インターフェース３３０が内部インターフェースを介して相互間の通信を実現することができる。

本明細書の説明において、参照用語「一実施例」、「いくつかの実施例」、「例」、「具体例」、又は「いくつかの例」等の説明とは該実施例又は例を参照しながら説明された具体的な特徴、構造、材料又は特徴が本発明の少なくとも１つの実施例又は例に含まれることを意味する。且つ、説明された具体的な特徴、構造、材料又は特徴はいずれか又は複数の実施例又は例で適切な態様で結合してもよい。また、矛盾しない限り、当業者は本明細書に説明された異なる実施例又は例及び異なる実施例又は例の特徴を結合する及び組み合わせることができる。

また、用語「第１」、「第２」は説明目的でのみ使用されており、相対重要性を指示又は示唆したり、指示した技術的特徴の数を黙示的に指示したりするものではない。従って、「第１」、「第２」を付けて定義された特徴は少なくとも１つの該特徴を明示的又は黙示的に含むと理解できる。本発明の説明において、「複数」は、特に断らない限り、２つ又は２つ以上を意味する。

当業者は、フローチャート又はここでほかの態様で説明された任意の過程又は方法についての説明が、特定の論理機能又は過程を実現するための１つ又はそれ以上のステップを含む実行可能命令コードのモジュール、セグメント又は一部を示すと理解されてもよく、且つ本発明の好適な実施形態の範囲はほかの実現を含み、図示又は検討された順序ではなく、関わる機能に応じて基本同時の態様又は逆順序で機能を実行してもよいことを理解すべきである。

フローチャートに示し又はここでほかの態様で説明された論理及び／又はステップは、例えば、論理機能を実現するための実行可能命令の順番付けリストであると見なされてもよく、具体的に任意のコンピュータ可読媒体で命令実行システム、装置又は設備（例えばコンピュータによるシステム、プロセッサを備えるシステム又は命令実行システム、装置又は設備から命令を取得して命令を実行することができるほかのシステム）に使用されてもよく、又はこれらの命令実行システム、装置又は設備と合わせて使用されてもよい。本明細書は、「コンピュータ可読媒体」がプログラムを包含、記憶、通信、伝播又は伝送することにより命令を実行するためのシステム、装置又は設備又はこれらの命令実行システム、装置又は設備を合わせて使用する任意の装置であってもよい。

本発明の実施例に記載のコンピュータ可読媒体はコンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記２つの組み合わせであってもよい。コンピュータ可読記憶媒体のさらなる具体例は少なくとも（非網羅的リスト）１つ又は複数の配線を有する電気接続部（電子装置）、ポータブルコンピュータケース（磁気装置）、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー装置、及びポータブルリードオンリメモリ（ＣＤＲＯＭ）を含む。また、例えば用紙又はほかの媒体を光学的に走査し、次に編集、解釈し又は必要な時にほかの適切な態様で処理して電子態様で前記プログラムを取得し、次にそれをコンピュータメモリに記憶することができるため、コンピュータ可読記憶媒体は更にその上に前記プログラムを印刷できる用紙又はほかの適切な媒体であってもよい。

本発明の実施例において、コンピュータ可読プログラムコードを運ぶコンピュータ可読信号媒体はベースバンド又は搬送波の一部として伝播するデータ信号に含まれてもよい。このような伝播するデータ信号は様々な形態を用いてもよく、電磁信号、光信号又は上記任意の適切な組み合わせを含むが、それらに限らない。コンピュータ可読信号媒体は更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は命令実行システム、入力法又はデバイスに使用され又はそれと合わせて使用されるためのプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送されてもよく、上記媒体は無線、電線、光ケーブル、無線周波数（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、ＲＦ）等、又は上記任意の適切な組み合わせを含むが、それらに限らない。

理解すべきなのは、本発明の各部分はハードウェア、ソフトウェア、ファームウェア又はそれらの組み合わせで実現されてもよい。上記実施形態において、複数のステップ又は方法はメモリに記憶されて適切な命令実行システムで実行するソフトウェア又はファームウェアにより実現されてもよい。例えば、ハードウェアにより実現される場合は、別の実施形態と同様に、データ信号に対して論理機能を実現するための論理ゲート回路を有する離散論理回路、適切な組み合わせ論理ゲート回路を有する特定用途向け統合回路、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）等の本分野で公知の技術のいずれか一項又はそれらの組み合わせにより実現されてもよい。

当業者は、上記実施例方法におけるステップの全部又は一部を実現するために、プログラムによって関連するハードウェアを命令することにより完了することができ、前記プログラムが一種のコンピュータ可読記憶媒体に記憶されてもよく、該プログラムが実行時に方法実施例における１つのステップ又はその組み合わせを含むと理解される。

また、本発明の各実施例における各機能ユニットが１つの処理モジュールに統合されてもよく、各ユニットが独立して物理的に存在してもよく、２つ又は２つ以上のユニットが１つのモジュールに統合されてもよい。上記統合されたモジュールはハードウェアの形で実現されてもよいし、ソフトウェア機能モジュールの形で実現されてもよい。前記統合されたモジュールはソフトウェア機能モジュールの形で実現されて独立した製品として販売又は使用される時、１つのコンピュータ可読記憶媒体に記憶されてもよい。前記記憶媒体はリードオンリメモリ、磁気ディスク又は光ディスク等であってもよい。

要するに、本発明の実施例は明確なウェイクアップワードを言わずにスマート音声対話設備をウェイクアップさせることができ、それにより音声ウェイクアップを更にスマート化し、ユーザーと音声設備との対話に役立つ。

以上の説明は本発明の具体的な実施形態であって、本発明の保護範囲はこれに限らず、当業者が本発明に開示された技術的範囲内に、容易に想到し得る種々の変更又は置換は、いずれも本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は前記特許請求の保護範囲に準じる。

１１０収集モジュール
１２０画像判断モジュール
１３０ウェイクアップモジュール
２１０画像収集モジュール
２２０音収集モジュール
２３０画像判断モジュール
２４０ウェイクアップモジュール
２５０音声判断モジュール
３１０メモリ
３２０プロセッサ
３３０通信インターフェース

Claims

ジェスチャーによる音声ウェイクアップ方法であって、
ユーザーのジェスチャー画像を収集すると同時に、前記ジェスチャーで出されたジェスチャー音を収集することと、
前記ユーザーの前記ジェスチャー画像がプリセット画像に一致するかどうかを判断することと、
前記ユーザーの前記ジェスチャーで出されたジェスチャー音がプリセット音に一致するかどうかを判断することと、
前記ユーザーの前記ジェスチャー画像が前記プリセット画像に一致し且つ前記ジェスチャーで出されたジェスチャー音が前記プリセット音に一致する場合、音声対話機能をウェイクアップすることと、を含み、
前記プリセット画像が指を鳴らす画像または拍手の画像であり、前記プリセット音が指を鳴らす音または拍手の音である
ことを特徴とするジェスチャーによる音声ウェイクアップ方法。
前記プリセット画像が指を鳴らすジェスチャー画像または拍手のジェスチャー画像であることを特徴とする請求項１に記載のジェスチャーによる音声ウェイクアップ方法。
ジェスチャーによる音声ウェイクアップ装置であって、
ユーザーのジェスチャー画像を収集するための画像収集モジュールと、
前記ユーザーのジェスチャーで出されたジェスチャー音を収集するための音収集モジュールと、
前記ユーザーの前記ジェスチャー画像がプリセット画像に一致するかどうかを判断するための画像判断モジュールと、
前記ユーザーの前記ジェスチャーで出されたジェスチャー音がプリセット音に一致するかどうかを判断するための音判断モジュールと、
前記ユーザーの前記ジェスチャー画像が前記プリセット画像に一致し且つ前記ジェスチャーで出されたジェスチャー音が前記プリセット音に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュールと、を備え、
前記プリセット画像が指を鳴らす画像または拍手の画像であり、前記プリセット音が指を鳴らす音または拍手の音である
ことを特徴とするジェスチャーによる音声ウェイクアップ装置。
前記プリセット画像が指を鳴らすジェスチャー画像または拍手のジェスチャー画像であることを特徴とする請求項３に記載のジェスチャーによる音声ウェイクアップ装置。
ジェスチャーによる音声ウェイクアップ設備であって、
１つ又は複数のプロセッサと、
１つ又は複数のプログラムを記憶するための記憶装置と、を備え、
前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサにより実行される場合、前記１つ又は複数のプロセッサに請求項１または２に記載のジェスチャーによる音声ウェイクアップ方法を実現させることを特徴とするジェスチャーによる音声ウェイクアップ装置。
コンピュータプログラムが記憶されるコンピュータ可読媒体であって、該プログラムがプロセッサにより実行される場合、請求項１または２に記載のジェスチャーによる音声ウェイクアップ方法を実現することを特徴とするコンピュータ可読媒体。
コンピュータにおいて、プロセッサにより実行される場合、請求項１または２に記載の方法を実現することを特徴とするプログラム。