JP6975696B2 - ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム - Google Patents

ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム Download PDF

Info

Publication number
JP6975696B2
JP6975696B2 JP2018167825A JP2018167825A JP6975696B2 JP 6975696 B2 JP6975696 B2 JP 6975696B2 JP 2018167825 A JP2018167825 A JP 2018167825A JP 2018167825 A JP2018167825 A JP 2018167825A JP 6975696 B2 JP6975696 B2 JP 6975696B2
Authority
JP
Japan
Prior art keywords
gesture
image
sound
preset
wake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018167825A
Other languages
English (en)
Other versions
JP2019128939A (ja
Inventor
リヤーン・ガオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2019128939A publication Critical patent/JP2019128939A/ja
Application granted granted Critical
Publication of JP6975696B2 publication Critical patent/JP6975696B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声ウェイクアップ技術分野に関し、特にジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラムに関する。
音声認識能力の向上に伴い、ますます多くのスマート設備にも音声認識が応用されてきた。基本的に、従来のスマート設備の音声対話態様に使用されるのは音声ウェイクアップワードによる音声対話である。音声機能をウェイクアップする具体的な態様は、一般的に、一定のウェイクアップワード、例えば「度ちゃん、度ちゃん」、Alexa等で音声対話設備をウェイクアップさせる。次は、音声対話設備で認識を開始し、更にユーザーと音声対話を行う。
ところが、従来の音声ウェイクアップ態様は、音声対話をするたびにウェイクアップワードを一回言う必要がある。ウェイクアップワードを繰り返し言うと、ユーザーに悪い経験を与えてしまう。
従来技術における以上の技術的問題を解決又は緩和するために、本発明の実施例はジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体を提供する。
第一態様において、本発明の実施例はジェスチャーによる音声ウェイクアップ方法を提供し、
ユーザーのジェスチャー画像を収集するステップと、
ユーザーのジェスチャー画像がプリセット画像に一致するかどうかを判断するステップと、
ユーザーのジェスチャー画像がプリセット画像に一致する場合、音声対話機能をウェイクアップするステップと、を含む。
第一態様と合わせて、本発明の第一態様の第一実施形態において、前記プリセット画像が伸び出した手の指の画像である。
第一態様と合わせて、本発明の第一態様の第二実施形態において、前記プリセット画像が指を鳴らすジェスチャー画像である。
第一態様と合わせて、本発明の第一態様の第三実施形態において、
ユーザーのジェスチャーで出した音を収集することと、
ユーザーのジェスチャーによる音がプリセット音に一致するかどうかを判断することと、
ユーザーのジェスチャー画像がプリセット画像に一致する場合、音声対話機能をウェイクアップすることは、ユーザーのジェスチャー画像がプリセット画像に一致し且つジェスチャーによる音がプリセット音に一致する場合、音声対話機能をウェイクアップすることを含むことと、を更に含む。
第一態様の第三実施形態と合わせて、本発明の第一態様の第四実施形態において、前記プリセットジェスチャー画像が指を鳴らす画像であり、前記プリセット音が指を鳴らす音である。
第二態様において、本発明の実施例はジェスチャーによる音声ウェイクアップ装置を提供し、
ユーザーのジェスチャー画像を収集するための画像収集モジュールと、
ユーザーのジェスチャー画像がプリセット画像に一致するかどうかを判断するための画像判断モジュールと、
ユーザーのジェスチャー画像がプリセット画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュールと、を備える。
第二態様と合わせて、本発明の第二態様の第一実施形態において、前記プリセット画像が伸び出した手の指の画像である。
第二態様と合わせて、本発明の第二態様の第二実施形態において、前記プリセット画像が指を鳴らすジェスチャー画像である。
第二態様と合わせて、本発明の第二態様の第三実施形態において、
ユーザーのジェスチャーで出した音を収集するための音収集モジュールと、
ユーザーのジェスチャーによる音がプリセット音に一致するかどうかを判断するための音判断モジュールと、を更に備え、
前記ウェイクアップモジュールはユーザーのジェスチャー画像がプリセット画像に一致し且つジェスチャーによる音がプリセット音に一致する場合、音声対話機能をウェイクアップすることに更に用いられる。
第二態様の第三実施形態と合わせて、本発明の第二態様の第四実施形態において、前記プリセットジェスチャー画像が指を鳴らす画像であり、前記プリセット音が指を鳴らす音である。
前記装置の機能をハードウェアで実現してもよいし、ハードウェアで対応するソフトウェアを実行することで実現してもよい。前記ハードウェア又はソフトウェアは上記機能に対応する1つ又は複数のモジュールを含む。
可能な一設計において、ジェスチャーによる音声ウェイクアップ装置の構造はプロセッサ及びメモリを備え、前記メモリはジェスチャーによる音声ウェイクアップ装置が上記第一態様におけるジェスチャーによる音声ウェイクアップ方法を実行することをサポートするプログラムを記憶することに用いられ、前記プロセッサが前記メモリに記憶されるプログラムを実行するように配置される。前記ジェスチャーによる音声ウェイクアップ装置はジェスチャーによる音声ウェイクアップ装置をほかの設備又は通信ネットワークと通信させための通信インターフェースを更に備えてもよい。
第三態様において、本発明の実施例は、ジェスチャーによる音声ウェイクアップ装置に使用されるコンピュータソフトウェア命令を記憶することに用いられ、前記コンピュータソフトウェア命令が上記第一態様のジェスチャーによる音声ウェイクアップ方法を実行するために関するプログラムを含むコンピュータ可読媒体を提供する。
上記技術案のうち一つの技術案は、本発明の実施例において明確なウェイクアップワードを言わずにスマート音声対話装置をウェイクアップさせることができ、音声ウェイクアップを更にスマート化し、ユーザーと音声装置との対話に役立つという利点又は有益な効果を有する。
上記概説は明細書の目的のために説明されたが、何らかの形態で本発明を限定するものではない。上記例示的な態様、実施形態及び特徴に加えて、図面及び以下の詳細な説明を参照することによって、本発明のさらなる態様、実施形態及び特徴は分かりやすくなる。
図面では、特に断りがない限り、複数の図面に亘って同じ符号で同一又は類似する部材又は要素を示す。これらの図面は必ずしも一定の比例に応じて描かれているとは限らない。理解すべきなのは、これらの図面は本発明開示のいくつかの実施形態を描いているためのものであり、本発明の範囲を制限するためのものであると見なされるべきではない。
実施例1に係るジェスチャーによる音声ウェイクアップ方法のフローチャートである。 実施例1に係る第一プリセット画像の模式図である。 実施例1に係る第二プリセット画像の模式図である。 実施例2に係るジェスチャーによる音声ウェイクアップ方法のフローチャートである。 実施例3に係るジェスチャーによる音声ウェイクアップ装置の接続ブロック図である。 実施例4に係るジェスチャーによる音声ウェイクアップ装置の接続ブロック図である。 実施例5に係るジェスチャーによる音声ウェイクアップ設備の接続ブロック図である。
以下、ある例示的な実施例を簡単に説明する。当業者が認識できる通り、本発明の趣旨又は範囲を逸脱せずに、種々の異なる態様で説明された実施例を修正することができる。従って、図面及び説明が実質的に例示的なものであって、制限的なものではないと見なされている。
本発明の実施例の目的は、従来技術における、音声ウェイクアップを行う時にウェイクアップワードを一回言う必要があるという技術的問題を解決することである。本発明の実施例は主にジェスチャーで音声ウェイクアップを行い、これから、それぞれ以下の実施例によって技術案をそれぞれ詳しく説明する。
実施例1
図1は本発明の実施例1に係るジェスチャーによる音声ウェイクアップ方法のフローチャートである。本実施例1はジェスチャーによる音声ウェイクアップ方法を提供し、以下のステップを含む。
S110では、ユーザーのジェスチャー画像を収集する。
ユーザーがあるスマート設備に対して音声対話機能を起動する必要がある場合、スマート設備のカメラに面して特定のジェスチャーをして、カメラによってユーザーのジェスチャー画像をリアルタイムに収集することができる。
S120では、ユーザーのジェスチャー画像がプリセット画像に一致するかどうかを判断する。
受信されたユーザーのジェスチャー画像に基づいて判断し、プリセット画像と比較して、一致するかどうかを判断してもよい。ただし、本実施例に記載の一致するジェスチャー画像は必ずしも完全に同じであるとは限らず、同じジェスチャーをすればよい。例えば、図2は本実施例1における第一プリセット画像の模式図である。本実施例1において、プリセットジェスチャー画像が伸び出した手の指の画像であってもよい。収集されたジェスチャー画像も伸び出した手の指の画像であって、スマート設備の位置を指す場合、収集されたジェスチャー画像がプリセットジェスチャー画像に一致すると判断してもよい。
同様に、プリセットジェスチャー画像をほかのユーザーが慣れているジェスチャー画像に調整してもよく、図3は本実施例1における第二プリセット画像の模式図である。例えば、プリセットジェスチャー画像を、指を鳴らす画像に設定してもよい。また、更に複数のジェスチャー画像を同時に予め設定してもよい。
S130では、ユーザーのジェスチャー画像がプリセット画像に一致する場合、音声対話機能をウェイクアップする。
ジェスチャー画像がプリセット画像に一致すると判断する場合、対応する音声対話機能をウェイクアップする。ユーザーがスマート設備と音声通話をすることができる。複数のプリセット画像がある時、1つのジェスチャー画像がプリセット画像に一致する限り、音声対話機能をウェイクアップする。
実施例2
実施例1との相違点は、本実施例2において、ユーザーのジェスチャー画像に対して比較するだけでなく、更にジェスチャーで出した音に対して比較し、具体案は以下のとおりである。
図4は本実施例2に係るジェスチャーによる音声ウェイクアップ方法のフローチャートである。本実施例2のジェスチャーによる音声ウェイクアップ方法は以下のステップを含む。
S210では、ユーザーのジェスチャー画像及びジェスチャーで出した音を収集する。
ユーザーがあるスマート設備に対して音声対話機能を起動する必要がある場合、特定のジェスチャーをして、該特定のジェスチャーで対応する音を出し、スマート設備によってジェスチャー画像及びジェスチャーによる音を同時に収集することができる。本実施例2において、ユーザーのしたジェスチャーは指を鳴らす画像であってもよく、該ジェスチャーで出した音が指を鳴らす音である。
S220では、ユーザーのジェスチャー画像がプリセット画像に一致するかどうかを判断する。
受信されたユーザーのジェスチャー画像に基づいて判断し、プリセット画像と比較して、一致するかどうかを判断してもよい。本実施例に記載の一致するジェスチャー画像は必ずしも完全に同じであるとは限らず、同じジェスチャーをすればよい。
S230では、ユーザーのジェスチャーによる音がプリセット音に一致するかどうかを判断する。
該ステップにおいて、ジェスチャーによる音に対して一致するかどうかを更に判断する。ジェスチャーによる音がジェスチャー画像に対応する。例えば、プリセットジェスチャー画像が指を鳴らす画像である場合、プリセットジェスチャーによる音が指を鳴らす音である。
S240では、ユーザーのジェスチャー画像がプリセット画像に一致し且つジェスチャーによる音がプリセット音に一致する場合、音声対話機能をウェイクアップする。
本実施例2において、異なる形のジェスチャーを更に用いてもよく、例えば、拍手の態様等を用いてもよい。
実施例3
本実施例3は実施例1に対応し、ジェスチャーによる音声ウェイクアップ装置を提供する。図5は本実施例3に係るジェスチャーによる音声ウェイクアップ装置の接続ブロック図である。
本実施例3に係るジェスチャーによる音声ウェイクアップ装置は、
ユーザーのジェスチャー画像を収集するための収集モジュール110と、
ユーザーのジェスチャー画像がプリセット画像に一致するかどうかを判断するための画像判断モジュール120と、
ユーザーのジェスチャー画像がプリセット画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュール130と、を備える。
前記プリセット画像は伸び出した手の指の画像であってもよいし、指を鳴らすジェスチャー画像であってもよい。又は、複数の画像、例えば伸び出した手の指の画像及び指を鳴らすジェスチャー画像を同時に予め設定してもよい。
本実施例3は実施例1の原理と同様であり、詳細な説明は省略する。
実施例4
本実施例4は実施例2に対応し、ジェスチャーによる音声ウェイクアップ装置を提供し、具体的に、以下のとおりである。
図6は本実施例4に係るジェスチャーによる音声ウェイクアップ装置の接続ブロック図である。本発明の実施例4はジェスチャーによる音声ウェイクアップ装置を提供し、
ユーザーのジェスチャー画像を収集するための画像収集モジュール210と、
ユーザーのジェスチャーで出した音を収集することに用いられ、例えば、前記プリセットジェスチャー画像が指を鳴らす画像であってもよいし、前記プリセット音が指を鳴らす音であってもよい音収集モジュール220と、
ユーザーのジェスチャー画像がプリセット画像に一致するかどうかを判断するための画像判断モジュール230と、
ユーザーのジェスチャーによる音がプリセット音に一致するかどうかを判断するための音判断モジュール240と、
ユーザーのジェスチャー画像がプリセット画像に一致し且つジェスチャーによる音がプリセット音に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュール250と、を備える。
本実施例4の応用態様及び原理は実施例2と同様であり、詳細な説明は省略する。
実施例5
本発明の実施例5はジェスチャーによる音声ウェイクアップ設備を提供し、図7に示すように、該設備は、メモリ310及びプロセッサ320を備え、メモリ310にプロセッサ320で実行できるコンピュータプログラムが記憶される。前記プロセッサ320が前記コンピュータプログラムを実行する時、上記実施例におけるジェスチャーによる音声ウェイクアップ方法を実現する。前記メモリ310及びプロセッサ320の数が1つ又は複数であってもよい。
該設備は、更に、
外部設備と通信し、データの対話式伝送を行うための通信インターフェース330を備える。
メモリ310は高速RAMメモリを含んでもよいし、更に不揮発性メモリ(non−volatile memory)、例えば少なくとも1つの磁気ディスク記憶装置を含んでもよい。
メモリ310、プロセッサ320及び通信インターフェース330が独立して実現される場合、メモリ310、プロセッサ320及び通信インターフェース330がバスを介して互いに接続されて相互間の通信を実現することができる。前記バスはインダストリ・スタンダード・アーキテクチャ(ISA、Industry Standard Architecture)バス、ペリフェラル・コンポーネント・インターコネクト(PCI、Peripheral Component Interconnect)バス又は拡張インダストリ・スタンダード・アーキテクチャ(EISA、Extended Industry Standard Architecture)バス等であってもよい。前記バスをアドレスバス、データバス、制御バス等に分けてもよい。容易に示すために、図7に一本のみの太線で示すが、一本のみのバス又は1つのみのタイプのバスがあると示すことではない。
好ましくは、具体的に実現する時、メモリ310、プロセッサ320及び通信インターフェース330が一枚のチップに統合される場合、メモリ310、プロセッサ320及び通信インターフェース330が内部インターフェースを介して相互間の通信を実現することができる。
本明細書の説明において、参照用語「一実施例」、「いくつかの実施例」、「例」、「具体例」、又は「いくつかの例」等の説明とは該実施例又は例を参照しながら説明された具体的な特徴、構造、材料又は特徴が本発明の少なくとも1つの実施例又は例に含まれることを意味する。且つ、説明された具体的な特徴、構造、材料又は特徴はいずれか又は複数の実施例又は例で適切な態様で結合してもよい。また、矛盾しない限り、当業者は本明細書に説明された異なる実施例又は例及び異なる実施例又は例の特徴を結合する及び組み合わせることができる。
また、用語「第1」、「第2」は説明目的でのみ使用されており、相対重要性を指示又は示唆したり、指示した技術的特徴の数を黙示的に指示したりするものではない。従って、「第1」、「第2」を付けて定義された特徴は少なくとも1つの該特徴を明示的又は黙示的に含むと理解できる。本発明の説明において、「複数」は、特に断らない限り、2つ又は2つ以上を意味する。
当業者は、フローチャート又はここでほかの態様で説明された任意の過程又は方法についての説明が、特定の論理機能又は過程を実現するための1つ又はそれ以上のステップを含む実行可能命令コードのモジュール、セグメント又は一部を示すと理解されてもよく、且つ本発明の好適な実施形態の範囲はほかの実現を含み、図示又は検討された順序ではなく、関わる機能に応じて基本同時の態様又は逆順序で機能を実行してもよいことを理解すべきである。
フローチャートに示し又はここでほかの態様で説明された論理及び/又はステップは、例えば、論理機能を実現するための実行可能命令の順番付けリストであると見なされてもよく、具体的に任意のコンピュータ可読媒体で命令実行システム、装置又は設備(例えばコンピュータによるシステム、プロセッサを備えるシステム又は命令実行システム、装置又は設備から命令を取得して命令を実行することができるほかのシステム)に使用されてもよく、又はこれらの命令実行システム、装置又は設備と合わせて使用されてもよい。本明細書は、「コンピュータ可読媒体」がプログラムを包含、記憶、通信、伝播又は伝送することにより命令を実行するためのシステム、装置又は設備又はこれらの命令実行システム、装置又は設備を合わせて使用する任意の装置であってもよい。
本発明の実施例に記載のコンピュータ可読媒体はコンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記2つの組み合わせであってもよい。コンピュータ可読記憶媒体のさらなる具体例は少なくとも(非網羅的リスト)1つ又は複数の配線を有する電気接続部(電子装置)、ポータブルコンピュータケース(磁気装置)、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、光ファイバー装置、及びポータブルリードオンリメモリ(CDROM)を含む。また、例えば用紙又はほかの媒体を光学的に走査し、次に編集、解釈し又は必要な時にほかの適切な態様で処理して電子態様で前記プログラムを取得し、次にそれをコンピュータメモリに記憶することができるため、コンピュータ可読記憶媒体は更にその上に前記プログラムを印刷できる用紙又はほかの適切な媒体であってもよい。
本発明の実施例において、コンピュータ可読プログラムコードを運ぶコンピュータ可読信号媒体はベースバンド又は搬送波の一部として伝播するデータ信号に含まれてもよい。このような伝播するデータ信号は様々な形態を用いてもよく、電磁信号、光信号又は上記任意の適切な組み合わせを含むが、それらに限らない。コンピュータ可読信号媒体は更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は命令実行システム、入力法又はデバイスに使用され又はそれと合わせて使用されるためのプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送されてもよく、上記媒体は無線、電線、光ケーブル、無線周波数(Radio Frequency、RF)等、又は上記任意の適切な組み合わせを含むが、それらに限らない。
理解すべきなのは、本発明の各部分はハードウェア、ソフトウェア、ファームウェア又はそれらの組み合わせで実現されてもよい。上記実施形態において、複数のステップ又は方法はメモリに記憶されて適切な命令実行システムで実行するソフトウェア又はファームウェアにより実現されてもよい。例えば、ハードウェアにより実現される場合は、別の実施形態と同様に、データ信号に対して論理機能を実現するための論理ゲート回路を有する離散論理回路、適切な組み合わせ論理ゲート回路を有する特定用途向け統合回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)等の本分野で公知の技術のいずれか一項又はそれらの組み合わせにより実現されてもよい。
当業者は、上記実施例方法におけるステップの全部又は一部を実現するために、プログラムによって関連するハードウェアを命令することにより完了することができ、前記プログラムが一種のコンピュータ可読記憶媒体に記憶されてもよく、該プログラムが実行時に方法実施例における1つのステップ又はその組み合わせを含むと理解される。
また、本発明の各実施例における各機能ユニットが1つの処理モジュールに統合されてもよく、各ユニットが独立して物理的に存在してもよく、2つ又は2つ以上のユニットが1つのモジュールに統合されてもよい。上記統合されたモジュールはハードウェアの形で実現されてもよいし、ソフトウェア機能モジュールの形で実現されてもよい。前記統合されたモジュールはソフトウェア機能モジュールの形で実現されて独立した製品として販売又は使用される時、1つのコンピュータ可読記憶媒体に記憶されてもよい。前記記憶媒体はリードオンリメモリ、磁気ディスク又は光ディスク等であってもよい。
要するに、本発明の実施例は明確なウェイクアップワードを言わずにスマート音声対話設備をウェイクアップさせることができ、それにより音声ウェイクアップを更にスマート化し、ユーザーと音声設備との対話に役立つ。
以上の説明は本発明の具体的な実施形態であって、本発明の保護範囲はこれに限らず、当業者が本発明に開示された技術的範囲内に、容易に想到し得る種々の変更又は置換は、いずれも本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は前記特許請求の保護範囲に準じる。
110 収集モジュール
120 画像判断モジュール
130 ウェイクアップモジュール
210 画像収集モジュール
220 音収集モジュール
230 画像判断モジュール
240 ウェイクアップモジュール
250 音声判断モジュール
310 メモリ
320 プロセッサ
330 通信インターフェース

Claims (7)

  1. ジェスチャーによる音声ウェイクアップ方法であって、
    ユーザーのジェスチャー画像を収集すると同時に、前記ジェスチャーで出されたジェスチャー音を収集することと、
    前記ユーザーの前記ジェスチャー画像がプリセット画像に一致するかどうかを判断することと、
    前記ユーザーの前記ジェスチャーで出されたジェスチャー音がプリセット音に一致するかどうかを判断することと、
    前記ユーザーの前記ジェスチャー画像が前記プリセット画像に一致し且つ前記ジェスチャーで出されたジェスチャー音が前記プリセット音に一致する場合、音声対話機能をウェイクアップすることと、を含み、
    前記プリセット画像が指を鳴らす画像または拍手の画像であり、前記プリセット音が指を鳴らす音または拍手の音である
    ことを特徴とするジェスチャーによる音声ウェイクアップ方法。
  2. 前記プリセット画像が指を鳴らすジェスチャー画像または拍手のジェスチャー画像であることを特徴とする請求項1に記載のジェスチャーによる音声ウェイクアップ方法。
  3. ジェスチャーによる音声ウェイクアップ装置であって、
    ユーザーのジェスチャー画像を収集するための画像収集モジュールと、
    前記ユーザーのジェスチャーで出されたジェスチャー音を収集するための音収集モジュールと、
    前記ユーザーの前記ジェスチャー画像がプリセット画像に一致するかどうかを判断するための画像判断モジュールと、
    前記ユーザーの前記ジェスチャーで出されたジェスチャー音がプリセット音に一致するかどうかを判断するための音判断モジュールと、
    前記ユーザーの前記ジェスチャー画像が前記プリセット画像に一致し且つ前記ジェスチャーで出されたジェスチャー音が前記プリセット音に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュールと、を備え
    前記プリセット画像が指を鳴らす画像または拍手の画像であり、前記プリセット音が指を鳴らす音または拍手の音である
    ことを特徴とするジェスチャーによる音声ウェイクアップ装置。
  4. 前記プリセット画像が指を鳴らすジェスチャー画像または拍手のジェスチャー画像であることを特徴とする請求項に記載のジェスチャーによる音声ウェイクアップ装置。
  5. ジェスチャーによる音声ウェイクアップ設備であって、
    1つ又は複数のプロセッサと、
    1つ又は複数のプログラムを記憶するための記憶装置と、を備え、
    前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに請求項1または2に記載のジェスチャーによる音声ウェイクアップ方法を実現させることを特徴とするジェスチャーによる音声ウェイクアップ装置。
  6. コンピュータプログラムが記憶されるコンピュータ可読媒体であって、 該プログラムがプロセッサにより実行される場合、請求項1または2に記載のジェスチャーによる音声ウェイクアップ方法を実現することを特徴とするコンピュータ可読媒体。
  7. コンピュータにおいて、プロセッサにより実行される場合、請求項1または2に記載の方法を実現することを特徴とするプログラム。
JP2018167825A 2018-01-22 2018-09-07 ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム Active JP6975696B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810061028.4 2018-01-22
CN201810061028.4A CN108181992A (zh) 2018-01-22 2018-01-22 基于手势的语音唤醒方法、装置、设备及计算机可读介质

Publications (2)

Publication Number Publication Date
JP2019128939A JP2019128939A (ja) 2019-08-01
JP6975696B2 true JP6975696B2 (ja) 2021-12-01

Family

ID=62551142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018167825A Active JP6975696B2 (ja) 2018-01-22 2018-09-07 ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム

Country Status (3)

Country Link
US (1) US10783364B2 (ja)
JP (1) JP6975696B2 (ja)
CN (1) CN108181992A (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9476095B2 (en) 2011-04-15 2016-10-25 The Johns Hopkins University Safe sequencing system
EP3447495B2 (en) 2012-10-29 2024-03-13 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
US11286531B2 (en) 2015-08-11 2022-03-29 The Johns Hopkins University Assaying ovarian cyst fluid
CN108965584A (zh) * 2018-06-21 2018-12-07 北京百度网讯科技有限公司 一种语音信息的处理方法、装置、终端和存储介质
CN108877808B (zh) * 2018-07-24 2020-12-25 广东小天才科技有限公司 一种防误触的语音唤醒方法及家教设备
CN111078297A (zh) * 2018-10-18 2020-04-28 奇酷互联网络科技(深圳)有限公司 唤醒语音助手的方法、移动终端和计算机可读存储介质
CN111105792A (zh) 2018-10-29 2020-05-05 华为技术有限公司 语音交互处理方法及装置
CN109819319A (zh) * 2019-03-07 2019-05-28 重庆蓝岸通讯技术有限公司 一种录像记录关键帧的方法
CN109949812A (zh) * 2019-04-26 2019-06-28 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、设备及存储介质
CN110164440B (zh) * 2019-06-03 2022-08-09 交互未来(北京)科技有限公司 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
CN112306358A (zh) * 2019-08-23 2021-02-02 北京字节跳动网络技术有限公司 语音交互设备、交互语音设备控制方法、装置及存储介质
CN112764349A (zh) * 2019-11-01 2021-05-07 佛山市云米电器科技有限公司 晾衣架控制方法、晾衣架、***及存储介质
CN111341317B (zh) * 2020-02-19 2023-09-01 Oppo广东移动通信有限公司 唤醒音频数据的评价方法、装置、电子设备及介质
KR20210116838A (ko) * 2020-03-17 2021-09-28 삼성전자주식회사 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법
CN111625094B (zh) * 2020-05-25 2023-07-14 阿波罗智联(北京)科技有限公司 智能后视镜的交互方法、装置、电子设备和存储介质
CN111368814A (zh) * 2020-05-27 2020-07-03 支付宝(杭州)信息技术有限公司 一种身份识别方法及***
CN112750437A (zh) * 2021-01-04 2021-05-04 欧普照明股份有限公司 控制方法、控制装置及电子设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2641470B2 (ja) 1987-12-28 1997-08-13 アイシン・エィ・ダブリュ株式会社 ナビゲーション装置
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法
JP2011232637A (ja) * 2010-04-28 2011-11-17 Honda Motor Co Ltd 車両の制御装置
US8854433B1 (en) * 2012-02-03 2014-10-07 Aquifi, Inc. Method and system enabling natural user interface gestures with an electronic system
US9063731B2 (en) * 2012-08-27 2015-06-23 Samsung Electronics Co., Ltd. Ultra low power apparatus and method to wake up a main processor
US9081571B2 (en) * 2012-11-29 2015-07-14 Amazon Technologies, Inc. Gesture detection management for an electronic device
CN104065798B (zh) * 2013-03-21 2016-08-03 华为技术有限公司 声音信号处理方法及设备
CN104423551B (zh) * 2013-09-02 2018-02-27 联想(北京)有限公司 一种电子设备及手势识别方法
JP2016052721A (ja) 2014-09-02 2016-04-14 株式会社フットテクノ 複合ファブリック3次元構造体
CN104834222B (zh) * 2015-04-30 2018-11-27 广东美的制冷设备有限公司 家用电器的控制方法和装置
CN105120058A (zh) * 2015-07-02 2015-12-02 上海闻泰电子科技有限公司 基于光感的手机手势识别***
CN105501121B (zh) * 2016-01-08 2018-08-03 北京乐驾科技有限公司 一种智能唤醒方法及***
CN105527710B (zh) * 2016-01-08 2018-11-20 北京乐驾科技有限公司 一种智能抬头显示***
CN105700372A (zh) * 2016-03-11 2016-06-22 珠海格力电器股份有限公司 智能设备及其控制方法
CN105881548B (zh) 2016-04-29 2018-07-20 北京快乐智慧科技有限责任公司 唤醒智能交互机器人的方法及智能交互机器人
JP6789668B2 (ja) * 2016-05-18 2020-11-25 ソニーモバイルコミュニケーションズ株式会社 情報処理装置、情報処理システム、情報処理方法
CN106933369B (zh) * 2017-03-30 2023-07-21 北京集创北方科技股份有限公司 一种触摸显示控制装置和触摸显示控制方法
CN107517313A (zh) * 2017-08-22 2017-12-26 珠海市魅族科技有限公司 唤醒方法及装置、终端及可读存储介质

Also Published As

Publication number Publication date
CN108181992A (zh) 2018-06-19
US20190228217A1 (en) 2019-07-25
JP2019128939A (ja) 2019-08-01
US10783364B2 (en) 2020-09-22

Similar Documents

Publication Publication Date Title
JP6975696B2 (ja) ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム
JP6811755B2 (ja) 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム
US11257497B2 (en) Voice wake-up processing method, apparatus and storage medium
US20180088902A1 (en) Coordinating input on multiple local devices
US11209897B2 (en) Strengthening prediction confidence and command priority using natural user interface (NUI) inputs
CN107731231B (zh) 一种支持多云端语音服务的方法及一种存储设备
US9921805B2 (en) Multi-modal disambiguation of voice assisted input
CN112331214A (zh) 设备唤醒方法及装置
US20170300225A1 (en) Displaying application page of mobile terminal
CN111402877A (zh) 基于车载多音区的降噪方法、装置、设备和介质
EP3324289A1 (en) Contextual conversation mode for digital assistant
CN104049727A (zh) 一种移动终端与车载终端的相互控制方法
EP4203548A1 (en) Inter-core communication method and apparatus, electronic assembly, and electronic device
CN112230877A (zh) 一种语音操作方法、装置、存储介质及电子设备
CN105760084A (zh) 语音输入的控制方法和装置
WO2020057241A1 (zh) 应用程序显示的方法、装置及终端设备
CN110413335A (zh) 一种基于指纹的开机方法及装置
CN109753148A (zh) 一种vr设备的控制方法、装置及控制终端
CN109034808B (zh) 一种支付类应用程序的运行方法、运行装置及终端设备
CN111107532B (zh) 信息处理方法和装置、以及电子设备
US11238863B2 (en) Query disambiguation using environmental audio
US11302322B2 (en) Ignoring command sources at a digital assistant
CN114546910A (zh) 访问控制方法、装置、存储介质及电子装置
US20150127861A1 (en) Dynamic Data Collection Communication Between Adapter Functions
CN113568737B (zh) 硬件资源分配方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210913

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210913

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210924

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211108

R150 Certificate of patent or registration of utility model

Ref document number: 6975696

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150