JP2020109463A - 視覚ベースのメカニズムに基づくスマート表示装置の音声コマンドによる起動方法及びシステム - Google Patents

視覚ベースのメカニズムに基づくスマート表示装置の音声コマンドによる起動方法及びシステム Download PDF

Info

Publication number
JP2020109463A
JP2020109463A JP2019124380A JP2019124380A JP2020109463A JP 2020109463 A JP2020109463 A JP 2020109463A JP 2019124380 A JP2019124380 A JP 2019124380A JP 2019124380 A JP2019124380 A JP 2019124380A JP 2020109463 A JP2020109463 A JP 2020109463A
Authority
JP
Japan
Prior art keywords
display device
smart display
image
face
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019124380A
Other languages
English (en)
Inventor
シューチェン ヤオ
Xuchen Yao
シューチェン ヤオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of JP2020109463A publication Critical patent/JP2020109463A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】スマート表示装置によって捕捉された画像内の顔の存在を利用することによって、スマート表示装置の音声認識をいつ起動するかをインテリジェントに判定することができる。【解決手段】スマート表示装置100は、入射光を画像として捕捉する光捕捉装置105、画像中に存在する1つまたは複数の顔を識別する顔検出モジュール115、画像内にある顔に基づいてスマート表示装置に関連付けられた記録デバイス150の音声認識を起動するか否かを判定するアルゴリズム制御モジュール135を備える。【選択図】図1

Description

本発明の実施形態は、概してスマート表示装置に関する。本発明の実施形態は、より具体的には、視覚ベースのメカニズムに基づくスマート表示装置の音声コマンドによる起動方法に関する。
グーグルホーム(Google Home)スマートディスプレイまたはアマゾンエコーショー(Amazon Echo Show)のようなスマート表示装置は、情報をユーザに提示するための一体型ディスプレイまたはタッチスクリーンディスプレイを含む音声アシスタントスマートスピーカーであってもよい。スマート表示装置のユーザからの音声コマンドを通じて、またはタッチスクリーンディスプレイを介したコマンドの物理的入力によって、スマートデバイスにコマンドおよび命令を発する。そして、スマート表示装置のディスプレイは、受信したコマンドに基づいてディスプレイを介してユーザに情報を提示することができる。
本発明の実施例は、図面の各図において限定的ではなく例示的な形態で示され、図面における類似の符号が類似の素子を示す。
一実施例に係るスマート表示装置の表示コントローラの一例を示すブロック図である。 実施例に係るスマート表示装置の記録デバイスを起動するか否かを判定するためにアルゴリズム制御モジュールに提供される特徴の一例を示す図である。 一実施例に係るスマート表示装置のローカルモデルを生成するプロセスを示すフローチャートである。 一実施例に係る画像内にある顔に基づいてスマート表示装置の記録デバイスを起動すると判定するプロセスを示すフローチャートである。 一実施例に係るデータ処理システムを示すブロック図である。
以下に説明される詳細を参照しながら本発明の様々な実施例および態様を説明し、添付図面に前記様々な実施例を示す。以下の説明及び図面は、本発明を説明するためのものであり、本発明を限定するものではないことを理解されたい。本発明の様々な実施例を完全に把握するために、多数の特定の詳細を説明する。なお、本発明の実施例を簡潔的に説明するように、周知または従来技術の詳細について説明していない場合もある。
本明細書において、「一実施例」又は「実施例」とは、当該実施例を参照しながら説明された特定の特徴、構造又は特性が本発明の少なくとも1つの実施例に包含されてもよいことを意味する。「一実施例では」という表現は、本明細書の全体において全てが同一の実施例を指すとは限らない。
従って、本発明の実施例は、視覚ベースのメカニズムに基づいてスマート表示装置の音声コマンドを起動するスマート表示装置を提供する。通常、スマート表示装置は、ウェイクワードと呼ばれるものにより起動される。スマート表示装置に音声コマンドを提供するユーザにとっては、スマート表示装置を起動するウェイクワードを発した後、所望のコマンドを発する必要がある。例えば、ユーザは、スマート表示装置に天気を表示させたい場合、「Alexa、今日の天気はどうですか?」と言うことができる。ウェイクワード(例えば:Alexa)が識別されると、スマート表示装置は、ユーザのコマンドに基づいてタスクを起動し実行することができる(例えば、天気を調べてユーザに提示する)。
しかしながら、スマート表示装置に複数のコマンドを提供するユーザは、各々の独立したコマンドの前にウェイクワードを使用する必要がある。そのようなプロセスは、面倒であり、望ましくないユーザ体験を引き起こす可能性がある。また、ユーザは、各コマンドの前にウェイクワードを使用するのを忘れる可能性があり、そうすると、スマート表示装置に対してコマンドを繰り返す必要がある。
本発明のシステムおよび方法の実施例は、視覚ベースのメカニズムに基づいてスマート表示装置の記録デバイスを起動するか否かを判定することによって、そのタスクに対する解決策を提供する。スマート表示装置は、スマート表示装置の周囲の1つまたは複数の画像を捕捉することができる、カメラなどのような光捕捉装置を含んでもよい。例えば、カメラは、スマート表示装置の前方の環境における一連の画像を含む映像を捕捉することができる。光捕捉装置は、画像をスマート表示装置の記録コントローラに提供する。
記録コントローラは、光捕捉装置から受信された画像に顔が存在するか否かを判定する。光捕捉装置によって受信された画像内に存在する顔は、ユーザがスマート表示装置を使用していることを示すことができる。実施例では、記録コントローラは、画像内に存在する顔の奥行きや画像内に存在する顔の視線方向など、画像の付加的特徴を確定することができる。記録コントローラは、画像内に存在する顔に基づいてスマート表示装置の記録デバイスを起動するか否かを判定することができる。例えば、記録コントローラは、記録デバイスを介して音声認識を起動することができる。音声認識が起動されると、記録装置は、音声分析(例えば、音声認識)およびその後の音声コマンドに基づくタスクの実行のために、スマート表示装置に提供される音声コマンドをユーザから受信することができる。
従って、スマート表示装置によって捕捉された画像内の顔の存在を利用することによって、スマート表示装置の記録コントローラは、スマート表示装置の音声認識をいつ起動するかをインテリジェントに判定することができる。いつ音声認識を作動させるかをインテリジェントに判定することによって、ユーザは、音声コマンドをスマート表示装置に提供する前にウェイクワードを使用する必要がなくなり、その結果、ユーザーエクスペリエンスが向上する。さらに、スマート表示装置の音声認識によるインテリジェントな作動/停止は、ユーザがいないときの音声認識の作動を防止でき、スマート表示装置の電力消費量を低減することができる。
図1は、一実施例に係るスマート表示装置100のディスプレイコントローラの一例を示すブロック図である。図1に示すように、スマート表示装置100は、光捕捉装置105および記録デバイス150に動作可能に接続された記録コントローラ110を含むが、これらに限定されない。記録コントローラ110は、ソフトウェア、ハードウェア、またはそれらの組み合わせで実現されてもよい。例えば、記録コントローラ110の構成要素の少なくとも一部は、メモリ(例えば、ダイナミックRAM(DRAM)などのランダムアクセスメモリ(RAM)にロードされ、スマート表示装置100(図示せず)の1つまたは複数のプロセッサ(例えば、中央処理装置(CPU)または汎用処理装置(GPU)などのマイクロプロセッサ)の処理ロジックによって実行されてもよい。
光捕捉装置105は、入射光を画像として捕捉し、捕捉された光に対応する信号を記録コントローラ110に送信するように構成されてもよい。実施例では、光捕捉装置105は、記録コントローラ110に動作可能に接続されるカメラであってもよい。実施例では、光捕捉装置105は、単一のカメラであってもよい。いくつかの実施例では、光捕捉装置105は、複数のカメラであってもよい。
記録コントローラ110は、顔検出モジュール115を含んでもよい。顔検出モジュール115は、画像中に存在する1つまたは複数の顔を識別するように構成されることができる。実施例では、顔検出モジュール115は、画像内の顔の輪郭ボックスと、その輪郭ボックスが画像内の顔に対応する信頼度とを出力することができる。いくつかの実施例では、顔検出モジュール115は、スマート表示装置100に格納されたローカルモデル130に基づいて、画像中に顔が存在すると判定することができる。例えば、顔検出モジュール115は、画像内に存在する顔が実際にユーザの顔であるか否かを判定するために、画像内に存在する顔とローカルモデル130とを比較することができる。実施例では、ローカルモデル130は、以下に図3でさらに詳細に説明するように、スマート表示装置100によって事前に登録され訓練されたユーザの画像に対応することができる。
いくつかの実施例では、顔検出モジュール115は、一組のユーザのうちの特定のユーザを識別するように構成されてもよい。当該一組のユーザのうちの各ユーザは、その後に画像内の各ユーザを識別するためにローカルモデル130で使用されるべき1つまたは複数の画像を提供することができる。例えば、ユーザAが画像内に存在するとき、顔検出モジュール115は、確率的分類タスク(probabilistic classification task)によってユーザAが画像内に存在すると判定することができる。
記録コントローラ110は、奥行き計算モジュール120をさらに含んでもよい。奥行き計算モジュール120は、画像内の顔の奥行きを判定するように構成されてもよい。顔の奥行きは、顔とスマート表示装置100の光捕捉装置105との間の距離に対応することが可能である。いくつかの実施例では、奥行き計算モジュール120は、複数のカメラにより画像内に存在する顔の奥行きを確定することができる。例えば、第1のカメラによって捕捉された第1の画像と、第2のカメラによって同時に捕捉された第2の画像とを比較することによって、画像内の顔の奥行きを確定することができる。単一のカメラを含む実施例では、奥行き計算モジュール120は、オブジェクトによって占められている画像の部分を確定することによって、カメラまでのオブジェクトの距離を概算することができる。例えば、人物の顔が画像の80%を占める場合、奥行き計算モジュール120は、人物がカメラのすぐそばにいると近似することができる。
記録コントローラ110は、視線検出モジュール125を備えていてもよい。視線検出モジュール125は、画像内の顔が光捕捉装置105またはスマート表示装置100を見ているか否かを検出するように構成されてもよい。実施例では、視線検出モジュール125は、1つまたは複数のアルゴリズムを利用して画像内における顔の目の位置を検出することができる。次いで、視線検出モジュール125は、顔の目が光捕捉装置105またはスマート表示装置100に向かう方向を見ているか否かを判定することができる。
実施例では、顔検出モジュール115、奥行き計算モジュール120および/または視線検出モジュール125は並行して動作することが可能である。いくつかの実施例では、顔検出モジュール115、奥行き計算モジュール120および/または視線検出モジュール125は直列に動作することが可能である。例えば、顔検出モジュール115は奥行き計算モジュール120にデータを提供することができ、奥行き計算モジュール120は視線検出モジュール125にデータを提供することができる。
記録デバイス150は、音声コマンドなどの着信音を捕捉するように構成されることができる。実施例では、記録デバイス150は、記録コントローラ110に動作可能に接続されるマイクロホンであってもよい。実施例では、記録デバイス150は単一のマイクロホンであってもよい。いくつかの実施例では、記録デバイス150は複数のマイクロホンであってもよい。例えば、記録デバイス150は、線形、三角形、正方形または円形のレイアウトで配置された2〜8個のマイクロホンからなるマイクロホンアレイであってもよい。
記録コントローラ110は、アルゴリズム制御モジュール135を更に含んでもよい。アルゴリズム制御モジュール135は、顔検出モジュール115、奥行き計算モジュール120および/または視線検出モジュール125からデータを受信することができる。アルゴリズム制御モジュール135は、受信したデータに基づいて、スマート表示装置100の記録デバイス150を起動および/または停止するか否かを判定するように構成されてもよい。実施例では、アルゴリズム制御モジュール135は、機械学習モデルを利用して、記録デバイス150を起動するかまたは停止するかを判定し、信頼スコアを決定することが可能である。一実施例では、クラウドベースのプラットフォームなどのリモートサーバから機械学習モデルを受信することができる。アルゴリズム制御モジュール135によって利用可能な機械学習モデルの一例としては、線形モデル、非線形モデル、浅層モデルおよび深層モデルを含むが、それらに限定されない。アルゴリズム制御モジュール135が記録デバイス150の起動/停止を決定すると、記録コントローラ110は、記録デバイス150に信号を送信することによって、上記決定に基づいて記録デバイス150を起動することができる。
図2は、実施例に係るスマート表示装置の記録デバイスを起動するか否かを判定するためにアルゴリズム制御モジュールに提供される特徴の一例を示す表示例200である。上述したように、光捕捉装置から受信された1つまたは複数の画像に関連付けられた特徴をアルゴリズム制御モジュール135に提供することができる。アルゴリズム制御モジュール135は、受信された特徴を機械学習モデルへの入力として使用可能であり、機械学習モデルはスマート表示装置の記録デバイス150を起動するか否かを判定することができる。各特徴は、機械学習モデルによる記録デバイス150を起動するか否かについての判定に影響を与えることが可能である。
ブロック210では、記録コントローラは、前述のように、画像内に顔が存在するか否かを判定することができる。アルゴリズム制御モジュール135は、画像内の顔の存在により記録デバイス150を起動するか否かを判定することができる。例えば、画像中に顔が存在する場合、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、増加する可能性がある。
ブロック215では、記録コントローラは、画像内の顔の奥行きを確定することができる。アルゴリズム制御モジュール135は、画像内の顔の奥行きにより、記録デバイス150を起動するか否かを判定することができる。実施例では、画像内の顔からスマート表示装置までの距離が閾値距離未満である場合、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、増加する可能性がある。例えば、ユーザの顔がスマート表示装置から2フィートの閾値距離内にある場合、当該ユーザがスマート表示装置を使用している可能性が高いことを示し、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、増加する可能性がある。いくつかの実施例では、画像内のユーザの顔からスマート表示装置までの距離が閾値距離を超える場合、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、低下する可能性がある。例えば、スマート表示装置までのユーザの顔の距離が20フィートの閾値よりも大きい場合、当該ユーザはスマート表示装置を使用していない可能性が高い。従って、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、低下する可能性がある。
ブロック220では、記録コントローラは、画像内の顔の視線方向を確定することができる。アルゴリズム制御モジュール135は、画像内の顔の視線方向により、記録デバイス150を起動するか否かを判定することができる。例えば、画像内のユーザの顔の視線方向がスマート表示装置に向かう方向である場合、ユーザがスマート表示装置を使用している可能性があることを示し、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、増加する可能性がある。しかしながら、画像内のユーザの顔の視線方向がスマート表示装置に向かう方向ではない場合、人物がスマート表示装置を使用している可能性が低いことを示し、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、低下する可能性がある。
なお、表示例200は記録デバイス150を起動するか否かを判定するための、ブロック210、ブロック215およびブロック220における特徴を含むが、実施例では、記録デバイス150を起動するか否かを判定するために、より多くのまたはより少ない特徴を利用することが可能である。
図3は、一実施例に係るスマート表示装置のローカルモデルを生成するプロセス300を示すフローチャートである。プロセス300は、処理ロジックにより実行可能であり、処理ロジックはソフトウェア、ハードウェア、またはそれらの組み合わせを備えていてもよい。例えば、プロセス300の1つまたは複数の動作は、図1の記録コントローラ110によって実行されることができる。
図3に示すように、動作305において、処理ロジックは光捕捉装置から画像を受信する。ユーザの顔が受信した画像内に存在する可能性がある。動作310において、処理ロジックは、スマート表示装置に格納されている1つまたは複数のローカルモデルを識別する。ローカルモデルは、先に図1に説明したように、ローカルモデル130に対応することができる。
動作315において、処理ロジックは、動作305で受信された画像が未知の顔を含んでいるか否かを判定する。処理ロジックは、受信された画像内の顔を1つまたは複数のローカルモデルと比較して、その画像が未知の顔を含むか否かを判定することができる。例えば、受信された画像内に存在する顔が前記ローカルモデルのうちの1つに対応しない場合、その画像はスマート表示装置に登録されていない未知の顔を含む可能性がある。画像が未知の顔を含まない場合、プロセス300は動作305に戻り、その後の画像を受信することができる。
画像が未知の顔を含む場合、動作320において、処理ロジックはスマート表示装置のためのセキュリティ証明書を受信する。例えば、処理ロジックは、スマート表示装置のユーザに、スマート表示装置のユーザ名およびパスワード、またはスマート表示装置の他の種類のセキュリティ証明書を入力するように提示することができる。セキュリティ証明書を受信すると、スマート表示装置は、未知のユーザをスマート表示装置のユーザとして登録することができる。未知のユーザを登録することは、未知のユーザにユーザ名を割り当てること、未知のユーザに特権を割り当てること、未知のユーザにプリファレンスを割り当てることなどを含むことができる。
いくつかの実施例では、ユーザがセキュリティ証明書をスマート表示装置に提供することができない場合、ユーザはスマート表示装置をゲストモードで使用できる可能性がある。ゲストモードで動作している場合、当該ユーザは登録ユーザと比較して低いレベルの特権を持っている可能性がある。例えば、ゲストモードで動作している間、ユーザは天気またはニュースにアクセス可能であるが、スマート表示装置に格納されている個人情報にアクセスすることまたは購入することはできない可能性がある。
動作325において、処理ロジックは、スマート表示装置に他のユーザを登録するべきか否かを判定する。処理ロジックは、音声プロンプトまたはスマート表示装置のディスプレイ上のプロンプトなどのプロンプトを提供することで、他のユーザを登録するか否かをユーザに尋ねることによって、他のユーザを登録するか否かを判定することができる。他のユーザを登録する場合、プロセス300は動作305に戻り、他のユーザに対してプロセス300を繰り返す。
他のユーザをスマート表示装置に登録しない場合、動作330において、未知のユーザのためのローカルモデルがスマート表示装置の処理ロジックによって訓練される。いくつかの実施例では、画像をクラウドベースのプラットフォームなどのリモートサーバに提供することができ、リモートサーバは未知のユーザについてローカルモデルを訓練し、訓練されたローカルモデルをスマート表示装置に送信することができる。画像をリモートサーバに提供する前に、スマート表示装置は、ローカルモデルの生成および訓練のためにリモートサーバに画像を提供する許可をユーザから取得することができる。その後、訓練されたローカルモデルは、先に図1で示したように、スマート表示装置によって使用されることができる。
図4は、一実施例に係る画像内にある顔に基づいてスマート表示装置の記録デバイスを起動すると判定するプロセス400を示すフローチャートである。プロセス400は、処理ロジックにより実行可能であり、処理ロジックはソフトウェア、ハードウェア、またはそれらの組み合わせを備えていてもよい。例えば、プロセス400は、図1の記録コントローラ110により実行されることが可能である。図4に示すように、動作401において、処理ロジックはスマート表示装置に関連付けられた光捕捉装置から画像を受信する。動作402において、画像内にある顔に基づいて、処理ロジックはスマート表示装置に関連付けられた記録デバイスを起動するか否かを判定する。動作403において、画像内にある顔に基づいて記録デバイスを起動すると判定されたことに応答して、処理ロジックはスマート表示装置に関連付けられた記録デバイスの音声認識を起動する。音声認識が起動されると、記録装置は、音声分析(例えば、音声認識)およびその後の音声コマンドに基づくタスクの実行のために、処理ロジックに送信可能な音声コマンドをユーザから受信することができる。
実施例では、処理ロジックは、光捕捉装置から1つまたは複数の後続の画像を受信することができる。後続の画像を受信すると、処理ロジックは、後続の画像内に顔があるか否かを判定することができる。後続の画像内に顔が存在しない場合、処理ロジックは記録デバイスを停止することができる。例えば、ユーザの顔が後続の画像に表示されなくなった場合、そのユーザはスマート表示装置を使用していない可能性がある。従って、処理ロジックは、記録デバイスを停止すると判定することができる。
図5は、本発明の一実施例と組み合わせて使用可能なデータ処理システムを例示的に示すブロック図である。例えば、システム1500は、上述したような前記プロセス又は方法のいずれかを実行するデータ処理システムのいずれか(例えば、上述した、クライアント装置若しくはサーバ、または上述した図1のスマート表示装置100など)を表すことができる。
システム1500は、いくつかの異なる構成要素を含んでもよい。これらの構成要素は、集積回路(IC)、集積回路の一部、ディスクリート型電子デバイス、または回路基板(例えば、コンピュータシステムのマザーボード若しくはアドインカード)に適するその他のモジュールとして実現されることができ、または、他の形態でコンピュータシステムのシャーシ内に組み込まれた構成要素として実現されることができる。
なお、システム1500は、コンピュータシステムのいくつかの構成要素の高レベルビューを示すことを意図している。しかしながら、一部の実施形態において付加的構成要素が存在してもよく、また、その他の実施形態において示された構成要素を異なる配置にすることが可能であることを理解されたい。システム1500は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、サーバ、携帯電話、メディアプレーヤ、パーソナルデジタルアシスタント(PDA)、スマートウォッチ、パーソナルコミュニケーター、ゲーム装置、ネットワークルーター若しくはハブ、無線アクセスポイント(AP)若しくはリピーター、セット・トップボックス、またはそれらの組み合わせを表すことができる。また、単一の機械またはシステムのみが示されたが、「機械」または「システム」という用語は、本明細書で説明されるいずれか1種または複数種の方法を実現するための、単独で又は共同で1つ(又は複数)の命令セットを実行する機械またはシステムのいずれかの組み合わせも含まれることを理解されたい。
一実施例では、システム1500は、バスまたはインターコネクト1510を介して接続される、プロセッサ1501、メモリ1503および装置1505〜1508を含む。プロセッサ1501は、単一のプロセッサコアまたは複数のプロセッサコアが含まれる単一のプロセッサまたは複数のプロセッサを表すことが可能である。プロセッサ1501は、マイクロプロセッサ、中央処理装置(CPU)などのような、1つまたは複数の汎用プロセッサを表すことが可能である。より具体的には、プロセッサ1501は、複雑命令セットコンピューティング(CISC)マイクロプロセッサ、縮小命令セットコンピューティング(RISC)マイクロプロセッサ、超長命令語(VLIW)マイクロプロセッサ、またはその他の命令セットを実行するプロセッサ、または命令セットの組み合わせを実行するプロセッサであってもよい。プロセッサ1501は更に1つまたは複数の専用プロセッサであってもよい。例えば、特定用途向け集積回路(ASIC)、セルラー若しくはベースバンドプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、デジタルシグナルプロセッサ(DSP)、ネットワークプロセッサ、グラフィックプロセッサ、ネットワークプロセッサ、通信プロセッサ、暗号化プロセッサ、コプロセッサ、組込みプロセッサ、または命令を処理可能な任意の他の種類のロジックが挙げられる。
プロセッサ1501は、超低電圧プロセッサのような低電力マルチコアプロセッサソケットであってもよく、前記システムの様々な構成要素と通信するための主処理ユニットおよび中央ハブとして機能することができる。このようなプロセッサは、システムオンチップ(SoC)として実装されてもよい。プロセッサ1501は、本明細書で説明される動作およびステップを実行するための命令を実行するように構成される。システム1500は、更に任意選択グラフィックサブシステム1504と通信するグラフィックインターフェースを含むことができ、グラフィックサブシステム1504は、ディスプレイコントローラ、グラフィックプロセッサ、および/または表示装置を含むことができる。
プロセッサ1501は、メモリ1503と通信することができ、メモリ1503は、一実施例では、所定量のシステムメモリを提供するための複数のメモリ装置によって実現されることができる。メモリ1503は、1つまたは複数の揮発性記憶(またはメモリ)装置を含んでもよい。例えば、ランダムアクセスメモリ(RAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、スタティックRAM(SRAM)、またはその他の種類の記憶装置が挙げられる。メモリ1503は、プロセッサ1501またはその他の任意の装置により実行される命令シーケンスを含む情報を格納することができる。例えば、様々なオペレーティングシステム、デバイスドライバ、ファームウェア(例えば、ベーシックインプット/アウトプットシステム若しくはBIOS)、および/またはアプリケーションの実行可能なコードおよび/またはデータは、メモリ1503にロードされ、プロセッサ1501により実行されることができる。オペレーティングシステムは、例えば、Microsoft(登録商標)社のWindows(登録商標)オペレーティングシステム、アップル社のMacOS(登録商標)/iOS(登録商標)、Google(登録商標)社のAndroid(登録商標)、LINUX(登録商標)、UNIX(登録商標)、またはその他のリアルタイム若しくは組込みオペレーティングシステムのような、任意の種類のオペレーティングシステム(例えば、VxWorks(登録商標))であってもよい。
システム1500は、例えば、ネットワークインターフェース装置1505、任意選択入力装置1506、及びその他の任意選択IO装置1507を含む装置1505〜1508のようなIO装置を更に含んでもよい。ネットワークインターフェース装置1505は、無線送受信機および/またはネットワークインターフェースカード(NIC)を含んでもよい。前記無線送受信機は、WiFi(登録商標)送受信機、赤外線送受信機、ブルートゥース(登録商標)送受信機、WiMax(登録商標)送受信機、無線携帯電話送受信機、衛星送受信機(例えば、全地球測位システム(GPS)送受信機)、またはその他の無線周波数(RF)送受信機、またはそれらの組み合わせであってもよい。NICは、イーサネット(登録商標)カードであってもよい。
入力装置1506は、マウス、タッチパネル、タッチスクリーン(表示装置1504と統合されてもよい)、ポインター装置(例えば、スタイラス)、および/またはキーボード(例えば、物理キーボードまたはタッチスクリーンの一部として表示された仮想キーボード)を含んでもよい。例えば、入力装置1506は、タッチスクリーンに接続されるタッチスクリーンコントローラを含んでもよい。タッチスクリーンおよびタッチスクリーンコントローラは、例えば、様々なタッチ感応技術(コンデンサ、抵抗、赤外線、および表面弾性波の技術を含むが、それらに限定されない)のいずれか、並びにその他の近接センサアレイ、または、タッチスクリーンと接触する1つまたは複数の点を確定するためのその他の素子を用いて、それらの接触、移動または中断を検出することができる。
IO装置1507は音声装置を含んでもよい。音声装置は、音声認識、音声複製、デジタル記録および/または電話機能のような音声サポートの機能を促進するために、スピーカおよび/またはマイクロホンを含んでもよい。その他のIO装置1507は、更に、ユニバーサルシリアルバス(USB)ポート、パラレルポート、シリアルポート、プリンタ、ネットワークインターフェース、バスブリッジ(例えば、PCI−PCIブリッジ)、センサ(例えば、加速度計、ジャイロスコープ、磁力計、光センサ、コンパス、近接センサなどのモーションセンサ)、またはそれらの組み合わせを含んでもよい。装置1507は、結像処理サブシステム(例えば、カメラ)を更に含んでもよい。結像処理サブシステムは、写真およびビデオ断片の記録のようなカメラ機能を促進するための、電荷結合素子(CCD)または相補型金属酸化物半導体(CMOS)光学センサのような光学センサを含んでもよい。特定のセンサは、センサハブ(図示せず)を介してインターコネクト1510に接続されることができ、キーボードまたはサーマルセンサのようなその他の装置はシステム1500の具体的な配置または設計により、組込みコントローラ(図示せず)により制御されることも可能である。
データ、アプリケーション、1つまたは複数のオペレーティングシステムなどの情報の永続的記憶を提供するために、プロセッサ1501には、大容量記憶装置(図示せず)が接続されることも可能である。様々な実施例では、より薄くてより軽量なシステム設計を可能にしながら、システムの応答性を向上するために、このような大容量記憶装置は、ソリッドステートデバイス(SSD)によって実現されることが可能である。しかしながら、その他の実施例では、大容量記憶装置は、主にハードディスクドライブ(HDD)を使用して実現されることができ、より小さい容量のSSD記憶装置をSSDキャッシュとして機能することで、停電イベントの間にコンテキスト状態及び他のそのような情報の不揮発性記憶を可能にし、それによりシステム動作が再開するときに通電を早く実現することができる。また、フラッシュデバイスは、例えば、シリアルペリフェラルインターフェース(SPI)を介してプロセッサ1501に接続されてもよい。このようなフラッシュデバイスは、システムのベーシックインプット/アウトプットシステム(BIOS)およびその他のファームウェアを含むシステムソフトウェアの不揮発性記憶のために機能することができる。
記憶装置1508は、コンピュータアクセス可能な記憶媒体1509(機械可読記憶媒体またはコンピュータ可読媒体ともいう)を含むことができ、前記コンピュータアクセス可能な記憶媒体1509には、本明細書で記載されたいずれか1種または複数種の方法若しくは機能を具現化する1つまたは複数の命令セット若しくはソフトウェア(例えば、モジュール、ユニットおよび/またはロジック1528)が格納されている。処理モジュール/ユニット/ロジック1528は、前記構成要素のいずれか(例えば、上述した記録コントローラ110)を表すことができる。処理モジュール/ユニット/ロジック1528は、更に、データ処理システム1500、メモリ1503、およびプロセッサ1501による実行中に、メモリ1503内および/またはプロセッサ1501内に完全的にまたは少なくとも部分的に存在してもよく、データ処理システム1500、メモリ1503およびプロセッサ1501も機械アクセス可能な記憶媒体を構成する。処理モジュール/ユニット/ロジック1528は、更に、ネットワークを介してネットワークインターフェース装置1505を経由して送受信されることが可能である。
コンピュータ可読記憶媒体1509は、以上に説明されたいくつかのソフトウェア機能を永続的に格納するために用いることができる。コンピュータ可読記憶媒体1509は、例示的な実施例において単一の媒体として示されるが、「コンピュータ可読記憶媒体」という用語は、1つまたは複数の命令セットが格納される単一の媒体または複数の媒体(例えば、集中型または分散型データベース、および/または関連するキャッシュとサーバ)を含むと解釈されるものとする。「コンピュータ可読記憶媒体」という用語は、更に、命令セットを格納または符号化できる任意の媒体を含むと解釈されるものであり、命令セットは機械により実行され、本発明のいずれか1種又は複数種の方法を機械に実行させるためのものである。それゆえに、「コンピュータ可読記憶媒体」という用語は、ソリッドステートメモリ、光学媒体および磁気媒体、またはその他の任意の非一時的機械可読媒体を含むが、それらに限定されないと解釈されるものとする。
本明細書に記載の処理モジュール/ユニット/ロジック1528、構成要素およびその他の特徴は、ディスクリートハードウェア構成要素として実現されてもよく、またはASICS、FPGA、DSPまたは類似の装置のようなハードウェア構成要素の機能に統合されてもよい。更に、処理モジュール/ユニット/ロジック1528は、ハードウェア装置におけるファームウェアまたは機能性回路として実現されてもよい。更に、処理モジュール/ユニット/ロジック1528は、ハードウェア装置とソフトウェア構成要素の任意の組み合わせで実現されてもよい。
なお、システム1500は、データ処理システムの様々な構成要素を有するものとして示されているが、構成要素を相互接続する任意の特定のアーキテクチャまたは方式を表すことを意図するものではなく、そのような詳細は、本発明の実施例とは密接な関係がない。また、より少ない構成要素またはより多くの構成要素を有するネットワークコンピュータ、ハンドヘルドコンピュータ、携帯電話、サーバおよび/またはその他のデータ処理システムは、本発明の実施例と共に使用することも可能であることを理解されたい。
上述した具体的な説明の一部は、既に、コンピュータメモリにおけるデータビットに対する演算のアルゴリズムと記号表現により示された。これらのアルゴリズムの説明および表現は、データ処理分野における当業者によって使用される、それらの作業実質を所属分野の他の当業者に最も効果的に伝達する方法である。本明細書では、一般的に、アルゴリズムは、所望の結果につながるセルフコンシステントシーケンスと考えられる。これらの動作は、物理量の物理的処置が必要なものである。
しかしながら、念頭に置くべきなのは、これらの用語および類似の用語の全ては、適切な物理量に関連付けられるものであり、これらの量を標識しやすくするためのものに過ぎない。以上の説明で他に明示的に記載されていない限り、本明細書の全体にわたって理解すべきなのは、用語(例えば、添付された特許請求の範囲に記載のもの)による説明とは、コンピュータシステムまたは類似の電子式コンピューティングデバイスの動作若しくはプロセスを指し、コンピュータシステムまたは電子式コンピューティングデバイスは、コンピュータシステムのレジスタおよびメモリにおける物理(電子)量として示されたデータを制御するとともに、データをコンピュータシステムメモリ、レジスタまたはこのようなその他の情報を格納、伝送または表示する装置において同様に物理量として示された別のデータに変換する。
図に示される技術は、1つまたは複数の電子装置に格納され実行されるコードおよびデータを使用して実施することができる。そのような電子装置は、コンピュータ可読媒体(例えば、非一時的コンピュータ可読記憶媒体(例えば、磁気ディスク、光ディスク、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ装置、相変化メモリ)および一時的コンピュータ可読伝送媒体(例えば、電子、光学、音響学、または搬送波、赤外線信号、デジタル信号などの他の形態の伝搬信号など)を使用して、コードおよびデータを(内部におよび/またはネットワークを介して他の電子装置に)格納および通信する。
上述した図面において説明されたプロセスまたは方法は、ハードウェア(例えば、回路、専用ロジックなど)、ファームウェア、ソフトウェア(例えば、非一時的コンピュータ可読媒体に具現化されるもの)、またはそれらの組み合わせを含む処理ロジックにより実行されることができる。プロセスまたは方法は、以上で特定の順序に応じて説明されたが、記述した動作の一部が異なる順序で実行されてもよいことを理解されたい。また、一部の動作は、順番ではなく並行して実行されてもよい。
上述した明細書において、本発明の実施例は、既にその具体的な例示的な実施例を参照しながら記載された。明らかなように、添付された特許請求の範囲に記載された本発明のより広い趣旨および範囲を逸脱しない限り、本発明に対して様々な変更を行うことができる。それゆえに、本明細書および図面は、限定的な意味でなく、例示的な意味で理解されるべきである。
本発明の実施形態は、概してスマート表示装置に関する。本発明の実施形態は、より具体的には、視覚ベースのメカニズムに基づくスマート表示装置の音声コマンドによる起動方法に関する。
グーグルホーム(Google Home)スマートディスプレイまたはアマゾンエコーショー(Amazon Echo Show)のようなスマート表示装置は、情報をユーザに提示するための一体型ディスプレイまたはタッチスクリーンディスプレイを含む音声アシスタントスマートスピーカーであってもよい。スマート表示装置のユーザからの音声コマンドを通じて、またはタッチスクリーンディスプレイを介したコマンドの物理的入力によって、スマートデバイスにコマンドおよび命令を発する。そして、スマート表示装置のディスプレイは、受信したコマンドに基づいてディスプレイを介してユーザに情報を提示することができる。
本発明の一側面として、特徴に基づいてスマート表示装置を制御するためのコンピュータ実施方法を提供する。当該方法は、前記スマート表示装置に関連付けられた光捕捉装置から画像を受信するステップと、前記画像内にある顔に基づいて、前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップと、前記画像内にある前記顔に基づいて前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動すると判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を起動するステップと、を含む。
本発明の一側面として、命令が格納されている非一時的機械可読媒体を提供する。前記命令がプロセッサにより実行されると、前記プロセッサにスマート表示装置に関連付けられた光捕捉装置から画像を受信するステップと、前記画像内にある顔に基づいて、前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップと、前記画像内にある前記顔に基づいて前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動すると判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を起動するステップと、を含む動作を実行させる。
本発明の一側面として、プロセッサと、命令を格納するために前記プロセッサに接続されるメモリと、を備えるシステムを提供する。前記命令が前記プロセッサにより実行されると、前記プロセッサにスマート表示装置に関連付けられた光捕捉装置から画像を受信するステップと、前記画像内にある顔に基づいて、前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップと、前記画像内にある前記顔に基づいて前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動すると判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を起動するステップと、を含む動作を実行させる。
本発明の実施例は、図面の各図において限定的ではなく例示的な形態で示され、図面における類似の符号が類似の素子を示す。
一実施例に係るスマート表示装置の表示コントローラの一例を示すブロック図である。 実施例に係るスマート表示装置の記録デバイスを起動するか否かを判定するためにアルゴリズム制御モジュールに提供される特徴の一例を示す図である。 一実施例に係るスマート表示装置のローカルモデルを生成するプロセスを示すフローチャートである。 一実施例に係る画像内にある顔に基づいてスマート表示装置の記録デバイスを起動すると判定するプロセスを示すフローチャートである。 一実施例に係るデータ処理システムを示すブロック図である。
以下に説明される詳細を参照しながら本発明の様々な実施例および態様を説明し、添付図面に前記様々な実施例を示す。以下の説明及び図面は、本発明を説明するためのものであり、本発明を限定するものではないことを理解されたい。本発明の様々な実施例を完全に把握するために、多数の特定の詳細を説明する。なお、本発明の実施例を簡潔的に説明するように、周知または従来技術の詳細について説明していない場合もある。
本明細書において、「一実施例」又は「実施例」とは、当該実施例を参照しながら説明された特定の特徴、構造又は特性が本発明の少なくとも1つの実施例に包含されてもよいことを意味する。「一実施例では」という表現は、本明細書の全体において全てが同一の実施例を指すとは限らない。
従って、本発明の実施例は、視覚ベースのメカニズムに基づいてスマート表示装置の音声コマンドを起動するスマート表示装置を提供する。通常、スマート表示装置は、ウェイクワードと呼ばれるものにより起動される。スマート表示装置に音声コマンドを提供するユーザにとっては、スマート表示装置を起動するウェイクワードを発した後、所望のコマンドを発する必要がある。例えば、ユーザは、スマート表示装置に天気を表示させたい場合、「Alexa、今日の天気はどうですか?」と言うことができる。ウェイクワード(例えば:Alexa)が識別されると、スマート表示装置は、ユーザのコマンドに基づいてタスクを起動し実行することができる(例えば、天気を調べてユーザに提示する)。
しかしながら、スマート表示装置に複数のコマンドを提供するユーザは、各々の独立したコマンドの前にウェイクワードを使用する必要がある。そのようなプロセスは、面倒であり、望ましくないユーザ体験を引き起こす可能性がある。また、ユーザは、各コマンドの前にウェイクワードを使用するのを忘れる可能性があり、そうすると、スマート表示装置に対してコマンドを繰り返す必要がある。
本発明のシステムおよび方法の実施例は、視覚ベースのメカニズムに基づいてスマート表示装置の記録デバイスを起動するか否かを判定することによって、そのタスクに対する解決策を提供する。スマート表示装置は、スマート表示装置の周囲の1つまたは複数の画像を捕捉することができる、カメラなどのような光捕捉装置を含んでもよい。例えば、カメラは、スマート表示装置の前方の環境における一連の画像を含む映像を捕捉することができる。光捕捉装置は、画像をスマート表示装置の記録コントローラに提供する。
記録コントローラは、光捕捉装置から受信された画像に顔が存在するか否かを判定する。光捕捉装置によって受信された画像内に存在する顔は、ユーザがスマート表示装置を使用していることを示すことができる。実施例では、記録コントローラは、画像内に存在する顔の奥行きや画像内に存在する顔の視線方向など、画像の付加的特徴を確定することができる。記録コントローラは、画像内に存在する顔に基づいてスマート表示装置の記録デバイスを起動するか否かを判定することができる。例えば、記録コントローラは、記録デバイスを介して音声認識を起動することができる。音声認識が起動されると、記録装置は、音声分析(例えば、音声認識)およびその後の音声コマンドに基づくタスクの実行のために、スマート表示装置に提供される音声コマンドをユーザから受信することができる。
従って、スマート表示装置によって捕捉された画像内の顔の存在を利用することによって、スマート表示装置の記録コントローラは、スマート表示装置の音声認識をいつ起動するかをインテリジェントに判定することができる。いつ音声認識を作動させるかをインテリジェントに判定することによって、ユーザは、音声コマンドをスマート表示装置に提供する前にウェイクワードを使用する必要がなくなり、その結果、ユーザーエクスペリエンスが向上する。さらに、スマート表示装置の音声認識によるインテリジェントな作動/停止は、ユーザがいないときの音声認識の作動を防止でき、スマート表示装置の電力消費量を低減することができる。
図1は、一実施例に係るスマート表示装置100のディスプレイコントローラの一例を示すブロック図である。図1に示すように、スマート表示装置100は、光捕捉装置105および記録デバイス150に動作可能に接続された記録コントローラ110を含むが、これらに限定されない。記録コントローラ110は、ソフトウェア、ハードウェア、またはそれらの組み合わせで実現されてもよい。例えば、記録コントローラ110の構成要素の少なくとも一部は、メモリ(例えば、ダイナミックRAM(DRAM)などのランダムアクセスメモリ(RAM)にロードされ、スマート表示装置100(図示せず)の1つまたは複数のプロセッサ(例えば、中央処理装置(CPU)または汎用処理装置(GPU)などのマイクロプロセッサ)の処理ロジックによって実行されてもよい。
光捕捉装置105は、入射光を画像として捕捉し、捕捉された光に対応する信号を記録コントローラ110に送信するように構成されてもよい。実施例では、光捕捉装置105は、記録コントローラ110に動作可能に接続されるカメラであってもよい。実施例では、光捕捉装置105は、単一のカメラであってもよい。いくつかの実施例では、光捕捉装置105は、複数のカメラであってもよい。
記録コントローラ110は、顔検出モジュール115を含んでもよい。顔検出モジュール115は、画像中に存在する1つまたは複数の顔を識別するように構成されることができる。実施例では、顔検出モジュール115は、画像内の顔の輪郭ボックスと、その輪郭ボックスが画像内の顔に対応する信頼度とを出力することができる。いくつかの実施例では、顔検出モジュール115は、スマート表示装置100に格納されたローカルモデル130に基づいて、画像中に顔が存在すると判定することができる。例えば、顔検出モジュール115は、画像内に存在する顔が実際にユーザの顔であるか否かを判定するために、画像内に存在する顔とローカルモデル130とを比較することができる。実施例では、ローカルモデル130は、以下に図3でさらに詳細に説明するように、スマート表示装置100によって事前に登録され訓練されたユーザの画像に対応することができる。
いくつかの実施例では、顔検出モジュール115は、一組のユーザのうちの特定のユーザを識別するように構成されてもよい。当該一組のユーザのうちの各ユーザは、その後に画像内の各ユーザを識別するためにローカルモデル130で使用されるべき1つまたは複数の画像を提供することができる。例えば、ユーザAが画像内に存在するとき、顔検出モジュール115は、確率的分類タスク(probabilistic classification task)によってユーザAが画像内に存在すると判定することができる。
記録コントローラ110は、奥行き計算モジュール120をさらに含んでもよい。奥行き計算モジュール120は、画像内の顔の奥行きを判定するように構成されてもよい。顔の奥行きは、顔とスマート表示装置100の光捕捉装置105との間の距離に対応することが可能である。いくつかの実施例では、奥行き計算モジュール120は、複数のカメラにより画像内に存在する顔の奥行きを確定することができる。例えば、第1のカメラによって捕捉された第1の画像と、第2のカメラによって同時に捕捉された第2の画像とを比較することによって、画像内の顔の奥行きを確定することができる。単一のカメラを含む実施例では、奥行き計算モジュール120は、オブジェクトによって占められている画像の部分を確定することによって、カメラまでのオブジェクトの距離を概算することができる。例えば、人物の顔が画像の80%を占める場合、奥行き計算モジュール120は、人物がカメラのすぐそばにいると近似することができる。
記録コントローラ110は、視線検出モジュール125を備えていてもよい。視線検出モジュール125は、画像内の顔が光捕捉装置105またはスマート表示装置100を見ているか否かを検出するように構成されてもよい。実施例では、視線検出モジュール125は、1つまたは複数のアルゴリズムを利用して画像内における顔の目の位置を検出することができる。次いで、視線検出モジュール125は、顔の目が光捕捉装置105またはスマート表示装置100に向かう方向を見ているか否かを判定することができる。
実施例では、顔検出モジュール115、奥行き計算モジュール120および/または視線検出モジュール125は並行して動作することが可能である。いくつかの実施例では、顔検出モジュール115、奥行き計算モジュール120および/または視線検出モジュール125は直列に動作することが可能である。例えば、顔検出モジュール115は奥行き計算モジュール120にデータを提供することができ、奥行き計算モジュール120は視線検出モジュール125にデータを提供することができる。
記録デバイス150は、音声コマンドなどの着信音を捕捉するように構成されることができる。実施例では、記録デバイス150は、記録コントローラ110に動作可能に接続されるマイクロホンであってもよい。実施例では、記録デバイス150は単一のマイクロホンであってもよい。いくつかの実施例では、記録デバイス150は複数のマイクロホンであってもよい。例えば、記録デバイス150は、線形、三角形、正方形または円形のレイアウトで配置された2〜8個のマイクロホンからなるマイクロホンアレイであってもよい。
記録コントローラ110は、アルゴリズム制御モジュール135を更に含んでもよい。アルゴリズム制御モジュール135は、顔検出モジュール115、奥行き計算モジュール120および/または視線検出モジュール125からデータを受信することができる。アルゴリズム制御モジュール135は、受信したデータに基づいて、スマート表示装置100の記録デバイス150を起動および/または停止するか否かを判定するように構成されてもよい。実施例では、アルゴリズム制御モジュール135は、機械学習モデルを利用して、記録デバイス150を起動するかまたは停止するかを判定し、信頼スコアを決定することが可能である。一実施例では、クラウドベースのプラットフォームなどのリモートサーバから機械学習モデルを受信することができる。アルゴリズム制御モジュール135によって利用可能な機械学習モデルの一例としては、線形モデル、非線形モデル、浅層モデルおよび深層モデルを含むが、それらに限定されない。アルゴリズム制御モジュール135が記録デバイス150の起動/停止を決定すると、記録コントローラ110は、記録デバイス150に信号を送信することによって、上記決定に基づいて記録デバイス150を起動することができる。
図2は、実施例に係るスマート表示装置の記録デバイスを起動するか否かを判定するためにアルゴリズム制御モジュールに提供される特徴の一例を示す表示例200である。上述したように、光捕捉装置から受信された1つまたは複数の画像に関連付けられた特徴をアルゴリズム制御モジュール135に提供することができる。アルゴリズム制御モジュール135は、受信された特徴を機械学習モデルへの入力として使用可能であり、機械学習モデルはスマート表示装置の記録デバイス150を起動するか否かを判定することができる。各特徴は、機械学習モデルによる記録デバイス150を起動するか否かについての判定に影響を与えることが可能である。
ブロック210では、記録コントローラは、前述のように、画像内に顔が存在するか否かを判定することができる。アルゴリズム制御モジュール135は、画像内の顔の存在により記録デバイス150を起動するか否かを判定することができる。例えば、画像中に顔が存在する場合、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、増加する可能性がある。
ブロック215では、記録コントローラは、画像内の顔の奥行きを確定することができる。アルゴリズム制御モジュール135は、画像内の顔の奥行きにより、記録デバイス150を起動するか否かを判定することができる。実施例では、画像内の顔からスマート表示装置までの距離が閾値距離未満である場合、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、増加する可能性がある。例えば、ユーザの顔がスマート表示装置から2フィートの閾値距離内にある場合、当該ユーザがスマート表示装置を使用している可能性が高いことを示し、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、増加する可能性がある。いくつかの実施例では、画像内のユーザの顔からスマート表示装置までの距離が閾値距離を超える場合、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、低下する可能性がある。例えば、スマート表示装置までのユーザの顔の距離が20フィートの閾値よりも大きい場合、当該ユーザはスマート表示装置を使用していない可能性が高い。従って、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、低下する可能性がある。
ブロック220では、記録コントローラは、画像内の顔の視線方向を確定することができる。アルゴリズム制御モジュール135は、画像内の顔の視線方向により、記録デバイス150を起動するか否かを判定することができる。例えば、画像内のユーザの顔の視線方向がスマート表示装置に向かう方向である場合、ユーザがスマート表示装置を使用している可能性があることを示し、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、増加する可能性がある。しかしながら、画像内のユーザの顔の視線方向がスマート表示装置に向かう方向ではない場合、人物がスマート表示装置を使用している可能性が低いことを示し、アルゴリズム制御モジュール135が記録デバイス150を起動すると判定する確率は、低下する可能性がある。
なお、表示例200は記録デバイス150を起動するか否かを判定するための、ブロック210、ブロック215およびブロック220における特徴を含むが、実施例では、記録デバイス150を起動するか否かを判定するために、より多くのまたはより少ない特徴を利用することが可能である。
図3は、一実施例に係るスマート表示装置のローカルモデルを生成するプロセス300を示すフローチャートである。プロセス300は、処理ロジックにより実行可能であり、処理ロジックはソフトウェア、ハードウェア、またはそれらの組み合わせを備えていてもよい。例えば、プロセス300の1つまたは複数の動作は、図1の記録コントローラ110によって実行されることができる。
図3に示すように、動作305において、処理ロジックは光捕捉装置から画像を受信する。ユーザの顔が受信した画像内に存在する可能性がある。動作310において、処理ロジックは、スマート表示装置に格納されている1つまたは複数のローカルモデルを識別する。ローカルモデルは、先に図1に説明したように、ローカルモデル130に対応することができる。
動作315において、処理ロジックは、動作305で受信された画像が未知の顔を含んでいるか否かを判定する。処理ロジックは、受信された画像内の顔を1つまたは複数のローカルモデルと比較して、その画像が未知の顔を含むか否かを判定することができる。例えば、受信された画像内に存在する顔が前記ローカルモデルのうちの1つに対応しない場合、その画像はスマート表示装置に登録されていない未知の顔を含む可能性がある。画像が未知の顔を含まない場合、プロセス300は動作305に戻り、その後の画像を受信することができる。
画像が未知の顔を含む場合、動作320において、処理ロジックはスマート表示装置のためのセキュリティ証明書を受信する。例えば、処理ロジックは、スマート表示装置のユーザに、スマート表示装置のユーザ名およびパスワード、またはスマート表示装置の他の種類のセキュリティ証明書を入力するように提示することができる。セキュリティ証明書を受信すると、スマート表示装置は、未知のユーザをスマート表示装置のユーザとして登録することができる。未知のユーザを登録することは、未知のユーザにユーザ名を割り当てること、未知のユーザに特権を割り当てること、未知のユーザにプリファレンスを割り当てることなどを含むことができる。
いくつかの実施例では、ユーザがセキュリティ証明書をスマート表示装置に提供することができない場合、ユーザはスマート表示装置をゲストモードで使用できる可能性がある。ゲストモードで動作している場合、当該ユーザは登録ユーザと比較して低いレベルの特権を持っている可能性がある。例えば、ゲストモードで動作している間、ユーザは天気またはニュースにアクセス可能であるが、スマート表示装置に格納されている個人情報にアクセスすることまたは購入することはできない可能性がある。
動作325において、処理ロジックは、スマート表示装置に他のユーザを登録するべきか否かを判定する。処理ロジックは、音声プロンプトまたはスマート表示装置のディスプレイ上のプロンプトなどのプロンプトを提供することで、他のユーザを登録するか否かをユーザに尋ねることによって、他のユーザを登録するか否かを判定することができる。他のユーザを登録する場合、プロセス300は動作305に戻り、他のユーザに対してプロセス300を繰り返す。
他のユーザをスマート表示装置に登録しない場合、動作330において、未知のユーザのためのローカルモデルがスマート表示装置の処理ロジックによって訓練される。いくつかの実施例では、画像をクラウドベースのプラットフォームなどのリモートサーバに提供することができ、リモートサーバは未知のユーザについてローカルモデルを訓練し、訓練されたローカルモデルをスマート表示装置に送信することができる。画像をリモートサーバに提供する前に、スマート表示装置は、ローカルモデルの生成および訓練のためにリモートサーバに画像を提供する許可をユーザから取得することができる。その後、訓練されたローカルモデルは、先に図1で示したように、スマート表示装置によって使用されることができる。
図4は、一実施例に係る画像内にある顔に基づいてスマート表示装置の記録デバイスを起動すると判定するプロセス400を示すフローチャートである。プロセス400は、処理ロジックにより実行可能であり、処理ロジックはソフトウェア、ハードウェア、またはそれらの組み合わせを備えていてもよい。例えば、プロセス400は、図1の記録コントローラ110により実行されることが可能である。図4に示すように、動作401において、処理ロジックはスマート表示装置に関連付けられた光捕捉装置から画像を受信する。動作402において、画像内にある顔に基づいて、処理ロジックはスマート表示装置に関連付けられた記録デバイスを起動するか否かを判定する。動作403において、画像内にある顔に基づいて記録デバイスを起動すると判定されたことに応答して、処理ロジックはスマート表示装置に関連付けられた記録デバイスの音声認識を起動する。音声認識が起動されると、記録装置は、音声分析(例えば、音声認識)およびその後の音声コマンドに基づくタスクの実行のために、処理ロジックに送信可能な音声コマンドをユーザから受信することができる。
実施例では、処理ロジックは、光捕捉装置から1つまたは複数の後続の画像を受信することができる。後続の画像を受信すると、処理ロジックは、後続の画像内に顔があるか否かを判定することができる。後続の画像内に顔が存在しない場合、処理ロジックは記録デバイスを停止することができる。例えば、ユーザの顔が後続の画像に表示されなくなった場合、そのユーザはスマート表示装置を使用していない可能性がある。従って、処理ロジックは、記録デバイスを停止すると判定することができる。
図5は、本発明の一実施例と組み合わせて使用可能なデータ処理システムを例示的に示すブロック図である。例えば、システム1500は、上述したような前記プロセス又は方法のいずれかを実行するデータ処理システムのいずれか(例えば、上述した、クライアント装置若しくはサーバ、または上述した図1のスマート表示装置100など)を表すことができる。
システム1500は、いくつかの異なる構成要素を含んでもよい。これらの構成要素は、集積回路(IC)、集積回路の一部、ディスクリート型電子デバイス、または回路基板(例えば、コンピュータシステムのマザーボード若しくはアドインカード)に適するその他のモジュールとして実現されることができ、または、他の形態でコンピュータシステムのシャーシ内に組み込まれた構成要素として実現されることができる。
なお、システム1500は、コンピュータシステムのいくつかの構成要素の高レベルビューを示すことを意図している。しかしながら、一部の実施形態において付加的構成要素が存在してもよく、また、その他の実施形態において示された構成要素を異なる配置にすることが可能であることを理解されたい。システム1500は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、サーバ、携帯電話、メディアプレーヤ、パーソナルデジタルアシスタント(PDA)、スマートウォッチ、パーソナルコミュニケーター、ゲーム装置、ネットワークルーター若しくはハブ、無線アクセスポイント(AP)若しくはリピーター、セット・トップボックス、またはそれらの組み合わせを表すことができる。また、単一の機械またはシステムのみが示されたが、「機械」または「システム」という用語は、本明細書で説明されるいずれか1種または複数種の方法を実現するための、単独で又は共同で1つ(又は複数)の命令セットを実行する機械またはシステムのいずれかの組み合わせも含まれることを理解されたい。
一実施例では、システム1500は、バスまたはインターコネクト1510を介して接続される、プロセッサ1501、メモリ1503および装置1505〜1508を含む。プロセッサ1501は、単一のプロセッサコアまたは複数のプロセッサコアが含まれる単一のプロセッサまたは複数のプロセッサを表すことが可能である。プロセッサ1501は、マイクロプロセッサ、中央処理装置(CPU)などのような、1つまたは複数の汎用プロセッサを表すことが可能である。より具体的には、プロセッサ1501は、複雑命令セットコンピューティング(CISC)マイクロプロセッサ、縮小命令セットコンピューティング(RISC)マイクロプロセッサ、超長命令語(VLIW)マイクロプロセッサ、またはその他の命令セットを実行するプロセッサ、または命令セットの組み合わせを実行するプロセッサであってもよい。プロセッサ1501は更に1つまたは複数の専用プロセッサであってもよい。例えば、特定用途向け集積回路(ASIC)、セルラー若しくはベースバンドプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、デジタルシグナルプロセッサ(DSP)、ネットワークプロセッサ、グラフィックプロセッサ、通信プロセッサ、暗号化プロセッサ、コプロセッサ、組込みプロセッサ、または命令を処理可能な任意の他の種類のロジックが挙げられる。
プロセッサ1501は、超低電圧プロセッサのような低電力マルチコアプロセッサソケットであってもよく、前記システムの様々な構成要素と通信するための主処理ユニットおよび中央ハブとして機能することができる。このようなプロセッサは、システムオンチップ(SoC)として実装されてもよい。プロセッサ1501は、本明細書で説明される動作およびステップを実行するための命令を実行するように構成される。システム1500は、更に任意選択グラフィックサブシステム1504と通信するグラフィックインターフェースを含むことができ、グラフィックサブシステム1504は、ディスプレイコントローラ、グラフィックプロセッサ、および/または表示装置を含むことができる。
プロセッサ1501は、メモリ1503と通信することができ、メモリ1503は、一実施例では、所定量のシステムメモリを提供するための複数のメモリ装置によって実現されることができる。メモリ1503は、1つまたは複数の揮発性記憶(またはメモリ)装置を含んでもよい。例えば、ランダムアクセスメモリ(RAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、スタティックRAM(SRAM)、またはその他の種類の記憶装置が挙げられる。メモリ1503は、プロセッサ1501またはその他の任意の装置により実行される命令シーケンスを含む情報を格納することができる。例えば、様々なオペレーティングシステム、デバイスドライバ、ファームウェア(例えば、ベーシックインプット/アウトプットシステム若しくはBIOS)、および/またはアプリケーションの実行可能なコードおよび/またはデータは、メモリ1503にロードされ、プロセッサ1501により実行されることができる。オペレーティングシステムは、例えば、Microsoft(登録商標)社のWindows(登録商標)オペレーティングシステム、アップル社のMacOS(登録商標)/iOS(登録商標)、Google(登録商標)社のAndroid(登録商標)、LINUX(登録商標)、UNIX(登録商標)、またはその他のリアルタイム若しくは組込みオペレーティングシステムのような、任意の種類のオペレーティングシステム(例えば、VxWorks(登録商標))であってもよい。
システム1500は、例えば、ネットワークインターフェース装置1505、任意選択入力装置1506、及びその他の任意選択IO装置1507を含む装置1505〜1508のようなIO装置を更に含んでもよい。ネットワークインターフェース装置1505は、無線送受信機および/またはネットワークインターフェースカード(NIC)を含んでもよい。前記無線送受信機は、WiFi(登録商標)送受信機、赤外線送受信機、ブルートゥース(登録商標)送受信機、WiMax(登録商標)送受信機、無線携帯電話送受信機、衛星送受信機(例えば、全地球測位システム(GPS)送受信機)、またはその他の無線周波数(RF)送受信機、またはそれらの組み合わせであってもよい。NICは、イーサネット(登録商標)カードであってもよい。
入力装置1506は、マウス、タッチパネル、タッチスクリーン(表示装置1504と統合されてもよい)、ポインター装置(例えば、スタイラス)、および/またはキーボード(例えば、物理キーボードまたはタッチスクリーンの一部として表示された仮想キーボード)を含んでもよい。例えば、入力装置1506は、タッチスクリーンに接続されるタッチスクリーンコントローラを含んでもよい。タッチスクリーンおよびタッチスクリーンコントローラは、例えば、様々なタッチ感応技術(コンデンサ、抵抗、赤外線、および表面弾性波の技術を含むが、それらに限定されない)のいずれか、並びにその他の近接センサアレイ、または、タッチスクリーンと接触する1つまたは複数の点を確定するためのその他の素子を用いて、それらの接触、移動または中断を検出することができる。
O装置1507は音声装置を含んでもよい。音声装置は、音声認識、音声複製、デジタル記録および/または電話機能のような音声サポートの機能を促進するために、スピーカおよび/またはマイクロホンを含んでもよい。その他のIO装置1507は、更に、ユニバーサルシリアルバス(USB)ポート、パラレルポート、シリアルポート、プリンタ、ネットワークインターフェース、バスブリッジ(例えば、PCI−PCIブリッジ)、センサ(例えば、加速度計、ジャイロスコープ、磁力計、光センサ、コンパス、近接センサなどのモーションセンサ)、またはそれらの組み合わせを含んでもよい。装置1507は、結像処理サブシステム(例えば、カメラ)を更に含んでもよい。結像処理サブシステムは、写真およびビデオ断片の記録のようなカメラ機能を促進するための、電荷結合素子(CCD)または相補型金属酸化物半導体(CMOS)光学センサのような光学センサを含んでもよい。特定のセンサは、センサハブ(図示せず)を介してインターコネクト1510に接続されることができ、キーボードまたはサーマルセンサのようなその他の装置はシステム1500の具体的な配置または設計により、組込みコントローラ(図示せず)により制御されることも可能である。
データ、アプリケーション、1つまたは複数のオペレーティングシステムなどの情報の永続的記憶を提供するために、プロセッサ1501には、大容量記憶装置(図示せず)が接続されることも可能である。様々な実施例では、より薄くてより軽量なシステム設計を可能にしながら、システムの応答性を向上するために、このような大容量記憶装置は、ソリッドステートデバイス(SSD)によって実現されることが可能である。しかしながら、その他の実施例では、大容量記憶装置は、主にハードディスクドライブ(HDD)を使用して実現されることができ、より小さい容量のSSD記憶装置をSSDキャッシュとして機能することで、停電イベントの間にコンテキスト状態及び他のそのような情報の不揮発性記憶を可能にし、それによりシステム動作が再開するときに通電を早く実現することができる。また、フラッシュデバイスは、例えば、シリアルペリフェラルインターフェース(SPI)を介してプロセッサ1501に接続されてもよい。このようなフラッシュデバイスは、システムのベーシックインプット/アウトプットシステム(BIOS)およびその他のファームウェアを含むシステムソフトウェアの不揮発性記憶のために機能することができる。
記憶装置1508は、コンピュータアクセス可能な記憶媒体1509(機械可読記憶媒体またはコンピュータ可読媒体ともいう)を含むことができ、前記コンピュータアクセス可能な記憶媒体1509には、本明細書で記載されたいずれか1種または複数種の方法若しくは機能を具現化する1つまたは複数の命令セット若しくはソフトウェア(例えば、モジュール、ユニットおよび/またはロジック1528)が格納されている。処理モジュール/ユニット/ロジック1528は、前記構成要素のいずれか(例えば、上述した記録コントローラ110)を表すことができる。処理モジュール/ユニット/ロジック1528は、更に、データ処理システム1500、メモリ1503、およびプロセッサ1501による実行中に、メモリ1503内および/またはプロセッサ1501内に完全的にまたは少なくとも部分的に存在してもよく、データ処理システム1500、メモリ1503およびプロセッサ1501も機械アクセス可能な記憶媒体を構成する。処理モジュール/ユニット/ロジック1528は、更に、ネットワークを介してネットワークインターフェース装置1505を経由して送受信されることが可能である。
コンピュータ可読記憶媒体1509は、以上に説明されたいくつかのソフトウェア機能を永続的に格納するために用いることができる。コンピュータ可読記憶媒体1509は、例示的な実施例において単一の媒体として示されるが、「コンピュータ可読記憶媒体」という用語は、1つまたは複数の命令セットが格納される単一の媒体または複数の媒体(例えば、集中型または分散型データベース、および/または関連するキャッシュとサーバ)を含むと解釈されるものとする。「コンピュータ可読記憶媒体」という用語は、更に、命令セットを格納または符号化できる任意の媒体を含むと解釈されるものであり、命令セットは機械により実行され、本発明のいずれか1種又は複数種の方法を機械に実行させるためのものである。それゆえに、「コンピュータ可読記憶媒体」という用語は、ソリッドステートメモリ、光学媒体および磁気媒体、またはその他の任意の非一時的機械可読媒体を含むが、それらに限定されないと解釈されるものとする。
本明細書に記載の処理モジュール/ユニット/ロジック1528、構成要素およびその他の特徴は、ディスクリートハードウェア構成要素として実現されてもよく、またはASICS、FPGA、DSPまたは類似の装置のようなハードウェア構成要素の機能に統合されてもよい。更に、処理モジュール/ユニット/ロジック1528は、ハードウェア装置におけるファームウェアまたは機能性回路として実現されてもよい。更に、処理モジュール/ユニット/ロジック1528は、ハードウェア装置とソフトウェア構成要素の任意の組み合わせで実現されてもよい。
なお、システム1500は、データ処理システムの様々な構成要素を有するものとして示されているが、構成要素を相互接続する任意の特定のアーキテクチャまたは方式を表すことを意図するものではなく、そのような詳細は、本発明の実施例とは密接な関係がない。また、より少ない構成要素またはより多くの構成要素を有するネットワークコンピュータ、ハンドヘルドコンピュータ、携帯電話、サーバおよび/またはその他のデータ処理システムは、本発明の実施例と共に使用することも可能であることを理解されたい。
上述した具体的な説明の一部は、既に、コンピュータメモリにおけるデータビットに対する演算のアルゴリズムと記号表現により示された。これらのアルゴリズムの説明および表現は、データ処理分野における当業者によって使用される、それらの作業実質を所属分野の他の当業者に最も効果的に伝達する方法である。本明細書では、一般的に、アルゴリズムは、所望の結果につながるセルフコンシステントシーケンスと考えられる。これらの動作は、物理量の物理的処置が必要なものである。
しかしながら、念頭に置くべきなのは、これらの用語および類似の用語の全ては、適切な物理量に関連付けられるものであり、これらの量を標識しやすくするためのものに過ぎない。以上の説明で他に明示的に記載されていない限り、本明細書の全体にわたって理解すべきなのは、用語(例えば、添付された特許請求の範囲に記載のもの)による説明とは、コンピュータシステムまたは類似の電子式コンピューティングデバイスの動作若しくはプロセスを指し、コンピュータシステムまたは電子式コンピューティングデバイスは、コンピュータシステムのレジスタおよびメモリにおける物理(電子)量として示されたデータを制御するとともに、データをコンピュータシステムメモリ、レジスタまたはこのようなその他の情報を格納、伝送または表示する装置において同様に物理量として示された別のデータに変換する。
図に示される技術は、1つまたは複数の電子装置に格納され実行されるコードおよびデータを使用して実施することができる。そのような電子装置は、コンピュータ可読媒体(例えば、非一時的コンピュータ可読記憶媒体(例えば、磁気ディスク、光ディスク、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ装置、相変化メモリ)および一時的コンピュータ可読伝送媒体(例えば、電子、光学、音響学、または搬送波、赤外線信号、デジタル信号などの他の形態の伝搬信号など)を使用して、コードおよびデータを(内部におよび/またはネットワークを介して他の電子装置に)格納および通信する。
上述した図面において説明されたプロセスまたは方法は、ハードウェア(例えば、回路、専用ロジックなど)、ファームウェア、ソフトウェア(例えば、非一時的コンピュータ可読媒体に具現化されるもの)、またはそれらの組み合わせを含む処理ロジックにより実行されることができる。プロセスまたは方法は、以上で特定の順序に応じて説明されたが、記述した動作の一部が異なる順序で実行されてもよいことを理解されたい。また、一部の動作は、順番ではなく並行して実行されてもよい。
上述した明細書において、本発明の実施例は、既にその具体的な例示的な実施例を参照しながら記載された。明らかなように、添付された特許請求の範囲に記載された本発明のより広い趣旨および範囲を逸脱しない限り、本発明に対して様々な変更を行うことができる。それゆえに、本明細書および図面は、限定的な意味でなく、例示的な意味で理解されるべきである。

Claims (20)

  1. 特徴に基づいてスマート表示装置を制御するためのコンピュータ実施方法であって、
    前記スマート表示装置に関連付けられた光捕捉装置から画像を受信するステップと、
    前記画像内にある顔に基づいて、前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップと、
    前記画像内にある前記顔に基づいて前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動すると判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を起動するステップと、を含むコンピュータ実施方法。
  2. 前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
    前記画像を機械学習モデルにより解析するステップを含む請求項1に記載の方法。
  3. 前記スマート表示装置に関連付けられた前記光捕捉装置から第2の画像を受信するステップと、
    前記顔が前記第2の画像内にあるか否かを判定するステップと、
    前記顔が前記第2の画像内にないと判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を停止するステップと、をさらに含む請求項1に記載の方法。
  4. 前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
    前記画像内の前記顔から前記スマート表示装置までの距離を確定するステップをさらに含む請求項1に記載の方法。
  5. 前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
    前記スマート表示装置に対する前記画像内の前記顔の視線方向を確定するステップをさらに含む請求項1に記載の方法。
  6. 前記顔に関連付けられたユーザを識別するステップをさらに含む請求項1に記載の方法。
  7. 前記顔に関連付けられたユーザを識別するステップは、前記画像内に存在する前記顔と、ローカルモデル内に存在する前記ユーザの顔との比較に基づいて行われる請求項6に記載の方法。
  8. 命令が格納されている非一時的機械可読媒体であって、
    前記命令がプロセッサにより実行されると、前記プロセッサに
    スマート表示装置に関連付けられた光捕捉装置から画像を受信するステップと、
    前記画像内にある顔に基づいて、前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップと、
    前記画像内にある前記顔に基づいて前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動すると判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスを起動するステップと、を含む動作を実行させる非一時的機械可読媒体。
  9. 前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
    前記画像を機械学習モデルにより解析するステップを含む請求項8に記載の非一時的機械可読媒体。
  10. 前記スマート表示装置に関連付けられた前記光捕捉装置から第2の画像を受信するステップと、
    前記顔が前記第2の画像内にあるか否かを判定するステップと、
    前記顔が前記第2の画像内にないと判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を停止するステップと、をさらに含む請求項8に記載の非一時的機械可読媒体。
  11. 前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
    前記画像内の前記顔から前記スマート表示装置までの距離を確定するステップをさらに含む請求項8に記載の非一時的機械可読媒体。
  12. 前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
    前記スマート表示装置に対する前記画像内の前記顔の視線方向を確定するステップをさらに含む請求項8に記載の非一時的機械可読媒体。
  13. 前記顔に関連付けられたユーザを識別するステップをさらに含む請求項8に記載の非一時的機械可読媒体。
  14. 前記顔に関連付けられたユーザを識別するステップは、前記画像内に存在する前記顔と、ローカルモデル内に存在する前記ユーザの顔との比較に基づいて行われる請求項13に記載の非一時的機械可読媒体。
  15. プロセッサと、
    命令を格納するために前記プロセッサに接続されるメモリと、を備えるシステムであって、
    前記命令が前記プロセッサにより実行されると、前記プロセッサに
    スマート表示装置に関連付けられた光捕捉装置から画像を受信するステップと、
    前記画像内にある顔に基づいて、前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップと、
    前記画像内にある前記顔に基づいて前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動すると判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を起動するステップと、を含む動作を実行させるシステム。
  16. 前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
    前記画像を機械学習モデルにより解析することを含む請求項15に記載のシステム。
  17. 前記スマート表示装置に関連付けられた前記光捕捉装置から第2の画像を受信するステップと、
    前記顔が前記第2の画像内にあるか否かを判定するステップと、
    前記顔が前記第2の画像内にないと判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を停止するステップと、をさらに含む請求項15に記載のシステム。
  18. 前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
    前記画像内の前記顔から前記スマート表示装置までの距離を確定することをさらに含む請求項15に記載のシステム。
  19. 前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
    前記スマート表示装置に対する前記画像内の前記顔の視線方向を確定することをさらに含む請求項15に記載のシステム。
  20. 前記顔に関連付けられたユーザを識別するステップをさらに含む請求項15に記載のシステム。
JP2019124380A 2018-12-28 2019-07-03 視覚ベースのメカニズムに基づくスマート表示装置の音声コマンドによる起動方法及びシステム Pending JP2020109463A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/235,538 2018-12-28
US16/235,538 US11151993B2 (en) 2018-12-28 2018-12-28 Activating voice commands of a smart display device based on a vision-based mechanism

Publications (1)

Publication Number Publication Date
JP2020109463A true JP2020109463A (ja) 2020-07-16

Family

ID=71121830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019124380A Pending JP2020109463A (ja) 2018-12-28 2019-07-03 視覚ベースのメカニズムに基づくスマート表示装置の音声コマンドによる起動方法及びシステム

Country Status (4)

Country Link
US (1) US11151993B2 (ja)
JP (1) JP2020109463A (ja)
KR (1) KR102323232B1 (ja)
CN (1) CN111383635A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219421A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 画像認識装置及び画像認識装置方法
JP2009222969A (ja) * 2008-03-17 2009-10-01 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法
JP2015514254A (ja) * 2012-04-27 2015-05-18 ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. ユーザからのオーディオ入力
JP2016076007A (ja) * 2014-10-03 2016-05-12 株式会社Nttドコモ 対話装置および対話方法

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
WO2007007257A1 (en) * 2005-07-13 2007-01-18 Koninklijke Philips Electronics N.V. Processing method and device with video temporal up-conversion
US8676273B1 (en) * 2007-08-24 2014-03-18 Iwao Fujisaki Communication device
KR101335346B1 (ko) 2008-02-27 2013-12-05 소니 컴퓨터 엔터테인먼트 유럽 리미티드 장면의 심도 데이터를 포착하고, 컴퓨터 액션을 적용하기 위한 방법들
JP2011071962A (ja) * 2009-08-28 2011-04-07 Sanyo Electric Co Ltd 撮像装置及び再生装置
US9723260B2 (en) * 2010-05-18 2017-08-01 Polycom, Inc. Voice tracking camera with speaker identification
US20120089392A1 (en) * 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
KR101795574B1 (ko) * 2011-01-06 2017-11-13 삼성전자주식회사 모션에 의해 제어되는 전자기기 및 그 제어 방법
US9318129B2 (en) * 2011-07-18 2016-04-19 At&T Intellectual Property I, Lp System and method for enhancing speech activity detection using facial feature detection
US8666751B2 (en) * 2011-11-17 2014-03-04 Microsoft Corporation Audio pattern matching for device activation
US8863042B2 (en) * 2012-01-24 2014-10-14 Charles J. Kulas Handheld device with touch controls that reconfigure in response to the way a user operates the device
US9423870B2 (en) * 2012-05-08 2016-08-23 Google Inc. Input determination method
CN104428832B (zh) * 2012-07-09 2018-06-26 Lg电子株式会社 语音识别装置及其方法
KR101992676B1 (ko) * 2012-07-26 2019-06-25 삼성전자주식회사 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
US9467403B2 (en) * 2013-11-28 2016-10-11 Tencent Technology (Shenzhen) Company Limited Method and mobile terminal for speech communication
US10163455B2 (en) * 2013-12-03 2018-12-25 Lenovo (Singapore) Pte. Ltd. Detecting pause in audible input to device
KR102356549B1 (ko) * 2014-03-12 2022-01-28 삼성전자주식회사 디바이스 내의 폴더를 암호화하는 시스템 및 방법
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
US9298974B1 (en) * 2014-06-18 2016-03-29 Amazon Technologies, Inc. Object identification through stereo association
US9766702B2 (en) * 2014-06-19 2017-09-19 Apple Inc. User detection by a computing device
US20160093081A1 (en) * 2014-09-26 2016-03-31 Samsung Electronics Co., Ltd. Image display method performed by device including switchable mirror and the device
US10228904B2 (en) * 2014-11-12 2019-03-12 Lenovo (Singapore) Pte. Ltd. Gaze triggered voice recognition incorporating device velocity
US20160139662A1 (en) * 2014-11-14 2016-05-19 Sachin Dabhade Controlling a visual device based on a proximity between a user and the visual device
US10404969B2 (en) * 2015-01-20 2019-09-03 Qualcomm Incorporated Method and apparatus for multiple technology depth map acquisition and fusion
EP3276618A4 (en) * 2015-03-23 2018-11-07 Sony Corporation Information processing system and information processing method
CN105204628A (zh) * 2015-09-01 2015-12-30 涂悦 一种基于视觉唤醒的语音控制方法
CN106570443A (zh) * 2015-10-09 2017-04-19 芋头科技(杭州)有限公司 一种快速识别方法及家庭智能机器人
WO2018010101A1 (en) * 2016-07-12 2018-01-18 Microsoft Technology Licensing, Llc Method, apparatus and system for 3d face tracking
US10438583B2 (en) * 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
US20180025725A1 (en) * 2016-07-22 2018-01-25 Lenovo (Singapore) Pte. Ltd. Systems and methods for activating a voice assistant and providing an indicator that the voice assistant has assistance to give
US10652397B2 (en) * 2016-10-07 2020-05-12 Samsung Electronics Co., Ltd. Terminal device and method for performing call function
KR102591413B1 (ko) * 2016-11-16 2023-10-19 엘지전자 주식회사 이동단말기 및 그 제어방법
CN106782524A (zh) * 2016-11-30 2017-05-31 深圳讯飞互动电子有限公司 一种混合唤醒方法及***
US10540488B2 (en) * 2017-02-10 2020-01-21 Microsoft Technology Licensing, Llc Dynamic face and voice signature authentication for enhanced security
US11010595B2 (en) * 2017-03-23 2021-05-18 Samsung Electronics Co., Ltd. Facial verification method and apparatus
US20190027147A1 (en) * 2017-07-18 2019-01-24 Microsoft Technology Licensing, Llc Automatic integration of image capture and recognition in a voice-based query to understand intent
DE202018006448U1 (de) * 2017-08-17 2020-10-14 Google Llc Skalieren eines Bilds eines Gesichts eines Sprechers basierend auf dem Abstand eines Gesichts und einer Grösse einer Anzeige
KR102301599B1 (ko) * 2017-09-09 2021-09-10 애플 인크. 생체측정 인증의 구현
US11134227B2 (en) * 2017-09-20 2021-09-28 Google Llc Systems and methods of presenting appropriate actions for responding to a visitor to a smart home environment
US10796711B2 (en) * 2017-09-29 2020-10-06 Honda Motor Co., Ltd. System and method for dynamic optical microphone
CN107679506A (zh) * 2017-10-12 2018-02-09 Tcl通力电子(惠州)有限公司 智能产品的唤醒方法、智能产品及计算机可读存储介质
CA3080399A1 (en) * 2017-10-30 2019-05-09 The Research Foundation For The State University Of New York System and method associated with user authentication based on an acoustic-based echo-signature
US11100205B2 (en) * 2017-11-13 2021-08-24 Jpmorgan Chase Bank, N.A. Secure automated teller machine (ATM) and method thereof
US10402149B2 (en) * 2017-12-07 2019-09-03 Motorola Mobility Llc Electronic devices and methods for selectively recording input from authorized users
CN108231079B (zh) * 2018-02-01 2021-12-07 北京百度网讯科技有限公司 用于控制电子设备的方法、装置、设备以及计算机可读存储介质
US10963273B2 (en) * 2018-04-20 2021-03-30 Facebook, Inc. Generating personalized content summaries for users
CN108711430B (zh) * 2018-04-28 2020-08-14 广东美的制冷设备有限公司 语音识别方法、智能设备及存储介质
CA3009685C (en) * 2018-06-27 2023-08-08 The Toronto-Dominion Bank Automatic generation and population of digital interfaces based on adaptively processed image data
US10769428B2 (en) * 2018-08-13 2020-09-08 Google Llc On-device image recognition
WO2020049921A1 (ja) * 2018-09-07 2020-03-12 ソニー株式会社 端末装置、端末装置の制御方法および記憶媒体
WO2020062262A1 (en) * 2018-09-30 2020-04-02 Shanghai United Imaging Healthcare Co., Ltd. Systems and methods for generating a neural network model for image processing
US10896320B2 (en) * 2018-11-14 2021-01-19 Baidu Usa Llc Child face distance alert system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219421A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 画像認識装置及び画像認識装置方法
JP2009222969A (ja) * 2008-03-17 2009-10-01 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法
JP2015514254A (ja) * 2012-04-27 2015-05-18 ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. ユーザからのオーディオ入力
JP2016076007A (ja) * 2014-10-03 2016-05-12 株式会社Nttドコモ 対話装置および対話方法

Also Published As

Publication number Publication date
CN111383635A (zh) 2020-07-07
KR20200083155A (ko) 2020-07-08
KR102323232B1 (ko) 2021-11-05
US20200211542A1 (en) 2020-07-02
US11151993B2 (en) 2021-10-19

Similar Documents

Publication Publication Date Title
US11442580B2 (en) Screen configuration method, electronic device, and storage medium
KR102564267B1 (ko) 전자 장치 및 그 동작 방법
US10621992B2 (en) Activating voice assistant based on at least one of user proximity and context
CN105589336B (zh) 多处理器设备
KR102503684B1 (ko) 전자 장치 및 그의 동작 방법
CN108234750B (zh) 用于检测盖设备的打开和闭合的电子设备及其操作方法
US20170118402A1 (en) Electronic device and camera control method therefor
US10359878B2 (en) Method for providing events corresponding to touch attributes and electronic device thereof
KR102297383B1 (ko) 보안 데이터 처리
CN110325993B (zh) 通过使用多个生物特征传感器执行认证的电子设备及其操作方法
US10635245B2 (en) Method and electronic device for processing touch input
US10091436B2 (en) Electronic device for processing image and method for controlling the same
CN108427529B (zh) 电子设备及其操作方法
JP7190982B2 (ja) 音声ベースのメカニズムに基づくスマート表示装置のディスプレイ停止の方法及びシステム
JP2020109463A (ja) 視覚ベースのメカニズムに基づくスマート表示装置の音声コマンドによる起動方法及びシステム
JP6913128B2 (ja) 視覚ベースのメカニズムに基づくスマート表示装置のディスプレイ停止の方法、システム及びコンピュータプログラム
US11061544B2 (en) Method and electronic device for processing input
US20170243065A1 (en) Electronic device and video recording method thereof
US20240134431A1 (en) System and method for identifying presence and function of components of data processing systems
US20220214850A1 (en) Electronic device for seamlessly displaying images, and operating method therefor
KR102558471B1 (ko) 전자 장치 및 그의 동작 방법
KR20240054466A (ko) 얼굴 영상을 사용하는 신원 인증 방법 및 이를 이용한 장치
KR20170009733A (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191121

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210421