JP2020109463A

JP2020109463A - 視覚ベースのメカニズムに基づくスマート表示装置の音声コマンドによる起動方法及びシステム

Info

Publication number: JP2020109463A
Application number: JP2019124380A
Authority: JP
Inventors: シューチェンヤオ; Xuchen Yao
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2018-12-28
Filing date: 2019-07-03
Publication date: 2020-07-16
Also published as: CN111383635A; KR20200083155A; KR102323232B1; US20200211542A1; US11151993B2

Abstract

【課題】スマート表示装置によって捕捉された画像内の顔の存在を利用することによって、スマート表示装置の音声認識をいつ起動するかをインテリジェントに判定することができる。【解決手段】スマート表示装置１００は、入射光を画像として捕捉する光捕捉装置１０５、画像中に存在する１つまたは複数の顔を識別する顔検出モジュール１１５、画像内にある顔に基づいてスマート表示装置に関連付けられた記録デバイス１５０の音声認識を起動するか否かを判定するアルゴリズム制御モジュール１３５を備える。【選択図】図１

Description

本発明の実施形態は、概してスマート表示装置に関する。本発明の実施形態は、より具体的には、視覚ベースのメカニズムに基づくスマート表示装置の音声コマンドによる起動方法に関する。

グーグルホーム（ＧｏｏｇｌｅＨｏｍｅ）スマートディスプレイまたはアマゾンエコーショー（ＡｍａｚｏｎＥｃｈｏＳｈｏｗ）のようなスマート表示装置は、情報をユーザに提示するための一体型ディスプレイまたはタッチスクリーンディスプレイを含む音声アシスタントスマートスピーカーであってもよい。スマート表示装置のユーザからの音声コマンドを通じて、またはタッチスクリーンディスプレイを介したコマンドの物理的入力によって、スマートデバイスにコマンドおよび命令を発する。そして、スマート表示装置のディスプレイは、受信したコマンドに基づいてディスプレイを介してユーザに情報を提示することができる。

本発明の実施例は、図面の各図において限定的ではなく例示的な形態で示され、図面における類似の符号が類似の素子を示す。
一実施例に係るスマート表示装置の表示コントローラの一例を示すブロック図である。実施例に係るスマート表示装置の記録デバイスを起動するか否かを判定するためにアルゴリズム制御モジュールに提供される特徴の一例を示す図である。一実施例に係るスマート表示装置のローカルモデルを生成するプロセスを示すフローチャートである。一実施例に係る画像内にある顔に基づいてスマート表示装置の記録デバイスを起動すると判定するプロセスを示すフローチャートである。一実施例に係るデータ処理システムを示すブロック図である。

以下に説明される詳細を参照しながら本発明の様々な実施例および態様を説明し、添付図面に前記様々な実施例を示す。以下の説明及び図面は、本発明を説明するためのものであり、本発明を限定するものではないことを理解されたい。本発明の様々な実施例を完全に把握するために、多数の特定の詳細を説明する。なお、本発明の実施例を簡潔的に説明するように、周知または従来技術の詳細について説明していない場合もある。

本明細書において、「一実施例」又は「実施例」とは、当該実施例を参照しながら説明された特定の特徴、構造又は特性が本発明の少なくとも１つの実施例に包含されてもよいことを意味する。「一実施例では」という表現は、本明細書の全体において全てが同一の実施例を指すとは限らない。

従って、本発明の実施例は、視覚ベースのメカニズムに基づいてスマート表示装置の音声コマンドを起動するスマート表示装置を提供する。通常、スマート表示装置は、ウェイクワードと呼ばれるものにより起動される。スマート表示装置に音声コマンドを提供するユーザにとっては、スマート表示装置を起動するウェイクワードを発した後、所望のコマンドを発する必要がある。例えば、ユーザは、スマート表示装置に天気を表示させたい場合、「Ａｌｅｘａ、今日の天気はどうですか？」と言うことができる。ウェイクワード（例えば：Ａｌｅｘａ）が識別されると、スマート表示装置は、ユーザのコマンドに基づいてタスクを起動し実行することができる（例えば、天気を調べてユーザに提示する）。

しかしながら、スマート表示装置に複数のコマンドを提供するユーザは、各々の独立したコマンドの前にウェイクワードを使用する必要がある。そのようなプロセスは、面倒であり、望ましくないユーザ体験を引き起こす可能性がある。また、ユーザは、各コマンドの前にウェイクワードを使用するのを忘れる可能性があり、そうすると、スマート表示装置に対してコマンドを繰り返す必要がある。

本発明のシステムおよび方法の実施例は、視覚ベースのメカニズムに基づいてスマート表示装置の記録デバイスを起動するか否かを判定することによって、そのタスクに対する解決策を提供する。スマート表示装置は、スマート表示装置の周囲の１つまたは複数の画像を捕捉することができる、カメラなどのような光捕捉装置を含んでもよい。例えば、カメラは、スマート表示装置の前方の環境における一連の画像を含む映像を捕捉することができる。光捕捉装置は、画像をスマート表示装置の記録コントローラに提供する。

記録コントローラは、光捕捉装置から受信された画像に顔が存在するか否かを判定する。光捕捉装置によって受信された画像内に存在する顔は、ユーザがスマート表示装置を使用していることを示すことができる。実施例では、記録コントローラは、画像内に存在する顔の奥行きや画像内に存在する顔の視線方向など、画像の付加的特徴を確定することができる。記録コントローラは、画像内に存在する顔に基づいてスマート表示装置の記録デバイスを起動するか否かを判定することができる。例えば、記録コントローラは、記録デバイスを介して音声認識を起動することができる。音声認識が起動されると、記録装置は、音声分析（例えば、音声認識）およびその後の音声コマンドに基づくタスクの実行のために、スマート表示装置に提供される音声コマンドをユーザから受信することができる。

従って、スマート表示装置によって捕捉された画像内の顔の存在を利用することによって、スマート表示装置の記録コントローラは、スマート表示装置の音声認識をいつ起動するかをインテリジェントに判定することができる。いつ音声認識を作動させるかをインテリジェントに判定することによって、ユーザは、音声コマンドをスマート表示装置に提供する前にウェイクワードを使用する必要がなくなり、その結果、ユーザーエクスペリエンスが向上する。さらに、スマート表示装置の音声認識によるインテリジェントな作動／停止は、ユーザがいないときの音声認識の作動を防止でき、スマート表示装置の電力消費量を低減することができる。

図１は、一実施例に係るスマート表示装置１００のディスプレイコントローラの一例を示すブロック図である。図１に示すように、スマート表示装置１００は、光捕捉装置１０５および記録デバイス１５０に動作可能に接続された記録コントローラ１１０を含むが、これらに限定されない。記録コントローラ１１０は、ソフトウェア、ハードウェア、またはそれらの組み合わせで実現されてもよい。例えば、記録コントローラ１１０の構成要素の少なくとも一部は、メモリ（例えば、ダイナミックＲＡＭ（ＤＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ）にロードされ、スマート表示装置１００（図示せず）の１つまたは複数のプロセッサ（例えば、中央処理装置（ＣＰＵ）または汎用処理装置（ＧＰＵ）などのマイクロプロセッサ）の処理ロジックによって実行されてもよい。

光捕捉装置１０５は、入射光を画像として捕捉し、捕捉された光に対応する信号を記録コントローラ１１０に送信するように構成されてもよい。実施例では、光捕捉装置１０５は、記録コントローラ１１０に動作可能に接続されるカメラであってもよい。実施例では、光捕捉装置１０５は、単一のカメラであってもよい。いくつかの実施例では、光捕捉装置１０５は、複数のカメラであってもよい。

記録コントローラ１１０は、顔検出モジュール１１５を含んでもよい。顔検出モジュール１１５は、画像中に存在する１つまたは複数の顔を識別するように構成されることができる。実施例では、顔検出モジュール１１５は、画像内の顔の輪郭ボックスと、その輪郭ボックスが画像内の顔に対応する信頼度とを出力することができる。いくつかの実施例では、顔検出モジュール１１５は、スマート表示装置１００に格納されたローカルモデル１３０に基づいて、画像中に顔が存在すると判定することができる。例えば、顔検出モジュール１１５は、画像内に存在する顔が実際にユーザの顔であるか否かを判定するために、画像内に存在する顔とローカルモデル１３０とを比較することができる。実施例では、ローカルモデル１３０は、以下に図３でさらに詳細に説明するように、スマート表示装置１００によって事前に登録され訓練されたユーザの画像に対応することができる。

いくつかの実施例では、顔検出モジュール１１５は、一組のユーザのうちの特定のユーザを識別するように構成されてもよい。当該一組のユーザのうちの各ユーザは、その後に画像内の各ユーザを識別するためにローカルモデル１３０で使用されるべき１つまたは複数の画像を提供することができる。例えば、ユーザＡが画像内に存在するとき、顔検出モジュール１１５は、確率的分類タスク（ｐｒｏｂａｂｉｌｉｓｔｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎｔａｓｋ）によってユーザＡが画像内に存在すると判定することができる。

記録コントローラ１１０は、奥行き計算モジュール１２０をさらに含んでもよい。奥行き計算モジュール１２０は、画像内の顔の奥行きを判定するように構成されてもよい。顔の奥行きは、顔とスマート表示装置１００の光捕捉装置１０５との間の距離に対応することが可能である。いくつかの実施例では、奥行き計算モジュール１２０は、複数のカメラにより画像内に存在する顔の奥行きを確定することができる。例えば、第１のカメラによって捕捉された第１の画像と、第２のカメラによって同時に捕捉された第２の画像とを比較することによって、画像内の顔の奥行きを確定することができる。単一のカメラを含む実施例では、奥行き計算モジュール１２０は、オブジェクトによって占められている画像の部分を確定することによって、カメラまでのオブジェクトの距離を概算することができる。例えば、人物の顔が画像の８０％を占める場合、奥行き計算モジュール１２０は、人物がカメラのすぐそばにいると近似することができる。

記録コントローラ１１０は、視線検出モジュール１２５を備えていてもよい。視線検出モジュール１２５は、画像内の顔が光捕捉装置１０５またはスマート表示装置１００を見ているか否かを検出するように構成されてもよい。実施例では、視線検出モジュール１２５は、１つまたは複数のアルゴリズムを利用して画像内における顔の目の位置を検出することができる。次いで、視線検出モジュール１２５は、顔の目が光捕捉装置１０５またはスマート表示装置１００に向かう方向を見ているか否かを判定することができる。

実施例では、顔検出モジュール１１５、奥行き計算モジュール１２０および／または視線検出モジュール１２５は並行して動作することが可能である。いくつかの実施例では、顔検出モジュール１１５、奥行き計算モジュール１２０および／または視線検出モジュール１２５は直列に動作することが可能である。例えば、顔検出モジュール１１５は奥行き計算モジュール１２０にデータを提供することができ、奥行き計算モジュール１２０は視線検出モジュール１２５にデータを提供することができる。

記録デバイス１５０は、音声コマンドなどの着信音を捕捉するように構成されることができる。実施例では、記録デバイス１５０は、記録コントローラ１１０に動作可能に接続されるマイクロホンであってもよい。実施例では、記録デバイス１５０は単一のマイクロホンであってもよい。いくつかの実施例では、記録デバイス１５０は複数のマイクロホンであってもよい。例えば、記録デバイス１５０は、線形、三角形、正方形または円形のレイアウトで配置された２〜８個のマイクロホンからなるマイクロホンアレイであってもよい。

記録コントローラ１１０は、アルゴリズム制御モジュール１３５を更に含んでもよい。アルゴリズム制御モジュール１３５は、顔検出モジュール１１５、奥行き計算モジュール１２０および／または視線検出モジュール１２５からデータを受信することができる。アルゴリズム制御モジュール１３５は、受信したデータに基づいて、スマート表示装置１００の記録デバイス１５０を起動および／または停止するか否かを判定するように構成されてもよい。実施例では、アルゴリズム制御モジュール１３５は、機械学習モデルを利用して、記録デバイス１５０を起動するかまたは停止するかを判定し、信頼スコアを決定することが可能である。一実施例では、クラウドベースのプラットフォームなどのリモートサーバから機械学習モデルを受信することができる。アルゴリズム制御モジュール１３５によって利用可能な機械学習モデルの一例としては、線形モデル、非線形モデル、浅層モデルおよび深層モデルを含むが、それらに限定されない。アルゴリズム制御モジュール１３５が記録デバイス１５０の起動／停止を決定すると、記録コントローラ１１０は、記録デバイス１５０に信号を送信することによって、上記決定に基づいて記録デバイス１５０を起動することができる。

図２は、実施例に係るスマート表示装置の記録デバイスを起動するか否かを判定するためにアルゴリズム制御モジュールに提供される特徴の一例を示す表示例２００である。上述したように、光捕捉装置から受信された１つまたは複数の画像に関連付けられた特徴をアルゴリズム制御モジュール１３５に提供することができる。アルゴリズム制御モジュール１３５は、受信された特徴を機械学習モデルへの入力として使用可能であり、機械学習モデルはスマート表示装置の記録デバイス１５０を起動するか否かを判定することができる。各特徴は、機械学習モデルによる記録デバイス１５０を起動するか否かについての判定に影響を与えることが可能である。

ブロック２１０では、記録コントローラは、前述のように、画像内に顔が存在するか否かを判定することができる。アルゴリズム制御モジュール１３５は、画像内の顔の存在により記録デバイス１５０を起動するか否かを判定することができる。例えば、画像中に顔が存在する場合、アルゴリズム制御モジュール１３５が記録デバイス１５０を起動すると判定する確率は、増加する可能性がある。

ブロック２１５では、記録コントローラは、画像内の顔の奥行きを確定することができる。アルゴリズム制御モジュール１３５は、画像内の顔の奥行きにより、記録デバイス１５０を起動するか否かを判定することができる。実施例では、画像内の顔からスマート表示装置までの距離が閾値距離未満である場合、アルゴリズム制御モジュール１３５が記録デバイス１５０を起動すると判定する確率は、増加する可能性がある。例えば、ユーザの顔がスマート表示装置から２フィートの閾値距離内にある場合、当該ユーザがスマート表示装置を使用している可能性が高いことを示し、アルゴリズム制御モジュール１３５が記録デバイス１５０を起動すると判定する確率は、増加する可能性がある。いくつかの実施例では、画像内のユーザの顔からスマート表示装置までの距離が閾値距離を超える場合、アルゴリズム制御モジュール１３５が記録デバイス１５０を起動すると判定する確率は、低下する可能性がある。例えば、スマート表示装置までのユーザの顔の距離が２０フィートの閾値よりも大きい場合、当該ユーザはスマート表示装置を使用していない可能性が高い。従って、アルゴリズム制御モジュール１３５が記録デバイス１５０を起動すると判定する確率は、低下する可能性がある。

ブロック２２０では、記録コントローラは、画像内の顔の視線方向を確定することができる。アルゴリズム制御モジュール１３５は、画像内の顔の視線方向により、記録デバイス１５０を起動するか否かを判定することができる。例えば、画像内のユーザの顔の視線方向がスマート表示装置に向かう方向である場合、ユーザがスマート表示装置を使用している可能性があることを示し、アルゴリズム制御モジュール１３５が記録デバイス１５０を起動すると判定する確率は、増加する可能性がある。しかしながら、画像内のユーザの顔の視線方向がスマート表示装置に向かう方向ではない場合、人物がスマート表示装置を使用している可能性が低いことを示し、アルゴリズム制御モジュール１３５が記録デバイス１５０を起動すると判定する確率は、低下する可能性がある。

なお、表示例２００は記録デバイス１５０を起動するか否かを判定するための、ブロック２１０、ブロック２１５およびブロック２２０における特徴を含むが、実施例では、記録デバイス１５０を起動するか否かを判定するために、より多くのまたはより少ない特徴を利用することが可能である。

図３は、一実施例に係るスマート表示装置のローカルモデルを生成するプロセス３００を示すフローチャートである。プロセス３００は、処理ロジックにより実行可能であり、処理ロジックはソフトウェア、ハードウェア、またはそれらの組み合わせを備えていてもよい。例えば、プロセス３００の１つまたは複数の動作は、図１の記録コントローラ１１０によって実行されることができる。

図３に示すように、動作３０５において、処理ロジックは光捕捉装置から画像を受信する。ユーザの顔が受信した画像内に存在する可能性がある。動作３１０において、処理ロジックは、スマート表示装置に格納されている１つまたは複数のローカルモデルを識別する。ローカルモデルは、先に図１に説明したように、ローカルモデル１３０に対応することができる。

動作３１５において、処理ロジックは、動作３０５で受信された画像が未知の顔を含んでいるか否かを判定する。処理ロジックは、受信された画像内の顔を１つまたは複数のローカルモデルと比較して、その画像が未知の顔を含むか否かを判定することができる。例えば、受信された画像内に存在する顔が前記ローカルモデルのうちの１つに対応しない場合、その画像はスマート表示装置に登録されていない未知の顔を含む可能性がある。画像が未知の顔を含まない場合、プロセス３００は動作３０５に戻り、その後の画像を受信することができる。

画像が未知の顔を含む場合、動作３２０において、処理ロジックはスマート表示装置のためのセキュリティ証明書を受信する。例えば、処理ロジックは、スマート表示装置のユーザに、スマート表示装置のユーザ名およびパスワード、またはスマート表示装置の他の種類のセキュリティ証明書を入力するように提示することができる。セキュリティ証明書を受信すると、スマート表示装置は、未知のユーザをスマート表示装置のユーザとして登録することができる。未知のユーザを登録することは、未知のユーザにユーザ名を割り当てること、未知のユーザに特権を割り当てること、未知のユーザにプリファレンスを割り当てることなどを含むことができる。

いくつかの実施例では、ユーザがセキュリティ証明書をスマート表示装置に提供することができない場合、ユーザはスマート表示装置をゲストモードで使用できる可能性がある。ゲストモードで動作している場合、当該ユーザは登録ユーザと比較して低いレベルの特権を持っている可能性がある。例えば、ゲストモードで動作している間、ユーザは天気またはニュースにアクセス可能であるが、スマート表示装置に格納されている個人情報にアクセスすることまたは購入することはできない可能性がある。

動作３２５において、処理ロジックは、スマート表示装置に他のユーザを登録するべきか否かを判定する。処理ロジックは、音声プロンプトまたはスマート表示装置のディスプレイ上のプロンプトなどのプロンプトを提供することで、他のユーザを登録するか否かをユーザに尋ねることによって、他のユーザを登録するか否かを判定することができる。他のユーザを登録する場合、プロセス３００は動作３０５に戻り、他のユーザに対してプロセス３００を繰り返す。

他のユーザをスマート表示装置に登録しない場合、動作３３０において、未知のユーザのためのローカルモデルがスマート表示装置の処理ロジックによって訓練される。いくつかの実施例では、画像をクラウドベースのプラットフォームなどのリモートサーバに提供することができ、リモートサーバは未知のユーザについてローカルモデルを訓練し、訓練されたローカルモデルをスマート表示装置に送信することができる。画像をリモートサーバに提供する前に、スマート表示装置は、ローカルモデルの生成および訓練のためにリモートサーバに画像を提供する許可をユーザから取得することができる。その後、訓練されたローカルモデルは、先に図１で示したように、スマート表示装置によって使用されることができる。

図４は、一実施例に係る画像内にある顔に基づいてスマート表示装置の記録デバイスを起動すると判定するプロセス４００を示すフローチャートである。プロセス４００は、処理ロジックにより実行可能であり、処理ロジックはソフトウェア、ハードウェア、またはそれらの組み合わせを備えていてもよい。例えば、プロセス４００は、図１の記録コントローラ１１０により実行されることが可能である。図４に示すように、動作４０１において、処理ロジックはスマート表示装置に関連付けられた光捕捉装置から画像を受信する。動作４０２において、画像内にある顔に基づいて、処理ロジックはスマート表示装置に関連付けられた記録デバイスを起動するか否かを判定する。動作４０３において、画像内にある顔に基づいて記録デバイスを起動すると判定されたことに応答して、処理ロジックはスマート表示装置に関連付けられた記録デバイスの音声認識を起動する。音声認識が起動されると、記録装置は、音声分析（例えば、音声認識）およびその後の音声コマンドに基づくタスクの実行のために、処理ロジックに送信可能な音声コマンドをユーザから受信することができる。

実施例では、処理ロジックは、光捕捉装置から１つまたは複数の後続の画像を受信することができる。後続の画像を受信すると、処理ロジックは、後続の画像内に顔があるか否かを判定することができる。後続の画像内に顔が存在しない場合、処理ロジックは記録デバイスを停止することができる。例えば、ユーザの顔が後続の画像に表示されなくなった場合、そのユーザはスマート表示装置を使用していない可能性がある。従って、処理ロジックは、記録デバイスを停止すると判定することができる。

図５は、本発明の一実施例と組み合わせて使用可能なデータ処理システムを例示的に示すブロック図である。例えば、システム１５００は、上述したような前記プロセス又は方法のいずれかを実行するデータ処理システムのいずれか（例えば、上述した、クライアント装置若しくはサーバ、または上述した図１のスマート表示装置１００など）を表すことができる。

システム１５００は、いくつかの異なる構成要素を含んでもよい。これらの構成要素は、集積回路（ＩＣ）、集積回路の一部、ディスクリート型電子デバイス、または回路基板（例えば、コンピュータシステムのマザーボード若しくはアドインカード）に適するその他のモジュールとして実現されることができ、または、他の形態でコンピュータシステムのシャーシ内に組み込まれた構成要素として実現されることができる。

なお、システム１５００は、コンピュータシステムのいくつかの構成要素の高レベルビューを示すことを意図している。しかしながら、一部の実施形態において付加的構成要素が存在してもよく、また、その他の実施形態において示された構成要素を異なる配置にすることが可能であることを理解されたい。システム１５００は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、サーバ、携帯電話、メディアプレーヤ、パーソナルデジタルアシスタント（ＰＤＡ）、スマートウォッチ、パーソナルコミュニケーター、ゲーム装置、ネットワークルーター若しくはハブ、無線アクセスポイント（ＡＰ）若しくはリピーター、セット・トップボックス、またはそれらの組み合わせを表すことができる。また、単一の機械またはシステムのみが示されたが、「機械」または「システム」という用語は、本明細書で説明されるいずれか１種または複数種の方法を実現するための、単独で又は共同で１つ（又は複数）の命令セットを実行する機械またはシステムのいずれかの組み合わせも含まれることを理解されたい。

一実施例では、システム１５００は、バスまたはインターコネクト１５１０を介して接続される、プロセッサ１５０１、メモリ１５０３および装置１５０５〜１５０８を含む。プロセッサ１５０１は、単一のプロセッサコアまたは複数のプロセッサコアが含まれる単一のプロセッサまたは複数のプロセッサを表すことが可能である。プロセッサ１５０１は、マイクロプロセッサ、中央処理装置（ＣＰＵ）などのような、１つまたは複数の汎用プロセッサを表すことが可能である。より具体的には、プロセッサ１５０１は、複雑命令セットコンピューティング（ＣＩＳＣ）マイクロプロセッサ、縮小命令セットコンピューティング（ＲＩＳＣ）マイクロプロセッサ、超長命令語（ＶＬＩＷ）マイクロプロセッサ、またはその他の命令セットを実行するプロセッサ、または命令セットの組み合わせを実行するプロセッサであってもよい。プロセッサ１５０１は更に１つまたは複数の専用プロセッサであってもよい。例えば、特定用途向け集積回路（ＡＳＩＣ）、セルラー若しくはベースバンドプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタルシグナルプロセッサ（ＤＳＰ）、ネットワークプロセッサ、グラフィックプロセッサ、ネットワークプロセッサ、通信プロセッサ、暗号化プロセッサ、コプロセッサ、組込みプロセッサ、または命令を処理可能な任意の他の種類のロジックが挙げられる。

プロセッサ１５０１は、超低電圧プロセッサのような低電力マルチコアプロセッサソケットであってもよく、前記システムの様々な構成要素と通信するための主処理ユニットおよび中央ハブとして機能することができる。このようなプロセッサは、システムオンチップ（ＳｏＣ）として実装されてもよい。プロセッサ１５０１は、本明細書で説明される動作およびステップを実行するための命令を実行するように構成される。システム１５００は、更に任意選択グラフィックサブシステム１５０４と通信するグラフィックインターフェースを含むことができ、グラフィックサブシステム１５０４は、ディスプレイコントローラ、グラフィックプロセッサ、および／または表示装置を含むことができる。

プロセッサ１５０１は、メモリ１５０３と通信することができ、メモリ１５０３は、一実施例では、所定量のシステムメモリを提供するための複数のメモリ装置によって実現されることができる。メモリ１５０３は、１つまたは複数の揮発性記憶（またはメモリ）装置を含んでもよい。例えば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、スタティックＲＡＭ（ＳＲＡＭ）、またはその他の種類の記憶装置が挙げられる。メモリ１５０３は、プロセッサ１５０１またはその他の任意の装置により実行される命令シーケンスを含む情報を格納することができる。例えば、様々なオペレーティングシステム、デバイスドライバ、ファームウェア（例えば、ベーシックインプット／アウトプットシステム若しくはＢＩＯＳ）、および／またはアプリケーションの実行可能なコードおよび／またはデータは、メモリ１５０３にロードされ、プロセッサ１５０１により実行されることができる。オペレーティングシステムは、例えば、Ｍｉｃｒｏｓｏｆｔ（登録商標）社のＷｉｎｄｏｗｓ（登録商標）オペレーティングシステム、アップル社のＭａｃＯＳ（登録商標）／ｉＯＳ（登録商標）、Ｇｏｏｇｌｅ（登録商標）社のＡｎｄｒｏｉｄ（登録商標）、ＬＩＮＵＸ（登録商標）、ＵＮＩＸ（登録商標）、またはその他のリアルタイム若しくは組込みオペレーティングシステムのような、任意の種類のオペレーティングシステム（例えば、ＶｘＷｏｒｋｓ（登録商標））であってもよい。

システム１５００は、例えば、ネットワークインターフェース装置１５０５、任意選択入力装置１５０６、及びその他の任意選択ＩＯ装置１５０７を含む装置１５０５〜１５０８のようなＩＯ装置を更に含んでもよい。ネットワークインターフェース装置１５０５は、無線送受信機および／またはネットワークインターフェースカード（ＮＩＣ）を含んでもよい。前記無線送受信機は、ＷｉＦｉ（登録商標）送受信機、赤外線送受信機、ブルートゥース（登録商標）送受信機、ＷｉＭａｘ（登録商標）送受信機、無線携帯電話送受信機、衛星送受信機（例えば、全地球測位システム（ＧＰＳ）送受信機）、またはその他の無線周波数（ＲＦ）送受信機、またはそれらの組み合わせであってもよい。ＮＩＣは、イーサネット（登録商標）カードであってもよい。

入力装置１５０６は、マウス、タッチパネル、タッチスクリーン（表示装置１５０４と統合されてもよい）、ポインター装置（例えば、スタイラス）、および／またはキーボード（例えば、物理キーボードまたはタッチスクリーンの一部として表示された仮想キーボード）を含んでもよい。例えば、入力装置１５０６は、タッチスクリーンに接続されるタッチスクリーンコントローラを含んでもよい。タッチスクリーンおよびタッチスクリーンコントローラは、例えば、様々なタッチ感応技術（コンデンサ、抵抗、赤外線、および表面弾性波の技術を含むが、それらに限定されない）のいずれか、並びにその他の近接センサアレイ、または、タッチスクリーンと接触する１つまたは複数の点を確定するためのその他の素子を用いて、それらの接触、移動または中断を検出することができる。

ＩＯ装置１５０７は音声装置を含んでもよい。音声装置は、音声認識、音声複製、デジタル記録および／または電話機能のような音声サポートの機能を促進するために、スピーカおよび／またはマイクロホンを含んでもよい。その他のＩＯ装置１５０７は、更に、ユニバーサルシリアルバス（ＵＳＢ）ポート、パラレルポート、シリアルポート、プリンタ、ネットワークインターフェース、バスブリッジ（例えば、ＰＣＩ−ＰＣＩブリッジ）、センサ（例えば、加速度計、ジャイロスコープ、磁力計、光センサ、コンパス、近接センサなどのモーションセンサ）、またはそれらの組み合わせを含んでもよい。装置１５０７は、結像処理サブシステム（例えば、カメラ）を更に含んでもよい。結像処理サブシステムは、写真およびビデオ断片の記録のようなカメラ機能を促進するための、電荷結合素子（ＣＣＤ）または相補型金属酸化物半導体（ＣＭＯＳ）光学センサのような光学センサを含んでもよい。特定のセンサは、センサハブ（図示せず）を介してインターコネクト１５１０に接続されることができ、キーボードまたはサーマルセンサのようなその他の装置はシステム１５００の具体的な配置または設計により、組込みコントローラ（図示せず）により制御されることも可能である。

データ、アプリケーション、１つまたは複数のオペレーティングシステムなどの情報の永続的記憶を提供するために、プロセッサ１５０１には、大容量記憶装置（図示せず）が接続されることも可能である。様々な実施例では、より薄くてより軽量なシステム設計を可能にしながら、システムの応答性を向上するために、このような大容量記憶装置は、ソリッドステートデバイス（ＳＳＤ）によって実現されることが可能である。しかしながら、その他の実施例では、大容量記憶装置は、主にハードディスクドライブ（ＨＤＤ）を使用して実現されることができ、より小さい容量のＳＳＤ記憶装置をＳＳＤキャッシュとして機能することで、停電イベントの間にコンテキスト状態及び他のそのような情報の不揮発性記憶を可能にし、それによりシステム動作が再開するときに通電を早く実現することができる。また、フラッシュデバイスは、例えば、シリアルペリフェラルインターフェース（ＳＰＩ）を介してプロセッサ１５０１に接続されてもよい。このようなフラッシュデバイスは、システムのベーシックインプット／アウトプットシステム（ＢＩＯＳ）およびその他のファームウェアを含むシステムソフトウェアの不揮発性記憶のために機能することができる。

記憶装置１５０８は、コンピュータアクセス可能な記憶媒体１５０９（機械可読記憶媒体またはコンピュータ可読媒体ともいう）を含むことができ、前記コンピュータアクセス可能な記憶媒体１５０９には、本明細書で記載されたいずれか１種または複数種の方法若しくは機能を具現化する１つまたは複数の命令セット若しくはソフトウェア（例えば、モジュール、ユニットおよび／またはロジック１５２８）が格納されている。処理モジュール／ユニット／ロジック１５２８は、前記構成要素のいずれか（例えば、上述した記録コントローラ１１０）を表すことができる。処理モジュール／ユニット／ロジック１５２８は、更に、データ処理システム１５００、メモリ１５０３、およびプロセッサ１５０１による実行中に、メモリ１５０３内および／またはプロセッサ１５０１内に完全的にまたは少なくとも部分的に存在してもよく、データ処理システム１５００、メモリ１５０３およびプロセッサ１５０１も機械アクセス可能な記憶媒体を構成する。処理モジュール／ユニット／ロジック１５２８は、更に、ネットワークを介してネットワークインターフェース装置１５０５を経由して送受信されることが可能である。

コンピュータ可読記憶媒体１５０９は、以上に説明されたいくつかのソフトウェア機能を永続的に格納するために用いることができる。コンピュータ可読記憶媒体１５０９は、例示的な実施例において単一の媒体として示されるが、「コンピュータ可読記憶媒体」という用語は、１つまたは複数の命令セットが格納される単一の媒体または複数の媒体（例えば、集中型または分散型データベース、および／または関連するキャッシュとサーバ）を含むと解釈されるものとする。「コンピュータ可読記憶媒体」という用語は、更に、命令セットを格納または符号化できる任意の媒体を含むと解釈されるものであり、命令セットは機械により実行され、本発明のいずれか１種又は複数種の方法を機械に実行させるためのものである。それゆえに、「コンピュータ可読記憶媒体」という用語は、ソリッドステートメモリ、光学媒体および磁気媒体、またはその他の任意の非一時的機械可読媒体を含むが、それらに限定されないと解釈されるものとする。

本明細書に記載の処理モジュール／ユニット／ロジック１５２８、構成要素およびその他の特徴は、ディスクリートハードウェア構成要素として実現されてもよく、またはＡＳＩＣＳ、ＦＰＧＡ、ＤＳＰまたは類似の装置のようなハードウェア構成要素の機能に統合されてもよい。更に、処理モジュール／ユニット／ロジック１５２８は、ハードウェア装置におけるファームウェアまたは機能性回路として実現されてもよい。更に、処理モジュール／ユニット／ロジック１５２８は、ハードウェア装置とソフトウェア構成要素の任意の組み合わせで実現されてもよい。

なお、システム１５００は、データ処理システムの様々な構成要素を有するものとして示されているが、構成要素を相互接続する任意の特定のアーキテクチャまたは方式を表すことを意図するものではなく、そのような詳細は、本発明の実施例とは密接な関係がない。また、より少ない構成要素またはより多くの構成要素を有するネットワークコンピュータ、ハンドヘルドコンピュータ、携帯電話、サーバおよび／またはその他のデータ処理システムは、本発明の実施例と共に使用することも可能であることを理解されたい。

上述した具体的な説明の一部は、既に、コンピュータメモリにおけるデータビットに対する演算のアルゴリズムと記号表現により示された。これらのアルゴリズムの説明および表現は、データ処理分野における当業者によって使用される、それらの作業実質を所属分野の他の当業者に最も効果的に伝達する方法である。本明細書では、一般的に、アルゴリズムは、所望の結果につながるセルフコンシステントシーケンスと考えられる。これらの動作は、物理量の物理的処置が必要なものである。

しかしながら、念頭に置くべきなのは、これらの用語および類似の用語の全ては、適切な物理量に関連付けられるものであり、これらの量を標識しやすくするためのものに過ぎない。以上の説明で他に明示的に記載されていない限り、本明細書の全体にわたって理解すべきなのは、用語（例えば、添付された特許請求の範囲に記載のもの）による説明とは、コンピュータシステムまたは類似の電子式コンピューティングデバイスの動作若しくはプロセスを指し、コンピュータシステムまたは電子式コンピューティングデバイスは、コンピュータシステムのレジスタおよびメモリにおける物理（電子）量として示されたデータを制御するとともに、データをコンピュータシステムメモリ、レジスタまたはこのようなその他の情報を格納、伝送または表示する装置において同様に物理量として示された別のデータに変換する。

図に示される技術は、１つまたは複数の電子装置に格納され実行されるコードおよびデータを使用して実施することができる。そのような電子装置は、コンピュータ可読媒体（例えば、非一時的コンピュータ可読記憶媒体（例えば、磁気ディスク、光ディスク、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ装置、相変化メモリ）および一時的コンピュータ可読伝送媒体（例えば、電子、光学、音響学、または搬送波、赤外線信号、デジタル信号などの他の形態の伝搬信号など）を使用して、コードおよびデータを（内部におよび／またはネットワークを介して他の電子装置に）格納および通信する。

上述した図面において説明されたプロセスまたは方法は、ハードウェア（例えば、回路、専用ロジックなど）、ファームウェア、ソフトウェア（例えば、非一時的コンピュータ可読媒体に具現化されるもの）、またはそれらの組み合わせを含む処理ロジックにより実行されることができる。プロセスまたは方法は、以上で特定の順序に応じて説明されたが、記述した動作の一部が異なる順序で実行されてもよいことを理解されたい。また、一部の動作は、順番ではなく並行して実行されてもよい。

上述した明細書において、本発明の実施例は、既にその具体的な例示的な実施例を参照しながら記載された。明らかなように、添付された特許請求の範囲に記載された本発明のより広い趣旨および範囲を逸脱しない限り、本発明に対して様々な変更を行うことができる。それゆえに、本明細書および図面は、限定的な意味でなく、例示的な意味で理解されるべきである。

本発明の一側面として、特徴に基づいてスマート表示装置を制御するためのコンピュータ実施方法を提供する。当該方法は、前記スマート表示装置に関連付けられた光捕捉装置から画像を受信するステップと、前記画像内にある顔に基づいて、前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップと、前記画像内にある前記顔に基づいて前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動すると判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を起動するステップと、を含む。

本発明の一側面として、命令が格納されている非一時的機械可読媒体を提供する。前記命令がプロセッサにより実行されると、前記プロセッサにスマート表示装置に関連付けられた光捕捉装置から画像を受信するステップと、前記画像内にある顔に基づいて、前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップと、前記画像内にある前記顔に基づいて前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動すると判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を起動するステップと、を含む動作を実行させる。

本発明の一側面として、プロセッサと、命令を格納するために前記プロセッサに接続されるメモリと、を備えるシステムを提供する。前記命令が前記プロセッサにより実行されると、前記プロセッサにスマート表示装置に関連付けられた光捕捉装置から画像を受信するステップと、前記画像内にある顔に基づいて、前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップと、前記画像内にある前記顔に基づいて前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動すると判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を起動するステップと、を含む動作を実行させる。

一実施例では、システム１５００は、バスまたはインターコネクト１５１０を介して接続される、プロセッサ１５０１、メモリ１５０３および装置１５０５〜１５０８を含む。プロセッサ１５０１は、単一のプロセッサコアまたは複数のプロセッサコアが含まれる単一のプロセッサまたは複数のプロセッサを表すことが可能である。プロセッサ１５０１は、マイクロプロセッサ、中央処理装置（ＣＰＵ）などのような、１つまたは複数の汎用プロセッサを表すことが可能である。より具体的には、プロセッサ１５０１は、複雑命令セットコンピューティング（ＣＩＳＣ）マイクロプロセッサ、縮小命令セットコンピューティング（ＲＩＳＣ）マイクロプロセッサ、超長命令語（ＶＬＩＷ）マイクロプロセッサ、またはその他の命令セットを実行するプロセッサ、または命令セットの組み合わせを実行するプロセッサであってもよい。プロセッサ１５０１は更に１つまたは複数の専用プロセッサであってもよい。例えば、特定用途向け集積回路（ＡＳＩＣ）、セルラー若しくはベースバンドプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタルシグナルプロセッサ（ＤＳＰ）、ネットワークプロセッサ、グラフィックプロセッサ、通信プロセッサ、暗号化プロセッサ、コプロセッサ、組込みプロセッサ、または命令を処理可能な任意の他の種類のロジックが挙げられる。

システム１５００は、例えば、ネットワークインターフェース装置１５０５、任意選択入力装置１５０６、及びその他の任意選択Ｉ／Ｏ装置１５０７を含む装置１５０５〜１５０８のようなＩ／Ｏ装置を更に含んでもよい。ネットワークインターフェース装置１５０５は、無線送受信機および／またはネットワークインターフェースカード（ＮＩＣ）を含んでもよい。前記無線送受信機は、ＷｉＦｉ（登録商標）送受信機、赤外線送受信機、ブルートゥース（登録商標）送受信機、ＷｉＭａｘ（登録商標）送受信機、無線携帯電話送受信機、衛星送受信機（例えば、全地球測位システム（ＧＰＳ）送受信機）、またはその他の無線周波数（ＲＦ）送受信機、またはそれらの組み合わせであってもよい。ＮＩＣは、イーサネット（登録商標）カードであってもよい。

Ｉ／Ｏ装置１５０７は音声装置を含んでもよい。音声装置は、音声認識、音声複製、デジタル記録および／または電話機能のような音声サポートの機能を促進するために、スピーカおよび／またはマイクロホンを含んでもよい。その他のＩ／Ｏ装置１５０７は、更に、ユニバーサルシリアルバス（ＵＳＢ）ポート、パラレルポート、シリアルポート、プリンタ、ネットワークインターフェース、バスブリッジ（例えば、ＰＣＩ−ＰＣＩブリッジ）、センサ（例えば、加速度計、ジャイロスコープ、磁力計、光センサ、コンパス、近接センサなどのモーションセンサ）、またはそれらの組み合わせを含んでもよい。装置１５０７は、結像処理サブシステム（例えば、カメラ）を更に含んでもよい。結像処理サブシステムは、写真およびビデオ断片の記録のようなカメラ機能を促進するための、電荷結合素子（ＣＣＤ）または相補型金属酸化物半導体（ＣＭＯＳ）光学センサのような光学センサを含んでもよい。特定のセンサは、センサハブ（図示せず）を介してインターコネクト１５１０に接続されることができ、キーボードまたはサーマルセンサのようなその他の装置はシステム１５００の具体的な配置または設計により、組込みコントローラ（図示せず）により制御されることも可能である。

Claims

特徴に基づいてスマート表示装置を制御するためのコンピュータ実施方法であって、
前記スマート表示装置に関連付けられた光捕捉装置から画像を受信するステップと、
前記画像内にある顔に基づいて、前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップと、
前記画像内にある前記顔に基づいて前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動すると判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を起動するステップと、を含むコンピュータ実施方法。
前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
前記画像を機械学習モデルにより解析するステップを含む請求項１に記載の方法。
前記スマート表示装置に関連付けられた前記光捕捉装置から第２の画像を受信するステップと、
前記顔が前記第２の画像内にあるか否かを判定するステップと、
前記顔が前記第２の画像内にないと判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を停止するステップと、をさらに含む請求項１に記載の方法。
前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
前記画像内の前記顔から前記スマート表示装置までの距離を確定するステップをさらに含む請求項１に記載の方法。
前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
前記スマート表示装置に対する前記画像内の前記顔の視線方向を確定するステップをさらに含む請求項１に記載の方法。
前記顔に関連付けられたユーザを識別するステップをさらに含む請求項１に記載の方法。
前記顔に関連付けられたユーザを識別するステップは、前記画像内に存在する前記顔と、ローカルモデル内に存在する前記ユーザの顔との比較に基づいて行われる請求項６に記載の方法。
命令が格納されている非一時的機械可読媒体であって、
前記命令がプロセッサにより実行されると、前記プロセッサに
スマート表示装置に関連付けられた光捕捉装置から画像を受信するステップと、
前記画像内にある顔に基づいて、前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップと、
前記画像内にある前記顔に基づいて前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動すると判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスを起動するステップと、を含む動作を実行させる非一時的機械可読媒体。
前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
前記画像を機械学習モデルにより解析するステップを含む請求項８に記載の非一時的機械可読媒体。
前記スマート表示装置に関連付けられた前記光捕捉装置から第２の画像を受信するステップと、
前記顔が前記第２の画像内にあるか否かを判定するステップと、
前記顔が前記第２の画像内にないと判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を停止するステップと、をさらに含む請求項８に記載の非一時的機械可読媒体。
前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
前記画像内の前記顔から前記スマート表示装置までの距離を確定するステップをさらに含む請求項８に記載の非一時的機械可読媒体。
前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
前記スマート表示装置に対する前記画像内の前記顔の視線方向を確定するステップをさらに含む請求項８に記載の非一時的機械可読媒体。
前記顔に関連付けられたユーザを識別するステップをさらに含む請求項８に記載の非一時的機械可読媒体。
前記顔に関連付けられたユーザを識別するステップは、前記画像内に存在する前記顔と、ローカルモデル内に存在する前記ユーザの顔との比較に基づいて行われる請求項１３に記載の非一時的機械可読媒体。
プロセッサと、
命令を格納するために前記プロセッサに接続されるメモリと、を備えるシステムであって、
前記命令が前記プロセッサにより実行されると、前記プロセッサに
スマート表示装置に関連付けられた光捕捉装置から画像を受信するステップと、
前記画像内にある顔に基づいて、前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップと、
前記画像内にある前記顔に基づいて前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動すると判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を起動するステップと、を含む動作を実行させるシステム。
前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
前記画像を機械学習モデルにより解析することを含む請求項１５に記載のシステム。
前記スマート表示装置に関連付けられた前記光捕捉装置から第２の画像を受信するステップと、
前記顔が前記第２の画像内にあるか否かを判定するステップと、
前記顔が前記第２の画像内にないと判定されたことに応答して、前記スマート表示装置に関連付けられた前記記録デバイスの前記音声認識を停止するステップと、をさらに含む請求項１５に記載のシステム。
前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
前記画像内の前記顔から前記スマート表示装置までの距離を確定することをさらに含む請求項１５に記載のシステム。
前記スマート表示装置に関連付けられた記録デバイスの音声認識を起動するか否かを判定するステップは、
前記スマート表示装置に対する前記画像内の前記顔の視線方向を確定することをさらに含む請求項１５に記載のシステム。
前記顔に関連付けられたユーザを識別するステップをさらに含む請求項１５に記載のシステム。