JP6968154B2

JP6968154B2 - 制御システムならびに制御処理方法および装置

Info

Publication number: JP6968154B2
Application number: JP2019507757A
Authority: JP
Inventors: ワンジョンボー
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-08-11
Filing date: 2017-08-10
Publication date: 2021-11-17
Anticipated expiration: 2037-08-10
Also published as: US20180048482A1; JP2019532543A; EP3497467A4; EP3497467A1; CN107728482A; TW201805744A; WO2018031758A1

Description

関連出願への相互参照
本出願は、全体が参照によって本明細書に組み込まれる２０１６年８月１１日に出願された中国特許出願第２０１６１０６５８８３３．６号の優先権を主張する。

本出願は、制御の分野に関し、特に、制御システムならびに制御処理方法および装置に関する。

スマートホームは、人間工学の原則に基づいた、個人のニーズを考慮した、家庭生活に関連する種々のシステム、例えば、警備、照明制御、カーテン制御、ガス栓制御、情報家電製品、シーンリンケージ（ｓｃｅｎｅｌｉｎｋａｇｅ）、床暖房、健康管理、衛生および流行病防止、高度のコンピューター技術を使用した警備員、ネットワーク通信技術、広範囲な配線技術、および医療電子技術などの有機的な組合せである。

従来技術において、一般に、種々のスマートホームデバイスは、スマートホームデバイスに対応する携帯電話アプリを通じて制御され、スマートホームデバイスは、携帯電話アプリを遠隔制御として仮想化する方法を使用して制御される。携帯電話アプリを遠隔制御として仮想化する方法において、ある応答待ち時間が、ホームデバイスの制御の間に存在する。多数のスマートホームデバイスの適用とともに、種々のホームデバイスに対応する携帯電話アプリの操作インターフェースが増えるにつれて、ますます頻繁にインターフェースを切り替えるという結果になる。

従来技術のホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する問題を考慮した、効果的な解決法は、まだ提案されていない。

本出願の実施形態は、ホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題を解決するための制御システムならびに制御処理方法および装置を提供する。

本出願の実施形態の一態様によれば、複数のデバイスを含む予め決められた空間における情報を収集するための収集ユニットを含む制御システムが提供される。さらに、制御システムは、収集された情報に従って、ユーザの示す情報を決定するための処理ユニットを含む。加えて、処理ユニットは、示す情報に従って、ユーザにより制御されるターゲットデバイスを複数のデバイスから選択する。

本出願の上述の実施形態によれば、さらに、本出願は、複数のデバイスを含む、予め決められた空間における情報を収集することを含む制御処理方法を提供する。さらに、方法は、収集された情報に従って、ユーザの示す情報を決定することを含む。さらに、方法は、示す情報に従って、ユーザにより制御されるターゲットデバイスを複数のデバイスから選択することを含む。

本出願の上述の実施形態によれば、さらに、本出願は、複数のデバイスを含む、予め決められた空間における情報を収集する第１の収集ユニットを含む制御処理装置を提供する。さらに、制御処理装置は、収集された情報に従って、ユーザの示す情報を決定する第１の決定ユニットを含む。さらに、制御処理装置は、示す情報に従って、ユーザにより制御されるターゲットデバイスを複数のデバイスから選択する第２の決定ユニットを含む。

上述の実施形態によって、処理ユニットは、収集ユニットによって収集された情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定し、示す情報の指示に従って、制御されるデバイスを決定し、次に、決定されたデバイスを制御する。

本出願の上述の実施形態を通じて、ユーザにより制御されるデバイスを、予め決められた空間におけるユーザの顔の示す情報に基づいて決定して、デバイスを制御することが可能である。処理は、デバイスを制御するという目標を達成するために、マルチメディア情報を収集することのみを必要とする。ユーザは、デバイスを制御するために、種々のアプリケーションの操作インターフェースを切り替える必要がない。したがって、ホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題が解決されて、よって、簡単な操作により収集された情報に従ってデバイスを直接制御するという目標を達成する。

本明細書において記述される添付の図面は、本出願のさらなる理解を提供するために使用され、本出願の一部を構成する。本出願の例示的な実施形態および説明は、本出願上の妥当でない制限を構成することではなく、本出願を説明することのために使用される。

本出願の実施形態にかかる制御システム１００を例示する概略図である。本出願の実施形態にかかるコンピューター端末２００を例示する構造のブロック図である。本出願の実施形態にかかる制御処理方法３００を例示するフロー図である。本出願の実施形態にかかる代替の制御処理方法３５０を例示するフロー図である。本出願の実施形態にかかる代替の人間−コンピューターインタラクションシステムを示す図式的な構造図である。本出願の実施形態にかかる代替の人間−コンピューターインタラクションシステムを示す方法５００のフロー図である。本出願の実施形態にかかる制御処理装置を例示する概略図である。

当業者に本出願における解決法をよりよく理解させることを可能にするために、本出願の実施形態における技術的な解決法を、本出願の実施形態における図面に関して、以下に明確にかつ完全に説明することになる。以下に説明する実施形態は、本出願の実施形態のうちのいくつかにすぎず、すべてではない。

本出願の明細書、特許請求の範囲、および上述の図面における、例えば、「第１の」および「第２の」などの用語を、類似の対象を区別するために使用して、必ずしも特定の順または優先の順を記述するために使用するとは限らないということに注意すべきである。今述べたやり方において使用される数字は、適切な状況において交換可能であり、従って、本明細書において説明する本出願の実施形態を、本明細書において示されるまたは記述される順に加えた順において実装することが可能であるとを理解すべきである。加えて、例えば、「含む」および「有する」などの用語、ならびにこれらのあらゆる変形は、排他的でない包含を含むよう意図されて、例えば、処理、方法、システム、製品、または一連のステップもしくはユニットを含むデバイスは、明確に列挙されたステップまたはユニットに必ずしも限定されず、明確に列挙されてない、または処理、方法、製品、もしくはデバイスに固有である他のステップまたはユニットを含むことが可能である。

本出願の実施形態によれば、制御システムの実施形態が提供される。図１は、本出願の実施形態にかかる制御システム１００の概略図である。図１において示すように、制御システム１００は、収集ユニット１０１および処理ユニット１０３を含む。

収集ユニット１０１は、複数のデバイスを含む予め決められた空間における情報を収集するよう構成される。予め決められた空間は、１つまたは複数の事前に設定された空間であるとすることができて、空間に含まれるエリアは、固定された大きさまたは可変の大きさを有することが可能である。予め決められた空間は、収集ユニットの収集範囲に基づいて決められる。例えば、予め決められた空間は、収集ユニットの収集範囲と同じにすることができて、または予め決められた空間は、収集ユニットの収集範囲内にすることができる。

例えば、ユーザの部屋が、エリアＡ、エリアＢ、エリアＣ、エリアＤ、およびエリアＥを含む。例において、エリアＡは、変化する空間、例えばバルコニーである。エリアＡ、エリアＢ、エリアＣ、エリアＤ、およびエリアＥのうちどれか１つまたは複数を、収集ユニットの収集能力に従って、予め決められた空間として設定することが可能である。

収集される情報は、マルチメディア情報、赤外線信号などを含むことが可能である。マルチメディア情報は、コンピューターおよびビデオ技術の組合せであり、マルチメディア情報は、主として音および画像を含む。赤外線信号は、検出された対象の温度状態を通じて、検出された対象の特徴を表すことが可能である。

代替の実施形態において、収集ユニット１０１は、１つまたは複数のセンサーを通じて、予め決められた空間における情報を収集することが可能である。センサーは、制限しないが、画像センサー、音センサー、および赤外線センサーを含む。収集ユニット１０１は、１つまたは複数のセンサーを通じて、予め決められた空間における環境情報および／または生体情報を収集することが可能である。生体情報は、画像情報、音信号、および／または生体のサインインフォメーションを含むことが可能である。さらに、実施形態において、収集ユニット１０１を、１つまたは複数のシグナルコレクター（または信号収集装置）を通じて実装することが可能である。

別の代替の実施形態において、収集ユニット１０１は、収集された情報が画像を含むように予め決められた空間における画像を収集するよう構成される画像収集システムを含むことが可能である。

画像収集システムは、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、すなわち、デジタル信号処理）画像収集システムであるとすることができて、予め決められた空間における収集されたアナログ信号を０または１のデジタル信号に変換することが可能である。さらに、ＤＳＰ画像収集システムは、デジタル信号を修正、削除、および強化し、次に、デジタルデータを解釈してアナログデータまたはシステムチップにおける実際の環境のフォーマットに戻すことが可能である。具体的には、ＤＳＰ画像収集システムは、予め決められた空間において画像を収集し、収集された画像をデジタル信号へと変換し、デジタル信号を修正、削除、および強化して誤りのあるデジタル信号を訂正し、訂正されたデジタル信号をアナログ信号に変換してアナログ信号の訂正を実現し、訂正されたアナログ信号を最終的な画像として決定する。

実施形態において、さらに、画像収集システムは、デジタル画像収集システム、マルチスペクトル画像収集システム、またはピクセル画像収集システムであるすることが可能である。

代替の実施形態において、収集ユニット１０１は、収集された情報が音信号を含むように、サウンドレシーバー、サウンドコレクター、サウンドカードなどを使用して、予め決められた空間における音信号を収集することが可能である音収集システムを含む。

処理ユニット１０３は、収集された情報に従って、ユーザの示す情報を決定し、次に、示す情報に従って、ユーザにより制御されるターゲットデバイスを複数のデバイスから選択するよう構成される。

具体的には、処理ユニットは、収集された情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定し、次に、示す情報に従って、ユーザにより制御されるデバイスを決定することが可能である。代替の実施形態において、予め決められた空間において情報が収集された後、ユーザの顔情報は、収集された情報から抽出される。

ユーザについての顔のポーズおよび空間における位置情報などは、顔情報に基づいて決定され、次に、示す情報が生成される。ユーザの顔の示す情報が決定された後、示す情報により指し示されるユーザデバイスは、示す情報に従って決定され、ユーザデバイスは、ユーザにより制御されるデバイスとして決定される。

正確さを改善するために、ユーザの顔の示す情報を、ユーザの顔特徴点の示す情報を通じて決定することが可能である。具体的には、予め決められた空間の情報が収集された後、予め決められた空間の情報が人体の情報を含む場合、１つまたは複数の人間についての顔特徴点の情報は、予め決められた空間の情報から抽出される。ユーザの示す情報は、顔特徴点の抽出された情報に基づいて決定されて、示す情報は、ユーザにより制御されるデバイスを指し示す。

例えば、鼻の情報（情報は、鼻のある局所的な位置の示す方向、例えば、鼻先の示す方向を含む）は、予め決められた空間の情報から抽出され、示す情報は、鼻の示す方向に基づいて決定される。もし目の水晶体の情報が予め決められた空間の情報から抽出されるならば、予め決められた空間の情報は、水晶体の参照位置のある示す方向を含むことが可能であり、示す情報は、目の水晶体の参照位置が示す方向に基づいて決定される。

顔特徴点が目および鼻を含む場合、示す情報を、目および鼻の情報に従って決定することが可能である。具体的には、ユーザの顔の示す情報のある部分を、目の水晶体の向きおよび角度を通じて決定することが可能であり、一方、さらに、ユーザの顔の示す情報の他の部分を、鼻の向きおよび角度を通じて決定することが可能である。

もし目の水晶体を通じて決定されたユーザの顔の示す情報の一部が、鼻を通じて決定されたユーザの顔の示す情報の他の部分に一致するならば、ユーザの顔の示す情報は、予め決められた空間におけるユーザの顔の示す情報として決定される。さらに、ユーザの顔の示す情報が決定された後、決定されたユーザの顔の示す情報により指し示される方向のデバイスは、示す情報に従って決定され、指し示される方向のデバイスは、制御されるデバイスとして決定される。

上述の実施形態を通じて、予め決められた空間においてユーザの顔の示す情報を、予め決められた空間における収集された情報に基づいて決定することが可能であり、ユーザにより制御されるデバイスを、ユーザの顔の示す情報に従って決定することが可能である。ユーザの顔の示す情報を使用して制御されるデバイスを決定することによって、人間とデバイスとの間のインタラクションが簡略化され、インタラクション体験が改善され、予め決められた空間において異なるデバイスの制御が実現される。

予め決められた空間の情報が画像を含む場合、処理ユニット１０３は、画像に人体が現れるとユーザが予め決められた空間に現れることを決定して、ユーザの顔の示す情報を決定するよう構成される。

本実施形態において、処理ユニット１０３は、ユーザが予め決められた空間に現れるかどうかを検出し、ユーザが予め決められた空間に現れると、予め決められた空間において収集された情報に基づいてユーザの顔の示す情報を決定する。

ユーザが予め決められた空間において現れるかどうかを検出することを、次のステップ、人体の特徴が画像において現れるかどうかを検出すること、および、人体の特徴が画像において検出されると、ユーザが予め決められた空間における画像に現れることを決定することを通じて実装することが可能である。

具体的には、人体についての画像の特徴を、予め格納することが可能である。収集ユニット１０１が画像を収集した後、画像は、人体についての予め格納された画像の特徴（すなわち、人体の特徴）を使用して識別される。もし画像の特徴が画像に存在すると認識されるならば、人体が画像に現れることが決定される。

収集された情報が音を含む場合、処理ユニット１０３は、音信号に従ってユーザの顔の示す情報を決定するよう構成される。

具体的には、処理ユニット１０３は、音信号に従って、ユーザが予め決められた空間に現れるかどうかを検出し、ユーザが予め決められた空間に現れると、予め決められた空間において収集された情報に基づいてユーザの顔の示す情報を決定する。

音信号に従ってユーザが予め決められた空間に現れるかどうかを検出することを、次のステップ、音信号が人体から来るかどうかを検出すること、および、音信号が人体から来ることを検出すると、ユーザが予め決められた空間に現れることを決定することを通じて実装することが可能である。

具体的には、人体についての音の特徴（例えば、ヒトの音声の特徴）を、予め格納することが可能である。収集ユニット１０１が音信号を収集した後、音信号は、予め格納された人体についての音の特徴を使用して認識される。もし音の特徴が音信号に存在することを認識するならば、音信号は人体から来ることが決定される。

本出願の上述の実施形態によって、収集ユニットは、情報を収集し、処理ユニットは、収集された情報に従って人間認識を実行する。人体が予め決められた空間に現れることを認識すると、処理ユニット１０３は、人体が予め決められた空間に存在するかどうかを、正確に検出するように、ユーザの顔の示す情報を決定することが可能である。人体が存在すると、処理ユニット１０３は、人間の顔の示す情報を決定して、よって、人間の顔の示す情報を決定する効率を改善する。

上述の実施形態を通じて、処理ユニット１０３は、収集ユニットにより収集された情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定し、示す情報の指示に従って、制御されるデバイスを決定し、次に、決定されたデバイスを制御する。本出願の上述の実施形態を通じて、ユーザにより制御されるデバイスを、予め決められた空間におけるユーザの顔の示す情報に基づいて決定して、デバイスを制御することが可能である。

本処理は、デバイスを制御するという目標を達成するために、マルチメディア情報を収集することのみを必要とする。ユーザは、デバイスを制御するために種々のアプリケーションの操作インターフェースを切り替える必要がない。したがって、従来技術のホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題が解決されて、よって、簡単な操作により収集された情報に従ってデバイスを直接制御するという目標を達成する。

本出願の実施形態において提供される実施形態を、モバイル端末、コンピューター端末、または類似のコンピューティング装置において実装することが可能である。図２は、例として、コンピューター端末上の実行を使用する、本出願の実施形態にかかるコンピューター端末２００の構造のブロック図である。

図２において示すように、コンピューター端末２００は、１つまたは複数（図において１つのみ）の処理ユニット２０２（処理ユニット２０２は、制限しないが、ＭＣＵ（超小型演算装置）またはＦＰＧＡ（半導体チップ）などの処理装置を含むことが可能である）と、データを格納するよう構成されるメモリと、情報を収集するよう構成される収集ユニット２０４と、通信機能を実装するよう構成される伝送モジュール２０６とを含むことが可能である。当業者は、図２において示す構造は、単に例証であり、上述した電子装置の構造上の制限を構成しないことを理解することが可能である。例えば、さらに、コンピューター端末２００は、図２において示すものよりも多くのもしくは少ないコンポーネントを含む、または図２において示すものとは異なる構成を有することが可能である。

伝送モジュール２０６は、ネットワークを介してデータを受信または送信するよう構成される。具体的には、伝送モジュール２０６を、処理ユニット２０２により生成されたコマンドを種々の制御されるデバイス２１０（上述の実施形態においてユーザにより制御されるデバイスを含む）に送信するよう構成することが可能である。上述のネットワークの特定の例は、コンピューター端末２００の通信サプライヤーにより提供される無線ネットワークを含むことが可能である。

一実施例において、伝送モジュール２０６は、ネットワークアダプター（ネットワークインターフェースコントローラー、ＮＩＣ）を含み、基地局を通じて他のネットワークデバイスに接続して、インターネットを介して通信することが可能である。一実施例において、伝送モジュール２０６は、ＲＦ（無線周波数）モジュールであるすることができて、無線のやり方において制御されるデバイス２１０と通信するよう構成される。

上述のネットワークの実施例は、制限しないが、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、および組合せを含む。

さらに、制御処理方法の実施形態を、本出願の実施形態に従って提供する。図面のフロー図において示すステップを、一組のコンピューター実行可能命令などのコンピューターシステムにおいて実行することが可能であることに注意すべきである。さらに、論理的な順を、フロー図において示すが、いくつかの場合において、示されるまたは説明されるステップを、本明細書における順とは異なる順において実行することが可能である。

図３Ａは、本出願の実施形態にかかる制御処理方法３００を例示するフロー図を例示する。図３Ａにおいて示すように、方法３００は、ステップＳ３０２において開始して、複数のデバイスを含む予め決められた空間における情報を収集する。

次に、方法３００は、ステップＳ３０４に移動して、収集された情報に従って、ユーザの示す情報を決定する。続いて、方法３００は、ステップＳ３０６に移動して、示す情報に従って、ユーザにより制御されるターゲットデバイスを複数のデバイスから選択する。

上述の実施形態によって、収集ユニットが予め決められた空間における情報を収集した後、処理ユニットは、収集ユニットによって収集された情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定し、示す情報の指示に従って制御されるデバイスを決定し、次に、決定されたデバイスを制御する。

上述の実施形態を通じて、ユーザにより制御されるデバイスを、予め決められた空間におけるユーザの顔の示す情報に基づいて決定して、デバイスを制御することが可能である。処理は、デバイスを制御するという目標を達成するために、マルチメディア情報を収集することのみを必要とする。ユーザは、デバイスを制御するために種々のアプリケーションの操作インターフェースを切り替える必要がない。したがって、従来技術のホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題が解決されて、よって、簡単な操作により収集された情報に従ってデバイスを直接制御するという目標を達成する。

ステップＳ３０２を、収集ユニット１０１により実装することが可能である。予め決められた空間は、１つまたは複数の事前に設定された空間であるとすることができて、空間に含まれるエリアは、固定された大きさまたは可変の大きさを有することが可能である。予め決められた空間は、収集ユニットの収集範囲に基づいて決定される。例えば、予め決められた空間は、収集ユニットの収集範囲と同じにすることが可能であり、または予め決められた空間は、収集ユニットの収集範囲内にすることが可能である。

例えば、ユーザの部屋は、エリアＡ、エリアＢ、エリアＣ、エリアＤ、およびエリアＥを含む。実施例において、エリアＡは、変化する空間、例えば、バルコニーである。エリアＡ、エリアＢ、エリアＣ、エリアＤ、およびエリアＥのうちどれか１つまたは複数を、収集ユニットの収集能力に従って予め決められた空間として設定することが可能である。

情報は、マルチメディア情報、赤外線信号などを含むことが可能である。マルチメディア情報は、コンピューターおよびビデオ技術の組合せであり、マルチメディア情報は、主として音および画像を含む。赤外線信号は、検出された対象の温度状態を通じて、検出された対象の特徴を表すことが可能である。

図３Ｂは、本出願の実施形態にかかる代替の制御処理方法３５０を示すフロー図を例示する。図３Ｂにおいて示すように、方法３５０は、ステップＳ３５２において開始して、予め決められた空間における情報を収集して、次に、ステップＳ３５４に移動して、収集された情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定する。続いて、方法３５０は、ステップＳ３５６に移動して、示す情報に従って、ユーザにより制御されるデバイスを決定する。

上述の実施形態において、ユーザにより制御されるデバイスを、予め決められた空間におけるユーザの顔の示す情報に基づいて決定して、デバイスを制御することが可能である。処理は、デバイスを制御するという目標を達成するために、マルチメディア情報を収集することのみを必要とする。ユーザは、デバイスを制御するために種々のアプリケーションの操作インターフェースを切り替える必要がない。したがって、従来技術のホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題が解決されて、よって、簡単な操作により収集された情報に従ってデバイスを直接制御するという目標を達成する。

代替の実施形態において、予め決められた空間における情報が収集された後、ユーザの顔情報は、収集された情報から抽出される。ユーザの顔についてのポーズおよび空間における位置情報などは、顔情報に基づいて決定されて、次に、示す情報が生成される。ユーザの顔の示す情報が決定された後、示す情報によって指し示されるユーザデバイスは、示す情報に従って決定され、ユーザデバイスは、ユーザにより制御されるターゲットデバイスとして決定される。

さらに、正確さを改善するために、ユーザの顔の示す情報を、ユーザの顔特徴点の示す情報を通じて決定することが可能である。具体的には、予め決められた空間における情報が収集された後、予め決められた空間における収集された情報が人体の情報を含む場合、１つまたは複数の人間の顔特徴点の情報は、予め決められた空間の情報から抽出される。ユーザの示す情報は、顔特徴点の抽出された情報に基づいて決定され、示す情報は、ユーザにより制御されるデバイスを指し示す。

例えば、鼻の情報（情報は、鼻についてのある局所的な位置の示す方向、例えば、鼻先の示す方向を含む）は、予め決められた空間の情報から抽出され、示す情報は、鼻の示す方向に基づいて決定される。もし目の水晶体の情報が予め決められた空間の情報から抽出されるならば、情報は、水晶体の参照位置の示す方向を含むことが可能であって、示す情報は、目の水晶体の参照位置の示す方向に基づいて決定される。

顔特徴点が目および鼻を含む場合、示す情報を、目および鼻の情報に従って決定することが可能である。具体的には、ユーザの顔の示す情報の一部を、目の水晶体の向きおよび角度を通じて決定することが可能である。さらに、ユーザの顔の示す情報の他の部分を、鼻の向きおよび角度を通じて決定することが可能である。もし目の水晶体を通じて決定されたユーザの顔の示す情報の一部が、鼻を通じて決定されたユーザの顔の示す情報の他の部分と一致するならば、ユーザの顔の示す情報は、予め決められた空間におけるユーザの顔の示す情報として決定される。

さらに、ユーザの顔の示す情報が決定された後、決定されたユーザの顔の示す情報によって指し示される方向のデバイスが、示す情報に従って決定され、指し示される方向のデバイスが、制御されるデバイスとして決定される。

上述の実施形態を通じて、予め決められた空間におけるユーザの顔の示す情報を、予め決められた空間における収集された情報に基づいて決定することが可能である。加えて、ユーザにより制御されるデバイスを、ユーザの顔の示す情報に従って決定することが可能であり、ユーザの顔の示す情報を使用して、制御されるデバイスを決定することによって、人間とデバイスとの間のインタラクションが簡略化され、インタラクション体験が改善され、よって、予め決められた空間において異なるデバイスを制御するという目標を達成する。

代替の実施形態において、情報は、画像を含む。さらに、画像に従ってユーザの示す情報を決定することは、画像が人体の特徴、人体の特徴は頭の特徴を含み、を含むことを決定することと、画像から頭の特徴の空間的な位置およびポーズを取得することと、頭の特徴の空間的な位置およびポーズに従って示す情報を決定して、複数のデバイスのうちターゲットデバイスを決定することとを含む。

画像に従って示す情報を決定することは、人体が画像に現れるかどうかを判断することと、人体が現れると判断すると人体の頭の空間的な位置およびポーズを取得することとを含む。

実施形態において、人体が収集された画像に現れるかどうかが判断され、人体が現れると、特徴の認識が画像に実行されて、人体の頭の特徴の空間的な位置およびポーズを認識する。

具体的には、３次元空間の座標系（座標系は、ｘ軸、ｙ軸、およびｚ軸を含む）が予め決められた空間に対して確立され、人体が画像に従って収集された画像に存在するかどうかが判断され、人体が現れると、人体に関する頭の特徴の位置ｒ_f（ｘ_f，ｙ_f，ｚ_f）が取得され、ここで、ｆは人間の頭をさし示し、ｒ_f（ｘ_f，ｙ_f，ｚ_f）は人間の頭の空間的な位置の座標であり、ｘ_fは３次元空間の座標系における人間の頭のｘ軸座標であり、ｙ_fは３次元空間の座標系における人間の頭のｙ軸座標であり、ｚ_fは３次元空間の座標系における人間の頭のｚ軸座標である。人体が現れると、人間の頭のポーズＲ_f（ψ_f，θ_f，φ_f）が取得され、ここで、ψ_f，θ_f，φ_fを使用して人間の頭のオイラー角をさし示し、ψ_fを使用して歳差角をさし示し、θ_fを使用して章動角をさし示し、φ_fを使用して回転角をさし示し、次に、示す情報を、人体に関する頭の特徴の決定された位置および頭の特徴の決定されたポーズＲ_f（ψ_f，θ_f，φ_f）に従って決定する。

人体の頭の空間的な位置および頭のポーズが取得された後、示す線は、人体の頭の特徴の空間的な位置を始点として、および頭の特徴のポーズを方向として使用して決定される。示す線は、示す情報として使用され、ユーザにより制御されるデバイス（すなわち、ターゲットデバイス）は、示す情報に基づいて決定される。

代替の実施形態において、予め決められた空間に対応する複数のデバイスについてのデバイスの座標を、決定する。各デバイスについてのデバイスの範囲を、事前に設定された誤差の範囲および各デバイスについてのデバイスの座標に基づいて決定する。示す線によって指し示されるデバイスの範囲に対応するデバイスは、ターゲットデバイスとして決定され、もし示す線がデバイスの範囲を通過するならば、示す線は、デバイスの範囲を指し示すことが決定される。

デバイスの座標は、３次元座標であるとすることができる。実施形態において、３次元空間の座標系が確立された後、予め決められた空間における種々のデバイスの３次元座標が決定され、各デバイスについてのデバイスの範囲は、事前に設定された誤差の範囲および各デバイスの３次元座標に基づいて、示す線が取得された後に決定される。もし示す線がデバイスの範囲を通過するならば、デバイスの範囲に対応するデバイスは、ユーザにより制御されるデバイス（すなわち、ターゲットデバイス）である。

本出願の上述の実施形態によって、予め決められた空間における画像が収集された後、人間の認識は、収集された画像に従って実行される。人体を認識すると、人体の顔情報が取得され、次に、ユーザの顔の示す情報が決定され、人体が予め決められた空間に存在するかどうかを正確に検出することが可能である。人体が存在すると、人間の顔の示す情報が決定されて、よって、人間の顔の示す情報を決定する効率を改善する。

本出願の上述の実施形態によれば、人体が現れると判断すると、さらに、方法は、画像における人体の特徴における姿勢の特徴および／または身振りの特徴を決定することと、姿勢の特徴および／または身振りの特徴に対応するコマンドに従ってターゲットデバイスを制御することとを含む。

予め決められた空間における画像が収集された後、収集された画像に従って人間の認識を実行する処理において、人体の顔の示す情報が取得され、さらに、画像における人体の姿勢または身振りが認識されて、ユーザの制御命令（すなわち、上述のコマンド）を決定することが可能である。

具体的には、姿勢の特徴および／または身振りの特徴に対応するコマンドを、事前に設定することが可能であり、設定された対応は、データテーブルに格納され、姿勢の特徴および／または身振りの特徴が識別された後、姿勢の特徴および／または身振りの特徴に一致するコマンドを、データテーブルから読み取る。表１に示すように、表は、姿勢、身振り、およびコマンドの間の対応を記録する。ポーズの特徴を使用して、人体（すなわちユーザ）のポーズをさし示し、身振りの特徴を使用して、人体（すなわちユーザ）の身振りをさし示す。

表１に示す実施形態において、ユーザの顔情報がエリアＡにおけるデバイスＭを指し示すと、例えば、ユーザの顔情報は、バルコニーのカーテンを指し示す。姿勢を、座っている姿勢として、および身振りを、手を振るとして認識すると、表１から読み取られる対応するコマンドは、「開ける」／「つける」であり、次に、「開ける」コマンドを、デバイスＭ（例えば、カーテン）に対して発行して、カーテンを開くよう制御する。

本出願の上述の実施形態によって、ユーザの顔情報が決定されると、さらに、人体の姿勢および／または身振りを、認識することが可能であり、顔情報により指し示されるデバイスは、人体の姿勢および／または身振りに対応する事前に設定された制御命令を通じて、対応する操作を実行するよう制御される。デバイスが実行するよう制御される操作を、制御されるデバイスが決定されると、決定することが可能であり、人間とコンピューターとのインタラクションにおける待ち時間は、ある程度まで削減される。

別の代替の実施形態において、収集される情報は、音信号を含み、音信号に従ってユーザの示す情報を決定することは、音信号が人間の音声特徴を含むと決定することと、人間の音声特徴に従って予め決められた空間における音信号の信号源の位置情報および音信号の伝搬方向を決定することと、予め決められた空間における音信号の信号源の位置情報および伝搬方向に従って示す情報を決定して、複数のデバイスのうちターゲットデバイスを決定することとを含む。

具体的には、音信号が、人体によって生成された音であるかどうかを決定することが可能である。音信号が人体によって生成された音であると決定すると、予め決められた空間における音信号の信号源の位置情報および音信号の伝搬方向が決定され、位置情報および伝搬方向に従って示す情報が決定されて、ユーザにより制御されるデバイス（すなわち、ターゲットデバイス）を決定する。

さらに、予め決められた空間における音信号を、収集することが可能である。音信号が収集された後、収集された音信号に従って、音信号が人体によって生成された音信号であるかどうかが決定される。音信号が人体によって生成された音信号として決定された後、さらに、音信号の信号源の位置および伝搬方向が取得され、示す情報は、決定された位置情報および伝搬方向に従って決定される。

示す線は、予め決められた空間における音信号の信号源の位置情報を始点として、および伝搬方向を方向として使用して決定されるということに注意すべきである。示す線は、示す情報として使用される。

代替の実施形態において、予め決められた空間に対応する複数のデバイスについてのデバイスの座標が決定される。各デバイスについてのデバイスの範囲は、事前に設定された誤差の範囲および各デバイスについてのデバイスの座標に基づいて決定される。示す線によって指し示されるデバイスの範囲に対応するデバイスを、ターゲットデバイスとして決定する。もし示す線がデバイスの範囲を通過するならば、示す線はデバイスの範囲を指し示すことが決定される。

デバイスの座標を、３次元の座標であるとすることが可能である。実施形態において、３次元空間の座標系が確立された後、予め決められた空間における種々のデバイスの３次元座標が決定され、各デバイスについてのデバイスの範囲は、事前に設定された誤差の範囲および各デバイスの３次元座標に基づいて、示す線が取得された後に決定される。もし示す線がデバイスの範囲を通過するならば、デバイスの範囲に対応するデバイスは、ユーザにより制御されるデバイス（すなわち、ターゲットデバイス）である。

例えば、ユーザが、バルコニーに面している寝室において立ち、バルコニーのカーテンに向かって「開ける」音を生成する。はじめに、「開ける」音信号が収集された後、「開ける」音信号が人体によって生成されるかどうかが判断される。音信号が人体によって生成されると決定された後、音信号の信号源の位置および伝搬方向、すなわち、人体が音を生成する位置および音の伝搬方向が取得される。次に、音信号の示す情報が決定される。

本出願の上述の実施形態によって、示す情報を、人間の顔を通じてだけでなく、人間の音を通じても決定することが可能であり、さらに、人間とコンピューターとのインタラクションの柔軟性は増大される。さらに、示す情報を決定するための異なるアプローチもが提供される。

具体的には、音信号が人体によって生成された音であると決定すると、言葉の認識を音信号に実行して、音信号に対応するコマンドを取得する。ターゲットデバイスは、コマンドを実行するよう制御され、デバイスは、示す情報に従ってユーザにより制御されると決定されたデバイスである。

さらに、「開ける」音信号の示す情報が決定された後、言葉の認識を、音信号に実行する。例えば、システムにおいて解析された後の「開ける」音信号の意味は、「開始する」として認識される。解析後に、言葉コマンド、例えば、開始コマンドが取得される。後に、カーテンは、開始コマンドを通じて開始操作を実行するよう制御される。

言葉の認識において、対応するサービスの言葉および意味の認識を、異なるサービスの関係に基づいて実行することが可能であるということに注意すべきである。例えば、「開ける」／「つける」は、カーテンのサービスにおいて開けるようカーテンに命令し、テレビジョンのサービスにおいてつけるようテレビジョンに命令し、ライトのサービスにおいてつけるようライトに命令する。

本出願の上述の実施形態によって、言葉の信号を、言葉の認識を通じて、種々のデバイスに関して認識可能な異なるサービスに対応する言葉コマンドに変換することが可能である。次に、音信号によって指し示されるデバイスは、命令を通じて、対応する操作を実行するように制御されて、デバイスを、より便利に、迅速に、正確に制御することが可能である。

実施形態において、マイクロフォンアレイを使用して、言葉の伝搬方向および音の生成位置を測定し、画像における頭のポーズおよび位置を認識する効果と同様の効果を達成することが可能である。

実施形態において、統一されたインタラクションプラットフォームを、分散されるやり方において複数のデバイスにインストールすることが可能である。例えば、画像および言葉の収集システムは、すべての複数のデバイスにインストールされて、統一された判断を実行するよりもむしろ人間の顔認識およびポーズの判断を個々に実行する。

代替の実施形態において、ユーザの示す情報が予め決められた空間における画像情報を収集することによって決定された後、予め決められた空間における別の情報を、収集することが可能である。別の情報が識別されて、別の情報に対応するコマンドを得て、デバイスは、コマンドを実行するように制御され、デバイスは、示す情報に従って、ユーザにより制御されると決定されるデバイスである。

すなわち、実施形態において、示す情報およびコマンドを、異なる情報を通じて決定することが可能であり、よって、処理の柔軟性を増大させる。例えば、ライトが、ユーザにより制御されるデバイスとして決定された後、ライトは、ユーザが点灯コマンドを発行した後につけられる。このとき、さらに、予め決められた空間における別の情報が、収集される。例えば、ユーザは、「明るさ」コマンドを発行し、次に、明るさを調整する操作がさらに実行される。

本出願の上述の実施形態によって、さらに、デバイスを、予め決められた空間における別の情報を収集することにより制御することが可能であり、種々のデバイスを、連続的に制御することが可能である。

具体的には、別の情報は、次の少なくとも１つ、音信号、画像、および赤外線信号、を含むことが可能である。すなわち、さらに、ユーザによって既に制御されたデバイスが、画像、音信号、または赤外線信号を通じて制御されて、対応する操作を実行することが可能であり、よって、さらに、人間とコンピューターとのインタラクション体験の効果を改善する。さらにその上、無指向性の言葉および身振りコマンドが、人間の顔の指向性の情報を使用して再利用されて、同じコマンドを、複数のデバイスに対して使用することが可能である。

例えば、示す情報およびユーザのコマンドを、赤外線信号を通じて決定することが可能である。収集された赤外線信号に従って人間の認識を実行する処理において、赤外線信号により伝えられる人体の顔の示す情報を、認識する。人体の姿勢または身振りを、認識用の赤外線情報から抽出して、ユーザの制御命令（すなわち、上述のコマンド）を決定することが可能である。

代替の実施形態において、ユーザの示す情報が、予め決められた空間における画像を収集することによって決定された後、予め決められた空間における音信号を、収集することが可能である。音信号が認識されて、音信号に対応するコマンドを得て、制御されるデバイスは、コマンドを実行するよう制御される。

別の代替の実施形態において、ユーザの示す情報が、予め決められた空間における音信号を収集することによって決定された後、予め決められた空間における赤外線信号を、収集することが可能である。赤外線信号が認識されて、赤外線信号に対応するコマンドを得て、制御されるデバイスは、コマンドを実行するよう制御される。

実施形態において、本出願の上述の実施形態における画像認識および言葉の認識は、オープンソースソフトウェアのライブラリを使用することを選ぶことが可能である。画像認識は、関連のあるオープンソースのプロジェクト、例えば、ｏｐｅｎＣＶ（ＯｐｅｎＳｏｕｒｃｅＣｏｍｐｕｔｅｒＶｉｓｉｏｎＬｉｂｒａｒｙ、すなわち、クロスプラットフォームのコンピュータビジョンライブラリ）、ｄｌｉｂ（最新のＣ＋＋の技法を使用して書かれた、オープンソース、クロスプラットフォームの汎用ライブラリ）などを使用することを選ぶことが可能である。言葉の認識は、関連のあるオープンソースの言葉プロジェクト、例えば、ｏｐｅｎＡＬ（ＯｐｅｎＡｕｄｉｏＬｉｂｒａｒｙ、すなわち、クロスプラットフォームのＡｕｄｉｏＡＰＩ）またはＨＫＴ（隠れマルコフモデルのツールキット）を使用することが可能である。

前述の各方法の実施形態を簡潔に記述するために、すべての方法の実施形態は、一連の動作の組合せとして表されるが、当業者は、いくつかのステップが他の順を適用することが可能であり、または本出願に従って同時に実行することが可能であるので、本出願が記述された動作の順によって制限されないとわかるべきであることに注意すべきである。加えて、さらに、当業者は、説明において記述されるすべての実施形態は、望ましい実施形態に属し、含まれる動作およびモジュールは、本出願によって必ずしも必要でないとわかるべきある。

実施形態の前述の説明を通じて、明らかに、当業者は、上述の実施形態における方法を、ソフトウェアに加えて、必要な一般的なハードウェアのプラットフォームによって実装することが可能であり、さらに、確かに、ハードウェアによって実装することが可能であると理解することが可能である。しかしながら、ほとんどの場合、前者は、望ましい実装のやり方である。理解に基づいて、本出願の技術的な解決法の本質、または従来技術に貢献をする部分を、ソフトウェア製品の形において実施することが可能である。コンピューターソフトウェア製品は、記憶媒体（例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、または光ディスク）に格納され、本出願の実施形態において記述される方法を実行するためのターミナルデバイス（携帯電話、コンピューター、サーバー、ネットワークデバイスなどとすることが可能である）に命令するためのいくつかの命令を含む。

本出願の実施形態を、図４を参照して、以下に詳細に記述する。図４において示す制御システム４００（例えば、人間−コンピューターインタラクションシステム）は、カメラ４０１または他の画像収集システム、マイクロフォン４０２または他の音声信号収集システム、情報処理システム４０３、ワイヤレスコマンドインタラクションシステム４０４、および制御されるデバイス（制御されるデバイスはユーザにより制御される上述のデバイスを含む）を含み、制御されるデバイスは、ライト４０５１、テレビジョン４０５３、およびカーテン４０５５を含む。

実施形態におけるカメラ４０１およびマイクロフォン４０２は、図１に示す実施形態の収集ユニット１０１に含まれる。情報処理システム４０３およびワイヤレスコマンドインタラクションシステム４０４は、図１に示す実施形態の処理ユニット１０３に含まれる。

カメラ４０１およびマイクロフォン４０２は、それぞれ、ユーザの活動空間における画像情報および音声情報を収集し、収集された情報を処理のために情報処理システム４０３に転送するよう構成される。

情報処理システム４０３は、ユーザの顔の示す情報およびユーザの命令を抽出する。情報処理システム４０３は、処理プログラムおよびハードウェアプラットフォームを含み、制限はしないが、ローカルアーキテクチャーおよびクラウドアーキテクチャーを含む形において実装することが可能である。

情報処理システム４０３によって抽出されるユーザの顔の示す情報およびユーザの命令に対して、ワイヤレスコマンドインタラクションシステム４０４は、電波を使用して、または赤外線のやり方において、ユーザの顔の示す情報によって指定された制御されるデバイス４０５１、４０５３、４０５５にユーザの命令を送信する。

本出願の実施形態におけるデバイスは、インテリジェントデバイスであるとすることが可能であり、インテリジェントデバイスは、本出願の実施形態における処理ユニット１０３と通信することが可能である。例えば、さらに、インテリジェントデバイスは、処理ユニットおよび伝送または通信モジュールを含むことが可能である。インテリジェントデバイスは、スマートホーム機器、例えば、テレビジョンなどであるとすることが可能である。

図５は、本出願の実施形態にかかる代替の人間−コンピューターインタラクションシステムを例示する方法５００のフロー図を示す。図４に示す制御システムは、図５に示すステップに従ってデバイスを制御することが可能である。

図５に示すように、方法５００は、ステップＳ５０１においてシステムを開始することによって始まる。図４に示す制御システム（例えば、人間−コンピューターインタラクションシステム）が開始された後、方法５００は、ステップＳ５０２およびステップＳ５０３を個々に実行して、予め決められた空間における画像および音信号を収集する。

ステップＳ５０２において、方法５００は、画像を収集する。予め決められた空間における画像を、画像収集システムを使用して収集することが可能である。続いて、方法５００は、ステップＳ５０４に移動して、人間が存在するかどうかを認識する。画像収集システムが予め決められた空間における画像を収集した後、人間の認識を、収集された画像に実行して、人体が予め決められた空間に存在するかどうかを決定する。人体が予め決められた空間に存在することを認識すると、方法５００は、ステップＳ５０５、ステップＳ５０６、およびステップＳ５０７を個々に実行する。

ステップＳ５０５において、方法５００は、身振りを認識する。人体が予め決められた空間に存在することを認識すると、人間の身振りは、予め決められた空間における収集された画像において認識されて、認識された身振りを通じて、ユーザによって実行される操作を取得する。

続いて、方法５００は、ステップＳ５０６に移動して、身振りコマンドを一致させる。人体の身振りが認識された後、人間−コンピューターインタラクションシステムは、認識された人間の身振りを、システムに格納された身振りコマンドに一致させて、身振りコマンドを通じて、対応する操作を実行するよう制御されるデバイスを制御する。

ステップＳ５０７において、方法５００は、頭のポーズを評価する。人体が予め決められた空間に存在することを認識すると、人間の頭のポーズは、予め決められた空間における収集された画像上において評価されて、認識された頭のポーズを通じて、ユーザにより制御されるデバイスを決定する。

ステップＳ５０８において、方法５００は、頭の位置を評価する。人体が予め決められた空間に存在することを認識すると、人間の頭の位置についての評価が、予め決められた空間における収集された画像に実行されて、認識された頭の位置を通じて、ユーザにより制御されるデバイスを決定する。

ステップＳ５０７およびステップＳ５０８の後、方法５００は、ステップＳ５０９においてデバイスの向きを一致させる。予め決められた空間にて確立された３次元空間の座標系において、人間−コンピューターインタラクションシステムは、人間の頭についてのポーズのオイラー角Ｒ_f（ψ_f，θ_f，φ_f）および頭の空間的な位置座標ｒ_f（ｘ_f，ｙ_f，ｚ_f）に従って、示す情報によってさし示される、制御されるデバイスの座標ｒ_d（ｘ_d，ｙ_d，ｚ_d）を決定し、ここで、ｘ_d，ｙ_d，ｚ_dは、それぞれ、制御されるデバイスの横座標、縦座標、および高さ座標である。

実施形態において、３次元空間の座標系は、予め決められた空間において確立され、人間の頭についてのポーズのオイラー角Ｒ_f（ψ_f，θ_f，φ_f）および頭の空間的な位置座標ｒ_f（ｘ_f，ｙ_f，ｚ_f）は、人間−コンピューターインタラクションシステムを使用して得られる。

制御されるデバイスの座標を決定する処理において、示すことのある程度の誤り（または誤差の範囲）εを、許す。実施形態において、ターゲットの制御されるデバイスの座標を決定する処理において、線を、ｒ_fを始点として、およびＲ_fを方向として使用して引くことが可能であり、もし線（すなわち、上述の示す線）が、ｒ_dを中心として、およびεを半径として使用する球（すなわち、上述の実施形態におけるデバイスの範囲）を通過するならば、人間の顔が、ターゲットの制御されるデバイス（すなわち、上述の実施形態におけるユーザにより制御されるデバイス）を指し示すことが決定される。

上述のステップＳ５０６からステップＳ５０８までは、序列なしに実行されることに注意すべきである。

上述のように、ステップＳ５０１において開始した後、さらに、方法５００は、ステップＳ５０３において音を収集する。予め決められた空間における音信号を、音声収集システムを使用して収集することが可能である。後に、方法５００は、ステップＳ５１０に移動して言葉の認識を実行する。音声収集システムが予め決められた空間における音信号を収集した後、収集された音信号を認識して、音信号が人体によって生成された音であるかどうかを判断する。

次に、方法５００は、ステップＳ５１１に移動して、言葉コマンドの一致を実行する。収集された音信号が人体によって生成された音として認識された後、人間−コンピューターインタラクションシステムは、認識された言葉の情報を、システムに格納された言葉コマンドに一致させて、言葉コマンドを通じて、制御されるデバイスを、対応する操作を実行するよう制御する。

ステップＳ５０６、ステップＳ５０９、およびステップＳ５１１が実行された後、方法５００は、ステップＳ５１２においてコマンドの統合を実行する。一致された身振りコマンドおよび言葉コマンドは、制御されるデバイスにより統合されて、統合コマンドを生成して、制御されるデバイスに統合の操作を実行するよう命令する。

続いて、方法５００は、ステップＳ５１３に移動して、コマンドの配信を実行する。種々のコマンドが統合された後、統合コマンドが、配信されて（すなわち、送信および伝達されて）、各々の制御されるデバイスを、対応する操作を実行するよう制御する。コマンドを、制限はしないが、無線通信および赤外線の遠隔制御を含むやり方において送信することが可能である。後に、方法５００は、ステップＳ５１４に移動して、方法５００を開始に返して戻る。

上述の人間−コンピューターインタラクションシステムは、画像処理部および音処理部を含む。さらに、画像処理部は、人間認識ユニットと身振り認識ユニットとに分割される。はじめに、画像処理部は、ユーザの活動空間（すなわち、予め決められた空間）における画像を収集し、次に、人体の画像が画像に存在するかどうかを認識する。

もし人体の画像が存在するならば、フローは、個々に頭認識ユニットおよび身振り認識ユニットに入る。頭認識ユニットにおいて、頭のポーズの評価および頭の位置の評価が実行され、次に、顔の向きは、頭のポーズおよび位置を統合することによって解決される。身振り認識ユニットにおいて、画像におけるユーザの身振りが認識され、身振りコマンドと一致され、もし一致が成功するならば、コマンドが出力される。

音処理部において、はじめに音信号が収集され、次に、言葉の認識が音信号に実行されて、言葉コマンドを抽出する。もし抽出が成功するならば、コマンドが出力される。

頭認識ユニットおよび言葉処理部において出力されたコマンドは、顔の向きに従って得られたターゲットデバイスのアドレスに統合されて、最終的なコマンドを得る。したがって、方向の情報は、人間の顔のポーズを通じて人間−コンピューターインタラクションシステムに提供されて、特定のデバイスを正確に指し示す。

複数の特定のデバイスの使用および再利用は、言葉コマンドおよび身振りコマンドを介して可能になる。例えば、ユーザが異なるデバイスに顔を向けて言葉コマンド「開ける」／「つける」を発行すると、顔を向けられたデバイスを、開けること／つけることが可能である。別の例として、ユーザが異なるデバイスに顔を向けて身振りコマンド「手を開いて閉じる」を発行すると、顔を向けられたデバイスを、閉めることまたは消すことなどが可能である。

本出願の上述の実施形態によって、人間とコンピューターとのインタラクション体験を、効果的に改善することが可能であり、人間とコンピューターとのインタラクションは、より順応性があり、人間を中心とする。

上述の実施形態における人間とコンピューターとのインタラクションの遅延およびコストを、次のやり方において削減することが可能であることに注意すべきである。第１のやり方において、特定の画像認識チップＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、すなわち、集積回路）を使用して、遅延を削減することが可能であるが、コストが高い。第２のやり方において、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を使用して、インタラクションの遅延およびコストを削減することが可能である。第３のやり方において、さらに、ｘ８６（マイクロプロセッサ）またはａｒｍ（ＡｄｖａｎｃｅｄＲＩＳＣＭａｃｈｉｎｅｓ、すなわち、組み込みＲＩＳＣプロセッサ）などのアーキテクチャーを使用して、低コストを有することが可能である。さらに、ＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、すなわち、グラフィックスプロセッサ）を使用して、遅延を削減することが可能である。第４のやり方において、処理プログラムのうちのすべてまたはいくつかを、クラウドにおいて実行する。

さらに、上述の実行環境において、制御処理装置を提供する。図６は、本出願の実施形態にかかる制御処理装置６００を例示する概略図を示す。図６に示すように、装置６００は、複数のデバイスを含む予め決められた空間における情報を収集するよう構成される第１の収集ユニット６０１を含む。

さらに、装置６００は、収集された情報に従って、ユーザの示す情報を決定するよう構成される第１の決定ユニット６０３と、示す情報に従って、ユーザにより制御されるターゲットデバイスを複数のデバイスから選択するよう構成される第２の決定ユニット６０５とを含む。

本出願の上述の実施形態を通じて、ユーザにより制御されるデバイスを、予め決められた空間におけるユーザの顔の示す情報に基づいて決定して、デバイスを制御することが可能である。処理は、デバイスの制御を実現するために、マルチメディア情報を収集することのみを必要とし、ユーザにとって、デバイスの制御を実現するために種々のアプリケーションの操作インターフェースを切り替える必要がない。結果として、従来技術のホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題が解決される。加えて、収集された情報に従ってデバイスを直接制御するという目的が達成される。さらに、操作は簡単である。

上述の予め決められた空間を、１つまたは複数の事前に設定された空間とすることが可能であり、空間に含まれるエリアは、固定された大きさまたは可変の大きさを有することが可能である。予め決められた空間は、収集ユニットの収集範囲に基づいて決定される。例えば、予め決められた空間は、収集ユニットの収集範囲と同じにすることが可能であり、または予め決められた空間は、収集ユニットの収集範囲内にすることが可能である。

上述の情報は、マルチメディア情報、赤外線信号などを含むことが可能である。マルチメディア情報は、コンピューターおよびビデオ技術の組合せであり、主として音および画像を含む。赤外線信号は、検出された対象の温度状態を通じて、検出された対象の特徴を表すことが可能である。

予め決められた空間における情報が収集された後、ユーザの顔情報が、予め決められた空間の情報から抽出され、ユーザについての顔のポーズおよび空間における位置情報などが、顔情報に基づいて決定され、示す情報が生成される。ユーザの顔の示す情報が決定された後、示す情報によって指し示されるユーザデバイスが、示す情報に従って決定され、ユーザデバイスが、ユーザにより制御されるデバイスとして決定される。

さらに、正確さを改善するために、ユーザの顔の示す情報を、ユーザの顔特徴点の示す情報を通じて決定することが可能である。具体的には、予め決められた空間における情報が収集された後、予め決められた空間における情報が人体の情報を含む場合、１つまたは複数の人間の顔特徴点についての情報は、予め決められた空間の情報から抽出される。ユーザの示す情報は、抽出された顔特徴点の情報に基づいて決定され、示す情報は、ユーザにより制御されるデバイスを指し示す。

例えば、鼻の情報（情報は、鼻についてのある局所的な位置の示す方向、例えば、鼻先の示す方向を含む）が、予め決められた空間の情報から抽出され、示す情報が、鼻の指示方向に基づいて決定される。もし目の水晶体の情報が予め決められた空間の情報から抽出されるならば、情報は、水晶体の参照位置の示す方向を含むことが可能であり、示す情報が、目の水晶体の参照位置の示す方向に基づいて決定される。

顔特徴点が目および鼻を含む場合、示す情報を、目および鼻の情報に従って決定することが可能である。具体的には、ユーザの顔の示す情報の一部を、目の水晶体の向きおよび角度を通じて決定することが可能であり、一方、さらに、ユーザの顔の示す情報の他の部分を、鼻の向きおよび角度を通じて決定することが可能である。

もし目の水晶体を通じて決定されたユーザの顔の示す情報の一部が、鼻を通じて決定されたユーザの顔の示す情報の他の部分に一致するならば、ユーザの顔の示す情報を、予め決められた空間におけるユーザの顔の示す情報として決定される。さらに、ユーザの顔の示す情報が決定された後、決定されたユーザの顔の示す情報によって指し示される方向のデバイスが、示す情報に従って決定され、指し示される方向のデバイスは、制御されるデバイスとして決定される。

上述の実施形態を通じて、予め決められた空間におけるユーザの顔の示す情報を、予め決められた空間における収集された情報に基づいて決定することが可能であり、ユーザにより制御されるデバイスは、ユーザの顔の示す情報に従って決定される。ユーザの顔の示す情報を使用して制御されるデバイスを決定することによって、人間とデバイスとの間のインタラクションが簡略化され、インタラクション体験が改善され、予め決められた空間における異なるデバイスの制御が実現される。

具体的には、予め決められた空間の情報が画像を含む場合、示す情報は、画像に従って決定され、第１の決定ユニットは、画像が人体の特徴を含むと決定するよう構成される第１の特徴決定モジュールと、人体の特徴は頭の特徴を含み、画像から頭の特徴の空間的な位置およびポーズを取得するよう構成される第１の取得モジュールと、頭の特徴の空間的な位置およびポーズに従って示す情報を決定して、複数のデバイスのうちターゲットデバイスを決定するよう構成される第１の情報決定モジュールとを含むことが可能である。

特に、第１の情報決定モジュールは、頭の特徴の空間的な位置を始点として、および頭の特徴のポーズを方向として使用して、示す線を決定するよう構成される。示す線は、示す情報として使用される。

本出願の上述の実施形態によれば、さらに、装置は、画像が人体の特徴を含むと決定すると、人体の特徴を含む画像から姿勢の特徴および／または身振りの特徴を取得するよう構成される第１の認識モジュールと、姿勢の特徴および／または身振りの特徴に対応するコマンドに従ってターゲットデバイスを制御するよう構成される第１の制御モジュールとを含む。

本出願の上述の実施形態によって、ユーザの顔情報が決定されると、さらに、人体の姿勢および／または身振りを、認識することが可能であり、顔情報によって指し示されるデバイスが、人体の姿勢および／または身振りに対応する事前に設定された制御命令を通じて、対応する操作を実行するよう制御される。デバイスが実行するよう制御される操作を、制御されるデバイスが決定されると決定することが可能であり、人間とコンピューターとのインタラクションにおける待ち時間は、ある程度削減される。

本出願の上述の実施形態によれば、予め決められた空間の情報が音信号を含む場合、示す情報は、音信号に従って決定され、さらに、第１の決定ユニットは、音信号が人間の音声特徴を含むと決定するよう構成される第２の特徴決定モジュールと、人間の音声特徴に従って予め決められた空間における音信号の信号源の位置情報および音信号の伝搬方向を決定するよう構成される第２の取得モジュールと、予め決められた空間における音信号の信号源の位置情報および伝搬方向に従って、示す情報を決定して、複数のデバイスのうちターゲットデバイスを決定するよう構成される第２の情報決定モジュールとを含む。

特に、第２の情報決定モジュールは、予め決められた空間における音信号の信号源の位置情報を始点として、および伝搬方向を方向として使用して、示す線を決定し、示す線を、示す情報として使用するよう構成される。

本出願の上述の実施形態によって、示す情報を、人間の顔を通じてだけでなく、人間の音を通じても決定することが可能であり、人間とコンピューターとのインタラクションの柔軟性がさらに増大される。さらに、示す情報を決定するための異なるアプローチを、提供する。

本出願の上述の実施形態によれば、さらに、装置は、音信号が人間の音声特徴を含むと決定すると、音信号に言葉の認識を実行して、音信号に対応するコマンドを取得するよう構成される第２の認識モジュールと、コマンドを実行するためにターゲットデバイスを制御するよう構成される第２の制御モジュールとを含む。

本出願の上述の実施形態によって、言葉の信号を、言葉の認識を通じて、種々のデバイスによって認識可能な異なるサービスに対応する言葉コマンドに変換することが可能である。次に、音信号によって指し示されるデバイスは、命令を通じて、対応する操作を実行するよう制御され、デバイスを、より便利に、迅速に、正確に制御することが可能である。

さらに、ユーザにより制御されるデバイスが決定された後、装置は、予め決められた空間における別の情報を収集するよう構成される第２の収集ユニットをさらに含む。

認識ユニットは、予め決められた空間の別の情報を認識して、別の情報に対応するコマンドを得るよう構成される。制御ユニットは、コマンドを実行するためにデバイスを制御するよう構成され、デバイスは、示す情報に従って、ユーザにより制御されると決定されたデバイスである。

代替の実施形態において、ユーザの示す情報が予め決められた空間における画像情報を収集することによって決定された後、予め決められた空間における別の情報を、収集することが可能である。別の情報が識別されて、別の情報に対応するコマンドを得る。デバイスは、コマンドを実行するよう制御され、デバイスは、示す情報に従って、ユーザにより制御されると決定されたデバイスである。すなわち、実施形態において、示す情報およびコマンドを、異なる情報を通じて決定することが可能であり、よって、処理の柔軟性を増大させる。

本出願の上述の実施形態によれば、別の情報は、次のうちの少なくとも１つ、音信号、画像、および赤外線信号、を含む。すなわち、ユーザにより既に制御されたデバイスが、画像、音信号、または赤外線信号を通じてさらに制御されて、対応する操作を実行することが可能であり、よって、人間とコンピューターとのインタラクション体験の効果をさらに改善する。さらにその上、無指向性の言葉および身振りコマンドが、人間の顔の指向性の情報を使用して再利用されて、同じコマンドを、複数のデバイスに対して使用することが可能である。

さらに、本出願の実施形態は、記憶媒体を提供する。実施形態において、本実施形態において、記憶媒体を、上述の実施形態において提供される制御処理方法によって実行されるプログラムコードを格納するために使用することが可能である。

実施形態において、本実施形態において、記憶媒体を、コンピュータネットワークにおけるコンピューター端末グループのうちのあらゆるコンピューター端末に配置する、またはモバイル端末グループのうちのあらゆるモバイル端末に配置することが可能である。

実施形態において、本実施形態において、記憶媒体は、次のステップ、予め決められた空間における情報を収集することと、情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定することと、示す情報に従って、ユーザにより制御されるデバイスを決定することと、を実行するためのプログラムコードを格納するよう構成される。

本出願の上述の実施形態を通じて、ユーザにより制御されるデバイスは、予め決められた空間におけるユーザの顔の示す情報に基づいて決定されて、デバイスを制御することが可能である。処理は、デバイスを制御するという目標を達成するために、マルチメディア情報を収集することのみを必要とする。ユーザは、デバイスを制御するために、種々のアプリケーションの操作インターフェースを切り替える必要がない。したがって、従来技術のホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題が解決されて、よって、簡単な操作により収集された情報に従ってデバイスを直接制御するという目標を達成する。

本出願の実施形態の上述した順の番号は、単に、説明の便宜のためであり、実施形態の間の優位を意味しない。

本出願の上述の実施形態において、各実施形態の説明は、自体の強調を有し、ある実施形態において詳述されない部分に関して、他の実施形態の関連のある記述に対して参照をすることが可能である。

本出願において提供されるいくつかの実施形態において、開示される技術的な内容を、他のやり方において実装することが可能であるということを理解すべきである。上述の装置の実施形態は、単に例証である。例えば、ユニットの区分は、単に論理的な機能の区分であり、実際の実装において、他の区分であっても差し支えない。例えば、複数のユニットまたはコンポーネントを、組み合わせて、または別のシステムに統合しても差し支えなく、いくつかの機能を、無視して、または実行しなくても差し支えない。加えて、表示されるまたは考察される、相互の結合もしくは直接の結合または通信接続を、いくつかのインターフェースを通じて実装することが可能であり、ユニット間またはモジュール間の間接的な結合または通信接続を、電子的なまたは他の形において実装することが可能である。

別個の部分として記述されるユニットは、物理的に別個であっても差し支えないし、なくても差し支えなし、ユニットとして示す部分は、物理的なユニットであっても差し支えないし、なくても差し支えないし、１つの場所に配置されることが可能であるだけでなく、複数のネットワークユニット上に分散されることも可能である。ユニットの一部またはすべてを、実際の要件に従って実施形態の解決法の目的を実装するよう選ぶことが可能である。

加えて、本出願のそれぞれの実施形態におけるそれぞれの機能ユニットが統合されて１つの処理ユニットになっても差し支えないし、またはそれぞれのユニットが物理的に単独において存在しても差し支えないし、または２つ以上のユニットが統合されて１つのユニットになっても差し支えない。統合されたユニットを、ハードウェアの形において、またはソフトウェアの機能ユニットの形において実装することが可能である。

統合されたユニットを、ソフトウェアの機能ユニットの形において実装し、単独の製品として販売または使用する場合、コンピューター読み取り可能な記憶媒体に格納することが可能である。理解に基づいて、本出願の技術的な解決法の本質、または従来技術に貢献をする部分、または技術的な解決法のすべてもしくは一部を、ソフトウェア製品の形において具現化することが可能である。コンピューターソフトウェア製品は、記憶媒体に格納され、本出願の実施形態において記述される方法におけるステップのすべてまたは一部を実行するようコンピューターデバイス（パーソナルコンピューター、サーバー、ネットワークデバイスなどであるとすることが可能である）に命令するためのいくつかの命令を含む。前述の記憶媒体は、プログラムコードを格納することが可能な種々の媒体、例えば、ＵＳＢフラッシュドライブ、ＲＯＭ（読み取り専用メモリ）、ＲＡＭ（ランダムアクセスメモリ）、モバイルハードディスク、磁気ディスク、または光ディスクなどを含む。

上述の説明は、単に、本出願の望ましい実施形態である。当業者は、本出願の原則から逸脱することなく、いくつかの改良および変更をすることが可能であり、さらに、改良および変更は、本出願の保護に範囲内に収まるものとして解釈されるべきであるということを指摘すべきである。

Claims

制御システムであって、
予め決められた空間における情報を収集するセンサであって、前記収集された情報は１つまたは複数の人間についての顔特徴点を含み、前記予め決められた空間は複数のデバイスを含む、センサと、
前記収集された情報に応じてユーザの示す情報を決定し、前記示す情報に応じて前記ユーザにより制御されるターゲットデバイスを前記複数のデバイスから選択するプロセッサであって、複数の人間についての顔特徴点が収集され、かつ第１の人間についての顔特徴点の第１の示す方向が第２の人間についての顔特徴点の第２の示す方向と一致する場合、前記示す情報は、前記第１および第２の示す方向に基づいて決定される、プロセッサと
を備え、
前記センサは、前記予め決められた空間における音信号を収集する音収集システムを含み、前記収集された情報は、前記音信号を含み、
前記プロセッサは、前記音信号に応じて前記ユーザの前記示す情報を決定する、制御システム。
前記センサは、前記第１および第２の人間についての顔特徴点を含む前記予め決められた空間における画像を収集する画像収集システムを含む請求項１に記載の制御システム。
制御処理方法であって、
予め決められた空間における情報を収集することであって、前記収集された情報は１つまたは複数の人間についての顔特徴点を含み、前記予め決められた空間は複数のデバイスを含む、ことと、
前記収集された情報に応じてユーザの示す情報を決定することであって、複数の人間についての顔特徴点が収集され、かつ第１の人間についての顔特徴点の第１の示す方向が第２の人間についての顔特徴点の第２の示す方向と一致する場合、前記示す情報は、前記第１および第２の示す方向に基づいて決定される、ことと、
前記示す情報に応じて、前記ユーザにより制御されるターゲットデバイスを前記複数のデバイスから選択することと
を含み、
前記収集された情報は音信号を含み、前記音信号に応じてユーザの示す情報を決定することは、
前記音信号が人間の音声特徴を含むことを決定することと、
前記人間の音声特徴に応じて前記予め決められた空間における前記音信号の信号源の位置情報および前記音信号の伝搬方向を決定することと、
前記予め決められた空間における前記音信号の前記信号源の位置情報および前記伝搬方向に応じて前記示す情報を決定して、前記複数のデバイスのうち前記ターゲットデバイスを決定することと
を含む、制御処理方法。
前記収集された情報は画像を含み、前記画像は前記第１および第２の人間についての顔特徴点を含む請求項３に記載の制御処理方法。
前記第１の人間についての顔特徴点は目を含み、前記第２の人間についての顔特徴点は鼻を含む請求項４に記載の制御処理方法。
前記画像から姿勢の特徴および／または身振りの特徴を取得することと、
前記姿勢の特徴および／または前記身振りの特徴に対応するコマンドに応じて前記ターゲットデバイスを制御することと
をさらに含む請求項４に記載の制御処理方法。
前記予め決められた空間における前記音信号の前記信号源の位置情報および前記伝搬方向に応じて前記示す情報を決定することは、
前記予め決められた空間における前記音信号の前記信号源の位置情報を始点として、および前記伝搬方向を線の方向として使用して示す線を決定することと、
前記示す線を前記示す情報として使用することとを含む請求項３に記載の制御処理方法。
前記音信号が前記人間の音声特徴を含むかどうかを決定すると前記音信号に言葉の認識を実行して、前記音信号に対応するコマンドを取得することと、
前記コマンドを実行するよう前記ターゲットデバイスを制御することと
をさらに含む請求項３に記載の制御処理方法。
前記ユーザにより制御されるターゲットデバイスを前記複数のデバイスから選択することは、
前記予め決められた空間に対応する前記複数のデバイスについてのデバイスの座標を決定することと、
事前に設定された誤差の範囲および各デバイスについての前記デバイスの座標に基づいて各デバイスに対するデバイスの範囲を決定することとを含む請求項７に記載の制御処理方法。
前記予め決められた空間における別の情報を収集するステップと、
前記別の情報を識別して、前記別の情報に対応するコマンドを得るステップと、
前記コマンドを実行するよう前記デバイスを制御することであって、前記デバイスは、前記示す情報に応じて前記ユーザにより制御されると決定される前記デバイスである、制御することとをさらに含む請求項４に記載の制御処理方法。
前記ユーザにより制御されるターゲットデバイスを前記複数のデバイスから選択することは、
前記示す線によって指し示されるデバイスの範囲に対応するデバイスを前記ターゲットデバイスとして決定することであって、前記示す線が前記デバイスの範囲を通過すると前記示す線は前記デバイスの範囲を指し示す、ことを含む請求項９に記載の制御処理方法。
前記予め決められた空間における別の情報を収集することと、
前記別の情報を識別して、前記別の情報に対応するコマンドを得ることと、
前記コマンドを実行するよう前記デバイスを制御することであって、前記デバイスは、前記示す情報に応じて、前記ユーザにより制御されることが決定された前記デバイスである、こととをさらに含む請求項３に記載の制御処理方法。
プログラム命令を組み込んだ非一時的コンピュータ読み取り可能記憶媒体であって、前記プログラム命令は、デバイスのプロセッサにより実行されたとき、前記デバイスにデバイスを制御する方法を実行させ、前記方法は、
予め決められた空間について収集された情報を受信することであって、前記収集された情報は１つまたは複数の人間についての顔特徴点を含み、前記予め決められた空間は複数のデバイスを含む、ことと、
前記収集された情報に応じてユーザの示す情報を決定することであって、複数の人間についての顔特徴点が収集され、かつ第１の人間についての顔特徴点の第１の示す方向が第２の人間についての顔特徴点の第２の示す方向と一致する場合、前記示す情報は、前記第１および第２の示す方向に基づいて決定される、ことと、
前記示す情報に応じて、前記ユーザにより制御されるターゲットデバイスを前記複数のデバイスから選択することと
を含み、
前記収集された情報は音信号を含み、前記音信号に応じてユーザの示す情報を決定することは、
前記音信号が人間の音声特徴を含むことを決定することと、
前記人間の音声特徴に応じて前記予め決められた空間における前記音信号の信号源の位置情報および前記音信号の伝搬方向を決定することと、
前記予め決められた空間における前記音信号の前記信号源の位置情報および前記伝搬方向に応じて前記示す情報を決定して、前記複数のデバイスのうち前記ターゲットデバイスを決定することと
を含む、非一時的コンピュータ読み取り可能記憶媒体。