JP2008269174A

JP2008269174A - 制御装置、方法およびプログラム

Info

Publication number: JP2008269174A
Application number: JP2007109675A
Authority: JP
Inventors: Tatsuo Yoshino; 達生吉野
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2007-04-18
Filing date: 2007-04-18
Publication date: 2008-11-06
Also published as: US20080259031A1

Abstract

【課題】誤操作しにくく、かつユーザ自身の動作による直感的な使いやすい操作インターフェースを提供する。
【解決手段】映像から特定の物体の特定の動き（予備動作）を認識したことに応じてモーション操作モードに移行し、その後、ロックオンされた動作エリアにおいて認識された各種指示動作に応じた各種機器の動作の制御を行う。終了指示動作が認識されるか、動作エリアの認識が所定時間不能となった場合、ロックオンは解除され、モーション操作モードは終了する。
【選択図】図２８

Description

本発明は制御装置、方法およびプログラムに関する。

特許文献１によると、ＣＣＤカメラで撮像した画像中の物体の形状、動きを認識するホストコンピュータと、ホストコンピュータによって認識した物体の形状、動きを表示するディスプレイとを備え、ＣＣＤカメラにユーザーが向い、例えば手振りによって指示を与えると、与えた手振りがディスプレイの表示画面上に表示され、例えば表示画面上に表示した仮想スイッチを手振りによって矢印カーソルのアイコンで選択でき、マウス等の入力装置を必要とせず、非常に簡便な機器の操作が可能となる。

特許文献２によると、撮像した画像中の物体の形状および動きを認識する動作認識部と、動作認識部で認識した物体の形状や動きを表示するディスプレイと、ＣＣＤカメラで撮像した画像を保存するフレームメモリと、フレームメモリ中に保存した画像よりも前の時間に撮像した画像を基準画像として蓄積する基準画像メモリとを設け、動作認識部で、フレームメモリ中の画像と基準画像メモリ中に蓄積している基準画像との差異を抽出する構成である。

特許文献３によると、撮カメラにより撮像された動画像から特定の対象物を検出する対象検出部と、上記対象検出部により検出された対象物の動き方向を認識する動き方向認識部と、上記動き方向認識部により認識された動き方向に対応したコマンドを情報処理システムに出力するコマンド出力部とを有する。さらに、上記対象検出部により検出された対象物の位置を検出すると共に、この検出結果を位置情報として、上記情報処理システムを操作する操作者に通知する位置情報出力部を備える。

特許文献４によると、室内などの様子をビデオカメラにおいて撮影しておき、階調のある信号を画像処理装置へ送る。画像処理装置では人体の形状を抽出する。次に動き認識装置に送り、人体などの動きのあるものを認識する。ここで動きの具体例としては、手の形、眼球の向き、手の指示方向などである。また手の形の例としては、指を１本だけ立てた場合は、テレビの１チャンネルを受信し、２本立てた場合はテレビの２チャンネルを受信したりする。
特開平８−４４４９０号公報特開平９−１８５４５６号公報特開２００２−１４９３０２号公報特開２００４−３４９９１５号公報

上記の従来技術では、赤外線式リモコンによるボタン操作と異なり、画面を見たままで、直感的に操作できるというメリットを持つ。

しかし、対象物の形状・動きの認識を色々な環境下で行うという複雑な技術を伴うため、対象物の検出不良による誤認識や、操作者の無意識な動作の誤認識により、思わぬ誤動作が生じてしまう。

本発明では、誤操作しにくく、かつユーザ自身の動作による直感的な使いやすい操作インターフェースを提供することを目的とする。

本発明は、電子機器の制御を行う制御装置であって、特定の物体を被写体とした映像信号を継続的に取得する映像取得部と、映像取得部の取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される電子機器の制御に関する制御指示を認識する指示認識部と、制御指示を受け付ける指示モードを設定する指示モード設定部と、指示モード設定部が指示モードを設定したことに応じ、指示認識部が認識した制御指示に基づいて電子機器の制御を行う制御部と、を備える。

この発明によると、指示モードを設定したことに応じ、指示認識部が認識した制御指示に基づいて電子機器の制御を行うから、指示モード未設定時において、ユーザの無意識な身振りや手振りなどが制御指示と誤認識され、電子機器が誤って制御されることを防げる。

また、指示モード設定後は、特定の物体の特定の形状および動きのうち少なくとも一方によって電子機器の制御に関する制御指示を与えることができ、直感的な使いやすい操作インターフェースを提供することができる。

指示認識部は、映像取得部の取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される指示モードの終了指示を認識し、指示モード設定部は、指示認識部が終了指示を認識したことに応じて指示モードの設定を解除するとよい。

指示認識部は、映像取得部の取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識し、指示モード設定部は、指示認識部が予備指示を認識したことに応じて指示モードを設定するとよい。

指示モード設定部は、手動入力操作により指示モードの設定が指示されたことに応じて指示モードを設定するとよい。

本発明は、電子機器の制御を行う制御装置であって、特定の物体を被写体とした映像信号を継続的に取得する映像取得部と、映像取得部の取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示および電子機器の制御に関する制御指示を認識する指示認識部と、指示認識部が予備指示を認識したことに応じ、指示認識部が認識した制御指示に基づいて電子機器の制御を行う制御部と、を備え、指示認識部は、映像信号から特定の物体による予備指示を認識した領域を追従した上、領域から制御指示を認識する。

この発明によると、映像信号から特定の物体による予備指示を認識した領域を追従した上、この領域から制御指示を認識するから、特定のユーザによる制御指示を受け付けることができ、他の人物や物体の形状や動きを制御指示と誤認識するおそれが小さくなる。

映像取得部の取得した映像信号を間引く間引き部をさらに備え、指示認識部は、間引き部によって間引かれた映像信号から予備指示を認識し、かつ、映像取得部の取得した映像信号から制御指示を認識するとよい。

こうすると、予備指示の認識が低負荷になって高速化でき、かつ、制御指示の認識も正確に行える。

領域から特徴情報を抽出する抽出部をさらに備え、指示認識部は、抽出部の抽出した特徴情報に基づいて領域を追従するとよい。

本発明は、電子機器の制御を行う制御装置であって、特定の物体を被写体とした映像信号を継続的に取得する映像取得部と、映像取得部の取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示および電子機器の制御に関する制御指示を認識する指示認識部と、指示認識部が予備指示を認識したことに応じ、制御指示を受け付ける指示モードを設定する指示モード設定部と、指示モード設定部が指示モードを設定したことに応じ、制御指示に基づいて電子機器の制御を行う制御部と、を備え、指示認識部は、指示モード設定部が指示モードを設定したことに応じ、映像信号から特定の物体による予備指示を認識した領域を追従した上、追従した領域から制御指示を認識する。

指示認識部は、映像信号から特定の物体による第１の予備指示を認識した領域を追従した上、領域から第２の予備指示を認識し、指示モード設定部は、指示認識部が第１の予備指示および第２の予備指示を認識したことに応じ、指示モードを設定する。

第２の予備指示を複数用意しておき、制御したい電子機器に対応した第２の予備動作を認識させることもできる。

なお、予備指示は、特定の物体の形状により表象され、制御指示は、物体の動きにより表象される。

あるいは、第１の予備指示は、指を立てた手を揺動することにより表象され、第２の予備指示は、手の指により輪を形成することにより表象される。

指示認識部は、映像信号から指示モードの終了指示を認識し、指示モード設定部は、指示認識部が終了指示を認識したことに応じて指示モードの設定を解除するとよい。

こうすると、ユーザが自分の意思により指示モードを解除でき、無意識の身振り手振りによる制御指示の誤認識を防げる。

終了指示は、特定の物体の画像重心、先端または外表面全体の往復移動により表象される。

例えば、終了指示は、複数の指を立てた手を揺動することにより表象される。

指示認識部は、特定の物体の画像重心、先端または外表面全体の回転移動方向および回転量に応じたメニュー項目の選択指示を認識する。

例えば、選択指示は、指を立てた手を回転することにより表象される。

指示認識部は、特定の物体の特定の形状からメニュー項目の選択確定指示を認識する。

例えば、選択確定指示は、手の指により輪を形成することにより表象される。

指示モードの設定の状態、すなわち、指示モードが設定されているか否かの状態を通知する設定通知部をさらに備えてもよい。

本発明は、電子機器の制御を行う制御方法であって、特定の物体を被写体とした映像信号を継続的に取得するステップと、取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される電子機器の制御に関する制御指示を認識するステップと、制御指示を受け付ける指示モードを設定するステップと、指示モードを設定したことに応じ、制御指示に基づいて電子機器の制御を行うステップと、を含む。

本発明は、電子機器の制御を行う制御方法であって、特定の物体を被写体とした映像信号を継続的に取得するステップと、映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識するステップと、映像信号から予備指示を認識した領域を追従した上、領域から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される制御指示を認識するステップと、認識した制御指示に基づいて電子機器の制御を行うステップと、を含む。

本発明は、電子機器の制御を行う制御方法であって、特定の物体を被写体とした映像信号を継続的に取得するステップと、取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識するステップと、予備指示を認識したことに応じ、制御指示を受け付ける指示モードを設定するステップと、指示モードを設定したことに応じ、予備指示を認識した領域を追従した上、追従した領域から電子機器の制御に関する制御指示を認識するステップと、制御指示に基づいて電子機器の制御を行うステップと、を含む。

上記の制御方法をコンピュータに実行させるプログラムも本発明に含まれる。

この発明によると、指示モードを設定したことに応じ、認識された制御指示に基づいて電子機器の制御を行うから、指示モード未設定時において、ユーザの無意識な身振りや手振りなどが制御指示と誤認識され、電子機器が誤って制御されることを防げる。

図１は本発明の好ましい実施形態に係る映像音声通信システムのブロック図である。このシステムは、同等の構成を有する通信端末１ａと通信端末１ｂとがインターネットなどのネットワーク１０を介して接続されており、互いに映像と音声を送受信する。

通信端末１ａと通信端末１ｂとは同様の構成であり、両者を区別するのはネットワークの通信相手を区別するためにすぎず、以下の説明において、両者の役割の全部または一部を入れ換えることもできることに注意を要する。両者をネットワークの通信相手として区別する必要がなければ、まとめて通信端末１と表すこともある。

ネットワーク１０は、例えばＡＤＳＬ、光ファイバ（ＦＴＴＨ）、ケーブルテレビなどのブロードバンドネットワークや、ＩＳＤＮなどのナローバンドネットワーク、ＵＷＢ（Ultra Wide Band）やＷｉ−Ｆｉ（Wireless Fidelity）といったＩＥＥＥ８０２．ｘｘ準拠の無線通信などの回線と接続されるインターネットに代表されるネットワークで構成される。

本実施形態では、ネットワーク１０は、所定値の帯域（通信速度）が常に確保できるかどうかは保証されていないベストエフォート型ネットワークを想定する。ネットワーク１０は、電話局と自宅の距離やADSLモデム間の通信速度、トラフィックの増減、セッションの相手方の通信環境などの各種要因で、公称されている最大帯域が実質的に制限されることがある。実効値が公称値の数分の一以下になる場合も多い。ネットワーク１０の帯域は、ビット毎秒（bps）で表される。例えば、ＦＴＴＨの公称帯域は１００Ｍｂｐｓなどが一般的であるが、実際には、数百ｋｂｐｓにまで制限されることがある。

通信端末１ａと通信端末１ｂとの接続経路は、ＳＩＰ（Session Initiation Protocol）サーバで構成された交換台サーバ６がネットワークアドレス（グローバルＩＰアドレスなど）、ポート、識別子（ＭＡＣアドレスなど）を用いて指定する。名称や電子メールアドレスなど通信端末１のユーザに関する情報や通信端末１の接続に関する情報（アカウント情報）はアカウントデータベース（ＤＢ）８ａ内に格納されており、アカウント管理サーバ８によって管理されている。アカウント情報はＷｅｂサーバ７を介してアカウント管理サーバ８に接続した通信端末１から更新・変更・削除することもできる。Ｗｅｂサーバ７は、メールを送信するメールサーバ、ファイルのダウンロードを行うファイルサーバも兼ねている。

通信端末１ａは、マイク３ａ、カメラ４ａ、スピーカ２ａ、モニタ５ａと接続され、カメラ４ａで撮影された映像とマイク３ａで集音された音声がネットワーク１０を介して通信端末１ｂに送信される。通信端末１ｂも、マイク３ｂ、カメラ４ｂ、スピーカ２ｂ、モニタ５ｂと接続され、同様に映像と音声とを通信端末１ａに送信できる。

通信端末１ｂが受信した映像と音声はモニタ５ｂ、スピーカ２ｂに出力され、通信端末１ａが受信した映像と音声はそれぞれモニタ５ａ、スピーカ２ａに出力される。なお、マイク３とスピーカ２はヘッドセットとして一体構成してもよい。あるいは、モニタ５は、テレビジョン受像機を兼ねていてもよい。

図２は通信端末１の詳細構成を示すブロック図である。

通信端末１の本体外面には、音声入力端子３１、映像入力端子３２、音声出力端子３３、映像出力端子３４が設けられており、それぞれマイク３、カメラ４、スピーカ２、モニタ５と接続される。

外部入力端子３０−１は、ＩＥＥＥ１３９４系の入力端子であり、デジタルビデオカメラ７０からＤＶ方式その他の仕様に従った動画像／静止画像／音声データの入力を受ける。外部入力端子３０−２は、デジタルスチルカメラ７１からＪＰＥＧ仕様その他の仕様に従った静止画像の入力を受ける。

音声入力端子３１に接続されたマイク３からオーディオデータ化部１４に入力された音声信号と、ＮＴＳＣデコーダ１５の生成した色差信号は、ＭＰＥＧ４エンコーダなどの高画質対応符号器で構成されたＣＨ１符号化部１２−１によってデジタル圧縮符号化されてストリームデータ（リアルタイム配信可能な形式のコンテンツデータ）に変換される。このストリームデータをＣＨ１ストリームデータとよぶ。

スイッチャ７８によってデータ入力元となった、Ｗｅｂブラウザモジュール４３がＷｅｂコンテンツサーバ９０からダウンロードした静止画像もしくは動画像、デジタルビデオカメラ７０からの静止画像もしくは動画像、デジタルスチルカメラ７１からの静止画像もしくは動画像、ストリーミングモジュール４４がストリーミングサーバ９１からダウンロードした動画像、または記録メディア７３からの動画像もしくは静止画像のいずれか１つ（以下、これらの画像入力元を、デジタルビデオカメラ７０等の映像コンテンツ入力元と略称することもある）を含んだ映像信号と、スイッチャ７８によってデータ入力元となった、ストリーミングモジュール４４がストリーミングサーバ９１からダウンロードした音声またはデジタルビデオカメラ７０からの音声を含んだ音声信号（以下、これらの音声入力元を、デジタルビデオカメラ７０等の音声入力元と略称することもある）とは、ＭＰＥＧ４エンコーダなどの高画質対応符号器で構成されたＣＨ２符号化部１２−２によってデジタル圧縮符号化されてストリームデータに変換される。このストリームデータをＣＨ２ストリームデータとよぶ。

ＣＨ２符号化部１２−２は、デジタルビデオカメラ７０等から入力される静止画を、動画像に変換して出力する機能を有する。この機能の詳細は後述する。

合成部５１−１は、ＣＨ１ストリームデータと、ＣＨ２ストリームデータとを合成したストリームデータ（合成ストリームデータ）を作成し、パケット化部２５に出力する。

合成ストリームデータはパケット化部２５によってパケット化され、一旦送信バッファ２６に記憶される。送信バッファ２６は、通信インターフェース１３を介し、パケットを一定のタイミングでネットワーク１０に送出する。送信バッファ２６は、例えば、３０フレーム毎秒の動画像が取り込まれると、１パケットに１フレームのデータを記憶して送出する能力を有する。

なお、本実施形態では、ネットワーク１０の伝送帯域の減少が推定されても、伝送フレームレートを低下させること、すなわちフレームを間引くことは行わない。これは映像の動きがカクカクして滑らかでなくなるのを防ぐためである。

映像／音声データ分離部４５−１は、外部入力端子３０−１から入力された多重化データから映像データと音声データとを分離する。

映像／音声データ分離部４５−１によって分離された動画像データまたは静止画データは、それぞれ動画デコーダ４１または静止画デコーダ４２によって復号化された後、フレーム画像として所定時間間隔ごとに映像バッファ８０に一時的に記憶される。なお、映像バッファ８０に記憶される１秒あたりのフレーム数（フレームレート）は、後述のビデオキャプチャバッファ５４のフレームレート（例えば３０ｆｐｓ（frame per second））と合致させる必要がある。

映像／音声データ分離部４５−１によって分離された音声データは、音声デコーダ４７−２によって復号化された後、音声バッファ８１に一時的に記憶される。

ＮＴＳＣデコーダ１５は、カメラ４から入力されたＮＴＳＣ信号を輝度信号および色差信号に変換するカラーデコーダであり、ＮＴＳＣ信号をＹ／Ｃ分離回路により輝度信号と搬送色信号とに分離し、さらに搬送色信号を色信号復調回路により復調して色差信号（Ｃｂ，Ｃｒ）を生成する。

オーディオデータ化部１４は、マイク３から入力されたアナログオーディオ音声信号をデジタルデータに変換してオーディオキャプチャバッファ５３に出力する。

スイッチャ（スイッチング回路）７８は、制御部１１の制御に従い、映像バッファ８０への入力映像を、デジタルビデオカメラ７０の動画像もしくは静止画像、デジタルスチルカメラ７１からの静止画像、メディアリーダ７４によって記録メディア７３から読み込まれた動画像または静止画像のいずれか１つに切り替える。

合成部５１−２は、デジタルビデオカメラ７０等の映像コンテンツ入力元からの映像と、ＣＨ１復号化部１３−１、ＣＨ２復号化部１３−２から復号化された動画フレーム画像とを合成し、この合成画像を映像出力部１７に出力する。こうして得られた合成画像はモニタ５に表示される。

好ましくは、モニタ５は、受信したテレビ映像を表示し、かつ複数の外部入力端子を備えたテレビジョンモニタである。モニタ５の外部入力の切り替えは、通信端末１から行えると好ましい。詳細は後述するが、通信端末１から、モニタ５の映像信号入力を、テレビから外部入力に切り替え、映像コンテンツの表示を行う場合、通信端末１からモニタ５に対してＴＶコントロール信号を出力し、モニタ５が当該ＴＶコントロール信号を入力したことに応じて、通信端末１からの映像信号を受け付ける外部入力に切り替える。

相手方の通信端末１は、ＣＨ１符号化部１２−１の符号化した映像データ、ＣＨ２符号化部１２−２の符号化した映像データをそれぞれストリーム化回路２２により個別にストリーム化したあと、ＣＨ１符号化部１２−１の符号化したストリームデータはＣＨ１復号化部１３−１で、ＣＨ２符号化部１２−２の符号化したストリームデータはＣＨ２復号化部１３−２でそれぞれ動画像ないし音声に復号化され、合成部５１−２に出力される。

合成部５１−２は、カメラ４の映像すなわち自分映像、ＣＨ１復号化部１３−１の復号化した動画像すなわち相手映像、およびＣＨ２復号化部１３−２の復号化した動画像すなわち映像コンテンツを、モニタ５の表示画面における表示エリアに収まるようリサイズして合成する。リサイズはリモコン６０から入力される表示モード切替に応じて行われる。

図３はモニタ５に表示される映像の配置の一例を示す。この図に示すように、モニタ５には、相手方の通信端末１のカメラ４の映像（相手映像）が第１の表示エリアＸ１に、相手方の通信端末１のデジタルビデオカメラ７０等の映像コンテンツ入力元から入力された映像（映像コンテンツ）が第２の表示エリアＸ２に、自分方のカメラ４から入力された映像（自分映像）が第３の表示エリアＸ３に表示される。

第１の表示エリアＸ１ないし第３の表示エリアＸ３に配置される映像はこの図に示したものに限定されず、後述する表示モードの設定に応じて切り替わる。

その他、自分方のスイッチャ７８に対するデジタルビデオカメラ７０等の映像コンテンツ入力元その他の情報をリスト化したコンテンツメニューＭ、各種のメッセージやお知らせを表示するメッセージ＆情報表示エリアＹが、それぞれ１画面内に収まるよう縮小されて、各々重複しないエリアに表示される。

なお、この図では１表示画面中の各表示エリアＸ１〜Ｘ３が所定の面積比に従って分割表示されているが、この画面分割の仕方は色々変形可能である。また、複数映像全てを必ずしも１画面内で同時に表示する必要はなく、リモコン６０の所定操作に応じて表示モードを切り替え、自分映像のみ、相手映像のみもしくは映像コンテンツのみ、あるいはそれらの一部を組み合わせて表示するようにしてもよい。

コンテンツメニューＭではリモコン６０の操作によって任意の項目を選択できる。制御部１１は、リモコン６０の項目選択操作に応じて映像コンテンツの入力元をスイッチャ７８によって切り替える制御を行う。これにより、映像コンテンツとして表示すべき映像を任意に選択することができる。ここでは、「Ｗｅｂサーバ」項目を選択するとＷｅｂブラウザモジュール４３がＷｅｂコンテンツサーバ９０から取得したＷｅｂコンテンツ、「コンテンツサーバ」項目を選択するとストリーミングモジュール４４がストリーミングサーバ９１から取得したストリーミングコンテンツが、「ＤＶ」項目を選択するとデジタルビデオカメラ７０からの映像が、「スチル」項目を選択するとデジタルスチルカメラ７１からの映像が、「メディア」項目を選択すると記録メディア７３から読み込まれた映像が映像コンテンツとなる。

ＣＨ１符号化部１２−１は、オーディオキャプチャバッファ５３から供給されるマイク３からの音声のキャプチャデータを順次ＭＰＥＧ方式などに従って圧縮符号化する。符号化された音声データは、パケット化部２５によりパケット化されて相手方の通信端末１へストリーム送信される。

ＣＨ２符号化部１２−２は、スイッチャ７８によって音声入力元となった、ストリーミングモジュール４４からの音声またはデジタルビデオカメラ７０からの音声のいずれか一方（デジタルビデオカメラ７０等の音声入力元）をＭＰＥＧ方式などに従って圧縮符号化する。符号化された音声データは、パケット化部２５によりパケット化されて相手方の通信端末１へストリーム送信される。

ＣＨ１復号化部１３−１は、ＣＨ１符号化部１２−１が符号化した音声データを復号化する。ＣＨ２復号化部１３−２は、ＣＨ２符号化部１２−２が符号化した音声データを復号化する。

合成部５１−２は、ＣＨ１復号化部１３−１の復号化した音声データと、ＣＨ２復号化部１３−２の復号化した音声データとを合成し、この合成音声データを音声出力部１６に出力する。こうして、相手方の通信端末１のマイク３で集音された音声および相手方の通信端末１に接続されたデジタルビデオカメラ７０等から得られた音声が自分方のスピーカ２によって再生される。

帯域推定部１１ｃは、ネットワーク１０のジッタ（ゆらぎ）などから伝送帯域を推定する。

符号化制御部１１ｅは、推定された伝送帯域に応じてＣＨ１符号化部１２−１、ＣＨ２符号化部１２−２の映像伝送ビットレートを変化させる。即ち、伝送帯域が低下していくことを推定すれば映像伝送ビットレートを低下させ、伝送帯域が増加していくことを推定すれば映像伝送ビットレートを増加させる。こうすることで、伝送帯域を超えるパケット送出によりパケットロスが発生するのを防ぐことができ、伝送帯域の変化に応じたスムースなストリームデータ送信を行える。

帯域推定部１１ｃによる具体的な帯域推定は、例えば次のようにすればよい。相手方の通信端末１ｂからＳＲ(Sender Report)タイプのＲＴＣＰパケット（ＲＴＣＰＳＲ）を受信すると、ＲＴＣＰＳＲパケットのヘッダ内にあるsequence number fieldのシーケンス番号を計数することで受信したＲＴＣＰＳＲの損失数を算出する。そして、当該損失数が記述されたＲＲ(Receiver Report)タイプのＲＴＣＰパケット（ＲＴＣＰＲＲ）を相手方の通信端末１に送信する。ＲＴＣＰＲＲには、ＲＴＣＰＳＲの受信からＲＴＣＰＲＲの送信までの時間（便宜上応答時間と呼ぶ）も記述されている。

相手方の通信端末１ｂがＲＴＣＰＲＲを受信すると、ＲＴＣＰＳＲの送信時刻からＲＴＣＰＲＲの受信時刻までの時間から応答時間を引いた時間であるＲＴＴ（Round Trip Time）を算出する。また、ＲＴＣＰＳＲの送出パケット数とＲＴＣＰＲＲの損失数を参照し、定期期間内における(損失数)/(送出パケット数)=パケット損失率を算出する。このＲＴＴとパケット損失率を通信状態レポートとする。

監視パケットを出す間隔は、１０秒から数１０秒に一回あたりが適当と考えられるが、１回の監視パケット試行での推定では、ネットワーク状態が正確に把握できない時も多いため、複数回に分けて行い、その平均等を取って推定する方が推定確度は増す。監視パケットの数量を多くすると,それ自体が帯域を狭める要因ともなるので、全体の通信量の２−３％に留めておくのが好ましい。

なお、以上に説明した以外にも、各種のQoS(Quality of Service)制御技術を帯域推定部１１ｃに用いることで通信状態レポートを得ることができる。推定した伝送帯域に応じて音声符号化のビットレートを変化させてもよいが、音声の伝送帯域は映像に比較して帯域への寄与率が低いため、固定としても問題はない。

通信インターフェース１３を介して他の通信端末１から受信したストリームデータのパケットは一旦受信バッファ２１に記憶されたあと、一定のタイミングでストリーム化装置２２に出力される。受信バッファ２１のゆらぎ吸収バッファ２１ａは、当該パケットの伝送遅延時間が変動して到着間隔がばらついても、連続的な再生をするためにパケット受信から再生開始までに遅延を付加する。ストリーム化装置２２は、パケットデータをストリーム再生データに再構成する。

ＣＨ１復号化部１３−１、ＣＨ２復号化部１３−２はＭＰＥＧ４デコーダなどで構成された映像音声復号化装置である。

表示制御部１１ｄは、リモコン６０から入力された画面切替信号に応じて合成部５１−２を制御し、ＣＨ１復号化部１３−１で復号化した映像データ（ＣＨ１映像データ）と、ＣＨ２復号化部１３−２で復号化した映像データ（ＣＨ２映像データ）と、ＮＴＳＣデコーダ１５から入力した映像データ（自分映像）と、映像バッファ８０から入力した映像データ（映像コンテンツ）の全部もしくは一部を合成して出力する（合成出力）か、あるいはそれらの映像データのうちいずれか１つを他のものと全く合成しないまま出力する（スルー出力）。合成部５１−２から出力された映像データは映像出力部１７でＮＴＳＣ信号に変換されてモニタ５に出力される。

図４〜図９は合成された映像データを表示したモニタ５の画面を例示する。このそれぞれの画面は、リモコン６０による表示モード切替操作により順次切り替わる。

図４は、合成部５１−２がカメラ４からの映像データ（自分映像）だけを、その他の映像データと合成せずに映像出力部１７にスルー出力した場合におけるモニタ５の画面表示を示す。この画面では自分方のカメラ４で撮影した映像（自分映像）だけが全画面表示される。

図５は、合成部５１−２がＣＨ１復号化部１３−１からの映像データ（相手映像）だけを、その他の映像データと合成せずに映像出力部１７にスルー出力した場合におけるモニタ５の画面表示を示す。この画面では相手方のカメラ４で撮影した映像（相手映像）だけが全画面表示される。

図６は、合成部５１−２がＣＨ１復号化部１３−１からの映像データ（相手映像）と自分方のカメラ４からの映像データ（自分映像）とを合成して映像出力部１７に出力した場合におけるモニタ５の画面表示を示す。この画面では、相手映像と自分映像がそれぞれ表示エリアＸ１、Ｘ３に表示される。

図７は、合成部５１−２がＣＨ１復号化部１３−１からの映像データ（相手映像）とＣＨ２復号化部１３−２からの映像データ（映像コンテンツ）と自分方のカメラ４からの映像データ（自分映像）とを合成して映像出力部１７に出力した場合におけるモニタ５の画面表示を示す。この画面では、相手映像が表示エリアＸ１、映像コンテンツが表示エリアＸ２、自分映像が表示エリアＸ３に収まるようにリサイズされて表示される。かつ、表示エリアＸ１、Ｘ３は、表示エリアＸ１が表示エリアＸ３に比して大きくなるような所定の面積比を保っている。

図８は、合成部５１−２がＣＨ１復号化部１３−１からの映像データ（相手映像）とＣＨ２復号化部１３−２からの映像データ（映像コンテンツ）と自分方のカメラ４からの映像データ（自分映像）とを合成して映像出力部１７に出力した場合におけるモニタ５の画面表示を示す。この画面では、映像コンテンツが表示エリアＸ１、相手映像が表示エリアＸ２、自分映像が表示エリアＸ３に表示されている。

図９は、合成部５１−２がＣＨ２復号化部１３−２からの映像データ（映像コンテンツ）だけを、その他の映像データと合成せずに映像出力部１７にスルー出力した場合におけるモニタ５の画面表示を示す。この画面では映像コンテンツだけが表示される。

図１０は各表示エリアＸ１〜Ｘ３の面積比の一例を示す。ここでは、４：３の画面比の画面を９つのタイルに等分割し、表示エリアＸ１の面積は４タイル、表示エリアＸ２、Ｘ３の面積は１タイルとなっている。また、コンテンツメニュー表示エリアＭの面積は１タイル、メッセージ・情報表示エリアの面積は２タイルとなっている。

通信端末１ｂは、リモコン６０から画面切替信号が入力されると、その画面切替信号が入力されたことを示す制御パケットを、ネットワーク１０を介して通信端末１ａに送信する。同様の機能は通信端末１ａも有する。

符号化制御部１１ｅは、相手方の通信端末１から受信した制御パケットで識別される表示エリアＸ１、Ｘ２もしくはＸ３の面積比に応じ、相手方の通信端末１のモニタ５の表示エリアＸ１、Ｘ２もしくはＸ３にそれぞれ表示される映像（上記制御パケットで特定可能）の伝送帯域を推定伝送帯域の範囲内で割り当て、割り当てられた伝送帯域内にデータが収まるよう（パケットのオーバーフローが生じないよう）、ＣＨ１符号化部１２−１およびＣＨ２符号化部１２−２の量子化回路１１７を制御する。

なお、ＣＨ１復号化部１３−１、ＣＨ２復号化部１３−２で復号化された音声データは音声出力部１６でアナログ音声信号に変換されてスピーカ２に出力される。必要であれば、自分方のデジタルビデオカメラ７０等から入力された音声データとコンテンツデータに含まれる音声データとを合成部５１−２で合成して音声出力部１６に出力することもできる。

通信インターフェース１３には、ネットワーク端子６１が設けられており、この端子が各種ケーブルによりブロードバンドルータやＡＤＳＬモデムなどと接続されることでネットワーク１０と接続される。ネットワーク端子６１は単数または複数設けられる。

なお、通信インターフェース１３がファイアウォールやＮＡＴ機能（Network Address Translation、グローバルＩＰアドレスとプライベートＩＰアドレスの相互変換を行う）を有するルータと接続されると、ＳＩＰによる通信端末１同士の直接接続ができない問題（いわゆるＮＡＴ越え）が生じることが当業者で認識されている。通信端末１同士を直接接続して映像音声送受信の遅延を最小化するには、STUN(Simple Traversal of UDP through NATs)サーバ３０を利用したＳＴＵＮ技術や、UPnP(Universal Plug and Play) サーバによるＮＡＴ越え機能を通信端末１に実装することが好ましい。

制御部１１は、各種のボタンやキーから構成される操作部１８もしくはリモコン６０からの操作入力に基づいて通信端末１内の各回路を統括制御する。制御部１１は、ＣＰＵなどの演算装置で構成され、自分方表示モード通知部１１ａ、相手方表示モード検出部１１ｂ、帯域推定部１１ｃ、表示制御部１１ｄ、符号化制御部１１ｅ、操作特定信号送信部１１ｆの各機能を記憶媒体２３に記憶されたプログラムによって実現する。

各通信端末１を一意に識別するアドレス（必ずしもグローバルＩＰアドレスと同義ではない）、アカウント管理サーバ８が通信端末１を認証するのに必要なパスワード、通信端末１の起動プログラムは、電源オフ状態でもデータを保持可能な不揮発性の記憶媒体２３に記憶されている。ここに記憶されたプログラムは、アカウント管理サーバ８から提供されるアップデートプログラムにより最新のバージョンに更新できる。

制御部１１の各種処理に必要なデータは、一時的にデータを記憶するＲＡＭで構成されたメインメモリ３６に記憶される。

通信端末１にはリモコン受光回路６３が設けられており、このリモコン受光回路６３にはリモコン受光部６４が接続されている。リモコン受光回路６３は、リモコン６０からリモコン受光部６４に入射した赤外線信号をデジタル信号に変換して制御部１１へ出力する。制御部１１は、リモコン受光回路６３から入力したデジタル赤外線信号に応じて各種動作を制御する。

発光制御回路２４は、制御部１１の制御によって、通信端末１の外面に設けられたＬＥＤ６５の発光・点滅・点灯の制御を行う。発光制御回路２４にはコネクタ６６を介してフラッシュランプ６７を接続することもでき、発光制御回路２４は、フラッシュランプ６７の発光・点滅・点灯の制御も行う。ＲＴＣ２０は内蔵時計である。

図１１はＣＨ１符号化部１２−１、ＣＨ２符号化部１２−２に共通する要部構成を示したブロック図である。ＣＨ１符号化部１２−１・ＣＨ２符号化部１２−２（まとめて符号化部１２と表すこともある）は、画像入力部１１１、動きベクトル検出回路１１４、動き補償回路１１５、ＤＣＴ１１６、量子化回路１１７、可変長符号化器（ＶＬＣ）１１８、符号化制御部１１ｅ、静止ブロック検出部１２４、静止ブロック記憶部１２５等を備えている。この装置は、動き補償予測符号化と、ＤＣＴによる圧縮符号化を組み合わせたＭＰＥＧ方式の映像符号化装置の構成を一部含んでいる。

画像入力部１１１は、ビデオキャプチャバッファ５４や映像バッファ８０に蓄積された映像（カメラ４の動画像のみ、デジタルビデオカメラ７０等から入力された動画像もしくは静止画像のみ、あるいはそれらの動画像および静止画像の合成画像からなる動画像）をフレームメモリ１２２に入力する。

動きベクトル検出回路１１４は、画像入力部１１１から入力されたデータが表す現在のフレーム画像を、フレームメモリ１２２に記憶されている前のフレーム画像と比較することで、動きベクトルを検出する。この動きベクトルの検出は、入力された現在のフレーム画像を複数のマクロブロックに分割し、個々のマクロブロックを単位として、前のフレーム画像上に各々設定した探索範囲内で被探索マクロブロックを適宜動かしながら誤差演算を繰り返すことで、被探索マクロブロックに最も類似しているマクロブロック（誤差が最小となるマクロブロック）を探索範囲内から探し出し、該マクロブロックと被探索マクロブロックとのずれ量及びずれの方向を被探索マクロブロックについての動きベクトルとする。そして、各マクロブロック毎に求めた動きベクトルを各マクロブロック毎の誤差を考慮して合成することで、予測符号化における予測差分を最小とする動きベクトルを求めることができる。

動き補償回路１１５は、検出した動きベクトルに基づき予測用参照画像に対して動き補償を行うことで予測画像のデータを生成し、減算器１２３へ出力する。減算器１２３は、画像入力部１１１からから入力されたデータが表す現在のフレーム画像から、動き補償回路１１５から入力されたデータが表す予測画像を減算することで、予測差分を表す差分データを生成する。

減算器１２３にはＤＣＴ（離散コサイン変換）部１１６、量子化回路１１７、ＶＬＣ１１８が順次接続されている。ＤＣＴ１１６は、減算器１２３から入力された差分データを任意のブロック毎に直交変換して出力し、量子化回路１１７は、ＤＣＴ１１６から入力された直交変換後の差分データを所定の量子化ステップで量子化してＶＬＣ１１８へ出力する。また、ＶＬＣ１１８には動き補償回路１１５が接続されており、動き補償回路１１５から動きベクトルのデータも入力される。

ＶＬＣ１１８は、直交変換・量子化を経た差分データを２次元ハフマン符号により符号化すると共に、入力された動きベクトルのデータもハフマン符号により符号化し、両者を多重化する。そして、符号化制御部１１ｅから出力される符号化ビットレートに基づいて定められたレートで、可変長符号化動画像データを出力する。可変長符号化動画像データはパケット化部２５に出力され、画像圧縮情報としてネットワーク１０にパケット送出される。量子化回路１１７の符号量（ビットレート）は符号化制御部１１ｅによって制御される。

ＶＬＣ１１８の作成する符号化動画像データのデータ構造は、階層構造をなしており、下位から、ブロック層、マクロブロック層、スライス層、ピクチャ層、ＧＯＰ層およびシーケンス層となっている。

ブロック層は、ＤＣＴを行う単位であるＤＣＴブロックからなる。マクロブロック層は、複数のＤＣＴブロックで構成される。スライス層は、ヘッダ部と、１以上のマクロブロックより構成される。ピクチャ層は、ヘッダ部と、１以上のスライス層とから構成される。ピクチャは、１画面に対応する。ＧＯＰ層は、ヘッダ部と、フレーム内符号化に基づくピクチャであるＩピクチャと、予測符号化に基づくピクチャであるＰおよびＢピクチャとから構成される。Ｉピクチャは、それ自身の情報のみで復号化が可能であり、ＰおよびＢピクチャは、予測画像として前あるいは前後の画像が必要とされ、単独では復号化されない。

また、シーケンス層、ＧＯＰ層、ピクチャ層、スライス層およびマクロブロック層の先頭には、それぞれ所定のビットパターンからなる識別コードが配され、識別コードに続けて、各層の符号化パラメータが格納されるヘッダ部が配される。

スライス層に含まれるマクロブロックは、複数のＤＣＴブロックの集合であり、画面（ピクチャ）を格子状（例えば８画素×８画素）に分割したものである。スライスは、例えばこのマクロブロックを水平方向に連結してなる。画面のサイズが決まると、１画面当たりのマクロブロック数は、一意に決まる。

ＭＰＥＧのフォーマットにおいては、スライス層が１つの可変長符号系列である。可変長符号系列とは、可変長符号を復号化しなければデータの境界を検出できない系列である。ＭＰＥＧストリームの復号時には、スライス層のヘッダ部を検出し、可変長符号の始点と終点とを見つけ出す。

ここで、フレームメモリ１２２に入力された画像データが静止画のみであれば、全マクロブロックの動きベクトルは零となり、Ｉピクチャのみで復号化が可能となる。そうすると、Ｂ、Ｐピクチャを送らなくて済む。このため、ネットワーク１０の伝送帯域幅が狭まっても、静止画を動画として、比較的精細に相手方の通信端末１に送ることができる。

また、フレームメモリ１２２に入力された画像データが静止画と動画の合成画像であっても、静止画に相当するマクロブロックの動きベクトルは零となり、その部分はスキップドマクロとしてデータを送らずに済む。

フレームメモリ１２２に入力された画像データが静止画のみである場合は、フレームレートを落とし、その代わりＩピクチャの符号量を増やすようにしてもよい。これにより、動きのない静止画を精細に表示することができる。

自分方の通信端末１ａのスイッチャ７８によって静止画の入力元がＷｅｂブラウザモジュール４３、デジタルビデオカメラ７０、デジタルスチルカメラ７１またはメディアリーダ７３のいずれに切り替わっても、入力元の種類とは無関係に、静止画に相当する部分のマクロブロックが動きベクトル零となるようなフレーム動画像が相手方の通信端末１ｂにリアルタイムで送信される。このため、自分方の通信端末１ａでスイッチャ７８による静止画の入力元が不定期に切り替わっても、これに追従して、相手方の通信端末１に送信されるフレーム動画像がすみやかに切り替わり、結果的に相手方の通信端末１ｂで表示される静止画もすみやかに切り替わる。

図１２は制御部１１の機能ブロックおよびその周辺の要部ブロックを示す。上述のように、制御部１１は、自分方表示モード通知部１１ａ、相手方表示モード検出部１１ｂ、帯域推定部１１ｃ、表示制御部１１ｄ、符号化制御部１１ｅ、操作特定信号送信部１１ｆの各機能を記憶媒体２３に記憶されたプログラムによって実現する。

また、制御部１１は、対象物検知部２０３、対象物認識部２０４、コマンド分析部２０５を備えており、これらの機能は記憶媒体２３に記憶されたプログラムによって実現される。

ビデオキャプチャバッファ５４の画像データは、二次バッファ２００に送られ、ここからさらに制御部１１に対し、画像データが供給される。二次バッファ２００は、間引きバッファ２０１と対象物エリア抽出バッファ２０２を含んでいる。

間引きバッファ２０１は、ビデオキャプチャバッファ５４からのフレーム画像を間引き、対象物検知部２０３に出力する。例えば、カメラ４から、１２８０×９６０画素サイズで３０ｆｐｓ（フレーム毎秒）でビデオキャプチャバッファ５４に順次フレーム画像が出力された場合は、当該フレーム画像のサイズを１／８に間引く。

対象物検知部２０３は、間引きバッファ２０１と接続されており、間引かれた画像から、特定の対象物が特定の動作を行っている画像部分の候補（動作エリア候補）を検知する。対象物とは、手のような人体の構成部分であってもよいし、特定の形状の棒のような非生物的な物体であってもよい。また、特定の動作とは、後述するが、例えば、人差し指を横に振る動作のような数フレームに渡って周期的に変化していく動的なもの、親指と人差し指で作った輪を保つ動作や、親指、人差し指、中指、薬指、小指の一部または全部を立てた状態を保つ動作など、数フレームに渡って実質的に変化しない静的なものを含む。

特定の対象物の動作を追従していくにあたり、最初に認識すべき特定の動作を、第１の予備動作という。

対象物検知部２０３は、動作エリア候補を検知した場合、その動作エリア候補の位置を対象物エリア抽出バッファ２０２に通知する。

対象物エリア抽出バッファ２０２は、通知された動作エリア候補の位置に相当する領域を、ビデオキャプチャバッファ５４から切り出し、対象物認識部２０４は、その領域中で、特定の対象物が特定の動作を行っている画像部分（動作エリア）を認識する。ビデオキャプチャバッファ５４から切り出された動作エリア候補は、間引かれていないため、動作エリアの認識の精度が高くなる。

例えば、図１３に示すように、３人の人物のうち、特定の人物Ａだけが左手人差し指を左右に振っていたとする。対象物検知部２０３は、人差し指を左右に振る動作を、特定の対象物の第１の予備動作として検知する。具体的には、人差し指を左右に振る動作は、概ね０．５から２秒で往復する動作であるから、対象物検知部２０３は、各間引き後フレーム画像の差分を取る。各フレーム間の差分は、動きのある画像領域のみになる。そして、その差分の軌跡から、左右に周期的に動いている画像領域部分をピックアップし、その部分を動作エリア候補として検知する。図１３では、枠Ｈで囲まれた部分が動作エリア候補に相当する。この他、図示はしないが、風で周期的に揺れるカーテンなども動作エリア候補として検知される可能性があり、動作エリア候補は常に１つだけとは限らない。

図１３の動作エリア候補Ｈの存在アドレスは、対象物検知部２０３から対象エリア抽出バッファ２０２に通知され、動作エリア候補Ｈの存在アドレスに相当するフレーム画像の部分から、さらに詳細に、対象物の動作を解析する。

図２８は動作エリア認識処理の流れを示す。対象物認識部２０５は、動作エリア候補が検知されると（Ｓ１）、検知された動作エリア候補Ｈの存在アドレスに相当する画像領域を、対象エリア抽出バッファ２０２の画像から切り出し、予め記憶媒体２３に記憶された人差し指の左右の振り動作（第１の予備動作）に相当する数フレーム分の基準画像のサイズと適合するよう、縮小または拡大する（正規化、Ｓ２）。そして、正規化された動作エリア候補を、白黒画像に変換したりグレースケール化したり２値化したりフィルタリングするなどして、動作エリア候補中の物体形状を単純化する（シンボライズ、Ｓ３）。

次に、図１４のようにシンボライズした各動作エリア候補の物体形状と基準画像との相関を解析する（マッチング、Ｓ４）。そして、両者の相関が所定の下限閾値を超えていれば、当該動作エリア候補を人差し指の左右の振り動作に相当する動作エリアとして認識する（Ｓ５）。

以後、対象物認識部２０５は、対象物エリア２０２から供給されるフレーム画像から、認識した動作エリアを追従する（ロックオン、Ｓ６）。これにより、モーション動作モードが設定され、後述する第２の予備動作の認識処理が開始される。

ロックオンは、終了指示があるまで、または、動作エリアが何らかの原因で追従不可能となるまで継続する（Ｓ７）。ロックオンが終了しても、Ｓ１に戻り、第１の予備動作検知を待機する。

ロックオンの具体的態様としては、例えば、認識した動作エリアから、色情報などの特徴を示すパラメータ（特徴情報）を取得し、その特徴情報の存在する領域を追従していくことが挙げられる。さらに具体例を挙げると、人物が手に赤い手袋をして、人差し指を左右に振る動作を想定した場合、まず、動作エリア候補のシンボライズされた指の形状を基準画像とマッチングして、動作エリアを認識し、当該動作エリアから特徴情報である「赤色」を抽出する。そして、その後は、抽出された特徴情報を認識することで動作エリアをロックオンする。

つまり、動作エリア認識および特徴情報抽出後は、特徴情報を追従するだけで済み、手がどのような形状をとろうが関係なくなるから、処理の負荷は小さい。例えば、手の形状が「パー」や「グー」の状態になっても、赤い手袋をしている限り、赤色という色情報が追従され続ける。

このように、間引き画像からの動作エリア候補の検知、動作エリア候補からの動作エリアの認識という二段階の認識を行えば、肌色検知のような特定色の検知のみで動作エリアを認識するよりも、所望の動作エリアの検知率が高くなり、かつ、制御部１１の負荷も軽減されうる。また、全てのフレーム画像について動作エリア候補の検知と動作エリアの認識を繰り返す必要がなく、制御部１１の負荷が軽減される。なお、特徴情報が単純であれば、制御部１１の負荷がさらに軽減される。

対象物認識部２０５は、ロックオンが完了すると、モーション動作モードを設定し、認識した動作エリアから、第２の予備動作入力を待機する状態に移行する。

図１５では、第１の予備動作として「人差し指を左右に振る動作」が、第２の予備動作として「指で３を示す動作」、「指で２を示す動作」、「指で１を示す動作」、および「指でＯＫを示す動作」が示されている。記憶媒体２３には、第２の予備動作の基準画像として、予めサンプリングした正規化されたサイズの手の形状モデルを登録した辞書が格納されている。

図２９は、第２の予備動作の認識処理の流れを示す。まず、上記のようにして追従される動作エリアを、基準画像のサイズと合うよう正規化する（Ｓ１１）。正規化された動作エリアは、フィルタリングによるノイズ低減や２値化処理が施されることでシンボライズされ（Ｓ１２）、第２の予備動作の基準画像とのマッチングが容易になるようにする。

次に、シンボライズされた動作エリアと辞書の形状モデルとの相関率に基づいて両者の一致度を判定する（Ｓ１３）。判定の精度を上げるためには、動作エリア候補を２値化処理する代わりに、グレースケール化して形状モデルとマッチングさせてもよい。

そして、両者の一致度が所定の下限閾値を超えていれば、第２の予備動作を認識したと判断し、第２の予備動作に応じた動作制御を開始する。後述するが、第２の予備動作に応じた動作制御とは、例えば、通信画面（図３〜１０）またはテレビジョン受像画面（図２６〜２７）への切替などであり、いずれの画面に遷移するかは、第２の予備動作に含まれる識別番号、例えば「３」・「２」・「１」で区別される。

第２の予備動作認識後は、対象物認識部２０５は、ロックオンした動作エリアから、各種の制御指示動作を認識する。この指示動作は、例えば、人差し指（あるいは手首）をくるくる回す動作であり、ジョグダイアルの回転操作によるメニュー項目選択に相当する指示にできる。この動作の認識は、次のようにする。

すなわち、図１６（ａ）に示すように、認識された特定形状における観測定点、例えば重心を決める。重心の決定の方式はよく知られたように、認識された物体形状を２次元平面と見なし、その重心を数学的に求める。次に、図１６（ｂ）に示すように、その重心の軌跡を取得する。そして、その重心の軌跡から、回転の向きが右回りか左回りか、また回転角度は何度かを判定し、その判定結果を表示制御部１１ｄに出力する。この際、図１６（ｃ）に示すように、ループの回転中心を揃える補正を行うと、手の回転に加えて手の位置がずれてしまったような場合でも、正確に回転方向と回転角度を検知でき好ましい。

観測定点は、物体の重心に限らない。例えば認識された特定の物体が棒であれば、棒の先端を観測定点とすることもできる。

対象物認識部２０５は、終了動作を認識するか、一定時間、何の動作も認識しなかった場合、動作エリアのロックオンを解除し、モーション動作モードから離脱する（図２８のＳ７）。この後、対象物検知部２０３は、動作エリア候補の検知を再開する。

モーション動作モードの終了指示動作は、例えば、平手を左右に振る動作（いわゆるバイバイ）である。この動作を認識するには、指の本数を厳密に数えてもよいが、手で示された指の数が２本以上であるとの形状認識をした上、概ね０．５〜２秒間での当該手の動きを追従し、当該手が往復していることを認識すれば、「バイバイ」動作がされていると認識する。

以下、通信端末１で認識される、第１の予備動作、第２の予備動作、制御指示動作および終了指示動作と、それらの動作の認識に応じたＧＵＩ（グラフィカルユーザインターフェース）の表示制御の具体的態様を示す。

図１７は通信端末１、モニタ５、マイク３、カメラ４の接続を示している。カメラ４の映像データおよびマイク３の音声データおよびネットワーク１０からの映像データ、音声データは、通信端末１に供給され、当該映像データおよび音声データは、必要に応じて通信端末１でデジタルデータ化とインターフェース変換を行い、モニタ５のＡＶデータ入力端子に入力される。

モニタ５のＡＶデータ入力端子は、通信端末１からのＴＶコントロール信号入力端子も兼ねている。通信端末１は、映像データおよび音声データのデジタルデータパケットとＴＶコントロール信号のデジタルデータパケットを多重化し、モニタ５のＡＶデータ入力端子に入力する。なお、特に映像と音声をモニタ５で再生する必要がない場合は、ＡＶパケットデータは送られない。また、高品質映像を送る場合は、映像信号とＴＶコントロール信号は多重化せず、別々の信号線で送ってもよい。

図１８は、通信端末１からモニタ５のＡＶデータ入力端子に入力されるパケットの流れを模式的に示す。図中、Ｖは映像信号のパケット、Ａはオーディオ信号のパケット、Ｃはモニタ５のＴＶコントロール信号のパケット、Ｓはステータスパケットである。

図１９（ａ）に示すように、ビデオパケットは、パケット化部２５に含まれる、ビデオバッファ２５−１、ビデオエンコーダ２５−２、ビデオパケッタイズ部２５−３により作成される。これは例えば、ＭＰＥＧ２やＨ．２６４のような映像をエンコードしたデジタル信号をパケット化したものである。

音声パケットは、オーディオバッファ２５−４、オーディオエンコーダ２５−５、オーディオパケッタイズ部２５−６により作成される。これは映像と同様、音声をエンコードした信号をパケット化したものである。

また、これらのパケットには、音声・映像の同期をとるデータも埋め込まれており、音声と映像が同期してモニタ５で再生されるようになっている。

ビデオパケットとオーディオパケットの合間には、コントロールパケットが多重化されている。コントロールパケットは、コントロールコマンド出力バッファ２５−７およびコントロールコマンドパケッタイズ部２５−８により作成される。

送信バッファ２６は、ビデオパケット、オーディオパケット、コントロールパケットを図１８のように多重化してモニタ５の外部入力端子に出力する。

図１９（ｂ）に示すように、モニタ５側でパケットデータを受信すると、一旦パケット入力バッファ５−１に蓄えられ、ビデオパケット、オーディオパケット、コントロールパケットに分離し、それぞれ、ビデオデパケッタイズ部５−２、オーディオデパケッタイズ部５−５、コントロールコマンドデデパケッタイズ部５−８に入力される。

ビデオデパケッタイズ部５−２に入力されたビデオパケットは、ビデオデコーダ５−３によってデコードされてビデオ信号に変換され、ビデオバッファ５−４に格納される。

オーディオデパケッタイズ部５−５に入力されたオーディオパケットは、オーディオデコーダ５−６によってデコードされて音声信号に変換され、オーディオバッファ５−７に格納される。

ビデオバッファ５−４とオーディオバッファ５−７に格納されたビデオ信号とオーディオ信号は、適宜同期を取りながらモニタ５の表示画面およびスピーカに出力されて再生される。

コントロールパケットは、コントロールコマンドデパケッタイズ部５−８でコントロール信号に変換され、一旦コントロールコマンドバッファ５−９に格納された後、コマンド解釈部５ｂに出力される。

コマンド解釈部５ｂは、ＴＶコントロール信号に対応する動作を解釈し、その動作をモニタの各部に指示する。

また、モニタ５側の状態（現在の受像テレビチャンネル、現在のＡＶ信号入力先など）を示すステータス信号は、必要に応じて、ステータスコマンドバッファ５−１０に蓄えられ、ステータスコマンドパケッタイズ部５−１１によりパケット化され、パケット出力バッファ５−１２に格納され、順次通信端末１に送出される。

通信端末１は、ステータスコマンドのパケットを受信すると、受信バッファ２１に一旦格納し、ステータスコマンドデパケッタイズ部２２−１でステータス信号に変換され、ステータスコマンドバッファ２２−２に格納される。制御部１１は、ステータスコマンドバッファ２２−２に格納されたステータスコマンドを解釈することで、現在のモニタ５の状態を知ることができ、次の制御に移ることができる。

図２０（ａ）に示すように、パケットデータは、ヘッダ部とデータ部で構成され、ヘッダ部の情報でパケットの種類やデータ長を認識し、データ部からデータ本体を切り出すことができる。図１９ではモニタ５と通信端末１が一対一に接続されているが、通信端末１にはモニタ５だけでなく、他のＡＶ機器を接続し、これらのＡＶ機器を含めて制御する場合は、ヘッダ部に機器ＩＤをを付与することで、対応するＡＶ機器に向けてＡＶデータやコントロールデータを送ることができる。つまり、通信機器１で制御できる機器は、モニタ５に限らない。

また、コントロール信号やステータスコマンドを送受信経路は特に限定されず、ＬＡＮ上に接続されたＡＶ機器には、図２０（ｂ）に示すような、ＩＰパケットのボディにカプセル化されたコントロール信号やステータスコマンドを、ＬＡＮ経由で送出してもよい。

以下、通信端末１を介した操作の具体的例を示す。

まず、上述のようにして、対象物認識部２０４は、動作エリアをロックオンした後、コマンド分析部２０５は、ロックオンされた動作エリアから第１の予備動作を認識する。第１の予備動作は、人差し指を左右に振る動作（図１５（ａ））であるものとする。

コマンド分析部２０５は、第１の予備動作を認識すると、発光制御部２４に対し、フラッシュランプ６７の所定時間の点滅を指示し、この指示に応じてフラッシュランプ６７が所定時間点灯する。

一方、表示制御部１１は、コマンド分析部２０５が第１の予備動作を認識したことに応じ、スタンバイ状態のモニタ５に対し、メイン電源をオンする指令をＴＶコントロール信号のパケットとして送信する。モニタ５は、当該パケットを受信すると、ＴＶコントロール信号に変換して、その内容であるメイン電源をオンする指令を認識し、メイン電源をオンにする。

次に、コマンド分析部２０５は、ロックオンされた動作エリアから第２の予備動作を認識する。第２の予備動作は２種類かそれ以上ある。１つ目は、通信端末１同士の映像音声通信に関する操作メニューへの移行を指示する予備動作であり、２つ目は、モニタ５による、テレビ受像、あるいは各種ＡＶ機器から入力される映像音声再生に関する操作メニューへの移行を指示する予備動作である。

コマンド分析部２０５は、図１５（ｃ）〜（ｈ）に示すように、指を順次立てて、通信モードを示す３桁の数字（「３」、「２」、「１」等）を示し、その後「ＯＫ」を示す動作を認識すると、これを通信端末１同士の映像音声通信に関する操作メニューへの移行を指示する意図的な第２の予備動作と解釈する。

この場合、表示制御部１１ｄは、通信端末用操作メニュー画面（図２１参照）の映像を生成し、映像の入力元を通信端末１に切り替える旨を指令するＴＶコントロール信号を、当該映像と多重化したパケットをモニタ５に送出する。モニタ５は当該パケットを受信するとＴＶコントロール信号に変換して映像入力元を通信端末１に切り替えた上、通信端末１から供給された通信端末用操作メニュー画面を表示する。なお、ＴＶコントロール信号に依存せず、リモコン６０の操作により、映像の入力元を通信端末１に切り替えることもできる。

図１５には、左手による動作を示しているが、当然ながら、コマンド分析部２０５は、右手による動作も認識できる。ユーザの好みに合わせて、コマンド分析部２０５は、右手あるいは左手の動作のみを認識するような設定を受け付け、この設定に合わせて、動作エリアの基準画像を左手用あるいは右手用に切り替えてもよい。

なお、通信端末用操作メニュー画面が供給される以前には、モニタ５へのデフォルトの入力信号（テレビ放送信号など）に応じた映像と、リモコン６０の手動操作に応答可能な通常のメニュー画面が表示されていてもよい。

一方、コマンド分析部２０５は、第２の予備動作として、所定のテレビ用操作メニュー画面指示動作を認識すると、表示制御部１１ｄは、テレビ用操作メニュー画面（図２６参照）の映像をモニタ５に指示して表示させる。第２の予備動作では、指を順次立てて、映像または音声の入力元がテレビジョン信号であることを示す３桁の数字を示し、その後「ＯＫ」を示す。例えば「２」、「５」、「１」、「ＯＫ」などで示す。

テレビ用操作メニュー画面では、テレビ画面に、モニタ５自身の生成したメニュー画面がスーパーインポーズされる。この画面制御もＴＶコントロール信号で指示される。

コマンド分析部２０５は、第２の予備動作の認識後、ロックオンされた動作エリアからメニュー選択指示動作を認識する。

図２１に示す通信端末用操作メニュー画面では、「ＴＶ電話をかける」、「留守録」、「アドレス帳」、「着信履歴」、「発信履歴」、「設定」といったメニュー項目が設けられており、いずれか１つの項目を、人差し指（あるいは手首）をくるくる回す指示動作により、順次選択できる。メニュー項目の近傍には、手の動作によりメニュー項目が決定できる旨を通知する操作指示マークＳを表示する。

なお、動作エリアとして認識された物体がカメラ４の画角から外れたり、当該物体の動きが非常に速かったり、当該物体が他の物体の影に隠れるなどの原因により動作エリアを追従できなくなった場合、操作指示マークＳを薄くグレーアウト表示して、動作エリアを追従できなくなった旨を通知する。動作エリアを追従できなくなった時間が所定時間に達した場合、操作指示マークＳを画面から消し、モーション動作モードを解除する。

ここで、コマンド分析部２０５が、動作エリアから右回りの回転運動の軌跡を認識すると、表示制御部１１ｄは、上から下に向けて順次メニュー項目をハイライト表示する。あるいは、コマンド分析部２０５が、動作エリアから左回りの回転運動の軌跡を認識すると、表示制御部１１ｄは、下から上に向けて順次メニュー項目をハイライト表示する。

こうすると、ユーザは、人差し指（あるいは手首）をくるくる回すことで、上から下にあるいは下から上に順次メニュー項目を選択でき、また、ハイライト表示の移動で、どの項目が選択されているのかを容易に認識できる。

選択するメニューを順次切り替えるために必要な動作指示の単位は、全１周の回転でなくてもよく、例えば、１８０度人差し指（あるいは手首）を移動させるごとにハイライト表示する項目が変わってもよい。また、左回りであれば上から下、右回りであれば下から上に向けて順次メニュー項目をハイライト表示してもよい。

コマンド分析部２０５は、「ＯＫ」を示す動作指示を認識すると、その時点でハイライト表示されているメニュー項目に対応する機能を起動する。例えば、「アドレス帳」項目がハイライト表示されているときに「ＯＫ」が認識されると、アドレス帳情報の閲覧・更新・追加・修正と、アドレス帳情報に登録された相手ごとの着信許可・着信拒否の設定を行うアドレス帳画面を表示する。

図２２に示すアドレス帳画面では、手の回転動作とＯＫの動作により、所望の相手方連絡先を選択および決定することができる。この画面で所望の相手方が決定されると、発信画面に遷移する。

図２３の発信画面では、「発信」および「戻る」の項目があり、いずれか一方を手の回転動作とＯＫの動作で選択できる。「発信」が選択された状態でＯＫ動作が認識されると、アドレス帳画面で選択された相手方の通信端末１に対して接続要求を送る。

相手方の通信端末１から接続要求（着信）が許可された場合、発信操作画面に遷移する。

図２４に示す発信操作画面では、相手映像と自分の映像があり、さらに、「コンテンツ」、「音量」、「切る」といったメニュー項目が表示される。この画面でも、手の回転動作とＯＫの動作により、所望のメニュー項目を選択および決定することができる。

ただし、会話中の身振り手振りが手の回転動作と誤認識されるおそれもあるため、ユーザがこれを回避したい場合、手を左右に振る「バイバイ」動作をすることで、動作エリアのロックオンが解除され、モーション操作モードが終了する。このとき、操作指示マークＳが画面から消え、ＬＥＤ６５が点滅し、モーション操作モードが終了したことを示す。

図２４の発信操作画面で「コンテンツ」が選択され、ＯＫ動作が認識されると、図２５に示すように、映像コンテンツの選択メニュー項目が現れる。この中から所望のコンテンツを、手の回転動作とＯＫ動作で選択すると、選択されたコンテンツの表示が開始する。図２５では、「コンテンツ２」の選択メニュー項目が選択されため、「コンテンツ２」が表示されている。

その他、相手方からの接続要求の受諾、受話音量の調節、交信切断の指示なども、メニュー項目化し、手の回転動作とＯＫの動作により選択できるようにしてもよい。

モーション操作モードが、「バイバイ」動作認識、あるいは所定時間の動作エリアの追従不能により終了した後、ユーザが再びメニュー項目を表示させたい場合、上述した第１の予備動作を行う。この場合、すでに相手方との通信状態になっているから、制御部１１は、第１の予備動作を認識した場合、第２の予備動作の認識なしで即座にメニュー項目の映像供給を行うとよい。

一方、テレビ用操作メニュー画面（図２６）においても、「チャンネル」、「音量」、「入力切替」、「その他」といったメニュー項目が表示される。この画面でも、手の回転動作とＯＫの動作により、所望のメニュー項目を選択および決定することができる。

このメニューから、「チャンネル」の選択が決定されると、テレビ画面にチャンネル選択サブメニューがスーパーインポーズされる指示が通信端末１からモニタ５に送られる（図２７）。

チャンネル選択サブメニューでは、「チャンネル１」、「チャンネル２」、「チャンネル３」、「チャンネル４」といったテレビチャンネル番号を項目にしており、この画面でも、手の回転動作とＯＫの動作により、所望のチャンネル番号を選択および決定することができる。選択されたチャンネル番号は、ＴＶコントロール信号として通信端末１からモニタ５に送られ、モニタ５は、このチャンネル番号に対応する選局動作を行う。

現在選択されているチャンネルを項目に反映するためには、次のようにする。まず、テレビ用操作メニュー画面で「チャンネル」が選択されると、通信端末１はモニタ５に対し「ＣＯＭＭＡＮＤＧＥＴＣＨＡＮＮＥＬ」コマンドを発行する。このコマンドは、現在選曲されているチャンネル番号の通知を要求するコマンドである。

モニタ５は、このコマンドを受信すると、現在選局されているチャンネル番号をステータスパケットで通信端末１に返信する。例えば、「チャンネル１」が選局されていれば、「ＳＴＡＴＵＳＣＨＡＮＮＥＬＮｏ．１」で応答する。

通信端末１は、モニタ５から受信したチャンネル番号をチャンネル選択メニューに反映する。例えば、「ＳＴＡＴＵＳＣＨＡＮＮＥＬＮｏ．１」が通知されれば、「チャンネル１」の項目をハイライト表示するようモニタ５に指示する。この指示に応じて、モニタ５側でテレビ映像とスーパーインポーズされたメニュー項目のうち、指示された項目のみをハイライトする。

ここで手をくるくる回し、チャンネル選択を行うと、手の回転に応じてハイライトするチャンネル項目が切り替わる指示が通信端末１からモニタ５に送られ、その都度、選択されたチャンネル項目に対応する選局動作がモニタ５に表示される。上述したように、右回りの回転動作であれば、右回りの回転動作が所定角度検知されるごとに、「ＣＯＭＭＡＮＤＣＨＡＮＮＥＬＵＰ」すなわちチャンネル番号が昇順に切り替わっていく指示が、通信端末１からモニタ５に送られる。あるいは、左回りの回転動作であれば、左回りの回転動作が所定角度検知されるごとに、「ＣＯＭＭＡＮＤＣＨＡＮＮＥＬＤＯＷＮ」すなわちチャンネル番号が降順に切り替わっていく指示が、通信端末１からモニタ５に送られる。

チャンネル選局は、「ＯＫ」動作で確定することができ、「ＯＫ」動作が認識された時点でハイライト表示されている項目に対応するチャンネル番号への選局コマンドが通信端末１からモニタ５に発行され、モニタ５は、受信した選局コマンドのチャンネル番号に応じ、選局する。例えば、チャンネル８がハイライト表示されているときに「ＯＫ」動作が認識された場合、通信端末１は、「ＣＯＭＭＡＮＤＳＥＴＣＨＡＮＮＥＬＮｏ．８」を発行し、モニタ５は、チャンネル８の放送映像に切り替える。

そして、「バイバイ」動作が認識されるか、動作エリアの認識が所定時間不能となった場合、通信端末１は、メニュー項目の映像供給を停止する指示をモニタに送り、これによりモニタ５は、放送映像のみを表示する。再びメニュー項目を表示させたい場合、上述した第１の予備動作を行う。この場合、すでに映像信号の入力先は切り替えられているから、通信端末１は、第１の予備動作の認識に応じて即座にメニュー項目の映像供給をモニタ５に指示するとよい。

このように、メニュー項目を表示させる前に第１の予備動作あるいは第２の予備動作を要求することで、思わぬ誤動作を防ぎ、操作者の意思に忠実に従った動作を簡単に実現できる。

なお、通信端末１の機能は、モニタ５その他のテレビ本体、テレビ機能とカメラ機能を有するパソコンなどに組み込んでもよい。要するに、本発明では、映像から特定の物体の特定の動きを認識したことに応じてモーション操作モードに移行し、その後、ロックオンされた動作エリアにおいて認識された各種指示動作に応じた各種機器の動作の制御を行うことが本質的であり、これは、通信端末１以外の各種電子機器に組み込むことが可能である。

映像音声通信システムのブロック図通信端末のブロック図モニタ５に表示される画面の一例を示す図全画面自分映像表示モードの概念説明図全画面相手映像表示モードの概念説明図ＰｏｕｔＰ画面（通常対話）表示モードの概念説明図ＰｏｕｔＰ画面（コンテンツ対話１）表示モードの概念説明図ＰｏｕｔＰ画面（コンテンツ対話２）表示モードの概念説明図全画面（コンテンツ対話３）表示モードの概念説明図表示エリアを画定するタイルの概念説明図符号化部の詳細ブロック図制御部周辺の詳細ブロック図動作エリア候補の一例を示す図シンボライズされた動作エリア候補の一例を示す図第１の予備動作および第２の予備動作の一例を示す図認識された特定形状の観測定点の軌跡の一例を示す図通信端末、モニタ、マイク、カメラの接続を示す図通信端末からモニタのＡＶデータ入力端子に入力されるパケットの流れを模式的に示す図通信端末とモニタのパケット送受信に関するブロックを示す図パケット構造を例示した図操作メニュー画面の一例を示す図アドレス帳画面の一例を示す図発信操作画面の一例を示す図ＰｏｕｔＰ画面（通常対話）におけるメニュー項目と操作指示マークの一例を示す図ＰｏｕｔＰ画面（コンテンツ対話）におけるメニュー項目と操作指示マークの一例を示す図テレビジョン受像画面におけるメニュー項目（メイン項目）の一例を示す図テレビジョン受像画面におけるメニュー項目（チャンネル選択項目）の一例を示す図動作エリア認識処理の流れを示すフローチャート第２の予備動作認識処理の流れを示すフローチャート

符号の説明

１１ａ：自分方表示モード通知部、１１ｂ：相手方表示モード検出部、１１ｅ：符号化制御部、１１ｆ：操作特定信号送信部、２００：二次バッファ、２０１：間引きバッファ、２０２：対象物エリア抽出バッファ、２０３：対象物検知部、２０４：対象物認識部、２０５：コマンド分析部

Claims

電子機器の制御を行う制御装置であって、
特定の物体を被写体とした映像信号を継続的に取得する映像取得部と、
前記映像取得部の取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される前記電子機器の制御に関する制御指示を認識する指示認識部と、
前記制御指示を受け付ける指示モードを設定する指示モード設定部と、
前記指示モード設定部が前記指示モードを設定したことに応じ、前記指示認識部が認識した制御指示に基づいて前記電子機器の制御を行う制御部と、
を備える制御装置。
前記指示認識部は、前記映像取得部の取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される前記指示モードの終了指示を認識し、
前記指示モード設定部は、前記指示認識部が前記終了指示を認識したことに応じて前記指示モードの設定を解除する請求項１に記載の制御装置。
前記指示認識部は、前記映像取得部の取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識し、
前記指示モード設定部は、前記指示認識部が前記予備指示を認識したことに応じて前記指示モードを設定する請求項１または２に記載の制御装置。
前記指示モード設定部は、手動入力操作により前記指示モードの設定が指示されたことに応じて前記指示モードを設定する請求項１〜３のいずれかに記載の制御装置。
電子機器の制御を行う制御装置であって、
特定の物体を被写体とした映像信号を継続的に取得する映像取得部と、
前記映像取得部の取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示および前記電子機器の制御に関する制御指示を認識する指示認識部と、
前記指示認識部が前記予備指示を認識したことに応じ、前記指示認識部が認識した制御指示に基づいて前記電子機器の制御を行う制御部と、
を備え、
前記指示認識部は、前記映像信号から前記特定の物体による予備指示を認識した領域を追従した上、前記領域から前記制御指示を認識する制御装置。
前記映像取得部の取得した映像信号を間引く間引き部をさらに備え、
前記指示認識部は、前記間引き部によって間引かれた映像信号から前記予備指示を認識し、かつ、前記映像取得部の取得した映像信号から前記制御指示を認識する請求項５に記載の制御装置。
前記領域から特徴情報を抽出する抽出部をさらに備え、
前記指示認識部は、前記抽出部の抽出した特徴情報に基づいて前記領域を追従する請求項５または６に記載の制御装置。
電子機器の制御を行う制御装置であって、
特定の物体を被写体とした映像信号を継続的に取得する映像取得部と、
前記映像取得部の取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示および前記電子機器の制御に関する制御指示を認識する指示認識部と、
前記指示認識部が前記予備指示を認識したことに応じ、前記制御指示を受け付ける指示モードを設定する指示モード設定部と、
前記指示モード設定部が前記指示モードを設定したことに応じ、前記制御指示に基づいて前記電子機器の制御を行う制御部と、
を備え、
前記指示認識部は、前記指示モード設定部が前記指示モードを設定したことに応じ、前記映像信号から前記特定の物体による予備指示を認識した領域を追従した上、前記追従した領域から前記制御指示を認識する制御装置。
前記指示認識部は、前記映像信号から前記特定の物体による第１の予備指示を認識した領域を追従した上、前記領域から前記第２の予備指示を認識し、
前記指示モード設定部は、前記指示認識部が前記第１の予備指示および前記第２の予備指示を認識したことに応じ、前記指示モードを設定する請求項８に記載の制御装置。
前記予備指示は、前記特定の物体の形状により表象され、前記制御指示は、前記物体の動きにより表象される請求項９に記載の制御装置。
前記第１の予備指示は、指を立てた手を揺動することにより表象され、前記第２の予備指示は、手の指により輪を形成することにより表象される請求項９に記載の制御装置。
前記指示認識部は、前記映像信号から前記指示モードの終了指示を認識し、
前記指示モード設定部は、前記指示認識部が前記終了指示を認識したことに応じて前記指示モードの設定を解除する請求項８〜１１のいずれかに記載の制御装置。
前記終了指示は、前記特定の物体の画像重心、先端または外表面全体の往復移動により表象される請求項１２に記載の制御装置。
前記終了指示は、複数の指を立てた手を揺動することにより表象される請求項１３に記載の制御装置。
前記指示認識部は、前記特定の物体の画像重心、先端または外表面全体の回転移動方向および回転量に応じたメニュー項目の選択指示を認識する請求項１〜１４のいずれかに記載の制御装置。
前記選択指示は、指を立てた手を回転することにより表象される請求項１５に記載の制御装置。
前記指示認識部は、前記特定の物体の特定の形状からメニュー項目の選択確定指示を認識する１〜１６のいずれかに記載の制御装置。
前記選択確定指示は、手の指により輪を形成することにより表象される請求項１７に記載の制御装置。
前記指示モードの設定の状態を通知する設定通知部をさらに備える請求項１〜４、８〜１４のいずれかに記載の制御装置。
電子機器の制御を行う制御方法であって、
特定の物体を被写体とした映像信号を継続的に取得するステップと、
取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される前記電子機器の制御に関する制御指示を認識するステップと、
前記制御指示を受け付ける指示モードを設定するステップと、
前記指示モードを設定したことに応じ、前記制御指示に基づいて前記電子機器の制御を行うステップと、
を含む制御方法。
電子機器の制御を行う制御方法であって、
特定の物体を被写体とした映像信号を継続的に取得するステップと、
前記映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識するステップと、
前記映像信号から前記予備指示を認識した領域を追従した上、前記領域から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される制御指示を認識するステップと、
前記認識した制御指示に基づいて前記電子機器の制御を行うステップと、
を含む制御方法。
電子機器の制御を行う制御方法であって、
特定の物体を被写体とした映像信号を継続的に取得するステップと、
取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識するステップと、
前記予備指示を認識したことに応じ、前記制御指示を受け付ける指示モードを設定するステップと、
前記指示モードを設定したことに応じ、前記予備指示を認識した領域を追従した上、前記追従した領域から前記電子機器の制御に関する制御指示を認識するステップと、
前記制御指示に基づいて前記電子機器の制御を行うステップと、
を含む制御方法。
前記指示モードの設定の状態を通知するステップをさらに含む請求項２０または２２に記載の制御方法。
請求項２０〜２３のいずれかに記載の制御方法をコンピュータに実行させるプログラム。