JP2008269174A - 制御装置、方法およびプログラム - Google Patents

制御装置、方法およびプログラム Download PDF

Info

Publication number
JP2008269174A
JP2008269174A JP2007109675A JP2007109675A JP2008269174A JP 2008269174 A JP2008269174 A JP 2008269174A JP 2007109675 A JP2007109675 A JP 2007109675A JP 2007109675 A JP2007109675 A JP 2007109675A JP 2008269174 A JP2008269174 A JP 2008269174A
Authority
JP
Japan
Prior art keywords
instruction
control
unit
video
preliminary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007109675A
Other languages
English (en)
Inventor
Tatsuo Yoshino
達生 吉野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2007109675A priority Critical patent/JP2008269174A/ja
Priority to US12/104,973 priority patent/US20080259031A1/en
Publication of JP2008269174A publication Critical patent/JP2008269174A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】誤操作しにくく、かつユーザ自身の動作による直感的な使いやすい操作インターフェースを提供する。
【解決手段】映像から特定の物体の特定の動き(予備動作)を認識したことに応じてモーション操作モードに移行し、その後、ロックオンされた動作エリアにおいて認識された各種指示動作に応じた各種機器の動作の制御を行う。終了指示動作が認識されるか、動作エリアの認識が所定時間不能となった場合、ロックオンは解除され、モーション操作モードは終了する。
【選択図】 図28

Description

本発明は制御装置、方法およびプログラムに関する。
特許文献1によると、CCDカメラで撮像した画像中の物体の形状、動きを認識するホストコンピュータと、ホストコンピュータによって認識した物体の形状、動きを表示するディスプレイとを備え、CCDカメラにユーザーが向い、例えば手振りによって指示を与えると、与えた手振りがディスプレイの表示画面上に表示され、例えば表示画面上に表示した仮想スイッチを手振りによって矢印カーソルのアイコンで選択でき、マウス等の入力装置を必要とせず、非常に簡便な機器の操作が可能となる。
特許文献2によると、撮像した画像中の物体の形状および動きを認識する動作認識部と、動作認識部で認識した物体の形状や動きを表示するディスプレイと、CCDカメラで撮像した画像を保存するフレームメモリと、フレームメモリ中に保存した画像よりも前の時間に撮像した画像を基準画像として蓄積する基準画像メモリとを設け、動作認識部で、フレームメモリ中の画像と基準画像メモリ中に蓄積している基準画像との差異を抽出する構成である。
特許文献3によると、撮カメラにより撮像された動画像から特定の対象物を検出する対象検出部と、上記対象検出部により検出された対象物の動き方向を認識する動き方向認識部と、上記動き方向認識部により認識された動き方向に対応したコマンドを情報処理システムに出力するコマンド出力部とを有する。さらに、上記対象検出部により検出された対象物の位置を検出すると共に、この検出結果を位置情報として、上記情報処理システムを操作する操作者に通知する位置情報出力部を備える。
特許文献4によると、室内などの様子をビデオカメラにおいて撮影しておき、階調のある信号を画像処理装置へ送る。画像処理装置では人体の形状を抽出する。次に動き認識装置に送り、人体などの動きのあるものを認識する。ここで動きの具体例としては、手の形、眼球の向き、手の指示方向などである。また手の形の例としては、指を1本だけ立てた場合は、テレビの1チャンネルを受信し、2本立てた場合はテレビの2チャンネルを受信したりする。
特開平8−44490号公報 特開平9−185456号公報 特開2002−149302号公報 特開2004−349915号公報
上記の従来技術では、赤外線式リモコンによるボタン操作と異なり、画面を見たままで、直感的に操作できるというメリットを持つ。
しかし、対象物の形状・動きの認識を色々な環境下で行うという複雑な技術を伴うため、対象物の検出不良による誤認識や、操作者の無意識な動作の誤認識により、思わぬ誤動作が生じてしまう。
本発明では、誤操作しにくく、かつユーザ自身の動作による直感的な使いやすい操作インターフェースを提供することを目的とする。
本発明は、電子機器の制御を行う制御装置であって、特定の物体を被写体とした映像信号を継続的に取得する映像取得部と、映像取得部の取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される電子機器の制御に関する制御指示を認識する指示認識部と、制御指示を受け付ける指示モードを設定する指示モード設定部と、指示モード設定部が指示モードを設定したことに応じ、指示認識部が認識した制御指示に基づいて電子機器の制御を行う制御部と、を備える。
この発明によると、指示モードを設定したことに応じ、指示認識部が認識した制御指示に基づいて電子機器の制御を行うから、指示モード未設定時において、ユーザの無意識な身振りや手振りなどが制御指示と誤認識され、電子機器が誤って制御されることを防げる。
また、指示モード設定後は、特定の物体の特定の形状および動きのうち少なくとも一方によって電子機器の制御に関する制御指示を与えることができ、直感的な使いやすい操作インターフェースを提供することができる。
指示認識部は、映像取得部の取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される指示モードの終了指示を認識し、指示モード設定部は、指示認識部が終了指示を認識したことに応じて指示モードの設定を解除するとよい。
指示認識部は、映像取得部の取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識し、指示モード設定部は、指示認識部が予備指示を認識したことに応じて指示モードを設定するとよい。
指示モード設定部は、手動入力操作により指示モードの設定が指示されたことに応じて指示モードを設定するとよい。
本発明は、電子機器の制御を行う制御装置であって、特定の物体を被写体とした映像信号を継続的に取得する映像取得部と、映像取得部の取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示および電子機器の制御に関する制御指示を認識する指示認識部と、指示認識部が予備指示を認識したことに応じ、指示認識部が認識した制御指示に基づいて電子機器の制御を行う制御部と、を備え、指示認識部は、映像信号から特定の物体による予備指示を認識した領域を追従した上、領域から制御指示を認識する。
この発明によると、映像信号から特定の物体による予備指示を認識した領域を追従した上、この領域から制御指示を認識するから、特定のユーザによる制御指示を受け付けることができ、他の人物や物体の形状や動きを制御指示と誤認識するおそれが小さくなる。
映像取得部の取得した映像信号を間引く間引き部をさらに備え、指示認識部は、間引き部によって間引かれた映像信号から予備指示を認識し、かつ、映像取得部の取得した映像信号から制御指示を認識するとよい。
こうすると、予備指示の認識が低負荷になって高速化でき、かつ、制御指示の認識も正確に行える。
領域から特徴情報を抽出する抽出部をさらに備え、指示認識部は、抽出部の抽出した特徴情報に基づいて領域を追従するとよい。
本発明は、電子機器の制御を行う制御装置であって、特定の物体を被写体とした映像信号を継続的に取得する映像取得部と、映像取得部の取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示および電子機器の制御に関する制御指示を認識する指示認識部と、指示認識部が予備指示を認識したことに応じ、制御指示を受け付ける指示モードを設定する指示モード設定部と、指示モード設定部が指示モードを設定したことに応じ、制御指示に基づいて電子機器の制御を行う制御部と、を備え、指示認識部は、指示モード設定部が指示モードを設定したことに応じ、映像信号から特定の物体による予備指示を認識した領域を追従した上、追従した領域から制御指示を認識する。
指示認識部は、映像信号から特定の物体による第1の予備指示を認識した領域を追従した上、領域から第2の予備指示を認識し、指示モード設定部は、指示認識部が第1の予備指示および第2の予備指示を認識したことに応じ、指示モードを設定する。
第2の予備指示を複数用意しておき、制御したい電子機器に対応した第2の予備動作を認識させることもできる。
なお、予備指示は、特定の物体の形状により表象され、制御指示は、物体の動きにより表象される。
あるいは、第1の予備指示は、指を立てた手を揺動することにより表象され、第2の予備指示は、手の指により輪を形成することにより表象される。
指示認識部は、映像信号から指示モードの終了指示を認識し、指示モード設定部は、指示認識部が終了指示を認識したことに応じて指示モードの設定を解除するとよい。
こうすると、ユーザが自分の意思により指示モードを解除でき、無意識の身振り手振りによる制御指示の誤認識を防げる。
終了指示は、特定の物体の画像重心、先端または外表面全体の往復移動により表象される。
例えば、終了指示は、複数の指を立てた手を揺動することにより表象される。
指示認識部は、特定の物体の画像重心、先端または外表面全体の回転移動方向および回転量に応じたメニュー項目の選択指示を認識する。
例えば、選択指示は、指を立てた手を回転することにより表象される。
指示認識部は、特定の物体の特定の形状からメニュー項目の選択確定指示を認識する。
例えば、選択確定指示は、手の指により輪を形成することにより表象される。
指示モードの設定の状態、すなわち、指示モードが設定されているか否かの状態を通知する設定通知部をさらに備えてもよい。
本発明は、電子機器の制御を行う制御方法であって、特定の物体を被写体とした映像信号を継続的に取得するステップと、取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される電子機器の制御に関する制御指示を認識するステップと、制御指示を受け付ける指示モードを設定するステップと、指示モードを設定したことに応じ、制御指示に基づいて電子機器の制御を行うステップと、を含む。
本発明は、電子機器の制御を行う制御方法であって、特定の物体を被写体とした映像信号を継続的に取得するステップと、映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識するステップと、映像信号から予備指示を認識した領域を追従した上、領域から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される制御指示を認識するステップと、認識した制御指示に基づいて電子機器の制御を行うステップと、を含む。
本発明は、電子機器の制御を行う制御方法であって、特定の物体を被写体とした映像信号を継続的に取得するステップと、取得した映像信号から特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識するステップと、予備指示を認識したことに応じ、制御指示を受け付ける指示モードを設定するステップと、指示モードを設定したことに応じ、予備指示を認識した領域を追従した上、追従した領域から電子機器の制御に関する制御指示を認識するステップと、制御指示に基づいて電子機器の制御を行うステップと、を含む。
上記の制御方法をコンピュータに実行させるプログラムも本発明に含まれる。
この発明によると、指示モードを設定したことに応じ、認識された制御指示に基づいて電子機器の制御を行うから、指示モード未設定時において、ユーザの無意識な身振りや手振りなどが制御指示と誤認識され、電子機器が誤って制御されることを防げる。
また、指示モード設定後は、特定の物体の特定の形状および動きのうち少なくとも一方によって電子機器の制御に関する制御指示を与えることができ、直感的な使いやすい操作インターフェースを提供することができる。
図1は本発明の好ましい実施形態に係る映像音声通信システムのブロック図である。このシステムは、同等の構成を有する通信端末1aと通信端末1bとがインターネットなどのネットワーク10を介して接続されており、互いに映像と音声を送受信する。
通信端末1aと通信端末1bとは同様の構成であり、両者を区別するのはネットワークの通信相手を区別するためにすぎず、以下の説明において、両者の役割の全部または一部を入れ換えることもできることに注意を要する。両者をネットワークの通信相手として区別する必要がなければ、まとめて通信端末1と表すこともある。
ネットワーク10は、例えばADSL、光ファイバ(FTTH)、ケーブルテレビなどのブロードバンドネットワークや、ISDNなどのナローバンドネットワーク、UWB(Ultra Wide Band)やWi−Fi(Wireless Fidelity)といったIEEE 802.xx準拠の無線通信などの回線と接続されるインターネットに代表されるネットワークで構成される。
本実施形態では、ネットワーク10は、所定値の帯域(通信速度)が常に確保できるかどうかは保証されていないベストエフォート型ネットワークを想定する。ネットワーク10は、電話局と自宅の距離やADSLモデム間の通信速度、トラフィックの増減、セッションの相手方の通信環境などの各種要因で、公称されている最大帯域が実質的に制限されることがある。実効値が公称値の数分の一以下になる場合も多い。ネットワーク10の帯域は、ビット毎秒(bps)で表される。例えば、FTTHの公称帯域は100Mbpsなどが一般的であるが、実際には、数百kbpsにまで制限されることがある。
通信端末1aと通信端末1bとの接続経路は、SIP(Session Initiation Protocol)サーバで構成された交換台サーバ6がネットワークアドレス(グローバルIPアドレスなど)、ポート、識別子(MACアドレスなど)を用いて指定する。名称や電子メールアドレスなど通信端末1のユーザに関する情報や通信端末1の接続に関する情報(アカウント情報)はアカウントデータベース(DB)8a内に格納されており、アカウント管理サーバ8によって管理されている。アカウント情報はWebサーバ7を介してアカウント管理サーバ8に接続した通信端末1から更新・変更・削除することもできる。Webサーバ7は、メールを送信するメールサーバ、ファイルのダウンロードを行うファイルサーバも兼ねている。
通信端末1aは、マイク3a、カメラ4a、スピーカ2a、モニタ5aと接続され、カメラ4aで撮影された映像とマイク3aで集音された音声がネットワーク10を介して通信端末1bに送信される。通信端末1bも、マイク3b、カメラ4b、スピーカ2b、モニタ5bと接続され、同様に映像と音声とを通信端末1aに送信できる。
通信端末1bが受信した映像と音声はモニタ5b、スピーカ2bに出力され、通信端末1aが受信した映像と音声はそれぞれモニタ5a、スピーカ2aに出力される。なお、マイク3とスピーカ2はヘッドセットとして一体構成してもよい。あるいは、モニタ5は、テレビジョン受像機を兼ねていてもよい。
図2は通信端末1の詳細構成を示すブロック図である。
通信端末1の本体外面には、音声入力端子31、映像入力端子32、音声出力端子33、映像出力端子34が設けられており、それぞれマイク3、カメラ4、スピーカ2、モニタ5と接続される。
外部入力端子30−1は、IEEE1394系の入力端子であり、デジタルビデオカメラ70からDV方式その他の仕様に従った動画像/静止画像/音声データの入力を受ける。外部入力端子30−2は、デジタルスチルカメラ71からJPEG仕様その他の仕様に従った静止画像の入力を受ける。
音声入力端子31に接続されたマイク3からオーディオデータ化部14に入力された音声信号と、NTSCデコーダ15の生成した色差信号は、MPEG4エンコーダなどの高画質対応符号器で構成されたCH1符号化部12−1によってデジタル圧縮符号化されてストリームデータ(リアルタイム配信可能な形式のコンテンツデータ)に変換される。このストリームデータをCH1ストリームデータとよぶ。
スイッチャ78によってデータ入力元となった、Webブラウザモジュール43がWebコンテンツサーバ90からダウンロードした静止画像もしくは動画像、デジタルビデオカメラ70からの静止画像もしくは動画像、デジタルスチルカメラ71からの静止画像もしくは動画像、ストリーミングモジュール44がストリーミングサーバ91からダウンロードした動画像、または記録メディア73からの動画像もしくは静止画像のいずれか1つ(以下、これらの画像入力元を、デジタルビデオカメラ70等の映像コンテンツ入力元と略称することもある)を含んだ映像信号と、スイッチャ78によってデータ入力元となった、ストリーミングモジュール44がストリーミングサーバ91からダウンロードした音声またはデジタルビデオカメラ70からの音声を含んだ音声信号(以下、これらの音声入力元を、デジタルビデオカメラ70等の音声入力元と略称することもある)とは、MPEG4エンコーダなどの高画質対応符号器で構成されたCH2符号化部12−2によってデジタル圧縮符号化されてストリームデータに変換される。このストリームデータをCH2ストリームデータとよぶ。
CH2符号化部12−2は、デジタルビデオカメラ70等から入力される静止画を、動画像に変換して出力する機能を有する。この機能の詳細は後述する。
合成部51−1は、CH1ストリームデータと、CH2ストリームデータとを合成したストリームデータ(合成ストリームデータ)を作成し、パケット化部25に出力する。
合成ストリームデータはパケット化部25によってパケット化され、一旦送信バッファ26に記憶される。送信バッファ26は、通信インターフェース13を介し、パケットを一定のタイミングでネットワーク10に送出する。送信バッファ26は、例えば、30フレーム毎秒の動画像が取り込まれると、1パケットに1フレームのデータを記憶して送出する能力を有する。
なお、本実施形態では、ネットワーク10の伝送帯域の減少が推定されても、伝送フレームレートを低下させること、すなわちフレームを間引くことは行わない。これは映像の動きがカクカクして滑らかでなくなるのを防ぐためである。
映像/音声データ分離部45−1は、外部入力端子30−1から入力された多重化データから映像データと音声データとを分離する。
映像/音声データ分離部45−1によって分離された動画像データまたは静止画データは、それぞれ動画デコーダ41または静止画デコーダ42によって復号化された後、フレーム画像として所定時間間隔ごとに映像バッファ80に一時的に記憶される。なお、映像バッファ80に記憶される1秒あたりのフレーム数(フレームレート)は、後述のビデオキャプチャバッファ54のフレームレート(例えば30fps(frame per second))と合致させる必要がある。
映像/音声データ分離部45−1によって分離された音声データは、音声デコーダ47−2によって復号化された後、音声バッファ81に一時的に記憶される。
NTSCデコーダ15は、カメラ4から入力されたNTSC信号を輝度信号および色差信号に変換するカラーデコーダであり、NTSC信号 をY/C 分離回路により輝度信号と搬送色信号とに分離し、さらに搬送色信号を色信号復調回路により復調して色差信号(Cb,Cr)を生成する。
オーディオデータ化部14は、マイク3から入力されたアナログオーディオ音声信号をデジタルデータに変換してオーディオキャプチャバッファ53に出力する。
スイッチャ(スイッチング回路)78は、制御部11の制御に従い、映像バッファ80への入力映像を、デジタルビデオカメラ70の動画像もしくは静止画像、デジタルスチルカメラ71からの静止画像、メディアリーダ74によって記録メディア73から読み込まれた動画像または静止画像のいずれか1つに切り替える。
合成部51−2は、デジタルビデオカメラ70等の映像コンテンツ入力元からの映像と、CH1復号化部13−1、CH2復号化部13−2から復号化された動画フレーム画像とを合成し、この合成画像を映像出力部17に出力する。こうして得られた合成画像はモニタ5に表示される。
好ましくは、モニタ5は、受信したテレビ映像を表示し、かつ複数の外部入力端子を備えたテレビジョンモニタである。モニタ5の外部入力の切り替えは、通信端末1から行えると好ましい。詳細は後述するが、通信端末1から、モニタ5の映像信号入力を、テレビから外部入力に切り替え、映像コンテンツの表示を行う場合、通信端末1からモニタ5に対してTVコントロール信号を出力し、モニタ5が当該TVコントロール信号を入力したことに応じて、通信端末1からの映像信号を受け付ける外部入力に切り替える。
相手方の通信端末1は、CH1符号化部12−1の符号化した映像データ、CH2符号化部12−2の符号化した映像データをそれぞれストリーム化回路22により個別にストリーム化したあと、CH1符号化部12−1の符号化したストリームデータはCH1復号化部13−1で、CH2符号化部12−2の符号化したストリームデータはCH2復号化部13−2でそれぞれ動画像ないし音声に復号化され、合成部51−2に出力される。
合成部51−2は、カメラ4の映像すなわち自分映像、CH1復号化部13−1の復号化した動画像すなわち相手映像、およびCH2復号化部13−2の復号化した動画像すなわち映像コンテンツを、モニタ5の表示画面における表示エリアに収まるようリサイズして合成する。リサイズはリモコン60から入力される表示モード切替に応じて行われる。
図3はモニタ5に表示される映像の配置の一例を示す。この図に示すように、モニタ5には、相手方の通信端末1のカメラ4の映像(相手映像)が第1の表示エリアX1に、相手方の通信端末1のデジタルビデオカメラ70等の映像コンテンツ入力元から入力された映像(映像コンテンツ)が第2の表示エリアX2に、自分方のカメラ4から入力された映像(自分映像)が第3の表示エリアX3に表示される。
第1の表示エリアX1ないし第3の表示エリアX3に配置される映像はこの図に示したものに限定されず、後述する表示モードの設定に応じて切り替わる。
その他、自分方のスイッチャ78に対するデジタルビデオカメラ70等の映像コンテンツ入力元その他の情報をリスト化したコンテンツメニューM、各種のメッセージやお知らせを表示するメッセージ&情報表示エリアYが、それぞれ1画面内に収まるよう縮小されて、各々重複しないエリアに表示される。
なお、この図では1表示画面中の各表示エリアX1〜X3が所定の面積比に従って分割表示されているが、この画面分割の仕方は色々変形可能である。また、複数映像全てを必ずしも1画面内で同時に表示する必要はなく、リモコン60の所定操作に応じて表示モードを切り替え、自分映像のみ、相手映像のみもしくは映像コンテンツのみ、あるいはそれらの一部を組み合わせて表示するようにしてもよい。
コンテンツメニューMではリモコン60の操作によって任意の項目を選択できる。制御部11は、リモコン60の項目選択操作に応じて映像コンテンツの入力元をスイッチャ78によって切り替える制御を行う。これにより、映像コンテンツとして表示すべき映像を任意に選択することができる。ここでは、「Webサーバ」項目を選択するとWebブラウザモジュール43がWebコンテンツサーバ90から取得したWebコンテンツ、「コンテンツサーバ」項目を選択するとストリーミングモジュール44がストリーミングサーバ91から取得したストリーミングコンテンツが、「DV」項目を選択するとデジタルビデオカメラ70からの映像が、「スチル」項目を選択するとデジタルスチルカメラ71からの映像が、「メディア」項目を選択すると記録メディア73から読み込まれた映像が映像コンテンツとなる。
CH1符号化部12−1は、オーディオキャプチャバッファ53から供給されるマイク3からの音声のキャプチャデータを順次MPEG方式などに従って圧縮符号化する。符号化された音声データは、パケット化部25によりパケット化されて相手方の通信端末1へストリーム送信される。
CH2符号化部12−2は、スイッチャ78によって音声入力元となった、ストリーミングモジュール44からの音声またはデジタルビデオカメラ70からの音声のいずれか一方(デジタルビデオカメラ70等の音声入力元)をMPEG方式などに従って圧縮符号化する。符号化された音声データは、パケット化部25によりパケット化されて相手方の通信端末1へストリーム送信される。
CH1復号化部13−1は、CH1符号化部12−1が符号化した音声データを復号化する。CH2復号化部13−2は、CH2符号化部12−2が符号化した音声データを復号化する。
合成部51−2は、CH1復号化部13−1の復号化した音声データと、CH2復号化部13−2の復号化した音声データとを合成し、この合成音声データを音声出力部16に出力する。こうして、相手方の通信端末1のマイク3で集音された音声および相手方の通信端末1に接続されたデジタルビデオカメラ70等から得られた音声が自分方のスピーカ2によって再生される。
帯域推定部11cは、ネットワーク10のジッタ(ゆらぎ)などから伝送帯域を推定する。
符号化制御部11eは、推定された伝送帯域に応じてCH1符号化部12−1、CH2符号化部12−2の映像伝送ビットレートを変化させる。即ち、伝送帯域が低下していくことを推定すれば映像伝送ビットレートを低下させ、伝送帯域が増加していくことを推定すれば映像伝送ビットレートを増加させる。こうすることで、伝送帯域を超えるパケット送出によりパケットロスが発生するのを防ぐことができ、伝送帯域の変化に応じたスムースなストリームデータ送信を行える。
帯域推定部11cによる具体的な帯域推定は、例えば次のようにすればよい。相手方の通信端末1bからSR(Sender Report)タイプのRTCPパケット(RTCP SR)を受信すると、RTCP SRパケットのヘッダ内にあるsequence number fieldのシーケンス番号を計数することで受信したRTCP SRの損失数を算出する。そして、当該損失数が記述されたRR(Receiver Report)タイプのRTCPパケット(RTCP RR)を相手方の通信端末1に送信する。RTCP RRには、RTCP SRの受信からRTCP RRの送信までの時間(便宜上応答時間と呼ぶ)も記述されている。
相手方の通信端末1bがRTCP RRを受信すると、RTCP SRの送信時刻からRTCP RRの受信時刻までの時間から応答時間を引いた時間であるRTT(Round Trip Time)を算出する。また、RTCP SRの送出パケット数とRTCP RRの損失数を参照し、定期期間内における(損失数)/(送出パケット数)=パケット損失率を算出する。このRTTとパケット損失率を通信状態レポートとする。
監視パケットを出す間隔は、10秒から数10秒に一回あたりが適当と考えられるが、1回の監視パケット試行での推定では、ネットワーク状態が正確に把握できない時も多いため、複数回に分けて行い、その平均等を取って推定する方が推定確度は増す。監視パケットの数量を多くすると,それ自体が帯域を狭める要因ともなるので、全体の通信量の2−3%に留めておくのが好ましい。
なお、以上に説明した以外にも、各種のQoS(Quality of Service)制御技術を帯域推定部11cに用いることで通信状態レポートを得ることができる。推定した伝送帯域に応じて音声符号化のビットレートを変化させてもよいが、音声の伝送帯域は映像に比較して帯域への寄与率が低いため、固定としても問題はない。
通信インターフェース13を介して他の通信端末1から受信したストリームデータのパケットは一旦受信バッファ21に記憶されたあと、一定のタイミングでストリーム化装置22に出力される。受信バッファ21のゆらぎ吸収バッファ21aは、当該パケットの伝送遅延時間が変動して到着間隔がばらついても、連続的な再生をするためにパケット受信から再生開始までに遅延を付加する。ストリーム化装置22は、パケットデータをストリーム再生データに再構成する。
CH1復号化部13−1、CH2復号化部13−2はMPEG4デコーダなどで構成された映像音声復号化装置である。
表示制御部11dは、リモコン60から入力された画面切替信号に応じて合成部51−2を制御し、CH1復号化部13−1で復号化した映像データ(CH1映像データ)と、CH2復号化部13−2で復号化した映像データ(CH2映像データ)と、NTSCデコーダ15から入力した映像データ(自分映像)と、映像バッファ80から入力した映像データ(映像コンテンツ)の全部もしくは一部を合成して出力する(合成出力)か、あるいはそれらの映像データのうちいずれか1つを他のものと全く合成しないまま出力する(スルー出力)。合成部51−2から出力された映像データは映像出力部17でNTSC信号に変換されてモニタ5に出力される。
図4〜図9は合成された映像データを表示したモニタ5の画面を例示する。このそれぞれの画面は、リモコン60による表示モード切替操作により順次切り替わる。
図4は、合成部51−2がカメラ4からの映像データ(自分映像)だけを、その他の映像データと合成せずに映像出力部17にスルー出力した場合におけるモニタ5の画面表示を示す。この画面では自分方のカメラ4で撮影した映像(自分映像)だけが全画面表示される。
図5は、合成部51−2がCH1復号化部13−1からの映像データ(相手映像)だけを、その他の映像データと合成せずに映像出力部17にスルー出力した場合におけるモニタ5の画面表示を示す。この画面では相手方のカメラ4で撮影した映像(相手映像)だけが全画面表示される。
図6は、合成部51−2がCH1復号化部13−1からの映像データ(相手映像)と自分方のカメラ4からの映像データ(自分映像)とを合成して映像出力部17に出力した場合におけるモニタ5の画面表示を示す。この画面では、相手映像と自分映像がそれぞれ表示エリアX1、X3に表示される。
図7は、合成部51−2がCH1復号化部13−1からの映像データ(相手映像)とCH2復号化部13−2からの映像データ(映像コンテンツ)と自分方のカメラ4からの映像データ(自分映像)とを合成して映像出力部17に出力した場合におけるモニタ5の画面表示を示す。この画面では、相手映像が表示エリアX1、映像コンテンツが表示エリアX2、自分映像が表示エリアX3に収まるようにリサイズされて表示される。かつ、表示エリアX1、X3は、表示エリアX1が表示エリアX3に比して大きくなるような所定の面積比を保っている。
図8は、合成部51−2がCH1復号化部13−1からの映像データ(相手映像)とCH2復号化部13−2からの映像データ(映像コンテンツ)と自分方のカメラ4からの映像データ(自分映像)とを合成して映像出力部17に出力した場合におけるモニタ5の画面表示を示す。この画面では、映像コンテンツが表示エリアX1、相手映像が表示エリアX2、自分映像が表示エリアX3に表示されている。
図9は、合成部51−2がCH2復号化部13−2からの映像データ(映像コンテンツ)だけを、その他の映像データと合成せずに映像出力部17にスルー出力した場合におけるモニタ5の画面表示を示す。この画面では映像コンテンツだけが表示される。
図10は各表示エリアX1〜X3の面積比の一例を示す。ここでは、4:3の画面比の画面を9つのタイルに等分割し、表示エリアX1の面積は4タイル、表示エリアX2、X3の面積は1タイルとなっている。また、コンテンツメニュー表示エリアMの面積は1タイル、メッセージ・情報表示エリアの面積は2タイルとなっている。
通信端末1bは、リモコン60から画面切替信号が入力されると、その画面切替信号が入力されたことを示す制御パケットを、ネットワーク10を介して通信端末1aに送信する。同様の機能は通信端末1aも有する。
符号化制御部11eは、相手方の通信端末1から受信した制御パケットで識別される表示エリアX1、X2もしくはX3の面積比に応じ、相手方の通信端末1のモニタ5の表示エリアX1、X2もしくはX3にそれぞれ表示される映像(上記制御パケットで特定可能)の伝送帯域を推定伝送帯域の範囲内で割り当て、割り当てられた伝送帯域内にデータが収まるよう(パケットのオーバーフローが生じないよう)、CH1符号化部12−1およびCH2符号化部12−2の量子化回路117を制御する。
なお、CH1復号化部13−1、CH2復号化部13−2で復号化された音声データは音声出力部16でアナログ音声信号に変換されてスピーカ2に出力される。必要であれば、自分方のデジタルビデオカメラ70等から入力された音声データとコンテンツデータに含まれる音声データとを合成部51−2で合成して音声出力部16に出力することもできる。
通信インターフェース13には、ネットワーク端子61が設けられており、この端子が各種ケーブルによりブロードバンドルータやADSLモデムなどと接続されることでネットワーク10と接続される。ネットワーク端子61は単数または複数設けられる。
なお、通信インターフェース13がファイアウォールやNAT機能(Network Address Translation、グローバルIPアドレスとプライベートIPアドレスの相互変換を行う)を有するルータと接続されると、SIPによる通信端末1同士の直接接続ができない問題(いわゆるNAT越え)が生じることが当業者で認識されている。通信端末1同士を直接接続して映像音声送受信の遅延を最小化するには、STUN(Simple Traversal of UDP through NATs)サーバ30を利用したSTUN技術や、UPnP(Universal Plug and Play) サーバによるNAT越え機能を通信端末1に実装することが好ましい。
制御部11は、各種のボタンやキーから構成される操作部18もしくはリモコン60からの操作入力に基づいて通信端末1内の各回路を統括制御する。制御部11は、CPUなどの演算装置で構成され、自分方表示モード通知部11a、相手方表示モード検出部11b、帯域推定部11c、表示制御部11d、符号化制御部11e、操作特定信号送信部11fの各機能を記憶媒体23に記憶されたプログラムによって実現する。
各通信端末1を一意に識別するアドレス(必ずしもグローバルIPアドレスと同義ではない)、アカウント管理サーバ8が通信端末1を認証するのに必要なパスワード、通信端末1の起動プログラムは、電源オフ状態でもデータを保持可能な不揮発性の記憶媒体23に記憶されている。ここに記憶されたプログラムは、アカウント管理サーバ8から提供されるアップデートプログラムにより最新のバージョンに更新できる。
制御部11の各種処理に必要なデータは、一時的にデータを記憶するRAMで構成されたメインメモリ36に記憶される。
通信端末1にはリモコン受光回路63が設けられており、このリモコン受光回路63にはリモコン受光部64が接続されている。リモコン受光回路63は、リモコン60からリモコン受光部64に入射した赤外線信号をデジタル信号に変換して制御部11へ出力する。制御部11は、リモコン受光回路63から入力したデジタル赤外線信号に応じて各種動作を制御する。
発光制御回路24は、制御部11の制御によって、通信端末1の外面に設けられたLED65の発光・点滅・点灯の制御を行う。発光制御回路24にはコネクタ66を介してフラッシュランプ67を接続することもでき、発光制御回路24は、フラッシュランプ67の発光・点滅・点灯の制御も行う。RTC20は内蔵時計である。
図11はCH1符号化部12−1、CH2符号化部12−2に共通する要部構成を示したブロック図である。CH1符号化部12−1・CH2符号化部12−2(まとめて符号化部12と表すこともある)は、画像入力部111、動きベクトル検出回路114、動き補償回路115、DCT116、量子化回路117、可変長符号化器(VLC)118、符号化制御部11e、静止ブロック検出部124、静止ブロック記憶部125等を備えている。この装置は、動き補償予測符号化と、DCTによる圧縮符号化を組み合わせたMPEG方式の映像符号化装置の構成を一部含んでいる。
画像入力部111は、ビデオキャプチャバッファ54や映像バッファ80に蓄積された映像(カメラ4の動画像のみ、デジタルビデオカメラ70等から入力された動画像もしくは静止画像のみ、あるいはそれらの動画像および静止画像の合成画像からなる動画像)をフレームメモリ122に入力する。
動きベクトル検出回路114は、画像入力部111から入力されたデータが表す現在のフレーム画像を、フレームメモリ122に記憶されている前のフレーム画像と比較することで、動きベクトルを検出する。この動きベクトルの検出は、入力された現在のフレーム画像を複数のマクロブロックに分割し、個々のマクロブロックを単位として、前のフレーム画像上に各々設定した探索範囲内で被探索マクロブロックを適宜動かしながら誤差演算を繰り返すことで、被探索マクロブロックに最も類似しているマクロブロック(誤差が最小となるマクロブロック)を探索範囲内から探し出し、該マクロブロックと被探索マクロブロックとのずれ量及びずれの方向を被探索マクロブロックについての動きベクトルとする。そして、各マクロブロック毎に求めた動きベクトルを各マクロブロック毎の誤差を考慮して合成することで、予測符号化における予測差分を最小とする動きベクトルを求めることができる。
動き補償回路115は、検出した動きベクトルに基づき予測用参照画像に対して動き補償を行うことで予測画像のデータを生成し、減算器123へ出力する。減算器123は、画像入力部111からから入力されたデータが表す現在のフレーム画像から、動き補償回路115から入力されたデータが表す予測画像を減算することで、予測差分を表す差分データを生成する。
減算器123にはDCT(離散コサイン変換)部116、量子化回路117、VLC118が順次接続されている。DCT116は、減算器123から入力された差分データを任意のブロック毎に直交変換して出力し、量子化回路117は、DCT116から入力された直交変換後の差分データを所定の量子化ステップで量子化してVLC118へ出力する。また、VLC118には動き補償回路115が接続されており、動き補償回路115から動きベクトルのデータも入力される。
VLC118は、直交変換・量子化を経た差分データを2次元ハフマン符号により符号化すると共に、入力された動きベクトルのデータもハフマン符号により符号化し、両者を多重化する。そして、符号化制御部11eから出力される符号化ビットレートに基づいて定められたレートで、可変長符号化動画像データを出力する。可変長符号化動画像データはパケット化部25に出力され、画像圧縮情報としてネットワーク10にパケット送出される。量子化回路117の符号量(ビットレート)は符号化制御部11eによって制御される。
VLC118の作成する符号化動画像データのデータ構造は、階層構造をなしており、下位から、ブロック層、マクロブロック層、スライス層、ピクチャ層、GOP層およびシーケンス層となっている。
ブロック層は、DCTを行う単位であるDCTブロックからなる。マクロブロック層は、複数のDCTブロックで構成される。スライス層は、ヘッダ部と、1以上のマクロブロックより構成される。ピクチャ層は、ヘッダ部と、1以上のスライス層とから構成される。ピクチャは、1画面に対応する。GOP層は、ヘッダ部と、フレーム内符号化に基づくピクチャであるIピクチャと、予測符号化に基づくピクチャであるPおよびBピクチャとから構成される。Iピクチャは、それ自身の情報のみで復号化が可能であり、PおよびBピクチャは、予測画像として前あるいは前後の画像が必要とされ、単独では復号化されない。
また、シーケンス層、GOP層、ピクチャ層、スライス層およびマクロブロック層の先頭には、それぞれ所定のビットパターンからなる識別コードが配され、識別コードに続けて、各層の符号化パラメータが格納されるヘッダ部が配される。
スライス層に含まれるマクロブロックは、複数のDCTブロックの集合であり、画面(ピクチャ)を格子状(例えば8画素×8画素)に分割したものである。スライスは、例えばこのマクロブロックを水平方向に連結してなる。画面のサイズが決まると、1画面当たりのマクロブロック数は、一意に決まる。
MPEGのフォーマットにおいては、スライス層が1つの可変長符号系列である。可変長符号系列とは、可変長符号を復号化しなければデータの境界を検出できない系列である。MPEGストリームの復号時には、スライス層のヘッダ部を検出し、可変長符号の始点と終点とを見つけ出す。
ここで、フレームメモリ122に入力された画像データが静止画のみであれば、全マクロブロックの動きベクトルは零となり、Iピクチャのみで復号化が可能となる。そうすると、B、Pピクチャを送らなくて済む。このため、ネットワーク10の伝送帯域幅が狭まっても、静止画を動画として、比較的精細に相手方の通信端末1に送ることができる。
また、フレームメモリ122に入力された画像データが静止画と動画の合成画像であっても、静止画に相当するマクロブロックの動きベクトルは零となり、その部分はスキップドマクロとしてデータを送らずに済む。
フレームメモリ122に入力された画像データが静止画のみである場合は、フレームレートを落とし、その代わりIピクチャの符号量を増やすようにしてもよい。これにより、動きのない静止画を精細に表示することができる。
自分方の通信端末1aのスイッチャ78によって静止画の入力元がWebブラウザモジュール43、デジタルビデオカメラ70、デジタルスチルカメラ71またはメディアリーダ73のいずれに切り替わっても、入力元の種類とは無関係に、静止画に相当する部分のマクロブロックが動きベクトル零となるようなフレーム動画像が相手方の通信端末1bにリアルタイムで送信される。このため、自分方の通信端末1aでスイッチャ78による静止画の入力元が不定期に切り替わっても、これに追従して、相手方の通信端末1に送信されるフレーム動画像がすみやかに切り替わり、結果的に相手方の通信端末1bで表示される静止画もすみやかに切り替わる。
図12は制御部11の機能ブロックおよびその周辺の要部ブロックを示す。上述のように、制御部11は、自分方表示モード通知部11a、相手方表示モード検出部11b、帯域推定部11c、表示制御部11d、符号化制御部11e、操作特定信号送信部11fの各機能を記憶媒体23に記憶されたプログラムによって実現する。
また、制御部11は、対象物検知部203、対象物認識部204、コマンド分析部205を備えており、これらの機能は記憶媒体23に記憶されたプログラムによって実現される。
ビデオキャプチャバッファ54の画像データは、二次バッファ200に送られ、ここからさらに制御部11に対し、画像データが供給される。二次バッファ200は、間引きバッファ201と対象物エリア抽出バッファ202を含んでいる。
間引きバッファ201は、ビデオキャプチャバッファ54からのフレーム画像を間引き、対象物検知部203に出力する。例えば、カメラ4から、1280×960画素サイズで30fps(フレーム毎秒)でビデオキャプチャバッファ54に順次フレーム画像が出力された場合は、当該フレーム画像のサイズを1/8に間引く。
対象物検知部203は、間引きバッファ201と接続されており、間引かれた画像から、特定の対象物が特定の動作を行っている画像部分の候補(動作エリア候補)を検知する。対象物とは、手のような人体の構成部分であってもよいし、特定の形状の棒のような非生物的な物体であってもよい。また、特定の動作とは、後述するが、例えば、人差し指を横に振る動作のような数フレームに渡って周期的に変化していく動的なもの、親指と人差し指で作った輪を保つ動作や、親指、人差し指、中指、薬指、小指の一部または全部を立てた状態を保つ動作など、数フレームに渡って実質的に変化しない静的なものを含む。
特定の対象物の動作を追従していくにあたり、最初に認識すべき特定の動作を、第1の予備動作という。
対象物検知部203は、動作エリア候補を検知した場合、その動作エリア候補の位置を対象物エリア抽出バッファ202に通知する。
対象物エリア抽出バッファ202は、通知された動作エリア候補の位置に相当する領域を、ビデオキャプチャバッファ54から切り出し、対象物認識部204は、その領域中で、特定の対象物が特定の動作を行っている画像部分(動作エリア)を認識する。ビデオキャプチャバッファ54から切り出された動作エリア候補は、間引かれていないため、動作エリアの認識の精度が高くなる。
例えば、図13に示すように、3人の人物のうち、特定の人物Aだけが左手人差し指を左右に振っていたとする。対象物検知部203は、人差し指を左右に振る動作を、特定の対象物の第1の予備動作として検知する。具体的には、人差し指を左右に振る動作は、概ね0.5から2秒で往復する動作であるから、対象物検知部203は、各間引き後フレーム画像の差分を取る。各フレーム間の差分は、動きのある画像領域のみになる。そして、その差分の軌跡から、左右に周期的に動いている画像領域部分をピックアップし、その部分を動作エリア候補として検知する。図13では、枠Hで囲まれた部分が動作エリア候補に相当する。この他、図示はしないが、風で周期的に揺れるカーテンなども動作エリア候補として検知される可能性があり、動作エリア候補は常に1つだけとは限らない。
図13の動作エリア候補Hの存在アドレスは、対象物検知部203から対象エリア抽出バッファ202に通知され、動作エリア候補Hの存在アドレスに相当するフレーム画像の部分から、さらに詳細に、対象物の動作を解析する。
図28は動作エリア認識処理の流れを示す。対象物認識部205は、動作エリア候補が検知されると(S1)、検知された動作エリア候補Hの存在アドレスに相当する画像領域を、対象エリア抽出バッファ202の画像から切り出し、予め記憶媒体23に記憶された人差し指の左右の振り動作(第1の予備動作)に相当する数フレーム分の基準画像のサイズと適合するよう、縮小または拡大する(正規化、S2)。そして、正規化された動作エリア候補を、白黒画像に変換したりグレースケール化したり2値化したりフィルタリングするなどして、動作エリア候補中の物体形状を単純化する(シンボライズ、S3)。
次に、図14のようにシンボライズした各動作エリア候補の物体形状と基準画像との相関を解析する(マッチング、S4)。そして、両者の相関が所定の下限閾値を超えていれば、当該動作エリア候補を人差し指の左右の振り動作に相当する動作エリアとして認識する(S5)。
以後、対象物認識部205は、対象物エリア202から供給されるフレーム画像から、認識した動作エリアを追従する(ロックオン、S6)。これにより、モーション動作モードが設定され、後述する第2の予備動作の認識処理が開始される。
ロックオンは、終了指示があるまで、または、動作エリアが何らかの原因で追従不可能となるまで継続する(S7)。ロックオンが終了しても、S1に戻り、第1の予備動作検知を待機する。
ロックオンの具体的態様としては、例えば、認識した動作エリアから、色情報などの特徴を示すパラメータ(特徴情報)を取得し、その特徴情報の存在する領域を追従していくことが挙げられる。さらに具体例を挙げると、人物が手に赤い手袋をして、人差し指を左右に振る動作を想定した場合、まず、動作エリア候補のシンボライズされた指の形状を基準画像とマッチングして、動作エリアを認識し、当該動作エリアから特徴情報である「赤色」を抽出する。そして、その後は、抽出された特徴情報を認識することで動作エリアをロックオンする。
つまり、動作エリア認識および特徴情報抽出後は、特徴情報を追従するだけで済み、手がどのような形状をとろうが関係なくなるから、処理の負荷は小さい。例えば、手の形状が「パー」や「グー」の状態になっても、赤い手袋をしている限り、赤色という色情報が追従され続ける。
このように、間引き画像からの動作エリア候補の検知、動作エリア候補からの動作エリアの認識という二段階の認識を行えば、肌色検知のような特定色の検知のみで動作エリアを認識するよりも、所望の動作エリアの検知率が高くなり、かつ、制御部11の負荷も軽減されうる。また、全てのフレーム画像について動作エリア候補の検知と動作エリアの認識を繰り返す必要がなく、制御部11の負荷が軽減される。なお、特徴情報が単純であれば、制御部11の負荷がさらに軽減される。
対象物認識部205は、ロックオンが完了すると、モーション動作モードを設定し、認識した動作エリアから、第2の予備動作入力を待機する状態に移行する。
図15では、第1の予備動作として「人差し指を左右に振る動作」が、第2の予備動作として「指で3を示す動作」、「指で2を示す動作」、「指で1を示す動作」、および「指でOKを示す動作」が示されている。記憶媒体23には、第2の予備動作の基準画像として、予めサンプリングした正規化されたサイズの手の形状モデルを登録した辞書が格納されている。
図29は、第2の予備動作の認識処理の流れを示す。まず、上記のようにして追従される動作エリアを、基準画像のサイズと合うよう正規化する(S11)。正規化された動作エリアは、フィルタリングによるノイズ低減や2値化処理が施されることでシンボライズされ(S12)、第2の予備動作の基準画像とのマッチングが容易になるようにする。
次に、シンボライズされた動作エリアと辞書の形状モデルとの相関率に基づいて両者の一致度を判定する(S13)。判定の精度を上げるためには、動作エリア候補を2値化処理する代わりに、グレースケール化して形状モデルとマッチングさせてもよい。
そして、両者の一致度が所定の下限閾値を超えていれば、第2の予備動作を認識したと判断し、第2の予備動作に応じた動作制御を開始する。後述するが、第2の予備動作に応じた動作制御とは、例えば、通信画面(図3〜10)またはテレビジョン受像画面(図26〜27)への切替などであり、いずれの画面に遷移するかは、第2の予備動作に含まれる識別番号、例えば「3」・「2」・「1」で区別される。
第2の予備動作認識後は、対象物認識部205は、ロックオンした動作エリアから、各種の制御指示動作を認識する。この指示動作は、例えば、人差し指(あるいは手首)をくるくる回す動作であり、ジョグダイアルの回転操作によるメニュー項目選択に相当する指示にできる。この動作の認識は、次のようにする。
すなわち、図16(a)に示すように、認識された特定形状における観測定点、例えば重心を決める。重心の決定の方式はよく知られたように、認識された物体形状を2次元平面と見なし、その重心を数学的に求める。次に、図16(b)に示すように、その重心の軌跡を取得する。そして、その重心の軌跡から、回転の向きが右回りか左回りか、また回転角度は何度かを判定し、その判定結果を表示制御部11dに出力する。この際、図16(c)に示すように、ループの回転中心を揃える補正を行うと、手の回転に加えて手の位置がずれてしまったような場合でも、正確に回転方向と回転角度を検知でき好ましい。
観測定点は、物体の重心に限らない。例えば認識された特定の物体が棒であれば、棒の先端を観測定点とすることもできる。
対象物認識部205は、終了動作を認識するか、一定時間、何の動作も認識しなかった場合、動作エリアのロックオンを解除し、モーション動作モードから離脱する(図28のS7)。この後、対象物検知部203は、動作エリア候補の検知を再開する。
モーション動作モードの終了指示動作は、例えば、平手を左右に振る動作(いわゆるバイバイ)である。この動作を認識するには、指の本数を厳密に数えてもよいが、手で示された指の数が2本以上であるとの形状認識をした上、概ね0.5〜2秒間での当該手の動きを追従し、当該手が往復していることを認識すれば、「バイバイ」動作がされていると認識する。
以下、通信端末1で認識される、第1の予備動作、第2の予備動作、制御指示動作および終了指示動作と、それらの動作の認識に応じたGUI(グラフィカルユーザインターフェース)の表示制御の具体的態様を示す。
図17は通信端末1、モニタ5、マイク3、カメラ4の接続を示している。カメラ4の映像データおよびマイク3の音声データおよびネットワーク10からの映像データ、音声データは、通信端末1に供給され、当該映像データおよび音声データは、必要に応じて通信端末1でデジタルデータ化とインターフェース変換を行い、モニタ5のAVデータ入力端子に入力される。
モニタ5のAVデータ入力端子は、通信端末1からのTVコントロール信号入力端子も兼ねている。通信端末1は、映像データおよび音声データのデジタルデータパケットとTVコントロール信号のデジタルデータパケットを多重化し、モニタ5のAVデータ入力端子に入力する。なお、特に映像と音声をモニタ5で再生する必要がない場合は、AVパケットデータは送られない。また、高品質映像を送る場合は、映像信号とTVコントロール信号は多重化せず、別々の信号線で送ってもよい。
図18は、通信端末1からモニタ5のAVデータ入力端子に入力されるパケットの流れを模式的に示す。図中、Vは映像信号のパケット、Aはオーディオ信号のパケット、Cはモニタ5のTVコントロール信号のパケット、Sはステータスパケットである。
図19(a)に示すように、ビデオパケットは、パケット化部25に含まれる、ビデオバッファ25−1、ビデオエンコーダ25−2、ビデオパケッタイズ部25−3により作成される。これは例えば、MPEG2やH.264のような映像をエンコードしたデジタル信号をパケット化したものである。
音声パケットは、オーディオバッファ25−4、オーディオエンコーダ25−5、オーディオパケッタイズ部25−6により作成される。これは映像と同様、音声をエンコードした信号をパケット化したものである。
また、これらのパケットには、音声・映像の同期をとるデータも埋め込まれており、音声と映像が同期してモニタ5で再生されるようになっている。
ビデオパケットとオーディオパケットの合間には、コントロールパケットが多重化されている。コントロールパケットは、コントロールコマンド出力バッファ25−7およびコントロールコマンドパケッタイズ部25−8により作成される。
送信バッファ26は、ビデオパケット、オーディオパケット、コントロールパケットを図18のように多重化してモニタ5の外部入力端子に出力する。
図19(b)に示すように、モニタ5側でパケットデータを受信すると、一旦パケット入力バッファ5−1に蓄えられ、ビデオパケット、オーディオパケット、コントロールパケットに分離し、それぞれ、ビデオデパケッタイズ部5−2、オーディオデパケッタイズ部5−5、コントロールコマンドデデパケッタイズ部5−8に入力される。
ビデオデパケッタイズ部5−2に入力されたビデオパケットは、ビデオデコーダ5−3によってデコードされてビデオ信号に変換され、ビデオバッファ5−4に格納される。
オーディオデパケッタイズ部5−5に入力されたオーディオパケットは、オーディオデコーダ5−6によってデコードされて音声信号に変換され、オーディオバッファ5−7に格納される。
ビデオバッファ5−4とオーディオバッファ5−7に格納されたビデオ信号とオーディオ信号は、適宜同期を取りながらモニタ5の表示画面およびスピーカに出力されて再生される。
コントロールパケットは、コントロールコマンドデパケッタイズ部5−8でコントロール信号に変換され、一旦コントロールコマンドバッファ5−9に格納された後、コマンド解釈部5bに出力される。
コマンド解釈部5bは、TVコントロール信号に対応する動作を解釈し、その動作をモニタの各部に指示する。
また、モニタ5側の状態(現在の受像テレビチャンネル、現在のAV信号入力先など)を示すステータス信号は、必要に応じて、ステータスコマンドバッファ5−10に蓄えられ、ステータスコマンドパケッタイズ部5−11によりパケット化され、パケット出力バッファ5−12に格納され、順次通信端末1に送出される。
通信端末1は、ステータスコマンドのパケットを受信すると、受信バッファ21に一旦格納し、ステータスコマンドデパケッタイズ部22−1でステータス信号に変換され、ステータスコマンドバッファ22−2に格納される。制御部11は、ステータスコマンドバッファ22−2に格納されたステータスコマンドを解釈することで、現在のモニタ5の状態を知ることができ、次の制御に移ることができる。
図20(a)に示すように、パケットデータは、ヘッダ部とデータ部で構成され、ヘッダ部の情報でパケットの種類やデータ長を認識し、データ部からデータ本体を切り出すことができる。図19ではモニタ5と通信端末1が一対一に接続されているが、通信端末1にはモニタ5だけでなく、他のAV機器を接続し、これらのAV機器を含めて制御する場合は、ヘッダ部に機器IDをを付与することで、対応するAV機器に向けてAVデータやコントロールデータを送ることができる。つまり、通信機器1で制御できる機器は、モニタ5に限らない。
また、コントロール信号やステータスコマンドを送受信経路は特に限定されず、LAN上に接続されたAV機器には、図20(b)に示すような、IPパケットのボディにカプセル化されたコントロール信号やステータスコマンドを、LAN経由で送出してもよい。
以下、通信端末1を介した操作の具体的例を示す。
まず、上述のようにして、対象物認識部204は、動作エリアをロックオンした後、コマンド分析部205は、ロックオンされた動作エリアから第1の予備動作を認識する。第1の予備動作は、人差し指を左右に振る動作(図15(a))であるものとする。
コマンド分析部205は、第1の予備動作を認識すると、発光制御部24に対し、フラッシュランプ67の所定時間の点滅を指示し、この指示に応じてフラッシュランプ67が所定時間点灯する。
一方、表示制御部11は、コマンド分析部205が第1の予備動作を認識したことに応じ、スタンバイ状態のモニタ5に対し、メイン電源をオンする指令をTVコントロール信号のパケットとして送信する。モニタ5は、当該パケットを受信すると、TVコントロール信号に変換して、その内容であるメイン電源をオンする指令を認識し、メイン電源をオンにする。
次に、コマンド分析部205は、ロックオンされた動作エリアから第2の予備動作を認識する。第2の予備動作は2種類かそれ以上ある。1つ目は、通信端末1同士の映像音声通信に関する操作メニューへの移行を指示する予備動作であり、2つ目は、モニタ5による、テレビ受像、あるいは各種AV機器から入力される映像音声再生に関する操作メニューへの移行を指示する予備動作である。
コマンド分析部205は、図15(c)〜(h)に示すように、指を順次立てて、通信モードを示す3桁の数字(「3」、「2」、「1」等)を示し、その後「OK」を示す動作を認識すると、これを通信端末1同士の映像音声通信に関する操作メニューへの移行を指示する意図的な第2の予備動作と解釈する。
この場合、表示制御部11dは、通信端末用操作メニュー画面(図21参照)の映像を生成し、映像の入力元を通信端末1に切り替える旨を指令するTVコントロール信号を、当該映像と多重化したパケットをモニタ5に送出する。モニタ5は当該パケットを受信するとTVコントロール信号に変換して映像入力元を通信端末1に切り替えた上、通信端末1から供給された通信端末用操作メニュー画面を表示する。なお、TVコントロール信号に依存せず、リモコン60の操作により、映像の入力元を通信端末1に切り替えることもできる。
図15には、左手による動作を示しているが、当然ながら、コマンド分析部205は、右手による動作も認識できる。ユーザの好みに合わせて、コマンド分析部205は、右手あるいは左手の動作のみを認識するような設定を受け付け、この設定に合わせて、動作エリアの基準画像を左手用あるいは右手用に切り替えてもよい。
なお、通信端末用操作メニュー画面が供給される以前には、モニタ5へのデフォルトの入力信号(テレビ放送信号など)に応じた映像と、リモコン60の手動操作に応答可能な通常のメニュー画面が表示されていてもよい。
一方、コマンド分析部205は、第2の予備動作として、所定のテレビ用操作メニュー画面指示動作を認識すると、表示制御部11dは、テレビ用操作メニュー画面(図26参照)の映像をモニタ5に指示して表示させる。第2の予備動作では、指を順次立てて、映像または音声の入力元がテレビジョン信号であることを示す3桁の数字を示し、その後「OK」を示す。例えば「2」、「5」、「1」、「OK」などで示す。
テレビ用操作メニュー画面では、テレビ画面に、モニタ5自身の生成したメニュー画面がスーパーインポーズされる。この画面制御もTVコントロール信号で指示される。
コマンド分析部205は、第2の予備動作の認識後、ロックオンされた動作エリアからメニュー選択指示動作を認識する。
図21に示す通信端末用操作メニュー画面では、「TV電話をかける」、「留守録」、「アドレス帳」、「着信履歴」、「発信履歴」、「設定」といったメニュー項目が設けられており、いずれか1つの項目を、人差し指(あるいは手首)をくるくる回す指示動作により、順次選択できる。メニュー項目の近傍には、手の動作によりメニュー項目が決定できる旨を通知する操作指示マークSを表示する。
なお、動作エリアとして認識された物体がカメラ4の画角から外れたり、当該物体の動きが非常に速かったり、当該物体が他の物体の影に隠れるなどの原因により動作エリアを追従できなくなった場合、操作指示マークSを薄くグレーアウト表示して、動作エリアを追従できなくなった旨を通知する。動作エリアを追従できなくなった時間が所定時間に達した場合、操作指示マークSを画面から消し、モーション動作モードを解除する。
ここで、コマンド分析部205が、動作エリアから右回りの回転運動の軌跡を認識すると、表示制御部11dは、上から下に向けて順次メニュー項目をハイライト表示する。あるいは、コマンド分析部205が、動作エリアから左回りの回転運動の軌跡を認識すると、表示制御部11dは、下から上に向けて順次メニュー項目をハイライト表示する。
こうすると、ユーザは、人差し指(あるいは手首)をくるくる回すことで、上から下にあるいは下から上に順次メニュー項目を選択でき、また、ハイライト表示の移動で、どの項目が選択されているのかを容易に認識できる。
選択するメニューを順次切り替えるために必要な動作指示の単位は、全1周の回転でなくてもよく、例えば、180度人差し指(あるいは手首)を移動させるごとにハイライト表示する項目が変わってもよい。また、左回りであれば上から下、右回りであれば下から上に向けて順次メニュー項目をハイライト表示してもよい。
コマンド分析部205は、「OK」を示す動作指示を認識すると、その時点でハイライト表示されているメニュー項目に対応する機能を起動する。例えば、「アドレス帳」項目がハイライト表示されているときに「OK」が認識されると、アドレス帳情報の閲覧・更新・追加・修正と、アドレス帳情報に登録された相手ごとの着信許可・着信拒否の設定を行うアドレス帳画面を表示する。
図22に示すアドレス帳画面では、手の回転動作とOKの動作により、所望の相手方連絡先を選択および決定することができる。この画面で所望の相手方が決定されると、発信画面に遷移する。
図23の発信画面では、「発信」および「戻る」の項目があり、いずれか一方を手の回転動作とOKの動作で選択できる。「発信」が選択された状態でOK動作が認識されると、アドレス帳画面で選択された相手方の通信端末1に対して接続要求を送る。
相手方の通信端末1から接続要求(着信)が許可された場合、発信操作画面に遷移する。
図24に示す発信操作画面では、相手映像と自分の映像があり、さらに、「コンテンツ」、「音量」、「切る」といったメニュー項目が表示される。この画面でも、手の回転動作とOKの動作により、所望のメニュー項目を選択および決定することができる。
ただし、会話中の身振り手振りが手の回転動作と誤認識されるおそれもあるため、ユーザがこれを回避したい場合、手を左右に振る「バイバイ」動作をすることで、動作エリアのロックオンが解除され、モーション操作モードが終了する。このとき、操作指示マークSが画面から消え、LED65が点滅し、モーション操作モードが終了したことを示す。
図24の発信操作画面で「コンテンツ」が選択され、OK動作が認識されると、図25に示すように、映像コンテンツの選択メニュー項目が現れる。この中から所望のコンテンツを、手の回転動作とOK動作で選択すると、選択されたコンテンツの表示が開始する。図25では、「コンテンツ2」の選択メニュー項目が選択されため、「コンテンツ2」が表示されている。
その他、相手方からの接続要求の受諾、受話音量の調節、交信切断の指示なども、メニュー項目化し、手の回転動作とOKの動作により選択できるようにしてもよい。
モーション操作モードが、「バイバイ」動作認識、あるいは所定時間の動作エリアの追従不能により終了した後、ユーザが再びメニュー項目を表示させたい場合、上述した第1の予備動作を行う。この場合、すでに相手方との通信状態になっているから、制御部11は、第1の予備動作を認識した場合、第2の予備動作の認識なしで即座にメニュー項目の映像供給を行うとよい。
一方、テレビ用操作メニュー画面(図26)においても、「チャンネル」、「音量」、「入力切替」、「その他」といったメニュー項目が表示される。この画面でも、手の回転動作とOKの動作により、所望のメニュー項目を選択および決定することができる。
このメニューから、「チャンネル」の選択が決定されると、テレビ画面にチャンネル選択サブメニューがスーパーインポーズされる指示が通信端末1からモニタ5に送られる(図27)。
チャンネル選択サブメニューでは、「チャンネル1」、「チャンネル2」、「チャンネル3」、「チャンネル4」といったテレビチャンネル番号を項目にしており、この画面でも、手の回転動作とOKの動作により、所望のチャンネル番号を選択および決定することができる。選択されたチャンネル番号は、TVコントロール信号として通信端末1からモニタ5に送られ、モニタ5は、このチャンネル番号に対応する選局動作を行う。
現在選択されているチャンネルを項目に反映するためには、次のようにする。まず、テレビ用操作メニュー画面で「チャンネル」が選択されると、通信端末1はモニタ5に対し「COMMAND GET CHANNEL」コマンドを発行する。このコマンドは、現在選曲されているチャンネル番号の通知を要求するコマンドである。
モニタ5は、このコマンドを受信すると、現在選局されているチャンネル番号をステータスパケットで通信端末1に返信する。例えば、「チャンネル1」が選局されていれば、「STATUS CHANNEL No.1」で応答する。
通信端末1は、モニタ5から受信したチャンネル番号をチャンネル選択メニューに反映する。例えば、「STATUS CHANNEL No.1」が通知されれば、「チャンネル1」の項目をハイライト表示するようモニタ5に指示する。この指示に応じて、モニタ5側でテレビ映像とスーパーインポーズされたメニュー項目のうち、指示された項目のみをハイライトする。
ここで手をくるくる回し、チャンネル選択を行うと、手の回転に応じてハイライトするチャンネル項目が切り替わる指示が通信端末1からモニタ5に送られ、その都度、選択されたチャンネル項目に対応する選局動作がモニタ5に表示される。上述したように、右回りの回転動作であれば、右回りの回転動作が所定角度検知されるごとに、「COMMAND CHANNEL UP」すなわちチャンネル番号が昇順に切り替わっていく指示が、通信端末1からモニタ5に送られる。あるいは、左回りの回転動作であれば、左回りの回転動作が所定角度検知されるごとに、「COMMAND CHANNEL DOWN」すなわちチャンネル番号が降順に切り替わっていく指示が、通信端末1からモニタ5に送られる。
チャンネル選局は、「OK」動作で確定することができ、「OK」動作が認識された時点でハイライト表示されている項目に対応するチャンネル番号への選局コマンドが通信端末1からモニタ5に発行され、モニタ5は、受信した選局コマンドのチャンネル番号に応じ、選局する。例えば、チャンネル8がハイライト表示されているときに「OK」動作が認識された場合、通信端末1は、「COMMAND SETCHANNEL No.8」を発行し、モニタ5は、チャンネル8の放送映像に切り替える。
そして、「バイバイ」動作が認識されるか、動作エリアの認識が所定時間不能となった場合、通信端末1は、メニュー項目の映像供給を停止する指示をモニタに送り、これによりモニタ5は、放送映像のみを表示する。再びメニュー項目を表示させたい場合、上述した第1の予備動作を行う。この場合、すでに映像信号の入力先は切り替えられているから、通信端末1は、第1の予備動作の認識に応じて即座にメニュー項目の映像供給をモニタ5に指示するとよい。
このように、メニュー項目を表示させる前に第1の予備動作あるいは第2の予備動作を要求することで、思わぬ誤動作を防ぎ、操作者の意思に忠実に従った動作を簡単に実現できる。
なお、通信端末1の機能は、モニタ5その他のテレビ本体、テレビ機能とカメラ機能を有するパソコンなどに組み込んでもよい。要するに、本発明では、映像から特定の物体の特定の動きを認識したことに応じてモーション操作モードに移行し、その後、ロックオンされた動作エリアにおいて認識された各種指示動作に応じた各種機器の動作の制御を行うことが本質的であり、これは、通信端末1以外の各種電子機器に組み込むことが可能である。
映像音声通信システムのブロック図 通信端末のブロック図 モニタ5に表示される画面の一例を示す図 全画面自分映像表示モードの概念説明図 全画面相手映像表示モードの概念説明図 PoutP画面(通常対話)表示モードの概念説明図 PoutP画面(コンテンツ対話1)表示モードの概念説明図 PoutP画面(コンテンツ対話2)表示モードの概念説明図 全画面(コンテンツ対話3)表示モードの概念説明図 表示エリアを画定するタイルの概念説明図 符号化部の詳細ブロック図 制御部周辺の詳細ブロック図 動作エリア候補の一例を示す図 シンボライズされた動作エリア候補の一例を示す図 第1の予備動作および第2の予備動作の一例を示す図 認識された特定形状の観測定点の軌跡の一例を示す図 通信端末、モニタ、マイク、カメラの接続を示す図 通信端末からモニタのAVデータ入力端子に入力されるパケットの流れを模式的に示す図 通信端末とモニタのパケット送受信に関するブロックを示す図 パケット構造を例示した図 操作メニュー画面の一例を示す図 アドレス帳画面の一例を示す図 発信操作画面の一例を示す図 PoutP画面(通常対話)におけるメニュー項目と操作指示マークの一例を示す図 PoutP画面(コンテンツ対話)におけるメニュー項目と操作指示マークの一例を示す図 テレビジョン受像画面におけるメニュー項目(メイン項目)の一例を示す図 テレビジョン受像画面におけるメニュー項目(チャンネル選択項目)の一例を示す図 動作エリア認識処理の流れを示すフローチャート 第2の予備動作認識処理の流れを示すフローチャート
符号の説明
11a:自分方表示モード通知部、11b:相手方表示モード検出部、11e:符号化制御部、11f:操作特定信号送信部、200:二次バッファ、201:間引きバッファ、202:対象物エリア抽出バッファ、203:対象物検知部、204:対象物認識部、205:コマンド分析部

Claims (24)

  1. 電子機器の制御を行う制御装置であって、
    特定の物体を被写体とした映像信号を継続的に取得する映像取得部と、
    前記映像取得部の取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される前記電子機器の制御に関する制御指示を認識する指示認識部と、
    前記制御指示を受け付ける指示モードを設定する指示モード設定部と、
    前記指示モード設定部が前記指示モードを設定したことに応じ、前記指示認識部が認識した制御指示に基づいて前記電子機器の制御を行う制御部と、
    を備える制御装置。
  2. 前記指示認識部は、前記映像取得部の取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される前記指示モードの終了指示を認識し、
    前記指示モード設定部は、前記指示認識部が前記終了指示を認識したことに応じて前記指示モードの設定を解除する請求項1に記載の制御装置。
  3. 前記指示認識部は、前記映像取得部の取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識し、
    前記指示モード設定部は、前記指示認識部が前記予備指示を認識したことに応じて前記指示モードを設定する請求項1または2に記載の制御装置。
  4. 前記指示モード設定部は、手動入力操作により前記指示モードの設定が指示されたことに応じて前記指示モードを設定する請求項1〜3のいずれかに記載の制御装置。
  5. 電子機器の制御を行う制御装置であって、
    特定の物体を被写体とした映像信号を継続的に取得する映像取得部と、
    前記映像取得部の取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示および前記電子機器の制御に関する制御指示を認識する指示認識部と、
    前記指示認識部が前記予備指示を認識したことに応じ、前記指示認識部が認識した制御指示に基づいて前記電子機器の制御を行う制御部と、
    を備え、
    前記指示認識部は、前記映像信号から前記特定の物体による予備指示を認識した領域を追従した上、前記領域から前記制御指示を認識する制御装置。
  6. 前記映像取得部の取得した映像信号を間引く間引き部をさらに備え、
    前記指示認識部は、前記間引き部によって間引かれた映像信号から前記予備指示を認識し、かつ、前記映像取得部の取得した映像信号から前記制御指示を認識する請求項5に記載の制御装置。
  7. 前記領域から特徴情報を抽出する抽出部をさらに備え、
    前記指示認識部は、前記抽出部の抽出した特徴情報に基づいて前記領域を追従する請求項5または6に記載の制御装置。
  8. 電子機器の制御を行う制御装置であって、
    特定の物体を被写体とした映像信号を継続的に取得する映像取得部と、
    前記映像取得部の取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示および前記電子機器の制御に関する制御指示を認識する指示認識部と、
    前記指示認識部が前記予備指示を認識したことに応じ、前記制御指示を受け付ける指示モードを設定する指示モード設定部と、
    前記指示モード設定部が前記指示モードを設定したことに応じ、前記制御指示に基づいて前記電子機器の制御を行う制御部と、
    を備え、
    前記指示認識部は、前記指示モード設定部が前記指示モードを設定したことに応じ、前記映像信号から前記特定の物体による予備指示を認識した領域を追従した上、前記追従した領域から前記制御指示を認識する制御装置。
  9. 前記指示認識部は、前記映像信号から前記特定の物体による第1の予備指示を認識した領域を追従した上、前記領域から前記第2の予備指示を認識し、
    前記指示モード設定部は、前記指示認識部が前記第1の予備指示および前記第2の予備指示を認識したことに応じ、前記指示モードを設定する請求項8に記載の制御装置。
  10. 前記予備指示は、前記特定の物体の形状により表象され、前記制御指示は、前記物体の動きにより表象される請求項9に記載の制御装置。
  11. 前記第1の予備指示は、指を立てた手を揺動することにより表象され、前記第2の予備指示は、手の指により輪を形成することにより表象される請求項9に記載の制御装置。
  12. 前記指示認識部は、前記映像信号から前記指示モードの終了指示を認識し、
    前記指示モード設定部は、前記指示認識部が前記終了指示を認識したことに応じて前記指示モードの設定を解除する請求項8〜11のいずれかに記載の制御装置。
  13. 前記終了指示は、前記特定の物体の画像重心、先端または外表面全体の往復移動により表象される請求項12に記載の制御装置。
  14. 前記終了指示は、複数の指を立てた手を揺動することにより表象される請求項13に記載の制御装置。
  15. 前記指示認識部は、前記特定の物体の画像重心、先端または外表面全体の回転移動方向および回転量に応じたメニュー項目の選択指示を認識する請求項1〜14のいずれかに記載の制御装置。
  16. 前記選択指示は、指を立てた手を回転することにより表象される請求項15に記載の制御装置。
  17. 前記指示認識部は、前記特定の物体の特定の形状からメニュー項目の選択確定指示を認識する1〜16のいずれかに記載の制御装置。
  18. 前記選択確定指示は、手の指により輪を形成することにより表象される請求項17に記載の制御装置。
  19. 前記指示モードの設定の状態を通知する設定通知部をさらに備える請求項1〜4、8〜14のいずれかに記載の制御装置。
  20. 電子機器の制御を行う制御方法であって、
    特定の物体を被写体とした映像信号を継続的に取得するステップと、
    取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される前記電子機器の制御に関する制御指示を認識するステップと、
    前記制御指示を受け付ける指示モードを設定するステップと、
    前記指示モードを設定したことに応じ、前記制御指示に基づいて前記電子機器の制御を行うステップと、
    を含む制御方法。
  21. 電子機器の制御を行う制御方法であって、
    特定の物体を被写体とした映像信号を継続的に取得するステップと、
    前記映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識するステップと、
    前記映像信号から前記予備指示を認識した領域を追従した上、前記領域から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される制御指示を認識するステップと、
    前記認識した制御指示に基づいて前記電子機器の制御を行うステップと、
    を含む制御方法。
  22. 電子機器の制御を行う制御方法であって、
    特定の物体を被写体とした映像信号を継続的に取得するステップと、
    取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識するステップと、
    前記予備指示を認識したことに応じ、前記制御指示を受け付ける指示モードを設定するステップと、
    前記指示モードを設定したことに応じ、前記予備指示を認識した領域を追従した上、前記追従した領域から前記電子機器の制御に関する制御指示を認識するステップと、
    前記制御指示に基づいて前記電子機器の制御を行うステップと、
    を含む制御方法。
  23. 前記指示モードの設定の状態を通知するステップをさらに含む請求項20または22に記載の制御方法。
  24. 請求項20〜23のいずれかに記載の制御方法をコンピュータに実行させるプログラム。
JP2007109675A 2007-04-18 2007-04-18 制御装置、方法およびプログラム Pending JP2008269174A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007109675A JP2008269174A (ja) 2007-04-18 2007-04-18 制御装置、方法およびプログラム
US12/104,973 US20080259031A1 (en) 2007-04-18 2008-04-17 Control apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007109675A JP2008269174A (ja) 2007-04-18 2007-04-18 制御装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2008269174A true JP2008269174A (ja) 2008-11-06

Family

ID=39871710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007109675A Pending JP2008269174A (ja) 2007-04-18 2007-04-18 制御装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US20080259031A1 (ja)
JP (1) JP2008269174A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011027397A1 (ja) * 2009-09-03 2011-03-10 株式会社 東芝 ユーザーインターフェース装置
KR20120016720A (ko) * 2010-08-17 2012-02-27 엘지전자 주식회사 디스플레이 장치 및 그의 제어 방법
JP2012058884A (ja) * 2010-09-07 2012-03-22 Sony Corp 情報処理装置、および情報処理方法
JP2014082668A (ja) * 2012-10-17 2014-05-08 Sony Corp 通信システムおよびプログラム
JPWO2012104951A1 (ja) * 2011-01-31 2014-07-03 パナソニック株式会社 情報処理装置、処理制御方法、プログラム及び記録媒体
JP2015108870A (ja) * 2013-12-03 2015-06-11 富士通株式会社 動作入力装置、動作入力プログラム及び動作入力方法
KR20160025578A (ko) * 2013-06-25 2016-03-08 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 적응적 이벤트 인식
US9398243B2 (en) 2011-01-06 2016-07-19 Samsung Electronics Co., Ltd. Display apparatus controlled by motion and motion control method thereof
US9513711B2 (en) 2011-01-06 2016-12-06 Samsung Electronics Co., Ltd. Electronic device controlled by a motion and controlling method thereof using different motions to activate voice versus motion recognition
KR101738165B1 (ko) * 2010-08-17 2017-05-19 엘지전자 주식회사 디스플레이 장치 및 그의 제어 방법
KR101740049B1 (ko) 2010-09-14 2017-05-25 엘지전자 주식회사 디스플레이 장치 및 그의 제어 방법
KR101736177B1 (ko) * 2010-09-13 2017-05-29 엘지전자 주식회사 디스플레이 장치 및 그의 제어 방법
JP2018525751A (ja) * 2015-09-28 2018-09-06 百度在線網絡技術(北京)有限公司 音声及びビデオ通話のためのインタラクティブ制御方法及び装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8683078B2 (en) * 2006-03-07 2014-03-25 Samsung Electronics Co., Ltd. Method and system for quality of service control for remote access to universal plug and play
US7773509B2 (en) * 2006-03-07 2010-08-10 Samsung Electronics Co., Ltd. Method and system for traffic control for providing quality of service in a network
KR20100033202A (ko) * 2008-09-19 2010-03-29 삼성전자주식회사 디스플레이 장치 및 상기 디스플레이 장치의 제어 방법
KR20110007806A (ko) 2009-07-17 2011-01-25 삼성전자주식회사 카메라를 이용하여 손동작을 인식하는 장치 및 방법
CN102149211A (zh) * 2010-02-04 2011-08-10 三星电子(中国)研发中心 基于动作识别的数据传输方法及设备
US20120169924A1 (en) * 2011-01-05 2012-07-05 Mediatek Inc. Video processing apparatus capable of dynamically controlling processed picture quality based on runtime memory bandwidth utilization
WO2013018267A1 (ja) * 2011-07-29 2013-02-07 パナソニック株式会社 提示制御装置、及び提示制御方法
JP5821464B2 (ja) * 2011-09-22 2015-11-24 セイコーエプソン株式会社 頭部装着型表示装置
TWI571772B (zh) * 2011-10-31 2017-02-21 財團法人資訊工業策進會 虛擬滑鼠驅動裝置及虛擬滑鼠模擬方法
US8843656B2 (en) * 2012-06-12 2014-09-23 Cisco Technology, Inc. System and method for preventing overestimation of available bandwidth in adaptive bitrate streaming clients
TW201403497A (zh) * 2012-07-09 2014-01-16 Alpha Imaging Technology Corp 電子裝置及數位顯示裝置
US9402114B2 (en) 2012-07-18 2016-07-26 Cisco Technology, Inc. System and method for providing randomization in adaptive bitrate streaming environments
US9516078B2 (en) 2012-10-26 2016-12-06 Cisco Technology, Inc. System and method for providing intelligent chunk duration
CN103517118B (zh) * 2012-12-28 2016-08-03 Tcl集团股份有限公司 一种遥控器的动作识别方法及***
WO2014125403A2 (en) * 2013-02-12 2014-08-21 Amit Kumar Jain Amit Method of video interaction using poster view
US20150378440A1 (en) * 2014-06-27 2015-12-31 Microsoft Technology Licensing, Llc Dynamically Directing Interpretation of Input Data Based on Contextual Information
US9817627B2 (en) * 2014-08-04 2017-11-14 At&T Intellectual Property I, L.P. Method and apparatus for presentation of media content

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594469A (en) * 1995-02-21 1997-01-14 Mitsubishi Electric Information Technology Center America Inc. Hand gesture machine control system
US6191773B1 (en) * 1995-04-28 2001-02-20 Matsushita Electric Industrial Co., Ltd. Interface apparatus
WO2006086508A2 (en) * 2005-02-08 2006-08-17 Oblong Industries, Inc. System and method for genture based control system
US8619865B2 (en) * 2006-02-16 2013-12-31 Vidyo, Inc. System and method for thinning of scalable video coding bit-streams

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011027397A1 (ja) * 2009-09-03 2011-03-10 株式会社 東芝 ユーザーインターフェース装置
KR20120016720A (ko) * 2010-08-17 2012-02-27 엘지전자 주식회사 디스플레이 장치 및 그의 제어 방법
KR101738165B1 (ko) * 2010-08-17 2017-05-19 엘지전자 주식회사 디스플레이 장치 및 그의 제어 방법
KR101676881B1 (ko) * 2010-08-17 2016-11-16 엘지전자 주식회사 디스플레이 장치 및 그의 제어 방법
US8842890B2 (en) 2010-09-07 2014-09-23 Sony Corporation Method and device for detecting a gesture from a user and for performing desired processing in accordance with the detected gesture
JP2012058884A (ja) * 2010-09-07 2012-03-22 Sony Corp 情報処理装置、および情報処理方法
KR101736177B1 (ko) * 2010-09-13 2017-05-29 엘지전자 주식회사 디스플레이 장치 및 그의 제어 방법
KR101740049B1 (ko) 2010-09-14 2017-05-25 엘지전자 주식회사 디스플레이 장치 및 그의 제어 방법
US9398243B2 (en) 2011-01-06 2016-07-19 Samsung Electronics Co., Ltd. Display apparatus controlled by motion and motion control method thereof
US9513711B2 (en) 2011-01-06 2016-12-06 Samsung Electronics Co., Ltd. Electronic device controlled by a motion and controlling method thereof using different motions to activate voice versus motion recognition
JPWO2012104951A1 (ja) * 2011-01-31 2014-07-03 パナソニック株式会社 情報処理装置、処理制御方法、プログラム及び記録媒体
JP2014082668A (ja) * 2012-10-17 2014-05-08 Sony Corp 通信システムおよびプログラム
US9952674B2 (en) 2012-10-17 2018-04-24 Sony Corporation Communication system, communication method and program
JP2016528604A (ja) * 2013-06-25 2016-09-15 マイクロソフト テクノロジー ライセンシング,エルエルシー 適応イベント認識
KR20160025578A (ko) * 2013-06-25 2016-03-08 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 적응적 이벤트 인식
KR102272968B1 (ko) 2013-06-25 2021-07-02 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 적응적 이벤트 인식
JP2015108870A (ja) * 2013-12-03 2015-06-11 富士通株式会社 動作入力装置、動作入力プログラム及び動作入力方法
JP2018525751A (ja) * 2015-09-28 2018-09-06 百度在線網絡技術(北京)有限公司 音声及びビデオ通話のためのインタラクティブ制御方法及び装置
US10719293B2 (en) 2015-09-28 2020-07-21 Baidu Online Network Technology (Beijing) Co., Ltd. Interactive control method and device for voice and video communications
US11487503B2 (en) 2015-09-28 2022-11-01 Baidu Online Network Technology (Beijing) Co., Ltd. Interactive control method and device for voice and video communications

Also Published As

Publication number Publication date
US20080259031A1 (en) 2008-10-23

Similar Documents

Publication Publication Date Title
JP2008269174A (ja) 制御装置、方法およびプログラム
US20070188594A1 (en) Communication system, communication terminal and communication method
JP4414345B2 (ja) ビデオストリーミング
US6646677B2 (en) Image sensing control method and apparatus, image transmission control method, apparatus, and system, and storage means storing program that implements the method
CN103222262B (zh) 用于在网络环境中跳过视频编码的***和方法
US8160129B2 (en) Image pickup apparatus and image distributing method
KR102157634B1 (ko) 영상 획득 방법 및 로컬 엔드포인트 호스트 장치
US20060192848A1 (en) Video conferencing system
US20130050518A1 (en) Information processing apparatus, information processing system, and information processing method
US20080062252A1 (en) Apparatus and method for video mixing and computer readable medium
JP2006333254A (ja) 動画像リアルタイム通信端末、動画像リアルタイム通信端末の制御方法及び動画像リアルタイム通信端末の制御プログラム
JP6179179B2 (ja) 情報処理装置、情報処理方法およびプログラム
EP1662776A1 (en) Camera having transmission function, mobile telephone device, and image data acquiring/transmitting program
CN106534211A (zh) 一种数据传输方法及电子设备
US20060256232A1 (en) Moving picture communication system
KR20120130466A (ko) 휴대단말기에서 외부장치의 데이터를 제어할 수 있는 장치 및 방법
JP6466638B2 (ja) 動き変化量に応じて撮影動画像のフレームを間引く端末、システム、プログラム及び方法
JP4799191B2 (ja) 通信端末、通信システムおよび通信方法
JP2001189932A (ja) 画像伝送システムおよび画像伝送方法
JP2002051315A (ja) データ伝送方法およびその装置、並びにデータ伝送システム
JP2007194796A (ja) 遠隔制御システム、遠隔制御通信装置、及び被制御側通信装置
JP5740969B2 (ja) Tv会議システム
US20090059015A1 (en) Information processing device and remote communicating system
KR20120073049A (ko) 휴대단말기의 카메라부 원격제어 장치 및 방법
US8890920B2 (en) Moving picture communication system