JP2003520528A - 多様式的ビデオ目標捕捉及び再指向システム及び方法 - Google Patents

多様式的ビデオ目標捕捉及び再指向システム及び方法

Info

Publication number
JP2003520528A
JP2003520528A JP2001553292A JP2001553292A JP2003520528A JP 2003520528 A JP2003520528 A JP 2003520528A JP 2001553292 A JP2001553292 A JP 2001553292A JP 2001553292 A JP2001553292 A JP 2001553292A JP 2003520528 A JP2003520528 A JP 2003520528A
Authority
JP
Japan
Prior art keywords
target
camera
inputting
sensing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001553292A
Other languages
English (en)
Inventor
エリック コヘン−ソラル
ミ−スエン リー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2003520528A publication Critical patent/JP2003520528A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】 本発明は、広くはビデオ会議システムのようなビデオカメラシステムの分野に関するもので、更に詳細には目標(5)を特徴付ける入力と、該入力に応答して目標捕捉を補助する機械分類系とを使用して目標を見つけると共に捕捉するようなビデオカメラ照準システム(100)に関するものである。幾つかの実施例においては、前記特徴付け及び分類は、身振り制御のような他の様式の1以上の入力と一緒に使用される。動作中の当該システムの一例においては、操作者(4)は物体(5)に向かって指差し身振りを行い、同時に当該話し手が指し示している該物体を識別する文を話すことができる。該文の少なくとも1つの語は、多分、当該物体(5)を識別することができるような機械が感知可能な特徴に関連している。該システムは、上記音声及び身振り入力を捕捉すると共に処理し、パン-チルト-ズームPTZビデオカメラ(2)を、上記特徴及び身振りの両方に最良に合致する物体上に焦点を合わすように再位置決めする。このように、上記PTZカメラ(2)は、当該システムが受信する入力と、そのセンサにより目標(5)を見つける当該システムの能力とに基づいて照準が合わされる。

Description

【発明の詳細な説明】
【0001】
【技術分野】
本発明は、広くはビデオ会議システムのようなビデオカメラシステムの分野に
係り、より詳細には目標を特徴付ける入力と、該入力に応答して目標捕捉を補助
する機械分類系とを用いて目標を見つけ及び捕捉するようなカメラ照準システム
に関する。
【0002】
【背景技術】
ユーザの命令に応答して目標を変更又は捕捉するビデオ照準及び追跡システム
は、急速に成長している分野である。コンピュータの速度、従って画像処理及び
音声処理の速度は、カメラを照準合わせし及び再照準合わせするための非常の便
利な機能を提供することができる程のものとなっている。例えば、ビデオ会議シ
ステムにおいては、ユーザは対象となる物体を指し示して、パン/チルト台上の
ズームが可能なカメラを位置決めすることができる。斯様な自動化されたシステ
ムは、より直感認識的であり、音声命令のような一層明示的な命令(“命令制御
”、基本的には各発音命令が例えば“左へパン”、“上”、“下”等の命令に対
応するような音声に基づくシンボルプロセッサ)、ジョイスティック制御及び連
続的な目標追跡を必要とするような従来のシステムよりも制御するのが一層容易
である。連続追跡システムは典型的には、移動する対象を、物体の画像を捕捉す
る画像検出器を備えるカメラを用いて追跡する。これらの捕捉された画像は、次
いで、上記対象を見つけ及び追跡するために処理される。画像を捕捉するために
カメラが使用され、且つ、追跡されている対象が当該カメラの視野の中心から遠
くへ離れるように移動する場合、該カメラの照準は追跡処理を継続するように調
整される。
【0003】 上記のようなカメラの制御を可能にする“知的な”技術を採用した一つのシス
テムが、“カメラに基づく身振り入力を用いた仮想現実環境を介しての三次元航
法を可能にするシステム及び方法”なる名称の1997年12月23日に出願さ
れた米国特許出願第08/996,677号に記載されており、該出願の全ては参照により
本明細書に組み込まれるものとする。この特許出願は、カメラが画像処理技術を
用いて人の被写体の輪郭を背景から区別する技術を論じている。該画像処理技術
は、被写体を背景から区別するために目標に関するメトリック(metrics)及び
他の画像処理技術を使用している。次いで、該被写体はパン/チルト/ズーム(
PTZ)カメラにより追従することができる。斯様なシステムは、目標が画面上
で相対的に中心に留まるように該目標を反復的に位置決めし、ズームし及び焦点
を合わせる。
【0004】 米国特許第5,187,574号に記載されたような他の技術は、仮想又は電子ズーム
と呼ばれるものである。1以上の固定カメラからのビデオ情報が電子的に処理さ
れて、何れかの特定のカメラの視野においては当該物体が中心に合わされていな
いかもしれないという事実とは無関係に、対象となる目標が出力ビデオ信号にお
いて所望の形で見えたままとなるようにする。抽出及び補間処理により、一般的
にPTZカメラより安価な固定カメラを介して追跡処理を達成することができる
【0005】 目標の追跡は可能であるが、これらのシステムは捕捉及び追跡されるべき目標
を見つける能力又は柔軟性に欠ける。これらシステムは、操作者が先ず対象を選
択するか、又は当該システムが検出するように予め構成されたような特性を該対
象が示さねばならないかの何れかに依存している。
【0006】 他の改善が、マサアキ・フクモト、ヤスヒト・スエナガ及びケンジ・マセによ
る“‘指差し器’画像処理による指差しインターフェース”なる論文に詳細に記
載されている。この論文において、著者は、システムの視野内に位置する操作者
に目標を指し示さすことにより、該目標に焦点を合わせるようにカメラを向ける
システムを述べている。該システムは操作者の指の画像を走査すると共に処理し
、カメラが概ねその方向に照準が合わされるように向ける。この論文は、指し示
す身振りと音声命令との組合せを使用するシステムも記載している。簡単な音声
又は身振り命令により、操作者はカメラにズームイン若しくはズームアウト又は
画面消去等の簡単な機能を実行するよう指令することができる。
【0007】 このシステムに伴う1つの明らかな問題は、操作者が目標にしようと意図しな
かった対象又は目標に対してのカメラの誤った指向から生じる。この問題の原因
は、操作者のエラー(即ち、操作者が所望の方向を正確に指し示さなかった)、
システムのエラー(即ち、当該システムが操作者の身振りを正しく解釈しなかっ
た)及び固有の曖昧さ(即ち、身振りの情報は、目標の座標を明確に規定するに
は不十分である)を含む。例えば、カメラが誤った目標に焦点を合わせるであろ
う可能性は、指し示された方向の軌道に沿って複数の物体が見つかった場合、又
は目標とされた対象の極近傍に複数の物体が存在する場合に増加するであろう。
手動でカメラを再指向させることは、時間を浪費し、斯様な自動化されたシステ
ムを有する利益を無にしてしまう。更に、物理的にカメラを再照準合わせするか
、又は音声命令によるかに拘わらず、進んだビデオシステムを操作するのは、不
経済な気の散ることである。
【0008】
【発明の開示】
本発明は、広くはビデオ会議システムのようなビデオカメラシステムの分野に
関するもので、更に詳細には目標を特徴付ける入力と、該入力に応答して目標捕
捉を補助する機械分類系とを使用して目標を見つけると共に捕捉するようなビデ
オカメラ照準システムに関するものである。幾つかの実施例においては、上記特
徴付け及び分類が、身振り制御のような他の様式の1以上の入力と一緒に使用さ
れる。
【0009】 動作中の当該システムの一例においては、操作者は対象に向かって指し示す身
振りを行い、同時に当該話し手が指し示している対象を識別する文を話すことが
できる。該文の少なくとも1つの語は、多分、当該対象を識別することができる
機械が感知可能な特徴に関連している。該システムは、上記音声及び身振り入力
を捕捉すると共に処理し、PTZビデオカメラを、上記特徴及び身振りの両方に
最良に合致する対象上に焦点を合わすように再位置決めされる。このように、上
記PTZカメラは、当該システムが受信する入力と、そのセンサにより目標を見
つける当該システムの能力とに基づいて照準が合わされる。
【0010】 この例では、システムは対象の位置に関する情報を操作者の指し示す身振りを
処理することにより入力している。また、該システムは対象に関する情報を、操
作者の音声入力を、1以上の機械が感知可能な特徴に相関させることができるシ
ンボルに変換する音声認識プロセッサにより入力する。該特徴は、当該システム
のセンサに対応する値又は値の範囲を含むベクトルとして記憶され、対象を見つ
け且つ捕捉するために使用される。この変換処理は後に詳細に説明する。
【0011】 本発明の或る実施例においては、1つの様式による情報(例えば音声命令)は
、目標を直に特徴付けるか、又は該目標を機械が感知可能な特徴と相関させるこ
とができる方法で識別することができる。次いで、該情報は意図する目標を見つ
けるために、又は該目標の発見を補助するために使用することができる。該音声
情報が通常の音声から抽出され、且つ、その情報から目標情報が得られる唯一の
チャンネルでない(例えば、身振りによっても供給される)場合、訓練の必要性
を大幅に低減させる点で明らかな利点が得られる。目標に関する情報の過度の供
給、指し示しにより示される方向、音声による特徴付け等、及び情報が自然なモ
ードの通信から抽出されるという事実により、個人は当該ビデオシステムを何の
訓練も無しに制御することができる。カメラは、操作者/話し手により直感的身
振り、音声又は他の入力により照準を合わせることができる。
【0012】 複数様式の入力の使用は、該システムが正確に照準されるのを保証する助けと
なる。複数様式入力を使用する1つの利点は、命令の全体としての曖昧さを低減
することによるシステムエラー又はヒューマンエラーの低減である。これは、元
来曖昧な命令を大量な情報の供給により補償することができるので、操作者に対
する要求を緩和することになる。当該システムは、該システムの目標の検索を改
良するために複数様式の規準の使用により、目標とされる対象を選択する。これ
ら種々の規準は、当該システムに対して、最もありそうな目標を識別すると共に
誤った目標の選択を取り除く助けとなる情報を提供する。
【0013】 或る実施例においては、ビデオカメラは、ビデオカメラ又は他のセンサの視野
内に位置する操作者の身振りを監視する。該操作者は或る物体(目標)を指し示
すことにより、発見処理を起動する。該指し示す身振りは、指を目標に向けて伸
ばし、手を該目標とされる対象の方向に移動させ、又は当該システムが指し示し
軌道を確立すべく感知することが可能な何らかの他の信号からなることができる
。上記の指し示す身振りは、1つの入力として作用することができると共に、当
該起動イベント(事象)と略同時的である他の様式の入力の収集及び解読をする
処理を開始する起動イベントとして作用することもできる。
【0014】 この実施例における上記起動は、目標とされる物体への操作者の指し示す身振
りとすることができる。他の例として、該起動は、操作者により話される起動語
又は句(例えば、“…に注意を払ってください”)、又は遠隔制御器上の釦の押
下又は指鳴らし等の何れかの可能性のある起動行為であり得る。
【0015】 この特別な実施例においては、操作者が発見処理を起動するのと略同時に、当
該システムは該操作者の音声命令を捕捉し及び解析する。これら音声命令又は音
声入力は、第2の様式の入力ための基礎を提供し得る。起動イベントの前に発生
した音声も、該音声をバッファすると共に起動イベントが発生した前及び後の沈
黙により括られた部分のみを処理することにより捕捉することができることに注
意されたい。他の例として、音声は常に小さなシンボルに変換し、同時性を決定
するために結果としてのシンボルに時間タグを付すこともできる。シンボルは、
テキスト又は限られた組の発声語に関連されたトークンである場合、起動イベン
トと略同時に発生する音声に関連する機械が感知可能な特徴と相関をとるために
使用される。
【0016】 音声入力は、音声認識演算器の使用により、処理されて、目標を見つけ及び識
別するのを補助するための第2の規準を確立する。音声入力は、目標とされる物
体の一般名称(樽)、該物体の色(オレンジ又は透明)、該物体の布目/材料(
光っている)、該物体からの雑音(ポンポンという雑音)、該物体の形状(卵形
、高アスペクト比)、該物体の動き(弾んでいる、這っている、振動している)
、該物体の大きさ(大きい、約3フィート幅)、該物体の温度(熱い)又は当該
システムがそのセンサを介して識別することができる該物体の何れかの他の特徴
(点滅光)のような該目標とされる物体を記述する1つ又は多数の語を有するこ
とができる。これらセンサは、温度を測定する赤外線センサ及び音を突き止める
音源ロケータ等の異なる多数のセンサ及び/又はセンサの組合せを含むことがで
きる。
【0017】 音声入力の、目標対象を見つけるのを補助する規準への変換は、異なる方法で
達成することができる。1つの可能性のある方法は、音声入力を、当該システム
がそのセンサにより一群の可能性のある目標から正しい目標を探し及び識別する
ことができるような目標ベクトルに変換することである。該変換は音声分類子を
介してのものとすることができ、該音声分類子は、入力における異なる音を分類
すると共に、それらを目標ベクトル又はテンプレートの形態の目標の特徴に関連
付け、これら目標ベクトル又はテンプレートと現情景内の物体とを比較して一致
が見つかるかを決定することができる。例えば、“オレンジ”なる語は目標ベク
トルに変換することができる。これを実行するために、音声入力をテキストに変
換する必要はない。何故なら、それは1つの型式の分類子であるからである。所
要の最終結果は、画像と比較して目標と現画像との間の合致の推定を得ることが
できるような機械が感知可能なパラメータの1以上のベクトルである。他の例に
関しては、“熱い”なる語を含む音声は、赤外線カメラ又は熱センサと共に使用
する目標ベクトルと相関をとることができる。複数のセンサ的入力を組合せで使
用して、温度、色、形状(処理された画像における形状輪郭のモーメント)、音
等を伴うパラメータを含む目標ベクトルを形成することができる。
【0018】 語と目標の特徴との間の関連はルックアップテーブルに記録することができ、
該ルックアップテーブルは語を比較規準に関連付ける。例えば、“赤いテーブル
上の眠っている猫に注意を払って下さい”なる句は、当該システムに“眠ってい
る”、“猫”、“上に”、“赤い”及び“テーブル”なる語を解析させる。他の
語は、単純に、上記ルックアップテーブルに含まれない。“見つかった”語は、
次いで、検索規準に変換され、該規準は、これら規準に合致する目標を突き止め
及び目標を識別するのを補助する。
【0019】 上記文の語の関係語(例えば、“上の”及び副詞、形容詞等の他の語)として
の識別は、処理の間に考察することができ、選択された目標の比較がなされる規
準を決定する場合の因数となる。文章構造の解析は、目標ベクトルが確立される
ような、或る語(例えば、直接目的語)に高い又は排他的な優先権を付与するた
めに使用することができる。他の文法的構文解析は、文章内の、直接目的語を描
写する形容詞のような他の重要な鍵となる語を識別するために使用することがで
きる。
【0020】 該変換方法は、当該システムのルックアップテーブル内で識別された全ての語
を解析し、当該文章の文法的構造に無関係に検索規準又は目標ベクトルを確立す
ることができる。この変換方法は、機械が感知可能でない及び他の無関係な語を
フィルタ除去するであろう。何故なら、それら語に関連する特徴ベクトルは画像
分類子に決して整合しないからである。前述した方法よりは簡単であるが、文章
構造に基づいては関連のある規準と関連のない規準との間の区別ができないこと
から、誤った識別となる可能性が高い。例えば、上述した例においては、当該シ
ステムは操作者が“テーブル”又は“猫”のどちらの対象に焦点を合わせようと
したかを判定することはできない。
【0021】 好ましくは、前記入力は、起動イベント直前又は直後の入力を区別することが
できるようにバッファされるようにする。当該システムは、起動イベントよりか
なり前及び後に発生する入力を捕捉するためのバッファを有することができる。
従って、例えば、操作者が“絵に見られるように”と言い、次いで起動として解
釈されるような指し示す身振りをした場合、上記バッファは全ての関連する音声
を依然として捕捉する。
【0022】 システムが目標を捕捉した後、操作者はシステムに対して、その決定を肯定又
は否定することによりフィードバックすることができる。該システムは選択され
た対象を、画面上の物体の画像の強調、警報音の発生又は単に当該物体をズーム
インしてモニタ上に画像を表示することを含む、種々の方法で識別することがで
きる。目標が正しくない場合、操作者は追加の入力を供給して、当該システムが
他の選択をするのを補助することができる。斯様な追加の入力は、“右へ”、“
その靴ではない”、“いいえ、もっと大きな物体”等の如き命令を含むことがで
きる。上記追加の入力は、当該システムに指令するジョイスティックからの信号
又は追加の指し示す身振りのような非音声入力を含むこともできる。
【0023】 この実施例においては、システムが対象を正しく識別した後、該システムは、
カメラを話し手に再指向させるか又は異なる目標に再指向させるための音声又は
他の入力の何れかによる他の信号を受信するまで、該対象を追跡することができ
る。
【0024】 目標を識別する処理は、変更するか及び/又は改良することができる。上述し
た実施例では、カメラは目標対象を最も含みそうな領域に即座に焦点を合わせる
。他の実施例においては、カメラは操作者の直ぐ近傍の領域を走査し、入力に基
づく十分な整合がなされるまで、指し示す方向に外側に進むことができる。また
、当該システムは大体の指し示す方向における最も近い物体又は目標を見つけ、
操作者に対する種々の物体の近さに基づいて満足のゆく整合がなされるまで、次
の最も近い物体又は目標に進むことができる。更に他の実施例においては、当該
システムは、大体の指し示す方向における各物体を解析し、各目標を前記入力に
より確立された規準と比較して、各目標が意図する目標である尤度に基づき数値
を算出することもできる。該システムは、次いで、上記目標を最もありそうな合
致から最もなさそうな合致まで選択し及び表示することができる。
【0025】 他の実施例において、当該システムは、起動イベントに先立ち、部屋内に位置
する全ての物体及び可能性のある目標を含む当該部屋全体を連続して走査するこ
とができる。可能性のある目標は、当該システムの最後の使用からの情景の変化
、物体のカメラに対する近さ、情景内における物体のアスペクト比及び色フィー
ルドの一様さ等を含む種々の規準に基づいて識別することができる。起動イベン
ト前の当該部屋並びに目標の位置及び特徴に関する情報を記憶することにより、
該システムは起動イベント及び入力が受信された後に一層迅速に目標を捕捉する
ことができる。
【0026】 更新可能なルックアップテーブルの追加は、当該システムが学習し及び改善す
る基礎を提供することができる。使用を介して、当該システムは入力を特定の特
徴に関連付けることにより学習することができる。特定の学習された語の特定の
目標ベクトルとの関連付け及び追加を介してルックアップテーブル(辞書)を改
良及び拡張することにより、該システムは正しい対象を選択する能力を改善する
ことができる。例えば、当該システムは、目標を未だ未知の語“ふじ色”と比較
することにより、最終的に該語“ふじ色”と色空間内の特定の範囲を有する物体
との間の関連を確立することができる。この学習処理は、当該システムの実際の
使用を介して、製造者により果たされる初期プログラミング処理の間、より大き
な又はより一層改良されたルックアップテーブルを持つ他のシステムから情報を
ダウンロードすることにより、又はネットワーク経由で他のシステムとデータを
共有して種々のシステムの学習経験を合成するような多数の他の方法により、実
施することができる。
【0027】 本システムは、非目標の特徴を学習することもできる。例えば、該システムは
目標が通常は当該部屋内の特定の領域に位置することを学習することができる。
該システムは、個々の操作者の照準あわせする所作を学習することもできる。例
えば、当該システムは特定の個人が腕を物体に向かって完全に伸ばすことにより
該物体を目標にすることを学習することができ、従って不注意な身振りのような
誤った信号を無視することができる。
【0028】 更に他の実施例においては、当該システムは、各セクタを可能性のある入力と
して、当該部屋の異なる領域を異なるセクタに関連付けることができる。例えば
、操作者は、“システム、セクタ4の椅子に焦点を合わせよ”又は“テーブルセ
クタの生け花を見つけよ”と言うことができる。前者の例においては、当該シス
テムはカメラをセクタ4に指向させ、該セクタ4における椅子を見つけ照準を合
わせる。
【0029】 以下、本発明を、添付図面を参照して幾つかの好ましい実施例に関し、該発明
が一層完全に理解されるように説明する。
【0030】 図面に関しては、図示された詳細は例示的なもので、本発明の好ましい実施例
の解説の目的のためのみのものであり、本発明の原理及び思想的側面の最も有効
且つ容易に理解されると考えられるものを提供するために提示されたものである
ことを強調しておく。この点に関し、本発明の構造的細部は、本発明の基本的理
解に必要とされるよりも詳細に示そうとは試みられておらず、図面を参照しての
説明は、当業者に対して本発明の幾つかの形態がどの様に実際に具現化されるか
を明らかにしている。
【0031】
【発明を実施するための最良の形態】
図1Aを参照すると、本発明の一実施例によれば、追跡ビデオシステムは話し
手4により自動的に制御される。主題カメラ1(及び、指差し軌道の識別、主題
の捕捉及び照準合わせに使用される技術に依存して、多分他の主題カメラ44)
及び目標カメラ2は、話し手4及び目標物体5に各々照準が合わされている。現
実施例においては、話し手4の身振り及び音声が、対象となる目標に照準を合わ
せるよう目標カメラ2を制御するために使用される。目標カメラ2は旋回基台2
4上に装着され、該基台はパンニング、チルティング及び他の動きを可能にする
。該目標カメラにはズームレンズ25も備えられている。該ズームレンズ25及
び上記旋回基台24の両者は、プロセッサ3の制御の下にある。
【0032】 上記プロセッサは、話し手4の身振り及び音声に関する入力を、主題カメラ1
からのビデオ信号及び音センサ8を各々介して受信する。該プロセッサは、話し
手4の音声を分類して、目標カメラ2が照準合わせされるべき意図する目標に関
する情報を得る。目標に関する後者の情報は、該目標の機械が感知可能な特徴と
相関させることができるようなデータである。機械が感知可能な特徴の1つの集
合は、目標カメラ2から得られる該目標のビデオ画像である。機械が感知可能な
特徴の他の集合は、プロセッサ3による意図する目標の識別を補助するために使
用することもできる。例えば、赤外線センサ6を使用することができる。
【0033】 主題カメラ1は操作者4の身振りを捕捉し、目標カメラ2は目標5の画像を捕
捉して、モニタ9上に表示すると共に通信チャンネル29に伝送する。該ビデオ
データ及び通信チャンネル29の最終的宛先は、放送送信機、1以上のビデオ出
力装置とのネットワーク接続又は種々の異なる宛先の何れかであり得る。
【0034】 プロセッサ3は主題カメラ1からの画像に画像処理を施す。話し手4の画像及
び前記音声入力から、プロセッサ3は、目標カメラ2を再指向させようとの当該
話し手の望みを示すであろう多数のイベントの何れかを識別する。例えば、起動
イベントは身振り又は一連の語であり得る。新たな目標の位置に関する情報も提
供する1つの起動イベントは、指し示す身振りである。
【0035】 起動イベントと同時に、プロセッサ3は該プロセッサのセンサ1、2、6及び
8の全てから入力される情報を解析し、該情報を分類して当該目標の位置を識別
しようと試みる。プロセッサ3は、コントローラ7を介して、目標カメラ2を該
新たな目標に向かって指向させる。
【0036】 図1Bを参照すると、音声は最初に音声トランスジューサ又はマイクロフォン
19により拾われる。該音声はメモリ又は他の適切な装置18にバッファされる
。該音声は、分類プロセッサ17において、起動イベント(例えば、“…に注意
を払って下さい”なる言葉)及び記述子(例えば、“赤”なる色、“丸い”又は
“樽”)のような種々の異なる類に分類される。上記記述子は、プロセッサ47
において目標ベクトルとしてまとめられ、制御プロセッサ10に伝送することが
できる。特定の分類結果は、自動的に制御プロセッサ10に直接伝送することも
できる。例えば、データ120が起動イベントを含み、該イベントは上記制御プ
ロセッサに、当該起動イベントの受信に際して該起動イベントの受信と殆ど同時
に送信される目標記述ベクトル118を取り込むようにさせる。目標ベクトルは
、起動イベントが入力端121において受信された場合にのみ目標ベクトルプロ
セッサ47により組み立てられ、かくして、データストリーム118は起動イベ
ント指示子が121において受信された場合にのみ1以上の目標ベクトルを含む
ことに注意すべきである。
【0037】 目標ベクトルプロセッサ47においては、分類のストリームが受信され、バッ
ファされる。これらの分類は、種々の記述子、起動イベント等を識別する。分類
指示子は、同時に発生するものを示すために、mod-2態様又はmod-3態様で連番を
振ることができる。一連の分類の同時的発生は、文章を括ると仮定される2つの
休止の間に発生された分類で以って識別することができる。他の例として、それ
らは起動イベントの何れかの側における特定の時間範囲内に発生する分類の系列
とすることもできる。後者の場合、分類の多くが、起動イベントを囲む期間の外
側に位置するため連続番号が欠落する場合がある。更に他の例は、文章構造を語
認識及び分類の文法的レベルにより文法的に解析することである。この場合、同
一の文章に入る記述子は、同一の連番を有するであろう。上記処理を、下記の例
示的イベントの系列に関して明確にする。
【0038】 制御プロセッサ10は種々の入力を受信する。音源を正確に指し示すマイクロ
フォンのアレイであり得るような音源トランスジューサ49は、音源プロセッサ
16に信号を供給し、該音源プロセッサは位置ベクトル102を制御プロセッサ
10に供給する。目標が音を発する場合は、この情報は該目標を上記ソースベク
トル102に基づいて該目標を突き止めるのに使用することができる。
【0039】 押しボタン15は補助信号を供給することができ、例えば該補助信号は目標カ
メラ2を新たな目標に照準合わせさせるという話し手の要望を示すための起動イ
ベントであり得る。該押しボタンの起動イベントの効果は、音声起動イベントに
関するものと同一であり得る。
【0040】 当該追跡システムは、プロセッサ10が如何にして起動イベント、指し示す軌
道、目標画像、音声及び他の音等を識別することができるかを示す多数の機能的
構成要素を有している。プロセッサ10は、話し手カメラ1及び目標カメラ2と
、主題ビデオ63及び主題画像分類53、並びに目標ビデオ61及び目標画像分
類51を各々介して通信する。話し手カメラ1は操作者の画像/身振りを捕捉す
るために使用され、目標カメラ2は目標の画像を捕捉するために使用される。プ
ロセッサ10は、該プロセッサのセンサにより受信される入力に基づいて目標カ
メラ2を照準合わせ又は位置決めする。この特別な実施例において、これらセン
サは、操作者の身振りを捕捉する話し手カメラ1;可能性のある目標の視覚的特
徴を受信する目標カメラ2;及び例えば人からの体温等の熱源を突き止めると共
に可能性のある目標の温度を決定する赤外線センサ14を含んでいる。当該シス
テムは、目標の位置に関する情報、操作者からの肯定的又は否定的なフィードバ
ック又は起動信号のような当該操作者からの命令を受信する押しボタン15付き
のジョイスティック;音を発する物体を突き止める音源位置センサ16及び49
;並びに音声入力を受信し且つ処理する音声/分類プロセッサ17、バッファ1
8及び音声トランスジューサ19の組合せも含んでいる。
【0041】 図2を参照すると、ストーリーボード342は、当該ビデオ追跡システム、即
ち点滅光322を有するコンピュータ321を制御する話し手を表す人の図形3
20を含む情景を図示している。フレームA、B、C、D、E及びFは時間の断
片を表している。フレームAにおいて、話し手は音声フレームA’に示す言葉を
話している。フレームBで話される言葉はフレームB’により示され、フレーム
Cの間に話される言葉はフレームC’に示され、等々である。フレームA及びB
に対応する期間に、該話し手は関係物体、即ちコンピュータ321、に関する幾
つかの注釈を行う。次いで、フレームCにおいて、当該話し手は、本発明のビデ
オ追跡システムの音声処理系により認識される言葉を話す。該認識系は、該言葉
を、輪360により示す起動イベントとして分類する。フレームDの時点におい
ては、輪365により示すように“赤”なる語が認識される。また、フレームD
の時点においては、当該操作者の身振りが指し示す身振りとして認識され、他の
起動イベント366を発生する。フレームDの時点において、当該画像は関係物
体を捕捉するのに使用することができる指差し軌道を導出する情報も含んでいる
。フレームEの時点において、輪370により示されるように、“コンピュータ
”なる語が認識される。フレームFの時点においては、輪375により示される
ように、“点滅光”なる語が認識される。かなりの期間がオーディオバッファ3
40により捕らえられ、話された単一の文章A’ないしF’の前後の休止で、構
文解析が開始及び終了する。
【0042】 この特別な実施例は2つのカメラからなるが、同様の結果は両機能を果たすこ
とが可能な1つのカメラでも達成することができる。該1つのカメラは、操作者
上への合焦及び意図する目標上への合焦の間を交互になすことにより、例えば指
し示す身振りのような当該操作者からの入力を受信すること及び表示のために目
標を捕捉することの両方を行うことができる。2つの目標の間の切り換えは、音
声命令により、又は当該システムが感知することが可能な他の信号により起動す
ることができる。
【0043】 次に、本発明の一実施例を示す図3を参照すると、当該システムは、話し手に
よる指差し身振りにより目標捕捉処理が起動される(A−3)まで、該話し手を
枠に収めると共に追跡する(A−1)。他の例では、上記処理は、音声命令、非
指差し身振り及び指鳴らし等によるような他の方法によっても起動することがで
きる。目標を指し示すことにより、当該システムは話し手の指差し軌道を捕捉す
ると共に、上記指差し軌道及び所定の近さの最も近い物体に基づいて目標を最も
含みそうな領域を検索することにより、意図する目標を検索する。該システムは
、選択された上記領域における目標を選択する(A−5)と共に、満足のゆく一
致が見つかるまで、該目標の特性を前記入力に基づいて確立された規準と比較す
る(A−6)。当該システムが、元の検索領域において満足のゆく一致を見つけ
ることができない場合、該システムは他の周囲の領域に位置する目標を検索する
ことができる(A−10、A−11)。
【0044】 この実施例の他の特徴は、話し手のフィードバックの使用を含んでいる。例え
ば、誤った目標が選択された場合、話し手は当該システムと通信して否定的な応
答を発することができ(A−8)、該システムは、これを他の物体を選択する命
令と解釈する(A−5)。話し手による否定的な応答は、“その物体ではない”
等の音声命令、指鳴らし、釦の押下、等々のような種々の形態をとることができ
る。当該システムが正しい目標を捕捉した後、該システムは新たな目標選択する
ための話し手からの入力を傾聴するか、カメラの照準を話し手に戻す(A−1、
A−9)。
【0045】 次に、図3の実施例と類似した他の実施例を示す図4を参照すると、該システ
ムは話し手による音声入力により起動される(B−2)。該話し手の身振り及び
追加の音声入力が該システムによる捕捉される(B―4)。該システムは、可能
性のある目標に関して当該話し手の極近傍の領域を走査し(B−4)、目標を検
索規準と比較し(B−5)、十分な一致が見つかるまで指差し軌道において外側
に向かって漸進的に検索を行う(B−10)。
【0046】 次に、図5を参照すると、本発明の他の実施例において、システムは話し手を
枠に収め、追跡する(C−1)。また、該システムは周囲の領域を走査し、可能
性のある目標の機械が感知可能な特性に関する情報、及びこれら可能性のある目
標の位置を記憶する(C−2)。可能性のある目標の発見は、目標が小さなアス
ペクト比を有する、前景における物体、目標が特定の色、パターン等を有するな
どの多数の異なる検索規準に基づくものとすることができる。話し手が目標合わ
せ処理を起動した後(C−3)、当該システムは意図する目標を記述する入力を
受信し、これら入力に基づいて最も意図された目標でありそうな目標を強調する
(C−4)。上記入力は、好ましくは当該目標の分類に関する少なくとも1つの
入力を含むと共に、好ましくは該目標の大体の位置に関する入力を含むものとす
る。この実施例はフィードバック機能を含み、該フィードバック機能は現選択が
誤っている場合に当該システムが最もありそうな目標を表示するのを可能にする
【0047】 次に、音声入力変換処理の一例の基本フローチャートを示す図6を参照すると
、“緑”及び“木”なる音声入力(D−1、D−2)が音声認識プロセッサによ
り受信される(D−3)。これらの入力(D−1、D−2)は、好ましくは、ル
ックアップテーブル(D−4)と一緒に使用するための機械が読取可能な値/信
号に変換される。該ルックアップテーブルは、上記入力を、意図する目標を見つ
けるために当該システム及び該システムのセンサにより使用するための目標ベク
トルに変換する(D−5)。該ベクトルは、例えばビデオカメラ等の画像センサ
と共に使用するための、緑に対するRGBエンベロープ並びに木の分類に関する
形状値及びテクスチャ値を含むことができる。上記ルックアップテーブルは異な
る入力に対応させ、これらを、目標を突き止めるために対応する目標ベクトルに
関連付ける。
【0048】 図7及び8を参照すると、事前起動発見処理の2つの代替実施例において、当
該システムは部屋を走査して可能性のある目標を突き止め、これらの可能性のあ
る目標の機械が感知可能な特徴を記憶する(E−1、E−2、F−1、F−2)
。当該システムは、1つ又は複数のカメラによるエッジフィルタ処理により物体
の形状、寸法及びテクスチャを決定し、該情報から当該物体が可能性のある目標
であるかを決定することにより、可能性のある目標を突き止めると共に識別する
ことができる。更に、該システムは、その色に基づいて、それが音を発するかに
基づいて、又は当該部屋の記録されたメモリに基づき物体が該部屋内に最近配置
された物体であるかに基づいて目標を選択することができる。
【0049】 第1実施例(図7)においては、操作者が発見処理を起動した後、当該システ
ムは音声入力を受信し、該入力を目標を突き止めるために使用される目標ベクト
ルに変換する(E−3、E−4、E−5)。第2実施例(図8)においては、あ
りそうな目標は、処理された音声入力が比較されるフォーマットに変換される(
F−3)。例えば、可能性のある目標は、例えば本等の、それらの通常に認識さ
れる語に変換され、これらの語に基づいて入力と比較することができる。
【0050】 図9を参照すると、本システムが、その能力を意図する目標を正確に見つける
ように改善する多数の異なる学習処理が存在する。例えば、該システムは認識し
ない入力を識別することができる(G−2)。この場合、本システムが以前にも
斯かる入力を受信したことがあるかを判定し、もしそうなら、この入力に関連す
る目標の特徴を比較する。この入力を、この入力に関連する以前の正しく識別さ
れた目標の機械が感知可能な特徴と比較することにより、該システムは目標間の
類似性を識別して、そのルックアップテーブルにベクトル及び関連する語を追加
する予測エンジンを生じさせることができる。ルックアップテーブルへの新たな
語の追加は、意図する目標を正しく識別する能力を改善することができる。
【0051】 ルックアップテーブルへの語の追加は、インターネットを介して又は他のプロ
グラミングオプションを介して、新たな語及び対応する検索ベクトルをダウンロ
ードすることによりなすこともできる。
【0052】 当業者にとっては、本発明が上述した例示的実施例の細部に限定されるもので
はなく、本発明はその趣旨又は本質的な属性から逸脱することなく他の特定の形
態でも実施化することができることは明らかである。従って、上記実施例は全て
の点において例示的なものであって限定的なものではないと見なされるべきであ
り、本発明の範囲は上記説明によってではなく添付請求項により示されるもので
あり、従って、これら請求項の意味及び等価の範囲内に入る全ての変更が請求項
に含まれることを意図するものである。
【図面の簡単な説明】
【図1A】 図1Aは、本発明の一実施例による2カメラシステムを示す説明図である。
【図1B】 図1Bは、本発明の一実施例のブロック図である。
【図2】 図2は、時間的前後関係における音声及び身振りの処理を示す説明図である。
【図3】 図3は、本発明の他の実施例のフローチャートである。
【図4】 図4は、本発明の更に他の実施例のフローチャートである。
【図5】 図5は、本発明の更に他の実施例のフローチャートである。
【図6】 図6は、音声入力を検索目標ベクトルに変換する処理のフローチャートである
【図7】 図7は、可能性のある目標を見つけ及び比較する他の処理のフローチャートで
ある。
【図8】 図8は、可能性のある目標を見つけ及び比較する更に他の処理のフローチャー
トである。
【図9】 図9は、本発明の一実施例による学習処理のフローチャートである。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 リー ミ−スエン オランダ国 5656 アーアー アインドー フェン プロフ ホルストラーン 6 Fターム(参考) 5B057 BA02 CA12 CA16 DA11 DB02 DC36 5C022 AA12 AB63 AC27 AC69 AC72 5C054 AA02 CF05 CG02 CH01 DA09 EA01 EA03 EA05 ED07 EF06 FC12 FC13 FF02 HA25 HA31 5C064 AA02 AB04 AC04 AC09 AC16 AC17 AD06 5L096 BA02 CA02 FA00 HA05 JA11 【要約の続き】 システムの能力とに基づいて照準が合わされる。

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 目標を見つけ該目標の画像を表示する方法において、 操作者により発生された起動イベントを感知するステップと、 目標の少なくとも機械が感知可能な特徴を特徴付けるような情報を入力するス
    テップであって、該入力するステップが前記感知するステップと略同時に発生す
    るようなステップと、 前記感知するステップ及び/又は前記入力するステップの結果に応答してカメ
    ラを照準合わせするステップと、 を有していることを特徴とする方法。
  2. 【請求項2】 請求項1に記載の方法において、前記感知するステップが目
    標を指し示す操作者の身振りを感知するステップを含んでいることを特徴とする
    方法。
  3. 【請求項3】 請求項2に記載の方法において、前記感知するステップが方
    向を指し示す身振りを感知するステップを含んでいることを特徴とする方法。
  4. 【請求項4】 請求項1、2又は3に記載の方法において、前記感知するス
    テップが、前記操作者から前記目標への方向を指し示す身振りを感知するステッ
    プを含んでいることを特徴とする方法。
  5. 【請求項5】 請求項1、2、3又は4に記載の方法において、前記入力す
    るステップが前記操作者から音声を入力するステップを含んでいることを特徴と
    する方法。
  6. 【請求項6】 請求項5に記載の方法において、少なくとも1つの機械セン
    サと一緒に使用するために前記音声を処理するステップを更に含み、前記少なく
    とも1つの機械センサ及び前記音声が前記目標を見つける助けとなることを特徴
    とする方法。
  7. 【請求項7】 請求項6に記載の方法において、前記処理するステップが、
    前記音声を前記少なくとも1つのセンサと共に使用する検索規準に対応させるル
    ックアップテーブルを介して、前記音声の情報を処理するステップを含んでいる
    ことを特徴とする方法。
  8. 【請求項8】 請求項7に記載の方法において、前記ルックアップテーブル
    が修正可能であることを特徴とする方法。
  9. 【請求項9】 請求項8に記載の方法において、前記ルックアップテーブル
    はオンライン全世界的コンピュータネットワークを介して情報を受信することに
    より修正されることを特徴とする方法。
  10. 【請求項10】 請求項8又は請求項9に記載の方法において、前記ルック
    アップテーブルは追加の音声入力及び対応する検索規準を含むように修正され、
    前記追加された音声入力及び前記対応する検索規準は、前記追加された音声入力
    の、前記音声入力と関連する少なくとも1つの正しく識別された目標の少なくと
    も1つの機械が感知可能な特徴との以前の関連を比較することにより確立され、
    前記機械が感知可能な特徴は前記対応する検索規準を決定する基礎であることを
    特徴とする方法。
  11. 【請求項11】 目標を見つけ該目標の画像を表示する方法において、 少なくとも1つのセンサの範囲内の領域を走査するステップと、 可能性のある目標を識別するステップと、 前記可能性のある目標の機械が感知可能な特徴及び位置に関する情報を記憶す
    るステップと、 操作者により発生される起動イベントを感知するステップと、 前記目標の少なくとも1つの特徴を特徴付けるような情報を入力するステップ
    であって、該入力するステップが前記感知するステップと略同時に発生するよう
    なステップと、 前記感知するステップ、前記記憶するステップ及び/又は前記入力するステッ
    プの結果に応答してカメラを照準合わせするステップと、 を有していることを特徴とする方法。
  12. 【請求項12】 カメラを目標に照準合わせする方法において、 目標の位置の指示を入力するステップと、 前記目標の機械が感知可能な特徴に関する他の情報を入力するステップと、 前記指示に応答してカメラを前記目標に照準合わせするステップであって、該
    照準合わせにおけるエラーを低減するために前記他の情報を使用するステップと
    、 を有していることを特徴とする方法。
  13. 【請求項13】 目標を捕捉する方法において、 目標の位置を指示する空間情報を入力するステップと、 前記目標に関する他の情報を入力するステップと、 前記目標を捕捉するために前記空間情報に応答して前記目標に対し器具を配向
    するステップであって、前記位置の曖昧さを低減するために前記他の情報を使用
    するステップと、 を有していることを特徴とする方法。
  14. 【請求項14】 請求項13に記載の方法において、前記配向するステップ
    がカメラを配向するステップを含んでいることを特徴とする方法。
JP2001553292A 2000-01-20 2001-01-08 多様式的ビデオ目標捕捉及び再指向システム及び方法 Pending JP2003520528A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/488,028 2000-01-20
US09/488,028 US7028269B1 (en) 2000-01-20 2000-01-20 Multi-modal video target acquisition and re-direction system and method
PCT/EP2001/000120 WO2001054399A2 (en) 2000-01-20 2001-01-08 Multi-modal video target acquisition and re-direction system and method

Publications (1)

Publication Number Publication Date
JP2003520528A true JP2003520528A (ja) 2003-07-02

Family

ID=23938052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001553292A Pending JP2003520528A (ja) 2000-01-20 2001-01-08 多様式的ビデオ目標捕捉及び再指向システム及び方法

Country Status (4)

Country Link
US (1) US7028269B1 (ja)
EP (1) EP1186162B1 (ja)
JP (1) JP2003520528A (ja)
WO (1) WO2001054399A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009284473A (ja) * 2008-04-23 2009-12-03 Canon Inc カメラ制御装置及び方法
WO2010147600A2 (en) * 2009-06-19 2010-12-23 Hewlett-Packard Development Company, L, P. Qualified command
KR101526049B1 (ko) * 2013-06-19 2015-06-04 동명대학교산학협력단 가상 생태공원 가시화 시스템

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
GB2380556A (en) 2001-10-05 2003-04-09 Hewlett Packard Co Camera with vocal control and recording
US6990639B2 (en) * 2002-02-07 2006-01-24 Microsoft Corporation System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration
ATE411584T1 (de) * 2002-07-09 2008-10-15 Accenture Global Services Gmbh Schallsteuerungsanlage
PT1573498E (pt) * 2002-11-20 2012-03-22 Koninkl Philips Electronics Nv Sistema de interface de utilizador com base num dispositivo de apontador
US7092002B2 (en) * 2003-09-19 2006-08-15 Applied Minds, Inc. Systems and method for enhancing teleconferencing collaboration
KR101000925B1 (ko) * 2004-03-08 2010-12-13 삼성전자주식회사 음성 인식이 효율적으로 이용되는 디지털 촬영 장치의제어 방법, 및 이 방법을 사용한 디지털 촬영 장치
US8456506B2 (en) * 2004-08-03 2013-06-04 Applied Minds, Llc Systems and methods for enhancing teleconferencing collaboration
WO2006069381A2 (en) * 2004-12-22 2006-06-29 Enterprise Integration Group Turn-taking confidence
JP4604877B2 (ja) * 2005-06-24 2011-01-05 富士ゼロックス株式会社 表示画像制御プログラム、画像配信装置、表示画像制御装置、表示画像制御方法
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20090222671A1 (en) 2005-10-25 2009-09-03 Burbank Jeffrey H Safety features for medical devices requiring assistance and supervision
US7636105B2 (en) * 2006-04-05 2009-12-22 Etreppid Technologies Llc Method and apparatus for providing motion control signals between a fixed camera and a PTZ camera
US20090323923A1 (en) * 2006-04-24 2009-12-31 Video Accessory Corporation Controller using dual-tone multi-frequency (dtmf) tones
US20080123959A1 (en) * 2006-06-26 2008-05-29 Ratner Edward R Computer-implemented method for automated object recognition and classification in scenes using segment-based object extraction
US20080112593A1 (en) * 2006-11-03 2008-05-15 Ratner Edward R Automated method and apparatus for robust image object recognition and/or classification using multiple temporal views
JP5284599B2 (ja) * 2007-03-30 2013-09-11 株式会社日立国際電気 画像処理装置
WO2009042896A1 (en) * 2007-09-26 2009-04-02 Aq Media, Inc. Audio-visual navigation and communication dynamic memory architectures
US8405727B2 (en) * 2008-05-01 2013-03-26 Apple Inc. Apparatus and method for calibrating image capture devices
US8508671B2 (en) 2008-09-08 2013-08-13 Apple Inc. Projection systems and methods
US8538084B2 (en) * 2008-09-08 2013-09-17 Apple Inc. Method and apparatus for depth sensing keystoning
US8527908B2 (en) * 2008-09-26 2013-09-03 Apple Inc. Computer user interface system and methods
US20100079653A1 (en) * 2008-09-26 2010-04-01 Apple Inc. Portable computing system with a secondary image output
US8610726B2 (en) * 2008-09-26 2013-12-17 Apple Inc. Computer systems and methods with projected display
US7881603B2 (en) * 2008-09-26 2011-02-01 Apple Inc. Dichroic aperture for electronic imaging device
US20100079426A1 (en) * 2008-09-26 2010-04-01 Apple Inc. Spatial ambient light profiling
US8429016B2 (en) * 2008-10-31 2013-04-23 International Business Machines Corporation Generating an alert based on absence of a given person in a transaction
US8612286B2 (en) * 2008-10-31 2013-12-17 International Business Machines Corporation Creating a training tool
US8345101B2 (en) * 2008-10-31 2013-01-01 International Business Machines Corporation Automatically calibrating regions of interest for video surveillance
US20100199231A1 (en) * 2009-01-30 2010-08-05 Microsoft Corporation Predictive determination
US7996793B2 (en) 2009-01-30 2011-08-09 Microsoft Corporation Gesture recognizer system architecture
TW201032087A (en) * 2009-02-19 2010-09-01 Asustek Comp Inc Command control system and method thereof
US8477174B2 (en) * 2009-02-27 2013-07-02 Avaya Inc. Automatic video switching for multimedia conferencing
JP5911796B2 (ja) * 2009-04-30 2016-04-27 サムスン エレクトロニクス カンパニー リミテッド マルチモーダル情報を用いるユーザ意図推論装置及び方法
US9014546B2 (en) 2009-09-23 2015-04-21 Rovi Guides, Inc. Systems and methods for automatically detecting users within detection regions of media devices
US8502926B2 (en) * 2009-09-30 2013-08-06 Apple Inc. Display system having coherent and incoherent light sources
US8619128B2 (en) 2009-09-30 2013-12-31 Apple Inc. Systems and methods for an imaging system using multiple image sensors
US9244533B2 (en) 2009-12-17 2016-01-26 Microsoft Technology Licensing, Llc Camera navigation for presentations
US8687070B2 (en) 2009-12-22 2014-04-01 Apple Inc. Image capture device having tilt and/or perspective correction
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
US8497897B2 (en) 2010-08-17 2013-07-30 Apple Inc. Image capture using luminance and chrominance sensors
US8538132B2 (en) 2010-09-24 2013-09-17 Apple Inc. Component concentricity
US9484065B2 (en) 2010-10-15 2016-11-01 Microsoft Technology Licensing, Llc Intelligent determination of replays based on event identification
US8667519B2 (en) 2010-11-12 2014-03-04 Microsoft Corporation Automatic passive and anonymous feedback system
EP2666070A4 (en) * 2011-01-19 2016-10-12 Hewlett Packard Development Co METHOD AND SYSTEM FOR MULTIMODAL CONTROL AND GESTURE CONTROL
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US20120257035A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Systems and methods for providing feedback by tracking user gaze and gestures
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9619018B2 (en) * 2011-05-23 2017-04-11 Hewlett-Packard Development Company, L.P. Multimodal interactions based on body postures
US20130342568A1 (en) * 2012-06-20 2013-12-26 Tony Ambrus Low light scene augmentation
CN103051838A (zh) * 2012-12-25 2013-04-17 广东欧珀移动通信有限公司 一种摄像控制方法及装置
CN104281114B (zh) * 2013-07-12 2018-03-06 上海弼智仿生高科技有限公司 智能设备运动控制***
RU2672307C2 (ru) * 2013-07-31 2018-11-13 Общество с ограниченной ответственностью "Камера Биай" (ООО "Камера Биай") Способ (варианты) систематизации видеоданных производственного процесса и система (варианты)
US9356061B2 (en) 2013-08-05 2016-05-31 Apple Inc. Image sensor with buried light shield and vertical gate
KR102047703B1 (ko) * 2013-08-09 2019-11-22 엘지전자 주식회사 이동 단말기 및 이의 제어 방법
US9674563B2 (en) 2013-11-04 2017-06-06 Rovi Guides, Inc. Systems and methods for recommending content
US10845884B2 (en) * 2014-05-13 2020-11-24 Lenovo (Singapore) Pte. Ltd. Detecting inadvertent gesture controls
US9990433B2 (en) 2014-05-23 2018-06-05 Samsung Electronics Co., Ltd. Method for searching and device thereof
US11314826B2 (en) 2014-05-23 2022-04-26 Samsung Electronics Co., Ltd. Method for searching and device thereof
DE102015110759A1 (de) * 2015-07-03 2017-01-05 Mathias Jatzlauk Gestensteuerungsanordnung zur Anwendung mit mehreren Nutzern
JP6702329B2 (ja) * 2015-09-03 2020-06-03 ソニー株式会社 映像処理装置、映像処理方法、及び、プログラム
US10824320B2 (en) * 2016-03-07 2020-11-03 Facebook, Inc. Systems and methods for presenting content
WO2018009897A1 (en) * 2016-07-07 2018-01-11 Harman International Industries, Incorporated Portable personalization
KR20180098079A (ko) * 2017-02-24 2018-09-03 삼성전자주식회사 비전 기반의 사물 인식 장치 및 그 제어 방법
US10547937B2 (en) * 2017-08-28 2020-01-28 Bose Corporation User-controlled beam steering in microphone array
US11284007B2 (en) 2018-03-27 2022-03-22 Tactacam LLC Camera system
KR102512446B1 (ko) * 2018-05-04 2023-03-22 구글 엘엘씨 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응
KR20230173211A (ko) 2018-05-04 2023-12-26 구글 엘엘씨 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응
EP4016988A4 (en) * 2019-09-03 2022-11-02 Sony Group Corporation IMAGING CONTROL DEVICE, IMAGING CONTROL METHOD, PROGRAM, AND IMAGING DEVICE
US11889261B2 (en) 2021-10-06 2024-01-30 Bose Corporation Adaptive beamformer for enhanced far-field sound pickup

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10301675A (ja) * 1997-02-28 1998-11-13 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2000004435A (ja) * 1998-06-12 2000-01-07 Canon Inc カメラ制御装置及び方法並びに記憶媒体
JP2000187553A (ja) * 1991-06-20 2000-07-04 Fuji Xerox Co Ltd 入力装置および入力装置用ヘッドマウントディスプレイ

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4471683A (en) 1982-08-26 1984-09-18 The United States Of America As Represented By The Secretary Of The Air Force Voice command weapons launching system
US5027149A (en) 1988-01-28 1991-06-25 Konica Corporation Voice-recognition camera
US4951079A (en) 1988-01-28 1990-08-21 Konica Corp. Voice-recognition camera
JPH0771288B2 (ja) 1990-08-24 1995-07-31 神田通信工業株式会社 自動視野調整方法及び装置
JPH06131437A (ja) * 1992-10-20 1994-05-13 Hitachi Ltd 複合形態による操作指示方法
JPH06313838A (ja) 1993-04-28 1994-11-08 Nikon Corp 音声入力カメラ
US5471542A (en) 1993-09-27 1995-11-28 Ragland; Richard R. Point-of-gaze tracker
US5521634A (en) * 1994-06-17 1996-05-28 Harris Corporation Automatic detection and prioritized image transmission system and method
CA2148631C (en) 1994-06-20 2000-06-13 John J. Hildin Voice-following video system
US5652849A (en) * 1995-03-16 1997-07-29 Regents Of The University Of Michigan Apparatus and method for remote control using a visual information stream
JP3363283B2 (ja) * 1995-03-23 2003-01-08 株式会社日立製作所 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JP3729918B2 (ja) * 1995-07-19 2005-12-21 株式会社東芝 マルチモーダル対話装置及び対話方法
WO1997008896A1 (en) 1995-08-23 1997-03-06 Scientific-Atlanta, Inc. Open area security system
US6176782B1 (en) 1997-12-22 2001-01-23 Philips Electronics North America Corp. Motion-based command generation technology
GB9614837D0 (en) * 1996-07-12 1996-09-04 Rank Xerox Ltd Interactive desktop system with multiple image capture and display modes
DE19639728C2 (de) * 1996-09-26 1998-12-24 Siemens Ag Video-Überwachungseinrichtung
US5982420A (en) * 1997-01-21 1999-11-09 The United States Of America As Represented By The Secretary Of The Navy Autotracking device designating a target
US6118888A (en) * 1997-02-28 2000-09-12 Kabushiki Kaisha Toshiba Multi-modal interface apparatus and method
US6195104B1 (en) * 1997-12-23 2001-02-27 Philips Electronics North America Corp. System and method for permitting three-dimensional navigation through a virtual reality environment using camera-based gesture inputs
US6005610A (en) * 1998-01-23 1999-12-21 Lucent Technologies Inc. Audio-visual object localization and tracking system and method therefor
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
US6377296B1 (en) * 1999-01-28 2002-04-23 International Business Machines Corporation Virtual map system and method for tracking objects

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187553A (ja) * 1991-06-20 2000-07-04 Fuji Xerox Co Ltd 入力装置および入力装置用ヘッドマウントディスプレイ
JPH10301675A (ja) * 1997-02-28 1998-11-13 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2000004435A (ja) * 1998-06-12 2000-01-07 Canon Inc カメラ制御装置及び方法並びに記憶媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009284473A (ja) * 2008-04-23 2009-12-03 Canon Inc カメラ制御装置及び方法
WO2010147600A2 (en) * 2009-06-19 2010-12-23 Hewlett-Packard Development Company, L, P. Qualified command
WO2010147600A3 (en) * 2009-06-19 2011-11-17 Hewlett-Packard Development Company, L, P. Qualified command
US9594431B2 (en) 2009-06-19 2017-03-14 Hewlett-Packard Development Company, L.P. Qualified command
KR101526049B1 (ko) * 2013-06-19 2015-06-04 동명대학교산학협력단 가상 생태공원 가시화 시스템

Also Published As

Publication number Publication date
WO2001054399A2 (en) 2001-07-26
EP1186162B1 (en) 2013-07-31
US7028269B1 (en) 2006-04-11
EP1186162A2 (en) 2002-03-13
WO2001054399A3 (en) 2001-12-27

Similar Documents

Publication Publication Date Title
JP2003520528A (ja) 多様式的ビデオ目標捕捉及び再指向システム及び方法
US8970725B2 (en) User interface system based on pointing device
US20110273551A1 (en) Method to control media with face detection and hot spot motion
JP5355446B2 (ja) 移動物体追跡システムおよび移動物体追跡方法
JP2002251234A (ja) 複数のセンサによるヒューマンインタフェースシステム
US20120019684A1 (en) Method for controlling and requesting information from displaying multimedia
JP2000352996A (ja) 情報処理装置
CN1520685A (zh) 基于话音和手势控制而进行的画中画重定位和/或尺寸调整
US20180196503A1 (en) Information processing device, information processing method, and program
JP2000347692A (ja) 人物検出方法、人物検出装置及びそれを用いた制御システム
CN110502117B (zh) 电子终端中的截图方法以及电子终端
CN103135746B (zh) 基于静态姿势和动态姿势的非接触控制方法、***和设备
JP2001307107A (ja) 画像処理装置および方法、並びに記録媒体
JP2024045460A (ja) 情報処理システム、情報処理装置、情報処理方法、およびプログラム
JP4734446B2 (ja) テレビジョン受像装置及びテレビジョン受像方法
KR101652705B1 (ko) 멀티 모달 정보를 이용하는 사용자 의도 추론 장치 및 방법
JP6914724B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2001067098A (ja) 人物検出方法と人物検出機能搭載装置
JP2017211430A (ja) 情報処理装置および情報処理方法
WO2018185830A1 (ja) 情報処理システム、情報処理方法、情報処理装置、及びプログラム
JPH0728488A (ja) 情報処理方法及び装置
JPH05108302A (ja) 音声と指示動作を用いた情報入力方法
JP7468360B2 (ja) 情報処理装置および情報処理方法
JP4254400B2 (ja) 画像生成装置およびその画像生成方法、ならびにコンピュータ読み取り可能な記録媒体
JP2010183159A (ja) デジタルフォトフレーム、情報処理システム、制御方法、プログラム及び情報記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100413