JP2003520528A

JP2003520528A - 多様式的ビデオ目標捕捉及び再指向システム及び方法

Info

Publication number: JP2003520528A
Application number: JP2001553292A
Authority: JP
Inventors: エリックコヘン−ソラル; ミ−スエンリー
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-01-20
Filing date: 2001-01-08
Publication date: 2003-07-02
Also published as: WO2001054399A2; EP1186162B1; US7028269B1; EP1186162A2; WO2001054399A3

Abstract

(57)【要約】本発明は、広くはビデオ会議システムのようなビデオカメラシステムの分野に関するもので、更に詳細には目標（５）を特徴付ける入力と、該入力に応答して目標捕捉を補助する機械分類系とを使用して目標を見つけると共に捕捉するようなビデオカメラ照準システム（１００）に関するものである。幾つかの実施例においては、前記特徴付け及び分類は、身振り制御のような他の様式の１以上の入力と一緒に使用される。動作中の当該システムの一例においては、操作者（４）は物体（５）に向かって指差し身振りを行い、同時に当該話し手が指し示している該物体を識別する文を話すことができる。該文の少なくとも１つの語は、多分、当該物体（５）を識別することができるような機械が感知可能な特徴に関連している。該システムは、上記音声及び身振り入力を捕捉すると共に処理し、パン-チルト-ズームＰＴＺビデオカメラ（２）を、上記特徴及び身振りの両方に最良に合致する物体上に焦点を合わすように再位置決めする。このように、上記ＰＴＺカメラ（２）は、当該システムが受信する入力と、そのセンサにより目標（５）を見つける当該システムの能力とに基づいて照準が合わされる。

Description

【発明の詳細な説明】

【０００１】

【技術分野】

本発明は、広くはビデオ会議システムのようなビデオカメラシステムの分野に
係り、より詳細には目標を特徴付ける入力と、該入力に応答して目標捕捉を補助
する機械分類系とを用いて目標を見つけ及び捕捉するようなカメラ照準システム
に関する。

【０００２】

【背景技術】

ユーザの命令に応答して目標を変更又は捕捉するビデオ照準及び追跡システム
は、急速に成長している分野である。コンピュータの速度、従って画像処理及び
音声処理の速度は、カメラを照準合わせし及び再照準合わせするための非常の便
利な機能を提供することができる程のものとなっている。例えば、ビデオ会議シ
ステムにおいては、ユーザは対象となる物体を指し示して、パン／チルト台上の
ズームが可能なカメラを位置決めすることができる。斯様な自動化されたシステ
ムは、より直感認識的であり、音声命令のような一層明示的な命令（“命令制御
”、基本的には各発音命令が例えば“左へパン”、“上”、“下”等の命令に対
応するような音声に基づくシンボルプロセッサ）、ジョイスティック制御及び連
続的な目標追跡を必要とするような従来のシステムよりも制御するのが一層容易
である。連続追跡システムは典型的には、移動する対象を、物体の画像を捕捉す
る画像検出器を備えるカメラを用いて追跡する。これらの捕捉された画像は、次
いで、上記対象を見つけ及び追跡するために処理される。画像を捕捉するために
カメラが使用され、且つ、追跡されている対象が当該カメラの視野の中心から遠
くへ離れるように移動する場合、該カメラの照準は追跡処理を継続するように調
整される。

【０００３】上記のようなカメラの制御を可能にする“知的な”技術を採用した一つのシス
テムが、“カメラに基づく身振り入力を用いた仮想現実環境を介しての三次元航
法を可能にするシステム及び方法”なる名称の１９９７年１２月２３日に出願さ
れた米国特許出願第08/996,677号に記載されており、該出願の全ては参照により
本明細書に組み込まれるものとする。この特許出願は、カメラが画像処理技術を
用いて人の被写体の輪郭を背景から区別する技術を論じている。該画像処理技術
は、被写体を背景から区別するために目標に関するメトリック（metrics）及び
他の画像処理技術を使用している。次いで、該被写体はパン／チルト／ズーム（
ＰＴＺ）カメラにより追従することができる。斯様なシステムは、目標が画面上
で相対的に中心に留まるように該目標を反復的に位置決めし、ズームし及び焦点
を合わせる。

【０００４】米国特許第5,187,574号に記載されたような他の技術は、仮想又は電子ズーム
と呼ばれるものである。１以上の固定カメラからのビデオ情報が電子的に処理さ
れて、何れかの特定のカメラの視野においては当該物体が中心に合わされていな
いかもしれないという事実とは無関係に、対象となる目標が出力ビデオ信号にお
いて所望の形で見えたままとなるようにする。抽出及び補間処理により、一般的
にＰＴＺカメラより安価な固定カメラを介して追跡処理を達成することができる
。

【０００５】目標の追跡は可能であるが、これらのシステムは捕捉及び追跡されるべき目標
を見つける能力又は柔軟性に欠ける。これらシステムは、操作者が先ず対象を選
択するか、又は当該システムが検出するように予め構成されたような特性を該対
象が示さねばならないかの何れかに依存している。

【０００６】他の改善が、マサアキ・フクモト、ヤスヒト・スエナガ及びケンジ・マセによ
る“‘指差し器’画像処理による指差しインターフェース”なる論文に詳細に記
載されている。この論文において、著者は、システムの視野内に位置する操作者
に目標を指し示さすことにより、該目標に焦点を合わせるようにカメラを向ける
システムを述べている。該システムは操作者の指の画像を走査すると共に処理し
、カメラが概ねその方向に照準が合わされるように向ける。この論文は、指し示
す身振りと音声命令との組合せを使用するシステムも記載している。簡単な音声
又は身振り命令により、操作者はカメラにズームイン若しくはズームアウト又は
画面消去等の簡単な機能を実行するよう指令することができる。

【０００７】このシステムに伴う１つの明らかな問題は、操作者が目標にしようと意図しな
かった対象又は目標に対してのカメラの誤った指向から生じる。この問題の原因
は、操作者のエラー（即ち、操作者が所望の方向を正確に指し示さなかった）、
システムのエラー（即ち、当該システムが操作者の身振りを正しく解釈しなかっ
た）及び固有の曖昧さ（即ち、身振りの情報は、目標の座標を明確に規定するに
は不十分である）を含む。例えば、カメラが誤った目標に焦点を合わせるであろ
う可能性は、指し示された方向の軌道に沿って複数の物体が見つかった場合、又
は目標とされた対象の極近傍に複数の物体が存在する場合に増加するであろう。
手動でカメラを再指向させることは、時間を浪費し、斯様な自動化されたシステ
ムを有する利益を無にしてしまう。更に、物理的にカメラを再照準合わせするか
、又は音声命令によるかに拘わらず、進んだビデオシステムを操作するのは、不
経済な気の散ることである。

【０００８】

【発明の開示】

本発明は、広くはビデオ会議システムのようなビデオカメラシステムの分野に
関するもので、更に詳細には目標を特徴付ける入力と、該入力に応答して目標捕
捉を補助する機械分類系とを使用して目標を見つけると共に捕捉するようなビデ
オカメラ照準システムに関するものである。幾つかの実施例においては、上記特
徴付け及び分類が、身振り制御のような他の様式の１以上の入力と一緒に使用さ
れる。

【０００９】動作中の当該システムの一例においては、操作者は対象に向かって指し示す身
振りを行い、同時に当該話し手が指し示している対象を識別する文を話すことが
できる。該文の少なくとも１つの語は、多分、当該対象を識別することができる
機械が感知可能な特徴に関連している。該システムは、上記音声及び身振り入力
を捕捉すると共に処理し、ＰＴＺビデオカメラを、上記特徴及び身振りの両方に
最良に合致する対象上に焦点を合わすように再位置決めされる。このように、上
記ＰＴＺカメラは、当該システムが受信する入力と、そのセンサにより目標を見
つける当該システムの能力とに基づいて照準が合わされる。

【００１０】この例では、システムは対象の位置に関する情報を操作者の指し示す身振りを
処理することにより入力している。また、該システムは対象に関する情報を、操
作者の音声入力を、１以上の機械が感知可能な特徴に相関させることができるシ
ンボルに変換する音声認識プロセッサにより入力する。該特徴は、当該システム
のセンサに対応する値又は値の範囲を含むベクトルとして記憶され、対象を見つ
け且つ捕捉するために使用される。この変換処理は後に詳細に説明する。

【００１１】本発明の或る実施例においては、１つの様式による情報（例えば音声命令）は
、目標を直に特徴付けるか、又は該目標を機械が感知可能な特徴と相関させるこ
とができる方法で識別することができる。次いで、該情報は意図する目標を見つ
けるために、又は該目標の発見を補助するために使用することができる。該音声
情報が通常の音声から抽出され、且つ、その情報から目標情報が得られる唯一の
チャンネルでない（例えば、身振りによっても供給される）場合、訓練の必要性
を大幅に低減させる点で明らかな利点が得られる。目標に関する情報の過度の供
給、指し示しにより示される方向、音声による特徴付け等、及び情報が自然なモ
ードの通信から抽出されるという事実により、個人は当該ビデオシステムを何の
訓練も無しに制御することができる。カメラは、操作者／話し手により直感的身
振り、音声又は他の入力により照準を合わせることができる。

【００１２】複数様式の入力の使用は、該システムが正確に照準されるのを保証する助けと
なる。複数様式入力を使用する１つの利点は、命令の全体としての曖昧さを低減
することによるシステムエラー又はヒューマンエラーの低減である。これは、元
来曖昧な命令を大量な情報の供給により補償することができるので、操作者に対
する要求を緩和することになる。当該システムは、該システムの目標の検索を改
良するために複数様式の規準の使用により、目標とされる対象を選択する。これ
ら種々の規準は、当該システムに対して、最もありそうな目標を識別すると共に
誤った目標の選択を取り除く助けとなる情報を提供する。

【００１３】或る実施例においては、ビデオカメラは、ビデオカメラ又は他のセンサの視野
内に位置する操作者の身振りを監視する。該操作者は或る物体（目標）を指し示
すことにより、発見処理を起動する。該指し示す身振りは、指を目標に向けて伸
ばし、手を該目標とされる対象の方向に移動させ、又は当該システムが指し示し
軌道を確立すべく感知することが可能な何らかの他の信号からなることができる
。上記の指し示す身振りは、１つの入力として作用することができると共に、当
該起動イベント（事象）と略同時的である他の様式の入力の収集及び解読をする
処理を開始する起動イベントとして作用することもできる。

【００１４】この実施例における上記起動は、目標とされる物体への操作者の指し示す身振
りとすることができる。他の例として、該起動は、操作者により話される起動語
又は句（例えば、“…に注意を払ってください”）、又は遠隔制御器上の釦の押
下又は指鳴らし等の何れかの可能性のある起動行為であり得る。

【００１５】この特別な実施例においては、操作者が発見処理を起動するのと略同時に、当
該システムは該操作者の音声命令を捕捉し及び解析する。これら音声命令又は音
声入力は、第２の様式の入力ための基礎を提供し得る。起動イベントの前に発生
した音声も、該音声をバッファすると共に起動イベントが発生した前及び後の沈
黙により括られた部分のみを処理することにより捕捉することができることに注
意されたい。他の例として、音声は常に小さなシンボルに変換し、同時性を決定
するために結果としてのシンボルに時間タグを付すこともできる。シンボルは、
テキスト又は限られた組の発声語に関連されたトークンである場合、起動イベン
トと略同時に発生する音声に関連する機械が感知可能な特徴と相関をとるために
使用される。

【００１６】音声入力は、音声認識演算器の使用により、処理されて、目標を見つけ及び識
別するのを補助するための第２の規準を確立する。音声入力は、目標とされる物
体の一般名称（樽）、該物体の色（オレンジ又は透明）、該物体の布目／材料（
光っている）、該物体からの雑音（ポンポンという雑音）、該物体の形状（卵形
、高アスペクト比）、該物体の動き（弾んでいる、這っている、振動している）
、該物体の大きさ（大きい、約３フィート幅）、該物体の温度（熱い）又は当該
システムがそのセンサを介して識別することができる該物体の何れかの他の特徴
（点滅光）のような該目標とされる物体を記述する１つ又は多数の語を有するこ
とができる。これらセンサは、温度を測定する赤外線センサ及び音を突き止める
音源ロケータ等の異なる多数のセンサ及び／又はセンサの組合せを含むことがで
きる。

【００１７】音声入力の、目標対象を見つけるのを補助する規準への変換は、異なる方法で
達成することができる。１つの可能性のある方法は、音声入力を、当該システム
がそのセンサにより一群の可能性のある目標から正しい目標を探し及び識別する
ことができるような目標ベクトルに変換することである。該変換は音声分類子を
介してのものとすることができ、該音声分類子は、入力における異なる音を分類
すると共に、それらを目標ベクトル又はテンプレートの形態の目標の特徴に関連
付け、これら目標ベクトル又はテンプレートと現情景内の物体とを比較して一致
が見つかるかを決定することができる。例えば、“オレンジ”なる語は目標ベク
トルに変換することができる。これを実行するために、音声入力をテキストに変
換する必要はない。何故なら、それは１つの型式の分類子であるからである。所
要の最終結果は、画像と比較して目標と現画像との間の合致の推定を得ることが
できるような機械が感知可能なパラメータの１以上のベクトルである。他の例に
関しては、“熱い”なる語を含む音声は、赤外線カメラ又は熱センサと共に使用
する目標ベクトルと相関をとることができる。複数のセンサ的入力を組合せで使
用して、温度、色、形状（処理された画像における形状輪郭のモーメント）、音
等を伴うパラメータを含む目標ベクトルを形成することができる。

【００１８】語と目標の特徴との間の関連はルックアップテーブルに記録することができ、
該ルックアップテーブルは語を比較規準に関連付ける。例えば、“赤いテーブル
上の眠っている猫に注意を払って下さい”なる句は、当該システムに“眠ってい
る”、“猫”、“上に”、“赤い”及び“テーブル”なる語を解析させる。他の
語は、単純に、上記ルックアップテーブルに含まれない。“見つかった”語は、
次いで、検索規準に変換され、該規準は、これら規準に合致する目標を突き止め
及び目標を識別するのを補助する。

【００１９】上記文の語の関係語（例えば、“上の”及び副詞、形容詞等の他の語）として
の識別は、処理の間に考察することができ、選択された目標の比較がなされる規
準を決定する場合の因数となる。文章構造の解析は、目標ベクトルが確立される
ような、或る語（例えば、直接目的語）に高い又は排他的な優先権を付与するた
めに使用することができる。他の文法的構文解析は、文章内の、直接目的語を描
写する形容詞のような他の重要な鍵となる語を識別するために使用することがで
きる。

【００２０】該変換方法は、当該システムのルックアップテーブル内で識別された全ての語
を解析し、当該文章の文法的構造に無関係に検索規準又は目標ベクトルを確立す
ることができる。この変換方法は、機械が感知可能でない及び他の無関係な語を
フィルタ除去するであろう。何故なら、それら語に関連する特徴ベクトルは画像
分類子に決して整合しないからである。前述した方法よりは簡単であるが、文章
構造に基づいては関連のある規準と関連のない規準との間の区別ができないこと
から、誤った識別となる可能性が高い。例えば、上述した例においては、当該シ
ステムは操作者が“テーブル”又は“猫”のどちらの対象に焦点を合わせようと
したかを判定することはできない。

【００２１】好ましくは、前記入力は、起動イベント直前又は直後の入力を区別することが
できるようにバッファされるようにする。当該システムは、起動イベントよりか
なり前及び後に発生する入力を捕捉するためのバッファを有することができる。
従って、例えば、操作者が“絵に見られるように”と言い、次いで起動として解
釈されるような指し示す身振りをした場合、上記バッファは全ての関連する音声
を依然として捕捉する。

【００２２】システムが目標を捕捉した後、操作者はシステムに対して、その決定を肯定又
は否定することによりフィードバックすることができる。該システムは選択され
た対象を、画面上の物体の画像の強調、警報音の発生又は単に当該物体をズーム
インしてモニタ上に画像を表示することを含む、種々の方法で識別することがで
きる。目標が正しくない場合、操作者は追加の入力を供給して、当該システムが
他の選択をするのを補助することができる。斯様な追加の入力は、“右へ”、“
その靴ではない”、“いいえ、もっと大きな物体”等の如き命令を含むことがで
きる。上記追加の入力は、当該システムに指令するジョイスティックからの信号
又は追加の指し示す身振りのような非音声入力を含むこともできる。

【００２３】この実施例においては、システムが対象を正しく識別した後、該システムは、
カメラを話し手に再指向させるか又は異なる目標に再指向させるための音声又は
他の入力の何れかによる他の信号を受信するまで、該対象を追跡することができ
る。

【００２４】目標を識別する処理は、変更するか及び／又は改良することができる。上述し
た実施例では、カメラは目標対象を最も含みそうな領域に即座に焦点を合わせる
。他の実施例においては、カメラは操作者の直ぐ近傍の領域を走査し、入力に基
づく十分な整合がなされるまで、指し示す方向に外側に進むことができる。また
、当該システムは大体の指し示す方向における最も近い物体又は目標を見つけ、
操作者に対する種々の物体の近さに基づいて満足のゆく整合がなされるまで、次
の最も近い物体又は目標に進むことができる。更に他の実施例においては、当該
システムは、大体の指し示す方向における各物体を解析し、各目標を前記入力に
より確立された規準と比較して、各目標が意図する目標である尤度に基づき数値
を算出することもできる。該システムは、次いで、上記目標を最もありそうな合
致から最もなさそうな合致まで選択し及び表示することができる。

【００２５】他の実施例において、当該システムは、起動イベントに先立ち、部屋内に位置
する全ての物体及び可能性のある目標を含む当該部屋全体を連続して走査するこ
とができる。可能性のある目標は、当該システムの最後の使用からの情景の変化
、物体のカメラに対する近さ、情景内における物体のアスペクト比及び色フィー
ルドの一様さ等を含む種々の規準に基づいて識別することができる。起動イベン
ト前の当該部屋並びに目標の位置及び特徴に関する情報を記憶することにより、
該システムは起動イベント及び入力が受信された後に一層迅速に目標を捕捉する
ことができる。

【００２６】更新可能なルックアップテーブルの追加は、当該システムが学習し及び改善す
る基礎を提供することができる。使用を介して、当該システムは入力を特定の特
徴に関連付けることにより学習することができる。特定の学習された語の特定の
目標ベクトルとの関連付け及び追加を介してルックアップテーブル（辞書）を改
良及び拡張することにより、該システムは正しい対象を選択する能力を改善する
ことができる。例えば、当該システムは、目標を未だ未知の語“ふじ色”と比較
することにより、最終的に該語“ふじ色”と色空間内の特定の範囲を有する物体
との間の関連を確立することができる。この学習処理は、当該システムの実際の
使用を介して、製造者により果たされる初期プログラミング処理の間、より大き
な又はより一層改良されたルックアップテーブルを持つ他のシステムから情報を
ダウンロードすることにより、又はネットワーク経由で他のシステムとデータを
共有して種々のシステムの学習経験を合成するような多数の他の方法により、実
施することができる。

【００２７】本システムは、非目標の特徴を学習することもできる。例えば、該システムは
目標が通常は当該部屋内の特定の領域に位置することを学習することができる。
該システムは、個々の操作者の照準あわせする所作を学習することもできる。例
えば、当該システムは特定の個人が腕を物体に向かって完全に伸ばすことにより
該物体を目標にすることを学習することができ、従って不注意な身振りのような
誤った信号を無視することができる。

【００２８】更に他の実施例においては、当該システムは、各セクタを可能性のある入力と
して、当該部屋の異なる領域を異なるセクタに関連付けることができる。例えば
、操作者は、“システム、セクタ４の椅子に焦点を合わせよ”又は“テーブルセ
クタの生け花を見つけよ”と言うことができる。前者の例においては、当該シス
テムはカメラをセクタ４に指向させ、該セクタ４における椅子を見つけ照準を合
わせる。

【００２９】以下、本発明を、添付図面を参照して幾つかの好ましい実施例に関し、該発明
が一層完全に理解されるように説明する。

【００３０】図面に関しては、図示された詳細は例示的なもので、本発明の好ましい実施例
の解説の目的のためのみのものであり、本発明の原理及び思想的側面の最も有効
且つ容易に理解されると考えられるものを提供するために提示されたものである
ことを強調しておく。この点に関し、本発明の構造的細部は、本発明の基本的理
解に必要とされるよりも詳細に示そうとは試みられておらず、図面を参照しての
説明は、当業者に対して本発明の幾つかの形態がどの様に実際に具現化されるか
を明らかにしている。

【００３１】

【発明を実施するための最良の形態】

図１Ａを参照すると、本発明の一実施例によれば、追跡ビデオシステムは話し
手４により自動的に制御される。主題カメラ１（及び、指差し軌道の識別、主題
の捕捉及び照準合わせに使用される技術に依存して、多分他の主題カメラ４４）
及び目標カメラ２は、話し手４及び目標物体５に各々照準が合わされている。現
実施例においては、話し手４の身振り及び音声が、対象となる目標に照準を合わ
せるよう目標カメラ２を制御するために使用される。目標カメラ２は旋回基台２
４上に装着され、該基台はパンニング、チルティング及び他の動きを可能にする
。該目標カメラにはズームレンズ２５も備えられている。該ズームレンズ２５及
び上記旋回基台２４の両者は、プロセッサ３の制御の下にある。

【００３２】上記プロセッサは、話し手４の身振り及び音声に関する入力を、主題カメラ１
からのビデオ信号及び音センサ８を各々介して受信する。該プロセッサは、話し
手４の音声を分類して、目標カメラ２が照準合わせされるべき意図する目標に関
する情報を得る。目標に関する後者の情報は、該目標の機械が感知可能な特徴と
相関させることができるようなデータである。機械が感知可能な特徴の１つの集
合は、目標カメラ２から得られる該目標のビデオ画像である。機械が感知可能な
特徴の他の集合は、プロセッサ３による意図する目標の識別を補助するために使
用することもできる。例えば、赤外線センサ６を使用することができる。

【００３３】主題カメラ１は操作者４の身振りを捕捉し、目標カメラ２は目標５の画像を捕
捉して、モニタ９上に表示すると共に通信チャンネル２９に伝送する。該ビデオ
データ及び通信チャンネル２９の最終的宛先は、放送送信機、１以上のビデオ出
力装置とのネットワーク接続又は種々の異なる宛先の何れかであり得る。

【００３４】プロセッサ３は主題カメラ１からの画像に画像処理を施す。話し手４の画像及
び前記音声入力から、プロセッサ３は、目標カメラ２を再指向させようとの当該
話し手の望みを示すであろう多数のイベントの何れかを識別する。例えば、起動
イベントは身振り又は一連の語であり得る。新たな目標の位置に関する情報も提
供する１つの起動イベントは、指し示す身振りである。

【００３５】起動イベントと同時に、プロセッサ３は該プロセッサのセンサ１、２、６及び
８の全てから入力される情報を解析し、該情報を分類して当該目標の位置を識別
しようと試みる。プロセッサ３は、コントローラ７を介して、目標カメラ２を該
新たな目標に向かって指向させる。

【００３６】図１Ｂを参照すると、音声は最初に音声トランスジューサ又はマイクロフォン
１９により拾われる。該音声はメモリ又は他の適切な装置１８にバッファされる
。該音声は、分類プロセッサ１７において、起動イベント（例えば、“…に注意
を払って下さい”なる言葉）及び記述子（例えば、“赤”なる色、“丸い”又は
“樽”）のような種々の異なる類に分類される。上記記述子は、プロセッサ４７
において目標ベクトルとしてまとめられ、制御プロセッサ１０に伝送することが
できる。特定の分類結果は、自動的に制御プロセッサ１０に直接伝送することも
できる。例えば、データ１２０が起動イベントを含み、該イベントは上記制御プ
ロセッサに、当該起動イベントの受信に際して該起動イベントの受信と殆ど同時
に送信される目標記述ベクトル１１８を取り込むようにさせる。目標ベクトルは
、起動イベントが入力端１２１において受信された場合にのみ目標ベクトルプロ
セッサ４７により組み立てられ、かくして、データストリーム１１８は起動イベ
ント指示子が１２１において受信された場合にのみ１以上の目標ベクトルを含む
ことに注意すべきである。

【００３７】目標ベクトルプロセッサ４７においては、分類のストリームが受信され、バッ
ファされる。これらの分類は、種々の記述子、起動イベント等を識別する。分類
指示子は、同時に発生するものを示すために、mod-2態様又はmod-3態様で連番を
振ることができる。一連の分類の同時的発生は、文章を括ると仮定される２つの
休止の間に発生された分類で以って識別することができる。他の例として、それ
らは起動イベントの何れかの側における特定の時間範囲内に発生する分類の系列
とすることもできる。後者の場合、分類の多くが、起動イベントを囲む期間の外
側に位置するため連続番号が欠落する場合がある。更に他の例は、文章構造を語
認識及び分類の文法的レベルにより文法的に解析することである。この場合、同
一の文章に入る記述子は、同一の連番を有するであろう。上記処理を、下記の例
示的イベントの系列に関して明確にする。

【００３８】制御プロセッサ１０は種々の入力を受信する。音源を正確に指し示すマイクロ
フォンのアレイであり得るような音源トランスジューサ４９は、音源プロセッサ
１６に信号を供給し、該音源プロセッサは位置ベクトル１０２を制御プロセッサ
１０に供給する。目標が音を発する場合は、この情報は該目標を上記ソースベク
トル１０２に基づいて該目標を突き止めるのに使用することができる。

【００３９】押しボタン１５は補助信号を供給することができ、例えば該補助信号は目標カ
メラ２を新たな目標に照準合わせさせるという話し手の要望を示すための起動イ
ベントであり得る。該押しボタンの起動イベントの効果は、音声起動イベントに
関するものと同一であり得る。

【００４０】当該追跡システムは、プロセッサ１０が如何にして起動イベント、指し示す軌
道、目標画像、音声及び他の音等を識別することができるかを示す多数の機能的
構成要素を有している。プロセッサ１０は、話し手カメラ１及び目標カメラ２と
、主題ビデオ６３及び主題画像分類５３、並びに目標ビデオ６１及び目標画像分
類５１を各々介して通信する。話し手カメラ１は操作者の画像／身振りを捕捉す
るために使用され、目標カメラ２は目標の画像を捕捉するために使用される。プ
ロセッサ１０は、該プロセッサのセンサにより受信される入力に基づいて目標カ
メラ２を照準合わせ又は位置決めする。この特別な実施例において、これらセン
サは、操作者の身振りを捕捉する話し手カメラ１；可能性のある目標の視覚的特
徴を受信する目標カメラ２；及び例えば人からの体温等の熱源を突き止めると共
に可能性のある目標の温度を決定する赤外線センサ１４を含んでいる。当該シス
テムは、目標の位置に関する情報、操作者からの肯定的又は否定的なフィードバ
ック又は起動信号のような当該操作者からの命令を受信する押しボタン１５付き
のジョイスティック；音を発する物体を突き止める音源位置センサ１６及び４９
；並びに音声入力を受信し且つ処理する音声／分類プロセッサ１７、バッファ１
８及び音声トランスジューサ１９の組合せも含んでいる。

【００４１】図２を参照すると、ストーリーボード３４２は、当該ビデオ追跡システム、即
ち点滅光３２２を有するコンピュータ３２１を制御する話し手を表す人の図形３
２０を含む情景を図示している。フレームＡ、Ｂ、Ｃ、Ｄ、Ｅ及びＦは時間の断
片を表している。フレームＡにおいて、話し手は音声フレームＡ’に示す言葉を
話している。フレームＢで話される言葉はフレームＢ’により示され、フレーム
Ｃの間に話される言葉はフレームＣ’に示され、等々である。フレームＡ及びＢ
に対応する期間に、該話し手は関係物体、即ちコンピュータ３２１、に関する幾
つかの注釈を行う。次いで、フレームＣにおいて、当該話し手は、本発明のビデ
オ追跡システムの音声処理系により認識される言葉を話す。該認識系は、該言葉
を、輪３６０により示す起動イベントとして分類する。フレームＤの時点におい
ては、輪３６５により示すように“赤”なる語が認識される。また、フレームＤ
の時点においては、当該操作者の身振りが指し示す身振りとして認識され、他の
起動イベント３６６を発生する。フレームＤの時点において、当該画像は関係物
体を捕捉するのに使用することができる指差し軌道を導出する情報も含んでいる
。フレームＥの時点において、輪３７０により示されるように、“コンピュータ
”なる語が認識される。フレームＦの時点においては、輪３７５により示される
ように、“点滅光”なる語が認識される。かなりの期間がオーディオバッファ３
４０により捕らえられ、話された単一の文章Ａ’ないしＦ’の前後の休止で、構
文解析が開始及び終了する。

【００４２】この特別な実施例は２つのカメラからなるが、同様の結果は両機能を果たすこ
とが可能な１つのカメラでも達成することができる。該１つのカメラは、操作者
上への合焦及び意図する目標上への合焦の間を交互になすことにより、例えば指
し示す身振りのような当該操作者からの入力を受信すること及び表示のために目
標を捕捉することの両方を行うことができる。２つの目標の間の切り換えは、音
声命令により、又は当該システムが感知することが可能な他の信号により起動す
ることができる。

【００４３】次に、本発明の一実施例を示す図３を参照すると、当該システムは、話し手に
よる指差し身振りにより目標捕捉処理が起動される（Ａ−３）まで、該話し手を
枠に収めると共に追跡する（Ａ−１）。他の例では、上記処理は、音声命令、非
指差し身振り及び指鳴らし等によるような他の方法によっても起動することがで
きる。目標を指し示すことにより、当該システムは話し手の指差し軌道を捕捉す
ると共に、上記指差し軌道及び所定の近さの最も近い物体に基づいて目標を最も
含みそうな領域を検索することにより、意図する目標を検索する。該システムは
、選択された上記領域における目標を選択する（Ａ−５）と共に、満足のゆく一
致が見つかるまで、該目標の特性を前記入力に基づいて確立された規準と比較す
る（Ａ−６）。当該システムが、元の検索領域において満足のゆく一致を見つけ
ることができない場合、該システムは他の周囲の領域に位置する目標を検索する
ことができる（Ａ−１０、Ａ−１１）。

【００４４】この実施例の他の特徴は、話し手のフィードバックの使用を含んでいる。例え
ば、誤った目標が選択された場合、話し手は当該システムと通信して否定的な応
答を発することができ（Ａ−８）、該システムは、これを他の物体を選択する命
令と解釈する（Ａ−５）。話し手による否定的な応答は、“その物体ではない”
等の音声命令、指鳴らし、釦の押下、等々のような種々の形態をとることができ
る。当該システムが正しい目標を捕捉した後、該システムは新たな目標選択する
ための話し手からの入力を傾聴するか、カメラの照準を話し手に戻す（Ａ−１、
Ａ−９）。

【００４５】次に、図３の実施例と類似した他の実施例を示す図４を参照すると、該システ
ムは話し手による音声入力により起動される（Ｂ−２）。該話し手の身振り及び
追加の音声入力が該システムによる捕捉される（Ｂ―４）。該システムは、可能
性のある目標に関して当該話し手の極近傍の領域を走査し（Ｂ−４）、目標を検
索規準と比較し（Ｂ−５）、十分な一致が見つかるまで指差し軌道において外側
に向かって漸進的に検索を行う（Ｂ−１０）。

【００４６】次に、図５を参照すると、本発明の他の実施例において、システムは話し手を
枠に収め、追跡する（Ｃ−１）。また、該システムは周囲の領域を走査し、可能
性のある目標の機械が感知可能な特性に関する情報、及びこれら可能性のある目
標の位置を記憶する（Ｃ−２）。可能性のある目標の発見は、目標が小さなアス
ペクト比を有する、前景における物体、目標が特定の色、パターン等を有するな
どの多数の異なる検索規準に基づくものとすることができる。話し手が目標合わ
せ処理を起動した後（Ｃ−３）、当該システムは意図する目標を記述する入力を
受信し、これら入力に基づいて最も意図された目標でありそうな目標を強調する
（Ｃ−４）。上記入力は、好ましくは当該目標の分類に関する少なくとも１つの
入力を含むと共に、好ましくは該目標の大体の位置に関する入力を含むものとす
る。この実施例はフィードバック機能を含み、該フィードバック機能は現選択が
誤っている場合に当該システムが最もありそうな目標を表示するのを可能にする
。

【００４７】次に、音声入力変換処理の一例の基本フローチャートを示す図６を参照すると
、“緑”及び“木”なる音声入力（Ｄ−１、Ｄ−２）が音声認識プロセッサによ
り受信される（Ｄ−３）。これらの入力（Ｄ−１、Ｄ−２）は、好ましくは、ル
ックアップテーブル（Ｄ−４）と一緒に使用するための機械が読取可能な値／信
号に変換される。該ルックアップテーブルは、上記入力を、意図する目標を見つ
けるために当該システム及び該システムのセンサにより使用するための目標ベク
トルに変換する（Ｄ−５）。該ベクトルは、例えばビデオカメラ等の画像センサ
と共に使用するための、緑に対するＲＧＢエンベロープ並びに木の分類に関する
形状値及びテクスチャ値を含むことができる。上記ルックアップテーブルは異な
る入力に対応させ、これらを、目標を突き止めるために対応する目標ベクトルに
関連付ける。

【００４８】図７及び８を参照すると、事前起動発見処理の２つの代替実施例において、当
該システムは部屋を走査して可能性のある目標を突き止め、これらの可能性のあ
る目標の機械が感知可能な特徴を記憶する（Ｅ−１、Ｅ−２、Ｆ−１、Ｆ−２）
。当該システムは、１つ又は複数のカメラによるエッジフィルタ処理により物体
の形状、寸法及びテクスチャを決定し、該情報から当該物体が可能性のある目標
であるかを決定することにより、可能性のある目標を突き止めると共に識別する
ことができる。更に、該システムは、その色に基づいて、それが音を発するかに
基づいて、又は当該部屋の記録されたメモリに基づき物体が該部屋内に最近配置
された物体であるかに基づいて目標を選択することができる。

【００４９】第１実施例（図７）においては、操作者が発見処理を起動した後、当該システ
ムは音声入力を受信し、該入力を目標を突き止めるために使用される目標ベクト
ルに変換する（Ｅ−３、Ｅ−４、Ｅ−５）。第２実施例（図８）においては、あ
りそうな目標は、処理された音声入力が比較されるフォーマットに変換される（
Ｆ−３）。例えば、可能性のある目標は、例えば本等の、それらの通常に認識さ
れる語に変換され、これらの語に基づいて入力と比較することができる。

【００５０】図９を参照すると、本システムが、その能力を意図する目標を正確に見つける
ように改善する多数の異なる学習処理が存在する。例えば、該システムは認識し
ない入力を識別することができる（Ｇ−２）。この場合、本システムが以前にも
斯かる入力を受信したことがあるかを判定し、もしそうなら、この入力に関連す
る目標の特徴を比較する。この入力を、この入力に関連する以前の正しく識別さ
れた目標の機械が感知可能な特徴と比較することにより、該システムは目標間の
類似性を識別して、そのルックアップテーブルにベクトル及び関連する語を追加
する予測エンジンを生じさせることができる。ルックアップテーブルへの新たな
語の追加は、意図する目標を正しく識別する能力を改善することができる。

【００５１】ルックアップテーブルへの語の追加は、インターネットを介して又は他のプロ
グラミングオプションを介して、新たな語及び対応する検索ベクトルをダウンロ
ードすることによりなすこともできる。

【００５２】当業者にとっては、本発明が上述した例示的実施例の細部に限定されるもので
はなく、本発明はその趣旨又は本質的な属性から逸脱することなく他の特定の形
態でも実施化することができることは明らかである。従って、上記実施例は全て
の点において例示的なものであって限定的なものではないと見なされるべきであ
り、本発明の範囲は上記説明によってではなく添付請求項により示されるもので
あり、従って、これら請求項の意味及び等価の範囲内に入る全ての変更が請求項
に含まれることを意図するものである。

【図面の簡単な説明】

【図１Ａ】図１Ａは、本発明の一実施例による２カメラシステムを示す説明図である。

【図１Ｂ】図１Ｂは、本発明の一実施例のブロック図である。

【図２】図２は、時間的前後関係における音声及び身振りの処理を示す説明図である。

【図３】図３は、本発明の他の実施例のフローチャートである。

【図４】図４は、本発明の更に他の実施例のフローチャートである。

【図５】図５は、本発明の更に他の実施例のフローチャートである。

【図６】図６は、音声入力を検索目標ベクトルに変換する処理のフローチャートである
。

【図７】図７は、可能性のある目標を見つけ及び比較する他の処理のフローチャートで
ある。

【図８】図８は、可能性のある目標を見つけ及び比較する更に他の処理のフローチャー
トである。

【図９】図９は、本発明の一実施例による学習処理のフローチャートである。

───────────────────────────────────────────────────── フロントページの続き (72)発明者リーミ−スエンオランダ国 5656 アーアーアインドーフェンプロフホルストラーン６Ｆターム(参考） 5B057 BA02 CA12 CA16 DA11 DB02 DC36 5C022 AA12 AB63 AC27 AC69 AC72 5C054 AA02 CF05 CG02 CH01 DA09 EA01 EA03 EA05 ED07 EF06 FC12 FC13 FF02 HA25 HA31 5C064 AA02 AB04 AC04 AC09 AC16 AC17 AD06 5L096 BA02 CA02 FA00 HA05 JA11 【要約の続き】システムの能力とに基づいて照準が合わされる。

Claims

【特許請求の範囲】

【請求項１】目標を見つけ該目標の画像を表示する方法において、操作者により発生された起動イベントを感知するステップと、目標の少なくとも機械が感知可能な特徴を特徴付けるような情報を入力するス
テップであって、該入力するステップが前記感知するステップと略同時に発生す
るようなステップと、前記感知するステップ及び／又は前記入力するステップの結果に応答してカメ
ラを照準合わせするステップと、を有していることを特徴とする方法。
【請求項２】請求項１に記載の方法において、前記感知するステップが目
標を指し示す操作者の身振りを感知するステップを含んでいることを特徴とする
方法。
【請求項３】請求項２に記載の方法において、前記感知するステップが方
向を指し示す身振りを感知するステップを含んでいることを特徴とする方法。
【請求項４】請求項１、２又は３に記載の方法において、前記感知するス
テップが、前記操作者から前記目標への方向を指し示す身振りを感知するステッ
プを含んでいることを特徴とする方法。
【請求項５】請求項１、２、３又は４に記載の方法において、前記入力す
るステップが前記操作者から音声を入力するステップを含んでいることを特徴と
する方法。
【請求項６】請求項５に記載の方法において、少なくとも１つの機械セン
サと一緒に使用するために前記音声を処理するステップを更に含み、前記少なく
とも１つの機械センサ及び前記音声が前記目標を見つける助けとなることを特徴
とする方法。
【請求項７】請求項６に記載の方法において、前記処理するステップが、
前記音声を前記少なくとも１つのセンサと共に使用する検索規準に対応させるル
ックアップテーブルを介して、前記音声の情報を処理するステップを含んでいる
ことを特徴とする方法。
【請求項８】請求項７に記載の方法において、前記ルックアップテーブル
が修正可能であることを特徴とする方法。
【請求項９】請求項８に記載の方法において、前記ルックアップテーブル
はオンライン全世界的コンピュータネットワークを介して情報を受信することに
より修正されることを特徴とする方法。
【請求項１０】請求項８又は請求項９に記載の方法において、前記ルック
アップテーブルは追加の音声入力及び対応する検索規準を含むように修正され、
前記追加された音声入力及び前記対応する検索規準は、前記追加された音声入力
の、前記音声入力と関連する少なくとも１つの正しく識別された目標の少なくと
も１つの機械が感知可能な特徴との以前の関連を比較することにより確立され、
前記機械が感知可能な特徴は前記対応する検索規準を決定する基礎であることを
特徴とする方法。
【請求項１１】目標を見つけ該目標の画像を表示する方法において、少なくとも１つのセンサの範囲内の領域を走査するステップと、可能性のある目標を識別するステップと、前記可能性のある目標の機械が感知可能な特徴及び位置に関する情報を記憶す
るステップと、操作者により発生される起動イベントを感知するステップと、前記目標の少なくとも１つの特徴を特徴付けるような情報を入力するステップ
であって、該入力するステップが前記感知するステップと略同時に発生するよう
なステップと、前記感知するステップ、前記記憶するステップ及び／又は前記入力するステッ
プの結果に応答してカメラを照準合わせするステップと、を有していることを特徴とする方法。
【請求項１２】カメラを目標に照準合わせする方法において、目標の位置の指示を入力するステップと、前記目標の機械が感知可能な特徴に関する他の情報を入力するステップと、前記指示に応答してカメラを前記目標に照準合わせするステップであって、該
照準合わせにおけるエラーを低減するために前記他の情報を使用するステップと
、を有していることを特徴とする方法。
【請求項１３】目標を捕捉する方法において、目標の位置を指示する空間情報を入力するステップと、前記目標に関する他の情報を入力するステップと、前記目標を捕捉するために前記空間情報に応答して前記目標に対し器具を配向
するステップであって、前記位置の曖昧さを低減するために前記他の情報を使用
するステップと、を有していることを特徴とする方法。
【請求項１４】請求項１３に記載の方法において、前記配向するステップ
がカメラを配向するステップを含んでいることを特徴とする方法。