JPH1153083A

JPH1153083A - アクティブな公共インターフェイスのための人間の視覚的感知方法及び装置

Info

Publication number: JPH1153083A
Application number: JP9893598A
Authority: JP
Inventors: Keith Waters; ウォーターズキース; Maria Loughlin; ロークリンマリア; James M Rehg; エムレーグジェームズ; Sing Bing Kang; ビンカンシン
Original assignee: Digital Equipment Corp
Current assignee: Digital Equipment Corp
Priority date: 1997-04-18
Filing date: 1998-04-10
Publication date: 1999-02-26
Also published as: US6256046B1; EP0872808B1; DE69832119T2; EP0872808A1; DE69832119D1

Abstract

(57)【要約】【課題】カメラで観察できるシーンの移動する対象物
と対話するためのコンピュータ化された方法及び装置を
提供する。【解決手段】コンピュータ化されたキオスクのアクテ
ィブな公共ユーザインターフェイスは、動き及びカラー
を用いて人間を視覚的に感知し、人間の存在を示す環境
の変化を検出する。対話空間が定義され、そしてシステ
ムは、非生命体の追加又は差し引きを反映すると共に照
明の変化を補償するように時間にわたって更新された環
境の初期モデルを記録する。システムは、移動する対象
物のモデルを開発し、従って、人間が対話空間に対して
移動するときに人間を追跡することができる。更に、ス
テレオカメラシステムは、位置及び動きを感知するシス
テムの能力を向上させる。キオスクは、それが「見た」
ものに対する応答において、音声及び視覚フィードバッ
クを与える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、コンピュ
ータシステムに係り、より詳細には、コンピュータ化さ
れた人間とコンピュータとのインターフェイスに係る。

【０００２】

【従来の技術】コンピュータの視覚に基づくユーザの感
知は、新しいクラスの公共マルチユーザコンピュータイ
ンターフェイスを可能にする。自動情報供給キオスクの
ようなインターフェイスは、従来のデスクトップ環境と
は異なるコンピュータ規範を表し、従って、慣例的なウ
インドウ、アイコン、マウス及びポインタ（ＷＩＭＰ）
インターフェイスとは異なるユーザインターフェイスを
必要とする。その結果、ユーザインターフェイスが進化
し、デスクトップから移り変わるにつれて、視覚に基づ
く人間の感知は、人間とコンピュータとの対話において
益々重要な役割を演じるようになる。

【０００３】コンピュータの視覚を使用する人間感知技
術は、キオスク型のコンピュータ化された機器のための
公共ユーザインターフェイスにおいて重要な役割を果た
すことができる。控え目のビデオカメラを用いたコンピ
ュータ視覚は、ユーザの三次元的な位置からユーザの顔
の表情並びに身体の姿勢及び動きに至るまでのユーザに
関する豊富な情報を供給することができる。視覚に基づ
く人間の感知は、益々注目を集めているが、この技術を
機能するユーザインターフェイスへと統合することにつ
いては、あまり研究がなされていない。

【０００４】ショッピングモールのような公共空間の動
的な無制約の性質は、コンピュータ化されたキオスクの
ための挑戦的なユーザインターフェイス問題を提起す
る。このユーザインターフェイス問題は、公共ユーザイ
ンターフェイス問題と称され、組織された単一ユーザデ
スクトップ環境において行われる対話と区別することが
できる。完全に自動化された公共キオスクインターフェ
イスは、ユーザとの対話をアクティブに開始及び終了し
なければならない。又、キオスクは、そのリソースを多
数のユーザ間で公平に分割できねばならない。

【０００５】アライブ(Alive) システムに適用されるユ
ーザを感知するための公知技術は、「ピーファインダ：
人体のリアルタイム追跡(Pfinder: Real Time Tracking
ofthe Human Bidy) 」、クリストファー・ウェレン、
アリ・アザベイヤニ、トレバー・ダレル、及びアレック
ス・ペントランド、ＩＥＥＥ１９９６年に説明されてい
る。別の公知システムは、「ブロブ特徴からの３−Ｄ形
状推定を用いたリアルタイム自己校正ステレオ個人追跡
(Real-time Self-calibration Stereo PersonTracking
Using 3-D Shape Estimation from Blob Features」、
アリ・アザベイヤニ及びアレックス・ペントランド、Ｉ
ＣＰＲ、１９９６年１月号に説明されている。

【０００６】

【発明が解決しようとする課題】アライブシステムは、
単一のユーザを感知するだけであり、制約のある仮想ワ
ールド環境のみに向けられたものである。ユーザは、仮
想ワールドに沈められ、対話のためのコンテクストは単
純であり、そして簡単な視覚及びグラフィック技術を使
用することができる。制約のない現実ワールド環境にお
いて多数のユーザを感知し、そしてその環境のコンテク
ストにおいて振る舞いで駆動される出力を与える場合に
は、公知システムにおいて対処されていない現実ワール
ドの対話が必要となるために更に複雑な視覚及びグラフ
ィックの問題が提起される。

【０００７】アライブシステムは、ガウスの楕円のよう
な特定の幾何学形状のモデルを、人間のユーザを表す記
述に適合する。人間の形状モデルを「ブロブ(blob)」と
称する。形状を説明するこの方法は、一般に、融通性が
ない。アライブシステムは、ユーザの記述を１つの優勢
なカラーに制限するガウスのカラーモデルを使用してい
る。このような制限されたカラーモデルは、多数のユー
ザ間を区別するようにシステムの能力を制限する。

【０００８】上記アザベイヤニの公知システムは、ガウ
スのカラーブロブモデルをベースとする自己校正ブロブ
ステレオ解決策を使用している。このシステムは、融通
性がないガウスモデルの全ての欠点を有する。このシス
テムの自己校正特徴は、単一ユーザが自己校正に関連し
た遅延を許容できるようなデスクトップ設定に適用でき
る。キオスク設定においては、システムが新たな各ユー
ザごとに直ちに機能するようにシステムを前もって校正
するのが好ましい。

【０００９】公知システムは、地上平面におけるユーザ
の脚の配置を使用して、対話空間内におけるユーザの位
置を決定する。これは、制約のある仮想−現実空間では
適当な解決策であるが、この簡単な方法は、環境内の至
近物体によって遮られるためにユーザの脚が見えないよ
うな現実ワールドのキオスク設定では受け入れられな
い。更に、地上平面を検出する必要性は、環境に対して
強い制約を課する傾向となるので、実際には不便であ
る。コンピュータ視覚技術を用いて、ユーザを感知する
だけでなく、ユーザと対話もするようなコンピュータさ
れたキオスクのためのインターフェイス規範をもつこと
が要望される。

【００１０】

【課題を解決するための手段】コンピュータのための公
共ユーザインターフェイスの問題は、人間を視覚感知
し、応答の振る舞いをモデリングし、そしてコンピュー
タ化されたキオスクのコンテクストにおいてユーザにオ
ーディオビジュアルフィードバックを与えるための本発
明のコンピュータ視覚技術により解決される。

【００１１】本発明は、その広い形態において、カメラ
で観察できるシーンにおいて移動する対象物と対話する
ための請求項１及び請求項１０に各々記載のコンピュー
タ化された方法及び装置に係る。以下に述べる好ましい
実施形態において、キオスクは、３つの基本的な機能要
素、即ち視覚感知要素、振る舞いモジュール、及びグラ
フィック／音声モジュールを有している。又、環境又は
観察されたシーンの三次元情報を含む任意の要素を有す
る。これら要素は、互いに対話して、ユーザの振る舞い
に対するセミインテリジェントな反応の効果を形成す
る。本発明は、リアルタイム視覚感知（運動検出、カラ
ー追跡及びステレオ距離測定）、及び振る舞いをベース
とするモジュールを使用して実施され、視覚入力データ
に基づいて出力を発生する。

【００１２】

【発明の実施の形態】本発明は、添付図面を参照した好
ましい実施形態の以下の詳細な説明より良く理解されよ
う。図１は、公共のコンピュータユーザインターフェイ
ス１０を示す。ユーザインターフェイス１０は、ユーザ
の存在及び動きを含む現実ワールド環境２０から情報を
取り入れる感知モジュール１５を有する。この情報は、
振る舞いモジュール２５において処理され、このモジュ
ールは、三次元モジュール３０を使用して、フィードバ
ックモジュール３５に通す適切な出力を決定する。シー
ンとも称する現実ワールド環境２０の三次元モジュール
３０は、そのワールドの見掛けを反映するメトリック情
報及びテクスチャの両方を含む。

【００１３】図２に示すキオスク５０は、キオスクのユ
ーザのためのディスプレイスクリーン５５と、キオスク
５０がユーザの存在を検出できるようにする複数のカメ
ラ６０、６５、７０とを有する。３つのカメラが示され
ているが、単一のカメラ又は多数のカメラが使用されて
もよい。第１カメラ６０は、床の領域に向けられる。第
１カメラ６０の「円錐視野」は、第１の対話空間７５と
定められる。第２及び第３のカメラ６５、７０は、キオ
スク環境に対してある距離をカバーするように向けられ
る。本発明のここに示す実施形態では、第２及び第３の
カメラ６５、７０は、キオスクから５０フィートに向け
られる。第２及び第３のカメラ６５、７０によりカバー
される空間は、第２の対話空間８０である。

【００１４】キオスク５０は、視覚感知モジュール１５
を含み、このモジュールは、多数のコンピュータ視覚技
術、即ちアクティビティ検出、カラー認識及びステレオ
処理を使用して、対話空間７５、８０におけるユーザの
有無及びポーズを検出する。ポーズは、動きのような属
性と、対話空間７５、８０におけるユーザの三次元空間
位置とを含む。キオスクは、カメラからのカラーフレー
ムをデジタル化し、これは、キオスクの視覚感知モジュ
ール１５により使用される。

【００１５】図３は、キオスク５０のブロック図であ
る。キオスク５０は、デジタイザ１０５に接続された複
数のカメラ１００を含む入力装置と、例えば音声出力の
ためのスピーカ１１０及び視覚出力のためのディスプレ
イスクリーン１１５を含む出力装置とを備えている。キ
オスク５０は、メモリ／プロセッサ１２０と、視覚感知
モジュール１５と、振る舞いモジュール２５と、フィー
ドバックモジュール３５とを備えている。又、キオスク
は、シーン２０を表す三次元モジュール３０も含む。視
覚感知モジュール１５は、検出モジュール１２５と、追
跡モジュール１３０と、ステレオモジュール１３５の要
素とを備え、これらについては以下に詳細に述べる。

【００１６】アクティビティ検出モジュール１２５は、
コンピュータ視覚技術を使用して、図２の対話空間にお
けるユーザの存在及び動きを検出する。キオスク５０
は、１つ以上のカメラから対話空間の映像入力を受け入
れる。本発明の第１の実施形態では、アクティビティ検
出モジュール１２５は、図２に示すように床を向くよう
に取り付けられた単一のカメラ６０からの映像入力を受
け入れる。動作中に、アクティビティ検出モジュール１
２５は、映像信号の各フレームをリアルタイムで検査し
て、第１の対話空間７５にユーザが存在するかどうか決
定し、もし存在すれば、その人間が動く速度及び方向を
決定する。アクティビティ検出モジュールは、動く対象
物が第１の対話空間７５に入ったり出たりするたびにメ
ッセージ又は通知を振る舞いモジュールに送信する。

【００１７】第１の対話空間７５は、「ブロブ」が独立
して追跡される１つ以上のゾーンに仕切られる。通常の
カメラレンズを使用する場合には、１つのゾーンが適当
である。広角又は魚眼レンズを使用する場合には、図４
に示すように４つのゾーンが使用される。４つのゾーン
は、中央ゾーン２５０、左ゾーン２５５、右ゾーン２６
０及び後方ゾーン２６５として定義される。４ゾーンモ
ードにおいては、アクティビティ検出のための計算が各
ゾーンにおいて独立して行われる。余計な計算は、アク
ティビティ検出プログラムを複雑にするが、ユーザが動
く速度を正確に推定できるようにする。

【００１８】第１の対話空間７５に４つのゾーンがある
場合には、キオスクは、中央ゾーン２５０のブロブ、即
ち潜在的なキオスクユーザに主として関連したものとな
る。ブロブが最初に中央ゾーン２５０に現れたときは、
その中央のブロブをおそらく発生したところの周囲ゾー
ンのブロブが選択される。このソースブロブの速度が中
央のブロブに指定される。アクティビティ検出プログラ
ムは、標準的なルールを適用し、どの周囲ゾーン（右、
左又は後方）が中央ゾーン２５０におけるブロブのソー
スであるか決定する。

【００１９】アクティビティ検出モジュールは、基準フ
レームにおける各ピクセルと、新たなデジタル化された
フレームにおける対応ピクセルとの強度の差を見出すこ
とによりフレームを比較する。対応するピクセルは、そ
れらのグレーレベルが第１の所定のレベル以上の異なる
場合に「相違」とみなされる。アクティビティ検出プロ
グラムは、次々の像間の対象ブロブの動きを探索するこ
とにより、第１の対話空間７５における人間と非生命物
体、例えば、がらくた片とを区別する。次々のフレーム
間で対象物ブロブが充分に移動する場合には、その対象
物が生きていると仮定される。次々の像において相違す
るピクセルの数が第２のスレッシュホールドより大きい
ときに「充分な動き」がある。

【００２０】図５は、アクティビティ検出プログラムの
動作のフローチャートである。アクティビティ検出プロ
グラムの初期化（ブロック４００）においては、第１の
対話空間７５が空であり、キオスク５０は、第１の対話
空間７５における床のフレームを記録する。この最初の
フレームは、アクティビティ検出プログラムの基準フレ
ーム４５５となる。約３０ミリ秒ごとに、新たなフレー
ムがデジタル化される（ブロック４００）。次いで、こ
の新たなフレームと基準フレーム４５５との間で比較が
行われる（ブロック４０５）。新たなフレームが、第１
の所定のピクセルスレッシュホールド値に基づき基準フ
レーム４５５から充分に相違する場合には、アクティビ
ティ検出モジュールは、第１の対話空間７５にユーザが
存在すると仮定する（ブロック４１０）。新たなフレー
ムが充分に相違しない場合には、アクティビティ検出プ
ログラムは、第１の対話空間７５に誰もいないと仮定す
る（ブロック４１０）。アクティビティ検出プログラム
は、第１の対話空間７５にユーザが存在すると仮定する
と決定した場合には、振る舞いモジュール２５にメッセ
ージを送信する（ブロック４２０）。アクティビティ検
出プログラムが第１の対話空間７５に誰もいないと決定
した場合には、振る舞いモジュールに通知がなされ（ブ
ロック４１５）、新たなフレームがデジタル化される
（ブロック４００）。

【００２１】ブロック４１０において、相違が第１の所
定のスレッシュホールドより大きい場合にも、振る舞い
モジュールに通知が与えられる（ブロック４２０）。こ
のメッセージは、何らかの生命体が対話空間７５に存在
することを指示する。それと同時に、フレーム経歴ログ
４２５が、初期フレーム（ブロック４００の）である５
つの新たな同一のフレームで初期化される（ブロック４
３０）。大きなインターバルの間に（好ましい実施形態
では約１０秒ごとに）捕獲される新たなフレーム（ブロ
ック４３５）は、次いで、ログの各フレームと比較さ
れ、第２のスレッシュホールドより高い差があるかどう
か決定される（ブロック４４０）。第２のスレッシュホ
ールドは、第１のスレッシュホールドより高感度の読み
を与える。第２のスレッシュホールドより高い差がある
場合には、フレーム経歴、即ち５フレーム回転バッファ
にフレームが追加される（ブロック４３０）。次いで、
ブロック４３０、４４０及び４４５のステップが繰り返
され、生命体が到着したことを指示する。第２のスレッ
シュホールドより低い差がある場合には（ブロック４４
５）、フレームが基準フレームと混合され（ブロック４
５０）、新たな基準フレーム４５５が形成される。アク
ティビティ検出プログラムの最終的な結果として、環境
へと漂遊することのある非生命体を捕獲するようにバッ
クグランドをゆっくりと進展できると共に、照明の変化
のようなゆっくりと変化する特性を受けることができ
る。

【００２２】第１の対話空間７５に移動物体が存在する
場合には、アクティビティ検出プログラムは、各映像フ
レームにおいて、その物体のブロブの代表的な点又は形
状の位置を追跡することにより、その物体の速度を計算
する。次々のフレームにおけるブロブの位置を平滑化
し、カルマンフィルタ動作のような既知の技術を使用し
てノイズの影響を減衰する。アクティビティ検出プログ
ラムは、検出されたブロブに基づきキオスクの対話空間
７５における潜在的なユーザの存在の記録を維持する。

【００２３】速度の計算アクティビティ検出プログラムは、次々のフレームにお
けるブロブの位置を追跡することにより、第１の対話空
間７５において移動するユーザの速度を計算する。この
速度を使用して、第１の対話空間７５におけるブロブの
「意志」を指示する。即ち、速度を使用して、ブロブが
キオスクの潜在的なユーザを表すかどうか決定する。

【００２４】速度は、時間に伴うブロブの位置の変化と
して計算される。速度を計算するために、ブロブの位置
は、移動するブロブの先縁の代表的な点の座標として定
義される。対話空間に１つのゾーンしかないときには、
代表的な点がブロブの先縁の中心となる。対話空間に４
つのゾーンがあるときには、各ゾーンにおいて代表的な
点が定義される。中央及び後方ゾーンにおいては、この
点は、ブロブ２５２、２６７の先縁の中心である。左ゾ
ーンにおいては、この点は、ブロブ２６２の右縁の前部
である。右ゾーンにおいては、この点は、ブロブ２５７
の左縁の前部である。ブロブの速度は、各ゾーンにおい
て独立して分析される。

【００２５】振る舞いモジュール図６に示す振る舞いモジュール２５は、視覚モジュール
１５の出力と、環境３０の三次元モデルのような重要な
情報とを使用して、アクションを公式化する。振る舞い
モジュール２５は、インテリジェントで且つ魅力的なも
のとして認知できる仕方でユーザの振る舞いに反応する
手段として１組のルール（例から学習するための潜在性
を伴う）を使用する。外部の視覚刺激に反応するメカニ
ズムは、既知の（又は学習した）移行ルールに基づく有
限の状態マシンの異なる状態と、入力状態との間の移行
に等しい。簡単な例として、振る舞いモジュール２５
は、検出モジュール１２５の出力を用いて、ユーザの存
在を確認することができる。これは、ディスプレイスク
リーン５５において「ハロー」と言うリアルタイムで話
をする頭部の形態を取ることができる。このような話を
する頭部は、「合成顔面のための自動唇同期アルゴリズ
ム(An Automatic Lip-Synchronization Algorithm for
Systhetics Faces) 」、ケイス・ウオータ及びトム・レ
バーグッド著、プロシーディングズ・オブ・ザ・マルチ
メディアＡＣＭコンファレンス、１９９４年９月の第１
４９−１５６ページに掲載されている。更に複雑な例で
は、ステレオモジュール１３５（ユーザの現在三次元位
置を生じる）の出力を使用して、振る舞いモジュール２
５は、ユーザに対して固定するように話をする頭部を回
転することにより、特定のユーザに注意を集中するよう
に話をする頭部に指令することができる。多数のユーザ
の場合には、振る舞いモジュール２５は、その注意をこ
れらユーザ間に分割するように話をする頭部に指令する
ことができる。発見的試行を適用して、キオスクが、１
人のユーザに他のユーザよりも多くの注意を払うように
することもできる（例えば、接近性又は視覚アクティビ
ティのレベルに基づいて）。別の例では、ステレオモジ
ュール１３５及び三次元ワールド情報３０の両方を使用
することにより、振る舞いモジュール２５は、ユーザの
現在の三次元位置に基づき、ユーザに視覚的に又は口述
で指令情報を発生することができる。

【００２６】カラーブロブカバーブロブは、キオスクのユーザが対話空間に対して
移動するときにユーザを追跡するのに使用される。ユー
ザの衣類のカラーの分布がＹＵＶカラー空間においてヒ
ストグラムとしてモデリングされる。本発明により使用
されるカラーヒストグラム検出アルゴリズムは、「カラ
ーインデクシング(Color Indexing)」、ミッシェルＪ．
スワイン及びダナＨ．バラード著、インターナショナル
・ジャーナル・オブ・コンピュータ・ビジョン、７：
１、１９９１年、第１１−３２ページに掲載された物体
検出の章に説明されている。本発明においては、カラー
ヒストグラム方法がユーザ追跡のために使用され、そし
てステレオ式の位置決めまで拡張される。

【００２７】ヒストグラムモデルが与えられると、ヒス
トグラムインターセクションアルゴリズムを使用して、
そのモデルが入力フレームに整合される。このアルゴリ
ズムの後方投影段階は、ヒストグラムモデルに一致する
各ピクセルを表示する。表示されたピクセルのグループ
がカラーブロブを形成する。各ブロブごとに境界ボック
ス及び中心点が計算される。境界ボックス及び中心点
は、像におけるユーザの位置に対応する。境界ボックス
は、ブロブのｘ及びｙの最小及び最大の境界である。カ
ラーブロブモデルは、キオスク環境においてユーザを追
跡するという利点を有する。主たる利益は、ユーザが視
覚的に異なる衣類を着用している限り多数のユーザを同
時に追跡できることである。ヒストグラムモデルは、２
つ以上の優勢なカラーで衣類を記述し、単一カラーモデ
ルよりも良好に選択できるようにする。ヒストグラム整
合は、ＮＴＳＣ解像度の像（６４０ｘ４８０ピクセル）
に対しても非常に迅速に行うことができ、単一のユーザ
を３０フレーム／秒で追跡することができる。又、カラ
ーブロブは、環境上の影響に不感である。カラーブロブ
は、ユーザとカメラとの間の距離が変化するときに広範
囲なスケールのもとで検出することができる。又、カラ
ーブロブは、回転及び部分的な遮断にも不感である。カ
ラー空間における強度を正規化することにより照明の変
化に対する健全さを達成することができる。しかしなが
ら、検出されるカラーブロブの中心位置は、照明の変化
により著しい影響を受ける。追跡にカラーを使用する場
合、ヒストグラムモデルを構築できるところの基準像が
必要となる。本発明のここに示す実施形態の構造では、
フレーム内の移動物体を検出するアクティビティ検出モ
ジュールにより最初のブロブ検出が行われる。アクティ
ビティ検出モジュールは、検出されたブロブが直立して
移動する人間に対応すると仮定し、そして検出されたブ
ロブの中央領域からピクセルをサンプリングして、カラ
ーヒストグラムモデルを構築する。

【００２８】ステレオステレオ技術により、ユーザの位置に関する真の三次元
情報を、シーンに対し任意の位置にあるカメラから計算
することができる。ステレオ技術は、図７に示すよう
に、２つ以上のカメラからフレームを同時に収集するこ
とを必要とする。これは、シーンの形状の詳細な記述を
計算するための既知の方法である。古典的な解決策で
は、２つのカメラから得たフレームが処理され、そして
一対のカメラにおけるピクセル間の対応性が決定され
る。この対応性と、カメラの相対的な位置が与えられる
と、三角法を使用して、シーンにおける点までの距離が
計算される。古典的な解決策では、高レベルの細部が過
剰な計算リソースを必要とする。本発明の実施形態の方
法は、古典的なステレオ技術の簡単な物体ベースの形態
に基づくものである。移動物体は、同期したカメラから
得た像におけるカラー又は運動ブロブを使用して独立し
て追跡される。個別の視野における移動物体の位置に対
して三角法を使用して、シーンにおける物体が位置決め
される。三角法の前に追跡が行われるので、高密度のス
テレオ連合の通信及び計算コストが回避される。

【００２９】三角法が図７に示されている。第１のカメ
ラ像７０２におけるブロブ７００の位置が与えられる
と、ユーザ７０５の位置は、第１のカメラ７１５からブ
ロブ７００の中心を経てシーンへと延びる線７１０に沿
って存在すると制約される。第２のカメラ像７２０にお
ける第２のブロブ７１２の位置が与えられると、ユーザ
７０５の位置は、第２の線７２５に沿って存在すると制
約される。ユーザ７０５は、シーンにおける第１の線７
１０及び第２の線７２５の交点に位置する。実際の動作
においては、ブロブ７００、７１２の位置のノイズによ
り、２本の線７１０、７２５が正確に交差することは仲
々ない。それ故、２本の線７１０、７２５が最も接近す
るシーンの点を、ユーザ７０５の三次元位置として選択
する。

【００３０】キオスクシステムの好ましい実施形態で
は、６フィートの基線、即ちカメラ間の分離をもつ一対
の縁取りされたカメラが使用される。ステレオ解決策
は、内部カメラパラメータ及びカメラ座標系間の関係の
両方が既知である校正されたカメラを有することに依存
する。これらパラメータを決定するための校正パターン
を伴う標準的な非直線性最小２乗アルゴリズムが使用さ
れる。カメラの同期は、カメラの外部同期入力を一緒に
連結することにより達成される。カメラの像を処理する
ブロブ追跡モジュールが同時に動作を開始するよう確保
するためにバリア同期が使用される。同期エラーは、従
来のステレオシステムに著しい影響を及ぼすが、大きさ
サイズ及び範囲をもつブロブは、これらのエラーに対し
てステレオシステムを非常に健全なものにする。

【００３１】上記の実施形態は、本発明の原理を単に例
示するものに過ぎないことを理解されたい。本発明は、
キオスクに関して説明したが、別の実施形態として、自
動銀行窓口装置（ＡＴＭ）、高級なマルチメディアＴ
Ｖ、又はオフィス用デスクコンピュータを挙げることが
できる。又、当業者であれば、本発明の範囲内で本発明
を用いて種々の他の変更や修正がなされ得ることが明ら
かであろう。

【図面の簡単な説明】

【図１】公共のコンピュータ化されたユーザインターフ
ェイスのブロック図である。

【図２】キオスク及び対話空間を示す図である。

【図３】キオスクのブロック図である。

【図４】４ゾーンインターフェイス空間を示す図であ
る。

【図５】アクティビティ検出プログラムのフローチャー
トである。

【図６】振る舞いモジュールプロセスのブロック図であ
る。

【図７】ユーザのステレオ検出の構成を示す図である。

【符号の説明】

１０コンピュータユーザインターフェイス１５感知モジュール２０現実ワールド環境２５振る舞いモジュール３０三次元モデル３５フィードバックモジュール５０キオスク５５ディスプレイスクリーン６０、６５、７０カメラ７５、８０対話空間１０５デジタイザ１１０スピーカ１２０メモリ／プロセッサ１２５検出モジュール１３０追跡モジュール１３５ステレオモジュール

フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ０６Ｔ 7/20 Ｇ０６Ｆ 15/70 ４１０ (72)発明者マリアロークリンアメリカ合衆国マサチューセッツ州 02178ベルモントワトソンロード 80 (72)発明者ジェームズエムレーグアメリカ合衆国マサチューセッツ州 02174アーリントンウィンターストリート 73 (72)発明者シンビンカンアメリカ合衆国マサチューセッツ州 02138ケンブリッジマサチューセッツアベニュー 1600−702

Claims

【特許請求の範囲】

【請求項１】カメラで観察できるシーンの移動対象物
又は人間と対話するためのコンピュータ化された方法に
おいて、シーンの次々のフレームを比較することにより移動対象
物の姿勢を決定し、次々のフレームの比較により決定された移動対象物の姿
勢に基づき移動対象物により感知できる情報を出力す
る、という段階を含むことを特徴とする方法。
【請求項２】移動対象物の姿勢は、移動対象物の位置
を含み、更に、この位置は、三次元空間において決定さ
れ、そしてシーンを観察するために多数のカメラが使用
される請求項１に記載の方法。
【請求項３】上記シーンは、複数の移動対象物を含
み、上記方法は、複数の移動対象物の優勢なカラーを観
察して、いずれの移動対象物とも独立して対話すること
を含む請求項１に記載の方法。
【請求項４】手前のフレームと次のフレームとの間の
相違が所定値よりも大きい場合にはシーンの手前のフレ
ームをバッファに繰り返し記憶し、バッファに記憶されたフレームを分析することにより移
動物体の姿勢を決定することを更に含む請求項１に記載
の方法。
【請求項５】カメラで観察できるシーンの移動対象物
又は人間と対話するためのコンピュータ化された装置に
おいて、シーンの次々のフレームを比較することにより移動対象
物の姿勢を決定するための手段と、次々のフレームの比較により決定された移動対象物の姿
勢に基づき移動対象物により感知できる情報を出力する
ための手段と、を備えたことを特徴とする装置。
【請求項６】人々と対話するためのコンピュータ化さ
れたインターフェイスにおいて、任意の物理的環境の領域を一連の像として測定するカメ
ラと、上記一連の像から上記領域の人間を検出し、その人間を
対話のターゲットとして識別する手段と、を備えたこと
を特徴とするインターフェイス。
【請求項７】上記検出された人間に向けられる音声及
び視覚情報をレンダリングするための手段と、上記領域における人間の速度を決定するための手段とを
更に備え、上記レンダリングされる音声及び映像情報の内容は、人
間の速度に依存し、上記レンダリングする手段は、目と口及び唇を含む頭部
の像を表示するディスプレイシステムを含み、このディ
スプレイシステムは、検出された人間の頭部の向き及び
目の凝視点を指令しながら、唇の動きに同期した音声情
報をレンダリングして、その頭部が人間を見て話すよう
に見えるようにする請求項６に記載のインターフェイ
ス。
【請求項８】上記一連の像は、基準像及びターゲット
像を含み、各像は、ピクセルにより定義され、基準像の
ピクセルは、ターゲット像のピクセルと１対１で対応
し、そして更に、基準像をターゲット像と比較して、ターゲット像の対応
ピクセルとは相違する基準像の隣接ピクセルのグループ
を識別するための手段を備え、識別されたピクセルグル
ープは、人間を表し、上記比較手段は、基準像の各ピク
セルの強度を、ターゲット像の各対応ピクセルの強度と
比較し、そして上記検出手段は、基準像の少なくとも所
定数のピクセルの強度が、ターゲット像の対応ピクセル
の強度と異なるときに、領域における人間の存在を検出
する請求項６に記載のインターフェイス。
【請求項９】基準像の所定数より少ないピクセルがタ
ーゲット像の対応ピクセルと異なるときには、ターゲッ
ト像を基準像と混合して新たな基準像を形成するための
手段を更に備えた請求項８に記載のインターフェイス。
【請求項１０】人々と対話するためのコンピュータ化
されたインターフェイスにおいて、任意の物理的環境の領域を一連の像として測定するカメ
ラと、上記一連の像から領域において検出された人間に向けら
れる音声及び映像情報をレンダリングして人間と対話す
るための手段と、を備えたことを特徴とするインターフ
ェイス。