JP6013923B2

JP6013923B2 - ビデオエピソードの閲覧及び検索のためのシステム及び方法

Info

Publication number: JP6013923B2
Application number: JP2013002324A
Authority: JP
Inventors: スコット・ディー・ラベンダー; フィリップ・ドネガン; ダニエル・ティー・ジャーヴィス; シャンムガ−ネイサン・グナナサムバンダム
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2012-01-18
Filing date: 2013-01-10
Publication date: 2016-10-25
Anticipated expiration: 2033-01-10
Also published as: US20130182893A1; EP2618288A1; JP2013150320A; US8798318B2

Description

本明細書は一般に、ビデオデータを収集し検索して、監視される物理的領域内の人間や車両等の対象の頻出行動パターンを検知する方法、システム、及びコンピュータ可読媒体に関する。

交差点、公共の場、及びビルの構内等の領域は、様々な理由でビデオカメラにより頻出に監視されている。例えば、防犯上の理由で、銀行や小売店等のビジネスでは、ビルの内部の特定な領域を監視して、違法行為を防止し、違法行為が発生したときに警察へ提供する情報を収集することができる。ビデオ監視の別の用途は、物理的領域内で移動する対象の挙動を分析することであり得る。例えば、交通カメラを設置して特定の交差点における車両の動きを監視することができる、又は美術館で美術愛好家たちの活動を監視することができる。

これらの例の全てにおいて、その本来意図した目的のためには、既存の技術を用いて、記録されたビデオデータを手作業で観察し分析することが必要である。例えば、小売店で窃盗が発生したかどうかを判定する場合、特定の領域のビデオ映像を手作業で検閲して窃盗がいつどのようにして発生したかを判定することが必要な場合がある。数日又は数週間に間に窃盗が発生した場合、このような手作業の検閲作業では、何十、何百もの人と時間を費やしてしまうであろう。

同様に、交差点を監視する目的が、頻出する交通パターンの特定の場合、手作業の検閲で、ビデオデータからそのような頻出するパターンを識別することが必要であり得る。この手作業の検閲では、撮影された交差点の長時間に及ぶビデオ映像を分析することが伴う可能性があり、個々の車両の動きに関する観察記録を収集し、次いで集められた観察記録を分析して、もしあれば、頻出する交通パターンを識別する。

このような手作業の検閲作業は退屈で時間がかかるだけでなく、人的ミスや非従順性の影響も被る。例えば、人間によるビデオ映像の検閲により、発見されるべき所望の情報が得られない場合（見落とし、又は検閲に関する間違った基準のどちらかによる）、見落とされた観察記録を得るためだけ、又は検閲に関する新しい基準を用いるためにだけで、この検閲を、もう一度最初からやり直さなければならなくなるであろう。

したがって、ビデオデータを検索し分析して、特定な事象を識別し、監視される物理的領域内で頻出するパターン又は動きを検知する、自動化された技術が必要である。

本明細書は、ビデオ分析の分野で、これらの又はその他の改善に取り組むものである。いくつかの実施形態では、本明細書では、物理的領域内の１つ以上の対象の画像を示す複数のフレームを含むビデオデータを受信するステップと、ビデオデータ内の複数の事象を識別し、物理的領域に関連するグリッド内の第１の位置からグリッド内の第２の位置への注意の対象の動きを事象が示すステップと、複数の事象を反映する複数の事象データ記録を生成するステップと、複数の事象データ記録から１つ以上の頻出するエピソードを決定し、エピソードには特定の注意の対象に関連する一連の事象が含まれる、ステップとが提供される。

図面には下記のものが含まれる。

図１は、開示されたいくらかの実施形態と一致する、複数のカメラを用いて物理的領域内で対象を監視する例示的な構成を示す説明図である。図２は、開示されたいくらかの実施形態と一致する、ビデオエピソードの観察及び検索の作業内の例示的な段階の概略を示す流れ図である。図３は、開示されたいくらかの実施形態と一致する、ビデオデータを検索して頻出するエピソードを識別する、例示的な方法を示す流れ図である。図４は、開示されたいくらかの実施形態と一致する、事象記録をビデオデータから生成する例示的な方法を示す流れ図である。図５は、開示されたいくらかの実施形態と一致する、例示的な事象記録を示す説明図である。図６は、開示された実施形態のうちの１つ以上を実行するために使用可能な例示的なハードウェア構成を示す説明図である。

図１に示す通り、カメラ１１２ａ〜１１２ｄ等の１台以上の撮像装置により領域１２０を監視することができる。領域１２０は、その中で１つ以上の対象の動きを監視することが所望されるあらゆる物理的空間でよい。例えば、領域１２０は、ビル、小売店、美術館、官庁等の中の床領域でよい。領域１２０は、公共公園、道路、街角、戦場等の屋外会場に対応することもできる。

領域１２０内で１つ以上の注意の対象を監視することができる。いくつかの実施形態では、注意の対象は、その対象の領域１２０内の動きについて検索される情報に関する、人間又は車両等の対象でよい。例えば、図１に示す通り、注意の対象は、領域１２０を通り抜ける、又は領域１２０内を歩く人間１３０でよく、この領域１２０は美術館内の展示会に対応することができる。他の実施形態では、領域１２０は道路の一部でよく、注意の対象には、道路上又はその近くを走行する車両が含むことができる。

領域１２０は、グリッド１２２に関連し得、このグリッド１２２により、領域１２０をセル１２４等の複数の隣接セルに分割される。図１には、グリッド１２２が領域１２０の一部だけをカバーしているように示されているが、領域１２０内の各Ｘ−Ｙ座標が、特定のグリッドセル内に入って分類されるように、グリッド１２２を拡張して、領域１２０全体をカバーすることができる。

カメラ１１２は、大型コンピュータシステム１１０の構成要素でよく、この大型コンピュータシステム１１０は、１台以上のデータ記憶装置１１４、１台以上の処理サーバ１１６、及び１台以上のクライアント側装置１１８も含む。データ記憶装置１１４は、１台以上のカメラ１１２から受信した未加工のビデオデータ、及び／又はビデオデータの分析を反映するデータ記録を記憶するために用いることができる。処理サーバ１１６を用いて、データ記憶装置１１４に記憶されたビデオデータ及び／又はデータ記録を検索し分析することができる。クライアント側装置１１８でシステム１１０を設定し、ビデオ分析の基準を規定し、人間の操作者が、ビデオ分析の結果を観察する等の目的でシステム１１０とやり取りすることができる。当業者には明らかであろうが、開示されている実施形態を実行するために全ての好適な装置のシステムを用いることができる。

図２に示す通り、ビデオエピソードの監視及び検索の作業を３つの基本的なステップ即ち段階に分割することができる。ステップ２１０で、システム１１０が領域１２０内で対象のビデオデータを撮影することができる。例えば、図１に示す通り、１台以上のカメラ１１２ａ〜１１２ｄを用いて、対象１３０のビデオデータを様々な視点から撮影することができる。グリッド１２２内のどのポジションに各カメラ１１２が配置されているかが分かり、そしていつでも撮影するように、各カメラ１１２を設定することができる。例えば、領域１２０内又は、領域１２０に対する異なる位置に、各カメラ１１２を配置することができる。異なる鉛直高さに異なるカメラを配置することができ、それらのカメラが、回転の異なる鉛直角、及び異なる水平角を有し得る。したがって、各カメラがグリッドセル１２４等の特定のグリッドセルに焦点を合わせるために、垂直回転、水平回転、及びデジタル及び／又は光学ズームのパラメータ（以後本明細書では「カメラの設定」）を組合せて用いることが各カメラには必要である。

したがって、現在のカメラ設定とグリッド１２２との間の既知の相関関係即ち数学的関係を調べることにより、各カメラ１１２を前もって設定して、どのグリッドセル即ちセルを撮影するかの決定しておくことができる。あるいは、サーバ１１６等の、システム１１０内の１台以上の別の装置により、このような関係を維持することができる。サーバ１１６は、各カメラ１１２から未加工のビデオデータを受信し、受信したビデオデータをカメラに対する現状の設定（この設定もカメラからリアルタイムで受信することができる）に関連付けることができる。さらに、特定のグリッドセルに焦点を合わせる命令を受けて、その命令に応じて、その特別なセルに焦点を合わせるために必要な特定の設定を各カメラが適用できるよう、各カメラ１１２を設定することができる。

あるいは、各カメラに対する適切な設定を決定し、セルに焦点を合わせるための各々の設定を各カメラに送信することにより、サーバ１１６は、特定なグリッドセルに焦点を合わせるよう１台以上のカメラ１１２に命令することができる。時には、各カメラ１１２が、同じグリッドセルに焦点を合わせることができるが、別の時には、異なるカメラ１１２が、異なるグリッドセル又はグリッド１２２の領域に焦点を合わせることができる。

各カメラ１１２は、１２２内の１つ以上のグリッドセルを継続的に監視し（ビデオデータを撮影すること等により）、そのビデオデータを１台以上のデータ記憶装置１１４に送信することができる。図１には、単一のデータ記憶装置として示されているが、データ記憶装置１１４は、これには制限されずに、むしろ、複数の独立した、余剰な、又は半余剰なデータ記憶装置を含むことができ、これらのデータ記憶装置を、１つ以上の建物又は管轄区域さえにも渡り、配置又は分散させることができる。

いくつかの実施形態では、システム１１０を用いて、離れて位置する複数の領域１２０を監視することができ、各カメラからのビデオデータをクラウド型メモリインターフェースに供給し、そこで複数の異なるメモリ装置にビデオデータを記憶し、カメラ１１２から履歴を削除することができる。

いくつかの実施形態では、カメラ１１２により撮影されたそのような全てのビデオデータを、撮影されたデータに関するグリッド位置及び／又はカメラの設定と、撮影されたデータに関する時間情報と共に、データ記憶装置１１４に記憶させることができる。例えば、撮影されたビデオデータを一連の連続静止画像のフレームとして表し、記憶することができる。そのフレームが撮影された時刻を示すタイムスタンプ、及びそのフレームの撮影に用いられたカメラの設定と共に、そのような各フレームをデータ記憶装置１１４に記憶することができる。撮影するカメラ１１２、又はシステム１１０内の１台以上の他の装置により、そのようなフレームのメタデータを決定する、又は送信することができる。

ステップ２２０で、システム１１０は、撮影されたビデオデータを分析して、１つ以上の頻出するエピソードを判定することができる。１台以上のカメラ１１２によりビデオデータが撮影されると、撮影されたビデオデータをリアルタイムで分析することができる。他の実施形態では、撮影されたビデオデータを最初に１台以上のデータ記憶装置１１４に記憶し、後の時間（例えば、十分なビデオデータが蓄積された後）で分析することができる。例えば、美術館の監視に関連すると、美術館が公開されているとき等の日中の特定な時間帯に、ビデオデータを撮影することができ、夜ごとに一括処理を行って前日に’撮影されたビデオデータを分析することができる。

図２で列挙した通り、撮影されたビデオデータを分析して、１つ以上の頻出するエピソードを識別することができる。いくつかの実施形態では、領域１２０内での特定の注意の対象の動き、又は挙動に関連した連続する事象とエピソードをみなすことができ、各事象は、特定の注意の対象による、構成された身振り即ち動き又は挙動の増分を表すことができる。頻出するエピソードは挙動パターンを表し、この動作のパターンは、領域１２０内での異なる対象の、経時的な頻度の閾レベルで示すことができる。

いくつかの実施形態では、頻出するエピソード（及び個々のエピソードで構成される連続する事象）に基づいて推測される経路即ち軌道に、頻出するエピソードをマッピングすることができる。したがって、頻出するエピソードの実際の例が、共通経路又は所与の空間内での、人間又は対象による行動パターンでよい。１つ以上の頻出するエピソードを決定した後、下記により詳しく説明するが、このようなエピソードを、グリッド領域１２２の実際の画像又は合成画像上の１枚以上の画像の重ね合わせとして、ユーザに見える形で提示することができる。

次に図３に注目すると、１つ以上の頻出するエピソードを識別するために行われる、ある例示的な操作が示される。ステップ３１０で、システム１１０は、撮影されたビデオデータ内の特異な事象を識別することができる。上記で説明した通り、事象は、領域１２０内の特定の注意の対象の状態又はポジションの特異な変化を表すことができる。図４は、いくらかの例示的な操作を示し、この操作により特異な事象を識別しメモリ内に表示することができる。

ステップ４１０で、システム１１０は、（例えば、サーバ１１６を用いて）第１のフレームを分析して第１の注意の対象を識別することができる。例えば、システム１１０は、データ記憶装置１１４に記憶された全ての所与のフレームを選択することができる。様々なビデオ及び／又は画像分析ツール、即ちアルゴリズムを用いて、サーバ１１６は、注意の対象を識別することができる。例えば、所与のフレーム内の画像データを、環境データと主体データとに概念的に分割することができる。環境データにより、領域１２０内の特定な標識対象を表すことができ、この標識対象は、領域１２０の床又は１つ以上の窓、ドア、照明器具等の、常時又は通常存在すると見込まれる対象である。美術館の監視に関連すると、いくらかのグリッドセルをとらえたビデオフレームには、通常壁にかかったいくらかの絵画や、別の展示会への入り口の画像が含まれると見込むことができる。

したがって、いくつかの実施形態では、見込まれる全ての環境データ即ち標識対象をフィルタリングで取り除き、フレーム内の非標識対象に関連する画像データが存在することを判定することにより、所与のフレーム内で注意の対象を識別することができる。このようなフィルタリング操作により、フレーム内の画像データを分析する際、コンピュータにかかる負担の低減にも役立つこともできる。

他の実施形態では、対象が移動中であることを判定することにより、注意の対象を識別することができる。例えば、フレーム内の画素データを分析することにより、動作と一致する対象のいくらかのぶれ特性を明らかにすることができる。又は、１つ以上の別の（例えば、隣接する）フレームを分析して、フレーム間の対象のポジション違いを検知することができる。例えば、鉢植え、ドア、窓、信号等の、環境データ内のいくつかの標識対象を、同じグリッドセル内の連続するフレームにおいて基本的に動かないままであると見込むことができる。したがって、特定のグリッドセル、又はグリッド領域内の他の対象に対する基準点として、このような標識対象を用いることができる。フレーム間のそのポジションを１つ以上の標識対象に対して変化する、いくらかの非環境画像データが検知された場合、次いで、そのデータを、移動中の対象、つまり注意の対象として識別することができる。

さらに別の実施形態では、既知である注意の対象に関連する１つ以上の特徴を伴うそれらの画像データの整合性に基づいて、注意の対象を識別することができる。例えば、システム１１０を、いくらかの対象の分類に関連するいくつかの分類符号とともに、プログラムすることができる。その分類に属している全ての対象に共通すると見込まれるいくらかの特徴を分類符号により規定することができる。

例えば、システム１１０は、フレーム内の人間を識別するために使用可能な分類符号にアクセスすることができる。そのような分類符号により、サーバ１１６に命令して、サーバ１１６が１つ以上の肌の色合いと一致する対象内の色を識別可能な場合に限り、フレーム内の対象を人間として識別することができる。この分類符号は、その対象が何らかの方法で形付けられる、又は設定される（例えば、一番上の顔と一致する領域）、あるいは何らかの方法で移動することを必要とし得る。

システム１１０が、分類符号を用いて、注意の対象を識別することができた場合、次いで、システム１１０は、特徴の抽出信頼度を演算することができる。この特徴の抽出信頼度により、信頼度の測定基準、数値を表示することができる、あるいは、システム１１０は、注意の対象の画像データが分類符号により規定される特徴と一致する度合いに基づいて、何らかの分類に属している注意の対象を識別している。

システム１１０が注意の対象を識別した後、ステップ４２０で、システム１１０は、対象に関連する対象符号を生成することができる。いくつかの実施形態では、対象符号を用いて特定な注意の対象の特徴を表して、複数のフレームに渡って、同じ対象を追跡できるようにする。例えば、注意の対象が人間の場合、次いで、対象符号によりその人間に関連する特定な顔の特徴、肌の色合い、体格、又は洋服の色を表示することができる。

したがって、分類符号が、ある分類内の複数の異なる対象に渡って共通であると見込まれる特徴を表すことができる一方で、対象の符号を用いて、特定の注意の対象に特有な特徴、即ち、普通ならその対象を、同じフレーム又は別のフレーム内の別の対象と区別するために用いられる特徴を識別することができる。とはいえ、複数のフレーム間で注意の対象を追跡するために、フレーム間で基本的には変化しないと見込まれる対象のいくらかの特徴を、対象符号は反映することができる。

対象符号を生成してフレームデータ内の注意の対象を識別することに加え、システム１１０は、注意の対象及び／又はその符号に一意の識別子（「対象ＩＤ」）を割あてることができる。対象ＩＤは数値でよく、所与のフレームに関して、そのフレーム内で特定の注意の対象が検知されたかどうかを記録するために、この対象ＩＤを用いることができる。

ステップ４３０で、システム１１０は、第１のフレームの最中に、グリッド上の対象のポジション（「第１のポジション」）を識別することができる。例えば、上記に説明した通り、カメラ１１２を調整して、いつでも、グリッドセル（複数可）を識別できるようすることができ、そのために、画像データ、それらの所与の現状の傾斜角度、回転、パンニング、ズーミング等をカメラ１１２は記録している、又は、カメラ１１２からビデオデータを受信するシステム１１０内の装置により、そのような位置情報を判定することができる。

ステップ４４０で、システム１１０は、第２の、別のフレームを分析して、第２の注意の対象を識別することができる。例えば、第１のフレームに対して行われた操作と同じように、第２のフレームを分析して、任意の注意の対象が存在するかどうかを、参照対象、分類符号等を用いて判定することができる。

ステップ４５０で、システム１１０は、第２の対象の画像の特徴を第１の対象に関連する符号と比較することにより、第２の注意の対象が、第１の注意の対象と同一かどうかを判定することができる。第２の対象が第１の対象と一致したら、次いで、第１の対象が第１のフレームと第２のフレームの両方の中で検知されたかどうかを判定することができる。ステップ４６０で、グリッド上の第２の対象のポジション（即ち、「第２のポジション」）を判定することができる。最終的にステップ４７０で、システム１１０はデータベースに事象記録を記憶し、そして対象の第１のポジションと第２のポジション、及び、その他のデータを反映することができる。図５は、開示されたいくらかの実施形態と一致する、例示的な事象記録を示す説明図である。

図５に示す通り、データ記憶装置１１４は、表５００を記憶することができ、この表５００は、特定の注意の対象に対して検知された様々な事象を反映する一連の記録Ｒ_０〜Ｒ_ｎを含むことができる。例示的な事象記録領域が事象記録Ｒ_０に関して示されており、次にそれらをさらに詳しく説明する。

事象記録は、「ｏｂｊ＿ＩＤ」領域５０１を含むことができ、この「ｏｂｊ＿ＩＤ」領域５０１は、特定の注意の対象に割り当てられる対象ＩＤを示す。事象記録は、「ｔｉｍｅ＿Ａ」領域５０４で識別される第１の時間での、注意の対象のグリッドポジションを示す「ｐｏｓ＿Ａ」領域５０２と、「ｔｉｍｅ＿Ｂ」領域５０５で識別される第２の時間での、注意の対象のグリッドポジションを示す「ｐｏｓ＿Ｂ」領域５０３と、を含むことができる。「ｐｏｓ＿Ａ」領域と「ｐｏｓ＿Ｂ」領域とが異なる場合、又は閾値だけ異なる場合、次いで事象記録が、グリッド内の注意の対象による経時的な動きを反映することができ、システム１１０により検知される。領域５０２及び領域５０３により識別されるポジションは、それぞれ「出発」点及び「到着」点とも称することができ、領域５０４及び領域５０５で識別されるタイムスタンプは、それぞれ「出発」タイムスタンプ及び「到着」タイムスタンプとも称する。

上述の領域に加えて、事象記録は様々なメタデータ領域を含むことができる。例えば、事象記録は、第１の時間（「ｃａｍ＿ｓｅｔｔｉｎｇｓ＿Ａ」領域５０６）及び第２の時間（「ｃａｍ＿ｓｅｔｔｉｎｇｓ＿Ｂ」領域５０７）に撮影された対象の１台以上のカメラ１１２の設定を示す情報を含むことができる。上記で説明した通り、そのようなカメラの設定には、回転角度又は傾斜の角度、ズーム値及び焦点値等が含まれ得る。このようなカメラの設定を用いて、注意の対象に対する位置データを確認又は改善することができる。

いくつかの実施形態では、事象記録は、「ｆｅａｔｕｒｅ＿ｍｅｔａｄａｔａ」領域５０８を含むことができ、この「ｆｅａｔｕｒｅ＿ｍｅｔａｄａｔａ」領域５０８は、異なる２つのフレーム間で同じ対象が発生したことを判定するために用いることができる特徴又は画像の特性を反映する。例えば、「ｆｅａｔｕｒｅ＿ｍｅｔａｄａｔａ」領域５０８は、ステップ４５０で、第２の注意の対象を第１の注意の対象と照合するために用いられる、対象符号の全て又は一部を含むことができる。

さらに、２つの注意の対象が、２つの異なるフレーム間で完全に一致することがほとんどない可能性があるため、事象記録は、事象記録内の一致の度合いに関するメタデータを含むこともできる。例えば、事象記録は、「ｆｅａｔｕｒｅ＿ｅｘｔ＿ｃｏｎｆ」領域５０９を含むことができ、この「ｆｅａｔｕｒｅ＿ｅｘｔ＿ｃｏｎｆ」領域５０９は、対象を識別する特徴が正しく又は正確にフレームの画像データから抽出されたかの信頼度のレベルを反映する。事象記録は、「ｍａｔｃｈ＿ｃｏｎｆ」領域５１０をさらに含むことができ、この「ｍａｔｃｈ＿ｃｏｎｆ」領域５１０は、第２のフレーム内で識別された対象が、第１のフレーム内で識別された対象と本当に一致しているかの信頼度のレベル全体と、したがって同じ対象がグリッド内の第１のポジションから第２のポジションに移動したかの信頼度のレベルとを反映する。

さらに、数多くのフレームが毎秒撮影される場合、同じ対象が検知される、すぐ隣同志のフレームの組ごとに事象記録を記憶するよりむしろ、撮影された複数のフレームをサンプリングするほうが効率的である。したがって、いくつかの実施形態では、時間領域５０４及び５０５が、いくつかのフレーム又は時間範囲に渡って平均時間を表示することができる。

さらに、各カメラ１１２は、それぞれ異なるビデオフレームを所与の時間で撮影することができるが、複数のカメラ１１２が、同じ又は重複するグリッドポジションに焦点をあてた場合、次いで、カメラごとのフレームの組ごとに、分離した事象記録を作成するより、かえって、同じ時間に同じ位置を撮影した各カメラからのデータを用いて事象記録を作成することができる。したがって、例えば、「ｆｅａｔｕｒｅ＿ｅｘｔ＿ｃｏｎｆ」領域５０９は、いくらかの特徴が複数のカメラに渡って抽出された平均信頼度レベルを反映することができる。その上さらに、所与のフレーム内で複数の注意の対象が検知される場合、異なるタイムスタンプを有する注意の対象を、第２のフレーム内で識別することができれば、そのような各注意の対象が、作成され、記憶される特異な事象記録につながる可能性がある。

いくつかの実施形態では、ポジション領域５０２及び５０３の値が必用な閾値だけ異ならなければ、システム１１０が事象記録を記憶することを避けることもできる。このように値が近いことにより、注意の対象の動きが小さいことを反映することができる。したがって、第１の時間と第２の時間との間の対象の動きの小ささを反映する事象記録をデータベース１１４から省いて記憶され、続けて分析される必要のあるデータ量を減らすことができる。同様に、信頼度領域５０９及び／又は５１０が必用な閾値より低い場合、対象分類が正確に識別されたかどうか、又は異なるフレーム内の２つの注意の対象は実際に同じ対象かどうかに関して、低い信頼度レベルが不確実性を反映する可能性があるため、システム１１０は、事象記録を記録することを避けることができる。

いくつかの実施形態では、カメラ１１２（又はそれらの組合せ）により撮影された各フレームには、図４に対して説明された１ステップ以上の操作を行うことができる。つまり、カメラ１１２のうちの１台以上により撮影された各フレームに関して、隣接する又は近接するフレームが、１つ以上の注意の対象による動きを反映するかどうかを判定することができる。あるいは、上記に説明した通り、カメラ１１２により撮影されたフレームをサンプリングして、粒度のより高いレベルで動きを検知することができる。

しかし、いずれの場合でも、図３に戻って、カメラ１１２から受信したフレームの組を分析することにより、システム１１０は複数の事象記録を作成し、データベース１１４に記憶させることができる（ステップ３２０）。そのような記録は、グリッド１２２内の異なる複数の注意の対象の撮影された動きを反映することができる。

十分な数の事象記録が生成されデータベース１１４に記憶された後、ステップ３３０で、システム１１０は、事象記録分析して、特異なエピソード識別することができる。いくつかの実施形態では、「エピソード」とは、単純に特定の注意の対象の経時的な動きを反映する一連の２つ以上の事象のことを指す。その他の実施形態では、「エピソード」を下記のように、２つ以上の連続する事象記録として、より具体的に定義することができる。（ｉ）隣接する記録内で、第１の記録の到着点が、それに続く第２の記録の出発点である、（ｉｉ）隣接する記録内で、第２の記録のタイムスタンプが、その前の第１の記録のタイムスタンプを超えている、（ｉｉｉ）記録内で、到着のタイムスタンプが、出発のタイムスタンプより後である、（ｉｖ）エピソードの各事象記録により、同じ対象ＩＤが規定される、（ｖ）エピソード内の各隣接する記録の組の間の整合の信頼度が、規定された許容範囲内である。すぐ隣同志のフレームとは反対の、サンプリングされたフレームから生成された事象記録に関して、上述のエピソードの定義は必要に応じて変更可能である。

いくつかの実施形態では、全ての特異な多重事象のエピソードをデータベース１１４内の別表等の別のデータ記憶装置内に分類することができる。他の実施形態では、エピソードをデータベース１１４内の所定の場所で分析して、頻出するパターンを判定することができる。

ステップ３４０で、システム１１０は、データベース１１４内で反映された事象を分析して、頻出するエピソードを識別することができる。いくつかの実施形態では、特異なエピソード（頻出及び非頻出の両方）が識別され集められた後にだけ、ステップ３３０で、頻出するエピソードを識別することができる。他の実施形態では、ステップ３３０及びステップ３４０を基本的に連携して行うことができる。

頻出するエピソードとは、データベース１１４内のその他のエピソード、又はいくらかの特定な基準に従ったその他のエピソードのいずれかに対する頻度の閾値を用いて、見出されるエピソードの種類のことを指す。例えば、ビデオ分析が行われる領域１２０が美術館内の場合、エピソードとは、数人の来場者が領域１２０を通過して又は領域１２０内を移動するときに辿る特定の経路である。したがって、データベース１１４内の事象記録の分析により、同じ経路又は同様の経路を辿る、異なる来場者の数の閾値が明らかになった場合、その情報を頻出するエピソードとして表示することができる（この場合、美術館の来場者が辿る頻出する経路である）。同様に、交通監視の用途に関連する頻出するエピソードでは、頻出する交通パターン又は車両が進む経路を表すことができる。

単一の対象ＩＤだけに限定され得る特別なエピソードとは異なり、頻出するエピソードは、複数の対象の全てに一般性がある。つまり、複数の特異な注意の対象に関連する複数のエピソードに存在する、頻出する事象パターンという定義により、頻出するエピソードを識別することができる。というものの、対象の種類又は分類によっても、頻出するエピソードの範囲を定義することができる。例えば、交通監視の用途に関連すると、頻出するエピソードは、自動車が特に進む特定の経路を反映することができる、又はトラック及び／又はバスが、一般に正しいレーンを通行しているかどうか反映することができる。同様に、美術館を監視する用途では、頻出するエピソードは、領域１２０内で子供たちが辿る共通経路を反映することができる。これらのいずれの例でも、頻出するエピソードをエピソード内の注意の対象の分類（ここでは、自動車、トラック、子供たち等）により、定義することができる。

上記で説明した通り、システム１１０は、１つ以上のカメラにより撮影されたビデオデータを収集・分析することができ、そのような分析結果を削減して、複数の事象記録の形態をとる簡単な文字データにすることができる。その後、事象記録を簡単な文字データベースの記録として分析することができるため、全ての好適なアルゴリズムを用いて頻出するエピソードパターンを識別することができる。

データベース１１４に記憶された全ての事象記録を分析して、頻出するエピソード識別することの代わりに又はそれに加えて、データベース１１４に記憶されたデータを、その他のより集中的な方法で分析することができる。いくつかの実施形態では、システム１１０により、（例えば、クライアント側装置１１８を通してやり取りをする）ユーザが、データベース１１４を検索して、特定な対象及び／又はエピソードの場所を見つけることができる。例えば、ユーザは、システム１１０に命令して、データベース１１４を検索して、黄色のシャツの男が撮影されたかどうかを識別することができる。次いで、システム１１０は、事象記録内のそのような対象の特徴を表示するメタデータを調べることにより（例えば、「ｆｅａｔｕｒｅ＿ｍｅｔａｄａｔａ」領域５０８及び／又は「ｆｅａｔｕｒｅ＿ｅｘｔ＿ｃｏｎｆ」領域５０９を調べることにより）、事象記録を検索し、そのような注意の対象が撮影されたかどうか判定することができる。

データベース１１４内で見つかると、次いでユーザさらにシステム１１０に命令して、（例えば、「ｏｂｊ＿ＩＤ」領域５０１により識別される）特定の注意の対象に関連する全ての事象記録の場所を見つけ、その対象に関する全てのエピソードを識別する。例えば、システム１１０は、黄色いシャツの男が行き来した経路を識別することができる。領域５０２及び５０３内に反映される位置データを用いることで、システム１１０は識別された経路を、グリッド領域１２２の実際の画像又は合成画像上に重ね合わせた画像として、さらに示すことができる。

いくつかの実施形態では事象記録は、フレームの識別子、又はその他のデータをさらに含むことができ、これらは、記憶された事象を特別なビデオフレームに関連付けることができる。このような関連性を用いて、システム１１０は命令を受けて、様々なカメラ角度から撮影された場所を特定されたれた対象の映像及び／又はその経路を含む、場所を特定された対象のビデオ映像を検索し提示することができる。これらの用途は、例えば、既知の身体的特徴を有する特定の犯罪容疑者を追跡することが所望される警察の用途で有益である。上記で説明した技術を用いてビデオデータをシステム１１０に送信したビデオカメラのどれかに、容疑者が撮影されているかどうかを素早く識別することができる。具体的には、合計で何十時間又は何百時間もかけて人間がそのような映像を手作業で検閲する必要なしに、単一の作業を用いて、様々なカメラの映像をそのように分析することができる。

システム１１０により、ユーザはさらに基準を規定して、全ての頻出するエピソードの特定、又は対象の検索を実行することができる。例えば、クライアント側装置１１８を用いて、特徴を抽出する又は対象を照合するための、特定の信頼度の閾値の範囲をユーザは規定することができ、必要に応じて、この閾値の範囲を調整して、結果を広げたり、又は絞り込んだりすることができる。分析範囲を対象の特定の分類（例えば人間、バス等）又はグリッド１２２内の特定の領域に制限するなど、識別される特定の頻出するエピソード、又は対象に関する制約をユーザが規定することもできる。

次に図２に戻ると、頻出するエピソードが識別された後、次いで、その分析から得られた情報を様々な方法で適用することができる。例えば、いくつかの実施形態では、頻出するエピソードが、交通状況内の車両のエピソード又はビルの中や公共の場の人々のエピソード等の人気のルート、経路、又は特定な背景による対象の特定の種類による活動を示すことができる。これらの情報は、下記にさらに詳しく説明する通り、肯定的及び否定的の両方で適用することができる。

頻出するエピソードから得られる、肯定的に適用される情報は、行動の共通パターンに適合する設計の作成又は政策決定に関与することができる。例えば、美術館に関連すると、識別された頻出するエピソードの分析により、来場者が特定の展示物を特定の順番で見る傾向が強いことが分かると、その情報を用いて、その特定の順番に適合する展示物の配置を設計する又は再設計することができる。同様に、交通に関連すると、頻出するエピソードの分析により、交差点での共通の交通パターン又はルートが判明できる、又は、特定の交通状態が発生したときに事故が頻発することが判明できる。結果として、交通局は将来共通パターンによりよく対応するよう、又はよりよく事故を防止するよう交差点を設計する（又は監視される交差点を再設計する）ことができる。

頻出するエピソードから得られる、否定的に適用される情報は、頻出しないエピソード検知しフラグを立てることに関与することができる。例えば、識別された、頻出するエピソードの分析により、領域１２０内の特定の対象に関する標準偏差、即ち「基準」を判明することができる。頻出するエピソードからそのような基準が決定された後、事象データを再分析して、特定の対象に関するエピソードのいずれかがが閾値による基準を超えているかどうかを判定することができる。いくつかの実施形態では、頻出するパターンと一致しない行動を不審な行動とみなし、フラグを立てて、潜在的な手作業の分析を含めて、さらに詳しく分析を行って、この不一致が、間違った行為又は違法行為の一部かどうか判定することができる。

したがって、警察に関連すると、例えば、犯罪が発生した後に、これらの技術を用いて大量のビデオデータを分析して、潜在的な不審な行動を識別して、犯罪調査に対する手掛かりを提供することができる。いくつかの実施形態では、注意の対象が見えない位置（グリッド１２２の外側の位置等）に存在したと判定された場合、その行動自体が奇妙又は疑わしいとみなされ、それに応じてフラグを立てることができる。

撮影されたビデオデータ及び事象記録の分析から得られた情報を、ユーザに関する拡張現実を目的とした特定の用途のために用いることもできる。例えば、システム１１０を用いて、人間、車両、又はその他の対象をリアルタイムで監視することができる。人間がいくらかの一連の行動を行っている、又は特定の場所に存在するという判定に応じて、システム１１０は、頻出するエピソードの分析から得た情報を用いて、リアルタイムでユーザにアドバイスを提供することができる。例えば、美術館に関連すると、来場者が特定の位置にいることをシステム１１０が判定した場合、先の来場者に対して観察された共通パターンに基づいて、システム１１０は推奨経路、又はその位置に関連する展示物を提案することができる。

同様に、交通に関連すると、特定の交通パターンを検知したことに応じて、過去に同じ又は類似の交通パターンから頻出した事故に関する情報を検討して、システム１１０は、信号又はその他の交通装置に、特定な方法で、交通を誘導させて事故を抑えることができる。このように、いくつかの実施形態では、システム１１０は、頻出するエピソードの情報に基づいて、リアルタイムで反応の早い行動を起こすことができる。

いくつかの実施形態では、記憶されたビデオデータ及び事象データを、「過去への窓」として用いることもできる。例えば、データベース１１４から特定のエピソードを選択して、検索することができ、携帯スマートフォン又はタブレット等の手持ち型視覚装置を、通信可能にシステム１１０に接続させ、これにより、向上した方法で、ユーザがエピソードを見ることができる。視覚装置を用いてエピソードが発生したグリッド１２２の部分内を、ユーザは歩き回ることができる。視覚装置のポジション、方向性、及び方向を監視することができ、視覚装置のディスプレイは、視覚装置の現状のポジション、方向性、及び方向に従って、エピソードのビデオ映像を表示することができる。

つまり、エピソード内の１台以上のカメラ１１２により監視されるグリッドセルの方向を視覚装置が向いていると、次いで、現状の視覚装置のポジション、方向性及びその方向ともっとも類似した光学的視点を有するカメラから、エピソードの映像がユーザへ提示される。このように、ユーザはエピソード内に記憶された注意の対象の周りを「歩き回」って、単純に視覚装置を移動させ新しい方向を与えることにより、異なる角度及び視点から対象を見ることができる。

図６は、システム１１０に関する例示的なハードウェア構成６００及び／又はシステム１１０内の全ての個々の装置を示す説明図である。ハードウェア構成６００は、１つ以上のマイクロプロセッサ６０１と、１つ以上のマイクロプロセッサ６０１により実行されるためのデータを記憶する１つ以上のメモリ装置即ちコンピュータ可読媒体６０２と、配線媒体上や無線媒体上を通信するための１つ以上のネットワークインターフェース６０４と、人間がシステム１１０とやり取りし、操作できるようにするための１つ以上の周辺インターフェース６０３と、を含むことができる。周辺インターフェース６０３は、１台以上のカメラ１１２に接続することができ、これらのカメラ１１２もまたハードウェア構成６００の一部でよい。いくつかの実施形態では、ハードウェア構成６００の構成要素は、単一の筺体内に含まれている必要はなく、互いにごく接近して配置されている必要すらない。

メモリ装置６０２は、１台以上のデータ記憶装置６０６及び１つ以上のソフトウェアプログラム６０５を設ける、又は格納するよう、さらに物理的又は論理的に構成され、又は設定されて、開示された実施形態のうちの１つ以上を実行するための、解釈可能な又は実行可能な命令を含むことができる。システム１１０は、開示された実施形態を実施するために必用な付随の全てのファームウェア又はソフトウェアを含むハードウェアの構成要素の全ての種類を含むことができる。システム１１０を、電子回路の構成要素又はプロセッサにより、部分的に又は全体的に実行することもできる。

Claims

ビデオデータを自動的に分析して行動パターンを識別する、コンピュータが実行する方法であって、
複数のグリッドセルを含むグリッドに関連する物理的領域内の１つ以上の対象の画像を表す複数のフレームを含むビデオデータを、前記グリッドの１つ以上の前記グリッドセルを撮影する１つ以上のカメラから受信するステップと、
前記ビデオデータ内における、前記物理的領域に関連する前記グリッドの第１のグリッドセルから前記グリッドの第２のグリッドセルへの注意の対象の動きを表す複数の事象を識別するステップと、
前記複数の事象を反映する複数の事象データ記録を生成するステップと、
前記複数の事象データ記録から１つ以上の頻出するエピソードを判定するステップであって、前記エピソードには、特定の注意の対象に関連する一連の事象が含まれる、ステップと、を含み、
前記複数の事象を識別するステップには、
第１のフレーム内の第１の注意の対象を識別することと、
前記第１のフレーム内の前記第１の注意の対象の第１のグリッドポジションを識別することと、
前記第１のフレームに隣接する第２のフレーム内の第２の注意の対象を識別することと、
前記第２のフレーム内の前記第２の注意の対象の第２のグリッドポジションを識別することと、
前記第２の注意の対象が、前記第１の注意の対象と一致することを判定すること、
前記第２のグリッドポジションが、前記第１のグリッドポジションとは異なることを判定することとが含まれる、方法。
前記ビデオデータが、前記物理的領域に対する異なる光学視点を有する複数のカメラから撮影される、請求項１に記載の方法。
監視される注意の対象の前記第１のグリッドポジション及び前記第２のグリッドポジションを反映する事象データ記録を生成するステップであって、前記監視される注意の対象は、前記第１の注意の対象及び前記第２の注意の対象に対応するステップをさらに含む請求項１に記載の方法。
前記第２の注意の対象が、前記第１の注意の対象と一致することを判定するステップには、
前記第１の注意の対象の特異な画像の特性を反映する対象符号を生成することと、
前記第２の注意の対象が、前記対象符号と一致することを判定することとが含まれる、請求項１に記載の方法。