WO2015107775A1

WO2015107775A1 - 映像情報処理システム

Info

Publication number: WO2015107775A1
Application number: PCT/JP2014/081105
Authority: WO
Inventors: 池田　博和; ジャビンファン
Original assignee: 株式会社日立製作所
Priority date: 2014-01-17
Filing date: 2014-11-25
Publication date: 2015-07-23
Also published as: US20170040040A1; SG11201604925QA; CN105814561B; CN105814561A

Abstract

複数の時系列的な静止画から構成される動画像を処理する映像情報処理システムであって、前記複数の静止画から検索対象が存在する静止画を、前記検索対象の登録データとの第１の閾値を用いた類似度判定により検出する対象認識部と、前記検索対象が存在すると判定された前記静止画の間隔が第２の閾値以下である場合に、前記検索対象が存在すると判定された静止画の間の静止画にも前記検索対象が存在すると判定する時間帯判定部と、を有し、前記検索対象が存在すると判定された連続する前記静止画の開始時間及び終了時間を当該検索対象の前記登録データに対応づけて登録する。

Description

映像情報処理システム

参照による取り込み

　本出願は、平成２６年（２０１４年）１月１７日に出願された日本出願である特願２０１４－６３８４の優先権を主張し、その内容を参照することにより、本出願に取り込む。

　本発明は、映像を解析し、高速に検索する映像情報処理システムに関する。

　従来、放送済みの映像コンテンツと、それらの素材映像は安価なテープデバイスにアナログ形式で録画し長期保管（アーカイブ）していた。このようなアーカイブを容易に再利用するために、アーカイブ映像をデジタルデータに変換し、オンラインあるいはそれに近い形で保管するケースが増えている。目的とする映像をアーカイブから取り出すためには、映像に対し出演者やコンテンツの内容を付加情報として電子的に付加する（インデクシング）ことが有効である。特に、ＴＶ番組の編集者は、特定の人物または物が映っている時間帯の映像クリップを瞬時にアーカイブから取り出したいニーズがあり、詳細な付加情報（例えば、どの時間帯に何が映っているか）の付与が課題となっている。

　一般的な顔検出のアルゴリズムは静止画（フレーム）を対象としており、高負荷な処理を効率化するためにフレーム（例えば、１秒当たり３０ｆｐｓ（フレーム／秒）を予め間引いておいて、間引いた結果のフレームについて顔検出を行う。顔検出の際には、特定の人物の顔画像と名前（テキスト）が対になっている参照用のデータとのパターンマッチングを行い、類似度が所定の閾値より高い場合には、当該人物であると判定する。

　例えば、米国特許出願公開第２００７／０２７４５９６号には、シーンチェンジの検出が行われ、ビデオ全体がシーン１乃至３の３つのシーンに分ける画像処理装置が開示されている。また、ビデオを構成する静止画を対象として顔検出が行われる。それぞれのシーンが、人の顔が映っている顔シーンであるか否かの判別が、顔シーンを構成する静止画から検出された顔の位置、検出された顔の面積などの、顔シーンを構成するそれぞれの静止画から得られる特徴の時系列をモデル化したデータと、判別の対象になっているシーンを構成する静止画から顔として検出された部分の位置、面積の情報とを用いたパターン認識によって行われる。

　フレーム単位での顔検出技術について、閾値を高めに設定すると、精度の良い少数のフレームのみ検出されるが、一方で、特定人物が映り込んでいる周辺映像を特定する作業が必要となり、検出漏れの可能性が高まるデメリットがある。これに対し、閾値を低めに設定すると、検出漏れは減るが、一方で、誤検出のフレームが増加し一つ一つ判別する作業が伴う。また、米国特許出願公開第２００７／０２７４５９６号に記載の技術では、映像全体に対しシーンチェンジのタイミングが与えられるのみであり、複数の人物が同時に映り込んでいる場合に、開始及び終了のタイミングが人物毎に異なるケースに対応できない。このため、パターマッチングのための閾値を適切に設定し、複数の人物（又は物）が映っている開始時間及び終了時間を個別に設定するための技術（映像情報インデクシング）が求められる。

　本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、複数の時系列的な静止画から構成される動画像を処理する映像情報処理システムであって、前記複数の静止画から検索対象が存在する静止画を、前記検索対象の登録データとの第１の閾値を用いた類似度判定により検出する対象認識部と、前記検索対象が存在すると判定された前記静止画の間隔が第２の閾値以下である場合に、前記検索対象が存在すると判定された静止画の間の静止画にも前記検索対象が存在すると判定する時間帯判定部と、を有し、前記検索対象が存在すると判定された連続する前記静止画の開始時間及び終了時間を当該検索対象の前記登録データに対応づけて登録する。

　本発明の代表的な形態によれば、大量の映像素材やアーカイブから、特定の人物や特定の物が映っている時間帯の映像クリップを容易に検索できる。

映像情報インデクシング処理の概念を示す例である。本発明の一実施形態に係る映像情報処理システムの構成の一例を示すブロック図である。認識フレームデータ生成処理のフローチャートである。参照用辞書データの構造の一例を示す図である。認識フレームデータデータの構造の一例を示す図である。認識時間帯データ生成処理のフローチャートである。補正後の認識フレームデータデータ構造の一例を示す図である。認識時間帯データの構造の一例を示す図である。特に認識時間帯データ補正処理のフローチャートである。実施例２に係る映像情報インデクシング処理のフローチャートである。実施例２に係る認識フレームデータ生成処理のフローチャートである。実施例２に係る認識フレームデータデータの構造の一例を示す図である。実施例２に係る対象者同時認識時間帯の数の画面出力例を示す図である。映像情報検索結果の画面出力例を示す図である。映像クリップを再生する画面出力例を示す図である。

　以下に本発明の実施の形態を説明する。以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムはコントローラに含まれるプロセッサ（例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ））によって実行されることで、定められた処理を、適宜に記憶資源（例えば、メモリ）及び／又は通信インタフェースデバイス（例えば、通信ポート）を用いながら行う。よって、これらの処理の主語がプロセッサとされてもよい。～部や、プログラムを主語として説明された処理は、プロセッサ或いはそのプロセッサを有する管理システム（例えば、管理用計算機（例えば、サーバ））が行う処理としてもよい。また、コントローラは、プロセッサそれ自体であってもよいし、コントローラが行う処理の一部又は全部を行うハードウェア回路を含んでもよい。プログラムは、プログラムソースから各コントローラにインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は記憶メディアであってもよい。

　図２に、本実施例の映像情報処理システムの一実施形態を示す。本システムは、映像データ２５１を格納する外部記憶装置０５０と、計算機０１０、０２０、０３０を有する。計算機は三つに分かれている必要はなく、以下に説明する機能を有する構成であればよい。ここで外部記憶装置０５０は、高性能かつ高信頼なストレージシステムでも、冗長機能を有しないＤＡＳ（ダイレクトアッタッチストレージ）でもよいし、計算機０１０内の補助記憶装置０１３に全てのデータを格納する構成としてもよい。

　これらの装置は、ネットワーク０９０によって互いに接続される。一般的にはＩＰルータによるＬＡＮ接続を用いるが、遠隔で作業する場合など、ＷＡＮを経由した広域分散構成としてもよい。編集作業や映像配信など高速なＩ／Ｏが求められる場合、外部記憶装置０５０はバックエンド側にＦＣルータによるＳＡＮ接続を用いてもよい。また、映像編集プログラム１２１や映像検索／再生プログラム１３１は、それぞれ、計算機０２０、０３０上で全て実行される構成でもよいし、ラップトップコンピュータ、タブレット端末、スマートフォンのようなシンクライアントで動作させることもできる。

　映像データ２５１は、一般に多数の映像ファイルからなり、例えば、ビデオカメラ等で撮影した映像素材か、過去に放送した番組のアーカイブデータであるが、その他の映像データでもよい。映像データ２５１は、予め、認識手段（対象認識プログラム１１１など）で処理可能なフォーマット（ＭＰＥＧ２等）に変換されていることを前提とする。映像ソース０７０から入力された映像データ２５１は、後述される対象認識プログラム１１１により、フレーム単位で対象人物や物を認識され、認識フレームデータ２５２が付加される。更に、後述する認識時間帯判定プログラム１１２により、フレーム単位の認識データ（認識フレームデータ２５２）を時間帯毎にまとめた認識時間帯データ２５３も付加される。

　計算機０１０は、対象認識プログラム１１１、認識時間帯判定プログラム１１２、参照用辞書データ２１１及び閾値データ２１２を補助記憶装置０１３に格納する。対象認識プログラム１１１及び認識時間帯判定プログラム１１２は、メモリ０１２上に読み込まれてプロセッサ（ＣＰＵ）０１１によって実行される。参照用辞書データ２１１及び閾値データ２１２は、外部記憶装置０５０に格納してもよい。

　図４を用いて、参照用辞書データ２１１のデータ構造を説明する。参照用辞書データは、予め対象者あるいは対象物６０１毎に登録される一つ以上の電子データ（画像）６０３である。登録された画像は、一般に高速な類似度計算のために予め特徴量６０２を計算し、ベクトルデータ等に変換する。対象認識プログラム１１１は、特徴量６０２のみ扱うため、特徴量計算後は画像を削除してもよい。二つ以上の特徴量がある対象者に対しては、登録番号６０４を付けて登録する。特徴量は、複数の登録を統合し、単一のデータにまとめて登録することもできる。

　閾値データ２１２は、対象認識プログラム１１１で用いられる閾値を保持する。

　更に、計算機０２０は映像編集プログラム１２１を有し、プロセッサが映像編集プログラムを実行することによって、映像編集部を構成する。計算機０３０は映像検索／再生プログラム１３１を有し、プロセッサが映像検索／再生プログラム１３１を実行することによって映像検索／再生部を構成する。

　次に、単一の人物のみを映像から検出する場合について、映像情報インデクシング処理の一例を説明する。対象認識プログラム１１１は、映像データ２５１に含まれる複数の映像ファイルをメモリ０１２上に順次読み込む。

　図３に、読み込まれた映像ファイルから認識フレームデータ２５２を生成する手順（Ｓ３１０）を示す。

　まず、映像ファイル内の全フレーム（あるいは、均等間隔で抽出したフレーム）について（Ｓ３１１）、参照用辞書データ２１１とのパターンマッチング（あるいは、特徴量比較）を行い、類似度を計算する（Ｓ３１２）。ここで類似度＝１００は完全に特定人物（又は物）を同定した場合であり、類似度＝０は全く似ていない、すなわち異なるものであることを意味する。次に、閾値データ２１２から閾値１を読み込み、計算された類似度と比較する（Ｓ３１３）。閾値１は、予め設定され、類似度において特定人物か否かを判定する定量的基準値である。

　計算された類似度が閾値１以上であれば特定人物が当該フレームに存在すると判定する（Ｓ３１４）。この場合、単一人物が対象なので、参照用辞書データ構造６００を用いて当該単一の対象者（例えば対象者Ａ）の特徴量と比較すればよい。類似度は、認識フレームデータとして外部記憶装置０５０に格納される。上記Ｓ３１１からＳ３１３，Ｓ３１１からＳ３１４までのステップを全フレームについて行う。

　図５に、認識フレームデータ２５２のデータ構造の一例を示す。

　各フレームを時間（６３４）とともに時間経過に沿って管理する。例えば、フレーム１の時間は７時３１分１４秒４０である。これらのフレーム６３５のそれぞれについて、検索対象とした検索者（又は検索物）６３１の登録データとの類似度６３３を保持する。更に、当該類似度が閾値１以上であるかに応じて認識フラグ６３２に判定結果を書き込む。認識フラグ６３２が１とされているフレームは登録データが存在すると判定されたことを意味する。以上の手順を全対象フレームに対して行い、フレームのデータを記録する（Ｓ３１１）。

　次に、認識時間帯判定プログラム１１２が、生成された認識フレームデータ２５２を、時系列の類似度の変化を考慮して補正し、認識時間帯データ２５３を生成する（Ｓ３３０）。

　図６を用いて、認識時間帯データ生成処理の詳細を説明する。まず認識フレームデータ構造６３０で認識フラグ６３２が１となっているフレームを抽出し、時系列順に並べる（Ｓ３３１）。次に、抽出された全対象フレームを判定処理の対象として、時系列順に以下の手順を実行する（Ｓ３３２）。

　まず、当該フレームと、Ｓ３３１で判定対象とされた次のフレームとの間の時間６３４の差分を計算する。この時間差分と閾値データ２１２から読み込んだ閾値２とを比較する（Ｓ３３３）。そして、時間差分が閾値２より小さい場合、フレームデータを連続するフレームとして補正する（Ｓ３３４）。閾値２は予め設定され、対象者が映り込んでいる連続したフレームと判定することができる最長の時間差を意味する。すなわち、対象者が映り込んでいないフレームがあったとしても、それらのフレームを許容し、ひとまとまりの映像クリップと定義することができる。例えば、図５で、対象者Ａについて、１番目のフレームと４番目のフレームの時間差は１秒である。閾値２が５秒である場合、１番目のフレームと４番目のフレームとの間のフレームに対象者Ａが連続的に映り込んでいる連続したフレームであると判定して、認識フラグを設定し、認識フレームデータを補正する（図７の６５１参照）。抽出された全対象フレームに対して、以上の手順を行う（Ｓ３３２）。例えば、ある人が壇上で演説している動画において、観衆にカメラが向けられたシーンが時々挿入されることがある。本処理によれば、対象者が映らないシーンが挿入されている場合でも、１シーンとして認識することが可能となる。

　最後に、補正後の認識フレームデータ２５２を使って、認識時間帯データ２５３を生成する（Ｓ３３５）。ここで認識時間帯とは、対象者が映像に映り込んでいる開始時間と終了時間との間の時間である。

　図８に、認識時間帯データ２５３のデータ構造の一例を示す。対象者６７１毎に、当該対象者が映っているデータソース６７２の時間帯６７３を記録する。これには、認識フレームデータ（補正後）６５０の認識フラグ６３２を参照し、フラグが１である連続するフレームの開始時間及び終了時間６７４を認識時間帯に書き込む（Ｓ３３４）。この際、少ないフレームが連続する場合（例えば、時間にして３秒以内）、映像素材としての利用価値が低いと判断し、認識時間帯に書き込まない処理を実行してもよい。

　この時点の認識時間帯データ２５３は、対象者（例えば、Ａ）が正面を向いてはっきりと映り込んでいるフレームで開始し、終了する。実際の映像は、対象者が横や下を向いていたり、見切れているフレームを含み、類似度が連続的に上昇及び下降する。このような前後の場面を適切に捉えるために、認識時間帯データ２５３の補正処理を行う（Ｓ３５０）。具体的には、閾値データ２１２から閾値３を読み込む。閾値３は閾値１より低い値である。これにより、認識時間帯の前後で閾値１より低いが、一定以上の類似度を持つフレームがあれば、対象者が映り込んでいると判定する。このための、認識時間帯判定プログラム１１２が、認識フレームデータ（補正後）６５０の認識フラグ６３２及び認識時間帯データ２５３を再度参照し、認識時間帯データ２５３を補正する。

　図９を用いて、認識時間帯データを補正する手順の詳細を説明する。

　まず、対象者について、認識時間帯データ２５３から、認識時間帯６７３を時系列に参照する（Ｓ３５１）。例えば、２番目の認識時間帯の開始時間６７４であれば、０７時３９分４１秒２０の直前の数秒あるいは数フレーム（抽出範囲は予め定義しておく）を認識フレームデータ２５２から抽出し（Ｓ３５２）、対象者との類似度と閾値３を比較する（Ｓ３５３）。そして、類似度が閾値３より大きい場合、認識フレームデータを連続するフレームとして補正する（Ｓ３５４）。例えば、図５の第６フレーム６３５は認識時間帯の終端フレーム（０７時３１分１６秒２０）に近接するフレームであるが、認識時間帯には含まれない。これに対し、閾値３を閾値１より低く設定した（例えば、５０）場合、第６フレームを認識時間帯に含めることができる（図７の６５２）。

　この結果として、認識時間帯の間のギャップが短くなる場合が発生するため、再度、閾値２を使って、フレームが連続的かを判定し（Ｓ３５５）、認識フレームデータを補正する（Ｓ３５６）。例えば、図５で、前後フレームの判定の結果、第６フレームと第２０フレームの認識フラグ（６３５、６３６）が１に補正される（図７の６５２、６５３）。さらに、閾値２を５秒とした場合、第７フレームと第１９フレームは連続する認証時間帯データと判定できるため、図５の６３７は図７の６５４のように認識フラグを変更する。この結果、図８の認識時間帯の内、近接するものは、一つの認識時間帯として統合される。上記の手順を全ての認識時間帯に対して行う。

　以上のように、本実施例によれば、特定の対象者又は対象物が認識されたフレームを周辺フレームも含めて一つのシーンとして切り出して、属性情報を付することが可能となる。

　次に、複数の人物を映像から検出する場合について、映像情報インデクシング処理の一例を説明する。基本的には単一人物の検出と同様であるので、特に説明をしない部分は実施例１に記載した処理と同じである。

　図１は、本発明を概念的に示した例である。実施例１で述べたように、閾値１を使って認識フレームの一次検出を行い（Ｓ５０１）、閾値２を使って連続フレームを判定し（Ｓ５０２）、閾値３を使って認識時間帯の前後近接フレームを含めるか判定する（Ｓ５０３）。対象者が複数いる場合には、これらの処理を各対象者について行う。

　図１０に全体の処理の流れＳ４００を示す。

　まず、認識フレームデータを生成し、参照用辞書データ２１１を使って、映像に映り込んでいる複数の対象者を特定する（Ｓ４０１）。これを元に特定された対象者それぞれについて（Ｓ４０２）、実施例１と同様に、認識時間帯データ生成（Ｓ３３０）と認識時間帯データ補正（Ｓ３５０）を行う。結果として生成される認識時間帯データ２５３には、図８に示すように複数の対象者Ａ、対象者Ｂについての結果が登録される。すなわち、特定された対象者６７１のそれぞれについて、どのデータソース６７２のどの時間帯６７３に映っていたかを認識時間帯データ２５３に記録する（Ｓ４０３）。

　図１１に複数人検出における認識フレームデータ生成処理（Ｓ４０１）の詳細を示す。

　本処理においては、例えば、基本的に参照用辞書データに存在する全ての対象人物との比較を各フレームで検出された複数の顔領域に対して行うため、処理量が膨大になる。これを回避するために、顔領域の数と検索対象として用いる対象者（図４の６０１）の数に応じて対象者を絞り込むステップを設けてもよい。例えば、データソース６７２と関連付けられた電子番組表データ（ＥＰＧ）等のデータベースとリンクさせ、対象とする番号の出演者の名前を事前に取得する（Ｓ４１１）。そして、取得された名前に対応づけられている対象人物の辞書データを検索対象として用いることによって処理量を大幅に削減できる。

　次に、対象となるデータソース内の全フレームに対し以下の処理を行う（Ｓ４１２）。まず、顔領域を検出する、フレーム内に一つ以上の顔領域が存在しない場合、以下の処理をスキップし、次のフレームの処理に進む（Ｓ４１３でＮｏ）。

　図１２に認識フレームデータ構造の例を示す。ここで各静止画について、検出された顔領域の数を同時人数６４１に書き込む。そして、出演者情報に基づいて絞り込んだ対象人物の其々に関して（Ｓ４１４）、類似度を計算する（Ｓ４１５）。そして、類似度が閾値４より大きい場合（Ｓ４１６でＹｅｓ）、顔領域が検出された者を対象者ｐとして認識する（Ｓ４１７）。一つのフレームに複数人が映り込んでいる場合、時間進行の中で人物同士が重なり合う可能性が高く、通常の精度での顔認識に不都合が生じることがある。これを避けるために、同時人数６４１に応じて、検出のための閾値を下げて顔認識の不安定化リスクを下げることができる（Ｓ４１６）。例えば、同時人数が所定値以上であれば閾値を所定割合少ない値とすればよい。

　図１２では、閾値４（６４２）を用いて、同時人数が１以下の場合は８０（閾値１のデフォルト値）、同時人数が２の場合は７５、同時人数が３の場合は７０、…として認識フラグを設定する例を示す。本構成によって、複数の検索対象それぞれについて、登場するシーンの開始時間及び終了時間を管理することが可能となる。通常の閾値１より低い閾値を用いることによって、例えば、第２及び第３のフレームにおける対象者Ａの認識フラグ６４３を変更することができる。

　複数人物検出の特徴の一つとしては、共演者がセットで番組に出演している場合の映像クリップの抽出が可能なことがある。例えば、対象者Ａ、対象者Ｂの組合せを対象とした場合、図１２の認識フレームデータ２５２に基づいて対象者Ａ、対象者Ｂの両方の認識フラグが１であるフレームを抽出し、抽出されたフレームに認識時間帯データ生成３３０及び認識時間帯データ補正３５０の処理を行い、対象者Ａ、対象者Ｂの両方が映り込んでいるフレーム数を登録すればよい。

　図１３に、例えば、２者検索対象の組合せについて、当該検索対象が存在されると判定された認識時間帯の数の画面出力例を示す。この静止画数を示す数字６９１が多いほど共演している回数が多いことが分かる。これらの数字自体が、該当する映像クリップを再生するページへのリンクとなっていてもよい。

　最後に、実施例１、２に共通する構成として、映像検索／再生プログラム１３１が、生成済みの認識時間帯データ２５３を参照して、映像を検索する例を説明する。

　図１４は、検索画面の例を説明する図である。図１４に示す検索画面の例は、計算機０２０、０３０に接続される入出力装置を介して実現される。検索したい対象人物の名前をキーワード入力欄７０１に入力すると、図８に示す認識時間帯データ２５３の当該対象者６７１に関連して登録されている認識時間帯のリスト７０２を表示する。

　図８に示すように、認識時間帯に含まれる一つのフレーム（例えば、一番目のフレーム）をリストに関連付けて表示する映像表示領域７０３を設けてもよい。参考情報として、認識時間帯内の全フレームについて対象人物の類似度の平均値７０４を認識フレームデータ２５２から計算して表示することもできる。この際、平均類似度の高い順にリストを並び替えて表示してもよい。

　参照回数７０８は、本システムの利用者が当該認識時間帯の映像を再生した回数を示す。再生回数が多い映像は、人気のある映像クリップと判断できるので、再生回数が多い順でリストを並び替えて表示してもよい。

　さらに、リスト７０２は、映像の再生時間７０５、元のファイル名を表すデータソース７０６、認識時間帯（映像クリップ）の開始時間及び終了時間７０７を含んでもよい。

　図１５に映像検索／再生プログラム１３１を使って認識時間帯映像を再生する画面８００の例を示す。

　映像表示領域８０１には、基本的に検索キーワードで入力した人物８０２が映り続ける。開始時間８０３及び終了時間８０５は、それぞれ、当該認識時間帯の開始時間及び終了時間である。また、認識フレームデータ２５２を使って、各フレームの類似度の時系列変化８０６を表示してもよい。映像検索／再生プログラム１３１が、類似度に応じて再生速度及び／又は再生要否を変更する機能を有してもよい。この機能を使って類似度が低いフレームは映像の表示をスキップしたり、早送りするなどによって、類似度を考慮した効果的な視聴を実現できる。また、各フレームの顔領域検出の情報を使って、当該人物が映っている座標を特定し、当該人物の顔８０２の近くに名前を表示してもよい。これは複数人が同時に映り込んでいる際の人物認識及び視聴に有効である。

　なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例および同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。

　また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

　各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記憶装置、又は、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納することができる。

　また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

Claims

　複数の時系列的な静止画から構成される動画像を処理する映像情報処理システムであって、
　前記複数の静止画から検索対象が存在する静止画を、前記検索対象の登録データとの第１の閾値を用いた類似度判定により検出する対象認識部と、
　前記検索対象が存在すると判定された前記静止画の間隔が第２の閾値以下である場合に、前記検索対象が存在すると判定された静止画の間の静止画にも前記検索対象が存在すると判定する時間帯判定部と、を有し、
　前記検索対象が存在すると判定された連続する前記静止画の開始時間及び終了時間を当該検索対象の前記登録データに対応づけて登録することを特徴とする映像情報処理システム。
　前記検索対象が存在すると判定された静止画から時系列上の所定範囲内に含まれる前記静止画については、前記第１の閾値より緩和された第３の閾値を用いて類似度を判定することを特徴とする請求項１に記載の映像情報処理システム。
　前記検索対象が複数である場合、当該複数の検索対象が同時に含まれる前記静止画については、前記第１の閾値より緩和された第４の閾値を用いて類似度を判定することを特徴とする請求項１に記載の映像情報処理システム。
　入力された検索対象に対応づけて登録される前記連続した静止画を出力する再生部を更に有し、
　前記再生部は、前記静止画の各々の前記登録データとの類似度に応じて当該静止画の再生速度及び再生可否の少なくとも一方を変更することを特徴とする請求項１に記載の映像情報処理システム。
　前記動画像に登場する対象のデータを取得し、
　記録された複数の前記登録データの中から、処理すべき動画像に登場する対象の登録データを検索対象の登録データとして用いることを特徴とする請求項１に記載の映像情報処理システム。