JP2003224791A

JP2003224791A - 映像の検索方法および装置

Info

Publication number: JP2003224791A
Application number: JP2002296868A
Authority: JP
Inventors: Akio Nagasaka; 晃朗長坂; Takafumi Miyatake; 孝文宮武
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2002-10-10
Filing date: 2002-10-10
Publication date: 2003-08-08
Anticipated expiration: 2017-05-16
Also published as: JP3997882B2

Abstract

(57)【要約】（修正有）【課題】放送中のビデオ映像またはデータベース中の
ビデオ映像を高速に検索する方法、ならびに、映像中の
部分映像の同一性に基づき分類整理する映像の自己組織
化方法を提供する。【解決手段】映像をフレーム毎に入力し、画像から特
徴量を抽出する手段と、該特徴量を時間軸方向に圧縮、
逐次蓄積する手段と、前記特徴量と別途入力したフレー
ム画像の特徴量との間で逐次照合し、途中経過を記憶し
ておく手段を有し、一致する映像部分を探す手段とを有
する。さらに、一致する映像部分が複数存在した場合に
は、それらを組にして対応づけて記憶格納する手段とを
有する。【効果】計算量の削減による高速なシーン検索が可能
になる。リアルタイム性が要求される映像の処理に好適
である。また、映像中の同一シーンがすべて同時に検出
され、１つの組として容易に記憶格納でき、きわめて高
速な応答が期待できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は放送中のビデオ映像
またはデータベース中のビデオ映像の検索方法に関し、
特にビデオ映像の特徴を手掛かりとした検索が高速に行
えるビデオ映像の検索方法に関する。

【０００２】

【従来の技術】近年のマルチメディア情報処理システム
ではビデオやテキスト等様々な情報を蓄積してユーザに
提示することが可能であるが、それらを検索する場合、
キーワード等の言語による検索方法が主流となってい
る。この場合はキーワード付けの作業が必要であり、大
量の情報量を持つビデオ映像の１枚１枚のフレームにつ
いてキーワード付けを行うことは非常にコストが大き
い。さらにキーワードはデータベース構築者が自由に付
けるものであるから、ユーザの視点がデータベース構築
者と異なる場合にはこれらのキーワードが役に立たなく
なるという問題がある。このような事情から、キーワー
ド以外に画像独自の特徴から検索を行いたいという要求
があるが、画像の特徴量を手掛かりとして検索するため
には膨大なフレーム数からなるビデオの特徴量とその問
い合わせ用ビデオの特徴量との高速照合技術が必要にな
る。ビデオ映像に対して適用可能なだけの高速な照合技
術としては、これまで特開平７−１１４５６７号「ビデ
オの検索方法および装置」が提案されているが、この方
法は、すべてのフレームについて照合するのではなく、
映像中のカットの変わり目の画像についてのみ照合する
ことで処理量の低減を図っている。これによって、放送
中の映像に対しても照合を行えるだけの高速性を実現し
ているが、その反面、１つのカットのみで構成されるシ
ーンや、編集等によってカットの変わり目が前後に変動
したシーンに対して、うまく照合ができないという問題
点があった。また、検索の際には、他の一般的なデータ
ベースシステムと同様、検索キーとして指定されたシー
ン以外は探さないため、シーンの検索が必要になるたび
に、膨大な量の映像情報についてその最初から最後まで
繰り返し照合を行う必要がある。シーンの照合処理に
は、特徴量の抽出や読み出しの処理をはじめ、検索する
シーンが違っても共通に行われる処理が多々あり、その
ような処理を重複して行うことにはまだ無駄がある。

【０００３】

【発明が解決しようとする課題】本発明が解決しようと
する第一の課題は、映像検索のためのキーワード付け作
業を行うことなく、検索対象映像の特徴量と、問い合わ
せのために用意するサンプル映像の特徴量とを高速に照
合し、フレーム精度で同一の区間を検出できる映像検索
方法を提供することにある。また対象映像は放送中およ
びデータベース中のいずれの映像も対応可能とする。

【０００４】本発明が解決しようとする第二の課題は、
対象映像中に存在する同一シーンを、それが検索キーと
して予め指定されているか否かにかかわらず、一様に対
象映像の入力と同時に検出しておく手法を提供すること
にある。

【０００５】本発明の第三の課題は、映像の撮影中に時
々刻々と入力されている画像列を録画する際に、録画済
みの画像と照合して、一致する画像と関連づけながら録
画するビデオカメラを提供することにある。

【０００６】

【課題を解決するための手段】上記課題を解決するため
に、本発明では、照合したいビデオ映像について、各フ
レームの特徴量が互いに特定の範囲内の変動幅で収まる
区間単位に分割し、該区間ごとに１つもしくは複数の特
徴量を抽出し、該区間の該映像中における位置を表わす
アドレス情報と対応づけて記憶格納しておき、その上
で、検索対象であるビデオ映像から順次１枚ずつフレー
ム画像を入力し、該フレーム画像の特徴量を順に並べた
任意の時点の特徴列と、該記憶格納された映像を構成す
る各区間の特徴量を区間の長さ分ずつ順に並べた特徴列
とが、互いに同等と判定できる特定の長さ以上の部分を
持つ場合に、その部分を同一の映像として検出する。こ
のとき、区間の先頭から同等の場合は、該区間に対応す
るアドレス情報を、また、区間の途中から同等と判定さ
れた場合には、その区間の先頭からの相対位置を求め、
該区間に対応するアドレス情報を補正した値を検索結果
として出力する。また、検索対象として入力されたフレ
ーム画像列について、フレームの特徴量が互いに特定の
範囲内の変動幅で収まる区間ごとにまとめ、該区間ごと
に１つもしくは複数の特徴量を抽出し、該区間の該対象
映像中における位置を表わすアドレス情報と対応づけた
情報も記憶格納し、次回からの照合対象映像の中に追加
する。さらに、入力されたある特徴列について、同一と
して検出された映像部分が複数存在した場合には、それ
らを組にして対応づけて記憶格納する。

【０００７】以上の検索方法を実現する装置は、任意の
ビデオ映像に対して、フレームの特徴量が互いに特定の
範囲内の変動幅で収まる区間単位に分割する手段と、該
区間ごとに１つもしくは複数の特徴量を抽出する手段
と、該区間の該映像中における位置を表わすアドレス情
報と対応づけて記憶格納する手段と、検索対象であるビ
デオ映像から順次１枚ずつフレーム画像を入力する手段
と、該フレーム画像の特徴量を順に並べた任意の時点の
特徴列を保持する手段と、該記憶格納された映像を構成
する各区間の特徴量を区間の長さ分ずつ順に並べた特徴
列を生成する手段と、それらの特徴列が互いに同等と判
定できる特定の長さ以上の部分を持つかどうかを判定す
る手段とから構成される。また、区間の先頭から同等と
判定された場合は、該区間に対応するアドレス情報を、
また、区間の途中から同等と判定された場合には、その
区間の先頭からの相対位置を求め、該区間に対応するア
ドレス情報を補正した値を検索結果として出力する手段
も併せ持つ。また、検索対象として入力されたフレーム
画像列について、フレームの特徴量が互いに特定の範囲
内の変動幅で収まる区間ごとにまとめる手段と、該区間
ごとに１つもしくは複数の特徴量を抽出する手段と、該
区間の該対象映像中における位置を表わすアドレス情報
と対応づけた情報も記憶格納し、次回からの照合対象映
像の中に追加する手段とを有する。さらに、入力された
ある特徴列について、同一として検出されたシーンが複
数存在した場合には、それらを組にして対応づけて記憶
格納する手段も有する。

【０００８】

【発明の実施の形態】以下、本発明の一実施例を図を用
いて説明する。

【０００９】図１は、本発明を実現するためのシステム
構成の概略ブロック図の一例である。１はＣＲＴ等のデ
ィスプレイ装置であり、コンピュータ２の出力画面を表
示する。コンピュータの出力が音声である場合には、13
のスピーカを通して出力する。コンピュータ２に対する
命令は、ポインティングデバイス３やキーボード４を使
って行うことができる。５のビデオ再生装置は、光ディ
スクやビデオデッキ等である。ビデオ再生装置５から出
力される映像信号は、逐次、６のビデオ入力装置によっ
てデジタル画像データに変換され、コンピュータに送ら
れる。また場合によっては放送中の映像を取り込むこと
も可能であり、放送受信機７からの映像信号をビデオ入
力装置６へ入力する。５のビデオ再生装置の替わりに、
デジタルデータとして映像を記録するビデオサーバやデ
ジタルビデオ等を用いる場合には、６のビデオ入力装置
は不要か、もしくは圧縮記録された画像データを伸張し
て非圧縮画像データに変換する機能を司る。放送受信機
７についても、放送がデジタル方式の場合には同様であ
る。コンピュータ内部では、デジタル画像データは、イ
ンタフェース８を介してメモリ９に入り、メモリ９に格
納されたプログラムに従って、ＣＰＵ１０によって処理
される。１０が扱うビデオがビデオ再生装置５から送ら
れている場合は各フレーム画像には、ビデオの先頭から
順に番号（フレーム番号）が付けられている。フレーム
番号を制御線１１によってビデオ再生装置に送ること
で、当該場面のビデオが再生するよう制御可能である。
また放送受信機７から送られてくるビデオの場合、フレ
ーム番号はないので必要に応じて、処理開始時を０とし
た連番や時刻等を記録してフレーム番号の代わりに使用
する。コンピュータ内部処理の必要に応じて、各種情報
を１２の外部情報記憶装置に蓄積することができる。メ
モリ９には、以下に説明する処理によって作成される各
種のデータが格納され、必要に応じて参照される。

【００１０】図２は、本発明の映像検索処理の処理概要
を示す全体ブロック図である。この処理は、コンピュー
タ２の内部で実行される。処理プログラムはメモリ９に
格納され、ＣＰＵ１０において実行される。以下では、
各部がＣＰＵ10によって実行されるソフトウェア手順と
して記述されることを前提に説明を行うが、本手順と等
価な機能をハードウェアによって実現できることは言う
までもない。なお、以下の説明において、ソフトウエア
により行われる処理が便宜上ブロック化して示した。従
って、例えば、図２において問い合わせ用映像入力部は
問い合わせ用映像入力処理を示している。本実施例で
は、見つけ出したいシーンの映像（以下、問合せ映像と
呼ぶ）１００は、検索に先立って予め、問合せ用映像入
力部１０２によってフレーム毎に逐次入力され、メモリ
９に一時的に格納される。フレーム特徴量抽出部１０６
は、メモリ９のフレーム画像１０４から特徴量１０８を
抽出する。特徴量テーブル作成部１１０は、特徴量が許
容変動範囲内にある一続きの区間ごとに、その特徴量
と、その先頭フレーム番号とを対にして、特徴量テーブ
ル１１２を作成し、記憶装置１１４に記録する。検索対
象であるビデオ映像１１６も、問合せ映像と同様にして
照合対象映像入力部１１８によってフレーム毎に逐次入
力され、メモリ９に一時的に格納される。フレーム特徴
量抽出部１２２は、メモリ９のフレーム画像１２０から
特徴量１２４を抽出する。ここで、１２２は１０６と全
く同じ処理を行う。特徴量照合部１３０は、１２２から
次々と送られてくる特徴量１２４の最新の時系列の並び
と、記録された特徴量テーブル３００（データ内容は１
１２と同一）とが一致するか比較照合する。照合の途中
経過は、記憶装置１２６に後述する候補リスト４００の
形で記憶され、新しいフレームの入力ごとに更新され
る。もし、特徴量が一致すれば、その特徴量テーブルに
対応する映像区間を、後述する検索結果テーブル６００
として記憶装置１２８もしくはその他の処理装置に出力
する。このとき、その検索された映像に何らかの名称や
属性等が対応づけられていた場合、その名称や属性を出
力することも当然可能である。

【００１１】次に、上記各部で行われる処理について、
より詳細に説明する。

【００１２】図３は、問合せ用映像が入力されて特徴量
テーブルが作成されるまでの一連の流れ（１００〜１１
４）を示したものである。この処理の目的は、より多く
の種類の問合せ用映像を記憶しリアルタイムで一度に照
合できるように、問合せ用映像を、その特徴を表現しう
る最低限度の情報に圧縮することにある。具体的には、
まず次々と入力されるフレーム画像から特徴量を抽出す
る。このとき、特徴量は、フレーム画像全体の平均色な
ど数バイト程度で表現できる情報に限定する。さらに、
得られた特徴量の時系列の並びを、許容変動範囲内にあ
る一続きの区間ごとにまとめ、それぞれの区間につき１
つの特徴量で代表させる。図中、Ａ’、Ａ”と表記した
のは、Ａを基準として、その特徴量の値からの差の絶対
値が特定閾値以内の特徴量であることを示している。入
力された映像の各フレームには、t₁から順にt₂、t₃、…
とフレーム番号が添えられており、各区間の先頭フレー
ムのフレーム番号t_i、t_j、t_k、…と特徴量Ａ、Ｂ、Ｃ、
…とを対にしてリストを作り、特徴量テーブルとする。
ここで、映像は１秒あたり３０枚ものフレーム画像から
構成されるため、探したい映像の種類にも依存するが、
平均区間長が１０フレームとして、わずか数秒分のシー
ンからでも１０個以上の特徴量からなる順列パターンが
得られる。これに各区間の長さも制約条件に加えれば、
このときの特徴量テーブルの順列組合せの数はきわめて
大きな数になり、多数の映像中にあっても十分に１つの
シーンを特定できるだけの性能が期待できる。

【００１３】図４は、検索対象のビデオ映像と、予め記
憶してある問合せ用映像との間の照合の様子（特徴照合
処理１３０）を模式的に示したものである。上述のよう
に検索対象映像は、逐次フレーム画像入力され、特徴量
が抽出される（１１６から１２４）。一方、特徴量テー
ブルの形で圧縮されていた問合せ用映像は、照合時（１
３０）には、各区間の長さ分ずつ特徴量がならべられ、
ラン単位からフレーム単位の特徴列に戻される。照合に
あたっては、対象映像から入力されたばかりの最新のフ
レームを最末尾とする特定閾値以上の長さの特徴列と一
致する特徴列を持つ問合せ用映像を検索結果として返
す。このとき、完全一致だけでなく部分的な特徴列の一
致も検出し、その一致した部分の長さが同閾値以上の場
合には、それも検索結果として返すようにする。これに
より、編集等で長さが微妙に異なっているシーンに対し
ても正しく検索ができるようになる。

【００１４】図５は、本発明における照合処理をより詳
細に示したものである。上述したような不定長の特徴列
の照合を行う場合、単純に行うと、対象映像からフレー
ム画像が新しく入力される都度、図６に示したような、
様々なフレーム長を想定した比較照合を繰り返さなけれ
ばならない。このときのフレーム間比較の数は、図から
明らかなように極めて膨大であり、とりわけ1/30秒に一
度の割合で続々と新しいフレームが入力されるようなリ
アルタイム照合用途には不向きである。これは、フレー
ム入力のたびごとに以前の照合処理とは全く独立に照合
処理を行っているためであり、直前の処理で、ある程度
の長さ分の一致が確認されたとしても、その情報を次の
照合処理に活かすことができない。そこで本発明では、
１回のフレーム入力で行う照合処理を削減し、フレーム
入力の都度、直前までの処理を補足するように照合処理
を段階的に行うアプローチをとる。具体的には、次のよ
うにして照合を行う。

【００１５】(1)あるフレームが対象映像から入力され
たとき、そのフレームの特徴量と同じ特徴量が問合せ用
映像中にあるかどうかを探して、見つかったフレームを
すべて候補として一時的に記憶する。

【００１６】(2)次のフレームが対象映像から入力され
たとき、そのフレームの特徴量が、直前に候補として記
憶したフレームの直後のフレームの特徴量と一致するか
どうかを調べる。

【００１７】(3)一致しなかった場合には候補から外
し、また、今回入力されたフレームの特徴量と同じ特徴
量を持つフレームを新たに候補として追加する。このと
き、候補から外されたフレームが、それまでに特定閾値
以上の長さ分だけ一致し続けていた場合には、そのフレ
ームを先頭にした一致区間を検索結果として出力する。

【００１８】(4)以上を繰り返す。

【００１９】以下、図５の例に従い、本発明による照合
の原理を具体的に説明する。

【００２０】まず対象映像から新規のフレーム入力があ
り、特徴量Ｘが得られたフレーム(1)について考える。
問合せ用映像の中に特徴量Ｘは存在しないので、何もし
ない。フレーム(2)も同様である。フレーム(3)が入力さ
れて特徴量Ａ’が得られると、Ａ’と一致する特徴量Ａ
が問合せ用映像中に存在するので、特徴量Ａを持つ問合
せ用映像中のすべてのフレーム〜を候補に入れる。
対象映像から今後入力されるフレームの特徴量の現れか
たによっては、これらの候補フレームのいずれも、その
フレームを先頭とした一続きの区間が検索シーンとなる
可能性を秘めている。図５の下の表において、フレーム
(3)の行に書き込まれている〜が、この時点で候補
に入れられた問合せ用映像中のフレームを示している。
続くフレーム(4)でも特徴量Ａ’が得られるが、まず前
回候補に入ったすべてのフレームについて、その次のフ
レームが特徴量が一致するかどうかを調べる。結果は、
〜のフレームについては一致するが、のフレーム
については、次のフレームで特徴量がＢに変わってい
るので一致しない。表中４行目に×と表記されている部
分がそれで、フレーム(3)で候補に入ったについて
は、この時点で候補から外される。また同時に、フレー
ム(4)における候補として、表中４行目に、(3)と同じ
〜が新たに加えられる。(3)行目で加えられた〜
と(4)行目で加えられた〜とは、同じフレームでは
あるが、照合の候補としては全く別物として扱う。さら
に、フレーム(5)ではＢ”が得られ、ここで(3)で候補に
入ったと、(4)で候補に入った〜が候補が外さ
れる。そして、同様にしてとが、この時点で候補に
入れられる。以上の処理を、対象映像からフレームを入
力するたびに繰り返すと、フレーム(8)の段階まで一致
し続けている候補は、(3)で候補に入ったと、(4)で候
補に入った、(5)で候補に入った、(6)で候補に入っ
た、(7)で候補に入っただけである。そして、フレ
ーム(9)が来て照合がとれなくなった時点で、対象映像
のフレーム(3)〜(8)と,問合せ用映像の〜とが最も
長く一致する区間であったことがわかる。これらの結果
は、先に図６で示した従来方法を用い、フレーム(8)を
基点として順に長さを変えながらシーンの照合を調べた
場合の照合結果と一致する。この場合、問合せ用映像の
フレーム数をnとすると、１回のフレーム入力あたりに
行わなければならないフレーム間比較の回数は、図６に
示したようにn(n+1)(n+2)/6回となり、その計算量のオ
ーダーはO(n³)となる。しかし、本手法によれば、(1)
新たに入力されたフレームの特徴量と、候補フレームの
次フレームの特徴量との一致を調べる回数cと、(2)問合
せ用映像の中に、新たに入力されたフレームの特徴量と
同じ特徴量があるかを調べる回数n、の和だけでよく、
一般にn&#62&#62cとなってオーダーはO(n)となる。この
差は、直前のフレームまでの処理結果をもとにして、現
在のフレームを加えた結果を求める帰納的な手法とした
ことによる。また、nは、前述した特徴量テーブルの利
用によって、もともとのフレーム数よりも少なくでき、
さらに高速な照合が期待できる。そしてまた、この検索
結果は、明らかにフレーム精度で位置決めができてい
る。

【００２１】以上の説明では、問合せ用映像が一つの場
合を想定して説明したが、複数の場合でも問題なく適用
できる。フレーム入力ごとの照合にあたって、問合せ用
映像の数だけ上記の処理を繰り返せばよいだけである。
但し、図７に示したように、問合せ用映像のそれぞれに
同じ映像部分が含まれていながら、それらが編集のしか
たが異なるなどの影響で微妙に前後が違っている場合が
ある。図では、、、の３種類が示されている。１
つの問合せ用映像の中に複数の同一映像部分が含まれて
いる場合も同様である。問合せ用映像の中に一致する部
分があるかどうかだけが必要なときには問題にならない
が、検索の目的によっては、その一致区間の正確な位置
と長さに基づいて分類まで行いたいこともある。その場
合、どの区間がどの区間と一致するかを明確に検索結果
として出力できなくてはならない。また、図中のNo.2と
No.3にあるように、重なりがある場合には、その包含関
係を考慮した上で示せなければならない。本発明の手法
では、この課題についても基本的な照合原理を変更する
ことなく高速処理が可能である。本手法における照合処
理では、対象映像からフレームが入力されて特徴量が得
られると、問合せ用映像中から、それと同じ特徴量を持
つ一群のフレームが候補に入れられると述べた。このと
き、同時に候補に入ったフレームを先頭とし、検出閾値
以上の長さに達した一致区間の一群は、互いに同一の映
像である。図７の例では、の区間は３つの問合せ用映
像のいずれにも存在し、各問合せ用映像における区間先
頭フレームはすべて、対象映像からの先頭にあたるフ
レームが入力された時点で同時に候補に入る。他にも同
時に候補に入るフレームがある可能性があるが、それら
は検出閾値以上の長さに達する前に候補から外れること
になる。そして、の区間の末尾まで到達し、その次の
フレームの照合を行った時点で、No.1とNo.3の問合せ用
映像における一致区間が候補から外される。対象映像に
とっては、まだNo.2との間では一致しつづけているが、
ここでひとまずの区間を確定し、問合せ用映像No.1〜
3でが見つかったことを検索結果として出力する。し
かし、問合せ用映像No.2は、区間が終わっても、次の
フレームもまだ対象映像と一致しているので候補として
残り続け、最終的に区間が確定する。また、のよう
に、より手前に区間があっても同様に一致区間が検出
され確定する。このように、本発明の手法によれば、候
補に入るときと外れるときに簡単なチェックを行うだけ
で、フレーム入力ごとの照合の処理量は少ないまま、微
妙に前後が違っている様々なバリエーションのシーンを
それぞれ区別して検出することができる。

【００２２】以上の説明では、問合せ用映像をあらかじ
め用意しておき、その上で対象映像から検索を行うケー
スについて説明したが、本手法は問合せ用映像が対象映
像そのものであっても適用できる。図８にその概念図を
示す。対象映像を入力し、それをすべて記憶しておき、
それをあたかも上述の問合せ用映像であるかのように扱
う。これは、図９のブロック図によって実現することが
できる。ほとんど図２のブロック図と変らないが、問合
せ用映像と対象映像とが同一なため、フレーム特徴量の
抽出までが共用でき、フレーム特徴量１０８が記憶用と
照合用にそれぞれ分配される。この機構により、対象映
像から入力された最新の映像部分が、過去に入力され
たどの部分に現れているかを入力と同時に検出すること
ができる。また、過去に複数回現れたシーンであれば、
上述の照合原理から、それらすべてが同時に検出される
ので、検出された同一シーンごとにまとめて分類整理す
る、いわば映像の自己組織化がリアルタイムで自動的に
成される。たとえば、数週間分のテレビ番組を録画でき
る装置に、本発明を数週間分のテレビ番組をすべて記憶
できるだけのメモリ容量を持たせて適用すれば、一般に
番組のオープニングには毎度同じ映像が流れるので、そ
の映像を検出して前後の映像をまとめることで番組の分
類整理が録画と同時にリアルタイムで行える。同じシー
ンが複数あることがわかれば、映像そのものは１つだけ
残しておいて、残りについてはポインタだけ残して消し
てしまえるので、録画するときのメディアの利用効率を
向上させることができる。また、コマーシャルも繰り返
し流される映像の一つであるが、録画した番組を再生す
る場合に、必要に応じて自動でスキップさせることもで
きる。このとき、コマーシャルの特徴として、長さが15
秒もしくは30秒ちょうどであることを利用すれば、コマ
ーシャルかどうかの判定性能が向上する。

【００２３】以上説明した中で、図９で示したブロック
図を実現する処理について、より具体的にフローチャー
トで表現すると、図１０のようになる。図２のブロック
図を実現する処理についても、図１０より自明となる。
また、上記では説明を簡単にするため、問い合わせ用映
像の特徴量を一度ラン単位からフレーム単位に戻して照
合したが、ここではより実用に近い仕様となるよう、ラ
ン単位のままで照合する方法を示す。

【００２４】まず処理２００で装置や各種変数の初期化
を行う。変数mcとmmに０が入る。次に、対象映像からフ
レーム画像を1枚入力し（２０２）、そのフレーム画像
から特徴量Ｆを抽出する（２０４）。特徴量Ｆは、フレ
ーム画像中に存在する全画素の色の平均を用いる。各画
素の色はＲＧＢ３つのコンポーネントから表現されてい
るが、各コンポーネントの値についてそれぞれ全画面分
の平均をとり、３つの値の組（Ra, Ga, Ba）を得、この
組をもって特徴量Ｆとなす。もし、初めてのフレーム入
力ならば、図１１に示した特徴量テーブル構造体３００
を新規に作成し、最初の区間（区間番号１）の特徴量と
して３０２にＦを書き込む。また、このときのフレーム
番号も対にして一緒に３０４に書き込む。このようにし
て作成された特徴量テーブルが、今後既に述べた問合せ
用映像として機能することになる。このとき、特徴量テ
ーブル３００に記憶されている区間の最大値を示す変数
mcを１つ増やし、そのまま２０２に戻る。一方、2回目
以降のフレーム入力ならば、処理２０６を行う。２０６
では、特徴量テーブルに記憶された最新の区間（区間番
号mc-1の区間）の特徴量ＦＣと今回の特徴量Ｆとを比較
し、その差異が閾値CTH以下であるかどうかを判定す
る。ここで、特徴量は上述のように３つの値の組である
が、３つの値の差がすべて閾値CTH以下であるときにの
み、差異が閾値CTH以下と表現することにする。もし、
差異が閾値CTH以下であれば、今回入力されたフレーム
は、直前までのフレームと同じ区間にまとめることがで
きると判断され、処理２０８に進む。２０８ではループ
カウンタiを０にリセットする。iは２２６で１ずつ増や
され、iがmmより大きくなるまで２１０〜２２４の処理
を繰り返す。ここでmmは、これまでに入力した全映像
（特徴量テーブル３００として記憶）の中で、現在新た
に入力されつつある映像と同じ部分である可能性がある
として継続審査の段階にある候補の数である。すべての
候補について、それぞれ審査段階を表わす状態変数を格
納する構造体５００が作られており、図１２に示すよう
な候補リスト構造体４００によって管理されている。４
００には、候補構造体５００へのポインタが格納され、
追加や削除が実行中に動的に行われる。図１３は、候補
構造体５００の構造を示しており、候補として登録され
たときの区間番号が照合開始区間番号５０２として、そ
の区間からスタートして現在照合の対象となっている区
間の番号が照合対象区間番号５０４として格納されてい
る。また、一致フレーム数カウンタ５０６は、候補に入
ってから一致しつづけた回数、すなわち一致区間の長さ
である。照合開始フレームオフセット５０８は、ラン単
位で比較しながらフレーム精度での位置決めを行うため
に必要な変数であり、後述する。そして、同時照合開始
候補へのポインタ５１０は、同時に登録された一群の候
補どうしを連接リスト形式で結んでおり、５１０を参照
していくことで同時に登録された候補を次々に辿ること
ができる。さて、処理２１０では、候補i（mm個ある候
補の中のi番目の候補という意味で表記）が、現在照合
対象となっている区間の末尾まで照合し終わったのかど
うかを調べる。これは照合開始区間番号５０２で示され
る区間のフレーム番号に、一致フレーム数カウンタ５０
６を足したフレーム番号が、現在照合対象となっている
区間の次の区間のフレーム番号に達していれば、末尾に
達しているとわかる。もし、達していなければ、候補i
の一致フレーム数カウンタを１増やして（２１６）、処
理２２６に進む。達していれば、現在照合対象となって
いる区間に後続する区間の特徴量を参照し、それとＦと
の差異が閾値STH以下かどうかを調べる（２１２）。も
し、差異が閾値STH以下ならば、照合対象の区間をその
後続区間に変更して照合を継続する（２１４）。これに
よって、区間が変わる場所が入力映像と異なっている場
合でも安定して照合ができる。これは、映像入力時のノ
イズや機器の特性等によって映像信号が変動することが
あるため、区間の変化点が、同じ映像を入力していても
必ずしも同一になるとは限らないために必要な処理であ
る。また、区間の変わり目を決定する閾値CTHと異なる
閾値STHをここで用いているのも、同様に映像の変動を
吸収し、安定した照合を行うためである。一方、処理２
１２で、差異が閾値STHより大きければ、現在照合対象
となっている区間の特徴量と、今回の特徴量Ｆとの差異
が閾値STH以下かどうかを調べる（２１８）。もし、差
異が閾値STH以下ならば、何もせずに処理２２６に進
む。これは、候補に入るのがフレーム単位でなく区間単
位であり、必ずしも区間の先頭から一致するとは限らな
いために、現在照合対象の区間と同じ特徴量の入力映像
が得られている間は、とりあえず位置合わせしながら待
ってみるのである。もし、差異が閾値STHより大きけれ
ば、もう一致しなくなったみなす。このとき、候補iの
一致フレーム数カウンタが閾値FTH以上ならば（２２
０）、検索シーンとして候補iを出力する（２２２）。
そして、候補iを候補リストから削除し（２２４）、処
理２２６に進む。

【００２５】さて、処理２０６において、差異が閾値CT
Hより大きければ、今回入力されたフレームは、直前ま
でのフレームと同じ区間にまとめることができないと判
断され、新規区間を特徴量テーブル３００に追加する
（２２８）。このとき、 mcを１つ増やし、ＦＣにはＦ
を代入しておく。２３０ではループカウンタiを０にリ
セットする。iは２４８で１ずつ増やされ、iがmmより大
きくなるまで２３２〜２４６の処理を繰り返す。処理２
３２では、候補iが、現在照合対象となっている区間の
末尾まで照合し終わったのかどうかを調べる。これは処
理２１０と同様の方法で求められる。もし達していれ
ば、照合対象の区間をその後続する区間に変更し（２３
４）、そうでなければ何もしない。次に現在照合対象と
なっている区間の特徴量と、最新の特徴量Ｆとの差異が
閾値STH以下かどうかを調べる（２３６）。もし、差異
が閾値STH以下ならば、候補iの一致フレーム数カウンタ
を１増やし（２３８）、処理２４８に進む。もし、差異
が閾値STHより大きければ、現在照合対象となっている
区間の後続区間について直後の１つだけでなく順番に調
べていき、今回の特徴量Ｆと同じ特徴量を持つ区間があ
るかを調べる（２４０）。もしあれば、その後続区間を
照合対象の区間に変更し、また、その区間のフレーム番
号と当初の照合しようとしていたフレーム番号との差を
照合開始フレームオフセット５０８に代入してから、処
理２４８に進む。これもまた必ずしも区間の先頭から一
致するとは限らないためで、このオフセットを利用する
ことでフレーム精度の位置合わせができるようになって
いる。このとき、オフセットの大きさが、候補に入れら
れたときの区間の長さを超えていたら、一致する後続区
間が見つからなかったと同じ扱いで処理２４２に進む。
さもなければ、最初に候補に入ったときの区間の後方の
区間から照合開始したと等価であり、そのときは、その
後方の区間から照合開始したものが順調に一致を続けて
いるはずで処理が重複することになる。一致する後続区
間が見つからなかった場合、候補iの一致フレーム数カ
ウンタが閾値FTH以上ならば（２４２）、検索シーンと
して候補iを出力する（２４４）。そして、候補iを候補
リストから削除し（２４６）、処理２４８に進む。全部
の候補について処理が終わったら、今回入力されたフレ
ーム画像の特徴量と同じ特徴量を持つ区間を、特徴量テ
ーブルに記憶された区間の中からすべて探し出し、それ
らの区間を照合開始区間とする候補構造体を作成して候
補リストに追加する（２５０〜２５６）。

【００２６】以上の処理の中の２２２、２４４におい
て、見つかったシーンの情報をそのまま出力するほか
に、図１４に示した形式で出力することもできる。６０
０は検索結果テーブルで、見つかったシーンを同一シー
ンごとにまとめてグループを作り、各グループのエント
リを管理する。同一シーンのグループは、先に図７で説
明したようにして得られる。見つかったシーンの一つ一
つは検索区間構造体７００で表現され、同一シーンは相
互にポインタを持ち合う連接リスト形式で一つのグルー
プを表現する。連接リストを形成する同一シーンへのポ
インタは７０４に格納され、また、それぞれの区間の先
頭フレーム番号が７０２に格納される。そして、グルー
プを表わす連接リストの先頭となった検索区間構造体へ
のポインタが、そのグループのエントリとして６０２に
格納される。同一グループでは、グループ内のすべての
シーンの区間長は同じなので、エントリと対にして６０
４に格納する。

【００２７】以上の処理を繰り返すことで、過去に一度
でも現れたことのあるシーンは再び現れた瞬間に検出さ
れ、その区間の先頭と長さがフレーム精度で位置決めさ
れる。区間の先頭は、候補構造体の照合開始区間番号で
示される区間のフレーム番号に、同じく照合開始フレー
ムオフセットを加えたフレームであり、長さは、一致フ
レーム数カウンタの値そのものである。あとは先に図７
を用いて説明したように、同じ区間ごとにまとめること
で自動自己組織化ができる。但し、静止画が長く続くよ
うなシーンの場合、フレーム１枚あたりの特徴量を減ら
している本手法では特徴量の特徴的な時間変化が得られ
ず、他の静止画シーンと間違って一致する確率が高くな
るという問題もある。この場合については、たとえばフ
レーム画像１枚あたりの特徴量を増やすことで対応でき
るのはいうまでもない。また、同様に特徴量に変化が少
ないシーンの場合には、数フレーム程度のずれがあって
も一致しうる。このような場合、複数の区間が同じ範囲
に重なり合って検出される。この典型的な例として、入
力されたばかりの映像が、同じカット（映像を構成する
単位の一つ。１台のカメラで途切れなく撮影されたひと
まとまりの映像区間）内の少しだけ前のほうの区間と一
致する場合がある。映像の冗長性から、同じカット内の
各フレームは画像的に良く似ているためである。これに
は、公知のカットの変わり目の検出手法を導入し、同じ
カット内では一致とみなさないといった処理を行うこと
で問題を回避できる。

【００２８】図１５は、本発明、特に図８に示した手法
を利用した、次世代ビデオレコーダシステムの一実施例
を示す概念図である。テレビ番組などの映像を録画する
と同時に、本発明の機能も実行する。録画する映像の各
フレームにはフレーム番号等のアドレス情報を付与し、
そのアドレス情報を、本発明で生成する特徴量テーブル
３００のフレーム番号３０４として用い、映像データと
特徴量テーブルとの１対１の同期をとる。録画終了時に
は、本発明で用いる特徴量テーブルや各種変数は不揮発
性の記録装置に記録され、次回録画開始時に読み出され
て再開できるようにする。これにより、映像を新しく入
力すると同時に、映像アーカイブの中にすでに記録され
た映像とリアルタイムで照合し、同一シーンどうしを自
動的に関連づけることができる。そして、例えば、入力
された映像と主題歌の部分が照合する番組がすでに格納
されていれば、それらは連続番組であり、同じ分類とし
てまとめて整理することが自動的にできる。もし、連続
番組の初回を見たときに、その連続番組全般の共通属性
として情報を付与したならば、入力されたばかりの映像
にも、その情報を直ちに共有させることができる。ま
た、繰り返し現れるコマーシャルも同様にして検出で
き、コマーシャルをスキップすることができると先に述
べた。しかし、録画格納されている映像に存在するコマ
ーシャルをもとにしただけでは、限られた数のコマーシ
ャルしか検出できない。そこで、映像を録画しないとき
も２４時間映像を調べるようにし、繰り返しシーンから
コマーシャル部分を検出し、そのコマーシャル部分の映
像については、映像の録画はしないまでも特徴量テーブ
ルだけは作成し記録しておくようにする。これにより、
映像の容量を抑えたまま、より多くのコマーシャルが検
出できるようになり、また、コマーシャルのスキップが
より確実に行えるようになる。このように、本発明を次
世代ビデオレコーダシステムに搭載することで、録画し
た番組を自動分類整理したり、コマーシャルを自動スキ
ップしたり、といったことが簡単にでき、非常に使い勝
手がよくなる。ここでは放送映像を対象とできることを
強調したが、ファイル等に格納された映像が対象であっ
ても構わないことはいうまでもない。

【００２９】図１６はユーザとの対話に利用する表示画
面の一実施例である。映像のフレーム画像はコンピュー
タのディスプレイ上のモニタウインドウ５０に再生表示
される。同じ画面上に表示されるウインドウには、５０
のほか、映像中の代表的なフレーム画像を一覧にして表
示するウインドウ５２、映像やシーンの属性を入力する
テキストウインドウ５５、検索結果を表示するウインド
ウ５４などがある。検索結果が５２に表示される場合も
ある。これらのウインドウは、ポインティングデバイス
３の一つであるマウスを使って自由に動かせるカーソル
５３を操作して画面上の任意の位置に移動できる。テキ
ストの入力にはキーボード４などを用いる。ウインドウ
５２に表示される代表フレームは、例えば、映像をカッ
ト単位に分割した際の各カットの先頭フレームとする。
ボタン５１は、映像の再生状態を制御するためのボタン
で、マウスでクリックすると、映像の再生や早送り・巻
き戻しといった制御ができる。また、再生するシーンに
ついては、ウインドウ５２に一覧表示されている代表フ
レーム画像をクリックすることによって連動的に選択を
行うこともできる。そのとき、再生するビデオは、コン
ピュータに接続されたビデオ再生装置５が出力する映像
を用いることもできるし、外部情報記憶装置に登録され
たデジタル化された映像でもよい。ビデオ再生装置５の
場合には、シーンの先頭のフレーム番号をビデオ再生装
置に送り、そのフレーム番号に対応するシーンから再生
を開始する。そして、シーン末尾のフレーム番号に到達
した時点で再生を中断する命令をビデオ再生装置５に送
る。デジタル化された映像の場合も基本的に同様だが、
デジタル映像データを読み取った後、計算機向けの描画
データに変換してグラフィックの一種として表示する。
１フレーム分の表示処理が終了すると、次のフレームの
表示処理を連続して行い、これにより動画像の表示とす
る。表示処理に要する時間に合わせ、一定時間あたりに
表示するフレーム画像の枚数を調節し、映像が早送り気
味になったりスロー気味になったりしないようにする。
またモニタウインドウ５０には放送受信機７からの映像
の表示も行える。

【００３０】ユーザが図１６の画面を用いて映像検索を
行う操作手順を以下のべる。まず問合せ用映像の指定を
行う。最も単純な方法は、５１の操作ボタンを用いて早
送りや巻戻しを行い、モニタウインドウ５０に映される
映像を確認しながら任意のシーンを見つける方法であ
る。また、ウィンドウ５２に並んだ代表フレームの一覧
は、本でいうところの目次や索引に相当するもので、そ
れを参照することで、より手早く所望のシーンを見つけ
ることができる。指定する際には、そのシーンの範囲を
正確に指定する必要はなく、そのシーンに含まれる任意
のフレームを指定すればよい。これはモニタウインドウ
５０に表示中のフレームをマウスでクリックして指定す
るのでもよいし、５２の代表フレーム一覧の中に、問合
せ用映像に含まれるフレーム画像が表示されているなら
ば、それをマウスクリックするのでもよい。次にテキス
トウィンドウ５５で、選択したシーンやその映像全体の
タイトルや人名等の属性情報をキーボードから入力し登
録する。尚、登録数は任意であり、また、属性情報を今
後再利用する必要がない場合には、属性情報の登録は一
切行う必要がない。最後にユーザは検索開始要求を出
す。これは５５のＯＫボタンをクリックすることで行
う。これにより、システムは検索処理を開始する。シス
テムは、指定されたフレームをちょうど中間とする一定
の長さの区間を仮想的に作り、その区間を問合せ用映像
として本発明の検索手法にかける。対象映像はビデオ再
生装置から新たに入力してもよいし、すでにデータベー
スとして登録され特徴量テーブルが作成されている映像
ならば、その特徴量テーブルに対して照合処理を行う。
このとき、得られた検索結果の区間の中に、最初に指定
したフレームが含まれていれば、それが検索結果とな
る。さらに、部分一致なのか、全区間一致なのかを調べ
て、全区間一致しているときには、区間を前方および後
方に広げて一致区間を正確に求めることもできる。これ
は、部分的に一致する区間も高速に探し出せる本発明の
手法のメリットを活かした検索方法となっている。

【００３１】検索結果はウィンドウ５４に表示される。
表示内容は属性情報、時間情報等である。あるいは検索
結果を、図１７に示した形でグラフィカルに表示するこ
とも可能である。図１７は、ウインドウ５２の拡大図に
なっており、８００が各代表フレームのアイコン画像で
ある。横棒８０６がアイコン画像の下に添えられること
で、そのアイコン画像に対応するシーンに、検索結果が
存在していることがわかるようになっている。検索結果
が、アイコン画像の複数のシーンにまたがれば、棒もそ
の分だけ長くなる。また、棒は色もしくはハッチングパ
ターンで分類されており、同じシーンの検索で見つかっ
た複数のシーンはいずれも同じ色で、一方、あるシーン
の検索結果と別のシーンの検索結果とでは違う色で表示
される。代表フレーム一覧は、前述のように映像の目次
や索引として用いることができ、問合せ用映像を見つけ
るのに非常に有用であるが、代表フレームは映像に含ま
れるすべての画像ではなく、かといって、すべての画像
を一覧にすれば、それらの中から所望のものを見つける
のが困難になる、というジレンマがある。そのため、映
像を解析することで、代表フレームが表わすシーンの典
型的な特徴を抽出し、例えば、各アイコン画像８００
に、特徴を表現する情報８０２や時間情報８０４を合わ
せて表示することで、代表フレームの画像にない部分の
映像も探し出せるようにすることが考えられる。このよ
うなシーンの特徴を表現する情報には、人物の有無やカ
メラワーク（ズームやパン、チルトなど）、特殊効果
（フェードイン／アウト、デゾルブ、ワイプなど）の有
無、字幕の有無、などがある。画像の検出を行う画像認
識手法には、先に本発明者らが特許出願した特願平7-21
0409号（H7.8.18出願）を利用すればよい。本発明の手
法を適用すれば、また別のアプローチから、代表フレー
ム一覧のジレンマの解消に役立てることができる。代表
フレーム一覧には、繰り返しシーンであれば、それらの
シーンの全部ではなくても、その幾つかが一覧の中に含
まれていることがある。例えば、図１８において、カー
ソル５３で、繰り返しシーンの一枚をクリックし検索を
行えば、そのシーンと同じ映像部分を持つシーンをすべ
て見つけて、ユーザに提示するようにする。検索結果の
提示は、たとえば、アイコン画像８０８に重畳表示した
星印８１０のように、検索された区間を含むシーンのア
イコン画像を強調する形で行う。このとき、表示するア
イコン画像自体も、検索された区間の中のフレーム画像
で置き換えると、さらにわかりやすくなる。これによっ
て、代表フレーム一覧の中に、見つけたいシーンと同じ
シーンの画像が一つでもあれば、それを頼りに所望のシ
ーンを見つけることが可能になり、代表フレーム一覧の
利便性が高まる。同様の手法は、モニタウインドウ５０
で表示中の映像についても適用でき、表示中のフレーム
をクリックするなどして指定して、そのフレームを含む
シーンと同じシーンを検索し、見つかったシーンの一つ
にジャンプさせるといったこともできる。このようなこ
とを実現するためには、これまでリンクノードの設定な
どの面倒な準備が予め必要であったが、本発明の手法を
用いれば、非常に高速に検索ができるので、必要な都度
検索を行えばよく、前もって準備しておく必要はない。

【００３２】尚、図９のブロック図で表わされる自己組
織化処理の実行にあたっては、ユーザは検索のための特
別な処理を何ら行う必要はなく、ただ映像を入力しさえ
すれば計算機が自動的に処理を実行する。

【００３３】また、以上の説明では、映像の画像特徴に
基づき検索を行う方法について述べたが、音声特徴を用
いてもよく、また、映像に限らず、逐次的に扱うことの
できるメディアであれば、いずれにでも本検索手法を適
用できることは言うまでもない。

【００３４】図１９に本発明の画像検索技術をビデオカ
メラに適用した例を示す。処理入力手段1960に設けられ
た電源スイッチ1961により電源が投入され、録画ボタン
1962により録画が指示されると、音声・画像入力手段19
10は、マイク1911から音声信号を、カメラ1912から画像
信号を入力する処理を行う。音声・画像入力手段におけ
る処理には、入力された音声・画像信号に対してA/D変
換処理、圧縮処理が含まれる。特徴抽出手段1970は入力
された画像信号からフレーム単位の特徴を抽出する。処
理の内容は、図２、図９の106と同じである。抽出され
た特徴は特徴量テーブルとしてメモリ1940に記憶され
る。メモリ1940は内蔵された半導体メモリ、着脱式のメ
モリカードを用いる。メモリ1940には入力された音声・
画像信号が保持され、再生ボタン1963からの再生指示に
より、メモリ1940から読み出され、音声・画像出力処理
手段において、信号圧縮に対する伸長処理や、D/A変換
処理が施され、画像は表示画面1921に出力され、音声は
スピーカ1922から出力される。制御手段1930はこのビデ
オカメラの信号処理全般を管理し制御する。入力された
画像はフレーム毎にその特徴が抽出されメモリに蓄積さ
れるが、制御手段1930では入力画像の特徴量をメモリ19
40中に保持されている過去のフレームの特徴量と照合す
る。照合処理は、図２、図９の特徴量照合処理130と同
じようにすればよい。照合した結果、特徴量が類似する
シーンの区間が検索結果テーブル（図２、図９の128）
と同様の形式でメモリ1940に保持される。1950はビデオ
カメラを駆動するための電源を供給する端子であり、バ
ッテリーを装着するようにしてもよい。画像検索メニュ
ーボタン1964は、録画された動画像を例えば図１６、図
１７、図１８のように表示画面上1921に表示された画面
で、ボタン1964を複数回押すことにより、シーンの並び
替えや削除等の簡単な編集処理や、所望のシーンを指示
して類似のシーンにを検索して再生させるといった処理
を指示する。シーンの区分けに用いられる動画像の変化
点検出に関する技術は先に発明者らが特許出願した特願
平成7-32027号(H7.2.21出願)を参照すればよい。シーン
の検索は、図２、図９で行った画像の特徴量の照合処理
を用いて行う。このようなビデオカメラは、特徴量の照
合処理の条件をゆるめに調整する必要がある。テレビ番
組とは違い、一般にユーザがビデオカメラで映像を撮影
するときには、全く同じ映像を撮影することはほとんど
ないからである。従って、同じ様な風景や、同じ服装の
人が同程度の大きさで写ったときには、類似シーンとし
て検索されるように照合条件を設定する。録画と同時に
撮影された画像が解析され、シーン毎のグループ分けと
類似シーン間でのインデックス付けが完了しており、撮
影直後に録画画像の編集が可能になり、ユーザの使い勝
手が向上する。

【００３５】

【発明の効果】上記の方法により、本発明では、ほとん
ど同じ特徴量が続く冗長な区間をひとつにまとめた単位
に照合を行うので、照合を毎フレームについて行う必要
がなくなり、大幅に計算量が削減できる同時に、照合に
あたっては、擬似的にフレーム単位の特徴列間で比較す
る形になるため、フレーム精度で同一映像区間の特定を
行える特徴がある。また、１回のフレーム入力があるた
びに、その１枚のフレームに関してのみの照合を行うた
め、１フレーム入力あたりの処理量が小さくなり、放送
映像をはじめとしたリアルタイム性が要求される映像の
処理に好適である。また、同時に検出された複数の映像
部分は、全く同じ映像であるので、それらを１つの組と
して記憶格納しておくことにより、１つの部分映像を探
したい要求があった場合には、組になった他の部分映像
を提示することで検索は完了し、極めて高速な応答が期
待できる。

【図面の簡単な説明】

【図１】本発明の一実施例を実行するシステムのブロッ
ク図である。

【図２】本発明の一実施例を実行する処理のブロック図
である。

【図３】本発明の一実施例の特徴量抽出方法を示す概略
図である。

【図４】本発明の一実施例の特徴量照合方法を示す概略
図である。

【図５】本発明の一実施例の特徴量照合の流れの一例を
示す図である。

【図６】従来の照合方法の一例を示す概略図である。

【図７】本発明の一実施例の照合方法を説明するための
概略図である。

【図８】本発明の一実施例の照合方法を説明するための
概略図である。

【図９】本発明の一実施例を実行する処理のブロック図
である。

【図１０】本発明の一実施例のフローチャートである。

【図１１】本発明の一実施例で使われる特徴量テーブル
構造体を示す図である。

【図１２】本発明の一実施例で使われる候補リスト構造
体を示す図である。

【図１３】本発明の一実施例で使われる候補構造体を示
す図である。

【図１４】本発明の一実施例で使われる検索結果テーブ
ルと検索区間構造体を示す図である。

【図１５】本発明の一実施例を応用したビデオレコーダ
システムの概略図である。

【図１６】本発明により自己組織化された映像の映像検
索時の表示画面例を示す図である。

【図１７】本発明により自己組織化された映像の映像検
索時の表示画面例を示す図である。

【図１８】本発明により自己組織化された映像の映像検
索時の表示画面例を示す図である。

【図１９】本発明をビデオカメラに適用したときの構成
概略図である。

【符号の説明】

１…ディスプレィ、２…コンピュータ、３…ポインティ
ングデバイス、４…キーボード、５…ビデオ再生装置、
６…ビデオ入力装置、７…放送受信機、１２…外部情報
記憶装置。

フロントページの続きＦターム(参考） 5B075 ND12 NS10 5C052 AC08 CC01 DD04 EE03 5C053 FA06 FA14 HA29 HA40 JA24 LA01 5L096 AA02 FA14 FA15 HA07 JA11

Claims

【特許請求の範囲】

【請求項１】映像を逐次フレーム毎に入力する手段と、
入力したフレーム画像から特徴量を抽出する手段と、該
特徴量を時間軸方向に圧縮する手段と、該圧縮された特
徴量を逐次蓄積する手段と、該蓄積手段内の特徴量と別
途入力したフレーム画像の特徴量との間で逐次照合する
手段と、暫定的に照合の途中経過を記憶しておく手段を
有し、該照合手段では照合の途中経過を更新しながら、
一致する映像シーンを探すようにしたことを特徴とす
る、映像検索装置。
【請求項２】映像を逐次フレーム毎に入力する手段と、
入力したフレーム画像から特徴量を抽出する手段と、該
特徴量を時間軸方向に圧縮する手段と、該圧縮された特
徴量を逐次蓄積する手段と、該蓄積手段内の特徴量と該
入力フレーム画像の特徴量との間で逐次照合する手段
と、暫定的に照合の途中経過を記憶しておく手段を有
し、該照合手段では照合の途中経過を参照しながら、一
致する映像シーンを探すようにしたことを特徴とする、
映像検索装置。
【請求項３】請求項１または２記載の特徴量はフレーム
画像の輝度または色の統計量を利用したことを特徴とす
る映像検索装置。
【請求項４】請求項１または２記載の特徴量の時間軸方
向の圧縮は、最初に抽出した特徴量とそれに引き続くフ
レーム画像の特徴量が許容範囲内となる時間区間毎に区
切ったことを特徴する映像検索装置。
【請求項５】請求項１または２記載の照合は、特徴列同
士の一致が一定の時間区間以上続くと判定されたとき、
照合がとれたとすることを特徴とする映像検索装置。
【請求項６】請求項１または２記載の照合の途中経過記
憶は、照合の可能性のある先頭フレームの番号を仮に登
録し、照合が続く場合はその時間を更新し、照合の可能
性のなくなった時は、該当するフレーム番号を削除する
ようにしたことを特徴とする映像検索装置。
【請求項７】請求項１または２記載の照合において、入
力された特徴列に対して、複数箇所で、同一として照合
された映像部分は、それらを組にして対応づけて結果を
記録するようにしたことを特徴とする映像検索装置。
【請求項８】請求項２記載の映像検索方法および装置に
おいて、複数箇所で、同一として照合された映像部分を
もとに、放送中の連続番組を分類するようにしたことを
特徴とする映像検索装置。
【請求項９】請求項２記載の映像検索方法および装置に
おいて、複数箇所で、同一として照合された映像部分と
その時間長をもとに、放送中の特定の映像、特にＣＭを
検出するようにしたことを特徴とする映像検索装置。
【請求項１０】ディスプレイと、外部から画像の入力制
御と該ディスプレイへの画像の表示制御を行う制御手段
と、メモリとを有する情報処理装置において読みとり可
能な記録媒体であって、該制御手段において、フレーム単位で動画像を入力してメモリに蓄積する処
理、新たにフレームが入力された場合に、該フレームが最新
フレームの所定時間長の動画像区間１と同一の動画像区
間２を、上記メモリから検索して上記動画像区間１及び
２の関連づけを行う処理、入力された動画像をディスプレイで簡易表示する場合
に、関連づけられた上記動画像区間１及び２を他の動画
像区間とは区別して表示する処理、を行わせるコンピュ
ータプログラムを記憶した記憶媒体。
【請求項１１】ディスプレイと、処理プログラムとデータ保持領域を有するメモリと、上記処理プログラムに従って、画像の入力処理、画像の
検索処理、該ディスプレイへの検索画像の表示処理、を
行う制御手段と、を有し、上記画像の入力処理では、入力された動画像がフレーム
単位でメモリに蓄積され、上記画像の検索処理では、新たにフレームが入力された
場合に、該フレームが最新フレームの所定時間長の動画
像区間１と同一の動画像区間２を、上記メモリから検索
して上記動画像区間１及び２の関連づけが行われ、上記ディスプレイへの検索画像の表示処理では、入力さ
れた動画像をディスプレイで簡易表示する場合に、関連
づけられた上記動画像区間１及び２が他の動画像区間と
は区別して表示される、ことを特徴とする情報処理装
置。
【請求項１２】画像を入力するカメラと、該画像の入力処理部と、該カメラから入力された画像を記憶する記憶部と、該記憶部に記憶された画像を再生出力する出力処理部
と、該画像を表示する表示部とを有する画像録画装置におい
て、入力された画像の特徴量をフレーム毎に抽出する特徴抽
出部と、該抽出された特徴をテーブル化して保持するメモリ領域
と、入力された画像の特徴量と上記テーブル上の特徴量とを
照合する処理と、所定の照合条件に合致する特徴量を有
するフレーム同士を類似の画像として関連づける処理を
制御する制御部と、を有することを特徴とするビデオカ
メラ。