JP2004127311A

JP2004127311A - 映像の連想検索装置

Info

Publication number: JP2004127311A
Application number: JP2003384488A
Authority: JP
Inventors: Akio Nagasaka; 長坂　晃朗; Takafumi Miyatake; 宮武　孝文; Hirotada Ueda; 上田　博唯; Kazuaki Tanaka; 田中　和明
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-10-25
Filing date: 2003-11-14
Publication date: 2004-04-22
Anticipated expiration: 2020-11-02
Also published as: JP3711993B2

Abstract

【目的】　ユーザが映像の連想検索を自由に，かつ容易に行うことができる映像の連想検索装置及び方法を提供することにある。
【解決手段】　映像を視聴するための映像表示領域と，映像のインデクス情報を表示するインデクス表示領域とを有する映像表示手段と，それらの表示領域に対するポイント位置を検出するポイント検出手段と，映像中に現われる動画像中の事物もしくは音声について予め登録するオブジェクト管理手段と、前記ポイント検出手段によって得られたポイント情報と別途蓄積してある映像の論理構造記述とから次に再生すべき映像の状態を定める制御手段とを設ける。
【効果】　所望のシーンをインデクス情報から特定しきれなくても，そのシーンに関する手掛かりが現れているシーンを見つけ，それを基に連想的に検索することにより最終的に該シーンを得るといった、各表示を融合的に用いた多面的な映像検索ができる。
【選択図】　図１

Description

　本発明は，映像を連想的に検索し任意の映像を見つけ出す装置及び方法に関する。

　近年，計算機の高速化と大容量化を背景にして，従来は扱えなかった映画やビデオなどの映像情報を対象としたデータベースの構築が活発になっている。これに伴い，蓄積された大量の映像の中から，所望のシーンを効率良く選び出す検索技術の実用化が進められている。こうした検索のための方法としては，ユーザが所望のシーンの特徴もしくはキーワード等を指示し，計算機がそれに合致したキーワードが付けられているシーンを見つけ出す方法が，映像データベースの分野で一般的となっている。しかし，シーンの特徴を的確に指定することは，検索に不慣れなユーザにとってはもちろん，熟練者にとっても非常に難しく，思い通りの検索結果が得られないことが多い。

　古典的な情報である本には，検索の補助情報として，目次と索引が用意されている。目次は，本文のひとまとまりを象徴するキーワードを，本文中における進行順に列挙した情報である。索引は，本文中の重要なキーワードを，五十音順などの見つけやすい順番で整理して列記した情報である。両者に共通する最大の特徴は，そうしたキーワードが一覧表示されていることにある。そして，必ず巻頭もしくは巻末にあると決まっており，探す手間がかからないことである。読者は
，本文中の一節を，目次や索引を用いることで，自らキーワードを考えることなく探し当てることができる。また，目次を見れば，本文の概要を把握でき，その本が読むに値するかどうかも短時間でわかる。

　目次や索引による検索には，表示されているキーワードが多すぎると適当な部分が見つけにくい，逆に少ないと適当なキーワードがそもそも存在しない，という問題点もある。しかし，これらの問題点は，ハイパーテキストやフルテキスト検索との併用で解決できる。すなわち，まず目次・索引の項目数をある程度限定してユーザに提示する。ユーザは，その中から，とりあえず目的の部位に関係しそうな次善のキーワードを使って本文を参照し，その本文中に意中の部位に直接関係ありそうなキーワードがないか探せばよい。見つかれば，ハイパーテキストの機構を使って，意中の部位を参照することで目的は達せられる。これはオンラインマニュアルでの検索などで日常的に行われるテクニックである。ハイパーテキストには，あらかじめキーワードが登録されていることが必要であるが，フルテキスト検索を使えば，登録されていないキーワードでも同様のことができる。このように，キーワードを連想的に辿る機構によって，目次や索引の利用できる範囲が広がり，多くの場合，眼前に現れるキーワードをただ取捨選択していくだけの処理で目的の部位が検索できる（以下，連想検索と呼ぶ）ようになる。

　こうした機構は，映像の検索においても有効と考えられる。映像においては，その中に登場する人や物などの様々な事物が，上記のキーワードに相当するものとして用いることができる。これを用いた連想検索を実現する要素技術としては
，例えば，映像の表示画面中の事物から関連するシーンや情報を参照する方式として，特開平３-５２０７０号公報「動画像の関連情報参照方式」がある。これ
によれば，映像中の各事物の登場する画像区間及び位置を記憶する手段と，対応する関連情報と結び付ける手段とを設けることにより，各事物の表示されている画面上の一点をマウス等によってポイントすることで容易に関連するシーンにジャンプしたり，関連情報を呼び出すことができる。また，画像処理を用いることによって，各事物とその関連情報との対応づけを省力化する手段として，例えば
，発明者らによる特開平５−２０４９９０号公報がある。

特開平５−２０４９９０号公報

　上記で挙げた先行技術は，専ら各事物とその関連情報との対応づけを行うための手段であって，検索システム全体としての構成やユーザの側の使い勝手については十分検討されているとはいえない。また，あらかじめ関連情報との対応づけが済んでいる事物についてしか連想的に辿ることはできないという問題点がある。

　本発明の目的は，映像の検索にあたって，計算機が提示する限定された情報の中から，ただ取捨選択していくだけの操作で，ユーザが記憶を連想的に辿りながら所望のシーンを見つけることができるインタフェースを提供することにある。

　本発明の第二の目的は，あらかじめ対応づけのされていない事物についても連想的に辿ることができるような手段を提供することにある。

　本発明は，画面上に任意の映像を表示するための映像表示領域と，映像の再生状態を制御するための操作パネル領域と，映像の目次や索引に相当するインデクス情報を表示する領域とを具備し，それらの表示領域のうち，いずれがポイントされたかを検出する手段と，このポイント情報と別途蓄積してある映像の記述情報とから次に再生すべき映像の状態を定める手段を有する。また，表示中の事物とその位置とを把握して，その事物の関連情報を重畳して表示する手段と，関連情報登録変更手段を設ける。また，これら処理に必要な情報を登録し管理する手段を設ける。

　さらに，表示中のシーンに現れている特定の事物を指定する手段と，その事物の特徴量を抽出するための手段と，その特徴量と合致する特徴量を持つ他の映像シーンを探し出す手段と，見つかった映像シーンに直ちにジャンプする手段とを設ける。

　本発明によれば，所望のシーンを探すとき，映像のインデクス情報の中に所望のシーンに直接関係のある事物の情報がなくても，所望のシーンを連想させる何らかの事物を次々と辿りながら目的のシーンまで到達することができる。このように，インデクス表示と連想検索を有機的に組み合わせることにより，インデクスの利用できる範囲が大幅に広がり，多くの場合，計算機が提示する情報をただ取捨選択していくだけの処理で目的のシーンが検索できるようになる。そのため，目的のシーンを一意に決定づける適切なキーワードもしくは画像特徴量を考えたり指示する必要がなくなり，あやふやな記憶でも検索ができ，初心者にもわかりやすい。また，関連情報重畳手段によって，再生中の映像に現れている事物の関連情報のうち選択された一部または全部の情報を，再生映像中の該事物の位置に重畳，もしくは該事物とその関連情報とが対応していることを明示される形態で表示されるので，連想検索途中で現れた事物に関する情報を即座に，かつ，どの事物の情報なのか混同することなく正確に知ることができる。また，関連情報登録変更手段を設けることにより，再生中の映像に現れている事物の関連情報の一部または全部の情報を，その事物が現れたその場で直ちに登録もしくは変更できる。

　また，現在画面に表示されている事物が，関連するシーンにジャンプするための情報を未だ付与されていない場合にも，表示画面から事物についての特徴量を抽出し，特徴量の照合を行う手段によって，その事物が現れている別のシーンをその場で検索して映し出すことができる。

　本発明によれば，所望のシーンを探すときには，インデクス情報から特定しきれなくても，そのシーンに関係する何らかの手掛かりが現れているシーンさえ見つかれば，その手掛かりが現れるシーンを連想的に検索しながら最終的に所望のシーンが得られる，というように，それぞれの表示を融合的に用いた多面的な映像検索ができる。また，再生中の映像中の事物に関する情報を即座に，かつ，どの事物の情報なのか混同することなく正確に知ることができる。また，再生中の映像に現れている事物の関連情報の一部または全部の情報を，該事物が現れたその場で直ちに変更できる。また，本発明のモニタウインドウによれば，再生中のシーンの全映像の中での位置を常に監視することもでき，連想検索でシーンがジャンプしても，ワイプ等の特殊効果と相俟って，そのことが明示的にわかり，通常のシーン変わりと混同することがなくなる。また，重畳表示された関連情報の表示領域をポイントしても，事物をポイントしたのと同じ効果が得られるので，シーンごとに都合のよいポイントの方法を選ぶことができ操作性が向上する。また，表示する関連情報を一覧にすることで，キーを直接入力する手間が省け，またキーを忘れてしまった場合でも，メニューを見て思いだせる。以上のように，本発明によれば，使い勝手のよい連想検索が実現できる。

　以下，本発明の１実施例を詳細に説明する。

　図２は，本発明を実現するためのシステム構成例の概略ブロック図である。１はＣＲＴ等のディスプレイ装置であり，コンピュータ４の出力画面を表示する。１２は，音声を再生するためのスピーカである。コンピュータ４に対する命令は，マウス等の間接的なポインティングデバイス５，タッチパネル等の直接的なポインティングデバイス１３，あるいはキーボード１１を使って行うことができる。１０の映像再生装置は，光ディスクやビデオデッキ等の映像を再生するための装置である。映像再生装置１０から出力される映像信号は，逐次，３の映像入力装置によってコンピュータ４の扱えるフォーマット形式に変換され，コンピュータ４に送られる。コンピュータ内部では，映像データは，インタフェース８を介してメモリ９に入り，メモリ９に格納されたプログラムに従って，ＣＰＵ７によって処理される。１０が扱う映像の各フレームには，映像の先頭から順に番号，例えばフレーム番号が付けられている。フレーム番号を制御線２によってコンピュータ４から映像再生装置１０に送ることで，フレーム番号に対応する場面の映像が再生される。映像データや各種情報は，外部情報記憶装置６に格納することもできる。メモリ９にはプログラムの他に，以下に説明する処理によって作成される各種のデータが格納され，必要に応じて参照される。

　以下では，まず連想検索システムの概要について説明し，次に各技術の詳細な実行手順について説明する。

　映像の連想検索を実現するシステムの画面例を図１に示す。１はディスプレイ装置であり，１２は音声やＢＧＭ等を出力するスピーカ，５はマウスやジョイステイツク等の間接的なポインティングデバイス，１１はキーボード，１３はタッチパネルのような直接的なポインティングデバイスである。

　ディスプレイ装置１中のモニタウインドウ１１００は，モニタ画面になっており，ＶＣＲと同形式の操作パネル１１０２があって，映像を自由に再生し視聴することができる。モニタ画面に表示される映像が「本」における「本文」，パネル（ボタン）操作は「頁めくり」に対応する。右下のウインドウ１１０８は，対象とする映像の各シーンの代表画像のシーン一覧表示，右中のウインドウ１１１２は，その映像に登場する被写体の一覧表示である。これらの一覧表示を総称して，「インデクス」と呼ぶ。ウインドウ１１０８のシーン一覧表示は，映像中の各シーンから典型的なフレーム画像を選び，縮小して時間順にアイコン１１１０として一覧に並べたものである。これらの画像はシーンの「見出し」に相当するものとして考えることができ，それらを時系列に並べたシーン一覧は「本」の「
目次」にあたる。一方，被写体は，シーンの重要な構成要素の一つであり，その意味でテキストにおける「キーワード」に相当する。したがって，ウインドウ１１１２の被写体の一覧表示は，「索引」に当たる。シーン一覧表示中のアイコン１１１０がマウスクリックされると，モニタ画面の映像が切り替わり，そのアイコンの示すシーンが再生される。被写体の一覧表示は，被写体が何であるかを示すアイコン１１１４と，その右側の時間軸表示部（棒グラフ）１１１６から成る。時間軸表示部（棒グラフ）は，左端が映像の先頭，右端が末尾を示す時間軸になっていて，棒として表示された部分が，その被写体の現れている時間区間を示している。棒の部分をクリックすると，その区間の映像をモニタ画面に表示する。尚，１１０４は，マウスのようなポインティングデバイスの動きに合わせて移動するカーソル，１１０６のウインドウは，映像の各種関連情報を表示する汎用入出力ウインドウである。

　次に，本発明にかかる連想検索の基本的な考え方をシンプルな例で説明する。あるユーザが一連の映像の中から被写体Ｂが出ている特定のシーンを見つけたいとする。インデクスに表示される代表画像のシーン一覧表示や被写体の一覧表示の中に目的のシーン（被写体Ｂが出ているシーン）や被写体Ｂそのもののアイコンが運よく存在すれば，それを直接クリックし，再生することにより所期の目的は達成される。しかし，通常，映像情報は膨大であり，容易に目的のシーンが見つけられないことが多い（例えば，映像中，被写体Ｂが出ている時間が短かければ，検索が簡単にできないことは容易に理解されよう）。そこで，本発明の連想検索が重要な意味を持ってくる。つまり，目的のシーン（被写体Ｂ）は直接探せなくとも，ユーザは目的のシーン（被写体Ｂ）に関する何らかの知識を持っていることが多く，本発明ではその知識を利用して連想という名のリンクを施すというものである。例えば，ユーザが，被写体Ｂと被写体Ａが同時に現われていた（シーンがあったはずだ）ということを記憶しているか，若しくは同時に現われている可能性が高いという予測が成り立つと考えているならば，まず被写体Ａを検索することを試みる。

　図３に本発明の映像の連想検索機能のイメージを示す。図中の３枚の絵（シーン１〜３）は，連想検索を行ったときに，モニタ画面に表示される映像中の１シーンをそれぞれ表したイラストである。例えば，ユーザは，インデクス（ウインドウ１１１２の被写体のアイコン１１１４）の中から目的の被写体Ｂを連想できる被写体Ａが写っているシーンを１つ探してモニタ画面に表示する。モニタウインドウ１１００のモニタ画面に最左側のシーン１が再生されているときに，登場している被写体Ａ，Ｃのうちの被写体Ａをマウスカーソルでクリックすると，その被写体Ａが現れている図中中央のシーン２に画面が切り替わる。このシーン２に一緒に現れている別の被写体Ｂをクリックすれば，Ｂが現れている図中右側のシーン３に到達することができる。このシーンが目的のシーンであれば，連想検索は終了する。

　すなわち，被写体Ｂが出ている特定のシーンを見つける場合，被写体Ｂが被写体Ａと同時に現れるという連想を基に，インデクスに登録されている被写体Ａを通して連想的に目的のシーンである被写体Ｂの特定のシーンまで辿ることができる。このとき，キーワードを考えるといった面倒な操作は不要であり，画面に現れる情報だけを見て，ただ取捨選択すればよい。

　尚，後述するように単に複数の被写体間の連想に限らず，シーン自体や言葉，ＢＧＭ，字幕といった，映像のあらゆるマルチメディア情報に基づいた連想を用いて検索を行なうことが可能である。

　さて，こうした連想検索の機能を実現するのに必要となる情報は，基本的に，（１）被写体の現れている映像区間（出現区間），（２）被写体の画面上での位置（出現位置），（３）クリックされたときに切り替わるべき他の映像区間（リンク情報）の３つである。これら３つの情報は組にして扱われる。

　映像再生中にどの被写体がクリックされたかは，（１），（２）の出現区間・出現位置情報から判定され，同じ組に格納された（３）のリンク情報から映像の切り替え先が決定される。ここで，映像は，フレームと呼ばれる静止画が毎秒３０枚の割合で連続的に表示されることによって実現されている。これらのフレームに，映像の先頭から順にフレーム番号と呼ばれる連続番号を割り振れば，（１）の出現区間は，その区間の先頭のフレーム番号と末尾のフレーム番号とで表現することができる。（２）の出現位置は，（１）の区間中の各フレームのどの領域に被写体が映されているのかを表す座標情報である。（３）のリンク情報としては，同じ被写体が現れている別のシーンを次々と巡れるようなリンクを施しておく。１本の映像中には，同じ被写体が何度も現れることが多いが，このリンクにより，その被写体が登場する全てのシーンをクリックだけで簡単に呼び出すことができる。

　上述の構成による連想検索方法は，すでにリンク情報が設定されている被写体にしか用いることができない。しかし，先に挙げた連想検索に必要な３種の情報のうち，被写体の出現区間と出現位置は，例えば，発明者らによる特願平４−２６１０３３等の被写体自動検索技術により求めることができる。

　被写体自動検索アルゴリズムの概略を図４に示す。探そうとする被写体に固有の色の組み合わせをフレーム中から見つけ出すのが基本である。まずユーザがビデオ映像中からその被写体が現れているフレームを例示画像として一枚だけ選び，その画像中から特徴的な色を抽出する。その後，システムは映像中の全てのフレームについて一枚一枚小さなブロックに分割し，特徴色を含むブロックを探していく。１枚のフレーム中に，特徴色を含むブロックが各色について一定数以上あれば，そのフレームにその被写体があると判定する。フレームにおけるその被写体の出現位置は，上述の被写体検索の処理において，その被写体の特徴色を含むブロックがフレーム中のどの位置に分布しているかを調べることで容易に求められる。

　しかし，この被写体検索方法そのものは，例示画像をシステムに提示することを原則とし，探したい被写体が現れている区間を最低１つは手作業によって見つける必要があり，これが面倒な場合が多い。しかし，本発明のような連想検索の場合には，モニタ画面上の被写体を例示画像として直ちに利用することができるため，この被写体検索方法を非常に効果的に活用できる。

　更に，映像中の全てのフレームについて，あらかじめブロック分割し，各ブロックごとに含まれる色の種類のリストを記憶装置に格納しておけば，上記被写体検索から毎フレームごとのブロック分割処理が不要になり非常に高速になる。その速度は，現行のワークステーション程度の性能でもリアルタイムの１００倍速が可能となっており，１時間の映像の中から３０秒程度で全ての被写体出現区間を見つけることができる。現在表示されている映像から最も近い出現区間を１つだけ探せばよいのであれば，平均して数秒程度で見つけることができる。当然ながら，記憶装置に格納された色のリストは，検索する被写体に関わらず同じものを使うことができる。

　以下では，本発明を実現するシステムの実行手順を，メモリ９に格納されたプログラムに従ってＣＰＵ７により実行されるソフトウエアモジュールのブロック図を用いて説明する。ここで説明する各モジュールは，ハードウエア自体で実現することも可能である。

　図５は，本発明によるシーンの連想検索を実現するための処理ブロック図の一例である。連想検索の手掛かりとなる映像中の被写体などの事物が，映像中のどの時間にどの位置に現れるかの情報（出現区間，出現位置），並びにその関連情報・飛び先となるシーンの情報（リンク情報）は，後述するオブジェクトと呼ぶデータ構造体の形式で，あらかじめ図２のメモリ９もしくは外部情報記憶装置６に蓄積されているものとする。

　ここで，映像中の被写体などの事物に関する情報は，出現区間ごとに１つずつ作成されるオブジェクト指向型のデータ構造体の中で管理している。図６は，その概念を表す説明図である。これを，以下，映像オブジェクト，もしくは単にオブジェクトと呼ぶ。映像は動画部分と音声部分とに分けられるが，動画については，その全体をフレーム画像を成すｘｙ平面，および時間ｔの軸からなる３次元空間で表現でき，被写体の出現区間と出現位置は，その部分空間であると考えることができる。この部分空間と１対１に対応づけられるデータ構造体として映像オブジェクトを定義する。（つまり，同一被写体であっても，原則として出現区間ごとにそれぞれの映像オブジェクトとして定義され，それらの映像オブジェクト間（被写体間）にはリンクが施される。）映像オブジェクトには，被写体をは
じめ，字幕やシーンなど映像中の様々な情報を対応づけることができる。言葉やBGMといった音声情報についても，同様に時間軸を持つ音声情報空間の任意の部
分区間と１対１に対応づけられるデータ構造体として映像オブジェクトを定義できる。そして，リンク情報は，映像オブジェクトを相互に参照しあうポインタとして格納する。このように，動画・音声間など，対応するメディアが異なっても共通のデータ構造体の枠組みで管理することで，映像中のあらゆる情報の間に自由にリンクを設定することができる。

　さて，図５に戻って，処理ブロック図を詳細に説明する。オブジェクト管理部１２０は，これらオブジェクトを管理するモジュールであり，オブジェクトの登録・変更・削除の処理を行うとともに，他のモジュールから要求があれば，示された条件に合致するオブジェクトの情報１２２を取り出し，そのモジュールに提示する。１００の映像再生表示部は，図１のディスプレイ装置１のモニタ画面であるモニタウインドウ１１００に，映像の再生及び表示処理を行うとともに，現在表示している映像の再生位置情報２１８を１０２のポイント事物識別部に送る。ポイント位置検出部１０４は，図１のマウス等の間接的なポインティングデバイス５やタッチパネルのような直接的なポインティングデバイス１３を常時監視し，ユーザがポイントの動作を行った表示画面上の位置情報１１２をポイント事物識別部１０２に送る。また，併せてその位置情報１１２はインデクス管理部１０８，操作パネル部１１０にも送られる。ポイント事物識別部１０２は，映像再生表示部１００から受け取った再生位置情報２１８をオブジェクト管理部１２０に送り，その再生位置に出現しているとして登録されている全ての事物の情報をオブジェクトとして得る。もし該当するオブジェクトがあれば，さらにそれらから事物の位置情報を取得して，ポイント位置検出部１０４からの位置情報１１２との照合を行い，どの事物がポイントされたのかを識別する。ポイント事物識別部１０２は，識別された事物に関する情報１１４を映像制御部１０６に送る。映像制御部１０６は，識別された事物に関する情報１１４の中でリンク情報に基づき，その事物が現れている別のシーンにジャンプする等の処理を行うため，映像再生表示部１００に制御情報２０８を送る。また，後述するように，事物の関連情報を表示する際には制御情報２１０を映像再生表示部１００に送る。１０８のインデクス管理部は，登録されている映像の代表的なフレーム画像をアイコン１１１０として記憶するとともに，それらのアイコンの一覧にしてウインドウ１１０８に表示する。インデクス管理部１０８はアイコン１１１０と一緒にそのフレーム番号も記憶しており，ポイント位置検出部１０４が，あるアイコンをポイントしていることを検出すると，そのアイコンに対応するシーンを再生するように，制御情報１１６を映像制御部１０６に伝える。また，ポイント事物識別部１０２から，どの事物がポイントされたかの情報１２４をもらい，その事物がポイントされたことがインデクスからもわかるような表示を行う。また，インデクス管理部１０８は，図１のウインドウ１１１２の被写体の一覧表示も管理する。つまり，被写体が何であるかを示すアイコン１１１４を表示すると共に，その被写体の時間軸表示（棒グラフ表示）を行ない，棒の部分がクリックされるとその区間の映像を再生するように制御情報１１６を映像制御部１０６に送る。操作パネル部１１０は，再生・早送り・巻戻し等の各種再生状態を表す図１の操作パネル１１０２を表示し，ポイント位置検出部１０４によって，その操作パネルがポイントされていることが検出されると，ポイントされた操作パネルに対応する再生状態にするよう制御情報１１８を映像制御部１０６に送る。

　図７は，映像再生表示部１００をより詳しく示した処理ブロック図の一例である。２００の映像再生部は，映像制御部１０６から送られる制御情報２０８によって，どの映像をどこからどのように再生するか等の指示を受けて映像を再生する。現在表示されている映像の再生位置情報２１２は，逐次事物有無判定部２０２に送られる。２０２は，その再生位置の映像に，あらかじめ登録されている事物が登場しているかどうかをチェックし，あれば，登場している全ての事物の表示画面上での位置情報２１６を取得して，関連情報表示部２０４に送る。この位置情報２１６は，先述のポイント事物識別部１０２で取得する位置情報と同じものであり，位置情報取得処理の重複を避けるため，事物情報２１８としてポイント事物識別部１０２に送ることができる。関連情報表示部２０４は，再生中の各事物の関連情報を画面上に合わせて表示することができる。制御情報２１０により，関連情報を表示するのか否か，表示するのならどの関連情報をどのような形態で表示するのか等が決定される。特に，事物の位置情報２１６によって，表示中のどの位置と対応する情報なのかを明示することができる。この表示方法については後述する。表示方法によっては，映像２１４に重畳合成処理を行い，その映像を映像表示部２０６で表示する。

　図８は，映像オブジェクトのデータ構造を示す一例である。５００はデータ構造体の大枠である。５０２は，オブジェクトのＩＤ番号で，他のオブジェクトと識別するための一意な数が与えられる。５０４は，オブジェクトが，例えば，人を表すのか，字幕であるのか，あるいは音声なのかを示す分類コードである。５０６は，そのオブジェクトが登場する映像へのポインタである。この例では，後述するように，映像は物理映像６００と論理映像９００の２階層に分けたデータ構造になっており，５０６は，物理映像へのポインタである。５１０は，オブジェクトが表す映像中の事物が登場する区間の始点のフレーム番号，５１２は終点のフレーム番号である。５０８は，その事物を代表する映像のフレーム番号であり，オブジェクトを視覚的に扱うインタフェースの下においては，この事物を表すアイコンの絵柄として用いられる。５１４は，オブジェクトの表す事物の画面上での位置を示すための構造体７００へのポインタである。

　図９に，オブジェクト位置構造体７００の一例を示す。この構造体は，事物の動きがないか，あるいは十分小さい区間ごとに１つずつ作成され，それらが数珠つなぎになった連接リストの形をとる。７０２は，その動きのない区間の始点フレーム番号，７０４が終点フレーム番号である。７０６から７１２は，事物を矩形領域で囲んだときの矩形領域の原点座標と大きさである。５１６は，より抽象度の高い上位のオブジェクトへのポインタである。全てのオブジェクトは固有の関連情報を持つことができるが，幾つかのオブジェクトで関連情報を共有したほうが都合のいい場合がある。例えば，映像中の人や物などの被写体は，同じ被写体が複数のシーンで現れることが多い。もちろん，現れたときの姿や挙動は各シーンごとに違うため，各シーンごとに固有の関連情報が存在するが，名前であるとか，性別・年齢・職業といった抽象度の高い情報は共有したほうがデータ量が少なくて済み，また，情報が更新されたときにも整合性に破綻をきたすことがない。その意味で，こうした抽象度の高い情報は，より上位のオブジェクトの関連情報にもたせ，そのオブジェクトへのポインタを５１６に持つデータ構造としている。５１８は，上位のオブジェクトから下位のオブジェクトを参照するためのポインタである。これは，上位のオブジェクトも下位のオブジェクトも同じ５００のデータ構造体を用いるためによる。もちろん，上位のオブジェクトには，始点・終点フレームや位置情報等の映像に直接関係する情報は不要であるので，それらを省いた簡略版の構造体を用いることもできる。

　５２０は，事物の関連情報を記憶するディクショナリ８００へのポインタである。ディクショナリは，図１０に示されるように，関連情報を呼び出すためのキーとなる文字列８０４へのポインタであるキー８０２と，そのキー文字列に対応づけて登録する関連情報の文字列８０８へのポインタである内容８０６，及び関連するオブジェクトへのポインタを持つリンク８１０から構成され，登録する関連情報の項目数だけ作られ，それらが数珠つなぎになった連接リスト形式をとる。オブジェクトの関連情報の読み出しは，キーを指定して，そのキーと合致するディクショナリ構造体の内容を返すことで行う。例えば，キーが「名前」で内容が「太郎」の場合には，「名前」というキーを指定すると「太郎」という関連情報が得られる。関連情報表示部２０４では，どの関連情報を表示するかの選択は
，どのキーに対応する内容を表示するかという処理に帰着する。リンクは，連想検索を行うときのジャンプ先の事物へのポインタであり，内容８０６には，例えば，「他のシーンに現れている同じ被写体」といったリンクの意味を表す文字列あるいは記号が入り，リンク先８１０には，その被写体のオブジェクトへのポインタが入る。連想検索でジャンプするときには，映像制御部１０６は，このオブジェクトの構造体から，その被写体が現れている映像と先頭フレーム番号を読み出して，その映像位置から再生するように映像再生部２００を制御する。

　図１１は，映像再生部２００のより詳しい処理ブロック図である。映像は，論理映像と物理映像の２階層構造になっている。論理映像はシーンの集合体としての構造情報だけを持ち，物理映像は映像の実データを持つ。論理映像呼出部３００は，映像制御部から送られる再生位置設定情報３１０から，論理映像のライブラリ３０４から合致する論理映像を呼び出す。

　図１２に論理映像のデータ構造体９００の一例を示す。９０２は，論理映像を一意に特定するＩＤ番号である。９０４は，論理映像を代表するシーンの番号である。９０６は，構成シーンを表す連接リストで，シーン１０００が再生されるべき順番に連なっている。９０８は，シーン間のデゾルブやワイプといった特殊効果の設定情報である。９１０には，各種関連情報が入る。

　図１３に，シーン構造体１０００の一例を示す。１００２がシーンの代表フレーム番号で，１００４が始点，１００６が終点のフレーム番号である。対応する物理映像へのポインタが１００８に入る。１０１０には，このシーンの中に登場する全ての事物のデータ構造体，すなわちオブジェクトへのポインタが連接リスト形式で入る。シーンは，その映像内容のつながりを単位にまとめることができ，ピラミッド状の階層的な管理を行うことができる。１０１２の上位シーンは，そうした上位のシーンへのポインタであり，１０１４の下位シーンは，１段下位にある全てのシーンを連接リストにしたものへのポインタである。１０１６はシーンの属性情報である。物理映像呼出部３０２は，フレーム番号に３００でシーン情報が加わった情報３１２によって，物理映像のライブラリ３０８から呼び出す物理映像と再生するフレーム位置を決定する。

　図１４は，物理映像構造体６００の一例である。６０２は，物理映像を一意に特定するＩＤ番号である。６０４は，レーザーディスクの映像なのか，ビデオテープのものか，あるいは外部情報記憶装置に格納されたデータなのかを識別するための分類コードである。６０６は代表フレーム番号，６０８が始点，６１０が終点フレーム番号である。６１６には属性情報が入る。他は，映像データが物理映像のデータ構造体の中に持っている場合に必要となる情報である。６１２が映像の画面幅，６１４が同高さであり，６１８は，あるフレーム番号に対応するフレーム画像データが，物理映像のどのアドレスから存在するかを記憶したディレクトリである。６２０はフレーム番号，６２２にフレームの画素データ，６２４に音声データという形式がフレーム数だけ繰り返される。物理映像呼出部は，分類コードにより，レーザディスク等の映像再生装置１０を用いる映像であるとわかれば，映像再生装置に制御命令を送って該当する映像を呼び出す処理を行い，物理映像中にある場合には，該当する映像を呼び出す。

　論理映像を用いるメリットの一つは，大きなデータ量になりがちな物理映像の１本から，その映像を用い，様々に編集された多種多様の映像作品を少ないデータ量で作れることにある。特に，ニュースなど過去の資料映像を頻繁に使い回すような映像ほど，論理映像を用いる利点が大きい。もう一つのメリットは，シーンごとに登場するオブジェクトをあらかじめ記憶しておくことにより，映像再生中にどの事物が現れているのかを，全てのオブジェクトについて調べる必要がなくなり，迅速な処理が期待できる。

　先に簡単に説明した図１のコンピュータ画面例を用いて，連想検索のインタフェース部分の実行手順について詳細に説明する。モニタウインドウ１１００には
，前述の映像再生表示部１００により任意の映像が表示される。表示と合わせ，音声もスピーカ１２から出力される。１１０４がカーソルで，マウスやジョイスティク等の間接的なポインティングデバイス５の操作に合わせて画面上を移動しポイント操作を行う。同様のポイント操作はタッチパネルのような直接的なポイティングデバイス１３によっても行うことができ，その際はカーソルは不要にできる。前述のポイント位置検出部１０４は，これらのポインティングデバイスを常時監視し，マウスの移動に合わせてカーソル１１０４を移動したり，マウスのボタンが押されたときには，ポイント操作があったとして，そのときの画面上のカーソルの位置情報を，その位置情報を必要とする各処理モジュールに送る。タッチパネルの場合には，タッチがあった時点で，そのタッチされた位置を検出し
，その位置情報を送る。１１０２は，映像の再生状態を制御するための操作パネルであり，操作パネル部１１０によって，再生・早送りなどの再生状態を示す絵や文字が描かれたボタンと，モードを変更するためのボタン，映像再生表示部からの各種情報を表示するためのディスプレイ領域などが表示される。操作パネルの表示領域がポイントされたことが，ポイント位置検出部１０４から伝えられると，その位置情報から，さらにどのボタンがポイントされたかを検出し，そのボタンに対応づけられた制御コードが映像再生表示部１００に送られる。１１０６は，汎用入出力ウインドウで，キーボード１１等を使って各種情報をコンピュータとやりとりできる。ファイル名を入力することで，連想検索を行う映像の指定をこのウインドウから行うことができる。入力されたファイル名は，再生開始位置を示す先頭フレームの番号と一緒に再生位置設定情報３１０として映像再生表示部１００に送られ，１００の中の論理映像呼出部３００は，その情報から対応する映像を呼び出し，物理映像呼出部を経由して映像がモニタウインドウ１１００に表示される。また，映像の各種関連情報をこの汎用入出力ウインドウ１１０６に表示することもできる。

　ウインドウ１１０８に表示中のアイコン１１１０の一つがポイントされたことがポイント位置検出部によって検出されると，インデクス管理部１０８は，そのアイコンに対応するシーンの先頭フレーム番号を再生位置設定情報として映像再生表示部１００に伝える。１００は，モニタウインドウ１１００にそのシーンの映像を表示する。表示された映像は，１１０２の操作パネルによって再生や早送りなどの制御ができる。これにより映像の再生が開始されると，論理映像呼出部３００が出力する再生位置情報３１４が，インデクス管理部１０８に伝えられ，１０８は，１１０８のウインドウにおいて，例えば，再生中のシーンのアイコンがハイライトしたり点滅するといった強調表示を行い，現在モニタウインドウ１１００で再生されている映像に対応するシーンが一目でわかるようにする。

　１１０８におけるシーンの表示は階層的に行うことができる。まず，ポイントのしかたを，例えば，クリックとダブルクリックとの２種類用意し，クリックを上述の映像呼び出しのためのポイント手段として，ダブルクリックを後述するシーンの階層管理のためのポイント手段に用いる。１１０８に表示されたアイコンの一つがポイントされたことがポイント位置検出部によって検出されると，インデクス管理部１０８は，それがダブルクリックかどうかを調べる。ダブルクリックでなければ，上述の映像呼び出しの処理を行い，ダブルクリックならば，ポイントされたシーンに対応するシーン構造体１０００の中の下位シーン１０１４を参照し，１１０８と同様のウインドウを新たに作成して，それら下位シーンのアイコンを一覧表示する。こうして新たに作成されたウインドウは，１１０８と同様にポイントを検出する対象となり，このウインドウ上のアイコンがポイントされると，インデクス管理部は，対応するシーンをモニタウインドウに表示したり，さらに下位のシーンがあれば，それら下位のシーンの一覧表示を行うウインドウを新たに作成する。こうした階層的な管理は，映像の選択の際にも用いることができ，１本の映像ごとに，その全てのシーンを束ねる最上位のシーン１個を対応づけておけば，上記の枠組みの範疇で，登録されている映像の中から所望の映像をウインドウから選択したり，さらに下位のシーンの一覧を表示させたりすることができる。

　１１１２は，アイコン１１１４と時間軸表示部１１１６からなり，例えば，別々のシーンに現れているが実は同じ被写体である，などといった基準で分類された幾つかの事物をまとめ，代表する一つのアイコン１１１４を表示して，その横に，映像全体の中でそれらの事物が登場する区間を，横軸を時間軸にとった棒グラフで表示したインデクスである。同じ分類の事物は各々オブジェクト構造体５００で管理されており，共通のオブジェクト構造体へのポインタを上位オブジェクト５１６に持つ。逆に上位オブジェクトは，各事物のオブジェクト構造体へのポインタを下位オブジェクト５１８に連接リスト形式で持つ。インデクス管理部１０８は，上位オブジェクトを記憶管理する。アイコンとして表示されるのは，上位オブジェクトの構造体が記憶する代表フレームの縮小画像である。棒グラフは，下位オブジェクトの各々を調べ，その始点・終点フレーム番号から映像全体に占める区間を計算して描画する。この棒グラフにおける事物の登場区間に対応する部分がポイントされたことが検出されると，インデクス管理部１０８は，その部分の映像をモニタウインドウ１１００に表示させる。アイコンをポイントしてオブジェクトを選択し関連情報を付与・変更すれば，上位オブジェクトの関連情報として，すなわち，同じ分類の全ての事物に共通の情報として登録される。

　一方，モニタウインドウ１１００がポイントされたことが検出されると，そのポイント位置の情報から，ポイント事物識別部１０２によって，映像中のどの事物がポイントされたかを検出する。この処理は，現在再生中のシーンがどれであるかを示す再生位置情報３１４を論理映像呼出部３００から受け，そのシーンに対応するシーン構造体の対応オブジェクト１０１０に記憶されているオブジェクトのそれぞれについて，その始点・終点を調べて，現在再生中のフレーム番号を示す再生位置情報３１６と比較し，そのオブジェクトで表される事物が現在画面上に現れているのかどうかを判定する。現れていると判定された事物の各々について，事物の位置，すなわちオブジェクトの位置５１４と再生位置情報３１６とから，現在の事物の存在領域を求め，その中にポイントされた位置が含まれているかどうかを判定する。複数合致した場合には，優先順位の高いものを１つだけ選択する。優先順位は，例えば，連接リストの登録順で表現できる。この方法だと，優先順位のために特別なデータ領域を用意する必要がない。ポイントされたと判定された事物がある場合には，その事物のオブジェクト構造体中のオブジェクト属性情報５２０を調べて，「連想検索のジャンプ先」を意味するキーを持つディクショナリ構造体８００を探し，リンク８１０に登録されたオブジェクトの始点フレーム番号を読みだして，そのフレームにジャンプする。オブジェクト属性情報５２０に該当するキーがないときには，共通の上位オブジェクトを持つ別の事物が登場しているシーンにジャンプするようにする。これは，ポイントされた事物の１ランク上位のオブジェクトに登録されている下位オブジェクトの連接リストを参照し，その事物に連接する次のオブジェクトの始点フレーム番号を読みだして，そのフレームにジャンプする。

　以上のように，階層的にシーンを探して当りをつけてから映像をモニタウインドウで確認し，連想検索を行い，またインデクスウインドウで確認するといったことが可能になる。これは，シーンによって構成された論理映像による映像管理手段を導入したことによって達成されている。

　図１５に，モニタウインドウ１１００の詳細な画面例を示す。１２００が実際に映像が表示される領域で，１２０２は，映像再生部２００から送られる再生中のフレーム番号を表示する。フレーム番号を表示している部分は，数値入力部を兼ねており，キーボード等によって数字を修正すると，修正された数字を新たなフレーム番号と見做して，その番号に対応するシーンから映像を再生することができる。１２０４は，映像全体中で，現在どの部分を再生しているのかを表示するためのインジケータパネルである。このパネル上のどの位置に指示棒１２０６があるかによって，再生位置を示す。指示棒の位置は，上述のフレーム番号と，再生中の論理映像の構造体データから計算される。１２０８の縦棒は，シーンの変わり目を表す線であり，これによって，どのシーンが再生されているのかも直感的に知ることができる。このパネルによって，連想検索によってジャンプしたことが指示棒１２０６の大きな移動によって明確に知ることができ，映像の中で自然にシーンが変わっただけなのか区別がつかないといった混乱がなくなる。ポイント位置検出部が指示棒１２０６がポイントされ，ドラッグ操作によって強制的に動かされた場合，操作パネル部１１０は，ポイント位置検出部１０４によって得られる移動後確定した位置情報を使って，その位置に対応するシーンとフレーム番号が計算され，その位置に対応する映像部分から再生するように，映像制御部１０６にこの情報を伝えることができる。１２１０は，このモニタウインドウを閉じる場合のボタンである。

　図１６は，音声にマッピングされたオブジェクトがある場合の映像表示画面の例である。音声は目で見えない情報であるので，ボタン１４００及び１４０２の形で可視化している。音声かどうかの判定は，事物有無判定部２０２が，オブジェクト分類コード５０４を調べることで行える。２０２は，現在再生中のシーンとフレームの情報を用い，どのオブジェクトが現れているかをチェックするとき，現れているオブジェクトの分類コードが音声のものであれば，ボタンを表示する。ボタンの表示位置は，オブジェクトの位置５１４に登録される。これにより，ポイント事物識別部の処理に変更を加えることなく，このボタンをポイントすることにより，その音声に関連するシーンにジャンプすることができる。ボタンは現在再生中の音声にマッピングされたオブジェクトの種類だけ表示され，ボタン面のタイトルで区別される。

　図１７の（ａ）〜（ｃ）は，連想検索で別のシーンにジャンプするときの表示画面例である。画面上の事物がポイントされると，映像再生表示部１００は，映像中の通常のシーンの変わり目と区別がつきやすいように特殊効果を加えた変化をするようにする。例えば，ポイントされた事物の領域の重心から，飛び先のシーンの縮小された映像がみるみる大きくなるようなシーンの変わり方をさせる。これにより，どの事物がポイントされたのかもすぐにわかる。

　ところで，図１５における１２１２は，事物の関連情報を表示するかどうかを決めるためのボタンである。このボタンをポイントすると，例えば，図１８に示す１３００のようなメニューが現れる。このメニューには，関連情報を表示をしなくするＯＦＦのほか，現在表示可能な関連情報の種類が表示される。ユーザは，このメニューの中から見たい関連情報の種類を選ぶことができる。この情報は，映像制御部１０６を通じて，制御信号２１０として映像再生表示部１００の関連情報表示部２０４に伝えられ，関連情報を表示するのか，するならば，どのキーに対応する情報なのかが決定される。このメニューは１本の映像ごとに作られて，その映像について登録されている全てのオブジェクト構造体５００におけるオブジェクト属性情報５２０のディクショナリ全てのキーを調べ，全種類をメニューに載せている。１２１４は，モードを変更するためのボタンで，連想検索のモード，関連情報を変更するモードなどを切り替えることができる。これによって，ポイント事物識別部１０２の内部状態を変化させ，ポイント位置検出部からポイントが伝えられたときの対応処理が各内部状態に応じたものにする。

　図１９は，関連情報を表示する画面の一例である。映像中の事物１５００とその関連情報１５０２との関係が一目でわかるように，事物の上に重畳するように関連情報を表示する。事物有無判定部２０２が，前述した手順で現在現れている事物を確定したとき，それらの事物についてオブジェクトの位置５１４を読みだし，その位置情報から重心を求め，また，関連情報の表示に必要となる領域の重心を求めて，その重心が一致するように関連情報の表示位置を定める。但し，複数の事物が密に接している場合には，相互にオフセットをかけて１５０２の表示が重ならないようにする。関連情報１５０２は図のようなテキストに限定されるものではなく，アイコンなどの画像であっても一向に構わない。また，連想検索時には，ポイント事物識別部１０２が，関連情報１５０２の表示領域をポイントすることでも，対応する事物がポイントされたと識別できるようにし，別のシーンにジャンプできるようにする。これは，一つの事物につき，２つの位置情報を持たせ，そのＯＲで判定することで行う。また，図２０に示すように，関連情報１５０２と事物１５００の間を連結線１５０４で結ぶことでも対応づけのわかりやすい表示を行うことができる。特に，関連情報１５０２の表示位置を固定にしておき，連結線だけを事物の動きに合わせて変化させることで，事物の動きが激しく事物をポイントすることが困難な場合でも，固定している１５０２をポイントすることで容易に連想検索を行うことができる。

　システムの内部状態が関連情報変更モードのときには，図２１に示すように，表示されている関連情報のテキスト１５０２をポイントすると文字修正カーソル１５０６が現れ，キーボード等を使って，その場で直ちに変更することができる。表示された情報が上位のオブジェクトに格納されている関連情報であれば，この変更により，同じ上位オブジェクトを共有する全ての事物について一斉に関連情報が更新されることになる。表示されている以外の関連情報を変更するときには，図２２に示すような関連情報変更ウインドウ１６００が現れる。１６０２は，関連情報のキーのリストである。このリスト中には，その事物の関連情報のほか，その上位オブジェクトの関連情報もある。１６０４のボタンをポイントすると，文字入力ウインドウが現れて，そこに新しいキーを入力すると登録されて１６０２のリストに登録される。１６０２のリストに表示されているキーはポイントによって選択でき，選択されると強調表示される。この状態で，１６０８の文字入力領域に何か入力すると，それが，その選択されたキーに対応する関連情報として登録される。１６０６は，キーを抹消するためのボタンで，キーを選択した状態で１６０６をポイントすると，そのキーに対応する関連情報ごと登録抹消される。１６１０は，このようにして行った変更を受容して完了する場合にポイントするボタンで，１６１２は，変更を全てキャンセルして取りやめる場合にポイントするボタンである。

　また，システムの内部状態が事物複写モードのときには，再生中の映像に現れた事物を複写して，他の映像に貼り付けるといったことも動画間・音声間のそれぞれで可能である。複写は，ポイントされた事物のオブジェクトの構造体をそっくり複製することによって行う。複写されたオブジェクトは，上位オブジェクトを共有し，また，その上位のオブジェクトの下位オブジェクトとして追加される。貼り付けについては，映像中の事物は映像情報の部分空間と対応づけられているので，貼り付け先の映像情報の同じ形状の部分空間と置換することで行える。そして，この複写・貼り付けは，関連情報も合わせて複写・貼り付けが行えるので，関連情報に関する作業量はほとんどない。

　以上の実施例では，ワークステションレベルのコンピュータを用いて検索を行なう例で説明したが，ＶＴＲやＴＶなどの一機能として実現することも可能である。

映像の連想検索を実現するシステムの画面の構成例である。本発明の一実施例に係る映像の連想検索システムの装置構成のブロック図である。映像の連想検索機能の説明図である。被写体検索方法を説明する図である。映像の連想検索を実現するための処理ブロック図である。オブジェクト指向型のデータ構造体の概略図である。映像再生表示部の詳細処理ブロック図である。映像オブジェクトを記憶する構造体を示す図である。オブジェクトの位置を記憶する構造体を示す図である。ディクショナリを記憶する構造体を示す図である。映像再生部の詳細処理ブロック図である。論理映像を記憶する構造体を示す図である。シーンを記憶する構造体を示す図である。物理映像を記憶する構造体を示す図である。モニタウインドウを示す画面例である。モニタウインドウの表示画面例である。モニタウインドウの表示画面例である。メニュー表示の例である。モニタウインドウの表示画面例である。モニタウインドウの表示画面例である。モニタウインドウの表示画面例である。関連情報を変更するためのウインドウを示す図である。

符号の説明

　１…ディスプレイ，２…制御信号線，３…映像入力装置，４…コンピュータ，５…ポインティングデバイス，６…外部情報記憶装置，７…ＣＰＵ，８…接続インタフェース，９…メモリ，１０…映像再生装置，１１…キーボード，１２…スピーカ，１３…タッチパネル。

Claims

　映像を視聴するための映像表示領域と，映像のインデクス情報を表示するインデクス表示領域とを有する映像表示手段と，それらの表示領域のうち，いずれがポイントされたかを検出するポイント検出手段と，映像中に現われる動画像中の事物もしくは音声について予め登録するオブジェクト管理手段と、前記ポイント検出手段によって得られたポイント情報と別途蓄積してある映像の論理構造記述とから次に再生すべき映像の状態を定める制御手段とを有し，表示される映像を変化させることを特徴とする映像の連想検索装置。
　請求項１記載の映像の連想検索装置において，属性情報重畳手段を設け，再生中の映像に現れているオブジェクトの属性情報のうち選択された少なくとも一部の情報を，再生映像中の該オブジェクトの位置に重畳表示，もしくは該オブジェクトとその属性情報とが対応していることを明示される形態で表示することを特徴とする映像の連想検索装置。
　請求項１記載の映像の連想検索装置において，属性情報変更手段を設け，再生中の映像に現れているオブジェクトの属性情報の少なくとも一部の情報を，該オブジェクトが現れたその場で直ちに変更することを特徴とする映像の連想検索装置。
　請求項１記載の映像の連想検索装置において，その映像表示手段における表示画面の部分領域として，映像表示用の領域と，映像の再生位置を表示するための領域と，映像の再生状態を制御するためのボタンを表示するための領域と，属性情報の表示の有無及び表示情報の種類を決定するためのボタンを表示するための領域とを有する操作ウインドウを持つことを特徴とする映像の連想検索装置。
　請求項１記載の映像の連想検索装置において，オブジェクトのポイントによりシーンが変わるときにその変化を特殊映像効果を加えて実行することにより、通常のシーンの変化と区別して表示することを特徴とする映像の連想検索装置。
　請求項１記載の映像の連想検索装置において，オブジェクトの属性情報が表示されているときには，該オブジェクトの属性情報の表示領域がポイントされたときにも該オブジェクトがポイントされたと判定することを特徴とする映像の連想検索装置。
　請求項１記載の映像の連想検索装置において，連想検索の対象となっている映像中の属性情報の種類を一覧表示することで，どの種類の属性情報を表示させるかを指定することを特徴とする映像の連想検索装置。
　請求項６記載の映像の連想検索装置において，オブジェクトの属性情報の表示位置を固定とし，事物との対応づけは，該事物の位置と該属性情報の表示位置とを常に結ぶように変化する線分の表示によって明示することを特徴とする映像の連想検索装置。
　動画像及び映像のインデクスとを少なくとも表示する映像表示手段と、音声を再生するための音声出力手段と、映像の制御状態を指示する入力手段と、映像再生手段と、前記映像再生手段により得られた映像を計算機で扱えるデ−タ形式に変換する映像入力手段と、前記映像入力手段によって得られたデ−タを記憶しておくメモリと、前記入力手段によって入力された情報に基づき、映像の表示状態を制御する制御手段を有する映像の連想検索システム。
　映像中に現われる動画像中の事物もしくは音声について予め登録し、その登録された事物に対応する動画像上の領域をポイントされたことを検出することにより、次に再生すべき映像の状態を定めて映像表示手段上に映像を表示することを特徴とする映像の連想検索方法。