JP2002133420A

JP2002133420A - 映像インデックス付けおよびイメージ読み出しシステム

Info

Publication number: JP2002133420A
Application number: JP2001205891A
Authority: JP
Inventors: Heather Yu Hon; ホン・ヘザー・ユ
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-07-06
Filing date: 2001-07-06
Publication date: 2002-05-10
Also published as: US7042525B1

Abstract

(57)【要約】【課題】計算量の観点から効率的な方法でセグメント
化を実現する映像セグメント化システム等を提供する。【解決手段】映像セグメント化システムは、映像シー
ケンスの隣接フレーム間の類似度を表すＳ距離の測定値
を生成し、圧縮された映像シーケンスの直流輝度信号の
周波数分解を利用する。高・低周波シグニチャが、ウェ
ーブレット変換を用いて周波数分解された信号から生成
される。カット検出部は、低周波シグニチャからカット
変化を、フェード検出部は、高周波シグニチャからフェ
ード変化を、ディゾルブ変化検出部は、２重フレーム差
分アルゴリズムによりディゾルブ変化を識別する。映像
読み出しシステムは、問い合わせイメージとデータベー
スイメージとのＳ距離を生成し、低・高周波成分シグニ
チャを利用してイメージ間の類似度のＳ距離測定値を生
成する。その結果、類似のデータベースイメージを閲覧
し、検索できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、概して映像信号処
理に関する。より具体的には、本発明は、映像インデッ
クス付けおよびイメージ検索に関する。

【０００２】

【従来の技術】この過去数年、高速ネットワークで利用
可能な大域幅は劇的に増加してきている。同時に、コン
ピュータの製造者は、パーソナルコンピュータのハード
ドライブの記憶容量を増加し、ハードドライブにアクセ
スするシステムバスおよびマザーボードの速度を向上さ
せた。データ圧縮アルゴリズムの質および効率も、同様
に、特に映像データに関して、情報伝送効率およびアク
セス速度を向上させた。

【０００３】データベース管理者の重要な役目の１つ
は、データへの容易かつ直感的なアクセスを提供するこ
とである。この役目は、ユーザがイメージを検索したい
とき、または映像セグメントなどの他の映像データを検
索したいときには、特に困難である。データの閲覧と検
索を行う１つの有用な方法は、テキストベースの検索を
通じて、インターネットで、ユーザが関連するインター
ネットページを素早くかつ直感的にアクセスできるよう
にすることである。

【０００４】映像データの検索を可能にするために、映
像読み出しシステムは、データベースに蓄積されたイメ
ージや映像フレームを用いて、問い合わせのあったイメ
ージに類似するイメージを強調する。ユーザが問い合わ
せのあったイメージを提供する方法は、複数存在する。
例えば、ユーザは、探しているイメージを大雑把に認識
しているであろう。ユーザは、手書きでイメージの簡単
なスケッチを描き、スキャナを用いてそのスケッチをア
ップロードする。または描画ソフトウェアが利用でき
る。そのイメージの写真または、類似するイメージを用
いて、データベース内の他の類似のイメージを探すこと
ができる。

【０００５】ユーザが、最も関連のないイメージに対し
て最も関連するデータベースイメージのリストの提供を
受けられるよう、イメージ検索エンジンは、問い合わせ
のあったイメージとデータベースイメージとの間の類似
度の測定値を生成できなければならない。イメージ読み
出しシステムに関連するイメージ検索システムは、細部
の小さな違いを無視して、問い合わせのあったスケッチ
またはイメージの重要な特徴と、データベースイメージ
との類似度を検索できなければならない。換言すれば、
イメージ検索エンジンは、問い合わせのあったイメージ
と、データベースイメージとの間の映像的な類似度を一
様に測定しなければならない。

【０００６】映像シーケンスの検索の際、問い合わせの
あったイメージを映像シーケンスの各フレームと比較す
るのは、イメージ読み出しシステムには非効率であろ
う。映像シーケンスは、典型的には１以上のショット
（shot）を含む。「ショット」とは、１つのカメラで中
断なく撮影された、関連するフレームのシーケンス（連
続）である。非効率さをなくすため、イメージデータベ
ース管理者は、そのショットをセグメント化する時間を
とらなければならず、また、そのショットをあらわすキ
ーフレームを識別しなければならない。この問題を解決
するため、映像のセグメント化およびキーフレーム識別
を自動的に行うことが望ましい。

【０００７】自動映像インデックス化への第１ステップ
は、激しい変化と緩慢な変化の両方を識別する能力を持
つことである。激しい変化は、２つのイメージ間の非連
続的な変化であり、カット変化としてもまた称される。
緩慢な変化は、フェード、ディゾルブ、およびワイプ変
化を含む。イメージが、徐々に消えて黒または白にな
り、または黒または白から徐々に現れる場合には、フェ
ード変化が起こる。あるイメージが徐々に消えると同時
に他のイメージが徐々に現れる場合には、ディゾルブ変
化が起こる。第１のイメージが第２次のイメージを徐々
に押し出すと、ワイプ変化が起こる。緩慢な変化は、１
つより多いショットから作成される複合ショットであ
る。

【０００８】ショット変化検出部は、自動映像インデッ
クスシステムにおいて、激しい変化と緩慢な変化の両方
を自動的にうまく感知しなければならない。ショット変
化検出部はまた、他の変化を感知すべきではない。換言
すれば、ショット変化検出部は、細部の小さな変化、イ
メージの動きおよびカメラの動きを無視すべきである。
例えば、パン、ズーミング、チルティング(tilting)
は、問い合わせ結果に大きな影響を与えてはならない。

【０００９】

【発明が解決しようとする課題】従来の映像読み出しシ
ステムは、ヒストグラム変化、フレーム変化、動きベク
トル解析、圧縮変化、および、ニューラルネットワーク
アプローチを含む、いくつかのタイプのショット変化の
検出技術を利用していた。フレーム変化検出システム
は、局部の動きに極端に反応する。ヒストグラム検出シ
ステムは、激しいショット変化およびフェードをうまく
識別するが、ワイプおよびディゾルブといった緩慢な変
化の動作は不十分である。動きベクトル検出システム
は、巨大なイメージデータベースを利用する際には禁止
すべき、大量の計算が必要になる。ニューラルネットワ
ーク検出システムは、他のカット検出システムを超える
よりよい性能を提供できない。ニューラルネットワーク
検出システムは、ニューラルネットワークの学習過程で
大量の計算が必要になる。

【００１０】フェード、ディゾルブ、およびワイプ変化
のような、アドレスの緩慢な変化に取り組む、さらなる
アルゴリズムが提案されている。エッジトラッキングシ
ステムは、入力および出力エッジパーセンテージ（ente
ring and exiting enteringpercentages）の相対値を測
定する。エッジトラッキングシステムは、緩慢な変化を
２０％未満を正確に識別することができる。エッジトラ
ッキングシステムは、動き推定ステップが必要であり、
計算量が多い連続フレームを割り当てる。エッジトラッ
キングシステムの性能は、動き推定ステップの精度に大
きく依存する。クロマティックスケーリングシステム
は、黒へのフェードイン変化および黒からフェードアウ
ト変化のみを想定する。クロマティックスケーリングシ
ステムはまた、オブジェクトの動きおよびカメラの動き
は、変化期間の前および後にゆっくりと生じると想定す
る。

【００１１】

【課題を解決するための手段】本発明による映像セグメ
ント化システムは、複数のフレームを有する映像シーケ
ンスを提供する映像ソースを含む。映像セグメント化シ
ステムは、映像シーケンスの隣接フレーム間のＳ距離
（S-distance）の測定値を生成する。Ｓ距離測定値は、
隣接フレーム間での類似度を評価する。

【００１２】周波数分解部は、好ましくはウェーブレッ
ト分解を利用し、各フレームについて、低周波および高
周波シグニチャ（low frequency and high frequency s
ignature）を生成する。カット検出部は、２つの隣接す
るフレーム間の変化を、低周波シグニチャを用いて識別
する。カット検出部は、隣接フレームについて低周波シ
グニチャの係数間の差信号を生成し、その差信号を閾値
と比較する。差信号が閾値を超えれば、カット変化を表
す。

【００１３】カット変化を識別した後、本発明による映
像セグメント化システムは、フェード検出部を利用す
る。フェード検出部は、カット変化の間に位置するフレ
ームの高周波シグニチャを用いて、フェード変化を識別
する。フェード検出部は、和信号生成部を含む。和信号
生成部は、各フレームの高周波シグニチャの係数の和を
計算し、和信号を線形信号と比較する。線形信号は、フ
ェードインに対しては増加関数、および、フェードアウ
トに対しては減少関数である。ディゾルブ変化検出部
は、高周波シグニチャを用いて可能性のあるディゾルブ
変化を識別する。２重フレーム差分生成部は、ディゾル
ブ変化を確認する。理解されるように、本発明による映
像セグメント化システムは、激しい変化および緩慢な変
化の識別性を劇的に向上させている。映像セグメント化
システムは、計算量の観点から効率的な方法でセグメン
ト化を実現する。

【００１４】本発明によるイメージ読み出しシステムは
また、Ｓ距離測定を用いて、問い合わせのあったイメー
ジを、データベース内のイメージと比較する。Ｓ距離測
定により、ユーザは、インターネットにより提供される
テキストベースシステムと類似の検索および閲覧が可能
になる。

【００１５】

【発明の実施の形態】図１を参照して、映像シーケンス
１０が示されている。映像シーケンス１０は、各々が１
以上のフレーム１６−１〜１６−ｎを含む、複数のショ
ット１２−１〜１２−ｎを含む。映像シーケンス１０
は、ｎ個のショットと、ｍ個のフレームを有する。本発
明による自動映像インデックスシステムは、好ましく
は、ｎ個のショット１２間の激しい変化および緩慢な変
化の両方を識別することができる。ｎ個のショット間の
変化を識別した後は、映像インデックス化、読み出し、
および、他の使用のため、各ショット１２についてキー
フレームが選択される。キーフレームはショットにおけ
る最初のフレームであってもよいし、中央フレームまた
はフレームの組み合わせであってもよい。ｎ個のショッ
ト間の変化すべてが、容易に識別できるわけではない。
例えば、ショットｎ−１およびショットｎの間の変化
は、カット変化２０である。ショット１およびショット
２の間の変化は、ディゾルブ変化２２である。

【００１６】図２〜４は、激しいショット変化および緩
慢なショット変化の両方に関連するふれーむを示す。図
２を参照して、時刻ｔで始まる映像シーケンスの第１フ
レーム３０の後には、時刻（ｔ＋１）で始まる映像シー
ケンスの第２フレーム３２が続く。フレーム３０および
３２間は激しい変化があるので、カット変化が図２の
（３４で示す）時刻（ｔ＋１）において指定される。

【００１７】図３は、フェードアウト変化４０のｎフレ
ームを示す。時刻ｔにおいて、フレーム４４が発生し、
イメージは直ちに識別可能である。フレーム４６は時刻
（ｔ＋１）において発生し、イメージ４２’の鮮明度
は、フレーム４４のイメージ４２に対して、やや減少し
ている。時刻（ｔ＋ｎ−１）において、イメージ４
２’’の鮮明度は、時刻（ｔ＋ｎ）までさらに減少し、
イメージ４２は概して消滅し、黒または白といった単色
になる。フェードイン変化は、その逆である。

【００１８】ここで図４を参照して、ディゾルブ変化５
４が示されており、ｎ個のフレームを含んでいる。時刻
ｔにおいて、フレーム５８のイメージ５６の鮮明度は比
較的高い。時刻（ｔ＋１）では、フレーム６０のイメー
ジ５６’の鮮明度は減少し、比較的低い鮮明度の第２の
イメージ６２が見えるようになる。時刻（ｔ＋ｎ−１）
において、フレーム６６のイメージ５６’’の鮮明度は
減少し、イメージ６２’の鮮明度は高くなる。時刻（ｔ
＋ｎ）では、フレーム７０のイメージ５６は消滅し、イ
メージ６２’’の鮮明度は増加する。

【００１９】図５を参照して、激しい変化および緩慢な
変化を検出する自動映像インデックスシステム８０が示
されている。自動映像インデックスシステム８０は、メ
モリ８６に接続されたプロセッサ８４と、入力／出力イ
ンターフェース９０とを含む。メモリ８６は、読み出し
専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡ
Ｍ）、光学式記録装置、ハードドライブおよび／または
他の適切な記録装置を含む。自動映像インデックスシス
テム８０は、ローカル映像（イメージ）データベース９
２のような映像シーケンスのソース、または、ローカル
エリアネットワーク（ＬＡＮ）９６を介して利用可能
な、映像（イメージ）データベース９４のような配信映
像（イメージ）データベース、または、インターネット
に接続可能なワイドエリアネットワーク（ＷＡＮ）１０
０を介して利用可能な映像（イメージ）データベース９
８を含む。自動映像インデックスシステム８０はまた、
キーボード、マウス、１以上のディスプレイ、イメージ
スキャナ、プリンタ、および／または他の入力／出力
（Ｉ／Ｏ）機器などの、Ｉ／Ｏ機器１０４を含む。

【００２０】映像シーケンスセレクタ１１０により、ユ
ーザは、映像（イメージ）データベース９２、９４およ
び／または９８に格納される１以上の映像シーケンスを
選択できる。映像シーケンスの選択は、ダイアログボッ
クスを介して従来の方法により行うことができる。映像
シーケンスの選択は、マウスおよび／またはキーボード
の選択を用いて進められる。画像抽出部１１４は、選択
された映像シーケンスの各フレームについて、サムネイ
ルの直流（ＤＣ）イメージを抽出する。周波数分解部１
１６は、画像抽出部１１４に接続され、各サムネイルＤ
Ｃイメージの周波数領域で分解する。周波数分解部は、
高速フーリエ変換（ＦＦＴ）、離散コサイン変換（ＤＣ
Ｔ）離散フーリエ変換（ＤＦＴ）、またはウェーブレッ
ト変換を利用できる。Ｈａａｒウェーブレット変換のよ
うな、ウェーブレット変換の計算上の効率のために、ウ
ェーブレット変換が好ましい。

【００２１】Motion Picture Experts Group（ＭＰＥ
Ｇ）映像シーケンスソースが利用されると、それらは、
典型的には、５１２×５１２画素またはそれより大きい
フレームサイズを有する。一般には、ＤＣイメージは、
８×８画素ブロックで生成される。典型的なサムネイル
ＭＰＥＧイメージは、５１２／８×５１２／８または６
４×６４画素ブロックまたはそれ以上である。ウェーブ
レット変換を利用したＭＰＥＧサムネイルフレームイメ
ージの分解は、高周波領域成分および低周波領域成分を
生成する十分な入力になるとことが知られている。この
技術は、サムネイルＤＣイメージがＡＣ係数と比較して
非常に容易にＭＰＥＧ映像から抽出できることから、有
利である。サムネイルＤＣ成分を用いることにより、必
要な計算時間が少なくなる。

【００２２】低周波成分（Low Frequency Component:Ｌ
ＦＣ）シグニチャ（signature）生成部１２０は、ＬＦ
Ｃシグニチャを各イメージごとに生成する。高周波成分
（High Frequency Component:ＨＦＣ）シグニチャ生成
部１２４は、ＨＦＣシグニチャを各イメージごとに生成
する。ある実施例では、ウェーブレット変換が利用され
て、ＬＦＣおよびＨＦＣシグニチャが生成される。ＨＦ
ＣシグニチャおよびＬＦＣシグニチャは、以下のように
生成される。

【００２３】Ｆは、ホストコンテンツφを表す。Ｆ’
は、圧縮またはぼかしなどの処理後の関数Ｆである。自
動映像インデックスおよびイメージ読み出しが望まれる
と、以下の必要性が生じることがわかる。

【００２４】

【数１】

【００２５】I^〜は、φのウェーブレット変換を表
す。Ｉ^〜’は、０に設定された小さな係数を有するウェ
ーブレット領域のイメージφである。視覚的データ圧縮
に関する研究では、イメージφのウェーブレット変換の
小さな係数を無視すると、視覚的にI^〜’− I^〜→０と
なることが示されている。F(I^〜’)が、φの視覚コンテ
ンツを一様に保持するI^〜’から抽出された特徴である
とする。すると、視覚的に、Ｆ(I^〜’)−Ｆ(I^〜)→０が
得られる。よって、Fは、F(I^〜 _b’)−F(I^〜 _b)≧F
(I^〜 _a’)−F(I^〜 _a)である判別関数として用いることが
できる。ここで、I^〜 _aおよびＩ^〜 _bは、視覚的に異なる
２つの別個のイメージ（フレーム）である。

【００２６】映像セグメント化およびイメージ読み出し
について、２つのイメージ間または２つの映像フレーム
間のすべてのコンテンツの変化を、計測する必要があ
る。計測は、２つのイメージまたはフレームの全構造を
反映する。Ｓ距離は、ウェーブレット領域における、２
つのイメージまたはフレーム間の距離の測定値である。
Ｓ距離は、２つのイメージの有効なＬＦＣおよび／また
はＨＦＣが、どれほど共通であるかを測定するものであ
る。その結果、Ｓ距離は、２つのイメージまたはフレー
ム間の全体の類似点および／または相違点に関するよい
測定値となり、以下に説明するように、イメージの閲覧
および検索に用いることができる。

【００２７】V_t（ｔ∈[0,n]）は、映像シーケンスＶの
フレームｔを表す。また、Ｉは、イメージを表す。v¹ _t
およびv² _tは、ショット１およびショット２を表す。イ
メージサイズは、Ｘ×Ｙである。また、x∈[1,X] およ
び y∈[1,Y]として、i_t(x,y)は、フレームｔの(x,y)番
目の係数の強度を表し、i(x,y)は、イメージＩの(x,y)
番目の係数の強度になる。

【００２８】Ｓ距離を定義するため、２つのイメージに
ついてウェーブレット変換を行う。例えば、２つのイメ
ージは、イメージの読み出しのための問い合わせのあっ
たイメージおよび目標イメージ、すなわち、映像セグメ
ント化のための２つの連続したフレームである。イメー
ジi_t(x,y)のウェーブレット係数は、i_t ^〜(x,y)と表す。
各フレーム／イメージのＬＦＣシグニチャS_LおよびＨＦ
ＣシグニチャS_Hは、以下のように定義される。

【００２９】

【数２】

【００３０】ここで、ε_n-1＜i^〜(x,y)≦ε_n（n=0, 1,
2,...）のとき、δ（i^〜(x,y)）＝ｎである。また、I_L
（またはI_H）は、低周波数（または高周波数）サブバ
ンドを表す。V_tLまたはV_tHも同様である。i(x,y) は、
マルチチャネル強度関数の単一のチャネルであることに
留意されたい。I^〜’から抽出された特徴であるφ_tの、
区別されたシグニチャであるＦ（ＬＦＣおよびＨＦＣシ
グニチャ）を見つけ出した後は、この特徴を利用するア
ルゴリズムが、以下に説明するように、映像処理アプリ
ケーションのために利用される。

【００３１】図５に戻って、カット検出部１３０は、Ｌ
ＦＣ生成部１２０に接続されて、映像シーケンスにおけ
るカット変化を識別する。フェード検出部１３４は、Ｈ
ＦＣ生成部１２４に接続されて、映像シーケンスにおけ
るフェード変化の開始点および終了点を識別する。ディ
ゾルブセグメント収集部１３８は、ＨＦＣ生成部１２４
に接続されて、映像シーケンスにおけるディゾルブ変化
が存在する可能性のある開始点および終了点を識別す
る。

【００３２】ディゾルブ変化確認部１４２は、２重フレ
ーム差分（double frame differencing:ＤＦＤ）アルゴ
リズムを用いて、ディゾルブセグメント収集部１３８に
より識別された、存在する可能性のあるディゾルブ変化
の存在を確認する。セグメント化データ生成部１４２
は、カット検出部１３０、フェード検出部１３４、およ
び、ディゾルブ変化確認部１４２により識別された、カ
ット変化データ、フェード変化データ、および、ディゾ
ルブ変化データを収集する。セグメント化データ生成部
１４２は、映像データベース９２、９４、９８内への格
納のため、または、他のコンピュータまたはＩ／Ｏ機器
１０４への伝送のため、インターフェース９０に変化デ
ータを伝送する。

【００３３】図６を参照して、カット検出部１３０は、
ＬＦＣ生成部１２０に接続されており、Ｓ距離差分生成
部１５０、カット閾値生成部１５２、および、比較部１
５４を含む。カット変化データ収集部１５４は、映像シ
ーケンスに対するカット変化を収集する。Ｓ距離差分生
成部１５０または比較部１５４の出力に関しては、必要
であれば、スムージングフィルタ（図示せず）を利用し
てもよい。

【００３４】図７を参照して、カット検出部１３０の動
作がより詳細に示されている。ステップ１６０では、カ
ット閾値が設定される。ステップ１６２では、Ｓ距離関
数差分が計算される。

【００３５】Ｓ距離を計算するため、ＬＦＣおよびＨＦ
Ｃシグニチャに対して重み関数が適用される。そして、
映像シーケンスのフレームに対して、Ｓ距離関数差分が
計算される。Ｓ距離差分は、フレームｔおよびフレーム
（ｔ＋１）のように、連続するフレームの組に対して計
算される。Ｓ距離は、重み付け関数を適用した後で、Ｌ
ＦＣおよびＨＦＣシグニチャの差分をとることにより、
２つのイメージ、すなわち、映像シーケンスの連続する
２つのフレーム間の距離を測定したものである。

【００３６】

【数３】

【００３７】ここで、ξ_L、ξ_H、Ω_LおよびΩ_Hは重み関
数である。

【００３８】カットシーケンスを識別する際、高周波シ
グニチャ成分、および／または、重み関数ξ_Hは、０に
設定される。任意の連続フレームに対して、∂をカット
閾値として、S(t,t+1) > ∂のとき、フレームｔからフ
レーム（ｔ＋１）まで（または（Ｔ_０−ｔ）からＴ_Ｎ＝
ｔ＋１まで）は、カット変化を観測できる。それ以外の
場合には、カット変化が観測できない。ステップ１６４
では、フレームｔおよび（ｔ＋１）に対するＳ距離関数
差分は、カット閾値と比較される。ステップ１６６で決
定されるように、Ｓ距離関数差分がカット閾値を超える
と、ステップ１６８において、カット変化が示される。
超えない場合には、ステップ１７０においてカット変化
は存在しないとされる。（ｔ＋２）、（ｔ＋
３）、．．．、（ｔ＋ｎ）についてのさらなるフレーム
の組は、同様に取り扱われる。

【００３９】図８を参照して、フェード検出部１３４が
より詳細に示されている。フェード検出部１３４は、高
周波成分信号生成部１２４に接続され、和信号生成部１
８０、線形関数生成部１８４、および、比較回路１８８
を含む。カット検出部１３０がカット変化を識別するの
で、フェード検出部１３４は、連続する２つのカット間
で映像のサブシーケンスのみを分析する。

【００４０】フェードおよびディゾルブ変化中での映像
フレームの変化特性は、以下のようにモデル化できる。

【００４１】

【数４】

【００４２】ここで、E(T)は、特性関数である。また、
F(υ_t ¹)、F(υ_t ²)は、連続する２つのショットの、未編
集動画シーケンス特性関数を表す。η(t) は、η(t₀) =
1 および η(t_n) = 0 となる減少関数である。Ｃは、
ショット変化でのすべてのフレームに存在するテキス
ト、ラベル、またはロゴなどの、一定の（または背景
の）イメージである。そして、t₀、t_N は、変化の開始
点および終了点である。

【００４３】フェードアウトの間、第２シーケンスは存
在せず、任意のt (t∈(t₀, t_N)) に対して、F(υ_t ²) =
0 となる。フェードインでは、任意のt (t∈(t₀, t_N))
に対して、F(υ_t ¹) = 0 となる。すなわち、以下の数５
のようになる。

【００４４】

【数５】

【００４５】ディゾルブの間は、S₁(t), S₂(t)の双方が
０にはならない。

【００４６】

【数６】

【００４７】変化特性関数 E(t) の例は、変化強度関数
i(x,y,z) およびエッジ強度関数G(x, y, z) を含む。

【００４８】

【数７】

【００４９】ここで、i₁, i₂ は、第１および第２の未
編集動画シーケンスの強度を規定する。G₁ および G
₂は、イメージシーケンスI₁ および I₂ の、対応するエ
ッジイメージシーケンスの画素強度関数である。I_c お
よび G_c は、それぞれ、一定のイメージおよび一定のエ
ッジイメージの画素強度関数を表す。上述の数式では、
(x, y) がエッジ点ではない場合、G_k(x, y, t) = 0 で
あることに留意されたい。そのため、エッジイメージ内
のエッジ点のみが、この特性関数に寄与する。

【００５０】フェード変化に対する分析が行われるショ
ット内のフレーム数に基づいて、減少関数の値、およ
び、フェード変化検出に用いられる重み関数が、線形関
数生成部１８４により設定される（図９のステップ１９
０）。ステップ１９４では、各フレームの高周波係数の
和が計算される。

【００５１】

【数８】

【００５２】ステップ１９６において、差分回路１８８
は、線形関数生成部１８４により出力された減少関数
と、各フレームに対して、和信号生成部１８０により出
力された和の差分を生成する。ステップ２００で判断さ
れるように、差分が、ショットシーケンスの各フレーム
に対してほぼ０であれば、すなわち、

【００５３】

【数９】

【００５４】であれば、ステップ２０２において、フェ
ードアウトが生じる。そうでない場合には、ステップ２
０４において、差分回路は、和から、（１−減少関数）
を減算する。ステップ２０８で判断されるように、差分
が、ショットの各フレームに対してほぼ０であれば、す
なわち

【００５５】

【数１０】

【００５６】であれば、ステップ２１０において、フェ
ードインが示される。そうでない場合には、ステップ２
１２において、フェードイン変化もフェードアウト変化
も存在しないとされる。

【００５７】図１０を参照して、ディゾルブセグメント
収集部１３８がより詳細に示されている。ディゾルブセ
グメント収集部１３８は、ＨＦＣ生成部１２４に接続さ
れている。各フレームについての高周波係数は、合計さ
れる。

【００５８】

【数１１】

【００５９】理想ディゾルブ信号生成部２２４は、変化
統計関数である理想ディゾルブ関数を生成する。スムー
ジングフィルタ２２８は、合計されたＨＦＣを平滑化す
る。差分回路２２９は、理想ディゾルブ信号生成部２２
４の出力と、平滑化され合計されたＨＦＣ出力との差分
を生成する。ステップ２３０で判断されるように、その
差分がほぼ０であれば、すなわち

【００６０】

【数１２】

【００６１】であれば、T₀ およびT_Nは、ディゾルブの
可能性がある開始点および終了点として示される。実験
結果によれば、ＨＦＣは、色ヒストグラム、フレーム差
分、および動きベクトル解析と比較しても、より正確に
フェードおよびディゾルブを予測する。一般に、ディゾ
ルブ変化のS _H(t) は、「Ｕ」字形であり、その中央が、
ディゾルブ変化の可能性のある中央点を識別する局所的
最小値になっている。また、両側の局所的最大値は、デ
ィゾルブ変化の可能性のある開始点および終了点を識別
する。

【００６２】図１０および１１を参照して、ディゾルブ
変化確認部１４２がより詳細に示されている。ディゾル
ブ変化確認部１４２は、ディゾルブセグメント収集部１
３８に接続されており、そこから、ディゾルブ変化の可
能性がある開始点および終了点を受け取る。ディゾルブ
変化確認部１４２は、ＬＦＣシグニチャ１２０に接続さ
れ、２重フレーム差分（ＤＦＤ）生成部２５０を含む。
２重フレーム差分（ＤＦＤ）生成部２５０は、ディゾル
ブセグメント収集部１３８の出力に接続されている。

【００６３】理想ディゾルブは、「Ｖ」字形の強度関数
を有し、シーケンスにおいて、局所的な動作またはカメ
ラ動作は存在しない。第１ショットの強度の変化は、負
の傾きを有し、線形である。強度i(x, y, i_k) を有する
フレームi_k が存在する。これは、N=2m+1 のとき、ディ
ゾルブの開始フレームおよび終了フレームi(x, y, i _k)
および i(x, y, i_k) の平均強度と等しい。すなわち、
数１３に示すようになる。

【００６４】

【数１３】

【００６５】(N=2m (N: 整数)のとき、i_kは擬似フレー
ムであることに留意されたい。)動画シーケンスＩのフ
レームi_dのＤＦＤは、この平均値と、フレームi_dとの画
素対画素比較の累積として規定される。ここで、i_dは、
可能性のあるディゾルブ変化セグメントにおけるフレー
ムである。

【００６６】

【数１４】

【００６７】ディゾルブ変化確認部１４２は、さらに、
スムージングフィルタ２５４を含む。スムージングフィ
ルタ２５４は、ＤＦＤ信号の出力を平滑化する。確認済
みディゾルブ変化収集部２５６は、映像シーケンスに対
する、確認されたディゾルブ変化データを格納する。

【００６８】図１１を参照して、ステップ２６０におい
て、ＤＦＤ信号生成部２５０は、ディゾルブセグメント
収集部１３８により提供される開始点および終了点に対
するＬＦＣシグニチャに関するＤＦＤ信号を計算する。
ステップ２６４において、スムージングフィルタ２５４
は、ＤＦＤ信号生成部２５０から提供されたデータをフ
ィルタリングする。ステップ２６６において、ＤＦＤ信
号の傾きは、ＤＦＤ信号が凹状かどうか（すなわち、数
１５が成り立つかどうか）

【００６９】

【数１５】

【００７０】および、凹状の深さが閾値を超えるかどう
かを識別するのに用いられる。両方が成り立つ場合、ス
テップ２０８において、ディゾルブ変化が示される。一
方または双方が成り立たない場合、ステップ２６９にお
いて、ディゾルブ変化は存在しないとされる。

【００７１】理解できるように、自動映像インデックス
システム８０は、激しいショット変化および緩慢なショ
ット変化の両方が識別のできる可能性が高い映像シーケ
ンスを、自動的にインデックス付けする。さらに、第１
のフレーム、中間フレーム、またはフレームの組み合わ
せを選択することにより、イメージ読み出し、および、
要約するため、各ショットからキーフレームが選択でき
る。

【００７２】図１２を参照して、イメージ読み出しシス
テム３００が示されている。図５からの参照符号が用い
られており、図１２において、同様の構成要素を識別す
るのに利用される。イメージ読み出しシステム３００
は、問い合わせイメージキャプチャ装置３１０を含む。
問い合わせイメージキャプチャ装置３１０は、Ｉ／Ｏ機
器１０４を利用する。問い合わせイメージは、写真また
はスケッチを取り込むスキャナなどのＩ／Ｏ機器１０４
を用いて入力できる。プロセッサ８４およびメモリ８６
に関連する描画ソフトウェアもまた、スケッチを入力す
るのに利用できる。また、問い合わせイメージは、イン
ターネット上で選択し、ポータブル記録メディアを用い
て入力し、ハードドライブに格納でき、または、データ
ベース９２、９４、および、９６から選択できる。他の
適切な問い合わせイメージソースは、当業者には明らか
であろう。問い合わせイメージキャプチャ装置３１０
は、周波数分解部３１２に接続される。周波数分解部３
１２は、ウェーブレット変換、ＤＦＴ、ＤＣＴ、ＦＦ
Ｔ、または、他の適切な周波数領域変換を用いて、問い
合わせイメージの周波数分解を行う。しかし、好ましく
は、Ｈａａｒ変換を用いたウェーブレット分解が利用さ
れる。

【００７３】周波数分解部３１２の出力は、ＬＦＣ生成
部３１４およびＨＦＣ生成部３１６に接続される。イメ
ージ読み出し装置３２０は、少なくとも１つのデータベ
ース９２、９４、および、９６からの問い合わせイメー
ジとの比較のため、イメージを読み出す。イメージ読み
出し装置３２０は、周波数分解部３２２にイメージを出
力する。周波数分解部３２２は、同様に、ウェーブレッ
ト変換、ＤＣＴ、ＤＦＴ、ＦＦＴ、または、他の適切な
周波数領域変換を行う。

【００７４】周波数分解部３２２の出力は、ＬＦＣ生成
部３２４およびＨＦＣ生成部３２６に入力される。ＬＦ
Ｃ生成部３１４および３２４の出力は、ＬＦＣ重み付け
装置３３０に入力される。ＨＦＣ生成部３１６および３
２４の出力は、ＨＦＣ重み付け装置３４０に入力され
る。適切な重み付けが行われると、Ｓ距離生成部３４２
はＳ距離測定値を生成する。

【００７５】フレームｔおよび（ｔ＋１）に行われるＳ
距離測定は、問い合わせイメージおよびデータベースイ
メージに関して行われる。S(t, t+1) は、S(Q, φ) で
置換される。ここで、Qは問い合わせイメージを表し、
φ_nは、データベース内のｎ番目のイメージを表す。

【００７６】

【数１６】

【００７７】問い合わせイメージQに対して、最小のＳ
距離測定値を有するイメージは、テキストベースの閲覧
および検索と同様の方法で、読み出し結果を類似度が最
大のものから最小のものの順に戻される。

【００７８】理解できるように、問い合わせイメージ
は、イメージデータベース９２、９４または９８からの
複数のイメージと比較され、Ｓ距離測定値は、とイメー
ジとデータベースイメージとの相対的な類似度を規定す
る。その結果、プロセッサ８４、および、メモリ８６
は、類似度が最大のものから最小のものの順で問い合わ
せイメージを配列し、ユーザによる選択のため、問い合
わせ結果をＩ／Ｏ機器１０４の１つに出力する。

【００７９】図１３を参照して、第２の実施の形態のイ
メージ読み出しシステム３５０が示されている。問い合
わせイメージキャプチャ装置３５２は、上述のようにし
て問い合わせイメージを取り込む。イメージ読み出し部
３５４は、問い合わせイメージとの比較のため、イメー
ジを読み出す。どのようにイメージが格納されるかに応
じて、イメージ読み出し部３５４の出力は、点線３６５
で示されるように、周波数分解部３５６、ＬＦＣ信号生
成部３５８、ＨＦＣ信号生成部３６０、ＬＦＣおよびＨ
ＦＣ重み装置３６４へと入力される。Ｓ距離測定値の処
理は、図１２に関して上で説明したと同じである。デー
タベースイメージ上での処理をいくつか削除することに
より、計算効率が改善される。

【００８０】上記から、本発明は、データベースイメー
ジと問い合わせイメージとの間の類似度に基づいて、問
い合わせイメージに適合した、考えられるデータベース
イメージのリストを生成する。図５、６および８には、
別々の機能ブロックがみられるが、当業者であれば、こ
れらの機能は、複数の機能を行うより大きな機能ブロッ
クに組みあわせることができる。イメージ読み出しシス
テムによれば、大型のデータベースでイメージを検索で
きる。拡張イメージデータベースを閲覧しおよび検索す
ることは、劇的に簡単化される。

【００８１】現在の好ましい実施の形態で本発明を説明
した。本発明は、添付の特許請求の範囲で説明されるよ
うに、本発明の精神から逸脱することなく、修正および
変更が可能であることが理解される。

【００８２】

【発明の効果】本発明のイメージ読み出しシステムによ
れば、大型のデータベースでイメージを検索できる。拡
張イメージデータベースを閲覧しおよび検索すること
は、劇的に簡単化される。

【図面の簡単な説明】

【図１】複数のショットを含む映像シーケンスを示す
図である。

【図２】カット変化に関連する映像シーケンスの複数
のフレームを示す図である。

【図３】フェード変化に関連する映像シーケンスの複
数のフレームを示す図である。

【図４】ディゾルブ変化に関連する映像シーケンスの
複数のフレームを示す図である。

【図５】本発明による自動映像インデックス化システ
ムを示す機能ブロック図である。

【図６】図５のカット変化検出部をさらに詳細に示す
機能ブロック図である。

【図７】図６のカット変化検出部のフローチャートで
ある。

【図８】図５のフェード検出部をさらに詳細に示すフ
ローチャートである。

【図９】図８のフェード変化検出部のフェード変化検
出を示すフローチャートである。

【図１０】図５のディゾルブ変化セグメント収集部さ
らに詳細に示すフローチャートである。

【図１１】ディゾルブ変化確認部の動作を示すフロー
チャートである。

【図１２】イメージ読み出しシステムの、ある実施例
の機能ブロック図である。

【図１３】イメージ読み出しシステムの、第２の実施
例の機能ブロック図である。

Claims

【特許請求の範囲】

【請求項１】複数のフレームを含む映像シーケンスを
提供する映像ソースであって、複数のフレームの各々
は、複数の画素を含む映像ソースと、前記映像ソースに接続され、前記複数のフレームの各々
について、シグニチャを生成する周波数分解部と、ウェーブレット変換係数を表す行列を利用する前記シグ
ニチャを格納するデータ構造体であって、各係数は、重
要度の基準に基づいて選択された個々の重み因子が乗算
されるデータ構造体と、前記映像ソースおよび前記周波数分解部に接続され、前
記データ構造体に格納された前記シグニチャを用いて、
隣接する２つのフレーム間でカット変化を識別するカ
ット検出部とを備えた、映像セグメント化システム。
【請求項２】前記低周波シグニチャは、ｘ×ｙの係数
の第１の組を含む、請求項１に記載の映像セグメント化
システム。
【請求項３】前記映像シーケンスは圧縮されたフォー
マットであり、前記フレームの各々は、複数の画素を含
む複数のブロックを含み、前記ブロックの各々は直流
（ＤＣ）輝度信号および交流（ＡＣ）輝度信号を有す
る、請求項１に記載の映像セグメント化システム。
【請求項４】前記周波数分解部は、ウェーブレット分
解、離散フーリエ変換（ＤＦＴ）、および離散コサイン
変換の少なくとも１つを利用する、請求項１に記載の映
像セグメント化システム。
【請求項５】前記周波数分解部は、Haar変換を用いる
ウェーブレット変換分解を利用する、請求項４に記載の
映像セグメント化システム。
【請求項６】前記カット検出部が、カット閾値信号を生成するカット閾値生成部と、前記周波数分解部に接続され、第１のフレームに対する
ｘ×ｙの係数の第１の組と、前記第１のフレームに隣接
する第２のフレームに対するｘ×ｙの係数の第１の組と
を比較することにより、差分信号を生成する差分信号生
成部と、前記カット閾値生成部および前記差分信号生成部と接続
され、前記差分信号が前記カット閾値信号より大きい場
合には、前記隣接する２つのフレーム間のカット変化を
識別する比較部とを備えている、請求項２に記載の映像
セグメント化システム。
【請求項７】前記差分信号生成部は、前記差分信号を
計算する前に、重み関数を適用する、請求項１に記載の
映像セグメント化システム。
【請求項８】前記周波数分解部は、前記複数のフレー
ムの各々に対して、ｘ×ｙの係数の第２の組を含む高周
波シグニチャを生成する、請求項２に記載の映像セグメ
ント化システム。
【請求項９】前記カット検出部は、第１のカット変化
および第２のカット変化を識別する、請求項８に記載の
映像セグメント化システム。
【請求項１０】前記映像シーケンスの隣接するフレー
ムのシーケンスに対して、前記高周波シグニチャを用い
てフェード変化を識別するフェード変化検出部であっ
て、フェード変化は前記第１のカット変化および第２の
カット変化の間に存在するフェード変化検出部をさらに
備えた、請求項９に記載の映像セグメント化システム。
【請求項１１】前記フェード検出部は、前記第１のカット変化および第２のカット変化の間に存
在する前記フレームの各々に対して、フェード閾値を割
り当てる線形信号生成部と、前記第１のカット変化および第２のカット変化の間に存
在する前記フレームの各々に対して、前記高周波シグニ
チャにおけるｘ×ｙの係数の第２の組を加算することに
より和信号を提供する和信号生成部と、前記線形信号生成部と、前記和信号生成部とに接続さ
れ、前記和信号を、前記第１のカット変化および第２の
カット変化の間に存在する前記フレームの各々に対する
前記フェード閾値と比較し、前記第１のカット変化およ
び第２のカット変化の間に存在する前記フレームの各々
に対して、前記和信号と前記フェード閾値とがほぼ等し
い場合に、フェード変化を示す比較回路とをさらに備え
た、請求項１０に記載の映像セグメント化システム。
【請求項１２】前記線形信号生成部は、フェードアウ
ト変化を識別する減少線形信号、および、フェードイン
変化を識別する増加線形信号を提供する、請求項１１に
記載の映像セグメント化システム。
【請求項１３】前記第１のカット変化および第２のカ
ット変化の間に存在する前記映像シーケンスの隣接する
フレームに対して、前記低周波シグニチャおよび前記高
周波シグニチャを用いてディゾルブ変化を識別するディ
ゾルブ検出部をさらに備えた、請求項９に記載の映像セ
グメント化システム。
【請求項１４】ディゾルブ検出部は、前記ディゾルブ
変化の可能性のある開始点および終了点を識別するディ
ゾルブセグメント収集部と、前記可能性のある開始点および終了点を確認するディゾ
ルブ変化確認部とを備えた、請求項１３に記載の映像セ
グメント化システム。
【請求項１５】前記ディゾルブセグメント収集部は、前記高周波成分に基づいて和信号を生成する合計部と、ディゾルブ信号を生成するディゾルブ生成部と、前記合計部、および、前記ディゾルブ生成部に接続さ
れ、前記和信号および前記ディゾルブ信号に基づいて差
分信号を生成する差分生成部と、前記差分生成部に接続され、前記ディゾルブ変化の可能
性のある開始点および終了点を識別する開始終了識別部
とを含む、請求項１４に記載の映像セグメント化システ
ム。
【請求項１６】前記ディゾルブセグメント収集部は、
前記合計部、および、前記差分生成部の間に接続された
スムージングフィルタを含む、請求項１５に記載の映像
セグメント化システム。
【請求項１７】前記ディゾルブ変化確認部は、前記可
能性のある開始点および終了点に関する２重フレーム差
分アルゴリズムを利用する、請求項１６に記載の映像セ
グメント化システム。
【請求項１８】問い合わせイメージソースと、複数のイメージを含むデータベースと、前記映像ソースおよび前記問い合わせイメージソースと
に接続され、前記問い合わせイメージおよび前記データ
ベースイメージに対して、低周波シグニチャおよび高周
波シグニチャを生成する周波数分解部であって、前記シ
グニチャをデータ構造体に格納し、ウェーブレット変換
係数を表す行列を利用し、各係数には、重要度の基準に
基づいて選択された個々の重み因子が乗算される周波数
分解部と、前記データ構造体に格納された前記シグニチャに基づい
て、前記データベースイメージの各々に対してＳ距離測
定値を生成するＳ距離生成部とを備えた、映像読み出し
システム。
【請求項１９】前記Ｓ距離生成部は、前記問い合わせ
イメージの前記低周波信号および高周波信号と、前記デ
ータベースイメージとを比較して、Ｓ距離測定値を生成
する、請求項１８に記載の映像読み出しシステム。
【請求項２０】前記データベースイメージは、前記Ｓ
距離測定値に基づいて、最も高い類似度から最も低い類
似度の順で戻される、請求項１９に記載の映像読み出し
システム。